声明:本文来自于微信公众号 AI新榜,作者:阿虎,授权靠谱客转载发布。

最近刷屏AI圈的大事件,无外乎MiniMax推出了视频生成工具海螺AI。

科技博主们对它寄予厚望,纷纷感叹“忘了Sora,MiniMax的视频生成模型已经获得了巨大进步”“中国又出了一个强力竞争对手”“我见过手部动作最自然的模型”……

图片

image.png

电影制作人们用它开始玩起了短片,赛博科幻风、暗黑恐怖风都没在怕的。

图片

短片《A Place in Hell》

截至目前,海螺AI生成视频合集在X平台上获得了超1800万浏览量,不少国外网友用它对知名IP进行二创,《星球大战》的经典场面已经获得了约500万次的观看。

图片

这款刷屏各个社交平台的视频生成工具——海螺AI,由大模型公司MiniMax自研发布,可以一次性生成长度为6秒的短视频。

8月31日,MiniMax发布了一段以“魔法硬币”为主题的宣传视频,视频画面、音效完全由MiniMax旗下的视频、语音大模型完成。

目前,海螺AI的视频创作功能已经在网页端上线,用户可在首页点击“创作视频”,即可限时免费生成视频。

“AI新榜”也进行了一番实测,涵盖人物、文字、风景等多种镜头表现类型,我们意外发现在人物情绪表达、镜头运动等视频类型上,MiniMax展现出了一定优势。当然,我们也在测试过程中遇到了一些海螺AI的问题和短板。

本篇将结合不同视频生成工具的呈现效果,包括文生视频公认的王者Runway以及媲美Sora的国内AI可灵,看看MiniMax究竟能不能成为视频生成赛道的最强黑马?

01

实测MiniMax海螺AI,生成视频有了“人味”?

根据不少创作者的测试反馈,海螺AI在人物表情生成上表现相当出色。

“情绪表达”对于AI来说是一个难题,Runway旗下的模型达到情绪转换,往往需要借助运动笔刷功能,进行细节调试,更不用说直接能借助提示词转换情感表达了。

image.png

图片来源:科技博主“歸藏”发布的视频截图

海螺AI真能让人物实现“光速变脸”?我们来上手测试一下。

人物类

提示词:一个中年悲伤的秃头男人突然变得快乐,因为有人给他戴上了一顶假发和一副太阳镜。

海螺:

image.png

可灵:

image.png

Runway:

image.png

在没有风格提示词的情况下,无论是可灵、海螺还是Runway,都会生成写实风格的视频。

不同的是,短短6秒内,海螺展现了一个中年男人从悲伤到快乐到尴尬的变脸故事。可灵没有遵循文字提示中的具体动作转变——“戴上了假发和眼镜”,而是展现了中年男人已经戴上的状态。

Runway这轮生成的视频中出现了肉眼可见的技术瑕疵,既没有假发的元素,还直接让主角自己戴上了太阳镜。

我们继续在提示词上加些难度,比如多人场景,并且要求人物的心情不同。

提示词:一个中年悲伤的秃头男人突然变得快乐,因为有人给他戴上了一顶假发和一副太阳镜。旁边有位女士正看着他笑。

海螺:

image.png

可灵:

image.png

Runway:

image.png

令人惊喜的是,海螺巧妙地将另外一个人物虚化处理,区别前后景,并且两个人的表情也截然不同。尽管在佩戴假发和太阳镜动作处理上有些不自然,但总的来说控制住了多人物的场景。

根据相同的提示词,可灵生成的画面有所欠缺,对于“女士”的表现只有隐约的长发,人物面部表情、动态效果处理都有所欠缺。

再看Runway,它无法生成两个人物截然不同的面部表情,要笑一起笑,要戴眼镜一起戴,颇有“荣辱与共”的生成使命感。

另外,在人物镜头生成过程中,我们发现不同于Runway生成名人形象会得到违反内容政策的提示,MiniMax在这一方面限制较少,比如可以生成带点“老铁味”的马斯克。

image.png

文字类

测试下来,海螺在英文文字输出方面也很成熟,并且还能一次性生成连续的镜头,改变画面的明亮程度。

image.png

提示词:镜头缓缓推近,一面昏暗的墙上有一个灯箱闪烁了几次,然后亮起文字“AIGCPLAYER”,发出彩色的灯光,赛博朋克风格

Runway生成文字向来可圈可点,在动态效果表现上优于海螺,但运镜转换上仍有提升空间。

image.png

可灵目前还无法做到文字类镜头生成,对于“昏暗”的理解到位,画面氛围感十足,但英文文字完全错误。

image.png

风景写实类

提示词:一只毛绒质感的小黄鸭,特写镜头展示了小黄鸭柔软的黄色羽毛和圆圆的眼睛。小黄鸭头顶大葱,在上海的黄浦江上游,翅膀灵动地拨动着水面。

Aplushtextureofasmallyellowduck,close-upshotsshowitssoftyellowfeathersandroundeyes.Littleyellowduckwithscallionsonitshead,flutteringitswingsonthewatersurfaceintheupperreachesoftheHuangpuRiverinShanghai.

根据“AI新榜”此前多轮测试,大多数主流模型在风景写实类镜头上表现都比较稳定。这次挑战的海螺、可灵和Runway在效果上也各有千秋。

海螺:

image.png

可灵:

image.png

Runway:

image.png

论真实性,没有什么能够比得过可灵。但可灵在地标建筑上稍有欠缺,背景并没有体现上海、黄浦江等关键元素。

海螺对于光影和背景处理更胜一筹,但生成的小黄鸭更有塑料感,没有很好表现出提示词中的“毛绒感”,更像一只玩具鸭。

Runway生成的画面直接采用特写镜头,巧妙地解决了背景处理的问题。

镜头运动

镜头运动其实也涵盖了各个视频模型对于长文本的理解能力,我们投喂的提示词如下:

Adramaticcloseshotofastormyoceanwithtoweringwavescrashingagainstasmallship.Amonstrouscreatureisemergingfromthedepthsofthesea,itsmassiveformbreakingthroughthewater,sendingspraysofoceanmistintotheair.

Theship,dwarfedbythecreature,tiltsprecariouslyontheturbulentwaves.Onboard,alonemanstandsatthebow,grippingtherailingtightly,staringinaweandterroratthemonstrousfigurerisingbeforehim.Thesceneislitwithintense,cinematic.

广角镜头,一张暴风雨般的大海,巨浪拍打着一艘小船的戏剧性照片。一个巨大的生物正从深海中出现,它巨大的体型冲破水面,向空中喷射出海洋薄雾。那艘船在汹涌的波涛中摇摇欲坠,与那生物相比显得矮小。船上,一个孤独的人站在船头,紧紧抓住栏杆,敬畏而恐怖地盯着面前升起的怪物。现场充满了强烈的电影感。

整体生成效果上,只有海螺达到了“镜头运动”的效果,并且没有出现重影、崩坏等严重的画面瑕疵。MiniMax前端开发佳心也在即刻平台分享,加上更多镜头描述,比如“镜头跟随(主体)”,画面会更具电影感。

image.png

只不过,提示词要素过多,导致最终的人物仅是一闪而过,如果分段进行生成,能达到更好的画面效果。

可灵:

image.png

Runway:

image.png

总的来说,海螺AI对于提示词的理解能力在线,生成的视频内容连贯性和可控性上把握得当。在微表情变化、运镜表现上更细节、更具优势,甚至能够很好刻画出人物的情绪转换。

可以说,我们总希望的AI能有“人味儿”,MiniMax先浅浅往前跨了一小步。

大家可以再直观感受一下,海螺AI在“情绪表达”上的能力:

image.png

值得一提的是,我们在尝试过程中发现,不少使用英文提示词生成的画面,明显优于中文提示词生成的。比如,前文巨浪的画面使用中文的效果是:

image.png

还有同样是让婴儿开摩托车:

提示词:一个婴儿骑着摩托车下山,一对父母骑着摩托车跟在后面,下坡的电影动作场景,快节奏,高速动作。

Acinematicactionsceneofababydrivingofamountain,downhill,onamotorcycle.Parentsarefollowinghim,onamotorcycle.Fastpaced,highspeedaction.

中文版:

image.png

英文版:

image.png

中文版完全没有办法理解“婴儿”这一词,但英文的“baby”就表现得很恰当。在中文提示词下,人物表情扭曲、画面崩坏的问题会更加明显,在真实感上会有所欠缺。

在测试过程中,除了中英文提示词效果不同外,我们也遇到了其他问题,剩了不少废片。比如,它默认生成的欧美面孔偏多,缺少国风元素。和其他工具一样,如果追求高质量的画面,海螺AI就避免不了“抽卡”的环节。

另外,海螺AI暂不支持并行生成多个视频,无法调整画面比例,这在一定程度上也限制了视频内容的再创作。

不过,MiniMax创始人闫俊杰在接受多家媒体采访时提前预告称,未来产品会迭代图生视频功能,增加视频可控制、可编辑等功能。未来几周内,MiniMax还会发布从速度和效果上都对标GPT-4o的大模型abab7。

国产大模型加速赶超,MiniMax能否脱颖而出

短短几个月,文生视频的竞争已然走向白热化。

AI视频生成在画面流畅度、物理世界模拟、长文本理解等方面都有显著的提升,早已褪去切片式“动态PPT”的效果,转变成可使用的创作工具。

且不说海外的Runway、Luma、Pika,近半年内国内就出现了可灵、清影、Vidu等视频生成工具,一时让人抉择不出哪家效果最好

此前,“AI新榜”对10家国内外热门的AI视频生成工具进行过实测盘点,感兴趣的玩家可移步阅读。(相关阅读:《可灵制作短片惊艳马斯克,所以最好用的AI视频工具究竟是谁?》)

结合我们此前的实测和玩家反馈,几家AI视频产品各有特色。

就国内来看,可灵在国风元素、对物理世界理解上具有独特优势,所以生成画面更具备真实感;生数科技的Vidu生成耗时短;即梦是几家中综合性价比较高的一款工具。

国外,Runway Gen-3在长文本语义理解上跃升了新台阶;Luma Dream Machine在动幅和想象力上十分出色,因此网友大多用它来玩梗造梗。

MiniMax的海螺AI在人物细节和情绪表现上找到了自己的赛道。这一特点也让海螺AI吸引了海内外创作者对视频生成的又一轮创作热情。

比如,博主“Lepadphone”用19个哭泣相关的提示词,让海螺AI生成了一组视频。

图片

来源:视频号用户“Lepadphone”

“Min Choi”的视频展现了多人物场景,该视频在X平台上获赞2.8万。

在此前MiniMax伙伴日活动上,闫俊杰提到,MiniMax一直在解决视频生成的稳定性等难题,让模型的输入输出尽可能长,让AI更进一步像人。之前基于文本的底层基础设施,处理清洗数据、标注等等都不太适用视频,因为视频是千万token的输入和输出,天然具备复杂性。

碍于技术层面上的多重挑战,MiniMax入局AI视频,显得有些姗姗来迟。

最初,“海螺AI”其实是一款类ChatGPT的AI助手,早前被人熟知是因为它的声音克隆功能,超拟人的音效营造了和真人聊天的情境,吸引了不少网友和它互动聊天。

图片

在语音大模型、文本对话上具有明显优势的Minimax,卷起了视频生成。海螺AI的网页端上,我们可以看到搭载了创作音乐、创作视频、对话搜索等新能力。

用户甚至可以一站式完成文本到有声音的视频。MiniMax背后的abab-music和abab-video模型,使得这一直出工作流成为可能。

闫俊杰在最新的分享中称,人类大部分的交流在多模态里。本质上纯文字信息占比少,更多的是通过图文、短视频等信息交流,甚至购物也都是图片为主。所以为了用户的覆盖度和使用度,能够输出动态内容是更核心、更重要的。

这可能也是今年AI视频应用爆发的原因之一,从大厂到初创公司,国内外众多企业纷纷加入到这场技术竞赛中,一时间视频生成赛道显得十分拥挤且激烈。

技术层面上,各家开始卷起了视频控制功能、确保内容连贯性和质量。近期,快手可灵面向超级创作者内测了1.5版本以及运动笔刷功能,旨在进一步提升视频画面的可控性。

AI视频模型的落地,已经不仅仅是技术上的较量。另一方面,在国内大模型To C产品免费为主的情况下,AI视频生成工具大多开启了付费订阅模式,快手可灵、字节即梦、智谱清影陆续上线了会员体系。

此前,AI视频创作者Abel Art曾估计,1分钟连贯的视频比例约为500个视频片段,用现有AI工具制作1分钟视频的成本大约在125美元(约890元人民币),相当于租借电影镜头一天。

这仅仅是个人创作者的算力和资金消耗,在这样的背景下,高算力需求和推理成本还能让MiniMax限时免费多久?

闫俊杰谈及大家关注的商业化问题,还是很谨慎。他提到:“最重要的东西还不是商业化,是提高AI产品在用户中的渗透率,比如说海螺打磨出新的功能,直到有用户粘性,是真正地让技术到达广泛可用的程度。”

(举报)

点赞(72)

评论列表共有 0 条评论

立即
投稿
返回
顶部