试了试MiniMax新出的Al视频模型，发现它生成人物的“演技”吊打内娱

2024-09-14 04:00 304 阅读 0 评论 201 点赞

声明：本文来自于微信公众号 AI新榜，作者：阿虎，授权热心网友转载发布。

最近刷屏AI圈的大事件，无外乎MiniMax推出了视频生成工具海螺AI。

科技博主们对它寄予厚望，纷纷感叹“忘了Sora，MiniMax的视频生成模型已经获得了巨大进步”“中国又出了一个强力竞争对手”“我见过手部动作最自然的模型”……

电影制作人们用它开始玩起了短片，赛博科幻风、暗黑恐怖风都没在怕的。

短片《A Place in Hell》

截至目前，海螺AI生成视频合集在X平台上获得了超1800万浏览量，不少国外网友用它对知名IP进行二创，《星球大战》的经典场面已经获得了约500万次的观看。

这款刷屏各个社交平台的视频生成工具——海螺AI，由大模型公司MiniMax自研发布，可以一次性生成长度为6秒的短视频。

8月31日，MiniMax发布了一段以“魔法硬币”为主题的宣传视频，视频画面、音效完全由MiniMax旗下的视频、语音大模型完成。

目前，海螺AI的视频创作功能已经在网页端上线，用户可在首页点击“创作视频”，即可限时免费生成视频。

“AI新榜”也进行了一番实测，涵盖人物、文字、风景等多种镜头表现类型，我们意外发现在人物情绪表达、镜头运动等视频类型上，MiniMax展现出了一定优势。当然，我们也在测试过程中遇到了一些海螺AI的问题和短板。

本篇将结合不同视频生成工具的呈现效果，包括文生视频公认的王者Runway以及媲美Sora的国内AI可灵，看看MiniMax究竟能不能成为视频生成赛道的最强黑马?

实测MiniMax海螺AI，生成视频有了“人味”?

根据不少创作者的测试反馈，海螺AI在人物表情生成上表现相当出色。

“情绪表达”对于AI来说是一个难题，Runway旗下的模型达到情绪转换，往往需要借助运动笔刷功能，进行细节调试，更不用说直接能借助提示词转换情感表达了。

图片来源:科技博主“歸藏”发布的视频截图

海螺AI真能让人物实现“光速变脸”?我们来上手测试一下。

人物类

提示词:一个中年悲伤的秃头男人突然变得快乐，因为有人给他戴上了一顶假发和一副太阳镜。

海螺:

可灵:

Runway:

在没有风格提示词的情况下，无论是可灵、海螺还是Runway，都会生成写实风格的视频。

不同的是，短短6秒内，海螺展现了一个中年男人从悲伤到快乐到尴尬的变脸故事。可灵没有遵循文字提示中的具体动作转变——“戴上了假发和眼镜”，而是展现了中年男人已经戴上的状态。

Runway这轮生成的视频中出现了肉眼可见的技术瑕疵，既没有假发的元素，还直接让主角自己戴上了太阳镜。

我们继续在提示词上加些难度，比如多人场景，并且要求人物的心情不同。

提示词:一个中年悲伤的秃头男人突然变得快乐，因为有人给他戴上了一顶假发和一副太阳镜。旁边有位女士正看着他笑。

海螺:

可灵:

Runway:

令人惊喜的是，海螺巧妙地将另外一个人物虚化处理，区别前后景，并且两个人的表情也截然不同。尽管在佩戴假发和太阳镜动作处理上有些不自然，但总的来说控制住了多人物的场景。

根据相同的提示词，可灵生成的画面有所欠缺，对于“女士”的表现只有隐约的长发，人物面部表情、动态效果处理都有所欠缺。

再看Runway，它无法生成两个人物截然不同的面部表情，要笑一起笑，要戴眼镜一起戴，颇有“荣辱与共”的生成使命感。

另外，在人物镜头生成过程中，我们发现不同于Runway生成名人形象会得到违反内容政策的提示，MiniMax在这一方面限制较少，比如可以生成带点“老铁味”的马斯克。

文字类

测试下来，海螺在英文文字输出方面也很成熟，并且还能一次性生成连续的镜头，改变画面的明亮程度。

提示词:镜头缓缓推近，一面昏暗的墙上有一个灯箱闪烁了几次，然后亮起文字“AIGCPLAYER”，发出彩色的灯光，赛博朋克风格

Runway生成文字向来可圈可点，在动态效果表现上优于海螺，但运镜转换上仍有提升空间。

可灵目前还无法做到文字类镜头生成，对于“昏暗”的理解到位，画面氛围感十足，但英文文字完全错误。

风景写实类

提示词:一只毛绒质感的小黄鸭，特写镜头展示了小黄鸭柔软的黄色羽毛和圆圆的眼睛。小黄鸭头顶大葱，在上海的黄浦江上游，翅膀灵动地拨动着水面。

Aplushtextureofasmallyellowduck，close-upshotsshowitssoftyellowfeathersandroundeyes.Littleyellowduckwithscallionsonitshead，flutteringitswingsonthewatersurfaceintheupperreachesoftheHuangpuRiverinShanghai.

根据“AI新榜”此前多轮测试，大多数主流模型在风景写实类镜头上表现都比较稳定。这次挑战的海螺、可灵和Runway在效果上也各有千秋。

海螺:

可灵:

Runway:

论真实性，没有什么能够比得过可灵。但可灵在地标建筑上稍有欠缺，背景并没有体现上海、黄浦江等关键元素。

海螺对于光影和背景处理更胜一筹，但生成的小黄鸭更有塑料感，没有很好表现出提示词中的“毛绒感”，更像一只玩具鸭。

Runway生成的画面直接采用特写镜头，巧妙地解决了背景处理的问题。

镜头运动

镜头运动其实也涵盖了各个视频模型对于长文本的理解能力，我们投喂的提示词如下:

Adramaticcloseshotofastormyoceanwithtoweringwavescrashingagainstasmallship.Amonstrouscreatureisemergingfromthedepthsofthesea，itsmassiveformbreakingthroughthewater，sendingspraysofoceanmistintotheair.

Theship，dwarfedbythecreature，tiltsprecariouslyontheturbulentwaves.Onboard，alonemanstandsatthebow，grippingtherailingtightly，staringinaweandterroratthemonstrousfigurerisingbeforehim.Thesceneislitwithintense，cinematic.

广角镜头，一张暴风雨般的大海，巨浪拍打着一艘小船的戏剧性照片。一个巨大的生物正从深海中出现，它巨大的体型冲破水面，向空中喷射出海洋薄雾。那艘船在汹涌的波涛中摇摇欲坠，与那生物相比显得矮小。船上，一个孤独的人站在船头，紧紧抓住栏杆，敬畏而恐怖地盯着面前升起的怪物。现场充满了强烈的电影感。

整体生成效果上，只有海螺达到了“镜头运动”的效果，并且没有出现重影、崩坏等严重的画面瑕疵。MiniMax前端开发佳心也在即刻平台分享，加上更多镜头描述，比如“镜头跟随（主体）”，画面会更具电影感。

只不过，提示词要素过多，导致最终的人物仅是一闪而过，如果分段进行生成，能达到更好的画面效果。

可灵:

Runway:

总的来说，海螺AI对于提示词的理解能力在线，生成的视频内容连贯性和可控性上把握得当。在微表情变化、运镜表现上更细节、更具优势，甚至能够很好刻画出人物的情绪转换。

可以说，我们总希望的AI能有“人味儿”，MiniMax先浅浅往前跨了一小步。

大家可以再直观感受一下，海螺AI在“情绪表达”上的能力:

值得一提的是，我们在尝试过程中发现，不少使用英文提示词生成的画面，明显优于中文提示词生成的。比如，前文巨浪的画面使用中文的效果是:

还有同样是让婴儿开摩托车:

提示词:一个婴儿骑着摩托车下山，一对父母骑着摩托车跟在后面，下坡的电影动作场景，快节奏，高速动作。

Acinematicactionsceneofababydrivingofamountain，downhill，onamotorcycle.Parentsarefollowinghim，onamotorcycle.Fastpaced，highspeedaction.

中文版:

英文版:

中文版完全没有办法理解“婴儿”这一词，但英文的“baby”就表现得很恰当。在中文提示词下，人物表情扭曲、画面崩坏的问题会更加明显，在真实感上会有所欠缺。

在测试过程中，除了中英文提示词效果不同外，我们也遇到了其他问题，剩了不少废片。比如，它默认生成的欧美面孔偏多，缺少国风元素。和其他工具一样，如果追求高质量的画面，海螺AI就避免不了“抽卡”的环节。

另外，海螺AI暂不支持并行生成多个视频，无法调整画面比例，这在一定程度上也限制了视频内容的再创作。

不过，MiniMax创始人闫俊杰在接受多家媒体采访时提前预告称，未来产品会迭代图生视频功能，增加视频可控制、可编辑等功能。未来几周内，MiniMax还会发布从速度和效果上都对标GPT-4o的大模型abab7。

国产大模型加速赶超，MiniMax能否脱颖而出

短短几个月，文生视频的竞争已然走向白热化。

AI视频生成在画面流畅度、物理世界模拟、长文本理解等方面都有显著的提升，早已褪去切片式“动态PPT”的效果，转变成可使用的创作工具。

且不说海外的Runway、Luma、Pika，近半年内国内就出现了可灵、清影、Vidu等视频生成工具，一时让人抉择不出哪家效果最好。

此前，“AI新榜”对10家国内外热门的AI视频生成工具进行过实测盘点，感兴趣的玩家可移步阅读。（相关阅读:《可灵制作短片惊艳马斯克，所以最好用的AI视频工具究竟是谁?》）

结合我们此前的实测和玩家反馈，几家AI视频产品各有特色。

就国内来看，可灵在国风元素、对物理世界理解上具有独特优势，所以生成画面更具备真实感;生数科技的Vidu生成耗时短;即梦是几家中综合性价比较高的一款工具。

国外，Runway Gen-3在长文本语义理解上跃升了新台阶;Luma Dream Machine在动幅和想象力上十分出色，因此网友大多用它来玩梗造梗。

MiniMax的海螺AI在人物细节和情绪表现上找到了自己的赛道。这一特点也让海螺AI吸引了海内外创作者对视频生成的又一轮创作热情。

比如，博主“Lepadphone”用19个哭泣相关的提示词，让海螺AI生成了一组视频。

来源:视频号用户“Lepadphone”

“Min Choi”的视频展现了多人物场景，该视频在X平台上获赞2.8万。

在此前MiniMax伙伴日活动上，闫俊杰提到，MiniMax一直在解决视频生成的稳定性等难题，让模型的输入输出尽可能长，让AI更进一步像人。之前基于文本的底层基础设施，处理清洗数据、标注等等都不太适用视频，因为视频是千万token的输入和输出，天然具备复杂性。

碍于技术层面上的多重挑战，MiniMax入局AI视频，显得有些姗姗来迟。

最初，“海螺AI”其实是一款类ChatGPT的AI助手，早前被人熟知是因为它的声音克隆功能，超拟人的音效营造了和真人聊天的情境，吸引了不少网友和它互动聊天。

在语音大模型、文本对话上具有明显优势的Minimax，卷起了视频生成。海螺AI的网页端上，我们可以看到搭载了创作音乐、创作视频、对话搜索等新能力。

用户甚至可以一站式完成文本到有声音的视频。MiniMax背后的abab-music和abab-video模型，使得这一直出工作流成为可能。

闫俊杰在最新的分享中称，人类大部分的交流在多模态里。本质上纯文字信息占比少，更多的是通过图文、短视频等信息交流，甚至购物也都是图片为主。所以为了用户的覆盖度和使用度，能够输出动态内容是更核心、更重要的。

这可能也是今年AI视频应用爆发的原因之一，从大厂到初创公司，国内外众多企业纷纷加入到这场技术竞赛中，一时间视频生成赛道显得十分拥挤且激烈。

技术层面上，各家开始卷起了视频控制功能、确保内容连贯性和质量。近期，快手可灵面向超级创作者内测了1.5版本以及运动笔刷功能，旨在进一步提升视频画面的可控性。

AI视频模型的落地，已经不仅仅是技术上的较量。另一方面，在国内大模型To C产品免费为主的情况下，AI视频生成工具大多开启了付费订阅模式，快手可灵、字节即梦、智谱清影陆续上线了会员体系。

此前，AI视频创作者Abel Art曾估计，1分钟连贯的视频比例约为500个视频片段，用现有AI工具制作1分钟视频的成本大约在125美元（约890元人民币），相当于租借电影镜头一天。

这仅仅是个人创作者的算力和资金消耗，在这样的背景下，高算力需求和推理成本还能让MiniMax限时免费多久?

闫俊杰谈及大家关注的商业化问题，还是很谨慎。他提到:“最重要的东西还不是商业化，是提高AI产品在用户中的渗透率，比如说海螺打磨出新的功能，直到有用户粘性，是真正地让技术到达广泛可用的程度。”

（举报）

本文分类：MiniMax

试了试MiniMax新出的Al视频模型，发现它生成人物的“演技”吊打内娱

评论列表共有 0 条评论

发表评论取消回复

试了试MiniMax新出的Al视频模型，发现它生成人物的“演技”吊打内娱

相关文章

评论列表共有 0 条评论

发表评论取消回复