AI音乐战火升级！三路国产大军全面对决Suno

2024-12-17 14:36 166 阅读 0 评论 110 点赞

声明:本文来自于微信公众号量子位，作者:允中，授权热心网友转载发布。

在与Suno对垒这条道路上，国内在AI音乐领域积累已久的公司，已经纷纷在自己的优势之上推出了相应的模型及应用，正与全球顶级产品展开了一场你追我赶的精彩对决。

有趣的音乐创作玩法，不断惊艳用户的模型效果，以及现象级的产品传播方式，音乐大模型是今年垂直大模型赛道上一个十分稀缺的亮点。

3月，当Suno V3面世之后，许多人惊呼音乐行业要“一夜变天”。最近，Suno发布了V4版本，允许用户生成音质更高、更好听、时长更长（4分钟）的音乐，也就意味着，一首完整的歌曲可以被AI创造出来，AI音乐创作进入了一个全新的阶段。这在海内外引起了广泛的关注与讨论。

事实上，即便是已经到了V4版本，Suno更擅长的还是英文曲目，中文曲目和中国区用户并不是其迭代产品需求的重心。而在与Suno对垒这条道路上，国内在AI音乐领域积累已久的公司，已经纷纷在自己的优势之上推出了相应的模型及应用，正与全球顶级产品展开了一场你追我赶的精彩对决。

国产AI音乐应用三路出击

在Suno V3发布之后，国内大模型玩家纷纷上线了类似的产品，以防错过音乐行业的“ChatGPT时刻”。

不过，随着时间的流逝，以近一年的时间线观察来看，到目前，还坚持在AI音乐大模型赛道投入的玩家主要有三类:

以字节跳动豆包旗下海绵音乐为代表的大厂派
以昆仑万维旗下的天工SkyMusic为代表的新兴大模型厂商
以趣丸科技旗下天谱乐为代表的垂直赛道独角兽科技公司

作为字节跳动推出的一款免费AI音乐创作和分享平台，海绵音乐主打利用人工智能技术帮助用户生成个性化的音乐作品。

在海绵音乐，用户只需输入一句灵感或上传一张图片，即可生成专属的音乐作品。平台提供多种音乐风格和创作工具，帮助用户轻松创作出高质量的音乐。

相比Suno，海绵音乐在AI生成的中文歌曲，提高了吐字的清晰度和演唱的流畅性，音乐曲风也更符合中国人的喜好。

音乐大模型天工“SkyMusic”是昆仑万维推出的国内首个音乐SOTA模型，基于昆仑万维的“天工3.0”超级大模型打造，能够快速生成多种风格的音乐作品。

“天工SkyMusic”采用的是音乐音频领域类Sora模型架构，Large-scale Transformer负责谱曲，来学习Music Patches的上下文依赖关系，同时完成音乐可控性，Diffusion Transformer负责演唱，通过LDM让Music Patches被还原成高质量音频，使得“天工SkyMusic”能够支持生成80秒44100Hz采样率双声道立体声歌曲。

天谱乐是趣丸科技今年7月发布的全球首个多模态配乐大模型，上线时间比天工晚，但也比海绵音乐略早一个月，产品从一上线就全面接入了其旗下应用唱鸭APP，向所有用户开放。

趣丸科技一直深耕音乐、音频领域，旗下的拳头产品还有TT语音，如今累计注册用户已超2亿，是国内最大的兴趣社交平台之一。

天谱乐大模型集成了图片理解算法、旋律生成算法、视频理解算法、配器识别算法等领先技术，多模态理解与生成能力比肩国际先进水平。

值得关注的是，天谱乐大模型不仅支持文生音乐、音频生音乐，还首创了图片、视频生成音乐功能，比Suno早推出3个月，某种程度上，意味着它的多模态输入能力超越Suno。这也是目前几款国产AI音乐中，有明显特色功能的一款产品。

基于自研的画面情绪理解模型等领先技术，天谱乐大模型不仅可以根据视频画面的明暗、色彩、情绪的细微变化逐帧识别和理解，也可以理解音乐的和弦、旋律、歌词、演唱风格等复杂特征，最终生成高契合度的视频配乐。

简单来说，用户仅需上传相册中的一张图片或一段不超过60秒的视频，即可生成与高度适配画面的带人声唱词的完整歌曲，生成效果达到唱片发行级水准。

天谱乐生成人声歌曲:

音乐大模型持续进化的关键

事实上，国内音乐双巨头腾讯音乐和网易云音乐，也分别推出了X·Studio和启明星这样的产品，以追赶当前生成式人工智能的浪潮。

但或许是巨头本身凭借强大的版权库，已经能够收获足够的市场份额和商业回报，所以外界感受到的是，这两家公司在AI音乐上的投入和活跃度始终不及上述代表性的玩家。

而在与全球科技巨头角逐AI大模型这一场比赛，行业内的一个共识是，AI应用是国内公司少有的优势之一，也是少有能够赶超国外大模型公司的机会。这也就意味着，探索和创造出更多用户真正会使用的产品，以及可落地商业化场景，才是国产大模型能够持续进化的基石和未来。

这也符合趣丸科技副总裁贾朔对音乐大模型的理解。他表示，“降低门槛让普通用户体验音乐创作的乐趣”是自研天谱乐产品的价值主张。

音乐原创的专业度很高，但是，在AI的辅助之下，用户可以只需要输入一句话、一张照片或一段视频，在1-2分钟内生成一首词曲结构相对完整的歌曲。

事实证明，这样的策略的确收获了不少市场的正反馈。目前已有4600万人注册使用唱鸭APP或天谱乐官网，累计创作近1000万首AI歌曲。

技术平权的意义在于，让更多人能够享受到科技进步带来的便利和好处，缩小不同群体之间的技术差距。

除了服务音乐爱好者等C端用户，应用在影视制作等专业从业者的工作流，则为AI音乐大模型落地提供更多可商业化的场景。

当前市面上的音乐大模型，一方面，可以服务于专业音乐人，通过缩减词曲创作、编曲等工作提升了音乐创作效率，让快速创作和试验新的音乐构思成为可能。另一方面，在短视频浪潮之下，音乐大模型正在辅助短视频创作者，让他们更容易创造出符合视频内容的背景音乐，提升内容质量和观众体验。

据了解，天谱乐还将在近期发布新功能——MidiRender，功能类比于一个精准、可控音乐版的Control Net，专业的创作用户可以输入自己的音乐构想，让天谱乐AI根据这个原创音乐片段填充歌词、完成编曲。

这些提供定制化的音乐解决方案，带来更多的应用场景和商业机会，能够持续促进音乐产业的创新和发展。

AI音乐创作还有哪些待解的难题?

尽管音乐大模型在2024年以前所未有的速度在狂飙，但它身后依旧给这个行业的操盘手留下了一些难解的尴尬。

首当其冲是音乐版权的问题。高质量的音乐生成模型依赖高质量的音乐音频数据。

今年6月，环球音乐集团、索尼音乐集团和华纳音乐集团等多家唱片公司就对Suno和Udio发起诉讼，称它们非法使用版权音乐来训练自己的AI模型并对外提供服务。随后，Suno进行了回击，指责它们利用版权诉讼来保护自己在人工智能音乐领域的市场主导地位。

目前双方的争夺尚未有一个定论，但唯一可以肯定的是，AI音乐公司在技术上取得了显著进展，如何在法律框架内运营和商业化，将是这些公司未来必须思考的问题。

此外，音乐大模型生成的音乐作品是否享有版权保护，其版权归属如何界定，尚无明确的法律规定，这给音乐大模型的应用带来了不确定性和风险。

针对版权的问题，贾朔发现，其实可以从技术手段上规避一些纷争。比如，在产品侧，当用户在使用AI创作时，可判断其是否有主观意图模仿现有艺术家，并且做出弹窗提示。

事实上，人类在进行艺术创作的时候，灵感都未必是凭空产生，多数也是吸取和借鉴过往历史上、产业里优秀的案例，不断打磨迭代，在巨人肩膀上创新和创造。训练AI大模型是如此，人类学习成长与进步也类似。

另一方面，则是音乐的创意与情感。

音乐创作具有很强的专业性，但也属于人类的情感和情绪的一种表达。虽然音乐大模型可以生成具有特定风格和情感的音乐作品，但其创意和独特性仍然有限。

如何提升音乐大模型的创意能力，使其能够创作出更具个性和创新性的音乐作品，是当前音乐大模型需要突破的方向之一。

在这一方向上，行业里有一个思路是，让AI生产的音乐声音更像“人”，以此更契合人类的情感表达诉求，使生成的歌曲引发更多人的共情与共鸣。

比如说，消除AI歌曲的电音问题。这是AI音乐过往被用户吐槽最多的事情，也是很多音乐大模型在人声技术上攻克的重点之一。趣丸科技表示，最近这一问题已经率先解决，得益于最新的天谱乐大模型2.2版本，在长序列音乐语意建模和高质量音频空间建模上，实现进一步突破，高度还原音乐音频在高维空间的连续信号表征，实现音乐性和音质的飞跃。播客“Vibration 歪波音室”主理人拾壹也在公开场合提到，几乎无法区分天谱乐的人声唱词和真人歌曲。

但也需要看到，尽管AI能够模拟人类的创作模式，它始终很难真正理解和表达人类复杂的情感。音乐中的情感往往是创作者内心深处的真实感受，AI生成的音乐可能在情感表达上显得较为肤浅。而一些缺乏人类灵气和感情的作品，在这个流量大爆炸和注意力被狂轰滥炸的时代，我们没有理由再去承受更多。

作为人类，我们还需要面对的是，AI音乐创作的发展会对部分人类音乐创作者的就业和创作空间造成一定的挤压。但无论如何，在当前的阶段，我们需要寻找一种平衡，实现AI与人类创作者的真正的共存。

（举报）