AI 音乐赛道在2026年初迎来了又一次震撼余震。3月9日,由顶级商业模型的正面硬刚。

三大突破:让 AI 音乐不再有“塑料感”
顶级商业模型
“双核”驱动:LLM 与扩散模型的梦幻联动
在架构设计上,SongGeneration2采用了创新的混合式 LLM-扩散架构:
作曲大脑(LeLM): 负责规划全局结构与演唱细节,解决“怎么唱”的问题。
高保真渲染器(Diffusion): 在语言模型的指导下,合成极其复杂的声学细节。
分层表征: 首创混合表征与多轨表征并行建模,兼顾了旋律的稳定性与音质的细腻度。
真开源、低门槛:普通电脑也能“写歌”
最令开发者振奋的是,腾讯此次展现了极大的开源诚意。拥有4B 参数的 SongGeneration-v2-large 模型已正式开源,支持中英等多语种生成。令人惊讶的是,它在配备 22GB 显存 的消费级硬件上即可流畅运行,实现了本地化、私密化创作的可能。
为了让用户即刻体验,项目组还在 HuggingFace 推出了 SongGeneration-v2-Fast 版本,牺牲极小部分音质以换取极速生成——一分钟内即可诞生一首完整单曲。
从SongGeneration2的表现来看,AI 音乐已经从“极客玩具”正式跨入“商业级应用”的大门。随着未来支持12G 显存的 Medium 模型及自动化评估框架的开源,全民“作曲家”的时代或许真的不再遥远。
发表评论取消回复