AI 音乐赛道在2026年初迎来了又一次震撼余震。3月9日,由顶级商业模型的正面硬刚。

image.png

三大突破:让 AI 音乐不再有“塑料感”

顶级商业模型image.png

“双核”驱动:LLM 与扩散模型的梦幻联动

在架构设计上,SongGeneration2采用了创新的混合式 LLM-扩散架构:

  • 作曲大脑(LeLM): 负责规划全局结构与演唱细节,解决“怎么唱”的问题。

  • 高保真渲染器(Diffusion): 在语言模型的指导下,合成极其复杂的声学细节。

  • 分层表征: 首创混合表征与多轨表征并行建模,兼顾了旋律的稳定性与音质的细腻度。

真开源、低门槛:普通电脑也能“写歌”

最令开发者振奋的是,腾讯此次展现了极大的开源诚意。拥有4B 参数的 SongGeneration-v2-large 模型已正式开源,支持中英等多语种生成。令人惊讶的是,它在配备 22GB 显存 的消费级硬件上即可流畅运行,实现了本地化、私密化创作的可能。

为了让用户即刻体验,项目组还在 HuggingFace 推出了 SongGeneration-v2-Fast 版本,牺牲极小部分音质以换取极速生成——一分钟内即可诞生一首完整单曲。

SongGeneration2的表现来看,AI 音乐已经从“极客玩具”正式跨入“商业级应用”的大门。随着未来支持12G 显存的 Medium 模型及自动化评估框架的开源,全民“作曲家”的时代或许真的不再遥远。

点赞(10)

评论列表共有 0 条评论

立即
投稿
返回
顶部