Cartesia发布了一个拥有极快推理速度和超低延迟的语音生成模型Sonic

2024-06-05 15:20 139 阅读 0 评论 92 点赞

靠谱客(kaopuke.com) 6月5日消息: 据来自 Cartesia 的最新消息，他们今天发布了 Sonic，这是他们在构建实时多模态智能时代的第一步。Sonic 是一个极速的生成语音模型和 API，拥有令人惊叹的低延迟（仅为135毫秒模型延迟），栩栩如生的声音效果，目前只支持英文。

Sonic 采用了全新的状态空间模型架构，有效地建模高分辨率数据，例如音频和视频。在语音方面，经过参数匹配和优化的 Sonic 模型在与广泛使用的 Transformer 相同的数据集上训练，显著提高了音频质量，包括降低20% 的困惑度、降低2倍的单词错误率以及提高1分的 NISQA 质量。

此外，Sonic 具有更低的延迟、更快的推理速度以及更高的吞吐量，为用户带来更出色的体验。Cartesia 还提供了 Web Playground 和低延迟 API，用户可以立即开始体验 Sonic 的强大功能。

创始人在斯坦福大学攻读博士学位期间开创了状态空间模型，为 Sonic 的研发奠定了基础。这种模型是第一个次线性架构，可以在语言和音频等重要模态上匹配 Transformer，同时释放潜在的无限上下文、恒定的状态大小和高吞吐量的推理。

Cartesia 表示，他们很期待与社区一起探讨替代架构，并将很快分享更多信息。如果您也对使智能更快、更便宜、更易获取感兴趣，欢迎通过邮箱 join@cartesia.ai 联系他们。

在这个快速发展的多模态智能时代，Cartesia 的 Sonic 将引领行业，为用户带来全新的体验和可能性。立即体验 Sonic，探索实时多模态智能的未来!

官方体验地址：https://play.cartesia.ai/

（举报）