法国人工智能初创公司

其中,最受关注的是名为 Voxtral Realtime 的实时转录模型。该模型拥有4B(40亿)参数规模,采用创新的流式架构。其核心亮点在于极致的响应速度:模型可以在音频输入的瞬间同步进行转录,官方数据显示其转录延迟已被压缩至200ms(0.2秒)以下。这意味着在实时对话或同声传译场景中,用户几乎感受不到处理停顿。为了促进开发者社区的生态建设,
在语言支持与成本方面,两款新模型均具备出色的普适性,支持包括中文在内的13种主流语言。定价策略也十分具有竞争力:离线批处理版 API 价格为每分钟0.003美元,而追求极致性能的实时版 API 价格则为每分钟0.006美元。
划重点:
⚡ 极低延迟: Voxtral Realtime 模型将转录延迟降至200ms 以内,支持音频即时转录,且已开源模型权重。
高性价比: Voxtral Mini 版在准确率上优于 GPT-4o mini 等同类产品,支持3小时超长录音,价格极具优势。
多语支持: 全系列模型原生支持中文等13种语言,广泛适配全球化的语音办公与实时交互场景。
发表评论取消回复