微软探索音生图 AI 模型，实时视觉化会议演讲者语音讲述的场景

2024-10-25 00:42 74 阅读 0 评论 49 点赞

靠谱客 10 月 15 日消息，科技媒体 MSPoweruser 昨日（10 月 14 日）发布博文，报道称微软公司获得了一项新的专利，描述了基于用户实时输入的语音来生成图片。

根据美国商标和专利局最新公示的清单，该专利共计 20 页，微软于 2023 年 4 月 5 日提交申请，于 10 月 10 日获批。

根据专利描述，该系统可以在会议或讲座中实时捕捉音频，随后通过语言模型进行总结，并生成相应的 AI 图像。

微软探索音生图 ai 模型，实时视觉化会议演讲者语音讲述的场景

靠谱客援引该媒体报道，该工作会分为 3 个步骤：

预计该功能将主要应用于 Microsoft Teams。随着演讲者话题的变化，实时生成的图像也会随之更新，从而增强视觉沟通的效果。微软表示，这种图像的使用有助于澄清概念，特别适合通过视觉辅助学习的用户。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，靠谱客所有文章均包含本声明。