技术人文丨他们“说”的每一句话，都有ASR、NLP、TTS技术>>>> ASR-让机器听得见>>>> NLP-让机器能理解>>>> TTS-让机器能说话

440 阅读 0 评论 291 点赞

我是靠谱客的博主羞涩汽车，这篇文章主要介绍技术人文丨他们“说”的每一句话，都有ASR、NLP、TTS技术>>>> ASR-让机器听得见>>>> NLP-让机器能理解>>>> TTS-让机器能说话，现在分享给大家，希望可以做个参考。

还记得前一段时间我们为言语障碍用户阿卷定制了“属于”他的声音吗？如果遗忘了，不妨回顾下《小米自研语音合成声音定制技术：让世界听见你的声音！》

在此之中，我们一直重复提到“小米闻声”和“AI通话”，对于我国7200万听障伙伴们提供了极大的便利。那么，这两个功能以及背后技术原理，你了解吗？

小米闻声和AI通话是什么?

小米闻声和AI通话都是实现语音与文字实时互转的工具，但是应用的场景不同，小米闻声主要用于面对面交流场景，或者搭配微信通话与视频会议，将系统采集到的声音实时识别成文字；同样地，输入文字内容，可以转化成语音实时发送。

图：小米闻声正在进行麦克风收音识别

除此之外还有悬浮窗模式，搭配选择系统内录收音，就可以让你在看直播的时候拥有实时字幕！

图：小米闻声（悬浮窗模式）正在进行系统内录收音识别，为直播加上字幕

而AI通话顾名思义就是应用在拨打电话、接听来电时的智能助手，帮你自动应答。通话时，它能够将对方的语音实时转成文字，为不方便接听电话的用户提供了便利。答复对方时，只要输入文字就可以转成语音发送；也可以选择自动应答，让系统智能回复。

图：AI通话示意图，正在将语音转录为文字并推荐回复语

是这三项技术让机器有了“耳、脑、口"

而小米闻声和AI通话之所以能实现，背后离不开三项技术：语音识别(Automatic Speech Recognition,ASR)、自然语言处理(Natural Language Processing,NLP)以及语音合成(Text-To-Speech,TTS)，而小米在ASR、NLP、TTS上都有处于行业尖端的成就。让我们进一步来了解这些技术吧！

>>>> ASR-让机器听得见

语音识别(Automatic Speech Recognition,ASR)这项技术相当于机器的“耳朵”，是将声音转化成文字的第一步。

作为语音交互流程的基础，ASR主要可分为“语音输入—编码—解码—文本输出 ”4个流程。

1.语音输入：手机麦克风接受输入的声音，把声音转变为计算机能够处理的数字信号；

2.编码：把数字信号切割成小段，转化成机器能识别的向量数据；

3.解码：利用声学模型与语言模型，把这些向量数据重新拼接成文字；

4.文本输出：最后在屏幕上输出的就是识别出来的文本。

如此在小米闻声与AI通话中，我们就可以看到对方所念出来的语音文本。

图：ASR技术流程示意图

目前我们已经通过语言模型快速定制，让ASR能够实现线上纠错“10秒快修”，就是可以把语音转译的错误快速运营掉。

除此之外还实现了个性化识别，针对不同的人群发音特征进行算法迭代，例如儿童相较成人的特点是发音不稳定、叠词多导致的识别难度大，小米针对儿童群体进行了个性化语音识别，还曾获得IEEE儿童语音识别竞赛大数据量赛道的世界冠军。

>>>> NLP-让机器能理解

在能够识别出文本之后，接下来就需要进一步理解文本内容，这时自然语言处理(Natural Language Processing,NLP)技术就派上了用场。

NLP相当于机器的“大脑”，负责识别与理解文本的话题和意图。而要理解文本，则包含了四个步骤：文本输入—特征提取—语义分析—决策输出。

1.文本输入：ASR识别出输入的文本后，由NLP模块接收并将其编码成模型可以处理的数据格式；

2.特征提取：被编码后的数据将会被神经网络加工，并提取出一些具有辨识性的信号和关键信息；

3.语义分析：被提取出的关键信息将被汇总进行更高阶的推理分析，从而判断这条文本属于哪个话题、属于什么样的意图，让机器理解文本想要达成的目的；

4.决策输出：最终，机器会辅助推荐对应的话题、意图的回复话术。

如此，在AI通话中，就可以推荐合适的回复语句，或是自动提供对应的回答文本，用于自动应答。

例如，文本输入“你的快递到了”，会提取出与“快递”“到了”两个提示词相关的特征并进行汇总，推理出这是跟收取快递相关的意图，所以机器会推荐回复“快递放在门口就行”。

图：NLP技术流程示意图

而NLP有一个特点就是细分任务非常多，要识别用户意图、槽位、情绪等，每种任务都需要大量的标注数据。而我们也通过广泛使用无监督预训练技术，实现了只需要较少标注样本就能有较高的准确率；小米自研的算法也在Resume、Weibo多项中文实体识别数据集中取得了业内最佳的效果，相关论文被业内学术顶会收录。