我是靠谱客的博主 羞涩汽车,最近开发中收集的这篇文章主要介绍技术人文丨他们“说”的每一句话,都有ASR、NLP、TTS技术>>>> ASR-让机器听得见>>>> NLP-让机器能理解>>>> TTS-让机器能说话,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

还记得前一段时间我们为言语障碍用户阿卷定制了“属于”他的声音吗?如果遗忘了,不妨回顾下《小米自研语音合成声音定制技术:让世界听见你的声音!》

在此之中,我们一直重复提到“小米闻声”和“AI通话”,对于我国7200万听障伙伴们提供了极大的便利。那么,这两个功能以及背后技术原理,你了解吗?

小米闻声和AI通话是什么?

小米闻声和AI通话都是实现语音与文字实时互转的工具,但是应用的场景不同,小米闻声主要用于面对面交流场景,或者搭配微信通话与视频会议,将系统采集到的声音实时识别成文字;同样地,输入文字内容,可以转化成语音实时发送。

50937bff5af93d632fe5b85e1a68e502.png

图:小米闻声正在进行麦克风收音识别

除此之外还有悬浮窗模式,搭配选择系统内录收音,就可以让你在看直播的时候拥有实时字幕!

bd32fc44113c2d490dbc722082dc8707.png

图:小米闻声(悬浮窗模式)正在进行系统内录收音识别,为直播加上字幕

而AI通话顾名思义就是应用在拨打电话、接听来电时的智能助手,帮你自动应答。通话时,它能够将对方的语音实时转成文字,为不方便接听电话的用户提供了便利。答复对方时,只要输入文字就可以转成语音发送;也可以选择自动应答,让系统智能回复

513d6ab0759d17e528f7241442a50d8b.png

图:AI通话示意图,正在将语音转录为文字并推荐回复语

是这三项技术让机器有了“耳、脑、口"

而小米闻声和AI通话之所以能实现,背后离不开三项技术:语音识别(Automatic Speech Recognition,ASR)自然语言处理(Natural Language Processing,NLP)以及语音合成(Text-To-Speech,TTS),而小米在ASR、NLP、TTS上都有处于行业尖端的成就。让我们进一步来了解这些技术吧!

>>>> ASR-让机器听得见

语音识别(Automatic Speech Recognition,ASR)这项技术相当于机器的“耳朵”,是将声音转化成文字的第一步。

作为语音交互流程的基础,ASR主要可分为“语音输入—编码—解码—文本输出 ”4个流程。

1.语音输入:手机麦克风接受输入的声音,把声音转变为计算机能够处理的数字信号;

2.编码:把数字信号切割成小段,转化成机器能识别的向量数据;

3.解码:利用声学模型与语言模型,把这些向量数据重新拼接成文字;

4.文本输出:最后在屏幕上输出的就是识别出来的文本。

如此在小米闻声与AI通话中,我们就可以看到对方所念出来的语音文本。

b34d7c95a3b685750330f7b995c000ae.png

图:ASR技术流程示意图

目前我们已经通过语言模型快速定制,让ASR能够实现线上纠错“10秒快修”,就是可以把语音转译的错误快速运营掉。

除此之外还实现了个性化识别,针对不同的人群发音特征进行算法迭代,例如儿童相较成人的特点是发音不稳定、叠词多导致的识别难度大,小米针对儿童群体进行了个性化语音识别,还曾获得IEEE儿童语音识别竞赛大数据量赛道的世界冠军

>>>> NLP-让机器能理解

在能够识别出文本之后,接下来就需要进一步理解文本内容,这时自然语言处理(Natural Language Processing,NLP)技术就派上了用场。

NLP相当于机器的“大脑”,负责识别与理解文本的话题和意图。而要理解文本,则包含了四个步骤:文本输入—特征提取—语义分析—决策输出。

1.文本输入:ASR识别出输入的文本后,由NLP模块接收并将其编码成模型可以处理的数据格式;

2.特征提取:被编码后的数据将会被神经网络加工,并提取出一些具有辨识性的信号和关键信息;

3.语义分析:被提取出的关键信息将被汇总进行更高阶的推理分析,从而判断这条文本属于哪个话题、属于什么样的意图,让机器理解文本想要达成的目的;

4.决策输出:最终,机器会辅助推荐对应的话题、意图的回复话术。

如此,在AI通话中,就可以推荐合适的回复语句,或是自动提供对应的回答文本,用于自动应答。

例如,文本输入“你的快递到了”,会提取出与“快递”“到了”两个提示词相关的特征并进行汇总,推理出这是跟收取快递相关的意图,所以机器会推荐回复“快递放在门口就行”。

9fc397879df355d4aa6c94ccedaaf716.png

图:NLP技术流程示意图

而NLP有一个特点就是细分任务非常多,要识别用户意图、槽位、情绪等,每种任务都需要大量的标注数据。而我们也通过广泛使用无监督预训练技术,实现了只需要较少标注样本就能有较高的准确率小米自研的算法也在Resume、Weibo多项中文实体识别数据集中取得了业内最佳的效果,相关论文被业内学术顶会收录。

>>>> TTS-让机器能说话

但是理解了文本内容,推荐了合适的文本之后,如何在小米闻声中能够让不方便看的人听见,或是在AI通话中让对方听见呢?这就需要使用语音合成(Text-To-Speech,TTS)技术,把文本转化成语音,也就相当于机器的“嘴巴”。

而为了要让发音更加流畅自然,避免因为机械音所造成的误解与不耐烦,我们将从NLP传输过来的决策文本,利用深度学习实现TTS,使人声更加自然而真实。这种方法主要分为3个模块:前端、声学模型和声码器。

1.前端:前端负责接受文本之后,提取解析文本特征,决定读音、韵律等语言学特征描述;

2.声学模型:声学模型则基于深度学习来产出实时的语音参数;

3.声码器:最终声码器负责根据参数生成可播放的声音波形,从而生成能够播放的语音信号。

35ca974d63f8dbf36da99de1ede3adbe.png

图:TTS技术流程示意图

目前我们也已经实现了TTS全面自研,在语音合成的韵律个性化定制、以及情感这三个方面实现了重大的突破。像是“超级拟人语音合成技术”就可以真实、自然地体现人的情绪与语气,“个性化歌唱技术”则可以利用说话的语料合成唱歌的音频,这一技术可是业界首发。

让我们一起来听听看“超级拟人”的合成音色-知岚吧!

如此借助ASR、NLP、TTS三项技术,我们就让机器有了“耳、脑、口”,完成了“听懂、理解、回答”的闭环。

85815485320927d65c7f7116bebd5ec6.png

图:ASR、NLP、TTS技术总流程示意图

解决问题,不需要重造轮子

而上述的几项技术,一般都是独立发展,单独使用在各自领域。但AI通话和小米闻声这则是将三项技术融合发挥,一同构成完整的语音-文字互转功能,为障碍群体提供了极大的方便,成为无障碍领域的优秀标杆。

许多人赞赏它们简洁强大的功能,也有人感叹:“技术都已经分别成熟了,但没人想过可以这样结合使用。”

“没有人想过结合”,背后是对无障碍问题的理解误区。很多时候大家对障碍用户的需求会有两极分化的理解,一种是“凑活能用就行,还要啥自行车”,一种是“Ta都残了,那不得是最高科技才能拯救Ta?”

其实,这两种惯性思维背后都有一个预设——“障碍者的需求是一类非常难处理的、独立于常规生活的、需要额外支付高昂成本的问题”。

但是,正如这两款产品所展示的,解决问题有时不需要惊天动地的技术创新,而是立足现有的技术,与已有资源进行整合,就能够切实解决痛点

方便你,方便我,方便TA

AI通话的开发初衷,是想提供一个语音助手,方便开会中的商务人士或是应对频繁的骚扰电话。许多用户都说,他们经常会用AI通话。开会时有电话打进来,不能接起也不想挂掉,用AI通话看看对方说了什么;看到疑似推销或快递电话时,不愿浪费时间还怕错过重要信息,也可以丢给AI通话,让两边自己聊天……

d0a440b555575fbd50e3a7e652f5faa7.png

图:用户对AI通话提出的反馈

然而在开发过程中我们就逐步发现,AI通话的应用场景远不止如此,它还可以解决听障用户接听电话的难题。如此就让AI通话的使用范围更加扩大,也促使了小米产品的开发思路更加具有包容性,这也是我们一直在强调的包容性设计

一直以来,我们持续保持跟障碍用户的交流,进行无障碍修复与改进,也并不是“为了少数人的需求”,而是通过理解残障者的需求,获得更加普适、通用的思路或者答案。正如小米无障碍团队的好朋友、无障碍设计师夏冰莹所说:

“ 无障碍也是一面问题放大镜,能帮助你看到产品中潜在的问题。如果一个患有手抖症的人很难按到你的按钮,那么这个按钮有可能对于很多用户来讲都容易误触。如果一个有学习障碍的人说你的界面和布局很难看懂,那么这个界面有可能对很多用户来讲都太复杂。”

将先进的技术应用到无障碍,能创造更多的可能性。而无障碍场景的应用,既让障碍用户们获得了更加自由、平等、有尊严的生活,也希望我们都可以把技术的边界更加扩大与包容,建立一个可以平等参与且有利创造的环境,为所有人提供一个共同受益的前景。

ece6c098c1acacf3cdf57fe81ebf5aff.png

最后

以上就是羞涩汽车为你收集整理的技术人文丨他们“说”的每一句话,都有ASR、NLP、TTS技术>>>> ASR-让机器听得见>>>> NLP-让机器能理解>>>> TTS-让机器能说话的全部内容,希望文章能够帮你解决技术人文丨他们“说”的每一句话,都有ASR、NLP、TTS技术>>>> ASR-让机器听得见>>>> NLP-让机器能理解>>>> TTS-让机器能说话所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部