概述
【新智元导读】吴恩达曾经预测当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式。归功于深度学习,这4%的准确率的提升使得语音识别从难以实际应用的技术变成有无限的应用潜力的技术。本文深入浅出介绍了怎样用深度学习做语音识别。
语音识别正在进入我们日常生活的方方面面。语音识别技术内置在我们的手机、游戏机和智能手表中,它甚至能将我们的整个家庭智能化。只需50美元就能买到一个Amazon Echo Dot,它像一个魔术盒子,可以帮你订购比萨,向你播报天气预报等等,你只需大声对它说:
“Alexa,order a large pizza!”
语音识别技术已经发展了几十年,近年突然变得炙手可热,这归功于深度学习终于使得语音识别的准确率提升到足矣让这项技术在实验测试以外的实际场景中应用。
吴恩达曾经预测当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式。这4%的准确率的提升使得语音识别从难以使用到潜力无限。多亏深度学习的发展,我们终于到达语音识别的顶点。
让我们一起来了解怎样用深度学习做语音识别。
机器学习并不总是黑盒
如果你对神经机器翻译的工作机制已经有所了解,你可能会想到,我们可以简单地将声音作为输入喂进神经网络,然后训练网络产生文本:
上图是使用深度学习做语音识别的最佳机制,但我们目前还没有达到这一步。
一个很大的问题是语速不同。某些人说“hello!”会很快速,有些人会拉得很长地说“heeeelllllllllllllooooo!”,这会产生更长的声音文件和更多的数据。这两个声音文件应该被识别为完全相同的文本——“hello!”这里面的难点在于把不同长度的音频文件自动对齐为一个同样长度的文本结果。
要解决这个问题,我们需要使用一些特
最后
以上就是和谐毛巾为你收集整理的【干货】怎样用深度学习做语音识别的全部内容,希望文章能够帮你解决【干货】怎样用深度学习做语音识别所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复