我是靠谱客的博主 丰富砖头,最近开发中收集的这篇文章主要介绍语音识别综述语音识别的基本单位Grapheme(字位)Word词Morpheme(词素)Bytes获取语音特征语音识别的网络结构语音识别模型LASdown sampling 下采样Beam searchLocation-aware attention总结,,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

在这里插入图片描述

语音识别的基本单位

  • Phoneme: 音位,音素
    • a unit of sound 是声音的最基本单位**,每个词语token的声音由多个 phoneme 组成**

Grapheme(字位)

  • smallest unot of a writing system 每个单词书写最基本的单位,简单来说:

  • 英文的grapheme可以认为是词缀, 由 [26个英文字母 + 空格 + 标点符号]组成

*** 中文的Grapheme是汉字**

Word词

英文可以用单词,作为语音识别的基本单位,但包括中文再内的很多语言无法使用word作为基本单位。(word数量太过于庞大,word之间难于分隔等)

Morpheme(词素)

  • the smallest meaningful unit 类似英文单词中词缀

Bytes

用byte的序列来表示计算机中的每个字符(比如使用utf-8对字符编码),用用byte作为语音识别的基本单位可以让是识别系统将不同的语言统一处理,和语言本身无关,英文上叫 The system can be language independent

获取语音特征

  • 获取语音特征的方法从难到易依次是:
    • waveform -> spectrogram -> filter bank output -> MFCC
      在这里插入图片描述

语音识别的网络结构

音识别的结构一般可以分为两种一种是直接输出 word embedding(feature base);一种将语音识别模型和和其他模型相组合的end2end结构,如:speech recognition + 翻译模型speech recognition + 分类模型、speech recognition + Slot filling模型,这里主要分析这一种类型

语音识别模型

流的语音模型总体上可以分为seq2seq结构和HMM结构,而seq2seq结构有LAS、CTC、RNN-T、Neural Transducer、MoChA

LAS

在这里插入图片描述

  • encoder 中的 Self-Attention 用来对输入数据去噪同时提取有效数据
  • Attend 中的 Attention 用来得到当前时刻encoder和decoder之间的语义向量(content vector)
    在这里插入图片描述

down sampling 下采样

因为语音识别的数据量很大,因此在LAS的 encoder 内往往需要对数据进行下采样的操作,从而降低数据维度,在RNN中,一般使用如下两种方式进行下采样

  • 合并第**一个RNN的输出(两个和并为1个)然后传入第二个RNN
  • 在第一个RNN的输出中选择部分输出传入第二个RNN**
    在这里插入图片描述

Beam search

在这里插入图片描述

在这里插入图片描述

Location-aware attention

在这里插入图片描述
在这里插入图片描述

总结,

  • 慢慢的将其全部都搞定都行啦的理由与打算。

最后

以上就是丰富砖头为你收集整理的语音识别综述语音识别的基本单位Grapheme(字位)Word词Morpheme(词素)Bytes获取语音特征语音识别的网络结构语音识别模型LASdown sampling 下采样Beam searchLocation-aware attention总结,的全部内容,希望文章能够帮你解决语音识别综述语音识别的基本单位Grapheme(字位)Word词Morpheme(词素)Bytes获取语音特征语音识别的网络结构语音识别模型LASdown sampling 下采样Beam searchLocation-aware attention总结,所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(85)

评论列表共有 0 条评论

立即
投稿
返回
顶部