语音识别框架

语音识别框架

2020-02-20 |

|

107 |

0

原标题：语音识别框架

来源：CSDN博客链接：https://blog.csdn.net/yang_daxia/article/details/83819595

传统理论重点研究声学模型，发音字典不用关心，语言模型一般用n-gram

预处理：1. 首尾端的静音切除，降低对后续步骤造成的干扰，静音切除的操作一般称为VAD。

2. 声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧，使用移动窗函数来实现，不是简单的切开，各帧之间一般是有交叠的。

特征提取：主要算法有线性预测倒谱系数（LPCC）和Mel 倒谱系数（MFCC），目的是把每一帧波形变成一个包含声音信息的多维向量；

声学模型（AM）：通过对语音数据进行训练获得，输入是特征向量，输出为音素信息；

字典：字或者词与音素的对应，简单来说，中文就是拼音和汉字的对应，英文就是音标与单词的对应；

语言模型（LM）：通过对大量文本信息进行训练，得到单个字或者词相互关联的概率；计算所有可能性的概率，求对应的最大概率值的索引。即输出文本。

语音识别流程的举例（只是形象表述，不是真实数据和过程）：

1. 语音信号：PCM文件等（我是机器人）

2. 特征提取：提取特征向量[1 2 3 4 5 6 0 ...]

3. 声学模型：[1 2 3 4 5 6 0]-> w o s i j i q i r n重点

4. 字典：窝：w o；我：w o；是：s i；机：j i；器：q i；人：r n；级：j i；忍：r n；

5. 语言模型：我：0.0786，是： 0.0546，我是：0.0898，机器：0.0967，机器人：0.6785；

计算所有可能性的概率，求对应的最大概率值的索引。

6. 输出文字：我是机器人

原文：https://blog.csdn.net/nsh119/article/details/79360778

二、声学模型

声学模型：某音素组合条件下对应声学特征的概率值。反过来也可以通过概率值求索引，即特征到音素的映射。传统的为HMM-GMM模型，发展为NN，深度NN模型。

下图为声学模型框架。

https://blog.csdn.net/abcjennifer/article/details/27346787

声学模型的输入是由特征提取模块提取的特征（MFCC等）。一般来说，这些特征是多维的向量。由于语音信号特征的分布并不能用简单的概率分布，故而常用混合高斯模型方法对语音信号的分布进行拟合。参数由E-M算法求得。对声音序列O，进行GMM拟合，每一个GMM为HMM的一个状态，计算状态的概率值，通过搜索算法求得最大概率值对应的索引即音素序列。

注：状态的理解。状态通过对声音想、特征序列O进行GMM拟合或者DNN等拟合求得。如果声学模型输出的是音素，状态应该理解为比音素更小的级别，如3个状态对应一个音素；

https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/79069909。如果声学模型输出的是拼音如（zhong），状态应该理解为音素zh和ong等，或者其他声学单元。即状态为构成输出的更低一级别的单元。

中文音素。

发音单元可以看成单因素加声调、考虑协同发音等等

语言模型：给定输入序列，计算序列的概率。

对于一个服从某个未知概率分布P的语言L，根据给定的语言文字样本估计P的过程被称作统计语言建模。

在语音识别中，如果识别结果有多个，则可以根据语言模型计算每个识别结果的可能性，然后挑选一个可能性较大的识别结果。

包含：统计语言模型和神经网络语言模型。统计语言模型将词或者词汇，看成一个个体。神经网络语言模型也可以实现传统的语言模型。最重要的是词向量的提出。

统计语言模型

2元模型：

用最大似然估计计算上述概率

问题：

加入开始和结束标志。

数据匮乏（稀疏）(Sparse Data)引起零概率问题，如何解决？数据平滑

分子加1，分母加词汇量

不管训练语料规模多大，对于二元语法和三元语法而言，Kneser-Ney平滑方法和修正的Kneser-Ney平滑方法的效果都好于其它所有的平滑方法

基于缓存的语言模型（cache-based LM） 

基于混合方法的语言模型 

基于最大熵的语言模型

决策树语言模型等

系数由E-M算法求得

评价指标：

具体应用，如语音识别的表现等，

困惑度：基于该语言模型，求得的测试集的概率值的越大越好。对应的困惑度越小越好。

仍然是现今语音识别系统第一遍解码的首选模型  研究热点：基于N元文法语言模型平滑算法的研究

N元模型主要研究各种平滑算法。

神经网络语言模型：

用NN实现统计语言模型。

训练RNN网络计算每一个句子的概率

词向量的提出

端对端的理解：

中英文的区别：

中英文的音素不同，发音字典不同。如英文的音素k在发音字典可以是c,k;中文的音素组成的拼音shi4可以为世，事，是等。还需要语音模型计算实际的输出。

端对端不用考虑声学模型、发音字典、语音模型等，直接完成声音特征序列到文字序列的转换。

————————————————

版权声明：本文为CSDN博主「yang_daxia」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。

原文链接：https://blog.csdn.net/yang_daxia/article/details/83819595

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：语音识别中的标注问题和嵌入式训练

下一篇：AI智能语音机器人

用户评价

全部评价

热门资源

国内人才报告：机...

近日，BOSS 直聘职业科学实验室 &BOSS 直聘研究院...
AI使物联网更智能...

看到微软对物联网和人工智能的结合感兴趣是一个明...
推荐一批学习自然...

这里推荐一批学习自然语言处理相关的书籍，当然，...
安防智能化大势下...

大部分传统安防设备不仅拍摄视野有限，而且无法事...
20亿创业基金、10...

近日，杭州举办了建设国家新一代人工智能创新发展...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com