资源行业动态语音识别框架

语音识别框架

2020-02-20 | |  107 |   0

原标题: 语音识别框架

来源:CSDN博客      链接:https://blog.csdn.net/yang_daxia/article/details/83819595


1582174647648272.png


传统理论重点研究声学模型,发音字典不用关心,语言模型一般用n-gram


预处理:1. 首尾端的静音切除,降低对后续步骤造成的干扰,静音切除的操作一般称为VAD。


 2. 声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧,使用移动窗函数来实现,不是简单的切开,各帧之间一般是有交叠的。


特征提取:主要算法有线性预测倒谱系数(LPCC)和Mel 倒谱系数(MFCC),目的是把每一帧波形变成一个包含声音信息的多维向量;


声学模型(AM):通过对语音数据进行训练获得,输入是特征向量,输出为音素信息;


字典:字或者词与音素的对应, 简单来说, 中文就是拼音和汉字的对应,英文就是音标与单词的对应;


语言模型(LM):通过对大量文本信息进行训练,得到单个字或者词相互关联的概率;计算所有可能性的概率,求对应的最大概率值的索引。即输出文本。


语音识别流程的举例(只是形象表述,不是真实数据和过程):


    1. 语音信号:PCM文件等(我是机器人)

    2. 特征提取:提取特征向量[1 2 3 4 5 6 0 ...]

    3. 声学模型:[1 2 3 4 5 6 0]-> w o s i j i q i r n重点

    4. 字典:窝:w o;我:w o; 是:s i; 机:j i; 器:q i; 人:r n;级:j i;忍:r n;

    5. 语言模型:我:0.0786, 是: 0.0546,我是:0.0898,机器:0.0967,机器人:0.6785;


计算所有可能性的概率,求对应的最大概率值的索引。


    6. 输出文字:我是机器人

原文:https://blog.csdn.net/nsh119/article/details/79360778


二、声学模型


声学模型:某音素组合条件下对应声学特征的概率值。反过来也可以通过概率值求索引,即特征到音素的映射。传统的为HMM-GMM模型,发展为NN,深度NN模型。


下图为声学模型框架。

1582174701677526.jpg

https://blog.csdn.net/abcjennifer/article/details/27346787


声学模型的输入是由特征提取模块提取的特征(MFCC等)。一般来说,这些特征是多维的向量。由于语音信号特征的分布并不能用简单的概率分布,故而常用混合高斯模型方法对语音信号的分布进行拟合。参数由E-M算法求得。对声音序列O,进行GMM拟合,每一个GMM为HMM的一个状态,计算状态的概率值,通过搜索算法求得最大概率值对应的索引即音素序列。


注:状态的理解。状态通过对声音想、特征序列O进行GMM拟合或者DNN等拟合求得。如果声学模型输出的是音素,状态应该理解为比音素更小的级别,如3个状态对应一个音素;


https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/79069909。如果声学模型输出的是拼音如(zhong),状态应该理解为音素zh和ong等,或者其他声学单元。即状态为构成输出的更低一级别的单元。

1582174801395279.jpg

中文音素。

1582174828731108.png

发音单元可以看成单因素加声调、考虑协同发音等等


语言模型:给定输入序列,计算序列的概率。


对于一个服从某个未知概率分布P的语言L,根据给定的语言文字样本估计P的过程被称作统计语言建模。


在语音识别中,如果识别结果有多个,则可以根据语言模型计算每个识别结果的可能性,然后挑选一个可能性较大的识别结果。

 1582174856324495.png

包含:统计语言模型和神经网络语言模型。统计语言模型将词或者词汇,看成一个个体。神经网络语言模型也可以实现传统的语言模型。最重要的是词向量的提出。


统计语言模型


2元模型:

1582174911710597.jpg

用最大似然估计计算上述概率

1582175452379212.png

 1582175468618344.png

问题:

1582175507670781.jpg

加入开始和结束标志。

1582175532537480.jpg

数据匮乏(稀疏)(Sparse Data)引起零概率问题 ,如何解决?  数据平滑

1582175559527226.png


分子加1,分母加词汇量

12.jpg

不管训练语料规模多大,对于二元语法和三元语法而言 ,Kneser-Ney平滑方法和修正的Kneser-Ney平滑方法 的效果都好于其它所有的平滑方法

1582175601326550.png

基于缓存的语言模型(cache-based LM) 

基于混合方法的语言模型 

基于最大熵的语言模型

决策树语言模型等

1582175629833293.png

系数由E-M算法求得

评价指标:

具体应用,如语音识别的表现等,

困惑度:基于该语言模型,求得的测试集的概率值的越大越好。对应的困惑度越小越好。

1582175673577766.jpg

1582175745495354.jpg

1582175763286087.jpg

仍然是现今语音识别系统第一遍解码的首选模型  研究热点:基于N元文法语言模型平滑算法的研究

1582175824252517.jpg

N元模型主要研究各种平滑算法。

神经网络语言模型:

用NN实现统计语言模型。

训练RNN网络计算每一个句子的概率

1582175848554801.jpg

词向量的提出


端对端的理解:

中英文的区别:

中英文的音素不同,发音字典不同。如英文的音素k在发音字典可以是c,k;中文的音素组成的拼音shi4可以为世,事,是等。还需要语音模型计算实际的输出。


端对端不用考虑声学模型、发音字典、语音模型等,直接完成声音特征序列到文字序列的转换。

————————————————

版权声明:本文为CSDN博主「yang_daxia」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/yang_daxia/article/details/83819595

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:语音识别中的标注问题和嵌入式训练

下一篇:AI智能语音机器人

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...

  • 20亿创业基金、10...

    近日,杭州举办了建设国家新一代人工智能创新发展...