资源行业动态语音识别中的标注问题和嵌入式训练

语音识别中的标注问题和嵌入式训练

2020-02-20 | |  54 |   0

原标题: 语音识别中的标注问题和嵌入式训练

来源:CSDN博客      链接:https://blog.csdn.net/qq_23869697/article/details/80624298


什么是嵌入式训练(Embedded Training)?

序列的标注问题

机器学习的问题主要分为三类:分类问题,标注问题和回归问题 

标注问题的输入是一个观测序列,输出是一个标记序列或者状态序列。标注问题的一个目标是训练一个模型,使它能够对观测序列给出标记序列和状态序列。 

常用的统计学习方法: 隐马尔科夫模型,条件随机场。 

在信息提取和自然语言处理中,标记问题是常见的基本问题。


如何标注

在进行语音识别的时候,我们不知道语音的哪一个部分对应的是哪一个音素或者词。首先想到的是,人为给它打上标签,即每一个音频中的因素或者词都根据发音字典等等被手动分开和标记。然而实际情况中由于工作量太大而无法操作,这就需要一个方法能够自动切分音素或者词。 

最常见的实现方式可以参考下图: 

1582174081976663.jpg

图中展示的主要是两部分: 

(1)根据字典建立隐马尔科夫模型; 

这个模型定义了一些反映发音的隐状态 

(2)特征提取 

提取MFCC特种


接下来最重要的是如何训练得到HMM的参数问题?即如何得到转移矩阵和发射概率。 

一个高效的训练方法是直接使用Viterbi解码算法训练,这种训练方法的另外一种叫法是维特比对齐或者强制对齐(forced alignment)。


为什么叫嵌入式训练

1582174107817929.jpg

因为每一个发音都嵌在整个句子中,作为训练的一部分,所以把这个训练过程叫做嵌入式训练。


嵌入式训练的过程

(1)建立句子的HMM模型 

(2)初始化转移概率A 

(3)使用训练集的均值和方差初始化发射概率B 

(4)使用Viterbi算法训练,得到B 

这种训练方法的基本思路是:在知道词对应的观测状态下,直接设定转移概率强制Vertibi解码时通过确定的词。


嵌入式训练的结果

这个训练的目的就是为了把音频信号与我们的特征一一对应,也就是对齐,为后面的识别做准备。

————————————————

版权声明:本文为CSDN博主「be-hungry」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/qq_23869697/article/details/80624298

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:只需1分钟,这个网站用AI分离歌曲的人声、伴奏和乐器声

下一篇:语音识别框架

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...

  • 20亿创业基金、10...

    近日,杭州举办了建设国家新一代人工智能创新发展...