资源技术动态语音识别传统方法(GMM+HMM+NGRAM)概述

语音识别传统方法(GMM+HMM+NGRAM)概述

2020-02-18 | |  52 |   0

原标题: 语音识别传统方法(GMM+HMM+NGRAM)概述

来源:CSDN博客 [发表:david_tym]


春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别)。部门起了个新项目,要用到语音识别(准备基于Kaldi来做)。我们之前做的传统音频已基本成熟,就开始关注在语音识别上了。对于我们来说,这是个全新的领域(虽然都是语音相关的,但是语音通信偏信号处理,传统语音识别方法偏概率统计),需要学习的知识很多,所以这段时间主要是在学习新知识了,主要学习了数学(高数/线性代数/概率统计,这应该算复习)、机器学习基础知识、深度学习、语音识别传统方法等。由于刚开始学,还没实践,有的还是一知半解。学的过程中也要有输出(把自己学的知识讲给组内其他同学听,并一起讨论,让大家都快速入门),这也能促进把学的东西掌握的更好。我花了两周的时间学习了语音识别的传统方法(主要学习方式是看文档和博客),基本上掌握了其方法,也做了PPT给组内同学讲(做PPT时用了一些博客上的图,谢谢这些博主,这里就不一一列举了)。今天就把这个PPT share出来,给也想入门语音识别的朋友做个参考。由于还没实践,有什么不太准确或不准确的地方还请指出。


语音识别传统方法主要分两个阶段:训练和识别,训练阶段主要是生成声学模型和语言模型给识别阶段用。传统方法主要有五大模块组成,分别是特征提取(得到每帧的特征向量),声学模型(用GMM从帧的特征向量得到状态,再用HMM从状态得到音素)、发音字典(从音素得到单词)、语言模型(从单词得到句子)、搜索解码(根据声学模型、发音字典和语言模型得到最佳文本输出),即从帧得到特征向量(特征提取干的话),从特征向量得到状态(GMM干的话),从状态得到音素(HMM干的话),从音素得到单词(发音字典干的活),从单词得到句子(语言模型干的活)。传统方法除了在特征提取上用到信号处理知识,其余全都是概率统计等知识,所以说语音识别和语音通信是两个完全不同的领域。


经过近十年的发展,语音识别已经从传统方法演进到基于深度学习的方法,识别率也有了质的提升,而且还在快速的演变中,现在商用的语音识别系统都是基于深度学习实现的。对于传统方法而言,只会出现在文章教材中了,但作为新手,在入门时学习它还是很有必要的。只有了解了传统方法再去学习深度学习方法,才知道深度学习方法是怎么样基于传统方法一步步演变的。下面就是我的PPT。

1581990978638952.jpg

1581990996845612.jpg

1581991016850731.jpg

1581991030829459.jpg

1581991043996586.jpg

1581991173942691.jpg

1581991197575716.jpg

1581991217480917.jpg

1581991238279734.jpg

1581991254220933.jpg

1581991277156467.jpg

1581991296107560.jpg

1581991317541824.jpg

1581991335211016.jpg

1581991358410881.jpg

1581991381523979.jpg

1581991401542825.jpg

1581991421199282.jpg

1581991443728299.jpg

1581991463753303.jpg

1581991487828238.jpg

1581991504814807.jpg

1581991522447994.jpg

1581991539857309.jpg

1581991561104880.jpg

1581991582854514.jpg

1581991600840050.jpg

———————————————

版权声明:本文为CSDN博主「david_tym」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/david_tym/article/details/88977773

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:使用 OpenCV-Python 进行交互式前景提取

下一篇:讯飞语音识别demo实现

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...