基于循环神经网络的声学建模方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 博士学位论文

题名	基于循环神经网络的声学建模方法研究
作者	赵媛媛
答辩日期	2018
授予单位	中国科学院大学
授予地点	北京
导师	徐波
关键词	声学建模循环神经网络多维残差学习词打散改进的低帧率模型多场景中文语音识别
英文摘要	基于语音的人机交互方式，因便捷高效而越来越受到人们的青睐。语音识别作为其中最关键的技术之一，长期以来都吸引了大量的科研人员。近年来，基于加门循环神经网络的语音识别技术因其卓越的性能表现而逐渐成为主流。然而，不同类型的加门循环神经网络实际性能表现不一，同时深层循环神经网络的多维退化以及其过度建模词间词内依赖关系等问题而极大地损害了模型的性能。另外，单一场景的独立建模严重束缚着实际产品的应用与发展。本文主要关注循环神经网络在语音识别声学建模中的应用，主要创新成果如下： 1、提出了LSTMP中投影矩阵的主要作用是对稀疏信息重新组合和选择，同时通过共享提升泛化能力。研究并分析了不同类型的加门循环神经网络之间的区别，重点研究了投影层、GRU和LSTM对于历史信息的处理。另外，指出了循环神经网络应用于语音识别时所做的隐含假设，并分析了这些隐含假设在实际应用中遇到的问题。 2、提出了基于多维残差学习的训练算法解决了深层循环神经网络在空间和时间维的退化问题。在空间维引入恒等映射，以确保信息的传递更加畅通。在时间维，利用语音的短时平稳特性通过调节时间粒度解决信息流通不畅问题。同时将行卷积置于顶层来综合多个并行序列的信息。在音素识别和大词汇量连续语音识别两个任务上都获得了相对10%以上的性能提升。 3、提出了词打散算法和改进的低帧率模型解决了循环神经网络的过度建模问题。词打散算法极大地克服了声学模型建模词间依赖的问题，使模型不过分依赖训练数据而推广性得到充分加强，结合相应的语言模型即可应用到新的领域。改进的低帧率模型充分利用全部训练数据，避免了低帧率模型丢失数据的问题，增加了模型鲁棒性，且降低了解码的计算成本和延迟时间。最终在HKUST数据集上获得了7%以上的相对错误率下降。 4、提出了基于上下文无关音节的CTC中文多场景语音识别方法。克服了上下文相关建模天然学习场景信息的缺点，实现了不同场景数据的混合建模。时长更长的音节可以有效建模协同发音，同时具有很好的泛化性和鲁棒性。针对不同采样率的数据融合进一步提出了基于VGG的底层特征提取，并引入了层归一化算法。在窄带电话数据和宽带手机数据上，相对于场景独立建模方法分别获得7%和15%的性能提升，实现了单模型可同时服务多场景的目标。
语种	中文
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/21190]
专题	毕业生_博士学位论文
作者单位	Institute of Automation, Chinese Academy of Sciences
推荐引用方式 GB/T 7714	赵媛媛. 基于循环神经网络的声学建模方法研究[D]. 北京. 中国科学院大学. 2018.