面向低资源场景的端到端语音识别方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 数字内容技术与服务研究中心 > 听觉模型与认知计算

题名	面向低资源场景的端到端语音识别方法研究
作者	易澄
答辩日期	2021-05-27
文献子类	博士
授予单位	中科院自动化所
授予地点	中科院自动化所
导师	徐波
关键词	低资源语音识别端到端预训练
学位专业	模式识别与智能系统
英文摘要	进入二十一世纪后，基于深度学习的神经网络技术凭借其突出的建模能力逐步成为语音识别技术中的主流。传统语音识别框架下的模型不断地推陈出新，兴起了基于深度神经网络的隐马尔可夫（Deep Neural Network Markov Model，DNNHMM）和连接实时分类（Connectionist Temporal Classiﬁcation，CTC）等代表性的模型。同期，端到端的建模思想逐渐走上了舞台并持续发扬光大。在数据量与硬件计算力井喷式增长的大背景下，以编解码（Encoder-Decoder）结构为代表的端到端模型的性能逐渐赶超传统的语音识别建模方法。相比传统的语音识别方法，端到端方法可以将声学、发音和语言三个部分用一个模型进行统一建模，免去了发音词典等语言学知识的需求，极大地简化模型构建的流程，便于在各种数据资源稀缺条件下构建识别系统。另外，端到端建模可以自底向上地利用上下文信息，对底层处理进行消歧，增加声学鲁棒性。端到端的语音识别方法在标注数据充足的情况下，无论是构建的简洁性还是最终的识别错误率，都要优于传统的识别方法。然而在标注数据严重不足的情况下，端到端模型会产生严重的过拟合，甚至无法训练收敛，其性能通常比传统的建模方法逊色很多。本文聚焦低数据资源下（low-resource）端到端语音识别模型的构建与训练方法。在模型构建方面，本文使用独立预训练的声学和语言模块分别作为编码器和解码器，并设计单调对齐的机制将两者进行连接，从而构成编解码模型。一方面，两个预训练模块可以充分利用无标注语音和文本数据；另一方面，单调对齐的连接机制未引入额外模型参数，同时极大地降低了语音和文本表征序列对齐的学习难度。这两点是端到端模型能在标注数据稀少的情况下收敛的关键。在模型训练方面，本文针对声学和语言模块的融合设计了训练策略，使得这两个模块都能充分发挥预训练的效果，仅需少量标注数据就可实现性能快速收敛。本文还设计了同时利用大量无标注的语音和文本数据对模型进行无监督的训练方法，分别从模型的离散识别结果和连续的概率分布角度进行评估，使模型性能在不依赖标注数据的情况下获得进一步提升。本文主要贡献归纳如下： 1. 本文基于语音和对应标注文本的单调对齐特性，设计了利用 CTC 发放时刻对声学表征序列进行压缩的连接机制，简化改进了先前的注意力整合发放机制。这两种编解码器连接机制通过对端到端模型引入归纳偏置（inductive bias），显著降低了端到端模型中声学和文本表征序列对齐关系的学习难度，从而加快端到端模型训练时的收敛速度，增强了对语音长度的泛化能力，因此适用于低资源语音识别任务。其中，利用 CTC 发放确定解码器输出个数的机制成为了后续多个工作的重要基础；注意力整合发放机制在简化改进后无需额外的模型结构，也因此增加了算法可靠性。 2. 本文提出了一个基于独立预训练的语音和文本模块的端到端模型以及对应的模块逐步融合方案。语音模块采用最近兴起的 wav2vec2.0 模型及其自监督预训练方案；文本模块采用经过广泛验证的双向编码表征转换器（Bidirectional Encoder Representations from Transformers，BERT）及其自监督预训练方案。两个模块通过上述改进后的注意力整合发放机制进行连接。本文所提出的整个语音识别模型仅有一个用于声学和语言隐层映射的全连接层未参与预训练，因此仅需少量标注数据着重学习两个模块的单调对齐关系。此外，本文针对两个不同模块所提出的逐步融合方案是文本模块发挥预训练效果的关键，为后续融合多个预训练模块的工作提供了重要参考。 3. 本文基于无标注语音和文本内容一致的先验假设，提出了两种联合利用无标注语音和文本数据对端到端模型进行无监督训练的方案：基于双向语言模型修正的伪标注迭代生成方法和基于判别器的对抗训练方法。第一种方案基于模型输出的离散识别结果，首次提出利用双向语言模型对其进行修正操作生成伪标注，提升了伪标注数量、质量，继而提升了无监督学习效率；第二种方案基于模型输出的连续概率分布进行对抗训练，分析出直接对端到端模型进行对抗训练会产生不稳定的原因是模型中的“对齐”与“映射”建模存在相互干扰，并通过显式地分离这两个部分实现了稳定的对抗训练方案。
语种	中文
页码	100
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/44881]
专题	数字内容技术与服务研究中心_听觉模型与认知计算
通讯作者	易澄
推荐引用方式 GB/T 7714	易澄. 面向低资源场景的端到端语音识别方法研究[D]. 中科院自动化所. 中科院自动化所. 2021.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们