题名面向低资源场景的端到端语音识别方法研究
作者易澄
答辩日期2021-05-27
文献子类博士
授予单位中科院自动化所
授予地点中科院自动化所
导师徐波
关键词低资源语音识别 端到端 预训练
学位专业模式识别与智能系统
英文摘要

进入二十一世纪后,基于深度学习的神经网络技术凭借其突出的建模能力逐 步成为语音识别技术中的主流。传统语音识别框架下的模型不断地推陈出新,兴 起了基于深度神经网络的隐马尔可夫(Deep Neural Network Markov Model,DNNHMM)和连接实时分类(Connectionist Temporal Classification,CTC)等代表性 的模型。同期,端到端的建模思想逐渐走上了舞台并持续发扬光大。在数据量与 硬件计算力井喷式增长的大背景下,以编解码(Encoder-Decoder)结构为代表的 端到端模型的性能逐渐赶超传统的语音识别建模方法。相比传统的语音识别方 法,端到端方法可以将声学、发音和语言三个部分用一个模型进行统一建模,免 去了发音词典等语言学知识的需求,极大地简化模型构建的流程,便于在各种 数据资源稀缺条件下构建识别系统。另外,端到端建模可以自底向上地利用上 下文信息,对底层处理进行消歧,增加声学鲁棒性。端到端的语音识别方法在标 注数据充足的情况下,无论是构建的简洁性还是最终的识别错误率,都要优于 传统的识别方法。然而在标注数据严重不足的情况下,端到端模型会产生严重 的过拟合,甚至无法训练收敛,其性能通常比传统的建模方法逊色很多。本文聚 焦低数据资源下(low-resource)端到端语音识别模型的构建与训练方法。在模 型构建方面,本文使用独立预训练的声学和语言模块分别作为编码器和解码器, 并设计单调对齐的机制将两者进行连接,从而构成编解码模型。一方面,两个预 训练模块可以充分利用无标注语音和文本数据;另一方面,单调对齐的连接机制 未引入额外模型参数,同时极大地降低了语音和文本表征序列对齐的学习难度。 这两点是端到端模型能在标注数据稀少的情况下收敛的关键。在模型训练方面, 本文针对声学和语言模块的融合设计了训练策略,使得这两个模块都能充分发 挥预训练的效果,仅需少量标注数据就可实现性能快速收敛。本文还设计了同时 利用大量无标注的语音和文本数据对模型进行无监督的训练方法,分别从模型 的离散识别结果和连续的概率分布角度进行评估,使模型性能在不依赖标注数 据的情况下获得进一步提升。本文主要贡献归纳如下:

1. 本文基于语音和对应标注文本的单调对齐特性,设计了利用 CTC 发放时 刻对声学表征序列进行压缩的连接机制,简化改进了先前的注意力整合发放机制。这两种编解码器连接机制通过对端到端模型引入归纳偏置(inductive bias), 显著降低了端到端模型中声学和文本表征序列对齐关系的学习难度,从而加快 端到端模型训练时的收敛速度,增强了对语音长度的泛化能力,因此适用于低资 源语音识别任务。其中,利用 CTC 发放确定解码器输出个数的机制成为了后续 多个工作的重要基础;注意力整合发放机制在简化改进后无需额外的模型结构, 也因此增加了算法可靠性。

2. 本文提出了一个基于独立预训练的语音和文本模块的端到端模型以及对 应的模块逐步融合方案。语音模块采用最近兴起的 wav2vec2.0 模型及其自监督 预训练方案;文本模块采用经过广泛验证的双向编码表征转换器(Bidirectional Encoder Representations from Transformers,BERT)及其自监督预训练方案。两个 模块通过上述改进后的注意力整合发放机制进行连接。本文所提出的整个语音 识别模型仅有一个用于声学和语言隐层映射的全连接层未参与预训练,因此仅 需少量标注数据着重学习两个模块的单调对齐关系。此外,本文针对两个不同模 块所提出的逐步融合方案是文本模块发挥预训练效果的关键,为后续融合多个 预训练模块的工作提供了重要参考。

3. 本文基于无标注语音和文本内容一致的先验假设,提出了两种联合利用 无标注语音和文本数据对端到端模型进行无监督训练的方案:基于双向语言模 型修正的伪标注迭代生成方法和基于判别器的对抗训练方法。第一种方案基于 模型输出的离散识别结果,首次提出利用双向语言模型对其进行修正操作生成 伪标注,提升了伪标注数量、质量,继而提升了无监督学习效率;第二种方案基 于模型输出的连续概率分布进行对抗训练,分析出直接对端到端模型进行对抗 训练会产生不稳定的原因是模型中的“对齐”与“映射”建模存在相互干扰,并 通过显式地分离这两个部分实现了稳定的对抗训练方案。

语种中文
页码100
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/44881]  
专题数字内容技术与服务研究中心_听觉模型与认知计算
通讯作者易澄
推荐引用方式
GB/T 7714
易澄. 面向低资源场景的端到端语音识别方法研究[D]. 中科院自动化所. 中科院自动化所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace