题名复杂场景语音前端增强与分离算法研究
作者李晨星
答辩日期2020-06
文献子类博士
授予单位中国科学院自动化研究所
授予地点北京
导师徐波
关键词语音去混响 语音增强 语音分离 远场语音识别
学位名称工学学位
学位专业模式识别与智能系统
英文摘要

语音是人与机器最自然的交互方式之一,通过语音处理技术,人的意图可以被直接传递给机器。目前,近场语音识别、说话人识别都已获得非常好的性能,但是在远场环境中,语音信号不可避免地受到噪声、混响和其他说话人的干扰,其可懂度和感知质量严重下降,从而影响后续语音处理技术的性能,而通过语音前端增强与分离技术可以使声音的纯净度明显上升。语音前端增强与分离技术旨在复杂的声学场景中,消除噪声和混响的影响,分离说话人混合语音的同时尽可能保持语音质量不受影响,对语音识别、说话人识别和语音通信等现实应用具有重要价值,是语音信号处理领域最为关键的核心技术和重要研究课题之一。

近年来,基于深度神经网络的语音增强与分离方法因其卓越的性能表现而逐渐成为主流,但此类方法仍然存在相位不匹配、模型泛化性差、模拟数据与真实数据有差异等问题。对此,本文在充分把握语音前端领域基本理论和前沿方法的基础上,以深度学习为主要方法,以语音固有的声学特性和噪声场景声学特性为理论基础,从语音去混响、去噪、分离和远场语音识别等方面进行了深入的研究与探索,形成的研究成果主要有:
1. 本文提出一种基于生成对抗训练的单通道语音去混响算法,可以在复杂环境中有效去除混响。提出的算法采用精调的 CBLDNN 结构,利用卷积网络、循环神经网络、前馈网络的模型组合深入挖掘语音特征;网络训练时,通过加入生成对抗训练以使去混响后的语音逼近纯净语音,从而进一步提升语音质量。实验结果表明,所提出的模型明显优于加权预测误差等基线模型,且具有较好的鲁棒性和泛化性。此外,将离线去混响模型扩展到在线语音去混响场景,增加该方法的适用范围,在线模型可以取得与离线模型相近的性能。
2. 本文首先提出一种基于二维自注意力机制的时频域语音去噪模型,可以有效提升带噪语音可懂度。二维自注意力机制可以选择适合当前时频点的时频特征向量进行编码,同时将提取的时间和频域维度的特征融合。通过二维自注意力机制,网络可以捕捉语音序列的长时依赖;基于最小均方误差准则的模型会有频谱模糊现象,我们提出频谱边缘增强网络,建模和恢复频谱纹理细节,锐化频谱。针对时频域的语音去噪方法存在的相位不匹配问题,本文进一步提出一种基于全卷积神经网络的时域多尺度语音去噪模型。该模型不仅通过时域端到端训练有效避免相位不匹配问题,模型中的门控机制还可以用于选择重要特征并抑制不相关信息,多尺度特征提取方法被用来学习不同尺度的特征表示,多尺度特征融合方法融合来自不同层次的特征。实验结果表明,该模型能有效地去除语音信号中的噪声。
3. 本文提出一种基于对抗训练的时频域语音分离方法,分离混合语音并获得更好的语音质量。在探究不同模型结构和模型组成对性能影响的基础上,所提出的网络能够更好地提取声学特征;利用多任务训练将语音听觉特征融入网络训练中,网络关注并学习到语音听觉特性;通过将对抗训练加入网络训练,使分离语音能够在高阶特征空间更趋向于纯净语音。基于时频域的语音分离方法具有相位不匹配问题,并且基于 PIT 训练准则的方法无法处理混合声源个数未知的场景。对此,我们提出一种基于时域的双通道语音分离网络,该网络首先按顺序推断混合语音中所有说话人与其方向,然后将其转换为声源掩蔽来分离混合语音。模型在时域进行分离,避免相位不匹配问题,有效提升分离性能;分离的输出带有网络预测的说话人信息和方向信息,此信息可以被应用于之后的处理流程中。实验结果表明该方法能够有效分离混合语音,并解决常规分离模型中无法解决的混合声源个数未知、输出顺序不定和难以选择分离输出的问题。

4. 本文提出全向波束算法,在真实场景中设计和实现远场语音识别模型。对于远场识别模型的前端,我们比较了几种常用的波束形成方法,并提出一种基于全向最小方差无失真响应和加权预测误差的波束形成方法以弥补现有方法的不足。对于模型后端,我们设计了几种不同结构的声学模型和语言模型,通过优化模型结构、组合顺序,进一步提升语音识别的性能。相较于基线模型,本文提出的方法在单麦克风阵列场景和多麦克风阵列场景中均获得明显识别性能提升。

语种中文
页码136
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/39846]  
专题数字内容技术与服务研究中心_智能技术与系统工程
推荐引用方式
GB/T 7714
李晨星. 复杂场景语音前端增强与分离算法研究[D]. 北京. 中国科学院自动化研究所. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace