题名 | 复杂场景语音前端增强与分离算法研究 |
作者 | 李晨星 |
答辩日期 | 2020-06 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 北京 |
导师 | 徐波 |
关键词 | 语音去混响 语音增强 语音分离 远场语音识别 |
学位名称 | 工学学位 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 语音是人与机器最自然的交互方式之一,通过语音处理技术,人的意图可以被直接传递给机器。目前,近场语音识别、说话人识别都已获得非常好的性能,但是在远场环境中,语音信号不可避免地受到噪声、混响和其他说话人的干扰,其可懂度和感知质量严重下降,从而影响后续语音处理技术的性能,而通过语音前端增强与分离技术可以使声音的纯净度明显上升。语音前端增强与分离技术旨在复杂的声学场景中,消除噪声和混响的影响,分离说话人混合语音的同时尽可能保持语音质量不受影响,对语音识别、说话人识别和语音通信等现实应用具有重要价值,是语音信号处理领域最为关键的核心技术和重要研究课题之一。 近年来,基于深度神经网络的语音增强与分离方法因其卓越的性能表现而逐渐成为主流,但此类方法仍然存在相位不匹配、模型泛化性差、模拟数据与真实数据有差异等问题。对此,本文在充分把握语音前端领域基本理论和前沿方法的基础上,以深度学习为主要方法,以语音固有的声学特性和噪声场景声学特性为理论基础,从语音去混响、去噪、分离和远场语音识别等方面进行了深入的研究与探索,形成的研究成果主要有: 4. 本文提出全向波束算法,在真实场景中设计和实现远场语音识别模型。对于远场识别模型的前端,我们比较了几种常用的波束形成方法,并提出一种基于全向最小方差无失真响应和加权预测误差的波束形成方法以弥补现有方法的不足。对于模型后端,我们设计了几种不同结构的声学模型和语言模型,通过优化模型结构、组合顺序,进一步提升语音识别的性能。相较于基线模型,本文提出的方法在单麦克风阵列场景和多麦克风阵列场景中均获得明显识别性能提升。 |
语种 | 中文 |
页码 | 136 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/39846] |
专题 | 数字内容技术与服务研究中心_智能技术与系统工程 |
推荐引用方式 GB/T 7714 | 李晨星. 复杂场景语音前端增强与分离算法研究[D]. 北京. 中国科学院自动化研究所. 2020. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论