题名基于HMM的语音合成中声学建模和模型训练的研究
作者陈国平
学位类别博士
答辩日期2006-05-31
授予单位中国科学院声学研究所
授予地点声学研究所
关键词声学建模 模型训练 基于HMM的语音合成 混合激励 基于MBIC的决策树聚类
学位专业信号与信息处理
中文摘要“可以交谈的计算机”一直是语音技术、人工智能等相关领域科研工作者不懈追求的目标。HMM语音合成系统在可懂度方面已经达到了可以接受的程度,但在自然度方面离人们的期望还有一定的距离。声学建模是提高HMM语音合成系统自然度的主要挑战之一。本论文以HMM语音合成技术中的声学建模和模型训练等问题为主要研究对象,提出了一些提高合成语音自然度的改进算法。 本论文主要的工作(▲)和创新点(★)归纳如下: ▲ 本文分别研究了Mel-Cepstral分析合成和LPC分析合成技术,并通过主观听测实验分析了上述两种分析合成技术在重建语音的质量和听感等方面的区别。 ▲ 在参数语音合成系统中,采用MELP(Mixed Excitation Linear Prediction)声源模型可以提高合成语音的自然度,为了在宽频带获得质量较高的重建语音,本文对标准的2.4kbps速率下的MELP编码器中的LP分析合成、基频估计以及滤波器组设计等算法进行了修正。 ★ 由于MELP的声源激励模型的线性相位假设与实际语音不符,所以合成语音的自然度还不够理想。本文提出了一种全新的脉冲形状滤波器系数提取算法,该算法利用浊音余量信号波形的周期相似性,并在加权均方误差最小的准则下重构浊音相位信息,从而改进了传统的混合激励声源模型。实验结果表明,改进的声源模型与传统模型相比合成语音自然度有了显著改善。 ★ 提出了一种采用最小贝叶斯信息准则(MBIC, Minimum Bayesian Information Criterion)来最优化控制决策树结点分裂程度的算法。本文首先在理论上阐述了MBIC能够较好地解决模型参数复杂度与训练数据集规模之间的权衡问题,然后给出了基于MBIC的决策树分裂停止准则的计算公式,最后进行了汉语连续语音全音节识别实验,实验结果表明与传统的MLC(Maximum Likeihood Criterion)相比,MBIC对声学模型参数和训练数据集的变化具有更好的适应能力。 ★ 本文提出了一种协方差矩阵特征值低限的自适应快速计算方法,在训练数据量给定的条件下,通过将低限代替小于低限的特征值来可以进一步提高满协方差矩阵的分类性能。连续语音全音节识别实验结果表明修正后的满协方差矩阵的分类性能有了明显提高。本文对单高斯满协方差矩阵与多高斯对角协方差矩阵的建模精度和计算性能进行了比较,并进行了对比实验。 ★ 语音基频序列和谱参数序列的建模和合成在MSD-HMM(Multi-Space Probability Distribution-HMM)理论框架下能够得到很好的解决。本文推导了MSD-HMM前后向计算公式和Baum-Welch参数估计算法在HTK嵌入式训练中的具体形式,为在HTK上工程实现MSD-HMM奠定了数学基础。 ▲ 在以上的工作基础上,设计并实现了一个基于HMM的英文语音合成引擎。
语种中文
公开日期2011-05-07
页码135
内容类型学位论文
源URL[http://ir.ioa.ac.cn/handle/311008/51]  
专题声学研究所_声学所博硕士学位论文_1981-2009博硕士学位论文
推荐引用方式
GB/T 7714
陈国平. 基于HMM的语音合成中声学建模和模型训练的研究[D]. 声学研究所. 中国科学院声学研究所. 2006.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace