题名基于注意力机制与长短时记忆网络的情感说话人合成
作者李博宇
学位类别硕士
答辩日期2020-09
授予单位中国科学院大学
授予地点北京
导师陈辉
关键词情感说话人 长短时记忆网络 注意力机制
学位专业计算机应用技术
中文摘要
随着人机交互技术的不断发展, 用户与计算机之间的交互过程被人们 赋予了更高的要求。而当计算机能够 以生动的人类形象,带有人类的情感状态和人类进行对话时,将有效提高交互体验。因此,情感化虚拟 说话 人生成技术受到越来越多的关注和广泛的研究。
在虚拟说话人合成技术 不断发展的今天 人们追求高精度的面部发音表达 的同时也希望赋予虚拟说话人情感 表达能力 。情感化的虚拟说话人合成技术以统计分析方法与深度学习方法为主。在统计分析方法中,通常构建音素与发音面部运动、情感面部运动对应的子空间 输入音素序列从子空间中筛选相应的运动序列 合成面部动画序列 。在深度学习方法中,通常使用深度神经网络结构直接 将音频特征、情感特征与面部运动参数间建立映射关系 。然而 现有 工作 在说话人的多样性情感表达上较为欠缺,同时建模过程中情感语义的相关性考虑不足,导致生成过程中需要一定的人工干预 。
针对以上问题,本文提出了一种基于注意力机制与长短时记忆网络的情感说话人合成方法,其主要贡献在以下两 方面:
1. 提出了一种 情感表达风格迁移 方法。该方法构建一个 表情发音字典 用以实现说话人的表情迁移过程,结合基于长短时记忆网络的发音模型,将发音信息与表情信息融合在一起。保证虚拟说话人发音准确性的同时兼顾表情状态的多样性与适应性。
2. 提出了一种 语 音 情感语义引导的说话人合成方法 。该方法 利用注意 力机制以及长短时记忆网络 进行情感语义分析 获取音频信号中的高层 情感 语义 信息 ,用以 引导虚拟说话人合成。通过预训练 的 情感语义分析模块, 加强了发音面部的情感表达 ,解决了人为预设情感的问题。

基于 上述算法思路,文章实现了一种基于注意力机制与长短时记忆网络的情感说话人合成 过程 。通过对实验结果的分析,该方法较好的 具备情感语义分析能力 ,自动呈现多样 性 的面部表情状态。

学科主题人工智能 ; 人工智能其他学科
内容类型学位论文
源URL[http://ir.iscas.ac.cn/handle/311060/19320]  
专题软件研究所_人机交互技术与智能信息处理实验室_学位论文
作者单位中国科学院软件研究所
推荐引用方式
GB/T 7714
李博宇. 基于注意力机制与长短时记忆网络的情感说话人合成[D]. 北京. 中国科学院大学. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace