题名基于残差网络与注意力机制的新槽值抽取研究
作者鄢明辉
答辩日期2021-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师周喜
关键词槽值抽取 新槽值 自然语言处理 残差网络 注意力机制
学位名称硕士
学位专业计算机应用技术
英文摘要

随着互联网的快速发展,任务型人机对话在各类实际业务场景中发挥着越来越重要的作用,而应用场景复杂化也使得对话系统面临更多的挑战。在对话系统中,自然语言理解模块是重要组成部分,也是对话系统后续模块的基础,直接关系到对话系统的性能。自然语言理解涉及领域广泛,其旨在通用领域让计算机理解和运用人类社会的自然语言,而在对话领域,自然语言理解的主要任务是理解用户的意图和提取用户输入中的关键信息槽值。意图和槽值信息会作为下游对话状态追踪模块的输入,更新多轮对话过程中T时刻的对话历史信息,以供对话策略选择模块预测下一步动作。在任务型对话中,意图识别和槽值抽取是对话任务目标完成与否的关键因素,其中槽值抽取是本文的主要研究内容。在已有工作中,基于分类的方法在已知槽值上已经取得不错的成果,但是在实际应用场景中,用以训练模型的训练语料相对用户的各种输入总是有限的,因此遇到用户输入包含不在预设槽值集合内的新槽值是十分常见的情况。分类方法无法将新槽值归一化到预设槽值上,同时由于新槽值是在训练集中没有训练样本的槽值,导致依赖训练集产生的模型抽取新槽值仍然比较困难。目前关于新槽值抽取的研究也取得了不少进展,但仍然存在一些不足,其中引入预训练模型导致模型规模庞大,提取新槽值易干扰已知槽值识别,模型泛化能力差等都是影响槽值提取性能的重要问题。 本文针对上述问题,结合目前已有相关工作,对新槽值提取展开研究,从数据和模型两方面提出创新,在数据上通过负样本添加提升新槽值的泛化能力,在模型上利用注意力机制和残差网络加强特征的表达,提升槽值抽取性能,具体内容如下:首先在模型方面,提出一种基于残差注意力的特征融合模型,主要内容如下:第一,通过BiLSTM模型提取用户输入中包含的语序特征特征,并利用残差连接堆叠BiLSTM获取更具表达力的高维序列特征;第二,利用注意力机制跨距离提取句子中词与词之间的权重特征,使得模型能从全局关注到局部的特征;最后,将提取到的两种可以互补的特征融合后输入条件随机场获得序列标注信息。本模型的优点体现在不需要引入预训练模型,在性能上也能超过使用庞大预训练模型编码的其他模型,使模型规模更小,同时引入注意力机制使得模型能更容易关注到槽值,减少对已知槽值的干扰。在数据方面,为了解决新槽值训练时语料缺乏从而导致模型泛化能力弱的情况,在数据处理时以一定的概率等长用“[mask]”替换原样本中的槽值形成负样本,在训练时作为新槽值的伪样本数据加入训练集参与模型训练,通过添加负样本的方式能有效提升模型的泛化能力。 本文在DSTC2和DSTC3的联合数据集上进行相关测试,实验结果表明,该模型在新槽值、已知槽值和总数据集上的识别率为70.73%、91.56%和87.11%,其性能相比baseline方法有显著提升。将模型应用在高考咨询对话系统中,其槽值提取效果也十分显著,新槽值、已知槽值和总槽值识别率为96.25%、99.99%和98.68%。 

页码53
内容类型学位论文
源URL[http://ir.xjipc.cas.cn/handle/365002/7896]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
鄢明辉. 基于残差网络与注意力机制的新槽值抽取研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace