题名基于神经网络的中文命名实体识别方法研究与实现
作者董传海
答辩日期2020-05
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师宗成庆
关键词神经网络 中文命名实体识别 特征选择 多通道
学位专业模式识别与智能系统
英文摘要

命名实体识别是指识别出文本中特定的实体,它是信息抽取、信息检索、问答系统和机器翻译等自然语言处理任务的基础。命名实体识别结果的好坏直接影响着后续任务的效果。由于中文本身的特点,中文命名实体识别任务面临更多的困难。近年来,神经网络方法在图像识别、语音识别和自然语言处理相关任务上取得了较好的效果,尤其长短时记忆网络-条件随机场模型在序列标注任务上取得了突破性的成果,但已有的研究并没有充分考虑汉语独有的特点,从而为中文命名实体识别性能的提升留下了空间。
另外,已有的中文命名实体识别方法研究主要使用新闻语料作为数据集,而随着互联网技术的蓬勃发展,人们越来越需要自动识别微博等社交媒体文本中的命名实体。微博作为代表性的社交媒体文本,由于其内容复杂、表达风格口语化等特点,从而使得中文微博命名实体识别的性能一直不佳。
因此,本文结合中文特点和微博文本的特殊性开展命名实体识别的方法研究。论文的主要工作和创新归纳如下:
(1)提出了一种使用偏旁部首特征的由字构词的中文命名实体识别方法
中文命名实体识别任务中的传统机器学习方法大多需要人工选择特征模板,人工干预较强,模型的移植性较差,而目前兴起的基于神经网络的端到端的模型无需人工选择特征模板,模型的移植性强。已有的研究通过使用卷积神经网络或循环神经网络捕捉英文字符级别的特征,获得了较好的识别效果,受此启发,本文将汉字分解为偏旁部首,把偏旁部首看作汉字的最小语义单元,然后利用长短时记忆网络和条件随机场模型捕捉中文偏旁部首级别的特征,以达到提升中文命名实体识别效果的目的。实验表明,该方法可以有效提升中文命名实体识别的效果。
(2)提出了一种使用多通道长短时记忆网络和条件随机场模型的中文微博命名实体识别方法
如前所述,中文微博文本具有自己的特点,使用传统新闻标注语料训练后得到的模型,如果直接应用于微博文本,难以得到很好的结果。但是,已有的微博领域中文命名实体标注语料十分稀少,且标注成本大,很难获取大规模的中文微博命名实体标注数据集。为此,本文提出了利用已有的大量新闻领域标注语料和少量微博领域标注语料同时训练由字构词的长短时记忆网络和条件随机场模型,然后通过多通道结构分别捕捉新闻领域、微博领域和通用领域的特征,从而提升中文命名实体识别的效果。实验表明,该方法在实验数据集上取得了最好的结果。

语种中文
页码64
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/39257]  
专题模式识别国家重点实验室_自然语言处理
通讯作者董传海
推荐引用方式
GB/T 7714
董传海. 基于神经网络的中文命名实体识别方法研究与实现[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace