题名 | 基于预训练语言模型的媒体传播事件分析方法研究 |
作者 | 钱昊达 |
答辩日期 | 2022-05 |
文献子类 | 硕士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 李秋丹 |
关键词 | 请输入关键词 |
学位专业 | 社会计算 |
英文摘要 | 随着新媒体传播方式的变革创新,线上媒体平台成为事件信息传播的主要载体,提供蕴含事件关联的情绪、主题及机构等富有互动性且多样化的多维度传播内容[1],深入挖掘这类信息有助于管理部门及时感知事件传播过程中用户的情绪态势、了解事件话题分布、跟踪事件关联机构,为进一步评估事件传播影响力提供决策支持。本文旨在借鉴预训练模型、图神经网络、阅读理解等领域的研究成果,从情绪要素提取、话题分布挖掘、主体机构判别三个方面开展对事件要素进行深度分析的方法研究,主要工作内容总结如下: 1. 基于阅读理解框架的情绪要素提取方法。事件内容蕴含丰富的情绪要素,体现了事件背后的深层情感趋势。针对现有情绪要素提取方法建模深度不足,缺少目标要素信息融合的问题,本文提出一种基于阅读理解框架的情绪要素提取方法。该方法首先以情绪要素查询为先验知识,基于预训练语言模型融合目标信息和文本内容,生成目标要素导向的文本语义特征表示。然后,利用层级多任务学习框架优化答案选择结果并允许模型抽取多个情绪要素。两个公开数据集上的实验结果验证了引入查询与多任务学习机制的情绪要素提取模型的有效性。 2. 基于异质图网络的事件话题挖掘方法。话题是事件主旨内容的概括性表达,为解决话题分布挖掘过程中存在文档语义稀疏和主题语义重叠的关键性问题,本文提出基于异质图网络的事件话题挖掘方法。该方法基于文档和词语构建异质文本图网络,在表示学习过程中,采用双通道编码模块通过多层异质图卷积网络和自编码器分别学习文档的结构和语义信息。模型将自编码器和图卷积网络在每一层的输出的隐藏状态结合以获得更全面的文档表示。此外,模型通过双重监督机制统一指导两个通道的学习过程。在真实事件话题数据集上的实验结果表明深度融合预训练模型和异质图的方法提高了话题分布挖掘的性能。 3. 基于多轮问答框架的主题-主体机构判别方法。事件传播过程涉及若干机构单位,而机构与事件所属话题通常存在潜在关联关系。为了充分利用事件话题信息从而准确判别事件相关的主要机构,本文提出基于多轮问答框架的主题-主体机构识别方法。该方法利用查询与预训练模型编码得到任务导向的上下文表示。模型在第一轮分别以文本段提取和选择题形式获取机构实体与主题,然后基于这些答案在第二轮构造查询完成主体机构判别。实验表明,提出的主题-主体机构识别方法能够有效挖掘机构、主题和主体机构之间的深层关联,从而提升主体机构识别的性能。
|
语种 | 中文 |
目次 |
|
页码 | 100 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/48858] |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 钱昊达. 基于预训练语言模型的媒体传播事件分析方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论