多模态与多层注意力相结合的视频内容文本表述研究

doi:10.19678/j.issn.1000-3428.0063294

	多模态与多层注意力相结合的视频内容文本表述研究
	赵宏; 郭岚; 陈志文; 郑厚泽
刊名	计算机工程
	2022-01-19
页码	1-11
关键词	视频内容文本描述多模态融合联合表示协作表示自注意力
DOI	10.19678/j.issn.1000-3428.0063294
英文摘要	针对现有视频内容文本表述模型生成的文本表述单一，对视频内容生成文本表述不够全面的问题，提出一种融合帧级图像、音频信息的视频内容文本表述模型。首先，基于自注意力机制设计单模态嵌入层网络结构，将单模态特征嵌入进行单模态特征参数学习；然后，采用联合表示、协作表示两种方案对单模态嵌入层输出的高纬特征向量进行双模态特征融合，使模型可以更好地关注到视频中不同目标及其之间的交互关系，改善视频内容文本表述模型的性能；最后，通过大规模数据集预训练模型提取视频帧、视频所携带的音频等表征信息，送入编解码器实现视频内容的文本表述。在大型数据集MSR-VTT和LSMDC数据集上进行相关实验，实验结果表明，所提方法能够有效提升视频内容文本表述模型的性能，相较于各对比模型各项评价指标均有一定提升。所提模型在评价指标BLEU4、METEOR、ROUGEL和CIDEr上分别达到0.386、0.250、0.609和0.463的得分，模型相较于MSR-VTT挑战赛中排名前五的模型评价指标得分分别提升了0.082、0.037、0.115和0.257。
URL标识	查看原文
语种	中文
内容类型	期刊论文
源URL	[http://ir.lut.edu.cn/handle/2XXMBERH/155860]
专题	计算机与通信学院
作者单位	兰州理工大学计算机与通信学院
推荐引用方式 GB/T 7714	赵宏,郭岚,陈志文,等. 多模态与多层注意力相结合的视频内容文本表述研究[J]. 计算机工程,2022:1-11.
APA	赵宏,郭岚,陈志文,&郑厚泽.(2022).多模态与多层注意力相结合的视频内容文本表述研究.计算机工程,1-11.
MLA	赵宏,et al."多模态与多层注意力相结合的视频内容文本表述研究".计算机工程 (2022):1-11.