CORC  > 兰州理工大学  > 兰州理工大学  > 计算机与通信学院
多模态与多层注意力相结合的视频内容文本表述研究
赵宏; 郭岚; 陈志文; 郑厚泽
刊名计算机工程
2022-01-19
页码1-11
关键词视频内容文本描述 多模态融合 联合表示 协作表示 自注意力
DOI10.19678/j.issn.1000-3428.0063294
英文摘要针对现有视频内容文本表述模型生成的文本表述单一,对视频内容生成文本表述不够全面的问题,提出一种融合帧级图像、音频信息的视频内容文本表述模型。首先,基于自注意力机制设计单模态嵌入层网络结构,将单模态特征嵌入进行单模态特征参数学习;然后,采用联合表示、协作表示两种方案对单模态嵌入层输出的高纬特征向量进行双模态特征融合,使模型可以更好地关注到视频中不同目标及其之间的交互关系,改善视频内容文本表述模型的性能;最后,通过大规模数据集预训练模型提取视频帧、视频所携带的音频等表征信息,送入编解码器实现视频内容的文本表述。在大型数据集MSR-VTT和LSMDC数据集上进行相关实验,实验结果表明,所提方法能够有效提升视频内容文本表述模型的性能,相较于各对比模型各项评价指标均有一定提升。所提模型在评价指标BLEU4、METEOR、ROUGEL和CIDEr上分别达到0.386、0.250、0.609和0.463的得分,模型相较于MSR-VTT挑战赛中排名前五的模型评价指标得分分别提升了0.082、0.037、0.115和0.257。
URL标识查看原文
语种中文
内容类型期刊论文
源URL[http://ir.lut.edu.cn/handle/2XXMBERH/155860]  
专题计算机与通信学院
作者单位兰州理工大学计算机与通信学院
推荐引用方式
GB/T 7714
赵宏,郭岚,陈志文,等. 多模态与多层注意力相结合的视频内容文本表述研究[J]. 计算机工程,2022:1-11.
APA 赵宏,郭岚,陈志文,&郑厚泽.(2022).多模态与多层注意力相结合的视频内容文本表述研究.计算机工程,1-11.
MLA 赵宏,et al."多模态与多层注意力相结合的视频内容文本表述研究".计算机工程 (2022):1-11.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace