基于语义的跨模态检索研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 智能感知与计算研究中心

题名	基于语义的跨模态检索研究
作者	程文龙
答辩日期	2022-05-21
文献子类	硕士
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	王亮
关键词	跨模态检索视觉问答语音-图像检索三模态排序损失循环一致性损失
学位名称	工学硕士
学位专业	模式识别与智能系统
英文摘要	随着信息技术和硬件设备的发展，互联网上涌现出了大量的多媒体数据，如图像、文本、语音以及视频等。如何从大量多媒体数据中快速搜索有效信息成为了一个亟需解决的问题。为了解决该问题，跨模态检索技术应运而生，并引起了研究者们的广泛关注。与单模态检索相比，跨模态检索存在模态差异性问题，其主要挑战在于如何度量不同模态数据之间的内容相似性。随着计算机视觉和自然语言处理技术的发展，跨模态检索也取得了很大的研究进展。但仍然存在一些问题。一是跨模态检索技术的迁移与应用问题，即跨模态检索技术能否成功应用到其他相关领域中。二是先前的跨模态研究主要聚焦于图像和文本，很少关注语音，但在某些场景下使用语音比文本更加方便。三是先前的方法不能很好地抑制图像和语音之间的模态差异性问题。本文的研究工作主要聚焦于这些问题，贡献如下： 1. 提出了一种基于检索的方法来处理视觉问答中的指向问题，这是检索模型迁移到视觉问答任务中的一次成功尝试。该方法的原理为在共同特征空间中拉近问句特征与正确答案特征之间的距离，同时推远问句特征与非正确答案特征之间的距离。此外，该方法不仅能解决有候选答案约束的指向问题，也为无候选答案约束的指向问题提供了一种可行的解决思路。该方法在视觉问答的指向任务中获得了较好的性能。 2. 提出了一种基于语义信息和特征重构的检索方法来处理语音-图像检索的问题。首先，使用对应于语音数据的语义信息引入了图像和语音之间的辅助对齐关系，并据此提出了一种三模态排序损失。其次，引入了基于特征重构的循环一致性损失，这可以进一步抑制视觉模态和语音模态之间的模态差异性问题。大量的实验验证了该方法的有效性。该方法在语音-图像检索任务上取得了较好的性能。
语种	中文
页码	74
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/48486]
专题	自动化研究所_智能感知与计算研究中心
推荐引用方式 GB/T 7714	程文龙. 基于语义的跨模态检索研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们