CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名像素级图像理解高效特征融合方法研究
作者武慧凯
答辩日期2020-05-27
文献子类博士
授予单位中国科学院大学
授予地点中国北京
导师黄凯奇
关键词像素级图像理解 联合上采样 图像间的特征融合 特征图间的特征融合 多尺度特征图间的自动特征融合
学位专业模式识别与智能系统
英文摘要

        像素级图像理解是对图像细粒度的处理和分析,旨在预测图像中每一个像素所对应的类别或数值,也被称为图像像素级预测。其涉及语义分割(预测每个像素的类别),单目深度估计(预测每个像素的深度)和图像增强(预测每个像素的数值以提升图像质量)等多种任务,可以让计算机对图像进行更加精细的感知、理解和处理,在无人驾驶、智能机器人、视频监控和智能摄影摄像中具有重要的作用。因此,开展对像素级图像理解的研究具有十分重要的理论意义和应用价值。

        像素级图像理解要求算法既能提取高层的语义特征,以对类别或数值进行准确的预测;同时又能提取低层的空间特征(spatial feature,边缘、纹理等细节特征),以对每一个像素进行精确的区分。但是,同时提取语义特征和空间特征非常地困难。其主要原因是提取语义特征一般需要较大的感受野和较多的非线性变换,而提取空间特征却需要较小的感受野和较少的非线性变换。因此,主流的方法通常会对语义特征和空间特征分别进行提取,然后再对二者进行融合以实现对每一个像素准确地预测和精确地区分。如何高效、准确地融合高层的语义特征和低层的空间特征对解决像素级图像理解问题至关重要,同时也非常具有挑战性。本文围绕如何设计时间复杂度低且有效的特征融合算法展开,按照数据抽象程度的不同,重点研究三个问题:如何进行图像间的特征融合,如何进行特征图间的特征融合,以及如何自动地进行多尺度特征图间的特征融合。

        本文的主要工作和创新点归纳如下:

        1. 提出了一种基于联合上采样的框架来对图像的高层语义特征和低层空间特征进行融合,并在该框架下提出了引导滤波单元进行图像间的特征融合

        已有的像素级图像理解方法通常会使用全卷积网络直接对高分辨输入图像进行处理。这样虽然可以取得良好的性能,但是却会消耗大量的计算资源。为降低算法的时间和空间复杂度,本文首先使用全卷积网络对低分辨率输入图像进行处理得到低分辨率输出结果,然后使用联合上采样对低分辨率输出结果中的语义特征和高分辨率输入图像中的空间特征进行融合。特别地,本文设计出一个神经网络模块——引导滤波单元来更好地对图像中的语义特征和空间特征进行融合。该模块计算复杂度低,具有可学习的参数,并且可以与全卷积网络进行端到端的训练。实验表明,与已有的方法比,所提出的方法可以在多个任务上获得相近甚至更好的性能,同时可以提速10-100倍。这对于像素级图像理解算法在现实场景特别是在嵌入式移动设备中的应用具有重大意义。

        2. 展示了基于扩张卷积的全卷积网络可以用标准的全卷积网络加联合上采样来近似,并提出了金字塔联合上采样单元进行特征图间的特征融合

        在像素级图像理解的方法中,基于扩张卷积的全卷积网络可以在提取高层语义特征的同时维持低层的空间特征,因此在多个数据集上取得了当时最好的性能。但是,相比于标准的全卷积网络,基于扩张卷积的全卷积网络的计算复杂度急剧增加,很难在实际应用中部署。通过分析,本文发现了基于扩张卷积的全卷积网络可以使用标准全卷积网络加联合上采样模块来近似。据此,本文提出了使用标准全卷积网络提取特征图,使用联合上采样在特征图间进行特征融合的框架,并在框架中提出了金字塔联合上采样模块来融合特征图中的语义特征和空间特征。实验证明,本文所提出的方法可以在多个数据集上达到当时最好的性能,并且降低了3倍以上的计算量,这使得算法可以实时地运行。

        3. 提出了一种可以自动地设计神经网络模块以进行多尺度特征图间的特征融合的算法

        在像素级图像理解中,全卷积神经网络通常会提取到多个层级的特征图,即多尺度特征图。选择哪些特征图进行特征融合以及如何融合选取的特征图是特征融合研究的热点。已有的方法通常会进行大量实验手工地选择特征图和设计融合算法,这需要较强的专家知识和大量的人力物力。不同于已有方法,本文致力于设计一个算法来自动地挑选需要融合的特征图以及自动地设计特征融合算法。为此,本文设计出一个包含大量候选方案的搜索空间,并提出了稀疏二值化约束来指导搜索的过程。实验表明,本文的方法可以在较短的时间内自动地设计出一个可以达到当时最好性能并且计算复杂度较低的多尺度特征融合模块。此外,该模块可以直接迁移到其他的网络架构、数据集和任务上,并取得有竞争力的性能。

语种中文
页码132
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/39092]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
武慧凯. 像素级图像理解高效特征融合方法研究[D]. 中国北京. 中国科学院大学. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace