CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名基于弱监督学习的网络图像语义解析
作者刘洋
学位类别工学博士
答辩日期2014-05-27
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师卢汉清
关键词弱监督学习 图像语义解析 双重聚类 稀疏编码 字典学习 多示例多标签学习 结构SVM Weakly-Supervised Learning Image Region Annotation Dual-Clustering Sparse Coding Dictionary Learning Structural SVM Multi-Instance Multi-Label Learning
其他题名Research on Weakly-Supervised Web Image Semantic Parsing
学位专业模式识别与智能系统
中文摘要随着互联网进入Web2.0时代,越来越多的用户使用语义标签对网络图像进行标注,并在图片分享网站Flickr, Picasa上进行分享。这些图像数据呈现爆炸式的增长,给图像的索引和检索带来了巨大挑战。为此,快速、有效的自动图像标注成为了当前研究的热点问题。 图像语义解析是一种细尺度的图像标注技术,它不仅仅要指出图像中“有什么”,还要指出“在哪里”,即把语义标签映射到图像中相应的区域上去, 从而实现更细致准确的标注效果。目前已有的图像语义解析方法,大部分都依赖于精确标注的训练数据,即人工标注到像素级别的训练图像。 但是大数据时代的网络图像内容变化多端,语义分散各异, 耗费人力的手工标注方法越来越不能满足需要。与此同时,图像分享网站提供了大量带有社会标签的图像。社会标签即用户对图片添加的分类标签。 如果能够把这些图像直接用于辅助图像语义解析,会极大改善解析的性能。 因此,为了更好的利用可能带有噪声标签的网络图像进行深层语义理解,从而减轻对精细标注数据的依赖,本文的 工作主要围绕基于弱监督学习的网络图像语义解析展开,提出了若干有效的解决方案。 弱监督不仅意味着训练图像仅仅被标注了图像级别的语义标签,但是并没有标到相应的像素上去,还意味着训练图像可能含有噪音标签。 本文研究的主要内容和贡献如下: 1.针对弱监督图像语义解析,提出了一种基于弱监督的聚类算法。为了同时最大化同一聚类内的视觉一致性和不同聚类之间的可分性,将 谱聚类和判别式聚类相结合。用谱聚类学到的类标指示函数来指导判别式聚类,学习特征的潜在结构,并为每个类别选择出具有判别力的特征。 利用图像级别标签作为弱监督信息,为每个聚类分配语义标签。本方法能够充分挖掘区域上下文信息并且进行有效的特征选择。 还能输出鲁棒的多类分类器,对没有标签的测试图像也可以进行有效的语义解析。 2.稀疏编码作为一种有效表达,在处理复杂的图像任务时,需要引入更为有效的结构先验模型。具体地,为了充分利用互联网上的大规模在线图像数据,提出了一种基于搜索的双重稀疏编码算法。首先利用网络检索出来的图像作为训练数据,针对这些可能带有噪声标签的训练数据,第一重稀疏编码是利用对标签向量稀疏编码的方法代替传统的欧式距离度量方法,选择和待解析图像语义相关的图像,从而避免了多义性关键字带来的歧义。第二重稀疏编码是将图像的标签信息作为一种先验嵌入到编码结构中,对待标注区域的视觉特征进行组稀疏编码,有效地克服了视觉内容中存在的“语义鸿沟”缺陷。还提出了一种弱监督字典学习算法,既能够学习出紧致、有判别力的特征表示,又能训练出鲁棒的分类器,提高了标注准确性。3.传统的基于分类方法解决图像语义解析问题思路多是将问题进行退化,转化成多个二分类问题。这样会造成大量的信息损失。 我们提出了一种基于boosting框架的多示例多标签学习方法,通过定义基于弱监督信息的损失函数和基于上下文约束的损失函数,在boosting框架下,直接学习多个分类器,充分利用了区域之间的上下文关系,减少了信息损失。在每轮迭代过程中,...
英文摘要With the permeation of Web 2.0, more users used semantic tags to annotate the images created by themselves or others, and share these images on image sharing websites such as Flickr, Picasa. The explosive growth of these image resources information brings a huge challenge to image index and retrieval problem. Thus, fast and effective automatic image annotation technology has become a hot issue in current research. Image semantic parsing is a kind of fine-grained image annotation. The goal is not only pointing out "what does the image have", but also "where they are". The result is to project the semantic labels into corresponding regions. Although there are many different theories and algorithms which have been proposed, most of them rely on accurate labeled training data, that is, training images with pixel-level groundtruth labeled by human. However, high-quality manual delineations are not only labor-intensive and time-consuming to obtain, but also intrinsically ambiguous. This situation is becoming more conspicuous when meeting the demand for processing large scale of visual data. Fortunately, with the popularity of image sharing websites, many images with social tags in which the raw correspondences between images and labels are available. If these images can be directly used to assist image semantic parsing, the performance will be grearly improved. Nonetheless, how to propagate the image-level labels to regions, is a difficult issue. In addition, web images usually have noisy labels. Modeling the noisy data is also a huge chanllenge. Above all, to alleviate the dependence of fine-grained labeled data and use the easily available web images to perform image understanding task, this thesis focus on the task of weakly-supervised web image semantic parsing. And we also give solutions to deal with the noisy web images. Weakly-supervised means that only image-level labels are available. The main contributions are summarized as follows. 1.We formulate the image semantic segmentation problem as a weakly-supervised clustering method. To simultaneously maximize the consitency within the same cluster and seperabilities among different clusters, the spectral clustering and discriminative clustering are combined together. The label indicator function obtained from spectral clustering is used to guide the discriminative clustering process, by which the latent structure exist among features can be learned and discrimnative features can also be selected for ea...
语种中文
其他标识符201118014628049
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/6614]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
刘洋. 基于弱监督学习的网络图像语义解析[D]. 中国科学院自动化研究所. 中国科学院大学. 2014.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace