CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名自然场景文本检测与识别方法研究
作者王燕娜
答辩日期2018-05-29
授予单位中国科学院研究生院
授予地点北京
导师王春恒
关键词自然场景图像 文本检测 文本二值化 文本识别 图模型 文本上下文信息 字符笔画 字符结构信息
英文摘要文字作为人类文明进步的一个重要标志,是人类交流的主要媒介。随着互联网行业的飞速发展以及拍照智能终端的广泛应用,以图像为载体的多媒体信息为人们的生活带来了极大的方便。图像中的文字能表达丰富和准确的语义信息,因此对图像中的文字进行自动检测和识别的需求越来越多,也吸引了越来越多研究者的关注。近几年,扫描文档的文本自动识别技术日趋成熟,而自然场景中的文本自动检测和识别性能依然不理想,受到诸多干扰因素的影响,如文字字体不同、低分辨率、光照不均以及复杂多变的背景。
    本文结合场景文本自身的特点,对场景文本检测与识别领域涉及到的文本检测、文本二值化以及文本识别问题展开了一系列的研究。本文的主要工作和贡献包括以下几方面:
     1. 由于自然场景中各种因素的干扰,文本类内存在很大的差异,背景存在诸多的不确定性,单一的分类器或特征很难有效地区分文本区域和非文本区域。针对以上问题,本文提出了基于卷积神经网络和上下文信息的图模型文本检测方法。该方法从文本自身特点出发,将多源信息融合到一个框架中,提高文本检测性能。本文利用极大稳定性区域算子检测字符候选,提高字符召回率及检测速度,然后融合多个上下文信息以及单个字符候选区域信息构建图模型改善检测性能,进一步采用上下文信息恢复丢失的文本提高字符召回率,最后为减少文本行类内变化,为不同形状的文本行设计了包含灰度及二值信息的不同文本行分类器,提高文本行分类结果,改善最终的检测性能。实验结果表明,本文的场景文本检测方法在四
个公开数据集上均达到了满意的性能,表明了该方法的有效性和通用性。
     2. 针对适用于传统扫描文本块识别的二值化方法在场景文本上效果较差,本文提出了基于笔画特性的自适应场景文本二值化方法。为减少复杂背景的干扰以及相邻字符间不同笔画的影响,本文首先将整个文本行图像分割成多个子图,然后利用字符的笔画特性设计算法自动地选择置信度较高的前景像素和背景像素,并且根据获取的种子像素生成初始的前景和背景聚类中心,以此为基础获得整图的聚类中心,最后结合像素自身的信息和上下文信息利用图模型实现最终的文本二值化。在视频叠加文本图像以及场景文本图像上,本文利用文本识别评价指标以及像素层评价指标评估该方法,验证了该方法对文本图像二值化的有效性。
    3. 字符识别的一个重要因素是字符特征,本文从字符特征表示的角度出发,提出了基于卷积激活的场景字符特征表示方法。本文利用卷积神经网络提取字符笔画部件特征。接下来,考虑到字符是一种结构化的目标,本文在卷积激活特征中融入空间信息,并采用池化策略和编码策略生成全局字符特征表示。为了应对不同图像大小的字符笔画变化,本文采用多尺度图像输入增强字符特征的鲁棒性。为了评估基于卷积激活字符表示的有效性和通用性,本文除了在公开的英文数据集上进行评估之外,还收集了一个中文场景字符数据集,用于中文场景字符识别领域的研究。本文在七个场景字符数据集上全面评估了本文提出的方法,并探索了基于卷积激活的字符表示方法在不同语言字符识别上的性能差异。实验结果表明,
基于卷积激活的字符表示方法对多语言字符识别是有效的。
    4. 考虑到场景字符由一系列按照特定规则排列的笔画组成,本文充分利用字符的笔画特性和结构特性,进一步提出了两种基于卷积激活的场景字符表示方法。本文首先提出了基于多阶共生激活编码的字符特征,该方法认为单个的鉴别性笔画信息可以为字符识别提供重要的线索。除此之外,多个鉴别性笔画的共生信息可以为字符识别提供更多的上下文信息。本文构建多阶共生激活来捕获多层次笔画之间的关系提升特征的表示能力,并且进一步采用编码策略聚合提取的多阶共生激活描述子生成字符全局表示。本文在国际公开的数据集以及本文收集的中文数据集上评估了提出的方法,实验结果验证了本方法的有效性。为了更充分地挖掘字符的结构信息,本文将每一类字符看做一种结构化目标,提出了基于空间嵌入笔画部件判别检测器的字符识别方法。该方法将字符的笔画检测器与空间位置相结合,认为识别字符时不同类别的字符鉴别性笔画不同。本文利用卷积激活表示字符笔画部件特征,自动学习笔画检测器,并自动挑选对应于鉴别性部件的笔画检测器,并对每一个检测器分配一个响应区域。接下来本文将鉴别性部件检测器与空间位置相关联,来缓解字符平移、旋转和变形等的影响,最终聚合检测器响应生成最终的字符特征。实验结果表明本文提出的字符识别方法在英文和中文场景字符数据集上均取得了优异的识别性能。
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/21055]  
专题毕业生_博士学位论文
作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
王燕娜. 自然场景文本检测与识别方法研究[D]. 北京. 中国科学院研究生院. 2018.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace