题名自然场景文本检测与识别方法研究
作者王聪
答辩日期2020-05-30
文献子类博士
授予单位中国科学院大学
授予地点中国科学院大学
导师刘成林
关键词场景文本检测,场景文本识别,超像素分割,注意力网络,互指导机制
学位专业模式识别与智能系统
英文摘要

自然场景图像中的文本包含丰富的语义信息,因而,场景文本提取技术具有广阔的应用需求和前景。然而,由于自然场景图像中文本的多样性、复杂背景以及低成像质量等因素,场景文本提取是一个非常有挑战性的问题。场景文本提取主要包括文本检测和文本识别两个子任务,本文就场景文本检测和场景文本识别进行深入研究。主要研究工作和贡献有以下几点:
提出了一种基于超像素提取字符候选的场景文本检测方法。有别于主流的基于极值区域的字符候选提取方法,所提出的基于超像素的方法利用字符的颜色一致性和边缘明显性,通过融合颜色信息和边缘信息对场景文本图像进行超像素分割,进而通过层次聚类进行字符候选区域提取。此外,我们基于卷积神经网络设计了一种可融入字符候选区域上下文信息的文本/非文本分类器,并结合双阈值策略对字符候选区域进行字符候选过滤。在公开数据集上的实验结果表明,所提出的场景文本检测系统在性能上优于之前的代表性连通部件类方法。
提出了一种基于记忆增强化注意力网络的场景文本识别方法。之前基于注意力机制的场景文本识别方法主要采用标准注意力网络作为解码器,在解码当前时刻字符时没有充分利用上一时刻之前的字符信息和所有历史时刻的注意力信息。为此,所提出的记忆增强化注意力网络对标准注意力网络在两个方面进行记忆增强:对历史字符信息的记忆增强和对历史对齐信息的记忆增强。在公开数据集上的实验结果表明,所提出的记忆增强化注意力网络在识别性能上优于标准注意力网络。并且,与之前的主流方法相比,所提出的场景文本识别方法取得了相当或更好的性能。
提出了一种基于嵌入门控化注意力网络的场景文本识别方法。标准注意力网络在解码当前时刻的字符时过重地依赖于前一时刻的字符嵌入向量,而前一时刻字符嵌入向量的来源在训练阶段和测试阶段存在差异。为此,所提出的嵌入门控化注意力网络通过添加一个自适应嵌入门控以自适应地重置来自于前一时刻字符嵌入向量的输入信息,该自适应嵌入门控基于同一时刻隐状态向量与相应字符嵌入向量的相关度进行构建。在公开数据集上的实验结果表明,所提出的嵌入门控化注意力网络在识别性能方面优于标准注意力网络。
提出了一种基于多分支指导式注意力网络的不规则场景文本识别方法。该方法提供了一种简单但有效的方式以同时处理不规则场景文本图像中的多种不规则因素。通过训练阶段多分支数据之间的互指导,所提出的多分支指导式注意力网络可学习规则文本图像和相应不规则文本图像中所预测字符序列的语义表达不变性,并且可缓解标准注意力网络经常遇到的注意力漂移问题,显著提升各解码时刻的注意力对齐准确度。在公开数据集上的实验验证了所提出的方法在不规则场景文本识别和注意力漂移问题上的有效性。并且,与之前的主流不规则场景文本识别方法相比,所提出的方法取得了相当或更好的性能。

语种中文
页码140
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/39730]  
专题自动化研究所_模式识别国家重点实验室_模式分析与学习团队
推荐引用方式
GB/T 7714
王聪. 自然场景文本检测与识别方法研究[D]. 中国科学院大学. 中国科学院大学. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace