CN110503090B - 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 - Google Patents

基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 Download PDF

Info

Publication number
CN110503090B
CN110503090B CN201910614874.9A CN201910614874A CN110503090B CN 110503090 B CN110503090 B CN 110503090B CN 201910614874 A CN201910614874 A CN 201910614874A CN 110503090 B CN110503090 B CN 110503090B
Authority
CN
China
Prior art keywords
character
rpn
word
network
roi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910614874.9A
Other languages
English (en)
Other versions
CN110503090A (zh
Inventor
王伟平
陈语地
周宇
杨东宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910614874.9A priority Critical patent/CN110503090B/zh
Publication of CN110503090A publication Critical patent/CN110503090A/zh
Application granted granted Critical
Publication of CN110503090B publication Critical patent/CN110503090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。本发明设计了基于深度神经网络的字符检测器,在网络结构中加入注意力模型来对学习到的特征进行加权,充分利用了字符周围的上下文信息来辅助字符特征的学习,并设计了一个受限关系模型来对上下文信息进行编码,考虑了不同上下文信息对当前特征的影响。本发明使用受限的上下文信息来提升字符检测的结果,通过融入合适的上下文信息,可以在很大程度上提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,能够减少检测过程中的误报和漏报,同时能够提供初步的识别结果。

Description

基于受限注意力模型的字符检测网络训练方法、字符检测方 法和字符检测器
技术领域
本发明属于信息技术领域,具体涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。
背景技术
从20世纪开始,人们就试图从图像中提取文字,最重要的一个代表就是光学字符识别技术(Optical Character Recognition,OCR)的提出,它针对图像中的印刷体进行处理,以实现像素层次上的特征提取,从而对实现图像对文本的转换过程。进行了文本提取之后,该信息可进一步用于各种实际应用,如图像搜索,即时翻译,机器人导航和工业自动化。随着人们对文本识别要求的提高,传统的OCR已经无法满足目前的需求,人们迫切的需要能够针对自然场景中复杂背景情况下的文本进行检测识别的技术。目前的比较成熟的方法主要依靠于对场景图片进行连通域分析、采用滑动窗口的模式进行单字符识别以及基于锚点(Anchor box)的检测方法。
现有技术主要存在以下缺陷:
1.传统的OCR技术只能处理文档图片。与文档中的文字不同,自然场景中的文本表现出更高的多样性和可变性。例如,场景文本的实例可以是不同的语言,颜色,字体,大小,方向和形状。此外,场景文本的宽高比和布局可能会有很大差异。
2.基于连通域分析的方法会受到复杂背景图像的干扰。自然场景的背景几乎是不可预测的。可能存在与文本极其相似的模式(例如,树叶,交通标志,砖块,窗户和栅栏),或由异物引起的遮挡,这可能潜在地导致混淆和错误。
3.采用滑动窗口以及使用锚点进行检测的方法会受到复杂成像条件以及复杂纹理的干扰。在不受控制的情况下,无法保证文本图像和视频的质量。也就是说,在较差的成像条件下,文本实例可能由于不适当的拍摄距离或角度而具有低分辨率和严重失真,或者由于失焦或抖动而模糊,或者由于低光照水平而发生噪声,或者由于高光或阴影。
发明内容
本发明的目的在于提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,减少检测过程中的误报和漏报。
本发明采用的技术方案如下:
第一方面,本发明提供一种基于受限注意力模型的字符检测网络训练方法,包括以下步骤:
1)将训练数据输入骨干网络进行特征提取;
2)将提取的特征输入字符RPN和单词RPN,进行第一阶段的回归预测和分类预测,并计算损失函数;
3)根据字符RPN的输出,通过注意力网络计算字符之间的关系权重;
4)根据字符RPN和单词RPN的输出,计算用于限制字符关系的受限关系矩阵;
5)将关系权重与受限关系矩阵按元素对位相乘,得到受限关系权重;
6)将受限关系权重与根据字符RPN获得的字符特征进行加权,得到加权字符特征;
7)对加权字符特征进行第二阶段的回归预测和分类预测,获得字符检测结果,并计算损失函数;
8)迭代步骤1)~7)直到网络收敛,得到训练完成的字符检测网络。
进一步地,所述关系权重的计算方法为:
Figure BDA0002123593810000021
其中,wmn表示关系权重,m,n表示字符RoI的索引,WK,WQ表示注意力网络中的权重参数,
Figure BDA0002123593810000022
是提取到的字符特征,
Figure BDA0002123593810000023
是两个字符RoI经过编码之后得到的特征,softmax表示归一化指数函数,dk表示投影之后的特征的维度,即
Figure BDA0002123593810000024
Figure BDA0002123593810000025
的维度。
进一步地,所述受限关系矩阵的计算步骤包括:
a)对单词RoI依据单词RPN模块得到的预测分数Sw进行排序并放入队列,对于队列中的每一项i,计算它与之后的任意一项j之间的交并比,若交并比大于阈值θIoU,则第j项被移除队列;
b)对队列中剩下的单词RoI取前K项;
c)用p表示步骤b)处理后的单词RoI的数量,q表示字符RoI的数量,新建矩阵
Figure BDA0002123593810000026
Figure BDA0002123593810000027
其中
Figure BDA0002123593810000028
表示实数域中p×q维的矩阵;
d)对于第m个单词RoI以及第n个字符RoI,计算其交并比,如果交并比大于0,则P[m,n]=True;
e)对于第k个字符RoI,找到向量P[:,k]为真值的索引r存储到rt中;对于rt中的每一个r,计算M[k,:]为M[k,:]与P[r,:]逐像素逻辑或的结果,最后得到的M即为受限关系矩阵wl
进一步地,所述加权字符特征的计算公式为:
Figure BDA0002123593810000031
其中,
Figure BDA0002123593810000032
表示加权字符特征,wfinal表示受限关系权重,WV是注意力网络中的权重参数,
Figure BDA0002123593810000033
是提取到的字符特征。
第二方面,本发明提供一种基于受限注意力模型的字符检测方法,包括以下步骤:
获取待进行字符检测的数据;
将待进行字符检测的数据输入采用上面所述方法训练完成的字符检测网络中,获得字符检测结果。
第三方面,本发明提供一种基于受限注意力模型的字符检测器,其包括:
骨干网络,用于对输入的图片提取特征;
字符RPN,连接所述骨干网络,用于根据输入的特征生成字符候选提案;
单词RPN,连接所述骨干网络,用于根据输入的特征生成单词候选提案;
约束关系模块,连接所述单词RPN和所述字符RPN,用于生成受限关系矩阵;
注意力网络模块,连接所述字符RPN,用于生成关系权重;
加权字符特征模块,连接所述字符RPN、所述约束关系模块和所述注意力网络模块,用于计算加权字符特征;
分类预测模块和回归预测模块,连接所述加权字符特征模块,用于对加权字符特征进行回归预测和分类预测,获得字符检测结果;
损失模块,用于在训练过程中计算损失函数的值,以判断网络是否收敛。
进一步地,所述注意力网络模块将任意两个候选区域的特征进行加权,从而在检测字符的同时使用全局的信息来辅助当前字符进行检测。
进一步地,所述约束关系模块利用字符在空间属性上的关系得到受限关系矩阵,用于对关系权重进行进一步的调整,从而在检测字符的同时考虑了字符之间的关系以及限制。
本发明的技术关键点在于:
1.设计了一个简单的基于深度神经网络的字符检测器;
2.在网络结构中加入注意力模型来对学习到的特征进行加权;
3.充分利用了字符周围的上下文信息来辅助字符特征的学习;
4.设计了一个受限关系模型来对上下文信息进行编码,考虑到不同上下文信息对当前特征的影响。
本发明的有益效果如下:
本发明使用受限的上下文信息来提升字符检测的结果,通过融入合适的上下文信息,可以在很大程度上提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,能够减少检测过程中的误报和漏报,同时能够提供初步的识别结果。
附图说明
图1是对照组(常见的二阶段深度学习字符检测器)的网络结构图。其中,圆角矩形代表模块的输入或者输出,直角矩形代表模块,虚线区域只在检测器的训练过程产生作用。
图2是本发明的约束关系网络的网络结构图。其中圆角矩形代表模块的输入或者输出,直角矩形代表模块,虚线区域只在检测器的训练过程产生作用。为了使得描述更为简洁,图中RPN的部分结构省略,具体可以参考图1。
图3是字符之间的关系示意图,同一个颜色标记的字符之间的关系更加紧密,不同颜色标记的字符基本上是互不相关的。
图4是检测效果的可视化结果图,左边两图即(a)图和(c)图为对照组的结果,右边两图即(b)图和(d)图为约束关系网络的结果。
图5是约束关系网络检测结果与现有的几种算法的对比图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
图1是常见的二阶段深度学习字符检测器的网络结构图(参见Ren,S.,He,K.,Girshick,R.,Sun,J.:Faster r-cnn:Towards real-time object detection withregion proposal networks.In:NIPS.pp.91-99(2015)),其在本发明中作为对照组。
图2是本发明提出的一种新的用于字符检测的约束关系网络(ConstrainedRelation Network,CRN)的网络结构图。对图中的各部分说明如下:
骨干网络:深度学习特征提取模块,通常为多层卷积模块的叠加,里面包含大量可学习的参数,输入为图片,输出为图片的特征表示。
字符RPN(Character RPN)和单词RPN(Word RPN):Character RPN是用于生成字符候选提案的模块,Word RPN是用于生成单词候选提案的模块。RPN为一种现有的网络结构,全名为区域提议网络(Region Proposal Network),输入为骨干网络的输出、预定义的字符/单词锚点等,输出为字符/单词提案以及预测分数Sc/Sw,提案包括单词的位置信息(x,y)、长和宽。其中字符提案称为Character RoI,单词提案称为Word RoI。RoI为Region ofInterest,即感兴趣区域,可以理解为(字符/单词)检测结果的候选区域,Character RoI和Word RoI也可分别称为字符感兴趣区域、单词感兴趣区域。Sc为Character RPN模块得到的字符提案的预测分数,Sw为Word RPN模块得到的单词提案的预测分数。
注意力网络:用于生成关系权重的网络。
关系权重:用于描述全局字符之间关系的权重,该权重主要用于对字符特征进行加权,使当前字符能够学习其他字符的特征。
约束关系模块:用于生成受限关系矩阵的模块。
受限关系矩阵M:用于限制字符关系的矩阵,如果字符i,j在空间距离、表示特征等属性上更为接近,对应的M[i,j]也越大。
字符特征:用于描述字符属性的特征,经过神经网络特征提取得到。
受限关系权重:关系权重与受限关系矩阵按元素对位相乘之后的结果。
加权字符特征:受限关系权重与字符特征加权之后的结果。
Figure BDA0002123593810000051
表示注意力权重的加权运算,具体计算方式见后文的公式(1)。
⊙:表示矩阵之间对位相乘。
利用图2所示的约束关系网络实现字符检测的步骤,包括训练步骤和测试步骤,具体说明如下:
1.训练步骤
1)准备好训练数据、对应的标注以及必须的超参数,如图片的预处理、锚点的设置、学习率的设置、产生候选的数量,各部分损失函数之间的权重等。具体的信息可以参考“Ren,S.,He,K.,Girshick,R.,Sun,J.:Faster r-cnn:Towards real-time objectdetection with region proposal networks.In:NIPS.pp.91-99(2015)”。
2)将训练数据中的图片经过骨干网络进行深度学习特征提取,得到所需要的特征。
3)将步骤2)得到的特征以及对应的锚点输入(Character/Word)RPN中,通过回归预测和分类预测得到第一个阶段的预测结果(Character/Word)RoI以及预测分数Sc/Sw
4)步骤3)得到的(Character/Word)RoI以及预测分数Sc/Sw可以与步骤1)准备的标注进行损失函数的计算。
5)步骤2)得到的特征以及对应的(Character/Word)RoI经过池化(RoI Pooling)可以得到字符/单词的特征。
6)通过后文的公式(2)可以得到关系权重wmn,通过后文的算法1可以得到受限关系矩阵wl
7)通过后文的公式(3)可以得到受限关系权重wfinal,通过后文的公式(4)可以得到加权字符特征
Figure BDA0002123593810000061
8)经过第二个阶段的回归预测和分类预测得到最后的检测结果Character det以及置信概率S,其中Character det和Character RoI存储的信息完全相同,置信概率S与预测分数Sc存储的信息基本相同,唯一的区别在于他们是不同阶段的产物,第二个阶段的结果会更加准确。
9)步骤8)得到的Character det以及置信概率S可以与步骤1)准备的标注进行损失函数的计算。
10)迭代2)-9)步直到网络收敛,如验证集上的指标不再增加、损失函数的值低于经验值。从而得到最终的字符检测器。
2.测试步骤
a)准备好测试数据,与训练数据进行相同的数据预处理过程。
b)执行训练过程中的2)-3),5)-8)步。
c)将第8)步得到的Character det以及置信概率S进行合适的后处理,如非极大抑制、低置信度检测结果的筛选,从而实现字符检测。
本发明的约束关系网络CRN可以充分利用上下文信息来处理大多数背景技术中所描述的挑战。该模型在得到字符特征时候,会使用注意力网络来生成关系权重,对字符特征进行融合,在此基础上还添加了约束关系模块。约束关系模块利用几何特征和外观特征构建新的关系权重(受限关系矩阵),并使用其进一步选择合适的上下文信息。
首先是关系权重的计算,这里的计算方式来自于“Hu,H.,Gu,J.,Zhang,Z.,Dai,J.,Wei,Y.:Relation networks for object detection.In:CVPR.pp.3588-3597(2018)”。
Figure BDA0002123593810000062
Figure BDA0002123593810000063
式中,
Figure BDA0002123593810000064
表示经过注意力加权过的特征,m,n表示的是RoI(在这里对应为Character RoI)的索引,WV,WK,WQ表示注意力网络中的可学习的权重参数(一般用0初始化,会随着训练过程逐渐调整),
Figure BDA0002123593810000065
是提取到的字符特征,wmn是上下文信息经过加权之后得到的权重,即关系权重,
Figure BDA0002123593810000066
是两个character RoI经过编码之后得到的特征,softmax表示归一化指数函数,dk表示投影之后的特征的维度(即
Figure BDA0002123593810000067
Figure BDA0002123593810000068
的维度)。dk在这里用于归一化,是一个归一化因子。
其中,“上下文信息”是一个目标周围候选目标所承载的信息,例如:句子“我爱北京,她很美。”中的“她”的含义就需要我们使用上下文信息进行推断,在这里上下文信息可以理解为其他字符的特征,更广义的可以理解为其他候选区域的特征。
其中,“编码”是指一种特征编码手段,用于将特征描述映射到合适的特征空间,具体的实现方法见“Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,Kaiser,
Figure BDA0002123593810000074
Polosukhin,I.:Attention is all you need.In:NIPS.pp.5998-6008(2017)”中3.5章Positional Encoding。
通过对全图中检测的候选字符区域(Character RoI)进行关系权重的提取(见公式(2)),可以将他们的特征进行合适的加权(见公式(1)),这样可以在很大的程度上增加字符之间特征的鲁棒性,使得提取到的特征对于之后的检测与识别更加有效。
对于字符检测来说,通常把字符当作是通用目标来进行检测,然而,上面的关系权重会考虑全图中所有的字符之间的关系,这种模式有的时候是不正确的。如图3所示,同一个单词中的字符之间的联系比不同单词之间的字符更加紧密。更一般的,离得越近的字符之间就具有着更强烈的关系。
于是本发明提出了一个新的约束关系模块以实现局部注意力策略。首先需要单词级别的标注来辅助进行训练一个新的Word RPN结构,这个额外的结构能够输出word RoI。其次,本发明设计了一个新的算法来计算这个受限关系矩阵wl,该算法称为算法1,算法1的具体流程如下:
1.对word RoI依据Word RPN模块得到的分数Sw进行排序,放入队列,对于队列中的每一项i,计算它与之后的任意一项j之间的交并比,若交并比大于阈值θIoU,那么第j项被移除队列。
2.对队列中剩下的word RoI取前K项,即得到了经过后处理的word RoI。
3.用p表示处理后的word RoI的数量,q表示character RoI的数量,新建矩阵
Figure BDA0002123593810000071
Figure BDA0002123593810000072
其中
Figure BDA0002123593810000073
表示实数域中p×q维的矩阵。
4.对于第m个word RoI以及第n个character RoI,计算它们的交并比,如果交并比大于0,则P[m,n]=True。
5.对于第k个character RoI,找到向量P[:,k]为真值的索引r存储到rt中;对于rt中的每一个r,计算M[k,:]为M[k,:]与P[r,:]逐像素逻辑或的结果,最后得到的M即为受限关系矩阵wl
其中,对于矩阵(如P,M),P[:,i]表示取矩阵的第i列,P[j,:]表示取矩阵的第j行。
最后将这个学习到的约束关系通过卷积网络进行编码得到了最后的受限关系权重:
wfinal=wmn*wl (3)
根据式(3),可以得到公式(1)的变种:
Figure BDA0002123593810000081
通过式(4)可以得到最后的表示特征,即加权字符特征。这个特征会被用来进行第二个阶段的分类和回归,该部分的具体操作见“Ren,S.,He,K.,Girshick,R.,Sun,J.:Faster r-cnn:Towards real-time object detection with region proposalnetworks.In:NIPS.pp.91-99(2015)”。
本发明的效果:
三个数据集:ICDAR13,VGG-SynText,FORU被用来检测本发明方法的有效性,因为本发明的方法是基于字符检测的方法,主流的数据集往往并没有字符层级的标注,所以在这三个数据集上进行了我们的实验,首先是VGG的SynText数据集,在这个数据集上验证了本发明的算法处理生成数据的效果,在这个数据集上面进行了大规模的训练,然后是ICDAR13数据集,在这个数据集上验证了本发明的算法处理场景文本的能力。最后是FORU数据集,使用它来验证本发明算法的泛化性能。
表1展示了本发明算法在VGG-SynText数据集上的效果,表2展示了本发明的算法不同模块泛化至新数据集的能力。图4展示了本发明算法的定性分析的结果,图5展示了本发明算法在ICDAR13的效果。
表1中,现有方法1为“Hu,H.,Zhang,C.,Luo,Y.,Wang,Y.,Han,J.,Ding,E.:Wordsup:Exploiting word annotations for character based text detection.In:ICCV.pp.4940-4949(2017)”中的方法。现有方法2为“Hu,H.,Gu,J.,Zhang,Z.,Dai,J.,Wei,Y.:Relation networks for object detection.In:CVPR.pp.3588-3597(2018)”中的方法。
根据图4可以看出,本发明中的字符检测器可以很好的处理重复的类似字符的纹理(图a和图b的对比),从而减少字符检测器的误报。与此同时,该字符检测器可以对复杂背景、成像条件的字符拥有鲁棒的检测效果(图c和图d的对比)从而提高字符检测的召回率。
图5中横坐标表示召回率,纵坐标表示正确率,图中CRN+MS表示本发明方法在多尺度检测下的结果,CRN表示本发明方法,RN表示“Hu,H.,Gu,J.,Zhang,Z.,Dai,J.,Wei,Y.:Relation networks for object detection.In:CVPR.pp.3588-3597(2018)”中的方法,Base表示对照组(见“Ren,S.,He,K.,Girshick,R.,Sun,J.:Faster r-cnn:Towards real-time object detection with region proposal networks.In:NIPS.pp.91-99(2015)”)的方法。根据图5可以看出,相同的召回率下,本发明方法有着更高的正确率,反之亦然。这说明了无论在哪种测试超参数的条件下,本发明的方法都有着稳定的性能提升。
表1不同算法在VGG-SynText上的效果
Figure BDA0002123593810000091
表2本发明不同模块在FORU数据集上的消融实验
注意力网络 受限关系矩阵 多尺度测试 正确率 召回率 F-measure
× × × 0.877 0.887 0.882
× × 0.913 0.873 0.893
× 0.926 0.901 0.913
0.921 0.951 0.936
本发明的实例:基于受限注意力模型的字符检测器
虚拟环境中的字符检测器的构建过程主要包括以下几个步骤:
准备大量的虚拟数据,这一部分的数据要求含有标注,这里选择的是VGG-SynText数据集,在这个数据集上面进行了大规模的训练,总共在800k数据集上随机抽取了105k图片,其中100k作为训练集,5k作为测试集,对于这些图片进行色彩的归一化处理以及尺寸的调整,为训练模型做好准备。
完成学习模型的构建,主要包括主干网络、(Character/Word)RPN、注意力网络模块、(分类、回归)预测模块以及损失模块的构建。考虑到任务的复杂程度,这里我们选择VGG-16作为主干网络用来提取特征。两个RPN结构分别用于提取character RoI以及wordRoI,它们的长宽比参数分别设置为[0.5,1,2]和[0.5,1,2,5]。通过设置默认的锚点来进行回归和分类,可以得到第一个阶段的候选提案,根据RoI池化提取字符的特征,通过上文提到的公式以及算法可以计算的受限关系矩阵从而得到最终的加权字符特征。最后,通过第二个阶段的分类和回归可以得到最后的检测结果。
在训练阶段有5个学习的目标,分别为第一阶段字符候选的回归和分类,第二阶段字符检测的回归和分类以及单词的分类。根据此使用了回归相关的L2范数以及分类相关的交叉熵损失函数对学习的目标进行优化,这些损失之间的比例为1∶1∶1∶1∶0.5,通过梯度的反向传播,使用随机梯度下降作为优化器来使得网络中的参数随着迭代被训练。
本发明中,骨干网络不局限于VGG-16,也可以是ResNet、GoogleNet以及其他骨干网络。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于受限注意力模型的字符检测网络训练方法,其特征在于,包括以下步骤:
1)将训练数据输入骨干网络进行特征提取;
2)将提取的特征输入字符RPN和单词RPN,进行第一阶段的回归预测和分类预测,并计算损失函数;
3)根据字符RPN的输出,通过注意力网络计算字符之间的关系权重;
4)根据字符RPN和单词RPN的输出,计算用于限制字符关系的受限关系矩阵;
5)将关系权重与受限关系矩阵按元素对位相乘,得到受限关系权重;
6)将受限关系权重与根据字符RPN获得的字符特征进行加权,得到加权字符特征;
7)对加权字符特征进行第二阶段的回归预测和分类预测,获得字符检测结果,并计算损失函数;
8)迭代步骤1)~7)直到网络收敛,得到训练完成的字符检测网络。
2.根据权利要求1所述的方法,其特征在于,所述字符RPN的输出为字符RoI和字符提案的预测分数Sc,所述单词RPN的输出为单词RoI和单词提案的预测分数Sw
3.根据权利要求1所述的方法,其特征在于,所述关系权重的计算方法为:
Figure FDA0002123593800000011
其中,wmn表示关系权重,m,n表示字符RoI的索引,WK,WQ表示注意力网络中的权重参数,
Figure FDA0002123593800000012
是提取到的字符特征,
Figure FDA0002123593800000013
是两个字符RoI经过编码之后得到的特征,softmax表示归一化指数函数,dk表示投影之后的特征的维度,即
Figure FDA0002123593800000014
Figure FDA0002123593800000015
的维度。
4.根据权利要求1所述的方法,其特征在于,所述受限关系矩阵的计算步骤包括:
a)对单词RoI依据单词RPN模块得到的预测分数Sw进行排序并放入队列,对于队列中的每一项i,计算它与之后的任意一项j之间的交并比,若交并比大于阈值θIoU,则第j项被移除队列;
b)对队列中剩下的单词RoI取前K项;
c)用p表示步骤b)处理后的单词RoI的数量,q表示字符RoI的数量,新建矩阵
Figure FDA0002123593800000018
Figure FDA0002123593800000019
其中
Figure FDA0002123593800000016
表示实数域中p×q维的矩阵;
d)对于第m个单词RoI以及第n个字符RoI,计算其交并比,如果交并比大于0,则P[m,n]=True;
e)对于第k个字符RoI,找到向量P[:,k]为真值的索引r存储到rt中;对于rt中的每一个r,计算M[k,:]为M[k,:]与P[r,:]逐像素逻辑或的结果,最后得到的M即为受限关系矩阵wl
5.根据权利要求4所述的方法,其特征在于,所述受限关系权重的计算公式为:
wfinal=wmn*wl
其中,wfinal表示受限关系权重,wmn表示关系权重,wl表示受限关系矩阵。
6.根据权利要求5所述的方法,其特征在于,所述加权字符特征的计算公式为:
Figure FDA0002123593800000021
其中,
Figure FDA0002123593800000022
表示加权字符特征,wfinal表示受限关系权重,WV是注意力网络中的权重参数,
Figure FDA0002123593800000023
是提取到的字符特征。
7.一种基于受限注意力模型的字符检测方法,其特征在于,包括以下步骤:
获取待进行字符检测的数据;
将待进行字符检测的数据输入采用权利要求1~6中任一权利要求所述方法训练完成的字符检测网络中,获得字符检测结果。
8.一种基于受限注意力模型的字符检测器,其特征在于,包括:
骨干网络,用于对输入的图片提取特征;
字符RPN,连接所述骨干网络,用于根据输入的特征生成字符候选提案;
单词RPN,连接所述骨干网络,用于根据输入的特征生成单词候选提案;
约束关系模块,连接所述单词RPN和所述字符RPN,用于生成受限关系矩阵;
注意力网络模块,连接所述字符RPN,用于生成关系权重;
加权字符特征模块,连接所述字符RPN、所述约束关系模块和所述注意力网络模块,用于计算加权字符特征;
分类预测模块和回归预测模块,连接所述加权字符特征模块,用于对加权字符特征进行回归预测和分类预测,获得字符检测结果;
损失模块,用于在训练过程中计算损失函数的值,以判断网络是否收敛。
9.根据权利要求8所述的字符检测器,其特征在于,所述注意力网络模块将任意两个候选区域的特征进行加权,从而在检测字符的同时使用全局的信息来辅助当前字符进行检测。
10.根据权利要求8所述的字符检测器,其特征在于,所述约束关系模块利用字符在空间属性上的关系得到受限关系矩阵,用于对关系权重进行进一步的调整,从而在检测字符的同时考虑了字符之间的关系以及限制。
CN201910614874.9A 2019-07-09 2019-07-09 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 Active CN110503090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910614874.9A CN110503090B (zh) 2019-07-09 2019-07-09 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910614874.9A CN110503090B (zh) 2019-07-09 2019-07-09 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

Publications (2)

Publication Number Publication Date
CN110503090A CN110503090A (zh) 2019-11-26
CN110503090B true CN110503090B (zh) 2021-11-09

Family

ID=68586222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910614874.9A Active CN110503090B (zh) 2019-07-09 2019-07-09 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

Country Status (1)

Country Link
CN (1) CN110503090B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079763B (zh) * 2019-12-05 2023-08-08 嘉楠明芯(北京)科技有限公司 训练样本生成、模型训练、字符识别方法及其装置
CN111428593A (zh) * 2020-03-12 2020-07-17 北京三快在线科技有限公司 一种文字识别方法、装置、电子设备及存储介质
CN112541501B (zh) * 2020-12-18 2021-09-07 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706873A (zh) * 2009-11-27 2010-05-12 东软集团股份有限公司 数字类限制标志的识别方法和装置
CN106228166A (zh) * 2016-07-27 2016-12-14 北京交通大学 字符图像的识别方法
CN108133230A (zh) * 2017-12-14 2018-06-08 西北工业大学 一种面向目标人物距离量度学习的人物再识别方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109934260A (zh) * 2019-01-31 2019-06-25 中国科学院信息工程研究所 基于随机森林的图文数据融合情感分类方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626594B2 (en) * 2015-01-21 2017-04-18 Xerox Corporation Method and system to perform text-to-image queries with wildcards

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706873A (zh) * 2009-11-27 2010-05-12 东软集团股份有限公司 数字类限制标志的识别方法和装置
CN106228166A (zh) * 2016-07-27 2016-12-14 北京交通大学 字符图像的识别方法
CN108133230A (zh) * 2017-12-14 2018-06-08 西北工业大学 一种面向目标人物距离量度学习的人物再识别方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN109934260A (zh) * 2019-01-31 2019-06-25 中国科学院信息工程研究所 基于随机森林的图文数据融合情感分类方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
continuous similarity join on data streams;J Cui;《IEEE》;20150430;论文全文 *
sentenc encoding with tree-constrained relation networks;Lei Yu;《arxiv》;20181130;论文全文 *
基于数学形态学的模糊集理论在车牌字符识别中的运用;阮志毅;《万方数据库》;20160421;论文全文 *

Also Published As

Publication number Publication date
CN110503090A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
US11574152B2 (en) Recognition system for security check and control method thereof
Ren et al. End-to-end instance segmentation with recurrent attention
CN110033473B (zh) 基于模板匹配和深度分类网络的运动目标跟踪方法
CN110503090B (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN109492630A (zh) 一种基于深度学习的金融行业图像中的文字区域检测定位的方法
CN111986180B (zh) 基于多相关帧注意力机制的人脸伪造视频检测方法
CN106372624B (zh) 人脸识别方法及***
Dong et al. Adaptive cascade deep convolutional neural networks for face alignment
Freytag et al. Labeling examples that matter: Relevance-based active learning with gaussian processes
Nie et al. A multi-stage convolution machine with scaling and dilation for human pose estimation
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及***
JP2009026326A (ja) 集団学習装置及び方法
CN110826534B (zh) 一种基于局部主成分分析的人脸关键点检测方法及***
Hoxha et al. Remote sensing image captioning with SVM-based decoding
CN111242114B (zh) 文字识别方法及装置
CN110827327A (zh) 一种基于融合的长期目标跟踪方法
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
Vankadaru et al. Text Identification from Handwritten Data using Bi-LSTM and CNN with FastAI
CN113627245B (zh) Crts目标检测方法
CN112329803B (zh) 一种基于标准字形生成的自然场景文字识别方法
Kumar et al. Mediapipe and cnns for real-time asl gesture recognition
CN114898464A (zh) 一种基于机器视觉的轻量化精准手指语智能算法识别方法
CN113011395A (zh) 一种单阶段动态位姿识别方法、装置和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant