CN108615036B - 一种基于卷积注意力网络的自然场景文本识别方法 - Google Patents

一种基于卷积注意力网络的自然场景文本识别方法 Download PDF

Info

Publication number
CN108615036B
CN108615036B CN201810437763.0A CN201810437763A CN108615036B CN 108615036 B CN108615036 B CN 108615036B CN 201810437763 A CN201810437763 A CN 201810437763A CN 108615036 B CN108615036 B CN 108615036B
Authority
CN
China
Prior art keywords
vector
convolution
layer
output
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810437763.0A
Other languages
English (en)
Other versions
CN108615036A (zh
Inventor
谢洪涛
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810437763.0A priority Critical patent/CN108615036B/zh
Publication of CN108615036A publication Critical patent/CN108615036A/zh
Application granted granted Critical
Publication of CN108615036B publication Critical patent/CN108615036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积注意力网络的自然场景文本识别方法,包括:利用二维卷积CNN作为编码器,提取输入图像的高层语义特征,并输出相应的特征图至解码器;利用一维卷积CNN作为解码器,结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型,产生对应于输入图像的解码字符序列。该方法对于长度为n的序列,使用卷积核为s的CNN建模字符序列,仅需O(n/s)次操作即可得到长期依赖的表达,极大的降低了算法复杂度;此外,由于卷积操作的特征,CNN相比于RNN能够更好并行化,从而发挥GPU等资源的优势,更重要的是,通过叠加卷积层的方式得到的深层模型,可以提高更高层次的抽象表达,从而提高模型的准确率。

Description

一种基于卷积注意力网络的自然场景文本识别方法
技术领域
本发明涉及自然场景图像中文本识别领域,尤其涉及一种基于卷积注意力网络的自然场景文本识别方法。
背景技术
随着手机平板等终端设备的不断普及,识别并理解包含文本的自然场景拍摄图像变得越来越重要。由于图像成像质量、复杂背景、噪声干扰等因素,自然场景文本识别面临巨大挑战。完整的端到端的自然场景文本识别一般包含两个阶段:文本检测阶段与文本识别阶段。文本检测阶段从整张图像中定位出文本的区域位置,文本识别阶段将仅包含文本的图像块转换为文本字符串。
目前,由于循环神经网络(Recurrent Neural Network,RNN)具备良好的语言建模能力,因而主流的图像文本识别方法为卷积神经网络(Convolutional Neural Network,CNN)与RNN相结合的方法。如方法(Shi,Baoguang,X.Bai,and C.Yao."An End-to-EndTrainable Neural Network for Image-based Sequence Recognition and ItsApplication to Scene Text Recognition."IEEE Transactions on Pattern Analysis&Machine Intelligence PP.99(2015):1-1.)采用在CNN的末端连接RNN层(具体为LSTM层),并通过Connectionist Temporal Classification loss进行端到端的训练的方式做文本识别。又如方法(Lee,Chen Yu,and S.Osindero."Recursive Recurrent Nets withAttention Modeling for OCR in the Wild."(2016):2231-2239.)采用编码器-解码器的结构,结合注意力机制处理图像文本序列。
但是,上述方案中CNN作为编码器提取图像特征,RNN作为解码器产生字符序列。对于长度为n的序列,使用RNN建模字符序列,需要O(n)次操作才能得到长期依赖的表达,即算法复杂度较高。
发明内容
本发明的目的是提供一种基于卷积注意力网络的自然场景文本识别方法,不仅降低复杂度,还提高了识别准确率。
本发明的目的是通过以下技术方案实现的:
一种基于卷积注意力网络的自然场景文本识别方法,包括:
利用二维卷积CNN作为编码器,提取输入图像的高层语义特征,并输出相应的特征图至解码器;
利用一维卷积CNN作为解码器,结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型,产生对应于输入图像的解码字符序列。
由上述本发明提供的技术方案可以看出,对于长度为n的序列,使用卷积核为s的CNN建模字符序列,仅需O(n/s)次操作即可得到长期依赖的表达,极大的降低了算法复杂度;此外,由于卷积操作的特征,CNN相比于RNN能够更好并行化,从而发挥GPU等资源的优势,更重要的是,通过叠加卷积层的方式得到的深层模型,可以提高更高层次的抽象表达,从而提高模型的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于卷积注意力网络的自然场景文本识别方法的流程图;
图2为本发明实施例提供的实现基于卷积注意力网络的自然场景文本识别方法的网络结构示意图;
图3为本发明实施例提供的一维卷积层的结构示意图;
图4为本发明实施例提供的均值池化操作示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于卷积注意力网络的自然场景文本识别方法,该方法基于编码器-解码器结构,但采用完全卷积的方式识别自然场景文本图像。即本方法的编码器以及解码器均由卷积神经网络CNN构成,使用CNN替换RNN来解码图像特征从而识别而得字符序列。在本发明中,如何使用基于CNN的解码器得到等同于或优越于基于RNN方法的文本识别性能,是本发明的要解决的核心问题。
如图1所示,为本发明实施例提供的一种基于卷积注意力网络的自然场景文本识别方法的流程图,相关网络结构如图2所示。该方法中,利用二维卷积CNN作为编码器,提取输入图像的高层语义特征,并输出相应的特征图至解码器;利用一维卷积CNN作为解码器,结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型,产生对应于输入图像的解码字符序列。
为了便于理解,下面针对编码器、解码器以及解码器中的注意力机制做详细的说明。
一、编码器。
本发明实施例中,所述编码器中包含了依次连接的五个卷积层结构;第一卷积层的输入图像为预先进行归一化处理为4H×4W像素尺寸的图像;第一卷积层的卷积核大小为m×m,通道数为p,跨度为g,使用的激活函数为ReLU,并配备了BN;
之后的四个卷积层均为残差块,输入特征图像的尺寸大小依次为:2H×2W、H×W、H×W及H×W;每一残差块中连续执行多次卷积操作,并加上残差连接,且每一残差块设有一定的重复次数;每次卷积操作使用的激活函数为ReLU,并配备了BN;其中最后一个残差块的最后一次卷积操作时未使用激活函数ReLU。
如表1所示,为编码器的详细结构,该结构符合经典的深度残差网络设计思想。
Figure GDA0003183986300000031
Figure GDA0003183986300000041
表1编码器结构
示例性的,输入图像被归一化至高为32像素、宽为100像素的大小。编码器的第一层conv1是卷积核大小为5×5、通道数(channel)为16、跨度(stride)为2的卷积层。该层使用的激活函数为ReLU,同时配备了批量规范化(Batch Normolization,BN)。conv2_x、conv3_x、conv4_x、conv5_x为残差块(block),其设计与传统的残差网络block设计类似,即在连续的1×1、3×3、1×1卷积后,加上残差连接(shortcut)操作,同时使用ReLU为激活函数以及配备BN。下采样(即,卷积跨度stride为2)分别作用在conv1和conv2_x,其中的x表示conv2重复堆叠的次数,通常stride位于conv2_x的最有一层,因此各个卷积层的输入特征图大小分别为32×100、16×50、8×25、8×25、8×25。由此可知,编码器输出的特征图大小为8×25。n1~n4分别为残差块的重复次数,本示例中采用n1=2,n2=2,n3=2,n4=6的方案,经过实验论证,该方案能取得最高的识别精度。此外,值得注意的是,在conv5_x的最后一层,并没有使用激活函数ReLU,其目的为保持输出响应方差不变,降低对解码器的影响。
假设编码器产生的特征图为
Figure GDA0003183986300000042
其中H与W为特征图的高与宽;d为特征图中每一元素
Figure GDA0003183986300000043
的维度;元素x′i,j在特征图X′中的空间坐标索引为(i,j),采用wordembedding的方式嵌入得到向量
Figure GDA0003183986300000044
最终,通过元素级的加法操作得到特征向量xi,j=x′i,j+ei,j;由一系列特征向量xi,j组成的集合X即为编码器最终输出的特征图。
结合之前的示例,最终输出的特征图的高与宽依次为8、25,维度d可以为512,由编码器CNN最后一层卷积层的通道数决定。
二、解码器。
本发明实施例中,采用自回归的方法对解码器进行训练:假定文本图像对应的字符序列标签为l'=(l1,...,ln),解码器的输入向量为开始符号<s>与字符序列标签l'的拼接,假设<s>=<0>,即解码器的输入向量为
Figure GDA0003183986300000045
解码器的标签向量为字符序列标签l'与结束符号<e>的拼接,假设<e>=<0>,即标签向量为
Figure GDA0003183986300000046
上述两个向量
Figure GDA0003183986300000051
Figure GDA0003183986300000052
为两个不同的向量,但其中的元素有部分相同,即
Figure GDA0003183986300000053
的第二个元素至最后一个元素(l1,...,ln)与
Figure GDA0003183986300000054
的第一个元素至倒数第二个元素(l1,...,ln)相同。
本发明实施例中,解码器包含了依次连接的向量嵌入层、第一线性变换网络层、一维卷积层、以及第二与第三线性变换网络层。如表2所示,为解码器详细结构,其中Dimension指输入向量在相应block的输出维度,LN为layer normalization(层规范化)。
Figure GDA0003183986300000055
表2解码器结构
1、向量嵌入层(embedding)。
解码器中第一层为向量嵌入层,假设当前时间步k对应的标签为lk,在向量嵌入层中利用经学习而得的嵌入矩阵转换后得到向量
Figure GDA0003183986300000056
同时,标签lk的绝对坐标与时间步相同,均为k,将标签lk的绝对坐标k以相同的方式嵌入得到向量
Figure GDA0003183986300000057
最终,通过元素级加法操作得到向量嵌入层的输出为sk=uk+vk,其中
Figure GDA0003183986300000058
f为向量的维度;示例性的,可取f=256。
2、第一线性变换网络层(lm1)。
通过第一线性变换网络层对向量嵌入层的输出进行线性变换为
Figure GDA0003183986300000059
d为编码器输出特征图中每一元素的维度。
3、一维卷积层(conv_x)。
一维卷积层为设有一定的重复次数(即,n5)的重复网络,每一重复网络结构如图3所示。
假设一维卷积层包含m个重复网络,对于其中的第l个重复网络,l=0,1,2,...,m-1,其采用一维卷积与激活函数GLU(Gated Linear Unit)对上一层的输出进行处理:
Figure GDA00031839863000000510
Figure GDA00031839863000000511
其中,
Figure GDA00031839863000000512
Figure GDA00031839863000000513
Figure GDA00031839863000000514
对应的历史向量,为输入向量标签lk-2,lk-1在重复网络的抽象表达向量;矩阵Y的维度为d×3,即
Figure GDA00031839863000000515
权重矩阵
Figure GDA00031839863000000516
及的
Figure GDA00031839863000000517
为卷积权重矩阵,其保证了输入向量的输出维度不变;
Figure GDA0003183986300000061
Figure GDA0003183986300000062
为偏置向量;*为一维卷积操作;
Figure GDA0003183986300000063
为元素级乘法操作;σ(·)为sigmoid激活函数;
Figure GDA0003183986300000064
为卷积操作的结果;以上向量的维度均为d,示例性的,可以取d=512。
本领域技术人员理解理解,对于不同的重复网络,矩阵Y都需要重新计算,为了表示的方便,省去了矩阵Y的上标(即对应重复网络的序号)。
之后,还通过注意力模块与残差连接进行处理,表示为:
Figure GDA0003183986300000065
其中,
Figure GDA0003183986300000066
为第l个重复网络中注意力模块的输出,
Figure GDA0003183986300000067
为一缩放因子,用于稳定激活的方差。
通过上述计算可以得到第l个重复网络的输出
Figure GDA0003183986300000068
采用上述方式不断计算,可以得到最后一个重复网络(l=m-1)的输出
Figure GDA0003183986300000069
也即一维卷积层的输出。
如前所述,一维卷积层为设有一定的重复次数的重复网络,每一重复网络均拥有各自的注意力模块。注意力模块中的注意力机制描述为从一组key-value向量中,映射一查询向量
Figure GDA00031839863000000610
至输出向量
Figure GDA00031839863000000611
所述的一组key-value向量即为编码器输出的一系列特征向量xi,j组成的集合X;
对于第l个重复网络,首先,计算查询向量
Figure GDA00031839863000000612
其计算公式为:
Figure GDA00031839863000000613
上式中,linear表示线性变换。
然后,计算查询向量
Figure GDA00031839863000000614
在集合X上每一位置的注意力评分ai,j,k:先计算b′i,j,k,通过一系列的b′i,j,k从而得到向量b′k,再经过均值池化得到bk,从而得到ai,j,k,计算公式如下:
Figure GDA00031839863000000615
Figure GDA00031839863000000616
Figure GDA00031839863000000617
其中,
Figure GDA00031839863000000618
为尺度缩放因子;pooling(·)指均值池化操作,均值池化操作可以参见图4所示示例,其中pooling核大小为3,stride为1;bi,j,k、bo,p,k均表示bk中的元素;
本领域技术人员理解理解,对于不同的重复网络,查询向量在集合X上每一位置的注意力评分ai,j,k需要重新计算,为了表示的方便,省去了注意力评分ai,j,k的上标(即对应重复网络的序号)。
最后,结合注意力评分ai,j,k与特征向量xi,j计算向量
Figure GDA0003183986300000071
对应的注意力模块的输出向量
Figure GDA0003183986300000072
其计算公式为:
Figure GDA0003183986300000073
其中,λ为缩放因子,示例性的可以取λ=5。此外,在计算注意力之前和之后,向量均进行了一次维度不变的线性变换。
4、第二层线性变换网络层(lm2)。
第二层线性变换网络层,将一维卷积层的输出
Figure GDA0003183986300000074
进行线性变换为
Figure GDA0003183986300000075
即维度由d变换为f。
5、第三层线性变换网络层(lm3)。
第三线性变换网络层,对第二层线性变换网络层的输出进行线性变换,再结合softmax函数,得到当前时间步k解码预测的各个字符的概率:
Figure GDA0003183986300000076
其中,Wo、bo对应的表示线性变换的权重矩阵、偏置向量,等同于softmax(linear(hk'))的表达;
选择概率最大的字符即为最终预测的字符。
值得注意的是,注意,为了避免当前时间步k访问将来的信息(即≥k),采用以下两点:1)一维卷积层的前一层连接为时间步k-2,k-1,k(卷积核大小为3)。特别地,当k≤2时,使用0向量作为填充。2)解码器不使用Batch normalization而使用Layer normalization,如之前表2所示。其不仅保证了整个网络的响应方差在值为1左右,同时也防止了数据的交叉访问而得到将来信息。以上的描述虽然仅针对时间步k输入标签lk的计算过程,但同样也适用于其他的输入标签
Figure GDA0003183986300000077
这些标签能够采用自回归autoregressive的方式在训练阶段并行计算。
另一方面,本发明实施例中,解码器训练时的图像在输入解码器之前通过数据增广的方式进行处理:首先从原图裁剪交集大于0.8的区域,该裁剪区域的长宽比在0.8至1.2之间。随后,图像大小被缩放至100×32,缩放的插值方式为随机选取。最后,随机改变图像的对比度、亮度、饱和度等。
此外,训练及推理阶段的其他一些配置如下所述:
a)所有的权重由Kaiming初始化方案进行初始化。
b)解码器端使用weight normalization进行约束。
c)训练所用的损失函数为交叉熵损失。
d)解码阶段使用Beam search。训练时其width为1,测试时其width为5。
e)优化方法为Nesterov加速梯度方法。Momentum为0.9,batch size为128,梯度clip值为20。
f)初始学习率为0.01,当损失值loss稳定后以0.01的比例进行缩放。
另外,为了说明本发明上述方案的效果,还进行了试验,如表3所示,为在常用数据集上试验获得的精度结果。
Figure GDA0003183986300000081
表3常用数据集上的精度
表3中,SVT为Street View Text数据集,IIIT5K为IIIT 5K-word数据集,IC03为ICDAR 2003数据集,IC13为ICDAR 2013数据集。表3中SVT、IIIT5K、IC03、IC13为不基于词库的识别精度。SVT-50为SVT数据集基于规模为50的词库识别精度;IIIT5K-50为IIIT5K数据集基于规模为50的词库识别精度;IIIT5K-1k为IIIT5K数据集基于规模为1k的词库识别精度;IC03-50为IC03数据集基于规模为50的词库识别精度;IC03-full为IC03数据集基于该数据集所有词组成的词库识别精度;基于词库的方法在预测的字符序列的基础上,计算字符序列与词库中词的编辑距离,以最小编辑距离的词作为预测结果计算而得。以上识别结果的模型,为在数据集Synth90k的训练集训练而得。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,包括:
利用二维卷积CNN作为编码器,提取输入图像的高层语义特征,并输出相应的特征图至解码器;
利用一维卷积CNN作为解码器,结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型,产生对应于输入图像的解码字符序列;
其中,所述解码器包含了依次连接的向量嵌入层、第一线性变换网络层、一维卷积层、以及第二与第三线性变换网络层;
假设当前时间步k对应的标签为lk,在向量嵌入层中利用经学习而得的嵌入矩阵转换后得到向量
Figure FDA0003183986290000011
同时,标签lk绝对坐标与时间步相同,均为k,将标签lk的时间步k以相同的方式嵌入得到向量
Figure FDA0003183986290000012
最终,通过元素级加法操作得到向量嵌入层的输出为sk=uk+vk,其中
Figure FDA0003183986290000013
f为向量的维度;
然后,通过第一线性变换网络层对向量嵌入层的输出进行线性变换为
Figure FDA0003183986290000014
d为编码器输出特征图中每一元素的维度;
假设一维卷积层包含m个重复网络,对于其中的第l个重复网络,l=0,1,2,...,m-1,其采用一维卷积与激活函数GLU对上一层的输出进行处理:
Figure FDA0003183986290000015
Figure FDA0003183986290000016
其中,
Figure FDA0003183986290000017
Figure FDA0003183986290000018
Figure FDA0003183986290000019
对应的历史向量,矩阵Y的维度为d×3,即
Figure FDA00031839862900000110
权重矩阵
Figure FDA00031839862900000111
及的
Figure FDA00031839862900000112
为卷积权重矩阵,其保证了输入向量的输出维度不变;
Figure FDA00031839862900000113
Figure FDA00031839862900000114
为偏置向量;*为一维卷积操作;
Figure FDA00031839862900000115
为元素级乘法操作;σ(·)为sigmoid激活函数;
Figure FDA00031839862900000116
为卷积操作的结果;
之后,通过注意力模块与残差连接进行处理,表示为:
Figure FDA00031839862900000117
其中,
Figure FDA00031839862900000118
为第l个重复网络中注意力模块的输出,
Figure FDA00031839862900000119
为一缩放因子,用于稳定激活的方差;
通过上述计算得到第l个重复网络的输出
Figure FDA00031839862900000120
采用上述方式不断计算,从而得到最后一个重复网络的输出
Figure FDA00031839862900000121
也即一维卷积层的输出;
第二层线性变换网络层,则将一维卷积层的输出
Figure FDA0003183986290000021
进行线性变换为
Figure FDA0003183986290000022
即维度由d变换为f;
第三线性变换网络层,则对第二层线性变换网络层的输出进行线性变换,再结合softmax函数,得到当前时间步k解码预测的各个字符的概率:
Figure FDA0003183986290000023
其中,Wo、bo对应的表示线性变换的权重矩阵、偏置向量;
选择概率最大的字符即为最终预测的字符。
2.根据权利要求1所述的一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,所述编码器中包含了依次连接的五个卷积层结构;
第一卷积层的输入图像为预先进行归一化处理为4H×4W像素尺寸的图像;第一卷积层的卷积核大小为m×m,通道数为p,跨度为g,使用的激活函数为ReLU,并配备了BN;
之后的四个卷积层均为残差块,输入特征图像的尺寸大小依次为:2H×2W、H×W、H×W及H×W,其中,H与W为编码器产生的特征图的高与宽;每一残差块中连续执行多次卷积操作,并加上残差连接操作,且每一残差块设有一定的重复次数;每次卷积操作使用的激活函数为ReLU,并配备了BN;其中最后一个残差块的最后一次卷积操作时未使用激活函数ReLU。
3.根据权利要求1或2所述的一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,
假设编码器产生的特征图为
Figure FDA0003183986290000024
其中H与W为特征图的高与宽;d为特征图中每一元素
Figure FDA0003183986290000025
的维度;元素x′i,j在特征图X′中的空间坐标索引为(i,j),采用wordembedding的方式嵌入得到向量
Figure FDA0003183986290000026
最终,通过元素级的加法操作得到特征向量xi,j=x′i,j+ei,j;由一系列特征向量xi,j组成的集合X即为编码器最终输出的特征图。
4.根据权利要求1所述的一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,
注意力模块中的注意力机制描述为从一组key-value向量中,映射一查询向量
Figure FDA0003183986290000027
至输出向量
Figure FDA0003183986290000028
所述的一组key-value向量即为编码器输出的一系列特征向量xi,j组成的集合X;
对于第l个重复网络,首先,计算查询向量
Figure FDA0003183986290000031
其计算公式为:
Figure FDA0003183986290000032
上式中,
Figure FDA0003183986290000033
表示上一重复网络的输出,如果是第一个重复网络,则
Figure FDA0003183986290000034
为向量嵌入层的输出;linear表示线性变换;
然后,计算查询向量
Figure FDA0003183986290000035
在集合X上每一位置的注意力评分ai,j,k:先计算b′i,j,k,通过一系列的b′i,j,k从而得到向量b′k,再经过均值池化得到bk,从而得到ai,j,k,计算公式如下:
Figure FDA0003183986290000036
Figure FDA0003183986290000037
Figure FDA0003183986290000038
其中,
Figure FDA0003183986290000039
为尺度缩放因子,pooling(·)指均值池化操作;bi,j,k、bo,p,k均表示bk中的元素;
最后,结合注意力评分ai,j,k与特征向量xi,j计算向量
Figure FDA00031839862900000310
对应的注意力模块的输出向量
Figure FDA00031839862900000311
其计算公式为:
Figure FDA00031839862900000312
其中,λ为缩放因子。
5.根据权利要求1所述的一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,该方法还包括采用自回归的方法对解码器进行训练:假定文本图像对应的字符序列标签为l'=(l1,...,ln),解码器的输入向量为开始符号<s>与字符序列标签l'的拼接,假设<s>=<0>,即解码器的输入向量为
Figure FDA00031839862900000313
解码器的标签向量为字符序列标签l'与结束符号<e>的拼接,假设<e>=<0>,即标签向量为
Figure FDA00031839862900000314
CN201810437763.0A 2018-05-09 2018-05-09 一种基于卷积注意力网络的自然场景文本识别方法 Active CN108615036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810437763.0A CN108615036B (zh) 2018-05-09 2018-05-09 一种基于卷积注意力网络的自然场景文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810437763.0A CN108615036B (zh) 2018-05-09 2018-05-09 一种基于卷积注意力网络的自然场景文本识别方法

Publications (2)

Publication Number Publication Date
CN108615036A CN108615036A (zh) 2018-10-02
CN108615036B true CN108615036B (zh) 2021-10-01

Family

ID=63662552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810437763.0A Active CN108615036B (zh) 2018-05-09 2018-05-09 一种基于卷积注意力网络的自然场景文本识别方法

Country Status (1)

Country Link
CN (1) CN108615036B (zh)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027555B (zh) * 2018-10-09 2023-09-26 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN109165697B (zh) * 2018-10-12 2021-11-30 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109543667B (zh) * 2018-11-14 2023-05-23 北京工业大学 一种基于注意力机制的文本识别方法
CN109460769A (zh) * 2018-11-16 2019-03-12 湖南大学 一种基于表格字符检测与识别的移动端***与方法
CN109766993B (zh) * 2018-12-13 2020-12-18 浙江大学 一种适合硬件的卷积神经网络压缩方法
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
US11210547B2 (en) * 2019-03-20 2021-12-28 NavInfo Europe B.V. Real-time scene understanding system
CN109977861B (zh) * 2019-03-25 2023-06-20 中国科学技术大学 离线手写体数学公式识别方法
CN111753822B (zh) * 2019-03-29 2024-05-24 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
US11880760B2 (en) 2019-05-01 2024-01-23 Samsung Electronics Co., Ltd. Mixed-precision NPU tile with depth-wise convolution
CN110097019B (zh) * 2019-05-10 2023-01-10 腾讯科技(深圳)有限公司 字符识别方法、装置、计算机设备以及存储介质
CN110399879B (zh) * 2019-06-14 2022-05-13 华南理工大学 一种基于注意力机制的文本行单字分割方法
CN110232417B (zh) * 2019-06-17 2022-10-25 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备及计算机可读存储介质
CN110288031B (zh) * 2019-06-27 2021-07-27 浙江工业大学 一种基于序列学习的车牌识别方法
CN110276351B (zh) * 2019-06-28 2022-09-06 中国科学技术大学 多语言场景文本检测与识别方法
CN112329803B (zh) * 2019-08-05 2022-08-26 北京大学 一种基于标准字形生成的自然场景文字识别方法
CN110458243B (zh) * 2019-08-16 2022-05-13 北京金山数字娱乐科技有限公司 图像识别模型的训练方法及装置、图像识别方法及装置
CN110597086B (zh) * 2019-08-19 2023-01-13 深圳元戎启行科技有限公司 仿真场景生成方法、无人驾驶***测试方法以及装置
CN110689012A (zh) * 2019-10-08 2020-01-14 山东浪潮人工智能研究院有限公司 一种端到端的自然场景文本识别方法及***
US20210182025A1 (en) * 2019-12-12 2021-06-17 Samsung Electronics Co., Ltd. Accelerating 2d convolutional layer mapping on a dot product architecture
CN111160341B (zh) * 2019-12-27 2023-04-07 华南理工大学 一种基于双注意力机制的场景中文文本识别方法
CN111259764A (zh) * 2020-01-10 2020-06-09 中国科学技术大学 文本检测方法、装置、电子设备及存储装置
CN111259768A (zh) * 2020-01-13 2020-06-09 清华大学 基于注意力机制的结合自然语言的图像目标定位方法
CN111325161B (zh) * 2020-02-25 2023-04-18 四川翼飞视科技有限公司 一种基于注意力机制的人脸检测神经网络的构建方法
CN111428727B (zh) * 2020-03-27 2023-04-07 华南理工大学 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN111859933B (zh) * 2020-05-11 2023-08-22 广东外语外贸大学 马来语识别模型的训练方法、识别方法、装置、设备
CN111651993A (zh) * 2020-05-11 2020-09-11 北京理工大学 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111477221B (zh) * 2020-05-28 2022-12-30 中国科学技术大学 采用双向时序卷积与自注意力机制网络的语音识别***
CN111931763B (zh) * 2020-06-09 2024-03-12 浙江大学 一种基于随机形态边缘几何建模的深度场景文本检测方法
CN112163596B (zh) * 2020-09-04 2024-01-05 华南理工大学 复杂场景文本识别方法、***、计算机设备及存储介质
CN112116074B (zh) * 2020-09-18 2022-04-15 西北工业大学 一种基于二维空间编码的图像描述方法
CN112541491B (zh) * 2020-12-07 2024-02-02 沈阳雅译网络技术有限公司 基于图像字符区域感知的端到端文本检测及识别方法
CN112733768B (zh) * 2021-01-15 2022-09-09 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与***
CN113255646B (zh) * 2021-06-02 2022-10-18 北京理工大学 一种实时场景文本检测方法
CN113344014B (zh) * 2021-08-03 2022-03-08 北京世纪好未来教育科技有限公司 文本识别方法和装置
CN113688783B (zh) * 2021-09-10 2022-06-28 一脉通(深圳)智能科技有限公司 人脸特征提取方法、低分辨率人脸识别方法及设备
CN115994668B (zh) * 2023-02-16 2023-06-20 浙江非线数联科技股份有限公司 智慧社区资源管理***
CN116152118B (zh) * 2023-04-18 2023-07-14 中国科学技术大学 基于轮廓特征增强的图像描述方法
CN117037136B (zh) * 2023-10-10 2024-02-23 中国科学技术大学 场景文本识别方法、***、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN107832353A (zh) * 2017-10-23 2018-03-23 同济大学 一种社交媒体平台虚假信息识别方法
CN107861938A (zh) * 2017-09-21 2018-03-30 北京三快在线科技有限公司 一种poi文案生成方法及装置,电子设备
CN108009539A (zh) * 2017-12-26 2018-05-08 中山大学 一种基于计数聚焦模型的新型文本识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386159B2 (en) * 2004-06-18 2008-06-10 Xerox Corporation Magnetic watermark for text documents
US8036415B2 (en) * 2007-01-03 2011-10-11 International Business Machines Corporation Method and system for nano-encoding and decoding information related to printed texts and images on paper and other surfaces

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861938A (zh) * 2017-09-21 2018-03-30 北京三快在线科技有限公司 一种poi文案生成方法及装置,电子设备
CN107644006A (zh) * 2017-09-29 2018-01-30 北京大学 一种基于深度神经网络的手写体中文字库自动生成方法
CN107832353A (zh) * 2017-10-23 2018-03-23 同济大学 一种社交媒体平台虚假信息识别方法
CN108009539A (zh) * 2017-12-26 2018-05-08 中山大学 一种基于计数聚焦模型的新型文本识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DVD 字幕提取与文本自动识别技术研究;张晓民等;《天津工程师范学院学报》;20090930;第19卷(第3期);第25-29页 *
Using Convolutional Encoder-Decoder for Document Image Binarization;Xujun Peng等;《IEEE》;20180129;第708-713页 *

Also Published As

Publication number Publication date
CN108615036A (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN108615036B (zh) 一种基于卷积注意力网络的自然场景文本识别方法
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
US11721335B2 (en) Hierarchical self-attention for machine comprehension
US11544474B2 (en) Generation of text from structured data
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
US20200159755A1 (en) Summary generating apparatus, summary generating method and computer program
Hrinchuk et al. Tensorized embedding layers for efficient model compression
CN112632225B (zh) 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN112329465A (zh) 一种命名实体识别方法、装置及计算机可读存储介质
JP2019008778A (ja) 画像の領域のキャプション付加
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
CN109325242B (zh) 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
JP7286810B2 (ja) テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体
JP7174812B2 (ja) 非構造化文書からのセマンティックデータの照会
CN113655893B (zh) 一种词句生成方法、模型训练方法及相关设备
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
JP2022161564A (ja) テキスト画像の文字を認識する機械学習モデルを訓練するシステム
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN114863407A (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
Belharbi et al. Deep neural networks regularization for structured output prediction
US11494431B2 (en) Generating accurate and natural captions for figures
Vankadaru et al. Text Identification from Handwritten Data using Bi-LSTM and CNN with FastAI
CN117422065A (zh) 基于强化学习算法的自然语言数据处理***
CN116168394A (zh) 图像文本识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant