CN111507328A

CN111507328A - 文本识别及模型训练方法、***、设备及可读存储介质

Info

Publication number: CN111507328A
Application number: CN202010270210.8A
Authority: CN
Inventors: 邬国锐; 卿山; 王庆庆
Original assignee: Beijing Aikaka Information Technology Co ltd
Current assignee: Beijing Aikaka Information Technology Co ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-07

Abstract

本发明公开一种文本识别及模型训练方法、***、设备及可读存储介质，本发明在文本识别的编码阶段，通过稠密卷积神经网络提取待识别图片的图像特征，使得提取出的特征更加抽象，包含的语义信息更加丰富；通过在图像特征中添加二维位置编码信息，生成包含位置信息的图像特征，加入的二维位置编码能够在对图像特征进行解码时更加准确的定位图像中字符的位置，从而能够更加准确地识别出对应的文本字符，能够提高弯曲文本识别的准确率；在解码阶段，通过包含二维注意力机制的transformer解码层，对包含位置信息的图像特征进行解码处理，能够充分地利用图像二维的空间信息，使用一种弱监督的方式进行训练，能够进一步提高弯曲文本识别的准确率。

Description

文本识别及模型训练方法、***、设备及可读存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种文本识别及模型训练方法、***、设备及可读存储介质。

背景技术

在日常工作或生活中，往往需要利用计算机技术识别纸质文件上的文本，例如，各种票据上的文字，证件实体上的身份信息等等，基于图像的文字识别已经成为了计算机视觉中的一项重要研究主题。

目前对印在纸上的文本信息的识别主要采用光学字符识别(Optical CharacterRecognition，以下简称：OCR)技术，其利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种人可以理解的格式。OCR的处理步骤主要包括：图像预处理、版面分析、文本定位(或叫图像切割)、字符切割和识别等。

由于自然场景中的文本字体多样、文本形状多样、且存在遮盖、光照不均、噪声过多等情况，尤其对于自然场景中的很多弯曲文本，例如弯曲形状的商标、***等等，往往包含非常重要的信息，对识别的准确性要求很高。但是现有技术对于自然场景中的弯曲文本识别的准确率很低，如何提高自然场景中的弯曲文本识别的准确率成为一个亟待解决的技术问题。

发明内容

本发明提供一种文本识别及模型训练方法、***、设备及可读存储介质，用以克服上述现有技术中存在的技术问题，以提高自然场景中的弯曲文本识别的准确率。

本发明提供的一种文本识别方法，包括：

通过稠密卷积神经网络提取待识别图片的图像特征；

在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；

通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，得到识别结果。

本发明还提供一种文本识别模型包括：编码模块和解码模块；所述编码模块用于：通过稠密卷积神经网络提取待识别图片的图像特征，在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；所述解码模块包括包含二维注意力机制的transformer解码层，所述包含二维注意力机制的transformer解码层用于对所述包含位置信息的图像特征进行解码处理，得到识别结果；

所述方法包括：

获取自然场景文本识别的训练集，所述训练集至少包括多条弯曲文本训练数据，每条所述弯曲文本训练数据包括：包含弯曲文本的样本图片及其对应的文本标注信息；

通过所述训练集对文本识别模型进行训练。

本发明还提供文本识别***，包括：

编码模块，用于通过稠密卷积神经网络提取待识别图片的图像特征，在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；

解码模块，用于通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，得到识别结果。

本发明还提供一种文本识别设备，包括：

处理器，存储器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序；其中，所述处理器运行所述计算机程序时实现上述所述的文本识别方法和/或文本识别模型训练方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被执行上述的文本识别方法和/或文本识别模型训练方法。

本发明在文本识别的编码阶段，通过稠密卷积神经网络提取待识别图片的图像特征，使得提取出的特征更加抽象，包含的语义信息更加丰富；通过在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征，加入的二维位置编码能够在对图像特征进行解码时更加准确的定位图像中字符的位置，从而能够更加准确地识别出对应的文本字符，能够提高弯曲文本识别的准确率；在解码阶段，通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，能够充分地利用图像二维的空间信息，使用一种弱监督的方式进行训练，能够进一步提高弯曲文本识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种文本识别方法流程图；

图2为本发明实施例一提供的传统transformer模型结构示意图；

图3为本发明实施例一提供的文本识别模型的结构示意图；

图4为本发明实施例二提供的一种加入二维位置编码的流程图；

图5为本发明实施例三提供的一种二维注意力向量确定流程图；

图6为本发明实施例三提供的一种二维注意力向量确定流程示意图；

图7为本发明实施例四提供的一种文本识别模型训练方法流程图；

图8为本发明实施例五提供的一种文本识别***的结构示意图；

图9为本发明实施例六提供的一种文本识别***的结构示意图；

图10为本发明实施例七提供的文本识别设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所涉及的术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

目前，在场景弯曲文本识别领域，难点主要存在于每个文本字符与图像文本区域的“对齐”(以下简称“对齐”操作)，也即是如何准确识别出图像文本区域中的文本字符。常规直线文本与弯曲文本相比，上述“对齐”操作相对简单。对于上述这个技术难点，本发明采用了以下四种方式来针对文本区域的“对齐”操作：用卷积神经网络提取出图像特征，在提取出的图像特征中加入二维位置编码，用transformer解码层(也即transformer-decoder)提取出字符之间的相关性以及实现与图像特征的上述“对齐”操作，字符特征与图像特征的“对齐”采用二维注意力模块。其中，卷积神经网络提取图像特征和transformer-decoder为基础模块，二维注意力模块为在transformer-decoder中针对文本字符与图像文本区域“对齐”的核心，二维位置编码是针对二维注意力模块专门增加的处理，能够加强“对齐”的效果。

本实施例提供的文本识别方法利用文本识别模型实现，采用的模型架构为编码(encoder)-解码(decoder)架构，文本识别模型包括编码模块和解码模块。在encoder阶段，首先经过卷积神经网络提取出待识别图片的图像特征，然后加上二维位置编码。在decoder阶段，通过transformer-decoder接受来自encoder的输出，同时采用二维注意力机制，解码得到识别结果。

为使本发明的技术方案更加清楚，以下结合附图对本发明的实施例进行详细说明。

图1为本发明实施例一提供的一种文本识别方法流程图，图2为本发明实施例一提供的传统transformer模型结构示意图，图3为本发明实施例一提供的文本识别模型的结构示意图。如图1所示，本实施例中的文本识别方法，包括：

步骤10、通过稠密卷积神经网络提取待识别图片的图像特征。

人对于图像的认知是抽象分层的，首先理解的是颜色和亮度，然后是边缘、角点、直线等局部细节特征，接下来是纹理、几何形状等更复杂的信息和结构，最后形成整个物体的概念。视觉神经科学对于视觉机理的研究验证了这一结论，动物大脑的视觉皮层具有分层结构。卷积神经网络可以被看做是对于人的视觉机理的模仿，它由多个卷积层组成，每一个卷积层都是卷积核从左到右从上到下扫描图片，输出特征图，即提取出图片的局部特征。随着卷积层的逐步增加，感受野(特征图中每个像素在输入图片上映射的区域大小)也逐步增加，同时提取出的特征更加抽象，最后得到图像在各个不同尺度的抽象表示。自从卷积神经网络在2012年imageNet图像识别挑战赛上大放异彩，卷积神经网络不断发展，同时被广泛用于各个领域，在很多问题上都取得了当前最好的性能，现在已经成为了提取图像特征的主流。

本实施例中通过稠密卷积神经网络(Dense Convolutional Network，简称DenseNet)提取待识别图片的图像特征，得到待识别图片的图像特征，也即是待识别图片的特征图。

示例性地，在进行文本识别之前，可以预先对文本识别模型进行模型训练，在模型训练过程中实现对编码模块和解码模块的训练，可以得到训练好的在编码阶段用于提取图像特征的稠密卷积神经网络，以及训练好的包含二维注意力机制的transformer解码层。

该步骤中，通过预先训练好的稠密卷积神经网络提取待识别图片的图像特征。

步骤20、在图像特征中添加二维位置编码信息，生成包含位置信息的图像特征。

transformer模型是完全由注意力(Attention)机制组成，注意力(Attention)机制由Bengio团队于2014年提出并在近年广泛的应用在深度学习中的各个领域，例如在计算机视觉方向用于捕捉图像上的感受野，或者自然语言处理((Natural LanguageProcessing，简称NLP)中用于定位关键token或者特征。transformer中抛弃了传统的卷积神经网络(Convolutional Neural Network，简称CNN)，循环神经网(Recurrent NeuralNetwork，简称RNN)，整个网络结构完全是由Attention机制组成。但Attention机制并没有包含位置信息，即一句话中词语在不同的位置时在transformer中是没有区别的，这当然是不符合实际的。因此，在transformer中引入位置信息相比CNN，RNN等模型有更加重要的作用，所以需要给通过卷积神经网络得到的图像特征中的每个特征向量加上一个位置向量，来加入位置信息。但是传统的位置编码作用于一维，而本实施例中的图像特征是二维的，无法直接使用一维位置编码。

本实施例中，在提取出待识别图片的图像特征(也即是特征图)之后，在图像特征中添加二维位置编码信息，能够加强图像特征中二维空间的位置表示，从而能够进一步加强图像特征与字符特征“对齐”能力。

步骤30、通过包含二维注意力机制的transformer解码层，对包含位置信息的图像特征进行解码处理，得到识别结果。

传统的transformer模型的整个网络结构是由Attention机制组成，transformer编码层由自注意力机制(Self-Attenion)层和前馈神经网络(Feedforward NeuralNetwork，简称FNN)组成。如图2所示，传统的transformer编码层(图2中所示的Encoder#1和Encoder#2表示两个编码层)包括Self-Attenion层和前馈网络层(Feed Forward)，传统的transformer解码层(如图2中2X表示有两个解码层堆叠，每个解码层如图中解码模块部分虚线框中所示)包括Self-Attenion层，encoder-decoder Attenion层和前馈网络层(FeedForward)，transformer解码层中的每个子层(包括Self-Attenion层，Encoder-DecoderAttenion层和前馈网络层)中间都有一个“Add&Normalize”层，表示残差连接和层标准化步骤。一个基于transformer的可训练的神经网络可以通过堆叠transformer层的形式进行搭建。transformer的提出解决了RNN的两个缺点，RNN相关算法只能从左向右依次计算或者从右向左依次计算，这种特点一是限制了模型的并行能力，二是顺序计算的过程中对于特别长期的依赖现象信息会丢失。而transformer不是类似RNN的顺序结构，因此具有更好的并行性，并且将序列中的任意两个位置之间的距离是缩小为一个常量，解决了长期依赖的问题。

本实施例中的编码模块采用DenseNet提取图像特征，并添加二维位置编码信息；本实施例中的解码模块采用多个transformer解码层堆叠而成，前一个transformer解码层的输出作为后面一个transformer解码层的输入，每个transformer解码层包括：带掩码的多头注意力层，二维注意力层和前馈神经网络层。

示例性的，如图3所示，本实施例中的transformer解码模块可以由两个或者三个transformer解码层堆叠而成，图3中的“3X”表示3个transformer解码层堆叠，图3中的“Masked Multi-Head Attention”表示带掩码的多头注意力层，“2D Attention”表示二维注意力层，“Feed Forward”表示前馈神经网络层。

如图3所示，transformer解码层中的每个子层(带掩码的多头注意力层，二维注意力层和前馈神经网络层)中间都有一个“Add&Normalize”层，表示残差连接和层标准化步骤。transformer解码模块还包括线性层(Linear层)和Softmax层。

另外，为进行模型训练，transformer解码模块还包括embeding层。在训练阶段，将真值字符通过embeding层将字符转化为高维空间中的向量表示，作为第一个transformer解码层的输入。

本实施例中，在decoder阶段使用transformer解码模块来提取字符特征，并且与encoder阶段提取的图像特征“对齐”。与传统的transformer解码模块不同，本实施例中把原始的“对齐”操作中encoder-decoder Attention换为了二维注意力机制，来进一步加强解码阶段提取的字符特征与编码阶段提取的图像特征的对齐能力，最后通过一个前馈神经网络输出。

自然场景中的文本识别中传统的实现“对齐”操作的Attention模块需要在encoder阶段将提取出的图像特征竖向池化，由此丢失了图像中的空间信息，不能很好的利用二维的空间信息。本实施例中使用了针对弯曲文本的2D Attention机制，能够充分利用图像的空间信息，使用一种弱监督的方式来“对齐”字符特征与图像特征，实现弯曲文本的识别。

本发明实施例在文本识别的编码阶段，通过稠密卷积神经网络提取待识别图片的图像特征，使得提取出的特征更加抽象，包含的语义信息更加丰富；通过在图像特征中添加二维位置编码信息，生成包含位置信息的图像特征，加入的二维位置编码能够在对图像特征进行解码时更加准确的定位图像中字符的位置，从而能够提高弯曲文本识别的准确率；在解码阶段，通过包含二维注意力机制的transformer解码层，对包含位置信息的图像特征进行解码处理，能够充分地利用图像二维的空间信息，使用一种弱监督的方式进行训练，能够进一步提高弯曲文本识别的准确率。

图4为本发明实施例二提供的一种加入二维位置编码的流程图，在上述实施例一的基础上，本实施例中，如图4所示，上述步骤20在图像特征中添加二维位置编码信息，生成包含位置信息的图像特征，可以采用如下步骤201-203实现：

步骤201、生成图像特征中的每个像素的二维位置编码。

具体的，该步骤可以采用如下方式实现：

根据图像特征确定水平方向和竖直方向的位置编码权重；对于图像特征中的任意一个像素，分别生成该像素在水平方向和竖直方向上的一维位置编码；根据水平方向和竖直方向的位置编码权重，对该像素在水平方向和竖直方向上的一维位置编码进行加权求和，得到该像素的二维位置编码。

示例性地，对于在图像特征(也即是特征图)中高h宽w位置的像素，该像素的二维位置编码可以用P_hw表示，该像素在竖直方向上的一维位置编码可以用

表示，其中下标h表示竖直方向，pos_h为该像素在竖直方向上的排列位置，该像素在水平方向上的一维位置编码可以用

表示，其中下标w表示水平方向，pos_w为该像素在水平方向上的排列位置，特征图的深度可以用D表示，那么该像素在竖直方向的一维位置编码可以采用如下公式一或公式二计算：

其中，pos_h为该像素在竖直方向上的排列位置，例如特征图中竖直方向有20个像素，则pos_h的取值为[0，19]；

表示竖直方向第pos_h个像素对应的一维位置编码向量中的第2i个分量，

表示竖直方向第pos_h个像素对应的一维位置编码向量中的第2i+1个分量，i为非负整数，下标2i和2i+1取值为[0，D-1]，其中D为特征图的深度，即像素对应一维位置编码向量的偶数(2i)分量通过公式一计算该分量值，像素对应一维位置编码向量的奇数(2i+1)分量通过公式二计算该分量值。

其中采取三角函数的原因为

和

在k给定的情况下为线性关系，可以表示竖直方向上像素点的相对位置关系。

同理，该像素在水平方向的一维位置编码可以采用如下公式三或公式四计算：

其中，pos_w为该像素在水平方向上的排列位置，例如特征图中水平方向有48个像素，则pos_w的取值为[0，47]；

表示水平方向第pos_w个像素对应的一维位置编码向量中的第2i个分量，

表示水平方向第pos_w个像素对应的一维位置编码向量中的第2i+1个分量，i为非负整数，下标2i和2i+1取值为[0，D-1]，其中D为特征图的深度，即像素对应一维位置编码向量的偶数(2i)分量通过公式三计算该分量值，像素对应一维位置编码向量的奇数(2i+1)分量通过公式四计算该分量值。

示例性地，可以采用以下公式五确定图像特征的水平方向的位置编码权重，采用以下公式六确定图像特征的竖直方向的位置编码权重：

其中，α(E)和β(E)分别表示竖直方向和水平方向的位置编码权重，

为可学***均池化后的结果。

进一步地，在确定水平方向和竖直方向的位置编码权重，以及像素在水平方向和竖直方向上的一维位置编码之后，可以采用以下公式七确定该像素的二维位置编码：

其中，P_hw表示像素的二维位置编码，

表示该像素在竖直方向的一维位置编码，

表示该像素在水平方向的一维位置编码。

步骤202、生成图像特征的位置编码张量。

其中，每个像素的二维位置编码为向量，在得到图像特征中的每个像素的二维位置编码向量之后，将所有像素的二维位置编码向量拼接成一个张量，其中每个像素的二维位置编码向量的在张量中的位置对应于图像中像素点的位置。

步骤203、将图像特征的位置编码张量与图像特征相加，得到包含位置信息的图像特征。

本实施例中，针对解码阶段的二维注意力模块在编码阶段的图像特征中增加二维位置编码，加强图像特征中二维空间的位置表示，使得二维注意力模块能够发挥更好的效果，从而加强文本字符与图像文本区域的“对齐”能力。

在上述实施例一或者实施例二的基础上，本实施例中，如图3所示，文本识别模型包括至少一个包含二维注意力机制的transformer解码层，每个transformer解码层包括：带掩码的多头注意力层，二维注意力层和前馈神经网络层。

其中，每个transformer解码层的处理过程包括：通过带掩码的多头注意力层对输入的字符特征进行处理，得到第一字符特征；通过二维注意力层根据包含位置信息的图像特征和第一字符特征，确定二维注意力向量，在第一字符特征中加上二维注意力向量，得到第二字符特征；将第二字符特征输入前馈神经网络层。

进一步地，第一字符特征可以包括一个或者多个特征向量，若第一字符特征包含多个特征向量，则通过二维注意力层根据包含位置信息的图像特征和第一字符特征，确定第一字符特征的每个特征向量对应的二维注意力向量，然后在第一字符特征的每个特征向量加上对应的二维注意力向量，得到第二字符特征。

图5为本发明实施例三提供的一种文本识别流程图，图6为本发明实施例三提供的一种二维注意力向量确定流程示意图。如图5和图6所示，通过二维注意力层根据包含位置信息的图像特征和第一字符特征，确定二维注意力向量，具体可以采用如下步骤301-303实现：

步骤301、对包含位置信息的图像特征进行第一卷积处理，得到一个H×W×d的第一张量，其中H、W和d分别表示第一张量的高度、宽度和深度。

其中，第一卷积处理是指将输入的图像特征通过一个3×3的卷积。

步骤302、第一字符特征包括至少一个特征向量，根据第一张量确定第一字符特征的每个特征向量关于包含位置信息的图像特征的权重值，第一字符特征的每个特征向量关于包含位置信息的图像特征的权重值即为包含位置信息的图像特征的每个像素点的权重值。

具体的，第一字符特征可以包括一个或者多个特征向量，该步骤中可以根据第一张量确定第一字符特征的每个特征向量关于包含位置信息的图像特征的权重值。

本实施例中，如图6所示，对于第一字符特征的每一个特征向量，具体可以采用如下方式实现确定该特征向量关于包含位置信息的图像特征的权重值：

将该特征向量进行第二卷积处理(如图6中所示通过一个1×1的卷积)，得到一个1×1×d的第二张量；扩充第二张量的高度和宽度，得到H×W×d的第三张量，第三张量与第一张量的高度、宽度和深度均一致；将第三张量与第一张量相加，并采用激活函数进行处理(图6中以采用tanh函数为例进行示例性地说明)，得到H×W×d的第四张量；对第四张量进行第三卷积处理(如图6中所示通过一个1×1的卷积)，得到H×W×1的第五张量(图6中未示出)；对第五张量进行二维softmax处理，得到该特征向量关于包含位置信息的图像特征的权重值，是一个H×W×1的张量。

其中，第二卷积和第三卷积为不同的1×1的卷积。激活函数可以采用双曲正切函数(tanh函数)、sigmoid函数、或者其他类似的激活函数，本实施例此处不做具体限定。

步骤303、把包含位置信息的图像特征根据每个像素点的权重值加权求和，得到第一字符特征的每个特征向量对应的二维注意力向量。

其中，第一字符特征的特征向量可以有一个或者多个，通常，第一字符特征中特征向量的数量与字符数量一致。

该步骤中，对于第一字符特征的每个特征向量，将该特征向量关于包含位置信息的图像特征的权重值当做包含位置信息的图像特征的每个像素点的权重值，把包含位置信息的图像特征根据每个像素点的权重值加权求和，得到该特征向量对应的二维注意力向量。

本实施例提供了确定二维注意力向量的一种具体实现方式，本实施例中使用了针对弯曲文本的2D Attention机制，能够充分利用图像的空间信息，使用一种弱监督的方式来“对齐”字符特征与图像特征，进一步加强解码阶段提取的字符特征与编码阶段提取的图像特征的对齐能力，能够进一步提高弯曲文本识别的准确率。

图7为本发明实施例四提供的一种文本识别模型训练方法流程图。本实施例提供一种文本识别模型训练方法，文本识别模型包括：编码模块和解码模块；编码模块用于：通过稠密卷积神经网络提取待识别图片的图像特征，在图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；解码模块包括包含二维注意力机制的transformer解码层，包含二维注意力机制的transformer解码层用于对包含位置信息的图像特征进行解码处理，得到识别结果。

本实施例提供的文本识别模型用于实现上述任一实施例提供的文本识别方法，文本识别方法的具体实现方式详见上述实施例，本实施例此处不再赘述。

本实施例中，在执行上述文本识别方法之前，可以预先训练文本识别模型，如图7所示，文本识别模型训练方法具体包括如下步骤：

步骤40、获取自然场景文本识别的训练集，训练集至少包括多条弯曲文本训练数据，每条弯曲文本训练数据包括：包含弯曲文本的样本图片及其对应的文本标注信息。

示例性地，本实施例中训练集包括尽可能丰富的自然场景中的样本图片及其文本标注信息。

步骤50、通过训练集对文本识别模型进行训练。

另外，transformer解码模块还包括嵌入(embeding)层。

在训练阶段，将真值字符通过embeding层将字符转化为高维空间中的向量表示，作为第一个transformer解码层的输入。

本实施例提供的文本识别模型本质上为分类模型，decoder最后输出结果为概率张量，因此本实施例中可以采用多分类交叉熵损失函数计算出模型损失，损失函数公式为H(p，q)＝-∑p(x)logq(x)，其中p(x)代表正确答案时为1，其他时候为0，q(x)代表正确答案项的预测概率。这样，针对每个样本，仅考虑了预测正确项的那一部分的损失。

另外，本实施例中，最后采用Adam作为优化方法来优化模型，Adam是一种可以替代传统随机梯度下降(Stochastic Gradient Descent，简称SGD)过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。Adam算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即alpha)更新所有的权重，学习率在训练过程中并不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率。同时Adam算法很容易实现，并且有很高的计算效率和较低的内存需求。因此，本实施例优选采用Adam算法作为优化器。

图8为本发明实施例五提供的一种文本识别***的结构示意图，如图8所示，本实施例中的文本识别***，包括：编码模块801和解码模块802。

具体的，编码模块801用于通过稠密卷积神经网络提取待识别图片的图像特征，在图像特征中添加二维位置编码信息，生成包含位置信息的图像特征。

解码模块802用于通过包含二维注意力机制的transformer解码层，对包含位置信息的图像特征进行解码处理，得到识别结果。

上述各个功能模块分别用于完成本发明方法实施例一对应的操作功能，也达到类似的功能效果，详细内容不再赘述。

在上述实施例五的基础上，本实施例中，编码模块801还用于：生成图像特征中的每个像素的二维位置编码，并生成图像特征的位置编码张量；将图像特征的位置编码张量与图像特征相加，得到包含位置信息的图像特征。

可选的，编码模块801还用于：根据图像特征确定水平方向和竖直方向的位置编码权重；对于图像特征中的任意一个像素，分别生成该像素在水平方向和竖直方向上的一维位置编码；根据水平方向和竖直方向的位置编码权重，对该像素在水平方向和竖直方向上的一维位置编码进行加权求和，得到该像素的二维位置编码。

本实施例中，文本识别模型包括至少一个包含二维注意力机制的transformer解码层，每个transformer解码层包括：带掩码的多头注意力层，二维注意力层和前馈神经网络层。

具体的，解码模块502还用于：

通过带掩码的多头注意力层对输入的字符特征进行处理，得到第一字符特征；通过二维注意力层根据包含位置信息的图像特征和第一字符特征，确定二维注意力向量，在第一字符特征中加上二维注意力向量，得到第二字符特征；将第二字符特征输入前馈神经网络层。

可选的，解码模块502还用于：对包含位置信息的图像特征进行第一卷积处理，得到一个H×W×d第一张量，其中H、W和d分别表示第一张量的高度、宽度和深度；第一字符特征包括至少一个特征向量，根据第一张量确定第一字符特征的每个特征向量关于包含位置信息的图像特征的权重值，第一字符特征的每个特征向量关于包含位置信息的图像特征的权重值即为包含位置信息的图像特征的每个像素点的权重值；把包含位置信息的图像特征根据每个像素点的权重值加权求和，得到第一字符特征的每个特征向量对应的二维注意力向量。

可选的，解码模块502还用于：

将该特征向量进行第二卷积处理，得到一个1×1×d的第二张量；扩充第二张量的高度和宽度，得到H×W×d的第三张量，第三张量与第一张量的高度、宽度和深度均一致；将第三张量与第一张量相加，并采用激活函数进行处理，得到H×W×d的第四张量；对第四张量进行第三卷积处理，得到H×W×1的第五张量；对第五张量进行二维softmax处理，得到该特征向量关于包含位置信息的图像特征的权重值。

上述各个功能模块分别用于完成本发明方法实施例二和实施例三对应的操作功能，也达到类似的功能效果，详细内容不再赘述。

图9为本发明实施例六提供的一种文本识别***的结构示意图，在上述实施例五的基础上，本发明的另一实施例中，如图9所示，文本识别***还可以包括模型训练模块803。文本识别模型包括：编码模块801和解码模块802；编码模块801用于：通过稠密卷积神经网络提取待识别图片的图像特征，在图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；解码模块802包括包含二维注意力机制的transformer解码层，包含二维注意力机制的transformer解码层用于对包含位置信息的图像特征进行解码处理，得到识别结果。模型训练模块803用于：获取自然场景文本识别的训练集，训练集至少包括多条弯曲文本训练数据，每条弯曲文本训练数据包括：包含弯曲文本的样本图片及其对应的文本标注信息；通过训练集对文本识别模型进行训练。

另外，在本发明的另一实施例中，模型训练模块可以单独作为一个***实现。

上述编码模块801和解码模块802用于完成本发明方法实施例一至三中任一实施例对应的操作功能，上述模型训练模块803用于完成本发明方法实施例四对应的操作功能，也达到类似的功能效果，详细内容不再赘述。

图10为本发明实施例七提供的文本识别设备的结构示意图。如图10所示，该设备100包括：处理器1001，存储器1002，以及存储在存储器1002上并可在处理器1001上运行的计算机程序。

其中，处理器1001运行计算机程序时实现上述任一方法实施例提供的文本识别方法和/或文本识别模型训练方法。

本发明实施例还提供一种计算机可读存储介质，该可读存储介质如：ROM/RAM、磁碟、光盘等，计算机可读存储介质存储有计算机程序，计算机程序可被终端设备、计算机或服务器等硬件设备执行上述的文本识别方法和/或文本识别模型训练方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文本识别方法，其特征在于，包括：

通过稠密卷积神经网络提取待识别图片的图像特征；

2.根据权利要求1所述的方法，其特征在于，所述在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征，包括：

生成所述图像特征中的每个像素的二维位置编码，并生成所述图像特征的位置编码张量；

将所述图像特征的位置编码张量与所述图像特征相加，得到所述包含位置信息的图像特征。

3.根据权利要求2所述的方法，其特征在于，所述生成所述图像特征中的每个像素的二维位置编码，包括：

根据所述图像特征确定水平方向和竖直方向的位置编码权重；

对于所述图像特征中的任意一个像素，分别生成该像素在水平方向和竖直方向上的一维位置编码；

根据所述水平方向和竖直方向的位置编码权重，对该像素在水平方向和竖直方向上的一维位置编码进行加权求和，得到该像素的二维位置编码。

4.根据权利要求1-3中任一项所述的方法，其特征在于，包括至少一个所述包含二维注意力机制的transformer解码层，每个所述transformer解码层包括：带掩码的多头注意力层、二维注意力层和前馈神经网络层。

5.根据权利要求4所述的方法，其特征在于，所述通过包含二维注意力机制的transformer解码层，对所述包含位置信息的图像特征进行解码处理，得到识别结果，包括：

通过带掩码的多头注意力层对输入的字符特征进行处理，得到第一字符特征；

通过二维注意力层根据所述包含位置信息的图像特征和所述第一字符特征，确定二维注意力向量，在所述第一字符特征中加上所述二维注意力向量，得到第二字符特征；

将所述第二字符特征输入所述前馈神经网络层。

6.根据权利要求5所述的方法，其特征在于，所述通过二维注意力层根据所述包含位置信息的图像特征和所述第一字符特征，确定二维注意力向量，包括：

对所述包含位置信息的图像特征进行第一卷积处理，得到一个H×W×d的第一张量，其中H、W和d分别表示所述第一张量的高度、宽度和深度；

所述第一字符特征包括至少一个特征向量，根据所述第一张量确定所述第一字符特征的每个特征向量关于所述包含位置信息的图像特征的权重值，所述第一字符特征的每个特征向量关于所述包含位置信息的图像特征的权重值即为所述包含位置信息的图像特征的每个像素点的权重值；

把所述包含位置信息的图像特征根据每个像素点的权重值加权求和，得到所述第一字符特征的每个特征向量对应的所述二维注意力向量。

7.根据权利要求6所述的方法，其特征在于，根据所述第一张量确定所述第一字符特征的任意一个特征向量关于所述包含位置信息的图像特征的权重值，包括：

将该特征向量进行第二卷积处理，得到一个1×1×d的第二张量；

扩充所述第二张量的高度和宽度，得到H×W×d的第三张量，所述第三张量与所述第一张量的高度、宽度和深度均一致；

将所述第三张量与所述第一张量相加，并采用激活函数进行处理，得到H×W×d的第四张量；

对所述第四张量进行第三卷积处理，得到H×W×1的第五张量；

对所述第五张量进行二维softmax处理，得到该特征向量关于所述包含位置信息的图像特征的权重值。

8.一种文本识别模型训练方法，其特征在于，文本识别模型包括：编码模块和解码模块；所述编码模块用于：通过稠密卷积神经网络提取待识别图片的图像特征，在所述图像特征中添加二维位置编码信息，生成包含位置信息的图像特征；所述解码模块包括包含二维注意力机制的transformer解码层，所述包含二维注意力机制的transformer解码层用于对所述包含位置信息的图像特征进行解码处理，得到识别结果；

所述方法包括：

通过所述训练集对文本识别模型进行训练。

9.一种文本识别***，其特征在于，包括：

10.一种文本识别设备，其特征在于，包括：

处理器，存储器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序；

其中，所述处理器运行所述计算机程序时实现如权利要求1至8中任一项权利要求所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被执行如权利要求1至8中任一项权利要求所述的方法。