CN110689012A

CN110689012A - 一种端到端的自然场景文本识别方法及***

Info

Publication number: CN110689012A
Application number: CN201910947834.6A
Authority: CN
Inventors: 张雨柔; 李锐; 于治楼
Original assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Current assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-01-14

Abstract

本发明公开了一种端到端的自然场景文本识别方法及***，属于计算机视觉中的目标检测和识别领域，本发明要解决的技术问题为如何能够同时完成文本检测和文本识别的任务，避免中间过程的特征重计算和图片裁剪，提高整体的计算效率及文本识别的准确性，技术方案为：该方法是同时完成文本检测和文本识别任务，将文本检测和文本识别任务融合到一个统一的框架中，通过前向计算完成整个任务；同时在文本识别中结合注意力机制，为文本识别提高空间位置信息，对文本的外观具备较强的鲁棒性；步骤如下：S1、选择数据集；S2、搭建网络框架；S3、设计损失函数；S4、训练网络。该***包括数据集选择单元、网络框架搭建单元、损失函数设计单元及网络训练单元。

Description

一种端到端的自然场景文本识别方法及***

技术领域

本发明涉及计算机视觉中的目标检测和识别领域，具体地说是一种端到端的自然场景文本识别方法及***。

背景技术

自然场景中的文本识别对于许多图像理解任务具有重要的意义，该技术能够自动地获取自然场景中的文本信息，可以被应用很多领域，比如帮助视力障碍的人士获取所处环境中信息，自动驾驶汽车获取路上的指示信息等。一般的自然场景中的文本识别主要是分为两个阶段，一是文本检测，首先利用检测技术定位图片中文本所在的位置，然后框出文本，裁剪出文本区域；二是文本识别，对通过文本检测方法所裁剪好的文本区域进行识别，即识别中文本框中的所包含的文本。现在很多的关注点主要在两个子任务上，文本检测和文本识别任务也分别取得了很好的效果，很少方法设计一个端到端的方法同时完成这两个任务，但这两个实际上是高度相关并且相互补充的，一方面图像的特征可以被检测和识别两个任务共享，这样可以减少计算消耗，另一方面，采用多任务优化方法可以提升特征表示的能力并且有利于两个子任务。

现有的技术存在如下劣势：

(1)、现有的方法一般是将文本检测和识别任务分开，导致整体的效果不是很理想；

(2)、一些方法只能识别规则的文本，对于不规则的文本识别效果较差；

(3)、一些方一定是将ROI重采用为同样大小的特征，这对于不同尺寸的ROI来说是不合理的，造成一定程度上信息的损失。

综上所述，如何能够同时完成文本检测和文本识别的任务，避免中间过程的特征重计算和图片裁剪，提高整体的计算效率及文本识别的准确性是目前现有技术中存在的技术问题。

专利号号为CN110135419A的专利文献公开了一种自然场景下端到端文本识别方法，包括用自然场景图片及真实标记训练框架以及对自然场景图片上文本区域及内容进行预测：训练阶段中，收集包含文本的自然场景下的图片、构建包含文本位置与内容的数据集、定义标准的端到端文本识别框架、使用真实检测标记训练检测部分、使用近邻相关边界优化算法优化检测区域、使用优化后的检测区域输入进识别部分中以训练识别部分参数、保存训练好的框架参数至数据平台；测试阶段中，读取训练好的框架参数、输入测试图像、检测阶段检测文本区域、采用基于近邻相关性边界优化算法优化检测区域、将优化后的检测区域送入识别部分进行文本识别。但是该技术方案不能同时完成文本检测和文本识别的任务，避免中间过程的特征重计算和图片裁剪，提高整体的计算效率及文本识别的准确性。

专利号为CN109543681A的专利文献公开了一种基于注意力机制的自然场景下文字识别方法，包括如下步骤：制作数据集；使用由卷积神经网络，注意力机制，循环神经网络构建的网络对图片进行端到端的训练；采用反向传播和梯度下降算法对模型进行优化；利用得到的模型实现对图片文字进行端到端的识别。但是该技术方案不能同时完成文本检测和文本识别的任务，避免中间过程的特征重计算和图片裁剪，提高整体的计算效率及文本识别的准确性。

发明内容

本发明的技术任务是提供一种端到端的自然场景文本识别方法及***，来解决如何能够同时完成文本检测和文本识别的任务，避免中间过程的特征重计算和图片裁剪，提高整体的计算效率及文本识别的准确性的问题。

本发明的技术任务是按以下方式实现的，一种端到端的自然场景文本识别方法，该方法是同时完成文本检测和文本识别任务，将文本检测和文本识别任务融合到一个统一的框架中，通过前向计算完成整个任务，避免中间过程中的特征重计算及图片裁剪流程，提高整体的计算效率；同时在文本识别中结合注意力机制，为文本识别提高空间位置信息，对文本的外观具备较强的鲁棒性，确保能够识别任意形状的文本；具体步骤如下：

S1、选择数据集：采用ICDAR2013、ICDAR2015及COCO-Text的文本检测和文本识别数据集进行网络的训练和测试；

S2、搭建网络框架：将文本检测和文本识别并行处理；

S3、设计损失函数：包括检测网络的分类和回归损失及识别网络的交叉熵损失函数；

S4、训练网络：在网络训练时采用经典的梯度下降和反向传播算法，对检测网络和识别网络进行网络参数的更新。

作为优选，所述步骤S2中搭建网络框架的步骤如下：

S201、提取图像特征；

S202、生成候选区域；

S203、提取候选区域特征；

S204、文本检测；

S205、文本识别。

更优地，所述步骤S201中提取图像特征具体如下：

对原始图像进行卷积计算提取高层次的图像特征信息，具体采用VGGNet及ResNet特征提取能力较强的深度卷积网络，去除全连接层，采用最后一层的卷积特征图作为该图像的特征表示。

更优地，所述步骤S202中生成候选区域的具体步骤如下：

S20201、利用的图像特征图丰富的语义信息和位置信息生成候选区域；

S20202、同时考虑到文本实例宽高比的多样性且一般宽度大于高度，设置anchor的面积大小取值为{16x16,32x32,64X64,128x128,256x256},比例大小设置为{0.2,0.3,0.5,1.0},一共两种不同的anchor足以覆盖各种尺度的文本实例；

S20203、对于候选区域采用与Faster RCNN相似的结构，在3X3的卷积层后采用两个1X1的子卷积层分别用于进行文本/非文本的分类和bounding box的回归。

更优地，所述步骤S203中提取候选区域特征的具体步骤如下：

S20301、对步骤S202中生成的候选区域进行ROI Align操作得到ROI proposal，为后续的检测和识别提供特征信息，一般的方法是将不同尺寸的ROI重采样为固定大小，这必然会造成一定程度的信息损失；

S20302、根据候选区域原始的宽高比进行重采样，避免对不用尺寸的候选区域一概而论；

S20303、最终输出HxWxD的特征图V；其中，H表示高度，H的取值采用固定值；W表示宽度，W的取值采用可变；D表示特征图的通道数。

更优地，所述步骤S204中文本检测是分类步骤S20301中ROI proposal是文本还是非文本，并对是文本的proposal进行文本框位置信息进行回归计算；具体步骤如下：

S20401、将不定长的区域特征V按照列进行划分，将列信息分别输入到一个LSTM网络(长短期记忆网络)中进行编码操作，最终输出h作为整体信息；

S20402、获取整体信息h，通过LSTM网络编码和多层连接网络进行分类和回归；多层连接网络包括两层全连接网络和两个softmax层；

S20403、最终获取关于该ROI文本/非文本和边框位置信息。

更优地，所述步骤S205中文本识别是识别步骤S203中提出的ROI中的文本信息，采用基于注意力机制的encoder-decoder主体框架；具体步骤如下：

S20501、采用一个双层LSTM网络对ROI的特征图V进行信息的编码，获取关于ROI的固定长度的整体信息h；

S20502、将整体信息h输入到另一个双层LSTM网络中进行信息的解码操作，该LSTM结合注意力机制在每一步输出一个文本字符，直到遇到结束符，最终获取该ROI中所包含的全部文本信息；具体如下：

S2050201、注意力机制是结合特征V和decoder LSTM隐藏层的状态信息计算特征V中每一个位置信息的权重；

S2050202、获取特征V的加权和，再结合隐藏层的状态获取当前时间的字符输出，通过注意力机制对文本进行准确的定位，提高对文本外形的鲁棒性。

作为优选，所述步骤S3中设计损失函数的具体步骤如下：

S301、检测网络的损失函数包括两个部分：

①、proposal的分类损失，即预测该proposal是文本还是非文本区域,分类损失利用预测的分类值和真实的预测值计算交叉熵损失；

②、proposal的边框回归损失，即计算预测的边框的四个点的坐标值和真实的四个点的坐标值的差值作为损失函数，具体采用平方差；

S302、识别网络的损失函数则是对每一步生成的文本信息计算其与真实文本信息之间的交叉熵值。

一种端到端的自然场景文本识别***，该***包括，

数据集选择单元，用于采用ICDAR2013、ICDAR2015及COCO-Text的文本检测和文本识别数据集进行网络的训练和测试；

网络框架搭建单元，用于搭建将文本检测和文本识别任务融合在一起的框架；

损失函数设计单元，用于建立包括检测网络的分类和回归损失及识别网络的交叉熵损失函数；

网络训练单元，用于训练网络，并在在网络训练时采用经典的梯度下降和反向传播算法，对检测网络和识别网络进行网络参数的更新。

作为优选，所述网络框架搭建单元包括，

图像特征提取模块，用于采用VGGNet、ResNet101的网络进行特征的提取；

候选区域生成模块，用于利用的图像特征图丰富的语义信息和位置信息生成候选区域，

候选区域特征提取模块，用于对生成的候选区域进行ROI Align操作，为后续的检测和识别提供特征信息；

文本检测模块，用于分类ROI proposal是文本还是非文本，并对是文本的proposal进行文本框位置信息进行回归计算；文本检测模块包括用于编码的LSTM网络编码器和多层连接网络，多层连接网络包括两层全连接网络和两个softmax层，两层全连接网络用于编码，两个softmax层用于再次的分类和回归；

文本识别模块，用于识别ROI中的文本信息，通过识别网络每一个时间步输出一个文本字符；文本识别模块包括一个用于编码的双层LSTM网络编码器和用于解码一个双层LSTM网络解码器和注意力机制的encoder-decoder主体框架。

本发明的端到端的自然场景文本识别方法及***具有以下优点：

(一)、本发明可以同时完成文本检测和文本识别任务，将这两个子任务融合到一个统一的框架中，通过一个简单的前向计算完成整个任务，避免了中间过程中的特征重计算、图片裁剪等流程，提高了整体的计算效率；同时在识别中结合了注意力机制，为文本识别提高空间位置信息，对文本的外观具备较强的鲁棒性，使该方法可以识别任意形状的文本；

(二)、将文本检测和识别融合在一个整体的框架中，提高了效率和整个模型的性能；

(三)、本发明应用了注意力机制，能够准确地定位文本的位置，对文本的外观具有较强的鲁棒性，可以识别任意形状的文本，提高了识别的准确率；

(四)、本发明根据ROI原始的宽高比进行ROI Align，避免了信息的损失；

(五)、本发明采用多任务优化策略，有利于整体性能的提升，使用目前通用的开源框架和语言，灵活使用现有技术，扬长避短，采用本发买那个获取的结果较为稳定可靠；

(六)、现有技术中一般的非端到端的方法是将文本区域的识别和检测分为两个步骤，对于一张输入图片，首先利用检测网络标出文本区域的边框，基于文本框提取出文本区域，然后利用识别网络对文本进行识别，在训练时，检测网络和识别网络是分开进行；而本发明中的检测网络和识别网络是以端到端的方式进行训练和预测的，即将一张图片输入模型可以同时获取文本框和文本识别结果，采用本发明中的端到端的方式，检测网络和识别网络共享上一步提取的文本候选区域的特征，减少了计算，提高了效率。

附图说明

下面结合附图对本发明进一步说明。

附图1为端到端的自然场景文本识别方法的流程框图；

附图2为搭建网络框架的流程框图；

附图3为端到端的自然场景文本识别的结构框图；

附图4为网络框架搭建单元的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种端到端的自然场景文本识别方法及***作以下详细地说明。

实施例1：

本发明的端到端的自然场景文本识别方法,该方法是同时完成文本检测和文本识别任务，将文本检测和文本识别任务融合到一个统一的框架中，通过前向计算完成整个任务，避免中间过程中的特征重计算及图片裁剪流程，提高整体的计算效率；同时在文本识别中结合注意力机制，为文本识别提高空间位置信息，对文本的外观具备较强的鲁棒性，确保能够识别任意形状的文本；如附图1所示，具体步骤如下：

S2、搭建网络框架：将文本检测和文本识别并行处理；如附图2所示，具体步骤如下：

S201、提取图像特征；具体如下：

S202、生成候选区域；具体步骤如下：

S203、提取候选区域特征；具体步骤如下：

S204、文本检测；文本检测是分类步骤S20301中ROI proposal是文本还是非文本，并对是文本的proposal进行文本框位置信息进行回归计算；具体步骤如下：

S20403、最终获取关于该ROI文本/非文本和边框位置信息。

S205、文本识别；文本识别是识别步骤S203中提出的ROI中的文本信息，采用基于注意力机制的encoder-decoder主体框架；具体步骤如下：

S3、设计损失函数：包括检测网络的分类和回归损失及识别网络的交叉熵损失函数；具体步骤如下：

S301、检测网络的损失函数包括两个部分：

实施例2：

如附图3所示，本发明的端到端的自然场景文本识别***，该***包括，

网络框架搭建单元，用于搭建将文本检测和文本识别任务融合在一起的框架；如附图4所示，网络框架搭建单元包括，

网络框架具体工作过程如下：图像特征提取模块可以采用VGGNet、ResNet101等网络进行特征的提取，后接Text Proposal Network，设置不同尺寸的anchor，之间连接3x3的卷积层和两个1x1的子卷积模块进行文本区域的分类和边框的回归，在Text ProposalNetwork后设置不定长的ROI Align操作，获取关于ROI的特征V用于后序的文本检测和文本识别。文本检测模块和文本识别模块是两个并行的模块，共享上一步的特征V，对于文本检测模块主要包括一个用于编码的LSTM网络编码器、两层全连接网络，后连接两个softmax层用于再次的分类和回归；对于文本识别模块主要包括一个双层LSTM网络编码器用于编码，一个双层LSTM网络解码器和attention用于解码，每一个时间步输出一个文本字符。

损失函数设计单元，用于建立包括检测网络的分类和回归损失及识别网络的交叉熵损失函数；文本检测模块的损失函数主要包括两个部分，一是proposal的分类损失，即预测该proposal是文本还是非文本区域,分类损失利用预测的分类值和真实的预测值计算交叉熵损失；二是proposal的边框回归损失，即计算预测的边框的四个点的坐标值和真实的四个点的坐标值的差值作为损失函数，具体可以采用平方差。文本识别模块的损失函数则是对每一步生成的文本信息计算其与真实文本信息之间的交叉熵值。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种端到端的自然场景文本识别方法，其特征在于，该方法是同时完成文本检测和文本识别任务，将文本检测和文本识别任务融合到一个统一的框架中，通过前向计算完成整个任务；同时在文本识别中结合注意力机制，为文本识别提高空间位置信息，对文本的外观具备较强的鲁棒性，确保能够识别任意形状的文本；具体步骤如下：

S2、搭建网络框架：将文本检测和文本识别并行处理；

2.根据权利要求1所述的端到端的自然场景文本识别方法，其特征在于，所述步骤S2中搭建网络框架的步骤如下：

S201、提取图像特征；

S202、生成候选区域；

S203、提取候选区域特征；

S204、文本检测；

S205、文本识别。

3.根据权利要求2所述的端到端的自然场景文本识别方法，其特征在于，所述步骤S201中提取图像特征具体如下：

4.根据权利要求2或3所述的端到端的自然场景文本识别方法，其特征在于，所述步骤S202中生成候选区域的具体步骤如下：

S20202、设置anchor的面积大小取值为{16x16,32x32,64X64,128x128,256x256},比例大小设置为{0.2,0.3,0.5,1.0},一共两种不同的anchor足以覆盖各种尺度的文本实例；

S20203、对于候选区域，在3X3的卷积层后采用两个1X1的子卷积层分别用于进行文本/非文本的分类和bounding box的回归。

5.根据权利要求2或3所述的端到端的自然场景文本识别方法，其特征在于，所述步骤S203中提取候选区域特征的具体步骤如下：

S20301、对步骤S202中生成的候选区域进行ROI Align操作得到ROI proposal，为后续的检测和识别提供特征信息；

S20302、根据候选区域原始的宽高比进行重采样；

6.根据权利要求2或3所述的端到端的自然场景文本识别方法，其特征在于，所述步骤S204中文本检测是分类步骤S20301中ROIproposal是文本还是非文本，并对是文本的proposal进行文本框位置信息进行回归计算；具体步骤如下：

S20401、将不定长的区域特征V按照列进行划分，将列信息分别输入到一个LSTM网络中进行编码操作，最终输出h作为整体信息；

S20403、最终获取关于该ROI文本/非文本和边框位置信息。

7.根据权利要求6所述的端到端的自然场景文本识别方法，其特征在于，所述步骤S205中文本识别是识别步骤S203中提出的ROI中的文本信息，采用基于注意力机制的encoder-decoder主体框架；具体步骤如下：

8.根据权利要求1所述的端到端的自然场景文本识别方法，其特征在于，所述步骤S3中设计损失函数的具体步骤如下：

S301、检测网络的损失函数包括两个部分：

9.一种端到端的自然场景文本识别***，其特征在于，该***包括，

10.根据权利要求9所述的端到端的自然场景文本识别***，其特征在于，所述网络框架搭建单元包括，