CN114202765A

CN114202765A - 一种图像文本识别方法和存储介质

Info

Publication number: CN114202765A
Application number: CN202111330318.2A
Authority: CN
Inventors: 陈江海; 梁懿; 苏江文; 卢伟龙
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-03-18

Abstract

本发明涉及的图像文本识别方法和存储介质，该方法包括以下步骤：S1：接收第一图像文本信息；图像文本信息包括第一文本信息和背景图像信息；S2：提取第一文本信息和背景图像信息，确定第一文本信息对应的参数信息；S3：从文字数据库中获取一个或多个的文字信息，采用第一文本信息对应的参数信息对所获取的文字信息进行处理，得到第二文本信息；S4：将第二文本信息和背景图像信息合成为第二图像文本信息，并将第二图像文本信息输入文本检测模型进行训练。上述方案可以有效扩充检测模型的训练数据量，进而提升了训练好的模型对文本检测的准确性。

Description

一种图像文本识别方法和存储介质

技术领域

本发明涉及图像识别领域，特别涉及一种图像文本识别方法和存储介质。

背景技术

图像文本识别，即OCR(Optical Character Recognition,光学字符识别)，是指对图像中的文字进行识别，并以文本的形式返回的新兴技术。OCR识别技术历经多个阶段的发展，从最初的只能识别指定字体的印刷体英文发展到目前的可以识别包括手写体在内的多个国家文字。

近年来，伴随着人工智能领域的大力发展，针对数字化加工扫描件、拍照图像等文件的文本内容识别的需求持续增加。而图像文本识别技术已成为当前非结构化文件智能处理的必要环节。并且在众多业务领域中，都发挥着至关重要的作用，如营销档案识别、审计文档识别、工程文件识别、电子证照识别等。

目前，针对通用的图像文本识别已存在的一定的方法，但均存识别准确率较低、识别速度慢、弯曲文字无法识别、不支持多语言混合识别等缺点。

例如申请号为【CN201911221023.4】，标题为《一种基于剪枝深度模型用于自然场景图像文本识别方法》的专利申请中，提出了一种图像文本识别方法，其通过Darknet进行特征提取，并结合YoloV3进行目标检测，识别出图像中文本区域的bbox，而后进行识别。该方案的存在着以下缺点：1.采用Darknet作为backbone会导致整体识别速度较慢；2、YoloV3一般用于目标检测场景，此处用于文本检测准确率较为一般。综上，该方案存在识别速度慢、识别准确率较低等明显的缺点。

再比如申请号为【CN202110584533.9】，标题为《光学字符快速识别方法及***》的专利申请中，提出了一种字符快速识别方法，其基本步骤为：(1)通过DB算法进行文本检测；(2)采用CRNN算法进行文本识别。该方案代表着目前OCR识别的一般方法，通过DB算法进行检测，并采用CRNN算法进行识别。该方案存在着以下缺点：1、DB算法采用的是单行文字检测，对于多行文字检测需采用多个检测框分别进行识别，且对于超长的文本(如：文字长度超过25个字)识别率较低，需配合其他措施(如滑动窗口)以提升准确率；2、CRNN算法虽预测速度稍快，但其识别准确率明显低于SRN、NRTR等算法。

发明内容

为此，需要提供一种图像文本识别的技术方案，用以解决现有的图像文本识别方法存在的识别率低、速度慢等问题。

为实现上述目的，在第一方面，本申请提供了一种图像文本识别方法，方法包括以下步骤：

S1：接收第一图像文本信息；图像文本信息包括第一文本信息和背景图像信息；

S2：提取第一文本信息和背景图像信息，确定第一文本信息对应的参数信息；

S3：从文字数据库中获取一个或多个的文字信息，采用第一文本信息对应的参数信息对所获取的文字信息进行处理，得到第二文本信息；

S4：将第二文本信息和背景图像信息合成为第二图像文本信息，并将第二图像文本信息输入文本检测模型进行训练。

作为一种可选的实施例，步骤S3包括：

从文字数据库中随机获取一个或多个的文字信息，重复多次，采用第一文本信息对应的参数信息对所获取的多个文字信息进行处理，得到多个第二文本信息。

作为一种可选的实施例，参数信息包括字体、字号、字形、颜色、排版方式、修饰效果中的任一项或多项。

作为一种可选的实施例，第一图像文本信息包括***数据、车票、营业执照、电子行程单、身份证、社保卡、银行卡中的任一项或多项。

作为一种可选的实施例，文本检测模型为ResNet50_vd和SAST算法检测模型；具体包括：采用ResNet50_vd作为网络结构，并将网络结构中的全连接层以FCN全卷积层替代。

作为一种可选的实施例，文本检测模型的损失函数如下：L_total＝λ₁L_tcl+λ₂L_tco+λ₃L_tvo+λ₄L_tbo；

其中，λ1、λ2、λ3和λ4为权重值，tcl、tco、tvo、tvo表示四个特征图；tcl表示第一文本信息所在的文本区域；tco、tvo、tvo表示相较于tcl的像素偏移量；具体包括：tco特征图是相对于tcl特征图的文本像素中心偏移量；tvo特征图是相对于tvl特征图的文本四个边框顶点的像素偏移量；tbo是相对于tcl特征图上下边界的偏移量。

作为一种可选的实施例，λ1＝1.0；λ2＝0.5；λ3＝0.5；λ4＝1.0。

作为一种可选的实施例，步骤S4之后包括步骤S5：

将文本检测模型的输出结果输入到文本识别模型进行训练；文本检测模型为Resnet50_vd_fpn和SRN算法识别模型。

作为一种可选的实施例，方法还包括：

对训练好的模型进行优化，具体包括：依次对训练好的模型进行蒸馏、量化、裁剪处理，从而得到最终模型。

在第二方面，本申请还提供了一种存储介质，该存储介质存储有计算机程序，计算机程序被处理器执行时实现如本申请第一方面的方法步骤。

区别于现有技术，本发明涉及的图像文本识别方法和存储介质，该方法包括以下步骤：S1：接收第一图像文本信息；图像文本信息包括第一文本信息和背景图像信息；S2：提取第一文本信息和背景图像信息，确定第一文本信息对应的参数信息；S3：从文字数据库中获取一个或多个的文字信息，采用第一文本信息对应的参数信息对所获取的文字信息进行处理，得到第二文本信息；S4：将第二文本信息和背景图像信息合成为第二图像文本信息，并将第二图像文本信息输入文本检测模型进行训练。上述方案根据第一文本信息进行拓展得到第二文本信息，并将第二文本信息和背景图像信息合成为第二图像文本信息后传输至文本检测模型进行训练，有效提升了模型的训练数据量，进而提升了训练好的模型对文本检测的准确性。

附图说明

图1为本发明一实施例涉及的图像文本识别方法的流程图；

图2为本发明另一实施例涉及的图像文本识别方法的流程图；

图3为本发明另一实施例涉及的图像文本识别方法的流程图；

图4为本发明一实施例涉及的模型训练的流程图；

图5为本发明一实施例涉及的模型优化的流程图；

图6为本发明一实施例涉及的预测识别的流程图；

图7为本发明一实施例涉及的SAST算法的原理图；

图8为本发明一实施例涉及的GSRM模型结构的示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为本发明一实施例涉及的图像文本识别方法的流程图。该方法包括以下步骤：S1：接收第一图像文本信息；图像文本信息包括第一文本信息和背景图像信息；S2：提取第一文本信息和背景图像信息，确定第一文本信息对应的参数信息；S3：从文字数据库中获取一个或多个的文字信息，采用第一文本信息对应的参数信息对所获取的文字信息进行处理，得到第二文本信息；S4：将第二文本信息和背景图像信息合成为第二图像文本信息，并将第二图像文本信息输入文本检测模型进行训练。

作为一种可选的实施例，参数信息包括字体、字号、字形、颜色、排版方式、修饰效果中的任一项或多项。排版方式包括多个字体之间的间距、行距等，修饰效果可以是在文字的基础上添加的一些效果，如阴影等。

作为一种可选的实施例，第一图像文本信息包括***数据、车票、营业执照、电子行程单、身份证、社保卡、银行卡中的任一项或多项。当然，在另一些实施例中，第一图像文本信息还可以是其他包含有文字的图像数据。

在本申请中，文字数据库是指包含诸多文字的字典数据库，文本信息是指包含有一个或多个文字的数据信息，背景图像信息是指文本信息在图像上的位置对应的背景信息。通常，图像上文本信息的检测是先检测出文本信息所在的文本框，而后再识别出文本框中的文字，那么本申请的背景图像信息可以是文本框中扣除掉文字信息后剩下的背景信息。

在上述方案中，通过从文字数据库中获取一个或多个的文字信息，采用第一文本信息对应的参数信息对所获取的文字信息进行处理，得到第二文本信息，可以实现对训练数据的扩充。同时，由于第二文本信息的参数信息与第一文本信息参数信息完全一致，当其被输入到文本检测模型进行训练后，可以极大增强文本检测模型对于这一参数信息类型的文本信息的识别速度，提升文本识别的准确性，效果显著。

如图2所示，作为一种可选的实施例，步骤S3包括：S31从文字数据库中随机获取一个或多个的文字信息，重复多次，采用第一文本信息对应的参数信息对所获取的多个文字信息进行处理，得到多个第二文本信息。步骤S4包括:S41将各个第二文本信息分别与背景图像信息进行合，得到多个第二图像文本信息，并将得到的多个第二图像文本信息输入文本检测模型进行训练。由于生成第二文本信息所需的文字信息是从文字数据库中随机获取的，且每一次获取的文字又与第一图像文本信息中对应的背景图像信息进行了合成，从而可以得到多个与第一文本信息风格一致的第二文本信息，又由于两者采用相似的背景，因而可以极大增强训练模型对于这一类型的文字信息的快速识别。

在本申请中，第二文本信息中所包含的文字的字数可以与第一文本信息所包含的文字的字数相同，也可以不同。优选的，在生成第二文本信息时，可以从文字数据库中随机获取与第一文本信息中所包含的文字个数相同的文字。

作为一种可选的实施例，在本申请中，文本检测模型为ResNet50_vd和SAST算法检测模型；具体包括：采用ResNet50_vd作为网络结构，并将网络结构中的全连接层以FCN全卷积层替代。

在本申请中，对于文本检测模型可以采用ResNet50_vd(backbone)和SAST算法相结合的方式作为本申请的文本检测模型对应的算法，通过多个训练集上验证表明，采用ResNet50_vd和SAST算法相结合作为文本检测模型，其效果明显优于常见的以Resnet34_vd、MobileNetV3等作为网络结构；结合DB、EAST等作为算法的文本识别模型。

SAST主要原理如图7所示，具体包括：采用ResNet50_vd作为网络的网络结构，将最后的全连接层以FCN全卷积层替代，由此输出与原图大小相同的语义分割结果。并且不同层次的特征图会以FPN算法进行多次(如三次)特征点融合，使得特征网络可以包含更多大小不一的物体的信息。

优选的，SAST网络的输出分为四个部分，分别为tcl、tco、tvo、tvo特征图。文本检测模型的损失函数如下：L_total＝λ₁L_tcl+λ₂L_tco+λ₃L_tvo+λ₄L_tbo；其中，λ1、λ2、λ3和λ4为权重值，tcl、tco、tvo、tvo表示四个特征图；tcl表示第一文本信息所在的文本区域；tco、tvo、tvo表示相较于tcl的像素偏移量；具体包括：tco特征图是相对于tcl特征图的文本像素中心偏移量；tvo特征图是相对于tvl特征图的文本四个边框顶点的像素偏移量；tbo是相对于tcl特征图上下边界的偏移量。

优选的，λ1＝1.0；λ2＝0.5；λ3＝0.5；λ4＝1.0。在本申请中，λ1、λ2、λ3和λ4是用来平衡四个任务的,即使得其在这个模型中重要程度相同，因此我们设置了{1.0,0.5,0.5,1.0}来让四个损失梯度值在反向传播中作用程度均等。

如图3所示，步骤S4之后包括步骤S5：将文本检测模型的输出结果输入到文本识别模型进行训练；文本检测模型为Resnet50_vd_fpn和SRN算法识别模型。

在本申请中，通过采用Resnet50_vd_fpn(backbone)和SRN算法作为文本识别的网络结构及算法，并在多个公开数据集上进行验证，其效果明显优于常见的以Resnet34_vd、MobileNetV3等作为网络结构，结合CRNN、Rosetta、StarNet、RARE等作为算法的文本识别模型。

SRN主要步骤一般如下：先利用字符读写顺序对序列特征进行重新编码获得初步识别结果，再将初步识别结果重新融入到序列特征中，相当于先从整体层面判断是否正确，而后再决定是否需要进行微调，然后再次获得识别结果。SRN一般由以下四个部分组成：主干网络、并行视觉注意模块(PVAM)、全局语义推理模块(GSRM)和视觉语义融合解码器(VSFD)。本发明采用Resnet50_vd_fpn作为SRN的主干网络。PVAM用于生成N个对齐的一维特征G，其中每个特征对应于文本中的一个字符并捕获对齐的视觉信息。然后将这N个一维特征G送入GSRM中，以捕获语义信息S。最后，VSFD将对齐的视觉特征G和语义信息S融合在一起，以预测N个字符。GSRM模型结构如图8所示。

当文本检测和文本识别完成后，本申请还针对完成文本识别的训练模型，分别采用每个随机取样中剩余的数据进行评估，得到每个模型的模型评估数据，而后不断调整模型超参，重复文本检测/文本识别步骤，直到获得最佳评估指标，并固化此超参；并针对评估指标最高的模型集合进行保存，作为初步的可用模型。

具体的，如图4所示，本申请通过以下步骤得到：首先进行步骤S41训练数据准备；而后进行步骤S42数据扩充，具体的，数据扩充的方式可以根据如图1所示的方法进行；而后进行步骤S43文本检测/文本识别模型训练；而后进行步骤S44模型评估；而后进行步骤S45原始模型发布。经过步骤S41-S45，可以得到初始的训练模型。

作为一种可选的实施例，在得到初始的训练模型后，可以对训练好的初始模型进行优化，具体包括：依次对训练好的模型进行蒸馏、量化、裁剪处理，从而得到最终模型。

如图5所示，模型优化方法具体如下：

首先进入步骤S51初始模型输入。具体是将上次训练后得到的初始文本检测模型、文本识别模块作为模型优化步骤的输入模型。

而后进入步骤S52模型蒸馏。在本申请中，蒸馏模型采用的是迁移学习，通过预先训练好的复杂模型(Teacher model)的输出作为监督信号去训练另外一个简单的网络(student model)。模型蒸馏的目标是让student模型学习到teacher模型的泛化能力，其最终结果会比单纯拟合训练数据的student模型要好。同时，student model采用的是轻量级的backbone，可以大幅度降低模型文件的体积，提升预测的速度。在本申请中，将通过前述方式训练出的模型作为Teacher model，以MobileNetV3作为student model的backbone，以softmax_with_cross_entropy_loss作为蒸馏策略loss函数。

而后进入步骤S53模型量化。模型量化的目的通过量化较少现有卷积神经网络参数量大、计算量大、内存占用多的问题，达到缩减神经网络参数、提升速度、降低内存的作用，其最终目的是减少模型文件体积、减少内存占用、提升预测速度。在本申请中，采用BNN算法进行模型量化，在神经网络前向和反向训练中激活值采用二值权重替代浮点权重，模型量化公式具体如下：

其中，xⁿ为用8bit表示方法第n位的取值。

而后进入步骤S54模型裁剪。模型裁剪是通过已训练好的模型参数的敏感度分析，从而判断参数的重要性，并将不重要的connection或者filter进行裁剪来减少模型的冗余，从而减少模型文件体积、提升预测速度。由于大部分的神经元的激活都是趋向于零的，而这些激活为0的神经元是冗余的，将它们剔除可以大大降低模型的大小和运算量，而不会对模型的性能造成影响，通过变量APoZ(Average Percentage of Zeros)来衡量每一个filter中激活为0的值的数量，来作为评价一个filter是否重要的标准。APoZ定义如下：

而后进入步骤S55最终模型发布。初始模型在经过步骤S52-S54进行处理后，可以得到最终可用的文本检测模型、文本识别模型。

当得到最终的模型之后，可以进行图像的识别预测。如图6所示，包括以下步骤：

首先进入步骤S61输入待识别图像。待识别图像尤为有包含有文本信息的图像。

而后进入步骤S62根据图像方向进行分类调整。这一步骤可以通过图像方向分类器来实现，图像方向分类器用于识别输入的图像是否存在旋转角度，如：90度、180度、270度，如存在旋转角度，则自动进行纠正修复。大量实践证明，将经过旋转的图像直接输入模型，其识别效果将大为降低，这是由于前期模型训练数据收集时，未包含此类数据，且将此类数据加入数据将导致训练数据扩大4倍，影响整体训练时长。通过对图像方向优选进行判断调整，可以有效提升最终文本识别的准确性。优选的，在本申请中，采用CNN的图像分类算法进行图像分类。

而后进入步骤S63文本检测。具体是将图像送入文本检测模型，返回文本信息所在区域集合，即返回前文提及的文本框信息。

而后进入步骤S64文本识别。具体是将文本框送入文本识别模型，返回文本框中的文字信息，即前文提及的从文本框中提取出文字信息。

而后进入步骤S65结果输出。输出的文本识别结果可以通过显示单元进行显示。

优选的，所述处理器为具有数据处理功能的电子元件，如中央处理器(CentralProcessing Unit，简称CPU)、数字信号处理器(Digital Signal Processor，简称DSP)或者***芯片(System on Chip，简称SoC)。

优选的，所述存储介质为具有数据存储功能的电子元件，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒等。

本发明提出一种基于深度学习的图像文本识别算法，通过构建图像分类模型、文本块检测模型、文本识别模型，形成端到端的文本检测、识别能力，并且通过自定义的图像增强方式，扩增训练数据，相比于现有技术的文本识别方式具有识别率高、识别速度快的优点。此外，本发明还通过一系列的模型优化策略，大力提升识别准确率、以及识别速度。

本申请的方法具有以下三个优点：

(1)采用二阶段识别法、基于深度学习技术，结合独特的数据增强方案，大力提升文本检测、文本识别准确率。

现有的深度学习二阶段图像文本识别法中，数据往往成为制约模型最终指标的重要影响因素。这是由于训练数据收集难度大、标注过程极为耗时。而常规的图像数据增强方案中，如：随机调整亮度、随机调整对比度、高斯模糊等手段在图像文本识别任务中无法起到提升模型指标的作用。因此，本方案提出一种新型的数据增强方案。通过提取已有的训练数据中的文本前景风格，以及图片背景进行抽取。并采用新的随机文本，对文本前景风格及图片背景进行融合，生成新的训练数据。大量实际验证表明，此种方式下的数据增强，可普遍提升最终识别准确率10％以上。

(2)通过一系列模型压缩算法，降低模型体积，提升预测速度。

为追求高准确率，现有技术往往采用ResNet50或ResNet101等层数较大的残差网络作为backnone训练得出的文本检测模型、文本识别模型，这一方式存在模型文件体积较大、预测速度较慢的问题。为了在尽量保障模型准确率的基础上，提升预测速度，降低模型文件体积，本发明采取多种压缩方法，大幅度提升预测速度、降低模型体积。如：L1NormFilterPruner(l1-norm统计量)、Embedding量化等。

(3)采用模型蒸馏算法，提升模型泛化能力，最终提升模型准确率。

深度学习模型仅通过拟合训练数据是无法在后续实际应用中取得较好的效果，只有通过学习如何泛化到新的数据，才是最佳应用(即：泛化能力)。通过模型蒸馏的目标是让student模型(新模型)学习到teacher模型(原始模型或模型ensemble)的泛化能力，得到的结果会比单纯拟合训练数据的student要好。本发明通过以ResNet101作为蒸馏训练的teacher网络,对训练后对模型进行蒸馏，可以有效提升模型泛化能力，最终提升模型准确率。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种图像文本识别方法，其特征在于，所述方法包括以下步骤：

S1：接收第一图像文本信息；所述图像文本信息包括第一文本信息和背景图像信息；

S2：提取所述第一文本信息和所述背景图像信息，确定所述第一文本信息对应的参数信息；

S3：从文字数据库中获取一个或多个的文字信息，采用所述第一文本信息对应的参数信息对所获取的文字信息进行处理，得到第二文本信息；

S4：将所述第二文本信息和所述背景图像信息合成为第二图像文本信息，并将所述第二图像文本信息输入文本检测模型进行训练。

2.如权利要求1所述的图像文本识别方法，其特征在于，步骤S3包括：

从文字数据库中随机获取一个或多个的文字信息，重复多次，采用所述第一文本信息对应的参数信息对所获取的多个文字信息进行处理，得到多个第二文本信息。

3.如权利要求1或2所述的图像文本识别方法，其特征在于，所述参数信息包括字体、字号、字形、颜色、排版方式、修饰效果中的任一项或多项。

4.如权利要求1或2所述的图像文本识别方法，其特征在于，所述第一图像文本信息包括***数据、车票、营业执照、电子行程单、身份证、社保卡、银行卡中的任一项或多项。

5.如权利要求1所述的图像文本识别方法，其特征在于，所述文本检测模型为ResNet50_vd和SAST算法检测模型；具体包括：采用ResNet50_vd作为网络结构，并将网络结构中的全连接层以FCN全卷积层替代。

6.如权利要求5所述的图像文本识别方法，其特征在于，所述文本检测模型的损失函数如下：L_total＝λ₁L_tcl+λ₂L_tco+λ₃L_tvo+λ₄L_tbo；

7.如权利要求6所述的图像文本识别方法，其特征在于，λ1＝1.0；λ2＝0.5；λ3＝0.5；λ4＝1.0。

8.如权利要求1所述的图像文本识别方法，其特征在于，步骤S4之后包括步骤S5：

将文本检测模型的输出结果输入到文本识别模型进行训练；所述文本检测模型为Resnet50_vd_fpn和SRN算法识别模型。

9.如权利要求1所述的图像文本识别方法，其特征在于，所述方法还包括：

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法步骤。