CN110598690B

CN110598690B - 一种端到端光学字符检测识别方法与***

Info

Publication number: CN110598690B
Application number: CN201910707220.0A
Authority: CN
Inventors: 蔡华; 陈运文; 王文广; 纪达麒; 马振宇; 周炳诚
Original assignee: Datagrand Information Technology Shanghai Co ltd
Current assignee: Datagrand Information Technology Shanghai Co ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2023-04-28
Anticipated expiration: 2039-08-01
Also published as: CN110598690A

Abstract

本发明公开了一种端到端光学字符检测识别方法与***，所述识别方法包括：提取图像特征，获得感兴趣区域；分类感兴趣区域，获得感兴趣区域的边框的角度信息；分割感兴趣区域，获得区域中的文本图像轮廓信息；基于角度信息、文本图像轮廓信息将文本图像全部划分入多个基于极坐标的圆，调整圆及其圈定内容的坐标从而修整文本图像；识别修整后的文本图像。本发明融合了一种变换网络实现等变性变换的方法，实现了弯曲文本区域的精确变换。

Description

一种端到端光学字符检测识别方法与***

技术领域

本发明属于文字识别领域，具体涉及一种端到端光学字符检测识别方法与***。

背景技术

传统的OCR方法是将文字检测和文字识别分为两个分开的部分，即输入一张图，先进行文字检测，检测出文字的位置，再进行文字识别，即对检测出的文字抠出来并送入识别网络。这样一方面比较费时间，第二没有共享检测和识别的特征。这种方法的缺点在于文字可能检测的不够精准，这样对于识别来说就会造成一定困难，比如文字边缘多框了一些空白区域等。

同时现有的OCR方法对于弯曲文本识别效果不理想，其难度在于水平检测框或者四边形检测框做仿射变换，无法精准定位文字区域，水平检测框和四边形检测框中文字区域都只占据很小的一部分，大部分都是背景，水平或者倾斜检测框无法扭正文本，因此基于长短时序记忆网络(LSTM)的卷积循环神经网络(CRNN)识别方法效果就会很差。而且由于用于图像特征提取的卷积神经网络(CNN)本身的设计对旋转不变性没有进行专门的考虑，总体上说CNN提取旋转不变的特征能力是比较弱的。只能通过数据增强的这种方式(人为地对样本做镜像、旋转、缩放等操作)让CNN自己去学习旋转不变性。

发明内容

针对现有技术中存在的问题，本发明提供一种端到端光学字符检测识别方法与***，本发明的部分实施例能够提高文本识别的效率，且通过调整弯曲文本提高识别的准确率。

为实现上述目的，本发明采用以下技术方案：

一种端到端光学字符检测识别方法，所述识别方法包括：提取图像特征，获得感兴趣区域；分类感兴趣区域，获得感兴趣区域的边框的角度信息；分割感兴趣区域，获得区域中的文本图像轮廓信息；基于角度信息、文本图像轮廓信息将文本图像全部划分入多个基于极坐标的圆，调整圆及其圈定内容的坐标从而修整文本图像；识别修整后的文本图像。

优选地，所述提取图像特征包括：将图像输入特征金字塔网络，获得图像的主干特征图；将主干特征图输入区域生成网络，获得感兴趣区域。

优选地，所述分类感兴趣区域包括：将感兴趣区域分类为具体的类别，并对感兴趣区域的边框进行回归。

优选地，所述分割感兴趣区域包括：反卷积感兴趣区域，生成文字图像的掩模。

优选地，所述基于角度信息、文本图像轮廓信息将文本图像全部划分入多个基于极坐标的圆包括：基于角度信息、文本图像轮廓信息，找出文本图像的中心线；以中心线的一端为圆心，绘制第一个圆；沿着中心线每预定间隔绘制后续的圆，直至文本图像全部划分入多个圆所圈定的区域内。

优选地，所述找出文本图像的中心线包括：在文本图像的边界上选择一点；确定穿过该点的切线后再确定穿过该点且垂直于切线的垂线；沿着垂线向文本图像的边界内移动该点，直至该点距离垂线穿过文本图像的两端距离相等，该点即为中心线上一点；拟合多个上述点后获得文本图像的中心线。

优选地，所述识别修整后的文本图像中采用卷积循环神经网络识别文本图像。

一种端到端光学字符检测识别***，所述识别***包括：图像特征提取模块，所述图像特征提取模块提取图像特征，获得感兴趣区域；分类模块，所述分类模块分类感兴趣区域，获得感兴趣区域的边框的角度信息，所述分类模块与所述图像特征提取模块连接；分割模块，所述分割模块分割感兴趣区域，获得区域中的文本图像轮廓信息，所述分割模块与所述图像特征提取模块连接；等变形变换模块，所述等变形变换模块基于角度信息、文本图像轮廓信息将文本图像全部划分入多个基于极坐标的圆，调整圆及其圈定内容的坐标从而修整文本图像，所述等变形变换模块与所述图像特征提取模块、分类模块、分割模块连接；以及

文字识别模块，所述文字识别模块识别修整后的文本图像，所述文字识别模块与所述等变形变换模块连接。

与现有技术相比，本发明的有益效果为：

1、在智能识别***中，融合了等变性变换模块，实现了弯曲文本区域的精确变换；

2、该网络为一个多任务学习结构，能够获得要素分类，文本识别以及实例分割的多任务学习；

3、该网络结构中通过卷积模块提取图像金字塔特征，对不同尺度的文本实现检测和识别。

4、本***不对文字做限定，适合所有语言文字的智能化检测与识别；

5、提取的图像特征供分类模块、分割模块、等变形变换模块使用，不重复提取特征，提高效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的整体结构示意图。

图2为图像特征提取模块的卷积网络结构示意图。

图3为分类模块的网络结构示意图。

图4为分割模块的网络结构示意图。

图5为滑动、中心化以及等变性变换的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本实施例主要包括图像特征提取模块，要素分类和实例分割模块，等变性变换模块，文字识别模块。

1图像特征提取模块

如图2所示，图像特征提取模块为整个***提供了共享的图像特征信息，提升计算效率，以及计算结果的准确性。

利用卷积网络块的输出特征，通过特征金字塔网络(FPN)可以构建图像特征金字塔。不同尺寸的目标具有不同的特征，利用浅层的特征可以将简单的目标区分开来,而利用深层的特征可以将复杂的目标区分开来，图2中将卷积网络结构分为5个部分，各部分的输出分别对应于[C1,C2,C3,C4,C5],在输入的图像上进行深度卷积，然后对[C1,C2,C3,C4,C5]添加一层1x1的卷积层，对卷积块上面的特征提取得到图像特征金字塔结构[P1,P2,P3,P4,P5]，对P5的特征进行上采样操作，使得它们与C4经过1*1卷积的特征具有相应的尺寸，然后对处理后的特征执行加法操作(对应元素相加)，将获得的结果输入到P4中，同时对P5进行3*3卷积得到相关特征作为区域提议网络(RPN)的输入。依次对P4,P3,P2进行同样的操作，我们将处理过的低层特征和处理过的高层特征进行累加，这样做的目的是因为低层特征可以提供更加准确的位置信息，而多次的降采样和上采样操作使得深层网络的定位信息存在误差，因此我们将其结合其起来使用，这样我们就构建了一个更深的特征金字塔，融合了多层特征信息，并在不同的特征进行输出。即通过添加第二个金字塔提升了标准特征提取金字塔的性能，第二个金字塔可以从第一个金字塔选择高级特征并传递到底层上。通过这个过程，它允许每一级的特征都可以和高级、低级特征互相结合。其背后的思路是为了获得一个强语义信息，这样可以提高检测性能，用更深的层来构造特征金字塔，这样做是为了使用更加鲁棒的信息。

RPN区域生成网络是一个轻量的神经网络，它用滑动窗口来扫描图像，并寻找存在目标的区域。RPN扫描的区域被称为锚点，对应于图像区域上分布的矩形，滑动窗口是由RPN的卷积过程实现的，RPN并不会直接扫描图像，而是扫描主干特征图。这使得RPN可以有效地复用提取的特征，并避免重复计算。[P1,P2,P3,P4,P5]五个不同尺度的特征图由RPN网络生成若干个锚点框，经过NMS(非最大值抑制)操作后保留部分RoI(感兴趣区域)，由于步长的不同，分别对[P1,P2,P3,P4,P5]不同尺度的特征图进行对齐操作，之后将这些特征图连接起来，输入到全连接要素分类，全卷积像素分割以及等变性变换的任务中。

2分类模块

如图3所示，ROI分类器实现分类并且回归得到边界框，和RPN只能分辨前景或背景两个类别不同，这个网络更深并且可以将区域分类为具体的类别。同时它还可以对边框进行精调，进一步精调边框的位置和尺寸以将目标封装。

3分割模块

用实例分割的方法可以精准检测文字，并且生成文字区域的掩模。对ROI特征区域反卷积，得到与输入图片大小一致，得到一个文本的掩模区域。窗口维度通道

4等变性变换模块

如图5所示，在本实施例的变换结构中，通过分类模块中对连续的文字区域的回归框，可以得道文本区域的一个角度信息。然后利用这个角度信息和分割的文本区域信息找出文本区域的中心线，然后根据这个中心线以及文本区域的轮廓边界，我们可以对该文本区域进行水平方向的延展。可以很好地拟合任意形状的文本，比如水平文本，多方向文本，曲形文本。

本实施例随机选择一个像素作为起点，并将其中心化。接着，搜索过程分支为两个相反的方向——滑动和中心化直到结束。这一过程将在两个相反方向上生成两个有序点，并可结合以生成最终的中心轴，它符合文本的进程，并精确描述形状。此外，本实施例还利用局部几何属性描绘文本实例的结构，把已预测的曲形文本实例转化为规范形式，这大大减轻了后续识别阶段的工作。

这种规范形式的转化是通过一系列有序、彼此重叠的圆盘(disk)描述文本，每个圆盘位于文本区域的中心轴上，并带有可以变化的半径和方向。文本实例的几何属性(比如中心轴点，半径，方向)则通过一个全卷积网络(FCN)进行评估，将一个文本区域表征为一系列有序而重叠的圆盘，其中每个圆盘都由一条中心线贯穿，并带有可变的半径r和方向θ。该网络模块能够改变其形状以适应不同的变化，比如旋转，缩放，弯曲。从数学上看，包含若干个字符的文本实例t可被看作是一个序列S(t)，是一系列圆盘的集合。每个圆盘D带有一组几何属性，r被定义为t的局部宽度的一半，方向θ是贯穿中心点c的中心线的正切。由此，通过计算S(t)中圆盘的重合，文本区域t可轻易被重建。注意，圆盘并非一一对应于文本实例的字符。但是圆盘序列的几何属性可以改正不规则形状的文本实例，并将其转化为对文本识别器更加友好的水平矩形，首先在边界找一个内切圆，然后沿着中心线在一个很小的间隔下慢慢移动，边移动边画内切圆，也就是说通过这个内切圆把文本区域中的文字变换到水平方向，从而完成等变性变换。

理论上，假设我们有一个模式x,这个模式可以经过一些变换T变成其他形式，变换以后的模式我们暂且记作T(x|w)，在整个变换的过程中所有的变换参数w可以由原模式确定(学习得到)。当然这个变换我们还不知道。也就是说，我们研究的内容要么学习变换本身，要么学习具有不变性的识别模型。常见的变换，识别模型应该是不变的，是空间变换。变换的不变性通常通过使用卷积神经网络(CNN)进行硬编码。实现等变性识别的常用技术是用原始图像的空间变换版本来扩展训练集。理想情况下，机器学习***应该能够超出训练集中参数值范围外推。

因此，传统的CNN无法在没有附加手段的情况下推广旋转概念(不仅仅是为了推断未曾见过的旋转角度，而是为了将所遇到的角度的识别能力从一个类别转移到另一个类别)。文字属于形象字，可以基于一定程度的形状特征。我们是用视窗在图片上滑动，自然只要有相同特征，不管平移在何处都能被检测到，所以具有平移不变性，这种不变性是本身网络具有的。旋转不变性，是特征内部小特征间空间结构不变性。这应该是不同物体有不同独特结构，神经网络学习到这种结构，才具有旋转不变性。同理，缩放，微变形等不变性，都应该是学来的。

5文字识别模块

将经过等变性变换的网络特征以及卷积网络得到的图像特征输入到文字识别模块，进行文本的识别。该模块的主要结构为卷积循环神经网络(CRNN),其为深度卷积神经网络(CNN)和循环神经网络(RNN)的组合，可以直接从序列标签中学习而产生一系列类序列标签。本实施例中文字识别模块包含了一个双向长短时序记忆网络(Bi-LSTM)、一个完全连接层和连接的时序分类(CTC)解码器。将前面卷积模块提取到的高阶特征映射成时间主形式的序列，送入RNN进行编码。使用Bi-LSTM来获得输入序列特征的范围依赖性。然后，将两个方向上每个时间步计算出来的隐含状态求和并送入一个完全连接中，得到每个状态在字符类集上的一个分布，最后使用CTC将帧分类分数转换为字符标签序列，得到文本识别输出。

尽管上述实施例已对本发明作出具体描述，但是对于本领域的普通技术人员来说，应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进，这些修改和改进都在本发明的精神以及范围之内。

Claims

1.一种端到端光学字符检测识别方法，其特征在于，所述识别方法包括：

提取图像特征，获得感兴趣区域；

分类感兴趣区域，获得感兴趣区域的边框的角度信息；

分割感兴趣区域，获得区域中的文本图像轮廓信息；

基于角度信息、文本图像轮廓信息将文本图像全部划分入多个基于极坐标的圆，其包括：基于角度信息、文本图像轮廓信息，找出文本图像的中心线；以中心线的一端为圆心，绘制第一个圆；沿着中心线每预定间隔绘制后续的圆，直至文本图像全部划分入多个圆所圈定的区域内；找出文本图像的中心线包括：在文本图像的边界上选择一点；确定穿过该点的切线后再确定穿过该点且垂直于切线的垂线；沿着垂线向文本图像的边界内移动该点，直至该点距离垂线穿过文本图像的两端距离相等，该点即为中心线上一点；拟合多个上述点后获得文本图像的中心线；

调整圆及其圈定内容的坐标从而修整文本图像；

识别修整后的文本图像。

2.根据权利要求1所述的端到端光学字符检测识别方法，其特征在于，所述提取图像特征包括：

将图像输入特征金字塔网络，获得图像的主干特征图；

将主干特征图输入区域生成网络，获得感兴趣区域。

3.根据权利要求1所述的端到端光学字符检测识别方法，其特征在于，所述分类感兴趣区域包括：

将感兴趣区域分类为具体的类别，并对感兴趣区域的边框进行回归。

4.根据权利要求1所述的端到端光学字符检测识别方法，其特征在于，所述分割感兴趣区域包括：

反卷积感兴趣区域，生成文字图像的掩模。

5.根据权利要求1所述的端到端光学字符检测识别方法，其特征在于，所述识别修整后的文本图像中采用卷积循环神经网络识别文本图像。

6.一种端到端光学字符检测识别***，其特征在于，所述识别***包括：

图像特征提取模块，所述图像特征提取模块提取图像特征，获得感兴趣区域；

分类模块，所述分类模块分类感兴趣区域，获得感兴趣区域的边框的角度信息，所述分类模块与所述图像特征提取模块连接；

分割模块，所述分割模块分割感兴趣区域，获得区域中的文本图像轮廓信息，所述分割模块与所述图像特征提取模块连接；

等变形变换模块，所述等变形变换模块基于角度信息、文本图像轮廓信息将文本图像全部划分入多个基于极坐标的圆，调整圆及其圈定内容的坐标从而修整文本图像，所述等变形变换模块与所述图像特征提取模块、分类模块、分割模块连接；将文本图像全部划分入多个基于极坐标的圆包括：基于角度信息、文本图像轮廓信息，找出文本图像的中心线；以中心线的一端为圆心，绘制第一个圆；沿着中心线每预定间隔绘制后续的圆，直至文本图像全部划分入多个圆所圈定的区域内；找出文本图像的中心线包括：在文本图像的边界上选择一点；确定穿过该点的切线后再确定穿过该点且垂直于切线的垂线；沿着垂线向文本图像的边界内移动该点，直至该点距离垂线穿过文本图像的两端距离相等，该点即为中心线上一点；拟合多个上述点后获得文本图像的中心线；以及