CN113435436A

CN113435436A - 一种基于线性约束矫正网络的场景文字识别方法

Info

Publication number: CN113435436A
Application number: CN202110619690.9A
Authority: CN
Inventors: 王刚; 张华平; 商建云
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-24

Abstract

本发明公开了一种基于线性约束矫正网络的场景文字识别方法，属于图像文本识别检测技术领域。本方法通过卷积网络对文本图像提取几何特征，得到空间变换参数，基于空间变换网络得到的参数，对倾斜文本图像进行分割，得到水平文本图像；利用校正后水平文本图像进行文字识别，提取图像特征。利用序列编解码网络和注意力机制进行文字识别，得到识别后的文本序列。将预测输出与目标进行损失计算，并更新网络参数。本方法矫正所需空间变换参数更灵活，可实现更复杂变换。空间变化网络输出的控制点被约束在一系列间距相同的边上，矫正后的图片更平滑，减少对后续任务的干扰。空间变换网络与特征提取层共享参数信息，在减少参数量的同时，提高了模型表现。

Description

一种基于线性约束矫正网络的场景文字识别方法

技术领域

本发明涉及一种基于线性约束矫正网络的场景文字识别方法，属于图像文本识别检测技术领域。

背景技术

OCR(Optical Character Recognition，光学字符识别)传统上指对输入扫描文档图像进行分析处理，识别出图像中的文字信息。场景文字识别(Scene Text Recognition，STR)指识别自然场景图片中的文字信息。传统的光学字符识别技术在印刷字体识别方面已经很成熟，随着神经网络的发展，场景文字识别逐渐成为热门研究。

自然场景图像中的文字识别，其难度远大于扫描文档图像中的文字识别，因为它的文字展现形式极其丰富：

·允许多种语言文本混合，字符可以有不同的大小、字体、颜色、亮度、对比度等。

·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样。

·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。

·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上；文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理，比如沙地、草丛、栅栏、砖墙等。

当前，文本检测和识别技术处于一个学科交叉点，其技术演进不断受益于计算机视觉处理和自然语言处理两个领域的技术进步。它既需要使用视觉处理技术来提取图像中文字区域的图像特征向量，又需要借助自然语言处理技术来解码图像特征向量为文字结果。

目前，主流的技术方案是基于卷积循环神经网络和带注意力机制的序列识别网络。但是，现有的空间变换网络在提取图像变换特征后矫正输入图像，没有有效利用提取到的初级特征。矫正所需的空间变换参数通常限定为两排固定的控制点，限制了处理更复杂文字的可能性。空间变换网络每个点的输出相互独立，容易造成矫正后的图片边缘不平滑，给后续的识别任务造成额外的干扰。

发明内容

本发明的目的是为了克服现有技术存在缺陷，针对现有场景文字识别技术空间变换网络存在的不足，提出一种基于线性约束矫正网络的场景文字识别方法。

本发明的创新点在于：为空间变换网络的矫正信息增加线性约束，使其将输出的形状符合多项式曲线，同时，共享空间变换网络提取的初级特征，从而实现场景文字识别。

本发明是通过以下技术方案实现。

一种基于线性约束矫正网络的场景文字识别方法，包括以下步骤：

步骤1：将变形的文本图像经过矫正网络(即空间变换网络)，得到水平文本图像。

具体地，步骤1包括以下步骤：

步骤1.1：利用卷积神经网络提取原始文本图像特征，获得网格参数。

具体地，设网格大小为M行N列，利用参数构建控制点C_i＝{(x_j,y_j)},i∈{1,2,…M},j∈{1,2，…，N}，x_j表示第j个控制点的横坐标，y_j表示第j个控制点的纵坐标。

其中，每个C_i都有相同的a，a表示决定曲线多项式的系数，a_k表示第k个系数，W个a决定了曲线多项式；b_i表示预测偏移。

x_j和b_i由网络直接确定，y_j根据参数合成输出。

步骤1.2：初始化目标控制点C′＝{C′_i}，1≤i≤M，其中：

其中，C′_i表示目标控制点C′集合中的第i个点。

步骤1.3：计算变换映射矩阵

其中，S为一个矩阵符号，S＝{s_ij}，s_ij＝φ(Δc)，其中，φ(x)＝x² logx，Δc是控制点C中两个元素的差值，C的形状为(M×N)×2。

步骤1.4：使用薄板样条插值函数，利用步骤1.3得到的矩阵T，对变形图片进行矫正。

步骤2：使用特征提取网络对矫正后的水平文本图像进行特征提取，得到图像特征。

具体地，可以使用54层的残差网络作为特征提取网络，进行特征提取。该网络与步骤1中的卷积神经网络共享参数。

其中，该步骤使用的残差网络，可以根据需要更换为其他卷积神经网络。

步骤3：利用序列编解码网络和注意力机制进行文字识别，得到识别后的文本序列，作为预测输出。

具体地，序列编码网络为一个两层双向长短时记忆网络，将提取的特征编码成中间状态，该状态包含上下文信息。

序列解码器由一个基于注意力机制的门控循环单元组成，包含词嵌入和注意力机制。在解码的每一个时间步，用序列编码网络得到的含有上下文信息的中间表征，与门控循环单元的前一步隐状态计算注意力权重，并将权重与门控循环单元的当前输出加权求和，预测当前解码时间步的字符类别。解码过程使用束搜索，每一步保留前K个最有可能的结果，最终的预测输出为整体概率最大的那一个。

步骤4：将步骤3获得的文本序列(即预测输出)与目标进行损失计算，并更新网络参数。

其中，解码器为双向，每个方向的解码器产生的损失值，通过加权形成最终的损失值。网络参数的学习可以采用端到端的方式。

有益效果

本发明方法，与现有技术相比，具有如下有益效果：

1.矫正所需的空间变换参数可以更灵活，可以实现更复杂的变换；

2.空间变化网络输出的控制点被约束在一系列间距相同的边上，矫正后的图片可以更平滑减少了对后续任务的干扰；

3.空间变换网络与特征提取层共享参数信息，减少参数量的同时提高了模型的表现；

4.双向解码器从不同方向获取最终的目标文本序列，可有效减少解码器对长序列。

附图说明

图1是本发明方法的实施流程图；

图2是本发明方法的模型整体架构；

图3是现有的方法与本发明识别结果可视化的对比图。

具体实施方式

下面结合附图和实施例，对本发明方法做进一步详细说明。应当理解，此处所描述的具体实施例，仅仅用以解释本发明，并不用于限定本发明。

实施例

一种基于线性约束矫正网络的场景文字识别方法，包括以下实施步骤：

为了更好地识别不规则场景文字，本方法将严重变形的文本图像矫正为水平文本图像。矫正时，通过卷积网络提取特征，预测出位置信息，即变换网格的参数。经过转换，得到一个矫正控制点网格，形状为M×N，预测输出的位置点都分布在由多项式确定的曲线上，这一转换过程保证了网格的格点之间过渡地更加平滑。

矫正后的图像由卷积网络提取出特征，此处的卷积可以和矫正中的卷积相同，使用的是同一个残差网络。

序列编码器由两层双向LSTM组成，将特征提取获取的特征编码成中间状态，该状态包含了上下文信息。序列解码器则包含词嵌入和注意力机制。在解码的每一个时间步，用该序列编码网络得到的含有上下文信息的中间表征，与门控循环单元前一步隐状态计算注意力权重，并将权重与门控循环单元的当前输出加权求和，预测当前解码时间步的字符类别。解码过程使用束搜索，每一步保留前K个最有可能的结果。

最终的预测输出为整体概率最大的一个。

本发明提出的场景文字识别端到端模型结构图，如图2所示，包括空间变换网络、特征提取网络和序列编解码网络。

以下通过实验来评估本发明的效果。

本实施例在两个生成的数据Syn90K与SynthText上进行训练，在主流的几个场景文本数据集上进行测试。其中，IIIT5K有3000张图像，由网络场景文字图片剪裁而成；SVT有647张图像，大部分为水平文本图像；ICDAR 2003(IC03)有860张图片，大部分是剪裁成的水平文本图像；SVT-Perspective(SVTP)有645张图像，其中，大部分文本有比较强的形变；ICDAR 2013(IC13)有1015张图像，大部分为高质量的水平文本图像；ICDAR2015(IC15)有1811张图像，多数为严重变形且低质量的文本图像；CUTE有288张图像，其中大部分为高质量的弯曲文本图像。

表1展现了本发明方法与其他方法实验对比。本方法对弯曲严重的IC15、SVTP和CUTE上有明显提升，本发明的有效性如图3所示，展示了部分可视化结果。

表1实验结果对比表

Claims

1.一种基于线性约束矫正网络的场景文字识别方法，其特征在于，包括以下步骤：

步骤1：将变形的文本图像经过矫正网络，得到水平文本图像，包括以下步骤：

步骤1.1：利用卷积神经网络提取原始文本图像特征，获得网格参数；

设网格大小为M行N列，利用参数构建控制点C_i＝{(x_j,y_j)},i∈{1,2,…M},j∈{1,2,…,N}，x_j表示第j个控制点的横坐标，y_j表示第j个控制点的纵坐标；

其中，每个C_i都有相同的a，a表示决定曲线多项式的系数，a_k表示第k个系数，W个a决定了曲线多项式；b_i表示预测偏移；

x_j和b_i由网络直接确定，y_j根据参数合成输出；

步骤1.2：初始化目标控制点C′＝{C′_i},1≤i≤M，其中：

其中，C′_i表示目标控制点C′集合中的第i个点；

步骤1.3：计算变换映射矩阵

其中，S为一个矩阵符号，S＝{s_ij}，s_ij＝φ(Δc)，其中，φ(x)＝x²log x，Δc是控制点C中两个元素的差值，C的形状为(M×N)×2。

步骤1.4：使用薄板样条插值函数，利用步骤1.3得到的矩阵T，对变形图片进行矫正；

步骤2：使用特征提取网络对矫正后的水平文本图像进行特征提取，得到图像特征；

步骤3：利用序列编解码网络和注意力机制进行文字识别，得到识别后的文本序列，作为预测输出；

步骤4：将步骤3获得的文本序列与目标进行损失计算，并更新网络参数。

2.如权利要求1所述的一种基于线性约束矫正网络的场景文字识别方法，其特征在于，步骤3中，序列编码网络采用一个两层双向长短时记忆网络，将提取的特征编码成中间状态，该状态包含上下文信息；

序列解码器由一个基于注意力机制的门控循环单元组成，包含词嵌入和注意力机制；在解码的每一个时间步，用序列编码网络得到的含有上下文信息的中间表征，与门控循环单元的前一步隐状态计算注意力权重，并将权重与门控循环单元的当前输出加权求和，预测当前解码时间步的字符类别；解码过程使用束搜索，每一步保留前K个最有可能的结果，最终的预测输出为整体概率最大的那一个。

3.如权利要求1所述的一种基于线性约束矫正网络的场景文字识别方法，其特征在于，步骤4中，采用双向解码器进行损失计算，每个方向的解码器产生的损失值通过加权形成最终的损失值。