CN110276351A

CN110276351A - 多语言场景文本检测与识别方法

Info

Publication number: CN110276351A
Application number: CN201910577855.3A
Authority: CN
Inventors: 张勇东; 周宇; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-09-24
Anticipated expiration: 2039-06-28
Also published as: CN110276351B

Abstract

本发明公开了一种多语言场景文本检测与识别方法，包括：通过文本检测器对输入的图像进行处理，得到一系列文本候选框：通过特征选择和长范围依赖性提取模块，自适应地生成一个一维权重向量和一个二维权重矩阵，从而更关注那些提取了文本信息的通道以及包含文本的区域，以及通过捕获长范围依赖性，从而获得全局信息；再通过特征增强模块的操作，使网络对文本/非文本具有更好的辨别性能，从而减小误报。最后分别使用多个卷积来预测一系列文本候选框；将经过阈值处理以及缩放之后的文本候选框通过文本识别器与文本类别识别器进行文本识别与文本类别识别，得到文本内容与文本的类别。该方法具有较高的文本检测与识别性能，并适用于多语言的应用场景。

Description

多语言场景文本检测与识别方法

技术领域

本发明涉及文本检测识别技术领域，尤其涉及一种多语言场景文本检测与识别方法。

背景技术

场景文本读取是指从自然场景图像中检测并识别出其中包含的所有文本，在图像检索，场景理解，自动驾驶和文本翻译等领域有很多应用。目前很多研究方法都只单独做文本检测或者文本识别，有一些方法能够同时进行文本检测和识别，但是它们主要是针对一种语言的文本(例如，英文或者中文)，也即，这些方法无法适用于多语言的场景。

此外，这些方法只使用卷积神经网络和循环神经网络这些局部操作，没有捕获长范围依赖性。再者，这些方法一般都使用在线难例挖掘算法来降低网络的误判率，但是其效率较低。最后，现有的方法都只使用Connectionist Temporal Classification(CTC)或者基于注意力机制的解码器来将输入序列解码为文本，使得文本识别性能较低。

发明内容

本发明的目的是提供一种多语言场景文本检测与识别方法，具有较高的文本检测与识别性能。

本发明的目的是通过以下技术方案实现的：

一种多语言场景文本检测与识别方法，包括：

通过文本检测器对输入的图像进行处理，得到一系列文本候选框：在特征选择和长范围依赖性提取模块中，通过特征选择操作，自适应地生成一个一维权重向量和一个二维权重矩阵，从而使文本检测器更关注那些提取了文本信息的通道以及包含文本的区域，以及通过捕获长范围依赖性，从而获得全局信息；通过特征增强模块对特征选择和长范围依赖性提取模块输出的特征图进行增强处理，再通过卷积操作得到一系列文本候选框；

将文本候选框通过文本识别器与文本类别识别器进行文本识别与文本类别识别，得到文本内容与文本的类别。

由上述本发明提供的技术方案可以看出，能够自适应地学习一个一维权重向量和一个二维权重矩阵，从而使网络更关注那些提取了文本信息的通道以及包含文本的位置；并且能捕获长范围依赖性，从而能有效地读取长文本，进而提高了文本检测与后续文本识别的效果；同时，通过文本类别识别器还可以实现文本类别的识别，从而适用于多语言的应用场景。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种多语言场景文本检测与识别方法的示意图；

图2为本发明实施例提供的在三种文本图像数据集上的性能示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种多语言场景文本检测与识别方法，如图1所示，主要包括：

1、通过文本检测器对输入的图像进行处理，得到一系列文本候选框；它主要包括两个模块，即特征选择及长范围依赖性模块和特征增强模块。通过特征选择和长范围依赖性提取模块(FSDE)，自适应地生成一个一维权重向量和一个二维权重矩阵，从而使文本检测器更关注那些提取了文本信息的通道以及包含文本的区域，，并获得全局信息，从而有利于提取长文本信息；通过特征增强模块(FEM)对特征选择和长范围依赖性提取模块输出的特征图进行增强处理，增强文本区域的响应并抑制非文本区域的响应，从而使网络更好地区分文本/非文本，从而减小误报再通过卷积操作得到一系列文本候选框。

特征选择和长范围依赖性提取模块包含特征提取与长范围依赖性提取两个操作。特征选择中通过自适应地生成一个一维权重向量和一个二维权重矩阵得到与输入特征图一样大小的二维矩阵，这个二维矩阵可以理解为正方形网格，每个网格的值越大，代表对应的特征图的在该位置越有可能是文本，特征选择操作得到相应特征图。长范围依赖性提取是针对之前的结果(得到的特征图)进行的操作，操作结果依然是特征图，但是特征图的效果得到提升。

长范围依赖性：是指一个点的值不止与它周围的几个像素有关，而是与整个特征图的所有像素都有关。具体来说就是，要判断一个点是不是文本，之前的方法是通过这个点的附近像素来判断，长范围依赖性，则是通过特征图的所有点来进行判断。通过捕获长范围依赖性，从而获得全局信息，也即能够知道特征图上哪些部分是文本哪些部分是背景。

通常情况下，FSDE模块输出的特征图与高级特征图经过上采样(即特征图分辨率放大)之后的特征图进行融化后，再输入至FEM模块。FEM处理过程主要包括：对响应值进行指数处理，从而增大文本与非文本的响应值之差；以及，生成一个文本与非文本的语义分割图，从而辅助文本检测。

通过对FEM生成的特征图进行卷积操作，得到一系列文本候选框。示例性的，可以通过1个1通道的1x1卷积，1个4通道的1x1卷积，和1个2通道的1x1卷积操作得到一系列文本候选框。

为了便于理解，下面针对文本检测器的工作过程进行介绍，值得注意的是，下述介绍中所涉及的网络结构或者具体的参数均为举例，并非构成限制。

文本检测器的工作流程：输入一幅文本图像，经过一系列卷积操作(如3x3，16之类的)以及几个resnet block(每个resnet块是一些卷积操作的组合，如很多方法一样使用resnet)进行特征提取，其中前三个resnet block后面使用了FSDE模块，目的是让网络能更关注文本区域，并能更好地检测长文本(捕获长范围依赖性的作用)。FSDE模块输出的特征图与高级特征图经过上采样之后得到的特征图进行融化之后，使用FEM模块来使网络能更好地区分文本和非文本。在FEM操作得到的特征图之后，使用1个1通道的1x1卷积，1个4通道的1x1卷积，和1个2通道的1x1卷积操作得到文本候选框。

优选的，在得到一系列文本候选框后，通过非极大值抑制过滤掉置信度低于阈值的文本候选框；然后在保持宽高比不变的情况下，将过滤后的所有文本候选框的高度缩放到相同高度，再输入至文本识别器与文本类别识别器。

2、将所有文本候选框通过文本识别器与文本类别识别器进行文本识别与文本类别识别，得到文本内容与文本的类别。

1)文本识别器进行文本识别的过程为：使用卷积网络和循环神经网络提取文本候选框内的特征，再使用CTC解码器和基于注意力机制的解码器将提取到的特征序列解码为字符序列。与现有技术中的二选一不同，本发明结合CTC解码器和基于注意力机制的解码器进行文本识别，以提高识别性能。

2)文本类别识别器使用一个神经网络实现，网络结构跟VGG16类似，区别在于最后的全连接层有N个输出，分别代表文本候选框为第一种语言、第二种语言、…、第N-1种语言、以及符号的概率。示例性的，可设置N＝7，则可以实现6种语言(***语、孟加拉语、韩语、日语、英语、汉语)与符号的识别。

将图1所示的文本检测器、文本识别器与文本类别识别器作为一个整体的网络模型，对其进行训练。

1、数据集。

示例性的，可以从网络下载多语言的合成文本数据集，以及从ICDAR官网下载ICDAR2013、ICDAR2015、ICDAR2017MLT数据集，其中包含训练集和测试集。训练集用于训练模型使计算机学到文本检测、识别和类别识别的经验，测试集用于测试学习得到的模型的性能。同时构建了一个包含7500个字符的集合，它包含了6种语言的字符和标点符号。

2、网络模型训练。

训练过程与前述介绍的工作过程类似，首先对文本检测器、文本识别器和文本类别识别器分别单独训练3个周期，然后再把这三个模块联合起来训练。下面以文本检测器为例进行介绍。

一次取16张训练集数据图像，缩放成256×256大小之后，输入到网络模型中。图像首先被传送到具有FSDE(特征选择和长范围依赖性提取)模块和FEM(特征增强)模块的文本检测器。FSDE模块有两个作用，1)就是使网络自适应地生成一个一维权重向量和一个二维权重矩阵，这两个权重分别代表网络更关注哪些通道和更关注包含文本特征的位置；2)捕获长范围依赖性，从而能够获得全局信息，有利于提取一些比较大的文本。而FEM的作用也有两个：1)把网络的响应值进行指数处理，从而增大文本与非文本的响应值之差；2)生成一个文本/非文本的语义分割图，从而辅助文本检测。文本检测器的有7个输出，其中2个代表像素点是否属于文本的分割图，4个分别代表每个像素到包含这个像素的文本框的上下左右边的距离，，剩下1个代表文本候选框相对于水平方向的角度。然后这些文本候选框经过非极大值抑制过滤掉大部分误判为文本的候选框，剩下的候选框缩放之后，分别被输入到文本识别器和文本类别识别器中，从而输出识别处理的文本和它们所属的文本语言种类。

网络模型参数初始化采用随机初始化，然后对网络模型参数进行更新，用于更新参数的损失函数包括检测损失函数L_det和识别损失函数L_rec：

L_det＝L_geo+λ₁L_angle+λ₂L_dice+λ₃L_seg，

L_rec＝λ₄L_{soft max}+λ₅L_ctc，

则总体损失函数为：

L＝L_det+λ_recL_rec；

其中，L_geo表示坐标损失，用来判断预测的文本框是否准确，预测的文本框越准确，这个损失就越小；L_angle表示角度损失，即预测的文本的排版方向与实际方向之间偏差越大则损失越大，其他损失类似；L_dice表示对图像像素进行文本与非文本预测的损失，比如说那些像素本来是文本，而网络把它预测成不是文本，则损失大，背景被预测成背景，文本被预测成文本则没有损失；L_seg表示FEM模块的损失，与L_dice类似；L_softmax表示基于注意力机制的解码器的损失；L_ctc表示CTC解码器的损失；λ₁～λ₅、λ_rec为相应损失的比例系数。

上述网络模型可以用PyTorch实现，它由ADAM优化器进行优化，初始学习率lr为0.0001，β₁和β₂分别设置为0.9和0.999。权重衰减和批量大小设置分别为0和16。上述网络模型可以在Ubuntu上使用一个Nvidia K80 GPU进行训练，训练模型需要两天时间。

与现有方法相比，本方法能够自适应地学习一个一维权重向量和一个二维权重矩阵，从而使网络更关注那些提取了文本信息的通道以及包含文本的位置。此外，能捕获长范围依赖性，从而能有效地读取长文本。同时，能够同时有效地检测和识别多种语言的文本以及数字符号。如图2所示，(a)、(b)、(c)三部分依次为本方法在ICDAR2017 MLT数据集、ICDAR2015数据集、ICDAR 2013数据集上的文本检测识别结果，图2中的矩形框也即预测的文本框，文本框附近的文字也即预测到的文字结果。可以看出，本方法在ICDAR 2017 MLT数据集上达到了最先进的效果，同时在ICDAR2013和ICDAR2015数据集上与现有的最好方法的性能差不多。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种多语言场景文本检测与识别方法，其特征在于，包括：

2.根据权利要求1所述的一种多语言场景文本检测与识别方法，其特征在于，特征增强模块处理过程包括：

对响应值进行指数处理，从而增大文本与非文本的响应值之差；

以及，生成一个文本与非文本的语义分割图，从而辅助文本检测。

3.根据权利要求1所述的一种多语言场景文本检测与识别方法，其特征在于，在得到一系列文本候选框后，通过非极大值抑制过滤掉置信度低于阈值的文本候选框；然后在保持宽高比不变的情况下，将过滤后的所有文本候选框的高度缩放到相同高度，再输入至文本识别器与文本类别识别器。

4.根据权利要求1所述的一种多语言场景文本检测与识别方法，其特征在于，所述文本识别器进行文本识别的过程为：

使用卷积网络以及循环神经网络提取文本候选框内的特征，再使用CTC解码器和基于注意力机制的解码器将提取到的特征序列解码为字符序列。

5.根据权利要求1所述的一种多语言场景文本检测与识别方法，其特征在于，文本类别识别器使用一个神经网络实现，网络结构跟VGG16类似，区别在于最后的全连接层有N个输出，分别代表文本候选框为第一种语言、第二种语言、…、第N-1种语言、以及符号的概率。

6.根据权利要求4所述的一种多语言场景文本检测与识别方法，其特征在于，在训练阶段，对文本检测器、文本识别器与文本类别识别器进行参数更新，用于更新参数的损失函数包括检测损失函数L_det和识别损失函数L_rec：

L_det＝L_geo+λ₁L_angle+λ₂L_dice+λ₃L_seg，

L_rec＝λ₄L_{soft max}+λ₅L_ctc，

则总体损失函数为：

L＝L_det+λ_recL_rec；

其中，L_geo表示坐标损失，L_angle表示角度损失，L_dice表示对图像像素进行文本与非文本预测的损失，L_seg表示特征增强模块的损失，L_softmax表示基于注意力机制的解码器的损失；L_ctc表示CTC解码器的损失；λ₁～λ₅、λ_rec为相应损失的比例系数。