CN113887282A

CN113887282A - 一种面向场景图像中任意形状邻近文本的检测***及方法

Info

Publication number: CN113887282A
Application number: CN202111004566.8A
Authority: CN
Inventors: 王伟平; 过友辉; 周宇; 秦绪功
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2022-01-04

Abstract

本发明公开一种面向场景图像中任意形状邻近文本的检测***及方法，属于图像文本检测领域，通过生成区域建议使得网络更加关注文本特征，同时提出一种一对多的训练策略，为每一个候选框匹配多个目标文本，用以缓解邻近文本时在选取回归目标混淆的问题，最终提升基于回归的两阶段模型检测场景图像中任意形状邻近文本的能力。

Description

一种面向场景图像中任意形状邻近文本的检测***及方法

技术领域

本发明属于图像文本检测领域，具体涉及一种面向场景图像中任意形状邻近文本的检测***及方法。

背景技术

场景图像的文本检测与识别是近年来的研究热点，由于场景图像中文本的复杂性，难以直接将文本识别出来，需要先将图像中的文本检测出来，即定位场景图像中文本所在的位置。随着深度学***文本到多向文本，再到最近几年受到关注的任意形状文本，文本检测的目标变得更加多样化。

尽管有一部分方法针对任意形状的文本提出了解决方案，其中基于分割的方法能够适应任意形状的文本却严重受到分割质量的影响，基于回归的方法大多都是利用矩形锚框的特征，其中包含很多的背景噪声。现有的方法不能很好地解决邻近文本的情况，其中基于分割的方法采用收缩的文本区域以达到分离邻近文本的目的，但这种方法会引入其它要预测的属性和不灵活的膨胀后处理，基于回归的方法使用最大交并比为每一个候选框选取对应的目标文本，但这样最大交并比对每一个候选框都是变化的，导致测试时会产生目标混淆问题。任意形状邻近的文本在场景图像中很常见，但很少有方法同时聚焦到任意形状和邻近文本。

发明内容

本发明的目的是提升基于回归的两阶段模型检测场景图像中任意形状邻近文本的能力，提出了一种面向场景图像中任意形状邻近文本的检测***及方法，通过生成区域建议使得网络更加关注文本特征，同时提出一种一对多的训练策略，为每一个候选框匹配多个目标文本，用以缓解邻近文本时在选取回归目标混淆的问题。

为达到上述目的，本发明采用以下技术方案：

一种面向场景图像中任意形状邻近文本的检测***，包括：

特征提取模块，由一个50层的残差网络和一个特征金字塔网络组成，残差网络为卷积神经网络，用于提取一个自底向上的不同尺度的视觉特征；特征金字塔网络由一个横向连接和一个自顶向下连接构成，用于融合不同尺度的视觉特征，得到一个更加丰富的视觉特征即融合特征；

区域建议生成模块，用于在所述融合特征的每个位置上预设多个不同的锚框，经过分类和回归，生成一系列区域建议；

检测头模块，用于单独对每个区域建议进行处理，根据区域建议中的坐标将区域建议对应的特征从融合特征中提取出来，得到区域建议特征，然后在该区域建议特征基础上进行分类和回归，得到场景图像的文本检测结果。

优选地，在对检测头模块进行训练时，区域建议生成模块根据生成的区域建议与输入图像中的文本对应的矩形框计算交并比，根据该交并比确定正负样本，选择正负样本为一定比例的区域建议来训练检测头模块。

优选地，若交并比大于0.7则为正样本，小于3.0则为负样本；正负样本比例为3:1。

优选地，检测头模块包括一区域建议特征关注模块PFAM，PFAM用于使用一个感知机模块来生成当前区域建议特征对应的注意力权重，该注意力权重和区域建议的对应位置相乘即可得到一个自适应关注文本特征的优化特征，去除背景噪声。

优选地，检测头模块包括两个卷积层、两个全连接层、两个PFAM，按照数据流的顺序为两个卷积层、一个全连接层、一个PFAM、另一个全连接层和另一个PFAM。

优选地，检测头模块根据一对多训练策略OMTS进行训练，使区域建议在有多个标注的文本实例的情况下学习优化；该OMTS为在检测头模块添加的一个检测分支，为每一个区域建议给出两种检测结果，然后利用匹配的两个文本实例来监督该两个检测结果，来进行模型训练。

优选地，在训练过程中，为每一个区域建议根据交并比匹配两个文本实例，若一个区域建议根据交并比只能匹配到一个文本实例时，另一个则匹配到背景。

一种面向场景图像中任意形状邻近文本的检测方法，基于上述***实现，包括以下步骤：

利用特征提取模块从场景图像中提取不同尺度的视觉特征，并融合得到融合特征；

利用区域建议生成模块在所述融合的每个位置上预设多个不同的锚框，经过分类和回归，生成一系列的区域建议；

利用检测头模块根据区域建议中的坐标将区域建议对应的特征从融合特征中提取出来，得到区域建议特征，在该区域建议特征基础上进行分类和回归；

利用上述步骤处理训练数据的场景图像，并根据一对多的训练策略来优化训练整个***，利用训练好的***检测场景图像，获取场景图像中的文本检测结果。

优选地，利用检测头模块根据每一个区域建议特征生成对应的注意力权重，将区域建议特征和注意力权重对应的位置相乘，得到一个自适应关注文本特征的优化特征，去除背景噪声。

与现有方法相比，本发明提出的方法简单而有效，在经典的通用目标检测方法Faster RCNN上增加区域建议特征关注模块和一对多训练策略，这两个模块的加入对速度基本没有影响。其中，对每个区域建议特征使用注意力机制自适应关注文本特征，抑制背景噪声。一对多的训练策略为每一个区域建议回归多个实例，使其在有多个文本实例的情况下学习更适当的目标。同时多个通用的文本检测数据集上的实验结果表明，本发明相比之前的方法能够取得更好的检测结果。

附图说明

图1为实施例的一种面向场景图像中任意形状邻近文本的检测***的网络结构图。

图2为本发明在不同数据上的检测的可视化结果图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提出一种面向场景图像中任意形状邻近文本的检测***，如图1所示，该***是一个基于回归的两阶段检测模型，整个模型由三个部分组成：特征提取模块、区域建议生成模块和检测头模块。

其中，特征提取模块，由一个50层的残差网络和一个特征金字塔网络组成，残差网络是一种卷积神经网络，可以提取一个自底向上的不同尺度的视觉特征，然后利用一个横向连接和一个自顶向下连接构成的特征金字塔网络融合不同尺度的特征，可以更好地处理尺度变化较大的文本，得到一个更加丰富的视觉特征即融合特征，用于接下来的区域建议生成模块和检测头模块。

区域建议生成模块，则是在特征提取模块得到的融合特征基础上，利用区域建议生成网络生成一系列区域建议，首先在融合特征每个位置上预设多个大小和尺度不同的锚框，然后这些锚框经过分类和回归得到初步的检测结果即区域建议；训练时区域建议与输入图像中的文本对应的矩形框计算交并比确定正负样本，若交并比大于0.7则为正样本，小于3.0则为负样本，选取正负样本比例为3:1的一定数量的区域建议用于训练后续的检测头模块，测试时这些区域建议则作为后续的检测头模块的输入来预测最后的文本检测结果。

检测头模块，是单独对每个区域建议进行处理的，区域建议是一个初步的检测结果，根据检测结果中的坐标将区域建议对应的特征从融合特征中提取出来得到区域建议特征，然后在区域建议特征基础上进行分类和回归得到最终的文本检测结果。

在检测头模块中，本发明首先提出区域建议特征关注模块(PFAM)，为每个区域建议挖掘更有效的特征，以便更好地适应任意形状邻近的文本实例。具体地，该模块使用一个感知机模块来生成当前区域建议特征对应的注意力权重w_a，该权重和区域建议特征是大小一致的，两者对应位置相乘即可得到一个新的优化特征，该优化特征能够自适应地关注文本特征，去除背景噪声。如图1所示，每个PFAM模块可以直接拼接在每个全连接层(fc)之后。其次，设计了一种一对多训练策略(OMTS)，使区域建议在有多个文本实例的情况下学习更适当的目标，以消除混淆。具体地，在训练过程中，考虑到实际文本实例的分布情况，为每一个区域建议根据交并比(IoU)匹配两个文本实例，若一个区域建议根据IoU只能匹配到一个文本实例时，另一个则匹配到背景，同时在检测头模块添加一个检测分支，为每一个区域建议给出两个检测结果，然后利用匹配的两个文本实例监督两个检测结果以训练模型。使用一对多训练策略后，测试时当有邻近文本实例存在时，区域建议能够更好地选择其要回归和分类的目标文本实例。

本发明还提出一种面向场景图像中任意形状邻近文本的检测方法，通过上述***实现，整个流程分为以下几步：

S1：输入图片经过特征提取模块提取出融合不同尺度的视觉特征，即融合特征。

S2：所述融合特征经过一个区域建议生成模块，生成大量的区域建议。

S3：将区域建议对应的视觉特征提取后处理为固定大小及维度的区域建议特征。

S4：对每一个区域建议特征经过卷积、全连接层和区域建议特征关注模块得到一个自适应关注文本的优化特征。

S5：使用优化特征进行分类和回归，使用一对多的训练策略来优化训练整个***模型，训练好以后检测场景图像并获取文本。

本发明在CTW1500、Total-Text、ICDAR2015和MSRA-TD500四个主流的场景文本检测数据上进行了广泛的实验，以评估方法的效果。为了公平起见，在与其它方法进行比较时，本实验使用生成数据对模型进行预训练。CTW1500有1000张训练图像和500张测试图像，其中包含较多曲线长文本；Total-Text有1255张训练图像和300张测试图像，其中包含水平、多向和曲线文本；ICDAR2015有1000张训练图像和500张测试图像，是一个多向文本数据集，其中大多数图像质量较低；MSRA-TD500有300张训练图像和200张测试图像，参考之前的方法，增加HUST-TR400的400张图像作为训练图像，其中大多为长宽比较大的文本。

表格1展示了本发明各个模块之间的效果对比，结果证明了本发明提出的区域建议特征关注模块和一对多训练策略可以带来性能提升，同时两个模块之间有互补性，一起能够带来更明显的提升。

表1各个模块对比实验

同时为了进一步验证一对多训练策略对任意形状邻近文本的有效性，本实验将标准的CTW1500和ICDAR2015测试集进行不同角度的旋转，实验结果如表格2所示，可以看到使用一对多训练策略是有非常明显的性能提升。

表2 OMTS在CTW1500和ICDAR2015的不同旋转角度测试集的效果

表格3和表格4展示了本发明和其他主流方法在测试数据集上的效果对比，本发明在多个数据集上达到了最好的性能，证明了本发明的有效性，同时本发明的速度(FPS)比大多数方法要快。

表3 CTW1500和totaltext数据集的检测结果

注：表中*代表使用真实数据集预训练模型。

表4 ICDAR2015和MSRA-TD500数据集的检测结果

注：表中*代表使用真实数据集预训练模型

图2展示了本发明在不同数据集上文本检测的可视化结果，可以直观地看到本发明在多种数据集上都有较好的检测结果。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换，均应涵盖于本发明的保护范围内，本发明的保护范围以权利要求所限定者为准。

Claims

1.一种面向场景图像中任意形状邻近文本的检测***，其特征在于，包括：

特征提取模块，由一个50层的残差网络和一个特征金字塔网络组成，残差网络为卷积神经网络，用于提取一个自底向上的不同尺度的视觉特征；特征金字塔网络由一个横向连接和一个自顶向下连接构成，用于融合不同尺度的视觉特征，得到融合特征；

2.如权利要求1所述的***，其特征在于，在对检测头模块进行训练时，区域建议生成模块根据生成的区域建议与输入图像中的文本对应的矩形框计算交并比，根据该交并比确定正负样本，选择正负样本为一定比例的区域建议来训练检测头模块。

3.如权利要求2所述的***，其特征在于，若交并比大于0.7则为正样本，小于3.0则为负样本。

4.如权利要求2所述的***，其特征在于，正负样本比例为3:1。

5.如权利要求1所述的***，其特征在于，检测头模块包括一区域建议特征关注模块PFAM，PFAM用于使用一个感知机模块来生成当前区域建议特征对应的注意力权重，该注意力权重和区域建议的对应位置相乘即可得到一个自适应关注文本特征的优化特征，去除背景噪声。

6.如权利要求5所述的***，其特征在于，检测头模块包括两个卷积层、两个全连接层、两个PFAM，按照数据流的顺序为两个卷积层、一个全连接层、一个PFAM、另一个全连接层和另一个PFAM。

7.如权利要求1所述的***，其特征在于，检测头模块根据一对多训练策略OMTS进行训练，使区域建议在有多个标注的文本实例的情况下学习优化；该OMTS为在检测头模块添加的一个检测分支，为每一个区域建议给出两种检测结果，然后利用匹配的两个文本实例来监督该两个检测结果，来进行模型训练。

8.如权利要求7所述的***，其特征在于，在训练过程中，为每一个区域建议根据交并比匹配两个文本实例，若一个区域建议根据交并比只能匹配到一个文本实例时，另一个则匹配到背景。

9.一种面向场景图像中任意形状邻近文本的检测方法，基于权利要求1-8任一项所述的***实现，其特征在于，包括以下步骤：

10.如权利要求9所述的方法，其特征在于，利用检测头模块根据每一个区域建议特征生成对应的注意力权重，将区域建议特征和注意力权重对应的位置相乘，得到一个自适应关注文本特征的优化特征，去除背景噪声。