CN108288088B

CN108288088B - 一种基于端到端全卷积神经网络的场景文本检测方法

Info

Publication number: CN108288088B
Application number: CN201810046076.6A
Authority: CN
Inventors: 李玺; 王芳芳; 赵黎明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2020-02-28
Anticipated expiration: 2038-01-17
Also published as: CN108288088A

Abstract

本发明公开了一种基于端到端全卷积神经网络的场景文本检测方法，用于在自然场景的图像中发现多方向文本位置的问题。具体包括如下步骤：获取用于训练场景文本检测的多个图像数据集，并定义算法目标；利用全卷积特征提取网络对图像进行特征学习；对特征图上的每个样本点预测实例级别的仿射变换矩阵，根据预测的仿射变换变形采样网格对文本进行特征表达；对候选文本的特征向量进行分类，同时进行坐标回归和仿射变换回归，联合优化模型；使用所述学习框架检测文本的精确位置；对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。本发明用于真实图像数据的场景文本检测，对多方向、多尺度、多语种、形状畸变等各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于端到端全卷积神经网络的场景文本检测方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于端到端全卷积神经网络场景文本检测方法。

背景技术

场景文本检测被定义为如下问题：在自然场景图像中发现多方向、多尺度、多语种的文本区域位置。近年来，在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。该任务主要有两个关键点：第一是如何很好地建模多方向、形状畸变剧烈的文本目标从而产生有效的特征表达；第二是如何实现利用一个端到端网络直接输出检测结果。针对第一点，本发明认为场景文本的特征表达关键在于准确地建模其空间几何特性，利用仿射变换编码其空间结构，以产生更加准确、完整、噪音较少的特征表达；针对第二点，本发明认为在网络中嵌入仿射变换模块，在特征提取的过程中适应性地调整特征提取的感受野能够实现端到端训练。传统方法一般用固定的感受野提取文本的特征表达而忽略文本目标空间结构的多样化，尽管这些方法有一定的创新性，但是却不能准确地表达文本的几何特性，这在本任务中是非常重要的。

由于统计建模的有效性，目前基于学习的方法逐渐被应用到场景文本检测任务中。现有的基于学习的方法主要采用深度学习框架，输入一幅图像，输出检测的文本区域。

发明内容

为解决上述问题，本发明的目的在于提供一种基于端到端全卷积神经网络场景文本检测方法。在场景文本检测中，文本的方向、尺度、长宽比等几何特性多变，因此我们的工作基于卷积神经网络在特征层面上对文本目标空间几何特性的建模，以得到更准确的特征表达。另外，由于每个样本具有独特的几何特性，我们对每个文本实例进行适应性的特征表达。结合上述两方面，我们设计了一个统一的端到端深度学习框架对场景文本进行个性化、适应性的特征表达，从而使模型更具准确性和鲁棒性。

为实现上述目的，本发明的技术方案为：

基于端到端全卷积神经网络的场景文本检测方法，包括以下步骤：

S1、获取用于训练显著性检测的多组图像数据集，并定义算法目标；

S2、利用全卷积特征提取网络对组内图像进行特征学习；

S3、对特征图上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达；

S4、对候选文本的特征向量进行分类，同时进行坐标回归和仿射变换回归，联合优化模型；

S5、使用由S1～S4建立的端到端联合学习框架检测文本的精确位置；

S6、对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果。

基于上述方案，各步骤可以通过如下方式实现：

步骤S1中，对于所述的用于场景文本检测的多个图像数据集中的一幅图像I，定义算法目标为：检测图像内的文本区域

其中d_i为第i个文本区域包围框，K为I中的文本样本数量。

进一步的，步骤S2中，利用全卷积特征提取网络对图像进行特征学习具体包括：

S21、提取每张图像在不同尺度上的深度特征；

S22、选取三个尺度的特征图并对尺寸较小的两层特征图进行上采样使得三层特征图尺寸匹配，对三个尺度的特征图进行拼接处理，得到融合的多尺度特征图M。

进一步的，步骤S3中，对特征图M上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达具体包括：

S31、使用一层卷积操作，对M上每个像素点针对其对应的文本实例预测一个六维的仿射变换θ，输出与M尺寸匹配的仿射变换参数图Θ；

S32、根据预测的仿射变换变形采样网格并进行卷积操作对文本进行特征表达，输出特征图V：

其中w为卷积核，w(p,q)为卷积核在(p,q)位置的参数值，k×k为卷积核大小，v_xy为V上点(x,y)处的特征向量，θ_xy为S31步骤中在(x,y)处预测的仿射变换矩阵，T_θxy(x+p,y+q)为原采样网格位置(x+p,y+q)经过仿射变换后的新采样网格点坐标。

进一步的，步骤S4中，对候选文本的特征向量进行分类，同时进行坐标回归和仿射变换回归，联合优化模型具体包括：

S41、对v_xy进行softmax分类，判别属于文本类或非文本；

S42、对θ_xy利用smooth L1损失函数进行回归，利用最小二乘法计算出的从样本点(x,y)所对应原图中的区域到目标文本区域之间的仿射变换矩阵作为监督信息；

S43、利用θ_xy计算文本粗略位置并在v_xy上利用smooth L1损失函数回归文本区域包围框顶点粗略坐标和精确坐标之间的偏移量。

进一步的，步骤S5中，使用由S1～S4建立的端到端联合学习框架检测文本的精确位置具体包括：

基于由S1～S4建立的端到端联合学习框架，输入测试图像即真值监督信息，通过最小化损失函数学习得到V上每个样本点处所预测的区域是否为文本区域及判定为文本区域的样本点处所回归处的精确位置信息。

进一步的，步骤S6中，对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果具体包括：

在网络输出中，消除重叠率较高的区域中分数较低的包围框，以去除冗余的重复检测，得到最终的检测结果。

本发明的基于端到端全卷积神经网络场景文本检测方法，相比于现有的场景文本检测方法，具有以下有益效果：

首先，本发明的场景文本检测方法定义了场景文本检测中的一个关键问题，即针对文本目标的空间几何特性的建模以及适应性的特征表达。通过寻求这个方向的解决方法，可以有效地解决复杂场景中的文本检测。

其次，本发明提出了在网络中嵌入仿射变换模块，在训练过程中能够自适应提取特征，有效地提升了场景文本检测的结果。

最后，本发明的场景文本检测方法提出端到端的深度学习网络去联合优化特征表达学习过程、文本与非文本分类过程及坐标偏移量回归过程，从而得到了更加鲁棒的场景文本检测结果。

本发明的基于端到端全卷积神经网络场景文本检测方法，在场景理解、图像分割等场景中，具有良好的应用价值。例如，在场景分析任务中，场景中的文本包含大量帮助理解场景的信息，准确检测文本所在位置是利用场景文本信息的基础，本发明的场景文本检测方法能够快速准确地定位图像中的文本区域，为后续利用分析文本信息提供基础。

附图说明

图1为本发明的流程示意图；

图2为实施例中的原始图像；

图3为实施例中预测的仿射变换指导下的采样网格变形；其中○格子为普通卷积操作的采样网格，×格子为根据仿射变换变形之后的采样网格。

图4为实施例中的联合学习框架对于自然场景图像的文本检测效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，一种基于端到端全卷积神经网络场景文本检测方法，包括以下步骤：

首先，获取用于场景文本检测的多个图像数据集，定义算法目标为：检测图像I内的文本区域

其中d_i为第i个文本区域包围框，K为I中的文本样本数量。

其次，利用全卷积特征提取网络对图像进行特征学习具体包括：

第一步、提取每张图像在不同尺度上的深度特征；

第二步、选取三个尺度的特征图并对尺寸较小的两层特征图进行上采样使得三层特征图尺寸匹配，对三个尺度的特征图进行拼接处理，得到融合的多尺度特征图M。

接下来，对特征图M上的每个样本点预测实例级别的仿射变换矩阵并根据预测的仿射变换变形采样网格对文本进行特征表达具体包括：

第一步、使用一层卷积操作，对M上每个像素点针对其对应的文本实例预测一个六维的仿射变换θ，输出与M尺寸匹配的仿射变换参数图Θ；

第二步、根据预测的仿射变换变形采样网格并进行卷积操作对文本进行特征表达，输出特征图V：

其中w为卷积核，w(p,q)为卷积核在(p,q)位置的参数值，k×k为卷积核大小，v_xy为V上点(x,y)处的特征向量，θ_xy为S31步骤中在(x,y)处预测的仿射变换矩阵，

为原采样网格位置(x+p,y+q)经过仿射变换后的新采样网格点坐标。

之后，对候选文本的特征向量进行分类，同时进行坐标回归和仿射变换回归，联合优化模型具体包括：

第一步、对v_xy进行softmax分类，判别属于文本类或非文本；

第二步、对θ_xy利用smooth L1损失函数进行回归，利用最小二乘法计算出的从样本点(x,y)所对应原图中的区域到目标文本区域之间的仿射变换矩阵作为监督信息；

第三步、利用θ_xy计算文本粗略位置并在v_xy上利用smooth L1损失函数回归文本区域包围框顶点粗略坐标和精确坐标之间的偏移量。

然后，使用由S1～S4建立的端到端联合学习框架检测文本的精确位置具体包括：

最后，对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果具体包括：

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明在两个具有真值标注的数据集上实施，分别为：

MSRA-TD500数据集：该数据集包含300张训练图像，200张测试图像。

ICDAR 2015数据集：该数据集包含1000张训练图像，500张测试图像。

本实施例在每个数据集上分别进行实验，数据集中图像举例如图2所示。

文本检测的主要流程如下：

1)通过基础全卷积网络提取图像的多尺度特征图；

2)融合三个尺度上的特征图，得到初始特征；

3)使用一层卷积操作，预测特征图上每个样本点的仿射变换矩阵，并根据预测的变换变形采样网格进行卷积操作提取适应性特征，如图3所示；

4)联合优化文本分类、仿射变换矩阵回归、包围框坐标偏移量回归；

5)使用所述学习框架检测文本的精确位置；

6)对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果，如图4所示。

7)为综合比较本方法的有效性，我们比较了其他较先进方法以及相同框架和实验条件下对文本进行非适应性特征表达的方法；

8)本实施例检测结果的准确率(precision)、召回率(recall)及F-measure见表1表2所示。图中数据显示了本发明在precision，recall以及F-measure三个指标上的表现，与其他方法和相同框架下对文本进行非适应性特征表达的方法相比，在整体上有了进一步的提升。其中F-measure表示准确度与回归之间的目标检索平衡度：

表1本实施例在MSRA-TD500数据集上各评价指标

表2本实施例在ICDAR 2015数据集上各评价指标

其中ITN为本实验方法，Baseline为相同框架何实验条件下对文本进行非适应性特征表达的方法。其余方法对应的参考文献如下：

[1]L.Kang,Y.Li,and D.S.Doermann.Orientation robust text linedetection in natural images.In CVPR,2014.

[2]C.Yao,X.Bai,W.Liu,Y.Ma,and Z.Tu.Detecting texts of arbitraryorientations in natural images.In CVPR,2012.

[3]X.Yin,W.Pei,J.Zhang,and H.Hao.Multi-orientation scene textdetection with adaptive clustering.PAMI,37(9):1930–1937,2015.

[4]X.Yin,X.Yin,K.Huang,and H.Hao.Robust text detection in naturalscene images.PAMI,36(5):970–983,2014.

[5]Z.Zhang,C.Zhang,W.Shen,C.Yao,W.Liu,and X.Bai.Multi-oriented textdetection with fully convolutional networks.In CVPR,2016.

[6]J.Ma,W.Shao,H.Ye,L.Wang,H.Wang,Y.Zheng,and X.Xue.

Arbitrary-oriented scene text detection via rotation proposals.CoRR,abs/1703.01086,2017.

[7]C.Yao,X.Bai,N.Sang,X.Zhou,S.Zhou,and Z.Cao.Scene text detectionvia holistic,multi-channel prediction.CoRR,abs/1606.09002,2016.

[8]B.Shi,X.Bai,and S.J.Belongie.Detecting oriented text in naturalimages by linking segments.In CVPR,2017.

[9]Z.Tian,W.Huang,T.He,P.He,and Y.Qiao.Detecting text in naturalimage with connectionist text proposal network.In ECCV,2016.

[10]Y.Liu and L.Jin.Deep matching prior network:Toward tighter multi-oriented text detection.In CVPR,2017.

通过以上技术方案，本发明实施基于深度学习技术提供了一种基于端到端全卷积神经网络场景文本检测方法。本发明可以在各种真实图像数据上建模场景文本的空间几何特性，提取适应性特征表达，从而得到准确的检测结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于端到端全卷积神经网络场景文本检测方法，其特征在于，包括以下步骤：

S2、利用全卷积特征提取网络对组内图像进行特征学习；

S3、对特征图上的每个样本点预测实例级别的仿射变换矩阵，并根据预测的仿射变换变形采样网格并进行卷积操作对文本进行特征表达，输出特征图V：

为原采样网格位置(x+p,y+q)经过仿射变换后的新采样网格点坐标；

2.如权利要求1所述的基于端到端全卷积神经网络场景文本检测方法，其特征在于，步骤S1中，对于用于场景文本检测的多组图像数据集中的一幅图像I，定义算法目标为：检测图像内的文本区域

其中d_i为第i个文本区域包围框，K为I中的文本样本数量。

3.如权利要求2所述的基于端到端全卷积神经网络场景文本检测方法，其特征在于，步骤S2中，利用全卷积特征提取网络对图像进行特征学习具体包括：

S21、提取每张图像在不同尺度上的深度特征；

4.如权利要求3所述的基于端到端全卷积神经网络场景文本检测方法，其特征在于，步骤S3中，对特征图M上的每个样本点预测实例级别的仿射变换矩阵具体包括：

使用一层卷积操作，对M上每个像素点针对其对应的文本实例预测一个六维的仿射变换θ，输出与M尺寸匹配的仿射变换参数图Θ。

5.如权利要求4所述的基于端到端全卷积神经网络场景文本检测方法，其特征在于，步骤S4中，对候选文本的特征向量进行分类，同时进行坐标回归和仿射变换回归，联合优化模型具体包括：

S41、对v_xy进行softmax分类，判别属于文本类或非文本；

6.如权利要求5所述的基于端到端全卷积神经网络场景文本检测方法，其特征在于，步骤S5中，使用由S1～S4建立的端到端联合学习框架检测文本的精确位置具体包括：

7.如权利要求6所述的基于端到端全卷积神经网络场景文本检测方法，其特征在于，步骤S6中，对网络输出的包围框集合进行非极大值抑制得到最终文本检测结果具体包括：

在网络输出中，消除重叠率高于第一阈值的区域中分数低于第二阈值的包围框，以去除冗余的重复检测，得到最终的检测结果。