CN106650725A

CN106650725A - 基于全卷积神经网络的候选文本框生成和文本检测方法

Info

Publication number: CN106650725A
Application number: CN201611070587.9A
Authority: CN
Inventors: 马景法; 金连文; 钟卓耀
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2017-05-10
Anticipated expiration: 2036-11-29
Also published as: CN106650725B

Abstract

本发明公开了基于全卷积神经网络的候选文本框生成和文本检测方法，包括步骤：生成文本区域候选框，inception‑RPN以自然场景图片和一套标记文本区域的真实边界框作为输入，产生可控数量的单词区域候选框，在VGG16模型的卷积特征响应图上滑动一个inception网络，并在每个滑动位置辅助一套文本特征先验框；并入容易引起歧义的文本类别监督信息，融入多层次的区域下采样信息，进行文本检测；通过反向传播和随机梯度下降，以一种端到端的方式训练inception候选框生成网络和文本检测网络；候选框迭代投票以一种补充的方式获得更高的文本召回率，使用候选框过滤算法，移除过剩的检测框。本发明在ICDAR 2011和2013robust文本检测标准数据库上分别获得0.83和0.85的准确率，优于先前最好的结果。

Description

基于全卷积神经网络的候选文本框生成和文本检测方法

技术领域

本发明涉及自然场景图片中文本候选框生成和文本检测的技术，尤其涉及基于全卷积神经网络的候选文本框生成和文本检测方法。

背景技术

图像中的文本提供了丰富和精确的高水平的语义信息，这些信息对于场景理解，图像和食品检索，基于内容的推荐***等大量潜在应用至关重要。自然场景图片的文本检测在计算机视觉和图像理解社区吸引了大量的关注。然而，自然场景的文本检测仍然是一个充满挑战和未解决的问题。首先，文本图片的背景是很复杂的，并且符号、标记、砖块和草地等区域组成是非常难于和文本区分的。此外，不均匀的光照条件、强曝光、低对比度、模糊和低分辨率等超级混合因素对文字检测任务增添了巨大的挑战

发明内容

为克服现有技术的不足，本发明提出基于全卷积神经网络的候选文本框生成和文本检测方法。

本发明的技术方案是这样实现的：

基于全卷积神经网络的候选文本框生成和文本检测方法，包括步骤

S1：生成文本区域候选框，inception-RPN以自然场景图片和一套标记文本区域的真实边界框作为输入，产生可控数量的单词区域候选框，在VGG16模型的卷积特征响应图上滑动一个inception网络，并在每个滑动位置辅助一套文本特征先验框；

S2：并入容易引起歧义的文本类别监督信息，融入多层次的区域下采样信息，进行文本检测；

S3：通过反向传播和随机梯度下降，以一种端到端的方式训练inception候选框生成网络和文本检测网络；

S4：候选框迭代投票以一种补充的方式获得更高的文本召回率，使用候选框过滤算法，移除过剩的检测框。

进一步地，步骤S1包括步骤

S11：文本特征先验框设计；

S12：构建Inception候选框生成网络。

更进一步地，步骤S11中文本特征先验框共24种，其中每个滑动位置滑动窗的宽设为32，48，64和80，长宽比例为0.2，0.5，0.8，1.0，1.2和1.5。

更进一步地，步骤S12中inception候选框生成网络由一个3*3的卷积层，5*5的卷积层和3*3的最大池化层连接到一个作为输入的Conv5_3的特征响应图的相应的空间接受域上。

进一步地，步骤S2中文本类别监督信息为：候选框IoU重叠大于等于0.5的指定为存在文本，把候选框IoU重叠大于等于0.2小于0.5的指定为“模糊文本”，其他指定为不包含文本信息。

进一步地，步骤S2中多层次的区域下采样信息为：在VGG16网络的Conv4_3和Conv5_3的卷积特征响应图都执行多层次的区域下采样，并得到两个512*H*W的采样特征，然后以一个512*1*1的卷积层解码连接在一起的特征。

本发明的有益效果在于，与现有技术相比，本发明提出了inception候选框生成网络，这种网络在卷积特征图上应用不同大小的滑动窗口，并在每个滑动位置辅助一套文本特征先验框，生成单词区域候选框。这种不同大小的滑动窗口在相应位置上保留本地信息的同时还兼顾上下文信息，帮助过滤掉不含文本的候选框，本发明的inception候选框生成网络在仅用几百个单词候选框的情况下得到了很高的召回率；本发明还在文本检测网络引进了额外的容易起歧义的文本类别监督信息和融入了多层次的区域下采样信息，这些信息帮助文本检测网络学习更多区分性信息从复杂的背景中区分出文本；此外，本发明为了更好地利用训练过程中的模型，提出了一种候选框迭代投票的方案，以一种补充的方式获得了较高的单词召回率，本发明使用的过滤算法，保留最适合的候选框，移除过剩的候选框。

附图说明

图1是本发明基于全卷积神经网络的候选文本框生成和文本检测方法的流程图。

图2是本发明一个实施例单的词区域候选框的IoU重叠在特定区间的示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明基于全卷积神经网络的候选文本框生成和文本检测方法，包含四个步骤：S1、文本区域候选框生成；S2、文本检测；S3、端到端的学习优化；S4、启发式处理。

所述组成部分S1的作用为：inception-RPN以自然场景图片和一套标记文本区域的真实边界框作为输入,产生可控数量的单词区域候选框；为了搜索单词区域候选框,我们在VGG16模型的卷积特征响应图上滑动一个inception网络，并在每个滑动位置辅助一套文本特征先验框。具体可分为两步：(1)设计文本特征先验框(2)Inception候选框生成网络。在每个滑动位置设置四种不同规模(32，48，64和80)和六种不同的比例(0.2，0.5，0.8，1.0，1.2和1.5)，共k＝24种先验滑动窗口。在学习阶段，把与真实文本框交集除以并集大于0.5的指定为文本标签，反之把重叠区域除以并集区域小于0.3的指定为背景标签。设计的inception候选框生成网络由一个3*3的卷积层，5*5的卷积层和3*3的最大池化层连接到一个作为输入的Conv5_3的特征响应图的相应的空间接受域上。另外，为了降低维度，1*1的卷积操作被应用在3*3的最大池化层上。然后，我们把通道坐标上各个部分的特征连接起来，一个640维的连接特征向量被送往两个输出层：分类层预测该区域是否存在文本的得分，回归层改善每个滑动位置各种先验窗口的文本区域位置。

步骤S2包括：(1)综合容易引起歧义的文本类别监督信息以增加更多的合理的监督信息，帮助分类器学习更多的区别的特征，从复杂多样的背景中辨别出文本区域，并过滤掉不包含文本的候选框。(2)融入多层次的区域下采样信息。作用为更好的利用多层次的卷积特征和丰富每个滑动窗口的区分性信息。

以前的很多工作在检测网络中把IoU重叠大于0.5的候选框指定为存在文本，反之指定为不存在文本。然而这种判定候选框是否存在文本的方法是不合理的，因为IoU重叠在区间0.2到0.5可能包含空间或者扩展性文本信息，如图2所示。这些混杂的标记信息会扰乱文本和非文本候选框的分类学习。为此，我们提出把候选框IoU重叠大于等于0.5的指定为存在文本，把候选框IoU重叠大于等于0.2小于0.5的指定为“模糊文本”，其他指定为不包含文本信息。这种策略提供了更多的合理的监督信息帮助分类器学习更多的区分性特征，以从复杂多样的背景中辨别出文本并过滤掉不含文本的候选框。

为了更好地利用多层次卷积特征和丰富每个候选框的判别信息，本发明在VGG16网络的Conv4_3和Conv5_3的卷积特征响应图都执行多层次的区域下采样，并得到两个512*H*W的采样特征。然后以一个512*1*1的卷积层解码连接在一起的特征。这个1*1的卷积层的作用为(1)将多层次的采样特征组合在一起和在训练过程中权重加权融合。(2)降低维度以匹配VGG16的第一个全连接层。

所述组成部分S3不同于已提出将RPN和Fast-RCNN结合的四步训练策略，本发明通过反向传播和随机梯度下降的方法把inception候选框生成网络和文字检测网络以端到端的方式进行训练。共享的卷积网络由预先训练好的imageNet分类网络初始化。新层的权重由均值为0和偏差为0.01的高斯分布初始化。基准学习率为0.001，每迭代40000次缩小为原来的十分之一。动量和权值衰减量分别设为0.9和0.0005。

Inception候选框生成网络和文本检测网络有两个兄弟输入层：一个分类层，一个回归层。Inception候选框生成网络和文本检测网络输出层的区别如下：(1)inception候选框生成网络，每个先验框应该被独立参数化，所以我们需要同时预测出k＝24个先验候选框。分类层输出2k个判定候选框是否有文本的得分，同时回归层输出4k个改善后的候选框偏离原候选框的数值。(2)文本检测网络对每个候选框有三个输出得分，分别对应背景，模糊文本和存在文本的候选框。回归层输出每个文本候选框4个回归偏差值。我们训练过程中使这个多任务的损失函数最小，公式如下:

L(p,p^*,t,t^*)＝L_cls(p,p^*)+λL_reg(t,t^*), (0.1)

分类层的损失函数L_cls是softmax损失函数，p和p^*分别是预测的标签和真实的标签。回归损失函数L_reg应用smooth-L1损失函数。另外，t＝{t_x,t_y,t_w,t_h}和分别相应的代表预测和真实候选框的回归偏差值向量，t^*由如下公式所得：

这里，P＝{P_x,P_y,P_w,P_h}和G＝{G_x,G_y,G_w,G_h}分别代表相应候选框P和真实文本框G的中心坐标、高度和宽度。λ代表损失平衡参数，在inception候选框生成网络中我们让λ＝3以使他偏向更好候选框位置，在文本检测网络让λ＝1。

所述组成部分S4包括候选框迭代投票机制和过滤算法。候选框迭代投票机制使本发明以一种补充的方式获得更高的文本召回率，提高文本检测***的系能。过滤算法使本发明移除过剩的检测框，以提高精确度。

本发明首先将自然场景图片和一套真实文本框数据输入到inception候选框生成网络，产生一定数量的单词区域候选框。然后将得到单词区域候选框送入一个用于文本和非文本分类及文本定位的文本检测网络，该网络在训练过程中增加了容易引起歧义的文本类别监督信息和融入了多层次的区域下采样信息。整个***通过反向传播和梯度下降机制以一种端到端的方式进行训练。为充分利用训练过程的中间模型本发明采用候选框迭代投票机制以一种补充的方式获得文本实例的高召回率，提高整个文本检测***的性能。最后本发明应用一种过滤算法，这种算法就坐标位置而言找到每个文本实例的内外候选框，保留高得分候选框，移除低得分的候选框。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于全卷积神经网络的候选文本框生成和文本检测方法，其特征在于，包括步骤

2.如权利要求1所述的基于全卷积神经网络的候选文本框生成和文本检测方法，其特征在于，步骤S1包括步骤

S11：文本特征先验框设计；

S12：构建Inception候选框生成网络。

3.如权利要求2所述的基于全卷积神经网络的候选文本框生成和文本检测方法，其特征在于，步骤S11中文本特征先验框共24种，其中每个滑动位置滑动窗口宽度设为32，48，64和80，长宽比例为0.2，0.5，0.8，1.0，1.2和1.5。

4.如权利要求2所述的基于全卷积神经网络的候选文本框生成和文本检测方法，其特征在于，步骤S12中inception候选框生成网络由一个3*3的卷积层，5*5的卷积层和3*3的最大池化层连接到一个作为输入的Conv5_3的特征响应图的相应的空间接受域上。

5.如权利要求1所述的基于全卷积神经网络的候选文本框生成和文本检测方法，其特征在于，步骤S2中文本类别监督信息为：候选框IoU重叠大于等于0.5的指定为存在文本，把候选框IoU重叠大于等于0.2小于0.5的指定为“模糊文本”，其他指定为不包含文本信息。

6.如权利要求1所述的基于全卷积神经网络的候选文本框生成和文本检测方法，其特征在于，步骤S2中多层次的区域下采样信息为：在VGG16网络的Conv4_3和Conv5_3的卷积特征响应图都执行多层次的区域下采样，并得到两个512*H*W的采样特征，然后以一个512*1*1的卷积层解码连接在一起的特征。