CN109117836B

CN109117836B - 一种基于焦点损失函数的自然场景下文字检测定位方法和装置

Info

Publication number: CN109117836B
Application number: CN201810729838.2A
Authority: CN
Inventors: 操晓春; 田晓玮; 伍蹈; 代朋纹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2022-05-24
Anticipated expiration: 2038-07-05
Also published as: CN109117836A

Abstract

本发明公开一种基于焦点损失函数的自然场景下文字检测定位方法和装置。该方法首先对标注的数据进行预处理，然后构造文本检测定位网络，然后引用聚焦损失函数作为训练过程损失函数的一部分，然后对待检测的自然场景图片进行检测。该方法通过调整现有标注使标注更加适合所设计的文字检测网络；基于FCN网络将多卷积层进行合并，使之更加符合文字检测任务；通过引入聚焦损失函数在训练过程中平衡正负样本，提高检测精度。本发明能够在文字检测定位上取得高精度高召回的效果。

Description

一种基于焦点损失函数的自然场景下文字检测定位方法和装置

技术领域

本发明属于计算机视觉技术领域，具体涉及一种能够在自然场景图片中准确定位文字区域的方法和装置。

背景技术

人类传播信息的方法多种多样，文字作为信息传播的载体，其本身直接蕴含着丰富的语义信息。在自然场景中，文字无处不在。不论是店铺招牌，还是交通指示牌，甚至街边广告、海报等，都使用文字来传达信息。准确的从自然场景中定位出文字区域并加以识别，可以帮助机器更好地理解场景语义内容，对很多领域都有着辅助性的帮助作用。例如，在街景识别领域，识别出建筑牌匾上的文字有利于我们更好地理解街景信息；在辅助驾驶领域，识别出交通标识牌上的文字有利于我们更好地辅助自动驾驶。在人工智能高速发展的今天，自然场景文字识别已经成为计算机视觉的重要组成部分。在自然场景图像中的文字识别主要分为两个任务，一是文字检测，即在图像中定位出文字所在区域；二是文字识别，即从定位的区域中提取出文字的内容。由于文字笔画丰富，细节敏感，只有准确的定位出文字区域才能做后续识别工作，故文字检测在整个识别任务中占有重要地位。

自然场景下的文字检测与传统的文字检测技术有很大的不同，主要体现在以下几个方面。一是处理的对象不同。传统文字检测主要处理的是文档图像，一般是扫描文档，格式为PDF等。自然场景下的文字检测主要处理的是街景图片，一般是照片影像，格式为JPG等。二是文字区域与背景区域情况不同。传统文字检测处理对象中的文字区域占据画面主要位置，文字规整，背景多为纯色，没有其他干扰。自然场景文字检测处理对象中的文字区域布局不规则，文字大小不一，颜色各异，背景复杂，充满着各种对于文字检测的干扰信息，如，栏杆，电线，遮挡物等。三是处理对象的画面质量不同。传统文字检测处理对象画质较好，图像清晰。自然场景文字检测处理对象由于拍摄角度、抖动或是光照情况等原因，图像可能存在噪点多，模糊等情况。可以看出，自然场景中的文字检测要比传统文字检测更加复杂，处理对象更加困难。因此，自然场景中的文字检测一直以来都是计算机视觉领域中一个极具挑战的任务。

目前，自然场景下的文字检测方法一共有三类，分别是基于连通组件、基于纹理特征和基于二者混合的方法。基于连通组件的方法主要是利用文字位置相邻像素之间的相关性来检测文字区域。对于自然场景的文字，反映在灰度图像中的文字的灰度值近似，此外，文字颜色、笔画宽度等也有一定的相关性。主要的方法有：最大稳定极值区域(MSER)，颜色聚类方法(Color Clustering)、笔画宽度变换(SWT)和梯度方向直方图(HOG)等方法。基于纹理特征的方法主要是利用文字和背景纹理特征的不同性来检测文字区域。对于自然场景的文字，文字区域往往有独特的纹理特征，可以将此类特征作为输入，传入训练好的分类器，将文字从背景中提取出来。基于二者混合的方法结合了以上提到的相关性和不同性来检测文字区域。主要分为两个步骤，先通过相关性来得到文字候选区域，再对这些候选区域进行纹理特征检测，精确定位出文字区域。

近几年来，深度学习高速发展，利用深度学习的方法来获取文字的纹理特征，进而辨别文字区域和背景区域成为了当下文字检测的主流方法。在这里，把文字视为一种特殊的物体，使用深度学习中物体检测的主流方法，例如：Faster R-CNN，YOLO，RFCN等等来进行自然场景的文字检测。但是自然场景中的文字和物体检测中的物体存在较大区别，主要体现在文字区域可能较长，直接使用物体检测方法针对性差，效果不好。因此，针对文字的特点，设计出合理高效的文字检测方法依然存在着较大的挑战。

发明内容

本发明针对自然场景中的图像，提出了一种基于焦点损失函数的深度学习文字检测定位方法和装置。

本发明采用了深度神经网络中的FCN，基于文字的纹理特征信息，分辨出文字区域所在像素，并同时对文本框的大小和倾角进行回归，可以对自然场景中任意大小、倾角的文字进行检测定位。特别地，在训练过程中将焦点损失函数应用到分辨文字区域的过程中，平衡了图片中文字区域较小、难以学习的问题，提高了文字检测的准确性。在测试方面，由于本发明的网络设计对不同尺度的文字都具有良好的敏感性，故无需使用级联测试也可准确定位文字区域。

本发明采用的技术方案如下：

一种基于焦点损失函数的自然场景下文字检测定位方法，包括以下步骤：

1)根据标注的自然场景图片的数据集，构造文字/背景二分类真值图以及文字像素与其所在文本框对应关系的五维真值图；

2)基于FCN网络构造文字检测网络，所述文字检测网络的损失函数包含焦点损失函数和回归文本框的损失函数；

3)利用构造的所述二分类真值图和所述五维真值图对所述文字检测网络进行训练；所述文字检测网络采用所述焦点损失函数逐像素进行分文字、背景的二分类，并采用所述回归文本框的损失函数对像素所在文本框的高度、宽度以及倾斜角度进行回归；

4)将待检测的自然场景图片输入训练完成的文字检测网络，实现文字的检测定位。

进一步地，步骤1)首先将现有标注调整为二分类标注，文字区域的像素设为1，背景区域的像素设为0，构造出文字/背景二分类真值图；然后计算出像素与最小包围的矩形框的四边界距离以及所在文本框同水平方向夹角的五维真值图。

进一步地，步骤2)使用ResNet-50作为基础卷积神经网络结构，将多个卷积层结果进行级联，构造文字检测网络。

进一步地，步骤2)所述文字检测网络中，由conv5_c的结果做反池化操作后同conv4_f的结果进行合并后经3*3和1*1两个卷积操作后得到f1网络层，如此反复加入conv3_d，conv2_c后得到f2和f3两个网络层；f3经过两个不同的3*3卷积操作后得到平行的两个网络层f4_1和f4_2，分别用于计算两个损失函数，共同训练。

进一步地，所述焦点损失函数的公式如下：

其中w和h分别指的是预测二分类图的宽度和高度，Y^*指的是给定的真实值，α_t是用于平衡正负样本的参数，γ是用于平衡难易样本的参数，p_t指的是二分类网络预测值；p_t和α_t计算公式如下：

其中p指的在该像素下网络给出的预测值，y指的在该像素的真实值。

进一步地，，所述回归文本框的损失函数定义如下：

L_reg＝L_IoU+ηL_θ

其中L_IoU指的是回归的文本框与真实文本框之间的重叠度，L_θ指的是预测的倾角与真实倾角之间的损失，η是平衡参数；L_IoU和L_θ的计算方式如下：

其中

R^*分别指预测的文本框和与之对应的标注文本框，

θ^*分别指预测的倾斜角度和与之对应的标注倾斜角度，常数c用于约束L_θ的上界。

进一步地，步骤4)包括以下步骤：

4.1)将待检测的自然场景图片进行等比例缩小至长边<2400p；

4.2)将待检测的自然场景图片输入文字检测网络得到二分类结果和回归结果；

4.3)对二分类图挑选大于阈值的文字像素区域，根据文字像素区域和对应的回归结果，使用局部的极大值抑制算法去除多余文本框。

与上面方法对应的，本发明还提供一种基于焦点损失函数的自然场景下文字检测定位装置，其包括：

真值图构造模块，负责根据标注的自然场景图片的数据集，构造文字/背景二分类真值图以及文字像素与其所在文本框对应关系的五维真值图；

文字检测网络构造模块，负责基于FCN网络构造文字检测网络，所述文字检测网络的损失函数包含焦点损失函数和回归文本框的损失函数；

文字检测网络训练模块，负责利用构造的所述二分类真值图和所述五维真值图对所述文字检测网络进行训练；所述文字检测网络采用所述焦点损失函数逐像素进行分文字、背景的二分类，并采用所述回归文本框的损失函数对像素所在文本框的高度、宽度以及倾斜角度进行回归；

文字的检测定位模块，负责将待检测的自然场景图片输入训练完成的文字检测网络，实现文字的检测定位。

综上所述，本发明设计了一个基于深度学习的自然场景下文字定位检测的方法，具有高精度高召回率的结果。与现有的技术相比，本发明的优点在于：

1、基于FCN网络进行改进，设计了一个文本检测网络。

2、调整并采用聚焦损失函数，有利于网络训练。

3、网络适应性强，可以利用不多的训练样本，得到高精度的测试结果。

附图说明

图1：数据标注转化示意图；

图2：自然场景文字检测网络架构图；

图3：自然场景文字检测结果实例图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的基于焦点损失函数的自然场景下文字检测定位方法，主要分为训练阶段(对应训练模块)和测试阶段(对应测试模块)。

训练阶段的步骤如下：

1)对标注的数据集进行预处理，构造文字/背景二分类真值图以及文字像素与其所在文本框对应关系的五维真值图。

该步骤1)的标注转化如图1所示，对标注的文本框内像素标注为1，背景像素标注为0，构造出文字/背景二分类真值图。如标注文本框为任意四边形框，需统一扩大调整成最小包围的矩形框，而后为避免干扰，对扩大后的文本框缩小30％的内部像素(考虑到文字区域中并不一定完全都是文字，所以通过缩小30％过滤掉靠近标注边缘的位置)，计算该像素同所在矩形框四个边界的距离以及所在文本框同水平方向的夹角，该四个距离和一个夹角构成五维真值图。如图1所示，l表示left，为该像素距左边框的距离，t表示top，为该像素距上边框的距离；b表示bottom，为该像素距下边框的距离，r表示right，为该像素距右边框的距离，θ指该文字框同水平方向的夹角。

2)基于FCN网络(Evan Shelhamer,Jonathan Long,and Trevor Darrell,“Fullyconvolutional networks for semantic segmentation,”PAMI,2017,pp.640–651.)，使用ResNet-50作为基础卷积神经网络结构，将多个卷积层结果进行级联，构造文字检测网络。

该步骤2)借鉴Fully Convolutional Network(FCN)思想，把文字检测任务视同物体分割任务。网络结构如图2所示，首先，使用了ResNet-50作为基础网络结构，抽取图像的高层与底层纹理特征融合后的特征。图2中conv5_c，conv4_f，conv3_d、conv2_c和conv1表示卷积层。为了适应不同尺度的文字特征，将conv5_c，conv4_f，conv3_d和conv2_c的特征进行融合，构造了f1，f2，f3几个特殊的网络层。具体地，由conv5_c的结果做反池化操作后同conv4_f的结果进行合并后经3*3和1*1两个卷积操作后得到f1网络层，如此反复加入conv3_d，conv2_c后得到f2和f3两个网络层，即由f1的结果做反池化操作后同conv3_d的结果进行合并后经3*3和1*1两个卷积操作后得到f2网络层，由f2的结果做反池化操作后同conv2_c的结果进行合并后经3*3和1*1两个卷积操作后得到f3网络层。图2中“预测值”上方的数值1和5表示维数，1表示判断是不是文字像素，5是五维真值图中的五个参数。

3)逐像素进行文字/背景二分类的同时，对文字区域所在像素回归了像素同所在文本框的四个边界的距离以及所在文本框同水平方向的倾斜角度。使得网络在预测出文字区域的同时，可以较容易地构造出文本框，实现文字的检测和定位。

该步骤3)为了构造文字检测的文本框，在二分类问题的同时，进行了回归任务的多任务学***行的卷积层f4_1和f4_2分别输出文字/背景二分类结果和文本框大小和倾角的回归结果。具体地，f3经过两个不同的3*3卷积操作后得到平行的两个网络层f4_1和f4_2，分别用于计算两个损失函数，共同训练。

4)网络训练过程中，考虑到样本有难有易，此外，文字区域在整张图片中比例较小，采样时正负样本比例极不平衡，通常需要引入难例挖掘的方法提高训练效率。本发明将焦点损失函数(Tsung-Yi Lin,Priya Goyal,Ross B.Girshick,Kaiming He,and PiotrDolla′r,“Focal loss for dense object detec-tion,”in ICCV 2017,pp.2999–3007.)调整后引入到文字检测任务的训练过程中，无需难例挖掘。

该步骤4)使用了物体检测中用于解决训练样本类间不平衡问题(包括正负样本不平衡及难易样本不平衡)的损失函数作为文字检测任务损失函数的一部分。将该损失函数的对象从anchor(候选文字(文本)框)转化为像素，将多类问题转化二分类问题以适应文字检测任务。

测试阶段的步骤如下：

1)调整测试图片大小输入文字检测网络，文字检测网络的检测结果为文字、背景二分类图和文本框大小、倾角等回归结果图。

该步骤1)保持图片比例，调整图片大小至长边不超过2400p，其中p表示像素数量，即长边不能超过2400像素长。对超过限制的图片进行保持长宽比的等比例缩小。

2)对二分类图挑选得分(score)大于阈值的文字像素区域，根据文字像素区域和对应的回归结果，使用局部的非极大值抑制算法(Local-Aware NMS)去除多余文本框。

该步骤2)对于网络输出的二分类结果图，过滤有效文字像素阈值score为0.97。图3是自然场景文字检测结果实例图。

下面进一步说明本发明的文字检测网络。本发明提出的基于深度学***方向夹角进行回归。总的损失函数方程如下所示：

L＝L_seg+λL_reg#(1)

其中平衡参数λ设为1。

对于二分类过程，其损失函数定义如下：

其中w和h分别指的是预测二分类图的宽度和高度，Y^*指的是给定的真实值，α_t是用于平衡正负样本的参数，γ是用于平衡难易样本的参数，p_t指的是二分类网络预测值。(2)中p_t和α_t计算方式类似，计算公式如下：

其中p指的在该像素下网络给出的预测值，y指的在该像素的真实值，α是一个参数。在本实施例的文字检测模型中，α,γ分别取值为0.95和2。在其它实施例中α,γ也可以根据需要取其它数值。

对于回归过程，其损失函数定义如下：

L_reg＝L_IoU+ηL_θ#(5)

其中L_IoU指的是回归的文本框与真实文本框之间的重叠度(IoU)，L_θ指的是预测的倾角与真实倾角之间的损失，η是平衡参数，在本文字检测方法中设为20。两者计算方式如下：

其中

R^*分别指预测的文本框和与之对应的标注文本框，

θ^*分别指预测的倾斜角度和与之对应的标注倾斜角度，常数c用于约束L_θ的上界，在本文字检测方法中设为6。

本发明提出的自然场景文字检测方法，其测试环境及实验结果为：

(1)测试环境：

***环境：ubuntu16.04；

硬件环境：内存：64GB，GPU：K80，硬盘：2TB；

(2)实验数据：

训练数据：

ImageNet预训练RestNet-50基础网络。

使用自然场景图片1229张(包括ICDAR2013训练集299张，ICDAR2015训练集1000张)训练到模型稳定，效果不再提升

训练优化方法：ADAM

测试数据：ICDAR2015(500张)

评估方法：ICDAR2015在线评估

(3)实验结果：

为说明本发明的效果，使用相同的数据集对是否使用焦点损失函数的本发明文本检测网络进行训练，到模型稳定效果不再提升时停止训练，使用ICDAR2015测试集进行测试，并与现有主流的文字检测方法效果进行对比。

现有主流方案和本发明测试对比结果如下面表1所示：

表1.现有方法和本发明的测试结果对比

序号	方法	P	R	F
					1	CTPN	0.516	0.742	0.609
2	EAST	0.836	0.735	0.782
					3	本发明(不使用焦点损失函数)	0.819	0.767	0.792
4	本发明(使用焦点损失函数)	0.847	0.773	0.809

其中P指准确率，R指召回率，F是P和R的调和平均数。从表中可以清楚的看到，本发明所涉及到的文本检测网络比现有的文字检测方法CTPN和EAST的精度和召回率有很大提升，并且使用焦点损失函数进行训练的方法得到的网络模型在精度和召回率上得到了进一步提升。其中CTPN方法参见“Zhi Tian,Weilin Huang,Tong He,Pan He,and Yu Qiao,“Detecting text in natural image with connectionist text proposal network,”inECCV 2016,pp.56–72.”，EAST方法参见“Xinyu Zhou,Cong Yao,He Wen,Yuzhi Wang,Shuchang Zhou,Weiran He,and Jiajun Liang,“EAST:an efficient and accuratescene text detector,”in CVPR 2017,pp.2642–2651.”。

本发明另一实施例提供一种基于焦点损失函数的自然场景下文字检测定位装置，其包括：

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于焦点损失函数的自然场景下文字检测定位方法，其特征在于，包括以下步骤：

1)根据标注的自然场景图片的数据集，构造文字以及背景的二分类真值图以及文字像素与其所在文本框对应关系的五维真值图；

4)将待检测的自然场景图片输入训练完成的文字检测网络，实现文字的检测定位；

其中，步骤1)首先将现有标注调整为二分类标注，文字区域的像素设为1，背景区域的像素设为0，构造出文字以及背景的二分类真值图；然后计算出像素与最小包围的矩形框的四边界距离以及所在文本框同水平方向夹角的五维真值图；

其中，步骤2)所述焦点损失函数的公式如下：

其中p指的在该像素下网络给出的预测值，y指的在该像素的真实值；

其中，步骤2)所述回归文本框的损失函数定义如下：

L_reg＝L_IoU+ηL_θ

其中

R^*分别指预测的文本框和与之对应的标注文本框，

θ^*分别指预测的倾斜角度和与之对应的标注倾斜角度，常数c用于约束L_θ的上界；

其中，步骤4)包括以下步骤：

将待检测的自然场景图片输入文字检测网络得到二分类结果和回归结果；

对二分类图挑选大于阈值的文字像素区域，根据文字像素区域和对应的回归结果，使用局部的极大值抑制算法去除多余文本框。

2.如权利要求1所述的方法，其特征在于，步骤2)使用ResNet-50作为基础卷积神经网络结构，将多个卷积层结果进行级联，构造文字检测网络。

3.如权利要求2所述的方法，其特征在于，步骤2)所述文字检测网络中，由conv5_c的结果做反池化操作后同conv4_f的结果进行合并后经3*3和1*1两个卷积操作后得到f1网络层；由f1的结果做反池化操作后同conv3_d的结果进行合并后经3*3和1*1两个卷积操作后得到f2网络层；由f2的结果做反池化操作后同conv2_c的结果进行合并后经3*3和1*1两个卷积操作后得到f3网络层；f3经过两个不同的3*3卷积操作后得到平行的两个网络层f4_1和f4_2，分别用于计算两个损失函数，共同训练。

4.如权利要求1所述的方法，其特征在于，步骤4)在将待检测的自然场景图片输入文字检测网络之前，进行以下步骤：

将待检测的自然场景图片进行等比例缩小至长边<2400p。

5.一种采用权利要求1～4中任一权利要求所述方法的基于焦点损失函数的自然场景下文字检测定位装置，其特征在于，包括：

真值图构造模块，负责根据标注的自然场景图片的数据集，构造文字以及背景的二分类真值图以及文字像素与其所在文本框对应关系的五维真值图；