CN107688806B

CN107688806B - 一种基于仿射变换的自由场景文本检测方法

Info

Publication number: CN107688806B
Application number: CN201710717760.8A
Authority: CN
Inventors: 刘晶; 张琳; 刘钰; 蒋晓悦; 王西坡
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2021-04-20
Anticipated expiration: 2037-08-21
Also published as: CN107688806A

Abstract

本发明提供了一种基于仿射变换的自由场景文本检测方法，涉及图像处理领域，本发明将MSER与SWT结合，实现文本检测，之后利用每个字符的外界四边形的顶点，并结合惯性主轴找到反映文本畸变特性的四边形，从而找到仿射参数进行仿射变换，最终实现图像文本的检测和畸变的消除，本发明显著提高文本的准确率，较单一的基于连通区域的文字检测方法，可以提高其召回率和检测效率，进行自动仿射变换，最终实现图像文本的检测和消除，相比其他人工进行仿射变换，大大挺高了工作效率，并且使之后的OCR识别更加准确。

Description

一种基于仿射变换的自由场景文本检测方法

技术领域

本发明涉及图像处理领域，尤其是一种文本区域检测方法。

背景技术

近年来，随着网络技术的不断发展和越来越多便携式数码相机和手机的盛行，图像和视频资源日益丰富，从这些海量图像、视频中获取感兴趣的信息已经成为当前多媒体信息技术研究的热点。图像、视频中的文字包含丰富的语义信息，是理解图像、视频内容的重要线索，提取和识别这种图像、视频中的文字对于图像理解、视频内容分析、基于内容的图像和视频检索等领域具有重要意义。关于文字识别部分，目前，光学字符识别(OpticalCharacter Recognition，OCR)技术虽然经过了长时间发展，可以达到一定的实用性要求，并且很多公司也已经发布了相关的商用软件包。但是当将其用于自然场景图像时，完全达不到预期效果。其中一个关键影响因素是，文本检测结果的精确性降低了整个文字识别***的性能。场景图像文字检测就是要用矩形区域框正好包围文本区域，其结果决定了识别***准确性，所以针对场景图像文字检测是非常重要一步，是进行文本识别的前提。但是，由于场景图像的环境因素干扰例如图像背景往往比较复杂，同时拍照状态和角度也可能造成文本区域发生模糊、形变等不良变换，想要快速精确的定位并提取场景图像文本依旧存在较多困难。

基于以上原因，要识别场景图像文本，必须首先对图像进行文字检测并进行消除文字的仿射变换等一些预处理来标定出图像中文字的具***置，获得局部并且背景相对简单的文本图像块，最后对图像块进行分析。目前文本检测主要可以归纳为三种方法，基于边缘梯度，基于连通域，基于纹理特征进行检测。基于连通域的方法主要利用了字符笔画相互连通和字符颜色的相似性，如RGB阈值化聚类，该方法可检测不同方向排列的文本，但对颜色变化比较敏感，对背景复杂的图像检测效果不佳。基于纹理特征的方法利用了图像中文本区域与背景区域具有不同的纹理特征，根据这些特征可对图像分类，得到文本区域。提取纹理特征的方法有小波分解、Gabor滤波、快速傅里叶变换、离散余弦变换等。基于边缘梯度的方法是利用了文本区域具有比较丰富的边缘信息，而周边背景的边缘信息较少，利用边缘信息来检测文本，如sobel边缘检测，Harris角点检测等方法，但是当图像复杂背景丰富时，角点和边缘检测效果不佳。MSER算法可很好地解决这一问题，MSER检测子具有旋转、尺度和仿射不变性、鲁棒性和准确性等特性，在视角多变、尺度变化的情况下能有效检测文本，检测效率高。

发明内容

为了克服现有技术的不足，针对以上问题，本发明提出一种文本检测方法，将最大稳定极值区域(Maximally Stable Extremal Regions，MSER)与笔画宽度变化(StrokeWidth Transform，SWT)结合，实现自然环境下的文本检测，之后为消除文字畸变，利用每个字符的外界四边形的顶点并结合惯性主轴找到反映文本畸变特性的四边形，从而找到仿射参数进行仿射变换，终实现图像文本的检测和畸变的消除，不但使文本的检测率显著提高，并且使之后的OCR识别更加准确。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1、进行文本检测，具体步骤如下：

步骤1.1、采用MSER检测候选的文本区域

采用MSER算法检测图像，得到候选文本区域I，其中MSER算法的表达式为：

q(i)＝|Q_i+Δ-Q_i-Δ|/|Q_i| (1)

其中，q(i)是阈值为i时区域Qi的变化率，Qi是阈值为i时的某一连通区域，△为灰度阈值的微小变化量，Q_i+Δ是阈值为i+Δ的连通域，Q_i-Δ是阈值为i-Δ的连通域，当q(i)为局部极小值时，Qi为最大稳定极值区域；

步骤1.2、基于基本几何属性删除非文本区域

通过MATLAB软件中的regionprops算子对图像进行检测，图像中每个候选文本区域I均得到一组参数值：图像的长宽比值为aspectRatio，偏心值为Eccentricity，欧拉数EulerNumber，检测区域和其最小凸多边形中的面积比例Solidity，检测区域和其最小边界矩形中的面积比例Extent，设置阈值删除非文本区域，即当图像中每个候选文本区域I的参数值不在阈值范围内时，将其判定为非文本区域；

其中阈值设置为：

aspectRatio>0.3

Eccentricity>0.995

Solidity<0.3

Extent<0.2

EulerNumber<-4 (2)

将满足公式(2)条件的区域设置为文本区域I₁；

步骤1.3、采用SWT算法删除非文本区域

对文本区域I₁依次进行笔画宽度检测，即先对文本区域I₁利用canny算子进行边缘检测，得到边缘点p的梯度方向d_p，沿着p+n*d_p的方向搜索另一个边缘点q，其中，n＞0，且n＝1,2,3...，n值从取1开始，计算q点的梯度方向d_q，当d_q与d_p的方向满足d_q＝-d_p±π/6，将[p,q]连线上的每一个像素点笔画宽度值设置为

如无符合d_q＝-d_p±π/6条件的q点，则放弃该搜索方向，并将n值加一，更新p+n*d_p搜索方向，沿着更新后方向继续寻找符合d_q＝-d_p±π/6方向的q点，直到检测完文本区域I₁内所有的边缘点，当某一连通区域内各像素点的笔画宽度值均不同时，则该连通区域为虚警，该区域的笔画宽度值为无穷；

将区域的笔画宽度值取值为非无穷的点进行连通区域合并，得到连通区域集合I₂，统计各连通区域的笔画宽度值，即用连通区域集合I₂内笔画宽度的众数代表该区域的笔画宽度值，得到

swt_i＝mode(swt_p,p∈i) (3)

式(3)中，swt_i表示连通区域集合I₂的笔画宽度值，mode代表取众数，swt_p表示连通区域集合I₂内每个边缘点p的笔画宽度值；

求得连通区域集合I₂内全部连通区域i的笔画宽度值后，对其是否是文字区域进行判断，得到单个文字字符构成的文字区域I₃，具体判断方法为：

计算var(swt_i,i∈H)，即求方差，当方差低于阈值时，则保留该区域；

所述的阈值取值范围为60—90；

步骤1.4、合并区域I₃

找到相邻文本区域，即将区域I₃通过BoundingBox函数得到每个字符的横坐标值x，纵坐标值y，长l和宽w，从而形成多个矩形BOXES，设矩形中四个顶点的坐标为(x_i,y_i)，且满足表达式

将矩形内每个点的灰度值设置为p，p值为小于255的任意值，将矩形外区域的点的灰度值设置为0，将每个矩形BOXES内外的灰度值相加，若两个BOXES存在重叠，由于每个BOXES的灰度值为p，将重叠部分的灰度值相加后，重叠部分的灰度值则大于p，将所有重叠部分连接得到文本区域I₄，文本区域I₄即为单词或者一行文字，同时将灰度值为p和0的部分规定为由单个字符组成的文本区域，将由单个字符组成的文本区域删除；

步骤2、外接矩形坐标的确定与畸变矫正

每个字符的外接矩形BOXES的四个顶点均具有横坐标和纵坐标，找到四边形四个顶点中横坐标最小的点P₁，纵坐标最大的点P₂，横坐标最大的点P₃和纵坐标最小的点P₄，此时会出现四个极值点或两个极值点两种情况，下面将两种情况进行具体说明：

a)存在四极值点

找到四个顶点，将四个顶点连接起来，即可得到文本的外接四边形，并得知外接四边形的坐标值；

b)存在二极值点

此时横坐标的极小值和纵坐标的极大值重合为一个点，同时横坐标的极大值和纵坐标的极小值重合为另外一个点，即只得到点P₁的坐标(x_max,y_min)和点P₃的坐标(x_min,y_max)，根据两个已知顶点计算惯性主轴的具体方法如下：

惯性主轴的方向是最小惯性轴与横坐标轴的夹角，角点为图像中每个矩形BOXES的顶点，设Q为图像中角点的集合，设角点坐标为(x_i,y_i)，且i＝1，2，…，N，N为图像中所有角点的总数，角点区域的质心定义为

将质心

移动至坐标原点，从而角点集Q对质心

的惯性矩G_q定义为

角点集Q对过原点

的直线L的惯性矩G_θ为

其中，θ为直线L的倾斜角，惯性矩G_θ最小的方向为惯性主轴的方向，即使G_θ最小的角θ，求惯性矩G_θ的导数为：

令G′_θ＝0，则

令

则

由于

带入公式(7)中可得

m₁₁tan²θ+(m₂₀-m₀₂)tanθ-m₁₁＝0 (11)

其中tanθ_1,2为惯性矩最小的倾斜角的两个角度；

从式(12)得到两个角θ₁和θ₂，对G_θ求二阶导数，两个角中二阶导数大于零的角即为惯性主轴方向，此时惯性主轴的斜率为ρ，则最终所求的惯性主轴的倾角为ρ＝tanθ；

角点集Q的惯性主轴方程为

获取惯性主轴之后，利用惯性角度与二极值点可获得四个直线方程

y₁＝ρ(x-x_max)+y_min；

y₃＝ρ(x-x_min)+y_max；

其中，右上角P₁的坐标为(x_max,y_min)，左下角点P₃的坐标(x_min,y_max)；

求解方程，可得四个点的坐标分别为：

(x_max,y_min)

(x_min,y_max)

将上述步骤得到的四极值点时的四个顶点坐标或二极值点时公式(15)中的顶点坐标，输入仿射变换算法对图像进行仿射变换，即可得到进行畸变矫正后的图像。

本发明的有益效果是将MSER与SWT结合，实现自然环境下的文本检测，去掉不符合文字特征的区域，可以显著提高文本的准确率，较单一的基于连通区域的文字检测方法，可以提高其召回率和检测效率，之后为消除文字畸变，利用每个字符的外界四边形的顶点并结合惯性主轴找到反映文本畸变特性的四边形，从而找到仿射参数进行自动仿射变换，最终实现图像文本的检测和消除，相比其他人工进行仿射变换相比大大挺高了工作效率并且使之后的OCR识别更加准确。

附图说明

图1是本发明图像文字区域检测和仿射变换的流程图。

图2是本发明进行文本检测的各个步骤的图例，图(a)是每个字符的检测结果，图(b)是文本的检测结果，图(c)是反映文本特性的四边形的检测结果。

图3是本发明解释极值点的两种情况和相对应的处理方法的示意图，图(a)是四个极值点的示意图，图(b)、(c)为二极值点两种情况的示意图，图(d)是二极值点的变形四边形的示意图。

图4是本发明处理极值点两种情况的图例，图(a)是四极值点的情况，图(b)是二极值点的情况，图(c)和图(d)分别是图(a)和图(b)分别对应的仿射变换的结果。

图5是本发明进行仿射变换结果的对比图，图(a)和图(c)是存在畸变的图像，图(b)和图(d)分别是图(a)和图(c)进行过仿射变换后的图像。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明基于边缘梯度的思想，提出一种将MSER(Maximally Stable ExtremalRegions，极大值稳定域)与SWT(Stroke Width Transform，笔画宽度变换)结合，之后结合惯性主轴对图像进行仿射变换的算法。首先采用MSER进行检测，再结合图像特征和SWT去除非文本的区域，再根据找到的文本顶点的四个极值进行分类讨论并结合惯性主轴找到反映文字畸变特性的四边形，从而找到仿射参数，最终实现图像文本的检测和畸变的消除，与其他文本检测的方法相比，不但使文本的检测率显著提高，并且使之后的OCR识别更加准确。

当将OCR用于自然场景图像时，完全达不到预期效果，其中一个关键影响因素是，文本检测结果的精确性降低了整个文字识别***的性能。场景图像文字检测就是要用矩形区域框正好包围文本区域，其结果决定了识别***准确性，所以针对场景图像文字检测是非常重要一步，是进行文本识别的前提。但是，由于场景图像的环境因素干扰例如图像背景往往比较复杂，同时拍照状态和角度也可能造成文本区域发生模糊、形变等不良变换，想要快速精确的定位并提取场景图像文本依旧存在较多困难。基于以上原因，要识别场景图像文本，必须首先对图像进行文字检测并进行消除文字的仿射变换等一些预处理来标定出图像中文字的具***置，获得局部并且背景相对简单的文本图像块，最后对图像块进行分析。

针对以上问题，本发明提出一种将MSER与SWT结合，实现自然环境下的文本检测，之后为消除文字畸变，利用每个字符的外界四边形的顶点并结合惯性主轴找到反映文本畸变特性的四边形，从而找到仿射参数进行仿射变换，终实现图像文本的检测和畸变的消除，不但使文本的检测率显著提高，并且使之后的OCR识别更加准确。

图1是本发明图像文字区域检测和仿射变换的流程图，图2是本发明进行文本检测的各个步骤的图例，图2(a)是每个字符的检测结果，图2(b)是文本的检测结果，图2(c)是反映文本特性的四边形的检测结果。

步骤1、进行文本检测，文本检测部分主要有MSER检测候选区域、基于基本几何属性删除非文本区域、SWT删除非文本区域、合并单个文本字符形成检测的文本区域几个步骤，具体步骤如下：

步骤1.1、采用MSER检测候选的文本区域

q(i)＝|Q_i+Δ-Q_i-Δ|/|Q_i| (1)

其中，q(i)是阈值为i时区域Q_i的变化率，Q_i是阈值为i时的某一连通区域，△为灰度阈值的微小变化量，Q_i+Δ是阈值为i+Δ的连通域，Q_i-Δ是阈值为i-Δ的连通域，当q(i)为局部极小值时，Q_i为最大稳定极值区域；

MSER的基本原理是基于分水岭算法提出的，对一幅灰度图像(灰度值为0～255)取阈值进行二值化处理，阈值从0到255依次递增。阈值的递增类似于分水岭算法中的水面的上升，随着水面的上升，有一些较矮的丘陵会被淹没，如果从天空往下看，则大地分为陆地和水域两个部分，这类似于二值图像。在得到的所有二值图像中，图像中的某些连通区域变化很小，甚至没有变化，则该区域就被称为最大稳定极值区域。这类似于当水面持续上升的时候，有些被水淹没的地方的面积没有变化。

步骤1.2、基于基本几何属性删除非文本区域

虽然MSER能够找出大部分的文字部分，但是还有一些不是文本的部分，通过MATLAB软件中的regionprops算子对图像进行检测，图像中每个候选文本区域I均得到一组参数值：图像的长宽比值为aspectRatio，偏心值为Eccentricity，欧拉数EulerNumber，检测区域和其最小凸多边形中的面积比例Solidity，检测区域和其最小边界矩形中的面积比例Extent，设置阈值删除非文本区域，即当图像中每个候选文本区域I的参数值不在阈值范围内时，将其判定为非文本区域；

阈值设置为：

aspectRatio>0.3

Eccentricity>0.995

Solidity<0.3

Extent<0.2

EulerNumber<-4 (2)

将满足公式(2)条件的区域设置为文本区域I₁；

步骤1.3、采用SWT算法删除非文本区域

文本区域倾向于具有很小的笔画宽度变化，而非文本区域倾向于具有较大的变化。估计检测到的MSER区域的笔划宽度。在图像中，笔画宽度图像在大部分区域上的变化非常小，这指示该区域更可能是文本区域，因为构成该区域的线和曲线都具有类似的宽度，这是人类可读文本的共同特征。

swt_i＝mode(swt_p,p∈i) (3)

所述的阈值取值范围为60—90，本实施例阈值取70；

如连通区域集合I₂是文字区域，则I₂包含的各连通区域属于同一字符或同一文字行，即各连通区域的笔画宽度swt_i一致或接近，通过此步骤，也就是SWT检验笔画宽度一致性之后得到文字区域I₃，此时区域I₃由单个的文字字符构成；

步骤1.4、合并最终检测结果

所有区域I₃由单个文本字符组成，要将这些结果用于识别任务OCR，必须将单个文本字符合并为单词或文本行，使得能够识别图像中的实际字，其携带比仅仅单个字符更有意义的信息；

合并方法为：

由于文本通常在单词和句子中找到，所以将由单个字符组成的文本区域删除，从而达到抑制假文本检测；

用于将单个文本区域合并成单词或文本行的一种方法是首先找到相邻文本区域，然后在这些区域周围形成边界框，这使得相邻文本区域的边界框重叠，使得作为相同单词或文本行的一部分的文本区域形成重叠边界框链。

最后，在显示最终检测结果之前，通过删除由仅一个文本区域组成的边界框来抑制假文本检测，会删除不太可能是实际文本的孤立区域，因为文本通常在组(单词和句子)中找到。

步骤2、外接矩形坐标的确定与畸变矫正

在检测到许多单个字符之后，为了找到文本外接四边形四个顶点，每个字符的外接矩形BOXES的四个顶点均具有横坐标和纵坐标，找到四边形四个顶点中横坐标最小的点P₁，纵坐标最大的点P₂，横坐标最大的点P₃和纵坐标最小的点P₄，此时会出现四个极值点或两个极值点两种情况，图3是本发明解释极值点的两种情况和相对应的处理方法的示意图，其中图3(a)是四个极值点的示意图，图3(b)和图3(c)为二极值点两种情况的示意图，图3(d)是二极值点的变形四边形的示意图。图4是本发明处理极值点两种情况的图例，图4(a)是四极值点的情况，图4(b)是二极值点的情况，图4(c)是图4(a)对应的仿射变换的结果，图4(d)是图(b)对应的仿射变换的结果。下面将对两种可能出现的情况进行具体说明：

a)存在四极值点

b)存在二极值点

用阴影部分来表示检测到的文字区域，此时横坐标的极小值和纵坐标的极大值重合为一个点，同时横坐标的极大值和纵坐标的极小值重合为另外一个点，即只得到右上角P₁的坐标(x_max,y_min)和左下角点P₃的坐标(x_min,y_max)，根据两个已知顶点计算惯性主轴的具体方法如下：

将质心

移动至坐标原点，从而角点集Q对质心

的惯性矩G_q定义为

角点集Q对过原点

的直线L的惯性矩G_θ为

令G′_θ＝0，则

令

则

由于

带入公式(7)中可得

m₁₁tan²θ+(m₂₀-m₀₂)tanθ-m₁₁＝0 (11)

其中tanθ_1,2为惯性矩最小的倾斜角的两个角度；

角点集Q的惯性主轴方程为

y₁＝ρ(x-x_max)+y_min；

y₃＝ρ(x-x_min)+y_max；

求解方程，可得四个点的坐标分别为：

(x_max,y_min)

(x_min,y_max)

采用两种数据库对本发明提出的算法的性能进行测试，为量化检测算法的有效性，性能指标采用常用的准确率(P)、召回率(R)和F值，其定义如下：

其中c表示场景图像中检测到文本域的面积，f表示被错误检测的场景图像中非文本区域面积，即误检面积，d表示场景图像中未被检测到的文本区域面积。将关于场景文本检测的文献中的算法与本发明所述的方法采用相同的数据库且在相同实验环境下进行性能对比，用其中两张图像做例子，图5是本发明进行仿射变换结果的对比图，其中图5(a)和图5(c)是存在畸变的图像，图5(b)和图5(d)分别是图5(a)和图5(c)进行过仿射变换后的图像。实验结果如表1所示：

表1几种文字区域检测方法的性能指标

方法	准确率	召回率	F值
				TD-Affine(proposed)	0.58	0.62	0.60
TD-ICDAR	0.53	0.52	0.52
				Epshtein et al.	0.25	0.25	0.25
Chen et al.	0.05	0.05	0.05

为了显示仿射校正的有效性，对数据集进行文字识别实验。使用了ABBYYFinereader识别文本，表2显示了在进行仿射变换前后的文本识别结果：

表2文字识别实验结果

	准确率	召回率	F值
				仿射变换之前	0.76	0.75	0.75
仿射变换之后	0.82	0.84	0.83

从表2的结果中可以看到，提出仿射参数估计和校正方法可以提高文本识别率。

Claims

1.一种基于仿射变换的自由场景文本检测方法，其特征在于包括下述步骤：

步骤1、进行文本检测，具体步骤如下：

步骤1.1、采用MSER检测候选的文本区域

q(itc)＝|Q_itc+Δ-Q_itc-Δ|/|Q_itc| (1)

其中，q(itc)是阈值为itc时区域Q_itc的变化率，Q_itc是阈值为itc时的某一连通区域，△为灰度阈值的微小变化量，Q_itc+Δ是阈值为itc+Δ的连通域，Q_itc-Δ是阈值为itc-Δ的连通域，当q(itc)为局部极小值时，Q_itc为最大稳定极值区域；

步骤1.2、基于基本几何属性删除非文本区域

其中阈值设置为：

aspectRatio>0.3

Eccentricity>0.995

Solidity<0.3

Extent<0.2

EulerNumber<-4 (2)

将满足公式(2)条件的区域设置为文本区域I₁；

步骤1.3、采用SWT算法删除非文本区域

swt_roi＝mode(swt_p,p∈roi) (3)

式(3)中，swt_roi表示连通区域集合I₂的笔画宽度值，mode代表取众数，swt_p表示连通区域集合I₂内每个边缘点p的笔画宽度值；

求得连通区域集合I₂内全部连通区域roi的笔画宽度值后，对其是否是文字区域进行判断，得到单个文字字符构成的文字区域I₃，具体判断方法为：

计算var(swt_roi,roi∈H)，即求方差，其中H表示当前图像区域，当方差低于阈值时，则保留该区域；

所述的阈值取值范围为60—90；

步骤1.4、合并区域I₃

找到相邻文本区域，即将区域I₃通过BoundingBox函数得到每个字符的横坐标值x，纵坐标值y，长l和宽w，从而形成多个矩形BOXES，设矩形中四个顶点的坐标为(x_ip,y_ip)，且满足表达式

将矩形内每个点的灰度值设置为pg，pg值为小于255的任意值，将矩形外区域的点的灰度值设置为0，将每个矩形BOXES内外的灰度值相加，若两个BOXES存在重叠，由于每个BOXES的灰度值为pg，将重叠部分的灰度值相加后，重叠部分的灰度值则大于pg，将所有重叠部分连接得到文本区域I₄，文本区域I₄即为单词或者一行文字，同时将灰度值为pg和0的部分规定为由单个字符组成的文本区域，将由单个字符组成的文本区域删除；

步骤2、外接矩形坐标的确定与畸变矫正

a)存在四极值点

b)存在二极值点