CN107688806B - 一种基于仿射变换的自由场景文本检测方法 - Google Patents
一种基于仿射变换的自由场景文本检测方法 Download PDFInfo
- Publication number
- CN107688806B CN107688806B CN201710717760.8A CN201710717760A CN107688806B CN 107688806 B CN107688806 B CN 107688806B CN 201710717760 A CN201710717760 A CN 201710717760A CN 107688806 B CN107688806 B CN 107688806B
- Authority
- CN
- China
- Prior art keywords
- text
- value
- point
- region
- inertia
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 title claims abstract description 38
- 230000009466 transformation Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims description 22
- 238000012937 correction Methods 0.000 claims description 5
- 238000003708 edge detection Methods 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims 1
- 230000008030 elimination Effects 0.000 abstract description 5
- 238000003379 elimination reaction Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000012015 optical character recognition Methods 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于仿射变换的自由场景文本检测方法,涉及图像处理领域,本发明将MSER与SWT结合,实现文本检测,之后利用每个字符的外界四边形的顶点,并结合惯性主轴找到反映文本畸变特性的四边形,从而找到仿射参数进行仿射变换,最终实现图像文本的检测和畸变的消除,本发明显著提高文本的准确率,较单一的基于连通区域的文字检测方法,可以提高其召回率和检测效率,进行自动仿射变换,最终实现图像文本的检测和消除,相比其他人工进行仿射变换,大大挺高了工作效率,并且使之后的OCR识别更加准确。
Description
技术领域
本发明涉及图像处理领域,尤其是一种文本区域检测方法。
背景技术
近年来,随着网络技术的不断发展和越来越多便携式数码相机和手机的盛行,图像和视频资源日益丰富,从这些海量图像、视频中获取感兴趣的信息已经成为当前多媒体信息技术研究的热点。图像、视频中的文字包含丰富的语义信息,是理解图像、视频内容的重要线索,提取和识别这种图像、视频中的文字对于图像理解、视频内容分析、基于内容的图像和视频检索等领域具有重要意义。关于文字识别部分,目前,光学字符识别(OpticalCharacter Recognition,OCR)技术虽然经过了长时间发展,可以达到一定的实用性要求,并且很多公司也已经发布了相关的商用软件包。但是当将其用于自然场景图像时,完全达不到预期效果。其中一个关键影响因素是,文本检测结果的精确性降低了整个文字识别***的性能。场景图像文字检测就是要用矩形区域框正好包围文本区域,其结果决定了识别***准确性,所以针对场景图像文字检测是非常重要一步,是进行文本识别的前提。但是,由于场景图像的环境因素干扰例如图像背景往往比较复杂,同时拍照状态和角度也可能造成文本区域发生模糊、形变等不良变换,想要快速精确的定位并提取场景图像文本依旧存在较多困难。
基于以上原因,要识别场景图像文本,必须首先对图像进行文字检测并进行消除文字的仿射变换等一些预处理来标定出图像中文字的具***置,获得局部并且背景相对简单的文本图像块,最后对图像块进行分析。目前文本检测主要可以归纳为三种方法,基于边缘梯度,基于连通域,基于纹理特征进行检测。基于连通域的方法主要利用了字符笔画相互连通和字符颜色的相似性,如RGB阈值化聚类,该方法可检测不同方向排列的文本,但对颜色变化比较敏感,对背景复杂的图像检测效果不佳。基于纹理特征的方法利用了图像中文本区域与背景区域具有不同的纹理特征,根据这些特征可对图像分类,得到文本区域。提取纹理特征的方法有小波分解、Gabor滤波、快速傅里叶变换、离散余弦变换等。基于边缘梯度的方法是利用了文本区域具有比较丰富的边缘信息,而周边背景的边缘信息较少,利用边缘信息来检测文本,如sobel边缘检测,Harris角点检测等方法,但是当图像复杂背景丰富时,角点和边缘检测效果不佳。MSER算法可很好地解决这一问题,MSER检测子具有旋转、尺度和仿射不变性、鲁棒性和准确性等特性,在视角多变、尺度变化的情况下能有效检测文本,检测效率高。
发明内容
为了克服现有技术的不足,针对以上问题,本发明提出一种文本检测方法,将最大稳定极值区域(Maximally Stable Extremal Regions,MSER)与笔画宽度变化(StrokeWidth Transform,SWT)结合,实现自然环境下的文本检测,之后为消除文字畸变,利用每个字符的外界四边形的顶点并结合惯性主轴找到反映文本畸变特性的四边形,从而找到仿射参数进行仿射变换,终实现图像文本的检测和畸变的消除,不但使文本的检测率显著提高,并且使之后的OCR识别更加准确。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1、进行文本检测,具体步骤如下:
步骤1.1、采用MSER检测候选的文本区域
采用MSER算法检测图像,得到候选文本区域I,其中MSER算法的表达式为:
q(i)=|Qi+Δ-Qi-Δ|/|Qi| (1)
其中,q(i)是阈值为i时区域Qi的变化率,Qi是阈值为i时的某一连通区域,△为灰度阈值的微小变化量,Qi+Δ是阈值为i+Δ的连通域,Qi-Δ是阈值为i-Δ的连通域,当q(i)为局部极小值时,Qi为最大稳定极值区域;
步骤1.2、基于基本几何属性删除非文本区域
通过MATLAB软件中的regionprops算子对图像进行检测,图像中每个候选文本区域I均得到一组参数值:图像的长宽比值为aspectRatio,偏心值为Eccentricity,欧拉数EulerNumber,检测区域和其最小凸多边形中的面积比例Solidity,检测区域和其最小边界矩形中的面积比例Extent,设置阈值删除非文本区域,即当图像中每个候选文本区域I的参数值不在阈值范围内时,将其判定为非文本区域;
其中阈值设置为:
aspectRatio>0.3
Eccentricity>0.995
Solidity<0.3
Extent<0.2
EulerNumber<-4 (2)
将满足公式(2)条件的区域设置为文本区域I1;
步骤1.3、采用SWT算法删除非文本区域
对文本区域I1依次进行笔画宽度检测,即先对文本区域I1利用canny算子进行边缘检测,得到边缘点p的梯度方向dp,沿着p+n*dp的方向搜索另一个边缘点q,其中,n>0,且n=1,2,3...,n值从取1开始,计算q点的梯度方向dq,当dq与dp的方向满足dq=-dp±π/6,将[p,q]连线上的每一个像素点笔画宽度值设置为如无符合dq=-dp±π/6条件的q点,则放弃该搜索方向,并将n值加一,更新p+n*dp搜索方向,沿着更新后方向继续寻找符合dq=-dp±π/6方向的q点,直到检测完文本区域I1内所有的边缘点,当某一连通区域内各像素点的笔画宽度值均不同时,则该连通区域为虚警,该区域的笔画宽度值为无穷;
将区域的笔画宽度值取值为非无穷的点进行连通区域合并,得到连通区域集合I2,统计各连通区域的笔画宽度值,即用连通区域集合I2内笔画宽度的众数代表该区域的笔画宽度值,得到
swti=mode(swtp,p∈i) (3)
式(3)中,swti表示连通区域集合I2的笔画宽度值,mode代表取众数,swtp表示连通区域集合I2内每个边缘点p的笔画宽度值;
求得连通区域集合I2内全部连通区域i的笔画宽度值后,对其是否是文字区域进行判断,得到单个文字字符构成的文字区域I3,具体判断方法为:
计算var(swti,i∈H),即求方差,当方差低于阈值时,则保留该区域;
所述的阈值取值范围为60—90;
步骤1.4、合并区域I3
找到相邻文本区域,即将区域I3通过BoundingBox函数得到每个字符的横坐标值x,纵坐标值y,长l和宽w,从而形成多个矩形BOXES,设矩形中四个顶点的坐标为(xi,yi),且满足表达式
将矩形内每个点的灰度值设置为p,p值为小于255的任意值,将矩形外区域的点的灰度值设置为0,将每个矩形BOXES内外的灰度值相加,若两个BOXES存在重叠,由于每个BOXES的灰度值为p,将重叠部分的灰度值相加后,重叠部分的灰度值则大于p,将所有重叠部分连接得到文本区域I4,文本区域I4即为单词或者一行文字,同时将灰度值为p和0的部分规定为由单个字符组成的文本区域,将由单个字符组成的文本区域删除;
步骤2、外接矩形坐标的确定与畸变矫正
每个字符的外接矩形BOXES的四个顶点均具有横坐标和纵坐标,找到四边形四个顶点中横坐标最小的点P1,纵坐标最大的点P2,横坐标最大的点P3和纵坐标最小的点P4,此时会出现四个极值点或两个极值点两种情况,下面将两种情况进行具体说明:
a)存在四极值点
找到四个顶点,将四个顶点连接起来,即可得到文本的外接四边形,并得知外接四边形的坐标值;
b)存在二极值点
此时横坐标的极小值和纵坐标的极大值重合为一个点,同时横坐标的极大值和纵坐标的极小值重合为另外一个点,即只得到点P1的坐标(xmax,ymin)和点P3的坐标(xmin,ymax),根据两个已知顶点计算惯性主轴的具体方法如下:
惯性主轴的方向是最小惯性轴与横坐标轴的夹角,角点为图像中每个矩形BOXES的顶点,设Q为图像中角点的集合,设角点坐标为(xi,yi),且i=1,2,…,N,N为图像中所有角点的总数,角点区域的质心定义为
其中,θ为直线L的倾斜角,惯性矩Gθ最小的方向为惯性主轴的方向,即使Gθ最小的角θ,求惯性矩Gθ的导数为:
令G′θ=0,则
m11tan2θ+(m20-m02)tanθ-m11=0 (11)
其中tanθ1,2为惯性矩最小的倾斜角的两个角度;
从式(12)得到两个角θ1和θ2,对Gθ求二阶导数,两个角中二阶导数大于零的角即为惯性主轴方向,此时惯性主轴的斜率为ρ,则最终所求的惯性主轴的倾角为ρ=tanθ;
角点集Q的惯性主轴方程为
获取惯性主轴之后,利用惯性角度与二极值点可获得四个直线方程
y1=ρ(x-xmax)+ymin;
y3=ρ(x-xmin)+ymax;
其中,右上角P1的坐标为(xmax,ymin),左下角点P3的坐标(xmin,ymax);
求解方程,可得四个点的坐标分别为:
(xmax,ymin)
(xmin,ymax)
将上述步骤得到的四极值点时的四个顶点坐标或二极值点时公式(15)中的顶点坐标,输入仿射变换算法对图像进行仿射变换,即可得到进行畸变矫正后的图像。
本发明的有益效果是将MSER与SWT结合,实现自然环境下的文本检测,去掉不符合文字特征的区域,可以显著提高文本的准确率,较单一的基于连通区域的文字检测方法,可以提高其召回率和检测效率,之后为消除文字畸变,利用每个字符的外界四边形的顶点并结合惯性主轴找到反映文本畸变特性的四边形,从而找到仿射参数进行自动仿射变换,最终实现图像文本的检测和消除,相比其他人工进行仿射变换相比大大挺高了工作效率并且使之后的OCR识别更加准确。
附图说明
图1是本发明图像文字区域检测和仿射变换的流程图。
图2是本发明进行文本检测的各个步骤的图例,图(a)是每个字符的检测结果,图(b)是文本的检测结果,图(c)是反映文本特性的四边形的检测结果。
图3是本发明解释极值点的两种情况和相对应的处理方法的示意图,图(a)是四个极值点的示意图,图(b)、(c)为二极值点两种情况的示意图,图(d)是二极值点的变形四边形的示意图。
图4是本发明处理极值点两种情况的图例,图(a)是四极值点的情况,图(b)是二极值点的情况,图(c)和图(d)分别是图(a)和图(b)分别对应的仿射变换的结果。
图5是本发明进行仿射变换结果的对比图,图(a)和图(c)是存在畸变的图像,图(b)和图(d)分别是图(a)和图(c)进行过仿射变换后的图像。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明基于边缘梯度的思想,提出一种将MSER(Maximally Stable ExtremalRegions,极大值稳定域)与SWT(Stroke Width Transform,笔画宽度变换)结合,之后结合惯性主轴对图像进行仿射变换的算法。首先采用MSER进行检测,再结合图像特征和SWT去除非文本的区域,再根据找到的文本顶点的四个极值进行分类讨论并结合惯性主轴找到反映文字畸变特性的四边形,从而找到仿射参数,最终实现图像文本的检测和畸变的消除,与其他文本检测的方法相比,不但使文本的检测率显著提高,并且使之后的OCR识别更加准确。
当将OCR用于自然场景图像时,完全达不到预期效果,其中一个关键影响因素是,文本检测结果的精确性降低了整个文字识别***的性能。场景图像文字检测就是要用矩形区域框正好包围文本区域,其结果决定了识别***准确性,所以针对场景图像文字检测是非常重要一步,是进行文本识别的前提。但是,由于场景图像的环境因素干扰例如图像背景往往比较复杂,同时拍照状态和角度也可能造成文本区域发生模糊、形变等不良变换,想要快速精确的定位并提取场景图像文本依旧存在较多困难。基于以上原因,要识别场景图像文本,必须首先对图像进行文字检测并进行消除文字的仿射变换等一些预处理来标定出图像中文字的具***置,获得局部并且背景相对简单的文本图像块,最后对图像块进行分析。
针对以上问题,本发明提出一种将MSER与SWT结合,实现自然环境下的文本检测,之后为消除文字畸变,利用每个字符的外界四边形的顶点并结合惯性主轴找到反映文本畸变特性的四边形,从而找到仿射参数进行仿射变换,终实现图像文本的检测和畸变的消除,不但使文本的检测率显著提高,并且使之后的OCR识别更加准确。
图1是本发明图像文字区域检测和仿射变换的流程图,图2是本发明进行文本检测的各个步骤的图例,图2(a)是每个字符的检测结果,图2(b)是文本的检测结果,图2(c)是反映文本特性的四边形的检测结果。
步骤1、进行文本检测,文本检测部分主要有MSER检测候选区域、基于基本几何属性删除非文本区域、SWT删除非文本区域、合并单个文本字符形成检测的文本区域几个步骤,具体步骤如下:
步骤1.1、采用MSER检测候选的文本区域
采用MSER算法检测图像,得到候选文本区域I,其中MSER算法的表达式为:
q(i)=|Qi+Δ-Qi-Δ|/|Qi| (1)
其中,q(i)是阈值为i时区域Qi的变化率,Qi是阈值为i时的某一连通区域,△为灰度阈值的微小变化量,Qi+Δ是阈值为i+Δ的连通域,Qi-Δ是阈值为i-Δ的连通域,当q(i)为局部极小值时,Qi为最大稳定极值区域;
MSER的基本原理是基于分水岭算法提出的,对一幅灰度图像(灰度值为0~255)取阈值进行二值化处理,阈值从0到255依次递增。阈值的递增类似于分水岭算法中的水面的上升,随着水面的上升,有一些较矮的丘陵会被淹没,如果从天空往下看,则大地分为陆地和水域两个部分,这类似于二值图像。在得到的所有二值图像中,图像中的某些连通区域变化很小,甚至没有变化,则该区域就被称为最大稳定极值区域。这类似于当水面持续上升的时候,有些被水淹没的地方的面积没有变化。
步骤1.2、基于基本几何属性删除非文本区域
虽然MSER能够找出大部分的文字部分,但是还有一些不是文本的部分,通过MATLAB软件中的regionprops算子对图像进行检测,图像中每个候选文本区域I均得到一组参数值:图像的长宽比值为aspectRatio,偏心值为Eccentricity,欧拉数EulerNumber,检测区域和其最小凸多边形中的面积比例Solidity,检测区域和其最小边界矩形中的面积比例Extent,设置阈值删除非文本区域,即当图像中每个候选文本区域I的参数值不在阈值范围内时,将其判定为非文本区域;
阈值设置为:
aspectRatio>0.3
Eccentricity>0.995
Solidity<0.3
Extent<0.2
EulerNumber<-4 (2)
将满足公式(2)条件的区域设置为文本区域I1;
步骤1.3、采用SWT算法删除非文本区域
文本区域倾向于具有很小的笔画宽度变化,而非文本区域倾向于具有较大的变化。估计检测到的MSER区域的笔划宽度。在图像中,笔画宽度图像在大部分区域上的变化非常小,这指示该区域更可能是文本区域,因为构成该区域的线和曲线都具有类似的宽度,这是人类可读文本的共同特征。
对文本区域I1依次进行笔画宽度检测,即先对文本区域I1利用canny算子进行边缘检测,得到边缘点p的梯度方向dp,沿着p+n*dp的方向搜索另一个边缘点q,其中,n>0,且n=1,2,3...,n值从取1开始,计算q点的梯度方向dq,当dq与dp的方向满足dq=-dp±π/6,将[p,q]连线上的每一个像素点笔画宽度值设置为如无符合dq=-dp±π/6条件的q点,则放弃该搜索方向,并将n值加一,更新p+n*dp搜索方向,沿着更新后方向继续寻找符合dq=-dp±π/6方向的q点,直到检测完文本区域I1内所有的边缘点,当某一连通区域内各像素点的笔画宽度值均不同时,则该连通区域为虚警,该区域的笔画宽度值为无穷;
将区域的笔画宽度值取值为非无穷的点进行连通区域合并,得到连通区域集合I2,统计各连通区域的笔画宽度值,即用连通区域集合I2内笔画宽度的众数代表该区域的笔画宽度值,得到
swti=mode(swtp,p∈i) (3)
式(3)中,swti表示连通区域集合I2的笔画宽度值,mode代表取众数,swtp表示连通区域集合I2内每个边缘点p的笔画宽度值;
求得连通区域集合I2内全部连通区域i的笔画宽度值后,对其是否是文字区域进行判断,得到单个文字字符构成的文字区域I3,具体判断方法为:
计算var(swti,i∈H),即求方差,当方差低于阈值时,则保留该区域;
所述的阈值取值范围为60—90,本实施例阈值取70;
如连通区域集合I2是文字区域,则I2包含的各连通区域属于同一字符或同一文字行,即各连通区域的笔画宽度swti一致或接近,通过此步骤,也就是SWT检验笔画宽度一致性之后得到文字区域I3,此时区域I3由单个的文字字符构成;
步骤1.4、合并最终检测结果
所有区域I3由单个文本字符组成,要将这些结果用于识别任务OCR,必须将单个文本字符合并为单词或文本行,使得能够识别图像中的实际字,其携带比仅仅单个字符更有意义的信息;
合并方法为:
找到相邻文本区域,即将区域I3通过BoundingBox函数得到每个字符的横坐标值x,纵坐标值y,长l和宽w,从而形成多个矩形BOXES,设矩形中四个顶点的坐标为(xi,yi),且满足表达式
将矩形内每个点的灰度值设置为p,p值为小于255的任意值,将矩形外区域的点的灰度值设置为0,将每个矩形BOXES内外的灰度值相加,若两个BOXES存在重叠,由于每个BOXES的灰度值为p,将重叠部分的灰度值相加后,重叠部分的灰度值则大于p,将所有重叠部分连接得到文本区域I4,文本区域I4即为单词或者一行文字,同时将灰度值为p和0的部分规定为由单个字符组成的文本区域,将由单个字符组成的文本区域删除;
由于文本通常在单词和句子中找到,所以将由单个字符组成的文本区域删除,从而达到抑制假文本检测;
用于将单个文本区域合并成单词或文本行的一种方法是首先找到相邻文本区域,然后在这些区域周围形成边界框,这使得相邻文本区域的边界框重叠,使得作为相同单词或文本行的一部分的文本区域形成重叠边界框链。
最后,在显示最终检测结果之前,通过删除由仅一个文本区域组成的边界框来抑制假文本检测,会删除不太可能是实际文本的孤立区域,因为文本通常在组(单词和句子)中找到。
步骤2、外接矩形坐标的确定与畸变矫正
在检测到许多单个字符之后,为了找到文本外接四边形四个顶点,每个字符的外接矩形BOXES的四个顶点均具有横坐标和纵坐标,找到四边形四个顶点中横坐标最小的点P1,纵坐标最大的点P2,横坐标最大的点P3和纵坐标最小的点P4,此时会出现四个极值点或两个极值点两种情况,图3是本发明解释极值点的两种情况和相对应的处理方法的示意图,其中图3(a)是四个极值点的示意图,图3(b)和图3(c)为二极值点两种情况的示意图,图3(d)是二极值点的变形四边形的示意图。图4是本发明处理极值点两种情况的图例,图4(a)是四极值点的情况,图4(b)是二极值点的情况,图4(c)是图4(a)对应的仿射变换的结果,图4(d)是图(b)对应的仿射变换的结果。下面将对两种可能出现的情况进行具体说明:
a)存在四极值点
找到四个顶点,将四个顶点连接起来,即可得到文本的外接四边形,并得知外接四边形的坐标值;
b)存在二极值点
用阴影部分来表示检测到的文字区域,此时横坐标的极小值和纵坐标的极大值重合为一个点,同时横坐标的极大值和纵坐标的极小值重合为另外一个点,即只得到右上角P1的坐标(xmax,ymin)和左下角点P3的坐标(xmin,ymax),根据两个已知顶点计算惯性主轴的具体方法如下:
惯性主轴的方向是最小惯性轴与横坐标轴的夹角,角点为图像中每个矩形BOXES的顶点,设Q为图像中角点的集合,设角点坐标为(xi,yi),且i=1,2,…,N,N为图像中所有角点的总数,角点区域的质心定义为
其中,θ为直线L的倾斜角,惯性矩Gθ最小的方向为惯性主轴的方向,即使Gθ最小的角θ,求惯性矩Gθ的导数为:
令G′θ=0,则
m11tan2θ+(m20-m02)tanθ-m11=0 (11)
其中tanθ1,2为惯性矩最小的倾斜角的两个角度;
从式(12)得到两个角θ1和θ2,对Gθ求二阶导数,两个角中二阶导数大于零的角即为惯性主轴方向,此时惯性主轴的斜率为ρ,则最终所求的惯性主轴的倾角为ρ=tanθ;
角点集Q的惯性主轴方程为
获取惯性主轴之后,利用惯性角度与二极值点可获得四个直线方程
y1=ρ(x-xmax)+ymin;
y3=ρ(x-xmin)+ymax;
其中,右上角P1的坐标为(xmax,ymin),左下角点P3的坐标(xmin,ymax);
求解方程,可得四个点的坐标分别为:
(xmax,ymin)
(xmin,ymax)
将上述步骤得到的四极值点时的四个顶点坐标或二极值点时公式(15)中的顶点坐标,输入仿射变换算法对图像进行仿射变换,即可得到进行畸变矫正后的图像。
采用两种数据库对本发明提出的算法的性能进行测试,为量化检测算法的有效性,性能指标采用常用的准确率(P)、召回率(R)和F值,其定义如下:
其中c表示场景图像中检测到文本域的面积,f表示被错误检测的场景图像中非文本区域面积,即误检面积,d表示场景图像中未被检测到的文本区域面积。将关于场景文本检测的文献中的算法与本发明所述的方法采用相同的数据库且在相同实验环境下进行性能对比,用其中两张图像做例子,图5是本发明进行仿射变换结果的对比图,其中图5(a)和图5(c)是存在畸变的图像,图5(b)和图5(d)分别是图5(a)和图5(c)进行过仿射变换后的图像。实验结果如表1所示:
表1几种文字区域检测方法的性能指标
方法 | 准确率 | 召回率 | F值 |
TD-Affine(proposed) | 0.58 | 0.62 | 0.60 |
TD-ICDAR | 0.53 | 0.52 | 0.52 |
Epshtein et al. | 0.25 | 0.25 | 0.25 |
Chen et al. | 0.05 | 0.05 | 0.05 |
为了显示仿射校正的有效性,对数据集进行文字识别实验。使用了ABBYYFinereader识别文本,表2显示了在进行仿射变换前后的文本识别结果:
表2文字识别实验结果
准确率 | 召回率 | F值 | |
仿射变换之前 | 0.76 | 0.75 | 0.75 |
仿射变换之后 | 0.82 | 0.84 | 0.83 |
从表2的结果中可以看到,提出仿射参数估计和校正方法可以提高文本识别率。
Claims (1)
1.一种基于仿射变换的自由场景文本检测方法,其特征在于包括下述步骤:
步骤1、进行文本检测,具体步骤如下:
步骤1.1、采用MSER检测候选的文本区域
采用MSER算法检测图像,得到候选文本区域I,其中MSER算法的表达式为:
q(itc)=|Qitc+Δ-Qitc-Δ|/|Qitc| (1)
其中,q(itc)是阈值为itc时区域Qitc的变化率,Qitc是阈值为itc时的某一连通区域,△为灰度阈值的微小变化量,Qitc+Δ是阈值为itc+Δ的连通域,Qitc-Δ是阈值为itc-Δ的连通域,当q(itc)为局部极小值时,Qitc为最大稳定极值区域;
步骤1.2、基于基本几何属性删除非文本区域
通过MATLAB软件中的regionprops算子对图像进行检测,图像中每个候选文本区域I均得到一组参数值:图像的长宽比值为aspectRatio,偏心值为Eccentricity,欧拉数EulerNumber,检测区域和其最小凸多边形中的面积比例Solidity,检测区域和其最小边界矩形中的面积比例Extent,设置阈值删除非文本区域,即当图像中每个候选文本区域I的参数值不在阈值范围内时,将其判定为非文本区域;
其中阈值设置为:
aspectRatio>0.3
Eccentricity>0.995
Solidity<0.3
Extent<0.2
EulerNumber<-4 (2)
将满足公式(2)条件的区域设置为文本区域I1;
步骤1.3、采用SWT算法删除非文本区域
对文本区域I1依次进行笔画宽度检测,即先对文本区域I1利用canny算子进行边缘检测,得到边缘点p的梯度方向dp,沿着p+n*dp的方向搜索另一个边缘点q,其中,n>0,且n=1,2,3...,n值从取1开始,计算q点的梯度方向dq,当dq与dp的方向满足dq=-dp±π/6,将[p,q]连线上的每一个像素点笔画宽度值设置为如无符合dq=-dp±π/6条件的q点,则放弃该搜索方向,并将n值加一,更新p+n*dp搜索方向,沿着更新后方向继续寻找符合dq=-dp±π/6方向的q点,直到检测完文本区域I1内所有的边缘点,当某一连通区域内各像素点的笔画宽度值均不同时,则该连通区域为虚警,该区域的笔画宽度值为无穷;
将区域的笔画宽度值取值为非无穷的点进行连通区域合并,得到连通区域集合I2,统计各连通区域的笔画宽度值,即用连通区域集合I2内笔画宽度的众数代表该区域的笔画宽度值,得到
swtroi=mode(swtp,p∈roi) (3)
式(3)中,swtroi表示连通区域集合I2的笔画宽度值,mode代表取众数,swtp表示连通区域集合I2内每个边缘点p的笔画宽度值;
求得连通区域集合I2内全部连通区域roi的笔画宽度值后,对其是否是文字区域进行判断,得到单个文字字符构成的文字区域I3,具体判断方法为:
计算var(swtroi,roi∈H),即求方差,其中H表示当前图像区域,当方差低于阈值时,则保留该区域;
所述的阈值取值范围为60—90;
步骤1.4、合并区域I3
找到相邻文本区域,即将区域I3通过BoundingBox函数得到每个字符的横坐标值x,纵坐标值y,长l和宽w,从而形成多个矩形BOXES,设矩形中四个顶点的坐标为(xip,yip),且满足表达式
将矩形内每个点的灰度值设置为pg,pg值为小于255的任意值,将矩形外区域的点的灰度值设置为0,将每个矩形BOXES内外的灰度值相加,若两个BOXES存在重叠,由于每个BOXES的灰度值为pg,将重叠部分的灰度值相加后,重叠部分的灰度值则大于pg,将所有重叠部分连接得到文本区域I4,文本区域I4即为单词或者一行文字,同时将灰度值为pg和0的部分规定为由单个字符组成的文本区域,将由单个字符组成的文本区域删除;
步骤2、外接矩形坐标的确定与畸变矫正
每个字符的外接矩形BOXES的四个顶点均具有横坐标和纵坐标,找到四边形四个顶点中横坐标最小的点P1,纵坐标最大的点P2,横坐标最大的点P3和纵坐标最小的点P4,此时会出现四个极值点或两个极值点两种情况,下面将两种情况进行具体说明:
a)存在四极值点
找到四个顶点,将四个顶点连接起来,即可得到文本的外接四边形,并得知外接四边形的坐标值;
b)存在二极值点
此时横坐标的极小值和纵坐标的极大值重合为一个点,同时横坐标的极大值和纵坐标的极小值重合为另外一个点,即只得到点P1的坐标(xmax,ymin)和点P3的坐标(xmin,ymax),根据两个已知顶点计算惯性主轴的具体方法如下:
惯性主轴的方向是最小惯性轴与横坐标轴的夹角,角点为图像中每个矩形BOXES的顶点,设Q为图像中角点的集合,设角点坐标为(xi,yi),且i=1,2,…,N,N为图像中所有角点的总数,角点区域的质心定义为
其中,θ为直线L的倾斜角,惯性矩Gθ最小的方向为惯性主轴的方向,即使Gθ最小的角θ,求惯性矩Gθ的导数为:
令G′θ=0,则
m11tan2θ+(m20-m02)tanθ-m11=0 (11)
其中tanθ1,2为惯性矩最小的倾斜角的两个角度;
从式(12)得到两个角θ1和θ2,对Gθ求二阶导数,两个角中二阶导数大于零的角即为惯性主轴方向,此时惯性主轴的斜率为ρ,则最终所求的惯性主轴的倾角为ρ=tanθ;
角点集Q的惯性主轴方程为
获取惯性主轴之后,利用惯性角度与二极值点可获得四个直线方程
y1=ρ(x-xmax)+ymin;
y3=ρ(x-xmin)+ymax;
其中,右上角P1的坐标为(xmax,ymin),左下角点P3的坐标(xmin,ymax);
求解方程,可得四个点的坐标分别为:
(xmax,ymin)
(xmin,ymax)
将上述步骤得到的四极值点时的四个顶点坐标或二极值点时公式(15)中的顶点坐标,输入仿射变换算法对图像进行仿射变换,即可得到进行畸变矫正后的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710717760.8A CN107688806B (zh) | 2017-08-21 | 2017-08-21 | 一种基于仿射变换的自由场景文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710717760.8A CN107688806B (zh) | 2017-08-21 | 2017-08-21 | 一种基于仿射变换的自由场景文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107688806A CN107688806A (zh) | 2018-02-13 |
CN107688806B true CN107688806B (zh) | 2021-04-20 |
Family
ID=61153495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710717760.8A Active CN107688806B (zh) | 2017-08-21 | 2017-08-21 | 一种基于仿射变换的自由场景文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107688806B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764226B (zh) * | 2018-04-13 | 2022-05-03 | 顺丰科技有限公司 | 图像文本识别方法、装置、设备及其存储介质 |
CN108960115B (zh) * | 2018-06-27 | 2021-11-09 | 电子科技大学 | 基于角点的多方向文本检测方法 |
CN109344824B (zh) * | 2018-09-21 | 2022-06-10 | 泰康保险集团股份有限公司 | 一种文本行区域检测方法、装置、介质和电子设备 |
CN109448000B (zh) * | 2018-10-10 | 2021-07-30 | 中北大学 | 一种交通指路标志图像的分割方法 |
CN109948533B (zh) * | 2019-03-19 | 2021-02-09 | 讯飞智元信息科技有限公司 | 一种文本检测方法、装置、设备及可读存储介质 |
CN109961064B (zh) * | 2019-03-20 | 2023-04-07 | 深圳华付技术股份有限公司 | 身份证文本定位方法、装置、计算机设备及存储介质 |
CN110351564B (zh) * | 2019-08-08 | 2021-06-04 | 上海纽菲斯信息科技有限公司 | 一种文字清晰的视频压缩传输方法及*** |
CN110796082B (zh) * | 2019-10-29 | 2020-11-24 | 上海眼控科技股份有限公司 | 铭牌文本检测方法、装置、计算机设备和存储介质 |
CN110909728A (zh) * | 2019-12-03 | 2020-03-24 | 中国太平洋保险(集团)股份有限公司 | 一种多语种保单自动识别的控制算法及装置 |
CN111127409A (zh) * | 2019-12-13 | 2020-05-08 | 西南交通大学 | 基于sift图像配准与余弦相似度的列车部件检测方法 |
CN113159031B (zh) * | 2021-04-21 | 2024-05-10 | 广州逅艺文化科技有限公司 | 一种手写文本检测方法、装置及存储介质 |
CN115331230B (zh) * | 2022-08-17 | 2023-04-14 | 北京睿企信息科技有限公司 | 一种获取文本识别区域的数据处理*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200209A (zh) * | 2014-08-29 | 2014-12-10 | 南京烽火星空通信发展有限公司 | 一种图像文字检测方法 |
CN105205488A (zh) * | 2015-07-13 | 2015-12-30 | 西北工业大学 | 基于Harris角点和笔画宽度的文字区域检测方法 |
CN106156766A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 文本行分类器的生成方法及装置 |
CN106446769A (zh) * | 2015-08-11 | 2017-02-22 | 本田技研工业株式会社 | 用于基于标志的定位***及方法 |
CN106778766A (zh) * | 2016-11-18 | 2017-05-31 | 武汉工程大学 | 一种基于定位点的旋转数字识别方法及*** |
CN106815583A (zh) * | 2017-01-16 | 2017-06-09 | 上海理工大学 | 一种基于mser和swt相结合的夜间车辆车牌定位方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8611662B2 (en) * | 2011-11-21 | 2013-12-17 | Nokia Corporation | Text detection using multi-layer connected components with histograms |
JP5695257B1 (ja) * | 2014-07-25 | 2015-04-01 | 楽天株式会社 | 画像処理装置、画像処理方法、および画像処理プログラム |
-
2017
- 2017-08-21 CN CN201710717760.8A patent/CN107688806B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200209A (zh) * | 2014-08-29 | 2014-12-10 | 南京烽火星空通信发展有限公司 | 一种图像文字检测方法 |
CN106156766A (zh) * | 2015-03-25 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 文本行分类器的生成方法及装置 |
CN105205488A (zh) * | 2015-07-13 | 2015-12-30 | 西北工业大学 | 基于Harris角点和笔画宽度的文字区域检测方法 |
CN106446769A (zh) * | 2015-08-11 | 2017-02-22 | 本田技研工业株式会社 | 用于基于标志的定位***及方法 |
CN106778766A (zh) * | 2016-11-18 | 2017-05-31 | 武汉工程大学 | 一种基于定位点的旋转数字识别方法及*** |
CN106815583A (zh) * | 2017-01-16 | 2017-06-09 | 上海理工大学 | 一种基于mser和swt相结合的夜间车辆车牌定位方法 |
Non-Patent Citations (3)
Title |
---|
Natural Scene Text Detection Based on SWT, MSER and Candidate Classification;Leibin Guan et al.;《2017 2nd International Conference on Image, Vision and Computing》;20170720;第26-30页 * |
复杂场景下车牌定位与字符切分方法研究;侯永顺;《中国优秀硕士学位论文全文数据库 工程科技II辑》;20170315;第2017年卷(第3期);第C034-1270页 * |
采用特征点提取算法的车牌倾斜校正方法研究;李莹 等;《沈阳理工大学学报》;20141231;第33卷(第6期);第1-6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107688806A (zh) | 2018-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107688806B (zh) | 一种基于仿射变换的自由场景文本检测方法 | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
Wang et al. | Character location in scene images from digital camera | |
CN107424142B (zh) | 一种基于图像显著性检测的焊缝识别方法 | |
CN108280450B (zh) | 一种基于车道线的高速公路路面检测方法 | |
CN109409356B (zh) | 一种基于swt的多方向中文印刷体文字检测方法 | |
Wei et al. | Graph convolutional networks for the automated production of building vector maps from aerial images | |
CN106709500B (zh) | 一种图像特征匹配的方法 | |
Huang et al. | Automatic detection and localization of natural scene text in video | |
Xu | Robust traffic sign shape recognition using geometric matching | |
Lim et al. | Text segmentation in color images using tensor voting | |
CN108038458B (zh) | 基于特征摘要图的视频中的户外场景文本自动获取方法 | |
Liu et al. | A novel multi-oriented chinese text extraction approach from videos | |
CN108256518B (zh) | 文字区域检测方法及装置 | |
CN109635679B (zh) | 一种实时的靶纸定位及环线识别方法 | |
CN109767442B (zh) | 一种基于旋转不变特征的遥感图像飞机目标检测方法 | |
CN105844643B (zh) | 图像篡改检测方法 | |
Giri | Text information extraction and analysis from images using digital image processing techniques | |
Gui et al. | A fast caption detection method for low quality video images | |
CN112418210B (zh) | 一种杆塔巡检信息智能分类方法 | |
CN110619331A (zh) | 一种基于颜色距离的彩色影像字段定位方法 | |
Poornima et al. | A method to align images using image segmentation | |
CN105930813B (zh) | 一种在任意自然场景下检测行文本的方法 | |
Sushma et al. | Text detection in color images | |
CN112862802B (zh) | 基于边缘外观序列匹配的地点识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |