CN104408449A

CN104408449A - 智能移动终端场景文字处理方法

Info

Publication number: CN104408449A
Application number: CN201410581464.6A
Authority: CN
Inventors: 卢朝阳; 李静; 刘晓佩; 姜维; 通天意; 汪文芳
Original assignee: XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE
Current assignee: XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE
Priority date: 2014-10-27
Filing date: 2014-10-27
Publication date: 2015-03-11
Anticipated expiration: 2034-10-27
Also published as: CN104408449B

Abstract

本发明涉及一种智能移动终端场景文字处理方法，包括步骤1：基于边缘的文本粗检测；步骤2、获取输入场景图像I的笔画宽度图T，对候选文本区域集合S中的每个候选文本区域进行笔画宽度和几何特征分析，剔除不符合要求的非文本区域，最后输出定位结果图L1；步骤3、识别预处理；步骤4、对切分后的单字符进行规范化和方向线素特征的提取操作；步骤5、基于Gabor特征的细分类。与现有技术相比，本发明的优点在于：准确率有了较大地提升，召回率较高，时间性能上有了大幅提升，字符识别的准确率大幅提升。

Description

智能移动终端场景文字处理方法

技术领域

本发明涉及模式识别中的文字模式识别领域，具体地涉及智能移动终端场景文字处理方法，用于对智能移动终端拍摄的场景文字进行识别。

背景技术

随着信息技术的迅速发展，模式识别在很多科技领域得到了广泛的应用和重视，如人工智能、医学、神经生物学、武器制造、导航等领域。在这些领域中，常见的应用有指纹识别、人脸识别、光学字符识别、文字识别、精确制导、故障检测、语音识别和翻译等。模式识别技术的高速发展和广泛应用，极大地促进了国民经济建设和国防科技现代化建设。

文字处理是模式识别领域的一个重要分支。现实世界中，人们离不开文字，自然场景文字的处理一直是模式识别中的热点问题之一。自从上世纪90年代以来，国际文档分析与识别会议(International Conference of Document Analysis and Recognition，ICDAR)每隔两年举行一次，极大地促进了文字处理技术的发展。

随着移动智能终端的普及与发展，智能手机以其独有的便捷和智能越来越得到人们的钟爱。在日常生活中，人们看到自己感兴趣的文字，可以随时利用自己的手机拍摄成图片，然后提取其中的文字信息，这样会免去人们手写输入的麻烦，使人们的生活更加便捷。同时，移动终端上的文字处理还可以应用于其他多种领域，例如识别街道的路牌，结合GPS定位，可以给盲人导航；识别汽车牌照，可以更加方便交警管理和记录信息；提取商店门牌的文字信息并翻译成使用者熟悉的语言，可以方便他们在国外的旅行等。因此，在智能手机上进行文字处理有极大的应用前景。

然而，在智能手机上实现上述应用存在较大的技术挑战，主要体现在如下两方面：一方面，自然场景中文字的多样性和不确定性使得对自然场景中的文字处理变得异常困难；另一方面，智能手机的CPU、GPU的限制，对文字处理方法的准确度和实时性提出了更高的要求。

综上，自然场景文字处理一直是图像识别领域的一个难点，尤其是在智能手机上进行文字处理，开展基于智能手机上的场景文字处理研究对人工智能的发展具有实际意义，对我国的信息化建设也具有重要作用。

发明内容

本发明所要解决的技术问题是针对上述现有技术提供一种智能移动终端场景文字处理方法，该方法兼顾了速度和准确率，适合在移动平台中使用。

本发明解决上述技术问题所采用的技术方案为：一种智能移动终端场景文字处理方法，其特征在于：包括如下步骤：

步骤1：基于边缘的文本粗检测，具体包括：

(1-1)、采用彩色图像边缘检测方法对智能移动终端内的输入场景图像I进行边缘检测，得到第一中间处理图像I’；

(1-2)、对第一中间处理图像I’进行形态学运算，连接第一中间处理图像I’中的断裂文字以及相邻的文字，得到第二中间处理图像I’；

(1-3)、通过寻找连通域的方法对第二中间处理图像I’进行处理，从而获得输入场景图像I的候选文本区域集合S；

步骤2、获取输入场景图像I的笔画宽度图T，对候选文本区域集合S中的每个候选文本区域进行笔画宽度和几何特征分析，剔除不符合要求的非文本区域，最后输出定位结果图L1；

步骤3、识别预处理，具体包括：

(3-1)、对定位结果图L1的文本区域进行对比度增强；

(3-2)、对增强后的文本区域进行中值滤波；

(3-3)、对中值滤波后的文本区域进行二值化；

(3-4)、对二值化后的文本区域进行字符切分；

步骤4、对切分后的单字符进行规范化和方向线素特征的提取操作，具体包括：

(4-1)、对切分后的每个字符进行裁剪，去掉字符周围的白色背景，对剪裁后的每幅字符图像采用双线性插值法将其尺寸统一变换为N×N；

(4-2)、提取统一尺寸后单个字符的轮廓，并计算其方向线素特征；

(4-3)、采用距离分类器对每个字符进行识别，得到每个字符最接近的X个字符；

步骤5、基于Gabor特征的细分类，具体包括：

(5-1)、将每个字符采用双线性插值法将其尺寸统一变换为M×M。

(5-2)、对统一尺寸后的字符进行Gabor变换，提取Gabor特征；

(5-3)、在(4-3)识别后得到每个字符最接近的X个字符的基础上，利用距离分类器再次进行识别，得出每个字符的识别结果。

作为改进，所述步骤2具体包括：

(2-1)、利用Canny边缘检测方法对输入场景图像I进行边缘检测，得到输入场景图像I的边缘图，同时记录下每个边缘像素点的梯度方向；

(2-2)、对边缘像素点进行笔画宽度变换：

(2-2-1)、假设p是一个边缘像素点，设dp为边缘像素点p的梯度方向，按照dp方向沿着路线r＝p+n·dp(n≧0)在边缘图的边缘像素点中寻找与其匹配的另一个边缘像素点q，设dq为边缘像素点q的梯度方向，dq与dp方向相反或dq＝–dp±π/2；

如果p没有找到与其匹配的像素点q或者dq与dp的方向不是相反的，则该路线r＝p+n·dp(n≧0)被废弃，需要重新选择新的边缘像素点p并且找到与之相对的边缘像素点q；

如果找到相匹配的像素点q，则对应于[p,q]这条路线上的每个像素点的笔画宽度值均被指定为||p–q||，||p–q||为像素点p与像素点q之间的欧氏距离，如果[p,q]这条路线上的像素点已经有了一个笔画宽度值S，则取S与||p–q||中较小的一个值作为该像素点的实际笔画宽度值；

(2-2-2)、重复(2-2-1)，直到计算出所有未被废弃的路线上像素的笔画宽度值；

(2-2-3)、再次遍历所有没有被丢弃的路线，计算出每个路线上全部像素的笔画宽度均值M，然后找出这条路线上所有笔画宽度值大于M的像素，再把这些像素的笔画宽度值置为M，直到所有路线遍历完毕后，最终得到输入场景图像I的笔画宽度图T；

(2-3)、在步骤(2-3)得到的输入场景图像I的笔画宽度图T基础上，对应找到步骤1得到的候选文本区域集合S，然后对候选文本区域集合S进行筛选，筛选规则如下：

(2-3-a)、将长宽比例不在0.1到10之间的候选文本区域剔除；

(2-3-b)、将字符宽度不在W/20和W个像素之间，高度不在H/20和H之间的候选文本区域剔除，其中W和H分别表示图像的宽度和高度；

(2-3-c)、将面积小于20个像素的候选文本区域删除；

(2-3-d)、对候选文本区域集合S进行二值化，计算黑色像素点所占的比例Rb，将黑色像素点所占的比例Rb不在0.2和0.8之间的候选文本区域剔除，Rb的定义为

R_{b} = \frac{Σ_{i = 1}^{h} Σ_{j = 1}^{w} f (i, j) &CirclePlus; (0)}{w \times h}

其中，f(i,j)表示的是候选文本区域图像中(i,j)位置的像素值，w，h分别表示的是候选文本区域的宽度和高度，⊕表示的是异或运算；

(2-3-e)、对候选文本区域集合S进行二值化，计算该区域的交叉性Rcc，将交叉性Rcc不在0.05和0.6之间的候选文本区域剔除，交叉性Rcc的定义为：

R_{cc} = \frac{Σ_{i = 1}^{h} Σ_{j = 1}^{w} f (i, j) &CirclePlus; f (i, j + 1)}{Σ_{i = 1}^{h} Σ_{j = 1}^{w} f (i, j)}

其中，f(i,j)表示的是候选文本区域图像中(i,j)位置的像素值，f(i,j+1)表示的是候选文本区域图像中(i,j+1)位置的像素值，w，h分别表示的是候选文本区域的宽度和高度，⊕表示的是异或运算；

(2-3-f)、对候选文本区域集合S进行笔画宽度变换，得到将所有候选文本区域的第一笔画宽度图，将候选文本区域集合S反色后再进行笔画宽度变换，得到将所有候选文本区域的第二笔画宽度图，如果某一候选文本区域的第一笔画宽度图和第二笔画宽度图中，笔画宽度方差均超过笔画宽度的平均值的一半，并且相邻像素的笔画宽度比均超过3.0，则将该候选文本区域剔除；

(2-4)、文本检测输出：经过(2-3)的筛选后，得到最终的文本区域，然后根据各个文本区域的位置关系，按照从上到下、从左至右的规则进行排序和编号，排序完成之后，将文本区输出。

较好的，所述(3-1)中采用直方图均衡化算法对定位结果图L1的候选区域进行对比度增强；所述(3-2)中采用3×3矩形滑动模板对增强后的区域进行中值滤波，即采用3×3矩形滑动模板，将模板内的像素按照像素值的大小进行排序，生成单调上升或下降的二维数据序列，再用这组的中值替换模板内每个像素的值，然后输出；所述步骤(3-3)采用最大类间方差法对中值滤波后的区域进行二值化。

与现有技术相比，本发明的优点在于：

(1)、本发明与单纯基于边缘的文本检测方法相比，准确率有了较大地提升，这是因为本发明采用了基于笔画宽度变换对候选区进行筛选，有效的剔除了很多笔画宽度不均匀的非文本区域，从而降低了文本区域的误检率；本发明与单纯的笔画宽度文本检测方法相比，召回率较高，这是因为本发明采用基于边缘的文本检测算法作为粗检测；

(2)、本发明与Gabor特征识别相比，在识别性能上有小幅下降，但在时间性能上有了大幅提升，单个字符的识别时间平均缩短了约41％，这是因为本发明采用了方向线素作为粗特征将候选字符进行了粗选；本发明与单独采用向线素特征相比，字符识别的准确率大幅提升，这是因为本发明采用了Gabor特征作为细特征，对字符的区分能力增强了；因此本发明充分结合了提取方向线素特征的快速性和Gabor特征识别的准确性的双重优点；较好地兼顾了速度和准确率，因此更适合在移动平台使用。

附图说明

图1为本发明实施例中智能移动终端场景文字处理方法流程图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提供了一种智能移动终端场景文字处理方法，其包括如下步骤，参见图1所示：

步骤1：基于边缘的文本粗检测：

文本的粗检测是第一步，其主要任务是尽可能多的检测出输入场景图像I中的文字，只有当文本的粗检测的“查全率”高，后面的文本候选区筛选才会有意义，从而整体的检测准确率才会更高，由于边缘检测比较快速且“查全率”高，适合智能手机使用，所以本发明采用的文本粗检测的方法是基于边缘的文本检测算法，具体包括：

(1-1)、采用彩色图像边缘检测方法对智能移动终端内的输入场景图像I进行边缘检测，得到第一中间处理图像I’；本发明采用彩色图像边缘检测方法进行边缘检测，这是因为该方法对彩色图像的效果较好，而且检测的边缘线条较粗，比较有利于后续的文本粗检测，彩色图像边缘检测方法为现有技术中的常规方法，在3×3邻域内分别对图像的RGB三个分量求边缘，取四个方向中的最大值作为当前分量的边缘值，求得全部像素点的边缘值后，用Nibalck算法对边缘进行二值化，最终得到第一中间处理图像I’；

(1-2)、对第一中间处理图像I’进行形态学运算，连接第一中间处理图像I’中的断裂文字以及相邻的文字，得到第二中间处理图像I’；形态学运算也是现有技术中的常规算法，本发明通过进行形态学运算从而更有利于后面的基于边缘的文本检测，本发明采用的形态学运算是对图像的垂直方向和水平方向分别进行了3个像素的膨胀运算，再分别在图像的垂直方向和水平方向分别进行了3个像素的闭运算；

(1-3)、通过寻找连通域的方法对第二中间处理图像I’进行处理，从而获得输入场景图像I的候选文本区域集合S；寻找连通域的方法也为现有技术中的常规方法；

文本候选区筛选是本发明的第二步，目的是为了对粗检测结果进行分析、筛选以剔除非文本区域,研究表明，自然场景中的文字元素具有几乎恒定的笔画宽度，而且相邻的文本区域内的文字笔画宽度大致相等，因此利用这个特点可以区分文本区域和非文本区域；根据自然场景中文字笔画倾向于固定宽度的特点，本发明提出了一种基于笔画宽度变换的文本候选区筛选方法，具体实现的步骤如下：

(2-2)、对边缘像素点进行笔画宽度变换：

(2-2-1)、假设p是一个边缘像素点，设dp为边缘像素点p的梯度方向，按照dp方向沿着路线r＝p+n·dp(n≥0)在边缘图的边缘像素点中寻找与其匹配的另一个边缘像素点q，设dq为边缘像素点q的梯度方向，dq与dp方向相反或dq＝–dp±π/2；

需要特别指出，上述过程主要针对亮底暗字的正向文本，但实际中也可能有暗底亮字的反向文本，因此，所述(2-2)中，重复执行(2-2-1)、(2-2-2)和(2-2-3)一次，重复执行时，(2-2-1)中，按照-dp方向沿着路线r＝p+n·dp(n≧0)在边缘图的边缘像素点中寻找与其匹配的另一个边缘像素点q。另外，从笔画宽度变换操作的过程中可以看出，待检测像素的数量大大减少，因为一个像素的梯度特征只有当找到另一个相匹配的且与它相反的梯度方向的像素时才有效；

(2-3-a)、将长宽比例不在0.1到10之间的候选文本区域剔除；候选区域的长宽比是存在一定范围的，一般在0.1到10之间，不满足该条件的一些长宽比例过大或过小的区域应该被剔除；

(2-3-b)、将字符宽度不在W/20和W个像素之间，高度不在H/20和H之间的候选文本区域剔除，其中W和H分别表示图像的宽度和高度；字符不应过大，也不应过小，字符的宽度应在W/20和W个像素之间，高度在H/20和H之间，其中W和H分别表示图像的宽度和高度，而不满足该条件的字符区域应该被剔除

(2-3-c)、将面积小于20个像素的候选文本区域删除；候选区域面积过小，则被判定为非文本区域，因此面积小于20像素的候选文本区域应当被删除；

(2-3-d)、一个区域内的黑色像素点所占的比例不应过大，也不应过小，文本区的黑色像素点所占的比例一般在0.2和0.8之间，因此对候选文本区域集合S进行二值化，计算黑色像素点所占的比例Rb，将黑色像素点所占的比例Rb不在0.2和0.8之间的候选文本区域剔除，Rb的定义为

R_{b} = \frac{Σ_{i = 1}^{h} Σ_{j = 1}^{w} f (i, j) &CirclePlus; (0)}{w \times h}

(2-3-e)、文字区域的交叉性与非文字区的交叉性是不同的，一般情况下，非文字区域的交叉性是没有固定规律的，而文字是规则排列的，因此文字区域的交叉性是在一定范围内的，因此对候选文本区域集合S进行二值化，计算该区域的交叉性Rcc，将交叉性Rcc不在0.05和0.6之间的候选文本区域剔除，交叉性Rcc的定义为：

R_{cc} = \frac{Σ_{i = 1}^{h} Σ_{j = 1}^{w} f (i, j) &CirclePlus; f (i, j + 1)}{Σ_{i = 1}^{h} Σ_{j = 1}^{w} f (i, j)}

(2-3-f)、自然场景中存在一些类似文字元素的场景元素，比如树叶，很难将它们与文字区分开来；另外，自然场景中的文字的笔画宽度不一定都相等，可能笔画宽度不等但变化幅度不大；一般一个文本区域的笔画宽度方差不超过笔画宽度的平均值的一半，并且相邻像素的笔画宽度比不超过3.0，因此对于笔画宽度变化太大的候选区域应将其剔除；本发明对候选文本区域集合S进行笔画宽度变换，得到将所有候选文本区域的第一笔画宽度图，将候选文本区域集合S反色后再进行笔画宽度变换，得到将所有候选文本区域的第二笔画宽度图，如果某一候选文本区域的第一笔画宽度图和第二笔画宽度图中，笔画宽度方差均超过笔画宽度的平均值的一半，并且相邻像素的笔画宽度比均超过3.0，则将该候选文本区域剔除；

(2-4)、文本检测输出：经过(2-3)的筛选后，得到最终的文本区域，然后根据各个文本区域的位置关系，按照从上到下、从左至右的规则进行排序和编号，排序完成之后，将文本区输出，输出的结果为出定位结果图L1；

步骤3、识别预处理，具体包括：

(3-1)、对定位结果图L1的文本区域进行对比度增强；为了节省运算时间，本发明采用的是运算简单且效果明显的直方图均衡化算法对定位结果图L1的文本区域进行对比度增强，直方图均衡化算法为现有技术中的常规算法，增强后的新图像增加了像素灰度值的动态范围，从而达到增强图像对比度的效果；

(3-2)、对增强后的文本区域进行中值滤波，本发明中采用3×3矩形滑动模板对增强后的文本区域进行中值滤波，这种方法也为现有技术中的常规方法，即——用3×3矩形滑动模板，将模板内的像素按照像素值的大小进行排序，生成单调上升或下降的二维数据序列，再用这组的中值替换模板内每个像素的值，然后输出，中值滤波后的图像不但很好的保存了原图像的边缘信息，而且使图像的灰度变得更加平滑了；

(3-3)、对中值滤波后的文本区域进行二值化；本发明考虑到算法执行的效率和要待别文本区域可能存在光照不均等情况，采用了最大类间方差法，最大类间方差法为现有技术中的常规算法，

(3-4)、对二值化后的文本区域进行字符切分；本发明采用了一种投影切分方法对文字进行分割，这种方法也为现有技术中的常规方法，该方法在进行切分前需要获取文本的边缘图像，然后对边缘图像进行投影切分，一个文本区域可能是包含多行的，也可能是包含多列的，因此在进行切分时，需要进行行切分和列切分，这种方法的算法复杂度比较小，执行速度较快；

(4-1)、对切分后的每个字符进行裁剪，去掉字符周围的白色背景，对剪裁后的每幅字符图像采用双线性插值法将其尺寸统一变换为N×N；本发明需要对每个字符区进行裁剪，去掉字符周围的白色背景，因为文字的大小不同，同一个文字的特征也会不同，因此，在提取字符特征之前，需要对每幅字符图像进行归一化，把大小不同的字符区变换为大小一致的字符区，本发明把所有的单个字符区，归一化为64×64的矩形区域；

(4-3)、根据方向线素特征，采用距离分类器对每个字符进行识别，得到每个字符最接近的X个字符；

步骤5、基于Gabor特征的细分类，具体包括：

(5-1)、将每个字符采用双线性插值法将其尺寸统一变换为M×M，这里M取40。

(5-2)、对统一尺寸后的字符进行Gabor变换，提取Gabor特征；

本发明采用欧式距离分类器对方向线素特征进行分类时，第一识别率仅为45％以上，而前100个候选字符的识别率为89％以上，因此X值取100比较合适，然后在这100个候选字符中采用Gabor特征进一步细分类；Gabor特征是本发明的细分类特征，对汉字具有较好的区分度，当采用余弦向量夹角作为Gabor特征的分类器时，第一识别率达78％以上，所以，本发明可以采用余弦向量夹角作为Gabor特征的分类器，从上一级分类器分类的100个候选结果中选择一个最匹配的结果，然后将这个结果作为最终识别结果输出。因此本发明采用级联的方式，先通过提取方向线素特征对待识别汉字进行粗分类，将识别的候选范围缩小至100，然后在这个小范围内，通过提取Gabor细特征进行精确的识别，输出最终的识别结果；与Gabor特征识别相比，在识别性能上有小幅下降，但在时间性能上有了大幅提升，单个字符的识别时间平均缩短了约41％，这是因为本发明采用了方向线素作为粗特征将候选字符从3755个减少到100个；与单纯采用方向线素特征相比，字符识别的准确率大幅提升，这是因为本发明采用了Gabor特征作为细特征，对字符的区分能力增强了；本发明充分结合了提取方向线素特征的快速性和Gabor特征识别的准确性的双重优点兼顾了速度和准确率，因此更适合在移动平台使用。

Claims

1.一种智能移动终端场景文字处理方法，其特征在于：包括如下步骤：

步骤1：基于边缘的文本粗检测，具体包括：

步骤3、识别预处理，具体包括：

(3-1)、对定位结果图L1的文本区域进行对比度增强；

(3-2)、对增强后的文本区域进行中值滤波；

(3-3)、对中值滤波后的文本区域进行二值化；

(3-4)、对二值化后的文本区域进行字符切分；

步骤5、基于Gabor特征的细分类，具体包括：

(5-2)、对统一尺寸后的字符进行Gabor变换，提取Gabor特征；

2.根据权利要求1所述的智能移动终端场景文字处理方法，其特征在于：所述步骤2具体包括：

(2-2)、对边缘像素点进行笔画宽度变换：

(2-3-a)、将长宽比例不在0.1到10之间的候选文本区域剔除；

(2-3-c)、将面积小于20个像素的候选文本区域删除；

R_{b} = \frac{Σ_{i = 1}^{h} Σ_{j = 1}^{w} f (i, j) &CirclePlus; (0)}{w \times h}

R_{cc} = \frac{Σ_{i = 1}^{h} Σ_{j = 1}^{w} f (i, j) &CirclePlus; f (i, j + 1)}{Σ_{i = 1}^{h} Σ_{j = 1}^{w} f (i, j)}

3.根据权利要求1所述的智能移动终端场景文字处理方法，其特征在于：所述(3-1)中采用直方图均衡化算法对定位结果图L1的候选区域进行对比度增强；所述(3-2)中采用3×3矩形滑动模板对增强后的区域进行中值滤波，即采用3×3矩形滑动模板，将模板内的像素按照像素值的大小进行排序，生成单调上升或下降的二维数据序列，再用这组的中值替换模板内每个像素的值，然后输出；所述步骤(3-3)采用最大类间方差法对中值滤波后的区域进行二值化。

4.根据权利要求1所述的智能移动终端场景文字处理方法，其特征在于：所述(2-2)中，重复执行(2-2-1)、(2-2-2)和(2-2-3)一次，重复执行时，(2-2-1)中，按照-dp方向沿着路线r＝p+n·dp(n≧0)在边缘图的边缘像素点中寻找与其匹配的另一个边缘像素点q。