CN102722736A

CN102722736A - 复杂干扰下字符串的分割与识别方法

Info

Publication number: CN102722736A
Application number: CN2012101932466A
Authority: CN
Inventors: 汪荣贵; 戴经成; 周良; 李想; 游生福; 查炜
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2012-06-13
Filing date: 2012-06-13
Publication date: 2012-10-10

Abstract

本发明公开了一种复杂干扰下字符串的分割与识别方法，其特征是：在学习阶段，将包含有m个字符的图像切分成m份图片，构成多示例学习的包，并将同一字符作为一类，将包归类入库。再计算包的积分图，提取出包的haar-like特征作为包的示例，并使用多样性密度算法找到各类的关键示例，最后利用SVM的分类性能，对关键示例进行学习。在识别阶段，利用学习的结果预测新包的类型，实现对字符串的识别。本发明能实现复杂干扰下的字符串自动识别功能，且识别速度和效率较高。

Description

复杂干扰下字符串的分割与识别方法

技术领域

本发明涉及图像处理领域，具体地说是一种复杂干扰下字符串的分割与识别技术。

背景技术

光学字符识别技术（Optical Character Recognition，简称OCR）经过多年的发展，取得了巨大的进步，目前已经在手写输入、车牌自动识别、文本的自动扫描与识别等领域得到广泛的应用。然而，现有的OCR技术还难以对复杂干扰下的字符串进行稳健的分割与识别。正因为如此，网络上通常采用受到一定干扰的字符串作为验证码，来鉴别某种操作是人工行为还是计算机的自动行为。

目前，对字符串的识别方法主要分为两大类，一种是基于欧式空间距离的方法，例如模板匹配，PCA,2D-PCA,Hu不变矩等；这类方法简单，易于实现，且对形状规整的字符具有较好的识别效果；但是对于复杂干扰下的字符串，识别效果很差。

复杂干扰下的字符串一般具有以下特征:

（1）它们每种类型的字符都有多种字体，且故意扭曲或旋转一定角度；

（2）字符粘连在一起，不易区分；

（3）干扰与字符本身的特征没有明显区别。

通过增加学习模板的方法，虽然在一定程度上提高了识别率，但是会过多的增加在时间上的开销。

另一种是基于有监督机器学习的识别方法，例如神经网络，SVM，AdaBoost算法等。这类方法具有机器学习的能力，能够自动统计出样本的特征，具有较高的识别率和较快的识别速度；但是这类方法需要非歧义的样本，对于有干扰的样本，不能取到很好的学习效果，所以对复杂干扰下的字符串的识别率较低。

对于无法用算法去除干扰的字符串，上述两种方法都需要人工去除干扰并制作大量样本。这样做是既费时又费力的。

发明内容

本发明是为避免上述现有技术所存在的不足之处，提出一种复杂干扰下字符串的分割与识别方法，能够实现样本的自动获取，在保证识别率的情况下不会增加时间上的开销，对于有干扰的样本，能取到很好的学习效果和识别率。

本发明解决技术问题采用如下技术方案：

本发明一种复杂干扰下字符串的分割与识别方法的特点是按如下过程进行：

Ⅰ、学习阶段：利用多示例机器学习的方法按如下步骤对复杂干扰下字符串进行学习；

步骤1、获取多示例学习的各个包；

将包含有干扰的m个字符图像切分成m份图片；每一份图片包含且仅包含一个完整的字符；将所述m份图片作为多示例学习的m个包，以所述m个包分别入库；所述分别入库是指将同一字符作为同一类，放入在同一个文件夹中，获得与类的数量相一致的n个文件夹，所述n不大于m；

步骤2、利用haar-like特征原型提取haar-like特征作为包的示例；

若所述图像不是灰度图像，则先将库内的每一个包进行灰度化处理，再按式(1)计算包的积分图；若所述图像是灰度图像，则利用式(1)计算包的积分图ii：

ii (x, y) = \underset{i \leq x, j \leq y}{Σ} img (i, j) - - - (1)

式(1)中ii(x,y)表示图像中横坐标i≤x，纵坐标j≤y的所有像素之和；

采用haar-like特征原型在所述包的积分图中提取haar-like特征作为包的示例；所述包的示例由向量表示，所述向量的每一个分量对应每一个haar-like特征原型所提取的特征值；

步骤3、利用多样性密度算法找到库中每一类的多样性密度最大的前u个包的示例

作为该类的关键示例；

步骤4、将每一类的关键示例作为SVM分类器样本进行分类；按照类的个数n训练出n个SVM分类器，将所述n个SVM分类器构造成一棵二叉决策树，每个SVM分类器为所述二叉决策树的每个节点；所述每个SVM分类器按如下方法获得；

将库中某一类的关键示例作为SVM分类器学习的正样本：

从库中其它类中的所有关键示例中任意选取u个关键示例，作为SVM分类器学习的负样本：以所述正样本和负样本通过SVM算法训练得到式(7)所表征的SVM分类器f(t)：

f(t)=sgn(<W^*,t>+b^*) （2）

式(2)中，b^*为设定的阈值，t为待分类的学习样本，W^*为权重向量；

Ⅱ、识别阶段：利用所述多示例机器学习方法获得的SVM分类器f(t)对复杂干扰下字符串进行识别；

以最小的字符大小作为初始扫描矩形特征窗口，自左至右、再自上而下，扫描图像经切分后的每个图片；计算扫描窗口内的矩形特征值，得到特征向量T，将所述特征向量T从所述二叉决策树顶端按照从上到下的顺序代入每个节点，利用式(3)计算获得f(T)：

f(T)=sgn(<W^*,T>+b^*) （3）

直到f(T)大于0时，分类结束，输出识别结果；若特征向量T带入所述二叉决策树的最后一个节点计算后，f(T)仍小于0，则将所述初始扫描矩形特征窗口以固定倍率扩大后，再带入所述二叉决策树顶端的每个节点进行计算，直至f(T)>0，则分类结束，输出识别结果，若所述初始扫描矩形特征窗口的大小扩大到大于最大字符时，仍然未找到f(T)>0，则表示识别失败。

与已有技术相比，本发明有益效果体现在：

1、本发明对复杂干扰下的字符串图片，利用多示例学习的方法实现样本的自动获取，无需手动制作样本，提高了工作效率。

2、本发明使用多示例学习的方法，对含有噪声和干扰的复杂字符串有较好的学习效果，从而可以达到较高的识别率，且在增加学习样本的情况下也不会增加识别时间上的开销。

3、本发明使用积分图运算，能更快的获取图像的haar-like特征。

4、本发明利用haar-like特征提取样本特征，适用于对任何复杂干扰下的字符串的特征提取，具有良好的普适性。

5、本发明利用多尺度扫描的方式，对字符大小变化的字符串具有更好鲁棒性和识别效果。

附图说明

图1为本发明学习样本获取示意图；

图2为本发明构造多SVM分类器方法示意图；

图3为本发明字符串识别过程示意图。

具体实施方式

本实施例复杂干扰下字符串的分割与识别方法按如下过程进行：

Ⅰ、学习阶段：利用多示例机器学习的方法按如下方式对复杂干扰下字符串进行学习；

步骤1、获取多示例学习的各个包；

将包含有干扰的m个字符图像自动切分成m份图片；每一份图片包含且仅包含一个完整的字符；将m份图片作为多示例学习的各个包，从而构成多实例学习的学习样本，以各个包分别入库；分别入库是指将同一字符作为同一类，放入在同一个文件夹中，获得与类的数量相一致的n个文件夹，n不大于m。

具体实施中如图1所示，将包含有四个字符和干扰的图像切分成四份字符图片，每一份图片都唯一包含一个完整的字符，分别为字符A、字符A、字符4和字符Q，将四个字符图片作为多示例学习的各个包并分别入库。例如，将包含有字符A和字符A的图片作为同一类放入同一文件夹名为A的文件夹中，如图1中所示。这里无需人工去除线条干扰，提高了制作学习样本的效率；

步骤2、利用haar-like特征原型提取haar-like特征作为包的示例；

为了加快提取haar-like特征的速度，本实施例中先计算库中各包的积分图。若图像不是灰度图像，则先将库内的每一个包进行灰度化处理，再按式(1)计算包的积分图；若图像是灰度图像，则直接按式(1)计算包的积分图：

ii (x, y) = \underset{i \leq x, j \leq y}{Σ} img (i, j) - - - (1)

式(1)中图像(x,y)处的积分图ii(x,y)表示图像中横坐标i≤x，纵坐标j≤y的所有像素之和；本实施例中，图像坐标(x，y)是以图像左上角顶点为原点O，以水平方向为X轴，以竖直方向为Y轴建立的平面直角坐标系XOY所确定的坐标。图像img中位置(x,y)处的积分图ii(x,y)为图像img中位置(x,y)左上角所有像素值之和，式(1)中img(i,j)表示图像(x,y)处左上角任意像素。ii为包的积分图，采用haar-like特征原型在包的积分图中提取haar-like特征作为包的示例；包的示例由向量表示，向量的每一个分量对应每一个haar-like特征原型所提取的特征值；如果haar-like特征原型不足以描述字符特征，则将haar-like特征原型以旋转的方式进行扩展。再采用扩展的haar-like特征原型在包的积分图中提取扩展的haar-like特征作为包的示例。

作为该类的关键示例；本实施例中，同一类字符A的关键示例

分别为：

t_{1}^{*} = (0,2,218,212,34,231,24,32,12,13,12,45,15),

t_{2}^{*} = (12,41,243,221,19,251,13,28,46,32,20,21,22),

t_{3}^{*} = (4,21,223,233,16,242, 18,27,31,22,24,35,31),

t_{4}^{*} = (13,23,225,241,8,229,17,16,24,10,16,28,16),

t_{5}^{*} = (21,0,241,220,4,227,16,10,9,3,18,40,29),

此处关键示例的个数u=5。

步骤4、将每一类的关键示例作为SVM分类器样本进行分类；按照类的个数n训练出n个SVM分类器，将n个SVM分类器构造成一棵二叉决策树，每个SVM分类器为二叉决策树的每个节点。如图2所示，以SVM分类器1为二叉决策树的根节点，其左孩子为分类器1对应的第一类字符，右孩子SVM分类器2，SVM分类器2的左孩子为其对应的第二类字符；第i个分类器SVM分类器i的左孩子为其对应的第i类字符，右孩子为第i+1个SVM分类器；具体实施中，类的个数n是根据需要识别的字符种类而确定的；每个SVM分类器按如下方法获得；

将库中某一类的关键示例作为SVM分类器学习的正样本：

从库中其它类中的所有关键示例中任意选取u个关键示例，作为SVM分类器学习的负样本：

以正样本和负样本通过SVM算法训练得到式(7)所表征的SVM分类器f(t)：

f(t)=sgn(<W^*,t>+b^*) （2）

式(2)中，b^*为设定的阈值，t为待分类的学习样本，W^*为权重向量；则二叉决策树中的每一个节点为式(2)所表达的SVM分类器；

Ⅱ、识别阶段：利用多示例机器学习方法的学习结果对复杂干扰下字符串进行识别；

如图3所示，识别阶段开始后，首先将需要识别的字符串图片按照每一份图片包含且仅包含一个完整的字符切分成4个部分，再对切分后的图片做预处理，包括灰度化处理、计算包的积分图；然后以最小的字符大小作为初始扫描矩形特征窗口，自左至右、再自上而下，扫描图像经切分后的每个图片；计算扫描窗口内的矩形特征值，得到特征向量T，将特征向量T从二叉决策树顶端按照从上到下的顺序代入每个节点按下式（3）计算得到f(T)：

f(T)=sgn(<W^*,T>+b^*) （3）

若f(T)>0，则表明是该分类器所对应的字符，输出该识别结果，否则说明扫描窗口内的字符为其余类字符，则代入下一节点计算得到f(T)，直到f(T)大于0时，分类结束，输出识别结果；若特征向量T带入二叉决策树的最后一个节点计算后，f(T)仍小于0，则将初始扫描矩形特征窗口以固定倍率扩大后，再带入二叉决策树顶端的每个节点进行计算，直至f(T)>0，则分类结束，输出识别结果，若初始扫描矩形特征窗口的大小扩大到大于最大字符时，仍然未找到f(T)>0，则表示识别失败，需要将此识别失败的字符图片重新入库，从步骤2开始进行新一轮的学习。

Claims

1.一种复杂干扰下字符串的分割与识别方法，其特征按如下过程进行：

步骤1、获取多示例学习的各个包；

步骤2、利用haar-like特征原型提取haar-like特征作为包的示例；

ii (x, y) = \underset{i \leq x, j \leq y}{Σ} img (i, j) - - - (1)

作为该类的关键示例；

将库中某一类的关键示例作为SVM分类器学习的正样本：从库中其它类中的所有关键示例中任意选取u个关键示例，作为SVM分类器学习的负样本：

以所述正样本和负样本通过SVM算法训练得到式(7)所表征的SVM分类器f(t)：

f(t)=sgn(<W^*,t>+b^*) （2）

f(T)=sgn(<W^*,T>+b^*) （3）