CN105760901B

CN105760901B - 一种多语种倾斜文档图像的自动语言判别方法

Info

Publication number: CN105760901B
Application number: CN201610053497.2A
Authority: CN
Inventors: 王恺
Original assignee: Tianjin Shenzhou Haotian Technology Co Ltd; Nankai University
Current assignee: Tianjin Shenzhou Haotian Technology Co Ltd; Nankai University
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2019-01-04
Anticipated expiration: 2036-01-27
Also published as: CN105760901A

Abstract

本发明涉及一种多语种倾斜文档图像的自动语言判别方法，其技术特点是包括以下步骤：对于采集的文档图像，利用Gabor滤波方法进行文档图像语种的自动判别，将文档图像分为亚洲语种文档图像和拉丁语种文档图像；针对不同语种的文档图像使用相应的倾斜校正算法，得到校正后的文档图像，然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别，从而实现文档图像的语言自动判别功能。本发明设计合理，其采用Gabor滤波和关键词匹配相结合的方法实现了文档图像的自动语言判别功能，并且通过分块投票方式保证了方法的鲁棒性，提高了识别的准确率，准确率满足了实际应用的需求。

Description

一种多语种倾斜文档图像的自动语言判别方法

技术领域

本发明属于信息技术领域，尤其是一种多语种倾斜文档图像的自动语言判别方法。

背景技术

光学字符识别(简称OCR)技术已经被广泛地应用于文档图像的数字化工作，其作用是将通过照相机拍摄或扫描仪扫描得到的文档图像转化为可编辑、可搜索的电子文档。随着国际化程度的不断提高，具有多种语言的文档图像往往混杂在一起。目前的OCR技术多是针对某种特定语言的文档图像进行处理，根据人为指定的语言对文档图像进行版面分析和文字识别、将其转化为可编辑和可搜索的电子文档。通过文档图像自动语言判别方法，可以自动将待做OCR处理的文档图像按语言分类，根据语言判别结果将文档图像送入不同的OCR引擎或使用不同的语言选项进行处理，从而减少人工干预、降低人工成本。由于某些语言使用的字符结构相似，以及图像采集过程中经常遇到的噪音多、分辨率不高等问题，难以设计出一种能够满足实际应用需要的具有高准确率的文档图像自动语言判别方法。

目前，在文档图像自动语言判别方法的研究工作中，主要是利用纹理特征和文字形状特征来做语言判别，其存在的主要问题是：(1)纹理特征对于字形相似的语言难以达到实用的效果，如英/德/法语言判别等；(2)对于字形差异较大的语言，使用单一语言区域的纹理特征也会造成判别结果不稳定、准确率偏低等问题；(3)与纹理特征相比，文字形状特征更适用于区分文字结构相似的语言，但在分辨率不高的情况下利用文字形状特征也难以达到满足实际应用需要的准确率；(4)待处理文档图像可能存在倾斜等问题，而对于不同语种的文档图像需要应用不同的倾斜校正方法，如由于字符结构差异较大、中文文档图像和英文文档图像的倾斜校正方法完全不同。另外，不同语种文档图像的文字切分方法也完全不同。因此，在未知语种的情况下无法在文档图像中提取正确的文字形状特征、从而使基于文字形状特征的自动语言判别方法失效。综上所述，现有的文档图像自动语言判别方法虽然取得了一定的效果，但由于某些语言文字在纹理和形状上都非常相似，以及图像采集过程中引入的噪音多、分辨率不高、倾斜等问题，其准确率难以满足实际应用的需求。

发明内容

本发明的目的在于克服现有技术的不足，提供一种设计合理、准确率高且适应性强的多语种倾斜文档图像的自动语言判别方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种多语种倾斜文档图像的自动语言判别方法，包括以下步骤：

步骤1、对于采集的文档图像，利用Gabor滤波方法进行文档图像语种的自动判别，将文档图像分为亚洲语种文档图像和拉丁语种文档图像；

步骤2、针对不同语种的文档图像使用相应的倾斜校正算法，得到校正后的文档图像，然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别，从而实现文档图像的语言自动判别功能。

进一步，所述步骤1的具体实现方法包括以下步骤：

(1)对采集的文档图像使用数学形态学的方法进行滤噪处理；

(2)对于存在倾斜的文档图像，从中选取适合于做自动语言判别的一定数量的文字区域；

(3)对选出的每个文字区域分别做Gabor滤波，并根据提取到的Gabor特征、应用分类器对每个文字区域的语种进行自动判别；

(4)对每个文字区域的自动语种判别结果进行投票，取投票数最多的语种作为整个文档图像的语种判别结果，从而将输入的文档图像分为亚洲语种文档图像和拉丁语种文档图像两大类。

进一步，所述步骤(1)对采集的文档图像使用数学形态学的方法进行滤噪处理是采用腐蚀及膨胀算法实现的。

进一步，所述步骤(3)的具体方法为：首先对于选出的文字区域图像生成不同尺度、多个方向的Gabor图像；然后生成得到Gabor幅值图像并对Gabor幅值图像进行向下采样；最后，根据提取到的Gabor特征利用文字区域训练样本进行分类器学习，对待作语种判别的文字区域图像进行分类，将每一文字区域分为亚洲语种或拉丁语种。

进一步，所述步骤2的具体实现方法包括以下步骤：

(1)根据自动判别得到的语种对文档图像进行倾斜校正及文字切分处理；

(2)从文字切分结果中取出最符合文字特点的若干块文字图像；

(3)根据自动判别得到的语种对每一块切分出来的文字图像或单词图像利用分类器进行识别，根据识别结果对每一块文字图像或单词图像的语言进行自动判别；

(4)对文字图像或单词图像的自动语言判别结果进行投票，取投票数最多的语言作为整幅文档图像的语言判别结果。

进一步，所述步骤(1)的文字切分处理方法为：在校正的文档图像上使用适用于不同语种的文字切分方法，得到文字切分结果：对于亚洲语种文档图像，通过文字切分得到多个候选字符；对于拉丁语种文档图像，通过文字切分得到多个候选单词。

进一步，所述步骤(2)的具体方法为：对于亚洲语种文档图像，首先将候选字符按高度计算直方图，选取高度在直方图峰值附近的字符，以滤除噪音、减少其对判别结果的影响；然后，对选取的字符按宽高比减一的绝对值进行升序排序，保留前面字符进行后继分析；对于拉丁语种文档图像，按照候选单词的长度降序排列，保留前面一定数量的单词进行后继分析。

进一步，所述步骤(3)的具体方法为：对于亚洲语种文档图像，将第(2)步保留下来的一定数量的字符图像送入亚洲文字图像分类器进行字符识别，每个字符的识别结果包括中文、日文或韩文，保留识别可信度最高的前面一定数量的字符进行语言判别投票；对于拉丁语种文档图像，将第(2)步保留下来的一定数量的单词进行字符切分和识别，保留通过语言词库匹配且可信度最高的前面一定数量的单词进行语言判别投票

本发明的优点和积极效果是：

本发明设计合理，其采用Gabor滤波和关键词匹配相结合的方法实现了文档图像的自动语言判别功能，并且通过分块投票方式保证了方法的鲁棒性，提高了识别的准确率，准确率满足了实际应用的需求，解决了倾斜情况下中、日、韩、英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰等语言文档图像的自动语言判别问题。

附图说明

图1是本发明的***框架图；

图2是文档图像自动语种判别流程图；

图3是同语种文档图像自动语言判别流程图；

图4是拉丁语种文档图像的语言判别实验结果示意图。

具体实施方式

以下结合附图对本发明实施例做进一步详述：

一种多语种倾斜文档图像的自动语言判别方法，如图1所示，包括以下步骤：

步骤1、对于采集的文档图像，利用Gabor滤波方法进行文档图像语种的自动判别，将文档图像分为亚洲语种(包括中、日、韩)文档图像和拉丁语种(包括英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰)文档图像。

本步骤的具体处理过程如图2所示，包括以下步骤：

步骤(1)、对采集的文档图像应用数学形态学的方法进行滤噪处理，减少噪音的影响。

对待作语种判别的文档图像做开运算(即先腐蚀再膨胀)，滤除文档图像中可能存在的噪音。其中，

(a)腐蚀的算法：用3*3的结构元素，扫描图像的每一个像素，用结构元素与其覆盖的二值图像做“与”操作。如果都为1，结果图像的该像素为1，否则为0。

(b)膨胀的算法：用3*3的结构元素，扫描图像的每一个像素，用结构元素与其覆盖的二值图像做“与”操作。如果都为0，结果图像的该像素为0，否则为1。

步骤(2)、对于存在倾斜的文档图像，从中选取最适合于做自动语言判别的前m个文字区域(这里令m＝21)。

对于一幅要提取Gabor特征的文档图像，首先从图像中随机选取100幅尺寸为200*200的子图像；接着，对这100幅子图像进行筛选，筛选标准如下：

(a)如果一幅子图像的黑像素数量超过子图像尺寸的1/4，则认为不是文字区域、将其删除，以减少图像等非文字区域对结果的干扰。

(b)将(a)中筛选出来的每幅文字区域图像平均分成4行4列，共计16块。对每一块，使用canny算子求出其边缘图像。如果边缘的比例占文字区域总大小10％～20％，则文字区域的支持度增1。最终得到的每一文字区域的支持度取值范围在0～16。

(c)按照支持度从高到低对文字区域进行排序，选取支持度最高的前21个文字区域图像进行Gabor特征的提取，并据此进行分类。

步骤(3)、对选出的每个文字区域分别做Gabor滤波，并基于提取到的Gabor特征、应用分类器对每个文字区域的语种进行自动判别。

对于选出的21幅文字区域图像，首先生成不同尺度(g＝0,1,2)、多个方向(h＝0,1,2,…,15)的Gabor图像。

Gabor函数的表达形式如公式(1)所示：

实部和虚部的计算方法分别如公式(2)和公式(3)所示：

其中，

x_t＝xcosθ+ysinθ (4)

y_t＝-xsinθ+ycosθ

公式(1)至公式(4)中，x和y代表像素点坐标；(x_t,y_t)是(x,y)顺时针旋转θ度得到的结果；f代表复正弦信号频率，其取值为f_max＝0.25；θ代表小波方向，其取值为γ代表沿正弦平面波的小波空间宽度，η代表垂直于正弦平面波的小波空间宽度，这里

在固定尺度和固定方向下，可计算出核矩阵，分为实部核矩阵和虚部核矩阵，核矩阵的计算需要一个窗口，窗口值设为8，得到的两个8*8的核矩阵。求出核矩阵后，对实部核矩阵做上下翻转，加上左右翻转，虚部核矩阵不做操作。然后分别用这两个核矩阵对图像进行卷积，分别得到实部卷积后图像和虚部卷积后图像。最后根据这两个卷积后的图像计算幅值，得到幅值图像。

对计算出的Gabor幅值图像进行向下采样(下采样比率4)，即将幅值图像缩小到原始大小的1/4。在特定尺度和特定方向上有一幅下采样后的图像(50*50)，将图像的像素值求平均。这样对于一幅子图像，我们有3个尺度、16个方向，那么总特征数为3*16＝48个。

根据提取到的Gabor特征利用文字区域训练样本进行分类器学习，再对待作语种判别的文字区域图像进行分类，将每一文字区域分为亚洲语种或拉丁语种。

步骤(4)、对21个文字区域的自动语种判别结果进行投票，取投票数最多的语种作为整个文档图像的语种判别结果。

对于一幅待作语种判别的文档图像，根据选出的21个文字区域的语种自动判别结果进行投票，投票数多的语种即为文档图像的语种判别结果，从而将送入的文档图像分为亚洲语种文档图像和拉丁语种文档图像两大类。

步骤2、在得到文档图像语种判别结果的基础上，针对不同语种的文档图像应用不同的倾斜校正算法，得到校正后的文档图像，并在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别。

本步骤的具体处理过程如图3所示，包括以下步骤：

步骤(1)、根据自动判别得到的语种对文档图像进行相应的倾斜校正及文字切分处理。

根据前面得到的文档图像语种自动判别结果，应用适用于不同语种的倾斜校正方法，将文档图像转正；然后，在校正的文档图像上应用适用于不同语种的文字切分方法，得到文字切分结果。对于亚洲语种文档图像，通过文字切分得到多个候选字符；对于拉丁语种文档图像，通过文字切分得到多个候选单词。

步骤(2)、从文字切分结果中取出最符合文字特点的若干块文字图像。

对于亚洲语种文档图像，首先将候选字符按高度计算直方图，选取高度在直方图峰值附近的字符，以滤除噪音、减少其对判别结果的影响；然后，对选取的字符按(宽高比-1)的绝对值进行升序排序，保留前100个字符进行后继分析，即宽高比越接近1，则越有可能是切分正确的亚洲文字。

对于拉丁语种文档图像，按照候选单词的长度降序排列，保留前100个单词进行后继分析，即单词长度越长，则越可以降低因个别字符误识而导致的单词所属语言判别错误。

步骤(3)、根据自动判别得到的语种对每一块切分出来的文字图像或单词图像利用分类器进行识别，根据识别结果对每一块文字图像或单词图像的语言进行自动判别。

对于亚洲语种文档图像，将第(2)步保留下来的100个字符图像送入亚洲文字图像分类器进行字符识别，每个字符的识别结果可能是中文、日文或韩文，保留识别可信度最高的前20个字符进行语言判别投票。

对于拉丁语种文档图像，将第(2)步保留下来的100个单词进行字符切分和识别，保留能够通过某种语言词库匹配且可信度最高的前20个单词进行语言判别投票。

步骤(4)、对文字图像或单词图像的自动语言判别结果进行投票，取投票数最多的语言作为整幅文档图像的语言判别结果。

对于亚洲语种文档图像，根据第(3)步保留下来的20个字符的识别结果，进行中、日、韩语言判别投票，字符数最多的语言即为亚洲语种文档图像自动语言判别结果。

对于拉丁语种文档图像，根据第(3)步保留下来的20个单词的识别结果，进行英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰语言判别投票，单词数最多的语言即为拉丁语种文档图像自动语言判别结果。

通过以上步骤，即可实现文档图像的语言自动判别功能，解决了倾斜情况下中、日、韩、英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰等语言文档图像的自动语言判别问题。

下面通过“文档图像语种自动判别实验结果”与“同语种文档图像语言自动判别实验结果”两方面验证本发明提出的基于Gabor滤波和关键词匹配相结合的多语种倾斜文档图像自动语言判别方法。第1部分，通过在亚洲语种文档图像和拉丁语种文档图像上的实验，表明本发明对于倾斜文档图像的语种判别有较强的鲁棒性。第2部分，分别通过在中、日、韩等亚洲语种文档图像和英、法、德、意大利、瑞典、西班牙、葡萄牙、挪威、丹麦、波兰、芬兰等拉丁语种文档图像上的实验，表明本发明能够在语种判别结果的基础上较好地解决具有相似文字结构的同语种文档图像语言判别问题。

1、文档图像语种自动判别实验结果

本实验采集110幅亚洲语种文档图像和110幅拉丁语种文档图像，每幅图像按15种不同角度进行旋转，最后得到倾斜亚洲语种文档图像和倾斜拉丁语种文档图像各1650幅，这些图像作为文档图像语种自动判别实验的数据集。实验结果表明，亚洲语种文档图像和拉丁语种文档图像的语种判别准确率达到了99.48％。具体的实验结果如表1所示，仅有0.70％的亚洲语种文档图像被误识为拉丁语种、0.33％的拉丁语种文档图像被误识为亚洲语种。

表1 亚洲语种和拉丁语种文档图像语种判别实验结果

2、同语种文档图像语言自动判别实验结果

2.1亚洲语种文档图像语言自动判别

本实验数据集包括倾斜校正后的40幅中文文档图像、35幅日文文档图像和35幅韩文文档图像，分别加入高斯噪音(均值和方差分别为0和0.02)和椒盐噪音(噪音比为0.05)，得到220幅图像作为亚洲语种文档图像语言自动判别实验的数据集。实验结果表明，中、日、韩等亚洲语种文档图像的语言判别准确率达到了98.18％。具体的实验结果如表2所示，中、日、韩文档图像的语言判别准确率分别达到了100.00％、97.14％和97.14％。

表2 亚洲语种文档图像的语言判别实验结果

2.2拉丁语种文档图像语言自动判别

本实验中各种语言文档图像的数量如表3所示。

表3 拉丁语种文档图像数据集

对所有样本分别加入高斯噪音(均值和方差分别为0和0.02)和椒盐噪音(噪音比为0.05)，得到25,614幅图像作为拉丁语种文档图像语言自动判别实验的数据集。具体的实验结果如图4所示，从图中可以看出，拉丁语种文档图像的语言判别准确率达到了98.18％。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种多语种倾斜文档图像的自动语言判别方法，其特征在于包括以下步骤：

步骤2、针对不同语种的文档图像使用相应的倾斜校正算法，得到校正后的文档图像，然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别，从而实现文档图像的语言自动判别功能；

所述步骤1的具体实现方法包括以下步骤：

(1)对采集的文档图像使用数学形态学的方法进行滤噪处理；

2.根据权利要求1所述的一种多语种倾斜文档图像的自动语言判别方法，其特征在于：所述步骤(1)对采集的文档图像使用数学形态学的方法进行滤噪处理是采用腐蚀及膨胀算法实现的。

3.根据权利要求1所述的一种多语种倾斜文档图像的自动语言判别方法，其特征在于：所述步骤(3)的具体方法为：首先对于选出的文字区域图像生成不同尺度、多个方向的Gabor图像；然后生成得到Gabor幅值图像并对Gabor幅值图像进行向下采样；最后，根据提取到的Gabor特征利用文字区域训练样本进行分类器学习，对待作语种判别的文字区域图像进行分类，将每一文字区域分为亚洲语种或拉丁语种。

4.根据权利要求1所述的一种多语种倾斜文档图像的自动语言判别方法，其特征在于：所述步骤2的具体实现方法包括以下步骤：

5.根据权利要求4所述的一种多语种倾斜文档图像的自动语言判别方法，其特征在于：所述步骤(1)的文字切分处理方法为：在校正的文档图像上使用适用于不同语种的文字切分方法，得到文字切分结果：对于亚洲语种文档图像，通过文字切分得到多个候选字符；对于拉丁语种文档图像，通过文字切分得到多个候选单词。

6.根据权利要求4所述的一种多语种倾斜文档图像的自动语言判别方法，其特征在于：所述步骤(2)的具体方法为：对于亚洲语种文档图像，首先将候选字符按高度计算直方图，选取高度在直方图峰值附近的字符，以滤除噪音、减少其对判别结果的影响；然后，对选取的字符按宽高比减一的绝对值进行升序排序，保留前面字符进行后继分析；对于拉丁语种文档图像，按照候选单词的长度降序排列，保留前面一定数量的单词进行后继分析。

7.根据权利要求4所述的一种多语种倾斜文档图像的自动语言判别方法，其特征在于：所述步骤(3)的具体方法为：对于亚洲语种文档图像，将第(2)步保留下来的一定数量的字符图像送入亚洲文字图像分类器进行字符识别，每个字符的识别结果包括中文、日文或韩文，保留识别可信度最高的前面一定数量的字符进行语言判别投票；对于拉丁语种文档图像，将第(2)步保留下来的一定数量的单词进行字符切分和识别，保留通过语言词库匹配且可信度最高的前面一定数量的单词进行语言判别投票。