CN103034856A

CN103034856A - 定位图像中文字区域的方法及装置

Info

Publication number: CN103034856A
Application number: CN2012105523891A
Authority: CN
Inventors: 李冰; 陈小平; 肖方明; 汪利
Original assignee: SXMOBI TECHNOLOGY (SHENZHEN) Co Ltd
Current assignee: SXMOBI TECHNOLOGY (SHENZHEN) Co Ltd
Priority date: 2012-12-18
Filing date: 2012-12-18
Publication date: 2013-04-10
Anticipated expiration: 2032-12-18
Also published as: CN103034856B

Abstract

本发明涉及一种定位图像中文字区域的方法，包括：获取原始图像；通过Roberts算子对所述原始图像进行转换生成灰度图像；将所述灰度图像二值化得到边缘图像；将所述边缘图像膨胀，提取所述边缘图像的连通域的位置信息。此外，还包括一种定位图像中文字区域的装置。上述定位图像中文字区域的方法及装置可以提高定位的准确性。

Description

定位图像中文字区域的方法及装置

技术领域

本发明涉及图像处理领域，特别是涉及一种定位图像中文字区域的方法及装置。

背景技术

商务活动中，用户通常采用名片作为表明身份的工具。但传统技术中的纸质名片不方便携带和保管，用户通常需要手动将纸质名片上的信息录入到智能终端中。

为了能够自动识别纸质名片上的信息，现用的名片管理软件通常需要先定位拍照得到的名片图像中的文字区域，然后再通过OCR（Optical CharacterRecognition，光学字符识别）***将文字区域转化成文本信息。

然而，传统技术中，定位图像中文字区域的方法不准确，会漏掉关键信息，使得定位的准确度不高。

发明内容

基于此，有必要提供一种能提高准确度的定位图像中文字区域的方法。

一种定位图像中文字区域的方法，包括：

获取原始图像；

通过Roberts算子对所述原始图像进行转换生成灰度图像；

将所述灰度图像二值化得到边缘图像；

将所述边缘图像膨胀，提取所述边缘图像的连通域的位置信息。

在其中一个实施例中，所述通过Roberts算子将所述原始图像转换成灰度图像的步骤为：

根据公式：

A_{1} = \sqrt{{(I (i + 1, j + 1, R) - I (i, j, R))}^{2} + {(I (i + 1, j + 1, G) - I (i, j, G))}^{2} + {(I (i + 1, j + 1, B) - I (i, j, B))}^{2}};

A_{2} = \sqrt{{(I (i, j + 1, R) - I (i + 1, j + 1, R))}^{2} + {(I (i, j + 1, G) - I (i + 1, j + 1, G))}^{2} + {(I (i, j + 1, B) - I (i + 1, j + 1, B))}^{2}};

I_{g} (i, j) = \sqrt{{A_{1}}^{2} + {A_{2}}^{2}}

生成灰度图像；其中(i,j)为所述原始图像中的像素点，I(i,j,R)、I(i,j,G)和I(i,j,B)分别为像素点(i,j)的红绿蓝颜色分量，A₁为像素点(i,j)与邻近的像素点(i+1,j+1)的彩色欧拉距离，A₂为像素点(i,j+1)与邻近的像素点(i+1,j+1)的彩色欧拉距离，I_g(i,j)为所述生成的灰度图像在像素点(i,j)处的灰度值。

在其中一个实施例中，所述将所述灰度图像二值化得到边缘图像的步骤为：

通过最大类间方差算法对所述灰度图像进行二值化得到边缘图像。

在其中一个实施例中，所述提取所述边缘图像的连通域的位置信息的步骤为：

根据区域标记算法提取所述边缘图像的连通域的位置信息。

在其中一个实施例中，所述提取所述边缘图像的连通域的位置信息的步骤之后还包括：

获取所述连通域的纹理特征和/或直方图特征；

获取预设的支持向量机的分类器；

利用所述分类器根据所述纹理特征和/或直方图特征筛选所述位置信息。

此外，还有必要提供一种能提高准确度的定位图像中文字区域的装置。

一种定位图像中文字区域的装置，包括：

图像获取模块，用于获取原始图像；

灰度图像生成模块，用于通过Roberts算子对所述原始图像进行转换生成灰度图像；

图像二值化模块，用于将所述灰度图像二值化得到边缘图像；

区域定位模块，用于将所述边缘图像膨胀，提取所述边缘图像的连通域的位置信息。

在其中一个实施例中，所述灰度图像生成模块还用于根据公式：

A_{1} = \sqrt{{(I (i + 1, j + 1, R) - I (i, j, R))}^{2} + {(I (i + 1, j + 1, G) - I (i, j, G))}^{2} + {(I (i + 1, j + 1, B) - I (i, j, B))}^{2}};

A_{2} = \sqrt{{(I (i, j + 1, R) - I (i + 1, j + 1, R))}^{2} + {(I (i, j + 1, G) - I (i + 1, j + 1, G))}^{2} + {(I (i, j + 1, B) - I (i + 1, j + 1, B))}^{2}};

I_{g} (i, j) = \sqrt{{A_{1}}^{2} + {A_{2}}^{2}}

在其中一个实施例中，所述图像二值化模块还用于通过最大类间方差算法对所述灰度图像进行二值化得到边缘图像。

在其中一个实施例中，所述区域定位模块还用于根据区域标记算法提取所述边缘图像的连通域的位置信息。

在其中一个实施例中，所述装置还包括区域筛选模块，用于获取所述连通域的纹理特征和/或直方图特征，获取预设的支持向量机的分类器，利用所述分类器根据所述纹理特征和/或直方图特征筛选所述位置信息。

上述定位图像中文字区域的方法及装置，先通过Roberts算子对原始图像进行转换，得到灰度值包含了边缘信息的灰度图像，然后通过将灰度图像二值化得到边缘图像，从而提取出了灰度图像中的边缘信息，然后通过将其膨胀即得到连通域的位置信息，即图像中文字区域在原始图像中所处的位置，使得定位更加准确。

附图说明

图1为一个实施例中定位图像中文字区域的方法的流程图；

图2为一个实施例中原始图像的效果图；

图3为一个实施例中边缘图像的效果图；

图4为一个实施例中获取到的连通域的位置信息的示意图；

图5为一个实施例中经过筛选后的连通域的位置信息的示意图；

图6为一个实施例中定位图像中文字区域的装置的结构示意图；

图7为另一个实施例中定位图像中文字区域的装置的结构示意图。

具体实施方式

在一个实施例中，如图1所示，一种定位图像中文字区域的方法，包括：

步骤S102，获取原始图像。

原始图像可通过拍照得到。例如，在一个场景中，可通过移动终端对名片进行拍照，获取拍照得到的相片图像。

步骤S104，通过Roberts算子对原始图像进行转换生成灰度图像。

Roberts算子是一种通过局部差分寻找边缘的算子。本实施例中，可根据公式：

A_{1} = \sqrt{{(I (i + 1, j + 1, R) - I (i, j, R))}^{2} + {(I (i + 1, j + 1, G) - I (i, j, G))}^{2} + {(I (i + 1, j + 1, B) - I (i, j, B))}^{2}};

A_{2} = \sqrt{{(I (i, j + 1, R) - I (i + 1, j + 1, R))}^{2} + {(I (i, j + 1, G) - I (i + 1, j + 1, G))}^{2} + {(I (i, j + 1, B) - I (i + 1, j + 1, B))}^{2}};

I_{g} (i, j) = \sqrt{{A_{1}}^{2} + {A_{2}}^{2}}

生成灰度图像；其中(i,j)为原始图像中的像素点，I(i,j,R)、I(i,j,G)和I(i,j,B)分别为像素点(i,j)的红绿蓝颜色分量，A₁为像素点(i,j)与邻近的像素点(i+1,j+1)的彩色欧拉距离，A₂为像素点(i,j+1)与邻近的像素点(i+1,j+1)的彩色欧拉距离，I_g(i,j)为生成的灰度图像在像素点(i,j)处的灰度值。

由上述公式可以看出，若原始图像中的像素点(i+1,j+1)与其相邻的像素点(i,j)和(i,j+1)在红绿蓝颜色份量上差距较大，则在生成的灰度图像I_g中，像素点(i,j)的灰度值较大。也就是说，灰度图像I_g中灰度值较高的部分为原始图像中的边缘区域。

步骤S106，将灰度图像二值化得到边缘图像。

在本实施例中，可将步骤S 106生成灰度图像通过最大类间方差算法对区域块进行二值化得到边缘图像。

最大类间方差算法又叫大津算法（OTSU算法）。该算法通过遍历图像区域中的像素点得到阈值T，且阈值T使得灰度图像的最大类间方差的值为最大值，然后根据阈值T将图像区域二值化。即灰度图像中灰度值小于阈值T的像素点在二值化后得到的边缘图像中对应的像素点的灰度值为0；灰度图像中灰度值大于阈值T的像素点在二值化后得到的边缘图像中对应的像素点的灰度值为255。

在本实施例中，通过遍历图像区域中的像素点得到阈值T的步骤之前还可根据预设的阈值区间对像素点进行过滤。优选的，阈值区间为：

(Min+w₁×Len,Max+w₂×Len)；

且Len＝Max-Min+1

其中，Min为灰度图像中灰度值的最小值，Max为灰度图像中灰度值的最大值，Len为中间变量，w₁和w₂为权重系数，优选的w₁和w₂均取值于0.1至0.4之间。

也就是说，可预先根据上述阈值区间过滤掉灰度值过低或者灰度值过高的像素点，然后根据最大类间方差算法遍历属于上述阈值区间内的像素点得到阈值T。过滤掉灰度值过低或过高的部分，可去除低灰度像素点和高灰度像素点对阈值T的影响，从而使得定位更加准确。

步骤S108，将边缘图像膨胀，提取边缘图像的连通域的位置信息。

二值图像的膨胀即通过采用结构元素遍历图像中的像素点，若结构元素覆盖的像素点中存在灰度值为0的像素点，则膨胀后的边缘图像中，该结构元素覆盖的区域内的像素点的灰度值均为0。结构元素即像素大小为M×N的模板，在本实施例中，M和N为3，即结构元素为3×3大小的模板。

在本实施例中，提取边缘图像的连通域的位置信息的步骤可具体为：根据区域标记算法提取边缘图像的连通域的位置信息。

区域标记算法可将膨胀后的边缘图像（二值化后的灰度图像）中灰度值相同且连续的像素点构成的连通域（连续的图像区域）标记出来，并获取其位置信息。

在本实施例中，进一步的，提取边缘图像的连通域的位置信息的步骤之后还可获取连通域的纹理特征和/或直方图特征，获取预设的支持向量机的分类器，利用分类器根据纹理特征和/或直方图特征筛选位置信息。

可预先提取具有典型文字特征的训练图像的纹理特征和/或直方图特征，然后将其输入支持向量机中从而生成分类器的核函数。在获取到边缘图像的连通域的位置信息之后，再获取连通域的位置信息标定的图像区域的纹理特征和/或直方图特征，并输入到支持向量机中，通过分类器的核函数对连通域进行筛选，从而筛选出符合典型文字特征的图像区域。

由于通过上述步骤S102、步骤S102、步骤S106步骤S108得到的图像区域中，可能包含非文字类型的图像区域，例如，文字型的logo，矢量图等，通过支持向量机的分类器对其进行筛选，可以更加准确地获取具有典型文字特征的图像区域，从而使得定位更加准确。

在一个实施例中，请同时参考图2、图3、图4和图5，其中，图2为拍照采集的名片（虚拟人物）的原始图像，图3为二值化后得到边缘图像，图4为采用区域标记算法得到的连通域的位置信息的效果图，该位置信息以矩形框的形式展示，图5为经过分类器筛选后得到的连通域的位置信息，该位置信息以矩形框的形式展示。由上述示例图可以看出，该名片图像中的文字区域的位置信息已被准确地提取出来。

在一个实施例中，如图6所示，一种定位图像中文字区域的装置，包括：图像获取模块102、图像模糊模块104、混合系数获取模块106以及图像混合模块108。其中：

图像获取模块102，用于获取原始图像。

灰度图像生成模块104，用于通过Roberts算子对原始图像进行转换生成灰度图像。

Roberts算子是一种通过局部差分寻找边缘的算子。本实施例中，灰度图像生成模块104可用于根据公式：

A_{1} = \sqrt{{(I (i + 1, j + 1, R) - I (i, j, R))}^{2} + {(I (i + 1, j + 1, G) - I (i, j, G))}^{2} + {(I (i + 1, j + 1, B) - I (i, j, B))}^{2}};

A_{2} = \sqrt{{(I (i, j + 1, R) - I (i + 1, j + 1, R))}^{2} + {(I (i, j + 1, G) - I (i + 1, j + 1, G))}^{2} + {(I (i, j + 1, B) - I (i + 1, j + 1, B))}^{2}};

I_{g} (i, j) = \sqrt{{A_{1}}^{2} + {A_{2}}^{2}}

图像二值化模块106，用于将灰度图像二值化得到边缘图像。

在本实施例中，图像二值化模块106可用于将灰度图像生成模块104生成灰度图像通过最大类间方差算法对区域块进行二值化得到边缘图像。

在本实施例中，图像二值化模块106还可用于根据预设的阈值区间对像素点进行过滤。优选的，阈值区间为：

(Min+w₁×Len,Max+w₂×Len)；

且Len＝Max-Min+1

区域定位模块108，用于将边缘图像膨胀，提取边缘图像的连通域的位置信息。

在本实施例中，区域定位模块108可用于根据区域标记算法提取边缘图像的连通域的位置信息。

在本实施例中，如图7所示，进一步的，定位图像中文字区域的装置还包括区域筛选模块110，用于获取连通域的纹理特征和/或直方图特征，获取预设的支持向量机的分类器，利用分类器根据纹理特征和/或直方图特征筛选位置信息。

可预先提取具有典型文字特征的训练图像的纹理特征和/或直方图特征，然后将其输入支持向量机中从而生成分类器的核函数。在获取到边缘图像的连通域的位置信息之后，区域筛选模块110可用于获取连通域的位置信息标定的图像区域的纹理特征和/或直方图特征，并输入到支持向量机中，通过分类器的核函数对连通域进行筛选，从而筛选出符合典型文字特征的图像区域。

由于通过前述模块得到的图像区域中，可能包含非文字类型的图像区域，例如，文字形的logo，矢量图等，通过支持向量机的分类器对其进行筛选，可以更加准确地获取具有典型文字特征的图像区域，从而使得定位更加准确。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种定位图像中文字区域的方法，包括：

获取原始图像；

通过Roberts算子对所述原始图像进行转换生成灰度图像；

将所述灰度图像二值化得到边缘图像；

2.根据权利要求1所述的定位图像中文字区域的方法，其特征在于，所述通过Roberts算子将所述原始图像转换成灰度图像的步骤为：

根据公式：

A_{1} = \sqrt{{(I (i + 1, j + 1, R) - I (i, j, R))}^{2} + {(I (i + 1, j + 1, G) - I (i, j, G))}^{2} + {(I (i + 1, j + 1, B) - I (i, j, B))}^{2}};

A_{2} = \sqrt{{(I (i, j + 1, R) - I (i + 1, j + 1, R))}^{2} + {(I (i, j + 1, G) - I (i + 1, j + 1, G))}^{2} + {(I (i, j + 1, B) - I (i + 1, j + 1, B))}^{2}};

I_{g} (i, j) = \sqrt{{A_{1}}^{2} + {A_{2}}^{2}}

3.根据权利要求1所述的定位图像中文字区域的方法，其特征在于，所述将所述灰度图像二值化得到边缘图像的步骤为：

4.根据权利要求1所述的定位图像中文字区域的方法，其特征在于，所述提取所述边缘图像的连通域的位置信息的步骤为：

根据区域标记算法提取所述边缘图像的连通域的位置信息。

5.根据权利要求1所述的定位图像中文字区域的方法，其特征在于，所述提取所述边缘图像的连通域的位置信息的步骤之后还包括：

获取所述连通域的纹理特征和/或直方图特征；

获取预设的支持向量机的分类器；

6.一种定位图像中文字区域的装置，其特征在于，包括：

图像获取模块，用于获取原始图像；

7.根据权利要求6所述的定位图像中文字区域的装置，其特征在于，所述灰度图像生成模块还用于根据公式：

A_{1} = \sqrt{{(I (i + 1, j + 1, R) - I (i, j, R))}^{2} + {(I (i + 1, j + 1, G) - I (i, j, G))}^{2} + {(I (i + 1, j + 1, B) - I (i, j, B))}^{2}};

A_{2} = \sqrt{{(I (i, j + 1, R) - I (i + 1, j + 1, R))}^{2} + {(I (i, j + 1, G) - I (i + 1, j + 1, G))}^{2} + {(I (i, j + 1, B) - I (i + 1, j + 1, B))}^{2}};

I_{g} (i, j) = \sqrt{{A_{1}}^{2} + {A_{2}}^{2}}

8.根据权利要求6所述的定位图像中文字区域的装置，其特征在于，所述图像二值化模块还用于通过最大类间方差算法对所述灰度图像进行二值化得到边缘图像。

9.根据权利要求6所述的定位图像中文字区域的装置，其特征在于，所述区域定位模块还用于根据区域标记算法提取所述边缘图像的连通域的位置信息。

10.根据权利要求6所述的定位图像中文字区域的装置，其特征在于，所述装置还包括区域筛选模块，用于获取所述连通域的纹理特征和/或直方图特征，获取预设的支持向量机的分类器，利用所述分类器根据所述纹理特征和/或直方图特征筛选所述位置信息。