CN101436248B

CN101436248B - 用于根据图像生成文本字符串的方法和设备

Info

Publication number: CN101436248B
Application number: CN200710186396A
Authority: CN
Inventors: 胥立丰; 张宏志; 王艳清
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-11-14
Filing date: 2007-11-14
Publication date: 2012-10-24
Anticipated expiration: 2027-11-14
Also published as: JP4904330B2; CN101436248A; JP2009123206A

Abstract

本发明提供一种用于根据图像生成文本字符串的方法和设备。该方法包括以下步骤：通过在所述图像上检测边缘，生成边缘图像；在所述边缘图像上寻找连接分量；从所找出的所述连接分量中去除满足预定条件的连接分量；从所述去除之后保留的所述连接分量中将存在于相同直线上的连接分量分组在一起；以及基于分组后的所述连接分量，生成文本字符串。

Description

用于根据图像生成文本字符串的方法和设备

技术领域

本发明涉及一种用于根据图像生成文本字符串的方法和设备，尤其涉及一种从自然图像自动提取文本的方法和设备。

背景技术

自然图像的文本提取具有非常广泛的应用，所述应用诸如是牌照定位和基于内容的图像/视频索引等。然而，由于尺寸、样式、方向和对齐的不同所引起的文本的变化、以及低图像对比度和复杂的背景使得自动文本提取这一问题非常具有挑战性。

已经针对特定应用提出了从图像和视频提取文本的各种方法(参考文献1到3)。根据所利用的特征，可以将文本提取方法分成两种类型：基于区域的方法和基于纹理的方法。

可以将基于区域的方法进一步分成两种子方法：基于连接分量(connected component)(以下称之为“CC”)的方法和基于边缘的方法。这两种方法通过识别诸如CC或边缘的子结构，然后合并这些子结构以标记文本的包围盒，来以自下而上的方式进行工作。注意，某些方法使用基于CC的方法和基于边缘的方法两者的组合。

基于纹理的方法使用如下观察：图像中的文本具有将它们从背景区分开的明显纹理特性。可以使用基于Gabor滤波器、小波、FFT和空间变异(spatial variance)等的技术，来检测图像中的文本区域的纹理特性。

基于CC的方法通过将小分量依次分组成较大分量来使用自下而上的方法，直到在图像中识别出所有文本区域为止。需要进行几何分析以使用分量的空间排列来合并文本分量，从而过滤掉非文本分量，并标记文本区域的边界。基于CC的方法的关键点是生成分量和几何分析处理的方式，这也是各种基于CC的方法的主要差异。

然而，图像的文本提取的准确度根据不同条件而改变。例如，图像处于不均匀照明条件下，和/或图像中的字符具有不同的尺寸和形状。而且，当前大多数方法只能检测水平或垂直对齐的文本字符串。此外，如果图像的背景非常复杂，则文本提取的准确度也将会降低。

文献1：C.M.Lee，and A.Kankanhalli，Automatic Extraction ofCharacters in Complex Images，International Journal of PatternRecognition Artificial Intelligence，9(1)(1995)67-82。

文献2：Yu Zhong，Kalle Karu，and Anil K.Jain，Locating TextIn Complex Color Images，Pattern Recognition，28(10)(1995)1523-1535。

文献3：V.Wu，R.Manmatha，and E.M.Riseman，TextFinder：An Automatic System to Detect and Recognize Text in Images，IEEETransactions on Pattern Analysis and Machine Intelligence，21(11)(1999)1224-1229。

发明内容

考虑到以上情况做出了本发明，本发明的目的是提供一种从图像提取文本的鲁棒方法和设备。

本发明提供一种用于根据图像生成文本字符串的方法，包括以下步骤：通过在所述图像上检测边缘，生成边缘图像；在所述边缘图像上寻找连接分量；从所找出的所述连接分量中去除满足预定条件的连接分量；从所述去除之后保留的所述连接分量中将存在于相同直线上的连接分量分组在一起；以及基于分组后的所述连接分量，生成文本字符串。

本发明还提供一种用于根据图像生成文本字符串的设备，包括：检测装置，用于在所述图像上检测边缘，并生成边缘图像；寻找装置，用于在所述边缘图像上寻找连接分量；去除装置，用于从所找出的所述连接分量中去除满足预定条件的连接分量；分组装置，用于从所述去除之后所保留的所述连接分量中将存在于相同直线上的连接分量分组在一起；以及生成装置，用于基于分组后的所述连接分量，生成文本字符串。

本发明中所提供的方法和设备可以以鲁棒的方式从具有不均匀照明条件的以及字符尺寸和形状不同的图像提取文本，并且可以提取任意方向的文本字符串。此外，可以提取具有白色背景的黑色文本和具有黑色背景的白色文本两者。

通过以下(参考附图)对示例性实施例的说明，本发明的其它特征将变得显而易见。

附图说明

图1是示出根据本发明实施例的提取自然图像中的文本的整体处理的流程图；

图2是示出根据本发明实施例的边缘检测处理的例子的流程图；

图3是示出根据本发明实施例的对相同直线上的分量进行分组的例子的流程图；

图4是示出根据本发明实施例的根据直线上的分量组生成文本字符串的例子的流程图；

图5是示出其上具有牌照字符串的自然图像的图，其中，为了保护隐私遮挡了牌照的一个字符；

图6是示出在如图5所示的原始自然图像上所检测到的边缘图像的图，其中，在同一图像上示出“暗”边缘(暗像素)和“亮”边缘(灰度像素)；

图7是示出在“暗”边缘图像上所检测到的连接分量的图，其中，在该图像上重叠有“网格”；

图8是示出去除非文本连接分量之后的连接分量的图；

图9是如直线所示，示出通过本发明实施例所定位的文本字符串的图；

图10是示出作为本发明可应用的例子的、具有数字照相机的电子翻译器的框图；以及

图11是示出根据本发明实施例的用于从图像提取文本的设备的例子的框图。

具体实施方式

现在将根据附图来详细说明本发明的优选实施例。

图1是示出根据本发明实施例的提取自然图像中的文本的整体处理的流程图。如图1所示，根据本实施例的提取文本的处理由五个主要阶段构成：在输入图像上检测两种边缘图像：“暗”边缘图像和“亮”边缘图像(步骤S100)；分别在这两种边缘图像上寻找连接分量(步骤S200)；尽可能多地去除非文本分量(步骤S300)；通过使用霍夫变换(Hough transform)来将相同直线上的分量分组在一起(步骤S400)；以及根据分量组生成文本字符串(步骤S500)。

第一步骤是在输入图像(原始自然图像)上检测边缘(步骤S100)。将基于所检测到的边缘图像来生成连接分量。有几种常见的边缘检测技术，诸如Canny算子和Sobel算子等。然而，本发明并不使用这些技术，因为在通过这些技术所获得的边缘图像上，文本对象和非文本对象的边缘可能相互接触，这将导致不能寻找到正确的文本分量。

为了降低非文本对象的干扰，本发明提出了一种特殊的边缘检测方法，该方法可以将文本对象的边缘与非文本对象有效

地分离开，还可以分离闭合字符的边缘。该方法的结果为两种边缘图像：“暗”边缘的边缘图像和“亮”边缘的边缘图像。“暗”边缘用于检测白底黑字的文本，而“亮”边缘用于检测黑底白字的文本。

接着，将根据图2来详细说明在本发明中提出的步骤S100的边缘检测方法。

图2是示出根据本发明实施例的边缘检测处理的例子的流程图。

首先，在步骤S110，通过下面的公式来计算各像素的梯度：

G₀＝max(|I₀-I_n|)，

其中，G₀为像素的梯度，I₀为像素的灰度值，而I_n为邻域像素的灰度值。邻域可以是8-邻域或4-邻域。

上面的公式意味着：计算中心像素和其邻域之间的差值，并选择最大的差值作为中心像素的梯度。

然后，在步骤S120，计算梯度直方图。然后，根据梯度直方图来确定边缘阈值。这里可以应用诸如Otsu方法的用于确定该阈值的某些常见方法。

在本发明中，通过简单地指定百分之多少(例如，35％)的像素为边缘，来确定该阈值。

接着，在步骤S130，将梯度大于该阈值的所有像素设置为边缘。

在步骤S140，通过下面的公式将所检测到的边缘分成两种类型，“暗”边缘和“亮”边缘：

最后，在步骤S150，通过分别提取“暗”边缘和“亮”边缘，来生成两种边缘图像。

图5是示出其上具有牌照字符串的自然图像的图，其中，为了保护隐私遮挡了牌照的一个字符。图6是示出在步骤S150中所生成的、在如图5所示的原始自然图像上所检测到的边缘图像的图。在图6中，由暗像素来表示“暗”边缘，由灰度像素来表示“亮”边缘，而由白像素来表示非边缘。

往回参考图1，在进行边缘检测之后，处理进入步骤S200。在步骤S200，分别在这两种边缘图像上寻找连接分量。即，针对每种类型的边缘图像(即，暗边缘和亮边缘)，分别寻找连接分量。此外，同样对这两组分量分别进行后续处理。

接着，处理进入步骤S300，以去除非文本分量。在步骤S300中，几种启发法被用来过滤掉非文本分量。该启发法如下：

1)文本分量的尺寸必须处于范围[Hmin，Hmax]内，其中，可以根据本发明所应用的实际应用，来指定Hmin和Hmax。在大多数情况下，Hmin＝12和Hmax＝45是合理的。为了提取尺寸大于Hmax的文本，本实施例可以按比例缩小原始图像，并对按比例缩小后的图像应用全部文本提取步骤。

图7是示出在“暗”边缘图像上所检测到的连接分量的图，其中，去除了尺寸在范围[Hmin，Hmax]外的分量。

2)将图像区域划分成尺寸为Hmax×Hmax的网格，并计算每个网格中所“包含”的分量的数量。这里，如果分量的中心点包含在网格中，则该分量包含在该网格中。如果网格中的分量的数量大于预定阈值(例如，18)，则将清除该网格中的所有分量。启发源自于如下观察：在文本分量的邻域中，分量的数量不会非常大。

3)利用在各分量的包围矩形(bounding rectangle)中所确定的阈值(例如，利用Otsu阈值方法)来对各分量进行二值化。对于在“暗”边缘图像上所检测到的分量，如果分量的包围盒的四个边界上的黑色像素的计数大于这四个边界上的所有像素的20％，则清除该分量。相似地，对于在“亮”边缘图像上所检测到的分量，如果分量的包围盒的四个边界上的白色像素的计数大于这四个边界上的所有像素的20％，则清除该分量。

图8是示出去除非文本连接分量之后的连接分量的图。将图8和图5进行比较，可以看出：大多数非文本分量被过滤掉，而文本分量保留在图像中，所述文本分量由附图标记801到803表示。

在去除非文本分量之后，处理进入步骤S400，在步骤S400，将中心点在相同直线上的分量分组在一起。图3是示出根据本发明实施例的对相同直线上的分量进行分组的例子的流程图。

如图3所示，在步骤S410，通过使用霍夫变换将分量的中心点变换成参数空间。然后，通过在参数空间上寻找局部最大点，来检测穿过文本字符串的直线。局部最大点是这样的点：在以相关点作为中心的预定范围内，局部最大点的值大于该范围内的任何其它点的值。

接着，在步骤S420，将中心点处于相同直线上或靠近相同直线的分量分组在一起。因此，获得分量的输出组。

往回参考图1，在将相同直线上的分量分组在一起之后，处理进入步骤S500，在步骤S500，根据在步骤S400中所获得的组来生成文本字符串。图4是示出根据本发明实施例的根据直线上的分量组来生成文本字符串的例子的流程图。

如图4所示，在步骤S510，选择字符的平均高度作为该组中的所有分量的高度的中值。接着，在步骤S520，高度与平均高度相差很大(例如，可以将高度差值的阈值设置为20％)的分量认为是非文本分量，并去除该分量。最后，在步骤S530，通过反复连接邻近分量来生成文本字符串。如果两个邻近分量之间的距离小于预定阈值(例如，字符串高度的1.2倍)，则可以连接分量。

此外，可以通过使用起点和终点、以及字符串的高度，来识别各字符串的区域。

在步骤S500中生成文本字符串之后，输出该文本字符串，所述文本字符串可以用于诸如光学字符识别(OCR)处理等的进一步的处理。

图9是如直线901所示，示出通过本发明实施例所定位的文本字符串的图。与图5相比，可以看出：正确地寻找出了牌照位置上的文本字符串。

本发明可以用于自动牌照识别***。令人感兴趣的另一种应用是组合字典和照相机的电子翻译器。图10是示出作为本发明可应用的例子的、具有数字照相机的电子翻译器的框图。

如图10所示，通过电子翻译器的数字照相机获得其上具有外国语言的字符串的图像。在通过使用本实施例中的方法来提取该图像上的文本字符串之后，可以进行OCR处理以将该文本字符串翻译成本国语言。最后，向用户显示本国语言的文本字符串。

图11是示出根据本发明实施例的用于从图像提取文本的设备的框图，省略了对该设备的详细说明。

可以通过向计算机***或设备提供存储有实现上述功能的软件的程序代码的存储介质，来实现上述方法。通过利用该***或设备的计算机(或CPU或MPU)读取存储在该存储介质中的程序代码并执行该程序代码，可以实现上述实施例的功能。在这种情况下，从存储介质读取的程序代码实现根据实施例的功能，并且存储该程序代码的存储介质构成本发明。可以使用诸如软盘、硬盘、光盘和磁光盘等的存储介质来提供该程序代码。还可以使用CD-ROM、CD-R、磁带、非易失性存储卡和ROM等。

而且，不仅仅可以通过执行由计算机读取的程序代码来实现上述功能。本发明还包括这样的情况：在计算机上运行的OS(操作***)等根据该程序代码的指示，进行部分或全部处理，并实现根据以上实施例的功能。

此外，可以将从存储介质读取的程序代码写到***计算机中的功能扩展卡中，或者写到在连接到计算机的功能扩展单元中所设置的存储器中。此后，该功能扩展卡或单元中所包含的CPU等可以根据该程序代码的指示进行部分或全部处理，并可以实现以上实施例的功能。

尽管已经参考示例性实施例对本发明进行了说明，但是应该理解，本发明不局限于所公开的示例性实施例。所附权利要求的范围符合最宽的解释，以包含所有这样的修改以及等同结构和功能。

Claims

1.一种用于根据图像生成文本字符串的方法，包括以下步骤：

通过在所述图像上检测边缘，生成边缘图像；

在所述边缘图像上寻找连接分量；

从所找出的所述连接分量中去除满足预定条件的连接分量；

从所述去除之后保留的所述连接分量中将其中心点在相同直线上或靠近相同直线的连接分量分组在一起；以及

基于分组后的所述连接分量，生成文本字符串。

2.根据权利要求1所述的方法，其特征在于，在生成边缘图像的步骤中，生成两种边缘图像：暗边缘图像和亮边缘图像。。

3.根据权利要求2所述的方法，其特征在于，对每种类型的边缘图像进行所述寻找、去除、分组和生成的步骤。

4.根据权利要求2所述的方法，其特征在于，所述检测的步骤还包括：

利用公式G₀＝max(|I₀-I_n|)计算各像素的梯度，其中，G₀为梯度，I₀为像素的灰度值，而I_n为邻域像素的灰度值，其中，所述邻域像素的数量为4或8；

计算所述梯度的直方图，根据所述直方图来确定阈值；

将梯度大于所述阈值的所述像素设置为边缘；

通过下面的公式将所述边缘分成暗边缘和亮边缘两种类型：

以及

生成两种边缘图像：暗边缘图像和亮边缘图像。

5.根据权利要求1所述的方法，其特征在于，所述预定条件包括：连接分量的尺寸。

6.根据权利要求1所述的方法，其特征在于，所述预定条件包括：预定区域中的连接分量的数量。

7.根据权利要求1所述的方法，其特征在于，所述预定条件包括：所述边缘图像上的具有特定颜色的像素的数量与所述边缘图像上的所有像素的数量的比率。

8.根据权利要求1所述的方法，其特征在于，所述分组的步骤包括：

使用霍夫变换将所述去除之后保留的连接分量的中心点变换成参数空间，然后在所述参数空间上寻找局部最大点，从而找出穿过字符串的直线；以及

将中心点处于相同直线上或靠近相同直线的连接分量分组在一起。

9.根据权利要求1所述的方法，其特征在于，所述生成的步骤包括：

根据组中的所述连接分量的高度，来确定所述字符串中的文本的平均高度；

去除高度与所述平均高度相差预定程度的连接分量；以及

连接邻近的连接分量。

10.一种用于根据图像生成文本字符串的设备，包括：

检测装置，用于在所述图像上检测边缘，并生成边缘图像；

寻找装置，用于在所述边缘图像上寻找连接分量；

去除装置，用于从所找出的所述连接分量中去除满足预定条件的连接分量；

分组装置，用于从所述去除之后所保留的所述连接分量中将其中心点在相同直线上或靠近相同直线的连接分量分组在一起；以及

生成装置，用于基于分组后的所述连接分量，生成文本字符串。

11.根据权利要求10所述的设备，其特征在于，所述检测装置生成两种边缘图像：暗边缘图像和亮边缘图像。

12.根据权利要求11所述的设备，其特征在于，对每种类型的边缘图像进行所述寻找、去除、分组和生成。

13.根据权利要求11所述的设备，其特征在于，由所述检测装置所进行的所述检测还包括：

计算所述梯度的直方图，根据所述直方图来确定阈值；

将梯度大于所述阈值的所述像素设置为边缘；

通过下面的公式将所述边缘分成暗边缘和亮边缘两种类型：以及

生成两种边缘图像：暗边缘图像和亮边缘图像。

14.根据权利要求10所述的设备，其特征在于，所述预定条件包括：连接分量的尺寸。

15.根据权利要求10所述的设备，其特征在于，所述预定条件包括：预定区域中的连接分量的数量。

16.根据权利要求10所述的设备，其特征在于，所述预定条件包括：所述边缘图像上的具有特定颜色的像素的数量与所述边缘图像上的所有像素的数量的比率。

17.根据权利要求10所述的设备，其特征在于，由所述分组装置所进行的所述分组包括：

18.根据权利要求10所述的设备，其特征在于，由所述生成装置所进行的所述生成包括：

去除高度与所述平均高度相差预定程度的连接分量；以及

连接邻近的连接分量。