CN103336961B

CN103336961B - 一种交互式的自然场景文本检测方法

Info

Publication number: CN103336961B
Application number: CN201310308807.7A
Authority: CN
Inventors: 王春恒; 胡仅龙; 肖柏华; 史存召; 高嵩
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Infan Technology (beijing) Co Ltd
Priority date: 2013-07-22
Filing date: 2013-07-22
Publication date: 2016-06-29
Anticipated expiration: 2033-07-22
Also published as: CN103336961A

Abstract

本发明公开了一种交互式自然场景文本检测方法，该方法首先在场景图片中标记出感兴趣文本所在区域，即在文本上画一条线；根据这条线从原图中选取一个扩展区域，在扩展区域中进行边缘检测，对边缘检测结果进行连通域标记，再对标记结果的边界进行投影得到边缘文本区域；然后对这个区域分块二值化、连通域标记和投影操作，得到粗略文本区域；最后对粗略文本区域进行分块二值化和反色的二值化操作，对两种二值化结果分别进行连通域标记、去除各种噪声、边界投影和连通域数目确定，根据两种二值图像的连通域数目确定图片极性，再对连通域进行融合得到精确的文本区域。本方法具有局部空间自适应性，对自然场景图片中背景复杂的文本块有很好的检测效果。

Description

一种交互式的自然场景文本检测方法

技术领域

本发明涉及模式识别技术领域，具体是一种交互式的自然场景文本检测方法。

背景技术

随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用，图像中的信息越来越引起人们的关注，但是目前让计算机理解图像的内容还是很困难的。然而数字图像中嵌入的文字能够提供一些人们所需的重要信息，如书的封面、视频、自然风景图片、网页的彩图等，它们对理解图像中的内容有着重要的帮助作用。让计算机像人类一样识别图像中的文字，即文字的自动检测，近年来越来越引起人们的关注，它对于图像的存储、分类和检索等来说具有极其重要的意义，并有着广泛的应用前景和商业价值。在许多情况下，图像中的文字甚至成为图像中最为关键的信息。

目前OCR引擎只能处理纯文本的数字图像，然而由于图像中的文本块往往具有非常复杂的背景，比如光照、文字大小、分辨率等的影响，所以将检测到的文本块直接送入传统的OCR识别引擎其识别效果非常差。因此，这就需要通过对数字图像中的文本检测抽取技术进行研究，以提高OCR引擎的预处理部分的性能，从而显著提高识别引擎的整体性能。

目前大部分的文本检测方法可以分为三类：基于边缘的方法、基于区域的方法和基于纹理的方法。基于边缘检测的方法是利用边缘检测算子对图像做边缘提取，根据边缘图像的一些不变特征进行文字检测。此类方法计算简单，对文字和背景对比度较大的叠加文字处理效果较好；但在文字和背景对比度相差不大的情况下，文字检测效果并不理想。基于区域文字特征的检测方法是把图像分成几个连通域，对每个连通域进行二值化处理，然后利用连通域分析和区域高度、宽度、投影等特征检测出文字所在区域。这类方法比较适合文本检测的前期阶段，在文字和背景颜色具有很强的对比度时，可以形成很好的文字连通域；但在对比度不大的情况下，可能会无法检测出文字所在区域，造成漏检的现象。基于纹理的方法是把文本看成是一种特殊的纹理，利用一些纹理图像的处理方法来进行文本检测。但遇到纹理规则与文本相似的区域时，就需要结合其他特征进行相应的检测。

如果仅仅使用一种特征对复杂对象进行判别，使用的信息少、可靠性差，***性能也比较低。对于文本检测，无论是边缘特征，还是颜色特征、纹理特征等，单独使用都无法获得令人满意的效果。在综合集成方法论的指导下，可以采用基于多特征集成性的文本检测方法。根据文本的多种特征，将多种特征集成融合，提出基于多特征集成性的文本检测方法，适应各种复杂图像中的文本检测，从而提高文本检测的性能，这里用到了边缘特征和文字本身的特征。另外根据文字特征和计算复杂度设计多级文本检测器，每一级检测器根据上一级检测器检测的结果用相关的处理方法进行检测，逐级修正和精确检测结果使得检测结果更精确。这样既可以防止漏检，又可以防止误检，以适应各种图像中的文本检测，提高***性能，增强***的稳定性。

发明内容

本发明的目的是提供一种交互式的自然场景文本检测的方法，是一种自适应复杂背景文本图像检测方法，其采用由“粗”到“精”的检测技术。首先让用户在场景图片中标记出感兴趣的文本所在区域，即在文本上画一条线。粗略文本区域是根据这条线从原图中选取一个扩展区域，在扩展区域图像中进行边缘检测，对边缘检测结果进行连通域标记，再对标记结果的边界进行投影得到边缘文本区域，然后对这个区域分块二值化、连通域标记和投影操作，得到粗略文本区域。最后是根据粗略文本区域精确定位文本区域，先对粗略文本区域进行分块二值化和反色的二值化操作，对两种二值化结果分别进行连通域标记、去除边界极大极小噪声、去除孤立噪声、边界投影和连通域数目确定等操作，然后根据两种二值图像的连通域数目确定图片极性，最后对连通域进行融合，得到精确的文本区域。

为达到上述目的，本发明提出的一种交互式的自然场景文本检测方法包括以下步骤：

一种交互式自然场景文本检测方法，其特征在于，该方法包括以下步骤：

步骤1，输入待检测图像；

步骤2，使用标记线在所述待检测图像中人为标记待检测文字所在的区域，并以所述标记线为基准进行扩展，得到一扩展后的文本区域；

步骤3，对于所述扩展后的文本区域进行边缘检测，对边缘检测结果进行膨胀处理和连通域标记，判断所得到的每个连通域是否为文字，并去除非文本连通域；

步骤4，对于去除非文本连通域后的文本区域，利用投影法得到由所述文本区域所包含的文本的边缘组成的边缘文本区域；

步骤5，对所述边缘文本区域进行分块二值化处理，并利用投影法和连通域标记得到粗略文本区域；

步骤6，将所述粗略文本区域进行分块二值化处理，并将得到的二值化图像进行反色，得到两种二值化图像；

步骤7，对所述两种二值化图像分别进行连通域标记，判断所得到的每个连通域是否为文字，去除非文本连通域以及每个文字连通域中的各种噪声；

步骤8，利用投影法确定所述步骤7得到的文本连通域所在位置的边界，并统计所有文本连通域的数目；

步骤9，根据两种二值化图像所得到的文本连通域的数目确定图像的极性，并对与此极性对应的连通域进行融合，最终得到精确文本区域。

本发明采用由粗到精的检测技术，首先对扩展区域进行边缘检测，对边缘文本区域分块二值化获取粗略文本区域，因此本方法具有局部空间自适应性，可以处理背景不均匀的复杂背景文本图像。然后，对粗略文本区域进行连通域分析，去除非文本区域并进行文本区域的融合。本方法具有局部空间自适应性，对自然场景图片中背景复杂的文本快有很好的检测效果。

附图说明

图1是本发明提出的一种交互式的自然场景文本检测方法流程图。

图2是根据本发明方法对于某一自然场景的文本进行检测的结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1是本发明提出的一种交互式的自然场景文本检测方法流程图，图2是根据本发明方法对于某一自然场景的文本进行检测的结果示意图，如图1和图2所示，所述方法包括以下步骤：

步骤1，输入待检测图像，如图2a所示；

该步骤中，以所述标记线为基准进行扩展具体为：分别向上向下扩展待检测图像高度的1/3，向左向右扩展所述标记线长度的1/3。

在本发明一实施例中，使用一条标记线划过待检测文字所在的区域，如图2b所示，实际上，该标记线无需很准确地到达文字的左右边界，只需要保证在经过上述扩展之后能够覆盖所有的待检测文字即可。

步骤3，对于所述扩展后的文本区域进行边缘检测(比如Canny边缘检测)，对边缘检测结果进行膨胀处理和连通域标记，判断所得到的每个连通域是否为文字，并去除非文本连通域；

该步骤中，根据以下规则判断每个连通域是否为文字：

其中，Width，Height为扩展文本区域的宽度和高度；width_CoCo，height_CoCo为连通域的宽度和高度；top_CoCo，bottom_CoCo为连通域顶部和底部的位置；top_Line，bottom_Line为标记线顶部和底部的位置；Tw1，Tw2，Th1，Th2，Twh为连通域属性的阈值；&&表示关系与操作，即当进行与操作的两个条件都成立时结果才成立；在本发明一实施例中，Tw1＝0.01，Tw2＝0.8，Th1＝0.01，Th2＝0.8，Twh＝5.0。

该步骤中，考虑到边缘的像素值为255，非边缘的像素值为0，所以可以从标记线开始向上下左右四个方向逐行扫描判断是否为文本的边缘，并根据以下规则判断某一行或列是否为边缘文本区域的边界：

其中，num_pixel_255为所述边缘文本区域中所有边缘点的数目；Width，Height为所述边缘文本区域的宽度和高度；Trow，Tcol为阈值；在本发明一实施例中，Trow＝0.002，Tcol＝0.002。

步骤5，为了使对比度较强的图片具有较好的二值化结果，对所述边缘文本区域进行分块二值化处理，并利用投影法和连通域标记得到粗略文本区域，如图2c所示；

所述步骤5进一步包括以下步骤：

步骤51，将所述边缘文本区域分成多个子图像块，比如多个宽度和高度均为100的子图像块，并对每个子图像块进行二值化(比如利用Otsu方法进行二值化)，得到二值边缘文本区域；

步骤52，对于所述二值边缘文本区域，利用投影法得到所述二值边缘文本区域的边界；

该步骤使用的投影法规则与所述步骤4中的投影规则类似，只是其中阈值的取值为：Trow＝0.005，Tcol＝0.005。

步骤53，对于得到的区域再进行连通域标记，判断所得到的每个连通域是否为文字，并去除非文本连通域，得到粗略文本区域；

该步骤中，根据以下规则判断每个连通域是否为文字：

其中，Width，Height为所述步骤52得到的区域的宽度和高度；width_CoCo，height_CoCo为连通域的宽度和高度；left_CoCo，right_CoCo，top_CoCo，bottom_CoCo为连通域的左边、右边、顶部和底部的位置；left_Line，right_Line，top_Line，bottom_Line为标记线的左边、右边、顶部和底部的位置；Tw，Twh为连通域属性的阈值；在本发明一实施例中，Tw＝0.5，Twh＝10.0。

步骤6，将所述粗略文本区域进行分块二值化处理，并将得到的二值化图像进行反色，即将前景和背景像素交换，得到两种二值化图像；

该步骤中，根据以下规则去除所述连通域中的各种噪声：

其中，Width，Height为所述粗略文本区域的宽度和高度；width_CoCo，height_CoCo为连通域的宽度和高度；left_CoCo，right_CoCo，top_CoCo，bottom_CoCo为连通域的左边、右边、顶部和底部的位置；left_CoCoRight，right_CoCoLeft，bottom_CoCoUp，top_CoCoDown为连通域的左边、右边、上面和下面最近的连通域的位置；Tw1，Tw2，Th，Ttop，Tbot，T为连通域属性的阈值；在本发明一实施例中，Tw1＝0.5，Tw2＝0.01，Th＝0.02，Ttop＝0.9，Tbot＝0.1，T＝0.25。

步骤9，根据两种二值化图像所得到的文本连通域的数目确定图像的极性，并对与此极性对应的连通域进行融合，最终得到精确文本区域，如图2d所示。

二值化图像的极性有两种：白底黑字和黑底白字。由于本发明最终想要得到的是白底黑字，所以需要先判断图像的极性，如果图像是黑底白字就需要将二值化图像进行反色处理。

该步骤中，根据以下规则判断水平方向上的两个连通域是否需要融合：

其中，Width，Height为每个连通域的宽度和高度；dist(CoCo1，CoCo2)为两个连通域之间的最小距离；T为连通域属性的阈值；||表示关系或操作，即进行或操作的两个条件如果有一个成立那么结果就成立，表示一个集合包含于另一个集合，即前一个集合是后一个集合的子集，表示一个集合包含另一个集合，即后一个集合是前一个集合的子集，∩表示集合的交操作，其结果为两个集合重合的部分；在本发明一实施例中，T＝0.03。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种交互式自然场景文本检测方法，其特征在于，该方法包括以下步骤：

步骤1，输入待检测图像；

2.根据权利要求1所述的方法，其特征在于，所述步骤2中，以所述标记线为基准进行扩展具体为：分别向上向下扩展待检测图像高度的1/3，向左向右扩展所述标记线长度的1/3。

3.根据权利要求1所述的方法，其特征在于，所述步骤3中，根据以下规则判断每个连通域是否为文字：

其中，Width，Height为扩展文本区域的宽度和高度；width_CoCo，height_CoCo为连通域的宽度和高度；top_CoCo，bottom_CoCo为连通域顶部和底部的位置；top_Line，bottom_Line为标记线顶部和底部的位置；Tw1，Tw2，Th1，Th2，Twh为连通域属性的阈值；&&表示关系与操作。

4.根据权利要求1所述的方法，其特征在于，所述步骤4中，从标记线开始向上下左右四个方向逐行扫描判断是否为文本的边缘，并根据以下规则判断某一行或列是否为边缘文本区域的边界：

其中，num_pixel_255为所述边缘文本区域中所有边缘点的数目；Width，Height为所述边缘文本区域的宽度和高度；Trow，Tcol为阈值。

5.根据权利要求1所述的方法，其特征在于，所述步骤5进一步包括以下步骤：

步骤51，将所述边缘文本区域分成多个子图像块，并对每个子图像块进行二值化，得到二值边缘文本区域；

步骤53，对于得到的区域再进行连通域标记，判断所得到的每个连通域是否为文字，并去除非文本连通域，得到粗略文本区域。

6.根据权利要求5所述的方法，其特征在于，所述步骤53中，根据以下规则判断每个连通域是否为文字：

其中，Width，Height为所述步骤52得到的区域的宽度和高度；width_CoCo，height_CoCo为连通域的宽度和高度；left_CoCo，right_CoCo，top_CoCo，bottom_CoCo为连通域的左边、右边、顶部和底部的位置；left_Line，right_Line，top_Line，bottom_Line为标记线的左边、右边、顶部和底部的位置；Tw，Twh为连通域属性的阈值。

7.根据权利要求1所述的方法，其特征在于，所述步骤7中，根据以下规则去除所述连通域中的各种噪声：

其中，Width，Height为所述粗略文本区域的宽度和高度；width_CoCo，height_CoCo为连通域的宽度和高度；left_CoCo，right_CoCo，top_CoCo，bottom_CoCo为连通域的左边、右边、顶部和底部的位置；left_CoCoRight，right_CoCoLefi，bottom_CoCoUp，top_CoCoDown为连通域的左边、右边、上面和下面最近的连通域的位置；Tw1，Tw2，Th，Ttop，Tbot，T为连通域属性的阈值。

8.根据权利要求1所述的方法，其特征在于，所述步骤9中，根据以下规则判断水平方向上的两个连通域是否需要融合：

其中，Width，Height为每个连通域的宽度和高度；dist(CoCo1，CoCo2)为两个连通域之间的最小距离；T为连通域属性的阈值；表示关系或操作，表示一个集合包含于另一个集合，表示一个集合包含另一个集合，∩表示集合的交操作。