CN109800750A

CN109800750A - 一种基于图像形态学用于规则排版的文本的文字区域标注方法

Info

Publication number: CN109800750A
Application number: CN201910072288.6A
Authority: CN
Inventors: 段强; 李锐; 于治楼; 安程治
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-05-24

Abstract

本发明提供一种基于图像形态学用于规则排版的文本的文字区域标注方法，属于OCR图像识别技术领域，本发明将图像的二值化，图像形态学中腐蚀、膨胀、开操作、闭操作以及连通域分析等操作综合使用，提取到文本所在区域并进行标注。将规范排版的文本框标注简单化灵活化，以较小的消耗和代价获得和复杂方法基本相同的效果。

Description

一种基于图像形态学用于规则排版的文本的文字区域标注方法

技术领域

本发明涉及OCR图像识别技术，尤其涉及一种基于图像形态学用于规则排版的文本的文字区域标注方法。

背景技术

目前主流的文本框标注技术是使用深度学习和Fast RCNN系列的有监督学习方法，但实际操作中需要消耗人力对训练数据进行标注。它适用于复杂场景的文本定位和文本框标注。在简单的场景中，如名片OCR识别，***OCR识别等简单且文本较规范的场景中，使用深度学习等方法过于复杂且容易产生不稳定的标注。

在人工智能发展的浪潮当中，将重复且机械的工作用机器替代人类是一个必然的趋势。在目前已有的人工智能应用中，文字识别已经非常成熟，而且不仅限于打印字体的识别，还包括手写体的识别。但是如果想做到更加智能化、自动化，在文字识别之前，还要有一步文本定位和文本框标注的操作。想要对单个文字进行识别，需要对文字精确地标注和分割.

传统的方法大多基于Fast RCNN及其衍生方法，这些的方法属于有监督学习，在进行训练前需要人工对文本框进行标注，需要大量人力，且对硬件资源有一定消耗。另外，在比较规则的文本识别场景中使用学习和神经网络过于复杂且不会比单纯的图像处理方法产生更好的效果。

传统的方法的不足：

1)监督学习导致的训练复杂，数据集构建耗费人力物力，需要较好的硬件进行支持。

2)在复杂的步骤和模型训练之后，并不能在文本框标注上得到质的提升。

因此，一个无监督的基于图像处理的方法有广泛的应用场景。

发明内容

为了解决以上技术问题，本发明提出了一种基于图像形态学用于规则排版的文本的文字区域标注方法，使用到的技术主要有图像的二值化，图像形态学中腐蚀、膨胀、开操作、闭操作以及连通域分析。

本发明的技术方案是：

一种基于图像形态学用于规则排版的文本的文字区域标注方法，可用于排版规范的文本识别场景中的文本框标注。通过图像形态学中腐蚀(Erosion)、膨胀(Dilate)、开(Open)/闭(Close)操作，将含有目标文本的二值化的图像的目标区域变成单个连通域，定位到该连通域的边界后即可将文本框标注出来。

总的来说，输入是一个排版规范的文本识别场景，如***的照片或扫描到的图像。输出是标注过的文本框。

如果因为视角差异导致拍到的***区域不是规范的矩形俯视视角,首先使用单应性变换(Homography)将待标注区域规范成为标准矩形。

得到规范的区域之后，对图像进行二值化操作，将文字以外的区域由3通道rgb图像转换为单通道二位图像中的黑色(0)，将文字转换为白色(1)。

这里可以使用histogram分析法，得到一个合适的阈值将文字与背景分离出来。得到文字与背景分离出的二值化图像之后，使用图像形态学操作将大片文字区域和噪音均构建成连通域，对于较小的连通域认定为噪音去除，较大的连通域认为是文字保留。分别取得文字连通域的上下左右的界限即可画出一个标准的矩形文本框。由于文本行的高度有一定范围，因此人为设定一个阈值将噪声过滤掉，小于或者大于阈值的连通域认定为噪音去除，在设定范围内的连通域认为是文字区域进行保留。通常上这个范围设置为所有有效文本框高度中位数的0.5-1.5倍。

具体使用的技术如单应性变换，Histogram分析，图像形态学操作等均是成熟且通用的技术，在此不再赘述。

具体步骤如下。

第一步，获得输入图像，确保其仅包含目标区域且为矩形；若不为矩形，通过单应性变换将其规范为标准四边形；

第二步，设定图像二值化的阈值，通过histogram分析法区分背景和文字部分，并得到一个阈值，通过合理地设置阈值，尽可能的减小噪音；最终将背景和文字部分分别用0,1表示为一个二值图像；

第三步，使用图像形态学操作将文字部分连接成一整个连通域；

第四步，经过第三步后，得到一个矩形连通域，提取此连通域上下左右四个边的坐标的最大值即可将文本框所在区域标注出来。

进一步的，在第三步中，选择闭操作，结构元素选择矩形，为了将不同行的文本区分出来，结构元素的高不大于两行文本间的像素个数。

进一步的，在同时，为了将同一行的文本连通起来，结构元素的宽不小于两个字的横向间隔，如果设置较大，在最后计算文本框位置的时候将多出来的像素减掉。

本发明的有益效果是

灵活利用已有技术，规避其缺点，发挥其长处，提出了无监督的基于图像形态学的文本框标注方法，有以下优势：

1)方法简单明了，对于规范排版的文本提取场景有较强通用性；

2)无监督学习，不需要人力物力进行训练集标注和耗时的训练步骤；

3)计算量较小，不需要强大硬件支持。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种基于图像形态学用于规则排版的文本的文字区域标注方法，可用于排版规范的文本识别场景中的文本框标注。通过图像形态学中腐蚀(Erosion)、膨胀(Dilate)、开(Open)/闭(Close)操作，将含有目标文本的二值化的图像的目标区域变成单个连通域，定位到该连通域的边界后即可将文本框标注出来。

其具体步骤如下：

第一步，获得输入图像，拍照或者扫描均可，确保其仅包含目标区域且为矩形。若不为矩形，可通过单应性变换将其规范为标准四边形

第二步，设定图像二值化的阈值，可通过histogram分析法区分背景和文字部分，并得到一个合适的阈值，通过合理地设置阈值，尽可能的减小噪音。最终将背景和文字部分分别用0,1表示为一个二值图像。

第三步，使用图像形态学操作将文字部分连接成一整个连通域。这里选择闭(close)操作，结构元素(structural element)选择矩形，为了将不同行的文本区分出来，结构元素的高不能大于两行文本间的像素个数。可以将其设为1或2。同时，为了将同一行的文本连通起来，结构元素的宽不能小于两个字的横向间隔，可以设置的大一些，但是要在最后计算文本框位置的时候将多出来的像素减掉即可。

第四步，经过第三步后，理论上应该能得到一个矩形连通域，提取此连通域上下左右四个边的坐标的最大值即可将文本框所在区域标注出来。

本发明使用目前通用的开源框架和语言，灵活使用现有技术，扬长避短，将规范排版的文本框标注简单化灵活化，以较小的消耗和代价获得和复杂方法基本相同的效果

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于图像形态学用于规则排版的文本的文字区域标注方法，其特征在于，

通过图像形态学中腐蚀、膨胀、开闭操作，将含有目标文本的二值化的图像的目标区域变成单个连通域，定位到该连通域的边界后即可将文本框标注出来。

2.根据权利要求1所述的方法，其特征在于，

如果因为视角差异导致拍到的***区域不是规范的矩形俯视视角,首先使用单应性变换将待标注区域规范成为标准矩形。

3.根据权利要求2所述的方法，其特征在于，

得到规范的区域之后，对图像进行二值化操作，将文字以外的区域由3通道rgb图像转换为单通道二位图像中的黑色，将文字转换为白色。

4.根据权利要求3所述的方法，其特征在于，

使用histogram分析法，得到一个阈值将文字与背景分离出来。

5.根据权利要求4所述的方法，其特征在于，

得到文字与背景分离出的二值化图像之后，使用图像形态学操作将大片文字区域和噪音均构建成连通域，由于文本行的高度有一定范围，因此人为设定一个阈值将噪声过滤掉，小于或者大于阈值的连通域认定为噪音去除，在设定范围内的连通域认为是文字区域进行保留；这个范围设置为所有有效文本框高度中位数的0.5-1.5倍。

6.根据权利要求5所述的方法，其特征在于，

分别取得文字连通域的上下左右的界限即可画出一个标准的矩形文本框。

7.根据权利要求5所述的方法，其特征在于，

具体操作步骤如下。

第二步，设定图像二值化的阈值，通过histogram分析法区分背景和文字部分，并得到一个阈值，通过设置阈值，尽可能的减小噪音；最终将背景和文字部分分别用0,1表示为一个二值图像；

8.根据权利要求7所述的方法，其特征在于，

在第三步中，选择闭操作，结构元素选择矩形，为了将不同行的文本区分出来，结构元素的高不大于两行文本间的像素个数。

9.根据权利要求8所述的方法，其特征在于，

同时，为了将同一行的文本连通起来，结构元素的宽不小于两个字的横向间隔，如果设置较大，在最后计算文本框位置的时候将多出来的像素减掉。