CN109800750A - 一种基于图像形态学用于规则排版的文本的文字区域标注方法 - Google Patents
一种基于图像形态学用于规则排版的文本的文字区域标注方法 Download PDFInfo
- Publication number
- CN109800750A CN109800750A CN201910072288.6A CN201910072288A CN109800750A CN 109800750 A CN109800750 A CN 109800750A CN 201910072288 A CN201910072288 A CN 201910072288A CN 109800750 A CN109800750 A CN 109800750A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- connected domain
- threshold value
- rectangle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
本发明提供一种基于图像形态学用于规则排版的文本的文字区域标注方法,属于OCR图像识别技术领域,本发明将图像的二值化,图像形态学中腐蚀、膨胀、开操作、闭操作以及连通域分析等操作综合使用,提取到文本所在区域并进行标注。将规范排版的文本框标注简单化灵活化,以较小的消耗和代价获得和复杂方法基本相同的效果。
Description
技术领域
本发明涉及OCR图像识别技术,尤其涉及一种基于图像形态学用于规则排版的文本的文字区域标注方法。
背景技术
目前主流的文本框标注技术是使用深度学习和Fast RCNN系列的有监督学习方法,但实际操作中需要消耗人力对训练数据进行标注。它适用于复杂场景的文本定位和文本框标注。在简单的场景中,如名片OCR识别,***OCR识别等简单且文本较规范的场景中,使用深度学习等方法过于复杂且容易产生不稳定的标注。
在人工智能发展的浪潮当中,将重复且机械的工作用机器替代人类是一个必然的趋势。在目前已有的人工智能应用中,文字识别已经非常成熟,而且不仅限于打印字体的识别,还包括手写体的识别。但是如果想做到更加智能化、自动化,在文字识别之前,还要有一步文本定位和文本框标注的操作。想要对单个文字进行识别,需要对文字精确地标注和分割.
传统的方法大多基于Fast RCNN及其衍生方法,这些的方法属于有监督学习,在进行训练前需要人工对文本框进行标注,需要大量人力,且对硬件资源有一定消耗。另外,在比较规则的文本识别场景中使用学习和神经网络过于复杂且不会比单纯的图像处理方法产生更好的效果。
传统的方法的不足:
1)监督学习导致的训练复杂,数据集构建耗费人力物力,需要较好的硬件进行支持。
2)在复杂的步骤和模型训练之后,并不能在文本框标注上得到质的提升。
因此,一个无监督的基于图像处理的方法有广泛的应用场景。
发明内容
为了解决以上技术问题,本发明提出了一种基于图像形态学用于规则排版的文本的文字区域标注方法,使用到的技术主要有图像的二值化,图像形态学中腐蚀、膨胀、开操作、闭操作以及连通域分析。
本发明的技术方案是:
一种基于图像形态学用于规则排版的文本的文字区域标注方法,可用于排版规范的文本识别场景中的文本框标注。通过图像形态学中腐蚀(Erosion)、膨胀(Dilate)、开(Open)/闭(Close)操作,将含有目标文本的二值化的图像的目标区域变成单个连通域,定位到该连通域的边界后即可将文本框标注出来。
总的来说,输入是一个排版规范的文本识别场景,如***的照片或扫描到的图像。输出是标注过的文本框。
如果因为视角差异导致拍到的***区域不是规范的矩形俯视视角,首先使用单应性变换(Homography)将待标注区域规范成为标准矩形。
得到规范的区域之后,对图像进行二值化操作,将文字以外的区域由3通道rgb图像转换为单通道二位图像中的黑色(0),将文字转换为白色(1)。
这里可以使用histogram分析法,得到一个合适的阈值将文字与背景分离出来。得到文字与背景分离出的二值化图像之后,使用图像形态学操作将大片文字区域和噪音均构建成连通域,对于较小的连通域认定为噪音去除,较大的连通域认为是文字保留。分别取得文字连通域的上下左右的界限即可画出一个标准的矩形文本框。由于文本行的高度有一定范围,因此人为设定一个阈值将噪声过滤掉,小于或者大于阈值的连通域认定为噪音去除,在设定范围内的连通域认为是文字区域进行保留。通常上这个范围设置为所有有效文本框高度中位数的0.5-1.5倍。
具体使用的技术如单应性变换,Histogram分析,图像形态学操作等均是成熟且通用的技术,在此不再赘述。
具体步骤如下。
第一步,获得输入图像,确保其仅包含目标区域且为矩形;若不为矩形,通过单应性变换将其规范为标准四边形;
第二步,设定图像二值化的阈值,通过histogram分析法区分背景和文字部分,并得到一个阈值,通过合理地设置阈值,尽可能的减小噪音;最终将背景和文字部分分别用0,1表示为一个二值图像;
第三步,使用图像形态学操作将文字部分连接成一整个连通域;
第四步,经过第三步后,得到一个矩形连通域,提取此连通域上下左右四个边的坐标的最大值即可将文本框所在区域标注出来。
进一步的,在第三步中,选择闭操作,结构元素选择矩形,为了将不同行的文本区分出来,结构元素的高不大于两行文本间的像素个数。
进一步的,在同时,为了将同一行的文本连通起来,结构元素的宽不小于两个字的横向间隔,如果设置较大,在最后计算文本框位置的时候将多出来的像素减掉。
本发明的有益效果是
灵活利用已有技术,规避其缺点,发挥其长处,提出了无监督的基于图像形态学的文本框标注方法,有以下优势:
1)方法简单明了,对于规范排版的文本提取场景有较强通用性;
2)无监督学习,不需要人力物力进行训练集标注和耗时的训练步骤;
3)计算量较小,不需要强大硬件支持。
附图说明
图1是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种基于图像形态学用于规则排版的文本的文字区域标注方法,可用于排版规范的文本识别场景中的文本框标注。通过图像形态学中腐蚀(Erosion)、膨胀(Dilate)、开(Open)/闭(Close)操作,将含有目标文本的二值化的图像的目标区域变成单个连通域,定位到该连通域的边界后即可将文本框标注出来。
其具体步骤如下:
第一步,获得输入图像,拍照或者扫描均可,确保其仅包含目标区域且为矩形。若不为矩形,可通过单应性变换将其规范为标准四边形
第二步,设定图像二值化的阈值,可通过histogram分析法区分背景和文字部分,并得到一个合适的阈值,通过合理地设置阈值,尽可能的减小噪音。最终将背景和文字部分分别用0,1表示为一个二值图像。
第三步,使用图像形态学操作将文字部分连接成一整个连通域。这里选择闭(close)操作,结构元素(structural element)选择矩形,为了将不同行的文本区分出来,结构元素的高不能大于两行文本间的像素个数。可以将其设为1或2。同时,为了将同一行的文本连通起来,结构元素的宽不能小于两个字的横向间隔,可以设置的大一些,但是要在最后计算文本框位置的时候将多出来的像素减掉即可。
第四步,经过第三步后,理论上应该能得到一个矩形连通域,提取此连通域上下左右四个边的坐标的最大值即可将文本框所在区域标注出来。
本发明使用目前通用的开源框架和语言,灵活使用现有技术,扬长避短,将规范排版的文本框标注简单化灵活化,以较小的消耗和代价获得和复杂方法基本相同的效果
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种基于图像形态学用于规则排版的文本的文字区域标注方法,其特征在于,
通过图像形态学中腐蚀、膨胀、开闭操作,将含有目标文本的二值化的图像的目标区域变成单个连通域,定位到该连通域的边界后即可将文本框标注出来。
2.根据权利要求1所述的方法,其特征在于,
如果因为视角差异导致拍到的***区域不是规范的矩形俯视视角,首先使用单应性变换将待标注区域规范成为标准矩形。
3.根据权利要求2所述的方法,其特征在于,
得到规范的区域之后,对图像进行二值化操作,将文字以外的区域由3通道rgb图像转换为单通道二位图像中的黑色,将文字转换为白色。
4.根据权利要求3所述的方法,其特征在于,
使用histogram分析法,得到一个阈值将文字与背景分离出来。
5.根据权利要求4所述的方法,其特征在于,
得到文字与背景分离出的二值化图像之后,使用图像形态学操作将大片文字区域和噪音均构建成连通域,由于文本行的高度有一定范围,因此人为设定一个阈值将噪声过滤掉,小于或者大于阈值的连通域认定为噪音去除,在设定范围内的连通域认为是文字区域进行保留;这个范围设置为所有有效文本框高度中位数的0.5-1.5倍。
6.根据权利要求5所述的方法,其特征在于,
分别取得文字连通域的上下左右的界限即可画出一个标准的矩形文本框。
7.根据权利要求5所述的方法,其特征在于,
具体操作步骤如下。
第一步,获得输入图像,确保其仅包含目标区域且为矩形;若不为矩形,通过单应性变换将其规范为标准四边形;
第二步,设定图像二值化的阈值,通过histogram分析法区分背景和文字部分,并得到一个阈值,通过设置阈值,尽可能的减小噪音;最终将背景和文字部分分别用0,1表示为一个二值图像;
第三步,使用图像形态学操作将文字部分连接成一整个连通域;
第四步,经过第三步后,得到一个矩形连通域,提取此连通域上下左右四个边的坐标的最大值即可将文本框所在区域标注出来。
8.根据权利要求7所述的方法,其特征在于,
在第三步中,选择闭操作,结构元素选择矩形,为了将不同行的文本区分出来,结构元素的高不大于两行文本间的像素个数。
9.根据权利要求8所述的方法,其特征在于,
同时,为了将同一行的文本连通起来,结构元素的宽不小于两个字的横向间隔,如果设置较大,在最后计算文本框位置的时候将多出来的像素减掉。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910072288.6A CN109800750A (zh) | 2019-01-25 | 2019-01-25 | 一种基于图像形态学用于规则排版的文本的文字区域标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910072288.6A CN109800750A (zh) | 2019-01-25 | 2019-01-25 | 一种基于图像形态学用于规则排版的文本的文字区域标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109800750A true CN109800750A (zh) | 2019-05-24 |
Family
ID=66560335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910072288.6A Pending CN109800750A (zh) | 2019-01-25 | 2019-01-25 | 一种基于图像形态学用于规则排版的文本的文字区域标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800750A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175563A (zh) * | 2019-05-27 | 2019-08-27 | 上海交通大学 | 金属切削刀具图纸标注识别方法及*** |
CN110989947A (zh) * | 2020-01-02 | 2020-04-10 | 大连中盈科技股份有限公司 | 一种电子***打印机及打印方法 |
CN112801923A (zh) * | 2021-04-14 | 2021-05-14 | 江西博微新技术有限公司 | 文字处理方法、***、可读存储介质及计算机设备 |
CN112836696A (zh) * | 2019-11-22 | 2021-05-25 | 搜狗(杭州)智能科技有限公司 | 一种文字数据的检测方法、装置及电子设备 |
CN113033380A (zh) * | 2021-03-23 | 2021-06-25 | 建信览智科技(北京)有限公司 | 一种文本标注方法 |
CN113657407A (zh) * | 2021-07-26 | 2021-11-16 | 扆亮海 | 高查全率的大幅图片文字精准定位方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077388A (zh) * | 2012-10-31 | 2013-05-01 | 浙江大学 | 面向便携式计算设备的快速文本扫读方法 |
US20140050396A1 (en) * | 2012-08-17 | 2014-02-20 | Evernote Corporation | Using surfaces with printed patterns for identification of imaging and data processing activities |
CN105701488A (zh) * | 2016-01-01 | 2016-06-22 | 广州恒巨信息科技有限公司 | 一种身份证识别方法 |
CN106250831A (zh) * | 2016-07-22 | 2016-12-21 | 北京小米移动软件有限公司 | 图像检测方法、装置和用于图像检测的装置 |
CN108806059A (zh) * | 2018-05-08 | 2018-11-13 | 中山大学 | 基于特征点的票据对齐和八邻域连通体偏移修正的文本区域定位方法 |
-
2019
- 2019-01-25 CN CN201910072288.6A patent/CN109800750A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140050396A1 (en) * | 2012-08-17 | 2014-02-20 | Evernote Corporation | Using surfaces with printed patterns for identification of imaging and data processing activities |
CN103077388A (zh) * | 2012-10-31 | 2013-05-01 | 浙江大学 | 面向便携式计算设备的快速文本扫读方法 |
CN105701488A (zh) * | 2016-01-01 | 2016-06-22 | 广州恒巨信息科技有限公司 | 一种身份证识别方法 |
CN106250831A (zh) * | 2016-07-22 | 2016-12-21 | 北京小米移动软件有限公司 | 图像检测方法、装置和用于图像检测的装置 |
CN108806059A (zh) * | 2018-05-08 | 2018-11-13 | 中山大学 | 基于特征点的票据对齐和八邻域连通体偏移修正的文本区域定位方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175563A (zh) * | 2019-05-27 | 2019-08-27 | 上海交通大学 | 金属切削刀具图纸标注识别方法及*** |
CN110175563B (zh) * | 2019-05-27 | 2023-03-24 | 上海交通大学 | 金属切削刀具图纸标注识别方法及*** |
CN112836696A (zh) * | 2019-11-22 | 2021-05-25 | 搜狗(杭州)智能科技有限公司 | 一种文字数据的检测方法、装置及电子设备 |
CN110989947A (zh) * | 2020-01-02 | 2020-04-10 | 大连中盈科技股份有限公司 | 一种电子***打印机及打印方法 |
CN113033380A (zh) * | 2021-03-23 | 2021-06-25 | 建信览智科技(北京)有限公司 | 一种文本标注方法 |
CN113033380B (zh) * | 2021-03-23 | 2024-03-26 | 金科览智科技(北京)有限公司 | 一种文本标注方法 |
CN112801923A (zh) * | 2021-04-14 | 2021-05-14 | 江西博微新技术有限公司 | 文字处理方法、***、可读存储介质及计算机设备 |
CN113657407A (zh) * | 2021-07-26 | 2021-11-16 | 扆亮海 | 高查全率的大幅图片文字精准定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800750A (zh) | 一种基于图像形态学用于规则排版的文本的文字区域标注方法 | |
CN104182750B (zh) | 一种在自然场景图像中基于极值连通域的中文检测方法 | |
JP4646797B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
CN110969129A (zh) | 一种端到端税务票据文本检测与识别方法 | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、***及介质 | |
CN104751142A (zh) | 一种基于笔划特征的自然场景文本检测算法 | |
CN107527054B (zh) | 基于多视角融合的前景自动提取方法 | |
CN112712273B (zh) | 一种基于骨架相似度的手写体汉字美观度评判方法 | |
CN105701489A (zh) | 一种新型的数字提取和识别的方法及*** | |
CN108898092A (zh) | 基于全卷积神经网络的多光谱遥感影像路网提取方法 | |
CN107122775A (zh) | 一种基于特征匹配的安卓手机身份证字符识别方法 | |
CN112257629A (zh) | 一种建筑图纸的文本信息识别方法及装置 | |
CN111626145B (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
Schnitman et al. | Inducing semantic segmentation from an example | |
CN110533049A (zh) | 提取***图像的方法和装置 | |
CN103927533A (zh) | 一种针对早期专利文档扫描件中图文信息的智能处理方法 | |
Palaniappan et al. | Deep learning the indus script | |
CN110414497A (zh) | 对象电子化的方法、装置、服务器及存储介质 | |
CN110619331A (zh) | 一种基于颜色距离的彩色影像字段定位方法 | |
Hasan et al. | Smart ocr for recognizing bangla characters with craft and deep learning models | |
Hong et al. | Advances in Multimedia Information Processing–PCM 2018: 19th Pacific-Rim Conference on Multimedia, Hefei, China, September 21-22, 2018, Proceedings, Part III | |
CN112884074B (zh) | 基于决策树的图像设计方法、设备、存储介质及装置 | |
CN108446701A (zh) | 一种书法字的最佳包围盒方法 | |
Savitha et al. | An approach for object detection in android device | |
Bhatt et al. | Text Extraction & Recognition from Visiting Cards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190524 |