CN108875721A - 一种多规格文本协同定位和提取方法 - Google Patents
一种多规格文本协同定位和提取方法 Download PDFInfo
- Publication number
- CN108875721A CN108875721A CN201711360636.7A CN201711360636A CN108875721A CN 108875721 A CN108875721 A CN 108875721A CN 201711360636 A CN201711360636 A CN 201711360636A CN 108875721 A CN108875721 A CN 108875721A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- information
- background
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种多规格文本协同定位和提取方法,包括如下步骤:步骤110获取文本图像数据;步骤120、图像归一化操作;步骤130、分离图像背景信息和需要采集的前景信息;步骤140、全局协同搜索,提取出预设格式的各个文本块区域;步骤150、局部优化搜索,在小范围内逐个优化各个文本区域的位置;步骤160输出各个文本块定位结果,提供给后续单字切分和识别模块。本发明利用图像处理、目标检测、协同搜索、局部优化等技术,满足格式化数据采集的要求,克服某些文本块退化后的漏检和错检问题并最大程度避免不必要的文本和噪声信息的干扰,提高格式化文本信息采集的准度和精度。
Description
技术领域
本发明属于图像处理和目标检测技术领域,具体涉及一种多规格文本协同定位和提取方法。
背景技术
近年来,随着数字成像设备的普及和深度学习算法的广泛应用,文本识别软件不断涌现,如汉王、腾讯云识别、百度云识别等,文本识别精度不断提升。但是,这些文本识别软件是通用识别,只要图像中出现的文字都会尝试识别,除了返回识别结果和坐标位置,很难对识别结果进行分类归集,不能直接满足有格式要求的文本识别和数字化采集的应用需求。
发明内容
本发明提供一种多规格文本协同定位和提取方法以解决目前存在的文本识别软件很难对识别结果进行分类归集,不能直接满足有格式要求的文本识别和数字化采集的应用需求的问题。
本发明的具体技术方案如下:
一种多规格文本协同定位和提取方法,其特征在于,所述方法包括如下步骤:步骤110,获取文本图像数据;
步骤120,图像归一化操作;图像归一化的方法包括,直线检测、旋转变换、尺度变换、亮度均衡,通过归一化操作得到大小、亮度、方向一致的文本图像;
步骤130,在步骤120之后,分离图像背景信息和需要采集的前景信息;可通过色彩通道、亮度、颜色比例来分离背景信息和需要采集的前景信息;
步骤140,全局协同搜索;在步骤130确定前景信息后,加载预先设定的格式化模板,通过全局协同搜索,得到有效信息最大化的位置,从而提取出预设格式的各个文本块区域;
步骤150,局部优化搜索;在步骤140确定全局的格式文本区域后,在小范围内逐个优化各个文本块区域的位置;
步骤160,输出;在步骤150局部优化搜索后,输出各个文本块,提供给后续单字切分和识别模块,文本定位和提取结束。
进一步,步骤110获取图像数据的方法可以为以下五种方法之一:
方法1是用智能手机拍摄得到的图像;
方法2是用扫描仪得到的图像数据;
方法3是用数码相机拍摄得到的图像;
方法4是打开一个预先存在的包含图像数据的文件夹,批处理该文件夹内所有的图像文件;
方法5是打开一个预先存在的图像文件,读取该文件中的图像数据。
进一步,步骤120图像归一化操作具体包括如下步骤:
步骤210,采用直线检测的方法检测出文本图像的直线,选取长度超过阈值的直线作为考察对象;
步骤220,求取这些直线与水平线的平均夹角作为旋转角,旋转图像使得文本行处于水平位置;
步骤230,在旋转后的图像中,提取包围感兴趣目标的最大矩形,即感兴趣区域ROI,根据最大矩形进行尺度变换,使得ROI的大小保持一致;
步骤240,求取ROI内所有像素的平均亮度,并归一化到设定的平均亮度值,从而完成图像的归一化操作。
进一步,步骤130分离图像背景信息和需要采集的前景信息,具体包括如下步骤:
步骤310,结合所处理文本图像的特性,对于背景信息进行建模,综合比例图像、亮度图像、色调图像上的二值化结果,提取出图像的背景图;
步骤320,在背景图上,过滤掉孤立点;
步骤330,在步骤320的基础上,执行膨胀操作,得到完整的背景图;
步骤340,将原图与背景图做差,分离出所需采集的前景文本。
进一步,步骤140全局协同搜索,具体包括如下步骤:
步骤410,加载预先设立的格式文本模板,确定所采集文本的可能区域位置、长度、大小以及在所有区域中的加权比重;
步骤420,扣除干扰噪声经常出现的区域;
步骤430,在x和y两方向进行全局协同搜索,使得在预设的区域内出现的前景信息加权总和达到最大值。
本发明的有益效果为:
1.与常用的全部识别后再去归类方法相比,本发明根据所需采集的格式模板,可以在文本识别前预先知道各个文本块的归属,有助于预先判断出所需识别的文本是数字串、中文串、英文串以及标点符号等,从而为字符切分和识别提供了有用的先验信息,也为识别结果提供了一种可能的校验手段。
2.与常见的逐个文本块单独定位和提取方法相比,本发明提出的多规格文本协同的定位和提取方法有助于所需采集文本信息的最大化,通过整体协同的方式克服了某些文本块退化后的漏检和错检问题,在提升效率的同时也提升了定位和提取的准确度。
3.本发明利用多规格文本协同的定位和提取方法,尽可能地只采集需要采集的信息,最大程度上避免了不必要的文本和噪声信息的干扰,从而提高格式化文本信息采集的准度和精度。
附图说明
图1为一种多规格文本协同定位和提取方法的总体流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行详细描述:
如图1所示,本发明为一种多规格文本协同定位和提取方法,所述方法包括如下步骤:
步骤110,获取文本图像数据;获取图像数据的方法可以为以下五种之一:
方法1是用智能手机拍摄得到的图像;方法2是用扫描仪得到的图像数据;方法3是用数码相机拍摄得到的图像;方法4是打开一个预先存在的包含图像数据的文件夹,批处理该文件夹内所有的图像文件;方法5是打开一个预先存在的图像文件,读取该文件中的图像数据。
步骤120,通过直线检测、旋转变换、尺度变换、亮度均衡等方法对所处理的文本图像进行归一化操作,得到大小、亮度、方向一致的文本图像;所述归一化操作的具体步骤如下:
步骤210,采用直线检测的方法检测出文本图像的直线,选取长度超过阈值的直线作为考察对象。
步骤220,求取这些直线与水平线的平均夹角作为旋转角,旋转图像使得文本行处于水平位置。
步骤230,在旋转后的图像中,提取包围感兴趣目标(ROI)的最大矩形,根据最大矩形进行尺度变换,使得ROI的大小保持一致。
步骤240,求取ROI内所有像素的平均亮度,并归一化到设定的平均亮度值,从而完成图像的归一化操作。
步骤130,在步骤120的归一化操作后,通过色彩通道、亮度、颜色比例等分离背景信息和需要采集的前景信息,其具体步骤如下:
步骤310,结合所处理文本图像的特性,对于背景信息进行建模,综合比例图像、亮度图像、色调图像上的二值化结果,提取出图像的背景图。
步骤320,在背景图上,过滤掉孤立点。
步骤330,在步骤320的基础上,执行膨胀操作,得到完整的背景图。
步骤340,将原图与背景图做差,分离出所需采集的前景文本。
步骤140,在步骤130确定前景信息后,加载预先设定的格式化模板,通过全局协同搜索,得到有效信息最大化的位置,从而提取出预设格式的各个文本块区域;所述全局协同搜索包括如下步骤:
步骤410,加载预先设立的格式文本模板,确定所采集文本的可能区域位置、长度、大小以及在所有区域中的加权比重。
步骤420,扣除干扰噪声经常出现的区域。
步骤430,在x和y两方向进行全局协同搜索,使得在预设的区域内出现的前景信息加权总和达到最大值。
步骤150,在步骤140确定全局的格式文本区域后,在小范围内逐个优化各个文本块区域的位置;
步骤160,在优化各个子文本区域后,输出各个文本块供后续单字切分和识别模块,多规格文本协同定位和提取结束。
为了实现本发明,需要具备如下硬件条件:该设备中需要有一般的运算能力和存储空间,包括一定频率的中央处理器单元,有一定用来运算的内存和用来存储的硬盘,以及***软件和应用软件。如果需要通过数码相机、智能手机或扫描仪扫描来得到图像数据,还需配备数码相机、智能手机或扫描仪。如果通过云计算和云存储,还需要连接到网络。
综合上述,本发明提出的一种多规格文本协同定位和提取方法,利用图像处理、目标检测、协同搜索、局部优化等技术,在对文本块进行定位和提取的同时,可以得到文本块的语义归属,从而方便多规格文本的归集和归档,满足格式化数据采集的要求。本发明方法有助于所需采集文本信息的最大化,通过整体协同的方式克服了某些文本块退化后的漏检和错检问题;另外,本发明方法尽可能地只采集需要采集的信息,最大程度上避免了不必要的文本和噪声信息的干扰,从而提高格式化文本信息采集的准度和精度。
以下举例说明:
实施例1
例如,在一般的计算机上,对扫描得到的医院门急诊票据图像进行处理,使用本发明所示的方法,经过步骤120图像归一化后票据的角度得到修正,票据的亮度、方向一致的,接着经过步骤130前景背景信息分离后可得到票据上关于医院名称、门诊号、诊费、章等票据上的文字及图像等前景信息,再经过步骤 140全局协同搜索和步骤150局部优化后可得到票据上的相应位置上的需要提取的信息,多规格文本定位和提取结果,最后经过步骤160输出。
实施例2
在一般的计算机上,对扫描得到的医院住院票据图像进行处理,使用本发明所示的方法,经过步骤120图像归一化后得到大小、亮度、方向一致的图像,接着经过步骤130前景背景信息分离后可得到住院票据上的关键信息,例如医院名称、性别、费用明细、日期等,再经过步骤140全局协同搜索和步骤150 局部优化后可得到票据上关键信息相对应的位置,如票据的抬头、姓名、性别、诊费明细等多规格文本定位和提取结果,最后经过步骤160输出。
本申请的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里披露的实施例进行其它变形和改变。
Claims (5)
1.一种多规格文本协同定位和提取方法,其特征在于,所述方法包括如下步骤:
步骤110,获取文本图像数据;
步骤120,图像归一化操作;图像归一化的方法包括,直线检测、旋转变换、尺度变换、亮度均衡,通过归一化操作得到大小、亮度、方向一致的文本图像;
步骤130,在步骤120之后,分离图像背景信息和需要采集的前景信息;可通过色彩通道、亮度、颜色比例来分离背景信息和需要采集的前景信息;
步骤140,全局协同搜索;在步骤130确定前景信息后,加载预先设定的格式化模板,通过全局协同搜索,得到有效信息最大化的位置,从而提取出预设格式的各个文本块区域;
步骤150,局部优化搜索;在步骤140确定全局的格式文本区域后,在小范围内逐个优化各个文本块区域的位置;
步骤160,输出;在步骤150局部优化搜索后,输出各个文本块,提供给后续单字切分和识别模块,文本定位和提取结束。
2.根据权利要求1所述的多规格文本协同定位和提取方法,其特征在于:
步骤110获取图像数据的方法可以为以下五种方法之一:
方法1是用智能手机拍摄得到的图像;
方法2是用扫描仪得到的图像数据;
方法3是用数码相机拍摄得到的图像;
方法4是打开一个预先存在的包含图像数据的文件夹,批处理该文件夹内所有的图像文件;
方法5是打开一个预先存在的图像文件,读取该文件中的图像数据。
3.根据权利要求1或2所述的多规格文本协同定位和提取方法,其特征在于:步骤120图像归一化操作具体包括如下步骤:
步骤210,采用直线检测的方法检测出文本图像的直线,选取长度超过阈值的直线作为考察对象;
步骤220,求取这些直线与水平线的平均夹角作为旋转角,旋转图像使得文本行处于水平位置;
步骤230,在旋转后的图像中,提取包围感兴趣目标的最大矩形,即感兴趣区域ROI,根据最大矩形进行尺度变换,使得ROI的大小保持一致;
步骤240,求取ROI内所有像素的平均亮度,并归一化到设定的平均亮度值,从而完成图像的归一化操作。
4.根据权利要求3所述的多规格文本协同定位和提取方法,其特征在于:
步骤130分离图像背景信息和需要采集的前景信息,具体包括如下步骤:
步骤310,结合所处理文本图像的特性,对于背景信息进行建模,综合比例图像、亮度图像、色调图像上的二值化结果,提取出图像的背景图;
步骤320,在背景图上,过滤掉孤立点;
步骤330,在步骤320的基础上,执行膨胀操作,得到完整的背景图;
步骤340,将原图与背景图做差,分离出所需采集的前景文本。
5.根据权利要求4所述的多规格文本协同定位和提取方法,其特征在于:
步骤140全局协同搜索,具体包括如下步骤:
步骤410,加载预先设立的格式文本模板,确定所采集文本的可能区域位置、长度、大小以及在所有区域中的加权比重;
步骤420,扣除干扰噪声经常出现的区域;
步骤430,在x和y两方向进行全局协同搜索,使得在预设的区域内出现的前景信息加权总和达到最大值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711360636.7A CN108875721A (zh) | 2017-12-18 | 2017-12-18 | 一种多规格文本协同定位和提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711360636.7A CN108875721A (zh) | 2017-12-18 | 2017-12-18 | 一种多规格文本协同定位和提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108875721A true CN108875721A (zh) | 2018-11-23 |
Family
ID=64325610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711360636.7A Pending CN108875721A (zh) | 2017-12-18 | 2017-12-18 | 一种多规格文本协同定位和提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875721A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079531A (zh) * | 2019-11-12 | 2020-04-28 | 泰康保险集团股份有限公司 | 数据结构化输出方法、装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138553A (zh) * | 2015-07-17 | 2015-12-09 | 小米科技有限责任公司 | 终端间信息共享的方法及装置 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别***与方法 |
CN106056114A (zh) * | 2016-05-24 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 名片内容识别方法和装置 |
CN106503711A (zh) * | 2016-11-16 | 2017-03-15 | 广西大学 | 一种文字识别方法 |
-
2017
- 2017-12-18 CN CN201711360636.7A patent/CN108875721A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138553A (zh) * | 2015-07-17 | 2015-12-09 | 小米科技有限责任公司 | 终端间信息共享的方法及装置 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别***与方法 |
CN106056114A (zh) * | 2016-05-24 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 名片内容识别方法和装置 |
CN106503711A (zh) * | 2016-11-16 | 2017-03-15 | 广西大学 | 一种文字识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079531A (zh) * | 2019-11-12 | 2020-04-28 | 泰康保险集团股份有限公司 | 数据结构化输出方法、装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Karatzas et al. | ICDAR 2011 robust reading competition-challenge 1: reading text in born-digital images (web and email) | |
US10943346B2 (en) | Multi-sample whole slide image processing in digital pathology via multi-resolution registration and machine learning | |
US11210797B2 (en) | Systems, methods, and devices for image matching and object recognition in images using textures | |
Shahab et al. | ICDAR 2011 robust reading competition challenge 2: Reading text in scene images | |
US9508151B2 (en) | Systems, methods, and devices for image matching and object recognition in images using image regions | |
CN103824053B (zh) | 一种人脸图像的性别标注方法及人脸性别检测方法 | |
CN108805076B (zh) | 环境影响评估报告书表格文字的提取方法及*** | |
Yang et al. | A framework for improved video text detection and recognition | |
CN105184238A (zh) | 一种人脸识别方法及*** | |
JP2014232533A (ja) | Ocr出力検証システム及び方法 | |
CN105760901B (zh) | 一种多语种倾斜文档图像的自动语言判别方法 | |
Xu et al. | A supervoxel approach to the segmentation of individual trees from LiDAR point clouds | |
CN103577818A (zh) | 一种图像文字识别的方法和装置 | |
CN104598881B (zh) | 基于特征压缩与特征选择的歪斜场景文字识别方法 | |
US11817215B2 (en) | Artificial intelligence cloud diagnosis platform | |
Priyankara et al. | Computer assisted plant identification system for Android | |
Yindumathi et al. | Analysis of image classification for text extraction from bills and invoices | |
CN105246149B (zh) | 地理位置的识别方法和装置 | |
Mirza et al. | Urdu caption text detection using textural features | |
CN108875721A (zh) | 一种多规格文本协同定位和提取方法 | |
Rahul et al. | Multilingual text detection and identification from Indian signage boards | |
Bains et al. | Dynamic features based stroke recognition system for signboard images of Gurmukhi text | |
CN110728240A (zh) | 一种对电子卷宗的标题自动识别的方法及装置 | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
Bhatt et al. | Text Extraction & Recognition from Visiting Cards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |