CN102567711A - 一种扫描识别模板制作和使用方法及*** - Google Patents

一种扫描识别模板制作和使用方法及*** Download PDF

Info

Publication number
CN102567711A
CN102567711A CN2010106228013A CN201010622801A CN102567711A CN 102567711 A CN102567711 A CN 102567711A CN 2010106228013 A CN2010106228013 A CN 2010106228013A CN 201010622801 A CN201010622801 A CN 201010622801A CN 102567711 A CN102567711 A CN 102567711A
Authority
CN
China
Prior art keywords
template
locating piece
image
making
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010106228013A
Other languages
English (en)
Inventor
龚健
周长岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder International Co Ltd
Founder International Beijing Co Ltd
Original Assignee
Founder International Co Ltd
Founder International Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Co Ltd, Founder International Beijing Co Ltd filed Critical Founder International Co Ltd
Priority to CN2010106228013A priority Critical patent/CN102567711A/zh
Publication of CN102567711A publication Critical patent/CN102567711A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及一种扫描识别模板制作和使用方法及***。包括制作识别模板,在所述模板中划出定位块,并设置定位块的属性;对扫描图像进行区域分析,查找出与图像区域重合率达到设定阀值的模板;将所述模板中的定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;对已识别的定位块内容信息进行归类。采用本发明方法及***,大大提升对规则复杂版面的识别效率,并且自动完成对识别信息校验与分类。

Description

一种扫描识别模板制作和使用方法及***
技术领域
本发明涉及扫描识别技术领域,具体涉及一种扫描识别模板制作和使用方法及***。
背景技术
随着社会的不断进步,数字化技术的迅猛发展,人们越来越青睐电子化的资料索取,所以越来越多对纸质资料需要进行数字化处理,进行扫描识别。
数字化生产过程中,OCR技术非常关键,OCR技术的优劣直接影响资料识别质量的好坏。而纸质资料中的各种图表、公式等极大增加计算机自动识别的难度。还有一些资料中的图片,识别起来会浪费大量时间,而且效果不好,同时大大降低识别的效率。识别之后的内容整理的工作量也是十分庞大的,非常容易造成内容混乱,还需要人工进行整理,增加了人工成本。
发明内容
本发明的目的在于针对目前OCR技术的缺陷,提供一种扫描识别模板制作和使用方法及***,以提高图文识别的效率和质量。
本发明提供一种扫描识别模板制作和使用方法,包括如下步骤:
(S0)制作识别模板,在所述模板中划出定位块,并设置定位块的属性;
(S1)对扫描图像进行区域分析,查找出与图像区域重合率达到设定阀值的模板;
(S2)将所述模板中的定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;
(S3)对已识别的定位块内容信息进行归类。
进一步,如上所述的一种扫描识别模板制作和使用方法,该方法还包括,对扫描图像进行归一化处理,所述归一化处理是指,将扫描中造成的图像变形进行矫正。
进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(S0)中,所述模板是指包含边界的封闭图形区域,所述模板中包含一个或多个定位块,其中,定位块指模板内部的封闭矩形框,用于对其匹配区域内的内容进行识别并进行标记。
更进一步,如上所述的一种扫描识别模板制作和使用方法,模板和定位块均有附加属性,包含:匹配度量属性,用于衡量模板与图像的重合率、定位块与图像区域的重合率,以及作为人工干预的指标。
更进一步,如上所述的一种扫描识别模板制作和使用方法,所述定位块的附加属性还包含:
1)识别内容类型:包括文字、图形、图像;
2)识别内容聚类标签:用于***根据该标签对识别内容进行分类处理;
3)内容校验规则:用于对识别内容进行检查的规则;
4)自动变形属性:用于定位块与图像区域重合对比时,对定位块在设定阀值范围内进行大小、位置的微调。
进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(S2)中,模板中定位块与与扫描图像中的区域进行匹配,即两个区域矩形重合率达到定位块的匹配度量属性设定的阈值即认为该区域与该定位块匹配。
更进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(S2)中,定位块允许嵌套,定位块对其区域内内容进行识别时,按照如下次序进行识别:被嵌套层数、匹配度、优先权重。
更进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(S2)中,定位块根据其匹配区域的图像内容,对定位块在设定阀值范围内进行大小、位置的微调。
更进一步,如上所述的一种扫描识别模板制作和使用方法,步骤(S2)中,定位块根据识别内容类型标记,对其区域内的图像进行不同类型的处理:如针对文字进行OCR识别、针对图像进行抠图,针对图形可能进行曲线拟合。
一种扫描识别模板制作和使用***,包括:
模板制作装置,用于制作模板以及划出模板中定位块,并设置定位块的属性;
模板管理装置,用于管理所有的模板,并查找出与图像区域重合率达到设定阀值的模板;
识别执行装置,用于将定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;
分类装置,用于对完成识别的内容信息进行分类。
本发明的有益效果如下:本发明对于基于模板出版的文件,有助于提升识别效率,并进行识别信息校验与分类。对于图像区域特征明显的,通过切分区域,并通过不同识别难度区域的分离和标记,不仅能够相互验证以提升识别的准确性,而且还同时进行识别内容的分类整理。采用本发明所述的方法和***,解决了抠取的图片的相对定位问题,大幅度降低了人工整理的工作量。
附图说明
图1是本发明实施例中一种扫描识别模板制作和使用***结构图;
图2是本发明实施例中一种扫描识别模板制作和使用方法流程图;
图3是实施例中一个原始扫描图像;
图4是实施例中的最适合图3的模板图样;
图5是实施例中定位块与图像区域进行匹配的示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式进行详细说明。
如图1所示,本发明提供了一种扫描识别模板制作***,包括:
模板制作装置11,用于制作模板以及模板中定位块,并设置定位块的属性;
模板管理装置12,用于管理所有的模板,并查找出与图像区域重合率达到设定阀值的模板;
识别执行装置13,用于将定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;
分类装置14,用于对完成识别的内容信息进行分类。
上述***所实现的一种扫描识别模板制作方法如图2所示,该方法包括如下步骤:
S0:制作识别模板,在所述模板中划出定位块,并设置定位块的属性。
本发明实施例中,所述模板是指包含边界的封闭图形区域,所述模板中包含一个或多个定位块,其中,定位块指模板内部的封闭矩形框,用于对其匹配区域内的内容进行识别并进行标记。
模板和定位块均有附加属性,包含:匹配度量属性,用于衡量模板与图像的重合率、定位块与图像区域的重合率,以及作为人工干预的指标。
所述定位块的附加属性还包含:
1)识别内容类型:如文字、图形、图像;
2)识别内容聚类标签:用于***根据该标签对识别内容进行分类处理。
3)内容校验规则,用于对识别内容进行检查的规则;
4)自动变形属性:用于定位块与图像区域重合对比时,对定位块在设定阀值范围内进行大小、位置的微调。
S1:对扫描图像进行区域分析,查找出与图像区域重合率达到设定阀值的模板。
本发明实施例中,对扫描图像进行连通域分析,根据连通域的特性进行图像的区域分割,将区域分割后的图像与模板管理装置中的模板进行匹配,计算区域重合率,由此找出对应的模板。这种连通域分析及匹配方法为本领域的公知技术。
本发明实施例中,还包括对扫描图像进行归一化处理,所述归一化处理是指,将扫描中造成的图像变形进行矫正,典型如页面弯曲,大小有轻微变化。归一化处理有助于提高模板与扫描图像匹配的效率和准确度。扫描页面的归一化处理所采用的都是一些公知的图像处理技术。
S2:将所述模板中的定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息。
本发明实施例中,模板中定位块与扫描图像中的区域进行匹配,即两个区域矩形重合率达到定位块的匹配度量属性设定的阀值即认为该区域与该定位块匹配。
更进一步,定位块允许嵌套,定位块对其区域内的内容进行识别时,按照如下次序进行识别:被嵌套层数、匹配度、优先权重。
更进一步,定位块根据其匹配区域的图像内容,对定位块在设定阀值范围内进行大小、位置的微调。
更进一步,定位块根据识别内容类型标记,对其区域内的图像进行不同类型的处理:如针对文字进行OCR识别、针对图像进行抠图,针对图形可能进行曲线拟合。
S3:对已识别的定位块内容信息进行归类。
如某些定位块对应的识别信息为图像,某些定位块对应的识别信息为文字,对这些不同类型的内容信息进行相应的归类。
下面为本发明具体的实施例描述,以详细说明扫描识别模板制作方法的具体技术细节。
图3是实施例中一个原始扫描图像,由图中可以看出,该原始扫描是一个菜谱的内容,包括一幅完成品的图样,整个菜谱的材料,制作方法及注意事项。
图4是实施例中的最适合图3的模板图样。在模板管理装置中,根据图3进行区域分析,查找出与图像区域重合率达到设定阀值的模板,本实施例中,如图4所示的版式模板。
由图中可以看出,该模板由2个部分组成,模板外框41、和定位块42。其中,模板外框41设定了整个扫描图像的大小,定位块42则标记出扫描图像中内容的分布情况。
本实施例中,定位块都包含有以下属性:
1)识别内容类型:如文字、图形、图像;
2)识别内容聚类标签:用于***根据该标签对识别内容进行分类处理。
3)内容校验规则,用于对识别内容进行检查的规则;
4)自动变形属性:用于定位块与图像区域重合对比时,对定位块在设定阀值范围内进行大小、位置的微调。
图5是实施例中定位块与图像区域进行匹配。在识别执行装置中,首先将模板中定位块与图像区域按照位置匹配,即两个区域矩形重合率达到设定阀值即认为该区域与该定位块匹配。这种位置匹配技术为本领域的公知技术,此处就不再过多的进行介绍,本实施例中,阀值设定为85%,即模板中定位块与图像区域的重合率达到85%以上,就认为该区域与该定位块匹配。本实施例中,如图5所示。
在区域与定位块进行初级匹配后,根据设置在定位块中的属性,对定位块在设定阀值范围内进行大小、位置的微调。例如对定位块c,当定位块c与图像中的注意事项匹配之后,定位块c自动缩小到文字范围,而忽略了文字的外框。
接下来,识别已匹配定位块的内容,将识别的内容记录在定位块内。同时将识别的内容进行分类,例如定位块a识别出的内容类型为图像,定位块b识别出的内容类型为文字。将已识别的定位块内容信息进行归类。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种扫描识别模板制作和使用方法,包括如下步骤:
(S0)制作识别模板,在所述模板中划出定位块,并设置定位块的属性;
(S1)对扫描图像进行区域分析,查找出与图像区域重合率达到设定阀值的模板;
(S2)将所述模板中的定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;
(S3)对已识别的定位块内容信息进行归类。
2.如权利要求1所述的一种扫描识别模板制作和使用方法,其特征在于,该方法还包括,对扫描图像进行归一化处理,所述归一化处理是指,将扫描中造成的图像变形进行矫正。
3.如权利要求1所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(S0)中,所述模板是指包含边界的封闭图形区域,所述模板中包含一个或多个定位块,其中,定位块指模板内部的封闭矩形框,用于对其匹配区域内的内容进行识别并进行标记。
4.如权利要求3所述的一种扫描识别模板制作和使用方法,其特征在于,所述的模板和定位块均有附加属性,包含:匹配度量属性,用于衡量模板与图像的重合率、定位块与图像区域的重合率,以及作为人工干预的指标。
5.如权利要求4所述的一种扫描识别模板制作和使用方法,其特征在于,所述定位块的附加属性还包含:
1)识别内容类型:包括文字、图形、图像;
2)识别内容聚类标签:用于***根据该标签对识别内容进行分类处理;
3)内容校验规则:用于对识别内容进行检查的规则;
4)自动变形属性:用于定位块与图像区域重合对比时,对定位块在设定阀值范围内进行大小、位置的微调。
6.如权利要求4所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(S2)中,模板中定位块与扫描图像中的区域进行匹配,如果两个区域矩形重合率达到定位块的匹配度量属性设定的阀值即认为该区域与该定位块匹配。
7.如权利要求6所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(S2)中,定位块允许嵌套,定位块对其区域内内容进行识别时,按照如下次序进行识别:被嵌套层数、匹配度、优先权重。
8.如权利要求6所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(S2)中,定位块根据其匹配区域的图像内容,对定位块在设定阀值范围内进行大小、位置的微调。
9.如权利要求6所述的一种扫描识别模板制作和使用方法,其特征在于,步骤(S2)中,定位块根据识别内容类型标记,对其区域内的图像进行不同类型的处理。
10.一种扫描识别模板制作和使用***,包括:
模板制作装置,用于制作模板以及划出模板中定位块,并设置定位块的属性;
模板管理装置,用于管理所有的模板,并查找出与图像区域重合率达到设定阀值的模板;
识别执行装置,用于将定位块与扫描图像中的区域进行匹配,提取并识别已匹配定位块的内容信息;
分类装置,用于对完成识别的内容信息进行分类。
CN2010106228013A 2010-12-29 2010-12-29 一种扫描识别模板制作和使用方法及*** Pending CN102567711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106228013A CN102567711A (zh) 2010-12-29 2010-12-29 一种扫描识别模板制作和使用方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106228013A CN102567711A (zh) 2010-12-29 2010-12-29 一种扫描识别模板制作和使用方法及***

Publications (1)

Publication Number Publication Date
CN102567711A true CN102567711A (zh) 2012-07-11

Family

ID=46413091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106228013A Pending CN102567711A (zh) 2010-12-29 2010-12-29 一种扫描识别模板制作和使用方法及***

Country Status (1)

Country Link
CN (1) CN102567711A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809157A (zh) * 2014-12-29 2016-07-27 北京鸿合智能***股份有限公司 答题卡建模方法和装置
CN107206587A (zh) * 2014-12-05 2017-09-26 Ars责任有限公司 用于对具体通过机器人、自动化装置等抓取的零件进行定向的设备
CN107517272A (zh) * 2017-09-14 2017-12-26 新疆圣力信息科技有限公司 一种自动采集固定格式数据的装置、***及方法
CN107590495A (zh) * 2017-09-18 2018-01-16 哈尔滨成长科技有限公司 答题卡图片纠偏方法、装置、可读存储介质以及电子设备
CN108665439A (zh) * 2017-08-22 2018-10-16 深圳安博电子有限公司 基板检测方法及终端设备
CN108875697A (zh) * 2018-07-05 2018-11-23 南昌市微轲联信息技术有限公司 车辆信息采集上传方法、装置、存储介质及计算机设备
CN109086738A (zh) * 2018-08-23 2018-12-25 深圳市深晓科技有限公司 一种基于模板匹配的字符识别方法及装置
CN110705610A (zh) * 2019-09-17 2020-01-17 孔佑强 一种基于检测书法临写能力的评估***和方法
CN111353611A (zh) * 2018-12-20 2020-06-30 核动力运行研究所 一种核电站在役检查大修检验报告自动生成***及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1619580A (zh) * 2004-09-03 2005-05-25 深圳市海云天科技有限公司 填涂信息卡的信息识别方法
US20090087103A1 (en) * 2007-09-28 2009-04-02 Hitachi High-Technologies Corporation Inspection Apparatus and Method
CN101464951A (zh) * 2007-12-21 2009-06-24 北大方正集团有限公司 图像识别方法及***
CN101882225A (zh) * 2009-12-29 2010-11-10 北京中科辅龙计算机技术股份有限公司 基于模板的工程图纸材料信息提取方法
CN101923643A (zh) * 2010-08-11 2010-12-22 中科院成都信息技术有限公司 通用表格识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1619580A (zh) * 2004-09-03 2005-05-25 深圳市海云天科技有限公司 填涂信息卡的信息识别方法
US20090087103A1 (en) * 2007-09-28 2009-04-02 Hitachi High-Technologies Corporation Inspection Apparatus and Method
CN101464951A (zh) * 2007-12-21 2009-06-24 北大方正集团有限公司 图像识别方法及***
CN101882225A (zh) * 2009-12-29 2010-11-10 北京中科辅龙计算机技术股份有限公司 基于模板的工程图纸材料信息提取方法
CN101923643A (zh) * 2010-08-11 2010-12-22 中科院成都信息技术有限公司 通用表格识别方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107206587A (zh) * 2014-12-05 2017-09-26 Ars责任有限公司 用于对具体通过机器人、自动化装置等抓取的零件进行定向的设备
CN105809157A (zh) * 2014-12-29 2016-07-27 北京鸿合智能***股份有限公司 答题卡建模方法和装置
CN108665439A (zh) * 2017-08-22 2018-10-16 深圳安博电子有限公司 基板检测方法及终端设备
CN107517272A (zh) * 2017-09-14 2017-12-26 新疆圣力信息科技有限公司 一种自动采集固定格式数据的装置、***及方法
CN107590495A (zh) * 2017-09-18 2018-01-16 哈尔滨成长科技有限公司 答题卡图片纠偏方法、装置、可读存储介质以及电子设备
CN108875697A (zh) * 2018-07-05 2018-11-23 南昌市微轲联信息技术有限公司 车辆信息采集上传方法、装置、存储介质及计算机设备
CN109086738A (zh) * 2018-08-23 2018-12-25 深圳市深晓科技有限公司 一种基于模板匹配的字符识别方法及装置
CN111353611A (zh) * 2018-12-20 2020-06-30 核动力运行研究所 一种核电站在役检查大修检验报告自动生成***及方法
CN111353611B (zh) * 2018-12-20 2023-05-26 核动力运行研究所 一种核电站在役检查大修检验报告自动生成***及方法
CN110705610A (zh) * 2019-09-17 2020-01-17 孔佑强 一种基于检测书法临写能力的评估***和方法

Similar Documents

Publication Publication Date Title
CN102567711A (zh) 一种扫描识别模板制作和使用方法及***
CN1168040C (zh) 邮件地址阅读器、分类机以及字符串识别方法
US8792715B2 (en) System and method for forms classification by line-art alignment
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
CN102081732B (zh) 一种版式识别模板方法及***
CN104778470B (zh) 基于组件树和霍夫森林的文字检测和识别方法
Rigaud et al. Robust frame and text extraction from comic books
CN101017533A (zh) 印刷体蒙古文字符识别方法
CN109325401A (zh) 基于边缘定位对题目区域进行标注、识别的方法及***
CN100562074C (zh) 一种视频字幕提取的方法
CN102332096A (zh) 一种视频字幕文本提取和识别的方法
CN1760860A (zh) 设备零件装配图图像检索装置
CN112419260A (zh) 一种pcb文字区域缺陷检测方法
CN113723362A (zh) 一种在图像中检测表格线的方法及装置
CN104680142A (zh) 一种基于特征点集分割和rst不变特征的四联指比对方法
Banerjee et al. Automatic hyperlinking of engineering drawing documents
Sumathi et al. Techniques and challenges of automatic text extraction in complex images: a survey
KR101937398B1 (ko) 고문서의 이미지 데이터에서의 문자 추출 시스템 및 이를 이용한 문자 추출 방법
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
Lue et al. A novel character segmentation method for text images captured by cameras
CN100356393C (zh) 一种基于字体预测的字符识别方法
Li et al. Script identification of camera-based images
CN111950556A (zh) 一种基于深度学习的号牌印刷质量检测方法
CN110688445B (zh) 一种数字化档案建设方法
CN107066997A (zh) 一种基于图像识别的电气元件报价方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20161130

C20 Patent right or utility model deemed to be abandoned or is abandoned