CN105590111B - 用于识别电子文件中的专用区域的方法 - Google Patents

用于识别电子文件中的专用区域的方法 Download PDF

Info

Publication number
CN105590111B
CN105590111B CN201510592150.0A CN201510592150A CN105590111B CN 105590111 B CN105590111 B CN 105590111B CN 201510592150 A CN201510592150 A CN 201510592150A CN 105590111 B CN105590111 B CN 105590111B
Authority
CN
China
Prior art keywords
reserved area
keyword
electronic document
candidate
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510592150.0A
Other languages
English (en)
Other versions
CN105590111A (zh
Inventor
冯亮
尹亚伟
费志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201510592150.0A priority Critical patent/CN105590111B/zh
Publication of CN105590111A publication Critical patent/CN105590111A/zh
Application granted granted Critical
Publication of CN105590111B publication Critical patent/CN105590111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)

Abstract

本发明提出了用于识别电子文件中的专用区域的方法,所述方法包括:接收上传的目标电子文件;根据预设的关键字列表搜索所述目标电子文件中的关键字,并确定搜索出的关键字的大小和位置;基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域。本发明所公开的用于识别电子文件中的专用区域的方法具有高的处理效率和准确性。

Description

用于识别电子文件中的专用区域的方法
技术领域
本发明涉及用于识别专用区域的方法,更具体地,涉及用于识别电子文件中的专用区域的方法。
背景技术
目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,识别电子文件(例如金融领域中的电子合同文本)中的专用区域(例如,需要填写的区域,诸如签名区域)变得越来越重要。
在现有的技术方案中,用户需要在提交电子文件后手动地逐一标识出各个专用区域(例如,需要填写的区域,诸如签名区域),以供后续处理。
上述现有技术存在如下问题:由于需要手动地逐一标识出各个专用区域,故效率较低,并且易于出错。
因此,存在如下需求:提供具有高的处理效率和准确性的用于识别电子文件中的专用区域的方法。
发明内容
为了解决上述现有技术方案所存在的问题,本发明提出了具有高的处理效率和准确性的用于识别电子文件中的专用区域的方法。
本发明的目的是通过以下技术方案实现的:
一种用于识别电子文件中的专用区域的方法,所述用于识别电子文件中的专用区域的方法包括下列步骤:
(A1)接收上传的目标电子文件;
(A2)根据预设的关键字列表搜索所述目标电子文件中的关键字,并确定搜索出的关键字的大小和位置;
(A3)基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:确定所述目标电子文件的格式,并且使用与所述目标电子文件的格式相匹配的分析工具搜索所述目标电子文件中的关键字。
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:在搜索到关键字后,以所述电子文件的当前页的最左下角为坐标系的原点记录该关键字的最后一个字c的右上角坐标(xkl,ykt)和右下角坐标(xkl,ykb),由此所述字c的高度h为ykt-ykb
在上面所公开的方案中,优选地,所述步骤(A2)进一步包括:针对每个搜索出的关键字,以如下方式通过逐步扫描所述关键字后的区域的内容动态地识别所述电子文件的排版格式来确定和划分与所述关键字相关联的专用区域:
(1)从所述字c位置开始逐步向右移动扫描,每步移动的距离为h/t_step,其中t_step是移动宽度因子,在每步移动扫描完成之后判断当前位置至上一次停止移动扫描的位置之间的范围内是否存在字符和标点符号;
(2)如果在所述范围内存在竖线,则计算该竖线的高度,如果该竖线的高度小于h,则确定其为噪音,否则,确定其为表格竖线,并且记录该竖线的横坐标位置xvl,随后再次逐步向右移动扫描,并且如果再次移动扫描得到的竖线的高度大于等于h,则再次记录该竖线的横坐标的位置xvr,并且将候选专用区域划定为四个顶点(2*xvl- xkl, ykt)、(2*xvl- xkl,ykb)、(xvr-xvl+ xkl, ykt)和(xvr-xvl+ xkl, ykb)所构成的矩形区域;
(3)如果在所述范围内存在字符,并且之前没有扫描到竖线,则记录该字符的左上角的横坐标位置xkr,并将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xkr-w,ykt)和(xkr-w, ykb)构成的矩形区域,其中w为字符间隔宽度因子;
(4)如果移动扫描持续至页面右边边缘,并且之前没有扫描到字符,则将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xr-w, ykt)和(xr-w, ykb)构成的矩形区域,其中xr是文档右边边缘的横坐标位置,w是字符间隔宽度因子;
(5)计算所述候选专用区域的矩形的长度和宽度,并计算长宽比,如果计算出的长宽比低于预定的阀值th_p,则判断此候选专用区域是不适合的专用区域,并放弃该区域,而如果该候选专用区域的长宽比低于所述预定的阀值th_p,则进一步扫描以四个顶点(0, ykb+vs)、(0, 2*ykb+vs-ykt)、(xr-w, ykb+vs)和(xr-w, 2*ykb+vs-ykt)构成的矩形区域,如果该区域不存在字符,则划定该区域为候选专用区域,其中vs是所述电子文件的行间距。
在上面所公开的方案中,优选地,所述方法进一步包括:(A4)将所确定的候选专用区域通过显示器呈现至用户,以致使得用户能够对所述候选专用区域进行确认、和/或修改、和/或添加、和/或删除操作,并提交和保存最终结果。
本发明所公开的用于识别电子文件中的专用区域的方法具有下列优点:由于能够自动地识别与特定关键字相关联的候选专用区域,故显著地提高了电子文件的处理效率和准确性。
附图说明
结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的用于识别电子文件中的专用区域的方法的流程图。
具体实施方式
图1是根据本发明的实施例的用于识别电子文件中的专用区域的方法的流程图。如图1所示,本发明所公开的用于识别电子文件中的专用区域的方法包括下列步骤:(A1)接收上传的目标电子文件;(A2)根据预设的关键字列表(例如,签名栏的区域关键字包括:“签名:”、“用户名:”等等,日期栏的区域关键字包括“日期:”、“年月日:”等等)搜索所述目标电子文件中的关键字,并确定搜索出的关键字的大小和位置;(A3)基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域。
优选地,在本发明所公开的用于识别电子文件中的专用区域的方法中,所述步骤(A2)进一步包括:确定所述目标电子文件的格式,并且使用与所述目标电子文件的格式相匹配的分析工具搜索所述目标电子文件中的关键字(例如,针对Word和PDF文档时,采用相关文档格式的开发包,针对其他图片格式时,采用OCR工具)。
优选地,在本发明所公开的用于识别电子文件中的专用区域的方法中,所述步骤(A2)进一步包括:在搜索到关键字后,以所述电子文件的当前页的最左下角为坐标系的原点记录该关键字的最后一个字c的右上角坐标(xkl,ykt)和右下角坐标(xkl,ykb),由此所述字c的高度h为ykt-ykb
优选地,在本发明所公开的用于识别电子文件中的专用区域的方法中,所述步骤(A2)进一步包括:针对每个搜索出的关键字,以如下方式通过逐步扫描所述关键字后的区域的内容动态地识别所述电子文件的排版格式(例如,待确定的专用区域位于表格、下划线以及换行处等等)来确定和划分与所述关键字相关联的专用区域:(1)从所述字c位置开始逐步向右移动扫描,每步移动的距离为h/t_step,其中t_step是移动宽度因子(其值从0到无穷大,并且数值越大,移动的宽度越小,并且越是能够准确定位字符的位置,同时计算量也越大,反之亦然),在每步移动扫描完成之后判断当前位置至上一次停止移动扫描的位置之间的范围内是否存在字符和标点符号;(2)如果在所述范围内存在竖线,则计算该竖线的高度,如果该竖线的高度小于h,则确定其为噪音,否则,确定其为表格竖线,并且记录该竖线的横坐标位置xvl,随后再次逐步向右移动扫描,并且如果再次移动扫描得到的竖线的高度大于等于h,则再次记录该竖线的横坐标的位置xvr,并且将候选专用区域划定为四个顶点(2*xvl- xkl, ykt)、(2*xvl- xkl, ykb)、(xvr-xvl+ xkl, ykt)和(xvr-xvl+ xkl, ykb)所构成的矩形区域;(3)如果在所述范围内存在字符,并且之前没有扫描到竖线,则记录该字符的左上角的横坐标位置xkr,并将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xkr-w,ykt)和(xkr-w, ykb)构成的矩形区域,其中w为字符间隔宽度因子(其值从0到(xkr- xkl)/2,数值越大,则表示间隔越大,专用区域越小,反之亦然,示例性地,***在默认情况下会根据之前扫描获得的文本中连续字符的间隔距离设置w等于字符间隔距离除以2);(4)如果移动扫描持续至页面右边边缘,并且之前没有扫描到字符,则将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xr-w, ykt)和(xr-w, ykb)构成的矩形区域,其中xr是文档右边边缘的横坐标位置,w是字符间隔宽度因子;(5)计算所述候选专用区域的矩形的长度和宽度,并计算长宽比,如果计算出的长宽比低于预定的阀值th_p(其由操作者根据实际需求预先设定),则判断此候选专用区域是不适合的专用区域(例如不适合用户填写),并放弃该区域,而如果该候选专用区域的长宽比低于所述预定的阀值th_p,则进一步扫描以四个顶点(0, ykb+vs)、(0, 2*ykb+vs-ykt)、(xr-w, ykb+vs)和(xr-w, 2*ykb+vs-ykt)构成的矩形区域,如果该区域不存在字符,则划定该区域为候选专用区域,其中vs是所述电子文件的行间距。
优选地,本发明所公开的用于识别电子文件中的专用区域的方法进一步包括:(A4)将所确定的候选专用区域通过显示器呈现至用户,以致使得用户能够对所述候选专用区域进行确认、和/或修改、和/或添加、和/或删除操作,并提交和保存最终结果。
由上可见,本发明所公开的用于识别电子文件中的专用区域的方法具有下列优点:由于能够自动地识别与特定关键字相关联的候选专用区域,故显著地提高了电子文件的处理效率和准确性。
尽管本发明是通过上述的优选实施方式进行描述的,但是其实现形式并不局限于上述的实施方式。应该认识到:在不脱离本发明主旨和范围的情况下,本领域技术人员可以对本发明做出不同的变化和修改。

Claims (5)

1.一种用于识别电子文件中的专用区域的方法,所述用于识别电子文件中的专用区域的方法包括下列步骤:
(A1)接收上传的目标电子文件;
(A2)根据预设的关键字列表搜索所述目标电子文件中的关键字,并确定搜索出的关键字的大小和位置;
(A3)基于所确定的每个关键字的大小和位置限定与其相关联的候选专用区域;以及
(A4)将所确定的候选专用区域通过显示器呈现至用户,使得用户能够对所述候选专用区域进行确认、和/或修改、和/或添加、和/或删除操作。
2.根据权利要求1所述的用于识别电子文件中的专用区域的方法,其特征在于,所述步骤(A2)进一步包括:确定所述目标电子文件的格式,并且使用与所述目标电子文件的格式相匹配的分析工具搜索所述目标电子文件中的关键字。
3.根据权利要求2所述的用于识别电子文件中的专用区域的方法,其特征在于,所述步骤(A2)进一步包括:在搜索到关键字后,以所述电子文件的当前页的最左下角为坐标系的原点记录该关键字的最后一个字c的右上角坐标(xkl,ykt)和右下角坐标(xkl,ykb),由此所述字c的高度h为ykt-ykb
4.根据权利要求3所述的用于识别电子文件中的专用区域的方法,其特征在于,所述步骤(A2)进一步包括:针对每个搜索出的关键字,以如下方式通过逐步扫描所述关键字后的区域的内容动态地识别所述电子文件的排版格式来确定和划分与所述关键字相关联的专用区域:
(1)从所述字c位置开始逐步向右移动扫描,每步移动的距离为h/t_step,其中t_step是移动宽度因子,在每步移动扫描完成之后判断当前位置至上一次停止移动扫描的位置之间的范围内是否存在字符和标点符号;
(2)如果在所述范围内存在竖线,则计算该竖线的高度,如果该竖线的高度小于h,则确定其为噪音,否则,确定其为表格竖线,并且记录该竖线的横坐标位置xvl,随后再次逐步向右移动扫描,并且如果再次移动扫描得到的竖线的高度大于等于h,则再次记录该竖线的横坐标的位置xvr,并且将候选专用区域划定为四个顶点(2*xvl- xkl, ykt)、(2*xvl- xkl, ykb)、(xvr-xvl+ xkl, ykt)和(xvr-xvl+ xkl, ykb)所构成的矩形区域;
(3)如果在所述范围内存在字符,并且之前没有扫描到竖线,则记录该字符的左上角的横坐标位置xkr,并将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xkr-w, ykt)和(xkr-w, ykb)构成的矩形区域,其中w为字符间隔宽度因子;
(4)如果移动扫描持续至页面右边边缘,并且之前没有扫描到字符,则将候选专用区域划定为四个顶点(xkl+w, ykt)、(xkl+w, ykb)、(xr-w, ykt)和(xr-w, ykb)构成的矩形区域,其中xr是文档右边边缘的横坐标位置,w是字符间隔宽度因子;
(5)计算所述候选专用区域的矩形的长度和宽度,并计算长宽比,如果计算出的长宽比低于预定的阀值th_p,则判断此候选专用区域是不适合的专用区域,并放弃该区域,而如果该候选专用区域的长宽比低于所述预定的阀值th_p,则进一步扫描以四个顶点(0, ykb+vs)、(0, 2*ykb+vs-ykt)、(xr-w, ykb+vs)和(xr-w, 2*ykb+vs-ykt)构成的矩形区域,如果该区域不存在字符,则划定该区域为候选专用区域,其中vs是所述电子文件的行间距。
5.根据权利要求4所述的用于识别电子文件中的专用区域的方法,其特征在于,所述步骤(A4)进一步包括:提交和保存最终结果。
CN201510592150.0A 2015-09-17 2015-09-17 用于识别电子文件中的专用区域的方法 Active CN105590111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510592150.0A CN105590111B (zh) 2015-09-17 2015-09-17 用于识别电子文件中的专用区域的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510592150.0A CN105590111B (zh) 2015-09-17 2015-09-17 用于识别电子文件中的专用区域的方法

Publications (2)

Publication Number Publication Date
CN105590111A CN105590111A (zh) 2016-05-18
CN105590111B true CN105590111B (zh) 2019-05-10

Family

ID=55929681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510592150.0A Active CN105590111B (zh) 2015-09-17 2015-09-17 用于识别电子文件中的专用区域的方法

Country Status (1)

Country Link
CN (1) CN105590111B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154546A (zh) * 2017-12-14 2018-06-12 北京酷我科技有限公司 一种移动设备上快速签名的方法
CN115879165A (zh) * 2022-05-24 2023-03-31 北京中关村科金技术有限公司 一种电子签名方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016281A (ja) * 2001-07-02 2003-01-17 Hitachi Ltd 帳票認識方法
CN101627620A (zh) * 2007-05-31 2010-01-13 株式会社Pfu 电子文件加密***、解密***、程序以及方法
CN101814140A (zh) * 2010-04-22 2010-08-25 上海邮政科学研究院 一种信封图像地址定位方法
CN102855264A (zh) * 2011-07-01 2013-01-02 富士通株式会社 文档处理方法及其装置
CN102968638A (zh) * 2011-08-31 2013-03-13 上海夏尔软件有限公司 基于关键字光学字符识别的影像清晰度判断的方法
CN103839062A (zh) * 2014-03-11 2014-06-04 东方网力科技股份有限公司 一种图像文字定位方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016281A (ja) * 2001-07-02 2003-01-17 Hitachi Ltd 帳票認識方法
CN101627620A (zh) * 2007-05-31 2010-01-13 株式会社Pfu 电子文件加密***、解密***、程序以及方法
CN101814140A (zh) * 2010-04-22 2010-08-25 上海邮政科学研究院 一种信封图像地址定位方法
CN102855264A (zh) * 2011-07-01 2013-01-02 富士通株式会社 文档处理方法及其装置
CN102968638A (zh) * 2011-08-31 2013-03-13 上海夏尔软件有限公司 基于关键字光学字符识别的影像清晰度判断的方法
CN103839062A (zh) * 2014-03-11 2014-06-04 东方网力科技股份有限公司 一种图像文字定位方法及装置

Also Published As

Publication number Publication date
CN105590111A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
US9501853B2 (en) Providing in-line previews of a source image for aid in correcting OCR errors
US9384389B1 (en) Detecting errors in recognized text
WO2022057707A1 (zh) 文本识别方法、图像识别分类方法、文档识别处理方法
US8838657B1 (en) Document fingerprints using block encoding of text
US11509794B2 (en) Machine-learning command interaction
CN105930159A (zh) 一种基于图像的界面代码生成的方法及***
CN103020619B (zh) 一种自动切分电子化笔记本中手写条目的方法
WO2018233055A1 (zh) 保单信息录入的方法、装置、计算机设备及存储介质
CN101430714B (zh) 一种基于样式的内容结构化加工方法及***
US20130174024A1 (en) Method and device for converting document format
JP2009022009A (ja) 書類セキュリティ又は注釈のためのインビジブルジャンクション特徴の認識
CN102169541A (zh) 一种采用光学定位的字符识别输入***及其方法
CN102147795A (zh) 兴趣点检索方法、兴趣点检索装置和导航***
JP2008192032A (ja) 文書処理装置、文書処理方法、プログラム
WO2022001256A1 (zh) 图像标注方法、装置、电子设备及存储介质
CN102194117B (zh) 文稿页面方向检测方法和装置
JP2010055142A (ja) 文書処理装置およびプログラム
US20170286529A1 (en) Extracting Structured Data from Handwritten and Audio Notes
CN105590111B (zh) 用于识别电子文件中的专用区域的方法
CN100552670C (zh) 一种自动识别数字文档版心的方法
CN104915664A (zh) 联系对象标识获取方法和装置
CN110610170B (zh) 一种基于图像精确校正的文档比对方法
WO2022206534A1 (zh) 文本内容识别方法、装置、计算机设备和存储介质
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN116092108A (zh) 一种实体文档扫描生成pdf文件的方法、***及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant