CN111046864A - 一种合同扫描件五要素自动提取方法及*** - Google Patents

一种合同扫描件五要素自动提取方法及*** Download PDF

Info

Publication number
CN111046864A
CN111046864A CN201911286082.XA CN201911286082A CN111046864A CN 111046864 A CN111046864 A CN 111046864A CN 201911286082 A CN201911286082 A CN 201911286082A CN 111046864 A CN111046864 A CN 111046864A
Authority
CN
China
Prior art keywords
contract
elements
module
scanning piece
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911286082.XA
Other languages
English (en)
Inventor
王洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yingjia Yunchuang Technology Shenzhen Co Ltd
Original Assignee
Yingjia Yunchuang Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yingjia Yunchuang Technology Shenzhen Co Ltd filed Critical Yingjia Yunchuang Technology Shenzhen Co Ltd
Priority to CN201911286082.XA priority Critical patent/CN111046864A/zh
Publication of CN111046864A publication Critical patent/CN111046864A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开一种合同扫描件五要素自动提取方法及***,所述方法包括以下步骤:步骤一,在线预览合同扫描件;步骤二,找到合同扫描件中五要素的位置并把五要素内容单独截取图片;步骤三,剪贴板获取到图片后推送进行OCR识别;步骤四,将OCR的识别结果写入剪贴板;步骤五,粘贴提取结果,审核提取正确性。本发明在提取过程中已经完成合同要素的审核,做到边提取边审核,针对提取的结果的准确性,心里更有谱、更放心;且仅截取关键部分做OCR识别,避免合同页数过多时,等待OCR识别不必要的内容;其通过监听电脑剪贴板,实现截取复制的是图片,粘贴出来的是文字,来辅助提取合同要素。

Description

一种合同扫描件五要素自动提取方法及***
技术领域
本发明涉及OCR技术领域,具体涉及一种合同扫描件五要素自动提取方法及***。
背景技术
OCR(Optical Character Recognition,即光学字符识别)是指针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
一个OCR识别***,是要把影像通过转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。
现有技术,在合同审核业务中,通过OCR技术,将合同扫描件的影像文件,变成文本文件,结合圈定合同内容中五要素的位置,即通过五要素的位置坐标的标签和关键字特征(比如,发包方、承包方、甲方、乙方等),来完成合同五要素的提取,进而完成关键要素的把关。
上述存在的问题点:
1、对于合同范本的内容和格式依赖性较强,不同类型的合同下,提取的结果误差较大;
2、需要提前圈定合同范本中五要素的位置,对于多业务多类型合同的场景下,需要提前做很多规则定义的工作;
3、提取的时候,需要选定提取模板,当业务类型、合同类型较多时,选取对应的模板这部分,将耗掉很多人工成本;
4、因为OCR识别结果与实际合同原文存在误差,故关键字的识别以及关键字后面的合同要素内容的识别均存在与实际不符的风险,提取后仍需要人工审核提取结果的正确性;
5、提取是针对文字内容而言的,但OCR处理的算法比较消耗性能,当合同页数多达几百页时,提取等待的时间非常长。
发明内容
本发明的目的在于克服现有技术的不足,提供一种合同扫描件五要素自动提取方法及***。
本发明的技术方案如下:
一种合同扫描件五要素自动提取方法,包括以下步骤:
步骤一,在线预览合同扫描件;
步骤二,找到合同扫描件中五要素的位置并把五要素内容单独截取图片;
步骤三,剪贴板获取到图片后推送进行OCR识别;
步骤四,将OCR的识别结果写入剪贴板;
步骤五,粘贴提取结果,审核提取正确性。
在步骤一中,所述合同扫描件为图片类文件。
在步骤二中,所述合同扫描件中五要素包括:
(1)双方当事人应具有实施法律行为的资格和能力;
(2)当事人应是在自愿的基础上达成的意思表示一致;
(3)合同的标准的和内容必须合法;
(4)合同双方当事人必须互为有偿;
(5)合同必须符合法律规定的形式。
在步骤中,所述OCR识别是将截取的图片中的文字内容识别出来。
一种合同扫描件五要素自动提取***,包括预览模块、截图模块、剪贴板监听模块及OCR模块;
所述预览模块,用于快速预览合同扫描件,找到合同扫描件中五要素的位置;
所述截图模块,与所述预览模块相连,利用截图的方式,将合同扫描件中五要素的内容单独截取出来;
所述剪贴板监听模块,与所述截图模块相连,将接收到的合同五要素的截图图片,传递给OCR模块;
所述OCR模块,与所述剪贴板监听模块相连,通过OCR识别将截取的图片中的文字内容识别出来,并把所识别出来的文字内容回传给剪贴板监听模块,最后通过粘贴提取结果,审核提取正确性。
其中,所述合同扫描件为图片类文件,所述预览模块支持在线打开图片类文件。
其中,所述合同扫描件中五要素包括:
(1)双方当事人应具有实施法律行为的资格和能力;
(2)当事人应是在自愿的基础上达成的意思表示一致;
(3)合同的标准的和内容必须合法;
(4)合同双方当事人必须互为有偿;
(5)合同必须符合法律规定的形式。
相对于现有技术,本发明的有益效果在于:
1、提取过程中已经完成合同要素的审核,做到边提取边审核,针对提取的结果的准确性,心里更有谱、更放心;
2、仅截取关键部分做OCR识别,避免合同页数过多时,等待OCR识别不必要的内容;
3、通过监听电脑剪贴板,实现截取复制的是图片,粘贴出来的是文字,来辅助提取合同要素。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种合同扫描件五要素自动提取方法的流程图;
图2为本发明实施例二提供的一种合同扫描件五要素自动提取***的原理框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,本实施例提供一种合同扫描件五要素自动提取方法,包括以下步骤:
步骤一,在线预览合同扫描件。该合同扫描件为图片类文件。
步骤二,找到合同扫描件中五要素的位置并把五要素内容单独截取图片。所述合同扫描件中五要素包括:
(1)双方当事人应具有实施法律行为的资格和能力;
(2)当事人应是在自愿的基础上达成的意思表示一致;
(3)合同的标准的和内容必须合法;
(4)合同双方当事人必须互为有偿;
(5)合同必须符合法律规定的形式。
步骤三,剪贴板获取到图片后推送进行OCR识别。所述OCR识别是将截取的图片中的文字内容识别出来。
步骤四,将OCR的识别结果(即截图图片中的文字内容)写入剪贴板。
步骤五,粘贴提取结果,审核提取正确性。粘贴得到的结果则为截图图片中的文字内容,此时审核提取结果的正确性将变得简单明了且不易出错。
通过上述方案,在提取过程中已经完成合同要素的审核,做到边提取边审核,针对提取的结果的准确性,心里更有谱、更放心;且仅截取关键部分做OCR识别,避免合同页数过多时,等待OCR识别不必要的内容;其通过监听电脑剪贴板,实现截取复制的是图片,粘贴出来的是文字,来辅助提取合同要素。
实施例二
请参阅图2,本实施例提供一种合同扫描件五要素自动提取***,包括预览模块1、截图模块2、剪贴板监听模块3及OCR模块4;所述预览模块1,用于快速预览合同扫描件,找到合同扫描件中五要素的位置;所述截图模块2,与所述预览模块1相连,利用截图的方式,将合同扫描件中五要素的内容单独截取出来;所述剪贴板监听模块3,与所述截图模块2相连,将接收到的合同五要素的截图图片,传递给OCR模块4;所述OCR模块4,与所述剪贴板监听模块3相连,通过OCR识别将截取的图片中的文字内容识别出来,并把所识别出来的文字内容回传给剪贴板监听模块3,最后通过粘贴提取结果,审核提取正确性,粘贴得到的结果则为截图图片中的文字内容,此时审核提取结果的正确性将变得简单明了且不易出错。
其中,所述合同扫描件为图片类文件,所述预览模块1支持在线打开图片类文件。
其中,所述合同扫描件中五要素包括:
(1)双方当事人应具有实施法律行为的资格和能力;
(2)当事人应是在自愿的基础上达成的意思表示一致;
(3)合同的标准的和内容必须合法;
(4)合同双方当事人必须互为有偿;
(5)合同必须符合法律规定的形式。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种合同扫描件五要素自动提取方法,其特征在于,包括以下步骤:
步骤一,在线预览合同扫描件;
步骤二,找到合同扫描件中五要素的位置并把五要素内容单独截取图片;
步骤三,剪贴板获取到图片后推送进行OCR识别;
步骤四,将OCR的识别结果写入剪贴板;
步骤五,粘贴提取结果,审核提取正确性。
2.根据权利要求1所述的一种合同扫描件五要素自动提取方法,其特征在于,在步骤一中,所述合同扫描件为图片类文件。
3.根据权利要求1所述的一种合同扫描件五要素自动提取方法,其特征在于,在步骤二中,所述合同扫描件中五要素包括:
(1)双方当事人应具有实施法律行为的资格和能力;
(2)当事人应是在自愿的基础上达成的意思表示一致;
(3)合同的标准的和内容必须合法;
(4)合同双方当事人必须互为有偿;
(5)合同必须符合法律规定的形式。
4.根据权利要求1所述的一种合同扫描件五要素自动提取方法,其特征在于,在步骤中,所述OCR识别是将截取的图片中的文字内容识别出来。
5.一种合同扫描件五要素自动提取***,其特征在于,包括预览模块、截图模块、剪贴板监听模块及OCR模块;
所述预览模块,用于快速预览合同扫描件,找到合同扫描件中五要素的位置;
所述截图模块,与所述预览模块相连,利用截图的方式,将合同扫描件中五要素的内容单独截取出来;
所述剪贴板监听模块,与所述截图模块相连,将接收到的合同五要素的截图图片,传递给OCR模块;
所述OCR模块,与所述剪贴板监听模块相连,通过OCR识别将截取的图片中的文字内容识别出来,并把所识别出来的文字内容回传给剪贴板监听模块,最后通过粘贴提取结果,审核提取正确性。
6.根据权利要求5所述的一种合同扫描件五要素自动提取***,其特征在于,所述合同扫描件为图片类文件,所述预览模块支持在线打开图片类文件。
7.根据权利要求5所述的一种合同扫描件五要素自动提取***,其特征在于,所述合同扫描件中五要素包括:
(1)双方当事人应具有实施法律行为的资格和能力;
(2)当事人应是在自愿的基础上达成的意思表示一致;
(3)合同的标准的和内容必须合法;
(4)合同双方当事人必须互为有偿;
(5)合同必须符合法律规定的形式。
CN201911286082.XA 2019-12-13 2019-12-13 一种合同扫描件五要素自动提取方法及*** Pending CN111046864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911286082.XA CN111046864A (zh) 2019-12-13 2019-12-13 一种合同扫描件五要素自动提取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911286082.XA CN111046864A (zh) 2019-12-13 2019-12-13 一种合同扫描件五要素自动提取方法及***

Publications (1)

Publication Number Publication Date
CN111046864A true CN111046864A (zh) 2020-04-21

Family

ID=70236336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911286082.XA Pending CN111046864A (zh) 2019-12-13 2019-12-13 一种合同扫描件五要素自动提取方法及***

Country Status (1)

Country Link
CN (1) CN111046864A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232593A1 (zh) * 2020-05-22 2021-11-25 平安国际智慧城市科技股份有限公司 基于产品协议字符识别的恶意条款识别方法、装置、设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110222692A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 一种合同校验方法及相关设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110222692A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 一种合同校验方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232593A1 (zh) * 2020-05-22 2021-11-25 平安国际智慧城市科技股份有限公司 基于产品协议字符识别的恶意条款识别方法、装置、设备

Similar Documents

Publication Publication Date Title
US8520889B2 (en) Automated generation of form definitions from hard-copy forms
US20050289182A1 (en) Document management system with enhanced intelligent document recognition capabilities
US9384389B1 (en) Detecting errors in recognized text
CN112052749A (zh) 档案的归档方法、装置、电子设备及计算机可读存储介质
AU2015203150A1 (en) System and method for data extraction and searching
CN109598228B (zh) 将纸质文件电子化著录归档的方法和***
CN108304815B (zh) 一种数据获取方法、装置、服务器及存储介质
CN105718554A (zh) 文档的协同转换方法及***
US8953228B1 (en) Automatic assignment of note attributes using partial image recognition results
Kaur Text recognition applications for mobile devices
CN113850060A (zh) 民航文档数据识别录入方法及***
CN115116068A (zh) 一种基于ocr的档案智能归档***
KR100673198B1 (ko) 이미지 입력 시스템
CN111046864A (zh) 一种合同扫描件五要素自动提取方法及***
WO2024012209A1 (zh) 一种基于图像识别的业务处理方法及装置、存储介质
CN116343210B (zh) 档案数字化的管理方法及装置
CN110059184B (zh) 一种作业错题收集分析方法及***
CN116758550A (zh) 表单图像的文本识别方法及其装置、电子设备、存储介质
CN112348024A (zh) 一种基于深度学习优化网络的图文识别方法及***
CN112149673A (zh) 一种基于光学识别技术的多功能测试机架
CN112100630A (zh) 一种针对保密文件的识别方法
Panchal et al. Design and implementation of android application to extract text from images by using tesseract for English and Hindi
CN115640952B (zh) 一种数据导入上传的方法及***
CN115471855A (zh) 基于5g和光学字符识别的合同校验***及方法
CN117010842A (zh) 一种变电站两票归档方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination