CN116050379A - 文档对比方法及存储介质 - Google Patents

文档对比方法及存储介质 Download PDF

Info

Publication number
CN116050379A
CN116050379A CN202310120939.0A CN202310120939A CN116050379A CN 116050379 A CN116050379 A CN 116050379A CN 202310120939 A CN202310120939 A CN 202310120939A CN 116050379 A CN116050379 A CN 116050379A
Authority
CN
China
Prior art keywords
document
picture
format
predetermined
matching method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310120939.0A
Other languages
English (en)
Inventor
陈乾
郭立帆
陈风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202310120939.0A priority Critical patent/CN116050379A/zh
Publication of CN116050379A publication Critical patent/CN116050379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

本申请提供了一种文档对比方法及存储介质。该文档对比方法包括:将第一格式的第一文档转换为预定格式的第三文档,并且将第二格式的第二文档转换为图片格式的第四文档;用训练好的预定模型对图片格式的第三文档和预定格式的第四文档进行第一处理;将第一处理之后的第三文档与第一处理之后的第四文档进行对比,并获得对比结果。

Description

文档对比方法及存储介质
技术领域
本申请涉及计算机视觉以及深度学习技术领域,尤其涉及一种基于去噪模型的文档对比方法及存储介质。
背景技术
在智能文档对比场景中,扫描版的文档经常会出现水印、***等噪声。例如,在对两份合同进行对比时,合同可能存在***和水印,这些***和水印会对合同内容的对比产生影响,并进而影响到对比的结果。现有技术中去除噪声的方法往往会耗费大量人力、物力和财力,并且现有技术中所采用的文档比较技术难以适应用户的需求,用户也难以对文档比较技术进行个性化的定制。而且现有的文档比较技术没有自学习功能。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
第一方面,本申请实施例提供一种文档对比方法,应用于电子设备,所述电子设备预先获得第一格式的第一文档和第二格式的第二文档,所述文档对比方法包括:将所述第一文档转换为图片格式的第三文档,并且将所述第二文档转换为所述图片格式的第四文档;用训练好的预定模型对所述图片格式的第三文档和所述图片格式的第四文档进行第一处理;以及将所述第一处理之后的第三文档与所述第一处理之后的第四文档进行对比,并获得对比结果。
第二方面,本申请实施例提供一种文档对比装置,预先获得第一格式的第一文档和第二格式的第二文档,所述文档对比装置包括:处理单元,配置来:将所述第一文档转换为图片格式的第三文档,并且将所述第二文档转换为所述图片格式的第四文档;用训练好的预定模型对所述图片格式的第三文档和所述图片格式的第四文档进行第一处理;以及将所述第一处理之后的第三文档与所述第一处理之后的第四文档进行对比,并获得对比结果。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
与现有技术相比,本申请具有如下优点:本申请的文档对比方法能够通过人工智能模型自动地识别所对于比的文档内容,并能够通过诸如去除合同中的水印、***、页眉页脚、附件等内容来获得更好的去噪效果,有效解决人工审核风险大、人力和时间成本高等问题。同时,由于本申请的文档对比方法采用了人工智能模型,可以帮助用户根据自身特有的文档对比需求,定制特定的、用于文档对比的人工智能模型。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1是示例性示出本申请一实施例的文档对比方法的流程图;
图2是示例性示出本申请另一实施例的文档对比方法的流程图;
图3是示例性示出本申请的文档对比方法的具体应用示例的流程图;
图4是示例性示出用于实现本申请实施例的方法的一个文档对比应用场景的示意图;
图5是示例性示出本申请一实施例的文档对比方法的自学习平台的实现方法;
图6是示例性示出本申请一实施例的文档对比方法的去噪模型的实现方法;
图7是示例性示出的用于实现本申请实施例文档对比方法的一个文档对比应用场景的示意图;以及
图8示例性示出本申请一实施例的文档对比装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的构思或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的,而非限制性的。
为便于理解本申请实施例的技术方案,以下对本申请实施例的相关技术进行说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合,其均属于本申请实施例的保护范围。
图1是示例性示出本申请的文档对比方法100的流程图。图2是示例性示出本申请的文档对比方法200的流程图。图3是示出本申请的文档对比方法100的具体应用示例的流程图。下面将首先结合图1和图3对本申请的文档对比方法100进行详细说明,然后再结合图2和图3对本申请的文档对比方法200进行详细说明。
本申请的文档对比方法100可以应用于电子设备。所述电子设备可以是例如智能手机、平板电脑、笔记本电脑、台式机、服务器等。所述电子设备可以预先获得待对比的文档。在一些实施例中,待对比的文档是成对出现的文档。在另一些实施例中,待对比的文档是三个文档或多于三个文档。在本申请中,为了说明的方便,将以两个文档作为待对比的文档的实例。本领域技术人员可以根据两个待对比文档的实例来理解本申请的原理,并且将该原理扩展到三个对比文档甚至更多个对比文档的场景中。在本申请中,所述电子设备预先获得两个待对比的文档,即第一文档和第二文档。
具体而言,第一文档和第二文档分别是文档对比方法100的对比对象之一。第一文档具有第一格式,换言之,第一格式是第一文档的格式。相应地,第二文档具有第二格式,换言之,第二格式是第二文档的格式。下面将参照图1和图3对第一文档、第二文档、第一格式、第二格式等进行更详细的说明。
在图3所示的实施例中,第一文档可以是合同文档。在其它实施例中,第一文档也可以是简历文档、论文文档、图片文档。相应地,第二文档也可以是合同文档(参见图3)、简历文档、论文文档或图片文档。第一文档和第二文档可以是相同形式的文档,例如,在一些实施例中,第一文档和第二文档都是合同文档,或者第一文档和第二文档都是论文文档,或者第一文档和第二文档都是简历文档。在一些实施例中,第一文档与第二文档可以是不同形式的文档,例如,第一文档是合同文档,而第二文档是论文文档;或者第一文档是论文文档,而第二文档是简历文档。上文对第一文档和第二文档的描述仅是示例性的,本领域技术人员可以根据实际需要对第一文档和第二文档进行选择,只要能够实现本申请的原理即可,例如,第一文档和第二文档还可以是报价文档、广告文档等。
第一格式是第一文档的文档格式。在一些实施例中,第一格式可以是WORD格式、PDF格式、XML格式、TXT格式、PPT格式或EXCEL格式等。如果第一文档是图片文档,则第一格式还可以是JPEG格式、PNG格式、GIF格式、TIF格式、TGA格式、BMP格式、DDS格式、SVG格式、EPS格式等。应注意的是,第一格式与预定格式(例如图片格式,下文详细描述)不同,例如,在一个实施例中,第一格式是PDF格式,预定格式是JPEG格式;在另一个实施例中,第一格式是PNG格式,预定格式是JPEG格式。
第二格式是第二文档的文档格式。相应地,第二格式也可以是WORD格式、PDF格式、XML格式、TXT格式、PPT格式或EXCEL格式。如果第二文档是图片文档,则第二格式还可以是JPEG格式、PNG格式、GIF格式、TIF格式、TGA格式、BMP格式、DDS格式、SVG格式、EPS格式等。应注意的是,第二格式与预定格式(下文详细描述)不同,例如,在一个实施例中,第二格式是PDF格式,预定格式是JPEG格式;在另一个实施例中,第一个格式是PNG格式,预定格式是JPEG格式。
在一些实施例中,第一格式可以与第二格式相同,例如,第一格式和第二格式都是WORD格式,或者第一格式和第二格式都是PDF格式。在一些实施例中,第一格式和第二格式可以是不同格式,例如,第一格式是WORD格式,而第二格式是PDF格式;或者第一格式是PDF格式,而第二格式是PPT格式。应注意的是,在本申请的实施例中,“格式”与“文档”可以是彼此相关联的,例如,如果第一文档是合同文档,则第一格式可以是WORD格式或PDF格式;如果第一文档是报价文档,则第一格式可以是EXCEL格式或PDF格式等。上文对第一格式和第二格式的描述仅是示例性的,本领域技术人员可以根据实际需要对第一格式和第二格式进行选择,只要能够实现本申请的原理即可。
在一些实施例中,第一文档和第二文档可以预先存储在电子设备本地的存储单元中,在该情形中,获取两个待对比文档的操作可以由电子设备从该存储单元中进行调取或读取。
在另一些实施例中,第一文档和第二文档可以从其它设备发送而来,在该情形中,获取两个待对比文档的操作可以是从其它设备接收对应文档。
在另一些实施例中,第一文档和第二文档可以是电子设备在预定时间内采集到的文档。例如,电子设备具有文档扫描装置,该文档扫描装置可以对不同的文档分别进行扫描,从而获得第一文档和第二文档。所属文档扫描装置例如可以是扫描仪、摄像头等。
应注意的是,第一文档和第二文档的来源可以相同,也可以不同。例如,第一文档可以预先存储在电子设备本地的存储单元中,而第二文档可以是该电子设备从其它设备接收到的文档。再例如,第一文档可以预先存储在电子设备本地的存储单元中,而第二文档可以是该电子设备当前由其自身的扫描仪进行扫描所获得的文档。
这里将对本申请的文档对比方法100进行详细说明。如图1所示,本申请的文档对比方法100可以包括步骤S101至S103。在步骤S101,将所述第一格式的第一文档转换为预定格式的第三文档,并且将所述第二格式的第二文档转换为所述预定格式的第四文档;在步骤S102,用训练好的预定模型对所述预定格式的第三文档和所述预定格式的第四文档进行第一处理;以及,在步骤S103,将所述第一处理之后的第三文档与所述第一处理之后的第四文档进行对比,并获得对比结果。下面将结合具体实施例对步骤S101至步骤S103进行详细说明。
在步骤S101,将所述第一格式的第一文档转换为预定格式的第三文档,并且将所述第二格式的第二文档转换为所述预定格式的第四文档。步骤S101的实质作用在于,将第一文档的格式和第二文档的格式均转化为预定格式,从而实现两个文档的格式统一,以方便方法100的后续步骤。
在图3所示的实施例中,预定格式是图片格式。所述图片格式例如可以是JPEG格式、PNG格式、GIF格式、TIF格式、TGA格式、BMP格式、DDS格式、SVG格式、EPS格式等。应理解的是,上文所列举的图片格式并非穷尽式列举,本领域技术人员可以根据需要来对图片格式进行选择,只要能够实现本申请的原理即可。
在一些实施例中,预定格式可以是PDF格式、WORD格式、TXT格式等。虽然上文示例性示出了所述预定格式的几种类型,但这些示例并非穷尽式列举,本领域技术人员可以根据实际情况对预定格式进行选择,只要能够实现本申请的原理即可。
应注意的是,在文档对比方法100中,第一格式与预定格式不同,并且第二格式也与预定格式不同。例如,第一格式和第二格式均是PDF格式,预定格式是JPEG格式;第一格式是PDF格式,第二格式是WORD格式,预定格式是PNG格式;第一格式是PNG格式,第二格式是TXT格式,预定格式是JPEG格式。
第三文档是对第一文档进行格式转换之后形成的具有所述预定格式的文档。例如,在一个实施例中,所述预定格式是JPEG格式,第一文档是PDF格式的合同文档,那么经过步骤S101,所述第一文档被转换成JPEG格式的图片文档(即第三文档)。应注意的是,在该实施例中,作为第一文档的合同文档以及作为第三文档的图片文档,两者承载的实质内容是相同的,换言之,这两个文档都记载了合同内容,只是这两个文档的格式存在差异(即,合同文档是PDF格式,图片文档是JPEG格式)。这里将步骤S101的转换操作前后的两个文档分别命名为第一文档和第三文档、第二文档和第四文档,是出于描述步骤S101的需要,对这些文档的命名(例如,第一、第二、第三和第四)并不意味着这些文档彼此存在排序或优先级。
第四文档是对第二文档进行格式转换之后形成的具有所述预定格式的文档。例如,在一个实施例中,所述预定格式是PNG格式,第二文档是WORD格式的合同文档,那么经过步骤S101,所述第二文档被转换成PNG格式的图片文档(即第四文档)。应注意的是,在该实施例中,作为第二文档的合同文档以及作为第四文档的图片文档,两者承载的实质内容是相同的,换言之,这两个文档都记载了合同内容,只是这两个文档的格式存在差异(即,合同文档是WORD格式,图片文档是PNG格式)。这里将步骤S101的转换操作前后的两个文档分别命名为第一文档和第三文档、第二文档和第四文档,是出于描述步骤S101的需要,对这些文档的命名(例如,第一、第二、第三和第四)并不意味着这些文档彼此存在排序或优先级。
虽然上文对第三文档和第四文档进行了示例性说明,但是本领域技术人员应理解的是,可以根据实际应用场景,对第三文档和第四文档进行选择性设置,只要能够实现本申请的原理即可。
在下文中,如果没有特别说明,则将以PDF格式(即第一格式和第二格式)的合同文档作为第一文档和第二文档的实例进行说明,并且以JPEG格式(即预定格式)的图片文档作为第三文档和第四文档的实例进行说明。
应注意的是,在步骤S101中,对第一文档的转换处理以及对第二文档的转换处理,两者可以同时进行,也可以按顺序依次进行。例如,可以先将第一文档转换成第三文档,然后再将第二文档转换成第四文档。
接下来,进入步骤S102。在步骤S102,用训练好的预定模型对所述预定格式的第三文档和所述预定格式的第四文档进行第一处理。在一些实施例中,步骤S102中的第一处理的对象是两个图片文档(即第三文档和第四文档)。第一处理的意义在于,将这些图片文档上的某些影响文档比对的内容(例如***、水印等)进行去除,并且对这些图片文档上的待对比的内容(例如文字、表格等)进行识别。下文将结合具体实施例对步骤102的技术特征进行详细描述。
接下来,进入步骤S103,将所述第一处理之后的第三文档与所述第一处理之后的第四文档进行对比,并获得对比结果。对比是对两个文档中的表格内文本和表格外文本分别进行对比,对比结果可以通过“增加”、“删除”和“替换”这三个维度进行呈现。上文结合图3对步骤S103的对比结果的呈现方式仅仅是示例性的,本领域技术人员可以根据实际需要对步骤S103的对比结果的呈现方式进行选择,只要能够实现步骤S103的原理即可。图4示出了根据本发明实施例方法100对文档进行对比后的对比效果图。
具体而言,所述第一处理包括:对所述预定格式的第三文档和所述预定格式的第四文档分别进行预处理操作;以及对所述预定格式的第三文档和所述预定格式的第四文档分别进行识别操作。
所述预处理操作与所述识别操作存在先后顺序,即先执行所述预处理操作,然后再执行所述识别操作。应该注意的是,虽然经过了所述预处理操作之后,所述第三文档和所述第四文档均发生了变化,但出于说明的需要,在第一处理描述中,不再对所述预处理操作之后的文档进行重新命名,而仍然将它们分别称为第三文档和第四文档。
在一些实施例中,所述第一处理中的预处理操作包括:判断所述第三文档和所述第四文档中是否包含预定标记,如果所述第三文档和所述第四文档中包含所述预定标记,则去除预定标记。
所述预定标记可以是前文所述文档中包含的水印、***等各种可能影响后续识别过程的噪声。
在一些实施例中,可以通过对所述第三文档(例如图片文档)进行扫描来判断该文档中是否包含预定标记。首先收集足够多的含有所述水印、***等各种可能影响后续识别过程的图片,然后得到一个大规模的水印图像数据集,并将该数据集用于训练相关模型,如果扫描到的文档中的内容包含和预定标记相同或相似的内容,说明文档中包含预定标记。相应地,可以对作为第四文档的图片文档进行扫描来判断该文档是否包含预定标记。
去除预定标记可以是将所述预定标记从图片文档中删除,从而到达“抠图”的效果。如图7所示,图7是本发明实施例中文档中的一个预定标记,也就是***,在用本发明中的方法处理之前,图7的***是文档内容的一部分,经过本发明所述的方法处理之后,***能够完全从文档中去除,实现“抠图”的效果。
在一些实施例中,所述第一处理中的识别操作包括如下操作中的一个或两个:对所述第三文档和所述第四文档分别进行光学字符识别处理;以及对所述第三文档和所述第四文档分别进行表格识别处理。
光学字符识别处理的作用在于识别出所述第三文档和所述第四文档中的文字。光学字符识别(Optical Character Recognition,OCR)是指电子设备对预定格式图片中的文字进行识别的一种技术,主要识别预定格式图片中的文字,光学字符识别通过文档中内容的灰度确定所识别到的内容的具体形状,然后用字符识别方法将形状翻译为计算机编码文字,以此来确定识别到的是文字。
具体而言,所述光学字符识别处理可以包括:文本检测和文本识别,其中,所述文本检测是检测图片中的文字区域;以及所述文本识别是识别文本区域中的文字。
在一个实施例中,文本识别可以采用基于端到端神经网络的(Sequence toSequence,seq2seq)的识别方法,例如可以采用不规则文字识别方法(Show,Attend andRead,SAR)来对文档进行文字识别。
在一个实施例中,文本检测可以采用基于可微二值化的实时场景方法,也就是可微二值化(Differentiable Binarization,DB)算法。该方法基于分割的场景文本检测,即把分割方法产生的概率图转化为边界框和文字区域,其中会包含二值化的处理过程。
应当注意的是,在一些实施例中,先进行文本检测,检测出图片中的文字区域,再进行文本识别,识别区域中的文字。
在一些实施例中,所述表格识别处理包括表格检测和表格线检测,其中,所述表格检测是检测所述第三文档和所述第四文档中的表格及所述表格的位置;以及所述表格线检测是检测所述表格中的横线和竖线,进而获得所述表格中的每个单元格。表格识别处理的作用在于识别出所述第三文档和所述第四文档中的表格。
示例性地,根据本发明实施例的文档对比方法和文档对比装置,表格识别通过光学字符识别技术,检查所述第三文档和第四文档的内容,通过文档中内容的灰度确定所识到的内容的具体形状,如果检测到符合表格的形状,则通过字符识别方法将形状识别为表格。
具体而言,所述表格识别处理包括表格检测和表格线检测,其中,所述表格检测是检测所述第三文档和所述第四文档中的表格及所述表格的位置,可以采用基于深度学习的目标检测算法,例如Cascade-Mask-RCNN方法;以及所述表格线检测是检测所述表格中的横线和竖线,进而获得所述表格中的每个单元格,可以采用图像分割方法,例如U-Net方法。
所述表格可以位于所述第三文档和所述第四文档中的一个矩形区域,所述表格可以是行数和列数相等的表格也可以是行数和列数不相等的表格。表格线检测是指对所述第三文档和第四文档中的表格中的横线或者竖线的检测,可以采用图像分割方法实现,例如U-Net方法。所述横线是指所述表格中构成每个单元格中每行的线,所述竖线是指所述表格中构成每个单元格中每列的线。与表格检测类似,表格线检测是检查所述第三文档和第四文档的内容,通过文档中的内容的灰度确定其形状,如果检测到符合表格线中横线的形状,则将形状识别为横线;如果检测到符合表格线中竖线的形状,则将形状识别为竖线。
上文对文档对比方法100的步骤S101-S103进行了示例性说明。应注意的是,在步骤S102的第一处理中的所述预处理操作可以使用人工智能模型。下面结合图5和图6对该人工智能模型及其在步骤S103中的应用进行说明。图5是示例性示出本申请一实施例的文档对比方法的自学习平台的实现方法。图6是示例性示出本申请一实施例的文档对比方法的去噪模型的实现方法。
在所述预处理操作之前,获得预定对数的成对训练图片,并且使用所述预定数量的成对训练图片来训练预定模型,所述预处理操作包括:将所述预定格式的第三文档和所述预定格式的第四文档输入到所述预定模型中,以执行所述预处理操作。
所述预定模型是通过预定对数的成对训练图片训练而获得,其中,所述成对训练图片包括第一图片以及通过对所述第一图片进行第三处理所生成的第二图片。
在一些实施例中,所述第一图片可以是模板图片,所述第二图片可以是对所述模板图片进行第三处理所生成的图片。在另一些实施例中,所述第一图片可以是不带有预定标记(例如水印、***、签名等)的图片,而所述第二图片是对所述第一图片进行第三处理所生成的图片。所述第一图片和所述第二图片两者构成了成对训练图片。在对所述预定模型进行训练时,可以通过由第一图片和第二图片组成的成对训练图片来对该预定模型进行训练。这里应注意的是,在不同的成对训练图片中,第一图片是可能是不同的,由此生成的第二图片也可能不同。例如,第一图片A和第二图片A’组成一对训练图片;第一图片B与第二图片B’组成另一对训练图片,其中第一图片A与第一图片B两者可能不同,相应地,第二图片A’与第二图片B’两者也可能不同。
下面将结合具体实施例对生成第二图片的所述第三处理进行详细说明。在对所述预定模型进行训练之前,可以预先获得所述第一图片和待加工图片,其中,所述待加工图片带有预定标记,所述第一图片不带有所述预定标记,其中,所述第三处理包括:在所述第一图片上选取所述预定标记放置的位置;将所述待加工图片中的所述预定标记融合到所述第一图片上所选取的位置上,从而获得带有所述预定标记的所述第二图片。
所述预定标记例如可以是水印、***、签名等。所述待加工图片可以是已经采集到的文档图片,也可以是预先获得的文档图片,这类文档图片可以是从诸如上文所述的第一文档/第二文档此类的文档(例如合同文档)进行格式转换后而获得的图片格式的文档。以合同文档为例,该合同文档中存在***和水印,那么在将该合同文档转换成图片时,生成的合同文档图片(即待加工图片)中同样含有***和水印。
所述第三处理可以是以预定标记为基础来对第一图片和待加工图片进行的融合处理。以不带有任何水印/***的原始合同模板图片作为第一图片的实例,以经过甲方盖章并加上水印的合同文档图片作为待加工图片的实例,所述第三处理可以是在所述第一图片(即原始合同模板图片)上选取位置,该位置是用来放置用以训练预定模型的预定标记(例如***、水印等);然后将待加工图片中的对应的预定标记(例如***、水印等)融合到所述第一图片所选取的位置上。
在一些实施例中,预定模型可以采用的是pix2pix模型,在预定模型训练完毕之后,再可以输入第三文档和第四文档来进行去噪。所述去噪可以指减少待对比文档在对比过程中来自诸如***、水印、附件、签名等内容的干扰,从而使所对比的文档更加适合于对比操作,并且使文档对比的结果更加准确。
在一些实施例中,带有预定标记的图片和不带有所述预定标记的图片可以预先存储在本地的存储单元中,在该情形中,第一图片和待加工图片可以由电子设备从该存储单元中进行调取。在另一些实施例中,第一图片和待加工图片可以从其它装置发送而来,在该情形中。在又一些实施例中,第一图片和待加工图片可以是本地装置在预定时间内采集到的图片。
在一些实施例中,所述待加工图片可以通过对原始图片采用预定变化获得,其中,所述预定变换包括如下操作中的至少一种:旋转、缩小、放大、裁剪、模糊。例如,所述原始图片可以是预先获得一个合同文档图片,然后对该合同文档图片进行所述预定变化,可以获得一个或多个待加工图片。例如,对所述原始图片进行旋转操作,从而获得一个待加工图片;对所述原始图片进行缩小操作,从而获得另一个待加工图片;对所述原始图片进行方达操作,从而获得又一个待加工图片。虽然上文示例性示出了从原始图片获得待加工图片的过程,但本申请的原理并不限于此,本领域技术人员可以根据本申请上文记载的原理来对待加工图片的生成过程进行选择性设置,例如,对原始图片进行旋转时,根据旋转的角度、方向等的不同,也可以获得多个不同的待加工图片。
以上所述,仅为本申请的示例性实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请记载的技术范围内,可以想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
图2为示例性示出本申请的文档对比方法200的流程图。图3是示出本申请的文档对比方法200的具体应用示例的流程图。下面将结合图2和图3对本申请的文档对比方法200进行详细说明。
如图2所示,本申请的文档对比方法200可以包括步骤S201至S205,文档对比方法200中的步骤S201、S202以及S204分别与上文所述的文档对比方法100中的步骤S101、S102以及S103相对应。可以参照图1以及上文所述的文档对比方法100来理解文档对比方法200的对应步骤,这里将省略对这些步骤的详细描述。文档对比方法200与文档对比方法100的区别在于,前者还包括步骤S203。下面将结合具体实施例对步骤S203进行详细说明。
在步骤S203,对第三文档和第四文档进行第二处理,所述第二处理采用预定规则对所述第三文档和所述第四文档的内容进行过滤。
在一些实施例中,所述第二处理是去除所述第三文档和所述第四文档中的预定位置的内容。所述预定位置是所述第三文档中的预先定义的位置。所述预定位置可以定义一个精确的位置,以便于后续对文档进行过滤操作时,能够很快地找到确定的位置,加快执行速度。同理,该预定位置也适用于第四文档。
具体而言,在一个实施例中,所述预定位置是一个矩形,所述矩形的长边是对应文档的预定边,所述矩形的短边是从所述预定边向对边延伸出的距离。以本发明的一个实施例图4为例,预定边可以是该矩形图片的长边,与该长边相连的则为短边。
预定位置可以是文档中的页眉或者页脚位置,以及文档的附件。参照图4,在一个实施例中,文档中的页眉位置可以是图4中所示的文档的顶部的矩形,在该实施例中,所述矩形的长边是该文档的顶边,所述矩形的短边是从所述顶边向该文档的底边延伸出的距离(或长度)。在另一实施例中,文档中的页脚位置可以是图4中所示的文档的底部的矩形,在该实施例中,所述矩形的长边是该文档的底边,所述矩形的短边是从所述底边向该文档的顶边延伸出的距离(或长度)。在一些实施例中,预定位置还可以是文档的附件位置。例如,所述预定位置可以位于文档正文之后。
预定规则是指采用规则的方法,对第三文档和第四文档进行过滤处理,过滤是对图片进行去噪处理。
本步骤可以根据具体业务场景而决定是否执行。上文结合图3对步骤S203的描述仅仅是示例性的,本领域技术人员可以根据实际需要对步骤S203的应用场景进行选择,只要能够实现步骤S203的原理即可。
本申请所记载的文档对比方法可以应用在各种不同的场景中。例如,所述文档对比方法可以应用于金融应用场景中。以金融应用场景中的金融票据文档对比为例,所述文档对比方法可以将两个金融票据文档进行对比,从而能够通过人工智能模型自动地识别所对于比的文档内容,并能够通过诸如去除金融票据文档中的水印、***、页眉页脚、附件等内容来获得更好的去噪效果,有效解决人工审核风险大、人力和时间成本高等问题。同时,由于所述文档对比方法采用了人工智能模型,可以帮助用户根据金融票据文档的对比需求,定制特定的、用于金融票据文档对比的人工智能模型。
下面将结合图8对本申请的文档对比装置800进行说明。图8是示出本申请的文档对比装置800的示意性框图。
文档对比装置800可以包括:文档获取单元801,用以获取第一格式的第一文档以及第二格式的第二文档。
文档对比装置800还可以包括:处理单元802,用以将所述第一格式的第一文档转换为预定格式的第三文档,并且将所述第二格式的第二文档转换为所述预定格式的第四文档;对所述预定格式的第三文档和所述预定格式的第四文档进行第一处理;以及将所述第一处理之后的第三文档与所述第一处理之后的第四文档进行对比,并获得对比结果。
文档获取单元801例如可以诸如是图像采集装置(例如摄像头)、图像扫描装置(例如扫描仪)、天线等这样的能够获取文档的装置。处理单元802能够对数据、文档等进行处理。所述处理单元802例如是中央处理器、图形处理器、专用处理器等。
所述文档对比装置中所包含的所述处理单元802,在对所述第三文档和所述第四文档进行对比之前,对所述第三文档和所述第四文档进行第二处理,所述第二处理采用预定规则对所述第三文档和所述第四文档的内容进行过滤。
所述文档对比装置中的所述第一处理包括:对所述预定格式的第三文档和所述预定格式的第四文档分别进行预处理操作;以及对所述预定格式的第三文档和所述预定格式的第四文档分别进行识别操作。
本申请的文档对比装置800中的各个单元执行的操作分别与上文所述的文档对比方法100的对应步骤相似或相同,这里出于描述简洁的需要,不再对这些操作的内容进行重复说明,相关的内容可以参照上文的具体实施例。
本申请的一种计算机存储介质,存储有计算机程序,所述计算机程序被计算机执行时能够实现本发明所述方法的步骤。
以上所述,仅为本申请的示例性实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请记载的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种文档对比方法,应用于电子设备,所述电子设备预先获得第一格式的第一文档和第二格式的第二文档,所述文档对比方法包括:
将所述第一文档转换为图片格式的第三文档,并且将所述第二文档转换为所述图片格式的第四文档;
用训练好的预定模型对所述图片格式的第三文档和所述图片格式的第四文档进行第一处理;以及
将所述第一处理之后的第三文档与所述第一处理之后的第四文档进行对比,并获得对比结果。
2.根据权利要求1所述的文档对比方法,在对所述第三文档和所述第四文档进行对比之前,所述文档对比方法还包括:
对所述第三文档和所述第四文档进行第二处理,所述第二处理采用预定规则对所述第三文档和所述第四文档的内容进行过滤。
3.根据权利要求2所述文档对比方法,其中,所述第二处理是去除所述第三文档和所述第四文档中的预定位置的内容。
4.根据权利要求1所述文档对比方法,其中,所述第一处理包括:
对所述图片格式的第三文档和所述图片格式的第四文档分别进行预处理操作;以及
对所述图片格式的第三文档和所述图片格式的第四文档分别进行识别操作。
5.根据权利要求4所述文档对比方法,其中,所述预处理操作包括:
判断所述第三文档和所述第四文档中是否包含预定标记,
如果所述第三文档和所述第四文档中是否包含所述预定标记,则去除预定标记。
6.根据权利要求5所述文档对比方法,其中,所述预定模型是通过预定对数的成对训练图片训练而获得,其中,所述成对训练图片包括第一图片以及通过对所述第一图片进行第三处理所生成的第二图片。
7.根据权利要求4所述文档对比方法,其中,所述识别操作包括如下操作中的一个或两个:
对所述第三文档和所述第四文档分别进行光学字符识别处理;以及
对所述第三文档和所述第四文档分别进行表格识别处理。
8.根据权利要求7所述文档对比方法,其中,所述光学字符识别处理包括:文本检测和文本识别,其中,
所述文本检测是检测图片中的文字区域;以及
所述文本识别是识别文本区域中的文字。
9.根据权利要求7所述文档对比方法,其中,所述表格识别处理包括表格检测和表格线检测,其中,
所述表格检测是检测所述第三文档和所述第四文档中的表格及所述表格的位置;以及
所述表格线检测是检测所述表格中的横线和竖线,进而获得所述表格中的每个单元格。
10.根据权利要求6所述文档对比方法,其中,在对所述预定模型进行训练之前,预先获得所述第一图片和待加工图片,其中,所述待加工图片带有预定标记,所述第一图片不带有所述预定标记,其中,所述第三处理包括:
在所述第一图片上选取所述预定标记放置的位置;
将所述待加工图片中的所述预定标记融合到所述第一图片上所选取的位置上,从而获得带有所述预定标记的所述第二图片。
11.根据权利要求10所述文档对比方法,其中,所述待加工图片通过对原始图片采用预定变化获得,其中,所述预定变换包括如下操作中的至少一种:旋转、缩小、放大、裁剪、模糊。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时实现权利要求1-11中任一项所述方法的步骤。
CN202310120939.0A 2023-01-18 2023-01-18 文档对比方法及存储介质 Pending CN116050379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310120939.0A CN116050379A (zh) 2023-01-18 2023-01-18 文档对比方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310120939.0A CN116050379A (zh) 2023-01-18 2023-01-18 文档对比方法及存储介质

Publications (1)

Publication Number Publication Date
CN116050379A true CN116050379A (zh) 2023-05-02

Family

ID=86118130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310120939.0A Pending CN116050379A (zh) 2023-01-18 2023-01-18 文档对比方法及存储介质

Country Status (1)

Country Link
CN (1) CN116050379A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290296A (zh) * 2023-11-27 2023-12-26 北京网智易通科技有限公司 电子档案格式转换检测方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290296A (zh) * 2023-11-27 2023-12-26 北京网智易通科技有限公司 电子档案格式转换检测方法、装置及设备
CN117290296B (zh) * 2023-11-27 2024-02-09 北京网智易通科技有限公司 电子档案格式转换检测方法、装置及设备

Similar Documents

Publication Publication Date Title
CN110569832B (zh) 基于深度学习注意力机制的文本实时定位识别方法
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别***及方法
US11663817B2 (en) Automated signature extraction and verification
US8750619B2 (en) Character recognition
CN104143094B (zh) 一种无需答题卡的试卷自动阅卷处理方法及***
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
US20110052062A1 (en) System and method for identifying pictures in documents
CN110097059B (zh) 基于生成对抗网络的文档图像二值化方法、***、装置
CN111488881A (zh) 文本图像中手写内容去除方法、装置、存储介质
CN107016363A (zh) 票据图像管理装置、票据图像管理***以及方法
CN110807454B (zh) 基于图像分割的文字定位方法、装置、设备及存储介质
CN110738238A (zh) 一种证件信息的分类定位方法及装置
CN113221897B (zh) 图像矫正方法、图像文本识别方法、身份验证方法及装置
CN111915635A (zh) 支持自阅卷的试题解析信息生成方法及***
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
Akinbade et al. An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images
CN110210467B (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
CN116050379A (zh) 文档对比方法及存储介质
US10095677B1 (en) Detection of layouts in electronic documents
CN106611148B (zh) 基于图像的离线公式识别方法和装置
Hidayatullah et al. License plate detection and recognition for Indonesian cars
CN113627442A (zh) 医疗信息的录入方法、装置、设备及存储介质
CN114565749A (zh) 一种电力建设现场签证文档关键内容识别方法及***
Kurhekar et al. Automated text and tabular data extraction from scanned document images
WO2016069005A1 (en) Text line detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination