CN113407665A - 文本比对方法、装置、介质及电子设备 - Google Patents

文本比对方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN113407665A
CN113407665A CN202110571704.4A CN202110571704A CN113407665A CN 113407665 A CN113407665 A CN 113407665A CN 202110571704 A CN202110571704 A CN 202110571704A CN 113407665 A CN113407665 A CN 113407665A
Authority
CN
China
Prior art keywords
comparison
text
file
text file
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110571704.4A
Other languages
English (en)
Inventor
庄妮
陈露露
黄灿
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202110571704.4A priority Critical patent/CN113407665A/zh
Publication of CN113407665A publication Critical patent/CN113407665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开涉及一种文本比对方法、装置、介质及电子设备,包括:获取原始文本文件和比对文本文件;根据原始文本文件和比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串;将第一字符串和第二字符串进行比对,确定比对结果;将比对结果显示在原始文本文件和/或比对文本文件中。这样,在对原始文本文件和该比对文本文件进行比对时无需考虑两个字符串中的字符之外的任何文件信息,简化了不同文本文件之间进行比对的方法,具有较快的文本比对速度,提高了文本比对的效率,而且比对结果还能够在原始文本文件和/或比对文本文件中进行显示,从而使得比对结果能够更加直观地展示出来。

Description

文本比对方法、装置、介质及电子设备
技术领域
本公开涉及文本处理技术领域,具体地,涉及一种文本比对方法、装置、介质及电子设备。
背景技术
现有技术中进行文本比对一般需要对待比较的数据具有相同的数据格式,例如都为PDF格式、或者都为文本文档等,在需要进行比较的文本内容所在的文件格式不统一时,往往无法对文本内容进行获取以及处理。并且现有技术中对格式相同的文件进行文本对比时,通常都耗时较长,在需要快速比对的场景下不能满足比对速度要求。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种文本比对方法,所述方法包括:
获取原始文本文件和比对文本文件;
根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串;
将所述第一字符串和所述第二字符串进行比对,确定比对结果;
将所述比对结果显示在所述原始文本文件和/或所述比对文本文件中。
第二方面,本公开提供一种文本比对装置,所述装置包括:
第一获取模块,用于获取原始文本文件和比对文本文件;
第二获取模块,用于根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串;
比对模块,用于将所述第一字符串和所述第二字符串进行比对,确定比对结果;
处理模块,用于将所述比对结果显示在所述原始文本文件和/或所述比对文本文件中。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现上述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现以上所述方法的步骤。
通过上述技术方案,在对原始文本文件和该比对文本文件进行比对时,能够将该原始文本文件中识别到的原始文本和该比对文本文件中识别到的比对文本分别构成该第一字符串和第二字符串,从而在对原始文本文件和该比对文本文件进行比对时无需考虑两个字符串中的字符之外的任何文件信息,大大简化了不同文本文件之间进行比对的方法,具有较快的文本比对速度,提高了文本比对的效率,而且根据原始文本文件对应的第一字符串和比对文本文件对应的第二字符串比对得到的比对结果还能够显示在该原始文本文件和/或该比对文本文件中,从而使得该比对结果能够更加直观地展示出来。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据本公开一示例性实施例示出的一种文本比对方法的流程图。
图2是根据本公开又一示例性实施例示出的一种文本比对方法的流程图。
图3是根据本公开又一示例性实施例示出的一种文本比对方法的流程图。
图4a是根据本公开又一示例性实施例示出的一种文本比对方法中原始文本文件中显示比对结果的示意图。
图4b是根据本公开又一示例性实施例示出的一种文本比对方法中比对文本文件中显示比对结果的示意图。
图5是根据本公开又一示例性实施例示出的一种文本比对方法的流程图。
图6是根据本公开一示例性实施例示出的一种文本比对装置的结构框图。
图7是根据本公开又一示例性实施例示出的一种文本比对装置的结构框图。
图8示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1是根据本公开一示例性实施例示出的一种文本比对方法的流程图。如图1所示,所述方法包括步骤101至步骤104。
在步骤101中,获取原始文本文件和比对文本文件。原始文本文件和比对文本文件可以是任意格式的文件,例如PDF文件,图片文件,甚至视频文件等。
在步骤102中,根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串。该原始文本和该比对文本为在该原始文本文件和该比对文本文件中识别得到的字符信息,将该原始文本和该比对文本对应的识别得到的字符信息分别确定为一整个连续的字符串,即得到该原始文本构成的该第一字符串和该比对文本构成的该第二字符串。
无论该原始文本文件和该比对文本文件为单页或多页的文件,从该原始文本文件和该比对文本文件中的识别得到的该原始文本和该比对文本都会分别作为一个整体的字符串。
在步骤103中,将所述第一字符串和所述第二字符串进行比对,确定比对结果。
在将原始文本文件和该比对文本文件中识别到的该原始文本和该比对文本分别确定为该第一字符串和该第二字符串之后,对该原始文本文件和该比对文本文件之间的比对则可以直接根据该第一字符串和该第二字符串来进行。从而,通过字符串之间的比对结果即可确定得到与该原始文本文件与比对文件之间的比对信息。
在步骤104中,将所述比对结果显示在所述原始文本文件和/或所述比对文本文件中。
该比对结果在该原始文本文件和/或比对文本文件中进行显示的方法可以为多种。例如,可以将该比对结果同时显示在原始文本文件和比对文本文件中,也可以仅显示在原始文本文件中或仅显示在比对文本文件中;该比对结果可以以列表形式进行显示,也可以根据该比对结果相关联的文本位置来分别对每一个比对结果进行显示等。在根据与比对结果相关联的文本位置来显示比对结果时,可以在根据该原始文本文件和该比对文本文件中识别到的原始文本和比对文本确定该第一字符串和该第二字符串时,按照例如页码顺序以及每页中的文本排列顺序来确定该第一字符串和该第二字符串中该原始文本和该比对文本的构成方式,从而,就能够根据该比对结果在该第一字符串和该第二字符串中分别对应的位置来确定该比对结果在该原始文本文件和该比对文本文件中的位置,进而将该比对结果显示在相应的文件中。
通过上述技术方案,在对原始文本文件和该比对文本文件进行比对时,能够将该原始文本文件中识别到的原始文本和该比对文本文件中识别到的比对文本分别构成该第一字符串和第二字符串,从而在对原始文本文件和该比对文本文件进行比对时无需考虑两个字符串中的字符之外的任何文件信息,大大简化了不同文本文件之间进行比对的方法,提高了文本比对的效率,而且根据原始文本文件对应的第一字符串和比对文本文件对应的第二字符串比对得到的比对结果还能够显示在该原始文本文件和/或该比对文本文件中,从而使得该比对结果能够更加直观地展示出来。
在一种可能的实施方式中,所述比对结果为一个或多个标签数据,所述标签数据中包括标签类型和标签位置;其中,标签位置包括所述标签数据在所述第一字符串中对应的第一文本的起止字符位置,以及所述标签数据在所述第二字符串中对应的第二文本的起止字符位置,所述第一文本的起止字符位置和所述第二文本的起止字符位置分别为所述标签位置在所述第一字符串和所述第二字符串中的起止字符偏移值;标签类型包括以下四种类型中的一种或多种:相同、替换、删除和***,该标签类型还可以包括其他类型,在本公开中不限制该标签类型的种类。另外,该标签数据中还可以包括标签ID,该标签ID可以从0开始按序分配,用于表征该标签数据的数量。
具体的,该比对结果中的标签数据可以如表1所示。表1中示出了四种不同类型的标签数据,其中,tag_id表征标签数据的标签ID;tag表征标签数据的标签类型,包括equal(相同)、replace(替换)、delete(删除)、insert(***)四种;标签位置中的数组A表征原始文本文件中的原始文本构成的该第一字符串,标签位置中的数组B表征比对文本文件中的比对文本构成的该第二字符串,每个字符在字符串中的编号通过数组下标来表示,例如A[0]表示数组A中的第一个字符;也即,标签数据在所述第一字符串中对应的第一文本的起止字符位置,以及所述标签数据在所述第二字符串中对应的第二文本的起止字符位置可以通过数组的形式来表示;该起止字符偏移值可以为相对于字符串中的首个字符的偏移值,也即可以通过该数组下标来表示。
表1
Figure BDA0003082949520000071
另外,由于该原始文本文件和该比对文本文件的格式可以为任意格式的文件,因此在获取该第一字符串和该第二字符串之前,可以先对该原始文本文件和该对比文本文件进行一定的转化处理,然后再提取其中的文本内容以得到该第一字符串和该第二字符串。图2中给出了一种示例性的获取该第一字符串和该第二字符串的方法。
图2是根据本公开又一示例性实施例示出的一种文本比对方法的流程图。如图2所示,所述方法还包括步骤201至步骤203。
在步骤201中,将所述原始文本文件和所述比对文本文件转换为一张或多张图像格式文件。本公开中对该图像格式文件的具体图像格式不做限定。
在步骤202中,对所述图像格式文件进行文字识别,得到各张图像格式文件对应的文本信息。文字识别的方法可以为常规的OCR识别,也可以为任意其他的文字识别方法。
在步骤203中,按照所述图像格式文件在所述原始文本文件或比对文本文件中对应的页码顺序,将所述图像格式文件对应的所述文本信息进行拼接,以得到所述原始文本文件和所述比对文本文件分别对应的所述第一字符串和所述第二字符串。
在原始文本文件和/或比对文本文件中所包括的文件页码有多张的情况下,识别得到的文本信息也分别对应的相应的页码信息,此时可以按照原页码的顺序将多个页码分别对应的文本信息依次拼接起来,从而得到与原始文本文件和比对文本文件分别对应的该第一字符串和第二字符串。若该原始文本文件和/或该比对文件中的文件页码为单页的情况下,则仅按照识别得到的文本信息在该原始文本文件或比对文本文件中的排列顺序确定该第一字符串和/或该第二字符串即可。
图3是根据本公开又一示例性实施例示出的一种文本比对方法的流程图。如图3所示,所述方法还包括步骤301和步骤302。
在步骤301中,根据所述标签数据中的所述标签类型确定所述标签数据所对应的目标文件,所述目标文件中包括原始文本文件和/或比对文本文件。
在步骤302中,将所述标签数据分别显示在与所述标签数据对应的所述目标文件中。
如上述表1中所示,标签数据的标签类型可以有equal(相同)、replace(替换)、delete(删除)、insert(***)四种。其中,对于原始文本文件,属于insert(***)类型的标签数据由于表征的是比对文本文件中相对于原始文本文件中不存在的、新***的文本内容,因此该类型的标签数据在原始文本文件中的标签位置只会对应一个***位置,并不会有相应的文本,因此该类型的标签数据可以不在原始文本文件中进行显示,从而,可以预先设置标签类型为insert(***)类型的标签数据对应的目标文件中不包括该原始文本文件。而对于比对文本文件,属于delete(删除)类型的标签数据由于表征的是原始文本文件中相对于比对文本文件中不存在的、被删除的文本内容,因此该类型的标签数据在比对文本文件中的标签位置也只会对应一个***位置,并不会有相应的文本,因此该类型的标签数据也可以不在比对文本文件中进行显示,从而,可以预先设置标签类型为delete(删除)类型的标签数据对应的目标文件中不包括该比对文本文件。标签类型为equal(相同)和replace(替换)两种类型的标签数据,其对应的文本内容在原始文本文件和比对文本文件中都会存在,因此上述两种类型的标签数据可以在原始文本文件和比对文本文件中都进行显示,从而,可以预先设置标签类型为equal(相同)类型和replace(替换)类型的标签数据对应的目标文件中既包括该原始文本文件也包括该比对文本文件。
图4a是根据本公开又一示例性实施例示出的一种文本比对方法中原始文本文件中显示该比对结果的示意图,图4b是根据本公开又一示例性实施例示出的一种文本比对方法中比对文本文件中显示该比对结果的示意图。如图4a所示,原始文本文件中示出了equal(相同)类型1、replace(替换)类型2、delete(删除)类型3三种类型的标签数据,如图4b所示,比对文本文件中示出了equal(相同)类型1、replace(替换)类型2、insert(***)类型4三种类型的标签数据;equal(相同)类型1的标签数据以下划直线的形式在文本中进行显示,replace(替换)类型2的标签数据以下划波浪线的形式在文本中进行显示,delete(删除)类型3的标签数据以删除符号的形式在文本中进行显示,insert(***)类型4的标签数据以双下划直线的形式在文本中进行显示。
从而,在将比对结果显示在原始文本文件和比对文本文件中进行显示之前,可以根据各个标签类型本身的含义预先设置各个标签类型与原始文本文件和比对文本文件之间的对应的关系,从而对该标签数据进行分配,这样能够在最终显示该比对结果时使得显示画面更加清晰简洁。
图5是根据本公开又一示例性实施例示出的一种文本比对方法的流程图。如图5所示,所述方法还包括步骤501和步骤502。
将比对结果映射回原始文本文件和该比对文本文件中进行显示时,可以时根据该第一字符串和该第二字符串中的各个字符与原始文本文件和比对文本文件中的文本位置之间的对应关系来进行映射,因此,该文本比对方法还可以包括如图5中所示的步骤501。
在步骤501中,获取所述原始文本文件和所述比对文本文件的页面信息,所述页面信息包括文件页码、每页文件中所包括的字符总数量、每页文件中包括的文本行行数以及每个文本行所包括的字符数量。其中,步骤501的执行可以按照如图5所示的各个步骤的执行顺序来进行,或者,也可以在获取该第一字符串和该第二字符串之前或之后执行,该步骤的执行顺序不做限制,只要能够保证在在显示该标签数据时能够根据该原始文本文件和该比对文本文件的页面信息来进行显示即可。
进而,在将所述标签数据分别显示在与所述标签数据对应的所述目标文件中时则可以根据如图5中所示的步骤502和步骤503来进行。
在步骤502中,通过所述页面信息和所述标签位置确定所述标签数据与对应的所述目标文件之间的映射关系。
在步骤503中,根据所述映射关系将所述标签数据分别映射至对应的所述目标文件中进行显示。
在确定所述映射关系的过程中,可以根据每一个标签数据对应的标签位置,直接在原始文本文件和/或比对文本文件中查找该标签数据对应的文本位置信息,从而将每一个标签数据映射到相应的文本内容上。
例如,如图4a和图4b所示的原始文本文件和比对文本文件进行比对之后,得到的比对结果中可以包括如下表2中所示的标签数据。
表2
Figure BDA0003082949520000101
Figure BDA0003082949520000111
表2中所述的标签ID为0的标签数据中所包括的标签位置为A[0]-A[72]”->“B[0]-B[72],由于该标签类型为equal(相同)类型,则可以将该标签数据同时显示在原始文本文件和比对文本文件中,通过从头查找该原始文本文件和比对文本文件中的第1个字符对应的文本字符位置和第73个字符对应的文本字符位置,也即两个文本文件中的第一行的第一个字符至第四行的第六个字符,即可确定该标签ID为0的标签数据与该原始文本文件和该比对文本文件之间的映射关系。或者,还可以根据如下所示的显示方法来对该标签数据进行显示。
在一种可能的实施方式中,在已知原始文本文件和所述比对文本文件的页面信息,其中包括文件页码、每页文件中所包括的字符总数量、每页文件中包括的文本行行数以及每个文本行所包括的字符数量的情况下,通过所述页面信息和所述标签位置将所述标签数据分别显示在所述原始文本文件和/或所述比对文本文件的对应文本上的方法可以先分别对文本页、每一页中的文本行、每一行中的各个字符进行逐级分配,然后在查找具体的对应字符的位置。例如,可以先根据所述文件页码和每页文件中所包括的所述字符总数量,确定所述标签数据对应的文件页码,这样就能够先得到每一页文件中所对应的标签数据;然后再根据每页文件中包括的所述文本行行数以及每个所述文本行所包括的字符数量,确定所述标签数据对应的文本行,进一步将标签数据定位至每一页文本的具体文本行中;最后,根据所述标签数据对应的文件页码、所述标签数据对应的文本行和所述标签位置计算所述标签数据所对应的所述第一文本和所述第二文本在分别在所述原始文本文件和所述比对文本文件中的位置,也即在已知每一页中所对应的标签数据、以及标签数据具体对应的文本行的情况下,再根据该标签数据中的标签位置具体得到该标签数据在对应的文本行中具体对应的字符偏移。这样,相比于直接进行字符级别的映射,能够大大减少映射时的计算量,从而提高该标签数据的映射。
另外,上述标签数据的映射方法可以在对该标签数据按照标签类型确定了对应的目标文件的情况下进行,也可以在不确定该标签数据对应的目标文件的情况下进行,在不确定该标签数据对应的目标文件的情况下,可以直接根据该标签数据中所包括的标签位置,将所有标签数据都分别映射至原始文本文件和比对文本文件中进行显示。
图6是根据本公开一示例性实施例示出的一种文本比对装置的结构框图。如图6所示,所述装置包括:第一获取模块10,用于获取原始文本文件和比对文本文件;第二获取模块20,用于根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串;比对模块30,用于将所述第一字符串和所述第二字符串进行比对,确定比对结果;处理模块40,用于将所述比对结果显示在所述原始文本文件和/或所述比对文本文件中。
通过上述技术方案,在对原始文本文件和该比对文本文件进行比对时,能够将该原始文本文件中识别到的原始文本和该比对文本文件中识别到的比对文本分别构成该第一字符串和第二字符串,从而在对原始文本文件和该比对文本文件进行比对时无需考虑两个字符串中的字符之外的任何文件信息,大大简化了不同文本文件之间进行比对的方法,提高了文本比对的效率,而且根据原始文本文件对应的第一字符串和比对文本文件对应的第二字符串比对得到的比对结果还能够显示在该原始文本文件和/或该比对文本文件中,从而使得该比对结果能够更加直观地展示出来。
在一种可能的实施方式中,所述比对结果为一个或多个标签数据,所述标签数据中包括标签类型和标签位置。
在一种可能的实施方式中,,标签位置包括所述标签数据在所述第一字符串中对应的第一文本的起止字符位置,以及所述标签数据在所述第二字符串中对应的第二文本的起止字符位置,所述第一文本的起止字符位置和所述第二文本的起止字符位置分别为所述标签位置在所述第一字符串和所述第二字符串中的起止字符偏移值。
在一种可能的实施方式中,所述标签类型包括以下四种类型中的一种或多种:相同、替换、删除和***。
图7是根据本公开又一示例性实施例示出的一种文本比对装置的结构框图。如图7所示,所述装置还包括确定模块50,用于在所述处理模块40将所述比对结果显示在所述原始文本文件和/或所述比对文本文件中之前,根据所述标签数据中的所述标签类型确定所述标签数据所对应的目标文件,所述目标文件中包括原始文本文件和/或比对文本文件。所述处理模块40还用于:将所述标签数据分别显示在与所述标签数据对应的所述目标文件中。
在一种可能的实施方式中,如图7所示,所述装置还包括第三获取模块60,用于获取所述原始文本文件和所述比对文本文件的页面信息;所述处理模块40包括:确定子模块,用于通过所述页面信息和所述标签位置确定所述标签数据与对应的所述目标文件之间的映射关系;映射子模块,用于根据所述映射关系将所述标签数据分别映射至对应的所述目标文件中进行显示。
在一种可能的实施方式中,所述页面信息包括文件页码、每页文件中所包括的字符总数量、每页文件中包括的文本行行数以及每个文本行所包括的字符数量;所述处理模块40还用于:根据所述文件页码和每页文件中所包括的所述字符总数量,确定所述标签数据对应的文件页码;根据每页文件中包括的所述文本行行数以及每个所述文本行所包括的字符数量,确定所述标签数据对应的文本行;根据所述标签数据对应的文件页码、所述标签数据对应的文本行和所述标签位置计算所述标签数据在对应的所述目标文件中的位置以对所述标签数据进行显示。
在一种可能的实施方式中,所述第二获取模块20还包括:转换子模块,用于将所述原始文本文件和所述比对文本文件转换为一张或多张图像格式文件;识别子模块,用于对所述图像格式文件进行文字识别,得到各张图像格式文件对应的文本信息;拼接子模块,用于按照所述图像格式文件在所述原始文本文件或比对文本文件中对应的页码顺序,将所述图像格式文件对应的所述文本信息进行拼接,以得到所述原始文本文件和所述比对文本文件分别对应的所述第一字符串和所述第二字符串。
下面参考图8,其示出了适于用来实现本公开实施例的电子设备800的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取原始文本文件和比对文本文件;根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串;将所述第一字符串和所述第二字符串进行比对,确定比对结果;将所述比对结果显示在所述原始文本文件和/或所述比对文本文件中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一获取模块还可以被描述为“获取获取原始文本文件和比对文本文件的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种文本比对方法,所述方法包括:获取原始文本文件和比对文本文件;根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串;将所述第一字符串和所述第二字符串进行比对,确定比对结果;将所述比对结果显示在所述原始文本文件和/或所述比对文本文件中。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述比对结果为一个或多个标签数据,所述标签数据中包括标签类型和标签位置。
根据本公开的一个或多个实施例,示例3提供了示例2的方法,所述标签位置包括所述标签数据在所述第一字符串中对应的第一文本的起止字符位置,以及所述标签数据在所述第二字符串中对应的第二文本的起止字符位置,所述第一文本的起止字符位置和所述第二文本的起止字符位置分别为所述标签位置在所述第一字符串和所述第二字符串中的起止字符偏移值。
根据本公开的一个或多个实施例,示例4提供了示例2的方法,所述标签类型包括以下四种类型中的一种或多种:相同、替换、删除和***。
根据本公开的一个或多个实施例,示例5提供了示例2的方法,在对所述比对结果进行显示之前,所述方法还包括:根据所述标签数据中的所述标签类型确定所述标签数据所对应的目标文件,所述目标文件中包括原始文本文件和/或比对文本文件;
所述将所述比对结果分别显示在所述原始文本文件和/或所述比对文本文件中包括:
将所述标签数据分别显示在与所述标签数据对应的所述目标文件中。
根据本公开的一个或多个实施例,示例6提供了示例5的方法,所述方法还包括:获取所述原始文本文件和所述比对文本文件的页面信息;所述将所述标签数据分别显示在与所述标签数据对应的所述目标文件中包括:通过所述页面信息和所述标签位置确定所述标签数据与对应的所述目标文件之间的映射关系;根据所述映射关系将所述标签数据分别映射至对应的所述目标文件中进行显示。
根据本公开的一个或多个实施例,示例7提供了示例6的方法,所述页面信息包括文件页码、每页文件中所包括的字符总数量、每页文件中包括的文本行行数以及每个文本行所包括的字符数量;所述根据所述映射关系将所述标签数据分别映射至对应的所述目标文件中进行显示包括:根据所述文件页码和每页文件中所包括的所述字符总数量,确定所述标签数据对应的文件页码;根据每页文件中包括的所述文本行行数以及每个所述文本行所包括的字符数量,确定所述标签数据对应的文本行;根据所述标签数据对应的文件页码、所述标签数据对应的文本行和所述标签位置计算所述标签数据在对应的所述目标文件中的位置以对所述标签数据进行显示。
根据本公开的一个或多个实施例,示例8提供了示例1的方法,所述根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串包括:将所述原始文本文件和所述比对文本文件转换为一张或多张图像格式文件;对所述图像格式文件进行文字识别,得到各张图像格式文件对应的文本信息;按照所述图像格式文件在所述原始文本文件或比对文本文件中对应的页码顺序,将所述图像格式文件对应的所述文本信息进行拼接,以得到所述原始文本文件和所述比对文本文件分别对应的所述第一字符串和所述第二字符串。
根据本公开的一个或多个实施例,示例9提供了一种文本比对装置,所述装置包括:第一获取模块,用于获取原始文本文件和比对文本文件;第二获取模块,用于根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串;比对模块,用于将所述第一字符串和所述第二字符串进行比对,确定比对结果;处理模块,用于将所述比对结果显示在所述原始文本文件和/或所述比对文本文件中。
根据本公开的一个或多个实施例,示例10提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1-8中任一项所述方法的步骤。
根据本公开的一个或多个实施例,示例11提供了一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1-8中任一项所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

Claims (11)

1.一种文本比对方法,其特征在于,所述方法包括:
获取原始文本文件和比对文本文件;
根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串;
将所述第一字符串和所述第二字符串进行比对,确定比对结果;
将所述比对结果分别显示在所述原始文本文件和/或所述比对文本文件中。
2.根据权利要求1所述的方法,其特征在于,所述比对结果为一个或多个标签数据,所述标签数据中包括标签类型和标签位置。
3.根据权利要求2所述的方法,其特征在于,所述标签位置包括所述标签数据在所述第一字符串中对应的第一文本的起止字符位置,以及所述标签数据在所述第二字符串中对应的第二文本的起止字符位置,所述第一文本的起止字符位置和所述第二文本的起止字符位置分别为所述标签位置在所述第一字符串和所述第二字符串中的起止字符偏移值。
4.根据权利要求2所述的方法,其特征在于,所述标签类型包括以下四种类型中的一种或多种:相同、替换、删除和***。
5.根据权利要求2所述的方法,其特征在于,在对所述比对结果进行显示之前,所述方法还包括:
根据所述标签数据中的所述标签类型确定所述标签数据所对应的目标文件,所述目标文件中包括所述原始文本文件和/或所述比对文本文件;
所述将所述比对结果分别显示在所述原始文本文件和/或所述比对文本文件中包括:
将所述标签数据分别显示在与所述标签数据对应的所述目标文件中。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述原始文本文件和所述比对文本文件的页面信息;
所述将所述标签数据分别显示在与所述标签数据对应的所述目标文件中包括:
通过所述页面信息和所述标签位置确定所述标签数据与对应的所述目标文件之间的映射关系;
根据所述映射关系将所述标签数据分别映射至对应的所述目标文件中进行显示。
7.根据权利要求6所述的方法,其特征在于,所述页面信息包括文件页码、每页文件中所包括的字符总数量、每页文件中包括的文本行行数以及每个文本行所包括的字符数量;所述根据所述映射关系将所述标签数据分别映射至对应的所述目标文件中进行显示包括:
根据所述文件页码和每页文件中所包括的所述字符总数量,确定所述标签数据对应的文件页码;
根据每页文件中包括的所述文本行行数以及每个所述文本行所包括的字符数量,确定所述标签数据对应的文本行;
根据所述标签数据对应的文件页码、所述标签数据对应的文本行和所述标签位置计算所述标签数据在对应的所述目标文件中的位置以对所述标签数据进行显示。
8.根据权利要求1所述的方法,其特征在于,所述根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串包括:
将所述原始文本文件和所述比对文本文件转换为一张或多张图像格式文件;
对所述图像格式文件进行文字识别,得到各张图像格式文件对应的文本信息;
按照所述图像格式文件在所述原始文本文件或比对文本文件中对应的页码顺序,将所述图像格式文件对应的所述文本信息进行拼接,以得到所述原始文本文件和所述比对文本文件分别对应的所述第一字符串和所述第二字符串。
9.一种文本比对装置,其特征在于,所述装置包括:
第一获取模块,用于获取原始文本文件和比对文本文件;
第二获取模块,用于根据所述原始文本文件和所述比对文本文件分别获取由原始文本构成的第一字符串和由比对文本构成的第二字符串;
比对模块,用于将所述第一字符串和所述第二字符串进行比对,确定比对结果;
处理模块,用于将所述比对结果显示在所述原始文本文件和/或所述比对文本文件中。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
CN202110571704.4A 2021-05-25 2021-05-25 文本比对方法、装置、介质及电子设备 Pending CN113407665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110571704.4A CN113407665A (zh) 2021-05-25 2021-05-25 文本比对方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110571704.4A CN113407665A (zh) 2021-05-25 2021-05-25 文本比对方法、装置、介质及电子设备

Publications (1)

Publication Number Publication Date
CN113407665A true CN113407665A (zh) 2021-09-17

Family

ID=77674969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110571704.4A Pending CN113407665A (zh) 2021-05-25 2021-05-25 文本比对方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN113407665A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836096A (zh) * 2021-09-27 2021-12-24 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备、介质及***
CN113836092A (zh) * 2021-09-27 2021-12-24 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548778A (zh) * 2016-10-13 2017-03-29 北京云知声信息技术有限公司 一种字符转换规则的生成方法及装置
CN109190092A (zh) * 2018-08-15 2019-01-11 深圳平安综合金融服务有限公司上海分公司 不同来源文件的一致性审核方法
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN111753505A (zh) * 2019-09-30 2020-10-09 北京沃东天骏信息技术有限公司 一种文档处理方法、装置、服务器及存储介质
CN111832264A (zh) * 2020-06-02 2020-10-27 深圳价值在线信息科技股份有限公司 基于pdf文件的签名位置确定方法、装置及设备
CN112149402A (zh) * 2020-09-23 2020-12-29 创新奇智(青岛)科技有限公司 文档对比方法、装置、电子设备和计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548778A (zh) * 2016-10-13 2017-03-29 北京云知声信息技术有限公司 一种字符转换规则的生成方法及装置
CN109190092A (zh) * 2018-08-15 2019-01-11 深圳平安综合金融服务有限公司上海分公司 不同来源文件的一致性审核方法
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN111753505A (zh) * 2019-09-30 2020-10-09 北京沃东天骏信息技术有限公司 一种文档处理方法、装置、服务器及存储介质
CN111832264A (zh) * 2020-06-02 2020-10-27 深圳价值在线信息科技股份有限公司 基于pdf文件的签名位置确定方法、装置及设备
CN112149402A (zh) * 2020-09-23 2020-12-29 创新奇智(青岛)科技有限公司 文档对比方法、装置、电子设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宝罗PAUL: "用python标准库difflib比较两份文件的异同", pages 1 - 5, Retrieved from the Internet <URL:https://blog.csdn.net/qq_31598113/article/details/80153000> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836096A (zh) * 2021-09-27 2021-12-24 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备、介质及***
CN113836092A (zh) * 2021-09-27 2021-12-24 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备及存储介质
WO2023045053A1 (zh) * 2021-09-27 2023-03-30 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备及存储介质
CN113836092B (zh) * 2021-09-27 2024-06-21 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111445902B (zh) 数据收集方法、装置、存储介质及电子设备
CN110659639B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN109684589B (zh) 客户端的评论数据的处理方法、装置及计算机存储介质
CN113407665A (zh) 文本比对方法、装置、介质及电子设备
CN112949430A (zh) 视频处理方法和装置、存储介质和电子设备
CN111597107B (zh) 信息输出方法、装置和电子设备
CN115937888A (zh) 文档比对方法、装置、设备和介质
WO2023088378A1 (zh) 信息处理方法、装置、终端和存储介质
CN112084441A (zh) 信息检索方法、装置和电子设备
CN111260445A (zh) 房源信息展示方法、装置、终端及存储介质
CN110674813A (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN110705536A (zh) 汉字识别纠错方法、装置、计算机可读介质及电子设备
CN110598049A (zh) 用于检索视频的方法、装置、电子设备和计算机可读介质
CN111782895B (zh) 检索处理方法、装置、可读介质及电子设备
CN111783440B (zh) 意图识别方法、装置、可读介质及电子设备
CN114239501A (zh) 合同生成方法、装置、设备及介质
CN110413603B (zh) 重复数据的确定方法、装置、电子设备及计算机存储介质
CN114495080A (zh) 字体识别方法、装置、可读介质及电子设备
CN111898595A (zh) 一种信息展示方法、装置、电子设备和存储介质
CN112445478A (zh) 图形文件的处理方法、装置、设备及介质
CN111353536A (zh) 图像的标注方法、装置、可读介质和电子设备
CN111984890B (zh) 一种显示信息生成的方法、装置、介质和电子设备
CN112307245B (zh) 用于处理图像的方法和装置
CN112948108B (zh) 请求处理方法、装置和电子设备
CN114647685B (zh) 一种数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination