CN112528894A - 一种差异项判别方法及装置 - Google Patents

一种差异项判别方法及装置 Download PDF

Info

Publication number
CN112528894A
CN112528894A CN202011496118.XA CN202011496118A CN112528894A CN 112528894 A CN112528894 A CN 112528894A CN 202011496118 A CN202011496118 A CN 202011496118A CN 112528894 A CN112528894 A CN 112528894A
Authority
CN
China
Prior art keywords
difference
text
item
probability
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011496118.XA
Other languages
English (en)
Other versions
CN112528894B (zh
Inventor
王亚利
宋时德
唐刘建
庄纪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202011496118.XA priority Critical patent/CN112528894B/zh
Publication of CN112528894A publication Critical patent/CN112528894A/zh
Application granted granted Critical
Publication of CN112528894B publication Critical patent/CN112528894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种差异项判别方法及装置,该方法包括:获取第一单句的识别结果与第二单句的识别结果中的目标差异项,目标差异项包括第一差异文本和第二差异文本,第一单句包括公共项和第一差异文本,第二单句包括公共项和第二差异文本;基于语言预测模型以及公共项确定第一差异文本对应的第一概率和第二差异文本对应的第二概率;根据第一概率和第二概率,判断目标差异项是否为真正的差异项。实施本申请,能够有效判别真正的差异项,实现对因OCR识别错误导致的非真正的差异项的过滤,从而提高了单句对比的准确率。

Description

一种差异项判别方法及装置
技术领域
本申请涉及计算机领域,尤其涉及一种差异项判别方法及装置。
背景技术
随着业务发展,大量的文档也随之产生,如合同文件、标书等,其中,对于同一文档进行修改可能会产生多份文档。例如,对于同一合同文件,存在一份原始文档和可能的多份修改版本的文档。为了确定某一修改版本的文档相对于另一文档做了哪些修改,需要对这两份相关联的文档的内容进行对比以确定差异项。
通常采用光学字符识别(Optical Character Recognition,OCR)技术对待比较的两份文档进行扫描识别,然后基于OCR输出的识别结果对这两份文档的内容进行对比以确定差异项。然而,OCR识别过程中由于噪声干扰(例如,水印、签章等)会导致OCR识别发生错误,因此,基于OCR的识别结果确定的差异项中有些差异项并不是真正的差异项,从而造成文档对比结果的准确率低。
发明内容
本申请公开了一种差异项判别方法和装置,能够有效判别真正的差异项,实现对文档对比结果中非真正的差异项的过滤,从而提高了文档对比的准确率。
第一方面,本申请提供了一种差异项判别方法,该方法包括:获取第一单句的识别结果与第二单句的识别结果中的目标差异项,目标差异项包括第一差异文本和第二差异文本,第一单句包括公共项和第一差异文本,第二单句包括公共项和第二差异文本,第一差异文本的长度与第二差异文本的长度相同;基于语言预测模型以及公共项确定第一差异文本对应的第一概率和第二差异文本对应的第二概率;根据第一概率和第二概率,判断目标差异项是否为真正的差异项。
上述方法中,对于文档对比后确定的目标差异项,通过语言预测模型基于目标差异项(包括第一差异文本和第二差异文本)对应的两个单句的公共文本对目标差异项进行预测,以确定第一差异文本出现在第一单句中的第一概率以及第二差异文本出现在第二单句中的第二概率,根据第一概率和第二概率确定目标差异项是否为真正的差异项,能有效识别真正的差异项,提高了单句对比结果的准确率。
在第一方面的一种可能的实现方式中,在第一差异文本的长度与第二差异文本的长度不同且第一差异文本包括语义无关词时,该方法还包括:去除第一差异文本中的语义无关词,以使第一差异文本的长度和第二差异文本的长度相同。
在第一方面的一种可能的实现方式中,根据第一概率和第二概率,判断目标差异项是否为真正的差异项包括:在第一概率大于等于第一阈值且第二概率大于等于第一阈值的情况下,判断目标差异项为真正的差异项。
实施上述实现方式,第一概率大于等于第一阈值,即说明第一差异文本是识别正确的,同理,第二概率大于等于第一阈值,即说明第二差异文本是识别准确的,因此,在第一差异文本和第二差异文本均识别正确的情况下,由于第一差异文本与第二差异文本不同,故可判定目标差异项为真正的差异项,从而实现准确辨真正的差异项,提高文了档对比结果的准确率。
在第一方面的一种可能的实现方式中,基于语言预测模型以及公共项确定第一差异文本对应的第一概率和第二差异文本对应的第二概率,包括:获取目标差异项对应的目标句子,目标句子包括公共项和遮挡项;将目标句子输入语言预测模型对遮挡项进行预测,输出遮挡项对应的候选词表,候选词表包括多个预测结果和多个预测结果对应的概率;在候选词表中获取第一差异文本对应的第一概率和第二差异文本对应的第二概率。
实施上述实现方式,通过语言预测模型基于目标句子的公共项中上下文的关系对遮挡项进行预测,获得候选词表,候选词表包括多个预测结果和多个预测结果对应的概率,预测结果对应的概率表示该预测结果出现在遮挡项位置上的概率,也可以表示该预测结果与目标句子中公共项结合符合语义表达规范的概率,因此,可以从候选词表中查找获得第一差异文本对应的第一概率和第二差异文本对应的第二概率,有利于提高真正差异项的识别率。
在第一方面的一种可能的实现方式中,在第一概率小于第一阈值或第二概率小于第一阈值的情况下,该方法还包括:获取第一差异文本对应的第一数据和第二差异文本对应的第二数据;第一数据包括第一单句对应的第一信息和第一单句的第一图像,第二数据包括第二单句对应的第二信息和第二单句的第二图像,第一信息包括第一单句中每个字的词向量、第一单句中每个字的位置编码和第一单句中每个字的位置信息,第二信息包括第二单句中每个字的词向量、第二单句中每个字的位置编码和第二单句中每个字的位置信息;利用差异项判别模型基于第一数据和第二数据判断目标差异项是否为真正的差异项。
实施上述实现方式,在无法确定第一差异文本或第二差异文本是否识别正确的情况下,获取了第一差异文本对应的第一数据和第二差异文本对应的第二数据,以第一数据为例进行说明,第一数据中的词向量表示第一单句每个字的文本信息,第一数据中的位置编码表示第一单句中每个字在第一单句中的相对位置信息,第一数据中的位置信息表示第一单句中每个字在原图像中的像素坐标、字高和字宽的信息,第一数据中的第一图像表示第一单句中每个字的图像信息。第二数据的说明可参考第一数据的说明。在获取第一数据和第二数据后,基于差异项判别模型比较第一数据和第二数据之间的相似度以判断目标差异项是否是真正的差异项,由此可以看出,差异项判别模型融合了目标差异项的文本、相对位置、图像等信息进行目标差异项的判别,提高了差异项判别模型的识别准确率。
在第一方面的一种可能的实现方式中,差异项判别模型包括第一特征提取网络、第二特征提取网络、线性处理单元和分类器,第一特征提取网络与第二特征提取网络相同,利用差异项判别模型基于第一数据和第二数据判断目标差异项是否为真正的差异项,包括:输入第一信息和第一图像至第一特征提取网络,获得第一特征向量;输入第二信息和第二图像至第二特征提取网络,获得第二特征向量;输入第一特征向量和第二特征向量至线性处理单元,获得第三特征向量;输入第三特征向量至分类器,获得分类结果,分类结果指示目标差异项是否为真正的差异项。
实施上述实现方式,差异项判别模型包括两个相同的特征提取网络(即第一特征提取网络和第二特征提取网络)、线性处理单元和分类器,以第一特征提取网络作用于第一数据为例,第一特征提取网络基于输入第一信息和第一图像输出第一特征向量,第一特征向量表示融合了第一单句的文本、位置编码、位置信息和图像信息的高级语义特征,同理,第二特征提取网络输出的第二特征向量表示融合了第二单句的文本、位置编码、位置信息和图像信息的高级语义特征,线性处理单元输出的第三特征向量为表示第一单句的高级语义特征与第二单句的高级语义特征之间的差异,分类器基于第三特征向量输出目标差异项对应的分类结果,从而实现判别目标差异项是否为真正的差异项,有效过滤了单句对比结果中非真正的差异项,提高了单句对比的准确率。
在第一方面的一种可能的实现方式中,第一特征提取网络包括第一文本编码端、第一图像编码端和第一深度学习模型,第一编码端用于根据第一信息输出第一融合特征,第一图像编码端用于根据第一图像输出第一图像特征,第一深度学习模型用于根据第一融合特征和第一图像特征输出第一特征向量;第二特征提取网络包括第二文本编码端、第二图像编码端和第二深度学习模型,第二文本编码端用于根据第二信息输出第二融合特征,第二图像编码端用于根据第二图像输出第二图像特征,第二深度学习模型用于根据第二融合特征和第二图像特征输出第二特征向量。
实施上述实现方式,以第一特征提取网络为例,第一文本编码端输出的第一融合特征表示融合了第一单句的文本、第一单句中字的相对位置关系(位置编码)和位置信息的中级语义特征,第一图像编码端输出的第一图像特征表示第一单句每个字的图像特征,第一深度学习模型基于第一融合特征和第一图像特征获得第一特征向量,第一特征向量表示融合了第一单句的文本、位置编码、位置信息和图像信息的高级语义特征。因此,第一特征提取网络的设计使得第一特征提取网络具有较好的提取第一单句的高级语义特征的能力。由于第二特征提取网络与第一特征提取网络相同,因此,第二特征提取网络具有较好的提取第二单句的高级语义特征的能力。
在第一方面的一种可能的实现方式中,第一信息还包括第一差异文本对应的N个候选词的词向量、位置编码和位置信息,第一文本编码端使得第一差异文本对应的N个候选词与第一单句中除第一差异文本之外的字之间的相关度为预设值;第一差异文本对应的N个候选词是根据第一预设条件从候选词表中确定的;第二信息还包括第二差异文本对应的N个候选词的词向量、位置编码和位置信息,第二文本编码端使得第二差异文本对应的N个候选词与第二单句中除第二差异文本之外的字之间的相关度为预设值;第二差异文本对应的N个候选词是根据第二预设条件从候选词表中确定的。
实施上述实现方式,第一信息还包括第一差异文本对应的候选词的文本特征(即词向量)以及第一差异文本对应的候选词在第一单句中的相对位置特征(包括位置编码和位置信息),且第一文本编码端使得第一差异文本对应的候选词与第一单句中除第一差异文本之外的字之间的相关度为预设值,其意味着第一差异文本对应的候选词对第一单句中除第一差异文本之外的字造成的影响远小于对第一差异文本造成的影响,由此,第一信息中引入的第一差异文本对应的候选词特征能对第一差异文本进行纠正,使得后续提取的第一特征向量的更准确,使得第一单句(OCR识别出的)更接近真实文档中的第一单句,从而提高了第一单句的真实度。
在第一方面的一种可能的实现方式中,在第一概率小于第一阈值且第二概率大于等于第一阈值的情况下,方法还包括:根据第三预设条件从候选词表中确定第一差异文本对应的候选词;在第一差异文本对应的候选词的个数为1时,将第一差异文本对应的候选词作为更正后的第一差异文本;在第二差异文本与更正后的第一差异文本相同时,确定目标差异项不是真正的差异项;在第二差异文本与更正后的第一差异文本不同时,确定目标差异项是真正的差异项。
实施上述实现方式,在第一差异文本对应的候选词的个数为1时,将第一差异文本对应的候选词作为更正后的第一差异文本,即认为更正后的第一差异文本是识别正确的,且由于第二差异文本是识别正确的(因为第二概率大于等于第一阈值),即可通过比较第二差异文本与更正后的第一差异文本是否相同来确定目标差异项是否为真正的差异项,从而实现对目标差异项的准确判定,提高了单句对比结果的准确率。
在第一方面的一种可能的实现方式中,在第一概率小于第一阈值且第二概率小于第一阈值的情况下,方法还包括:根据第三预设条件从候选词表中确定第一差异文本对应的候选词;根据第四预设条件从候选词表中确定第二差异文本对应的候选词;在第一差异文本对应的候选词的个数为1且第二差异文本对应的候选词的个数为1时,将第一差异文本对应的候选词作为更正后的第一差异文本以及将第二差异文本对应的候选词作为更正后的第二差异文本;在更正后的第一差异文本与更正后的第二差异文本相同时,确定目标差异项不是真正的差异项;在更正后的第一差异文本与更正后的第二差异文本不同时,确定目标差异项是真正的差异项。
实施上述实现方式,在第一概率小于第一阈值且第二概率小于第一阈值的情况下,分别对第一差异文本和第二差异文本进行更正,根据更正后的第一差异文本与更正后的第二差异文本是否相同来确定目标差异项是否为真正的差异项,从而实现对目标差异项的准确判定,提高了单句对比结果的准确率。
在第一方面的一种可能的实现方式中,第三预设条件为候选词表中候选词的评分大于第二阈值,候选词的评分由候选词对应的概率以及候选词与第一差异文本之间的字形相似度确定;第四预设条件为候选词表中候选词的评分大于第二阈值,候选词的评分由候选词对应的概率以及候选词与第二差异文本之间的字形相似度确定。
实施上述实现方式,以第一差异文本对应的候选词的确定为例,候选词表中的候选词与第一差异文本的字形相似度越高且该候选词的概率越高,该候选词被选定为第一差异文本对应的候选词的概率就越高,第一差异文本对应的候选词为最可能替换第一差异文本的候选项。有利于提高差异项判别模型的识别准确率。
在第一方面的一种可能的实现方式中,第一单句和第二单句来自相关联的两个不同的文档。
实施上述实现方式,第一单句和第二单句分别来相关联的另个不同的文档,即将目标差异项的判定用于文档对比中,提高了文档对比结果的准确率。
第二方面,本申请提供了一种装置,该装置包括:获取单元,用于获取第一单句的识别结果与第二单句的识别结果中的目标差异项,目标差异项包括第一差异文本和第二差异文本,第一单句包括公共项和第一差异文本,第二单句包括公共项和第二差异文本,第一差异文本的长度与第二差异文本的长度相同;预测单元,用于基于语言预测模型以及公共项确定第一差异文本对应的第一概率和第二差异文本对应的第二概率;判别单元,用于根据第一概率和第二概率,判断目标差异项是否为真正的差异项。
第三方面,本申请提供了一种计算装置,该计算装置包括处理器和存储器,处理器和存储器通过总线连接或者耦合在一起;其中,存储器用于存储程序指令;所述处理器调用所述存储器中的程序指令,以执行第一方面或者第一方面的任一可能的实现方式中的方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读介质存储用于装置执行的程序代码,所述程序代码包括用于执行第一方面或者第一方面的任一可能的实现方式中的方法的指令。
第五方面,本申请提供了一种计算机软件产品,该计算机程序软件产品包括程序指令,当该计算机软件产品被计算装置执行时,该计算装置执行前述第一方面或者第一方面的任一可能的实施例中的所述方法。该计算机软件产品可以为一个软件安装包,在需要使用前述第一方面的任一种可能的设计提供的方法的情况下,可以下载该计算机软件产品并在计算装置上执行该计算机软件产品,以实现第一方面或者第一方面的任一可能的实施例中的所述方法。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种***架构的示意图;
图2是本申请实施例提供的一种基于语言预测模型的差异项判别示意图;
图3A是本申请实施例提供的一种基于BERT的语言预测模型的结构框图;
图3B是一种Transformer Encoder的具体结构示意图;
图4是本申请实施例提供的一种差异项判别模型的结构框图;
图5是本申请实施例提供的一种第一特征提取网络的结构框图;
图6是本申请实施例提供的一种第一特征提取网络的输入数据示意图;
图7是本申请实施例提供的一种差异项判别方法流程图;
图8是本申请实施例提供的又一种差异项判别方法流程图;
图9是本申请实施例提供的一种计算装置的结构示意图;
图10是本申请实施例提供的一种计算装置的功能结构示意图。
具体实施方式
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。本申请实施例中的说明书和权利要求书中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
为了便于理解,下面先对本申请实施例可能涉及的相关术语等进行介绍。
(1)OCR
OCR是指电子设备(例如,扫描仪或数码相机)检查纸上打印的字符,通过检测亮、暗的模式确定其形状,然后用字符识别方法将形状翻译为计算机文字的过程。简单来说,即对文本资料进行扫描后获得的图像文件进行分析处理,获取文字及版面信息的过程。OCR可以节省因键盘输入文本资料所需的人力与时间。
传统的OCR的实现过程一般分为几个步骤:图像获取、预处理、行列分割和字符识别。其中,图像获取是指获取纸质文档对应的扫描图像,预处理包括二值化、图像增强、噪声处理、图像滤波、倾斜矫正等,预处理可以优化扫描图像的图像质量以提高后续字符识别的准确率。行列分割是指对单个字符或者连续几个字符进行检测,字符识别是指将分割后的字符图像导入识别模型中进行处理,进而获得原图中的字符信息。
当然,也可以基于深度学习实现OCR,主要有两种方法,一种是通过端到端的模型一次性完成字符的检测和识别,例如,STN-OCR使用单个深度神经网络,以半监督学习方式从图像中检测和识别字符。又例如,FOTS(Fast Oriented Text Spotting)是一个快速的端对端的字符检测和识别框架,通过共享训练特征、互补监督的方法减少了特征提取所需的时间,从而提高了字符检测及识别效率。另一种是分为字符检测和字符识别两个阶段,所谓字符检测是指对图像中的字符区域进行定位,例如,CTPN(Connectionist Text ProposalNetwork)算法、EAST(Efficient and Accurate Scene Text detectionpipeline)算法等,字符识别是指识别出定位到的字符,例如,CNN+softmax等。
(2)BERT模型
双向Transformer编码器表示(Bidirectional Encoder Representations fromTransformers,BERT)是一种语言表示模型,其中,双向表示在注意力矩阵中每个字都包含前后所有字的信息。BERT是一种预训练语言表示的方法,通常在大量文本语料(例如,***)上训练了一个通用的“语言理解”模型,然后可以用这个模型去执行相关的自然语言处理(Natural Language Processing,NLP)任务。
BERT模型可用于进行语言预测。例如,给定一句话,遮挡这句话中的一个或几个词,要求根据该句话中剩余的词预测被遮挡的词。BERT模型可采用遮掩语言模型(MaskedLanguage Modeling,MLM)的方式进行训练,即在输入一句话的时候,随机地选一些要预测的词,这些词80%的概率被换成[mask],10%的概率被替换为一个随机的词,10%的概率认为为词本身,也就是说,原句中待预测的词被用特殊的符号替换。尽管BERT模型会看到所有位置上的输入信息,但由于需要预测的词已经被特殊符号代替,所以BERT模型无法事先知道这些位置上是什么词,这样就可以让BERT模型根据上下文信息去学习预测这些地方该填的词,通过调整BERT模型的参数使得BERT模型预测正确的概率尽可能大,由此实现BERT模型的训练。
BERT模型包含多层Transformer结构,其中,Transformer结构是一种基于注意力机制(Attention)的网络结构。Attention的核心思想在于计算一句话中的每个词与这句话中所有词之间的相互关系,这些词与词之间的相互关系在一定程度上反映了这句话中不同词之间的关联性以及重要程度。因此再利用这些相互关系来调整每个词的重要性(权重)就可以获得每个词新的表达。这个新的表达不但蕴含了该词本身的特征,还蕴含了其他词与这个词之间的关系,因此新的表达和单纯的词向量相比是一个更加全局的表达。Transformer结构通过对输入的文本不断进行这样的注意力机制层和普通的非线性层交叠来得到最终的文本表达。因此,自注意力机制是为了学习句子内部的词之间的依赖关系,捕获句子的内部结构。
(3)LSTM模型
长短期记忆网络(Long Short-Term Memory,LSTM),是一种时间递归神经网络(RNN),它的特点是具有时间循环结构,可以很好地刻画具有时空关联的序列数据,包括时间序列数据(例如,文本、车流量、气温等)。但RNN将隐含层作为模型的记忆模块,与网络其他部分有着直接的连接,不仅使得模型展开后层数过多,导致梯度消失问题,而且使得有效的历史信息受到源源不断的新的输入数据影响而无法长时间保存,因此,RNN擅于短期记忆,不擅于长期记忆,为了让RNN具有长期记忆,构造了LSTM,主要为了解决长序列训练过程中的梯度消失和梯度***问题。在自然语言处理领域,LSTM通常用于提取文本的语义语法信息,然后与下游模型配合起来做具体的任务,比如分类、序列标注、文本匹配等等。
LSTM单元由记忆单元(memory cell)和多个调节门(gate)组成。LSTM使用记忆单元(memory cell)的状态(state)来保存历史信息。使用输入数据进行状态更新和将状态信息输出的操作分别受到到两个门—输入门(input gate)和输出门(output gate)的调节。当输入门关闭时,历史信息不受新的输入数据干扰,得以原样保存(constant errorcarrousel),类似的,只有输出门打开,记忆单元中的历史信息才起作用的。
相关技术中,通常采用OCR技术对待比较的两个文档进行识别,然后基于两个文档的识别的结果确定不同的内容。且不同的内容在两个文档的识别结果中对应的单句中具有公共的文本部分,则该不同的内容可以称之为差异项。举例来说,对于文档1和文档2,在经过OCR识别后,文档1的识别结果中有“市场利率化或市场瘫痪”,文档2的识别结果中有“市场利率化或市场痢疾”,则根据识别结果确定存在一组差异项为“瘫痪”和“痢疾”,其中,“瘫痪”来源于文档1的识别结果,“痢疾”来源于文档2的识别结果,“市场利率化或市场”为差异项对应的公共的文本部分。
容易理解,在OCR识别正确的情况下,即文档1中原句是“市场利率化或市场瘫痪”,文档2中原句是“市场利率化或市场痢疾”,则瘫痪”和“痢疾”均识别正确,故瘫痪”和“痢疾”是一组真正的差异项。然而,在OCR存在识别错误的情况下,即文档1和文档2中的原句均是“市场利率化或市场瘫痪”,在对文档1进行OCR识别时,文档1中“市场利率化或市场瘫痪”这一句中的“瘫痪”二字被准确识别为“瘫痪”,在对文档2进行OCR识别时,由于文档2中“市场利率化或市场瘫痪”这一句处有水印或者签章等恰好盖住“瘫痪”二字,其会对文档的识别产生噪声干扰,导致对文档2中“市场利率化或市场瘫痪”这一句中的“瘫痪”二字被识别成“痢疾”,即发生识别错误,在此情况下,由于OCR识别错误,故“瘫痪”和“痢疾”并不是真正的差异项,但机器并不知晓发生了该识别错误,因此,仍然认为“瘫痪”和“痢疾”是一组真正的差异项,即差异项的判别发生错误,导致文档对比结果的准确率低。
本申请提供了一种差异项判别方法,能够有效确定真正的差异项,实现对因OCR识别错误导致的非真正的差异项的过滤,从而提高了文档对比的准确率。
参见图1,本申请实施例提供的一种***架构100的示意图,数据获取设备160用于采集训练数据,本申请实施例中训练数据包括用于训练语言预测模型的语料库,训练数据还包括用于训练差异项判别模型的正差异项样本的样本数据和负差异项样本的样本数据,其中,正差异项样本表示真正的差异项,负差异项样本表示非真正的差异项。可选地,数据获取设备160可以是直接获取标注好的正差异项样本和负差异项样本,也可以自身对待比较文档进行标注获得正差异项样本和负差异项样本,例如,数据获取设备160对至少一组待比较文档进行OCR识别后获得多个候选的差异项,然后基于至少一组待比较文档中差异项对应的真实数据对多个候选的差异项进行标注以获得正差异项样本和负差异项样本。进一步地,数据获取设备160还要获取正差异项样本的样本数据,正差异项样本的样本数据包括正差异项样本所在单句的文本及位置信息以及正差异项样本所在单句的图像。同理,数据获取设备160还要获取负差异项样本的样本数据,负差异项样本的样本数据包括负差异项样本所在单句的文本及位置信息以及负差异项样本所在单句的图像。
在采集到训练数据之后,数据获取设备160可以将这些训练数据存入数据库130,训练设备120基于数据库130中维护的训练数据对初始语言预测模型以及初始差异项判别模型分别进行训练,最终得到目标语言预测模型101和目标差异项判别模型102。在一些可能的实施例中,数据获取设备160也可以将训练数据直接发送给训练设备120,以使训练设备120基于训练数据中的语料库对初始语言预测模型进行训练以获得目标语言预测模型101,以及基于训练数据中正差异项样本的样本数据和负差异项样本的样本数据对初始差异项判别模型进行训练以获得目标差异项判别模型102。
下面对训练设备120基于训练数据得到目标语言预测模型101的过程进行描述,训练设备120的输入数据为语料库中的多个语句,每个语句都是符合语法规范的正确表达,每个语句的长度小于预设阈值,训练设备120在训练时随机从输入的语句中掩码(mask)掉一些词,不防称被mask掉的一些词称为原始文本,然后通过上下文信息对该语句中的空缺部分进行预测以获得预测文本,然后将预测文本与原始文本进行对比,直到训练设备120输出的预测文本与原始文本之间的差异小于预设阈值,则认为输出的预测文本可以替代原始文本,从而完成目标语言预测模型101的训练。目标语言预测模型101具体的训练过程在后文中进行详细叙述。
下面再对训练设备120基于训练数据得到目标差异项判别模型102的过程进行描述,训练设备120的输入数据为正差异项样本的样本数据和负差异项样本的样本数据,训练设备120基于输入数据获得每组差异项对应的两个向量,以其中一组差异项为例,该组差异项包括从文档1中识别出的文本A和从文档2中识别出的文本B,所谓两个向量即为文本A对应的融合特征向量和文本B对应的融合特征向量,关于每组差异项对应的两个向量的获取方式在后文中进行详细阐述,在此不再赘述。训练设备120基于每组差异项对应的两个向量对该组差异项进行分类,即判断该组差异项是否为真正的差异项,基于各差异项对应的分类结果与差异项对应的标注信息(即正差异项样本或负差异项样本)训练初始差异项判别模型,直至初始差异项判别模型输出的分类结果与输入信息对应的标注信息一致,从而完成目标差异项判别模型102的训练。目标差异项判别模型102具体的训练过程在后文中进行详细叙述。
上述目标语言预测模型101和目标差异项判别模型102能够用于实现本申请实施例提供的差异项判别方法。具体地,将用户终端140输入的两个待比较文档经过处理模块113进行相关处理获得目标差异项,提取目标差异项对应的单句输入目标语言预测模型101,根据预测结果判断目标差异项是否为真正的差异项,获得判断结果,并将判断结果,通过I/O接口112输出至用户终端140。对于目标语言预测模型101无法判定的目标差异项,再通过处理模块113进行相关处理获得目标差异项对应的候选词,并获取目标差异项对应的单句融入候选词后的文本及位置信息以及目标差异项对应的单句的图像,并将目标差异项对应的单句融入候选词后的文本及位置信息、目标差异项对应的单句的图像输入目标差异项判别模型102以输出目标差异项的验证结果,并将目标差异项的验证结果通过I/O接口112输出至用户终端140。差异项的判别方法具体可参考下文中的相关描述,在此不再赘述。
可选地,本申请实施例中的目标语言预测模型101具体可以为基于BERT的语言预测模型,目标差异项判别模型102可以是融合了文本、位置及图像信息的深度学习模型。需要说明的是,在实际的应用中,所述数据库130中维护的训练数据不一定都来自于数据获取设备160的采集,也有可能是从其他设备获得的。另外需要说明的是,训练设备120也不一定完全基于数据库130维护的训练数据进行目标语言预测模型101和目标差异项判别模型102的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。训练设备120可以独立于执行设备110存在,也可以集成于执行设备110内部。
根据训练设备120训练得到的目标语言预测模型101和目标差异项判别模型102可以应用于不同的***或设备中,如应用于图1所示的执行设备110,所述执行设备110可以是终端,如手机终端,平板电脑,笔记本电脑等,还可以是服务器或者云端等。在图1中,执行设备110配置输入/输出(input/output,I/O)接口112,用于与外部设备进行数据交互,用户可以通过用户终端140向I/O接口112输入数据,所述输入数据在本申请实施例中可以包括:待比较文档的扫描件。
处理模块113用于根据I/O接口112接收到的输入数据(如待比较文档的扫描件)进行预处理以获得目标差异项以及提取目标差异项对应的单句,处理模块113还用于根据计算模块111的输出进行后续处理,在本申请实施例中,也可以没有预处理模块113和处理模块114,而直接采用计算模块111对输入/输出数据进行处理。
在执行设备110对输入数据进行处理,或者在执行设备110的计算模块111执行计算等相关的处理过程中,执行设备110可以调用数据存储***150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储***150中。
需要说明的是,训练设备120可以针对不同的目标,基于不同的训练数据生成相应的目标语言预测模型101和目标差异项判别模型102,上述这两个模型即可以用于实现上述目标,从而为用户提供所需的结果,例如,在本申请中可以是向用户提供待比较文档中真正的差异项。
下面详细介绍本申请提供的差异项判别方法。通过语言预测模型预测差异项,基于差异项对应的预测概率判断该差异项是否识别正确,在确定差异项识别正确的情况下,可以确定差异项是否为真正的差异项;在无法确定差异项是否识别正确的情况下,进一步提取差异项的相关信息输入差异项判别模型以确定差异项是否为真正的差异项。需要说明的是,上述中的目标语言预测模型101即为下述中的语言预测模型,目标差异项判别模型即为下述中的差异项判别模型。
首先,先详细叙述基于语言预测模型的差异项判别方法。
具体地,首先根据相关联的两个文档的识别结果中获取至少一组目标差异项以及每组目标差异项对应的位置信息,以一组目标差异项为例进行说明,目标差异项包括第一差异文本和第二差异文本,每组目标差异项对应的位置信息包括第一差异文本对应的第一位置信息和第二差异文本对应的第二位置信息,基于第一位置信息提取第一差异文本所在的第一单句,基于第二位置信息提取第二差异文本所在的第二单句,根据第一单句和第二单句获得该目标差异项对应的目标句子,目标句子包括公共项和遮挡项,将目标句子输入语言预测模型对遮挡项进行预测,获得候选词表,候选词表包括遮挡项对应的多个预测结果以及多个预测结果对应的概率,然后在候选词表中查找第一差异文本对应的第一概率和第二差异文本对应的第二概率,当第一概率和第二概率同时满足预设条件时,确定该目标差异项为真正的差异项。
其中,第一差异文本和第二差异文本具有相同的长度,换句话说,第一差异文本和第二差异文本具有相同数量的字。第一差异文本或第二差异文本包括至少一个字。
在一些可能的实施例中,第一差异文本中包括语义无关词,语义无关词可以是于语气助词、时态助词或的结构助词等,例如,的,了,呢,啊,呀等中的任意一个,导致第一差异文本的长度与第二差异文本的长度不同,在此情况下,去除第一差异文本中的语义无关词,以使第一差异文本的长度与第二差异文本的长度相同。
在一些可能的实施例中,若第一差异文本和第一差异文本中均不存在语义无关词,且第一差异文本的长度和第二差异文本的长度不相同,在此情况下,可直接确定目标差异项为真正的差异项。
一具体实施中,目标差异项的获得方式是:对相关联的两个文档先进行扫描获得两份扫描文件,对扫描文件进行OCR识别获得文本内容并对文本内容进行段落切分处理,然后采用基于段落的序列对比算法对两份扫描文件中的段落进行对比,获得目标差异项以及目标差异项的位置信息,目标差异项的位置信息包括目标差异项在扫描文件中的像素坐标。
根据第一单句和第二单句获得该目标差异项对应的目标句子具体为:第一单句为第一差异文本所在的单句,第二单句为第二差异文本所在的单句,可以理解,这两个单句中除去目标差异项以外其他部分均是相同的,因此,提取第一单句和第二单句中相同的文本部分作为目标句子的公共项,目标句子中的遮挡项表示第一单句和第二单句中不同的文本部分,遮挡项中包括至少一个mask,遮挡项中mask的数量与第一差异文本中字的数量或者第二差异文本中字的数量相同,公共项中每个字在目标句子中的相对位置不变。需要说明的是,第一单句和第二单句均是基于对应的位置信息从对应文档的识别结果中提取的。
举例来说,假设相关联的两个文档为第一文档和第二文档,从第一文档和第二文档的识别结果中获取到一组目标差异项为“瘫痪”和“痢疾”,其中,“瘫痪”为第一差异文本,“痢疾”为第二差异文本,基于“瘫痪”的位置信息从第一文档的识别结果中提取到第一差异文本对应的第一单句为“利率市场化或市场瘫痪”,基于“痢疾”的位置信息从第二文档的识别结果中提取到第二差异文本对应的第二单句为“利率市场化或市场痢疾”,对目标差异项进行遮蔽操作以获得该目标差异项对应的目标句子为“利率市场化或市场[mask][mask]”,其中,“利率市场化或市场”为公共项,且公共项中每个字在目标句子中的相对位置不变,“[mask][mask]”为遮挡项。
一具体实施中,在获取到目标差异项对应的目标句子后,将目标句子输入语言预测模型,语言预测模型不妨以基于BERT的语言预测模型为例,基于BERT的语言预测模型利用目标句子中遮挡项的上下文信息对遮挡项进行预测,获得候选词表,候选词表中罗列有遮挡项对应的多个预测结果以及多个预测结果对应的概率,预测结果对应的概率表示该预测结果在目标句子中的mask位置上出现的概率。参见图2,图2是本申请提供的一种基于BERT的语言预测模型的预测示意图,如图2所示,目标句子为“利率市场化或市场[mask][mask]”,将目标句子输入基于BERT的语言预测模型,基于BERT的语言预测模型根据目标句子中“利率市场或市场”中字与字之间的相互关系对目标句子中的两个mask进行预测,以输出包含多个预测结果的候选词表,候选词表中的多个预测结果可以按照对应概率的大小从高到低排列,可以看出,对于目标句子“利率市场化或市场[mask][mask]”,遮挡项“[mask][mask]”位置上出现的词语可能为“瘫痪”、“行为”、“机制”或“准则”等。
基于BERT的语言预测模型的结构具体可参考图3A,如图3A所示,基于BERT的语言预测模型由BERT和分类器组成,其中,BERT包括多个Tranformer Encoder,多个TranformerEncoder层层堆叠。首先输入的可以是句子或句子对,不妨输入以目标句子“利率市场化或市场[mask][mask]”为例,先获取目标句子的词向量和位置编码,位置编码表示该句中字的顺序且能很好地表达字与字之间的距离。将目标句子的词向量和位置编码输入BERT,BERT通过内部的多个Tranformer Encoder基于目标句子的词向量和位置编码获得目标句子中每个字的语义增强向量并输出给分类器,最后分类器对BERT的输出进行逻辑回归分类以输出预测结果,例如,候选词以及候选词对应的概率。需要说明的是,分类器可以是全连接层,全连接层中的每个神经元与BERT的输出进行全连接,用于整合BERT中具有类别区分性的局部信息,最后对获得的数据进行逻辑回归分类后输出预测结果。
不妨以一个Tranformer Encoder为例对其具体结构进行说明,参见图3B,Tranformer Encoder包括多头自注意力(Multi-head Self-Attention)、层标准化(LayerNormalization)和线性变换(Linear Transformation)。其中,Multi-head Self-Attention可以理解成多种语义场景下目标字与文本中其它字的语义向量的不同融合方式。Multi-head Self-Attention的输入和输出在形式上完全相同,输入为文本中各个字的原始向量,输出为各个字融合了全文语义信息后的语义增强向量。另外,残差连接用于将模块的输入叠加在输出以使模型的训练更容易。层标准化类似于批标准化,层标准化是沿着词嵌入的维度进行标准化的。线性变换用于对层标准化后的向量做两次线性变换,从而获得语义增强向量,以增强整个模型的表达能力。
Multi-head Self-Attention即为多个Self-Attention的级联,下面讲述Self-Attention。Self-Attention主要涉及到三个概念:查询向量(Query,Q)、键向量(Key,K)和值向量(Value,V)。Self-Attention将目标字作为Q、其上下文的各个字作为K,并将Q与各个K的相似性作为权重,把上下文各个字的V融入目标字的原始V中,且Q、K、V来自同一输入文本。简单理解,Q是目标字的特征,K是上下文信息的特征,V是上下文信息的内容,且K与V一一对应。具体地,将目标字和上下文各个字的语义向量表示作为输入,首先通过线性变换获得目标字的Q向量表示、上下文各个字的K向量表示以及目标字与上下文各个字的原始V向量表示,然后计算Q向量与各个K向量的相似度作为权重,加权融合目标字的V向量和各个上下文字的V向量,作为Attention的输出,即:目标字的语义增强向量。
可以看出,Attention的计算主要分为三步,第一步是将Q和每个K进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的V进行加权求和得到最后的attention。
举例来说,对于目标句子“利率市场化或市场[mask][mask]”,Self-Attention具体过程为:将目标句子中的每个字依次作为目标字,计算该字与上下文所有字之间的相互关系,从而获得该句中每个字的语义增强向量。
Self-Attention的原理可参见公式(1):
Figure BDA0002842206770000121
其中,QKT表示各个Q向量(目标字的特征)与各个K向量(上下文信息的特征)之间的相似度,
Figure BDA0002842206770000122
表示各个目标字与各个上下文信息的相似程度的分布(即权值),Attention(Q、K、V)表示值向量的加权求和,从而获得各个目标字的语义增强向量。
要说明的是,语言预测模型是预先训练好的,但训练语言预测模型的语料是有针对性的,例如,若语言预测模型用于预测合同中句子中的词,则训练语言预测模型的语料即为各种合同文件。又例如,若语言预测模型用于预测投标书中句子中的词,则训练语言预测模型的语料即为各种投标书。本申请对训练语言预测模型的语料不做具体限定。
进一步地,在获得候选词表后,由于预先已获取目标差异项,故第一差异文本和第二差异文本是已知的,在候选词表中查找第一差异文本对应的第一概率和第二差异文本对应的第二概率,分别比较第一概率、第二概率和第一阈值的关系以确定目标差异项是否为真正的差异项,其中,第一阈值基于经验设定的。
所谓在候选词表中查找第一差异文本对应的第一概率具体为:将第一差异文本与候选词表中每个候选词进行匹配,即当第一差异文本与候选词表中的某个预测结果相同时,说明候选词表中存在第一差异文本,则第一差异文本与该预测结果匹配成功,故第一概率为与第一差异文本匹配成功的预测结果对应的概率;当第一差异文本与候选词表中的每个预测结果均不相同时,也说明候选词表中不存在第一差异文本,则第一差异文本匹配失败,第一概率设置为预设值,例如,0、0.01或其他值。需要说明的是,候选词表中不存在第一差异文本的情况可能是:第一差异文本为生僻字、符号、象形字、表情、繁体字等。
举例来说,以图2的候选词表为例进行说明,假设第一差异文本为“瘫痪”,将“瘫痪”与候选词表中四个预测结果(包括“瘫痪”、“行为”、“机制”和“准则”)依次进行匹配,第一差异文本“瘫痪”与候选词表中的“瘫痪”匹配成功,故第一概率为候选词表中“瘫痪”对应的概率。若假设第一差异文本为“廣泛”,将“廣泛”与图2的候选词表中四个预测结果(包括“瘫痪”、“行为”、“机制”和“准则”)依次进行匹配,发现第一差异文本为“廣泛”与四个预测结果中的每个预测结果均不相同,故第一差异文本匹配失败,将第一差异文本“廣泛”对应的第一概率可以设置为0。
对第一概率和第二概率进行相关说明:当第一差异文本(或第二差异文本)为单字时,则候选词表中的各预测结果也是单字,故第一概率(或者第二概率)即为第一差异文本对应的概率。当第一差异文本(或第二差异项文本)包含多个字时,则候选词表中每个预测结果也由多个字组成,且每个预测结果中的每个字都有对应的概率,在此情况下,第一概率是基于候选词表中第一差异文本中各个字的概率得到的,同理,第二概率是基于候选词表中第二差异文本中各个字的概率得到的。例如,第一概率可以是对第一差异文本中各个字的概率进行加权求和获得的。又例如,第一概率可以是第一差异文本的各个字的概率中的最小概率。同理,第二概率的获得方式可以参考第一概率的获得方式,在此不再赘述。
一具体实施中,当第一概率大于等于第一阈值且第二概率大于等于第一阈值时(即第一概率和第二概率满足预设条件),则说明第一差异文本识别正确且第二差异文本识别正确,判定由第一差异文本和第二差异文本组成的目标差异项是真正的差异项。若第一概率小于第一阈值,则无法确定第一差异文本是否识别正确,同理,若第二概率小于第一阈值,则无法确定第二差异文本是否识别正确,因此,也无法确定该目标差异项是否为真正的差异项。
在一些可能的实施例中,当第一概率小于第一阈值或第二概率小于第二阈值时,相应地,即说明无法确定第一差异文本和/或第二差异文本是否识别正确,在此情况下,需基于候选词表进行第一差异文本和/或第二差异文本的纠错处理,然后再判定经过纠错后的目标差异项是否为真正的差异项。
纠错处理过程具体为:以第一差异文本为例进行纠错过程的示例性说明(假设无法确定第一差异文本是否识别正确),首先,依次计算候选词表中每个预测结果与第一差异文本之间的字形相似度,获得每个预测结果对应的字形相似度,对每个预测结果对应的字形相似度和该预测结果对应的概率进行加权求和获得该预测结果的评分,由此可获得第一差异文本对应的各个预测结果的评分,将第一差异文本对应的各个预测结果的评分分别与第二阈值进行比较,当各个预测结果的评分中仅有一个预测结果的评分大于等于第二阈值时,则将该预测结果作为更正后的第一差异文本,且将更正后的第一差异文本作为识别正确的结果。当第一差异文本对应的各个预测结果的评分中有多个预测结果的评分均大于等于第二阈值时,在此情况下,则无法获得更正后的第一差异文本,也就无法对第一差异文本进行纠错或者说对第一差异文本纠错失败。
在一些可能的实施例中,在对上述第一差异文本进行纠错的过程中,还可以选择候选词表中概率由高到低排序前S组预测结果,S为正整数,S为根据人工经验设置的,然后计算第一差异文本与前S个预测结果中每个预测结果之间的字形相似度,无需计算候选词表中每个预测结果与第一差异文本之间的相似度,从而大大提高了纠错过程的处理效率。
在一些可能的实施例中,当第一差异文本对应的各个预测结果的评分中有多个预测结果的评分均大于等于第二阈值时,可以将各个预测结果的评分结果进行降序排列,选择前N个评分较高的预测结果作为第一差异文本对应的N个候选词,以用于后续的差异项判别模型。可以理解,若从候选词表中挑选了S个预测结果进行评分的计算,则N个候选词是从S个预测结果中确定的,且N小于S。
在一些可能的实施例中,当第一概率小于第一阈值或第二概率小于第一阈值时,也可以无需将第一差异文本对应的各个预测结果的评分或第二差异文本对应的各个预测结果的评分与第二阈值比较,直接通过上述方式(即根据字形相似度和概率计算各预测结果的评分并将各预测结果的评分进行排序)从候选词表中确定第一差异文本对应的N个候选词以及第二差异文本对应的N个候选词,以用于差异项判别模型。
需要说明的是,字形相似度可以由基于表意文字描述序列(IdeographicDescription Sequences,IDS)的编辑距离衡量,编辑距离越小,则说明第一差异文本与某预测结果的字形相似度越高。其中,IDS是利用定义的十二种组合字符,来描述字的内部构字部件的相对位置,从而获得字的描述序列。编辑距离是指两个字符串之间,由一个转换成另一所需的最少编辑操作次数,其中,编辑操作可以是:将一个字符替换成另一个字符、***一个字符或删除一个字符。
一具体实施中,若目标差异项中第二差异文本识别正确(即第二概率大于等于第一阈值),但无法确定第一差异文本是否识别正确(即第一概率小于第一阈值),若对第一差异文本进行纠错后获得了更正后的第一差异文本,则判断更正后的目标差异项是否为真正的差异项,具体地,比较第二差异文本和更正后的第一差异文本,若两者相同,则判定经纠错后的目标差异项不是真正的差异项;若两者不相同,则判定经纠错后的目标差异项是真正的差异项。
另一具体实施中,若目标差异项中的第一差异文本和第二差异文本均无法确定是否识别正确(即第一概率和第二概率均小于第一阈值),则依据上述方法分别对第一差异文本和第二差异文本进行纠错处理,再判断经纠错后的目标差异项是否为真正的差异项。可以理解,仅当获得更正后的第一差异文本和更正后的第二差异文本后,才能判定更正后的目标差异项是否是真正的差异项,具体地,当更正后的第一差异文本与更正后的第二差异文本不同时,则更正后的目标差异项是真正的差异项;当更正后的第一差异文本与更正后的第二差异文本相同时,则更正后的目标差异项不是真正的差异项。当无法获得更正后的第一差异文本和更正后的第二差异文本中的至少一个时,需要利用差异项判别模型判定目标差异项是否为真正的差异项。
可以看到,实施本申请实施例,通过语言预测模型获取目标差异项中各项对应的概率,基于目标差异项中各项对应的概率实现对目标差异项的判别,能有效确定真正的差异项。另外,对未能确定真假的目标差异项,进一步结合目标差异项中的各项与语言预测模型输出的候选词表各预测结果之间的相似度进行判别,有利于确定真正的差异项,提高文档对比结果的准确率。
结合上述基于语言预测模型和纠错处理对目标差异项进行判断的过程中,仍有一些情况无法确定目标差异项是否是真正的差异项。例如,第一差异文本对应的第一概率小于第一阈值或者第二差异文本对应的第二概率小于第一阈值。又例如,在对第一差异文本和/或第二差异文本进行纠错的过程中,获得了第一差异文本对应的各预测结果的评分大于第二阈值的数量有多个或者第二差异文本对应的各预测结果的评分大于第二阈值的数量有多个。在此情况下,需要采用差异项判别模型实现对目标差异项的判别,差异项判别模型是融合了文本、位置以及图像信息的深度学习模型。
差异项判别模型基于第一差异文本对应的输入数据和第二差异文本对应的输入数据对目标差异项进行判别,以输出目标差异项的判别结果。参见图4,图4是本申请实施例提供的一种差异项判别模型的框图示例,差异项判别模型包括第一特征提取网络、第二特征提取网络、线性处理单元和分类器,其中,第一特征提取网络的输出、第二特征提取网络的输出分别与线性处理单元的输入连接,线性处理单元的输出与分类器的输入连接。
具体地,第一特征提取网络基于第一差异文本对应的输入数据提取第一特征向量,第一特征向量表示融合了第一单句的文本、位置编码、位置信息和图像信息的高级语义特征,第二特征提取网络基于第二差异文本对应的输入数据提取第二特征向量,第二特征向量表示融合了第二单句的文本、位置编码、位置信息和图像信息的高级语义特征,线性处理单元用于对第一特征向量和第二特征向量进行线性处理获得第三特征向量,第三特征向量表示第一单句的高级语义特征与第二单句的高级语义特征之间的差异,分类器用于对第三特征向量进行二分类以判定第一差异文本和第二差异文本组成的目标差异项是否为真正的差异项。需要说明的是,第一特征提取网络和第二特征提取网络是完全相同的。关于第一差异文本对应的输入数据和第二差异文本对应的输入数据在下文进行相关介绍,在此不再赘述。
由于第一差异文本对应的第一特征提取网络和第二差异文本对应的第二特征提取网络是相同的,不妨以第一差异文本对应的第一特征提取网络为例,以说明第一特征提取网络的内部结构以及各部分的输入和输出。
参见图5,图5是本申请实施例提供的一种第一特征提取网络的结构示意图,第一特征提取网络包括第一文本编码端、第一图像编码端和第一深度学习模型,其中,第一文本编码端的输出和第一图像编码端的输出分别与第一深度学习模型的输入连接。由图5可以看出,第一特征提取网络基于应的输入数据输出第一特征向量,第一差异文本对应的输入数据包括第一单句对应的第一信息和第一单句的第一图像。具体地,第一文本编码端基于第一信息提取第一融合特征,第一融合特征表示融合了第一单句的文本、第一单句中字的位置编码和位置信息的中级语义特征,第一图像编码端基于第一图像提取第一图像特征,第一图像特征表示第一单句每个字的图像特征。第一深度学习模型用于融合第一融合特征和第一图像特征以输出第一特征向量。
其中,第一信息包括第一单句中每个字的词向量、第一单句中每个字的位置编码和第一单句中每个字的位置信息,其中,字的词向量表示该字的文本信息,字的位置编码表示该字在第一单句中的相对位置,字的位置信息表示该字在原图像中的像素坐标、字高和字宽的信息。第一特征提取网络可以基于第一信息和第一图像输出第一特征向量。
在一些可能的实施例中,还可以将第一差异文本对应的候选词引入第一信息中,在此情况下,第一信息具体包括:第一单句融合N个候选词后对应的词向量、第一单句融合N个候选词后对应的位置编码和第一单句融合N个候选词后对应的位置信息。需要说明的是,第一信息中,N个候选词与第一差异文本对应。其中,第一单句融合N个候选词后对应的词向量包括第一单句中每个字的词向量和第一差异文本对应的N个候选词的词向量,第一单句融合N个候选词后对应的位置编码包括第一单句中每个字的位置编码和第一差异文本对应的N个候选词的位置编码,第一单句融合N个候选词后对应的位置信息包括第一单句中每个字的位置信息和第一差异文本对应的N个候选词的位置信息。需要说明的是,第一差异文本对应的N个候选词的确定方式可参考上述描述,在此不再赘述。
需要说明的是,当第一信息中包括第一差异文本对应的N个候选词的相关信息(即词向量、位置编码和位置信息)时,上述第一融合特征表示融合了第一单句的文本、第一单句中字的相对位置(位置编码)和位置信息、第一差异文本对应的候选词的文本、候选词在第一单句中的相对位置和候选词的位置信息的中级语义特征。相应地,当第一信息中引入了第一差异文本对应的候选词的相关信息时,第一特征向量表示融合了第一单句的文本、位置编码、位置信息和图像信息以及第一差异文本对应的候选词的文本、位置编码和位置信息的高级语义特征。相应地,若第一信息中引入了第一差异文本对应的N个候选词,第二信息中也会引入第二差异文本对应的N个候选词,在此情况下,第二融合特征表示融合了第二单句的文本、第二单句中字的相对位置(位置编码)和位置信息、第二差异文本对应的候选词的文本、候选词在第二单句中的相对位置和候选词的位置信息的中级语义特征,第二特征向量表示融合了第二单句的文本、位置编码、位置信息和图像信息以及第二差异文本对应的候选词的文本、位置编码和位置信息的高级语义特征。第三特征向量表示第一单句引入第一差异文本对应的N个候选词后的高级语义特征和第二差异文本对应的N个候选词后的高级语义特征之间的差异。
可以看出,第一信息中引入了在第一差异文本的位置上对应的可能的真正的内容特征,即第一差异文本对应的多个候选词,其中,候选词的个数为N,N是根据人工经验预先设定的。因此,对第一文本编码端的输入进行了改进。另外,为了使第一差异文本对应的多个候选词仅对第一差异文本产生影响,而不对第一差异文本所在的第一单句中的其他字产生影响,设定了矩阵M用于后续第一文本编码端的编码,以使引入的第一差异文本对应的多个候选词仅对第一差异文本产生影响。
需要说明的是,当第一差异文本仅包括一个字时,第一差异文本对应的N个候选词中每个候选词的位置编码与第一差异文本的位置编码相同,第一差异文本对应的N个候选词中每个候选词的位置信息与第一差异文本的位置信息相同。当第一差异文本中包括多个字时,第一差异文本对应的N个候选词中每个候选词的位置编码与第一差异文本的位置编码一一对应,第一差异文本对应的N个候选词中每个候选词的位置信息与第一差异文本的位置信息一一对应。
下面具体介绍第一文本编码端的输入,参见图6,如图6所示,假设第一差异文本为“体”,第一差异文本所在的第一单句为“体协议具体如下”,第一单句是基于第一差异文本的位置信息从第一文档的识别结果中提取出的,假设N为3,即第一差异文本“体”对应的有三个候选词,分别为“本”、“该”和“此”,这三个候选词为第一差异文本所在位置上可能的真正内容。需要说明的是,上述第一图像即为第一单句“体协议具体如下”对应的图像。
结合图6对第一文本编码端的三个输入进行说明:第一单句融合N个候选词后对应的词向量为:如图6,“CLS体本该此协议具体如下”即为引入了3个候选词后的第一单句,根据字典获取“CLS体本该此协议具体如下”每个字对应的词向量依次为{ECLS,E,E,E,…,E};第一单句融合N个候选词后对应的位置编码用于表示该句中字与字之间的位置关系,如图,“CLS体本该此协议具体如下”对应的位置序号为{0,1,2,3,…,10},获取“CLS体本该此协议具体如下”中每个字对应的位置编码依次为{E0,E1,E2,E3,…,E10},需要说明的是,候选词的位置编码与第一差异文本的位置编码相同,也就是说,E1=E2=E3=E4;第一单句融合N个候选词后对应的位置信息包括该句中每个字的坐标信息(横坐标x和纵坐标y)、高度h和宽度w,其中,每个字的坐标信息、高度和宽度是从OCR识别结果中提取出来的,可以理解,OCR识别结果中组成每个字的像素值可以设置为“0”,背景的像素值设置为“1”,则每个字显示为白色,背景显示为黑色,故字的高度h为该字的最小外接矩形的高度,字的宽度w为该字的最小外接矩形的宽度,字的横坐标x为该字的最小外接矩形的中心坐标的列坐标,字的纵坐标y为该字的最小外接矩形的中心坐标的行坐标。需要说明的是,候选词的位置信息与第一差异文本的位置信息相同。
在一些可能的实施例中,当第一差异文本包括多个字时,候选词的位置编码以及位置信息均与第一差异文本的位置编码以及位置信息分别一一对应。例如,假设第一差异文本为“瘫痪”,第一差异文本对应的一个候选词为“痢疾”,则在获得第一差异文本对应的第一单句融合候选词后对应的位置编码、位置信息时,候选词中“痢”的位置编码与“瘫”的位置编码相同,候选词中“痢”的位置信息与“瘫”的位置信息相同,候选词中“疾”与“痪”的位置编码相同,候选词中“疾”的位置信息与“痪”的位置信息相同。
在获取到第一文本编码端的三个输入后,还需设置矩阵M以使引入的候选词仅对第一单句中的第一差异文本产生影响,而对第一单句中除第一差异文本以外的字不产生影响。如图6的右侧所示,矩阵M的大小为11*11,M中深色格子表示对应的字与字之间可见,深色格子中对应的值可以设置为“0”;矩阵M中浅色格子表示对应的字与字之间不可见,浅色格子中对应的值可以设置为“-∞”。其中,候选词“本”的序号为2,候选词“该”的序号为3,候选词“此”的序号为4,第一差异文本“体”的序号为1,可以看到,M(1,2)=M(2,1)=1,即说明“体”与“本”互相可见,而M(5,2)=M(2,5)=-∞,即说明“本”与“协”互相不可见,因此,设置三个候选词对第一差异文本可见,设置候选词对第一单句中除第一差异文本外其他字不可见以及其他候选词不可见,由此实现候选词仅对第一单句中的第一差异文本产生影响,避免了候选词对第一差异文字所在的上下文产生影响。
在一些可能的实施例中,当第一差异文本包括多个字时,则候选词也包括多个字,在此情况下,候选词中的字仅对第一差异文本中与该字对应位置上的字产生影响。例如,假设第一差异文本为“痢疾”,第一差异文本对应的多个候选词为“瘫了”和“瘫痪”,则设置“瘫”仅对“痢”可见,“了”和“痪”仅对“疾”可见。
相应地,第一文本编码端的编码表示也需要进行相应地修改,第一文本编码端的自注意力公式为公式(2):
Figure BDA0002842206770000171
Figure BDA0002842206770000172
其中,QKT+M表示各个Q向量(目标字的特征)与各个K向量(上下文信息的特征)之间的相似度(即权值),相似度计算中引入了候选词的影响因素,参数公式(3),当目标字对应的Q向量与上下文信息的某个字对应的K向量可见时,M为0,则QKT+MQKT;当目标字对应的Q向量与上下文信息的某个字对应的K向量不可见时,M为-∞,则QKT+M也为-∞。相应地,
Figure BDA0002842206770000173
表示各个目标字与各个上下文信息的相似程度的分布(即对权值做了归一化),当某目标字对应的Q向量与某个字的K向量不可见时,M为-∞时,
Figure BDA0002842206770000181
为0,则说明该目标字与该字之间没有相关性,由此实现了引入的候选词只对第一差异文本产生影响。在Attention(Q、K、V、M)表示值向量的加权求和,从而获得各个目标字的增强语义向量,各个目标字的增强向量即为第一融合特征。
需要说明的是,对于公式(2)和公式(3),当某目标字对应的Q向量与某个字的K向量不可见时,M(i,j)设置为-∞,
Figure BDA0002842206770000182
为0,则该目标字与该字之间没有相关性,换句话说,该目标字与该字之间没有相关度为0。在一些可能的实施例中,当某目标字对应的Q向量与某个字的K向量不可见时,M(i,j)还可以设置为其他值,以使
Figure BDA0002842206770000183
为预设值,该预设值可以是0.1、0.2、0.01、0.001或其他值,则该目标字与该字之间的相关度也为该预设值,以使该目标字与该字之间的相关度尽可能小或者忽略不计。
需要说明的是,第一文本编码端可以是图3A中的BERT,第一文本编码端的结构可参考图3A中的BERT结构。
综上,第一文本编码端基于上述获得的三个输入(第一单句融合候选词后对应的词向量、第一单句融合候选词后对应的位置编码和第一单句融合候选词后对应的位置信息)获得第一融合特征。
第一特征提取网络中第一图像编码端用于提取第一差异文本所在的第一单句的图像特征信息。第一图像编码端可以采用卷积神经网络(Convolutional neuron nrtwork,CNN)。CNN包括输入层、卷积层/池化层,其中池化层为可选的,全连接层和输出层。其中,输入层表示输入数据,此处输入数据为第一差异文本所在的第一单句的图像,输出层的输出数据为第一图像特征。
卷积层/池化层中,卷积层可以包括多个卷积算子,其作用相当于从输入的数据中提取特定信息的过滤器,池化层的作用是为了减少训练参数的数量,提高网络的训练速度,因此在卷积之后常常周期性地加入池化层。卷积层和池化层可以相邻间隔分布,即每一个卷积层后面紧跟一个池化层,也可以多个卷积层后跟一个池化层,本申请对卷积层/池化层的层数不做具体限定。全连接层,经过多个卷积层/池化层后,常连接着一个或一个以上的全连接层,全连接层中的每个神经元与其前一层的所有神经元进行全连接,用于整合卷积层或者池化层中具有类别区分性的局部信息,最后一层全连接层的输出值传递给输出层。本申请中,输出层对接收到来自全连接层的第一图像特征直接输出,无需做任何处理。在一些可能的实施例中,第一图像编码端还可以是OCR识别网络中获取文本对应的图像的特征的网络。
参见图5,在获取到第一文本编码端输出的第一融合特征和第一图像编码端输出的第一图像特征后,将第一融合特征和第一图像特征输入第一特征提取网络的第一深度模型中进行特征提取,以获得第一特征向量,可以看出,第一特征向量为第一深度学习模型通过融合文本、位置以及图像信息获得的,第一特征向量能更好地表征第一单句融合了第一差异文本对应的候选词后的整体特征。在一些可能的实施例中,在获得第一融合特征和第一图像特征后,将第一融合特征和第一图像特征进行拼接,将拼接后获得的向量输入第一深度学习模型以提取第一特征向量。
第一深度学习模型可以采用LSTM模型,LSTM是一种时间递归神经网络,可以较好地刻画具有时空关联的序列数据,关于LSTM模型的相关描述可参考上述描述,在此不再赘述。
可以看出,在纠错过程中获取第一差异文本对应的N个候选词后,可通过上述第一特征提取网络获得第一特征向量。若想判断第一差异文本和第二差异文本组成的目标差异项是否是真正的差异项,还需通过第二特征提取网络获得第二特征向量。需要说明的是,若第一差异文本在纠错过程中确定了N个候选词,无论第二差异文本是否需要进行纠错,都需要采用相同的方法从候选词表中确定第二差异文本对应的N个候选词,即基于候选词表中预测结果与第二差异文本之间的字形相似度以及预测结果对应的概率计算预测结果的评分,再从获得的多个预测结果的评分中确定前N个较高的评分对应的预测结果作为第二差异文本对应的N个候选词。故第二特征提取网络可基于第二单句融合N个候选词后对应的词向量、第二单句融合N个候选词后对应的位置编码、第二单句融合N个候选词后对应的位置信息和第二单句的第二图像提取第二特征向量。
一具体实施中,若确定了第一差异文本对应的N个候选词,但第二差异文本识别正确(即第二差异文本对应的第二概率大于第一阈值)时,则说明第二差异文本没有对应的多个候选词,为了使第一文本编码端的输入与第二文本编码端的输入对齐,一具体实施中,可通过上述基于预测结果的评分的方式确定第二差异文本对应的N个候选词。另一具体实施中,也可以给第二差异文本对应的第二单句进行补零操作,使得补零后的第二单句的长度与引入了N个候选词后的第一单句的长度相同。
一具体实施中,若确定了第一差异文本对应的N个候选词,且第二差异文本在纠错过程中获得更正后的第二差异文本,即第二差异仅文本仅对应一个候选词,为了使第一文本编码端的输入与第二文本编码端的输入对齐,一具体实施中,在此情况下,可以再从候选词表中根据预测结果的评分的排序结果中选择(N-1)个候选词,由此第二差异文本对应的候选词的个数为N。另一具体实施中,也可以对引入了一个候选词后的第二单句进行补零操作,使得补零后的第二单句的长度与引入了N个候选词后的第一单句的长度相同。
第二特征提取网络的结构与第一特征提取网络的结构相同,即第二特征提取网络包括第二文本编码端、第二图像编码端和第二深度学习模型,其中,第二文本编码端的输出和第二图像编码端的输出分别与第二深度学习模型的输入连接。第二文本编码端的输入为第二单句融合N个候选词后对应的词向量、第二单句融合N个候选词后对应的位置编码和第二单句融合N个候选词后对应的位置信息,第二文本编码端的输出为第二融合特征;第二图像编码端的输入为第二差异文本所在第二单句的图像,第二图像编码端的输出为第二图像特征。第二深度学习模型用于融合第二融合特征和第二图像特征以输出第二特征向量。第二特征提取网络中各部分的实现过程可参考上述第一特征提取网络中各部分的实现过程,为了说明书的简洁,在此不再赘述。
最后,在获得第一特征提取网络输出的第一特征向量和第二特征提取网络输出的第二特征向量后,将第一特征向量和第二特征向量做线性处理获得第三特征向量,例如,假设第一特征向量为U,第二特征向量为V,则对第一特征向量和第二特征向量进行线性处理可以是:将U和V相加后的向量加上U和V相减后的向量的绝对值以获得第三特征向量,即U+V+|U-V|为第三特征向量,需要说明的是,线性处理使得第三向量融合了第一特征向量和第二特征向量之间的关系。将第三特征向量输入至差异项判别模型的分类器中,分类器可以是softmax,softmax对第三特征向量进行二分类以判断目标差异项是否为真正的差异项。
一具体实施中,softmax对第三特征向量进行二分类,分别输出目标差异项为真正的差异项对应的概率以及目标差异项不是真正差异项对应的概率,当目标差异项为真正的差异项对应的概率大于目标差异项不是真正差异项对应的概率时,则确定目标差异项为真正的差异项;当目标差异项为真正的差异项对应的概率小于目标差异项不是真正差异项对应的概率时,则确定目标差异项不是真正的差异项。
可以看到,实施本申请实施例,通过融合了目标差异项的文本、位置和图像信息的深度学习模型实现对目标差异项是否为真正的差异项的判别,引入目标差异项对应的语言预测模型输出的目标差异项对应的候选词特征,对目标差异项的文本和位置信息的编码方式进行了改进,能有效过滤非真正的差异项(由OCR识别错误导致),提高了文档对比中真正差异项的识别准确率,从而提高了文档对比结果的准确率。
下面介绍差异项判别模型的训练过程。
首先,需准备样本数据,针对同一类型(例如,合同)对应的多组文档,从多组文档中获取正差异项样本的样本数据和负差异项样本的样本数据,其中,正差异项样本表示真正的差异项,负差异项样本表示非真正的差异项。正差异项样本和负差异项样本可由人工标注,对于待比较的两个文档的OCR识别结果,人工对比识别结果与对应的文档原件,即可标注正差异项样本和负差异项样本。
其中,正差异项样本的样本数据包括:正差异项样本对应的单句的文本以及位置信息和正差异项样本对应的单句的图像,正差异项对应的单句的位置信息包括该单句中每个字的横坐标、纵坐标、宽度和高度,正差异项对应的数据是从正差异项对应的文档的OCR识别结果中获得的。同理,负差异项样本的样本数据包括:负差异项样本对应的单句的文本以及位置信息和负差异项样本对应的单句的图像。可以理解,无论是正差异项样本还是负差异项样本都是成对的。
将正差异项样本的样本数据和负差异项样本的样本数据依次输入差异项判别模型对差异项判别模型进行训练,以正差异项样本的样本数据为例,将一组正差异样本中第一差异样本的样本数据输入至差异项判别模型的第一特征提取网络以提取第一特征向量,将该组正差异样本中第二差异样本的样本数据输入至差异项判别模型的第二特征提取网络以提取第二特征向量,将第一特征向量和第二特征向量进行线性处理获得第三特征向量,差异项判别模型的分类器对第三特征向量进行二分类输出分类结果,基于对该正差异项样本的分类结果与该正差异项样本对应的标签计算损失,根据损失训练差异项判别模型,以使差异项判别模型对输入数据的判别结果与该输入数据对应的标签一致。
参见图7,下面描述本申请实施例提供的一种差异项判别方法,该方法包括但不限于以下步骤:
S101、获取目标差异项,目标差异项包括第一差异文本和第二差异文本。
一具体实施中,目标差异项是根据第一单句的识别结果与第二单句的识别结果获得的。在目标差异项中,第一差异文本包括的字的数量与第二差异文本包括的字的数量相同,换句话说,第一差异文本的长度与第二差异文本的长度相等。第一单句和第二单句分别来自相关联的两个文档。
S102、基于语言预测模型确定第一差异文本对应的第一概率和第二差异文本对应的第二概率。
一具体实施中,提取目标差异项对应的目标句子,目标句子包括公共项和遮挡项,其中,公共项为第一差异文本所在的第一单句和第二差异文本所在的第二单句中的相同文本,遮挡项为待预测的项。然后,将目标句子输入语言预测模型对遮挡项进行预测,获得遮挡项对应的候选词表,候选词表中包括多个预测结果和多个预测结果对应的概率,在候选词表中查找第一差异文本并获得第一差异文本对应的第一概率,同理,在候选词表中查找第二差异文本并获得第二差异文本对应的第二概率。语言预测模型可以是基于BERT的语言预测模型。相关具体过程可参考上述描述,在此不再赘述。
S103、判断第一概率和第二概率是否均大于等于第一阈值。
一具体实施中,当第一概率和第二概率满足均大于等于第一阈值时,执行S104;当第一概率和第二概率不满足均大于等于第一阈值时,执行S105。其中,第一阈值是根据人工经验预先设定的。
S104、确定目标差异项为真正的差异项。
一具体实施中,当第一概率和第二概率满足均大于等于第一阈值时,则说明第一差异文本和第二差异文本均识别正确,故确定目标差异项为真正的差异项。
S105、当存在目标概率小于第一阈值时,根据第一预设条件从候选词表中确定第一差异文本对应的N个候选词和第二差异文本对应的N个候选词。
一具体实施中,当存在目标概率小于第一阈值时,目标概率为第一概率或第二概率,即当第一概率小于第一阈值或第二概率小于第一阈值时,根据第一预设条件确定第一差异文本对应的N个候选词和第二差异文本对应的N个候选词。
具体地,当第一概率和第二概率中存在任意一者小于第一阈值时,根据候选词表中每个预测结果与第一差异文本之间的字形相似度和该预测结果对应的概率计算每个预测结果的评分,将基于第一差异文本获得的多个预测结果的评分进行降序排序,第一预设条件可以是取前N个较高的评分对应的预测结果,从而获得第一差异文本对应的N个候选词。对于第二差异文本,根据候选词表中每个预测结果与第二差异文本之间的字形相似度和该预测结果对应的概率计算每个预测结果的评分,将基于第二差异文本获得的多个预测结果的评分进行降序排序,第一预设条件可以是取前N个较高的评分对应的预测结果,从而获得第二差异文本对应的N个候选词。
S106、获取第一差异文本对应的第一数据和第二差异文本对应的第二数据,利用差异项判别模型基于第一数据和第二数据判断目标差异项是否为真正的差异项。
具体地,获取第一差异文本对应的第一数据和第二差异文本对应的第二数据,利用差异项判别模型基于第一数据和第二数据判断目标差异项是否为真正的差异项。差异项判别模型可参考上述相关描述,在此不再赘述。
第一数据包括第一差异文本所在的第一单句对应的第一信息和第一单句的第一图像,第二数据包括第二差异文本所在的第二单句对应的第二信息和第二单句的第二图像。其中,第一信息包括第一单句融合第一差异文本对应的N个候选词后的词向量、第一单句融合第一差异文本对应的N个候选词后的位置编码和第一单句融合第一差异文本对应的N个候选词后的位置信息,第二信息包括第二单句融合第二差异文本对应的N个候选词后的词向量、第二单句融合第二差异文本对应的N个候选词后的位置编码和第二单句融合第二差异文本对应的N个候选词后的位置信息。
对于第一信息,所谓第一单句融合第一差异文本对应的N个候选词后的词向量包括第一单句中每个字的词向量和第一差异文本对应的N个候选词的词向量,第一单句融合第一差异文本对应的N个候选词后对应的位置编码包括第一单句中每个字的位置编码和第一差异文本对应的N个候选词的位置编码,第一单句融合第一差异文本对应的N个候选词后对应的位置信息包括第一单句中每个字的位置信息和第一差异文本对应的N个候选词的位置信息。第二信息中各部分的说明也可以参考上述第一信息中的相关说明,在此不再赘述。
S106中利用差异项判别模型基于第一数据和第二数据判断目标差异项是否为真正的差异项的具体过程具体可参考上述的相关叙述,在此不再赘述。
在一些可能的实施例中,当存在目标概率小于第一阈值时,也可以不执行S105,直接执行S106,在此情况下,由于未确定第一差异文本对应的N个候选词和第二差异文本对应的N个候选词,故第一信息仅包括第一单句中每个字对应的词向量、第一单句中每个字的位置编码和第一单句中每个字的位置信息,第二信息仅包括第二单句中每个字的词向量、第二单句中每个字的位置编码和第二单句中每个字的位置信息。利用差异项判别模型基于第一数据和第二数据对目标差异项进行判别。
可以看到,实施本申请实施例,通过语言预测模型获取目标差异项中各项对应的概率,基于目标差异项中各项对应的概率实现对目标差异项的判别,能有效确定真正的差异项。对于预言预测模型不能确定真伪的目标差异项,通过融合了目标差异项的上下文信息、图像以及目标差异项对应的候选词特征等深度学习模型实现对目标差异项是否为真正的差异项的判别,能有效过滤非真正的差异项(由OCR识别错误导致),提高了文档对比结果中真正差异项的准确率,从而提高了文档对比结果的准确率。
参见图8,图8是本申请提供的又一种差异项判别方法,需要说明的是,图8实施例可以独立于图7实施例,也可以是对图7实施例的补充。该方法包括但不限于以下步骤:
S201、获取目标差异项,目标差异项包括第一差异文本和第二差异文本。本步骤具体可参考图7实施例中S101的相关描述,这里不再赘述。
S202、基于语言预测模型确定第一差异文本对应的第一概率和第二差异文本对应的第二概率。本步骤具体可参考图7实施例中S102的相关描述,这里不再赘述。
S203、判断第一概率和第二概率是否均大于等于第一阈值。本步骤具体可参考图7实施例中S103的相关描述,这里不再赘述。
S204、确定目标差异项为真正的差异项。本步骤具体可参考图7实施例中S104的相关描述,这里不再赘述。
S205、当存在目标概率小于第一阈值时,根据第二预设条件从候选词表中确定目标文本对应的候选词。
具体地,根据第二预设条件从候选词表中确定目标文本对应的候选词,目标文本为目标概率对应的文本,例如,当目标概率为第一概率时,目标文本为第一差异文本;当目标概率为第二概率时,目标文本为第二差异文本。其中,第二预设条件为候选词表中候选词的评分大于等于第二阈值,候选词的评分由该候选词对应的概率以及该候选词与目标文本之间的字形相似度确定。
一具体实施中,当仅有第一概率小于第一阈值时,则根据第二预设条件从候选词表中确定第一差异文本对应的候选词。一具体实施中,当仅有第二概率小于第一阈值时,则根据第二预设条件从候选词表中确定第二差异文本对应的候选词。一具体实施中,若第一概率小于第一阈值且第二概率小于第一阈值,则分别从候选词表中确定第一差异文本对应的候选词以及第二差异文本对应的候选词。
S206、判断候选词的数量是否为1。
一具体实施中,当候选词的数量为1时,执行S107;当候选词的数量不为1时,执行S108。
S207、对目标差异项中的目标文本进行更正,判断更正后的目标差异项是否为真正的差异项。
一具体实施中,当仅有第一概率小于第一阈值时,确定第一差异文本对应的候选词的数量为1,则将该候选词作为更正后的第一差异文本。然后比较第二差异文本和更正后的第一差异文本,当第二差异文本与更正后的第二差异文本相同时,确定更正后的目标差异项不是真正的差异项;当第二差异文本与更正后的第二差异文本不同时,确定更正后的目标差异项是真正的差异项。
一具体实施中,当仅有第二概率小于第一阈值时,确定第二差异文本对应的候选词的数量为1,则将该候选词作为更正后的第二差异文本。然后比较第一差异文本和更正后的第二差异文本,当第一差异文本与更正后的第二差异文本相同时,确定更正后的目标差异项不是真正的差异项;当第一差异文本与更正后的第二差异文本不同时,确定更正后的目标差异项是真正的差异项。
一具体实施中,若第一概率小于第一阈值且第二概率小于第一阈值,且确定第一差异文本对应的候选词的数量为1以及确定第二差异文本对应的候选词的数量为1,在此情况下,将第一差异文本对应的候选词作为更正后的第一差异文本,将第二差异文本的对应的候选词作为更正后的第二差异文本更正,然后比较更正后的第一差异文本和更正后的第二差异文本,当更正后的第一差异文本和更正后的第二差异文本相同时,确定更正后的目标差异项不是真正的差异项;当更正后的第一差异文本和更正后的第二差异文本不同时,确定更正后的目标差异项是真正的差异项。
需要说明的是,对目标文本进行更正的过程具体可参考上述关于纠错过程的相关叙述,为了说明书的简洁,在此不再赘述。
S208、根据第一预设条件从候选词表中确定第一差异文本对应的N个候选词和第二差异文本对应的N个候选词。本步骤具体可参考图7实施例中S105的相关描述,这里不再赘述。
S209、获取第一差异文本对应的第一数据和第二差异文本对应的第二数据,利用差异项判别模型基于第一数据和第二数据判断目标差异项是否为真正的差异项。本步骤具体可参考图7实施例中S106的相关描述,这里不再赘述。
可以看到,实施本申请实施例,通过语言预测模型获取目标差异项中各项对应的概率,基于目标差异项中各项对应的概率实现对目标差异项的判别,能有效确定真正的差异项。另外,对未能确定真假的目标差异项,进一步结合目标差异项中的各项与语言预测模型输出的各预测结果之间的相似度进行判别,能有效确定真正的差异项,提高文档对比结果的准确率。通过融合了目标差异项对应的文本、位置和图像信息的深度学习模型实现对目标差异项是否为真正的差异项的判别,引入目标差异项对应的语言预测模型输出的目标差异项对应的候选词特征,对目标差异项的文本和位置信息的编码方式进行了改进,能有效过滤非真正的差异项(由OCR识别错误导致),提高了文档对比中真正差异项的识别准确率,从而提高了文档对比结果的准确率。
参见图9,图9是本申请实施例提供的一种计算装置的结构示意图,计算装置20至少包括处理器201、存储器202、通信接口203和总线200。在一些可能的实施例中,计算装置20还包括输入/输出接口204。其中,存储器202、通信接口203和处理器201通过总线200连接或耦合。计算装置20可为图1实施例中的执行设备110或训练设备120。
处理器201执行各操作的具体实现可参考上述方法实施例中获取目标差异项、确定第一概率和第二概率、利用差异项判别模型判别目标差异项等具体操作。处理器201可以由一个或者多个通用处理器构成,例如中央处理器(Central Processing Unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(Application-SpecificIntegrated Circuit,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用阵列逻辑(Generic ArrayLogic,GAL)或其任意组合。
存储器202可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器202也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);存储器202还可以包括上述种类的组合。存储器202可以存储程序以及数据,其中,存储的程序包括:语言预测模型、差异项判别模型等,存储的数据包括:目标差异项、位置信息、候选词表等。存储器202可以单独存在,也可以集成于处理器201内部。
通信接口203可以是有线接口或者无线接口。有线接口可以是以太网接口、局域互联网络(Local Interconnect Network,LIN)等,无线接口可以是蜂窝网络接口或无线局域网接口等。通信接口203用于实现计算装置20与其他设备(例如:扫描仪等)之间的通信。
在一些可能的实施例中,计算装置20还包括输入/输出接口204,输入/输出接口204用于与输入/输出设备连接,用于接收输入的信息,输出处理结果。输入/输出设备可以为鼠标、键盘、显示器、扫描仪或者光驱等。
总线200用于计算装置20的各部件之间传递信息,总线200可以使用有线的连接方式或者采用无线的连接方式,本申请并不对此进行限定。
本申请实施例中,计算装置20用于实现上述图7和图8实施例所描述的方法。
此外,图9仅仅是一个计算装置20的例子,计算装置20可能包含相比于图9展示的更多或者更少的组件,或者有不同的组件配置方式。同时,图9中展示的各种组件可以用硬件、软件或者硬件与软件的结合方式实施。
参见图10,图10是本申请实施例提供的一种计算装置的功能结构示意图,计算装置30包括获取单元310、预测单元311、判别单元312。在一些可能的实施例中,计算装置30还包括处理单元313。该计算装置30可以通过硬件、软件或者软硬件结合的方式来实现。
其中,获取单元310用于获取第一单句的识别结果与第二单句的识别结果中的目标差异项,目标差异项包括第一差异文本和第二差异文本,第一单句包括公共项和第一差异文本,第二单句包括公共项和第二差异文本;预测单元311用于基于语言预测模型以及公共项确定第一差异文本对应的第一概率和第二差异文本对应的第二概率;判别单元312根据第一概率和第二概率,判断目标差异项是否为真正的差异项。处理单元313用于获取第一差异文本对应的第一数据和第二差异文本对应的第二数据,利用差异项判别模型基于第一数据和第二数据判断目标差异项是否为真正的差异项。
该计算装置30的各功能模块可用于实现图7实施例所描述的方法。在图7实施例中,获取单元310可用于执行S101,预测单元311可用于执行S102,判别单元312可用于执行S103-S105,处理单元313可用于执行S106。计算装置30的功能模块还可用于实现图8实施例所描述的方法,为了说明书的简洁,在此不再赘述。
在本文上述的实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
需要说明的是,本领域普通技术人员可以看到上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random AccessMemory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是个人计算机,服务器,或者网络设备、机器人、单片机、芯片、机器人等)执行本申请各个实施例所述方法的全部或部分步骤。

Claims (15)

1.一种差异项判别方法,其特征在于,所述方法包括:
获取第一单句的识别结果与第二单句的识别结果中的目标差异项,所述目标差异项包括第一差异文本和第二差异文本,所述第一单句包括公共项和所述第一差异文本,所述第二单句包括所述公共项和所述第二差异文本;
基于语言预测模型以及所述公共项确定所述第一差异文本对应的第一概率和所述第二差异文本对应的第二概率;
根据所述第一概率和所述第二概率,判断所述目标差异项是否为真正的差异项。
2.根据权利要求1所述的方法,其特征在于,在所述第一差异文本的长度与所述第二差异文本的长度不同且所述第一差异文本包括语义无关词时,所述方法还包括:
去除所述第一差异文本中的所述语义无关词,以使所述第一差异文本的长度和所述第二差异文本的长度相同。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一概率和所述第二概率,判断所述目标差异项是否为真正的差异项包括:
在所述第一概率大于等于第一阈值且所述第二概率大于等于所述第一阈值的情况下,判断所述目标差异项为真正的差异项。
4.根据权利要求3所述的方法,其特征在于,所述基于语言预测模型以及所述公共项确定所述第一差异文本对应的第一概率和所述第二差异文本对应的第二概率,包括:
获取所述目标差异项对应的目标句子,所述目标句子包括所述公共项和遮挡项;
将所述目标句子输入所述语言预测模型对所述遮挡项进行预测,输出所述遮挡项对应的候选词表,所述候选词表包括多个预测结果和所述多个预测结果对应的概率;
在所述候选词表中获取所述第一差异文本对应的所述第一概率和所述第二差异文本对应的所述第二概率。
5.根据权利要求4所述的方法,其特征在于,在所述第一概率小于所述第一阈值或所述第二概率小于所述第一阈值的情况下,所述方法还包括:
获取所述第一差异文本对应的第一数据和所述第二差异文本对应的第二数据;所述第一数据包括所述第一单句对应的第一信息和所述第一单句的第一图像,所述第二数据包括所述第二单句对应的第二信息和所述第二单句的第二图像,所述第一信息包括所述第一单句中每个字的词向量、所述第一单句中每个字的位置编码和所述第一单句中每个字的位置信息,所述第二信息包括所述第二单句中每个字的词向量、所述第二单句中每个字的位置编码和所述第二单句中每个字的位置信息;
利用差异项判别模型基于所述第一数据和所述第二数据判断所述目标差异项是否为真正的差异项。
6.根据权利要求5所述的方法,其特征在于,所述差异项判别模型包括第一特征提取网络、第二特征提取网络、线性处理单元和分类器,所述第一特征提取网络与所述第二特征提取网络相同,所述利用差异项判别模型基于所述第一数据和所述第二数据判断所述目标差异项是否为真正的差异项,包括:
输入所述第一信息和所述第一图像至所述第一特征提取网络,获得第一特征向量;
输入所述第二信息和所述第二图像至所述第二特征提取网络,获得第二特征向量;
输入所述第一特征向量和所述第二特征向量至所述线性处理单元,获得第三特征向量;
输入所述第三特征向量至所述分类器,获得分类结果,所述分类结果指示所述目标差异项是否为真正的差异项。
7.根据权利要求6所述的方法,其特征在于,
所述第一特征提取网络包括第一文本编码端、第一图像编码端和第一深度学习模型,所述第一编码端用于根据所述第一信息输出第一融合特征,所述第一图像编码端用于根据所述第一图像输出第一图像特征,所述第一深度学习模型用于根据所述第一融合特征和所述第一图像特征输出所述第一特征向量;
所述第二特征提取网络包括第二文本编码端、第二图像编码端和第二深度学习模型,所述第二文本编码端用于根据所述第二信息输出第二融合特征,所述第二图像编码端用于根据所述第二图像输出第二图像特征,所述第二深度学习模型用于根据所述第二融合特征和所述第二图像特征输出所述第二特征向量。
8.根据权利要求5-7任一项所述的方法,其特征在于,
所述第一信息还包括所述第一差异文本对应的N个候选词的词向量、位置编码和位置信息,所述第一文本编码端使得所述第一差异文本对应的N个候选词与所述第一单句中除所述第一差异文本之外的字之间的相关度为预设值;所述第一差异文本对应的N个候选词是根据第一预设条件从所述候选词表中确定的;
所述第二信息还包括所述第二差异文本对应的N个候选词的词向量、位置编码和位置信息,所述第二文本编码端使得所述第二差异文本对应的N个候选词与所述第二单句中除所述第二差异文本之外的字之间的相关度为所述预设值;所述第二差异文本对应的N个候选词是根据第二预设条件从所述候选词表中确定的。
9.根据权利要求2-4任一项所述的方法,其特征在于,在所述第一概率小于所述第一阈值且所述第二概率大于等于所述第一阈值的情况下,所述方法还包括:
根据第三预设条件从所述候选词表中确定所述第一差异文本对应的候选词;
在所述第一差异文本对应的候选词的个数为1时,将所述第一差异文本对应的候选词作为更正后的第一差异文本;
在所述第二差异文本与所述更正后的第一差异文本相同时,确定所述目标差异项不是真正的差异项;
在所述第二差异文本与所述更正后的第一差异文本不同时,确定所述目标差异项是真正的差异项。
10.根据权利要求2-4任一项所述的方法,其特征在于,在所述第一概率小于所述第一阈值且所述第二概率小于所述第一阈值的情况下,所述方法还包括:
根据第三预设条件从所述候选词表中确定所述第一差异文本对应的候选词;
根据第四预设条件从所述候选词表中确定所述第二差异文本对应的候选词;
在所述第一差异文本对应的候选词的个数为1且所述第二差异文本对应的候选词的个数为1时,将所述第一差异文本对应的候选词作为更正后的第一差异文本以及将所述第二差异文本对应的候选词作为更正后的第二差异文本;
在所述更正后的第一差异文本与所述更正后的第二差异文本相同时,确定所述目标差异项不是真正的差异项;
在所述更正后的第一差异文本与所述更正后的第二差异文本不同时,确定所述目标差异项是真正的差异项。
11.根据权利要求9或10所述的方法,其特征在于,所述第三预设条件为所述候选词表中候选词的评分大于第二阈值,所述候选词的评分由所述候选词对应的概率以及所述候选词与所述第一差异文本之间的字形相似度确定;所述第四预设条件为所述候选词表中候选词的评分大于所述第二阈值,所述候选词的评分由所述候选词对应的概率以及所述候选词与所述第二差异文本之间的字形相似度确定。
12.根据权利要求1-11任一项所述的方法,其特征在于,所述第一单句和所述第二单句来自相关联的两个不同的文档。
13.一种装置,其特征在于,所述装置包括:
获取单元,用于获取第一单句的识别结果与第二单句的识别结果中的目标差异项,所述目标差异项包括第一差异文本和第二差异文本,所述第一单句包括公共项和所述第一差异文本,所述第二单句包括所述公共项和所述第二差异文本;
预测单元,用于基于语言预测模型以及所述公共项确定所述第一差异文本对应的第一概率和所述第二差异文本对应的第二概率;
判别单元,用于根据所述第一概率和所述第二概率,判断所述目标差异项是否为真正的差异项。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令用于实现权利要求1-12中任一项所述的方法。
15.一种计算装置,其特征在于,所述计算装置包括存储器和处理器,所述存储器用于存储程序指令;在所述处理器执行所述存储器中的程序指令时,所述计算装置执行如权利要求1-12中任一项所述的方法。
CN202011496118.XA 2020-12-17 2020-12-17 一种差异项判别方法及装置 Active CN112528894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011496118.XA CN112528894B (zh) 2020-12-17 2020-12-17 一种差异项判别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011496118.XA CN112528894B (zh) 2020-12-17 2020-12-17 一种差异项判别方法及装置

Publications (2)

Publication Number Publication Date
CN112528894A true CN112528894A (zh) 2021-03-19
CN112528894B CN112528894B (zh) 2024-05-31

Family

ID=75001036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011496118.XA Active CN112528894B (zh) 2020-12-17 2020-12-17 一种差异项判别方法及装置

Country Status (1)

Country Link
CN (1) CN112528894B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051869A (zh) * 2021-05-24 2021-06-29 杭州有数金融信息服务有限公司 一种结合语义识别实现标识文本差异内容的方法及***
CN113177402A (zh) * 2021-04-26 2021-07-27 平安科技(深圳)有限公司 词语替换方法、装置、电子设备和存储介质
CN113420546A (zh) * 2021-06-24 2021-09-21 平安国际智慧城市科技股份有限公司 文本纠错方法、装置、电子设备及可读存储介质
CN113435187A (zh) * 2021-06-24 2021-09-24 湖北大学 工业告警信息的文本纠错方法及***
CN113821673A (zh) * 2021-10-09 2021-12-21 成都统信软件技术有限公司 一种图片处理方法、计算设备及可读存储介质
CN114792574A (zh) * 2022-06-23 2022-07-26 普瑞基准生物医药(苏州)有限公司 基于图神经网络模型预测药物互作所致肝毒性的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH103478A (ja) * 1996-06-14 1998-01-06 Nippon Telegr & Teleph Corp <Ntt> 概念の類似性判別方法
CN102999483A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
US9009025B1 (en) * 2011-12-27 2015-04-14 Amazon Technologies, Inc. Context-based utterance recognition
CN110347799A (zh) * 2019-07-12 2019-10-18 腾讯科技(深圳)有限公司 语言模型训练方法、装置和计算机设备
CN110688471A (zh) * 2019-09-30 2020-01-14 支付宝(杭州)信息技术有限公司 训练样本获取方法、装置及设备
CN110750977A (zh) * 2019-10-23 2020-02-04 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及***
CN110765775A (zh) * 2019-11-01 2020-02-07 北京邮电大学 一种融合语义和标签差异的命名实体识别领域自适应的方法
WO2020073700A1 (zh) * 2018-10-08 2020-04-16 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
CN111325660A (zh) * 2020-02-20 2020-06-23 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH103478A (ja) * 1996-06-14 1998-01-06 Nippon Telegr & Teleph Corp <Ntt> 概念の類似性判別方法
CN102999483A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
US9009025B1 (en) * 2011-12-27 2015-04-14 Amazon Technologies, Inc. Context-based utterance recognition
WO2020073700A1 (zh) * 2018-10-08 2020-04-16 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
CN110347799A (zh) * 2019-07-12 2019-10-18 腾讯科技(深圳)有限公司 语言模型训练方法、装置和计算机设备
CN110688471A (zh) * 2019-09-30 2020-01-14 支付宝(杭州)信息技术有限公司 训练样本获取方法、装置及设备
CN110750977A (zh) * 2019-10-23 2020-02-04 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及***
CN110765775A (zh) * 2019-11-01 2020-02-07 北京邮电大学 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN111325660A (zh) * 2020-02-20 2020-06-23 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CONG YAO ET AL: "A Unified Framework for Multioriented Text Detection and Recognition", 《IEEE TRANSACTIONS ON IMAGE PROCESSING 》, vol. 23, no. 11, pages 4737 - 4749, XP011559873, DOI: 10.1109/TIP.2014.2353813 *
焦启航 等: "对比关系句子生成方法研究", 《数据分析与知识发现》, vol. 4, no. 6, pages 43 - 50 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177402A (zh) * 2021-04-26 2021-07-27 平安科技(深圳)有限公司 词语替换方法、装置、电子设备和存储介质
WO2022227166A1 (zh) * 2021-04-26 2022-11-03 平安科技(深圳)有限公司 词语替换方法、装置、电子设备和存储介质
CN113177402B (zh) * 2021-04-26 2024-03-01 平安科技(深圳)有限公司 词语替换方法、装置、电子设备和存储介质
CN113051869A (zh) * 2021-05-24 2021-06-29 杭州有数金融信息服务有限公司 一种结合语义识别实现标识文本差异内容的方法及***
CN113051869B (zh) * 2021-05-24 2023-08-08 浙江有数数智科技有限公司 一种结合语义识别实现标识文本差异内容的方法及***
CN113420546A (zh) * 2021-06-24 2021-09-21 平安国际智慧城市科技股份有限公司 文本纠错方法、装置、电子设备及可读存储介质
CN113435187A (zh) * 2021-06-24 2021-09-24 湖北大学 工业告警信息的文本纠错方法及***
CN113821673A (zh) * 2021-10-09 2021-12-21 成都统信软件技术有限公司 一种图片处理方法、计算设备及可读存储介质
CN114792574A (zh) * 2022-06-23 2022-07-26 普瑞基准生物医药(苏州)有限公司 基于图神经网络模型预测药物互作所致肝毒性的方法

Also Published As

Publication number Publication date
CN112528894B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
JP6831480B2 (ja) テキスト検出分析方法、装置及びデバイス
CN112528894B (zh) 一种差异项判别方法及装置
Ansari et al. A novel machine learning approach for scene text extraction
US20200004815A1 (en) Text entity detection and recognition from images
CN112784578B (zh) 法律要素提取方法、装置和电子设备
US10956673B1 (en) Method and system for identifying citations within regulatory content
Wang et al. Deep knowledge training and heterogeneous CNN for handwritten Chinese text recognition
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
Liu et al. SemiText: Scene text detection with semi-supervised learning
Wang et al. From object detection to text detection and recognition: A brief evolution history of optical character recognition
CN114372470A (zh) 基于边界检测和提示学习的中文法律文本实体识别方法
Inunganbi et al. Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray
CN108536838A (zh) 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法
CN114817633A (zh) 视频分类方法、装置、设备及存储介质
Naseer et al. Meta‐feature based few‐shot Siamese learning for Urdu optical character recognition
CN108595568A (zh) 一种基于极大无关多元逻辑回归的文本情感分类方法
Kasem et al. Advancements and Challenges in Arabic Optical Character Recognition: A Comprehensive Survey
Francois et al. Text detection and post-OCR correction in engineering documents
CN116522942A (zh) 一种基于字符对的中文嵌套命名实体识别方法
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质
CN112149523B (zh) 基于深度学习和并查集算法识别并抽取图片的方法及装置
CN115410185A (zh) 一种多模态数据中特定人名及单位名属性的提取方法
Arroyo et al. Multi-label classification of promotions in digital leaflets using textual and visual information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant