CN114021543B

CN114021543B - 基于表格结构解析的文档比对分析方法及***

Info

Publication number: CN114021543B
Application number: CN202210003662.9A
Authority: CN
Inventors: 郑飞鹏
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-22
Anticipated expiration: 2042-01-05
Also published as: CN114021543A

Abstract

本发明属于数据处理技术领域，具体涉及基于表格结构解析的文档比对分析方法及***。方法包括S1，接收各种类型的来源文件，并统一转换为PDF文件；S2，针对PDF文件中不同类型的内容部分，分别使用不同工具进行抽取、划分和识别，获得带有文本内容、坐标信息、表结构的表数据和非表数据；S3，将表数据和非表数据分别进行比对，最终得到表外文本差异和表格差异。***包括文件转换模块、文件识别模块、数据比对模块。本发明具有专注于文档内容和语义层面的比对，在文档比对中具有表格间结构和语义比对的能力，且比对效果好，占用资源低，文字识别准确的特点。

Description

基于表格结构解析的文档比对分析方法及***

技术领域

本发明属于数据处理技术领域，具体涉及基于表格结构解析的文档比对分析方法及***。

背景技术

如今，信息更新迭代迅猛，无论是企业、政府、事业单位还是个人，在生产生活活动中接触和使用到的文档越来越多。而在实际情况中，一份文档经常需要多次转手。在转手的过程中，每一次转手都可能会增加一些偏差，最终导致和原文档存在较大的出入，而对相关业务产生一定的影响。比如说商业合同，一份合同从初拟到最终签订需要多次修订，每次修订除了内容改变以外，还可能因为参与修订的人员所使用的***平台不同，所用的文档编辑工具不同导致格式上的细微变化。而合同签订各方可能需要通过传真、印刷件等形式传阅合同文件，这又涉及到从文本文档到电子图像、纸质文稿、扫描件等不同载体形式的互相转换。而受限于当下OCR等技术的准确性问题等，转换过程中有一定概率造成内容缺失、改变等问题。

目前处理这种转换误差最常见的是依靠人工核对。而当合同内容越多时，合同审查人员人工审核的效率就会越低。

因此研发一款能够接受多种文档格式，能精确解析文档内容，并准确描述不同版本、不同来源文件中内容差异，且能进行高效比对的电子计算机程序显得尤为重要。

然而，现有的文档比对相关技术存在以下缺点：

1.基于图像模版匹配技术的文档比对对文档内容结构要求过于苛刻；

2.图文表混合文档比对效果较差；

3. OCR识别占用资源较高且有一定概率文字识别出错。

因此，设计一种专注于文档内容和语义层面的比对，在文档比对中具有表格间结构和语义比对的能力，且比对效果好，占用资源低，文字识别准确的基于表格结构解析的文档比对分析方法及***，就显得十分重要。

例如，申请号为CN202110644806.4的中国专利文献描述的一种长文档的快速比对方法、装置和存储介质，针对两份需要对比的长文档，比对方法包括如下步骤：s1分别解析两份文档形成树状文档结构；s2根据树状文档结构，将两个文档拆分为两组内容块；s3在两组内容块之间建立映射关系，形成多个映射对；s4并行多个任务，每个任务用来针对一个映射对的两个内容块逐字进行比对找到差异点。虽然能够提高长文档比对的速度，但是其缺点在于，缺乏文档比对中表格间结构和语义比对的能力，在实际文档中的表结构存在差异情况下，无法体现其中差异。

发明内容

本发明是为了克服现有技术中，现有的文档比对技术存在对文档内容结构要求苛刻，有局限性，比对效果较差以及占用资源较高，且有一定概率文字识别出错的问题，提供了一种专注于文档内容和语义层面的比对，在文档比对中具有表格间结构和语义比对的能力，且比对效果好，占用资源低，文字识别准确的基于表格结构解析的文档比对分析方法及***。

为了达到上述发明目的，本发明采用以下技术方案：

基于表格结构解析的文档比对分析方法，包括如下步骤；

S1，接收各种类型的来源文件，并统一转换为PDF文件；

S2，针对PDF文件中不同类型的内容部分，分别使用不同工具进行抽取、划分和识别，获得带有文本内容、坐标信息、表结构的表数据和非表数据；

S3，将表数据和非表数据分别进行比对，最终得到表外文本差异和表格差异。

作为优选，所述表外文本差异和表格差异均包括差异产生的原因，差异内容以及差异所在的文档位置；所述差异产生的原因包括增、删和改；所述差异所在的文档位置包括页码和XY坐标。

作为优选，步骤S2包括PDF文件解析过程，所示PDF文件解析过程如下步骤：

S21，使用PDF文件解析工具解析步骤S1中生成的PDF文件，获得表数据；

S22，使用PDF文件解析工具从PDF文件中按照阅读顺序进行内容抽取；

S23，若抽取的内容为文字，则判断所述文字是否属于步骤S21中的表数据；若否，将所述文字添加到文字数组尾部；若是，则跳过所述文字，转至步骤S24；

S24，若抽取的内容为图片，将所述图片使用OCR进行识别，将OCR识别得到的文字结果依次添加入步骤S23中所述文字数组尾部；

S25，最后得到的识别结果为文字数组和由表数据构成的表数组；所述表数组中每一个表对象都包含表在文字数组中的相对位置关系。

作为优选，步骤S3中表数据比对包括如下步骤：

S31，抽取表结构特征，使用表结构特征+表内容生成hash，将来源文档和转换后的PDF文档中，hash相同的表标记为“完全匹配”；剩余未完全匹配表中，遍历比对来源文档和转换后的PDF文档中结构特征相似的表格，将内容相似度超过60%的表，标记为“部分匹配”；其余仍未能获得成功匹配的表格标记为删除/新增；

所述结构特征相似的表格指任一文档中表格结构特征矩阵被另一文档表格结构矩阵完全包含或相同部分重叠超过80%；

S32，针对“完全匹配”和“部分匹配”的表，为每一组分配一个由特殊字符构成的占位符标记，并且保证在一个比对任务中，任意两组“完全匹配”或“部分匹配”表的占位符标记之间不包含任何相同字符，且特殊字符构成的占位符标记中所有字符均为不常用字符；

S33，将“部分匹配”表中未匹配的特征区块与原表单元格形成对应，并将对应的原表单元格标记为表的增或删；将“部分匹配”表中匹配的特征区块，逐行读取并同样与原表单元格形成对应，通过剔除改操作后的编辑距离算法比较原表单元格区域的首行单元格的增删，并得知对应的原表单元格区域的列增删，并进行标记；

S34，“部分匹配”表中剩余匹配成功的特征区块的列中，通过所述剔除改操作后的编辑距离算法比较对应的原表单元格的首列单元格，得知对应的原表单元格区域的行增删，并新进行标记；对于剩余的单元格，则按照先行后列读取顺序拼接所有单元格的文本内容，使用通用编辑距离算法得到单元格内容的改动。

作为优选，步骤S3中非表数据比对包括如下步骤：

S35，来源文档和转换后的PDF文档的非表数据部分，各自拼接为一个字符串，将步骤S32中所得表的占位符标记，按照表-文字相对索引位置***字符串，将两份文档的两个字符串使用编辑距离算法进行比对，得到两份文档中表外文本的差异点，所述差异点反馈出表与表外文字相对位置变化所导致的差异；

S36，最终获得最终文档差异为表外文本差异+表格差异两部分。

作为优选，所述表格差异包含3个粒度：

整表差异：表增/删；表区块差异：表区块增/删；单元格内容差异：单元格内容增/删/改。

作为优选，步骤S31中所述表格结构特征矩阵的生成规则如下：

S311，根据表格中单元格最小粒度确定二维数组大小；

S312，填充二维数组元素，规则为：

横向合并单元格首单元为H，其余为_H；

纵向合并单元格首单元为V，其余为_V；

无合并单元格为N；

横纵双向合并单元格首单元为D，其余为_D；

S313，压缩步骤S312中构成的二维数组；压缩规则如下：

列压缩方向为自右向左，行压缩方向为自下向上；

当某一列/行的所有字母均满足以下规则，则对应列/行被压缩：

列/行字母与所述列/行字母的左/上侧完全相同，或为被合并单元格与主单元格关系；

将被压缩的列/行从数组中删除，重复执行步骤S313过程直至二维数组无法压缩；

S314，通过步骤S313，最终获得表格结构特征矩阵。

本发明还提供了基于表格结构解析的文档比对分析***，包括如下步骤：

文件转换模块，用于接收各种类型的来源文件，并统一转换为PDF文件；

文件识别模块，用于针对PDF文件中不同类型的内容部分，分别使用不同工具进行抽取、划分和识别，获得带有文本内容、坐标信息、表结构的表数据和非表数据；

数据比对模块，用于将表数据和非表数据分别进行比对，最终得到表外文本差异和表格差异。

作为优选，所述文件识别模块包括：

表数据识别模块，用于解析PDF文件并获得表数据；

非表数据识别模块，用于解析PDF文件并获得非表数据。

作为优选，所述数据比对模块包括；

表数据比对模块，用于获得来源文档和转换后的PDF文档的表数据部分差异；

非表数据比对模块，用于获得来源文档和转换后的PDF文档的非表数据部分差异。

本发明与现有技术相比，有益效果是：（1）本发明引入了文字、表格、图片分类识别机制，使得能够将图片与表格均纳入比对范围之中，加强了文档比对装置的适用范围；（2）本发明对表格的比对维度从单纯的单元格文本内容比对，扩展到整表、表区块、表单元格内容三个维度的比对，使得本发明能够在多数真实业务场景中，有效感知整表增删，表格列、表格行的增删，以及匹配单元格内容的增删改；（3）本发明能更直观体现用户基于原表格所做的结构性改动。

附图说明

图1为本发明基于表格结构解析的文档比对分析方法中PDF文件解析过程的一种流程图；

图2为本发明基于表格结构解析的文档比对分析方法中表数据比对的一种流程图；

图3为本发明基于表格结构解析的文档比对分析方法中非表数据比对的一种流程图；

图4为本发明实施例所提供的二维数组的一种示意图；

图5为图4压缩后的表格结构特征矩阵的一种示意图；

图6为本发明实施例所提供的文档A的一种文本内容示意图；

图7为本发明实施例所提供的文档B的一种文本内容示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

基于表格结构解析的文档比对分析方法，包括如下步骤；

S1，接收各种类型的来源文件，并统一转换为PDF文件；

将不同类型的文件统一转换为PDF，因为PDF格式文件能保持文档格式的稳定，不管是跨***平台还是打印，都不会有结构混乱现象产生。同时无论图片或常用的WORD（微软办公软件文字处理软件）文档，都可以转换为PDF，文件类型统一有助于后续统一化处理。并且PDF能够在Web页前端展示，结合本发明输出的比对结果，能够在Web页面上以线框图形形式展现文档差异点。

进一步的，如图1所示，步骤S2包括PDF文件解析过程，所示PDF文件解析过程如下步骤：

进一步的，如图2所示，步骤S3中表数据比对包括如下步骤：

进一步的，如图3所示，步骤S3中非表数据比对包括如下步骤：

进一步的，所述表格差异包含3个粒度：

进一步的，步骤S31中所述表格结构特征矩阵的生成规则如下：

S311，根据表格中单元格最小粒度确定二维数组大小，以下表1为例；

表1 某公司两季度产品销量和营收情况表

上述表格对应的二维数组size为 8行5列；

S312，填充二维数组元素，规则为：

横向合并单元格首单元为H，其余为_H；

纵向合并单元格首单元为V，其余为_V；

无合并单元格为N；

横纵双向合并单元格首单元为D，其余为_D；

由此可得，如图4所示的二维数组；

S313，压缩步骤S312中构成的二维数组；压缩规则如下：

列压缩方向为自右向左，行压缩方向为自下向上；

S314，通过步骤S313，最终获得表格结构特征矩阵，以表1为例的结果如图5所示。

进一步的，文件识别模块包括：

表数据识别模块，用于解析PDF文件并获得表数据；

非表数据识别模块，用于解析PDF文件并获得非表数据。

进一步的，数据比对模块包括；

基于本发明的技术方案，在具体实施和操作过程中，以图6和图7所示的文档A和文档B说明本发明作业流程：

文档A与文档B差异点包括：

1. 文档A中项目表包含表格标题“采购项目一览表”一行，文档B中此标题存在于表格外。

2. 文档A中项目表处于招标说明2与3之间，文档B中项目表处于招标说明3之后。

3. 文档A中材料表包含“序号”列但不包含“报价单”行，文档B中材料表不含“序号”但含“报价单”行。

具体作业流程如下：

1.从文档A和文档B中识别并抽取文档内容。

其中，文档A抽取得到文字内容为：主标题与除表格外的正文文字，表格内容为：项目表（含标题）和材料表。

文档B抽取得到文字内容为：主标题、项目表标题、除表格外正文文字，表格内容为：项目表（不含标题）和材料表。

2.根据文档A和文档B表格生成表格特征矩阵。

其中，文档A项目表特征矩阵为：

，材料表特征矩阵为：

；

文档B项目表特征矩阵为：

；材料表特征矩阵为：

。

3.由于文档A和B中各表的表结构与表内文本均不完全相同，因此通过表结构+表文本生成的Hash必然不会相等，因此没有达成“完全匹配”关系的表。遍历两份文档的表并比较内容和结构特征的相似度，易得：文档A的项目表与文档B的项目表达成“部分匹配”关联；文档A的材料表与文档B的材料表达成“部分匹配”关联。

4.为两组关联表分别生成特殊占位符PH_1（项目表）和PH_2（材料表）。（由于特殊占位符长度较长，且存在不可见字符，因此此处以PH_1和PH_2指代）

5.比对文档A和文档B中项目表结构特征矩阵，易得文档A项目表结构特征矩阵比文档B项目表结构特征矩阵多一个

结构。将此结构映射回文档A项目表，可知对应的为标题行。将改行标记为新增。

6.对于结构特征重合部分的处理以材料表为例：因为文档A和文档B中材料表结构特征矩阵完全重合，因此将此结构特征矩阵映射回原表后分别可得4列3行（文档A）与3列4行（文档B）的材料表。

7.比对6中所得两份表结构的首行可知，文档A相比较文档B中材料表多了“序号”列，即文档A中材料表的2、3、4列分别与文档B中材料表的1、2、3列形成对应关系。将该列标记为新增。

8.排除材料表首行，将文档A与文档B中材料表数据行的关联列首列进行比对，即取文档A材料表的第2列，第2到3行与文档B材料表的第1列，第2到4行进行比对。可得文档A相较文档B材料表，删除了“报价单”一行。而文档A材料表的第2、3行分别与文档B材料表的第2、4行形成关联关系。将文档B材料表第3行标记为删除。

9.得到文档A和B中材料表的行列关联关系后，即可得到文档A和B中材料表单元格关联关系。使用编辑距离算法依次比较关联单元格内容的差异点。

10.按照文档中表与表外文字的次序，将4中所得特殊占位符***两份文档各自表外文字内容所构成的列表中对应位置。将文档A和文档B的表外文字列表各自拼接为字符串，使用编辑距离算法比对可得差异点：文档B相较文档在在招标说明2末尾移除了PH_1，但在说明3末尾增加了“采购项目一览表”文字及PH_1。

11.根据占位符与表关系映射，即可知文档B将项目表从招标说明2末尾移动到招标说明3末尾。

本发明引入了文字、表格、图片分类识别机制，使得能够将图片与表格均纳入比对范围之中，加强了文档比对装置的适用范围；本发明对表格的比对维度从单纯的单元格文本内容比对，扩展到整表、表区块、表单元格内容三个维度的比对，使得本发明能够在多数真实业务场景中，有效感知整表增删，表格列、表格行的增删，以及匹配单元格内容的增删改；本发明能更直观体现用户基于原表格所做的结构性改动。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.基于表格结构解析的文档比对分析方法，其特征在于，包括如下步骤；

S1，接收各种类型的来源文件，并统一转换为PDF文件；

S3，将表数据和非表数据分别进行比对，最终得到表外文本差异和表格差异；

步骤S3中表数据比对包括如下步骤：

S31，抽取表结构特征，使用表结构特征+表内容生成hash，将来源文档和转换后的PDF文档中，hash相同的表标记为“完全匹配”；剩余未完全匹配表中，遍历比对来源文档和转换后的PDF文档中结构特征相似的表格，将内容相似度超过60％的表，标记为“部分匹配”；其余仍未能获得成功匹配的表格标记为删除/新增；

所述结构特征相似的表格指任一文档中表格结构特征矩阵被另一文档表格结构矩阵完全包含或相同部分重叠超过80％；

2.根据权利要求1所述的基于表格结构解析的文档比对分析方法，其特征在于，所述表外文本差异和表格差异均包括差异产生的原因，差异内容以及差异所在的文档位置；所述差异产生的原因包括增、删和改；所述差异所在的文档位置包括页码和XY坐标。

3.根据权利要求1所述的基于表格结构解析的文档比对分析方法，其特征在于，步骤S2包括PDF文件解析过程，所示PDF文件解析过程如下步骤：

4.根据权利要求1所述的基于表格结构解析的文档比对分析方法，其特征在于，步骤S3中非表数据比对包括如下步骤：

5.根据权利要求1或4所述的基于表格结构解析的文档比对分析方法，其特征在于，所述表格差异包含3个粒度：

6.根据权利要求1所述的基于表格结构解析的文档比对分析方法，其特征在于，步骤S31中所述表格结构特征矩阵的生成规则如下：

S311，根据表格中单元格最小粒度确定二维数组大小；

S312，填充二维数组元素，规则为：

横向合并单元格首单元为H，其余为_H；

纵向合并单元格首单元为V，其余为_V；

无合并单元格为N；

横纵双向合并单元格首单元为D，其余为_D；

S313，压缩步骤S312中构成的二维数组；压缩规则如下：

列压缩方向为自右向左，行压缩方向为自下向上；

S314，通过步骤S313，最终获得表格结构特征矩阵。

7.基于表格结构解析的文档比对分析***，应用权利要求1-6中任一项所述的基于表格结构解析的文档比对分析方法，其特征在于，所述基于表格结构解析的文档比对分析***包括：

8.根据权利要求7所述的基于表格结构解析的文档比对分析***，其特征在于，所述文件识别模块包括：

表数据识别模块，用于解析PDF文件并获得表数据；

非表数据识别模块，用于解析PDF文件并获得非表数据。

9.根据权利要求7所述的基于表格结构解析的文档比对分析***，其特征在于，所述数据比对模块包括；