CN111340000A

CN111340000A - 一种针对pdf文档表格提取优化方法及***

Info

Publication number: CN111340000A
Application number: CN202010209797.1A
Authority: CN
Inventors: 李舟军; 肖武魁; 刘俊杰; 陈小明; 覃维; 王博洋
Original assignee: Shenzhen Intelligent Strong Technology Co ltd
Current assignee: Shenzhen Intelligent Strong Technology Co ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-06-26

Abstract

本发明公开一种针对PDF文档表格提取优化方法及***，该***包括：表格检测模块、表格角检测模块、表格角优化模块和表格边界优化。表格检测模块识别和定位表格；表格角检测模块识别和定位表格角；表格角优化模块用于表格角分组和过滤劣质表格角；表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。该方法包括步骤S1、表格检测；步骤S2、表格角点检测；步骤S3、表格角优化包括对表格角点分组和表格角点过滤；步骤S4、表格边界优化。本发明实现了对于PDF文档中表格数据的高质量自动化提取，为自动化信息提取提供了数据支持，从而节约人力物力、提高工作效率。

Description

一种针对PDF文档表格提取优化方法及***

技术领域

本发明涉及一种针对PDF文档表格提取优化方法及***，属于信息自动化提取技术领域。

背景技术

随着信息技术的发展和互联网的普及，各行各业已积累了海量的PDF文档。如何从这些PDF文档中提取出蕴藏着丰富价值的有效信息，是一个具有挑战性的难题。因此，信息的自动化提取成为大势所趋，其中，文本和表格内容的提取是一个重要任务。由于表格通常存储着经过人工筛选、精炼后的数据，是文档中最有价值的部分，因此表格信息提取技术具有重要而广泛的应用价值。

在申请号为：201910738531.3、发明名称为：一种针对PDF文档表格提取的***及方法的中国发明专利申请中，公开了一种对PDF表格数据进行提取的方案。然而在物体检测技术中，由于物体的边界模糊，对边框定位的精度要求不高，导致其边框定位精度难以达到文字大小级别，这将造成表格提取中数据丢失或误读，严重影抽取结果。因此，对于如何进一步提升表格检测的准确率是亟待解决的问题。

发明内容

本发明技术解决问题：提出一种针对PDF文档表格提取优化方法及***，具体而言是以提出表格角点信息检测以过滤劣质角点，并利用优质角点优化表格边框定位，提升了表格检测的准确率。本发明能够高准确率地检测PDF表格数据，同时考虑了多种表格的形式，提升了方法的泛化性和鲁棒性。

本发明技术解决方案：一种针对PDF文档表格提取优化***，包括：表格检测模块、表格角检测模块、表格角优化模块和表格边界优化模块；其中：

所述的表格检测模块用于识别和定位表格，对粗表进行检测；

所述的表格角检测模块用于识别和定位表格角；

所述的表格角优化模块用于表格角分组和过滤劣质表格角；

所述的表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。

本发明一种针对PDF文档表格提取优化方法，具体步骤如下：

步骤S1、表格检测：即使用深度学习方法进行表格识别和表格定位。

所述的表格检测具体过程如下：首先，将文档图像发送到Faster R-CNN，其中骨干网采用ResNeXt-101，其后是区域生成网络和Faster R-CNN；ResNeXt-101从输入文档图像中提取特征图，然后将特征图发送到区域生成网络；区域生成网络使用特征图生成区域建议，该层使用归一化指数函数(Softmax)来确定锚点是属于前景还是背景，然后对锚点进行回归以获得准确的建议，从而实现了粗表检测。

步骤S2、表格角点检测：表格角点检测通过区域生成网络实现，利用Faster R-CNN识别并定位表格角，以获得表格角的准确空间位置，本发明分别命名属于同一表的四个角为corner1，corner2，corner3和corner4(沿顺时针方向)，它们缩写为C1，C2，C3和C4，一张表通常有一个完整的表格角组，多个表格即有多个表格角组。

步骤S3、表格角优化：应用表格角组算法，过滤掉不可靠的表格角组，具体包括对表格角点分组和表格角点过滤。

S31、所述的表格角点分组具体过程如下：本发明假设属于同一表的表格角分别为C1，C2，C3和C4。每个表格角组都有位置约束关系，C1和C2在同一水平表边界上，C1和C4在同一垂直表边界上；C2和C1在同一水平表边界上，C2和C3在同一垂直表边界上；C3和C4在同一水平表边界上，C3和C2在同一垂直表边界上，C4和C3在同一水平表边界上，C4和C1在同一垂直表边界上。属于同一表的相邻的、且非斜对角的表格角称为表格角对，一个完整的表格角组包含4组表格角对。

S32、所述的表格角点过滤具体过程如下：表格角组确定了边界框，本发明假设边界包括C1和C2，C2和C3，C3和C4，C1和C4，其中C1和C2命名为B1，C2和C3命名为B2，C3和C4命名为B3，C4和C1命名为B4。对于每个B1，可能有多个可以匹配的B3，因为一个表格中可能存在多条B1的平行且相关的线段，这也意味着对于每个C1，可能存在多个可以匹配的C4。同样，对于每个C2，可能存在多个可以匹配的C3。由此，本发明通过交并比用于排除干扰表格角，区域生成网络检测到表格边框，如果交并比低于本发明设置的阈值，则将过滤掉这些表格角组；其中交并比在目标检测中是产生的候选框与原标记框的交叠率，即它们的交集与并集的比值。

步骤S4、表格边界优化：通过使用S3中过滤后的得到的优质表格角组来确定可靠边界，再通过可靠边界优化表格边界。本发明比对优质表格角组确定的可靠边界和步骤S1中得到的粗表检测结果，剔除劣质的粗表检测结果。其中，使用置信因子来反映表格左右边界的可靠性，而偏差表格角分布反映了表格边界的偏差。

本发明一种针对PDF文档表格提取优化方法及***，其优点和功效在于：通过深度学习实现表格检测和表格角检测，应用后续处理算法过滤不可靠的表格角组。最后，在过滤不可靠的表格角后，通过可靠的表格角来调整和完善表格的边界。本发明能够对PDF表格数据进行高准确率的提取。

附图说明

图1为本发明针对PDF文档表格提取优化***框图；

图2为本发明方法表格提取优化方法框架图；

图3为本发明方法中表边界优化示例图；

图4、5为本发明实施例表格提取效果的展示；

图6为本发明实施例的交并比示意图。

具体实施方式

以下结合附图和实施例，对本发明的技术方案做进一步的说明。

如图1所示，本发明实施例提供一种针对PDF文档表格提取优化***，包括：表格检测模块、表格角检测模块、表格角优化模块和表格边界优化模块。其中：所述的表格检测模块用于识别和定位表格，具体包括表格识别和表格定位子模块，用于粗表检测；所述的表格角检测模块具体包括表格角识别和表格角定位子模块，用于识别和定位表格角。所述的表格角优化模块具体包括表格角分组和表格角过滤子模块，用于表格角分组和过滤劣质表格角。所述的表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。

如图2所示，本发明实施例提供一种针对PDF文档表格提取优化方法，该方法及上述针对PDF文档表格提取优化***的具体实现步骤。该方法的步骤如下：

表格检测(即粗表检测，使用深度学习方法进行表格识别和表格定位)：首先，将文档图像发送到Faster R-CNN，骨干网是ResNeXt-101，其后是区域生成网络和Faster R-CNN。ResNeXt-101从输入文档图像中提取特征图，然后将要素图发送到区域生成网络。区域生成网络使用特征图生成区域建议，该层使用归一化指数函数(Softmax)来确定锚点是属于前景还是背景，然后对锚点进行回归以获得准确的建议。通过以上步骤，实现了粗表检测。其次，将区域生成网络生成的特征图和感兴趣区域一起馈送到感兴趣区域池化层。该图层将生成固定大小的特征图，Faster R-CNN充当检测器，以执行特征图的更精细分类和位置优化。最后，将特征图发送到后续的完全连接层以进行对象类别确定。

表格角点检测：表格角点检测通过区域生成网络实现，并利用Faster R-CNN稍加调整。通过优化，利用Faster R-CNN识别并定位表格角，以获得表格角的准确空间位置，一张表对应一个表格角组，一个完整的表格角组包含一张表格的4个边角，一页PDF中若包含多个表格则有多个表格角组，从而可以获得表格角的准确空间位置；本实施例分别命名属于同一表corner1，corner2，corner3和corner4的表格角(沿顺时针方向)。为了方便起见，它们缩写为C1，C2，C3和C4。

表格角优化：本发明应用表格角组算法，来过滤不可靠的表格角组；具体又包括表格角点分组和表格角点过滤。

表格角点分组：本发明假设属于同一表的表格角分别为C1(x1，y1)，C2(x2，y2)，C3(x3，y3)和C4(x4，y4)。每个表格角组都有位置约束关系，C1和C2在同一水平表边界上，C1和C4在同一垂直表边界上；C2和C1在同一水平表边界上，C2和C3在同一垂直表边界上；C3和C4在同一水平表边界上，C3和C2在同一垂直表边界上，C4和C3在同一水平表边界上，C4和C1在同一垂直表边界上。属于同一表的相邻的、且非斜对角的表格角称为表格角对，一个完整的表格角组包含4组表格角对。

表格角点过滤：表格角组确定了边界框，本发明假设边界包括C1和C2，C2和C3，C3和C4，C1和C4，其中C1和C2命名为B1，C2和C3命名为B2，C3和C4命名为B3，C4和C1命名为B4。对于每个B1，可能有多个可以匹配的B3，因为一个表格中可能存在多条B1的平行且相关的线段，这也意味着对于每个C1，可能存在多个可以匹配的C4。同样，对于每个C2，可能存在多个可以匹配的C3。由此，本发明通过交并比用于排除干扰表格角，区域生成网络检测到表格边框，如果交并比(表格角，表格边框)低于本发明设置的阈值(默认值为0.4)，则将过滤这些表格角组；其中，交并比在目标检测中是产生的候选框与原标记框的交叠率，即它们的交集与并集的比值。如图6所示，交并比＝(A∩B)/(A∪B)即它们的交集与并集的比值，也即交并比＝(A∩B)/(A∪B)

交并比的计算通过用目标检测中是产生的候选框与原标记框的相交面积除以候选框与原标记框的相并面积，所得到的交叠率即为交并比。由于候选框的边界可能和表格内部的线条形成多个新的矩形框，因此将这些新的矩形框作为一种特殊的候选框用同样的方式计算交并比，用于实现干扰表格角的排除。

表格边界优化：通过观察表格文档，本发明发现表格检测的上下边界基本上是准确的，但左右边界时常是不准确的。因此，本发明针对此类问题，采取措施优化表的左右边界。B2和B4越可靠，表边界定位就越精确。表边界优化的步骤说明如下：可靠边界检查，尽管表格边界存在偏离误差，但在表边界优化中起积极作用，这表明可以通过表格角点定位来优化表边界。通过可靠的边界优化表格边界。本发明利用表格角、表格边界和精确表格坐标。置信因子反映了表格左右边界的可靠性，而偏差表格角分布反映了表格边界的偏差。通过统计本发明发现，超过10度的偏差表格角仅占少数，根据经验规则，本发明将阈值设置为10度。图3给出了一个表格边界优化的示例。

实验验证

本发明全面比较了所提出的方法和所有最新结果，请参考TableBank的评估指标。交并比设置为0.6，评估指标包括精度，召回率和F量度。本发明注意到，Faster R-CNN在表格检测中取得了不错的结果，但没有达到理想的结果。TableBank数据集测试结果表明(如表1)，该方法在TableBank数据集上以95.37％的F1分数获得了最佳结果。

模型	准确率(面积)	召回率(面积)	F1分数(面积)
				BaseLine(TableBank)	0.9657	0.8989	0.9311
ResNet-50	0.9144	0.9330	0.9236
				ResNet-50+FPN	0.9017	0.9512	0.9258
ResNet-50+FPN+Focal Loss	0.9103	0.9563	0.9327
				ResNet-101+FPN+Focal Loss	0.9194	0.9478	0.9334
ResNeXt-101+FPN+Focal Loss	0.9285	0.9598	0.9439
				Faster R-CNN(VGG16)	0.9255	0.9196	0.9225
our method	0.9515	0.9559	0.9537

表1

为了进一步的比较，本发明对Faster R-CNN(VGG16)方法和本发明的方法进行了对比实验训练，本发明实现这两种方法并进行评估，交并比表示在像素级别本地化时的比较(如下表2)。表表边界精度评估表明，所提出的方法在F值测量中显着增加了3.12％，在像素精度上显着提高了3.8％，评估指标的精度，召回率和F度量与上表1相同。

表2

本发明能够对PDF表格数据进行高准确率的提取，提取结果如图4、5所示，其中图4为原pdf图像，图5为提取后的内容。

Claims

1.一种针对PDF文档表格提取优化***，其特征在于：该优化***包括：表格检测模块、表格角检测模块、表格角优化模块和表格边界优化模块；

所述的表格角检测模块用于识别和定位表格角；

所述的表格角优化模块用于表格角分组和过滤劣质表格角；

2.一种针对PDF文档的表格数据提取优化方法，其特征在于：该方法具体步骤如下：

步骤S1、表格检测：即使用深度学习方法进行表格识别和表格定位；

步骤S2、表格角点检测：表格角点检测通过区域生成网络实现，利用Faster R-CNN识别并定位表格角，以获得表格角的准确空间位置，一张表对应一个表格角组，一个完整的表格角组包含一张表格的4个边角，一页PDF中若包含多个表格则有多个表格角组；

步骤S3、表格角优化：应用表格角组算法，过滤掉不可靠的表格角组；

步骤S4、表格边界优化：通过使用S3中过滤后的得到的优质表格角组来确定可靠边界，再通过可靠边界优化表格边界。

3.根据权利要求2所述的针对PDF文档的表格数据提取优化方法，其特征在于：所述的表格检测具体过程如下：首先，将文档图像发送到Faster R-CNN，其中骨干网采用ResNeXt-101，其后是区域生成网络和Faster R-CNN；ResNeXt-101从输入文档图像中提取特征图，然后将特征图发送到区域生成网络；区域生成网络使用特征图生成区域建议，该层使用归一化指数函数来确定锚点是属于前景还是背景，然后对锚点进行回归以获得准确的建议，从而实现了粗表检测。

4.根据权利要求2所述的针对PDF文档的表格数据提取优化方法，其特征在于：所述步骤S3表格角优化的具体过程如下：

S31、表格角点分组具体过程如下：假设属于同一表的表格角分别为C1、C2、C3和C4；每个表格角组都有位置约束关系，C1和C2在同一水平表边界上，C1和C4在同一垂直表边界上；C2和C1在同一水平表边界上，C2和C3在同一垂直表边界上；C3和C4在同一水平表边界上，C3和C2在同一垂直表边界上，C4和C3在同一水平表边界上，C4和C1在同一垂直表边界上，属于同一表的相邻的、非斜对角的表格角称为表格角对，一个完整的表格角组包含4组表格角对；

S32、表格角点过滤具体过程如下：表格角组确定了边界框，假设边界包括C1和C2，C2和C3，C3和C4，C1和C4，其中C1和C2命名为B1，C2和C3命名为B2，C3和C4命名为B3，C4和C1命名为B4；对于每个B1，可能有多个可以匹配的B3，因为一个表格中可能存在多条B1的平行且相关的线段，这也意味着对于每个C1，可能存在多个可以匹配的C4；同样，对于每个C2，可能存在多个可以匹配的C3；由此，通过交并比用于排除干扰表格角，区域生成网络检测到表格边框，如果交并比低于阈值，则将过滤掉这些表格角组；其中交并比在目标检测中是产生的候选框与原标记框的交叠率。