CN113743318A

CN113743318A - 基于行列分割的表格结构识别方法、存储介质和电子装置

Info

Publication number: CN113743318A
Application number: CN202111042986.5A
Authority: CN
Inventors: 孔令军; 包云超; 王茜雯; 侯文涛; 刘伟光; 周耀威; 闫佳艺; 李华康
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-03

Abstract

本发明公开一种基于行列分割的表格结构识别方法、存储介质和电子装置，其中方法包括，获取表格图像；提取包括行特征和列特征的表格特征图；对行特征和列特征进行处理，分别得到表格的行分布和列分布；判断行分布和列分布的区域是否有重叠，重叠的部分为表格的单元格，否则为背景。本发明简化了表格行与列预测，并保证了预测有较高的稳定性；在同一卷积网络中同时完成表格行与列的预测，便于调试和部署；先获得表格行与列分布，再获取表格单元格分布，这种自下而上的方法增加了鲁棒性。

Description

基于行列分割的表格结构识别方法、存储介质和电子装置

技术领域

本发明属于计算机视觉以及人工智能技术领域，具体是一种基于行列分割的表格结构识别方法、存储介质和电子装置。

背景技术

日常生活中表格是一种通用且常见的文本对象，如何在海量的数据中检测识别表格成为必要且有挑战的任务。表格检测和表格结构识别组成完整的表格识别任务。表格检测的目的是定位页面中表格区域，很多研究者将其定义为目标检测问题。相比较于表格检测，表格结构识别是更有难度的任务，其目标是获取表格的结构信息。早期的表格结构识别研究主要是基于启发式规则的方法，即制定一系列规则以检测出满足特定条件的表格。然而，基于启发式规则的表格识别方法难以设计，并受限于一定的场景，不能表现出很好的泛化能力。目前研究者大多使用目标检测、图像分割等深度学习方法进行表格结构识别。针对表格的特殊结构，既可以将行与列也可以将行之间和列之间的框线作为识别的对象，但表格框线所占像素数较少导致了正负样本失衡的问题。有的研究针对表格结构提出一致性假设：表格所有行从第一列的起点开始，到最后一列的终点结束；所有列从第一行的起点开始，到最后一行的终点结束。因此，对于列特征只需要预测第一行像素的分类再进行展开就可以得到整个列预测图，行特征则只需要预测第一列像素的分类。这样做虽然可以降低行列分割的复杂度，但容易产生较大的容错率，某一个像素位置的分类预测出错将会影响整个预测图。

发明内容

鉴于上述现有技术中的缺陷，本发明将表格结构识别任务拆分为表格行和列分割任务，通过分割出来的行列信息构建完整的表格结构信息。

本发明第一方面，提供一种基于行列分割的表格结构识别方法，包括以下步骤，

S1、获取表格图像；

S2、提取包括行特征和列特征的表格特征图；

S3、对所述行特征和所述列特征进行处理，分别得到所述表格的行分布和列分布；

S4、判断所述行分布和列分布的区域是否有重叠，重叠的部分为表格的单元格，否则为背景。

进一步，步骤S2中所述提取表格的行特征和列特征具体是，使用基于深度学习的卷积神经网络作为骨干网进行特征提取，所述卷积神经网络为VGG、ResNet或MobileNet。

进一步，步骤S3具体为，

S31、利用基于注意力机制的网络在通道维度上分别提取所述特征图每一行和每一列的最大值；

S32、相应的产生一列像素的分布和一行像素的分布；

假设作为输入的表格特征图大小为H×W×C，输出H×1×C大小的行特征图F_row和1×W×C大小的列特征图F_col；

S33、对所述行特征图F_row和所述列特征图F_col进行平铺，得到维度为H×W×C的行分布和列分布，分别是

本发明第二方面，提供一种计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。

本发明第三方面，提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。

本发明具有以下有益效果：简化了表格行与列预测，并保证了预测有较高的稳定性；在同一卷积网络中同时完成表格行与列的预测，便于调试和部署；先获得表格行与列分布，再获取表格单元格分布，这种自下而上的方法增加了鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例基于行列分割的表格结构识别方法流程图；

图2为图1实施例中得到的行分布的示意图；

图3为图1实施例中得到的列分布的示意图；

图4为图1实施例中单元格分布示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本实施例第一方面是一种基于行列分割的表格结构识别方法，包括以下步骤：

S1、获取表格图像。

在本发明实施例中，包含表格的图片可以通过扫描仪、高拍仪、数码相机、带摄像头的移动终端等设备来获取，本发明对此不做限制。

在本发明实施例中，图片中可以包含表格、文字、图画等内容，图片中的底色、表格、文字颜色可以为白色、黑色、红色、黄色、蓝色等颜色，本发明对此不做限制。

S2、提取包括行特征和列特征的表格特征图。

在本发明实施例中，表格是由若干的行与列所构成的一种有序的组织形式，若干行与列的交汇区域形成表格中的若干单元格。基于行与列分布可以构造单元格分布，从而得知表格的结构。

具体的，使用基于深度学习的卷积神经网络作为骨干网进行特征提取，骨干网可以为VGG，ResNet或MobileNet等，本发明对此不做限制。

S3、对所述行特征和所述列特征进行处理，分别得到所述表格的行分布和列分布。

具体的，通过以下步骤实现：

S31、将表格特征图进行切片，即利用基于注意力机制的网络在通道维度上分别提取所述特征图每一行和每一列的最大值；

S32、相应的产生一列像素的分布和一行像素的分布；

S33、对所述行特征图F_row和所述列特征图F_col进行平铺，即将F_row沿宽度轴复制W次，将F_col沿着高度轴复制H次，得到维度为H×W×C的行分布和列分布，分别是

切片操作将列分割在每个通道上简化成一行元素的预测，平铺操作将特征图还原到切片之前的尺寸，这样一方面产生粗略的软预测从而指导行列预测网络的学习，另一方面可以依靠行列预测网络进行错误修正，避免产生较大错误。

平铺操作后的特征图经过Softmax将特征值归一化到0～1；行信息流和列信息流分别与经过上采样后的整体信息流相加。最后将归一化的特征图与加和后的特征图相乘，得到输出特征图。这一操作旨在从列信息流中提取关于列的注意力并抑制不相关的信息，最后将其应用到经过整体信息流增强的信息流上。

本实施例第二方面，提供一种计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项技术方案中所述的方法。

本实施例第三方面，提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案中所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于行列分割的表格结构识别方法，其特征在于，包括以下步骤，

S1、获取表格图像；

S2、提取包括行特征和列特征的表格特征图；

2.根据权利要求1所述的表格结构识别方法，其特征在于，S2中所述提取表格的行特征和列特征具体是，使用基于深度学习的卷积神经网络作为骨干网进行特征提取，所述卷积神经网络为VGG、ResNet或MobileNet。

3.根据权利要求1所述的表格结构识别方法，其特征在于，步骤S3具体为，

S32、相应的产生一列像素的分布和一行像素的分布；

4.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。

5.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3任一项中所述的方法。