CN112069991A

CN112069991A - 一种pdf的表格信息提取方法及相关装置

Info

Publication number: CN112069991A
Application number: CN202010922836.2A
Authority: CN
Inventors: 余昊旻; 张青龙; 陈强; 丁明; 蒋坡良
Original assignee: Servyou Software Group Co ltd
Current assignee: Servyou Software Group Co ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-11

Abstract

本申请公开了一种PDF的表格信息提取方法，包括：对PDF文件进行文字解析，得到文字和文字位置信息；通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理，得到矩形轮廓数组；根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息。通过图像识别方式对PDF文件对应的图片识别出对应的表格轮廓，然后根据表格轮廓拼接出表格信息，提高了表格信息的提取效率，保证了提取效果。本申请还公开了一种PDF的表格信息提取装置、计算装置以及计算机可读存储介质，具有以上有益效果。

Description

一种PDF的表格信息提取方法及相关装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种PDF的表格信息提取方法、表格信息提取装置、计算装置以及计算机可读存储介质。

背景技术

随着信息技术的不断发展，目前出现了各种各样的文档文件格式。其中，便携式文档格式(PDF，Portable Document Format)，是一种用独立于应用程序、硬件、操作***的方式呈现文档的文件格式。

通过PDF规范可以了解到，PDF呈现出的图像是由矢量图，位图，文本和可交互元素组成的。其中的表格也是由矢量图，位图和文本组成的。当读取PDF的时候并不可以像读取Excel一样直观的读取到几行几列。

现有技术中，PDFBox、Tabula、Itext等技术方案，都是基于PDF规范解析的文本数据读取。但是，由于PDF规范没有定义表格，所以无法直接提取出渲染出的表格内容。当表格的内容比较复杂难以识别时，导致表格内容的识别率降低，无法提取出表格的内容。

因此，如何提高PDF表格信息提取的效率是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种PDF的表格信息提取方法、表格信息提取装置、计算装置以及计算机可读存储介质，通过图像识别方式对PDF文件对应的图片识别出对应的表格轮廓，然后根据表格轮廓拼接出表格信息，提高了表格信息的提取效率，保证了提取效果。

为解决上述技术问题，本申请提供一种PDF的表格信息提取方法，包括：

对PDF文件进行文字解析，得到文字和文字位置信息；

通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理，得到矩形轮廓数组；

根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息。

可选的，对PDF文件进行文字解析，得到文字和文字位置信息，包括：

根据PDF解析库对所述PDF文件进行文字解析，得到所述文字和所述文字位置信息。

可选的，通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理，得到矩形轮廓数组，包括：

将所述PDF文件转换为图片；

将所述图片进行二值化处理，得到黑白图片；

通过闭合轮廓算法对所述黑白图片进行识别，得到所述矩形区域；

以数组将所述矩形区域转换为所述矩形轮廓数组。

可选的，根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息，包括：

根据所述文字位置信息在所述矩形轮廓数组中进行查询，确定每个文字在所述矩形数组中的位置；

根据所述位置将所有文字进行拼接，得到所述表格信息。

本申请还提供一种PDF的表格信息提取装置，包括：

文字解析模块，用于对PDF文件进行文字解析，得到文字和文字位置信息；

表格轮廓识别模块，用于通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理，得到矩形轮廓数组；

表格结构化处理模块，用于根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息。

可选的，所述文字解析模块，具体用于根据PDF解析库对所述PDF文件进行文字解析，得到所述文字和所述文字位置信息。

可选的，所述表格轮廓识别模块，包括：

PDF转换单元，用于将所述PDF文件转换为图片；

二值化处理单元，用于将所述图片进行二值化处理，得到黑白图片；

闭合轮廓识别单元，用于通过闭合轮廓算法对所述黑白图片进行识别，得到所述矩形区域；

数组转换单元，用于以数组将所述矩形区域转换为所述矩形轮廓数组。

可选的，所述表格结构化处理模块，包括：

位置查询单元，用于根据所述文字位置信息在所述矩形轮廓数组中进行查询，确定每个文字在所述矩形数组中的位置；

文字拼接单元，用于根据所述位置将所有文字进行拼接，得到所述表格信息。

本申请还提供一种计算装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的表格信息提取方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的表格信息提取方法的步骤。

本申请所提供的一种PDF的表格信息提取方法，包括：对PDF文件进行文字解析，得到文字和文字位置信息；通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理，得到矩形轮廓数组；根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息。

通过先从PDF文件中解析出文字及文字位置信息，然后通过图像识别算法对该PDF文件对应的图片进行轮廓识别，得到矩形轮廓数组，也就是得到表格的轮廓数组，最后根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息，实现了从PDF文件中以图像识别的方式提取出表格信息，避免了无法对表格进行解析导致的信息提取错误问题，提高了表格信息的提取效率，保证了提取效果。

本申请还提供一种PDF的表格信息提取装置、计算装置以及计算机可读存储介质，具有以上有益效果，在此不作赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种PDF的表格信息提取方法的流程图；

图2为本申请实施例所提供的一种PDF的表格信息提取装置的结构示意图。

具体实施方式

本申请的核心是提供一种PDF的表格信息提取方法、表格信息提取装置、计算装置以及计算机可读存储介质，通过图像识别方式对PDF文件对应的图片识别出对应的表格轮廓，然后根据表格轮廓拼接出表格信息，提高了表格信息的提取效率，保证了提取效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

因此，本申请提供一种PDF的表格信息提取方法，通过先从PDF文件中解析出文字及文字位置信息，然后通过图像识别算法对该PDF文件对应的图片进行轮廓识别，得到矩形轮廓数组，也就是得到表格的轮廓数组，最后根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息，实现了从PDF文件中以图像识别的方式提取出表格信息，避免了无法对表格进行解析导致的信息提取错误问题，提高了表格信息的提取效率，保证了提取效果。

请参考图1，图1为本申请实施例所提供的一种PDF的表格信息提取方法的流程图。

本实施例中，该方法可以包括：

S101，对PDF文件进行文字解析，得到文字和文字位置信息；

本步骤旨在对PDF文件进行文字解析，得到文字和文字位置信息。也就是，将PDF文件中的文字解析处理，以便确定PDF文件中的所有的文字。需要知道的是，其中的文字包括PDF文件中的所有文字，同样也包括表格中的所有文字。并且，同时还包括获取出该文字对应的文字位置信息。

其中，文字位置信息一般是指表示每个文字相对于PDF文件的位置信息。通常可以采用该PDF文件的直角坐标系的坐标进行表示。

可选的，本步骤可以包括：

可见，本可选方案中主要是对如何进行文字解析进行说明。本可选方案中主要是采用PDF解析库对PDF文件中的文字进行解析，得到对应的文字和文字位置信息。其中，PDF解析库可以采用现有技术提供的任意一种PDF解析库，在此不作赘述。

S102，通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理，得到矩形轮廓数组；

在S101的基础上，本步骤旨在通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理，得到矩形轮廓数组。也就是，通过图像识别的方式提取出表格对应的矩阵信息，而不是按照解析库的方式对无法正常识别的表格进行解析。

其中，本步骤可以采用现有技术提供的任意一种图像识别算法，只要识别出图片中的表格即可。

进一步的，通过该图像识别算法将PDF文件对应的图片的轮廓进行识别。由于表格的形状具有统一的特征，例如都是闭合矩形的形状。因此，就可以通过该特征从PDF文件对应的图片中识别出各个表格的闭合矩形，进而将识别出的闭合矩形整理为矩形轮廓数组。其中，该矩形轮廓数组为表示表格长短、大小，表格数量的数组。根据信息类型数量的不同，可以是二值数组。

可选的，本步骤可以包括：

步骤1，将所述PDF文件转换为图片；

步骤2，将所述图片进行二值化处理，得到黑白图片；

步骤3，通过闭合轮廓算法对所述黑白图片进行识别，得到所述矩形区域；

步骤4，以数组将所述矩形区域转换为所述矩形轮廓数组。

可见，本可选方案中主要是对如何获取到矩阵轮廓数组进行说明。本可选方案中，具体的，将所述PDF文件转换为图片；然后，将所述图片进行二值化处理，得到黑白图片；此处，将图片进行二值化处理主要是为了将图片中与表格信息相关的图像特征更加突出。接着，通过闭合轮廓算法对所述黑白图片进行识别，得到所述矩形区域；最后，以数组将所述矩形区域转换为所述矩形轮廓数组。

需要说明的是，本可选方案中通过闭合轮廓算法对所述黑白图片进行识别，得到所述矩形区域的步骤，可以包括：通过闭合轮廓算法对黑白图片进行识别，得到图片中所有的闭合轮廓。再通过所有闭合轮廓之间的相关性剔除与最大闭合区域不相关的闭合区域，最终得到该所述矩形区域。

S103，根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息。

在S102的基础上，本步骤旨在根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息。也就是，在获取到矩形轮廓数组的基础上，也就是确定了图片中所有矩形表格的基础上，通过文字位置信息将对应的文字拼接近对应的表格中。

可选的，本步骤可以包括：

步骤1，根据所述文字位置信息在所述矩形轮廓数组中进行查询，确定每个文字在所述矩形数组中的位置；

步骤2，根据所述位置将所有文字进行拼接，得到所述表格信息。

可见，本可选方案中主要是对如何拼接出表格信息进行说明。本可选方案中，主要是先通过查询确定每个文字在矩形数组中的位置，然后通过该位置将所有文字拼接进对应的表格中，得到该表格信息。

综上所述，本实施例通过先从PDF文件中解析出文字及文字位置信息，然后通过图像识别算法对该PDF文件对应的图片进行轮廓识别，得到矩形轮廓数组，也就是得到表格的轮廓数组，最后根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息，实现了从PDF文件中以图像识别的方式提取出表格信息，避免了无法对表格进行解析导致的信息提取错误问题，提高了表格信息的提取效率，保证了提取效果。

以下通过一个具体的实施例，对本申请提供的一种PDF的表格信息提取方法做进一步说明。

本实施例中，该方法可以包括：

步骤1，根据给定的PDF文件生成该PDF每页对应的图片；

步骤2，通过现有的PDF解析库解析出PDF中的文字以及文字的位置信息，用作后续处理的文字数组；其中，PDF解析库可以包括itext。

步骤3，将步骤1生成的图片文件通过opencv(跨平台计算机视觉和机器学习软件库)进行闭合轮廓识别处理，得到矩形数组。

优选的，该步骤可以包括：首先进行提取该图片的RGB(RGB color mode，RGB色彩模式)三层通道；然后，只使用红色通道进行二值化将图片转为黑白；接着，通过FindContours函数寻找所有的闭合轮廓，将小面积轮廓的抛弃并且只保留最底层的轮廓获取轮廓的矩形区域，得到一个矩形数组；然后将矩形填充在空白画布中再次通过FindContours函数找到最大的黑色区域，将找到的矩形数组剔除掉不在该黑色区域中的矩形，得到一个新的矩形数组；最后，将矩形数组中每个矩形的x和y聚合去重得到行数组和列数组。

步骤4，数据结构化：将获取到的矩形数组遍历，每个矩形和行列数组进行对比可以得到该矩形占了那几行那几列，格式化结果例如(A1:B3)，再将得到的文字进行查找，寻找在矩形中的文本并拼接。这样就得到了每一个矩形他的表格位置信息以及内容。

可见，本实施例通过先从PDF文件中解析出文字及文字位置信息，然后通过图像识别算法对该PDF文件对应的图片进行轮廓识别，得到矩形轮廓数组，也就是得到表格的轮廓数组，最后根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息，实现了从PDF文件中以图像识别的方式提取出表格信息，避免了无法对表格进行解析导致的信息提取错误问题，提高了表格信息的提取效率，保证了提取效果。

下面对本申请实施例提供的PDF的表格信息提取装置进行介绍，下文描述的PDF的表格信息提取装置与上文描述的PDF的表格信息提取方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种PDF的表格信息提取装置的结构示意图。

本实施例中，该装置可以包括：

文字解析模块100，用于对PDF文件进行文字解析，得到文字和文字位置信息；

表格轮廓识别模块200，用于通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理，得到矩形轮廓数组；

表格结构化处理模块300，用于根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息。

可选的，该文字解析模块100，具体用于根据PDF解析库对所述PDF文件进行文字解析，得到所述文字和所述文字位置信息。

可选的，该表格轮廓识别模块200，可以包括：

PDF转换单元，用于将所述PDF文件转换为图片；

可选的，该表格结构化处理模块300，可以包括：

本申请实施例还提供一种计算装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如以上实施例所述的表格信息提取方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的表格信息提取方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种PDF的表格信息提取方法、表格信息提取装置、计算装置以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种PDF的表格信息提取方法，其特征在于，包括：

对PDF文件进行文字解析，得到文字和文字位置信息；

2.根据权利要求1所述的表格信息提取方法，其特征在于，对PDF文件进行文字解析，得到文字和文字位置信息，包括：

3.根据权利要要求1所述的表格信息提取方法，其特征在于，通过图像识别算法对所述PDF文件对应的图片进行闭合轮廓识别处理，得到矩形轮廓数组，包括：

将所述PDF文件转换为图片；

将所述图片进行二值化处理，得到黑白图片；

以数组将所述矩形区域转换为所述矩形轮廓数组。

4.根据权利要求1所述的表格信息提取方法，其特征在于，根据所述矩形轮廓数组和所述文字位置信息对所述文字进行结构化处理，得到表格信息，包括：

根据所述位置将所有文字进行拼接，得到所述表格信息。

5.一种PDF的表格信息提取装置，其特征在于，包括：

6.根据权利要求5所述的表格信息提取信息，其特征在于，所述文字解析模块，具体用于根据PDF解析库对所述PDF文件进行文字解析，得到所述文字和所述文字位置信息。

7.根据权利要求5所述的表格信息提取信息，其特征在于，所述表格轮廓识别模块，包括：

PDF转换单元，用于将所述PDF文件转换为图片；

8.根据权利要求5所述的表格信息提取信息，其特征在于，所述表格结构化处理模块，包括：

9.一种计算装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的表格信息提取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的表格信息提取方法的步骤。