CN108132916B - 解析pdf表格数据的方法、存储介质 - Google Patents

解析pdf表格数据的方法、存储介质 Download PDF

Info

Publication number
CN108132916B
CN108132916B CN201711235867.5A CN201711235867A CN108132916B CN 108132916 B CN108132916 B CN 108132916B CN 201711235867 A CN201711235867 A CN 201711235867A CN 108132916 B CN108132916 B CN 108132916B
Authority
CN
China
Prior art keywords
line segment
coordinates
page
pdf
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711235867.5A
Other languages
English (en)
Other versions
CN108132916A (zh
Inventor
蓝树和
段涵瑞
薛艳英
江汉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201711235867.5A priority Critical patent/CN108132916B/zh
Publication of CN108132916A publication Critical patent/CN108132916A/zh
Application granted granted Critical
Publication of CN108132916B publication Critical patent/CN108132916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种解析PDF表格数据的方法、存储介质,方法包括:获取每页PDF的各线段的坐标和各字符的坐标;依据线段交点划分出单元格,并获取各单元格对应的矩形坐标;依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块。本发明依据各线段和各字符坐标的关系精确划分出单元格和单元格内的字符,精确提取PDF的表格以及表格内的数据,实现PDF表格的准确、便捷、自动化解析。

Description

解析PDF表格数据的方法、存储介质
技术领域
本发明涉及数据解析领域,具体说的是解析PDF表格数据的方法、存储介 质。
背景技术
现有技术的PDF解析的对象现有一般都是针对文字,而里面的表格只是视 觉上的,没有真正的表格对象,各个单元格只是用线段划分开来,PDF协议只 是记录这些文字、线段、图片等的位置信息。
现有的相关解析只是获取里面的文字,但对于表格数据而言应该严格对应 标题的相应列,由于PDF的特殊性,如前后页表格的连续,单个单元格的换行 的不确定性,水印等。单纯字符的划分不太现实、针对每种格式的表格都得先 分析其中的区分特性,从而再写相应的脚本导入到数据库,工作量之大难以想 象,因此很难实现把PDF的表格数据自动的提取存储在数据库中。
因此,目前市场上的PDF解析相对闭源,且对这类表格数据都是单纯的字 符处理,很难做到数据与标题的对应,很难判断数据行与行之间的相关性。
发明内容
本发明所要解决的技术问题是:一种解析PDF表格数据的方法、存储介质, 实现全自动准确地解析表格数据,且实用性强。
为了解决上述技术问题,本发明采用的技术方案为:
一种解析PDF表格数据的方法,包括:
获取每页PDF的各线段的坐标和各字符的坐标;
依据线段交点划分出单元格,并获取各单元格对应的矩形坐标;
依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块
本发明提供的另一个技术方案为:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行 时实现以下步骤:
获取每页PDF的各线段的坐标和各字符的坐标;
依据线段交点划分出单元格,并获取各单元格对应的矩形坐标;
依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块。
本发明的有益效果在于:提供一种视觉解析PDF表格数据的方法,无需根 据特定的PDF文件分析字段之间如何划分,无需确定表格的标题头,能够实现 全自动准确地解析并组织字段块数据,适用性强。具体的,依据各线段和各字 符坐标的关系精确划分出单元格和单元格内的字符,精确提取PDF的表格以及 表格内的数据,自动性极强,大大简化了PDF表格的导入。本发明能够大大改 进PDF表格数据的解析的准确度和便捷性,效果十分显著。
附图说明
图1为单表格形式的PDF表格示意图;
图2为随机空白单元格的示意图;
图3为跨页单元格的示意图;
图4为多层水印的表格示意图;
图5为本发明一种解析PDF表格数据的方法的流程示意图;
图6为线段交点的示意图;
图7为构成有效单元格的线段组成示意图;
图8为实施例一的流程示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并 配合附图予以说明。
本发明最关键的构思在于:依据各线段和各字符坐标的关系精确划分出单 元格和单元格内的字符,精确提取PDF的表格以及表格内的数据,实现PDF表 格的准确、便捷、自动化解析。
请参照图5,本发明提供一种解析PDF表格数据的方法,包括:
获取每页PDF的各线段的坐标和各字符的坐标;
依据线段交点划分出单元格,并获取各单元格对应的矩形坐标;
依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块。
进一步的,还包括:
依据单元格的中位线,确定每一行对应的单元格。
由上述描述可知,依据所确定的各个单元格的中位线之间的误差范围确定 是否为处于同一行的单元格,实现单元格的规整,以便获取排列整齐的列表。
进一步的,还包括:
将每页PDF转变为图像数据形式;
若相衔接的上下页沿Y轴方向逐步叠加靠拢后,能够获取相对应的垂直的 线段,且能够分别在所述垂直的线段上获取到水平的线段,则合并所述上下页 衔接处的单元格。
由上述描述可知,能够根据图像视觉特征分析上下页之间衔接的单元格的 相关性判断是否属于同一个单元格,即是否由于分页而拆分,若是,则进行合 并。实现自动、准确地对拆分单元格进行合并。
进一步的,所述若相衔接的上下页沿Y轴方向逐步叠加靠拢后,能够获取 相对应的垂直的线段,且能够分别在所述垂直的线段上获取到水平的线段,则 合并所述上下页衔接处的单元格,具体为:
预设每页PDF的左上角为坐标原点;
对当前页从Y轴最大值开始,往原点方向前进获取垂直的线段后,判断所 述垂直的线段上是否存在与其相交的水平线段;且同时
对下一页从Y轴零坐标开始,往最大值方向前进获取垂直的线段后,判断 所述垂直的线段上是否存在与其相交的水平线段;
若是,则将所述当前页中相邻所述垂直的线段对应的单元格与所述下一页 中相对应的单元格合并为同一个单元格。
由上述描述可知,能采用视觉算法判断PDF页与页之间单元格的相关性, 自动合并被拆分的单元格,进一步完善最终所获取的表格的表现形式。
进一步的,所述依据字符的坐标与矩形坐标的包含关系,获取各单元格对 应的字段块,具体为:
依据字符的坐标是否位于矩形坐标内,获取非空白的各个矩形坐标对应的 字符;
依据字符从PDF的坐标空间映射到用户视觉空间的矩阵系数,排除所述非 空白的各矩形坐标内的水印字符;
所述非空白的各矩形坐标对应的字符组成字段块,补充空白的各个矩形坐 标对应空白字段;
获取各单元格对应的字段块。
由上述描述可知,能够有效去除水印字符,保证解析所得表格的准确性。 同时,针对空白单元格对应配置空白字段,实现空白单元格与相应标题的对齐。 从而保证最终获取的表格的完整性和准确性。
进一步的,所述获取每页PDF的各线段的坐标和各字符的坐标,具体为:
将每页PDF的线段和字符渲染到CImage句柄,在渲染的同时捕获各线段 和各字符的坐标。
由上述描述可知,将线段和字符渲染到CImage句柄,实现将结构化的PDF 数据转变为便于分析处理的图像数据,方便后续直接依据图像数据进行检测分 析,获取线段和字符的特征数据,最终据此获取所需数据。
进一步的,所述依据线段交点划分出单元格,并获取各单元格对应的矩形 坐标,具体为:
若一线段的一端点坐标与另一线段的一端点坐标之间的距离在预设的第一 阈值范围内,则判定所述一线段与所述另一线段相交;
若相邻的四条线段依序头尾相交,且组成的区域超过预设的第二阈值范围, 则获取所述四条线段的坐标,标记为所述四条线段构成的单元格对应的矩形坐 标。
由上述描述可知,由于PDF用户空间的坐标是浮点类型,因此对应判断两 个点的距离是否在一定阈值范围内来确定对应线段是否相交。方便后续依据交 点数量准确划分单元格。
本发明提供的另一个技术方案为:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行 时实现以下步骤:
获取每页PDF的各线段的坐标和各字符的坐标;
依据线段交点划分出单元格,并获取各单元格对应的矩形坐标;
依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块。
进一步的,所述程序还能实现以下步骤:
将每页PDF转变为图像数据形式;
依据单元格的中位线,确定每一行对应的单元格;
若相衔接的上下页沿Y轴方向逐步叠加靠拢后,能够获取相对应的垂直的 线段,且能够分别在所述垂直的线段上获取到水平的线段,则合并所述上下页 衔接处的单元格。
进一步的,步骤获取每页PDF的各线段的坐标和各字符的坐标,具体为:
将每页PDF的线段和字符渲染到CImage句柄,在渲染的同时捕获各线段 和各字符的坐标;
步骤依据线段交点划分出单元格,并获取各单元格对应的矩形坐标,具体 为:
若一线段的一端点坐标与另一线段的一端点坐标之间的距离在预设的第一 阈值范围内,则判定所述一线段与所述另一线段相交;
若相邻的四条线段依序头尾相交,且组成的区域超过预设的第二阈值范围, 则获取所述四条线段的坐标,标记为所述四条线段构成的单元格对应的矩形坐 标;
步骤依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块, 具体为:
依据字符的坐标是否位于矩形坐标内,获取非空白的各个矩形坐标对应的 字符;
依据字符从PDF的坐标空间映射到用户视觉空间的矩阵系数,排除所述非 空白的各矩形坐标内的水印字符;
所述非空白的各矩形坐标对应的字符组成字段块,补充空白的各个矩形坐 标对应空白字段;
获取各单元格对应的字段块。
实施例一
本实施例主要提供一种解析PDF表格数据的方法,适用于对PDF格式数据 中的表格进行解析,获取对应的表格数据,方便后续编辑操作。如在前端清洗 数据,客户提供的话单、账单中有很大一部分是表格式PDF格式的,通过本实 施例能将表格式PDF提取成对应的CSV格式,自动的导入到数据库中进行分析。
如图1-4所示,为现有常见的几种PDF表格形式。具体的,图1对应单表 格;图2对应随机空白单元格;图3对应跨页单元格;图4对应多层水印等形 式。基于目前现有的PDF表格解析相对闭源,且对这类表格数据都是单纯的字 符处理,难以做到数据与标题的对应,更难以判断行与行之间的相关性。
针对上述问题,本发明将在本实施例中,通过多个具体的实施方式来对应 解决不同表格形式的解析。
请参阅图8,本实施例的解析PDF表格数据的方法包括:
S1:将每页PDF转变为图像数据形式;设每页PDF的左上角为坐标原点; 获取每页PDF的各线段的坐标和各字符的坐标;
该步骤具体包括:
S101:加载PDF文件,循环获取每一页的对象;所述对象为指向每一页PDF 的指针,用于依序获取每一页PDF数据;
S102:将每一页PDF的线段和字符渲染到CImage句柄,设图像数据的每 页PDF数据的左上角为坐标原点;在渲染的同时捕获各线段和各字符的坐标。
在此,渲染到CImage句柄目的是为了:1.将结构化类型的PDF数据拷贝后 将再转换为图像数据;2.独立处理,保存原始PDF数据,避免源文件丢失;3. 能得到纯线段的图像数据,为后面图像二值化、直线检测排除干扰;4.转换为图 像数据,方便后续处理,直接通过图像检测得到对应特征,获取所需数据。
渲染时线段和字符的坐标是可以同时获取的,这里只是为了得到纯线段的 图像。获取线段的坐标指的是获取的一对点的坐标。
S2:依据线段交点划分出单元格,并获取各单元格对应的矩形坐标;
由于PDF用户空间的坐标是浮点类型的,因此,图片数据格式的xy空间坐 标中,线段的交点指的是空间坐标内的一条线段的其中一个端点与另一条线段 的其中一个端点的距离在一定的阈值范围内;如图6所示,线段A(x1,y1), (x2,y2)与线段B(x3,y3),(x4,y4)具有一个交点。单元格是指空间坐标 四组线段存在四个交点,且组成的区域超过一定阈值时可认为是有效的单元格; 如图7所示,相邻的四条线段A、B、C和D组成一个单元格。
因此,步骤S2具体包括:
S201:若一条线段的其中一个端点的坐标与另一条线段的其中一个端点的 坐标之间的距离在预设的第一阈值范围内,则判定这两条线段相交;
S202:若相邻的四条线段依次头尾相交,且所组成的区域超过预设的第二 阈值范围,则判定这四条线段组成一个有效的单元格,同时获取这四条线段的 坐标,标记为这四条线段构成的单元格对应的矩形坐标。
S203:获取每一个单元格对应的矩形坐标。
S3:依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块。
字段块,指的是在PDF单个单元格内的所有有效字符的顺序集合(排除落在 单元格内的水印字符)。
步骤S3具体包括:
S301:依据字符的坐标和矩形坐标之间的包含关系,判断矩形坐标内是否 包含有字符,即字符的矩形坐标是否落在(单元格)的矩形坐标内;若有,则 执行S302;若否,则执行S303。这一过程是从图像格式的空间坐标位置关系直 观自然的确定的。
S302:顺序获取矩形坐标内的所有字符,组成对应该矩形坐标的字段块;
S303:若判定某个矩形坐标内没有字符,则将该矩形坐标对应的字段块设 为空,即补充空白字段块对应该矩形坐标,以确保这一空白的矩形坐标对应的 空白单元格能与相应的标题对齐。
在一具体实施方式中,在判断得到矩形坐标内包含字符后,即步骤S302之 前,还将执行下述步骤;以针对性解决存在水印的PDF表格解析。
所述步骤具体包括:依据字符从PDF的坐标空间映射到用户视觉空间(即 本实施例中图像数据形式的xy坐标空间)的矩阵系数,排除各矩形坐标内的水 印字符。具体的,矩阵特征系数是指字符从PDF的坐标空间映射到用户视觉空 间的一组矩阵,水印一般是带有角度的字符,所以转换的矩阵与正常字符会有 不同,从而根据此方式判断某个字符是否是水印。
接着,本实施例的S3还包括:
S304:获取每一个单元格对应的字段块。
在另一具体实施方式中,进一步的还将包括S305,以同时实现对多行单元 格的解析。
S305:依据单元格的中位线,确定每一行对应的单元格。具体的,通过根 据各个单元格对应的中位线之间的误差范围确定是否是同一行数据。若位于同 一行,则该行的各个单元格的中位线的y轴坐标应该在一定阈值范围内,若不 在该阈值范围内,则判定不在同一行,将其拆分成不同行。
在另一具体实施方式中,还将包括S4-S5,以进一步实现对跨页单元格的解 析。
S4:将图像数据形式的每页PDF数据转换到Mat对象opencv中。
S5:对当前页从Y轴最大值开始,往原点方向前进获取垂直的线段后,判 断所述垂直的线段上是否能检测到与其相交的水平线段;且同时
对下一页从Y轴零坐标开始,往最大值方向前进获取垂直的线段后,判断 所述垂直的线段上是否能检测到与其相交的水平线段;
若同时满足这两个条件,则将所述当前页中相邻所述垂直的线段对应的单 元格与所述下一页中相对应的单元格合并为同一个单元格。如图3所示,即将 由于上下页分页而拆分的不完整单元格合并为完整的单元格。
在本实施例中,还包括以下步骤:
S6:汇聚整理成CSV格式的表格数据。
本实施例提供的PDF表格解析方法,无需根据特定的PDF文件分析字段之 间如何划分,无需确定表格的标题头,能够实现全自动、准确地解析并组织字 段块数据,实用性强、适用性光。进一步的,本实施例采用字符间坐标的关系 精确划分,采用视觉算法判断PDF页与页之间单元格的相关性,该方法以全新 的思路精确提取PDF的表格数据,自动性极强,大大简化了此类数据的导入。 综上,本实施例能自动、准确、全面地解析类PDF表格数据,大大改进了数据 清洗的准确性和便捷性,效果十分显著。
实施例二
本实施例对应实施例一,提供对应的一种计算机可读存储介质,其上存储 有计算机程序,该程序被处理器执行时能实现实施例一所包含的所有步骤。
综上所述,本发明提供的一种解析PDF表格数据的方法、存储介质,能实 现PDF表格的准确、便捷、自动化解析。不仅能精准解析出单表格、多表格的 数据,还能准确解析出随机空白单元格、跨页单元格以及多层水印单元格;其 实用性强、适用范围广。进一步的,本发明基于字符坐标和线段坐标进行解析, 区别于现有的单纯基于字符的处理,不仅实现更准确、便捷的解析,而且还能 保证数据与标题的对应;同时还能据此分析行与行之间的相关性,为实现多种 类型的表格解析提供支持。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利 用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术 领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种解析PDF表格数据的方法,其特征在于,包括:
获取每页PDF的各线段的坐标和各字符的坐标;
依据线段交点划分出单元格,并获取各单元格对应的矩形坐标;
依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块;
还包括:
将每页PDF转变为图像数据形式;
若相衔接的上下页沿Y轴方向逐步叠加靠拢后,能够获取相对应的垂直的线段,且能够分别在所述垂直的线段上获取到水平的线段,则合并所述上下页衔接处的单元格;
所述若相衔接的上下页沿Y轴方向逐步叠加靠拢后,能够获取相对应的垂直的线段,且能够分别在所述垂直的线段上获取到水平的线段,则合并所述上下页衔接处的单元格,具体为:
预设每页PDF的左上角为坐标原点;
对当前页从Y轴最大值开始,往原点方向前进获取垂直的线段后,判断所述垂直的线段上是否存在与其相交的水平线段;且同时
对下一页从Y轴零坐标开始,往最大值方向前进获取垂直的线段后,判断所述垂直的线段上是否存在与其相交的水平线段;
若是,则将所述当前页中相邻所述垂直的线段对应的单元格与所述下一页中相对应的单元格合并为同一个单元格。
2.如权利要求1所述的解析PDF表格数据的方法,其特征在于,还包括:
依据单元格的中位线,确定每一行对应的单元格。
3.如权利要求1所述的解析PDF表格数据的方法,其特征在于,所述依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块,具体为:
依据字符的坐标是否位于矩形坐标内,获取非空白的各个矩形坐标对应的字符;
依据字符从PDF的坐标空间映射到用户视觉空间的矩阵系数,排除所述非空白的各矩形坐标内的水印字符;
所述非空白的各矩形坐标对应的字符组成字段块,补充空白的各个矩形坐标对应空白字段;
获取各单元格对应的字段块。
4.如权利要求1所述的解析PDF表格数据的方法,其特征在于,所述获取每页PDF的各线段的坐标和各字符的坐标,具体为:
将每页PDF的线段和字符渲染到CImage句柄,在渲染的同时捕获各线段和各字符的坐标。
5.如权利要求1所述的解析PDF表格数据的方法,其特征在于,所述依据线段交点划分出单元格,并获取各单元格对应的矩形坐标,具体为:
若一线段的一端点坐标与另一线段的一端点坐标之间的距离在预设的第一阈值范围内,则判定所述一线段与所述另一线段相交;
若相邻的四条线段依序头尾相交,且组成的区域超过预设的第二阈值范围,则获取所述四条线段的坐标,标记为所述四条线段构成的单元格对应的矩形坐标。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
获取每页PDF的各线段的坐标和各字符的坐标;
依据线段交点划分出单元格,并获取各单元格对应的矩形坐标;
依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块;
所述程序还能实现以下步骤:
将每页PDF转变为图像数据形式;
依据单元格的中位线,确定每一行对应的单元格;
若相衔接的上下页沿Y轴方向逐步叠加靠拢后,能够获取相对应的垂直的线段,且能够分别在所述垂直的线段上获取到水平的线段,则合并所述上下页衔接处的单元格;
所述若相衔接的上下页沿Y轴方向逐步叠加靠拢后,能够获取相对应的垂直的线段,且能够分别在所述垂直的线段上获取到水平的线段,则合并所述上下页衔接处的单元格,具体为:
预设每页PDF的左上角为坐标原点;
对当前页从Y轴最大值开始,往原点方向前进获取垂直的线段后,判断所述垂直的线段上是否存在与其相交的水平线段;且同时
对下一页从Y轴零坐标开始,往最大值方向前进获取垂直的线段后,判断所述垂直的线段上是否存在与其相交的水平线段;
若是,则将所述当前页中相邻所述垂直的线段对应的单元格与所述下一页中相对应的单元格合并为同一个单元格。
7.如权利要求6所述的计算机可读存储介质,其特征在于,步骤获取每页PDF的各线段的坐标和各字符的坐标,具体为:
将每页PDF的线段和字符渲染到CImage句柄,在渲染的同时捕获各线段和各字符的坐标;
步骤依据线段交点划分出单元格,并获取各单元格对应的矩形坐标,具体为:
若一线段的一端点坐标与另一线段的一端点坐标之间的距离在预设的第一阈值范围内,则判定所述一线段与所述另一线段相交;
若相邻的四条线段依序头尾相交,且组成的区域超过预设的第二阈值范围,则获取所述四条线段的坐标,标记为所述四条线段构成的单元格对应的矩形坐标;
步骤依据字符的坐标与矩形坐标的包含关系,获取各单元格对应的字段块,具体为:
依据字符的坐标是否位于矩形坐标内,获取非空白的各个矩形坐标对应的字符;
依据字符从PDF的坐标空间映射到用户视觉空间的矩阵系数,排除所述非空白的各矩形坐标内的水印字符;
所述非空白的各矩形坐标对应的字符组成字段块,补充空白的各个矩形坐标对应空白字段;
获取各单元格对应的字段块。
CN201711235867.5A 2017-11-30 2017-11-30 解析pdf表格数据的方法、存储介质 Active CN108132916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711235867.5A CN108132916B (zh) 2017-11-30 2017-11-30 解析pdf表格数据的方法、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711235867.5A CN108132916B (zh) 2017-11-30 2017-11-30 解析pdf表格数据的方法、存储介质

Publications (2)

Publication Number Publication Date
CN108132916A CN108132916A (zh) 2018-06-08
CN108132916B true CN108132916B (zh) 2022-02-11

Family

ID=62390012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711235867.5A Active CN108132916B (zh) 2017-11-30 2017-11-30 解析pdf表格数据的方法、存储介质

Country Status (1)

Country Link
CN (1) CN108132916B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446487A (zh) * 2018-11-01 2019-03-08 北京神州泰岳软件股份有限公司 一种解析便携式文档格式文档表格的方法及装置
CN109670461A (zh) * 2018-12-24 2019-04-23 广东亿迅科技有限公司 Pdf文字提取方法、装置、计算机设备和存储介质
CN110008809B (zh) * 2019-01-04 2020-08-25 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
CN109815958B (zh) * 2019-02-01 2022-02-15 杭州睿琪软件有限公司 一种化验单识别方法、装置、电子设备和存储介质
CN109871524B (zh) * 2019-02-21 2023-06-09 腾讯科技(深圳)有限公司 一种图表生成方法及装置
CN110134957B (zh) * 2019-05-14 2023-06-13 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及***
CN112069991B (zh) * 2020-09-04 2024-08-09 税友软件集团股份有限公司 一种pdf的表格信息提取方法及相关装置
CN112541332B (zh) * 2020-12-08 2023-06-23 北京百度网讯科技有限公司 表单信息抽取方法、装置、电子设备及存储介质
CN112712014B (zh) * 2020-12-29 2024-04-30 平安健康保险股份有限公司 表格图片结构解析方法、***、设备和可读存储介质
CN113435166B (zh) * 2021-06-09 2024-03-19 深圳市世强元件网络有限公司 一种加下划线方法和***、计算机装置、可读存储介质
CN113361257B (zh) * 2021-06-29 2022-10-11 深圳壹账通智能科技有限公司 Pdf文档解析方法、***、电子装置及存储介质
CN113642408A (zh) * 2021-07-15 2021-11-12 杭州玖欣物联科技有限公司 一种工业互联网实时处理解析图片数据的方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866335B (zh) * 2010-06-14 2012-12-12 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN102467378A (zh) * 2010-11-11 2012-05-23 深圳市金蝶友商电子商务服务有限公司 基于二维矩阵的html表格处理方法及计算机
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN104268127B (zh) * 2014-09-22 2018-02-09 同方知网(北京)技术有限公司 一种电子档版式文件阅读顺序分析的方法
CN105989013A (zh) * 2015-01-28 2016-10-05 腾讯科技(深圳)有限公司 去除文字水印的方法及装置
CN105988979B (zh) * 2015-02-16 2018-11-16 北京邮电大学 基于pdf文件的表格提取方法和装置
CN106484340B (zh) * 2016-09-08 2019-04-05 中标软件有限公司 在打印过程中对文档进行水印添加与水印识别的方法
CN106951400A (zh) * 2017-02-06 2017-07-14 北京因果树网络科技有限公司 一种pdf文件的信息抽取方法及装置
CN106897690B (zh) * 2017-02-22 2018-04-13 南京述酷信息技术有限公司 Pdf表格提取方法

Also Published As

Publication number Publication date
CN108132916A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN108132916B (zh) 解析pdf表格数据的方法、存储介质
JP2012003753A5 (zh)
CN102063496B (zh) 空间数据化简方法及装置
CN109448088B (zh) 渲染立体图形线框的方法、装置、计算机设备和存储介质
CN103745221A (zh) 一种二维码图像矫正方法
CN112668289A (zh) 一种嵌套表格的提取方法及装置、存储介质
CN114239508A (zh) 表格还原方法和装置、存储介质及电子设备
CN112446262A (zh) 文本分析方法、装置、终端和计算机可读存储介质
CN115906360A (zh) 排水***cad-gis数据转换及标准标注方法和装置
CN111428700A (zh) 表格识别方法、装置、电子设备、存储介质
CN100492403C (zh) 文字图像分行方法和装置以及文字图像识别方法和装置
CN104268545A (zh) 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN107871128B (zh) 一种基于svg动态图表的高鲁棒性图像识别方法
CN112084103B (zh) 界面测试方法、装置、设备和介质
EP4083938A2 (en) Method and apparatus for image annotation, electronic device and storage medium
CN105701761A (zh) 用于图像处理的图像处理装置及方法
CN115457581A (zh) 表格提取方法、装置及计算机设备
CN114387378A (zh) 基于数字孪生渲染引擎的图像生成方法、装置及电子设备
CN104036535A (zh) 二维地理信息***中的矢量快速拣选方法
US20230215033A1 (en) Convex geometry image capture
JP4967934B2 (ja) 画像処理装置及びプログラム
CN118135116B (zh) 基于cad二维转换三维实体的自动生成方法及***
CN107204003B (zh) 二维数字岩心的连通区域识别方法及装置
CN103345437B (zh) 移动终端客户端浏览器的图形输出接口的测试方法及装置
CN107194304B (zh) 三维数字岩心的连通区域识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant