CN115713775A - 一种从文档中提取表格的方法、***和计算机设备 - Google Patents

一种从文档中提取表格的方法、***和计算机设备 Download PDF

Info

Publication number
CN115713775A
CN115713775A CN202310010871.0A CN202310010871A CN115713775A CN 115713775 A CN115713775 A CN 115713775A CN 202310010871 A CN202310010871 A CN 202310010871A CN 115713775 A CN115713775 A CN 115713775A
Authority
CN
China
Prior art keywords
image
line
detection model
document
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310010871.0A
Other languages
English (en)
Other versions
CN115713775B (zh
Inventor
高翔
李瀚清
杨慧宇
朱***
曾丹梦
李巍豪
赵业辉
岳小龙
纪达麒
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datagrand Information Technology Shanghai Co ltd
Original Assignee
Datagrand Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Information Technology Shanghai Co ltd filed Critical Datagrand Information Technology Shanghai Co ltd
Priority to CN202310010871.0A priority Critical patent/CN115713775B/zh
Publication of CN115713775A publication Critical patent/CN115713775A/zh
Application granted granted Critical
Publication of CN115713775B publication Critical patent/CN115713775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及到一种从文档中提取表格的方法,该方法包括离线处理环节和在线处理环节,所述离线处理环节通过标注数据并训练机器学习模型,以检测图像表格区域、图像表格类型和图像表格线条,输出对应检测模型至在线处理环节应用;所述在线处理环节用以实时提取文档中表格包括电子表格和图像表格,电子表格可以根据指定文档的格式协议编码进行解析,图像表格需要利用离线处理环节所训练的模型,业务上进行串联后进行提取,得到结构还原和内容填充后的电子表格文件;还包括提取表格的***和计算机设备。本发明的方法、***和设备将常见文档类型中的表格提取方式统一提供一站式提取文档中所有表格内容,对实际办公场景有很大的意义。

Description

一种从文档中提取表格的方法、***和计算机设备
技术领域
本发明涉及到智能文本处理领域,特别涉及到一种从文档中提取表格的方法、***和计算机设备。
背景技术
表格是一种重要的信息承载及展现方式,具有结构清晰、信息量大等特点,在日常办公、资料文件等各种文件中得到大量使用,常见的例如人员信息表、产品属性表及财务报表等。
在实际中,表格数据很少单独呈现,而是和段落、标题、图片等其他文档元素混合起来以文档资料形式呈现。常见的文档格式包括Word、PDF、图片等格式。对于Word中的表格,如果是电子表格协议,可以直接读出,但word中也有可能***图像形式的表格。而对于PDF、图片等格式,其中的表格都是以图像的形式存储,处理起来较为困难。由于图像表格录入环境复杂、纸张平整度、打印清晰度等问题,导致录入***的图像表格存在扭曲、透视、清晰度等问题,对图像表格的后续使用造成很大困难。如何从不同类型文档中自动提取所有类型的表格结构及内容,在实际生产工作中需求很大,挑战很大。由于文档中电子表格指的是可以直接编辑表格结构和内容的表格,例如word中表格对象可直接使用office或wps软件进行编辑。而图像表格指的是以图像形式存储的表格,不能编辑,例如pdf文档中的表格、图片文件中的表格等,而且word中也能以图片的方式***表格,导致自动提取表格结构及内容造成困难,影响实际工作效率。
由于实际使用的表格样式本身比较复杂,按照线条的完整情况,一般可以划分为全线表格、少线表格和无线表格。其中,全线表格是最常见的表格,每个单元格四周都有线条环绕,表格结构清晰。而少线表格一般只有横线或者竖线划分大致结构,单元格划分需要配合文本对齐信息才能正确理解。而无线表格是没有任何线条的表格,智能通过文本对齐信息才能正确理解表格结构。
除了上述表格类型造成的困难外,图像表格在采集时由于打印质量、拍摄设备、纸张平整度等问题,造成采集的图像表格质量参差不齐,例如出现阴影、透视、线条扭曲、线条颜色过于暗淡等。本发明提出一种从文档中提取表格的方法和装置,目的是能够支持多种类型图像表格的解析,并将图像表格存储为xlsx、csv等独立的电子表格文件形式。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提供一种从文档中提取表格的方法、***和计算机设备。本发明的方法、***和计算机设备要能够针对文档中所有表格的结构及内容解析提取,从文档中自动提取所有表格,自动找到文档中所有的表格结构和文字内容,并导出为xlsx、csv等电子形式表格,方便后续人工处理或***自动化处理。
为了达到上述发明目的,本发明专利提供的技术方案如下:
本发明的方法主要分为离线***和在线***两部分。离线***主要包括:1,图像表格区域检测模型训练;2,图像表格类型划分模型训练;3,图像表格线线检测模型训练。在线***主要包括1,文档类型判断;2,表格类型判断;3,图像表格中文字内容检测与识别;2,图像表格区域检测;3,图像表格类型划分;4,图像表格线条检测;5,图像单元格构建;6,导出表格至电子表格文件。
所述离线***通过标注一定量的相关数据,训练相关机器学习模型,用来检测图像表格区域、图像表格类型和图像表格线条,输出相关模型供在线***使用。
图像表格区域检测模型训练。图像表格区域检测基于目标检测技术,通过标注图像中表格区域的位置信息,将原始图像和位置信息作为训练数据,使用机器学习的方法训练一个能够检测表格区域的目标检测模型,常用的目标检测算法包括YOLO、Faster RCNN等经典算法。表格区域用左上角xy坐标和右下角xy坐标来表示。
图像表格类型检测模型训练。图像表格类型检测基于图像分类技术,通过将表格区域图像进行数据标注,将表格类型划分为有线表格、少线表格和无线表格。将原始图像和表格类型信息作为训练数据,使用机器学习的方法训练能够检测图像中表格类型的模型,常用的图像分类算法包括SVM、ResNet等网络算法。
图像表格线条检测模型训练。图像表格线条检测模型用来检测表格中的所有线条,常见的线条检测模型基于图像实例分割技术,例如UNet、Spatial CNN等。表格线用有序像素点集合表示,横线排列顺序从左到右,竖线排列顺序由上到下,每个像素点由xy坐标表示。表格类型有全线、少线、无线三种类型,因此要根据表格类型设计不同的线条检测模型并分开训练提高准确率。表格线按照是否可以观测到,划分为物理线条和虚拟线条。按此标准,全线表格中所有表格线是物理线条,无线表格中表格线是虚拟线条,而少线表格中表格线是物理线条和虚拟线条的组合。因此表格线条检测模型需要训练物理线条检测和虚拟线条检测两个模型。
在线***中,执行如下操作:
文档预处理。文档中的表格分为电子表格和图像表格两大类。电子表格通常出现在Word中,而图像表格可能出现在任何类型文档中,因此需要根据文档类型进行不同的预处理,再根据预处理结果进行不同类型的表格提取。例如将Word中电子表格对象拿出后直接提取,而将图像对象导出为图像文件进行图像表格提取。而PDF文件需要将每页内容转换为图像文件进行图像表格提取处理。
电子表格提取。电子表格主要使用相关文件协议解析库提取文档中的表格对象。word可以使用官方提供的sdk读取所有的表格对象,直接拿出表格结构和内容。
图像表格提取。图像表格中文字内容检测与识别。完整的表格内容应包括表格结构和单元格文字,因此首先需要将图像中的所有文字信息识别出来,并标记每个字的位置。如某些文字坐标在后续识别出的某个单元格区域范围内,则这些文字为此单元格文字内容。识别图像中的文字使用成熟的光学字符识别(Optical Character Recognition,OCR)技术,但需要OCR***输出文字内容和区域坐标。文字区域坐标由文字左上角xy坐标和右下角xy坐标表示。
表格区域检测。表格区域检测使用离线***训练好的区域检测模型进行表格区域的判断。输入原始的图像,输出图像中所有表格的区域,每个区域包括左上角xy坐标和右下角xy坐标。
表格类型划分。将表格区域内的图像送入表格类型划分模块,根据离线训练好的类型模型对表格区域进行类型划分,得到有线表格、无线表格及半线表格,并将类型进行输出。
表格线条检测。将表格区域内的图像和类型送入表格线条检测模块,根据表格类型使用离线训练好的不同类型的表格线检测模型输出相关的表格线。有线表格使用物理表格线检测模型,无线表格使用虚拟表格线检测模型,半线表格同时使用物理表格线及虚拟表格线模型。
单元格构建。针对每一个表格区域内的表格线检测结果,根据横竖线条一系列的交点可以得到每个单元格四角xy坐标。将得到的所有单元格按照四角坐标按照从左到右从上到下的顺序排列,就可以得到整个表格的结构。得到表格结构后,根据OCR***识别出的文字内容和坐标及构造出的每个单元格坐标进行单元格文字填充,如果某些文字坐标范围在单元格内则为此单元格文字,并将构造好的表格按照行列二维矩阵进行输出。
导出表格至电子表格文件。将文档中所有检测到的表格进行结构还原和内容填充后,使用表格储存程序代码可以将每个表格依次保存为电子表格文件,格式支持csv或者xlxs。
本发明提出了基于文档解析、图像深度学习等技术,设计了包括离线、在线一整套***用于从文档中提取所有的表格及相关结构方法、***和计算机装置,在实际业务上有很大的应用价值。本发明主要有如下技术特点:
1、本发明的方法和***使用文档解析技术从Word文档中分离出图像元素和电子表格元素,将pdf文件按页转换成多张图像文件,并使用图像深度学习算法,通过数据标注,训练图像表格区域检测、图像表格类型划分、图像表格线检测模型。
2、本发明的方法和***提出物理表格线和虚拟表格线概念,通过两种表格线的组合完成多种图像类型表格的线条检测工作。
3、本发明的方法和***提出完整的在线***流程,使用训练好的离线模型,进行图像表格的检测和解析,并使用OCR技术识别出文字内容和区域,对表格单元格进行填充构建,其在线处理单元最终输出文档中提取到的所有表格并保存到电子表格文件中,例如csv或xlsx,方便人工或软件***使用。
4、本发明的方法和***不用人工整理区分文档中的表格类型,将常见文档类型中的表格提取方式统一提供一站式提取文档中所有表格内容,对实际办公场景有很大的意义。
附图说明
图1是本发明一种从文档中提取表格的方法的整体流程示意图。
图2是本发明一种从文档中提取表格的方法中图像表格区域检测离线模型训练流程示意图。
图3是本发明一种从文档中提取表格的方法中表格类型检测模型训练的流程示意图。
图4是本发明一种从文档中提取表格的方法中图像表格线条检测离线模型训练流程示意图。
图5是本发明一种从文档中提取表格的方法中图像文档预处理流程示意图。
图6是本发明一种从文档中提取表格的方法中图像文字内容检测在线流程示意图。
图7是本发明一种从文档中提取表格的方法中图像表格区域检测在线流程示意图。
图8是本发明一种从文档中提取表格的方法中图像表格类型划分在线流程示意图。
图9是本发明一种从文档中提取表格的方法中图像表格线检测在线流程示意图。
图10是本发明一种从文档中提取表格的方法中图像单元格构建在线流程示意图。
图11是本发明一种从文档中提取表格的方法中导出表格至电子表格文件在线流程示意图。
图12是本发明一种从文档中提取表格的***的组成示意图。
具体实施方式
下面我们结合附图和具体的实施例来对本发明一种从文档中提取表格的方法、***和计算机设备做进一步的详细阐述,以求更为清楚明了地理解其结构组成和工作方式,但不能以此来限制本发明的保护范围。
本发明首先提出了一种从文档中提取表格的方法,该方法包括离线处理环节和在线处理环节,其中:
所述离线处理环节通过标注一定量的图像表格标注数据,需要标注其中表格的范围、表格的类型及表格中所有线条,其中基础模型需要标注一万张表格图像,场景优化需要标注一千张左右,训练机器学习模型,以检测图像表格区域、图像表格类型和图像表格线条,输出对应检测模型至在线处理环节应用。
所述在线处理环节用以实时提取文档中所有类型的表格,包括电子表格和图像表格,电子表格可以根据指定文档的格式协议编码进行解析,图像表格需要利用离线处理环节所训练的模型,业务上进行串联后进行提取,得到结构还原和内容填充后的电子表格文件。
如图1所示,上述离线处理环节包括如下步骤:
S11. 训练出图像表格区域检测模型,基于目标检测技术检测图像表格区域,标注图像中表格区域的位置信息,将原始图像和位置信息作为训练数据,训练出能够检测表格区域的目标检测模型,表格区域用左上角xy坐标和右下角xy坐标来表示;
S12. 训练出图像表格类型检测模型,基于图像分类技术将表格区域图像进行数据标注,将表格类型划分为有线表格、少线表格和无线表格,将原始图像和表格类型信息作为训练数据,训练出能够检测图像中表格类型的模型;
S13. 训练出图像表格线条检测模型,基于图像实例分割技术,将表格线用有序像素点集合表示,横线排列顺序从左到右,竖线排列顺序由上到下,每个像素点由xy坐标表示,根据表格类型设计不同的分开训练线条检测模型,表格线按照是否可以观测到为标准划分为物理线条和虚拟线条,表格线条检测模型需要出训练物理线条检测和虚拟线条检测两个模型。
上述在线处理环节包括如下步骤:
S14.文档预处理,进行文档类型判断和表格类型判断,将文档中的表格分为电子表格和图像表格两大类,电子表格通常出现在Word中,而图像表格可能出现在任何类型文档中,根据文档类型进行不同的预处理,再根据预处理结果进行不同类型的表格提取,若为电子表格执行S15,若为图像表格则执行S16;
S15.提取电子表格,电子表格主要使用相关文件协议解析库读取所有的表格对象,对于微软Word 文档的.docx格式和金山WPS文档的.wps格式,使用 OpenXML 格式协议解析其中的电子表格,提取文档中的表格对象,若Word文件则使用官方提供的sdk(software development kit,软件开发工具包),直接拿出表格结构和内容;
S16.提取图像表格,先检测与识别图像表格中的文字内容;再利用训练好的图像表格区域检测模型判断表格区域,输出图像中所有表格的区域,每个区域包括左上角xy坐标和右下角xy坐标;再利用训练好的图像表格类型检测模型对表格区域进行类型划分,得到有线表格、无线表格及半线表格,并将类型输出;再将表格区域内的图像和类型送入图像表格线条检测模型中,输出相关的表格线,其中有线表格使用物理表格线检测模型,无线表格使用虚拟表格线检测模型,半线表格同时使用物理表格线及虚拟表格线模型;最后针对每一个表格区域内的表格线检测结果,根据横竖线条的多个交点得到每个单元格四角的xy坐标,将得到的所有单元格按照四角坐标按照从左到右从上到下的顺序排列,得到整个表格的结构;
S17.导出表格至电子表格文件,将文档中所有检测到的表格进行结构还原和内容填充,使用表格储存程序代码将每个表格依次保存为电子表格文件。
如图2所示,在S11中,所述的目标检测技术包括有YOLO、Faster RCNN在内的算法,使用机器学习的方法来训练能够检测表格区域的目标检测模型,其流程包括有:
输入原始图像数据集;
对表格区域进行数据标注;
标注数据生成模型训练数据;
表格目标检测模型训练;
输出表格区域检测模型。
如图3所示,在S12中,所述的图像分类技术包括有SVM、ResNet在内的网络算法,使用机器学习的方法来训练能够检测图像中表格类型的模型,其流程包括有:
集合表格区域图像;
表格类型数据标注;
标注数据生成模型训练数据;
表格类型检测模型训练;
输出表格类型检测模型。
如图4所示,在S13中,所述的图像分割技术包括有UNet、Spatial CNN在内的算法,表格线条检测模型需要训练物理线条检测和虚拟线条检测两个模型,其流程包括有:
表格区域图像集合;
判读表格类型为有线表格、半线表格或者无线表格;
有线表格进行物理表格线标注后,进行物理表格线检测模型训练,得到物理表格线检测模型;
无线表格进行虚拟表格线标注后,进行虚拟表格线检测模型训练,得到虚拟表格线检测模型;
半线表格中的物理表格线作为物理表格线标注,并组合进入物理表格线检测模型进行训练并输出,半线表格中的虚拟表格线作为虚拟表格线进行标准,并组合进入虚拟表格线检测模型进行训练并输出;
训练完成的物理表格线检测模型作为表格线检测模型进行输出,训练完成的虚拟表格线检测模型也作为表格线检测模型进行输出。
在S14中,在根据文档类型进行不同的预处理时,Word文件中电子表格对象拿出后直接提取,而将图像对象导出为图像文件进行图像表格提取,PDF文件则需要将每页内容都转换为图像文件进行图像表格提取处理。如图5所示,预处理过程包括有:
输入文档,判断是否为Word文件,若是则进行文档元素提取,若其中为电子表格则直接提取出电子表格的元素集合,若其中为图像元素集合,则导出为图文文件结合,获得图片文件集合;若否则判断是否为PDF文件;
若为PDF文件,则将PDF文件拆页并转换为多页图像,形成图片文件集合;
若不是PDF文件,再判定是否为图像文件,若是也作为图片文件集合,如果不是图像文件,无法处理舍弃。
在S16中,识别图像中的文字使用光学字符识别技术,利用OCR***输出文字内容和区域坐标,文字的区域坐标由文字左上角xy坐标和右下角xy坐标表示。如图6所示,图像文字识别的流程包括有:
输入原始图像;
调用OCR***进行文字识别;
输出所有文字及其坐标,即为OCR结果。
在S16中,表格区域检测使用训练好的区域检测模型进行表格区域的判断,如图7所示,表格区域检测的流程包括有:
输入原始图像;
调用表格区域检测模型进行预测;
输出所有表格区域的坐标。
在S16中,如图8所示,将表格区域内的图像送入表格类型划分模型,根据离线训练好的类型模型对表格区域进行类型划分,获得有线表格、无线表格或半线表格进行输出。
在S16中,如图9所示,所述表格线条在线检测流程包括有:
输入表格区域图像及表格类型;
判断是否为有线表格,若是则采用物理线条检测模型进行预测,若否则判断是否为半线表格;
若为半线表格,则将其中的物理线条采用物理线条检测模型进行预测,其中的虚拟线条利用虚拟线条检测模型进行预测;
若为无线表格,则全部采用虚拟线条检测模型进行预测;
将物理线条检测模型和虚拟线条检测模型输出表格中所有线条合集,即为表格线集合;
如图10所示,所述单元格构建流程包括有:
输入OCR结果和表格线集合;
计算所有表格线交点;
根据所有交点得到单元格四角坐标;
按照从上到下、从左到右的顺序排列所有单元格;
根据文字坐标和单元格坐标填充单元格文字;
输出行列二维矩阵表格结构。
在S16中,如图11所示,导出表格至电子表格文件流程包括:
输入表格结构内容及保持格式及路径;
调用表格存储程序;
输出所有电子表格文件至指定位置,文档表格提取完毕。
本发明还涉及到一种从文档中提取表格的***,该***包括有离线处理单元和在线处理单元,所述离线处理单元包括有通过数据标注训练出的图像表格区域检测模型、图像表格类型划分模型和图像表格线检测模型;所述在线处理单元包括有文档预处理模块、电子表格提取模块、图形表格提取模块和表格导出模块,其组成如图12所示。
在所述的在线处理单元中,所述文档预处理模块将输入的文档进行判断和识别,将文档中的表格分为电子表格和图像表格,后续根据不同类型的表格进行分别提取,分别获得电子表格元素集合和图片文件集合。
所述电子表格提取模块使用文件协议解析库提取文档中的电子表格,得到电子表格元素集合,该元素组合包括有表格结构和表格内容;
所述图形表格提取模块中设有文字内容检测与识别子模块、表格区域检测子模块、表格类型划分子模块、表格线条检测子模块和单元格构建子模块,通过文字内容检测与识别子模块将图像文件中的文字信息识别出来,并标记每个字的位置,所述表格区域检测子模块调用离线处理单元中训练完成的图像表格区域检测模型,输出图像中所有表格的区域坐标,所述表格类型划分子模块调用离线处理单元中训练完成的图像类型划分检测模型,得到有线表格、无线表格及半线表格,并将类型进行输出,所述表格线条检测子模块调用离线处理单元中训练完成的图像表格线条检测模型,获得表格中所有线条的合集,所述单元格构建子模块将得到的所有单元格按照四角坐标按照从左到右从上到下的顺序排列,获得整个表格的结构,再将识别出的文字内容和坐标及构造出的每个单元格坐标进行单元格文字填充,构造好的表格按照行列二维矩阵进行输出;
所述表格导出模块将文档中所有检测到的表格进行结构还原和内容填充,再使用表格储存程序将每个表格依次保存为电子表格文件,保存好的电子表格文件格式为csv格式或者xlxs格式。
一种计算机设备,该计算机设备内设有从文档中提取表格的***,该***为计算机程序或存储介质,其执行上述从文档中自动提取表格方法来从输入的文档中提取表格文件,形成为csv格式或者xlxs格式电子表格文件。计算机设备中设有表格解析在线模块作为在线处理单元和表格解析离线模块作为离线处理单元,其中表格解析离线模块实现表格区域检测模型训练、表格类型分类模型训练和表格线条检测模型训练。表格解析在线模块实现表格区域检测预测、表格类型分类预测和表格线条检测预测,实现图像表格的文档图像转换,电子表格解析提取和结果数据存储。计算机中采用成熟的OpenCV算法、图像分类算法、目标检测算法和图形分割算法,运用到深度学习框架和高性能并行计算作为计算框架,在资源调度管理实现CPU和GPU完成计算,数据的存储则包括本地磁盘和网络存储空间。
毫无疑问,以上只是本发明一种从文档中提取表格的方法、***和计算机设备的有限的实现形式,除此以外,还包括其他可行的实施步骤和***组成形式。总而言之,本发明的保护范围还包括其他对于本领域技术人员来说显而易见的变换和替代。

Claims (17)

1.一种从文档中提取表格的方法,其特征在于,该方法包括离线处理环节和在线处理环节,其中:
所述离线处理环节通过标注表格图像数据,训练机器学习模型,以检测图像表格区域、图像表格类型和图像表格线条,输出检测模型至在线处理环节应用;
所述在线处理环节用以实时提取文档中所有类型的表格,包括电子表格和图像表格,电子表格可以根据指定文档的格式协议编码进行解析,图像表格需要利用离线处理环节所训练的模型,业务上进行串联后进行提取,得到结构还原和内容填充后的电子表格文件。
2.根据权利要求1所述的一种从文档中提取表格的方法,其特征在于,所述离线处理环节包括如下步骤:
S11. 训练出图像表格区域检测模型,基于目标检测技术检测图像表格区域,标注图像中表格区域的位置信息,将原始图像和位置信息作为训练数据,训练出能够检测表格区域的目标检测模型,表格区域用左上角xy坐标和右下角xy坐标来表示;
S12. 训练出图像表格类型检测模型,基于图像分类技术将表格区域图像进行数据标注,将表格类型划分为有线表格、少线表格和无线表格,将原始图像和表格类型信息作为训练数据,训练出能够检测图像中表格类型的模型;
S13. 训练出图像表格线条检测模型,基于图像实例分割技术,将表格线用有序像素点集合表示,横线排列顺序从左到右,竖线排列顺序由上到下,每个像素点由xy坐标表示,根据表格类型设计不同的分开训练线条检测模型,表格线按照是否可以观测到为标准划分为物理线条和虚拟线条,表格线条检测模型需要出训练物理线条检测和虚拟线条检测两个模型。
3.根据权利要求1或2所述的一种从文档中提取表格的方法,其特征在于,所述在线处理环节包括如下步骤:
S14.文档预处理,进行文档类型判断和表格类型判断,将文档中的表格分为电子表格和图像表格两大类,电子表格出现的文件包括Word和WPS中,而图像表格可以出现在任何类型文档中,根据文档类型进行不同的预处理,再根据预处理结果进行不同类型的表格提取,若为电子表格执行S15,若为图像表格则执行S16;
S15.提取电子表格,所述电子表格使用对应文件协议解析库提取文档中的表格对象,对于微软Word 文档的.docx格式和金山WPS文档的.wps格式,使用 OpenXML 格式协议解析其中的电子表格,直接拿出表格结构和内容;
S16.提取图像表格,先检测与识别图像表格中的文字内容;再利用训练好的图像表格区域检测模型判断表格区域,输出图像中所有表格的区域,每个区域包括左上角xy坐标和右下角xy坐标;再利用训练好的图像表格类型检测模型对表格区域进行类型划分,得到有线表格、无线表格及半线表格,并将类型输出;再将表格区域内的图像和类型送入图像表格线条检测模型中,输出相关的表格线,其中有线表格使用物理表格线检测模型,无线表格使用虚拟表格线检测模型,半线表格同时使用物理表格线及虚拟表格线模型;最后针对每一个表格区域内的表格线检测结果,根据横竖线条的多个交点得到每个单元格四角的xy坐标,将得到的所有单元格按照四角坐标按照从左到右从上到下的顺序排列,得到整个表格的结构;
S17.导出表格至电子表格文件,将文档中所有检测到的表格进行结构还原和内容填充,使用表格储存程序代码将每个表格依次保存为电子表格文件。
4.根据权利要求2所述的一种从文档中提取表格的方法,其特征在于,在S11中,所述的目标检测技术包括有YOLO、Faster RCNN在内的算法,使用机器学习的方法来训练能够检测表格区域的目标检测模型,其流程包括有:
输入原始图像数据集;
对表格区域进行数据标注;
标注数据生成模型训练数据;
表格目标检测模型训练;
输出表格区域检测模型。
5.根据权利要求2所述的一种从文档中提取表格的方法,其特征在于,在S12中,所述的图像分类技术包括有SVM、ResNet在内的网络算法,使用机器学习的方法来训练能够检测图像中表格类型的模型,其流程包括有:
集合表格区域图像;
表格类型数据标注;
标注数据生成模型训练数据;
表格类型检测模型训练;
输出表格类型检测模型。
6.根据权利要求2所述的一种从文档中提取表格的方法,其特征在于,在S13中,所述的图像实例分割技术包括有UNet、Spatial CNN在内的算法,表格线条检测模型需要训练物理线条检测和虚拟线条检测两个模型,其流程包括有:
表格区域图像集合;
判读表格类型为有线表格、半线表格或者无线表格;
有线表格进行物理表格线标注后,进行物理表格线检测模型训练,得到物理表格线检测模型;
无线表格进行虚拟表格线标注后,进行虚拟表格线检测模型训练,得到虚拟表格线检测模型;
半线表格中的物理表格线作为物理表格线标注,并组合进入物理表格线检测模型进行训练并输出,半线表格中的虚拟表格线作为虚拟表格线进行标准,并组合进入虚拟表格线检测模型进行训练并输出;
训练完成的物理表格线检测模型作为表格线检测模型进行输出,训练完成的虚拟表格线检测模型也作为表格线检测模型进行输出。
7.根据权利要求3所述的一种从文档中提取表格的方法,其特征在于,在S14中,在根据文档类型进行不同的预处理时,Word文件中电子表格对象拿出后直接提取,而将图像对象导出为图像文件进行图像表格提取,PDF文件则需要将每页内容都转换为图像文件进行图像表格提取处理。
8.根据权利要求7所述的一种从文档中提取表格的方法,其特征在于,预处理过程包括有:
输入文档,判断是否为Word文件,若是则进行文档元素提取,若其中为电子表格则直接提取出电子表格的元素集合,若其中为图像元素集合,则导出为图文文件结合,获得图片文件集合;若否则判断是否为PDF文件;
若为PDF文件,则将PDF文件拆页并转换为多页图像,形成图片文件集合;
若不是PDF文件,再判定是否为图像文件,若是也作为图片文件集合,若否则舍弃不作处理。
9.根据权利要求3所述的一种从文档中提取表格的方法,其特征在于,在S16中,识别图像中的文字使用光学字符识别技术,利用OCR***输出文字内容和区域坐标,文字的区域坐标由文字左上角xy坐标和右下角xy坐标表示,图像文字识别的流程包括有:
输入原始图像;
调用OCR***进行文字识别;
输出所有文字及其坐标,即为OCR结果。
10.根据权利要求3所述的一种从文档中提取表格的方法,其特征在于,在S16中,表格区域检测使用训练好的区域检测模型进行表格区域的判断,表格区域检测的流程包括有:
输入原始图像;
调用表格区域检测模型进行预测;
输出所有表格区域的坐标。
11.根据权利要求10所述的一种从文档中提取表格的方法,其特征在于,在S16中,将表格区域内的图像送入表格类型划分模型,根据离线训练好的类型模型对表格区域进行类型划分,获得有线表格、无线表格或半线表格进行输出。
12.根据权利要求11所述的一种从文档中提取表格的方法,其特征在于,在S16中,所述表格线条在线检测流程包括有:
输入表格区域图像及表格类型;
判断是否为有线表格,若是则采用物理线条检测模型进行预测,若否则判断是否为半线表格;
若为半线表格,则将其中的物理线条采用物理线条检测模型进行预测,其中的虚拟线条利用虚拟线条检测模型进行预测;
若为无线表格,则全部采用虚拟线条检测模型进行预测;
将物理线条检测模型和虚拟线条检测模型输出表格中所有线条合集,即为表格线集合。
13.根据权利要求12所述的一种从文档中提取表格的方法,其特征在于,在S16中,所述单元格构建流程包括有:
输入OCR结果和表格线集合;
计算所有表格线交点;
根据所有交点得到单元格四角坐标;
按照从上到下、从左到右的顺序排列所有单元格;
根据文字坐标和单元格坐标填充单元格文字;
输出行列二维矩阵表格结构。
14.根据权利要求13所述的一种从文档中提取表格的方法,其特征在于,在S16中,导出表格至电子表格文件流程包括:
输入表格结构内容及保持格式及路径;
调用表格存储程序;
输出所有电子表格文件至指定位置,文档表格提取完毕。
15.一种从文档中提取表格的***,其特征在于,该***包括有离线处理单元和在线处理单元,所述离线处理单元包括有通过数据标注训练出的图像表格区域检测模型、图像表格类型划分模型和图像表格线检测模型;所述在线处理单元包括有文档预处理模块、电子表格提取模块、图形表格提取模块和表格导出模块;
所述文档预处理模块将输入的文档进行判断和识别,将文档中的表格分为电子表格和图像表格两种类型,后续根据两种不同类型的表格进行分别提取,分别获得电子表格元素集合和图片文件集合;
所述电子表格提取模块使用文件协议解析库提取文档中的电子表格,得到电子表格元素集合,该电子表格元素集合包括有表格结构和表格内容;
所述图形表格提取模块中设有文字内容检测与识别子模块、表格区域检测子模块、表格类型划分子模块、表格线条检测子模块和单元格构建子模块,通过文字内容检测与识别子模块将图像文件中的文字信息识别出来,并标记每个字的位置,所述表格区域检测子模块调用离线处理单元中训练完成的图像表格区域检测模型,输出图像中所有表格的区域坐标,所述表格类型划分子模块调用离线处理单元中训练完成的图像类型划分检测模型,得到有线表格、无线表格及半线表格,并将类型进行输出,所述表格线条检测子模块调用离线处理单元中训练完成的图像表格线条检测模型,获得表格中所有线条的合集,所述单元格构建子模块将得到的所有单元格按照四角坐标按照从左到右从上到下的顺序排列,获得整个表格的结构,再将识别出的文字内容和坐标及构造出的每个单元格坐标进行单元格文字填充,构造好的表格按照行列二维矩阵进行输出;
所述表格导出模块将文档中所有检测到的表格进行结构还原和内容填充,再使用表格储存程序将每个表格依次保存为电子表格文件。
16.根据权利要求15所述的一种从文档中提取表格的***,其特征在于,保存好的电子表格文件格式为csv格式或者xlxs格式。
17.一种计算机设备,其特征在于,该计算机设备内设有从文档中提取表格的***,该***为计算机程序或存储介质,其执行权利要求1-14任一项所述的方法来从输入的文档中提取表格。
CN202310010871.0A 2023-01-05 2023-01-05 一种从文档中提取表格的方法、***和计算机设备 Active CN115713775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310010871.0A CN115713775B (zh) 2023-01-05 2023-01-05 一种从文档中提取表格的方法、***和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310010871.0A CN115713775B (zh) 2023-01-05 2023-01-05 一种从文档中提取表格的方法、***和计算机设备

Publications (2)

Publication Number Publication Date
CN115713775A true CN115713775A (zh) 2023-02-24
CN115713775B CN115713775B (zh) 2023-04-25

Family

ID=85236169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310010871.0A Active CN115713775B (zh) 2023-01-05 2023-01-05 一种从文档中提取表格的方法、***和计算机设备

Country Status (1)

Country Link
CN (1) CN115713775B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052193A (zh) * 2023-04-03 2023-05-02 杭州实在智能科技有限公司 Rpa界面动态表格的拾取和匹配方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143831A1 (en) * 2001-03-28 2002-10-03 Bennett Paul W. System and method for calculation using spreadsheet lines and vertical calculations in a single document
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
US20200089946A1 (en) * 2018-06-11 2020-03-19 Innoplexus Ag System and method for extracting tabular data from electronic document
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113688688A (zh) * 2021-07-28 2021-11-23 达观数据(苏州)有限公司 图片中表格线条的补全方法与图片中表格的识别方法
CN114565927A (zh) * 2022-03-03 2022-05-31 上海恒生聚源数据服务有限公司 表格识别方法、装置、电子设备及存储介质
CN114782970A (zh) * 2022-06-22 2022-07-22 广州市新文溯科技有限公司 一种表格提取方法、***及可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020143831A1 (en) * 2001-03-28 2002-10-03 Bennett Paul W. System and method for calculation using spreadsheet lines and vertical calculations in a single document
US20200089946A1 (en) * 2018-06-11 2020-03-19 Innoplexus Ag System and method for extracting tabular data from electronic document
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN113221743A (zh) * 2021-05-12 2021-08-06 北京百度网讯科技有限公司 表格解析方法、装置、电子设备和存储介质
CN113688688A (zh) * 2021-07-28 2021-11-23 达观数据(苏州)有限公司 图片中表格线条的补全方法与图片中表格的识别方法
CN114565927A (zh) * 2022-03-03 2022-05-31 上海恒生聚源数据服务有限公司 表格识别方法、装置、电子设备及存储介质
CN114782970A (zh) * 2022-06-22 2022-07-22 广州市新文溯科技有限公司 一种表格提取方法、***及可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052193A (zh) * 2023-04-03 2023-05-02 杭州实在智能科技有限公司 Rpa界面动态表格的拾取和匹配方法及***
CN116052193B (zh) * 2023-04-03 2023-06-30 杭州实在智能科技有限公司 Rpa界面动态表格的拾取和匹配方法及***

Also Published As

Publication number Publication date
CN115713775B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
CN111027297A (zh) 一种对图像型pdf财务数据关键表格信息的处理方法
CN116052193B (zh) Rpa界面动态表格的拾取和匹配方法及***
US11341319B2 (en) Visual data mapping
CN112418812A (zh) 分布式全链路自动化智能通关***、方法及存储介质
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN113221711A (zh) 一种信息提取方法及装置
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN115713775B (zh) 一种从文档中提取表格的方法、***和计算机设备
WO2023231380A1 (zh) 极片缺陷识别及模型训练方法、装置及电子设备
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机***
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
CN111209831A (zh) 一种基于分类算法的文档表格内容识别方法及装置
CN114581928A (zh) 一种表格识别方法及***
Yuan et al. An opencv-based framework for table information extraction
CN116090560B (zh) 基于教材的知识图谱建立方法、装置及***
CN111241329A (zh) 基于图像检索的古文字考释方法和装置
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质
CN114202761B (zh) 一种基于图片信息聚类的信息批量提取方法
JP7507331B1 (ja) レイアウト解析システム、レイアウト解析方法、及びプログラム
CN116994282B (zh) 一种用于桥梁设计图的钢筋数量识别归集方法
JP7470264B1 (ja) レイアウト解析システム、レイアウト解析方法、及びプログラム
CN118155230A (zh) 文件处理方法、存储介质及计算机设备
CN116303237A (zh) 错误可回溯的图像数据结构与标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant