CN117437651A - 表格数据提取方法、装置、终端设备以及存储介质 - Google Patents

表格数据提取方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN117437651A
CN117437651A CN202311424991.1A CN202311424991A CN117437651A CN 117437651 A CN117437651 A CN 117437651A CN 202311424991 A CN202311424991 A CN 202311424991A CN 117437651 A CN117437651 A CN 117437651A
Authority
CN
China
Prior art keywords
picture
data
documents
target
form data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311424991.1A
Other languages
English (en)
Inventor
雷云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202311424991.1A priority Critical patent/CN117437651A/zh
Publication of CN117437651A publication Critical patent/CN117437651A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种表格数据提取方法、装置、终端设备以及存储介质,属于文档处理技术领域。本申请通过获取待提取表格数据的多个目标文档;通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;根据所述多个目标文档的类型对所述目标文档的表格数据进行提取处理。该方案通过识别多种文档类型,从而帮助工作人员快速提取各种文档中的表格数据,提高工作效率。

Description

表格数据提取方法、装置、终端设备以及存储介质
技术领域
本发明涉及文档处理领域,尤其涉及表格数据提取方法、装置、终端设备以及存储介质。
背景技术
随着数字化时代的到来,各行各业纷纷加入数字化、电子化的浪潮,企业和组织对数字化信息和处理需求也在不断增加,因此自动化的文档表格提取变得越来越重要。
目前,文档中表格数据的提取技术主要通过对图片类型的表格进行深度学习、图像处理来提取表格数据;针对非图片类型的表格主要通过文字提取,将提取的文字转换为图片类来进行提取表格数据。
但在上述相关技术方案中,提取文档中的表格数据的方法通常只适用于特定类型的文件,而无法满足用户同时对文本、表格和图片等多种文档类型的表格提取需要。
发明内容
本申请的主要目的在于提供一种表格提取方法、装置、终端设备以及存储介质,旨在解决现有技术提取文档中的表格数据的方法通常只适用于特定类型的文件的技术问题。
为实现上述目的,本申请提供一种表格提取方法,所述表格提取方法包括:
获取待提取表格数据的多个目标文档;
通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;
根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。
可选地,所述根据所述目标文档的类型对所述目标文档的表格数据进行提取处理的步骤包括:
若所述多个目标文档的类型为所述电子表格,则通过电子表格处理工具库对所述电子表格的表格数据进行提取;
若所述多个目标文档的类型为所述电子文档,则通过电子文档处理工具库对所述电子文档的表格数据进行提取;
若所述多个目标文档的类型为所述幻灯片文档,则通过幻灯片文档处理工具库对所述幻灯片文档的表格数据进行提取;
若所述多个目标文档的类型为所述PDF文档,则通过PDF文档处理工具库对所述PDF文档的表格数据进行提取;
若所述目标文件类型为所述图片,则通过训练模型对所述图片的表格数据进行提取。
可选地,所述若所述多个目标文档的类型为所述PDF文档,则通过PDF文档处理工具库对所述PDF文档的表格数据进行提取的步骤包括:
通过所述PDF文档处理工具库识别所述PDF文档中是否存在表格;
若识别到存在表格,则提取所述表格中的信息;
若识别到未存在表格,则读取所述PDF文档的页码;
根据所述PDF文档的页码将所述PDF文档转换成图片;
根据所述图片进行表格数据提取操作。
可选地,所述根据所述图片进行表格数据提取操作的步骤包括:
通过预先基于神经网络训练好的四分类模型对图片进行识别,根据识别结果对图片进行旋转,以得到图片中的文字方向为正向的图片;
通过提取所述文字方向为正向的图片的红绿蓝RGB通道,获取红色通道的灰度值统计直方图;
根据所述统计直方图确定待消除的颜色阈值范围;
根据所述待消除的颜色阈值范围对所述文字方向为正向的图片中的红色进行消除;
通过预先训练好的边缘检测模型,识别所述文字方向为正向的图片的内容范围框;
计算所述内容范围框的坐标值范围,并根据所述坐标值范围形成所述文字方向为正向的图片的内容矩形范围框;
根据所述内容矩形范围框对所述文字方向为正向的图片进行放大操作,并对放大处理后的文字方向为正向的图片进行二值化处理,得到结果图片;
对所述结果图片进行表格定位,以得到所述结果图片的表格数据。
可选地,所述对所述结果图片进行表格定位,以提取所述结果图片的表格数据的步骤包括:
通过预先训练好的目标检测模型识别所述结果图片中的表格位置;
根据所述表格位置,通过预先训练好的表格检测模型读取表格四角坐标围成的图片区域,得到单元格检测数据;
通过预先训练好的光学字符识别OCR模型对所述图片区域的文字进行识别,得到文字识别数据;
通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据。
可选地,所述通过预先训练好的目标检测模型识别所述结果图片中的表格位置的步骤包括:
将所述结果图片输入到所述预先训练好的目标检测模型中;
通过所述预先训练好的目标检测模型的输出得到所述结果图片中表格的四个角的坐标值;
通过所述结果图片中表格的四个角的坐标值对所述结果图片进行表格位置识别。
可选地,所述通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据的步骤之后还包括:
对所述表格数据进行二维结构化处理,生成二维结构化数据;
对所述二维结构化数据进行存储、传输和展示。
本申请实施例还提出一种表格数据提取装置,所述表格数据提取装置包括:
获取模块,用于获取待提取表格数据的多个目标文档;
识别模块,用于通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;
提取模块,用于根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。
本申请实施例还提出一种表格数据提取终端设备,所述表格数据提取终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格数据提取程序,所述表格数据提取程序配置为实现如上所述的表格数据提取方法的步骤。
本申请实施例还提出一种存储介质,所述存储介质上存储有表格数据提取程序,所述表格数据提取程序被处理器执行时实现如上所述的表格数据提取方法的步骤。
本申请实施例提出的表格数据提取方法、装置、终端设备以及存储介质,获取待提取表格数据的多个目标文档;通过所述多个目标文档的后缀名和/或文件头魔术数识别所述目标文档的类型;根据所述目标文档的类型对所述目标文档的表格数据进行提取处理。该方案通过识别多种文档类型,提取多种类型文档中的表格数据,从而提高表格数据处理的效率、准确性和自动化程度,适应不同类型的表格数据,降低人工成本,增强应用的适用性。
附图说明
图1为本申请表格数据提取装置所属终端设备的功能模块示意图;
图2为本申请表格数据提取方法第一示例性实施例的流程示意图;
图3为本申请表格数据提取方法第一示例性实施例中涉及的图片二值化处理流程示意图;
图4为本申请表格数据提取方法第二示例性实施例的流程示意图;
图5为本申请表格数据提取方法第一示例性实施例中涉及的文档表格提取装置示意图;
图6为图5中文档表格提取装置示意图的细化功能流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例的主要解决方案是:获取待提取表格数据的目标文档;通过所述目标文档的后缀名和/或文件头魔术数识别所述目标文档的类型;根据所述目标文档的类型对所述目标文档的表格数据进行提取处理。该方案通过识别多种文档类型,从而帮助用户快速提取各种文档中的表格数据,提高工作效率。
本申请实施例考虑到,相关技术方案表格数据提取方法,往往只适用于特定的文档类型或特定的表格结构,无法适应多样化的表格数据,从而降低用户的工作效率。
基于此,本申请实施例提出一种解决方案,可以通过识别多种文档类型,从而可以对各种文档中的表格数据进行提取,从而提高表格数据处理的效率、准确性和自动化程度,适应不同类型的表格数据,降低人工成本,增强应用的适用性。
具体地,参照图1,图1为本申请表格数据提取装置所属终端设备的功能模块示意图。该表格数据提取装置可以为独立于终端设备的、能够进行数据处理的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、电脑、云平台等可利用高性能的计算资源进行数据提取和处理的智能终端,本实施例以电脑进行举例。
在本实施例中,该表格数据提取装置所属终端设备至少包括识别模块110、处理器120、存储器130以及显示模块140。
存储器130中存储有操作***以及表格数据提取程序,表格数据提取装置可以将识别到的文档类型,以及提取的表格数据存储于该存储器130中;识别模块110可包括图像预处理、表格检测、表格分割、单元格识别等功能。显示模块140可以包括图像预览、表格位置标注、单元格内容展示、数据可视化和数据导出等功能。
其中,存储器130中的表格数据提取程序被处理器执行时实现以下步骤:
获取待提取表格数据的多个目标文档;
通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;
根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。
进一步地,存储器130中的表格数据提取程序被处理器执行时还实现以下步骤:
若所述多个目标文档的类型为所述电子表格,则通过电子表格处理工具库对所述电子表格的表格数据进行提取;
若所述多个目标文档的类型为所述电子文档,则通过电子文档处理工具库对所述电子文档的表格数据进行提取;
若所述多个目标文档的类型为所述幻灯片文档,则通过幻灯片文档处理工具库对所述幻灯片文档的表格数据进行提取;
若所述多个目标文档的类型为所述PDF文档,则通过PDF文档处理工具库对所述PDF文档的表格数据进行提取;
若所述目标文件类型为所述图片,则通过训练模型对所述图片的表格数据进行提取。
进一步地,存储器130中的表格数据提取程序被处理器执行时还实现以下步骤:
通过所述PDF文档处理工具库识别所述PDF文档中是否存在表格;
若识别到存在表格,则提取所述表格中的信息;
若识别到未存在表格,则读取所述PDF文档的页码;
根据所述PDF文档的页码将所述PDF文档转换成图片;
根据所述图片进行表格数据提取操作。
进一步地,存储器130中的表格数据提取程序被处理器执行时还实现以下步骤:
通过预先基于神经网络训练好的四分类模型对图片进行识别,根据识别结果对图片进行旋转,以得到图片中的文字方向为正向的图片;
通过提取所述文字方向为正向的图片的红绿蓝RGB通道,获取红色通道的灰度值统计直方图;
根据所述统计直方图确定待消除的颜色阈值范围;
根据所述待消除的颜色阈值范围对所述文字方向为正向的图片中的红色进行消除;
通过预先训练好的边缘检测模型,识别所述文字方向为正向的图片的内容范围框;
计算所述内容范围框的坐标值范围,并根据所述坐标值范围形成所述文字方向为正向的图片的内容矩形范围框;
根据所述内容矩形范围框对所述文字方向为正向的图片进行放大操作,并对放大处理后的文字方向为正向的图片进行二值化处理,得到结果图片;
对所述结果图片进行表格定位,以得到所述结果图片的表格数据。
进一步地,存储器130中的表格数据提取程序被处理器执行时还实现以下步骤:
通过预先训练好的目标检测模型识别所述结果图片中的表格位置;
根据所述表格位置,通过预先训练好的表格检测模型读取表格四角坐标围成的图片区域,得到单元格检测数据;
通过预先训练好的光学字符识别OCR模型对所述图片区域的文字进行识别,得到文字识别数据;
通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据。
进一步地,存储器130中的表格数据提取程序被处理器执行时还实现以下步骤:
将所述结果图片输入到所述预先训练好的目标检测模型中;
通过所述预先训练好的目标检测模型的输出得到所述结果图片中表格的四个角的坐标值;
通过所述结果图片中表格的四个角的坐标值对所述结果图片进行表格位置识别。
进一步地,存储器130中的表格数据提取程序被处理器执行时还实现以下步骤:
对所述表格数据进行二维结构化处理,生成二维结构化数据;
对所述二维结构化数据进行存储、传输和/或展示。
本实施例通过上述方案,具体通过获取待提取表格数据的多个目标文档;通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;根据所述多个目标文档的类型对所述目标文档的表格数据进行提取处理。该方案通过识别多种文档类型,从而帮助工作人员快速提取各种文档中的表格数据,提高工作效率。
基于上述终端设备架构但不限于上述架构,提出本申请方法实施例。
参照图2,图2为本申请表格数据提取方法第一示例性实施例的流程示意图。所述表格数据提取方法包括:
S101,获取待提取表格数据的多个目标文档。
目前,提取文档中的表格数据的方法通常只适用于特定类型的文件,而无法满足用户同时对文本、表格和图片等多种文档类型的表格提取需要。
为了能满足不同文档中的表格数据进行比较和分析,获取更全面和准确的信息,减少人工手动输入和处理的工作量,提高工作效率,从而需要获取待提取表格数据的多个目标文档。
具体地,首先确定待提取表格数据的类型;
然后,根据表格数据的类型确定表格数据所属的目标文档;
若目标文档是纸质文档,需要进行扫描和数字化处理,将纸质文档转换为电子文档格式。可以使用扫描仪或者手机应用程序进行扫描,并保存为可编辑的电子文档。
通过上述步骤,通过提取多个目标文档中的表格数据,可以对不同文档中的表格数据进行比较和分析,从而帮助用户在不同业务场景中获取更全面和准确的信息。
步骤S102,通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;
其中,目标文档的类型包括:电子表格、电子文档、幻灯片、PDF文档以及图片;
目标文档的后缀名包括:doc、docx、ppt、pptx、xls、xlsx、pdf、png、jpg、bmp等;
文件头魔术数是一个固定的字节序列,用于标识文件的类型或格式。它通常位于文件的开头,用于帮助计算机***识别文件的类型,从而正确地处理和解析文件。
在本实施例中,通过识别目标文档是否存在后缀名和/或文件头魔术数,从而识别目标文档的类型;
若识别到目标文档存在后缀名,则根据后缀名的类型进行目标文档类型的判断,再将同种类型的目标文档进行归类,从而统一进行后续的表格数据提取操作。
若识别到目标文档不存在后缀名,则读取该目标文档的文件头魔术数,基于文件头魔术数标识该目标文档的类型。
以目标文档为图片文件为例。
当识别到目标文档存在后缀名,且后缀名以“.jpg”结尾,则该目标文档可以被识别为JPEG图像文件;若以“.png”结尾,则该目标文档文件可以被识别为PNG图像文件;若以“.gif”结尾,则该目标文档可以被识别为GIF图像文件。
当识别到目标文档不存在后缀名,则通过读取文件的前几个字节,比较其文件头魔术数来确定文件类型。例如,JPEG图像文件的文件头魔术数是“FF D8 FF”,PNG图像文件的文件头魔术数是“89 50 4E 47”,GIF图像文件的文件头魔术数是“47 49 46 38”等。
通过上述步骤,可以确定文件的格式,从而能够根据不同类型的文档正确地提取和处理多种类型文档中的表格数据,避免将文件错误地当作其他类型的文件进行处理,从而减少错误操作的风险。
步骤S103,根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。
根据识别到的多个目标文档的类型,对该类型的目标文档选择对应的工具库和/或训练模型,以提取该目标文档中的表格数据,其中,工具库可包括:电子表格处理工具库、电子文档处理工具库、幻灯片文档处理工具库、PDF文档处理工具库等;
电子表格处理工具库可包括:apache poi、openpyx;
电子文档处理工具库可包括:python-docx;
幻灯片文档处理工具库可包括:python-pptx;
PDF文档处理工具库可包括:pdfplumber。
具体地,若多个目标文档的类型为电子表格,则可通过apache poi、openpyxl对该电子文档的表格数据进行提取;
若多个目标文档的类型为电子文档,则可通过python-docx对该电子文档的表格数据进行提取;
若多个目标文档的类型为幻灯片文档,则可通过python-pptx对该幻灯片文档的表格数据进行提取;
若多个目标文档的类型为所述PDF文档,则通过pdfplumber对该PDF文档的表格数据进行提取;
若目标文件类型为图片,则通过训练模型对该图片的表格数据进行提取。
当多个目标文档的类型不相同或存在多个类型,则可通过对应的工具库同时对相应类型的目标文档进行表格数据提取,以满足同时对多种文档类型的表格数据提取的要求。
通过对多种类型的目标文档进行分析和处理,不仅可以实现自动化的表格数据提取,还可以大大减少人工处理的工作量和时间,提高数据提取的效率和准确性。
但由于PDF文档中可能存在表格或不存在表格,若不存在表格则无法直接提取表格数据,因此还需要通过pdfplumber对PDF文档进行表格识别、信息提取和结构化处理。
具体地,通过pdfplumber识别PDF文档中是否存在表格;
若识别到该PDF文档中存在表格,则提取相关表格中的信息;
若识别到该PDF文档中不存在表格,则通过pdfplumber对PDF文档转换成图片再进行表格数据提取和结构化处理。
首先,读取PDF文档,并根据PDF文档页码将PDF文档转换成图片合集。
然后,预先训练基于ResNet(Residual Neural Network,深层残差网络)等神经网络的四分类模型,其中训练样本包含:0°、90°、180°、270°四个图片文字方向,将图片输入当预先训练好的基于神经网络的四分类模型中,当识别到该图片的文字方向不为0°,则将图片旋转为0°,即图片的文字方向为正向。
随后,读取通过上述处理后得到的文字方向为正向的图片,并提取该图片的RGB(red green blue,光学三原色)通道,将图像从RGB通道转换到灰度色彩空间,然后针对红色通道进行直方图统计,从而获取红色通道的灰度值统计直方图;根据红色通道的灰度值统计直方图的统计结果确定一个合适的阈值范围,可以是根据像素数量的峰值或者根据某个百分位数来确定,对该图片消除红色并输出。通过确定待消除颜色的阈值范围,可以将红色通道中在该范围内的像素值设为0,从而实现对红色部分的精确消除。这样可以有效地去除图片中的红色,使得图片更符合需求或者更适合特定的应用场景,并保留其他颜色通道的信息,使得处理后的图片在颜色上更加保真,不会对其他颜色产生影响,从而更加有效地提取图片中的表格数据。
接着,对边缘检测模型进行预先训练,其中,边缘检测模型是计算机视觉中的一项重要任务,用于检测图像中的边缘或轮廓,其训练样本通常是包含有标注边缘的图像数据。通过预先训练好的边缘检测模型识别图片内容范围,计算图片内容范围框的所有坐标值中的横坐标、纵坐标最大值和最小值,并根据横坐标、纵坐标最大值和最小值的范围形成该图片的内容矩形范围框,适度扩大范围框,完成对该图片的内容放大操作。通过进行图片的内容放大操作可以使得表格中的细节更加明显,例如表格线条、单元格边界等。这样可以提高表格数据提取算法的准确性,减少误差,提高表格数据的可读性,使得表格中的内容更加清晰可见。
最后,对经过放大处理后的图片进行二值化处理,得到结果图片。
其中,对经过放大处理后的图片进行二值化处理,得到结果图片的工作原理如下:
如图3所示,首先,将经过放大处理后的图像转换为灰度图像,可以使用灰度转换算法,将彩色图像的每个像素的RGB值转换为对应的灰度值。
然后,选择合适的二值化算法,将灰度图像中的像素值转换为二值(0或255)。常用的二值化算法包括全局:阈值法、自适应阈值法等。这些算法根据像素的灰度值和周围像素的信息,确定每个像素的二值化阈值。
接着,根据选择的二值化算法,将灰度图像中的像素值根据阈值进行二值化处理。像素值大于阈值的像素设为255(白色),像素值小于等于阈值的像素设为0(黑色)。这样就得到了二值化后的图像,即结果图片,以增强扫描图片效果。
最后,对该结果图片进行表格定位,以得到该结果图片的表格数据。
综上所述,通过将PDF文档中的图片转换为可编辑的图像格式,可以提高表格数据的可读性。这样可以更方便地进行后续的表格数据提取操作;通过进行文字方向识别和图像旋转操作,可以将图片中的文字方向纠正并将图像旋转到正确的方向,使得表格数据更易于提取和理解;通过进行鲜章消除操作,可以去除这些干扰,使得表格数据更清晰可见;通过对图片内容进行放大和二值化处理,可以提高表格数据的准确性。放大图片内容可以使得表格中的细节更加明显,二值化处理可以将表格数据转换为二值图像,方便后续的表格数据提取算法进行处理。该步骤可以提高表格数据的可读性、准确性和提取效果,从而更方便地进行表格数据的提取。
参照图4,图4为本申请表格数据提取方法第二示例性实施例的流程示意图。基于上述图2所示的实施例,在本实施例中,在上述步骤S103,根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理的步骤还包括:
通过预先训练好的目标检测模型识别所述结果图片中的表格位置;
根据所述表格位置,通过预先训练好的表格检测模型读取表格四角坐标围成的图片区域,得到单元格检测数据;
通过预先训练好的光学字符识别OCR模型对所述图片区域的文字进行识别,得到文字识别数据;
通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据。
其中,目标检测模型是一种计算机视觉模型,用于在图像或视频中检测和定位特定目标的位置,主要任务是识别图像中的目标,并返回目标的边界框和类别标签。其可包括:YOLO(You Only Look Once,你只看一次)、SSD(Single Shot MultiBox Detector,单次多框检测器)等;
OCR(Optical Character Recognition,光学字符识别)模型,一种用于将图像中的文字转换为可编辑文本的技术,通常由两个主要组件组成:文本检测和文本识别,文本检测的目标是找到图像中的文字区域,并生成文字区域的边界框或者其他形式的位置信息;文本识别的目标是将文字区域中的字符识别出来,并将其转换为可编辑的文本。
相比上述图2所示的实施例,本实施例还包括对结果图片进行表格定位,以提取所述结果图片的表格数据的处理方案。
在本实施例中,预先训练YOLO等目标检测模型以及OCR模型,YOLO模型的训练样本为标注了表格四角坐标值的带表格的图片,训练过程中,YOLO模型会学习如何从输入图片中准确地预测出表格的四个角的坐标值。训练完成后,YOLO模型可以用于识别新的图片中的表格,并返回表格的四个角的坐标值;
OCR模型的训练样本可以是包含了单元格中文字的图像以及对应的标注信息。
基于上述方法,通过对结果图片进行表格定位,以提取所述结果图片的表格数据的具体步骤,如下所述:
具体地,首先,将所述结果图片输入到所述预先训练好的YOLO模型中;再通过所述预先训练好的YOLO模型的输出得到所述结果图片中表格的四个角的坐标值;然后根据该结果图片中表格的四个角的坐标值对该结果图片进行表格位置识别。
当预先训练好的YOLO模型识别到结果图片中的表格位置时,根据该表格位置,通过预先训练好的表格检测模型读取表格四角坐标围成的图片区域,得到单元格检测数据。
然后,通过预先训练好的OCR模型对该图片区域进行文字识别,得到文字识别数据。
接着,使用单元格检测数据,确定每个单元格的位置和边界框。这些位置信息可以表示为图片区域框的坐标或其他形式的位置信息;使用文字识别数据,获取每个单元格中的文字内容。根据文字识别的结果,将每个单元格的文字内容与其对应的位置信息进行关联。
然后,结合单元格检测数据和文字识别数据,生成该结果图片的表格数据。
最后,对该表格数据进行二维结构化处理,生成二维结构化数据,以便对二维结构化数据进行存储、传输和/或展示。通过对表格数据进行二维结构化处理,可以将图像中的表格信息转换为易于处理和理解的数据形式。这样可以方便地进行数据的存储、传输和展示,以满足不同的需求和应用场景。
在上述实施例方案,通过预先训练好的目标检测模型、表格检测模型和OCR模型,可以实现自动化的表格数据提取,提高工作效率,减少人工操作的时间和成本,同时保证数据的准确性和一致性。这对于需要提取多种类型文档中的表格数据的任务和应用场景非常有意义。
以下结合具体场景,对本实施例方案进行详细地阐述:
以多个目标文档,其中包括以下两种类型的文档:PDF文档和电子表格进行举例。
为了适配多种文档类型的表格数据提取方法,还提供了一种文档表格提取装置,如图5所示,所述文档表格提取装置包括:文档类型识别模块、转换模块、预处理模块、表格提取模块以及存储展示模块。
基于上述文档表格提取装置,对多个目标文档进行文档预处理、表格识别和存储查询操作的流程,如图6所示:
首先,获取待提取表格数据的多个目标文档,并对多个目标文档的类型进行识别。当通过检查目标文档的后缀名或文件头魔术数时,以“.pdf”为后缀名的文档可以被识别为PDF文档,而以“.xlsx”为后缀名的文档可以被识别为电子表格。
然后,同时分别对PDF文档和电子表格,使用相应的方法来提取表格数据。
具体地,对于电子表格,则可通过电子表格处理工具库,如apache poi、openpyxl等电子表格操作程序,对所述电子表格的表格数据进行提取,并将该表格数据进行二维结构化处理,得到二维结构化数据并将其进行存储、传输和展示。
对于PDF文档,则通过PDF文档处理工具库对该PDF文档的表格数据进行提取,具体的操作过程如下:
首先,通过PDF文档处理工具库,如pdfplumber,识别该PDF文档中是否存在表格;若识别到存在表格,则提取该表格中的信息,并将该信息进行二维结构化处理,得到二维结构化数据并将其进行存储、传输和展示;
若识别到未存在表格,则读取该PDF文档的页码;根据该PDF文档的页码将该PDF文档转换成图片;通过预先基于神经网络训练好的四分类模型对图片进行识别,根据识别结果对图片进行旋转,以得到图片中的文字方向为正向的图片;
然后,通过提取所述文字方向为正向的图片的红绿蓝RGB通道,获取红色通道的灰度值统计直方图;根据所述统计直方图确定待消除的颜色阈值范围;根据所述待消除的颜色阈值范围对所述文字方向为正向的图片中的红色进行消除;
再通过预先训练好的边缘检测模型,识别文字方向为正向的图片的内容范围框;
接着,计算内容范围框的坐标值范围,并根据坐标值范围形成所述文字方向为正向的图片的内容矩形范围框;根据内容矩形范围框对文字方向为正向的图片进行放大操作,并对放大处理后的文字方向为正向的图片进行二值化处理,得到结果图片;
最后,对结果图片进行表格定位,以得到该PDF文档中的表格数据,并将PDF文档中的表格数据进行二维结构化处理,生成二维结构化数据,以便二维结构化数据进行存储、传输和/或展示,以供用户对PDF文档中的表格数据进行查询。
通过以上实施例的方案,通过识别多种文档类型,对各种文档中的表格数据进行提取,从而提高表格数据处理的效率、准确性和自动化程度,适应不同类型的表格数据,降低人工成本,增强应用的适用性从而帮助工作人员快速提取各种文档中的表格数据,提高工作效率。
此外,本申请实施例还提出一种表格数据提取装置,所述表格数据提取装置包括:
获取模块,用于获取待提取表格数据的多个目标文档;
识别模块,用于通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;
提取模块,用于根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。
本实施例实现表格数据提取的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种表格数据提取终端设备,所述表格数据提取终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格数据提取程序,所述表格数据提取程序配置为实现如上所述的表格数据提取方法的步骤。
由于本表格数据提取程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种存储介质,所述存储介质上存储有表格数据提取程序,所述表格数据提取程序被处理器执行时实现如上所述的表格数据提取方法的步骤。
由于本表格数据提取程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比于现有技术,本申请实施例提出的表格数据提取方法、装置、终端设备以及存储介质,属于文档处理技术领域。本申请通过获取待提取表格数据的多个目标文档;通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;根据所述多个目标文档的类型对所述目标文档的表格数据进行提取处理。该方案通过识别多种文档类型,从而帮助工作人员快速提取各种文档中的表格数据,提高工作效率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种表格数据提取方法,其特征在于,所述表格数据提取方法包括以下步骤:
获取待提取表格数据的多个目标文档;
通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;
根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。
2.如权利要求1所述的表格数据提取方法,其特征在于,所述根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理的步骤包括:
若所述多个目标文档的类型为电子表格,则通过电子表格处理工具库对所述电子表格的表格数据进行提取;
若所述多个目标文档的类型为电子文档,则通过电子文档处理工具库对所述电子文档的表格数据进行提取;
若所述多个目标文档的类型为幻灯片文档,则通过幻灯片文档处理工具库对所述幻灯片文档的表格数据进行提取;
若所述多个目标文档的类型为PDF文档,则通过PDF文档处理工具库对所述PDF文档的表格数据进行提取;
若所述多个目标文件类型为图片,则通过训练模型对所述图片的表格数据进行提取。
3.如权利要求2所述的表格数据提取方法,其特征在于,所述若所述多个目标文档的类型为PDF文档,则通过PDF文档处理工具库对所述PDF文档的表格数据进行提取的步骤包括:
通过所述PDF文档处理工具库识别所述PDF文档中是否存在表格;
若识别到存在表格,则提取所述表格中的信息;
若识别到未存在表格,则读取所述PDF文档的页码;
根据所述PDF文档的页码将所述PDF文档转换成图片;
根据所述图片进行表格数据提取操作。
4.如权利要求3所述的表格数据提取方法,其特征在于,所述根据所述图片进行表格数据提取操作的步骤包括:
通过预先基于神经网络训练好的四分类模型对图片进行识别,根据识别结果对图片进行旋转,以得到图片中的文字方向为正向的图片;
通过提取所述文字方向为正向的图片的红绿蓝RGB通道,获取红色通道的灰度值统计直方图;
根据所述统计直方图确定待消除的颜色阈值范围;
根据所述待消除的颜色阈值范围对所述文字方向为正向的图片中的红色进行消除;
通过预先训练好的边缘检测模型,识别所述文字方向为正向的图片的内容范围框;
计算所述内容范围框的坐标值范围,并根据所述坐标值范围形成所述文字方向为正向的图片的内容矩形范围框;
根据所述内容矩形范围框对所述文字方向为正向的图片进行放大操作,并对放大处理后的文字方向为正向的图片进行二值化处理,得到结果图片;
对所述结果图片进行表格定位,以得到所述结果图片的表格数据。
5.如权利要求4所述的表格数据提取方法,其特征在于,所述对所述结果图片进行表格定位,以提取所述结果图片的表格数据的步骤包括:
通过预先训练好的目标检测模型识别所述结果图片中的表格位置;
根据所述表格位置,通过预先训练好的表格检测模型读取表格四角坐标围成的图片区域,得到单元格检测数据;
通过预先训练好的光学字符识别OCR模型对所述图片区域的文字进行识别,得到文字识别数据;
通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据。
6.如权利要求5所述的表格数据提取方法,其特征在于,所述通过预先训练好的目标检测模型识别所述结果图片中的表格位置的步骤包括:
将所述结果图片输入到所述预先训练好的目标检测模型中;
通过所述预先训练好的目标检测模型的输出得到所述结果图片中表格的四个角的坐标值;
通过所述结果图片中表格的四个角的坐标值对所述结果图片进行表格位置识别。
7.如权利要求5所述的表格数据提取方法,其特征在于,所述通过所述单元格检测数据和所述文字识别数据,生成所述结果图片的表格数据的步骤之后还包括:
对所述表格数据进行二维结构化处理,生成二维结构化数据;
对所述二维结构化数据进行存储、传输和/或展示。
8.一种表格数据提取装置,其特征在于,所述表格数据提取装置包括:
获取模块,用于获取待提取表格数据的多个目标文档;
识别模块,用于通过所述多个目标文档的后缀名和/或文件头魔术数识别所述多个目标文档的类型;
提取模块,用于根据所述多个目标文档的类型对所述多个目标文档的表格数据进行提取处理。
9.一种表格数据提取设备,其特征在于,所述表格数据提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的表格数据提取程序,所述表格数据提取程序配置为实现如权利要求1至7中任一项所述的表格数据提取方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有表格数据提取程序,所述表格数据提取程序被处理器执行时实现如权利要求1至7中任一项所述的表格数据提取方法的步骤。
CN202311424991.1A 2023-10-27 2023-10-27 表格数据提取方法、装置、终端设备以及存储介质 Pending CN117437651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311424991.1A CN117437651A (zh) 2023-10-27 2023-10-27 表格数据提取方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311424991.1A CN117437651A (zh) 2023-10-27 2023-10-27 表格数据提取方法、装置、终端设备以及存储介质

Publications (1)

Publication Number Publication Date
CN117437651A true CN117437651A (zh) 2024-01-23

Family

ID=89553011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311424991.1A Pending CN117437651A (zh) 2023-10-27 2023-10-27 表格数据提取方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN117437651A (zh)

Similar Documents

Publication Publication Date Title
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
CN111476227B (zh) 基于ocr的目标字段识别方法、装置及存储介质
WO2020232872A1 (zh) 表格识别方法、装置、计算机设备和存储介质
US10140511B2 (en) Building classification and extraction models based on electronic forms
US8788930B2 (en) Automatic identification of fields and labels in forms
KR20190123790A (ko) 전자 문서로부터 데이터 추출
CN110807454B (zh) 基于图像分割的文字定位方法、装置、设备及存储介质
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
US8792730B2 (en) Classification and standardization of field images associated with a field in a form
CN110197238B (zh) 一种字体类别的识别方法、***及终端设备
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、***及存储介质
CN112861861B (zh) 识别数码管文本的方法、装置及电子设备
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN112464941A (zh) 一种基于神经网络的***识别方法和***
Akinbade et al. An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images
CN113850060A (zh) 民航文档数据识别录入方法及***
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
US20240212380A1 (en) Systems and methods for automatic context-based annotation
CN114155547B (zh) 一种图表识别方法、装置、设备及存储介质
CN116050379A (zh) 文档对比方法及存储介质
CN117437651A (zh) 表格数据提取方法、装置、终端设备以及存储介质
CN111291758B (zh) 用于识别***文字的方法和装置
CN114821623A (zh) 文档处理方法、装置、电子设备及存储介质
CN112348022A (zh) 一种基于深度学习的自由格式文档识别方法
CN114202761B (zh) 一种基于图片信息聚类的信息批量提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination