CN115082941A - 表格文档影像的表格信息获取方法及装置 - Google Patents

表格文档影像的表格信息获取方法及装置 Download PDF

Info

Publication number
CN115082941A
CN115082941A CN202211009514.4A CN202211009514A CN115082941A CN 115082941 A CN115082941 A CN 115082941A CN 202211009514 A CN202211009514 A CN 202211009514A CN 115082941 A CN115082941 A CN 115082941A
Authority
CN
China
Prior art keywords
document image
target
form document
text line
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211009514.4A
Other languages
English (en)
Inventor
孙铁
苏志锋
周博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202211009514.4A priority Critical patent/CN115082941A/zh
Publication of CN115082941A publication Critical patent/CN115082941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本申请涉及图像处理技术领域,提供一种表格文档影像的表格信息获取方法及装置。所述方法包括:将获取到的目标表格文档影像输入训练好的预测模型,获取目标表格文档影像中表格的表格结构,以及表格中各单元格的第一坐标区域;将目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各第一坐标区域进行匹配,确定各文本行所属的单元格;将各文本行进行文字识别后写入对应的各单元格,根据表格结构和记录有各文本行的单元格,生成表格信息。本申请实施例提供的表格文档影像的表格信息获取方法,能够对任意形式的表格文档影像进行表格信息的获取。

Description

表格文档影像的表格信息获取方法及装置
技术领域
本申请涉及图像处理技术领域,具体涉及一种表格文档影像的表格信息获取方法及装置。
背景技术
目前,在针对银行流水的信息的获取中,主要是对记录有银行表格信息的excel表格影像进行分析,以获取表格影像中的银行表格信息。而相关技术中,对表格文档影像的表格信息获取,是通过收集不同的流水模版,根据模版对表格文档影像进行一一位置对应识别,从而提取表格文档影像中的信息。
然而,现有技术对于表格文档影像中表格信息的获取依赖于模版,而各银行的表格文档影像中记录流水的形式并不全部一致,导致现有技术无法准确地对任意形式的表格文档影像进行表格信息的获取。
发明内容
本申请旨在至少解决相关技术中存在的技术问题之一。为此,本申请提出一种表格文档影像的表格信息获取方法,能够对任意形式的表格文档影像进行表格信息的获取。
本申请还提出一种表格文档影像的表格信息获取装置。
本申请还提出一种电子设备。
本申请还提出一种计算机可读存储介质。
根据本申请第一方面实施例的表格文档影像的表格信息获取方法,包括:
将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各所述第一坐标区域进行匹配,确定各所述文本行所属的所述单元格;
将各所述文本行进行文字识别后写入对应的各所述单元格,根据所述表格结构和记录有各所述文本行的单元格,生成表格信息;
其中,所述预测模型由多个表格影像训练样本训练得到,所述文本行检测模型由多个文本行训练样本训练得到。
本申请实施例提供的表格文档影像的表格信息获取方法,通过目标表格文档影像输入训练好的预测模型,获取目标表格文档影像中表格的表格结构,以及表格中各单元格的第一坐标区域后,将各文本行的第二坐标区域与各第一坐标区域进行匹配,以将各文本行写入其所属的单元格,并根据表格结构和记录有各文本行的单元格,生成表格信息。无需依赖于预先确定的表格模板便可从表格文档影像中提取表格信息,不受银行流水的样式限制,从而能够对任意形式的表格文档影像进行表格信息的获取。
根据本申请的一个实施例,所述将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域,包括:
识别所述目标表格文档影像中所述表格的单元格的属性信息;
确定所述属性信息不满足预设条件,将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
其中,所述属性信息包括所述单元格的个数以及所述单元格的高度。
根据本申请的一个实施例,所述将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域,包括:
识别所述目标表格文档影像的边界,获取所述目标表格文档影像中表格的边界框;
将所述边界框中的影像输入训练好的预测模型,获取所述目标表格文档影像中所述表格的表格结构,以及所述表格中各单元格的第一坐标区域。
根据本申请的一个实施例,所述根据所述表格结构和记录有各所述文本行的单元格,生成表格信息,包括:
根据所述表格结构和记录有各所述文本行的单元格,生成用于构造表格信息的html字符串;
根据tablepyxl库,将所述html字符串转换为excel文件,从所述excel文件中获取所述表格信息。
根据本申请的一个实施例,还包括:
获取初始表格文档影像;
将所述初始表格文档影像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述初始表格文档影像对应的目标倾斜角度;
根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取所述目标表格文档影像;
其中,所述分类模型由标记有预估倾斜角度的各表格文档影像样本进行训练后得到。
根据本申请的一个实施例,根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取所述目标表格文档影像,包括:
根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取校正表格文档影像;
从所述校正表格文档影像中,获取各所述文本行对应的各文本框;
根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率;
根据各所述斜率,对所述校正表格文档影像进行旋转校正,获取所述目标表格文档影像。
根据本申请的一个实施例,所述根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率,包括:
获取所述文本框的长边和宽边;
确定所述长边的长度大于所述宽边,且所述长边与所述宽边的长度差大于预设值,根据所述长边两端的顶点坐标,确定对应的所述文本行的斜率。
根据本申请第二方面实施例的表格文档影像的表格信息获取装置,包括:
表格结构识别模块,用于将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
文本区域确定模块,用于将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各所述第一坐标区域进行匹配,确定各所述文本行所属的所述单元格;
表格信息获取模块,用于将各所述文本行进行文字识别后写入对应的各所述单元格,根据所述表格结构和记录有各所述文本行的单元格,生成表格信息;
其中,所述预测模型由多个表格影像训练样本训练得到,所述文本行检测模型由多个文本行训练样本训练得到。
根据本申请第三方面实施例的电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现上述任一实施例所述的表格文档影像的表格信息获取方法。
根据本申请第四方面实施例的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的表格文档影像的表格信息获取方法。
根据本申请第五方面实施例的计算机程序产品,包括:所述计算机程序被处理器执行时实现如上述任一实施例所述的表格文档影像的表格信息获取方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
通过目标表格文档影像输入训练好的预测模型,获取目标表格文档影像中表格的表格结构,以及表格中各单元格的第一坐标区域后,将各文本行的第二坐标区域与各第一坐标区域进行匹配,以将各文本行写入其所属的单元格,并根据表格结构和记录有各文本行的单元格,生成表格信息。无需依赖于预先确定的表格模板便可从表格文档影像中提取表格信息,不受银行流水的样式限制,从而能够对任意形式的表格文档影像进行表格信息的获取。
进一步的,通过在确定目标表格文档影像中表格的单元格的属性信息不满足预设条件时,再进行表格结构和单元格的第一坐标区域的获取,从而减少需要进行表格结构和单元格的第一坐标区域获取的目标表格文档影像的处理量,提高表格文档影像的处理效率。
进一步的,通过对目标表格文档影像进行边界识别,获取目标表格文档影像中表格的边界框,并将边界框内的影像来输入训练好的预测模型进行表格结构以及第一坐标区域的获取,从而避免目标表格文档影像中其他与表格无关的信息对识别结果造成干扰,提高获取到的表格结构以及单元格的第一坐标区域的准确性,进而进一步提高后续获取到的表格信息的准确性。
进一步的,通过将银行的表格文档影像输入由标记有预估倾斜角度的图像样本训练得到的分类模型中,以利用分类模型对表格文档影像进行倾斜角度的分类,确定表格文档影像对应的目标倾斜角度,并根据确定的目标目标倾斜角度对表格文档影像进行校正,从而将对表格文档影像的倾斜角度的检测转换为可通过训练好的分类模型解决的分类问题,进而利用由各种倾斜角度的表格文档影像样本训练得到的分类模型,便可实现对任意360度方向的表格文档影像进行倾斜校正,提高表格文档影像的倾斜校正结果的准确性。
进一步的,通过在确定校正表格文档影像中存在多个文本行后,获取各文本行的斜率,并利用各文本行的斜率来对校正表格文档影像进行旋转校正以得到目标表格文档影像,从而实现对轻微角度的倾斜校正,进一步提高表格文档影像的表格信息获取效果。
进一步的,通过将文本框的长边和宽边进行比较,以根据比较结果,来判断对应的文本行的方向,从而根据方向来确定对应的斜率获取方式,进而能够准确地确定任意方向的文本行的斜率,从而提高后续利用斜率对任意方向的文本行进行轻微校正时的准确度。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的表格文档影像的表格信息获取方法的流程示意图;
图2是本申请实施例中对图1的表格文档影像的表格信息获取方法中表格结构以及各单元格的第一坐标区域的获取作进一步细化的流程图;
图3是本申请实施例中对图1的表格文档影像的表格信息获取方法中表格信息的获取作进一步细化的流程图;
图4是本申请又一实施例提供的表格文档影像的表格信息获取方法的流程示意图;
图5是本申请实施例提供的表格文档影像的表格信息获取装置的结构示意图;
图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面,将通过几个具体的实施例对本申请实施例提供的表格文档影像的表格信息获取方法及装置进行详细介绍和说明。
在一实施例中,提供了一种表格文档影像的表格信息获取方法,该方法应用于服务器,用于进行表格文档影像的表格信息获取。其中,服务器可以是独立的服务器或者是多个服务器组成的服务器集群来实现,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能采样点设备等基础云计算服务的云服务器。
如图1所示,本实施例提供的一种表格文档影像的表格信息获取方法包括:
步骤101,将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
步骤102,将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各所述第一坐标区域进行匹配,确定各所述文本行所属的所述单元格;
步骤103,将各所述文本行进行文字识别后写入对应的各所述单元格,根据所述表格结构和记录有各所述文本行的单元格,生成表格信息;
其中,所述预测模型由多个表格影像训练样本训练得到,所述文本行检测模型由多个文本行训练样本训练得到。
通过目标表格文档影像输入训练好的预测模型,获取目标表格文档影像中表格的表格结构,以及表格中各单元格的第一坐标区域后,将各文本行的第二坐标区域与各第一坐标区域进行匹配,以将各文本行写入其所属的单元格,并根据表格结构和记录有各文本行的单元格,生成表格信息。无需依赖于预先确定的表格模板便可从表格文档影像中提取表格信息,不受银行流水的样式限制,从而能够对任意形式的表格影像进行表格信息的获取。
在一实施例中,目标表格文档影像可以是任意银行出具的流水明细表的图像,该流水明细表以表格的形式展示。预测模型可以为RARE(Robust text recognizer withAutomatic Rectification)模型。在获取到目标表格文档影像后,将该目标表格文档影像输入训练好的RARE模型,获取目标表格文档影像中表格的表格结构,以及表格中任一单元格的四个顶点坐标。其中,表格结构由html标签来表示。在确定表格中任一单元格的四个顶点坐标后,即可根据四个顶点坐标形成的区域,确定单元格的第一坐标区域。
为提高表格文档影像的处理效率,在一实施例中,所述将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域,包括:
识别所述目标表格文档影像中所述表格的单元格的属性信息;
确定所述属性信息不满足预设条件,将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
其中,所述属性信息包括所述单元格的个数以及所述单元格的高度。
在一实施例中,考虑到流水明细表有标准表格和非标准表格的区分,而通常有实线条组成的闭环单元格称做标准表格,只有个别线条不形成闭环单元格、一个单元格包含非常多行文本或完全无线条的表则为非标准表格。而标准表格可由模板匹配等方式进行快速识别,提高表格信息的获取效率。因此在获取到目标表格文档影像后,可先通过UNET网络实现对表格中线条的预测后,对横竖线通过坐标位置计算进行组合形成单元格切片,然后获取单元格的属性信息,如单元格的个数和单元格的高度。其中,若检测到单元格的个数大于第一预设值,如5个,且单元格的高度小于第二预设值,如3CM,则将表格定义为标准表格;否则,将表格定义为非标准表格。
若确定表格为标准表格,则可采用模板匹配的方式进行表格信息获取,或者,先对表格***框使用YOLOV4模型进行检测,然后对生成非常细小的文本内容的单元格切片,再进入realESRGAN超分模型得到更适合比例的清晰切片,然后通过xlwt库将单元格信息写入excel,得到表格信息。
而对于非标准表格,无法采用常规方式进行表格信息的获取,此时则将获取到的目标表格文档影像输入训练好的预测模型,获取目标表格文档影像中表格的表格结构,以及表格中各单元格的第一坐标区域。
通过在确定目标表格文档影像中表格的单元格的属性信息不满足预设条件时,再进行表格结构和单元格的第一坐标区域的获取,从而减少需要进行表格结构和单元格的第一坐标区域获取的目标表格文档影像的处理量,提高表格文档影像的处理效率。
在一实施例中,对于单元格的第一坐标区域以及表格结构的获取,如图2所示,包括:
步骤201,识别所述目标表格文档影像的边界,获取所述目标表格文档影像中表格的边界框;
步骤202,将所述边界框中的影像输入训练好的预测模型,获取所述目标表格文档影像中所述表格的表格结构,以及所述表格中各单元格的第一坐标区域。
在一实施例中,先通过训练好的DETR(Detection Transformer)模型,对目标表格文档影像进行边界识别,获取目标表格文档影像中表格的边界框。其中,DETR模型的训练数据可来源于PubTables-1M公开的数据集。在获取到边界框后,将该边界框内的图像输入训练好的预测模型,如RARE(Robust text recognizer with Automatic Rectification)模型进行表格结构和单元格的坐标预测,获取目标表格文档影像中表格的表格结构,以及表格中各单元格的第一坐标区域。其中,预测模型由大量的表格文档影像样本训练得到,如来源于PubTabNet公开数据集,以及自动化程序根据公司内部收集的各银行流水样式生成的表格文档影像。表格表格结构由html标签来表示,表格结构预测即预测html标签。
通过对目标表格文档影像进行边界识别,获取目标表格文档影像中表格的边界框,并将边界框内的影像来输入训练好的预测模型进行表格结构以及第一坐标区域的获取,从而避免目标表格文档影像中其他与表格无关的信息对识别结果造成干扰,提高获取到的表格结构以及单元格的第一坐标区域的准确性,进而进一步提高后续获取到的表格信息的准确性。
在一实施例中,在获取到表格的表格结构,以及表格中各单元格的第一坐标区域后,将目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各第一坐标区域进行匹配。具体地,文本行检测模型可以为DBNet模型。利用训练好的DBNet模型,获取任一文本行的四个顶点坐标,从而将该四个顶点坐标围成的区域,确定为该文本行的第二坐标区域。然后,将该文本行的第二坐标区域与各第一坐标区域进行匹配。当检测到该文本行的第二坐标区域位于某个第一坐标区域内时,将该第一坐标区域对应的单元格,确定为该文本行所属的单元格。
在一实施例中,在确定各文本行所属的单元格后,将通过文本识别模型,如SVTR(Scene Text Recognition with a Single Visual Model)识别到的各文本行的文字,写入对应的各单元格,从而由文本行的坐标、文字识别结果和单元格的坐标一起组合出单元格的识别结果。其中,在通过文本识别模型识别文本行的文字后,还可以通过预设数据库,如存储银行名称、账户信息、千分号及点符号以及支付渠道等数据的数据库,对识别到的文字进行匹配,以对识别到的文字进行校验。如在预设数据库中,匹配到某一个银行名称与识别到的文字相同,则表示该文字识别正确。
在获取到单元格的识别结果后,即可基于单元格的识别结果以及表格结构,形成excel表格文件,从而得到表格信息。具体地,如图3所示,所述根据所述表格结构和记录有各所述文本行的单元格,生成表格信息,包括:
步骤301,根据所述表格结构和记录有各所述文本行的单元格,生成用于构造表格信息的html字符串;
步骤302,根据tablepyxl库,将所述html字符串转换为excel文件,从所述excel文件中获取所述表格信息。
在一实施例中,在获取到记录有各文本行的单元格,即单元格的识别结果后,将单元格的识别结果,和表示表格结构的html标签,一起构造表格的html字符串,再通过tablepyxl库将得到的html字符串进行转换,写入excel文件后,从excel文件读取表格信息。
在一实施例中,由于获取到的表格文档影像是通过电子化的方式,如拍摄或者扫描的方式得到的,因此可能存在任意方向上的倾斜。此时,表格文档影像中的文本行也会出现倾斜,因此可能导致对文本行的识别结果准确率下降,进而影响到生成的表格信息的准确度。为此,在一实施例中,如图4所示,目标表格文档影像的获取包括:
步骤1001,获取初始表格文档影像;
步骤1002,将所述初始表格文档影像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述初始表格文档影像对应的目标倾斜角度;
步骤1003,根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取所述目标表格文档影像;
其中,所述分类模型由标记有预估倾斜角度的各表格文档影像样本进行训练后得到。
在一实施例中,分类模型为深度网络结构,其存在5段卷积层,每一段内有2个或3个卷积层,每段结尾连接一个最大池化层用于缩小图片尺寸;各段内部的卷积核数一样,越靠近全连接层卷积核数量越多。分类模型中创建有参数初始化函数,如卷积操作con_op函数、全连接层操作fc_op函数、池化操作mpool_op函数中的至少一种。
示例性的,分类模型的第一段卷积输出尺寸为112*112*64,第二段卷积输出为56*56*128,第三段卷积输出28*28*256,第四段卷积输出14*14*512,第五段卷积输出7*7*512。其使用tf.reshape将pool5的结果扁平化,即表示为7*7*512的一维向量。分类模型的第一个全连接层使用fc_op函数创建,隐含节点是4096,激活函数为ReLu。分类模型使用tf.nn.dropout函数创建Dropout层,在分类模型进行训练时,节点保留率为0.5,在分类模型进行倾斜角度预测时为1。分类模型的第二个全连接层和第一个全连接层一致,紧跟一个dropout层,输出节点为1000,使用softmax处理得到分类概率输出,使用tf.argmax得到最大的类别。最终将fc8、softmax、predictions和参数列表p作为函数结果返回。
在一实施例中,分类模型中预设有多个倾斜角度的类别,即多个预设倾斜角度。由于通过对海量的图像进行观察,发现图像的倾斜角度如果忽略轻微的倾斜,则可将倾斜分为四个方向,分别为正对着的0角度倾斜,旋转90度倾斜,旋转270度倾斜,旋转180度倾斜,因此多个预设的预设倾斜角度可分别为0°,90°,180°以及270°。可以理解的,除上述多个预设倾斜角度外,还可根据实际情况设置其他的预设倾斜角度。此时,多个预设倾斜角度即可视为分别表示对应的类别。
在一实施例中,分类模型是由标记有预估倾斜角度的各表格文档影像样本进行训练后得到。具体地,将各表格文档影像样本依次输入预构建的分类模型进行模型训练,每次输入表格文档影像样本后均根据分类模型输出的表格文档影像样本的预设倾斜角度,与表格文档影像样本的预估倾斜角度的角度差,调整分类模型的参数,直至任一表格文档影像样本对应的角度差满足预设条件,完成分类模型的训练。
在一实施例中,对于分类模型的训练,可先采集各种银行的海量表格文档影像样本,然后对表格文档影像样本进行预估倾斜角度标注。其中,表格文档影像样本的预估倾斜角度,可以是从表格文档影像样本测得的实际倾斜角度。如表格文档影像样本测得的实际倾斜角度为20°,则预估倾斜角度为20°。或者,可根据表格文档影像样本测得的实际倾斜角度,从分类模型的各预设倾斜角度中,获取与该实际倾斜角度最接近的预设倾斜角度作为预估倾斜角度。如表格文档影像样本测得的实际倾斜角度为20°,各预设倾斜角度为0°,90°,180°以及270°,则预估倾斜角度为0°。
在采集到标注有预估倾斜角度的各表格文档影像样本后,将各表格文档影像样本依次输入分类模型进行训练。在训练过程中,对于任一表格文档影像样本,获取分类模型针对该表格文档影像样本输出的预设倾斜角度,然后将输出的预设倾斜角度,与该表格文档影像样本的预估倾斜角度进行比对。若两者的角度差小于预设值,则不做处理;若两者的角度差大于预设值,则根据预设值,调整分类模型的参数。完成分类模型的参数调整后,再将下一表格文档影像样本输入分类模型进行模型训练,直至所有表格文档影像样本输入某一次调整参数后的分类模型,得到的所有角度差均小于预设值,则判定分类模型训练完成。
通过大量的表格文档影像样本输入预构建的分类模型进行模型训练,以根据分类模型输出的表格文档影像样本的预设倾斜角度,与表格文档影像样本的预估倾斜角度的角度差,来调整分类模型的参数,直至任一表格文档影像样本对应的角度差满足预设条件,完成分类模型的训练,从而提高分类模型对图像进行预设倾斜角度的分类的准确性,进而提高后续针对银行的表格文档影像的倾斜角度的检测的准确性。
在一实施例中,在完成分类模型的训练后,将获取到的初始表格文档影像输入该训练好的分类模型,即可通过训练好的分类模型对初始表格文档影像进行分类,以从各预设倾斜角度中,确定初始表格文档影像所属的预设倾斜角度,从而将初始表格文档影像所属的预设倾斜角度确定为目标倾斜角度。
通过将银行的表格文档影像输入由标记有预估倾斜角度的图像样本训练得到的分类模型中,以利用分类模型对表格文档影像进行倾斜角度的分类,确定表格文档影像对应的目标倾斜角度,并根据确定的目标目标倾斜角度对表格文档影像进行校正,从而将对表格文档影像的倾斜角度的检测转换为可通过训练好的分类模型解决的分类问题,进而利用由各种倾斜角度的表格文档影像样本训练得到的分类模型,便可实现对任意360度方向的表格文档影像进行倾斜校正,提高表格文档影像的倾斜校正结果的准确性。
在确定目标倾斜角度后,将初始表格文档影像的中心点,基于目标倾斜角度进行旋转校正,从而得到目标表格文档影像。
考虑到在得到目标表格文档影像后,可能还存在轻微角度的倾斜。因此,为进一步提高表格文档影像的表格信息获取效果,在一实施例中,根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取所述目标表格文档影像,包括:
根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取校正表格文档影像;
从所述校正表格文档影像中,获取各所述文本行对应的各文本框;
根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率;
根据各所述斜率,对所述校正表格文档影像进行旋转校正,获取所述目标表格文档影像。
在一实施例中,由于表格文档影像若只存在单个文本行,则轻微的倾斜并不影响OCR识别的准确性。因此为提高处理效率,可先根据目标倾斜角度对初始表格文档影像进行校正,获取校正表格文档影像后,对校正表格文档影像进行文本行的检测。若校正表格文档影像只存在一个文本行,则将该校正表格文档影像作为目标表格文档影像;否则,对校正表格文档影像的各文本行进行提取,并获取各文本行的斜率。在获取到各文本行的斜率后,可从各文本行的斜率中,提取相同数量最多的斜率作为目标斜率,并根据目标斜率对目标文档进行旋转校正。
通过在确定校正表格文档影像中存在多个文本行后,获取各文本行的斜率,并利用各文本行的斜率来对校正表格文档影像进行旋转校正以得到目标表格文档影像,从而实现对轻微角度的倾斜校正,进一步提高表格文档影像的表格信息获取效果。
为使获取到的斜率更为准确,在一实施例中,在获取到校正表格文档影像后,对校正表格文档影像的各文本行进行检测,得到每个文本行对应的文本框。在获取各文本框后,将文本框的四个顶点分别认定为文本框的左上顶点,右上顶点,右下顶点以及左下顶点,然后从基于校正表格文档影像的中心点建立的二维坐标系中,获取任一文本框的这4个顶点坐标,分别为左上顶点(x1,y1)、右上顶点(x2,y2)、右下顶点(x3,y3)以及左下顶点(x4,y4)。在获取四个顶点坐标后,可根据左上顶点和右上顶点的坐标,或者右下顶点以及左下顶点的坐标,确定文本行的斜率为K = (y2 - y1) / (x2 - x1),或者K = (y4 - y3) /(x4 - x3)。
通过获取文本行对应的各文本框,并基于文本框各顶点的二维坐标,来确定对应的文本行的斜率,从而能够快速准确地确定文本行的斜率,从而进一步提高针对表格文档影像的轻微倾斜校正效果。
考虑到校正表格文档影像中,各文本行的方向可能不同,如其中一个文本行的方向可能为水平方向,另一个文本行的方向可能为竖直方向。此时若仅根据水平方向的斜率对校正表格文档影像进行轻微的倾斜校正,可能会导致竖直方向上的校正不够准确。为此,在一实施例中,根所述根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率,包括:
获取所述文本框的长边和宽边;
确定所述长边的长度大于所述宽边,且所述长边与所述宽边的长度差大于预设值,根据所述长边两端的顶点坐标,确定对应的所述文本行的斜率。
在一实施例中,由于文本框为长方形,因此在确定文本框的四个顶点坐标后,可根据左上顶点和右上顶点的坐标,或者右下顶点以及左下顶点的坐标,确定文本框的长边。如左上顶点的坐标为(x1,y1),右上顶点的坐标为(x2,y2),则两个顶点的距离即为该文本框的长边。可以理解的,文本框的长边还可由左下顶点和右下顶点的坐标距离确定。同理,可根据右上顶点和右下顶点之间的坐标距离,或者左上顶点和左下顶点的坐标距离,确定该文本框的宽边。
在确定文本框的长边和宽边后,若长边大于框边,且长边与宽边的长度差大于预设值,则可判定该文本框的方向为水平方向,此时可根据长边两端的顶点坐标,如左上顶点的坐标(x1,y1),以及右上顶点的坐标(x2,y2),确定文本行的斜率为K = (y2 - y1) / (x2- x1)。其中,预设值可根据实际情况进行设定,如30mm等。
同理,在一实施例中,若确定宽边的长度大于长边,且宽边与长边的长度差大于预设值,则可判定该文本框的方向为竖直方向,此时可根据宽边两端的顶点坐标,如右上顶点的坐标(x2,y3),以及右下顶点的坐标(x3,y3),确定对应的文本行的斜率为K =(y3 - y2)/ (x3 - x2)。
通过将文本框的长边和宽边进行比较,以根据比较结果,来判断对应的文本行的方向,从而根据方向来确定对应的斜率获取方式,进而能够准确地确定任意方向的文本行的斜率,从而提高后续利用斜率对任意方向的文本行进行轻微校正时的准确度。
在获取到各文本行的斜率后,为使根据斜率进行轻微校正的结果更为准确,在一实施例中,在获取到各文本行的斜率后,可直接对各文本行的斜率进行求平均,得到的斜率即可确定为平均斜率。或者,为使得到的平均斜率更为精确,可先将所有算出的斜率进行求平均,得到的斜率确定为基线。然后对该基线的上下限增加预设阈值,得到目标区间。在得到目标区间后,对各文本行的斜率进行过滤,从各文本行的斜率中,过滤掉位于目标区间外的斜率,获取位于目标区间的斜率作为目标斜率。然后对各目标斜率进行求平均,得到平均斜率。
在得到平均斜率后,通过平均斜率计算旋转角度,并获取校正表格文档影像的中心位置后,通过OPENCV方法,如warpAffine对校正表格文档影像进行旋转,最终得到对轻微倾斜角度进行矫正后的目标表格文档影像。
下面对本申请提供的表格文档影像的表格信息获取装置进行描述,下文描述的表格文档影像的表格信息获取装置与上文描述的表格文档影像的表格信息获取方法可相互对应参照。
在一实施例中,如图5所示,提供了一种表格文档影像的表格信息获取装置,包括:
表格结构识别模块210,用于将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
文本区域确定模块220,用于将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各所述第一坐标区域进行匹配,确定各所述文本行所属的所述单元格;
表格信息获取模块230,用于将各所述文本行进行文字识别后写入对应的各所述单元格,根据所述表格结构和记录有各所述文本行的单元格,生成表格信息;
其中,所述预测模型由多个表格影像训练样本训练得到,所述文本行检测模型由多个文本行训练样本训练得到。
通过目标表格文档影像输入训练好的预测模型,获取目标表格文档影像中表格的表格结构,以及表格中各单元格的第一坐标区域后,将各文本行的第二坐标区域与各第一坐标区域进行匹配,以将各文本行写入其所属的单元格,并根据表格结构和记录有各文本行的单元格,生成表格信息。无需依赖于预先确定的表格模板便可从表格文档影像中提取表格信息,不受银行流水的样式限制,从而能够对任意形式的表格影像进行表格信息的获取。
在一实施例中,表格结构识别模块210具体用于:
识别所述目标表格文档影像中所述表格的单元格的属性信息;
确定所述属性信息不满足预设条件,将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
其中,所述属性信息包括所述单元格的个数以及所述单元格的高度。
在一实施例中,表格结构识别模块210具体用于:
识别所述目标表格文档影像的边界,获取所述目标表格文档影像中表格的边界框;
将所述边界框中的影像输入训练好的预测模型,获取所述目标表格文档影像中所述表格的表格结构,以及所述表格中各单元格的第一坐标区域。
在一实施例中,表格信息获取模块230具体用于:
根据所述表格结构和记录有各所述文本行的单元格,生成用于构造表格信息的html字符串;
根据tablepyxl库,将所述html字符串转换为excel文件,从所述excel文件中获取所述表格信息。
在一实施例中,表格结构识别模块210还用于:
获取初始表格文档影像;
将所述初始表格文档影像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述初始表格文档影像对应的目标倾斜角度;
根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取所述目标表格文档影像;
其中,所述分类模型由标记有预估倾斜角度的各表格文档影像样本进行训练后得到。
在一实施例中,表格结构识别模块210具体用于:
根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取校正表格文档影像;
从所述校正表格文档影像中,获取各所述文本行对应的各文本框;
根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率;
根据各所述斜率,对所述校正表格文档影像进行旋转校正,获取所述目标表格文档影像。
在一实施例中,表格结构识别模块210具体用于:
获取所述文本框的长边和宽边;
确定所述长边的长度大于所述宽边,且所述长边与所述宽边的长度差大于预设值,根据所述长边两端的顶点坐标,确定对应的所述文本行的斜率。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序,以执行表格文档影像的表格信息获取方法,例如包括:
将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各所述第一坐标区域进行匹配,确定各所述文本行所属的所述单元格;
将各所述文本行进行文字识别后写入对应的各所述单元格,根据所述表格结构和记录有各所述文本行的单元格,生成表格信息;
其中,所述预测模型由多个表格影像训练样本训练得到,所述文本行检测模型由多个文本行训练样本训练得到。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种存储介质,存储介质包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的表格文档影像的表格信息获取方法,例如包括:
将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各所述第一坐标区域进行匹配,确定各所述文本行所属的所述单元格;
将各所述文本行进行文字识别后写入对应的各所述单元格,根据所述表格结构和记录有各所述文本行的单元格,生成表格信息;
其中,所述预测模型由多个表格影像训练样本训练得到,所述文本行检测模型由多个文本行训练样本训练得到。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种表格文档影像的表格信息获取方法,其特征在于,包括:
将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各所述第一坐标区域进行匹配,确定各所述文本行所属的所述单元格;
将各所述文本行进行文字识别后写入对应的各所述单元格,根据所述表格结构和记录有各所述文本行的单元格,生成表格信息;
其中,所述预测模型由多个表格影像训练样本训练得到,所述文本行检测模型由多个文本行训练样本训练得到。
2.根据权利要求1所述的表格文档影像的表格信息获取方法,其特征在于,所述将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域,包括:
识别所述目标表格文档影像中所述表格的单元格的属性信息;
确定所述属性信息不满足预设条件,将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
其中,所述属性信息包括所述单元格的个数以及所述单元格的高度。
3.根据权利要求1或2所述的表格文档影像的表格信息获取方法,其特征在于,所述将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域,包括:
识别所述目标表格文档影像的边界,获取所述目标表格文档影像中表格的边界框;
将所述边界框中的影像输入训练好的预测模型,获取所述目标表格文档影像中所述表格的表格结构,以及所述表格中各单元格的第一坐标区域。
4.根据权利要求1所述的表格文档影像的表格信息获取方法,其特征在于,所述根据所述表格结构和记录有各所述文本行的单元格,生成表格信息,包括:
根据所述表格结构和记录有各所述文本行的单元格,生成用于构造表格信息的html字符串;
根据tablepyxl库,将所述html字符串转换为excel文件,从所述excel文件中获取所述表格信息。
5.根据权利要求1所述的表格文档影像的表格信息获取方法,其特征在于,还包括:
获取初始表格文档影像;
将所述初始表格文档影像输入训练好的分类模型,从所述分类模型的各预设倾斜角度中,确定所述初始表格文档影像对应的目标倾斜角度;
根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取所述目标表格文档影像;
其中,所述分类模型由标记有预估倾斜角度的各表格文档影像样本进行训练后得到。
6.根据权利要求5所述的表格文档影像的表格信息获取方法,其特征在于,根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取所述目标表格文档影像,包括:
根据所述目标倾斜角度,对所述初始表格文档影像进行校正,获取校正表格文档影像;
从所述校正表格文档影像中,获取各所述文本行对应的各文本框;
根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率;
根据各所述斜率,对所述校正表格文档影像进行旋转校正,获取所述目标表格文档影像。
7.根据权利要求6所述的表格文档影像的表格信息获取方法,其特征在于,所述根据所述文本框各顶点的二维坐标,确定对应的所述文本行的斜率,包括:
获取所述文本框的长边和宽边;
确定所述长边的长度大于所述宽边,且所述长边与所述宽边的长度差大于预设值,根据所述长边两端的顶点坐标,确定对应的所述文本行的斜率。
8.一种表格文档影像的表格信息获取装置,其特征在于,包括:
表格结构识别模块,用于将获取到的目标表格文档影像输入训练好的预测模型,获取所述目标表格文档影像中表格的表格结构,以及所述表格中各单元格的第一坐标区域;
文本区域确定模块,用于将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域,与各所述第一坐标区域进行匹配,确定各所述文本行所属的所述单元格;
表格信息获取模块,用于将各所述文本行进行文字识别后写入对应的各所述单元格,根据所述表格结构和记录有各所述文本行的单元格,生成表格信息;
其中,所述预测模型由多个表格影像训练样本训练得到,所述文本行检测模型由多个文本行训练样本训练得到。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的表格文档影像的表格信息获取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的表格文档影像的表格信息获取方法。
CN202211009514.4A 2022-08-23 2022-08-23 表格文档影像的表格信息获取方法及装置 Pending CN115082941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211009514.4A CN115082941A (zh) 2022-08-23 2022-08-23 表格文档影像的表格信息获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211009514.4A CN115082941A (zh) 2022-08-23 2022-08-23 表格文档影像的表格信息获取方法及装置

Publications (1)

Publication Number Publication Date
CN115082941A true CN115082941A (zh) 2022-09-20

Family

ID=83244577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211009514.4A Pending CN115082941A (zh) 2022-08-23 2022-08-23 表格文档影像的表格信息获取方法及装置

Country Status (1)

Country Link
CN (1) CN115082941A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273113A (zh) * 2022-09-27 2022-11-01 深圳擎盾信息科技有限公司 表格类文本语义识别方法及装置
CN116861865A (zh) * 2023-06-26 2023-10-10 江苏常熟农村商业银行股份有限公司 Excel数据处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN111259873A (zh) * 2020-04-26 2020-06-09 江苏联著实业股份有限公司 一种表格数据提取方法及装置
CN111914805A (zh) * 2020-08-18 2020-11-10 科大讯飞股份有限公司 表格结构化方法、装置、电子设备及存储介质
CN114005123A (zh) * 2021-10-11 2022-02-01 北京大学 一种印刷体文本版面数字化重建***及方法
CN114283435A (zh) * 2021-12-02 2022-04-05 上海浦东发展银行股份有限公司 表格提取方法、装置、计算机设备、存储介质
CN114359939A (zh) * 2021-12-16 2022-04-15 华南理工大学 基于单元格检测的表格结构识别方法、***和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN111259873A (zh) * 2020-04-26 2020-06-09 江苏联著实业股份有限公司 一种表格数据提取方法及装置
CN111914805A (zh) * 2020-08-18 2020-11-10 科大讯飞股份有限公司 表格结构化方法、装置、电子设备及存储介质
CN114005123A (zh) * 2021-10-11 2022-02-01 北京大学 一种印刷体文本版面数字化重建***及方法
CN114283435A (zh) * 2021-12-02 2022-04-05 上海浦东发展银行股份有限公司 表格提取方法、装置、计算机设备、存储介质
CN114359939A (zh) * 2021-12-16 2022-04-15 华南理工大学 基于单元格检测的表格结构识别方法、***和设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TRAN H T等: "Cell decomposition for the table in document image based on analysis of texts and lines distribution", 《2016 EIGHTH INTERNATIONAL CONFERENCE ON UBIQUITOUS AND FUTURE NETWORKS (ICUFN)》 *
孔垂鑫: "基于深度学习的表格文档图像数字化技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
蒋东玉等: "图像中表格转换成HTML表格的研究与实现", 《黑龙江科技信息》 *
飞桨PADDLEPADDLE: "PaddleOCR新发版v2.2:开源版面分析与轻量化表格识别", 《CSDN:HTTPS://BLOG.CSDN.NET/PADDLEPADDLE/ARTICLE/DETAILS/119362481》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273113A (zh) * 2022-09-27 2022-11-01 深圳擎盾信息科技有限公司 表格类文本语义识别方法及装置
CN116861865A (zh) * 2023-06-26 2023-10-10 江苏常熟农村商业银行股份有限公司 Excel数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109492643B (zh) 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN115082941A (zh) 表格文档影像的表格信息获取方法及装置
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
CN109766778A (zh) 基于ocr技术的***信息录入方法、装置、设备及存储介质
CN112949455B (zh) 一种增值税***识别***及方法
CN110795714A (zh) 一种身份验证方法、装置、计算机设备及存储介质
CN111680690A (zh) 一种文字识别方法及装置
CN113011144A (zh) 表单信息的获取方法、装置和服务器
CN112464925A (zh) 基于机器学习的移动端开户资料银行信息自动提取方法
CN113688821B (zh) 一种基于深度学习的ocr文字识别方法
CN115100660A (zh) 文档图像的倾斜校正方法及装置
CN115131590B (zh) 目标检测模型的训练方法、目标检测方法及相关设备
CN111222585A (zh) 数据处理方法、装置、设备及介质
CN116092231A (zh) 票证识别方法、装置、终端设备以及存储介质
CN116740758A (zh) 一种防止误判的鸟类图像识别方法及***
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN114092938A (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN114332602A (zh) 一种智能货柜的商品识别方法
CN111199240A (zh) 银行卡识别模型的训练方法、银行卡识别方法以及装置
CN113628181A (zh) 图像处理方法、装置、电子设备及存储介质
CN114445716B (zh) 关键点检测方法、装置、计算机设备、介质及程序产品
CN112396057A (zh) 一种字符识别方法、装置及电子设备
CN112149523B (zh) 基于深度学习和并查集算法识别并抽取图片的方法及装置
CN114565749A (zh) 一种电力建设现场签证文档关键内容识别方法及***
CN114758340A (zh) 物流地址智能识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220920