CN115082941A

CN115082941A - 表格文档影像的表格信息获取方法及装置

Info

Publication number: CN115082941A
Application number: CN202211009514.4A
Authority: CN
Inventors: 孙铁; 苏志锋; 周博
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-09-20

Abstract

本申请涉及图像处理技术领域，提供一种表格文档影像的表格信息获取方法及装置。所述方法包括：将获取到的目标表格文档影像输入训练好的预测模型，获取目标表格文档影像中表格的表格结构，以及表格中各单元格的第一坐标区域；将目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域，与各第一坐标区域进行匹配，确定各文本行所属的单元格；将各文本行进行文字识别后写入对应的各单元格，根据表格结构和记录有各文本行的单元格，生成表格信息。本申请实施例提供的表格文档影像的表格信息获取方法，能够对任意形式的表格文档影像进行表格信息的获取。

Description

表格文档影像的表格信息获取方法及装置

技术领域

本申请涉及图像处理技术领域，具体涉及一种表格文档影像的表格信息获取方法及装置。

背景技术

目前，在针对银行流水的信息的获取中，主要是对记录有银行表格信息的excel表格影像进行分析，以获取表格影像中的银行表格信息。而相关技术中，对表格文档影像的表格信息获取，是通过收集不同的流水模版，根据模版对表格文档影像进行一一位置对应识别，从而提取表格文档影像中的信息。

然而，现有技术对于表格文档影像中表格信息的获取依赖于模版，而各银行的表格文档影像中记录流水的形式并不全部一致，导致现有技术无法准确地对任意形式的表格文档影像进行表格信息的获取。

发明内容

本申请旨在至少解决相关技术中存在的技术问题之一。为此，本申请提出一种表格文档影像的表格信息获取方法，能够对任意形式的表格文档影像进行表格信息的获取。

本申请还提出一种表格文档影像的表格信息获取装置。

本申请还提出一种电子设备。

本申请还提出一种计算机可读存储介质。

根据本申请第一方面实施例的表格文档影像的表格信息获取方法，包括：

将获取到的目标表格文档影像输入训练好的预测模型，获取所述目标表格文档影像中表格的表格结构，以及所述表格中各单元格的第一坐标区域；

将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域，与各所述第一坐标区域进行匹配，确定各所述文本行所属的所述单元格；

将各所述文本行进行文字识别后写入对应的各所述单元格，根据所述表格结构和记录有各所述文本行的单元格，生成表格信息；

其中，所述预测模型由多个表格影像训练样本训练得到，所述文本行检测模型由多个文本行训练样本训练得到。

本申请实施例提供的表格文档影像的表格信息获取方法，通过目标表格文档影像输入训练好的预测模型，获取目标表格文档影像中表格的表格结构，以及表格中各单元格的第一坐标区域后，将各文本行的第二坐标区域与各第一坐标区域进行匹配，以将各文本行写入其所属的单元格，并根据表格结构和记录有各文本行的单元格，生成表格信息。无需依赖于预先确定的表格模板便可从表格文档影像中提取表格信息，不受银行流水的样式限制，从而能够对任意形式的表格文档影像进行表格信息的获取。

根据本申请的一个实施例，所述将获取到的目标表格文档影像输入训练好的预测模型，获取所述目标表格文档影像中表格的表格结构，以及所述表格中各单元格的第一坐标区域，包括：

识别所述目标表格文档影像中所述表格的单元格的属性信息；

确定所述属性信息不满足预设条件，将获取到的目标表格文档影像输入训练好的预测模型，获取所述目标表格文档影像中表格的表格结构，以及所述表格中各单元格的第一坐标区域；

其中，所述属性信息包括所述单元格的个数以及所述单元格的高度。

识别所述目标表格文档影像的边界，获取所述目标表格文档影像中表格的边界框；

将所述边界框中的影像输入训练好的预测模型，获取所述目标表格文档影像中所述表格的表格结构，以及所述表格中各单元格的第一坐标区域。

根据本申请的一个实施例，所述根据所述表格结构和记录有各所述文本行的单元格，生成表格信息，包括：

根据所述表格结构和记录有各所述文本行的单元格，生成用于构造表格信息的html字符串；

根据tablepyxl库，将所述html字符串转换为excel文件，从所述excel文件中获取所述表格信息。

根据本申请的一个实施例，还包括：

获取初始表格文档影像；

将所述初始表格文档影像输入训练好的分类模型，从所述分类模型的各预设倾斜角度中，确定所述初始表格文档影像对应的目标倾斜角度；

根据所述目标倾斜角度，对所述初始表格文档影像进行校正，获取所述目标表格文档影像；

其中，所述分类模型由标记有预估倾斜角度的各表格文档影像样本进行训练后得到。

根据本申请的一个实施例，根据所述目标倾斜角度，对所述初始表格文档影像进行校正，获取所述目标表格文档影像，包括：

根据所述目标倾斜角度，对所述初始表格文档影像进行校正，获取校正表格文档影像；

从所述校正表格文档影像中，获取各所述文本行对应的各文本框；

根据所述文本框各顶点的二维坐标，确定对应的所述文本行的斜率；

根据各所述斜率，对所述校正表格文档影像进行旋转校正，获取所述目标表格文档影像。

根据本申请的一个实施例，所述根据所述文本框各顶点的二维坐标，确定对应的所述文本行的斜率，包括：

获取所述文本框的长边和宽边；

确定所述长边的长度大于所述宽边，且所述长边与所述宽边的长度差大于预设值，根据所述长边两端的顶点坐标，确定对应的所述文本行的斜率。

根据本申请第二方面实施例的表格文档影像的表格信息获取装置，包括：

表格结构识别模块，用于将获取到的目标表格文档影像输入训练好的预测模型，获取所述目标表格文档影像中表格的表格结构，以及所述表格中各单元格的第一坐标区域；

文本区域确定模块，用于将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域，与各所述第一坐标区域进行匹配，确定各所述文本行所属的所述单元格；

表格信息获取模块，用于将各所述文本行进行文字识别后写入对应的各所述单元格，根据所述表格结构和记录有各所述文本行的单元格，生成表格信息；

根据本申请第三方面实施例的电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述计算机程序时实现上述任一实施例所述的表格文档影像的表格信息获取方法。

根据本申请第四方面实施例的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的表格文档影像的表格信息获取方法。

根据本申请第五方面实施例的计算机程序产品，包括：所述计算机程序被处理器执行时实现如上述任一实施例所述的表格文档影像的表格信息获取方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

通过目标表格文档影像输入训练好的预测模型，获取目标表格文档影像中表格的表格结构，以及表格中各单元格的第一坐标区域后，将各文本行的第二坐标区域与各第一坐标区域进行匹配，以将各文本行写入其所属的单元格，并根据表格结构和记录有各文本行的单元格，生成表格信息。无需依赖于预先确定的表格模板便可从表格文档影像中提取表格信息，不受银行流水的样式限制，从而能够对任意形式的表格文档影像进行表格信息的获取。

进一步的，通过在确定目标表格文档影像中表格的单元格的属性信息不满足预设条件时，再进行表格结构和单元格的第一坐标区域的获取，从而减少需要进行表格结构和单元格的第一坐标区域获取的目标表格文档影像的处理量，提高表格文档影像的处理效率。

进一步的，通过对目标表格文档影像进行边界识别，获取目标表格文档影像中表格的边界框，并将边界框内的影像来输入训练好的预测模型进行表格结构以及第一坐标区域的获取，从而避免目标表格文档影像中其他与表格无关的信息对识别结果造成干扰，提高获取到的表格结构以及单元格的第一坐标区域的准确性，进而进一步提高后续获取到的表格信息的准确性。

进一步的，通过将银行的表格文档影像输入由标记有预估倾斜角度的图像样本训练得到的分类模型中，以利用分类模型对表格文档影像进行倾斜角度的分类，确定表格文档影像对应的目标倾斜角度，并根据确定的目标目标倾斜角度对表格文档影像进行校正，从而将对表格文档影像的倾斜角度的检测转换为可通过训练好的分类模型解决的分类问题，进而利用由各种倾斜角度的表格文档影像样本训练得到的分类模型，便可实现对任意360度方向的表格文档影像进行倾斜校正，提高表格文档影像的倾斜校正结果的准确性。

进一步的，通过在确定校正表格文档影像中存在多个文本行后，获取各文本行的斜率，并利用各文本行的斜率来对校正表格文档影像进行旋转校正以得到目标表格文档影像，从而实现对轻微角度的倾斜校正，进一步提高表格文档影像的表格信息获取效果。

进一步的，通过将文本框的长边和宽边进行比较，以根据比较结果，来判断对应的文本行的方向，从而根据方向来确定对应的斜率获取方式，进而能够准确地确定任意方向的文本行的斜率，从而提高后续利用斜率对任意方向的文本行进行轻微校正时的准确度。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的表格文档影像的表格信息获取方法的流程示意图；

图2是本申请实施例中对图1的表格文档影像的表格信息获取方法中表格结构以及各单元格的第一坐标区域的获取作进一步细化的流程图；

图3是本申请实施例中对图1的表格文档影像的表格信息获取方法中表格信息的获取作进一步细化的流程图；

图4是本申请又一实施例提供的表格文档影像的表格信息获取方法的流程示意图；

图5是本申请实施例提供的表格文档影像的表格信息获取装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面，将通过几个具体的实施例对本申请实施例提供的表格文档影像的表格信息获取方法及装置进行详细介绍和说明。

在一实施例中，提供了一种表格文档影像的表格信息获取方法，该方法应用于服务器，用于进行表格文档影像的表格信息获取。其中，服务器可以是独立的服务器或者是多个服务器组成的服务器集群来实现，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能采样点设备等基础云计算服务的云服务器。

如图1所示，本实施例提供的一种表格文档影像的表格信息获取方法包括：

步骤101，将获取到的目标表格文档影像输入训练好的预测模型，获取所述目标表格文档影像中表格的表格结构，以及所述表格中各单元格的第一坐标区域；

步骤102，将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域，与各所述第一坐标区域进行匹配，确定各所述文本行所属的所述单元格；

步骤103，将各所述文本行进行文字识别后写入对应的各所述单元格，根据所述表格结构和记录有各所述文本行的单元格，生成表格信息；

通过目标表格文档影像输入训练好的预测模型，获取目标表格文档影像中表格的表格结构，以及表格中各单元格的第一坐标区域后，将各文本行的第二坐标区域与各第一坐标区域进行匹配，以将各文本行写入其所属的单元格，并根据表格结构和记录有各文本行的单元格，生成表格信息。无需依赖于预先确定的表格模板便可从表格文档影像中提取表格信息，不受银行流水的样式限制，从而能够对任意形式的表格影像进行表格信息的获取。

在一实施例中，目标表格文档影像可以是任意银行出具的流水明细表的图像，该流水明细表以表格的形式展示。预测模型可以为RARE（Robust text recognizer withAutomatic Rectification）模型。在获取到目标表格文档影像后，将该目标表格文档影像输入训练好的RARE模型，获取目标表格文档影像中表格的表格结构，以及表格中任一单元格的四个顶点坐标。其中，表格结构由html标签来表示。在确定表格中任一单元格的四个顶点坐标后，即可根据四个顶点坐标形成的区域，确定单元格的第一坐标区域。

为提高表格文档影像的处理效率，在一实施例中，所述将获取到的目标表格文档影像输入训练好的预测模型，获取所述目标表格文档影像中表格的表格结构，以及所述表格中各单元格的第一坐标区域，包括：

在一实施例中，考虑到流水明细表有标准表格和非标准表格的区分，而通常有实线条组成的闭环单元格称做标准表格，只有个别线条不形成闭环单元格、一个单元格包含非常多行文本或完全无线条的表则为非标准表格。而标准表格可由模板匹配等方式进行快速识别，提高表格信息的获取效率。因此在获取到目标表格文档影像后，可先通过UNET网络实现对表格中线条的预测后，对横竖线通过坐标位置计算进行组合形成单元格切片，然后获取单元格的属性信息，如单元格的个数和单元格的高度。其中，若检测到单元格的个数大于第一预设值，如5个，且单元格的高度小于第二预设值，如3CM，则将表格定义为标准表格；否则，将表格定义为非标准表格。

若确定表格为标准表格，则可采用模板匹配的方式进行表格信息获取，或者，先对表格***框使用YOLOV4模型进行检测，然后对生成非常细小的文本内容的单元格切片，再进入realESRGAN超分模型得到更适合比例的清晰切片，然后通过xlwt库将单元格信息写入excel，得到表格信息。

而对于非标准表格，无法采用常规方式进行表格信息的获取，此时则将获取到的目标表格文档影像输入训练好的预测模型，获取目标表格文档影像中表格的表格结构，以及表格中各单元格的第一坐标区域。

通过在确定目标表格文档影像中表格的单元格的属性信息不满足预设条件时，再进行表格结构和单元格的第一坐标区域的获取，从而减少需要进行表格结构和单元格的第一坐标区域获取的目标表格文档影像的处理量，提高表格文档影像的处理效率。

在一实施例中，对于单元格的第一坐标区域以及表格结构的获取，如图2所示，包括：

步骤201，识别所述目标表格文档影像的边界，获取所述目标表格文档影像中表格的边界框；

步骤202，将所述边界框中的影像输入训练好的预测模型，获取所述目标表格文档影像中所述表格的表格结构，以及所述表格中各单元格的第一坐标区域。

在一实施例中，先通过训练好的DETR（Detection Transformer）模型，对目标表格文档影像进行边界识别，获取目标表格文档影像中表格的边界框。其中，DETR模型的训练数据可来源于PubTables-1M公开的数据集。在获取到边界框后，将该边界框内的图像输入训练好的预测模型，如RARE（Robust text recognizer with Automatic Rectification）模型进行表格结构和单元格的坐标预测，获取目标表格文档影像中表格的表格结构，以及表格中各单元格的第一坐标区域。其中，预测模型由大量的表格文档影像样本训练得到，如来源于PubTabNet公开数据集，以及自动化程序根据公司内部收集的各银行流水样式生成的表格文档影像。表格表格结构由html标签来表示，表格结构预测即预测html标签。

通过对目标表格文档影像进行边界识别，获取目标表格文档影像中表格的边界框，并将边界框内的影像来输入训练好的预测模型进行表格结构以及第一坐标区域的获取，从而避免目标表格文档影像中其他与表格无关的信息对识别结果造成干扰，提高获取到的表格结构以及单元格的第一坐标区域的准确性，进而进一步提高后续获取到的表格信息的准确性。

在一实施例中，在获取到表格的表格结构，以及表格中各单元格的第一坐标区域后，将目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域，与各第一坐标区域进行匹配。具体地，文本行检测模型可以为DBNet模型。利用训练好的DBNet模型，获取任一文本行的四个顶点坐标，从而将该四个顶点坐标围成的区域，确定为该文本行的第二坐标区域。然后，将该文本行的第二坐标区域与各第一坐标区域进行匹配。当检测到该文本行的第二坐标区域位于某个第一坐标区域内时，将该第一坐标区域对应的单元格，确定为该文本行所属的单元格。

在一实施例中，在确定各文本行所属的单元格后，将通过文本识别模型，如SVTR（Scene Text Recognition with a Single Visual Model）识别到的各文本行的文字，写入对应的各单元格，从而由文本行的坐标、文字识别结果和单元格的坐标一起组合出单元格的识别结果。其中，在通过文本识别模型识别文本行的文字后，还可以通过预设数据库，如存储银行名称、账户信息、千分号及点符号以及支付渠道等数据的数据库，对识别到的文字进行匹配，以对识别到的文字进行校验。如在预设数据库中，匹配到某一个银行名称与识别到的文字相同，则表示该文字识别正确。

在获取到单元格的识别结果后，即可基于单元格的识别结果以及表格结构，形成excel表格文件，从而得到表格信息。具体地，如图3所示，所述根据所述表格结构和记录有各所述文本行的单元格，生成表格信息，包括：

步骤301，根据所述表格结构和记录有各所述文本行的单元格，生成用于构造表格信息的html字符串；

步骤302，根据tablepyxl库，将所述html字符串转换为excel文件，从所述excel文件中获取所述表格信息。

在一实施例中，在获取到记录有各文本行的单元格，即单元格的识别结果后，将单元格的识别结果，和表示表格结构的html标签，一起构造表格的html字符串，再通过tablepyxl库将得到的html字符串进行转换，写入excel文件后，从excel文件读取表格信息。

在一实施例中，由于获取到的表格文档影像是通过电子化的方式，如拍摄或者扫描的方式得到的，因此可能存在任意方向上的倾斜。此时，表格文档影像中的文本行也会出现倾斜，因此可能导致对文本行的识别结果准确率下降，进而影响到生成的表格信息的准确度。为此，在一实施例中，如图4所示，目标表格文档影像的获取包括：

步骤1001，获取初始表格文档影像；

步骤1002，将所述初始表格文档影像输入训练好的分类模型，从所述分类模型的各预设倾斜角度中，确定所述初始表格文档影像对应的目标倾斜角度；

步骤1003，根据所述目标倾斜角度，对所述初始表格文档影像进行校正，获取所述目标表格文档影像；

在一实施例中，分类模型为深度网络结构，其存在5段卷积层，每一段内有2个或3个卷积层，每段结尾连接一个最大池化层用于缩小图片尺寸；各段内部的卷积核数一样，越靠近全连接层卷积核数量越多。分类模型中创建有参数初始化函数，如卷积操作con_op函数、全连接层操作fc_op函数、池化操作mpool_op函数中的至少一种。

示例性的，分类模型的第一段卷积输出尺寸为112*112*64，第二段卷积输出为56*56*128,第三段卷积输出28*28*256，第四段卷积输出14*14*512，第五段卷积输出7*7*512。其使用tf.reshape将pool5的结果扁平化，即表示为7*7*512的一维向量。分类模型的第一个全连接层使用fc_op函数创建，隐含节点是4096，激活函数为ReLu。分类模型使用tf.nn.dropout函数创建Dropout层，在分类模型进行训练时，节点保留率为0.5，在分类模型进行倾斜角度预测时为1。分类模型的第二个全连接层和第一个全连接层一致，紧跟一个dropout层，输出节点为1000，使用softmax处理得到分类概率输出，使用tf.argmax得到最大的类别。最终将fc8、softmax、predictions和参数列表p作为函数结果返回。

在一实施例中，分类模型中预设有多个倾斜角度的类别，即多个预设倾斜角度。由于通过对海量的图像进行观察，发现图像的倾斜角度如果忽略轻微的倾斜，则可将倾斜分为四个方向，分别为正对着的0角度倾斜，旋转90度倾斜，旋转270度倾斜，旋转180度倾斜，因此多个预设的预设倾斜角度可分别为0°，90°，180°以及270°。可以理解的，除上述多个预设倾斜角度外，还可根据实际情况设置其他的预设倾斜角度。此时，多个预设倾斜角度即可视为分别表示对应的类别。

在一实施例中，分类模型是由标记有预估倾斜角度的各表格文档影像样本进行训练后得到。具体地，将各表格文档影像样本依次输入预构建的分类模型进行模型训练，每次输入表格文档影像样本后均根据分类模型输出的表格文档影像样本的预设倾斜角度，与表格文档影像样本的预估倾斜角度的角度差，调整分类模型的参数，直至任一表格文档影像样本对应的角度差满足预设条件，完成分类模型的训练。

在一实施例中，对于分类模型的训练，可先采集各种银行的海量表格文档影像样本，然后对表格文档影像样本进行预估倾斜角度标注。其中，表格文档影像样本的预估倾斜角度，可以是从表格文档影像样本测得的实际倾斜角度。如表格文档影像样本测得的实际倾斜角度为20°，则预估倾斜角度为20°。或者，可根据表格文档影像样本测得的实际倾斜角度，从分类模型的各预设倾斜角度中，获取与该实际倾斜角度最接近的预设倾斜角度作为预估倾斜角度。如表格文档影像样本测得的实际倾斜角度为20°，各预设倾斜角度为0°，90°，180°以及270°，则预估倾斜角度为0°。

在采集到标注有预估倾斜角度的各表格文档影像样本后，将各表格文档影像样本依次输入分类模型进行训练。在训练过程中，对于任一表格文档影像样本，获取分类模型针对该表格文档影像样本输出的预设倾斜角度，然后将输出的预设倾斜角度，与该表格文档影像样本的预估倾斜角度进行比对。若两者的角度差小于预设值，则不做处理；若两者的角度差大于预设值，则根据预设值，调整分类模型的参数。完成分类模型的参数调整后，再将下一表格文档影像样本输入分类模型进行模型训练，直至所有表格文档影像样本输入某一次调整参数后的分类模型，得到的所有角度差均小于预设值，则判定分类模型训练完成。

通过大量的表格文档影像样本输入预构建的分类模型进行模型训练，以根据分类模型输出的表格文档影像样本的预设倾斜角度，与表格文档影像样本的预估倾斜角度的角度差，来调整分类模型的参数，直至任一表格文档影像样本对应的角度差满足预设条件，完成分类模型的训练，从而提高分类模型对图像进行预设倾斜角度的分类的准确性，进而提高后续针对银行的表格文档影像的倾斜角度的检测的准确性。

在一实施例中，在完成分类模型的训练后，将获取到的初始表格文档影像输入该训练好的分类模型，即可通过训练好的分类模型对初始表格文档影像进行分类，以从各预设倾斜角度中，确定初始表格文档影像所属的预设倾斜角度，从而将初始表格文档影像所属的预设倾斜角度确定为目标倾斜角度。

通过将银行的表格文档影像输入由标记有预估倾斜角度的图像样本训练得到的分类模型中，以利用分类模型对表格文档影像进行倾斜角度的分类，确定表格文档影像对应的目标倾斜角度，并根据确定的目标目标倾斜角度对表格文档影像进行校正，从而将对表格文档影像的倾斜角度的检测转换为可通过训练好的分类模型解决的分类问题，进而利用由各种倾斜角度的表格文档影像样本训练得到的分类模型，便可实现对任意360度方向的表格文档影像进行倾斜校正，提高表格文档影像的倾斜校正结果的准确性。

在确定目标倾斜角度后，将初始表格文档影像的中心点，基于目标倾斜角度进行旋转校正，从而得到目标表格文档影像。

考虑到在得到目标表格文档影像后，可能还存在轻微角度的倾斜。因此，为进一步提高表格文档影像的表格信息获取效果，在一实施例中，根据所述目标倾斜角度，对所述初始表格文档影像进行校正，获取所述目标表格文档影像，包括：

在一实施例中，由于表格文档影像若只存在单个文本行，则轻微的倾斜并不影响OCR识别的准确性。因此为提高处理效率，可先根据目标倾斜角度对初始表格文档影像进行校正，获取校正表格文档影像后，对校正表格文档影像进行文本行的检测。若校正表格文档影像只存在一个文本行，则将该校正表格文档影像作为目标表格文档影像；否则，对校正表格文档影像的各文本行进行提取，并获取各文本行的斜率。在获取到各文本行的斜率后，可从各文本行的斜率中，提取相同数量最多的斜率作为目标斜率，并根据目标斜率对目标文档进行旋转校正。

通过在确定校正表格文档影像中存在多个文本行后，获取各文本行的斜率，并利用各文本行的斜率来对校正表格文档影像进行旋转校正以得到目标表格文档影像，从而实现对轻微角度的倾斜校正，进一步提高表格文档影像的表格信息获取效果。

为使获取到的斜率更为准确，在一实施例中，在获取到校正表格文档影像后，对校正表格文档影像的各文本行进行检测，得到每个文本行对应的文本框。在获取各文本框后，将文本框的四个顶点分别认定为文本框的左上顶点，右上顶点，右下顶点以及左下顶点，然后从基于校正表格文档影像的中心点建立的二维坐标系中，获取任一文本框的这4个顶点坐标，分别为左上顶点（x1,y1）、右上顶点（x2,y2）、右下顶点(x3,y3)以及左下顶点（x4,y4）。在获取四个顶点坐标后，可根据左上顶点和右上顶点的坐标，或者右下顶点以及左下顶点的坐标，确定文本行的斜率为K = (y2 - y1) / (x2 - x1)，或者K = (y4 - y3) /(x4 - x3)。

通过获取文本行对应的各文本框，并基于文本框各顶点的二维坐标，来确定对应的文本行的斜率，从而能够快速准确地确定文本行的斜率，从而进一步提高针对表格文档影像的轻微倾斜校正效果。

考虑到校正表格文档影像中，各文本行的方向可能不同，如其中一个文本行的方向可能为水平方向，另一个文本行的方向可能为竖直方向。此时若仅根据水平方向的斜率对校正表格文档影像进行轻微的倾斜校正，可能会导致竖直方向上的校正不够准确。为此，在一实施例中，根所述根据所述文本框各顶点的二维坐标，确定对应的所述文本行的斜率，包括：

获取所述文本框的长边和宽边；

在一实施例中，由于文本框为长方形，因此在确定文本框的四个顶点坐标后，可根据左上顶点和右上顶点的坐标，或者右下顶点以及左下顶点的坐标，确定文本框的长边。如左上顶点的坐标为（x1,y1），右上顶点的坐标为（x2,y2），则两个顶点的距离即为该文本框的长边。可以理解的，文本框的长边还可由左下顶点和右下顶点的坐标距离确定。同理，可根据右上顶点和右下顶点之间的坐标距离，或者左上顶点和左下顶点的坐标距离，确定该文本框的宽边。

在确定文本框的长边和宽边后，若长边大于框边，且长边与宽边的长度差大于预设值，则可判定该文本框的方向为水平方向，此时可根据长边两端的顶点坐标，如左上顶点的坐标（x1,y1），以及右上顶点的坐标（x2,y2），确定文本行的斜率为K = (y2 - y1) / (x2- x1)。其中，预设值可根据实际情况进行设定，如30mm等。

同理，在一实施例中，若确定宽边的长度大于长边，且宽边与长边的长度差大于预设值，则可判定该文本框的方向为竖直方向，此时可根据宽边两端的顶点坐标，如右上顶点的坐标（x2,y3），以及右下顶点的坐标（x3,y3），确定对应的文本行的斜率为K =(y3 - y2)/ (x3 - x2)。

通过将文本框的长边和宽边进行比较，以根据比较结果，来判断对应的文本行的方向，从而根据方向来确定对应的斜率获取方式，进而能够准确地确定任意方向的文本行的斜率，从而提高后续利用斜率对任意方向的文本行进行轻微校正时的准确度。

在获取到各文本行的斜率后，为使根据斜率进行轻微校正的结果更为准确，在一实施例中，在获取到各文本行的斜率后，可直接对各文本行的斜率进行求平均，得到的斜率即可确定为平均斜率。或者，为使得到的平均斜率更为精确，可先将所有算出的斜率进行求平均，得到的斜率确定为基线。然后对该基线的上下限增加预设阈值，得到目标区间。在得到目标区间后，对各文本行的斜率进行过滤，从各文本行的斜率中，过滤掉位于目标区间外的斜率，获取位于目标区间的斜率作为目标斜率。然后对各目标斜率进行求平均，得到平均斜率。

在得到平均斜率后，通过平均斜率计算旋转角度，并获取校正表格文档影像的中心位置后，通过OPENCV方法，如warpAffine对校正表格文档影像进行旋转，最终得到对轻微倾斜角度进行矫正后的目标表格文档影像。

下面对本申请提供的表格文档影像的表格信息获取装置进行描述，下文描述的表格文档影像的表格信息获取装置与上文描述的表格文档影像的表格信息获取方法可相互对应参照。

在一实施例中，如图5所示，提供了一种表格文档影像的表格信息获取装置，包括：

表格结构识别模块210，用于将获取到的目标表格文档影像输入训练好的预测模型，获取所述目标表格文档影像中表格的表格结构，以及所述表格中各单元格的第一坐标区域；

文本区域确定模块220，用于将所述目标表格文档影像中根据训练好的文本行检测模型检测到的各文本行的第二坐标区域，与各所述第一坐标区域进行匹配，确定各所述文本行所属的所述单元格；

表格信息获取模块230，用于将各所述文本行进行文字识别后写入对应的各所述单元格，根据所述表格结构和记录有各所述文本行的单元格，生成表格信息；

在一实施例中，表格结构识别模块210具体用于：

在一实施例中，表格信息获取模块230具体用于：

在一实施例中，表格结构识别模块210还用于：

获取初始表格文档影像；

在一实施例中，表格结构识别模块210具体用于：

获取所述文本框的长边和宽边；

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器（processor）810、通信接口（Communication Interface）820、存储器（memory）830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序，以执行表格文档影像的表格信息获取方法，例如包括：

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请实施例还提供一种存储介质，存储介质包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，计算机程序被处理器执行时，计算机能够执行上述各实施例所提供的表格文档影像的表格信息获取方法，例如包括：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种表格文档影像的表格信息获取方法，其特征在于，包括：

2.根据权利要求1所述的表格文档影像的表格信息获取方法，其特征在于，所述将获取到的目标表格文档影像输入训练好的预测模型，获取所述目标表格文档影像中表格的表格结构，以及所述表格中各单元格的第一坐标区域，包括：

3.根据权利要求1或2所述的表格文档影像的表格信息获取方法，其特征在于，所述将获取到的目标表格文档影像输入训练好的预测模型，获取所述目标表格文档影像中表格的表格结构，以及所述表格中各单元格的第一坐标区域，包括：

4.根据权利要求1所述的表格文档影像的表格信息获取方法，其特征在于，所述根据所述表格结构和记录有各所述文本行的单元格，生成表格信息，包括：

5.根据权利要求1所述的表格文档影像的表格信息获取方法，其特征在于，还包括：

获取初始表格文档影像；

6.根据权利要求5所述的表格文档影像的表格信息获取方法，其特征在于，根据所述目标倾斜角度，对所述初始表格文档影像进行校正，获取所述目标表格文档影像，包括：

7.根据权利要求6所述的表格文档影像的表格信息获取方法，其特征在于，所述根据所述文本框各顶点的二维坐标，确定对应的所述文本行的斜率，包括：

获取所述文本框的长边和宽边；

8.一种表格文档影像的表格信息获取装置，其特征在于，包括：

9.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的表格文档影像的表格信息获取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的表格文档影像的表格信息获取方法。