CN116311299A

CN116311299A - 表格的结构化数据识别方法、装置及***

Info

Publication number: CN116311299A
Application number: CN202310080299.5A
Authority: CN
Inventors: 张一�; 艾韬; 毛景羡; 陈灿伟; 马鹏开
Original assignee: Hunan Jiuli Supply Chain Co ltd
Current assignee: Hunan Jiuli Supply Chain Co ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-06-23

Abstract

本申请公开了一种表格的数据识别方法、装置及***。所述方法包括：将待处理文档输入至预设的神经网络模型中进行识别，确定所述待处理文档中的表格位置和表格类型；根据确定的所述表格类型确定对应的单元格识别方法，并利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格；对所有的所述目标单元格进行光学字符识别得到目标字符；将所述目标字符和对应的所述目标单元格关联，作为识别结果。基于本申请可提高数据是别的准确度。

Description

表格的结构化数据识别方法、装置及***

技术领域

本申请涉及表单数据识别技术领域，尤其涉及一种表格的结构化数据识别方法、装置及***。

背景技术

在很多业务场景下，都需要对表格中的数据进行识别和提取。如在国际贸易中，进出口货物通常交付给专业的第三方公司进行货物的仓储交接和二次转运。在这一过程中，第三方公司就需要从货单、运单、订单等单据的表格中获取各种必要的信息如发货人、收货人、货物名称等。

目前的表格数据识别主要通过线条检测的方法识别表格中的各个单元格，进而对单元格中的内容进行识别的方法进行。但这一方法在表格中的线条的清晰度较低、线条非闭合等情况下的识别准确度较低。

为此，急需提供一种新的可以提高表格数据识别准确度的方法。

发明内容

为了解决现有技术的不足，本申请的主要目的在于提供一种表格的数据识别方法、装置及***，以提高表格的数据识别的准确度。

为了实现上述目的，本申请的技术方案如下：

一种表格的数据识别方法，所述方法包括：

将待处理文档输入至预设的神经网络模型中进行识别，确定所述待处理文档中的表格位置和表格类型；

根据确定的所述表格类型确定对应的单元格识别方法，并利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格；

对所有的所述目标单元格进行光学字符识别得到目标字符；

将所述目标字符和对应的所述目标单元格关联，作为识别结果。

优选的，所述待处理文档通过如下步骤获得：

获取待处理单据；

在所述待处理单据为图像格式时，对所述待处理单据进行二值化处理；

对所述二值化处理后的图像进行对齐处理获取所述待处理文档。

优选的，所述对所述二值化处理后的图像进行对齐处理包括：

对所述二值化处理后的图像进行轮廓分析确定顶点坐标；

根据所述顶点坐标计算单应性矩阵；

根据所述单应性矩阵进行所述二值化处理后的图像的透视变换得到所述待处理文档。

优选的，所述神经网络模型以Cascade R-CNN模型为基础，且融合了区域候选网络。

优选的，所述将待处理文档输入至预设的神经网络模型中进行识别，确定所述待处理文档中的表格位置和表格类型包括：

将所述待处理文档输入至所述区域候选网络和所述Cascade R-CNN模型的骨干网络；

利用所述区域候选网络提取所述待处理文档的候选框；

将所述候选框输入至所述Cascade R-CNN模型的候选区域；

利用Cascade R-CNN模型的候选区域、与骨干网络连接的池化层以及与所述池化层连接的全连接层得到所述待处理文档的所述表格位置和表格类型。

优选的，在所述表格类型为有线条类型时，所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括：

利用霍夫变换进行线条检测确认所述表格位置中的横竖线条；

通过所述横竖线条的交点确认每个所述目标单元格的位置。

优选的，在所述表格类型为无线条类型时，所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括：

利用形态学图像处理方法对所述表格位置中的文字进行膨胀和腐蚀处理；

根据处理后的文字之间的间距确定每个所述目标单元格。

优选的，在利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格之前，所述方法还包括对所述待处理文档按照所述表格位置进行裁剪；

所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括利用所述对应的单元格识别方法在裁剪后的文档部分进行识别得到目标单元格。

优选的，所述方法还包括：

根据所述识别结果确定识别准确率；

在所述识别准确率低于预设值时，对所述神经网络模型进行更新训练并利用更新训练后的神经网络模型进行下一次的数据识别。

优选的，所述方法还包括：

将所述待处理文档作为样本集，更新保存在图像数据库中；

所述对所述神经网络模型进行更新训练包括：

利用更新后的所述图像数据库对所述神经网络模型进行增量学习训练和参数调整。

另一方面公开一种表格的数据识别装置，所述装置包括：

表格位置和类型识别单元，用于将待处理文档输入至预设的神经网络模型中进行识别，确定所述待处理文档中的表格位置和表格类型；

目标单元格识别单元，用于根据确定的所述表格类型确定对应的单元格识别方法，并利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格；

目标字符识别单元，用于对所有的所述目标单元格进行光学字符识别得到目标字符；

识别结果单元，用于将所述目标字符和对应的所述目标单元格关联，作为识别结果。

再一方面提供一种计算机***，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如上任一项所述的方法。

本申请有益效果：

本申请通过对待处理文档利用神经网络模型识别得到表格位置和表格类型，相比现有技术，提高了位置和类型识别的准确度。进一步的对不同类型的表格进行不同的处理，也进一步提高了单元格识别的准确度。

进一步的，本申请中才用了融合了区域候选网络RPN的Cascade R-CNN模型，相比原Cascade R-CNN模型，识别结果更加准确和快速。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请方法流程图；

图2是本申请神经网络模型结构图；

图3A-3D为本申请表单识别示意图；

图4是本申请单元格识别方法示意图；

图5是本申请装置结构图；

图6是本申请计算机***结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“X轴”“Y轴”“Z轴”“垂直”“平行”“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

本申请旨在通过神经网络模型对待处理文档的表格位置和表格类型进行识别，并根据表格类型采用不同的方法进行单元格的识别，以提高表格数据识别的准确度。

实施例一

如图1所示，提供了一种表格的数据识别方法，所述方法包括：

将待处理文档输入至预设的神经网络模型中进行识别，确定所述待处理文档中的表格位置和表格类型。

表格位置一般是指表格在图像上的左上顶点坐标和长宽，表格类型可以根据需要进行划分，如分为有线条表格和无线条表格。对应线条不完整的表格，视其不完整程度，会被神经网络模型强行归入某一类别，具体的处理后续会做详细描述。

根据识别的表格位置和表格类型进行结构化数据的后期处理，具体的：

对所有的所述目标单元格进行光学字符识别得到目标字符，本申请中OCR(光学字符识别)可用各类主流光学字符识别引擎来识别各个单元格的目标字符。

将所述目标字符和对应的所述目标单元格关联，作为识别结果。识别结果和单元格位置信息会作为***最终结果一起进行数据输出。

神经网络模型对不同的图片的准确度不同，因此需要对识别结果的准确度进行检测，以根据结果确定是否要进一步更新改进，为此所述方法还包括：

根据数据输出的识别结果确定识别准确率；

对于神经网络模型进行更新训练可以将所述待处理文档作为样本集，更新保存在图像数据库中，利用更新后的所述图像数据库对所述神经网络模型进行增量学习训练和参数调整。

实施例二

在实际的业务场景中，表格有多种文件形式，比如PDF，表单格式、图像格式等。其中图像格式的文件由于可能采用照相机、手机等方式自行拍摄，角度会有一定的偏差，为此如图1所示，本申请还包括对文件预处理以获得标准格式的待处理文档的步骤：

获取待处理单据即新单据；

对所述二值化处理后的图像进行轮廓分析确定顶点坐标；

根据所述顶点坐标计算单应性矩阵；

即通过二值化处理和单应性透视变换得到对齐处理后的待处理文档以进一步提高后续识别的准确度。

实施例三

本申请中的神经网络模型可以有多种选择。如图2所示，在实施例三中，该模型选择以Cascade R-CNN模型为基础，并融合区域候选网络(RNP)。

Cascade R-CNN模型包括骨干网络、候选区域Bn、ROI池化层、FC全连接层等。

待处理文档被输入至骨干网络和区域候选网络(RNP)中。

骨干网络：可以是卷积网络为基础的各类主流结构，包括并不限于：AlexNet，VGG，ResNet等。

RPN，即区域候选网络：与Faster R-CNN中的RPN功能一致，用于在提取特征的过程中完成候选框提取的操作。

候选区域Bn：该结构使用了三层结构，每一层结构都会输出类别和候选区域，每一层的候选区域信息作为下一层的输入。另外，按照Cascade R-CNN的结构，每一层除了候选区域位置同时都会输出一个类别信息，此处只是用最后一层的类别结果。

ROI池化层：深度学习中的惯用模型结构。其功能是能够将映射在卷积特征图上的不同大小的RoI，提取相同大小的特征图。

FC，即全连接层：深度学习中的惯用模型结构。全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。

实施例四

为提高识别的准确度，对不同的表格类型提供了不同的单元格识别方法。本申请中将表格类型分为有线条类型和无线条类型。需要说明的是，本申请中的有线条和无线条是神经网络模型分类识别的结果。其在识别的过程中会根据线条的不完整程度，将表格强行归入某一类别，并非无线条类型就是指没有任何线条。

如图3A、3B所示，分别为待处理文档及模型基于此输出的有线条类型的表格位置(3B阴影部分)；

如图3C、3D所示，分别为待处理文档及模型基于此输出的无线条类型的表格位置(3D阴影部分)。

如图4所示，在模型输出表格位置和表格类型后，会进行单元格的识别：

在所述表格类型为有线条类型时，所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括：

利用霍夫变换进行线条检测确认所述表格位置中的横线和竖线；

通过所述横竖线条的交点确认每个所述目标单元格的位置。之后依次将各个目标单元格内容输出至下一阶段的光学字符识别(OCR)中。

在所述表格类型为无线条类型时，所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括：

利用形态学图像处理(Morphological Image Processing)方法对所述表格位置中的文字进行膨胀和腐蚀处理；根据处理后的文字之间的间距确定每个所述目标单元格。一般是将间隔小于某一预设值的文字信息归为一个单元格，并根据该信息判断各个单元格位置，并将各个内容输出至下一阶段的光学字符识别(OCR)中。

优选的，在利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格之前，所述方法还包括对所述待处理文档按照所述表格位置利用过滤器进行裁剪；

实施例五

如图5本申请实施例五还公开一种与上述实施例1-4方法对应的表格的数据识别装置，所述装置包括：

表格位置和类型识别单元11，用于将待处理文档输入至预设的神经网络模型中进行识别，确定所述待处理文档中的表格位置和表格类型；

目标单元格识别单元12，用于根据确定的所述表格类型确定对应的单元格识别方法，并利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格；

目标字符识别单元13，用于对所有的所述目标单元格进行光学字符识别得到目标字符；本申请中目标字符识别单元可用各类主流光学字符识别引擎来识别各个单元格的目标字符。

识别结果单元14，用于将所述目标字符和对应的所述目标单元格关联，作为识别结果。

神经网络模型对不同的图片的准确度不同，因此需要对识别结果的准确度进行检测，以根据结果确定是否要进一步更新改进，为此所述装置还包括：

准确率确定单元，用于根据所述识别结果确定识别准确率；

模型更新单元，用于在所述识别准确率低于预设值时，对所述神经网络模型进行更新训练并利用更新训练后的神经网络模型进行下一次的数据识别。

在实际的业务场景中，表格有多种文件形式，比如PDF，表单格式、图像格式等。其中图像格式的文件由于可能采用照相机、手机等方式自行拍摄，角度会有一定的偏差，为此本申请装置还包括对文件预处理以获得标准格式的待处理文档的预处理单元，用于：

获取待处理单据；

预处理单元具体用于：

对所述二值化处理后的图像进行轮廓分析确定顶点坐标；

根据所述顶点坐标计算单应性矩阵；

为提高识别的准确度，目标单元格识别单元对不同的表格类型提供了不同的单元格识别方法。本申请中将表格类型分为有线条类型和无线条类型。需要说明的是，本申请中的有线条和无线条是神经网络模型分类识别的结果。其在识别的过程中会根据线条的不完整程度，将表格强行归入某一类别，并非无线条类型就是指没有任何线条。

在模型输出表格位置和表格类型后，会通过过滤器裁剪表格位置处的表格。之后进行单元格的识别：

目标单元格识别单元，具体用于在所述表格类型为有线条类型时，利用霍夫变换进行线条检测确认所述表格位置中的横竖线条；通过所述横竖线条的交点确认每个所述目标单元格的位置。之后依次将各个目标单元格内容输出至下一阶段的目标字符识别单元中。

目标单元格识别单元，具体用于在所述表格类型为无线条类型时，利用形态学图像处理(Morphological Image Processing)方法对所述表格位置中的文字进行膨胀和腐蚀处理；根据处理后的文字之间的间距确定每个所述目标单元格。一般是将间隔小于某一预设值的文字信息归为一个单元格，并根据该信息判断各个单元格位置，并将各个内容输出至下一阶段的目标字符识别单元中。

优选的，本申请装置还包括过滤器，用于在利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格之前，对所述待处理文档按照所述表格位置进行裁剪。

实施例六

对应上述方法和***，本申请实施例六还提供了一种计算机***，如图6所示，其可以包括一个或一个以上的处理器和存储器，存储器中可以存储有一个或一个以上存储应用程序或数据。其中，存储器可以是短暂存储或持久存储。存储在存储器的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对数据识别设备中的一系列计算机可执行指令。更进一步地，处理器可以设置为与存储器通信，在数据识别的处理设备上执行存储器中的一系列计算机可执行指令。数据识别的处理设备还可以包括一个或一个以上电源，一个或一个以上有线或无线网络接口，一个或一个以上输入输出接口，一个或一个以上键盘。

具体在本实施例中，数据识别的处理设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对数据识别的处理设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

对所有的所述目标单元格进行光学字符识别得到目标字符；

进一步的，上述计算机***经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行实施例一至四所述的方法对应的计算机可执行指令。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种表格的数据识别方法，其特征在于，所述方法包括：

对所有的所述目标单元格进行光学字符识别得到目标字符；

2.如权利要求1所述的数据识别方法，其特征在于，所述待处理文档通过如下步骤获得：

获取待处理单据；

对所述二值化处理后的图像进行轮廓分析确定顶点坐标；

根据所述顶点坐标计算单应性矩阵；

3.如权利要求1所述的数据识别方法，其特征在于，所述神经网络模型以Cascade R-CNN模型为基础，且融合了区域候选网络。

4.如权利要求3所述的数据识别方法，其特征在于，所述将待处理文档输入至预设的神经网络模型中进行识别，确定所述待处理文档中的表格位置和表格类型包括：

利用所述区域候选网络提取所述待处理文档的候选框；

将所述候选框输入至所述Cascade R-CNN模型的候选区域；

利用所述Cascade R-CNN模型的候选区域、与所述骨干网络连接的池化层层以及与所述池化层连接的全连接层得到所述待处理文档的所述表格位置和表格类型。

5.如权利要求1所述的数据识别方法，其特征在于，在所述表格类型为有线条类型时，所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括：

通过所述横竖线条的交点确认每个所述目标单元格的位置。

6.如权利要求1所述的数据识别方法，其特征在于，在所述表格类型为无线条类型时，所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括：

根据处理后的文字之间的间距确定每个所述目标单元格。

7.如权利要求1所述的数据识别方法，其特征在于，所述方法还包括：

根据所述识别结果确定识别准确率；

8.如权利要求7所述的数据识别方法，其特征在于，所述方法还包括：

将所述待处理文档作为样本集，更新保存在图像数据库中；

所述对所述神经网络模型进行更新训练包括：

9.一种表格的数据识别装置，其特征在于，所述装置包括：

10.一种计算机***，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如权利要求1-8任一项所述的方法。