CN115331245A

CN115331245A - 一种基于图像实例分割的表格结构识别方法

Info

Publication number: CN115331245A
Application number: CN202211243652.9A
Authority: CN
Inventors: 王德军; 杨烨; 孟博; 于龙洋; 龚建全
Original assignee: Wuhan Kongtian Software Technology Co ltd; South Central University for Nationalities
Current assignee: Wuhan Kongtian Software Technology Co ltd; South Central Minzu University
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-11-11
Anticipated expiration: 2042-10-12
Also published as: CN115331245B

Abstract

本发明属于图像识别领域，提供了一种基于图像实例分割的表格结构识别方法。该方法包括，首先针对表格图像进行预处理并对图像中的表格进行定位检测，然后对实例分割网络模型进行改进，通过在模型的主干网络以及FPN多尺度特征金字塔模块中加入有效通道注意力机制来加强模型获取表格图像像素信息的能力，从而得到表格图像中所包含单元格分割结果，最后根据表格单元格像素特性对分割表格单元格的掩膜进行优化，提高边缘拟合的精细度，实现对复杂异构表格涵盖的单元格结构进行准确的分割识别，有效提升表格单元格结构识别的准确率。

Description

一种基于图像实例分割的表格结构识别方法

技术领域

本发明属于图像识别领域，尤其涉及一种基于图像实例分割的表格结构识别方法。

背景技术

由于信息化技术的飞速发展，数字化文档表格被广泛应用于各行各业，与此同时，随着物联网、大数据和人工智能技术的广泛，应用传统的人工审核纸质文档的方式将逐渐被替代，各类文档表格的数据量也在不断增加，表格的自动识别就成为当前诸多领域的刚需，也在图像识别领域中受到越来越多的关注。

表格结构识别作为表格识别中的重要任务之一，其目的是得到表格图像中的行列以及单元格结构模块，从而为表格文字识别以及表格重构奠定基础。由于表格的结构多样性和布局的变化，表格结构识别是一个相对复杂的问题。

此前对于表格结构识别通常会以行列的形式进行分类，少数工作采用基于单元格或者传统表格线进行识别。由于产生于不同的背景，应用于不同的领域的表格的内部结构以及数据不遵循统一的格式和主题，很多领域采用扫描或者拍摄的表格图像形式，而不是直接使用电子PDF文档，并且会存在表格线扭曲、表格图像不清晰的情况，因此需要更加细致的预处理及后处理工作。随着深度神经网络在计算机视觉领域的应用，基于深度学习的实例分割算法在性能上已经有了很大的突破，表格结构的识别可以采用行列或者单元格的形式，通过分别分割行列或者单元格来进行数据的提取。表格中存在行列的不均匀，单元格的合并、***或者嵌套导致了表格结构的多样性，而基于行列形式或基于文字检测定位的表格结构识别难以应对此类表格，如果单纯使用基于深度学习的分割模型又不能很好的拟合单元格结构边缘，降低了表格识别的准确率，而单纯使用传统图像处理方法则会带来泛化性与学习能力较差的问题。

发明内容

为了解决上述背景技术中存在的问题，本发明提供一种基于图像实例分割的表格结构识别方法，首先针对表格图像进行预处理并对图像中的表格进行定位检测，然后对实例分割网络模型进行改进，通过在模型的主干网络以及FPN多尺度特征金字塔模块中加入有效通道注意力机制来加强模型获取表格图像像素信息的能力，得到表格图像中所包含单元格分割结果，最后根据表格单元格像素特性对分割表格单元格的掩膜进行优化，提高边缘拟合的精细度，实现对复杂异构表格涵盖的单元格结构进行准确的分割识别，有效提升表格单元格结构识别的准确率。

为实现上述目的，本发明通过如下技术方案进行实现：一种基于图像实例分割的表格结构识别方法，包括以下步骤：

步骤S1：获取并识别输入表格图像中的表格位置，并对所述待识别的表格图像进行预处理操作；

步骤S2：对表格图像中的表格区域进行检测，定位到待识别的表格区域；

步骤S3：基于改进的Mask R-CNN-E算法进行表格单元格结构识别，通过加入通道注意力机制，将其与多尺度特征进行融合，构建一个基于改进的Mask R-CNN-E算法的表格单元格结构分割模型，并对识别到的表格区域中涵盖的所有单元格进行识别分割，得到每个单元格所在区域及坐标；

步骤S4：基于表格图像中单元格各个顶点及框线的像素特征，将得到的单元格分割区域使用基于规则和形态学的单元格掩膜边缘优化算法对分割结果进行优化处理，最终得到复杂表格涵盖的单元格结构分割结果。

进一步地，所述步骤S1中预处理操作包括灰度化、二值化、倾斜校正。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：获取并识别输入表格图像中的表格位置，并将所述待识别的表格图像转换成单通道的灰度图像，所使用的公式为：

Gray＝R*0 .299 +G*0 .587 +B*0 .114

其中，Gray代表灰度值，R、G、B分别是图像中每个像素的三个颜色通道分量；

步骤S12：使用最大类间方差法将灰度图像变换为二值图像，所用公式如下：

其中，

为计算得到的类间方差取最大时对应的最佳阈值，其中目标点数占总图像比例为

，平均灰度值为

；背景点数占图像比例为

，平均灰度值为

；

为图像的总平均灰度值；

步骤S13：对所述的待识别的表格图像的二值化图像利用透视变换法进行倾斜校正，利用表格最外框四个顶点坐标方差，把其三维坐标投影到另外一个视平面，从而得到校正后的表格图像，所用公式如下：

其中，

是原始图像像素点的齐次坐标，当齐次坐标

归一化之后，则对应得到变换后的图像的二维坐标

，其中

，

，

表示线性变换，

表示平移，

产生变换，

是与相

相关的缩放因子。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：获取预处理之后的二值图像，寻找图像中所包含的轮廓contours，并得到每个contours轮廓的list结构的每个元素的边沿信息，每个元素是(i,1,2)三维向量，i表示该条边沿共有多少个像素，“1”表示所包含的像素存在一组元素中，第三维的“2”则表示每个点的横纵坐标；

步骤S22：利用循环找到最大面积的轮廓，并生成外接矩形；

步骤S23：得到面积最大轮廓外接矩形后，对此目标区域进行剪裁，剪裁时先对y方向剪裁再对x方向剪裁，最终得到剪裁截取后的表格图像中的表格区域。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：首先对采集到的表格图像数据集进行标注，最终生成对表格单元格标注的json标注数据文件，所述json标注数据文件中包含对应单元格的名称以及该单元格相应标注的四个顶点的坐标位置；

步骤S32：使用改进的Mask R-CNN-E算法识别分割表格中的单元格结构；

步骤S33：通过改进的实例分割Mask R-CNN-E算法，利用步骤S31标注好的复杂框线表格单元格数据集进行模型的训练，数据在预处理过程中使用数据增强的策略，构建一个基于实例分割模型及注意力机制的表格单元格结构检测模型，使用该模型算法对区域内的所有单元格进行检测，获取识别到表格图像的所有单元格的分割区域及坐标。

进一步地，所述步骤S32具体包括以下步骤：

对原始实例分割算法进行改进，基于原始实例分割算法的主干网络部分、特征金字塔部分进行特征提取与特征融合，特征提取层的主干网络中包含两个基本的块，分别是Conv Block和Identity Block，前者在残差边增加一个卷积，通过设置Conv Block的步长和通道数改变输入特征层的维度，后者可以通过不断地串联加深网络；

通过主干特征提取网络进行特征提取后，利用长宽压缩了的特征层来进行特征金字塔结构的构造；取出在主干特征提取网络中长宽压缩了的卷积的结果通过进行上采样构造FPN特征金字塔结构来实现特征多尺度的融合；最后通过融合得到的特征层作为RPN提取建议框的四个不同尺寸的有效特征层；

对上述主干网络提取有效特征层的结果加入有效通道注意力机制，同时在特征金字塔上采样部分的特征层加入有效通道注意力模块，将该模块与多尺度特征的主干特征提取网络进行融合，获得输入进来的特征层的每个通道的权重。

进一步地，获得输入进来的特征层的每个通道的权重具体为：

经过主干网络以及特征金字塔上采样的卷积后得到高度和宽度分别为W和H，通道数为C的有效特征图，首先对输入进来的有效特征层进行全局平局池化操作，在全局平均池化之后的特征上直接通过一个可以权重共享的1D卷积进行学习；然后进行Sigmoid激活函数的处理，将值固定在0-1之间，获得输入特征层每个通道的权值，最后输出这个权值与原输入特征层相乘的结果，并利用RPN建议框对有效特征层进行下一步的操作。

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：根据表格图像中单元格各个顶点及框线的像素特征，对表格中所有单元格掩膜及其周围像素分别进行遍历，再次确定单元格掩膜边缘的位置，按照一定规则分析边缘掩膜的邻近像素，并依次与表格边框像素进行对比，若该像素区域内的掩膜边缘所在单元格区域的像素与单元格内部区域像素值接近，则将掩膜像素进行扩展，扩大分割区域，若此区域内的掩膜边缘所在区域像素与表格框线像素值接近，则视为满足条件，停止掩膜区域像素的扩展，不再进行更多区域的分割；

步骤S42：对分割及区域像素扩展后的掩膜边缘进行膨胀运算；

步骤S43：再对分割的掩膜边缘进行膨胀后的腐蚀运算；最终输出准确分割出单元格的表格结构图像。

进一步地，所述步骤S41中规则如下：

Step1：选定表格中单元格边缘掩膜所在图像区域像素，并找到第一个未作处理的掩膜像素点作为初始点，假设该点所在的表格图像的像素为（x₀, y₀），同时设定表格图像中单元格边框像素为（x₂, y₂）；

Step2：逐一判断初始点周围八邻域的图像像素值（x, y）并于初始点所在表格图像像素（x₀, y₀）做比较，若与单元格内部像素值相似则将（x, y）与（x₀, y₀）合并在同一区域扩大掩膜；若与表格框线像素值（x₂, y₂）相似则将该区域视为非掩膜，不予合并；

Step3：找到下一个未作处理的掩膜像素点，将其当作（x₀, y₀）继续执行Step2；

Step4：直到表格图像中的各个单元格掩膜区域的每个像素点都处理完成，结束掩膜区域像素的对比及扩展。

进一步地，所述步骤S42中进行膨胀运算所用公式如下：

式中的g(x,y)表示膨胀后的二值图像，f(x,y)表示原始二值图像，S为结构元素，D _s表示结构元素S的定义域，(x’,y’)属于该结构元素定义域内的点，对掩膜边缘进行膨胀运算，是每个结构元素的位置上的点的膨胀值在跨度D _s的区间内f(x，y)与S之和的最大值；

所述步骤S43中进行腐蚀运算所用公式如下：

式中的g(x,y)表示腐蚀后的二值的图像，f(x,y)表示原始二值图像，S为结构元素，D _s表示结构元素S的定义域，(x’,y’)属于该结构元素定义域内的点，对掩膜边缘进行腐蚀运算，是每个结构元素的位置的上的点的膨胀值在跨度D _s的区间内f(x，y)与S之和的最小值。

与现有技术相比，本发明有以下有益效果：

本发明能够针对政务领域中含有复杂异构表格图像进行单元格结构识别，采用改进的深度学***滑准确，有效提升表格单元格结构分割识别的准确率。

附图说明

图1是本发明基于图像实例分割的表格结构识别方法的流程图；

图2是本发明实施例中表格图像的一个样本标注图；

图3是本发明图像实例分割的表格结构识别模型的网络结构图；

图4是本发明融合多尺度特征的主干特征提取网络模块结构图；

图5是本发明经过表格单元格mask边缘优化方法的单元格分割效果图。

具体实施方式

下面将结合附图和实施例，对本发明技术方案做进一步详细描述。

如图1所示，本发明提供的一种基于图像实例分割的表格结构识别方法，该方法首先对输入进来的表格图像进行预处理，将深度卷积神经网络以及有效通道注意力机制结合进行改进，通过在主干网络以及FPN模块中加入通道注意力机制加强模型获取像素信息的能力，并结合表格单元格掩膜边缘优化方法对生成的单元格掩膜进行完善与优化，提高边缘拟合的精细度，以实现复杂异构表格涵盖的单元格结构进行准确的分割识别。具体实现步骤如下：步骤S1：获取输入的表格图像，并对所述待识别的表格图像进行灰度化、二值化、倾斜校正的预处理操作。本实施例输入的图像主要为含有复杂框线的表格图像，表格形式包含复杂异构、行列不均匀、单元格合并、***或者嵌套，以及拍摄带来的图像不清晰，表格线扭曲，光照不均等多样形式，且本发明扩展了表格结构识别在政务领域下的数据集及应用场景。

步骤S11：获取输入的表格图像，并将所述待识别的表格图像转换成单通道的灰度图像，所使用的公式为：

Gray＝R*0 .299 +G*0 .587 +B*0 .114

其中，Gray代表灰度值，R、G、B分别是表格图像中每个像素的三个颜色通道分量；

其中，

，平均灰度值为

；背景点数占图像比例为

，平均灰度值为

；

为图像的总平均灰度值；

其中，

是原始图像像素点的齐次坐标，当齐次坐标

归一化之后，则对应得到变换后的图像的二维坐标

，其中

，

，

表示线性变换，

表示平移，

产生变换，

是与

相关的缩放因子。

步骤S2：对输入并做过预处理操作的表格图像中的表格区域进行检测，定位到该表格图像中待识别的表格区域；步骤S21：获取预处理之后的二值图像，寻找图像中所包含的轮廓contours，并得到每个contours轮廓的list结构的每个元素的边沿信息，每个元素是(i,1,2)三维向量，i表示该条边沿共有多少个像素，第三维的“2”则表示每个点的横纵坐标；步骤S22：对输出的contours进行操作，计算contours[j]中所包括的点数，contours[j]的长度和面积，利用循环找到最大面积的轮廓，并生成外接矩形；步骤S23：得到面积最大轮廓外接矩形后，对此目标区域进行剪裁，剪裁时先对y方向剪裁再对x方向剪裁，最终得到剪裁截取后的表格图像中的表格区域。

步骤S3：构建一个含有复杂框线的表格数据集，并对数据集中表格单元格进行标注，并生成相应的标签文件，使用改进的表格单元格检测分割算法Mask R-CNN-E对该数据集进行训练，生成一个基于改进的Mask R-CNN-E算法的表格单元格检测模型，对识别到的表格区域中涵盖的所有单元格进行识别分割，得到每个单元格所包含的区域及坐标；

步骤S31：首先对采集到的表格图像进行标注。样本标注示例图如图2所示，该表格为一个复杂框线的表格图像，使用Labelme标注软件对该表格所包含的每个单元格进行标注，包括合并的以及分离的单元格，每个单元格包含四个顶点，将表格的单元格标签标注为“cell1,cell2,cell3...celln”，表示该表格包含了n个标注的单元格，实例图中标注了该表格的26个单元格，同时生成对表格单元格标注的json文件，文件中包含对应单元格的名称label，以及该单元格相应标注的四个顶点的坐标位置points，位置坐标顺序为左上，右上，左下，右下，最多精确到小数点后14位。

步骤S32：使用改进的Mask R-CNN-E算法对表格图像的标注样本数据集进行训练及测试。整体网络模型如图3所示，整个网络模型结构基于主干网络部分、特征金字塔部分进行特征提取与特征融合，特征提取层的主干网络中包含两个基本的块，分别是ConvBlock和Identity Block，前者在残差边增加了一个卷积，这个卷积的功能就是通过设置Conv Block的步长和它的通道数来改变输入特征层的维度，后者没有增加卷积，它可以拥有相同的输入维度和输出维度，并串联用于加深网络。

首先将表格图片输入该模型的卷积神经网络，其中包含主干网络、特征金字塔以及在主干网络提取特征层以及上采样提取特征层后加入的有效通道注意力模块的部分，特征金字塔对主干网络提取的特征层进行卷积以及特征融合，输出四个大小为256×256×256，128×128×256，64×64×256，32×32×256的特征层，其中32×32×256又经过卷积得到16×16×256的有效特征层，在有效特征层中提取候选框，并进行RoI Align对候选框对齐，经过分类边框预测分支以及Mask分支得到表格图像的分类及边框以及单元格掩膜结果，整个网络模型结构主要部分在于主干网络部分、特征金字塔部分进行特征提取与特征融合，同时加入通道注意力机制使网络更加关注有效的特征通道，最后图像通过输出层并进行后处理，对分割效果进行提升。

具体的，本实施例改进后的融合多尺度特征的主干特征提取网络模块如图4所示，首先对输入进来的表格图像进行缩放填补，得到网络模型需要的大小为512×512×64大小的图像，该图像经过主干网络的五次卷积进行特征提取，同时输出了五个不同尺寸大小的特征图，然后在其主干网络中提取网络中长宽压缩了两次的256×256×256的卷积、三次的128×128×512的卷积、四次的64×64×1024的卷积、五次的32×32×2048的卷积的结果后分别加入有效通道注意力模块，同时在特征金字塔上采样部分的256×256×256，128×128×256，64×64×256特征层后加入有效通道注意力模块。

该模块的输入为经过卷积结果后高度和宽度分别为W和H，通道数为C的有效特征图.首先对输入进来的有效特征层进行全局平局池化操作，在全局平均池化之后的特征上直接通过一个可以权重共享的1D卷积进行学习；然后进行Sigmoid激活函数的处理，将值固定在0-1之间，获得输入特征层每个通道的权值，最后输出这个权值与原输入特征层相乘的结果.其中1D卷积涉及到超参k，由于1D卷积的卷积核大小会影响注意力机制每个权重的计算要考虑的通道数量，而超参k则可以决定卷积核的大小尺寸，超参k是根据不同数量的通道数C来自适应的改变其值的大小，其计算式表达如下为：

，

其中C为不同数量的通道数，表示t最接近的奇数，根据实验的结果将γ和b分别设为2和1，映射函数ψ使更大的通道有随机相互作用，反之亦然。

利用上述方法为模型提取出的四个不同大小的特征图的每个通道赋予不同的权值，使其关注需要重点关注的表格中的点线、明暗等有效特征区域的通道，并利用RPN建议框对有效特征层进行下一步的操作，进一步将融合多尺度信息的有效特征图通过注意力的卷积运算与跨通道信息融合进行信息特征的提取，避免表格图像提取的边框或单元格等信息的缺失。

在上述实施例中，通过加入通道注意力机制为模型提取出的不同大小的特征图的每个通道赋予不同的权值，该权值的赋予使得该网络在特征通道提取的过程中可以重点关注到表格中的点线、明暗等有效特征区域，并进一步将融合多尺度信息的有效特征图通过注意力的卷积运算与跨通道信息融合进行信息特征的提取，避免表格图像提取的边框或单元格等信息的缺失。

改进后的Mask R-CNN-E分割算法的融合多尺度特征的主干特征提取模块的网络结构发生改变。利用添加有效通道注意力机制模块提取表格结构的有效通道信息，使得改进后的Mask R-CNN-E分割算法更加关注到表格边框单元格等点、线和明暗的特征，能够在增加极少参数的情况下有效提升网络对复杂异构表格单元格的检测能力，对表格单元格分割效果进行有效的提升。

步骤S33：将需要测试的表格图像输入改进的表格单元格分割算法Mask R-CNN-E 中，通过该模型输出相应表格的单元格结构分割结果图以及每个单元格的区域及坐标。使用该模型为含有复杂边框的表格图像数据集进行训练，训练模型采用基于Tensorflow- gpu1.13.2和Keras2.1.5深度学习框架，训练时批次为50，动量为0.9，权重为0.0001，初始学习率为

，置信度设置为0.7，数据在预处理过程中使用随机翻转、剪裁等数据增强的策略，将所述含有复杂边框表格图像数据集标注所产生的json文件输入所述Mask R- CNN-E分割模型中，对所述复杂边框表格图像单元格进行训练，得到所述表格单元格分割 Mask R-CNN-E模型。步骤S4：基于表格图像中单元格各个顶点及框线的像素特征，使用表格单元格mask边缘优化算法，对改进后模型分割输出的结果图像中存在的单元格掩膜边缘的像素缺失留白进行弥合，使用该方法进行优化后能够使得识别的表格单元格的分割边界更加贴近原始表格，提升单元格掩膜分割的精细度，最终得到复杂框线表格涵盖的单元格结构分割结果。

步骤S41：首先对该表格中所有单元格掩膜及其周围像素分别进行遍历，再次确定单元格掩膜边缘的位置，按照一定规则分析边缘掩膜的邻近像素，并依次与表格边框像素进行对比，若该像素区域内的掩膜边缘所在单元格区域的像素与单元格内部区域像素值接近，则将掩膜像素进行扩展，扩大分割区域，若此区域内的掩膜边缘所在区域像素与表格框线像素值接近，则视为满足条件，停止掩膜区域像素的扩展，不再进行更多区域的分割。

具体规则如下：

Step2：逐一判断初始点周围八邻域的图像像素值（x, y）并于初始点所在表格图像像素（x₀, y₀）做比较，若与单元格内部像素值相似则将（x, y）与（x₀, y₀）合并在同一区域扩大掩膜；若与表格框线像素值（x₂, y₂）相似则将该区域视为非掩膜，不予合并。

步骤S42：继续对单元格掩膜分割及区域扩展后的边缘进行优化，首先对其边缘进行膨胀运算，弥补掩膜边缘信息存在的缺失，弥合狭窄的间断和细小的沟壑，消除小的空洞，填补轮廓中线的裂痕，其产生的结果是边缘像素区域相对增大，所用公式如下：

式中的g(x,y)表示膨胀后的二值图像，f(x,y)表示原始二值图像，S为结构元素，Ds表示结构元素S的定义域，对掩膜边缘进行膨胀运算，是每个结构元素的位置上的点的膨胀值在跨度Ds的区间内f(x，y)与S之和的最大值。

步骤S43：再对分割的掩膜边缘进行膨胀后的腐蚀运算，使得分割的掩膜边缘精细度变高，将掩膜腐蚀到合适的大小，同时避免引入过多的背景，经过对掩膜边缘的先膨胀后腐蚀得操作可以使掩膜边缘更加平滑精细，所用公式如下：

式中的g(x,y)表示膨胀后的二值图像，f(x,y)表示原始二值图像，S为结构元素，Ds表示结构元素S的定义域，对掩膜边缘进行腐蚀运算，是每个结构元素的位置的上的点的膨胀值在跨度Ds的区间内f(x，y)与S之和的最小值。如图5所示单元格，由上述具体步骤所述的表格单元格掩膜边缘优化算法，通过该算法中的表格单元格掩膜边缘像素区域的完善及腐蚀膨胀的掩膜边缘优化处理，使得表格单元的分割区域更加精细平滑，更加精确的拟合表格边框结构信息，进一步提升表格单元格分割的拟合度与准确率，最终输出准确分割出单元格的表格结构图像。

综上所述，本发明首先在图像中根据表格的结构特点对图像进行灰度化二值化处理，然后利用倾斜校正法将存在倾斜的表格进行矫正，然后对表格图像中的表格区域进行检测，定位到待识别的表格区域，快速的截取到目标表格区域，然后利用建立好的数据集使用Labelme进行表格单元格的标注，再使用改进的表格单元格结构分割算法Mask R-CNN-E对数据集进行训练及优化，以解决复杂表格中单元格识别困难以及边缘拟合不准确的问题，最后根据训练模型测试得到良好的表格单元格的分割结果，并对分割后的单元格使用mask边缘优化算法进行优化处理，提升表格单元格边缘掩膜拟合的精细度，有效提高表格单元格结构识别的准确性。

上面所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的构思和范围进行限定。在不脱离本发明设计构思的前提下，本领域普通人员对本发明的技术方案做出的各种变型和改进，均应落入到本发明的保护范围，本发明请求保护的技术内容，已经全部记载在权利要求书中。