CN115331245A - 一种基于图像实例分割的表格结构识别方法 - Google Patents
一种基于图像实例分割的表格结构识别方法 Download PDFInfo
- Publication number
- CN115331245A CN115331245A CN202211243652.9A CN202211243652A CN115331245A CN 115331245 A CN115331245 A CN 115331245A CN 202211243652 A CN202211243652 A CN 202211243652A CN 115331245 A CN115331245 A CN 115331245A
- Authority
- CN
- China
- Prior art keywords
- image
- mask
- cell
- pixel
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像识别领域,提供了一种基于图像实例分割的表格结构识别方法。该方法包括,首先针对表格图像进行预处理并对图像中的表格进行定位检测,然后对实例分割网络模型进行改进,通过在模型的主干网络以及FPN多尺度特征金字塔模块中加入有效通道注意力机制来加强模型获取表格图像像素信息的能力,从而得到表格图像中所包含单元格分割结果,最后根据表格单元格像素特性对分割表格单元格的掩膜进行优化,提高边缘拟合的精细度,实现对复杂异构表格涵盖的单元格结构进行准确的分割识别,有效提升表格单元格结构识别的准确率。
Description
技术领域
本发明属于图像识别领域,尤其涉及一种基于图像实例分割的表格结构识别方法。
背景技术
由于信息化技术的飞速发展,数字化文档表格被广泛应用于各行各业,与此同时,随着物联网、大数据和人工智能技术的广泛,应用传统的人工审核纸质文档的方式将逐渐被替代,各类文档表格的数据量也在不断增加,表格的自动识别就成为当前诸多领域的刚需,也在图像识别领域中受到越来越多的关注。
表格结构识别作为表格识别中的重要任务之一,其目的是得到表格图像中的行列以及单元格结构模块,从而为表格文字识别以及表格重构奠定基础。由于表格的结构多样性和布局的变化,表格结构识别是一个相对复杂的问题。
此前对于表格结构识别通常会以行列的形式进行分类,少数工作采用基于单元格或者传统表格线进行识别。由于产生于不同的背景,应用于不同的领域的表格的内部结构以及数据不遵循统一的格式和主题,很多领域采用扫描或者拍摄的表格图像形式,而不是直接使用电子PDF文档,并且会存在表格线扭曲、表格图像不清晰的情况,因此需要更加细致的预处理及后处理工作。随着深度神经网络在计算机视觉领域的应用,基于深度学习的实例分割算法在性能上已经有了很大的突破,表格结构的识别可以采用行列或者单元格的形式,通过分别分割行列或者单元格来进行数据的提取。表格中存在行列的不均匀,单元格的合并、***或者嵌套导致了表格结构的多样性,而基于行列形式或基于文字检测定位的表格结构识别难以应对此类表格,如果单纯使用基于深度学习的分割模型又不能很好的拟合单元格结构边缘,降低了表格识别的准确率,而单纯使用传统图像处理方法则会带来泛化性与学习能力较差的问题。
发明内容
为了解决上述背景技术中存在的问题,本发明提供一种基于图像实例分割的表格结构识别方法,首先针对表格图像进行预处理并对图像中的表格进行定位检测,然后对实例分割网络模型进行改进,通过在模型的主干网络以及FPN多尺度特征金字塔模块中加入有效通道注意力机制来加强模型获取表格图像像素信息的能力,得到表格图像中所包含单元格分割结果,最后根据表格单元格像素特性对分割表格单元格的掩膜进行优化,提高边缘拟合的精细度,实现对复杂异构表格涵盖的单元格结构进行准确的分割识别,有效提升表格单元格结构识别的准确率。
为实现上述目的,本发明通过如下技术方案进行实现:一种基于图像实例分割的表格结构识别方法,包括以下步骤:
步骤S1:获取并识别输入表格图像中的表格位置,并对所述待识别的表格图像进行预处理操作;
步骤S2:对表格图像中的表格区域进行检测,定位到待识别的表格区域;
步骤S3:基于改进的Mask R-CNN-E算法进行表格单元格结构识别,通过加入通道注意力机制,将其与多尺度特征进行融合,构建一个基于改进的Mask R-CNN-E算法的表格单元格结构分割模型,并对识别到的表格区域中涵盖的所有单元格进行识别分割,得到每个单元格所在区域及坐标;
步骤S4:基于表格图像中单元格各个顶点及框线的像素特征,将得到的单元格分割区域使用基于规则和形态学的单元格掩膜边缘优化算法对分割结果进行优化处理,最终得到复杂表格涵盖的单元格结构分割结果。
进一步地,所述步骤S1中预处理操作包括灰度化、二值化、倾斜校正。
进一步地,所述步骤S1具体包括以下步骤:
步骤S11:获取并识别输入表格图像中的表格位置,并将所述待识别的表格图像转换成单通道的灰度图像,所使用的公式为:
Gray=R*0 .299 +G*0 .587 +B*0 .114
其中,Gray代表灰度值,R、G、B分别是图像中每个像素的三个颜色通道分量;
步骤S12:使用最大类间方差法将灰度图像变换为二值图像,所用公式如下:
步骤S13:对所述的待识别的表格图像的二值化图像利用透视变换法进行倾斜校正,利用表格最外框四个顶点坐标方差,把其三维坐标投影到另外一个视平面,从而得到校正后的表格图像,所用公式如下:
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:获取预处理之后的二值图像,寻找图像中所包含的轮廓contours,并得到每个contours轮廓的list结构的每个元素的边沿信息,每个元素是(i,1,2)三维向量,i表示该条边沿共有多少个像素,“1”表示所包含的像素存在一组元素中,第三维的“2”则表示每个点的横纵坐标;
步骤S22:利用循环找到最大面积的轮廓,并生成外接矩形;
步骤S23:得到面积最大轮廓外接矩形后,对此目标区域进行剪裁,剪裁时先对y方向剪裁再对x方向剪裁,最终得到剪裁截取后的表格图像中的表格区域。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:首先对采集到的表格图像数据集进行标注,最终生成对表格单元格标注的json标注数据文件,所述json标注数据文件中包含对应单元格的名称以及该单元格相应标注的四个顶点的坐标位置;
步骤S32:使用改进的Mask R-CNN-E算法识别分割表格中的单元格结构;
步骤S33:通过改进的实例分割Mask R-CNN-E算法,利用步骤S31标注好的复杂框线表格单元格数据集进行模型的训练,数据在预处理过程中使用数据增强的策略,构建一个基于实例分割模型及注意力机制的表格单元格结构检测模型,使用该模型算法对区域内的所有单元格进行检测,获取识别到表格图像的所有单元格的分割区域及坐标。
进一步地,所述步骤S32具体包括以下步骤:
对原始实例分割算法进行改进,基于原始实例分割算法的主干网络部分、特征金字塔部分进行特征提取与特征融合,特征提取层的主干网络中包含两个基本的块,分别是Conv Block和Identity Block,前者在残差边增加一个卷积,通过设置Conv Block的步长和通道数改变输入特征层的维度,后者可以通过不断地串联加深网络;
通过主干特征提取网络进行特征提取后,利用长宽压缩了的特征层来进行特征金字塔结构的构造;取出在主干特征提取网络中长宽压缩了的卷积的结果通过进行上采样构造FPN特征金字塔结构来实现特征多尺度的融合;最后通过融合得到的特征层作为RPN提取建议框的四个不同尺寸的有效特征层;
对上述主干网络提取有效特征层的结果加入有效通道注意力机制,同时在特征金字塔上采样部分的特征层加入有效通道注意力模块,将该模块与多尺度特征的主干特征提取网络进行融合,获得输入进来的特征层的每个通道的权重。
进一步地,获得输入进来的特征层的每个通道的权重具体为:
经过主干网络以及特征金字塔上采样的卷积后得到高度和宽度分别为W和H,通道数为C的有效特征图,首先对输入进来的有效特征层进行全局平局池化操作,在全局平均池化之后的特征上直接通过一个可以权重共享的1D卷积进行学习;然后进行Sigmoid激活函数的处理,将值固定在0-1之间,获得输入特征层每个通道的权值,最后输出这个权值与原输入特征层相乘的结果,并利用RPN建议框对有效特征层进行下一步的操作。
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:根据表格图像中单元格各个顶点及框线的像素特征,对表格中所有单元格掩膜及其周围像素分别进行遍历,再次确定单元格掩膜边缘的位置,按照一定规则分析边缘掩膜的邻近像素,并依次与表格边框像素进行对比,若该像素区域内的掩膜边缘所在单元格区域的像素与单元格内部区域像素值接近,则将掩膜像素进行扩展,扩大分割区域,若此区域内的掩膜边缘所在区域像素与表格框线像素值接近,则视为满足条件,停止掩膜区域像素的扩展,不再进行更多区域的分割;
步骤S42:对分割及区域像素扩展后的掩膜边缘进行膨胀运算;
步骤S43:再对分割的掩膜边缘进行膨胀后的腐蚀运算;最终输出准确分割出单元格的表格结构图像。
进一步地,所述步骤S41中规则如下:
Step1:选定表格中单元格边缘掩膜所在图像区域像素,并找到第一个未作处理的掩膜像素点作为初始点,假设该点所在的表格图像的像素为(x0, y0),同时设定表格图像中单元格边框像素为(x2, y2);
Step2:逐一判断初始点周围八邻域的图像像素值(x, y)并于初始点所在表格图像像素(x0, y0)做比较,若与单元格内部像素值相似则将(x, y)与(x0, y0)合并在同一区域扩大掩膜;若与表格框线像素值(x2, y2)相似则将该区域视为非掩膜,不予合并;
Step3:找到下一个未作处理的掩膜像素点,将其当作(x0, y0)继续执行Step2;
Step4:直到表格图像中的各个单元格掩膜区域的每个像素点都处理完成,结束掩膜区域像素的对比及扩展。
进一步地,所述步骤S42中进行膨胀运算所用公式如下:
式中的g(x,y)表示膨胀后的二值图像,f(x,y)表示原始二值图像,S为结构元素,D s 表示结构元素S的定义域,(x’,y’)属于该结构元素定义域内的点,对掩膜边缘进行膨胀运算,是每个结构元素的位置上的点的膨胀值在跨度D s 的区间内f(x,y)与S之和的最大值;
所述步骤S43中进行腐蚀运算所用公式如下:
式中的g(x,y)表示腐蚀后的二值的图像,f(x,y)表示原始二值图像,S为结构元素,D s 表示结构元素S的定义域,(x’,y’)属于该结构元素定义域内的点,对掩膜边缘进行腐蚀运算,是每个结构元素的位置的上的点的膨胀值在跨度D s 的区间内f(x,y)与S之和的最小值。
与现有技术相比,本发明有以下有益效果:
本发明能够针对政务领域中含有复杂异构表格图像进行单元格结构识别,采用改进的深度学***滑准确,有效提升表格单元格结构分割识别的准确率。
附图说明
图1是本发明基于图像实例分割的表格结构识别方法的流程图;
图2是本发明实施例中表格图像的一个样本标注图;
图3是本发明图像实例分割的表格结构识别模型的网络结构图;
图4是本发明融合多尺度特征的主干特征提取网络模块结构图;
图5是本发明经过表格单元格mask边缘优化方法的单元格分割效果图。
具体实施方式
下面将结合附图和实施例,对本发明技术方案做进一步详细描述。
如图1所示,本发明提供的一种基于图像实例分割的表格结构识别方法,该方法首先对输入进来的表格图像进行预处理,将深度卷积神经网络以及有效通道注意力机制结合进行改进,通过在主干网络以及FPN模块中加入通道注意力机制加强模型获取像素信息的能力,并结合表格单元格掩膜边缘优化方法对生成的单元格掩膜进行完善与优化,提高边缘拟合的精细度,以实现复杂异构表格涵盖的单元格结构进行准确的分割识别。具体实现步骤如下:步骤S1:获取输入的表格图像,并对所述待识别的表格图像进行灰度化、二值化、倾斜校正的预处理操作。本实施例输入的图像主要为含有复杂框线的表格图像,表格形式包含复杂异构、行列不均匀、单元格合并、***或者嵌套,以及拍摄带来的图像不清晰,表格线扭曲,光照不均等多样形式,且本发明扩展了表格结构识别在政务领域下的数据集及应用场景。
步骤S11:获取输入的表格图像,并将所述待识别的表格图像转换成单通道的灰度图像,所使用的公式为:
Gray=R*0 .299 +G*0 .587 +B*0 .114
其中,Gray代表灰度值,R、G、B分别是表格图像中每个像素的三个颜色通道分量;
步骤S12:使用最大类间方差法将灰度图像变换为二值图像,所用公式如下:
步骤S13:对所述的待识别的表格图像的二值化图像利用透视变换法进行倾斜校正,利用表格最外框四个顶点坐标方差,把其三维坐标投影到另外一个视平面,从而得到校正后的表格图像,所用公式如下:
步骤S2:对输入并做过预处理操作的表格图像中的表格区域进行检测,定位到该表格图像中待识别的表格区域;步骤S21:获取预处理之后的二值图像,寻找图像中所包含的轮廓contours,并得到每个contours轮廓的list结构的每个元素的边沿信息,每个元素是(i,1,2)三维向量,i表示该条边沿共有多少个像素,第三维的“2”则表示每个点的横纵坐标;步骤S22:对输出的contours进行操作,计算contours[j]中所包括的点数,contours[j]的长度和面积,利用循环找到最大面积的轮廓,并生成外接矩形;步骤S23:得到面积最大轮廓外接矩形后,对此目标区域进行剪裁,剪裁时先对y方向剪裁再对x方向剪裁,最终得到剪裁截取后的表格图像中的表格区域。
步骤S3:构建一个含有复杂框线的表格数据集,并对数据集中表格单元格进行标注,并生成相应的标签文件,使用改进的表格单元格检测分割算法Mask R-CNN-E对该数据集进行训练,生成一个基于改进的Mask R-CNN-E算法的表格单元格检测模型,对识别到的表格区域中涵盖的所有单元格进行识别分割,得到每个单元格所包含的区域及坐标;
步骤S31:首先对采集到的表格图像进行标注。样本标注示例图如图2所示,该表格为一个复杂框线的表格图像,使用Labelme标注软件对该表格所包含的每个单元格进行标注,包括合并的以及分离的单元格,每个单元格包含四个顶点,将表格的单元格标签标注为“cell1,cell2,cell3...celln”,表示该表格包含了n个标注的单元格,实例图中标注了该表格的26个单元格,同时生成对表格单元格标注的json文件,文件中包含对应单元格的名称label,以及该单元格相应标注的四个顶点的坐标位置points,位置坐标顺序为左上,右上,左下,右下,最多精确到小数点后14位。
步骤S32:使用改进的Mask R-CNN-E算法对表格图像的标注样本数据集进行训练及测试。整体网络模型如图3所示,整个网络模型结构基于主干网络部分、特征金字塔部分进行特征提取与特征融合,特征提取层的主干网络中包含两个基本的块,分别是ConvBlock和Identity Block,前者在残差边增加了一个卷积,这个卷积的功能就是通过设置Conv Block的步长和它的通道数来改变输入特征层的维度,后者没有增加卷积,它可以拥有相同的输入维度和输出维度,并串联用于加深网络。
首先将表格图片输入该模型的卷积神经网络,其中包含主干网络、特征金字塔以及在主干网络提取特征层以及上采样提取特征层后加入的有效通道注意力模块的部分,特征金字塔对主干网络提取的特征层进行卷积以及特征融合,输出四个大小为256×256×256,128×128×256,64×64×256,32×32×256的特征层,其中32×32×256又经过卷积得到16×16×256的有效特征层,在有效特征层中提取候选框,并进行RoI Align对候选框对齐,经过分类边框预测分支以及Mask分支得到表格图像的分类及边框以及单元格掩膜结果,整个网络模型结构主要部分在于主干网络部分、特征金字塔部分进行特征提取与特征融合,同时加入通道注意力机制使网络更加关注有效的特征通道,最后图像通过输出层并进行后处理,对分割效果进行提升。
具体的,本实施例改进后的融合多尺度特征的主干特征提取网络模块如图4所示,首先对输入进来的表格图像进行缩放填补,得到网络模型需要的大小为512×512×64大小的图像,该图像经过主干网络的五次卷积进行特征提取,同时输出了五个不同尺寸大小的特征图,然后在其主干网络中提取网络中长宽压缩了两次的256×256×256的卷积、三次的128×128×512的卷积、四次的64×64×1024的卷积、五次的32×32×2048的卷积的结果后分别加入有效通道注意力模块,同时在特征金字塔上采样部分的256×256×256,128×128×256,64×64×256特征层后加入有效通道注意力模块。
该模块的输入为经过卷积结果后高度和宽度分别为W和H,通道数为C的有效特征图.首先对输入进来的有效特征层进行全局平局池化操作,在全局平均池化之后的特征上直接通过一个可以权重共享的1D卷积进行学习;然后进行Sigmoid激活函数的处理,将值固定在0-1之间,获得输入特征层每个通道的权值,最后输出这个权值与原输入特征层相乘的结果.其中1D卷积涉及到超参k,由于1D卷积的卷积核大小会影响注意力机制每个权重的计算要考虑的通道数量,而超参k则可以决定卷积核的大小尺寸,超参k是根据不同数量的通道数C来自适应的改变其值的大小,其计算式表达如下为:
其中C为不同数量的通道数,表示t最接近的奇数,根据实验的结果将γ和b分别设为2和1,映射函数ψ使更大的通道有随机相互作用,反之亦然。
利用上述方法为模型提取出的四个不同大小的特征图的每个通道赋予不同的权值,使其关注需要重点关注的表格中的点线、明暗等有效特征区域的通道,并利用RPN建议框对有效特征层进行下一步的操作,进一步将融合多尺度信息的有效特征图通过注意力的卷积运算与跨通道信息融合进行信息特征的提取,避免表格图像提取的边框或单元格等信息的缺失。
在上述实施例中,通过加入通道注意力机制为模型提取出的不同大小的特征图的每个通道赋予不同的权值,该权值的赋予使得该网络在特征通道提取的过程中可以重点关注到表格中的点线、明暗等有效特征区域,并进一步将融合多尺度信息的有效特征图通过注意力的卷积运算与跨通道信息融合进行信息特征的提取,避免表格图像提取的边框或单元格等信息的缺失。
改进后的Mask R-CNN-E分割算法的融合多尺度特征的主干特征提取模块的网络结构发生改变。利用添加有效通道注意力机制模块提取表格结构的有效通道信息,使得改进后的Mask R-CNN-E分割算法更加关注到表格边框单元格等点、线和明暗的特征,能够在增加极少参数的情况下有效提升网络对复杂异构表格单元格的检测能力,对表格单元格分割效果进行有效的提升。
步骤S33:将需要测试的表格图像输入改进的表格单元格分割算法Mask R-CNN-E
中,通过该模型输出相应表格的单元格结构分割结果图以及每个单元格的区域及坐标。使
用该模型为含有复杂边框的表格图像数据集进行训练,训练模型采用基于Tensorflow-
gpu1.13.2和Keras2.1.5深度学习框架,训练时批次为50,动量为0.9,权重为0.0001,初始
学习率为,置信度设置为0.7,数据在预处理过程中使用随机翻转、剪裁等数据增强
的策略,将所述含有复杂边框表格图像数据集标注所产生的json文件输入所述Mask R-
CNN-E分割模型中,对所述复杂边框表格图像单元格进行训练,得到所述表格单元格分割
Mask R-CNN-E模型。步骤S4:基于表格图像中单元格各个顶点及框线的像素特征,使用表格
单元格mask边缘优化算法,对改进后模型分割输出的结果图像中存在的单元格掩膜边缘的
像素缺失留白进行弥合,使用该方法进行优化后能够使得识别的表格单元格的分割边界更
加贴近原始表格,提升单元格掩膜分割的精细度,最终得到复杂框线表格涵盖的单元格结
构分割结果。
步骤S41:首先对该表格中所有单元格掩膜及其周围像素分别进行遍历,再次确定单元格掩膜边缘的位置,按照一定规则分析边缘掩膜的邻近像素,并依次与表格边框像素进行对比,若该像素区域内的掩膜边缘所在单元格区域的像素与单元格内部区域像素值接近,则将掩膜像素进行扩展,扩大分割区域,若此区域内的掩膜边缘所在区域像素与表格框线像素值接近,则视为满足条件,停止掩膜区域像素的扩展,不再进行更多区域的分割。
具体规则如下:
Step1:选定表格中单元格边缘掩膜所在图像区域像素,并找到第一个未作处理的掩膜像素点作为初始点,假设该点所在的表格图像的像素为(x0, y0),同时设定表格图像中单元格边框像素为(x2, y2);
Step2:逐一判断初始点周围八邻域的图像像素值(x, y)并于初始点所在表格图像像素(x0, y0)做比较,若与单元格内部像素值相似则将(x, y)与(x0, y0)合并在同一区域扩大掩膜;若与表格框线像素值(x2, y2)相似则将该区域视为非掩膜,不予合并。
Step3:找到下一个未作处理的掩膜像素点,将其当作(x0, y0)继续执行Step2;
Step4:直到表格图像中的各个单元格掩膜区域的每个像素点都处理完成,结束掩膜区域像素的对比及扩展。
步骤S42:继续对单元格掩膜分割及区域扩展后的边缘进行优化,首先对其边缘进行膨胀运算,弥补掩膜边缘信息存在的缺失,弥合狭窄的间断和细小的沟壑,消除小的空洞,填补轮廓中线的裂痕,其产生的结果是边缘像素区域相对增大,所用公式如下:
式中的g(x,y)表示膨胀后的二值图像,f(x,y)表示原始二值图像,S为结构元素,Ds表示结构元素S的定义域,对掩膜边缘进行膨胀运算,是每个结构元素的位置上的点的膨胀值在跨度Ds的区间内f(x,y)与S之和的最大值。
步骤S43:再对分割的掩膜边缘进行膨胀后的腐蚀运算,使得分割的掩膜边缘精细度变高,将掩膜腐蚀到合适的大小,同时避免引入过多的背景,经过对掩膜边缘的先膨胀后腐蚀得操作可以使掩膜边缘更加平滑精细,所用公式如下:
式中的g(x,y)表示膨胀后的二值图像,f(x,y)表示原始二值图像,S为结构元素,Ds表示结构元素S的定义域,对掩膜边缘进行腐蚀运算,是每个结构元素的位置的上的点的膨胀值在跨度Ds的区间内f(x,y)与S之和的最小值。如图5所示单元格,由上述具体步骤所述的表格单元格掩膜边缘优化算法,通过该算法中的表格单元格掩膜边缘像素区域的完善及腐蚀膨胀的掩膜边缘优化处理,使得表格单元的分割区域更加精细平滑,更加精确的拟合表格边框结构信息,进一步提升表格单元格分割的拟合度与准确率,最终输出准确分割出单元格的表格结构图像。
综上所述,本发明首先在图像中根据表格的结构特点对图像进行灰度化二值化处理,然后利用倾斜校正法将存在倾斜的表格进行矫正,然后对表格图像中的表格区域进行检测,定位到待识别的表格区域,快速的截取到目标表格区域,然后利用建立好的数据集使用Labelme进行表格单元格的标注,再使用改进的表格单元格结构分割算法Mask R-CNN-E对数据集进行训练及优化,以解决复杂表格中单元格识别困难以及边缘拟合不准确的问题,最后根据训练模型测试得到良好的表格单元格的分割结果,并对分割后的单元格使用mask边缘优化算法进行优化处理,提升表格单元格边缘掩膜拟合的精细度,有效提高表格单元格结构识别的准确性。
上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的构思和范围进行限定。在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。
Claims (10)
1.一种基于图像实例分割的表格结构识别方法,其特征在于,包括以下步骤:
步骤S1:获取并识别输入表格图像中的表格位置,并对所述待识别的表格图像进行预处理操作;
步骤S2:对表格图像中的表格区域进行检测,定位到待识别的表格区域;
步骤S3:基于改进的Mask R-CNN-E算法进行表格单元格结构识别,通过加入通道注意力机制,将其与多尺度特征进行融合,构建一个基于改进的Mask R-CNN-E算法的表格单元格结构分割模型,并对识别到的表格区域中涵盖的所有单元格进行识别分割,得到每个单元格所在区域及坐标;
步骤S4:基于表格图像中单元格各个顶点及框线的像素特征,将得到的单元格分割区域使用基于规则和形态学的单元格掩膜边缘优化算法对分割结果进行优化处理,最终得到复杂表格涵盖的单元格结构分割结果。
2.根据权利要求1所述的一种基于图像实例分割的表格结构识别方法,其特征在于,所述步骤S1中预处理操作包括灰度化、二值化、倾斜校正。
3.根据权利要求2所述的一种基于图像实例分割的表格结构识别方法,其特征在于,所述步骤S1具体包括以下步骤:
步骤S11:获取并识别输入表格图像中的表格位置,并将所述待识别的表格图像转换成单通道的灰度图像,所使用的公式为:
Gray=R*0 .299 +G*0 .587 +B*0 .114
其中,Gray代表灰度值,R、G、B分别是图像中每个像素的三个颜色通道分量;
步骤S12:使用最大类间方差法将灰度图像变换为二值图像,所用公式如下:
步骤S13:对所述的待识别的表格图像的二值化图像利用透视变换法进行倾斜校正,利用表格最外框四个顶点坐标方差,把其三维坐标投影到另外一个视平面,从而得到校正后的表格图像,所用公式如下:
4.根据权利要求1所述的一种基于图像实例分割的表格结构识别方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S21:获取预处理之后的二值图像,寻找图像中所包含的轮廓contours,并得到每个contours轮廓的list结构的每个元素的边沿信息,每个元素是(i,1,2)三维向量,i表示该条边沿共有多少个像素,“1”表示所包含的像素存在一组元素中,第三维的“2”则表示每个点的横纵坐标;
步骤S22:利用循环找到最大面积的轮廓,并生成外接矩形;
步骤S23:得到面积最大轮廓外接矩形后,对此目标区域进行剪裁,剪裁时先对y方向剪裁再对x方向剪裁,最终得到剪裁截取后的表格图像中的表格区域。
5.根据权利要求1所述的一种基于图像实例分割的表格结构识别方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31:首先对采集到的表格图像数据集进行标注,最终生成对表格单元格标注的json标注数据文件,所述json标注数据文件中包含对应单元格的名称以及该单元格相应标注的四个顶点的坐标位置;
步骤S32:使用改进的Mask R-CNN-E算法识别分割表格中的单元格结构;
步骤S33:通过改进的实例分割Mask R-CNN-E算法,利用步骤S31标注好的复杂框线表格单元格数据集进行模型的训练,数据在预处理过程中使用数据增强的策略,构建一个基于实例分割模型及注意力机制的表格单元格结构检测模型,使用该模型算法对区域内的所有单元格进行检测,获取识别到表格图像的所有单元格的分割区域及坐标。
6.根据权利要求5所述的一种基于图像实例分割的表格结构识别方法,其特征在于,所述步骤S32具体包括以下步骤:
对原始实例分割算法进行改进,基于原始实例分割算法的主干网络部分、特征金字塔部分进行特征提取与特征融合,特征提取层的主干网络中包含两个基本的块,分别是ConvBlock和Identity Block,前者在残差边增加一个卷积,通过设置Conv Block的步长和通道数改变输入特征层的维度,后者可以通过不断地串联加深网络;
通过主干特征提取网络进行特征提取后,利用长宽压缩了的特征层来进行特征金字塔结构的构造;取出在主干特征提取网络中长宽压缩了的卷积的结果通过进行上采样构造FPN特征金字塔结构来实现特征多尺度的融合;最后通过融合得到的特征层作为RPN提取建议框的四个不同尺寸的有效特征层;
对上述主干网络提取有效特征层的结果加入有效通道注意力机制,同时在特征金字塔上采样部分的特征层加入有效通道注意力模块,将该模块与多尺度特征的主干特征提取网络进行融合,获得输入进来的特征层的每个通道的权重。
7.根据权利要求6所述的一种基于图像实例分割的表格结构识别方法,其特征在于,获得输入进来的特征层的每个通道的权重具体为:
经过主干网络以及特征金字塔上采样的卷积后得到高度和宽度分别为W和H,通道数为C的有效特征图,首先对输入进来的有效特征层进行全局平局池化操作,在全局平均池化之后的特征上直接通过一个可以权重共享的1D卷积进行学习;然后进行Sigmoid激活函数的处理,将值固定在0-1之间,获得输入特征层每个通道的权值,最后输出这个权值与原输入特征层相乘的结果,并利用RPN建议框对有效特征层进行下一步的操作。
8.根据权利要求1所述的一种基于图像实例分割的表格结构识别方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S41:根据表格图像中单元格各个顶点及框线的像素特征,对表格中所有单元格掩膜及其周围像素分别进行遍历,再次确定单元格掩膜边缘的位置,按照一定规则分析边缘掩膜的邻近像素,并依次与表格边框像素进行对比,若该像素区域内的掩膜边缘所在单元格区域的像素与单元格内部区域像素值接近,则将掩膜像素进行扩展,扩大分割区域,若此区域内的掩膜边缘所在区域像素与表格框线像素值接近,则视为满足条件,停止掩膜区域像素的扩展,不再进行更多区域的分割;
步骤S42:对分割及区域像素扩展后的掩膜边缘进行膨胀运算;
步骤S43:再对分割的掩膜边缘进行膨胀后的腐蚀运算;最终输出准确分割出单元格的表格结构图像。
9.根据权利要求8所述的一种基于图像实例分割的表格结构识别方法,其特征在于,所述步骤S41中规则如下:
Step1:选定表格中单元格边缘掩膜所在图像区域像素,并找到第一个未作处理的掩膜像素点作为初始点,假设该点所在的表格图像的像素为(x0, y0),同时设定表格图像中单元格边框像素为(x2, y2);
Step2:逐一判断初始点周围八邻域的图像像素值(x, y)并于初始点所在表格图像像素(x0, y0)做比较,若与单元格内部像素值相似则将(x, y)与(x0, y0)合并在同一区域扩大掩膜;若与表格框线像素值(x2, y2)相似则将该区域视为非掩膜,不予合并;
Step3:找到下一个未作处理的掩膜像素点,将其当作(x0, y0)继续执行Step2;
Step4:直到表格图像中的各个单元格掩膜区域的每个像素点都处理完成,结束掩膜区域像素的对比及扩展。
10.根据权利要求8所述的一种基于图像实例分割的表格结构识别方法,其特征在于:所述步骤S42中进行膨胀运算所用公式如下:
式中的g(x,y)表示膨胀后的二值图像,f(x,y)表示原始二值图像,S为结构元素,D s 表示结构元素S的定义域,(x’,y’)属于该结构元素定义域内的点,对掩膜边缘进行膨胀运算,是每个结构元素的位置上的点的膨胀值在跨度D s 的区间内f(x,y)与S之和的最大值;
所述步骤S43中进行腐蚀运算所用公式如下:
式中的g(x,y)表示腐蚀后的二值的图像,f(x,y)表示原始二值图像,S为结构元素,D s 表示结构元素S的定义域,(x’,y’)属于该结构元素定义域内的点,对掩膜边缘进行腐蚀运算,是每个结构元素的位置的上的点的膨胀值在跨度D s 的区间内f(x,y)与S之和的最小值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211243652.9A CN115331245B (zh) | 2022-10-12 | 2022-10-12 | 一种基于图像实例分割的表格结构识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211243652.9A CN115331245B (zh) | 2022-10-12 | 2022-10-12 | 一种基于图像实例分割的表格结构识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115331245A true CN115331245A (zh) | 2022-11-11 |
CN115331245B CN115331245B (zh) | 2023-02-03 |
Family
ID=83913693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211243652.9A Active CN115331245B (zh) | 2022-10-12 | 2022-10-12 | 一种基于图像实例分割的表格结构识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331245B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116151202A (zh) * | 2023-02-21 | 2023-05-23 | 中国人民解放军海军工程大学 | 表格填写方法、装置、电子设备及存储介质 |
CN116503888A (zh) * | 2023-06-29 | 2023-07-28 | 杭州同花顺数据开发有限公司 | 一种从图像中提取表格的方法、***和存储介质 |
CN116798056A (zh) * | 2023-08-28 | 2023-09-22 | 星汉智能科技股份有限公司 | 表格图像定位方法、装置、设备、计算机可读存储介质 |
CN117973337A (zh) * | 2024-01-24 | 2024-05-03 | 中国科学院自动化研究所 | 表格重建方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
WO2020216008A1 (zh) * | 2019-04-25 | 2020-10-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
CN112183038A (zh) * | 2020-09-23 | 2021-01-05 | 国信智能***(广东)有限公司 | 一种表格识别套打方法、计算机设备及计算机可读存储介质 |
WO2021093435A1 (zh) * | 2019-11-12 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN113297975A (zh) * | 2021-05-25 | 2021-08-24 | 新东方教育科技集团有限公司 | 表格结构识别的方法、装置、存储介质及电子设备 |
CN113379773A (zh) * | 2021-05-28 | 2021-09-10 | 陕西大智慧医疗科技股份有限公司 | 基于双重注意力机制的分割模型建立、分割方法及装置 |
CN113743318A (zh) * | 2021-09-07 | 2021-12-03 | 金陵科技学院 | 基于行列分割的表格结构识别方法、存储介质和电子装置 |
CN114332893A (zh) * | 2021-09-01 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 表格结构识别方法、装置、计算机设备和存储介质 |
CN114332890A (zh) * | 2021-12-07 | 2022-04-12 | 深圳集智数字科技有限公司 | 表格结构提取方法、装置、电子设备及存储介质 |
CN114926851A (zh) * | 2022-05-21 | 2022-08-19 | 企知道网络技术有限公司 | 一种表格图片中表格结构的识别方法、***及存储介质 |
CN115021965A (zh) * | 2022-05-06 | 2022-09-06 | 中南民族大学 | 一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法及*** |
-
2022
- 2022-10-12 CN CN202211243652.9A patent/CN115331245B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020216008A1 (zh) * | 2019-04-25 | 2020-10-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、存储介质及设备 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
WO2021093435A1 (zh) * | 2019-11-12 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN112183038A (zh) * | 2020-09-23 | 2021-01-05 | 国信智能***(广东)有限公司 | 一种表格识别套打方法、计算机设备及计算机可读存储介质 |
CN113297975A (zh) * | 2021-05-25 | 2021-08-24 | 新东方教育科技集团有限公司 | 表格结构识别的方法、装置、存储介质及电子设备 |
CN113379773A (zh) * | 2021-05-28 | 2021-09-10 | 陕西大智慧医疗科技股份有限公司 | 基于双重注意力机制的分割模型建立、分割方法及装置 |
CN114332893A (zh) * | 2021-09-01 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 表格结构识别方法、装置、计算机设备和存储介质 |
CN113743318A (zh) * | 2021-09-07 | 2021-12-03 | 金陵科技学院 | 基于行列分割的表格结构识别方法、存储介质和电子装置 |
CN114332890A (zh) * | 2021-12-07 | 2022-04-12 | 深圳集智数字科技有限公司 | 表格结构提取方法、装置、电子设备及存储介质 |
CN115021965A (zh) * | 2022-05-06 | 2022-09-06 | 中南民族大学 | 一种基于生成式对抗网络的入侵检测***的攻击数据的生成方法及*** |
CN114926851A (zh) * | 2022-05-21 | 2022-08-19 | 企知道网络技术有限公司 | 一种表格图片中表格结构的识别方法、***及存储介质 |
Non-Patent Citations (5)
Title |
---|
BIN XIAO 等: "Table Structure Recognition with Conditional Attention", 《HTTPS://ARXIV.ORG/ABS/2203.03819》 * |
DEVASHISH PRASAD 等: "CascadeTabNet: An Approach for End to End Table Detection and Structure Recognition From Image-Based Documents", 《CVPR 2020》 * |
LILI YAO 等: "A Secure and Efficient Distributed Storage Scheme SAONT-RS Based on an Improved AONT and Erasure Coding", 《IEEE ACCESS》 * |
高良才 等: "表格识别技术研究进展", 《中国图象图形学报》 * |
龚建全 等: "基于样本构造和孪生胶囊网络的医学意图识别", 《中南民族大学学报(自然科学版)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116151202A (zh) * | 2023-02-21 | 2023-05-23 | 中国人民解放军海军工程大学 | 表格填写方法、装置、电子设备及存储介质 |
CN116151202B (zh) * | 2023-02-21 | 2024-04-02 | 中国人民解放军海军工程大学 | 表格填写方法、装置、电子设备及存储介质 |
CN116503888A (zh) * | 2023-06-29 | 2023-07-28 | 杭州同花顺数据开发有限公司 | 一种从图像中提取表格的方法、***和存储介质 |
CN116503888B (zh) * | 2023-06-29 | 2023-09-05 | 杭州同花顺数据开发有限公司 | 一种从图像中提取表格的方法、***和存储介质 |
CN116798056A (zh) * | 2023-08-28 | 2023-09-22 | 星汉智能科技股份有限公司 | 表格图像定位方法、装置、设备、计算机可读存储介质 |
CN116798056B (zh) * | 2023-08-28 | 2023-11-17 | 星汉智能科技股份有限公司 | 表格图像定位方法、装置、设备、计算机可读存储介质 |
CN117973337A (zh) * | 2024-01-24 | 2024-05-03 | 中国科学院自动化研究所 | 表格重建方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115331245B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN115331245B (zh) | 一种基于图像实例分割的表格结构识别方法 | |
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
JP4806230B2 (ja) | 劣化辞書生成プログラム、方法および装置 | |
CN102790841B (zh) | 书籍的书脊区域中数字图像的检测和校正方法 | |
CN113240626B (zh) | 一种基于神经网络的玻璃盖板凹凸型瑕疵检测与分类方法 | |
CN113435240B (zh) | 一种端到端的表格检测和结构识别方法及*** | |
JP7246104B2 (ja) | テキスト行識別に基づくナンバープレート識別方法 | |
CN108305260B (zh) | 一种图像中角点的检测方法、装置及设备 | |
CN110647795A (zh) | 一种表格识别方法 | |
CN114529459B (zh) | 一种对图像边缘进行增强处理的方法和***及介质 | |
CN111738055B (zh) | 多类别文本检测***和基于该***的票据表单检测方法 | |
CN110427946B (zh) | 一种文档图像二值化方法、装置和计算设备 | |
CN114266794B (zh) | 基于全卷积神经网络的病理切片图像癌症区域分割*** | |
Shi et al. | Shape based local thresholding for binarization of document images | |
CN113158977B (zh) | 改进FANnet生成网络的图像字符编辑方法 | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
CN113723399A (zh) | 一种车牌图像矫正方法、车牌图像矫正装置和存储介质 | |
CN113496480A (zh) | 一种焊缝图像缺陷的检测方法 | |
CN113033558A (zh) | 一种用于自然场景的文本检测方法及装置、存储介质 | |
CN116645592A (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN114359538A (zh) | 一种水表读数定位与识别方法 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |