CN110032989A

CN110032989A - 一种基于框线特征和像素分布的表格文档图像分类方法

Info

Publication number: CN110032989A
Application number: CN201910327555.XA
Authority: CN
Inventors: 柯逍; 王俊强
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-07-19
Anticipated expiration: 2039-04-23
Also published as: CN110032989B

Abstract

本发明涉及一种基于框线特征和像素分布的表格文档图像分类方法，首先对待分类图像进行灰度化和二值化，接着对得到的二值图像进行基于连通域分析的框线增强操作，对框线增强之后的图像进行基于深度学***方向投影，对纵框线进行垂直方向投影，并记录投影后的位置以及像素值，将得到的框线坐标与长度信息与模板库中已录入的标准模板信息进行匹配，筛选出与待分类图像相似度最高的模板图像，最后输出待分类图像的分类结果。本发明能够有效地对表格文档图像进行分类。

Description

一种基于框线特征和像素分布的表格文档图像分类方法

技术领域

本发明涉及形态学与计算机视觉领域，特别是一种基于框线特征和像素分布的表格文档图像分类方法。

背景技术

随着经济社会不断发展进步，国家的各个行业和部门在每天的生产生活中都会产生大量的表格文档，采用人工对这些表格文档进行分类不仅效率低，而且分类的准确率也得不到保证。表格文档的分类特征一般有标题、框线、特殊字符等，由于基于框线的表格文档分类方法通用性较好，这里将框线特征作为表格文档的分类特征。

表格文档图像分类通过对读入计算机的表格文档图像的框线特征进行检测和提取，并将提取到框线信息进行电子化处理，最终实现表格文档的自动分类。

发明内容

有鉴于此，本发明的目的是提出一种基于框线特征和像素分布的表格文档图像分类方法，对于图像质量交叉的表格文档图像进行框线增强处理，使图像的框线结构特征得到增强，有效提升了图像的质量，提高了框线检测的准确率，并结合图像处理中的投影法获取框线的电子化特征信息。

本发明采用以下方案实现：一种基于框线特征和像素分布的表格文档图像分类方法，包括以下步骤：

步骤S1：获取并读取待分类表格文档图像即待分类图像，并对所述待分类图像进行灰度化、二值化以及基于连通域分析的框线结构增强操作；

步骤S2：采用基于多层感知器的深度学习方法对增强之后的待分类图像去噪，完成待分类图像的预处理；

步骤S3：利用基于形态学的直线检测方法分别检测待分类图像的横、纵框线，得到横、纵框线图像，并对得到的横纵框线图像分别进行图像细化；采用基于NPcanny的直线检测方法分别获取所述待分类图像的横、纵框线条数信息；

步骤S4：将所述横纵框线图像分别进行水平和垂直方向投影并记录投影的位置和像素值信息；将得到的信息与标准模板库中的信息进行匹配，筛选出与待分类图像相似度最高的模板图像，最后输出待测图像的分类结果。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：获取并读入所述待分类表格文档图像并将其转换成单通道灰度图像，所用公式为：

Y＝0.299×R+0.587×G+0.114×B

其中，Y代表亮度即灰度值；R、G、B分别是图像中每一个像素的三个颜色分量；

步骤S12：采用自适应阈值算法将灰度图像变换为二值图像所用的公式如下：

其中，src(u,v)为原始值；dst(u,v)为输出值；T(u,v)为自适应阈值；max_value是自适应灰度值；

步骤S13：对所述待分类图像的二值化图像进行形态学膨胀操作，将二值化图像与中间带有参考点的实心矩形卷积核进行卷积运算，计算卷积核覆盖的区域的像素点的最大值，并把这个最大值赋值给参考点指定的像素，膨胀操作公式为：

其中，Z和B是进行膨胀操作的两个结构元素；z是结构元素B平移的距离；B[z]是结构元素平移z后得到的点；φ是空集符号；

步骤S14：采用基于二值图像拓扑结构分析的轮廓检测算法对膨胀后的二值图像进行连通域检测，检测并获得膨胀后二值图像的外轮廓信息，并将检测到的外轮廓内部用黑色像素进行填充。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：获取噪声图像数据和无噪音的地面真实图像；对于每个无噪音地面图像数据集，每个像素的协方差与其(R,G,B)值和8×8×4补丁信息一起输入多层感知器模型，其中95％的图像数据用于训练，5％的图像数据用于验证；

步骤S22：通过多层感知器训练向量值输入层的非线性变换，输入层通过几个隐藏层映射到输出层，得到待分类图像中的的噪声分布情况；多层感知器的定义式为：

x⁽ⁿ⁺¹⁾＝g(b⁽ⁿ⁾+W⁽ⁿ⁾x⁽ⁿ⁾)

其中，x⁽ⁿ⁺¹⁾是网络中第n+1层的值且x⁽ⁿ⁾是第n层的值，W⁽ⁿ⁾是可训练权重；b⁽ⁿ⁾是可训练偏差；g是非线性激活函数；

步骤S23：根据步骤S22中得到的噪声分布情况，利用贝叶斯非局部均值滤波器去除待分类图像中的噪声，输出去除噪声之后的图像，完成待分类图像预处理。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：令两个结构元素分别为：结构元素Hstructuring和结构元素Vstructuring；

步骤S32：利用结构元素Hstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作，并提取出待分类图像的每条横框线并去除待分类图像中的字符，得到待分类图像的横框线图像；

步骤S33：用结构元素Vstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作，并提取出待分类图像的每条纵框线并去除待分类图像中的字符，得到待分类图像的纵框线图像；

步骤S34：采用Zhang快速并行细化算法分别将所述横纵框线图像一层层剥离，仍保持原来的形状，最终得到横纵框线图像的骨架；

步骤S35：采用NPcanny边缘检测器根据输入的待分类图像的梯度大小，自适应地调整canny操作的高低阈值，然后从梯度幅度最大的边缘像素开始，在边缘地图上收集具有方向控制的像素，将线段向两个方向扩展，收集更多的边缘像素，并与周围的其他共线线段合并，对漏检的线段进行二次检测和补充提取；

步骤S36：采用基于赫尔姆霍兹的线段验证方法，对步骤S35中检测到的线段进行验证并获取框线条数信息。

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：读取所述待分类图像的横框线图像，分别进行灰度化和二值化处理，然后将所述横框线图像进行水平方向投影，并记录下投影的位置和像素值；

步骤S42：根据横框线的特征，将投影位置坐标连续且投影像素值不为0的投影点判定为同一条横框线水平投影之后的点，将这些点的水平投影的像素值相加，并将这些点中的第一个点的横坐标作为该条横框线的位置坐标；

步骤S43：读入所述待分类图像的纵框线图像，分别进行灰度化和二值化处理，然后将所述纵框线图像进行垂直方向投影，并记录下投影的位置和像素值；

步骤S44：据纵框线的特征，将投影位置坐标连续且投影像素值不为0的投影点判定为同一条纵框线垂直投影之后的投影点，将这些点的垂直投影的像素值相加，并将这些点中的第一个点的纵坐标作为该条纵框线的位置坐标；

步骤S45：将得到的横框线位置坐标和像素值与所述标准模板库中的对应信息分别进行匹配，当所述待分类图像的位置坐标与标准模板的标准位置坐标的差值小于或等于20且像素值差值小于或等于60时，该模板下的横框线匹配条数ac的值加1；

步骤S46：将得到的纵框线位置坐标和像素值与标准模板库中的对应信息分别进行匹配，当待分类图像的位置坐标与标准模板的标准位置坐标的差值小于或等于20且像素值差值小于或等于60时，该模板下的纵框线匹配条数bc的值加1；

步骤S47：将横框线匹配条数ac与纵框线匹配条数bc相加，得到该模板下待分类图像的总框线匹配条数zc，将标准模板中zc值最大的模板图像判定为与待分类图像相似度最高的图像，并将待分类图像的类别判定为此类模板，最后输出待分类图像的图像类别。

与现有技术相比，本发明有以下有益效果：

1、本发明能够有效地对表格文档图像进行分类，提升表格文档图像分类结果的准确率。

2、本发明能够对读入计算机的表格文档图像完成自动分类，并输出分类结果。

3、针对图像质量较差的表格文档图像，本发明起到了增强表格框线结构的作用，切实有效地改善并提升了图像质量，对于图像中存在的噪点，采用了基于深度学习方法的图像去噪，减少了噪点对框线检测的影响，有效提高了框线检测的准确率。

4、针对传统图像分类方法中，分类结果的准确率不理想的情况，本发明通过对细化后的框线图像采用基于NPcanny的直线检测方法获取框线条数信息，然后分别对细化后的横纵框线进行水平投影和垂直投影，获取框线的坐标和长度信息，并将这些信息作为分类依据，将待分类图像与标准模板库中的模板图像分别匹配，筛选出相似度最高的模板图像，作为分类结果，并最终输出分类结果。

附图说明

图1为本发明实施例的流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本实施例提供了一种基于框线特征和像素分布的表格文档图像分类方法，具体包括以下步骤：

步骤S1：获取并读取待分类表格文档图像即待分类图像，并进行灰度化、二值化、基于连通域分析的框线结构增强操作；

步骤S3：用基于形态学的直线检测方法，分别检测并提取出待分类图像的横、纵框线并进行细化，采用基于NPcanny的直线检测方法分别获取所述待分类图像的横、纵框线条数信息；

步骤S4：将得到的横纵框线图像分别进行水平和垂直方向投影并记录投影的位置和像素值信息，将得到的信息与标准模板库中的信息进行匹配，筛选出与待分类图像相似度最高的模板图像，最后输出待测图像的分类结果。

在本实施例中，步骤S1具体包括以下步骤：

步骤S11：获取并读入所述待分类表格文档图像并将其转换单通道灰度图像，所用公式为：

Y＝0.299×Rt0.587×G+0.114×B

其中Y代表亮度，就是灰度值，R、G、B是图像中每一个像素的三个颜色分量；

步骤S12：局部自适应阈值法的二值化阈值可变，像素的邻域块像素值的分布情况决定阈值的选取，自适应阈值算法将灰度图像变换为二值图像所用的公式如下：

其中，src(u,v)为原始值，dst(u,v)为输出值，T(u,v)为自适应阈值，max_value是自适应灰度值；

其中，Z和B是进行膨胀操作的两个结构元素，z是结构元素B平移的距离，B[z]是结构元素平移z后得到的点，φ是空集符号；

在本实施例中，步骤S2具体包括以下步骤：

步骤S21：收集高质量噪声图像数据，拍摄15个静态场景的训练图像，每个场景800张jpeg图像，并计算每个场景的平均图像，生成无噪音的地面真实图像；对于无噪音地面图像数据集，每个像素的协方差与其(R,G,B)值和8×8×4补丁信息一起输入模型，其中95％的图像数据用于训练，5％的图像数据用于验证；

步骤S22：通过多层感知器(MLP)训练向量值输入层的非线性变换，输入层通过几个隐藏层映射到输出层，得到待分类图像中的的噪声分布情况，多层感知器的定义式为：

x⁽ⁿ⁺¹⁾＝g(b⁽ⁿ⁾+W⁽ⁿ⁾x⁽ⁿ⁾)

其中，x⁽ⁿ⁺¹⁾是网络中第n+1层的值且x⁽ⁿ⁾是第n层的值(x⁽¹⁾是输入层)，W⁽ⁿ⁾是可训练权重；b⁽ⁿ⁾是可训练偏差；g是非线性激活函数；

步骤S23：根据步骤S22中得到的噪声分布情况，用贝叶斯非局部均值滤波器去除待分类图像中的噪声，输出去除噪声之后的图像。

在本实施例中，步骤S3具体包括以下步骤：

步骤S31：定义结构元素Hstructuring:

Hsize＝horimage.cols/scale1；

Hstructuring＝getStructuringElement(MORPH_RECT,size(Hsize,1))；

定义结构元素Vstructuring:

Vsize＝verimage.rows/scale2；

Vstructuring＝getStructuringElement(MORPH_RECT,size(1,Vsize))；

其中horimage.cols和verimage.rows分别为读入图像的行列值，其中scale1和scale2为整数，getStructuringElement()是内核矩阵函数，MORPH_RECT代表矩形，size(Hsize,1)和size(1,Vsize)表示内核尺寸；

步骤S32：用结构元素Hstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作，完整地提取出待分类图像的每条横框线并去除待分类图像中的字符等干扰项，得到待测图像的横框线图像；

步骤S33：用结构元素Vstructuring对预处理之后的待分类图像先进行腐蚀操作再进行膨胀操作，完整地提取出待分类图像的每条纵框线并去除待分类图像中的字符等干扰项，得到待分类图像的纵框线图像；

步骤S34：采用Zhang快速并行细化算法分别将横框线图像一层层剥离，去掉图像中的一些点，仍保持原来的形状，最终得到横纵框线图像的骨架；

步骤S35：NPcanny边缘检测器根据输入的待分类图像的梯度大小，自适应地调整canny操作的高低阈值，从输入图像中提取边缘映射的同时，保证图像结构信息的完整性，然后从梯度幅度最大的边缘像素开始，在边缘地图上收集具有方向控制的像素，将线段向两个方向扩展，收集更多的边缘像素，并与周围的其他共线线段合并，对漏检的线段进行二次检测和补充提取；

步骤S36：采用基于赫尔姆霍兹原理的线段验证方法，对检测到的线段进行验证并获取框线条数信息。

在本实施例中，步骤S4具体包括以下步骤：

步骤S41：读入待分类图像的横框线细化图像，进行灰度化和二值化处理，然后将横框线图像进行水平方向投影，并记录下投影的位置和像素值信息；

步骤S43：读入待分类图像的纵框线细化图像，进行灰度化和二值化处理，然后将纵框线图像进行垂直方向投影，并记录下投影的位置和像素值信息；；

步骤S45：将得到的横框线位置坐标和像素值信息与标准模板库中27类模板的对应信息分别进行匹配，当待分类图像的位置坐标与模板的标准位置坐标的差值小于等于20且像素值差值小于等于60时，该模板下的横框线匹配条数ac的值加1；

步骤S46：将得到的纵框线位置坐标和像素值信息与标准模板库中27类模板的对应信息分别进行匹配，当待分类图像的位置坐标与模板的标准位置坐标的差值小于等于20且像素值差值小于等于60时，该模板下的纵框线匹配条数bc的值加1；

步骤S47：将横框线匹配条数ac与纵框线匹配条数bc相加，得到该模板下待分类图像的总框线匹配条数zc，将27类模板中zc值最大的模板图像判定为与待分类图像相似度最高的图像，并将待分类图像的类别判定为此类模板，最后输出待分类图像的图像类别。

在本实施例中，所述的标准模板库的建立方法为：在已知类别的包括"理赔审核通知书","承保前撤件申请书(电销版)","个人告知书","网上服务申请书","审核通知书","保全付费高额件审批表","调查报告","保险合同借款协议书","健康告知书","健康告知书X","承保前撤件申请书","人寿保险投保单1","委托金融储蓄机构付款/收款转账授权书","投保告知书","其它告知书","人寿保险投保确认单(电话销售渠道专用)","税优健康保险投保单","人寿保险投保单2","税优健康保险投保单(银保使用版)","代理人报告书","保单及客户资料变更类","投保内容书","投保内容书X","保险合同内容变更申请书","保险合同内容变更申请书X","人寿保险投保单3","客户资料变更类"的27类表格文档图像中，每个类别选定一张图像质量佳，框线特征明显的图像作为模板图像，并用上述方法分别获取横框线的位置坐标和像素值信息并录入模板库，作为标准电子模板。

特别的，本实施例针对图像质量较差的表格文档图像，提出了一种基于连通域分析的表格框线结构增强方法，起到了增强表格框线结构的作用，切实有效地改善并提升了图像质量，对于图像中存在的噪点，采用了基于深度学***投影和垂直投影，获取框线的坐标和长度信息，并将这些信息作为分类依据，将待分类图像与标准模板库中的模板图像分别匹配，筛选出相似度最高的模板图像，作为分类结果，并最终输出分类结果。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于框线特征和像素分布的表格文档图像分类方法，其特征在于：

包括以下步骤：

2.根据权利要求1所述的一种基于框线特征和像素分布的表格文档图像分类方法，其特征在于：所述步骤S1具体包括以下步骤：

Y＝0.299×R+0.587×G+0.114×B

3.根据权利要求1所述的一种基于框线特征和像素分布的表格文档图像分类方法，其特征在于：所述步骤S2具体包括以下步骤：

x⁽ⁿ⁺¹⁾＝g(b⁽ⁿ⁾tW⁽ⁿ⁾x⁽ⁿ⁾)

4.根据权利要求1所述的一种基于框线特征和像素分布的表格文档图像分类方法，其特征在于：所述步骤S3具体包括以下步骤：

5.根据权利要求1所述的一种基于框线特征和像素分布的表格文档图像分类方法，其特征在于：所述步骤S4具体包括以下步骤：