CN112836650B

CN112836650B - 一种质量检验报告扫描图像表格语义解析方法与***

Info

Publication number: CN112836650B
Application number: CN202110164862.8A
Authority: CN
Inventors: 尹旷; 喇元; 叶建斌; 张宇; 朱博; 苏海博; 方健
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2022-12-06
Anticipated expiration: 2041-02-05
Also published as: CN112836650A

Abstract

本发明提供一种多方向可纠错的封闭开关设备质量检验报告扫描图像表格语义解析方法与***，具体包括1)对质量检验报告扫描图像表格进行图像预处理；2)对质量检验报告扫描图像不同角度切分表格的文字进行定位与识别；3)对质量检验报告扫描图像文字识别结果语义解析与纠错，得出结果。本发明的优点在于：利用表格线识别定位文字，去除扫描文档的阴影干扰；实现了倾斜文本和多尺度文本的检测；对文本识别的错字错词实现自动纠错。

Description

一种质量检验报告扫描图像表格语义解析方法与***

技术领域

本发明属于计算机及信息服务技术，特别涉及对特定扫描图像的表格内容语义解析的方法和***。

背景技术

语义解析是图像与文本理解中高层认知的重点和难点，对于封闭开关设备质量检验报告扫描图像表格，我们希望利用图像与文本理解算法识别扫描图像，并对识别结果进行语义解析，实现封闭开关设备的自动验收。

对于图像理解算法，可以对文字进行定位与识别。目前比较成熟的文本检测框架为CTPN(Connectionist Text Proposal Network)，精确度较好，但是检测时间较长，只能检测水平方向的文本，有很大的优化空间。

对于文本理解算法，文本语义解析在扫描图像的表格内容中可进行信息抽取与文本纠错。目前文本语义解析的纠错模型包括了端到端的深度模型、CRF(conditionalrandom field)、seq2seq等。端到端的深度模型可以避免人工提取特征，减少人工工作量，CRF会计算全局最优输出节点的条件概率，对句子中特定错误类型的检测，会根据整句话判定该错误，seq2seq模型是使用encoder-decoder结构解决序列转换问题。

目前，现有的图像语义解析技术对于扫描图像文本的识别只能基于水平方向，对表格识别无法保留原来的结构化信息，且不包含对识别文字信息的语义解析，对于错误识别的内容没有配套的纠错方案。

发明内容

本发明针对现有技术的不足之处，提出一种多方向可纠错的扫描图像表格语义解析方法与***，并将其应用在封闭开关设备质量检验报告中，通过识别表格线来切分与定位文字，基于RRPN(Rotation Region Proposal Network)目标识别模型与DenseNet卷积神经网络实现多方向的文字识别，最后基于RNN(Recurrent Neural Network)序列模型实现文本纠错。

本发明提出一种质量检验报告扫描图像表格语义解析方法，包括以下步骤：

步骤1，对封闭开关设备质量检验报告扫描图像表格进行图像预处理，包括图像自适应的二值化、噪声去除，识别扫描图像表格的表格线，以表格线交点作为判断依据切分表格，并记录每份切片所处的位置；

步骤2，构建多方向文字定位模型实现切分表格的文字定位，设计带角度信息的倾斜候选框，实现对不同扫描角度的质量检验报告的文字定位；

步骤3，基于DenseNet构建文字识别模型对定位文字进行识别，设计卷积网络层之间的残差连接提高文字的识别率，实现质量检验报告的切片表格文字识别；

步骤4，对于识别后的文字部分，利用预训练的RNN模型进行表格文字的语义解析，构建针对封闭开关设备质量检验报告的快速文本修正模型；

步骤5，利用训练好的文本修正模型，结合切片位置信息还原表格文字布局，得到封闭开关设备质量检验报告扫描图像表格的最终识别结果，并实现检验报告的自动比对。

进一步的，步骤1中识别扫描图像表格的表格线，以表格线交点作为判断依据切分表格，并记录每份切片所处的位置，其具体实现步骤如下；

首先识别图像中的所有竖线，设定距离阈值，将在距离阈值内的竖线视为同一竖线，取坐标最高最低点作为竖线的起点和结点坐标；同理识别所有横线，定距离阈值，将在距离阈值内的横线视为同一横线，取坐标最左最右点作为竖线的起点和结点坐标，得到扫描表格的所有表格线；

计算所有横竖线的交点坐标，遍历除最右和最下面两条线上的所有交点，记遍历当前点为点A，记A点右侧和下方的点为B和C，若能找到成立矩形的第四个点D，则构成矩形切片，否则继续遍历，得到所有矩形切片即为所有表格切片；

进一步的，步骤2中构建多方向文字定位模型实现切分表格的文字定位，其具体实现方式如下，

整体模型分为三个部分，第一部分使用VGG网络对表格切片提取图像特征，第二部分在图像特征矩阵中生成带倾斜角的文本候选区域，第三部分设计损失函数，训练得到多方向文字定位模型，实现对不同扫描角度的质量检验报告的文字定位；

其中，第二部分在图像特征矩阵中生成带倾斜角的文本候选区域的具体实现方式如下，

设计文本区域的表现形式为：(x,y,w,h,θ)，其中(x,y)表示文本区域的几何中心点坐标，(w,h)分别表示文本区域的长边和短边，θ表示文本区域长边与x正轴的夹角，通过θ+kπ将θ的范围控制在

之间；

设计旋转的Anchor，进行如下改进：1)选择六个旋转角度，分别是

2)选择三个比例分别为1:3,1:5,1:8；3)选择三个大小，分别为8，16，32像素。对于H×W的特征图上的每一个点共生成六个方向，三个宽高比，三个大小，一共54×H×W个Anchor；

第三部分损失函数设计如下，

L(p,l,v^*,v)＝L_cls(p,l)+λlL_reg(v^*,v)

其中参数l表示类别，其中对于文本l＝1，对于背景l＝0，参数p为softmax函数计算的类的概率，λ为平衡参数，v表示预测的文本区域，v^*表示真实的文本区域；

类别l的分类损失定义如下，

L_cls(p,l)＝-logp_l

其中p_l为类别l的softmax函数计算的概率；

边界回归的损失定义如下，

其中，i为由{x,y,w,h,θ}表示的一个文本区域。

进一步的，对于多方向文字定位模型采用单独训练的方式，选取IoU大于0.7且与真实框夹角小于

的标注框作为正样本，IoU小于0.3或IoU大于0.7但与真实框夹角大于

的标注框作为负样本，进行训练，得到多方向文字定位模型。

进一步的，步骤3中基于DenseNet构建文字识别模型对定位文字进行识别，其具体实现方式如下，

设输入图像为x₀，第i层输出记为x_i，输入图像经过1个卷积层，2个Dense Block，每个Dense Block之间含有1*1的卷积层和2*2的池化层作为过渡层，最后线性连接得到输出分类，通过网络训练得到文字识别模型，实现质量检验报告的切片表格文字识别；

其中，Dense Block以CNN卷积神经网络作为基础框架，包含五层卷积层，每层都设计了后续层的残差链路，即直接将该层网络特征矩阵传递给后续层，第i层获得所有前面特征映射作为输入，即

x_i＝H_i([x₀,x₁,x₂…x_i-1])

其中，H_i函数为非线性激活函数。

进一步的，步骤4的具体实现方式如下，

取步骤3所得文字识别结果，其中识别错误数据作为负样本，识别错误的数据进行修改后正确的数据作为正样本；

采用预训练的word2vec模型将文本数据转化为词向量，输入RNN网络，输入为错误数据负样本，输出为修改数据正样本，进行网络的训练，得到训练之后的文本纠错模型。

进一步的，步骤5的具体实现方式如下，

针对封闭开关设备质量检验报告扫描图像的表格切片文字识别结果，利用文本纠错模型进行文本纠错，结合切片位置信息还原表格文字布局，得到封闭开关设备质量检验报告扫描图像表格的最终识别结果；

根据表格的位置信息，将表格标题与对应属性值自动记录为键值对信息，针与封闭开关设备的标准信息自动比对，实现检验报告的自动验收。

此外，本发明还提供一种质量检验报告扫描图像表格语义解析***，包括以下模块：

数据处理模块，用于对封闭开关设备质量检验报告扫描图像表格进行图像预处理，包括图像自适应的二值化、噪声去除，识别扫描图像表格的表格线，以表格线交点作为判断依据切分表格，并记录每份切片所处的位置；

文字定位和识别模块，用于构建多方向文字定位模型实现切分表格的文字定位，设计带角度信息的倾斜候选框，实现对不同扫描角度的质量检验报告的文字定位；

文字纠错模块，对于识别后的文字部分，利用预训练的RNN模型进行表格文字的语义解析，构建针对封闭开关设备质量检验报告的快速文本修正模型；

数据输出模块，利用训练好的文本修正模型，结合切片位置信息还原表格文字布局，得到封闭开关设备质量检验报告扫描图像表格的最终识别结果；根据表格切片的位置信息，将表格标题与对应属性值自动记录为键值对信息，与标准化信息进行比对，实现封闭开关设备的自动验收。

与现有技术相比，本发明具有的优点和有益效果：

1)利用表格线识别定位文字，去除扫描文档的阴影干扰；

2)实现了倾斜文本和多尺度文本的检测；

3)可对文本识别的错字错词实现自动纠错。

附图说明

图1为本发明流程示意图；

图2为步骤2所述RRPN框架结构；

图3为步骤3所述DenseNet卷积神经网络框架结构；

图4为实例中获得的原始数据；

图5为实例中处理后数据。

具体实施方式

本发明基于RRPN目标识别模型、DenseNet卷积神经网络、RNN序列模型，提出一种质量检验报告扫描图像表格语义解析方法与***。通过本方法，可以将扫描图像表格的文本数据提取出来并加以纠错。

本发明提供的方法能够使用计算机软件技术实现流程，参见图1。实施例以一份封闭开关设备质量检验报告扫描图像表格为例对本发明的流程进行一个具体的阐述，如下：

1)对质量检验报告扫描图像表格进行图像预处理；

2)对质量检验报告扫描图像不同角度切分表格的文字进行定位与识别；

3)对质量检验报告扫描图像文字识别结果语义解析与纠错，得出结果；

实现该实例的质量检验报告扫描图像表格进行图像预处理，方法如下，

1-1)如图2所示的封闭开关设备质量检验报告图像表格中清晰度不够高，且扫描图像颜色偏灰，需首先对扫描图像进行图像自适应的二值化、噪声去除等处理。

1-2)得到处理后的扫描图像进行表格线的识别，识别图像中的所有竖线，设定距离阈值，将在距离阈值内的竖线视为同一竖线，取坐标最高最低点作为竖线的起点和结点坐标；同理识别所有横线，定距离阈值，将在距离阈值内的横线视为同一横线，取坐标最左最右点作为竖线的起点和结点坐标，得到扫描表格的所有表格线；

1-3)得到表格线后计算所有横竖线的交点坐标，遍历除最右和最下面两条线上的所有交点，记遍历当前点为点A，记A点右侧和下方的点为B和C，若能找到成立矩形的第四个点D，则构成矩形切片，否则继续遍历，得到所有矩形切片即为所有表格切片；

实现该实例质量检验报告扫描图像不同角度切分表格的文字定位与识别，方法如下，

2-1)基于RRPN目标识别模型设计多方向文字定位模型，整体网络分为三个部分，第一部分使用VGG网络对表格切片提取图像特征，第二部分在图像特征矩阵中生成带倾斜角的文本候选区域，第三部分设计损失函数，实现对不同扫描角度的质量检验报告的文字定位。整体结构如图2所示。

设计文本区域的表现形式为：(x,y,w,h,θ)。其中(x,y)表示文本区域的几何中心点坐标，(w,h)分别表示文本区域的长边和短边，θ表示文本区域长边与x正轴的夹角，通过θ+kπ将θ的范围控制在

之间。

2)选择三个比例分别为1:3,1:5,1:8；3)选择三个大小，分别为8，16，32像素。对于H×W的特征图上的每一个点共生成六个方向，三个宽高比，三个大小，一共54×H×W个Anchor。

第二部分损失函数设计如下，

L(p,l,v^*,v)＝L_cls(p,l)+λlL_reg(v^*,v)

其中参数l表示类别(其中对于文本l＝1，对于背景l＝0)，参数p为softmax函数计算的类的概率，λ为平衡参数，v表示预测的文本区域，v^*表示真实的文本区域。

在本实验中，类别l的分类损失定义如下，

L_cls(p,l)＝-logp_l

其中p_l为类别l的softmax函数计算的概率。

边界回归的损失定义如下，

其中，i为由{x,y,w,h,θ}表示的一个文本区域。

在本实验中，对于该部分网络采用单独训练的方式，选取IoU大于0.7且与真实框夹角小于

2-2)基于DenseNet构建文字识别模型对定位文字进行识别；设输入图像为x₀，第i层输出记为x_i。输入图像经过了1个卷积层，2个Dense Block，每个Dense Block之间含有1*1的卷积层和2*2的池化层作为过渡层，最后线性连接得到输出分类，通过网络训练得到文字识别模型，实现质量检验报告的切片表格文字识别。整体结构如图3所示。

其中，Dense Block以CNN卷积神经网络作为基础框架，包含五层卷积层，每层都设计了后续层的残差链路，即直接将该层网络特征矩阵传递给后续层。，第i层获得所有前面特征映射作为输入，即

x_i＝H_i([x₀,x₁,x₂…x_i-1])

其中，H_i函数为非线性激活函数，本实验中设计为ReLU函数加一层卷积核为3*3的卷积层。

在本实验中，对于该部分网络采用单独训练的方式，对封闭开关设备质量检验报告扫描图像进行人工单字标注，训练该部分网络以实现对扫描图像的文字识别。

2-3)表格切片的文字识别，基于已经训练好的文字定位模型和文字识别模型，对步骤1生成的扫描图像切片进行识别，得到封闭开关设备质量检验报告扫描图像的所有表格单元的文字识别结果。

实现该实例质量检验报告扫描图像文字识别结果语义解析与纠错，方法如下，

3-1)取步骤2所得文字识别结果，对文字识别的错误结果进行人工标注，其中识别错误数据作为负样本，识别错误的数据进行修改后正确的数据作为正样本。

3-2)词向量word2vec模型可以将自然语言转化为向量表示，而RNN模型可以实现的是序列到序列之间的转化，因此，采用预训练的word2vec模型将文本数据转化为词向量，输入RNN网络，输入为错误数据，输出为修改数据进行网络的训练，得到文本纠错模型。

3-3)对封闭开关设备质量检验报告扫描图像的表格切片文字识别结果，利用文本纠错模型进行文本纠错，结合切片位置信息还原表格文字布局，得到封闭开关设备质量检验报告扫描图像表格的最终识别结果。

3-4)根据表格切片的位置信息，将表格标题与对应属性值自动记录为键值对信息，与标准化信息进行比对，实现封闭开关设备的自动验收。

各模块的具体实现方式与各步骤相应，本发明不予撰述。本实例中原图、输入的扫描图像以及最终识别结果如图4、5所示。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种质量检验报告扫描图像表格语义解析方法，其特征在于，包括以下步骤：

步骤3，基于DenseNet构建文字识别模型对定位文字进行识别，设计卷积层之间的残差连接提高文字的识别率，实现质量检验报告的切片表格文字识别；

2.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法，其特征在于：步骤1中识别扫描图像表格的表格线，以表格线交点作为判断依据切分表格，并记录每份切片所处的位置，其具体实现步骤如下；

计算所有横竖线的交点坐标，遍历除最右和最下面两条线上的所有交点，记遍历当前点为点A，记A点右侧和下方的点为B和C，若能找到成立矩形的第四个点D，则构成矩形切片，否则继续遍历，得到所有矩形切片即为所有表格切片。

3.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法，其特征在于：步骤2中构建多方向文字定位模型实现切分表格的文字定位，其具体实现方式如下，

之间；

2)选择三个比例分别为1:3,1:5,1:8；3)选择三个大小，分别为8，16，32像素；对于H×W的特征图上的每一个点共生成六个方向，三个宽高比，三个大小，一共54×H×W个Anchor；

第三部分损失函数设计如下，

L(p,l,v^*,v)＝L_cls(p,l)+λlL_reg(v^*,v)

类别l的分类损失定义如下，

L_cls(p,l)＝-logp_l

其中p_l为类别l的softmax函数计算的概率；

边界回归的损失定义如下，

其中，i为由{x,y,w,h,θ}表示的一个文本区域。

4.根据权利要求3所述一种质量检验报告扫描图像表格语义解析方法，其特征在于：对于多方向文字定位模型采用单独训练的方式，选取IoU大于0.7且与真实框夹角小于

5.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法，其特征在于：步骤3中基于DenseNet构建文字识别模型对定位文字进行识别，其具体实现方式如下，

x_i＝H_i([x₀,x₁,x₂…x_i-1])

其中，H_i函数为非线性激活函数。

6.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法，其特征在于：步骤4的具体实现方式如下，

7.根据权利要求1所述一种质量检验报告扫描图像表格语义解析方法，其特征在于：步骤5的具体实现方式如下，

8.一种质量检验报告扫描图像表格语义解析***，其特征在于，包括以下模块：