CN111160142A

CN111160142A - 一种基于数值预测回归模型的证件票据定位检测方法

Info

Publication number: CN111160142A
Application number: CN201911287230.XA
Authority: CN
Inventors: 王刚; 严骏驰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-12-14
Filing date: 2019-12-14
Publication date: 2020-05-15
Anticipated expiration: 2039-12-14
Also published as: CN111160142B

Abstract

本发明涉及一种基于数值预测回归模型的证件票据定位检测方法，该方法包括如下步骤：(1)获取训练样本；(2)构建数值预测回归模型，所述的数值预测回归模型包括串联的轻量神经网络和空间变换网络，所述的轻量神经网络输入为待定位图像，输出为特征卷积图，所述的空间变换网络输入为所述的特征卷积图，输出为待检测图像中证件票据四个关键点的坐标；(3)设计损失函数；(4)利用步骤(1)的训练样本训练数值预测回归模型；(5)将待定位图像输入至训练好的数值预测回归模型，获取待检测图像中证件票据四个关键点的坐标；(6)根据证件票据四个关键点的坐标圈选出证件票据图像。与现有技术相比，本发明结果准确可靠。

Description

一种基于数值预测回归模型的证件票据定位检测方法

技术领域

本发明涉及一种证件票据定位检测方法，尤其是涉及一种基于数值预测回归模型的证件票据定位检测方法。

背景技术

对于复杂场景下证件票据位置的检测经过了如下发展：

传统图像处理技术，通常指2010年之前对于证件或汽车车牌识别的方法：霍夫检测。霍夫检测是图像处理中从图像中识别几何形状的基本方法之一，应用很广泛，也有很多改进算法。主要用来从图像中分离出具有某种相同特征的几何形状(如，直线，圆等)。最基本的霍夫检测是从黑白图像中检测直线(线段)通常以图像物体本身的特征入手，由于我们的证件票据原本是基本的矩形图案，因此我们可以这个先验信息为基础，识别出其边缘信息，然后再通过投射变换还原图像。其具体做法为：首先对图像采取预处理，对图像进行二值化处理(Image Binarization)，就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。在图像二值化后，采用边缘检测算法，这里以Canny算法为例，Canny方法不容易受噪声干扰，能够检测到真正的弱边缘。优点在于，使用两种不同的阈值分别检测强边缘和弱边缘，并且当弱边缘和强边缘相连时，才将弱边缘包含在输出图像中。经过一系列处理后，通过霍夫检测(Hough)得到卡片的边缘直线，它是图像处理中的一种特征提取技术，它通过一种投票算法检测具有特定形状的物体。该过程在一个参数空间中通过计算累计结果的局部最大值得到一个符合该特定形状的集合作为霍夫变换结果。霍夫变换于1962年由Paul Hough首次提出，后于1972年由Richard Duda和Peter Hart推广使用，经典霍夫变换用来检测图像中的直线。最后，得到证件票据边缘直线后，由于证件票据在平面黑白图像中是由四条线段组成，我们可以通过检测出的直线以及其交点，来检测出我们的证件票据所在的位置。

当深度学习技术蓬勃发展后，出现了一系列优秀的目标检测算法，如RCNN系列算法、Yolo系列算法，在此，以Yolo算法为例：Yolo算法基于深度学习，并以Google的Inception为启发，设计自己的检测网络架构。Yolo的就按测网络架构有24个卷积层，其次是2个全连接层。交替1x1卷积层减少了前面层的特征空间。它在ImageNet分类任务上以一半的分辨率(224x224的输入图像)预训练卷积层，然后将分辨率加倍来进行检测，网络的最终输出是7x7x30的预测张量。

采用传统图像算法霍夫检测来识别证件票据的定位问题，计算量少，但同时也带来了鲁棒性差，需要人工干预过多的问题。基于深度学习的Yolo等目标检测算法通过数据集标注学习解决了需人工干预和鲁棒差的问题，但所检测出来的区域，包含无效背景过多，且不包含角度等信息。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于数值预测回归模型的证件票据定位方法。

本发明的目的可以通过以下技术方案来实现：

一种基于数值预测回归模型的证件票据定位检测方法，该方法包括如下步骤：

(1)获取训练样本；

(2)构建数值预测回归模型，所述的数值预测回归模型包括串联的轻量神经网络和空间变换网络，所述的轻量神经网络输入为待定位图像，输出为特征卷积图，所述的空间变换网络输入为所述的特征卷积图，输出为待检测图像中证件票据四个关键点的坐标；

(3)设计损失函数；

(4)利用步骤(1)的训练样本训练数值预测回归模型；

(5)将待定位图像输入至训练好的数值预测回归模型，获取待检测图像中证件票据四个关键点的坐标；

(6)根据证件票据四个关键点的坐标圈选出证件票据图像。

步骤(1)具体包括：

(11)采集一些仅含单张证件票据的图像作为原始数据；

(12)标注能定位证件票据的四个关键点并获取其坐标并存储作为训练样本；

(13)训练样本扩增：对原始数据进行处理获取新的样本图像并重复步骤(12)。

所述的四个关键点包括左上角、右上角、左下角和右下角四个点。

轻量神经网络输出的特征卷积图包括待检测图像中证件票据四个关键点的特征卷积图。

空间变换网络通过如下方式获得待检测图像中证件票据四个关键点的坐标：

(21)对特征卷积图进行归一化处理获取高斯热图矩阵Z，Z_ij为高斯热图第i行第j个像素点对应的数值，且满足：

其中，m为高斯热图纵向像素点个数，n为高斯热图横向像素点个数；

(22)获取与Z矩阵相同维数的转换矩阵X、Y，矩阵X、Y中第i行第j个像素点的数值为X_ij、Y_ij：

X_ij＝2j-(n+1)/n，

Y_ij＝2j-(m+1)/m；

(23)基于Z、X和Y矩阵求取关键点的坐标。

步骤(23)求取关键点的坐标(x，y)的计算公式为：

所述的损失函数为：

L(d)＝JS(P_r||P_f)，

其中，L(d)为损失函数，d为高斯热图中像素点对应的数值，P_r为真实高斯热图下d的概率分布，P_f为步骤(21)获取的高斯热图下d的概率分布，KL是指KL散度，JS是指JS散度，||表示数据差异运算符，

表示服从P_r的数学期望。

步骤(6)还包括对圈选出的图像采用仿射变换方式获得与证件票据原尺寸大小相同的证件票据图像。

与现有技术相比，本发明具有如下优点：

(1)本发明能够基于标注的数据集自动学习预测证件票据的位置信息，几乎不包含无效背景，同时能够根据预测出的关键点得出证件票据图像，定位准确可靠；

(2)本发明数值预测回归模型为全微分的结构，实现了模型的端到端训练，结构简单清晰，搭建模型速度高效；

(3)本发明内存占用减少、推理和训练速度快。

附图说明

图1为本发明数值预测回归模型的结构框图；

图2为证件票据定位检测方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

步骤1：获取训练样本，具体包括：

(11)采集一些仅含单张证件票据的图像作为原始数据；

其中，四个关键点包括左上角、右上角、左下角和右下角四个点，在获取训练样本过程中始终标注证件票据的左上角为第一个关键点，右上角为第二个关键点，左下角为第三个关键点，右下角为第四个关键点。

步骤2：构建数值预测回归模型，如图1所示，数值预测回归模型包括串联的轻量神经网络和空间变换网络，所述的轻量神经网络输入为待定位图像，输出为特征卷积图，所述的空间变换网络输入为所述的特征卷积图，输出为待检测图像中证件票据四个关键点的坐标。其中，轻量神经网络输出的特征卷积图包括待检测图像中证件票据四个关键点的特征卷积图。

X_ij＝2j-(n+1)/n，

Y_ij＝2j-(m+1)/m；

(23)基于Z、X和Y矩阵求取关键点的坐标。

步骤(23)求取关键点的坐标(x，y)的计算公式为：

步骤3：设计损失函数：

L(d)＝JS(P_r||P_f)，

其中，L(d)为损失函数，d为高斯热图中像素点对应的数值，P_r为真实高斯热图下d的概率分布，P_f为步骤(21)获取的高斯热图下d的概率分布，KL是指KL散度(Kullbakc-Leibler divergence)，JS是指JS散度，||表示数据差异运算符，

表示服从P_r的数学期望。训练过程中尽可能最小化损失函数L(d)，也就是尽可能减少步骤(21)获取的高斯热图和真实高斯热图之间差异，达到预测结果。

步骤4：利用步骤1的训练样本训练数值预测回归模型，具体地：

(41)将数据集和标签放入指定文件夹中；

(42)依据我们构建好的模型，分批选择图像进行训练

(43)可以选择多个参数样本进行训练，然后选择其中训练结果较好的一个模型作为我们的结果模型

步骤5：将待定位图像输入至训练好的数值预测回归模型，获取待检测图像中证件票据四个关键点的坐标；

步骤6：根据证件票据四个关键点的坐标圈选出证件票据图像，最后对圈选出的图像采用仿射变换方式获得与证件票据原尺寸大小相同的证件票据图像，仿射变换是一种图像二维坐标到二维坐标之间的线性变换，变换后直线还是直线不会打弯，圆弧还是圆弧。我们根据该变换可以将检测得到的证件票据图像还原到合适的尺寸。

综上，如图2所示，给出一张待定位图像，经过如下步骤S1～S5获得定位的证件票据图像：

S1：获取待定位图像；

S2：待定位图像经轻量神经网络处理后获得四个关键点的特征卷积图；

S3：分别对四个关键点的特征卷积图进行归一化处理获取四个关键点对应的高斯热图；

S4：分别对高斯热图变换获取四个关键点的坐标；

S5：根据四个关键点的坐标圈选出证件票据图像，并进行仿射变换处理得到与证件票据原尺寸大小相同的证件票据图像。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。