CN113255659A

CN113255659A - 一种基于MSAFF-Yolov3的车牌校正检测识别方法

Info

Publication number: CN113255659A
Application number: CN202110103233.4A
Authority: CN
Inventors: 王堃; 戴旺; 刘耀辉
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-08-13
Anticipated expiration: 2041-01-26
Also published as: CN113255659B

Abstract

本发明公开了一种基于MSAFF‑Yolov3的车牌校正检测识别方法。属于深度学习和车牌识别领域，具体步骤：采集图像，将图像输入到设计的自适应多尺度融合的MSAFF‑Yolov3网络；将输入的车牌区域进行检测，检测其是否出现扭曲的情况；引入一个含有LSTM的BRNN网络，对特征序列中的每个特征执行BLSTM处理，将整个特征序列转换成一个数组；将CTC布置在BRNN的输出层，将预测概率数组解码成输出标签值，将数组转换成字符串。本发明通过在特征提取中使用MSAFF‑Yolov3网络以及校正网络同时在字符识别中引入长短时记忆网络，有效的检测识别复杂车牌，具有收敛快、识别迅速、准确率高的优点。

Description

一种基于MSAFF-Yolov3的车牌校正检测识别方法

技术领域

本发明涉及深度学习和车牌识别领域，具体涉及一种基于MSAFF-Yolov3 的车牌校正检测识别方法。

背景技术

随着机器学习的不断发展，针对各种数据的不同网络结构被相继构造成深度结构来解决各种各样的实际问题，例如，卷积神经网络(Convolutional Neural Network，CNN)利用卷积结构模拟视觉神经中的感受区域，非常适合用来解决各种图像处理问题；循环神经网络(Recurrent Neural Network，RNN)加入了反馈连接，因此对时间序列数据具有很好的处理能力。耦合深度卷积网络(Coupled Deep Convolutional Network，CDCN)是无监督变化检测模型，不需要其他的先验信息，通过优化目标函数对网络参数进行训练，得到不同图像的对比信息。

一些与交通有关的应用，如检测失窃车辆、收费控制和停车场进出验证，都涉及车牌识别，受不同光照条件、可视角度、新旧程度及背景光亮等条件影响，不同场景中对于车牌的识别具有相对难度，因为对于非车牌区域的文字提出，车牌区域的正确切割、字符的孤立与识别等都是需要提升的技术空间，其中任何一项的断层都会对整个车牌的识别过程造成困难。

并行处理和深度学习(DL)的最新进展有助于改善计算机视觉任务，如物体检测/识别和光学字符识别(OCR)，这对于车牌识别***的实现具有积极帮助。实际上，深度卷积神经网络(CNNs)已经成为应用于车牌检测的领先深度学习技术。

一般来说，车牌检测可以分为三个步骤：牌照定位、牌照字符分割、牌照字符识别。牌照定位自然环境下，汽车图像背景复杂、光照不均匀，如何在自然背景中准确地确定牌照区域是整个识别过程的关键。首先对采集到的视频图像进行大范围相关搜索，找到符合汽车牌照特征的若干区域作为候选区，然后对这些侯选区域做进一步分析、评判，最后选定一个最佳的区域作为牌照区域，并将其从图像中分离出来。牌照字符分割完成牌照区域的定位后，再将牌照区域分割成单个字符，然后进行识别。字符分割一般采用垂直投影法。由于字符在垂直方向上的投影必然在字符间或字符内的间隙处取得局部最小值的附近，并且这个位置应满足牌照的字符书写格式、字符、尺寸限制和一些其他条件。利用垂直投影法对复杂环境下的汽车图像中的字符分割有较好的效果。牌照字符识别方法主要有基于模板匹配算法和基于人工神经网络算法。基于模板匹配算法首先将分割后的字符二值化并将其尺寸大小缩放为字符数据库中模板的大小，然后与所有的模板进行匹配，选择最佳匹配作为结果。基于人工神经网络的算法有两种：一种是先对字符进行特征提取，然后用所获得特征来训练神经网络分配器；另一种方法是直接把图像输入网络，由网络自动实现特征提取直至识别出结果。但是在多变的角度和场景(光线)下车牌往往是倾斜的，导致识别的效果并不如意。因此，如何设计一个识别算法和校正倾斜角度的车牌网络使得整体***识别率和准确率得到提高是很有必要的。

发明内容

针对上述问题，本发明提供了一种基于MSAFF-Yolov3的车牌校正检测识别方法，其专注于无约束的场景，其中车牌图像可能由于倾斜视角而存在严重的失真。本专利的主要贡献是引入了一种新颖的自适应多尺度融合的Yolov3网络 (MSAFF-Yolov3)，该网络能够更加准确快速提取车牌特征图，使得整个***更加快速高效。检测出车牌后又将扭曲的车牌送入校正网络COD-NET将扭曲车牌校正为正常车牌大大提高了识别的准确率，这些校正过的车牌可以通过光学字符识别(OCR)方法以获得最终结果。

本发明的技术方案是：一种基于MSAFF-Yolov3的车牌校正检测识别方法，在MSAFF-Yolov3网络下对车牌的目标检测、校正网络中对扭曲车牌的校正、 OCR算法中对车牌字符的识别三个部分，具体操作步骤如下：

步骤(1)：采集图像，并将采集到的图像输入到设计的自适应多尺度融合的MSAFF-Yolov3网络中，对车牌区域的特征区域进行提取；

步骤(2)：将输入的车牌区域进行检测，检测其是否出现扭曲的情况；

如出现扭曲，则通过校正目标检测网络对扭曲的车牌进行校正，再利用CNN 对车牌符号进行特征提取；

如未出现扭曲，则直接利用CNN对车牌符号进行特征提取；

步骤(3)：为增加前后文字符的双向接收和处理能力，引入一个含有LSTM 的BRNN网络，从而对特征序列中的每个特征执行BLSTM处理，最终将整个特征序列转换成一个数组；

步骤(4)：将CTC布置在BRNN的输出层，将预测概率数组解码成输出标签值，将数组转换成字符串。

进一步的，在所述步骤(1)中，

设计的自适应多尺度融合的MSAFF-Yolov3网络能够对车牌进行更精准的检测，该网络将所有输出尺度的特征进行融合，其具体操作步骤如下：

步骤(1.1)：自适应多尺度融合利用路径层和亚像素卷积层通过在不同通道中重新排列特征调整特征图的大小；

其中，所述路径层和亚像素卷积层通过不同的通道特征重新排列到一个通道来对特征图进行采样，

所述亚像素卷积层从H×W×r²C改变为rH×rW×C；

上式中，H、W和C分别表示特征图的高度，宽度和通道，r表示特征图的比例；

所述路径层通过相邻的特征叠加到不同的通道中来对特征图进行采样；路径层将特征图从rH×rW×C改变为H×W×r²C；

步骤(1.2)：每个尺度下的特征图调整大小；

设

表示特征图(i,j)位置的特征，n-l表示特征图从n缩放为l；

定义

为特征图大小为n在(i,j)位置上特征的权重，

首先，使用一个1×1的卷积块去学习

到

的映射关系，然后使用Softmax函数计算每个训练轮次的权重，每次训练权重必须符合以下(1)和(2) 公式；

式(1)中，N表示网络中尺度的数量；

式(2)中，

表示不同尺度下特征图各个位置特征的重要性，其中，大尺度的特征包含更多的上下文信息，小尺度的特征包含更多的具体信息；

根据公式(3)重新在每个尺度上加权了特征图，自动调整不同尺度下特征的重要性；

式(3)中，

表示重新加权的特征图，

表示是从空间角度关注目标；自适应特征融合通过连接每个尺度上的

来执行特征融合；

接着，使用全局池得到网络的全局接受域，使用Relu激活层来学习不同通道之间的非线性关系，使用Sigmoid函数来产生每个通道的权值集合；

最后，通过信道方向的乘法重新确定特征图的权重；网络能够学习自适应的信道特征，从信道特征的角度关注目标；

步骤(1.3)：将带有注意力机制的自适应融合尺度与Yolov3相融合，Yolov3 使用Darknet53进行特征提取，其在3个尺度上检测不同大小的目标；

利用路径层和亚像素卷积层调整Yolov3在各个尺度下的特征映射大小；

在尺度1中，利用两个亚像素卷积层(r＝2和r＝4)对低分辨率的特征图进行上采样；在尺度2中，利用亚像素卷积层(r＝2)对低分辨率的特征图进行上采样，采用路径层(r＝2)对低分辨率的特征图进行下采样；在尺度3中，使用两个路径层 (r＝2和r＝4)对高分辨的特征图进行下采样，然后利用注意力机制进行特征融合，学习不同尺度下通道特征与空间特征；最后在将检测结果进行1×1卷积；

步骤(1.4)：设计新的损失函数，GIOU反映预测边界盒和ground truth，GIOU 由以下公式计算：

式(4)中，B_GT表示ground truth的边界框，B_P表示预测的边界框，B表示B_GT和B_P的最小封闭凸面，GIOU loss由下面公式计算：

Focal loss被用来预测目标的置信度，Focal loss能够降低简单样例的相对损失，而对困难样则更加重视，置信度的focal loss如下述公式所示：

Loss_conf＝-(y_GT-y_p)^γ×[y_GTlogy_p-(1-y_GT)log(1-y_p)] (6)

式(6)中，y_GT表示ground truth的置信度，y_p表示预测的置信度，γ设置为 2；

利用二元交叉熵损失来预测目标的类别；如下式所述：

Loss_cls＝C_GTlogC_p-(1-C_GT)log(1-C_p) (7)

式(7)中，C_GT表示ground truth的种类，C_p表示预测的种类，最终损失函数定义如下式所述：

式(8)中，n表示网络的尺度。

进一步的，在步骤(2)中，

对于扭曲车牌的校正目标检测网络，其中包括以下步骤：

步骤(2.1)、设计的架构共有21个卷积层，其中14个包含在残差块；

所有卷积滤波器的大小固定为3×3；除检测块外，整个网络中都使用ReLU 激活函数；有4个最大池，大小为2×2，步幅2，可将输入维数降低16倍；

最后，检测块包括两个平行的卷积层：(i)、一个用于推断由softmax函数激活的概率值；(ii)、另一个用于回归仿射参数而没有激活函数；

步骤(2.2)、车牌检测并调整大小后的图像H*W输出尺寸为M*N*8，M＝H/16, N＝W/16，预测是否包含车牌的概率和仿射变换系数；

损失函数：令p_i＝[x_i,y_i]^T,i＝1,…,4表示标注的车牌的四个角，从左上角开始顺时针表示；

另：

q1＝[-0.5,-0.5]^T,q2＝[0.5，-0.5]^T，q3＝[0.5,0.5]^T，q3＝[0.5，0.5]^T，q4＝ [-0.5，0.5]^T表示以小格中心为原点的标准单位坐标系的顶点；

对于高度为H和宽度为W的输入图像，及由N_S＝16给出的网络步幅，网络输出特征图大小为M×N×8，其中，M＝H/N_s且N＝W/N_S；

对于特征图中的每个点(m,n)，都要估计八个值：前两个值v1，v2表示有无目标的概率，后面六个值v3～v8用于构建仿射变换矩阵T_mn:

式(9)中，对v3和v6使用了最大函数以确保对角线为正；

步骤(2.2)、通过网络步幅的倒数重新缩放点p_i，并根据特征图中的每个点(m，n)重新进行中心化，其通过应用归一化函数完成，如下式所述：

式(10)中，α表示虚构正方形一侧的缩放常数，设置为7.75；p表示车牌相对于车辆原图的真实位置除以网络步幅N_s，减去(m，n)，除以平均大小α后，得到以小格中心为原点并缩小后的矩形框A_mn(p)。

进一步的，在步骤(3)中，所述车牌字符识别步骤如下：

步骤(3.1)、首先，通过一个CNN网络对裁剪后的车牌图像进行特征提取，提取过程采用了滑动窗口的方式；

然后，对于每一张待检车牌，都将其转换为灰度图像，并重塑为CNN网络24 像素的输入高度；之后使用24*24像素的子窗口分割该图像，步长为1；对完成分割的每幅图像输入CNN网络，在第四个卷积层提取4*4*256维度的特征，并在第一个全连接层的输出中得到1000个特征；

最后，将上述两种特征向量进行结合，从而得到包含图像的本地和全局信息；

步骤(3.2)、通过上述操作，候选车牌的特征按从左至右的顺序被子窗口提取出来，并得到了一个特征序列数组Arr＝{x₁,x₂,…,x_L}；

式中，L表示子窗口的数量，x属于256个维度的集合；

步骤(3.3)、引入了LSTM克服梯度消失或梯度***；所述的LSTM包含记忆锁定机制，能够长时间保存文本信息；

引入含LSTM的BRNN网络；在BLSTM网络中有两个彼此独立的隐藏层，其中之一负责处理前向的序列特征，另一个则负责处理后项序列特征；

对每个隐藏层来说，整个LSTM共享超参数；两个隐藏层都连接至同一个输出层，为之提供输入序列的双向信息；如下式所述：

所述序列标记是通过循环地对特征序列中的每个特征执行BLSTM来处理的；每一次状态h_t都根据当前特征x_t及相邻状态h_t-1或h_t+1进行更新；

式(11)中，(f)表示向前递归，(b)表示向后递归；

接这，Softmax层将BLSTM层的状态转换成69个类别的概率分布；额外的第69个分类是为了描述字符间的空格；整个特征序列最终转换成一个与输入序列长度一致的概率估计值数组p＝{p₁,p₂,…,p_L}：

进一步的，在步骤(4)中，

所述数组解码的操作步骤如下:将CTC布置在BRNN的输出层之后；其目标函数定义为如下公式：

θ＝-∑_(c,z∈S)lnP(z|c) (12)

式(12)中，S表示训练数据集；P(z|c)表示在输入为c时获得目标序列z 的条件概率；CTC的输入数据c恰为BLSTM的输出P，且符合下式：

P(z|c)＝∑_π:B(π)＝zP(π|P) (13)

式(13)中，运算B表示用来移除重复标签及空格标签；

序列解码的目标就是找到符合BLSTM输出序列中最大概率的近似最优路径π：

本发明的有益效果是：本发明通过构建MSAFF-Yolov3与校正网络来实现对不同车牌检测的***。在本发明文本中，本发明文本为无约束的场景提出了一个完整的深度学习车牌检测识别***。实验的结果表明，所提出的方法在具有挑战性的数据集中优于现有方法，其中包含在强倾斜视图处捕获的车牌，同时在更受控制的数据集中保持良好结果。本发明的主要贡献是引入了一种新型校正网络，该网络允许通过为每个检测单元生成仿射变换矩阵来检测和解除失真的车牌与构建了MSAFF-Yolov3网络更加准确快速的识别车牌。

附图说明

图1是本发明中整体结构流程图；

图2是本发明中MSAFF-Yolov3结构流程图；

图3是本发明的COD-NET的网络结构示意图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

如图所述；一种基于MSAFF-Yolov3的车牌校正检测识别方法，在 MSAFF-Yolov3网络下对车牌的目标检测、校正网络中对扭曲车牌的校正、OCR 算法中对车牌字符的识别三个部分，具体操作步骤如下：

步骤(1)：采集图像，并将采集到的图像输入到设计的自适应多尺度融合的MSAFF-Yolov3网络中，对车牌区域的特征区域进行提取，且将车牌区域进行裁剪并作为车牌识别的输入；

如未出现扭曲，则直接利用CNN对车牌符号进行特征提取；

步骤(3)：对上述调整后的图像通过一个CNN网络进行特征提取，为了增加前后文字符的双向接收和处理能力，引入一个含有LSTM的BRNN网络，从而对特征序列中的每个特征执行BLSTM处理，最终将整个特征序列转换成一个数组；

进一步的，在所述步骤(1)中，

步骤(1.1)：自适应多尺度融合利用路径层和亚像素卷积层通过在不同通道中重新排列特征调整特征图的大小，更好的学习复杂的特征映射；

所述亚像素卷积层可以从H×W×r²C改变为rH×rW×C；

所述路径层通过相邻的特征叠加到不同的通道中来对特征图进行采样；路径层将特征图从rH×rW×C改变为H×W×r²C，；网络可以隐式的、自动的学习特征映射的过程；

步骤(1.2)：自适应多尺度融合利用注意力机制来学习不同尺度下通道特征的相关性以及空间特征的重要性，每个尺度下的特征图都被亚像素层和路径层调整了大小，为了了解不同尺度下空间特征的重要性；

设

表示特征图(i,j)位置的特征，n-l表示特征图从n缩放为l；

定义

为特征图大小为n在(i,j)位置上特征的权重，

首先，使用一个1×1的卷积块去学习

到

式(1)中，N表示网络中尺度的数量；

式(2)中，

式(3)中，

表示重新加权的特征图，

来执行特征融合；

接着，使用全局池得到网络的全局接受域，两个完全连接的层被用来减少和提高通道的尺寸，使用Relu激活层来学习不同通道之间的非线性关系，使用 Sigmoid函数来产生每个通道的权值集合；

最后，权值反映了信道之间的相关性，通过信道方向的乘法重新确定特征图的权重；网络能够学习自适应的信道特征，从信道特征的角度关注目标；

步骤(1.3)：将带有注意力机制的自适应融合尺度与Yolov3相融合，Yolov3 使用的是Darknet53进行特征提取，其在3个尺度上检测不同大小的目标；

利用路径层和亚像素卷积层调整Yolov3在各个尺度下的特征映射大小；各尺度特征图的大小调整过程如表一所示；

表1各尺度下特征图的大小调整过程；

步骤(1.4)：设计新的损失函数使得MSAFF-Yolov3具有更强的自适应能力， GIOU反映预测边界盒和ground truth，GIOU由以下公式计算：

Loss_conf＝-(y_GT-y_p)^γ×[y_GTlogy_p-(1-y_GT)log(1-y_p)] (6)

利用二元交叉熵损失来预测目标的类别；如下式所述：

Loss_cls＝C_GTlogC_p-(1-C_GT)log(1-C_p) (7)

式(8)中，n表示网络的尺度。

进一步的，在步骤(2)中，对于扭曲车牌的校正目标检测网络(COD-Net)，其中包括以下步骤：

最后，检测块包括两个平行的卷积层：(i)、一个用于推断由softmax函数激活的概率值；(ii)、另一个用于回归仿射参数而没有激活函数(或等效地，使用恒等函数F(x)＝x作为激活函数)；

步骤(2.2)、车牌检测并调整大小后的图像H*W(图像的高度，宽度)输出尺寸为M*N*8，M＝H/16,N＝W/16，预测是否包含车牌的概率(2个)和仿射变换系数(6个)；OD-NET相当于把原图分成了M*N个格子，每个格子以点单元 (m，n)为中心单元格虚构的平方区域，如果包含车牌的概率大于阈值，则用仿射变换系数将单元格仿射变换成LP，从而得到车牌的4个角坐标，再经过透视变换将不规则的车牌校正；

损失函数：令p_i＝[x_i，y_i]^T,i＝1,…,4表示标注的车牌的四个角，从左上角开始顺时针表示；

另： q1＝[-0.5，-0.5]^T,q2＝[0.5,-0.5]^T,q3＝[0.5,0.5]^T,q3＝[0.5,0.5]^T,q4＝ [-0.5,0.5]^T表示以小格中心为原点的标准单位坐标系的顶点；

对于高度为H和宽度为W的输入图像，以及由N_S＝16(四个最大池化层)给出的网络步幅，网络输出特征图大小为M×N×8，其中M＝H/N_s并且 N＝W/N_S；

对于特征图中的每个点(m,n),都要估计八个值：前两个值v1,v2表示有无目标的概率，后面六个值v3～v8用于构建仿射变换矩阵T_mn:

式(9)中，对v3和v6使用了最大函数以确保对角线为正(避免不期望的镜像或过度旋转)；

步骤(2.2)、为了匹配网络的输出分辨率，通过网络步幅的倒数重新缩放点 p_i，并根据特征图中的每个点(m,n)重新进行中心化，其通过应用归一化函数完成，如下式所述：

式(10)中，α表示虚构正方形一侧的缩放常数，设置为7.75；这是增强训练数据中最大和最小车牌维度除以网络步幅之后的平均值；p表示车牌相对于车辆原图的真实位置(以原图左上角为原点)除以网络步幅N_s，减去 (m,n)，除以平均大小α后，得到以小格中心为原点并缩小后的矩形框A_mn(p)；

假设在位置(m,n)处有一个车牌，损失函数的第一部分是考虑标准正方形的仿射版本与车牌的标准化标注之间的误差，表示为：

损失函数的第二部分处理在(m,n)处具有/不具有对象的概率。它类似于SSD 置信度损失，基本上是两个对数损失函数的和：

f_probs(m,n)＝logloss(Ⅱ_obj,v1)+logloss(1- Ⅱ_obj,v2)

其中，Ⅱ_obj为目标指示函数，如果在点(m,n)处包含目标，则该函数值为1，否则为0；logloss(y,p)＝-ylog(p)；如果一个目标的矩形边界框与任一个同样大小，中心点为(m,n)的矩形框之间的IOU大于γ_obj(根据经验设置为0.3)，则该目标被认为是在点(m,n)内部；最终的损失是定位损失和分类损失的和:

进一步的，在步骤(3)中，所述车牌字符识别步骤如下：

式中，L表示子窗口的数量，x属于256个维度的集合；这样不仅保留了信息的原始顺序，还获取了高效的上下文信息便于RNN的后续处理；

步骤(3.3)、为了克服RNN训练过程中可能出现的梯度消失或梯度***问题，引入了LSTM(长短期记忆)克服梯度消失或梯度***；所述的LSTM包含记忆锁定机制，能够长时间保存文本信息；

引入含LSTM的BRNN(BLSTM)网络；在BLSTM网络中有两个彼此独立的隐藏层，其中之一负责处理前向的序列特征，另一个则负责处理后项序列特征；

式(11)中，(f)表示向前递归，(b)表示向后递归；

接着，Softmax层将BLSTM层的状态转换成69个类别(10个数字，24个字母和34个汉字)的概率分布；额外的第69个分类是为了描述字符间的空格；整个特征序列最终转换成一个与输入序列长度一致的概率估计值数组 p＝{p₁,p₂,…,p_L}：

在步骤(4)中，

所述数组解码的操作步骤如下:将CTC布置在BRNN的输出层之后；CTC 是一种特别为不需要数据预分割而设计的序列分类方法，它直接将预测概率数组解码为输出标签值；其目标函数定义为如下公式：

θ＝-∑_(c,z∈S)lnP(z|c) (12)

P(z|c)＝∑_π:B(π)＝zP(π|P) (13)

式(13)中，运算B表示用来移除重复标签及空格标签；例如B(a-a- b-)＝B(-aa--ab-b)＝(aab)；网络得到充分有效的训练后，序列解码的目标就是找到符合BLSTM输出序列中最大概率的近似最优路径π：

实施例一：

本发明实施例提供了一种基于MSAFF-Yolov3的车牌校正检测识别方法，利用设计的自适应多尺度融合的MSAFF-Yolov3网络，进行对车牌区域的特征区域的提取，将车牌区域进行裁剪并作为车牌识别的输入；将输入的车牌区域包括不同扭曲程度的车牌送入校正目标检测网络(COD-Net)进行车牌的校正；通过一个 CNN网络进行特征提取，引入一个含有长短期记忆(LSTM)的双向循环神经网络 (BRNN)网络(BLSTM)，对特征序列中的每个特征执行BLSTM处理，将整个特征序列转换成一个数组；将CTC(Connectionist temporalclassification)算法布置在BRNN的输出层，将预测概率数组解码成输出标签值，将数组转换成字符串。本发明利用现有的三种数据集只在训练阶段使用了标注有车牌位置信息的车辆图片和标注有车牌号码信息的车牌图片，分别训练车牌检测算法和车牌识别算法。在测试阶段，使用完全陌生的车辆图片进行车牌的检测和车牌识别。

本发明实施例提供了一种基于MSAFF-Yolov3的车牌校正检测识别方法，包括如下的处理步骤:

步骤S110、采集图像，并将采集到的图像输入到设计的自适应多尺度融合的MSAFF-Yolov3网络中，通过网络将车牌区域进行特征提取。

自适应多尺度融合利用路径层和亚像素卷积层通过在不同通道中重新排列特征来调整特征图的大小，更好的学习复杂的特征映射。路径层和亚像素卷积层通过不同的通道特征重新排列到一个通道来对特征图进行采样，亚像素卷积层可以从H×W×r²C改变为rH×rW×C。H,W和C代表特征图的高度，宽度和通道， r代表特征图的比例。路径层通过相邻的特征叠加到不同的通道中来对特征图进行采样。路径层可以将特征图从rH×rW×C改变为H×W×r²C，网络可以隐式的、自动的学习特征映射的过程。

自适应多尺度融合利用注意力机制来学习不同尺度下通道特征的相关性以及空间特征的重要性，每个尺度下的特征图都被亚像素层和路径层调整了大小，设计新的损失函数使得MSAFF-Yolov3具有更强的自适应能力。

步骤S120、为了增加前后文字符的双向接收和处理能力，引入一个含有LSTM 的BRNN网络，从而对特征序列中的每个特征执行BLSTM处理，将整个特征序列转换成一个数组；将输入的车牌区域不同扭曲程度的车牌送入校正目标检测网络进行车牌的校正以提高车牌字符识别的准确率。

设计的架构总共具有21个卷积层，其中14个包含在残差块。所有卷积滤波器的大小固定为3×3。除检测块外，整个网络中都使用ReLU激活函数。有4个最大池，大小为2×2，步幅2，可将输入维数降低16倍；最后，检测块有两个平行的卷积层：(i)一个用于推断由softmax函数激活的概率值；(ii)另一个用于回归仿射参数而没有激活函数；车牌检测并调整大小后的图像H*W输出尺寸为M*N*8，M＝H/16,N＝W/16，预测是否包含车牌的概率和仿射变换系数；

损失函数：令p_i＝[x_i，y_i]^T，i＝1，…，4表示标注的车牌的四个角，从左上角开始顺时针表示；

另q1＝[-0.5，-0.5]^T,q2＝[0.5，-0.5]^T,q3＝[0.5,0.5]^T,q3＝[0.5,0.5]^T，q4＝[-0.5,0.5]^T表示以小格中心为原点的标准单位坐标系的顶点；

对于高度为H和宽度为W的输入图像，以及由N_S＝16给出的网络步幅，网络输出特征图大小为M×N×8，其中M＝H/N_s且N＝W/N_S；

对于特征图中的每个点(m,n)，估计八个值：前两个值v1，v2表示有无目标的概率，后面六个值v3～v8用于构建仿射变换矩阵T_mn:

对v3和v6使用了最大函数以确保对角线为正；

通过网络步幅的倒数重新缩放点p_i，并根据特征图中的每个点(m,n)重新进行中心化，其通过应用归一化函数完成，如下式所述：

α表示虚构正方形一侧的缩放常数，设置为7.75；p表示车牌相对于车辆原图的真实位置除以网络步幅N_s，减去(m,n)，除以平均大小α后，得到以小格中心为原点并缩小后的矩形框A_mn(p)；

步骤S130、通过一个CNN网络对裁剪后的车牌图像进行特征提取，提取过程采用了滑动窗口的方式；对于每一张待检车牌，都将其转换为灰度图像，并重塑为CNN网络24像素的输入高度；之后使用24*24像素的子窗口分割该图像，步长为1；对完成分割的每幅图像输入CNN网络，在第四个卷积层提取4*4*256维度的特征，并在第一个全连接层的输出中得到1000个特征；

最后将上述两种特征向量进行结合，从而得到包含图像的本地和全局信息；通过上述操作，候选车牌的特征按从左至右的顺序被子窗口提取出来，并得到了一个特征序列数组Arr＝{x₁,x₂,…,x_L}；

其中L表示子窗口的数量，x属于256个维度的集合；

引入了LSTM克服梯度消失或梯度***；所述的LSTM包含记忆锁定机制，能够长时间保存文本信息；引入了含LSTM的BRNN网络；在BLSTM网络中有两个彼此独立的隐藏层，其中之一负责处理前向的序列特征，而另一个负责处理后项序列特征。对每个隐藏层来说，整个LSTM共享超参数；两个隐藏层都连接至同一个输出层，为之提供输入序列的双向信息；如下式所述：

所述序列标记是通过循环地对特征序列中的每个特征执行BLSTM来处理；每一次状态h_t都根据当前特征x_t及相邻状态h_t-1或h_t+1进行更新；

其中(f)表示向前递归，(b)表示向后递归；

接下来的Softmax层将BLSTM层的状态转换成69个类别的概率分布；额外的第69个分类是为了描述字符间的空格；整个特征序列最终转换成了一个与输入序列长度一致的概率估计值数组p＝{p₁,p₂,…,p_L}：

将CTC布置在BRNN的输出层，将预测概率数组解码成输出标签值，将数组转换成字符串。

综上所述，本发明实施例提出了一种基于MSAFF-Yolov3的车牌校正检测识别方法，利用MSAFF-Yolov3网络对车牌区域进行检测，然后利用COD-Net对车牌进行校正，使得本方法能够进行车牌的校正以提高车牌字符识别的准确率。使用一个含有LSTM的双向循环神经网络(BRNN)网络(BLSTM)，对特征序列中的每个特征执行BLSTM处理，将整个特征序列转换成一个数组,将CTC布置在BRNN的输出层，将预测概率数组解码成输出标签值，将数组转换成字符串。使得该车牌识别方法能够识别不同位数长度的车牌以及提升了识别的准确率。本实施例在四种数据集中训练模型和测试同时还比较了商业***和学术***现有的车牌检测***，对比结果如下表二所示，本专利所用方法在四种数据集中对比其他方法都有所领先；

表2本专利与其他***在四种数据集中的测试

最后，应当理解的是，本发明中所述实施例仅用以说明本发明实施例的原则；其他的变形也可能属于本发明的范围；因此，作为示例而非限制，本发明实施例的替代配置可视为与本发明的教导一致；相应地，本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims

1.一种基于MSAFF-Yolov3的车牌校正检测识别方法，在MSAFF-Yolov3网络下对车牌的目标检测、校正网络中对扭曲车牌的校正、OCR算法中对车牌字符的识别三个部分，其特征在于：具体操作步骤如下：

如出现扭曲，则通过校正目标检测网络对扭曲的车牌进行校正，再利用CNN对车牌符号进行特征提取；

如未出现扭曲，则直接利用CNN对车牌符号进行特征提取；

步骤(3)：为增加前后文字符的双向接收和处理能力，引入一个含有LSTM的BRNN网络，从而对特征序列中的每个特征执行BLSTM处理，最终将整个特征序列转换成一个数组；

2.根据权利要1所述的一种基于MSAFF-Yolov3的车牌校正检测识别方法，其特征在于：在所述步骤(1)中，

所述亚像素卷积层从H×W×r²C改变为rH×rW×C；

步骤(1.2)：每个尺度下的特征图调整大小；

设

表示特征图(i,j)位置的特征，n-l表示特征图从n缩放为l；

定义

为特征图大小为n在(i,j)位置上特征的权重，

首先，使用一个1×1的卷积块去学习

到

的映射关系，然后使用Softmax函数计算每个训练轮次的权重，每次训练权重必须符合以下(1)和(2)公式；

式(1)中，N表示网络中尺度的数量；

式(2)中，

式(3)中，

表示重新加权的特征图，

来执行特征融合；

步骤(1.3)：将带有注意力机制的自适应融合尺度与Yolov3相融合，Yolov3使用Darknet53进行特征提取，其在3个尺度上检测不同大小的目标；

在尺度1中，利用两个亚像素卷积层对低分辨率的特征图进行上采样；在尺度2中，利用亚像素卷积层对低分辨率的特征图进行上采样，采用路径层对低分辨率的特征图进行下采样；在尺度3中，使用两个路径层对高分辨的特征图进行下采样，然后利用注意力机制进行特征融合，学习不同尺度下通道特征与空间特征；最后在将检测结果进行1×1卷积；

步骤(1.4)：设计新的损失函数，GIOU反映预测边界盒和ground truth，GIOU由以下公式计算：