CN109508715B - 一种基于深度学习的车牌定位和识别方法 - Google Patents

一种基于深度学习的车牌定位和识别方法 Download PDF

Info

Publication number
CN109508715B
CN109508715B CN201811281994.3A CN201811281994A CN109508715B CN 109508715 B CN109508715 B CN 109508715B CN 201811281994 A CN201811281994 A CN 201811281994A CN 109508715 B CN109508715 B CN 109508715B
Authority
CN
China
Prior art keywords
layer
license plate
alexnet
convolution
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811281994.3A
Other languages
English (en)
Other versions
CN109508715A (zh
Inventor
闵卫东
李祥鹏
赵浩宇
黄杰
韩清
刘瑞康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN201811281994.3A priority Critical patent/CN109508715B/zh
Publication of CN109508715A publication Critical patent/CN109508715A/zh
Application granted granted Critical
Publication of CN109508715B publication Critical patent/CN109508715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种基于深度学习的车牌定位和识别方法,包括:步骤1,对训练集的车牌区域尺寸应用k‑means++算法处理,选择最佳的候选尺寸,结合到FasterR‑CNN;步骤2,利用FasterR‑CNN训练图片,得到模型;步骤3,输入一张包含车牌的图片,经过卷积处理之后,得到特征图;步骤4,将获取的特征图经过RPN网络输出车牌位置和分数;步骤5,将车牌区域从原图中截取下来;步骤6,截取的车牌区域通过AlexNet‑L网络模型的端对端的卷积神经网络,最终输出车牌上的各个字符,本发明采用基于FasterR‑CNN的方法进行车牌定位,采用AlexNet‑L的端对端的车牌字符识别方法,可以有效地提高对车牌定位和字符识别的准确率。

Description

一种基于深度学习的车牌定位和识别方法
技术领域
本发明涉及车牌识别技术领域,具体为一种基于深度学习的车牌定位和识别方法。
背景技术
车牌识别***(Vehicle License Plate Recognition,VLPR)是指能够检测到受监控路面的车辆并自动提取车辆牌照信息(含汉字字符、英文字母、***数字及号牌颜色)进行处理的技术。车牌识别是现代智能交通***中的重要组成部分之一,应用十分广泛。它以数字图像处理、模式识别、计算机视觉等技术为基础,对摄像机所拍摄的车辆图像或者视频序列进行分析,得到每一辆汽车唯一的车牌号码,从而完成识别过程。通过一些后续处理手段可以实现停车场收费管理,交通流量控制指标测量,车辆定位,汽车防盗,高速公路超速自动化监管、闯红灯电子警察、公路收费站等等功能。对于维护交通安全和城市治安,防止交通堵塞,实现交通自动化管理有着现实的意义。
汽车牌照号码是车辆的唯一“身份”标识,牌照自动识别技术可以在汽车不作任何改动的情况下实现汽车“身份”的自动登记及验证,这项技术已经应用于公路收费、停车管理、称重***、交通诱导、交通执法、公路稽查、车辆调度、车辆检测等各种场合。
现有的基于车牌字符分割的车牌识别方法,绝大多数实验是在理想的环境下进行的。一旦遇到诸如车牌模糊,受光照影响大,车牌倾斜等情况,车牌识别的准确率将会大大地降低。除此之外,车牌字符无法正确分割也将直接影响了车牌字符识别的效果。
发明内容
本发明的目的在于提供一种基于深度学习的车牌定位和识别方法,以解决上述背景技术中提出的问题,本发明利用k-means++算法来选择最佳车牌区域尺寸,结合FasterR-CNN来进行车牌定位,且对AlexNet网络模型进行了改进,设计出基于AlexNet-L的端与端的车牌字符识别方法。
为实现上述目的,本发明提供如下技术方案:一种基于深度学习的车牌定位和识别方法,包括两个方面:基于Faster R-CNN模型的车牌定位和基于AlexNet-L网络模型的端对端的车牌字符识别;
步骤1,对训练集的车牌区域尺寸应用k-means++算法处理,选择最佳的候选尺寸,结合到Faster R-CNN;
步骤2,利用Faster R-CNN训练图片,得到模型;
步骤3,输入一张包含车牌的图片,经过卷积处理之后,得到特征图;
步骤4,将所得的特征图经过全卷积神经网络RPN处理后,得到候选框,将获取的特征图和候选框一起经过ROI pooling处理后进行分类,输出车牌位置和分数;
步骤5,将车牌区域从原图中截取下来;
步骤6,截取的车牌区域通过AlexNet-L网络模型的端对端的卷积神经网络,最终输出车牌上的各个字符。
进一步的,由于中国的车牌区域比例为440cm*140cm,近似为3:1,为了确切地反映各种图片中车牌区域的大小,采用k-means++算法来选定3个比例的长宽比;
k-means++算法需要采用模型预测的候选框和标记的候选框的交叠率(IoU)为指标,IoU的计算方式为:
Figure GDA0003806237480000021
其中,SgroundTruth表示真实的候选框,SanchorBox表示预测的候选框;
k-means++算法得到初始候选框的算法包括以下步骤:
S1:k-means++算法的输入为车牌的长度和宽度
C={d1(x1,y1),d2(x2,y2),…,dn(xn,yn)},以及k个候选框的长宽比;
S2:从C中随机选取一个样本为c1(c1∈C);
S3:对于C中每一个样本,计算每个样本到c1的距离:
d(bi,c1)=1-IoU(bi,c1) (2)
其中i∈(1,2,3,…,n);
S4:计算每个样本选为下一个质心的概率:
Figure GDA0003806237480000031
S5:定义Si
Figure GDA0003806237480000032
S6:生成一个0到1之间的随机数r,判断r属于区域{si-1,si},则bi(xi,yi)是第二个质心;
S7:重复步骤S3~S6,直到得到k个质心。
进一步的,所述Faster R-CNN模型中的RPN网络,其本质上是在卷积神经网络CNN的基础上增加了全卷基层cls和reg层,其中cls层是用来判断候选框是前景还是背景,而reg层是用来微调候选框;
Faster R-CNN的损失函数为:
Figure GDA0003806237480000033
其中,i表示anchor的一个索引,pi是第i个anchor的预测概率,anchor若为正,
Figure GDA0003806237480000034
的值为1,反之,
Figure GDA0003806237480000035
的值为0,ti表示预测边界框的4个参数坐标,
Figure GDA0003806237480000036
表示与正anchor对应的groud-truthbox的坐标向量,分类损失Lcls是2个类别(目标与非目标)的对数损失。
进一步的,所述AlexNet-L网络模型是在AlexNet网络模型基础上的一个改进,AlexNet-L网络模型有九层结构,第一、二层均包含了卷积,池化层和归一化;与AlexNet网络模型不同的是,AlexNet-L网络模型的第一层中池化层和归一化操作的顺序不一样;AlexNet-L网络模型的第三层到第五层用了三个相同的卷积操作;第六层使用了卷积层和池化层,第七层是一个全连接层,第八和第九层采用并列的七个全连接层,分别用来对车牌的各个字符进行识别。
进一步的,所述AlexNet-L网络模型在AlexNet网络模型基础上进行如下几个方面的改进:
①第一层和第二层的改进:
将AlexNet中第一层和第二层中归一化和池化层相互调换顺序,即将AlexNet中归一化1,池化层1以及归一化2,池化层2调换顺序;
②增加卷积层来提高分类效果:
在AlexNet的卷积层3,卷积层4的后面增加一个同样的卷积层;
③全连接层的改进:
车牌的端对端的字符识别为7个字符,将AlexNet的第七层全连接层更改为7个并列的全连接层,分别获取7个字符的特征向量;
④输出层的改进:
由于中国的车牌字符有7个字符,最终的输出应该是7个标签,将AlexNet网络的第八个全连接层更改为并列的7个全连接层,并与前一层7个并列的全连接层分别相连,对于最后一个全连接层,每个类别对应的标签数并不唯一。
进一步的,所述AlexNet-L网络模型的输出层采用Softmax回归函数分类,Softmax公式为:
Figure GDA0003806237480000041
g代表分类数,d是g的训练函数;
AlexNet-L网络模型中卷积操作的计算过程为:
O=(I+2×P-K)/S+1 (7)
其中,O为输出数据的大小(图片的长度或宽度),I为输入数据的大小(图片的长度或宽度),P为pad,表示是否需要在宽度和高度两边填充像素,K为kernel_size,表示卷积和的大小,S为stride,表示步长;
池化层的操作计算过程为:
O=(I-K)/S+1 (8)
其中,各参数的含义跟公式(7)中一样;
AlexNet-L网络中,与每个卷积层相连的激活函数选择用ReLu:
ReLu(x)=Max(x,0) (9)
与现有技术相比,本发明的有益效果是:
本发明采用基于Faster R-CNN的方法进行车牌定位,利用k-means++算法来选取最佳车牌区域,结合Faster R-CNN进行车牌定位,来提高车牌定位的准确率,采用基于AlexNet改进的AlexNet-L的端对端的车牌字符识别方法,一方面可以减少现有的基于车牌字符分割的车牌识别方法中的车牌字符分割结果对车牌字符识别影响;另一方面,还可以提高车牌识别的准确率。
附图说明
图1为本发明基于深度学习的车牌定位和识别框架图;
图2为本发明Faster R-CNN模型图;
图3为本发明k-means++算法结合车牌获取anchors过程图;
图4为本发明9个anchors尺寸图;
图5为本发明AlexNet网络模型结构图;
图6为本发明基于AlexNet-L的车牌字符识别框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
本发明提供一种技术方案:一种基于深度学习的车牌定位和识别方法,包括两个方面:基于Faster R-CNN模型的车牌定位和基于AlexNet-L网络模型的端对端的车牌字符识别,整体算法框架如图1所示;
步骤1,对训练集的车牌区域尺寸应用k-means++算法处理,选择最佳的候选尺寸,结合到Faster R-CNN;
步骤2,利用Faster R-CNN训练图片,得到模型;
步骤3,输入一张包含车牌的图片,经过卷积处理之后,得到特征图;
步骤4,将所得的特征图经过全卷积神经网络RPN处理后,得到候选框,将获取的特征图和候选框一起经过ROI pooling处理后进行分类,输出车牌位置和分数;
步骤5,将车牌区域从原图中截取下来;
步骤6,截取的车牌区域通过AlexNet-L网络模型的端对端的卷积神经网络,最终输出车牌上的各个字符。
现有的Faster R-CNN模型并没有涉及到车牌的相关应用,为此首先从数据集中标定车牌区域,然后将Faster R-CNN应用于获取到的车牌区域数据集之中,最终得到每张车牌图片的候选区域。
进一步的,本发明分析了车牌区域的大小,为了提高训练时收敛速度和车牌定位的准确率,将车牌区域大小结合到Faster R-CNN中,由于中国的车牌区域比例为440cm*140cm,近似为3:1,为了确切地反映各种图片中车牌区域的大小,采用k-means++算法来选定3个比例的长宽比;
k-means++算法需要采用模型预测的候选框和标记的候选框的交叠率(IoU)为指标,IoU的计算方式为:
Figure GDA0003806237480000061
其中,SgroundTruth表示真实的候选框,SanchorBox表示预测的候选框;
k-means++算法结合车牌的处理的过程如图3所示。
k-means++算法得到初始候选框的算法包括以下步骤:
S1:k-means++算法的输入为车牌的长度和宽度
C={d1(x1,y1),d2(x2,y2),…,dn(xn,yn)},以及k个候选框的长宽比;
S2:从C中随机选取一个样本为c1(c1∈C);
S3:对于C中每一个样本,计算每个样本到c1的距离:
d(bi,c1)=1-IoU(bi,c1) (2)
其中i∈(1,2,3,…,n);
S4:计算每个样本选为下一个质心的概率:
Figure GDA0003806237480000071
S5:定义Si
Figure GDA0003806237480000072
S6:生成一个0到1之间的随机数r,判断r属于区域{si-1,si},则bi(xi,yi)是第二个质心;
S7:重复步骤S3~S6,直到得到k个质心。
通过实验,选定k为3,利用k-means++算法选取车牌区域的大小,得到三个不同的长宽比(2.2,3.2,4.6),取整后的长宽比为(2,3,5),设置基准的anchor大小为8*8,采用的尺度为[16,24,40],每个滑动窗口产生的9个anchors,如图4所示。
Faster R-CNN的优势不仅在于把候选框提取部分放到GPU上运行,还把区域候选框的提取部分从网络外嵌入到网络里面,经过卷积后的特征图可以用来获取区域候选框。
进一步的,所述Faster R-CNN模型中的RPN网络,其本质上是在卷积神经网络CNN的基础上增加了全卷基层cls和reg层,其中cls层是用来判断候选框是前景还是背景,而reg层是用来微调候选框;Faster R-CNN模型如图2所示。
Faster R-CNN的损失函数为:
Figure GDA0003806237480000081
其中,i表示anchor的一个索引,pi是第i个anchor的预测概率,anchor若为正,
Figure GDA0003806237480000082
的值为1,反之,
Figure GDA0003806237480000083
的值为0,ti表示预测边界框的4个参数坐标,
Figure GDA0003806237480000084
表示与正anchor对应的groud-truth box的坐标向量,分类损失Lcls是2个类别(目标与非目标)的对数损失。
AlexNet是Krizhevsky等人提出的基于分类的卷积神经网络模型,并获得了2012年ImageNet比赛的冠军。AlexNet结构如图5所示。
AlexNet有八层结构,第1,2层均使用了卷积层(conv),池化层(pool)和归一化操作(norm);第3,4层一样,均包含了卷积层;第5层采用卷积层和池化层;第6-8层应用了全连接层(fc)。
虽然AlexNet网络在目标分类上效果显著,然而它并不应用于车牌字符识别之中,并没有带有特定含义的模型设计;本发明在AlexNet网络模型的基础上进行改进和重新构建,提出了一种增强的专门用于车牌字符识别的卷积神经网络模型AlexNet-L。
进一步的,所述AlexNet-L网络模型是在AlexNet网络模型基础上的一个改进,有利于提高车牌字符的识别的准确性;AlexNet-L网络模型有九层结构,第一、二层均包含了卷积,池化层和归一化;与AlexNet网络模型不同的是,AlexNet-L网络模型的第一层中池化层和归一化操作的顺序不一样;AlexNet-L网络模型的第三层到第五层用了三个相同的卷积操作;第六层使用了卷积层和池化层,第七层是一个全连接层,第八和第九层采用并列的七个全连接层,分别用来对车牌的各个字符进行识别,其总体框架如图6所示。
进一步的,所述AlexNet-L网络模型在AlexNet网络模型基础上进行如下几个方面的改进:
①第一层和第二层的改进:
将AlexNet中第一层和第二层中归一化和池化层相互调换顺序,可以提高识别精度,同时也使得归一化操作减少了计算时间和内存,因此将AlexNet中归一化1,池化层1以及归一化2,池化层2调换顺序;
②增加卷积层来提高分类效果:
为了提高最后车牌字符识别的分类效果,在AlexNet的卷积层3,卷积层4上增加一层相同的卷积层;由于卷积层3,卷积层4在分类方面好于其它层,在卷积层3,卷积层4的后面增加一个同样的卷积层,从而找到更多车牌特征的表达;
③全连接层的改进:
车牌的端对端的字符识别为7个字符,将AlexNet的第七层全连接层更改为7个并列的全连接层,分别获取7个字符的特征向量;因为车牌字符中的汉字,字母和数字特征完全不一样,这样处理相当于将各个字符的特征分开处理,有利于提高车牌字符识别的准确率;
④输出层的改进:
由于中国的车牌字符有7个字符,最终的输出应该是7个标签,将AlexNet网络的第八个全连接层更改为并列的7个全连接层,并与前一层7个并列的全连接层分别相连,对于最后一个全连接层,每个类别对应的标签数并不唯一。
为了验证AlexNet-L网络模型中每个改进对车牌字符识别的有效性,针对AlexNet-L的每一次改进均做了相应的控制变量法分析,分别做以下几组实验:
第一组实验:将AlexNet改进中的④作为一组实验;
第二组实验:将AlexNet改进中的第①④结合在一起作为一组实验;
第三组实验:将AlexNet改进中的第②④结合在一起作为一组实验;
第四组实验:将AlexNet改进中的第③④结合在一起作为一组实验;
第五组实验:将①②③④结合在一起作为一组实验,本组实验也即为AlexNet-L网络。
实验结果如表1所示,汉字代表车牌的第1个字符,字母代表车牌的第2个字符,字母+数字代表车牌剩余的字符,准确率=正确个数/测试个数。
表1针对AlexNet网络改进的几组对比实验
Figure GDA0003806237480000091
Figure GDA0003806237480000101
从表1中可以看出,第二组至第四组实验中对于AlexNet网络的改进,对车牌字符识别的结果均好于第一组实验结果,说明对AlexNet网络模型的改进均对车牌字符识别的准确率有所提高;第五组实验结果的准确率明显好于其它四组实验,说明AlexNet-L网络模型对AlexNet的改进有利于提高车牌字符识别的准确率。
本发明车牌识别主要基于中国车牌(大陆地区和台湾地区),AlexNet-L最后两层均采用7个并列的全连接层,分别对应内陆车牌的第1-7个字符,而不是将车牌的第1-7个字符采用同一个全连接层,这样可以提高单个类别字符的识别准确率。
本发明还在公共数据集Road Patrol(RP)上做了对比实验。因为RP数据集收集的是中国台湾的车牌,中国台湾车牌共有6个字符,其中车牌的前4个字符均为数字,最后两个字符为字母,所以AlexNet-L网络的最后两层均改为并列的6个全连接层。
进一步的,所述AlexNet-L网络模型的输出层采用Softmax回归函数分类,Softmax函数可以解决多分类的问题,而经典的Sigmoid回归函数只能解决二分类的问题,Softmax公式为:
Figure GDA0003806237480000102
g代表分类数,d是g的训练函数;
AlexNet-L网络模型中卷积操作的计算过程为:
O=(I+2×P-K)/S+1 (7)
其中,O为输出数据的大小(图片的长度或宽度),I为输入数据的大小(图片的长度或宽度),P为pad,表示是否需要在宽度和高度两边填充像素,K为kernel_size,表示卷积和的大小,S为stride,表示步长;
池化层的操作计算过程为:
O=(I-K)/S+1 (8)
其中,各参数的含义跟公式(7)中一样;
AlexNet-L网络中,与每个卷积层相连的激活函数选择用ReLu,由于Sigmoid和Tanh激活函数在梯度下降过程中存在速度慢,迭代次数多的问题,采用ReLu函数作为激活函数可以提高速度和效率,并使得周期大大缩短,ReLu函数为:
ReLu(x)=Max(x,0) (9)
对于AlexNet-L网络的输入数据大小为227×227×3,经过第1层卷积核个数:96,尺寸:11,步长:4,卷积后的特征图的大小为55×55×96,经过ReLU激活操作后,数据大小不变,再经过卷积核大小:3,步长:2,获取的特征图的大小为27×27×96,经过归一化处理,特征图的大小不变,所以最终的输入数据大小为27×27×96。
AlexNet-L的第2层与第1层类似,256个5×5的卷积核的输入为27×27×96个特征图,进一步提取特征,因为第2层卷积在宽度和高度两边都填充了2个像素,所以卷积后的特征图的大小为27×27×256,经过ReLU激活操作后,数据大小不变,再经过卷集核尺寸:3,步长:2,获取的特征图的大小为13×13×256,经过归一化处理,特征图的大小不变,所以最终的输入数据大小为13×13×256。
第3-5层一样,经过卷积和ReLU激活操作,第六层在经过卷积核和ReLU激活操作后,加入了池化层,经过第3-6,输出的数据大小为6×6×256,再经过第7-8层的并列的7个全连接层,最后输出层每个标签从前往后的卷积核个数依次为31,26,36,36,36,36,36。
本发明实验中,测试的数据集是自收集的数据集和公共数据集RP,自收集的数据集都是中国内陆车牌。
为了验证Faster R-CNN结合VGG网络的有效性,本发明针对Faster R-CNN结合VGG和ZF网络分别做车牌定位的对比实验。在Faster R-CNN训练过程当中,迭代次数设置为200000。在前160000迭中,学***均测试一张图片中车牌字符所花的时间。
表2基于Faster R-CNN的车牌定位对比实验
算法 召回率 准确率 时间(/s)
VGG 0.9909 0.9887 0.0321
ZF 0.9762 0.9778 0.0143
从表2中可以看出,虽然Faster R-CNN结合VGG网络测试每秒所花的时间比FasterR-CNN结合ZF网络所花的时间长,但是Faster R-CNN结合VGG网络在车牌定位方面的准确率远高于Faster R-CNN结合ZF网络,所以本发明采用基于Faster R-CNN结合VGG网络的车牌定位方法。
表3是不同算法在自收集的数据集和RP数据集上车牌定位准确率的对比实验。
表3不同数据集上车牌定位准确率对比(%)
Figure GDA0003806237480000121
从表3中可以看出,本发明算法在不同数据集上的车牌定位准确率均高于其他算法。
综上,在各种自然场景与不同数据集上进行车牌定,本发明算法在车牌定位效果和准确率上均明显优于其他几种算法,整体性能优越。
在AlexNet-L网络模型实验中,网络参数设置如下,最大迭代次数为200000,初始学***均单个车牌测试的平均时间。表5中,总字符代表RP数据集中6个字符均识别正确的结果。
表4自收集数据集上的准确率对比(%)
算法 汉字 字母 字母+数字 总字符 时间(s)
本发明 0.9529 0.9738 0.9692 0.9508 0.0192
人工神经网络 0.8918 0.9270 0.9320 0.8762 0.0378
字符模板匹配 0.9143 0.9447 0.9369 0.9094 0.0296
SVM 0.9500 0.9664 0.9553 0.9460 0.0643
表5 RP数据集上的准确率比较(%)
算法 总字符 时间(s)
本发明 0.9774 0.0136
人工神经网络 0.9516 0.0289
字符模板匹配 0.9583 0.0187
SVM 0.9651 0.0421
从表4和表5中可以看出,本发明算法的车牌总体识别准确率以及车牌的单个字符识别准确率均高于其他对比算法。除此之外,本发明算法的平均车牌字符识别所需测试时间均少于其他对比算法。表明本发明所提出的端对端的AlexNet-L的车牌字符识别算法在其相关的应用中具有优越性。
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种基于深度学习的车牌定位和识别方法,其特征在于:包括两个方面:基于FasterR-CNN模型的车牌定位和基于AlexNet-L网络模型的端对端的车牌字符识别;
步骤1,对训练集的车牌区域尺寸应用k-means++算法处理,选择最佳的候选尺寸,结合到Faster R-CNN;
步骤2,利用Faster R-CNN训练图片,得到模型;
步骤3,输入一张包含车牌的图片,经过卷积处理之后,得到特征图;
步骤4,将所得的特征图经过全卷积神经网络RPN处理后,得到候选框,将获取的特征图和候选框一起经过ROI pooling处理后进行分类,输出车牌位置和分数;
步骤5,将车牌区域从原图中截取下来;
步骤6,截取的车牌区域通过AlexNet-L网络模型的端对端的卷积神经网络,最终输出车牌上的各个字符;
所述AlexNet-L网络模型是在AlexNet网络模型基础上的一个改进,AlexNet-L网络模型有九层结构,第一、二层均包含了卷积,池化层和归一化;与AlexNet网络模型不同的是,AlexNet-L网络模型的第一层中池化层和归一化操作的顺序不一样;AlexNet-L网络模型的第三层到第五层用了三个相同的卷积操作;第六层使用了卷积层和池化层,第七层是一个全连接层,第八和第九层采用并列的七个全连接层,分别用来对车牌的各个字符进行识别;
所述AlexNet-L网络模型在AlexNet网络模型基础上进行如下几个方面的改进:
①第一层和第二层的改进:
将AlexNet中第一层和第二层中归一化和池化层相互调换顺序,即将AlexNet中归一化1,池化层1以及归一化2,池化层2调换顺序;
②增加卷积层来提高分类效果:
在AlexNet的卷积层3,卷积层4的后面增加一个同样的卷积层;
③全连接层的改进:
车牌的端对端的字符识别为7个字符,将AlexNet的第七层全连接层更改为7个并列的全连接层,分别获取7个字符的特征向量;
④输出层的改进:
由于中国的车牌字符有7个字符,最终的输出应该是7个标签,将AlexNet网络的第八个全连接层更改为并列的7个全连接层,并与前一层7个并列的全连接层分别相连,对于最后一个全连接层,每个类别对应的标签数并不唯一。
2.根据权利要求1所述的一种基于深度学习的车牌定位和识别方法,其特征在于:由于中国的车牌区域比例为440cm*140cm,近似为3:1,为了确切地反映各种图片中车牌区域的大小,采用k-means++算法来选定3个比例的长宽比;
k-means++算法需要采用模型预测的候选框和标记的候选框的交叠率IoU为指标,IoU的计算方式为:
Figure FDA0003806237470000021
其中,SgroundTruth表示真实的候选框,SanchorBox表示预测的候选框;
k-means++算法得到初始候选框的算法包括以下步骤:
S1:k-means++算法的输入为车牌的长度和宽度C={d1(x1,y1),d2(x2,y2),…,dn(xn,yn)},以及k个候选框的长宽比;
S2:从C中随机选取一个样本为c1(c1∈C);
S3:对于C中每一个样本,计算每个样本到c1的距离:
d(bi,c1)=1-IoU(bi,c1) (2)
其中i∈(1,2,3,…,n);
S4:计算每个样本选为下一个质心的概率:
Figure FDA0003806237470000022
S5:定义Si
Figure FDA0003806237470000031
S6:生成一个0到1之间的随机数r,判断r属于区域{si-1,si},则bi(xi,yi)是第二个质心;
S7:重复步骤S3~S6,直到得到k个质心。
3.根据权利要求1所述的一种基于深度学习的车牌定位和识别方法,其特征在于:所述FasterR-CNN模型中的RPN网络,其本质上是在卷积神经网络CNN的基础上增加了全卷基层cls和reg层,其中cls层是用来判断候选框是前景还是背景,而reg层是用来微调候选框;
FasterR-CNN的损失函数为:
Figure FDA0003806237470000032
其中,i表示anchor的一个索引,pi是第i个anchor的预测概率,anchor若为正,
Figure FDA0003806237470000033
的值为1,反之,
Figure FDA0003806237470000034
的值为0,ti表示预测边界框的4个参数坐标,
Figure FDA0003806237470000035
表示与正anchor对应的groud-truthbox的坐标向量,分类损失Lcls是2个类别目标与非目标的对数损失。
4.根据权利要求1所述的一种基于深度学习的车牌定位和识别方法,其特征在于:所述AlexNet-L网络模型的输出层采用Softmax回归函数分类,Softmax公式为:
Figure FDA0003806237470000036
g代表分类数,d是g的训练函数;
AlexNet-L网络模型中卷积操作的计算过程为:
O=(I+2×P-K)/S+1 (7)
其中,O为输出数据的大小,I为输入数据的大小,数据的大小指的是图片的长度或宽度,P为pad,表示是否需要在宽度和高度两边填充像素,K为kernel_size,表示卷积和的大小,S为stride,表示步长;
池化层的操作计算过程为:
O=(I-K)/S+1 (8)
其中,各参数的含义跟公式(7)中一样;
AlexNet-L网络中,与每个卷积层相连的激活函数选择用ReLu:
ReLu(x)=Max(x,0) (9)。
CN201811281994.3A 2018-10-30 2018-10-30 一种基于深度学习的车牌定位和识别方法 Active CN109508715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811281994.3A CN109508715B (zh) 2018-10-30 2018-10-30 一种基于深度学习的车牌定位和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811281994.3A CN109508715B (zh) 2018-10-30 2018-10-30 一种基于深度学习的车牌定位和识别方法

Publications (2)

Publication Number Publication Date
CN109508715A CN109508715A (zh) 2019-03-22
CN109508715B true CN109508715B (zh) 2022-11-08

Family

ID=65747145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811281994.3A Active CN109508715B (zh) 2018-10-30 2018-10-30 一种基于深度学习的车牌定位和识别方法

Country Status (1)

Country Link
CN (1) CN109508715B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993138A (zh) * 2019-04-08 2019-07-09 北京易华录信息技术股份有限公司 一种车牌检测与识别方法及装置
CN110210475B (zh) * 2019-05-06 2021-05-18 浙江大学 一种非二值化和边缘检测的车牌字符图像分割方法
CN110097044B (zh) * 2019-05-13 2020-12-01 苏州大学 基于深度学习的一阶段车牌检测识别方法
CN110288031B (zh) * 2019-06-27 2021-07-27 浙江工业大学 一种基于序列学习的车牌识别方法
CN110390330B (zh) * 2019-07-25 2023-07-18 网链科技集团有限公司 电动自行车车牌识别***及方法
CN110502655B (zh) * 2019-07-31 2022-04-01 武汉大学 一种嵌入场景文字信息的图像自然描述语句生成方法
CN110598693A (zh) * 2019-08-12 2019-12-20 浙江工业大学 一种基于Faster-RCNN的船牌识别方法
CN110674821B (zh) * 2019-09-24 2022-05-03 浙江工商大学 一种非机动车车牌识别方法
CN110766017B (zh) * 2019-10-22 2023-08-04 国网新疆电力有限公司信息通信公司 基于深度学习的移动终端文字识别方法及***
CN110991444B (zh) * 2019-11-19 2023-08-29 复旦大学 面向复杂场景的车牌识别方法及装置
CN112906429A (zh) * 2019-11-19 2021-06-04 英业达科技有限公司 图文影像辨识***及方法
CN111104937A (zh) * 2019-11-25 2020-05-05 上海眼控科技股份有限公司 车门信息检测方法、装置、计算机设备和存储介质
CN111062396B (zh) * 2019-11-29 2022-03-25 深圳云天励飞技术有限公司 车牌号码识别方法、装置、电子设备及存储介质
CN110969164A (zh) * 2019-12-20 2020-04-07 湖南千视通信息科技有限公司 基于深度学习端对端的低照度成像车牌识别方法及装置
CN111563515A (zh) * 2020-05-18 2020-08-21 哈尔滨理工大学 一种基于改进的Faster-RCNN的车牌识别方法
CN112200007A (zh) * 2020-09-15 2021-01-08 青岛邃智信息科技有限公司 一种社区监控场景下车牌检测及识别方法
CN112308092B (zh) * 2020-11-20 2023-02-28 福州大学 一种基于多尺度注意力机制的轻量型车牌检测与识别方法
CN112464938B (zh) * 2020-12-18 2024-04-12 深圳赛安特技术服务有限公司 车牌检测识别方法、装置、设备及存储介质
CN112560856B (zh) * 2020-12-18 2024-04-12 深圳赛安特技术服务有限公司 车牌检测识别方法、装置、设备及存储介质
US11380117B1 (en) * 2020-12-23 2022-07-05 Abbyy Development Inc. Zero-footprint image capture by mobile device
CN112766273A (zh) * 2021-01-20 2021-05-07 湘潭大学 一种车牌识别方法
CN112950954B (zh) * 2021-02-24 2022-05-20 电子科技大学 一种基于高位摄像头的智能停车车牌识别方法
CN113191220A (zh) * 2021-04-15 2021-07-30 广州紫为云科技有限公司 一种基于深度学习的双层车牌识别方法
CN115713763A (zh) * 2022-11-25 2023-02-24 青海卓旺智慧信息科技有限公司 一种基于深度学习的土豆图像识别***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657233A (zh) * 2017-09-28 2018-02-02 东华大学 基于改进型单次多目标检测器的静态手语实时识别方法
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
WO2018088170A1 (ja) * 2016-11-09 2018-05-17 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
CN108171191A (zh) * 2018-01-05 2018-06-15 百度在线网络技术(北京)有限公司 用于检测人脸的方法和装置
WO2018112900A1 (zh) * 2016-12-23 2018-06-28 深圳先进技术研究院 一种车牌识别方法及装置、用户设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936969B2 (en) * 2016-09-26 2021-03-02 Shabaz Basheer Patel Method and system for an end-to-end artificial intelligence workflow
US10262237B2 (en) * 2016-12-08 2019-04-16 Intel Corporation Technologies for improved object detection accuracy with multi-scale representation and training
CN107016677B (zh) * 2017-03-24 2020-01-17 北京工业大学 一种基于fcn和cnn的云图分割方法
CN107358596B (zh) * 2017-04-11 2020-09-18 阿里巴巴集团控股有限公司 一种基于图像的车辆定损方法、装置、电子设备及***
CN107563385B (zh) * 2017-09-02 2019-10-25 西安电子科技大学 基于深度卷积生成式对抗网络的车牌字符识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018088170A1 (ja) * 2016-11-09 2018-05-17 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
WO2018112900A1 (zh) * 2016-12-23 2018-06-28 深圳先进技术研究院 一种车牌识别方法及装置、用户设备
CN107657233A (zh) * 2017-09-28 2018-02-02 东华大学 基于改进型单次多目标检测器的静态手语实时识别方法
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
CN108171191A (zh) * 2018-01-05 2018-06-15 百度在线网络技术(北京)有限公司 用于检测人脸的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A New Approach to Track Multiple Vehicles With the Combination of Robust Detection and Two Classifiers";Min Weidong;《IEEE Transactions on Intelligent Transportation Systems》;20171225;第19卷(第1期);174-186 *
"Scene classification with improved AlexNet model";Xiao Lisha;《2017 12th International Conference on Intelligent Systems and Knowledge Engineering》;20180115;1-6 *
"基于择优检测和多尺度匹配的实时人脸识别";王玮 等;《计算机工程与设计》;20180916;第39卷(第9期);2957-2960 *
"深度卷积神经网络在计算机视觉中的应用研究综述";卢洪涛 等;《数据采集与处理》;20160115;第31卷(第1期);1-17 *

Also Published As

Publication number Publication date
CN109508715A (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
CN109508715B (zh) 一种基于深度学习的车牌定位和识别方法
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN108446700B (zh) 一种基于对抗攻击的车牌攻击生成方法
CN108681693B (zh) 基于可信区域的车牌识别方法
Kim et al. San: Learning relationship between convolutional features for multi-scale object detection
CN109447034A (zh) 基于YOLOv3网络的自动驾驶中交通标识检测方法
CN111709416B (zh) 车牌定位方法、装置、***及存储介质
CN106682586A (zh) 一种复杂光照条件下基于视觉的实时车道线检测的方法
CN112016605B (zh) 一种基于边界框角点对齐和边界匹配的目标检测方法
CN105787466B (zh) 一种车辆类型的精细识别方法及***
Yang et al. Real-time pedestrian and vehicle detection for autonomous driving
CN104978567A (zh) 基于场景分类的车辆检测方法
Xiang et al. Lightweight fully convolutional network for license plate detection
CN111950583B (zh) 一种基于gmm聚类的多尺度识别交通信号标志的方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
Tang et al. Integrated feature pyramid network with feature aggregation for traffic sign detection
CN112084890A (zh) 基于gmm和cqfl的多尺度识别交通信号标志的方法
Liu et al. CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection
Yao et al. Coupled multivehicle detection and classification with prior objectness measure
Zhang et al. Automatic detection of road traffic signs from natural scene images based on pixel vector and central projected shape feature
CN108960175A (zh) 一种基于深度学习的车牌识别方法
Madan et al. Traffic Sign Classification using Hybrid HOG-SURF Features and Convolutional Neural Networks.
CN116844126A (zh) 一种基于YOLOv7改进的复杂道路场景目标检测方法
CN112052829B (zh) 一种基于深度学习的飞行员行为监控方法
CN117152625A (zh) 一种基于CoordConv和YOLOv5的遥感小目标识别方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant