一种基于多特征图深度学习的图像识别方法
技术领域
本发明涉及图像处理和模式识别技术领域,尤其涉及一种基于多特征图深度学习的图像识别方法。
背景技术
目前,在图像处理和模式识别领域,由手动人工特征和浅层的人工神经网络所获取的特征来进行分类和识别。在复杂环境条件下,这些浅层特征对识别来说是不够的。深层的神经网络即深度学习应运而生,已被大量应用到图像和模式识别领域。
深度模型训练(即深度网络训练、深度学习***训练)的基本流程简要描述如下。网络的每层参数基本都表示成(w,b),其中w是权值参数,b是偏置参数,每层的输入输出关系是y=wx+b,其中,x表示输入,y表示输出。各层连接起来就是一个嵌套关系,为简单计,假定总的参数为(W,B),总的输入输出关系是Y=F(X,W,B)。
如果模型已训练好,即(W,B)已确定,则有输入X直接得到前向输出Y,就是所需的结果。
如果模型还没训练好,即(W,B)没有确定,则先给(W,B)一个初始值(W0,B0),得到训练样本的预测输出Y0=F(X,W0,B0),它与训练样本的标签即标定输出Ytrue存在很大的偏差。可以设置一个损失函数,比如说loss=0.5*(Ytrue-Y0)^2,即预测输出和标签相差越远,则损失函数越大,这时进行误差反传来更新模型参数。每训练一次,就将参数(W,B)更新一次,其目的就是使得预测输出和标定输出的差值越来越小,经过很多训练样本的多次训练,当loss值小于一定的值时,就认为模型训练好了(即找到了合适的的(W,B)值),训练过程结束。
由于目前这些深度学习***的输入往往是灰度图或rgb图,其它各层的特征都要由此训练和学习得到,特征的冗余度和容错性不够,在复杂条件下可靠性低。
同时,现有技术中,分类器一般选用SOFTMAX、SVM等,较为简单,分类精度不能达到最优,这些问题都有待进一步提高。
发明内容
本发明针对现有的图像识别方案容错性差、可靠度低等缺点,提供一种多角度、多特征的基于深度学习的图像识别方法,能够精确和有效地对图片进行分类和识别(如人脸,车牌字符等)。并且,针对以往的分类器如SOFTMAX、SVM模型简单、分类效果不理想的缺陷,本发明方法结合MLP和SOFTMAX来共同组成分类器,以提升分类精度。
本发明是一种基于多特征图深度学习的图像识别方法,包括多特征图深度学习的训练过程和使用训练好的深度学习***进行图像识别的过程,
其中,所述多特征图深度学习的训练过程包括以下步骤:
步骤a:对训练样本集图片求取其灰度图;
步骤b:对所述灰度图求取灰度图中每个像素点的特征构成的特征图,所述特征图包括:LBP特征图、梯度幅值特征图和梯度方向特征图;
步骤c:设置深度卷积网络的各个网络层及分类器的初始参数,将步骤a中获得的灰度图和步骤b中获得的特征图输入所述深度卷积网络以提取高层特征即深度卷积特征,并将所述深度卷积特征输入到所述分类器,所述分类器获得***的前向预测输出,其中深度卷积网络和分类器的参数均为前一次学习的结果;
步骤d:将步骤c获得的所述前向预测输出与所述训练样本集图片的标签进行比对,将两者的误差反传,根据所述误差来更新所述深度卷积网络的参数和所述分类器的参数;
步骤e:重复步骤a~d,对多个训练样本图片进行多次训练,当所述误差小于预定值时确定当前学习到的模型参数为训练好的模型参数,从而获得训练好的深度学习***,所述训练好的模型参数包括深度卷积网络的参数和分类器的参数;
所述使用训练好的深度学习***进行图像识别过程包括以下步骤:
步骤f:对测试图片分别求取灰度图、LBP特征图、梯度幅值特征图和梯度方向特征图;
步骤g:将步骤f获得的4种图输入前述训练过程获得的所述深度学习***获取图像的深度卷积特征;
步骤h:将步骤g中获取的深度卷积特征输入到训练好的分类器,获得最终的分类和识别结果。
优选地,步骤c中,当应用***的可用资源少的情况下,将步骤a中获得的灰度图和步骤b中获得的特征图作为多输入到同一个深度卷积网络以提取高层特征。
优选地,步骤c中,当应用***的可用资源多的情况下,对步骤a中获得的灰度图和步骤b中获得的每个特征图分别构建一个深度卷积网络以提取高层特征,并将这些高层特征级联作为所述分类器的输入。
优选地,所述分类器由多层感知器(MLP)和SOFTMAX构成。
优选地,所述多层感知器采用多层全连接层FC串联来实现,并将结果输入到SOFTMAX分类器。
优选地,所述多层感知器采用2-3个全连接层。
优选地,所述全连接层为3个的情况下,所述分类器的连接方式为FC1+FC2+FC3+SOFTMAX。
本发明的有益效果:
本发明的图像识别方法,采用易于实现的算法提取图片的各种特征图,并通过深度学习对得到的特征图更进一步提取卷积特征,使得到的特征更具有分类判别性,提高判别效果;对资源有限的***,这些特征图作为***的多维输入而共享一个深度学习***,如果资源充足,则对每个特征图都组建一个深度学习***,并对获取的卷积特征进行融合;对分类器采用MLP+SOFTMAX组合对获取的图像卷积特征进行识别,提升分类精度,提高了识别率。
附图说明
图1(a)和图1(b)是根据本发明的基于多特征图深度学习的图像识别方法的流程图。
图2是单模型工作流程示意图。
图3是多模型工作流程示意图。
具体实施方式
以下结合附图对本发明进行详细说明。以下实施例并不是对本发明的限制。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中。
本发明的一种基于多特征图深度学习的图像识别方法,包括两个过程。第一个过程为训练过程,通过大量的训练样本来训练获取网络的各个参数(即网络模型),之后将训练好的网络模型用于第二过程的识别过程,对获取的每张图像自动分类识别。
下面接合图1(a)和图1(b)进行详细描述。训练过程包括如下步骤:
步骤a:对训练样本集图片求取其灰度图。
步骤b:对所述灰度图求取灰度图中每个像素点的特征构成的特征图,所述特征图包括:LBP特征图、梯度幅值特征图和梯度方向特征图。
步骤c:设置深度卷积网络的各个网络层及分类器的初始参数,将步骤a和b中获得的灰度图和特征图输入所述深度卷积网络以提取高层特征即深度卷积特征,并将所述深度卷积特征输入到所述分类器,所述分类器获得***的前向预测输出,其中深度卷积网络和分类器的参数均为前一次学习的结果。
这里的深度卷积网络(即深度卷积神经网络,deep convolutional neuralnetworks,DCNN)由多层卷积层连接而成,前面的卷积层主要是获取图片的低层特征,如边缘,轮廓等,越往后的卷积层获取的就是图片的局部或整体的语义特征,即高层特征。本发明中使用的深度卷积网络是多种深度网络中的一种,本领域的人熟知,当然也可以使用其他深度网络来达到本发明的目的。
步骤c中,当应用***的可用资源少的情况下,将步骤a中获得的灰度图和步骤b中获得的多个特征图作为多输入到同一个深度卷积网络以提取高层特征。如图2所示。
步骤c中,当应用***的可用资源多的情况下,对步骤中获得的灰度图和步骤b中获得的每个特征图分别构建一个深度卷积网络以提取高层特征,并将这些高层特征级联作为所述分类器的输入。如图3所示。
这里,实际应用***包括***的软硬件,可用资源即硬件的CPU,GPU,内存等等。
本发明中,分类器由多层感知器(MLP,multi-layer perception)和SOFTMAX构成。所述多层感知器(MLP)采用多层全连接层FC串联来实现,并将结果输入到SOFTMAX分类器。具体地,该多层感知器采用2~3个全连接层。如果多层感知器采用3个全连接层,则所述分类器的连接方式为FC1+FC2+FC3+SOFTMAX。
接下来是步骤d:将步骤c获得的所述前向预测输出与所述训练样本集图片的标签进行比对,将两者的误差反传,根据所述误差来更新所述深度卷积网络的参数和所述分类器的参数。例如,应用随机梯度下降方法来更新所述深度卷积网络的参数和所述分类器的参数,或者利用其他已知的方法来更新参数。
本步骤中,将分类器的前向预测输出与所述训练样本集图片的标签的误差逐步反传,并对分类器和深度卷积网络的各层参数依次更新,其目的是使得前向预测输出与标签之间的误差逐步减少。
步骤e:重复步骤a~d,对多个训练样本图片进行多次训练,每次训练均对深度卷积网络的参数和所述分类器的参数进行更新,以不断缩小前向预测输出与所述训练样本集图片的误差,当所述误差小于预定值时就可确定当前学习到的模型参数为训练好的模型参数,从而获得训练好的深度学习***,所述训练好的模型参数包括深度卷积网络的参数和分类器的参数。
接下来使用训练好的深度学习***进行图像识别过程,包括以下步骤:
步骤f:对测试图片分别求取灰度图、LBP特征图、梯度幅值特征图和梯度方向特征图。该步骤对应于***的数据处理部分。这里,对图像中的任意像素点求取特征,从而能扩展到整幅图像获取特征图。
具体地,首先获取图片的灰度图即为灰度特征图,在此基础上求取其它三种特征图,以LBP特征图为例,先求取每个像素点的LBP特征,求取图像边缘像素点的特征值时,超出边界的像素点其值可设置为零,从而得到整幅图像的LBP特征图。同理可获取梯度幅值和梯度方向的特征图。
步骤g:将步骤f获得的4种图输入前述训练过程获得的所述深度学习***获取图像的深度卷积特征。该步骤对应于***的求取深度卷积特征部分。如图2所示的单模型***中,将四个特征图合并输入到深度学习识别***,得到多特征图的深度卷积特征。如图3所示的多模型并行***中,分别计算每个特征图的深度卷积特征,并将这些特征级联成为一个新的卷积特征;卷积网络则依据输入图片的大小和***复杂度来优化设计。
步骤h:将步骤g中获取的深度卷积特征输入到训练好的分类器,获得最终的分类和识别结果。该步骤对应于***的分类器部分。
分类器由MLP和SOFTMAX组合而成,MLP则由全连接层(FC)串连而成,依据***的复杂度,在速度和***复杂度、性能之间折中选择,FC一般选2到3层。
【实施例】
在车牌字符识别中采用了本发明的多模型并行***来进行图像识别。对每个字符先求取灰度图,再依据灰度图分别求出其他三种特征图,对每一种特征图应用深度卷积网络分别求其深度卷积特征,并将所获得的深度卷积特征级联送入分类器,分类器由两个全连接层(FC)串联加一个SOFTMAX构成。
应用本发明方法,在5万测试车牌字符里,识别精度可达到99.4%以上,错误率为0.6%,如果只用灰度图一个特征图作为输入,识别精度为98.656%,错误率为1.344%.,错误率降低了一半以上,因此本发明方法是可以有效地提高识别精度和效率。
显然,本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。