CN107909016B

CN107909016B - 一种卷积神经网络生成方法及车系识别方法

Info

Publication number: CN107909016B
Application number: CN201711070823.1A
Authority: CN
Inventors: 刘峰; 周晖; 黄国龙; 张欣; 胡蒙; 黄中杰
Original assignee: CHEZHI HULIAN (BEIJING) SCIENCE & TECHNOLOGY CO LTD
Current assignee: CHEZHI HULIAN (BEIJING) SCIENCE & TECHNOLOGY CO LTD
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2020-09-01
Anticipated expiration: 2037-11-03
Also published as: CN107909016A

Abstract

本发明公开了一种用于对图像中的车辆进行车系识别的卷积神经网络生成方法、车系识别方法、计算设备及移动终端，卷积神经网络生成方法包括：构建第一处理块，第一处理块包括第一卷积层；构建第二处理块，第二处理块包括依次相连的第二卷积层和第三卷积层；根据多个第一处理块、第二处理块和池化层，结合全连接层和分类器构建卷积神经网络，卷积神经网络以第一处理块为输入，以分类器为输出；根据预先获取的车辆图像数据集合对卷积神经网络进行训练，以便分类器的输出指示车辆所对应的车系，车辆图像数据集合包括多个车辆图像信息，每个车辆图像信息包括车辆图像和对应图像中车辆的车系信息。

Description

一种卷积神经网络生成方法及车系识别方法

技术领域

本发明涉及图像处理技术领域，特别涉及一种用于对图像中的车辆进行车系识别的卷积神经网络生成方法、车系识别方法、计算设备及移动终端。

背景技术

随着科技与经济的飞速发展，市面上车系的类型越来越丰富，比如常见的奥迪A4L、宝马3系等，但在现实生活中，还会经常遇见对其车系不认识或不了解的车辆。为了能够识别出这些车辆的车系，通常是利用移动终端对该车辆进行拍照，基于云服务的方式将拍照形成的图片上传至服务器，服务器可采用以CNN(Convolutional Neural Network，卷积神经网络)为基础的车系识别方法来对车辆的车系进行识别，再将识别结果回传至移动终端。

然而，在基于云服务的方式进行车系识别时，对通信网络要求较高，在野外或地下停车场等信号不好的地方，不能将图片传输到服务器端，导致无法识别。再考虑到网络延迟、带宽不足、用户高峰期的处理延迟，以及运营成本和流量费用较高等问题，基于云服务的车系识别方法在适用性上难以满足用户的需求。

为了避免较差的网络通信质量影响车系识别的处理，一类不依赖通信网络、可直接在本地移动终端运行的车系识别方法应运而生。该类方法多是针对车头或车尾图片(视频)进行识别，以获取车辆对应的车系类别，例如提取传统的SIFT(Scale-InvariantFeature Transform，尺度不变特征变换)、HOG(Histogram of Oriented Gradient，方向梯度直方图)等特征，采用SVM(Support Vector Machine，支持向量机)、Adaboost算法等方式进行检测识别。或是用深度学习提取部分特征，组合SVM分类器等。由于人工设计特征描述能力有限，且分类器对类型较多分类，因此对图像的要求较高，特别是对拍摄角度或分类种类进行了限制，如只能针对车头或车尾的图片及视频进行识别。这就造成了应用的限制，无法随意使用，尤其在复杂环境下，一旦不能拍摄到需要的照片，就无法进行识别。

发明内容

为此，本发明提供一种用于对图像中的车辆进行车系识别的卷积神经网络生成方案，并提出了基于该卷积神经网络的车系识别方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种用于对图像中的车辆进行车系识别的卷积神经网络生成方法，适于在计算设备中执行，该方法包括如下步骤：首先，构建第一处理块，第一处理块包括第一卷积层；构建第二处理块，第二处理块包括依次相连的第二卷积层和第三卷积层；根据多个第一处理块、第二处理块和池化层，结合全连接层和分类器构建卷积神经网络，卷积神经网络以第一处理块为输入，以分类器为输出；根据预先获取的车辆图像数据集合对卷积神经网络进行训练，以便分类器的输出指示车辆所对应的车系，车辆图像数据集合包括多个车辆图像信息，每个车辆图像信息包括车辆图像和对应图像中车辆的车系信息。

可选地，在根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法中，构建第一处理块的步骤还包括：在第一卷积层之后添加依次相连的第一批标准化层和第一激活层，以形成第一处理块。

可选地，在根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法中，构建第二处理块的步骤还包括：在第二卷积层和第三卷积层之间添加依次相连的第二批标准化层和第二激活层，在第三卷积层之后添加依次相连的第三批标准化层和第三激活层，以形成第二处理块。

可选地，在根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法中，池化层为最大池化层和全局平均池化层中任一种。

可选地，在根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法中，根据一个或多个第一处理块、第二处理块和池化层，结合全连接层和分类器构建卷积神经网络的步骤包括：按照预设的连接规则，将各第一处理块、第二处理块和最大池化层进行相连后，连接全局平均池化层；在全局平均池化层之后添加依次相连的全连接层和分类器，以构建以第一处理块为输入、以分类器为输出的卷积神经网络。

可选地，在根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法中，第一处理块和第二处理块的数量均为7。

可选地，在根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法中，最大池化层的数量为5，全局平均池化层的数量为1。

可选地，在根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法中，还包括预先生成车辆图像数据集合，预先生成车辆图像数据集合的步骤包括：对每一张待处理图片进行图像处理，以获取该待处理图片对应的一张或多张车辆图像；对每一张车辆图像，获取其对应的待处理图片关联的车系信息，根据车系信息与该车辆图像生成相应的车辆图像信息；汇集各车辆图像信息，以形成车辆图像数据集合。

可选地，在根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法中，对每一张待处理图片进行图像处理，以获取该待处理图片对应的一张或多张车辆图像的步骤包括：对每一张待处理图片进行车辆检测，以获取该待处理图片的车辆位置信息；根据车辆位置信息对该待处理图片进行裁剪，以获取对应的车辆图片；对车辆图片进行预处理，以生成与该待处理图片关联的一张或多张车辆图像。

可选地，在根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法中，预处理至少包括如下操作中的一种：平滑、直方图均衡、加噪声、中心化和镜像操作。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法的指令。

根据本发明的又一个方面，提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法。

根据本发明的又一个方面，提供一种车系识别方法，适于在移动终端中执行，该方法基于用于对图像中的车辆进行车系识别的卷积神经网络生成方法中、训练好的卷积神经网络对图像中的车辆进行车系识别，包括如下步骤：首先，对待识别图像进行处理以获取待识别车辆图像；将待识别车辆图像输入到训练好的卷积神经网络中进行车系识别；获取训练好的卷积神经网络中分类器的输出；根据分类器的输出确定待识别图像中车辆所对应的车系。

根据本发明的又一个方面，提供一种移动终端，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的车系识别方法的指令。

根据本发明的又一个方面，还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由移动终端执行时，使得移动终端执行根据本发明的车系识别方法。

根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成的技术方案，首先构建第一处理块和第二处理块，根据多个第一处理块、第二处理块和池化层，结合全连接层和分类器，构建以第一处理块为输入，以该分类器为输出的卷积神经网络，最后根据预先获取的车辆图像数据集合对该卷积神经网络进行训练，以便分类器的输出指示车辆所对应的车系。在上述技术方案中，卷积神经网络的构建是按照预设的连接规则将各第一处理块、第二处理块和最大池化层进行不断堆叠，并相应连接入全局平均池化层、全连接层和分类器来实现的，保证提取的特征明显优于人工设计特征，以实现识别精度的明显提升，从而大幅降低误判率。其中，第一处理块和第二处理块中除了卷积层之外，还可以相应添加批标准化层和激活层，以便加速网络收敛和缓解过拟合。在对卷积神经网络进行训练时，以车辆图像数据集合中的车辆图像为作为输入数据，以该车辆图像关联的车系信息为输出数据进行卷积神经网络的训练，在训练完成后，训练好的卷积神经网络即可作为车系识别模型移植到移动终端来应用。

进而，根据本发明的车系识别方法，将待识别车辆图像输入到已训练好的卷积神经网络中，根据分类器的输出来判断车系的类型，不仅结果精确度有了巨大的提升，并且使用时不需要与服务器端进行通信，避免了对通信网络，如4G网络的依赖性，提升了识别应用在无网络或弱信号网络下的可用度，极大程度上提高了用户体验。此外，由于无需大量的计算服务器，还降低了识别应用的运营维护成本。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的示意图；

图2示出了根据本发明一个实施例的用于对图像中的车辆进行车系识别的卷积神经网络生成方法200的流程图；

图3A示出了根据本发明一个实施例的第一处理块的结构示意图；

图3B示出了根据本发明一个实施例的第二处理块的结构示意图；

图4示出了根据本发明一个实施例的卷积神经网络的结构示意图；

图5示出了根据本发明的一个实施例的移动终端500的示意图；以及

图6示出了根据本发明一个实施例的车系识别方法600的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，***存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个程序122以及程序数据124。在一些实施方式中，程序122可以布置为在操作***上由一个或多个处理器104利用程序数据124执行指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

在一些实施例中，计算设备100被配置为执行根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法200。其中，计算设备100的一个或多个程序122包括用于执行根据本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法200的指令。

图2示出了根据本发明一个实施例的用于对图像中的车辆进行车系识别的卷积神经网络生成方法200的流程图。用于对图像中的车辆进行车系识别的卷积神经网络生成方法200适于在计算设备(例如图1所示的计算设备100)中执行。

如图2所示，方法200始于步骤S210。在步骤S210中，构建第一处理块，第一处理块包括第一卷积层。考虑到加速网络收敛和控制过拟合现象，根据本发明的一个实施例，在构建第一处理块时，还可以在第一卷积层之后添加依次相连的第一批标准化层和第一激活层，以形成第一处理块。图3A示出了根据本发明的一个实施例的第一处理块的结构示意图。如图3A所示，在第一处理块中，包括依次相连的第一卷积层、第一批标准化(BatchNormalization，BN)层和第一激活层。在该实施方式中，第一卷积层中卷积核的尺寸为3×3，步长为1，采用ReLU(Rectified Linear Unit)函数作为第一激活层的激活函数，以调整经过第一卷积层和第一批标准化层的输出，避免下一层的输出为上一层的线性组合而无法逼近任意函数。

随后，进入步骤S220，构建第二处理块，第二处理块包括依次相连的第二卷积层和第三卷积层。同样是基于加快网络收敛速度和缓解过拟合情况的考虑，根据本发明的一个实施例，在构建第二处理块时，还可以在第二卷积层和第三卷积层之间添加依次相连的第二批标准化层和第二激活层，在第三卷积层之后添加依次相连的第三批标准化层和第三激活层，以形成第二处理块。图3B示出了根据本发明的一个实施例的第二处理块的结构示意图。如图3B所示，在第二处理块中，包括依次相连的第二卷积层、第二批标准化层、第二激活层、第三卷积层、第三批标准化层和第三激活层。在该实施方式中，第二卷积核中卷积核的尺寸为3×3，第三卷积层中卷积核的尺寸为1×1，步长均为1，第二批标准化层、第二激活层、第三批标准化层和第三激活层的参数设置，可参照步骤S210中构建第一处理块时对第一批标准化层和第一激活层的处理，此处不予以赘述。

在步骤S230中，根据多个第一处理块、第二处理块和池化层，结合全连接层和分类器构建卷积神经网络，卷积神经网络以第一处理块为输入，以该分类器为输出。根据本发明的一个实施例，池化层为最大池化层和全局平均池化层中任一种，池化利用图像局部相关性的原理，对图像进行子抽样，从而减少数据处理下并保留有用信息，则可通过如下方式来构建卷积神经网络。首先，按照预设的连接规则，将各第一处理块、第二处理块和最大池化层进行相连后，连接全局平均池化层，然后在全局平均池化层之后添加依次相连的全连接层和分类器，以构建以第一处理块为输入、以该分类器为输出的卷积神经网络。其中，第一处理块和第二处理块的数量均为7，最大池化层的数量为5，全局平均池化层的数量为1。

在该实施方式中，按照预设的连接规则将7个第一处理块、7个第二处理块和5个最大池化层进行相连，之后连接全局平均池化层，并在全局平均池化层之后添加依次相连的全连接层和分类器，从而构建出以1个第一处理块为输入、以该分类器为输出的卷积神经网络。图4示出了根据本发明的一个实施例的卷积神经网络的结构示意图。如图4所示，在卷积神经网络中，是以一个第一处理块为输入端，后面依次相连最大池化层、第二处理块、第一处理块、最大池化层、第一处理块、第二处理块、最大池化层、第一处理块、第二处理块、最大池化层、第一处理块、第二处理块、第一处理块、第二处理块、第一处理块、第二处理块、最大池化层、第二处理块、全局平均池化层、全连接层和分类器，其中分类器为输出端。图4所示出的第一个第一处理块到最后一个第二处理块之间各处理单元的连接顺序，即为按照预设的连接规则来设置的。关于连接规则的预先设置，可根据实际应用场景、网络训练情况、***配置和性能要求等进行适当调整，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

最后，执行步骤S240，根据预先获取的车辆图像数据集合对卷积神经网络进行训练，以便分类器的输出指示车辆所对应的车系，车辆图像数据集合包括多个车辆图像信息，每个车辆图像信息包括车辆图像和对应图像中车辆的车系信息。根据本发明的一个实施例，车辆图像数据集合中每个车辆图像信息的车辆图像均满足预设尺寸，预设尺寸优选为224px×224px，车辆图像为RGB三通道图像，其对应的车系信息为3100种车系中的任一种。为便于表述，按照从输入端到输出端的连接顺序，将图4中所示的卷积神经网络中7个第一处理块依次记为A1、A2、A3、A4、A5、A6和A7，7个第二处理块依次记为B1、B2、B3、B4、B5、B6和B7，5个最大池化层依次记为C1、C2、C3、C4和C5，全局平均池化层记为D1，全连接层记为E1，分类器记为F1。下面将以车辆图像数据集合中的一个车辆图像信息P为例，对卷积神经网络的训练过程进行说明。车辆图像信息P包括车辆图像P1和对应图像中车辆的车系信息Q1，车系信息Q1为宝马3系。在训练时，是以车辆图像P1为第一处理块A1的输入、车系信息Q1为分类器F1的输出进行卷积神经网络的训练。

在卷积神经网络中，首先，将车辆图像P1输入到第一处理块A1，车辆图像P1为RGB三通道图像，尺寸为224px×224px。第一处理块A1中的第一卷积层有32个卷积核，每个卷积核的参数个数为3×3×3，相当于32个3×3大小的卷积核分别在3个通道进行卷积，步长为1。为保证卷积前后图像尺寸保持不变，引入边界填充这一处理方式，将该第一卷积层所输入图像的边缘向外1个像素单位的各行与各列以0填充，则经过该第一卷积层的卷积后，根据(224-3+2×1)/1+1＝224可知，此时得到的图像的尺寸为224px×224px，即获得32张224px×224px大小的特征图。由于在该第一卷积层中已经将三通道合在一起进行卷积处理，因此第一处理块A1中的第一批标准化层的输入为32张222px×222px的单通道图像。再经过第一处理块A1中的第一批标准化层和第一激活层的处理，得到第一处理块A1的输出为32张222px×222px的特征图。

随后，进入最大池化层C1。最大池化层C1采用最大重叠池化，即对224px×224px的特征图进行分块，每个块的大小为2×2，步长为2，并统计每个块的最大值，作为池化后图像的像素值。根据(224-2)/2+1＝112可知，池化后的特征图尺寸为112px×112px，则经过最大池化层C1之后，获得32张112px×112px的特征图。

接下来，将最大池化层C1输出的32张112px×112px的特征图输入到第二处理块B1。第二处理块B1中的第二卷积层有32个卷积核，每个卷积核的参数个数为3×3×1，相当于32个3×3大小的卷积核在1个通道进行卷积，步长为1。采用边界填充方式，将该第二卷积层所输入图像的边缘向外1个像素单位的各行与各列以0填充，经过该第二卷积层的卷积后，根据(112-3+2×1)/1+1＝112可知，此时得到的图像的尺寸为112px×112px，即获得32张112px×112px大小的特征图。此后，经过第二处理块B1中第二批标准化层和第二激活层的处理，向第二处理块B1中的第三卷积层输入32张112px×112px的特征图。该第三卷积层有64个卷积核，每个卷积核的参数个数为1×1×32，相当于64个1×1大小的卷积核分别在32个通道进行卷积，步长为1。同样，采用边界填充方式，将该第三卷积层所输入图像的边缘向外1个像素单位的各行与各列以0填充，则经过该第三卷积层的卷积后，根据(112-3+2×1)/1+1＝112可知，此时得到的图像的尺寸为112px×112px，即获得64张112px×112px大小的特征图。再经过第二处理块B1中的第三批标准化层和第三激活层的处理，得到第二处理块B1的输出为64张112px×112px的特征图。

需要说明的是，第一处理块A2～A7、第二处理块B2～B7以及最大池化层C2～C5，对图像的相关处理可依次参照如上第一处理块A 1、第二处理块B1和最大池化层C1的处理过程，只是在参数的设置上，主要是卷积核的数量上存在不同。表1示出了根据本发明的一个实施例的各第一处理块和第二处理块的参数设置示例，具体如下所示：

表1

参照表1对第一处理块A1～A7和第二处理块B1～B7进行参数设置，基于以上参数对车辆图像P1进行处理，而最大池化层C1～C5均以块的大小为2×2、步长为2对图像进行最大重叠池化，可得第二处理块B7的输出为1024张7px×7px的特征图。

将上述1024张7px×7px的特征图输入到全局平均池化层D1，以计算每一张特征图所有像素点的均值，可得全局平均池化层D1的输出为1024张1px×1px的特征图。此时，1px×1px的特征图实际上只具备1个像素值，因此全局平均池化层D1的输出可视为一个1×1024的特征向量。随后，进入全连接层E1，由于是对车系进行识别，是一个多分类问题，而在该实施方式中车系为3100种车系的任一种，因此全连接层E1的神经元个数选择3100个，则全连接层E1的输出也为3100个，分别对应3100种车系出现的概率。分类器F1选用softmax分类器，其输出为最大概率对应的车系，该车系应为车辆图像P1中车辆所对应的车系信息Q1。关于softmax分类器的内容，为成熟的技术手段，此处不予以赘述。为了训练该卷积神经网络，根据输入的车辆图像P1对应的车系信息Q1为宝马3系这一预知结果，对分类器F1的输出进行调整，按极小化误差的方法反向传播以调整卷积神经网络中的各参数。经过车辆图像数据集合中大量的车辆图像信息进行训练后，获得训练好的卷积神经网络。

用于训练卷积神经网络的车辆图像数据集合是需要预先生成的，根据本发明的又一个实施例，可通过如下方式预先生成车辆图像数据集合。首先，对每一张待处理图片进行图像处理，以获取该待处理图片对应的一张或多张车辆图像。具体的，在获取车辆图像时，先对每一张待处理图片进行车辆检测，以获取该待处理图片的车辆位置信息，再根据该车辆位置信息对该待处理图片进行裁剪，以获取对应的车辆图片，进而对车辆图片进行预处理，以生成与该待处理图片关联的一张或多张车辆图像。其中，车辆位置信息是指车辆图像在待处理图片中的位置，一般为车辆的外接矩形位置，预处理包括平滑、直方图均衡、加噪声、中心化和镜像操作中的至少一种。若待处理照片有M张，则可得到M张车辆图片，对这M张车辆图片每进行一种预处理就可再增加M张，如果有N种预处理方式，则最终车辆图像数量为M×(N+1)。在该实施方式中，一共收集有10万张待处理图片，在获取到每一张待处理图片对应的车辆图片后，对各车辆图片进行平滑处理后再进行添加椒盐噪声处理，则可得到100000×(2+1)＝300000张车辆图像。然后，对每一张车辆图像，获取其对应的待处理图片关联的车系信息，根据该车系信息与该车辆图像生成相应的车辆图像信息，最后汇集各车辆图像信息，以形成车辆图像数据集合。

图5示出了根据本发明一个实施例的移动终端500的结构框图。移动终端500可以包括存储器接口502、一个或多个数据处理器、图像处理器和/或中央处理单元504、显示屏幕(图5中未示出)，以及***接口506。

存储器接口502、一个或多个处理器504和/或***接口506既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端500中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子***可以耦合到***接口506，以便帮助实现多种功能。

例如，运动传感器510、光线传感器512和距离传感器514可以耦合到***接口506，以方便定向、照明和测距等功能。其他传感器516同样可以与***接口506相连，例如定位***(例如GPS接收机)、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子***520和光学传感器522可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子***和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(厘米OS)光学传感器。可以通过一个或多个无线通信子***524来帮助实现通信功能，其中无线通信子***可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子***524的特定设计和实施方式可以取决于移动终端500所支持的一个或多个通信网络。例如，移动终端500可以包括被设计成支持LTE、3G、GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及Bluebooth^TM网络的通信子***524。

音频子***526可以与扬声器528以及麦克风530相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。I/O子***540可以包括触摸屏控制器542和/或一个或多个其他输入控制器544。触摸屏控制器542可以耦合到触摸屏546。举例来说，该触摸屏546和触摸屏控制器542可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。一个或多个其他输入控制器544可以耦合到其他输入/控制设备548，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。所述一个或多个按钮(未显示)可以包括用于控制扬声器528和/或麦克风530音量的向上/向下按钮。

存储器接口502可以与存储器550相耦合。该存储器550可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。存储器550可以存储操作***572，例如Android、iOS或是Windows Phone之类的操作***。该操作***572可以包括用于处理基本***服务以及执行依赖于硬件的任务的指令。存储器550还可以存储一个或多个程序574。在移动设备运行时，会从存储器550中加载操作***572，并且由处理器504执行。程序574在运行时，也会从存储器550中加载，并由处理器504执行。程序574运行在操作***之上，利用操作***以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理等。程序574可以是独立于操作***提供的，也可以是操作***自带的。另外，程序574被安装到移动终端500中时，也可以向操作***添加驱动模块。程序574可以布置为在操作***上由一个或多个处理器504执行相关的指令。在一些实施例中，移动终端500被配置为执行根据本发明的车系识别方法。其中，移动终端500的一个或多个程序574包括用于执行根据本发明的车系识别方法600的指令。

图6示出了根据本发明一个实施例的车系识别方法600的流程图。车系识别方法600适于在移动终端(例如图5所示的移动终端500)中执行，基于用于对图像中的车辆进行车系识别的卷积神经网络生成方法中、训练好的卷积神经网络进行车系识别。

如图6所示，方法600始于步骤S610。在步骤S610中，对待识别图像进行处理以获取待识别车辆图像。根据本发明的一个实施例，待识别图像为R1，对应的车系信息为S1，车系信息S1指示待识别图像R1中车辆的车系为奥迪A4L，对待识别图像R1进行处理得到待识别车辆图像T1。关于此处对待识别图像R1进行处理的过程，一般是通过图像裁剪、平滑处理等常规图像处理技术，以获取到可相适应作为卷积神经网络输入的待识别车辆图像T1，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

随后，进入步骤S620，将待识别车辆图像输入到训练好的卷积神经网络中进行车系识别。根据本发明的一个实施例，将待识别车辆图像T1输入到训练好的卷积神经网络进行车系识别。

接下来，在步骤S630中，获取训练好的卷积神经网络中分类器的输出。根据本发明的一个实施例，训练好的卷积神经网络中分类器F1的输出为3100个概率值，其中最大的概率值为0.86。

最后，执行步骤S640，根据分类器的输出确定待识别图像中车辆所对应的车系。根据本发明的一个实施例，概率值0.86为分类器F1的第1035个输出，所关联的车系信息为奥迪A4L，由此可确定待识别图像S1中车辆所对应的车系为奥迪A4L，且与真实的车系信息S1一致。

在实际应用中，通常是将基于上述训练好的卷积神经网络的识别模型封装在拍照识车的移动应用中，主要基于OpenCV的DNN(Deep Neural Network，深度神经网络)命名空间下的NET类实现模型的前向算法以完成识别。在下载安装该移动应用的过程中，直接将识别模型及车系信息数据部署在移动终端500。运行该移动应用后，其首先初始化识别模型，采用OpenCV的DNN命名空间下的dnn::readNetFromCaffe函数，实例化NET对象，实现识别模型的初始化。此后，该移动移动可以从本地相册中选取图片，或是通过摄像头拍摄图片，将获取的图片数据解码后，设置成卷积神经网络的输入数据。执行前向函数后，获取识别车系的类型，并从车系信息文件中查到对应的信息，返回给用户。整个移动应用所占存储空间较小，内存资源占用率低，且具备较高的识别精度和准确率，响应速度较快，能够给用户提供更好的体验。

现有的车系识别方法主要存在两个问题，一是依赖通信网络，在无网络或弱网络的条件下基本上无法使用，二是对拍照角度有较高要求，一般均需要拍摄车头或车尾图片，应用起来具有较大限制。根据本发明实施例的用于对图像中的车辆进行车系识别的卷积神经网络生成的技术方案，首先构建第一处理块和第二处理块，根据多个第一处理块、第二处理块和池化层，结合全连接层和分类器，构建以第一处理块为输入，以该分类器为输出的卷积神经网络，最后根据预先获取的车辆图像数据集合对该卷积神经网络进行训练，以便分类器的输出指示车辆所对应的车系。在上述技术方案中，卷积神经网络的构建是按照预设的连接规则将各第一处理块、第二处理块和最大池化层进行不断堆叠，并相应连接入全局平均池化层、全连接层和分类器来实现的，保证提取的特征明显优于人工设计特征，以实现识别精度的明显提升，从而大幅降低误判率。其中，第一处理块和第二处理块中除了卷积层之外，还可以相应添加批标准化层和激活层，以便加速网络收敛和缓解过拟合。在对卷积神经网络进行训练时，以车辆图像数据集合中的车辆图像为作为输入数据，以该车辆图像关联的车系信息为输出数据进行卷积神经网络的训练，在训练完成后，训练好的卷积神经网络即可作为车系识别模型移植到移动终端来应用。进而，根据本发明实施例的车系识别方法，将待识别车辆图像输入到已训练好的卷积神经网络中，根据分类器的输出来判断车系的类型，不仅结果精确度有了巨大的提升，并且使用时不需要与服务器端进行通信，避免了对通信网络，如4G网络的依赖性，提升了识别应用在无网络或弱信号网络下的可用度。此外，由于无需大量的计算服务器，还降低了识别应用的运营维护成本。

A6.如A1-5中任一项所述的方法，所述第一处理块和第二处理块的数量均为7。

A7.如A4-6中任一项所述的方法，所述最大池化层的数量为5，全局平均池化层的数量为1。

A8.如A1-7中任一项所述的方法，还包括预先生成车辆图像数据集合，所述预先生成车辆图像数据集合的步骤包括：

对每一张待处理图片进行图像处理，以获取该待处理图片对应的一张或多张车辆图像；

对每一张车辆图像，获取其对应的待处理图片关联的车系信息，根据所述车系信息与该车辆图像生成相应的车辆图像信息；

汇集各车辆图像信息，以形成车辆图像数据集合。

A9.如A8所述的方法，所述对每一张待处理图片进行图像处理，以获取该待处理图片对应的一张或多张车辆图像的步骤包括：

对每一张待处理图片进行车辆检测，以获取该待处理图片的车辆位置信息；

根据所述车辆位置信息对该待处理图片进行裁剪，以获取对应的车辆图片；

对所述车辆图片进行预处理，以生成与该待处理图片关联的一张或多张车辆图像。

A10.如A9所述的方法，所述预处理至少包括如下操作中的一种：

平滑、直方图均衡、加噪声、中心化和镜像操作。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的用于对图像中的车辆进行车系识别的卷积神经网络生成方法和/或车系识别方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种用于对图像中的车辆进行车系识别的卷积神经网络生成方法，适于在计算设备中执行，所述方法包括步骤：

构建第一处理块，所述第一处理块包括第一卷积层；

构建第二处理块，所述第二处理块包括依次相连的第二卷积层和第三卷积层，所述第二卷积层的每个卷积核分别对输入的特征图中的1个通道进行卷积，所述第三卷积层的卷积核尺寸为1×1，在所述第二卷积层和第三卷积层之间添加依次相连的第二批标准化层和第二激活层，在所述第三卷积层之后添加依次相连的第三批标准化层和第三激活层，以形成第二处理块；

根据多个第一处理块、第二处理块和池化层，结合全连接层和分类器构建卷积神经网络，所述卷积神经网络以第一处理块为输入，以所述分类器为输出；

根据预先获取的车辆图像数据集合对所述卷积神经网络进行训练，以便所述分类器的输出指示车辆所对应的车系，所述车辆图像数据集合包括多个车辆图像信息，每个车辆图像信息包括车辆图像和对应图像中车辆的车系信息。

2.如权利要求1所述的方法，所述构建第一处理块的步骤还包括：

在所述第一卷积层之后添加依次相连的第一批标准化层和第一激活层，以形成第一处理块。

3.如权利要求1所述的方法，所述池化层为最大池化层和全局平均池化层中任一种。

4.如权利要求1所述的方法，所述根据一个或多个第一处理块、第二处理块和池化层，结合全连接层和分类器构建卷积神经网络的步骤包括：

按照预设的连接规则，将各第一处理块、第二处理块和最大池化层进行相连后，连接全局平均池化层；

在所述全局平均池化层之后添加依次相连的全连接层和分类器，以构建以第一处理块为输入、以所述分类器为输出的卷积神经网络。

5.如权利要求1-4中任一项所述的方法，所述第一处理块和第二处理块的数量均为7。

6.如权利要求3所述的方法，所述最大池化层的数量为5，全局平均池化层的数量为1。

7.如权利要求1-4中任一项所述的方法，还包括预先生成车辆图像数据集合，所述预先生成车辆图像数据集合的步骤包括：

汇集各车辆图像信息，以形成车辆图像数据集合。

8.如权利要求7所述的方法，所述对每一张待处理图片进行图像处理，以获取该待处理图片对应的一张或多张车辆图像的步骤包括：

9.如权利要求8所述的方法，所述预处理至少包括如下操作中的一种：

平滑、直方图均衡、加噪声、中心化和镜像操作。

10.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-9所述的方法中的任一方法的指令。

11.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-9所述的方法中的任一方法。

12.一种车系识别方法，适于在移动终端中执行，所述方法基于权利要求1-9中任一项所述的训练好的卷积神经网络对图像中的车辆进行车系识别，包括步骤：

对待识别图像进行处理以获取待识别车辆图像；

将所述待识别车辆图像输入到训练好的卷积神经网络中进行车系识别；

获取所述训练好的卷积神经网络中分类器的输出；

根据所述分类器的输出确定所述待识别图像中车辆所对应的车系。

13.一种移动终端，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求12所述的方法的指令。

14.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由移动终端执行时，使得所述移动终端执行根据权利要求12所述的方法。