CN102646199B

CN102646199B - 复杂场景中的车型识别方法

Info

Publication number: CN102646199B
Application number: CN 201210049730
Authority: CN
Inventors: 朱松纯; 李博; 姚振宇
Original assignee: HUBEI LOTUS HILL INSTITUTE FOR COMPUTER VISION AND INFORMATION SCIENCE
Current assignee: HUBEI LOTUS HILL INSTITUTE FOR COMPUTER VISION AND INFORMATION SCIENCE
Priority date: 2012-02-29
Filing date: 2012-02-29
Publication date: 2013-12-18
Anticipated expiration: 2032-02-29
Also published as: CN102646199A

Abstract

本发明公开了一种复杂场景下的车型识别方法，包括以下步骤：初始化视频图像的部件字典，学习部件字典中每个部件的参数，根据学习的每个部件的参数和与或搜索树计算最优组成结构，采用最优组成结构训练和整合车辆模板，使用车辆模板检测和识别视频图像中的车型。本发明方法中的车辆模板最优组成结构的学习利用了动态规划算法、与或搜索树以及大量的实际样本，这样不仅提高了训练模板的效率，而且具有非常好的判别性，利于实际应用，本发明结合了Latent SVM算法和鲁棒的HOG特征，能够处理复杂场景下的车型识别，保证了实时性和通用性。

Description

复杂场景中的车型识别方法

技术领域

本发明涉及图像模式识别、智能视频监控和智能交通领域，具体涉及一种复杂场景中的车型识别方法。

背景技术

基于视频图像的车型识别指从图像和视频中自动识别出不同类型的车，如面包车、小轿车、大货车、大客车等等，它是智能交通***中的关键技术，无论在智能交通监控领域，还是在高速公路和停车场的全自动收费领域，它都有着极其重要的应用。

基于视频图像的车型识别一般分为三个部分：1、车辆图像的分割；2、特征提取；3、车型的识别及分类。目前文献中相关的车型识别方法主要包括：(a)基于原型的车型识别方法和(b)基于分类的车型识别方法。

对于基于原型的方法，往往需要首先建立标准的模板数据库，然后将经过分割、特征提取后的车辆图像与数据库中的模板进行匹配。它一般可以分为：i)基于车辆边缘的匹配；ii)基于车辆轮廓的匹配；iii)基于车辆几何参数(如高度、宽度、长度以及长宽比等)的匹配。这类方法最为简单直观，但它的缺点也相当明显：其一，从实际图像中精确的提取车辆的边缘、轮廓或其他几何参数比较困难；其二，这种方法往往要求摄像机必须安装在固定的位置并对其标定，限制了其应用场合；其三，这种方法一般只能分开大小、长宽比相差比较明显的车辆，如大型车和小型车，而对于大小、长宽比相差不明显的车(例如同为大型车的货车和客车，或同为小型车的轿车和吉普车就很难区分)；其四，这种方法不够鲁棒，很容易受到图像噪声、天气情况的影响。

对于基于分类的方法，往往需要首先对车辆提取各种特征，然后设计合理的分类器来分类车型。这类方法的性能往往取决于特征的选择和分类器的设计。它一般可以分为：i)基于神经网络的车型识别；ii)基于Gabor滤波器的车型识别；iii)基于支持向量机(SVM)的车型识别。其中，i)将车辆的三维结构模型的参数作为特征，然后利用神经网络对车辆的类型进行分类，ii)提取了车辆的Gabor特征，然后利用模板匹配的方法实现车型分类，iii)提取了车辆的某些特征(如车辆的绝对高度、宽度和长度，SIFT特征等)，然后利用支持向量机(SVM)对车辆分类。虽然这类方法相比于基于原型的方法，具有更强的鲁棒性，但它们也存在着共同的缺点：其一，这类方法还是非常依赖于图像分割的好坏，往往只能处理背景简单的情形；其二，这类方法选择的特征还是不够鲁棒，其三，这类方法所采用的模型都比较简单，只能表示目标的粗略信息，一般也只能将车辆划分为大中小三种类型，而不能进行进一步的详细分类；其四，这类方法还是高度依赖于摄像机的放置位置。

近来，基于部件的目标分类方法已成为一种趋势，尤其是Felzenswalb提出的基于形变的部件模型(Deformable part template)取得了极大的成功(见“ObjectDetection with Discriminatively Trained Part Based Models”，IEEE Transactions onPattern Analysis and Machine Intelligence，32(9)：1627-1645，2010)。该方法用Latent-SVM算法训练一个两层的星形模型，这个模型结合了目标整体与目标部件之间的几何位置关系，相比于之前的识别方法具有以下优势：(1)使用了更为鲁棒的HOG特征，使得模型更具有判别性，有效地克服了现有方法对复杂应用背景和噪声的敏感；(2)采用基于形变的部件模型，允许部件在一定的方向、位置和尺度上变化，因此能够捕获目标的细节信息。传统的识别方法在识别车辆时，往往将车作为一个整体进行识别，而该模型不仅依据整车，还依据车轮、车窗等车的部件来识别车，增加了识别的可靠性；(3)这种方法不需要预先对目标进行分割，因此避免了传统方法由于目标分割不准确所带来的困难。然而，由于该方法使用启发式方法对部件进行初始化，因此对于部件并不能总是找到好的初始化位置，这往往会造成模型的失效；其次，该启发式方法还高度依赖于人工设定的部件的个数和形状。在实际中，目标的部件个数和形状往往不是固定的，它依赖于摄像机视角、距离目标的远近以及目标类别之间的差异，这样，对于每种类型的车辆，很难人工地选择一组恰当的部件。

发明内容

本发明的目的在于提供一种复杂场景中的车型识别方法，其能够高效地定位和识别车辆的类型，并大大提高车型识别的速度。

本发明是通过以下技术方案实现的：

一种复杂场景下的车型识别方法，包括以下步骤：

(1)初始化视频图像的部件字典，包括以下子步骤：

(1-1)根据视频图像中正负样本的大小确定视频图像中检测窗口的长宽比和面积；

(1-2)根据检测窗口的长宽比和面积确定部件字典中部件的形状，面积和固定点；

(1-3)根据部件的形状，面积和固定点构建与或搜索树；

(2)学习部件字典中每个部件的参数；

(3)根据学习的每个部件的参数和与或搜索树计算最优组成结构，包括以下子步骤：

(3-1)根据学习的每个部件的参数计算每个部件在正负样本的得分，

并初始化与或搜索树的叶子节点；

(3-2)根据正负样本的得分计算与或搜索树的最高得分；

(3-3)根据最高得分在与或树上确定所选取的节点，以得到最优组成结构；

(4)采用最优组成结构训练和整合车辆模板；

(5)使用车辆模板检测和识别视频图像中的车型。

步骤(2)中，是使用Latent-SVM算法学习部件字典中每个部件的参数。

步骤(3-2)中是通过动态规划算法自下而上计算与或搜索树的最高得分。

步骤(3-3)中是通过自下而上的回溯方法计算最优组成结构。

步骤(4)具体包括：对不同角度、不同类型的车辆进行模板的训练和整合，并对不同模板的阈值进行统一化。

步骤(5)具体包括：在检测和识别车型时采用滑动窗口的方法，并对视频图像提取HOG特征金字塔。

相对于现有技术，本发明具有以下的优点和有益效果：

(1)本发明中的车辆模板利用了从大量训练样本上学习到的部件最优组成结构，有效地提高了模板的判别性和识别的准确率；

(2)本发明中的车辆检测采用了滑动窗口方法，有效地克服了已有的背景减除法、帧间差法和光流法对噪声的敏感，有效的克服了图像噪声的影响，大大地扩展了该方法的应用范围；

(3)本发明结合了Latent SVM算法和鲁棒的HOG特征，并且根据车的类型和视角训练出相应组成结构的部件模板，不需要摄像机固定，能够处理复杂场景下的车型识别，保证了实时性和通用性；

(4)本发明的方法并不局限于粗略的车辆检测和分类，如小型车和大型车，它能够进行更加细致的分类，比如轿车和吉普车、出租车和面包车等等。

附图说明

图1为本发明复杂场景中的车型识别方法的流程图。

图2为训练样本及其对应的模板。

图3示出与或搜索树。

图4(a)示出本发明方法对于小汽车的车型识别结果。

图4(b)示出本发明方法对于卡车的车型识别结果。

具体实施方式

以下首先对本发明的技术术语进行解释和说明。

部件：对应于车辆的一部分，可能是车轮、车窗、车门或者车身上的一块儿区域等等；

部件词典：由所有部件组成的一个集合；

正样本：由两部分组成：包含车辆的图像和车辆在图像中的位置(用矩形框的左上角坐标和右下角坐标标注)。

负样本：不包含车辆的图像。

学习样本：即正负样本。

与或搜索树：人工智能和计算机视觉中的一个概念，是由与或图推广而来，与或图是一种***地将问题分解为互相独立的小问题，然后分而解决的方法。与或图中有两种代表性的节点：“与节点”和“或节点”。“与节点”指所有的后续节点都有解时它才有解；“或节点”指各个后续节点均完全独立，只要其中有一个有解它就有解。对于与或树而言，除了起始节点，其余每一个节点都只有一个父节点。

回溯：主要是指在求得了最优解之后，从与或树的根节点开始向叶节点搜索，以确定在求最优解过程中所经过的节点或状态。

检测窗口：指图像上的一个矩形框，在检测目标时，用矩形框在多个尺度上扫描图像，扫描的每一步只关心矩形框内的图像信息，看这个矩形框内是否包含目标，这个矩形框形象的说就是一个窗口。

如图1所示，本发明的复杂场景中的车型识别方法如下：

1、初始化视频图像的部件字典，具体包括以下子步骤

(1-1)根据视频图像中正负样本的大小确定视频图像中检测窗口的长宽比和面积；对一组训练样本D＝{x₁，x₂，...，x_n，...}，使用样本长宽比与高斯函数卷积的峰值作为检测框的长宽比，使用样本面积百分之二十分为点作位检测框的面积；

具体而言，根据检测窗口的大小，枚举所有候选部件的面积、长宽比和固定点，其中，部件的面积不能大于检测框面积的一半。部件的边缘不能超过检测框的边缘。

(1-3)根据部件的形状，面积和固定点构建与或搜索树；

如图2所示，其中与节点代表将父节点中的部件拆分为两个子部件，或节点代表不同的拆分方式。与或搜索树枚举所有部件的组成关系，每一棵子树对应部件的一种组成结构。另外，字典中的候选部件满足大小不少于3×3的HOG块且不大于粗尺度模板的大小。训练样本及其对应的模板如图1所示。

2、使用Latent-SVM算法学习部件字典中每个部件的参数；

选取字典中所有的候选部件，其参数可以由Latent-SVM算法学习得到：

\min \frac{1}{2} {| | w | |}_{2} + \frac{C}{n} Σ_{i = 1}^{n} \max (0,1 - y_{i} Σ_{j = 0}^{M} w_{j} σ_{j} (x_{i}, h_{j})) - - - (2)

这里，w是所有M个部件的参数组成的长向量，w_j是第j个部件的参数。σ_j(x_i，h_j)是第j个部件提取出的HOG特征。h_j是隐变量，具体代表每个部件提取的特征的位置，及旋转角度。

3、根据学习的每个部件的参数和与或搜索树计算最优组成结构；

具体而言，从字典中选出一组不重叠且完全覆盖检测窗口的部件。每个部件是否被选择是根据其在所有正负样本上的得分来确定的，这个得分通过如下公式计算：

r_{j} = Σ_{i = 1}^{n} w_{j} σ_{j} (x_{i}, h_{j}) - {| | w_{j} | |}_{2} - - - (3)

根据每个候选部件的得分，通过动态规划算法在与或搜索树上计算最优的组成结构，如图3所示，具体包括以下子步骤：

(3-1)根据学习的每个部件的参数计算每个部件在正负样本的得分，并初始化与或搜索树的叶子节点。根据公式(3)计算出的每个候选部件的得分，并赋给与或搜索树中相应的每个叶子节点。其他的叶子节点赋分为0；

(3-2)根据正负样本的得分，自下而上的使用动态规划算法计算最高得分。根据每个叶子节点的得分，可以计算每个节点的最高得分。每个与节点的得分是两个叶子节点的分支和，每个或节点得分是所有子节点得分的最大值；

(3-3)根据最高得分从根节点向叶节点回溯整个与或树，确定所选取的节点，从而得到最优组成结构。根据回溯的方法，可以得到最优路径，该最优路径中包含的部件即为最优组成结构中的部件。被选中的部件组成了最优组成结构；

4、采用最优组成结构训练和整合车辆模板；

具体而言，利用步骤(3)中学习到的部件最优组成结构，我们对不同角度、不同类型的车辆进行模板的训练，例如为了识别小汽车和卡车这两种车型，我们可能需要对小汽车和卡车进一步划分三种视角：车头、车尾和车侧身。这样我们就需要训练6个车型模板，最终的车辆模板就包含了这6个模板。另外为了统一化每个模板的检测阈值，我们还需要调整各个模板之间的偏置项，最终模板的阈值和各个模板的偏置项都是通过Latent-SVM算法在训练样本上学习到的。

在训练样本上每个部件的位置和大小没有事先标定，属于隐藏变量，因此模板的训练需要采用坐标下降算法，坐标下降算法分为两步：1)固定模板的参数，定位每个部件的位置；2)固定部件的位置，学习模板的参数。算法一直在这两个过程之间迭代，直到满足终止条件。同时，为了加速算法的收敛，我们采用了数据挖掘困难负样本的技术，在每一次迭代训练时，动态地添加分类出错的困难负样本，动态地移除远离分类面的简单负样本。

5、使用车辆模板检测和识别视频图像中的车型。

对车辆的检测和识别采用滑动窗口方法，具体流程如图4(a)和图4(b)所示，对于视频流中的一帧图像，首先我们在多个尺度上提取HOG特征金字塔，然后利用第4步训练得到的模板，在特征金字塔上依次检测并识别图像中所包含的车辆，这个过程就是计算车辆模板和HOG特征向量的响应，如果响应值高于检测的阈值，那么算法就预测这里检测到了一辆车。其中，对于每一个候选的车辆，它所对应的车型就是具有最大响应的模板所对应的车型。例如，我们有一个由6个车型模板组成的小汽车(Car)和卡车(Truck)综合模板。对于图像中检测到的一辆车，算法对比各种类型的车辆模板的响应，如果卡车的车尾模板的响应最大，那么检测到的这个车就是卡车。对于图像中每一辆车，算法输出其所在的位置及对应的车型类别，如图5a和图5b所示。

另外，在检测和识别车型时，我们采用Cascade剪枝算法，在训练样本上学习出一系列的部件剪枝阈值，这样把原来的检测过程划分成了多个阶段，能够对多个车型和角度的车辆模板进行并行检测和识别，大大提高了算法的运行速度。

Claims

1.一种复杂场景下的车型识别方法，其特征在于，包括以下步骤：

(1)初始化视频图像的部件字典，包括以下子步骤：

(1-1)根据所述视频图像中正负样本的大小确定所述视频图像中检测窗口的长宽比和面积；

(1-2)根据所述检测窗口的长宽比和面积确定所述部件字典中部件的形状，面积和固定点；

(1-3)根据所述部件的形状，面积和固定点构建与或搜索树；

(2)使用Latent-SVM算法学习所述部件字典中每个部件的参数；

(3)根据所述学习的每个部件的参数和所述与或搜索树计算最优组成结构，包括以下子步骤：

(3-1)根据所述学习的每个部件的参数计算每个部件在所述正负样本的得分，并初始化所述与或搜索树的叶子节点；

(3-2)根据所述正负样本的得分计算所述与或搜索树的最高得分；

(3-3)根据所述最高得分在所述与或树上确定所选取的节点，以得到所述最优组成结构；

(4)采用所述最优组成结构训练和整合车辆模板；

(5)使用所述车辆模板检测和识别所述视频图像中的车型，具体包括：在检测和识别车型时采用滑动窗口的方法，并对所述视频图像提取HOG特征金字塔。

2.根据权利要求1所述的一种复杂场景下的车型识别方法，其特征在于，所述步骤(3-2)中是通过动态规划算法自下而上计算所述与或搜索树的最高得分。

3.根据权利要求1所述的车型识别方法，其特征在于，所述步骤(3-3)中是通过自下而上的回溯方法计算所述最优组成结构。

4.根据权利要求1所述的车型识别方法，其特征在于，所述步骤(4)具体包括：对不同角度、不同类型的车辆进行模板的训练和整合，并对不同模板的阈值进行统一化。