CN110232316A

CN110232316A - 一种基于改进的dsod模型的车辆检测与识别方法

Info

Publication number: CN110232316A
Application number: CN201910366444.XA
Authority: CN
Inventors: 蒋洋涛; 冯涛
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2019-09-13

Abstract

本发明公开了一种基于改进的DSOD模型的车辆检测与识别方法，DSOD是在SSD算法的基础上进行改进的，可以简单理解为SSD+DenseNet＝DSOD，采用proposal‑free的检测模型SSD，加入DenseNet的思想。DSOD模型分成两个部分：用于特征提取的Backbone，用于目标预测的Front‑end。Backbone子网络类似于DenseNet，由一层Stem block(主干模块),四层Dense blocks(Dense模块),两层Transition layers(过渡层),两层Transition w/o pooling layers(过渡w/o池化层)，作用是用来提取图像特征。Front_end sub_network(前端检测子网络)是通过Dense Connetion实现边界框检测效果。

Description

一种基于改进的DSOD模型的车辆检测与识别方法

技术领域

本发明涉及交通图像处理技术领域，尤其涉及一种基于改进的DSOD模型的车辆检测与识别方法。

背景技术

随着国民经济发展和人工智能技术的发展，智能驾驶汽车领域获得了空前的大发展。目标检测是智能驾驶汽车环境识别感知的关键一环，对道路前方目标车辆检测有助于做出安全准确的驾驶决策指令。日常驾驶场景下计算机视觉的目标检测任务中，道路情况相当复杂，各种大小行驶的车辆，车辆相互遮挡情况，晴雨天光照的变化等不利因素都影响着车辆目标检测效果的准确性。在目标检测领域中，传统的人工标注正、负样本方式制作训练样本成本比较高昂，使用HOG(Histogram of Oriented Gradient，方向梯度直方图)或Haar等人工特征进行图像的特征提取，再使用SVM(Support Vector Machine，支持向量机)来判别。但是花费了大量人力、物力制作训练的样本库训练出的分类识别效果不一定满足产品要求。而通过深度学习方法，尤其是深度卷积神经网络(Deep Convolutional NeuralNetworks，DCNN)的出现打破了图像语义表达的局限，通过丰富的特征表达信息进行匹配、评估和分类。比较有代表性的方法：R-CNN(Region-CNN)方法是利用选择性搜索(SelectiveSearch，SS)算法评测相邻图像子块的特征相似度，通过合并打分的候选框输入到卷积神经网络结构内部的分类器进行特征向量分类，达到目标检测定位的目的。Fast R-CNN方法则是设计一种RoI Pooling的池化层结构，解决将图像区域剪裁、缩放到相同尺寸大小的操作，仍然没有摆脱选择性搜索算法生成正负样本候选框的问题。Faster R-CNN方法属于两级检测，使用区域生成网络(Region Proposal Networks，RPN)来提取大量候选区域，对其进行分类和回归，得出目标的位置定位，但由于运算速度过慢，且内存消耗庞大。YOLO(Youonly look once，YOLO)方法属于一级检测，使用7*7的网络进行端对端的回归计算，预测每个网格内的边框坐标和每个类别置信度将目标的分类和定位合并处理，检测速度指标虽较快，但是简单的网络回归运算检测精度并不高。SSD(Single Shot MultiBox Detector，SSD)也是端到端的算法，引入不同卷积层检测结构预测，提升多尺度和多比例的检测能力，但低层特征语义信息的缺失导致小目标检测能力比较弱。

发明内容

为了克服上述背景技术所存在的不足，以及必须要通过在ImageNet分类任务上预训练的模型作为初始权重,本发明提供一种基于改进的DSOD模型的车辆检测与识别方法，本发明提供了一种从0开始训练的检测模型，而不是微调一个预训练的模型，并通过FocalLoss代替Softmax Loss降解目标检测过程中损失，即能准确地实现目标检测，又能提升模型结构的灵活性、学习偏置差异问题和问题域的不匹配。本发明能够对道路情况下汽车驾驶场景下的目标有效检测。

本发明解决其技术问题所采用的技术方案是：

步骤S1：通过KITTI公开数据集的车辆行驶视频图像安数据，并对训练数据集数据进行预处理；

步骤S2：以TensorFlow框架为基础，使用python编程语言搭建DSOD网络模型；

步骤S3：网络初始化，直接丢弃使用预训练模型来训练现有的数据集，通过训练数据集的迭代训练更新相关权重值；

步骤S4：网络初始化，不使用预训练模型来训练现有的数据集，直接通过训练数据集的迭代训练更新相关网络权重值；

步骤S5：通过汽车上的摄像机采集的道路上前方的图像，输入到网络进行检测，即可输出目标检测后的类别及坐标，从而达到目标检测功能。

本发明包括

通过引入DSOD模型，DSOD是在SSD算法的基础上进行改进的，可以简单理解为SSD+DenseNet＝DSOD，采用proposal-free(自由建议框)的检测模型SSD，加入DenseNet的思想。DSOD模型可以从0开始训练数据，不需要预训练模型，而且效果可以和fine-tune(微调)的模型相当接近。DSOD模型分成两个部分(参考说明书附图图1)：用于特征提取的Backbone(主干检测模块)，用于目标预测的Front-end(前端检测模块)。Backbone子网络类似于DenseNet，如附图(1)所示，由一层Stem blocks(主干模块),四层Dense blocks(Dense模块),两层Transition layers(过渡层),两层Transition w/o pooling layers(过渡w/o池化层)，作用是用来提取图像特征。Front_end sub_network是通过Dense Connetion实现边界框检测效果。

步骤S31：原始图像读取进来，需要经过6种不同尺寸的特征，Scale-1特征映射来自骨干子网的中间层，其具有最大分辨率(38*38)处理图像中的小对象。剩下的五个规模位于骨干子网的顶部。

步骤S32：一个具有瓶颈结构的平滑过渡层，1*1conv-layer(卷积层)用于减少特征映射的数量加上a在两个连续的之间采用3*3转换层特征图的比例。

步骤S33：每个虚线框内都有一个1*1的卷积和一个3*3的卷积操作，相当于一个bottleneck(瓶颈块)。卷积层特征图计算公式：

D_o＝K

1)输入的数据尺寸是W_i×H_i×D_i(W_i,H_i是输入的图像尺寸宽和高，D_i是输入图片的通道数)。

2)4个超参数：滤波器个数K，滤波器空间尺寸F，滑动步长S，零填充的数量P。

3)输出的数据尺寸是W_o×H_o×D_o

4)由于参数共享，每个滤波器包含的权重数目为F×F×D_o，一层卷积层一共有F×F×D_o×K个权重和K个偏置。

1*1卷积在前的作用主要是为了降低channel(通道)个数从而降低3*3卷积计算量的作用。

步骤S34：每个bottleneck(瓶颈模块)的输入是前面所有bottleneck的输出的级联结果，即一半的特征图是从先前的尺度中学习的，带有一系列的卷积层，而其余的则是一半特征映射从连续的高分辨率特征映射中直接下采样，如附图(3)所示。由鉴于此两个卷积的通道数量应保持相同数量。

步骤S321：原始图像另一条并行处理的线是downsampling block(下采样模块)，其中包括2*2 max pooling，stride＝2(最大值池化起下采样作用)和一个1*1，stride＝1Conv-layer(起降低channel个数的作用)，池化层特征图计算公式：

D_o＝K

2)2个超参数：滤波器空间尺寸F，滑动步长S。输出的数据尺寸是W_o×H_o×D_o。实验证明，在卷积层之间引入最大池化的效果最好，而平均池化一般放在卷积神经网络的最后一层。

步骤S322：汇集层旨在连接期间将分辨率与当前大小匹配。1*1转换层用于减少数量渠道达到50％。

步骤S323：汇集层位于之前考虑降低计算成本，1*1转换层的下采样块实际上带来了每个使用来自其所有的多分辨率特征映射进行缩放先前的尺度，这与DenseNet中引入的密集分层连接基本相同，DenseNet结构示意图如附图(2)所示。对于每一个层只学习一半的新特征映射并重用以前剩下的一半。这种密集的预测结构即可以用更少的结果产生更准确的结参数比普通结构，又为了减少计算量。

步骤S41：就单级结构摒弃了提取特征建议的过程，只用一级就完成了识别/回归，虽然速度较快但准确率远远比不上两级结构，为此本发明引入了Focal Loss替代SoftmaxLoss，过调整loss的计算公式使单级结构在训练初始阶段提高正样本的分类概率。

与现有技术相比较，本发明引入了Focal Loss替代Softmax Loss，通过调整loss的计算公式使单级结构在训练初始阶段提高positive的分类概率。对于每一个层只学习一半的新特征映射并重用以前剩下的一半。这种密集的预测结构即可以用更少的结果产生更准确的结参数比普通结构，又为了减少计算量。而且可以跳过通过微调预训练模型的大数据高耗能训练的思维，改进的DSOD模型可以从0开始训练数据，不需要预训练模型，设计的模型结构的效果又可接近预训练模型上的检测效果，从而完成车辆目标检测的准确性和稳定性的要求。

附图说明

图1是本发明所提出的改进的DSOD网络结构；

图2是本发明所提出的结合在检测网络的DenseNet网络结构；

图3是本发明所提出的结合在检测网络的Dense Connection结构；

图4是本发明的目标检测过程的流程图。

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

以下将结合附图对本发明提供的技术方案作进一步说明。

以下通过特定的具体事例以及结合相关图表说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与效果。本发明还可以通过另外不同类别方式的实施方式加以验证或应用。

本发明实施例以德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办的KITTI数据集为研究对象。KITTI数据集包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。

参见图1-4，本发明提供一种基于改进的DSOD网络的车辆检测与识别方法，具体包括以下步骤：

步骤S11：准备数据集，数据集包含含有车辆目标的图像以及对应的标注文件，训练集的图片需要标注车辆，行人，骑自行车的人三类目标，其中标注文件的标注信息必须和相对应的图像文件一一对应，顺序不能发生错误以免影响模型训练的效果。

步骤S21：以TensorFlow框架为基础，基于DSOD的深度卷积神经网络模型；

步骤S22：参照附图1所示的网络结构构建技术上的深度卷积神经网络模型，利用该模型处理输入图像，预测目标的类别和坐标。

步骤S23：本发明引入此层以增加密集块的数量，而不会降低最终的特征映射分辨率。在原始设计中在DenseNet中，每个过渡层都包含一个池化操作，用于对特征映射进行下采样。

步骤S24：如果想要保持相同的输出比例，密集块的数量是固定的(所有DenseNet架构中有4密集块)。增加网络深度的唯一方法是在原始DenseNet的每个块内添加层。没有池化层的转换消除了我们DSOD架构中密集块数量的这种限制，也可以用于标准的DenseNet。

本发明的DSOD整体结构框架解释如下：

步骤S221：Stem Block(骨干模块)：借鉴于VGG结构的思想在一个3*3stride为2的卷积核和两个3*3stride为1的卷积核后紧接着采用一个2*2max pooling，stride为2最大值池化层。max pooling(最大值池化)主要功能是下采样，却又不会损坏识别结果，意味着卷积后的特征图中有对于物体不必要的冗余信息

步骤S222：Dense Block(Dense模块)：利用DenseNet每层都可以直接访问损失函数和原始输入信号的梯度，从而导致隐含的深度监督。将前面层的特征图可以连接到现在层上。公式如下式所示：

x_l＝H_l([x₀,x₁...x_l-1])

[x₀,x₁...x_l-1]表示将0到l-1层的输出特征图做级联操作。级联操作是做通道的合并。而Resnet是做值的相加，通道数是不变的。

步骤S223：H_l(.)是一个复合函数，其中包括三个操作的组合：BN(批归一化)，ReLU(非线性处理单元)和3*3Conv-layer(卷积操作层)。

步骤S224：由于串联操作要求特征图x₀,x₁...x_l-1大小一致，而Pooling操作会改变特征图的大小，又不可或缺，于是借鉴了类似于VGG模型中的“卷积栈”的做法。每个DenseBlock的之间层称为transition layers(过渡层)，由1*1Conv layers和2*2Max Pooling，stride为2组成。DenseNet的优点有减轻梯度消失，加强特征的传递，更有效地利用特征以及较少参数数量的网络，Dense Block则是很好地利用这一特性，可以更好的利用前面层的信息了。

步骤S225：Transition w/o Pooling Layer(过渡w/o池化层)：一个1*1Convlayer，让特征图通道间的融合效果更好。

步骤S226：DSOD Prediction Layer(DSOD预测层)：配合着附图3解释Dense网络级联操作，本发明引入DenseNet思想的特征融合操作。

步骤S31.原始图像读取进来，需要经过6种不同尺寸的特征，特征映射来自骨干子网的中间层，其具有最大分辨率(38*38)处理图像中的小对象。剩下的五个规模位于骨干子网的顶部。然后，一个具有瓶颈结构的平滑过渡层(1*1卷积层用于减少特征映射的数量加上在两个连续的之间采用3*3转换层特征图的比例。每个虚线框内都有一个1*1的卷积和一个3*3的卷积操作，相当于一个瓶颈模块。1*1卷积在前的作用主要是为了降低通道数从而降低3*3卷积计算量的作用。每个瓶颈模块的输入是前面所有瓶颈模块的输出的级联操作结果，即一半的特征图是从先前的尺度中学习的，带有一系列的卷积层，而其余的则是半特征映射从连续的高分辨率特征映射中直接下采样。由鉴于此两个卷积的通道数应保持相同数量。

步骤S32.原始图像另一条并行处理的线是downsampling block(下采样模块)，其中包括2*2 max pooling，stride＝2(最大值池化起下采样作用)和一个1*1，stride＝1conv-layer(起降低通道个数的作用)，汇集层旨在连接期间将分辨率与当前大小匹配。1*1转换层用于减少数量渠道达到50％。池化层位于之前考虑降低计算成本，1*1转换层的下采样块实际上带来了每个使用来自其所有的多分辨率特征映射进行缩放先前的尺度，这与DenseNet中引入的密集分层连接基本相同。对于每一个层只学习一半的新特征映射并重用以前剩下的一半。这种密集的预测结构即可以用更少的结果产生更准确的结参数比普通结构，又为了减少计算量。

步骤S41：每个规模DSOD特征图是从多个分辨率连接起来的，采用L2归一化技术将所有输出上的特征范数缩放到4。大多数训练策略遵循SSD，包括数据增加，规模和默认框和损失函数的宽高比(例如，平滑L1损失用于定位目的和softmax损失为了分类目的)，本发明就单级结构摒弃了提取特征建议的过程，只用一级就完成了识别/回归，虽然速度较快但准确率远远比不上两级结构；

步骤S42：为此本发明引入了Focal Loss替代Softmax Loss，

Softmax Loss函数定义式：

其中Vi是分类器前级输出单元的输出，i表示类别索引，C为总的类别数，Si是当前元素的指数与所有元素指数和的比值。Softmax将分类的输出数值转化为相对概率。

过调整loss的计算公式使单级结构在训练初始阶段提高正样本的分类概率。

步骤S421：Focal Loss计算公式如下：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

p_t是不同类别的分类概率，γ是个大于0的值，α_t是个[0，1]间的小数，γ和α_t都是固定值，不参与训练。

步骤S422：无论是前景类还是背景类，p_t越大，权重(1-p_t)^γ就越小。也就是说简单的例子可以通过权重进行抑制；

α_t用于调节positive(正样本)和negative(负样本)的比例，前景类别使用α_t时，对应的背景类别使用1-α_t；

γ和α_t的最优值是相互影响的，所以在评估准确度时需要把两者组合起来调节。

步骤S51：网络训练好以后，通过实际车载摄像机采集的车辆信息图像，输入到训练好的网络进行检测，即可输出目标类别和坐标。在调优过程中对网络输出的边界框预选值进行处理优化，对边界框进行置信度投票优化。

步骤S511：首先对检测出的结果进行非极大值抑制，得到局部区域的置信度最高的检测框(score_i，bbox_i)；

步骤S512：再利用领域中与其交并比IOU大于0.5的检测框(score_i，bbox_i)，对输出的bbox_i值进行加权优化，计算如下：

score_i代表网络预测的置信度值，bbox_i代表网络输出的目标边界框位置坐标。

为了克服上述背景技术所存在的不足，以及必须要通过在ImageNet分类任务上预训练的模型作为初始权重。其中通过Focal Loss代替Softmax Loss降解目标检测过程中损失，即能提升模型结构的灵活性、学习偏置差异问题和问题域的不匹配，又能准确地实现目标检测。从而提高对道路情况下汽车驾驶场景下的目标检测的准确性和稳定性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均在包含在本发明的保护范围之内。

Claims

1.一种基于改进的DSOD模型的车辆检测与识别方法，其特征在于，该方法包括以下步骤：

步骤S1：采用KITTI公开数据集的车辆行驶视频图像，并对训练数据集数据进行预处理；

步骤S4：网络初始化，直接丢弃使用预训练模型来训练现有的数据集，通过训练数据集的迭代训练更新相关权重值；

步骤S5：通过汽车上的摄像机采集的道路上前方的图像，输入到网络进行检测，即可输出目标检测后的类别及坐标，从而达到目标检测功能；

其中，改进的DSOD网络模型采用proposal-free的检测模型SSD，并加入DenseNet的思想，不需要预训练；

所述DSOD网络模型分成两个部分：用于特征提取的Backbone和用于目标预测的Front-end；Backbone子网络类似于DenseNet，由一层Stem block(主干模块),四层Dense blocks(Dense模块),两层Transition layers(过渡层),两层Transition w/o pooling layers(过渡w/o池化层)，作用是用来提取图像特征；Front_end子网络通过Dense Connetion实现边界框检测效果；

所述步骤进一步S3包括：

步骤S31：原始图像读取进来，经过6种不同scale的特征，特征映射来自骨干子网的中间层；

步骤S32：一个具有瓶颈结构的平滑过渡层(1*1卷积层用于减少特征映射的数量加上在两个连续的之间采用3*3转换层特征图的比例；

步骤S33：每个虚线框内都有一个1*1的卷积和一个3*3的卷积操作，相当于一个bottleneck；

步骤S34：每个bottleneck的输入是前面所有bottleneck的输出的级联操作结果，即一半的特征图是从先前的尺度中学习的，而其余的则是半特征映射从连续的高分辨率特征映射中直接下采样；

所述步骤S32进一步包括：

步骤S321：原始图像另一条并行处理的线是downsampling block，其中包括2*2 maxpooling，stride＝2和一个1*1，stride＝1 conv；

步骤S322：汇集层旨在在连接期间将分辨率与当前大小匹配，1*1转换层用于减少数量渠道达到50％；汇集层位于之前考虑降低计算成本，1*1转换层的下采样块实际上带来了每个使用来自其所有的多分辨率特征映射进行缩放先前的尺度；

所述步骤S4进一步包括：

步骤S41：引入了Focal Loss替代Softmax Loss；

步骤S42：调整loss的计算公式使单级结构在训练初始阶段提高positive的分类概率，根据正负样本计算的损失，然后反向传播迭代训练，直至对道路情况下汽车驾驶场景下的目标检测的准确性和稳定性达到预计要求。