CN110956643A

CN110956643A - 一种基于MDNet的改进车辆跟踪方法及***

Info

Publication number: CN110956643A
Application number: CN201911227267.3A
Authority: CN
Inventors: 李爱民; 王建文; 逄业文
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-03

Abstract

本公开提供了一种基于MDNet的改进车辆跟踪方法及***，采用改进MDNet跟踪算法，首先采用Mask RCNN将视频帧进行实例分割操作，把实例分割所得到的候选区域作为改进的MDNet算法的输入，从而强化了前景跟踪目标，减小了跟踪的范围，可以更加清晰的区分背景和目标，进而提高了跟踪的实时性和准确率；同时公开所述的改进MDNet跟踪算法的训练和测试都是在线进行，实例分割后更小的网络结构使得其在目标跟踪当中鲁棒性更好。

Description

一种基于MDNet的改进车辆跟踪方法及***

技术领域

本公开涉及车辆跟踪技术领域，特别涉及一种基于MDNet的改进车辆跟踪方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

计算机视觉作为人工智能领域的热门学科之一，受到了国内外学者的广泛关注。视觉目标跟踪作为计算机视觉的一个重要研究分支，广泛吸引了视觉研究者的目光。2015年开始，深度学习进军目标跟踪领域，使用深度学习可以更好的提取目标的特征。对目标进行更好的表达，处理强大的目标变化和防止***漂移，能够对目标进行范围定位。视觉目标跟踪技术已经广泛运用于生活以及军事等多个方面。车辆目标跟踪是智能交通领域研究的一个关键问题，智能交通***根据所采集的视频图像进行交通流量控制、车辆违法行为检测等任务。车辆目标的准确检测与跟踪对交通安全和智能车辆管理具有重要意义。

本公开发明人发现，目前常用的对运动车辆进行跟踪的算法主要有基于光流的目标跟踪、基于运动估计的目标跟踪、基于识别的目标跟踪以及基于深度学习的目标跟踪方法，车辆目标跟踪研究的难点在于如何保证算法的鲁棒性、实时性和准确性。现有的跟踪算法在处理简单背景情况下的运动车辆跟踪问题时具有较好的效果，但由于目标运动的复杂性及目标特征的时效性，当跟踪目标发生遮挡、旋转、尺度变化及背景干扰时，跟踪效果很差，难以获得较为鲁棒的跟踪效果。

发明内容

为了解决现有技术的不足，本公开提供了一种基于MDNet的改进车辆跟踪方法及***，提高了背景和前景目标的区分度，进而提高了车辆跟踪的实时性、准确率和鲁棒性。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提高了一种基于MDNet的改进车辆跟踪方法。

一种基于MDNet的改进车辆跟踪方法，包括以下步骤：

对获取的视频序列进行预处理后，输入到Mask R-CNN神经网络中进行实例分割，得到要跟踪车辆目标的候选区域；

利用获得的要跟踪车辆目标的候选区域作为输入，利用MDNet网络进行目标跟踪，具体为：

当预测视频序列每一帧目标的状态时，先根据前一帧预测的目标位置生成符合高斯分布的多个候选区域正样本和负样本，然后根据MDNet网络得到正样本和负样本的得分，找出目标得分最高的候选区域样本为当前最优目标状态；

对所有候选区域样本的得分取平均值，与预设阈值进行对比，当所有候选区域样本的得分大于预设阈值时，判断目标跟踪成功，否则，目标跟踪失败。

作为可能的一些实现方式，采用随机梯度下降方法训练MDNet的卷积神经网络，每次迭代到第一个视频序列时，依次取N₁帧，然后在这N₁帧中，每一帧取M₁个正样本和M₂个负样本的边界框，包括N₁*M₁个正样本，N₁*M₂个负样本，所有正样本和负样本组成一个小批量，将实例分割得到的分割结果统一为A*A作为网络的输入。

作为可能的一些实现方式，所述MDNet神经网络采用RReLU激活函数，根据训练轮数设置动态变化的学习率，在刚开始训练时，距离最优解较远时采用大的学习率，随着迭代次数的增加，在逼近最优解的过程中，逐渐减小学习率。

作为可能的一些实现方式，对所有候选区域样本取平均生成当前帧的目标边界框，如果跟踪成功，进行边界框的微调，根据当前帧预测的目标边界框生成多个正样本区域和负样本区域，分别对样本区域进行前向传播，保存这些区域的第三卷积层卷积特征。

作为进一步的限定，如果视频帧数超过第一预设数量则抛弃第一预设数量之前的帧的正样本区域，视频帧数若超过第二预设数量则抛弃第二预设数量之前的帧的负样本区域。

作为进一步的限定，若跟踪失败，进行短时更新，选择最近预设帧数的正样本和负样本，然后进行迭代训练预设轮数；

每次迭代随机抽取S个正样本的第三卷积层特征和T₁个负样本的第三卷积层特征，构成一个小批量，将T₁个负样本放入MDNet网络中，做预设次数的循环，计算得分；

然后从T₁个负样本中挑选出T₂个计算目标得分最大的作为困难负样本，分别计算正样本的得分和困难负样本的得分，前向传播计算损失，进行MDNet网络的参数优化。

作为进一步的限定，输入到Mask R-CNN神经网络中进行实例分割，具体为：

视频序列输入网络后获得对应的特征图，在特征图中得到多个候选识别区域；

将这些候选的候选识别区域送入RPN网络进行二值分类，过滤掉不符合要求的候选识别区域；

利用RPN网络得到部分候选识别区域坐标，将坐标输入ROI Pooling，输出B*B大小的特征图供分类和定位使用，将剩余的候选识别区域进行ROIAlign操作。

本公开第二方面提高了一种基于MDNet的改进车辆跟踪***。

一种基于MDNet的改进车辆跟踪***，包括：

实例分割模块，被配置为：对获取的视频序列进行预处理后，输入到Mask R-CNN神经网络中进行实例分割，得到要跟踪车辆目标的候选区域；

目标跟踪模块，被配置为：利用获得的要跟踪车辆目标的候选区域作为输入，利用MDNet网络进行目标跟踪，具体为：

本公开第三方面提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于MDNet的改进车辆跟踪方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于MDNet的改进车辆跟踪方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开首先对视频帧进行实例分割，然后将分割好的前景车辆区域作为MDNet车辆目标跟踪处理的输入进行后续目标跟踪处理，因为通过实例分割后得到较小的跟踪区域，所以本公开所采用的网络结构也可以相对较小，这样不但有利于区分背景和前景目标，而且可以提高跟踪的实时性和准确率。

2、本公开对MDNet跟踪算法进行了改进，改进MDNet跟踪算法首先采用Mask RCNN将视频帧进行实例分割操作，把实例分割所得到的候选区域作为改进的MDNet算法的输入，从而强化了前景跟踪目标，减小了跟踪的范围，可以更加清晰的区分背景和目标，进而提高了跟踪的实时性和准确率。

3、本公开所采用的网络的体系结构含有五个隐藏层，其中有三个卷积层(conv1-conv3)和两个全局连接层(fc4-fc5)，采用更小的网络结构使得其在目标跟踪当中取得更加鲁棒的效果。

附图说明

图1为本公开实施例1提供的基于MDNet的改进车辆跟踪方法的整体实施原理图。

图2为本公开实施例1提供的Mask RCNN算法原理流程图。

图3为本公开实施例1提供的实例分割结果示意图。

图4为本公开实施例1提供的改进算法MDNet算法原理流程图。

图5为本公开实施例1提供的车辆目标跟踪结果示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本公开实施例1提供了一种基于MDNet的改进车辆跟踪方法，首先采用Mask RCNN将视频帧进行实例分割操作，把实例分割所得到的候选区域作为改进的MDNet算法的输入，从而强化前景跟踪目标，减小跟踪的范围，可以更加清晰的区分背景和目标，训练和测试都是在线进行。

所采用网络的体系结构接收107*107RGB输入，含有五个隐藏层，其中有三个卷积层(conv1-conv3)和两个全局连接层(fc4-fc5)，本实施例采用更小的网络结构使得其在目标跟踪当中取得更加鲁棒的效果。

具体步骤如下：

步骤1：对视频序列进行数据标注等预处理操作，将标记好的视频序列输入到神经网络当中，如图2所示。

步骤2：输入后获得对应的feature map(特征图)，在feature map中得到多个候选ROI(感兴趣区域)。接下来将这些候选的ROI送入RPN网络进行二值分类，过滤掉一部分候选的ROI。

RPN网络提出若干ROI的坐标以[x，y，w，h]表示，然后输入ROI Pooling(感兴趣区域池化)，输出7*7大小的特征图供分类和定位使用。ROI Pooling的目的是为了将大小不同的ROI统一调整成7*7的较小的特征图。接下来对剩下的ROI进行ROI Align(感兴趣区域聚集)操作，可以更好的解决ROI Pooling操作中区域不匹配的问题。

Mask RCNN采用平均二值交叉熵损失函数，Mask R-CNN的损失函数可以描述为：

L_final＝L({p_i},{t_i})+(L_cls+L_box+L_mask) (1)

其中L_cls和L_box用于分类和回归，L_mask是对每个像素进行分类，含有K*m*m维度的输出，K代表类别的数量，m*m是提取的ROI图像的大小。

最后，对这些ROI进行分类和Mask生成。得到所要分割的视频帧序列，如图3所示。

训练RPN的损失函数有如下描述：

上式中i是每个小批量中anchor的序号，p是anchor目标的概率，p^*是标签，t是预测框的四个参数，t^*是标定框的参数，L_cls是分类损失函数，L_reg是回归损失函数。

对于ROIAlign反向传播有如下描述：

表示两点之间的距离，Δh和Δw表示x_i与x_i*(r,j)横坐标与纵坐标的差值。

步骤3：利用Mask RCNN对视频图像中的目标进行了实例分割操作，得到了要跟踪车辆目标的候选区域信息。

将步骤2所得到的结果作为所改进的MDNet算法的输入，如图4所示，这样更加易于提高跟踪效率和有效区分跟踪的目标和背景。采用这种方法可以避免随着网络的深入，目标的空间位置信息被稀释，出现跟踪目标效果恶化甚至跟踪目标丢失的情况。

通过实例分割得到的车辆候选区域的尺寸比原始图像小的多，从而可以采用更小的网络深度来实现跟踪。MDNet通过multi-domain learning framework(多领域学习框架)，从domain-specific(区域相关表示)的信息中分离出domain-independent(区域独立表示)的信息。

采用的CNN由随机梯度下降(SGD)方法训练，其中每个域在每次迭代中被专门处理。因为采用SGD方法训练，所以首先打乱视频序列。原先的视频序列是按照帧顺序排列的，每次迭代到第一个视频序列时，依次取8帧，然后在这8帧中，每一帧取4个正样本(IOU>＝0.7)和12个负样本(IOU<＝0.3)的bounding box，IOU为产生的candidate bound(候选框)与ground truth bound(原标记框)的交叠率。将实例分割得到的分割结果统一为107*107作为网络的输入，总共由32个正样本，96个负样本组成一个mini-batch。

IOU等式定义如下：

MDNet算法改进方法：使用RReLU激活函数，如果学习率设置过小，整个网络收敛过程可能变得极为缓慢；如果学习率设置的过大时，梯度可能会在最小值附近徘徊，甚至可能无法收敛，达不到预期的效果。本实施例中学习率不是固定不变的，而是根据训练轮数设置动态变化的学习率。在刚开始训练时，距离最优解较远时采用稍大的学习率，随着迭代次数的增加，在逼近最优解的过程中，逐渐减小学习率。

采用的激活函数表示如下：

其中，a_ji～U(l,u),l＜u and l,u∈[0,1)

步骤4：在目标跟踪的过程当中，始终保持简单的网络，同时根据目标外观的变化速度，采用Long-term update(长期更新)和short-term updates(短期更新)两种更新方法。Long-term update按照常规间隔后进行更新，short-term updates当出现潜在的更新失败的时候进行更新，即预测目标的positive score小于0.5时进行更新。

当预测每一帧目标的状态的时候，先在前一帧物体的周围提取N个模板，然后根据网络得到正样本的得分f⁺(xⁱ)和负样本的得分f^-(xⁱ)。通过找到最大样本的得分作为当前最优目标状态X^*：

具体为：在每一帧上根据前一帧预测的目标位置生成一个符合高斯分布的256个候选区域，生成的候选框表示为(x,y,w,h)。然后从原图中截取候选框区域，再将大小resize为107*107作为网络的输入进行计算。通过前向传播计算这256个候选区域的得分，挑选出目标得分最高的候选区域。对这些候选区域取平均生成当前帧的target boundingbox，并且计算候选区域得分的平均值。在这里设定一个阈值，然后与一个阈值进行比较，判断是否跟踪成功。

步骤6：如果跟踪成功，则进行bounding box微调，根据当前帧预测的targetbounding box生成50个正样本区域(IOU>＝0.7)，生成200个负样本区域(IOU<＝0.3)。然后分别对样本区域进行前向传播，最后保存这些区域的conv3(第三卷积层)的特征。其中视频帧数超过100个则抛弃最早的那些帧的正样本区域，视频帧数若超过20个则抛弃最早的那些帧的负样本区域。

若跟踪失败，进行前面所提到的短时更新。选择最近20帧的正样本和负样本，然后进行迭代训练15轮，迭代过程和前面相同，每次迭代随机抽取32个正样本的conv3特征和1024个负样本的conv3特征，构成一个mini-batch(小批量)。然后将这1024个负样本放入测试模型中，做4次循环，计算得分，并且保留计算结果是目标的得分。然后从这1024个负样本中挑选出96个计算目标得分最大的作为困难负样本。接下来导入训练模型，分别计算正样本(32个)的得分和困难负样本(96个)的得分，前向传播计算损失，然后进行优化器优化以及更新参数等。

步骤7：显示跟踪目标，得到所跟踪的视频序列，如图5所示。

实施例2：

本公开实施例2提高了一种基于MDNet的改进车辆跟踪***，包括：

实施例3：

本公开实施例3提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于MDNet的改进车辆跟踪方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于MDNet的改进车辆跟踪方法中的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于MDNet的改进车辆跟踪方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于MDNet的改进车辆跟踪方法，其特征在于，采用随机梯度下降方法训练MDNet的卷积神经网络，每次迭代到第一个视频序列时，依次取N₁帧，然后在这N₁帧中，每一帧取M₁个正样本和M₂个负样本的边界框，包括N₁*M₁个正样本，N₁*M₂个负样本，所有正样本和负样本组成一个小批量，将实例分割得到的分割结果统一为A*A作为网络的输入。

3.如权利要求1所述的基于MDNet的改进车辆跟踪方法，其特征在于，所述MDNet神经网络采用RReLU激活函数，根据训练轮数设置动态变化的学习率，在刚开始训练时，距离最优解较远时采用大的学习率，随着迭代次数的增加，在逼近最优解的过程中，逐渐减小学习率。

4.如权利要求1所述的基于MDNet的改进车辆跟踪方法，其特征在于，对所有候选区域样本取平均生成当前帧的目标边界框，如果跟踪成功，进行边界框的微调，根据当前帧预测的目标边界框生成多个正样本区域和负样本区域，分别对样本区域进行前向传播，保存这些区域的第三卷积层卷积特征。

5.如权利要求2所述的基于MDNet的改进车辆跟踪方法，其特征在于，如果视频帧数超过第一预设数量则抛弃第一预设数量之前的帧的正样本区域，视频帧数若超过第二预设数量则抛弃第二预设数量之前的帧的负样本区域。

6.如权利要求2所述的基于MDNet的改进车辆跟踪方法，其特征在于，若跟踪失败，进行短时更新，选择最近预设帧数的正样本和负样本，然后进行迭代训练预设轮数；

7.如权利要求2所述的基于MDNet的改进车辆跟踪方法，其特征在于，输入到Mask R-CNN神经网络中进行实例分割，具体为：

8.一种基于MDNet的改进车辆跟踪***，其特征在于，包括：

9.一种介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于MDNet的改进车辆跟踪方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于MDNet的改进车辆跟踪方法中的步骤。