CN112836639A

CN112836639A - 基于改进YOLOv3模型的行人多目标跟踪视频识别方法

Info

Publication number: CN112836639A
Application number: CN202110151278.9A
Authority: CN
Inventors: 张相胜; 沈庆; 姚猛
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-25

Abstract

基于改进YOLOv3模型的行人多目标跟踪视频识别方法，属于计算机视觉的图像处理领域。本发明在YOLOv3网络中，将Darknet‑53特征提取层中原有的标准卷积替换为深度可分离卷积；并且在YOLOv3网络的预测层中引入SENet模块；利用K‑means++聚类算法对选定数据集中的目标边框进行聚类，根据聚类结果优化网络的先验框参数，并修正了锚框。本发明利用tracking‑by‑detection框架，使用改进的YOLOv3算法来实现对目标信息的检测工作，跟踪部分选用Deep‑SORT算法进行跟踪，使得整体的算法能够有效地减少漏检和出现遮挡的情况，并且能保持较快的检测速度和较好的跟踪效果。

Description

基于改进YOLOv3模型的行人多目标跟踪视频识别方法

技术领域

本发明属于计算机视觉的图像处理领域，具体是针对多目标跟踪中存在的行人目标漏检率高且检测速度慢的问题，改进了YOLOv3的网络结构，使得模型对行人目标的检测精度和检测速度都有所提高。检测部分采用改进YOLOv3算法检测行人目标，跟踪部分使用卡尔曼滤波算法预测目标运动轨迹，数据关联部分使用匈牙利算法对目标进行匹配关联。

背景技术

随着深度学习的快速发展，相比于传统手工设计的特征，卷积神经网络逐渐体现出了优势；深度神经网络在机器视觉领域表现出优异的性能，已获得学者们广泛的关注；行人作为道路交通环境中的弱势群体，其安全问题不容小觑，建立完善的行人检测***已成为研究热点；另外，将深度学习用于驾驶辅助***也正成为发展趋势；本文以道路行人研究对象，开展了基于深度学习的目标检测及跟踪算法的研究。

近年来，基于检测的多目标跟踪方法逐渐成为多目标跟踪领域的主流方案，但是该方法对检测结果的准确度要求较高，如果背景较为复杂，则会对目标检测造成较大影响，进而影响跟踪效果；即使目前较先进的YOLOv3算法，也存在着检测精度不够高，检测速度慢的问题；其次，如何有效建立检测器与***之间的目标模型也至关重要。因此，提供一种检测精度更高，检测速度更快的行人检测与跟踪算法是本领域技术人员必须解决的问题。

发明内容

为了提高行人多目标跟踪算法的检测精度与速度，本发明提供了一种基于改进YOLOv3网络模型的行人多目标跟踪视频识别方法；在YOLOv3网络模型和Deep-SORT算法的基础上，针对目标检测跟踪的遮挡和漏检问题，用K-means++聚类方法优化先验框，并将SENet模块嵌入到YOLOv3网络预测层中，针对算法检测速度慢的问题，利用深度可分离卷积网络代替YOLOv3网络的标准卷积进行特征提取。选定经典的tracking-by-detection框架，检测部分使用改进的YOLOv3算法来实现对目标信息的检测工作，跟踪部分选用Deep-SORT算法进行跟踪。

本发明所采用的技术方案是：

基于改进YOLOv3模型的行人多目标跟踪视频识别方法，步骤如下：

步骤1：行人检测部分：改进YOLOv3目标检测网络，引入深度可分离卷积模块，利用深度可分离卷积模块替换Darknet-53特征提取层中的标准卷积模块；引入SENet模块，将SENet模块添加到YOLO预测层中；

步骤2：从公有数据集中选出含有行人图像的数据集，使用K-means++聚类算法替换K-means聚类算法对数据集标签进行聚类分析，训练行人检测YOLOv3网络模型；

步骤3：多目标跟踪部分：使用训练好的行人检测YOLOv3网络模型进行目标检测，与Deep-SORT算法相结合，进行行人多目标跟踪；

所述步骤1进一步具体为：

步骤1.1：Darknet-53特征提取层中引入深度可分离卷积模块，并利用深度可分离卷积模块替换原有Darknet-53中的标准卷积模块；深度可分离卷积是把通道和空间区域分开考虑，将标准卷积分解成深度卷积和逐点卷积，即首先使用深度卷积对特征图中3个单通道分别进行3*3卷积，收集每个通道的特征，再使用逐点卷积对经过深度卷积后的特征图进行1*1的逐点卷积，收集每个点的特征；

步骤1.2：在YOLO预测层中引入SENet模块，分别在网络第26、43、53层输出向量后嵌入SENet模块。

所述步骤2具体为：

步骤2.1：从公有数据集中分别提取其中的行人照片N张，并使用labeling工具为图片打标签；而后将图片按比例分为训练集和测试集；

步骤2.2：对图片训练集的样本使用K-means++聚类算法替代K-means聚类算法进行先验框聚类，获得新的锚框，并利用新的锚框进行行人检测YOLOv3网络模型的迭代训练。

多目标跟踪之前需要利用训练好的行人检测YOLOv3网络模型来检测目标，具体为：

把任意大小图像的连续帧输入到训练好的行人检测YOLOv3网络模型中，首先对输入的图片自适应调整，在每个网格内预测B个边界框，对C类目标进行检测，输出每类目标的边界框和边界框的置信度。边界框的置信度定义为：边界框与该对象实际边界框交并比IOU，与该边界框内存在对象的概率乘积。计算公式：

其中，Confidence为边界框的置信度，P_r(Object)为该边界框内存在对象的概率，

为边界框与该对象实际边界框交并比。

通过设定阈值，将类别置信度低于阈值的边界框排除，随后边界框采用NMS方法进行筛选，得到的边界框的5个参数为(x,y,w,h,p_c),其中(x,y)为目标中心相对于单元格左上角的相对坐标,(w,h)分别是目标与整张图像的宽和高，p_c代表目标类别的概率值，经过归一化处理以后，最终网络输出为S×S×(5×B+C)。

所述步骤3中多目标跟踪具体为：

Step1：多目标跟踪算法输入：将经过改进YOLOv3网络检测后所得到的目标坐标信息(c_x,c_y,r,h,p)进行转换，得到8维向量X＝[c_x,c_y,r,h,v_x,v_y,v_r,v_h]，作为多目标跟踪算法的输入。其中，p为置信度分数，边界框的中心坐标为(c_x,c_y)，宽高比r，高h，v_x,v_y,v_r,v_h代表c_x,c_y,r,h速度变化值

Step2：状态估计：首先使用卡尔曼滤波预测***在下一时刻的位置，然后基于卡尔曼滤波得到的检测结果来更新预测的位置；

Step3：指派问题：利用匈牙利算法解决卡曼尔滤波算法得到的检测结果与跟踪预测结果的关联问题，同时考虑到运动信息的关联和目标外观信息的关联；

①运动信息的关联：采用卡尔曼滤波器预测状态和新测量之间的马氏距离，以此来表达运动信息：

式中，d⁽¹⁾(i,j)表示j个检测框和第i条轨迹之间的运动匹配程度，d_j表示第j个检测框的位置，y_i表示第i条轨迹的状态向量，S_i表示检测位置与平均位置之间的协方差矩阵。如果某次关联的马氏距离小于指定的阈值，阈值是从单独的训练集中得到的，则设置运动状态的关联成功；

②引入目标外观信息的关联方法，使用余弦距离来度量表观特征之间的距离，计算公式为：

其中，限制条件为||r_i||＝1，

用来存储最近n帧成功关联的特征向量，r_i，r_k表示相交的两个向量，使用余弦距离来度量***的表观特征和检测结果对应的表观特征；

③关联度量是通过运动模型和外观模型的加权得到：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j) (7)

式中，c_i,j表示综合匹配度，λ为一个超参数，默认为0。只有c_i,j当位于两种度量阈值的交集内时，才认为实现了正确的关联，当指派完成后，分类出未匹配的检测和***；

Step4：级联匹配和IOU匹配：当目标被长时间遮挡之后，卡尔曼滤波预测结果的正确性会降低，状态空间内的可观性也会相应降低，因此利用级联匹配来对更加频繁出现的目标赋予优先权。对于未确认状态的***、未匹配的***和未匹配的检测，进行IOU匹配，再次使用匈牙利算法进行指派；

Step5:对于匹配的***进行参数更新，删除再次未匹配的***，未匹配的检测初始化为新目标。并判断视频流是否结束，若结束，退出循环；否则，进入下一帧检测。

总体而言，通过本发明所构思的以上技术方案，可以取得以下有益效果：

⑴本发明在YOLOv3网络模型中引入深度可分离卷积模块，代替了YOLOv3中的标准卷积模块，加快了算法的运行速度。

⑵本发明在YOLOv3预测层中加入SENet模块，利用SENet网络反映出不同通道间特征的相关性和重要性的特点，加强了网络的特征提取能力，提升了检测精度。

⑶本发明在目标检测网络部分，使用K-means++聚类算法代替了K-means聚类算法，修改了锚框，使其更加符合行人的特点，从而更好地进行特征提取，提高算法的检测精度。

⑷本发明使用改进的YOLOv3算法来实现对目标信息的检测工作，跟踪部分选用Deep-SORT算法进行跟踪。实验结果表明，所提出的跟踪算法能够有效地减少漏检和出现遮挡的情况，并且能保持较快的检测速度和较好的跟踪效果。

以上说明仅是本发明技术方案的概述，为了能够更加清楚了解本发明的技术手段，而可按照说明书的内容予以实施，并且为了让本发明的内容、特征和优点能够更加明显易懂，以下特举本发明的具体实施方式。

附图说明

图1是本发明的具体算法流程图。

图2是改进YOLOv3网络框架图。

图3是SENet模块结构图。

图4是标准卷积结构与深度可分离卷积结构图。其中，(a)表示表示标准卷积结构，(b)表示深度卷积结构，(c)表示逐点卷积结构。

图5是本发明模型和原模型检测结果对比图。其中，(a)不同帧数下的YOLOv3-Deep-SORT跟踪结果，(b)为本发明算法不同帧数下的跟踪结果。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

如图1所示，本发明提供了种基于改进YOLOv3模型的行人多目标跟踪方法，包括：

步骤1：改进YOLOv3目标检测子网络，目标检测是基于检测跟踪的基本操作，如图2所示，具体分为以下步骤：

步骤1.1：如图4，引入深度可分离卷积模块

在Darknet-53特征提取层中引入深度可分离卷积模块，并利用深度可分离模块替换原有Darknet-53中的标准卷积；

步骤1.2：如图3，在YOLO预测层中引入SENet模块

分别在YOLOv3网络的Darknet-53特征提取层第26、42、53层输出向量后嵌入SENet模块。

步骤2：从VOC2007图片中选出含有行人图像的数据集，使用K-means++聚类算法对数据集标签进行聚类分析，训练行人检测YOLOv3网络模型。具体分为以下步骤：

步骤2.1：从VOC 2007和MOT 2015公开数据集中分别提取其中的行人照片10000张，并分别使用labeling工具为图片打标签；而后将图片以训练集：测试集为2：1的比例选取训练样本。

步骤2.2：对样本使用K-means++算法进行先验框聚类，获得新的anchors(anchor的数量选定为9)，并利用新的anchors值进行YOLOv3行人的检测网络模型的迭代训练。

步骤3：使用改进后的YOLOv3网络作为检测器进行目标检测，与Deep-SORT多目标跟踪算法相结合，实现行人多目标跟踪。具体分为以下步骤：

步骤3.1：目标检测部分：把任意大小图像的连续帧输入到改进的YOLOv3网络模型中，算法首先会对输入的图片自适应调整为416×416，在每个网格内预测B个边界框(B取值为9)，对C类目标(在行人检测中，类别设定为person)进行检测，输出每类目标的边界框和边界框的置信度。边界框的置信度定义为：边界框与该对象实际边界框交并比(IOU)，与该边界框内存在对象的概率乘积。计算公式：

为边界框与该对象实际边界框交并比。

通过设定阈值，将类别置信度低于阈值的边界框排除，随后边界框采用NMS(非极大值抑制)方法进行筛选，得到的边界框的5个参数为(x,y,w,h,p_c),其中(x,y)为目标中心相对于单元格左上角的相对坐标,(w,h)分别是目标与整张图像的宽和高之比，p_c代表目标类别的概率值，经过归一化处理以后，最终网络输出为S×S×(5×B+C)。

步骤3.2：参照图1，使用改进后的YOLOv3网络作为检测器进行目标检测，多目标跟踪部分具体分为以下步骤：

Step1：目标检测：将输入的视频流进行目标检测，得到边框和特征信息，然后将经过检测后所得到的目标坐标信息(c_x,c_y,r,h,p)进行转换，得到8维向量X＝[c_x,c_y,r,h,v_x,v_y,v_r,v_h]，作为多目标跟踪算法的输入。其中，p为置信度分数，边界框的中心坐标为(c_x,c_y)，宽高比r，高h，以及各自的速度变化值

Step2：状态估计：首先使用卡尔曼滤波预测***在下一时刻的位置，然后基于检测结果来更新预测的位置。

Step3：指派问题：利用匈牙利算法解决检测结果与跟踪预测结果的关联问题，同时考虑到运动信息的关联和目标外观信息的关联。

式中，d⁽¹⁾(i,j)表示j个检测框和第i条轨迹之间的运动匹配程度，d_j表示第j个检测框的位置，y_i表示第i条轨迹的状态向量，S_i表示检测位置与平均位置之间的协方差矩阵。如果某次关联的马氏距离小于指定的阈值(阈值是从单独的训练集中得到的)，则设置运动状态的关联成功。

式中，限制条件为||r_i||＝1，

用来存储最近100帧成功关联的特征向量。使用余弦距离来度量***的表观特征和检测结果对应的表观特征。

③关联度量是通过运动模型和外观模型的加权得到：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j) (4)

式中，c_i,j表示综合匹配度，λ为一个超参数，默认为0。只有c_i,j当位于两种度量阈值的交集内时,才认为实现了正确的关联.当指派完成后,分类出未匹配的检测和***。

Step4：级联匹配和IOU匹配：当目标被长时间遮挡之后，卡尔曼滤波预测结果的正确性会降低，状态空间内的可观性也会相应降低，因此级联匹配来对更加频繁出现的目标赋予优先权。对于未确认状态的***、未匹配的***和未匹配的检测，进行IOU匹配，再次使用匈牙利算法进行指派。

步骤4：仿真实验

定性实验：选取MOT16多目标跟踪数据集中的序列进行多目标跟踪实验，具体实验对比如图5，可以看出改进的网络模型在准确度及漏检率等方面均得到一定程度的改善。

定量实验：如表1，选取以MOT15多目标跟踪数据集进行测试，并且选取目前7种较为先进的多目标跟踪算法作为对比，从各个性能指标综合来看，改进的网络模型优势明显，性能指标均有相应的提升。

表1多目标跟踪算法评价指标对比

以上是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与修饰，均属于发明技术方案的范围内。

Claims

1.基于改进YOLOv3模型的行人多目标跟踪视频识别方法，其特征在于，步骤如下：

步骤3：多目标跟踪部分：使用训练好的行人检测YOLOv3网络模型进行目标检测，与Deep-SORT算法相结合，进行行人多目标跟踪。

2.根据权利要求1所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法，其特征在于，所述步骤1进一步具体为：

3.根据权利要求1或2所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法，其特征在于，所述步骤2具体为：

4.根据权利要求1或2所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法，其特征在于，多目标跟踪之前需要利用训练好的行人检测YOLOv3网络模型来检测目标，具体为：

把任意大小图像的连续帧输入到训练好的行人检测YOLOv3网络模型中，首先对输入的图片自适应调整，在每个网格内预测B个边界框，对C类目标进行检测，输出每类目标的边界框和边界框的置信度；边界框的置信度定义为：边界框与该对象实际边界框交并比IOU，与该边界框内存在对象的概率乘积，计算公式：

为边界框与该对象实际边界框交并比；

通过设定阈值，将类别置信度低于阈值的边界框排除，随后边界框采用NMS方法进行筛选，得到的边界框的5个参数为(x,y,w,h,p_c)，其中(x,y)为目标中心相对于单元格左上角的相对坐标,(w,h)分别是目标与整张图像的宽和高，p_c代表目标类别的概率值，经过归一化处理以后，最终网络输出为S×S×(5×B+C)。

5.根据权利要求3所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法，其特征在于，多目标跟踪之前需要利用训练好的行人检测YOLOv3网络模型来检测目标，具体为：

为边界框与该对象实际边界框交并比；

6.根据权利要求1、2或5所述的基于改进YOLOv3模型的行人多目标跟踪视频识别方法，其特征在于，所述步骤3中多目标跟踪具体为：

Step1：多目标跟踪算法输入：将经过改进YOLOv3网络检测后所得到的目标坐标信息(c_x,c_y,r,h,p)进行转换，得到8维向量X＝[c_x,c_y,r,h,v_x,v_y,v_r,v_h]，作为多目标跟踪算法的输入；其中，p为置信度分数，边界框的中心坐标为(c_x,c_y)，宽高比r，高h，v_x,v_y,v_r,v_h代表c_x,c_y,r,h速度变化值

式中，d⁽¹⁾(i,j)表示j个检测框和第i条轨迹之间的运动匹配程度，d_j表示第j个检测框的位置，y_i表示第i条轨迹的状态向量，S_i表示检测位置与平均位置之间的协方差矩阵；如果某次关联的马氏距离小于指定的阈值，阈值是从单独的训练集中得到的，则设置运动状态的关联成功；

其中，限制条件为||r_i||＝1，

③关联度量是通过运动模型和外观模型的加权得到：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j) (7)

式中，c_i,j表示综合匹配度，λ为一个超参数，默认为0；只有c_i,j当位于两种度量阈值的交集内时，才认为实现了正确的关联，当指派完成后，分类出未匹配的检测和***；

Step4：级联匹配和IOU匹配：当目标被长时间遮挡之后，利用级联匹配来对更加频繁出现的目标赋予优先权；对于未确认状态的***、未匹配的***和未匹配的检测，进行IOU匹配，再次使用匈牙利算法进行指派；

Step5:对于匹配的***进行参数更新，删除再次未匹配的***，未匹配的检测初始化为新目标；并判断视频流是否结束，若结束，退出循环；否则，进入下一帧检测。