CN115063836A

CN115063836A - 一种基于深度学习的行人跟踪与重识别方法

Info

Publication number: CN115063836A
Application number: CN202210657848.6A
Authority: CN
Inventors: 王璇; 宋永超; 吕骏; 王莹洁; 徐金东; 赵金东; 阎维青; 雷明威; 李凯强
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-16

Abstract

一种基于深度学习的行人跟踪与重识别方法，包括以下步骤；步骤1：对视频图像逐帧进行行人目标检测；步骤2：采用DeepSort模型对步骤1中每帧检测到的行人进行特征提取，生成.npy文件；步骤3：采用Fastreid进行行人重识别检测，根据预设的行人图片底库进行特征提取，生成.npy文件；步骤4：将每个行人目标的特征提取结果与特定行人底库的特征提取结果进行余弦相似度计算，如果大于阈值γ，则判别为需要重识别的特定行人目标，并进行行人的跟踪，否则不进行目标跟踪；本发明可精确定位出跨时间、跨区域、跨摄像头的特定行人，并可通过实时视频进行推理与检测，并通过一系列的改进达到最优的效果，最终完成项目落地，以后可普遍应用于智能监控、智能安防等***。

Description

一种基于深度学习的行人跟踪与重识别方法

技术领域

本发明属于智能监控安防技术领域，具体涉及一种基于深度学习的行人跟踪与重识别方法。

背景技术

随着科技的发展，监控视频已被广泛应用于商业、安防、搜寻等领域，在人们的日常生活中占据着非常重要的作用。自人脸识别技术兴起之后的行人重识别技术，已经发展为计算机视觉的一个主要方向。虽然人脸识别技术发展较为成熟，但在比如高密度人群、捕捉摄像头的分辨率较低或是摄像头角度偏等情况下，采用人脸识别技术往往无法发挥出理想的效果，但人重识别技术可以继续发挥重要作用，及时定位并识别出监控视频中的特定的行人，对于刑事案件的侦查、失踪人士的搜索营救等方面具有很重要的意义。

到当前为止，国内外人工智能领域的企业在行人重识别技术中都有深入研究，目前行人重识别还存在以下研究难点和问题：

(1)真实世界的行人会存在障碍物遮挡、白天到夜间、服饰改变等复杂多变的情形，实验算法的精度难以达到。

(2)跨区域识别存在安全隐私问题，数据集的获取比较困难，即如何在样本不均衡的条件下尽可能的得到鲁棒性高的模型算法极具挑战性。

(3)跨摄像头追踪时，受制于摄像头的改变，光线明暗、障碍物遮挡、摄像头清晰度都会随之发生改变，如何不受跟踪范围的限制仍能够识别到相同的目标是行人重识别技术亟需解决的问题。

发明内容

为了克服以上技术问题，本发明提供了一种基于深度学习的行人跟踪与重识别方法，该方法结合改进的YOLOv5-Lite目标检测算法和改进的Deepsort目标跟踪算法，可精确定位出跨时间、跨区域、跨摄像头的特定行人，并可通过实时视频进行推理与检测，并通过一系列的改进措施使***模型达到最优的效果，该方法可普遍应用于智能监控、智能安防等***应用。

为了实现上述目的，本发明采用如下技术方案：

一种基于深度学习的行人跟踪与重识别方法，包括以下步骤；

步骤1：采用改进的YOLOv5-Lite模型对视频图像逐帧进行行人目标检测；

步骤2：采用DeepSort模型对步骤1中每帧检测到的行人进行特征提取，生成.npy文件；

步骤3：采用Fastreid进行行人重识别检测，根据预设的行人图片底库进行特征提取，生成.npy文件；

步骤4：将步骤2中每个行人目标的特征提取结果与步骤3的特定行人底库的特征提取结果进行余弦相似度计算，公式如(1)所示，x₁和x₂为两个非0向量，如果大于阈值γ，则判别为需要重识别的特定行人目标，并进行利用改进的Deepsort模型的跟踪策略进行行人的跟踪，否则不进行目标跟踪。

进一步的，所述步骤1包括如下子步骤：

步骤1.1：将数据集的图片输入改进后的YOLOv5-Lite模型网络结构，在YOLOv5-Lite的基础上加入了BiFPN模块，BiFPN实现跨尺度双向连接和快速归一化的结合，输入不同的特征权重，让网络自行学习，其采用Softmax-based fusion的方式，将权重归一化到0和1之间如公式(2)：

其中，w_i和w_j为可学习权重；

步骤1.2:利用该卷积神经网络对图片进行特征提取，随后输出特征图，同时图片被划分为小方块并生成锚框，将标注的预测框和特征图进行关联，最后建立损失函数并开启端到端的训练，其中损失函数如公式(3)所示。

其中

代表了预测框和真实框的中心点的欧式距离，c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。v用来衡量两个矩形框相对比例的一致性，α是权重系数：

进一步的，所述步骤3包括如下子步骤：

步骤3.1：输入图片经过预处理之后，调用预训练模型ResNet50作为Backbone，随后通过Gem Pooling，将输出的特征图以聚合的方式，通过一个特征向量来代表一个目标，再经过Bnneck模块将前面所获得的特征向量做一定变化，最后定义Triplet loss来学习分类内的相像性和类内的区分度，使得不同的特征向量之间直接区分度更明显，而相同的特征向量之间更加趋同。

所述Triplet loss输入是一个三元组，包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例，通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本之间的相似性计算，a：anchor，锚示例；p：positive，与a是同一类别的样本；n：negative，与a是不同类别的样本；margin是一个大于0的常数：

L＝max(d(a,p)-d(a,n)+margin,0)(5)

进一步的，所述步骤4中的跟踪策略包括如下子步骤：

步骤4.1：对选定重识别的特定行人目标利用NSA卡尔曼滤波算法进行跟踪，具体是以指数移动平均的方式更新帧t处第i个轨迹的外观状态

其中f_i ^t是当前匹配检测的外观嵌入，并且α＝0.9是动量项。

同时加入了自适应噪声，用来加强跟踪的鲁棒性，其中自适应噪声的协方差

如公式(7)所示：

其中R_k是预先设定的常量测噪声协方差，c_k是状态k下的检测置信度分数，并且在匹配过程中不再只使用外观特征距离，而是同时考虑外观和运动信息；

采用普通的全局线性分配来代替匹配级联，其中，分配矩阵C是外观成本A_a和动作成本A_m的加权和：

C＝λA_a+(1-λ)A_m (8)

其中权重因子λ设置为0.98；

步骤4.2：跟踪轨迹通过卡尔曼滤波算法预测之后，会对当前帧预测一个轨迹，如果预测出确认(行人或车)，就对当前帧进行detection(检测)，然后将检测框和已经确认的轨迹框做级联匹配，匹配完成之后将更新跟踪的检测框；

如果轨迹匹配失败，再进IoU匹配，如果能匹配成功，随后再进行更新，然后重复预测——观测——更新的跟踪过程。IoU匹配失败分为观测匹配失败和轨迹匹配失败：对于观测匹配失败，此时采用对其建立一个新的轨迹的方法，之后对其进行三次考察，如果依旧是实际目标(行人或车)则修改为确认；对于轨迹匹配失败，此时判断其是否是已被确认为行人或车，如果是未被确认的状态，就将其删除，反之，为其设置一个阈值，如果大于阈值max_age，则将其删除，认为其已移出观测范围，如果小于阈值，同样再对其进行三次考察，回到最开始的阶段。

本发明的有益效果。

本发明实现了对特定行人目标的实时跟踪与重识别。与改进前的算法相比，YOLOv5-Lite检测模块模型在保持平均精确度的同时，识别准确度上有了3％的提升，检测精度可达92％；Deepsort跟踪模块模型在评价跟踪性能的各项指标上均有不同幅度的提升，获得了更优的跟踪效果；优化了Fastreid重识别模块的特征提取逻辑，使其算法速度有了跨越式提高；本发明提出的整体模型在实时检测时能够达到较高的精度，因而能满足实际视频监控的需求，具有广阔的应用前景。

附图说明：

图1行人重识别***的整体流程

图2改进后的YOLOv5-Lite模型网络结构。

图3跟踪算法Deepsort改进策略图。

图4待检测行人图片，自左至右分别命名为bag、red。

图5行人bag在区域1重识别效果。

图6行人red在区域1重识别效果。

图7行人bag在区域2重识别效果。

图8行人red在区域2重识别效果。

具体实施方式

下面将结合本发明实施例中的附图和附表，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤4：将步骤2中每个行人目标的特征提取结果与步骤3的特定行人底库的特征提取结果进行余弦相似度计算，公式如(1)所示，如果大于阈值γ，则判别为需要重识别的特定行人目标，并进行利用改进的Deepsort模型的跟踪策略进行行人的跟踪，否则不进行目标跟踪

所述步骤1包括如下子步骤：

步骤1.1：将数据集的图片输入改进后的YOLOv5-Lite模型网络结构，如图2所示。本发明在原有YOLOv5-Lite的基础上加入了BiFPN模块(一种加权双向特征金字塔网络)，有效的加强了特征提取。BiFPN实现跨尺度双向连接和快速归一化的结合，输入不同的特征权重，让网络自行学习，其采用Softmax-based fusion的方式，将权重归一化到0和1之间如公式(2)：

其中，w_i和w_j为可学习权重。

其中

代表了预测框和真实框的中心点的欧式距离。c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。v用来衡量两个矩形框相对比例的一致性，α是权重系数：

所述步骤3包括如下子步骤：

Triplet loss输入是一个三元组，包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例，通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本之间的相似性计算，a：anchor，锚示例；p：positive，与a是同一类别的样本；n：negative，与a是不同类别的样本；margin是一个大于0的常数：

L＝max(d(a,p)-d(a,n)+margin,0) (5)

本发明改进了DeepSort中的跟踪策略，上述步骤4中的跟踪策略包括如下子步骤：

步骤4.1：对选定重识别的特定行人目标利用NSA卡尔曼滤波算法进行跟踪。具体是以指数移动平均的方式更新帧t处第i个轨迹的外观状态

该算法中同时加入了自适应噪声，用来加强跟踪的鲁棒性。其中自适应噪声的协方差

如公式(7)所示：

其中R_k是预先设定的常量测噪声协方差，c_k是状态k下的检测置信度分数，并且在匹配过程中不再只使用外观特征距离，而是同时考虑外观和运动信息。

为了解决附加先验约束会限制匹配精度的问题，采用普通的全局线性分配来代替匹配级联。其中，分配矩阵C是外观成本A_a和动作成本A_m的加权和：

C＝λA_a+(1-λ)A_m (8)

其中权重因子λ设置为0.98。

步骤4.2：跟踪轨迹通过卡尔曼滤波算法预测之后，会对当前帧预测一个轨迹，如果预测出确认(行人或车)，就对当前帧进行detection(检测)，然后将检测框和已经确认的轨迹框做级联匹配，匹配完成之后将更新跟踪的检测框。

实施例：

如图1所示：首先截取目标行人的图片，然后经过Fastreid特征提取模型，对截取的行人底库进行特征提取，生成对应的.npy文件，读入待检测视频，利用YOLOv5-Lite目标检测算法对当前视频帧里的所有行人进行检测，随后Deepsort算法对检测到的行人进行特征提取同样生成.npy文件，此时，将上述生成的两个.npy文件计算余弦相似度，如果相似度大于阈值γ，则被判定为目标行人，此时再通过Deepsort算法对目标行人进行跟踪，而相似度小于阈值γ为非目标行人，最后通过简单可视化将整个流程进行展示。

如图2所示：原有网络头部的Concat模块全部被替换为BiFPN_Concat模块。

如图3所示普通卡尔曼滤波替换为NSA卡尔曼滤波算法，采用普通的全局线性分配来代替匹配级联，以指数移动平均(EMA)的方式更新轨迹外观。

如图4所示为提前截取好的待查找行人图片。

如图5-图6所示为待查找行人在区域1的查找结果。

如图7-图8所示为待查找行人在区域2的查找结果。

表1表1YOLOv5-Lite算法改进前后各指标对比

表2 Deepsort算法改进前后指标对比

表3 Deepsort算法改进前后指标对比(续)

如表1所示，在图片输入大小均为640×640的前提下，改进后的模型整体大小有了小幅度上涨，在mAP_0.5、mAP_0.5:0.95改进前后基本持平、Recall和帧率FPS小幅度下降的前提下，模型的精确度由0.89到0.92上涨了3％，说明改进后的模型精度有一定幅度的上升，而且相比其他算法，在模型大小及精确度上有不少提升，在测试集上表现更优秀。

如表2-表3所示IDR指标由21.7提高到24.9，IDP指标由71.8提高到74.7，IDF1指标由33.3提高到37.4，表明正确识别的召回值和检测分数都有显著提升；Rcll由27.2提高到31.3，Prcn由89.9提升到94.0，表明改进后的Deepsort算法在精度上有了明显提升；FAR由0.63降为0.42即改进后每帧错误识别的个数降低；MT由25提高到30，ML由339降低到307，说明改进后成功跟踪的帧数占总帧数的80％以上的GT轨迹数量增加，而成功跟踪的帧数占总帧数的20％以下的GT轨迹数量下降；FP为误报的数量由3352下降到2214，FN为漏报的数量由80411下降到75817；IDs为由218上涨到239，可见在模型改变后ID-switch的出现频率增加；FM由1121上升到1190，说明算法在改进后，目标被遮挡后再次出现依然能被继续跟踪的能力提升；MOTA由23.9升高到29.1，MOTP由78.4上升到78.5，检测质量和跟踪准确度有一定的提升。通过分析对比可见，在经过了算法改进后，Deepsort的跟踪性能和准确度都有了较大幅度的提升，在同一数据集上相比改进后表现更优秀。

本发明的创新点在于：

改进一,针对YOLOv5-Lite的分支模型v5Lite-g，对其网络头部进行修改，将其Concat全部替换为BiFPN_Concat。

改进二，将普通卡尔曼滤波替换为NSA卡尔曼滤波算法，并引入了一个自适应计算噪声协方差

成本矩阵C是外观成本A_a和动作成本A_m的加权和：

C＝λA_a+(1-λ)A_m (2)

其中权重因子λ设置为0.98，另外，为了解决附加先验约束会限制匹配精度的问题，采用普通的全局线性分配来代替匹配级联。

以指数移动平均的方式更新帧t处第i个轨迹的外观状态

改进三，将.pth后缀的Fastreid模型文件转换为.onnx后缀的模型文件。

改进四，将行人检测改为隔帧检测，即每隔一帧用YOLOv5-Lite检测模型对视频里的所有行人进行检测，同时为实时视频可视化界面增加显示帧率模块。

Claims

1.一种基于深度学习的行人跟踪与重识别方法，其特征在于，包括以下步骤；

步骤4：将步骤2中每个行人目标的特征提取结果与步骤3的特定行人底库的特征提取结果进行余弦相似度计算，公式如(1)所示，x₁和x₂为两个非0向量，如果大于阈值γ，则判别为需要重识别的特定行人目标，并进行利用改进的Deepsort模型的跟踪策略进行行人的跟踪，否则不进行目标跟踪

2.根据权利要求1所述的一种基于深度学习的行人跟踪与重识别方法，其特征在于，所述步骤1包括如下子步骤：

其中，w_i和w_j为可学习权重；

步骤1.2:利用该卷积神经网络对图片进行特征提取，随后输出特征图，同时图片被划分为小方块并生成锚框，将标注的预测框和特征图进行关联，最后建立损失函数并开启端到端的训练，其中损失函数如公式(3)所示；

其中ρ²(b,b^gt)代表了预测框和真实框的中心点的欧式距离，c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。v用来衡量两个矩形框相对比例的一致性，α是权重系数：

3.根据权利要求1所述的一种基于深度学习的行人跟踪与重识别方法，其特征在于，所述步骤3包括如下子步骤：

步骤3.1：输入图片经过预处理之后，调用预训练模型ResNet50作为Backbone，随后通过Gem Pooling，将输出的特征图以聚合的方式，通过一个特征向量来代表一个目标，再经过Bnneck模块将前面所获得的特征向量做一定变化，最后定义Triplet loss来学习分类内的相像性和类内的区分度，使得不同的特征向量之间直接区分度更明显，而相同的特征向量之间更加趋同；

所述Tripletloss输入是一个三元组，包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例，通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本之间的相似性计算，a：anchor，锚示例；p：positive，与a是同一类别的样本；n：negative，与a是不同类别的样本；margin是一个大于0的常数：

L＝max(d(a,p)-d(a,n)+margin,0)(5)。

4.根据权利要求1所述的一种基于深度学习的行人跟踪与重识别方法，其特征在于，所述步骤4中的跟踪策略包括如下子步骤：

如公式(7)所示：

C＝λA_a+(1-λ)A_m(8)

其中权重因子λ设置为0.98；

如果轨迹匹配失败，再进IoU匹配，如果能匹配成功，随后再进行更新，然后重复预测——观测——更新的跟踪过程，IoU匹配失败分为观测匹配失败和轨迹匹配失败：对于观测匹配失败，此时采用对其建立一个新的轨迹的方法，之后对其进行三次考察，如果依旧是实际目标(行人或车)则修改为确认；对于轨迹匹配失败，此时判断其是否是已被确认为行人或车，如果是未被确认的状态，就将其删除，反之，为其设置一个阈值，如果大于阈值max_age，则将其删除，认为其已移出观测范围，如果小于阈值，同样再对其进行三次考察，回到最开始的阶段。