CN115100591A

CN115100591A - 基于联合学习的多目标跟踪与目标重识别***及方法

Info

Publication number: CN115100591A
Application number: CN202210692213.XA
Authority: CN
Inventors: 叶亮; 甄佳玲; 陈舒怡; 赵炜强; 韩帅; 孟维晓
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-23

Abstract

基于联合学***台上实现多目标跟踪，并在某一嵌入式设备出现感兴趣目标行人时，提取该目标的跟踪模型并将跟踪模型传输到监控中心，监控中心通过有线/无线网络将该跟踪模型发送至其他嵌入式平台。本发明同时提出了改进的多目标跟踪与跨域行人重识别模型，能够大幅减小模型的算法复杂度，提高多目标跟踪与行人重识别方法的实时性。

Description

基于联合学习的多目标跟踪与目标重识别***及方法

技术领域

本发明涉及图像识别领域。

背景技术

随着小型化监控设备的不断普及以及嵌入式设备算力的不断进步与发展，绝大部分城市的街道、小区，以及各类人员密集的活动场所的视频监控***已经十分完善，城市视频监控***的应用潜力可以说十分强大且有待发掘，无论是后疫情时代下的人员流量监控，还是智能驾驶领域发展不可或缺的视觉***，都需要对视频信息进行高效的在线处理。目前已有一些基于图像的多目标跟踪与行人重识别方法，根据采集的图像对其中的人物进行跟踪，但是目前的多目标跟踪与跨域重识别的方法复杂度高，导致跨域重识别的实时性较差，不适合进行大规模跨域跟踪。

发明内容

本发明是为了解决现有多目标跟踪与跨域行人重识别方法存在实时性要求的问题，从而提供一种基于联合学习的多目标跟踪与目标重识别***及方法。

基于联合学习的多目标跟踪与目标重识别***，它包括监控中心、M个监控摄像头和M个嵌入式设备，所述M为正整数；

所述M个监控摄像头分布设置在待监控区域；

每个所述监控摄像头均用于采集其所在待监控的区域的图像信息；

每个所述嵌入式设备内分别嵌入改进的多目标跟踪与跨域行人重识别模型，每个所述嵌入式设备均用于处理其所在监控摄像头采集到的图像数据，所述M个嵌入式设备分别嵌入所述M个监控摄像头中，每个所述嵌入式设备还用于将嵌入式设备处理后的对应监控摄像头的目标跟踪与跨域行人重识别数据通过有线网络或无线网络发送给其它M-1个嵌入式设备；

所述改进的多目标跟踪与跨域行人重识别模型是利用Ghost模块对现有多目标跟踪与跨域行人重识别模型的主干网络进行了轻量化的再设计和构建获得的。

联合学习的多目标跟踪与目标重识别方法，在一个时间周期下，它包括以下步骤：

步骤一、将已标记不同编号的M个监控摄像头分别采集待监控的区域的图像信息；获得M张监控摄像头采集图像；

步骤二、每个监控摄像头分别通过所述监控摄像头内的嵌入式设备中内嵌入的改进的多目标跟踪与跨域行人重识别模型对步骤一获得的M张监控摄像头采集图像进行处理，获得处理后的M张监控摄像头数据；M个监控摄像头中的某一监控摄像头对感兴趣行人目标利用改进的多目标跟踪与跨域行人重识别模型提取跟踪图像数据，获得处理后的感兴趣行人目标的跟踪与跨域行人重识别图像数据。

步骤三、步骤二中所述的监控摄像头将步骤二获得的该处理后的处理后的感兴趣行人目标的跟踪与跨域行人重识别模型数据通过有线网络或无线网络发送给监控中心；

步骤四、监控中心接收步骤三发送的处理后的感兴趣行人目标的跟踪与跨域行人重识别模型数据，并将该处理后的感兴趣行人目标的跟踪与跨域行人重识别图像数据通过有线网络或无线网络向其它M-1个嵌入式设备发送；

步骤五、每个所述其他嵌入式设备接收到步骤四跟踪与跨域行人重识别图像数据后，将其与自身监控范围内检测到的行人进行特征匹配，若未找出符合要求的跟踪目标的图像数据，则结束当前次联合学习的多目标跟踪与目标重识别，若找出符合要求的跟踪目标的图像数据，则并将找到的目标位置信息通过有线网络或无线网络传递回监控中心，完成一次基于联合学习的多目标跟踪与目标重识别。

进一步地，步骤五中每个所述其他嵌入式设备接收到步骤四跟踪与跨域行人重识别图像数据后，将其与自身监控范围内检测到的行人进行特征匹配的具体方法是：

步骤五一、每个其他嵌入式设备接收到步骤四跟踪与跨域行人重识别图像数据后，首先对自身拍摄画面数据进行缩放与灰度填充，并根据改进的多目标跟踪与跨域行人重识别模型对画面中的行人进行语义特征提取，并对提取的语义特征进行二范数归一化处理，平衡特征维度。

步骤五二、对步骤五一进行二范数归一化处理后的语义特征，将其与监控中心通过有线/网络或无线网络发来的处理后的跟踪模型进行多级匹配，具体操作为：将归一化后的语义特征与发来的跟踪模型特征进行余弦距离计算，利用余弦距离构建代价矩阵，进行多级匹配，并在最后进行置信度由高到低排列，记录置信度最高的行人作为匹配结果进行输出。

本发明获得的有益效果：本发明提出一种基于联合学***台上实现多目标跟踪，并在某一嵌入式设备出现感兴趣目标行人时，提取该目标的跟踪模型并将跟踪模型传输到监控中心，监控中心通过有线/无线网络将该跟踪模型发送至其他嵌入式平台。本发明同时提出了改进的多目标跟踪模型与行人重识别模型，能够大幅减小模型的算法复杂度，提高多目标跟踪与行人重识别方法的实时性。

附图说明

图1是本发明所述改进的多目标跟踪模型与行人重识别模型的网络结构示意图；

图2是本发明所述的特征提取的结果示意图；

图3是本发明所述的多级匹配流程示意图；

图4是本发明中改进的多目标跟踪与跨域行人重识别模型的改进前网络预测结构示意图；

图5是本发明中改进的多目标跟踪与跨域行人重识别模型的改进后网络预测结构示意图；

图6是本发明中改进的多目标跟踪与跨域行人重识别模型的主干网络示意图；

图7是本发明中改进的多目标跟踪与跨域行人重识别模型的整体结构示意图；

具体实施方式

结合图1至图7说明本实施方式，基于联合学习的多目标跟踪与目标重识别***，它包括监控中心、M个监控摄像头和M个嵌入式设备，所述M为正整数；

所述M个监控摄像头分布设置在待监控区域；

具体实施方式二、联合学习的多目标跟踪与目标重识别方法，在一个时间周期下，它包括以下步骤：

步骤二、每个监控摄像头分别通过所述监控摄像头内的嵌入式设备中内嵌入的改进的多目标跟踪与跨域行人重识别模型对步骤一获得的M张监控摄像头采集图像进行处理，获得处理后的M张监控摄像头数据；M个监控摄像头中的某一监控摄像头对感兴趣行人目标利用改进的多目标跟踪与跨域行人重识别模型提取跟踪图像数据，获得处理后的感兴趣行人目标的跟踪与跨域行人重识别图像数据。步骤二的具体方法是：

利用M个嵌入式设备对步骤一获得的M张监控摄像头采集图像进行按比例的缩放大小与图像维度的调整，然后采用改进的多目标跟踪模型提取行人的浅层纹理特征与深层语义特征，形成带有行人像素位置信息与深度语义信息的输出视频流；将所述带有行人像素位置信息与深度语义信息的输出视频流，作为处理后的监控摄像头数据。M个监控摄像头中的某一监控摄像头对感兴趣行人目标利用改进的行人重识别算法提取跟踪模型，作为处理后的跟踪模型。

以下详细描述本发明的工作原理：

基于联合学习的多目标跟踪与目标重识别方法与其硬件***，其工作方式包括以下步骤：

步骤一、基于分布式监控的主干特征提取与特征融合网络：

①改进的多目标跟踪与改进的跨域行人重识别模型，利用Ghost模块对主干网络进行了轻量化的再设计和构建，改进的主干特征提取网络结构如表1所示

表1改进后的主干特征提取网络结构

②利用深度可分离卷积块改进特征金字塔结构，加深网络深度，改进的特征金字塔的网络结构如图1所示；

原始多目标跟踪与行人重识别模型的主干特征提取部分由Darknet53网络与平均池化层组成，这里利用Ghost模块对主干网络进行了轻量化的再设计和构建，修剪网络中的权值连接，减少模型参数，利用改进的多目标跟踪与改进的行人重识别模型从视频流中提取目标特征，特征提取的结果如图2所示；

③此外，为证明改进模型的有效性，除对改进算法进行指标测试外，还将多种其他轻量化网络模型与改进前的特征提取模型Darknet53网络，进行了相同测试集下的指标对比，以证明提出的改进算法的优异表现，三种不同的网络模型的对比分别如表2、表3、表4所示，表3为Densenet121作为网络模型的指标表现、表4为Darknet-Tiny作为网络模型的指标表现，表5为Darknet53作为网络模型的指标表现：可见改进后的联合模型在多目标跟踪功能上的各项指标表现均优于其他两种轻量级的网络模型Densenet121与Darknet-Tiny，这得益于Ghost模块的加入与特征融合阶段深度可分离卷积模块对网络深度的加深，而对比改进之前过于精细冗余的Darknet53网络，各项指标虽有轻微下降，但处理帧率却提升了4倍，模型大小压缩1/10。可见改进后的算法能力提升较为明显。

表2改进后算法指标测试

表3 Densenet121指标测试

表4 Darknet-Tiny指标测试

表5 Darknet53指标测试

步骤二、基于分布式监控的数据传输：

从监控摄像头(搭载的嵌入式设备)到监控中心传输视频流，分为两种情况，第一种为有线直连和无线直连；第二种为采用无线自组网的方式进行连接，下面对两种情况分别说明：

第一种为监控摄像头(搭载的嵌入式设备)和监控中心通过有线或者无线的方式直连，可以直接通信传输视频流数据；

第二种为监控摄像头(搭载的嵌入式设备)和监控中心通过无线自组网的方式连接，即不是每个监控摄像头(搭载的嵌入式设备)都可直接与监控中心通信时，采用无线自组网路由协议建立每个监控摄像头(搭载的嵌入式设备)到监控中心的路由，以多跳方式将骨骼模型由监控摄像头(搭载的嵌入式设备)传输到监控中心，相应的步骤如下：

①每个监控摄像头处的嵌入式设备搭载无线网卡，用于数据传输；

②配置无线网卡，使其工作在AD-HOC模式下；

③采用无线自组网路由协议建立每个监控摄像头(搭载的嵌入式设备)到监控中心的路由，采用最优链路状态路由协议(OLSR)进行自组网，在每个监控摄像头处的嵌入式设备上和监控中心处配置OLSR协议。每个节点均运行OLSR协议，通过无线自组网实现了监控摄像头(搭载的嵌入式设备)到监控中心视频流的多跳传输。

步骤三、基于改进的多目标跟踪与改进的行人重识别模型的跨域多级匹配算法：

①实现跨域多级匹配算法，需要对上述改进的多目标跟踪与改进的行人重识别模型的预测网络部分进行进一步修改，如图4所示，首先将预测网络输出的特征维度设置为512维，之后连接一个全连接层，输出预测的类别，输出的结果用来计算ID-Loss，即预测网络的输出被分为两部分，第一部分通过分类损失训练检测框获得正样本和负样本分类，和检测框的位置回归偏移量；第二部分用于将特征维度扩展为14455的全连接层输出，以获得精确的预测结果。其次增加以下两方面修改来适应行人检测：

1.根据数量、比例和长宽比重新设计检测框，以适应目标。根据前期目标检测经验，目标框的长宽比设置为1:3，检测框模板的数量设置为12，使得每个尺度特征图上A ＝4。

2.用于前景/背景分类的双重阈值优化。通过可视化分析，确定交并比IOU>0.5为前景，IOU<0.4为背景，优化的双重阈值可以有效抑制误报与虚报。

②修改改进的多目标跟踪与改进的行人重识别模型的损失函数，利用联合学习的方案对三种损失函数进行加权，根据任务相关的不确定性进行损失函数权重的自动学习，可将联合目标表达为各尺度、各要素的权重线性损失之和，如下式：

其中M是预测头数量，

是损失权重，决定损失权重的方法如下：

令

令

搜索其余两个独立的损失权重以获得最佳性能。

③基于上述模型，设计了跨域多级匹配算法，使用多级级联计分制策略。具体流程如图3所示。在跨域行人检索时，对当前帧所有行人检测框提取特征，将提取后的特征与目标行人特征进行余弦距离计算，利用余弦距离构建代价矩阵，计算关联代价矩阵C和其阈值B。解决目标关联问题具体流程:将目前处于跟踪态的行人与丢失态的行人集合作为关联的备选项，加入丢失态的行人集合是为了应对临时遮挡问题，删除门限值设置为150帧(视频中体现为5秒)，若跟踪行人连续5秒没有出现在当前画面中，就将当前行人标记为删除态，从丢失态集合中去除；多级匹配算法优先选择截至当前帧已连续30帧出现的行人优先进行匹配，首先设置距离门限，将可能的行人ID全部加入备选列表，并根据距离为备选行人ID进行分级计分，然后将距离门限降低为，对距离的限制逐渐严苛，对于依旧符合条件的行人ID进行计分，然后再次降低距离门限为进行匹配，跟踪态的行人全部匹配计算完成后，对丢失态的行人按照同样的步骤进行匹配，区别在于对于丢失态的轨迹，计分分值较小，具体匹配策略与跟踪态轨迹相同，然后对两份备选轨迹进行置信度(计分)由高到低排列，得出置信度最高的轨迹行人ID作为匹配结果进行输出。最后，对每一帧图像循环以上步骤，直至匹配结束。

为证明改进模型的有效性，对改进算法进行指标测试，并将多种其他轻量化网络模型与改进前的特征提取模型Darknet53网络，进行了相同测试集下的行人重识别指标对比，三种不同的网络模型的对比分别如表7、表8、表9所示，表7为Densenet121作为特征提取网络的指标表现、表8为Darknet-Tiny作为特征提取网络的指标表现，表9为Darknet53作为特征提取网络的指标表现。

通过比对可以看出改进后的模型，在行人重识别功能的各项指标上表现均优于其他两种轻量级的网络模型Densenet121与Darknet-Tiny，IDF1仅下降0.008，IDR下降了0.017，IDP提升了0.007，但处理帧率却提升了4倍，模型大小压缩1/10。可见改进后的算法能力提升较为明显。

表6改进后算法指标

表7 Densenet121算法指标

表8 Darknet-Tiny算法指标

表9 Darknet53算法指标

步骤四、监控中心显示的跨域跟踪位置信息

①监控中心接收到嵌入式设备发来的跟踪模型，立即通过有线/无线传输将该跟踪模型发送至其他嵌入式终端进行跨域跟踪。

②其他终端如果根据该跟踪模型多级匹配到相关行人，则将该行人位置信息与监控所拍摄到的图像发送回监控中心，实现对目标行人的跨域跟踪。