CN110675430A

CN110675430A - 一种基于运动和表观适应融合的无人机多目标跟踪方法

Info

Publication number: CN110675430A
Application number: CN201910907796.1A
Authority: CN
Inventors: 李国荣; 于洪洋; 黄庆明; 苏荔
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-10
Anticipated expiration: 2039-09-24
Also published as: CN110675430B

Abstract

本发明涉及计算机视觉的技术领域，特别是涉及一种基于运动和表观适应融合的无人机多目标跟踪方法，其无需人工设置融合权重的MOT，并且可以提高无人机视频中多目标跟踪性能；包括以下步骤：S1、使用已训练好的目标重新识别网络来计算同一帧中物体之间的表观相似性，并计算邻帧中物体间的表观相似性；S2、使用Social LSTM来预测目标的运动趋势，从而计算相邻帧中物体间的运动相似性；S3、使用同一帧中物体之间的表观相似性来学习表观特征的重要性，并用于融合表观和运动特征，得到相邻帧中目标间的总体相似性，最终得到目标的最优关联，从而实现多目标的跟踪。

Description

一种基于运动和表观适应融合的无人机多目标跟踪方法

技术领域

本发明涉及计算机视觉的技术领域，特别是涉及一种基于运动和表观适应融合的无人机多目标跟踪方法。

背景技术

多目标跟踪(MOT)是许多视频分析任务的关键步骤，如视频事件分析、行为理解。MOT旨在跟踪视频中出现的物体，并给出每个物体在每帧中的位置。现有的MOT方法可以根据利用目标检测结果的方式分为两类：线下跟踪和线上跟踪。线下跟踪在关联检测结果时考虑整个视频上的目标检测结果；而线上跟踪则跟踪考虑当前帧上的检测结果及已得到的每个物体的运动轨迹。

线下的方法由于可以利用未来帧中的信息，因此性能较好，但难以实施；而线上方法依据历史信息及当前检测结果进行跟踪，其难度较大。

现有的方法通常使用多种线索来综合衡量相邻帧中物体间的相似性。但是，在无人机视频中，由于背景等因素多变，因此在不同情况下，每种线索对每个物体的重要性是不一样。并且，现有的方法多使用人工经验设置的权重来融合不同线索，难以用于无人机视频，因此跟踪性能不好。

发明内容

为解决上述技术问题，本发明提供一种无需人工设置融合权重的MOT，并且可以提高无人机视频中多目标跟踪性能的基于运动和表观适应融合的无人机多目标跟踪方法。

本发明的一种基于运动和表观适应融合的无人机多目标跟踪方法，包括以下步骤：

S1、使用已训练好的目标重新识别网络来计算同一帧中物体之间的表观相似性，并计算邻帧中物体间的表观相似性；

S2、使用Social LSTM来预测目标的运动趋势，从而计算相邻帧中物体间的运动相似性；

S3、使用同一帧中物体之间的表观相似性来学习表观特征的重要性，并用于融合表观和运动特征，得到相邻帧中目标间的总体相似性，最终得到目标的最优关联，从而实现多目标的跟踪。

本发明的一种基于运动和表观适应融合的无人机多目标跟踪方法，所述步骤S1的具体操作为：利用物体检测器先检测物体，然后使用在物体重识别数据库上预训练好的VGG网络，计算同一帧中物体间的表观相似性，及相邻两帧中物体间的表观相似性。

本发明的一种基于运动和表观适应融合的无人机多目标跟踪方法，所述步骤S2的具体操作为：预训练Social LSTM模型，使用现有的多目标跟踪数据集或轨迹预测数据集来预训练运动相似性计算分支。

本发明的一种基于运动和表观适应融合的无人机多目标跟踪方法，所述步骤S3的具体操作为：利用同一帧中，依据一个物体与其周围物体的最大表观相似性来衡量表观特征对该物体的判别性：利用自适应权重的线性加权方式融合表观和运动特征；每帧自动调节权重的大小。

与现有技术相比本发明的有益效果为：

1、本发明的方法利用预训练好的重识别网络，有效学习目标表观之间的相似性，从而可以有效衡量表观特征的相似性，不需要调整重识别网络，从而能够快速的计算表观特征的重要性，有利于实现实时多目标跟踪；

2、本发明的方法利用Social LSTM建模物体的运动模型，考虑到物体之间的相互影响，从而可以使运动相似性更加准确；

3、本发明的方法在跟踪过程中自适应计算表观及运动信息的权重，从而避免了人工设定，减少了人工操作，因此避免了人工失误的引入，进而可以提升算法的性能和自动化水平。

附图说明

图1是本发明的追踪方法流程图。

具体实施方式

下面结合实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例

S1、利用物体检测器先检测物体，然后使用在物体重识别数据库上预训练好的VGG网络，使用目标重识别数据库训练目标重识别网络(基干网络为VGG)；并将其用于同一帧不同目标之间或相邻帧中目标之间的表观相似性度量；

S2、利用多目标跟踪数据集或轨迹预测数据集来预训练social LSTM模型，使用现有的多目标跟踪数据集或轨迹预测数据集来预训练运动相似性计算分支，并根据预测位置来计算相邻帧中目标之间的运动相似性；

利用目标检测器如Faster-RCNN，SSD，R-FCN等检测当前帧I_t的物体

并利用目标重识别网络计算前一帧不同物体间的相似性

相邻帧中物体的表观相似性

然后计算当前帧中，表观对物体

的重要性

计算公式如下：

S3、利用Social LSTM计算当前帧I_t中物体与前一帧中物体的运动相似性

并利自动融合表观和运动相似性，得到相邻帧中目标的相似性矩阵，计算公式如下：

最后利用最优化方法如葡萄牙算法求解最优匹配，获得目标的运动轨迹。

因此，本发明的方法在使用时，由于其采用预训练好的重识别网络，有效学***。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于运动和表观适应融合的无人机多目标跟踪方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于运动和表观适应融合的无人机多目标跟踪方法，其特征在于，所述步骤S1的具体操作为：利用物体检测器先检测物体，然后使用在物体重识别数据库上预训练好的VGG网络，计算同一帧中物体间的表观相似性，及相邻两帧中物体间的表观相似性。

3.如权利要求1所述的一种基于运动和表观适应融合的无人机多目标跟踪方法，其特征在于，所述步骤S2的具体操作为：预训练Social LSTM模型，使用现有的多目标跟踪数据集或轨迹预测数据集来预训练运动相似性计算分支。

4.如权利要求1所述的一种基于运动和表观适应融合的无人机多目标跟踪方法，其特征在于，所述步骤S3的具体操作为：利用同一帧中，依据一个物体与其周围物体的最大表观相似性来衡量表观特征对该物体的判别性：利用自适应权重的线性加权方式融合表观和运动特征；每帧自动调节权重的大小。