CN111612822A

CN111612822A - 对象跟踪方法、装置、计算机设备和存储介质

Info

Publication number: CN111612822A
Application number: CN202010435491.8A
Authority: CN
Inventors: 车满强; 褚俊贤
Original assignee: Guangzhou Haige Communication Group Inc Co
Current assignee: Guangzhou Haige Tiancheng Technology Co ltd; Guangzhou Haige Communication Group Inc Co
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-01
Anticipated expiration: 2040-05-21
Also published as: CN111612822B

Abstract

本申请涉及一种对象跟踪方法、装置、计算机设备和存储介质。所述方法包括：在对被跟踪对象进行跟踪过程中，获取视频序列中的当前帧图像；所述被跟踪对象为根据所述视频序列中的初始帧图像确定得到的；当判断无法在所述当前帧图像中跟踪到所述被跟踪对象时，在所述当前帧图像中确定多个候选同类对象；所述候选同类对象为类别与所述被跟踪对象的类别相同的对象；确定所述被跟踪对象在所述初始帧图像中的区域图像与每个所述候选同类对象在所述当前帧图像中的区域图像之间的相似度；根据所述相似度，在多个所述候选同类对象中确定目标对象，并对所述目标对象进行跟踪。采用本方法能够避免目标对象跟踪丢失。

Description

对象跟踪方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种对象跟踪方法、装置、计算机设备和存储介质。

背景技术

近年来，随着计算机硬件设备、数码设备、数字存储设备的迅速发展,以及越来越高的视频自动化分析的需求,促使越来越多的学者对视觉跟踪产生了极大地热情,视觉跟踪的科学理论体系也越来越完备,在军事制导、智能交通、安全监控、人机交互、车辆导航、体育运动、生物医学等各个领域也得到了广泛的应用。

现有技术中的视觉跟踪算法往往是利用初始帧目标的特征，以及相邻两帧的图像目标位置信息实现对目标对象的视觉跟踪；然而，当目标对象遇到突发、毫无规律的快速运动等干扰时,容易因目标对象变化过快造成相邻帧之间目标图像模糊或者因目标对象快速的形变等使得相邻两帧之间目标对象形状差别过大,这会使得目标对象难以辨识,导致跟踪目标对象丢失。

因此，现有的视觉跟踪方法存在目标对象容易跟踪丢失的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够避免目标对象跟踪丢失的对象跟踪方法、装置、计算机设备和存储介质。

一种对象跟踪方法，所述方法包括：

在对被跟踪对象进行跟踪过程中，获取视频序列中的当前帧图像；所述被跟踪对象为根据所述视频序列中的初始帧图像确定得到的；

当判断无法在所述当前帧图像中跟踪到所述被跟踪对象时，在所述当前帧图像中确定多个候选同类对象；所述候选同类对象为类别与所述被跟踪对象的类别相同的对象；

确定所述被跟踪对象在所述初始帧图像中的区域图像与每个所述候选同类对象在所述当前帧图像中的区域图像之间的相似度；

根据所述相似度，在多个所述候选同类对象中确定目标对象，并对所述目标对象进行跟踪。

在其中一个实施例中，所述根据所述相似度，在多个所述候选同类对象中确定目标对象，并对所述目标对象进行跟踪，包括：

根据所述相似度，在多个所述候选同类对象中，选取相似度最高的所述候选同类对象作为待校验对象；

将所述待校验对象在所述当前帧图像中的区域图像输入至初始化后视觉跟踪模型，通过所述初始化后视觉跟踪模型，确定所述当前帧图像对应的跟踪响应图；

根据所述跟踪响应图对应的跟踪置信度，判断所述待校验对象是否为所述被跟踪对象；

若是，则确定所述待校验对象为所述目标对象，并通过所述初始化后视觉跟踪模型对所述目标对象进行跟踪。

在其中一个实施例中，所述根据所述跟踪响应图对应的跟踪置信度，判断所述待校验对象是否为所述被跟踪对象，包括：

获取所述跟踪响应图的峰旁比，以及，获取所述当前帧图像之前的各个历史视频帧的跟踪响应图的峰旁比；

根据所述当前帧图像的峰旁比和前一帧图像的峰旁比，确定相邻帧峰旁比比值；所述前一帧图像为所述当前帧图像的前一帧图像；

根据所述各个历史视频帧的跟踪响应图的峰旁比，确定平均峰旁比；

若所述平均峰旁比大于或者等于第一预设阈值，且所述相邻帧峰旁比比值大于或者等于第二预设阈值，则确定所述待校验对象为所述被跟踪对象。

在其中一个实施例中，所述确定所述被跟踪对象在所述初始帧图像中的区域图像与每个所述候选同类对象在所述当前帧图像中的区域图像之间的相似度，包括：

将所述被跟踪对象在所述初始帧图像中的区域图像与所述候选同类对象在所述当前帧图像中的区域图像输入至预训练的图像匹配模型；

通过所述预训练的图像匹配模型，提取所述被跟踪对象在所述初始帧图像中的区域图像对应的第一图像特征和所述候选同类对象在所述当前帧图像中的区域图像对应的第二图像特征，并确定所述第一图像特征与所述第二图像特征之间的特征相似度；

将所述特征相似度，作为所述被跟踪对象在所述初始帧图像中的区域图像与所述候选同类对象在所述当前帧图像中的区域图像之间的相似度。

在其中一个实施例中，所述获取视频序列中的当前帧图像的步骤之前，还包括：

获取所述被跟踪对象在所述初始帧图像中的初始对象位置，以及，获取针对所述被跟踪对象的搜索区域面积；

根据所述初始帧图像、所述初始对象位置和所述搜索区域面积，对原始视觉跟踪模型进行初始化，得到所述初始化后视觉跟踪模型。

在其中一个实施例中，所述获取针对所述被跟踪对象的搜索区域面积，包括：

获取所述被跟踪对象在所述初始帧图像中的区域图像对应的图像面积与所述初始帧图像对应的图像面积之间的比值；

获取与所述比值对应的搜索区域放大倍数；

基于所述被跟踪对象在所述初始帧图像中的区域图像对应的图像面积和所述搜索区域放大倍数，确定所述搜索区域面积。

在其中一个实施例中，所述获取所述被跟踪对象在所述初始帧图像中的区域图像对应的图像面积与所述初始帧图像对应的图像面积之间的比值的步骤之后，还包括：

当所述被跟踪对象在所述初始帧图像中的区域图像对应的图像面积与所述初始帧图像对应的图像面积之间的比值小于或等于预设的比值阈值时，按照预设的放大倍数调整所述被跟踪对象在所述初始帧图像中的图像面积。

一种对象跟踪装置，所述装置包括：

获取模块，用于在对被跟踪对象进行跟踪过程中，获取视频序列中的当前帧图像；所述被跟踪对象为根据所述视频序列中的初始帧图像确定得到的；

确定模块，用于当判断无法在所述当前帧图像中跟踪到所述被跟踪对象时，在所述当前帧图像中确定多个候选同类对象；所述候选同类对象为类别与所述被跟踪对象的类别相同的对象；

匹配模块，用于确定所述被跟踪对象在所述初始帧图像中的区域图像与每个所述候选同类对象在所述当前帧图像中的区域图像之间的相似度；

跟踪模块，用于根据所述相似度，在多个所述候选同类对象中确定目标对象，并对所述目标对象进行跟踪。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述对象跟踪方法、装置、计算机设备和存储介质，在对被跟踪对象进行跟踪过程中，当判断无法在获取得到的当前帧图像中跟踪到被跟踪对象时，通过检测出当前帧图像中类别与被跟踪对象的类别相同的多个候选同类对象；并根据被跟踪对象在初始帧图像中的区域图像与每个候选同类对象在当前帧图像中的区域图像之间的相似度，在多个候选同类对象中确定目标对象，进而继续将目标对象作为被跟踪对象进行跟踪，从而避免因被跟踪对象移动过快造成相邻帧之间目标图像模糊或者因被跟踪对象快速形变使得相邻两帧之间被跟踪对象的形状差别过大而使造成对被跟踪对象跟踪丢失的情况的发生，进而实现长时间地对视频序列中的被跟踪对象进行准确地视觉跟踪。

附图说明

图1为一个实施例中一种对象跟踪方法的应用环境图；

图2为一个实施例中一种对象跟踪方法的流程示意图；

图3为一个实施例中一种图像匹配模型的网络框架示意图；

图4为另一个实施例中一种对象跟踪方法的流程示意图；

图5为一个实施例中一种对象跟踪装置的结构框图；

图6为一个实施例中一种对象跟踪方法的跟踪流程图；

图7为一个实施例中一种对象跟踪方法的跟踪效果示意图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的对象跟踪方法，可以应用于如图1所示的应用环境中。其中，计算机设备110在对被跟踪对象进行跟踪过程中，获取视频序列中的当前帧图像；被跟踪对象为根据视频序列中的初始帧图像确定得到的。当计算机设备110判断无法在当前帧图像中跟踪到被跟踪对象时，在当前帧图像中确定多个候选同类对象；候选同类对象为类别与被跟踪对象的类别相同的对象。再然后，计算机设备110确定被跟踪对象在初始帧图像中的区域图像与每个候选同类对象在当前帧图像中的区域图像之间的相似度。最后，计算机设备110根据相似度，在多个候选同类对象中确定目标对象，并对目标对象进行跟踪。实际应用中，计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一个实施例中，如图2所示，提供了一种对象跟踪方法，以该方法应用于图1中的计算机设备110为例进行说明，包括以下步骤：

步骤S210，在对被跟踪对象进行跟踪过程中，获取视频序列中的当前帧图像；被跟踪对象为根据视频序列中的初始帧图像确定得到的.

其中，被跟踪对象可以是指被进行视觉跟踪的对象。实际应用中，被跟踪对象可以是车辆、动物、人类、飞行器、船只等物体。

具体实现中，计算机设备可以根据给定跟踪场景并在视频序列中与开始跟踪时间对应的视频图片作为初始帧图像。然后，计算机设备110可以基于目标检测算法，将该初始帧图像输入至预训练的目标检测模型(如CenterNet目标检测模型等)中，检测出初始帧图像中的所有待跟踪对象，并展示出待跟踪对象检测结果。

然后，计算机设备110接收用户实施于上述待跟踪对象的跟踪选定操作，确定被跟踪对象在初始帧图像中的初始对象位置以及搜索区域面积。然后，计算机设备110将初始帧图像、初始对象位置和搜索区域面积输入至原始视觉跟踪模型，进而对原始视觉跟踪模型进行初始化，得到初始化后视觉跟踪模型。实际应用中，原始视觉跟踪模型可以是DiMP(Discriminative Model Prediction)视觉跟踪模型等各种基于具有更新机制的视觉跟踪算法的视觉跟踪模型。

在得到初始化后视觉跟踪模型后，计算机设备110通过初始化后视觉跟踪模型对视频序列中的被跟踪对象进行视觉跟踪。具体地，计算机设备110可以获取后续帧图像作为当前帧图像；然后，计算机设备110通过初始化后视觉跟踪模型根据上一帧被跟踪对象在上一帧图像中的位置和搜索区域面积，提取目标搜索区域卷积特征，并计算卷积特征与目标预测分类器之间的跟踪响应图。

然后，计算机设备110可以根据该跟踪响应图的跟踪置信度，判断目标定位结果的准确性。当该跟踪响应图的跟踪置信度符合预设的条件时，则根据该跟踪响应图确定被跟踪对象在当前帧图像中的位置。当该跟踪响应图的跟踪置信度不符合预设的条件时，则说明目标定位结果不准确，判断无法在当前帧图像中跟踪到被跟踪对象。

步骤S220，当判断无法在当前帧图像中跟踪到被跟踪对象时，在当前帧图像中确定多个候选同类对象；候选同类对象为类别与被跟踪对象的类别相同的对象。

其中，候选同类对象为类别与被跟踪对象的类别相同的对象。

具体实现中，当计算机设备110判断无法在当前帧图像中跟踪到被跟踪对象时，计算机设备110则可以使用CenterNet目标检测算法等目标监测算法，确定当前帧图像中确定多个候选同类对象。例如，当被跟踪对象为行人a时，此时被跟踪对象的类别为person(人)时，当计算机设备110判断无法在当前帧图像中跟踪到被跟踪对象时，计算机设备110则通过CenterNet目标检测算法，将当前帧图像中的所有行人检测出来，作为候选同类对象。

步骤S230，确定被跟踪对象在初始帧图像中的区域图像与每个候选同类对象在当前帧图像中的区域图像之间的相似度。

具体实现中，当计算机设备110检测出当前帧图像中多个候选同类对象后，计算机设备110可以通过预训练的目标匹配模型，计算出被跟踪对象在初始帧图像中的区域图像与每个候选同类对象在当前帧图像中的区域图像之间的相似度(即相关响应值)。

步骤S240，根据相似度，在多个候选同类对象中确定目标对象，并对目标对象进行跟踪。

具体实现中，当计算机设备110确定每个候选同类对象在当前帧图像中的区域图像对应的相似度后，计算机设备110可以按照各个相似度，在多个候选同类对象中确定目标对象，并对目标对象进行跟踪。具体地，计算机设备110确定目标对象在当前帧图像中的位置即当前对象位置，并通过初始化后视觉跟踪模型，基于该当前对象位置对目标对象进行跟踪。

上述对象追踪方法中，在对被跟踪对象进行跟踪过程中，当判断无法在获取得到的当前帧图像中跟踪到被跟踪对象时，通过检测出当前帧图像中类别与被跟踪对象的类别相同的多个候选同类对象；并根据被跟踪对象在初始帧图像中的区域图像与每个候选同类对象在当前帧图像中的区域图像之间的相似度，在多个候选同类对象中确定目标对象，进而继续将目标对象作为被跟踪对象进行跟踪，从而避免因被跟踪对象移动过快造成相邻帧之间目标图像模糊或者因被跟踪对象快速形变使得相邻两帧之间被跟踪对象的形状差别过大而使造成对被跟踪对象跟踪丢失的情况的发生，进而实现长时间地对视频序列中的被跟踪对象进行准确地视觉跟踪。

在其中一个实施例中，根据相似度，在多个候选同类对象中确定目标对象，并对目标对象进行跟踪，包括：根据相似度，在多个候选同类对象中，选取相似度最高的候选同类对象作为待校验对象；将待校验对象在当前帧图像中的区域图像输入至初始化后视觉跟踪模型，通过初始化后视觉跟踪模型，确定当前帧图像对应的跟踪响应图；根据跟踪响应图对应的跟踪置信度，判断待校验对象是否为被跟踪对象；若是，则确定待校验对象为目标对象，并通过初始化后视觉跟踪模型对目标对象进行跟踪。

具体实现中，计算机设备110在根据相似度，在多个候选同类对象中确定目标对象，并对目标对象进行跟踪的过程中，具体可以包括：当计算机设备110确定被跟踪对象在初始帧图像中的区域图像与每个候选同类对象在当前帧图像中的区域图像之间的相似度之后，计算机设备110可以按照各个候选同类对象对应的相似度(即相关响应值)，在多个候选同类对象中，选取相似度最高的候选同类对象作为待校验对象。

然后，计算机设备110可以将待校验对象在当前帧图像中的区域图像(即目标区域框)输入至初始化后视觉跟踪模型并按照视觉跟踪算法进行跟踪，通过初始化后视觉跟踪模型，确定当前帧图像对应的跟踪响应图。再然后，计算机设备110获取该跟踪响应图对应的跟踪置信度。具体来说，计算机设备110可以按照置信度指标，例如，最大响应分数、平均峰值相关能量、峰旁比(Peak-to-Sidelobe，PSR)等指标，计算出该跟踪响应图对应的跟踪置信度。

再然后，计算机设备110可以通过判断该跟踪响应图对应的跟踪置信度是否大于预设的置信度阈值或判断该跟踪响应图对应的跟踪置信度是否满足预设判定条件，进而判断出该待校验对象与被跟踪对象为同一跟踪对象，若是，若待校验对象与被跟踪对象为同一跟踪对象，计算机设备110确定待校验对象为目标对象，并通过初始化后视觉跟踪模型按照视觉跟踪算法对目标对象进行跟踪。

若计算机设备110确定不为被跟踪对象时，则判断此时仍未在当前帧图像中追踪到被跟踪对象，此时计算机设备110则获取视频序列中的下一帧图像，并将该下一帧图像作为当前帧图像，并返回在所述当前帧图像中确定多个候选同类对象的步骤，直至判断在当前帧图像中追踪到被跟踪对象。

本实施例的技术方案，在多个候选同类对象中选取相似度最高的候选同类对象作为待校验对象；并将待校验对象在当前帧图像中的区域图像输入至初始化后视觉跟踪模型，进而通过初始化后视觉跟踪模型确定当前帧图像对应的跟踪响应图；再然后，通过根据跟踪响应图对应的跟踪置信度，准确地判断待校验对象是否为被跟踪对象；进而确定待校验对象为目标对象并通过初始化后视觉跟踪模型对目标对象进行跟踪，实现长时间地对视频序列中的被跟踪对象进行准确地视觉跟踪。

在其中一个实施例中，根据跟踪响应图对应的跟踪置信度，判断待校验对象是否为被跟踪对象，包括：获取跟踪响应图的峰旁比，以及，获取当前帧图像之前的各个历史视频帧的跟踪响应图的峰旁比；根据当前帧图像的峰旁比和前一帧图像的峰旁比，确定相邻帧峰旁比比值；前一帧图像为当前帧图像的前一帧图像；根据各个历史视频帧的跟踪响应图的峰旁比，确定平均峰旁比；若平均峰旁比大于或者等于第一预设阈值，且相邻帧峰旁比比值大于或者等于第二预设阈值，则确定待校验对象为被跟踪对象。

其中，峰旁比(Peak-to-Sidelobe，PSR)可以是指表示跟踪响应图最大值与其它值之间的关系。峰旁比可以反映对待校验对象定位的准确性。

其中，前一帧图像为当前帧图像的前一帧图像。

其中，第t帧跟踪响应图的峰旁比PSR可以表示为：

其中，f_t为第t帧跟踪响应图；μ_t为跟踪响应图的均值；σ_t为跟踪响应图的方差。

具体实现中，计算机设备110在根据跟踪响应图对应的跟踪置信度，判断待校验对象是否为被跟踪对象的过程中，具体可以包括：计算机设备110获取该获取跟踪响应图的峰旁比，以及，获取当前帧图像之前的各个历史视频帧的跟踪响应图的峰旁比。然后，计算机设备110可以根据当前帧图像的峰旁比和前一帧图像的峰旁比，确定相邻帧峰旁比比值。同时，计算机设备110可以根据各个历史视频帧的跟踪响应图的峰旁比，确定平均峰旁比。当平均峰旁比大于或者等于第一预设阈值，且相邻帧峰旁比比值大于或者等于第二预设阈值，则判断待校验对象定位准确，并确定待校验对象为被跟踪对象。

具体地，平均峰旁比可以表示为

相邻帧峰旁比比值可以表示为

当满足：

时，则判断待校验对象定位准确。

其中，τ₁为第一预设阈值；τ₂为第一预设阈值。

本实施例的技术方案，在根据跟踪响应图对应的跟踪置信度，判断待校验对象是否为被跟踪对象的过程中，通过获取跟踪响应图的峰旁比，以及，获取当前帧图像之前的各个历史视频帧的跟踪响应图的峰旁比；从而根据当前帧图像的峰旁比和前一帧图像的峰旁比，确定相邻帧峰旁比比值；前一帧图像为当前帧图像的前一帧图像；根据各个历史视频帧的跟踪响应图的峰旁比，确定平均峰旁比；如此，可以通过相邻帧峰旁比比值与平均峰旁比准确地判断出待校验对象的跟踪定位准确性，进而便于进一步地判断是否将该待校验对象作为目标对象进行视觉跟踪。

在其中一个实施例中，确定被跟踪对象在初始帧图像中的区域图像与每个候选同类对象在当前帧图像中的区域图像之间的相似度，包括：将被跟踪对象在初始帧图像中的区域图像与候选同类对象在当前帧图像中的区域图像输入至预训练的图像匹配模型；通过预训练的图像匹配模型，提取被跟踪对象在初始帧图像中的区域图像对应的第一图像特征和候选同类对象在当前帧图像中的区域图像对应的第二图像特征，并确定第一图像特征与第二图像特征之间的特征相似度；将特征相似度，作为被跟踪对象在初始帧图像中的区域图像与候选同类对象在当前帧图像中的区域图像之间的相似度。

实际应用中，图像匹配模型可以是指基于全卷积孪生网络(Fully-ConvolutionalSiamese network，SiamFC)构建的模型。

需要说明的是，需要将网络初始帧和后序帧的输入的大小修改为相同的大小。

其中，预训练的图像匹配模型可以是指使用LaSOT、got10k、Trackingnet等视觉跟踪数据集和检测数据集进行训练得到的图像匹配模型。实际应用中，计算机设备110可以将该图像匹配模型在训练和测试阶段的输入的大小修改为相同大小。

需要说明的是，上述图像匹配模型在训练过程中可以采用的损失函数可以为：

其中，N为正样本个数，v为由目标模板x和匹配样本z之间得到的响应，v＝f(x_i)*f(z_i)，f(x_i)和f(z_i)分别为目标模板与匹配样本会经过模型提取到的卷积特征，*表示卷积运算，y_i表示样本对应的标签，y_i∈{+1,-1}。通过以上训练即可得到目标匹配的主干网络，并评估和测试得到满足要求的网络模型。

具体实现中，计算机设备110在确定被跟踪对象在初始帧图像中的区域图像与每个候选同类对象在当前帧图像中的区域图像之间的相似度的过程中，计算机设备110可以将被跟踪对象在初始帧图像中的区域图像与候选同类对象在当前帧图像中的区域图像输入至该预训练的图像匹配模型。然后，通过预训练的图像匹配模型，提取被跟踪对象在初始帧图像中的区域图像对应的第一图像卷积特征和提取候选同类对象在当前帧图像中的区域图像对应的第二图像卷积特征。然后，再通过预训练的图像匹配模型，计算出第一图像卷积特征与第二图像卷积特征之间的特征相似度，作为被跟踪对象在初始帧图像中的区域图像与候选同类对象在当前帧图像中的区域图像之间的相似度即相关响应值。

如此，预训练的图像匹配模型可以实现将目标跟踪任务当作相似性匹配任务，即实现利用外部训练数据训练一个修改后的卷积网络(如AlexNet)作为通用的匹配函数，在新一帧图像中通过确定搜索区域获取得分图定位目标。起到了目标匹配器的作用，实现从目标检测得到的同类物体中匹配初始跟踪目标。为了便于本领域技术人员的理解，图3提供了一种图像匹配模型的网络框架示意图。更具体地，图像匹配模型可以是卷积神经网络(例如，AlexNet)其中，通过卷积神经网络，分别提取输入图像A对应的第一图像卷积特征a和提取输入图像X对应的第二图像卷积特征x。然后，再计算出第一图像卷积特征a与第二图像卷积特征x之间的特征相似度，作为被跟踪对象在初始帧图像中的区域图像与候选同类对象在当前帧图像中的区域图像之间的相似度即相关响应值。实际应用中，计算机设备110可以将输入图像A与输入图像X的特征维度修改为相同大小，例如，计算机设备110可以将输入图像A与输入图像X的特征维度均修改为127×127×13。

本实施例的技术方案，通过将被跟踪对象在初始帧图像中的区域图像与候选同类对象在当前帧图像中的区域图像输入至预训练的图像匹配模型，从而可以准确且快速地通过预训练的图像匹配模型提取出被跟踪对象在初始帧图像中的区域图像对应的第一图像特征和候选同类对象在当前帧图像中的区域图像对应的第二图像特征，并确定第一图像特征与第二图像特征之间的特征相似度，准确地计算出被跟踪对象在初始帧图像中的区域图像与候选同类对象在当前帧图像中的区域图像之间的相似度。

在另一个实施例中，获取视频序列中的当前帧图像的步骤之前，还包括：获取被跟踪对象在初始帧图像中的初始对象位置，以及，获取针对被跟踪对象的搜索区域面积；根据初始帧图像、初始对象位置和搜索区域面积，对原始视觉跟踪模型进行初始化，得到初始化后视觉跟踪模型。

具体实现中，在计算机设备110获取频序列中的当前帧图像之前，计算机设备110还需要获取被跟踪对象在初始帧图像中的初始对象位置，以及，获取针对被跟踪对象的搜索区域面积；根据初始帧图像、初始对象位置和搜索区域面积，对原始视觉跟踪模型进行初始化，得到初始化后视觉跟踪模型。

具体来说，针对给定跟踪场景，计算机设备110在获得视频序列后，计算机设备110确定开始跟踪时间。然后，计算机设备110将视频序列中与开始跟踪时间对应的视频图片作为初始帧图像。然后，计算机设备110可以基于目标检测算法，将该初始帧图像输入至预训练的目标检测模型(如CenterNet目标检测模型等)中，检测出初始帧图像中的所有待跟踪对象，并展示出待跟踪对象检测结果。然后，计算机设备110接收用户实施于上述待跟踪对象的跟踪选定操作，如可以在待跟踪对象检测结果中指出具体要跟踪的待跟踪对象作为被跟踪对象，并标记出被跟踪对象在初始帧图像中的坐标即初始对象位置，并使用四个坐标的长方形框或八个坐标的多边形框对被跟踪对象进行标记，同时记录该被跟踪对象的类别。同时，计算机设备110还可以根据被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比例，确定后续在对被跟踪对象进行视觉跟踪时采用的目标搜索区域大小即搜索区域面积。

最后，计算机设备110将初始帧图像、初始对象位置和搜索区域面积输入至原始视觉跟踪模型，进而对原始视觉跟踪模型进行初始化，得到初始化后视觉跟踪模型。

实际应用中，原始视觉跟踪模型可以是DiMP视觉跟踪模型等各种基于具有更新机制的视觉跟踪算法的视觉跟踪模型。

本实施例的技术方案，在获取视频序列中的当前帧图像的步骤之前，通过获取被跟踪对象在初始帧图像中的初始对象位置，以及，获取针对被跟踪对象的搜索区域面积；根据初始帧图像、初始对象位置和搜索区域面积，对原始视觉跟踪模型进行初始化，得到初始化后视觉跟踪模型，如此，初始化后视觉跟踪模型可以准确地对视频序列中的被跟踪对象进行视觉跟踪。

在其中一个实施例中，获取针对被跟踪对象的搜索区域面积，包括：获取被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值；获取与比值对应的搜索区域放大倍数；基于被跟踪对象在初始帧图像中的区域图像对应的图像面积和搜索区域放大倍数，确定搜索区域面积。

具体实现中，计算机设备110在获取针对被跟踪对象的搜索区域面积的过程中，具体可以包括：计算机设备110获取被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值；然后，计算机设备110获取与比值对应的搜索区域放大倍数。

具体来说，计算机设备110可以判断被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值γ是否小于或等于预设的比值阈值γ₁；当该比值γ小于或等于预设的比值阈值γ₁时，计算机设备110则确定第一放大倍数

为搜索区域放大倍数；当该比值大于预设的比值阈值时，计算机设备110则确定第二放大倍数

为搜索区域放大倍数。

最后，计算机设备110再基于搜索区域放大倍数，对被跟踪对象在初始帧图像中的区域图像对应的图像面积进行放大，将放大得到的图像面积作为针对被跟踪对象的搜索区域面积。

其中，针对被跟踪对象的搜索区域面积s_search可以表示为：

其中，s_object为被跟踪对象在初始帧图像中的图像面积；

第一放大倍数；

第二放大倍数；γ为被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值；γ₁为预设的比值阈值。

实际应用中，预设的比值阈值可以是基于本领域技术人员确定的经验值，在此不再限定。

本实施例的技术方案，通过获取被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值并获取与比值对应的搜索区域放大倍数；通过基于被跟踪对象在初始帧图像中的区域图像对应的图像面积和搜索区域放大倍数，确定搜索区域面积，如此，使得初始化后视觉跟踪模型可以基于被跟踪对象在初始帧图像中图像面积适应性地调整在对被跟踪对象进行视觉追踪时的搜索区域面积。

在其中一个实施例中，获取被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值的步骤之后，还包括：当被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值小于或等于预设的比值阈值时，按照预设的放大倍数调整被跟踪对象在初始帧图像中的图像面积。

具体实现中，在计算机设备110获取被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值之后，计算机设备110判断被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值是否小于或等于预设的比值阈值，当计算机设备110确定被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值小于或等于预设的比值阈值时，计算机设备110则按照预设的放大倍数调整被跟踪对象在初始帧图像中的图像面积。具体地，计算机设备110可以采用双线性插值法，τ倍放大被跟踪对象在初始帧图像中的图像面积。

当计算机设备110确定被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值大于预设的比值阈值时，计算机设备110则不执行按照预设的放大倍数调整被跟踪对象在初始帧图像中的图像面积的步骤。

其中，被跟踪对象在初始帧图像中的图像面积s_object可以表示为：

其中，γ为被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值；γ₁为预设的比值阈值；w_object，h_object为被跟踪对象在初始帧图像中的区域图像对应的原始宽度和原始高度，w_resize，h_resize为通过双线性插值将被跟踪对象在初始帧图像中的区域图像放大τ倍的调整后宽度和调整后高度。

本实施例的技术方案，当被跟踪对象在初始帧图像中的区域图像对应的图像面积与初始帧图像对应的图像面积之间的比值小于或等于预设的比值阈值时，按照预设的放大倍数调整被跟踪对象在初始帧图像中的图像面积，从而提高了被跟踪对象在初始帧图像中的显示比例，便于后续对准确地对被跟踪对象进行准确地视觉跟踪。

在另一个实施例中，如图3所示，提供了一种对象跟踪方法，以该方法应用于图1中的计算机设备110为例进行说明，包括以下步骤：步骤S410，在对被跟踪对象进行跟踪过程中，获取视频序列中的当前帧图像；所述被跟踪对象为根据所述视频序列中的初始帧图像确定得到的。步骤S420，当判断无法在所述当前帧图像中跟踪到所述被跟踪对象时，在所述当前帧图像中确定多个候选同类对象；所述候选同类对象为类别与所述被跟踪对象的类别相同的对象。步骤S430，确定所述被跟踪对象在所述初始帧图像中的区域图像与每个所述候选同类对象在所述当前帧图像中的区域图像之间的相似度。步骤S440，根据所述相似度，在多个所述候选同类对象中，选取相似度最高的所述候选同类对象作为待校验对象。步骤S450，将所述待校验对象在所述当前帧图像中的区域图像输入至初始化后视觉跟踪模型，通过所述初始化后视觉跟踪模型，确定所述当前帧图像对应的跟踪响应图。步骤S460，获取所述跟踪响应图的峰旁比，以及，获取所述当前帧图像之前的各个历史视频帧的跟踪响应图的峰旁比。步骤S470，根据所述当前帧图像的峰旁比和前一帧图像的峰旁比，确定相邻帧峰旁比比值；所述前一帧图像为所述当前帧图像的前一帧图像。步骤S480，根据所述各个历史视频帧的跟踪响应图的峰旁比，确定平均峰旁比。步骤S490，若所述平均峰旁比大于或者等于第一预设阈值，且所述相邻帧峰旁比比值大于或者等于第二预设阈值，则确定所述待校验对象为所述被跟踪对象，并通过所述初始化后视觉跟踪模型对所述目标对象进行跟踪。需要说明的是，上述步骤的具体限定可以参见上文对一种对象跟踪方法的具体限定。

应该理解的是，虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种对象跟踪装置，所述装置包括：

获取模块510，用于在对被跟踪对象进行跟踪过程中，获取视频序列中的当前帧图像；所述被跟踪对象为根据所述视频序列中的初始帧图像确定得到的；

确定模块520，用于当判断无法在所述当前帧图像中跟踪到所述被跟踪对象时，在所述当前帧图像中确定多个候选同类对象；所述候选同类对象为类别与所述被跟踪对象的类别相同的对象；

匹配模块530，用于确定所述被跟踪对象在所述初始帧图像中的区域图像与每个所述候选同类对象在所述当前帧图像中的区域图像之间的相似度；

跟踪模块540，用于根据所述相似度，在多个所述候选同类对象中确定目标对象，并对所述目标对象进行跟踪。

在其中一个实施例中，所述跟踪模块540，具体用于根据所述相似度，在多个所述候选同类对象中，选取相似度最高的所述候选同类对象作为待校验对象；将所述待校验对象在所述当前帧图像中的区域图像输入至初始化后视觉跟踪模型，通过所述初始化后视觉跟踪模型，确定所述当前帧图像对应的跟踪响应图；根据所述跟踪响应图对应的跟踪置信度，判断所述待校验对象是否为所述被跟踪对象；若是，则确定所述待校验对象为所述目标对象，并通过所述初始化后视觉跟踪模型对所述目标对象进行跟踪。

在其中一个实施例中，所述跟踪模块540，具体用于获取所述跟踪响应图的峰旁比，以及，获取所述当前帧图像之前的各个历史视频帧的跟踪响应图的峰旁比；根据所述当前帧图像的峰旁比和前一帧图像的峰旁比，确定相邻帧峰旁比比值；所述前一帧图像为所述当前帧图像的前一帧图像；根据所述各个历史视频帧的跟踪响应图的峰旁比，确定平均峰旁比；若所述平均峰旁比大于或者等于第一预设阈值，且所述相邻帧峰旁比比值大于或者等于第二预设阈值，则确定所述待校验对象为所述被跟踪对象。

在其中一个实施例中，所述匹配模块530，具体用于将所述被跟踪对象在所述初始帧图像中的区域图像与所述候选同类对象在所述当前帧图像中的区域图像输入至预训练的图像匹配模型；通过所述预训练的图像匹配模型，提取所述被跟踪对象在所述初始帧图像中的区域图像对应的第一图像特征和所述候选同类对象在所述当前帧图像中的区域图像对应的第二图像特征，并确定所述第一图像特征与所述第二图像特征之间的特征相似度；将所述特征相似度，作为所述被跟踪对象在所述初始帧图像中的区域图像与所述候选同类对象在所述当前帧图像中的区域图像之间的相似度。

在其中一个实施例中，所述的一种对象跟踪装置，还包括：定位模块，用于获取所述被跟踪对象在所述初始帧图像中的初始对象位置，以及，获取针对所述被跟踪对象的搜索区域面积；初始化模块，用于根据所述初始帧图像、所述初始对象位置和所述搜索区域面积，对原始视觉跟踪模型进行初始化，得到所述初始化后视觉跟踪模型。

在其中一个实施例中，所述定位模块，具体用于获取所述被跟踪对象在所述初始帧图像中的区域图像对应的图像面积与所述初始帧图像对应的图像面积之间的比值；获取与所述比值对应的搜索区域放大倍数；基于所述被跟踪对象在所述初始帧图像中的区域图像对应的图像面积和所述搜索区域放大倍数，确定所述搜索区域面积。

在其中一个实施例中，所述定位模块，具体用于当所述被跟踪对象在所述初始帧图像中的区域图像对应的图像面积与所述初始帧图像对应的图像面积之间的比值小于或等于预设的比值阈值时，按照预设的放大倍数调整所述被跟踪对象在所述初始帧图像中的图像面积。

关于一种对象跟踪装置的具体限定可以参见上文中对于一种对象跟踪方法的限定，在此不再赘述。上述一种对象跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

为了便于本领域技术人员的理解，图6实例性地提供了一种对象跟踪方法的跟踪流程图。其中，计算机设备110通过视觉***，获取当前帧图像的跟踪响应图；然后，根据该跟踪响应图确定是否跟踪到目标；若是，则输出当前帧图像的视觉跟踪结果；若根据该跟踪响应图确定无法跟踪到目标时，则对当前帧图像进行目标检测，确定当前帧图像中多个候选同类目标即候选同类对象，然后，根据被跟踪对象在初始帧图像中的区域图像与每个候选同类对象在当前帧图像中的区域图像之间的相似度，在多个候选同类目标中确定跟踪目标，并对该跟踪目标进行视觉跟踪，进而输出当前帧图像的视觉跟踪结果。

为了便于本领域技术人员的理解，图7实例性地提供了一种对象跟踪方法的跟踪效果示意图。其中，计算机设备110正常跟踪被跟踪对象，当检测到有其他物体遮挡到被跟踪对象时，则进行目标丢失检测和匹配找回；当检测到被跟踪对象定位不准确时，则进行目标定位不正确检测和匹配校准。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种对象跟踪方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种对象跟踪方法的步骤。此处一种对象跟踪方法的步骤可以是上述各个实施例的一种对象跟踪方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种对象跟踪方法的步骤。此处一种对象跟踪方法的步骤可以是上述各个实施例的一种对象跟踪方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccessMemory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(StaticRandomAccessMemory，SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对象跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述相似度，在多个所述候选同类对象中确定目标对象，并对所述目标对象进行跟踪，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述跟踪响应图对应的跟踪置信度，判断所述待校验对象是否为所述被跟踪对象，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述被跟踪对象在所述初始帧图像中的区域图像与每个所述候选同类对象在所述当前帧图像中的区域图像之间的相似度，包括：

5.根据权利要求2所述的方法，其特征在于，所述获取视频序列中的当前帧图像的步骤之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取针对所述被跟踪对象的搜索区域面积，包括：

获取与所述比值对应的搜索区域放大倍数；

7.根据权利要求6所述的方法，其特征在于，所述获取所述被跟踪对象在所述初始帧图像中的区域图像对应的图像面积与所述初始帧图像对应的图像面积之间的比值的步骤之后，还包括：

8.一种对象跟踪装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。