WO2020228446A1

WO2020228446A1 - 模型训练方法、装置、终端及存储介质

Info

Publication number: WO2020228446A1
Application number: PCT/CN2020/083523
Authority: WO
Inventors: 王宁; 宋奕兵; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-05-13
Filing date: 2020-04-07
Publication date: 2020-11-19
Also published as: CN110147836A; JP7273157B2; KR102591961B1; CN110147836B; JP2022532460A; EP3971772A4; US20210335002A1; KR20210110713A; EP3971772A1; EP3971772B1; US11704817B2

Abstract

本申请实施例公开了一种模型训练方法、装置、终端及存储介质，方法包括：获取模板图像和测试图像；调用第一物体识别模型对模板图像中跟踪对象的特征处理得到第一参考响应，调用第二物体识别模型对模板图像中跟踪对象的特征处理得到第一参考响应；调用第一物体识别模型对测试图像中跟踪对象的特征处理得到第一测试响应，调用第二物体识别模型对测试图像中跟踪对象的特征处理得到第二测试响应；对第一测试响应进行跟踪处理得到在跟踪对象的跟踪响应；基于第一参考响应与第二参考响应之间差异信息、第一测试响应与第二测试响应之间差异信息和跟踪标签与跟踪响应之间差异信息更新第一物体识别模型。

Description

模型训练方法、装置、终端及存储介质

本申请要求于2019年5月13日提交国家知识产权局、申请号为201910397253.X，申请名称为“模型训练方法、装置、终端及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，具体涉及视觉目标跟踪领域，尤其涉及一种模型训练方法、一种模型训练装置、一种终端及一种存储介质。

背景技术

随着科技的发展，计算机视觉技术成为当前较为热门的研究领域，视觉目标跟踪是计算视觉领域中的一个重要研究方向。所谓视觉目标跟踪是指：在已知某图像中的跟踪对象的大小与位置的情况下，预测该跟踪对象在其他图像中的大小与位置。视觉目标跟踪通常应用于视频监控、人机交互以及无人驾驶等对实时性要求较高的应用场景中，例如：在给定某视频序列中的某帧图像中的跟踪对象的大小与位置的情况下，预测该视频序列的后续帧图像中的该跟踪对象的大小与位置。

发明内容

本申请实施例提供了一种模型训练方法、装置、终端及存储介质，可以更好的对第一物体识别模型进行训练，使得更新训练得到的第一物体识别模型具备较佳的视觉目标跟踪性能，使其更适用于视觉目标跟踪场景，提高视觉目标跟踪的准确性。

一方面，本申请实施例提供了一种模型训练方法，由计算设备执行，所述模型训练方法包括：

获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象在所述测试图像中的标注位置；

调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；

调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；

对所述第一测试响应进行跟踪处理，得到在所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。

另一方面，本申请实施例提供了一种模型训练装置，所述模型训练装置包括：

获取单元，用于获取训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象在所述测试图像中的标注位置；

处理单元，用于调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；

所述处理单元，还用于调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；

所述处理单元，还用于对所述第一测试响应进行跟踪处理，得到在所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

更新单元，用于基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。

再一方面，本申请实施例提供了一种终端，所述终端包括输入设备和输出设备，所述终端还包括：

处理器，用于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令用于由所述处理器加载并执行如下步骤：

对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令用于由处理器加载并执行如下步骤：

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种基于第一物体识别模型进行视觉目标跟踪的场景图；

图1b是本申请实施例提供的模型训练方法的实施环境示意图；

图2是本申请实施例提供的一种的模型训练方法的流程示意图；

图3a是本申请实施例提供的一种卷积神经网络的结构图；

图3b是本申请实施例提供的一种确定跟踪响应和跟踪标签的示意图；

图4是本申请实施例提供的另一种的模型训练方法的流程示意图；

图5是本申请实施例提供的一种获取第一物体识别模型的示意图；

图6是本申请实施例提供的一种第一物体识别模型联合优化的示意图；

图7是本申请另一实施例提供的一种获取正样本和负样本的示意图；

图8是本申请实施例提供的一种模型训练装置的结构示意图；

图9是本申请实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

目前，视觉目标跟踪主要是采用传统的图像处理模型实现跟踪处理的，但发明人在实践中发现，传统的图像处理模型是为了实现图像分类任务而设计的，采用图像分类数据进行训练得到，然而，视觉目标跟踪并不是为了实现图像分类任务，因此传统的图像处理模型并不适合应用在视觉目标跟踪场景，导致视觉目标跟踪的准确性低。

本申请实施例提供了一种第一物体识别模型，所述第一物体识别模型是指具有图像识别性能的图像识别模型，例如超分辨率测试序列(Visual Geometry Group，VGG)模型、谷歌网络GoogleNet模型以及深度残差网络(Deep residual network,ResNet)模型等。所述第一物体识别模型可以准确地对图像进行特征提取并且其提取到的特征更适用于视觉目标跟踪场景，因此将所述第一物体识别模型结合相关跟踪算法应用在视觉目标跟踪场景中，可以提高视觉目标跟踪的准确性和实时性。

具体地，利用第一物体识别模型和跟踪算法实现视觉目标跟踪的步骤可包括：(1)获取待处理图像和包括跟踪对象的参考图像，所述跟踪对象为所述参考图像中的需要被跟踪的图像元素，例如参考图像中的人、动物等；所述参考图像中可包括跟踪对象的标注信息，所述标注信息用于表示跟踪对象的大小和位置。在本申请一实施例中，所述标注信息可以标注框的形式表示，例如下文所述的图1中101所示；(2)根据参考图像中的标注信息确定待处理图像中包括的预测跟踪对象，此处所述的预测跟踪对象是指在待处理图像中可能为跟踪对象的图像元素。在本申请一实施例中，在(2)中可以根据参考图像中的标注框的大小在待处理图像中生成多个候选框，每个候选框代表一个预测跟踪对象，例如下文所述的图1中的A、B、C表示确定出的三个预测跟踪对象；(2)调用第一物体识别模型对所述参考图像中的跟踪对象进行识别处理，得到第一识别特征，所述第一识别特征是指跟踪对象的特征，例如跟踪对象的脸部轮廓特征、眼睛特征或者跟踪对象的姿态特征等等；(3)调用第一物体识别模型对所述待处理图像中包括的预测跟踪对象进行识别处理，得到第二识别特征，所述第二识别特征是指各个预测跟踪对象的特征，例如各个预测跟踪对象的脸部轮廓特征、眼睛特征、鼻子特征或者姿态特征等等；(4)基于所述第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征，并采用跟踪算法对所述目标特征进行跟踪处理，得到所述跟踪对象在所述待处理图像中的位置。在一个实施例中，所述跟踪算法可以包括相关滤波器跟踪算法、基于双网络的跟踪算法、稀疏表示算法等，本申请实施例中以相关滤波器算法为例。所述相关滤波器算法对目标特征进行跟踪处理后，得到一个高斯形状的响应图，该响应图上峰值的位置即表示跟踪到的跟踪对象在所述待处理图像中的位置。

其中，所述根据第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征可以理解为：通过对跟踪对象的特征和各个预测跟踪对象的特征的分析，确定出将各个预测跟踪对象中哪个预测跟踪对象作为待处理图像中包括的跟踪对象，以便于后续利用跟踪算法对该预测跟踪对象的特征进行处理，以得到跟踪对象在所述待处理图像中的位置，从而完成对跟踪对象的跟踪。在一个实施例中，步骤(4)的实施方式可以包括：将第一识别特征分别与各个第二识别特征进行匹配度评分，将匹配度评分最高的第二识别特征确定为目标特征。在其他实施例中，步骤 (4)的实施方式还可以包括：将各个第二识别特征进行融合处理，将融合处理的结果确定为目标特征。

例如，参考图1，为本申请实施例提供的一种视觉目标跟踪的场景，101表示参考图像，102为待处理图像，1011表示以标注框形式表示的跟踪对象的标注信息，标注框1101的大小表示参考图像中跟踪对象的大小，标注框1101的位置表示跟踪对象在参考图像中的位置，103表示第一物体识别模型。假设根据标注框1011在待处理图像102中生成A、B和C三个预测跟踪对象，然后调用第一物体识别模型103对1011进行识别处理，得到第一识别特征，并调用第一物体识别模型分别对预测跟踪对象A、B以及C进行识别处理，得到三个第二识别特征。进一步地，基于第一识别特征和三个第二识别特征确定目标特征，假设将预测跟踪对象C对应的第二识别特征确定为目标特征；再采用跟踪算法比如相关跟踪滤波器算法对目标特征进行跟踪处理，得到一个高斯形状的响应图，该响应图上峰值点表示跟踪对象在待处理图像中的位置如104所示。

基于上述的第一物体识别模型，本申请实施例还提出了一种模型训练方法，所述模型训练方法用于训练第一物体识别模型，以保证第一物体识别模型可以准确对图像进行特征提取并且提取到的特征更适用于跟踪场景。具体地，所述模型训练方法可以由终端等计算设备执行，具体地可由终端的处理器执行，所述终端可包括但不限于：智能终端、平板电脑、膝上计算机、台式电脑，等等。

图1b为本申请实施例提供的模型训练方法的实施环境示意图。其中，终端设备10与服务器设备20之间通过网络30通信连接，所述网络30可以是有线网络，也可以是无线网络。在终端设备10与服务器设备20上集成有本申请任一实施例提供的模型训练装置，用于实现本申请任一实施例提供的模型训练方法。

参见图2，本申请实施例提出的模型训练方法可包括以下步骤 S201-S205：

步骤S201、获取用于训练的模板图像和测试图像。

其中，所述模板图像和所述测试图像是用来对模型进行训练更新的图像，所述模板图像和所述测试图像中均包括跟踪对象，所述模板图像中还可以包括跟踪对象的标注信息，此处，所述跟踪对象的标注信息用于表示跟踪对象在模板图像中的大小和位置，所述标注信息可以是终端为模板图像标注的；所述测试图像中还包括测试图像对应的响应标签，所述响应标签用于表示跟踪对象在测试图像中的标注位置，所述标注位置可以指终端标注的、跟踪对象在测试图像中的真实位置；所述测试图像中也可以包括跟踪对象的标注信息，此处，所述跟踪对象的标注信息用于表示跟踪对象在测试图像中的大小和位置。

在一个实施例中，所述模板图像与测试图像可以是同一个视频序列中的两帧图像，例如，利用拍摄装置录制一段包括跟踪对象的视频序列，选择视频序列中任意一帧包括跟踪对象的图像作为模板图像，选择视频序列中除该模板图像之外，且包括跟踪对象的一帧图像作为测试图像。

在其他实施例中，所述模板图像与测试图像也可以不是同一个视频序列中的图像，例如，模板图像可以是通过拍摄装置对包括跟踪对象的第一拍摄场景进行拍摄得到的图像，测试图像可以在得到模板图像之前或者之后，利用拍摄装置对包括跟踪对象的第二拍摄场景进行拍摄得到的图像，也即，模板图像和测试图像是两张相互独立的图像。

由于同一视频序列的图像之间通常具备上下语义关系，相比于相互独立的模板图像及测试图像，更有利于对第一物体识别模型进行训练，且使得训练更新后的第一物体识别模型获得更佳的性能。因此，本申请实施例以模板图像和测试图像处于同一视频序列为例进行说明。

步骤S202、调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应。

步骤S203、调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应。

其中，所述第一物体识别模型和第二物体识别模型的相同点是：两者均为具有图像识别性能的图像识别模型。在本申请一实施例中，卷积神经网络模型由于其较强的特征提取性能成为目前常用的图像识别模型，本申请实施例中所述第一物体识别模型和第二物体识别可以为卷积神经网络模型，例如VGG模型、GoogleNet模型以及ResNet模型等。所述第一物体识别模型与所述第二物体识别模型的区别在于：所述第二物体识别模型是已更新的图像识别模型，或者说第二物体识别模型是预先训练并测试好的用于图像识别的模型，所述第一物体识别模型是待更新的图像识别模型。

所述卷积神经网络模型主要应用在图像识别、人脸识别以及文字识别等方向，卷积神经网络的网络结构可如图3a所示：主要包括卷积层301、池化层302和全连接层303。每个卷积层与一个池化层连接，所述卷积层301主要用于进行特征提取，所述池化层302也叫子采样层，主要用于缩减输入数据的规模，所述全连接层303根据卷积层提取到的特征来计算分类的分类值，最后输出分类及其对应的分类值。由此可知，所述第一物体识别模型和所述第二物体识别模型的网络结构也包括卷积层、池化层和全连接层。

每个卷积神经网络模型包括多个卷积层，每个卷积层负责提取图像的不同特征，前一个卷积层提取到的特征作为后一个卷积层的输入，每个卷积层负责提取的特征可以是根据特定函数设定的，或者是人为设定的。例如，对于图形类的图像识别时，可以设定第一卷积层负责提取图形的整体形状特征；第二卷积层负责提取图形的线条特征；第三卷积层负责提取图形的非连续性特征等。再如，对于包含人脸的图像识别时，可以设定第一卷积层负责提取人脸的轮廓特征；第二卷积层负责提取人脸的五官特征。每个卷积层中包括多个相同尺寸的用于进行卷积计算的滤波器，每个滤波器对应一个滤波器通道，每个滤波器进行卷积计算后得到一组特征，因此，每个卷积层对输入图像进行识别处理后提取到多维特征。在卷积层中，卷积层的数量越多，卷积神经网络模型的网络结构越深，提取到的特征数量也就越多；每个卷积层中包括的滤波器数量越多，每个卷积层提取到特征维度越高。

应当理解，如果一个模型包括的卷积层较多，和/或每个卷积层中滤波器数量较多，则对该模型进行存储时需要较大的存储空间，将需要较多存储空间的模型称为重量级模型；相反地，如果一个模型包括的卷积层较少、和/或每个卷积层中滤波器数量较少，则对该模型进行存储时不需要较大的存储空间，将需要较少存储空间的模型称为轻量级模型。

在本申请一实施例中，第一物体识别模型与第二物体识别模型可以均为重量级模型，或者，第二物体识别模型为重量级模型，第一物体识别模型为第二物体识别模型进行模型压缩处理得到的轻量级模型。如果第一物体识别模型属于重量级模型，则更新后的第一物体识别模型能够提取到高维度的特征，具有更好的识别性能，将其应用在视觉目标跟踪场景中时，可提高跟踪的准确性。如果第一物体识别模型是通过对第二物体识别模型进行模型压缩处理得到的轻量级模型，则更新后的第一物体识别模型具有与第二物体识别模型相似的特征提取性能，由于其更少的存储空间使其能够有效的应用在移动设备以及其他低功耗产品中。另外，如果将其应用在视觉目标跟踪场景中时，可以快速的进行特征提取，实现视觉目标跟踪的实时性。在实际应用中，可以根据具体的场景需求，选择第一物体识别模型为重量级模型还是轻量级模型。

由图1的实施例描述可知，在视觉目标跟踪领域中，影响跟踪准确性的主要因素之一是第一物体识别模型提取到的特征是否准确，而第一物体识别模型的特征提取主要依赖于卷积层，所以本申请实施例中，所述对第一物体识别模型进行更新，实质上是训练第一物体识别模型的卷积层，以提高第一物体识别模型的特征提取性能。基于此，在步骤S202 中所述调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理得到第一参考响应实质是调用第一物体识别模型的卷积层对模板图像中跟踪对象的特征进行特征提取处理得到第一参考响应。

所述第一参考响应是用于表示第一物体识别模型识别到的模板图像中的所述跟踪对象的特征，比如大小、形状、轮廓等，所述第一参考响应可以用特征图表示；同理可知，所述第二参考响应是用于表示第二物体识别模型识别到的模板图像中的所述跟踪对象的特征；所述第一测试响应是用于表示第一物体识别模型识别到的测试图像中的额跟踪对象的特征；所述第二测试响应是用于表示第二物体识别模型识别到的测试图像中跟踪对象的特征。

在一个实施例中，由前述可知，模板图像中可包括跟踪对象的标注信息，所述标注信息的作用可以是：确定出模板图像中第一物体识别模型需要识别的跟踪对象的大小及其所在的位置，以便于第一物体识别模型可以准确的确定出需要对谁进行识别处理；模板图像中跟踪对象的标注信息可以是以标注框形式表示的。在本申请一实施例中，所述调用第一物体识别模型对模板图像中的所述跟踪对象的特征进行识别处理得到第一参考响应可以指调用第一物体识别模型并结合模板图像中的标注信息对模板图像进行识别处理。例如，假设模板图像中的标注信息是以标注框的形式表示的，所述调用第一物体识别模型对模板图像中的所述跟踪对象的特征进行识别处理得到第一参考响应可以指对模板图像中的标注框的特征进行识别处理。

在其他实施例中，如果模板图像中只包括跟踪对象，或者包括跟踪对象和对跟踪对象的识别处理无影响的背景，例如墙面、地面、天空等，此种情况下，终端无论是否为模板图像设置跟踪对象的标注信息，都能使得第一物体识别模型准确地确定出需要对谁进行识别处理。

在一个实施例中，所述调用第一物体识别模型对模板图像中的所述跟踪对象的特征进行识别处理得到第一参考响应的实施方式可以为：将模板图像作为第一物体识别模型的输入，第一物体识别模型的第一卷积层利用一定尺寸的多个滤波器对模板图像进行卷积计算，提取到模板图像中的跟踪对象的第一特征；将第一特征作为第二卷积层的输入，第二卷积层利用多个滤波器对第一特征进行卷积计算，提取到模板图像中的跟踪对象第二特征；将第二特征输入到第三卷积层，第三卷积层利用多个滤波器对第二特征进行卷积计算，得到模板图像中的跟踪对象第四特征，依次类推，直到最后一个卷积层完成卷积计算后，输出的结果即为第一参考响应。对于调用第一物体识别对测试图像进行识别处理得到第一测试响应的实施方式、调用所述第二物体识别模型对所述测试图像进行识别处理得到第二参考响应的实施方式，以及调用所述第二物体识别模型对所述测试图像进行识别处理得到第二测试响应的实施方式可与上述描述的实施方式相同，在此不一一赘述。

步骤S204、对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应。

为了保证第一物体识别模型适用于视觉目标跟踪场景中，除了要确保第一物体识别模型具有较强特征提取性能外，还要保证第一物体识别模型提取到的特征更好地适用于跟踪场景，或者说更好地用于跟踪算法中。基于此，本申请实施例通过步骤S204实现对第一物体识别模型的跟踪训练。

在一个实施例中，所述步骤S204可包括：采用跟踪训练算法对所述第一测试响应进行跟踪处理，得到在所述跟踪对象的跟踪响应。其中，所述跟踪训练算法是用于对第一物体识别模型进行跟踪训练的算法，可以包括相关滤波器跟踪算法、基于双网络的跟踪算法、稀疏表示算法等。所述跟踪响应用于表示根据跟踪训练算法和第一测试响应确定出的跟踪对象在测试图像中的跟踪位置，实际上所述跟踪位置可以理解为根据跟踪训练算法和第一测试响应预测到的跟踪对象在测试图像中所处的位置。

在一个实施例中，如果跟踪训练算法为相关滤波器算法，所述采用跟踪训练算法对第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应的方式可以为：采用跟踪训练算法对第一测试响应进行跟踪处理得到一个高斯形状的响应图，根据所述响应图确定跟踪响应。在本申请一实施例中，所述根据所述响应图确定跟踪响应的实施方式可以为：将所述响应图作为跟踪响应。这样，所述响应图能够反映跟踪对象在测试图像中的跟踪位置，具体地，可以将所述响应图中最大值点或者峰值点作为跟踪对象在测试图像中的跟踪位置。

在步骤S401中，所述跟踪标签用于表示跟踪对象在测试图像中的标注位置，所述标注位置可以指终端预先标注的、跟踪对象在测试图像中真实的位置。在一个实施例中，所述跟踪标签也可以为一个高斯形状的响应图，该响应图上的峰值点表示跟踪对象在测试图像中真实的位置。

例如，参考图3b所示为本申请实施例提供的一种确定跟踪标签和跟踪响应的示意图，假设304表示测试图像，3041表示跟踪对象，终端预先为测试图像标注的跟踪标签可以如图3b中306所示，306上的峰值点3061表示跟踪对象在测试对象中的标注位置。调用第一物体识别模型对304进行识别处理得到第一测试响应；再采用跟踪训练算法例如相关滤波器算法对第一测试响应进行跟踪处理得到跟踪响应如305所示，305上的峰值点3051表示跟踪对象在测试图像中的跟踪位置。

在其他实施例中，如果采用其他跟踪训练算法对第一测试响应进行跟踪处理时，可以根据具体的跟踪训练算法的特征确定跟踪响应。

步骤S205、基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。

由前述可知，所述第一参考响应是用于表示第一物体识别模型识别到的模板图像中的所述跟踪对象的特征，比如大小、形状、轮廓等，所述第二参考响应是用于表示第二物体识别模型识别到的模板图像中的所述跟踪对象的特征；由此可知，所述第一参考响应与所述第二参考响应之间的差异信息可以包括第一物体识别模型和第二物体识别模型对模板图像进行特征提取时，提取到的特征之间的差异大小。

在一个实施例中，所述特征之间的差异大小可以通过特征之间的距离表示，例如假设第一参考响应包括第一物体识别模型识别到的模板图像中跟踪对象的脸部轮廓，表示为脸部轮廓1，以及第二参考响应包括第二物体识别模型识别到的模板图像中跟踪对象的脸部轮廓，表示为脸部轮廓2；所述第一参考响应与所述第二参考响应之间的差异信息可以包括脸部轮廓1与脸部轮廓2之间的距离。在其他实施例中，所述特征之间的差异大小还可以通过特征之间的相似度值来表示，相似度值越大表示特征之间的差异越小，相似度值越小表示特征之间的差异越大。

同理可知，所述第一测试响应与所述第二测试响应之间的差异信息可以包括第一物体识别模型和第二物体识别模型对测试图像进行特征提取时，提取到的特征之间的差异大小。由步骤S204中描述可知，所述跟踪标签与所述跟踪响应之间的差异信息反映了跟踪对象在测试图像中的跟踪位置和标注位置之间的距离。

在具体实施过程中，可以根据基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定第一物体识别模型对应的损失优化函数的值，然后按照减小所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。此处的更新是指：更新第一物体识别模型中的各模型参数。其中，第一物体识别模型的模型参数可包括但不限于：梯度参数、权重参数等等。

本申请实施例中利用第二物体识别模型对第一物体识别模型进行训练过程中，首先分别调用第一物体识别模型和第二物体识别模型对模板图像中的所述跟踪对象的特征进行识别处理得到第一参考响应和第二参考响应，再调用第一物体识别模型和第二物体识别模型对测试图像中的所述跟踪对象的特征进行识别处理得到第一测试响应和第二测试响应；进一步地，对第一测试响应进行跟踪处理，得到跟踪对象的跟踪响应；进而，便可以根据第一参考响应与第二参考响应之间的差异信息、第一测试响应与第二测试响应之间的差异信息，确定第一物体识别模型相比于第二物体识别模型在特征提取性能上的损失；以及根据跟踪标签与跟踪响应之间的差异信息，确定第一物体识别模型在跟踪性能上的损失。基于第一物体识别模型在特征提取性能上的损失以及在跟踪性能上的损失更新第一物体识别模型，可以使得更新后的第一物体识别模型具有与第二物体识别模型相同或较相近的特征提取性能，并且提取到的特征更适用于视觉目标跟踪场景中，从而可提高视觉目标跟踪的准确性。

请参见图4，是本申请实施例提供的另一种模型训练方法的流程示意图。该模型训练方法可以由终端等计算设备执行；此处的终端可包括但不限于：智能终端、平板电脑、膝上计算机、台式电脑，等等。请参见图4，该模型训练方法可包括以下步骤S401-S408：

步骤S401，获取第二物体识别模型，并对所述第二物体识别模型进行裁剪，得到第一物体识别模型。

在本申请一实施例中，所述第二物体识别模型为已训练完成的用于图像识别的重量级模型，所述第一物体识别模型为待训练的用于图像识别的轻量级模型。由前述可知，通过对第二物体识别模型进行模型压缩处理得到轻量级的第一物体识别模型，再将轻量级的第一物体识别模型应用在视觉目标跟踪领域时可以实现实时的视觉目标跟踪。所述模型压缩是指对已训练好的重量级模型进行时间和空间上的压缩，以除去重量级模型中包括的一些不重要的滤波器或者参数，提升特征提取速度。在本申请实施例中，所述模型压缩可以包括模型裁剪和模型训练，所述模型裁剪是指可以通过裁剪模型中包括的滤波器数量和特征通道数的方式减轻第二物体识别模型的网络结构，以得到第一物体识别模型；所述模型训练是指基于迁移学习技术，采用第二物体识别模型和用于训练的模板图像和测试图像对裁剪得到的第一物体识别模型进行更新训练，以使得第一物体识别模型具有与第二物体识别模型相同或相似的特征识别性能。

所述迁移学习技术是指将一个模型的性能迁移到另一个模型上，本申请实施例中迁移学习是指调用第二物体识别模型对模板图像中的所述跟踪对象的特征进行识别处理得到第二参考响应，将所述第二参考响应作为监督标签训练第一物体识别模型对模板图像中的所述跟踪对象的特征的识别，再调用第二物体识别模型对测试图像中的所述跟踪对象的特征进行识别处理得到第二测试响应，将所述第二测试响应作为监督标签训练第一物体识别模型对测试图像中的所述跟踪对象的特征的识别。老师-学习模型是一种典型的基于迁移学习技术进行模型压缩的方法，在本申请实施例中，第二物体识别模型相当于老师模型，第一物体识别模型相当于学生模型。

在一个实施例中，在对所述第二物体识别模型裁剪得到第一物体识别模型过程中，裁剪可以指将第二物体识别模型中每个卷积层中包括的滤波器个数减去一定数量，和/或将每个卷积层对应的特征通道数也减去相应数量。例如，将第二物体识别模型的每个卷积层中滤波器个数和特征通道数减去五分之三，或者减去八分之七或者任意数量；经过实践证明，将第二物体识别模型中每个卷积层中包括的滤波器个数和每个卷积层对应的特征通道数减去八分之七，能够通过训练更新得到较好的第一物体识别模型。例如，参考图5，为本申请实施例提供的一种对第二物体识别模型进行裁剪得到第一物体识别模型的示意图，应当理解，通过上述方法对第二物体识别模型进行裁剪处理只涉及到卷积层，所以为方便描述，图5中只示出第一物体识别模型和第二物体识别模型的卷积层。假设第二物体识别模型为VGG-8模型，由前述可知第一物体识别模型也为VGG-8模型。VGG-8模型中包括5个卷积层，501表示的第二物体识别模型的卷积层，502表示第一物体识别模型的卷积层，503表示第二物体识别模型的每个卷积层中包括的滤波器个数、特征通道数、滤波器的尺寸。基于上述描述，对第二物体识别模型中每个卷积层包括的滤波器个数、特征通道数均减去八分之七，得到第一物体识别模型的各个卷积层中滤波器个数、特征通道数以及滤波器的尺寸，如504所示。

步骤S402，获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示跟踪对象在测试图像中的标注位置。

步骤S403，调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用所述第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应。

步骤S404，调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应。

步骤S405，对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应。

在一个实施例中，步骤S405的实施方式可包括采用跟踪训练算法对第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应。所述跟踪训练算法中可包括跟踪算法参数，所述采用跟踪训练算法对所述第一测试响应进行跟踪处理，得到在所述测试图像中对所述跟踪对象的跟踪响应的实施方式可以是：将第一测试响应代入已知跟踪算法参数的跟踪训练算法中进行计算，根据计算得到的结果确定跟踪响应。本申请实施例中所述跟踪训练算法中的跟踪算法参数是根据第二物体识别模型和模板图像对跟踪训练算法进行训练得到的。下面以跟踪训练算法为相关滤波器算法为例，介绍利用第二物体识别模型和模板图像对跟踪训练算法进行训练，得到相关滤波器跟踪算法的跟踪算法参数的过程。所述相关滤波器跟踪算法的跟踪算法参数是指相关滤波器参数的滤波器参数，对相关滤波器算法的训练过程可包括步骤S11-13：

步骤S11，根据模板图像生成训练样本，并获取训练样本对应的跟踪标签；

在一个实施例中，模板图像中包括跟踪对象以及跟踪对象对应的跟踪标签，根据模板图像生成的训练样本中也包括跟踪对象。其中，所述模板图像中包括的跟踪对象对应的跟踪标签可以指跟踪对象在模板图像中的真实位置，所述模板图像中包括跟踪对象的跟踪标签可以是终端预先标注的。在本申请一实施例中，根据模板图像生成训练样本的方式可以为：在模板图像中裁剪出包括跟踪对象的图像块，对图像块进行循环移位处理得到训练样本，训练样本对应的跟踪标签根据模板图像中包括的跟踪标签和循环移位操作的程度决定。

对模板图像进行循环移位处理的方式可以为：将模板图像的图像块进行像素化处理，确定用于表示跟踪对象的像素点，这些像素点组成了跟踪对象的像素矩阵，对于像素矩阵中每行进行循环移位处理，得到多个新的像素矩阵。在上述循环移位过程中，每个像素点的值没有改变，只是像素点位置发生改变，像素点的值不变所以通过循环移位后的矩阵还用于表示跟踪对象，像素点的位置发生改变，新的像素点矩阵渲染出来的跟踪对象的位置发生了变化。

上述对像素矩阵的每行进行循环移位处理，可以包括：像素矩阵的每行可以表示为一个nx1的向量，向量中每个向量元素对应一个像素点；将nx1向量中的每个像素点依次向右或者向左移动，每移动一次得到一组新的向量。

步骤S12，调用第二物体识别模型对训练样本进行特征提取处理，得到训练样本中跟踪对象的特征；

调用第二物体识别模型对多个训练样本进行特征提取处理实质是调用第二物体识别模型的卷积层对训练样本进行特征提取的过程。第二物体识别模型包括多个卷积层，每个卷积层中包括多个用于卷积计算的滤波器，所以每个卷积层提取到的特征是多维的，经每个卷积层提取到的多维特征依次作为下一个卷积层的输入，直到得到最后一个卷积层的输出。例如，第二物体识别模型包括5个卷积层，通过5个卷积层对训练样本进行特征提取处理后，得到的训练样本的特征的维度为D，假设

表示第二物体识别模型提取到的第i维的特征，最后第二物体识别模型提取到的训练的特征表示为

步骤S13，获取用于确定相关滤波器参数的岭回归方程，并对所述岭回归方程进行求解，得到相关滤波器参数。

相关滤波器算法的工作原理是：提取包括跟踪对象的图像的特征；将提取到的特征与相关滤波器进行卷积计算，得到响应图，从所述响应图中确定出图像中跟踪对象的位置。卷积计算时，要求两个相同大小的量之间才能进行卷积运算，因此要保证相关滤波器的维度和训练样本的特征的维度相同。相关滤波器算法对应的岭回归方程可如公式(1)所示:

其中，★表示卷积运算，D表示第二物体识别模型提取到的训练样本的特征维度，w _i表示相关滤波器的第i维滤波器参数，x表示训练样本，y表示训练样本x的跟踪标签，

表示训练样本x的第i维特征，λ表示正则化系数。

通过最小化式(1)的岭回归方程，便可得到相关滤波器的各个维度的滤波器参数。具体地，最小化式(1)，并将式(1)在频域进行求解，得到相关滤波器的各个维度的滤波器参数。以求解第d维度的滤波器参数为例，介绍在频域求解滤波器参数的公式。在频域求解第d维度的滤波器参数的公式表示为(2)：

在公式(2)中，w _d表示第d个卷积层对应的相关滤波器参数，⊙表示点乘运算，

表示离散傅里叶变换，· ^*表示复共轭运算。依据公式(2)可以计算得到各个维度的相关滤波器的滤波器参数，各个维度的滤波器参数组成相关滤波器算法的滤波器参数。

通过步骤S11-S13对相关滤波器算法训练得到相关滤波器的滤波器参数后，可以基于相关滤波器算法对第一测试响应进行跟踪处理，得到所述测试图像中对所述跟踪对象的跟踪响应。具体地，采用相关滤波器算法对第一测试响应进行跟踪处理，得到在所述测试图像中对所述跟踪对象的跟踪响应可通过公式(3)表示，

在公式(3)中，w表示相关滤波器的滤波器参数，

表示第一测试响应，

表示反离散傅里叶变化，r表示跟踪响应。

步骤S406，获取所述第一物体识别模型对应的损失优化函数。

为了保证第一物体识别模型和第二物体识别模型有相同或者相近的特征提取性能，同时保证第一物体识别模型提取的特征更适用于视觉跟踪场景，本申请实施例提出了对第一物体识别模型进行特征识别损失和跟踪损失的联合优化。对第一物体识别模型进行联合优化时，第一物体识别模型对应的损失优化函数可表示为公式(4)：

在公式(4)中，

表示特征识别损失，

表示跟踪损失，λ表示特征识别损失和跟踪损失对第一物体识别模型的优化重要性的参数，其取值可以在0-1范围内，λ越大表示跟踪损失对第一物体识别模型的损失优化影响越大，Θ表示第一物体识别模型的网络参数，Υ表示正则化系数，Υ‖Θ‖ ²防止第一物体识别模型过拟合。

步骤S407，基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值。

通过步骤S406可知，第一物体识别模型的损失优化函数包括特征识别损失函数和跟踪损失函数，在步骤S407中确定损失优化函数的值时，可以首先确定特征识别损失函数的值和跟踪损失函数的值，再根据特征识别损失函数的值和跟踪损失函数的值确定优化损失函数的值。

具体地，所述基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值，包括：获取所述特征识别损失函数，并基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息，确定所述特征识别损失函数的值；获取所述跟踪损失函数，并基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值；基于所述特征识别损失函数的值和所述跟踪损失函数的值确定损失优化函数的值。

关于特征识别损失函数的值：由前述可知，所述第一参考响应用于表示第一物体识别模型识别到的模板图像中的所述跟踪对象的特征，所述第二用于表示第二物体识别模型识别到的模板图像中的所述跟踪对象的特征，所述第一参考响应与所述第二参考响应之间的差异信息反映了第一物体识别模型和第二物体识别模型对模板图像中的所述跟踪对象的特征进行特征提取时，提取到的特征之间的差异大小，所述差异大小可以用距离来表示，也即第一参考响应与所述第二参考响应之间的差异信息包括第一参考响应与所述第二参考响应之间的距离；

同理，所述第一测试响应与所述第二测试响应之间的差异信息包括第一测试响应与所述第二测试响应之间的距离。特征识别损失函数是通过约束上述的特征之间的距离，以使得第一物体识别模型和第二物体识别模型有相同或相近的特征提取性能。由此可知，特征损失优化函数包括两部分损失，一部分为关于测试图像的特征识别损失，一部分是关于模板图像的特征识别损失。

关于测试图像的特征识别损失的损失值由第一参考响应与所述第二参考响应之间的距离确定，关于模板图像的特征识别损失的损失值由第一测试响应与所述第二测试响应之间的距离确定，将关于测试图像的特征识别损失的损失值和关于参考图像的识别损失的损失值代入到特征识别损失函数中，便可计算得到特征识别损失函数的值。例如，特征识别损失函数可表示为公式(5)：

其中，

表示特征识别损失函数，

关于参考图像的特征识别损失，

表示关于测试对象的特征识别损失，

表示第一参考响应，ψ(x)表示第二参考响应，

表示第一测试响应，ψ(z)表示第二测试响应。

关于跟踪损失函数的值：跟踪标签与跟踪响应之间的差异反映了跟踪响应与跟踪标签之间的欧式距离，通过约束两者之间的欧式距离，优化第一物体识别模型的跟踪性能。将根据跟踪响应与跟踪标签之间的欧式距离代入到跟踪损失函数，便可求得跟踪损失函数的值。例如，跟踪损失函数可表示为公式(6)：

其中，

表示跟踪损失函数，r表示跟踪响应，g表示跟踪标签，r可以通过公式(7)得到，公式(7)中w表示跟踪训练算法的滤波器参数，可以通过前述S11-S13的步骤得到。

应当理解，由前述可知，第一物体识别模型包括多个卷积层，第一测试响应是将第一物体识别模型的各个卷积层对测试图像进行识别处理得到的各个子测试响应进行融合处理后得到的。例如，假设第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述第一测试响应是由第一卷积层对应的第一测试子响应、所述第二卷积层对应的第二测试子响应以及所述第三卷积层对应的第三测试子响应融合得到的。为了保证第一物体识别模型提取到的特征更适用于视觉目标跟踪场景中，可以对第一物体识别模型进行多尺度的跟踪损失优化。

在本申请一实施例中，多尺度的跟踪损失优化是指：计算第一物体识别模型的多个卷积层的跟踪损失值，再根据多个卷积层的跟踪损失值确定第一物体识别模型的跟踪损失函数的值。具体地，假设第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值，包括：基于所述第一卷积层对应的第一跟踪标签与法对所述第一测试子响应进行跟踪处理得到的第一跟踪响应之间的差异信息，确定所述第一卷积层的跟踪损失值；基于所述第二卷积层对应的第二跟踪标签与对所述第二测试子响应进行跟踪处理得到的第二跟踪响应之间的差异信息，确定所述第二卷积层的跟踪损失值；基于所述第三卷积层对应的第三跟踪标签与对所述第三测试子响应进行跟踪处理得到的第三跟踪响应之间的差异信息，确定所述第三卷积层的跟踪损失值；将所述第一卷积层对应的跟踪损失值、所述第二卷积层对应的跟踪损失值以及所述第三卷积层对应的跟踪损失值进行多尺度融合处理，得到跟踪损失函数的值。

其中，第一跟踪子响应、第二跟踪子响应以及第三跟踪子响应可以是采用跟踪训练算法对分别对第一卷积层、第二卷积层以及第三卷积层对应的第一测试子响应、第二测试子响应以及第三测试子响应进行跟踪处理得到的。由于不同卷积层提取到的特征不相同，所以第一跟踪子响应、第二跟踪子响应以及第三跟踪子响具有不同的分辨率。其中，跟踪训练算法对不同卷积层的测试子响应进行跟踪处理时所使用的跟踪算法参数不相同，在某个卷积层下的跟踪算法参数是通过第二物体识别模型和相应卷积层对应的模板图像进行训练得到的，具体的训练过程可参考步骤S11-S13，在此不再赘述。

应当理解，第一物体识别模型中包括的多个卷积层是按照连接顺序连接在一起的，上述提及到的第一卷积层、第二卷积层以及第三卷积层可以是第一物体识别模型的卷积层中任意三个卷积层，或者所述第一卷积层为所述连接顺序所指示的第一个卷积层，所述第三卷积层为所述连接顺序所指示的最后一个卷积层，所述第二卷积层为除所述第一个卷积层和所述最后一个卷积层外的任意一个卷积层，此时第一卷积层可以称为第一物体识别模型的高层卷积层、第二物体识别模型为第一物体识别模型的中层卷积层，所述第三卷积层为第一物体识别模型的低层卷积层。经实践证明，对于只有5个卷积层的第一物体识别模型，选用所述连接顺序所指示的第一个卷积层、所述连接顺序所指示的最后一个卷积层以及第二卷积层进行多尺度跟踪损失优化，能够使得第一物体识别模型提取到的特征更好的适用于跟踪场景中。

在多尺度跟踪损失优化的情况下，上述公式(6)可改写成公式(8)和(9)：

其中，l表示第一物体识别模型的第l个卷积层，r _l表示跟踪算法对第l个卷积层的第l个测试子响应进行跟踪处理得到的第l跟踪子响应，g _l表示第l个卷积层对应的测试图像中包括的跟踪对象的跟踪标签。其中，跟踪算法对第l卷积层的第l测试子响应进行跟踪处理得到的第l跟踪子响应时，用到的第l卷积层对应的跟踪算法参数是通过第二物体识别模型和第l卷积层对应的模板图像训练得到的，具体的训练过程可参考步骤S11-S13部分的描述，在此不再赘述。

参考图6，为本申请实施例提供的一种对第一物体识别模型进行联合优化的示意图，图中示出的特征识别损失优化如公式(5)所示和多尺度跟踪损失优化如公式(8)所示，图6中601表示第一物体识别模型，602表示第二物体识别模型。

步骤S408，按照减小所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。

通过步骤S406-S407确定了第一物体识别模型的特征识别损失函数的值和跟踪损失函数的值后，两者代入公式(4)，计算得到损失优化函数的值，按照减小损失优化函数的值的原则，更新第一物体识别模型。换句话说，不断减小损失优化函数的值，根据损失优化函数的值可反推出特征识别损失函数的值和跟踪损失函数的值，再通过调整第一物体识别模型的模型参数以使第一参考响应与第二参考响应之间的距离，以及第一测试响应与第二测试响应之间的距离满足特征识别损失函数的值；同时，调整第一物体识别模型的模型参数以使得跟踪响应与跟踪标签之间的欧式距离满足跟踪损失函数的值。

重复执行上述步骤S401-S408可更新得到一个既具有良好特征识别性能又使得提取到的特征更适用于视觉目标跟踪场景中的第一物体识别模型。经实践证明，采用本申请实施例提供的模型训练方法，通过结合对第二物体识别模型进行模型压缩和知识迁移处理，得到的第一物体识别模型的容量仅有第二物体识别模型的几十分之一，并且第一物体识别模型拥有与第二物体识别模型相近的特征提取性能、更好的跟踪性能，实现了视觉跟踪的实时性。

由于前述步骤S401-S408对第一物体识别模型进行更新时使用的模板图像和测试图像均为包括跟踪对象的图像，如此可保证更新后的第一物体识别模型能够具有较好的对跟踪对象进行特征提取的能力。但是在实际应用中，调用第一物体识别模型进行识别处理的待处理图像中可能除了包括有跟踪对象外，还包括其他背景，因此，为了进一步提高第一物体识别模型的能力，本申请实施例通过步骤S401-S408对第一物体识别模型进行更新后，还利用正样本和负样本对第一物体识别模型进行更新处理，以使得第一物体识别模型具有更好的特征辨别能力，也即能够更好的区分出图像中包括的跟踪对象和背景。

具体地，利用正样本和负样本对第一物体识别模型进行更新处理，可包括：获取包括跟踪对象的参考图像，并基于所述参考图像确定用于训练的正样本和负样本，所述参考图像可以为待使用第一物体识别模型实现跟踪的视频序列中的第一帧图像，所述正样本是指包括所述跟踪对象的图像，所述负样本是指不包括所述跟踪对象的图像，所述正样本包括所述跟踪对象的正样本跟踪标签，所述负样本包括所述跟踪对象的负样本跟踪标签；调用所述已更新的第一物体识别模型对所述正样本进行识别处理，得到正样本识别响应，并调用所述已更新的第一物体识别模型对所述负样本进行识别处理，得到负样本识别响应；对所述正样本识别响应进行跟踪处理，得到在所述正样本中对所述跟踪对象的正样本跟踪响应；并对所述负样本识别响应进行跟踪处理，得到所述在所述负样本中对所述跟踪对象的负样本跟踪响应；基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型。

在本申请一实施例中，基于参考图像获取正样本和负样本的方式可以为：通过对参考图像进行随机裁剪，得到多个图像块，将包含跟踪对象的图像块作为正样本，将不包括跟踪对象的图像块作为负样本。其中，正样本对应的正样本跟踪标签即为跟踪对象在正样本中的真实位置，负样本由于不包含跟踪对象，其对应的负样本跟踪标签为0。例如，图7所示为获取正样本和负样本的示意图，图7中701为参考图像，对参考图像进行随机的裁剪，得到多个图像块，如701中包括的多个标注框，每个标注框代表一个图像块；假设跟踪对象为702，从701的多个图像块中选择包括702的图像块作为正样本，如图中的703和704，选择不包括702的图像块为负样本，如图中的705和706。703和704对应的正样本跟踪标签为跟踪对象在703和704中的真实位置，如703和704下方图中的圆点所示。由于负样本705和706中不包括跟踪对象，因此其对应的跟踪标签为0，所以不出现圆点。

在一个实施例中，所述基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型，包括：获取跟踪损失优化函数；基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，确定所述跟踪损失优化函数的值；按照减小所述跟踪损失优化函数的值的原则，对所述已更新的第一物体识别模型进行训练。

正样本跟踪响应与正样本跟踪标签之间的差异信息包括第一物体识别模型对正样本进行跟踪处理，得到跟踪对象的位置与跟踪对象在该正样本中的真实位置之间的欧氏距离。同样地，负样本跟踪响应与负样本跟踪标签之间的差异信息包括第一物体识别模型对负样本进行跟踪处理，得到的跟踪对象的位置与跟踪对象与该负样本中跟踪对象的真实位置之间的欧式距离。将上述两者带入到跟踪损失优化函数中，得到跟踪损失优化函数的值，然后按照减小跟踪损失优化函数的值的原则，再次更新已更新的第一物体识别模型。通过重复执行跟踪损失优化的步骤，完成对已更新的第一物体识别模型的更新。

在一个实施例中，基于步骤S407中关于多尺度跟踪优化的描述，此处基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，更新所述已更新的第一物体识别模型时，也可以是采用多尺度优化。

由前述可知，第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述正样本跟踪标签包括第一卷积层对应的第一正样本跟踪标签、第二卷积层对应的第二正样本跟踪标签以及第三卷积层对应的第三正样本跟踪标签；正样本识别响应是由第一卷积层对应的正样本第一子识别响应、第二卷积层对应的正样本第二子识别响应以及第三卷积层对应的正样本第三子识别响应融合得到的；所述负样本识别响应是由第一卷积层对应的负样本第一子识别响应、第二卷积层对应的负样本第二子识别响应以及第三卷积层对应的负样本第三子识别响应。

所述正样本跟踪响应可以包括采用跟踪训练算法对正样本第一子识别响应进行跟踪处理得到的第一正样本跟踪响应、对正样本第二子识别响应进行跟踪处理得到的第二正样本跟踪响应以及对正样本第三子识别响应进行跟踪处理得到的第三正样本跟踪响应。所述负样本跟踪响应可以包括采用跟踪训练算法对第一负样本识别响应进行跟踪处理时得到的第一负样子跟踪响应、跟踪训练算法对第二负样本识别响应进行跟踪处理时得到的第二负样本子跟踪相应，以及跟踪训练算法对第三负样本识别响应进行跟踪处理时得到的第三负样本子跟踪响应。

所述多尺度跟踪损失优化的实施方式可以为：基于第一正样本跟踪响应与第一正样本跟踪标签之间的差异信息、以及第一负样本跟踪响应与负样本跟踪响应之间的差异信息，确定第一卷积层的跟踪损失优化函数的值；基于第二正样本跟踪响应与第二正样本跟踪标签之间的差异信息、以及第二负样本跟踪响应与负样本跟踪响应之间的差异信息，确定第二卷积层的跟踪损失优化函数的值，以及基于第三正样本跟踪响应与第三正样本跟踪标签之间的差异信息、以及第三负样本跟踪响应与负样本跟踪响应之间的差异信息，确定第三卷积层的跟踪损失优化函数的值；最后根据第一卷积层的跟踪损失优化函数的值、第二卷积层的跟踪损失优化函数的值以及第三卷积层的跟踪损失优化函数的值，确定跟踪损失优化函数的值。假设多尺度跟踪损失优化的跟踪损失优化函数可以表示为公式(10)所示：

其中，

表示跟踪训练算法对第l卷积层对应的正样本第l子识别响应进行处理得到的第l正样本跟踪响应，g _l表示第l卷积层下正样本对应的正样本跟踪标签，

表示跟踪训练算法对第l卷积层对应的负样本第l子识别响应进行处理得到的第l负样本跟踪响应，w _l表示第l卷积层对应的跟踪算法参数。

由前述可知，不同卷积层对应的跟踪算法参数由第二物体识别模型和相应的卷积层下对应的正样本训练得到的，不同卷积层下对应的正样本是具有相同尺寸不同分辨率的图像，对于具体的训练过程可参考上述步骤S11-S13，在此不再赘述。

通过利用参考图像对第一物体识别模型进行再次更新后，可以将第一物体识别模型和某些跟踪算法相结合应用在场景分析、监控设备以及人机交互等需要进行视觉目标跟踪的场景中。具体地，将第一物体识别模型和某些跟踪算法相结合应用在视觉目标跟踪场景中的实施方式可以包括：获取待处理图像，并根据参考图像中跟踪对象的标注信息确定所述待处理图像中包括的预测跟踪对象，所述待处理图像可以是待使用第一物体识别模型进行视觉目标跟踪的视频序列中除第一帧以外的图像；调用已更新的第一物体识别模型对所述参考图像中的所述跟踪对象进行识别处理，得到第一识别特征；调用所述已更新的第一物体识别模型对所述待处理图像中的预测跟踪对象进行识别处理，得到第二识别特征；基于所述第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征，并采用跟踪算法对所述目标特征进行跟踪处理，得到所述跟踪对象在所述待处理图像中的位置信息。对于此部分具体的应用可参考图1部分相应的描述，在此不再赘述。

本申请实施例采用重量级的第二物体识别模型对轻量级的第一物体识别模型训练时，分别调用第一物体识别模型和第二物体识别模型对用于训练的模板图像中的所述跟踪对象的特征进行识别处理得到第一参考响应和第二参考响应，再调用第一物体识别模型和第二物体识别模型对用于训练的测试图像中的所述跟踪对象的特征进行识别处理得到第一测试响应和第二测试响应；然后对第一测试响应进行跟踪处理得到跟踪响应；最后根据第一参考响应与第二参考响应之间的差异信息、第一测试响应与第二测试响应之间的差异信息，确定第一物体识别模型相比于第二物体识别模型在特征提取性能上的损失，以及根据跟踪标签与跟踪响应之间的差异信息，确定第一物体识别模型在跟踪性能上的损失，进而再根据特征提取性能上的损失和跟踪性能上的损失联合对第一物体识别模型进行损失优化，使得更新后的轻量级第一物体识别模型具有与第二物体识别模型相同或较相近的特征提取性能，更快的特征提取速度，并且保证第一物体识别模型提取到的特征更适用于视觉目标跟踪场景中，从而提高了视觉目标跟踪的准确性和实时性。

基于上述模型训练方法实施例的描述，本申请实施例还公开了一种模型训练装置，该模型训练装置可以执行图2和图4所示的方法。请参见图8，所述模型训练装置可运行如下单元：

获取单元801，用于获取训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象在测试图像中的标注位置；

处理单元802，用于调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；

所述处理单元802，还用于调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；

所述处理单元802，还用于对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

更新单元803，用于基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。

在一个实施例中，所述获取单元801还用于：获取第二物体识别模型；所述处理单元802还用于；对所述第二物体识别模型进行裁剪，得到第一物体识别模型。

在一个实施例中，所述更新单元803在基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型时，执行如下操作：获取所述第一物体识别模型对应的损失优化函数；基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值；按照减小所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。

在一个实施例中，所述损失优化函数包括特征识别损失函数和跟踪损失函数，所述更新单元803在基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值时，执行如下操作：获取所述特征识别损失函数，并基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息，确定所述特征识别损失函数的值；获取所述跟踪损失函数，并基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值；基于所述特征识别损失函数的值和所述跟踪损失函数的值确定损失优化函数的值。

在一个实施例中，所述第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述第一测试响应是由所述第一卷积层对应的第一测试子响应、所述第二卷积层对应的第二测试子响应以及所述第三卷积层对应的第三测试子响应融合得到的；所述更新单元803在基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值时，执行如下操作：

基于所述第一卷积层对应的第一跟踪标签与对所述第一测试子响应进行跟踪处理得到的第一跟踪响应之间的差异信息，确定所述第一卷积层的跟踪损失值；基于所述第二卷积层对应的第二跟踪标签与对所述第二测试子响应进行跟踪处理得到的第二跟踪响应之间的差异信息，确定所述第二卷积层的跟踪损失值；基于所述第三卷积层对应的第三跟踪标签与对所述第三测试子响应进行跟踪处理得到的第三跟踪响应之间的差异信息，确定所述第三卷积层的跟踪损失值；将所述第一卷积层对应的跟踪损失值、所述第二卷积层对应的跟踪损失值以及所述第三卷积层对应的跟踪损失值进行融合处理，得到跟踪损失函数的值；其中，所述第一跟踪响应、所述第二跟踪响应以及所述第三跟踪响应具有不同分辨率。

在一个实施例中，所述第一物体识别模型包括多个卷积层，所述多个卷积层按照连接顺序相连接，所述第一卷积层为所述连接顺序所指示的第一个卷积层，所述第三卷积层为所述连接顺序所指示的最后一个卷积层，所述第二卷积层为除所述第一个卷积层和所述最后一个卷积层外的任意一个卷积层。

在一个实施例中，所述获取单元801，还用于获取包括跟踪对象的参考图像，并基于所述参考图像确定用于训练的正样本和负样本，所述正样本是指包括所述跟踪对象的图像，所述负样本是指不包括所述跟踪对象的图像，所述正样本包括所述跟踪对象的正样本跟踪标签，所述负样本包括所述跟踪对象的负样本跟踪标签，所述参考图像中包括所述跟踪对象的标注信息；

所述处理单元802，还用于调用所述已更新的第一物体识别模型对所述正样本进行识别处理，得到正样本识别响应，并调用所述已更新的第一物体识别模型对所述负样本进行识别处理，得到负样本识别响应；

所述处理单元802，还用于对所述正样本识别响应进行跟踪处理，得到在所述正样本中对所述跟踪对象的正样本跟踪响应；并对所述负样本识别响应进行跟踪处理，得到所述在所述负样本中对所述跟踪对象的负样本跟踪响应；

所述更新单元803，还用于基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型。

在一个实施例中，所述更新单元803在基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型时，执行如下步骤：

获取跟踪损失优化函数；基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，确定所述跟踪损失优化函数的值；按照减小所述跟踪损失函数的值的原则，对所述已更新的第一物体识别模型进行更新。

在一个实施例中，所述获取单元801，还用于获取待处理图像；所述处理单元802，还用于根据所述参考图像中的所述跟踪对象的标注信息确定所述待处理图像中包括的预测跟踪对象；所述处理单元802，还用于调用已更新的第一物体识别模型对所述参考图像中的所述跟踪对象进行识别处理，得到第一识别特征；所述处理单元803，还用于调用所述已更新的第一物体识别模型对所述待处理图像中的所述预测跟踪对象进行识别处理，得到第二识别特征；所述处理单元802，还用于基于所述第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征，并采用跟踪算法对所述目标特征进行跟踪处理，得到所述跟踪对象在所述待处理图像中的位置信息。

根据本申请的一个实施例，图2或图4所示的方法所涉及的各个步骤均可以是由图8所示的模型训练装置中的各个单元来执行的。例如，图2所示的步骤S201可由图8中所示的获取单元801来执行，步骤S202-S204可由图8中所示的处理单元802来执行，步骤S205可由图8所示的更新单元803来执行；又如，图4中所示的步骤S401、S402以及S406可由图8中所示的获取单元801来执行，步骤S403-S405、以及S407可由图8中处理单元802来执行，步骤S408可由图8中所示的更新单元803来执行。

根据本申请的另一个实施例，图8所示的模型训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于模型训练装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的模型训练装置设备，以及来实现本申请实施例的模型训练方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本申请实施例中利用第二物体识别模型对第一物体识别模型进行训练过程中，首先分别调用第一物体识别模型分别调用第一物体识别模型和第二物体识别模型对模板图像中的所述跟踪对象的特征进行识别处理得到第一参考响应和第二参考响应，再调用第一物体识别模型和第二物体识别模型对测试图像中的所述跟踪对象的特征进行识别处理得到第一测试响应和第二测试响应；进一步地，对第一测试响应进行跟踪处理，得到跟踪对象的跟踪响应；进而，便可以根据第一参考响应与第二参考响应之间的差异信息、第一测试响应与第二测试响应之间的差异信息，确定第一物体识别模型相比于第二物体识别模型在特征提取性能上的损失；以及根据跟踪标签与跟踪响应之间的差异信息，确定第一物体识别模型在跟踪性能上的损失。基于第一物体识别模型在特征提取性能上的损失以及在跟踪性能上的损失更新第一物体识别模型，可以使得更新后的第一物体识别模型具有与第二物体识别模型相同或较相近的特征提取性能，并且提取到的特征更适用于视觉目标跟踪场景中，从而可提高视觉目标跟踪的准确性。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种计算设备，例如图9所示的终端。请参见图9，该终端至少包括处理器901、输入设备902、输出设备903以及计算机存储介质904。所述输入设备902中还可包括摄像组件，摄像组件可用于获取模板图像和/或测试图像，所述拍摄组件还可以用于获取参考图像和/或待处理图像，所述摄像组件可以是终端出厂时配置在终端上的组件，也可以是与终端相连接的外部组件。在本申请一实施例中，该终端还可与其他设备相连接，以接收其他设备发送的模板图像和/或测试图像，或者接受其他设备发送的参考图像和/或待处理图像。

计算机存储介质904可以存储在终端的存储器中，所述计算机存储介质904用于存储计算机程序，所述计算机程序包括程序指令，所述处理器901用于执行所述计算机存储介质904存储的程序指令。处理器901或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本申请实施例所述的处理器901可以用于执行：获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象在测试图像中的标注位置；调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用所述第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作***。并且，在该存储空间中还存放了适于被处理器901加载并执行的一条或多条指令，这些指令可以是一个或多个计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；在本申请一实施例中还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器901加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关模型训练实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器901加载并执行如下步骤：

获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象在测试图像中的标注位置；调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。

在一个实施例中，计算机存储介质中的一条或多条指令由处理器901加载还执行如下步骤：获取第二物体识别模型；对所述第二物体识别模型进行裁剪，得到第一物体识别模型。

在一个实施例中，所述处理器901在基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型时，执行如下操作：

获取所述第一物体识别模型对应的损失优化函数；基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值；按照减小所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。

在一个实施例中，所述损失优化函数包括特征识别损失函数和跟踪损失函数，所述处理器901在基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值时，执行如下操作：

获取所述特征识别损失函数，并基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息，确定所述特征识别损失函数的值；获取所述跟踪损失函数，并基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值；基于所述特征识别损失函数的值和所述跟踪损失函数的值确定损失优化函数的值。

在一个实施例中，所述第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述第一测试响应是由所述第一卷积层对应的第一测试子响应、所述第二卷积层对应的第二测试子响应以及所述第三卷积层对应的第三测试子响应融合得到的；所述处理器901在基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值时，执行如下操作：

基于所述第一卷积层对应的第一跟踪标签与对所述第一测试子响应进行跟踪处理得到的第一跟踪响应之间的差异信息，确定所述第一卷积层的跟踪损失值；

基于所述第二卷积层对应的第二跟踪标签与对所述第二测试子响应进行跟踪处理得到的第二跟踪响应之间的差异信息，确定所述第二卷积层的跟踪损失值；基于所述第三卷积层对应的第三跟踪标签与对所述第三测试子响应进行跟踪处理得到的第三跟踪响应之间的差异信息，确定所述第三卷积层的跟踪损失值；将所述第一卷积层对应的跟踪损失值、所述第二卷积层对应的跟踪损失值以及所述第三卷积层对应的跟踪损失值进行融合处理，得到跟踪损失函数的值；其中，所述第一跟踪响应、所述第二跟踪响应以及所述第三跟踪响应具有不同分辨率。

在一个实施例中，计算机存储介质中的一条或多条指令由处理器901加载还执行如下步骤：

获取包括跟踪对象的参考图像，并基于所述参考图像确定用于训练的正样本和负样本，所述正样本是指包括所述跟踪对象的图像，所述负样本是指不包括所述跟踪对象的图像，所述正样本包括所述跟踪对象的正样本跟踪标签，所述负样本包括所述跟踪对象的负样本跟踪标签，所述参考图像中包括所述跟踪对象的标注信息；调用所述已更新的第一物体识别模型对所述正样本进行识别处理，得到正样本识别响应，并调用所述已更新的第一物体识别模型对所述负样本进行识别处理，得到负样本识别响应；对所述正样本识别响应进行跟踪处理，得到在所述正样本中对所述跟踪对象的正样本跟踪响应；并对所述负样本识别响应进行跟踪处理，得到所述在所述负样本中对所述跟踪对象的负样本跟踪响应；基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型。

在一个实施例中，所述处理器901在基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型时，执行如下操作：

获取待处理图像，并根据所述参考图像中的所述跟踪对象的标注信息确定所述待处理图像中包括的预测跟踪对象；调用已更新的第一物体识别模型对所述参考图像中的所述跟踪对象进行识别处理，得到第一识别特征；调用所述已更新的第一物体识别模型对所述待处理图像中的所述预测跟踪对象进行识别处理，得到第二识别特征；基于所述第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征，并采用跟踪算法对所述目标特征进行跟踪处理，得到所述跟踪对象在所述待处理图像中的位置信息。

以上所揭露的仅为本申请示例性实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种模型训练方法，由计算设备执行，包括：

获取用于训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象在所述测试图像中的标注位置；

调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；

调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；

对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。
如权利要求1所述的方法，还包括：

获取第二物体识别模型；

对所述第二物体识别模型进行裁剪，得到第一物体识别模型。
如权利要求1所述的方法，所述基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型，包括：

获取所述第一物体识别模型对应的损失优化函数；

基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值；

按照减小所述损失优化函数的值的原则，对所述第一物体识别模型进行更新。
如权利要求3所述的方法，所述损失优化函数包括特征识别损失函数和跟踪损失函数，所述基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，确定所述损失优化函数的值，包括：

获取所述特征识别损失函数，并基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息，确定所述特征识别损失函数的值；

获取所述跟踪损失函数，并基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值；

基于所述特征识别损失函数的值和所述跟踪损失函数的值确定损失优化函数的值。
如权利要求4所述的方法，所述第一物体识别模型包括第一卷积层、第二卷积层和第三卷积层，所述第一测试响应是由所述第一卷积层对应的第一测试子响应、所述第二卷积层对应的第二测试子响应以及所述第三卷积层对应的第三测试子响应融合得到的；所述基于所述跟踪标签与所述跟踪响应之间的差异信息确定所述跟踪损失函数的值，包括：

基于所述第一卷积层对应的第一跟踪标签与对所述第一测试子响应进行跟踪处理得到的第一跟踪响应之间的差异信息，确定所述第一卷积层的跟踪损失值；

基于所述第二卷积层对应的第二跟踪标签与对所述第二测试子响应进行跟踪处理得到的第二跟踪响应之间的差异信息，确定所述第二卷积层的跟踪损失值；

基于所述第三卷积层对应的第三跟踪标签与对所述第三测试子响应进行跟踪处理得到的第三跟踪响应之间的差异信息，确定所述第三卷积层的跟踪损失值；

将所述第一卷积层对应的跟踪损失值、所述第二卷积层对应的跟踪损失值以及所述第三卷积层对应的跟踪损失值进行融合处理，得到跟踪损失函数的值；

其中，所述第一跟踪响应、所述第二跟踪响应以及所述第三跟踪响应具有不同分辨率。
权利要求5所述的方法，所述第一物体识别模型包括多个卷积层，所述多个卷积层按照连接顺序相连接，所述第一卷积层为所述连接顺序所指示的第一个卷积层，所述第三卷积层为所述连接顺序所指示的最后一个卷积层，所述第二卷积层为除所述第一个卷积层和所述最后一个卷积层外的任意一个卷积层。
如权利要求1所述的方法，还包括：

获取包括跟踪对象的参考图像，并基于所述参考图像确定用于训练的正样本和负样本，所述正样本是指包括所述跟踪对象的图像，所述负样本是指不包括所述跟踪对象的图像，所述正样本包括所述跟踪对象的正样本跟踪标签，所述负样本包括所述跟踪对象的负样本跟踪标签，所述参考图像中包括所述跟踪对象的标注信息；

调用所述已更新的第一物体识别模型对所述正样本进行识别处理，得到正样本识别响应，并调用所述已更新的第一物体识别模型对所述负样本进行识别处理，得到负样本识别响应；

对所述正样本识别响应进行跟踪处理，得到在所述正样本中对所述跟踪对象的正样本跟踪响应；并对所述负样本识别响应进行跟踪处理，得到所述在所述负样本中对所述跟踪对象的负样本跟踪响应；

基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型。
如权利要求7所述的方法，所述基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，训练所述已更新的第一物体识别模型，包括：

获取跟踪损失优化函数；

基于所述正样本跟踪响应与所述正样本跟踪标签之间的差异信息，以及所述负样本跟踪响应与所述负样本跟踪标签之间的差异信息，确定所述跟踪损失优化函数的值；

按照减小所述跟踪损失优化函数的值的原则，对所述已更新的第一物体识别模型进行更新。
如权利要求7或8所述的方法，还包括：

获取待处理图像，并根据所述参考图像中的所述跟踪对象的标注信息确定所述待处理图像中包括的预测跟踪对象；

调用已更新的第一物体识别模型对所述参考图像中的所述跟踪对象进行识别处理，得到第一识别特征；

调用所述已更新的第一物体识别模型对所述待处理图像中的所述预测跟踪对象进行识别处理，得到第二识别特征；

基于所述第一识别特征和所述第二识别特征确定用于跟踪处理的目标特征，并采用跟踪算法对所述目标特征进行跟踪处理，得到所述跟踪对象在所述待处理图像中的位置信息。
一种模型训练装置，包括：

获取单元，用于获取训练的模板图像和测试图像，所述模板图像和所述测试图像均包括跟踪对象，所述测试图像包括所述跟踪对象的跟踪标签，所述跟踪标签用于表示所述跟踪对象在所述测试图像中的标注位置；

处理单元，用于调用第一物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第一参考响应，并调用第二物体识别模型对所述模板图像中的所述跟踪对象的特征进行识别处理，得到第二参考响应；调用所述第一物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第一测试响应，并调用所述第二物体识别模型对所述测试图像中的所述跟踪对象的特征进行识别处理，得到第二测试响应；对所述第一测试响应进行跟踪处理，得到所述跟踪对象的跟踪响应，所述跟踪响应用于表示所述跟踪对象在所述测试图像中的跟踪位置；

更新单元，用于基于所述第一参考响应与所述第二参考响应之间的差异信息、所述第一测试响应与所述第二测试响应之间的差异信息以及所述跟踪标签与所述跟踪响应之间的差异信息，更新所述第一物体识别模型。
一种终端，包括输入设备和输出设备，还包括：

处理器，用于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令用于由所述处理器加载并执行如权利要求1-9中的任一项所述的模型训练方法。
一种计算机存储介质，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-9中的任一项所述的模型训练方法。