CN111008999B

CN111008999B - 用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置

Info

Publication number: CN111008999B
Application number: CN201910916111.XA
Authority: CN
Inventors: 金桂贤; 金镕重; 金寅洙; 金鹤京; 南云铉; 夫硕焄; 成明哲; 吕东勋; 柳宇宙; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2018-10-05
Filing date: 2019-09-26
Publication date: 2023-09-26
Anticipated expiration: 2039-09-26
Also published as: KR20200039547A; CN111008999A; JP2020061144A; EP3633618B1; US10269125B1; JP6869562B2; KR102296507B1; EP3633618A1

Abstract

本发明涉及用包含跟踪网络的CNN跟踪对象的方法和使用该方法的装置，包括以下步骤：(a)测试装置用当前影像帧获得特征映射，并使区域提议网络将运算应用于特征映射，生成提议框的信息；(b)测试装置执行以下处理：(i)(i‑1)根据先前边界框的先前状态向量，通过用卡尔曼滤波算法生成先前边界框的预测状态向量，(i‑2)与预测状态向量对应地，生成当前影像帧上的预测边界框，(i‑3)将选择的特定提议框确定为种子框；(ii)输出位置敏感得分图；(c)使池化层对在位置敏感得分图上与种子框对应的区域进行池化，计算出类别得分和回归增量；(d)参考回归增量和种子框，生成当前边界框，用卡尔曼滤波算法调整当前边界框。

Description

用包含跟踪网络的CNN跟踪对象的方法和使用该方法的装置

技术领域

本发明涉及一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法以及使用该方法的装置，该方法包括以下步骤：(a)测试装置使用输入影像的当前影像帧获得至少一个特征映射(feature map)，并使区域提议网络(RPN，Region Proposal Network)将至少一次运算应用于特征映射，生成关于与所述对象对应的至少一个提议框(proposalbox)的信息；(b)测试装置执行以下处理：(i)(i-1)根据与位于先前影像帧上的所述对象对应的至少一个先前的边界框的先前状态向量，通过使用卡尔曼滤波算法(Kalman filteralgorithm)生成至少预测所述对象位于当前影像帧上的所述先前的边界框的至少一个预测状态向量，(i-2)与预测状态向量对应地，生成从先前的边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息，(i-3)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框(seed box)；以及(ii)使全卷积网络(FCN)将至少一次完整卷积运算应用于所述特征映射，输出至少一个位置敏感得分图(position sensitivescore map)；(c)测试装置使至少一个池化层(pooling layer)对在所述位置敏感得分图上与所述种子框对应的区域进行池化，计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量；以及(d)测试装置参考所述回归增量和所述种子框，生成与所述当前影像帧上的所述对象对应的至少一个当前边界框，并使用所述卡尔曼滤波算法调整边界框。

背景技术

被称为视觉跟踪的对象跟踪是从一系列的图像或影像中检测、提取、识别、以及定位目标的过程。是具有包括交通流量监控、医疗诊断、视觉监控和人机交互等的广泛的实际应用的基本的计算机视觉操作。

以往的基于外观的跟踪方法(appearance-based tracking)大多引起基于检测的跟踪问题。根据模型构建机制，统计建模被分为如下三种：生成建模(generativemodeling)、判别建模(discriminative modeling)、混合生成判别建模(hybridgenerative discriminative modeling)。主要缺点是，无法捕获目标的语义信息(semantic information)，对重要的形状变化不具有鲁棒性，辨别性(discriminativepower)有限，因此依赖于低级的手动操作。

深度学习自2006年推出以来，极大地改进了对文本、图像、影像、语音以及其他许多领域(如新药开发和基因组学等)进行处理的最新技术。特别是，卷积神经网络(CNN)最近应用于各种计算机视觉任务，如图像分类、语义分割、对象检测等。

CNN的巨大成功很大程度上归功于其在表示视觉数据方面的卓越表现。虽然基于低级手工功能的方式在实用中仍然运作良好，然而在影像处理应用中难以收集大量的训练数据，并且还没有专门用于对象训练的训练算法，因此，对象跟踪受CNN的流行趋势的影响较小。最近的几种跟踪算法通过在大型分类数据集(如ImageNet)中发送预训练的CNN来解决数据不足的问题。

虽然这些方法可能足以获得一般的特征表示，但由于分类和跟踪问题、即在预测任意类的目标与对象类标签之间的根本上的不一致，在跟踪方面其效果受到限制。

发明内容

本发明所要解决的课题

本发明的目的是解决上述所有问题。

本发明的另一个目的是，提供一种用包含跟踪网络的CNN来跟踪至少一个对象的方法。

本发明的又另一个目的是，提供一种包含跟踪网络的CNN，该跟踪网络不需要为对象跟踪而另外进行学习。

本发明的又另一个目的是，提供一种通过使用由对象检测器训练的CNN来执行对象跟踪的方法。

本发明的又另一个目的是，提供一种跟踪对象的方法，与执行对象检测的现有CNN相比，其计算量更少。

用于解决课题的技术手段

用于实现如上所述的本发明目的和实现后述的本发明的特征效果的本发明的特征结构如下。

根据本发明的一个方式，提供一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法，其特征在于，包括以下步骤：(a)测试装置使用输入影像的当前影像帧获得至少一个特征映射，并使区域提议网络将至少一次运算应用于所述特征映射，生成关于与所述对象对应的至少一个提议框的信息；(b)所述测试装置执行以下处理：(i)(i-1)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量，(i-2)与所述预测状态向量对应地，生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息，(i-3)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框；以及(ii)使全卷积网络将至少一次完整卷积运算应用于所述特征映射，输出至少一个位置敏感得分图；(c)所述测试装置使至少一个池化层对在所述位置敏感得分图上与所述种子框对应的区域进行池化，计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量；以及所述(d)测试装置参考所述回归增量和所述种子框，生成与所述当前影像帧上的所述对象对应的至少一个当前边界框，并使用所述卡尔曼滤波算法调整所述当前边界框。

在一个实施例中，在所述步骤(b)中，所述测试装置通过使用所述卡尔曼滤波算法，参考所述先前影像帧的至少一个先前误差协方差(Error Covariance)，计算所述当前影像帧的至少一个预测误差协方差。

在一个实施例中，在所述步骤(d)中，所述测试装置，(i)使用所述预测误差协方差获得卡尔曼增益，(ii)使用所述卡尔曼增益和所述预测状态向量，更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量，(iii)通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。

在一个实施例中，在所述步骤(c)中，所述测试装置将池化运算应用到与所述位置敏感得分图中的所述种子框相对应的至少一个区域，并对所述池化的位置敏感得分图应用全局池化运算，计算出与所述特定提议框对应的所述类别得分和所述回归增量。

在一个实施例中，在所述步骤(b)中，所述测试装置参考以下信息中的一种信息来确定所述种子框：(i)所述预测边界框的位置信息和所述各个提议框的各位置信息，(ii)所述预测边界框与所述每个提议框之间的各个重叠区域的面积，以及(iii)所述预测边界框的所述位置信息、所述各个提议框的各位置信息和所述各重叠区域的面积。

在一个实施例中，在所述步骤(a)中，所述测试装置使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算，以获得所述特征映射，并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。

在一个实施例中，在所述步骤(a)之前，学习装置(i)使所述卷积层对至少一个训练图像应用至少一次卷积运算，以获得至少一个训练用特征映射，(ii)(ii-1)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框；(ii-2)使得全卷积网络通过对所述训练用特征映射应用至少一次完整卷积运算，生成至少一个训练用位置敏感得分图；(iii)使所述池化层对所述训练用位置敏感得分图上的各区域进行池化，分别计算出与各个所述训练提议框对应的各训练用类别得分和各训练用回归增量；(iv)使至少一个损失层通过参考所述各训练用回归增量、所述各训练用类别得分及其相对应的地面实况来计算至少一个损失，通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。

根据本发明的另一方式，提供一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法，其特征在于，包括以下步骤：(a)测试装置使用输入影像的当前影像帧获得至少一个特征映射，并使区域提议网络将至少一次运算应用于所述特征映射，生成关于与所述对象对应的至少一个提议框的信息；(b)所述测试装置执行以下处理：(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量；(ii)与所述预测状态向量对应地，生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息；(iii)将从所述提议框中参考所述预测边界框来选择的至少一个所述特定提议框确定为至少一个种子框；(c)所述测试装置使至少一个池化层在所述特征映射上池化对应于所述种子框的至少一个区域，生成至少一个特征向量，并使至少一个全连接层对所述特征向量应用至少一次全连接运算，计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量；以及(d)所述测试装置参考所述回归增量和所述种子框，生成与所述当前影像帧上的所述对象对应的至少一个当前边界框，并使用所述卡尔曼滤波算法调整所述当前边界框。

在一个实施例中，在所述步骤(b)中，所述测试装置通过使用所述卡尔曼滤波算法，参考所述先前影像帧的至少一个先前误差协方差，计算所述当前影像帧的至少一个预测误差协方差。

在一个实施例中，在所述步骤(a)之前，学习装置(i)使所述卷积层对至少一个训练图像应用卷积运算，以获得至少一个训练用特征映射；(ii)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框；(iii)使所述池化层对所述训练用特征映射上的分别对应于所述训练提议框的各区域进行池化，计算与所述训练提议框中的各个对应的至少一个训练用特征向量，并使所述全连接层对所述训练用特征向量应用全连接运算，计算出对应于各训练提议框的各类别得分和各回归增量；(iv)使至少一个损失层通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况来计算至少一个损失，通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。

根据本发明的另一方式，提供一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的装置，其特征在于，包括：通信部，获取被输入的影像的至少一个影像帧；以及处理器，执行以下处理：(I)使用输入影像的当前影像帧获得至少一个特征映射，并使区域提议网络将至少一次运算应用于所述特征映射，生成关于与所述对象对应的至少一个提议框的信息；(II)(II-1)(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量，(ii)与所述预测状态向量对应地，生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息，(iii)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框；以及(II-2)使全卷积网络将至少一次完整卷积运算应用于所述特征映射，输出至少一个位置敏感得分图(position sensitive score map)；(III)使至少一个池化层对在所述位置敏感得分图上与所述种子框对应的区域进行池化，计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量；以及(IV)参考所述回归增量和所述种子框，生成与所述当前影像帧上的所述对象对应的至少一个当前边界框，并使用所述卡尔曼滤波算法调整所述当前边界框。

在一个实施例中，所述处理器，在所述(II)处理中，通过使用所述卡尔曼滤波算法，参考所述先前影像帧的至少一个先前误差协方差，计算所述当前影像帧的至少一个预测误差协方差。

在一个实施例中，所述处理器，在所述(IV)处理中，使用所述预测误差协方差获得卡尔曼增益，并使用所述卡尔曼增益和所述预测状态向量，更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量，通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。

在一个实施例中，所述处理器，在所述(III)处理中，将池化运算应用到与所述位置敏感得分图中的所述种子框相对应的至少一个区域，并对所述池化的位置敏感得分图应用全局池化运算，计算出与所述特定提议框对应的所述类别得分和所述回归增量。

在一个实施例中，所述处理器，在所述(II)处理中，参考以下信息中的一种信息来确定所述种子框：(i)所述预测边界框的位置信息和所述各个提议框的各位置信息，(ii)所述预测边界框与所述各个提议框之间的各重叠区域的面积，以及(iii)所述预测边界框的所述位置信息、所述各个提议框的各位置信息和所述各重叠区域的面积。

在一个实施例中，所述处理器，在所述(I)处理中，使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算，以获得所述特征映射，并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。

在一个实施例中，所述处理器，在所述(I)处理之前，(i)使所述卷积层对至少一个训练图像应用至少一次卷积运算，以获得至少一个训练用特征映射，(ii)(ii-1)使得所述区域提议网络，分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框；(ii-2)使得所述全卷积网络通过对所述训练用特征映射应用至少一次完整卷积运算，生成至少一个训练用位置敏感得分图；(iii)使所述池化层，对所述训练用位置敏感得分图上的所述各区域进行池化，分别计算出与各个所述训练提议框对应的各训练用类别得分和各训练用回归增量；(iv)使至少一个损失层通过参考所述各训练用回归增量、所述各训练用类别得分及其相对应的地面实况来计算至少一个损失，通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。

根据本发明的另一方式，提供一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的装置，其特征在于，包括：通信部，获取被输入的影像的至少一个影像帧；以及处理器，执行以下处理：(I)使用输入影像的当前影像帧获得至少一个特征映射，并使区域提议网络将至少一次运算应用于所述特征映射，生成关于与所述对象对应的至少一个提议框的信息；(II)(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法(生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量；(ii)与所述预测状态向量对应地，生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息；(iii)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框；(III)使至少一个池化层在所述特征映射上池化对应于所述种子框的至少一个区域，生成至少一个特征向量，并使至少一个全连接层对所述特征向量应用至少一次全连接运算，计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量；以及(IV)参考所述回归增量和所述种子框，生成与所述当前影像帧上的所述对象对应的至少一个当前边界框，并使用所述卡尔曼滤波算法调整所述当前边界框。

在一个实施例中，所述处理器，在所述(I)处理之前，通过学习装置(i)使所述卷积层对至少一个训练图像应用卷积运算，以获得至少一个训练用特征映射；(ii)使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框；(iii)使所述池化层对所述训练用特征映射上的分别对应于所述训练提议框的各区域进行池化，计算与所述训练提议框中的各个对应的至少一个训练用特征向量，并使所述全连接层对所述训练用特征向量应用全连接运算，计算出对应于各训练提议框的各类别得分和各回归增量；(iv)使至少一个损失层通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况来计算至少一个损失，通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。

发明效果

本发明能够用包含跟踪网络的CNN来跟踪对象。

另外，本发明能够提供包含跟踪网络的CNN，该跟踪网络不需要为对象跟踪而另外进行学习。

另外，本发明通过使用通过对象检测来学习的CNN实现对象跟踪，由此能够最小化开发对象跟踪所需的成本和时间。

另外，与执行对象检测的现有CNN相比，本发明能够以少的计算量进行对象跟踪。

附图说明

本发明的实施例的说明中所用的以下附图仅仅是本发明实施例中的一部分，本领域技术人员在不进行发明操作的情况下，也能够根据这些附图来得出其他附图。

图1示意性地示出本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪至少一个对象的测试装置。

图2示意性地示出本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法。

图3示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中获得至少一个特征映射的状态。

图4示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中获取一个或多个提议框的状态。

图5示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中获得至少一个预测边界框的状态。

图6示意性地示出本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中的卡尔曼滤波算法。

图7示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法中获得至少一个种子框的状态。

图8示意性地示出在本发明的一实施例涉及的用包含跟踪网络的CNN跟踪对象的方法中获得对象的至少一个边界框的状态。

图9示意性地示出本发明的另一实施例涉及的用于用包含跟踪网络的CNN来跟踪对象的测试装置。

图10示意性地示出本发明另一实施例涉及的用包含跟踪网络的CNN来跟踪对象的方法。

具体实施方式

后述的对本发明的详细说明参照作为例示本发明可实施的特定实施例而图示的附图。足够详细说明这些实施例，以使本领域技术人员能够实施本发明。

应该理解的是，本发明的各种实施例虽然彼此不同，但并不是相互排斥的。例如，在不脱离本发明的精神和范围内，可以通过其他实施例来实现这里描述的特定形状、结构和特性。另外，应当理解的是，在不脱离本发明的精神和范围的情况下，可以改变每个公开的实施例中的各个构成要素的位置或配置。因此，以下的详细描述不应被视为具有限制意义，如果适当地描述，则本发明的范围仅由所附权利要求以及与这些权利要求所主张的范围等同的全部范围来限定。附图中相同的附图标记在很多方面上指相同或相似的功能。

本发明中提到的各种图像可以包括与铺砌或未铺砌道路相关的图形，在这种情况下，可以包括可能出现在道路环境中的对象(例如，如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物)，但并不限于此，并且本发明中提到的各种图像可以是与道路无关的图像(例如，与未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内相关的影像)，在这种情况下，可以象征可能出现在未铺砌道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空、室内环境中的对象(例如，如汽车、人、动物、植物、物体、建筑物、飞机或无人机那样的飞行物、其他障碍物)，但并不限于此。

另外，在本发明的整个说明书和权利要求书中，词语“包括”及其变形并不旨在排除其他技术特征、附加物等、构成要素等或步骤等。对于本领域技术人员来说，本发明的其他目的、优点和特征的一部分可以从本说明书中得出、其他一部分从本发明的实施中得出。以下示例和附图是以举例说明的方式提供的，并不旨在限制本发明。

以下，为了使本领域技术人员能够容易地实施本发明，将参考附图详细描述本发明的优选实施例。

图1示意性地示出本发明的一实施例涉及的用包含跟踪网络的CNN来跟踪对象的测试装置100，参考图1，测试装置100包括通信部110和处理器120。

首先，通信部110可以获得被输入的影像中的至少一个当前影像帧。在这种情况下，影像可以包括图像序列。

接着，处理器120可以执行(i)第一处理，使用输入影像的当前影像帧获得至少一个特征映射(feature map)，并使区域提议网络(RPN，Region Proposal Network)将至少一次运算应用于特征映射，生成关于与所述对象对应的至少一个提议框(proposal box)的信息；(ii)第二处理，(ii-1)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法(Kalman filter algorithm)生成至少预测所述对象位于当前影像帧上的所述先前边界框的至少一个预测状态向量，(ii-2)与预测状态向量对应地，生成从先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息，(ii-3)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框(seed box)，(ii-4)使全卷积网络(FCN)将至少一次完整卷积运算应用于所述特征映射，输出至少一个位置敏感得分图(position sensitive score map)；(iii)第三处理，使至少一个池化层(pooling layer)对在所述位置敏感得分图上与所述种子框对应的区域进行池化，计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量；以及(iv)第四处理，参考所述回归增量和所述种子框，生成与所述当前影像帧上的所述对象对应的至少一个当前边界框，并使用所述卡尔曼滤波算法调整当前边界框。

此时，本发明的一实施例涉及的测试装置100是计算机设备，只要是搭载有处理器并且具有计算能力的装置，就可以作为本发明涉及的测试装置100。另外，尽管在图1中仅示出了一个测试装置100，但是本发明不限于此，测试装置可以分成多个来执行功能。

参考图2说明利用本发明的一实施例涉及的测试装置100执行用包含跟踪网络的卷积神经网络(CNN)来跟踪对象的方法。

首先，测试装置100从输入影像的当前影像帧VF获得特征映射FM。

作为一个例子，参照图3，当输入由视觉传感器(未示出)等拍摄的影像时，测试装置100获取或者支持其他装置获取输入影像的当前影像帧VF，使得至少一个卷积层121对当前影像帧VF应用一次或多次卷积运算，输出特征映射FM。在这种情况下，当前影像帧VF可以是具有RGB的3个通道的大小为1280×720的图像，特征映射FM可以具有40×23大小的256个通道，但是各尺寸和通道深度不限于此，可以具有各种尺寸和各种通道深度。

接下来，测试装置100将获取的特征映射FM输入到区域提议网络(RegionProposal Network：RPN)122，并使RPN对特征映射应用至少一次运算，生成与对象对应的有关提议框PB的信息。

作为一个例子，参考图4，测试装置100可以支持区域提议网络122输出与估计在特征映射FM上包括对象的区域对应的提议框PB1、PB2、PB3、PB4。在这里，尽管在图4中示出了四个提议框PB1、PB2、PB3、PB4，但这是为了便于描述，与对象对应的提议框的数量不限于此。另外，在图4中，示例性地示出了一个要跟踪的对象，但是，本发明不限于此，可以跟踪两个或更多的对象，可以针对要跟踪的多个对象中的每一个输出多个提议框。并且，在图4中，在当前影像帧VF中示出了多个提议框PB1、PB2、PB3、PB4，但是应该理解这是为了便于说明。

再参照图2，测试装置100可以使用卡尔曼滤波算法123生成或支持其他装置生成在当前影像帧VF中被预测为至少一个对象的位置的至少一个预测边界框EBB(预测边界框是从先前边界框跟踪的边界框，先前边界框是与位于先前影像帧上的对象对应的边界框)。

作为一个例子，参考图5，测试装置100(i)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的先前状态向量，通过使用卡尔曼滤波算法123生成至少被估计为所述对象位于当前影像帧上的所述先前边界框(未图示)上的至少一个预测状态向量；(ii)与预测状态向量对应地，生成从先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框EBB，其中，与所述预测状态向量对应的所述预测边界框包含有关估计的位置的信息。

另外，测试装置100可以使用卡尔曼滤波算法123并参考所述先前影像帧的至少一个先前误差协方差(Error Covariance)来计算出所述当前影像帧的至少一个预测误差协方差。

这里，参考图6，对通过卡尔曼滤波算法获得预测边界框EBB和预测误差协方差的操作进行更加详细说明如下。

首先，可以如下初始设置卡尔曼滤波器。

1.转移矩阵(transition matrix)：12x12

A＝[1,0,0,0,1,0,0,0,0.5,0,0,0,

0,1,0,0,0,1,0,0,0,0.5,0,0,

0,0,1,0,0,0,1,0,0,0,0.5,0,

0,0,0,1,0,0,0,1,0,0,0,0.5,

0,0,0,0,1,0,0,0,1,0,0,0,

0,0,0,0,0,1,0,0,0,1,0,0,

0,0,0,0,0,0,1,0,0,0,1,0,

0,0,0,0,0,0,0,1,0,0,0,1,

0,0,0,0,0,0,0,0,1,0,0,0,

0,0,0,0,0,0,0,0,0,1,0,0,

0,0,0,0,0,0,0,0,0,0,1,0,

0,0,0,0,0,0,0,0,0,0,0,1]

2.观察矩阵(observation matrix)：4x12

H＝[1,0,0,0,0,0,0,0,0,0,0,0,

0,1,0,0,0,0,0,0,0,0,0,0,

0,0,1,0,0,0,0,0,0,0,0,0,

0,0,0,1,0,0,0,0,0,0,0,0]

3.测量噪声协方差矩阵(measurement noise covariance matrix)：4x4

R＝[r,0,0,0,

0,r,0,0,

0,0,r,0,

0,0,0,r]

4.过程噪声协方差矩阵(process noise covariance matrix)：12x12Q＝[q,0,0,0,0,0,0,0,0,0,0,0,

0,q,0,0,0,0,0,0,0,0,0,0,

0,0,q,0,0,0,0,0,0,0,0,0,

0,0,0,q,0,0,0,0,0,0,0,0,

0,0,0,0,q,0,0,0,0,0,0,0,

0,0,0,0,0,q,0,0,0,0,0,0,

0,0,0,0,0,0,q,0,0,0,0,0,

0,0,0,0,0,0,0,q,0,0,0,0,

0,0,0,0,0,0,0,0,q,0,0,0,

0,0,0,0,0,0,0,0,0,q,0,0,

0,0,0,0,0,0,0,0,0,0,q,0,

0,0,0,0,0,0,0,0,0,0,0,q]

5.误差协方差矩阵(error covariance matrix)：12x12P＝[p,0,0,0,0,0,0,0,0,0,0,0,

0,p,0,0,0,0,0,0,0,0,0,0,

0,0,p,0,0,0,0,0,0,0,0,0,

0,0,0,p,0,0,0,0,0,0,0,0,

0,0,0,0,p,0,0,0,0,0,0,0,

0,0,0,0,0,p,0,0,0,0,0,0,

0,0,0,0,0,0,p,0,0,0,0,0,

0,0,0,0,0,0,0,p,0,0,0,0,

0,0,0,0,0,0,0,0,p,0,0,0,

0,0,0,0,0,0,0,0,0,p,0,0,

0,0,0,0,0,0,0,0,0,0,p,0,

0,0,0,0,0,0,0,0,0,0,0,p]

6.状态向量(state vector)：12x1

x＝[initial_x1,

initial_y1,

initial_x2,

initial_y2,

0,

0]

7.观察向量(observation vector)：4x1

z＝[current_x1,

current_y1,

current_x2,

current_y2]

在这种进行了初始设置状态下，卡尔曼滤波器通过时间更新预测，根据先前影像帧中关于对象的先前边界框的状态向量和误差协方差(P_k-1)，利用以下的数学式1和数学式2，分别生成当前影像帧中的预测边界框的状态向量/>和预测误差协方差

[数学式1]

[数学式2]

也就是说，通过使用先前边界框的位置信息，预测作为先前边界框在当前影像帧上的变更后的位置信息的当前位置信息、即预测x＝[predict_x1、prediction_y1、predict_x2、predict_y2、...]。此时，(x1，y1)可以是先前边界框的左上点的坐标信息，(x2，y2)可以是先前边界框的右下点的坐标信息。

再参照图2，测试装置100使种子框选择层124将从多个提议框PB1、PB2、PB3、PB4中参考预测边界框EBB来选择的至少一个特定提议框确定为种子框SB。

作为一个例子，测试装置100可以将多个提议框PB1、PB2、PB3、PB4中最靠近预测边界框EBB的提议框确定为种子框SB。

此时，测试装置100可以参考以下信息中的一种信息来确定种子框：(i)预测边界框的位置信息和各个提议框的各位置信息，(ii)预测边界框与每个提议框之间的各重叠区域的面积，以及(iii)预测边界框的位置信息、各个提议框的各位置信息和各重叠区域的面积。

接下来，测试装置100使全卷积网络(FCN)125通过对特征映射FM应用完全卷积运算来输出位置敏感得分图PSSM，使池化层126对在所述位置敏感得分图PSSM上与所述种子框SB对应的至少一个区域进行至少一次池化，计算出对应于所述特定提议框的至少一个类别得分CS和至少一个回归增量RD。在这里，测试装置可以对与种子框SB对应的至少一个区域应用池化运算、或者支持其他装置应用池化运算，并对位置敏感得分图PSSM上被池化后的位置敏感得分图PSSM应用至少一次全局池化运算、或者支持其他装置应用全局池化运算，由此可以输出与特定提议框对应的类别得分CS和回归增量RD。

在上述的说明中，依次说明了使用特征映射FM的区域提议网络122的处理、利用卡尔曼滤波算法123来确定种子框SB的处理、使用特征映射FM生成位置敏感得分图PSSM的全卷积网络125的处理，但是，可以与此不同地不管顺序而并行地执行处理，也可以相反地先执行PSSM的生成再确定种子框。

另外，由于池化层126仅使用对应于对象的一个种子框SB来执行池化，因此，与以往的检测对象的CNN中，对对应于对象的多个提议框中的每一个执行池化相比，可以用较少的计算量来跟踪对象。

接下来，测试装置100参考回归增量RD和种子框SB，生成或支持其他装置生成与当前影像帧VF上的对象对应的至少一个当前边界框CBB，并且可以通过使用卡尔曼滤波算法123校正当前边界框CBB，输出校正后的当前边界框ABB。

在这里，卡尔曼滤波算法123如以下的数学式3所示的那样利用预测误差协方差来获取卡尔曼增益(K_k)，如以下的数学式4所示那样，利用卡尔曼增益(K_k)和预测状态向量/>来更新根据当前边界框CBB的位置信息(z_k)的当前边界框CBB的当前状态向量如以下的数学式5所示那样，利用卡尔曼增益(K_k)和预测误差协方差/>来更新当前影像帧的当前误差协方差(P_k)。

[数学式3]

[数学式4]

[数学式5]

另一方面，在参考图1至图8说明的测试装置100的处理之前，包含跟踪网络的CNN可以处于由学习装置学习的状态。

也就是说，通过学习装置(未示出)，使得卷积层121对至少一个训练图像应用至少一次卷积运算，以获得至少一个训练用特征映射，使得所述区域提议网络122，分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框，使得所述全卷积网络125，通过对所述训练用特征映射应用至少一次完整卷积运算，生成至少一个训练用位置敏感得分图，并使得池化层126，对所述训练用位置敏感得分图上的各区域进行池化，分别计算出与各个所述训练提议框对应的各训练用类别得分和各训练用回归增量，使至少一个损失层(loss layer)，通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况(Ground Truth：GT)来计算至少一个损失，将所述损失反向传播，从而学习所述全卷积网络125和所述卷积层121的参数。

接着，图9示意性地示出本发明的另一实施例涉及的用包含跟踪网络的CNN来跟踪对象的测试装置200，参考图9，测试装置200包括通信部210和处理器220。

首先，通信部210可以获得被输入的影像的当前影像帧。在这种情况下，影像可以包括图像序列。

接着，处理器220可以执行(i)第一处理，使用输入影像的当前影像帧获得至少一个特征映射(feature map)，并使区域提议网络(RPN，Region Proposal Network)将至少一次运算应用于特征映射，生成关于与所述对象对应的至少一个提议框(proposal box)的信息；(ii)第二处理，(ii-1)根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法(Kalman filter algorithm)生成至少预测所述对象位于当前影像帧上的所述先前边界框的至少一个预测状态向量，(ii-2)与预测状态向量对应地，生成从先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息，(ii-3)将从所述提议框中参考所述预测边界框来选择的至少一个特定提议框确定为至少一个种子框(seed box)，(iii)第三处理，使至少一个池化层(pooling layer)对在所述位置敏感得分图上与所述种子框对应的至少一个区域进行池化，生成至少一个特征向量，使得至少一个FC层(FC layer)，对所述特征向量应用至少一次全连接运算(fully connectedoperation)，计算出对应于所述特定提议框的至少一个类别得分和至少一个回归增量；以及(iv)第四处理，参考所述回归增量和所述种子框，生成与所述当前影像帧上的所述对象对应的至少一个当前边界框，并使用所述卡尔曼滤波算法调整当前边界框。

此时，本发明的实施例涉及的测试装置200是计算机设备，只要是搭载有处理器并且具有计算能力的装置，就可以作为本发明涉及的测试装置200。另外，尽管在图9中仅示出了一个测试装置200，但是本发明不限于此，测试装置可以分成多个来执行功能。

参考图10说明利用本发明的一实施例涉及的测试装置200执行用包含跟踪网络的卷积神经网络(CNN)来跟踪对象的方法。在以下的说明中，将省略从图1至图8的说明中容易理解的部分的详细说明。

首先，测试装置200从输入影像的当前影像帧VF获得至少一个特征映射FM。

作为一个例子，当输入由视觉传感器(未示出)等拍摄的影像时，测试装置200获取或者支持其他装置获取输入影像的当前影像帧VF，使得至少一个卷积层221对当前影像帧VF应用一次或多次卷积运算，输出特征映射FM。

接下来，测试装置200将获取的特征映射FM输入到区域提议网络(RegionProposal Network：RPN)222，并使RPN对特征映射应用至少一次运算，获取与对象对应的有关提议框PB的信息。

作为一个例子，测试装置200可以支持区域提议网络222输出与估计在特征映射FM上包括对象的区域对应的提议框PB1、PB2、PB3、PB4。

并且，测试装置200可以使用卡尔曼滤波算法223生成或支持其他装置生成在当前影像帧VF中被预测为至少一个对象的位置的至少一个预测边界框EBB(预测边界框是从先前边界框跟踪的边界框，先前边界框是与位于先前影像帧上的对象对应的边界框)。

另外，测试装置200可以使用卡尔曼滤波算法223并参考所述先前影像帧的至少一个先前误差协方差(Error Covariance)来计算出所述当前影像帧的至少一个预测误差协方差。

接下来，测试装置200使种子框选择层224将从多个提议框PB1、PB2、PB3、PB4中参考预测边界框EBB来选择的至少一个特定提议框确定为种子框SB。

并且，使池化层225对在所述特征映射上与所述种子框SB对应的至少一个区域进行池化，生成至少一个特征向量，使得至少一个FC层226，对所述特征向量应用至少一次全连接运算(fully connected operation)，计算出对应于所述特定提议框的至少一个类别得分CS和至少一个回归增量RD。

接下来，测试装置200参考所述回归增量RD和所述种子框SB，生成与所述当前影像帧VF上的对象对应的至少一个当前边界框CBB，并且可以使用卡尔曼滤波算法123校正当前边界框CBB，输出校正后的当前边界框ABB。

另一方面，在上述的测试方法之前，包含跟踪网络的CNN可以处于由学习装置学习的状态。

也就是说，通过学习装置(未示出)，使得所述卷积层221对至少一个训练图像应用卷积运算，以获得至少一个训练用特征映射，使得所述区域提议网络222，分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框，使得池化层225，对所述训练用特征映射上的与所述训练用提议框中的各个对应的各区域进行池化，计算出与所述训练用提议框中的各个对应的至少一个训练用特征向量，使得所述FC层226，对所述训练用特征向量应用全连接运算，计算出与各个所述训练提议框对应的各训练用类别得分和各训练用回归增量，使至少一个损失层(未图示)，通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况(GT)来计算至少一个损失，通过反向传播所述损失来学习所述全卷积网络和所述卷积层221的参数。

另外，上述的根据本发明的实施例可以以程序指令的形式实现，该程序指令可以由各种计算机部件执行，并且可以记录在计算机可读记录介质中。计算机可读记录介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在计算机可读记录介质上的程序指令可以是为本发明专门设计和配置的程序指令，或者可以是计算机软件领域的技术人员已知并可用的。计算机可读记录介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光学记录介质，诸如光磁软盘(floptical disk)的磁光介质(magneto-optical media)、以及ROM、RAM、闪存等的特别构成为存储并执行程序指令的硬件装置。程序指令的示例不仅包括由编译器生成的机器代码，还包括可以由计算机使用解释器等执行的高级语言代码。硬件装置可以配置为作为一个或多个软件模块操作来执行根据本发明的处理，反之亦然。

尽管已经通过诸如特定部件和有限的实施例和附图的特定实施例来描述了本发明，但这些仅仅是为了更全面地理解本发明而提供的，本发明不限于上述实施例。对于本领域技术人员来说，可以从这些描述中进行各种修改和变更。

因此，本发明的宗旨不应限于上述实施例，并且不仅是后附的权利要求，与这些权利要求等同或等价的变形也包括在本发明的宗旨的范围内。

Claims

1.一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法，其特征在于，包括以下步骤：

（a）测试装置使用输入影像的当前影像帧获得至少一个特征映射，并使区域提议网络将至少一次运算应用于所述特征映射，生成关于与所述对象对应的至少一个提议框的信息；

（b）所述测试装置执行以下处理：（i）（i-1）根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量，（i-2）与所述预测状态向量对应地，生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息，（i-3）将从所述提议框中参考所述预测边界框来选择的至少一个提议框确定为种子框；以及（ii）使全卷积网络将至少一次完整卷积运算应用于所述特征映射，输出至少一个位置敏感得分图；

（c）所述测试装置使至少一个池化层对在所述位置敏感得分图上与所述种子框对应的区域进行池化，计算出对应于所述种子框的至少一个类别得分和至少一个回归增量；以及

（d）所述测试装置参考所述回归增量和所述种子框，生成与所述当前影像帧上的所述对象对应的至少一个当前边界框，并使用所述卡尔曼滤波算法调整所述当前边界框，

在所述步骤（b）中，

所述测试装置参考以下信息中的一种信息来确定所述种子框：（i）所述预测边界框的位置信息和各个所述提议框的各位置信息，（ii）所述预测边界框与各个所述提议框之间的各重叠区域的面积，以及（iii）所述预测边界框的所述位置信息、各个所述提议框的各位置信息和所述各重叠区域的面积。

2.根据权利要求1所述的方法，其特征在于，

在所述步骤（b）中，

所述测试装置通过使用所述卡尔曼滤波算法，参考所述先前影像帧的至少一个先前误差协方差，计算所述当前影像帧的至少一个预测误差协方差。

3.根据权利要求2所述的方法，其特征在于，

在所述步骤（d）中，

所述测试装置，（i）使用所述预测误差协方差获得卡尔曼增益，（ii）使用所述卡尔曼增益和所述预测状态向量，更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量，（iii）通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。

4.根据权利要求1所述的方法，其特征在于，

在所述步骤（c）中，

所述测试装置将池化运算应用到与所述位置敏感得分图中的所述种子框相对应的至少一个区域，并对所述池化的位置敏感得分图应用全局池化运算，计算出与所述种子框对应的所述类别得分和所述回归增量。

5.根据权利要求1所述的方法，其特征在于，

在所述步骤（a）中，

所述测试装置使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算，以获得所述特征映射，并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。

6.根据权利要求5所述的方法，其特征在于，

在所述步骤（a）之前，

学习装置（i）使所述卷积层对至少一个训练图像应用至少一次卷积运算，以获得至少一个训练用特征映射，（ii）（ii-1）使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框；（ii-2）使得全卷积网络通过对所述训练用特征映射应用至少一次完整卷积运算，生成至少一个训练用位置敏感得分图；（iii）使所述池化层对所述训练用位置敏感得分图上的各区域进行池化，分别计算出与各个所述训练用提议框对应的各训练用类别得分和各训练用回归增量；（iv）使至少一个损失层通过参考所述各训练用回归增量、所述各训练用类别得分及其相对应的地面实况来计算至少一个损失，通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。

7.一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的方法，其特征在于，包括以下步骤：

（b）所述测试装置执行以下处理：（i）根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量；（ii）与所述预测状态向量对应地，生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息；（iii）将从所述提议框中参考所述预测边界框来选择的至少一个提议框确定为种子框；

（c）所述测试装置使至少一个池化层在所述特征映射上池化对应于所述种子框的至少一个区域，生成至少一个特征向量，并使至少一个全连接层对所述特征向量应用至少一次全连接运算，计算出对应于所述种子框的至少一个类别得分和至少一个回归增量；以及

在所述步骤（b）中，

8.根据权利要求7所述的方法，其特征在于，

在所述步骤（b）中，

9.根据权利要求8所述的方法，其特征在于，

在所述步骤（d）中，

10.根据权利要求7所述的方法，其特征在于，

在所述步骤（a）中，

11.根据权利要求10所述的方法，其特征在于，

在所述步骤（a）之前，

学习装置（i）使所述卷积层对至少一个训练图像应用卷积运算，以获得至少一个训练用特征映射；（ii）使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框；（iii）使所述池化层对所述训练用特征映射上的分别对应于所述训练用提议框的各区域进行池化，计算与所述训练用提议框中的各个对应的至少一个训练用特征向量，并使所述全连接层对所述训练用特征向量应用全连接运算，计算出对应于各所述训练用提议框的各类别得分和各回归增量；（iv）使至少一个损失层通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况来计算至少一个损失，通过反向传播所述损失来学习全卷积网络和所述卷积层的参数。

12. 一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的装置，其特征在于，包括：

通信部，获取被输入的影像的至少一个影像帧；以及

处理器，执行以下处理：

（I）使用输入影像的当前影像帧获得至少一个特征映射，并使区域提议网络将至少一次运算应用于所述特征映射，生成关于与所述对象对应的至少一个提议框的信息；

（II）（II-1）（i）根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量，（ii）与所述预测状态向量对应地，生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息，（iii）将从所述提议框中参考所述预测边界框来选择的至少一个提议框确定为种子框；以及（II-2）使全卷积网络将至少一次完整卷积运算应用于所述特征映射，输出至少一个位置敏感得分图；

（III）使至少一个池化层对在所述位置敏感得分图上与所述种子框对应的区域进行池化，计算出对应于所述种子框的至少一个类别得分和至少一个回归增量；以及

（IV）参考所述回归增量和所述种子框，生成与所述当前影像帧上的所述对象对应的至少一个当前边界框，并使用所述卡尔曼滤波算法调整所述当前边界框，

在所述（II）处理中，参考以下信息中的一种信息来确定所述种子框：（i）所述预测边界框的位置信息和各个所述提议框的各位置信息，（ii）所述预测边界框与各个所述提议框之间的各重叠区域的面积，以及（iii）所述预测边界框的所述位置信息、各个所述提议框的各位置信息和所述各重叠区域的面积。

13.根据权利要求12所述的装置，其特征在于，

所述处理器，

在所述（II）处理中，通过使用所述卡尔曼滤波算法，参考所述先前影像帧的至少一个先前误差协方差，计算所述当前影像帧的至少一个预测误差协方差。

14.根据权利要求13所述的装置，其特征在于，

所述处理器，

在所述（IV）处理中，使用所述预测误差协方差获得卡尔曼增益，并使用所述卡尔曼增益和所述预测状态向量，更新基于所述当前边界框的位置信息的所述当前边界框的当前状态向量，通过使用所述卡尔曼增益和所述预测误差协方差来更新所述当前影像帧的当前误差协方差。

15.根据权利要求12所述的装置，其特征在于，

所述处理器，

在所述（III）处理中，将池化运算应用到与所述位置敏感得分图中的所述种子框相对应的至少一个区域，并对所述池化的位置敏感得分图应用全局池化运算，计算出与所述种子框对应的所述类别得分和所述回归增量。

16.根据权利要求12所述的装置，其特征在于，

所述处理器，

在所述（I）处理中，使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算，以获得所述特征映射，并支持所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。

17.根据权利要求16所述的装置，其特征在于，

所述处理器，

在所述（I）处理之前，（i）使所述卷积层对至少一个训练图像应用至少一次卷积运算，以获得至少一个训练用特征映射，（ii）（ii-1）使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框；（ii-2）使得所述全卷积网络通过对所述训练用特征映射应用至少一次完整卷积运算，生成至少一个训练用位置敏感得分图；（iii）使所述池化层对所述训练用位置敏感得分图上的各区域进行池化，分别计算出与各个所述训练用提议框对应的各训练用类别得分和各训练用回归增量；（iv）使至少一个损失层通过参考所述各训练用回归增量、所述各训练用类别得分及其相对应的地面实况来计算至少一个损失，通过反向传播所述损失来学习所述全卷积网络和所述卷积层的参数。

18. 一种用包含跟踪网络的卷积神经网络来跟踪至少一个对象的装置，其特征在于，包括：

通信部，获取被输入的影像的至少一个影像帧；以及

处理器，执行以下处理：

（II）（i）根据与位于先前影像帧上的所述对象对应的至少一个先前边界框的至少一个先前状态向量，通过使用卡尔曼滤波算法生成至少预测所述对象位于所述当前影像帧上的所述先前边界框的至少一个预测状态向量；（ii）与所述预测状态向量对应地，生成从所述先前边界框的位置跟踪的所述当前影像帧上的至少一个预测边界框，其中，与所述预测状态向量对应的所述预测边界框包含与预测位置对应的信息；（iii）将从所述提议框中参考所述预测边界框来选择的至少一个提议框确定为种子框；

（III）使至少一个池化层在所述特征映射上池化对应于所述种子框的至少一个区域，生成至少一个特征向量，并使至少一个全连接层对所述特征向量应用至少一次全连接运算，计算出对应于所述种子框的至少一个类别得分和至少一个回归增量；以及

19.根据权利要求18所述的装置，其特征在于，

所述处理器，

20.根据权利要求19所述的装置，其特征在于，

所述处理器，

21.根据权利要求18所述的装置，其特征在于，

所述处理器，

在所述（I）处理中，使得至少一个卷积层对所述当前影像帧应用至少一次卷积运算，以获得所述特征映射，并支持使所述区域提议网络输出与所述特征映射上的估计包含所述对象的区域对应的所述提议框。

22.根据权利要求21所述的装置，其特征在于，

所述处理器，

在所述（I）处理之前，

通过学习装置（i）使所述卷积层对至少一个训练图像应用卷积运算，以获得至少一个训练用特征映射；（ii）使得所述区域提议网络分别生成与所述训练用特征映射上的预测包含至少一个训练对象的各个区域相对应的至少一个训练用提议框；（iii）使所述池化层对所述训练用特征映射上的分别对应于所述训练用提议框的各区域进行池化，计算与所述训练用提议框中的各个对应的至少一个训练用特征向量，并使所述全连接层对所述训练用特征向量应用全连接运算，计算出对应于各训练用提议框的各类别得分和各回归增量；（iv）使至少一个损失层通过参考各训练用回归增量、各训练用类别得分及其相对应的地面实况来计算至少一个损失，通过反向传播所述损失来学习全卷积网络和所述卷积层的参数。