CN111161316B

CN111161316B - 目标物体跟踪方法、装置及终端设备

Info

Publication number: CN111161316B
Application number: CN201911313503.3A
Authority: CN
Inventors: 丁旭; 胡文泽
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-08-01
Anticipated expiration: 2039-12-18
Also published as: US11620756B2; US20220366572A1; CN111161316A; WO2021120866A1

Abstract

本申请适用于图像处理技术领域，提供了目标物体跟踪方法、装置及终端设备，该目标物体跟踪方法包括：获取包含目标物体的图像序列，所述图像序列包括多帧图像；对所述多帧图像进行解析，确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差；将所述运动矢量、所述运动矢量残差和所述目标物体在前一帧图像中的已知目标区域输入第一目标检测网络，确定所述目标物体在当前帧图像中的预测目标区域。本申请能够减少计算量进而提高对目标物体跟踪的运算速度。

Description

目标物体跟踪方法、装置及终端设备

技术领域

本申请属于图像处理技术领域，尤其涉及目标物体跟踪方法、装置及终端设备。

背景技术

视频目标跟踪是计算机视觉的一个研究热点，它为视频分析、视频检索、行为理解等提供支持，在军事制导、人机交互、医疗诊断等领域都有着日益广泛的研究价值和应用前景。传统的目标跟踪算法准确率较低，而且限制也较多。

而利用卷积神经网络的跟踪算法效果好但是速度慢。大多数卷积神经网络都是利用图像的RGB通道进行计算，对于跟踪算法来讲，需要前后两帧的信息才能发现哪些目标在这两帧当中发生了移动，因此计算时需要输入两帧图像数据，计算量较大导致算法速度慢。

发明内容

为克服相关技术中存在的问题，本申请实施例提供了目标物体跟踪方法、装置及终端设备。

本申请是通过如下技术方案实现的：

第一方面，本申请实施例提供了一种目标物体跟踪方法，包括：

获取包含目标物体的图像序列，所述图像序列包括多帧图像；

对所述多帧图像进行解析，确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差；

将所述运动矢量、所述运动矢量残差和所述目标物体在前一帧图像中的已知目标区域输入第一目标检测网络，确定所述目标物体在当前帧图像中的预测目标区域。

可选的，上述方法还包括对视频图像进行编码，得到上述图像序列的步骤，该步骤可以包括：

获取包含目标物体的视频图像；

对于视频图像中的每帧目标图像，将所述目标图像划分为多个预设大小的宏块，并计算每个宏块对应的像素值；

在各帧目标图像中取两相邻帧图像，基于两帧图像的各个宏块的像素值计算两帧图像的相似度；

对于相似度满足预设要求的多帧目标图像划分为一组进行编码，得到一图像序列，其中，只保留第一帧目标图像的完整数据，其它帧目标图像根据前一帧目标图像计算得出。

第二方面，本申请实施例提供了一种目标物体跟踪装置，包括：

获取模块，用于获取包含目标物体的图像序列，所述图像序列包括多帧图像；

解析模块，用于对所述多帧图像进行解析，确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差；

预测目标区域确定模块，用于将所述运动矢量、所述运动矢量残差和所述目标物体在前一帧图像中的已知目标区域输入第一目标检测网络，确定所述目标物体在当前帧图像中的预测目标区域。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的目标物体跟踪方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的目标物体跟踪方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的目标物体跟踪方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例，获取包含目标物体的图像序列，对图像序列中的多帧图像进行解析，确定目标物体在当前帧图像中的运动矢量和运动矢量残差；将运动矢量、运动矢量残差和目标物体在前一帧图像中的已知目标区域输入第一目标检测网络，确定目标物体在当前帧图像中的预测目标区域，从而实现在当前帧图像中对目标物体的追踪，由于在确定预测目标区域时只需将运动矢量、运动矢量残差和目标物体在前一帧图像中的已知目标区域输入目标检测网络，而运动矢量、运动矢量残差和已知目标区域与传统方法中的两帧图像数据相比要小很多，因此能够减少计算量进而提高对目标物体跟踪的运算速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的目标物体跟踪方法的应用场景示意图；

图2是本申请一实施例提供的目标物体跟踪方法的流程示意图；

图3是本申请一实施例提供的目标物体跟踪方法的流程示意图；

图4是本申请一实施例提供的目标物体跟踪方法的流程示意图；

图5是本申请一实施例提供的目标物体跟踪方法的流程示意图；

图6是本申请一实施例提供的人脸识别示意图；

图7是本申请一实施例提供的目标物体跟踪方法的流程示意图；

图8是本申请实施例提供的目标物体跟踪装置的结构示意图；

图9是本申请实施例提供的目标物体跟踪装置的结构示意图；

图10是本申请实施例提供的终端设备的结构示意图；

图11是本申请实施例提供的目标物体跟踪方法所适用于的计算机的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

基于上述问题，本申请实施例中的目标物体跟踪方法，首先获取包含目标物体的多帧图像，然后对多帧图像进行解析，确定目标物体在当前帧图像中的运动矢量和运动矢量残差，再将运动矢量、运动矢量残差和目标物体在前一帧图像中的已知目标区域，输入到经过训练的目标检测网络得出目标物体在当前帧图像中的预测目标区域，从而实现在当前帧图像中对目标物体的追踪，由于在确定预测目标区域时只需将运动矢量、运动矢量残差和目标物体在前一帧图像中的已知目标区域输入目标检测网络，而运动矢量、运动矢量残差和已知目标区域与传统方法中的两帧图像数据相比要小很多，因此能够减少计算量进而提高对目标物体跟踪的运算速度。

举例说明，本申请实施例可以应用到如图1所示的示例性场景中。在该场景中，图像采集设备20用于采集包含目标物体10的视频图像，并对该视频图像进行编码，得到包含目标物体的图像序列。例如，可以采用H264视频压缩算法对该视频图像进行编码，得到包含目标物体的图像序列，其中，该图像序列中可以包含P帧图像，P帧为向前参考帧，在对P帧图像进行压缩编码时，只需参考前面已经处理的帧。服务器30对多帧图像进行解析，可以确定目标物体在当前帧图像中的运动矢量和运动矢量残差，再将运动矢量、运动矢量残差和目标物体在前一帧图像中的已知目标区域，输入到经过训练的目标检测网络得出目标物体在当前帧图像中的预测目标区域，从而实现在当前帧图像中对目标物体的追踪。

为了使本技术领域的人员更好地理解本发明方案，下面将结合图1，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图2是本申请一实施例提供的目标跟踪方法的示意性流程图，参照图2，对该目标物体跟踪方法的详述如下：

在步骤101中，获取包含目标物体的图像序列，所述图像序列包括多帧图像。

其中，该图像序列可以为通过H264视频压缩算法对该视频图像进行编码得到的图像序列。H264视频压缩算法主要包括帧内预测压缩、帧间预测压缩、整数离散余弦变换和CABAC(Context-based Adaptive Binary Arithmetic Coding，适应性二元算术编码)压缩。

示例性的，一个图像序列可以包括多帧图像，通常包括I帧图像、B帧图像和P帧图像，其中，I帧图像为关键帧图像，通过帧内压缩技术得到；B帧图像为双向参考帧，采用帧间压缩技术得到，在压缩时B帧图像参考了前面的图像帧和后面的图像帧；P帧图像为向前参考帧图像，通过帧间预测压缩技术得到，在压缩时P帧图像考虑了目标物体的运动估计与补偿，参考前面已经处理的图像帧。一些实施例中，可以通过图像序列中的P帧图像对目标物体进行跟踪。

上述方法还包括对视频图像进行编码，得到上述图像序列的过程，该过程可以包括：

获取包含目标物体的视频图像；

具体地，获取到视频图像后，可以使用16*16大小的区域作为一个宏块(当然也可以以8*8大小的区域划分宏块)对各帧图像进行划分，划分到的各个宏块之后计算各个宏块的像素值，得到各个宏块的像素值。需要说明的是，对于比较平坦的图像使用16*16大小的区域，但为了更高的压缩率，还可以在宏块的基础上进一步划分出更小的子块，例如，对于16*16大小的宏块，子块的大小可以是8*16、16*8、8*8、4*8、8*4、4*4等。示例性的，在某个宏块中大部分是蓝色背景的情况下，如果目标物体的部分图像被划在了该宏块内，为了更好的处理目标物体的部分图像，就可以在16*16的宏块内划分出多个子块，这样再经过帧内压缩以后，可以得到关于目标物体更高效的数据。

对于视频数据主要有两类数据冗余，一类是时间上的数据冗余，另一类是空间上的数据冗余，其中，时间上的数据冗余是最大的。假设摄像头每秒抓取30帧图像，这30帧图像的数据大部分情况下都是相关联的。对于这些关联特别密切的帧，只需要保存一帧图像的数据，其它帧都可以通过这一帧再按某种规则预测出来，所以说视频数据在时间上的冗余是最多的。

为了达到相关帧通过预测的方法来压缩数据，就需要将各帧图像进行分组。分组的过程可以每次取出两幅相邻的帧进行宏块比较，计算两帧的相似度，而通过宏块扫描与宏块搜索可以发现这两个帧的关联度是非常高的。进而发现这一组帧的关联度都是非常高的。因此，相似度较高的这几帧就可以划分为一组。示例性的，在相邻几帧图像画面中，一般有差别的像素只有10％以内的点，亮度差值变化不超过2％，而色度差值的变化只有1％以内，这样的几帧图像可以分到一组。

在步骤102中，对所述多帧图像进行解析，确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差。

一些实施例中，步骤102具体可以包括：

基于所述目标物体在前一帧图像中的位置和在当前帧图像中的位置，确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差。

其中，所述运动矢量对应的通道数可以为2，所述运动数量残差对应的通道数可以为3。

示例性的，在进行图像压缩的过程中，可以从缓冲区头部取出两相邻帧图像，然后进行宏块扫描。在其中一帧图像中存在目标物体的情况下，就在另一帧图像的邻近位置(搜索窗口中)对目标物体进行搜索。如果在另一帧图像中搜索到该目标物体，那么就可以基于目标物体在两帧图像中的位置计算出目标物体的运动矢量。例如，目标物体在前一帧图像中的位置为第一位置，在后一帧图像中的位置为第二位置，则可以根据第一位置和第二位置确定目标物体的运动矢量，该运动矢量的大小为第一位置和第二位置之间的距离，方向由第一位置指向第二位置。

在得到运动矢量之后，将两帧图像中相同部分去掉，可以得到目标物体在当前帧图像的运动矢量残差，此时只需将运动矢量和运动矢量残差进行压缩编码，即可得到当前帧图像。因此，可以基于编码协议解析上述多帧图像，基于所述目标物体在前一帧图像中的位置和在当前帧图像中的位置，确定目标物体在当前帧图像中的运动矢量和运动矢量残差。

其中，可以采用H264编码协议对视频图像进行压缩得到图像序列，对应的，可以基于H264编码协议对两帧图像进行解析，确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差。

在一种可能的实现方式中，对于上述图像中可以包括多个物体的情况，每个物体对应一个标识，参见图3，步骤102可以包括以下步骤：

在步骤1021中，获取所述多个物体在前一帧图像中的位置和在当前帧图像中的位置。

本步骤中，对于包括多个物体的情况，可以对前一帧图像中识别出的各个物体设置对应的标识，同一物体的标识在以后各帧图像中不变，基于此对下一帧图像中的各个物体进行识别，根据各个物体的标识确定两帧之间各个物体的对应关系。

例如，以三个物体为例进行说明，在前一帧图像中识别到物体一、物体二和物体三，得到物体一、物体二和物体三各自的第一位置，并对物体一设置标识一，对物体二设置标识二，对物体三设置标识三；在当前帧图像中也识别到三个物体，这时可以根据识别到的三个物体的标识确定各个物体与前一帧图像中的物体一、物体二和物体三的对应关系。由此，可以得到在前一帧图像中物体一、物体二和物体三各自的第一位置，以及在当前帧图像中物体一、物体二和物体三各自的第二位置。

在步骤1022中，基于所述目标物体的标识和所述多个物体的标识，确定所述目标物体在前一帧图像中的位置和在当前帧图像中的位置。

例如，还以步骤1021中的三个物体为例，在目标物体的标识为标识一的情况下，根据标识一即可确定目标物体在前一帧图像中的第一位置和在当前帧图像中的第二位置。具体地，可以通过匈牙利算法实现对各个目标物体的第一位置和第二位置的配对。

需要说明的是，上述目标物体可以为上述多个物体中的任一物体，也可以为上述多个物体中的任意多个物体，本申请实施例对此不予限定。对于上述目标物体为上述多个物体中的任意多个物体的情况，可以参照上述过程，在此不予详述。

在步骤1023中，根据所述目标物体在前一帧图像中的位置和在当前帧图像中的位置，确定所述目标物体在当前帧图像中对应的运动矢量和运动矢量残差。

其中，在步骤1022中确定出目标物体在前一帧图像中的第一位置和在当前帧图像中的第二位置后，根据第一位置和第二位置确定目标物体在当前帧图像中对应的运动矢量和运动矢量残差。其中，该运动矢量的大小为第一位置和第二位置之间的距离，方向由第一位置指向第二位置。

对于目标物体为上述多个物体中的任意多个物体的情况，可以根据每个目标物体在前一帧图像中的第一位置和在当前帧图像中的第二位置，确定每个目标物体在当前帧图像中对应的运动矢量和运动矢量残差。

在步骤103中，将对所述运动矢量、所述运动矢量残差和所述目标物体在前一帧图像中的已知目标区域输入第一目标检测网络，确定所述目标物体在当前帧图像中的预测目标区域。

本步骤中，可以将目标物体的运动矢量、运动矢量残差和目标物体在前一帧图像中的已知目标区域输入到训练后的目标检测网络，确定所述目标物体在当前帧图像中的预测目标区域。其中，可以通过运动矢量、运动矢量残差和目标物体的目标区域训练目标检测网络。

一些实施例中，上述目标物体跟踪方法还可以包括训练所述第一目标检测网络的步骤；参见图4，上述训练所述第一目标检测网络的步骤，可以包括：

在步骤201中，获取待训练图像，所述待训练图像中包含待检测物体。

在步骤202中，对于所述待训练图像中的相邻两帧图像，确定所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及在前一帧图像中的已知目标区域。

在步骤203中，基于所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及在前一帧图像中的已知目标区域，训练所述第一目标检测网络。

示例性的，所述第一目标检测网络可以为基于感兴趣区域的目标检测网络，步骤203具体可以包括：

步骤A1，将所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差输入上述基于感兴趣区域的目标检测网络，并采用所述待检测物体在前一帧图像中的已知目标区域作为上述基于感兴趣区域的目标检测网络的感兴趣区域。

步骤B1，通过所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及所述感兴趣区域，训练上述基于感兴趣区域的目标检测网络。

其中，RFCN(Region-based Fully Convolutional Networks，基于区域的全卷积网络)网络最初应用于检测领域，其中的rpn(Region Proposal Networks，候选区域生成网络)层的作用是生成感兴趣区域ROI(region of interest)。而对于本实施例，要实现目标跟踪，对于前一帧图像来说，待跟踪的目标已经存在，这些目标的位置也是已知的，这些已知的目标框就可以看作是rpn层生成的ROI，因此本实施例中的基于感兴趣区域的目标检测网络将RFCN网络的rpn层去掉，直接用前一帧图像的目标框作为ROI进行后续计算，整个RFCN网络的其他计算流程同原始的RFCN网络算法一致，仅去除了RFCN网络中的rpn层。

示例性的，可以将待检测物体在后一帧图像中的运动矢量输入上述基于感兴趣区域的目标检测网络，并采用待检测物体在前一帧图像中的已知目标区域作为上述基于感兴趣区域的目标检测网络的感兴趣区域，训练上述基于感兴趣区域的目标检测网络。即，可以将2通道的运动矢量输入上述基于感兴趣区域的目标检测网络，并基于待检测物体在前一帧图像中的已知目标区域，训练上述基于感兴趣区域的目标检测网络。

示例性的，可以将待检测物体在后一帧图像中的运动矢量残差输入上述基于感兴趣区域的目标检测网络，并采用待检测物体在前一帧图像中的已知目标区域作为上述基于感兴趣区域的目标检测网络的感兴趣区域，训练上述基于感兴趣区域的目标检测网络。即，可以将3通道的运动矢量残差输入上述基于感兴趣区域的目标检测网络，并基于待检测物体在前一帧图像中的已知目标区域，训练上述基于感兴趣区域的目标检测网络。

示例性的，可以将待检测物体在后一帧图像中的运动矢量和运动矢量残差输入上述基于感兴趣区域的目标检测网络，并采用待检测物体在前一帧图像中的已知目标区域作为上述基于感兴趣区域的目标检测网络生成的感兴趣区域，训练上述基于感兴趣区域的目标检测网络。即，可以将2通道的运动矢量和3通道的运动矢量残差输入上述基于感兴趣区域的目标检测网络，并基于待检测物体在前一帧图像中的已知目标区域，训练上述基于感兴趣区域的目标检测网络。其中，相对于前两种方法，根据2通道的运动矢量和3通道的运动矢量残差，训练上述基于感兴趣区域的目标检测网络的效果较好。

参见图5，一些实施例中，上述目标物体跟踪方法还可以包括：

在步骤104中，对于所述图像序列中的第一帧图像，通过第二目标检测网络确定所述目标物体预设个数的关键点的位置。

以人脸为例，关键点的数量可以根据实际需要设定，关键点越多跟踪越准确但是速度越慢，而为了提高检测速度，本实施例中选择7个关键点，但并不以此为限。示例性的，可以通过mtcnn网络(Multi-task convolutional neural network，多任务卷积神经网络)确定7个关键点，具体地将一幅包含人脸的图像输入到mtcnn网络，可以得出7个关键点A～G的位置，例如7个关键点的位置如图6所示，其中关键点E在鼻尖位置。

在步骤105中，通过所述预设个数的关键点的位置，确定所述目标物体在所述第一帧图像中的第一目标区域。

其中，所述第一目标区域为确定所述目标物体在下一帧图像中的预测目标区域所需的已知目标区域。即，第一目标区域可以用于对目标物体在下一帧图像中的目标区域的预测。

示例性的，参见图7，步骤105可以包括以下步骤：

在步骤1051中，基于所述预设个数的关键点的位置坐标，确定一矩形区域。

参见图6，通过每张人脸的7个关键点的位置，即可以确定一张人脸所处的位置。当得到一张人脸的7个关键点的位置之后，可以基于这7个关键点确定一最小的外接矩形区域，如图中虚线框所示，此虚线框内是人脸的中心位置。

在步骤1052中，对所述矩形区域进行扩展，得到所述第一目标区域。

对于图6中的虚线框，为人脸的中心位置，但其覆盖人脸的面积较小，因此可以以虚线框的中心点为中心，对此虚线框进行扩展，得到如图6所示的第一目标区域。示例性的，对于人脸，可以将虚线框向左右各外扩虚线框宽度的0.3倍，即第一目标区域的宽度为虚线框的宽度的1.6倍；将虚线框向上外扩虚线框高度的0.6倍，将虚线框向下外扩虚线框高度的0.2倍，即第一目标区域的高度为虚线框的高度的1.8倍。此时，得到的第一目标区域即可认为是图像当中的人脸框。

示例性的，在得到第一帧图像的第一目标区域以后，可以将该第一目标区域作为确定目标物体在第二帧图像中的预测目标区域时对应的已知目标区域，同样的，目标物体在第二帧图像中的目标区域，可以作为确定目标物体在第三帧图像中的预测目标区域时对应的已知目标区域，以此类推。

需要说明的是，以上是以人脸为例进行说明，但本申请实施例并不以此为限，对于其他目标物体可以基于不同物体的特点根据关键点确定矩形区域，并对矩形区域进行对应的扩展，得到包含目标物体的第一目标区域。

上述目标物体跟踪方法，获取包含目标物体的图像序列，对图像序列中的多帧图像进行解析，确定目标物体在当前帧图像中的运动矢量和运动矢量残差；将运动矢量、运动矢量残差和目标物体在前一帧图像中的已知目标区域输入第一目标检测网络，确定目标物体在当前帧图像中的预测目标区域，从而实现在当前帧图像中对目标物体的追踪，由于在确定预测目标区域时只需将运动矢量、运动矢量残差和目标物体在前一帧图像中的已知目标区域输入目标检测网络，而运动矢量、运动矢量残差和已知目标区域与传统方法中的两帧图像数据相比要小很多，因此能够减少计算量进而提高对目标物体跟踪的运算速度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的目标物体跟踪方法，图8示出了本申请实施例提供的目标物体跟踪装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参见图8，本申请实施例中的目标物体跟踪装置可以包括获取模块301、解析模块302和预测目标区域确定模块303。

其中，获取模块301，用于获取包含目标物体的图像序列，所述图像序列包括多帧图像；

解析模块302，用于对所述多帧图像进行解析，确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差；

预测目标区域确定模块303，用于将所述运动矢量、所述运动矢量残差和所述目标物体在前一帧图像中的已知目标区域输入第一目标检测网络，确定所述目标物体在当前帧图像中的预测目标区域。

可选的，参见图9，上述装置还可以包括用于训练所述第一目标检测网络的网络训练模块304；

其中，网络训练模块304用于：

获取单元3041，用于获取待训练图像，所述待训练图像中包含待检测物体；

第一确定单元3042，用于对于所述待训练图像中的相邻两帧图像，确定所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及在前一帧图像中的已知目标区域；

训练单元3043，用于基于所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及在前一帧图像中的已知目标区域，训练所述第一目标检测网络。

可选的，所述第一目标检测网络为基于感兴趣区域的目标检测网络，训练单元3043具体可以用于：

将所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差输入基于感兴趣区域的目标检测网络，并采用所述待检测物体在前一帧图像中的已知目标区域作为基于感兴趣区域的目标检测网络的感兴趣区域；

通过所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及所述感兴趣区域，训练基于感兴趣区域的目标检测网络。

可选的，参见图9，上述装置还可以包括：

位置确定模块305，用于对于所述图像序列中的第一帧图像，通过第二目标检测网络确定所述目标物体预设个数的关键点的位置坐标；

已知目标区域确定模块306，用于通过所述预设个数的关键点的位置坐标，确定所述目标物体在所述第一帧图像中的第一目标区域；其中，所述第一目标区域为确定所述目标物体在下一帧图像中的预测目标区域所需的已知目标区域。

可选的，参见图9，已知目标区域确定模块306可以包括：

矩形区域确定单元3061，用于基于所述预设个数的关键点的位置坐标，确定一矩形区域；

扩展单元3062，用于对所述矩形区域进行扩展，得到所述第一目标区域。

在一种可能的实现方式中，解析模块302具体用于：

在一种可能的实现方式中，对于图像中包括多个物体的情况，每个物体对应一个标识；参见图9，解析模块302可以包括：

获取单元3021，用于获取所述多个物体在前一帧图像中的位置和在当前帧图像中的位置；

第二确定单元3022，用于基于所述目标物体的标识和所述多个物体的标识，确定所述目标物体在前一帧图像中的位置和在当前帧图像中的位置；

第三确定单元3023，用于根据所述目标物体在前一帧图像中的位置和在当前帧图像中的位置，确定所述目标物体在当前帧图像中对应的运动矢量和运动矢量残差。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，参见图10，该终端设400可以包括：至少一个处理器410、存储器420以及存储在所述存储器420中并可在所述至少一个处理器410上运行的计算机程序，所述处理器410执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

作为示例而非限定，上述实施例提供的题目推荐方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备400可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box，STB)、用户驻地设备(customer premise equipment，CPE)和/或用于在无线***上进行通信的其它设备以及下一代通信***，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当所述终端设备400为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

以所述终端设备400为计算机为例，图11示出的是与本申请实施例提供的计算机的部分结构的框图。参考11，计算机可以包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图11中示出的计算机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对计算机的各个构成部件进行具体的介绍：

通信电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将图像采集设备发送的图像样本接收后，给处理器570处理；另外，将图像采集指令发送给图像采集设备。通常，通信电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，通信电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，GSM)、通用分组无线服务(GeneralPacket Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long TermEvolution,LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器570通过运行存储在存储器520的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与计算机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器570，并能接收处理器570发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及计算机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器570以确定触摸事件的类型，随后处理器570根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图11中，触控面板531与显示面板541是作为两个独立的部件来实现计算机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现计算机的输入和输出功能。

音频电路550可提供用户与计算机之间的音频接口。音频电路550可将接收到的音频数据转换后的电信号，传输到扬声器由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路550接收后转换为音频数据，再将音频数据输出处理器570处理后，经通信电路510以发送给比如另一计算机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，计算机通过WiFi模块560可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块560，但是可以理解的是，其并不属于计算机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器570是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器570可包括一个或多个处理单元；优选的，处理器570可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器570中。

计算机还包括给各个部件供电的电源580(比如电池)，优选的，电源580可以通过电源管理***与处理器570逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述目标物体追踪方法各个实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述目标物体追踪方法各个实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种目标物体跟踪方法，其特征在于，包括：

对所述多帧图像进行解析，对当前帧图像中的各个物体进行识别，根据所述当前帧图像与前一帧图像之间各个物体的对应关系确定所述目标物体在所述前一帧图像中的第一位置和在所述当前帧图像中的第二位置，并根据所述第一位置和所述第二位置确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差；

2.如权利要求1所述的目标物体跟踪方法，其特征在于，所述方法还包括：训练所述第一目标检测网络的步骤；

所述训练所述第一目标检测网络的步骤包括：

获取待训练图像，所述待训练图像中包含待检测物体；

对于所述待训练图像中的相邻两帧图像，确定所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及在前一帧图像中的已知目标区域；

基于所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及在前一帧图像中的已知目标区域，训练所述第一目标检测网络。

3.如权利要求2所述的目标物体跟踪方法，其特征在于，所述第一目标检测网络为基于感兴趣区域的目标检测网络，所述基于所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及在前一帧图像中的已知目标区域，训练第一所述目标检测网络，包括：

将所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差输入所述基于感兴趣区域的目标检测网络，并采用所述待检测物体在前一帧图像中的已知目标区域作为所述基于感兴趣区域的目标检测网络的感兴趣区域；

通过所述待检测物体在后一帧图像中的运动矢量和/或运动矢量残差，以及所述感兴趣区域，训练所述基于感兴趣区域的目标检测网络。

4.如权利要求1所述的目标物体跟踪方法，其特征在于，所述方法还包括：

对于所述图像序列中的第一帧图像，通过第二目标检测网络确定所述目标物体预设个数的关键点的位置坐标；

通过所述预设个数的关键点的位置坐标，确定所述目标物体在所述第一帧图像中的第一目标区域；其中，所述第一目标区域为确定所述目标物体在下一帧图像中的预测目标区域所需的已知目标区域。

5.如权利要求4所述的目标物体跟踪方法，其特征在于，所述通过所述预设个数的关键点的位置坐标，确定所述目标物体在所述第一帧图像中的第一目标区域，包括：

基于所述预设个数的关键点的位置坐标，确定一矩形区域；

对所述矩形区域进行扩展，得到所述第一目标区域。

6.如权利要求1至5任一项所述的目标物体跟踪方法，其特征在于，对于图像中包括多个物体的情况，每个物体对应一个标识，所述目标物体为所述多个物体中的任一物体；所述对所述多帧图像进行解析，对当前帧图像中的各个物体进行识别，根据所述当前帧图像与前一帧图像之间各个物体的对应关系确定所述目标物体在所述前一帧图像中的第一位置和在所述当前帧图像中的第二位置，并根据所述第一位置和所述第二位置确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差，包括：

获取所述多个物体在前一帧图像中的位置和在当前帧图像中的位置；

基于所述目标物体的标识和所述多个物体的标识，确定所述目标物体在前一帧图像中的位置和在当前帧图像中的位置；

根据所述目标物体在前一帧图像中的位置和在当前帧图像中的位置，确定所述目标物体在当前帧图像中对应的运动矢量和运动矢量残差。

7.一种目标物体跟踪装置，其特征在于，包括：

解析模块，用于对所述多帧图像进行解析，对当前帧图像中的各个物体进行识别，根据所述当前帧图像与前一帧图像之间各个物体的对应关系确定所述目标物体在所述前一帧图像中的第一位置和在所述当前帧图像中的第二位置，并根据所述第一位置和所述第二位置确定所述目标物体在当前帧图像中的运动矢量和运动矢量残差；

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。