CN114743150A

CN114743150A - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN114743150A
Application number: CN202210493990.1A
Authority: CN
Inventors: 李福林; 陈翀; 徐宁; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-07-12

Abstract

本公开关于一种目标跟踪方法、装置、电子设备及存储介质，所述目标跟踪方法包括：获取视频序列中待跟踪目标的尺度集合和角度集合，尺度集合包括一个或多个衡量待跟踪目标的尺度变化程度的尺度参数，角度集合包括一个或多个衡量待跟踪目标的角度变化程度的角度参数；根据尺度集合和角度集合所确定出的一个或多个尺度角度参数组合，对当前视频帧提取特征，得到不同尺度角度参数组合下的一个或多个特征图；根据一个或多个特征图、在当前视频帧之前的预设数目个视频帧的特征图、尺度集合和角度集合，获得待跟踪目标在当前视频帧中的尺度和角度。根据本公开的目标跟踪方法、装置、电子设备及存储介质，可提高目标跟踪的准确性。

Description

目标跟踪方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，更具体地说，涉及一种目标跟踪方法、装置、电子设备及存储介质。

背景技术

视频目标跟踪是计算机视觉领域的重要研究方向，其应用包括视频监控、检测识别、人机交互以及无人驾驶等，也可作为视频编辑工具之一，广泛应用于日常生产生活中。

目前，大部分视频目标跟踪方法集中于对目标位移进行跟踪(即，追踪特定目标在画面当中的位置变化)，但由于存在目标本身尺度变化、形态差异等情况，单纯对目标位移进行跟踪可能导致目标丢失，视频目标跟踪的准确性较低。

发明内容

本公开提供一种目标跟踪方法、装置、电子设备及存储介质，以至少解决上述相关技术中的问题。

根据本公开实施例的第一方面，提供一种目标跟踪方法，包括：获取视频序列中待跟踪目标的尺度集合和角度集合，所述尺度集合包括一个或多个衡量所述待跟踪目标的尺度变化程度的尺度参数，所述角度集合包括一个或多个衡量所述待跟踪目标的角度变化程度的角度参数；根据所述尺度集合和所述角度集合所确定出的一个或多个尺度角度参数组合，对当前视频帧提取特征，得到不同尺度角度参数组合下的所述当前视频帧的一个或多个特征图；根据所述一个或多个特征图、在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获得所述待跟踪目标在所述当前视频帧中的尺度和角度。

可选地，所述根据所述尺度集合和所述角度集合所确定出的一个或多个尺度角度参数组合，对当前视频帧提取特征，得到不同尺度角度参数组合下的所述当前视频帧的一个或多个特征图，包括：根据所述一个或多个尺度角度参数组合中的每个尺度角度参数组合对所述待跟踪目标在所述当前视频帧的前一个视频帧中的尺度角度进行调整，得到一个或多个所述待跟踪目标在所述当前视频帧中的调整的尺度角度；对包括调整了尺度角度的待跟踪目标的当前视频帧进行特征提取，得到所述一个或多个特征图。

可选地，所述根据所述一个或多个特征图、在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获得所述待跟踪目标在所述当前视频帧中的尺度和角度，包括：根据在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获取第一响应；根据所述一个或多个特征图和所述第一响应，获取一个或多个第二响应，每个所述第二响应反映所述待跟踪目标在所述当前视频帧中的所述调整的尺度角度与真实的尺度角度的接近程度；将所述一个或多个第二响应中符合预设条件的第二响应所对应的调整的尺度角度确定为所述待跟踪目标在所述当前视频帧中的尺度和角度。

可选地，所述根据在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获取第一响应，包括：根据所述尺度集合中的尺度参数的数目和所述角度集合中的角度参数的数目，分别获取尺度高斯响应和角度高斯响应；基于所述尺度高斯响应、所述角度高斯响应和所述当前视频帧的前两个视频帧的特征图，获取所述第一响应。

可选地，所述当前视频帧的前两个视频帧的特征图包括在所述当前视频帧之前的第一个视频帧的第一特征图和第二特征图以及在所述当前视频帧之前的第二个视频帧的第三特征图；所述基于所述尺度高斯响应、所述角度高斯响应和所述当前视频帧的前两个视频帧的特征图，获取所述第一响应，包括：对所述尺度高斯响应、所述角度高斯响应、所述第一特征图、所述第二特征图和所述第三特征图做快速傅立叶变换，得到频率域的尺度高斯响应、角度高斯响应、第一特征图、第二特征图和第三特征图；将所述频率域的尺度高斯响应和所述频率域的角度高斯响应相关联，得到频率域的尺度角度综合高斯响应；基于所述频率域的第一特征图、第二特征图、第三特征图以及尺度角度综合高斯响应，获取所述第一响应。

可选地，所述基于所述频率域的第一特征图、第二特征图、第三特征图以及尺度角度综合高斯响应，获取所述第一响应，包括：将所述频率域的第二特征图、所述频率域的第三特征图分别与频率域的尺度角度综合高斯响应相关联，得到频率域的目标第二特征图和频率域的目标第三特征图，其中，所述频率域的目标第二特征图和所述频率域的目标第三特征图分别携带尺度角度信息；根据所述频率域的目标第二特征图、所述频率域的目标第三特征图以及所述频率域的第一特征图，得到所述第一响应。

可选地，所述根据所述一个或多个特征图和所述第一响应，获取一个或多个第二响应，包括：对所述一个或多个特征图进行快速傅立叶变换，得到频率域的一个或多个特征图；根据所述频率域的一个或多个特征图中的每个特征图、所述第一响应，得到所述一个或多个第二响应。

可选地，在所述将所述一个或多个第二响应中符合预设条件的第二响应所对应的调整的尺度角度确定为所述待跟踪目标在所述当前视频帧中的尺度和角度之后，所述方法还包括：根据所述当前视频帧的特征图以及所述当前视频帧的前一个视频帧的特征图更新所述第一响应。

根据本公开实施例的第二方面，提供一种目标跟踪装置，包括：集合获取单元，被配置为：获取视频序列中待跟踪目标的尺度集合和角度集合，所述尺度集合包括一个或多个衡量所述待跟踪目标的尺度变化程度的尺度参数，所述角度集合包括一个或多个衡量所述待跟踪目标的角度变化程度的角度参数；特征提取单元，被配置为：根据所述尺度集合和所述角度集合所确定出的一个或多个尺度角度参数组合，对当前视频帧提取特征，得到不同尺度角度参数组合下的所述当前视频帧的一个或多个特征图；尺度和角度获取单元，被配置为：根据所述一个或多个特征图、在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获得所述待跟踪目标在所述当前视频帧中的尺度和角度。

可选地，所述特征提取单元可被配置为根据所述一个或多个尺度角度参数组合中的每个尺度角度参数组合对所述待跟踪目标在所述当前视频帧的前一个视频帧中的尺度角度进行调整，得到一个或多个所述待跟踪目标在所述当前视频帧中的调整的尺度角度；对包括调整了尺度角度的待跟踪目标的当前视频帧进行特征提取，得到所述一个或多个特征图。

可选地，所述尺度和角度获取单元可被配置为根据在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获取第一响应；根据所述一个或多个特征图和所述第一响应，获取一个或多个第二响应，每个所述第二响应反映所述待跟踪目标在所述当前视频帧中的所述调整的尺度角度与真实的尺度角度的接近程度；将所述一个或多个第二响应中符合预设条件的第二响应所对应的调整的尺度角度确定为所述待跟踪目标在所述当前视频帧中的尺度和角度。

可选地，所述尺度和角度获取单元可被配置为根据所述尺度集合中的尺度参数的数目和所述角度集合中的角度参数的数目，分别获取尺度高斯响应和角度高斯响应；基于所述尺度高斯响应、所述角度高斯响应和所述当前视频帧的前两个视频帧的特征图，获取所述第一响应。

可选地，所述当前视频帧的前两个视频帧的特征图包括在所述当前视频帧之前的第一个视频帧的第一特征图和第二特征图以及在所述当前视频帧之前的第二个视频帧的第三特征图；所述尺度和角度获取单元可被配置为对所述尺度高斯响应、所述角度高斯响应、所述第一特征图、所述第二特征图和所述第三特征图做快速傅立叶变换，得到频率域的尺度高斯响应、角度高斯响应、第一特征图、第二特征图和第三特征图；将所述频率域的尺度高斯响应和所述频率域的角度高斯响应相关联，得到频率域的尺度角度综合高斯响应；基于所述频率域的第一特征图、第二特征图、第三特征图以及尺度角度综合高斯响应，获取所述第一响应。

可选地，所述尺度和角度获取单元可被配置为将所述频率域的第二特征图、所述频率域的第三特征图分别与频率域的尺度角度综合高斯响应相关联，得到频率域的目标第二特征图和频率域的目标第三特征图，其中，所述频率域的目标第二特征图和所述频率域的目标第三特征图分别携带尺度角度信息；根据所述频率域的目标第二特征图、所述频率域的目标第三特征图以及所述频率域的第一特征图，得到所述第一响应。

可选地，所述尺度和角度获取单元可被配置为对所述一个或多个特征图进行快速傅立叶变换，得到频率域的一个或多个特征图；根据所述频率域的一个或多个特征图中的每个特征图、所述第一响应，得到所述一个或多个第二响应。

可选地，所述目标跟踪装置还包括第一响应更新单元，所述第一响应更新单元可被配置为在所述将所述一个或多个第二响应中符合预设条件的第二响应所对应的调整的尺度角度确定为所述待跟踪目标在所述当前视频帧中的尺度和角度之后，根据所述当前视频帧的特征图以及所述当前视频帧的前一个视频帧的特征图更新所述第一响应。

根据本公开实施例的第三方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的目标跟踪方法。

根据本公开实施例的第四方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的目标跟踪方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的目标跟踪方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的目标跟踪方法、装置、电子设备及存储介质，根据视频序列中待跟踪目标的尺度集合和角度集合对当前视频帧进行特征提取，可得到当前视频帧在不同尺度角度参数组合下的一个或多个特征图，根据得到的一个或多个特征图、在当前视频帧之前的视频帧的特征图、尺度集合和角度集合，可跟踪到目标在当前视频帧中的尺度和角度，从而提高视频目标跟踪的准确性。

此外，根据本公开的目标跟踪方法、装置、电子设备及存储介质，可以很方便地叠加任意一种视频目标位移跟踪方法，实现对目标的四维跟踪(即二维位移、一维尺度大小及一维角度姿态)。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的目标跟踪方法的流程图。

图2是示出根据本公开的示例性实施例的一种具体应用场景下的视频目标跟踪过程的示意图。

图3是示出根据本公开的示例性实施例的目标跟踪方法的跟踪结果示意图。

图4是示出根据本公开的示例性实施例的目标跟踪装置的框图。

图5是根据本公开的示例性实施例的电子设备500的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

为提高视频目标跟踪的准确性和全面性，本公开提出了一种目标跟踪方法、装置、电子设备及存储介质，具体地说，根据视频序列中待跟踪目标的的尺度集合和角度集合对当前视频帧进行特征提取，可得到当前视频帧在不同尺度角度参数组合下的一个或多个特征图，根据得到的一个或多个特征图、在当前视频帧之前的视频帧的特征图、尺度集合和角度集合，可跟踪到目标在当前视频帧中的尺度和角度，从而提高视频目标跟踪的准确性。此外，可以很方便地在本公开的目标跟踪方法上叠加任意一种视频目标位移跟踪方法，实现对目标的四维跟踪(即二维位移、一维尺度大小及一维角度姿态)。下面，将参照图1至图5具体描述根据本公开的示例性实施例的目标跟踪方法、装置、电子设备及存储介质。

首先需要说明的是，本公开实施例示出的目标跟踪方法可用于跟踪视频目标，在一个实施例中，本公开示出的目标跟踪方法可由计算机、笔记本电脑、智能手机、平板电脑、可穿戴设备、车载设备等执行，在另一个实施例中，本公开示出的目标跟踪方法也可由具备计算能力的芯片执行，或者，响应于用户端发送的跟踪视频目标的请求，由服务器、服务器集群、分布式分***、云处理平台、包含区块链节点的服务器以及其组合的设备等来执行，本公开对具体的执行设备不作限制。

参照图1，在步骤101，获取视频序列中待跟踪目标的尺度集合和角度集合，尺度集合包括一个或多个衡量待跟踪目标的尺度变化程度的尺度参数，角度集合包括一个或多个衡量待跟踪目标的角度变化程度的角度参数。这里，视频序列包括多个视频帧，待跟踪目标是视频序列中的一个运动的对象，因此，待跟踪目标在不同视频帧中的位置、尺度以及角度皆可能不同。

根据本公开的示例性实施例，尺度集合可被表示为S＝{s₁,s₂,…,s_n}，其中，n为尺度集合的大小，s₁,s₂,…,s_n分别表示不同的尺度参数，用于衡量视频序列中待跟踪目标的尺度变化程度，在一些实施例中，可设置尺度步长为p，则可跟踪的尺度大小范围为[p*s₁,p*s_n]，例如，针对一个尺度集合S＝{0.6，0.7，08，0.9，1，1.1，1.2，1.3，1.4}，0.6表示将待跟踪目标的尺度缩小至原来的60％，1表示待跟踪目标的尺度不变，设尺度步长p为0.5，则可跟踪的尺度大小范围为[0.3，0.7]，由此，可通过更改尺度步长来调整可跟踪的尺度大小范围，而无需重新设置尺度集合。角度集合可被表示为R＝{r₁,r₂,…,r_m}，m为角度集合的大小，r₁,r₂,…,r_m分别表示不同的角度参数，用于衡量视频序列中待跟踪目标的角度变化程度，在一些实施例中，可设置角度步长为q，则可跟踪的角度大小范围为[q*r₁,q*r_m]，例如，针对角度集合R＝{-2，-1，0，1，2}，正负表示角度变化的两个相对方向(例如，分别表示顺时针旋转和逆时针旋转等)，设角度步长q为5°，则可跟踪的角度大小范围为[-10°，10°]，例如，-10°表示将待跟踪目标的角度沿逆时针方向旋转10°，0表示角度不变状态，10°表示将待跟踪目标的角度沿顺时针方向旋转10°，另外，可通过更改角度步长来调整可跟踪的角度大小范围。此外，可根据实际情况(例如，视频序列的内容类型等)确定n和m的具体取值，本公开对尺度集合和角度集合的大小不作限定。

在步骤102，根据获取的尺度集合和角度集合所确定出的一个或多个尺度角度参数组合，对当前视频帧提取特征，得到不同尺度角度参数组合下的当前视频帧的一个或多个特征图。一个实施例中，特征为当前视频帧的梯度直方图(Histogram of Gradient，HOG)特征，可采用相关技术中的任意一种方法来提取HOG特征，本公开对此不作限定。例如，可将当前视频帧划分为c*c(例如8*8)大小的网格，针对每个网格都计算一个梯度直方图特征，将每个网格的梯度直方图特征串联，即可得到当前视频帧的梯度直方图特征。

根据本公开的示例性实施例，可根据一个或多个尺度角度参数组合中的每个尺度角度参数组合对待跟踪目标在当前视频帧的前一个视频帧中的尺度角度进行调整，得到一个或多个待跟踪目标在当前视频帧中的调整的尺度角度，对包括调整了尺度角度的待跟踪目标的当前视频帧进行特征提取，可得到一个或多个特征图。这里，调整的是待跟踪目标的尺度和角度，具体来讲，可从尺度集合指向的尺度大小范围和角度集合指向的角度大小范围中分别选取一个尺度参数和角度参数作为一种尺度角度参数组合，将待跟踪目标在当前视频帧的前一个视频帧中的尺度和角度按照该尺度角度参数组合进行变换，再对包括变换过尺度和角度的待跟踪目标的当前视频帧进行特征提取，从而得到该尺度角度参数组合下的一个特征图，如此，根据不同的角度参数组合，可得到当前视频帧的多个特征图。举例来讲，若尺度集合和角度集合分别包括3个尺度参数和3个角度参数，则存在9种尺度角度参数组合，可计算出与当前视频帧相关的9种HOG特征，这里，不同的尺度角度参数组合例如可用“i,j”表示，当前视频帧在不同尺度角度参数组合下的HOG特征例如可用H_i,j表示，“i”表示前述的尺度集合中每个尺度参数s_n的下标，“j”表示前述的角度集合中每个角度参数r_m的下标，也就是说，1≤i≤n，1≤j≤m。

在步骤103，根据得到的一个或多个特征图、在当前视频帧之前的预设数目个视频帧的特征图、尺度集合和角度集合，获得待跟踪目标在当前视频帧中的尺度和角度。

根据本公开的示例性实施例，为能准确地获取到待跟踪目标在当前视频帧中的尺度和角度，可参考待跟踪目标在当前视频帧之前的预设数目个视频帧中的尺度信息和角度信息，具体来讲，可根据在当前视频帧之前的预设数目个视频帧的特征图(例如，梯度直方图HOG)、尺度集合和角度集合，获取第一响应，并根据得到的当前视频帧的一个或多个特征图和该第一响应，获取一个或多个第二响应，这里，第二响应反映待跟踪目标在当前视频帧中的调整的尺度角度与真实的尺度角度的接近程度。可将一个或多个第二响应中符合预设条件的第二响应(例如，数值最大的第二响应等)所对应的调整的尺度角度确定为待跟踪目标在当前视频帧中的尺度和角度。

具体来讲，可根据尺度集合中的尺度参数的数目(例如，前述的尺度集合的大小n)和角度集合中的角度参数的数目(例如，前述的角度集合的大小m)，分别获取尺度高斯响应和角度高斯响应，这里，尺度高斯响应，例如，但不限于，可被表示为G₁＝{g₁,g₂,…,g_n}，其中，

δ₁为大于0的高斯参数，e为自然常数，1≤i≤n；角度高斯响应，例如，但不限于，可被表示为G₂＝{h₁,h₂,…,h_m}，其中，

δ₂为大于0的高斯参数，1≤j≤m，δ₁和δ₂可根据实际的目标跟踪场景设置，本公开对此不作限制。另外，为在准确地获取到待跟踪目标在当前视频帧中的尺度和角度的同时，尽量减少目标跟踪方法的执行复杂度，可获取当前视频帧的前两个视频帧的特征图。在一些实施例中，当前视频帧的前两个视频帧的特征图包括在当前视频帧之前的第一个视频帧的第一特征图和第二特征图以及在当前视频帧之前的第二个视频帧的第三特征图，这里，第一特征图和第二特征图的区别在于在获取第一特征图和第二特征图的过程中，待跟踪目标的尺度和角度可能不同。具体来讲，为描述的清晰性，假设在当前视频帧之前的第一个视频帧为视频帧A，在当前视频帧之前的第二个视频帧为视频帧B，则在获取第一特征图的过程中，待跟踪目标在视频帧A中的尺度和角度与在视频帧B中的尺度和角度分别相同，在获取第二特征图的过程中，待跟踪目标在视频帧A中的尺度和角度为在视频帧A中的实际尺度和实际角度，在获取第三特征图的过程中，待跟踪目标在视频帧B中的尺度和角度为在视频帧B中的实际尺度和实际角度。

可基于尺度高斯响应、角度高斯响应和当前视频帧的前两个视频帧的特征图，获取第一响应。具体来讲，为减少本公开的目标跟踪方法在执行过程中的计算量，可在频率域获取第一响应，即，可对尺度高斯响应、角度高斯响应、第一特征图、第二特征图和第三特征图做快速傅立叶变换，得到频率域的尺度高斯响应、角度高斯响应、第一特征图、第二特征图和第三特征图，然后，将频率域的尺度高斯响应和频率域的角度高斯响应相关联(例如，将频率域的尺度高斯响应和频率域的角度高斯响应相乘等)，得到频率域的尺度角度综合高斯响应，基于频率域的第一特征图、第二特征图和第三特征图以及频率域的尺度角度综合高斯响应，获取第一响应。在一些实施例中，可将频率域的第二特征图、频率域的第三特征图分别与频率域的尺度角度综合高斯响应相关联(例如，将频率域的第二特征图、频率域的第三特征图分别与频率域的尺度角度综合高斯响应相乘等)，得到频率域的目标第二特征图和频率域的目标第三特征图，这里，频率域的目标第二特征图和频率域的目标第三特征图分别携带了尺度角度信息(即，携带了与前述的尺度集合相关的尺度信息和与前述的角度集合相关的角度信息)。可根据频率域的目标第二特征图和频率域的目标第三特征图以及频率域的第一特征图，得到第一响应。在一个实施例中，可首先对频率域的目标第二特征图和频率域的目标第三特征图分别叠加不同的权重，以确定频率域的目标第二特征图和频率域的目标第三特征图对第一响应的贡献度，然后将叠加了不同权重的频率域的目标第二特征图和频率域的第三特征图相加之后与频率域的第一特征图相除，得到该第一响应。也就是说，第一响应，例如，但不限于，可被表示为：

其中，F(G₁)和F(G₂)分别表示频率域的尺度高斯响应和频率域的角度高斯响应；F(H_a)表示频率域的在当前视频帧之前的第二个视频帧的第三特征图；F(H_c)表示频率域的在当前视频帧之前的第一个视频帧的第二特征图；F(H_b)表示频率域的在当前视频帧之前的第一个视频帧的第一特征图；η和(1-η)分别表示不同的权重，0<η<1。需要说明的是，若当前视频帧为视频序列的第二个视频帧，由于在第二个视频帧之前只有第一个视频帧，因此此时当前视频帧的可参考视频帧只有一个，并且视频序列的第一个视频帧中目标的尺度和角度已知，因此此时F(H_c)和F(H_b)相同，因此，针对当前视频帧为视频序列的第二个视频帧，其第一响应可被表示为：

此时，F(H_b)表示频率域的视频序列的第一个视频帧的特征图。

在另一个实施例中，也可不对频率域的目标第二特征图和频率与的目标第三特征图叠加不同的权重，而直接根据频率域的第一特征图、目标第二特征图和目标第三特征图来得到第一响应，本公开对此不作限制。

根据本公开的示例性实施例，可对与当前视频帧相关的一个或多个特征图进行快速傅立叶变换，得到频率域的一个或多个特征图，根据频率域的一个或多个特征图中的每个特征图、第一响应(例如，可将每个特征图与第一响应相乘等)，得到一个或多个第二响应。

这里，第二响应，例如，但不限于，可被表示为：

R₂＝F(H_i,j)*R₁ (3)

其中，“i,j”表示前述的不同的尺度角度参数组合，F(H_i,j)表示前述的当前视频帧在不同尺度角度参数组合下的频率域的多个特征图，1≤i≤n，1≤j≤m，n为前述的尺度集合的大小；m为前述的角度集合的大小；R₁表示第一响应。

在具体的实施例中，可记录一个或多个第二响应中数值最大的第二响应所对应的尺度角度参数组合“i′,j′”，根据该尺度角度组合“i′,j′”从前述的尺度大小范围[p*s₁,p*s_n]和角度大小范围[q*r₁,q*r_m]中分别确定待跟踪目标的尺度调整幅度p*s_i′和角度调整幅度q*r_j′，根据确定出的尺度调整幅度、角度调整幅度以及待跟踪目标在当前视频帧的前一个视频帧中的尺度和角度，可得到待跟踪目标在当前视频帧中的尺度和角度。举例来讲，当前视频帧为视频序列中的第二个视频帧，待跟踪目标在视频序列的第一个视频帧中的尺度为(w₁,h₁)，角度为a₁，则待跟踪目标在第二个视频帧中的尺度为(w₁*p*s_i′,h₁*p*s_i′)，角度为a₂＝a₁+q*r_j′。

根据本公开的示例性实施例，在将一个或多个第二响应中符合预设条件的第二响应所对应的调整的尺度角度确定为目标在当前视频帧中的尺度和角度之后，还可根据当前视频帧的特征图以及当前视频帧的前一个视频帧的特征图更新第一响应，以用于确定待跟踪目标在下一个视频帧中的尺度和大小。例如，针对前述的公式(1)，在更新第一响应R₁时，可将F(H_c)和F(H_b)更新为当前视频帧的第二特征图和第一特征图，将F(H_a)更新为当前视频帧的前一个视频帧的特征图。

上述的目标跟踪方法可实现对视频目标的尺度和角度的联合跟踪，并且可与相关技术中的任意一种位移跟踪方法很方便地结合起来，实现对目标的四维跟踪即二维位移、一维尺度大小及一维角度姿态)，提高了目标跟踪的全面性和准确性。

基于前述一个或多个实施例的组合，图2示出一种具体应用场景下的视频目标跟踪过程的示意图。

参照图2，设置尺度集合S和角度集合R，二者的大小、步长以及限定的尺度大小范围和角度大小范围可参照前述的相关描述，在此不赘述。根据尺度集合S和角度集合R分别获取尺度高斯响应G₁和角度高斯响应G₂(二者的具体表达式可参照前述的相关描述)，并对尺度高斯响应G₁和角度高斯响应G₂分别做快速傅立叶变换，得到频率域的尺度高斯响应F(G₁)和频率域的角度高斯响应F(G₂)。待跟踪目标在视频序列的第一个视频帧中的尺度和角度已知，其中，尺度为(w₁,h₁)，角度为a₁，提取第一个视频帧的HOG特征H₁，并对HOG特征H₁做快速傅立叶变换，得到频率域的HOG特征F(H₁)。根据F(G₁)、F(G₂)和F(H₁)可计算第一响应

对于视频序列的第二个视频帧，可遍历由尺度集合S限定出的尺度大小范围和由角度集合R限定出的角度大小范围，分别计算每个尺度角度参数组合“i,j”下的第二个视频帧的梯度直方图特征H_i,j，并对每个H_i,j做快速傅立叶变换，得到频率域的每个尺度角度参数组合下的第二个视频帧的梯度直方图特征F(H_i,j)，对于任意尺度角度参数组合“i,j”，可计算第二响应R₂＝F(H_i,j)*R₁，记录第二响应的值最大时的尺度角度参数组合“i′,j′”，根据该尺度角度参数组合“i′,j′”从前述的尺度大小范围[p*s₁,p*s_n]和角度大小范围[q*r₁,q*r_m]中分别确定待跟踪目标的尺度调整幅度p*s_i′和角度调整幅度q*r_j′，则待跟踪目标在第二个视频帧中的尺度为(w₁*p*s_i′,h₁*p*s_i′)，角度为a₂＝a₁+p*r_j′。之后，可将第一响应更新为

其中，F(H_i′,j′)为频率域的按照待跟踪目标在第二个视频帧中的实际尺度和实际角度对第二个视频帧进行特征提取而得到的特征图，F(H₂)为频率域的按照待跟踪目标在第一个视频帧中的尺度和角度对第二个视频帧进行特征提取而得到的特征图，对后续的视频帧，按照与针对第二个视频帧的操作相同的逻辑获取对应的第二响应以得到待跟踪目标在后续视频帧中的尺度和角度，并更新第一响应R₁，直到完成对待跟踪目标在该视频序列的全部视频帧中的跟踪任务。

参照图3，图3(a)是视频序列的第一个视频帧，可由黑色实线矩形框表示待跟踪目标301在第一个视频帧中的位置和大小，图3(b)是视频序列的第二个视频帧，由于运动等因素，待跟踪目标301在第二个视频中的位置从路段的水平位置移动到斜坡位置，尺度由大变小，并且其与水平面之间的角度也产生了变化，此时极有可能丢失待跟踪目标301或无法跟踪到待跟踪目标301的尺度和角度，例如，采用相关技术得到的跟踪结果可由黑色虚线矩形框表示，其仅能获取到待跟踪目标在第二个视频帧中的位置，但无法获取到待跟踪目标301的大小和角度，但采用本公开示出的目标跟踪方法可跟踪到目标的尺度和角度(由黑色实线表示)，提高了视频目标跟踪的准确性。

参照图4，根据本公开的示例性实施例的目标跟踪装置400可包括集合获取单元401、特征提取单元402和尺度和角度获取单元403。

集合获取单元401可获取视频序列中待跟踪目标的尺度集合和角度集合，尺度集合包括一个或多个衡量待跟踪目标的尺度变化程度的尺度参数，角度集合包括一个或多个衡量待跟踪目标的角度变化程度的角度参数。这里，视频序列包括多个视频帧，待跟踪目标是视频序列中的一个运动的对象，因此，待跟踪目标在不同视频帧中的位置、尺度以及角度皆可能不同。

特征提取单元402可根据获取的尺度集合和角度集合所确定出的一个或多个尺度角度参数组合，对当前视频帧提取特征，得到不同尺度角度参数组合下的一个或多个特征图。一个实施例中，特征为当前视频帧的梯度直方图(Histogram of Gradient，HOG)特征，可采用相关技术中的任意一种方法来提取HOG特征，本公开对此不作限定。例如，可将当前视频帧划分为c*c(例如8*8)大小的网格，针对每个网格都计算一个梯度直方图特征，将每个网格的梯度直方图特征串联，即可得到当前视频帧的梯度直方图特征。

根据本公开的示例性实施例，特征提取单元402可根据一个或多个尺度角度参数组合中的每个尺度角度参数组合对待跟踪目标在当前视频帧的前一个视频帧中的尺度角度进行调整，得到一个或多个待跟踪目标在当前视频帧中的调整的尺度角度，对包括调整了尺度角度的待跟踪目标的当前视频帧进行特征提取，可得到一个或多个特征图。这里，调整的是待跟踪目标的尺度和角度，具体来讲，特征提取单元402可从尺度集合指向的尺度大小范围和角度集合指向的角度大小范围中分别选取一个尺度参数和角度参数作为一种尺度角度参数组合，将待跟踪目标在当前视频帧的前一个视频帧中的尺度角度按照该尺度角度参数组合进行变换，再对包括变换过尺度和角度的待跟踪目标的当前视频帧进行特征提取，从而得到该尺度角度参数组合下的一个或多个特征图，如此，根据不同的角度参数组合，可得到当前视频帧的多个特征图。举例来讲，若尺度集合和角度集合分别包括3个尺度参数和3个角度参数，则存在9种尺度角度参数组合，可计算出与当前视频帧相关的9种HOG特征。

尺度和角度获取单元403可根据得到的一个或多个特征图、在当前视频帧之前的预设数目个视频帧的特征图、尺度集合和角度集合，获得待跟踪目标在当前视频帧中的尺度和角度。

根据本公开的示例性实施例，尺度和角度获取单元403可根据在当前视频帧之前的预设数目个视频帧的特征图(例如，梯度直方图HOG)、尺度集合和角度集合，获取第一响应，并根据得到的当前视频帧的一个或多个特征图和该第一响应，获取一个或多个第二响应，这里，第二响应反映待跟踪目标在当前视频帧中的调整的尺度角度与真实的尺度角度的接近程度，尺度和角度获取单元403可将一个或多个第二响应中符合预设条件的第二响应所对应的调整的尺度角度确定为目标在当前视频帧中的尺度和角度。

具体来讲，尺度和角度获取单元403可根据尺度集合中的尺度参数的数目(例如，前述的尺度集合的大小n)和角度集合中的角度参数的数目(例如，前述的角度集合的大小m)，分别获取尺度高斯响应和角度高斯响应，这里，尺度高斯响应，例如，但不限于，可被表示为G₁＝{g₁,g₂,…,g_n}，其中，

δ₂为大于0的高斯参数，1≤j≤m，这里，δ₁和δ₂可根据实际的目标跟踪场景设置，本公开对此不作限制。另外，尺度和角度获取单元403可获取当前视频帧的前两个视频帧的特征图，在一些实施例中，当前视频帧的前两个视频帧的特征图包括在当前视频帧之前的第一个视频帧的第一特征图和第二特征图以及在当前视频帧之前的第二个视频帧的第三特征图，这里，第一特征图和第二特征图的区别在于在获取第一特征图和第二特征图的过程中，待跟踪目标的尺度和角度可能不同。具体来讲，为描述的清晰性，假设在当前视频帧之前的第一个视频帧为视频帧A，在当前视频帧之前的第二个视频帧为视频帧B，则在获取第一特征图的过程中，待跟踪目标在视频帧A中的尺度和角度与在视频帧B中的尺度和角度分别相同，在获取第二特征图的过程中，待跟踪目标在视频帧A中的尺度和角度为在视频帧A中的实际尺度和实际角度，在获取第三特征图的过程中，待跟踪目标在视频帧B中的尺度和角度为在视频帧B中的实际尺度和实际角度。

尺度和角度获取单元403可基于尺度高斯响应、角度高斯响应和当前视频帧的前两个视频帧的特征图，获取第一响应。具体来讲，尺度和角度获取单元403可对尺度高斯响应、角度高斯响应、第一特征图、第二特征图和第三特征图做快速傅立叶变换，得到频率域的尺度高斯响应、角度高斯响应、第一特征图、第二特征图和第三特征图，然后，可将频率域的尺度高斯响应和频率域的角度高斯响应相关联(例如，将频率域的尺度高斯响应和频率域的角度高斯响应相乘等)，得到频率域的尺度角度综合高斯响应，基于频率域的第一特征图、第二特征图和第三特征图以及频率域的尺度角度综合高斯响应，获取第一响应。在一些实施例中，尺度和角度获取单元403可将频率域的第二特征图、频率域的第三特征图分别与频率域的尺度角度综合高斯响应相关联(例如，将频率域的第二特征图、频率域的第三特征图分别与频率域的尺度角度综合高斯响应相乘等)，得到频率域的目标第二特征图和频率域的目标第三特征图，这里，频率域的目标第二特征图和频率域的目标第三特征图分别携带了尺度角度信息(即，携带了与前述的尺度集合相关的尺度信息和与前述的角度集合相关的角度信息)。可根据频率域的目标第二特征图和频率域的目标第三特征图以及频率域的第一特征图，得到第一响应。在一个实施例中，尺度和角度获取单元403可首先对频率域的目标第二特征图和频率域的目标第三特征图分别叠加不同的权重，将叠加了不同权重的频率域的目标第二特征图和频率域的第三特征图相加之后与频率域的第一特征图相除，得到该第一响应。

根据本公开的示例性实施例，尺度和角度获取单元403可对与当前视频帧相关的一个或多个特征图进行快速傅立叶变换，得到频率域的一个或多个特征图，根据频率域的一个或多个特征图、第一响应(例如，将每个特征图与第一响应相乘)，得到一个或多个第二响应。

根据本公开的示例性实施例，目标跟踪装置400还可包括第一响应更新单元404(图4中未示出)，第一响应更新单元404可在将一个或多个第二响应中符合预设条件的第二响应所对应的调整的尺度角度确定为目标在当前视频帧中的尺度和角度之后，根据当前视频帧的特征图以及当前视频帧的前一个视频帧的特征图更新第一响应，以用于确定待跟踪目标在下一个视频帧中的目标的尺度和大小。

图5是根据本公开的示例性实施例的电子设备500的框图。

参照图5，电子设备500包括至少一个存储器501和至少一个处理器502，所述至少一个存储器501中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器502执行时，执行根据本公开的示例性实施例的目标跟踪方法。

作为示例，电子设备500可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备500并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备500还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备500中，处理器502可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器502可运行存储在存储器501中的指令或代码，其中，存储器501还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器501可与处理器502集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器501可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器501和处理器502可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器502能够读取存储在存储器中的文件。

此外，电子设备500还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备500的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的目标跟踪方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的目标跟踪方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获取视频序列中待跟踪目标的尺度集合和角度集合，所述尺度集合包括一个或多个衡量所述待跟踪目标的尺度变化程度的尺度参数，所述角度集合包括一个或多个衡量所述待跟踪目标的角度变化程度的角度参数；

根据所述尺度集合和所述角度集合所确定出的一个或多个尺度角度参数组合，对当前视频帧提取特征，得到不同尺度角度参数组合下的所述当前视频帧的一个或多个特征图；

根据所述一个或多个特征图、在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获得所述待跟踪目标在所述当前视频帧中的尺度和角度。

2.如权利要求1所述的目标跟踪方法，其特征在于，所述根据所述尺度集合和所述角度集合所确定出的一个或多个尺度角度参数组合，对当前视频帧提取特征，得到不同尺度角度参数组合下的所述当前视频帧的一个或多个特征图，包括：

根据所述一个或多个尺度角度参数组合中的每个尺度角度参数组合对所述待跟踪目标在所述当前视频帧的前一个视频帧中的尺度角度进行调整，得到一个或多个所述待跟踪目标在所述当前视频帧中的调整的尺度角度；

对包括调整了尺度角度的待跟踪目标的当前视频帧进行特征提取，得到所述一个或多个特征图。

3.如权利要求2所述的目标跟踪方法，其特征在于，所述根据所述一个或多个特征图、在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获得所述待跟踪目标在所述当前视频帧中的尺度和角度，包括：

根据在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获取第一响应；

根据所述一个或多个特征图和所述第一响应，获取一个或多个第二响应，每个所述第二响应反映所述待跟踪目标在所述当前视频帧中的所述调整的尺度角度与真实的尺度角度的接近程度；

将所述一个或多个第二响应中符合预设条件的第二响应所对应的调整的尺度角度确定为所述待跟踪目标在所述当前视频帧中的尺度和角度。

4.如权利要求3所述的目标跟踪方法，其特征在于，所述根据在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获取第一响应，包括：

根据所述尺度集合中的尺度参数的数目和所述角度集合中的角度参数的数目，分别获取尺度高斯响应和角度高斯响应；

基于所述尺度高斯响应、所述角度高斯响应和所述当前视频帧的前两个视频帧的特征图，获取所述第一响应。

5.如权利要求4所述的目标跟踪方法，其特征在于，所述当前视频帧的前两个视频帧的特征图包括在所述当前视频帧之前的第一个视频帧的第一特征图和第二特征图以及在所述当前视频帧之前的第二个视频帧的第三特征图；

所述基于所述尺度高斯响应、所述角度高斯响应和所述当前视频帧的前两个视频帧的特征图，获取所述第一响应，包括：

对所述尺度高斯响应、所述角度高斯响应、所述第一特征图、所述第二特征图和所述第三特征图做快速傅立叶变换，得到频率域的尺度高斯响应、角度高斯响应、第一特征图、第二特征图和第三特征图；

将所述频率域的尺度高斯响应和所述频率域的角度高斯响应相关联，得到频率域的尺度角度综合高斯响应；

基于所述频率域的第一特征图、第二特征图、第三特征图以及尺度角度综合高斯响应，获取所述第一响应。

6.如权利要求5所述的目标跟踪方法，其特征在于，所述基于所述频率域的第一特征图、第二特征图和第三特征图以及尺度角度综合高斯响应，获取所述第一响应，包括：

将所述频率域的第二特征图、所述频率域的第三特征图分别与频率域的尺度角度综合高斯响应相关联，得到频率域的目标第二特征图和频率域的目标第三特征图，其中，所述频率域的目标第二特征图和所述频率域的目标第三特征图分别携带尺度角度信息；

根据所述频率域的目标第二特征图、所述频率域的目标第三特征图以及所述频率域的第一特征图，得到所述第一响应。

7.一种目标跟踪装置，其特征在于，包括：

集合获取单元，被配置为：获取视频序列中待跟踪目标的尺度集合和角度集合，所述尺度集合包括一个或多个衡量所述待跟踪目标的尺度变化程度的尺度参数，所述角度集合包括一个或多个衡量所述待跟踪目标的角度变化程度的角度参数；

特征提取单元，被配置为：根据所述尺度集合和所述角度集合所确定出的一个或多个尺度角度参数组合，对当前视频帧提取特征，得到不同尺度角度参数组合下的所述当前视频帧的一个或多个特征图；

尺度和角度获取单元，被配置为：根据所述一个或多个特征图、在所述当前视频帧之前的预设数目个视频帧的特征图、所述尺度集合和所述角度集合，获得所述待跟踪目标在所述当前视频帧中的尺度和角度。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至6中的任一权利要求所述的目标跟踪方法。

9.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至6中的任一权利要求所述的目标跟踪方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1至6中的任一权利要求所述的目标跟踪方法。