CN113628250A

CN113628250A - 目标跟踪方法、装置、电子设备以及可读存储介质

Info

Publication number: CN113628250A
Application number: CN202110996464.2A
Authority: CN
Inventors: 罗伯特·罗恩思; 赵磊; 马原
Original assignee: Beijing Pengsi Technology Co ltd
Current assignee: Beijing Pengsi Technology Co ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-09

Abstract

本公开实施例公开了一种目标跟踪方法、装置、电子设备以及可读存储介质。该目标跟踪方法包括：获取上一帧的目标边界框；将上一帧的目标边界框的尺寸放大以生成搜索区域；将当前帧在搜索区域内的图像数据缩放到预定尺寸；将缩放后的图像数据输入目标跟踪网络，以便从多个候选锚点框中确定目标锚点框，并获取目标锚点框的位置偏移量和尺寸调整信息；基于位置偏移量和尺寸调整信息调整目标锚点框，以便从搜索区域中确定目标区域；基于搜索区域以及目标区域在搜索区域中的位置，确定目标在当前帧中的位置，表示为当前帧的目标边界框，从而减小了跳帧处理下目标在图像上的变化对目标跟踪效果的影响，提高了目标跟踪的正确性。

Description

目标跟踪方法、装置、电子设备以及可读存储介质

技术领域

本公开涉及视频技术领域，具体涉及一种目标跟踪方法、装置、电子设备以及可读存储介质。

背景技术

目标跟踪是计算机视觉研究领域的热点之一，并得到广泛应用。相机的跟踪对焦、无人机的自动目标跟踪等都需要用到了目标跟踪技术。另外还有特定物体的跟踪，比如人体跟踪，交通监控***中的车辆跟踪，人脸跟踪和智能交互***中的手势跟踪等。简单来说，目标跟踪就是在连续的视频序列中，建立所要跟踪物体的位置关系，得到物体完整的运动轨迹。给定图像第一帧的目标坐标位置，计算在下一帧图像中目标的确切位置。

跳帧是指按一定间隔从视频中抽取部分视频帧进行处理。本发明人发现，在运动的过程中，目标可能会呈现一些图像上的变化，比如姿态、形状或尺度的变化，尤其是在跳帧的情况下，这种变化对目标跟踪的效果产生严重的影响。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种目标跟踪方法、装置、电子设备以及可读存储介质。

第一方面，本公开实施例中提供了一种目标跟踪方法。

具体地，所述目标跟踪方法包括：

获取上一帧的目标边界框；

将所述上一帧的目标边界框的尺寸放大以生成搜索区域；

将当前帧在所述搜索区域内的图像数据缩放到预定尺寸；

将缩放后的图像数据输入目标跟踪网络，以便从多个候选锚点框中确定目标锚点框，并获取所述目标锚点框的位置偏移量和尺寸调整信息；

基于所述位置偏移量和尺寸调整信息调整所述目标锚点框，以便从所述搜索区域中确定目标区域；

基于所述搜索区域以及所述目标区域在搜索区域中的位置，确定目标在所述当前帧中的位置，表示为所述当前帧的目标边界框。

结合第一方面，本公开在第一方面的第一种实现方式中，所述将缩放后的图像数据输入目标跟踪网络，以便从多个候选锚点框中确定目标锚点框，并获取所述目标锚点框的位置偏移量和尺寸调整信息包括：

将缩放后的图像数据输入目标跟踪网络，以获取目标置信度、位置偏移量和尺寸调整信息；

基于所述目标置信度，从多个候选锚点框中确定目标锚点框。

结合第一方面的第一种实现方式，本公开在第一方面的第二种实现方式中，所述目标跟踪网络包括五个串联的卷积层，在第一个卷积层和第二个卷积层后分别设置有池化层，最后一个卷积层包括六个通道，

其中，所述六个通道中的两个通道用于输出所述目标置信度，所述六个通道中的另外四个通道用于输出所述位置偏移量和尺寸调整信息，

其中，所述第一个卷积层的输入尺寸与所述预定尺寸一致，所述最后一个卷积的输出尺寸与所述候选锚点框的数量相匹配。

结合第一方面的第一种实现方式，本公开在第一方面的第三种实现方式中，所述目标置信度包括每个候选锚点框为目标锚点框的第一概率和非目标锚点框的第二概率，所述基于所述目标置信度，从多个候选锚点框中确定目标锚点框包括：

确定每个所述候选锚点框的所述第一概率和第二概率的差值；

基于所述差值，从所述多个候选锚点框中确定目标锚点框。

结合第一方面、第一方面的第一种至第三种实现方式中的任一项，本公开在第一方面的第四种实现方式中，所述缩放后的图像数据的大小为k×k，所述候选锚点框的数量为n×n，大小为m×m，步长为s，满足k＝m+(n-1)×s，其中，k、m、n、s为整数，且k∈[48,96]，n∈[7,19]，m∈[12,48]，s∈[4,12]。

结合第一方面、第一方面的第一种至第三种实现方式中的任一项，本公开在第一方面的第五种实现方式中，其中，所述搜索区域的尺寸为所述上一帧的目标边界框的尺寸的1-10倍，优选1-5倍，进一步优选1-3倍，最优选例如3倍，所述目标跟踪方法用于通过头部区域跟踪人体。

结合第一方面、第一方面的第一种至第三种实现方式中的任一项，本公开在第一方面的第六种实现方式中，其中，所述基于所述位置偏移量和尺寸调整信息调整所述目标锚点框，以便从所述搜索区域中确定目标区域包括：

确定位置偏移量(xp,yp)和尺寸调整信息(wp,hp)，其中，xp为水平偏移量，yp为竖直偏移量，wp为宽度调整信息，hp为高度调整信息；

确定目标锚点框的位置(cx,cy,wa,ha)，其中，cx、cy、wa、ha分别为目标锚点框在搜索区域中的水平位置坐标、竖直位置坐标、宽度和高度；

确定目标区域在搜索区域中的位置(x,y,w,h)，x、y、w、h分别为目标区域在搜索区域中的水平位置坐标、竖直位置坐标、宽度和高度，其中：

x＝xp+cx；

y＝yp+cy；

w＝wa×e^wp；

h＝ha×e^hp，e为自然常数。

第二方面，本公开实施例中提供了一种目标跟踪装置。

具体地，所述目标跟踪装置包括：

获取模块，被配置为获取上一帧的目标边界框；

放大模块，被配置为将所述上一帧的目标边界框的尺寸放大以生成搜索区域；

缩放模块，被配置为将当前帧在所述搜索区域内的图像数据缩放到预定尺寸；

预测模块，被配置为将缩放后的图像数据输入目标跟踪网络，以便从多个候选锚点框中确定目标锚点框，并获取所述目标锚点框的位置偏移量和尺寸调整信息；

调整模块，被配置为基于所述位置偏移量和尺寸调整信息调整所述目标锚点框，以便从所述搜索区域中确定目标区域；

确定模块，被配置为基于所述搜索区域以及所述目标区域在搜索区域中的位置，确定目标在所述当前帧中的位置，表示为所述当前帧的目标边界框。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种到第六种实现方式中任一项所述的方法。

第四方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面、第一方面的第一种到第六种实现方式中任一项所述的方法。

根据本公开实施例提供的技术方案，通过获取上一帧的目标边界框；将所述上一帧的目标边界框的尺寸放大以生成搜索区域；将当前帧在所述搜索区域内的图像数据缩放到预定尺寸；将缩放后的图像数据输入目标跟踪网络，以便从多个候选锚点框中确定目标锚点框，并获取所述目标锚点框的位置偏移量和尺寸调整信息；基于所述位置偏移量和尺寸调整信息调整所述目标锚点框，以便从所述搜索区域中确定目标区域；基于所述搜索区域以及所述目标区域在搜索区域中的位置，确定目标在所述当前帧中的位置，表示为所述当前帧的目标边界框，从而减小了跳帧处理下目标在图像上的变化对目标跟踪效果的影响，提高了目标跟踪的正确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开实施例的目标跟踪方法的流程图；

图2示出根据本公开实施例的上一帧的目标边界框和搜索区域的示意图；

图3示出根据本公开实施例的锚点和锚点框的示意图；

图4示出根据本公开实施例的目标跟踪网络的结构示意图；

图5示出根据本公开实施例的目标跟踪装置的框图；

图6示出根据本公开实施例的电子设备的框图；

图7示出根据本公开实施例的适于实现目标跟踪方法的计算机***的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出根据本公开实施例的目标跟踪方法的流程图。

如图1所示，该方法包括操作S110～S160。

在操作S110，获取上一帧的目标边界框。

在操作S120，将所述上一帧的目标边界框的尺寸放大以生成搜索区域。

在操作S130，将当前帧在所述搜索区域内的图像数据缩放到预定尺寸。

在操作S140，将缩放后的图像数据输入目标跟踪网络，以便从多个候选锚点框中确定目标锚点框，并获取所述目标锚点框的位置偏移量和尺寸调整信息。

在操作S150，基于所述位置偏移量和尺寸调整信息调整所述目标锚点框，以便从所述搜索区域中确定目标区域。

在操作S160，基于所述搜索区域以及所述目标区域在搜索区域中的位置，确定目标在所述当前帧中的位置，表示为所述当前帧的目标边界框。

根据本公开实施例，本公开实施例的目标跟踪方法可以用于通过头部区域跟踪人体。选择头部区域作为人体跟踪目标，其优势在于：

(1)相对于身体区域，头部区域具有更容易分辨的表现特征；

(2)头部区域相对于身体区域可以使用更小的网络输入尺寸。将头部区域缩小到24×24像素可以保留大部分头部信息，将身体区域缩小到24×24像素几乎完全丢失了身体特征信息；

(3)头部区域相对于身体区域更不容易遮挡。如果头部被遮挡，身体区域通常也会被遮挡，相反，如果身体区域被遮挡，头部不一定会被遮挡；

(4)相对于人脸跟踪，头部跟踪可以解决目标背向相机时无法检测到人脸的问题，头部跟踪可以检测到任意方向的目标。

然而，本公开实施例提供的目标跟踪方法仍然是一种通用的目标跟踪方法，并不局限于人体跟踪，同样适用于人脸跟踪，头部跟踪，车辆跟踪等等。

图2示出根据本公开实施例的上一帧的目标边界框和搜索区域的示意图。

如图2所示，上一帧图像21中确定的目标边界框22表示目标位于目标边界框22的区域内，其大小与目标大小基本匹配。目标边界框22通常为矩形区域，其中心为O点。

根据本公开实施例，可以保持中心为O点不变，将所述上一帧的目标边界框的尺寸放大以生成搜索区域23。搜索区域的尺寸可以为所述上一帧的目标边界框的尺寸的1-10倍，以便从当前帧中确定一个小范围的搜索区域，对于当前帧的处理仅在搜索区域进行，以减少计算量。

根据本公开实施例，搜索区域与上一帧的目标边界框的尺寸之间的倍数的确定需要考虑目标的运动速度和背景区域内当前目标和其他目标的竞争问题。扩大范围小，目标运动快速，会超出搜索范围；搜索范围大，会和搜索区域内其他目标产生竞争。搜索区域与上一帧的目标边界框的尺寸之间的倍数需要根据实际应用场景决定。本公开实施例优选1-5倍，进一步优选1-3倍，最优选例如3倍。在具体取值方面，为了避免出现非整数的像素的情况，根据其他参数的设定，也可以考虑约束为1+(1/6)*n倍，其中n为正整数。

根据本公开实施例，将当前帧在所述搜索区域内的图像数据缩放到预定尺寸，这样，任意大小的搜索区域都可以统一为相同尺寸，从而可以通过标准化的处理方式对该搜索区域的内容进行处理。

根据本公开实施例，缩放后的图像数据的大小为k×k，候选锚点框的数量为n×n，大小为m×m，步长为s，满足k＝m+(n-1)×s，其中，k、m、n、s为整数。数值的取值范围例如可以是k∈[48,96]，n∈[7,19]，m∈[12,48]，s∈[4,12]。

图3示出根据本公开实施例的锚点和锚点框的示意图。

在如图3所示意的实施例中，k＝72，n＝13，m＝24，s＝4。缩放后的图像如虚线框所示，虚线框内部的点为锚点，实线框示意出了中心锚点的锚点框。如图3所示，锚点的数量为13×13，步长为4，锚点框的大小为24×24，这些锚点框完全覆盖了缩放后的72×72的搜索区域，最边缘的锚点距离搜索区域边界的距离为12，即锚点框边长的一半。

根据本公开实施例，目标跟踪网络可以直接输出目标锚点框，也可以输出间接的信息以便确定目标锚点框。

根据本公开实施例，所述将缩放后的图像数据输入目标跟踪网络，以便从多个候选锚点框中确定目标锚点框，并获取所述目标锚点框的位置偏移量和尺寸调整信息包括：

根据本公开实施例，目标置信度可用于衡量候选锚点框成为目标锚点框的概率，例如可以选取目标置信度最大的候选锚点框作为目标锚点框。

根据本公开实施例，所述目标置信度包括每个候选锚点框为目标锚点框的第一概率和非目标锚点框的第二概率，所述基于所述目标置信度，从多个候选锚点框中确定目标锚点框包括：

基于所述差值，从所述多个候选锚点框中确定目标锚点框。

根据通常理解，第一概率和第二概率之和应当为1，但由于第一概率和第二概率分别独立生成，二者之间并无约束关系，因此可能出现第一概率和第二概率之和大于1或小于1的情况。例如第一概率为0.2，第二概率为0.1，在这种情况下，直接使用第一概率得到预测框为正样本的概率很小的结论是错误的。

本公开实施例通过加减运算的阈值衡量预测框是否满足预设条件。例如，设定第一概率和第二概率的差值的阈值为0.3，对于第一概率为0.2，第二概率为0.1的情况，二者的差值为0.1，不大于0.3，不满足条件，对于第一概率为0.5，第二概率为0.1的情况，二者的差值为0.4，大于0.3，满足条件。通过这种方式，极大地降低了运算量，提高目标锚点框的选择效率。

根据本公开实施例，位置偏移量和尺寸调整信息是用于修正目标锚点框以确定目标区域的信息。在根据目标置信度从候选锚点框中选出目标锚点框后，可以通过位置偏移量调节目标锚点框的位置，通过尺寸调整信息调节目标锚点框的尺寸，调节后的目标锚点框所覆盖的区域即为所述搜索区域中确定的目标区域。

根据本公开实施例，所述基于所述位置偏移量和尺寸调整信息调整所述目标锚点框，以便从所述搜索区域中确定目标区域包括：

x＝xp+cx；

y＝yp+cy；

w＝wa×e^wp；

h＝ha×e^hp，e为自然常数。

根据本公开实施例，确定目标区域后，基于所述搜索区域以及所述目标区域在搜索区域中的位置，确定目标在所述当前帧中的位置。

例如，当前帧的尺寸为w₀×h₀，以左上角为原点，向右和向下的方向为x轴和y轴的方向建立第一坐标系。搜索区域可以表示为(x₁,y₁,w₁,h₁)，即搜索区域的左上顶点的在第一坐标系中的坐标为(x₁,y₁)，宽为w₁，高为h₁。由于搜索区域是经过缩放到特定尺寸后的结果，缩放倍数为(m,n)(水平方向上缩小m倍，竖直方向上缩小n倍)，缩放后的大小固定为w₂×h₂，以搜索区域为基础可以建立第二坐标系，该第二坐标系可以搜索区域的左上角为原点，向右和向下的方向为x轴和y轴的方向。目标区域在搜索区域中的位置可以表示为(x₃,y₃,w₃,h₃)。

如此，可以基于所述搜索区域以及所述目标区域在搜索区域中的位置，确定目标在所述当前帧中的位置(x₄,y₄,w₄,h₄)为：

x₄＝x₁+m×x₃；

y₄＝y₁+n×y₃；

w₄＝m×w₃

h₄＝n×h₃。

例如，当前帧的尺寸为1920×1280，以左上角为原点，向右和向下的方向为x轴和y轴的方向建立第一坐标系。搜索区域例如可以表示为(300,300,288,288)。由于缩放后的搜索区域的大小例如为72×72，以缩放后的搜索区域为基础可以建立第二坐标系，该第二坐标系可以缩放后的搜索区域的左上角为原点，向右和向下的方向为x轴和y轴的方向。目标区域在缩放后的搜索区域中的位置例如可以表示为(3,3,20,20)。于是，可以基于所述搜索区域以及所述目标区域在搜索区域中的位置，确定目标在所述当前帧中的位置为(312,312,80,80)。

根据本公开实施例，该目标在当前帧中的位置定义为当前帧的目标边界框，以供下一帧处理时使用。

下面将结合图4介绍本公开实施例的目标跟踪网络。

图4示出根据本公开实施例的目标跟踪网络的结构示意图。

如图4所示，该目标跟踪网络可以包括五个串联的卷积层。其中，在第一个卷积层和第二个卷积层后可以分别设置有池化层。最后一个卷积层可以包括六个通道。卷积层和池化层的含义可按照本领域的通常理解进行解释。卷积层可以是普通卷积层，激活函数选用ReLu函数。池化层例如可以采用最大池化层。

根据本公开实施例，六个通道中的两个通道用于输出所述目标置信度，即每个候选锚点框为目标锚点框的第一概率和为非目标锚点框的第二概率。六个通道中的另外四个通道用于输出所述位置偏移量和尺寸调整信息，即上文所述的xp、yp、wp和hp。

根据本公开实施例，所述第一个卷积层的输入尺寸与所述预定尺寸一致，所述最后一个卷积的输出尺寸与所述候选锚点框的数量相匹配。

例如，在本公开的实施例中，预定尺寸为72×72，候选锚点框的数量为13×13，具体参数见表1。其中，S1表示步长为1，S2表示步长为2。

表1

类型/步长	卷积核尺寸	输入尺寸(命名)
			卷积/S1	3×3×3×32	72×72×3
池化/S2	2×2	70×70×32
			卷积/S1	2×2×32×48	35×35×32
池化/S2	2×2	34×34×48
			卷积/S1	3×3×48×64	17×17×48
卷积/S1	3×3×64×128	15×15×64
			卷积/S1	1×1×128×6	13×13×128

如表1所示，最终的输出为13×13×6，13×13个锚点框中的每一个锚点框预测六个值，分别为第一概率、第二概率、xp、yp、wp和hp。

通过以上设置，目标跟踪网络可以一次性计算输出13×13的位置的目标搜索结果。由于不同的神经网络推理框架填充模式有区别，当填充的行数或列数不为整数时，有的神经网络推理框架填充方式为向上取整，有的神经网络推理框架为向下取整。本公开实施例使用72×72像素的网络输入尺寸。该网络结构每一层的特征图输出大小都是整数，模型可以方便地在不同的深度学习推理框架之间迁移。

本公开实施例提供的目标跟踪方法，通过上一帧中的目标的位置和目标大小，可以在当前帧的对应位置扩大搜索区域进行目标搜索，解决了现有基于相关性跟踪方法(例如:KCF)对跳帧和目标形状变化敏感，以及只能跟踪目标位置，无法跟踪到目标大小变化的问题，在检测跳帧(例如：每十帧做一次检测)和跟踪跳帧(例如：每两帧做一次跟踪)的情况下都能够较好地完成目标跟踪，也能够适应目标发生一定程度的大小或形状变化的情况。

由于搜索区域是根据上一帧目标的位置和大小确定，目标在搜索区域中所占比例提前已知，通过将搜索区域缩放为预定尺寸，跟踪问题可以转化为单一尺度的目标检测问题。相比多尺度目标检测任务，单尺度的目标检测任务可以大大降低模型复杂度，从而至少部分地缓解了现有的全尺度目标检测算法计算量大，无法满足资源受限情况下做实时目标检测的问题。本公开实施例的方法所需资源较少，可以在用户终端处实现。

图5示出根据本公开实施例的目标跟踪装置500的框图。其中，该装置500可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图5所示，所述目标跟踪装置500包括获取模块510、放大模块520、缩放模块530、预测模块540、调整模块550以及确定模块560。

获取模块510，被配置为获取上一帧的目标边界框；

放大模块520，被配置为将所述上一帧的目标边界框的尺寸放大以生成搜索区域；

缩放模块530，被配置为将当前帧在所述搜索区域内的图像数据缩放到预定尺寸；

预测模块540，被配置为将缩放后的图像数据输入目标跟踪网络，以便从多个候选锚点框中确定目标锚点框，并获取所述目标锚点框的位置偏移量和尺寸调整信息；

调整模块550，被配置为基于所述位置偏移量和尺寸调整信息调整所述目标锚点框，以便从所述搜索区域中确定目标区域；

确定模块560，被配置为基于所述搜索区域以及所述目标区域在搜索区域中的位置，确定目标在所述当前帧中的位置，表示为所述当前帧的目标边界框。

根据本公开实施例，所述目标跟踪网络包括五个串联的卷积层，在第一个卷积层和第二个卷积层后分别设置有池化层，最后一个卷积层包括六个通道。

根据本公开实施例，所述六个通道中的两个通道用于输出所述目标置信度，所述六个通道中的另外四个通道用于输出所述位置偏移量和尺寸调整信息。

基于所述差值，从所述多个候选锚点框中确定目标锚点框。

根据本公开实施例，所述缩放后的图像数据的大小为k×k，所述候选锚点框的数量为n×n，大小为m×m，步长为s，满足k＝m+(n-1)×s，其中，k、m、n、s为整数，且k∈[48,96]，n∈[7,19]，m∈[12,48]，s∈[4,12]。

根据本公开实施例，所述搜索区域的尺寸为所述上一帧的目标边界框的尺寸的1-10倍，优选1-5倍，进一步优选1-3倍，最优选例如3倍，所述目标跟踪方法用于通过头部区域跟踪人体。

x＝xp+cx；

y＝yp+cy；

w＝wa×e^wp；

h＝ha×e^hp，e为自然常数。

本公开还公开了一种电子设备，图6示出根据本公开的实施例的电子设备的结构框图。

如图6所示，所述电子设备600包括存储器601和处理器602，其中，所述存储器601用于存储支持电子设备执行上述任一实施例中的目标跟踪方法或代码生成方法的程序，所述处理器602被配置为用于执行所述存储器601中存储的程序。

根据本公开实施例，所述存储器601用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器602执行以实现如上文任一实施例所描述的目标跟踪方法。

如图7所示，计算机***700包括处理单元701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述实施例中的各种处理。在RAM 703中，还存储有***700操作所需的各种程序和数据。处理单元701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。其中，所述处理单元701可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机***中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种目标跟踪方法，包括：

获取上一帧的目标边界框；

将所述上一帧的目标边界框的尺寸放大以生成搜索区域；

将当前帧在所述搜索区域内的图像数据缩放到预定尺寸；

2.根据权利要求1所述的方法，其中，所述将缩放后的图像数据输入目标跟踪网络，以便从多个候选锚点框中确定目标锚点框，并获取所述目标锚点框的位置偏移量和尺寸调整信息包括：

3.根据权利要求2所述的方法，其中，所述目标跟踪网络包括五个串联的卷积层，在第一个卷积层和第二个卷积层后分别设置有池化层，最后一个卷积层包括六个通道，

4.根据权利要求2所述的方法，其中，所述目标置信度包括每个候选锚点框为目标锚点框的第一概率和非目标锚点框的第二概率，所述基于所述目标置信度，从多个候选锚点框中确定目标锚点框包括：

基于所述差值，从所述多个候选锚点框中确定目标锚点框。

5.根据权利要求1～4任一项所述的方法，其中，所述缩放后的图像数据的大小为k×k，所述候选锚点框的数量为n×n，大小为m×m，步长为s，满足k＝m+(n-1)×s，其中，k、m、n、s为整数，且k∈[48,96]，n∈[7,19]，m∈[12,48]，s∈[4,12]。

6.根据权利要求1～4任一项所述的方法，其中，所述搜索区域的尺寸为所述上一帧的目标边界框的尺寸的1-10倍，所述目标跟踪方法用于通过头部区域跟踪人体。

7.根据权利要求1～4任一项所述的方法，其中，所述基于所述位置偏移量和尺寸调整信息调整所述目标锚点框，以便从所述搜索区域中确定目标区域包括：

x＝xp+cx；

y＝yp+cy；

w＝wa×e^wp；

h＝ha×e^hp，e为自然常数。

8.一种目标跟踪装置，包括：

获取模块，被配置为获取上一帧的目标边界框；

9.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1～7任一项所述方法的步骤。

10.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1～7任一项所述方法的步骤。