CN111127516A

CN111127516A - 无搜索框的目标检测和跟踪方法及***

Info

Publication number: CN111127516A
Application number: CN201911316969.9A
Authority: CN
Inventors: 张笑枫; 江頔; 赵琛; 韩坪良; 王维
Original assignee: Suzhou Zhijia Technology Co Ltd
Current assignee: Suzhou Zhijia Technology Co Ltd; PlusAI Corp
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-08

Abstract

本发明实施例涉及一种无搜索框的目标检测和跟踪方法和***，该方法包括：采集包含目标的帧图像；提取帧图像的特征以获得帧图像所对应的特征图并输出帧图像的检测结果；融合帧图像的特征图和帧图像的前置帧图像的特征图，以获得帧图像和前置帧图像之间的关系特征；对帧图像的特征图、所述前置帧图像的特征图及关系特征对应的特征图进行堆叠处理，以获得跟踪特征；根据跟踪特征获取前置帧图像中的目标在帧图像中存在的概率、目标中心点的位移值以及目标的尺寸变化数值以跟踪目标在帧图像中的位置。本发明简化了目标跟踪的步骤，可以在检测目标的同时输出跟踪结果，而且，本发明可在无搜索框检测网络的结构上直接使用。

Description

无搜索框的目标检测和跟踪方法及***

技术领域

本发明属于目标检测技术领域,具体涉及一种无搜索框的目标检测和跟踪方法及***。

背景技术

感知***是无人驾驶***中非常重要的一个子***，用于对道路上的其他车辆进行识别跟踪并且可以作为规划***的预测输入。

视觉目标识别***为感知***里不可或缺的一部分，视觉识别***用于识别出道路上的目标，例如：小汽车、卡车、摩托车、行人、自行车等；视觉目标跟踪***则用于将目标物体的前后帧进行串联，从而使物体在前后帧图像中的物体id(Identity document)序号一致。

一般而言，视觉目标识别和跟踪方法包括以下步骤：首先，对图像进行目标识别；然后，对每个识别出的目标进行跟踪处理。现有技术中常用的目标识别方法有YOLO(YouOnly Look Once)方法等，视觉目标跟踪方法一般采用识别框关联(Association)方法来提供视觉目标跟踪轨迹。

目前，视觉目标识别与跟踪方法多采用Detect to Track and Track to Detect(检测和跟踪)框架，参见图1，该框架是一种基于搜索框的方法；首先，利用卷积神经网络提取帧序列中的图像特征；然后，对当前帧和当前帧所对应的前置帧的图像特征进行相关处理以获得相关特征；最后，基于搜索框将当前帧和当前帧所对应的前置帧的图像特征与相关特征输入到ROI Pooling(感兴趣区域池化层)中，从而获得当前帧和当前帧所对应的前置帧的识别结果与跟踪结果。

然而，上述方法是基于搜索框的视觉目标识别与跟踪方法，需要利用搜索框才能获得识别和跟踪结果，因此跟踪步骤较为繁琐，无法适用于无检索框的图像上。

发明内容

本发明实施例提供一种无搜索框的目标检测和跟踪方法及***，以解决现有技术中提到的技术问题。

第一方面，本发明实施例提供一种无搜索框的目标检测和跟踪方法，所述方法包括以下步骤：

采集步骤：采集包含目标的帧图像；

检测步骤：提取所述帧图像的特征以获得帧图像所对应的特征图并输出帧图像的检测结果；其中，所述检测结果包括目标中心点的位置、目标的类别和目标的尺寸；

融合步骤：融合所述帧图像的特征图和所述帧图像的前置帧图像的特征图，以获得所述帧图像和前置帧图像之间的关系特征；

堆叠步骤：对帧图像的特征图、所述前置帧图像的特征图及关系特征对应的特征图进行堆叠处理，以获得跟踪特征；

获取步骤：根据所述跟踪特征获取前置帧图像中的目标在帧图像中存在的概率、目标中心点的位移值以及目标的尺寸变化数值；

跟踪步骤：根据所述前置帧图像中的目标在帧图像中存在的概率、目标的中心点的位移值以及目标的尺寸变化数值跟踪目标在帧图像中的位置。

进一步的，所述检测步骤还包括：根据目标中心点的位置、目标的类别和目标的尺寸获得目标在前置帧图像中的检测框。

进一步的，所述跟踪步骤包括以下子步骤：

以目标在前置帧图像中的检测框为基准，获得目标在帧图像中的预测框；

计算所述预测框与前置帧图像中的所有检测框重叠的交并比，选取获得最大的交并比所对应的检测框，若所述交并比大于预设的阈值时，则确定所述预测框与所述检测框中的目标相同；

基于前置帧图像中的目标在帧图像中存在的概率、目标中心点的位移值以及目标的尺寸变化数值，在帧图像对目标进行跟踪。

进一步的，利用卷积层并基于所述跟踪特征获取前置帧图像中的目标在帧图像中存在的概率、目标中心点的位移值以及目标的尺寸变化数值。进一步的，所述检测步骤和堆叠步骤是利用深度神经网络实现的。

进一步的，所述检测结果是利用CenterNet框架获得的。

进一步的，还包括：

将第N帧图像的特征图X^t+τ(i+p,j+q)和第N-1帧图像的特征图X^t(i,j)输入相关联层,通过以下公式获得第N帧图像和第N-1帧图像之间的关系特征所对应的特征图

其中,(i,j)帧图像的像素值；(p,q)为像素的位移值；-d≤p≤d；-d≤q≤d；t为第N-1帧图像的时刻。

进一步的，所述堆叠步骤包括：

将第N帧图像的特征图X^t+τ(i+p,j+q)和第N-1帧图像的特征图X^t(i,j)进行堆叠得到第一堆叠特征图；

将第一堆叠特征图与关系特征所对应的特征图

进行堆叠获得第二堆叠特征图，基于该第二堆叠特征图获得所述跟踪特征。

第二方面，本发明实施例提供一种无搜索框的目标检测和跟踪***，所述***包括采集模块、检测模块、融合模块、堆叠模块、获取模块和跟踪模块；

所述采集模块用于采集包含目标的帧图像；

所述检测模块执行以下操作：提取所述帧图像的特征以获得帧图像所对应的特征图并输出帧图像的检测结果；其中，所述检测结果包括目标中心点的位置、目标的类别和目标的尺寸；根据目标中心点的位置、目标的类别和目标的尺寸获得目标在前置帧图像中的检测框；

所述融合模块用于融合所述帧图像的特征图和所述帧图像的前置帧图像的特征图，以获得所述帧图像和前置帧图像之间的关系特征；

所述堆叠模块用于对帧图像的特征图、所述前置帧图像的特征图及关系特征对应的特征图进行堆叠处理，以获得跟踪特征；

所述获取模块用于根据所述跟踪特征获取前置帧图像中的目标在帧图像中存在的概率、目标的中心点的位移值以及目标的尺寸变化数值；

所述跟踪模块用于根据所述前置帧图像中的目标在帧图像中存在的概率、目标中心点的位移值以及目标的尺寸变化数值跟踪目标在帧图像中的位置。

进一步的，所述跟踪模块执行以下操作：

本发明简化了目标跟踪的步骤，可以在检测目标的同时输出跟踪结果，而且，本发明可在无搜索框检测网络的结构上直接使用。

附图说明

图1为现有技术中的Detect to Track and Track to Detect的框架结构图；

图2为本发明实施例提供的一种无搜索框的目标检测和跟踪方法的流程示意图；

图3为本发明实施例提供的一种基于CenterNet框架的目标检测和跟踪的流程示意图；(请按照说明书附图说明重新提供下图3)

图4A为本发明实施例提供的目标在第N-1帧图像的示意图；

图4B为本发明实施例提供的目标在第N帧图像的示意图；

图5为本发明实施例提供的一种无搜索框的目标检测和跟踪***的结构示意图；

图6为本发明的一种电子设备的一个实施例的结构示意图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

实施例一

参见图2，图2为本发明实施例提供的一种无搜索框的目标检测和跟踪方法的流程示意图，该方法包括以下步骤：

采集步骤：采集包含目标的帧图像；

获取步骤：根据所述跟踪特征获取前置帧图像中的目标在帧图像中存在的概率、目标的中心点的位移值以及目标的尺寸变化数值；

跟踪步骤：根据所述前置帧图像中的目标在帧图像中存在的概率、目标中心点的位移值以及目标的尺寸变化数值跟踪目标在帧图像中的位置。

下面以CenterNet框架为例，来说明本发明的目标检测和跟踪方法的具体实现过程。参见图3，图3为本发明实施例提供的一种基于CenterNet框架的目标检测和跟踪的流程示意图；

采集步骤：采集包含目标的帧图像；将每个帧图像的像素的大小调整为512*512；

检测步骤：将像素大小为512*512的各个帧图像输入卷积网络中,利用该卷积网络提取所述帧图像的特征以获得帧图像所对应的特征图并输出帧图像的检测结果；其中，所述检测结果包括目标中心点的位置、目标的类别和目标的尺寸，根据目标中心点的位置、目标的类别和目标的尺寸获得目标在前置帧图像中的检测框；具体的，可以利用卷积网络(如VGG网络或者RESNET网络)来提取帧图像的特征，从而得到多个不同尺度的特征图；所述多个不同尺度的特征图的卷积核尺寸可以为：16×16×C₁、32×32×C₂、64*64*C₃或128*128*C₄，可以理解的是，不同尺度的特征图的卷积核厚度也不同。

进一步的，也可以将FPN特征金字塔网络加入到所述卷积网络中，并将像素大小为512*512的帧图像输入到加入了FPN特征金字塔网络的卷积网络中,这样也可以提取出帧图像的特征以获得各个帧图像所对应的不同尺度的特征图，这种将FPN特征金字塔网络加入到卷积网络中的方法可以提升提取帧图像的特征的效率。融合步骤：融合第N帧图像的特征图和第N-1帧图像的特征图，获得第N帧图像和第N-1帧图像之间的关系特征；

具体的，例如可以将第N帧图像的特征图X^t+τ(i+p,j+q)和第N-1帧图像的特征图X^t(i,j)输入correlation layer(相关联层)中,若第N帧图像的特征图X^t+τ(i+p,j+q)与第N-1帧图像的特征图X^t(i,j)之间距离为d，则通过以下公式获得第N帧图像和第N-1帧图像之间的关系特征所对应的特征图

堆叠步骤：利用卷积网络对第N帧图像的特征图、第N-1帧图像的特征图及关系特征对应的特征图进行堆叠处理，以获得跟踪特征；

具体的，首先，将第N帧图像的特征图X^t+τ(i+p,j+q)和第N-1帧图像的特征图X^t(i,j)进行堆叠，由于，第N帧图像的特征图与第N-1帧图像的特征图的像素为(H*W*C),那么，将第N帧图像的特征图与第N-1帧图像的特征图进行堆叠，可以得到第一堆叠特征图，该第一堆叠特征图的像素为[H*W*(2d+1)*(2d+1)]；

然后，将第一堆叠特征图与关系特征所对应的特征图

进行堆叠获得第二堆叠特征图，基于该第二堆叠特征图获得所述跟踪特征，该第二堆叠特征图的像素为：[H*W*(2d+1)*(2d+1)+2C]。

需要说明的是，在获得所述第二堆叠特征图后，对所述第二堆叠特征图可以进行优化处理，以将第二堆叠特征图中的各个特征图的像素优化为128*128；优选的，可利用上采样或逆卷积方法对第二堆叠特征图进行优化处理。

获取步骤：利用卷积层并基于跟踪特征获取第N-1帧图像中的目标在第N帧图像中存在的概率、目标的中心点的位移值以及目标的尺寸变化数值；

进一步的，第N-1帧与第N帧分类热图可作为mask(掩膜图像)，以对所述关系特征进行处理。

跟踪步骤：根据所述第N-1帧图像中的目标在第N帧图像中存在的概率、目标中心点的位移值以及目标的尺寸变化数值跟踪目标在第N帧图像中的位置。

具体的，所述跟踪步骤包括以下子步骤：

以目标在第N-1帧图像中的检测框为基准，获得目标在第N帧图像中的预测框；

计算所述预测框与第N-1帧图像中的所有检测框重叠的交并比，选取获得最大的交并比所对应的检测框，若所述交并比大于预设的阈值时，则确定所述预测框与所述检测框中的目标相同；

基于第N-1帧中的目标在第N帧图像中存在的概率、目标中心点的位移值以及目标的尺寸变化数值，在第N帧图像中对目标进行跟踪。

其中，if_tracked矩阵输出第N-1帧图像中的目标在第N帧图像存在的概率；

delta_x、delta_y处分别输出目标中心点的位移值；delta_w、delta_h处分别输出目标的长度、宽度变化值。

图4A为本发明实施例提供的目标在第N-1帧图像的示意图；图4B为本发明实施例提供的目标在第N帧图像的示意图；

参见图4A，图中的C框示出了车辆M在第N-1帧图像的检测结果，该C框为目标在第N-1帧图像中的检测框；其中，在第N-1帧图像中，该车辆M中心点的位置为(X₁,Y₁),车辆M的长度、宽度分别是W₁、H₁；其中，点Q为车辆M的检测原点；

参见图4B，图中的D框示出了车辆M在第N帧图像的检测结果，D框为车辆M在第N帧图像中的预测框；其中，在第N帧图像中，预测的车辆M中心点的位置为(X₂,Y₂)；在第N帧图像中，预测的车辆M的尺寸(W₂,H₂)，其中，W₂是预测的车辆M的长度，H₂是预测的车辆M的宽度，点P为车辆M的预测原点。

在if_tracked矩阵(128*128*1)中，当车辆M的位置(X₁,Y₁，Chanel₁)在热图上分布的概率大于预设的概率值时，则说明在第N-1帧图像中，车辆M在第N帧图像中仍然存在，所述预设的概率值可以为0.3，在此不做具体限制，也可以是其他概率值，例如0.4或0.5等数值。

delta_x、delta_y矩阵是一个128*128×2的矩阵，该delta_x、delta_y矩阵的(delta_x,delta_y)表示预测的车辆M从(X₁,Y₁)位置所变化的位移值，其中，delta_x是以(x1,y1,Chanel₁)位置为中心点，车辆M在x方向的位移值；delta_y是以(x1,y1,Chanel₂)位置为中心点，车辆M在y方向的位移值；

delta_w、delta_h矩阵也是一个128*128×2的矩阵，该(delta_w,delta_h)表示预测的车辆M从位置(X₁,Y₁)所变化的长度、宽度的变化值，其中，delta_w是车辆M以(x1,y1,Chanel₁)位置为中心点，车辆M的长度的变化值；delta_h是以(x1,y1,Chanel₂)位置为中心点，车辆M宽度的变化值。

因此，预测的第N帧图像中的车辆M的中心点位置为(X₂,Y₂)＝(X₁+delta_x,Y₁)+delta_y)；

(W₂,H₂)＝(W₁+delta_w,H₁+delta_h)。

根据预测的第N帧图像中的车辆M中心点的位置(X₂,Y₂)、预测的第N帧图像中的车辆M的尺寸(W₂,H₂)，获得包含车辆M的预测框D。

在实际运用中，获得的预测框D和检测框C无需完全重合，计算所述预测框D与该帧所有检测框重叠的交并比(IOU，intersection over union)，选取获得最大的交并比所对应的检测框，若所述交并比大于预设的阈值时，则确定所述预测框C与所述检测框中的目标相同；将获得最大的交并比所对应的检测框作为车辆M在第N帧图像中的位置。

在实际运用中，只需储存历史帧的卷积特征，无需将历史帧图片重新输入深度神经网络中。

实施例二

参见图5，图5为本发明实施例提供的一种无搜索框的目标检测和跟踪***的结构示意图；该***包括采集模块、检测模块、融合模块、堆叠模块、获取模块和跟踪模块；

所述采集模块用于采集包含目标的帧图像；

进一步的，所述跟踪模块执行以下操作：

上述各个模块的具体实施方式与实施例一的各个方法步骤的具体实施方式一致，在此不再赘述。

实施例三

图6为本发明实施例提供的一种电子设备，该电子设备包括但不限于智能手机、固定电话、平板电脑、笔记本电脑、穿戴式设备等电子设备，所述电子设备包括：处理器和存储器，所述存储器存储有计算机可读指令，所述计算机可读指令在被所述处理器执行时实现上述本发明的方法。

实施例四

在本实施例中，提供一种计算机可读存储介质，可以为ROM(例如只读存储器、FLASH存储器、转移装置等)、光学存储介质(例如，CD-ROM、DVD-ROM、纸卡等)、磁存储介质(例如，磁带、磁盘驱动器等)或其他类型的程序存储器；所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器或计算机运行时执行上述本发明的方法。

本发明的技术效果：

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种无搜索框的目标检测和跟踪方法，该方法包括以下步骤：

采集步骤：采集包含目标的帧图像；

2.根据权利要求1所述的方法，其特征在于，所述检测步骤还包括：

根据目标中心点的位置、目标的类别和目标的尺寸获得目标在前置帧图像中的检测框。

3.根据权利要求2所述的方法，其特征在于，所述跟踪步骤包括以下子步骤：

计算所述预测框与前置帧图像中的各个检测框重叠的交并比，选取获得最大的交并比所对应的检测框，若所述交并比大于预设的阈值时，则确定所述预测框与所述检测框中的目标相同；

4.根据权利要求3所述的方法，其特征在于，利用卷积层并基于所述跟踪特征获取前置帧图像中的目标在帧图像中存在的概率、目标中心点的位移值以及目标的尺寸变化数值。

5.根据权利要求1所述的方法，其特征在于，所述检测步骤和堆叠步骤是利用深度神经网络实现的。

6.根据权利要求1所述的方法，其特征在于，所述检测结果是利用CenterNet框架获得的。

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，所述堆叠步骤包括：

将第一堆叠特征图与关系特征所对应的特征图

9.一种无搜索框的目标检测和跟踪***，该***包括采集模块、检测模块、融合模块、堆叠模块、获取模块和跟踪模块；

所述采集模块用于采集包含目标的帧图像；

10.根据权利要求9所述的***，其特征在于，所述跟踪模块执行以下操作：