CN107886120A

CN107886120A - 用于目标检测跟踪的方法和装置

Info

Publication number: CN107886120A
Application number: CN201711070712.0A
Authority: CN
Inventors: 王德祥
Original assignee: Beijing Rui Qing Dimension Airlines Technology Development Co Ltd
Current assignee: Beijing Rui Qing Dimension Airlines Technology Development Co Ltd
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2018-04-06

Abstract

本发明的实施方式提供了一种用于目标检测跟踪的方法和装置。该用于目标检测跟踪的方法包括：采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集；采用光流法获取所述测试数据集中每一帧图像的第一候选区域；将所述第一候选区域输入至训练好的Faster‑RCNN检测器获取检测结果。通过光流法获取待检测图像的第一候选区域，本发明的方法使得输入至Faster‑RCNN检测器的是测试数据集中每一帧图像的第一候选区域，从而显著地降低了检测目标的图像数据处理量，提高了目标检测的速度。此外，本发明的实施方式提供了一种用于目标检测跟踪的装置、电子设备和计算机可读的存储介质。

Description

用于目标检测跟踪的方法和装置

技术领域

本发明的实施方式涉及计算机视觉领域，更具体地，本发明的实施方式涉及用于目标检测跟踪的方法、装置、电子设备以及计算机可读的存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

目标检测和跟踪是计算机视觉中的重要研究问题。目标检测的目的是给出图像中感兴趣目标的位置和类别，这在实际应用中有很广泛的应用前景。在自动驾驶技术中，需要有效识别和跟踪周围的行人、车辆和运动物体，以实现自动避障；监控***也需要标记视频中的行人和车辆，以方便从海量视频中快速调取有关片段。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

目前，以卷积神经网络为主的深度学习技术在图像分类、目标检测等任务中取得了巨大的成功，速度和准确性都有明显提高。

但是，在可见光成像下，图片易受天气、光照影响，从而影响目标检测效果，且现有算法针对的检测目标往往占据图像中较大部分，现有技术对于远距离小目标的目标进行检测时检测效果变差。

与可见光相比，红外热成像具有作用距离远、可夜间工作等特点，因此被广泛应用于视频监控、预警和目标跟踪等任务上。

因此在现有技术中，在基于红外热成像的视频监控以及预警***等的实现中，对红外视频序列中的目标进行自动检测和识别是一个重要问题。

为此，非常需要一种改进的用于目标检测跟踪的方法和装置，一方面能够避免可见光成像下的天气、光照影响等问题，还能够避免远距离小目标对目标检测和识别产生的检测效果变差等问题，从而对红外视频中的目标进行自动检测和识别。

在本上下文中，本发明的实施方式期望提供一种用于目标检测跟踪的方法、装置、电子设备以及计算机可读的存储介质。

在本发明实施方式的第一方面中，提供了一种用于目标检测跟踪的方法，包括：采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集；采用光流法获取所述测试数据集中每一帧图像的第一候选区域；以及将所述第一候选区域输入至Faster-RCNN检测器获取检测结果。

在本发明的一个实施例中，所述方法还包括：训练步骤，其中所述训练步骤包括：根据所述红外视频构建用于检测所述目标的训练数据集，所述训练数据集包括分类数据集和检测数据集；根据所述分类数据集训练预先设计的目标分类网络；以及根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器。

在本发明的另一个实施例中，所述根据所述红外视频构建用于检测所述目标的训练数据集包括：获取所述红外视频中用于构建所述训练数据集的每一帧图像的正样本及其正样本标签、负样本及其负样本标签，构建所述分类数据集；采用所述光流法获取所述红外视频中用于构建所述训练数据集的每一帧图像发生运动的像素；以及根据所述每一帧图像发生运动的像素获取所述训练数据集中每一帧图像中存在所述目标的局部图像以及对应的坐标信息构成所述检测数据集。

在本发明的又一个实施例中，所述根据所述分类数据集训练预先设计的目标分类网络包括：设计一卷积神经网络作为所述目标分类网络；以及根据所设计的所述卷积神经网络和所述分类数据集，利用随机梯度下降法训练所述目标分类网络。

在本发明的再一个实施例中，所述根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器包括：设计所述Faster-RCNN检测器的卷积层结构与所述目标分类网络的卷积层结构相同；利用训练好的所述目标分类网络的卷积层网络参数初始化所述Faster-RCNN检测器的卷积层网络参数；以及将所述检测数据集输入至设计好的所述Faster-RCNN检测器，采用联合训练的方法训练所述Faster-RCNN检测器。

在本发明的再一个实施例中，所述根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器还包括：根据所检测的目标修改所述Faster-RCNN检测器的RPN网络中锚点的设置。

在本发明的再一个实施例中，所述方法还包括：根据所述目标在前预设帧的运动轨迹估计所述目标的运动方程；根据所述目标的运动方程，预测所述测试数据集中每一帧图像的第二候选区域；以及将所述第二候选区域输入至训练好的Faster-RCNN检测器获取所述检测结果。

在本发明的再一个实施例中，所述方法还包括：根据所述检测结果和预设规则对所述目标进行跟踪。

在本发明的再一个实施例中，所述预设规则为：设置***初始状态为第一状态；***处于所述第一状态时，当在下一帧红外视频的候选区域检测到所述目标时，***跳转到第二状态；***处于所述第二状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到所述第一状态；***处于所述第二状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第二状态；当***连续第一预设帧数均处于所述第二状态时，***跳转到第三状态；***处于所述第三状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第三状态；***处于所述第三状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到第四状态；***处于所述第四状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***跳转到所述第三状态；***处于所述第四状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***保持在所述第四状态；以及当***连续第二预设帧数均处于所述第四状态时，***跳转到所述第一状态。

在本发明实施方式的第二方面中，提供了一种用于目标检测跟踪的装置，包括：测试数据集构建模块，用于采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集；候选区域获取模块，用于采用光流法获取所述测试数据集中每一帧图像的第一候选区域；目标检测模块，用于将所述第一候选区域输入至训练好的Faster-RCNN检测器获取检测结果。

在本发明的一个实施例中，所述装置还包括训练模块，所述训练模块包括：训练数据集构建单元，用于根据所述红外视频构建用于检测所述目标的训练数据集，所述训练数据集包括分类数据集和检测数据集；分类器训练单元，用于根据所述分类数据集训练预先设计的目标分类网络；检测器训练单元，用于根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器。

在本发明的另一个实施例中，所述训练数据集构建单元包括：分类数据集构建子单元，用于获取所述红外视频中用于构建所述训练数据集的每一帧图像的正样本及其正样本标签、负样本及其负样本标签，构建所述分类数据集；运动像素获取子单元，用于采用所述光流法获取所述红外视频中用于构建所述训练数据集的每一帧图像发生运动的像素；检测数据集构建子单元，用于根据所述每一帧图像发生运动的像素获取所述训练数据集中每一帧图像中存在所述目标的局部图像以及对应的坐标信息构成所述检测数据集。

在本发明的又一个实施例中，所述分类器训练单元包括：分类器结构设计子单元，用于设计一卷积神经网络作为所述目标分类网络；分类器训练子单元，用于根据所设计的所述卷积神经网络和所述分类数据集，利用随机梯度下降法训练所述目标分类网络。

在本发明的再一个实施例中，所述检测器训练单元包括：检测器结构设计子单元，用于设计所述Faster-RCNN检测器的卷积层结构与所述目标分类网络的卷积层结构相同；检测器初始化子单元，用于利用训练好的所述目标分类网络的卷积层网络参数初始化所述Faster-RCNN检测器的卷积层网络参数；检测器训练子单元，用于将所述检测数据集输入至设计好的所述Faster-RCNN检测器，采用联合训练的方法训练所述Faster-RCNN检测器。

在本发明的再一个实施例中，所述检测器训练单元还包括：锚点设置子单元，用于根据所检测的目标修改所述Faster-RCNN检测器的RPN网络中锚点的设置。

在本发明的再一个实施例中，所述装置还包括第二候选区域生成模块，其中所述第二候选区域生成模块包括：运动方程生成单元，用于根据所述目标在前预设帧的运动轨迹估计所述目标的运动方程；运动估计生成候选区域单元，用于根据所述目标的运动方程，预测所述测试数据集中每一帧图像的第二候选区域；运动估计检测单元，用于将所述第二候选区域输入至训练好的Faster-RCNN检测器获取所述检测结果。

在本发明的再一个实施例中，还包括：目标跟踪模块，用于根据所述检测结果和预设规则对所述目标进行跟踪。

在本发明的再一个实施例中，所述预设规则为：设置***初始状态为第一状态；***处于所述第一状态时，当在下一帧红外视频的候选区域检测到所述目标时，***跳转到第二状态；***处于所述第二状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到所述第一状态；***处于所述第二状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第二状态；当***连续第一预设帧数均处于所述第二状态时，***跳转到第三状态；***处于所述第三状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第三状态；***处于所述第三状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到第四状态；***处于所述第四状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***跳转到所述第三状态；***处于所述第四状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***保持在所述第四状态；当***连续第二预设帧数均处于所述第四状态时，***跳转到所述第一状态。

在本发明实施方式的第三方面中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如上任一实施例所述的用于目标检测跟踪的方法。

在本发明实施方式的第四方面中，提供了一种计算机可读的存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上任一实施例所述的用于目标检测跟踪的方法。

根据本发明实施方式的用于目标检测跟踪的方法、装置、电子设备和计算机可读的存储介质，通过光流法提取待识别图像的第一候选区域，然后将该第一候选区域输入至训练好的Faster-RCNN检测器进行分类识别，可以大大降低目标检测的数据处理量，而无需对待识别图像整个进行检测识别，从而显著地降低了目标检测方法的复杂度，能够更快速有效的实现对红外视频中的目标的检测和识别。

另外，根据一些实施例，本发明实施方式的用于目标检测跟踪的方法、装置、电子设备和计算机可读的存储介质，通过结合光流法和Faster-RCNN，实现了远距离小目标的高效检测和跟踪。同时，由于本发明的检测算法可用于红外视频，在白天和黑夜都可以高效检测。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的可以在其中实现的应用场景示意图；

图2示意性地示出了根据本发明一实施例的用于目标检测跟踪的方法流程图；

图3示意性地示出了根据本发明另一实施例的用于目标检测跟踪的方法流程图；

图4示意性地示出了根据本发明一实施例的用于目标分类网络的神经网络的示意图；

图5示意性地示出根据本发明一实施例的应用所述方法检测无人机的示意图；

图6示意性地示出根据本发明另一实施例的应用所述方法检测无人机的示意图；

图7示意性地示出根据本发明又一实施例的应用所述方法检测无人机的示意图；

图8示意性地示出了根据本发明又一实施例的用于目标检测跟踪的方法流程图；

图9示意性地示出了根据本发明一实施例的用于目标检测跟踪的状态跳转示意图；

图10示意性地示出了根据本发明一实施例的用于目标检测跟踪的装置的结构示意图；

图11示意性地示出了根据本发明一实施例的电子设备的结构示意图；

图12示意性地示出了根据本发明一实施例的计算机可读的存储介质的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种用于目标检测跟踪的方法、装置、电子设备和计算机可读的存储介质。

在本文中，需要理解的是，所涉及的术语微小目标表示待识别或者待检测图像中的待识别或者待检测目标相对该待识别或者待检测图像的尺寸较小，即该待识别或者待检测目标在该待识别或者待检测图像中占据的像素较小，例如采用通常的红外采集设备拍摄远距离处的无人机作为待识别或者待检测目标，这里的无人机可以认为是微小目标。而本发明实施例中所述的远距离，也是相对要识别或者检测的目标而言的，例如在下面的无人机作为待识别或者待检测目标的实施例中，可以认为距离红外采集设备1.5km此外的无人机为远距离的微小目标，具体实施例中以2.6km为例进行说明。但是，当将本发明实施方式中的方法应用于不同场景时，微小目标和远距离可以进行相应的调整和设置，本发明对此不做限制。附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，在可见光成像下，待识别图像易受天气、光照等的影响，从而影响目标检测效果，且现有目标检测和跟踪的算法主要针对的是占据待识别图像中较大部分的较大或者较近待识别目标，对于远距离小目标的目标进行检测时，检测效果变差。此外，现有的检测算法直接将待识别图像输入至分类器中进行分类识别，数据处理量大，从而导致识别效率较低。

因此，针对现有技术中存在的数据处理量大及检测效果变差的技术问题本发明提供了用于目标检测跟踪的方法、装置、电子设备和计算机可读的存储介质，通过采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集，采用光流法获取所述测试数据集中每一帧图像的第一候选区域，将所述第一候选区域输入至Faster-RCNN检测器获取检测结果，这样，本发明实施方式可以利用光流法降低目标检测的数据处理量，从而本发明实施方式可以获得更高效的目标检测效果；由此可知，本发明实施方式提供的技术方案有利于自动且高效的检测和定位待识别目标。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，示意性地示出了根据本发明实施方式的可以在其中实现的应用场景。

图1中，红外采集设备中安装有能够捕获用于目标检测跟踪的红外视频的红外探测组件和光学成像组件。服务器与所述红外采集设备通过无线和/或有线的方式通信，接收所述红外采集设备拍摄的红外视频对其进行本发明实施方式中的目标检测跟踪的处理。然而，本领域技术人员完全可以理解，本发明实施方式的适用场景不受到该框架任何方面的限制。例如，虽然图示中仅示出了一台服务器和一台红外采集设备，但实际应用场景中，服务器和红外采集设备的数量不受限制。此外，也可以将服务器和红外采集设备集成于一体。

示例性方法

下面结合图1的应用场景，参考图2-9来描述根据本发明示例性实施方式的用于目标检测跟踪的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

参见图2-9，示意性地示出了根据本发明一实施例的用于目标检测跟踪的方法的流程图，该方法通常在可以运行计算机程序的设备中执行，例如，在台式计算机或者服务器等设备中执行，当然，也可以在笔记型计算机甚至平板电脑等设备中执行。

本发明实施方式的方法可以包括：步骤S200、步骤S210以及步骤S220。可选的，本发明实施方式的方法还可以包括：步骤S300、步骤S310、步骤S320以及步骤S330。或者，本发明实施方式的方法还可以包括：步骤S800、步骤S810、步骤S820以及步骤S830。

如图2所示，在步骤S200中，采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集。

作为示例，采集所述红外视频可以通过红外采集设备例如红外遥感摄像仪等获取，对所述红外视频可以进行预处理，包括模数转换，得到二维图形、三维图形或者一个图像序列，为了满足后继图像处理的要求，还可以进行二次取样、平滑去噪、提高对比度等操作。

在步骤S210中，采用光流法获取所述测试数据集中每一帧图像的第一候选区域。

作为示例，本发明实施方式的所述采用光流法获取所述测试数据集中每一帧图像的候选区域可以包括以下步骤：采用所述光流法获取所述测试数据集中每一帧图像分别相对于后预设帧数图像发生运动的像素；根据所述每一帧图像分别相对于后预设帧数图像发生运动的像素获取所述测试数据集中每一帧图像发生运动的像素；根据所述每一帧图像发生运动的像素获取所述测试数据集中每一帧图像的所述第一候选区域。

光流是一种简单实用的图像运动的表达方式，通常定义为一个图像序列中的图像亮度模式的表观运动，即空间物体表面上的点的运动速度在视觉传感器的成像平面上的表达。这种定义认为光流只表示一种几何变化。1998年Negahdaripour将光流重新定义为动态图像的几何变化和辐射度变化的全面表示。光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”，即研究图像灰度在时间上的变化与景象中物体结构及其运动的关系。一般情况下，光流由相机运动、场景中目标运动或两者的共同运动产生的相对运动引起的。

光流法检测运动物体的基本原理是：给图像中的每一个像素点赋予一个速度矢量，这就形成了一个图像运动场，在运动的一个特定时刻，图像上的点与三维物体上的点一一对应，这种对应关系可由投影关系得到，根据各个像素点的速度矢量特征，可以对图像进行动态分析。如果图像中没有运动物体，则光流矢量在整个图像区域是连续变化的。当图像中有运动物体时，目标和图像背景存在相对运动，运动物体所形成的速度矢量必然和邻域背景速度矢量不同，从而检测出运动物体及位置。光流法的优点在于光流不仅携带了运动物体的运动信息，而且还携带了有关景物三维结构的丰富信息，它能够在不知道场景的任何信息的情况下，检测出运动对象。

在步骤S220中，将所述第一候选区域输入至Faster-RCNN检测器获取检测结果。

在一个优选的实施方式中，所述方法还可以包括训练步骤。其中所述训练步骤可以进一步包括以下步骤：根据所述红外视频构建用于检测所述目标的训练数据集，所述训练数据集包括分类数据集和检测数据集；根据所述分类数据集训练预先设计的目标分类网络；根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器。

在另一个优选的实施方式中，所述根据所述红外视频构建用于检测所述目标的训练数据集可以包括：获取所述红外视频中用于构建所述训练数据集的每一帧图像的正样本及其正样本标签、负样本及其负样本标签，构建所述分类数据集；采用所述光流法获取所述红外视频中用于构建所述训练数据集的每一帧图像发生运动的像素；根据所述每一帧图像发生运动的像素获取所述训练数据集中每一帧图像中存在所述目标的局部图像以及对应的坐标信息构成所述检测数据集。

作为示例，本发明实施方式的所述根据所述分类数据集训练预先设计的目标分类网络可以包括：设计一卷积神经网络作为所述目标分类网络；根据所设计的所述卷积神经网络和所述分类数据集，利用随机梯度下降法训练所述目标分类网络。

此外，虽然上述事实来中选用了随机梯度下降法来训练所述目标分类网络，但本公开并不限定于此，在其他实施例中，也可以采用其他方法训练目标分类网络，这里只是起到一个举例说明的作用。

在一个优选的实施方式中，所述根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器可以包括：设计所述Faster-RCNN检测器的卷积层结构与所述目标分类网络的卷积层结构相同；利用训练好的所述目标分类网络的卷积层网络参数初始化所述Faster-RCNN检测器的卷积层网络参数；将所述检测数据集输入至设计好的所述Faster-RCNN检测器，采用联合训练的方法训练所述Faster-RCNN检测器。

在另一个较为优选的实施方式中，所述根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器还可以包括：根据所检测的目标修改所述Faster-RCNN检测器的RPN网络中锚点的设置。

作为示例，本发明实施方式的所述方法还可以包括：根据所述目标在前预设帧的运动轨迹估计所述目标的运动方程；根据所述目标的运动方程，预测所述测试数据集中每一帧图像的第二候选区域；将所述第二候选区域输入至训练好的Faster-RCNN检测器获取所述检测结果。

本发明实施方式提供的一种用于目标检测的方法，通过光流法提取待识别图像的第一候选区域，然后再将第一候选区域输入至训练好的Faster-RCNN检测器中，缩小了待识别图像的范围，使得待检测区域大大减少，从而降低了算法复杂度，提高了检测效率。此外，一些实施例中通过光流法结合Faster-RCNN检测器对第一候选区域进行分类，从而能够高效的定位检测远距离的微小目标。同时，本发明实施方式的检测方法可用于红外视频，在白天和黑夜都可以高效检测。

在下面的实施例中，以远距离的微小目标检测为例，并采用光流法结合Faster-RCNN检测器对上述方法进行具体说明。

如图3所示，在步骤S300中，分类数据集和检测数据集的构建：利用红外采集设备采集的红外视频，构建用于分类微小目标的分类数据集和用于检测所述微小目标的检测数据集。

在一个优选的实施方式中，所述步骤S300可以包括以下步骤。

在步骤S301中，将采集的有标注的红外视频(即训练数据集，其包括所述分类数据集和所述检测数据集)数据中每一帧图像中实际目标图像作为正样本(例如可以将其正样本标签记作+1，但本公开并不限定于此)，随机截取所述红外视频中合适大小的背景区域(图像块)作为负样本(例如可以将其负样本标签记作-1，或者，也可以将其负样本标签记作0)，构建所述分类数据集。

在一个优选的实施方式中，以所述微小目标为无人机为例进行举例说明，但本公开并不限定于此，则视频每一帧图像中标注的目标框包含无人机的区域作为正样本。

作为示例，本发明实施方式的所述截取预设大小的背景区域可以根据待识别图像的尺寸以及待识别目标的大小截取合适大小的背景区域，例如下面实施例中的15*22的大小。

在步骤S302中，对于采集的有标注的红外视频的每一帧图像，利用光流法得到当前帧图像分别相对于后几帧发生运动的像素，取并集得到最终发生运动的像素。

在一个优选的实施方式中，记所述训练数据集中的当前帧为f0，下一帧为f1，第五帧为f5，第十帧为f10。分别计算f0与f1、f5、f10帧间的光流图，可以设置阈值t0＝0.3，将光流幅值与最大幅值的比值大于t0的像素标记为发生了移动，记f0相对于f1发生运动的像素为R₀₁，相对于第五帧发生运动的像素为R₀₅，相对于第十帧发生运动的像素为R0₍₁₀₎，则记最终发生运动的像素为mov_map＝R₀₁∪R₀₅∪R₀₍₁₀₎。

需要说明的是，上述的第一帧，第五帧，第十帧只是一个实例中选用的参数，在其他实施例中，可以选用其他帧数，本公开对此不作限定。

在步骤S303中，对所述训练数据集中每一帧图像的发生运动像素，进行图像处理领域的开操作和膨胀操作，得到每一帧图像中可能发生运动的局部图像、保留这些局部图像中存在微小目标的图像，以及它们对应的坐标信息，构成所述检测数据集。

在一个优选的实施方式中，把5*5(是一个可变的参数，数值的选取可以根据待识别图像大小和目标区域大小选取的)的滑动窗平移后使滑动窗包含于移动光流图mov_map的所有点构成的集合，即为滑动窗对移动光流图进行腐蚀操作(Erosion)；把5*5的滑动窗平移后使5*5的滑动窗与移动光流图mov_map的交集非空的点构成的集合，即为滑动窗对移动光流图进行膨胀操作(Dilate)。开操作(Open)即先腐蚀后膨胀的过程。

在此，可以利用开操作和膨胀操作，将过小的连通区域去除并平滑后，将得到的连通区域的框取出。如果该区域与微小目标例如无人机标注的区域有交集，则取出其交集包含的图片作为所述检测数据集，该图片中无人机的相对位置作为目标的坐标信息。

本发明实施例中针对微小目标如果只进行开操作后得到的区域不总能完全覆盖目标，再进行一次膨胀操作会得到比较好的效果。

在步骤S310中，分类器训练阶段：利用所述分类数据集训练目标分类网络。

作为示例，本发明实施方式的所述步骤S310可以包括以下步骤。

在步骤S311中，设计合适的卷积神经网络作为所述目标分类网络。

作为示例，本发明实施方式的目标分类网络可以是一个如图4所示的神经网络，这里假设输入为15*22的图片，经过2个5*5*64的卷积层，2个3*3的最大值池化层，步长为2，以及两个全连接层后，最后经过softmax分类器得到2个输出，即检测的结果为目标或者背景。

需要说明的是，本发明实施例中的卷积神经网络的参数可以根据实施中实际图片和目标的大小设计的目标分类网络，其并不限定于上述具体参数的值。

在步骤S312中，根据上述步骤S311所设计的神经网络和上述步骤S300中构建的所述分类数据集，利用随机梯度下降法训练所述目标分类网络。

在一个优选的实施方式中，训练所述目标分类网络可以采用交叉熵作为损失函数，并且还可以加入权值的L2范数的正则化项。其中，正则化是为了防止所述目标分类网络过拟合。使用随机梯度下降法，批大小可以设置为256个样本，初始学习率可以设置为0.1，每遍历17次所述分类数据集以10为倍数衰减，训练12k次迭代后停止训练。需要说明的是，这里的数值只是实施时的一些参数，用于举例说明，并不用于限定本公开。

在步骤S320中，检测器训练阶段：利用上述步骤S310训练好的目标分类网络的卷积层网络参数初始化一个Faster-RCNN检测网络的卷积层，然后利用所述检测数据集训练所述Faster-RCNN检测网络。

作为示例，上述设计好的Faster-RCNN检测网络其他参数如下文实施例中所述，而另一些未写明的参数同原始的Faster-RCNN算法中的参数。

在一个优选的实施方式中，所述步骤S320可以包括以下步骤。

在步骤S321中，设计合适的Faster-RCNN卷积神经网络作为用于检测微小目标的Faster-RCNN检测器，其中所述Faster-RCNN检测器的卷积层结构和前述目标分类网络的卷积层结构相同，并用训练好的所述目标分类网络的卷积层网络参数来初始化所述Faster-RCNN检测器的卷积层网络参数。

其中，Faster-RCNN以卷积网络为主体，利用了共享卷积参数的候选区域网络产生候选区域，并且利用目标区域池化技术实现了同一输入图像中的特征计算共享。输入的图像经过数个卷积层后得到特征图。候选区域网络(Region Proposal Network，RPN)产生一系列大小不同的候选框经过目标区域池化层后都形成尺寸相同的特征图，这些特征图再经过一系列全连接层后分为两部分，一部分经过softmax层后得到分类结果，另一部分经过边界框回归得到经过修正的边界框。特征图上的候选区域根据卷积网络的结果可以映射回原图，从而得到最终的检测结果。

在一个优选的实施方式中，所有输入Faster-RCNN卷积神经网络的图片都可以缩放为短边的长度为38(其是一个可以根据应用场景中输入图片的大小设置的参数，并不限定于此)，当考虑到远距离无人机是微小目标，修改RPN网络中锚点(Anchors)的设置，可以修改锚的大小为(8*8,16*16,24*24)(锚的大小的设置可以根据待识别图像和待识别目标的大小尺寸来选择，并不限定于此)。由于原始的Faster-RCNN算法不是针对微小目标的，因此，需要修改相应的参数使得对微小目标的检测效果更好。

由于候选区域大多相互重叠，为减少冗余并提高速度，优选的，可以对输出的候选区域使用非极大抑制，在一个实施例中，可以设置交并比阈值为0.7(该数值为举例说明，并不用于限定本公开)。非极大抑制后可以使用置信度最高的50个(该数值为举例说明，并不用于限定本公开)候选区域用于目标检测。

在步骤S322中，将所述检测数据集送入上述步骤S321设计好的Faster-RCNN网络，采用联合训练的方法，将候选区域网络和检测网络(这里的检测网络是卷积层和检测部分。Faster-RCNN是候选区域网络和检测网络共享了前面的卷积网络)看成一个网络，两个网络的损失函数组合在一起作为整个网络的损失函数进行优化。其中，这里的两个网络的损失函数一个是候选区域生成的损失函数，一个是检测时的损失函数，把两部分的损失函数相加作为总的损失函数一起优化。

作为示例，训练时同样由候选区域网络产生候选框，候选框的参数被当作固定值传给检测网络，两个网络的损失函数被组合在一起后进行优化。同时还可以加入权值的L2衰减作为正则项，防止过拟合。

在步骤S330中，检测阶段：采用光流法产生未经标注的红外视频中每一帧图像可能存在目标的候选区域，将候选区域图像直接送入训练好的Faster-RCNN检测器，得到候选区域是否存在微小目标的检测结果，以及如果存在微小目标，该微小目标在整张图像中的坐标范围。

在一个优选的实施方式中，所述步骤S330可以包括以下步骤。

在步骤S331中，如果在未经标注的之前的红外视频的检测中存在被检测且被跟踪到的目标，根据该目标在前两帧或者前N帧(N为大于2的正整数)的运动轨迹估计出该目标的运动方程。

在步骤S332中，对于待检测的红外视频中的每一帧图像，根据该目标的运动方程，预测上一帧图像中被检测出的该目标在这一帧图像中可能的位置，将该位置作为可能存在微小目标的第二候选区域图像。

在一个优选的实施方式中，可以利用连续3帧图像中目标的位置变化计算得到目标在这段运动中的平均速度，并把该平均速度作为对目标在当前帧中的运动速度的估计，然后根据该目标的运动速度和该目标在前一帧的位置，得到该目标在当前帧中的可能位置，生成可能存在微小目标的第二候选区域图像。但本公开并不限定于此。

在步骤S333中，对于待检测的红外视频中的每一帧图像，采用光流法得到每一帧图像相对于后几帧图像发生运动的像素，取并集得到最终发生运动的像素。

在一个优选的实施方式中，记所述测试数据集中的当前帧为f0，下一帧为f1，第五帧为f5，第十帧为f10。分别计算f0与f1、f5、f10帧间的光流图，可以设置阈值t0＝0.3，将光流幅值与最大幅值的比值大于t0的像素标记为发生了移动，记f0相对于f1发生运动的像素为R₀₁，相对于第五帧发生运动的像素为R₀₅，相对于第十帧发生运动的像素为R0₍₁₀₎，则记最终发生运动的像素为mov_map＝R₀₁∪R₀₅∪R₀₍₁₀₎。

在步骤S334中，对所述测试数据集中每一帧图像中的发生运动像素，进行图像处理领域的开操作和膨胀操作，得到每一帧图像中可能发生运动的第一候选区域图像。

在此，可以利用开操作和膨胀操作，将过小的连通区域去除并平滑后，将得到的连通区域的框取出即为该帧的第一候选区域。

由于候选区域(此处包括上述的第一候选区域和/或第二候选区域)大多相互重叠，为减少冗余并提高速度，优选的，可以对输出的候选区域使用非极大抑制，在一个实施例中，可以设置交并比阈值为0.7(该数值为举例说明，并不用于限定本公开)。非极大抑制后可以使用置信度最高的50个(该数值为举例说明，并不用于限定本公开)候选区域用于目标检测。

在步骤S335中，对于所述测试数据集中的每一帧图像，将所产生的第一候选区域和/或第二候选区域图像直接送入训练好的Faster-RCNN检测器，输出为所述第一候选区域和/或第二候选区域是否存在微小目标，如果存在，同时还可以输出该微小目标的坐标范围。

图5是应用本发明实施方式所述的方法在简单背景下检测到2.6km处的2架无人机；图6是在复杂背景下检测到2.6km处的1架无人机；图7是在简单背景下检测到2.6km处的1架无人机。

如图8所示，在步骤S800中，采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集。

在步骤S810中，采用光流法获取所述测试数据集中每一帧图像的第一候选区域。

在步骤S820中，将所述第一候选区域输入至训练好的Faster-RCNN检测器获取检测结果。

其中，所述步骤S800-S820可以参照上述图2的步骤S200-S220，在此不再赘述。

在一个优选的实施方式中，所述方法还可以包括：根据所述目标在前预设帧的运动轨迹估计所述目标的运动方程；根据所述目标的运动方程，预测所述测试数据集中每一帧图像的第二候选区域；将所述第二候选区域输入至训练好的Faster-RCNN检测器获取所述检测结果。

在步骤S830中，根据所述检测结果和预设规则对所述目标进行跟踪。

作为示例，根据所述检测结果，如果确实检测到微小目标，则根据所述预设规则对目标进行跟踪。

作为示例，本发明实施方式的所述预设规则可以为：设置***初始状态为第一状态；***处于所述第一状态时，当在下一帧红外视频的候选区域检测到所述目标时，***跳转到第二状态；***处于所述第二状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到所述第一状态；***处于所述第二状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第二状态；当***连续第一预设帧数均处于所述第二状态时，***跳转到第三状态；***处于所述第三状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第三状态；***处于所述第三状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到第四状态；***处于所述第四状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***跳转到所述第三状态；***处于所述第四状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***保持在所述第四状态；当***连续第二预设帧数均处于所述第四状态时，***跳转到所述第一状态。

本发明实施方式对所述预设规则的一个具体例子如下述针对图9的描述。假设所述第一状态为未跟踪状态，所述第二状态为预跟踪状态，所述第三状态为跟踪状态，所述第四状态为预失踪状态。下面以待识别目标为微小目标为例进行说明，但本公开并不限定于此，其可以应用于任意大小的目标。

如图9所示，对于红外视频中出现的每一个目标，假设所述目标处在四个可能的状态，分别为：未跟踪状态、预跟踪状态、跟踪状态、预失踪状态。可以设置***初始状态为未跟踪状态。如果在检测阶段红外视频某个候选区域首次被检测出有微小目标，则***立即跳转到预跟踪状态。

当***处于未跟踪状态时，在所述测试数据集中的下一帧红外视频中未检测到所述微小目标时，***保持在未跟踪状态。当***处于未跟踪状态时，在所述测试数据集中的下一帧红外视频中检测到所述微小目标时，***从未跟踪状态跳转到预跟踪状态。当***处于预跟踪状态时，在所述测试数据集中的下一帧红外视频中检测到所述微小目标时，***保持在预跟踪状态；而当***连续N(N为正整数)帧处于预跟踪状态时，***从预跟踪状态跳转到跟踪状态。当***处于预跟踪状态时，在所述测试数据集中的下一帧红外视频中未检测到所述微小目标时，***从预跟踪状态跳转到未跟踪状态。当***处于跟踪状态时，在所述测试数据集中的下一帧红外视频中检测到所述微小目标时，***保持在跟踪状态。当***处于跟踪状态时，在所述测试数据集中的下一帧红外视频中未检测到所述微小目标时，***从跟踪状态跳转到预失踪状态。当***处于预失踪状态时，在所述测试数据集中的下一帧红外视频中检测到所述微小目标时，***从预失踪状态跳转到跟踪状态。当***处于预失踪状态时，在所述测试数据集中的下一帧红外视频中未检测到所述微小目标时，***保持在预失踪状态；当连续M(M为正整数)帧处于预失踪状态，***从预失踪状态跳转到未跟踪状态。可以认为***处在跟踪状态和预失踪状态都是微小目标被跟踪到了。

针对上述图9的描述需要说明的是，针对所述测试数据中的下一帧红外视频进行检测时，对同一个被根据的微小目标而言，由于红外视频拍摄的间隔时间较短，且一般红外视频中微小目标数量较少，并且运动轨迹连续，下一帧红外视频相对前一帧红外视频，所述微小目标移动至前一帧红外视频的候选区域的邻近区域，因此，判断该微小目标前一帧红外视频的某个候选区域的邻近区域在下一帧视频中是否存在该微小目标从而对其来实现跟踪。这里邻近区域的定义也可以根据待识别图像的尺寸以及待识别目标的大小来自主调整。例如，当***处于预跟踪状态时，只要下一帧红外视频中在邻近区域未检测出微小目标，那么***就跳转到未跟踪状态；如果下一帧红外视频中的邻近区域仍然能够检测到微小目标，那么***保持在预跟踪状态。再例如，当***处于跟踪状态时，如果下一帧红外视频在邻近区域未检测到微小目标，则***跳转到预失踪状态，如果下一帧红外视频在邻近区域仍然能够检测到微小目标，则***保持在跟踪状态。当***处在预失踪状态时，如果下一帧红外视频在邻近区域又检测出了微小目标，则***跳回到跟踪状态，如果下一帧红外视频在邻近区域仍然未检测到微小目标，则***保持在预失踪状态。

另外需要说明的是，上述邻近区域是针对动态的微小目标而言，但有时候微小目标也可能未发生位移，例如当微小目标为无人机时，其可能悬停于空中，此时可以通过检测下一帧红外视频的该微小目标在前一帧红外视频中所处的候选区域是否存在该微小目标进行判断。

上述实施例中M和N的取值可以根据应用场景进行合理的选择。如果N选取较大，能够保证***的跟踪状态比较可靠，但是设置过大的N可能会导致***根本无法跳转到跟踪状态，而是一直在失踪状态和预跟踪状态之间跳转。类似的，如果M选取较小，能够保证跟踪状态比较可靠，但是过大的M会导致算法一直处于跟踪状态和预跟踪状态之间，降低跟踪的效果。

作为示例，本发明实施方式中选择N等于4，M等于4，即***连续4帧都处于预跟踪状态时，则***跳转到跟踪状态。***连续4帧都处于预失踪状态时，则***跳转到失踪状态。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，参考图10对本发明示例性实施方式的用于目标检测跟踪的装置进行说明。

参见图10，示意性地示出了根据本发明一实施例的用于目标检测跟踪的装置的结构示意图，该装置通常设置于可以运行计算机程序的设备中，例如，本发明实施方式中的该装置可以设置于台式计算机或者服务器等设备中，当然，该装置也可以设置于笔记型计算机甚至平板电脑等设备中。

本发明实施方式的装置可以包括：测试数据集构建模块1000、候选区域获取模块1010以及目标检测模块1020。下面对该装置所包括的各个模块分别进行说明。

测试数据集构建模块1000可以用于采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集。所包括的具体内容以及的具体表现形式等可以参见上述方法实施方式中的相关描述，在此不再重复说明。

候选区域获取模块1010可以用于采用光流法获取所述测试数据集中每一帧图像的第一候选区域。

目标检测模块1020可以用于将所述第一候选区域输入至训练好的Faster-RCNN检测器获取检测结果。

作为示例，所述装置还可以包括训练模块。其中所述训练模块可以进一步包括：训练数据集构建单元，用于根据所述红外视频构建用于检测所述目标的训练数据集，所述训练数据集包括分类数据集和检测数据集；分类器训练单元，用于根据所述分类数据集训练预先设计的目标分类网络；检测器训练单元，用于根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器。

可选的，所述训练数据集构建单元可以包括：分类数据集构建子单元，用于获取所述红外视频中用于构建所述训练数据集的每一帧图像的正样本及其正样本标签、负样本及其负样本标签，构建所述分类数据集；运动像素获取子单元，用于采用所述光流法获取所述红外视频中用于构建所述训练数据集的每一帧图像发生运动的像素；检测数据集构建子单元，用于根据所述每一帧图像发生运动的像素获取所述训练数据集中每一帧图像中存在所述目标的局部图像以及对应的坐标信息构成所述检测数据集。

可选的，所述分类器训练单元可以包括：分类器结构设计子单元，用于设计一卷积神经网络作为所述目标分类网络；分类器训练子单元，用于根据所设计的所述卷积神经网络和所述分类数据集，利用随机梯度下降法训练所述目标分类网络

可选的，所述检测器训练单元可以包括：检测器结构设计子单元，用于设计所述Faster-RCNN检测器的卷积层结构与所述目标分类网络的卷积层结构相同；检测器初始化子单元，用于利用训练好的所述目标分类网络的卷积层网络参数初始化所述Faster-RCNN检测器的卷积层网络参数；检测器训练子单元，用于将所述检测数据集输入至设计好的所述Faster-RCNN检测器，采用联合训练的方法训练所述Faster-RCNN检测器。

在一个优选的实施方式中，所述检测器训练单元还可以包括：锚点设置子单元，用于根据所检测的目标修改所述Faster-RCNN检测器的RPN网络中锚点的设置。

在另一个优选的实施方式中，所述装置还可以包括第二候选区域生成模块，其中所述第二候选区域生成模块包括：运动方程生成单元，用于根据所述目标在前预设帧的运动轨迹估计所述目标的运动方程；运动估计生成候选区域单元，用于根据所述目标的运动方程，预测所述测试数据集中每一帧图像的第二候选区域；运动估计检测单元，用于将所述第二候选区域输入至训练好的Faster-RCNN检测器获取所述检测结果。

在一个优选的实施方式中，所述装置还可以包括：目标跟踪模块，用于根据所述检测结果和预设规则对所述目标进行跟踪。

在一个优选的实施方式中，所述预设规则可以为：设置***初始状态为第一状态；***处于所述第一状态时，当在下一帧红外视频的候选区域检测到所述目标时，***跳转到第二状态；***处于所述第二状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到所述第一状态；***处于所述第二状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第二状态；当***连续第一预设帧数均处于所述第二状态时，***跳转到第三状态；***处于所述第三状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第三状态；***处于所述第三状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到第四状态；***处于所述第四状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***跳转到所述第三状态；***处于所述第四状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***保持在所述第四状态；当***连续第二预设帧数均处于所述第四状态时，***跳转到所述第一状态。

各个模块和/或单元和/或子单元所执行的具体操作可以参见上述方法实施方式中针对步骤的相关描述，在此不再重复说明。

图11示出了适于用来实现本发明实施方式的示例性计算机***/服务器110的框图。图11显示的计算机***/服务器110仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机***/服务器110以通用计算设备的形式表现。计算机***/服务器110的组件可以包括但不限于：一个或者多个处理器或者处理单元1101，***存储器1102，连接不同***组件(包括***存储器1102和处理单元1101)的总线1103。

计算机***/服务器110典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器110访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器1102可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)11021和/或高速缓存存储器11022。计算机***/服务器110可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，ROM 11023可以用于读写不可移动的、非易失性磁介质(图11中未显示，通常称为“硬盘驱动器”)。尽管未在图11中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线1103相连。***存储器1102中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块11024的程序/实用工具11025，可以存储在例如***存储器1102中，且这样的程序模块11024包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块11024通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器110也可以与一个或多个外部设备1104(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口1105进行。并且，计算机***/服务器110还可以通过网络适配器1106与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或者公共网络，例如因特网)通信。如图11所示，网络适配器1106通过总线1103与计算机***/服务器110的其它模块(如处理单元1101等)通信。应当明白，尽管图11中未示出，可以结合计算机***/服务器110使用其它硬件和/或软件模块。

处理单元1101通过运行存储在***存储器1102中的计算机程序，从而执行各种功能应用以及数据处理，例如，执行用于实现上述方法实施例中的各步骤的指令；具体而言，处理单元1101可以执行***存储器1102中存储的计算机程序，且该计算机程序被执行时，下述指令被运行：采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集；采用光流法获取所述测试数据集中每一帧图像的第一候选区域；将所述第一候选区域输入至训练好的Faster-RCNN检测器获取检测结果。可选的，还可以执行下述指令：根据所述检测结果和预设规则对所述目标进行跟踪。各步骤的具体实现方式可以参见上述实施例，在此不再重复说明。

本发明实施方式的计算机可读的存储介质一个具体例子如图12所示。

图12的介质为光盘120，其上存储有计算机程序(即程序产品)，该程序被处理器执行时，会实现上述方法实施方式中所记载的各步骤，例如，采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集；采用光流法获取所述测试数据集中每一帧图像的第一候选区域；将所述第一候选区域输入至训练好的Faster-RCNN检测器获取检测结果；可选的，还可以实现下述步骤：根据所述检测结果和预设规则对所述目标进行跟踪。各步骤的具体实现方式可以参见上述实施例，在此不再重复说明。

应当注意，尽管在上文详细描述中提及了用于目标检测跟踪的装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种用于目标检测跟踪的方法，包括：

采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集；

采用光流法获取所述测试数据集中每一帧图像的第一候选区域；以及

将所述第一候选区域输入至Faster-RCNN检测器获取检测结果。

2.根据权利要求1所述的方法，其中，所述方法还包括训练步骤，所述训练步骤包括：

根据所述红外视频构建用于检测所述目标的训练数据集，所述训练数据集包括分类数据集和检测数据集；

根据所述分类数据集训练预先设计的目标分类网络；以及

根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器。

3.根据权利要求2所述的方法，其中，所述根据所述红外视频构建用于检测所述目标的训练数据集包括：

获取所述红外视频中用于构建所述训练数据集的每一帧图像的正样本及其正样本标签、负样本及其负样本标签，构建所述分类数据集；

采用所述光流法获取所述红外视频中用于构建所述训练数据集的每一帧图像发生运动的像素；以及

根据所述每一帧图像发生运动的像素获取所述训练数据集中每一帧图像中存在所述目标的局部图像以及对应的坐标信息构成所述检测数据集。

4.根据权利要求2所述的方法，其中，所述根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器包括：

设计所述Faster-RCNN检测器的卷积层结构与所述目标分类网络的卷积层结构相同；

利用训练好的所述目标分类网络的卷积层网络参数初始化所述Faster-RCNN检测器的卷积层网络参数；以及

将所述检测数据集输入至设计好的所述Faster-RCNN检测器，采用联合训练的方法训练所述Faster-RCNN检测器。

5.根据权利要求1所述的方法，其中，所述方法还包括：

根据所述目标在前预设帧的运动轨迹估计所述目标的运动方程；

根据所述目标的运动方程，预测所述测试数据集中每一帧图像的第二候选区域；以及

将所述第二候选区域输入至训练好的Faster-RCNN检测器获取所述检测结果。

6.根据权利要求1所述的方法，其中，所述方法还包括：

根据所述检测结果和预设规则对所述目标进行跟踪。

7.根据权利要求6所述的方法，其中，所述预设规则为：

设置***初始状态为第一状态；

***处于所述第一状态时，当在下一帧红外视频的候选区域检测到所述目标时，***跳转到第二状态；

***处于所述第二状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到所述第一状态；

***处于所述第二状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第二状态；

当***连续第一预设帧数均处于所述第二状态时，***跳转到第三状态；

***处于所述第三状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***保持在所述第三状态；

***处于所述第三状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***跳转到第四状态；

***处于所述第四状态时，当在下一帧红外视频的候选区域和/或邻近区域检测到所述目标时，***跳转到所述第三状态；

***处于所述第四状态时，当在下一帧红外视频的候选区域及其邻近区域未检测到所述目标时，***保持在所述第四状态；以及

当***连续第二预设帧数均处于所述第四状态时，***跳转到所述第一状态。

8.一种用于目标检测跟踪的装置，包括：

测试数据构建模块，用于采集红外视频，根据所述红外视频构建用于检测所述目标的测试数据集；

候选区域获取模块，用于采用光流法获取所述测试数据集中每一帧图像的第一候选区域；

目标检测模块，用于将所述第一候选区域输入至训练好的Faster-RCNN检测器获取检测结果。

9.根据权利要求8所述的装置，其中，所述装置还包括训练模块，其中所述训练模块包括：

训练数据集构建单元，用于根据所述红外视频构建用于检测所述目标的训练数据集，所述训练数据集包括分类数据集和检测数据集；

分类器训练单元，用于根据所述分类数据集训练预先设计的目标分类网络；

检测器训练单元，用于根据训练好的所述目标分类网络和所述检测数据集训练所述Faster-RCNN检测器。

10.根据权利要求9所述的装置，其中，所述训练数据集构建单元包括：

分类数据集构建子单元，用于获取所述红外视频中用于构建所述训练数据集的每一帧图像的正样本及其正样本标签、负样本及其负样本标签，构建所述分类数据集；

运动像素获取子单元，用于采用所述光流法获取所述红外视频中用于构建所述训练数据集的每一帧图像发生运动的像素；

检测数据集构建子单元，用于根据所述每一帧图像发生运动的像素获取所述训练数据集中每一帧图像中存在所述目标的局部图像以及对应的坐标信息构成所述检测数据集。

11.根据权利要求9所述的装置，其中，所述检测器训练单元还包括：锚点设置子单元，用于根据所检测的目标修改所述Faster-RCNN检测器的RPN网络中锚点的设置。

12.根据权利要求8所述的装置，其中，所述装置还包括第二候选区域生成模块，其中所述第二候选区域生成模块包括：

运动方程生成单元，用于根据所述目标在前预设帧的运动轨迹估计所述目标的运动方程；

运动估计生成候选区域单元，用于根据所述目标的运动方程，预测所述测试数据集中每一帧图像的第二候选区域；

运动估计检测单元，用于将所述第二候选区域输入至训练好的Faster-RCNN检测器获取所述检测结果。

13.一种电子设备，包括存储器、处理器及其存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。

14.一种计算机可读的存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。