CN109271927B

CN109271927B - 一种空基多平台的协同监视方法

Info

Publication number: CN109271927B
Application number: CN201811074662.8A
Authority: CN
Inventors: 曹先彬; 甄先通; 李岩; 杨燕丹; 胡宇韬
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2020-03-27
Anticipated expiration: 2038-09-14
Also published as: CN109271927A

Abstract

本发明公开了一种空基多平台的协同监视方法，属于信息技术领域。对跟踪目标进行多角度协调监视，获取待检测视频；对各视频中的各帧图像进行检测，输出裁剪图片和对应的置信度。将置信度高于等于阈值H_d的裁剪图片与跟踪目标进行匹配，计算裁剪图片与跟踪目标之间的相似度。将相似度高于等于目标相似阈值H_s的裁剪图片保留并列为感兴趣区域，该帧升级为感兴趣帧。在感兴趣帧中选取清晰成像的某帧图像进行精确跟踪，得到跟踪目标的最佳匹配位置。若最佳匹配位置对应的最高分数高于等于设置的跟踪阈值H_t，则监视器保持监视状态，对清晰图像的下一帧进行处理。本发明实时调整监视器的角度和位置，对目标进行协同监测和修正，最终达到精确的监视效果。

Description

一种空基多平台的协同监视方法

技术领域

本发明属于信息技术领域，具体是一种空基多平台的协同监视方法。

背景技术

随着人工智能的发展，在目标检测和跟踪问题上，神经网络发挥着很大的作用，现有的神经网络能够达到很高的准确度。从Fast-RCNN到Faster-RCNN，开始有了较为准确的目标检测网络，此后发展出的SSD以及YOLO等网络，更是进一步达到了端到端的整体效果，将目标检测和分类同时进行。

现有的跟踪问题解决办法大部分是建立在目标检测之上的，首先对每一帧进行目标检测，提取出目标检测中的所有候选区，再根据被检测目标图像，计算候选区的相似程度。跟踪与检测是不可分割的；但是针对较为复杂的多目标跟踪与弱小目标跟踪，是目前难以解决的跟踪问题。

常见的跟踪***多是基于普通的拍摄角度，因为摄像头的普及，地面监控摄像头、车载相机等成为主要的跟踪信息来源，具有视野范围小、不便转移以及拍摄角度具有片面性等缺点，对于检测结果有一定影响。

随着近年来国家对低空领域使用的不断开放，无人机经常被用来辅助灾情巡查、山区救援、物资输送以及样本采集等任务。而在低空飞行过程中，经常会遇到变换的场景，如何在变换的场景下进行特定目标的检测与跟踪，是目前航空监视领域的一大课题。

开放环境下的目标检测跟踪，首要问题是如何适应变换的环境和位置，进而才能使用特定的算法对特定的场景下的目标进行高效的检测与跟踪。跟踪与检测问题的难点在于：由于光照和视角变换等因素，导致类内的差别较大，比如同样是房子，在早晨和傍晚拍摄出来的效果存在很大差异，俯视角度和侧视角度拍摄出的几何形状与具体细节也不同。并且传统的单个摄像头不容易获取所有的信息，一个立体目标一般需要三个及以上的不同角度成像才能够精准地还原其所有特征。比如从背面获取的人体图像无法捕捉面部信息，从俯视角度获取的图像无法获得高度信息等。

发明内容

本发明从空基视角出发，结合多视角与感兴趣区域，提供了一种空基多平台的协同监视方法，得到了具有较高准确性的监视网络，为协同监视任务提供了参考。

具体步骤如下：

步骤一、针对某个跟踪目标，利用多个监视器摄像头同时对其进行多角度协调监视，同步获取多个待检测视频，逐帧提取视频片段。

监视器摄像头处于搜寻状态；多个待检测视频输入后经过同步，使时间序列上各视频的每一帧互相对齐；

步骤二、针对同一时间的各视频中的各帧图像，依次选取其中一帧使用SSD目标检测网络进行检测，输出该帧图像的裁剪图片以及对应的置信度。

SSD目标检测网络是：将经典的VGG16特征提取网络作为前置网络，其后接入多层卷积层和全连接层；各卷积层输出不同尺度的图像，再分别进入全连接层，从多个尺度来共同检测图像中的物体；在检测过程中还通过缩放，变换输入图像的尺度，提高网络的适应性。

首先，每一帧图像输入SSD目标检测网络后输出多个候选区；

每个候选区代表一个被检测出的物体。

每个候选区的信息包含坐标、类别以及对应的置信度。

然后，将每个物体按照各自的坐标裁剪，得到多个裁剪图片及各自对应的检测置信度。

步骤三、判断当前帧中所有裁剪图片的置信度是否均低于设置的检测阈值H_d，如果是，则移至下一帧，返回步骤二，监测器保持搜寻状态；否则，进入步骤四；

步骤四、将当前帧中置信度高于等于阈值H_d的裁剪图片与被跟踪目标同时送入Siamese网络进行匹配，计算各个裁剪图片与跟踪目标之间的相似度；将当前帧中置信度低于阈值H_d的裁剪图片舍弃。

针对置信度高于等于阈值H_d的某裁剪图片x与被跟踪目标z具体匹配过程如下：

首先，裁剪图片x与被跟踪目标z分别进入共享权值的卷积层，提取有效特征，得到映射结果

与

然后，映射结果

与

经过判别网络，计算两者的特征相似度；

步骤五、针对置信度高于等于阈值H_d的裁剪图片，判断是否全部低于设置的目标相似阈值H_s，如果是，则移至下一帧，返回步骤二，监测器保持搜寻状态；否则，逐个判断各裁剪图片的相似度与目标相似阈值H_s的大小，将高于等于目标相似阈值H_s的裁剪图片保留并列为感兴趣区域，该帧升级为感兴趣帧，监测器进入监视状态；将低于目标相似阈值H_s的裁剪图片舍弃。

步骤六、进入监视状态的监测器及时微调摄像头位置以及缩放倍率，将感兴趣帧中所有的裁剪图片中的物体进行清晰成像，并逐帧提取视频片段。

当感兴趣区域确定后，对监视状态的监视器摄像头进行调整，首先将方向微调至指向粗略定位处，然后针对粗略候选区进行缩放，使得感兴趣帧中每个裁剪图片中的物体在视野中均占据主要部分，成为一张清晰图像。

步骤七、依次选取清晰成像的某帧图像，采用Siamese-FC孪生跟踪网络进行精确跟踪，得到跟踪目标的最佳匹配位置。

具体步骤如下：

首先，将重新成像的整张图片X纳入***，该图片X与被跟踪目标z同时输入Siamese-FC孪生跟踪网络，分为两路卷积：在整张图片X上应用非线性函数

进行卷积操作，提取图片的特征

以及在被跟踪目标z上应用非线性函数

进行卷积操作，提取被跟踪目标的特征

然后，在两路卷积层之后，计算

和

的相似度：

进而，逐次滑窗计算各滑窗的匹配度：滑窗位置(i,j)的匹配度M_i,j为：

特征

的尺寸为a×b，特征

的尺寸为w×h，0≤i≤w-a，0≤j≤h-b；m,n为特征

的各个位置，通过m,n的遍历能够依次取到

的每个元素值。

Siamese-FC孪生跟踪网络通过一层卷积代替滑窗计算匹配度，最终得到一个特征图，其上分数最高的点代表最佳匹配位置，还原到步骤一拍摄的原始图像上即可得到跟踪目标所在的位置。

步骤八、判断当前帧中的最佳匹配位置对应的最高分数是否高于等于设置的跟踪阈值H_t，如果是，则监视器保持监视状态，返回步骤七对清晰图像的下一帧进行处理。否则，监视器微调摄像头位置以及缩放倍率回到搜寻状态，返回步骤一进行目标搜寻。

本发明的优点在于：一种空基多平台的协同监视方法，从空基视角对目标进行监视，利用空基监视器的灵活性，结合感兴趣区域，实时调整监视器的角度和位置，并且通过多平台的信息融合以及状态切换，对目标进行协同监测和修正，最终达到精确的监视效果。

附图说明

图1为本发明一种空基多平台的协同监视方法流程图；

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提出了一种空基多平台的协同监视方法，监视网络根据空基视角部署，多个***同时监控目标，从多个角度进行检测，通过对感兴趣区域的选择，在搜寻状态与跟踪状态间切换，根据目标实时改变策略，并且多平台相互修正以提高跟踪准确度。

本发明在空基视角中同一时间对目标从多角度多方位进行协同监视，融合了多方位的视频信息，将不同空基视角的监视器分为两种状态：搜寻状态和监视状态。从搜寻状态提升为监视状态要经历两个判别过程：首先将监视器的摄像头放大倍数设置为较小值，从宏观空基视野对每一帧的图像进行检测，当检测出的候选区对应类别的置信度高于设定的检测阈值H_d时，进行第二步的匹配过程；匹配过程通过双子匹配网络，计算候选区与跟踪目标之间的相似度，选取该帧中相似度最高的候选区作为代表，若该区域的匹配度高于设定的匹配阈值H_s时，这一帧图像内容则升级为感兴趣区域，需要进入监视状态，其对应的监视器则转化为监视状态，加入跟踪网络。若没有达到设定的阈值，则回到搜寻状态，对每一帧重复上述过程。空基监视器具有灵活性和精密性，其摄像头可以实时变换位置、角度、焦距以及缩放尺度，进入监视状态的监视器可根据每一帧的候选区域即帧内感兴趣区域及时进行微调位置以及缩放大小，并采用跟踪网络对目标进行进一步跟踪。

如图1所示，具体步骤如下：

监视器摄像头处于搜寻状态，从空基多个角度协同检测，从多个监测源同时获取待跟踪视频，视频流输入后需要经过同步步骤，使时间序列上各视频的每一帧互相对齐；进一步逐帧提取视频片段，将同一时间的多个帧同时进入接下来的网络。

步骤二、针对同一时间的各视频中的各帧原始图像，依次选取其中一帧使用SSD目标检测网络从宏观视野进行检测，输出该帧图像的候选区以及对应的置信度。

SSD网络是一个目标检测网络，输入为一张图片，输出为检测的区域坐标以及置信度。将经典的VGG16特征提取网络作为前置网络，其后接入多层卷积层和全连接层；各卷积层输出不同尺度的图像，再分别进入全连接层，从多个尺度来共同检测图像中的物体；在检测过程中还通过缩放，变换输入图像的尺度，针对不同检测对象的尺寸大小进行适应性。浅层的检测结果适合检测大目标，后层的检测结果因为特征维数较小，比较适合检测小目标，融合浅层和深层的信息，综合多个尺度可以达到更完备的检测结果。

在检测过程中输入不同尺度的图像，使得网络能够有更强的适应性，并且网络是端到端的。SSD检测网络还设定了候选区的大小，每个特征图所能得到的候选区大小都是默认的。

首先，每一帧图像输入SSD目标检测网络后输出多个候选区；

每个候选区代表一个被检测出的物体。

每个候选区的信息包含坐标、类别以及对应的置信度，即检测正确的可能性。

该网络训练阶段使用的是从视频中提取的每一帧。不考虑帧间关系，作为初步搜寻网络，速度比跟踪网络更快。

针对置信度高于等于阈值H_d的某裁剪图片x与被跟踪目标z同时送入Siamese网络，匹配过程如下：

与

然后，映射结果

与

经过判别网络，类似于核函数，计算两者的特征相似度；

若判别为相似度较高，则两者是同一目标的概率较大。通过比较候选区域与目标模板的相似度，最后得到候选区域的相似分数。

监视器的两种状态为搜寻状态和监视状态。搜寻状态的监视器视角处于宏观角度，运算较粗略；包含感兴趣区域的监视器转换为监视状态，视角可以进一步精确缩放，并且可以协同配合，增加准确性。

从检测网络中挑选出置信度高于H_d的区域，再通过匹配网络，挑选出与跟踪目标相似度高于H_s的区域，将这些区域纳为感兴趣区域，其对应图像也纳入感兴趣区域，监测器进入监视状态。

搜寻状态的监视器摄像头处于小倍率状态，能搜索的区域较大，但针对小物体的清晰度不高，只能粗略定位。在通过搜寻网络确定感兴趣区域后，对监视状态的监视器摄像头进行调整，首先将方向微调至指向粗略定位处，其次针对粗略候选区进行缩放，大部分时间为放大，使得感兴趣帧中每个裁剪图片中的物体在视野中均占据主要部分，成为一张清晰图像，有利于下一步的精确跟踪。

具体步骤如下：

进行卷积操作，提取图片的浅层特征

以及在被跟踪目标z上应用非线性函数

进行卷积操作，提取被跟踪目标的语义特征

然后，在两路卷积层之后，计算

和

的相似度：

相似度的计算方法则与前一步大同小异，不同之处主要在于X、z的尺寸不同，导致

和

的尺寸不同。

特征

的尺寸为a×b，特征

的尺寸为w×h，0≤i≤w-a，0≤j≤h-b；m,n为特征

的各个位置，通过m,n的遍历能够依次取到

的每个元素值。

Siamese-FC孪生跟踪网络通过一层卷积代替滑窗计算匹配度，最终得到一个特征图ScoreMap，其上分数最高的点代表最佳匹配位置，还原到步骤一拍摄的原始图像上即可得到跟踪目标所在的位置。

该网络和相关性滤波的方法很相似；其在搜索区域中逐点的目标模板进行匹配，将这种逐点平移匹配计算相似度的方法看成是一种卷积，然后在卷积结果中找到相似度值最大的点，作为新的目标的中心。

本发明基于感兴趣区域的空基协同监视方法，从多个角度同时监视目标，从中选取感兴趣的角度和区域，很好地提取场景中各个角度的细节信息，并且在搜寻状态和跟踪该状态中切换，节约了不必要的时间成本。并且本文融合了多个感兴趣区域，通过协同检测，共同修正跟踪结果，最终达到精确的监视效果。

Claims

1.一种空基多平台的协同监视方法，其特征在于，具体步骤如下：

步骤一、针对某个跟踪目标，利用多个监视器摄像头同时对其进行多角度协调监视，同步获取多个待检测视频，逐帧提取视频片段；

步骤二、针对同一时间的各视频中的各帧图像，依次选取其中一帧使用SSD目标检测网络进行检测，输出该帧图像的裁剪图片以及对应的置信度；

步骤四、将当前帧中置信度高于等于阈值H_d的裁剪图片与被跟踪目标同时送入Siamese网络进行匹配，计算各个裁剪图片与跟踪目标之间的相似度；将当前帧中置信度低于阈值H_d的裁剪图片舍弃；

步骤五、针对置信度高于等于阈值H_d的裁剪图片，判断是否全部低于设置的目标相似阈值H_s，如果是，则移至下一帧，返回步骤二，监测器保持搜寻状态；否则，逐个判断各裁剪图片的相似度与目标相似阈值H_s的大小，将高于等于目标相似阈值H_s的裁剪图片保留并列为感兴趣区域，该帧升级为感兴趣帧，监测器进入监视状态；将低于目标相似阈值H_s的裁剪图片舍弃；

步骤六、进入监视状态的监测器及时微调摄像头位置以及缩放倍率，将感兴趣帧中所有的裁剪图片中的物体进行清晰成像，并逐帧提取视频片段；

步骤七、依次选取清晰成像的某帧图像，采用Siamese-FC孪生跟踪网络进行精确跟踪，得到跟踪目标的最佳匹配位置；

具体步骤如下：

进行卷积操作，提取图片的特征

以及在被跟踪目标z上应用非线性函数

进行卷积操作，提取被跟踪目标的特征

然后，在两路卷积层之后，计算

和

的相似度：

特征

的尺寸为a×b，特征

的尺寸为w×h，0≤i≤w-a，0≤j≤h-b；m,n为特征

的各个位置，通过m,n的遍历能够依次取到

的每个元素值；

Siamese-FC孪生跟踪网络通过一层卷积代替滑窗计算匹配度，最终得到一个特征图，其上分数最高的点代表最佳匹配位置，还原到步骤一拍摄的原始图像上即可得到跟踪目标所在的位置；

步骤八、判断当前帧中的最佳匹配位置对应的最高分数是否高于等于设置的跟踪阈值H_t，如果是，则监视器保持监视状态，返回步骤七对清晰图像的下一帧进行处理；否则，监视器微调摄像头位置以及缩放倍率回到搜寻状态，返回步骤一进行目标搜寻。

2.如权利要求1所述的一种空基多平台的协同监视方法，其特征在于，所述的SSD目标检测网络是：将经典的VGG16特征提取网络作为前置网络，其后接入多层卷积层和全连接层；各卷积层输出不同尺度的图像，再分别进入全连接层，从多个尺度来共同检测图像中的物体；在检测过程中还通过缩放，变换输入图像的尺度，提高网络的适应性。

3.如权利要求1所述的一种空基多平台的协同监视方法，其特征在于，所述的步骤二具体为：首先，每一帧图像输入SSD目标检测网络后输出多个候选区；

每个候选区代表一个被检测出的物体；

每个候选区的信息包含坐标、类别以及对应的置信度；

4.如权利要求1所述的一种空基多平台的协同监视方法，其特征在于，所述的步骤四针对置信度高于等于阈值H_d的某裁剪图片x与被跟踪目标z具体匹配过程如下：

与

然后，映射结果

与

经过判别网络，计算两者的特征相似度；

5.如权利要求1所述的一种空基多平台的协同监视方法，其特征在于，所述的步骤六具体是：当感兴趣区域确定后，对监视状态的监视器摄像头进行调整，首先将方向微调至指向粗略定位处，然后针对粗略候选区进行缩放，使得感兴趣帧中每个裁剪图片中的物体在视野中均占据主要部分，成为一张清晰图像。