CN110321937B

CN110321937B - 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法

Info

Publication number: CN110321937B
Application number: CN201910526422.5A
Authority: CN
Inventors: 苏丽; 朱伟; 张智; 朱齐丹; 秦绪杰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2022-05-17
Anticipated expiration: 2039-06-18
Also published as: CN110321937A

Abstract

本发明公开了一种Faster‑RCNN结合卡尔曼滤波的运动人体跟踪方法，首先对Faster‑RCNN算法进行简化，留下卷积神经网络和RPN网络，输入图像经过以上两个网络输出运动人体候选位置；然后对经典卡尔曼滤波算法进行改进，将原算法中定义为常值矩阵的噪声协方差矩阵改为时变矩阵，将原状态向量由四维扩展为八维，增加状态向量中运动人***置框的宽度、高度和宽高变化率信息；最后将得到的运动人体候选位置作为卡尔曼滤波算法观测值，结合卡尔曼滤波算法预测值，得到多个运动人***置的估计值，通过最小二乘拟合，去除离群点，去剩余位置求取平均值得到运动人***置最优估计。该方法实现了动态背景下运动人体准确跟踪的效果。

Description

一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法

技术领域

本发明涉及一种运动人体跟踪方法，特别是一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法，属于图像处理技术领域。

背景技术

随着社会经济类型的逐步转变，人类的双手渐渐从机械劳动中解放，大量机械劳动由机器人代为进行。移动机器人的发展经历了从最初的遥控行驶搬运各种货物，到现在的自动跟踪可为特定人员提供跟踪服务，目标人体的检测跟踪技术是其主要的技术上升点。近年来，数字图像处理技术日渐成熟，基于视觉图像处理的目标人体跟踪技术成为众多的学者和企业的研究热点。

运动人体跟踪是指在复杂的环境中从连续的视频图像里精确分辨出人体所在位置并进行跟踪的过程。在商场监控、交通管制等领域中，摄像头固定不动，即跟踪背景不发生变化时，称为静态背景下运动人体跟踪与身份识别。该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪与身份识别技术提出新的要求，当摄像头搭载在机器人上进行移动时，同样也需要对运动的人体进行跟踪与识别，此时，摄像头拍取的图像背景是不断发生变化的，无法提取固定的背景模型，被称为移动机器人动态人体跟踪与识别，是目前运动人体跟踪与识别方向的主要攻克难点。

动态背景环境下，对运动人体进行跟踪的方法可以划分为两类：第一类是经典的动态背景下运动人体跟踪方法，在初始目标的基础上，基于运动目标的颜色、轮廓、运动矢量进行跟踪。第二类是基于卷积神经网络的运动人体跟踪方法，通过大量人体数据集对网络进行训练，使其能够准确区分出人与背景，在动态背景视频中帧帧检测出人体目标，并进行人体跟踪。经典的动态背景下运动人体跟踪方法在进行跟踪时过度依赖跟踪目标的颜色、轮廓、运动矢量等特征，忽略了背景在跟踪过程中的意义，导致运动人体跟踪过度依赖目标的单一或几种显示特征。与经典动态背景下运动人体跟踪方法相比，基于卷积神经网络的深度学习的方法不依赖某种单一显示特征，对输入图像的特征利用率更高，所以跟踪的准确性和鲁棒性会大大提升。基于Faster-RCNN的方法是用于运动人体跟踪最主流的方法，但此方法在进行人体分类时采用的是全连接层进行分类，网络参数过百万，严重影响了运动人体跟踪的实时性。且该方法不适用于运动人体出现遮挡的情况，运动人体出现遮挡时，跟踪即失败。

考虑到动态背景下运动人体跟踪，具有准确性高、实时性高、鲁棒性高的要求，本发明提出了一种Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法，该算法首先对原有的Faster-RCNN算法进行简化，只留下原算法的卷积神经网络和RPN网络，输入图像经过以上两个网络输出多个(约300个)运动人体候选位置。然后对经典的卡尔曼滤波算法进行改进，为了变达运动人***置的实时变化及位置关系，将原算法中定义为常值矩阵的噪声协方差矩阵改变为时变矩阵，同时，将原状态向量由四维扩展为八维，增加了状态向量中运动人***置框的宽度、高度和宽高变化率信息，以此来适应运动人体尺度上的变化。最后将简化Faster-RCNN算法得到的运动人体候选位置作为卡尔曼滤波算法的观测值，结合卡尔曼滤波算法的预测值，得到多个运动人***置的估计值，通过对多个估计值进行最小二乘拟合，去除离群点，去剩余位置求取平均值得到运动人***置的最优估计。该方法实现了动态背景下运动人体准确跟踪的效果。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种跟踪效果准确度高、实时性高、鲁棒性高的Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法。

为解决上述技术问题，本发明的一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法，包括如下步骤：

步骤1：简化Faster-RCNN网络，获得运动人体获选区域

Faster-RCNN网络不包括全连接层部分，

1.1)获得卷积特征图

输入图像在进入简化后的Faster-RCNN网络的卷积神经网络前，进行大小调整，将所有的输入图像调整为800×600，之后将图片送入训练好的卷积神经网络VGG16，得到关于输入图像的完整的卷积特征图；

1.2)获得运动人体候选区域

首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积，使特征图中的每个点融合周围的空间信息；然后简化后的Faster-RCNN网络分为了两条主线，一条主线经过1*1的卷积和损失函数，输出运动人体候选区域是人和非人的概率，另一条主线经过1*1的卷积，输出运动人体候选区域的中心坐标、宽度和高度的缩放比例(d_x,d_y,d_w,d_h)；最后，结合两条主线，得到运动人体候选区域，该区域向量包含该区域是人体区域或者非人体区域的概率，以及该区域相对于真实特征区域的缩放参数(d_x,d_y,d_w,d_h)。

步骤2：改进卡尔曼滤波算法

对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算，即将协方差矩阵均取作时变矩阵：

协方差矩阵的运算公式为：

其中，X、Y为求取相关性的两个位置向量或观测向量；n为每个向量包含的元素个数；i为向量中的元素序号；

和

分别为X向量和Y向量的均值，协方差矩阵的形式为：

表示三个位置向量或观测向量X、Y、Z的协方差矩阵；

观测值向量的噪声协方差矩阵由步骤1得到的运动人体候选区域的位置信息进行计算，状态向量的噪声协方差矩阵由卡尔曼滤波得到的状态向量进行计算；

状态向量重新定义为x_k＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk]，其中，其中，x_k、y_k分别为k时刻人体检测框的横向坐标值与纵向坐标值；v_xk、v_yk分别为人体检测框在k时刻的横向运动速度和纵向运动速度；w_k为k时刻人体检测框的宽度；h_k表示k时刻x状态下的人体检测框的高度；d_wk、d_hk为人体检测框的宽度变化率、高度变化率；

计算本帧运动人***置的最优估计值

包括：

k时刻***协方差矩阵的方程：

P_k＝((P_k ^-)^-1+H^TR₁ ^-1H)^-1

其中，H矩阵为测量矩阵，R₁为观测值的噪声矩阵，

是由k-1时刻的协方差推导出的k时刻协方差的预测值。

k时刻增益矩阵方程：

K_k＝p_kH^TR^-1

k时刻状态向量方程：

其中，

是k时刻状态向量的最优估计值；

是由k-1时刻的状态向量最优值推导出的k时刻状态向量预测值；Z_k是k时刻观测向量；

k+1时刻的状态向量方程：

其中，Φ是状态转移矩阵；

k+1时刻协方差预测值方程：

其中，Q₁是状态向量的噪声矩阵；

卡尔曼滤波算法的离散运动模型和观测模型：

状态方程：

X(k+1)＝ΦX(k)+Q

观测方程：

Z(k)＝HX(k)+R

其中，X(k)为k时刻状态向量，Z(k)为k时刻的观测向量；

步骤3：简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合

将得到的运动人体候选区域的位置信息x_k＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk]作为卡尔曼滤波算法的观测值进行输入，预测值由上一帧的最优估计值推算得到；将观测值和预测值送入步骤2改进后的卡尔曼滤波算法得到关于人***置的状态向量，即x_{k i}＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk](0≤i≤n),n表示运动人体候选区域的个数，再将状态向量分别带入观测方程，得到人***置，对多个位置采用最小二乘法，去除离群位置，对剩余的位置求取平均值作为人***置的最优估计。

当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时，简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息，此时卡尔曼滤波算法的观测值为0向量，对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值。

本发明有益效果：移动背景下的运动人体跟踪在监控、导航、服务等多个方面都有较多的应用。但是，由于移动背景难以形成固定的模板，导致运动人体跟踪较为艰难。Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法相比较于传统的运动人体跟踪方法(Camshift算法、粒子滤波算法等)，不单单依赖目标的颜色、轮廓等单一特征，通过训练神经网络的方式，使算法区分出人体与非人体。从而达到跟踪的目的，跟踪准确性较高。由于进行人体跟踪时，算法只需要区分人体和非人体两个类别，所以算法去掉了原Faster-RCNN算法的全连接层的分类层，采用卡尔曼滤波算法对运动人***置进行估计，大大提升了算法的实时性。此外，算法采用卡尔曼滤波算法估计运动人***置，当简化后的Faster-RCNN出现局部丢帧(无运动人体侯选框输出)情况时，卡尔曼滤波算法也可以通过本帧运动人***置的预测值对本帧运动人***置进行预测，使算法的鲁棒性更强。

附图说明

图1是Faster-RCNN网络简化图。

图2是Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法流程图。

具体实施方式

下面结合附图对本发明做进一步描述：

随着社会经济类型的逐步转变，人类的双手渐渐从机械劳动中解放，大量机械劳动由机器人代为进行。移动机器人的发展经历了从最初的遥控行驶搬运各种货物，到现在的自动跟踪可为特定人员提供跟踪服务，目标人体的检测跟踪技术是其主要的技术上升点。近年来，数字图像处理技术日渐成熟，基于视觉图像处理的目标人体跟踪技术成为众多的学者和企业的研究热点。运动人体跟踪是指在复杂的环境中从连续的视频图像里精确分辨出人体所在位置并进行跟踪的过程。在商场监控、交通管制等领域中，摄像头固定不动，即跟踪背景不发生变化时，称为静态背景下运动人体跟踪与身份识别。该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪与身份识别技术提出新的要求，当摄像头搭载在机器人上进行移动时，同样也需要对运动的人体进行跟踪与识别，此时，摄像头拍取的图像背景是不断发生变化的，无法提取固定的背景模型，被称为移动机器人动态人体跟踪与识别，是目前运动人体跟踪与识别方向的主要攻克难点。

运动人体跟踪是指在复杂的环境中从连续的视频图像里精确分辨出人体所在位置并进行跟踪的过程。在商场监控、交通管制等领域中，摄像头固定不动，即跟踪背景不发生变化时，称为静态背景下运动人体跟踪与身份识别。该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪与身份识别技术提出新的要求，当摄像头搭载在机器人上进行移动时，同样也需要对运动的人体进行跟踪与识别，此时，摄像头拍取的图像背景是不断发生变化的，无法提取固定的背景模型，被称为移动机器人动态人体跟踪与识别，是目前运动人体跟踪与识别方向的主要攻克难点。现有的运动人体跟踪方法，多是针对运动人体的单一特征，且不能实现运动人体出现遮挡时人体的跟踪情况。本发明针对移动机器人动态人体跟踪情况，提出了一种Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法，实现了动态背景下运动人体的跟踪。

发明属于图像处理技术领域，具体涉及的是一种Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法。(1)Faster-RCNN网络的简化；(2)卡尔曼滤波算法的改进；(3)简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合；该算法首先对原有的Faster-RCNN算法进行简化，只留下原算法的卷积神经网络和RPN网络，输入图像经过以上两个网络输出多个(约300个)运动人体候选位置。然后对经典的卡尔曼滤波算法进行改进，为了变达运动人***置的实时变化及位置关系，将原算法中定义为常值矩阵的噪声协方差矩阵改变为时变矩阵，同时，将原状态向量由四维扩展为八维，增加了状态向量中运动人***置框的宽度、高度和宽高变化率信息，以此来适应运动人体尺度上的变化。最后将简化Faster-RCNN算法得到的运动人体候选位置作为卡尔曼滤波算法的观测值，结合卡尔曼滤波算法的预测值，得到多个运动人***置的估计值，通过对多个估计值进行最小二乘拟合，去除离群点，去剩余位置求取平均值得到运动人***置的最优估计。该方法实现了动态背景下运动人体准确跟踪的效果。

本发明的步骤如下：

步骤1、Faster-RCNN网络的简化。去掉原Faster-RCNN的全连接层，只保留卷积神经网络和RPN网络，经RPN网络得到关于运动人体候选位置的坐标及是否为人体的几率值。

步骤2、卡尔曼滤波算法的改进。将原算法中状态向量的噪声协方差矩阵和观测向量的噪声协方差矩阵改成时变矩阵，计算采用协方差矩阵计算公式；将原来四维状态向量扩展为八维向量，即由x_k＝[x_k,y_k,v_xk,v_yk]变为x_k＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk]。

步骤3、简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合。由简化的Faster-RCNN网络将得到约300个运动人体候选位置，将这些位置向量作为卡尔曼滤波算法的观测值输入，结合由卡尔曼滤波算法上一帧最优值得到的本帧运动人***置的估计值，得到本帧运动人***置的最优估计值，对约300个人***置最优估计值进行最小二乘法拟合，去除离群位置，对剩余的人***置求取平均值最为最后的人***置。

实施例：

(1)Faster-RCNN网络的简化

原Faster-RCNN网络大体包含卷积神经该网络、RPN网络和全连接层三个部分。由于全连接层在进行特征分类的时候，含有上百万的参数，运行速度较慢，不符合动态背景下运动人体跟踪实时性的要求，因此在简化Faster-RCNN网络的时候需要去掉全连接层部分。

1.1)卷积特征图的获得

输入图像在进入卷积神经网络前，为了确保输出向量的一致性，需要进行大小调整(resize)，将所有的输入图像调整为800×600大小。之后将图片送入训练好的卷积神经网络(VGG16)，得到关于输入图像的完整的卷积特征图。

1.2)运动人体候选区域的获得

该网络首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积，这样会使特征图中的每个点融合周围的空间信息，使得特征的鲁棒性更高。然后该网络分为了两条主线，一条主线经过1*1的卷积和损失函数，输出运动人体候选区域是人和非人的概率，另一条主线经过1*1的卷积，输出运动人体候选区域的中心坐标、宽度和高度的缩放比例(d_x,d_y,d_w,d_h)。最后，结合两条主线，得到运动人体候选区域，该区域向量包含该区域是人体区域或者非人体区域的概率，以及该区域相对于真实特征区域的缩放参数。

(2)卡尔曼滤波算法的改进

在传统卡尔曼滤波算法中，观测向量和状态向量的噪声协方差矩阵是为了描述各观测值向量之间和各状态值向量之间的相关性，它们通常取为常值矩阵，但是在运动人体跟踪过程中，常值协方差矩阵不能实时反映运动人***置变化。为了实时反映运动人***置变化，本文对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算，即将其均取作时变矩阵。

协方差矩阵的运算公式为：

和

分别为X向量和Y向量的均值。协方差矩阵的形式为：

上述公式表示三个位置向量或观测向量X、Y、Z的协方差矩阵。

在本文算法中，观测值向量的噪声协方差矩阵由Faster-RCNN算法得到的300个运动人体候选区域的位置信息进行计算。状态向量的噪声协方差矩阵由卡尔曼滤波得到的多个状态向量进行计算。

此外，在传统卡尔曼滤波算法中，k时刻的状态向量记作x_k＝[x_k,y_k,v_xk,v_yk]，为了适应动态人体跟踪中人体可能出现的尺度变化的情况，本文将状态向量重新定义为x_k＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk]，其中，w_k为k时刻人体检测框的宽度；h_k表示k时刻x状态下的人体检测框的高度；d_wk、d_hk为人体检测框的宽度变化率、高度变化率。

完成了上述改进后，按照下述递推公式进行运动人***置计算：

(1)k时刻***协方差矩阵的方程：

P_k＝((P_k ^-)^-1+H^TR₁ ^-1H)^-1

其中，H矩阵为测量矩阵，R₁为观测值的噪声矩阵，

是由k-1时刻的协方差推导出的k时刻协方差的预测值。

(2)k时刻增益矩阵方程：

K_k＝p_kH^TR^-1

(3)k时刻状态向量方程：

其中，

是k时刻状态向量的最优估计值；

(4)k+1时刻的状态向量方程：

其中，Φ是状态转移矩阵；

(5)k+1时刻协方差预测值方程：

其中，Q₁是状态向量的噪声矩阵。

(6)卡尔曼滤波算法的离散运动模型和观测模型：

状态方程：

X(k+1)＝ΦX(k)+Q

观测方程：

Z(k)＝HX(k)+R

其中，X(k)为k时刻状态向量，Z(k)为k时刻的观测向量。

(3)简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合

简化后的Faster-RCNN算法去掉了之前的分类层，并采用非极大值抑制算法得到约300个运动人体候选区域，每个区域都包含自己所在位置的坐标、位置坐标的变化率、区域的宽度和高度、区域宽度和高度的变化率以及区域是人与非人的概率。将得到的运动人体候选区域的位置信息作为卡尔曼滤波算法的观测值进行输入，此时卡尔曼滤波算法的观测值不再是一个简单的位置，而是一簇表示运动人***置的向量，而预测值由上一帧的最优估计值推算得到。将观测值和预测值送入卡尔曼滤波算法得到关于人***置的多个状态向量，即x_{k i}＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk](0≤i≤n),n表示运动人体候选区域的个数，再将多个状态向量分别带入观测方程，得到多个人***置，由于运动人体候选区域在真实人体区域存在较多重叠，即运动人体候选区域集中在同一区域。所以本文对多个位置采用最小二乘法，去除离群位置，对剩余的位置求取平均值作为人***置的最优估计。

当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时，简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息，此时卡尔曼滤波算法的观测值为0向量，对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值，即本帧的估计值，通过估计值对运动人***置进行实时计算，达到跟踪的目的。

本发明具体实施方式还包括：

本发明实施方式包括以下步骤：

(1)Faster-RCNN网络的简化

1.1)卷积特征图的获得

1.2)运动人体候选区域的获得

该网络首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积，这样会使特征图中的每个点融合周围的空间信息，使得特征的鲁棒性更高。然后该网络分为了两条主线，一条主线经过1*1的卷积和损失函数，输出运动人体候选区域是人和非人的概率，另一条主线经过1*1的卷积，输出运动人体候选区域的中心坐标、宽度和高度的缩放比例，即(d_x,d_y,d_w,d_h)。最后，结合两条主线，得到运动人体候选区域，该区域向量包含该区域是人体区域或者非人体区域的概率，以及该区域相对于真实特征区域的缩放参数。

(2)卡尔曼滤波算法的改进

协方差矩阵的运算公式为：

和

分别为X向量和Y向量的均值。协方差矩阵的形式为：

在本文算法中，观测值向量的噪声协方差矩阵由Faster-RCNN算法得到的运动人体候选区域的位置信息进行计算。状态向量的噪声协方差矩阵由卡尔曼滤波得到的状态向量进行计算。

此外，在传统卡尔曼滤波算法中，k时刻的状态向量记作x_k＝[x_k,y_k,v_xk,v_yk]，为了适应动态人体跟踪中人体可能出现的尺度变化的情况，本文将状态向量重新定义为x_k＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk]，其中，x_k、y_k分别为k时刻人体检测框的横向坐标值与纵向坐标值；v_xk、v_yk分别为人体检测框在k时刻的横向运动速度和纵向运动速度；w_k为k时刻人体检测框的宽度；h_k表示k时刻x状态下的人体检测框的高度；d_wk、d_hk为人体检测框的宽度变化率、高度变化率。

完成了上述改进后，将各改进变量带入以下递推方程，得到本帧运动人***置的最优估计值，即

(1)k时刻***协方差矩阵的方程：

P_k＝((P_k ^-)^-1+H^TR₁ ^-1H)^-1

其中，H矩阵为测量矩阵，R₁为观测值的噪声矩阵，

是由k-1时刻的协方差推导出的k时刻协方差的预测值。

(2)k时刻增益矩阵方程：

K_k＝p_kH^TR^-1

(3)k时刻状态向量方程：

其中，

是k时刻状态向量的最优估计值；

(4)k+1时刻的状态向量方程：

其中，Φ是状态转移矩阵；

(5)k+1时刻协方差预测值方程：

其中，Q₁是状态向量的噪声矩阵。

(6)卡尔曼滤波算法的离散运动模型和观测模型：

状态方程：

X(k+1)＝ΦX(k)+Q

观测方程：

Z(k)＝HX(k)+R

其中，X(k)为k时刻状态向量，Z(k)为k时刻的观测向量。

(3)简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合

简化后的Faster-RCNN算法去掉了之前的分类层，并采用非极大值抑制算法得到运动人体候选区域，每个区域都包含自己所在位置的坐标、位置坐标的变化率、区域的宽度和高度、区域宽度和高度的变化率以及区域是人与非人的概率。将得到的运动人体候选区域的位置信息x_k＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk]作为卡尔曼滤波算法的观测值进行输入，此时卡尔曼滤波算法的观测值不再是一个简单的位置，而是一簇表示运动人***置的向量，而预测值由上一帧的最优估计值推算得到。将观测值和预测值送入卡尔曼滤波算法得到关于人***置的状态向量，即x_{k i}＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk](0≤i≤n),n表示运动人体候选区域的个数，再将状态向量分别带入观测方程，得到人***置，由于运动人体候选区域在真实人体区域存在较多重叠，即运动人体候选区域集中在同一区域。所以本文对多个位置采用最小二乘法，去除离群位置，对剩余的位置求取平均值作为人***置的最优估计。

当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时，简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息，此时卡尔曼滤波算法的观测值为0向量，对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值，即上一帧最优值对本帧的估计值，通过估计值对运动人***置进行实时计算，达到跟踪的目的。

Claims

1.一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法，其特征在于，包括如下步骤：

步骤1：简化Faster-RCNN网络，获得运动人体获选区域

所述Faster-RCNN网络不包括全连接层部分，

1.1)获得卷积特征图

1.2)获得运动人体候选区域

首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积，使特征图中的每个点融合周围的空间信息；然后简化后的Faster-RCNN网络分为了两条主线，一条主线经过1*1的卷积和损失函数，输出运动人体候选区域是人和非人的概率，另一条主线经过1*1的卷积，输出运动人体候选区域的中心坐标、宽度和高度的缩放比例(d_x,d_y,d_w,d_h)；最后，结合两条主线，得到运动人体候选区域，该区域向量包含该区域是人体区域或者非人体区域的概率，以及该区域相对于真实特征区域的缩放参数(d_x,d_y,d_w,d_h)；

步骤2：改进卡尔曼滤波算法

协方差矩阵的运算公式为：

和

分别为X向量和Y向量的均值，协方差矩阵的形式为：

表示三个位置向量或观测向量X、Y、Z的协方差矩阵；

状态向量重新定义为x_k＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk]，其中，x_k、y_k分别为k时刻人体检测框的横向坐标值与纵向坐标值；v_xk、v_yk分别为人体检测框在k时刻的横向运动速度和纵向运动速度；w_k为k时刻人体检测框的宽度；h_k表示k时刻x状态下的人体检测框的高度；d_wk、d_hk为人体检测框的宽度变化率、高度变化率；

计算本帧运动人***置的最优估计值

包括：

k时刻***协方差矩阵的方程：

P_k＝((P_k ^-)^-1+H^TR₁ ^-1H)^-1

其中，H矩阵为测量矩阵，R₁为观测值的噪声矩阵，

是由k-1时刻的协方差推导出的k时刻协方差的预测值；

k时刻增益矩阵方程：

K_k＝p_kH^TR^-1

k时刻状态向量方程：

其中，

是k时刻状态向量的最优估计值；

k+1时刻的状态向量方程：

其中，Φ是状态转移矩阵；

k+1时刻协方差预测值方程：

其中，Q₁是状态向量的噪声矩阵；

卡尔曼滤波算法的离散运动模型和观测模型：

状态方程：

X(k+1)＝ΦX(k)+Q

观测方程：

Z(k)＝HX(k)+R

其中，X(k)为k时刻状态向量，Z(k)为k时刻的观测向量；

步骤3：简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合

将得到的运动人体候选区域的位置信息x_k＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk]作为卡尔曼滤波算法的观测值进行输入，预测值由上一帧的最优估计值推算得到；将观测值和预测值送入步骤2改进后的卡尔曼滤波算法得到关于人***置的状态向量，即x_ki＝[x_k,y_k,v_xk,v_yk,w_k,h_k,d_wk,d_hk](0≤i≤n),n表示运动人体候选区域的个数，再将状态向量分别带入观测方程，得到人***置，对多个位置采用最小二乘法，去除离群位置，对剩余的位置求取平均值作为人***置的最优估计；