CN110321937B - 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 - Google Patents

一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 Download PDF

Info

Publication number
CN110321937B
CN110321937B CN201910526422.5A CN201910526422A CN110321937B CN 110321937 B CN110321937 B CN 110321937B CN 201910526422 A CN201910526422 A CN 201910526422A CN 110321937 B CN110321937 B CN 110321937B
Authority
CN
China
Prior art keywords
human body
kalman filtering
value
moving
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910526422.5A
Other languages
English (en)
Other versions
CN110321937A (zh
Inventor
苏丽
朱伟
张智
朱齐丹
秦绪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910526422.5A priority Critical patent/CN110321937B/zh
Publication of CN110321937A publication Critical patent/CN110321937A/zh
Application granted granted Critical
Publication of CN110321937B publication Critical patent/CN110321937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种Faster‑RCNN结合卡尔曼滤波的运动人体跟踪方法,首先对Faster‑RCNN算法进行简化,留下卷积神经网络和RPN网络,输入图像经过以上两个网络输出运动人体候选位置;然后对经典卡尔曼滤波算法进行改进,将原算法中定义为常值矩阵的噪声协方差矩阵改为时变矩阵,将原状态向量由四维扩展为八维,增加状态向量中运动人***置框的宽度、高度和宽高变化率信息;最后将得到的运动人体候选位置作为卡尔曼滤波算法观测值,结合卡尔曼滤波算法预测值,得到多个运动人***置的估计值,通过最小二乘拟合,去除离群点,去剩余位置求取平均值得到运动人***置最优估计。该方法实现了动态背景下运动人体准确跟踪的效果。

Description

一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法
技术领域
本发明涉及一种运动人体跟踪方法,特别是一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法,属于图像处理技术领域。
背景技术
随着社会经济类型的逐步转变,人类的双手渐渐从机械劳动中解放,大量机械劳动由机器人代为进行。移动机器人的发展经历了从最初的遥控行驶搬运各种货物,到现在的自动跟踪可为特定人员提供跟踪服务,目标人体的检测跟踪技术是其主要的技术上升点。近年来,数字图像处理技术日渐成熟,基于视觉图像处理的目标人体跟踪技术成为众多的学者和企业的研究热点。
运动人体跟踪是指在复杂的环境中从连续的视频图像里精确分辨出人体所在位置并进行跟踪的过程。在商场监控、交通管制等领域中,摄像头固定不动,即跟踪背景不发生变化时,称为静态背景下运动人体跟踪与身份识别。该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪与身份识别技术提出新的要求,当摄像头搭载在机器人上进行移动时,同样也需要对运动的人体进行跟踪与识别,此时,摄像头拍取的图像背景是不断发生变化的,无法提取固定的背景模型,被称为移动机器人动态人体跟踪与识别,是目前运动人体跟踪与识别方向的主要攻克难点。
动态背景环境下,对运动人体进行跟踪的方法可以划分为两类:第一类是经典的动态背景下运动人体跟踪方法,在初始目标的基础上,基于运动目标的颜色、轮廓、运动矢量进行跟踪。第二类是基于卷积神经网络的运动人体跟踪方法,通过大量人体数据集对网络进行训练,使其能够准确区分出人与背景,在动态背景视频中帧帧检测出人体目标,并进行人体跟踪。经典的动态背景下运动人体跟踪方法在进行跟踪时过度依赖跟踪目标的颜色、轮廓、运动矢量等特征,忽略了背景在跟踪过程中的意义,导致运动人体跟踪过度依赖目标的单一或几种显示特征。与经典动态背景下运动人体跟踪方法相比,基于卷积神经网络的深度学习的方法不依赖某种单一显示特征,对输入图像的特征利用率更高,所以跟踪的准确性和鲁棒性会大大提升。基于Faster-RCNN的方法是用于运动人体跟踪最主流的方法,但此方法在进行人体分类时采用的是全连接层进行分类,网络参数过百万,严重影响了运动人体跟踪的实时性。且该方法不适用于运动人体出现遮挡的情况,运动人体出现遮挡时,跟踪即失败。
考虑到动态背景下运动人体跟踪,具有准确性高、实时性高、鲁棒性高的要求,本发明提出了一种Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法,该算法首先对原有的Faster-RCNN算法进行简化,只留下原算法的卷积神经网络和RPN网络,输入图像经过以上两个网络输出多个(约300个)运动人体候选位置。然后对经典的卡尔曼滤波算法进行改进,为了变达运动人***置的实时变化及位置关系,将原算法中定义为常值矩阵的噪声协方差矩阵改变为时变矩阵,同时,将原状态向量由四维扩展为八维,增加了状态向量中运动人***置框的宽度、高度和宽高变化率信息,以此来适应运动人体尺度上的变化。最后将简化Faster-RCNN算法得到的运动人体候选位置作为卡尔曼滤波算法的观测值,结合卡尔曼滤波算法的预测值,得到多个运动人***置的估计值,通过对多个估计值进行最小二乘拟合,去除离群点,去剩余位置求取平均值得到运动人***置的最优估计。该方法实现了动态背景下运动人体准确跟踪的效果。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种跟踪效果准确度高、实时性高、鲁棒性高的Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法。
为解决上述技术问题,本发明的一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法,包括如下步骤:
步骤1:简化Faster-RCNN网络,获得运动人体获选区域
Faster-RCNN网络不包括全连接层部分,
1.1)获得卷积特征图
输入图像在进入简化后的Faster-RCNN网络的卷积神经网络前,进行大小调整,将所有的输入图像调整为800×600,之后将图片送入训练好的卷积神经网络VGG16,得到关于输入图像的完整的卷积特征图;
1.2)获得运动人体候选区域
首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积,使特征图中的每个点融合周围的空间信息;然后简化后的Faster-RCNN网络分为了两条主线,一条主线经过1*1的卷积和损失函数,输出运动人体候选区域是人和非人的概率,另一条主线经过1*1的卷积,输出运动人体候选区域的中心坐标、宽度和高度的缩放比例(dx,dy,dw,dh);最后,结合两条主线,得到运动人体候选区域,该区域向量包含该区域是人体区域或者非人体区域的概率,以及该区域相对于真实特征区域的缩放参数(dx,dy,dw,dh)。
步骤2:改进卡尔曼滤波算法
对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算,即将协方差矩阵均取作时变矩阵:
协方差矩阵的运算公式为:
Figure BDA0002098371000000031
其中,X、Y为求取相关性的两个位置向量或观测向量;n为每个向量包含的元素个数;i为向量中的元素序号;
Figure BDA0002098371000000032
Figure BDA0002098371000000033
分别为X向量和Y向量的均值,协方差矩阵的形式为:
Figure BDA0002098371000000034
表示三个位置向量或观测向量X、Y、Z的协方差矩阵;
观测值向量的噪声协方差矩阵由步骤1得到的运动人体候选区域的位置信息进行计算,状态向量的噪声协方差矩阵由卡尔曼滤波得到的状态向量进行计算;
状态向量重新定义为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk],其中,其中,xk、yk分别为k时刻人体检测框的横向坐标值与纵向坐标值;vxk、vyk分别为人体检测框在k时刻的横向运动速度和纵向运动速度;wk为k时刻人体检测框的宽度;hk表示k时刻x状态下的人体检测框的高度;dwk、dhk为人体检测框的宽度变化率、高度变化率;
计算本帧运动人***置的最优估计值
Figure BDA0002098371000000035
包括:
k时刻***协方差矩阵的方程:
Pk=((Pk -)-1+HTR1 -1H)-1
其中,H矩阵为测量矩阵,R1为观测值的噪声矩阵,
Figure BDA0002098371000000036
是由k-1时刻的协方差推导出的k时刻协方差的预测值。
k时刻增益矩阵方程:
Kk=pkHTR-1
k时刻状态向量方程:
Figure BDA0002098371000000037
其中,
Figure BDA0002098371000000038
是k时刻状态向量的最优估计值;
Figure BDA0002098371000000039
是由k-1时刻的状态向量最优值推导出的k时刻状态向量预测值;Zk是k时刻观测向量;
k+1时刻的状态向量方程:
Figure BDA0002098371000000041
其中,Φ是状态转移矩阵;
k+1时刻协方差预测值方程:
Figure BDA0002098371000000042
其中,Q1是状态向量的噪声矩阵;
卡尔曼滤波算法的离散运动模型和观测模型:
状态方程:
X(k+1)=ΦX(k)+Q
观测方程:
Z(k)=HX(k)+R
其中,X(k)为k时刻状态向量,Z(k)为k时刻的观测向量;
步骤3:简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合
将得到的运动人体候选区域的位置信息xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk]作为卡尔曼滤波算法的观测值进行输入,预测值由上一帧的最优估计值推算得到;将观测值和预测值送入步骤2改进后的卡尔曼滤波算法得到关于人***置的状态向量,即xk i=[xk,yk,vxk,vyk,wk,hk,dwk,dhk](0≤i≤n),n表示运动人体候选区域的个数,再将状态向量分别带入观测方程,得到人***置,对多个位置采用最小二乘法,去除离群位置,对剩余的位置求取平均值作为人***置的最优估计。
当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时,简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息,此时卡尔曼滤波算法的观测值为0向量,对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值。
本发明有益效果:移动背景下的运动人体跟踪在监控、导航、服务等多个方面都有较多的应用。但是,由于移动背景难以形成固定的模板,导致运动人体跟踪较为艰难。Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法相比较于传统的运动人体跟踪方法(Camshift算法、粒子滤波算法等),不单单依赖目标的颜色、轮廓等单一特征,通过训练神经网络的方式,使算法区分出人体与非人体。从而达到跟踪的目的,跟踪准确性较高。由于进行人体跟踪时,算法只需要区分人体和非人体两个类别,所以算法去掉了原Faster-RCNN算法的全连接层的分类层,采用卡尔曼滤波算法对运动人***置进行估计,大大提升了算法的实时性。此外,算法采用卡尔曼滤波算法估计运动人***置,当简化后的Faster-RCNN出现局部丢帧(无运动人体侯选框输出)情况时,卡尔曼滤波算法也可以通过本帧运动人***置的预测值对本帧运动人***置进行预测,使算法的鲁棒性更强。
附图说明
图1是Faster-RCNN网络简化图。
图2是Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法流程图。
具体实施方式
下面结合附图对本发明做进一步描述:
随着社会经济类型的逐步转变,人类的双手渐渐从机械劳动中解放,大量机械劳动由机器人代为进行。移动机器人的发展经历了从最初的遥控行驶搬运各种货物,到现在的自动跟踪可为特定人员提供跟踪服务,目标人体的检测跟踪技术是其主要的技术上升点。近年来,数字图像处理技术日渐成熟,基于视觉图像处理的目标人体跟踪技术成为众多的学者和企业的研究热点。运动人体跟踪是指在复杂的环境中从连续的视频图像里精确分辨出人体所在位置并进行跟踪的过程。在商场监控、交通管制等领域中,摄像头固定不动,即跟踪背景不发生变化时,称为静态背景下运动人体跟踪与身份识别。该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪与身份识别技术提出新的要求,当摄像头搭载在机器人上进行移动时,同样也需要对运动的人体进行跟踪与识别,此时,摄像头拍取的图像背景是不断发生变化的,无法提取固定的背景模型,被称为移动机器人动态人体跟踪与识别,是目前运动人体跟踪与识别方向的主要攻克难点。
运动人体跟踪是指在复杂的环境中从连续的视频图像里精确分辨出人体所在位置并进行跟踪的过程。在商场监控、交通管制等领域中,摄像头固定不动,即跟踪背景不发生变化时,称为静态背景下运动人体跟踪与身份识别。该方法多用于功能简单、环境单一的跟踪识别领域。近年来社会发展对人体跟踪与身份识别技术提出新的要求,当摄像头搭载在机器人上进行移动时,同样也需要对运动的人体进行跟踪与识别,此时,摄像头拍取的图像背景是不断发生变化的,无法提取固定的背景模型,被称为移动机器人动态人体跟踪与识别,是目前运动人体跟踪与识别方向的主要攻克难点。现有的运动人体跟踪方法,多是针对运动人体的单一特征,且不能实现运动人体出现遮挡时人体的跟踪情况。本发明针对移动机器人动态人体跟踪情况,提出了一种Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法,实现了动态背景下运动人体的跟踪。
发明属于图像处理技术领域,具体涉及的是一种Faster-RCNN与卡尔曼滤波结合的运动人体跟踪方法。(1)Faster-RCNN网络的简化;(2)卡尔曼滤波算法的改进;(3)简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合;该算法首先对原有的Faster-RCNN算法进行简化,只留下原算法的卷积神经网络和RPN网络,输入图像经过以上两个网络输出多个(约300个)运动人体候选位置。然后对经典的卡尔曼滤波算法进行改进,为了变达运动人***置的实时变化及位置关系,将原算法中定义为常值矩阵的噪声协方差矩阵改变为时变矩阵,同时,将原状态向量由四维扩展为八维,增加了状态向量中运动人***置框的宽度、高度和宽高变化率信息,以此来适应运动人体尺度上的变化。最后将简化Faster-RCNN算法得到的运动人体候选位置作为卡尔曼滤波算法的观测值,结合卡尔曼滤波算法的预测值,得到多个运动人***置的估计值,通过对多个估计值进行最小二乘拟合,去除离群点,去剩余位置求取平均值得到运动人***置的最优估计。该方法实现了动态背景下运动人体准确跟踪的效果。
本发明的步骤如下:
步骤1、Faster-RCNN网络的简化。去掉原Faster-RCNN的全连接层,只保留卷积神经网络和RPN网络,经RPN网络得到关于运动人体候选位置的坐标及是否为人体的几率值。
步骤2、卡尔曼滤波算法的改进。将原算法中状态向量的噪声协方差矩阵和观测向量的噪声协方差矩阵改成时变矩阵,计算采用协方差矩阵计算公式;将原来四维状态向量扩展为八维向量,即由xk=[xk,yk,vxk,vyk]变为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk]。
步骤3、简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合。由简化的Faster-RCNN网络将得到约300个运动人体候选位置,将这些位置向量作为卡尔曼滤波算法的观测值输入,结合由卡尔曼滤波算法上一帧最优值得到的本帧运动人***置的估计值,得到本帧运动人***置的最优估计值,对约300个人***置最优估计值进行最小二乘法拟合,去除离群位置,对剩余的人***置求取平均值最为最后的人***置。
实施例:
(1)Faster-RCNN网络的简化
原Faster-RCNN网络大体包含卷积神经该网络、RPN网络和全连接层三个部分。由于全连接层在进行特征分类的时候,含有上百万的参数,运行速度较慢,不符合动态背景下运动人体跟踪实时性的要求,因此在简化Faster-RCNN网络的时候需要去掉全连接层部分。
1.1)卷积特征图的获得
输入图像在进入卷积神经网络前,为了确保输出向量的一致性,需要进行大小调整(resize),将所有的输入图像调整为800×600大小。之后将图片送入训练好的卷积神经网络(VGG16),得到关于输入图像的完整的卷积特征图。
1.2)运动人体候选区域的获得
该网络首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积,这样会使特征图中的每个点融合周围的空间信息,使得特征的鲁棒性更高。然后该网络分为了两条主线,一条主线经过1*1的卷积和损失函数,输出运动人体候选区域是人和非人的概率,另一条主线经过1*1的卷积,输出运动人体候选区域的中心坐标、宽度和高度的缩放比例(dx,dy,dw,dh)。最后,结合两条主线,得到运动人体候选区域,该区域向量包含该区域是人体区域或者非人体区域的概率,以及该区域相对于真实特征区域的缩放参数。
(2)卡尔曼滤波算法的改进
在传统卡尔曼滤波算法中,观测向量和状态向量的噪声协方差矩阵是为了描述各观测值向量之间和各状态值向量之间的相关性,它们通常取为常值矩阵,但是在运动人体跟踪过程中,常值协方差矩阵不能实时反映运动人***置变化。为了实时反映运动人***置变化,本文对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算,即将其均取作时变矩阵。
协方差矩阵的运算公式为:
Figure BDA0002098371000000071
其中,X、Y为求取相关性的两个位置向量或观测向量;n为每个向量包含的元素个数;i为向量中的元素序号;
Figure BDA0002098371000000072
Figure BDA0002098371000000073
分别为X向量和Y向量的均值。协方差矩阵的形式为:
Figure BDA0002098371000000074
上述公式表示三个位置向量或观测向量X、Y、Z的协方差矩阵。
在本文算法中,观测值向量的噪声协方差矩阵由Faster-RCNN算法得到的300个运动人体候选区域的位置信息进行计算。状态向量的噪声协方差矩阵由卡尔曼滤波得到的多个状态向量进行计算。
此外,在传统卡尔曼滤波算法中,k时刻的状态向量记作xk=[xk,yk,vxk,vyk],为了适应动态人体跟踪中人体可能出现的尺度变化的情况,本文将状态向量重新定义为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk],其中,wk为k时刻人体检测框的宽度;hk表示k时刻x状态下的人体检测框的高度;dwk、dhk为人体检测框的宽度变化率、高度变化率。
完成了上述改进后,按照下述递推公式进行运动人***置计算:
(1)k时刻***协方差矩阵的方程:
Pk=((Pk -)-1+HTR1 -1H)-1
其中,H矩阵为测量矩阵,R1为观测值的噪声矩阵,
Figure BDA0002098371000000081
是由k-1时刻的协方差推导出的k时刻协方差的预测值。
(2)k时刻增益矩阵方程:
Kk=pkHTR-1
(3)k时刻状态向量方程:
Figure BDA0002098371000000082
其中,
Figure BDA0002098371000000083
是k时刻状态向量的最优估计值;
Figure BDA0002098371000000084
是由k-1时刻的状态向量最优值推导出的k时刻状态向量预测值;Zk是k时刻观测向量;
(4)k+1时刻的状态向量方程:
Figure BDA0002098371000000085
其中,Φ是状态转移矩阵;
(5)k+1时刻协方差预测值方程:
Figure BDA0002098371000000086
其中,Q1是状态向量的噪声矩阵。
(6)卡尔曼滤波算法的离散运动模型和观测模型:
状态方程:
X(k+1)=ΦX(k)+Q
观测方程:
Z(k)=HX(k)+R
其中,X(k)为k时刻状态向量,Z(k)为k时刻的观测向量。
(3)简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合
简化后的Faster-RCNN算法去掉了之前的分类层,并采用非极大值抑制算法得到约300个运动人体候选区域,每个区域都包含自己所在位置的坐标、位置坐标的变化率、区域的宽度和高度、区域宽度和高度的变化率以及区域是人与非人的概率。将得到的运动人体候选区域的位置信息作为卡尔曼滤波算法的观测值进行输入,此时卡尔曼滤波算法的观测值不再是一个简单的位置,而是一簇表示运动人***置的向量,而预测值由上一帧的最优估计值推算得到。将观测值和预测值送入卡尔曼滤波算法得到关于人***置的多个状态向量,即xk i=[xk,yk,vxk,vyk,wk,hk,dwk,dhk](0≤i≤n),n表示运动人体候选区域的个数,再将多个状态向量分别带入观测方程,得到多个人***置,由于运动人体候选区域在真实人体区域存在较多重叠,即运动人体候选区域集中在同一区域。所以本文对多个位置采用最小二乘法,去除离群位置,对剩余的位置求取平均值作为人***置的最优估计。
当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时,简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息,此时卡尔曼滤波算法的观测值为0向量,对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值,即本帧的估计值,通过估计值对运动人***置进行实时计算,达到跟踪的目的。
本发明具体实施方式还包括:
本发明实施方式包括以下步骤:
(1)Faster-RCNN网络的简化
原Faster-RCNN网络大体包含卷积神经该网络、RPN网络和全连接层三个部分。由于全连接层在进行特征分类的时候,含有上百万的参数,运行速度较慢,不符合动态背景下运动人体跟踪实时性的要求,因此在简化Faster-RCNN网络的时候需要去掉全连接层部分。
1.1)卷积特征图的获得
输入图像在进入卷积神经网络前,为了确保输出向量的一致性,需要进行大小调整(resize),将所有的输入图像调整为800×600大小。之后将图片送入训练好的卷积神经网络(VGG16),得到关于输入图像的完整的卷积特征图。
1.2)运动人体候选区域的获得
该网络首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积,这样会使特征图中的每个点融合周围的空间信息,使得特征的鲁棒性更高。然后该网络分为了两条主线,一条主线经过1*1的卷积和损失函数,输出运动人体候选区域是人和非人的概率,另一条主线经过1*1的卷积,输出运动人体候选区域的中心坐标、宽度和高度的缩放比例,即(dx,dy,dw,dh)。最后,结合两条主线,得到运动人体候选区域,该区域向量包含该区域是人体区域或者非人体区域的概率,以及该区域相对于真实特征区域的缩放参数。
(2)卡尔曼滤波算法的改进
在传统卡尔曼滤波算法中,观测向量和状态向量的噪声协方差矩阵是为了描述各观测值向量之间和各状态值向量之间的相关性,它们通常取为常值矩阵,但是在运动人体跟踪过程中,常值协方差矩阵不能实时反映运动人***置变化。为了实时反映运动人***置变化,本文对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算,即将其均取作时变矩阵。
协方差矩阵的运算公式为:
Figure BDA0002098371000000101
其中,X、Y为求取相关性的两个位置向量或观测向量;n为每个向量包含的元素个数;i为向量中的元素序号;
Figure BDA0002098371000000102
Figure BDA0002098371000000103
分别为X向量和Y向量的均值。协方差矩阵的形式为:
Figure BDA0002098371000000104
上述公式表示三个位置向量或观测向量X、Y、Z的协方差矩阵。
在本文算法中,观测值向量的噪声协方差矩阵由Faster-RCNN算法得到的运动人体候选区域的位置信息进行计算。状态向量的噪声协方差矩阵由卡尔曼滤波得到的状态向量进行计算。
此外,在传统卡尔曼滤波算法中,k时刻的状态向量记作xk=[xk,yk,vxk,vyk],为了适应动态人体跟踪中人体可能出现的尺度变化的情况,本文将状态向量重新定义为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk],其中,xk、yk分别为k时刻人体检测框的横向坐标值与纵向坐标值;vxk、vyk分别为人体检测框在k时刻的横向运动速度和纵向运动速度;wk为k时刻人体检测框的宽度;hk表示k时刻x状态下的人体检测框的高度;dwk、dhk为人体检测框的宽度变化率、高度变化率。
完成了上述改进后,将各改进变量带入以下递推方程,得到本帧运动人***置的最优估计值,即
Figure BDA0002098371000000105
(1)k时刻***协方差矩阵的方程:
Pk=((Pk -)-1+HTR1 -1H)-1
其中,H矩阵为测量矩阵,R1为观测值的噪声矩阵,
Figure BDA0002098371000000106
是由k-1时刻的协方差推导出的k时刻协方差的预测值。
(2)k时刻增益矩阵方程:
Kk=pkHTR-1
(3)k时刻状态向量方程:
Figure BDA0002098371000000111
其中,
Figure BDA0002098371000000112
是k时刻状态向量的最优估计值;
Figure BDA0002098371000000113
是由k-1时刻的状态向量最优值推导出的k时刻状态向量预测值;Zk是k时刻观测向量;
(4)k+1时刻的状态向量方程:
Figure BDA0002098371000000114
其中,Φ是状态转移矩阵;
(5)k+1时刻协方差预测值方程:
Figure BDA0002098371000000115
其中,Q1是状态向量的噪声矩阵。
(6)卡尔曼滤波算法的离散运动模型和观测模型:
状态方程:
X(k+1)=ΦX(k)+Q
观测方程:
Z(k)=HX(k)+R
其中,X(k)为k时刻状态向量,Z(k)为k时刻的观测向量。
(3)简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合
简化后的Faster-RCNN算法去掉了之前的分类层,并采用非极大值抑制算法得到运动人体候选区域,每个区域都包含自己所在位置的坐标、位置坐标的变化率、区域的宽度和高度、区域宽度和高度的变化率以及区域是人与非人的概率。将得到的运动人体候选区域的位置信息xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk]作为卡尔曼滤波算法的观测值进行输入,此时卡尔曼滤波算法的观测值不再是一个简单的位置,而是一簇表示运动人***置的向量,而预测值由上一帧的最优估计值推算得到。将观测值和预测值送入卡尔曼滤波算法得到关于人***置的状态向量,即xk i=[xk,yk,vxk,vyk,wk,hk,dwk,dhk](0≤i≤n),n表示运动人体候选区域的个数,再将状态向量分别带入观测方程,得到人***置,由于运动人体候选区域在真实人体区域存在较多重叠,即运动人体候选区域集中在同一区域。所以本文对多个位置采用最小二乘法,去除离群位置,对剩余的位置求取平均值作为人***置的最优估计。
当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时,简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息,此时卡尔曼滤波算法的观测值为0向量,对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值,即上一帧最优值对本帧的估计值,通过估计值对运动人***置进行实时计算,达到跟踪的目的。

Claims (1)

1.一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法,其特征在于,包括如下步骤:
步骤1:简化Faster-RCNN网络,获得运动人体获选区域
所述Faster-RCNN网络不包括全连接层部分,
1.1)获得卷积特征图
输入图像在进入简化后的Faster-RCNN网络的卷积神经网络前,进行大小调整,将所有的输入图像调整为800×600,之后将图片送入训练好的卷积神经网络VGG16,得到关于输入图像的完整的卷积特征图;
1.2)获得运动人体候选区域
首先将卷积神经网络得到的特征图送入RPN网络进行3*3的卷积,使特征图中的每个点融合周围的空间信息;然后简化后的Faster-RCNN网络分为了两条主线,一条主线经过1*1的卷积和损失函数,输出运动人体候选区域是人和非人的概率,另一条主线经过1*1的卷积,输出运动人体候选区域的中心坐标、宽度和高度的缩放比例(dx,dy,dw,dh);最后,结合两条主线,得到运动人体候选区域,该区域向量包含该区域是人体区域或者非人体区域的概率,以及该区域相对于真实特征区域的缩放参数(dx,dy,dw,dh);
步骤2:改进卡尔曼滤波算法
对每一帧图像中人体的位置的观测向量和状态向量的噪声协方差矩阵进行实时计算,即将协方差矩阵均取作时变矩阵:
协方差矩阵的运算公式为:
Figure FDA0003527021030000011
其中,X、Y为求取相关性的两个位置向量或观测向量;n为每个向量包含的元素个数;i为向量中的元素序号;
Figure FDA0003527021030000012
Figure FDA0003527021030000013
分别为X向量和Y向量的均值,协方差矩阵的形式为:
Figure FDA0003527021030000014
表示三个位置向量或观测向量X、Y、Z的协方差矩阵;
观测值向量的噪声协方差矩阵由步骤1得到的运动人体候选区域的位置信息进行计算,状态向量的噪声协方差矩阵由卡尔曼滤波得到的状态向量进行计算;
状态向量重新定义为xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk],其中,xk、yk分别为k时刻人体检测框的横向坐标值与纵向坐标值;vxk、vyk分别为人体检测框在k时刻的横向运动速度和纵向运动速度;wk为k时刻人体检测框的宽度;hk表示k时刻x状态下的人体检测框的高度;dwk、dhk为人体检测框的宽度变化率、高度变化率;
计算本帧运动人***置的最优估计值
Figure FDA0003527021030000021
包括:
k时刻***协方差矩阵的方程:
Pk=((Pk -)-1+HTR1 -1H)-1
其中,H矩阵为测量矩阵,R1为观测值的噪声矩阵,
Figure FDA0003527021030000022
是由k-1时刻的协方差推导出的k时刻协方差的预测值;
k时刻增益矩阵方程:
Kk=pkHTR-1
k时刻状态向量方程:
Figure FDA0003527021030000023
其中,
Figure FDA0003527021030000024
是k时刻状态向量的最优估计值;
Figure FDA0003527021030000025
是由k-1时刻的状态向量最优值推导出的k时刻状态向量预测值;Zk是k时刻观测向量;
k+1时刻的状态向量方程:
Figure FDA0003527021030000026
其中,Φ是状态转移矩阵;
k+1时刻协方差预测值方程:
Figure FDA0003527021030000027
其中,Q1是状态向量的噪声矩阵;
卡尔曼滤波算法的离散运动模型和观测模型:
状态方程:
X(k+1)=ΦX(k)+Q
观测方程:
Z(k)=HX(k)+R
其中,X(k)为k时刻状态向量,Z(k)为k时刻的观测向量;
步骤3:简化的Faster-RCNN网络与改进的卡尔曼滤波算法的结合
将得到的运动人体候选区域的位置信息xk=[xk,yk,vxk,vyk,wk,hk,dwk,dhk]作为卡尔曼滤波算法的观测值进行输入,预测值由上一帧的最优估计值推算得到;将观测值和预测值送入步骤2改进后的卡尔曼滤波算法得到关于人***置的状态向量,即xki=[xk,yk,vxk,vyk,wk,hk,dwk,dhk](0≤i≤n),n表示运动人体候选区域的个数,再将状态向量分别带入观测方程,得到人***置,对多个位置采用最小二乘法,去除离群位置,对剩余的位置求取平均值作为人***置的最优估计;
当运动人体跟踪过程中的人体出现局部遮挡或者全部遮挡的情况时,简化的Faster-RCNN网络不再给出运动人体候选区域的位置信息,此时卡尔曼滤波算法的观测值为0向量,对运动人体的跟踪取决于卡尔曼滤波算法上一帧的最优值。
CN201910526422.5A 2019-06-18 2019-06-18 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法 Active CN110321937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910526422.5A CN110321937B (zh) 2019-06-18 2019-06-18 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910526422.5A CN110321937B (zh) 2019-06-18 2019-06-18 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法

Publications (2)

Publication Number Publication Date
CN110321937A CN110321937A (zh) 2019-10-11
CN110321937B true CN110321937B (zh) 2022-05-17

Family

ID=68119755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910526422.5A Active CN110321937B (zh) 2019-06-18 2019-06-18 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法

Country Status (1)

Country Link
CN (1) CN110321937B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488832B (zh) * 2020-04-13 2023-07-14 捻果科技(深圳)有限公司 一种机场飞行区机位适用性检查作业规范的自动识别方法
CN111768429A (zh) * 2020-06-01 2020-10-13 重庆大学 一种基于卡尔曼滤波和行人重识别算法的隧道环境下行人目标跟踪方法
CN112183600B (zh) * 2020-09-22 2021-04-27 天津大学 一种基于动态记忆库模板更新的目标跟踪方法
CN113052869A (zh) * 2021-03-10 2021-06-29 五邑大学 一种基于智慧ai测温的轨迹跟踪方法、***及存储介质
CN113012203B (zh) * 2021-04-15 2023-10-20 南京莱斯电子设备有限公司 一种复杂背景下高精度多目标跟踪方法
CN113283380A (zh) * 2021-06-11 2021-08-20 张洁欣 基于3d卷积长短期记忆网络的儿童运动姿态自动识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927764A (zh) * 2014-04-29 2014-07-16 重庆大学 一种结合目标信息和运动估计的车辆跟踪方法
CN109377517A (zh) * 2018-10-18 2019-02-22 哈尔滨工程大学 一种基于视频追踪技术的动物个体识别***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927764A (zh) * 2014-04-29 2014-07-16 重庆大学 一种结合目标信息和运动估计的车辆跟踪方法
CN109377517A (zh) * 2018-10-18 2019-02-22 哈尔滨工程大学 一种基于视频追踪技术的动物个体识别***

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Multiple Object Tracking Based on Faster-RCNN Detector and KCF Tracker;Fan Bu et al.;《http://www-personal.umich.edu/~yeeyoung/publication/MOT.pdf》;20161216;第2页 *
Vehicle Tracking Using Surveillance With Multimodal Data Fusion;Yue Zhang 等;《IEEE Transactions on Intelligent Transportation Systems》;20180123;第19卷(第7期);2353-2361 *
基于RGBD视频序列的行人跟踪算法研究;孙肖祯;《中国优秀博硕士学位论文全文数据库(硕士)》;中国学术期刊(光盘版)电子杂志社;20181015(第10期);第3章 *
基于修正的卡尔曼滤波自适应跟踪算法;赵易峰,李京华,彭京晶,许家栋;《计算机仿真》;20080831;第25卷(第8期);59-63 *
基于深度卷积网络与尺度不变特征变换的行人跟踪框架;陈凯, 宋晓, 刘敬;《中国科学:信息科学 复杂***只能仿真与控制专刊》;《中国科学》杂志社;20180717;第48卷(第7期);841-855 *
基于深度学习的单目视觉车辆检测与跟踪研究;叶运生;《中国优秀博硕士学位论文全文数据库(硕士)》;中国学术期刊(光盘版)电子杂志社;20190115(第01期);第4章 *
基于深度学习的空间站舱内服务机器人视觉跟踪;张锐; 王兆魁;《上海航天》;20181025;第35卷(第5期);1-9 *

Also Published As

Publication number Publication date
CN110321937A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN110321937B (zh) 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法
CN109784333B (zh) 基于点云带权通道特征的三维目标检测方法及***
CN108280856B (zh) 基于混合信息输入网络模型的未知物体抓取位姿估计方法
KR100224752B1 (ko) 표적 추적 방법 및 장치
CN107273905B (zh) 一种结合运动信息的目标主动轮廓跟踪方法
CN110533687B (zh) 多目标三维轨迹跟踪方法及装置
CN110070565B (zh) 一种基于图像叠加的船舶轨迹预测方法
CN106875425A (zh) 一种基于深度学习的多目标追踪***及实现方法
CN106709472A (zh) 一种基于光流特征的视频目标检测与跟踪方法
CN106331723B (zh) 一种基于运动区域分割的视频帧率上变换方法及***
CN111260661B (zh) 一种基于神经网络技术的视觉语义slam***及方法
CN112257569B (zh) 一种基于实时视频流的目标检测和识别方法
CN104200494A (zh) 一种基于光流的实时视觉目标跟踪方法
CN105809716B (zh) 融合超像素与三维自组织背景减除法的前景提取方法
CN111199556A (zh) 基于摄像头的室内行人检测和跟踪方法
CN113763427B (zh) 一种基于从粗到精遮挡处理的多目标跟踪方法
CN114037938B (zh) 一种基于NFL-Net的低照度目标检测方法
CN113344967B (zh) 一种复杂背景下的动态目标识别追踪方法
CN114677323A (zh) 一种室内动态场景下基于目标检测的语义视觉slam定位方法
CN111680713A (zh) 一种基于视觉检测的无人机对地目标跟踪与逼近方法
CN112132862B (zh) 一种基于无人机的自适应尺度估计目标跟踪算法
Tashlinskii et al. Pixel-by-pixel estimation of scene motion in video
Zhang et al. An optical flow based moving objects detection algorithm for the UAV
CN107437071B (zh) 一种基于双黄线检测的机器人自主巡检方法
CN109658441A (zh) 基于深度信息的前景检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant