CN110598540B

CN110598540B - 一种监控视频中步态轮廓图的提取方法及***

Info

Publication number: CN110598540B
Application number: CN201910716138.4A
Authority: CN
Inventors: 凌贺飞; 肖祖安; 李平
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2021-12-03
Anticipated expiration: 2039-08-05
Also published as: CN110598540A

Abstract

本发明公开了一种监控视频中步态轮廓图的提取方法及***，属于计算机视觉领域，包括：解码得到视频帧序列后进行缓存；对视频帧进行行人检测，得到行人目标快照及行人目标框，并进行目标框归一化，以得到方形快照并进行缓存；根据行人目标快照提取行人重识别特征后进行缓存，并通过特征匹配实现当前视频帧中的行人目标与前一帧中行人目标的匹配，从而实现对同一行人目标的跟踪；若成功跟踪到同一行人目标在连续n帧之间的轨迹，则获取该行人目标在连续n帧中的方形快照，进行人形分割后进行二值化处理，以得到该行人目标在连续n帧中的步态轮廓图并进行缓存。本发明能够提高监控视频中步态轮廓图的提取效果，以满足步态识别的要求。

Description

一种监控视频中步态轮廓图的提取方法及***

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种监控视频中步态轮廓图的提取方法。

背景技术

社会和科技高速发展的今天，各行业对于工作和生活中的安全、便捷需求不断增加，视频监控技术应运而生并不断发展，在“平安城市”、“智慧社区”、公共交通控制等方面，均需要增设大量的监控摄像头。随之而来的是海量的视频数据。

视频监控中的目标身份识别在刑侦鉴定、门禁考勤、自助式服务等方面均有应用，目前主流的方法是基于生物特征识别目标身份，包括人脸识别、指纹识别、虹膜识别、步态识别等，其中，步态识别通过行人独特的行走姿态让计算机自动对目标进行身份鉴定，与人脸、指纹和虹膜等其他生物特征相比，具有识别过程无感、非接触、不容易伪装且易于感知的优势，也不需要人的行为配合，并且适合于较远距离的身份识别，在高清摄像头下识别距离可达50米。

针对监控视频中的步态识别，关键在于提取行人目标的步态轮廓图，由于步态的动态性，步态特征的提取需要行人目标一定数量的步态图像序列。目前的步态识别研究中，在获提取到行人目标的步态轮廓图之后，多基于步态轮廓图序列或步态模板(轮廓图序列组合压缩)，利用卷积神经网络(Convolutional Nerual Network，简称CNN)提取深度步态特征，具有更好的区分性和鲁棒性。但是，现有的方法多基于已有的步态数据集实现对步态轮廓图的提取，而已有的步态数据集中，目标数单一，场景简单，在已知背景的前提下，通过帧与背景差分获取步态轮廓图。通常的视频处理中使用背景减除方式区分背景，以提取运动目标的步态轮廓图，但在实际的视频监控场景下，存在光照变化、拍摄角度小、画面抖动等情况，容易出现空洞、“鬼影”、大面积噪点、地面阴影前景等现象。其次，实际的监控视频中，往往存在多个目标，现有的步态轮廓图提取方法并不能保证获取同一目标的步态轮廓图序列。总的来说，现有的步态轮廓图提取方法在多目标且背景复杂的监控视频应用场景下，提取效果不佳，难以满足步态识别对步态轮廓图的要求。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种监控视频中步态轮廓图的提取方法及***，其目的在于，提高监控视频中步态轮廓图的提取效果，以满足步态识别对步态轮廓图的要求。

为实现上述目的，按照本发明的第一方面，提供了一种监控视频中步态轮廓图的提取方法，包括：

对监控视频文件或实时监控视频流进行解码，得到视频帧序列后进行缓存；

对视频帧进行行人检测，以得到行人目标快照及行人目标框，并对行人目标框进行归一化操作，得到方形快照后进行缓存；

根据行人目标快照提取行人重识别特征后进行缓存，并将所提取的行人重识别特征与前一帧中的行人重识别特征进行匹配，以实现当前视频帧中的行人目标与前一帧中的行人目标的匹配，从而实现对同一行人目标的跟踪；

若成功跟踪到同一行人目标在连续n帧之间的轨迹，则获取该行人目标在连续n帧中的方形快照，分别对每一帧中的方形快照进行人形分割后对分割结果进行二值化处理，以得到该行人目标在连续n帧中的步态轮廓图，并对所获取的步态轮廓图进行缓存；

其中，n为预设的阈值，n∈N+。

本发明所提供的监控视频中步态轮廓图的提取方法，对于解码得到的视频帧，利用目标检测得到行人目标快照，利用行人重识别从行人目标快照提取得到行人重识别特征，以完成对行人目标的跟踪，由此能够保证在多目标的视频监控场景下，提取到同一个行人目标的步态轮廓图；由于人的步态特征具有周期性，本发明跟踪到同一个行人目标在连续n帧之间的轨迹后，才利用语义分割对该行人目标的快照进行人形分割，由此保证了所提取步态轮廓图能够用于描述行人目标在一个完整周期内的步态特征；此外，通过基于语义的人形分割，本发明在复杂背景环境下也能提取得到高质量的步态轮廓图。总的来说，本发明能够在多目标且背景复杂的视频监控场景下，提取出同一个行人目标在一个完整周期内的高质量的步态轮廓图，提高了监控视频中步态轮廓图的提取效果，能够满足步态识别对步态轮廓图的要求。

进一步地，本发明第一方面提供的监控视频步态轮廓图的提取方法，还包括：利用所提取的步态轮廓图进行步态识别，以识别步态轮廓图所属行人目标的身份。

进一步地，将所提取的行人重识别特征与前一帧中的行人重识别特征进行匹配，以实现当前视频帧中的行人目标与前一帧中的行人目标的匹配，其方法包括：

对于当前视频帧中的任意一个行人目标P_i，分别计算其行人重识别特征F₁与已缓存的前一帧中的各行人重识别特征之间的相似度，若相似度大于预设的阈值Th_F，则将相应的行人重识别特征识别为行人重识别特征F₁的相似特征；由行人重识别特征F₁所有的相似特征构成相似特征集合；

若相似特征集合为空，则创建一个新的跟踪目标，操作结束；

若相似特征集合不为空，则按照相似度从大到小的顺序依次从相似特征集合中取行人重识别特征F_j，并判断行人重识别特征F_j是否与当前视频帧中，行人目标P_i之外的其他行人目标的行人重识别特征相似，若是，则判定行人重识别特征F_j与行人目标P_i不匹配，从相似特征集合中取下一个行人重识别特征后重新判定；若否，则判定行人重识别特征F_j与行人目标P_i匹配，并将行人目标P_i匹配到行人重识别特征F_j所属的行人目标，操作结束；

若相似特征集合中，不存在与行人目标P_i相匹配的行人重识别特征，则剔除行人目标P_i；

其中，i为当前帧中的行人目标编号，j为相似特征集合中的行人重识别特征编号。

本发明按照上述匹配方式将当前视频帧中的行人目标匹配到已经被跟踪的行人目标，能够保证所匹配的跟踪目标至多只会与当前视频帧中的一个行人目标相匹配，即所匹配的跟踪目标与当前视频帧中指定的行人目标之间的相似度大于阈值Th_F，同时该跟踪目标与当前视频帧中的其他行人目标之间的相似度均不大于阈值Th_F，由此能够减小误匹配的概率，从而保证跟踪的精度，保证所获取的步态轮廓图属于同一个行人目标。

进一步地，行人重识别特征之间的相似度为余弦相似度；余弦相似度从方向上体现了特征向量之间的差异，而对绝对的数值不敏感，能够较好的体现行人重识别特征之间的相似程度。

进一步地，对视频帧序列进行缓存、对方形快照进行缓存、对行人重识别特征进行缓存以及对步态轮廓图进行缓存，均通过Redis内存数据库完成；通过Redis内存数据库进行数据的缓冲交互，能充分利用运行资源并解决不同操作速度不匹配问题。

按照本发明的第二方面，提供了一种监控视频中步态轮廓图的提取***，包括：视频解码单元、行人检测单元、特征提取单元、特征匹配单元以及人形分割单元；

视频解码单元，用于对监控视频文件或实时监控视频流进行解码，得到视频帧序列后进行缓存；

行人检测单元，用于对视频帧进行行人检测，以得到行人目标快照及行人目标框，并对行人目标框进行归一化操作，得到方形快照后进行缓存；

特征提取单元，用于根据行人目标快照提取行人重识别特征后进行缓存；

特征匹配单元，用于将特征提取单元所提取的行人重识别特征与前一帧中的行人重识别特征进行匹配，以实现当前视频帧中的行人目标与前一帧中的行人目标的匹配，从而实现对同一行人目标的跟踪；

人形分割单元，用于在特征匹配单元成功跟踪到同一行人目标在连续n帧之间的轨迹时，获取该行人目标在连续n帧中的方形快照，分别对每一帧中的方形快照进行人形分割后对分割结果进行二值化处理，以得到该行人目标在连续n帧中的步态轮廓图，并对所获取的步态轮廓图进行缓存；

其中，n为预设的阈值，n∈N+。

按照本发明的第三方面，提供了一种监控视频中步态轮廓图的提取***，包括处理器和计算机可读存储介质，计算机可读存储介质用于存储可执行程序；

处理器用于读取计算机可读存储介质中存储的可执行程序，执行本发明第一方面提供的监控视频中步态轮廓图的提取方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明所提供的监控视频中步态轮廓图的提取方法及***，对于解码得到的视频帧，利用目标检测得到行人目标快照，利用行人重识别从行人目标快照提取得到行人重识别特征，以完成对行人目标的跟踪，由此能够保证在多目标的视频监控场景下，提取到同一个行人目标的步态轮廓图；在跟踪到同一个行人目标在连续n帧之间的轨迹后，才利用语义分割对该行人目标的快照进行人形分割，由此保证了所提取步态轮廓图能够用于描述行人目标在一个完整周期内的步态特征；此外，通过基于语义的人形分割，在复杂背景环境下也能提取得到高质量的步态轮廓图。总的来说，本发明能够在多目标且背景复杂的视频监控场景下，提取出同一个行人目标在一个完整周期内的高质量的步态轮廓图，提高了监控视频中步态轮廓图的提取效果，能够满足步态识别对步态轮廓图的要求。

(2)本发明所提供的监控视频中步态轮廓图的提取方法及***，在将当前视频帧中的行人目标匹配到已经被跟踪的行人目标时，保证了所匹配的跟踪目标至多只会与当前视频帧中的一个行人目标相匹配，由此能够减小误匹配的概率，从而保证跟踪的精度，保证所获取的步态轮廓图属于同一个行人目标。

(3)本发明所提供的监控视频中步态轮廓图的提取方法及***，会对视频帧序列、方形快照、行人重识别特征及对步态轮廓图进行缓存，在其优选方案中，所有的数据缓存交互，均通过Redis内存数据库完成，由此能够充分利用运行资源并解决不同操作速度不匹配问题。

附图说明

图1为本发明实施例提供的监控视频中步态轮廓图的提取方法流程图；

图2为本发明实施例提供的视频帧解码流程图；

图3为本发明实施例提供的行人目标匹配流程图；

图4为本发明实施例提供的监控视频中步态轮廓图的提取***示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了在多目标、环境复杂的视频监控场景下，提高步态轮廓图的提取效果，以满足步态识别对步态轮廓图的要求，本发明所提供监控视频中步态轮廓图的提取方法，如图1所示，包括：

其中，n为预设的阈值，n∈N+；阈值n的具体取值，可根据监控视频文件或实时监控视频流的帧频率以及行人的行走习惯设定，以保证能够提取到同一个行人目标在一个完整周期内的步态轮廓图，例如，在本实施例中，n＝20。

在一个可选的实施方式中，在上述监控视频中步态轮廓图的提取方法中，对监控视频文件或实时监控视频流进行解码时，可通过多媒体框架FFmpeg对视频流或视频文件进行解码，主要使用框架提供的音视频编解码库libavcodec，以及libavutil，libavformat，libswscale和libswresample库工具提供的接口；由于后续的行人检测对输入数据有一定的要求，所以再解码得到视频帧之后，往往还需要根据行人检测的要求，将视频帧转换为RGB、YUV等图像数据。在本实施例中，具体的解码过程如图2所示，包括：输入视频流/文件，打开输入的视频文件，获取视频信息，获取可用解码器及相关信息，打开解码器并分配帧内存，读取压缩数据帧(AVPacket)，若获取到帧数据包，则对压缩数据帧(AVPacket)进行解码得到帧数据(AVFrame)，并对下一个压缩数据帧进行解码；若没有获取到帧数据包，则关闭解码器并释放内存，然后关闭输入文件。

应当理解的是，上述对监控视频文件或实时监控视频流进行解码的解码方式及具体的解码流程，仅为示例性的说明，不应理解为对本发明的唯一限定。

在本发明中，上述监控视频中步态轮廓图的提取方法，可使用Faster R-CNN模型对输入视频帧图像进行行人目标的检测，Faster R-CNN模型可以检测到包含行人目标的行人目标框的位置，根据行人目标框位置即可从原始的视频帧图像中截取行人目标快照，并进一步通过归一化操作得到方形快照；在根据行人目标快照提取行人重识别特征时，可使用ResNet-50加PCB(Part-based Convolutional Baseline)均匀分块的模型；进行人形分割时，所使用的人形分割模型是在语义分割模型DeepLab v3+的基础上，将特征提取主干结构修改为Xception轻量级结构，在进行训练时，通过损失函数进行约束，使得人形分割模型仅对行人和非行人背景区域进行分割，以简化分割任务，提高模型进行人形分割的精度和速度；对人形分割模型进行训练的步骤具体如下：

(1)利用PASCAL VOC2012分割数据集训练得到预训练模型；

(2)通过标注的行人分割数据集对预训练模型进行微调训练，每次选择训练样本中的一组标注图像用来训练，基础学习率为0.007，训练过程中学习率随着迭代数增加进行多项式误差衰减，训练最大迭代次数为50epoch；

(3)利用预训练模型参数初始化网络：将批次样本输入网络，前向传播计算得到预测输出，通过交叉熵损失函数对每个像素进行分析，计算输出的每个像素与真值像素之间的交叉熵损失，对每一批次做平均计算，得到网络损失值；

(4)若未达到预定的迭代数，继续步骤(5)，否则训练结束；

(5)反向逐层采用梯度下降算法更新网络各层参数，转入步骤(3)，以进行下一轮迭代。

应当理解的是，上述行人目标检测、行人重识别特征提取以及人形分割的具体方式，仅为实例性描述，不应理解为对本发明的唯一限定。

为了在提取到步态轮廓图后对其进行利用，上述监控视频步态轮廓图的提取方法，还可包括：利用所提取的步态轮廓图进行步态识别，以识别步态轮廓图所属行人目标的身份；具体地，可利用卷积神经网络(Convolutional Nerual Network，简称CNN)进行步态识别，也可使用其他深度学习方法进行识别。

在一个可选的实施方式中，如图3所示，在上述监控视频中步态轮廓图的提取方法中，将所提取的行人重识别特征与前一帧中的行人重识别特征进行匹配，以实现当前视频帧中的行人目标与前一帧中的行人目标的匹配，其方法包括：

其中，i为当前帧中的行人目标编号，j为相似特征集合中的行人重识别特征编号；阈值Th_F的具体取值可根据实际的跟踪精度要求设定；

按照上述匹配方式将当前视频帧中的行人目标匹配到已经被跟踪的行人目标，能够保证所匹配的跟踪目标至多只会与当前视频帧中的一个行人目标相匹配，即所匹配的跟踪目标与当前视频帧中指定的行人目标之间的相似度大于阈值Th_F，同时该跟踪目标与当前视频帧中的其他行人目标之间的相似度均不大于阈值Th_F，由此能够减小误匹配的概率，从而保证跟踪的精度，保证所获取的步态轮廓图属于同一个行人目标；

可选地，可通过余弦相似度计算行人重识别特征之间的相似度；余弦相似度从方向上体现了特征向量之间的差异，而对绝对的数值不敏感，能够较好的体现行人重识别特征之间的相似程度；

应当理解的是，以上仅为一种可选的计算方式，其他的用于衡量特征向量之间的相似度的计算方式，例如计算欧式距离等，也可用于本发明。

在本实施例中，对视频帧序列进行缓存、对方形快照进行缓存、对行人重识别特征进行缓存以及对步态轮廓图进行缓存，均通过Redis内存数据库完成；通过Redis内存数据库进行数据的缓冲交互，能充分利用运行资源并解决不同操作速度不匹配问题。

本发明还提供了一种监控视频中步态轮廓图的提取***，如图4所示，包括：视频解码单元、行人检测单元、特征提取单元、特征匹配单元以及人形分割单元；

其中，n为预设的阈值，n∈N+；

在本发明实施例中，各单元的具体实施方式可参考上述方法实施例中的描述，在此将不作复述。

考虑到与数据库的交互需要，如图4所示，可将视频解码单元和特征匹配单元集成至一个模块(主控分析调度模块)中，将行人检测单元和特征提取单元集成至一个模块(视频帧处理模块)中。

本发明还提供了一种监控视频中步态轮廓图的提取***，包括处理器和计算机可读存储介质，计算机可读存储介质用于存储可执行程序；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种监控视频中步态轮廓图的提取方法，其特征在于，包括：

将所提取的行人重识别特征与前一帧中的行人重识别特征进行匹配，以实现当前视频帧中的行人目标与前一帧中的行人目标的匹配，其方法包括：

对于当前视频帧中的任意一个行人目标P_i，分别计算其行人重识别特征F₁与已缓存的前一帧中的各行人重识别特征之间的相似度，若相似度大于预设的阈值Th_F，则将相应的行人重识别特征识别为所述行人重识别特征F₁的相似特征；由所述行人重识别特征F₁所有的相似特征构成相似特征集合；

若所述相似特征集合为空，则创建一个新的跟踪目标，操作结束；

若所述相似特征集合不为空，则按照相似度从大到小的顺序依次从所述相似特征集合中取行人重识别特征F_j，并判断行人重识别特征F_j是否与当前视频帧中，所述行人目标P_i之外的其他行人目标的行人重识别特征相似，若是，则判定行人重识别特征F_j与所述行人目标P_i不匹配，从所述相似特征集合中取下一个行人重识别特征后重新判定；若否，则判定行人重识别特征F_j与所述行人目标P_i匹配，并将所述行人目标P_i匹配到行人重识别特征F_j所属的行人目标，操作结束；

若所述相似特征集合中，不存在与所述行人目标P_i相匹配的行人重识别特征，则剔除所述行人目标P_i；其中，n为预设的阈值，n∈N+；i为当前帧中的行人目标编号，j为所述相似特征集合中的行人重识别特征编号。

2.如权利要求1所述的监控视频中步态轮廓图的提取方法，其特征在于，还包括：利用所提取的步态轮廓图进行步态识别，以识别步态轮廓图所属行人目标的身份。

3.如权利要求1所述的监控视频中步态轮廓图的提取方法，其特征在于，行人重识别特征之间的相似度为余弦相似度。

4.如权利要求1或2所述的监控视频中步态轮廓图的提取方法，其特征在于，对视频帧序列进行缓存、对方形快照进行缓存、对行人重识别特征进行缓存以及对步态轮廓图进行缓存，均通过Redis内存数据库完成。

5.一种监控视频中步态轮廓图的提取***，其特征在于，包括：视频解码单元、行人检测单元、特征提取单元、特征匹配单元以及人形分割单元；

所述视频解码单元，用于对监控视频文件或实时监控视频流进行解码，得到视频帧序列后进行缓存；

所述行人检测单元，用于对视频帧进行行人检测，以得到行人目标快照及行人目标框，并对行人目标框进行归一化操作，得到方形快照后进行缓存；

所述特征提取单元，用于根据行人目标快照提取行人重识别特征后进行缓存；

所述特征匹配单元，用于将所述特征提取单元所提取的行人重识别特征与前一帧中的行人重识别特征进行匹配，以实现当前视频帧中的行人目标与前一帧中的行人目标的匹配，从而实现对同一行人目标的跟踪；

所述人形分割单元，用于在所述特征匹配单元成功跟踪到同一行人目标在连续n帧之间的轨迹时，获取该行人目标在连续n帧中的方形快照，分别对每一帧中的方形快照进行人形分割后对分割结果进行二值化处理，以得到该行人目标在连续n帧中的步态轮廓图，并对所获取的步态轮廓图进行缓存；

若所述相似特征集合中，不存在与所述行人目标P_i相匹配的行人重识别特征，则剔除所述行人目标P_i；

其中，n为预设的阈值，n∈N+；i为当前帧中的行人目标编号，j为所述相似特征集合中的行人重识别特征编号。

6.一种监控视频中步态轮廓图的提取***，包括处理器和计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储可执行程序；

所述处理器用于读取所述计算机可读存储介质中存储的可执行程序，执行权利要求1-4任一项所述的监控视频中步态轮廓图的提取方法。