CN110096940A - 一种基于lstm网络的步态识别***及方法 - Google Patents
一种基于lstm网络的步态识别***及方法 Download PDFInfo
- Publication number
- CN110096940A CN110096940A CN201810105155.XA CN201810105155A CN110096940A CN 110096940 A CN110096940 A CN 110096940A CN 201810105155 A CN201810105155 A CN 201810105155A CN 110096940 A CN110096940 A CN 110096940A
- Authority
- CN
- China
- Prior art keywords
- video
- gait
- feature
- lstm
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005021 gait Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 238000005259 measurement Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000010586 diagram Methods 0.000 claims description 8
- 230000004438 eyesight Effects 0.000 abstract description 2
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉和深度学习技术领域,公开了一种基于LSTM网络的步态识别***及方法,设置有用于参考视频进行特征提取的CNN+LSTM网络单元,即使用CNN网络单元对参考视频进行特征提取,进一步用LSTM神经网络单元模拟视频的时序信息;设置有用于待识别者步态图片序列进行特征提取的CNN单元,即使用CNN直接对待识别者的图片进行特征提取。本发明从图像到视频的步态识别思路,考虑了视频内的时序信息,使用LSTM模拟视频中相邻帧之间的相关性,从而将视频作为一个整体分析其步态特征。该模型直接以端到端的方式学习视频序列的空间特征和时间特征并同时学习和优化特征表示和相似性度量。
Description
技术领域
本发明属于计算机视觉和深度学习技术领域,尤其涉及一种基于LSTM网络的步态识别***及方法。
背景技术
目前,现有的步态识别技术大多基于对人体运动视频进行分割,然后从视频序列中提取步态特征,再对参考集和待识别样本之间的步态特征进行匹配完成身份识别。其本质是基于图片到图片的匹配问题,该类方法没有考虑视频中相邻帧之间的时序信息,忽略了相邻帧之间的相关性。基于实际应用场景中可用的往往是人体运动的视频序列。
综上所述,现有技术存在的问题是:现有的步态识别算法将其简单定义为图片之间的步态特征的匹配问题,即将视频分割成帧,再进行目标图片与视频帧之间的匹配完成步态识别。忽略了原始视频中相邻帧之间的相关性,将视频分割成帧也破坏了视频的完整度使其丢失时序信息。
发明内容
针对现有技术存在的问题,本发明提供了一种基于LSTM网络的步态识别***。
本发明是这样实现的,一种基于LSTM网络的步态识别***,设置有用于参考视频的图片序列进行特征提取的CNN+LSTM网络单元;
与CNN网络单元相连接,用于局部感知的卷积层单元,该部分主要用于对视频进行步态特征的提取;
与LSTM神经网络单元相连接,用于模拟时序信息的LSTM神经网络单元,该部分对CNN提取的特征进一步进行时序相关性处理,分析视频中相邻帧之间的信息;
与相似性度量子网络相连接,用于进行相似性匹配的相似性度量子网络单元,主要完成对参考视频的步态特征与待识别样本的步态特征之间的匹配及误差计算。
本发明的另一目的在于提供一种所述基于LSTM网络的步态识别方法,所述基于LSTM网络的步态识别方法包括:人体运动图片的密集特征提取,对于视频序列从每个视频帧中提取步态特征,对视频中的时间和空间信息进行编码,之后将图片和视频的步态特征送入相似性度量网络进行步态特征匹配;在每个时间步的输出连接在一起作为视频的特征;将图像和视频的特征推送到相似性度量子网络,学习视频与图像之间步态特征的距离来度量图像与视频的相似程度。
本发明的优点及积极效果为:该基于LSTM网络的步态识别***提出的从图像到视频的步态识别思路,考虑了视频内的时序信息,使用LSTM模拟视频中相邻帧之间的相关性,从而将视频作为一个整体分析其步态特征。该模型直接以端到端的方式学习视频序列的空间特征和时间特征并同时学习和优化特征表示和相似性度量。该***更加接近于实际用用场景,并且考虑了时序信息使得匹配的准确度更高,具有更深远的研究价值。本发明提出基于CNN+LSTM的步态识别算法,其特点是使用LSTM对视频中相邻帧的相关性进行分析,在提取视频特征的同时保持了视频完整性。
附图说明
图1是本发明实施例提供的基于LSTM网络的步态识别***的结构示意图;
图2是本发明实施例提供的步态高斯图的提取过程流程图;
图中:1、CNN网络单元;2、LSTM神经网络单元;3、卷积层单元;4、相似性度量子网络单元。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
下面结合附图对本发明的结构作详细地描述。
如图1所示,本发明实施例提供的基于LSTM网络的步态识别***设置有:
用于参考视频的图片序列进行特征提取的CNN网络单元1;
与CNN网络单元1相连接,用于模拟时序信息的LSTM神经网络单元2;
与LSTM神经网络单元2相连接,用于局部感知的卷积层单元3;
与卷积层单元3相连接,用于进行相似性匹配的相似性度量子网络单元4。
从图片到视频的步态识别,以端到端的方式制定了包含特征提取、视频时空信息编码和相似性度量的识别框架,其算法框架如图1所示。使用CNN网络单元1进行特征提取,LSTM神经网络单元2模拟时序信息,相似性度量子网络单元4进行相似性匹配。
具体的实施过程:在训练过程中,采用CNN网络单元1进行人体运动图片的密集特征提取,对于视频序列,使用CNN网络单元1从每个视频帧中提取步态特征,将视频中各帧的步态特征并入到LSTM神经网络单元2进一步对视频中的时间和空间信息进行编码,之后将图片和视频的步态特征送入相似性度量网络进行步态特征匹配。作为一种循环神经网络,LSTM神经网络单元2允许信息在视频序列的时间间隔之间流动,将LSTM神经网络单元2在每个时间步的输出连接在一起作为视频的特征,有效地模拟了相邻帧之间的相关性。最后将图像和视频的特征推送到相似性度量子网络,学习视频与图像之间步态特征的距离度量来度量图像与视频的相似程度。
本识别***分为两大部分,第一部分用于图像和视频特征提取,第二部分用于相似性学习。在第一部分,使用CNN网络单元1来提取输入图像的特征,用CNN网络单元1和LSTM神经网络单元2的组合来提取视频的特征。每帧视频首先由CNN网络单元1处理,产生人体运动的特征向量,将各帧特征输送入LSTM神经网络单元2进一步分析各帧之间相关性,LSTM神经网络单元2将各帧输出连接在一起作为视频序列的特征向量。最后,输入图像和视频的特征向前传递到相似子网络进行距离度量学习。具体的实施过程如下:
数据准备
选取中科院的数据库作为实验数据库,根据图2过程提取步态高斯图,主要过程为从视频序列中减除运动背景得到人体运动轮廓图,对轮廓图进行形态学处理使其噪声减小并连续并提取步态周期,进一步对轮廓图进行归一化使其大小相等,在一个步态周期内计算步态高斯图。为了增加训练序列的多样性,应用包括裁剪和镜像的数据增强方法对数据进行扩充,从而提升算法的鲁棒性。
模型的建立
建立图1所示的深度网络模型并建立该模型相关的配置文件,主要有deploy.prototxt、solver.prototxt、train_valprototxt等文件,这些文件主要定义了训练数据、测试数据、模型的优化方法、迭代次数……等相关信息,有利于我们更好地得到一个基于LSTM网络的步态识别模型。
3、实验:
根据发明内容的不同本实验进行了三组实验,分别为:
A:选取相同携带状态的训练样本和测试样本(均为nm或者bg或者cl),选取所有视角(0-180)下的步态序列作为训练集,任意角度的视频序列作为测试集。
B:选取nm状态下的所有视角(0-180)作为训练样本集同视角下的bg和cl状态的视频作为测试序列。
C:选取nm、bg、cl状态下所有视角(0-180)下的序列作为训练样本集,任意角度与状态下的序列作为测试集。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (2)
1.一种基于LSTM网络的步态识别***,其特征在于,所述基于LSTM网络的步态识别***设置有用于参考视频的图片序列进行特征提取的CNN+LSTM网络单元;
与CNN网络单元相连接,用于局部感知的卷积层单元;
与LSTM神经网络单元相连接,用于模拟时序信息的LSTM神经网络单元;
与相似性度量子网络相连接,用于进行相似性匹配的相似性度量子网络单元。
2.一种如权利要求1所述基于LSTM网络的步态识别***是基于LSTM网络的步态识别方法,其特征在于,所述基于LSTM网络的步态识别方法包括:人体运动图片的密集特征提取,对于视频序列从每个视频帧中提取步态特征,对视频中的时间和空间信息进行编码,之后将图片和视频的步态特征送入相似性度量网络进行步态特征匹配;在每个时间步的输出连接在一起作为视频的特征;将图像和视频的特征推送到相似性度量子网络,学习视频与图像之间步态特征的距离度量来度量图像与视频的相似程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810105155.XA CN110096940A (zh) | 2018-01-29 | 2018-01-29 | 一种基于lstm网络的步态识别***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810105155.XA CN110096940A (zh) | 2018-01-29 | 2018-01-29 | 一种基于lstm网络的步态识别***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110096940A true CN110096940A (zh) | 2019-08-06 |
Family
ID=67443529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810105155.XA Pending CN110096940A (zh) | 2018-01-29 | 2018-01-29 | 一种基于lstm网络的步态识别***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110096940A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144272A (zh) * | 2019-12-24 | 2020-05-12 | 珠海格力电器股份有限公司 | 一种多尺度步态识别方法和***以及智能家电 |
CN113780223A (zh) * | 2021-09-09 | 2021-12-10 | 北京信息科技大学 | 假肢的步态识别方法、装置及存储介质 |
WO2023060459A1 (en) * | 2021-10-13 | 2023-04-20 | Intel Corporation | Sample-adaptive 3d feature calibration and association agent |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106682697A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN106845411A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于深度学习和概率图模型的视频描述生成方法 |
CN107180226A (zh) * | 2017-04-28 | 2017-09-19 | 华南理工大学 | 一种基于组合神经网络的动态手势识别方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN107392109A (zh) * | 2017-06-27 | 2017-11-24 | 南京邮电大学 | 一种基于深度神经网络的新生儿疼痛表情识别方法 |
CN107451552A (zh) * | 2017-07-25 | 2017-12-08 | 北京联合大学 | 一种基于3d‑cnn和卷积lstm的手势识别方法 |
-
2018
- 2018-01-29 CN CN201810105155.XA patent/CN110096940A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106709461A (zh) * | 2016-12-28 | 2017-05-24 | 中国科学院深圳先进技术研究院 | 基于视频的行为识别方法及装置 |
CN106682697A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于卷积神经网络的端到端物体检测方法 |
CN106845411A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于深度学习和概率图模型的视频描述生成方法 |
CN107180226A (zh) * | 2017-04-28 | 2017-09-19 | 华南理工大学 | 一种基于组合神经网络的动态手势识别方法 |
CN107392109A (zh) * | 2017-06-27 | 2017-11-24 | 南京邮电大学 | 一种基于深度神经网络的新生儿疼痛表情识别方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN107451552A (zh) * | 2017-07-25 | 2017-12-08 | 北京联合大学 | 一种基于3d‑cnn和卷积lstm的手势识别方法 |
Non-Patent Citations (1)
Title |
---|
黄毅等: "关系挖掘驱动的视频描述自动生成", 《南京信息工程大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144272A (zh) * | 2019-12-24 | 2020-05-12 | 珠海格力电器股份有限公司 | 一种多尺度步态识别方法和***以及智能家电 |
CN113780223A (zh) * | 2021-09-09 | 2021-12-10 | 北京信息科技大学 | 假肢的步态识别方法、装置及存储介质 |
WO2023060459A1 (en) * | 2021-10-13 | 2023-04-20 | Intel Corporation | Sample-adaptive 3d feature calibration and association agent |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Monocular depth estimation with hierarchical fusion of dilated cnns and soft-weighted-sum inference | |
Vazquez et al. | Virtual and real world adaptation for pedestrian detection | |
CN107103613B (zh) | 一种三维手势姿态估计方法 | |
CN110246181B (zh) | 基于锚点的姿态估计模型训练方法、姿态估计方法和*** | |
Doulamis et al. | Transforming Intangible Folkloric Performing Arts into Tangible Choreographic Digital Objects: The Terpsichore Approach. | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
CN108898063A (zh) | 一种基于全卷积神经网络的人体姿态识别装置及方法 | |
CN111274921A (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
CN110096940A (zh) | 一种基于lstm网络的步态识别***及方法 | |
CN113705445B (zh) | 一种基于事件相机的人体姿态识别的方法及设备 | |
CN113762009B (zh) | 一种基于多尺度特征融合及双注意力机制的人群计数方法 | |
CN103902989A (zh) | 基于非负矩阵分解的人体动作视频识别方法 | |
CN108921929A (zh) | 一种识别***及训练方法及单张单目图像的识别方法 | |
CN111598155A (zh) | 一种基于深度学习的细粒度图像弱监督目标定位方法 | |
Ryumin et al. | Automatic detection and recognition of 3D manual gestures for human-machine interaction | |
Fei et al. | Flow-pose Net: An effective two-stream network for fall detection | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN109325407A (zh) | 基于f-ssd网络滤波的光学遥感视频目标检测方法 | |
Feng | Mask RCNN-based single shot multibox detector for gesture recognition in physical education | |
CN111626212B (zh) | 图片中对象的识别方法和装置、存储介质及电子装置 | |
CN109522865A (zh) | 一种基于深度神经网络的特征加权融合人脸识别方法 | |
Abdulhamied et al. | Real-time recognition of American sign language using long-short term memory neural network and hand detection | |
CN113255514B (zh) | 基于局部场景感知图卷积网络的行为识别方法 | |
Zhang et al. | Skeleton-based action recognition with attention and temporal graph convolutional network | |
CN114663917A (zh) | 基于多视角的多人三维人***姿估计方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190806 |
|
RJ01 | Rejection of invention patent application after publication |