CN111985332B - 一种基于深度学习的改进损失函数的步态识别方法 - Google Patents
一种基于深度学习的改进损失函数的步态识别方法 Download PDFInfo
- Publication number
- CN111985332B CN111985332B CN202010696163.3A CN202010696163A CN111985332B CN 111985332 B CN111985332 B CN 111985332B CN 202010696163 A CN202010696163 A CN 202010696163A CN 111985332 B CN111985332 B CN 111985332B
- Authority
- CN
- China
- Prior art keywords
- gait
- training
- network
- loss function
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005021 gait Effects 0.000 title claims abstract description 46
- 230000006870 function Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013135 deep learning Methods 0.000 title claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Social Psychology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种基于深度学习的改进损失函数的步态识别方法,包括以下步骤:步骤1、获取行人步态数据集;步骤2、对步骤1得到的训练数据进行预处理,利用中心线原则将数据切割成64*64;步骤3、搭建深度卷积神经网络;步骤4、设计损失函数;步骤5、初始化神经网络参数;步骤6、训练搭建好的神经网络,将步骤2得到的训练样本作为输入,对应的实际身份标签作为输出,成批次地输入到网络中,计算损失后,通过反向传播算法,调整网络参数和损失函数的权重;步骤7、使用训练好的网络对未知数据进行识别,分为注册与识别两个阶段。通过本发明的方法能够更好的保留时间和空间维度上的运动信息,在背包、穿大衣等复杂场景下达到更好的识别效果。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种基于深度学习的改进损失函数的步态识别方法。
技术背景
步态识别通过人们走路的姿势进行身份识别,与其它的生物特征识别技术相比,步态识别具有非接触、远距离和不容易伪装等优点,在预防犯罪、法医鉴定和社会保障方面具有广泛的应用。
目前步态识别主要分为看作图像和看作视频序列两大类方法。前者将所有的步态轮廓图压缩成一副图像,将步态识别看成一个图像匹配问题,很显然这种方法忽视了步态中的时间维度上的信息,也无法建模精细的空间维度的信息;后者从轮廓中提取特征,使用LSTM、3D-CNN或者双流法,可以很好地建模步态识别中时间、空间维度的信息,但其计算代价高昂也不易于训练。目前步态识别方法基本都是在去背景的二值化图上面进行,准确率受目标自身的穿着、打扮与摄像头的角度等因素的影响。
发明内容
为了克服现有技术的不足,在易于训练的同时不丢失时间、空间维度的信息,同时能提高在目标穿大衣、背包等复杂场景下的准确率,本发明提供一种基于深度学习的改进损失函数的步态识别方法,将步态图像看成图像集合,并对损失函数进行改进。
为了解决上述技术问题,本发明能够提供如下的技术方案:
一种基于深度学习的改进损失函数的步态识别方法,所述方法包括以下步骤:
步骤1.使用步态识别数据集或者自行建立数据集,所述步态识别数据集为CASIA-B或OU-MVLP,并对数据集进行预处理,过程如下:
1.1)若使用图像采集设备采集行人的步态图像,对采集到的图像使用deeplabv3+提取人体目标轮廓,转换成二值化图像;
1.2)利用中心线原则将图像切割成64*64;
1.3)将数据集分为训练集和测试集;
步骤2.训练阶段,即在训练集上训练深度卷积神经网络,过程如下:
2.1)搭建深度卷积神经网络,CNN模块提取图像的帧级特征,SP模块从帧级特征中提取序列级特征,MGP模块用于提取不同级别的序列信息,HPM用于同时提取局部和全局特征;
2.2)设计损失函数,定义损失函数如下:
其中,an表示原样本,po表示与an同一类别的样本,ne表示与an不同类别的样本,d(x,y)表示x和y在embedding空间上的欧式距离,margin为正整数用于扩大不同标签样本之间的距离,N表示一个batch中样本的数量,M表示类别的数量,P表示一个batch中的人数,K表示一个batch中每个人图片的数量,P(X)表示样本真实的分布,Q(X)表示网络预测的分布,LBCE和LBF为改进的损失函数;
2.3)将损失函数的权重σ1和σ2作为网络的参数;
2.4)初始化神经网络参数;
2.5)将步骤1得到的训练样本作为输入,对应的实际身份标签作为输出,成批次地输入到网络中,计算损失后,通过反向传播算法,调整网络参数和损失函数的权重;
2.6)重复2.5),直至训练完成;
步骤3.测试阶段,测试数据为测试集或采集的数据,过程如下:
3.1)注册,输入步态图像序列集合G,通过网络前向传播对G中每一个图像序列gi计算特征向量,得到特征向量集合Fg,保存在步态数据库中;
3.2)识别,输入步态图像序列Q,目标是在图像序列集合G中遍历全部序列找到相同的身份标签,通过网络前向传播得到特征向量Fq,与步态数据库Fg中每一个特征向量计算欧式距离,距离最小的特征向量对应的身份标签即为Q的标签。
进一步,所述步骤2中,训练阶段设置如下:优化器使用Adam,学习率为1e-4,总迭代次数为80K,batchsize为(8,8),指一个batch取8个人,每个人8张图像,LBA+的margin设置为2,损失函数的权重σ1和σ2皆初始化为0.5。
本发明的技术构思为:使用卷积神经网络提取步态的空间维度信息,使用注意力机制提取步态的时间维度信息;其次,改进损失函数,并将损失函数的权重作为网络的参数来训练,让权重能自适应。
本发明的有益效果主要表现在:输入的步态图像不需要有序,提高了在目标穿大衣、背包等复杂场景下的准确率。
附图说明
图1是本发明方法的网络结构图。
图2是中心线原则切割示意图。
图3是本发明方法的流程图。
具体实施方式
下面结合附图对本发明进一步描述。
参照图1~图3,一种基于深度学习的改进损失函数的步态识别方法,此方法将步态视为由独立帧组成的图像序列,在提取图像空间特征的同时提取了时间特征,不受帧排列的影响。网络首先对多副图像通过CNN特征提取提取出帧级特征;接着用基于SetPooling的多特征集合池化,从帧级特征中提取序列级特征;同时使用基于多层执行全流程管线MGP的多特征融合,用于不同级别的序列信息;最后,基于HPM的多尺度特征鉴别用于同时提取局部和全局特征。
中心线原则将图像切割成64*64的过程参考图2。
参照图3,基于深度学习的改进损失函数的步态识别方法,包括以下步骤:
步骤1.使用步态识别数据集或者自行建立数据集,所述步态识别数据集为CASIA-B或OU-MVLP,并对数据集进行预处理,过程如下:
1.1)若使用图像采集设备采集行人的步态图像,对采集到的图像使用deeplabv3+提取人体目标轮廓,转换成二值化图像;
1.2)利用中心线原则将图像切割成64*64;
1.3)将数据集分为训练集和测试集;
步骤2.训练阶段,即在训练集上训练深度卷积神经网络,过程如下:
2.1)搭建深度卷积神经网络,CNN模块提取图像的帧级特征,SP模块从帧级特征中提取序列级特征,MGP模块用于提取不同级别的序列信息,HPM用于同时提取局部和全局特征;
2.2)设计损失函数,定义损失函数如下:
其中,an表示原样本,po表示与an同一类别的样本,ne表示与an不同类别的样本,d(x,y)表示x和y在embedding空间上的欧式距离,margin为正整数用于扩大不同标签样本之间的距离,N表示一个batch中样本的数量,M表示类别的数量,P表示一个batch中的人数,K表示一个batch中每个人图片的数量,P(X)表示样本真实的分布,Q(X)表示网络预测的分布,LBCE和LBF为改进的损失函数;
2.3)将损失函数的权重σ1和σ2作为网络的参数;
2.4)初始化神经网络参数;
2.5)将步骤1得到的训练样本作为输入,对应的实际身份标签作为输出,成批次地输入到网络中,计算损失后,通过反向传播算法,调整网络参数和损失函数的权重;
2.6)重复2.5),直至训练完成;
步骤3.测试阶段,测试数据为测试集或采集的数据,过程如下:
3.1)注册,输入步态图像序列集合G,通过网络前向传播对G中每一个图像序列gi计算特征向量,得到特征向量集合Fg,保存在步态数据库中;
3.2)识别,输入步态图像序列Q,目标是在图像序列集合G中遍历全部序列找到相同的身份标签,通过网络前向传播得到特征向量Fq,与步态数据库Fg中每一个特征向量计算欧式距离,距离最小的特征向量对应的身份标签即为Q的标签。
进一步,所述步骤2中,训练阶段设置如下:优化器使用Adam,学习率为1e-4,总迭代次数为80K,batchsize为(8,8),指一个batch取8个人,每个人8张图像,LBA+的margin设置为2,损失函数的权重σ1和σ2皆初始化为0.5。
本实施例的方案,通过对损失函数的改进,提高了网络在CASIA-B数据集的BG(携带包)和CL(穿大衣)两种复杂场景下的准确率。
Claims (2)
1.一种基于深度学习的改进损失函数的步态识别方法,其特征在于,所述方法包括以下步骤:
步骤1.使用步态识别数据集或者自行建立数据集,所述步态识别数据集包括CASIA-B或OU-MVLP,并对数据集进行预处理,过程如下:
1.1)若使用图像采集设备采集行人的步态图像,对采集到的图像使用deeplabv3+提取人体目标轮廓,转换成二值化图像;
1.2)利用中心线原则将图像切割成64*64;
1.3)将数据集分为训练集和测试集;
步骤2.训练阶段,即在训练集上训练深度卷积神经网络,过程如下:
2.1)搭建深度卷积神经网络,CNN模块提取图像的帧级特征,SP模块从帧级特征中提取序列级特征,MGP模块用于提取不同级别的序列信息,HPM用于同时提取局部和全局特征;
2.2)设计损失函数,定义损失函数如下:
其中,an表示原样本,po表示与an同一类别的样本,ne表示与an不同类别的样本,d(x,y)表示x和y在embedding空间上的欧式距离,margin为正整数用于扩大不同标签样本之间的距离,N表示一个batch中样本的数量,M表示类别的数量,P表示一个batch中的人数,K表示一个batch中每个人图片的数量,P(X)表示样本真实的分布,Q(X)表示网络预测的分布,LBCE和LBF为改进的损失函数;
2.3)将损失函数的权重σ1和σ2作为网络的参数;
2.4)初始化神经网络参数;
2.5)将步骤1得到的训练样本作为输入,对应的实际身份标签作为输出,成批次地输入到网络中,计算损失后,通过反向传播算法,调整网络参数和损失函数的权重;
2.6)重复2.5),直至训练完成;
步骤3.测试阶段,测试数据为测试集或采集的数据,过程如下:
3.1)注册,输入步态图像序列集合G,通过网络前向传播对G中每一个图像序列gi计算特征向量,得到特征向量集合Fg,保存在步态数据库中;
3.2)识别,输入步态图像序列Q,目标是在图像序列集合G中遍历全部序列找到相同的身份标签,通过网络前向传播得到特征向量Fq,与步态数据库Fg中每一个特征向量计算欧式距离,距离最小的特征向量对应的身份标签即为Q的标签。
2.如权利要求1所述的一种基于深度学习的改进损失函数的步态识别方法,其特征在于,所述步骤2中,训练阶段设置如下:优化器使用Adam,学习率为1e-4,总迭代次数为80K,batchsize为(8,8),指一个batch取8个人,每个人8张图像,LBA+的margin设置为2,损失函数的权重σ1和σ2皆初始化为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010696163.3A CN111985332B (zh) | 2020-07-20 | 2020-07-20 | 一种基于深度学习的改进损失函数的步态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010696163.3A CN111985332B (zh) | 2020-07-20 | 2020-07-20 | 一种基于深度学习的改进损失函数的步态识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985332A CN111985332A (zh) | 2020-11-24 |
CN111985332B true CN111985332B (zh) | 2024-05-10 |
Family
ID=73439277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010696163.3A Active CN111985332B (zh) | 2020-07-20 | 2020-07-20 | 一种基于深度学习的改进损失函数的步态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985332B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818808B (zh) * | 2021-01-27 | 2024-01-19 | 南京大学 | 一种结合两个向量嵌入空间的高精度步态识别方法 |
CN112801008B (zh) * | 2021-02-05 | 2024-05-31 | 电子科技大学中山学院 | 行人重识别方法、装置、电子设备及可读存储介质 |
CN112906673A (zh) * | 2021-04-09 | 2021-06-04 | 河北工业大学 | 一种基于注意力机制的下肢运动意图预测方法 |
CN114140873A (zh) * | 2021-11-09 | 2022-03-04 | 武汉众智数字技术有限公司 | 一种基于卷积神经网络多层次特征的步态识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921019A (zh) * | 2018-05-27 | 2018-11-30 | 北京工业大学 | 一种基于GEI和TripletLoss-DenseNet的步态识别方法 |
CN110503053A (zh) * | 2019-08-27 | 2019-11-26 | 电子科技大学 | 基于循环卷积神经网络的人体动作识别方法 |
CN111160294A (zh) * | 2019-12-31 | 2020-05-15 | 西安理工大学 | 基于图卷积网络的步态识别方法 |
-
2020
- 2020-07-20 CN CN202010696163.3A patent/CN111985332B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921019A (zh) * | 2018-05-27 | 2018-11-30 | 北京工业大学 | 一种基于GEI和TripletLoss-DenseNet的步态识别方法 |
CN110503053A (zh) * | 2019-08-27 | 2019-11-26 | 电子科技大学 | 基于循环卷积神经网络的人体动作识别方法 |
CN111160294A (zh) * | 2019-12-31 | 2020-05-15 | 西安理工大学 | 基于图卷积网络的步态识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111985332A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985332B (zh) | 一种基于深度学习的改进损失函数的步态识别方法 | |
CN110084156B (zh) | 一种步态特征提取方法及基于步态特征的行人身份识别方法 | |
CN107194341B (zh) | Maxout多卷积神经网络融合人脸识别方法和*** | |
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN108520216B (zh) | 一种基于步态图像的身份识别方法 | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN108921019B (zh) | 一种基于GEI和TripletLoss-DenseNet的步态识别方法 | |
CN109522853B (zh) | 面向监控视频的人脸检测与搜索方法 | |
CN110852182B (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN107145842A (zh) | 结合lbp特征图与卷积神经网络的人脸识别方法 | |
CN105956560A (zh) | 一种基于池化多尺度深度卷积特征的车型识别方法 | |
Rao et al. | Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera. | |
CN109902565B (zh) | 多特征融合的人体行为识别方法 | |
CN111046732B (zh) | 一种基于多粒度语义解析的行人重识别方法及存储介质 | |
CN114187665B (zh) | 一种基于人体骨架热图的多人步态识别方法 | |
CN110633624B (zh) | 一种基于多特征融合的机器视觉人体异常行为识别方法 | |
CN108764019A (zh) | 一种基于多源深度学习的视频事件检测方法 | |
Thalji et al. | Iris Recognition using robust algorithm for eyelid, eyelash and shadow avoiding | |
CN107392187A (zh) | 一种基于梯度方向直方图的人脸活体检测方法 | |
CN111310668A (zh) | 一种基于骨架信息的步态识别方法 | |
CN108460340A (zh) | 一种基于3d稠密卷积神经网络的步态识别方法 | |
CN110796101A (zh) | 一种嵌入式平台的人脸识别方法及*** | |
CN111079514A (zh) | 一种基于clbp和卷积神经网络的人脸识别方法 | |
CN111582154A (zh) | 基于多任务骨架姿态划分部件的行人重识别方法 | |
CN111340758A (zh) | 一种基于深度神经网络的高效虹膜图像质量评价新方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |