CN113177464B - 基于深度学习的端到端的多模态步态识别方法 - Google Patents

基于深度学习的端到端的多模态步态识别方法 Download PDF

Info

Publication number
CN113177464B
CN113177464B CN202110460163.8A CN202110460163A CN113177464B CN 113177464 B CN113177464 B CN 113177464B CN 202110460163 A CN202110460163 A CN 202110460163A CN 113177464 B CN113177464 B CN 113177464B
Authority
CN
China
Prior art keywords
gait
mask
network
fusion
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110460163.8A
Other languages
English (en)
Other versions
CN113177464A (zh
Inventor
王慧燕
李华洋
罗俊
邵泽源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Third Research Institute of the Ministry of Public Security
Original Assignee
Zhejiang Gongshang University
Third Research Institute of the Ministry of Public Security
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University, Third Research Institute of the Ministry of Public Security filed Critical Zhejiang Gongshang University
Priority to CN202110460163.8A priority Critical patent/CN113177464B/zh
Priority to PCT/CN2021/104204 priority patent/WO2022227275A1/zh
Publication of CN113177464A publication Critical patent/CN113177464A/zh
Priority to US17/653,660 priority patent/US11544969B2/en
Application granted granted Critical
Publication of CN113177464B publication Critical patent/CN113177464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的端到端的多模态步态识别方法。本发明首先通过RGB视频帧提取步态外观特征(颜色纹理等),并且对RGB视频帧进行语义分割得到掩模,然后通过掩模提取步态掩模特征(轮廓等),最后对两类特征进行融合进行识别。本发明通过对GaitSet进行改进用于提取步态外观和掩模特征;通过简化的FCN在保证精度的前提下提升语义分割速度;将步态外观特征和掩模特征进行融合以获得更完整的信息表示。

Description

基于深度学习的端到端的多模态步态识别方法
技术领域
本发明属于计算机视觉中的视频图像处理和步态识别领域,涉及一种基于深度学习的端到端的多模态步态识别方法。
背景技术
步态识别是通过行人走路姿态来进行身份确认的新兴生物特征识别技术,与人脸识别、指纹识别和虹膜识别等技术相比,步态识别研究起步相对较晚,因其具有非接触、远距离和不易伪装等优点,无需识别对象主动配合便可完成识别,因此,可广泛应用于智慧城市、智慧交通等领域以及寻找嫌疑人等场景。
近年来,随着深度神经网络的广泛应用,步态识别也有了较大的发展。现有的基于深度学习的步态识别方法大致可以分为两类:基于模板的方法和基于序列的方法,其均通过分割的掩模图像提取行人的步态掩模特征进行识别。上述两种方法均通过手工分割的掩模图像提取行人的步态掩模特征进行识别,分割过的掩模图像可能损失一部分对步态识别有用的信息,且无法实现端到端的步态识别。
发明内容
本发明针对现有技术的不足,提出了一种基于深度学习的端到端的多模态步态识别方法,提升步态识别的准确率并可广泛适用于其他步态识别网络。
本发明解决技术问题所采取的技术方案为:
步骤1、接入行人步态图像序列或视频,将其输入基于GaitSet网络的步态外观特征提取分支提取外观特征FApp,包括颜色、纹理等。
步骤2、通过简化的FCN网络即语义分割分支对图像进行语义分割得到只包含行人步态轮廓信息的掩模。FCN的前六个卷积层与步态外观特征提取分支的前六个卷积层共享权重。
步骤3、通过基于GaitSet网络的步态掩模特征提取分支对掩模提取行人步态掩模特征FMask,包含轮廓等。
步骤4、对提取到的特征设置合适的权重进行特征融合,即F=p*FApp+q*FMask。融合特征为本发明所提出方法提取的最终特征。用于后续计算Loss(训练时)或欧氏距离(前向推理时)。
步骤5、在网络训练时,对融合特征计算三元组损失LBA+、语义分割分支的交叉熵损失LCross进行Loss融合,设置不同的权重进行加权和,即Loss=r*LBA++s*LCross
步骤6、使用训练好的网络进行前向推理时,计算待检索行人步态序列和检索库中行人步态序列融合特征之间的欧氏距离,根据距离计算rank-1识别准确率。
本发明提供的技术方案的有益效果是:通过对GaitSet网络的水平金字塔映射部分进行修改使其提取到更丰富的特征,更适合于本发明所提出的多模态步态识别方法。通过加入简化的FCN网络,使得在增加很小的时间成本的情况下,完成对RGB图像的自动语义分割,实现端到端的步态识别。通过对Loss进行融合,使多个分支同时进行训练。通过对特征进行融合,使网络提取特征的最终表示更丰富完整。本发明通过图像序列或视频输入而无需其他辅助设备即可实现高精度的端到端的多模态步态识别。
附图说明
为了更清楚的展示本发明实施例中的网络结构以及训练和前向推理过程,下面将对实施例中所需要使用的附图做以简单地介绍。
图1为本发明方法的结构图;
图2为本发明方法进行训练的流程图;
图3为本发明方法进行前向推理的流程图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本发明提出了一种通用的基于深度学习的端到端的多模态步态识别方法。其网络框架结构如图1所示,主要包含三个分支,分别为步态外观特征提取分支、语义分割分支和步态掩模特征提取分支。
网络训练过程如图2所示。其简要步骤如下:一、读取视频帧提取步态外观特征;二、对视频帧进行语义分割得到掩模;三、对掩模提取步态掩模特征;四、对步态外观特征和步态掩模特征进行融合;五、计算融合特征Loss以及语义分割Loss并融合;六、反向传播更新网络参数。
网络前向推理过程如图3所示。其简要步骤如下:一、读取视频帧提取步态外观特征;二、对视频帧进行语义分割得到掩模;三、对掩模提取步态掩模特征;四、对步态外观特征和步态掩模特征进行融合;五、计算probe和gallery的融合特征之间的欧氏距离,距离最近的即为来自同一个样本的序列。
实施例:
一种基于深度学习的多模态步态识别方法,包括如下步骤:
步骤1、接入步态序列或者视频,提取行人步态外观特征FApp,具体的:
将步态序列或视频输入步态外观特征提取分支提取步态外观特征。该分支基于GaitSet步态识别网络。该网络进行如下改进:首先,将其中的输入层的输入通道数由1改为3以输入RGB图像;其次将空间金字塔池化(SPP)中的全局最大池化替换为全局最大池化和全局平均池化之和,并替换GaitSet中的水平金字塔映射(HPM);然后,使用注意力机制(SE)提升有用的特征并抑制对步态识别用处不大的特征;最后使用独立的全连接层(FC)对特征进行映射。
步骤2、通过简化的FCN网络即语义分割分支对图像进行语义分割得到只包含行人步态轮廓信息的掩模。具体的:
本发明简化后的FCN网络包含9层卷积层和1个上采样层,其中前6层卷积层与步态外观特征提取分支的前6个卷积层共享权重。相比于原来的FCN,去掉了跳级结构且多增加了一层卷积层,在精度损失不大的前提下保证分割速度。
步骤3、通过基于GaitSet网络的步态掩模特征提取分支对掩模提取行人步态掩模特征FMask。步态掩模特征提取分支输入层为1,其余结构与步态外观特征提取分支相同。
步骤4、对提取到的特征设置合适的权重进行特征融合,即F=p*FApp+q*FMask。融合特征为本发明所提出方法提取的最终特征。根据实验得出p取0.8,q取0.2。
步骤5、网络进行训练时,对融合特征计算三元组损失LBA+、语义分割分支的交叉熵损失LCross进行Loss融合,设置不同的权重进行加权和,即Loss=r*LBA++s*LCross,根据实验得出r取0.7,s取0.3。
步骤6、使用训练好的网络进行前向推理时,计算待检索行人步态序列和检索库中行人步态序列融合特征之间的欧氏距离,根据距离进行排序,并计算rank-1识别准确率,距离最近的即为来自同一个样本的序列。

Claims (6)

1.基于深度学习的端到端的多模态步态识别方法,其特征在于该方法包含如下步骤:
步骤1、接入行人步态图像序列或视频,将其输入基于GaitSet网络的步态外观特征提取分支提取外观特征FApp,包括颜色、纹理;
步骤2、通过简化的FCN网络,即语义分割分支对图像进行语义分割得到只包含行人步态轮廓信息的掩模;
步骤3、通过基于GaitSet网络的步态掩模特征提取分支对掩模提取行人步态掩模特征FMask,包含轮廓;
步骤4、对提取到的特征设置合适的权重进行特征融合,得到融合特征,用于后续计算;
步骤5、网络训练时,对融合特征计算三元组损失LBA+和语义分割分支的交叉熵损失LCross进行Loss融合,所述的网络由步态外观特征提取分支、语义分割分支和步态掩模特征提取分支组成;
步骤6、使用训练好的网络进行前向推理时,计算待检索行人步态序列和检索库中行人步态序列融合特征之间的欧氏距离,根据欧氏距离计算rank-1识别准确率;
步骤1中所述步态外观特征提取分支基于GaitSet网络改进得到,改进之处:输入层的输入通道数由1调整为3以输入RGB图像;将空间金字塔池化中的全局最大池化替换为全局最大池化和全局平均池化之和,并替换GaitSet网络中的水平金字塔映射。
2.根据权利要求1所述的基于深度学习的端到端的多模态步态识别方法,其特征在于,
使用注意力机制提升有用的特征,使用独立的全连接层对有用的特征进行映射。
3.根据权利要求1所述的基于深度学习的端到端的多模态步态识别方法,其特征在于,
步骤2中所述简化的FCN网络包含9层卷积层和1个上采样层,其中前6层卷积层与步态外观特征提取分支的前6个卷积层共享权重。
4.根据权利要求1所述的基于深度学习的端到端的多模态步态识别方法,其特征在于,
步骤3中所述步态掩模特征提取分支输入层为1,其余结构和步态外观特征提取分支相同。
5.根据权利要求1所述的基于深度学习的端到端的多模态步态识别方法,其特征在于,
步骤4所述特征融合具体过程为F=p*FApp+q*FMask,其中F表示融合特征,p表示外观特征FApp的权重,q表示行人步态掩模特征FMask的权重。
6.根据权利要求1所述的基于深度学习的端到端的多模态步态识别方法,其特征在于,
步骤5所述Loss融合具体过程为Loss=r*LBA++s*LCross,其中Loss表示融合损失,r表示三元组损失LBA+的权重、s表示交叉熵损失LCross的权重。
CN202110460163.8A 2021-04-27 2021-04-27 基于深度学习的端到端的多模态步态识别方法 Active CN113177464B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110460163.8A CN113177464B (zh) 2021-04-27 2021-04-27 基于深度学习的端到端的多模态步态识别方法
PCT/CN2021/104204 WO2022227275A1 (zh) 2021-04-27 2021-07-02 基于深度学习的端到端的多模态步态识别方法
US17/653,660 US11544969B2 (en) 2021-04-27 2022-03-07 End-to-end multimodal gait recognition method based on deep learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110460163.8A CN113177464B (zh) 2021-04-27 2021-04-27 基于深度学习的端到端的多模态步态识别方法

Publications (2)

Publication Number Publication Date
CN113177464A CN113177464A (zh) 2021-07-27
CN113177464B true CN113177464B (zh) 2023-12-01

Family

ID=76926663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110460163.8A Active CN113177464B (zh) 2021-04-27 2021-04-27 基于深度学习的端到端的多模态步态识别方法

Country Status (2)

Country Link
CN (1) CN113177464B (zh)
WO (1) WO2022227275A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821689A (zh) * 2021-09-22 2021-12-21 沈春华 基于视频序列的行人检索方法、装置和电子设备
CN113887358B (zh) * 2021-09-23 2024-05-31 南京信息工程大学 按部分学习解耦表征的步态识别方法
CN116012955B (zh) * 2023-03-28 2023-05-30 石家庄铁道大学 一种改进GaitSet的红外步态识别方法
CN117690583B (zh) * 2024-02-01 2024-04-09 吉林大学 基于物联网的康复护理交互式管理***及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583298A (zh) * 2018-10-26 2019-04-05 复旦大学 基于集合的跨视角步态识别方法
US10540757B1 (en) * 2018-03-12 2020-01-21 Amazon Technologies, Inc. Method and system for generating combined images utilizing image processing of multiple images
CN111553205A (zh) * 2020-04-12 2020-08-18 西安电子科技大学 无车牌信息车辆重识别方法、***、介质、视频监控***
CN111860291A (zh) * 2020-07-16 2020-10-30 上海交通大学 基于行人外观和步态信息的多模态行人身份识别方法和***
CN112016489A (zh) * 2020-09-02 2020-12-01 重庆邮电大学 一种保留全局信息并增强局部特征的行人再识别方法
CN112131950A (zh) * 2020-08-26 2020-12-25 浙江工业大学 一种基于Android手机的步态识别方法
CN112434655A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016065534A1 (zh) * 2014-10-28 2016-05-06 中国科学院自动化研究所 一种基于深度学习的歩态识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10540757B1 (en) * 2018-03-12 2020-01-21 Amazon Technologies, Inc. Method and system for generating combined images utilizing image processing of multiple images
CN109583298A (zh) * 2018-10-26 2019-04-05 复旦大学 基于集合的跨视角步态识别方法
CN111553205A (zh) * 2020-04-12 2020-08-18 西安电子科技大学 无车牌信息车辆重识别方法、***、介质、视频监控***
CN111860291A (zh) * 2020-07-16 2020-10-30 上海交通大学 基于行人外观和步态信息的多模态行人身份识别方法和***
CN112131950A (zh) * 2020-08-26 2020-12-25 浙江工业大学 一种基于Android手机的步态识别方法
CN112016489A (zh) * 2020-09-02 2020-12-01 重庆邮电大学 一种保留全局信息并增强局部特征的行人再识别方法
CN112434655A (zh) * 2020-12-07 2021-03-02 安徽大学 一种基于自适应置信度图卷积网络的步态识别方法

Also Published As

Publication number Publication date
CN113177464A (zh) 2021-07-27
WO2022227275A1 (zh) 2022-11-03

Similar Documents

Publication Publication Date Title
CN113177464B (zh) 基于深度学习的端到端的多模态步态识别方法
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN107220611B (zh) 一种基于深度神经网络的空时特征提取方法
CN108509880A (zh) 一种视频人物行为语义识别方法
CN111460914B (zh) 一种基于全局和局部细粒度特征的行人重识别方法
CN112232214A (zh) 一种基于深度特征融合和注意力机制的实时目标检测方法
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN113240691A (zh) 一种基于u型网络的医学图像分割方法
CN109508663A (zh) 一种基于多层次监督网络的行人重识别方法
CN111310668B (zh) 一种基于骨架信息的步态识别方法
CN110458025B (zh) 一种基于双目摄像头的目标识别与定位方法
CN113807355A (zh) 一种基于编解码结构的图像语义分割方法
CN111274921A (zh) 一种利用姿态掩模进行人体行为识别的方法
CN109472191A (zh) 一种基于时空上下文的行人重识别与追踪方法
CN111985332B (zh) 一种基于深度学习的改进损失函数的步态识别方法
CN112651262A (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
CN110909741A (zh) 一种基于背景分割的车辆再识别方法
CN113011396B (zh) 基于深度学习级联特征融合的步态识别方法
CN108830170A (zh) 一种基于分层特征表示的端到端目标跟踪方法
CN112330718B (zh) 一种基于cnn的三级信息融合视觉目标跟踪方法
CN111582154A (zh) 基于多任务骨架姿态划分部件的行人重识别方法
CN113449671A (zh) 一种多尺度多特征融合的行人重识别方法及装置
CN117011883A (zh) 一种基于金字塔卷积和Transformer双分支的行人重识别方法
CN116311377A (zh) 基于图像内与图像间关系的换衣行人重识别方法和***
CN117036770A (zh) 基于级联注意力的检测模型训练和目标检测方法、***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant