CN111160115B - 一种基于孪生双流3d卷积神经网络的视频行人再识别方法 - Google Patents

一种基于孪生双流3d卷积神经网络的视频行人再识别方法 Download PDF

Info

Publication number
CN111160115B
CN111160115B CN201911260938.6A CN201911260938A CN111160115B CN 111160115 B CN111160115 B CN 111160115B CN 201911260938 A CN201911260938 A CN 201911260938A CN 111160115 B CN111160115 B CN 111160115B
Authority
CN
China
Prior art keywords
pedestrian
convolutional neural
neural network
video
characteristic diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911260938.6A
Other languages
English (en)
Other versions
CN111160115A (zh
Inventor
魏丹
王子阳
胡晓强
罗一平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai University of Engineering Science
Original Assignee
Shanghai University of Engineering Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai University of Engineering Science filed Critical Shanghai University of Engineering Science
Priority to CN201911260938.6A priority Critical patent/CN111160115B/zh
Publication of CN111160115A publication Critical patent/CN111160115A/zh
Application granted granted Critical
Publication of CN111160115B publication Critical patent/CN111160115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于孪生双流3D卷积神经网络的视频行人再识别方法,基于孪生双流3D卷积神经网络的视频行人再识别方法,通过孪生双流3D卷积神经网络的硬线层将行人视频的每一帧图片提取成光流‑x特征图、光流‑y特征图、灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图;将光流特征图作为动作分支的输入来提取行人的动作信息,其余特征图作为外观分支的输入来提取行人的外观信息;将行人动作信息融合到提取出来的行人外观信息中;将动作信息和外观信息通过融合进行度量对比学习;对网络参数进行更新,并训练新的卷积神经网络;将目标行人图像与相似度排名第一的待识别行人图像进行关联。与现有技术相比,本发明具有更加接近于现实场景等优点。

Description

一种基于孪生双流3D卷积神经网络的视频行人再识别方法
技术领域
本发明涉及基于图像处理的机器视觉领域,尤其是涉及一种基于孪生双流3D卷积神经网络的视频行人再识别方法。
背景技术
行人再识别是在非重叠摄像机上进行人员匹配时所要面对的问题,近年来由于其在实施自动化监测***方面的重要性,越来越受到关注。视频行人再识别更加接近于现实场景,本发明有助于实现城市智能化,有助于在机场等大型公共场所的安全、寻人,有助于实现通过摄像头自动寻找走失老人、小孩,有助于协助公安机关对罪犯的自动识别追踪。
在许多应用程序,例如跨摄像机跟踪和行人搜索中,基于外观信息从一组人中识别一个人是可取的。不过由于低分辨率、运动模糊、视图以及个体外观光照的变化,构建适应不同相机条件的差异化表示是非常具有挑战性的,因此在多摄像机***中,非重叠摄像机视图的匹配越来越受到人们的关注。比如一个人在被多个互不重叠的摄像头覆盖的公共空间的大范围内的行为,当这个人从一个视图中消失时,目标可以在另一个视图同样的一群人中被识别出来。虽然计算机视觉研究人员在过去的十年中已经做出了最大的努力,但是人的再识别问题在很大程度上仍然没有得到解决。特别是在一个由远程摄像头监控的繁忙环境中,依靠面部和步态等生物特征对人进行身份验证是不可靠的。
发明内容
本发明的目的就是为了克服上述现有技术存在繁忙环境中识别度不高的缺陷而提供一种基于孪生双流3D卷积神经网络的视频行人再识别方法。
本发明的目的可以通过以下技术方案来实现:
一种基于孪生双流3D卷积神经网络的视频行人再识别方法,包括:
步骤S1:通过孪生双流3D卷积神经网络的硬线层将行人视频的每一帧图片提取成光流-x特征图、光流-y特征图、灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图;
步骤S2:将步骤S1中提取出来的光流-x特征图、光流-y特征图作为动作分支的输入来提取行人的动作信息,灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图作为外观分支的输入来提取行人的外观信息;
步骤S3:在孪生双流3D卷积神经网络的第二层将步骤S3提取出来的行人动作信息融合到提取出来的行人外观信息中;
步骤S4:在孪生双流3D卷积神经网络的第六层将所述动作信息和外观信息通过融合进行度量对比学习;
步骤S5:通过改善的视频三元组损失对网络参数进行更新,根据更新后的网络参数训练新的卷积神经网络;
步骤S6:利用步骤S5训练好的卷积神经网络在全连接层进行合并,通过比较度量距离识别目标行人图像,并进行相似度排序,将所述目标行人图像与相似度排名第一的待识别行人图像进行关联。
所述步骤S2中,将光流-x特征图、光流-y特征图进行光流计算,得出相邻2帧动作信息的变化。
所述3D卷积神经网络的卷积核之间实行权重共享,在2D卷积和2D池化的基础上,增加了时间维度上的时间信息。
所述孪生双流3D卷积神经网络的第二层为P3池化层。
所述孪生双流3D卷积神经网络的第六层为Conv6卷积层。
优选的,所述动作信息和外观信息通过Conv方法进行融合。
所述改善过后的视频三元组损失不仅包括视频间与视频内的行人度量损失,还包括视频内和视频间行人的动作度量损失和外观度量损失,具体为:
Figure BDA0002311570580000021
其中,LVideoTriplet为视频三元组损失,
Figure BDA0002311570580000022
为本视频样本V的正视频样本W的l层第x个特征图(i,j,t)处的一个单元的特征值,
Figure BDA0002311570580000023
为本视频样本V的l层第x个特征图(i,j,t)处的一个单元的特征值,
Figure BDA0002311570580000024
为本视频样本V的负视频样本U的l层第x个特征图(i,j,t)处的一个单元的特征值,Laction为动作信息总损失,Lappearance为外观信息总损失,δ为每一层的灵敏度。。
所述网络参数的更新具体为:
ωnew=ωold-η▽J(ω)
bnew=bold-η▽J(b)
其中,ωnew为更新过后的权重,ωold为更新前的权重,η为学习率,学习率是一个固定值,一般取0.05,▽J(ω)为关于权重的残差,bnew为更新过后的偏置项,bold为更新前的权重,▽J(b)为关于偏置项的残差。
与现有技术相比,本发明具有以下有益效果:
1.行人视频记录更加接近于现实场景,本发明有助于实现城市智能化,有助于在机场等大型公共场所的安全、寻人,有助于实现通过摄像头自动寻找走失老人、小孩,有助于协助公安机关对罪犯的自动识别追踪。
2.本发明提出的基于孪生双流3D卷积神经网络的视频行人再识别方法同时通过两个双流3D卷积神经网络学习操作信息和外观信息,完成视频行人再识别,拥有更高的效率。
3.孪生双流3D卷积神经网络经过第一阶段融合和第二阶段融合两次融合后,外观信息和动作信息更好的融合,使得训练后的卷积神经网络对于待识别行人的动作信息和外观信息提取更准确,识别准确率更高。
附图说明
图1为本发明的流程示意图;
图2为本发明中3D卷积与2D卷积的差异示意图;
图3为本发明中3D池化与2D池化的差异示意图;
图4为本发明中改善三元组损失的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,一种基于孪生双流3D卷积神经网络的视频行人再识别方法,包括:
步骤S1:通过孪生双流3D卷积神经网络的硬线层将行人视频1和行人视频2的每一帧图片提取成光流-x特征图、光流-y特征图、灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图;
步骤S2:将步骤S1中提取出来的光流-x特征图、光流-y特征图作为动作分支的输入来提取行人的动作信息,灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图作为外观分支的输入来提取行人的外观信息;
步骤S3:在孪生双流3D卷积神经网络的第二层将步骤S3提取出来的行人动作信息融合到提取出来的行人外观信息中;
步骤S4:在孪生双流3D卷积神经网络的第六层将动作信息和外观信息通过融合进行度量对比学习;
步骤S5:通过改善的视频三元组损失对网络参数进行更新,根据更新后的网络参数训练新的卷积神经网络;
步骤S6:利用步骤S5训练好的卷积神经网络在全连接层进行合并,通过比较度量距离识别目标行人图像,并进行相似度排序,将所述目标行人图像与相似度排名第一的待识别行人图像进行关联。
行人视频1和行人视频2为相同的一段
步骤S2中,将光流-x特征图、光流-y特征图进行光流计算,得出相邻2帧动作信息的变化。
3D卷积神经网络的卷积核之间实行权重共享,在2D卷积和2D池化的基础上,增加了时间维度上的时间信息,如图2和图3所示。
孪生双流3D卷积神经网络的第二层为P3池化层。
孪生双流3D卷积神经网络的第六层为Conv6卷积层。
步骤S3和步骤S4中的融合方法为Conv方法。
如图4所示,改善过后的视频三元组损失不仅包括视频间与视频内的行人度量损失,还包括视频内和视频间行人的动作度量损失和外观度量损失,具体为:
Figure BDA0002311570580000041
其中,LVideoTriplet为视频三元组损失,
Figure BDA0002311570580000042
为本视频样本V的正视频样本W的l层第x个特征图(i,j,t)处的一个单元的特征值,
Figure BDA0002311570580000043
为本视频样本V的l层第x个特征图(i,j,t)处的一个单元的特征值,
Figure BDA0002311570580000044
为本视频样本V的负视频样本U的l层第x个特征图(i,j,t)处的一个单元的特征值,Laction为动作信息总损失,Lappearance为外观信息总损失,δ为每一层的灵敏度。。
网络参数的更新具体为:
ωnew=ωold-η▽J(ω)
bnew=bold-η▽J(b)
其中,ωnew为更新过后的权重,ωold为更新前的权重,η为学习率,学习率是一个固定值,一般取0.05,▽J(ω)为关于权重的残差,bnew为更新过后的偏置项,bold为更新前的权重,▽J(b)为关于偏置项的残差。
度量距离较小的正样本和固定样本之间会拉近,更新权重和偏差项,度量距离较大的负样本和固定样本之间会推远,更新权重和偏差项,样本之间的权重进行共享,重新训练更新之后的固定样本,获得新的神经网络模型。

Claims (8)

1.一种基于孪生双流3D卷积神经网络的视频行人再识别方法,其特征在于,包括:
步骤S1:通过孪生双流3D卷积神经网络的硬线层将行人视频的每一帧图片提取成光流-x特征图、光流-y特征图、灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图;
步骤S2:将步骤S1中提取出来的光流-x特征图、光流-y特征图作为动作分支的输入来提取行人的动作信息,灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图作为外观分支的输入来提取行人的外观信息;
步骤S3:孪生双流3D卷积神经网络中将步骤S2提取出来的行人动作信息融合到提取出来的行人外观信息中;
步骤S4:孪生双流3D卷积神经网络将所述动作信息和外观信息通过融合进行度量对比学习;
步骤S5:通过改善的视频三元组损失对网络参数进行更新,根据更新后的网络参数训练新的卷积神经网络;
步骤S6:利用步骤S5训练好的卷积神经网络在全连接层进行合并,通过比较度量距离识别目标行人图像,并进行相似度排序,将所述目标行人图像与相似度排名第一的待识别行人图像进行关联。
2.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法,其特征在于,所述步骤S2中,将光流-x特征图、光流-y特征图进行光流计算,得出相邻2帧动作信息的变化。
3.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法,其特征在于,所述3D卷积神经网络的卷积核之间实行权重共享。
4.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法,其特征在于,所述步骤S3位于为P3池化层。
5.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法,其特征在于,所述步骤S4位于Conv6卷积层。
6.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法,其特征在于,所述动作信息和外观信息通过Conv方法进行融合。
7.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法,其特征在于,改善过后的视频三元组损失不仅包括视频间与视频内的行人度量损失,还包括视频内和视频间行人的动作度量损失和外观度量损失,具体为:
其中,LVideoTriplet为视频三元组损失,为本视频样本V的正视频样本W的l层第x个特征图(i,j,t)处的一个单元的特征值,为本视频样本V的l层第x个特征图(i,j,t)处的一个单元的特征值,为本视频样本V的负视频样本U的l层第x个特征图(i,j,t)处的一个单元的特征值,Laction为动作信息总损失,Lappearance为外观信息总损失,δ为每一层的灵敏度。
8.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法,其特征在于,所述网络参数的更新具体为:
ωnew=ωold-η▽J(ω)
bnew=bold-η▽J(b)
其中,ωnew为更新过后的权重,ωold为更新前的权重,η为学习率,学习率是一个固定值,▽J(ω)为关于权重的残差,bnew为更新过后的偏置项,bold为更新前的权重,▽J(b)为关于偏置项的残差。
CN201911260938.6A 2019-12-10 2019-12-10 一种基于孪生双流3d卷积神经网络的视频行人再识别方法 Active CN111160115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911260938.6A CN111160115B (zh) 2019-12-10 2019-12-10 一种基于孪生双流3d卷积神经网络的视频行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911260938.6A CN111160115B (zh) 2019-12-10 2019-12-10 一种基于孪生双流3d卷积神经网络的视频行人再识别方法

Publications (2)

Publication Number Publication Date
CN111160115A CN111160115A (zh) 2020-05-15
CN111160115B true CN111160115B (zh) 2023-05-02

Family

ID=70556702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911260938.6A Active CN111160115B (zh) 2019-12-10 2019-12-10 一种基于孪生双流3d卷积神经网络的视频行人再识别方法

Country Status (1)

Country Link
CN (1) CN111160115B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792594B (zh) * 2021-08-10 2024-04-12 南京大学 一种基于对比学习的视频中语言片段定位方法及装置
CN114998995A (zh) * 2022-06-13 2022-09-02 西安电子科技大学 基于度量学习和时空双流网络的跨视角步态识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146248A (zh) * 2017-04-27 2017-09-08 杭州电子科技大学 一种基于双流卷积神经网络的立体匹配方法
CN108416266A (zh) * 2018-01-30 2018-08-17 同济大学 一种利用光流提取运动目标的视频行为快速识别方法
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110084228A (zh) * 2019-06-25 2019-08-02 江苏德劭信息科技有限公司 一种基于双流卷积神经网络的危险行为自动识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146248A (zh) * 2017-04-27 2017-09-08 杭州电子科技大学 一种基于双流卷积神经网络的立体匹配方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN108416266A (zh) * 2018-01-30 2018-08-17 同济大学 一种利用光流提取运动目标的视频行为快速识别方法
CN109241834A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于隐变量的嵌入的群体行为识别方法
CN110084228A (zh) * 2019-06-25 2019-08-02 江苏德劭信息科技有限公司 一种基于双流卷积神经网络的危险行为自动识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙鹏 ; 于彤 ; 冯鹏定 ; 蒋庄浩 ; 魏丹妮 ; 单大国 ; .变化场景条件下视频目标色彩校正方法.中国刑警学院学报.2019,(第02期),全文. *

Also Published As

Publication number Publication date
CN111160115A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN109740413B (zh) 行人重识别方法、装置、计算机设备及计算机存储介质
CN111160297B (zh) 基于残差注意机制时空联合模型的行人重识别方法及装置
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
CN108509859B (zh) 一种基于深度神经网络的无重叠区域行人跟踪方法
CN109961051B (zh) 一种基于聚类和分块特征提取的行人重识别方法
CN107832672B (zh) 一种利用姿态信息设计多损失函数的行人重识别方法
CN108460356B (zh) 一种基于监控***的人脸图像自动处理***
WO2020042419A1 (zh) 基于步态的身份识别方法、装置、电子设备
CN104598883B (zh) 一种多摄像机监控网络中目标再识别的方法
CN110796074B (zh) 一种基于时空数据融合的行人再识别方法
CN109064484B (zh) 基于子群组划分与动量特征融合的人群运动行为识别方法
CN104517095B (zh) 一种基于深度图像的人头分割方法
CN111639616A (zh) 一种基于深度学习的重身份识别方法
CN109583373B (zh) 一种行人重识别实现方法
CN111241932A (zh) 汽车展厅客流检测与分析***、方法及存储介质
CN109919073B (zh) 一种具有光照鲁棒性的行人再识别方法
CN110728216A (zh) 一种基于行人属性自适应学习的无监督行人再识别方法
CN111160115B (zh) 一种基于孪生双流3d卷积神经网络的视频行人再识别方法
CN112381132A (zh) 一种基于多个摄像头融合的目标物跟踪方法和***
CN112070010B (zh) 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法
CN111401113A (zh) 一种基于人体姿态估计的行人重识别方法
CN111639580A (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN112132157B (zh) 一种基于树莓派的步态人脸融合识别方法
US20220366570A1 (en) Object tracking device and object tracking method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant