CN108805078A - 基于行人平均状态的视频行人再识别方法及*** - Google Patents

基于行人平均状态的视频行人再识别方法及*** Download PDF

Info

Publication number
CN108805078A
CN108805078A CN201810593780.3A CN201810593780A CN108805078A CN 108805078 A CN108805078 A CN 108805078A CN 201810593780 A CN201810593780 A CN 201810593780A CN 108805078 A CN108805078 A CN 108805078A
Authority
CN
China
Prior art keywords
video
pedestrian
network
average state
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810593780.3A
Other languages
English (en)
Inventor
李艺萌
张伟
喻晓东
许信顺
鲁威志
顾建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201810593780.3A priority Critical patent/CN108805078A/zh
Publication of CN108805078A publication Critical patent/CN108805078A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于行人平均状态的视频行人再识别方法及***,包括:非重叠相机拍摄获得视频,构成包含若干行人的数据集,暹罗网络与暹罗损失函数一起训练,由于训练好的网络学***均而获得的特征向量初始化个体的平均体;视频内损失函数被定义为最小化特征向量与平均状态之间的距离,将视频内损失函数与暹罗损失函数结合在一起,从头开始训练新的模型;用训练好的模型更新行人平均状态,并且用更新的平均状态对网络进行重新训练,直到在验证集上没有对行人再识别的准确性产生进一步收益。本申请方法在PRID2011,iLIDS‑VID和MARS数据集上优于大多数最先进的算法,这也证明了本申请提出的方法的有效性。

Description

基于行人平均状态的视频行人再识别方法及***
技术领域
本发明涉及图像识别技术领域,特别是涉及基于行人平均状态的视频行人再识别方法及***。
背景技术
行人再识别旨在通过不同摄像机的非重叠视图匹配同一个人。最近,由于人员安全和监控在公共和私人场所的重要性,行人再识别受到关注。然而,由于相机视角的改变,背景混乱,光照变化,相似的行为等,在不同的相机中识别同一个行人仍然是一个亟待解决的问题。
对于静态图像,现有技术已经广泛探索了行人再识别的问题,包括特征学习,度量学习和基于CNN的方法。然而,与视频序列相比,单个静止图像不能产生用于行人匹配的时间信息。因此,在试图识别不同摄像机中的人时,可能会忽略行人的运动变化。此外,视频中的外观信息丰富,这使得视觉特征容易被提取,从而可以建立更好的基于行人外观的模型。此外,大量的训练样本可以消除部分遮挡。因此,基于视频的行人再识别是执行行人再识别的更自然的方式。
虽然可以从行人视频中获得更多信息,但它也带来了更多挑战。首先,由于背景混乱,视角变化和光照变化,同一视频中的每一帧都发生了很大的变化。其次,尽管行人的运动是一种行为生物特征识别,它是识别不同行人的重要区分线索,但不幸的是,同一个人的步态或其他动作可能在同一个的摄像机视角中发生改变,导致基于视频的特征表示有很大的变化。因此,行人视频中存在较大的视频内变化,如图1所示。
为了在大量的探测序列和图库序列中找到匹配的行人,合适的损失函数对于增加匹配视频的相似性是必不可少的。现有的大多数方法都是使用暹罗损失函数来进行行人再识别,它可以直接在输入序列和期望的嵌入空间之间进行端到端学习。这种损失函数通常由两部分组成:识别代价函数和暹罗代价函数。具体而言,识别代价函数是预测序列中行人的身份。暹罗代价函数旨在将不同行人的视频映射成分离的特征向量,并将同一行人的视频映射成接近的特征向量。换句话说,它试图扩大不同行人视频之间的差异,并缩小同一行人视频之间的差异。因此,如现有技术中所述,暹罗代价函数关注从不同视频中提取的时空特征之间的变化(称为视频间变化),而忽略从同一视频中提取的时空特征之间的视频内变化。这可能导致泛化能力的弱化。
行人再识别已经被研究了几年,旨在不同的相机中匹配到同一个行人。现有的方法大致可以分为两类。第一类是尝试设计手工特征。第二类通常依靠有监督/无监督学习,将输入映射到更具有判别能力的新空间。考虑到深度学习网络在各种视觉任务中的进展,将深度卷积神经网络应用于身份识别也变得越来越受欢迎。
大量的工作将重点放在设计特征上以解决存在的挑战。最近的论文也开始使用不同特征的组合来产生更有效的特征。Farenzena等人通过研究对称性和不对称性的感知原理来提取纹理直方图。Liao等人提取图片的局部特征以获得较稳定的特征。Liu等人采用空间和时间对齐方法来获得行人的步态周期。Yan et al整合了每一帧中行人的区域,并产生一个序列级的特征表示。Zheng等人试图通过考虑3D时空描述子(HOG3D)和步态能量图(GEI)来提取行人的运动信息。Li等人根据交叉视图的相似性,将两个摄像机的图像空间分割成不同的配置以获得更好的特征。在特征提取之后,度量学习被广泛用于测量特征差异。度量学习的基本思想是将特征表示空间映射到一个新的空间,如局部Fisher判别分析(LDFA),交叉视图二次判别分析(XQDA)和KISS度量学习(KISSME)。
最近的趋势是利用卷积神经网络建立端到端的学习模型来识别行人,其中暹罗网络是其中最流行的体系结构之一。例如,现有技术中的暹罗网络是通过融合卷积神经网络和递归神经网络来提取帧特征进行识别的。Zhang等人整合卷积神经网络和双向递归神经网络以得到行人的时空表示。Xu等人建立了一个时空池化的网络用于直接匹配行人。以往的研究表明,递归神经网络在时空特征提取方面显示出巨大的潜力,并且可以提高行人再识别的准确率。另一方面,由于采用的是典型的暹罗代价函数,他们主要是关注视频间的差异,而对同一视频内的差异缺乏考虑。
发明内容
为了解决现有技术的不足,本发明提供了基于行人平均状态的视频行人再识别方法,本发明引入行人平均状态的定义来捕获视频内的变化,并解决从同一视频中提取的时空特征间的差异。
基于行人平均状态的视频行人再识别方法,包括:
非重叠相机拍摄获得的视频构成包含若干行人的数据集;
构建递归卷积网络并进行训练,通过预训练好的递归卷积网络来计算数据集中行人的平均状态,并通过训练好的网络来初始化行人的平均状态;
在相同视角下视频特征与行人的平均状态之间的距离被定义为视频内损失函数,暹罗损失函数将暹罗代价函数与识别代价函数联合起来,用于找出一对视频序列之间的相似性和不相似性;
视频内损失函数利用每个摄像机视点独特的行人平均状态来使每个视频更加紧凑,而暹罗损失函数是使不匹配的行人视频更加远离;
将视频内损失函数和暹罗损失函数相结合,重新训练整个递归卷积网络,用新的递归卷积网络来更新行人的平均状态,然后再次训练网络,迭代至数据集中没有产生精度增益。
进一步优选的技术方案,所述行人的平均状态在计算时,首先用训练好的递归卷积网络提取出一个视频中每一帧的特征,然后将所有帧的特征进行平均,最后得到一个特征,就叫做行人的平均状态。
进一步优选的技术方案,将视频内损失函数和暹罗损失函数相结合,具体在结合时就是直接相加,两项权重都是1。
进一步优选的技术方案,所述数据集中视频的每个序列在被传递到递归卷积网络之前进行预处理。
进一步优选的技术方案,每个序列首先被送到递归卷积网络中以产生时空信息的特征向量,输入序列是16帧连续的视频,一个递归神经网络处理序列中的一帧,每一帧输入到递归神经网络中的是YUV彩色通道和光流。
进一步优选的技术方案,所述递归卷积网络由三个卷积层,一个全连接层,一个递归层和一个平均池化层组成,每个卷积层包括卷积,非线性激活和最大池化步骤。
进一步优选的技术方案,所述卷积层由16个特征图组成,卷积核为5×5和2个像素的步幅,而接下来的两层由32个特征图组成,卷积核为5×5和2个像素的步幅,所有卷积层都使用双曲正切函数作为非线性激活函数来产生其输出;
所有最大池化层的内核大小是2×2,全连接层会生成一个128个维度的输出,在卷积层和平均池化层中间加入的递归层连接,递归层接收一个输入,并根据当前输入和前一时间的信息产生一个输出。
进一步优选的技术方案,递归神经网络的状态,其中rt代表在t时刻递归神经网络的状态,在第一时间步骤中初始化为r0,rt-1表示之前的时间步长上递归神经网络的状态信息,如果用RC()表示递归卷积网络,则每帧的输出可以被表示为gt=RC(kt),其中kt代表在t时刻递归卷积网络的输入。
进一步优选的技术方案,在递归卷积网络之后,进行平均池化,用于计算输入序列特征的平均值,平均池化特征向量f计算如下:
其中,T代表一共有T个时刻,这个公式是对T个时刻的gt求平均值。
进一步优选的技术方案,一对视频序列的暹罗损失函数是将暹罗代价函数与识别代价函数联合起来;
暹罗代价函数表示为特征向量fi和fj的函数,如下所示:
其中m代表暹罗损失函数中区分出不同行人特征的一个阈值,给定一对输入序列Ki,Kj,Ki,Kj代表的是两个不同的输入序列,这两个子网络提取出的特征向量分别为fi,fj
进一步优选的技术方案,识别代价函数定义如下:
其中,q代表该行人的身份,Wc和Wk分别表示softmax权重矩阵W的第c列和第k列,softmax权重矩阵W是全连接层的矩阵表示,f为平均池化特征向量。
本申请还公开了基于行人平均状态的视频行人再识别***,包括:
数据集获取模块,由非重叠相机拍摄获得的视频构成包含若干行人的数据集;
行人的平均状态计算模块,构建递归卷积网络并进行训练,通过预训练好的递归卷积网络来计算数据集中行人的平均状态,并通过训练好的网络来初始化行人的平均状态;
函数定义模块,在相同视角下视频特征与行人的平均状态之间的距离被定义为视频内损失函数,暹罗损失函数将暹罗代价函数与识别代价函数联合起来,用于找出一对视频序列之间的相似性和不相似性;
视频内损失函数利用每个摄像机视点独特的行人平均状态来使每个视频更加紧凑,而暹罗损失函数是使不匹配的行人视频更加远离;
递归卷积网络训练模块,将视频内损失函数和暹罗损失函数相结合,重新训练整个递归卷积网络,用新的递归卷积网络来更新行人的平均状态,然后再次训练网络,迭代至数据集中没有产生精度增益。
与现有技术相比,本发明的有益效果是:
在本发明中,引出行人平均状态的概念,并定义一个视频内损失函数来解决从同一视频中提取出的特征间的差异。具体而言,平均状态在此代表一个视频序列内人体样本的重心。它试图捕捉整个视频序列中某个人的变化,并利用这些信息以整体的方式对个人身体的图像进行编码和比较。视频内约束使用每个帧与平均状态之间的距离来最小化视频内距离。如图2所示,本申请首先通过预训练好的网络来计算行人的平均状态。然后,将视频内损失函数和暹罗损失函数相结合,并从头开始训练整个网络。接下来,用新的网络来更新行人的平均状态,然后再次训练网络。这种迭代过程一直进行到验证数据集中没有产生精度增益。实验结果表明,所提出的方法在PRID2011,iLIDS-VID和MARS数据集上优于现有的方法。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为视频中的样本帧,每行代表由两台摄像机拍摄的同一行人的两组视频序列;
图2为提出的网络结构图;
图3为基本递归神经网络由三个卷积层,一个全连接层,一个递归层和一个平均池化层组成;
图4为视频内损失函数和行人平均状态结合示意图;
图5(a)为PRID2011的CMC曲线;
图5(b)为iLIDS-VID的CMC曲线;
图6为基于RNN-CNN的不同更新次数的匹配精度;
图7为MARS数据集的匹配曲线。
图8为比较不同初始化方式得到的平均状态,Initial-1表示平均状态是跟着训练网络从头开始初始化的,Initial-2则是使用事先训练好的的模型来初始化平均状态。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
基于视频的行人再识别是通过不同摄像机的非重叠视图来匹配同一个人的重要任务。暹罗代价函数侧重于从不同视频中提取的时空特征间的变化(称为视频间变化),而从同一视频中提取的时空特征间的视频内变化被忽略。
由于视频内和视频间的变化都较剧烈,一个好的解决方案是提取更多的视频信息来进行匹配。在本文中,本申请提出了一种新的视频内和视频间的学***均状态来使每个视频更加紧凑,而暹罗损失函数是使不匹配的行人视频更加远离。为了更有效地训练网络,本申请不断迭代更新网络以及平均状态。因此,损失函数对测试集具有更好的泛化能力。在广泛的实验中,所提出的方法在PRID2011,iLIDS-VID和MARS数据集上优于大多数最先进的算法,这也证明了本申请提出的方法的有效性。
在训练特征提取网络时,本申请期望预先为同一视频内的每一帧指定一个簇以避免视频内的变化。这种想法激励引入行人的平均状态的概念来加强视频内的约束。本申请所提出的视频内损失函数是用于对模型施加额外的限制,并且可以证明对行人再识别任务是有效的。
在本文中,引出行人平均状态的概念,并定义一个视频内损失函数来解决从同一视频中提取出的特征间的差异。具体而言,行人平均状态在此代表一个视频序列内人体样本的重心。它试图捕捉整个视频序列中某个人的变化,并利用这些信息以整体的方式对个人身体的图像进行编码和比较。视频内约束使用每个帧与平均状态之间的距离来最小化视频内距离。如图2所示,本申请首先通过预训练好的网络来计算行人的平均状态,具体的,首先用训练好的网络提取出一个视频中每一帧的特征,然后将所有帧的特征进行平均,最后得到一个特征,就叫做行人的平均状态。然后,将视频内损失函数和暹罗损失函数相结合,具体在结合时就是直接相加,两项权重都是1,并从头开始训练整个网络。接下来,用新的网络来更新行人的平均状态,然后再次训练网络。这种迭代过程一直进行到验证数据集中没有产生精度增益。验证数据集的划分是40%用于训练集,10%用于验证集,50%用于测试集,这些划分都是随机的。随机划分十次进行训练测试,最终取十次平均值为最终结果。实验结果表明,所提出的方法在PRID2011,iLIDS-VID和MARS数据集上优于现有的方法。
本文的基本思想是引入行人平均状态的定义来捕获视频内的变化,并解决从同一视频中提取的时空特征间的差异。具体而言,每个序列首先被送到递归卷积网络(RCN)中以产生时空信息的特征向量。本申请的输入序列是16帧连续的视频,一个递归神经网络(RCN)处理序列中的一帧。每一帧输入到递归神经网络(RCN)中的是YUV彩色通道和光流。
然后,暹罗网络就会与暹罗损失函数一起训练。由于训练好的网络学***均而获得的特征向量初始化个体的平均体,通过训练好的网络来初始化行人的平均状态。然后,视频内损失函数被定义为最小化特征向量与平均状态之间的距离。将视频内损失函数与暹罗损失函数结合在一起,从头开始训练新的模型。接下来,用训练好的模型更新行人平均状态,并且用更新的平均状态对网络进行重新训练。重复以上过程,直到在验证集上没有对行人再识别的准确性产生进一步收益。关于平均状态和视频内损失函数的细节具体介绍。
基本网络结构和平均池化:如图2所示,基本递归卷积网络的输入序列为K={k1,...,kT},并且输入序列的每一帧是由YUV彩色通道和光流组成的。颜色被证明能够有效地编码一个人的外表用于行人再识别。光流直接由Lucas-Kanade方法计算以编码短期运动。
土中,RCN代表递归卷积网络,Temporal Pooling代表平均池化,Intra-videoloss代表视频内损失函数,Ident.Cost代表识别代价函数,Siamese Cost代表暹罗代价函数,Mean-body A和Mean-body B分别代表两个行人的平均状态。
如图3所示,采用典型的递归卷积网络结构来构建基础网络。它由三个卷积层,一个全连接层,一个递归层和一个平均池化层组成。每个卷积层包括卷积,非线性激活和最大池化步骤。
图3中,其中kt代表递归卷积网络(RCN)的输入,rt代表t时刻递归神经网络(RNN)的状态,rt-1代表t-1时刻递归神经网络(RNN)的状态,ft代表平均池化特征向量,Conv1,Conv2,Conv3分别代表不同的卷积层,FC代表全连接层,RNN代表递归神经网络,TemporalPooling代表平均池化,Tanh是一种激活函数。
卷积层由16个特征图组成,卷积核为5×5和2个像素的步幅,而接下来的两层由32个特征图组成,卷积核为5×5和2个像素的步幅。请注意,所有卷积层都使用双曲正切函数(tanh)作为非线性激活函数来产生其输出。所有最大池化层的内核大小是2×2,全连接层会生成一个128个维度的输出。在卷积层和平均池化层中间加入的递归连接,旨在很好地捕获视频序列中的时间信息。递归层接收一个输入,并根据当前输入和前一时间的信息产生一个输出。在图3中,递归神经网络(RNN)的状态,其中rt代表在t时刻递归神经网络(RNN)的状态,在第一时间步骤中初始化为r0,rt-1表示之前的时间步长上递归神经网络(RNN)的状态信息。如果用RC()表示递归卷积网络(RCN),则每帧的输出可以被表示为gt=RC(kt)其中kt代表在t时刻递归卷积网络(RCN)的输入。
尽管递归层能够捕获时间信息,但是仍存在一些限制,例如包含大量的冗余信息,并且输出可能偏向于稍后的时间。为了缓解这些问题,在递归卷积网络(RCN)之后,进行平均池化,用于计算输入序列特征的平均值。平均池化特征向量f计算如下:
其中,T代表一共有T个时刻。这个公式是对T个时刻的gt求平均值。
暹罗损失函数:对于基于视频的行人再识别,暹罗网络结构已被广泛用于找出一对视频序列之间的相似性和不相似性。它由两个并行的网络组成。两个网络间具有共享的参数(即权重和偏差)。给定一对输入序列(Ki,Kj)(i,j代表的是两个不同的输入序列),这两个子网络提取出的特征向量分别为fi,fj。然后,暹罗网络使用欧几里得距离得到特征间的关系,旨在最大化来自不同类别的负对之间的距离,并最小化来自同一类的正对之间的距离。值得注意的是,暹罗代价函数的重点在于视频间的变化。因此,可以将暹罗代价函数表示为特征向量fi和fj的函数,如下所示:
其中m代表暹罗损失函数中区分出不同行人特征的一个阈值。
为了预测行人的身份,还使用softmax代价函数来计算识别成本。识别代价函数定义如下:
其中q代表该行人的身份。Wc和Wk分别表示softmax权重矩阵W的第c列和第k列。请注意,softmax权重矩阵W是全连接层的矩阵表示。
现在定义一对视频序列的暹罗损失函数,如方程(4)所示。它是将暹罗代价函数与识别代价函数联合起来。
S(fi,fj)=E(fi,fj)+I(fi)+I(fj). (4)
视频内损失函数和行人平均状态
图4:视频内损失函数依赖于平均状态来使每个视频的帧更加紧凑,而暹罗损失函数被用来最小化正对之间的距离并最大化负对之间的距离。因此,真正匹配的视频越来越接近,错误匹配的视频趋于分离。平均状态与训练网络一起更新,然后使用更新的平均状态再次训练模型以更有效地区分不同的人。
图4中,其中Video A from person 1,Video B from person 1代表行人1的两段不同的视频,Video A from person 2,Video B from person 2代表行人2的两段不同的视频,,Intra-video loss代表视频内损失函数,Siamese Loss代表暹罗损失函数,currentmean-body和updated mean-body分别代表更新前和更新后的行人平均状态。
对于基于视频的行人再识别,总是希望图库序列的顶级匹配是正确的。然而,暹罗代价函数强调的是视频间的损失,这可能导致在学***均状态并使用它对视频内的距离施加约束,如图4所示。首先用暹罗损失函数训练行人再识别模型(这个模型是没有利用行人平均状态的模型,可以称为“暹罗网络”。这个网络用于初始化行人的平均状态。在加入行人平均状态进行训练之后,就不再是暹罗网络,而是本申请提出的新网络,即“视频内和视频间的学***均状态,即一个视频序列内所有特征的平均值。请注意,平均状态只从训练集中提取。训练集的划分是40%用于训练集,10%用于验证集,50%用于测试集。这些划分都是随机的。随机划分十次进行训练测试,最终取十次平均值为最终结果。
通常,从单个相机中捕获的视频序列具有其自身的平均状态估计。预估的平均状态可以用来增加视频内距离的约束,使得在一个摄像机视点捕获的所有帧更加紧凑。为了更有效地训练网络,基于训练网络迭代更新平均状态。从另一方面来说,即使每个视频有其自身的平均状态,但只要两个视频捕捉的是同一个人,他们的平均状态就应该比较接近。这也意味着平均状态在处理视频间的变化方面也是有效的。
基于上述观察,本申请提出了视频内损失函数以解决视频内变化,其关注的是在相同视角下视频特征f与平均状态M之间的距离。对于每个视频,视频内损失函数定义如下:
V(f)=min||f-M||2. (5)
所提出的损失函数试图使学***均状态。由于平均状态M随着网络而不断更新,所以视频内的约束可以有效地使同一个人的视频更加紧凑。
最后,本申请将视频内损失函数和暹罗损失函数结合在一起来训练整个网络。这与典型的数据聚类和判别分析方法所使用的原理更加一致。通过充分利用整个视频信息,新的损失函数善于聚合一个视频内的两帧之间的距离并扩大两个错误匹配的视频之间的距离。
L(fi,fj)=S(fi,fj)+V(fi)+V(fj)
=E(fi,fj)+I(fi)+I(fj)+V(fi)+V(fj).
(6)。
下面本申请中给出了详细的对比实施例子,在该部分具体的实施例子中,本申请在PRID2011,iLIDS-VID和MARS三个数据集上进行了评估,并与最新的方法进行比较。本申请还分析了不同的初始化方式,以寻求一个对于行人再识别来说更有效的平均状态。
在PRID2011和iLIDS-VID上的实验结果
(1)数据集:PRID2011:该数据集包含749人,由两台非重叠的相机拍摄,序列长度为5至675帧。相机视角A和B分别包含385和749人,两个视图中共同出现的有200人。
iLIDS-VID:它是由一个繁忙的机场大厅内的视频序列构成的。它包含300个非重叠视图出现的人,这些人被归一化为128×64像素。序列长度从23到192帧不等。这些视频序列有较大的照明变化和遮挡。
实验设置:输入的每一帧在被传递到提出的网络之前被预处理,包括转换到YUV色彩空间,并且归一化为零均值和单位方差。本申请使用Lucas-Kanade算法计算两帧之间的光流,包括垂直通道和水平通道。然后归一化到[-1,1]之间。数据增强包括裁剪和镜像,这可以增加训练数据的多样性。本申请随机选择大约一半的人进行培训和验证,剩下的一半进行测试。由于探测序列和图库序列的长度不固定,所以本申请在每次迭代过程中随机选择16个连续帧的子序列用于训练。正对是由来自同一行人的相机A的一个子序列和相机B的一个子序列组成的。负对由一个人的某一个摄像机的一个子序列和另一个人的某一个摄像机的一个子序列组成的。学***均状态一次,直到验证集的准确率不再有改进。
(2)评价标准:本申请采用广泛使用的累积匹配曲线(CMC)来进行定量评估。本申请将测试的序列长度固定为128帧。本申请从摄像机A中随机选择一个人的序列作为探测序列,并从摄像机B中选择同一人的一个序列作为图库序列。所有测试将重复10次,平均值将作为评估结果。表1:PRID2011和iLIDS-VID数据集的匹配精度。
表1
(3)与先进方法的比较:匹配精度总结在表1中,CMC曲线分别在图5(a)和5(b)中。对手的方法介绍如下:
STA:一个试图建立身体动作模型的时空模型,可以产生行人的时空外观表示。
RFA:基于LSTM的递归特征聚合网络,其整合每帧的人类特征区域并产生一个序列级的特征表达。
RNN-CNN:基于递归卷积网络(RCN)的典型暹罗模型。
T-CNN:双流卷积神经网络,用于分别学习空间和时间信息。
ASTPN:基于注意力池化的空间和时间网络,它使用空间池化来从每个帧中选择区域,并使用注意力池化来选择序列中的有效信息帧。请注意,由于ASTPN也是基于暹罗损失函数,本申请也为其引入了平均状态来证明视频内损失函数对行人再识别的好处。
对于表1中的结果,Ours-1表示网络是有初始化的平均状态来训练的。在用新训练的网络更新一次平均状态之后,本申请再次训练网络并将其表示为Ours-2。Ours-3表示用更新过两次的平均状态来训练网络。如图6所示,本申请凭经验发现,当平均体和网络更新三次时,结果保持稳定。
为了更有力的比较,本申请分别使用RNN-CNN和ASTPN来构建基本网络。所提出的平均状态和视频内损失函数用来提高模型性能,如表1所示。对于PRID2011数据集,本申请可以观察到,所提出的方法优于其他先进的算法。对于rank-1准确度,本申请的最终结果分别比ASTPN高出5%,比RNN-CNN高出9%。对于比PRID2011更具挑战性的iLIDS-VID数据集,本申请提出的模型仍然分别在rank-1准确性上优于ASTPN 3%和RNN-CNN 6%。
(b)在MARS数据集上的结果,表2:MARS数据集的匹配精度。
表2
如图7所示,与PRID2011和iLIDS-VID相比,MARS是一个更大的数据集,用于人员再识别任务。它包含1261人。MARS中行人的轨迹由DPM探测器和GMMCP***自动生成,其中出现的错误使MARS比PRID2011和iLIDS-VID更具现实性和挑战性。其中每个身份平均有13.2个追踪轨迹。实际上,大多数身份都被2-4个摄像头捕获,且每个摄像头下大有5-15个轨迹,其中每个轨迹包含25-50帧。在训练过程中,本申请随机选择同一个人的两个摄像机视角作为摄像机A和摄像机B。在测试过程中,本申请在不同的相机中随机选择同一个人的两个不同序列:一个用作探测序列,另一个用作图库序列。
基于RNN-CNN和ASTPN的rank-1准确度分别提升为5%和4%。这证明了所提出的视频内损失函数是与不同的暹罗网络兼容的,并且可以与暹罗损失函数一起工作以寻求更好的深度模型。
(c)平均状态初始化方式的讨论
图8:比较不同初始化方式得到的平均状态。Initial-1表示平均状态是跟着训练网络从头开始初始化的,Initial-2则是使用事先训练好的的模型来初始化平均状态。
在本节中,本申请研究了如图8所示的初始化平均状态的不同方式。对于Initial-1来说,平均状态是使用从头开始训练的网络进行初始化的(如图2所示)。对于Initial-2,平均状态是由事先训练过的暹罗网络模型初始化的。对于这两种情况,平均状态在验证集的准确度提高约3%之前是保持不变的。
结果表明,不论在何种初始化方式下得到的平均状态都可以为提高行人再识别模型的精度。此外,本申请很容易观察到,用训练好的模型进行初始化的平均状态提高的精度比从头开始初始化的平均状态更显著。
(d)跨数据集评估,表3:在PRID2011数据集上执行的交叉数据集评估,其中*表示使用探测图像和图库图像评估的模型(即单帧行人再识别)。
表3
Model Trained On 1 5 10 20
RNN-CNN[10]* iLIDS-VID 14 38 51 70
RNN-CNN[10] iLIDS-VID 28 57 69 81
ASTPN[12]* iLIDS-VID 15 33 46 63
ASTPN[12] iLIDS-VID 30 58 71 85
Ours* iLIDS-VID 17 39 51 71
Ours iLIDS-VID 32 66 75 90
由于数据偏差,在一个数据集上训练的模型通常在另一个数据集上评估时显示出较弱的泛化能力。这是因为一个数据集仅代表真实世界场景的一小部分,这使得模型难以掌握训练数据的哪些方面是必不可少的,哪些方面对于问题是无效的。因此,为了解所提出方法的泛化能力,本申请进行了交叉数据集测试,其中使用iLIDS-VID数据集进行训练,使用PRID2011数据集进行测试。
首先,所有方法的结果都比表1中的结果差,这一点并不令人惊讶。通过利用时间信息,基于视频的人行人再识别的效果明显比基于图像的方法好。而且,据观察,所提出的网络在准确性上优于RNN-CNN和ASTPN,这证明了基于行人平均状态的视频内损失函数可以提高暹罗网络的泛化能力。
在本文中,本申请提出了一种新的视频内和视频间的学***均状态来使每个视频更加紧凑,而暹罗损失函数则使得错误匹配的视频更加分离。因此,本申请提出的模型学习到的序列特征包含了更多的视频内和视频间的信息。本申请在三种标准数据集上比较了本申请提出的方法。实验结果表明,共同使用视频内损失函数和暹罗损失函数来加强视频内和视频间的约束条件明显优于仅使用暹罗损失函数。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.基于行人平均状态的视频行人再识别方法,其特征是,包括:
非重叠相机拍摄获得的视频构成包含若干行人的数据集;
构建递归卷积网络并进行训练,通过预训练好的递归卷积网络来计算数据集中行人的平均状态,并通过训练好的网络来初始化行人的平均状态;
在相同视角下视频特征与行人的平均状态之间的距离被定义为视频内损失函数,暹罗损失函数将暹罗代价函数与识别代价函数联合起来,用于找出一对视频序列之间的相似性和不相似性;
视频内损失函数利用每个摄像机视点独特的行人平均状态来使每个视频更加紧凑,而暹罗损失函数是使不匹配的行人视频更加远离;
将视频内损失函数和暹罗损失函数相结合,重新训练整个递归卷积网络,用新的递归卷积网络来更新行人的平均状态,然后再次训练网络,迭代至数据集中没有产生精度增益。
2.如权利要求1所述的基于行人平均状态的视频行人再识别方法,其特征是,所述行人的平均状态在计算时,首先用训练好的递归卷积网络提取出一个视频中每一帧的特征,然后将所有帧的特征进行平均,最后得到一个特征,就叫做行人的平均状态。
3.如权利要求1所述的基于行人平均状态的视频行人再识别方法,其特征是,将视频内损失函数和暹罗损失函数相结合,具体在结合时就是直接相加,两项权重都是1。
4.如权利要求1所述的基于行人平均状态的视频行人再识别方法,其特征是,所述数据集中视频的每个序列在被传递到递归卷积网络之前进行预处理。
5.如权利要求4所述的基于行人平均状态的视频行人再识别方法,其特征是,每个序列首先被送到递归卷积网络中以产生时空信息的特征向量,输入序列是16帧连续的视频,一个递归神经网络处理序列中的一帧,每一帧输入到递归神经网络中的是YUV彩色通道和光流。
6.如权利要求5所述的基于行人平均状态的视频行人再识别方法,其特征是,所述递归卷积网络由三个卷积层,一个全连接层,一个递归层和一个平均池化层组成,每个卷积层包括卷积,非线性激活和最大池化步骤。
7.如权利要求6所述的基于行人平均状态的视频行人再识别方法,其特征是,所述卷积层由16个特征图组成,卷积核为5×5和2个像素的步幅,而接下来的两层由32个特征图组成,卷积核为5×5和2个像素的步幅,所有卷积层都使用双曲正切函数作为非线性激活函数来产生其输出;
所有最大池化层的内核大小是2×2,全连接层会生成一个128个维度的输出,在卷积层和平均池化层中间加入的递归层连接,递归层接收一个输入,并根据当前输入和前一时间的信息产生一个输出。
8.如权利要求1所述的基于行人平均状态的视频行人再识别方法,其特征是,递归神经网络的状态,其中rt代表在t时刻递归神经网络的状态,在第一时间步骤中初始化为r0,rt-1表示之前的时间步长上递归神经网络的状态信息,如果用RC()表示递归卷积网络,则每帧的输出可以被表示为gt=RC(kt),其中kt代表在t时刻递归卷积网络的输入;
在递归卷积网络之后,进行平均池化,用于计算输入序列特征的平均值,平均池化特征向量f计算如下:
其中,T代表一共有T个时刻,这个公式是对T个时刻的gt求平均值。
9.如权利要求1所述的基于行人平均状态的视频行人再识别方法,其特征是,一对视频序列的暹罗损失函数是将暹罗代价函数与识别代价函数联合起来;
暹罗代价函数表示为特征向量fi和fj的函数,如下所示:
其中m代表暹罗损失函数中区分出不同行人特征的一个阈值,给定一对输入序列Ki,Kj,Ki,Kj代表的是两个不同的输入序列,这两个子网络提取出的特征向量分别为fi,fj
识别代价函数定义如下:
其中,q代表该行人的身份,Wc和Wk分别表示softmax权重矩阵W的第c列和第k列,softmax权重矩阵W是全连接层的矩阵表示,f为平均池化特征向量。
10.基于行人平均状态的视频行人再识别***,其特征是,包括:
数据集获取模块,由非重叠相机拍摄获得的视频构成包含若干行人的数据集;
行人的平均状态计算模块,构建递归卷积网络并进行训练,通过预训练好的递归卷积网络来计算数据集中行人的平均状态,并通过训练好的网络来初始化行人的平均状态;
函数定义模块,在相同视角下视频特征与行人的平均状态之间的距离被定义为视频内损失函数,暹罗损失函数将暹罗代价函数与识别代价函数联合起来,用于找出一对视频序列之间的相似性和不相似性;
视频内损失函数利用每个摄像机视点独特的行人平均状态来使每个视频更加紧凑,而暹罗损失函数是使不匹配的行人视频更加远离;
递归卷积网络训练模块,将视频内损失函数和暹罗损失函数相结合,重新训练整个递归卷积网络,用新的递归卷积网络来更新行人的平均状态,然后再次训练网络,迭代至数据集中没有产生精度增益。
CN201810593780.3A 2018-06-11 2018-06-11 基于行人平均状态的视频行人再识别方法及*** Pending CN108805078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810593780.3A CN108805078A (zh) 2018-06-11 2018-06-11 基于行人平均状态的视频行人再识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810593780.3A CN108805078A (zh) 2018-06-11 2018-06-11 基于行人平均状态的视频行人再识别方法及***

Publications (1)

Publication Number Publication Date
CN108805078A true CN108805078A (zh) 2018-11-13

Family

ID=64088924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810593780.3A Pending CN108805078A (zh) 2018-06-11 2018-06-11 基于行人平均状态的视频行人再识别方法及***

Country Status (1)

Country Link
CN (1) CN108805078A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711316A (zh) * 2018-12-21 2019-05-03 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN109993774A (zh) * 2019-03-29 2019-07-09 大连理工大学 基于深度交叉相似匹配的在线视频目标跟踪方法
CN110058694A (zh) * 2019-04-24 2019-07-26 腾讯科技(深圳)有限公司 视线追踪模型训练的方法、视线追踪的方法及装置
CN110110686A (zh) * 2019-05-14 2019-08-09 中国石油大学(华东) 基于多损失双流卷积神经网络的人体动作识别方法
CN110503053A (zh) * 2019-08-27 2019-11-26 电子科技大学 基于循环卷积神经网络的人体动作识别方法
CN110638455A (zh) * 2019-09-26 2020-01-03 京东方科技集团股份有限公司 用于评估用户康复状态的服务器、***、设备及介质
CN110659589A (zh) * 2019-09-06 2020-01-07 中国科学院自动化研究所 基于姿态和注意力机制的行人再识别方法、***、装置
CN110929243A (zh) * 2019-11-22 2020-03-27 武汉大学 一种基于手机惯性传感器的行人身份识别方法
CN111008550A (zh) * 2019-09-06 2020-04-14 上海芯灵科技有限公司 基于Multiple loss损失函数的指静脉验证身份的识别方法
CN111126223A (zh) * 2019-12-16 2020-05-08 山西大学 基于光流引导特征的视频行人再识别方法
CN111209809A (zh) * 2019-12-24 2020-05-29 广东省智能制造研究所 一种基于暹罗网络的多输入跨视角步态识别方法及装置
CN111259700A (zh) * 2018-12-03 2020-06-09 北京京东尚科信息技术有限公司 用于生成步态识别模型的方法和装置
CN113343810A (zh) * 2021-05-28 2021-09-03 国家计算机网络与信息安全管理中心 基于时序多样性与相关性的行人重识别模型训练和识别方法与装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9436895B1 (en) * 2015-04-03 2016-09-06 Mitsubishi Electric Research Laboratories, Inc. Method for determining similarity of objects represented in images
CN107122707A (zh) * 2017-03-17 2017-09-01 山东大学 基于外貌特征紧凑表示的视频行人再识别方法及***
CN107862331A (zh) * 2017-10-31 2018-03-30 华中科技大学 一种基于时间序列及cnn的不安全行为识别方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9436895B1 (en) * 2015-04-03 2016-09-06 Mitsubishi Electric Research Laboratories, Inc. Method for determining similarity of objects represented in images
CN107122707A (zh) * 2017-03-17 2017-09-01 山东大学 基于外貌特征紧凑表示的视频行人再识别方法及***
CN107862331A (zh) * 2017-10-31 2018-03-30 华中科技大学 一种基于时间序列及cnn的不安全行为识别方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NIALL MCLAUGHLIN等: "Recurrent Convolutional Network for Video-based Person Re-Identification", 《THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
XIAOKE ZHU等: "Video-Based Person Re-Identification by Simultaneously Learning Intra-Video and Inter-Video Distance Metrics", 《PROCEEDINGS OF THE TWENTY-FIFTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE(IJCAI-16)》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259700B (zh) * 2018-12-03 2024-04-09 北京京东尚科信息技术有限公司 用于生成步态识别模型的方法和装置
CN111259700A (zh) * 2018-12-03 2020-06-09 北京京东尚科信息技术有限公司 用于生成步态识别模型的方法和装置
CN109711316B (zh) * 2018-12-21 2022-10-21 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN109711316A (zh) * 2018-12-21 2019-05-03 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN109993774A (zh) * 2019-03-29 2019-07-09 大连理工大学 基于深度交叉相似匹配的在线视频目标跟踪方法
CN110058694A (zh) * 2019-04-24 2019-07-26 腾讯科技(深圳)有限公司 视线追踪模型训练的方法、视线追踪的方法及装置
US11797084B2 (en) 2019-04-24 2023-10-24 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training gaze tracking model, and method and apparatus for gaze tracking
CN110110686A (zh) * 2019-05-14 2019-08-09 中国石油大学(华东) 基于多损失双流卷积神经网络的人体动作识别方法
CN110503053A (zh) * 2019-08-27 2019-11-26 电子科技大学 基于循环卷积神经网络的人体动作识别方法
CN110503053B (zh) * 2019-08-27 2022-07-08 电子科技大学 基于循环卷积神经网络的人体动作识别方法
CN111008550A (zh) * 2019-09-06 2020-04-14 上海芯灵科技有限公司 基于Multiple loss损失函数的指静脉验证身份的识别方法
CN110659589A (zh) * 2019-09-06 2020-01-07 中国科学院自动化研究所 基于姿态和注意力机制的行人再识别方法、***、装置
CN110659589B (zh) * 2019-09-06 2022-02-08 中国科学院自动化研究所 基于姿态和注意力机制的行人再识别方法、***、装置
CN110638455A (zh) * 2019-09-26 2020-01-03 京东方科技集团股份有限公司 用于评估用户康复状态的服务器、***、设备及介质
CN110929243A (zh) * 2019-11-22 2020-03-27 武汉大学 一种基于手机惯性传感器的行人身份识别方法
CN111126223A (zh) * 2019-12-16 2020-05-08 山西大学 基于光流引导特征的视频行人再识别方法
CN111209809A (zh) * 2019-12-24 2020-05-29 广东省智能制造研究所 一种基于暹罗网络的多输入跨视角步态识别方法及装置
CN111209809B (zh) * 2019-12-24 2023-03-28 广东省智能制造研究所 一种基于暹罗网络的多输入跨视角步态识别方法及装置
CN113343810A (zh) * 2021-05-28 2021-09-03 国家计算机网络与信息安全管理中心 基于时序多样性与相关性的行人重识别模型训练和识别方法与装置
CN113343810B (zh) * 2021-05-28 2023-03-21 国家计算机网络与信息安全管理中心 基于时序多样性与相关性的行人重识别模型训练和识别方法与装置

Similar Documents

Publication Publication Date Title
CN108805078A (zh) 基于行人平均状态的视频行人再识别方法及***
Rahmani et al. 3D action recognition from novel viewpoints
Ming et al. Simple triplet loss based on intra/inter-class metric learning for face verification
CN106778604B (zh) 基于匹配卷积神经网络的行人再识别方法
CN107423678A (zh) 一种提取特征的卷积神经网络的训练方法及人脸识别方法
CN103942577B (zh) 视频监控中基于自建立样本库及混合特征的身份识别方法
CN105404894B (zh) 无人机用目标追踪方法及其装置
CN108764142A (zh) 基于3dcnn的无人机影像森林烟雾检测和分类方法
CN109101865A (zh) 一种基于深度学习的行人重识别方法
CN108764065A (zh) 一种行人重识别特征融合辅助学习的方法
CN103810496B (zh) 基于图像深度信息的3d高斯空间人体行为识别方法
Yampolskiy et al. Face recognition in the virtual world: recognizing avatar faces
CN108764085A (zh) 基于生成对抗网络的人群计数方法
CN106599907A (zh) 多特征融合的动态场景分类方法与装置
CN108615226A (zh) 一种基于生成式对抗网络的图像去雾方法
CN108765394A (zh) 基于质量评价的目标识别方法
CN110135282B (zh) 一种基于深度卷积神经网络模型的考生回头抄袭作弊检测方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN106022220A (zh) 一种体育视频中对参赛运动员进行多人脸跟踪的方法
CN110929566A (zh) 基于可见光和近红外双目摄像头的人脸活体检测方法
CN110866454B (zh) 人脸活体检测方法及***、计算机可读取的存储介质
CN108537181A (zh) 一种基于大间距深度度量学习的步态识别方法
Ragheb et al. Vihasi: virtual human action silhouette data for the performance evaluation of silhouette-based action recognition methods
CN110097115A (zh) 一种基于注意力转移机制的视频显著性物体检测方法
CN108986094A (zh) 用于人脸识别用训练图像库的数据自动更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhang Wei

Inventor after: Li Yimeng

Inventor after: Yu Xiaodong

Inventor after: Xu Xinshun

Inventor after: Lu Weizhi

Inventor after: Gu Jianjun

Inventor before: Li Yimeng

Inventor before: Zhang Wei

Inventor before: Yu Xiaodong

Inventor before: Xu Xinshun

Inventor before: Lu Weizhi

Inventor before: Gu Jianjun

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113

RJ01 Rejection of invention patent application after publication