CN110826417A - 一种基于判别字典学习的跨视角行人重识别方法 - Google Patents

一种基于判别字典学习的跨视角行人重识别方法 Download PDF

Info

Publication number
CN110826417A
CN110826417A CN201910966029.8A CN201910966029A CN110826417A CN 110826417 A CN110826417 A CN 110826417A CN 201910966029 A CN201910966029 A CN 201910966029A CN 110826417 A CN110826417 A CN 110826417A
Authority
CN
China
Prior art keywords
pedestrian
domain
dictionary
view
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910966029.8A
Other languages
English (en)
Other versions
CN110826417B (zh
Inventor
谢明鸿
颜悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910966029.8A priority Critical patent/CN110826417B/zh
Publication of CN110826417A publication Critical patent/CN110826417A/zh
Application granted granted Critical
Publication of CN110826417B publication Critical patent/CN110826417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于判别字典学习的跨视角行人重识别方法,属于数字图像处理技术领域。首先基于来自同一相机视角的行人图像共享相同域的事实,将不同视角的行人特征分为特定视角域信息分量和域不变行人外观特征分量,学习一个判别字典算法以创建用于描述域信息分量的域通用字典和描述域不变分量的域不变字典,同时强制同一视角下的行人编码系数具有很强的相似性;然后提出一个扩展正则项强制不同行人的编码系数保持一定距离,而同一行人的编码系数则尽可能接近;最后基于仅有行人特征信息的模型采用欧氏距离设计行人匹配方案。本发明提出的行人重识别方法能分离图像中的域信息来解决不同视角间的域偏移问题,产生好的识别效果。

Description

一种基于判别字典学习的跨视角行人重识别方法
技术领域
本发明涉及一种基于判别字典学习的跨视角行人重识别方法,属于数字图像处理技术领域。
背景技术
行人重识别是一种使用计算机视觉从不同相机拍摄的图像或视频序列中判断目标行人是否存在的技术。近年来,行人重识别由于在行人搜索,行人跟踪和行人行为分析中的广泛应用而引起了越来越多的研究者的关注,并且大量行人重识别的方法被提出。尽管计算机视觉的研究人员已经做出了很大努力来改善行人重识别***的性能,但是由于行人的外观通常在跨摄像机视图中都表现出很大的视觉歧义,因此该技术仍存在巨大的挑战。
发明内容
本发明要解决的技术问题是提供一种基于判别字典学习的跨视角行人重识别方法,用以解决现有技术对于行人重识别域偏移的问题。
本发明的技术方案是:一种基于判别字典学习的跨视角行人重识别方法,包括如下步骤:
1)确定基于判别字典学习的跨视角行人重识别的总体模型框架;
2)将不同视角的行人图像特征分为特定视角域信息分量和域不变行人外观特征分量,学习一个判别字典算法以创建用于描述域信息分量的域通用字典和用于描述域不变分量的域不变字典;
3)训练字典的判别促进项;
4)提出一种扩展正则项强制不同行人的编码系数保持一定距离,而同一行人的编码系数则尽可能接近;
5)训练编码系数的判别促进项,强制具有相同视角的行人图像的编码系数具有很强的相似性;
6)确定基于判别字典学习的跨视角行人重识别的总体目标函数;
7)对总体目标函数中的要更新的变量进行求解;
8)基于仅有域不变行人外观特征的模型采用欧氏距离设计行人匹配方案。
具体地,所述的步骤1)的总体模型框架包括:
表示两相机视角下的训练样本集,此时需要把鲁棒的特征表示学习和判别式度量学习整合到一个框架中,总体模型框架如公式(1)所示:
式中,
Figure BDA0002230483080000024
表示所有相机下行人图像共享的域字典,
Figure BDA0002230483080000025
表示域特定字典,用于在分离域信息后对行人外观特征进行编码,Za,Zb是字典D上Xa和Xb的域信息的编码系数矩阵,Zta,Ztb是对应于字典Dt的域特定信息的编码系数。Φ(D,Dt,Za,Zb,Zta,Ztb)是数据保真度项,将其最小化可以使学习的字典D和Dt具有表示能力。Ψ(D,Dt)是字典的判别促进项,Γ(Za,Zb,Zta,Ztb)是编码系数的判别促进项,将这两项最小化是为了使字典和编码系数具有较强的判别能力。
Figure BDA0002230483080000026
是D的第
Figure BDA0002230483080000027
列,而
Figure BDA0002230483080000028
是Dt的第列。
具体地,所述的步骤2)的判别字典算法包括:
为了缓解不同相机视角之间的域偏移,将域信息与行人图像特征分开,于是把数据保真度项Φ(D,Dt,Za,Zb,Zta,Ztb)表示为:
式中,
Figure BDA00022304830800000211
用于建立a、b两相机视角的域信息,
Figure BDA00022304830800000212
用于将域信息与不受域影响的行人外观特征分开。
具体地,所述的步骤3)的字典判别促进项包括:
字典D用于表示不同相机视角的域信息,由于来自同一台相机的图像具有相同的域特征,因此希望这些图像在域特征方面彼此线性相关。为了从样本Xa和Xb中分离出域信息,提出的字典判别促进项为:
Figure BDA00022304830800000213
式中,||D||*是对字典D的核范数求解,因为域信息分量和行人的真实外观特征具有不同的空间形态特征,引入结构不相干正则项来促使域字典D和行人特征字典Dt相互独立。α1和α2是两个标量参数,分别代表着||D||*
Figure BDA0002230483080000032
项的权重信息。
具体地,所述的步骤4)的扩展正则项包括:
希望来自不同相机视角的同一行人在域特定字典Dt上具有相同的编码系数,同时希望算法能够使来自不同相机视角的不同行人的编码系数之间的距离大于一个常数。为了满足这一需求,针对视角a提出以下函数,同时采用同样的方法针对视角b提出类似的函数,此处不再赘述:
式中,{z}+=max{z,0},c是一个任意常数,表示在a相机视角下的第l个行人的第k张图像;
Figure BDA0002230483080000035
表示在b视角下的和a视角第l个行人的第k张图像最不相似的编码系数所对应的第l个行人的第k*张图像,其中k*≠k;
Figure BDA0002230483080000036
表示在b视角下的和a视角第l个行人的第k张图像最相似的编码系数所对应的第l*个行人的第k*张图像,其中l*≠l。而式中的
Figure BDA0002230483080000037
表示
Figure BDA0002230483080000038
它不会导致对行人身份的误判。而
Figure BDA0002230483080000039
表示
Figure BDA00022304830800000310
则意味着使用行人图像特征的编码系数进行行人匹配会导致误识别。在这种情况下,最小化
Figure BDA00022304830800000311
可以促使
Figure BDA00022304830800000312
具体地,所述的步骤5)的编码系数判别促进项包括:
对于a和b两视角域的编码系数矩阵Za和Zb,相同的域应具有相同的稀疏表示。基于以上考虑,定义总体模型框架(1)中的Γ(Za,Zb,Zta,Ztb)为:
Figure BDA00022304830800000313
式中,
Figure BDA0002230483080000041
最小化||Z||2,1可以使Z的每一行中的条目相同,该项可以促使从D中选择相同的原子来表示同一域的原始特征,并且促使这些特征的编码系数在D上共享相同的稀疏表示。α345是三个标量参数,分别代表着||Za||2,1+||Zb||2,1、||Zta||1+||Ztb||1
Figure BDA0002230483080000042
项的权重信息。
具体地,所述的步骤6)的总体目标函数包括:
Figure BDA0002230483080000043
式中,Ma和Mb分别表示两相机视角下的行人数量,Nal和Nbl表示分别表示两相机视角下第l个行人所对应的的图像数量。
具体地,所述的步骤7)的变量求解包括:
总体目标函数(6)中的对于要求的变量D,Dt,Za,Zb,Zta,Ztb不是共同凸的,但是当所有其他变量都固定不变时,它对于每个变量是凸的。因此,可以通过交替迭代处理来优化它们,每一个变量的求解如下:
为了更新编码系数Za,变量Zb的更新方法与Za一致,此处不再赘述,首先假定D,Dt,Zb,Zta,Ztb都是固定的,有以下目标函数:
Figure BDA0002230483080000044
这是一个典型的l2,1最小化问题,Za的解析解可以表示为:
Za=(4DTD+α3Λ1)-1(4DTXa+2DTDtZta) (8)
式中,Λ1是由
Figure BDA0002230483080000045
构成的对角矩阵,表示Zi的第j列。
然后,通过固定D,Dt,Za,Zb,Ztb来更新Zta,变量Ztb的更新方法与Zta一致,此处不再赘述,有以下目标函数:
Figure BDA0002230483080000051
为了方便优化,将公式(9)重写为向量形式:
Figure BDA0002230483080000052
式中,
Figure BDA0002230483080000053
是a视角下第l个行人的第k张图像的视觉特征。为了求解(10),一个松弛变量
Figure BDA0002230483080000054
被引入,然后可以将等式(10)放宽为:
Figure BDA0002230483080000055
可以通过以下求解来更新变量
Figure BDA0002230483080000056
Figure BDA0002230483080000057
以上问题可以通过迭代收缩算法来解决,
Figure BDA0002230483080000058
可以通过以下方式更新:
Figure BDA0002230483080000059
式中,h表示第h次迭代,
Figure BDA00022304830800000510
使用更新的
Figure BDA00022304830800000511
Zta可以被构造为
在更新编码系数Za和Zta之后,字典D和Dt可以交替更新,有以下目标函数:
Figure BDA00022304830800000513
为了更新D,引入一个中间变量C,公式(14)变为:
Figure BDA00022304830800000514
C可以通过以下求解得到:
这是一个典型的核规范最小化问题,可以通过奇异值阈值算法来解决。为了更新Dt,一个松弛变量H被引入:
松弛变量H的封闭解可以表示为:
H=(α2DtDt T+I1)-1D (18)
其中,I1为一个单位矩阵,使用更新的C和H,可以通过以下求解来优化D:
Figure BDA0002230483080000063
这个问题可以通过拉格朗日对偶来解决。最后,Dt可以通过以下求解来优化:
Figure BDA0002230483080000064
该问题可以作为公式(19)中的问题得到解决。
具体地,所述的步骤8)的行人匹配方案包括:
在测试中,通过学到的字典D和Dt,可以通过以下求解来实现域信息和特定行人信息的分离:
Figure BDA0002230483080000065
式中,Za,Zb分别表示视角a,b下的域编码系数矩阵,Zta,Ztb分别表示视角a,b下的特定行人信息的编码系数矩阵。这个问题可以通过交替迭代法解决,当
Figure BDA0002230483080000066
Figure BDA0002230483080000067
时,停止迭代。令
Figure BDA0002230483080000068
Figure BDA0002230483080000069
Figure BDA00022304830800000610
Figure BDA00022304830800000611
中l第个行人的编码系数矢量,可以通过计算以下距离来测量行人之间的相似性:
Figure BDA0002230483080000071
本发明的有益效果是:
1、在当前的行人重识别方法中,大多数研究都是假设两视角之间待识别的行人图像没有域差异,这样做不仅会丢失更多的图像信息而且还会引入虚假信息传递到结果中,影响行人图像的视觉效果。本发明提出的行人重识别方法能将域信息从行人图像中分离出来,避免了虚假信息的传递,还能减少耗时,提升行人的判别能力。
2、本发明提出的行人重识别方法相比其他方法识别性能明显提升。
附图说明
图1是本发明的流程图;
图2是本发明实施例提供的PRID2011数据集上两相机视角下的行人图像对;
图3是本发明实施例提供的基于PRID2011数据集上针对算法中参数α1的CMC曲线;
图4是本发明实施例提供的基于PRID2011数据集上针对算法中参数α2的CMC曲线;
图5是本发明实施例提供的基于PRID2011数据集上针对算法中参数α3的CMC曲线;
图6是本发明实施例提供的基于PRID2011数据集上针对算法中参数α4的CMC曲线;
图7是本发明实施例提供的基于PRID2011数据集上针对算法中参数α5的CMC曲线。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:来自不同相机视角的行人图像之间的域偏移是导致行人外观歧义的主要因素之一。另外,同一相机视角中的域信息在一定时间内是稳定的,并且同一视角中的所有图像共享相同的域信息。如果能将域信息从行人图像中分离出来,剩余的信息将不会受到域信息的干扰,并且来自不同相机视角的行人图像之间也不会出现域偏移。基于此思想,本发明提出了一种新颖的域不变字典学习方法,用于跨视角的行人重识别。在这种方法中,假设来自同一相机视角的图像共享相同的域。为了实现域不变的视觉特征,将不同视角下的行人特征分成两个分量,其中一个是域特定分量,另一个是域不变特征分量。
如图1所示,一种基于判别字典学习的跨视角行人重识别方法,包括如下步骤:
1)确定基于判别字典学习的跨视角行人重识别的总体模型框架;
2)将不同视角的行人图像特征分为特定视角域信息分量和域不变行人外观特征分量,学习一个判别字典算法以创建用于描述域信息分量的域通用字典和用于描述域不变分量的域不变字典;
3)训练字典的判别促进项;
4)提出一种扩展正则项强制不同行人的编码系数保持一定距离,而同一行人的编码系数则尽可能接近;
5)训练编码系数的判别促进项,强制具有相同视角的行人图像的编码系数具有很强的相似性;
6)确定基于判别字典学习的跨视角行人重识别的总体目标函数;
7)对总体目标函数中的要更新的变量进行求解;
8)基于仅有域不变行人外观特征的模型采用欧氏距离设计行人匹配方案。
具体实施过程如下:首先基于来自同一相机视角的行人图像共享相同域的事实,将不同视角的行人特征分为特定视角域信息分量和域不变行人外观特征分量,学习一个判别字典算法以创建用于描述域信息分量的域通用字典和描述域不变分量的域不变字典,同时强制同一视角下的行人编码系数具有很强的相似性;然后为了克服外观歧义,提出一个扩展正则项强制不同行人的编码系数保持一定距离,而同一行人的编码系数则尽可能接近;最后基于仅有行人特征信息的模型采用欧氏距离设计行人匹配方案。
进一步地,所述的步骤1)的总体模型框架包括:
Figure BDA0002230483080000081
表示两相机视角下的训练样本集,此时需要把鲁棒的特征表示学习和判别式度量学习整合到一个框架中,总体模型框架如公式(1)所示:
Figure BDA0002230483080000082
式中,表示所有相机下行人图像共享的域字典,
Figure BDA0002230483080000084
表示域特定字典,用于在分离域信息后对行人外观特征进行编码,Za,Zb是字典D上Xa和Xb的域信息的编码系数矩阵,Zta,Ztb是对应于字典Dt的域特定信息的编码系数。Φ(D,Dt,Za,Zb,Zta,Ztb)是数据保真度项,将其最小化可以使学习的字典D和Dt具有表示能力。Ψ(D,Dt)是字典的判别促进项,Γ(Za,Zb,Zta,Ztb)是编码系数的判别促进项,将这两项最小化是为了使字典和编码系数具有较强的判别能力。
Figure BDA0002230483080000091
是D的第
Figure BDA0002230483080000092
列,而
Figure BDA0002230483080000093
是Dt的第
Figure BDA0002230483080000094
列。
进一步地,所述的步骤2)的判别字典算法包括:
为了缓解不同相机视角之间的域偏移,将域信息与行人图像特征分开,于是把数据保真度项Φ(D,Dt,Za,Zb,Zta,Ztb)表示为:
Figure BDA0002230483080000095
式中,
Figure BDA0002230483080000096
用于建立a、b两相机视角的域信息,
Figure BDA0002230483080000097
用于将域信息与不受域影响的行人外观特征分开。
进一步地,所述的步骤3)的字典判别促进项包括:
字典D用于表示不同相机视角的域信息,由于来自同一台相机的图像具有相同的域特征,因此希望这些图像在域特征方面彼此线性相关。为了从样本Xa和Xb中分离出域信息,提出的字典判别促进项为:
Figure BDA0002230483080000098
式中,||D||*是对字典D的核范数求解,因为域信息分量和行人的真实外观特征具有不同的空间形态特征,引入结构不相干正则项来促使域字典D和行人特征字典Dt相互独立。α1和α2是两个标量参数,分别代表着||D||*
Figure BDA00022304830800000910
项的权重信息。
进一步地,所述的步骤4)的扩展正则项包括:
希望来自不同相机视角的同一行人在域特定字典Dt上具有相同的编码系数,同时希望算法能够使来自不同相机视角的不同行人的编码系数之间的距离大于一个常数。为了满足这一需求,针对视角a提出以下函数,同时采用同样的方法针对视角b提出类似的函数,此处不再赘述:
Figure BDA0002230483080000101
式中,{z}+=max{z,0},c是一个任意常数,表示在a相机视角下的第l个行人的第k张图像;
Figure BDA0002230483080000103
表示在b视角下的和a视角第l个行人的第k张图像最不相似的编码系数所对应的第l个行人的第k*张图像,其中k*≠k;表示在b视角下的和a视角第l个行人的第k张图像最相似的编码系数所对应的第l*个行人的第k*张图像,其中l*≠l。而式中的
Figure BDA0002230483080000105
表示
Figure BDA0002230483080000106
它不会导致对行人身份的误判。而
Figure BDA0002230483080000107
表示
Figure BDA0002230483080000108
则意味着使用行人图像特征的编码系数进行行人匹配会导致误识别。在这种情况下,最小化
Figure BDA0002230483080000109
可以促使
Figure BDA00022304830800001010
进一步地,所述的步骤5)的编码系数判别促进项包括:
对于a和b两视角域的编码系数矩阵Za和Zb,相同的域应具有相同的稀疏表示。基于以上考虑,定义总体模型框架(1)中的Γ(Za,Zb,Zta,Ztb)为:
式中,最小化||Z||2,1可以使Z的每一行中的条目相同,该项可以促使从D中选择相同的原子来表示同一域的原始特征,并且促使这些特征的编码系数在D上共享相同的稀疏表示。α345是三个标量参数,分别代表着||Za||2,1+||Zb||2,1、||Zta||1+||Ztb||1
Figure BDA00022304830800001013
项的权重信息。
进一步地,所述的步骤6)的总体目标函数包括:
Figure BDA0002230483080000111
式中,Ma和Mb分别表示两相机视角下的行人数量,Nal和Nbl表示分别表示两相机视角下第l个行人所对应的的图像数量。
进一步地,所述的步骤7)的变量求解包括:
总体目标函数(6)中的对于要求的变量D,Dt,Za,Zb,Zta,Ztb不是共同凸的,但是当所有其他变量都固定不变时,它对于每个变量是凸的。因此,可以通过交替迭代处理来优化它们,每一个变量的求解如下:
为了更新编码系数Za,变量Zb的更新方法与Za一致,此处不再赘述,首先假定D,Dt,Zb,Zta,Ztb都是固定的,有以下目标函数:
Figure BDA0002230483080000112
这是一个典型的l2,1最小化问题,Za的解析解可以表示为:
Za=(4DTD+α3Λ1)-1(4DTXa+2DTDtZta) (8)
式中,Λ1是由
Figure BDA0002230483080000113
构成的对角矩阵,
Figure BDA0002230483080000114
表示Zi的第j列。
然后,通过固定D,Dt,Za,Zb,Ztb来更新Zta,变量Ztb的更新方法与Zta一致,此处不再赘述,有以下目标函数:
为了方便优化,将公式(9)重写为向量形式:
Figure BDA0002230483080000116
式中,
Figure BDA0002230483080000117
是a视角下第l个行人的第k张图像的视觉特征。为了求解(10),一个松弛变量
Figure BDA0002230483080000121
被引入,然后可以将等式(10)放宽为:
可以通过以下求解来更新变量
Figure BDA0002230483080000124
以上问题可以通过迭代收缩算法来解决,
Figure BDA0002230483080000125
可以通过以下方式更新:
Figure BDA0002230483080000126
式中,h表示第h次迭代,
Figure BDA0002230483080000127
使用更新的
Figure BDA0002230483080000128
Zta可以被构造为
Figure BDA0002230483080000129
在更新编码系数Za和Zta之后,字典D和Dt可以交替更新,有以下目标函数:
Figure BDA00022304830800001210
为了更新D,引入一个中间变量C,公式(14)变为:
Figure BDA00022304830800001211
C可以通过以下求解得到:
Figure BDA00022304830800001212
这是一个典型的核规范最小化问题,可以通过奇异值阈值算法来解决。为了更新Dt,一个松弛变量H被引入:
Figure BDA00022304830800001213
松弛变量H的封闭解可以表示为:
H=(α2DtDt T+I1)-1D (18)
其中,I1为一个单位矩阵,使用更新的C和H,可以通过以下求解来优化D:
这个问题可以通过拉格朗日对偶来解决。最后,Dt可以通过以下求解来优化:
Figure BDA0002230483080000132
该问题可以作为公式(19)中的问题得到解决。
进一步地,所述的步骤8)的行人匹配方案包括:
在测试中,通过学到的字典D和Dt,可以通过以下求解来实现域信息和特定行人信息的分离:
Figure BDA0002230483080000133
式中,Za,Zb分别表示视角a,b下的域编码系数矩阵,Zta,Ztb分别表示视角a,b下的特定行人信息的编码系数矩阵。这个问题可以通过交替迭代法解决,当
Figure BDA0002230483080000134
Figure BDA0002230483080000135
时,停止迭代。令
Figure BDA0002230483080000136
Figure BDA0002230483080000137
Figure BDA0002230483080000138
Figure BDA0002230483080000139
中l第个行人的编码系数矢量,可以通过计算以下距离来测量行人之间的相似性:
Figure BDA00022304830800001310
所述步骤3)中,由于来自同一相机视图的图像具有域相似性,因此通过低秩项来细化用于表示域成分的字典,同时引入结构不相干正则项促使域字典D和行人特征字典Dt相互独立,因此加入针对字典的两个判别促进项,可以使字典具有较强的判别能力。
所述步骤4)和5)中,加入针对编码系数的两个判别促进项,可以使编码系数具有较强的判别能力,同时在更新编码系数Zta,Ztb时,采用梯度下降法。
所述步骤8)中,基于仅有域不变行人外观特征的模型采用欧氏距离设计行人匹配方案,以避免域偏移给识别结果带来的不利影响。
下面结合具体实验数据对本发明做进一步地说明。
在实验中,每个数据集被随机分为两个不重叠的部分,一个用作训练样本,另一个用作测试样本。累积匹配特征(CMC)曲线用于定量评估识别性能。模型中有七个参数,包括字典D和Dt的大小d和dt,五个标量参数,即α1,α2,α3,α4和α5。在整个实验过程中,将上述参数的值设置为d=50,dt=760,α1=1,α2=0.01,α3=28,α4=1和α5=5。参数α1,α2,α3,α4和α5对识别性能的影响在图3-图7中给出。表1所示的是基于PRID2011数据集上的最新结果的性能比较,对最大值进行加粗。
Figure BDA0002230483080000141
表1:基于PRID2011数据集上最新结果的性能比较
比较结果表明,所提出的方法在不同等级上的识别率最高,甚至比等级1、5、10、20的次优方法分别高5.4%,3.9%,4.9%,0.5%。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (9)

1.一种基于判别字典学习的跨视角行人重识别方法,其特征在于:包括如下步骤:
1)确定基于判别字典学习的跨视角行人重识别的总体模型框架;
2)将不同视角的行人图像特征分为特定视角域信息分量和域不变行人外观特征分量,学习一个判别字典算法以创建用于描述域信息分量的域通用字典和用于描述域不变分量的域不变字典;
3)训练字典的判别促进项;
4)根据一种扩展正则项强制不同行人的编码系数保持一定距离,而同一行人的编码系数则尽可能接近;
5)训练编码系数的判别促进项,强制具有相同视角的行人图像的编码系数具有很强的相似性;
6)确定基于判别字典学习的跨视角行人重识别的总体目标函数;
7)对总体目标函数中的要更新的变量进行求解;
8)基于仅有域不变行人外观特征的模型采用欧氏距离设计行人匹配方案。
2.根据权利要求1所述的一种基于判别字典学习的跨视角行人重识别方法,其特征在于:所述的步骤1)的总体模型框架包括:
Figure FDA0002230483070000011
表示两相机视角下的训练样本集,此时需要把鲁棒的特征表示学习和判别式度量学习整合到一个框架中,总体模型框架如公式(1)所示:
Figure FDA0002230483070000012
式中,
Figure FDA0002230483070000013
表示所有相机下行人图像共享的域字典,
Figure FDA0002230483070000014
表示域特定字典,用于在分离域信息后对行人外观特征进行编码,Za,Zb是字典D上Xa和Xb的域信息的编码系数矩阵,Zta,Ztb是对应于字典Dt的域特定信息的编码系数,Φ(D,Dt,Za,Zb,Zta,Ztb)是数据保真度项,Ψ(D,Dt)是字典的判别促进项,Γ(Za,Zb,Zta,Ztb)是编码系数的判别促进项,
Figure FDA0002230483070000015
是D的第
Figure FDA0002230483070000016
列,而
Figure FDA0002230483070000017
是Dt的第
Figure FDA0002230483070000018
列。
3.根据权利要求2所述的一种基于判别字典学习的跨视角行人重识别方法,其特征在于:所述的步骤2)的判别字典算法包括:
把数据保真度项Φ(D,Dt,Za,Zb,Zta,Ztb)表示为:
式中,
Figure FDA0002230483070000022
建立a、b两相机视角的域信息,
Figure FDA0002230483070000023
将域信息与不受域影响的行人外观特征分开。
4.根据权利要求3所述的一种基于判别字典学习的跨视角行人重识别方法,其特征在于:所述的步骤3)的字典判别促进项包括:
提出的字典判别促进项为:
Figure FDA0002230483070000024
式中,||D||*是对字典D的核范数求解,
Figure FDA0002230483070000025
是结构不相干正则项,α1和α2是两个标量参数,分别代表着||D||*
Figure FDA0002230483070000026
项的权重信息。
5.根据权利要求4所述的一种基于判别字典学习的跨视角行人重识别方法,其特征在于:所述的步骤4)的扩展正则项包括:
针对视角a提出以下函数,同时采用同样的方法针对视角b提出类似的函数,此处不再赘述:
Figure FDA0002230483070000027
式中,{z}+=max{z,0},c是一个任意常数,
Figure FDA0002230483070000028
表示在a相机视角下的第l个行人的第k张图像;
Figure FDA0002230483070000029
表示在b视角下的和a视角第l个行人的第k张图像最不相似的编码系数所对应的第l个行人的第k*张图像,其中k*≠k;
Figure FDA00022304830700000210
表示在b视角下的和a视角第l个行人的第k张图像最相似的编码系数所对应的第l*个行人的第k*张图像,其中l*≠l,而式中的表示
Figure FDA00022304830700000212
它不会导致对行人身份的误判,而
Figure FDA00022304830700000213
表示则意味着使用行人图像特征的编码系数进行行人匹配会导致误识别,在这种情况下,最小化
Figure FDA00022304830700000215
可以促使
Figure FDA00022304830700000216
6.根据权利要求5所述的一种基于判别字典学习的跨视角行人重识别方法,其特征在于:所述的步骤5)的编码系数判别促进项包括:
定义总体模型框架(1)中的Γ(Za,Zb,Zta,Ztb)为:
Figure FDA0002230483070000031
式中,
Figure FDA0002230483070000032
α345是三个标量参数,分别代表着||Za||2,1+||Zb||2,1、||Zta||1+||Ztb||1项的权重信息。
7.根据权利要求6所述的一种基于判别字典学习的跨视角行人重识别方法,其特征在于:所述的步骤6)的总体目标函数包括:
式中,Ma和Mb分别表示两相机视角下的行人数量,Nal和Nbl表示分别表示两相机视角下第l个行人所对应的的图像数量。
8.根据权利要求7所述的一种基于判别字典学习的跨视角行人重识别方法其特征在于:所述的步骤7)的变量求解包括:
总体目标函数(6)中的对于要求的变量D,Dt,Za,Zb,Zta,Ztb不是共同凸的,但是当所有其他变量都固定不变时,它对于每个变量是凸的,因此,通过交替迭代处理来优化它们,每一个变量的求解如下:
为了更新编码系数Za,变量Zb的更新方法与Za一致,此处不再赘述,首先假定D,Dt,Zb,Zta,Ztb都是固定的,有以下目标函数:
Figure FDA0002230483070000035
这是一个典型的l2,1最小化问题,Za的解析解可以表示为:
Za=(4DTD+α3Λ1)-1(4DTXa+2DTDtZta) (8)
式中,Λ1是由
Figure FDA0002230483070000041
构成的对角矩阵,
Figure FDA0002230483070000042
表示Zi的第j列;
然后,通过固定D,Dt,Za,Zb,Ztb来更新Zta,变量Ztb的更新方法与Zta一致,此处不再赘述,有以下目标函数:
Figure FDA0002230483070000043
为了方便优化,将公式(9)重写为向量形式:
Figure FDA0002230483070000044
式中,
Figure FDA0002230483070000045
是a视角下第l个行人的第k张图像的视觉特征,为了求解(10),一个松弛变量
Figure FDA0002230483070000046
被引入,然后可以将等式(10)放宽为:
Figure FDA0002230483070000047
可以通过以下求解来更新变量
Figure FDA0002230483070000048
Figure FDA0002230483070000049
以上问题可以通过迭代收缩算法来解决,可以通过以下方式更新:
式中,h表示第h次迭代,使用更新的
Figure FDA00022304830700000413
Zta可以被构造为
Figure FDA00022304830700000414
在更新编码系数Za和Zta之后,字典D和Dt可以交替更新,有以下目标函数:
Figure FDA00022304830700000415
为了更新D,引入一个中间变量C,公式(14)变为:
Figure FDA0002230483070000051
C可以通过以下求解得到:
Figure FDA0002230483070000052
这是一个典型的核规范最小化问题,可以通过奇异值阈值算法来解决,为了更新Dt,一个松弛变量H被引入:
Figure FDA0002230483070000053
松弛变量H的封闭解可以表示为:
H=(α2DtDt T+I1)-1D (18)
其中,I1为一个单位矩阵,使用更新的C和H,可以通过以下求解来优化D:
Figure FDA0002230483070000054
这个问题可以通过拉格朗日对偶来解决,最后,Dt可以通过以下求解来优化:
Figure FDA0002230483070000055
该问题可以作为公式(19)中的问题得到解决。
9.根据权利要求8所述的一种基于判别字典学习的跨视角行人重识别方法,其特征在于:所述的步骤8)的行人匹配方案包括:
在测试中,通过学到的字典D和Dt,可以通过以下求解来实现域信息和特定行人信息的分离:
Figure FDA0002230483070000056
式中,Za,Zb分别表示视角a,b下的域编码系数矩阵,Zta,Ztb分别表示视角a,b下的特定行人信息的编码系数矩阵,这个问题可以通过交替迭代法解决,当
Figure FDA0002230483070000057
时,停止迭代,令
Figure FDA0002230483070000061
Figure FDA0002230483070000063
Figure FDA0002230483070000064
中l第个行人的编码系数矢量,可以通过计算以下距离来测量行人之间的相似性:
CN201910966029.8A 2019-10-12 2019-10-12 一种基于判别字典学习的跨视角行人重识别方法 Active CN110826417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910966029.8A CN110826417B (zh) 2019-10-12 2019-10-12 一种基于判别字典学习的跨视角行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910966029.8A CN110826417B (zh) 2019-10-12 2019-10-12 一种基于判别字典学习的跨视角行人重识别方法

Publications (2)

Publication Number Publication Date
CN110826417A true CN110826417A (zh) 2020-02-21
CN110826417B CN110826417B (zh) 2022-08-16

Family

ID=69548968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910966029.8A Active CN110826417B (zh) 2019-10-12 2019-10-12 一种基于判别字典学习的跨视角行人重识别方法

Country Status (1)

Country Link
CN (1) CN110826417B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783521A (zh) * 2020-05-19 2020-10-16 昆明理工大学 基于低秩先验引导的域不变信息分离的行人重识别方法
CN111783526A (zh) * 2020-05-21 2020-10-16 昆明理工大学 一种利用姿势不变和图结构对齐的跨域行人重识别方法
CN113554569A (zh) * 2021-08-04 2021-10-26 哈尔滨工业大学 基于双记忆字典的人脸图像复原***

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202516A (ja) * 2000-01-19 2001-07-27 Victor Co Of Japan Ltd 個人識別装置
US20060244729A1 (en) * 2005-04-28 2006-11-02 Research In Motion Limited Handheld electronic device with reduced keyboard and associated method of providing improved disambiguation with reduced degradation of device performance
CN103729462A (zh) * 2014-01-13 2014-04-16 武汉大学 一种基于稀疏表示处理遮挡的行人检索方法
CN104298992A (zh) * 2014-10-14 2015-01-21 武汉大学 一种基于数据驱动的自适应尺度行人重识别方法
CN104778446A (zh) * 2015-03-19 2015-07-15 南京邮电大学 一种图像质量评价与人脸识别效率关系模型的构建方法
CN107194378A (zh) * 2017-06-28 2017-09-22 深圳大学 一种基于混合字典学习的人脸识别方法及装置
CN107679461A (zh) * 2017-09-12 2018-02-09 国家新闻出版广电总局广播科学研究院 基于对偶综合‑解析字典学习的行人再识别方法
CN108509925A (zh) * 2018-04-08 2018-09-07 东北大学 一种基于视觉词袋模型的行人重识别方法
CN109214442A (zh) * 2018-08-24 2019-01-15 昆明理工大学 一种基于列表和身份一致性约束的行人重识别算法
CN109284668A (zh) * 2018-07-27 2019-01-29 昆明理工大学 一种基于距离正则化投影和字典学习的行人重识别算法
CN109409201A (zh) * 2018-09-05 2019-03-01 昆明理工大学 一种基于共享及特有字典对联合学习的行人再识别方法
CN109447123A (zh) * 2018-09-28 2019-03-08 昆明理工大学 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法
CN109766748A (zh) * 2018-11-27 2019-05-17 昆明理工大学 一种基于投影变换与字典学习的行人再识别的方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202516A (ja) * 2000-01-19 2001-07-27 Victor Co Of Japan Ltd 個人識別装置
US20060244729A1 (en) * 2005-04-28 2006-11-02 Research In Motion Limited Handheld electronic device with reduced keyboard and associated method of providing improved disambiguation with reduced degradation of device performance
CN103729462A (zh) * 2014-01-13 2014-04-16 武汉大学 一种基于稀疏表示处理遮挡的行人检索方法
CN104298992A (zh) * 2014-10-14 2015-01-21 武汉大学 一种基于数据驱动的自适应尺度行人重识别方法
CN104778446A (zh) * 2015-03-19 2015-07-15 南京邮电大学 一种图像质量评价与人脸识别效率关系模型的构建方法
CN107194378A (zh) * 2017-06-28 2017-09-22 深圳大学 一种基于混合字典学习的人脸识别方法及装置
CN107679461A (zh) * 2017-09-12 2018-02-09 国家新闻出版广电总局广播科学研究院 基于对偶综合‑解析字典学习的行人再识别方法
CN108509925A (zh) * 2018-04-08 2018-09-07 东北大学 一种基于视觉词袋模型的行人重识别方法
CN109284668A (zh) * 2018-07-27 2019-01-29 昆明理工大学 一种基于距离正则化投影和字典学习的行人重识别算法
CN109214442A (zh) * 2018-08-24 2019-01-15 昆明理工大学 一种基于列表和身份一致性约束的行人重识别算法
CN109409201A (zh) * 2018-09-05 2019-03-01 昆明理工大学 一种基于共享及特有字典对联合学习的行人再识别方法
CN109447123A (zh) * 2018-09-28 2019-03-08 昆明理工大学 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法
CN109766748A (zh) * 2018-11-27 2019-05-17 昆明理工大学 一种基于投影变换与字典学习的行人再识别的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHU Z: "A novel dictionary learning approach for multi-modality medical image fusion", 《NEUROCOMPUTING》 *
张见威等: "基于字典学习和Fisher判别稀疏表示的行人重识别方法", 《华南理工大学学报(自然科学版)》 *
李占利等: "基于核协同表示的步态识别", 《广西大学学报(自然科学版)》 *
王丽: "融合底层和中层字典特征的行人重识别", 《中国光学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783521A (zh) * 2020-05-19 2020-10-16 昆明理工大学 基于低秩先验引导的域不变信息分离的行人重识别方法
CN111783521B (zh) * 2020-05-19 2022-06-07 昆明理工大学 基于低秩先验引导的域不变信息分离的行人重识别方法
CN111783526A (zh) * 2020-05-21 2020-10-16 昆明理工大学 一种利用姿势不变和图结构对齐的跨域行人重识别方法
CN111783526B (zh) * 2020-05-21 2022-08-05 昆明理工大学 一种利用姿势不变和图结构对齐的跨域行人重识别方法
CN113554569A (zh) * 2021-08-04 2021-10-26 哈尔滨工业大学 基于双记忆字典的人脸图像复原***
CN113554569B (zh) * 2021-08-04 2022-03-08 哈尔滨工业大学 基于双记忆字典的人脸图像复原***

Also Published As

Publication number Publication date
CN110826417B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
US10153001B2 (en) Video skimming methods and systems
Zhu et al. Multi-view deep subspace clustering networks
CN110826417B (zh) 一种基于判别字典学习的跨视角行人重识别方法
Kagaya et al. Highly accurate food/non-food image classification based on a deep convolutional neural network
CN105590091B (zh) 一种面部识别方法及其***
Lee et al. Collaborative expression representation using peak expression and intra class variation face images for practical subject-independent emotion recognition in videos
Abdulmunem et al. Saliency guided local and global descriptors for effective action recognition
CN109409201B (zh) 一种基于共享及特有字典对联合学习的行人再识别方法
CN110889375B (zh) 用于行为识别的隐双流协作学习网络及方法
CN111783521B (zh) 基于低秩先验引导的域不变信息分离的行人重识别方法
CN108389189B (zh) 基于字典学习的立体图像质量评价方法
Lee et al. Face image retrieval using sparse representation classifier with gabor-lbp histogram
Shao et al. Action recognition using correlogram of body poses and spectral regression
Paul et al. A conditional random field approach for audio-visual people diarization
Zhang et al. Kernel dictionary learning based discriminant analysis
Alavi et al. Multi-shot person re-identification via relational stein divergence
Bak et al. Brownian descriptor: A rich meta-feature for appearance matching
CN108108652B (zh) 一种基于字典学习的跨视角人体行为识别方法及装置
CN111126123B (zh) 一种基于压缩的增量核零空间变换行人再识别方法
Zhu et al. Correspondence-free dictionary learning for cross-view action recognition
Nan et al. Face recognition based on multi-classifier weighted optimization and sparse representation
Gu et al. Visual Saliency Detection Based Object Recognition.
CN111539263A (zh) 一种基于聚合对抗网络的视频人脸识别方法
Naim et al. Aligning movies with scripts by exploiting temporal ordering constraints
Wijaya et al. Pornographic image rejection using eigenporn of simplified LDA of skin ROIs images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant