CN110826417A

CN110826417A - 一种基于判别字典学习的跨视角行人重识别方法

Info

Publication number: CN110826417A
Application number: CN201910966029.8A
Authority: CN
Inventors: 谢明鸿; 颜悦
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-02-21
Anticipated expiration: 2039-10-12
Also published as: CN110826417B

Abstract

本发明涉及一种基于判别字典学习的跨视角行人重识别方法，属于数字图像处理技术领域。首先基于来自同一相机视角的行人图像共享相同域的事实，将不同视角的行人特征分为特定视角域信息分量和域不变行人外观特征分量，学习一个判别字典算法以创建用于描述域信息分量的域通用字典和描述域不变分量的域不变字典，同时强制同一视角下的行人编码系数具有很强的相似性；然后提出一个扩展正则项强制不同行人的编码系数保持一定距离，而同一行人的编码系数则尽可能接近；最后基于仅有行人特征信息的模型采用欧氏距离设计行人匹配方案。本发明提出的行人重识别方法能分离图像中的域信息来解决不同视角间的域偏移问题，产生好的识别效果。

Description

一种基于判别字典学习的跨视角行人重识别方法

技术领域

本发明涉及一种基于判别字典学习的跨视角行人重识别方法，属于数字图像处理技术领域。

背景技术

行人重识别是一种使用计算机视觉从不同相机拍摄的图像或视频序列中判断目标行人是否存在的技术。近年来，行人重识别由于在行人搜索，行人跟踪和行人行为分析中的广泛应用而引起了越来越多的研究者的关注，并且大量行人重识别的方法被提出。尽管计算机视觉的研究人员已经做出了很大努力来改善行人重识别***的性能，但是由于行人的外观通常在跨摄像机视图中都表现出很大的视觉歧义，因此该技术仍存在巨大的挑战。

发明内容

本发明要解决的技术问题是提供一种基于判别字典学习的跨视角行人重识别方法，用以解决现有技术对于行人重识别域偏移的问题。

本发明的技术方案是：一种基于判别字典学习的跨视角行人重识别方法，包括如下步骤：

1)确定基于判别字典学习的跨视角行人重识别的总体模型框架；

2)将不同视角的行人图像特征分为特定视角域信息分量和域不变行人外观特征分量，学习一个判别字典算法以创建用于描述域信息分量的域通用字典和用于描述域不变分量的域不变字典；

3)训练字典的判别促进项；

4)提出一种扩展正则项强制不同行人的编码系数保持一定距离，而同一行人的编码系数则尽可能接近；

5)训练编码系数的判别促进项，强制具有相同视角的行人图像的编码系数具有很强的相似性；

6)确定基于判别字典学习的跨视角行人重识别的总体目标函数；

7)对总体目标函数中的要更新的变量进行求解；

8)基于仅有域不变行人外观特征的模型采用欧氏距离设计行人匹配方案。

具体地，所述的步骤1)的总体模型框架包括：

用表示两相机视角下的训练样本集，此时需要把鲁棒的特征表示学习和判别式度量学习整合到一个框架中，总体模型框架如公式(1)所示：

式中，

表示所有相机下行人图像共享的域字典，

表示域特定字典，用于在分离域信息后对行人外观特征进行编码，Z_a,Z_b是字典D上X_a和X_b的域信息的编码系数矩阵，Z_ta,Z_tb是对应于字典D_t的域特定信息的编码系数。Φ(D,D_t,Z_a,Z_b,Z_ta,Z_tb)是数据保真度项，将其最小化可以使学习的字典D和D_t具有表示能力。Ψ(D,D_t)是字典的判别促进项，Γ(Z_a,Z_b,Z_ta,Z_tb)是编码系数的判别促进项，将这两项最小化是为了使字典和编码系数具有较强的判别能力。

是D的第

列，而

是D_t的第列。

具体地，所述的步骤2)的判别字典算法包括：

为了缓解不同相机视角之间的域偏移，将域信息与行人图像特征分开，于是把数据保真度项Φ(D,D_t,Z_a,Z_b,Z_ta,Z_tb)表示为：

式中，

用于建立a、b两相机视角的域信息，

用于将域信息与不受域影响的行人外观特征分开。

具体地，所述的步骤3)的字典判别促进项包括：

字典D用于表示不同相机视角的域信息，由于来自同一台相机的图像具有相同的域特征，因此希望这些图像在域特征方面彼此线性相关。为了从样本X_a和X_b中分离出域信息，提出的字典判别促进项为：

式中，||D||_*是对字典D的核范数求解，因为域信息分量和行人的真实外观特征具有不同的空间形态特征，引入结构不相干正则项来促使域字典D和行人特征字典D_t相互独立。α₁和α₂是两个标量参数，分别代表着||D||_*和

项的权重信息。

具体地，所述的步骤4)的扩展正则项包括：

希望来自不同相机视角的同一行人在域特定字典D_t上具有相同的编码系数，同时希望算法能够使来自不同相机视角的不同行人的编码系数之间的距离大于一个常数。为了满足这一需求，针对视角a提出以下函数，同时采用同样的方法针对视角b提出类似的函数，此处不再赘述：

式中，{z}₊＝max{z,0}，c是一个任意常数，表示在a相机视角下的第l个行人的第k张图像；

表示在b视角下的和a视角第l个行人的第k张图像最不相似的编码系数所对应的第l个行人的第k^*张图像，其中k^*≠k；

表示在b视角下的和a视角第l个行人的第k张图像最相似的编码系数所对应的第l^*个行人的第k^*张图像，其中l^*≠l。而式中的

表示

它不会导致对行人身份的误判。而

表示

则意味着使用行人图像特征的编码系数进行行人匹配会导致误识别。在这种情况下，最小化

可以促使

具体地，所述的步骤5)的编码系数判别促进项包括：

对于a和b两视角域的编码系数矩阵Z_a和Z_b，相同的域应具有相同的稀疏表示。基于以上考虑，定义总体模型框架(1)中的Γ(Z_a,Z_b,Z_ta,Z_tb)为：

式中，

最小化||Z||_2,1可以使Z的每一行中的条目相同，该项可以促使从D中选择相同的原子来表示同一域的原始特征，并且促使这些特征的编码系数在D上共享相同的稀疏表示。α₃,α₄,α₅是三个标量参数，分别代表着||Z_a||_2,1+||Z_b||_2,1、||Z_ta||₁+||Z_tb||₁和

项的权重信息。

具体地，所述的步骤6)的总体目标函数包括：

式中，M_a和M_b分别表示两相机视角下的行人数量，N_al和N_bl表示分别表示两相机视角下第l个行人所对应的的图像数量。

具体地，所述的步骤7)的变量求解包括：

总体目标函数(6)中的对于要求的变量D,D_t,Z_a,Z_b,Z_ta,Z_tb不是共同凸的，但是当所有其他变量都固定不变时，它对于每个变量是凸的。因此，可以通过交替迭代处理来优化它们，每一个变量的求解如下：

为了更新编码系数Z_a，变量Z_b的更新方法与Z_a一致，此处不再赘述，首先假定D,D_t,Z_b,Z_ta,Z_tb都是固定的，有以下目标函数：

这是一个典型的l_2,1最小化问题，Z_a的解析解可以表示为：

Z_a＝(4D^TD+α₃Λ₁)^-1(4D^TX_a+2D^TD_tZ_ta) (8)

式中，Λ₁是由

构成的对角矩阵，表示Z_i的第j列。

然后，通过固定D,D_t,Z_a,Z_b,Z_tb来更新Z_ta，变量Z_tb的更新方法与Z_ta一致，此处不再赘述，有以下目标函数：

为了方便优化，将公式(9)重写为向量形式：

式中，

是a视角下第l个行人的第k张图像的视觉特征。为了求解(10)，一个松弛变量

被引入，然后可以将等式(10)放宽为：

可以通过以下求解来更新变量

以上问题可以通过迭代收缩算法来解决，

可以通过以下方式更新：

式中，h表示第h次迭代，

使用更新的

Z_ta可以被构造为

在更新编码系数Z_a和Z_ta之后，字典D和D_t可以交替更新，有以下目标函数：

为了更新D，引入一个中间变量C，公式(14)变为：

C可以通过以下求解得到：

这是一个典型的核规范最小化问题，可以通过奇异值阈值算法来解决。为了更新D_t，一个松弛变量H被引入：

松弛变量H的封闭解可以表示为：

H＝(α₂D_tD_t ^T+I₁)^-1D (18)

其中，I₁为一个单位矩阵，使用更新的C和H，可以通过以下求解来优化D：

这个问题可以通过拉格朗日对偶来解决。最后，D_t可以通过以下求解来优化：

该问题可以作为公式(19)中的问题得到解决。

具体地，所述的步骤8)的行人匹配方案包括：

在测试中，通过学到的字典D和D_t，可以通过以下求解来实现域信息和特定行人信息的分离：

式中，Z_a,Z_b分别表示视角a,b下的域编码系数矩阵，Z_ta,Z_tb分别表示视角a,b下的特定行人信息的编码系数矩阵。这个问题可以通过交替迭代法解决，当

和

时，停止迭代。令

和

为

和

中l第个行人的编码系数矢量，可以通过计算以下距离来测量行人之间的相似性：

本发明的有益效果是：

1、在当前的行人重识别方法中，大多数研究都是假设两视角之间待识别的行人图像没有域差异，这样做不仅会丢失更多的图像信息而且还会引入虚假信息传递到结果中，影响行人图像的视觉效果。本发明提出的行人重识别方法能将域信息从行人图像中分离出来，避免了虚假信息的传递，还能减少耗时，提升行人的判别能力。

2、本发明提出的行人重识别方法相比其他方法识别性能明显提升。

附图说明

图1是本发明的流程图；

图2是本发明实施例提供的PRID2011数据集上两相机视角下的行人图像对；

图3是本发明实施例提供的基于PRID2011数据集上针对算法中参数α₁的CMC曲线；

图4是本发明实施例提供的基于PRID2011数据集上针对算法中参数α₂的CMC曲线；

图5是本发明实施例提供的基于PRID2011数据集上针对算法中参数α₃的CMC曲线；

图6是本发明实施例提供的基于PRID2011数据集上针对算法中参数α₄的CMC曲线；

图7是本发明实施例提供的基于PRID2011数据集上针对算法中参数α₅的CMC曲线。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：来自不同相机视角的行人图像之间的域偏移是导致行人外观歧义的主要因素之一。另外，同一相机视角中的域信息在一定时间内是稳定的，并且同一视角中的所有图像共享相同的域信息。如果能将域信息从行人图像中分离出来，剩余的信息将不会受到域信息的干扰，并且来自不同相机视角的行人图像之间也不会出现域偏移。基于此思想，本发明提出了一种新颖的域不变字典学习方法，用于跨视角的行人重识别。在这种方法中，假设来自同一相机视角的图像共享相同的域。为了实现域不变的视觉特征，将不同视角下的行人特征分成两个分量，其中一个是域特定分量，另一个是域不变特征分量。

如图1所示，一种基于判别字典学习的跨视角行人重识别方法，包括如下步骤：

3)训练字典的判别促进项；

7)对总体目标函数中的要更新的变量进行求解；

具体实施过程如下：首先基于来自同一相机视角的行人图像共享相同域的事实，将不同视角的行人特征分为特定视角域信息分量和域不变行人外观特征分量，学习一个判别字典算法以创建用于描述域信息分量的域通用字典和描述域不变分量的域不变字典，同时强制同一视角下的行人编码系数具有很强的相似性；然后为了克服外观歧义，提出一个扩展正则项强制不同行人的编码系数保持一定距离，而同一行人的编码系数则尽可能接近；最后基于仅有行人特征信息的模型采用欧氏距离设计行人匹配方案。

进一步地，所述的步骤1)的总体模型框架包括：

用

表示两相机视角下的训练样本集，此时需要把鲁棒的特征表示学习和判别式度量学习整合到一个框架中，总体模型框架如公式(1)所示：

式中，表示所有相机下行人图像共享的域字典，

是D的第

列，而

是D_t的第

列。

进一步地，所述的步骤2)的判别字典算法包括：

式中，

用于建立a、b两相机视角的域信息，

用于将域信息与不受域影响的行人外观特征分开。

进一步地，所述的步骤3)的字典判别促进项包括：

项的权重信息。

进一步地，所述的步骤4)的扩展正则项包括：

表示在b视角下的和a视角第l个行人的第k张图像最不相似的编码系数所对应的第l个行人的第k^*张图像，其中k^*≠k；表示在b视角下的和a视角第l个行人的第k张图像最相似的编码系数所对应的第l^*个行人的第k^*张图像，其中l^*≠l。而式中的

表示

它不会导致对行人身份的误判。而

表示

可以促使

进一步地，所述的步骤5)的编码系数判别促进项包括：

式中，最小化||Z||_2,1可以使Z的每一行中的条目相同，该项可以促使从D中选择相同的原子来表示同一域的原始特征，并且促使这些特征的编码系数在D上共享相同的稀疏表示。α₃,α₄,α₅是三个标量参数，分别代表着||Z_a||_2,1+||Z_b||_2,1、||Z_ta||₁+||Z_tb||₁和

项的权重信息。

进一步地，所述的步骤6)的总体目标函数包括：

进一步地，所述的步骤7)的变量求解包括：

这是一个典型的l_2,1最小化问题，Z_a的解析解可以表示为：

Z_a＝(4D^TD+α₃Λ₁)^-1(4D^TX_a+2D^TD_tZ_ta) (8)

式中，Λ₁是由

构成的对角矩阵，

表示Z_i的第j列。

为了方便优化，将公式(9)重写为向量形式：

式中，

被引入，然后可以将等式(10)放宽为：

可以通过以下求解来更新变量

以上问题可以通过迭代收缩算法来解决，

可以通过以下方式更新：

式中，h表示第h次迭代，

使用更新的

Z_ta可以被构造为

为了更新D，引入一个中间变量C，公式(14)变为：

C可以通过以下求解得到：

松弛变量H的封闭解可以表示为：

H＝(α₂D_tD_t ^T+I₁)^-1D (18)

该问题可以作为公式(19)中的问题得到解决。

进一步地，所述的步骤8)的行人匹配方案包括：

和

时，停止迭代。令

和

为

和

所述步骤3)中，由于来自同一相机视图的图像具有域相似性，因此通过低秩项来细化用于表示域成分的字典，同时引入结构不相干正则项促使域字典D和行人特征字典D_t相互独立，因此加入针对字典的两个判别促进项，可以使字典具有较强的判别能力。

所述步骤4)和5)中，加入针对编码系数的两个判别促进项，可以使编码系数具有较强的判别能力，同时在更新编码系数Z_ta,Z_tb时，采用梯度下降法。

所述步骤8)中，基于仅有域不变行人外观特征的模型采用欧氏距离设计行人匹配方案，以避免域偏移给识别结果带来的不利影响。

下面结合具体实验数据对本发明做进一步地说明。

在实验中，每个数据集被随机分为两个不重叠的部分，一个用作训练样本，另一个用作测试样本。累积匹配特征(CMC)曲线用于定量评估识别性能。模型中有七个参数，包括字典D和D_t的大小d和d_t，五个标量参数，即α₁，α₂，α₃，α₄和α₅。在整个实验过程中，将上述参数的值设置为d＝50,d_t＝760,α₁＝1,α₂＝0.01,α₃＝28,α₄＝1和α₅＝5。参数α₁，α₂，α₃，α₄和α₅对识别性能的影响在图3-图7中给出。表1所示的是基于PRID2011数据集上的最新结果的性能比较，对最大值进行加粗。

表1：基于PRID2011数据集上最新结果的性能比较

比较结果表明，所提出的方法在不同等级上的识别率最高，甚至比等级1、5、10、20的次优方法分别高5.4％，3.9％，4.9％，0.5％。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于判别字典学习的跨视角行人重识别方法，其特征在于：包括如下步骤：

3)训练字典的判别促进项；

4)根据一种扩展正则项强制不同行人的编码系数保持一定距离，而同一行人的编码系数则尽可能接近；

7)对总体目标函数中的要更新的变量进行求解；

2.根据权利要求1所述的一种基于判别字典学习的跨视角行人重识别方法，其特征在于：所述的步骤1)的总体模型框架包括：

用

式中，

表示所有相机下行人图像共享的域字典，

表示域特定字典，用于在分离域信息后对行人外观特征进行编码，Z_a,Z_b是字典D上X_a和X_b的域信息的编码系数矩阵，Z_ta,Z_tb是对应于字典D_t的域特定信息的编码系数，Φ(D,D_t,Z_a,Z_b,Z_ta,Z_tb)是数据保真度项，Ψ(D,D_t)是字典的判别促进项，Γ(Z_a,Z_b,Z_ta,Z_tb)是编码系数的判别促进项，