CN111008618A

CN111008618A - 一种自注意力深度学习端到端的行人再识别方法

Info

Publication number: CN111008618A
Application number: CN202010016162.XA
Authority: CN
Inventors: 侯丽; 刘琦; 陈珍海; 汪伟; 曹俊呈
Original assignee: Huangshan University
Current assignee: Huangshan University
Priority date: 2019-10-29
Filing date: 2020-01-07
Publication date: 2020-04-14
Anticipated expiration: 2040-01-07
Also published as: CN111008618B

Abstract

本发明公开了一种自注意力深度学习端到端的行人再识别方法，涉及机器学习与模式识别技术领域，用于提升行人再识别的性能，包括以下步骤：1)以三元组图像作为深度学习网络的输入数据，采用预先训练的Resnet50深度网络去除最后一层分类层提取图像的深度特征；2)在深度特征的基础上，通过自注意力网络，进一步获取自注意力特征；3)融合自注意力特征与深度特征，产生更具辨识力的图像特征；4)以多分类任务和验证任务的损失函数共同监督网络的训练，经过多次迭代不断地优化网络模型参数，从而获取用于行人再识别的优选模型。

Description

一种自注意力深度学习端到端的行人再识别方法

技术领域

本发明涉及机器学习与模式识别技术领域，具体涉及一种自注意力深度学习端到端的行人再识别方法。

背景技术

行人再识别，作为一种重要的智能视频分析技术，对跨摄像头行人目标追踪、行人行为分析等具有重要的研究价值。行人再识别，即是跨多个摄像头识别具有相同身份的行人图像。跨摄像头行人图像常常面临复杂的背景杂乱、光照变化、严重遮挡、显著的姿态变化等，因此对行人再识别的研究极具挑战性。

从原始行人图像中提取更具辨识力和鲁棒性的特征，是行人再识别的重要研究任务之一。随着深度学习技术的发展，深度特征提取已成为行人再识别技术研究的主流。卷积神经网络(CNN)作为深度学习研究的典型模型，采用了卷积层、池化层以及全连接层，并且利用反向传播算法计算误差用于调整网络参数。然而，摄像机视角和行人姿态的变化会引起跨摄像头行人图像间不可控的误对齐问题，导致难于学习一个更具辨识力和鲁棒性的特征模型，以应对跨摄像头复杂的场景变化。

发明内容

本发明的目的在于克服上述现有技术的缺陷，将深度学习、自注意力学习和多任务学习相结合，提出一种自注意力深度学习端到端的行人再识别方法。此方法能够在有限样本标注条件下，获取更具辨识力和鲁棒性的优选特征模型，更好地克服了跨摄像头复杂的场景变化给行人外观带来的影响，具有较优的行人再识别性能。

按照本发明所采用的技术方案，所述自注意力深度学习端到端的行人再识别方法包括以下步骤：

步骤1，以三元组图像作为深度学习网络的输入数据，采用预先训练的Resnet50深度网络去除最后一层分类层提取图像的深度特征；

步骤2，在深度特征的基础上，通过自注意力网络，进一步获取自注意力特征；

步骤3，融合自注意力特征与深度特征，获取更具辨识力的图像特征；

步骤4，以多分类任务和验证任务的损失函数共同监督网络的训练，经过多次迭代不断地优化网络模型参数，从而获取用于行人再识别的优选模型，利用该模型进行行人再识别。

具体的，步骤1中所述Resnet50深度网络初始化采用大规模ImageNet图像集上已经训练好的Resnet50模型参数。

具体的，Resnet50深度网络由5组卷积层组成，包括：

第1组卷积层由1个7×7卷积层组成，卷积层输出64个特征平面；

第2组卷积层由3个相同的Resnet50残差块组成，卷积层输出256个特征平面；

第3组卷积层由3个相同的Resnet50残差块组成，卷积层输出512个特征平面；

第4组卷积层由3个相同的Resnet50残差块组成，卷积层输出1024个特征平面；

第5组卷积层由3个相同的Resnet50残差块组成，卷积层输出2048个特征平面。

具体的，步骤2中基于所述的Resnet50深度网络，在三元组图像上分别提取锚图像、正例图像、负例图像的特征向量，通过训练多个自注意力模型，计算多个自注意力特征，用于定位输入图像的多个可辨识的局部图像区域；

所述自注意力特征的计算过程包含以下步骤：

步骤2.1，应用3个特征变换空间进行特征的线性变换，应用1×1的卷积核来实现；

步骤2.2，应用Re-LU激活函数对2个线性特征变换进行非线性处理，获取特征变换响应；

步骤2.3，对特征变换响应进行Softmax归一化，获取特征图不同区域的自注意力分数；

步骤2.4，基于不同区域的自注意力分数和第3个特征变换，计算三元组图像的特征图不同区域的自注意力特征。

具体的，步骤3中，应用步骤2获取的三元组图像的自注意力特征，与一个尺度因子相乘后，再与步骤1所述的Resnet50深度网络提取的三元组图像的深度特征进行融合，获取三元组图像融合特征。

具体的，步骤4中，由多分类任务的损失函数和验证任务的损失函数两部分组成多任务学***方层，再经过全连接层，同样以交叉熵损失函数作为目标函数，用来决定两张输入图像是否属于相同身份，应用于验证任务学习中。

具体的，所述平方层的定义用公式表示如下：

y_ij＝(y_i-y_j)²

其中i≠j且y_i，y_j∈(y_a，y_p，y_n)，y_a，y_p，y_n分别表示三元组图像中锚图像、正例图像、负例图像的融合特征。

本发明的有益效果如下：

1、本发明借助多个自注意力模型，获取输入图像多个局部区域的自注意力特征，用于表示行人图像的多处细节信息，有助于解决跨摄像机行人图像相应位置特征未对齐问题。

2、本发明结合深度学习、自注意力学习和多任务学习，在有限样本标注条件下，能够提取行人图像更具辨识力和鲁棒性的特征描述子。

附图说明

图1是本发明所述自注意力深度学习模型示意图。

图2是本发明所述Resnet50残差块结构示意图。

图3是本发明所述自注意力特征提取模型工作原理图。

图4是本发明所述的多任务学习模型工作原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图和实施例对本发明进行进一步详细说明。

本发明的基本思路在于，提出一种自注意力深度学习端到端的行人再识别方法，其自注意力深度学习模型如图1所示。本发明利用已有训练样本，基于Resnet50深度网络和自注意力网络，学习自注意力深度特征。应用多任务损失函数，监督指导行人特征在网络中的学习，获取更具辨识力和鲁棒性的行人特征，提高行人再识别的辨识力和鲁棒性。

本发明提供的自注意力深度学习端到端的行人再识别方法包括以下步骤：

步骤1，以三元组图像作为深度学习网络的输入数据，采用预先训练的Resnet50深度网络去除最后一层分类层提取图像的深度特征。三元组图像由锚图像、与锚图像身份相同的正例图像、与锚图像身份不同的负例图像共同构成。Resnet50深度网络初始化采用大规模ImageNet图像集上已经训练好的Resnet50模型参数。Resnet50残差块结构如图2所示。本发明所采用的Resnet50深度网络由5组卷积层组成，具体包括：

步骤2，在深度特征的基础上，通过自注意力网络，进一步获取自注意力特征。自注意力特征提取模型如图3所示。基于所述的Resnet50深度网络，在三元组图像上分别提取锚图像、正例图像、负例图像的8*4网格细胞特征向量，分别用{x_i，g}_{g＝1，...，G}表示全局深度特征，其中i＝a，p，n分别表示锚图像、正例图像、负例图像，G＝32表示网格细胞数，x_i，g为D＝2048维网格细胞向量。然后，基于三元组图像的全局深度特征{x_i，g}_{g＝1，...，G}，训练多个自注意力模型，计算多个自注意力特征，用于定位输入图像多个可辨识的局部区域。自注意力特征的具体计算过程包含以下步骤：

步骤2.4，基于不同区域的自注意力分数和第3个特征变换，计算三元组特征图不同区域的自注意力特征。

具体用公式表示如下：

步骤2.1，应用特征变换空间f∈(f₁，f₂，f₃)进行特征的线性变换，用如下公式表示：

其中

分别表示3个不同的特征变换空间f₁，f₂，f₃对应的特征变换矩阵，使用1×1的卷积核进行不同尺度不同空间特征图的线性组合来实现特征的线性变换，通过整个网络的训练获取其相应的参数矩阵。为了减少模型的训练参数，降低特征空间的维度，设置

x_k，k＝a，p，n分别表示锚图像、正例图像、负例图像的深度特征图。

步骤2.2，应用Re-LU激活函数对f₁(x_k)和f₂(x_k)进行非线性处理，获取特征变换响应e_i，j，用如下公式表示：

e_i，j＝(max(f₁(x_k)，0))^T(max(f₂(x_k)，0))

步骤2.3，对e_i，j进行Softmax归一化，获取特征图第i个位置第j个区域的自注意力分数s_i，j，用如下公式表示：

步骤2.4，基于s_i，j和f₃(x_k)，计算特征图第j个区域的自注意力特征o_j，用如下公式表示：

基于所述自注意力特征的计算过程，获取三元组图像，即：锚图像、正例图像、负例图像的自注意力特征，分别用o_a，o_p，o_n表示。

步骤3，融合自注意力特征与深度特征，获取更具辨识力的图像特征。应用步骤2所述的三元组图像的自注意力特征o∈(o_a，o_p，o_n)，与一个尺度因子α相乘后，再与步骤1所述的Resnet50深度网络提取的深度特征x∈(x_a，x_p，x_n)进行融合，获取三元组融合特征y，用如下公式表示：

y＝αo+x

其中y∈(y_a，y_p，y_n)，其中y_a，y_p，y_n分别表示锚图像、正例图像、负例图像的融合特征。尺度因子α通过网络训练获取合适的参数，初始化为0。

步骤4，以多分类任务和验证任务的损失函数监督网络的训练，经过多次迭代不断地优化网络模型参数，从而获取用于行人再识别的优选模型，利用该模型进行行人再识别。多任务学***方层，再经过全连接层，同样以交叉熵损失函数作为目标函数，用来决定两张输入图像是否属于相同身份，应用于验证任务学***方层定义用如下公式表示：

y_ij＝(y_i-y_j)²

其中i≠j且y_i，y_j∈(y_a，y_p，y_n)，

对于多分类任务，选取Softmax函数作为全连接层的激活函数，全连接层的输出表示目标的预测概率，其输出维度取决于训练数据集中图像的身份标签数N。多分类任务交叉熵损失函数用如下公式表示：

其中z_n表示目标概率，

表示全连接层的输出。

对于验证任务，同样选取Softmax函数作为全连接层的激活函数，全连接层的输出为2维向量

验证任务交叉熵损失函数用如下公式表示：

其中(u₁，u₂)是

的真实标签。

多任务学习的损失函数用如下公式表示：

L＝L_m+L_v。

Claims

1.一种自注意力深度学习端到端的行人再识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的自注意力深度学习端到端的行人再识别方法，其特征在于，步骤1中，所述Resnet50深度网络初始化采用大规模ImageNet图像集上已经训练好的Resnet50模型参数。

3.根据权利要求1所述的自注意力深度学习端到端的行人再识别方法，其特征在于，步骤1中，Resnet50深度网络由5组卷积层组成，具体包括：

4.根据权利要求1所述的自注意力深度学习端到端的行人再识别方法，其特征在于，步骤2中，基于所述的Resnet50深度网络，在三元组图像上分别提取锚图像、正例图像、负例图像的特征向量，通过训练多个自注意力模型，计算多个自注意力特征，用于定位输入图像的多个可辨识的局部图像区域；

所述自注意力特征的计算过程包含以下步骤：

5.根据权利要求1所述的自注意力深度学习端到端的行人再识别方法，其特征在于，步骤3中，应用步骤2获取的三元组图像的自注意力特征，与一个尺度因子相乘后，再与步骤1所述的Resnet50深度网络提取的三元组图像的深度特征进行融合，获取三元组图像融合特征。

6.根据权利要求1所述的自注意力深度学***方层，再经过全连接层，同样以交叉熵损失函数作为目标函数，用来决定两张输入图像是否属于相同身份，应用于验证任务学习中。

7.根据权利要求6所述的自注意力深度学***方层的定义用公式表示如下：

y_ij＝(y_i-y_j)²