CN113920472B

CN113920472B - 一种基于注意力机制的无监督目标重识别方法及***

Info

Publication number: CN113920472B
Application number: CN202111204633.0A
Authority: CN
Inventors: 魏志强; 张文锋; 黄磊
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2024-05-24
Anticipated expiration: 2041-10-15
Also published as: CN113920472A

Abstract

本发明公开了一种基于注意力机制的无监督目标重识别方法及***，包括：确定通道注意力机制和空间注意力机制；将所述通道注意力机制和空间注意力机制加入至基准卷积神经网络模型，以获取初始的目标重识别模型；基于已知身份标签的第一源数据集和未知身份标签的第二源数据集对当前的目标重识别模型进行有监督训练和无监督训练，确定交叉熵损失和无监督损失；根据所述交叉熵损失和无监督损失，使用梯度下降算法对当前的目标重识别模型进行优化，并不断迭代，直至损失变化值小于预设损失变化阈值或达到预设得迭代次数时，确定当前的目标重识别模型为最优目标重识别模型；基于所述最优目标重识别模型进行目标重识别，以确定与查询图像匹配的目标图像。

Description

一种基于注意力机制的无监督目标重识别方法及***

技术领域

本发明涉及目标重识别技术领域，并且更具体地，涉及一种基于注意力机制的无监督目标重识别方法及***。

背景技术

目标重识别在智能视频监控和公共安全中发挥着重要的作用。给定一幅查询图像，目标重识别任务的目标是在图像数据库中匹配来自跨摄像机视角下相同身份的目标图像。传统的目标重识别方法可以分为两类:特征提取和度量学习。近年来，基于深度特征学习的目标重识别***与手工特征提取方法相比，在性能方面取得了显著的提升。然而，上述方法都需要大量的跨摄像头下的成对标记数据，其限制了在实际应用中的可扩展性。因为对数据集中的大量图像进行人工标记是非常耗时和昂贵的。为了解决这个问题，近年来一些基于无监督的目标重识别方法主要通过在对未标记的数据上进行聚类，或从已标记的源数据域中将知识迁移到目标数据域上。然而，现有的无监督目标重识别方法的模型性能并不令人满意，与有监督算法相比，其性能显著下降。该问题关键在于，由于成对标签的缺失，从未标记数据中学习具有身份信息的可区分性特征是一个非常大的挑战，并且这些数据受局部变化、遮挡、视角变换、光照等不可控因素的影响。

传统的UDA方法假设有标签的源数据域和无标签的目标数据域共享相同的类，但目标重识别任务与之不同。在目标重识别任务中，源数据集和目标数据集之间没有重叠的类。近年来，一些基于目标重识别的UDA方法取得了较好的效果，但与有监督的目标重识别任务相比，仍然存在较大的差距。其中主要原因之一是这些方法忽略了无标签数据集上存在的局部变化、复杂背景、遮挡等问题，使得现有的UDA方法无法捕获具有区分能力的特征。

因此，需要一种基于注意力机制的无监督目标重识别方法。

发明内容

本发明提出一种基于注意力机制的无监督目标重识别方法及***，以解决如何高效、准确地进行目标重识别的问题。

为了解决上述问题，根据本发明的一个方面，提供了一种基于注意力机制的无监督目标重识别方法，所述方法包括：

基于图像特征图的通道域信息和空间域信息，确定通道注意力机制和空间注意力机制；

将所述通道注意力机制和空间注意力机制加入至基准卷积神经网络模型，以获取初始的目标重识别模型；

基于已知身份标签的第一源数据集和未知身份标签的第二源数据集对当前的目标重识别模型进行有监督训练和无监督训练，确定交叉熵损失和无监督损失；

根据所述交叉熵损失和无监督损失，使用梯度下降算法对当前的目标重识别模型进行优化，并不断迭代，直至损失变化值小于预设损失变化阈值或达到预设得迭代次数时，确定当前的目标重识别模型为最优目标重识别模型；

基于所述最优目标重识别模型进行目标重识别，以确定与查询图像匹配的目标图像。

优选地，其中所述通道注意力机制，包括：

给定输入张量T∈R^C×H×W，采用自适应最大池化AMP操作将其映射到使用全局最大池化GAP操作将每层特征进行聚合，获取特征Z_channel，包括：

基于特征Z_channel，确定每个通道的权值，包括：

S_channel＝σ(F(Z_channel,W))＝σ(W₂δ(W₁Z_channel)),

使用激活张量S_channel重新调节原始输入张量T，确定通道注意力机制的输出张量，包括：

其中，δ代表非线性激活函数(ReLU)，W₁∈RC/r×C，和W₂∈RC×C/r；r为维数缩减比例；特征图T_c∈R^H×W，U_channel∈R^C×H×W。

优选地，其中所述空间注意力机制，包括：

给定输入张量T∈R^C×H×W，给定输入张量T∈R^C×H×W，采用自适应最大池化AMP操作将其映射到使用全局最大池化GAP将张量T'在空间上分成/>个向量，对每个向量使用一维全局平均池化操作以整合所有通道上的特征，以整合所有通道上的特征，包括：

将张量Z_spatial的尺寸调整为记为张量Z'_spatial，并使用两个非线性的全连接层来学习不同区域的关系，并使得输出大小等于输入空间尺寸H×W,包括：

S_spatial＝reshape(σ(F(Z'_spatial,W)))

＝reshape(σ(W₂δ(W₁Z'_spatial))),

使用激活张量S_spatial重新调节原始输入张量T，确定空间注意力机制的输出张量，包括：

其中，δ代表非线性激活函数ReLU，和/>reshape(·)函数代表将非线性激活函数得到结果的尺寸调整为H×W；/>特征图T_x,y∈R^C，U_spatial∈R^C×H×W。

优选地，其中所述方法利用如下方式确定交叉熵损失，包括：

其中，L^src为交叉熵损失；n_s为模型训练的批次大小；log(y_s,i|x_s,i)为第一源数据集中每幅图像x_s,i属于身份标签y_s,i的概率值，通过全连接层和SoftMax激活层计算得到。

优选地，其中所述方法利用如下方式确定无监督损失，包括：

L^tgt＝aL^cam+bL^triplet+cL^neibor，

L^cam＝-log(i|X_t,i)，

其中，L^tgt为无监督损失，a、b和c为预设系数，a+b+c＝1；L^neibor为最近邻损失，w_i,j为目标图像x_t,i属于身份j的概率权重，k为基于相似度确定的图像个数，表示目标图像x_t，i对应的最相似的k幅图像；L^cam为交叉熵损失，/>原始图像x_t,i和对应的生成图像/>为同一个类别；L^triplet为三元组损失；P为目标图像x_t,i在每个训练批次中对应的正样本集，N为对应的困难负样本集；f(·)为特征映射函数，用以将目标图像映射为特征，指特征提取网络；/>表示L2范数的平方。

优选地，其中所述基准卷积神经网络模型的主干网络为ResNet-50或者为IBN-ResNet-50模型。

根据本发明的另一个方面，提供了一种基于注意力机制的无监督目标重识别***，所述***包括：

注意力机制确定单元，用于基于图像特征图的通道域信息和空间域信息，确定通道注意力机制和空间注意力机制；

初始模型确定单元，用于将所述通道注意力机制和空间注意力机制加入至基准卷积神经网络模型，以获取初始的目标重识别模型；

训练单元，用于基于已知身份标签的第一源数据集和未知身份标签的第二源数据集对当前的目标重识别模型进行有监督训练和无监督训练，确定交叉熵损失和无监督损失；

最优目标重识别模型确定单元，用于根据所述交叉熵损失和无监督损失，使用梯度下降算法对当前的目标重识别模型进行优化，并不断迭代，直至损失变化值小于预设损失变化阈值或达到预设得迭代次数时，确定当前的目标重识别模型为最优目标重识别模型；

目标重识别单元，用于基于所述最优目标重识别模型进行目标重识别，以确定与查询图像匹配的目标图像。

优选地，其中所述通道注意力机制，包括：

基于特征Z_channel，确定每个通道的权值，包括：

S_channel＝σ(F(Z_channel,W))＝σ(W₂δ(W₁Z_channel))，

其中，δ代表非线性激活函数(ReLU)，和/>r为维数缩减比例；/>特征图T_c∈R^H×W，U_channel∈R^C×H×W。

优选地，其中所述空间注意力机制，包括：

S_spatial＝reshape(σ(F(Z'_spatial,W)))

＝reshape(σ(W₂δ(W₁Z'_spatial))),

其中，δ代表非线性激活函数ReLU，和/>reshape(·)函数代表将非线性激活函数得到结果的尺寸调整为H×W；/>特征图T_x，y∈R^C，U_spatial∈R^C×H×W。

优选地，其中所述训练单元，利用如下方式确定交叉熵损失，包括：

其中，L^src为交叉熵损失；n_s为模型训练的批次大小；log(y_s，i|x_s，i)为第一源数据集中每幅图像x_s，i属于身份标签y_s,i的概率值，通过全连接层和SoftMax激活层计算得到。

优选地，其中所述训练单元，利用如下方式确定无监督损失，包括：

L^tgt＝aL^cam+bL^triplet+cL^neibor，

L^cam＝-log(i|X_t，i)，

本发明提供了一种基于注意力机制的无监督目标重识别方法及***，设计了注意力机制，解决数据中存在的局部变化、遮挡等问题，能够方便地嵌入到现有的卷积神经网络中，提升模型的区分能力；能够将有标签数据集中的区分性信息迁移到无标签数据集中，能够减小不同相机下目标图像的风格差异，能够区分无标签数据集中的困难样本，能够在距离度量中拉近外观相似的样本；基于最优目标重识别模型进行目标重识别，能够快速准确地确定与查询图像匹配的目标图像，能够应用于智能视频监控分析，可以在无标签数据上提取具有区分能力的目标特征，更好地应用于真实场景。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的基于注意力机制的无监督目标重识别方法100的流程图；

图2为根据本发明实施方式的基于注意力机制的无监督目标重识别的示意图；

图3为根据本发明实施方式的基于注意力机制的卷积神经网络模型的示意图；

图4为根据本发明实施方式的基于注意力机制的无监督目标重识别***400的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的基于注意力机制的无监督目标重识别方法100的流程图。如图1所示，本发明实施方式提供的基于注意力机制的无监督目标重识别方法，设计了注意力机制，解决数据中存在的局部变化、遮挡等问题，能够方便地嵌入到现有的卷积神经网络中，提升模型的区分能力；能够将有标签数据集中的区分性信息迁移到无标签数据集中，能够减小不同相机下目标图像的风格差异，能够区分无标签数据集中的困难样本，能够在距离度量中拉近外观相似的样本；基于最优目标重识别模型进行目标重识别，能够快速准确地确定与查询图像匹配的目标图像，能够应用于智能视频监控分析。本发明实施方式提供的基于注意力机制的无监督目标重识别方法100，从步骤101处开始，在步骤101基于图像特征图的通道域信息和空间域信息，确定通道注意力机制和空间注意力机制。

优选地，其中所述通道注意力机制，包括：

基于特征Z_channel，确定每个通道的权值，包括：

S_channel＝σ(F(Z_channel,W))＝σ(W₂δ(W₁Z_channel)),

优选地，其中所述空间注意力机制，包括：

S_spatial＝reshape(σ(F(Z'_spatial,W)))

＝reshape(σ(W₂δ(W₁Z'_spatial))),

在本发明中，设计了一种通道-空间注意力机制，同时考虑图像特征图通道域和空间域的信息，促使网络学习图像中更具区分性的特征，并将确定的注意力机制应用到卷积神经网络模型中，以解决数据中存在的局部变化、遮挡等问题，能够方便地嵌入到现有的卷积神经网络中，提升模型的区分能力。

具体地，确定通道注意力的过程包括：

给定输入张量T∈R^C×H×W，我们首先采用自适应最大池化(Adaptive Max Pooling，AMP)操作将其映射到接着，我们使用全局最大池化(Global AveragePooling，GAP)操作将每层特征进行聚合，计算公式如下：

然后，我们使用两个非线性的全连接层来学习不同通道的权值。给定特征Z_channel，每个通道的权值S_channel∈R^C可以按如下公式计算：

S_channel＝σ(F(Z_channel,W))＝σ(W₂δ(W₁Z_channel)),

其中δ代表非线性激活函数(ReLU)，和/>r为维数缩减比例，目的是减少模型的复杂度。

于是通道注意力模块的最终输出U_channel∈R^C×H×W通过使用激活张量S_channel重新调节原始输入张量T，公式如下：

其中特征图T_c∈R^H×W。

具体地，确定空间注意力的过程包括：

与通道注意力一样，我们首先使用自适应最大池化操作得到然后我们使用一维全局平均池化操作将张量T'映射到/>具体地，我们将张量T'在空间上分成个向量，对每个向量使用一维全局平均池化操作以整合所有通道上的特征。计算公式如下：

接下来我们将张量Z_spatial的尺寸调整为记为张量Z'_spatial。然后，我们使用两个非线性的全连接层来学习不同区域的关系，并使得输出大小等于输入空间尺寸H×W,公式计算如下：

S_spatial＝reshape(σ(F(Z'_spatial,W)))

＝reshape(σ(W₂δ(W₁Z'_spatial))),

其中δ代表非线性激活函数(ReLU)，和/>reshape(·)函数代表将非线性激活函数得到结果的尺寸调整为H×W。

于是空间注意力模块的最终输出U_spatial∈R^C×H×W通过使用激活张量S_spatial重新调节原始输入张量T，公式如下：

其中，特征图T_x,y∈R^C。

最终，基于注意力机制的输出张量为：U＝U^spatial+U^channel。

在步骤102，将所述通道注意力机制和空间注意力机制加入至基准卷积神经网络模型，以获取初始的目标重识别模型。

结合图2所示，本发明实施方式的基于注意力机制的无监督目标重识别方法总体上可以分为三个部分：数据输入、网络模型以及损失计算。其中数据输入包括有标签数据和无标签数据；损失计算分为有监督学习和无监督学习，其中有监督学习通过计算交叉熵损失来学习有标签数据，无监督学习则由相机不变性、困难样本挖掘、最近邻三个损失联合起来共同学习无标签数据集上的区分性特征。网络模型则为设计的基于注意力机制的卷积神经网络，如图3所示，其中主干网络为ResNet-50或者为IBN-ResNet-50模型，AAAM为注意力机制模块。

在步骤103，基于已知身份标签的第一源数据集和未知身份标签的第二源数据集对当前的目标重识别模型进行有监督训练和无监督训练，确定交叉熵损失和无监督损失。

L^tgt＝aL^cam+bL^triplet+cL^neibor，

L^cam＝-log(i|X_t,i)，

其中，L^tgt为无监督损失，a、b和c为预设系数，a+b+c＝1；L^neibor为最近邻损失，w_i,j为目标图像x_t,i属于身份j的概率权重，k为基于相似度确定的图像个数，表示目标图像x_t,i对应的最相似的k幅图像；L^cam为交叉熵损失，/>原始图像x_t,i和对应的生成图像/>为同一个类别；L^triplet为三元组损失；P为目标图像x_t,i在每个训练批次中对应的正样本集，N为对应的困难负样本集；f(·)为特征映射函数，用以将目标图像映射为特征，指特征提取网络；/>表示L2范数的平方。

在本发明的实施方式中，将已知身份标签的第一源数据集输入至当前的目标重识别模型进行有监督训练，确定交叉熵损失；同时将未知身份标签的第二源数据集输入至当前的目标重识别模型进行无监督训练，确定无监督损失，并根据交叉熵损失和无监督损失，使用使用梯度下降算法对当前的目标重识别模型进行优化。

其中，在有监督学习时，对有标签数据中的图像进行预处理，包括随机裁剪、随机擦除、随机翻转等。将预处理过的图像输入到注意力机制网络中，进行深度神经网络的正向传播计算，得到预测结果。对于已知源数据集的身份标签，将源数据集的训练过程视为分类问题，利用交叉熵损失对网络进行优化，其表达式为:

其中，n_s为模型训练的批次大小。log(y_s,i|x_s,i)表示源数据集中每幅图像x_s,i属于身份标签y_s,i的概率值，其通过全连接层和SoftMax激活层计算得来。本发明采用ResNet-50模型作为基准模型学习源数据集上的身份区别能力，并将其作为基准模型进行改进。

其中，在无监督学习时，主要包括以下几个方面：

a)最近邻损失计算

对于每幅无标签图像，在无标签数据集中存在一些与其属于同一身份信息的样本。如果在训练过程中，能找到这些潜在的属于同一身份的样本，这将很大程度上地提升无监督目标重识别模型的性能。我们首先采用余弦距离计算两幅图像的相似度，然后通过排序找到最相似的k幅图像，将其定义为对于目标图像x_t，i，其应该属于/>中的身份信息。则目标图像x_t，i属于身份j的概率权重可以被定义为：

于是，最近邻损失被定义为：

对于目标图像x_t，i,其应该属于中的身份信息。则目标图像x_t,i属于身份j的概率权重可以被定义为：

于是，最近邻损失被定义为：

具体地，最近邻损失的计算过程为：

i.计算每两幅图像(f(x_i),f(x_j))的视觉特征相似度；

ii.按距离从小到大排序，找到每幅图像对应的最相似的k幅图像，将其定义为

iii.计算目标图像x_t,i属于身份j的概率权重，计算公式为：

iv.计算最近邻损失：

b)相机风格不变性学习

不同相机下的目标图像有着显著的风格变化，其可能导致目标的外观在不同相机设置下发生变化。虽然在源数据集中可以通过有标签的数据学习相机风格不变性，但很难将这种特性迁移到无标签数据集中。其中的主要原因是源数据集和目标数据集的相机设置是不同的。为了解决这个问题，我们引入一种相机风格不变学习策略。我们将每个相机场景下的图像认定为同一个风格，采用对抗生成网络训练模型得到无标签数据集上的相机风格迁移模型。接着，我们使用训练好的相机风格迁移模型对无标签数据集进行扩充，即在保持目标身份信息的前提下，将来自相机v的每幅图像扩充为V幅，其中V代表了无标签数据集中的相机个数。

为了将相机风格不变性引入到我们的方法中，在训练过程中，我们将原始图像x_t,i和对应的生成图像认定为同一个类别。因此基于相机风格不变的损失函数可以定义为：

L^cam＝-log(i|X_t,i)，

其中，由上面公式可以推知，在不同相机风格下生成的图像被强制保持和对应真实图像同样的目标身份信息，通过这种策略可以缓解图像风格变换问题。

具体地，基于相机风格不变的损失计算具体步骤如下：

i.首先建立基于对抗生成网络的相机风格迁移模型StyleGAN；

ii.使用无标签数据集优化StyleGAN模型；

iii.使用训练好的StyleGAN模型对无标签数据集进行扩充，即在保持目标身份信息的前提下，将来自相机v的每幅图像扩充为V幅，其中V代表了无标签数据集中的相机个数。

iv.将扩充后的数据集输入到卷积网络中，并进行正向传播计算；

v.提取最后一层池化层结果作为视觉特征进行保存在内存中，记为f(X)；

vi.计算相机风格不变损失，公式如下：

L^cam＝-log(i|X_t,i)，

其中，

c)无监督困难样本挖掘

在这个部分，我们引入无监督下的困难样本挖掘策略来学习具有区分能力的特征。为了获取有效的困难样本对，我们从两方面进行考虑：视觉特征相似度和参照对比相似度。进一步说，我们将拥有相似视觉特征和高参照对比度的图想对定义为正样本对，将拥有相似视觉特征和低参照对比度的图像对定义为负样本对。

给定无标签数据集中的图像对(x_i,x_j)，视觉特征相似度可以定义为：

S_V(x_i,x_j)＝f(x_i)^Tf(x_j),

其中f(·)表示特征嵌入空间，i,j∈N_t。S_V表示余弦相似度。

为了将有标签数据集上的有用信息引入到无标签数据集中，我们学习一个基于参照对比的多标签函数M(·)。基于参照对比的多标签被定义为：

其中A代表有标签的源数据集，x_t表示无标签数据，K_s表示源数据集中的身份数量。向量y的所有维度累加和为1，其每个维度代表了属于参照目标身份的概率大小。参照对比的多标签函数被定义为：

其中y^(k)表示y的第kth个维度，p_i表示参照对比目标身份的联合嵌入空间。我们采用L1距离计算参照对比相似度：

其中主要思想是：无标签样本对在第k维度上具有相似的值，则相对于同一个参照目标身份他们具有一些共同的特征。

无标签数据集中的困难样本被定义为：

P＝{(i,j)|S_V(x_i,x_j)≥α,S_R(y_i,y_j)≥β}

N＝{(m,n)|S_V(x_m,x_n)≥α,S_R(y_m,y_n)＜β}

其中α代表视觉特征相似度的阈值，β表示参照对比相似度的阈值。下一步，三元组损失可以被定义为：

通过优化L_triplet损失，模型在训练过程中不断挖掘正样本对和困难负样本，并学习到具有区分能力的特征。

具体地，确定三元组损失的过程包括：

i.输入图像对(x_i,x_j)，经过卷积神经网络得到视觉特征(f(x_i),f(x_j))。

ii.计算视觉特征f(x_i)和f(x_j)相似度，公式为：

S_V(x_i,x_j)＝f(x_i)^Tf(x_j)，

其中f(·)表示特征嵌入空间，i,j∈N_t。S_V表示余弦相似度。

iii.计算每幅图像的多标签，计算公式为：

其中y^(k)表示y的第kth个维度，p_i表示参照对比目标身份的联合嵌入空间。M(·)为基于参照对比的多标签函数，A代表有标签的源数据集，x_t表示无标签数据，K_s表示源数据集中的身份数量。向量y的所有维度累加和为1，其每个维度代表了属于参照目标身份的概率大小。

iv.采用L1距离计算两幅图像的参照对比相似度，计算公式为：

v.通过视觉特征相似度S_V和参照对比相似度S_R找到无标签数据集中的困难样本对，可以按以下方式计算：

P＝{(i,j)|S_V(x_i,x_j)≥α,S_R(y_i，y_j)≥β}

N＝{(m，n)|S_V(x_m,x_n)≥α,S_R(y_m,y_n)＜β}

其中α代表视觉特征相似度的阈值，β表示参照对比相似度的阈值。

vi.根据找到的正样本P和负样本N，计算三元组损失：

d)无监督学习

为了将步骤a),b),c)联合起来，提升无监督目标重识别模型的性能，我们定义无监督学习的损失函数为：

L^tgt＝aL^cam+bL^triplet+cL^neibor，其中，a、b和c为预设系数，a+b+c＝1。

本发明的无监督学习，能够减小不同相机下目标图像的风格差异，能够区分无标签数据集中的困难样本，能够在距离度量中拉近外观相似的样本。

在步骤104，根据所述交叉熵损失和无监督损失，使用梯度下降算法对当前的目标重识别模型进行优化，并不断迭代，直至损失变化值小于预设损失变化阈值或达到预设得迭代次数时，确定当前的目标重识别模型为最优目标重识别模型。

在本发明的实施方式中，交叉熵损失和无监督损失的和，使用梯度下降算法对当前的目标重识别模型进行优化，并并不断迭代，直至损失变化值小于预设损失变化阈值或达到预设得迭代次数时，模型收敛，确定当前的目标重识别模型为最优目标重识别模型。

在步骤105，基于所述最优目标重识别模型进行目标重识别，以确定与查询图像匹配的目标图像。

在本发明的实施方式中，在确定了最优目标重识别模型后，将查询图像输入至最优目标重识别模型，即可在数据库中进行搜索，确定与查询图像匹配的目标图像。

图4为根据本发明实施方式的基于注意力机制的无监督目标重识别***400的结构示意图。如图4所示，本发明实施方式提供的基于注意力机制的无监督目标重识别***400，包括：注意力机制确定单元401、初始模型确定单元402、训练单元403、最优目标重识别模型确定单元404和目标重识别单元405。

优选地，所述注意力机制确定单元401，用于基于图像特征图的通道域信息和空间域信息，确定通道注意力机制和空间注意力机制。

优选地，其中所述通道注意力机制，包括：

基于特征Z_channel，确定每个通道的权值，包括：

S_channel＝σ(F(Z_channel,W))＝σ(W₂δ(W₁Z_channel)),

优选地，其中所述空间注意力机制，包括：

S_spatial＝reshape(σ(F(Z'_spatial,W)))

＝reshape(σ(W₂δ(W₁Z'_spatial))),

优选地，所述初始模型确定单元402，用于将所述通道注意力机制和空间注意力机制加入至基准卷积神经网络模型，以获取初始的目标重识别模型。

优选地，所述训练单元403，用于基于已知身份标签的第一源数据集和未知身份标签的第二源数据集对当前的目标重识别模型进行有监督训练和无监督训练，确定交叉熵损失和无监督损失。

优选地，其中所述训练单元403，利用如下方式确定交叉熵损失，包括：

优选地，其中所述训练单元403，利用如下方式确定无监督损失，包括：

L^tgt＝aL^cam+bL^triplet+cL^neibor，

优选地，所述最优目标重识别模型确定单元404，用于根据所述交叉熵损失和无监督损失，使用梯度下降算法对当前的目标重识别模型进行优化，并不断迭代，直至损失变化值小于预设损失变化阈值或达到预设得迭代次数时，确定当前的目标重识别模型为最优目标重识别模型。

优选地，所述目标重识别单元405，用于基于所述最优目标重识别模型进行目标重识别，以确定与查询图像匹配的目标图像。

本发明的实施例的基于注意力机制的无监督目标重识别***400与本发明的另一个实施例的基于注意力机制的无监督目标重识别方法100相对应，在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于注意力机制的无监督目标重识别方法，其特征在于，所述方法包括：

基于所述最优目标重识别模型进行目标重识别，以确定与查询图像匹配的目标图像；

其中，所述通道注意力机制，包括：

基于特征Z_channel，确定每个通道的权值，包括：

S_channel＝σ(F(Z_channel,W))＝σ(W₂δ(W₁Z_channel)),

其中，δ代表非线性激活函数ReLU，W₁∈R^C/r×C，和W₂∈R^C×C/r；r为维数缩减比例；特征图T_c∈R^H×W，U_channel∈R^C×H×W；

其中，所述空间注意力机制，包括：

S_spatial＝reshape(σ(F(Z'_spatial,W)))

＝reshape(σ(W₂δ(W₁Z'_spatial))),

其中，δ代表非线性激活函数ReLU，和/>reshape(·)函数代表将非线性激活函数得到结果的尺寸调整为H×W；/>特征图T_x,y∈R^C，U_spatial∈R^C×H×W；

其中，所述方法利用如下方式确定无监督损失，包括：

L^tgt＝aL^cam+bL^triplet+cL^neibor，

L^cam＝-log(i|X_t,i)，

2.根据权利要求1所述的方法，其特征在于，所述方法利用如下方式确定交叉熵损失，包括：

3.一种基于注意力机制的无监督目标重识别***，其特征在于，所述***包括：

目标重识别单元，用于基于所述最优目标重识别模型进行目标重识别，以确定与查询图像匹配的目标图像；

其中，所述通道注意力机制，包括：

基于特征Z_channel，确定每个通道的权值，包括：

S_channel＝σ(F(Z_channel,W))＝σ(W₂δ(W₁Z_channel)),

其中，所述空间注意力机制，包括：

S_spatial＝reshape(σ(F(Z'_spatial,W)))

＝reshape(σ(W₂δ(W₁Z'_spatial))),

其中，所述训练单元，利用如下方式确定无监督损失，包括：

L^tgt＝aL^cam+bL^triplet+cL^neibor，

L^cam＝-log(i|X_t,i)，

4.根据权利要求3所述的***，其特征在于，所述训练单元，利用如下方式确定交叉熵损失，包括：