CN115205903B

CN115205903B - 一种基于身份迁移生成对抗网络的行人重识别方法

Info

Publication number: CN115205903B
Application number: CN202210890765.1A
Authority: CN
Inventors: 朱容波; 吴天; 张�浩; 李松泉
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2023-05-23
Anticipated expiration: 2042-07-27
Also published as: CN115205903A

Abstract

本发明公开了一种基于身份迁移生成对抗网络的行人重识别方法，包括以下步骤：获取行人图像数据集，通过人体语义解析模型生成行人图像对应的语义图；构建行人重识别的整体模型，包括生成器、判别器和行人重识别网络；生成器与判别器形成基于语义图身份迁移的生成对抗网络，生成器与判别器之间采用对抗学习的方式进行训练；构造基于局部质量注意力机制的梯度增强方法，对生成对抗网络进行改进；建立生成对抗网络与行人重识别网络的联合训练模式；输入待识别的行人图像，通过训练好的行人重识别网络，输出行人重识别结果。本发明提升了行人重识别数据集的多样性，能有效提高生成图像的质量，提高行人重识别模型的识别精度。

Description

一种基于身份迁移生成对抗网络的行人重识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于身份迁移生成对抗网络的行人重识别方法。

背景技术

行人重识别是计算机视觉领域的一个重要任务，它的目的是建立行人在跨摄像机场景下的身份关联。行人重识别在视频监控和安防等领域中有着广泛的应用，它根据给定的查询图像从非重叠的相机中提取包含感兴趣的人的图像。但是不同的相机拍摄的图像的背景、视角、姿态存在较大差异，这为在跨摄像机场景下查找目标行人带来了很大的挑战。因此为了应对图像之间的差异，需要尽可能的从训练数据中学***划分或者姿态骨架等局部特征信息对行人特征对齐，增强模型的表征能力。

模型结构的改进是提升行人重识别精度的一个方面，而另外一个造成行人重识别模型难以学习到对背景、视角、姿态等差异鲁棒的表示的原因是数据集的数据多样性不足、数据规模小。行人在运动过程中姿态多变、背景杂乱，在现实场景中将各种不同情况的行人图像收集起来是不切实际的，因此导致数据集难以囊括在各种变化下的行人图像，使得行人图像数据的多样性不足。除此之外，数据量的增加也会引起标注成本的增加，导致难以构建一个大规模的数据集。随着生成模型的发展，尤其是生成对抗网络，使用生成模型扩充训练数据集的方式被越来越多的研究所采用。一些研究者通过使用随机噪声或者姿态关键点合成新的行人图像，以此扩充行人重识别数据集，增加数据集中行人姿态的多样性。但是这类方法使用的随机噪声和姿态关键点包含的先验信息太少，无法准确的引导行人特征的生成，造成生成图像中存在模糊和伪影，身份特征不够准确。这些质量较差的生成图像在行人重识别网络的训练过程中会误导模型对特征的学习，从而阻碍模型识别精度的提升，不利于模型的训练。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于身份迁移生成对抗网络的行人重识别方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于身份迁移生成对抗网络的行人重识别方法，该方法包括以下步骤：

步骤1、获取行人图像数据集，通过人体语义解析模型生成行人图像对应的语义图，人体语义解析模型为行人图像中的每一个像素分配一个语义类别，并将引入语义图的行人图像划分为训练集和测试集；

步骤2、构建行人重识别的整体模型，包括生成器G、判别器D和行人重识别网络R；生成器G包括结构编码器E_s、身份信息提取器E_id、解码器G_dec，生成器G与判别器D形成基于语义图身份迁移的生成对抗网络，生成器G与判别器D之间采用对抗学习的方式进行训练；

步骤3、构造基于局部质量注意力机制的梯度增强方法，对生成对抗网络进行改进；

步骤4、建立生成对抗网络与行人重识别网络的联合训练模式，输入训练集，通过生成对抗网络输出新的生成图像，与训练集中的行人图像一起用于行人重识别网络的训练，得到训练好的整体模型，并利用测试集进行测试；

步骤5、输入待识别的行人图像，通过训练好的行人重识别网络，输出行人重识别结果。

进一步地，本发明的所述步骤1中的方法包括：

获取行人图像数据集，行人图像中每个行人都具有一个行人标签，将其划分为训练集和测试集，训练集和测试集中没有重复的行人标签；行人图像对应的语义图像通过人体语义解析模型生成，人体语义解析模型为图像中的每一个像素分配一个语义类别，生成的语义图像包含20种语义类别，分别是背景、帽子、头发、手套、太阳镜、上衣、连衣裙、外套、袜子、裤子、连身裤、围巾、裙子、脸、左臂、右臂、左腿、右腿、左鞋、右鞋；根据语义类别的空间位置关系，将所有的语义类别划分为头部、上半身、下半身、鞋子和背景5个部分；利用语义图单独提取出每一个部分的特征，实现精细的特征提取；并在进行训练之前，将所有图像都统一缩放为一定的像素尺寸。

进一步地，本发明的所述步骤2中的方法包括：

基于语义图的身份迁移生成对抗网络由结构编码器E_s、身份信息提取器E_id、解码器G_dec和判别器D组成，其中E_s、E_id和G_dec组合为生成器G，与判别器D形成生成对抗网络，使用对抗损失进行训练；

定义训练集为

每一个训练样本由行人图像

图像的身份标签y_n∈[1,K]以及行人的语义图/>

组成，其中N表示数据集中图像的数量，K表示数据集中身份的数量，C表示语义标签的类别数量，H和W分别表示图像的高度和宽度；

在训练生成对抗网络的过程中，随机从训练集中取出两个真实样本

和

其中a∈[1,N]且b∈[1,N]，为了将图像x_a的身份特征迁移到图像x_b上，生成器G首先使用身份特征提取器E_id提取图像x_a的身份信息I_a，然后使用结构编码器E_s将图像x_b和它对应的语义图s_b编码为结构特征F_b；最后使用解码器G_dec将I_a和F_b解码为新的行人图像/>

即生成图像，生成图像/>

具有行人y_b的结构特征和行人y_a的身份特征。

进一步地，本发明的所述步骤2中进行身份特征迁移的方法具体包括：

在将图像x_a的身份特征迁移到图像x_b的过程中，首先对图像x_a对应的语义图s_a进行预处理；语义图s_a包含了行人y_a的语义信息，根据语义信息的空间位置关系，将所有的语义信息划分为头部、上半身、下半身、鞋子和背景5个部分，使用

表示；然后，通过身份特征提取网络E_id提取行人每个部分的身份特征，计算如下：

在计算过程中

被自动扩展为3维，⊙表示对应元素相乘；其中/>

和

为包含每个语义部分的身份信息的仿射参数；行人图像的身份信息注入通过自适应实例归一化操作实现，自适应实例归一化操作的定义如下：

其中μ(·)为取均值操作，σ(·)为取标准差操作；自适应实例归一化操作在实例归一化操作的基础上将仿射参数替换为条件风格信息从而达到变换风格的目的；

身份迁移存在两种情况：

当身份标签y_a≠y_b时，生成过程为交叉身份生成，反之则为同身份生成；在同身份生成的条件下，生成图像在训练集中存在与之对应的真实图像；为了使生成图像

不仅能获得行人y_a的身份特征，还能保持清晰的结构特征，利用/>

损失对生成图像进行监督训练：

当身份标签y_a＝_b时，图像x_a与图像x_b可能是同一张图像，也可能是同一身份下的不同图像，通过监督学习对生成图像进行重建，使生成器学习到完整的结构信息。

进一步地，本发明的所述步骤2中采用对抗学习的方式进行训练的具体方法包括：

生成器G与判别器D之间采用对抗学习的方式进行训练，使生成图像

在视觉上更加真实，生成器G与判别器D的对抗损失定义如下：

在训练过程使用WGAN-GP对抗损失进行优化，使训练过程更加稳定。

进一步地，本发明的所述步骤3中构造基于局部质量注意力机制的梯度增强方法具体包括：

局部质量注意力机制中，利用无参考图像质量评价模型BIECON对生成图像中不重叠的patch进行评分，评价完成后，生成图像中每个不重叠的patch区域都会获得一个[0,1]之间的分数，分数越靠近0则表示质量越差，反之则越好；将每个patch的质量分数作为patch中每个像素的质量分数，获取一个与输入大小相同的质量分数矩阵Q；最后，局部质量注意力机制通过如下方式实现：

M＝1-Q

注意力矩阵M中值越大的像素质量越差，让生成器对该区域重点关注；

在梯度回传阶段，通过公式损失

和判别器的参数计算判别器的梯度Δ_D，然后从判别器的梯度Δ_D计算生成样本/>

的梯度/>

在标准的生成对抗网络中，生成样本的梯度将被直接用于更新生成器的参数，而基于局部质量注意力的梯度增强方法利用注意力矩阵M对生成样本的梯度/>

进行修改，使用对应元素的乘积实现：

其中α为调节权重的超参数，生成器使用修改后的梯度更新模型的参数。

进一步地，本发明的所述步骤4中进行联合训练的方法包括：

对生成图像和真实图像采用不同的损失函数，三元组损失函数被应用于生成图像的训练，公式定义如下：

其中B和E分别表示小批量中身份和实例的数量；f_a、f_p、f_n分别表示从行人重识别网络中提取的锚点样本、正样本和负样本的特征向量，γ为类内距离和类间距离之间的边界超参数；三元组损失通过拉近锚点样本与正样本之间的距离，拉远负样本与锚点样本之间的距离，从而学习具有判别性的特征表示；对于真实图像，使用ID损失进行学习：

其中x表示训练数据集中的真实图像，p(y|x)表示x被预测为其真实身份标签y的概率；

通过优化损失的加权和组成的总体目标，联合训练生成对抗网络和行人重识别网络：

其中

是对抗损失，用于确保生成器生成视觉上真实的图像，λ_id、λ_rec、λ_tri是用于平衡相关损失项的超参数。

进一步地，本发明的所述步骤4中的方法还包括：

由于生成对抗网络在生成图像的过程中不会产生新的身份，因此为了防止行人重识别模型发生过拟合，对行人重识别模型采用两阶段训练方式；在第一阶段使用总体目标进行联合训练，在第二阶段引入LSRO方法对模型进一步微调；LSRO方法用于减少模型过拟合的可能性，LSRO方法为生成图像赋予一个均匀分布的标签，其定义如下：

其中

表示生成图像，k∈[1,K]，因此/>

表示生成图像/>

属于每一类身份的概率均为1/K；真实图像与生成图像均使用ID损失进行训练，将真实图像与生成图像的损失统一如下：/>

对于真实图像，Z＝0；对于生成图像，Z＝1。

本发明产生的有益效果是：

(1)为了解决随机噪声和姿态关键点无法准确引导行人特征生成的问题，将语义图引入行人图像的生成过程中，提出了一种语义图引导的身份迁移生成对抗网络。借助语义图对行人不同区域的精确划分，实现对行人图像的准确编辑，提升行人图像的生成质量。通过身份迁移生成对抗网络将行人图像中的行人身份迁移到不同的行人图像上，增加行人重识别数据集的多样性，从而提升模型对背景、视角、姿态等差异的鲁棒性。

(2)为了解决生成对抗网络局部区域生成质量不均衡的问题，提出了一种基于局部质量注意力机制的梯度增强方法，使生成对抗网络不仅能从全局上对图像的生成质量进行调整，还能从局部提高图像的质量。

(3)为了使行人重识别网络更好的利用生成图像，提出了一种生成对抗网络与行人重识别网络的联合训练方式，一方面利用行人重识别网络对生成对抗网络生成图像进行分类，促进生成对抗网络的身份迁移能力，另一方面借助生成对抗网络生成的图像，使行人重识别网络学习到更加具有判别力的特征表示。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的模型的整体结构；

图2是本发明实施例的同身份迁移；

图3是本发明实施例的两阶段行人重识别网络训练；

图4是本发明实施例的基于局部质量注意力机制的梯度增强方法；

图5是本发明实施例的模型在Market-1501数据集上的身份迁移结果；

图6是本发明实施例的模型整体训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一：

本发明实施例的基于身份迁移生成对抗网络的行人重识别方法，包括以下步骤：

(1)构建基于语义图的身份迁移生成对抗网络模型。

基于语义图的身份迁移生成对抗网络由结构编码器E_s、身份信息提取器E_id、解码器G_dec和判别器D组成，其中E_s、E_id和G_dec组合为生成器G，与判别器D形成生成对抗网络，使用对抗损失进行训练。定义训练数据集为

每一个训练样本由行人图像

图像的身份标签y_n∈[1,K]以及行人的语义图像/>

组成，其中N表示数据集中图像的数量，K表示数据集中身份的数量，C表示语义标签的类别数量，H和W分别表示图像的高度和宽度。在训练生成对抗网络的过程中，随机从训练数据集中取出两个真实样本/>

和/>

其中a∈[1,N]且b∈[1,N]，为了将图像x_a的身份特征迁移到图像x_b上，生成器G首先使用身份特征提取器E_id提取图像x_a的身份信息I_a，然后使用结构编码器E_s将图像x_b和它对应的语义图s_b编码为结构特征F_b。最后使用解码器G_dec将I_a和F_b解码为新的行人图像/>

应具有行人y_b的结构特征和行人y_a的身份特征。

具体而言，在将图像x_a的身份特征迁移到图像x_b的过程中，首先需要对图像x_a对应的语义图像s_a进行预处理。语义图像s_a包含了行人y_a的语义信息，根据语义信息的空间位置关系，将所有的语义信息大致划分为头部、上半身、下半身、鞋子和背景5个部分，使用

表示。然后，通过身份特征提取网络E_id提取行人每个部分的身份特征，计算如下：

在计算过程中

被自动扩展为3维，⊙表示对应元素相乘。其中/>

和

为包含每个语义部分的身份信息的仿射参数。行人图像的身份信息注入通过自适应实例归一化操作实现，自适应实例归一化操作的定义如下：

其中μ(·)为取均值操作，σ(·)为取标准差操作。自适应实例归一化操作在实例归一化操作的基础上将仿射参数替换为条件风格信息从而达到变换风格的目的。

通过使用语义标签，使得身份特征包含了行人图像每一个语义部分的准确特征信息，利用自适应实例归一化操作的风格迁移能力，准确的将身份信息迁移到目标图像上，使生成器G具有更加精确的身份特征迁移能力。

身份迁移存在两种情况，当身份标签y_a≠y_b时，生成过程为交叉身份生成，反之则为同身份生成。在同身份生成的条件下，生成图像在训练数据集中存在与之对应的真实图像。为了使生成图像

损失对生成图像进行监督训练：

生成图像

应能正确的获得行人y_a的身份特征，为此行人重识别网络被用于约束生成图像/>

的身份。通过行人重识别网络对生成图像/>

进行判别，应用身份损失函数对生成图像/>

进行约束，具体表示如下：/>

其中

表示/>

被预测为图像x_a的类别标签y_a的概率。通过最小化生成器的身份损失/>

使得生成器学习到行人重识别网络的身份特征知识。

生成器与判别器之间采用对抗学习的方式进行训练，使生成图像

在视觉上更加真实。生成器与判别器的对抗损失定义如下：

(2)构造基于局部质量注意力机制的梯度增强方法。

生成器与判别器之间通过对抗学习的方式进行训练，生成器应生成尽可能真实的图像用以迷惑判别器，判别器需要将生成的图像与真实图像区分开来。在生成器的训练阶段，判别器将生成图像作为输入并预测其真假。然后，基于预测计算损失值，该损失值最终被判别器用于提供反馈信息给生成器。生成器利用反馈信息更新其参数，提升图像的生成能力，使生成图像视觉上更加真实。基于以上分析，观察到判别器提供的反馈信息仅通过一个值计算得到，该值代表着整幅图像的真假，而忽视了图像中局部区域生成不均衡的问题。不均衡表现为生成图像的局部区域存在伪影、模糊等现象，它们会进一步影响行人重识别网络对生成图像的身份判别，为此本发明提出了基于局部质量注意力的梯度增强方法，兼顾图像的局部质量和全局质量。

所提出的方法由局部质量注意力机制和梯度增强两部分组成。局部质量注意力机制的作用是找出生成图像中局部生成较差的区域，使生成器更多的关注到局部区域的生成。利用无参考图像质量评价模型BIECON对生成图像中不重叠的patch进行评分，评价完成后，生成图像中每个不重叠的patch区域都会获得一个[0,1]之间的分数，分数越靠近0则表示质量越差，反之则越好。将每个patch的质量分数作为patch中每个像素的质量分数，因此可以获取一个与输入大小相同的质量分数矩阵Q。最后，局部质量注意力机制通过如下方式实现：

M＝1-Q#(8)

注意力矩阵M中值越大的像素质量越差，应该让生成器对该区域重点关注。在梯度回传阶段，通过公式损失

的梯度/>

进行修改，使用对应元素的乘积实现：

其中α为调节权重的超参数，遵循XAI-GAN设置α＝0.2。生成器使用修改后的梯度更新模型的参数，在直觉上，注意力矩阵通过增加较差质量区域的梯度指引生成器更加关注局部区域的生成情况，使模型不仅可以提升图像整体的质量，还能从局部对图像质量进一步优化。

(3)建立生成对抗网络与行人重识别网络的联合训练模式。

行人重识别网络的训练与生成对抗网络联合进行，生成对抗网络生成的新的行人图像将与训练数据集中的真实图像一起用于行人重识别网络的训练。生成图像的身份信息来源于提供身份特征的图像，因此生成图像的身份标签在理论上应与提供身份特征的图像一致。但是，生成对抗网络的训练是一个渐进的过程，在训练的早期，生成图像的质量并不完美，无法实现准确的身份迁移。因此，直接将身份标签应用于生成图像会误导行人重识别网络对身份特征的学习，进而影响身份迁移的准确性，导致训练的不稳定，甚至崩溃。为了避免以上问题，对生成图像和真实图像采用不同的损失函数。难样本挖掘三元组损失函数被应用于生成图像的训练，公式定义如下：

其中B和E分别表示小批量中身份和实例的数量。f_a、f_p、f_n分别表示从行人重识别网络中提取的锚点样本、正样本和负样本的特征向量，γ为类内距离和类间距离之间的边界超参数，在实验中γ设置为0.3。三元组损失通过拉近锚点样本与正样本之间的距离，拉远负样本与锚点样本之间的距离，从而学习具有判别性的特征表示。对于真实图像，使用ID损失进行学习：

其中x表示训练数据集中的真实图像，p(y|x)表示x被预测为其真实身份标签y的概率。

通过优化损失(4)、(5)、(6)、(7)、(10)和(11)的加权和组成的总体目标，联合训练生成对抗网络和行人重识别网络：

其中

由于生成对抗网络在生成图像的过程中不会产生新的身份，因此为了防止行人重识别模型发生过拟合，对行人重识别模型采用如图3所示的两阶段训练方式。在第一阶段使用上面提到的总体目标进行联合训练，在第二阶段引入LSRO方法对模型进一步微调。LSRO方法用于减少模型过拟合的可能性，LSRO方法为生成图像赋予一个均匀分布的标签，其定义如下：

其中

表示生成图像，k∈[1,K]，因此/>

表示生成图像/>

属于每一类身份的概率均为1/K。真实图像与生成图像均使用ID损失进行训练，结合公式(5)将真实图像与生成图像的损失统一如下：

对于真实图像，Z＝0。对于生成图像，Z＝1。

实施例二：

(1)训练数据集准备

获取Market-1501数据集，该数据集采集自清华大学校园的6个摄像头，一共标注了1501个行人。其中，751个行人标注用于训练集，750个行人标注用于测试集，训练集和测试集中没有重复的行人标签。行人图像对应的语义图像通过人体语义解析模型(SelfCorrection for Human Parsing)生成，人体语义解析模型为图像中的每一个像素分配一个语义类别，生成的语义图像包含20种语义类别，分别是背景、帽子、头发、手套、太阳镜、上衣、连衣裙、外套、袜子、裤子、连身裤、围巾、裙子，脸，左臂，右臂，左腿，右腿，左鞋，右鞋。根据语义类别的空间位置关系，将所有的语义类别大致划分为头部、上半身、下半身、鞋子和背景5个部分。在身份迁移的过程中，利用语义图单独提取出每一个部分的特征，实现精细的特征提取，然后将这些特征分别注入到生成对抗网络中，生成特征更加精确的行人图像。在进行训练之前，所有输入图像都被统一缩放为256×128的像素尺寸。

(2)模型构建

所有模型通过深度学***均池化获得自适应实例归一化参数I，所有E_id共享网络参数。生成器G使用五个残差块将不同语义区域的身份信息分别注入结构特征F中，遵循论文MUNIT每个残差块包含两个自适应实例归一化层。判别器D遵循流行的PatchGAN结构。行人重识别网络R的结构基于ResNet50，使用ImageNet上的预训练参数对其初始化并将全连接层的维度修改为K，K表示训练数据集中身份的数量。

(3)联合训练生成对抗网络与行人重识别网络

在训练时，生成对抗网络和行人重识别网络都使用Adam优化器进行训练，并设置参数β₁＝0.5，β₂＝0.999。总体损失中的参数设置为λ_id＝1、λ_rec＝10、λ_tri＝1。在第一阶段的训练中，生成对抗网络与行人重识别网络联合训练，生成器和判别器的学习率均设置为0.0001，行人重识别网络的学习率设置为0.00035。批量大小设置为32，在一个批量数据中身份数量B设置为8，实例数量E设置为4。在第二阶段，停止生成对抗网络的训练，使用LSRO损失对行人重识别网络进行微调。在整个实验中，所有输入图像都被调整为256×128的大小，为了去除原始身份信息的影响，结构编码器E_s的输入图像被转换为灰度图像。

(4)实验分析

模型的评估分为图像生成评估和行人重识别评估。图像生成评估通过使用生成对抗网络将行人图像的身份迁移到不同图像上进行展示，生成结果如图5所示。在图5中，第一列图像表示身份的来源图像，第一行表示身份迁移的目标图像，目标图像提供身份迁移中的结构信息。图5中的其他图像为身份迁移后的图像，可以从图像中看出，生成图像较好的保留了目标图像的结构信息，并且精准的完成了身份信息的迁移，显示出本发明中的身份迁移生成对抗网络具有较好的图像生成能力和身份迁移能力。模型的行人重识别评估标准包括(1)Rank-n值，该值表示在查询结果的前n张图像中至少有1张图像符合查询结果的概率；(2)mAP(mean average precision)，该值反应检索的人在查询数据库中所有正确的图片排在查询结果前面的程度。本发明的行人重识别网络在Market-1501测试数据集上的Rank-1值上达到了93.9％的准确度，在mAP上达到了83.5％。这说明本发明通过使用生成对抗网络将行人图像的身份迁移到不同图像上，有效的扩充了训练数据集的多样性，提升了行人重识别网络对背景、视角、姿态等差异的鲁棒性。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于身份迁移生成对抗网络的行人重识别方法，其特征在于，该方法包括以下步骤：

所述步骤2中的方法包括：

定义训练集为

每一个训练样本由行人图像/>

图像的身份标签y_n∈[1，K]以及行人的语义图/>

和/>

其中a∈[1，N]且b∈[1，N]，为了将图像x_a的身份特征迁移到图像x_b上，生成器G首先使用身份特征提取器E_id提取图像x_a的身份信息I_a，然后使用结构编码器E_s将图像x_b和它对应的语义图s_b编码为结构特征F_b；最后使用解码器G_dec将I_a和F_b解码为新的行人图像/>

即生成图像，生成图像/>

具有行人y_b的结构特征和行人y_a的身份特征；

所述步骤3中构造基于局部质量注意力机制的梯度增强方法具体包括：

局部质量注意力机制中，利用无参考图像质量评价模型BIECON对生成图像中不重叠的patch进行评分，评价完成后，生成图像中每个不重叠的patch区域都会获得一个[0，1]之间的分数，分数越靠近0则表示质量越差，反之则越好；将每个patch的质量分数作为patch中每个像素的质量分数，获取一个与输入大小相同的质量分数矩阵Q；最后，局部质量注意力机制通过如下方式实现：

M＝1-Q

在梯度回传阶段，通过公式损失