CN116956024A

CN116956024A - 一种基于参数自进化策略的目标细粒度识别方法

Info

Publication number: CN116956024A
Application number: CN202310820177.5A
Authority: CN
Inventors: 张艳宁; 王鹏; 矫炳亮; 吴瑞祺; 陈之雨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-10-27
Also published as: WO2024093415A1

Abstract

本发明公开了一种基于参数自进化策略的目标细粒度识别方法，构建参数自进化模块，将输入特征送入1×1尺寸的动态卷积来提取特征，其中动态卷积的参数根据自注意力编码融合后得到的特征生成；将参数自进化模块***ResNet‑50模型中，将其命名为参数自进化网络；最后采用训练集对参数自进化网络进行训练，完成后实现目标细粒度识别。本发明能够动态地更新主干网络模型参数，实现面对未见数据域时的参数自进化，从而实现可泛化的目标细粒度识别。

Description

一种基于参数自进化策略的目标细粒度识别方法

技术领域

本发明属于深度学习技术领域，具体涉及一种目标细粒度识别方法。

背景技术

目标细粒度识别旨在匹配不同场景中的相同细粒度分类目标。在同一环境下训练和评估图像时，许多有监督的目标细粒度识别方法取得了较好的效果。然而，当在来自模型未见过的环境的图像上测试时，这些方法的性能往往会显着下降。学界普遍认为，捕捉环境的变化，例如光照、视角和季节的变化会导致数据域偏移，而现有方法在这些变化下并不稳健，如果重新进行训练，需要耗费大量的标注人力成本和训练时间成本。对此，可泛化的目标细粒度识别任务旨在建立一个对数据域变化更鲁棒的、能在未见过的环境中工作的目标细粒度识别模型。

在过去的工作中，大部分方法倾向于使用实例归一化消除跨特征通道的统计对比，即显式地消除图像风格模式来产生领域表征。然而，删除的统计信息不仅包含了不相关的特定域的模式，而且还包含可用于对特定域或实例进行识别的判别信息，这可能会导致模型的判别能力大幅降低。为了解决这个问题，过去的工作尝试通过加入批量归一化或引入专家机制用于在消除不相关的特定数据域特征和保留数据域或实例的判别信息之间取得平衡。但是，过去的这些工作本质上是通过建立更复杂、更大规模的网络模型来适应未见数据域，尽管以此得到的模型可能在部分未见数据域上能发挥较好的性能，但静态的模型总是会不可避免地在面对更大的数据域偏移时难以适应目标数据域，并且过于复杂的模型结构会带来更大的计算成本，不利于实际部署应用。

对此，需要使模型的参数足够灵活以便于适应目标数据域。过去的工作中模型的参数往往都是静态的，本质上是以更大规模的参数去拟合目标数据域，从而弥补参数灵活性不足的缺陷。

发明内容

为了克服现有技术的不足，本发明提供了一种基于参数自进化策略的目标细粒度识别方法，构建参数自进化模块，将输入特征送入1×1尺寸的动态卷积来提取特征，其中动态卷积的参数根据自注意力编码融合后得到的特征生成；将参数自进化模块***ResNet-50模型中，将其命名为参数自进化网络；最后采用训练集对参数自进化网络进行训练，完成后实现目标细粒度识别。本发明能够动态地更新主干网络模型参数，实现面对未见数据域时的参数自进化，从而实现可泛化的目标细粒度识别。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：构建参数自进化模块；

将输入特征送入1×1尺寸的动态卷积来提取特征，其中动态卷积的参数根据自注意力编码融合后得到的特征生成，具体如下：

首先将输入特征与来自网络其它部分的补充特征求和，得到用于参数预测的原始控制信号；之后将原始控制信号送入自注意力编码器，原始控制信号中包含的批次特征会被展开拉平，送入解码层，通过其内置的多头自注意力机制实现对批次内特征间的交互，再将特征恢复原始形状，得到处理后的交叉注意力信号；下一步将交叉注意力信号与原始控制信号求和，得到融合控制信号；之后将融合控制信号经下采样处理后送入参数预测解码器，得到自适应于当前数据域输入的动态卷积权重和偏置参数；上述操作写为：

其中,F和F^OUT分别是动态转换实例归一化模块的输入特征和输出特征；Conv(·,θ)表示动态卷积，其中θ是卷积参数；φ^w(F^k)表示自适应参数预测器根据F^k产生包括权重和偏置量在内的自适应参数，F^c是进行卷积参数预测所采用的特征，它是由F^k变换而来的；avgPool表示空间平均池化操作；θ₁和θ₂表示全连接层FC的参数；

TransformerEncoder(·)表示自注意力编码器，具体构成如下式(2)所示：

其中Q,K,V分别表示查询特征、键特征和值特征，均由输入自注意力编码器的特征经线性映射ξ(·，[θ₁,θ₂,θ₃])得到，其中[θ₁,θ₂,θ₃]分别表示用于生成Q,K,V的线性映射层参数，由模型训练学习得到；

步骤2：将参数自进化模块***ResNet-50模型中，将其命名为参数自进化网络；ResNet-50由4个阶段组成，每个阶段包含不同数量的残差块，只使用参数自进化模块替换ResNet-50第2到第4阶段的最后一个残差块中的3×3卷积层；

步骤3：损失函数；

将可访问源数据域表示为其中S为可用源数据域的数量，表示第k个源数据域，其中/>第k个源数据域中的第i个标记样本，/>为该样本，/>为该样本的标记信息，即该样本对应的目标ID，N_k则表示第k个源数据域中的样本数；

将各个源数据域视为一个独立任务，并为这些任务提供一个共享的特征提取器；对每个域创建一个目标ID分类器来执行目标ID分类，第k个分类器/>的标签空间为第k个域中的所有目标ID；对各样本经过目标ID分类器的结果与其标记信息应用交叉熵损失，对从第k个数据域随机采样的样本应用三元组损失和控制损失；在上述损失的基础上，总体目标为最小化每个数据域中损失的平均值，因此，总体损失函数表示为如下公式：

其中的i为源数据域序号，N_k则表示第k个源域中的样本数，和/>分别是随机抓取的/>的正样本和负样本；ψ表示特征提取模型，L_c.e.和L_tri.分别表示交叉熵损失和三元组损失；L_ctl.代表控制损失，控制损失具体形式如下公式：

其中f^k _l,分别代表在模型的第l个阶段由加入了参数自进化模块的卷积层对/>处理得到的特征，而/>则代表在相应卷积未加入参数自进化模块时处理得到的特征，m和γ均为超参数。

步骤4：采用训练集对参数自进化网络进行训练，完成后实现目标细粒度识别。

优选地，所述参数自进化网络再进行正式训练之前先在ImageNet数据集上进行预训练。

优选地，所述参数自进化模块使用Market-1501、DukeMTMC-ReID、Cuhk02、Cuhk03、Cuhk-SYSU五个数据集构建训练集。

本发明的有益效果如下：

本发明在面对未见数据域时根据未见数据域信息快速生成自适应参数，动态地更新主干网络模型参数，实现面对未见数据域时的参数自进化，从而实现可泛化的目标细粒度识别。

附图说明

图1为本发明参数自进化模块框架结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

为了解决目标细粒度任务中数据域变化对模型性能的负面影响，更好地提取领域表征，本发明提出了一种基于参数自进化策略的可泛化目标细粒度识别方法，其结构如图1所示。

1、参数自进化模块

本发明将超网络动态卷积与自注意力编码集成，从而克服静态参数模型的缺点，通过自注意力编码为超网络动态卷积提供具有更丰富信息的控制信号，得到更拟合各个数据域和实例的模型参数，继而提取到更具代表性的表征，这就是本发明提出的参数自进化模块。

如图1所示，在参数自进化模块中，本发明将输入特征送入1×1尺寸的动态卷积来提取特征，其中动态卷积的参数根据自注意力编码融合后得到的特征生成。具体而言，首先将输入特征与来自网络其它部分的补充特征求和，得到用于参数预测的原始控制信号；之后将原始控制信号送入自注意力编码器，原始控制信号中包含的批次特征会被展开拉平，送入解码层，通过其内置的多头自注意力机制实现对批次内特征间的交互，再将特征恢复原始形状，得到处理后的交叉注意力信号；下一步将交叉注意力信号与原始控制信号求和，得到融合控制信号，这一步在本质上是一个残差求和机制，目的是在融合包含了领域信息的批次内信息时，保留单一实例的自有信息；之后将融合控制信号经下采样处理后送入参数预测解码器，得到自适应于当前数据域输入的动态卷积权重和偏置参数。在这样的设计思路下，动态卷积操作可以根据输入的领域级特征和实例级特征自适应地调整参数以抓取敏感内容，补偿因实例归一化等过去常用的操作而损失的表征信息，有效捕获有利于可泛化目标细粒度识别任务的表征信息。上述操作可以写为：

其中,F和F^OUT分别是动态转换实例归一化模块的输入特征和输出特征；Conv(·,θ)表示动态卷积，其中θ是卷积参数；φ^w(F^k)表示自适应参数预测器根据F^k产生包括权重和偏置量在内的自适应参数，F^c是进行卷积参数预测所采用的特征，它是由F^k变换而来的，其具体构成如第三行所示，avgPool表示空间平均池化操作；θ₁和θ₂表示全连接层FC的参数。

需要特别说明的是第三行公式，TransformerEncoder(·)表示自注意力编码器，具体构成如下式所示：

其中Q,K,V分别表示查询特征、键特征和值特征，均由输入自注意力编码器的特征经线性映射ξ(·，[θ₁,θ₂,θ₃])得到，其中[θ₁,θ₂,θ₃]分别表示用于生成Q,K,V的线性映射层参数，由模型训练学习得到。

本发明将上述参数自进化模块***到广泛使用的ResNet-50模型中，将其命名为参数自进化网络。需要说明的是，ResNet-50由四个主要阶段组成，每个阶段包含不同数量的残差块，为了避免引入过多的计算消耗，本发明只使用参数自进化模块替换第2-4阶段的最后一个残差块中的3×3卷积层，以细化在这些阶段的表征提取。

需要说明的是，相较于普通的超网络动态卷积，本发明并非直接将输入给动态卷积的特征用于参数预测，而是使用具有更丰富语义信息的融合控制信号作为参数预测解码的输入。为了向动态卷积提供更具自适应性的参数，一方面，本发明充分利用每一次输入模型的最小批次的数据信息，使用自注意力编码器让批次内特征发生交互，使得每一个输入参数预测解码器的信号均包含当前数据域信息，用于指导自适应参数的生成，实现更灵活的参数自进化；另一方面，本发明设计了一条特征补充通道，通道会将低级别特征聚合为补充特征，作为处理高级别特征时进行参数预测的语义补充，确保预测得到的自适应参数包含足够丰富的语义信息，从而为每个输入特征进行更合适的表征提取。

2、损失函数

就常见的可泛化问题而言，模型可以在训练阶段访问来自多个源数据域的数据，本发明在可泛化的目标细粒度任务中也采取了同样的设定。将这些可访问源数据域表示为其中S为可用源数据域的数量，/>表示第k个源数据域，其中第k个源数据域中的第i个标记样本，/>为该样本，/>为该样本的标记信息，即该样本对应的目标ID，N_k则表示第k个源数据域中的样本数。

本发明将各个源数据域视为一个独立任务，并为这些任务提供一个共享的特征提取器，换言之这是一个多任务式的训练过程。基于此，本发明对每个域创建一个目标ID分类器来执行目标ID分类。其中k与前文所述一致，表示数据域序号，第k个分类器/>的标签空间为第k个域中的所有目标ID，本发明对各样本经过目标ID分类器的结果与其标记信息应用交叉熵损失(Cross-entropy Loss)，对从第k个数据域随机采样的样本应用三元组损失(Triplet Loss)和控制损失。在上述损失的基础上，本发明的在可泛化目标细粒度识别任务上的总体目标为最小化每个数据域中损失的平均值，因此，总体损失函数可以表示为如下公式：

其中的i和k分别为样本图像序号和源数据域序号，N_k则表示第k个源域中的样本数，而和/>分别是随机抓取的/>的正样本和负样本；此外ψ表示特征提取模型，也即是本发明提出的基于参数自进化策略的模型，而L_c.e.和L_tri.分别表示交叉熵损失和三元组损失，L_ctl.代表控制损失，交叉熵损失和三元组损失遵循本领域通用实现形式，控制损失由本发明提出，可以显式地促进加入自进化参数模块的卷积层提取得到比未加入自进化参数模块的卷积层更好的特征，其具体形式如下公式：

具体实施例：

1、数据集选择

在数据集设定方面，本发明使用目标细粒度识别数据集来评估本发明的方法在可泛化目标细粒度识别任务中的识别能力。具体而言，本发明使用Market-1501、DukeMTMC-ReID、Cuhk02、Cuhk03、Cuhk-SYSU等五个数据集构建训练集。在上述五个数据集构建的数据集上完成模型训练后，本发明在VIPeR、PRID、GRID、QMUL i-LIDS等四个小型目标细粒度识别数据集上测试训练好的模型。

2、实施细节设定

就与训练而言，在进行正式训练前，本发明首先在ImageNet数据集上预训练提出的参数自进化网络。进行预训练操作是出于两方面考虑，首先ImageNet是适用于图像分类任务的、有海量标注数据的训练数据集集合，其庞大的数据量会为模型训练出更有效的参数提供巨大帮助；其次ImageNet包括上千种类别，是不仅限于目标细粒度识别的通用图像数据，与领域关联度不高，其通用性好，适用于各种任务。

就数据增强而言，在训练和测试阶段，本发明都预先将每个输入图像调整为256×128的尺寸，并在训练阶段赋予每张图像以0.5的水平翻转概率，从而强化训练数据多样性实现数据增强。另外，本发明还应用了随机擦除、填充等图像变换策略用于数据增强。

就超参数设定而言，由于模型已在ImageNet上进行预训练，只需要在正式训练阶段进行微调即可完成模型训练，因此本发明选用了较小的学习率，本发明将初始学习率设置为3.5×10-4，并在第40轮次和第90轮次分别缩小一个数量级，即除以10，避免学习率过大模型无法收敛。本发明根据经验将训练总轮次Epochs设置为120轮，保证模型充分收敛。另外，考虑到均衡服务器性能与模型收敛效果的需要，本发明将批样本数量batch size设置为64。

3、实施环境

本发明使用Sugon-W580-G20服务器和Linux Ubuntu 16.04.4LTS操作***实施中我们的发明，使用两张NVIDIA GeForce GTX 1080Ti图形处理器进行训练，使用NVIDIACUDA 10.2平台加速训练，在软件配置方面，我们使用Python 3.8.13(GCC 7.5.0)和PyTorch 1.6.0，以及Numpy 1.19.2、Fast-Reid 1.3、Pillow 9.0.1、Torchvision 0.7.0、cv2 4.5.5、CuDNN 7.6.5等依赖库。

4、模型应用

在这一阶段，本发明不对输入的数据进行数据增强操作，只将输入的数据采样到256*128的图像大小。同时，本发明固定模型参数，不再通过随机梯度下降算法进行网络参数更新，仅仅利用特征提取主干网络部分作为图像特征的提取器。

在应用过程中，本发明使用将部署了参数自进化模块的ResNet-50模型，即参数自进化网络的输出特征F。针对查询样例，经过模型特征推理后所得特征F_q，本发明将图像库中所有图像的特征提取出来之后储存为特征序列{F₁,…,F_m}，而后计算F_q和图像库中所有图像特征的欧氏距离：

d＝||F_q-F_i||₂,i＝1,2,3,…,m (9)

进而本发明得到距离序列D＝[d₁,d₂,…,d_m]，而后本发明通过距离D对进行排序，本发明取与查询样例最相近的L张图像，如果这些图像中存在与查询样例ID相同的图像则认为此次在L张图像范围内查询成功。

Claims

1.一种基于参数自进化策略的目标细粒度识别方法，其特征在于，包括如下步骤：

步骤3：损失函数；

将可访问源数据域表示为其中S为可用源数据域的数量，/>表示第k个源数据域，其中/>第k个源数据域中的第i个标记样本，/>为该样本，/>为该样本的标记信息，即该样本对应的目标ID，N_k则表示第k个源数据域中的样本数；

其中的i为源数据域序号，N_k则表示第k个源域中的样本数，和/>分别是随机抓取的的正样本和负样本；ψ表示特征提取模型，L_c.e.和L_tri.分别表示交叉熵损失和三元组损失；L_ctl.代表控制损失，控制损失具体形式如下公式：

其中f^k _l,分别代表在模型的第l个阶段由加入了参数自进化模块的卷积层对处理得到的特征，而/>则代表在相应卷积未加入参数自进化模块时处理得到的特征，m和γ均为超参数；

2.根据权利要求1所述的一种基于参数自进化策略的目标细粒度识别方法，其特征在于，所述参数自进化网络再进行正式训练之前先在ImageNet数据集上进行预训练。

3.根据权利要求1所述的一种基于参数自进化策略的目标细粒度识别方法，其特征在于，所述参数自进化模块使用Market-1501、DukeMTMC-ReID、Cuhk02、Cuhk03、Cuhk-SYSU五个数据集构建训练集。