CN116895002B

CN116895002B - 基于多重图对比学习的源自由域适应目标检测方法及***

Info

Publication number: CN116895002B
Application number: CN202311013132.3A
Authority: CN
Inventors: 宋然; 张�林; 张伟; 刘世奎; 张生刚
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2024-06-21
Anticipated expiration: 2043-08-11
Also published as: CN116895002A

Abstract

本发明属于目标检测技术领域，提供了基于多重图对比学习的源自由域适应目标检测方法及***，其技术方案为：基于有标记的源域数据集对源域模型进行训练，得到训练后的源域模型；在训练后的源域模型的基础上，基于无标记的目标域数据集和训练后的多重图对比学习模型进行目标检测，得到目标检测结果；该模型通过对齐层特定的节点嵌入来共同建模不同的层。具体而言，其通过图神经网络技术捕获节点信息，并通过将同一语义簇内的多重图上的节点在嵌入空间中拉近来捕获簇级信息。有效地将源域训练模型的知识提取到目标域中，可以有效地应用于不同的场景中。

Description

基于多重图对比学习的源自由域适应目标检测方法及***

技术领域

本发明属于目标检测技术领域，尤其涉及基于多重图对比学习的源自由域适应目标检测方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

传统的域适应方法(Unsupervised domain adaptation，UDA)旨在通过对齐源域和目标域之间的检测器模型的特征分布来最小化域差异。为了进行特征对齐，UDA方法需要同时访问标记的源数据和未标记的目标数据。然而，在实际应用场景中，由于隐私/安全、数据传输、数据专有等问题，访问源数据的权限通常受到限制。例如，考虑一个在大规模源数据上训练的检测模型，在使用具有不同视觉域的数据的新设备上表现不佳。在这种情况下，将源训练的检测器模型(约500-1000MB)传输进行适应比传输源数据(约10-100GB)到这些新设备要更有效。此外，仅传输源训练模型也可以缓解许多隐私/安全、数据专有问题。

因此，在没有访问源数据的情况下将源训练的模型适应到目标域对于检测模型的实际部署至关重要。出于此目的，研究适应目标检测器的无源域自适应设置(SFDA)。SFDA是比传统的域适应更具挑战性的设置。具体而言，在没有目标数据的标签的情况下，源数据在自适应期间也无法访问。因此，大多数用于目标检测的无源域自适应方法更具有广泛的应用场景。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于多重图对比学习的源自由域适应目标检测方法及***，其提出了一种多重图对比学习的源自由领域适应目标检测方法，其能够利用建模生成的RPN提议之间的实例间关系。具体而言，每个节点对应一个提议，边表示提议之间的相似关系。利用学习到的相似关系，可以提取有关哪些提议将形成正/负样本的信息，并用于指导网络的训练。基于此目的，提出了基于多重图的对比表示学习方法来增强目标数据的表示能力，从而提高目标域数据的表示能力。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一方面提供一种基于多重图对比学习的源自由域适应目标检测方法，包括：

获取有标记的源域和无标记的目标域数据集；

基于有标记的源域数据集对源域模型进行训练，得到训练后的源域模型；

在训练后的源域模型的基础上，基于无标记的目标域数据集和训练后的多重图对比学习模型进行目标检测，得到目标检测结果；

其中，所述多重图对比学习模型的训练过程包括：将图像表示为图结构，每个节点对应一个提议，边表示提议之间的相似关系；学生和教师网络共享图神经网络，通过图神经网络学习节点之间的相互作用来捕获图像提议在师生网络之间的关系，得到图结构表示；基于图结构表示，采用对比学习，以教师网络作为监督网络，引导学生网络的训练，从而将源域结构信息融合至目标域中。

本发明的第二方面提供一种基于多重图对比学习的源自由域适应目标检测***，包括：

数据获取模块，其用于获取有标记的源域和无标记的目标域数据集；

源域模型训练模块，其用于基于有标记的源域数据集对源域模型进行训练，得到训练后的源域模型；

目标检测模块，其用于在训练后的源域模型的基础上，基于无标记的目标域数据集和训练后的多重图对比学习模型进行目标检测，得到目标检测结果；

本发明的第三方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的基于多重图对比学习的源自由域适应目标检测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的基于多重图对比学习的源自由域适应目标检测方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明能够利用建模生成的区域提议网络之间的实例间关系。每个节点对应一个提议，边表示提议之间的相似关系，利用学习到的相似关系，可以提取有关哪些提议将形成正/负样本的信息，并用于指导网络的训练，基于多重图的对比表示学习方法来增强目标数据的表示能力，从而提高目标域数据的表示能力。

2、本发明在不同的数据集上都具有很好的适应性和泛化能力，增强模型的鲁棒性，增强算法在实际应用中的适应性，可以有效地应用于不同的场景中。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例提供的基于多重图对比学习的源自由域适应目标检测方法的流程示意图；

图2是本发明实施例提供的多重图对比学习。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种基于多重图对比学习的源自由域适应目标检测方法，包括如下步骤：

步骤1：获取有标记的源域和无标记的目标域数据集；

域适应考虑了有标记的源域和无标记的目标域数据集进行自适应。

本实施例中，将有标记的源域数据集表示为其中/>表示第n个源图像，/>表示相应的真实标签；

将无标记的目标域数据集表示为其中/>表示第n个目标图像，没有真实标签注释。

步骤2：基于有标记的源域数据集对源域模型进行训练，得到训练后的源域模型；

相比之下，源域自由的域适应(SFDA)设置考虑了更实际的情况，即在自适应期间，只有训练后的源域模型θ和无标记的目标数据集D_t可用，而无法访问源数据集。

自训练自适应策略使用源训练模型生成的伪标签在无标记的目标数据上更新模型。伪标签通过置信度阈值进行过滤，可靠的伪标签用于监督检测器训练。

一般来说，伪标签监督损失为：

其中是伪标签。/>

知识蒸馏模型的搭建

知识蒸馏是一种将一个复杂模型的知识传递给一个简单模型的技术，以提高简单模型的性能。

首先进行教师模型的源域预训练，源域数据的网络预训练是指在目标域数据到来之前，使用大量源域数据对深度神经网络进行预训练的过程，获得教师网络其主要目的是提高模型的泛化能力和减少过拟合现象的发生。其次，将教师模型网络初始化为学生模型/>该模型将从教师模型中学习知识。

步骤3：在训练后的源域模型的基础上，基于无标记的目标域数据集和训练后的多重图对比学习模型进行目标检测，得到目标检测结果；

在基于源域模型θ的基础上，利用一种基于多重图对比学习模型，有效地将源域训练模型的知识提取到目标域中。

该模型通过对齐层节点嵌入来共同建模节点之间的结构关系。具体而言，其通过图神经网络技术捕获节点信息，并通过将同一语义簇内的多重图上的节点在嵌入空间中拉近来捕获簇级信息。

具体包括如下步骤：

步骤301：多重图的构建

为了适应复杂的场景和多类别的目标检测和实例之间的关系，在源域自由的目标检测中，首先将图像表示为一个图结构，其中物体作为节点，它们之间的关系(如相邻、包含等)作为边。

图神经网络结构关系可以通过学习节点之间的相互作用来捕捉这些关系，从而提高目标检测的准确性和鲁棒性。

具体的构造过程为提出多重图结构关系网络，利用GCN学习检测图像RPN提议在师生模型之间的关系，得到图结构表示为G(V,E)，其中V是图网络的节点，E是节点之间的边。V中的节点对应于从RPN提议中提取的RoI特征，e_ij(i,j∈E)编码第i个和第j个提议之间的关系。

学生和教师网络共享图神经网络，用于建模物体提议之间的关系节点。然后，通过学习关系矩阵E，以找到RPN提议之间的关系，将源域的结构信息融合到目标域里。

具体地，将一个批量的图片分别进行强弱增广，得到第一增广数据和第二增广数据/>将第一增广数据/>输入到教师模型/>得到RoI特征/>将输入到学生模型/>得到对应的ROI特征/>在多重图里，将提取的特征和/>作为多重图的节点。

在基于上述特征的基础上，通过可学习的函数分别构建的教师和学生网络的图上的边E，

其中S_ij＝f(v_i)·g(v_j)^T，其中f和g是可学习的函数。

经过图神经的信息传递，

Zⁱ＝ReLU(EⁱHⁱW) i＝s,t

得到两个图结构的输出特征为和/>

基于上述构建的基础上，将教师的分类权重质心作为节点的语义簇，其中是簇中心，K和d分别是簇的数量和嵌入空间的维度。捕捉簇级别的语义信息，通过将同一簇内的节点拉近到其分配的簇中心来减少语义误差。

通过对比学习定义属于簇k的概率为：

的含义是c_k的转置，/>的含义是是第i个样本的特征，/>的含义是第j个样本的特征。

步骤302：多重图对比学习的构建

在基于上述知识蒸馏多重图的基础上，分别得到学习网络的输出，基于对比学习教师网络第i个样本的分布和学生网络第i个样本的分布/>其计算方式由公式(1)得到。

为了进一步提高关系，本实施例引入知识蒸馏优化函数，以教师网络作为监督网络，引导学生模型的训练，使得网络之间相互指导学习,不仅采用网络输出的类分布之间的差异，还设计了网络中间特征的图结构关系，提高网络之间的关联。

定义基于多重图对比学习损失函数为：

为了进一步提高源域和目标域的关联，采用图对比蒸馏学习函数来比较源模型和目标模型的函数，进行知识蒸馏学习，让其学习源模型的知识，从而提高两个域之间的关联的方法，如图2所示。

综上所述，训练的目标函数为：

L_all＝L_SL+L₁+L₂

本发明的方法不仅在基准数据集上取得了很好的效果，还在其他多个数据集上进行了验证，例如在PASCAL VOC、Clipart和Watercolor数据集上，该方法的平均精度(mAP)分别提高了3.5、3.2和3.6个百分点。这表明该方法在不同的数据集上都具有很好的适应性和泛化能力，可以有效地应用于不同的场景中，从而提高了模型的实用性和应用价值。

此外，本发明提出的方法还可以应用于具有挑战性的场景，例如在不同的天气条件下进行目标检测。实验结果表明，在雨天和雾天等恶劣天气条件下，该方法可以有效地减少目标检测的误报率和漏报率，从而提高了模型的鲁棒性和可靠性。这表明该方法具有很强的适应性和泛化能力，可以在多种具有挑战性的场景中进行目标检测，例如缺陷检测、异常检测等，从而更好地满足实际应用需求。

实施例二

本发明提供一种基于多重图对比学习的源自由域适应目标检测***，包括：

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于多重图对比学习的源自由域适应目标检测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于多重图对比学习的源自由域适应目标检测中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多重图对比学习的源自由域适应目标检测方法，其特征在于，包括：

获取有标记的源域和无标记的目标域数据集；

通过对齐层节点嵌入来共同建模节点之间的结构关系；具体为，通过图神经网络技术捕获节点信息，并通过将同一语义簇内的多重图上的节点在嵌入空间中拉近来捕获簇级信息；

其中，所述多重图对比学习模型的训练过程包括：将图像表示为图结构，每个节点对应一个提议，边表示提议之间的相似关系；学生和教师网络共享图神经网络，通过图神经网络学习节点之间的相互作用来捕获图像提议在师生网络之间的关系，得到图结构表示；具体包括：

将批量的图片分别进行强弱增广，得到第一增广数据和第二增广数据；

将第一增广数据输入到教师模型，得到对应的第一ROI特征；

将第二增广数据输入到学生模型，得到对应的第二ROI特征；

将得到的第一ROI特征和第二ROI特征作为多重图的节点；

通过可学习的函数分别构建的教师和学生网络的图上的边；

基于多重图的节点和图上的边，经过图神经的信息传递，得到对应图结构的输出特征；

基于图结构表示，采用对比学习，以教师网络作为监督网络，引导学生网络的训练，从而将源域结构信息融合至目标域中；

得到多重图的节点信息后，将教师网络的分类权重质心作为节点的语义簇，其中/>是簇中心，K和d分别是簇的数量和嵌入空间的维度，捕捉簇级别的语义信息，通过将同一簇内的节点拉近到它们分配的簇中心来减少语义误差；

通过对比学习定义属于簇k的概率为：

的含义是/>的转置，/>的含义是第i个样本的特征/>的含义是第j个样本的特征；

通过对比学习定义输出特征属于簇的概率，基于概率得到对比学习教师网络样本的分布和学生网络样本的分布；

定义基于多重图对比学习损失函数为

；

其中，为教师网络第/>个样本的分布，/>为学生网络第/>个样本的分布；

采用图对比蒸馏学习函数比较源域模型和目标域模型的函数，进行知识蒸馏学习，学习源域模型的知识，从而提高源域和目标域之间的关联：

；

一般伪标签监督损失为：

；

其中，表示第n个目标图像，没有真实标签注释；/>是伪标签；

训练的目标函数为：

。

2.如权利要求1所述的基于多重图对比学习的源自由域适应目标检测方法，其特征在于，使用源训练模型生成的伪标签在无标记的目标数据上更新模型，伪标签通过置信度阈值进行过滤获得。

3.如权利要求1所述的基于多重图对比学习的源自由域适应目标检测方法，其特征在于，基于有标记的源域数据集对源域模型进行训练，包括进行教师模型的源域预训练，获得教师网络，之后将教师网络初始化为学生网络。

4.如权利要求1所述的基于多重图对比学习的源自由域适应目标检测方法，其特征在于，所述图结构表示为，其中/>是图网络的节点，/>是节点之间的边，/>中的节点对应于从RPN提议中提取的RoI特征，/>编码第/>个和第/>个提议之间的关系且/>。

5.如权利要求1所述的基于多重图对比学习的源自由域适应目标检测方法，其特征在于，通过引入知识蒸馏优化函数，以教师网络作为监督网络，引导学生网络的训练，使得网络之间相互指导学习，不仅采用网络输出的类分布之间的差异，还设计了网络中间特征的图结构关系,以提高网络之间的关联。

6.一种基于多重图对比学习的源自由域适应目标检测***，采用如权利要求1所述的基于多重图对比学习的源自由域适应目标检测方法，其特征在于，包括：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的基于多重图对比学习的源自由域适应目标检测方法中的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于多重图对比学习的源自由域适应目标检测方法中的步骤。