CN114626461A

CN114626461A - 基于领域自适应的跨域目标检测方法

Info

Publication number: CN114626461A
Application number: CN202210258271.1A
Authority: CN
Inventors: 刘龙; 黄珂卿; 陈万军
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-06-14

Abstract

本发明公开一种基于领域自适应的跨域目标检测方法，包括：步骤1，获取包括源域Ds和目标域D_T的目标检测数据集，进行数据增强和数据集扩充；步骤2，采用扩充后的数据集对CycleGAN网络进行训练并输出生成数据域D_G；步骤3，构建Faster RCNN网络作为目标检测器，将源域Ds和生成数据域D_G作为训练集对目标检测器进行训练；步骤4，对目标域D_T的数据集进行复杂度评估对目标检测器进行再训练；步骤5，采用步骤4训练好的目标检测器对待检测数据进行目标检测，最终得到检测结果。本发明解决了当拥有具有实例级标签的源域，而目标域中不具备实例级标签时，在目标检测中对深度模型性能的影响，以及导致训练后实例类别和边界框位置预测准确率低下的问题。

Description

基于领域自适应的跨域目标检测方法

技术领域

本发明属于迁移学习技术领域，涉及一种基于领域自适应的跨域目标检测方法。

背景技术

在计算机视觉领域中，目标检测技术一直是目前的重要课题和研究方向，目标检测的工作就是要在静态图像或连续帧的视频图像序列中对所出现的部分目标进行检测和识别，确定目标位置并判断对象类别。目标检测在近几年受到学术界了广泛关注和研究，并且随着技术的不断突破而在现实世界中得到了广泛的应用，如视频监控、人机交互、智能交通、自主导航和机器人视觉等方面。随着深度神经网络的兴起和GPU强大的算力使得目标检测继续蓬勃发展。

目前，深度学习模型已广泛应用于计算机视觉的各个领域，其中便包括目标检测。现有的目标检测算法利用深度学习网络作为其骨干和检测网络，分别从输入图像(或视频)中提取特征，进行分类和定位。目前的目标检测算法大体上可以分为two-stage和one-stage方法，其中two-stage方法首先在输入图像上提出目标候选边界框，然后通过ROI在目标候选框上里提取特征，用于后续的目标分类和边界框回归任务，具有比较高的目标识别和定位精度，但算法的推理速度较慢，相反one-stage方法，直接从输入图像中提取出预测框，具有较高的推理速度，但目标识别精度与two-stage方法相比较低。

虽然现有的大多数目标检测算法在自然图像上都能够取得比较高的识别准确率，但这些算法的前提是都需要有大规模的已标注数据对网络进行训练，而在实际生活中，在其他图像领域并不一定能够获得大规模的已标注数据，因为在许多图像域中构建具有实例级标签的大型数据集通常是很困难并且不切实际的，其中存在诸如图像来源匮乏、版权问题和标注成本等诸多困难。所以现有的目标检测算法就具有一定的局限性，以此我们考虑使用迁移学习中的领域自适应方法，将在具有实例级标签的源域数据上训练好的模型应用于只有样本级标签的目标域，并能够得到较高的目标识别准确率。实例级标签由标签(即实例的对象类)和边界框(即实例的位置)组成，样本级标签仅知道图像中实例类别而不知道实例位置。

发明内容

本发明的目的是提供一种基于领域自适应的跨域目标检测方法，解决了当拥有具有实例级标签的源域，而目标域中不具备实例级标签时，在目标检测中对深度模型性能的影响，以及导致训练后实例类别和边界框位置预测准确率低下的问题。

本发明所采用的技术方案是：

基于领域自适应的跨域目标检测方法，具体步骤包括：

步骤1，获取包括源域Ds和目标域D_T的目标检测数据集，进行数据增强和数据集扩充；

步骤2，构建CycleGAN网络，采用扩充后的数据集对CycleGAN网络进行训练并输出生成数据域D_G；

步骤3，构建Faster RCNN网络作为目标检测器，采用源域Ds和生成数据域D_G作为训练集对目标检测器进行训练；

步骤4，对目标域D_T的数据集进行复杂度评估划分为不同等级的数据，根据复杂度评估的结果，对目标检测器进行再训练；

步骤5，采用步骤4训练好的目标检测器对待检测数据进行目标检测，最终得到检测结果。

本发明的特点还在于：

步骤2中CycleGAN网络结构由两个相同结构的生成器和两个相同结构的判别器构成，生成器结构为依次连接的三层卷积层、六层ResNet模块、两层反卷积层和一层卷积层，每个卷积层后接一种非线性激活函数，判别器结构为依次连接的五层卷积层和一层全连接层，卷积层后接一种非线性激活函数，全连接层后接Softmax函数。

步骤2对CycleGAN网络的训练过程为：

步骤2.1、从源域Ds中抽取一个子集X，并从目标域D_T中也抽取一个子集Y,以X为例，将X输入给CycleGAN网络的第一个判别器D_X；

步骤2.2、由步骤2.1将X输入给判别器D_X后，给生成器G_X输入随机高斯白噪声，生成器生成图像后，将其再输入给判别器D_X，判别器D_X对输入图像进行判断，若输入图像为生成图像，判别器D_X输出为0，若输入图像为真实图像判别器D_X输出为1；

步骤2.3、同理对Y也进行同样的操作，将Y输入给判别器D_Y，给生成器G_Y输入随机高斯白噪声，生成器生成图像后再输入判别器D_Y，判别器D_Y对输入图像进行判断，若输入图像为生成图像，判别器D_Y输出为0，若输入图像为真实图像判别器D_Y输出为1。

CycleGAN网络包括对实现映射F:Y→X时的损失函数L_G(G,D_Y)、表示实现映射G：X→Y时的损失函数L_G(F,D_X)、循环一致性损失函数L_C(G,F)如公式(1)～(3)：

其中L_G(G,D_Y)表示实现映射F:Y→X时的损失函数，其中

表示真实样本y通过判别器D_Y的损失函数，其中

表示生成样本G(x)通过判别器D_Y的损失函数，D_Y(y)表示真实样本y通过判别器D_Y的得分，D_Y(G(x))表示生成样本G(x)通过判别器D_Y的得分；

其中L_G(F,D_X)表示实现映射G：X→Y时的损失函数，其中

表示真实样本x通过判别器D_X的损失函数，其中

表示生成样本F(y)通过判别器D_X的损失函数，D_X(x)表示真实样本x通过判别器D_X的得分，D_X(F(y))表示生成样本F(y)通过判别器D_X的得分；

循环一致性损失为：

其中L_C(G,F)表示在对齐生成样本和真实样本的分布时所产生的损失，F(G(x))-x表示生成样本G(x)和真实样本x之间的损失值，G(F(y))-y表示生成样本F(y)和真实样本y之间的损失值，||·||₁为向量的L1范数；

则最终的优化函数为：

L(G,F,D_X,D_Y)＝L_G(G,D_Y,X,Y)+L_G(F,D_X,Y,X)+L_C(G,F) (4)。

步骤3中的Faster RCNN网络结构包括依次连接VGG16特征提取网络F(·)和RPN网络，VGG16特征提取网络F(·)包括的两个卷积层、一个RELU激活函数、一个最大池化层、两个卷积层、一个最大池化层、三个卷积层、一个RELU激活函数、一个最池化层、两个卷积层、一个RELU激活函数、一个最池化层；输入图像经VGG16特征提取网络F(·)得到特征图再经过RPN网络，首先经过512个3×3的卷积后，分为两条支路，第一条支路使用18个1×1的卷积后，实现对图像中前景或背景的分类，第二条支路使用36个1×1的卷积后，实现对所检测图像的边界框回归。

步骤3中目标检测器的训练过程为：

步骤3.1、将源域Ds的样本

以及生成数据域D_G中与目标域相似的样本

混合并使用VGG16网络作为特征提取器F(·)提取出高维特征向量F(D_S)，F(D_T)；

步骤3.2将高维特征向量F(D_S)，F(D_T)输入给后续全连接网络、ReLU非线性激活函数和全连接网络中，得到保存足够特征信息的特征图S、将特征图S经过3*3的卷积处理后，得到一个高维特征向量；

步骤3.3、再经过两次1*1卷积操作，得到两个特征图，根据这两个特征图的输出分数，可获得候选区域R，再对特征图S和候选区域R进行感兴趣区域池化P(·)得到每个感兴趣区域的特征向量P(S,R)，将特征向量P(S,R)输入分类器层得到感兴趣区域的类别和边界框，迭代完成目标检测器的训练。

步骤3中目标检测器的损失函数为分类损失和回归损失的和，如下所示：

其中

为小批量中锚点的索引，p_i是锚点

作为目标的预测概率，

为真值，当anchor为正时，

为1，当anchor为负时，

为0，t_i是预测边界框的四个参数化坐标的向量，

是与正锚框相关联的真实框的坐标，L_C是两个类别的分类损失，L_r是边界框回归的损失，{p_i},{t_i}分别表示分类层和回归层的输出。

步骤4具体的为：

步骤4.1、对目标域D_T验证集进行复杂度评估，首先使用预训练的VGG网络，移除其最后一层作为特征提取器，进行样本的特征提取，同时对所输入的图像进行数据增强，最后将所输出的高维特征向量使用L2范数进行归一化，然后使用归一化的特征来训练岭回归分类器，使模型能够预测到ground-truth难度的分数；

步骤4.2、根据评估结果将目标域D_T验证集样本按难度进行划分，按照难度将样本划分为k个批次，样本难度评估公式如下所示：

其中I为输入图像，B为边界框坐标，w_i、h_i为边界框坐标中的宽度和高度，n为样本数目；

步骤4.3，在对验证集样本进行复杂度评估后，根据复杂度评估结果可将样本分为简单、中等和困难，随后先将容易的样本输入给目标检测器，得到目标检测器对于目标域D_T样本的预测结果，随后将预测结果作为简单样本的伪标签，再次训练目标检测器，然后再将中等难度样本输入给目标检测器，执行与简单样本相同的操作，最后将困难样本输入目标检测器，同样执行与简单样本相同的操作，以此完成对验证集数据的迭代，完成目标检测器的最终训练。

本发明的有益效果是：

本发明提出了一种基于领域自适应的目标检测方法，在保证全局领域分布的基础上，同时并不改变源域与目标域中数据之间的区别信息。经过领域对抗损失、循环一致性损失和目标检测器回归损失训练以后，通过将目标域验证集数据按照从易到难的顺序进行排序，按照这个顺序输入给目标检测器进行预测，以此给目标域验证集样本打上伪标签，然后使用已有伪标签的验证集样本再对目标检测器进行训练，循环迭代对目标检测器完成最终训练，使其能够在目标域测试集中展现出更好的分类和预测性能。

附图说明

图1是本发明基于领域自适应的目标检测方法的网络结构图；

图2是本发明步骤2的CycleGAN网络的网络结构示意图；

图3是本发明步骤3的Faster RCNN的网络结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于领域自适应的跨域目标检测方法，具体步骤包括：

步骤1具体为：源域数据集Ds服从某种分布P_s(x)，类别标签为L_s，即

目标域数据集D_T服从分布P_T(x)，类别标签为L_T，即

将源域、目标域数据集分批次输入到随机数据增广网络中，随机数据增广网络对原始的源域以及目标域数据集样本旋转、裁剪和加入高斯白噪声变换后恢复至原始输入大小，形成新的样本加入至原始数据集中，从而实现数据集扩充的目的；

其中步骤2中CycleGAN网络结构由两个相同结构的生成器和两个相同结构的判别器构成，其中生成器结构为依次连接的三层卷积层、六层ResNet模块、两层反卷积层和一层卷积层，每个卷积层后接一种非线性激活函数，判别器结构为依次连接的五层卷积层和一层全连接层，卷积层后接一种非线性激活函数，全连接层后接Softmax函数。

其中步骤2中对CycleGAN网络的训练过程为：

步骤2.3、同理对Y也进行同样的操作，将Y输入给判别器D_Y，给生成器G_Y输入随机高斯白噪声，生成器生成图像后再输入判别器D_Y，判别器D_Y对输入图像进行判断，若输入图像为生成图像，判别器D_Y输出为0，若输入图像为真实图像判别器D_Y输出为1；

步骤2中整个网络训练过程中的主要目标为实现两种映射函数：

G：X→Y、F:Y→X

使得生成的图像与目标域图像相似,其对抗性损失函数为：

其中L_G(G,D_Y)表示实现映射F:Y→X时的损失函数，其中

表示真实样本y通过判别器D_Y的损失函数，其中

表示生成样本G(x)通过判别器D_Y的损失函数，D_Y(y)表示真实样本y通过判别器D_Y的得分，D_Y(G(x))表示生成样本G(x)通过判别器D_Y的得分。

其中L_G(F,D_X)表示实现映射G：X→Y时的损失函数，其中

表示真实样本x通过判别器D_X的损失函数，其中

表示生成样本F(y)通过判别器D_X的损失函数，D_X(x)表示真实样本x通过判别器D_X的得分，D_X(F(y))表示生成样本F(y)通过判别器D_X的得分。

此外进一步进行优化，其循环一致性损失为

故最终的优化函数为：

L(G,F,D_X,D_Y)＝L_G(G,D_Y,X,Y)+L_G(F,D_X,Y,X)+L_C(G,F) (4)

步骤3中的Faster RCNN网络结构包括VGG16特征提取网络F(·)和RPN网络。

VGG16网络结构由13个卷积层和3个全连接层组成，因为将其作为特征提取网络，故去掉全连接层。输入图像首先经过64个3×3的卷积核的卷积两次后，接ReLU激活函数，经过一次卷积核为2×2最大池化，然后经过128个3×3的卷积核卷积两次后，接ReLU激活函数，再经过一次卷积核为2×2最大池化，在经过256个3×3的卷积核卷积三次后，接ReLU激活函数，再经过一次卷积核为2×2最大池化，再重复两次使用512个3×3的卷积核卷积后，接ReLU激活函数，再经过一次卷积核为2×2最大池化，即可得特征图。

RPN网络的输入为经过VGG16后得到的特征图，首先经过512个3×3的卷积后，分为两条支路，第一条支路使用18个1×1的卷积后，实现对图像中前景或背景的分类，第二条支路使用36个1×1的卷积后，实现对所检测图像的边界框回归。

步骤3中目标检测器的训练过程为：

步骤3.1、将源域Ds的样本

以及生成数据域D_G中与目标域相似的样本

其中

为小批量中锚点的索引，p_i是锚点

作为目标的预测概率，

为真值，当anchor为正时，

为1，当anchor为负时，

为0，t_i是预测边界框的四个参数化坐标的向量，

其中步骤4具体的包括：

其中I为输入图像，B为边界框坐标，w_i、h_i为边界框坐标中的宽度和高度，n为样本数目。

Claims

1.基于领域自适应的跨域目标检测方法，其特征在于，具体步骤包括：

步骤2，构建CycleGAN网络，将扩充后的数据集对CycleGAN网络进行训练并输出生成数据域D_G；

步骤3，构建Faster RCNN网络作为目标检测器，将源域Ds和生成数据域D_G作为训练集对目标检测器进行训练；

2.如权利要求1所述的基于领域自适应的跨域目标检测方法，其特征在于，步骤2中所述CycleGAN网络结构由两个相同结构的生成器和两个相同结构的判别器构成，生成器结构为依次连接的三层卷积层、六层ResNet模块、两层反卷积层和一层卷积层，每个卷积层后接一种非线性激活函数，判别器结构为依次连接的五层卷积层和一层全连接层，卷积层后接一种非线性激活函数，全连接层后接Softmax函数。

3.如权利要求2所述的基于领域自适应的跨域目标检测方法，其特征在于，步骤2对所述CycleGAN网络的训练过程为：

4.如权利要求2所述的基于领域自适应的跨域目标检测方法，其特征在于，所述CycleGAN网络包括对实现映射F:Y→X时的损失函数L_G(G,D_Y)、表示实现映射G：X→Y时的损失函数L_G(F,D_X)、循环一致性损失函数L_C(G,F)如公式(1)～(3)：

其中L_G(G,D_Y)表示实现映射F:Y→X时的损失函数，其中

表示真实样本y通过判别器D_Y的损失函数，其中

其中L_G(F,D_X)表示实现映射G：X→Y时的损失函数，其中

表示真实样本x通过判别器D_X的损失函数，其中

循环一致性损失为：

则最终的优化函数为：

L(G,F,D_X,D_Y)＝L_G(G,D_Y,X,Y)+L_G(F,D_X,Y,X)+L_C(G,F) (4)。

5.如权利要求1所述的基于领域自适应的跨域目标检测方法，其特征在于，步骤3中的Faster RCNN网络结构包括依次连接VGG16特征提取网络F(·)和RPN网络，所述VGG16特征提取网络F(·)包括的两个卷积层、一个RELU激活函数、一个最大池化层、两个卷积层、一个最大池化层、三个卷积层、一个RELU激活函数、一个最池化层、两个卷积层、一个RELU激活函数、一个最池化层；输入图像经VGG16特征提取网络F(·)得到特征图再经过RPN网络，首先经过512个3×3的卷积后，分为两条支路，第一条支路使用18个1×1的卷积后，实现对图像中前景或背景的分类，第二条支路使用36个1×1的卷积后，实现对所检测图像的边界框回归。

6.如权利要求5所述的基于领域自适应的跨域目标检测方法，其特征在于，步骤3中目标检测器的训练过程为：

步骤3.1、将源域Ds的样本

以及生成数据域D_G中与目标域相似的样本

步骤3.3、再经过两次1*1卷积操作，得到两个特征图，根据这两个特征图的输出分数，获得候选区域R，再对特征图S和候选区域R进行感兴趣区域池化P(·)得到每个感兴趣区域的特征向量P(S,R)，将特征向量P(S,R)输入分类器层得到感兴趣区域的类别和边界框，迭代完成目标检测器的训练。

7.如权利要求5所述的基于领域自适应的跨域目标检测方法，其特征在于，步骤3中目标检测器的损失函数为分类损失和回归损失的和，如下所示：

其中

为小批量中锚点的索引，p_i是锚点

作为目标的预测概率，

为真值，当anchor为正时，

为1，当anchor为负时，

为0，t_i是预测边界框的四个参数化坐标的向量，

8.如权利要求1所述的基于领域自适应的跨域目标检测方法，其特征在于，所述步骤4具体的为：

步骤4.3，在对验证集样本进行复杂度评估后，根据复杂度评估结果将样本分为简单、中等和困难，随后先将容易的样本输入给目标检测器，得到目标检测器对于目标域D_T样本的预测结果，随后将预测结果作为简单样本的伪标签，再次训练目标检测器，然后再将中等难度样本输入给目标检测器，执行与简单样本相同的操作，最后将困难样本输入目标检测器，同样执行与简单样本相同的操作，以此完成对验证集数据的迭代，完成目标检测器的最终训练。