CN114170532A

CN114170532A - 一种基于困难样本迁移学习的多目标分类方法和装置

Info

Publication number: CN114170532A
Application number: CN202111397601.7A
Authority: CN
Inventors: 郑智辉; 徐振涛; 丛龙剑; 周帅军; 栾健; 张志良; 唐波; 李全运; 郭海雷
Original assignee: Beijing Aerospace Automatic Control Research Institute
Current assignee: Beijing Aerospace Automatic Control Research Institute
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-11

Abstract

本发明涉及一种基于困难样本迁移学习的多目标分类方法和装置，属于图像处理技术领域，解决如何利用丰富的自然图像数据获取每个目标的运行轨迹的问题。该方法包括：获取数据集并将数据集划分为训练集和测试集；构建困难样本迁移学习的目标检测网络包括构建并按照以下顺序连接的改进特征提取网络、粗检测网络和精检测网络；利用训练集对目标检测网络进行异源图像迁移学习以生成目标检测模型，通过增大IOU值提高检测精度；将测试集中的待检测的可见光图像和红外图像输入目标检测模型以获得多个目标检测结果；根据多个目标检测结果对测试集进行分类并存储为多个目标检测子集以获取目标的跟踪轨迹。通过增大IOU值提高目标检测精度并获取目标的跟踪轨迹。

Description

一种基于困难样本迁移学习的多目标分类方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于困难样本迁移学习的多目标分类方法和装置。

背景技术

无人机利用信息的感知能力在复杂地海背景中准确识别目标(车辆、舰船、低飞飞机等)具有广泛的使用价值。

困难样本出现的原因往往是由于样本数量太少，样本不平衡带来的困难样本导致模型学习时此样本带来的梯度更新被大量简单样本覆盖，降低了困难样本的识别概率。异源图像迁移自动目标识别技术在敌我识别、海情监控、远距离空对地侦察与监视、精确制导以及作战管理等方面所发挥的重要作用，是发展未来智能化武器***的重点和应首先突破的关键技术。迁移学习是把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的，所以通过迁移学习，可以将已经学到的模型参数通过某种方式来分享给新模型从而加快并优化模型的学习效率。

困难样本目标检测方法对于困难样本，主要有以下几个方法可以：

数据增强。数据增强在一定程度上增加了样本的多样性，使得模型对目标的检测更加鲁棒。可以通过数据增强的方法，增加困难样本的多样性，从而使得困难样本的学习变得相对容易。

改进损失函数。对于困难样本的学习，常使用Focal Loss来处理困难样本。FocalLoss的原理是在样本损失上加个权重。对于简单样本，由于其比较容易检测，所以权重对应较低。而对于困难样本，因为不容易检测，所以损失的权重比较高。这样困难样本的损失在总体的损失上占比会增加，从而帮助学习可以往困难样本处偏移。

为适应战场多变的环境以及敌方目标难以捕捉的打击，提前侦查到可能带来的威胁是非常必要的，尤其是在夜间以及运动目标的检测是比较困难的，开展红外图像的目标检测有天然的优势，然而现有的红外数据非常少，一般的机器学习算法难以得到较好结果，同时图像的标注成本也很高。在红外图像数据来源相对匮乏的情况下，仅仅利用微量红外图像从头开始训练或进行微调，网络非常容易过拟合。

对于红外图像来说，由于缺少足够的训练样本，网络很难有较强的泛化能力，相比之下，自然图像易于获取并且已有很多公开的数据集可以使用。因此，在多个目标跟踪过程中，如何利用数据丰富的自然图像数据获取每个目标的运行轨迹是亟需解决的问题。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于困难样本迁移学习的多目标分类方法和装置，用以解决如何利用数据丰富的自然图像数据获取每个目标的运行轨迹的问题。

一方面，本发明实施例提供了一种基于困难样本迁移学习的多目标分类方法，包括：获取数据集并将所述数据集划分为训练集和测试集，其中，所述数据集包括可见光数据集和与所述可见光数据集相对应的红外数据集；构建困难样本迁移学习的目标检测网络，其中，构建所述目标检测网络包括构建并按照以下顺序连接的改进特征提取网络、粗检测网络和精检测网络；利用所述训练集对所述目标检测网络进行异源图像迁移学习以生成目标检测模型，其中，通过增大IOU值提高检测精度，所述IOU值为由所述粗检测网络生成的候选目标框和由所述精检测网络生成的检测目标框的交集与所述候选目标框和所述检测目标框的并集之间的比值；将所述测试集中的待检测的可见光图像和红外图像输入所述目标检测模型，以获得多个目标检测结果；以及根据所述多个目标检测结果对所述测试集进行分类并存储为多个目标检测子集，其中，每个目标检测子集用于获取每个目标的跟踪轨迹。

上述技术方案的有益效果如下：在根据本发明实施例的基于困难样本迁移学习的多目标分类方法中，通过增大IOU值提高目标检测精度，而且通过目标检测模型获得多个目标检测结果；根据多个目标检测结果能够对测试集中的大量图片进行自动分类而不需要对大量图片进行人工分类并根据目标分类将生成检测目标框的图片分别存储在对应的目标检测子集中，以能够根据每个目标检测子集能够获取每个目标的跟踪轨迹。

基于上述方法的进一步改进，在ResNet50网络中引入域注意力模块和路径聚合网络模块以构成改进特征提取网络包括在ResNet50网络中引入域注意力模块和在ResNet50网络中引入路径聚合网络模块，其中，在ResNet50网络中引入域注意力模块进一步包括：将输入特征图通过全局平均池化模块获得池化向量；通过多个全连接层、激活层和全连接层的方式获得N个权重，其中，每个权重代表与输入图像相关的成分；将所述N个权重进行拼接以获得拼接之后的权重；将所述输入特征图再次通过域分配比例模块获得不同输入图像的不同成分的比例；以及通过获得的成分以及成分的比例对所述输入特征图进行加权以获得输出特征图。

基于上述方法的进一步改进，在ResNet50网络中引入路径聚合网络模块进一步包括：通过先自顶向下将高层的语义信息融合到低层的特征图中，再自底向上将低层的细节信息融合到高层的特征图中的方式，将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合，以在不同尺度上预测不同大小的目标。

上述技术方案的有益效果如下：网络W中特征提取部分对于红外图像域和可见光图像域是共享的。不同域之间通过域注意力SENet来激活不同的数据域，并利用注意力机制确定它们的响应，来使得适配器能够匹配到各个不同数据域，即网络在不同域场景下获得不同的激活值，使用域注意力机制对其进行加权，使得网络偏向权重更大的场景，以此确定当前数据所属域。路径聚合网络模块可以将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合以在多尺度上预测不同大小的目标，防止由于卷积操作导致小目标在深层次的时候被周围的特征同化。

基于上述方法的进一步改进，构建所述粗检测网络进一步包括：构建两个粗检测网络，均与所述改进特征提取网络的输出连接，其中，所述两个粗检测网络分别对应于可见光域和红外域；以及构建所述精检测网络进一步包括：构建两个精检测网络，其中，所述两个精检测网络分别对应于所述可见光域和所述红外域。

基于上述方法的进一步改进，构建所述两个粗检测网络进一步包括：生成两个RPN网络以获得多个候选目标框，其中，所述改进特征提取网络的输出与每个RPN网络连接；以及生成ROI pooling层，每个RPN网络的输出均与所述ROI pooling层的输入连接以将所述多个候选目标框池化到固定大小。

基于上述方法的进一步改进，构建所述两个精检测网络进一步包括：构建两个RCNN网络，所述两个RCNN网络的输入均与所述ROI pooling层的输出连接；构建由全连接层和激活函数层组成的两个检测网络以分别与所述两个RCNN网络的输出连接，其中，所述激活函数层的激活函数如下：

Mish(x)＝x*tanh(ln(1+e^x))，

其中，x是全连接层后获得的特征；以及每个检测网络均与一个输出模块连接，其中，所述输出模块包括N+1个类概率输出模块和位置信息模块。

基于上述方法的进一步改进，构建以下损失函数Loss，并基于所述损失函数利用所述训练集对所述红外图像目标检测网络进行异源图像迁移学习以生成目标检测模型：

Loss＝-α(1-y′)^γylogy′-(1-α)y′^γ(1-y)log(1-y′)

其中，α是平衡因子，用于平衡正样本和负样本本身的比例，y′表示的是网络检测出的所述检测目标框是正样本还是负样本，其中，当y′＝1时，则表示网络检测出的所述检测目标框是正样本，以及当y′＝0时，则表示网络检测出的所述检测目标框是负样本，y表示的是真实标注框是正样本还是负样本，其中，当y＝1时，则表示真实标注框是正样本，以及当y＝0时，则表示真实标注框是负样本，以及γ是焦点参数，γ>0使得减少易分类样本的损失，使得更关注于困难的、错分的样本。

基于上述方法的进一步改进，获取目标检测的数据集并将所述数据集划分为训练集和测试集进一步包括：获取公开的可见光数据集和公开的红外数据集；构建对抗网络CycleGAN，并利用所述对抗网络CycleGAN生成与所述公开的可见光数据集相对应的生成的红外数据集并生成与所述公开的红外数据集相对应的生成的可见光数据集，其中，所述可见光数据集包括所述公开的可见光数据集与所述生成的可见光数据集，以及所述红外数据集包括所述公开的红外数据集和所述生成的红外数据集。

另一方面，本发明实施例提供了一种基于困难样本迁移学习的多目标分类装置，包括：数据集获取模块，用于获取目标检测的数据集并将所述数据集划分为训练集和测试集，其中，所述目标检测的数据集包括可见光数据集和与所述可见光数据集相对应的红外数据集；网络构建模块，用于构建困难样本迁移学习的目标检测网络，其中，构建所述目标检测网络包括构建并按照以下顺序连接的改进特征提取网络、粗检测网络和精检测网络；模型生成模块，利用所述训练集对所述目标检测网络进行异源图像迁移学习以生成目标检测模型，其中，通过增大IOU值提高检测精度，所述IOU值为由所述粗检测网络生成的候选目标框和由所述精检测网络生成的检测目标框的交集与所述候选目标框和所述检测目标框的并集之间的比值；检测模块，用于将所述测试集中的待检测的可见光图像和红外图像输入所述目标检测模型，以获得多个目标检测结果；以及分类跟踪模块，用于根据所述多个目标检测结果对所述测试集进行分类并存储为多个目标检测子集，其中，每个目标检测子集用于获取每个目标的跟踪轨迹。

基于上述装置的进一步改进，改进特征提取网络包括域注意力模块和路径聚合网络模块，其中，所述域注意力模块用于：将输入特征图通过全局平均池化模块获得池化向量；通过多个全连接层、激活层和全连接层的方式获得N个权重，其中，每个权重代表与输入图像相关的成分；将所述N个权重进行拼接以获得拼接之后的权重；将所述输入特征图再次通过域分配比例模块获得不同输入图像的不同成分的比例；以及通过获得的成分以及成分的比例对所述输入特征图进行加权以获得输出特征图；以及所述路径聚合网络模块用于通过先自顶向下将高层的语义信息融合到低层的特征图中，再自底向上将低层的细节信息融合到高层的特征图中的方式，将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合，以在不同尺度上预测不同大小的目标。

与现有技术相比，本发明至少可实现如下有益效果之一：

1、通过增大IOU值提高目标检测精度，而且通过目标检测模型获得多个目标检测结果；根据多个目标检测结果能够对测试集中的大量图片进行自动分类而不需要对大量图片进行人工分类并根据目标分类将生成检测目标框的图片分别存储在对应的目标检测子集中，以能够根据每个目标检测子集能够获取每个目标的跟踪轨迹。

2、网络W中特征提取部分对于红外图像域和可见光图像域是共享的。不同域之间通过域注意力SENet来激活不同的数据域，并利用注意力机制确定它们的响应，来使得适配器能够匹配到各个不同数据域，即网络在不同域场景下获得不同的激活值，使用域注意力机制对其进行加权，使得网络偏向权重更大的场景，以此确定当前数据所属域。路径聚合网络模块可以将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合，防止由于卷积操作导致小目标在深层次的时候被周围的特征同化。

3、具有更好的目标检测结果

本发明使用对抗网络CycleGAN实现了增广数据的目的，使网络的输入困难样本更加丰富多样，使得网络学习的更全面，并且引入了Focal Loss损失函数用来处理困难样本，在样本损失上赋予权重，对于简单样本，由于其比较容易检测，所以权重对应较低，而对于困难样本，损失的权重比较高，这样困难样本的损失在总体的损失上占比会增加，从而帮助网络学习可以往困难样本处偏移，提高了检测效果。

4、模型效率高

本发明引入域注意力机制，使得网络学习时更加专注于特定域的输入，将计算资源分配给更重要的任务，提高了模型效率。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为根据本发明实施例的基于困难样本迁移学习的多目标分类方法的流程图。

图2为根据本发明实施例的困难样本迁移学习的红外图像小目标检测网络的流程图。

图3A为根据本发明实施例的困难样本迁移学习的红外图像小目标检测网络的示意图。

图3B为根据本发明实施例的困难样本迁移学习的红外图像小目标检测网络中的一个检测网络的示图。

图4为根据本发明实施例的域注意力SENet模块的网络结构图。

图5为根据本发明实施例的路径聚合网络模块的示意图。

图6为根据本发明实施例的Mish激活函数的示意图。

图7为在损失函数作用下对整体网络参数的影响的示图。

图8为基于级联的边界框准确预测的示图。

图9为根据本发明实施例的困难样本迁移学习的红外图像目标检测装置的结构图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种基于困难样本迁移学习的多目标分类方法。如图1所示，基于困难样本迁移学习的多目标分类方法，包括：在步骤S102中，获取数据集并将数据集划分为训练集和测试集，其中，数据集包括可见光数据集和与可见光数据集相对应的红外数据集；在步骤S104中，构建困难样本迁移学习的目标检测网络，其中，构建目标检测网络包括构建并按照以下顺序连接的改进特征提取网络、粗检测网络和精检测网络；在步骤S106中，利用训练集对目标检测网络进行异源图像迁移学习以生成目标检测模型，其中，通过增大IOU值提高检测精度，IOU值为由粗检测网络生成的候选目标框和由精检测网络生成的检测目标框的交集与候选目标框和检测目标框的并集之间的比值；在步骤S108中，将测试集中的待检测的可见光图像和红外图像输入目标检测模型，以获得多个目标检测结果；以及在步骤S110中，根据多个目标检测结果对测试集进行分类并存储为多个目标检测子集，其中，每个目标检测子集用于获取每个目标的跟踪轨迹。

与现有技术相比，本实施例提供的基于困难样本迁移学习的多目标分类方法中，通过增大IOU值提高目标检测精度，而且通过目标检测模型获得多个目标检测结果；根据多个目标检测结果能够对测试集中的大量图片进行自动分类而不需要对大量图片进行人工分类并根据目标分类将生成检测目标框的图片分别存储在对应的目标检测子集中，以能够根据每个目标检测子集能够获取每个目标的跟踪轨迹。

下文中，将参考图1，对根据本发明实施例的基于困难样本迁移学习的多目标分类方法的各个步骤进行详细描述。

在步骤S102中，获取数据集并将数据集划分为训练集和测试集，其中，数据集包括可见光数据集和与可见光数据集相对应的红外数据集。具体地，获取目标检测的数据集并将数据集划分为训练集和测试集进一步包括：获取公开的可见光数据集和公开的红外数据集；构建对抗网络CycleGAN，并利用对抗网络CycleGAN生成与公开的可见光数据集相对应的生成的红外数据集并生成与公开的红外数据集相对应的生成的可见光数据集，其中，可见光数据集包括公开的可见光数据集与生成的可见光数据集，以及红外数据集包括公开的红外数据集和生成的红外数据集。生成式对抗网络(GAN,Generative AdversarialNetworks)是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。

在步骤S104中，构建困难样本迁移学***均池化模块获得池化向量；通过多个全连接层、激活层和全连接层的方式获得N个权重，其中，每个权重代表与输入图像相关的成分；将N个权重进行拼接以获得拼接之后的权重；将输入特征图再次通过域分配比例模块获得不同输入图像的不同成分的比例；以及通过获得的成分以及成分的比例对输入特征图进行加权以获得输出特征图。在ResNet50网络中引入路径聚合网络模块进一步包括：通过先自顶向下将高层的语义信息融合到低层的特征图中，再自底向上将低层的细节信息融合到高层的特征图中的方式，将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合，以在不同尺度上预测不同大小的目标。

与现有技术相比，本实施例提供的基于困难样本迁移学习的多目标分类方法中，网络W中特征提取部分对于红外图像域和可见光图像域是共享的。不同域之间通过域注意力SENet(Squeeze-and-Excitation Networks)来激活不同的数据域，并利用注意力机制确定它们的响应，来使得适配器能够匹配到各个不同数据域，即网络在不同域场景下获得不同的激活值，使用域注意力机制对其进行加权，使得网络偏向权重更大的场景，以此确定当前数据所属域。路径聚合网络模块可以将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合，防止由于卷积操作导致小目标在深层次的时候被周围的特征同化。

构建粗检测网络进一步包括：构建两个粗检测网络，均与改进特征提取网络的输出连接，其中，两个粗检测网络分别对应于可见光域和红外域；以及构建精检测网络进一步包括：构建两个精检测网络，其中，两个精检测网络分别对应于可见光域和红外域。

构建两个粗检测网络进一步包括：生成两个RPN网络以获得多个候选目标框，其中，改进特征提取网络的输出与每个RPN网络连接；以及生成ROI pooling层，每个RPN网络的输出均与ROI pooling层的输入连接以将多个候选目标框池化到固定大小。

构建两个精检测网络进一步包括：构建两个RCNN网络，两个RCNN网络的输入均与ROI pooling层的输出连接；构建由全连接层和激活函数层组成的两个检测网络以分别与两个RCNN网络的输出连接，其中，激活函数层的激活函数如下：

Mish(x)＝x*tanh(ln(1+e^x))，

其中，x是全连接层后获得的特征；以及每个检测网络均与一个输出模块连接，其中，输出模块包括N+1个类概率输出模块和位置信息模块。

在步骤S106中，利用训练集对目标检测网络进行异源图像迁移学习以生成目标检测模型，其中，通过增大IOU值提高检测精度，IOU值为由粗检测网络生成的候选目标框和由精检测网络生成的检测目标框的交集与候选目标框和检测目标框的并集之间的比值。构建以下损失函数Loss，并基于损失函数利用训练集对红外图像目标检测网络进行异源图像迁移学习以生成目标检测模型：

Loss＝-α(1-y′)^γylogy′-(1-α)y′^γ(1-y)log(1-y′)

其中，α是平衡因子，用于平衡正样本和负样本本身的比例，y′表示的是网络检测出的检测目标框是正样本还是负样本，其中，当y′＝1时，则表示网络检测出的检测目标框是正样本，以及当y′＝0时，则表示网络检测出的检测目标框是负样本，y表示的是真实标注框是正样本还是负样本，其中，当y＝1时，则表示真实标注框是正样本，以及当y＝0时，则表示真实标注框是负样本，以及γ是焦点参数，γ>0使得减少易分类样本的损失，使得更关注于困难的、错分的样本。将目标检测数据集D来中的可见光图像和红外图像共同训练困难样本迁移学习的红外图像小目标检测网络W，并用Adam算法迭代更新目标检测网络W中提取特征网络F的各层参数、SENet模块中的通道注意力参数权重、RPN网络中的参数和检测网络fc的权重参数，直到损失函数Loss最小化，得到训练好的困难样本迁移学习的红外图像小目标检测网络W′。

在步骤S108中，将测试集中的待检测的可见光图像和红外图像输入目标检测模型，以获得多个目标检测结果。具体地，将测试集中待检测的可见光图像和红外输入到步骤S106中训练好的目标检测模型(即，困难样本迁移学习的红外图像小目标检测网络中)，得到测试集可见光和红外图像的目标检测结果。

在步骤S110中，根据多个目标检测结果对测试集进行分类并存储为多个目标检测子集，其中，每个目标检测子集用于获取每个目标的跟踪轨迹。具体地，根据多个目标检测结果，并根据每个目标检测结果在被检测的图片中生成检测目标框。例如，当检测目标包括行人、车辆、舰船和低飞飞机等时，则多个目标检测子集包括行人检测子集、车辆检测子集、舰船检测子集和低飞飞机检测子集。当图片包括行人和车辆时，将图片存储至行人检测子集和车辆检测子集中。根据行人检测子集中的具有检测目标框的多幅图片，按照时间顺序可以获取行人的运行轨迹，以便于后续对行人进行跟踪。根据车辆检测子集中的具有检测目标框的多幅图片，按照时间顺序可以获取车辆的运行轨迹。以便于后续对车辆进行跟踪。

因此，无需在大量图片中进行人工识别和运行轨迹确定，而是通过目标检测模型首先对大量图片进行分类并存储为各个目标检测子集。与大量杂乱无章的图片相比较，从分类好的目标检测子集的图片中更容易确定目标运行轨迹或跟踪轨迹。根据确定的目标运行轨迹，更容易锁定目标，并对目标进行跟踪。

本发明的另一个具体实施例，公开了一种基于困难样本迁移学习的多目标分类装置。参考图9，基于困难样本迁移学习的多目标分类装置包括：数据集获取模块902、网络构建模块904、模型生成模块906、检测模块908和分类跟踪模块910。

数据集获取模块902用于获取目标检测的数据集并将数据集划分为训练集和测试集，其中，目标检测的数据集包括可见光数据集和与可见光数据集相对应的红外数据集。

网络构建模块904用于构建困难样本迁移学***均池化模块获得池化向量；通过多个全连接层、激活层和全连接层的方式获得N个权重，其中，每个权重代表与输入图像相关的成分；将N个权重进行拼接以获得拼接之后的权重；将输入特征图再次通过域分配比例模块获得不同输入图像的不同成分的比例；以及通过获得的成分以及成分的比例对输入特征图进行加权以获得输出特征图；以及路径聚合网络模块用于通过先自顶向下将高层的语义信息融合到低层的特征图中，再自底向上将低层的细节信息融合到高层的特征图中的方式，将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合，以在不同尺度上预测不同大小的目标。

模型生成模块906利用训练集对目标检测网络进行异源图像迁移学习以生成目标检测模型，其中，通过增大IOU值提高检测精度，IOU值为由粗检测网络生成的候选目标框和由精检测网络生成的检测目标框的交集与候选目标框和检测目标框的并集之间的比值。

检测模块908用于将测试集中的待检测的可见光图像和红外图像输入目标检测模型，以获得多个目标检测结果。

分类跟踪模块910用于根据多个目标检测结果对测试集进行分类并存储为多个目标检测子集，其中，每个目标检测子集用于获取每个目标的跟踪轨迹。具体地，根据检测模块908获得的多个目标检测结果，并根据每个目标检测结果在被检测的图片中生成检测目标框。例如，当检测目标包括行人、车辆、舰船和低飞飞机等时，则多个目标检测子集包括行人检测子集、车辆检测子集、舰船检测子集和低飞飞机检测子集。当图片包括行人和车辆时，将图片存储至行人检测子集和车辆检测子集中。根据行人检测子集中的具有检测目标框的多幅图片，按照时间顺序可以获取行人的运行轨迹，以便于后续对行人进行跟踪。根据车辆检测子集中的具有检测目标框的多幅图片，按照时间顺序可以获取车辆的运行轨迹。以便于后续对车辆进行跟踪。

下文中，将参考图2至图6，以具体实例的方式对基于困难样本迁移学习的多目标分类方法进行详细描述。

参考图2，在步骤1中，构建目标检测的数据集。

(1.1)取一个公开的可见光数据集VisDrone和公开的红外数据集FLIR；

(1.2)将公开的可见光数据和另一个公开的红外数据通过现有的循环一致性生成对抗网络CycleGAN，得到彼此对应域的数据集，并将原数据集和对应生成的数据集作为困难样本迁移学习的目标检测的数据集。

本发明实施例是联合生成对抗网络(GAN)进行训练，生成对抗网络根据博弈的思想，不断优化生成器域判别器，最终达到生成器能够生成与目标域相同分布的数据。而判别器也能很好的区分生成的分布是否属于目标域。因此生成对抗网络的一个重要的性能就是能够生成接近目标域的数据。

GAN网络中有生成器G(generator)和鉴别器D(Discriminator)。有两个数据域。G负责把第一个域中的数据拿过来拼命地模仿成真实数据并把它们藏在真实数据中，而D就拼命地要把伪造数据和真实数据分开。经过二者的博弈以后，G的伪造技术越来越厉害，D的鉴别技术也越来越厉害。直到D再也分不出数据是真实的还是G生成的数据的时候，这个对抗的过程达到一个动态的平衡。

CycleGAN本质上是两个镜像对称的GAN，构成了一个环形网络。两个GAN共享两个生成器，并各自带一个鉴别器，即共有两个鉴器和两个生成器。一个单向GAN两个loss，两个即共四个loss。可以实现无配对的两个图片集的训练是CycleGAN的一个典型优点。但是仍然需要通过训练创建这个映射来确保输入图像和生成图像间存在有意义的关联，即输入输出共享一些特征。

简而言之，该模型通过从域DA获取输入图像，该输入图像被传递到第一个生成器GeneratorA→B，其任务是将来自域DA的给定图像转换到目标域DB中的图像。然后这个新生成的图像被传递到另一个生成器GeneratorB→A，其任务是在原始域DA转换回图像CyclicA，这里可与自动编码器作对比。这个输出图像必须与原始输入图像相似，用来定义非配对数据集中原来不存在的有意义映射。

生成器由编码器、转换器和解码器构成：

编码器：第一步利用卷积神经网络从输入图象中提取特征。将图像压缩成256个64*64的特征向量。

转换器：通过组合图像的不相近特征，将图像在DA域中的特征向量转换为DB域中的特征向量。作者使用了6层Reset模块，每个Reset模块是一个由两个卷积层构成的神经网络层，能够达到在转换时同时保留原始图像特征的目标。

解码器：利用反卷积层(decovolution)完成从特征向量中还原出低级特征的工作，最后得到生成图像。

鉴别器将一张图像作为输入，并尝试预测其为原始图像或是生成器的输出图像。

鉴别器本身属于卷积网络，需要从图像中提取特征，再通过添加产生一维输出的卷积层来确定提取的特征是否属于特定类别。

(1.3)将41410张可见光数据集VisDrone，和从红外数据集FLIR和对抗网络CycleGAN生成的红外数据集中取10228张红外图像作为困难样本迁移学习的目标检测的数据集D；

(1.4)从目标检测的数据集D随机分别选取该数据集85％的可见光图像和85％的红外图像作为训练集，其余的15％图像作为测试集。

在步骤2中，构建困难样本迁移学习的红外图像小目标检测网络W。

参照图3A，本步骤的具体实现如下：

(2.1)在现有的ResNet50网络中引入域注意力SENet模块和路径聚合网络PANet模块，构成特征提取网路F。

在ResNet50网络中引入域注意力SENet模块的方式是将输入与输出在所用的方案中将网络的输出通过域注意力之后以输入进行拼接，而不是直接相加，域注意力SENet的网络结构如图4(整个域注意力SENet的作用是获得其它域中与目标数据集有关的特征，并通过网络权重的方式重用到目标域)，图中的X为输入特征图，首先将输入的X通过一个全局平均池化模块，获得一个池化向量，然后通过三个全连接+激活+全连接的方式获得三个权重，每个权重代表与输入图像相关的一些成分，比如纹理等。此处的全连接+激活+全连接的组合个数可认为改变。将这三个输出的权重进行拼接，获得连接之后的权重。此外，将输入的X再次通过域分配(Domain Assignment)模块，获得不同输入图像不同成分的比例，最后，通过获得的成分以及成分的比例对输入的X进行加权，获得输出的特征。

在ResNet50网络中引入路径聚合网络PANet(如图6所示)的方式是选取ResNet50网络最后三个不同尺度的特征图作为路径聚合金字塔PANet的输入，按照PANet网络的结构，先自顶向下将高层的语义信息融合到低层的特征图中，再自底向上将低层的细节信息融合到高层的特征图中，通过这种方式，可以将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合，防止由于卷积操作导致小目标在深层次的时候被周围的征同化。从而在三个尺度上即不同深度的网络结构上预测不同大小的目标(三次尺度是指在三个不同大小的特征层进行检测，检测的结果可为多个目标，因为神经网络的特性，在深层网络特征图上，会使得小目标的信息被消磨掉，所以使用不同尺度上的特征检测，来处理小目标问题)；

(2.2)搭建依次由一层全连接层和激活函数层组成的检测网络fc，fc表示全连接层，在图中具体表示成了cls_prob以及bbox_pred；(在图3A和图3B中cls-prob以及bbox-pred为fc(full connect)，分别表示类概率预测以及边界框回归)。

激活函数层选用Mish激活函数，用于增加网络的非线性表达能力，其表达式如下：

Mish(x)＝x*tanh(ln(1+e^x))

其中x是全连接层(Cks-prob以及bbox-pred)后得到的特征，如图5可见，此函数在x为负值的时候并不是完全等于0，而是有比较小的负梯度流入，从而保证信息流动，而且此函数也保证了每一点的平滑时的梯度下降效果较好。

(2.3)将特征提取网路F与两个区域生成网络RPN相连接，再在之后依次连接一个ROI Pooling层和两个检测网络fc，构成困难样本迁移学习的红外图像小目标检测网络W。

两个区域生成网络和两个检测网络是因为有网络输入有两个域，可见光域和红外域，每个域分别对应一个区域生成网络和一个检测网络。

特征提取网路F与两个区域生成网络RPN的连接方式为特征提取网路F之后连接两个并联起来的图像区域生成网络RPN，RPN的作用是进行一次粗检测，通过RPN网络之后，我们可以获得多个候选目标框，这些目标框中存在真正的目标，也存在背景干扰。接着与一个ROI Pooling层的连接方式是两个并联起来的图像区域生成网络RPN之后连接共享同一个ROI Pooling层(RPN为区域建议网络，是和最终cls-prob以及bbox-pred一样的结构，作用为提出候选目标；ROI_pooling作用是将候选区域进行处理，使得不同大小的候选区域最终转换为相同大小的区域特征，方便后续网络的检测)，由于我们获得的候选框特征尺寸是不一样的，为了方便后续网络的构建，使用了ROI Pooling，ROI Pooling的作用是将获取到的候选框特征池化到固定的大小，这样就不会因为输入尺寸的不同而使得网络无法正常运行。接着与两个并连的检测网络fc相连接，构成困难样本迁移学习的红外图像小目标检测网络W；

(2.4)构建损失函数Loss(该损失函数是cls-prob之后的损失，用于困难样本的处理)，此损失作为目标检测的分类损失，表达式如下：

Loss＝-α(1-y′)^γylogy′-(1-α)y′^γ(1-y)log(1-y′)

其中，α是平衡因子，是用来平衡正负样本本身的比例不均，y′表示的是网络检测出该框是正样本还是负样本，y′＝1，则表示网络检测出该框是正样本，y′＝0，则表示网络检测出该框是负样本，γ是焦点参数，y表示的是真实标注框是正样本还是负样本，y＝1，则表示真实标注框是正样本，y＝0，则表示真实标注框是负样本。

首先在原有的基础上加了一个因子，其中γ>0使得减少易分类样本的损失。使得更关注于困难的、错分的样本。如γ为2，对于正类样本而言，预测结果为0.95肯定是简单样本，所以(1-0.95)的γ次方就会很小，这时损失函数值就变得更小。而预测概率为0.3的样本其损失相对很大。对于负类样本而言同样，预测0.1的结果应当远比预测0.7的样本损失值要小得多。对于预测概率为0.5时，损失只减少了0.25倍，所以更加关注于这种难以区分的样本。这样减少了简单样本的影响，大量预测概率很小的样本叠加起来后的效应才可能有效，此外，加入平衡因子α，用来平衡正负样本本身的比例不均：γ调节简单样本权重降低的速率，当γ为0时即为交叉熵损失函数，当γ增加时，调节因子的影响也在增加。

对于困难样本的学习，Focal Loss是在样本损失上加个权重。对于简单样本，由于其比较容易检测，所以权重对应较低。而对于困难样本，因为不容易检测，所以损失的权重比较高。这样困难样本的损失在总体的损失上占比会增加，从而帮助学习可以往困难样本处偏移。

一般交叉熵对于正样本而言，输出概率越大损失越小。对于负样本而言，输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。

图7中黑色框中的车辆，由于在路上比较少见，所以在训练的时候在focal loss的作用下，会有比较大的权重，使得对整体的网络参数有较大的影响，而像灰色框中的小汽车，由于在路上比较常见，使得器本身就很容易被检测，因此在focal loss的作用下会给其一个比较小的权重，使得它对网络参数的影响较小。

基于级联cascade的边界框准确预测

参考图8，为了提升边界框预测精度采用级联cascade结构，实验证明，模型在界定正负样本的阈值处获得的预测框与真实边界框的IOU值是最大的，也就是预测框的精度是最佳的。使用不同的阈值进行边界框的预测，级联各个检测模型，设置不同的IOU阈值界定样本训练模型，前一个检测模型的输出是后一个检测模型的输入，IOU值一直上升。使用不同的IOU阈值划分正负样本，让每一个stage的detector都专注于检测IOU在某一范围内的proposal，这样就可以在不同的阈值处都有较好的IOU值。

级联的结构如下，首先，我们通过RPN阶段获得候选目标B0，然后设定一个IOU值来再一次精细检测，获得精细检测周的候选框B1。Cascade的思想为，我们在精细检测结果B1的基础上，加强条件的严苛性，即增大IOU的值，再次使用精细之后的候选框来检测。后续的B2，B3也是同样的思想。这使得网络的检测精度不断地上升，提升检测效果。

在步骤3中，对困难样本迁移学习的红外图像小目标检测网络W进行异源图像迁移学习：将目标检测数据集D来中的可见光图像和红外图像共同训练困难样本迁移学习的红外图像小目标检测网络W，并用Adam算法迭代更新目标检测网络W中提取特征网络F的各层参数、SENet模块中的通道注意力参数权重、RPN网络中的参数和检测网络fc的权重参数，直到损失函数Loss最小化，得到训练好的困难样本迁移学习的红外图像小目标检测网络W′。

其中，网络W中特征提取部分对于红外图像域和可见光图像域是共享的，而RPN层与输出层是域相关的。不同域之间通过域注意力SENet来激活不同的数据域，并利用注意机制确定它们的响应，来使得适配器能够匹配到各个不同数据域，即网络在不同域场景下获得不同的激活值，使用域注意力机制对其进行加权，使得网络偏向权重更大的场景，以此确定当前数据所属域。

在步骤4中，目标检测：将测试集中待检测的可见光图像和红外输入到步骤3中训练好的困难样本迁移学习的红外图像小目标检测网络W′中，得到测试集可见光和红外图像的目标检测结果。

本发明的效果可通过以下仿真进一步说明：

1、仿真条件

本项目所提算法基于Pytorch深度学习框架，Python 3.6实现，开发环境为Linux***，版本为Ubuntu 1804，CUDA 10.1。单块NVIDIA GeForce RTX 2070GPU(8GB Memory)用于加速网络训练。

仿真所用的图像是41410张可见光数据集VisDrone和从公开的红外数据集FLIR和对抗网络CycleGAN生成的红外图像中任意挑选的10228张红外图像。

2、仿真内容

仿真一，本实例将41410张可见光数据集VisDrone和从公开的红外数据集FLIR和对抗网络CycleGAN生成的红外图像中任意挑选的10228张红外图像中各取85％作为训练集，其余15％作为测试集，车辆检测结果如表1。

表1

从表1可见，本发明利用少量的红外数据与大量的可见光数据共同训练目标检测网络，使得红外图像的目标检测效果AP值达到78.82％，比单独用红外图像检测出的效果好很多。

仿真二，将红外图像中取85％作为训练集改为25％、5％、2％，其余的作为测试集在做三组实验，车辆检测结果如表2。

表2

从表2可见，本发明利用少量的红外数据与大量的可见光数据共同训练目标检测网络，当红外图像的训练验证集从25％降到2％时，红外图像的车辆检测效果会下降，但下降幅度十分缓慢，这表明了迁移学习在数据量较小情况下的有效性。

综上，本发明构建的困难样本迁移学习的红外图像小目标检测方法，以通过将对抗网络与迁移学习相结合，实现将可见光图像的信息迁移到红外图像迁移学习，提高了困难样本的检测精度。

本发明与现有技术相比，具有以下优点：

1、具有更好的目标检测结果

2、模型效率高

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于困难样本迁移学习的多目标分类方法，其特征在于，包括：

获取数据集并将所述数据集划分为训练集和测试集，其中，所述数据集包括可见光数据集和与所述可见光数据集相对应的红外数据集；

构建困难样本迁移学习的目标检测网络，其中，构建所述目标检测网络包括构建并按照以下顺序连接的改进特征提取网络、粗检测网络和精检测网络；

利用所述训练集对所述目标检测网络进行异源图像迁移学习以生成目标检测模型，其中，通过增大IOU值提高检测精度，所述IOU值为由所述粗检测网络生成的候选目标框和由所述精检测网络生成的检测目标框的交集与所述候选目标框和所述检测目标框的并集之间的比值；

将所述测试集中的待检测的可见光图像和红外图像输入所述目标检测模型，以获得多个目标检测结果；以及

根据所述多个目标检测结果对所述测试集进行分类并存储为多个目标检测子集，其中，每个目标检测子集用于获取每个目标的跟踪轨迹。

2.根据权利要求1所述的基于困难样本迁移学习的多目标分类方法，其特征在于，在ResNet50网络中引入域注意力模块和路径聚合网络模块以构成改进特征提取网络包括在ResNet50网络中引入域注意力模块和在ResNet50网络中引入路径聚合网络模块，其中，在ResNet50网络中引入域注意力模块进一步包括：

将输入特征图通过全局平均池化模块获得池化向量；

通过多个全连接层、激活层和全连接层的方式获得N个权重，其中，每个权重代表与输入图像相关的成分；

将所述N个权重进行拼接以获得拼接之后的权重；

将所述输入特征图再次通过域分配比例模块获得不同输入图像的不同成分的比例；以及

通过获得的成分以及成分的比例对所述输入特征图进行加权以获得输出特征图。

3.根据权利要求2所述的基于困难样本迁移学习的多目标分类方法，其特征在于，在ResNet50网络中引入路径聚合网络模块进一步包括：

通过先自顶向下将高层的语义信息融合到低层的特征图中，再自底向上将低层的细节信息融合到高层的特征图中的方式，将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合，以在不同尺度上预测不同大小的目标。

4.根据权利要求1所述的基于困难样本迁移学习的多目标分类方法，其特征在于，

构建所述粗检测网络进一步包括：构建两个粗检测网络，均与所述改进特征提取网络的输出连接，其中，所述两个粗检测网络分别对应于可见光域和红外域；以及

构建所述精检测网络进一步包括：构建两个精检测网络，其中，所述两个精检测网络分别对应于所述可见光域和所述红外域。

5.根据权利要求4所述的基于困难样本迁移学习的多目标分类方法，其特征在于，构建所述两个粗检测网络进一步包括：

生成两个RPN网络以获得多个候选目标框，其中，所述改进特征提取网络的输出与每个RPN网络连接；以及

生成ROI pooling层，每个RPN网络的输出均与所述ROI pooling层的输入连接以将所述多个候选目标框池化到固定大小。

6.根据权利要求5所述的基于困难样本迁移学习的多目标分类方法，其特征在于，构建所述两个精检测网络进一步包括：

构建两个RCNN网络，所述两个RCNN网络的输入均与所述ROI pooling层的输出连接；

构建由全连接层和激活函数层组成的两个检测网络以分别与所述两个RCNN网络的输出连接，其中，所述激活函数层的激活函数如下：

Mish(x)＝x*tanh(ln(1+e^x))，

其中，x是全连接层后获得的特征；以及

每个检测网络均与一个输出模块连接，其中，所述输出模块包括N+1个类概率输出模块和位置信息模块。

7.根据权利要求1所述的基于困难样本迁移学习的多目标分类方法，其特征在于，构建以下损失函数Loss，并基于所述损失函数利用所述训练集对所述红外图像目标检测网络进行异源图像迁移学习以生成目标检测模型：

Loss＝-α(1-y′)^γylogy′-(1-α)y′^γ(1-y)log(1-y′)

8.根据权利要求1所述的基于困难样本迁移学习的多目标分类方法，其特征在于，获取目标检测的数据集并将所述数据集划分为训练集和测试集进一步包括：

获取公开的可见光数据集和公开的红外数据集；

构建对抗网络CycleGAN，并利用所述对抗网络CycleGAN生成与所述公开的可见光数据集相对应的生成的红外数据集并生成与所述公开的红外数据集相对应的生成的可见光数据集，

其中，所述可见光数据集包括所述公开的可见光数据集与所述生成的可见光数据集，以及所述红外数据集包括所述公开的红外数据集和所述生成的红外数据集。

9.一种基于困难样本迁移学习的多目标分类装置，其特征在于，包括：

数据集获取模块，用于获取目标检测的数据集并将所述数据集划分为训练集和测试集，其中，所述目标检测的数据集包括可见光数据集和与所述可见光数据集相对应的红外数据集；

网络构建模块，用于构建困难样本迁移学习的目标检测网络，其中，构建所述目标检测网络包括构建并按照以下顺序连接的改进特征提取网络、粗检测网络和精检测网络；

模型生成模块，利用所述训练集对所述目标检测网络进行异源图像迁移学习以生成目标检测模型，其中，通过增大IOU值提高检测精度，所述IOU值为由所述粗检测网络生成的候选目标框和由所述精检测网络生成的检测目标框的交集与所述候选目标框和所述检测目标框的并集之间的比值；

检测模块，用于将所述测试集中的待检测的可见光图像和红外图像输入所述目标检测模型，以获得多个目标检测结果；以及

分类跟踪模块，用于根据所述多个目标检测结果对所述测试集进行分类并存储为多个目标检测子集，其中，每个目标检测子集用于获取每个目标的跟踪轨迹。

10.根据权利要求9所述的基于困难样本迁移学习的多目标分类装置，其特征在于，改进特征提取网络包括域注意力模块和路径聚合网络模块，其中，

所述域注意力模块用于：

将输入特征图通过全局平均池化模块获得池化向量；

将所述N个权重进行拼接以获得拼接之后的权重；

通过获得的成分以及成分的比例对所述输入特征图进行加权以获得输出特征图；以及

所述路径聚合网络模块用于通过先自顶向下将高层的语义信息融合到低层的特征图中，再自底向上将低层的细节信息融合到高层的特征图中的方式，将神经网络提取到的深度语义信息以及浅层的目标尺度信息进行融合，以在不同尺度上预测不同大小的目标。