CN116994047A

CN116994047A - 一种基于自监督预训练的小样本图像缺陷目标检测方法

Info

Publication number: CN116994047A
Application number: CN202310955804.6A
Authority: CN
Inventors: 洪兆瑞; 于重重; 仇宁海; 赵霞
Original assignee: Nanjing Lingtong Huizhi Technology Co ltd; Beijing Technology and Business University
Current assignee: Nanjing Lingtong Huizhi Technology Co ltd; Beijing Technology and Business University
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-11-03

Abstract

本发明公布了一种基于自监督预训练的小样本图像缺陷目标检测方法，采用小样本目标检测中的迁移学习范式，即在基类样本上进行预训练，在新类样本上进行微调；使用大量基类正常图片样本进行预训练即进行基类预训练；再将训练后的网络模型在少量的新类缺陷图片样本上进行微调即继续训练；最后在测试图片集上进行测试，对新类即缺陷类进行检测。采用本发明的技术方案，在小样本目标检测的场景下具有很强的鲁棒性和泛化能力，能够提高小样本图像目标检测的检测精度。本发明可应用于高铁基础设施图像处理与目标检测。

Description

一种基于自监督预训练的小样本图像缺陷目标检测方法

技术领域

本发明涉及深度学习自监督预训练图像处理方法以及深度学习小样本图像目标检测方法，具体涉及一种基于自监督预训练的加入多尺度注意力机制和上下文语义融合模块的小样本图像缺陷目标检测模型方法，可应用于高铁基础设施图像处理与目标检测，属于计算机视觉技术领域。

背景技术

高铁基础设施是保障高铁列车行车安全的重要部分，因此，针对高铁基础设施定期巡检，进行高铁基础设施缺陷检测对维持高铁的平稳运行具有重要意义。近年来，随着深度学习的快速发展，越来越多的基于深度学习的模型被应用到铁路基础设施缺陷检测中。Wei等人提出了一种基于深度学习和图像处理技术的受电弓滑板状态在线检测的智能化方法。随后，Ye等人针对铁路目标检测问题，提出了一种基于差分特征融合卷积神经网络的目标检测方法。此外，Liu等人提出了基于改进Faster RCNN的高速铁路支撑套筒螺钉检测方法。虽然现有的基于深度学习的模型在铁路基础设施缺陷检测中取得了很好的效果，但这些方法都需要大量的标注样本。然而，许多高铁基础设施中的缺陷样本不易出现并采集，例如铁塔螺栓的松动与缺失、桥梁钢结构螺栓缺失、轨道沿线扣件缺失等，同时，高铁基础设施缺陷存在着目标小难以检测的问题。因此，传统的基于大量标注样本的模型很难在小样本的情况下检测出这些缺陷。

发明内容

为了解决上述现有技术存在的问题，本发明实现一种基于自监督预训练的小样本图像目标检测方法，用于高铁基础设施缺陷检测，加入了多尺度注意力机制与上下文语义融合模块，能够提高小样本图像目标检测的检测精度。本发明的小样本图像目标检测方法采用小样本目标检测中的迁移学习范式，即在基类样本上进行预训练，在新类样本上进行微调(即继续训练)。

本发明提供的技术方案是：

一种基于自监督预训练的小样本图像缺陷目标检测方法，其步骤包括：

1)进行自监督预训练，构建小样本目标检测网络模型；采用SlotCon自监督预训练方法训练小样本目标检测网络模型中的骨干网络，得到自监督预训练后的骨干网络权重，作为小样本目标检测网络模型骨干网络的初始权重；

采用SlotCon自监督预训练方法结合小样本目标检测，使用大量无标签高铁基础设施数据在自监督方法SlotCon上进行预训练，将自监督预训练后的骨干网络权重替换有监督预训练的网络权重，作为本发明构建的小样本目标检测网络模型骨干网络的初始权重；

本发明构建的小样本目标检测网络模型包括主干网络、梯度解耦层(GDL层)、区域生成网络RPN和感兴趣区域池化结构RoIPooling、上下文语义融合模块、分类器和框回归器；

具体实施时，本发明采用SlotCon自监督方法训练骨干网络ResNet101，从数据驱动的语义槽(slots)进行对比学习，用于联合语义分组和表示学习(通过算法自动地学习出有效的特征，并提高模型的性能)。语义分组通过将像素分配给一组可学习的原型，这些原型可以集中特征来适应每个样本，并形成新的slot。基于学习到的数据依赖slots，采用对比目标进行表示学习，增强了特征的可分辨性。将训练好的ResNet101骨干网络权重替换有监督预训练的权重，进行后续的目标检测。

2)本发明小样本目标检测采用迁移学习范式进行训练，首先使用大量的基类正常样本进行预训练(基类预训练)，将基类预训练后的网络模型在少量的新类缺陷样本上进行微调(继续训练)，最后在测试集上进行测试，对新类(缺陷类)进行检测。其中预训练和微调两个阶段使用同样的网络模型结构。具体来说，将高铁基础设施图片送入小样本目标检测网络模型，首先经过小样本目标检测模型的主干网络，主干网络的作用是提取图像的特征，该主干网络由残差网络ResNet101(骨干网络)与特征金字塔FPN构成，同时在残差网络的最后一层加入SENet(squeeze and excitation network)注意力机制，形成基于SENet的多尺度注意力机制(SE-MAM，multiscale attention mechanism based on squeeze andexcitation network)，将经过主干网络后的特征图送入GDL层进行前向传播，得到的输出传入区域生成网络RPN和感兴趣区域池化结构RoIPooling，其中RPN网络用于提供可能存在目标的回归框，产生带有目标分数和边界框回归偏移量的建议信息特征向量，其中RoIPooling用于将输入特征图中不同大小的感兴趣区域利用池化方法获得固定大小的输出特征图；

3)将经过RoIPooling后得到的输出特征图通过上下文语义融合模块(contextsemantic fusion module，CSF)，输出给分类器和框回归器，分类器通过softmax函数计算得到候选框中物体为每个类别的概率，最后的预测类别为输出概率最大的类别，框回归器使用smooth L1损失函数计算预测值与真实值之间偏移量的损失值，通过偏移量对原始的候选框进行修正，得到最后的预测框坐标，即识别的目标的位置，从而实现小样本目标检测。

为了解决有监督预训练方法在铁路复杂背景下提供的特征不具有针对性的问题，本发明使用了自监督预训练方法SlotCon，将自监督预训练得到的权重作为小样本检测器的骨干网络权重；为了解决模型对小目标的识别能力以及提升在通道特征上的敏感性，本发明提出了多尺度注意力机制，多尺度注意力机制包括特征金字塔(FPN)和SENet注意力机制，通过多尺度注意力机制网络后输出的特征图进入梯度解耦层(GDL)，其作用是为了调整不同模块之间的解耦程度。在正向传播时，采用仿射变换层A简单地增强特征表示，在反相传播时，GDL从后续层获取梯度，将其乘上系数λ∈[0,1]后传递给前一层。可将GDL视为由两个方程定义的伪函数G_(A，λ)，这两个方程描述了其前向和反向传播的行为，如下所示：

G_(A，λ)(x)＝A(x) (1)

其中是仿射变换层的雅克比矩阵；x为输入的特征图；A(x)表示将特征图输入到仿射变换层中。

上下文语义融合模块(CSF)用来融合不同尺度的特征，同时学习良好的全局和局部特征，经过上下文语义融合模块后的输出送入分类器和框回归器，通过分类器得到预测类别分数，通过框回归器得到预测坐标，从而实现小样本目标检测。实施结果表明，本发明在小样本目标检测的场景下具有很强的鲁棒性和泛化能力，检测效果优于SOTA小样本目标检测模型(state-of-the-art，当前效果最优的模型)。

附图说明

图1是本发明使用的自监督方法SlotCon框架的示意图。

图2是本发明构建的基于多尺度注意力机制和上下文语义融合模块的小样本图像缺陷目标检测模型的网络结构示意图。

具体实施方式

本发明模型结构包括：(1)主干网络部分，该部分包括残差网络结构、特征金字塔结构(FPN)和SENet注意力机制；(2)带有梯度解耦层的RPN和RoIPooling；(3)上下文语义融合模块，经过上下文语义融合模块后的输出送入分类器和框回归器，分类器得到预测类别分数，框回归器得到预测坐标。

本发明使用的自监督预训练方法SlotCon框架如图1所示，对于一个未标注的图像数据集D，通过自监督预训练SlotCon希望得到一组原型S，将图像中的像素进行分类，在同一组原型的像素具有相似的特征表示，SlotCon使用像素级深度聚类方法得到原型S。具体来说，SlotCon自监督方法由两个结构相同但参数不同的学生网络和教师网络组成，其中学生网络包括编码器f_θ和映射层(Projector)g_θ以及K个可学***均更新。给定一个输入图像x，使用两种随机增强方法生成两个增强视角v^l∈{v¹,v²}，分别通过学生网络和教师网路的编码器f输出特征图/>(通过增强后的图片经过学生和教师网络的编码器后输出的特征图，包含高、宽、通道三个维度)，再通过多层感知器(MLP)得到特征(通过编码器后的特征图再经过多层感知机后得到的特征图，包含高、宽、通道三个维度)。接着使用原型S_θ计算特征/>的赋值(assignment)/>使其与教师网络在另一个视图v^l'生成的赋值(assignment)/>相匹配。在像素级上，对于两个视角中重叠(overlap)的区域，每个位置相同像素对原型的分配一致。在对象级表征学习上，将特征图(feature map)上语义相同的像素(pixels)聚合到一起。在不同视角(view)间的语义槽(slots)上进行对比学习。在两个方向上相互促进，共同优化。在自监督预训练阶段，我们采用SlotCon自监督方法训练骨干网络ResNet101，从数据驱动的语义槽(slots)进行对比学习，用于联合语义分组和表示学习。语义分组通过将像素分配给一组可学习的原型，这些原型可以集中特征来适应每个样本，并形成新的slot。基于学习到的数据依赖slots，采用对比目标进行表示学习，增强了特征的可分辨性。将训练好的ResNet101骨干网络权重替换有监督预训练的权重，进行后续的目标检测。

如图2所示，本发明主干网络包括：采用了多尺度特征金字塔解决缺陷样本目标小的问题，特征金字塔结构包括一个自下而上的途径，一个自上而下的途径以及横向的连接。具体来说，自下而上阶段采用典型的CNN模型，经过一系列CNN模型的卷积操作得到不同大小的特征图，相同大小的特征图归为一个阶段(stage)，每次抽取的特征都是每个stage的最后一层输出，这样就能构成特征金字塔，最后自下而上生成4个stage，分别为conv2(C2)，conv3(C3)，conv4(C4)，conv5(C5)，以224×224×3的输入图像为例，通过一系列卷积操作后C2、C3、C4、C5输出的特征图维度大小分别为56×56×256、28×28×512、14×14×1024、7×7×2048；自上而下阶段，把高层特征图进行上采样，这里的上采样是一个2倍的上采样，上采样后保证了特征图的高和宽相同，使用横向连接可以进行相加融合操作。上采样算法采用的是最近邻插值算法。然后把该特征横向连接(lateral connections)至前一层特征，使得高层特征得到加强，在横向连接时采用1×1大小的卷积核，主要作用是调整不同特征层的输出通道数，使得通道数都为256，以便于上采样后的其他特征可以相加。每个横向连接融合来自自下而上和自上而下的路径上同样空间尺寸的特征图。在进行融合后采用3×3大小的卷积核对每个融合结果进行卷积，目的是消除上采样的混叠效应。假设生成的特征图结果是P2、P3、P4、P5，与原来自下而上的卷积结果C2、C3、C4、C5一一对应。

SENet通过压缩-激励块来显示建模通道相互依赖性以增强卷积特征的学***均池化将全局空间信息压缩到通道维度当中。形式上，统计量是通过缩小U的空间维度H×W来生成的，z的第c个元素可以通过如下公式计算：

为了利用在压缩操作中聚合的信息，使用第二个操作来捕获通道依赖性，该操作使用了一个简单的带有sigmoid激活函数的门控机制：

其中δ为ReLU激活函数，为了降低模型复杂度以及提升泛化能力，采用两个全连接层(FC)的bottleneck结构，其中第一个FC层起到降维的作用，降维系数为r，然后采用ReLU激活函数，最后的FC层恢复原始的维度。将学习到的各个channel的激活值乘以U上的原始特征得到最后的输出：

其中F_scale(u_c,s_c)是指标量s_c与特征图u_c∈R^H×W之间的通道乘积。

SE-MAM模块将SENet添加到ResNet101最后一个stage后，这样既不破坏残差网络的完整结构，又可以让每一个尺度的特征层都获得对通道特征的敏感性。

如图2所示，本发明提出采用上下文语义融合模块(CSF)解决单一池化操作容易在训练过程中造成的信息丢失问题。我们在RoIPooling后引入了三种不同尺度的池化并进行语义融合，以更好地获取全局和局部的特征，具体来说，上下文语义融合模块没有使用固定的分辨率大小，具体是选择了6、12、18三种不同的分辨率，进行并行的池化操作，获取更全面的特征表示。大分辨率可以更加关注全局信息，小分辨率更加关注局部信息，更好地利用了全局和局部信息来检测物体。经过池化后每一种分辨率的特征都通过两个分支进行语义融合，第一个分支包含一个全连接层；第二个分支包含一个全局平均池化层，一个全连接层以及一个上采样层；将融合后的三种不同的分辨率的三个特征进行汇合，最后利用1×1大小的卷积进行上采样，将特征图恢复原来的尺寸进行输出。

将经过CSF模块后的输出经过两个全连接层对特征进行进一步提取，最后使用框回归器和分类器进行边界框回归以及类别预测，由此实现基于自监督预训练的小样本图像缺陷目标检测。

本发明具体实施时，使用无人机拍摄采集的图像数据集，对本发明方法进行实施和评估，进一步描述如下：

1.在采集的无人机拍摄的高铁基础设施数据集上进行实验。如表1所示，我们采集的无人机航拍图像数据集共包含16个高铁基础设施的类别，首先将5091张图像按1.2:1的比例分为训练图像集和测试图像集，然后按照小样本目标检测的数据集划分方法，将高铁基础设施数据集的类别划分为基类和新类，其中正常类别作为基类，缺陷类别作为新类；再根据划分方法，将新类(Novel)类别的每个类别随机选择K＝1，2，3，5，10个样本作为微调的样本。

本实验选择平均精度(AP)作为评价指标，对不同算法的检测性能进行评价，其中mAP50是所有类别AP50的平均值。AP50指的是计算平均精度即AP时，使用0.5作为IoU(交并比，表示模型检测出的物体与真实物体的重叠程度)的阈值。

表1无人机数据集数据分布情况

本发明的小样本图像目标检测模型训练采用端到端的随机梯度下降算法优化参数，其中随机梯度下降算法指在每一次的迭代中，随机选择一个小批量的样本来计算损失函数的梯度，并用梯度来更新参数。实验设置如表2所示：

表2实验参数设置

实验环境如表3所示。

表3实验环境

基类预训练模型的迭代次数和使用新类微调模型的迭代次数如表4所示：

表4模型在训练和微调时的情况

2.首先使用自监督方法SlotCon训练骨干网络ResNet101，将训练好的权重作为小样本图像目标检测模型的骨干网络初始权重。接着将图片送入小样本图像目标检测网络模型当中，进行训练与推理。图片按批次进入网络模型，使用深度学习框架pytorch将输入的图片从numpy格式转换成张量格式进行输入，经过由残差网络结构、基于SENet的多尺度注意力机制组成的主干网络，输出的特征图进入梯度解耦层GDL，得到的输出分别传入RPN和感兴趣区域池化结构RoIPooling，将经过RoIPooling后得到的特征图通过上下文语义融合模块(CSF)，输出给分类器和框回归器，分类器得到最后的预测类别分数，框回归器得到最后的预测坐标。

3.基于自监督预训练的小样本目标检测模型进行小样本缺陷目标检测实验，得到实验结果。无人机数据集的6个新类的平均精度均值mAP50结果如表5所示。

显然，本发明所提出的基于自监督预训练的小样本缺陷检测模型，在新类的检测效果优于其他的SOTA方法。在所有比较的方法中，本发明在除了10shot外均获得了最好的高铁基础设施缺陷检测结果(在1,2,3,5shot上分别获得了27.4％，30.5％，33.6％和34.0％的mAP50)

最后需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于自监督预训练的小样本图像缺陷目标检测方法，其特征是，采用小样本目标检测中的迁移学习范式，即在基类样本上进行预训练，在新类样本上进行微调；包括如下步骤：

1)进行自监督预训练，构建小样本目标检测网络模型；采用自监督预训练方法训练小样本目标检测网络模型中的骨干网络，得到自监督预训练后的骨干网络权重，作为小样本目标检测网络模型骨干网络的初始权重；

构建的小样本目标检测网络模型包括主干网络、梯度解耦层即GDL层、区域生成网络RPN和感兴趣区域池化结构RoI Pooling、上下文语义融合模块CSF、分类器和框回归器；

2)采用小样本目标检测的迁移学习范式进行训练：首先使用大量基类正常图片样本进行预训练即进行基类预训练；再将训练后的网络模型在少量的新类缺陷图片样本上进行微调即继续训练；最后在测试图片集上进行测试，对新类即缺陷类进行检测；预训练和微调两个阶段使用同样的网络模型结构；具体过程包括：

将图片送入小样本目标检测网络模型，经过小样本目标检测模型的主干网络，主干网络用于提取图像的特征，主干网络由残差网络ResNet101与特征金字塔FPN构成，同时在残差网络的最后一层加入SENet注意力机制，形成基于SENet的多尺度注意力机制SE-MAM；

将经过主干网络后的特征图送入GDL层进行前向传播，得到的输出传入区域生成网络RPN和感兴趣区域池化结构RoI Pooling，其中RPN网络用于提供可能存在目标的回归框，产生带有目标分数和边界框回归偏移量的建议信息特征向量；RoI Pooling用于将输入特征图中不同大小的感兴趣区域利用池化方法获得固定大小的输出特征图；

3)将经过RoI Pooling后得到的输出特征图通过上下文语义融合模块输出给分类器和框回归器；所述分类器通过计算得到候选框中物体为每个类别的概率，输出概率最大的类别作为预测类别；所述框回归器使用损失函数计算预测值与真实值之间偏移量的损失值，通过偏移量对候选框进行修正，得到预测框坐标即识别的目标的位置；

利用训练好的小样本目标检测网络模型，实现小样本目标检测。

2.如权利要求1所述基于自监督预训练的小样本图像缺陷目标检测方法，其特征是，具体是采用自监督预训练方法SlotCon训练骨干网络ResNet101，从数据驱动的语义槽slots进行对比学习，用于联合语义分组和表示学习；语义分组通过将像素分配给一组可学习的原型，集中特征适应每个样本，并形成新的slot；基于学习到的数据依赖slots，采用对比目标进行表示学习，增强特征的可分辨性。

3.如权利要求2所述基于自监督预训练的小样本图像缺陷目标检测方法，其特征是，所述多尺度注意力机制包括特征金字塔FPN和SENet注意力机制，通过多尺度注意力机制网络后输出的特征图进入梯度解耦层GDL，用于调整不同模块之间的解耦程度；

在正向传播时，采用仿射变换层A增强特征表示；在反相传播时，GDL从后续层获取梯度，乘上系数λ∈[0,1]后传递给前一层；

将GDL为由两个方程定义的伪函数G_(A，λ)，用于描述前向和反向传播的行为，表示为：

G_(A，λ)(x)＝A(x) (1)

其中，是仿射变换层的雅克比矩阵；x为输入的特征图；A(x)表示将特征图输入到仿射变换层中。

4.如权利要求1所述基于自监督预训练的小样本图像缺陷目标检测方法，其特征是，所述分类器具体是通过softmax函数计算得到候选框中物体为每个类别的概率；所述框回归器具体是使用smooth L1损失函数计算预测值与真实值之间偏移量的损失值。

5.如权利要求1所述基于自监督预训练的小样本图像缺陷目标检测方法，其特征是，在残差网络的最后一层加入SENet注意力机制；所述SENet是通过压缩-激励块显示建模通道相互依赖性以增强卷积特征的学习；过程包括：

设经过卷积后的输出为U，通过缩小U的空间维度H×W生成统计量z的第c个元素通过如下公式计算：

使用带有sigmoid激活函数的门控机制，用于捕获通道依赖性，表示为：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z)) (4)

其中，δ为ReLU激活函数，

采用两个全连接层FC的bottleneck结构，分别用于降维和恢复维度；将学习到的各个通道的激活值乘以U上的特征，得到最后的输出，表示为：

其中，F_scale(u_c,s_c)是指标量s_c与特征图u_c∈R^H×W之间的通道乘积。