CN114821155A

CN114821155A - 一种基于可变形nts-net神经网络的多标签分类方法及***

Info

Publication number: CN114821155A
Application number: CN202210324966.5A
Authority: CN
Inventors: 陈振宇; 王路涛; 李博; 陈思宇; 边靖宸; 武丽莎; 杨畅
Original assignee: Big Data Center Of State Grid Corp Of China
Current assignee: Big Data Center Of State Grid Corp Of China
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-07-29

Abstract

本发明提出一种基于可变形NTS‑NET神经网络的多标签分类方法及***，包括：将待分类图像输入预先训练好的网络模型得到图像的分类标签矩阵；基于分类标签矩阵确定待分类图像的分类标签；其中，网络模型是基于图像及其对应的分类标签对NTS‑NET神经网络进行训练得到的；NTS‑NET神经网络是基于在神经网络中引入可变性卷积和通道注意力机制构建的。本发明利用NTS‑NET作为基本框架,通过在网络模型引入可变形卷积实现对几何变换幅度较大的目标关键局部区域准确定位,并在审查器网络中引入通道注意力机制,有选择性地加强包含有用信息的特征并抑制无用特征，最终实现复杂图像的多属性分类。

Description

一种基于可变形NTS-NET神经网络的多标签分类方法及***

技术领域

本发明涉及图像技术领域，具体涉及一种基于可变形NTS-NET神经网络的多标签分类方法及***。

背景技术

近年来，基于无人机的输电线路巡检技术取得了快速进步与发展。对于如何在复杂的自然背景下,利用计算机视觉技术,从航拍巡检图像中自动精确地定位线路设备(如导线、绝缘子和螺栓等),并准确检测其缺陷,已成为一项关键技术问题。螺栓在输电线路上分布广泛,起到固定部件、维持输电线路结构稳定的关键作用。但由于其庞大的数量和受力复杂等条件,螺栓容易从正常状态转变为缺陷状态。一般缺陷如螺母松动、销子松动等会导致部件松动,影响输电线路结构稳定；危急缺陷如销子缺失、螺母缺失等,可能导致大面积线路故障,严重威胁电网安全运行。因此,螺栓缺陷的检测是确保输电线路正常运行的必要工作。而螺栓数量众多,广泛存在于杆塔、绝缘子和金具之中,且螺栓体积较小、缺陷类型复杂,导致对于螺栓缺陷的识别和检测困难。

目前,深度学习技术在杆塔缺陷、导地线缺陷、绝缘子缺陷和金具缺陷的视觉检测、识别和分类的研究中均取得了很好的效果,但在螺栓缺陷检测方面的研究相对较少。通过构建优化的PVANET(per-formance vs accuracy net)结构以统一不同深度神经网络的结构,将最后一级的识别改为对多个局部区域的检测,综合多个区域的视觉信息来判断开口缺销的缺陷,得到很好的效果。残差卷积神经网络通过越层连接将输入直接传到输出,故底层可以直接接收到顶层的信息,缓解了梯度消失的问题。研究人员提出诸多残差网络变体,如宽残差网络、多级残差神经网络和金字塔残差网络等来进一步提升残差卷积神经网络的性能。这些具有强大表征能力的卷积神经网络的快速发展,使其在单标签图像分类任务中取得了突破性的进展,为多标签图像分类提供了一定的思路。处理多标签图像分类任务的常见方法是将其转换为多个单标签图像分类任务。现已有使用大规模数据集ImageNet预训练网络模型,随后将该网络模型的参数迁移到多标签网络模型,并使用网络模型输出的图像特征来训练每个标签的支持向量机分类器,取得了一定的分类效果。另一方面,研究人员利用递归神经网络对标签之间的依赖性进行建模。输电线路螺栓多属性分类任务中待检目标具有相似的整体特征,分类模型需要对可以区分不同类别属性的关键局部特征进行抓取,属于细粒度分类的范畴部分。部分细粒度分类算法的研究利用细致的局部区域标签来训练模型,使得模型能够对包含细节语义信息的区域准确定位，一些研究则采用无监督学习的方法来定位关键区域。

现有技术中，虽然目标检测算法在螺栓缺陷检测方面取得一定的成果,但是螺栓缺陷中的一些如销子缺失、垫片缺失和螺母缺失等属于视觉不可分的范畴,因为螺栓在某些电力部件上不需要销子、垫片或者螺母,故仅依靠基于目标检测算法无法解决螺栓缺陷检测问题。由于图像中存在目标不显著、目标差异较小以及背景复杂等问题,基于深度卷积神经网络的单标签图像分类方法不适合直接应用于多标签图像分类任务中。无论是直接将多标签分类任务转化为单标签分类任务,还是利用递归神经网络建模标签的相关性,在构建多标签分类模型时都不加区别地分析整个图像,以便平等地考虑无用和多余的信息。利用细致的局部区域标签来训练模型虽然在识别准确率上获得了较好的表现,但往往需要在标签的制作上耗费巨大的工作量。采用无监督学习的方法来定位关键区域虽然摆脱了烦琐的标签制作工作,但难以保证模型对关键细节区域定位的准确性。

发明内容

为了解决现有技术的分类方法针对复杂图像难以保证分类准确性的问题，本发明提出了一种基于可变形NTS-NET神经网络的多标签分类方法及***，包括：

将待分类图像输入预先训练好的网络模型得到所述待分类图像的分类标签矩阵；

基于所述分类标签矩阵确定所述待分类图像的分类标签；

其中，所述网络模型是基于获取的所述待分类图像和所述待分类图像对应的分类标签构建的分类标签矩阵对NTS-NET神经网络进行训练得到的；

所述NTS-NET神经网络是基于在神经网络中引入可变性卷积和通道注意力机制构建的。

优选的，所述NTS-NET神经网络的构建包括：

在神经网络中引入可变性卷积，作为特征提取器；

在审查器网络中引入通道注意力机制，对所述待分类图像的无用特征进行抑制；

由导航器网络-教师网络-引入通道注意力机制的审查器网络为框架结合所述特征提取器共同构建所述NTS-NET神经网络。

优选的，所述在神经网络中引入可变性卷积包括：将神经网络中的传统卷积替换为可变形卷积，构成可变形卷积的神经网络。

优选的，所述在审查器网络中引入通道注意力机制，对所述待分类图像的无用特征进行抑制包括：通过空间映射的方法对所述待分类图像中的无用特征的空间进行压缩；通过将全局最大池化结果和全局平均池化结果拼接的方法对所述待分类图像的特征向量进行降维，获得所述待分类图像的特征图；利用卷积的方法对所述特征图进行进一步降维，得到所述待分类图像的通道特征矩阵；将所述通道特征矩阵经softmax函数得到权重矩阵，通过逐元素相乘将通道权重加权到所述特征图上。

优选的，所述NTS-NET神经网络的训练包括：获取所述待分类图像，以及所述待分类图像对应的分类标签；将所述分类标签以矩阵的形式表示，得到分类标签矩阵，由所述待分类图像和所述分类标签矩阵构建样本集，将所述样本集按设定比例划分为训练集和测试集；基于所述训练集中的图像和所述训练集中的图像对应的分类标签矩阵带入NTS-NET神经网络中进行训练，得到初始训练好的NTS-NET神经网络；将所述测试集中的图像输入到初始训练好的NTS-NET神经网络中，得到所述测试集中的图像对应的分类标签矩阵，由所述测试集中的图像的分类标签矩阵与所述测试集中的图像对应的分类标签检测所述初始训练好的NTS-NET神经网络，并将通过检测的所述初始训练好的NTS-NET神经网络作为训练好的NTS-NET神经网络。

优选的，所述基于所述训练集中的图像和所述训练集中的图像对应的分类标签矩阵带入NTS-NET神经网络中进行训练，得到初始训练好的NTS-NET神经网络，包括：将所述训练集中的图像和所述训练集中的图像对应的分类标签矩阵带入NTS-NET神经网络，设置判定所述训练集中的图像所属类别的阈值；由导航器网络损失函数对所述导航器网络进行优化，由所述训练集中的图像对应的分类标签和所述教师网络预测置信度之间的交叉熵损失函数对所述教师网络进行优化，直到所述网络模型收敛。

优选的，所述导航器网络损失函数如下式所示：

式中,f函数表示合页损失函数f(x)＝max{1-x,0}，max表示1-x和0取大值，L_N(J,C)表示导航器网络损失函数，J表示导航器网络给出的信息量指标，C表示教师网络给出的置信度指标，R_i表示第i个局部区域，R_j表示第j个局部区域，C(R_i)表示教师网络预测的第i个局部区域的置信度，C(R_j)表示教师网络预测的第j个局部区域的置信度。

优选的，所述交叉熵损失函数如下式所示：

式中,L_T表示交叉熵损失函数，i表示第i个局部区域的角标，M表示局部区域的个数，C值表示教师网络预测的置信度,P_d表示图像是否包含某类别的标注。

基于同一发明思路，本发明还提出一种基于可变形NTS-NET神经网络的多标签分类***，包括：

标签识别模块，用于将待分类图像输入预先训练的网络模型得到所述待分类图像的分类标签矩阵；

分类模块，用于基于所述分类标签矩阵确定所述待分类图像的分类标签；

其中，所述网络模型是基于获取的所述待分类图像和所述待分类图像对应的分类标签对NTS-NET神经网络进行训练得到的；

优选的，还包括模型构建模块和模型训练模块；所述模型构建模块用于基于在神经网络中引入可变性卷积和通道注意力机制构建NTS-NET神经网络；所述模型训练模块用于基于获取的所述待分类图像和所述待分类图像对应的分类标签对NTS-NET神经网络进行训练。

与现有技术相比，本发明的有益效果为：

本发明提供的基于可变形NTS-NET神经网络的多标签分类方法及***，利用NTS-NET(navigator-teacher-scrutinizer network)神经网络作为基本框架,通过在网络模型引入可变形卷积实现对几何变换幅度较大的目标关键局部区域准确定位,并在审查器网络中引入通道注意力机制,有选择性地加强包含有用信息的特征并抑制无用特征，最终实现复杂图像的多属性分类。

附图说明

图1为本发明提供的多标签分类方法的流程示意图；

图2为本发明提供的网络模型的具体实现过程示意图；

图3为本发明提供的可变形卷积层的实现过程示意图；

图4为本发明提供的特征提取网络的示意图；

图5为本发明提供的通道注意力机制的实现过程示意图；

图6为本发明实施例1的螺栓缺陷图像样本及其对应的分类标签矩阵的示意图；

图7为本发明实施例1的导航器网络提供的判别性区域的示意图；

图8为本发明实施例1的判别性区域特征图可视化的示意图；

图9为本发明实施例1的特征图注意力区域可视化的示意图。

具体实施方式

本发明公开了一种基于可变形NTS-NET神经网络的多标签分类方法及***，利用NTS-NET作为基本框架,通过引入可变形卷积实现对几何变换幅度较大的螺栓目标关键局部区域准确定位,并在最后将局部特征与全局特征融合后引入通道注意力机制,最终实现目标属性的多标签分类。

实施例1：

一种基于可变形NTS-NET神经网络的多标签分类方法，如图1所示，包括：

步骤1：将待分类图像输入预先训练好的网络模型得到图像的分类标签矩阵；

步骤2：基于分类标签矩阵确定待分类图像的分类标签；

步骤3：基于分类标签矩阵确定待分类图像的分类标签。

其中，网络模型是基于获取的图像和图像对应的分类标签构建的分类标签矩阵对NTS-NET神经网络进行训练得到的；

NTS-NET神经网络是基于在神经网络中引入可变性卷积和通道注意力机制构建的。

在步骤1之前，还包括网络模型的构建、初始训练及测试。

网络模型的构建

(1)在神经网络中引入可变性卷积，作为特征提取器

深度卷积神经网络由于其固定的几何结构而固有地受限于模型几何变换，为了减少螺栓几何形变的限制，引入了可变形卷积，在卷积核中每个采样点的位置都增加一个偏移的变量,故卷积核在当前位置附近可随意地采样而不再局限于之前的规则格点。可变形卷积通过在采样点添加额外的偏移量来更改标准卷积内核的采样位置,获得的补偿可以通过训练来学习而不需要额外的监督。图3显示了标准卷积核与可变形卷积核之间的区别。标准卷积核的采样网络是规则的，可变形卷积核是将可学习的偏移量添加到标准卷积核。可以看出,可变形卷积的采样位置是不规则的。

图4展示了可变形卷积层的实现过程,在输入层中原本固定采样区域分别加入偏移向量，然后在卷积核中通过双线性插值算法将带有偏移向量的采样点集中在一起，并且使得带偏移向量的输出特征图与输入的特征图具有一致的空间分辨率，最终传递给下一个网络层。这样，在不改变空间分辨率的情况下,实现对不规则图像特征的提取。

本实施例中，通过在ResNet-50网络中引入可变性卷积，得到可变形卷积特征提取器。以ResNet-50作为特征提取网络,残差网络的关键是引入了残差块,在网络中增加了跃层连接,允许原始输入信息直接传到后面的层。可变形ResNet-50网络如图5所示，设计将conv5_x层中的3个3×3传统卷积替换为可变形卷积，构成可变形卷积的ResNet-50网络。所以，经过改进后，原来规则网格会附加一个偏移量{Δp_s|s＝1,…,A|},A＝|R|，其中，Δp_s为偏移量的变化，A为规则网格的绝对值，R为规则网格区域，s表示偏移量的序号。对于输出特征图中的每个位置P₀：

其中,U(p₀)表示P₀位置处的特征矩阵，P₀表示输出特征图中的位置，p_s表示偏移量，p_s+Δp_s表示新增的偏移位置，w表示权值，I表示输入特征图。根据可变形卷积的原理,首先在输入特征图的每一个位置生成一个偏移量,并将其前向传播；在后向传播过程中,新增的偏移位置p_s+Δp_s会被同时学习，然后经过双线性插值得到整数的空间位置，进而执行可变形卷积。由此可知，可变形卷积的Res Net-50网络能够提取到更加丰富的判别性特征，增强网络对目标形变的检测能力。传统的卷积方式无法有效地模拟几何变换，本发明引入的可变形卷积方法对目标的空间变换有着较强的自适应能力。

(2)通过导航器网络找到待分类图像中可能提供信息的区域，通过教师网络得到待分类图像的局部特征图；

为了更好地辅助分类,本发明采用NTS-NET作为基本网络框架，能够提供信息量较大的判别性局部区域。分别使用导航器网络和教师网络来近似信息函数J以及置信度函数C。在区域空间A中选择M个区域A_M,对于每个区域R_i∈A_M,通过导航器网络评估其信息量J(R_i),教师网络评估其置信度C(R_i)。

该方法所基于的假设是：信息丰富的区域有助于更好地表达对象,融合信息丰富区域和全图将获得更好的效果。因此,目标检测在于定位信息最丰富的区域。假设所有区域都是矩形,定义A来表示给定图像中所有信息区域的集合。定义信息函数J:A→(-∞,∞)以评估区域R∈A的信息值,定义置信函数C:A→[0,1]作为分类器以评估该区域属于真实类别的置信度。因此,对于信息更加丰富的区域应该具有更高的置信度,即对任何R₁,R₂∈A,如果C(R₁)＞C(R₂),则J(R₁)＞J(R₂)成立。

导航器网络的任务是找到可能提供信息的区域,如何导航到信息区域可以视为区域建议问题,已获得广泛研究。导航器网络在对原图中所有局部区域预测信息量时需要提取每个区域的特征向量,为了减少重复计算,导航器网络首先对全图提取全局特征,再由全图到特征图的映射关系在全局特征图上抠取局部区域的局部特征。受到锚点的启发,导航器网络在不同尺度特征图上设置了在固定位置上固定尺度和不同比例的锚点框,锚点框的作用是更好地确定局部区域的范围以抽取局部特征来进行信息量的预测。也说明了导航器网络的作用是通过预测信息量来选取其中可能包含最多语义信息的区域。导航器网络能够生成一系列矩形区域{R′₁,R′₂,…,R′_A},每个区域都有对应的分数代表该区域的信息量,随后生成一个列表来表示所有锚点的信息量，并按照下式对信息列表进行排序：

J(R₁)≥J(R₂)≥…≥J(R_A)

为了减少区域冗余,本发明基于区域的信息量对区域采用非极大值抑制NMS,然后选择前M个信息区域{R₁,R₂,…,R_M}输入教师网络。教师网络接收到从导航器网络产生的信息量最大的M个局部区域后,通过调整这些局部区域的尺度为固定大小,并送入特征提取网络以得到局部特征图,在对每个局部区域的特征图完成全局池化后送入全连接层预测置信度,得到对应的置信度{C(R₁),C(R₂),…,C(R_M)}。

(3)在审查器网络中引入通道注意力机制，对待分类图像的无用特征进行抑制。

审查器网络将接收到的信息丰富排名前k的区域输入特征提取器以生成它们的特征向量，并将此k个特征与输入图像的全局特征相连接。若将连接后的特征直接输入全连接层中,这会对图像所有特征平均地处理。为了有选择性地加强包含有用信息的特征并抑制无用特征,本发明引入了通道注意力机制模块，如图6所示。

传统算法压缩激活网络SENet、BAM(bottleneck attention module)在实现通道注意力时采用平均池化对空间维度进行压缩,不能有效提取纹理特征；CBAM(convolutionalblock attention module)将平均池化结果与最大池化结果直接相加，结合方式过于简单。为了充分保留背景和纹理信息，采取将两个池化结果进行拼接的方法,如图5所示。

假设输入特征X的维度为(B,H,W,C),在维度C上对X中每幅特征图的重要程度进行权重分配。具体做法是：为了去除空间位置信息的干扰，需要先对原有特征图的空间进行压缩，将其从空间(B,H,W,C)映射到空间(B,1,1,C)当中；随后分别使用全局最大池化和全局平均池化的方法，将二者的池化结果进行拼接，得到的特征图维度为(B,1,1,2C)。由于原始输入特征图的通道数为C，需要通过两个1×1大小的卷积核来实现通道数的降维，以进一步提取通道特征。通道压缩率表示为r，在本实施例的实验中取r＝16。上述过程可表示为

F_a＝Conv(ReLU(BN(Conv(concat(maxpool,avgpool)))))

式中，F_a代表通道特征矩阵，F_a∈R^(B,1,1,C)，BN为归一化，ReLU为激活函数，Conv表示卷积，concat为拼接函数，maxpool为最大池化操作，avgpool为平均池化操作。F_a经过softmax后，得到相应的权重矩阵W_a∈R^(B,1,1,C)，然后通过逐元素相乘加权到原先的特征图上，对每幅特征图的重要程度进行权重分配，从而完成通道维度的注意力机制。

本发明在将局部特征与全局特征融合时引入通道注意力机制,提取特征的通道权重,获取关键通道特征,从而更好地利用判别性区域信息。

本发明的网络模型的具体实现过程如图2所示。

网络模型的初始训练

网络模型的初始训练过程为，获取图像及其对应的分类标签。将分类标签以矩阵的形式表示，得到分类标签矩阵，由图像及其对应的分类标签矩阵构建样本集，将样本集按设定比例划分为训练集和测试集。由图像分类标签矩阵的形式设定网络模型输出结果的形式，将训练集中的图像及其对应的分类标签矩阵带入NTS-NET神经网络中进行训练，并设置判定图像所属类别概率的阈值。由导航器网络损失函数对导航器网络进行优化，由图像的真实类别和教师网络预测置信度之间的交叉熵损失函数对教师网络进行优化，直到所述网络模型收敛。

在本实施例中，使用螺栓多属性分类数据集对模型进行训练和评估。螺栓缺陷图像均由无人机线路巡检拍摄的样本截取而来，数据样本一共有2000幅图像，其中1500幅为训练样本，500幅为测试样本。

本实施例使用PyTorch框架实现，并使用单个NVIDIA Geforce GTX Titan X GPU对网络模型进行训练和测试。在所有实验中，将超参数k固定为2，即使用2个区域来训练导航器网络。使用可变形卷积的Res Net-50网络作为特征提取器，对输入图像进行随机水平翻转，并使用批处理规范化作为正则化。模型训练的初始学习率设置为0.001，且在每60个周期降低为之前的1/10，权重衰减为0.0005，NMS的阈值设置为0.25，NMS为非极大值抑制，使用动量梯度下降法进行优化。

利用视觉可分性的思想，将螺栓缺陷属性分为6类，每幅螺栓缺陷图像包含1类及以上缺陷属性。螺栓样本的属性及其对应标签如表1所示，具体可分为以下6类:是否有销孔、是否有垫片、是否有螺母、是否锈蚀、螺母是否松动、销子是否松动，并将其分别设置为标签0～5，见表1。

表1 6种螺栓属性及其标签

可以为每幅图像构建一个1×6的矩阵作为图像的标签，其中对应的属性类别如果存在，则置1，反之置0。例如以下编号为501的螺栓图像中存在销孔和螺母，其对应的标签矩阵为(1，0，1，0，0，0)。一些螺栓缺陷图像样本及其对应标签矩阵如图6所示。

将螺栓图像的训练样本输入导航器网络进行训练，利用网络模型预测排序和正确排序计算损失函数，并通过优化损失函数以使网络模型预测的排序更加接近正确排序。

导航器网络提取信息量最大的M个局部区域表示为R＝{R₁,R₂,…,R_M}，其对应的信息量集合为J＝{J(R₁),J(R₂),…,J(R_M)}，由教师网络预测得到的置信度集合为C＝{C(R₁),C(R₂),…C(R_M)}。其中J和C分别对应于网络的预测排序和正序。则导航器网络损失函数可以定义为

其中，f函数表示合页损失函数f(x)＝max{1-x,0}，max表示1-x和0取大值，L_N(J,C)表示导航器网络损失函数，J表示导航器网络给出的信息量指标，C表示教师网络给出的置信度指标，R_i表示第i个局部区域，R_j表示第j个局部区域，C(R_i)表示教师网络预测的第i个局部区域的置信度，C(R_j)表示教师网络预测的第j个局部区域的置信度。

若导航器网络提取某两个局部区域的信息量和教师网络对该两个局部区域预测的置信度大小一致，则该损失函数对导航器网络产生激励；反之，损失函数则对网络进行惩罚。

教师网络预测的置信度指标是由训练样本的真实类别和教师网络所预测置信度之间的交叉熵损失函数来优化，其表达式为

式中，L_T表示交叉熵损失函数，i表示第i个局部区域的角标，M表示局部区域的个数，C值表示教师网络预测的置信度，P_d表示图像是否包含某类别的标注，若图像包含该类别，P_d为1，若图像不包含该类别，P_d为0。

网络模型的测试

网络模型的测试过程为，将测试集中的图像输入到初始训练好的NTS-NET神经网络中，得到图像对应的分类标签矩阵，由分类标签矩阵与测试集中的图像对应的真实分类标签检测初始训练好的NTS-NET神经网络，初始训练好的NTS-NET神经网络通过检测后，作为训练好的NTS-NET神经网络。

为了充分验证本方法的效果，将螺栓多属性分类数据集在VGG(Visual GeometryGroup)、Res Nets等其他基础网络上进行多标签分类，记录其结果作为对比数据。表2显示了本模型与其他网络模型之间的精确率比较。从表中可以看出，Res Net-50是效果较好的基准，本身就可以达到77.2％的平均精确率。另外，使用基于ResNet-50的NTS-NET模型进行多标签分类时，能够获得82.6％的平均精确率，相较于基准获得了5.4％的提升，而本模型能达到84.5％的平均精确率，明显优于NTS-NET近2个百分点。而且从表2中可以看出，在螺栓多属性分类数据集的6个标签的精确率中，所有标签的精确率都相较于以往的方法有着更好的表现，这说明通过本发明的方法能够有效提升对螺栓多属性分类数据集的多标签分类效果。

表2螺栓多属性分类数据集分类结果

注:加粗字体表示每列最优结果，mAP表示平均精度均值。

为验证本发明中网络模型的有效性，在螺栓多属性分类数据集上分别设计了不同模块的对比实验。

1)为了验证在不同位置嵌入可变形卷积对于特征提取效果的影响，本实施例设计了分别使用标准卷积的ResNet-50网络与不同位置嵌入可变形卷积的ResNet-50网络作为特征提取网络的NTS-NET对螺栓多属性分类数据集多标签分类的对比实验，实验结果如表3所示。实验结果表明，可变形卷积增强了网络对于几何变换的建模能力，平均分类精确率获得了不同幅度的提升。另外，将ResNet-50不同位置的3×3传统卷积替换为可变形卷积对实验结果产生不同的影响，位置越靠后对于模型性能的提升幅度越大。因此，在其他实验中将Conv5_x层中的3个3×3传统卷积替换为可变形卷积，构成可变形卷积的ResNet-50网络。

表3各模块对图像分类效果的影响

注:加粗字体表示各列最优结果，dcn为可变形卷积。

2)为分析NTS-NET模型中不同组件以及超参数k的作用，设计了以下对比实验并将结果记录在表4中。实验结果表明，当没有教师网络的指导，NS-Net仅让导航器网络提出区域建议时，模型准确率下降为76.8％，这说明没有受到指导时，导航器随意地提出区域建议是不利于分类的。另外，为研究超参数k的影响，分别设置k的不同取值来进行对比实验，其中，k为使用多少个局部区域来帮助分类。由表4可知，当用来辅助分类的局部区域数k从0增加到2时，平均精确率提升了2.1％。当k再增加时，平均精确率的提升几乎可以忽略，而特征维度几乎增加了一倍，所以设置超参数k的值为2。

表4超参数k对实验结果的影响

注:加粗字体表示每列最优结果。

3)为验证通道注意力机制的有效性，分别在使用标准卷积和可变形卷积的ResNet-50网络作为特征提取网络的NTS-NET上加入通道注意力机制。从表5可以看出，在加入通道注意力机制后，最终的mAP为83.0％和84.5％，分别获得了0.4％和0.8％的提升，说明了通道注意力机制的有效性。

表5通道注意力机制对分类效果的影响

注:加粗字体表示各列最优结果，“att”表示加入注意力机制。

另外，为了验证通道注意力机制相较于SENet、BAM以及CBAM具有优越性，设计在使用可变形卷积的Res Net-50网络作为特征提取网络的NTS-NET上分别加入4种注意力机制进行对比实验，实验结果如表6所示。从表中可以看出，本发明在各类精确率和平均精确率上都能够获得更好的表现，验证了本发明中通道注意力机制的优越性。

表6不同通道注意力机制对分类效果的影响

注:加粗字体表示各列最优结果。

本实施例还对该网络模型进行了以下定性实验：

1)为了分析本发明的导航器网络所提供的判别性区域，将k取值为2和3时，网络所提供的判别性区域绘制如图7所示。其中，第1行是原始图像；第2行是k＝2时的判别性区域；第3行是k＝3时的判别性区域；并用红色、橙色、绿色矩形分别表示网络提供的信息量前3的区域。可以看出，当k＝2时，信息量较大的局部区域能够对螺栓不同属性的分类提供有效信息，如第2行第2幅图像中，重点关注了销子和螺母是否松动的区域，这与人类的感知行为是类似的。然而，当k＝3时，绿色框提供的判别性区域出现重叠冗余，对分类效率的提升不大，这验证了定量分析中k取值大于2时，分类精确率提升有限的问题。

2)为了证明不同判别性区域对不同属性分类决策的影响，本实施例还进行了可视化实验，如图8所示。采用Grad-CAM(gradient-weighted class activa-tion mapping)算法(Selvaraju等，2017)，该算法将图8第2行和第4行的判别性区域图像作为输入，通过将热力图和反向传播进行逐元素相乘，得到Grad-CAM可视化图，即图8第3行和第5行图像。从图8中可以看出，当k＝2时，导航器网络提供的两个判别性区域上注意到的信息是不一样的，如第1列，两个判别性区域分别关注销孔和螺母区域。

3)本实施例利用Grad-CAM算法可视化了引入通道注意力机制前后的特征图注意力区域，如图9所示。其中，第1行图像为原始图像，第2行图像为引入通道注意力机制前特征图注意力区域的可视化效果，第3行图像为引入通道注意力机制后的特征图注意力区域的可视化效果。可以看出，第3行图像与第2行图像相比，网络能够重点关注更具显著性和判别性的特征，同时能够有效去除冗余信息，效果提升较为明显。如第3列的第3行图片相比第2行图像，模型关注区域更加集中在销孔位置。

在对整个网络模型进行端到端训练之后，网络模型通过对比分类结果属于某一类的概率值与阈值来实现对输入图像的多标签分类预测。使用训练好的网络模型对图像进行多标签分类的过程为：将待分类图像输入网络模型；通过网络模型输出所述图像的分类标签矩阵；将分类标签矩阵与图像对应的类别进行对比解析，从而获得图像所属类别，该对比解析的过程可通过程序实现。

本发明提供的多标签分类方法也适用于其他场景，为了验证本发明的通用性，使用包含20个类别和9963幅图像的PASCALVOC2007(pattern analysis，statisticalmodeling andcomputational learning visual object classes)数据集进行测试，分别对5011幅图像进行训练和4952幅图像进行测试。结果如表7所示。从表7可以看出，本发明的方法相较于ResNet-50基础网络在PASCALVOC2007数据集上的效果有一定程度的提升，验证了本发明的通用性。

表7 PASCAL VOC2007数据集分类结果

注:加粗字体表示各列最优结果。

实施例2：

一种基于可变形NTS-NET神经网络的多标签分类***，包括：标签识别模块，用于将待分类图像输入预先训练的网络模型得到图像的分类标签矩阵；分类模块，用于基于分类标签矩阵确定待分类图像的分类标签；其中，网络模型是基于获取的图像和图像对应的分类标签对NTS-NET神经网络进行训练得到的；NTS-NET神经网络是基于在神经网络中引入可变性卷积和通道注意力机制构建的。

该多标签分类***还包括模型构建模块和模型训练模块，模型构建模块用于基于在神经网络中引入可变性卷积和通道注意力机制构建NTS-NET神经网络；模型训练模块用于基于获取的图像和图像对应的分类标签对NTS-NET神经网络进行训练。

模型构建模块包括特征提取器单元、导航器网络单元、教师网络单元、审查器网络单元、导航器网络优化单元、教师网络优化单元。特征提取器单元由引入可变性卷积的网络作为特征提取器，如引入可变性卷积的Res Net-50网络，审查器网络单元中引入了通道注意力机制，以获取图像的关键通道特征。通过通道注意力机制提取图像的关键通道特征的过程可用下式表示：

F_a＝Conv(ReLU(BN(Conv(concat(maxpool,avgpool)))))

模型训练模块包括训练单元和测试单元。训练单元通过获取图像的训练样本及其对应的分类标签矩阵，并将训练样本输入构建好的网络模型进行初始训练；测试单元通过获取图像的测试样本及其对应的分类标签矩阵，并将测试样本输入初始训练好的网络模型进行精度检测试，根据测试结果调整模型参数，通过检测的NTS-NET神经网络作为训练好的网络模型，对待分类图像进行多标签分类。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在发明待批的本发明的权利要求范围之内。

Claims

1.一种基于可变形NTS-NET神经网络的多标签分类方法，其特征在于，包括：

基于所述分类标签矩阵确定所述待分类图像的分类标签；

2.如权利要求1所述的多标签分类方法，其特征在于，所述NTS-NET神经网络的构建包括：

在神经网络中引入可变性卷积，作为特征提取器；

3.如权利要求2所述的多标签分类方法，其特征在于，所述在神经网络中引入可变性卷积包括：将神经网络中的传统卷积替换为可变形卷积，构成可变形卷积的神经网络。

4.如权利要求2所述的多标签分类方法，其特征在于，所述在审查器网络中引入通道注意力机制，对所述待分类图像的无用特征进行抑制包括：通过空间映射的方法对所述待分类图像中的无用特征的空间进行压缩；通过将全局最大池化结果和全局平均池化结果拼接的方法对所述待分类图像的特征向量进行降维，获得所述待分类图像的特征图；利用卷积的方法对所述特征图进行进一步降维，得到所述待分类图像的通道特征矩阵；将所述通道特征矩阵经softmax函数得到权重矩阵，通过逐元素相乘将通道权重加权到所述特征图上。

5.如权利要求2所述的多标签分类方法，其特征在于，所述NTS-NET神经网络的训练包括：获取所述待分类图像，以及所述待分类图像对应的分类标签；将所述分类标签以矩阵的形式表示，得到分类标签矩阵，由所述待分类图像和所述分类标签矩阵构建样本集，将所述样本集按设定比例划分为训练集和测试集；基于所述训练集中的图像和所述训练集中的图像对应的分类标签矩阵带入NTS-NET神经网络中进行训练，得到初始训练好的NTS-NET神经网络；将所述测试集中的图像输入到初始训练好的NTS-NET神经网络中，得到所述测试集中的图像对应的分类标签矩阵，由所述测试集中的图像的分类标签矩阵与所述测试集中的图像对应的分类标签检测所述初始训练好的NTS-NET神经网络，并将通过检测的所述初始训练好的NTS-NET神经网络作为训练好的NTS-NET神经网络。

6.如权利要求5所述的多标签分类方法，其特征在于，所述基于所述训练集中的图像和所述训练集中的图像对应的分类标签矩阵带入NTS-NET神经网络中进行训练，得到初始训练好的NTS-NET神经网络，包括：将所述训练集中的图像和所述训练集中的图像对应的分类标签矩阵带入NTS-NET神经网络，设置判定所述训练集中的图像所属类别的阈值；由导航器网络损失函数对所述导航器网络进行优化，由所述训练集中的图像对应的分类标签和所述教师网络预测置信度之间的交叉熵损失函数对所述教师网络进行优化，直到所述网络模型收敛。

7.如权利要求6所述的多标签分类方法，其特征在于，所述导航器网络损失函数如下式所示：

8.如权利要求6所述的多标签分类方法，其特征在于，所述交叉熵损失函数如下式所示：

9.一种基于可变形NTS-NET神经网络的多标签分类***，其特征在于，包括：

10.如权利要求9所述的多标签分类***，其特征在于，还包括模型构建模块和模型训练模块；所述模型构建模块用于基于在神经网络中引入可变性卷积和通道注意力机制构建NTS-NET神经网络；所述模型训练模块用于基于获取的所述待分类图像和所述待分类图像对应的分类标签对NTS-NET神经网络进行训练。