CN115063833B

CN115063833B - 一种基于图像分层视觉的机房人员检测方法

Info

Publication number: CN115063833B
Application number: CN202210529776.7A
Authority: CN
Inventors: 苏丹; 那琼澜; 贺惠民; 杨艺西; 邢宁哲; 庞思睿; 李信; 金燊; 来骥; 万莹; 张辉; 任建伟; 吴舜; 刘昀; 于然; 赵欣; 魏秀静; 赵琦; 王艺霏; 纪雨彤
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2024-05-14
Anticipated expiration: 2042-05-16
Also published as: CN115063833A

Abstract

本发明公开了一种基于图像分层视觉的机房人员检测方法，该方法具体为基于移位窗口分层视觉Transformer的级联检测器。本申请设计一种实用的自注意力方法，通过深度卷积缩减输入令牌的尺寸，来降低自注意力计算的复杂度，对V值的计算采用通道交互模块可以解决局部窗口自注意力缺乏方向感知和位置信息的问题。其次，采用平衡的L₁损失并且在总损失函数中配置不同阶段损失的权重来解决简单样本和困难样本不平衡问题。改进的方法相对于原始Swin Transformer检测精度mAP_@0.5提升了3.2％。

Description

一种基于图像分层视觉的机房人员检测方法

技术领域

本发明属于图像领域，尤其涉及一种基于图像分层视觉的机房人员检测方法。

背景技术

机房人员检测是计算机视觉领域的关键任务之一，卷积神经网络(ConvolutionalNeural Network,CNN)已广泛应用于机房人员检测任务中，如RCNN系列、YOLO系列。CNN在提取局部有效信息作用很大，但它们缺乏从全局信息中提取远程特征的能力。最近具有全局计算功能的Transformer被广泛应用到计算机视觉任务中，并取得了显著的效果。Transformer中采用自我注意的方法，可以挖掘文本中的长期相关性依赖。现阶段许多计算机视觉任务采用自我注意机制来克服CNN的局限性，使用自我注意力(Self-Attention,SA)更快地获得远程元素之间的关系。因此，在机房人员检测领域探索Transformer的潜力是非常重要的。

最近提出的Swin Transformer通过构建层级特征结构，可以轻松适配特征金字塔等，并且它基于局部窗口的自注意力计算将复杂度由二次降低到线性。这些特点使得SwinTransformer可以作为一种通用模型用于各种视觉任务。但是Swin Transformer在机房人员检测中仍存在三个问题：(1)在非重叠窗口内执行自注意力会仍然具有较高的计算复杂度。(2)在非重叠窗口内执行自注意力计算，它会缺乏方向感知和位置信息，即不能很好的捕获跨通道的信息。(3)在训练过程中，简单样本和困难样本之间也存在不平衡，在梯度反向传播时，简单样本的梯度作用太小。

发明内容

基于Swin Transformer存在的上述技术问题，本申请提出了一种机房人员检测方法，该方法具体为基于一种图像分层视觉Transformer的机房人员检测方法，

一种基于图像分层视觉的机房人员检测方法，所述方法包括：

本申请设计一种实用的自注意力模块，在标准的基于窗口的注意力模块上(W-MSA)增加了两个关键设计：(1)设计一种计算量更小自注意力机制，减少自注意力机制计算复杂度。(2)考虑到卷积层旨在模拟局部关系，通过添加通道交互模块，使用并行的深度卷积(全局计算)和基于局部窗口的自注意力计算，来解决局部窗口自注意力缺乏方向感知和位置信息的问题。本文将这两个关键点整合并构建改进的自注意力模块。接下来描述细节。如图2(c)所示，通过对输入线性投影得到查询/>其中n＝H×W。将输入/>重塑为空间向量(d_m,H,W)，通过卷积核为s×s、步长为s的深度卷积来减少输入X的尺寸。令牌的尺寸由(d_m,H,W)变为/>将高和宽度都缩减s倍，经过线性转换得到/>其中，X是输入令牌，n是块数量，H是输入图像高方向图像块的数量，W是输入图像宽方向图像块的数量，d_m是每个图像块嵌入维度，查询向量维度、关键向量和值向量的嵌入维度是d_k，n′是块数量。

对于V的值，我们加入通道交互模块来计算。受通道注意力(SE)启发，通道交互包含一个DW₂深度卷积、一个全局平均池化层(GAP)，然后是两个连续的1×1卷积层、批量归一化(BN)和它们之间的激活(SILU)。最后，我们使用Sigmoid在通道维度上产生注意力。V的计算公式如下所示，

V＝FC(LN(DW₁(X))).Sigmoid(conv(SILU(BN(conv(GAP(DW₂(x)))))))) (1)

其中，FC是全连接，BN是批量归一化，DW₁是深度卷积，X是输入令牌向量，conv是1×1卷积，GAP是全局平均池化，DW₂是深度卷积。

最终得到其中DW₂是卷积核为3×的深度卷积，这里需要注意DW₁和DW₂的区别，经过DW₁后输入X尺寸缩小s倍，经过DW₂后不改变输入X的尺寸和通道数，保留更多通道信息，conv是1×1的卷积，然后，通过以下公式计算Q、K和V的自注意函数：

最后通过线性变换与X相加得到最终输出。本文的通道交互模块和SE层的设计相似，但它们主要有以下两点区别：(1)模块的输入不同。注意两个深度卷积并没有共享权重，本文通道交互的输入来自另一个并行的分支。(2)本申请只将通道交互应用于局部窗口自注意力模块中的V值计算，而不是像SE层那样将其应用于模块的输出。

本申请采用的损失函数如下：

(1)RPN分类损失和级联检测头损失。本文使用多元交叉熵损失函数，边界框分类的目标对每一个边界框分配C+1个类别标签，用概率p表示。其中，C是所有的类别，还有一个是背景。对于训练样本x_i和y_i，其中y_i是输入x_i的真实标签值，多元交叉熵损失函数如公式(3)：

其中，W_j如公式(4)：

(2)RPN边界框回归损失，边界框回归旨在使用回归函数将候选边界框b＝(b_x,b_y,b_w,b_h)回归到目标边界框g＝(g_x,g_y,g_w,g_h)，最小化损失函数L_BIoc(b_i,g_i)为：

其中，

Smooth L₁损失被定义为：

其中，N_reg表示锚位置的个数，当候选框为正样本时为1，当候选框为负样本时为0，b_i表示预测第i个锚的边界框回归参数，g_i表示第i个锚对应的真实框。

(3)级联检测头边界框回归损失。直接增大定位损失(即回归损失)的权重会导致模型对一些定位异常的值更加敏感。在Smooth L₁损失的导数方程中加入梯度限制后，平衡L₁损失的梯度公式可以定义如下：

其中α表示异常值的贡献，γ是异常值误差的上限。本文L1_balanced如下：

其中b用于保证在/>处是连续的，C是一个常数，参数之间的条件如下：

αln(b+1)＝γ (10)

其中，a和γ为超参数，默认值设置为0.5和1.5，小的α使得反向传播的梯度更大，γ调节回归错误的上界，反向传播的梯度不超过γ。

(4)总损失。总损失包括RPN阶段的分类损失和回归损失以及三个阶段的分类损失和回归损失。本文将平衡的L₁损失应用于级联检测头的第一、第二和第三个阶段。并为三个阶段的损失和RPN损失分配了相应的权重。总损失函数可以写成：

L＝aL_RPw+bL_stage1+cL_stage2+dL_stage3 (II)

其中：

a＝1,b＝0.75,c＝0.5,d＝0.25，a、b、c和d代表损失的权重系数。L_{RPN_cls}表示RPN分类损失，L_{RPN_reg}为RPN回归损失。L_stage1、L_stage2和L_stage3代表三个阶段的总损失，L_{stage1_cls}、L_{stage2_cls}和L_{stage3_cls}是每个阶段的分类损失，L_{stage1_reg}、L_stag_{e2_reg}和L_{stage3_reg}是每个阶段的回归损失。

与现有技术相比，上述技术方案具有以下优点：

本申请提出一种实用的自注意力方法，对V值的计算采用通道交互模块可以解决局部窗口自注意力缺乏方向感知和位置信息的问题，通过深度卷积缩减输入令牌的尺寸，来降低自注意力计算的复杂度。采用平衡的L₁损失并且在总损失函数中配置不同阶段损失的权重来解决简单样本和困难样本梯度不平衡问题，改进的方法在机房人员检测中取得了优良的效果，提高无人值守机房的维护效率，为机房正常、安全、可靠地运行提供保障。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是算法整体框架图；

图2是骨干网络。

具体实施方式

基于Swin Transformer存在的上述技术问题，本申请提出了一种机房人员检测方法，该方法具体为一种基于图像分层视觉Transformer的机房人员检测方法，

本申请提出了一种基于图像分层视觉Transformer的机房人员检测方法，具体包括：

检测方法的网络结构由四部分组成，包括Swin-T骨干网络、特征金字塔(FeaturePyramid Networks，FPN)、区域提议网络(Region Proposal Network，RPN)和级联检测头。如图1所示，Swin Transformer用于提取图像特征，FPN主要用于提取多尺度特征。RPN是几个卷积层的组合，它产生可能存在对象的感兴趣区域(Region Of Interest，ROI)。级联检测头对感兴趣区域进行分类和定位，并输出最终的检测结果。在级联检测头中，FC是全连接层，C是分类概率，B是候选框的回归。

本文的骨干网络如图2(a)所示。首先将图片输入到块切分模块中进行分块。即每4×4相邻的像素为一个块，然后在通道方向展平。假设输入的是RGB三通道图片，那么每个块就有4×4＝16个像素，然后每个像素有R、G、B三个值展平后是16×3＝48，所以通过块切分模块后图像尺寸由(H,W,3)成了然后在通过线性映射层对每个像素的通道数据做线性变换，由48变成96，即图像尺寸再由/>变成了/>然后就是通过四个阶段构建不同大小的特征图，除了阶段1中先通过一个线性映射层外，剩下三个阶段都是先通过一个块合并层进行下采样。然后都是重复堆叠Swin Transformer模块，注意这里的模块其实有两种结构。如图2(b)中所示，标准的基于窗口的多头自注意力(W-MSA)模块和移位窗口的多头自注意力(SW-MSA)模块在Swin Transformer模块中串联使用。S(W)-MSA前后有层归一化(LN)，最后一个MPL由两个GELU非线性激活函数组成。本文中W-MSA和SW-MSA的连接可以用下面的公式所示，其中/>是(S)W-EMSA的输出，Z^l是MLP的输出，l-1、l和l+1表示位置。

本申请设计一种实用的自注意力模块，在标准的基于窗口的注意力模块上(W-MSA)增加了两个关键设计：(1)设计一种计算量更小自注意力机制，减少自注意力机制计算复杂度。(2)考虑到卷积层旨在模拟局部关系，通过添加通道交互模块，使用并行的深度卷积(全局计算)和基于局部窗口的自注意力计算，来解决局部窗口自注意力缺乏方向感知和位置信息的问题。本文将这两个关键点整合并构建改进的自注意力模块。接下来描述细节。如图2(c)所示，通过对输入线性投影得到查询/>其中n＝H×W。将输入重塑为空间向量(d_m,H,W)，通过内核为s×s、步长为s的深度卷积来减少输入X的尺寸。令牌的尺寸由(d_m,H,W)变为/>将高和宽度都缩减s倍，经过线性转换得到其中，X是输入令牌，n是块数量，H是输入图像高方向图像块的数量，W是输入图像宽方向图像块的数量，d_m是每个图像块嵌入维度，查询向量维度、关键向量和值向量的嵌入维度是d_k，n′是块数量。

V＝FC(LN(DW₁(X)))·Sigmoid(conv(SILU(BN(conv(GAP(DW₂(x)))))))) (1)

最终得到其中DW₂是卷积核为3×3的深度卷积，这里需要注意DW₁和DW₂的区别，DW₁输入X尺寸缩小s倍。DW₂不改变输入X的尺寸和通道数，保留更多通道信息，conv是1×1的卷积。然后，通过以下公式计算Q、K和V的自注意函数：

最后通过线性变换与X相加得到最终输出。本文的通道交互模块和SE层的设计相似，但它们主要有以下两点区别：1、模块的输入不同。注意两个深度卷积并没有共享权重，本文通道交互的输入来自另一个并行的分支。2、本申请只将通道交互应用于局部窗口自注意力模块中的V值计算，而不是像SE层那样将其应用于模块的输出。

本申请采用的损失函数如下：

其中，W_j如公式(4)：

其中，

Smooth L₁损失被定义为：

αln(b+1)＝γ (10)

其中，α和γ为超参数，默认值设置为0.5和1.5，小的α使得反向传播的梯度更大，γ调节回归错误的上界，反向传播的梯度不超过γ。

(4)总损失。总损失包括RPN阶段的分类损失和回归损失以及三个阶段的分类损失和回归损失。本文将平衡的L1损失应用于级联检测头的第一、第二和第三个阶段。并为三个阶段的损失和RPN损失分配了相应的权重。总损失函数可以写成：

L＝aL_RPw+bL_stage1+CL_stage2+dL_stage3 (II)

其中：

a＝1,b＝0.75,c＝0.5,d＝0.25，a、b、c和d代表损失的权重系数。L_{RPN_cls}表示RPN分类损失，L_{RPN_reg}为RPN回归损失。L_stage1、L_stage2和L_stage3代表三个阶段的总损失，L_{stage1_cls}、L_{stage2_cls}和L_{stage3_cls}是每个阶段的分类损失，L_{stage1_reg}、L_{stage2_reg}和L_{stage3_reg}是每个阶段的回归损失。

为了验证本申请方法对机房人员检测的性能，将与目前流行的目标检测算法进行比较，测试基于ResNet50的DETR、基于ResNet50的Deformable DETR、YOLOX-x、基于ResNext101且使用FPN的Retinanet、基于ResNet50的YOLOF算法以及级联SwinTransformer-T等算法的检测性能，如表1所示。首先，考虑IoU＝0.5的mAP值，SwinTransformer的检测精度要优于DETR、Deformable DETR和YOLOF等算法，Swin Transformer相比于一阶段算法Retinanet检测精度要高0.05个点。这似乎表明两阶段算法在机房人员检测领域比端到端和一阶段算法有更高的检测精度，当然这不包括YOLOX-x，因为YOLOX主要是集合了各种技巧为一体的集大成的检测算法。YOLOX-x的检测精确度要优于SwinTransformer。Deformable_DETR比DETR的检测精度提上了1.4个点。本文的检测网络基于改进的Swin Transformer检测网络mAP_@0.5是89.7％，相较于Swin Transformer-T检测精度提升了3.2个点，本文改进的算法的检测精度比YOLOX-x还要高0.6个点。其次，在检测小物体方面，本文改进的算法检测小物体方面仅次于YOLOX，且DETR系列的算法在检测小目标方面性能最差。Deformable_DETR在小物体方面的检测性能要高于DETR。另外除了YOLOX，在检测小物体方面，两阶段的检测算法明显比一阶段的算法要好一些。最后，在模型复杂度方面，为了保障公平性，所有目标检测网络的输入尺寸都设置为(3，1280，800)，相比较于SwinTransformer，本文的GFlOPS减少5.43G，参数量增加3.42M。本文改进方法对Swin-Transformer的检测精度提升是巨大的。

表1不同模型检测结果比较

本申请测试每一项改进的检测性能，通过mAP_@0.5来衡量检测性能。实验结果如表2所示，采用改进的Swin Transformer模块(ISTB)检测精度提升1.83个点。使用平衡的损失函数(BLOSS)，检测精度提升1.4个点。因此，综合使用本文改进的方法，可以提升SwinTransformer的检测的精度。

表2综合使用改进方法的实验结果

本说明书中各个部分采用递进的方式描述，每个部分重点说明的都是与其他部分的不同之处，各个部分之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本申请中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本申请所示的实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于图像分层视觉的机房人员检测方法，其特征在于，该方法的网络结构由四部分组成，包括Swin Transformer骨干网络、特征金字塔(Feature Pyramid Networks，FPN)、区域提议网络(Region Proposal Network，RPN)和级联检测头，Swin Transformer用于提取关于机房人员的图像特征，FPN主要用于提取多尺度特征，RPN是几个卷积层的组合，它产生可能存在对象的感兴趣区域(Region Of Interest，ROI)，级联检测头对感兴趣区域进行分类和定位，并输出最终的检测结果，在级联检测头中，FC是全连接层，C是分类概率，B是候选框的回归；

在Swin Transformer骨干网络中标准的基于窗口的多头自注意力(W-MSA)模块中增加两个关键设计：(1)设计一种计算量更小自注意力机制，减少自注意力机制计算复杂度；(2)考虑到卷积层旨在模拟局部关系，通过添加通道交互模块，使用并行的深度卷积(全局计算)和基于局部窗口的自注意力计算，来解决局部窗口自注意力缺乏方向感知和位置信息的问题；

另外，采用平衡的L₁损失并且在总损失函数中配置不同阶段损失的权重来解决简单样本和困难样本梯度不平衡问题；

其中，设计一种计算量更小自注意力机制，减少自注意力机制计算复杂度，具体包括：

通过对输入令牌线性投影得到查询/>其中n＝H×W，然后将输入/>重塑为空间向量(d_m，H，W)，通过卷积核大小为s×s、步长为s的深度卷积(DW₁)来减少输入X的尺寸，令牌的尺寸由(d_m，H，W)变为/>将高和宽度都缩减s倍，经过线性转换得到/> 通过深度卷积缩减输入令牌的尺寸，来降低自注意力计算的复杂度；其中，X是输入令牌，n是块数量，H是输入图像高方向图像块的数量，W是输入图像宽方向图像块的数量，d_m是每个图像块嵌入维度，查询向量维度、关键向量和值向量的嵌入维度是d_k，n′是块数量。

2.根据权利要求1所述的方法，其特征在于，考虑到卷积层旨在模拟局部关系，通过添加通道交互模块，使用并行的深度卷积(全局计算)和基于局部窗口的自注意力计算，来解决局部窗口自注意力缺乏方向感知和位置信息的问题，具体包括：

对于V的值，我们加入通道交互模块来计算，受通道注意力(SE)启发，通道交互包含一个深度卷积、一个全局平均池化层(GAP)，然后是两个连续的1×1卷积层、批量归一化(BN)和它们之间的激活函数(SILU)，最后，我们使用Sigmoid在通道维度上产生注意力，V的计算公式如下所示，

V＝FC(LN(DW₁(X))).Sigmoid(conv(SILU(BN(conv(GAP(DW₂(x))))))) (1)

其中，FC是全连接，BN是批量归一化，DW₁是深度卷积，X是输入令牌向量，conv是1×1卷积，GAP是全局平均池化，DW₂是深度卷积；

最终得到其中DW₂是卷积核为3×3的深度卷积，这里需要注意DW₁和DW₂的区别，经过DW₁后输入X尺寸缩小s倍，经过DW₂后不改变输入X的尺寸和通道数，保留更多通道信息，conv是1×1的卷积，然后，通过以下公式计算Q、K和V的自注意函数：

最后通过线性变换与X相加得到最终输出，通道交互模块和SE层的设计相似，但它们主要有以下两点区别：首先，模块的输入不同，注意两个深度卷积并没有共享权重，通道交互的输入来自另一个并行的分支；其次，将通道交互应用于局部窗口自注意力模块中的V值计算，而不是像SE层那样将其应用于模块的输出。

3.根据权利要求1所述的方法，其特征在于，采用平衡的L₁损失并且在总损失函数中配置不同阶段损失的权重来解决简单样本和困难样本梯度不平衡问题，具体包括：

(1)RPN分类损失和级联检测头损失，本文使用多元交叉熵损失函数，边界框分类的目标对每一个边界框分配C+1个类别标签，用概率p表示，其中，C是所有的类别，还有一个是背景，对于训练样本x_i和y_i，其中y_i是输入x_i的真实标签值，多元交叉熵损失函数如公式(3)：

其中，W_j如公式(4)：

(2)RPN边界框回归损失，边界框回归旨在使用回归函数将候选边界框b＝(b_x，b_y，b_w，b_h)回归到目标边界框g＝(g_x，g_y，g_w，g_h)，最小化损失函数L_BIoc(b_i，g_i)为：

其中，

Smooth L₁损失被定义为：

其中，N_reg表示锚位置的个数，当候选框为正样本时为1，当候选框为负样本时/>为0，b_i表示预测第i个锚的边界框回归参数，g_i表示第i个锚对应的真实框；

(3)级联检测头边界框回归损失，直接增大定位损失(即回归损失)的权重会导致模型对一些定位异常的值更加敏感，在Smooth L₁损失的导数方程中加入梯度限制后，平衡L₁损失的梯度公式可以定义如下：

其中α表示异常值的贡献，γ是异常值误差的上限，本文L1_balanced如下：

其中参数b用于保证在/>处是连续的，C是一个常数，参数之间的条件如下：

αln(b+1)＝γ (10)

其中，α和γ为超参数，默认值设置为0.5和1.5，小的α使得反向传播的梯度更大，γ调节回归错误的上界，反向传播的梯度不超过γ；

(4)总损失；总损失包括RPN阶段的分类损失和回归损失以及三个阶段的分类损失和回归损失，本文将平衡的L₁损失应用于级联检测头的第一、第二和第三个阶段，并为三个阶段的损失和RPN损失分配了相应的权重，总损失函数可以写成：

L＝aL_RPN+bL_stage1+cL_stage2+dL_stage3 (11)

其中：

a＝1，b＝0.75，c＝0.5，d＝0.25，a、b、c和d代表损失的权重系数；L_{RPN_cls}表示RPN分类损失，L_{RPN_reg}为RPN回归损失；L_stage1、L_stage2和L_stage3代表三个阶段的总损失，L_{stage1_cls}、L_{stage2_cls}和L_{stage3_cls}是每个阶段的分类损失，L_{stage1_reg}、L_{stage2_reg}和L_{stage3_reg}是每个阶段的回归损失。