CN115063833B - 一种基于图像分层视觉的机房人员检测方法 - Google Patents
一种基于图像分层视觉的机房人员检测方法 Download PDFInfo
- Publication number
- CN115063833B CN115063833B CN202210529776.7A CN202210529776A CN115063833B CN 115063833 B CN115063833 B CN 115063833B CN 202210529776 A CN202210529776 A CN 202210529776A CN 115063833 B CN115063833 B CN 115063833B
- Authority
- CN
- China
- Prior art keywords
- loss
- attention
- self
- convolution
- rpn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 108091006146 Channels Proteins 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 29
- 230000003993 interaction Effects 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000008447 perception Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims 1
- 230000006735 deficit Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像分层视觉的机房人员检测方法,该方法具体为基于移位窗口分层视觉Transformer的级联检测器。本申请设计一种实用的自注意力方法,通过深度卷积缩减输入令牌的尺寸,来降低自注意力计算的复杂度,对V值的计算采用通道交互模块可以解决局部窗口自注意力缺乏方向感知和位置信息的问题。其次,采用平衡的L1损失并且在总损失函数中配置不同阶段损失的权重来解决简单样本和困难样本不平衡问题。改进的方法相对于原始Swin Transformer检测精度mAP@0.5提升了3.2%。
Description
技术领域
本发明属于图像领域,尤其涉及一种基于图像分层视觉的机房人员检测方法。
背景技术
机房人员检测是计算机视觉领域的关键任务之一,卷积神经网络(ConvolutionalNeural Network,CNN)已广泛应用于机房人员检测任务中,如RCNN系列、YOLO系列。CNN在提取局部有效信息作用很大,但它们缺乏从全局信息中提取远程特征的能力。最近具有全局计算功能的Transformer被广泛应用到计算机视觉任务中,并取得了显著的效果。Transformer中采用自我注意的方法,可以挖掘文本中的长期相关性依赖。现阶段许多计算机视觉任务采用自我注意机制来克服CNN的局限性,使用自我注意力(Self-Attention,SA)更快地获得远程元素之间的关系。因此,在机房人员检测领域探索Transformer的潜力是非常重要的。
最近提出的Swin Transformer通过构建层级特征结构,可以轻松适配特征金字塔等,并且它基于局部窗口的自注意力计算将复杂度由二次降低到线性。这些特点使得SwinTransformer可以作为一种通用模型用于各种视觉任务。但是Swin Transformer在机房人员检测中仍存在三个问题:(1)在非重叠窗口内执行自注意力会仍然具有较高的计算复杂度。(2)在非重叠窗口内执行自注意力计算,它会缺乏方向感知和位置信息,即不能很好的捕获跨通道的信息。(3)在训练过程中,简单样本和困难样本之间也存在不平衡,在梯度反向传播时,简单样本的梯度作用太小。
发明内容
基于Swin Transformer存在的上述技术问题,本申请提出了一种机房人员检测方法,该方法具体为基于一种图像分层视觉Transformer的机房人员检测方法,
一种基于图像分层视觉的机房人员检测方法,所述方法包括:
本申请设计一种实用的自注意力模块,在标准的基于窗口的注意力模块上(W-MSA)增加了两个关键设计:(1)设计一种计算量更小自注意力机制,减少自注意力机制计算复杂度。(2)考虑到卷积层旨在模拟局部关系,通过添加通道交互模块,使用并行的深度卷积(全局计算)和基于局部窗口的自注意力计算,来解决局部窗口自注意力缺乏方向感知和位置信息的问题。本文将这两个关键点整合并构建改进的自注意力模块。接下来描述细节。如图2(c)所示,通过对输入线性投影得到查询/>其中n=H×W。将输入/>重塑为空间向量(dm,H,W),通过卷积核为s×s、步长为s的深度卷积来减少输入X的尺寸。令牌的尺寸由(dm,H,W)变为/>将高和宽度都缩减s倍,经过线性转换得到/>其中,X是输入令牌,n是块数量,H是输入图像高方向图像块的数量,W是输入图像宽方向图像块的数量,dm是每个图像块嵌入维度,查询向量维度、关键向量和值向量的嵌入维度是dk,n′是块数量。
对于V的值,我们加入通道交互模块来计算。受通道注意力(SE)启发,通道交互包含一个DW2深度卷积、一个全局平均池化层(GAP),然后是两个连续的1×1卷积层、批量归一化(BN)和它们之间的激活(SILU)。最后,我们使用Sigmoid在通道维度上产生注意力。V的计算公式如下所示,
V=FC(LN(DW1(X))).Sigmoid(conv(SILU(BN(conv(GAP(DW2(x)))))))) (1)
其中,FC是全连接,BN是批量归一化,DW1是深度卷积,X是输入令牌向量,conv是1×1卷积,GAP是全局平均池化,DW2是深度卷积。
最终得到其中DW2是卷积核为3×的深度卷积,这里需要注意DW1和DW2的区别,经过DW1后输入X尺寸缩小s倍,经过DW2后不改变输入X的尺寸和通道数,保留更多通道信息,conv是1×1的卷积,然后,通过以下公式计算Q、K和V的自注意函数:
最后通过线性变换与X相加得到最终输出。本文的通道交互模块和SE层的设计相似,但它们主要有以下两点区别:(1)模块的输入不同。注意两个深度卷积并没有共享权重,本文通道交互的输入来自另一个并行的分支。(2)本申请只将通道交互应用于局部窗口自注意力模块中的V值计算,而不是像SE层那样将其应用于模块的输出。
本申请采用的损失函数如下:
(1)RPN分类损失和级联检测头损失。本文使用多元交叉熵损失函数,边界框分类的目标对每一个边界框分配C+1个类别标签,用概率p表示。其中,C是所有的类别,还有一个是背景。对于训练样本xi和yi,其中yi是输入xi的真实标签值,多元交叉熵损失函数如公式(3):
其中,Wj如公式(4):
(2)RPN边界框回归损失,边界框回归旨在使用回归函数将候选边界框b=(bx,by,bw,bh)回归到目标边界框g=(gx,gy,gw,gh),最小化损失函数LBIoc(bi,gi)为:
其中,
Smooth L1损失被定义为:
其中,Nreg表示锚位置的个数,当候选框为正样本时为1,当候选框为负样本时为0,bi表示预测第i个锚的边界框回归参数,gi表示第i个锚对应的真实框。
(3)级联检测头边界框回归损失。直接增大定位损失(即回归损失)的权重会导致模型对一些定位异常的值更加敏感。在Smooth L1损失的导数方程中加入梯度限制后,平衡L1损失的梯度公式可以定义如下:
其中α表示异常值的贡献,γ是异常值误差的上限。本文L1balanced如下:
其中b用于保证在/>处是连续的,C是一个常数,参数之间的条件如下:
αln(b+1)=γ (10)
其中,a和γ为超参数,默认值设置为0.5和1.5,小的α使得反向传播的梯度更大,γ调节回归错误的上界,反向传播的梯度不超过γ。
(4)总损失。总损失包括RPN阶段的分类损失和回归损失以及三个阶段的分类损失和回归损失。本文将平衡的L1损失应用于级联检测头的第一、第二和第三个阶段。并为三个阶段的损失和RPN损失分配了相应的权重。总损失函数可以写成:
L=aLRPw+bLstage1+cLstage2+dLstage3 (II)
其中:
a=1,b=0.75,c=0.5,d=0.25,a、b、c和d代表损失的权重系数。LRPN_cls表示RPN分类损失,LRPN_reg为RPN回归损失。Lstage1、Lstage2和Lstage3代表三个阶段的总损失,Lstage1_cls、Lstage2_cls和Lstage3_cls是每个阶段的分类损失,Lstage1_reg、Lstage2_reg和Lstage3_reg是每个阶段的回归损失。
与现有技术相比,上述技术方案具有以下优点:
本申请提出一种实用的自注意力方法,对V值的计算采用通道交互模块可以解决局部窗口自注意力缺乏方向感知和位置信息的问题,通过深度卷积缩减输入令牌的尺寸,来降低自注意力计算的复杂度。采用平衡的L1损失并且在总损失函数中配置不同阶段损失的权重来解决简单样本和困难样本梯度不平衡问题,改进的方法在机房人员检测中取得了优良的效果,提高无人值守机房的维护效率,为机房正常、安全、可靠地运行提供保障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是算法整体框架图;
图2是骨干网络。
具体实施方式
基于Swin Transformer存在的上述技术问题,本申请提出了一种机房人员检测方法,该方法具体为一种基于图像分层视觉Transformer的机房人员检测方法,
本申请提出一种实用的自注意力方法,对V值的计算采用通道交互模块可以解决局部窗口自注意力缺乏方向感知和位置信息的问题,通过深度卷积缩减输入令牌的尺寸,来降低自注意力计算的复杂度。采用平衡的L1损失并且在总损失函数中配置不同阶段损失的权重来解决简单样本和困难样本梯度不平衡问题,改进的方法在机房人员检测中取得了优良的效果,提高无人值守机房的维护效率,为机房正常、安全、可靠地运行提供保障。
本申请提出了一种基于图像分层视觉Transformer的机房人员检测方法,具体包括:
检测方法的网络结构由四部分组成,包括Swin-T骨干网络、特征金字塔(FeaturePyramid Networks,FPN)、区域提议网络(Region Proposal Network,RPN)和级联检测头。如图1所示,Swin Transformer用于提取图像特征,FPN主要用于提取多尺度特征。RPN是几个卷积层的组合,它产生可能存在对象的感兴趣区域(Region Of Interest,ROI)。级联检测头对感兴趣区域进行分类和定位,并输出最终的检测结果。在级联检测头中,FC是全连接层,C是分类概率,B是候选框的回归。
本文的骨干网络如图2(a)所示。首先将图片输入到块切分模块中进行分块。即每4×4相邻的像素为一个块,然后在通道方向展平。假设输入的是RGB三通道图片,那么每个块就有4×4=16个像素,然后每个像素有R、G、B三个值展平后是16×3=48,所以通过块切分模块后图像尺寸由(H,W,3)成了然后在通过线性映射层对每个像素的通道数据做线性变换,由48变成96,即图像尺寸再由/>变成了/>然后就是通过四个阶段构建不同大小的特征图,除了阶段1中先通过一个线性映射层外,剩下三个阶段都是先通过一个块合并层进行下采样。然后都是重复堆叠Swin Transformer模块,注意这里的模块其实有两种结构。如图2(b)中所示,标准的基于窗口的多头自注意力(W-MSA)模块和移位窗口的多头自注意力(SW-MSA)模块在Swin Transformer模块中串联使用。S(W)-MSA前后有层归一化(LN),最后一个MPL由两个GELU非线性激活函数组成。本文中W-MSA和SW-MSA的连接可以用下面的公式所示,其中/>是(S)W-EMSA的输出,Zl是MLP的输出,l-1、l和l+1表示位置。
本申请设计一种实用的自注意力模块,在标准的基于窗口的注意力模块上(W-MSA)增加了两个关键设计:(1)设计一种计算量更小自注意力机制,减少自注意力机制计算复杂度。(2)考虑到卷积层旨在模拟局部关系,通过添加通道交互模块,使用并行的深度卷积(全局计算)和基于局部窗口的自注意力计算,来解决局部窗口自注意力缺乏方向感知和位置信息的问题。本文将这两个关键点整合并构建改进的自注意力模块。接下来描述细节。如图2(c)所示,通过对输入线性投影得到查询/>其中n=H×W。将输入 重塑为空间向量(dm,H,W),通过内核为s×s、步长为s的深度卷积来减少输入X的尺寸。令牌的尺寸由(dm,H,W)变为/>将高和宽度都缩减s倍,经过线性转换得到其中,X是输入令牌,n是块数量,H是输入图像高方向图像块的数量,W是输入图像宽方向图像块的数量,dm是每个图像块嵌入维度,查询向量维度、关键向量和值向量的嵌入维度是dk,n′是块数量。
对于V的值,我们加入通道交互模块来计算。受通道注意力(SE)启发,通道交互包含一个DW2深度卷积、一个全局平均池化层(GAP),然后是两个连续的1×1卷积层、批量归一化(BN)和它们之间的激活(SILU)。最后,我们使用Sigmoid在通道维度上产生注意力。V的计算公式如下所示,
V=FC(LN(DW1(X)))·Sigmoid(conv(SILU(BN(conv(GAP(DW2(x)))))))) (1)
最终得到其中DW2是卷积核为3×3的深度卷积,这里需要注意DW1和DW2的区别,DW1输入X尺寸缩小s倍。DW2不改变输入X的尺寸和通道数,保留更多通道信息,conv是1×1的卷积。然后,通过以下公式计算Q、K和V的自注意函数:
最后通过线性变换与X相加得到最终输出。本文的通道交互模块和SE层的设计相似,但它们主要有以下两点区别:1、模块的输入不同。注意两个深度卷积并没有共享权重,本文通道交互的输入来自另一个并行的分支。2、本申请只将通道交互应用于局部窗口自注意力模块中的V值计算,而不是像SE层那样将其应用于模块的输出。
本申请采用的损失函数如下:
(1)RPN分类损失和级联检测头损失。本文使用多元交叉熵损失函数,边界框分类的目标对每一个边界框分配C+1个类别标签,用概率p表示。其中,C是所有的类别,还有一个是背景。对于训练样本xi和yi,其中yi是输入xi的真实标签值,多元交叉熵损失函数如公式(3):
其中,Wj如公式(4):
(2)RPN边界框回归损失,边界框回归旨在使用回归函数将候选边界框b=(bx,by,bw,bh)回归到目标边界框g=(gx,gy,gw,gh),最小化损失函数LBIoc(bi,gi)为:
其中,
Smooth L1损失被定义为:
其中,Nreg表示锚位置的个数,当候选框为正样本时为1,当候选框为负样本时为0,bi表示预测第i个锚的边界框回归参数,gi表示第i个锚对应的真实框。
(3)级联检测头边界框回归损失。直接增大定位损失(即回归损失)的权重会导致模型对一些定位异常的值更加敏感。在Smooth L1损失的导数方程中加入梯度限制后,平衡L1损失的梯度公式可以定义如下:
其中α表示异常值的贡献,γ是异常值误差的上限。本文L1balanced如下:
其中b用于保证在/>处是连续的,C是一个常数,参数之间的条件如下:
αln(b+1)=γ (10)
其中,α和γ为超参数,默认值设置为0.5和1.5,小的α使得反向传播的梯度更大,γ调节回归错误的上界,反向传播的梯度不超过γ。
(4)总损失。总损失包括RPN阶段的分类损失和回归损失以及三个阶段的分类损失和回归损失。本文将平衡的L1损失应用于级联检测头的第一、第二和第三个阶段。并为三个阶段的损失和RPN损失分配了相应的权重。总损失函数可以写成:
L=aLRPw+bLstage1+CLstage2+dLstage3 (II)
其中:
a=1,b=0.75,c=0.5,d=0.25,a、b、c和d代表损失的权重系数。LRPN_cls表示RPN分类损失,LRPN_reg为RPN回归损失。Lstage1、Lstage2和Lstage3代表三个阶段的总损失,Lstage1_cls、Lstage2_cls和Lstage3_cls是每个阶段的分类损失,Lstage1_reg、Lstage2_reg和Lstage3_reg是每个阶段的回归损失。
为了验证本申请方法对机房人员检测的性能,将与目前流行的目标检测算法进行比较,测试基于ResNet50的DETR、基于ResNet50的Deformable DETR、YOLOX-x、基于ResNext101且使用FPN的Retinanet、基于ResNet50的YOLOF算法以及级联SwinTransformer-T等算法的检测性能,如表1所示。首先,考虑IoU=0.5的mAP值,SwinTransformer的检测精度要优于DETR、Deformable DETR和YOLOF等算法,Swin Transformer相比于一阶段算法Retinanet检测精度要高0.05个点。这似乎表明两阶段算法在机房人员检测领域比端到端和一阶段算法有更高的检测精度,当然这不包括YOLOX-x,因为YOLOX主要是集合了各种技巧为一体的集大成的检测算法。YOLOX-x的检测精确度要优于SwinTransformer。Deformable_DETR比DETR的检测精度提上了1.4个点。本文的检测网络基于改进的Swin Transformer检测网络mAP@0.5是89.7%,相较于Swin Transformer-T检测精度提升了3.2个点,本文改进的算法的检测精度比YOLOX-x还要高0.6个点。其次,在检测小物体方面,本文改进的算法检测小物体方面仅次于YOLOX,且DETR系列的算法在检测小目标方面性能最差。Deformable_DETR在小物体方面的检测性能要高于DETR。另外除了YOLOX,在检测小物体方面,两阶段的检测算法明显比一阶段的算法要好一些。最后,在模型复杂度方面,为了保障公平性,所有目标检测网络的输入尺寸都设置为(3,1280,800),相比较于SwinTransformer,本文的GFlOPS减少5.43G,参数量增加3.42M。本文改进方法对Swin-Transformer的检测精度提升是巨大的。
表1不同模型检测结果比较
本申请测试每一项改进的检测性能,通过mAP@0.5来衡量检测性能。实验结果如表2所示,采用改进的Swin Transformer模块(ISTB)检测精度提升1.83个点。使用平衡的损失函数(BLOSS),检测精度提升1.4个点。因此,综合使用本文改进的方法,可以提升SwinTransformer的检测的精度。
表2综合使用改进方法的实验结果
本说明书中各个部分采用递进的方式描述,每个部分重点说明的都是与其他部分的不同之处,各个部分之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本申请所示的实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。
Claims (3)
1.一种基于图像分层视觉的机房人员检测方法,其特征在于,该方法的网络结构由四部分组成,包括Swin Transformer骨干网络、特征金字塔(Feature Pyramid Networks,FPN)、区域提议网络(Region Proposal Network,RPN)和级联检测头,Swin Transformer用于提取关于机房人员的图像特征,FPN主要用于提取多尺度特征,RPN是几个卷积层的组合,它产生可能存在对象的感兴趣区域(Region Of Interest,ROI),级联检测头对感兴趣区域进行分类和定位,并输出最终的检测结果,在级联检测头中,FC是全连接层,C是分类概率,B是候选框的回归;
在Swin Transformer骨干网络中标准的基于窗口的多头自注意力(W-MSA)模块中增加两个关键设计:(1)设计一种计算量更小自注意力机制,减少自注意力机制计算复杂度;(2)考虑到卷积层旨在模拟局部关系,通过添加通道交互模块,使用并行的深度卷积(全局计算)和基于局部窗口的自注意力计算,来解决局部窗口自注意力缺乏方向感知和位置信息的问题;
另外,采用平衡的L1损失并且在总损失函数中配置不同阶段损失的权重来解决简单样本和困难样本梯度不平衡问题;
其中,设计一种计算量更小自注意力机制,减少自注意力机制计算复杂度,具体包括:
通过对输入令牌线性投影得到查询/>其中n=H×W,然后将输入/>重塑为空间向量(dm,H,W),通过卷积核大小为s×s、步长为s的深度卷积(DW1)来减少输入X的尺寸,令牌的尺寸由(dm,H,W)变为/>将高和宽度都缩减s倍,经过线性转换得到/> 通过深度卷积缩减输入令牌的尺寸,来降低自注意力计算的复杂度;其中,X是输入令牌,n是块数量,H是输入图像高方向图像块的数量,W是输入图像宽方向图像块的数量,dm是每个图像块嵌入维度,查询向量维度、关键向量和值向量的嵌入维度是dk,n′是块数量。
2.根据权利要求1所述的方法,其特征在于,考虑到卷积层旨在模拟局部关系,通过添加通道交互模块,使用并行的深度卷积(全局计算)和基于局部窗口的自注意力计算,来解决局部窗口自注意力缺乏方向感知和位置信息的问题,具体包括:
对于V的值,我们加入通道交互模块来计算,受通道注意力(SE)启发,通道交互包含一个深度卷积、一个全局平均池化层(GAP),然后是两个连续的1×1卷积层、批量归一化(BN)和它们之间的激活函数(SILU),最后,我们使用Sigmoid在通道维度上产生注意力,V的计算公式如下所示,
V=FC(LN(DW1(X))).Sigmoid(conv(SILU(BN(conv(GAP(DW2(x))))))) (1)
其中,FC是全连接,BN是批量归一化,DW1是深度卷积,X是输入令牌向量,conv是1×1卷积,GAP是全局平均池化,DW2是深度卷积;
最终得到其中DW2是卷积核为3×3的深度卷积,这里需要注意DW1和DW2的区别,经过DW1后输入X尺寸缩小s倍,经过DW2后不改变输入X的尺寸和通道数,保留更多通道信息,conv是1×1的卷积,然后,通过以下公式计算Q、K和V的自注意函数:
最后通过线性变换与X相加得到最终输出,通道交互模块和SE层的设计相似,但它们主要有以下两点区别:首先,模块的输入不同,注意两个深度卷积并没有共享权重,通道交互的输入来自另一个并行的分支;其次,将通道交互应用于局部窗口自注意力模块中的V值计算,而不是像SE层那样将其应用于模块的输出。
3.根据权利要求1所述的方法,其特征在于,采用平衡的L1损失并且在总损失函数中配置不同阶段损失的权重来解决简单样本和困难样本梯度不平衡问题,具体包括:
(1)RPN分类损失和级联检测头损失,本文使用多元交叉熵损失函数,边界框分类的目标对每一个边界框分配C+1个类别标签,用概率p表示,其中,C是所有的类别,还有一个是背景,对于训练样本xi和yi,其中yi是输入xi的真实标签值,多元交叉熵损失函数如公式(3):
其中,Wj如公式(4):
(2)RPN边界框回归损失,边界框回归旨在使用回归函数将候选边界框b=(bx,by,bw,bh)回归到目标边界框g=(gx,gy,gw,gh),最小化损失函数LBIoc(bi,gi)为:
其中,
Smooth L1损失被定义为:
其中,Nreg表示锚位置的个数,当候选框为正样本时为1,当候选框为负样本时/>为0,bi表示预测第i个锚的边界框回归参数,gi表示第i个锚对应的真实框;
(3)级联检测头边界框回归损失,直接增大定位损失(即回归损失)的权重会导致模型对一些定位异常的值更加敏感,在Smooth L1损失的导数方程中加入梯度限制后,平衡L1损失的梯度公式可以定义如下:
其中α表示异常值的贡献,γ是异常值误差的上限,本文L1balanced如下:
其中参数b用于保证在/>处是连续的,C是一个常数,参数之间的条件如下:
αln(b+1)=γ (10)
其中,α和γ为超参数,默认值设置为0.5和1.5,小的α使得反向传播的梯度更大,γ调节回归错误的上界,反向传播的梯度不超过γ;
(4)总损失;总损失包括RPN阶段的分类损失和回归损失以及三个阶段的分类损失和回归损失,本文将平衡的L1损失应用于级联检测头的第一、第二和第三个阶段,并为三个阶段的损失和RPN损失分配了相应的权重,总损失函数可以写成:
L=aLRPN+bLstage1+cLstage2+dLstage3 (11)
其中:
a=1,b=0.75,c=0.5,d=0.25,a、b、c和d代表损失的权重系数;LRPN_cls表示RPN分类损失,LRPN_reg为RPN回归损失;Lstage1、Lstage2和Lstage3代表三个阶段的总损失,Lstage1_cls、Lstage2_cls和Lstage3_cls是每个阶段的分类损失,Lstage1_reg、Lstage2_reg和Lstage3_reg是每个阶段的回归损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210529776.7A CN115063833B (zh) | 2022-05-16 | 2022-05-16 | 一种基于图像分层视觉的机房人员检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210529776.7A CN115063833B (zh) | 2022-05-16 | 2022-05-16 | 一种基于图像分层视觉的机房人员检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115063833A CN115063833A (zh) | 2022-09-16 |
CN115063833B true CN115063833B (zh) | 2024-05-14 |
Family
ID=83198297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210529776.7A Active CN115063833B (zh) | 2022-05-16 | 2022-05-16 | 一种基于图像分层视觉的机房人员检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115063833B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631513B (zh) * | 2022-11-10 | 2023-07-11 | 杭州电子科技大学 | 基于Transformer的多尺度行人重识别方法 |
CN116740790B (zh) * | 2023-06-21 | 2024-02-09 | 北京科技大学 | 一种基于Transformer的人脸检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259930A (zh) * | 2020-01-09 | 2020-06-09 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN112949673A (zh) * | 2019-12-11 | 2021-06-11 | 四川大学 | 一种基于全局注意力的特征融合目标检测与识别方法 |
CN113888744A (zh) * | 2021-10-14 | 2022-01-04 | 浙江大学 | 一种基于Transformer视觉上采样模块的图像语义分割方法 |
US11270124B1 (en) * | 2020-11-16 | 2022-03-08 | Branded Entertainment Network, Inc. | Temporal bottleneck attention architecture for video action recognition |
CN114241307A (zh) * | 2021-12-09 | 2022-03-25 | 中国电子科技集团公司第五十四研究所 | 基于自注意力网络的合成孔径雷达飞机目标识别方法 |
-
2022
- 2022-05-16 CN CN202210529776.7A patent/CN115063833B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949673A (zh) * | 2019-12-11 | 2021-06-11 | 四川大学 | 一种基于全局注意力的特征融合目标检测与识别方法 |
CN111259930A (zh) * | 2020-01-09 | 2020-06-09 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
US11270124B1 (en) * | 2020-11-16 | 2022-03-08 | Branded Entertainment Network, Inc. | Temporal bottleneck attention architecture for video action recognition |
CN113888744A (zh) * | 2021-10-14 | 2022-01-04 | 浙江大学 | 一种基于Transformer视觉上采样模块的图像语义分割方法 |
CN114241307A (zh) * | 2021-12-09 | 2022-03-25 | 中国电子科技集团公司第五十四研究所 | 基于自注意力网络的合成孔径雷达飞机目标识别方法 |
Non-Patent Citations (3)
Title |
---|
严娟 ; 方志军 ; 高永彬 ; .结合混合域注意力与空洞卷积的3维目标检测.中国图象图形学报.2020,(第06期),全文. * |
周幸 ; 陈立福 ; .基于双注意力机制的遥感图像目标检测.计算机与现代化.2020,(第08期),全文. * |
宁尚明 ; 滕飞 ; 李天瑞 ; .基于多通道自注意力机制的电子病历实体关系抽取.计算机学报.2020,(第05期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115063833A (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115063833B (zh) | 一种基于图像分层视觉的机房人员检测方法 | |
CN112329658B (zh) | 一种对于yolov3网络的检测算法改进方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN111612017B (zh) | 一种基于信息增强的目标检测方法 | |
CN110378222A (zh) | 一种输电线路防震锤目标检测与缺陷识别方法及装置 | |
WO2019109793A1 (zh) | 人头区域识别方法、装置及设备 | |
CN116152254B (zh) | 工业泄露目标气体检测模型训练方法、检测方法、电子设备 | |
CN106874879A (zh) | 基于多特征融合和深度学习网络提取的手写数字识别方法 | |
CN114663952A (zh) | 对象分类方法、深度学习模型的训练方法、装置和设备 | |
CN112990219A (zh) | 用于图像语义分割的方法和装置 | |
Su et al. | Semantic segmentation of high resolution remote sensing image based on batch-attention mechanism | |
US20230154157A1 (en) | Saliency-based input resampling for efficient object detection | |
CN114202803A (zh) | 一种基于残差网络的多阶段人体异常动作检测方法 | |
CN115035371A (zh) | 基于多尺度特征融合神经网络的井壁裂缝识别方法 | |
CN114898407A (zh) | 一种基于深度学习牙齿目标实例分割及其智能预览的方法 | |
CN110516569B (zh) | 一种基于身份和非身份属***互学习的行人属性识别方法 | |
Li et al. | NDNet: Spacewise multiscale representation learning via neighbor decoupling for real-time driving scene parsing | |
CN111753714B (zh) | 基于字符分割的多方向自然场景文本检测方法 | |
CN113205137A (zh) | 一种基于胶囊参数优化的图像识别方法及*** | |
CN112613442A (zh) | 基于主角检测和光流转换的视频序列情感识别方法 | |
Huan et al. | Learning deep cross-scale feature propagation for indoor semantic segmentation | |
CN111126173A (zh) | 一种高精度人脸检测方法 | |
CN109583584B (zh) | 可使具有全连接层的cnn接受不定形状输入的方法及*** | |
CN111414882A (zh) | 一种基于多级分辨率平衡网络的红外目标检测方法 | |
CN116051861A (zh) | 一种基于重参数化的无锚框目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |