CN117115726A

CN117115726A - 一种基于前背景对比注意力的单光谱夜间行人检测方法及***

Info

Publication number: CN117115726A
Application number: CN202310535210.XA
Authority: CN
Inventors: 程如中; 张永军; 姚和
Original assignee: Guizhou University; North China Institute of Science and Technology
Current assignee: Guizhou University; North China Institute of Science and Technology
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-11-24

Abstract

本发明涉及一种基于前背景对比注意力的单光谱夜间行人检测方法及***。该方法包括：将待检测图像输入主干网络中提取得到含有不同语义信息和细节信息的不同尺度的特征；将经主干网络提取得到的不同尺度的特征输入特征融合网络，由特征融合网络对不同尺度的特征进行融合，并通过前背景对比注意力对特征在前景特征和背景信息两个维度间进行自适应调整，即强化对前景特征的关注程度，弱化背景信息的关注程度，使得网络在夜间场景中能更聚焦于前景特征；将融合后的多尺度特征送入检测头，检测头将融合后的多尺度特征映射成预测框，从而得到行人检测结果。本发明能够有效地提高夜间行人检测精度。

Description

一种基于前背景对比注意力的单光谱夜间行人检测方法及 ***

技术领域

本发明属于计算机视觉研究技术领域，更具体地说，特别涉及一种基于前背景对比注意力的单光谱夜间行人检测方法及***。

背景技术

夜间行人检测有很多与本发明息息相关的应用场景，如视频监控，辅助驾驶，智能机器人。尽管多光谱行人检测技术在这些场景中取得了令人满意的结果，但由于需要将昂贵的传感器集成到特定的设备。这使得研究仅使用RGB图像的单光谱夜间行人检测对于该领域的研究和实践具有重要意义。

在深度学习时代，得益于目标检测的快速兴起，涌现出了大量值得称赞的检测器。根据检测器是否使用红外图像，检测器可以分为多光谱检测器和单光谱检测器。相比于彩色相机在夜间获取有用信息不佳，热成像摄像机由于不受照明条件的影响，可以克服彩色摄像机的一些限制。为了弥补这些有用的信息，多光谱检测器将彩色图像和热图像作为输入。最近开发的夜间行人检测网络，都采用多模态数据。然而，可见光相机获取数据价格便宜且易于使用，使得单光谱夜间行人数据集近几年也被提出，一定程度上推动了这个领域的发展。

注意机制已被证明有助于各种计算机视觉任务。一个成功的例子是SENet，它通过全局平均池化和多层全连接网络来学习每个通道的权重，并将它们应用于输入的特征图上，从而增强了网络的表达能力。CBAM进一步推进了这一思想，通过大尺寸内核的卷积引入空间信息编码。后来的一些工作，通过采用不同的空间注意机制或设计高级注意块，扩展了这一思想。自注意网络由于其建立空间或频道注意的能力而最近非常流行，它们都利用非局部机制来捕获不同类型的空间信息。

但是，他们都没有将背景信息有效利用。根据心理学家和神经科学家的研究表明，背景信息在目标识别过程中起着重要的作用。而且，对于单光谱夜间行人检测来说，检测的场景当中，前景目标和背景信息往往不易区分，而且还严重受人工照度影响。上述的注意力机制只考虑用前景目标特征去自适应调节网络，这会一定程度上引入背景信息，使得网络在夜间场景中检测性能受损。

发明内容

为了解决上述技术问题，本发明提供一种基于前背景对比注意力(FBCA)的单光谱夜间行人检测方法及***，本发明的模型在主干网络VGG16_BN上加入了前背景注意力特征增强模块(FBCsp)，通过FBCsp嵌入的FBCA增强从主干网络中得到不同尺度的前景特征，降低背景信息的关注程度，有效地提高了夜间行人检测精度。

本发明的模型主要由以下三个关键组成部分组成：1)本发明提出了一种新的注意力方法：前背景对比注意力。通过把特征看作行人前景特征通道和背景信息通道的组合问题，将特征映射成前景特征和背景信息的关注程度向量，有效的对前景特征和背景信息进行自适应调整。2)本发明设计了一种基于前背景对比注意力的特征增强模块，可以更好地应用前背景注意力修正对输入特征的关注度。经过本发明大量的实验结果表明，本发明的模型能很好地进行夜间单光谱行人检测。不论在定性还是定量上，本发明的方法许对比大多SOTA夜间单光谱行人检测算法都有更好的表现，有效的解决了上述存在的技术问题。

为了解决上述技术问题，本发明提供一种基于前背景对比注意力的单光谱夜间行人检测方法及***的目的与功效，由以下具体技术手段所达成：

一种基于前背景对比注意力的单光谱夜间行人检测方法，其步骤包括：

将输入的待检测图像(RGB图像)送到主干网络中提取得到含有不同语义信息和细节信息的不同尺度的特征；

将经主干网络提取得到的不同尺度的特征输入到特征融合网络(Neck网络)，由特征融合网络对不同尺度的特征进行融合，并通过前背景对比注意力对特征在前景特征和背景信息两个维度间进行自适应调整，即强化对前景特征的关注程度，弱化背景信息的关注程度，使得网络在夜间场景中能更聚焦于前景特征；

将融合后的多尺度特征送入检测头，由检测头将特征映射成预测框，从而得到行人检测结果。

一种基于前背景对比注意力的单光谱夜间行人检测***，其包含有主干网络、基于前背景对比注意力的特征融合网络以及检测头；所述主干网络从输入的待检测图像中提取得到含有不同语义信息和细节信息的不同尺度的特征；所述特征融合网络对不同尺度的特征进行融合，并通过前背景对比注意力对特征在前景特征和背景信息两个维度间进行自适应调整，即强化对前景特征的关注程度，弱化背景信息的关注程度，使得网络在夜间场景中能更聚焦于前景特征；所述检测头将融合后的多尺度特征映射成预测框，从而得到行人检测结果。

进一步地，所述主干网络是由已经预训练过的VGG16_BN，提取得到由浅层到深层的三个不同尺度的图片特征。优选地，所述主干网络使用预先在ImageNet Image数据集上训练过的VGG16_BN。

进一步地，所述基于前背景对比注意力的特征融合网络由基于前背景对比注意力的FBCsp模块设计而成，提出的FBCsp模块在两个位置(即位置1和3，实验发现这两个位置性能最佳)应用了前背景对比注意力，用来使网络关注前景特征信息，同时弱化对背景信息的关注。所述基于前背景对比注意力的FBCsp模块，它能够修正多个特征层执行Concat操作后，网络对特征通道的关注程度。因此，本发明的方法能够在前景特征和背景信息两个维度上进行调整，能自适应纠正特征层前背景特征权重，使FBCsp模块的分支结构学习到更精确的特征从而使学习到的表征在空间上更精确，进一步得到拥有丰富全局上下文信息的特征图。

进一步地，在所述FBCsp模块中，对于融合后的特征，对其进行前背景信息调整，即对于融合特征其中C代表通道，H、W分别代表空间尺度的高、宽，首先使用一个卷积核把通道维度压缩到一维，然后用Sigmoid函数映射出前景区域：

其中，CBLR()是分别表示Conv，BN与LeakyReLU激活函数，即用CBLR()代表这三种操作。σ()为Sigmoid函数。同理，特征层的背景区域可描述为：

接着，前景激活图和背景激活图/>最终可以将特征层F分解为前景特征表示和背景特征表示，即v^f和v^b。对于给定的特征层，v^f和v^b可以被描述为：

其中，和F^t被展平，即和/> 和T分别表示矩阵的乘法和转置。

然后，选择使用一个简单的带有sigmoid激活的门控机制生成前背景对比注意力。

其中，δ表示LeakyReLU激活函数，c^f表示关注夜间行人前景特征的程度向量，c^b表示关注夜间背景信息的程度向量，和r是控制参数量大小的压缩率。这里，c^f关注的是前景特征通道，c^b关注的是背景信息通道。然后，为了进一步扩大对前背景特征的差异程度，对c^f，c^b作向量差，得到前背景对比注意力d_w：

d_w＝c^f-c^b

最后，本发明的前背景对比注意力的输出可以写成：

F′＝F·d_w

进一步地，所述检测头采用的是YOLOv6提出的检测头。

进一步地，所述的检测头采用了更简洁的Anchor-free检测方法。由于Anchor-based检测器需要在训练之前进行聚类分析以确定最佳Anchor集合，这会一定程度提高检测器的复杂度；同时，在一些边缘端的应用中，需要在硬件之间搬运大量检测结果的步骤，也会带来额外的延时。而Anchor-free无锚范式因其泛化能力强，解码逻辑更简单，在近几年中应用比较广泛。

本发明至少包括以下有益效果：

本发明提供了一种端到端的可训练的基于前背景对比注意力的单光谱夜间行人检测网络(FBCNet)，可以对夜间场景下的行人进行很好地检测，同时本发明方法也适用于白天行人检测，能够提高白天行人检测的性能。本发明提出了一种新颖的前背景对比注意力机制，前背景对比注意力模块通过将特征图的抽象成与前景目标特征建立远程依赖的前景向量和与背景信息建立远程依赖的背景向量，再对前背景向量作向量差运算以进一步扩大对前背景信息的关注度，实现对输入特征图前景信息和背景信息的相关性建模，得到拥有丰富全局上下文信息的特征图。本发明设计了一种有效的注意力特征增强模块(FBCsp)，用于对主干网络所提取不同尺度的特征进行特征融合和自适应调整对前背景的关注程度。

附图说明

图1为本发明的网络模型图；其中，Backbone表示主干网络，Neck表示特征融合网络，Head表示检测头，F表示FBCsp模块(Fore-Background Cross Stage Partial Module)，cls、reg表示检测头输出的目标类别和预测框的坐标信息，CBS表示conv+BN+Silu，FBCA表示Fore-Background contrast attention，即前背景对比注意力，BottleRep表示残差结构，见附图3，Concat表示concatenate,把特征按通道维度拼接。

图2为本发明的前背景对比注意力模型图；

图3为本发明的注意力特征增强模块即FBCsp模块的示意图；

图4本发明的注意力特征增强模块消融效果对比图。

具体实施方式

下面通过实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋接”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

实施例：

本发明提供一种基于前背景对比注意力的单光谱夜间行人检测***，如图1所示，该方法采用的检测网络包含有主干网络(Backbone)、特征融合网络(Neck)和检测头(Head)。

主干网络用来提取夜间图像的特征，对于输入为HxW的夜间行人图像，输出三种语义信息不同的特征F₃、F₄和F₅，他们的空间尺度分别下采样1/8、1/16、1/32。

特征融合网络包含基于前背景对比注意力的特征融合模块，即FBCsp模块(FBCspBlock)。不同空间尺度的夜间行人特征在经过Neck网络的FBCsp模块前，须通过上采样或下采样将空间维度调整到相同空间维度。FBCsp模块将调整后包含不同语义信息的特征用concat操作拼接，再通过Conv_1x1压缩通道，同时融合通道信息。由于夜间场景下照度变化因素使得主干网络对模糊及遮挡等夜间行人目标学习到的语义信息不够丰富。FBCsp模块嵌入的FBCA将压缩后的夜间行人特征看作是关注不同夜间行人特征通道或背景信息通道的组合。FBCA利用夜间行人特征的全局空间信息将特征映射成表示通道重要性程度的夜间行人特征向量和背景向量。通过对夜间行人特征向量和背景向量作向量差使模型关注夜间行人特征和背景信息之间的差异性对比学习。对于由夜间照度变化给图像造成的大量噪声、光照不均匀、阴影和运动模糊等问题，这种差异性对比学习使模型能进一步区分这种夜间图像的语义信息，加上新设计的Neck能进一步增强语义信息交换，使得模型在Neck网络能充分地增强语义信息。Neck网络有三个输出，分别是F₃ ^′、F₄ ^′和F₅ ^′。

检测头采用的是来自YOLOv6的Decoupled Head结构。最后，检测头将Neck网络的输出映射成Bounding Box。

如上所述，所述主干网络使用预先在ImageNet Image数据集上训练过的VGG16_BN，并提取三个不同尺度的特征；所述FBCsp模块能够修正多个特征层执行Concat操作后，网络对特征通道的关注程度。因此，本发明的方法能够在前景特征和背景信息两个维度上进行调整，能自适应纠正特征层前背景特征权重，使FBCsp模块的分支结构学习到更精确的特征从而使学习到的表征在空间上更精确，进一步得到拥有丰富全局上下文信息的特征图。

如上所述，本发明提出了一种新的注意力方法：前背景对比注意力。通过把特征抽象成前景特征和背景信息的组合，生成前背景关注程度向量，有效的对前景特征和背景信息进行自适应调整。

如上所述，本发明设计了一种基于前背景对比注意力的特征增强模块，即FBCsp模块，可以更好地修正对输入特征的关注度。经过本发明大量的实验结果表明，本发明的模型能很好地进行夜间单光谱行人检测。不论在定性还是定量上，本发明的方法许对比大多SOTA夜间单光谱行人检测算法都有更好的表现，有效的解决了上述存在的技术问题。

本实施例的一种基于前背景对比注意力的单光谱夜间行人检测方法，所述方法的步骤为：

一、将输入RGB图像送到主干网络中提取得到含有不同语义信息和细节信息的三个不同尺度的特征；

二、将经主干网络提取得到的多尺度特征输入到特征融合网络，由特征融合网络当中的FBCsp模块对不同尺度特征进行融合，并通过前背景对比注意力对特征在前景特征和背景信息两个维度间自适应调整，即强化对前景特征的关注程度，弱化背景信息的关注程度,使得网络在夜间场景中能更聚焦于前景特征；

三、将融合后的多尺度特征送入检测头，由检测头将特征映射成预测框。

所述步骤二中，在FBCsp模块中的前背景对比注意力模型如图2所示，其中F表示特征，k()表示把通道压缩到一维的卷积核s()表示Sigmoid函数，Flatt.表示展平操作，T表示转置，l()表示全连接层和Sigmoid函数的组合。对于融合后的特征，本发明对其进行前背景信息调整，即对于融合特征本发明首先使用一个卷积核把通道维度压缩到一维，然后用Sigmoid函数映射出前背景区域：

其中，CBLR()是分别表示Conv，BN与LeakyReLU激活函数。σ()为Sigmoid函数。同理，特征层的背景区域可描述为：

接着，前景和背景激活图最终可以将特征层F分解为前景和背景特征表示，即v^f，和v^b。对于给定的特征层，v^f和v^b可以被描述为：

其中，以F^T被展平，即和/> 和T分别表示矩阵的乘法和转置。

最后，本发明选择使用一个简单的带有sigmoid激活的门控机制生成前背景对比注意力。

其中，δ表示LeakyReLU激活函数，和/> r是控制块大小的压缩率。这里，c^f关注的是前景特征通道，c^b关注的是背景信息通道。然后，为了进一步扩大对前背景特征的差异程度，本发明对c^f，c^b作向量差：

d_w＝c^f-c^b

本发明的前背景对比注意力的输出可以写成：

F′＝F·d_w

图3为本发明的注意力特征增强模块即FBCsp模块的示意图，是使用FBCA的一个示例。FBCsp模块有两个分支，特征在进入分支时都需要先用1x1卷积将特征通道维度压缩，以降低计算量和融合特征。之后，其中一分支的特征用FBCA进行自适应调整，调整后进入残差结构BootleRep。然后将两个分支的特征按通道维度拼接，拼接后再用1x1卷积进行降维以压缩通道及融合信息，最后再用FBCA自适应调整特征每个通道的重要性。

图4本发明的注意力特征增强模块消融效果对比图。其中第一行图片是基准模型的效果图，第二行图片是本发明提出的方法的效果图。可以看出，对于第一幅图，本发明的方法能够检测出照度严重受限的行人。对于第二、三幅图，本发明的方法能够检测出夜间场景中的小目标行人。

本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于前背景对比注意力的单光谱夜间行人检测方法，其特征在于，包括以下步骤：

将待检测图像输入主干网络中提取得到含有不同语义信息和细节信息的不同尺度的特征；

将经主干网络提取得到的不同尺度的特征输入特征融合网络，由特征融合网络对不同尺度的特征进行融合，并通过前背景对比注意力对特征在前景特征和背景信息两个维度间进行自适应调整，即强化对前景特征的关注程度，弱化背景信息的关注程度，使得网络在夜间场景中能更聚焦于前景特征；

将融合后的多尺度特征送入检测头，检测头将融合后的多尺度特征映射成预测框，从而得到行人检测结果。

2.根据权利要求1所述的方法，其特征在于，所述主干网络是预先在ImageNet Image数据集上预训练过的VGG16_BN网络，提取得到由浅层到深层的三个不同尺度的图片特征。

3.根据权利要求1所述的方法，其特征在于，所述特征融合网络包含基于前背景对比注意力的FBCsp模块，所述FBCsp模块应用前背景对比注意力，使网络关注前景特征信息，同时弱化对背景信息的关注；所述FBCsp模块能够修正多个特征层执行Concat操作后网络对特征通道的关注程度，能够在前景特征和背景信息两个维度上进行调整，以自适应纠正特征层前背景特征权重，使学习到的表征在空间上更精确，得到拥有丰富全局上下文信息的特征图。

4.根据权利要求3所述的方法，其特征在于，所述FBCsp模块的处理过程包括：

对于特征首先使用一个卷积核将通道维度压缩到一维，然后用Sigmoid函数映射出前景区域：

其中，CBLR()表示Conv、BN与LeakyReLU激活函数，σ()为Sigmoid函数；特征层的背景区域描述为：

然后，和/>将特征层F分解为前景特征表示和背景特征表示，即v^f和v^b；

然后，选择使用一个简单的带有sigmoid激活的门控机制生成前背景对比注意力d_w：

d_w＝c^f-c^b

其中，δ表示LeakyReLU激活函数，c^f表示关注夜间行人前景特征的程度向量，c^b表示关注夜间背景信息的程度向量，r是控制参数量大小的压缩率；

最后，将前背景对比注意力d_w作用到原来的特征F，得到F′＝F·d_w。

5.根据权利要求3所述的方法，其特征在于，所述FBCsp模块有两个分支，特征在进入分支时都需要先用1x1卷积将特征通道维度压缩，以降低计算量和融合特征；之后，其中一分支的特征用前背景对比注意力进行自适应调整，调整后进入残差结构BootleRep；然后将两个分支的特征按通道维度拼接，拼接后再用1x1卷积进行降维以压缩通道及融合信息，最后再用前背景对比注意力自适应调整特征每个通道的重要性。

6.根据权利要求1所述的方法，其特征在于，所述检测头采用的是YOLOv6中的检测头。

7.根据权利要求1所述的方法，其特征在于，所述检测头采用Anchor-free检测方法进行行人检测。

8.一种基于前背景对比注意力的单光谱夜间行人检测***，其特征在于，包括主干网络、基于前背景对比注意力的特征融合网络以及检测头；所述主干网络从输入的待检测图像中提取得到含有不同语义信息和细节信息的不同尺度的特征；所述特征融合网络对不同尺度的特征进行融合，并通过前背景对比注意力对特征在前景特征和背景信息两个维度间进行自适应调整，即强化对前景特征的关注程度，弱化背景信息的关注程度，使得网络在夜间场景中能更聚焦于前景特征；所述检测头将融合后的多尺度特征映射成预测框，从而得到行人检测结果。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一项所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。