CN115620207A

CN115620207A - 一种基于注意力机制的红外行人检测方法

Info

Publication number: CN115620207A
Application number: CN202211394887.8A
Authority: CN
Inventors: 徐小雨; 詹伟达; 葛微; 郭人仲; 曹可亮
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-17

Abstract

一种基于注意力机制的红外行人检测方法，属于计算机视觉技术领域，为解决现有的检测方法检测精度较低的问题，步骤1，构建行人检测网络模型：整个网络包括特征提取、特征融合和输出头三部分；步骤2，建立红外行人目标检测数据集；步骤3，训练行人检测网络模型：将步骤1中准备好的融合图像输入到步骤2中构建好的网络模型中进行训练；步骤4，最小化损失函数值；步骤5，微调模型：用公开红外行人检测数据集对模型进行训练和微调，得到稳定可用的模型参数，最终使得模型对融合的效果更好；步骤6，保存最佳模型：将最终确定的模型参数进行固化，之后需要进行红外行人检测操作时，直接将待检测图像输入到网络中即可得到最终的红外行人检测结果。

Description

一种基于注意力机制的红外行人检测方法

技术领域

本发明涉及一种基于注意力机制的红外行人检测方法，属于计算机视觉技术领域。

背景技术

基于红外与可见光融合的行人检测算法已广泛应用于无人驾驶防碰撞***以及视频跟踪等领域，尤其是无人驾驶中对行人安全性的检测更是备受关注。常用方法的不足之处在于只关注了融合的特征，没有对单模态特征进行关注，导致在单模态特征提取时，单模态分支上没有显式的监督信息，使得单模态提取的特征表征能力弱。同时较弱的表征能力将降低困难样本的识别能力，导致网络受到严重漏检的问题。即现有的行人检测算法，存在红外-可见光融合特征利用率不高和融合特征提取能力差的问题。

针对这两个问题，我们参考红外-可见光图像融合领域、红外行人检测领域的常用方法，设计了一种基于注意力机制的红外行人检测方法，其中引入注意力机制模块作为行人检测的特征提取部分，并使用红外-可见光图像融合方法合并多模态图像信息。

中国专利公开号为“CN114694001A”，名称为“一种基于多模态图像融合的目标检测方法及装置”，该方法使用纯Transformer结构组成目标检测模型，首先通过特征编码模块提取两种全局特征，再由特征融合模块融合上述特征，最后由全连接层构成的预测模块输出目标类别和目标位置。该方法使用的融合模块会造成红外-可见光图像细节信息丢失；同时，由纯Transformer构成的特征提取部分，无法解决夜晚行人的遮挡问题，且存在捕捉局部特征能力不足的问题，导致在行人检测时无法获得更多细节信息，检测精度较低。

发明内容

本发明为了解决现有的检测方法进行行人检测精度较低的问题，提供了一种基于注意力机制的红外行人检测方法，使得红外行人检测精度显著提高，并明显减少行人遮挡导致的误检漏检，在识别任务上能够达到比卷积神经网络CNN模型更好的效果和泛化能力。

本发明解决技术问题的方案是：

一种基于注意力机制的红外行人检测方法，包括如下步骤：

步骤1，构建行人检测网络模型：整个网络包括特征提取、特征融合和输出头三个部分。特征提取部分由卷积块一、注意力模块一、注意力模块二、注意力模块三和注意力模块四组成，其中卷积块一对输入图片进行下采样操作减小特征图大小，注意力模块一、注意力模块二、注意力模块三、注意力模块四采用注意力机制，增加对窗口内图像的关注，依次对图片进行特征提取且结构相同。特征融合部分由上采样层一、上采样层二、下采样层一、下采样层二和下采样层三依次连接组成，融合不同层次的图像特征。输出头部分由输出头一、输出头二和输出头三组成，其中三个输出头结构相同，其结构由卷积块二、卷积块三、卷积块四、卷积块五和卷积块六组成，通过对融合后的图像特征使用卷积层、正则化层和激活函数后得到检测结果；

步骤2，建立红外行人目标检测数据集：由可见光摄像头、红外摄像头实时获取可见光图像和红外图像，并输入到预先训练好的红外-可见光图像融合网络，得到红外-可见光融合图像，并做好标注；

步骤3，训练行人检测网络模型：将步骤1中准备好的融合图像输入到步骤2中构建好的网络模型中进行训练；

步骤4，最小化损失函数值：通过最小化网络输出图像与标签的损失函数，直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成，保存模型参数；

步骤5，微调模型：用公开红外行人检测数据集对模型进行训练和微调，得到稳定可用的模型参数，最终使得模型对融合的效果更好；

步骤6，保存最佳模型：将最终确定的模型参数进行固化，之后需要进行红外行人检测操作时，直接将待检测图像输入到网络中即可得到最终的红外行人检测结果。

所述步骤1中卷积块一由卷积层一、正则化层、卷积层二和激活函数依次连接构成；注意力模块一、注意力模块二、注意力模块三和注意力模块四，由卷积块、残差结构一、残差结构二、残差结构三和残差结构四构成，残差结构使用了深度可分离卷积、自适应移动窗口注意力机制；卷积块二、卷积块三、卷积块四、卷积块五和卷积块六结构，由卷积层、正则化层和激活函数依次连接组成。卷积块一的卷积核大小都为3×3，两个卷积层步长依次为2和1；注意力模块一、注意力模块二、注意力模块三和注意力模块四中卷积块的卷积核为3×3，深度可分离卷积的卷积核大小为1×1和3×3；卷积块二、卷积块三、卷积块四、卷积块五和卷积块六的卷积核大小为3×3，步长为1。

所述步骤2中预先训练好的红外-可见光图像融合网络是DenseFuse图像融合网络；

所述步骤4中在训练过程中损失函数选择交叉熵损失函数；损失函数的选择影响模型好坏，能够真实体现预测值与真实值的差异，并能够正确地反馈模型质量。

本发明的有益效果如下：

1、使用DenseFuse图像融合网络处理红外-可见光图像，在加快融合速度的同时，提高了输出图像的融合质量，为后续检测任务提供更好的输入图像。

2、在注意力模块一、注意力模块二、注意力模块三和注意力模块四中使用了深度可分离卷积、自适应移动窗口注意力机制、多层感知机对特征图进行特征提取，并使用多次跳跃连接。可以提供更紧凑的特征表示和更丰富的语义信息、减少注意力模块的计算量，并减少行人遮挡导致的误检漏检情况。

3、在卷积块一中使用两次卷积操作，可增强行人检测网络对图像浅层特征的提取能力。

附图说明

图1为本发明一种基于注意力机制的红外行人检测方法流程图。

图2为本发明一种基于注意力机制的红外行人检测方法的网络结构图。

图3为本发明所述注意力模块的结构图。

图4为本发明所述卷积块二、卷积块三、卷积块四、卷积块五和卷积块六中每一个卷积块的具体组成。

图5为本发明所述卷积块一、注意力模块中卷积块的每一块卷积块的具体组成。

图6为本发明所述输出头的结构图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

如图1所示，一种基于注意力机制的红外行人检测方法，该方法具体包括如下步骤：

步骤1，构建行人检测网络模型：整个网络包括特征提取、特征融合和输出头三个部分。特征提取部分由卷积块一、注意力模块一、注意力模块二、注意力模块三和注意力模块四组成，其中卷积块一对输入图片进行下采样操作减小特征图大小，注意力模块一、注意力模块二、注意力模块三、注意力模块四采用注意力机制，增加对窗口内图像的关注，依次对图片进行特征提取且结构相同。特征融合部分由上采样层一、上采样层二、下采样层一、下采样层二和下采样层三依次连接组成，融合不同层次的图像特征。输出头部分由输出头一、输出头二和输出头三组成，其中三个输出头结构相同，由卷积块二、卷积块三、卷积块四、卷积块五和卷积块六组成，通过对融合后的图像特征使用卷积层、正则化层和激活函数后得到检测结果。卷积块一由卷积层一、正则化层、卷积层二和激活函数依次连接构成；注意力模块一、注意力模块二、注意力模块三和注意力模块四由卷积块、残差结构一、残差结构二、残差结构三和残差结构四构成，残差结构使用了深度可分离卷积、自适应移动窗口注意力机制；卷积块二、卷积块三、卷积块四、卷积块五和卷积块六结构由卷积层、正则化层和激活函数依次连接组成。卷积块一的卷积核大小都为3×3，两个卷积层步长依次为2和1；注意力模块一、注意力模块二、注意力模块三和注意力模块四中卷积块的卷积核为3×3，深度可分离卷积的卷积核大小为1×1和3×3；卷积块二、卷积块三、卷积块四、卷积块五和卷积块六的卷积核大小为3×3，步长为1。

步骤2，建立红外行人目标检测数据集：由可见光摄像头、红外摄像头实时获取可见光图像和红外图像，并输入预先训练好的红外-可见光图像融合网络(DenseFuse图像融合网络)，得到红外-可见光融合图像，并做好标注；在行人检测网络进行预训练过程中，使用公开的SCUT FIR行人数据集。通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小，作为整个网络的输入。

步骤3，训练行人检测网络模型。将步骤1中得到的融合图像输入到步骤2中构建好的网络模型中进行训练。

步骤4，最小化损失函数值。通过最小化网络输出图像与标签的损失函数，直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成，保存模型参数。在训练过程中损失函数选择使用原始损失和拼接信息损失两部分结合。其目的在于充分利用正样本的监督信号。同时，如果正样本具有很高的交并比，那么在训练过程中对应损失函数的贡献就要大一些，这样使得训练可以聚焦在那些质量高的样本上。

步骤5，微调模型：用公开红外行人检测数据集对模型进行训练和微调，得到稳定可用的模型参数。在微调模型参数过程中使用KAIST数据集。

步骤6，保存模型：将最终确定的模型参数进行固化，之后需要进行红外行人检测操作时，直接将待检测图像输入到网络中即可得到最终的红外行人检测结果。

实施例：

步骤1，构建行人检测网络模型。

如图3所示，整个网络包括特征提取、上下采样操作和输出头三个部分。

特征提取部分由卷积块一、注意力模块一、注意力模块二、注意力模块三和注意力模块四组成。如图5所示，卷积块一由卷积层一、正则化层、卷积层二和激活函数依次构成，卷积核大小都为3×3，两个卷积层步长依次为2和1。如图3所示，注意力模块一、注意力模块二、注意力模块三和注意力模块四，由卷积块、残差结构一、残差结构二、残差结构三和残差结构四依次连接构成。其卷积块结构如图5所示，卷积块大小为3×3、步长为2和1。深度可分离卷积的卷积核大小为3×3和1×1，步长为1。残差结构一由深度可分离卷积、正则化层、自适应移动窗口注意力组成残差结构，残差结构二由正则化层和多层感知机连接组成残差结构，残差结构三由深度可分离卷积、正则化层、自适应移动窗口注意力组成残差结构，残差结构四由正则化层和多层感知机连接组成残差结构。

特征融合部分由上采样层一、上采样层二、下采样层一、下采样层二和下采样层三依次连接组成，融合不同层次的图像特征。

输出头部分由输出头一、输出头二和输出头三组成，三个输出头结构相同，由卷积块二、卷积块三、卷积块四、卷积块五和卷积块六组成，先通过卷积块二，再分别通过卷积块三、卷积块四和卷积块五、卷积块六的连接组合，分别得到类别输出和回归输出、物体输出。如图4所示，卷积块二、卷积块三、卷积块四、卷积块五和卷积块六结构，由卷积层、正则化层和激活函数依次连接组成，卷积核大小为3×3，步长为1。

步骤2，建立红外行人目标检测数据集。由可见光摄像头、红外摄像头实时获取可见光图像和红外图像，行人检测网络预训练过程中使用的SCUTFIR，包括211011帧图像，共计477907个检测框，7659位行人。

步骤3，训练行人检测网络模型。对步骤1的融合图片进行图像增强，将同一张图片中进行随机衍射变换，并且裁剪到输入图片的大小，作为整个网络的输入，并做好融合图片的标注。其中随机大小和位置通过软件算法可以实现。

步骤4，最小化损失函数值。网络的输出与标签计算损失函数是通过最小化损失函数达到更好的检测效果。损失函数选择原始损失和拼接信息损失两部分的结合，每种损失再细分为分类损失和回归框损失。对于损失函数，分类层和回归层的输出分别由{p_i}和{t_i}表示，这两项分别由N_cls和N_reg进行归一化，其中β为权重因子。在反向传播过程中，多分类和回归框的参数进行共享，旨在使不同的特征映射学习到标签信息外更多的语义信息。总损失函数定义为：

设定训练次数为220，每次输入到网络图片数量大小为8-16左右，每次输入到网络图片数量大小的上限主要是根据计算机图形处理器性能决定，一般每次输入到网络图片数量越大越好，使网络更加稳定。训练过程的学***稳。损失函数函数值阈值设定为0.0003左右，小于0.0003就可以认为整个网络的训练已基本完成。

步骤5，微调模型。使用红外行人检测数据集对整个网络模型参数进行微调，其中数据集为KAIST数据集。

步骤6，保存模型。将网络训练完成后，需要将网络中所有参数保存，之后用配准好的红外和可见光行人检测图像输入到网络中就可以得到检测结果。该网络对两张输入图像大小没有要求，任意尺寸均可，但是必须保证两张图像的尺寸一致。

其中，卷积层、深度可分离卷积、激活函数、上采样层、下采样层、正则化层、多层感知机、自适应移动窗口注意力的实现是本领域技术人员公知的算法，具体流程和方法可在相应的教科书或者技术文献中查阅到。

本发明通过构建一种基于注意力机制的红外行人检测方法，可以通过红外-可将光行人图像直接检测图中行人目标。通过计算与现有方法得到图像的相关指标，进一步验证了该方法的可行性和优越性。现有技术和本发明提出方法的相关指标对比如表1所示：

表1现有技术和本发明提出方法的相关指标对比

从表中可知，本发明提出的方法拥有更高的精度AP和召回率Recall和更低的丢失率MR，这些指标也进一步说明了本发明提出的方法具有更好的行人检测效果。

Claims

1.一种基于注意力机制的红外行人检测方法，其特征是，该方法包括如下步骤：

步骤1，构建行人检测网络模型：整个网络包括特征提取、特征融合和输出头三个部分；

特征提取部分由卷积块一、注意力模块一、注意力模块二、注意力模块三和注意力模块四组成，其中卷积块一对输入图片进行下采样操作减小特征图大小，注意力模块一、注意力模块二、注意力模块三、注意力模块四采用注意力机制，增加对窗口内图像的关注，依次对图片进行特征提取且结构相同；

特征融合部分由上采样层一、上采样层二、下采样层一、下采样层二和下采样层三依次连接组成，融合不同层次的图像特征；

输出头部分由输出头一、输出头二和输出头三组成，其中三个输出头结构相同，其结构由卷积块二、卷积块三、卷积块四、卷积块五和卷积块六组成，通过对融合后的图像特征使用卷积、正则化和激活函数后得到检测结果；

步骤2，建立红外行人目标检测数据集：由可见光摄像头、红外摄像头实时获取可见光图像和红外图像，并输入到预先训练好的DenseFuse图像融合网络，得到红外-可见光融合图像，并做好标注；

2.根据权利要求1所述的一种基于注意力机制的红外行人检测方法，其特征在于，所述步骤1中卷积块一由卷积层一、正则化层、卷积层二和激活函数依次连接构成；注意力模块一、注意力模块二、注意力模块三和注意力模块四，由卷积块、残差结构一、残差结构二、残差结构三和残差结构四构成，残差结构使用了深度可分离卷积、自适应移动窗口注意力机制；卷积块二、卷积块三、卷积块四、卷积块五和卷积块六结构，由卷积层、正则化层和激活函数依次连接组成；

卷积块一的卷积核大小都为3×3，两个卷积层步长依次为2和1；注意力模块一、注意力模块二、注意力模块三和注意力模块四中卷积块的卷积核为3×3，深度可分离卷积的卷积核大小为1×1和3×3；卷积块二、卷积块三、卷积块四、卷积块五和卷积块六的卷积核大小为3×3，步长为1。

3.根据权利要求1所述的一种基于注意力机制的红外行人检测方法，其特征在于，所述步骤2中预先训练好的红外-可见光图像融合网络是DenseFuse图像融合网络。

4.根据权利要求1所上述的一种基于注意力机制的红外行人检测方法，其特征在于，所述步骤4中所述在训练过程中损失函数选择交叉熵损失函数；损失函数的选择影响模型好坏，能够真实体现预测值与真实值的差异，并能够正确地反馈模型质量。