CN116645696B

CN116645696B - 一种用于多模态行人检测的轮廓信息引导特征检测方法

Info

Publication number: CN116645696B
Application number: CN202310628569.1A
Authority: CN
Inventors: 詹伟达; 徐小雨; 郭人仲; 陈宇; 刘大鹍; 刘妍妍
Original assignee: Chongqing Research Institute Of Changchun University Of Technology
Current assignee: Chongqing Research Institute Of Changchun University Of Technology
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2024-02-02
Anticipated expiration: 2043-05-31
Also published as: CN116645696A

Abstract

本发明属于计算机视觉技术领域，尤其为一种用于多模态行人检测的轮廓信息引导特征检测方法，该方法具体包括如下步骤：步骤1，构建可见光‑红外行人目标检测网络模型：整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分；步骤2，使用KAIST可见光‑红外配对数据集作为网络训练、测试与验证的数据集；步骤3，训练可见光‑红外行人目标检测网络；将步骤2中得到的可见光‑红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练。本发明，提出一种混合滤波器能够充分抑制背景干扰、增强红外图像中的纹理信息和轮廓信息，并提取可见光图像中的亮度信息，为检测网络提供高质量的输入图像。

Description

一种用于多模态行人检测的轮廓信息引导特征检测方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种用于多模态行人检测的轮廓信息引导特征检测方法。

背景技术

行人检测算法常用于行人目标密集出现的场景中，由于行人目标密集导致不同程度的遮挡、目标轮廓不清晰容易导致行人检测精度下降。目前，由于计算设备性能的不断提升和深度学习技术的日益成熟，基于深度学习的行人检测方法已成为主流的行人检测问题解决方案。相比于基于Haar、HOG特征的Adaboost和SVM算法具有显著的性能优势。相比直接使用深层融合特征进行行人预测，引入高效的特征提取模块和轮廓信息注意力机制，能够帮助网络更加准确地提取并关注行人目标特征，减少因为特征层不断深入导致的空间结构细节信息和边缘信息的丢失。现有一些工作已经取得一定进展，但是其中仍存在几个关键问题：

(1)现有的行人检测算法中，为获得更深层次的行人目标特征，只有不断加深特征提取网络的深度，通过不断加深特征提取网络，挖掘更深层次的目标特征。但更深的特征提取网络会丢失大量的空间结构信息和边缘信息，因此现有方法中的低效特征提取网络并不会显著提高网络行人检测精度；

(2)现有的行人检测算法中，为引导网络关注深层次的行人目标特征，只有使用主流的空间注意力与通道注意力，低效的注意力机制并不会提取边缘信息及全局空间特征并进行融合以强化边缘信息及空间信息，无法保证深层特征图能够保留更多的细节信息与清晰边缘；

(3)现有的行人检测算法中，在亮度较高情景下的行人检测效果较好，但在低照度情景下的行人效果很差，因此现有方法的泛化能力与检测不同情景下行人目标的鲁棒性较差。

针对上述问题，我们参考行人检测领域的常用方法，设计了一种用于多模态行人检测的轮廓信息引导特征检测方法，其中引入了高效的特征信息融合网络、轮廓信息引导注意力网络和混合滤波器。特征信息融合网络能够有效提取图像的多级特征信息，减少特征提取过程中的特征丢失，并在提取过程中实现多级特征复用，减少复用过程中的信息冗余。

中国专利申请公布号为“CN115273154B”，名称为“基于边缘重构的热红外行人检测方法、***及存储介质”，提出边缘信息概念，引导模型深入挖掘热红外图像中的边缘特征。然而，该方法未加入配对的可见光图像作为热红外图像的补充信息，无法关联可见光与红外行人目标信息；低效的特征提取模块无法充分挖掘红外行人目标的空间结构信息，导致检测精度较低；边缘重构模块对目标轮廓挖掘能力差，无法协助定位准确定位。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种用于多模态行人检测的轮廓信息引导特征检测方法，解决了上述背景技术中所提出的问题。

(二)技术方案

本发明为了实现上述目的具体采用以下技术方案：

一种用于多模态行人检测的轮廓信息引导特征检测方法，该方法具体包括如下步骤：

步骤1，构建可见光-红外行人目标检测网络模型：整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分；

步骤2，使用KAIST可见光-红外配对数据集作为网络训练、测试与验证的数据集；

步骤3，训练可见光-红外行人目标检测网络；将步骤2中得到的可见光-红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练；

步骤4，选择最小化损失函数；通过最小化网络输出图像与标签的损失函数，直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成，保存模型参数；

步骤5，微调模型：使用可见光-红外行人目标检测数据集对整个网络模型参数进行微调，得到稳定的可用模型参数，进一步提高模型的行人目标检测能力，最终使得模型对行人目标检测效果更好；

步骤6，保存模型：将最终确定的模型参数进行固化，之后需要进行行人目标检测操作时，直接将待检测图像输入到网络中即可得到最终的行人目标检测结果。

进一步地，所述步骤1中的图像预处理部分由Top-Hat、DoG和亮度提取三部分组成，Top-Hat、DoG处理输入图像中的红外图像，亮度提取部分处理输入图像中的可见光图像。

进一步地，所述步骤1中的特征提取部分由多尺度特征信息融合块和下采样层串联组成，每个多尺度特征信息融合块由若干特征信息融合残差块串联组成。特征提取部分的输入是图像预处理部分的输出。特征提取部分中的多尺度特征信息融合块，由三条支路组成。三条支路都由若干特征信息融合残差块、下采样层、上采样层组成。多尺度特征信息融合块中所有卷积核大小为3×3、步长为1。下采样层的步长为2。上采样层采用双三次插值上采样法。每个特征信息融合残差块结构相同，有两个分支，每个分支由若干卷积层、下采样层、上采样层、串联组成。特征信息融合残差块中所有卷积层的卷积核大小为3×3、步长为1。

进一步地，所述步骤1中的轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成，轮廓信息引导注意力部分的输入是特征提取部分的输出。空间注意力分支有两个子分支分支，第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成，第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算。基于扩张卷积的通道注意力分支有两个子分支，第一个子分支由扩张卷积块、通道注意力模块串联组成，第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算，得到轮廓信息引导注意力部分的输出。轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、空间注意力块和若干卷积层组成。基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积和一个通道注意力块组成。空间注意力分支中卷积层的卷积核大小为3，步长为1。基于扩张卷积的通道注意力分支中扩张卷积的卷积核大小为3、步长为1。扩张卷积的扩张率分别为2、4和6。

进一步地，所述步骤2中的KAIST可见光-红外配对数据集，首先在训练集中每隔2张图片取一张，并去掉所有不包含任何行人的图片，且剔除数据集中严重遮挡，只有半截或者小于50个像素的行人，可得到7601张训练集图片。在测试集中每隔19张取一张，保留负样本，可得到2252张图片测试集。通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小，作为整个网络的输入。

(三)有益效果

与现有技术相比，本发明提供了一种用于多模态行人检测的轮廓信息引导特征检测方法，具备以下有益效果：

本发明，提出一种混合滤波器能够充分抑制背景干扰、增强红外图像中的纹理信息和轮廓信息，并提取可见光图像中的亮度信息，为检测网络提供高质量的输入图像。

本发明，提出了一种多尺度特征信息融合块，能够在特征提取过程中不断融合不同尺度特征，提高不同深度网络层中不同尺度特征的融合与复用能力。

本发明，提出一种轮廓信息引导注意力网络，能够并行地提取边缘信息及全局空间特征并进行融合以强化边缘信息及空间信息，从而保证深层特征图保留更多的细节信息并具有清晰边缘。

附图说明

图1为本发明流程图；

图2为本发明网络结构图；

图3为本发明图像预处理图；

图4为本发明特征提取部分结构图；

图5为本发明多尺度特征信息融合块结构图；

图6为本发明特征信息融合残差块结构图；

图7为本发明轮廓信息引导注意力结构图；

图8为本发明头部网络结构图；

图9为本发明现有技术和本发明提出方法的相关指标对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1-9所示，本发明一个实施例提出的一种用于多模态行人检测的轮廓信息引导特征检测方法，该方法具体包括如下步骤：

图像预处理部分由Top-Hat、DoG和亮度提取三部分组成两个并行分支，其中Top-Hat与DoG并联组成第一个红外图像分支，亮度提取是第二个可见光图像分支，红外图像分支的输入是输入图像中的红外图像，红外图像分别经过Top-Hat和DoG滤波器，得到的输入在通道维度相加得到红外图像分支的输出，可见光图像分支的输入是输入图像中的可见光图像，可见光图像经过亮度提取，得到的输出与红外图像分支输出在通道维度相加得到图像预处理部分的输出。

特征提取部分由多尺度特征信息融合块一、下采样层一、多尺度特征信息融合块二和下采样层二串联组成，每个多尺度特征信息融合块由若干特征信息融合残差块串联组成，特征提取部分的输入是图像预处理部分的输出，特征提取部分中的多尺度特征信息融合块，由三条支路组成，第一条支路由特征信息融合残差块一、下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三、上采样层二组成；第二条支路由下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三和上采样层二组成；第三条支路由特征信息融合残差块二、下采样层二、卷积层、上采样层一组成，多尺度特征信息融合块中所有卷积核大小为3×3、步长为1，下采样层一、下采样层二的步长为2，上采样层一、上采样层二采用双三次插值上采样法，每个特征信息融合残差块结构相同，有两个分支。第一个分支由卷积层一、卷积层二、卷积层三、下采样层一、上采样层、卷积层三串联组成。第二个分支由卷积层三、下采样层一、上采样层串联组成。特征信息融合残差块中所有卷积核大小为3×3、步长为1。

轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成，轮廓信息引导注意力部分的输入是特征提取部分的输出，空间注意力分支有两个子分支分支，第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成，第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算，基于扩张卷积的通道注意力分支有两个子分支，第一个子分支由扩张卷积块、通道注意力模块串联组成，第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算，得到轮廓信息引导注意力部分的输出，轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、卷积层一和空间注意力块和卷积层二组成，基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积一、扩张卷积二、扩张卷积三和一个通道注意力块组成，空间注意力分支中卷积层一和卷积层二的卷积核大小为3，步长为1，基于扩张卷积的通道注意力分支中的扩张卷积一、扩张卷积二和扩张卷积三的卷积核大小为3、步长为1，扩张卷积一、扩张卷积二和扩张卷积三的扩张率分别为2、4和6。

头部网络部分由类别分支、坐标分支和置信度分支三部分组成，有一个输入、三个输出，头部网络的输入是轮廓信息引导注意力部分的输出，三个输出分别是类别分支、坐标分支和置信度分支的输出，类别分支、坐标分支和置信度分支由都由三个卷积层串联组成，头部网络中的类别分支由卷积层一、卷积层二和卷积层三组成，其中卷积层一和卷积层三的卷积核大小为1、步长为1，卷积层二的卷积核大小为3、步长为1，坐标分支由卷积层一、卷积层四和卷积层五组成，卷积层四的卷积核大小为3、步长为1，卷积层五的卷积核大小为1、步长为1，置信度分支由卷积层一、卷积层四和卷积层六组成，卷积层六的卷积核大小为1、步长为1。

步骤2，使用KAIST可见光-红外配对数据集作为网络训练、测试与验证的数据集；该数据集总共包括95328张图片，每张图片都包含RGB彩色图像和红外图像两个版本，总共包含103128个密集注释。数据集分别在白天和晚上捕获了包括校园、街道以及乡下的各种常规交通场景，图片大小为640×480，但该数据集中有大量无行人目标和目标错误标注的图片，因此在训练集每隔2张图片取一张，并去掉所有不包含任何行人的图片，即选出来的图片中至少包含一个目标，且剔除数据集中严重遮挡，只有半截或者小于50个像素的行人，经过此操作可得到7601张训练集图片，包括4755张白天情景图片，2846张夜晚情景图片。测试集每隔19张取一张，保留负样本，经此操作可得到2252张图片测试集，包括1455张白天情景图片，797张夜晚情景图片。通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小，作为整个网络的输入；

步骤4，选择最小化损失函数；通过最小化网络输出图像与标签的损失函数，直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成，保存模型参数，在训练过程中损失函数选择使用分类损失和回归损失两部分结合，其目的在于充分利用正样本的监督信号，同时，如果正样本具有很高的交并比，那么在训练过程中对应损失函数的贡献就要大一些，这样使得训练可以聚焦在那些质量高的样本上；

实施例2：

如图1所示，一种用于多模态行人检测的轮廓信息引导特征检测方法，该方法具体包括如下步骤：

步骤1，构建可见光-红外行人目标检测网络；

如图2所示，构建可见光-红外行人目标检测网络模型：整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分；

如图3所示，图像预处理部分由Top-Hat、DoG和亮度提取三部分组成两个并行分支，其中Top-Hat与DoG并联组成第一个红外图像分支，亮度提取是第二个可见光图像分支。红外图像分支的输入是输入图像中的红外图像，红外图像分别经过Top-Hat和DoG滤波器，分别得到轮廓滤波和高斯滤波的特征，两种滤波输出特征通道维度相加得到红外图像分支的输出，可见光图像分支的输入是输入图像中的可见光图像，可见光图像经过亮度提取得到亮度信息，得到的输出与红外图像分支输出在通道维度相加得到图像预处理部分的输出。

如图4所示，特征提取部分由多尺度特征信息融合块一、下采样层一、多尺度特征信息融合块二和下采样层二串联组成，特征提取部分的输入是图像预处理部分的输出，如图5所示，每个多尺度特征信息融合块由若干特征信息融合残差块、上采样层和下采样层串联、并联组成，其中有三条支路组成，第一条支路由特征信息融合残差块一、下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三、上采样层二组成；第二条支路由下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三和上采样层二组成；第三条支路由特征信息融合残差块二、下采样层二、卷积层、上采样层一组成。多尺度特征信息融合块中所有卷积核大小为3×3、步长为1，下采样层一、下采样层二的步长为2，上采样层一、上采样层二采用双三次插值上采样法，如图6所示，每个特征信息融合残差块结构相同，有两个分支。第一个分支由卷积层一、卷积层二、卷积层三、下采样层一、上采样层、卷积层三串联组成。第二个分支由卷积层三、下采样层一、上采样层串联组成。特征信息融合残差块中所有卷积核大小为3×3、步长为1。

如图7所示，轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成，轮廓信息引导注意力部分的输入是特征提取部分的输出。空间注意力分支有两个子分支分支，第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成，第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算。基于扩张卷积的通道注意力分支有两个子分支，第一个子分支由扩张卷积块、通道注意力模块串联组成，第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算，得到轮廓信息引导注意力部分的输出，轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、卷积层一和空间注意力块和卷积层二组成，基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积一、扩张卷积二、扩张卷积三和一个通道注意力块组成，空间注意力分支中卷积层一和卷积层二的卷积核大小为3，步长为1，基于扩张卷积的通道注意力分支中的扩张卷积一、扩张卷积二和扩张卷积三的卷积核大小为3、步长为1。扩张卷积一、扩张卷积二和扩张卷积三的扩张率分别为2、4和6。

如图8所示，头部网络部分由类别分支、坐标分支和置信度分支三部分组成，有一个输入、三个输出。头部网络的输入是轮廓信息引导注意力部分的输出，三个输出分别是类别分支、坐标分支和置信度分支的输出，类别分支、坐标分支和置信度分支由都由三个卷积层串联组成，头部网络中的类别分支由卷积层一、卷积层二和卷积层三组成，其中卷积层一和卷积层三的卷积核大小为1、步长为1，卷积层二的卷积核大小为3、步长为1。坐标分支由卷积层一、卷积层四和卷积层五组成，卷积层四的卷积核大小为3、步长为1，卷积层五的卷积核大小为1、步长为1。置信度分支由卷积层一、卷积层四和卷积层六组成，卷积层六的卷积核大小为1、步长为1。

步骤3，训练可见光-红外行人目标检测网络；对步骤2的得到的数据集图片进行图像增强，将每一张图片中进行随机衍射变换，根据图片变化方式对标签文件中行人目标数据进行更改，并且裁剪到输入图片的大小，作为整个网络的输入。其中随机大小和位置通过软件算法可以实现；

步骤4，选择最小化损失函数；网络的输出与标签计算损失函数是通过最小化损失函数达到更好的检测效果。

损失函数选择分类损失和回归损失两部分的结合，每种损失再细分为分类损失和回归框损失。对于损失函数，总损失由和L_Reg表示。/>的计算使用Dice损失函数和交叉熵的方法，并通过每个可见光-红外图像样本生成的每一个行人目标检测结果和其训练样本集中对应的标签计算分类损失值。L_Reg的计算则是通过每个可见光图像、红外图像样本生成的每个行人目标检测结果和其对应的训练样本集中的一个标签计算行人目标回归框损失值。在反向传播过程中，多分类和回归框的参数进行共享，旨在使不同的特征映射学习到标签信息外更多的语义信息。总损失函数定义为：

其中，表示训练后得到的行人目标输出图像，y表示训练样本集中可见光-红外图像行人目标共用的样本标签。/>表示行人目标回归框预测值，x表示训练样本集中可见光-红外图像行人目标共用的回归框预测值的标签；

设定训练次数为300，每次输入到网络图片数量为1组可见光-红外图像对，每次输入到网络图片数量大小的上限主要是根据计算机图形处理器性能决定，一般每次输入到网络图片数量越大越好，使网络更加稳定。训练过程的学***稳。损失函数函数值阈值设定为0.0003左右，小于0.0003就可以认为整个网络的训练已基本完成；

步骤5，微调模型，使用可见光-红外行人目标数据集OSU-Thermal Pedestrian数据集对整个网络模型参数进行微调，得到稳定的可用模型参数，进一步提高模型的行人目标检测能力，最终使得模型对行人目标检测效果更好；

步骤6，保存模型，将网络训练完成后，需要将网络中所有参数保存，之后将带有行人目标的可见光或红外图像输入到网络中就可以得到检测结果，该网络对输入图像大小没有要求，任意尺寸均可。

其中，卷积层、激活函数、正则化层、上采样层、下采样层和边缘检测器的实现是本领域技术人员公知的算法，具体流程和方法可在相应的教科书或者技术文献中查阅到。

本发明通过构建一种用于多模态行人检测的轮廓信息引导特征检测方法，可以通过可见光或红外行人目标图像检测图中的行人目标。通过计算与现有方法得到图像的相关指标，进一步验证了该方法的可行性和优越性。现有技术和本发明提出方法的相关指标对比如图9所示，本发明提出的方法拥有更高的精度AP和召回率Recall和更低的丢失率MR，这些指标也进一步说明了本发明提出的方法具有更好的行人目标检测效果。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于多模态行人检测的轮廓信息引导特征检测方法，其特征在于：该方法具体包括如下步骤：

特征提取部分由多尺度特征信息融合块和下采样层串联组成，每个多尺度特征信息融合块由若干特征信息融合残差块串联组成；特征提取部分的输入是图像预处理部分的输出，特征提取部分中的多尺度特征信息融合块，由三条支路组成；三条支路都由若干特征信息融合残差块、下采样层、上采样层组成；多尺度特征信息融合块中所有卷积核大小为3×3、步长为1、下采样层的步长为2，上采样层采用双三次插值上采样法；每个特征信息融合残差块结构相同，有两个分支，每个分支由若干卷积层、下采样层、上采样层、串联组成，特征信息融合残差块中所有卷积层的卷积核大小为3×3、步长为1；

轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成，轮廓信息引导注意力部分的输入是特征提取部分的输出，空间注意力分支有两个子分支分支，第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成，第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算；基于扩张卷积的通道注意力分支有两个子分支，第一个子分支由扩张卷积块、通道注意力模块串联组成，第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算，得到轮廓信息引导注意力部分的输出；轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、空间注意力块和若干卷积层组成；基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积和一个通道注意力块组成；空间注意力分支中卷积层的卷积核大小为3，步长为1；基于扩张卷积的通道注意力分支中扩张卷积的卷积核大小为3、步长为1，扩张卷积的扩张率分别为2、4和6；

2.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法，其特征在于：所述步骤1中的图像预处理部分由Top-Hat、DoG和亮度提取三部分组成，Top-Hat、DoG处理输入图像中的红外图像，亮度提取部分处理输入图像中的可见光图像。

3.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法，其特征在于：步骤1中的头部网络由类别分支、坐标分支和置信度分支三部分组成；类别分支、坐标分支和置信度分支由都由三个卷积层串联组成，头部网络中的类别分支由卷积层一、卷积层二和卷积层三组成，其中卷积层一和卷积层三的卷积核大小为1、步长为1，卷积层二的卷积核大小为3、步长为1；坐标分支由卷积层一、卷积层四和卷积层五组成，卷积层四的卷积核大小为3、步长为1，卷积层五的卷积核大小为1、步长为1；置信度分支由卷积层一、卷积层四和卷积层六组成，卷积层六的卷积核大小为1、步长为1。

4.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法，其特征在于：所述步骤2中的KAIST可见光-红外配对数据集，首先在训练集中每隔2张图片取一张，并去掉所有不包含任何行人的图片，且剔除数据集中严重遮挡，只有半截或者小于50个像素的行人，可得到7601张训练集图片；在测试集中每隔19张取一张，保留负样本，可得到2252张图片测试集；通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小，作为整个网络的输入。