CN116645696B - 一种用于多模态行人检测的轮廓信息引导特征检测方法 - Google Patents
一种用于多模态行人检测的轮廓信息引导特征检测方法 Download PDFInfo
- Publication number
- CN116645696B CN116645696B CN202310628569.1A CN202310628569A CN116645696B CN 116645696 B CN116645696 B CN 116645696B CN 202310628569 A CN202310628569 A CN 202310628569A CN 116645696 B CN116645696 B CN 116645696B
- Authority
- CN
- China
- Prior art keywords
- convolution
- branch
- layer
- network
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 77
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 50
- 238000000034 method Methods 0.000 claims description 29
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 19
- 230000010339 dilation Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/60—Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,尤其为一种用于多模态行人检测的轮廓信息引导特征检测方法,该方法具体包括如下步骤:步骤1,构建可见光‑红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;步骤2,使用KAIST可见光‑红外配对数据集作为网络训练、测试与验证的数据集;步骤3,训练可见光‑红外行人目标检测网络;将步骤2中得到的可见光‑红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练。本发明,提出一种混合滤波器能够充分抑制背景干扰、增强红外图像中的纹理信息和轮廓信息,并提取可见光图像中的亮度信息,为检测网络提供高质量的输入图像。
Description
技术领域
本发明涉及计算机视觉技术领域,具体为一种用于多模态行人检测的轮廓信息引导特征检测方法。
背景技术
行人检测算法常用于行人目标密集出现的场景中,由于行人目标密集导致不同程度的遮挡、目标轮廓不清晰容易导致行人检测精度下降。目前,由于计算设备性能的不断提升和深度学习技术的日益成熟,基于深度学习的行人检测方法已成为主流的行人检测问题解决方案。相比于基于Haar、HOG特征的Adaboost和SVM算法具有显著的性能优势。相比直接使用深层融合特征进行行人预测,引入高效的特征提取模块和轮廓信息注意力机制,能够帮助网络更加准确地提取并关注行人目标特征,减少因为特征层不断深入导致的空间结构细节信息和边缘信息的丢失。现有一些工作已经取得一定进展,但是其中仍存在几个关键问题:
(1)现有的行人检测算法中,为获得更深层次的行人目标特征,只有不断加深特征提取网络的深度,通过不断加深特征提取网络,挖掘更深层次的目标特征。但更深的特征提取网络会丢失大量的空间结构信息和边缘信息,因此现有方法中的低效特征提取网络并不会显著提高网络行人检测精度;
(2)现有的行人检测算法中,为引导网络关注深层次的行人目标特征,只有使用主流的空间注意力与通道注意力,低效的注意力机制并不会提取边缘信息及全局空间特征并进行融合以强化边缘信息及空间信息,无法保证深层特征图能够保留更多的细节信息与清晰边缘;
(3)现有的行人检测算法中,在亮度较高情景下的行人检测效果较好,但在低照度情景下的行人效果很差,因此现有方法的泛化能力与检测不同情景下行人目标的鲁棒性较差。
针对上述问题,我们参考行人检测领域的常用方法,设计了一种用于多模态行人检测的轮廓信息引导特征检测方法,其中引入了高效的特征信息融合网络、轮廓信息引导注意力网络和混合滤波器。特征信息融合网络能够有效提取图像的多级特征信息,减少特征提取过程中的特征丢失,并在提取过程中实现多级特征复用,减少复用过程中的信息冗余。
中国专利申请公布号为“CN115273154B”,名称为“基于边缘重构的热红外行人检测方法、***及存储介质”,提出边缘信息概念,引导模型深入挖掘热红外图像中的边缘特征。然而,该方法未加入配对的可见光图像作为热红外图像的补充信息,无法关联可见光与红外行人目标信息;低效的特征提取模块无法充分挖掘红外行人目标的空间结构信息,导致检测精度较低;边缘重构模块对目标轮廓挖掘能力差,无法协助定位准确定位。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种用于多模态行人检测的轮廓信息引导特征检测方法,解决了上述背景技术中所提出的问题。
(二)技术方案
本发明为了实现上述目的具体采用以下技术方案:
一种用于多模态行人检测的轮廓信息引导特征检测方法,该方法具体包括如下步骤:
步骤1,构建可见光-红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;
步骤2,使用KAIST可见光-红外配对数据集作为网络训练、测试与验证的数据集;
步骤3,训练可见光-红外行人目标检测网络;将步骤2中得到的可见光-红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练;
步骤4,选择最小化损失函数;通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成,保存模型参数;
步骤5,微调模型:使用可见光-红外行人目标检测数据集对整个网络模型参数进行微调,得到稳定的可用模型参数,进一步提高模型的行人目标检测能力,最终使得模型对行人目标检测效果更好;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行行人目标检测操作时,直接将待检测图像输入到网络中即可得到最终的行人目标检测结果。
进一步地,所述步骤1中的图像预处理部分由Top-Hat、DoG和亮度提取三部分组成,Top-Hat、DoG处理输入图像中的红外图像,亮度提取部分处理输入图像中的可见光图像。
进一步地,所述步骤1中的特征提取部分由多尺度特征信息融合块和下采样层串联组成,每个多尺度特征信息融合块由若干特征信息融合残差块串联组成。特征提取部分的输入是图像预处理部分的输出。特征提取部分中的多尺度特征信息融合块,由三条支路组成。三条支路都由若干特征信息融合残差块、下采样层、上采样层组成。多尺度特征信息融合块中所有卷积核大小为3×3、步长为1。下采样层的步长为2。上采样层采用双三次插值上采样法。每个特征信息融合残差块结构相同,有两个分支,每个分支由若干卷积层、下采样层、上采样层、串联组成。特征信息融合残差块中所有卷积层的卷积核大小为3×3、步长为1。
进一步地,所述步骤1中的轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成,轮廓信息引导注意力部分的输入是特征提取部分的输出。空间注意力分支有两个子分支分支,第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成,第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算。基于扩张卷积的通道注意力分支有两个子分支,第一个子分支由扩张卷积块、通道注意力模块串联组成,第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算,得到轮廓信息引导注意力部分的输出。轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、空间注意力块和若干卷积层组成。基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积和一个通道注意力块组成。空间注意力分支中卷积层的卷积核大小为3,步长为1。基于扩张卷积的通道注意力分支中扩张卷积的卷积核大小为3、步长为1。扩张卷积的扩张率分别为2、4和6。
进一步地,所述步骤2中的KAIST可见光-红外配对数据集,首先在训练集中每隔2张图片取一张,并去掉所有不包含任何行人的图片,且剔除数据集中严重遮挡,只有半截或者小于50个像素的行人,可得到7601张训练集图片。在测试集中每隔19张取一张,保留负样本,可得到2252张图片测试集。通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小,作为整个网络的输入。
(三)有益效果
与现有技术相比,本发明提供了一种用于多模态行人检测的轮廓信息引导特征检测方法,具备以下有益效果:
本发明,提出一种混合滤波器能够充分抑制背景干扰、增强红外图像中的纹理信息和轮廓信息,并提取可见光图像中的亮度信息,为检测网络提供高质量的输入图像。
本发明,提出了一种多尺度特征信息融合块,能够在特征提取过程中不断融合不同尺度特征,提高不同深度网络层中不同尺度特征的融合与复用能力。
本发明,提出一种轮廓信息引导注意力网络,能够并行地提取边缘信息及全局空间特征并进行融合以强化边缘信息及空间信息,从而保证深层特征图保留更多的细节信息并具有清晰边缘。
附图说明
图1为本发明流程图;
图2为本发明网络结构图;
图3为本发明图像预处理图;
图4为本发明特征提取部分结构图;
图5为本发明多尺度特征信息融合块结构图;
图6为本发明特征信息融合残差块结构图;
图7为本发明轮廓信息引导注意力结构图;
图8为本发明头部网络结构图;
图9为本发明现有技术和本发明提出方法的相关指标对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-9所示,本发明一个实施例提出的一种用于多模态行人检测的轮廓信息引导特征检测方法,该方法具体包括如下步骤:
步骤1,构建可见光-红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;
图像预处理部分由Top-Hat、DoG和亮度提取三部分组成两个并行分支,其中Top-Hat与DoG并联组成第一个红外图像分支,亮度提取是第二个可见光图像分支,红外图像分支的输入是输入图像中的红外图像,红外图像分别经过Top-Hat和DoG滤波器,得到的输入在通道维度相加得到红外图像分支的输出,可见光图像分支的输入是输入图像中的可见光图像,可见光图像经过亮度提取,得到的输出与红外图像分支输出在通道维度相加得到图像预处理部分的输出。
特征提取部分由多尺度特征信息融合块一、下采样层一、多尺度特征信息融合块二和下采样层二串联组成,每个多尺度特征信息融合块由若干特征信息融合残差块串联组成,特征提取部分的输入是图像预处理部分的输出,特征提取部分中的多尺度特征信息融合块,由三条支路组成,第一条支路由特征信息融合残差块一、下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三、上采样层二组成;第二条支路由下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三和上采样层二组成;第三条支路由特征信息融合残差块二、下采样层二、卷积层、上采样层一组成,多尺度特征信息融合块中所有卷积核大小为3×3、步长为1,下采样层一、下采样层二的步长为2,上采样层一、上采样层二采用双三次插值上采样法,每个特征信息融合残差块结构相同,有两个分支。第一个分支由卷积层一、卷积层二、卷积层三、下采样层一、上采样层、卷积层三串联组成。第二个分支由卷积层三、下采样层一、上采样层串联组成。特征信息融合残差块中所有卷积核大小为3×3、步长为1。
轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成,轮廓信息引导注意力部分的输入是特征提取部分的输出,空间注意力分支有两个子分支分支,第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成,第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算,基于扩张卷积的通道注意力分支有两个子分支,第一个子分支由扩张卷积块、通道注意力模块串联组成,第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算,得到轮廓信息引导注意力部分的输出,轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、卷积层一和空间注意力块和卷积层二组成,基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积一、扩张卷积二、扩张卷积三和一个通道注意力块组成,空间注意力分支中卷积层一和卷积层二的卷积核大小为3,步长为1,基于扩张卷积的通道注意力分支中的扩张卷积一、扩张卷积二和扩张卷积三的卷积核大小为3、步长为1,扩张卷积一、扩张卷积二和扩张卷积三的扩张率分别为2、4和6。
头部网络部分由类别分支、坐标分支和置信度分支三部分组成,有一个输入、三个输出,头部网络的输入是轮廓信息引导注意力部分的输出,三个输出分别是类别分支、坐标分支和置信度分支的输出,类别分支、坐标分支和置信度分支由都由三个卷积层串联组成,头部网络中的类别分支由卷积层一、卷积层二和卷积层三组成,其中卷积层一和卷积层三的卷积核大小为1、步长为1,卷积层二的卷积核大小为3、步长为1,坐标分支由卷积层一、卷积层四和卷积层五组成,卷积层四的卷积核大小为3、步长为1,卷积层五的卷积核大小为1、步长为1,置信度分支由卷积层一、卷积层四和卷积层六组成,卷积层六的卷积核大小为1、步长为1。
步骤2,使用KAIST可见光-红外配对数据集作为网络训练、测试与验证的数据集;该数据集总共包括95328张图片,每张图片都包含RGB彩色图像和红外图像两个版本,总共包含103128个密集注释。数据集分别在白天和晚上捕获了包括校园、街道以及乡下的各种常规交通场景,图片大小为640×480,但该数据集中有大量无行人目标和目标错误标注的图片,因此在训练集每隔2张图片取一张,并去掉所有不包含任何行人的图片,即选出来的图片中至少包含一个目标,且剔除数据集中严重遮挡,只有半截或者小于50个像素的行人,经过此操作可得到7601张训练集图片,包括4755张白天情景图片,2846张夜晚情景图片。测试集每隔19张取一张,保留负样本,经此操作可得到2252张图片测试集,包括1455张白天情景图片,797张夜晚情景图片。通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小,作为整个网络的输入;
步骤3,训练可见光-红外行人目标检测网络;将步骤2中得到的可见光-红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练;
步骤4,选择最小化损失函数;通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成,保存模型参数,在训练过程中损失函数选择使用分类损失和回归损失两部分结合,其目的在于充分利用正样本的监督信号,同时,如果正样本具有很高的交并比,那么在训练过程中对应损失函数的贡献就要大一些,这样使得训练可以聚焦在那些质量高的样本上;
步骤5,微调模型:使用可见光-红外行人目标检测数据集对整个网络模型参数进行微调,得到稳定的可用模型参数,进一步提高模型的行人目标检测能力,最终使得模型对行人目标检测效果更好;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行行人目标检测操作时,直接将待检测图像输入到网络中即可得到最终的行人目标检测结果。
实施例2:
如图1所示,一种用于多模态行人检测的轮廓信息引导特征检测方法,该方法具体包括如下步骤:
步骤1,构建可见光-红外行人目标检测网络;
如图2所示,构建可见光-红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;
如图3所示,图像预处理部分由Top-Hat、DoG和亮度提取三部分组成两个并行分支,其中Top-Hat与DoG并联组成第一个红外图像分支,亮度提取是第二个可见光图像分支。红外图像分支的输入是输入图像中的红外图像,红外图像分别经过Top-Hat和DoG滤波器,分别得到轮廓滤波和高斯滤波的特征,两种滤波输出特征通道维度相加得到红外图像分支的输出,可见光图像分支的输入是输入图像中的可见光图像,可见光图像经过亮度提取得到亮度信息,得到的输出与红外图像分支输出在通道维度相加得到图像预处理部分的输出。
如图4所示,特征提取部分由多尺度特征信息融合块一、下采样层一、多尺度特征信息融合块二和下采样层二串联组成,特征提取部分的输入是图像预处理部分的输出,如图5所示,每个多尺度特征信息融合块由若干特征信息融合残差块、上采样层和下采样层串联、并联组成,其中有三条支路组成,第一条支路由特征信息融合残差块一、下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三、上采样层二组成;第二条支路由下采样层一、特征信息融合残差块二、下采样层二、卷积层、上采样层一、特征信息融合残差块三和上采样层二组成;第三条支路由特征信息融合残差块二、下采样层二、卷积层、上采样层一组成。多尺度特征信息融合块中所有卷积核大小为3×3、步长为1,下采样层一、下采样层二的步长为2,上采样层一、上采样层二采用双三次插值上采样法,如图6所示,每个特征信息融合残差块结构相同,有两个分支。第一个分支由卷积层一、卷积层二、卷积层三、下采样层一、上采样层、卷积层三串联组成。第二个分支由卷积层三、下采样层一、上采样层串联组成。特征信息融合残差块中所有卷积核大小为3×3、步长为1。
如图7所示,轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成,轮廓信息引导注意力部分的输入是特征提取部分的输出。空间注意力分支有两个子分支分支,第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成,第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算。基于扩张卷积的通道注意力分支有两个子分支,第一个子分支由扩张卷积块、通道注意力模块串联组成,第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算,得到轮廓信息引导注意力部分的输出,轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、卷积层一和空间注意力块和卷积层二组成,基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积一、扩张卷积二、扩张卷积三和一个通道注意力块组成,空间注意力分支中卷积层一和卷积层二的卷积核大小为3,步长为1,基于扩张卷积的通道注意力分支中的扩张卷积一、扩张卷积二和扩张卷积三的卷积核大小为3、步长为1。扩张卷积一、扩张卷积二和扩张卷积三的扩张率分别为2、4和6。
如图8所示,头部网络部分由类别分支、坐标分支和置信度分支三部分组成,有一个输入、三个输出。头部网络的输入是轮廓信息引导注意力部分的输出,三个输出分别是类别分支、坐标分支和置信度分支的输出,类别分支、坐标分支和置信度分支由都由三个卷积层串联组成,头部网络中的类别分支由卷积层一、卷积层二和卷积层三组成,其中卷积层一和卷积层三的卷积核大小为1、步长为1,卷积层二的卷积核大小为3、步长为1。坐标分支由卷积层一、卷积层四和卷积层五组成,卷积层四的卷积核大小为3、步长为1,卷积层五的卷积核大小为1、步长为1。置信度分支由卷积层一、卷积层四和卷积层六组成,卷积层六的卷积核大小为1、步长为1。
步骤3,训练可见光-红外行人目标检测网络;对步骤2的得到的数据集图片进行图像增强,将每一张图片中进行随机衍射变换,根据图片变化方式对标签文件中行人目标数据进行更改,并且裁剪到输入图片的大小,作为整个网络的输入。其中随机大小和位置通过软件算法可以实现;
步骤4,选择最小化损失函数;网络的输出与标签计算损失函数是通过最小化损失函数达到更好的检测效果。
损失函数选择分类损失和回归损失两部分的结合,每种损失再细分为分类损失和回归框损失。对于损失函数,总损失由和LReg表示。/>的计算使用Dice损失函数和交叉熵的方法,并通过每个可见光-红外图像样本生成的每一个行人目标检测结果和其训练样本集中对应的标签计算分类损失值。LReg的计算则是通过每个可见光图像、红外图像样本生成的每个行人目标检测结果和其对应的训练样本集中的一个标签计算行人目标回归框损失值。在反向传播过程中,多分类和回归框的参数进行共享,旨在使不同的特征映射学习到标签信息外更多的语义信息。总损失函数定义为:
其中,表示训练后得到的行人目标输出图像,y表示训练样本集中可见光-红外图像行人目标共用的样本标签。/>表示行人目标回归框预测值,x表示训练样本集中可见光-红外图像行人目标共用的回归框预测值的标签;
设定训练次数为300,每次输入到网络图片数量为1组可见光-红外图像对,每次输入到网络图片数量大小的上限主要是根据计算机图形处理器性能决定,一般每次输入到网络图片数量越大越好,使网络更加稳定。训练过程的学***稳。损失函数函数值阈值设定为0.0003左右,小于0.0003就可以认为整个网络的训练已基本完成;
步骤5,微调模型,使用可见光-红外行人目标数据集OSU-Thermal Pedestrian数据集对整个网络模型参数进行微调,得到稳定的可用模型参数,进一步提高模型的行人目标检测能力,最终使得模型对行人目标检测效果更好;
步骤6,保存模型,将网络训练完成后,需要将网络中所有参数保存,之后将带有行人目标的可见光或红外图像输入到网络中就可以得到检测结果,该网络对输入图像大小没有要求,任意尺寸均可。
其中,卷积层、激活函数、正则化层、上采样层、下采样层和边缘检测器的实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或者技术文献中查阅到。
本发明通过构建一种用于多模态行人检测的轮廓信息引导特征检测方法,可以通过可见光或红外行人目标图像检测图中的行人目标。通过计算与现有方法得到图像的相关指标,进一步验证了该方法的可行性和优越性。现有技术和本发明提出方法的相关指标对比如图9所示,本发明提出的方法拥有更高的精度AP和召回率Recall和更低的丢失率MR,这些指标也进一步说明了本发明提出的方法具有更好的行人目标检测效果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:该方法具体包括如下步骤:
步骤1,构建可见光-红外行人目标检测网络模型:整个网络包括图像预处理、特征提取、轮廓信息引导注意力和头部网络四部分;
特征提取部分由多尺度特征信息融合块和下采样层串联组成,每个多尺度特征信息融合块由若干特征信息融合残差块串联组成;特征提取部分的输入是图像预处理部分的输出,特征提取部分中的多尺度特征信息融合块,由三条支路组成;三条支路都由若干特征信息融合残差块、下采样层、上采样层组成;多尺度特征信息融合块中所有卷积核大小为3×3、步长为1、下采样层的步长为2,上采样层采用双三次插值上采样法;每个特征信息融合残差块结构相同,有两个分支,每个分支由若干卷积层、下采样层、上采样层、串联组成,特征信息融合残差块中所有卷积层的卷积核大小为3×3、步长为1;
轮廓信息引导注意力部分由空间注意力分支、基于扩张卷积的通道注意力分支两部分组成,轮廓信息引导注意力部分的输入是特征提取部分的输出,空间注意力分支有两个子分支分支,第一个子分支是由边缘提取器、卷积层、空间注意力模块串联组成,第二个子分支是空间注意力分支的输入直接与第一个子分支的输出进行相乘运算;基于扩张卷积的通道注意力分支有两个子分支,第一个子分支由扩张卷积块、通道注意力模块串联组成,第二个子分支是基于扩张卷积的通道注意力分支的输入直接与第一个子分支的输出进行相乘运算,得到轮廓信息引导注意力部分的输出;轮廓信息引导注意力部分中的空间注意力分支由边缘检测器、空间注意力块和若干卷积层组成;基于扩张卷积的通道注意力分支由三个并联组成的扩张卷积和一个通道注意力块组成;空间注意力分支中卷积层的卷积核大小为3,步长为1;基于扩张卷积的通道注意力分支中扩张卷积的卷积核大小为3、步长为1,扩张卷积的扩张率分别为2、4和6;
步骤2,使用KAIST可见光-红外配对数据集作为网络训练、测试与验证的数据集;
步骤3,训练可见光-红外行人目标检测网络;将步骤2中得到的可见光-红外行人目标数据集输入到步骤1中构建好的网络模型中进行训练;
步骤4,选择最小化损失函数;通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已训练完成,保存模型参数;
步骤5,微调模型:使用可见光-红外行人目标检测数据集对整个网络模型参数进行微调,得到稳定的可用模型参数,进一步提高模型的行人目标检测能力,最终使得模型对行人目标检测效果更好;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行行人目标检测操作时,直接将待检测图像输入到网络中即可得到最终的行人目标检测结果。
2.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:所述步骤1中的图像预处理部分由Top-Hat、DoG和亮度提取三部分组成,Top-Hat、DoG处理输入图像中的红外图像,亮度提取部分处理输入图像中的可见光图像。
3.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:步骤1中的头部网络由类别分支、坐标分支和置信度分支三部分组成;类别分支、坐标分支和置信度分支由都由三个卷积层串联组成,头部网络中的类别分支由卷积层一、卷积层二和卷积层三组成,其中卷积层一和卷积层三的卷积核大小为1、步长为1,卷积层二的卷积核大小为3、步长为1;坐标分支由卷积层一、卷积层四和卷积层五组成,卷积层四的卷积核大小为3、步长为1,卷积层五的卷积核大小为1、步长为1;置信度分支由卷积层一、卷积层四和卷积层六组成,卷积层六的卷积核大小为1、步长为1。
4.根据权利要求1所述的一种用于多模态行人检测的轮廓信息引导特征检测方法,其特征在于:所述步骤2中的KAIST可见光-红外配对数据集,首先在训练集中每隔2张图片取一张,并去掉所有不包含任何行人的图片,且剔除数据集中严重遮挡,只有半截或者小于50个像素的行人,可得到7601张训练集图片;在测试集中每隔19张取一张,保留负样本,可得到2252张图片测试集;通过对数据集图片进行增强、随机衍射变换并裁剪成为输入图片大小,作为整个网络的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628569.1A CN116645696B (zh) | 2023-05-31 | 2023-05-31 | 一种用于多模态行人检测的轮廓信息引导特征检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628569.1A CN116645696B (zh) | 2023-05-31 | 2023-05-31 | 一种用于多模态行人检测的轮廓信息引导特征检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116645696A CN116645696A (zh) | 2023-08-25 |
CN116645696B true CN116645696B (zh) | 2024-02-02 |
Family
ID=87618416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310628569.1A Active CN116645696B (zh) | 2023-05-31 | 2023-05-31 | 一种用于多模态行人检测的轮廓信息引导特征检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645696B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274899B (zh) * | 2023-09-20 | 2024-05-28 | 中国人民解放军海军航空大学 | 基于可见光和红外光图像特征融合的仓储隐患检测方法 |
CN117036923B (zh) * | 2023-10-08 | 2023-12-08 | 广东海洋大学 | 一种基于机器视觉的水下机器人目标检测方法 |
CN117690161B (zh) * | 2023-12-12 | 2024-06-04 | 上海工程技术大学 | 一种基于图像融合的行人检测方法、设备和介质 |
CN117893561B (zh) * | 2024-03-14 | 2024-06-07 | 大连理工大学 | 一种基于局部对比度计算方法的红外细小目标检测算法 |
CN118115952A (zh) * | 2024-04-28 | 2024-05-31 | 中国民航大学 | 一种城市低空复杂背景下无人机图像全天候检测方法及*** |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898617A (zh) * | 2020-06-29 | 2020-11-06 | 南京邮电大学 | 基于注意力机制与并行空洞卷积网络的目标检测方法、*** |
WO2021093435A1 (zh) * | 2019-11-12 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN113723377A (zh) * | 2021-11-02 | 2021-11-30 | 南京信息工程大学 | 一种基于ld-ssd网络的交通标志检测方法 |
CN114067126A (zh) * | 2021-11-19 | 2022-02-18 | 长春理工大学 | 一种红外图像目标检测方法 |
CN114092820A (zh) * | 2022-01-20 | 2022-02-25 | 城云科技(中国)有限公司 | 目标检测方法及应用其的移动目标跟踪方法 |
CN114220001A (zh) * | 2021-11-25 | 2022-03-22 | 南京信息工程大学 | 基于双注意力神经网络的遥感影像云与云阴影检测方法 |
CN114241277A (zh) * | 2021-12-22 | 2022-03-25 | 中国人民解放军国防科技大学 | 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质 |
CN115188066A (zh) * | 2022-06-02 | 2022-10-14 | 广州大学 | 基于协同注意力和多尺度融合的运动目标检测***及方法 |
CN115620207A (zh) * | 2022-11-08 | 2023-01-17 | 长春理工大学 | 一种基于注意力机制的红外行人检测方法 |
CN115620010A (zh) * | 2022-09-20 | 2023-01-17 | 长春理工大学 | 一种rgb-t双模态特征融合的语义分割方法 |
CN115830449A (zh) * | 2022-12-01 | 2023-03-21 | 北京理工大学重庆创新中心 | 显式轮廓引导和空间变化上下文增强的遥感目标检测方法 |
CN115953736A (zh) * | 2023-01-19 | 2023-04-11 | 华东交通大学 | 一种基于视频监控与深度神经网络的人群密度估计方法 |
CN116129289A (zh) * | 2023-03-06 | 2023-05-16 | 江西理工大学 | 一种注意力边缘交互的光学遥感图像显著性目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11941884B2 (en) * | 2021-11-12 | 2024-03-26 | Adobe Inc. | Multi-source panoptic feature pyramid network |
-
2023
- 2023-05-31 CN CN202310628569.1A patent/CN116645696B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093435A1 (zh) * | 2019-11-12 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN111898617A (zh) * | 2020-06-29 | 2020-11-06 | 南京邮电大学 | 基于注意力机制与并行空洞卷积网络的目标检测方法、*** |
CN113723377A (zh) * | 2021-11-02 | 2021-11-30 | 南京信息工程大学 | 一种基于ld-ssd网络的交通标志检测方法 |
CN114067126A (zh) * | 2021-11-19 | 2022-02-18 | 长春理工大学 | 一种红外图像目标检测方法 |
CN114220001A (zh) * | 2021-11-25 | 2022-03-22 | 南京信息工程大学 | 基于双注意力神经网络的遥感影像云与云阴影检测方法 |
CN114241277A (zh) * | 2021-12-22 | 2022-03-25 | 中国人民解放军国防科技大学 | 注意力引导的多特征融合伪装目标检测方法、装置、设备及介质 |
CN114092820A (zh) * | 2022-01-20 | 2022-02-25 | 城云科技(中国)有限公司 | 目标检测方法及应用其的移动目标跟踪方法 |
CN115188066A (zh) * | 2022-06-02 | 2022-10-14 | 广州大学 | 基于协同注意力和多尺度融合的运动目标检测***及方法 |
CN115620010A (zh) * | 2022-09-20 | 2023-01-17 | 长春理工大学 | 一种rgb-t双模态特征融合的语义分割方法 |
CN115620207A (zh) * | 2022-11-08 | 2023-01-17 | 长春理工大学 | 一种基于注意力机制的红外行人检测方法 |
CN115830449A (zh) * | 2022-12-01 | 2023-03-21 | 北京理工大学重庆创新中心 | 显式轮廓引导和空间变化上下文增强的遥感目标检测方法 |
CN115953736A (zh) * | 2023-01-19 | 2023-04-11 | 华东交通大学 | 一种基于视频监控与深度神经网络的人群密度估计方法 |
CN116129289A (zh) * | 2023-03-06 | 2023-05-16 | 江西理工大学 | 一种注意力边缘交互的光学遥感图像显著性目标检测方法 |
Non-Patent Citations (4)
Title |
---|
Hongyang Wei 等.SARNet: Spatial Attention Residual Network for pedestrian and vehicle detection in large scenes.《Applied Intelligence》.2022,17718-17733. * |
李夏露.基于多层特征融合的显著性目标检测算法研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2023,(第02期),I138-3466. * |
王晓玉.基于复杂场景下抗干扰网络的小目标检测的研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2023,(第02期),I138-2150. * |
瞿中 等.基于注意力机制和轻量级空洞卷积的混凝土路面裂缝检测.《计算机科学》.2023,第50卷(第2期),231-236. * |
Also Published As
Publication number | Publication date |
---|---|
CN116645696A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116645696B (zh) | 一种用于多模态行人检测的轮廓信息引导特征检测方法 | |
CN112597941B (zh) | 一种人脸识别方法、装置及电子设备 | |
CN108665481A (zh) | 多层深度特征融合的自适应抗遮挡红外目标跟踪方法 | |
JP7246104B2 (ja) | テキスト行識別に基づくナンバープレート識別方法 | |
CN112287912B (zh) | 基于深度学习的车道线检测方法以及装置 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN114841244B (zh) | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 | |
CN115620010A (zh) | 一种rgb-t双模态特征融合的语义分割方法 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN111507337A (zh) | 基于混合神经网络的车牌识别方法 | |
CN117037119A (zh) | 基于改进YOLOv8的道路目标检测方法及*** | |
CN110008900A (zh) | 一种由区域到目标的可见光遥感图像候选目标提取方法 | |
CN115331183A (zh) | 改进YOLOv5s的红外目标检测方法 | |
CN113850136A (zh) | 基于yolov5与BCNN的车辆朝向识别方法及*** | |
CN114926722A (zh) | 基于YOLOv5的尺度自适应目标检测的方法及存储介质 | |
CN113537119B (zh) | 基于改进Yolov4-tiny的输电线路连接部件检测方法 | |
CN111881914B (zh) | 一种基于自学习阈值的车牌字符分割方法及*** | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN110992320B (zh) | 一种基于双重交错的医学图像分割网络 | |
CN114913519B (zh) | 一种3d目标检测方法、装置、电子设备及存储介质 | |
CN116129327A (zh) | 一种基于改进YOLOv7算法的红外车辆检测方法 | |
CN114219757B (zh) | 一种基于改进Mask R-CNN的车辆智能定损方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN111986233B (zh) | 基于特征自学习的大场景极小目标遥感视频跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |