CN116704273A - 一种自适应红外可见光双模融合检测方法 - Google Patents

一种自适应红外可见光双模融合检测方法 Download PDF

Info

Publication number
CN116704273A
CN116704273A CN202310809010.9A CN202310809010A CN116704273A CN 116704273 A CN116704273 A CN 116704273A CN 202310809010 A CN202310809010 A CN 202310809010A CN 116704273 A CN116704273 A CN 116704273A
Authority
CN
China
Prior art keywords
target
visible light
infrared
network
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310809010.9A
Other languages
English (en)
Inventor
徐立新
辛栋
张睿恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202310809010.9A priority Critical patent/CN116704273A/zh
Publication of CN116704273A publication Critical patent/CN116704273A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种自适应红外可见光双模融合检测方法,属于目标检测技术领域。使用卷积神经网络训练的权重矩阵作为特征融合的融合策略,随着网络训练自适应精确调节红外可见光图片各部分融合特征比例;采用相关权重计算网络结构;通过一个由多层卷积网络构成的相关权重计算模块对两路红外可见光特征图的不同区域进行权重计算,得到红外目标特征图的权重矩阵和相对应的可见光目标的特征图的权重矩阵;权重矩阵再和原红外可见光特征图对应位置相乘后再叠加,输出融合特征图增加训练权重矩阵的损失函数,改进多任务联合损失函数;本发明适用于目标检测领域,融合多模信息时能更好的综合多模信源不同优势区间的目的,提升目标检测的精度及环境适应性。

Description

一种自适应红外可见光双模融合检测方法
技术领域
本发明涉及一种自适应红外可见光双模融合检测方法,属于目标检测技术领域。
背景技术
作为计算机视觉领域的一个重要分支,目标检测方法解决了图像或者视频中感兴趣目标的识别和定位问题。如今,目标检测技术已经融入到人们生活的方方面面,被广泛的应用于自动驾驶、安防监控、智能家居、工业自动化、医疗诊断等领域中,极大地促进了生产力的发展。根据是否生成候选目标框,可以将基于深度学习的目标检测方法分为两种:两阶段(Two-Stage)目标检测方法和单阶段(One-Stage)目标检测方法。两阶段目标检测方法将目标检测过程分为两个步骤,第一步先生成建议区域(感兴趣区域),第二步对生成的建议区域划分类别,并且对建议框的位置进行细微调整。如区域卷积神经网络(Region-basedConvolutional Neural Network,R-CNN)、Fast-RCNN和Faster-RCNN等;单阶段目标检测方法不直接产生建议区域,而是将输入图像映射到目标框位置,使用回归分析来确定目标框的大小和位置。如Single Shot Multibox Detector(SSD)和You Only Look Once(YOLO)系列等。
由于在复杂情况下待检测目标的光学特征不同,在全天候,全时段中待检测目标的可见光图像容易受到天气、时间段等不同环境的影响造成图片质量低下,使传统的基于单模可见光图像的目标检测***容易受限于图片质量而造成误检、漏检的后果。为了解决上述问题,许多研究者提出了用多模态图像作为训练数据的方法。多模态图像,例如红外图像和可见光图像,具有互补优势。红外图像的优点是依赖目标物体产生的热源,不受照明条件的影响,但无法捕捉到目标的细节信息。可见光图像的优点是能清晰地捕捉目标的纹理特征和细节信息,但容易受到光照条件的影响。因此,基于多模态目标检测研究已成为当前的研究热点。Krotosky等人使用HOG作为特征提取因子,对输入双模图像作特征提取和级联融合,然后使用SVM进行分类得到检测结果;Fayez Lahoud提出了一种实时特征融合方法,将图像分为不同层级进行融合;徐宁文等人在小样本集上使用卷积神经网络对红外可见光图像进行特征级融合。然而,这些方法的权值调整为手动调整特征分布,无法适应多变环境;且均为整体调节特征,融合多模态特征时并不充分,还需要进一步提高多模态特征信息之间的互补优势。
发明内容
针对现有目标检测方法无法适应多变环境,且没有充分融合多模态特征的问题,本发明的主要目的是公开一种自适应红外可见光双模融合检测方法,使用卷积神经网络训练的权重矩阵作为特征融合的融合策略,随着网络训练自适应精确调节红外可见光图片各部分融合特征比例;采用相关权重计算网络结构;通过一个由多层卷积网络构成的相关权重计算模块对传递过来的两路红外可见光特征图的不同区域进行权重计算,从而得到红外目标特征图的权重矩阵和相对应的可见光目标的特征图的权重矩阵;然后权重矩阵再和原红外可见光特征图对应位置相乘后再叠加,输出融合特征图增加训练权重矩阵的损失函数,改进多任务联合损失函数;达到融合多模信息时能更好的综合多模信源不同优势区间的目的,提升目标检测的精度及环境适应性。
本发明的目的是通过如下技术方案实现的:
本发明的公开的一种自适应红外可见光双模融合检测方法,具体包含以下步骤:
步骤1、使用两路主干特征提取网络分别提取可见光图像特征和红外图像特征。
输入配准的红外可见光图像,使用两路主干特征提取网络分别提取可见光图像特征和红外图像特征。其中,可见光图像含有三通道信息,红外图像含有单通道信息,共提取四通道信息。
步骤2、通过相关权重计算网络计算特征权重矩阵,得到融合特征图,自适应地进行特征融合;
通过一个由多层卷积网络构成的相关权重计算网络,对步骤1得到的可见光特征图及红外特征图的不同区域进行权重计算,得到红外目标特征图的权重特征图WIR和相对应的可见光目标的特征图的权重特征图WRGB。得到权重特征图后再和原红外可见光特征图对应位置相乘后再叠加后输出融合特征图fm(w,h)。整个过程表示:
其中ffus为对卷积网络所作的变换;WIR为红外目标特征图的权重特征图;WRGB为对应的可见光目标的特征图的权重特征图;和/>为输入的红外可见光。
融合特征图fm(w,h)的大小和输入的红外可见光特征和/>相同。特征融合网络的核心是相关权重计算网络,它由多层卷积神经网络构成。输入红外可见光特征图的大小为m×w×h,m表示通道数,w,h表示特征图的宽和高。相关权重计算网络先对输入的红外特征图/>和输入的可见光特征作对应通道级联操作:
其中*表示卷积操作,Ki为通道后的卷积核,Zconcat为通道级联操作之后得到的特征图,其大小为((m1+m2)×w×h)。得到Zconcat后在输入多层卷积层,在每个卷积操作后进行批标准化操作。最后在通道维度使用柔性最大化函数(softmax)进行压缩和归一化处理:
得到了红外目标特征图的权重特征图WIR和相对应的可见光目标的特征图的权重特征图WRGB,它们的大小均为(w×h),对于矩阵中的每一个元素[ωIRRGB]都有ωIRRGB=1。
步骤3、使用多任务联合损失函数进行特征分类和边界框回归;
基于步骤2得到融合特征图后,生成区域建议框初步划分特征图区域,使用特分类模块确定包含目标的建议框,使用边界框回归调整建议框位置,使之接近真实目标框位置。
特征分类模块使用柔性最大化函数(softmax)作为分类器,计算初始检测框内包含目标的概率值将检测框分为包含目标和不包含目标两类,从而初步得到包含目标的候选区域。分类损失Lcls(p,i)=-logPi
包含目标的边界框的中心点坐标和宽、高为四维向量A=(Ax,Ay,Aw,Ah),边界框回归模块学习一种映射F,得到最大化接近真实框G=(Gx,Gy,Gw,Gh)的回归框R=(Rx,Ry,Rw,Rh),映射关系如下:
F(Ax,Ay,Aw,Ah)=(Rx,Ry,Rw,Rh)
(Rx,Ry,Rw,Rh)≈(Gx,Gy,Gw,Gh)
训练回归模块学习参数W* T,输入初始目标边界框参数φ(A),得到的回归框的预测值d*(A):
d*(A)=W* T·φ(A)
最终学习到的参数W* T的值为:
其中argmin函数表示取目标函数值最小时的变量值,λ为比例系数,用于分配各分支比例,表示真实值。
回归模块的损失函数为smoothL1,损失为Lreg
回归模块经过训练后,输出每个锚框与真实框的平移量和变换尺度,修正初始目标框的位置。通过特征的二分类和边界框回归操作,得到所有包含目标的区域建议框,完成目标的检测任务,后续网络将实现目标的识别。将这些尺度不同的区域建议框和原始红外可见光融合特征输入到池化层中,将区域建议框不同大小均调整输出为Wp*Hp的固定尺寸,定长输出。
步骤4、使用全连接网络计算融合特征图内建议框内目标的具体类别,并且输出预测置信度,同时再次使用边界框回归调整建议框位置;
全连接网络分为基于自适应权重分配的目标分类模块和边界框回归模块。不同层的融合特征图经过感兴趣区域对齐,插值抽取为统一大小的融合特征图,依次通过两个全连接层,然后分为两支;每一支依然经过一层全连接层,然后各自输入目标分类模块和边界框回归模块。其中,每一层全连接层的激活函数均为ReLU函数。每个特征图的高和宽为H和W,B为批量大小,C为类别数量。
感兴趣区域对齐作为一种聚集区域特征方式,采用双线性插值的方法来取代量化操作,从而将分步量化特征聚集的过程转为连续操作;它在遍历候选框的同时保持边界坐标点不变,同时继续细分候选区域为K×K个单元,在每个单元采用双线性内插法计算已固定的四个坐标位置的值,最后执行最大池化操作。感兴趣区域对齐的误差反传公式为:
其中d(,)表示两点间的坐标差,Δh和Δw为特征图像素点的和前向传播时的浮点数的横纵坐标的差值,成为了原始梯度的双线性内插系数。
为实现基于自适应权重分配的双模目标融合检测器的训练,同时也完成对自适应权重融合模块的权重图的训练,定义多任务联合损失函数如下:
式中:σ为深度学习网络相关超参数;
ω为相关权重计算网络超参数;
i代表锚框索引号;
Lcls代表分类损失项;
Lreg代表回归损失项;
Ncls代表训练的批量大小;
Nreg代表特征图的尺寸;
λ代表相关系数,用于平衡分类分支和回归分支的权重;
η代表权重矩阵训练系数,用于平衡整体损失。
ti代表边界框预测值;
代表含有目标的锚框对应的真实框的值;
pi代表特征分类模块输出的目标置信度;
代表对真实框的预测置信度;
和分别为分类损失和回归损失;
Lω(p,pi *|ω)表示权重矩阵的损失函数,表示相关权重计算网络超参数为ω时,误差服从高斯分布,输出为真实值的概率为:
在融合网络训练中,使用小批量梯度下降方法最小化损失,从而得到网络的最优参数(σ*,ω*):
使得红外目标特征图的权重特征矩阵WIR和相对应的可见光目标的特征图的权重特征矩阵WRGB达到最优分配,整个过程是自动调节实现。
步骤5、使用分类损失函数和回归损失函数,计算区域建议网络的分类损失和回归损失。使用小批量梯度下降方法最小化损失,训练目标分类和边界框回归;
步骤6、将步骤5训练好的区域建议网络再次使用多任务联合损失函数进行对整个目标检测网络参数的训练,得到目标框以及对应的类别置信度。
步骤7、使用步骤6训练好的目标检测器,能够针对不同传感器采集的互补信息进行融合检测,综合不同信源的优点,提升目标检测的精度及环境适应性,有效解决复杂环境下目标漏检和误检的问题。
有益效果:
1、本发明公开的一种自适应红外可见光双模融合检测方法,通过自适应特征融合模块以及之后的多任务分类回归模块,使用一种自适应调节方法去计算不同特征图不同位置的最优融合系数去融合特征,从而在增加时空适应性的基础上大大提高了目标检测精度。
2、本发明公开的一种自适应红外可见光双模融合检测方法,相关权重计算网络采用深度学习网络的学习能力和自适应调节能力,根据预测结果优化权重,从而提升双模融合检测网络的全天候自适应能力。同时使用权重图替换单一权重,更好的适应了一对红外可见光双模图片的不同目标类别的清晰度分布不均匀的情况,提升目标检测的环境适应性。
3、本发明公开的一种自适应红外可见光双模融合检测方法,通过一个由多层卷积网络构成的相关权重计算模块对两路红外可见光特征图的不同区域进行权重计算,得到红外目标特征图的权重矩阵和相对应的可见光目标的特征图的权重矩阵;权重矩阵再和原红外可见光特征图对应位置相乘后再叠加,输出融合特征图增加训练权重矩阵的损失函数,改进多任务联合损失函数,提升目标的检测精度。
附图说明
图1为本发明公开的一种自适应红外可见光双模融合检测方法的流程图;
图2为本实施例中自适应权重分配的双模目标融合检测网络基本框架;
图3为本实施例中两种不同的残差单元;
图4为本实施例中主干特征提取网络的详细结构;
图5为本实施例中自适应权重分配的特征融合网络整体结构;
图6为本实施例中相关权重计算网络;
图7为本实施例中红外可见光融合特征分类与边界框回归模块结构图;
图8为本实施例中初始检测框生成原理示意图;
图9为本实施例何总基于自适应权重分配的多任务分类回归模块示意图。
具体实施方式
下面将结合附图和实施例对本发明加以详细说明。同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
以往仅仅基于单模图像(红外图像或者可见光图像)的目标检测算法由于无法适应天气、光照、时间的变化,因此为了更好地在复杂的时空背景(行人监测、自动驾驶、军事探测)等环境中识别全天候目标,利用不同传感器采集互补信息进行融合检测,从而能利用不同信源的优点,有效解决了复杂环境下目标漏检和误检问题。在本实施例中利用红外摄像头和可见光摄像头探测信息的不同优势,使用目标的红外图片和可见光图片作为融合信息的来源。
本实施例公开的一种自适应红外可见光双模融合检测方法,如图2所示,包含主干特征提取、自适应特征融合、多任务分类回归和目标识别。特征提取由双路主干特征提取网络分别对红外可见光图像进行特征提取,得到的两路特征通过融合网络进行自适应权重融合后输入到分类器和回归器中进行特征分类和边界框回归,最后在目标识别中进行多种车辆目标分类,得到最终的检测结果。
本实施例公开的一种自适应红外可见光双模融合检测方法,对车辆进行识别,包括如下步骤:
步骤1、使用两路主干特征提取网络分别提取可见光图像特征和红外图像特征。
主干特征提取网络由两路上下对称的多层卷积神经网络构成,可见光图像有三通道输入,红外图像单通道输入,除此之外两个网络结构基本相同,因此选择可见光图像的特征提取网络进行分析。该网络共有五层结构,第一层结构相对简单,对输入图像进行预处理操作,后四层结构大致相同,均由残差块构成,但是残差块的数量和网络深度不同。残差块采用短路连接结构,能够有效缓解深度学习网络训练中的梯度消失问题。
主干特征共有五层结构。主干特征提取网络的第一层存在两个模块:卷积层和池化层。卷积层包括批量一体化操作(Batch Normalization),使用的损失函数为ReLU,内核大小7×7,步长为2。池化层使用最大池化法,内核大小3×3,步长为2。第二层由三个残差块组成,残差块由两种不同的残差单元,分别为CB(Conv Block)和IB(Identity Block),如图3所示。CB用来使网络输出和输入的维度差异得到匹配,IB则用于输出输入维度匹配的情况,用于加深网络的深度。第三、四、五层残差块的数量为4、6、3,详细框架如图4所示。输入网络的可见光图像的通道数(channel)、高(height)和宽(width)用三维特征向量(C,H,W)表示,初始向量设为(3,H,W),依次经过五层网络结构后分别为(64,H/4,W/4)、(256,H/4,W/4)、(512,H/8,W/8)、(1024,H/16,W/16)、(2048,H/32,W/32)。
步骤2、通过相关权重计算网络计算特征权重矩阵,自适应地进行特征融合;
自适应权重分配的特征融合网络的输入是经注意力机制改进的主干特征提取网络提取过来的两路红外可见光特征(和/>),输出为按照权重图(权重矩阵)对应融合的特征图fm(w,h)。自适应权重分配的特征融合网络的核心思想是:通过一个由多层卷积网络构成的相关权重计算模块对传递过来的两路红外可见光特征图的不同区域进行权重计算,从而得到红外目标特征图的权重特征图WIR和相对应的可见光目标的特征图的权重特征图WRGB。得到权重图(权重矩阵)后再和原红外可见光特征图对应位置相乘后再叠加后输出融合特征图fm(w,h)。设卷积网络所作的变换为ffus。整个过程由式(1)和式(2)表示,整体框架如图5所示:
如图5所示,融合特征图fm(w,h)的大小和输入的红外可见光特征相同。特征融合网络的核心是相关权重计算网络,它由多层卷积神经网络构成,它的具体结构如图6所示。输入红外可见光特征图的大小为m×w×h,m表示通道数,w,h用来表示特征图的宽和高。相关权重计算网络先对输入的红外特征图和输入的可见光特征/>作对应通道级联操作(concat),如式(3)所示,其中*表示卷积操作,Ki为通道后的卷积核,Zconcat为concat操作之后得到的特征图,其大小为((m1+m2)×w×h)。
得到Zconcat后在输入多层卷积层,在每个卷积操作后进行批标准化(卷积层包括批量一体化操作(Batch Normalization)),使用的损失函数为ReLU,内核大小3×3,步长为2。最后在通道维度使用柔性最大化函数(Softmax)进行压缩和归一化处理如式(4)所示,得到了红外目标特征图的权重特征图WIR和相对应的可见光目标的特征图的权重特征图WRGB,它们的大小均为(w×h),对于矩阵中的每一个元素[ωIRRGB]都有ωIRRGB=1。
相关权重计算网络的设计思想是使用深度学习网络的学习能力和自适应调节能力去根据预测结果去优化权重,从而提升了双模融合检测网络的全天候自适应能力。同时使用权重图(也称之为权重矩阵)替换单一权重,更好的适应了一对红外可见光双模图片的不同目标类别的清晰度分布不均匀的情况,即一对图片中有些目标类别红外信息更丰富而另一些目标类别中可见光信息更丰富的情况。
步骤3、使用多任务联合损失函数进行特征分类和边界框回归;
从前文所述融合层中获得融合特征,首先生成锚框划分特征图区域,使用分类模块确定包含目标的锚框,使用边界框回归模块来调整锚框位置接近真实目标框位置,生成区域建议框包含待识别目标,完成目标检测功能,经池化层池化后定长输出为后续目标识别打下基础。下文将作详述,整体结构如图7所示。
使用多尺度锚框在主干特征提取网络提取过来的红外可见光双模特征图进行窗口滑动操作,来生成初始的检测框。如图8所示。
特征分类模块使用柔性最大化函数(softmax)作为分类器计算初始检测框内包含车辆目标的概率值Pi(值域为[0,1])来对检测框分类,如式(5)所示,将它们分为包含目标和不包含目标两类,从而初步得到包含目标的候选区域。分类损失Lcls(p,i)如式(6)所示。
Lcls(p,i)=-logPi (6)
定义包含目标的边界框的中心点坐标和宽高为四维向量A=(Ax,Ay,Aw,Ah),边界框回归模块学习一种映射F,得到最大化接近真实框G=(Gx,Gy,Gw,Gh)的回归框R=(Rx,Ry,Rw,Rh),映射关系如式(7)、(8)所示。
F(Ax,Ay,Aw,Ah)=(Rx,Ry,Rw,Rh) (7)
(Rx,Ry,Rw,Rh)≈(Gx,Gy,Gw,Gh) (8)
训练回归模块学习参数W* T,输入初始目标边界框参数φ(A),得到的回归框的预测值d*(A),如式(9)所示。
d*(A)=W* T·φ(A) (9)
最终学习到的参数W* T的值如式(10)所示。
其中argmin函数表示取目标函数值最小时的变量值,表示真实值。
回归模块的损失函数为smoothL1,损失为Lreg。如式(11)所示。
回归模块经过训练后就会输出每个锚框与真实框的平移量和变换尺度去修正初始目标框的位置。通过特征的二分类和边界框回归操作,得到了所有包含车辆目标的区域建议框,此时目标的检测任务已经完成,后续网络将实现目标的识别。将这些尺度不同的区域建议框和原始红外可见光融合特征输入到池化层中,将区域建议框不同大小均调整输出为Wp*Hp的固定尺寸,定长输出。
步骤4、使用全连接网络进行目标识别归类
如图9所示,全连接网络可分为基于自适应权重分配的目标分类模块和边界框回归模块。不同层的融合特征图经过感兴趣区域对齐层(ROI Align)插值抽取统一为大小7×7的融合特征图,依次通过两个全连接层(FC Layer),然后分为两支,每一支依然经过一层全连接层,然后各自输入目标分类模块和边界框回归模块,其中,每一层全连接层的激活函数均为ReLU函数。基于自适应权重分配的目标分类模块和边界框回归网络参数设计如表1所示。表中给出了特征图的维度,每个特征图的高和宽为H和W,B为批量大小(Batch Size),C为类别数量。
表1基于自适应权重分配的目标分类模块和边界框回归网络参数设计
感兴趣区域对齐(ROI Align)作为一种聚集区域特征方式,采用双线性插值的方法来取代量化操作,从而将分步量化特征聚集的过程转为连续操作;它在遍历候选框的同时保持边界坐标点不变,同时继续细分候选区域为K×K个单元,在每个单元采用双线性内插法计算已固定的四个坐标位置的值,最后执行最大池化操作(Max pooling)。ROI Align的误差反传公式如式(12)所示,其中d(,)表示两点间的坐标差,Δh和Δw为特征图像素点的和前向传播时的浮点数的横纵坐标的差值,成为了原始梯度的双线性内插系数。
为实现基于自适应权重分配的双模车辆目标融合检测器的训练,同时也完成对自适应权重融合模块的权重图(权重矩阵)的训练,因此定义多任务联合损失函数如式(13)所示。
式中:σ为深度学习网络相关超参数;
ω为相关权重计算网络超参数;
i代表锚框索引号;
Lcls代表分类损失项;
Lreg代表回归损失项;
Ncls代表训练的批量大小(batch size);
Nreg代表特征图的尺寸;
λ代表相关系数,用于平衡分类分支和回归分支的权重;
η代表权重矩阵训练系数,用于平衡整体损失。
ti代表边界框预测值;
代表含有目标的锚框对应的真实框的值;
pi代表特征分类模块输出的目标置信度;
代表对真实框的预测置信度;
和/>分别为分类损失和回归损失;
表示权重矩阵的损失函数,如式(7)所示。
式(7)表示相关权重计算网络超参数为ω时,误差服从高斯分布,输出为真实值的概率为(8)所示。
在融合网络训练中,使用MBGD(小批量梯度下降)方法最小化损失,从而得到网络的最优参数(σ*,ω*)如式(9)所示,这样使得红外目标特征图的权重特征矩阵WIR和相对应的可见光目标的特征图的权重特征矩阵WRGB达到最优分配,整个过程是自动调节实现。
步骤5、检测网络的训练与预测
自适应双模融合检测器的训练过程存在三个步骤,分别是训练目标分类和边界框回归模块、获取建议区域和训练整个目标检测器,通过合理划分训练步骤,设置相关参数使网络尽快收敛。
(1)训练目标分类和边界框回归模块
使用多任务联合损失函数(6)进行训练,训练的过程即函数损失不断下降的过程。
(2)获取建议区域
当目标分类和边界框回归网络训练完成后,向已经训练好的网络输入特征图,于是便得到了包含目标的区域建议框,将这些信息保存下来用于后续网络训练,此时的流程和目标检测类似。
(3)训练整个红外可见光车辆目标检测器
将之前保存的车辆目标的不同区域建议框传入全连接网络,使用softmax函数进行具体类别判断,使用平滑损失层作边界框精确回归。这样就完成了最后的softmax层的训练和边界框回归层的训练,整个检测器网络的训练也随之完成。
当检测器网络训练完成后,它对图片的检测流程:输入一张图片,经主干特征提取网络后得到特征图,然后生成包含目标的候选框,经过池化层定长输出,经过全连接层后产生目标类别置信度和经过精细调整的目标位置的目标框。在生成候选框的过程中经常会产生大量重叠边界框,使用非极大值抑制法来消除局部置信度低的边界框,保留置信度高的部分。提升目标检测的精度及环境适应性。
为了验证提出的自适应红外可见光双模融合检测方法的有效性,在不同时段不同地点复杂城市道路车辆数据集(包含truck,sedan,van,bus,suv共5类目标)上对比单模目标检测方法(Faster-RCNN和YOLOv4)和自适应红外可见光双模融合检测方法的检测性能,通过性能参数多类平均精度(mAP)来衡量方法的性能,mAP值越大,性能越好。从表2中可以得出本方法的mAP值均大于两种传统单模检测方法,印证了本方法相对于传统单模检测方法目标检测的精度和环境适应性的优势。
表2在不同时段不同地点的测试集上的定量评价结果
以上所述的具体描述,对发明的目的、技术方案和有益效果进行进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种自适应红外可见光双模融合检测方法,其特征在于:包括如下步骤,
步骤1、使用两路主干特征提取网络分别提取可见光图像特征和红外图像特征;
步骤2、通过相关权重计算网络计算特征权重矩阵,得到融合特征图,自适应地进行特征融合;
步骤3、使用多任务联合损失函数进行特征分类和边界框回归;
步骤4、使用全连接网络计算融合特征图内建议框内目标的具体类别,并且输出预测置信度,同时再次使用边界框回归调整建议框位置;
步骤5、使用分类损失函数和回归损失函数,计算区域建议网络的分类损失和回归损失;使用小批量梯度下降方法最小化损失,训练目标分类和边界框回归模块;
步骤6、将步骤5训练好的区域建议网络再次使用多任务联合损失函数进行对整个目标检测网络参数的训练,得到目标框以及对应的类别置信度。
2.如权利要求1所述的一种自适应红外可见光双模融合检测方法,其特征在于:还包括步骤7、使用步骤6训练好的目标检测器,能够针对不同传感器采集的互补信息进行融合检测,综合不同信源的优点,提升目标检测的精度及环境适应性,有效解决复杂环境下目标漏检和误检的问题。
3.如权利要求1所述的一种自适应红外可见光双模融合检测方法,其特征在于:步骤一的实现方法为,
输入配准的红外可见光图像,使用两路主干特征提取网络分别提取可见光图像特征和红外图像特征;其中,可见光图像含有三通道信息,红外图像含有单通道信息,共提取四通道信息。
4.如权利要求2所述的一种自适应红外可见光双模融合检测方法,其特征在于:步骤2的实现方法为,
通过一个由多层卷积网络构成的相关权重计算网络,对步骤1得到的可见光特征图及红外特征图的不同区域进行权重计算,得到红外目标特征图的权重特征图WIR和相对应的可见光目标的特征图的权重特征图WRGB;得到权重特征图后再和原红外可见光特征图对应位置相乘后再叠加后输出融合特征图fm(w,h);整个过程表示:
其中ffus为对卷积网络所作的变换;WIR为红外目标特征图的权重特征图;WRGB为对应的可见光目标的特征图的权重特征图;和/>为输入的红外可见光;
融合特征图fm(w,h)的大小和输入的红外可见光特征和/>相同;特征融合网络的核心是相关权重计算网络,它由多层卷积神经网络构成;输入红外可见光特征图的大小为m×w×h,m表示通道数,w,h表示特征图的宽和高;相关权重计算网络先对输入的红外特征图/>和输入的可见光特征作对应通道级联操作:
其中*表示卷积操作,Ki为通道后的卷积核,Zconcat为通道级联操作之后得到的特征图,其大小为((m1+m2)×w×h);得到Zconcat后在输入多层卷积层,在每个卷积操作后进行批标准化操作;最后在通道维度使用柔性最大化函数(softmax)进行压缩和归一化处理:
得到了红外目标特征图的权重特征图WIR和相对应的可见光目标的特征图的权重特征图WRGB,它们的大小均为(w×h),对于矩阵中的每一个元素[ωIRRGB]都有vIRRGB=1。
5.如权利要求3所述的一种自适应红外可见光双模融合检测方法,其特征在于:步骤3的实现方法为,
基于步骤2得到融合特征图后,生成区域建议框初步划分特征图区域,使用特分类模块确定包含目标的建议框,使用边界框回归调整建议框位置,使之接近真实目标框位置;
特征分类模块使用柔性最大化函数(softmax)作为分类器,计算初始检测框内包含目标的概率值将检测框分为包含目标和不包含目标两类,从而初步得到包含目标的候选区域;分类损失Lcls(p,i)=-logPi
包含目标的边界框的中心点坐标和宽、高为四维向量A=(Ax,Ay,Aw,Ah),边界框回归模块学习一种映射F,得到最大化接近真实框G=(Gx,Gy,Gw,Gh)的回归框R=(Rx,Ry,Rw,Rh),映射关系如下:
F(Ax,Ay,Aw,Ah)=(Rx,Ry,Rw,Rh)
(Rx,Ry,Rw,Rh)≈(Gx,Gy,Gw,Gh)
训练回归模块学习参数输入初始目标边界框参数φ(A),得到的回归框的预测值d*(A):
最终学习到的参数的值/>为:
其中argmin函数表示取目标函数值最小时的变量值,λ为比例系数,用于分配各分支比例,表示真实值;
回归模块的损失函数为smoothL1,损失为Lreg
回归模块经过训练后,输出每个锚框与真实框的平移量和变换尺度,修正初始目标框的位置;通过特征的二分类和边界框回归操作,得到所有包含目标的区域建议框,完成目标的检测任务,后续网络将实现目标的识别;将这些尺度不同的区域建议框和原始红外可见光融合特征输入到池化层中,将区域建议框不同大小均调整输出为Wp*Hp的固定尺寸,定长输出。
6.如权利要求4所述的一种自适应红外可见光双模融合检测方法,其特征在于:步骤4的实现方法为,
全连接网络分为基于自适应权重分配的目标分类模块和边界框回归模块;不同层的融合特征图经过感兴趣区域对齐,插值抽取为统一大小的融合特征图,依次通过两个全连接层,然后分为两支;每一支依然经过一层全连接层,然后各自输入目标分类模块和边界框回归模块;其中,每一层全连接层的激活函数均为ReLU函数;每个特征图的高和宽为H和W,B为批量大小,C为类别数量;
感兴趣区域对齐作为一种聚集区域特征方式,采用双线性插值的方法来取代量化操作,从而将分步量化特征聚集的过程转为连续操作;它在遍历候选框的同时保持边界坐标点不变,同时继续细分候选区域为K×K个单元,在每个单元采用双线性内插法计算已固定的四个坐标位置的值,最后执行最大池化操作;感兴趣区域对齐的误差反传公式为:
其中d(,)表示两点间的坐标差,Δh和Δw为特征图像素点的和前向传播时的浮点数的横纵坐标的差值,成为了原始梯度的双线性内插系数;
为实现基于自适应权重分配的双模目标融合检测器的训练,同时也完成对自适应权重融合模块的权重图的训练,定义多任务联合损失函数如下:
式中:σ为深度学习网络相关超参数;
ω为相关权重计算网络超参数;
i代表锚框索引号;
Lcls代表分类损失项;
Lreg代表回归损失项;
Ncls代表训练的批量大小;
Nreg代表特征图的尺寸;
λ代表相关系数,用于平衡分类分支和回归分支的权重;
η代表权重矩阵训练系数,用于平衡整体损失;
ti代表边界框预测值;
代表含有目标的锚框对应的真实框的值;
pi代表特征分类模块输出的目标置信度;
代表对真实框的预测置信度;
和Lreg(ti,ti *|σ)分别为分类损失和回归损失;
Lω(p,pi *|ω)表示权重矩阵的损失函数,表示相关权重计算网络超参数为ω时,误差服从高斯分布,输出为真实值的概率为:
在融合网络训练中,使用小批量梯度下降方法最小化损失,从而得到网络的最优参数(σ*,ω*):
使得红外目标特征图的权重特征矩阵WIR和相对应的可见光目标的特征图的权重特征矩阵WRGB达到最优分配,整个过程是自动调节实现。
CN202310809010.9A 2023-07-03 2023-07-03 一种自适应红外可见光双模融合检测方法 Pending CN116704273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310809010.9A CN116704273A (zh) 2023-07-03 2023-07-03 一种自适应红外可见光双模融合检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310809010.9A CN116704273A (zh) 2023-07-03 2023-07-03 一种自适应红外可见光双模融合检测方法

Publications (1)

Publication Number Publication Date
CN116704273A true CN116704273A (zh) 2023-09-05

Family

ID=87833990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310809010.9A Pending CN116704273A (zh) 2023-07-03 2023-07-03 一种自适应红外可见光双模融合检测方法

Country Status (1)

Country Link
CN (1) CN116704273A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274899A (zh) * 2023-09-20 2023-12-22 中国人民解放军海军航空大学 基于可见光和红外光图像特征融合的仓储隐患检测方法
CN117528233A (zh) * 2023-09-28 2024-02-06 哈尔滨航天恒星数据***科技有限公司 变焦倍数识别及目标重识别数据集制作方法
CN117726785A (zh) * 2024-02-01 2024-03-19 江苏智仁景行新材料研究院有限公司 用于火工品设备清洗中的目标识别定位***及方法
CN117765359A (zh) * 2023-11-27 2024-03-26 中国人民解放军陆军装甲兵学院 一种基于可见光与红外图像融合的战场目标检测***和方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274899A (zh) * 2023-09-20 2023-12-22 中国人民解放军海军航空大学 基于可见光和红外光图像特征融合的仓储隐患检测方法
CN117274899B (zh) * 2023-09-20 2024-05-28 中国人民解放军海军航空大学 基于可见光和红外光图像特征融合的仓储隐患检测方法
CN117528233A (zh) * 2023-09-28 2024-02-06 哈尔滨航天恒星数据***科技有限公司 变焦倍数识别及目标重识别数据集制作方法
CN117528233B (zh) * 2023-09-28 2024-05-17 哈尔滨航天恒星数据***科技有限公司 变焦倍数识别及目标重识别数据集制作方法
CN117765359A (zh) * 2023-11-27 2024-03-26 中国人民解放军陆军装甲兵学院 一种基于可见光与红外图像融合的战场目标检测***和方法
CN117726785A (zh) * 2024-02-01 2024-03-19 江苏智仁景行新材料研究院有限公司 用于火工品设备清洗中的目标识别定位***及方法
CN117726785B (zh) * 2024-02-01 2024-05-07 江苏智仁景行新材料研究院有限公司 用于火工品设备清洗中的目标识别定位***及方法

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN116704273A (zh) 一种自适应红外可见光双模融合检测方法
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN109034184B (zh) 一种基于深度学习的均压环检测识别方法
CN114972213A (zh) 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法
CN109492700B (zh) 一种基于多维信息融合的复杂背景目标识别方法
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN112288758B (zh) 一种电力设备红外与可见光图像配准方法
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别***及方法
CN113963240A (zh) 多源遥感图像融合目标综合检测方法
CN116452937A (zh) 基于动态卷积与注意力机制的多模态特征目标检测方法
CN114091598A (zh) 一种基于语义级信息融合的多车协同环境感知方法
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与***
CN116721398A (zh) 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法
CN107045630B (zh) 一种基于rgbd的行人检测和身份识别方法及***
CN116645563A (zh) 一种基于深度学习的典型交通事件检测***
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN116486287A (zh) 基于环境自适应机器人视觉***的目标检测方法及***
CN115131503A (zh) 一种虹膜三维识别的健康监测方法及其***
CN113609904B (zh) 一种基于动态全局信息建模和孪生网络的单目标跟踪算法
CN113378638B (zh) 基于人体关节点检测和d-gru网络的轮机员异常行为识别方法
CN112508863B (zh) 一种基于rgb图像和msr图像双通道的目标检测方法
CN103235943A (zh) 基于pca的3d人脸识别***
CN117173595A (zh) 基于改进YOLOv7的无人机航拍图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination