CN112418163B

CN112418163B - 一种多光谱目标检测导盲***

Info

Publication number: CN112418163B
Application number: CN202011426982.2A
Authority: CN
Inventors: 石德君; 张树; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-07-12
Anticipated expiration: 2040-12-09
Also published as: CN112418163A

Abstract

本发明提供了一种多光谱目标检测导盲***，包括：数据输入模块，用于获取可见光图像和红外热图像；可变形特征提取器模块，用于分别提取可见光图像特征图和红外热图像特征图；候选框提取网络，用于提取可见光图像候选框和红外热图像候选框；候选框互补模块，用于将可见光图像候选框中没有被红外热图像候选框覆盖到的部分添加到红外热图像候选框中，将红外热图像候选框中没有被可见光图像候选框覆盖到的部分添加到可见光图像候选框中，得到可见光图像区域特征图和红外热图像区域特征图；跨模态注意力融合模块，用于将可见光图像区域特征图根据各区域特征间的相似关系融合到红外热图像区域特征图中，得到加强了的热图像特征；分类和回归模块，用于得到目标检测结果。

Description

一种多光谱目标检测导盲***

技术领域

本发明涉及计算机领域，尤其涉及一种多光谱目标检测导盲***。

背景技术

近年来计算机视觉的巨大发展给导盲***带来新了的机遇和可能。基于卷积神经网络(CNN)的深度学***。基于深度学习技术的视觉感知***(特别是物体检测***)在无人驾驶等应用中取得了不错的效果。因此，利用这一技术辅助盲人感知环境形成了新趋势。然而，以往的目标检测模型普遍都是基于可见光彩色图像构建的，适用场景受限于照明条件，无法应用到夜晚或有强光照射的地方。相似的，利用此技术的导盲***也存在这一问题，无法全天候协助盲人感知环境。

发明内容

本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的多光谱目标检测导盲***。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种多光谱目标检测导盲***，包括：数据输入模块，用于获取可见光图像和红外热图像；可变形特征提取器模块，用于采用可变形卷积，分别提取可见光图像和红外热图像的图像特征，输出可见光图像特征图和红外热图像特征图；候选框提取网络，用于根据可见光图像特征图和红外热图像特征图提取目标物体的候选框，得到可见光图像候选框和红外热图像候选框；候选框互补模块，用于将可见光图像候选框中没有被红外热图像候选框覆盖到的部分添加到红外热图像候选框中，将红外热图像候选框中没有被可见光图像候选框覆盖到的部分添加到可见光图像候选框中，得到可见光图像区域特征图和红外热图像区域特征图；跨模态注意力融合模块，用于将红外热图像区域特征图作为查询向量，将可见光图像区域特征图作为钥匙向量和价值向量，参照自注意力模块将可见光图像区域特征图根据各区域特征间的相似关系融合到红外热图像区域特征图中，得到经过彩色图像特征加强了的热图像特征；分类和回归模块，用于将经过彩色图像特征加强了的热图像特征以及可见光图像区域特征图进行卷积计算，得到目标检测结果，其中，目标检测结果包括：各区域的类别和候选框偏移量。

其中，数据输入模块，还用于确定训练目标的类别和位置；***还包括：损失计算模块，用于根据目标检测结果和训练目标，采用损失函数计算出模型在框回归和框分类两个任务中的综合预测误差，回传误差的梯度，更新模型参数，进行模型训练，不断迭代，模型的预测误差将不断下降直到收敛，得到可应用部署的模型。

其中，可变形特征提取器模块包括：第一可变形特征提取器，用于提取可见光图像的图像特征，得到可见光图像特征图；第二可变形特征提取器，用于提取红外热图像的图像特征，得到红外热图像特征图；可见光图像特征图和红外热图像特征图大小相同。

其中，可变形卷积公式为：

其中，

为常规卷积操作公式，x表示输入特征图，y表示输出特征图，p是当前待计算的像素点位置(w₀,h₀)，k表示卷积范围内的位置序号，p_k是相对p的位置偏移，w_k表示k点位置所对应的权重，Δp_k表示卷积中k点额外增加的位置偏移量，Δm_k表示卷积中k点的额外权重。

其中，第一可变形特征提取器和第二可变形特征提取器分别独立学习w_k、Δp_k和Δm_k；或者第一可变形特征提取器和第二可变形特征提取器分别独立学习w_k，共享学习Δp_k和Δm_k。

其中，候选框提取网络包括：第一候选框提取网络，用于连接第一可变形特征提取器，提取可见光图像特征图中存在物体的可见光图像候选框；第二候选框提取网络，用于连接第二可变形特征提取器，提取红外热图像特征图中存在物体的红外热图像候选框。

其中，候选框互补模块，具体用于将可见光图像候选框中没有被红外热图像候选框覆盖到的部分添加到红外热图像候选框中，将红外热图像候选框中没有被可见光图像候选框覆盖到的部分添加到可见光图像候选框中，根据选定的候选框，将初始特征图上对应位置大小各异的区域特征提取出来，经过区域池化层将各区域特征统一到相同尺寸，得到尺寸相同的可见光图像区域特征图和红外热图像区域特征图。

其中，跨模态注意力融合模块，跨模态注意力融合模块，具体用于将红外热图像区域特征图和可见光图像区域特征图经过独立的卷积进行降维，计算红外热图像区域特征图和可见光图像区域特征图中各区域特征之间的俩俩相似关系，得到关系矩阵，对相似度做权值归一化，可见光图像区域特征图中特征经过卷积，与关系矩阵的矩阵乘，输出双模态互补增强区域特征，得到经过彩色图像特征加强了的热图像特征。

其中，跨模态注意力融合模块，还有将经过彩色图像特征加强了的热图像特征与红外热图像区域特征图相加或合并；分类和回归模块，还用于将经过彩色图像特征加强了的热图像特征与红外热图像区域特征图相加或合并的特征图以及可见光图像区域特征图进行卷积计算，得到目标检测结果，其中，目标检测结果包括：各区域的类别和候选框偏移量。

由此可见，通过本发明提供的多光谱目标检测导盲***，结合可见光彩色图像和红外热图像构建一个全天候的端到端多模态/多光谱目标检测导盲***，解决现有导盲***在无光照、低光照或过强光照场景下不支持或效果差的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的多光谱目标检测导盲***的结构示意图；

图2为本发明实施例提供的多光谱目标检测导盲***具体结构示意图；

图3为本发明实施例提供的跨注意力融合模块示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的核心在于：

现有的多光谱/多模态目标检测***普遍假设针对同一场景的彩色图像和热图像是完全对齐的，但实际上并非如此，两种模态的图像往往存在位置偏移。这种错误假设将导致检测***出现误差甚至失效。由于目前多模态数据的融合多使用逐像素的方式进行，不仅降低了对齐鲁棒性也影响了互补特征融合的有效性。本发明旨在提出新的解决方案以应对上述问题。

本发明在网络设计中考虑了不同模态图像存在位置偏移这一情况，一方面让网络隐式学习两种模态图像的对齐关系，从而避免以往***可能出现的差错；另一方面引入感兴趣区域(ROI)级别的特征融合模块进一步提高对不对齐问题的鲁棒性。另外，该方案无需额外标注，节省成本。

需要特别指出的是，融合模块是一步法多光谱目标检测***的核心，因为它决定了一个***如何利用多种模态图像的信息来提升预测表现。在以往的***中，无论融合模块的位置在哪里，其融合方式都是非常朴素的，如相加、合并(concat)或对应位置的加权，这些方式并没有有效地利用不同模态的互补信息，限制了模型在复杂现实场景中的泛化能力。针对特征融合部分，本发明则提出候选框互补模块和跨模态注意力模块两个模块，更加充分利用两种模态的相关信息，实现对两种模态相互关系更加全面的建模，有目的地促进两种模态的特征在网络中的信息交流，通过互通有无提升***的精度和泛化能力。

图1示出了本发明实施例提供的多光谱目标检测导盲***的结构示意图，参见图1，本发明实施例提供的多光谱目标检测导盲***，包括：

数据输入模块，用于获取可见光图像和红外热图像；

可变形特征提取器模块，用于采用可变形卷积，分别提取可见光图像和红外热图像的图像特征，输出可见光图像特征图和红外热图像特征图；

候选框提取网络，用于根据可见光图像特征图和红外热图像特征图提取目标物体的候选框，得到可见光图像候选框和红外热图像候选框；

候选框互补模块，用于将可见光图像候选框中没有被红外热图像候选框覆盖到的部分添加到红外热图像候选框中，将红外热图像候选框中没有被可见光图像候选框覆盖到的部分添加到可见光图像候选框中，得到可见光图像区域特征图和红外热图像区域特征图；

跨模态注意力融合模块，用于将红外热图像区域特征图作为查询向量，将可见光图像区域特征图作为钥匙向量和价值向量，参照自注意力模块将可见光图像区域特征图根据各区域特征间的相似关系融合到红外热图像区域特征图中，得到经过彩色图像特征加强了的热图像特征；

分类和回归模块，用于将经过彩色图像特征加强了的热图像特征以及可见光图像区域特征图进行卷积计算，得到目标检测结果，其中，目标检测结果包括：各区域的类别和候选框偏移量。

可见，本发明提供了一种全天候、端到端、结合了可见光彩色图像和红外热图像的多模态/多光谱目标检测导盲***。本发明无需位置偏移监督信息、在区域特征水平通过自注意力模块聚合两种模态信息的端到端目标检测***。本发明中的模型以两阶段检测算法Faster-RCNN为基础，特征提取和区域候选网络(RPN)阶段有两个独立分支，分别用于提取可见光和红外光图像的区域特征，然后通过候选框互补模块和跨模态自注意力模块融合两个分支的区域特征，最后进行区域的类别和坐标预测。具体的实施例中，可以使用FPN，RFCN等通用两阶段检测模型作为基础模型，并不局限于Faster-RCNN。

以下，结合图2和图3，对本发明实施例提供的多光谱目标检测导盲***进行详细说明：

作为本发明实施例的一个可选实施方式，数据输入模块，还用于确定训练目标的类别和位置。从而可以在训练中将学习目标输入给检测网络，进行模型训练。

具体地：

数据输入模块：神经网络的数据输入包括两大部分，第一是图像输入，第二是检测目标输入。其中图像输入是待检测的双模态配对图像，一是可见光彩色图像(为RGB三通道)，二是红外热图像(为灰度图，原始数据只有一个通道)。假设输入图像的长宽为H,W，则输入网络的图像为[N×3×H×W,N×1×H×W](在一些常见的实现中，也可以把红外热图像的通道复制三遍，得到三通道的输入，即N×3×H×W)，其中N代表batch size。检测目标输入则是原始图像中被标记出来的目标物体的类别和位置，位置以目标物体外接矩形框的坐标点[x1,y1,x2,y2]来表示，其中[x1,y1]和[x2,y2]分别是外接框左上角和右下角的坐标。检测目标首先通过人为标记，在训练中将作为学习目标输入给检测网络，用于模型训练。

作为本发明实施例的一个可选实施方式，可变形特征提取器模块包括：第一可变形特征提取器，用于提取可见光图像的图像特征，得到可见光图像特征图；第二可变形特征提取器，用于提取红外热图像的图像特征，得到红外热图像特征图；可见光图像特征图和红外热图像特征图大小相同。

作为本发明实施例的一个可选实施方式，可变形卷积公式为：

其中，yp＝1K wk·xp+pk为常规卷积操作公式，x表示输入特征图，y表示输出特征图，p是当前待计算的像素点位置(w₀,h₀)，k表示卷积范围内的位置序号，p_k是相对p的位置偏移，w_k表示k点位置所对应的权重，Δp_k表示卷积中k点额外增加的位置偏移量，Δm_k表示卷积中k点的额外权重。

作为本发明实施例的一个可选实施方式，第一可变形特征提取器和第二可变形特征提取器分别独立学习w_k、Δp_k和Δm_k；或者第一可变形特征提取器和第二可变形特征提取器分别独立学习w_k，共享学习Δp_k和Δm_k。

具体地：

可变形特征提取器模块：由于两种模态的图像输入存在位置偏移，因此本发明在特征提取模块中使用可变形卷积(deformable convolution)，让两个分支网络在独立提取图像特征的过程中，隐式地实现特征水平的对齐。在目前主流的特征提取器如Resnet50中，卷积使用的都是几何结构相对固定的卷积核，如成正方形的3×3或7×7卷积核，他们的几何变换建模能力本质上是有限的。可变形卷积在常规卷积上，添加了位移变量，该位移会在模型训练中自动学到，偏移后卷积的感受野不再是正方形，而是根据训练数据的情况变成了任意多边形。针对多模态图像存在的位置偏移，本发明的两个特征提取器可以经过训练自动调整各自的可变形卷积，使提取的特征在卷积感受野的层面实现对齐。同时，本方法不用提供额外的监督信息来实现两种模态图像的校准，因此可节省成本，也易于实现。以数据输入模块中的两种模态图像为输入，两个特征提取器最终输出的特征图大小都为N×C×H’×W’，其中H’＝H/16，W’＝W/16,C代表特征维度或通道数，比如512或2048。

常规卷积操作如公式(1)，x表示输入特征图，y表示输出特征图，p是当前待计算的像素点位置(w₀,h₀)，k表示卷积范围内的位置序号，例如3×3卷积中k＝9；p_k是相对p的位置偏移，w_k表示k点位置所对应的权重，是可学习参数。可变形卷积如公式(2)，它在公式(1)的基础上增加了两个可学习参数，Δp_k和Δm_k。Δp_k表示卷积中k点额外增加的位置偏移量，Δm_k表示卷积中k点的额外权重。作为一个补充解释，本发明提供两种可变形卷积网络的实现形式，作为实施案例。第一种，可见光图像和热红外图像的特征提取网络完全相互独立，可变形卷积的变形参数由各自的特征提取网络学习得到，即两个分支网络中可变形卷积的可学习参数，w_k、Δp_k、Δm_k都是独立的。第二种，可见光图像和热红外图像的特征提取网络部分独立，即特征提取的主要计算是相互独立的，即w_k的学习是相互独立的。但是可变形卷积中的变形参数Δp_k和Δm_k是共享的，具体的后面两个变形参数由两种模态特征的融合特征作为输入学习得到。

作为本发明实施例的一个可选实施方式，候选框提取网络包括：第一候选框提取网络，用于连接第一可变形特征提取器，提取可见光图像特征图中存在物体的可见光图像候选框；第二候选框提取网络，用于连接第二可变形特征提取器，提取红外热图像特征图中存在物体的红外热图像候选框。

具体地：

候选框提取网络：以特征提取器输出的特征图为输入，候选框提取网络模块旨在提取存在物体的候选框——对目标物体真实外接矩形框的预测，而不管其中的物体具体属于哪一类。具体的，针对特征图中的每一个像素点生成k个大小各异的锚框(anchors)，然后将这k个锚框内的特征图输入提取网络，网络经过计算预测出每个锚框存在物体的概率——k×2个分类结果，以及锚框相对于物体真实位置的偏移量——k×4个回归结果。对于大小为N×C×H’×W’的特征图，提取网络将输出N×H’×W’×k×2+N×H’×W’×k×4个结果。最终，经过非极大值抑制以及剔除，选出最可能存在物体的M(通常M＝1024)个候选框，以大小为M×4的矩阵存储。两个分支网络会基于各自的特征图分别输出M个相对独立的候选框。

作为本发明实施例的一个可选实施方式，候选框互补模块，具体用于将可见光图像候选框中没有被红外热图像候选框覆盖到的部分添加到红外热图像候选框中，将红外热图像候选框中没有被可见光图像候选框覆盖到的部分添加到可见光图像候选框中，根据选定的候选框，将初始特征图上对应位置大小各异的区域特征提取出来，经过区域池化层将各区域特征统一到相同尺寸，得到尺寸相同的可见光图像区域特征图和红外热图像区域特征图。

具体地：

候选框互补模块：本模块意在融合两个分支网络提取的候选框，以期在目标物***置水平实现两种模态的互补。针对照明条件不好的情况，彩色图像分支提取的候选框就可能出现遗漏，而热图像分支提取的候选框则相对稳定；此外，也存在热图像分支出现遗漏但彩色图像能检出的情况，如阴天里温度低的电线杆。本模块利用两个模态获取了更加完备的候选框。具体的，本模块以前一阶段得到的两种模态的候选框为输入，将两个模态的候选框中IoU小于p∈[0.5,0.8]的部分，如m个，添加到另一个模态的候选框中，两个模态各自的候选框数量增加到M’＝M+m个，根据具体实施例的不同，阈值p的取值可以稍有变化。根据选定的候选框，将初始特征图上对应位置大小各异的区域特征提取出来，然后经过区域池化层(ROI pooling)将各区域特征统一到相同尺寸L×L(如L＝7)。最终，该模块将分别输出两个模态的M’个区域特征图，其大小为2×N×M’×C×L×L。

作为本发明实施例的一个可选实施方式，跨模态注意力融合模块，具体用于将红外热图像区域特征图和可见光图像区域特征图经过独立的卷积进行降维，计算红外热图像区域特征图和可见光图像区域特征图中各区域特征之间的俩俩相似关系，得到关系矩阵，对相似度做权值归一化，可见光图像区域特征图中特征经过卷积，与关系矩阵的矩阵乘，输出双模态互补增强区域特征，得到经过彩色图像特征加强了的热图像特征。

具体地：

跨模态注意力融合模块：为了特征模型融合的效果，本发明引入一种双向的特征增强模块。由于不同模态对环境的成像机理不同，点对点的特征融合很难提供实质性的帮助。比如，暗光条件下的行人在彩色图像上大部分都是漆黑不可见的(整个上半生)，仅有少部分有光照(小腿以下)，那么彩色图像分支网络从这些点提取特征就并不具有鉴别力，根据位置坐标一一融合到热图像的特征中也并不能发挥多大的互补或增强作用。而区域水平的融合相对来说是更有效的方法。具体来说，在候选框互补模块的帮助下，彩色图分支也能获取上述例子中大部分不可见的行人的候选框，对应的区域特征包含了小部分有光照的小腿的信息，这种仅含有物体某一部分的特征能作为更好的补充信息被融合到热图像特征中，增强后者的表征能力。因此，本模块采用了在区域特征水平进行融合的策略。

此外，一个场景中的不同物体往往具有一定的依赖关系，这种物体间关系可以帮助提高模型的表征能力，进而提高预测精度。比如，当斑马线上出现一个人的时候，往往会有另外一些人(因为绿灯)；公园中长椅或者垃圾桶一般安放在草坪外，而不是草坪上。因此，本模块在融合两种模态区域特征的过程中，还建模了各个区域/潜在物体之间的关系，并利用这种物体间的关系来增强区域特征的表达。

具体的，本模块以红外光热图像区域特征和可见光彩色图像区域特征为输入，将前者作为查询向量(query)，将后者作为钥匙向量(key)和价值向量(value)，参照自注意力模块将后者根据各区域特征间的相似关系融合到前者中，从而实现可见光特征对红外光特征增强的效果，或者说实现双光特征互补的效果，如图2。为了方便描述取N＝1，先将热图像区域特征和彩色图像区域特征分别经过独立的L×L卷积进行相同的降维，变成M’×C×1×1的大小query和key；然后计算两种模态中各区域特征之间的俩俩相似关系，得到大小为M’×M’关系矩阵，计算相似度的方法可以取欧氏距离的负数、矩阵乘或其他，之后对相似度做权值归一化，实施例中默认使用逐行softmax运算；同时，彩色图像区域特征还会经过一个1×1卷积变成M’×C×L×L大小的value，最后经过与关系矩阵的矩阵乘，输出大小为M’×C×L×L的双模态互补增强区域特征，即在区域特征水平得到经过彩色图像特征加强了的热图像特征。

本模块建模的是候选区域之间的关系，而不是原始方法中所有像素点间的关系，因此计算复杂度相对小很多(前者O(M’×M’)～10⁶，后者O(H×W×H×W)～10⁸)，计算效率高。

作为本发明实施例的一个可选实施方式，跨模态注意力融合模块，还有将经过彩色图像特征加强了的热图像特征与红外热图像区域特征图相加或合并；分类和回归模块，还用于将经过彩色图像特征加强了的热图像特征与红外热图像区域特征图相加或合并的特征图以及可见光图像区域特征图进行卷积计算，得到目标检测结果，其中，目标检测结果包括：各区域的类别和候选框偏移量。及跨模态注意力融合模块的输出可与热图像区域特征进行相加或合并(concatenation)。

作为本发明实施例的一个可选实施方式，***还包括：损失计算模块，用于根据目标检测结果和训练目标，采用损失函数计算出模型在框回归和框分类两个任务中的综合预测误差，回传误差的梯度，更新模型参数，进行模型训练，不断迭代，模型的预测误差将不断下降直到收敛，得到可应用部署的模型。

具体地：

损失计算模块：该模块以整个模型的预测结果和对应训练目标为输入，利用常规的损失函数计算出模型在框回归和框分类两个任务中的综合预测误差，然后回传误差的梯度，根据一定的学习率更新整个模型的参数，实现模型训练。如此不断迭代，模型的预测误差将不断下降直到收敛，最终得到一个可应用部署的模型。训练中可以对网络参数使用混合精度训练(Mixed Precision Training)，从而达到降低显存和加快训练速度的目的。

由此可见，通过本发明实施例提供的多光谱目标检测导盲***，利用多光谱图像构建基于目标检测网络的全天候导盲***，在特征提取器中应用可变形卷积隐式学习多光谱图像的对齐关系，应对可能出现的位置偏移，提出候选框互补模块和跨模态注意力模块全面充分地利用多光谱图像的互补信息，实现更加精准的全天候目标检测。同时进一步增强对特征不对齐问题的鲁棒性。由此可以支持全天候导盲，隐式学习多光谱图像对齐关系，无需额外标注，节省成本，候选框互补模块和跨模态注意力模块对多光谱图像的互补信息利用更加充分，融合更加有效，效果更好。此外，跨模态注意力模块计算复杂度低，效率高。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种多光谱目标检测导盲***，其特征在于，包括：

数据输入模块，用于获取可见光图像和红外热图像；

可变形特征提取器模块，用于采用可变形卷积，分别提取所述可见光图像和所述红外热图像的图像特征，输出可见光图像特征图和红外热图像特征图；

候选框提取网络，用于根据所述可见光图像特征图和所述红外热图像特征图提取目标物体的候选框，得到可见光图像候选框和红外热图像候选框；

候选框互补模块，用于将所述可见光图像候选框中没有被红外热图像候选框覆盖到的部分添加到所述红外热图像候选框中，将所述红外热图像候选框中没有被可见光图像候选框覆盖到的部分添加到所述可见光图像候选框中，得到可见光图像区域特征图和红外热图像区域特征图；

跨模态注意力融合模块，用于将所述红外热图像区域特征图作为查询向量，将所述可见光图像区域特征图作为钥匙向量和价值向量，参照自注意力模块将所述可见光图像区域特征图根据各区域特征间的相似关系融合到所述红外热图像区域特征图中，得到经过彩色图像特征加强了的热图像特征；

分类和回归模块，用于将所述经过彩色图像特征加强了的热图像特征以及所述可见光图像区域特征图进行卷积计算，得到目标检测结果，其中，所述目标检测结果包括：各区域的类别和候选框偏移量。

2.根据权利要求1所述的***，其特征在于，

所述数据输入模块，还用于确定训练目标的类别和位置；

***还包括：

损失计算模块，用于根据所述目标检测结果和所述训练目标，采用损失函数计算出模型在框回归和框分类两个任务中的综合预测误差，回传误差的梯度，更新模型参数，进行模型训练，不断迭代，模型的预测误差将不断下降直到收敛，得到可应用部署的模型。

3.根据权利要求1所述的***，其特征在于，所述可变形特征提取器模块包括：

第一可变形特征提取器，用于提取所述可见光图像的图像特征，得到所述可见光图像特征图；

第二可变形特征提取器，用于提取所述红外热图像的图像特征，得到所述红外热图像特征图；

所述可见光图像特征图和所述红外热图像特征图大小相同。

4.根据权利要求3所述的***，其特征在于，所述可变形卷积公式为：

其中，

5.根据权利要求4所述的***，其特征在于，所述第一可变形特征提取器和所述第二可变形特征提取器分别独立学习w_k、Δp_k和Δm_k；或者所述第一可变形特征提取器和所述第二可变形特征提取器分别独立学习w_k，共享学习Δp_k和Δm_k。

6.根据权利要求3所述的***，其特征在于，所述候选框提取网络包括：

第一候选框提取网络，用于连接所述第一可变形特征提取器，提取所述可见光图像特征图中存在物体的所述可见光图像候选框；

第二候选框提取网络，用于连接所述第二可变形特征提取器，提取所述红外热图像特征图中存在物体的所述红外热图像候选框。

7.根据权利要求1所述的***，其特征在于，所述候选框互补模块，具体用于将所述可见光图像候选框中没有被红外热图像候选框覆盖到的部分添加到所述红外热图像候选框中，将所述红外热图像候选框中没有被可见光图像候选框覆盖到的部分添加到所述可见光图像候选框中，根据选定的候选框，将初始特征图上对应位置大小各异的区域特征提取出来，经过区域池化层将各区域特征统一到相同尺寸，得到尺寸相同的可见光图像区域特征图和红外热图像区域特征图。

8.根据权利要求1所述的***，其特征在于，

所述跨模态注意力融合模块，具体用于将所述红外热图像区域特征图和所述可见光图像区域特征图经过独立的卷积进行降维，计算所述红外热图像区域特征图和所述可见光图像区域特征图中各区域特征之间的俩俩相似关系，得到关系矩阵，对相似度做权值归一化，所述可见光图像区域特征图中特征经过卷积，与所述关系矩阵的矩阵乘，输出双模态互补增强区域特征，得到所述经过彩色图像特征加强了的热图像特征。

9.根据权利要求1所述的***，其特征在于，

所述跨模态注意力融合模块，还有将所述经过彩色图像特征加强了的热图像特征与所述红外热图像区域特征图相加或合并；

所述分类和回归模块，还用于将所述经过彩色图像特征加强了的热图像特征与所述红外热图像区域特征图相加或合并的特征图以及所述可见光图像区域特征图进行卷积计算，得到目标检测结果，其中，所述目标检测结果包括：各区域的类别和候选框偏移量。