CN115861595A

CN115861595A - 一种基于深度学习的多尺度域自适应异源图像匹配方法

Info

Publication number: CN115861595A
Application number: CN202211448179.8A
Authority: CN
Inventors: 杨卫东; 陈朝烁; 王公炎; 王科俨; 曾友峰; 单永志
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-03-28
Anticipated expiration: 2042-11-18
Also published as: CN115861595B

Abstract

本发明公开了一种基于深度学习的多尺度域自适应异源图像匹配方法，属于图像匹配技术领域，包括：利用多尺度域自适应的特征提取网络提取异源图像中更加高级的特征，这些特征为异源图像的共有特征，利用共有特征能够更好的对不同源的图像进行精确匹配。其中，引用的金字塔分割注意力模块，能够很好的提取出不同尺度的图像特征，使得训练得到得网络模型能更好地适用尺度的变化。引入了条件域归一化的特征映射，使得训练的模型能够很好的适应不同源图像的数据分布。本发明利用PSA模块获得图像更多尺度的特征，用条件域归一化的特征映射来减小异源图像的特征差异，从而提高了异源图像匹配的精度，由此解决异源图像匹配的精度低的技术问题。

Description

一种基于深度学习的多尺度域自适应异源图像匹配方法

技术领域

本发明属于图像匹配技术领域，更具体地，涉及一种基于深度学习的多尺度域自适应异源图像匹配方法。

背景技术

图像匹配技术作为计算机视觉领域的核心任务，是后续目标检测、图像拼接等高级任务的基石。根据匹配图像的成像波段异同，图像匹配又可以划分为同源图像匹配和异源图像匹配。其中，红外可见光图像匹配技术是一项具有较高应用价值和理论难度的课题，在多个横向领域都占据极其重要的地位。在军事领域中，例如飞行器制导任务，需要利用精准、高效、稳定的图像匹配算法对目标进行有效打击，这对维护国防安全具有极其重要的作用。在民用领域，图像匹配技术在安全监控、无人机和自动驾驶等方面具有广阔的应用前景。

已有的基于深度学习的异源图像匹配网络，一是使用AlexNet层数过浅，无法有效利用深度学习优秀的特征提取能力，仅仅通过堆叠卷积层来扩充图像感受野，且没有任何机制减小异源图像的特征差异。

针对这种情况，本发明针对性地提出一种基于深度学习的多尺度域自适应异源图像匹配方法，用更深层的特征提取主干网络来提取图像中的高级语义，引入PSA来提取图像多个尺度的特征，引入条件域归一化的特征映射来减小异源图像的特征差异。使得网络模型有更好的匹配精度。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习的多尺度域自适应异源图像匹配方法，其目的在于，利用PSA模块获得图像更多尺度的特征，用条件域归一化的特征映射来减小异源图像的特征差异，从而提高了异源图像匹配的精度，由此解决异源图像匹配的精度低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的多尺度域自适应异源图像匹配方法，包括：

S1：利用预设尺寸的红外和可见光图像对生成训练样本集；

S2：搭建多尺度域自适应的初始特征提取网络，所述初始特征提取网络包括特征提取模块、金字塔分割注意力PSA模块和条件域归一化特征映射CDN模块；所述初始特征提取网用于提取所述红外和可见光图像对的高级语义特征、尺度特征和域数据分布，得到可见光图像和红外光图像各自对应的特征图；选择其一作为初始模板特征图，则另一个作为初始待匹配特征图；

S3：搭建初始区域选取网络，所述初始区域选取网络用于当输入所述初始模板特征图和所述待匹配特征图时，输出用于前背景分类的分类特征图和用于对锚框进行回归的回归特征图；

S4：利用所述训练样本集训练所述初始特征提取网络和所述初始区域选取网络，得到目标特征提取网络和目标区域选取网络；

S5：将当前图像的红外和可见光图像对输入所述目标特征提取网络，得到当前模板特征图和当前待匹配特征图；

S6：将所述当前模板特征图和当前待匹配特征图输入所述目标区域选取网络，以使其输出当前回归特征图及其对应的当前分类特征图；

S7：对所述当前回归特征图对应的多个锚框的重合程度进行计算，根据所述重合程度确定出目标锚框；将所述目标锚框及其对应的分类结果作为目标匹配结果。

在其中一个实施例中，所述PSA模块用于保证计算效率的同时提取多尺度特征来丰富特征空间，同时考虑图像局部信息与全局信息；

所述CDN模块用于针对不同来源的图像对应的数据分布域，将不同源的图像特征映射到同一个特征空间，从而增加网络模型的鲁棒性。

在其中一个实施例中，所述PSA模块包括：

拆分拼接SPC单元，用于将输入图像的特征图X拆分成S组；对各组采用不同大小的卷积核进行卷积获取不同尺度的感受野，以提取对应的尺度特征；将S组卷积后的特征图行拼接操作得到特征图F：

压缩激励权重单元，与所述SPC单元连接，用于对输入的特征图F进行压缩操作和激励操作得到通道注意力权值向量，所述特征图F中每个通道对应一个通道注意力向量；

后处理单元，用于将所有尺度的通道注意力向量进行拼接操作能够得到多尺度通道注意力向量Z，利用所述多尺度通道注意力向Z对所述特征图F进行加权得到特征图Y。

在其中一个实施例中，压缩操作表示为：

所述激励操作表示为：w_c＝σ(W₁δ(W₀(g_c)))；其以压缩操作输出的g_C向量作为输入，经过两个全连接层，输出通道注意力权值向量w_c；所述特征图F对应的通道注意力向量表示为：Z_i＝F_i*w_c，i＝0，1，2…S-1；

其中，x_c(i，j)表示的是输入特征图X在空间域上坐标(i，j)处的一维向量，长度为特征图通道数C；对所有的x_c(i，j)进行求和平均，最终得到长度为C的一维向量g_c；W₁代表第二个全连接层的权值；W₀代表第一个全连接层的权值；δ代表ReLU激活函数，σ代表Sigmoid激活函数。

在其中一个实施例中，所述后处理单元的工作过程表示为：

对所有尺度的通道注意力向量进行拼接操作，得到多尺度通道注意力向量

对多尺度通道注意力向量Z进行归一化，利用归一化后的注意力向量对SPC模块的输出F行加权，得到输出Y；Y＝Cat([Y₀，Y₁，…，Y_s-1])，Y_i＝F_i⊙Softmax(Z_i)i＝1，2，3，…S-1；Cat为拼接函数。

在其中一个实施例中，所述CDN模块的训练过程如下：

对域A尺寸为H_a×W_a×C的输入特征图v^a进行全局平均池化操作得到

将域B尺寸为/>

的输入特征图v^b经过两个使用R_eLU函数进行非线性化的全连接层，得到域嵌入向量/>

利用域A的域嵌入向量

对域B输入特征v^b进行仿射变换，

和/>

再次经过F_d(·)编码后送入判别器D；采用交替迭代的方式训练，损失函数/>

训练过程中判别器D鉴别输入来自哪个域，对于域A判别器理想输出为1，对于域B判别器理想输出为0，L_adv尽可能大。

在其中一个实施例中，所述初始区域选取网络的损失函数为：

L_MS-DASiamRPN＝λ₁L_clsASL+λ₂L_reg+λ₃L_adv；

其中，λ₁、λ₂、λ₃分别为xxx；L_clsASL为非对称样本损失函数；L_reg为位置回归损失函数，L_adv为域归一化损失函数。

按照本发明的另一方面，提供了一种基于深度学习的多尺度域自适应异源图像匹配装置，包括：

生成模块，用于利用预设尺寸的红外和可见光图像对生成训练样本集；

第一搭建模块，用于搭建多尺度域自适应的初始特征提取网络，所述初始特征提取网络包括特征提取模块、金字塔分割注意力PSA模块和条件域归一化特征映射CDN模块；所述初始特征提取网用于提取所述红外和可见光图像对的高级语义特征、尺度特征和域数据分布，得到可见光图像和红外光图像各自对应的特征图；选择其一作为初始模板特征图，则另一个作为初始待匹配特征图；

第二搭建模块，用于搭建初始区域选取网络，所述初始区域选取网络用于当输入所述初始模板特征图和所述待匹配特征图时，输出用于前背景分类的分类特征图和用于对锚框进行回归的回归特征图；

训练模块，用于利用所述训练样本集训练所述初始特征提取网络和所述初始区域选取网络，得到目标特征提取网络和目标区域选取网络；

特征提取模块，用于将当前图像的红外和可见光图像对输入所述目标特征提取网络，得到当前模板特征图和当前待匹配特征图；

区域选择模块，用于将所述当前模板特征图和当前待匹配特征图输入所述目标区域选取网络，以使其输出当前回归特征图及其对应的当前分类特征图；

输出模块，用于对所述当前回归特征图对应的多个锚框的重合程度进行计算，根据所述重合程度确定出目标锚框；将所述目标锚框及其对应的分类结果作为目标匹配结果。

按照本发明的另一方面，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明利用多尺度域自适应的特征提取网络提取异源图像中更加高级的特征，这些特征为异源图像的共有特征，利用共有特征能够更好的对不同源的图像进行精确匹配。其中，引用的金字塔分割注意力模块，能够很好的提取出不同尺度的图像特征，使得训练得到得网络模型能更好地适用尺度的变化。引入了条件域归一化的特征映射，使得训练的模型能够很好的适应不同源图像的数据分布，提高匹配的精确度。

附图说明

图1为本发明一实施例中基于深度学习的多尺度域自适应异源图像匹配方法的整体流程图；

图2为本发明一实施例中基于深度学习的多尺度域自适应异源图像匹配方法的网络结构参数图；

图3为本发明一实施例中基于深度学习的多尺度域自适应异源图像匹配方法的网络结构图；

图4为本发明一实施例中车辆目标特征的可视化示意图；

图5为本发明一实施例中网络模型预测结果的示例图；

图6为本发明一实施例中目标多尺度匹配结果的示例图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供一种基于深度学习的多尺度域自适应异源图像匹配方法，包括：

S1：利用预设尺寸的红外和可见光图像对生成训练样本集；

S2：搭建多尺度域自适应的初始特征提取网络，初始特征提取网络包括金字塔分割注意力PSA模块和条件域归一化特征映射CDN模块；初始特征提取网用于提取红外和可见光图像对的高级语义特征、尺度特征和域数据分布，得到可见光图像和红外光图像各自对应的特征图；选择其一作为初始模板特征图，则另一个作为初始待匹配特征图；

S3：搭建初始区域选取网络，初始区域选取网络用于当输入初始模板特征图和待匹配特征图时，输出用于前背景分类的分类特征图和用于对锚框进行回归的回归特征图；

S4：利用训练样本集训练初始特征提取网络和初始区域选取网络，得到目标特征提取网络和目标区域选取网络；

S5：将当前图像的红外和可见光图像对输入目标特征提取网络，得到当前模板特征图和当前待匹配特征图；

S6：将当前模板特征图和当前待匹配特征图输入目标区域选取网络，以使其输出当前回归特征图及其对应的当前分类特征图；

S7：对当前回归特征图对应的多个锚框的重合程度进行计算，根据重合程度确定出目标锚框；将目标锚框及其对应的分类结果作为目标匹配结果。

S1获得训练样本主要过程如下：使用公开的数据集中的红外和可见光图像对，或者通过采集获得足量的红外和可见光图像对。对图像对进行随机扩充预处理，依据标签框尺寸随机比例扩充的方法，使得匹配目标和待匹配图大小比例控制在1:4至1:10，并且为了不改变原始图像长宽比，在对图像进行缩放前，对图像进行了扩充，保证扩充后图像长宽比为1:1，非原始图像部分采用原始图像像素灰度均值填充。

其中，样本分为训练样本和测试样本，选取的训练样本集可以包括以下几个部分，

1)KAIST数据集。包括95328个可见光-红外图像对，共103128个数据标注，仅选取其中的非生物目标。

2)OTCBVS数据集。该数据集共包括13个子数据集，其中3、10、12号数据集为可见光-红外数据集，共18177个可见光-红外图像对和4对红外可见光-视频。

3)FLIR数据集。共10k张红外-可见光图像对，包含人、自行车、汽车等目标，仅选取其中的非生物目标。

4)TNO数据集。该数据集为红外可见光融合数据集，取少量加入网络训练。

5)自标数据集。包括坦克、汽车、房子等目标，使用labelImg软件对图像进行人工标注，从中挑选部分数据作为测试集。

此外，还需要对选择的样本进行尺寸处理和随机扩充，具体的，采用随机扩充的方式，例如待匹配图高度小于长度，两者之差为x，则待匹配图需要在上方填充rand(x)行像素，下方填充剩余的x-rand(x)行像素。

对于模板图的制作，在保证目标在视野内的前提下，尽可能地增加待匹配图和模板图之间的帧差。先在图像中抠出目标区域，然后将其外扩为正方形，多余的部分采用纯黑色填充，最后将其缩放为127×127即可得到模板图。

S2中搭建的初始特征提取网络包括特征提取模块、金字塔分割注意力模块、条件域归一化模块。特征提取模块可以选用常用的主干特征提取网络，负责对输入图像进行特征提取。金字塔分割注意力模块用于提取图像对的多尺度特征，条件域归一化特征映射模块用于适应异源图像对的数据分布域的不同。

具体地，初始特征提取网络包选用CIResNet22作为基准主干网络，并且考虑实时性以及后续特征融合，对网络结构进行了调整，考虑红外和可见光图像的差异，在调整后的网络上引入金字塔分割注意力来建立长距离依赖，并且在网络的各层加入条件域归一化减小红外域和可见光域的差异，最终得到MS-DASiamNet，其网络参数如图2所示。

最后MS-DASiamNet输出尺寸为10×10×512模板特征图和58×58×512的待匹配特征图，将两者送入RPN网络，生成尺寸为49×49×2k的分类特征图用于前背景分类和49×49×4k的回归特征图用于对锚框进行回归，其中k为锚框数量。经过非极大值抑制(Non-Maximum Supression，NMS)后，得到最终的匹配结果。整体的网络结构如图3所示。

S3中区域选择网络的训练过程和损失函数如下：

网络训练中的损失由非对称样本损失函数L_clsASL、位置回归损失函数L_reg和域归一化损失函数L_adv构成。总损失由三部分加权构成。

总损失Loss：L_MS-DASiamRPN＝λ₁L_clsASL+λ₂L_reg+λ₃L_adv；其中λ₁取值为2，λ₂和λ₃取值为1。

具体的，非对称样本损失函数L_clsASL：MS-DASiamRPN使用了RPN网络对样本进行随机筛选，由于简单样本数量巨大，其被选中的概率比起困难样本也会更高，为了数据平衡性，本文使用了基于F_ocal L_oss改进的非对称损失(Asymmetric Loss，ASL)对MS-DASiamRPN的分类分支进行改进。非对称损失对Focal Loss中的难以样本比例因子γ进行修改，将其划分为γ-和γ₊，其中γ-＞γ₊，对正负样本损失函数的下降速率进行解耦，解决FocalLoss中模型降低简单负样本权重时会减少本就稀少的正样本贡献问题。另外，非对称损失引入了超参数m来对负样本损失函数曲线进行调整。

p_m＝max(p-m，0)

位置回归损失函数Lreg：

其中的t表示单个样本的位置回归分支计算结果，是一个四维向量[dx，dy，dw，dh]，a表示向量中的第a个元素。t^*对应的四维向量[dx^*，dy^*，dw^*，dh^*]表示实际的中心偏移量及长宽偏移量，L_reg是四项损失的累加之和。

域归一化损失函数：

L_adv：

其中，判别器D应当尽可能地鉴别输入来自哪个域，对于域A判别器理想输出为1，对于域B判别器理想输出为0，使L_adv尽可能大。与编码相关的参数应当尽可能使得判别器D无法鉴别输入来源，理想情况下判别器D对域A、域B的判别结果均为0.5，使L_adv尽可能小。

S5-S7为算法的应用阶段，具体如下：

提取待匹配异源图像对的特征：本发明使用Score-CAM工具，获取网络各个Stage经过条件域归一化后的特征图，下面简称为CDN0、CDN1和CDN2，部分结果如图4所示。

区域选取网络对特征图进行匹配：区域选取网络对异源图像对输出的匹配结果，如图5所示，多尺度的图像匹配结果如图6所示。

第一搭建模块，用于搭建多尺度域自适应的初始特征提取网络，初始特征提取网络包括金字塔分割注意力PSA模块和条件域归一化特征映射CDN模块；初始特征提取网用于提取红外和可见光图像对的高级语义特征、尺度特征和域数据分布，得到可见光图像和红外光图像各自对应的特征图；选择其一作为初始模板特征图，则另一个作为初始待匹配特征图；

第二搭建模块，用于搭建初始区域选取网络，初始区域选取网络用于当输入初始模板特征图和待匹配特征图时，输出用于前背景分类的分类特征图和用于对锚框进行回归的回归特征图；

训练模块，用于利用训练样本集训练初始特征提取网络和初始区域选取网络，得到目标特征提取网络和目标区域选取网络；

特征提取模块，用于将当前图像的红外和可见光图像对输入目标特征提取网络，得到当前模板特征图和当前待匹配特征图；

区域选择模块，用于将当前模板特征图和当前待匹配特征图输入目标区域选取网络，以使其输出当前回归特征图及其对应的当前分类特征图；

输出模块，用于对当前回归特征图对应的多个锚框的重合程度进行计算，根据重合程度确定出目标锚框；将目标锚框及其对应的分类结果作为目标匹配结果。

按照本发明的另一方面，提供了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述方法的步骤。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。