CN116912595A - 一种基于对比学习的跨域多模态遥感图像分类方法 - Google Patents

一种基于对比学习的跨域多模态遥感图像分类方法 Download PDF

Info

Publication number
CN116912595A
CN116912595A CN202310959584.4A CN202310959584A CN116912595A CN 116912595 A CN116912595 A CN 116912595A CN 202310959584 A CN202310959584 A CN 202310959584A CN 116912595 A CN116912595 A CN 116912595A
Authority
CN
China
Prior art keywords
domain
source domain
source
target
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310959584.4A
Other languages
English (en)
Inventor
董文倩
杨岳广
曲家慧
杨腾
肖嵩
李云松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310959584.4A priority Critical patent/CN116912595A/zh
Publication of CN116912595A publication Critical patent/CN116912595A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/86Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Image Processing (AREA)

Abstract

一种基于对比学习的跨域多模态遥感图像分类方法,包括:预训练阶段,对源域数据进行数据预处理;提取源域数据特征,得到源域融合特征;将源域融合特征输入分类器,得到分类结果;跨域对比学习阶段,重新输入源域和目标域数据并对其进行预处理;利用预训练阶段得到的源域网络最优参数初始化此阶段源域和目标域网络,初始化目标域各类别的特征队列;提取源域和目标域数据特征,得到源域和目标域融合特征;得到分类结果和高维特征,利用对比学习进行域自适应对齐;反向传播更新源域网络,动量更新目标域网络,保存最优目标域网络的参数及其分类结果。本发明可实现目标域无监督分类,减小源域和目标域的域间差异,显著提高了目标域遥感图像分类精度。

Description

一种基于对比学习的跨域多模态遥感图像分类方法
技术领域
本发明属于遥感图像分类技术领域,具体涉及一种基于对比学习的跨域多模态遥感图像分类方法。
背景技术
在遥感领域,基于高光谱图像的多源遥感数据已被***地应用于土地利用/土地覆盖分类、目标检测和环境变化监测。具体来说,高光谱图像可以提供详细的光谱信息,其他源的遥感数据则可以提供其他的互补信息,如激光雷达数据提供了有意义的高程和空间信息。多模态数据以其相对于单一模态的独特优势,提高了分类精度。
近年来,深度学习在许多图像处理应用中取得了巨大的成功。深度网络,如卷积层,具有很强的提取高层特征进行模式识别的能力。受此启发,许多工作将深度神经网络应用于遥感图像分类,并在大量有标签数据可用时表现出优越的性能,这些方法被称为监督学习方法。为了融合空间信息和光谱信息以实现更精确的分类,二维和三维卷积层也被应用于提取遥感图像的深层特征。
但是进行大规模训练数据的标记进而获得有监督数据费力且昂贵,一个潜在的解决方案是将在有标记源域上训练的模型迁移到期望的无标记目标域,然而,直接进行模型迁移,由于存在域偏移或非对齐分布等现象,往往会导致目标域分类性能的下降。
域适应是解决上述问题的有效措施。域适应主要有两大类方法,传统的域适应方法和基于深度学习的域适应方法。
传统的域适应方法主要有:基于特征的自适应,其将源域样本和目标域样本用一个映射f调整到同一个特征空间,使二者在这个特征空间样本能够对齐;基于实例的自适应,考虑到源域中总有一些样本和目标域样本很相似,其将源域的所有样本的损失在训练时都乘以一个权重,和目标域越相似的样本,这个权重就越大;基于模型参数的自适应,通过找到新的模型参数θ',通过参数的迁移使得模型能更好的在目标域上工作。
基于深度学***均差异的方法,其通过减少两个领域间的差异来减少目标域泛化误差,常见的有迁移成分分析,其通过将源域与目标域映射到一个再生核希尔伯特空间中,并使用最大平均差异来衡量两个映射后的域数据分布差异,使用最大平均差异在特征学习的时候构造正则项来约束学到的表示,使得两个域上的特征尽可能相同,以此减小分布偏差;基于对抗的方法,其通过生成器生成特征,然后让判别器判别它是源域的还是目标域的特征,如果判别不出来就说明在这个特征空间里源域和目标域是一致的;基于重构的方法,如DRCN通过编码器编码源域和目标域样本,然后对于源域特征用一个分类器去分类,对于目标域特征用一个解码器去解码,使得能尽量还原目标域的样本,这样下来生成的特征所在的特征空间在源域和目标域样本上是相近的。
在基于深度学***均差异的方法设计一个域间距离表示是十分复杂的;基于对抗的方法在对抗训练后的特征提取网络过强时,会导致源域和目标域在特征空间中不同类别分布的错配,使得分类器对目标域样本分类效果差;基于重构的方法依赖于强大的特征提取器,而且该方法对于噪声和异常值比较敏感,这可能会导致模型在处理目标域数据时出现偏差。
发明内容
为了克服以上现有技术存在的问题,本发明的目的在于提供一种基于对比学习的跨域多模态遥感图像分类方法,该方法可实现目标域无监督遥感图像分类,有效解决了遥感图像标签难获取的问题;本发明对源域和目标域数据均进行均值方差归一化,有效缩小了域间差异;本发明提出源域预训练后再进行源域-目标域网络对比学习跨域训练的两步训练策略,有效加快网络收敛速度;本发明提出将对比学习融入跨域训练中,有效减小了源域和目标域的域间差异,有效提高了目标域遥感图像分类精度。
为了实现上述目的,本发明采用的技术方案是:
一种基于对比学习的跨域多模态遥感图像分类方法,包括以下步骤:
S101:预训练阶段,首先输入待分类的源域高光谱和源域激光雷达图像数据,对源域数据进行数据预处理;
S102:使用卷积层提取预处理后源域数据的特征,并将特征展平后拼接,得到源域融合特征;
S103:将源域融合特征输入分类器,得到分类结果,重复S102至S103,多次训练网络,保存源域网络最优参数;
S104:跨域对比学习阶段,首先重新输入源域高光谱和源域激光雷达图像数据,输入目标域高光谱和目标域激光雷达图像数据,对数据进行预处理;将所述源域网络最优参数作为此阶段源域网络和目标域网络的初始参数,初始化目标域对应各个类别的特征队列;
S105:使用卷积层提取S104中预处理后的源域和目标域数据的特征,分别展平并拼接源域和目标域特征,得到源域融合特征和目标域融合特征;
S106:将源域融合特征和目标域融合特征输入分类器和映射器,得到源域和目标域分类结果以及高维特征,根据目标域的分类结果更新S104的特征队列,同时进行对比学习;
S107:反向传播更新源域网络,动量更新目标域网络,重复S104至S107,保存最优目标域网络的参数及其分类结果。作为本发明的进一步技术方案,所述步骤S101具体为:
预训练阶段,首先对输入的源域高光谱和源域激光雷达图像数据进行均值方差标准化得到源域高光谱图像HS和源域激光雷达图像LS,分别通过以下两式获得:
其中H'S为未进行标准化的源域高光谱图像,为源域高光谱图像的平均值,/>为源域高光谱图像的标准差;
L'S为未进行标准化的源域激光雷达图像,为源域激光雷达图像的平均值,/>为源域激光雷达图像的标准差;
分别对源域高光谱图像HS和源域激光雷达图像LS进行边缘填充,以填充前各个像素点为中心,构建一一对应的源域高光谱图像块和源域激光雷达图像块;
接下来,从带标签的对应的源域高光谱图像块和源域激光雷达图像块中根据中心像素点类别从每个类别随机选取200对作为训练集,余下的作为测试集。
作为本发明的进一步技术方案,所述步骤S102具体为:
在源域网络中,高光谱图像处理分支和激光雷达图像处理分支分别应用两层卷积层进行特征提取;
假设源域高光谱图像块尺寸为C×11×11,其中C为高光谱图像块的通道数,构建卷积核大小为64×3×3,步长为2,填充为1以及卷积核大小为32×3×3,步长为2,填充为1的两层卷积层,每一层输出后输入激活函数ReLU,最后得到源域高光谱图像特征/>其尺寸为32×3×3;
假设源域激光雷达图像块尺寸为1×11×11,构建卷积核大小为16×3×3,步长为2,填充为1和卷积核大小为32×3×3,步长为2,填充为1的两层卷积层,每一层输出后输入激活函数ReLU,最后得到源域激光雷达图像特征/>其尺寸为32×3×3;
将卷积得到的源域高光谱图像特征和源域激光雷达图像特征/>在通道维保持不变的条件下,对特征进行展平,即得到尺寸大小为32×9的源域高光谱图像特征/>和尺寸大小32×9的源域激光雷达图像特征/>
将所得源域高光谱图像特征和源域激光雷达图像特征/>在通道维进行拼接融合,得到源域融合特征/>其尺寸大小为64×9;
作为本发明的进一步技术方案,所述步骤S103具体如下:
选择由线性层、批归一化层和ReLu层组成的网络作为分类器,分类器的最后一层为线性层,其输出通道数为地物类别数;假设输出为YS,真实标签为YS,得交叉熵损失如下:
其中M为类别的数量;yic是符号函数(0或者1),如果样本i的真实类别等于c取1,否则取0;PS为YS经Softmax函数得到的预测样本的概率向量;为观测样本i属于类别c的预测概率;
通过交叉熵损失函数有监督地指导网络学习,利用反向传播以及随机梯度下降方法更新源域网络参数,保存在源域测试集上表现最优的源域网络参数。
作为本发明的进一步技术方案,所述步骤S104具体步骤如下:
在跨域对比学习阶段,源域数据的预处理同前文预训练阶段所述一致,对输入的目标域高光谱图像和目标域激光雷达图像进行均值方差标准化得到目标域高光谱图像HT和目标域激光雷达图像LT,通过下两式获得:
其中H'T为未进行标准化的目标域高光谱图像,为目标域高光谱图像的平均值,为目标域高光谱图像的标准差;
L'T为未进行标准化的目标域激光雷达图像,为目标域激光雷达图像的平均值,为目标域激光雷达图像的标准差;
然后分别对目标域高光谱图像HT和目标域激光雷达图像LT进行边缘填充,以填充前各个像素点为中心,构建一一对应的目标域高光谱图像块和目标域激光雷达图像块。目标域数据没有真实标签,不用划分训练集和测试集,直接拿所有样本进行训练;
加载S103所保存的源域网络最优参数作为后续训练中源域网络和目标域网络的初始参数;
本发明为目标域数据每个类别设置一个容量为K的队列用以存储相应的特征,为后续计算对比学习损失值提供数据;使用初始化后的目标域网络,对目标域所有样本进行测试,将分类器输出经Softmax函数后得到的概率向量最大值的索引值作为伪标签,若伪标签的置信度大于设定的阈值,则会根据伪标签将映射器输出的对应的特征纳入对应类别的队列中,完成所有测试,就得到了各个类别的初始特征队列。
作为本发明的进一步技术方案,所述步骤S105具体如下:
跨域对比学习阶段,源域和目标域网络的结构是完全一致的,所以提取特征所用的卷积核是一致的,其参数与预训练阶段源域卷积核参数一致,可得提取到的目标域高光谱图像特征和目标域激光雷达图像特征/>的尺寸为32×3×3和32×3×3;
目标域展平拼接操作与源域是一致的,都是在通道维进行拼接,可得此阶段的源域融合特征和目标域融合特征/>其尺寸大小均为64×9。
作为本发明的进一步技术方案,所述步骤S106具体如下:
在此阶段,目标域网络采用与源域网络相同的由线性层、批归一化层和ReLu层组成的网络作为分类器,分类器的最后一层为线性层,其输出通道数为地物类别数,但目标域数据因为是没有真实标签的,所以不需要计算目标域交叉熵损失,仅需计算源域交叉熵损失,此阶段源域交叉熵损失计算与预训练阶段计算方式一致;
此阶段源域和目标域网络都采用由线性层、批归一化层和ReLu层组成的网络作为映射器,映射器将特征映射到高维空间,特征队列会根据目标域网络分类结果存储映射器输出的对应的高维特征并且出列一些较早的特征;
本发明提出在对比学习跨域训练时,根据源域当前样本的真实标签,选择目标域对应类别的特征队列,对该队列所有特征求均值得到一个高维特征,将源域样本经映射器输出的对应高维特征视为该高维特征的正样本,其他类别对应的特征队列中的高维特征均视为其负样本,对比损失利用InFoNCE损失函数进行计算,如下式所示:
其中q为对应队列所求得均值后的高维特征,k+为源域样本的高维特征,N为所有样本的数量(含正负样本),τ为温度超参数;
作为本发明的进一步技术方案,所述步骤S107具体如下:
在此阶段,通过源域交叉熵损失函数LCE和对比损失LCL指导源域网络学习,利用反向传播以及随机梯度下降方法更新源域网络参数;
目标域网络梯度不会反向传播,通过如下动量更新方式更新目标域网络参数:
θ=m·θ+(1-m)·ξ
其中目标域网络参数为θ,源域网络参数为ξ,m为超参数;
多次训练,直至网络收敛,保存在目标域样本测试效果最优的目标域网络的参数及其分类结果。
本发明的有益效果:
1、本发明使用图像块进行训练,在保证空间信息完整的前提下,降低硬件要求。
2、本发明采用均值方差标准化处理源域和目标域数据,使得源域和目标域数据总体上均近似服从0-1正态分布,缩小域间差异。
3、本发明提出两步训练策略,即先源域预训练,再将源域预训练所得的源域网络最优参数加载至第二阶段跨域对比学习训练中源域和目标域网络作为其初始参数,有效加快了网络训练速度。
4、本发明提出将对比学习融入跨域训练中,使得编码表示能够捕获两个域同类之间共享的信息,同时有效减小了源域和目标域的域间差异,有效提高了目标域遥感图像分类精度。
5、本发明可实现目标域无监督遥感图像分类,有效解决了遥感图像标签难获取的问题。
附图说明
图1是本发明实施例提供的基于对比学习的跨域多模态遥感图像分类方法流程图。
图2是本发明实施例提供的预训练阶段源域网络结构示意图。
图3是本发明实施例提供的跨域对比学习训练网络结构示意图。
图4是本发明实施例提供的本发明所提方法的目标域遥感图像分类结果图及真实标签图,其中图4(a)是真实标签图,图4(b)是本发明所提方法得到的目标域遥感图像分类结果图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明提供的基于对比学习的跨域多模态遥感图像分类方法包括以下步骤
S101:预训练阶段,首先输入待分类的源域高光谱和源域激光雷达图像数据,对源域数据进行数据预处理;
S102:使用卷积层提取预处理后源域数据的特征,并将特征展平后拼接,得到源域融合特征;
S103:将源域融合特征输入分类器,得到分类结果,重复S102至S103,多次训练网络,保存源域网络最优参数;
S104:跨域对比学习阶段,首先重新输入源域高光谱和源域激光雷达图像数据,输入目标域高光谱和目标域激光雷达图像数据,对数据进行预处理;将S103中预训练阶段得到的源域网络最优参数作为此阶段源域网络和目标域网络的初始参数,初始化目标域对应各个类别的特征队列;
S105:使用卷积层提取S104中预处理后的源域和目标域数据的特征,分别展平并拼接源域和目标域特征,得到源域融合特征和目标域融合特征。
S106:将源域融合特征和目标域融合特征输入分类器和映射器,得到分类结果和高维特征,根据目标域的分类结果更新特征队列,同时进行对比学习;
S107:反向传播更新源域网络,动量更新目标域网络,重复S104至S107,保存最优目标域网络的参数及其分类结果。
如图1所示,本发明提供的基于对比学习的跨域多模态遥感图像分类方法,其实施过程如下:
(1)图2所示为预训练阶段源域网络模型。预训练阶段,首先输入待分类的源域高光谱和源域激光雷达图像数据,对源域数据进行数据预处理。
为了使得原本可能分布相差较大的特征对模型有相同权重的影响,对输入的源域高光谱图像和源域激光雷达图像数据进行了均值方差标准化,使得到的特征满足均值为0,标准差为1的正态分布。处理后的源域高光谱图像HS和源域激光雷达图像LS,分别通过以下两式求得:
其中H'S为未进行标准化的源域高光谱图像,为源域高光谱图像的平均值,/>为源域高光谱图像的标准差;
L'S为未进行标准化的源域激光雷达图像,为源域激光雷达图像的平均值,/>为源域激光雷达图像的标准差;
高光谱图像通常含有丰富的信息量,直接拿整个图像进行训练,对硬件的要求较高,但使用单个的像素点进行训练,又忽略了像素之间的空间相关性。鉴于此,本发明对源域高光谱图像HS和源域激光雷达图像LS进行边缘填充,以填充前的各个像素点为中心,构建一一对应的源域高光谱图像块和源域激光雷达图像块,图像块尺寸为C×11×11,其中C为源域高光谱图像块或源域激光雷达图像块的通道数,以此在保证信息基本完整的前提下,降低硬件要求。
接下来,从带标签的对应的源域高光谱图像块和源域激光雷达图像块中根据中心像素点类别从每个类别随机选取200对作为训练集,余下的作为测试集。
(2)使用卷积层提取预处理后源域数据的特征,并将特征展平后拼接,得到源域融合特征。
在源域网络中,高光谱图像处理分支和激光雷达图像处理分支应用两层卷积层进行空间、光谱信息和空间、高程信息的提取;
源域高光谱图像块尺寸为C×11×11,构建卷积核大小为64×3×3,步长为2,填充为1以及卷积核大小为32×3×3,步长为2,填充为1的两层卷积层,每一层输出后输入激活函数ReLU,提高神经网络各层之间的非线性关系,增强网络的表达能力。最后得到源域高光谱图像特征/>其尺寸为32×3×3;
源域激光雷达图像块尺寸为1×11×11,构建卷积核大小为16×3×3,步长为2,填充为1以及卷积核大小为32×3×3,步长为2,填充为1的两层卷积层,每一层输出后输入激活函数ReLU,最后得到源域激光雷达图像特征/>其尺寸为32×3×3;
将卷积得到的源域高光谱图像特征和源域激光雷达图像特征/>在通道维保持不变的条件下,对特征进行展平,得到尺寸大小为32×9的源域高光谱图像特征/>和尺寸大小32×9的源域激光雷达图像特征/>
高光谱图像通常含有丰富的光谱信息,但是其空间信息较匮乏,激光雷达图像则含有丰富的空间-高程信息,但仅仅使用高光谱特征或激光雷达特征用作分类任务,效果都不理想,于是将所得源域高光谱图像特征和源域激光雷达图像特征/>在通道维进行拼接融合,得到源域融合特征/>其尺寸大小为64×9;
(3)将源域融合特征输入分类器,得到分类结果,重复S102至S103,多次训练网络,保存源域网络最优参数。
选择由线性层、批归一化层和ReLu层组成的网络作为分类器,分类器的最后一层为线性层,其输出通道数为地物类别数,将源域融合特征输入分类器,得到分类结果。假设输出为YS,真实标签为YS,可得交叉熵损失如下:
其中M为类别的数量;yic是符号函数(0或者1),如果样本i的真实类别等于c取1,否则取0;PS为YS经Softmax函数得到的预测样本的概率向量,为观测样本i属于类别c的预测概率;
通过交叉熵损失函数有监督地指导源域网络学习,利用反向传播以及随机梯度下降方法更新源域网络参数,保存在源域测试集上表现最优的源域网络参数。
(4)如图3所示为跨域对比学习阶段。在跨域对比学习阶段,首先重新输入源域高光谱和源域激光雷达图像数据,输入和目标域高光谱和目标域激光雷达图像数据,对数据进行预处理,将S103中预训练阶段得到的源域网络最优参数作为此阶段源域网络和目标域网络的初始参数,初始化对应目标域各个类别的特征队列。
(4a)在跨域对比学习阶段,源域数据的预处理同前文预训练阶段所述一致,对于输入的目标域高光谱图像和目标域激光雷达图像进行均值方差标准化得到目标域高光谱图像HT和目标域激光雷达图像LT,通过下两式获得:
其中H'T为未进行标准化的目标域高光谱图像,为目标域高光谱图像的平均值,为目标域高光谱图像的标准差;
L'T为未进行标准化的目标域激光雷达图像,为目标域激光雷达图像的平均值,为目标域激光雷达图像的标准差;
本发明对源域和目标域数据均进行均值方差标准化后,源域和目标域数据总体上均近似服从0-1正态分布,这样缩小了域间差异。
然后分别对目标域高光谱图像HT和目标域激光雷达图像LT进行边缘填充,以填充前各个像素点为中心,构建一一对应的目标域高光谱图像块和目标域激光雷达图像块。目标域数据没有真实标签,不用划分训练集和测试集,直接拿所有样本进行训练;
(4b)加载预训练阶段源域网络最优参数作为后续训练中源域网络和目标域网络的初始参数;
(4c)本发明为目标域数据每个类别设置一个容量为K的队列用以存储相应的特征,为后续计算对比学习损失值提供数据;使用初始化后的目标域网络,对目标域所有样本进行测试,将分类器输出经Softmax函数后得到的概率向量最大值的索引值作为伪标签,若概率向量的最大值,也就是伪标签的置信度大于设定的阈值,则会根据伪标签将映射器输出的对应的特征纳入对应类别的队列中,完成所有测试,就得到了各个类别的初始特征队列。后续训练过程中,特征队列会进行动态的更新,纳入最新的特征,将一些较早纳入的特征出队,以保证队列中的早入队和后入队的特征差异不会很大。
(5)使用卷积层提取源域和目标域数据的特征,分别展平并拼接源域和目标域特征,得到源域融合特征和目标域融合特征。
跨域对比学习阶段源域和目标域网络的结构是完全一致的,所以提取特征所用的卷积核是一致的,其参数与预训练阶段源域卷积核参数一致,可得提取到的目标域高光谱图像特征和目标域激光雷达图像特征/>的尺寸为32×3×3和32×3×3;
目标域高光谱图像特征和目标域激光雷达图像特征的展平拼接操作与源域是一致的,都是在通道维进行拼接,可得此阶段的源域融合特征和目标域融合特征/>其尺寸大小均为64×9;
(6)将源域融合特征和目标域融合特征输入分类器和映射器,得到分类结果和高维特征,根据目标域的分类结果更新特征队列,同时进行对比学习。
在此阶段,目标域网络采用与源域网络相同的由线性层、批归一化层和ReLu层组成的网络作为分类器,分类器的最后一层均为线性层,其输出通道数为地物类别数,但目标域数据因为是没有真实标签的,所以不需要计算目标域交叉熵损失,仅需计算源域交叉熵损失,源域交叉熵损失的计算与预训练阶段计算方式一致;
在对比学习中,通常将各样本映射到某个投影空间,并在这个空间内拉近正样本的距离,推远负样本距离,迫使表示模型能够忽略表面因素,学习样本的内在一致结构信息。本发明在源域和目标域网络采用由线性层、批归一化层和ReLu层作为映射器,映射器将特征映射到高维空间,目标域的特征队列会根据目标域网络分类结果存储对应的高维特征并且出列一些较早的特征。
本发明提出在对比学习跨域训练时,根据源域当前样本的真实标签,选择目标域对应类别的特征队列,对该队列所有特征求均值得到一个高维特征Anchor,将源域样本经映射器输出的对应高维特征视为该高维特征的正样本,其他类别对应的特征队列中的高维特征均视为其负样本,对比损失利用InFoNCE损失函数进行计算,如下式所示:
其中q为对应队列所求得均值后的高维特征,k+为源域样本经映射器输出的的高维特征,N为所有样本的数量(含正负样本),τ为温度超参数;
本发明通过此对比损失函数,在高维映射空间中,拉近Anchor与正样本之间的距离,推远Anchor与负样本之间的距离,使得编码表示能够捕获两个域同类之间共享的信息。
(7)利用反向传播更新源域网络,动量更新目标域网络,重复训练网络,保存最优目标域网络参数及其分类结果。
在此阶段,通过源域交叉熵损失函数LCE和对比损失LCL指导源域网络学习,利用反向传播以及随机梯度下降方法更新源域网络参数;
目标域网络梯度不会反向传播,通过如下动量更新方式更新目标域网络参数:
θ=m·θ+(1-m)·ξ
其中目标域网络参数为θ,源域网络参数为ξ,m为超参数;
通过动量更新可保证源域和目标域网络的一致性,进而让目标域网络演化地更加平滑,避免目标域网络参数急剧变化导致队列中特征差异很大,破坏表示的一致性;
多次训练,直至网络收敛,保存网络在目标域样本测试效果最优的目标域网络的参数及其分类结果。下面结合仿真实验对本发明的技术效果作详细的说明:
(1)仿真实验条件:
本发明的仿真实验的硬件平台为:NVIDIA GeForce 3090和Intel(R)Core(TM)i9-10900X [email protected]
本发明的仿真实验的软件平台为:操作***Ubuntu18.06、Python 3.7和Pytorch1.12。
本发明仿真实验所使用的数据集包括Houston2013-LiDAR和Houston 2018-LiDAR图像数据,二者都是高光谱图像和其对应的激光雷达图像。Houston2013和Houston 2018是由不同传感器获取的不同时间的休斯敦大学校园及其附近场景的高光谱图像。Houston2013图像数据由349×1905个像素组成,包含144个光谱波段,波长范围为380-1050nm,影像空间分辨率为2.5m。Houston2018图像数据与Houston2013图像数据波长范围相同但仅包含48个光谱波段,图像的空间分辨率为1m。二者场景中有七种相同类别的地物。从与Houston2018图像数据的场景相对应的Houston 2013图像数据的场景中提取48个光谱波段(波长范围0.38-1.05um),选取重叠区域,区域大小为209×955。选择Houston2013-LiDAR图像数据作为源域数据,选择Houston2018-LiDAR图像数据作为目标域数据。样本的类别和数量列于表1。
表1源域和目标域数据样本数量
(2)实验内容与结果分析
为了验证所提出的方法的有效性。我们选择了三种广泛使用的跨域遥感图像分类方法,包括DeepCoral、DAAN、和DSAN。分别对输入的Houston2013-LiDAR和Houston 2018-LiDAR图像数据进行跨域遥感图像分类,获得最终的目标域遥感图像分类结果图。
本发明用到的现有的技术对比跨域遥感图像分类方法是指:
现有技术DeepCoral跨域遥感图像分类方法是指,Sun等人在文献“Deep CORAL:Correlation Alignment for Deep Domain Adaptation.In:Hua,G.,Jégou,H.(eds)Computer Vision–ECCV 2016Workshops.ECCV 2016.Lecture Notes in ComputerScience(),vol 9915.Springer,Cham.”中提出的跨域遥感图像分类方法。
现有技术DAAN跨域遥感图像分类方法是指,Yu等人在文献“Transfer Learningwith Dynamic Adversarial Adaptation Network,2019 IEEE InternationalConference on Data Mining(ICDM),Beijing,China,2019,pp.778-786.”中提出的跨域遥感图像分类方法。
现有技术DSAN跨域遥感图像分类方法是指,Zhu等人在文献“Deep SubdomainAdaptation Network for Image Classification,"in IEEE Transactions on NeuralNetworks and Learning Systems,vol.32,no.4,pp.1713-1722,April 2021.”中提出的跨域遥感图像分类方法。
利用两个评价指标(总精度OA、卡方系数Kappa)分别对四种方法获得的目标域图像分类结果进行客观评价。总精度OA表示正确分类的样本占总样本的比例,OA值越接近1,说明检测精度越高;卡方系数Kappa表征得到的结果与参考图的一致性,Kappa值越接近1,说明方法性能越好。把统计到的各种评价指标的值绘制成表2。
表2本发明与现有发明对Houston2013-LiDAR和Houston 2018-LiDAR图像数据进行跨域遥感图像分类得到的目标域遥感图像分类结果定量分析表
DeepCoral DAAN DSAN Proposed
OA 52.30 53.27 57.75 67.76
Kappa 33.94 35.81 39.30 53.46
结合表2可以看出,本发明的总精度OA达到67.76%,Kappa值达到53.46,相比于当前所列对比方法中效果最好的(DSAN)分别提高了10.01%和14.16,均显著高于现有技术方法,证明本发明可有效提高目标域遥感图像分类精度。图4(b)为本发明所提方法得到的目标域遥感图像分类结果图,图4(a)为其真实标签图。
以上仿真实验表明,本发明提供的一种基于对比学习的跨域多模态遥感图像分类方法,实现了目标域无监督遥感图像分类,将对比学习融入跨域训练中,有效减小了源域和目标域的域间差异,有效提高了目标域遥感图像分类精度。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,包括以下步骤:
S101:预训练阶段,首先输入待分类的源域高光谱和源域激光雷达图像数据,对源域数据进行数据预处理;
S102:使用卷积层提取预处理后源域数据的特征,并将特征展平后拼接,得到源域融合特征;
S103:将源域融合特征输入分类器,得到分类结果,重复S102至S103,多次训练网络,保存源域网络最优参数;
S104:跨域对比学习阶段,首先重新输入源域高光谱和源域激光雷达图像数据,输入目标域高光谱和目标域激光雷达图像数据,对数据进行预处理;将所述源域网络最优参数作为此阶段源域网络和目标域网络的初始参数,初始化目标域对应各个类别的特征队列;
S105:使用卷积层提取S104中预处理后的源域和目标域数据的特征,分别展平并拼接源域和目标域特征,得到源域融合特征和目标域融合特征;
S106:将源域融合特征和目标域融合特征输入分类器和映射器,得到源域和目标域分类结果以及高维特征,根据目标域的分类结果更新S104的特征队列,同时进行对比学习;
S107:反向传播更新源域网络,动量更新目标域网络,重复S104至S107,保存最优目标域网络的参数及其分类结果。
2.根据权利要求1所述的一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,所述步骤S101具体为:
预训练阶段,首先对输入的源域高光谱和源域激光雷达图像数据进行均值方差标准化得到源域高光谱图像HS和源域激光雷达图像LS,分别通过以下两式获得:
其中H'S为未进行标准化的源域高光谱图像,为源域高光谱图像的平均值,/>为源域高光谱图像的标准差;
L'S为未进行标准化的源域激光雷达图像,为源域激光雷达图像的平均值,/>为源域激光雷达图像的标准差;
分别对源域高光谱图像HS和源域激光雷达图像LS进行边缘填充,以填充前各个像素点为中心,构建一一对应的源域高光谱图像块和源域激光雷达图像块;
接下来,从带标签的对应的源域高光谱图像块和源域激光雷达图像块中根据中心像素点类别从每个类别随机选取200对作为训练集,余下的作为测试集。
3.根据权利要求1所述的一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,所述步骤S102具体为:
在源域网络中,高光谱图像处理分支和激光雷达图像处理分支分别应用两层卷积层进行特征提取;
假设源域高光谱图像块尺寸为C×11×11,其中C为高光谱图像块的通道数,构建卷积核大小为64×3×3,步长为2,填充为1以及卷积核大小为32×3×3,步长为2,填充为1的两层卷积层,每一层输出后输入激活函数ReLU,最后得到源域高光谱图像特征/>其尺寸为32×3×3;
假设源域激光雷达图像块尺寸为1×11×11,构建卷积核大小为16×3×3,步长为2,填充为1和卷积核大小为32×3×3,步长为2,填充为1的两层卷积层,每一层输出后输入激活函数ReLU,最后得到源域激光雷达图像特征/>其尺寸为32×3×3;
将卷积得到的源域高光谱图像特征和源域激光雷达图像特征/>在通道维保持不变的条件下,对特征进行展平,即得到尺寸大小为32×9的源域高光谱图像特征/>和尺寸大小32×9的源域激光雷达图像特征/>
将所得源域高光谱图像特征和源域激光雷达图像特征/>在通道维进行拼接融合,得到源域融合特征/>其尺寸大小为64×9。
4.根据权利要求1所述的一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,所述步骤S103具体如下:
选择由线性层、批归一化层和ReLu层组成的网络作为分类器,分类器的最后一层为线性层,其输出通道数为地物类别数;假设输出为YS,真实标签为YS,得交叉熵损失如下:
其中M为类别的数量;yic是符号函数(0或者1),如果样本i的真实类别等于c取1,否则取0;PS为YS经Softmax函数得到的预测样本的概率向量;为观测样本i属于类别c的预测概率;
通过交叉熵损失函数有监督地指导网络学习,利用反向传播以及随机梯度下降方法更新源域网络参数,保存在源域测试集上表现最优的源域网络参数。
5.根据权利要求1所述的一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,所述步骤S104具体步骤如下:
在跨域对比学习阶段,源域数据的预处理同前文预训练阶段所述一致,对输入的目标域高光谱图像和目标域激光雷达图像进行均值方差标准化得到目标域高光谱图像HT和目标域激光雷达图像LT,通过下两式获得:
其中H'T为未进行标准化的目标域高光谱图像,为目标域高光谱图像的平均值,/>为目标域高光谱图像的标准差;
L'T为未进行标准化的目标域激光雷达图像,为目标域激光雷达图像的平均值,/>为目标域激光雷达图像的标准差;
然后分别对目标域高光谱图像HT和目标域激光雷达图像LT进行边缘填充,以填充前各个像素点为中心,构建一一对应的目标域高光谱图像块和目标域激光雷达图像块;目标域数据没有真实标签,不用划分训练集和测试集,直接拿所有样本进行训练;
加载S103所保存的源域网络最优参数作为后续训练中源域网络和目标域网络的初始参数。
6.根据权利要求5所述的一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,目标域数据每个类别设置一个容量为K的队列用以存储相应的特征,为后续计算对比学习损失值提供数据;使用初始化后的目标域网络,对目标域所有样本进行测试,将分类器输出经Softmax函数后得到的概率向量最大值的索引值作为伪标签,若伪标签的置信度大于设定的阈值,则会根据伪标签将映射器输出的对应的特征纳入对应类别的队列中,完成所有测试,就得到了各个类别的初始特征队列。
7.根据权利要求1所述的一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,所述步骤S105具体如下:
跨域对比学习阶段,源域和目标域网络的结构是完全一致的,所以提取特征所用的卷积核是一致的,其参数与预训练阶段源域卷积核参数一致,可得提取到的目标域高光谱图像特征和目标域激光雷达图像特征/>的尺寸为32×3×3和32×3×3;
目标域展平拼接操作与源域是一致的,都是在通道维进行拼接,可得此阶段的源域融合特征和目标域融合特征/>其尺寸大小均为64×9。
8.根据权利要求1所述的一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,所述步骤S106具体如下:
在此阶段,目标域网络采用与源域网络相同的由线性层、批归一化层和ReLu层组成的网络作为分类器,分类器的最后一层为线性层,其输出通道数为地物类别数,但目标域数据因为是没有真实标签的,所以不需要计算目标域交叉熵损失,仅需计算源域交叉熵损失,此阶段源域交叉熵损失计算与预训练阶段计算方式一致;
此阶段源域和目标域网络都采用由线性层、批归一化层和ReLu层组成的网络作为映射器,映射器将特征映射到高维空间,特征队列会根据目标域网络分类结果存储映射器输出的对应的高维特征并且出列一些较早的特征。
9.根据权利要求8所述的一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,根据源域当前样本的真实标签,选择目标域对应类别的特征队列,对该队列所有特征求均值得到一个高维特征,将源域样本经映射器输出的对应高维特征视为该高维特征的正样本,其他类别对应的特征队列中的高维特征均视为其负样本,对比损失利用InFoNCE损失函数进行计算,如下式所示:
其中q为对应队列所求得均值后的高维特征,k+为源域样本的高维特征,N为所有样本的数量(含正负样本),τ为温度超参数。
10.根据权利要求1所述的一种基于对比学习的跨域多模态遥感图像分类方法,其特征在于,所述步骤S107具体如下:
在此阶段,通过源域交叉熵损失函数LCE和对比损失LCL指导源域网络学习,利用反向传播以及随机梯度下降方法更新源域网络参数;
目标域网络梯度不会反向传播,通过如下动量更新方式更新目标域网络参数:
θ=m·θ+(1-m)·ξ
其中目标域网络参数为θ,源域网络参数为ξ,m为超参数;
多次训练,直至网络收敛,保存在目标域样本测试效果最优的目标域网络的参数及其分类结果。
CN202310959584.4A 2023-08-01 2023-08-01 一种基于对比学习的跨域多模态遥感图像分类方法 Pending CN116912595A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310959584.4A CN116912595A (zh) 2023-08-01 2023-08-01 一种基于对比学习的跨域多模态遥感图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310959584.4A CN116912595A (zh) 2023-08-01 2023-08-01 一种基于对比学习的跨域多模态遥感图像分类方法

Publications (1)

Publication Number Publication Date
CN116912595A true CN116912595A (zh) 2023-10-20

Family

ID=88362931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310959584.4A Pending CN116912595A (zh) 2023-08-01 2023-08-01 一种基于对比学习的跨域多模态遥感图像分类方法

Country Status (1)

Country Link
CN (1) CN116912595A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252274A (zh) * 2023-11-17 2023-12-19 北京理工大学 一种文本音频图像对比学习方法、装置和存储介质
CN118247668A (zh) * 2024-05-24 2024-06-25 安徽大学 一种基于扩散模型的高光谱图像多源域域自适应分类方法
CN118247668B (zh) * 2024-05-24 2024-07-30 安徽大学 一种基于扩散模型的高光谱图像多源域域自适应分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252274A (zh) * 2023-11-17 2023-12-19 北京理工大学 一种文本音频图像对比学习方法、装置和存储介质
CN117252274B (zh) * 2023-11-17 2024-01-30 北京理工大学 一种文本音频图像对比学习方法、装置和存储介质
CN118247668A (zh) * 2024-05-24 2024-06-25 安徽大学 一种基于扩散模型的高光谱图像多源域域自适应分类方法
CN118247668B (zh) * 2024-05-24 2024-07-30 安徽大学 一种基于扩散模型的高光谱图像多源域域自适应分类方法

Similar Documents

Publication Publication Date Title
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN112380952B (zh) 基于人工智能的电力设备红外图像实时检测及识别方法
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN110084281B (zh) 图像生成方法、神经网络的压缩方法及相关装置、设备
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
Dhurandhar et al. Improving simple models with confidence profiles
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN110348384B (zh) 一种基于特征融合的小目标车辆属性识别方法
US20200143209A1 (en) Task dependent adaptive metric for classifying pieces of data
CN114092793B (zh) 适用于复杂水下环境的端到端生物目标检测方法
CN116912595A (zh) 一种基于对比学习的跨域多模态遥感图像分类方法
CN116403058A (zh) 一种遥感跨场景多光谱激光雷达点云分类方法
CN115965968A (zh) 基于知识引导的小样本目标检测识别方法
Alsanad et al. Real-time fuel truck detection algorithm based on deep convolutional neural network
CN117152606A (zh) 一种基于置信度动态学习的遥感图像跨域小样本分类方法
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
Li et al. Gadet: A geometry-aware x-ray prohibited items detector
Tian et al. SAR object classification using the DAE with a modified triplet restriction
Fan et al. ACD‐YOLO: Improved YOLOv5‐based method for steel surface defects detection
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
CN113705489B (zh) 基于先验区域知识指导的遥感影像细粒度飞机识别方法
Hesham et al. PIX2PT map for transfer-based few-shot learning
Tang et al. Small insulator target detection based on multi‐feature fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination