CN115439710A - 基于组合迁移学习的遥感样本标注方法 - Google Patents

基于组合迁移学习的遥感样本标注方法 Download PDF

Info

Publication number
CN115439710A
CN115439710A CN202211015537.6A CN202211015537A CN115439710A CN 115439710 A CN115439710 A CN 115439710A CN 202211015537 A CN202211015537 A CN 202211015537A CN 115439710 A CN115439710 A CN 115439710A
Authority
CN
China
Prior art keywords
sample set
domain sample
source domain
target domain
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211015537.6A
Other languages
English (en)
Inventor
陈婷
刘仕琪
李洁
邹圣兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuhui Spatiotemporal Information Technology Co ltd
Original Assignee
Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuhui Spatiotemporal Information Technology Co ltd filed Critical Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority to CN202211015537.6A priority Critical patent/CN115439710A/zh
Publication of CN115439710A publication Critical patent/CN115439710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于组合迁移学***衡,并保存源域样本集中的特征和标签之间的内在关系;利用第二迁移方法对源域样本集的特征和目标域样本集的特征进行适配,得到源域样本集和目标域样本集的新特征表示;根据目标域样本集的新特征表示和源域样本集中的特征和标签之间的内在关系得到目标域样本集的标签。本发明能减小源域和目标域的分布差异,并缓解在迁移时导致的数据扭曲过大的问题,能得到较好的标注结果。

Description

基于组合迁移学习的遥感样本标注方法
技术领域
本发明涉及遥感图像分类技术,具体涉及一种基于组合迁移学习的遥感样本标注方法。
背景技术
遥感技术目前被广泛应用于地学应用中,如森林资源规划、农作物估产、环境评估、灾害监测等。遥感图像分类技术是把遥感图像从数据转换为信息的关键步骤。
在遥感图像分类中最常用的是监督分类方法。监督分类方法,需要人工确定分类体系、各个类别的训练样本(即训练样本的标签信息)等。监督分类方法能够保证获得比较好的分类精度,但是获取训练样本是一个耗时耗力的过程。
在常规模式下,遥感卫星对某一特定地区会按照一定的重返周期进行成像,形成一系列时间序列的遥感图像。如果对每个新获取的遥感图像进行样本采集标注,操作繁琐且人工成本太大。因而,研究如何利用前期时相的遥感图像及其样本标注信息对新获取的遥感图像进行分类具有一定的实际价值。
由于遥感图像的特性,基于特征的迁移方法(迁移学习方法中的一种)应用在遥感样本上时往往无法达到很好的效果,通常会丢失乃至削弱源域和目标域自身的一些重要性质,如源域和目标域之间类别的差异性、数据扭曲过大导致影响目标域样本的标注结果。
因此,需要一种新的遥感样本标注方法,以解决上述问题。
发明内容
基于上述技术问题,本发明提供一种基于组合迁移学***衡,减小源域和目标域的分布差异,并缓解在迁移时导致的数据扭曲过大的问题,得到较好的标注结果。
为达到上述技术目的,本发明提供一种基于组合迁移学习的遥感样本标注方法,包括:
S1获取源域样本集和目标域样本集;
S2构建迁移学习模型,迁移学习模型采用组合迁移方法构建,组合迁移方法包括第一迁移方法和第二迁移方法;
S3将源域样本集和目标域样本集输入迁移学***衡,并保存源域样本集中的特征和标签之间的内在关系;
S4利用第二迁移方法对源域样本集的特征和目标域样本集的特征进行适配,得到源域样本集的新特征表示和目标域样本集的新特征表示;
S5根据目标域样本集的新特征表示和源域样本集中的特征和标签之间的内在关系得到目标域样本集的标签。
于本发明一具体实施例中,步骤S4包括:
S41根据源域样本集的特征和目标域样本集的特征分别得到源域样本集的特征张量和目标域样本集的特征张量,通过源域样本集的特征张量和目标域样本集的特征张量进行学习得到共享特征空间;
S42将源域样本集和目标域样本集对齐到共享特征空间;
S43根据迁移学习模型的目标函数得到共享特征空间中源域样本集的新特征表示和目标域样本集的新特征表示。
于本发明一具体实施例中,迁移学习模型包括目标函数,目标函数包括第一优化项、第二优化项和第三优化项:
Figure BDA0003811017560000021
其中,X为特征空间,Y为标签空间,s指源域样本集,t指目标域样本集,s→t指源域按类别分布进行均衡,P是样本集的数据分布,H为源域样本集和目标域样本集的共享特征空间,f为源域样本集的特征映射到共享特征空间中的映射函数,f-1为f的近似逆函数,k为目标域样本集的特征映射到共享特征空间中的映射函数,k-1为k的近似逆函数。
于本发明一具体实施例中,第一优化项
Figure BDA0003811017560000022
为优化源域样本集和目标域样本集的类平衡以及源域样本集中特征和标签的内在关系;
第二优化项
Figure BDA0003811017560000023
为优化共享特征空间中源域样本集的新特征表示;
第三优化项
Figure BDA0003811017560000031
为优化共享特征空间中目标域样本集的新特征表示。
于本发明一具体实施例中,步骤S42包括:
基于源域样本集、目标域样本集分别对齐共享特征空间的过程构建似然函数:
Figure BDA0003811017560000032
其中,f为源域样本集的特征映射到共享特征空间中的映射函数,f-1为f的近似逆函数,k为目标域样本集的特征映射到共享特征空间中的映射函数,k-1为k的近似逆函数,F为Frobenius范数,χs是源域样本集的特征张量,χt是目标域样本集的特征张量;
构建第一对齐矩阵集和第二对齐矩阵集,以及共享特征空间下源域样本集和目标域样本集的特征核心张量;
利用第一对齐矩阵集、第二对齐矩阵集、特征核心张量和似然函数,将源域样本集和目标域样本集对齐到共享特征空间。
于本发明一具体实施例中,步骤S43包括:
根据最大似然估算法,通过最小化似然函数,优化迁移学习模型的目标函数;
基于优化后的迁移学习模型的目标函数,得到共享特征空间下的源域样本集的新特征表示和目标域样本集的新特征表示。
于本发明一具体实施例中,迁移学习模型的目标函数还包括第四优化项:
Figure BDA0003811017560000033
其中,第四优化项
Figure BDA0003811017560000034
为优化共享特征空间下目标域样本集的标签。
于本发明一具体实施例中,步骤S3包括:
将源域样本集和目标域样本集输入迁移学习模型;
通过迁移学***衡;
基于希尔伯特-施密特独立性准则度量源域样本集中特征和标签之间的相关性;
根据度量结果获取并保存类平衡下的源域样本集的特征和标签之间的内在关系。
于本发明一具体实施例中,随机过采样算法包括:
将源域样本集和目标域样本集组成数据集;
将数据集的特征映射在重构核希尔伯特空间中,将数据集的标签映射为核格拉姆矩阵;
根据随机过采样方法随机迭代的过采样源域样本和目标域样本,保持源域和目标域不同类别的样本数比例均衡;
其中,随机过采样方法表示为:
Figure BDA0003811017560000041
l(·)是损失函数,
Figure BDA0003811017560000042
表示源域样本集和目标域样本集c类别中的第i个样本的特征映射为核格拉姆矩阵,
Figure BDA0003811017560000043
表示源域样本集和目标域样本集c类别中的第i个样本的标签映射为核格拉姆矩阵,目标域样本集的标签用伪标签表示,ns和nt分别表示源域样本集和目标域样本集的样本数,
Figure BDA0003811017560000045
是源域样本集中属于c类别的样本数,
Figure BDA0003811017560000046
是目标域样本集中属于c类别的样本数,θ为权衡参数。
于本发明一具体实施例中,所述希尔伯特-施密特独立性准则为:
Figure BDA0003811017560000044
其中,Xs为源域样本集的特征,Ys为源域样本集的标签,λ是HSIC的权衡参数,Ns是源域样本集的样本数,Ks是源域样本集的特征映射在重构核希尔伯特空间的核格拉姆矩阵,Bs是源域样本集的标签映射在重构核希尔伯特空间的核格拉姆矩阵,E是均值为0的一个中心矩阵。
本发明的有益效果为:提供一种基于组合迁移学***衡,同时保存源域样本集中的特征和标签之间的内在关系,通过第二迁移方法基于特征张量得到共享特征空间,令源域样本集和目标域样本集同时对齐到共享特征空间,得到源域样本集和目标域样本集的新特征表示,根据目标域样本集的新特征表示和保存的源域样本集中特征和标签之间的内在关系得到目标域样本集的标签。该标注方法通过控制源域样本集和目标域样本集的类平衡,减小源域和目标域的类的分布差异,保存源域样本集中特征和标签的内在关系,并让源域样本集和目标域样本集同时对齐共享特征空间,缓解在迁移时数据扭曲过大的问题,该方法在充分利用包含丰富先验知识的源域样本集时,能保证迁移学习的有效性,得到较好的标注结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于组合迁移学习的遥感样本标注的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
请参阅图1,本发明提供一种基于组合迁移学习的遥感样本标注方法,该方法包括:
S1获取源域样本集和目标域样本集;
S2构建迁移学习模型,迁移学习模型采用组合迁移方法构建,组合迁移方法包括第一迁移方法和第二迁移方法;
S3将源域样本集和目标域样本集输入迁移学***衡,并保存源域样本集中的特征和标签之间的内在关系;
S4利用第二迁移方法对源域样本集的特征和目标域样本集的特征进行适配,得到源域样本集的新特征表示和目标域样本集的新特征表示;
S5根据目标域样本集的新特征表示和源域样本集中的特征和标签之间的内在关系得到目标域样本集的标签。
需要说明的是,迁移学习有两个重要的概念,域和任务,域分为源域和目标域,每个特定的域由两部分组成:特征空间和边缘概率分布,在一个特定域中,任务由标签空间和预测函数组成。迁移学习是通过迁移具有相似性的旧领域的信息(即源域的遥感图像及其样本标注信息)对新领域(即目标域的遥感图像及其样本标注信息)进行学习的一种框架。迁移学习方法主要包括基于实例的迁移学习、基于特征的迁移学习、基于模型的迁移学习和基于关系的迁移学习。基于特征的迁移学习主要是通过结合特征提取方法,将源域和目标域同时映射到一个新的公共特征空间,使它们对应的新特征表示之间的分布差异减小,提高源域与目标域的相似性。
应理解的是,迁移学习中,源域是有大量数据标注且经验完备的领域,是知识迁移的对象;目标域是需要获得知识进行标注的对象。任务:是迁移学习的目标,由标签y和标签y对应的函数f(·)构成。
本发明中源域样本集即包含标签信息的遥感图像样本集,目标域样本集即无标签的遥感图像样本集。
本发明主要思路为构建一个迁移学习模型,该模型采用组合迁移学习方法构建,该组合迁移学习方法包括第一迁移学习方法和第二迁移学习方法。
其中,本发明通过第一迁移学***衡,并保存源域样本集中的特征和标签之间的内在关系;通过第二迁移学习方法对源域样本集和目标域样本集进行基于特征适配的迁移学习,得到源域样本集和目标域样本集新的特征表示。然后通过训练的方式将源域样本集的知识迁移至目标域样本集,得到目标域样本集标注信息,进而对当前遥感图像进行分类。
本发明的迁移学习方法是基于同构特征空间和标签空间,即源域样本集和目标域样本集的特征空间和标签空间相同,但是源域样本集和目标域样本集的数据分布不同。本发明的迁移学习模型包括目标函数,目标函数包括第一优化项、第二优化项和第三优化项:
Figure BDA0003811017560000071
其中,X为特征空间,Y为标签空间,s指源域样本集,t指目标域样本集,s→t指源域按类别分布进行均衡,P是样本集的数据分布,H为源域样本集和目标域样本集的共享特征空间,f为源域样本集的特征映射到共享特征空间中的映射函数,f-1为f的近似逆函数,k为目标域样本集的特征映射到共享特征空间中的映射函数,k-1为k的近似逆函数。
由上式可知组合迁移学习的目标函数为可逆函数,即迁移的过程是可逆的。
上述目标函数包括三项,第一优化项
Figure BDA0003811017560000073
为优化源域样本集和目标域样本集的类平衡以及源域样本集中特征和标签的内在关系;
第二优化项
Figure BDA0003811017560000074
为优化共享特征空间中源域样本集的新特征表示;
第三优化项
Figure BDA0003811017560000075
为优化共享特征空间中目标域样本集的新特征表示。
需要说明的是,迁移学***衡问题。且由于遥感样本的特性,源域样本集的特征和标签之间的关系对迁移学习较为重要。
因此,本发明上述第一迁移学***衡的迁移学习方法。
步骤S3具体如下:
将源域样本集和目标域样本集输入迁移学习模型。
将有标签的源域样本集表示为Ds={(xi,yi)|i=1,...,Ns},xi∈Rd×1表示第i个源域样本的特征,yi为对应源域样本的标签。无标签的目标域样本集表示为Dt={(xi|x=1,...,Nt}。
通过迁移学***衡。
其中,随机过采样算法的步骤包括:
将源域样本集和目标域样本集组成数据集;
将数据集的特征映射在重构核希尔伯特空间中,将数据集的标签映射为核格拉姆矩阵K,如下式所示:
Figure BDA0003811017560000072
其中,K∈RN×N,N是源域样本集和目标域样本集的样本数总和,U代表重构核希尔伯特空间,
Figure BDA0003811017560000081
是将原始的源域样本集数据和目标域样本集数据映射至重构核希尔伯特空间中的非线性函数,xi和yj分别是数据集中的第i和第j个样本的特征,k(·)是核函数。
将数据集的标签映射在重构核希尔伯特空间中,数据集的标签映射为核格拉姆矩阵B,如下式所示:
Figure BDA0003811017560000082
其中,B∈RN×N,b(·)是核函数,yi和yj分别是数据集中的第i和第j个样本的标签,目标域样本集的标签用伪标签表示。
根据随机过采样方法随机迭代的过采样源域样本和目标域样本,保持源域和目标域不同类别的样本数比例均衡,随机过采样方法如下式所示:
Figure BDA0003811017560000083
其中,l(·)是损失函数,
Figure BDA0003811017560000084
表示源域样本集和目标域样本集c类别中的第i个样本的特征映射为核格拉姆矩阵,
Figure BDA0003811017560000085
表示源域样本集和目标域样本集c类别中的第i个样本的标签映射为核格拉姆矩阵,目标域样本集的标签用伪标签表示,ns和nt分别表示源域样本集和目标域样本集的样本数,
Figure BDA0003811017560000086
是源域样本集中属于c类别的样本数,
Figure BDA0003811017560000087
是目标域样本集中属于c类别的样本数,θ为权衡参数。
对于上述损失函数l(·),本发明采用平方损失,令ns+nt=N,
Figure BDA0003811017560000088
则随机过采样的过程为:随机迭代的过采样源域样本和目标域样本,保持源域和目标域不同类别的样本数比例均衡。例如,设j为第j次迭代,T为总共迭代次数,则第j次迭代过采样得到的源域和目标域样本数分别为ns×j/T和nt×j/T,源域和目标域中的每个类分别保持平衡的ns×j/(T×m)和nt×j/(T×m)个样本数。
在将源域样本集和目标域样本集保持类平衡的同时,基于希尔伯特-施密特独立性准则(HSIC)度量源域样本集的特征和标签之间的相关性,如下式所示:
Figure BDA0003811017560000089
其中,Xs为源域样本集的特征;Ys为源域样本集的标签;λ是HSIC的权衡参数;Ns是源域样本集的样本数;Ks是源域样本集的特征映射在重构核希尔伯特空间的核格拉姆矩阵;Bs是源域样本集的标签映射在重构核希尔伯特空间的核格拉姆矩阵;E是均值为0的一个中心矩阵。
HSIC的值越小,则源域样本集的特征和标签之间的依赖性越大。本发明中上述内在关系可以由源域样本集的特征和标签之间的依赖性的大小来表征。
根据度量结果(即源域样本集的特征和标签之间的相关性),获取并保存类平衡下的源域样本集的特征和标签之间的内在关系。
在基于源域样本集和目标域样本集类平衡下,本发明通过第二迁移学习方法对源域样本集和目标域样本集进行特征适配,步骤S4具体包括:
S41根据源域样本集的特征和目标域样本集的特征分别得到源域样本集的特征张量和目标域样本集的特征张量,通过源域样本集的特征张量和目标域样本集的特征张量进行学习得到共享特征空间。
S42将源域样本集和目标域样本集对齐到共享特征空间。
S43根据迁移学习模型的目标函数得到共享特征空间中源域样本集的新特征表示和目标域样本集的新特征表示。
具体步骤如下:
设源域的每一个样本
Figure BDA0003811017560000091
是K阶张量,总共Ns个源域样本堆叠为(K+1)阶张量
Figure BDA0003811017560000092
且源域样本集有标签,
Figure BDA0003811017560000093
的标签记为
Figure BDA0003811017560000094
同样的,Nt个目标域样本堆叠为(K+1)阶张量
Figure BDA0003811017560000095
其中ni=mi(i=1,2,...,K)。
将源域样本集和目标域样本集分别对齐共享特征空间进行学习。基于源域样本集、目标域样本集分别对齐共享特征空间的过程构建似然函数,公式如下式所示:
Figure BDA0003811017560000096
其中,f为源域样本集的特征映射到共享特征空间中的映射函数,f1为f的近似逆函数,k为目标域样本集的特征映射到共享特征空间中的映射函数,k-1为k的近似逆函数,F为Frobenius范数,χs是源域样本集的特征张量,χt是目标域样本集的特征张量。
构建第一对齐矩阵集
Figure BDA0003811017560000101
Figure BDA0003811017560000102
和第二对齐矩阵集
Figure BDA0003811017560000103
引入共享特征空间H={H(i)}i=1,...,K+1
Figure BDA0003811017560000104
以及在共享特征空间下源域样本集和目标域样本集的特征核心张量
Figure BDA0003811017560000105
Figure BDA0003811017560000106
表示共享特征空间第i维的维度,则式(6)可表示为:
Figure BDA0003811017560000107
Figure BDA0003811017560000108
其中,
Gs=HTM1χs=f(χs) (8)
Gt=HTM2χt=k(χt) (9)
根据上式所示,利用第一对齐矩阵集、第二对齐矩阵集、特征核心张量和似然函数,将源域样本集和目标域样本集的数据对齐到共享特征空间。
在将源域样本集和目标域样本集同时对齐到共享特征空间后,可得到源域样本集的新特征表示和目标域样本集的新特征表示,如下式所示:
Figure BDA0003811017560000109
假设从源域映射到共享特征空间的概率分布为P(h|xs)=δ(f(xs)-h),假设恢复逆分布为P(x|h)=N((f-1(xs));h,1),可得到下式:
Figure BDA00038110175600001010
那么:
Figure BDA00038110175600001011
由上述概率分布的推导过程可知,通过式(6)优化式(1),根据最大似然估算法,通过最小化似然函数,优化迁移学习模型的目标函数,当式(6)的似然函数下降,则式(1)中的
Figure BDA00038110175600001012
将被抬升。
基于优化后的迁移学习模型的目标函数,得到共享特征空间下的源域样本集的新特征表示和目标域样本集的新特征表示X′s和X′t。根据源域样本集中特征和标签的内在关系,得到目标域样本集的标签,即目标域样本集的标注信息。
组合迁移学习方法的目标函数还可以包括一项第四优化项,如下式所示:
Figure BDA0003811017560000111
第四优化项
Figure BDA0003811017560000112
为优化共享特征空间下目标域样本集的标签,该项是基于源域样本集的特征和标签的内在关系进行优化,能提高目标域样本集的标注准确度。
本发明的有益效果为:提供一种基于组合迁移学***衡,同时保存源域样本集中的特征和标签之间的内在关系,第二迁移方法基于特征张量得到共享特征空间,令源域样本集和目标域样本集同时对齐共享特征空间,得到源域样本集和目标域样本集的新特征表示,根据目标域样本集的新特征表示和保存的源域样本集中特征和标签之间的内在关系得到目标域样本集的标签。该标注方法通过控制源域样本集和目标域样本集的类平衡,减小源域和目标域的类的分布差异,保存源域样本集中特征和标签的内在关系,并让源域样本集和目标域样本集同时对齐共享特征空间,缓解在迁移时数据扭曲过大的问题,该方法在充分利用包含丰富先验知识的源域样本集时,能保证迁移学习的有效性,得到较好的标注结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于组合迁移学习的遥感样本标注方法,其特征在于,包括:
S1获取源域样本集和目标域样本集;
S2构建迁移学习模型,迁移学习模型采用组合迁移方法构建,组合迁移方法包括第一迁移方法和第二迁移方法;
S3将源域样本集和目标域样本集输入迁移学***衡,并保存源域样本集中的特征和标签之间的内在关系;
S4利用第二迁移方法对源域样本集的特征和目标域样本集的特征进行适配,得到源域样本集的新特征表示和目标域样本集的新特征表示;
S5根据目标域样本集的新特征表示和源域样本集中的特征和标签之间的内在关系得到目标域样本集的标签。
2.根据权利要求1所述的基于组合迁移学习的遥感样本标注方法,其特征在于,步骤S4包括:
S41根据源域样本集的特征和目标域样本集的特征分别得到源域样本集的特征张量和目标域样本集的特征张量,通过源域样本集的特征张量和目标域样本集的特征张量进行学习得到共享特征空间;
S42将源域样本集和目标域样本集对齐到共享特征空间;
S43根据迁移学习模型的目标函数得到共享特征空间中源域样本集的新特征表示和目标域样本集的新特征表示。
3.根据权利要求2所述的基于组合迁移学习的遥感样本标注方法,其特征在于,迁移学习模型包括目标函数,目标函数包括第一优化项、第二优化项和第三优化项:
Figure FDA0003811017550000011
其中,X为特征空间,Y为标签空间,s指源域样本集,t指目标域样本集,s→t指源域按类别分布进行均衡,P是样本集的数据分布,H为源域样本集和目标域样本集的共享特征空间,f为源域样本集的特征映射到共享特征空间中的映射函数,f-1为f的近似逆函数,k为目标域样本集的特征映射到共享特征空间中的映射函数,k-1为k的近似逆函数。
4.根据权利要求3所述的基于组合迁移学***衡以及源域样本集中特征和标签的内在关系;
第二优化项
Figure FDA0003811017550000023
为优化共享特征空间中源域样本集的新特征表示;
第三优化项
Figure FDA0003811017550000024
为优化共享特征空间中目标域样本集的新特征表示。
5.根据权利要求3的所述基于组合迁移学习的遥感样本标注方法,其特征在于,步骤S42包括:
基于源域样本集、目标域样本集分别对齐共享特征空间的过程构建似然函数:
Figure FDA0003811017550000021
其中,f为源域样本集的特征映射到共享特征空间中的映射函数,f-1为f的近似逆函数,k为目标域样本集的特征映射到共享特征空间中的映射函数,k-1为k的近似逆函数,F为Frobenius范数,χs是源域样本集的特征张量,χt是目标域样本集的特征张量;
构建第一对齐矩阵集和第二对齐矩阵集,以及共享特征空间下源域样本集和目标域样本集的特征核心张量;
利用第一对齐矩阵集、第二对齐矩阵集、特征核心张量和似然函数,将源域样本集和目标域样本集对齐到共享特征空间。
6.根据权利要求3所述的基于组合迁移学习的遥感样本标注方法,其特征在于,步骤S43包括:
根据最大似然估算法,通过最小化似然函数,优化迁移学习模型的目标函数;
基于优化后的迁移学习模型的目标函数,得到共享特征空间下的源域样本集的新特征表示和目标域样本集的新特征表示。
7.根据权利要求4所述的基于组合迁移学习的遥感样本标注方法,其特征在于,迁移学习模型的目标函数还包括第四优化项:
Figure FDA0003811017550000031
其中,第四优化项
Figure FDA0003811017550000033
为优化共享特征空间下目标域样本集的标签。
8.根据权利要求1所述的基于组合迁移学习的遥感样本标注方法,其特征在于,步骤S3包括:
将源域样本集和目标域样本集输入迁移学习模型;
通过迁移学***衡;
基于希尔伯特-施密特独立性准则度量源域样本集中特征和标签之间的相关性;
根据度量结果获取并保存类平衡下的源域样本集的特征和标签之间的内在关系。
9.根据权利要求8所述的基于组合迁移学习的遥感样本标注方法,其特征在于,随机过采样算法包括:
将源域样本集和目标域样本集组成数据集;
将数据集的特征映射在重构核希尔伯特空间中,将数据集的标签映射为核格拉姆矩阵;
根据随机过采样方法随机迭代的过采样源域样本和目标域样本,保持源域和目标域不同类别的样本数比例均衡;
其中,随机过采样方法表示为:
Figure FDA0003811017550000032
l(·)是损失函数,
Figure FDA0003811017550000034
表示源域样本集和目标域样本集c类别中的第i个样本的特征映射为核格拉姆矩阵,
Figure FDA0003811017550000035
表示源域样本集和目标域样本集c类别中的第i个样本的标签映射为核格拉姆矩阵,目标域样本集的标签用伪标签表示,ns和nt分别表示源域样本集和目标域样本集的样本数,
Figure FDA0003811017550000042
是源域样本集中属于c类别的样本数,
Figure FDA0003811017550000043
是目标域样本集中属于c类别的样本数,θ为权衡参数。
10.根据权利要求8的基于组合迁移学习的遥感样本标注方法,其特征在于,所述希尔伯特-施密特独立性准则为:
Figure FDA0003811017550000041
其中,Xs为源域样本集的特征,Ys为源域样本集的标签,λ是HSIC的权衡参数,Ns是源域样本集的样本数,Ks是源域样本集的特征映射在重构核希尔伯特空间的核格拉姆矩阵,Bs是源域样本集的标签映射在重构核希尔伯特空间的核格拉姆矩阵,E是均值为0的一个中心矩阵。
CN202211015537.6A 2022-08-23 2022-08-23 基于组合迁移学习的遥感样本标注方法 Pending CN115439710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211015537.6A CN115439710A (zh) 2022-08-23 2022-08-23 基于组合迁移学习的遥感样本标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211015537.6A CN115439710A (zh) 2022-08-23 2022-08-23 基于组合迁移学习的遥感样本标注方法

Publications (1)

Publication Number Publication Date
CN115439710A true CN115439710A (zh) 2022-12-06

Family

ID=84245493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211015537.6A Pending CN115439710A (zh) 2022-08-23 2022-08-23 基于组合迁移学习的遥感样本标注方法

Country Status (1)

Country Link
CN (1) CN115439710A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116206154A (zh) * 2023-02-17 2023-06-02 北京科技大学 一种非常见工况下的污水处理过程的故障分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116206154A (zh) * 2023-02-17 2023-06-02 北京科技大学 一种非常见工况下的污水处理过程的故障分类方法
CN116206154B (zh) * 2023-02-17 2024-02-13 北京科技大学 一种非常见工况下的污水处理过程的故障分类方法

Similar Documents

Publication Publication Date Title
WO2021121127A1 (zh) 样本类别识别方法、装置、计算机设备及存储介质
CN111724083B (zh) 金融风险识别模型的训练方法、装置、计算机设备及介质
Gao et al. SAR image change detection based on multiscale capsule network
CN110210545B (zh) 基于迁移学习的红外遥感水体分类器构建方法
CN111275092B (zh) 一种基于无监督域适应的图像分类方法
CN111476315B (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN107256271A (zh) 基于映射字典学习的跨模态哈希检索方法
CN105608478B (zh) 一种图像的特征提取与分类联合方法及***
WO2022218396A1 (zh) 图像处理方法、装置和计算机可读存储介质
CN110717513B (zh) 一种基于多分类器的零样本深海生物图片分类方法
CN107766895B (zh) 一种诱导式非负投影半监督数据分类方法及***
CN115439710A (zh) 基于组合迁移学习的遥感样本标注方法
CN110705384B (zh) 一种基于跨域迁移增强表示的车辆再识别方法
Chen et al. Sparsity-regularized feature selection for multi-class remote sensing image classification
CN109657693B (zh) 一种基于相关熵和迁移学习的分类方法
CN114255381A (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
Wang et al. Extended local tangent space alignment for classification
Wang et al. Semi-supervised manifold alignment with few correspondences
CN116740421A (zh) 基于无监督公共子空间学习模型的遥感图像分类方法和装置
CN115861708A (zh) 一种具有自适应图扩散的低秩稀疏表示迁移学习方法
CN116028891A (zh) 一种基于多模型融合的工业异常检测模型训练方法和装置
Gao et al. A novel information transferring approach for the classification of remote sensing images
CN115100502A (zh) 一种基于标签推理的多标签图像识别算法研究
CN109919200B (zh) 一种基于张量分解和域适应的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination