CN116127123A

CN116127123A - 基于语义实例关系渐进式海洋遥感图文检索方法

Info

Publication number: CN116127123A
Application number: CN202310402626.4A
Authority: CN
Inventors: 聂婕; 郑程予; 张若愚; 李秀; 梁馨月; 黄磊; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-16
Anticipated expiration: 2043-04-17
Also published as: CN116127123B

Abstract

本发明属于图文检索技术领域，公开了基于语义实例关系渐进式海洋遥感图文检索方法，包括全局级特征提取过程和特征处理过程，在全局级特征提取过程提取海洋遥感图像的图像特征和文本特征；在特征处理过程，进行语义级、实例级和关系级特征处理，包括文本监督下原型指导的语义级特征解耦模块、原型指导的实例级特征提取模块、相似性配对定位的关系级特征解耦模块和多视角交叉相似度匹配模块，本发明分别从语义级、实例级和关系级进行特征处理，挖掘海洋遥感图文数据的有效信息和潜在信息，提高图文特征表征的可靠性，提高跨模态检索的精度。

Description

基于语义实例关系渐进式海洋遥感图文检索方法

技术领域

本发明属于图文检索技术领域，特别涉及基于语义实例关系渐进式海洋遥感图文检索方法。

背景技术

海洋遥感数据具有全天时、全天候、全方位等特点，被广泛应用于侦察监视、污染监控、目标识别、非法打捞等重要领域。海洋遥感数据跨模态检索旨在建立不同模态数据的匹配关系，通过多模态数据融合，提升海洋遥感对象表示，为其应用提供重要技术支撑。图文检索作为海洋遥感数据跨模态检索的重要手段之一，借助全面丰富的图像空间和简明扼要的文本信息，更准确、详细地表征海洋对象。

遥感图文检索利用跨模态检索算法，依据卫星遥感图像自动检索出准确描述该图像的文本数据或是依据给定的文本数据自动检索出数据库中的与之相匹配的遥感图像。遥感图文检索通过两个关键过程实现：特征工程和相似度计算，特征工程是将文本数据和图像数据转化为相应的文本特征和图像特征，其中图像特征采用卷积神经网络进行特征表征建模，文本特征采用门控循环单元算法进行提取；相似度计算主要采用余弦相似度计算方法。

目前传统方法主要面临的问题是提取有效特征困难，这是由于海洋遥感数据中冗余/背景信息较多，且目标的空间分布较为分散，在卷积过程中将各种特征逐步融合，导致有效目标会被背景噪声干扰。前沿的图文检索方法，如非对称多模态特征匹配网络（Asymmetric Multimodal Feature Matching Network，AMFMN），利用注意力机制、图卷积网络等显著性挖掘方法过滤图像和文本中的背景冗余信息，提升图文检索的匹配精度。

但是，以上方法应用于海洋中仍存在以下问题：第一，无法在前景、背景共现的海洋遥感图像上开展有效语义信息挖掘。在海洋遥感图像中，前景对象和背景的关联性极高，在大多数情况下都是伴随出现的。举例来说，海面上的货船和背景海洋通常会同时展示在一张图像中。现有方法无法在前景、背景共现的海洋遥感图像上开展有效语义信息挖掘，极大地限制了遥感图文检索匹配模型的表现。第二，无法在相似性极高的海洋遥感数据上开展细粒度的信息抽取及关联性建模。相比较于普通图像，海洋遥感数据间的相似性更高，例如，数据集中很多图像都可以被描述为“海面上停着两艘货船”。然而，如果追溯到对应的文本，可以发现这些图像并不属于同一个描述，包括“海面上有两艘货船正在并列行驶”、“海面上，有一艘货船正在以较快的速度逼近另一艘货船”等。一方面，AMFMN借助注意力机制挖掘显著特征时，相似性计算只能挖掘一些明显的语义特征，例如“货船”“海面”等信息，并不能更细粒度地将实例/对象/实体进行分离建模，从而无法探索实例本身的潜在信息，降低了特征表示的准确性和全面性。另一方面，AMFMN借助注意力机制进行相关性建模时，矩阵相乘操作只能实现特征之间的信息交换及补充，但不能挖掘特征之间存在的空间关系及序列关系。举例来说，对图像来说，AMFMN通过计算船和港口的相关关系，借助矩阵相乘实现两种语义特征的相互指导，却无法挖掘他们本身的空间关系（例如，船停在港口上）。因此，现有方法无法在相似性极高的海洋遥感数据上开展细粒度的信息抽取及关联性建模，难以实现跨模态图文信息的精准匹配。

发明内容

针对现有技术存在的不足，本发明提供基于语义实例关系渐进式海洋遥感图文检索方法，分别从语义级、实例级和关系级进行特征处理，挖掘海洋遥感图文数据的有效信息和潜在信息，提高图文特征表征的可靠性，提高跨模态检索的精度。

为了解决上述技术问题，本发明采用的技术方案是：

基于语义实例关系渐进式海洋遥感图文检索方法，包括全局级特征提取过程和特征处理过程，在全局级特征提取过程提取海洋遥感图像的图像特征和文本特征；在特征处理过程，进行语义级、实例级和关系级特征处理，包括文本监督下原型指导的语义级特征解耦模块、原型指导的实例级特征提取模块、相似性配对定位的关系级特征解耦模块和多视角交叉相似度匹配模块。

具体包括以下步骤：

S1、提取初始图像特征X和文本特征F；

S2、通过文本监督下原型指导的语义级特征解耦模块生成语义原型，由语义原型指导图文特征进行解耦，生成图像语义解耦特征和文本语义解耦特征；

S3、通过原型指导的实例级特征提取模块生成实例原型，由实例原型指导图文特征进行解耦，对步骤S2生成的图像语义解耦特征和文本语义解耦特征进行实例信息挖掘，生成图像实例解耦特征和文本实例解耦特征；

S4、通过相似性配对定位的关系级特征解耦模块首先计算相似度，挖掘步骤S3生成的实例解耦特征中有关联的实例，之后，利用最远空间位置和最远序列位置机理分别对有关联的图像和文本实例进行定位与切割，切割出来的区域即为两个实例之间的关系，最终获得图像关系解耦特征和文本关系解耦特征；

S5、通过多视角交叉相似度匹配模块进行相似性匹配，包括全局级相似度匹配、语义级相似度匹配、实例级相似度匹配和关系级相似度匹配；通过计算得到的相似度和真实相似度的差异进行反向传播。

进一步的，步骤S2中，所述文本监督下原型指导的语义级特征解耦模块包括文本监督下原型指导的语义提取单元和特征语义解耦单元，文本监督下原型指导的语义提取单元利用文本特征F生成语义原型，采用原型指导的方式，随机定义语义原型K，计算F和K之间的交叉注意力，并在训练过程中不断更新K；

所述特征语义解耦单元在获取的K的基础上，借助解耦注意力对图像和文本特征进行语义解耦信息挖掘，生成图像语义解耦特征和文本语义解耦特征。

进一步的，步骤S3中，所述原型指导的实例级特征提取模块包括原型指导的实例提取单元和特征实例解耦单元，所述原型指导的实例提取单元采用原型指导的方式，在图像语义解耦特征和文本语义解耦特征融合的多模态特征C监督下，采用交叉注意力生成实例原型，计算C和O之间的交叉注意力，并在训练过程中不断更新O；

所述特征实例解耦单元在实例原型O的基础上，应用解耦注意力对图像语义解耦特征和文本语义解耦特征实现不同实例的分开建模，进行实例信息挖掘，生成图像实例解耦特征和文本实例解耦特征。

进一步的，步骤S4中，所述相似性配对定位的关系级特征解耦模块包括实例解耦特征配对、关系定位和关系切割解耦三个过程，其中实例解耦特征配对过程是分别计算图像实例解耦特征和文本实例解耦特征中所有特征之间的余弦相似度，如果两个特征的相似度大于给定数值，就把这两个实例解耦特征配对组合；关系定位是在初始图像特征X中，对所配对的实例解耦特征所占据的最远空间位置进行定位，对文本特征F来说，定位最远序列位置；关系切割解耦的过程是按照所寻找的位置对初始图像特征X和文本特征F进行切割，获得图像和文本的关系解耦特征；

其中，实例解耦特征配对过程是计算图像余弦相似度、文本余弦相似度，若图像和文本中的实例高度相关，即大于给定数值，则将特征配对组合于特征和中，从而挖掘有关联的实例；

之后，关系定位过程是利用最远空间位置和最远序列位置机理分别对有关联的实例在原始图像特征X和文本特征F中进行两两定位，并记录位置a，g和e，h,其中a和g为相关联的两个实例所占据的最远空间的位置，e和h为相关联的两个实例所占据的最远序列的位置；

最后，关系切割解耦过程是将定位到的实例之间的区域切割出来，切割出来的区域即为两个实例之间的关系，在图像关系经过变形后，最终获得图像关系解耦特征和文本关系解耦特征。

进一步的，步骤S5中，多视角交叉相似度匹配模块包括全局级相似度匹配模块、语义级相似度匹配模块、实例级相似度匹配模块和关系级相似度匹配模块，在全局级相似度匹配模块中，计算图像特征和文本特征的相似度，在语义级相似度匹配模块中，对于每个文本查询，通过计算其与每个图像的语义级特征之间的相似度得到一个语义相似度矩阵；在实例级相似度匹配模块中，对于每个文本查询，对于其与每个图像匹配的实例进行相似度计算，从而得到一个实例相似度矩阵；在关系级相似度匹配模块中，对于每个文本查询，根据其与每个图像匹配的实例之间的关系，计算得到一个关系相似度矩阵。

进一步的，在语义级相似度匹配模块、实例级相似度匹配模块、关系级相似度匹配模块中计算得到的相似度矩阵被相加在一起，形成一个多视角交叉相似度矩阵，该多视角交叉相似度矩阵通过排序筛选出与查询最相似的图像，并将其返回给用户。

与现有技术相比，本发明优点在于：

（1）本发明能够挖掘出共现海洋遥感图像中的有效信息：本发明构建了文本监督下原型指导的语义级特征解耦模块，包含了文本监督下原型指导的语义提取单元和特征语义解耦单元，采用原型指导的方式，在文本特征监督下，采用交叉注意力生成语义特征，由于文本特征有着区分语义的能力，因此生成的语义特征可以解决共现语义统一表征的问题；这种可靠的语义特征指导图文特征进行解耦建模，能有效地挖掘出共现海洋遥感图像中的显著信息，提高了特征表示的可靠性；

（2）本发明能够更细粒度地探索出海洋遥感图、文数据的潜在信息：本发明提出原型指导的实例级特征提取模块，包括了两个过程，分别为原型指导的实例提取单元和实例解耦单元；本方法在语义解耦特征的基础上，采用原型指导的方式，计算交叉注意力生成实例特征；这种更细粒度的实例特征指导图文特征进行解耦建模，进一步探索出了图像、文本数据中的实例本身的潜在信息，提升了特征表示的判别性和准确性；

（3）本发明在更高维度上丰富海洋遥感图、文数据的表征能力：本发明设计了相似性配对定位的关系级特征解耦模块，本方法首先计算相似度挖掘有关联的实例，之后，利用最远空间/序列位置的机理对有关联的实例进行定位与切割，切割出来的区域即为两个实例之间的关系；通过挖掘数据中实例的多变、可靠关系，能在更高维度上丰富海洋遥感图、文数据的表征能力，从而可以在相似性极高的海洋数据上进一步增强特征的可识别性；

（4）在相似性匹配过程中，本发明除了在全局级进行相似度匹配外，还设计了语义级、对象级和关系级的交叉相似度匹配，增加了匹配过程的全面性，提高了跨模态检索匹配精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

本发明提供一种海洋遥感图文检索方法，具体是一种基于语义实例关系渐进式海洋遥感图文检索方法，基于AMFMN的主体架构，在特征提取部分，针对图像数据和文本数据，仍采用ResNet和GRU分别提取图像特征文本特征，这部分也称之为全局级特征提取模块。与AMFMN不同的是，在特征处理部分，本发明不采用视觉自注意力模块和视觉引导文本注意力模块全局地挖掘数据中的显著信息，而是创新性地设计了语义级、实例级和关系级特征处理的策略，包括了1）文本监督下原型指导的语义级特征解耦模块，2）原型指导的实例级特征提取模块，3）相似性配对定位的关系级特征解耦模块，此外，在相似性匹配过程中，提出了多视角交叉相似度匹配模块，除了在全局级进行相似度匹配外，增加了语义级、对象级和实例级的交叉相似度匹配，增加了匹配过程的全面性。

下面结合具体实施例介绍本发明的方法步骤及各模块。

如图1所示，本实施例提供的基于语义实例关系渐进式海洋遥感图文检索方法包括全局级特征提取过程和特征处理过程，在全局级特征提取过程提取海洋遥感图像的图像特征和文本特征；在特征处理过程，进行语义级、实例级和关系级特征处理，包括文本监督下原型指导的语义级特征解耦模块、原型指导的实例级特征提取模块、相似性配对定位的关系级特征解耦模块和多视角交叉相似度匹配模块。

具体包括以下步骤：

S1、提取初始图像特征X和文本特征F；

本实施例中图像特征的提取与处理采用CNN网络，文本特征的提取与处理采用GRU。

S2、通过文本监督下原型指导的语义级特征解耦模块生成语义原型，由语义原型指导图文特征进行解耦，生成图像语义解耦特征和文本语义解耦特征。

具体的，文本监督下原型指导的语义级特征解耦模块包括文本监督下原型指导的语义提取单元和特征语义解耦单元，文本监督下原型指导的语义提取单元利用文本特征F生成语义原型K（在文本特征F监督下，采用交叉注意力生成语义原型K），具体是：采用原型指导的方式，随机定义语义原型K，计算F和K之间的交叉注意力，并在训练过程中不断更新K；由于文本特征F有着区分语义的能力，因此生成的语义原型K可以解决共现语义统一表征的问题。

所述特征语义解耦单元在获取的语义原型K的基础上，借助解耦注意力对变形后的图像特征和文本特征F进行语义解耦信息挖掘，实现不同语义的分开建模，生成图像语义解耦特征和文本语义解耦特征，提高了特征表示的可靠性。

作为一个优选的实施方式，（1）文本监督下原型指导的语义提取单元，利用文本特征生成语义原型，文本特征F的数量为N，每个文本特征的矩阵维度为D，具体的生成过程为，随机定义一个初始语义原型为，计算和之间的交叉注意力，并在训练过程中不断更新语义原型，公式如下：

(4)；

(5)；

其中B×D为语义原型K的维度，B表示有B种语义，每个语义特征的矩阵维度与文本特征的矩阵维度相同，也为D。

其中，该文本监督下原型指导的语义提取单元基于CNN网络，，，表示CNN的参数，为文本特征和语义原型的亲和矩阵，B×N为的维度，×表示矩阵相乘操作，T表示转置操作；

作为一个优选的实施方式，（2）特征语义解耦单元，在获取的K的基础上，借助解耦注意力对图像和文本特征进行解耦信息挖掘。对图像来说，解耦注意力第一步是将图像特征变形为，其中N×D为的维度，图像特征的数量为N，每个图像特征的矩阵维度为D，然后计算和之间的亲和矩阵，其中N×B为的维度，公式如下：

(6)；

其中，该特征语义解耦单元基于CNN网络实现，和是CNN中的参数，由于表征了每一个特征和每一个语义的相似性，本实施例将该亲和矩阵按照语义将***成B个矩阵，，；其中，第b个矩阵表示图像特征和一个语义的相似性，之后经过点乘操作来实现特征的解耦，公式如下：

(7)；

其中，代表CNN中的参数，“ ”表示矩阵点乘操作，由于与维度不一致，因此，表示在第二维度扩大d倍；，为最终生成的图像语义解耦特征。

针对文本特征，本实施例采用同样测策略来生成文本语义解耦特征，，

(8)；

(9)；

其中，表示F和K之间的亲和矩阵，，，第b个矩阵表示文本特征和一个语义的相似性，，和代表CNN中的参数。

S3、通过原型指导的实例级特征提取模块生成实例原型，由实例原型指导图文特征进行解耦，对步骤S2生成的图像语义解耦特征和文本语义解耦特征进行实例信息挖掘，生成图像实例解耦特征和文本实例解耦特征。

具体的，原型指导的实例级特征提取模块的实施与文本监督下原型指导的语义级特征解耦模块类似，同样包括了两个过程，原型指导的实例级特征提取模块包括原型指导的实例提取单元和特征实例解耦单元。原型指导的实例提取单元的实施与文本监督下原型指导的语义提取单元类似，同样采用原型指导的方式，但是原型指导的实例提取单元不再利用在文本特征监督，而是在图像语义解耦特征和文本语义解耦特征融合的多模态特征C监督下，采用交叉注意力生成实例原型，计算C和O之间的交叉注意力，并在训练过程中不断更新O。

所述特征实例解耦单元在实例原型O的基础上，仍应用解耦注意力对图像语义解耦特征和文本语义解耦特征实现不同实例的分开建模，进行实例信息挖掘，生成图像实例解耦特征和文本实例解耦特征。

该原型指导的实例级特征提取模块在更细粒度的维度上探索出了图像、文本数据中的实例本身的潜在信息，提升了特征表示的判别性和准确性。

作为一个优选的实施方式，详细步骤如下：

（1）首先，将和进行元素相加作为多模态特征C，公式如下：

(10)；

其中，+表示对应元素相加，，多模态特征C的数量为N，每个多模态特征的矩阵维度为D。

（2）之后的操作与文本监督下原型指导的语义提取单元一样，随机定义一个初始实例原型，计算和之间的交叉注意力，并在训练过程中不断更新实例原型，其中Q×D为实例原型O的维度，Q表示有Q个实例，D为每个实例特征的矩阵维度，公式如下：

(11)；

(12)；

其中，为多模态特征和实例原型的亲和矩阵，×N为的维度，，，表示CNN中的参数，×表示矩阵相乘操作，T表示转置操作。

（3）特征实例解耦单元的操作仍与特征语义解耦单元相同，在获取的实例原型的基础上，借助解耦注意力对图像和文本特征进行实例信息挖掘。

(13)；

(14)；

(15)；

(16)；

其中，表示和O之间的亲和矩阵，将***成Q个矩阵，，第q个矩阵表示图像特征和一个实例的相似性，表示在第二维度扩大d倍，是其包含的所有元素的和，，为最终生成的图像实例解耦特征；

表示和O之间的亲和矩阵，将***成Q个矩阵，，第q个矩阵表示文本特征和一个实例的相似性，表示在第二维度扩大d倍，是其包含的所有元素的和，，为最终生成的文本实例解耦特征；，，，，，是CNN中的参数，“ ”表示矩阵点乘操作，×表示矩阵相乘操作，T表示转置操作。

S4、通过相似性配对定位的关系级特征解耦模块首先计算相似度，挖掘步骤S3生成的实例解耦特征中有关联的实例，之后，利用最远空间位置和最远序列位置机理分别对有关联的图像和文本实例进行定位与切割，切割出来的区域即为两个实例之间的关系，最终获得图像关系解耦特征和文本关系解耦特征。

具体的，所述相似性配对定位的关系级特征解耦模块包括实例解耦特征配对、关系定位和关系切割解耦三个过程，其中实例解耦特征配对过程是分别计算图像实例解耦特征和文本实例解耦特征中所有特征之间的余弦相似度，如果两个特征的相似度大于给定数值，就把这两个实例解耦特征配对组合；关系定位是在初始图像特征X中，对所配对的实例解耦特征所占据的最远空间位置进行定位，对文本特征F来说，定位最远序列位置；关系切割解耦的过程是按照所寻找的位置对初始图像特征X和文本特征F进行切割，获得图像和文本的关系解耦特征；

之后，关系定位过程是利用最远空间位置和最远序列位置机理分别对有关联的实例在原始图像特征和文本特征中进行两两定位，并记录位置a，b和e，h；

通过实例解耦和实例的关系解耦，可以在相似性极高的海洋遥感数据上探索更细粒度的表示以及挖掘多变、可靠的关系，丰富了特征的表示同时，进一步增强特征的可识别性。

作为一个优选的实施方式，

（1）实例解耦特征配对过程，在和的基础上，计算和中所有特征之间的余弦相似度和，如果两个特征的相似度大于给定数值，就把这两个特征配对组合，用公式表示为：

(17)；

(18)；

其中，，，，，；为中第m个特征，为中最后一个特征，为中第m个特征，为中最后一个特征，、为任意两个特征，、为中任意两个特征。

（2）之后，对图像来说，关系定位在初始图像特征X中，对所配对的实例特征所占据的最远空间的进行定位。

(19)；

其中，a和g为相关联的两个实例所占据的最远空间的位置，该公式解释为，在组合特征中，若存在相关联的实例（即，，为定义的超参），那么，寻找这些实例在初始图像特征所占据的最远空间的位置a和g。对文本来说，关系定位不是定位最远空间的位置而是最远序列位置。

(20)；

其中，e和h为相关联的两个实例所占据的最远序列的位置。

（3）关系切割解耦过程，按照所寻找的a，g和e，h对初始图像特征和文本特征进行切割，获得图像和文本的关系解耦特征和。N表示特征的数量，文本特征和图像特征数量都是N。

(21)；

(22)；

其中，表示依据，对图像特征X进行切割，，寻找到的a，g在特征X上的问位置，，为中第m个特征，为中最后一个特征，表示依据，对文本特征X进行切割，，表示寻找到的e，h在特征F上的位置；，为中第m个特征，为中最后一个特征。，最终也被卷积和变形为，参与后续的相似性匹配。

具体的，多视角交叉相似度匹配模块包括全局级相似度匹配模块、语义级相似度匹配模块、实例级相似度匹配模块和关系级相似度匹配模块，在全局级相似度匹配模块中，计算图像特征和文本特征的相似度，在语义级相似度匹配模块中，对于每个文本查询，通过计算其与每个图像的语义级特征之间的相似度得到一个语义相似度矩阵，该矩阵被用作后续的相似度匹配；在实例级相似度匹配模块中，对于每个文本查询，对于其与每个图像匹配的实例进行相似度计算，从而得到一个实例相似度矩阵，该矩阵被用作后续的相似度匹配；在关系级相似度匹配模块中，对于每个文本查询，根据其与每个图像匹配的实例之间的关系，计算得到一个关系相似度矩阵，该矩阵被用作后续的相似度匹配。

在语义级相似度匹配模块、实例级相似度匹配模块、关系级相似度匹配模块中计算得到的相似度矩阵被相加在一起，形成一个多视角交叉相似度矩阵，该多视角交叉相似度矩阵通过排序筛选出与查询最相似的图像，并将其返回给用户。

损失函数：

本发明的损失函数依旧使用AMFMN的三元组损失，与之不同的是，本发明不仅计算全局级损失，计算语义级损失、实例级损失、关系级损失，此外，由于解耦特征包含多个特征，因此表示交叉匹配。因此，总体损失函数为：

。

训练：

对于每个数据集，该方法使用 80% 的样本作为训练集，10% 的样本作为验证集，剩下的 10% 作为测试集；并使用两个评估指标 R@K(K = 1, 5, and10) 和 mR 用于评估本发明的网络模型。R@K表示出现在前10个最高相似度结果中的匹配成功的比例。实验在单个 NVIDIA Titan RTX GPU 上进行，使用 Adam 优化器对网络进行 150 个 epoch 的训练，最小批大小设置为 128。训练期间，学习率调整为 1e-4，每 20 个 epoch 学习率下降0.7。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.基于语义实例关系渐进式海洋遥感图文检索方法，其特征在于，包括全局级特征提取过程和特征处理过程，在全局级特征提取过程提取海洋遥感图像的图像特征和文本特征；在特征处理过程，进行语义级、实例级和关系级特征处理，包括文本监督下原型指导的语义级特征解耦模块、原型指导的实例级特征提取模块、相似性配对定位的关系级特征解耦模块和多视角交叉相似度匹配模块，具体包括以下步骤：

S1、提取初始图像特征X和文本特征F；

2.根据权利要求1所述的基于语义实例关系渐进式海洋遥感图文检索方法，其特征在于，步骤S2中，所述文本监督下原型指导的语义级特征解耦模块包括文本监督下原型指导的语义提取单元和特征语义解耦单元，文本监督下原型指导的语义提取单元利用文本特征F生成语义原型，采用原型指导的方式，随机定义语义原型K，计算F和K之间的交叉注意力，并在训练过程中不断更新K；

3.根据权利要求1所述的基于语义实例关系渐进式海洋遥感图文检索方法，其特征在于，步骤S3中，所述原型指导的实例级特征提取模块包括原型指导的实例提取单元和特征实例解耦单元，所述原型指导的实例提取单元采用原型指导的方式，在图像语义解耦特征和文本语义解耦特征融合的多模态特征C监督下，采用交叉注意力生成实例原型，计算C和O之间的交叉注意力，并在训练过程中不断更新O；

4.根据权利要求1所述的基于语义实例关系渐进式海洋遥感图文检索方法，其特征在于，步骤S4中，所述相似性配对定位的关系级特征解耦模块包括实例解耦特征配对、关系定位和关系切割解耦三个过程，其中实例解耦特征配对过程是分别计算图像实例解耦特征和文本实例解耦特征中所有特征之间的余弦相似度，如果两个特征的相似度大于给定数值，就把这两个实例解耦特征配对组合；关系定位是在初始图像特征X中，对所配对的实例解耦特征所占据的最远空间位置进行定位，对文本特征F来说，定位最远序列位置；关系切割解耦的过程是按照所寻找的位置对初始图像特征X和文本特征F进行切割，获得图像和文本的关系解耦特征；

之后，关系定位过程是利用最远空间位置和最远序列位置机理分别对有关联的实例在原始图像特征X和文本特征F中进行两两定位，并记录位置a，g和e，h，其中a和g为相关联的两个实例所占据的最远空间的位置，e和h为相关联的两个实例所占据的最远序列的位置；

5.根据权利要求1所述的基于语义实例关系渐进式海洋遥感图文检索方法，其特征在于，步骤S5中，多视角交叉相似度匹配模块包括全局级相似度匹配模块、语义级相似度匹配模块、实例级相似度匹配模块和关系级相似度匹配模块，在全局级相似度匹配模块中，计算图像特征和文本特征的相似度，在语义级相似度匹配模块中，对于每个文本查询，通过计算其与每个图像的语义级特征之间的相似度得到一个语义相似度矩阵；在实例级相似度匹配模块中，对于每个文本查询，对于其与每个图像匹配的实例进行相似度计算，从而得到一个实例相似度矩阵；在关系级相似度匹配模块中，对于每个文本查询，根据其与每个图像匹配的实例之间的关系，计算得到一个关系相似度矩阵。

6.根据权利要求5所述的基于语义实例关系渐进式海洋遥感图文检索方法，其特征在于，在语义级相似度匹配模块、实例级相似度匹配模块、关系级相似度匹配模块中计算得到的相似度矩阵被相加在一起，形成一个多视角交叉相似度矩阵，该多视角交叉相似度矩阵通过排序筛选出与查询最相似的图像，并将其返回给用户。