CN116109966B

CN116109966B - 一种面向遥感场景的视频大模型构建方法

Info

Publication number: CN116109966B
Application number: CN202211635612.9A
Authority: CN
Inventors: 孙显; 付琨; 于泓峰; 姚方龙; 卢宛萱; 邓楚博; 杨和明
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-06-27
Anticipated expiration: 2042-12-19
Also published as: CN116109966A

Abstract

本申请涉及计算机模型的构建技术领域，特别是涉及一种面向遥感场景的视频大模型构建方法。所述方法包括以下步骤：获取遥感图像集合A和目标视频集合B，A＝{a₁,a₂,…,a_N}，a_n为A中第n帧遥感图像，n的取值范围为1到N，N为A中遥感图像的数量；B＝{b₁,b₂,…,b_M}，b_m为B中第m个目标视频，m的取值范围为1到M，M为B中目标视频的数量，b_m＝(b_m,1,b_m,2,…,b_m,Q)，b_m,q为b_m中第q帧目标图像；利用A和B对神经网络模型进行训练，所述神经网络模型包括第一神经网络子模型和第二神经网络子模型。本发明构建了一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型。

Description

一种面向遥感场景的视频大模型构建方法

技术领域

本发明涉及计算机模型的构建技术领域，特别是涉及一种面向遥感场景的视频大模型构建方法。

背景技术

由于遥感视频具有时间和空间上的双重特征，而且遥感场景本身具有复杂的纹理背景，因此，遥感场景下的视频解译任务需要的模型需要具有较强的特征提取能力，同时要发掘视频的空间特征规律和时间特征规律。如何构建一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型，是亟待解决的问题。

发明内容

本发明目的在于，提供一种面向遥感场景的视频大模型构建方法，构建了一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型。

根据本发明，提供了一种面向遥感场景的视频大模型构建方法，包括以下步骤：

获取遥感图像集合A和目标视频集合B，A＝{a₁,a₂,…,a_N}，a_n为A中第n帧遥感图像，n的取值范围为1到N，N为A中遥感图像的数量；B＝{b₁,b₂,…,b_M}，b_m为B中第m个目标视频，m的取值范围为1到M，M为B中目标视频的数量，b_m＝(b_m,1,b_m,2,…,b_m,Q)，b_m,q为b_m中第q帧目标图像，q的取值范围为1到Q，Q为目标视频中目标图像的数量，b_m,1、b_m,2、…、b_m,Q为连续拍摄的Q帧目标图像；B中目标视频为卫星搭载遥感设备拍摄的视频或无人机搭载遥感设备拍摄的视频，所述遥感图像为卫星搭载遥感设备拍摄的图像。

利用A和B对神经网络模型进行训练，所述神经网络模型包括第一神经网络子模型和第二神经网络子模型，所述训练的过程包括：

遍历A，对a_n进行分块处理，并随机对a_n中的k*C块进行掩码处理；C为对a_n进行分块得到的块数量，k为预设掩码比例；利用掩码处理后的a_n对第一神经网络子模型进行训练，所述第一神经网络子模型为2D swin-transformer结构，所述第一神经网络子模型包括第一编码器和第一解码器。

遍历B，对b_m中的第[i_m,i_m+L]帧图像进行掩码处理，i_m+L≤Q，i_m≥1，L为预设掩码帧数量，i_m为b_m中的起始掩码帧；利用掩码处理后的b_m对第二神经网络子模型进行训练，所述第二子模型为3D swin-transformer结构，所述第二神经网络子模型包括第二编码器和第二解码器；所述对第一神经网络子模型进行训练与所述对第二神经网络子模型进行训练同时进行，所述第二编码器与所述第一编码器在训练的过程中存在权重共享。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的方法可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明的面向遥感场景的视频大模型包括两个支路，第一支路对应于第一神经网络子模型，该支路对应的训练样本为遥感图像集合；第二支路对应于第二神经网络子模型，该支路对应的训练样本为目标视频集合，本发明的目标视频集合不但包括遥感视频(即卫星搭载遥感设备拍摄的视频)，还包括无人机视频(无人机搭载遥感设备拍摄的视频)，由于遥感视频不容易获取，因此可作为训练样本的遥感视频的数量较少；本发明通过引入无人机视频对视频样本数量进行了扩充，利用扩充后的视频样本对第二神经网络子模型进行训练可提高第二神经网络子模型的特征提取和规律发掘的能力，也提高了经训练的第二神经网络子模型的泛化能力，可应用于不同的偏时空预测的下游任务。

而且，本发明对第一神经网络子模型对应的遥感图像样本采用的掩码策略为随机掩码一部分像素点，通过该随机掩码策略来提高第一神经网络模型提取遥感图像的空间信息的能力；对第二神经网络子模型对应的目标视频样本采用的掩码策略为将目标视频中的某一帧作为起始帧，将该起始帧之后的固定长度的帧都进行掩码，通过该掩码策略来增大视频预测的难度，提高第二神经网络子模型提取视频中物体的时空连续信息的能力；本发明对第一神经网络子模型的训练过程与对第二神经网络子模型的训练过程同时进行，加快了对视频大模型的训练过程，且训练过程中第一神经网络子模型中的第一编码器与第二神经网络子模型中的第二编码器之间存在权重共享，由此，第二神经网络子模型就可以获取第一神经网络子模型提取遥感图像的空间信息的能力，进而提升了第二神经网络子模型自身提取遥感图像的空间信息的能力，有利于加快对第二神经网络子模型的训练过程。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的面向遥感场景的视频大模型构建方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明，提供了一种面向遥感场景的视频大模型构建方法，如图1所示，包括以下步骤：

S100，获取遥感图像集合A和目标视频集合B，A＝{a₁,a₂,…,a_N}，a_n为A中第n帧遥感图像，n的取值范围为1到N，N为A中遥感图像的数量；B＝{b₁,b₂,…,b_M}，b_m为B中第m个目标视频，m的取值范围为1到M，M为B中目标视频的数量，b_m＝(b_m,1,b_m,2,…,b_m,Q)，b_m,q为b_m中第q帧目标图像，q的取值范围为1到Q，Q为目标视频中目标图像的数量，b_m,1、b_m,2、…、b_m,Q为连续拍摄的Q帧目标图像；B中目标视频为卫星搭载遥感设备拍摄的视频或无人机搭载遥感设备拍摄的视频，所述遥感图像为卫星搭载遥感设备拍摄的图像。

本发明的面向遥感场景的视频大模型包括两个支路，第一支路对应于第一神经网络子模型，该支路对应的训练样本为遥感图像集合；第二支路对应于第二神经网络子模型，该支路对应的训练样本为目标视频集合，本发明的目标视频集合不但包括遥感视频(即卫星搭载遥感设备拍摄的视频)，还包括无人机视频(无人机搭载遥感设备拍摄的视频)。

优选的，B中无人机搭载遥感设备拍摄的视频的数量大于B中卫星搭载遥感设备拍摄的视频的数量。本发明将无人机搭载遥感设备拍摄的视频作为目标视频的一种，可扩展目标视频的数量，解决由于遥感视频不易获取导致的目标视频的数量不足以满足后续对神经网络模型的训练需求的问题；而且无人机搭载遥感设备拍摄的视频与卫星搭载遥感设备拍摄的视频均是空中搭载遥感设备似俯拍的视角拍下的，因此，将无人机搭载遥感设备拍摄的视频作为目标视频用于后续对神经网络模型的训练也可以兼顾对神经网络模型训练的效果。

优选的，N和M的数量级均为百万级。本发明的训练样本的数量集为百万级，经训练的面向遥感场景的视频大模型具有强大的特征提取能力、规律发掘能力和泛化能力，将经训练的面向遥感场景的视频大模型的模型参数作为不同下游任务对应的模型的初始模型参数，可加快下游任务对应的模型的训练过程，提高下游任务对应的模型的精度；上述下游任务可为视频预测任务、目标检测任务、单目标追踪任务和视频分割任务等。

S200，利用A和B对神经网络模型进行训练，所述神经网络模型包括第一神经网络子模型和第二神经网络子模型，所述训练的过程包括：

S210，遍历A，对a_n进行分块处理，并随机对a_n中的k*C块进行掩码处理；C为对a_n进行分块得到的块数量，k为预设掩码比例；利用掩码处理后的a_n对第一神经网络子模型进行训练，所述第一神经网络子模型为2D swin-transformer结构，所述第一神经网络子模型包括第一编码器和第一解码器。

本发明中2D swin-transformer的结构为现有技术，此处不再赘述。本发明中第一编码器的作用为提取掩码处理后的a_n的特征，第一解码器的作用为根据第一编码器的输出预测掩码块对应的原始像素值。

本发明对第一神经网络子模型对应的遥感图像样本采用的掩码策略为随机掩码一部分像素点，通过该随机掩码策略来提高第一神经网络模型提取遥感图像的空间信息的能力。优选的，40％≤k≤60％。经小规模实验表明，k的值设置在40％≤k≤60％范围内时第一神经网络子模型既能够较好地提取遥感图像的空间信息，也能够兼顾第一神经网络子模型的训练时长。可选的，k＝50％。

作为一种实施例，a_n为分辨率为224*224的图像，对a_n进行分块处理，得到56*56个块，每个块有4*4＝16个像素；随机地抽取56*56个块里一半的块，将这些抽取的块掩码掉，就得到了掩码处理后的a_n。

S220遍历B，对b_m中的第[i_m,i_m+L]帧图像进行掩码处理，i_m+L≤Q，i_m≥1，L为预设掩码帧数量，i_m为b_m中的起始掩码帧；利用掩码处理后的b_m对第二神经网络子模型进行训练，所述第二子模型为3D swin-transformer结构，所述第二神经网络子模型包括第二编码器和第二解码器；所述对第一神经网络子模型进行训练与所述对第二神经网络子模型进行训练同时进行，所述第二编码器与所述第一编码器在训练的过程中存在权重共享。

本发明中3D swin-transformer相较于2D swin-transformer的最大区别在于从2D变成了3D，多了一个维度，3D swin-transformer的结构也为现有技术，此处不再赘述。本发明中第二编码器的作用为提取掩码处理后的b_m的特征，第二解码器的作用为根据第二编码器的输出预测被掩码的目标图像。

本发明对第一神经网络子模型的训练过程与对第二神经网络子模型的训练过程同时进行，加快了对视频大模型的训练过程，且训练过程中第一神经网络子模型中的第一编码器与第二神经网络子模型中的第二编码器之间存在权重共享，使第二编码器和第一编码器中结构相同的模块对应的权重相同，例如第二编码器中的注意力(attention)模块和第一编码器中的注意力(attention)模块对应的权重相同。由此，第二神经网络子模型就可以获取第一神经网络子模型提取遥感图像的空间信息的能力，进而提升了第二神经网络子模型自身提取遥感图像的空间信息的能力，有利于加快对第二神经网络子模型的训练过程。

本发明对第二神经网络子模型对应的目标视频样本采用的掩码策略为将目标视频中的某一帧作为起始帧，将该起始帧之后的固定长度的帧都进行掩码，通过该掩码策略来增大视频预测的难度，提高第二神经网络子模型提取视频中物体的时空连续信息的能力。

优选的，Q＝16，5≤L≤9。经小规模实验表明，当Q＝16时，L的值设置在5≤L≤9范围内时第二神经网络子模型既能够较好地提取视频中物体的时空连续信息，也能够兼顾第二神经网络子模型的训练时长。可选的，L＝7。

本发明对于b_m采用的是随机的连续帧掩码策略，也就是说，不同目标视频对应的起始掩码帧可能不同也可能相同，但被掩码的帧数量相等。作为一种实施例，b_m包括连续拍摄的16帧目标图像，每一帧都是224*224的图像，预先设置掩码帧数量为7，随机取在16帧目标图像中选取一个起点，然后将这个起点以及之后的7帧图像全部掩码掉，就得到了掩码处理后的b_m。应当理解的是，起点的选取要保证起点之后有7帧或者大于7帧的图像。

根据本发明，经训练的神经网络模型即为本发明的面向遥感场景的视频大模型，该面向遥感场景的视频大模型具有较强特征提取能力和特征规律发掘能力。

作为一个具体实施方式，遥感图像集合A中包括109万以上的遥感图像，目标视频集合B中包括101万以上的目标视频，B中超过一半以上的目标视频为无人机搭载遥感设备拍摄的视频；对上述遥感图像进行分块处理，随机对遥感图像中的一半的块进行掩码处理；设置每个目标视频包括连续的16帧目标图像，随机选取目标视频中的起始掩码帧，将起始掩码帧及之后的7帧目标图像进行掩码；利用掩码处理后的遥感图像对神经网络模型中的第一神经网络子模型进行训练，同时利用掩码处理后的目标视频对神经网络模型中的第二神经网络子模型进行训练，训练的过程中将第一神经网络子模型中的编码器与第二神经网络子模型中的编码器进行权重共享，直至训练结束。

实验表明，相较于随机初始化模型参数而言，将该经训练的神经网络模型的模型参数作为不同下游任务对应的模型的初始模型参数，相同训练时长下下游任务对应的模型达到的精度较高：当下游任务为目标检测任务时，对应的平均精度均值(mAP)指标从0.3629涨到0.3718；当下游任务为视频预测任务时，对应的结构相似性(SSIM)指标从0.7018涨到0.7152。可见，本发明构建的面向遥感场景的视频大模型适用于不同下游任务，泛化能力较强，且对应的特征提取能力和特征规律发掘能力较强，可提高不同下游任务对应的模型的精度。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种面向遥感场景的视频大模型构建方法，其特征在于，包括以下步骤：

获取遥感图像集合A和目标视频集合B，A＝{a₁,a₂,…,a_N}，a_n为A中第n帧遥感图像，n的取值范围为1到N，N为A中遥感图像的数量；B＝{b₁,b₂,…,b_M}，b_m为B中第m个目标视频，m的取值范围为1到M，M为B中目标视频的数量，b_m＝(b_m,1,b_m,2,…,b_m,Q)，b_m,q为b_m中第q帧目标图像，q的取值范围为1到Q，Q为目标视频中目标图像的数量，b_m,1、b_m,2、…、b_m,Q为连续拍摄的Q帧目标图像；B中目标视频为卫星搭载遥感设备拍摄的视频或无人机搭载遥感设备拍摄的视频，所述遥感图像为卫星搭载遥感设备拍摄的图像；

遍历A，对a_n进行分块处理，并随机对a_n中的k*C块进行掩码处理；C为对a_n进行分块得到的块数量，k为预设掩码比例；利用掩码处理后的a_n对第一神经网络子模型进行训练，所述第一神经网络子模型为2D swin-transformer结构，所述第一神经网络子模型包括第一编码器和第一解码器；

遍历B，对b_m中的第[i_m,i_m+L]帧图像进行掩码处理，i_m+L≤Q，i_m≥1，L为预设掩码帧数量，i_m为b_m中的起始掩码帧；利用掩码处理后的b_m对第二神经网络子模型进行训练，所述第二神经网络子模型为3D swin-transformer结构，所述第二神经网络子模型包括第二编码器和第二解码器；所述对第一神经网络子模型进行训练与所述对第二神经网络子模型进行训练同时进行，所述第二编码器与所述第一编码器在训练的过程中存在权重共享。

2.根据权利要求1所述的面向遥感场景的视频大模型构建方法，其特征在于，40％≤k≤60％。

3.根据权利要求2所述的面向遥感场景的视频大模型构建方法，其特征在于，k＝50％。

4.根据权利要求1所述的面向遥感场景的视频大模型构建方法，其特征在于，Q＝16，5≤L≤9。

5.根据权利要求4所述的面向遥感场景的视频大模型构建方法，其特征在于，L＝7。

6.根据权利要求1所述的面向遥感场景的视频大模型构建方法，其特征在于，B中无人机搭载遥感设备拍摄的视频的数量大于B中卫星搭载遥感设备拍摄的视频的数量。

7.根据权利要求1所述的面向遥感场景的视频大模型构建方法，其特征在于，N和M的数量级均为百万级。