CN116109966B - 一种面向遥感场景的视频大模型构建方法 - Google Patents

一种面向遥感场景的视频大模型构建方法 Download PDF

Info

Publication number
CN116109966B
CN116109966B CN202211635612.9A CN202211635612A CN116109966B CN 116109966 B CN116109966 B CN 116109966B CN 202211635612 A CN202211635612 A CN 202211635612A CN 116109966 B CN116109966 B CN 116109966B
Authority
CN
China
Prior art keywords
model
remote sensing
neural network
video
network sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211635612.9A
Other languages
English (en)
Other versions
CN116109966A (zh
Inventor
孙显
付琨
于泓峰
姚方龙
卢宛萱
邓楚博
杨和明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202211635612.9A priority Critical patent/CN116109966B/zh
Publication of CN116109966A publication Critical patent/CN116109966A/zh
Application granted granted Critical
Publication of CN116109966B publication Critical patent/CN116109966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及计算机模型的构建技术领域,特别是涉及一种面向遥感场景的视频大模型构建方法。所述方法包括以下步骤:获取遥感图像集合A和目标视频集合B,A={a1,a2,…,aN},an为A中第n帧遥感图像,n的取值范围为1到N,N为A中遥感图像的数量;B={b1,b2,…,bM},bm为B中第m个目标视频,m的取值范围为1到M,M为B中目标视频的数量,bm=(bm,1,bm,2,…,bm,Q),bm,q为bm中第q帧目标图像;利用A和B对神经网络模型进行训练,所述神经网络模型包括第一神经网络子模型和第二神经网络子模型。本发明构建了一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型。

Description

一种面向遥感场景的视频大模型构建方法
技术领域
本发明涉及计算机模型的构建技术领域,特别是涉及一种面向遥感场景的视频大模型构建方法。
背景技术
由于遥感视频具有时间和空间上的双重特征,而且遥感场景本身具有复杂的纹理背景,因此,遥感场景下的视频解译任务需要的模型需要具有较强的特征提取能力,同时要发掘视频的空间特征规律和时间特征规律。如何构建一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型,是亟待解决的问题。
发明内容
本发明目的在于,提供一种面向遥感场景的视频大模型构建方法,构建了一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型。
根据本发明,提供了一种面向遥感场景的视频大模型构建方法,包括以下步骤:
获取遥感图像集合A和目标视频集合B,A={a1,a2,…,aN},an为A中第n帧遥感图像,n的取值范围为1到N,N为A中遥感图像的数量;B={b1,b2,…,bM},bm为B中第m个目标视频,m的取值范围为1到M,M为B中目标视频的数量,bm=(bm,1,bm,2,…,bm,Q),bm,q为bm中第q帧目标图像,q的取值范围为1到Q,Q为目标视频中目标图像的数量,bm,1、bm,2、…、bm,Q为连续拍摄的Q帧目标图像;B中目标视频为卫星搭载遥感设备拍摄的视频或无人机搭载遥感设备拍摄的视频,所述遥感图像为卫星搭载遥感设备拍摄的图像。
利用A和B对神经网络模型进行训练,所述神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述训练的过程包括:
遍历A,对an进行分块处理,并随机对an中的k*C块进行掩码处理;C为对an进行分块得到的块数量,k为预设掩码比例;利用掩码处理后的an对第一神经网络子模型进行训练,所述第一神经网络子模型为2D swin-transformer结构,所述第一神经网络子模型包括第一编码器和第一解码器。
遍历B,对bm中的第[im,im+L]帧图像进行掩码处理,im+L≤Q,im≥1,L为预设掩码帧数量,im为bm中的起始掩码帧;利用掩码处理后的bm对第二神经网络子模型进行训练,所述第二子模型为3D swin-transformer结构,所述第二神经网络子模型包括第二编码器和第二解码器;所述对第一神经网络子模型进行训练与所述对第二神经网络子模型进行训练同时进行,所述第二编码器与所述第一编码器在训练的过程中存在权重共享。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明的面向遥感场景的视频大模型包括两个支路,第一支路对应于第一神经网络子模型,该支路对应的训练样本为遥感图像集合;第二支路对应于第二神经网络子模型,该支路对应的训练样本为目标视频集合,本发明的目标视频集合不但包括遥感视频(即卫星搭载遥感设备拍摄的视频),还包括无人机视频(无人机搭载遥感设备拍摄的视频),由于遥感视频不容易获取,因此可作为训练样本的遥感视频的数量较少;本发明通过引入无人机视频对视频样本数量进行了扩充,利用扩充后的视频样本对第二神经网络子模型进行训练可提高第二神经网络子模型的特征提取和规律发掘的能力,也提高了经训练的第二神经网络子模型的泛化能力,可应用于不同的偏时空预测的下游任务。
而且,本发明对第一神经网络子模型对应的遥感图像样本采用的掩码策略为随机掩码一部分像素点,通过该随机掩码策略来提高第一神经网络模型提取遥感图像的空间信息的能力;对第二神经网络子模型对应的目标视频样本采用的掩码策略为将目标视频中的某一帧作为起始帧,将该起始帧之后的固定长度的帧都进行掩码,通过该掩码策略来增大视频预测的难度,提高第二神经网络子模型提取视频中物体的时空连续信息的能力;本发明对第一神经网络子模型的训练过程与对第二神经网络子模型的训练过程同时进行,加快了对视频大模型的训练过程,且训练过程中第一神经网络子模型中的第一编码器与第二神经网络子模型中的第二编码器之间存在权重共享,由此,第二神经网络子模型就可以获取第一神经网络子模型提取遥感图像的空间信息的能力,进而提升了第二神经网络子模型自身提取遥感图像的空间信息的能力,有利于加快对第二神经网络子模型的训练过程。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的面向遥感场景的视频大模型构建方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明,提供了一种面向遥感场景的视频大模型构建方法,如图1所示,包括以下步骤:
S100,获取遥感图像集合A和目标视频集合B,A={a1,a2,…,aN},an为A中第n帧遥感图像,n的取值范围为1到N,N为A中遥感图像的数量;B={b1,b2,…,bM},bm为B中第m个目标视频,m的取值范围为1到M,M为B中目标视频的数量,bm=(bm,1,bm,2,…,bm,Q),bm,q为bm中第q帧目标图像,q的取值范围为1到Q,Q为目标视频中目标图像的数量,bm,1、bm,2、…、bm,Q为连续拍摄的Q帧目标图像;B中目标视频为卫星搭载遥感设备拍摄的视频或无人机搭载遥感设备拍摄的视频,所述遥感图像为卫星搭载遥感设备拍摄的图像。
本发明的面向遥感场景的视频大模型包括两个支路,第一支路对应于第一神经网络子模型,该支路对应的训练样本为遥感图像集合;第二支路对应于第二神经网络子模型,该支路对应的训练样本为目标视频集合,本发明的目标视频集合不但包括遥感视频(即卫星搭载遥感设备拍摄的视频),还包括无人机视频(无人机搭载遥感设备拍摄的视频)。
优选的,B中无人机搭载遥感设备拍摄的视频的数量大于B中卫星搭载遥感设备拍摄的视频的数量。本发明将无人机搭载遥感设备拍摄的视频作为目标视频的一种,可扩展目标视频的数量,解决由于遥感视频不易获取导致的目标视频的数量不足以满足后续对神经网络模型的训练需求的问题;而且无人机搭载遥感设备拍摄的视频与卫星搭载遥感设备拍摄的视频均是空中搭载遥感设备似俯拍的视角拍下的,因此,将无人机搭载遥感设备拍摄的视频作为目标视频用于后续对神经网络模型的训练也可以兼顾对神经网络模型训练的效果。
优选的,N和M的数量级均为百万级。本发明的训练样本的数量集为百万级,经训练的面向遥感场景的视频大模型具有强大的特征提取能力、规律发掘能力和泛化能力,将经训练的面向遥感场景的视频大模型的模型参数作为不同下游任务对应的模型的初始模型参数,可加快下游任务对应的模型的训练过程,提高下游任务对应的模型的精度;上述下游任务可为视频预测任务、目标检测任务、单目标追踪任务和视频分割任务等。
S200,利用A和B对神经网络模型进行训练,所述神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述训练的过程包括:
S210,遍历A,对an进行分块处理,并随机对an中的k*C块进行掩码处理;C为对an进行分块得到的块数量,k为预设掩码比例;利用掩码处理后的an对第一神经网络子模型进行训练,所述第一神经网络子模型为2D swin-transformer结构,所述第一神经网络子模型包括第一编码器和第一解码器。
本发明中2D swin-transformer的结构为现有技术,此处不再赘述。本发明中第一编码器的作用为提取掩码处理后的an的特征,第一解码器的作用为根据第一编码器的输出预测掩码块对应的原始像素值。
本发明对第一神经网络子模型对应的遥感图像样本采用的掩码策略为随机掩码一部分像素点,通过该随机掩码策略来提高第一神经网络模型提取遥感图像的空间信息的能力。优选的,40%≤k≤60%。经小规模实验表明,k的值设置在40%≤k≤60%范围内时第一神经网络子模型既能够较好地提取遥感图像的空间信息,也能够兼顾第一神经网络子模型的训练时长。可选的,k=50%。
作为一种实施例,an为分辨率为224*224的图像,对an进行分块处理,得到56*56个块,每个块有4*4=16个像素;随机地抽取56*56个块里一半的块,将这些抽取的块掩码掉,就得到了掩码处理后的an
S220遍历B,对bm中的第[im,im+L]帧图像进行掩码处理,im+L≤Q,im≥1,L为预设掩码帧数量,im为bm中的起始掩码帧;利用掩码处理后的bm对第二神经网络子模型进行训练,所述第二子模型为3D swin-transformer结构,所述第二神经网络子模型包括第二编码器和第二解码器;所述对第一神经网络子模型进行训练与所述对第二神经网络子模型进行训练同时进行,所述第二编码器与所述第一编码器在训练的过程中存在权重共享。
本发明中3D swin-transformer相较于2D swin-transformer的最大区别在于从2D变成了3D,多了一个维度,3D swin-transformer的结构也为现有技术,此处不再赘述。本发明中第二编码器的作用为提取掩码处理后的bm的特征,第二解码器的作用为根据第二编码器的输出预测被掩码的目标图像。
本发明对第一神经网络子模型的训练过程与对第二神经网络子模型的训练过程同时进行,加快了对视频大模型的训练过程,且训练过程中第一神经网络子模型中的第一编码器与第二神经网络子模型中的第二编码器之间存在权重共享,使第二编码器和第一编码器中结构相同的模块对应的权重相同,例如第二编码器中的注意力(attention)模块和第一编码器中的注意力(attention)模块对应的权重相同。由此,第二神经网络子模型就可以获取第一神经网络子模型提取遥感图像的空间信息的能力,进而提升了第二神经网络子模型自身提取遥感图像的空间信息的能力,有利于加快对第二神经网络子模型的训练过程。
本发明对第二神经网络子模型对应的目标视频样本采用的掩码策略为将目标视频中的某一帧作为起始帧,将该起始帧之后的固定长度的帧都进行掩码,通过该掩码策略来增大视频预测的难度,提高第二神经网络子模型提取视频中物体的时空连续信息的能力。
优选的,Q=16,5≤L≤9。经小规模实验表明,当Q=16时,L的值设置在5≤L≤9范围内时第二神经网络子模型既能够较好地提取视频中物体的时空连续信息,也能够兼顾第二神经网络子模型的训练时长。可选的,L=7。
本发明对于bm采用的是随机的连续帧掩码策略,也就是说,不同目标视频对应的起始掩码帧可能不同也可能相同,但被掩码的帧数量相等。作为一种实施例,bm包括连续拍摄的16帧目标图像,每一帧都是224*224的图像,预先设置掩码帧数量为7,随机取在16帧目标图像中选取一个起点,然后将这个起点以及之后的7帧图像全部掩码掉,就得到了掩码处理后的bm。应当理解的是,起点的选取要保证起点之后有7帧或者大于7帧的图像。
根据本发明,经训练的神经网络模型即为本发明的面向遥感场景的视频大模型,该面向遥感场景的视频大模型具有较强特征提取能力和特征规律发掘能力。
作为一个具体实施方式,遥感图像集合A中包括109万以上的遥感图像,目标视频集合B中包括101万以上的目标视频,B中超过一半以上的目标视频为无人机搭载遥感设备拍摄的视频;对上述遥感图像进行分块处理,随机对遥感图像中的一半的块进行掩码处理;设置每个目标视频包括连续的16帧目标图像,随机选取目标视频中的起始掩码帧,将起始掩码帧及之后的7帧目标图像进行掩码;利用掩码处理后的遥感图像对神经网络模型中的第一神经网络子模型进行训练,同时利用掩码处理后的目标视频对神经网络模型中的第二神经网络子模型进行训练,训练的过程中将第一神经网络子模型中的编码器与第二神经网络子模型中的编码器进行权重共享,直至训练结束。
实验表明,相较于随机初始化模型参数而言,将该经训练的神经网络模型的模型参数作为不同下游任务对应的模型的初始模型参数,相同训练时长下下游任务对应的模型达到的精度较高:当下游任务为目标检测任务时,对应的平均精度均值(mAP)指标从0.3629涨到0.3718;当下游任务为视频预测任务时,对应的结构相似性(SSIM)指标从0.7018涨到0.7152。可见,本发明构建的面向遥感场景的视频大模型适用于不同下游任务,泛化能力较强,且对应的特征提取能力和特征规律发掘能力较强,可提高不同下游任务对应的模型的精度。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims (7)

1.一种面向遥感场景的视频大模型构建方法,其特征在于,包括以下步骤:
获取遥感图像集合A和目标视频集合B,A={a1,a2,…,aN},an为A中第n帧遥感图像,n的取值范围为1到N,N为A中遥感图像的数量;B={b1,b2,…,bM},bm为B中第m个目标视频,m的取值范围为1到M,M为B中目标视频的数量,bm=(bm,1,bm,2,…,bm,Q),bm,q为bm中第q帧目标图像,q的取值范围为1到Q,Q为目标视频中目标图像的数量,bm,1、bm,2、…、bm,Q为连续拍摄的Q帧目标图像;B中目标视频为卫星搭载遥感设备拍摄的视频或无人机搭载遥感设备拍摄的视频,所述遥感图像为卫星搭载遥感设备拍摄的图像;
利用A和B对神经网络模型进行训练,所述神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述训练的过程包括:
遍历A,对an进行分块处理,并随机对an中的k*C块进行掩码处理;C为对an进行分块得到的块数量,k为预设掩码比例;利用掩码处理后的an对第一神经网络子模型进行训练,所述第一神经网络子模型为2D swin-transformer结构,所述第一神经网络子模型包括第一编码器和第一解码器;
遍历B,对bm中的第[im,im+L]帧图像进行掩码处理,im+L≤Q,im≥1,L为预设掩码帧数量,im为bm中的起始掩码帧;利用掩码处理后的bm对第二神经网络子模型进行训练,所述第二神经网络子模型为3D swin-transformer结构,所述第二神经网络子模型包括第二编码器和第二解码器;所述对第一神经网络子模型进行训练与所述对第二神经网络子模型进行训练同时进行,所述第二编码器与所述第一编码器在训练的过程中存在权重共享。
2.根据权利要求1所述的面向遥感场景的视频大模型构建方法,其特征在于,40%≤k≤60%。
3.根据权利要求2所述的面向遥感场景的视频大模型构建方法,其特征在于,k=50%。
4.根据权利要求1所述的面向遥感场景的视频大模型构建方法,其特征在于,Q=16,5≤L≤9。
5.根据权利要求4所述的面向遥感场景的视频大模型构建方法,其特征在于,L=7。
6.根据权利要求1所述的面向遥感场景的视频大模型构建方法,其特征在于,B中无人机搭载遥感设备拍摄的视频的数量大于B中卫星搭载遥感设备拍摄的视频的数量。
7.根据权利要求1所述的面向遥感场景的视频大模型构建方法,其特征在于,N和M的数量级均为百万级。
CN202211635612.9A 2022-12-19 2022-12-19 一种面向遥感场景的视频大模型构建方法 Active CN116109966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211635612.9A CN116109966B (zh) 2022-12-19 2022-12-19 一种面向遥感场景的视频大模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211635612.9A CN116109966B (zh) 2022-12-19 2022-12-19 一种面向遥感场景的视频大模型构建方法

Publications (2)

Publication Number Publication Date
CN116109966A CN116109966A (zh) 2023-05-12
CN116109966B true CN116109966B (zh) 2023-06-27

Family

ID=86266649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211635612.9A Active CN116109966B (zh) 2022-12-19 2022-12-19 一种面向遥感场景的视频大模型构建方法

Country Status (1)

Country Link
CN (1) CN116109966B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019056845A1 (zh) * 2017-09-19 2019-03-28 北京市商汤科技开发有限公司 道路图生成方法、装置、电子设备和计算机存储介质
WO2020232905A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 基于超对象信息的遥感图像目标提取方法、装置、电子设备及介质
CN113706388A (zh) * 2021-09-24 2021-11-26 上海壁仞智能科技有限公司 图像超分辨率重建方法及装置
CN114220015A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进YOLOv5的卫星图像小目标检测方法
CN114842351A (zh) * 2022-04-11 2022-08-02 中国人民解放军战略支援部队航天工程大学 一种基于孪生Transformers的遥感图像语义变化检测方法
CN114937202A (zh) * 2022-04-11 2022-08-23 青岛理工大学 一种双流Swin Transformer遥感场景分类方法
CN115049921A (zh) * 2022-04-27 2022-09-13 安徽大学 基于Transformer边界感知的光学遥感图像显著目标检测方法
WO2022247711A1 (zh) * 2021-05-24 2022-12-01 广州智慧城市发展研究院 一种目标关联视频追踪处理方法和装置
WO2022252557A1 (zh) * 2021-05-31 2022-12-08 上海商汤智能科技有限公司 神经网络训练与图像处理方法、装置、设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019056845A1 (zh) * 2017-09-19 2019-03-28 北京市商汤科技开发有限公司 道路图生成方法、装置、电子设备和计算机存储介质
WO2020232905A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 基于超对象信息的遥感图像目标提取方法、装置、电子设备及介质
WO2022247711A1 (zh) * 2021-05-24 2022-12-01 广州智慧城市发展研究院 一种目标关联视频追踪处理方法和装置
WO2022252557A1 (zh) * 2021-05-31 2022-12-08 上海商汤智能科技有限公司 神经网络训练与图像处理方法、装置、设备和存储介质
CN113706388A (zh) * 2021-09-24 2021-11-26 上海壁仞智能科技有限公司 图像超分辨率重建方法及装置
CN114220015A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进YOLOv5的卫星图像小目标检测方法
CN114842351A (zh) * 2022-04-11 2022-08-02 中国人民解放军战略支援部队航天工程大学 一种基于孪生Transformers的遥感图像语义变化检测方法
CN114937202A (zh) * 2022-04-11 2022-08-23 青岛理工大学 一种双流Swin Transformer遥感场景分类方法
CN115049921A (zh) * 2022-04-27 2022-09-13 安徽大学 基于Transformer边界感知的光学遥感图像显著目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Gated hierarchical multi-task learning network for judicial decision prediction》;Fanglong Yao et al.;《Neurocomputing》;第411卷;313-326 *
基于人工神经网络的赤潮卫星遥感方法研究;楼林,黄韦艮;遥感学报(第02期);125-130+162 *
基于神经网络的遥感影像超高分辨率目标识别;焦云清;王世新;周艺;扶卿华;;***仿真学报(第14期);3223-3225 *

Also Published As

Publication number Publication date
CN116109966A (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
Liu et al. Mobile video object detection with temporally-aware feature maps
US10924755B2 (en) Real time end-to-end learning system for a high frame rate video compressive sensing network
CN112084868B (zh) 一种基于注意力机制的遥感图像中目标计数方法
CN113592026B (zh) 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN112149459A (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及***
CN110751018A (zh) 一种基于混合注意力机制的群组行人重识别方法
CN111860175B (zh) 一种基于轻量化网络的无人机影像车辆检测方法及装置
CN111062410B (zh) 基于深度学习的星型信息桥气象预测方法
CN110765841A (zh) 基于混合注意力机制的群组行人重识别***及终端
CN115457498A (zh) 一种基于双注意力和密集连接的城市道路语义分割方法
CN112288627A (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
Löhdefink et al. GAN-vs. JPEG2000 image compression for distributed automotive perception: Higher peak SNR does not mean better semantic segmentation
CN116109966B (zh) 一种面向遥感场景的视频大模型构建方法
CN114067225A (zh) 一种无人机小目标检测方法、***及可存储介质
CN113160250A (zh) 一种基于ads-b位置先验的机场场面监控视频目标分割方法
CN117097853A (zh) 一种基于深度学习的实时抠像方法及***
CN113887419B (zh) 一种基于提取视频时空信息的人体行为识别方法及***
CN115346115A (zh) 图像目标检测方法、装置、设备和存储介质
CN114792390A (zh) 一种基于深度学习的低空安防目标检测方法与***
CN109815911B (zh) 基于深度融合网络的视频运动物体检测***、方法及终端
CN113505812A (zh) 一种基于双流卷积网络的高压断路器轨迹动作识别方法
CN112861698A (zh) 一种基于多尺度时序感受野的压缩域行为识别方法
CN114049253B (zh) 基于光流信息的图像处理方法及相关设备
Doan et al. Real-time Image Semantic Segmentation Networks with Residual Depth-wise Separable Blocks
Yue et al. A small target detection method for UAV aerial images based on improved YOLOv5

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant