CN117671480A - 基于视觉大模型的滑坡自动识别方法、***和计算机设备 - Google Patents
基于视觉大模型的滑坡自动识别方法、***和计算机设备 Download PDFInfo
- Publication number
- CN117671480A CN117671480A CN202311352030.4A CN202311352030A CN117671480A CN 117671480 A CN117671480 A CN 117671480A CN 202311352030 A CN202311352030 A CN 202311352030A CN 117671480 A CN117671480 A CN 117671480A
- Authority
- CN
- China
- Prior art keywords
- landslide
- model
- image
- identified
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000011218 segmentation Effects 0.000 claims abstract description 76
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000013136 deep learning model Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 13
- 238000012800 visualization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010850 salt effect Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 240000004282 Grewia occidentalis Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视觉大模型的滑坡自动识别方法、***和计算机设备,涉及滑坡识别技术领域,方法包括:构建滑坡语义分割模型,对滑坡语义分割模型进行训练,得到训练好的滑坡语义分割模型;利用训练好的预设深度学习模型,得到待识别滑坡图像的滑坡目标的检测框,根据待识别滑坡图像的滑坡目标的检测框,得到待识别滑坡图像的滑坡语义提示信息;将待识别滑坡图像的滑坡语义提示信息输入训练好的滑坡语义分割模型,得到待识别滑坡图像的语义分割掩膜。本发明将遥感大数据与视觉大模型的优势相结合,有效改善了传统滑坡识别方法在空间泛化能力差、样本依赖性强等方面的问题。
Description
技术领域
本发明涉及滑坡识别技术领域,尤其涉及一种基于视觉大模型的滑坡自动识别方法、***和计算机设备。
背景技术
地质灾害会造成环境破坏、人员伤亡及巨大的财产损失,据统计,目前70%的地质灾害均为滑坡灾害,滑坡灾害中的70%均发生在山区,且滑坡灾害中的80%属于未在库隐患。因此,利用遥感数据对现有滑坡进行识别和监测,对于地质灾害的隐患识别及核查具有重要意义。
目前,尽管目视解译具有较高的识别精度,但该过程耗时且费力。因此,近年来,基于人工智能的滑坡识别方法备受追捧。此类方法大致可分两种类型,具体包括基于像元计算的方法和基于对象计算的方法,具体地:
1)基于像元计算的方法:主要采用机器学习方法,如决策树、支持向量机、人工神经网络和随机森林等,这类方法的缺点是容易产生“椒盐效应”且对数据空间信息利用率不足。
2)基于对象计算的方法:可以将对象的形态、颜色、纹理等先验知识结合到算法中,尽管此类方法有效改善了“椒盐效应”问题,但对于尺度多变及可辨识度不高的目标难以有效识别。
近年来,基于卷积神经网络的滑坡识别方法大量涌现,不仅能够有效地利用遥感数据的时空联合特征,从而有效克服“椒盐效应”,而且,对于不同场景下滑坡识别的精度也有显著提高。然而,由于受限于训练数据,基于卷积神经网络的方法目前难以在保持高精度的同时,做到通用且自动的识别,近年来,计算机视觉大模型的涌现,为解决该问题提供了可能的途径。
大模型在人工智能领域掀起了一股开创性的浪潮,由于对大量数据进行训练,这些模型在各种场景中表现出显著的泛化能力。预训练大型模型如BERT和GPT等,起初是在自然语言处理领域出现和发展的。ChatGPT的出现更是对各个行业产生了重大影响。受NLP基础模型成功的启发,计算机视觉领域对于大模型的探索也取得进展,ViT-22G,SwinTransformer和MAE成为第一代大模型,他们的特点充分利用大数据与Transformer,实现单模态下视觉任务的最优性能;CLIP作为第二代大模型,采用对比学习来对齐嘈杂的图像-文本对中的视觉和文本空间,实现跨模态下的语义知识的互通,并在下游任务中展示强大的零样本识别和泛化能力。
SAM模型的提出标志着第三代大模型的诞生,不仅具有跨模态和零样本识别的能力,还具备强大的交互能力,作为第一个通用的计算机视觉网络在遥感应用领域同样展现出巨大的应用潜力。然而,遥感数据不同于自然图像,空间分辨率、时间分辨率、光谱分辨率和载荷类型的多样性决定了以自然图像作为训练样本的计算机视觉模型在遥感数据应用上的局限性。通过评测,SAM模型在遥感数据上的应用依然面临无法实现同类地物的多目标识别,以及下游任务迁移精度差等挑战。解决上述问题的核心在于能否准确的获取目标的语义提示(Prompt)。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,具体提供了一种基于视觉大模型的滑坡自动识别方法、***和计算机设备,具体如下:
1)第一方面,本发明提供一种基于视觉大模型的滑坡自动识别方法,具体技术方案如下:
构建滑坡语义分割模型,对滑坡语义分割模型进行训练,得到训练好的滑坡语义分割模型,其中,滑坡语义分割模型的输入为滑坡语义提示信息,滑坡语义分割模型的输出为滑坡的语义分割掩膜,滑坡语义分割模型的图像编码器包括视觉大模型特征提取器;
利用训练好的预设深度学习模型,得到待识别滑坡图像的滑坡目标的检测框,根据待识别滑坡图像的滑坡目标的检测框,得到待识别滑坡图像的滑坡语义提示信息;
将待识别滑坡图像的滑坡语义提示信息输入训练好的滑坡语义分割模型,得到待识别滑坡图像的语义分割掩膜。
本发明提供的一种基于视觉大模型的滑坡自动识别方法的有益效果如下:
将遥感大数据与视觉大模型的优势相结合,有效改善了传统滑坡识别方法在空间泛化能力差、样本依赖性强等方面的问题,对于开展广域滑坡目标识别及提升地质灾害隐患识别的智能化水平具有重要意义。
在上述方案的基础上,本发明的一种基于视觉大模型的滑坡自动识别方法还可以做如下改进。
进一步,在视觉大模型特征提取器的每个等距全局注意力模块之前,以跳层连接的方式,连接一个可嵌入微调模块,可嵌入微调模块包括至少一个多层感知机和至少一个ReLU激活层。
采用上述进一步方案的有益效果是:通过增加可嵌入微调模块,能够提升视觉大模型对下游任务的适配能力,有效解决了视觉大模型难以进行迁移学习的问题。
进一步,根据待识别滑坡图像的滑坡目标的检测框,得到待识别滑坡图像的滑坡语义提示信息,包括:
对待识别滑坡图像滑坡目标的检测框进行特征可视化,得到待识别滑坡图像的滑坡目标的注意力热图,在注意力热图中的第一概率值范围内随机生成多个正样本点,在注意力热图中的第二概率值范围内随机生成多个负样本点,所有随机生成的正样本点、负样本点和待识别滑坡图的滑坡目标的检测框,构成待识别滑坡图像的滑坡语义提示信息。
进一步,预设深度学习模型为YOLOV8模型。
2)第二方面,本发明还提供一种基于视觉大模型的滑坡自动识别***,具体技术方案如下:
包括构建训练模块、获取模块和识别模块;
构建训练模块用于:构建滑坡语义分割模型,对滑坡语义分割模型进行训练,得到训练好的滑坡语义分割模型,其中,滑坡语义分割模型的输入为滑坡语义提示信息,滑坡语义分割模型的输出为滑坡的语义分割掩膜,滑坡语义分割模型的图像编码器包括视觉大模型特征提取器;
获取模块用于:利用训练好的预设深度学习模型,得到待识别滑坡图像的滑坡目标的检测框,根据待识别滑坡图像的滑坡目标的检测框,得到待识别滑坡图像的滑坡语义提示信息;
识别模块用于:将待识别滑坡图像的滑坡语义提示信息输入训练好的滑坡语义分割模型,得到待识别滑坡图像的语义分割掩膜。
在上述方案的基础上,本发明的一种基于视觉大模型的滑坡自动识别***还可以做如下改进。
进一步,在视觉大模型特征提取器的每个等距全局注意力模块之前,以跳层连接的方式,连接一个可嵌入微调模块,可嵌入微调模块包括至少一个多层感知机和至少一个ReLU激活层。
进一步,获取模块具体用于:
对待识别滑坡图像滑坡目标的检测框进行特征可视化,得到待识别滑坡图像的滑坡目标的注意力热图,在注意力热图中的第一概率值范围内随机生成多个正样本点,在注意力热图中的第二概率值范围内随机生成多个负样本点,所有随机生成的正样本点、负样本点和待识别滑坡图的滑坡目标的检测框,构成待识别滑坡图像的滑坡语义提示信息。
进一步,预设深度学习模型为YOLOV8模型。
3)第三方面,本发明还提供一种计算机设备,计算机设备包括处理器,处理器与存储器耦合,存储器中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行,以使计算机设备实现上述任一项基于视觉大模型的滑坡自动识别***。
4)第四方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一项基于视觉大模型的滑坡自动识别***。
需要说明的是,本发明的第二方面至第四方面的技术方案及对应的可能的实现方式所取得的有益效果,可以参见上述对第一方面及其对应的可能的实现方式的技术效果,此处不再赘述。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例的一种基于视觉大模型的滑坡自动识别方法的流程示意图之一;
图2为滑坡语义分割模型的示意图;
图3为YOLOV8模型的示意图;
图4为本发明实施例的一种基于视觉大模型的滑坡自动识别***的结构示意图;
图5为本发明实施例的一种计算机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例的一种基于视觉大模型的滑坡自动识别方法,包括如下步骤:
S1、构建滑坡语义分割模型,对滑坡语义分割模型进行训练,得到训练好的滑坡语义分割模型,其中,滑坡语义分割模型的输入为滑坡语义提示信息,滑坡语义分割模型的输出为滑坡的语义分割掩膜,滑坡语义分割模型的图像编码器包括视觉大模型特征提取器;
滑坡语义分割模型包括图像编码器、关键词解码器和图像解码器,滑坡语义分割模型的图像编码器包括视觉大模型特征提取器。其中,视觉大模型特征提取器具体可为Vision Transformer(ViT),例如,采用ViT-H/16版本的ViT,ViT-H/16版本的ViT主要包括上采样层、Patch特征嵌入层以及四个等距全局注意力模块,等距全局注意力模块即图2中的Transformer模块,可以更好地捕捉图像切片之间的长距离依赖关系,图像编码器的输出为图像特征嵌入信息,图像特征嵌入信息用于输入图像解码器。
S2、利用训练好的预设深度学习模型,得到待识别滑坡图像的滑坡目标的检测框,根据待识别滑坡图像的滑坡目标的检测框,得到待识别滑坡图像的滑坡语义提示信息;
S3、将待识别滑坡图像的滑坡语义提示信息输入训练好的滑坡语义分割模型,得到待识别滑坡图像的语义分割掩膜。
本发明实施例的一种基于视觉大模型的滑坡自动识别方法,将遥感大数据与视觉大模型的优势相结合,有效改善了传统滑坡识别方法在空间泛化能力差、样本依赖性强等方面的问题,对于开展广域滑坡目标识别及提升地质灾害隐患识别的智能化水平具有重要意义。
可选地,在上述技术方案中,视觉大模型特征提取器的每个等距全局注意力模块之前,以跳层连接的方式,连接一个可嵌入微调模块,可嵌入微调模块包括至少一个多层感知机和至少一个ReLU激活层。
其中,多层感知机和ReLU激活层的数量可根据实际情况设置,且多层感知机和ReLU激活层的数量相同,而且可嵌入微调模块中的多层感知机和ReLU激活层依次交替设置,而且是先从多层感知机开始交替设置,也就是说,可嵌入微调模块中的位于第一层的多层感知机用于接收上层(例如Patch特征嵌入层或等距全局注意力模块等)输出的数据,可嵌入微调模块中的位于最后一层的ReLU激活层将数据发送至下层(例如等距全局注意力模块或图像解码器等),通过增加可嵌入微调模块,能够提升视觉大模型对下游任务的适配能力,有效解决了视觉大模型难以进行迁移学习的问题。
可选地,在上述技术方案中,根据待识别滑坡图像的滑坡目标的检测框,得到待识别滑坡图像的滑坡语义提示信息,包括:
对待识别滑坡图像滑坡目标的检测框进行特征可视化,得到待识别滑坡图像的滑坡目标的注意力热图,在注意力热图中的第一概率值范围内随机生成多个正样本点,在注意力热图中的第二概率值范围内随机生成多个负样本点,所有随机生成的正样本点、负样本点和待识别滑坡图的滑坡目标的检测框,构成待识别滑坡图像的滑坡语义提示信息。
其中,第一概率值范围为0.75至1,第二概率值范围为0.05至0.25,负样本点的数量为5个,正样本点的数量为5个,需要说明的是,第一概率值范围、第二概率值范围、负样本点的数量和正样本点的数量可根据时间情况设置。
可选地,在上述技术方案中,预设深度学习模型为YOLOV8模型。
下面通过另外一个实施例,并结合图2和图3,对本发明进行阐述,该实施例中,预设深度学习模型为YOLOV8模型,视觉大模型特征提取器为ViT-H/16版本的ViT,在视觉大模型特征提取器的每个等距全局注意力模块之前,以跳层连接的方式,连接一个可嵌入微调模块,具体包括如下步骤:
S10、基于已发布的开源滑坡数据,滑坡数据包括多个滑坡影像和每个滑坡影像的标签,构建训练数据集,对训练数据集进行预处理,并将每个滑坡影像的标签转换为检索框,具体包括S100至S101:
S100、搜集目前全球范围内已开源的滑坡数据,构建训练数据集,训练数据集包括m个滑坡影像和标签,首先将滑坡影像进行裁剪处理,形成包括m个1024×1024×3大小的切片的第一数据集D1,利用最大最小归一化的方法对第一数据集D1进行归一化处理,使每个切片中的像素值的数值范围在0和1之间,归一化后的切片构成第二数据集D2。
S101、对m个标签进行裁剪处理,形成包括m个1024×1024×1的裁剪处理后的标签,每个裁剪处理后的标签进行二值化处理,具体将每个裁剪处理后的标签中的代表滑坡目标的像元值赋值为1,其他像元值赋值为0,得到二值化处理后的标签数据集L1。针对二值化处理后的标签数据集L1中的每一个裁剪处理后的标签,通过边缘检测算法获取二值化处理后的标签数据集L1中的滑坡目标个数,针对每一个滑坡目标获得包围该滑坡目标的矩形框的坐标(xmin,ymin,xmax,ymax),xmin表示该滑坡目标的矩形框在x轴上的最小值,ymin表示该滑坡目标的矩形框在y轴上的最小值,xmax表示该滑坡目标的矩形框在x轴上的最大值,ymax表示该滑坡目标的矩形框在y轴上的最大值,该坐标即是检测框的四角坐标,得到每个滑坡目标对应的检测框,每个滑坡目标对应的检测框组成新的标签数据集L2。
S11、构建YOLOV8模型,并基于第二数据集D2和新的标签数据集L2对YOLOV8模型进行训练,得到训练好的YOLOV8模型,训练好的YOLOV8模型的输出为滑坡目标的检测框,图2中,YOLOV8模型中的骨干网络、瓶颈结构和探测器均为现有技术,不再补充解释。
S12、构建滑坡语义分割模型:
本发明中,滑坡语义分割模型包括图像编码器、关键词解码器和图像解码器,还包括多个可嵌入微调模块,具体地,在视觉大模型特征提取器的每个等距全局注意力模块之前,以跳层连接的方式,连接一个可嵌入微调模块,可嵌入微调模块包括至少一个多层感知机和至少一个ReLU激活层,从而提高其对滑坡识别任务的适配能力,利用SAM对视觉大模型特征提取器进行参数初始化。
其中,将本发明中的滑坡语义分割模型定义为LSDetctor模型,具体可以在Pytorch环境下搭建LSDetctor模型,LSDetctor模型可以更好的捕捉图像切片之间的长距离依赖关系。可嵌入微调模块由两组多层感知机组成和两层ReLU激活层组成。可嵌入微调模块可以让模型在充分利用预训练ViT大模型提取能力的同时更加适配下游任务,从而实现模型在较小的计算代价下完成迁移学习。图像编码器的输入为1024×1024×3大小的图像,图像编码器的输出是经过patch嵌入操作和ViT模块处理的16×16的图像特征嵌入。图像解码器由ViT模块以及两层多层感知机组成,用于将图像特征嵌入信息还原成与输入图像大小一致的标签数据。除了接收嵌入的图像特征之外,图像解码器还接受关键词解码器的输出信息。关键词解码器的输入为以正负坐标点及检测框等提示信息,输出为提示信息在高维空间的特征映射。LSDetctor的图像编码器由在海量自然图像上训练得到的SAM大模型进行参数初始化而来,因此具有较强的通用语义分割性能,通过可嵌入微调模块可以提高该模型对于滑坡识别任务的适配性。
针对二值化处理后的标签数据集L1中的每个二值化处理后的标签,在L1中的每个二值化处理后的标签中的数值为1的区域内随机生成5个正样本点Point′POS,从数值为0的区域内随机生成5个负样本点Point′NAG,由m组[Point′POS,Point′NAG],以及L2中的m组检测框,构成第二数据集D2对应的m组真实的滑坡语义提示信息,并利用第二数据集D2、二值化处理后的标签数据集L1和第二数据集D2对应的m组真实的滑坡语义提示信息,对滑坡语义分割模型进行训练,得到训练好的滑坡语义分割模型。
S13、对待识别滑坡图像的滑坡目标的检测框进行特征可视化,获取待识别滑坡图像的滑坡目标的注意力热图,在注意力热图中的第一概率值范围内随机生成多个正样本点,在注意力热图中的第二概率值范围内随机生成多个负样本点,所有随机生成的正样本点、负样本点和目标的检测框,构成待识别滑坡图像的滑坡语义提示信息,其中:
1)第一概率值范围为0.75至1,第二概率值范围为0.05至0.25,负样本点的数量为5个,正样本点的数量为5个;
2)计算待识别滑坡图像的滑坡目标的检测框对应的注意力热图的过程如下:
假设训练好的YOLOV8模型的最后一层卷积层的输出的特征图为A。然后,计算滑坡目标C对于特征图A的梯度接下来,对/>进行全局平均池化,得到权重xC,权重xC表示滑坡目标C对于不同位置特征的重要性。最后,将权重xC与特征图A进行加权叠加,得到可视化的滑坡目标的注意力热图Sc,以实现对滑坡目标的检测框的特征可视化,得到权重xC的计算过程表示如下:
其中,Z是梯度的尺寸,Aij是特征图A的第(i,j)个位置的激活值。得到可视化的注意力热图Sc的计算过程如下:
Sc=ReLU(∑i ∑j xC·Aij) (2)
其中,ReLU(∑i ∑j xC·Aij)表示对(∑i ∑j xC·Aij)取非负值。
3)从注意力热图Sc中选取概率值介于0.75至1区间的部分,随机生成5个正样本点PointPOS,从概率值在0.05至0.25区间的部分,随机生成5个负样本点PointNAG,所有正样本点PointPOS、所有负样本PointNAG以及待识别滑坡图像的滑坡目标的检测框Bbox构成待识别滑坡图像的滑坡目标的滑坡语义提示信息。
其中,Bbox=ModelYOLO(img) (3)
ModelYOLO表示训练好的训练好的YOLOV8模型,img表示待识别滑坡图像。
S13、将待识别滑坡图像的滑坡语义提示信息输入训练好的滑坡语义分割模型,得到待识别滑坡图像的语义分割掩膜。具体地:
利用训练好的YOLOV8模型对无标签的滑坡数据即待识别滑坡图像进行预测,得到待识别滑坡图像的滑坡语义提示信息:[PointPOS,PointNAG]和[Bbox],将滑坡数据和语义提示信息输入到训练好的滑坡语义分割模型Modelfinal,具体地:待识别滑坡图像的滑坡语义提示信息被输入至关键词提示器映射为特征向量再传入图像解码器中。
其中,利用公式(4)对任一无标签的滑坡影像即待识别滑坡图像进行预测可获得相应的滑坡语义分割掩膜结果即得到待识别滑坡图像的语义分割掩膜。
M = Modelfinal{img,([ PointPOS, PointNAG],[ Bbox])} (4)
其中,M为待识别滑坡图像的语义分割掩膜。
得到的YOLOV8模型对无标签的滑坡数据进行预测得到滑坡语义提示信息,同时将滑坡数据和语义提示信息输入到最终模型中得到滑坡的语义分割掩膜,从而实现对滑坡边界的准确识别,由于该模型基于大模型微调而来,在识别精度上优于传统语义分割网络,且具有较好的泛化能力。
本发明提出一种基于视觉大模型的滑坡自动识别方法,通过海量滑坡样本数据训练空间可泛化的滑坡语义提示信息生成模型,结合视觉大模型完成滑坡目标的自动识别和语义分割。本发明提出通过增加可嵌入模块提升视觉大模型对下游任务的适配能力的方法,有效的解决视觉大模型难以进行迁移学***具有重要意义。
在上述各实施例中,虽然对步骤进行了编号S1、S2等,但只是本发明给出的具体实施例,本领域的技术人员可根据实际情况调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
如图4所示,本发明实施例的一种基于视觉大模型的滑坡自动识别***200,包括构建训练模块201、获取模块202和识别模块203;
构建训练模块201用于:构建滑坡语义分割模型,对滑坡语义分割模型进行训练,得到训练好的滑坡语义分割模型,其中,滑坡语义分割模型的输入为滑坡语义提示信息,滑坡语义分割模型的输出为滑坡的语义分割掩膜,滑坡语义分割模型的图像编码器包括视觉大模型特征提取器;
获取模块202用于:利用训练好的预设深度学习模型,得到待识别滑坡图像的滑坡目标的检测框,根据待识别滑坡图像的滑坡目标的检测框,得到待识别滑坡图像的滑坡语义提示信息;
识别模块203用于:将待识别滑坡图像的滑坡语义提示信息输入训练好的滑坡语义分割模型,得到待识别滑坡图像的语义分割掩膜。
可选地,在上述技术方案中,在视觉大模型特征提取器的每个等距全局注意力模块之前,以跳层连接的方式,连接一个可嵌入微调模块,可嵌入微调模块包括至少一个多层感知机和至少一个ReLU激活层。
可选地,在上述技术方案中,获取模块202具体用于:
对待识别滑坡图像滑坡目标的检测框进行特征可视化,得到待识别滑坡图像的滑坡目标的注意力热图,在注意力热图中的第一概率值范围内随机生成多个正样本点,在注意力热图中的第二概率值范围内随机生成多个负样本点,所有随机生成的正样本点、负样本点和待识别滑坡图的滑坡目标的检测框,构成待识别滑坡图像的滑坡语义提示信息。
可选地,在上述技术方案中,预设深度学习模型为YOLOV8模型。
需要说明的是,上述实施例提供的一种基于视觉大模型的滑坡自动识别***200的有益效果与上述一种基于视觉大模型的滑坡自动识别方法的有益效果相同,在此不再赘述。此外,上述实施例提供的***在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将***根据实际情况划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的***与方法实施例属于同一构思,其具体实现过程详见方法实施例,在此不再赘述。
如图5所示,本发明实施例的一种计算机设备300,计算机设备300包括处理器320,处理器320与存储器310耦合,存储器310中存储有至少一条计算机程序330,至少一条计算机程序330由处理器320加载并执行,以使计算机设备300实现上述任一项基于视觉大模型的滑坡自动识别方法,具体地:
计算机设备300可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器320(Central Processing Units,CPU)和一个或多个存储器310,其中,该一个或多个存储器310中存储有至少一条计算机程序330,该至少一条计算机程序330由该一个或多个处理器320加载并执行,以使该计算机设备300实现上述实施例提供的任一项基于视觉大模型的滑坡自动识别方法。当然,该计算机设备300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备300还可以包括其他用于实现设备功能的部件,在此不做赘述。
本发明实施例的一种计算机可读存储介质,计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一项基于视觉大模型的滑坡自动识别方法。
可选地,计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一项基于视觉大模型的滑坡自动识别方法。
需要说明的是,本申请的说明书和权利要求书中的术语“第一”、“第二”、等是用于区别类似的对象,而代表对特定的顺序或先后次序进行限定。在适当情况下对于类似的对象的使用顺序可以互换,以便这里描述的本申请的实施例能够以除了图示或描述的顺序以外的顺序实施。
所属技术领域的技术人员知道,本发明可以实现为***、方法或计算机程序产品,因此,本发明可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“***”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于视觉大模型的滑坡自动识别方法,其特征在于,包括:
构建滑坡语义分割模型,对所述滑坡语义分割模型进行训练,得到训练好的滑坡语义分割模型,其中,所述滑坡语义分割模型的输入为滑坡语义提示信息,所述滑坡语义分割模型的输出为滑坡的语义分割掩膜,滑坡语义分割模型的图像编码器包括视觉大模型特征提取器;
利用训练好的预设深度学习模型,得到待识别滑坡图像的滑坡目标的检测框,根据所述待识别滑坡图像的滑坡目标的检测框,得到所述待识别滑坡图像的滑坡语义提示信息;
将所述待识别滑坡图像的滑坡语义提示信息输入所述训练好的滑坡语义分割模型,得到所述待识别滑坡图像的语义分割掩膜。
2.根据权利要求1所述的一种基于视觉大模型的滑坡自动识别方法,其特征在于,在所述视觉大模型特征提取器的每个等距全局注意力模块之前,以跳层连接的方式,连接一个可嵌入微调模块,可嵌入微调模块包括至少一个多层感知机和至少一个ReLU激活层。
3.根据权利要求1或2所述的一种基于视觉大模型的滑坡自动识别方法,其特征在于,根据所述待识别滑坡图像的滑坡目标的检测框,得到所述待识别滑坡图像的滑坡语义提示信息,包括:
对所述待识别滑坡图像滑坡目标的检测框进行特征可视化,得到所述待识别滑坡图像的滑坡目标的注意力热图,在所述注意力热图中的第一概率值范围内随机生成多个正样本点,在注意力热图中的第二概率值范围内随机生成多个负样本点,所有随机生成的正样本点、负样本点和所述待识别滑坡图的滑坡目标的检测框,构成所述待识别滑坡图像的滑坡语义提示信息。
4.根据权利要求1或2所述的一种基于视觉大模型的滑坡自动识别方法,其特征在于,所述预设深度学习模型为YOLOV8模型。
5.一种基于视觉大模型的滑坡自动识别***,其特征在于,包括构建训练模块、获取模块和识别模块;
所述构建训练模块用于:构建滑坡语义分割模型,对滑坡语义分割模型进行训练,得到训练好的滑坡语义分割模型,其中,所述滑坡语义分割模型的输入为滑坡语义提示信息,所述滑坡语义分割模型的输出为滑坡的语义分割掩膜,滑坡语义分割模型的图像编码器包括视觉大模型特征提取器;
所述获取模块用于:利用训练好的预设深度学习模型,得到待识别滑坡图像的滑坡目标的检测框,根据所述待识别滑坡图像的滑坡目标的检测框,得到所述待识别滑坡图像的滑坡语义提示信息;
所述识别模块用于:将所述待识别滑坡图像的滑坡语义提示信息输入所述训练好的滑坡语义分割模型,得到所述待识别滑坡图像的语义分割掩膜。
6.根据权利要求5所述的一种基于视觉大模型的滑坡自动识别***,其特征在于,在所述视觉大模型特征提取器的每个等距全局注意力模块之前,以跳层连接的方式,连接一个可嵌入微调模块,可嵌入微调模块包括至少一个多层感知机和至少一个ReLU激活层。
7.根据权利要求5或6所述的一种基于视觉大模型的滑坡自动识别***,其特征在于,所述获取模块具体用于:
对所述待识别滑坡图像滑坡目标的检测框进行特征可视化,得到所述待识别滑坡图像的滑坡目标的注意力热图,在所述注意力热图中的第一概率值范围内随机生成多个正样本点,在注意力热图中的第二概率值范围内随机生成多个负样本点,所有随机生成的正样本点、负样本点和所述待识别滑坡图的滑坡目标的检测框,构成所述待识别滑坡图像的滑坡语义提示信息。
8.根据权利要求5或6所述的一种基于视觉大模型的滑坡自动识别***,其特征在于,所述预设深度学习模型为YOLOV8模型。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器与存储器耦合,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至4任一项权利要求所述的一种基于视觉大模型的滑坡自动识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现如权利要求1至4任一项权利要求所述的一种基于视觉大模型的滑坡自动识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311352030.4A CN117671480A (zh) | 2023-10-18 | 2023-10-18 | 基于视觉大模型的滑坡自动识别方法、***和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311352030.4A CN117671480A (zh) | 2023-10-18 | 2023-10-18 | 基于视觉大模型的滑坡自动识别方法、***和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117671480A true CN117671480A (zh) | 2024-03-08 |
Family
ID=90067047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311352030.4A Pending CN117671480A (zh) | 2023-10-18 | 2023-10-18 | 基于视觉大模型的滑坡自动识别方法、***和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671480A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118135425A (zh) * | 2024-05-07 | 2024-06-04 | 江西啄木蜂科技有限公司 | 一种自然保护地中关注区域的变化检测方法 |
-
2023
- 2023-10-18 CN CN202311352030.4A patent/CN117671480A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118135425A (zh) * | 2024-05-07 | 2024-06-04 | 江西啄木蜂科技有限公司 | 一种自然保护地中关注区域的变化检测方法 |
CN118135425B (zh) * | 2024-05-07 | 2024-07-05 | 江西啄木蜂科技有限公司 | 一种自然保护地中关注区域的变化检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW202207077A (zh) | 一種文本區域的定位方法及裝置 | |
CN112016638A (zh) | 一种钢筋簇的识别方法、装置、设备及存储介质 | |
CN113537180B (zh) | 树障的识别方法、装置、计算机设备和存储介质 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN110704652A (zh) | 基于多重注意力机制的车辆图像细粒度检索方法及装置 | |
CN113947188A (zh) | 目标检测网络的训练方法和车辆检测方法 | |
Mewada et al. | Automatic room information retrieval and classification from floor plan using linear regression model | |
CN117671480A (zh) | 基于视觉大模型的滑坡自动识别方法、***和计算机设备 | |
CN117274768A (zh) | 目标检测网络的训练方法、目标检测方法及相关装置 | |
CN113627440A (zh) | 一种基于轻量级神经网络的大规模点云语义分割方法 | |
CN112149612A (zh) | 一种基于深度神经网络的海洋生物识别***及识别方法 | |
CN116503399A (zh) | 基于yolo-afps的绝缘子污闪检测方法 | |
CN117218545A (zh) | 基于LBP特征与改进Yolov5的雷达图像检测方法 | |
CN113569600A (zh) | 物体重识别的方法、装置、电子设备及存储介质 | |
CN115018910A (zh) | 点云数据中目标的检测方法、装置和计算机可读存储介质 | |
CN114332533A (zh) | 一种基于DenseNet的滑坡图像识别方法和*** | |
CN114638953A (zh) | 点云数据的分割方法、装置及计算机可读存储介质 | |
Yu et al. | A lightweight ship detection method in optical remote sensing image under cloud interference | |
CN113971755B (zh) | 基于改进yolov3模型的全天候海面目标检测方法 | |
CN116030347B (zh) | 一种基于注意力网络的高分辨率遥感影像建筑物提取方法 | |
Wang et al. | An improved building and road detection algorithm based on YOLO8 based algorithm | |
CN116977629A (zh) | 语义分割模型训练方法、语义分割方法和装置 | |
Yinghe et al. | YOLO-L: A YOLO-Based Algorithm for Remote Sensing Image Target Detection | |
Popereshnyak et al. | Neural Networks to Recognize Ships on Satellite Images | |
Mosalam et al. | Structural Damage Localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |