CN117079048A

CN117079048A - 基于clip模型的地质灾害图像识别方法及***

Info

Publication number: CN117079048A
Application number: CN202311092981.2A
Authority: CN
Inventors: 刘卓娅; 文屹; 邓松; 欧阳广泽; 张迅; 吕黔苏; 王冕; 范强; 吴建蓉; 黄军凯; 罗鑫; 颜康; 张啟黎; 丁江桥; 赵超; 代吉玉蕾; 肖书舟; 彭赤; 余昌皓; 曹雷
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-11-17
Anticipated expiration: 2043-08-29
Also published as: CN117079048B

Abstract

本发明公开了基于CLIP模型的地质灾害图像识别方法及***，涉及地质灾害图像分类领域，包括收集地质灾害相关的数据集，对数据集进行预处理；对CLIP模型进行预训练，将预处理后的数据集输入至CLIP模型，对数据进行特征整提取和编码；衡量图像特征向量和文本特征向量之间的相似度，通过最大化相似对和最小化不相似对，对特征向量行相似度训练，并训练CLIP模型使其逐渐学习到图像和文本的共享特征空间；使用测试集对训练好的模型进行验证和调参，验证完毕后输入新的地质灾害图像，对地质灾害类型进行预测。本发明训练后的CLIP模型能够对地质灾害图像和相关文本的联合表示进行分析，可以更准确地识别和分类不同类型的地质灾害。

Description

基于CLIP模型的地质灾害图像识别方法及***

技术领域

本发明涉及地质灾害图像分类领域，特别是基于CLIP模型的地质灾害图像识别方法及***。

背景技术

在目前图像分类领域中，传统的深度学习模型需要用到大量的格式化标注数据，这些标注数据获取通常成本高昂，且模型需要定义好类别数量。为了简单起见，不光是从收集数据集的简单性还是从模型训练的简单性，直接定义一个固定的提前定义好的标签集合，采用有限制性的监督信号，从而也限制了模型本身的泛化性。当要识别新物体时，总是收集新的数据，进行新的训练，具有很大的局限性。而且，传统的模型的迁移泛化能力很低，根据ImageNet数据集训练出来的传统有监督模型一旦识别与训练集图片有明显差异的场景下效果就很差。

与此同时，互联网上面已经存在了大量的图像文本对，实际上这些素材可以作为已经标注好的数据集，利用这些数据集进行训练，既能解决获取标注数据成本高昂的问题，同时也因为互联网上的数据量比较大和数据本身差异较大，更容易让我们获得泛化能力较强的模型。

CLIP(Contrastive Language–Image Pretraining)是一种由OpenAI提出的先进深度学习模型。与以往的图像分类模型不同，Clip并没有使用大规模的标注图像数据集来进行训练，而是通过自监督学习的方式从未标注的图像和文本数据中进行预训练，使得模型能够理解图像和文本之间的语义联系。为图像和文本的理解和应用提供了新的思路和方法。它在自然语言处理和计算机视觉领域有着广泛的应用前景，并为实现跨模态的智能任务提供了新的解决方案。

虽然CLIP模型在跨语言多模态任务中表现出色，但在处理中文时仍然存在一些挑战和缺点。中文和英文在语言结构和分词方式上存在差异。CLIP模型通常需要对文本进行分词，但中文分词可能更复杂，涉及到词汇没有明显边界的问题。这可能导致分词错误，影响模型的理解能力。中文拥有庞大的词汇量和许多多义词，这可能导致模型在理解上下文时产生歧义。CLIP在处理多义词和上下文的混合时可能会出现困难。相对于英文，中文数据量可能相对较少，这可能会影响模型的泛化性能。CLIP模型在处理中文时可能需要更多的数据来获得良好的性能。

本发明目的：针对CLIP模型在处理大量的图像数据和中英混杂的文本时，表现不佳的现象，本发明通过对图像和文本信息进行处理，对CLIP模型进行高精度训练，以弥补CLIP模型的不足。

发明内容

鉴于上述存在的问题，提出了本发明。

因此，本发明所要解决的问题在于如何训练CLIP模型，使模型可以很好地处理大量的图像数据和中英混淆的文本。

为解决上述技术问题，本发明提供如下技术方案：基于CLIP模型的地质灾害图像识别方法，其包括，收集地质灾害相关的数据集，对数据集进行预处理；对CLIP模型进行预训练，将预处理后的数据集输入至CLIP模型，对数据进行特征整提取和编码；衡量图像特征向量和文本特征向量之间的相似度，通过最大化相似对和最小化不相似对，对特征向量行相似度训练，并训练CLIP模型使其逐渐学习到图像和文本的共享特征空间；使用测试集对训练好的模型进行验证和调参，验证完毕后输入新的地质灾害图像，对地质灾害类型进行预测。

作为本发明所述基于CLIP模型的地质灾害图像识别方法的一种优选方案，其中：所述数据集包括全国范围内的各类地质灾害事件，以及各类地质灾害的发生地点、规模、影响范围的详细信息；所述预处理包括图像预处理和文本预处理；所述图像预处理包括，将图像变为3通道的RGB图像，像素为224x224或320x320，对RGB图像进行缩放，缩放为预设大小并裁剪出地质灾害敏感区域，在将裁剪出来的图片像素除以255，使像素映射到0到1的范围；所述文本预处理包括，对文本进行分词，去除掉情态词及无意义词汇，提取地质信息词并将词嵌入编码器内，转化为固定维度的文本向量表示。

作为本发明所述基于CLIP模型的地质灾害图像识别方法的一种优选方案，其中：所述预训练包括，通过将图像拆分成一系列的图块并对这些图块进行变换，ViT将输入图片拆分成16*16个patches，每个patch做一次线性变换降维同时嵌入位置信息，然后送入Transformer；针对中文，一个完整的词的部分字被mask，则同属词的其他部分也会被mask，即对组成同一个词的汉字全部进行Mask，即为全词Mask，预训练过程中，模型自动学习词的语义信息，训练完成后字的embedding具有词的语义信息。

作为本发明所述基于CLIP模型的地质灾害图像识别方法的一种优选方案，其中：所述特征提取和编码包括，将输入图像划分为16x16或32x32大小的图块每个图块作为一个词汇，将每个图块通过线性变换转换为一个图像向量，将向量作为输入序列传递给Transformer的编码器，对图像中的特征进行建模，每个图块向量均能与其他图块向量进行交互；向Transformer引入位置编码，在经过多层Transformer编码后，模型对所有图块的特征进行全局平均池化，得到整个图像的表示；使用BertTokenizer对文本进行编码，利用Transformers中BERT类加载预训练模型，将编码后的文本输入到模型中进行分类。

作为本发明所述基于CLIP模型的地质灾害图像识别方法的一种优选方案，其中：所述相似度训练包括，从训练好的数据集中取出所有图像向量，定义一个为正样本，其余向量为负样本，将正样本记为锚样本0，计算锚样本0与负样本的相似度，将相似度小于所设阈值的负样本归类到0样本集中，将大于所设阈值的负样本归类到1样本集中，直到计算完所有负样本与锚样本0的相似度；从1样本集中随机取一个样本定义为正样本1，记为锚样本1，其余样本定义为1集负样本，计算锚样本1与1集负样本的相似度，将相似度小于所设阈值的负样本归类到1样本集中，将大于所设阈值的负样本归类到2样本集中，直到计算完所有1集负样本与锚样本1的相似度；以此类推，直至所有样本集中的样本间的相似度均小于所设阈值为止；将每个样本集中的样本单位转化为文本向量单位，从训练好的数据集中取出所有文本向量，每个文本向量与各个样本集中的样本进行相似度计算，计算每个文本向量与不同样本集间的平均相似度，将每个文本向量归类到与不同样本集间平均相似度最小的样本集中；锚样本和负样本对之间的相似度，具体公式如下：

其中，N表示为正负样本对的数量，anchor_i表示第i个正样本的锚点嵌入向量，positive_i表示第i个正样本的正向嵌入向量，negative_j表示第j个负样本的负向嵌入向量，sim(a,b)表示向量a和b之间的余弦相似度。

作为本发明所述基于CLIP模型的地质灾害图像识别方法的一种优选方案，其中：所述训练CLIP模型包括，将训练后的样本集载入CLIP模型中进行学习，学习完毕后进行图像识别训练和文本识别训练；所述图像识别训练包括，向CLIP模型随机输入10张地质灾害图片，检测CLIP模型分别对每张图片的输出文本内容，若出现文本内容与图片信息匹配不一致时，当匹配错误组数＞3时则判断为样本集训练出现误差，采集匹配错误组的图片与文本信息，找到图片与文本各自所对应的样本集，对样本集进行错误修正，用正确的图片信息和文本信息替换错误的图片与文本信息，形成新的样本集，将新的样本集从新载入CLIP模型中进行学习；当匹配错误组数≤3时判断为CLIP模型误差，将学习率设为0.01，计算错误输出的文本与实际文本之间的损失，计算损失对模型参数的梯度，根据梯度和学习率，更新模型的参数，更新规则为：新参数＝旧参数-学习率×梯度；若文本内容与图片信息均匹配一致，则重复上述图像识别训练内容9次，若信息匹配仍全部一致则完成训练，若仍存在不一致的组数则继续进行训练直至无错误组数发生；所述文本识别训练包括，向CLIP模型分别输入两组相同文本内容的地质灾害语句，一组为纯中文，另一组为中英文混杂，每组中的语句数均为10句，分别检测CLIP模型对两组文本内容的输出图片信息；若出现图片信息与文本内容匹配不一致时，当纯中文组匹配错误句数＞3，且中英文混杂组匹配错误句＞3时，则判断为样本集训练出现误差，采集匹配错误句的图片与文本信息，找到图片与文本各自所对应的样本集，对样本集进行错误修正，用正确的图片信息和文本信息替换错误的图片与文本信息，形成新的样本集，将新的样本集从新载入CLIP模型中进行学习；当纯中文组匹配错误句数＞3，且中英文混杂组匹配错误句≤3或＝0时，则判断为CLIP模型误差且文本识别偏英文，若中英文混杂组匹配错误句＝0，则校对中文与英文内容的匹配度，将错误的匹配内容进行修正，若中英文混杂组匹配错误句≤3时，则计算错误输出的图片与实际图片之间的损失梯度，并更新模型的参数；当纯中文组匹配错误句数≤3，且中英文混杂组匹配错误句≤3时，则判断为CLIP模型误差，将纯中文组的错误语句与中英文混杂组的错误语句进行比对，判断是否为同一内容语句内容，若为同一语句则计算错误输出的图片与实际图片之间的损失梯度，并更新模型的参数，若不为同一语句则需先校对中文与英文内容的匹配度并进行修正，修正后在进行损失梯度的计算和模型参数的更新；当纯中文组匹配错误句数＝0，且中英文混杂组匹配错误句＝0时，则重复上述文本识别训练内容9次，若信息匹配仍全部一致则完成训练，若仍存在不一致的语句则继续进行训练直至无语句错误发生。

作为本发明所述基于CLIP模型的地质灾害图像识别方法的一种优选方案，其中：所述验证和调参包括，将测试集分成k个相等大小的子集，每个子集被称为一个折叠，将当前折叠作为验证集，将其他所有折叠合并为训练集，使用训练集训练模型，并使用当前折叠作为验证集来评估模型性能，记录当前折叠上的性能评估指标；完成k次迭代后，对所有折叠的性能评估指标进行平均化，得到最终的验证性能估计，选择最佳的超参数配置，分析验证的结果，得到模型在不同折叠上的性能指标。

本发明的另外一个目的是提供一种基于CLIP模型的地质灾害图像识别***，此***使CLIP模型学习到了丰富的图像和文本表示，这些表示可以被共享和应用于地质灾害监测和预警的任务中，促进知识的共享与协作。

为解决上述技术问题，本发明提供如下技术方案：基于CLIP模型的地质灾害图像识别方法的***，包括：数据处理模块、训练模块和验证模块；所述数据处理模块用于采集数据并进行预处理，采集全国范围内的各类地质灾害事件，以及各类地质灾害的发生地点、规模、影响范围的详细信息，对文本信息和图像信息进行预处理；所述训练模块用于训练CLIP模型，对CLIP模型进行预训练，将预处理后的数据集输入至CLIP模型，对数据进行特征整提取和编码，衡量图像特征向量和文本特征向量之间的相似度，通过最大化相似对和最小化不相似对进行相似度训练，采用随机梯度下降训练CLIP模型使其逐渐学习到图像和文本的共享特征空间；所述验证模块用于对模型进行验证和调参数，使用测试集对训练好的模型进行验证和调参，验证完毕后输入新的地质灾害图像，对地质灾害类型进行预测。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述基于CLIP模型的地质灾害图像识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述基于CLIP模型的地质灾害图像识别方法的步骤。

本发明有益效果为：通过本发明方法训练后的CLIP模型能够通过联合学习图像和文本，理解和分析这些不同模态的数据。通过对地质灾害图像和相关文本的联合表示进行分析，可以更准确地识别和分类不同类型的地质灾害，辅助决策和应急响应。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。其中：

图1为实施例1中基于CLIP模型的地质灾害图像识别方法的流程图。

图2为实施例3中基于CLIP模型的地质灾害图像识别***的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1，为本发明第一个实施例，该实施例提供了基于CLIP模型的地质灾害图像识别方法，如图1所示包括：

步骤1：收集地质灾害相关的数据集，对数据集进行预处理。

本实施例采用了中国地质灾害遥感影像数据集，该数据集由中国地质灾害监测与研究院提供，包含了全国范围内各种地质灾害类型的遥感影像数据，包括崩塌、泥石流、地面沉降、地裂缝、滑坡等地质灾害。该数据集可用于地质灾害分类和识别的研究。

利用中国地质灾害遥感影像数据集构建训练集及测试集，训练集由崩塌、泥石流、地面沉降、地裂缝、滑坡5大类数据组成，每种数据各200张，训练集共100张。测试集由崩塌、泥石流、地面沉降、地裂缝、滑坡5大类各50张数据组成，共250张。

为每张图像生成简短的文本描述，描述图像中的地质灾害情况。描述如下表示，崩塌：图像显示了一处崩塌现场，山体表面明显滑坡，导致土石混合物滚落下山，对下方村庄造成严重影响，在这张图像中，山坡上的土地发生严重崩塌，形成了一个大型的滑坡区，土石混合物顺坡流动，造成周边环境受损，这张遥感影像捕捉到了一次山体崩塌事件，巨大的岩石和土壤从陡峭的斜坡上滑落，导致道路被堵塞。

泥石流：图像显示了一股泥石流正在山谷中蔓延，土石混合物带着砂石和水流迅速流动，对周围地区造成严重冲击，这张遥感影像捕捉到了泥石流正在山坡上流动，泥沙与水混合形成的流体呈现流动状态，可能对下游地区造成危害，在这个图像中，泥石流已经淹没了一部分道路和建筑物，导致附近地区的废墟和泥浆流动的痕迹可见。

地面沉降：这张图像显示了一片地面沉降的区域，建筑物倾斜、道路凹陷，表明地下水位变化可能引发了地面沉降，图像中可见建筑物和路面出现下沉现象，可能是地下水抽取导致地面沉降，引发了基础设施损害，在这张遥感影像中，地面呈现凹陷状，房屋和道路出现下沉，可能与地下水位下降有关。

地裂缝：图像捕捉到一处地裂缝，地表呈现明显的断裂，地裂缝向两侧延伸，可能是地下构造运动引发的地壳变形，这张遥感影像显示了一道明显的地裂缝，地面在断裂处分开，可能是地震引发的地壳断裂，在这个图像中，地表出现了一道宽度逐渐扩大的地裂缝，表明地壳产生了较大的变动。

滑坡：图像显示了一处滑坡事件，大块岩石从山体上滚落下来，对山下道路和建筑物造成严重影响，在这张遥感影像中，山体上的岩石明显脱落，形成了一个滑坡区，可能对下方村庄和交通造成威胁，这张图像捕捉到了一次滑坡事件，岩石和土壤从山坡上滑下，可能对附近地区造成破坏。

对图像进行预处理，将图像变为3通道的RGB图像，像素为224x224或320x320，对RGB图像进行缩放，缩放为预设大小并裁剪出地质灾害敏感区域，在将裁剪出来的图片像素除以255，使像素映射到0到1的范围；

对文本进行预处理，对文本进行分词，去除掉情态词及无意义词汇，去除文本中的特殊字符、标点符号、HTML标签等无关信息，利用中文分词jieba库对地质灾害文本进行分词操作，将文本划分为词语，去除地质灾害文本描述中停用词，即那些频率较高但通常没有实际含义的词语，如“的”、“是”、“在”等提取地质信息词并将词嵌入编码器内，转化为固定维度的文本向量表示。

步骤2：对CLIP模型进行预训练，将预处理后的数据集输入至CLIP模型，对数据进行特征整提取和编码。

对CLIP模型进行预训练，通过将图像拆分成一系列的图块并对这些图块进行变换，ViT将输入图片拆分成16*16个patches，每个patch做一次线性变换降维同时嵌入位置信息，然后送入Transformer。

针对中文，如果一个完整的词的部分字被mask，则同属词的其他部分也会被mask，即对组成同一个词的汉字全部进行Mask，即为全词Mask，预训练过程中，模型自动学习词的语义信息，训练完成后字的embedding具有词的语义信息。

将输入图像划分为固定大小的图块(通常是16x16或32x32的小图像块)，每个图块作为一个“词汇”，类似于自然语言处理中的单词。

其次将每个图块通过线性变换(嵌入层)转换为一个向量，以便在Transformer中进行处理。这些向量作为输入序列传递给Transformer的编码器。

像自然语言处理中的Transformer一样，Vision Transformer采用多头注意力机制和前馈神经网络层，以对图像中的特征进行建模。每个图块向量都可以与其他图块向量进行交互。

在Transformer中，位置信息是缺失的，因此ViT需要引入位置编码，以便模型能够理解不同位置上的图块之间的关系。

在经过多层Transformer编码后，模型通常会对所有图块的特征进行全局平均池化，得到整个图像的表示。

首先使用BertTokenizer对文本进行编码。

利用Transformers中BertForSequenceClassification类加载预训练模型，将编码后的文本输入到模型中进行分类。

步骤3：衡量图像特征向量和文本特征向量之间的相似度，通过最大化相似对和最小化不相似对，对特征向量行相似度训练，并训练CLIP模型使其逐渐学习到图像和文本的共享特征空间。

相似度训练包括，从训练好的数据集中取出所有图像向量，定义一个为正样本，其余向量为负样本，将正样本记为锚样本0，计算锚样本0与负样本的相似度，将相似度小于所设阈值的负样本归类到0样本集中，将大于所设阈值的负样本归类到1样本集中，直到计算完所有负样本与锚样本0的相似度；

从1样本集中随机取一个样本定义为正样本1，记为锚样本1，其余样本定义为1集负样本，计算锚样本1与1集负样本的相似度，将相似度小于所设阈值的负样本归类到1样本集中，将大于所设阈值的负样本归类到2样本集中，直到计算完所有1集负样本与锚样本1的相似度，以此类推，直至所有样本集中的样本间的相似度均小于所设阈值为止。

将每个样本集中的样本单位转化为文本向量单位，从训练好的数据集中取出所有文本向量，每个文本向量与各个样本集中的样本进行相似度计算，计算每个文本向量与不同样本集间的平均相似度，将每个文本向量归类到与不同样本集间平均相似度最小的样本集中。

锚样本和负样本对之间的相似度，具体公式如下：

CLIP模型具体训练过程如下：

将训练后的样本集载入CLIP模型中进行学习，学习完毕后进行图像识别训练和文本识别训练。

图像识别训练包括，向CLIP模型随机输入10张地质灾害图片，检测CLIP模型分别对每张图片的输出文本内容，若出现文本内容与图片信息匹配不一致时，当匹配错误组数＞3时则判断为样本集训练出现误差，采集匹配错误组的图片与文本信息，找到图片与文本各自所对应的样本集，对样本集进行错误修正，用正确的图片信息和文本信息替换错误的图片与文本信息，形成新的样本集，将新的样本集从新载入CLIP模型中进行学习。

当匹配错误组数≤3时判断为CLIP模型误差，将学习率设为0.01，计算错误输出的文本与实际文本之间的损失，计算损失对模型参数的梯度，根据梯度和学习率，更新模型的参数，更新规则为：新参数＝旧参数-学习率×梯度。

若文本内容与图片信息均匹配一致，则重复上述图像识别训练内容9次，若信息匹配仍全部一致则完成训练，若仍存在不一致的组数则继续进行训练直至无错误组数发生。

文本识别训练包括，向CLIP模型分别输入两组相同文本内容的地质灾害语句，一组为纯中文，另一组为中英文混杂，每组中的语句数均为10句，分别检测CLIP模型对两组文本内容的输出图片信息。

若出现图片信息与文本内容匹配不一致时，当纯中文组匹配错误句数＞3，且中英文混杂组匹配错误句＞3时，则判断为样本集训练出现误差，采集匹配错误句的图片与文本信息，找到图片与文本各自所对应的样本集，对样本集进行错误修正，用正确的图片信息和文本信息替换错误的图片与文本信息，形成新的样本集，将新的样本集从新载入CLIP模型中进行学习。

当纯中文组匹配错误句数＞3，且中英文混杂组匹配错误句≤3或＝0时，则判断为CLIP模型误差且文本识别偏英文，若中英文混杂组匹配错误句＝0，则校对中文与英文内容的匹配度，将错误的匹配内容进行修正，若中英文混杂组匹配错误句≤3时，则计算错误输出的图片与实际图片之间的损失梯度，并更新模型的参数。

当纯中文组匹配错误句数≤3，且中英文混杂组匹配错误句≤3时，则判断为CLIP模型误差，将纯中文组的错误语句与中英文混杂组的错误语句进行比对，判断是否为同一内容语句内容，若为同一语句则计算错误输出的图片与实际图片之间的损失梯度，并更新模型的参数，若不为同一语句则需先校对中文与英文内容的匹配度并进行修正，修正后在进行损失梯度的计算和模型参数的更新。

当纯中文组匹配错误句数＝0，且中英文混杂组匹配错误句＝0时，则重复上述文本识别训练内容9次，若信息匹配仍全部一致则完成训练，若仍存在不一致的语句则继续进行训练直至无语句错误发生。

说明：经过实验得到本发明所采用的CLIP模型最大误差率为30％，所以本发明每组采用10个数据，定“3”为判断阈值符合实际应用及工况，且为样本集误差与CLIP模型误差隔阂判断的最优值。

步骤4：使用测试集对训练好的模型进行验证和调参，验证完毕后输入新的地质灾害图像，对地质灾害类型进行预测。

将原始数据集分成k个(通常是5或10)相等大小的子集，每个子集被称为一个“折叠”(fold)。

迭代：对于每个折叠，执行以下步骤：

a.验证集和训练集：将当前折叠作为验证集，将其他所有折叠合并为训练集。

b.训练和验证：使用训练集训练模型，并使用当前折叠作为验证集来评估模型性能。

c.记录结果：记录当前折叠上的性能评估指标，如准确率、F1分数等。

完成k次迭代后，对所有折叠的性能评估指标进行平均，得到最终的验证性能估计。

可以在不同的折叠上尝试不同的超参数值，并选择在验证集上性能最好的超参数。

分析验证的结果，了解模型在不同折叠上的性能稳定性，以及模型的泛化能力。

模型部署和应用：加载已经训练好的CLIP模型，它包括图像编码器和文本编码器。

对测试集中的每个地质灾害图像，通过图像编码器将其编码为图像特征向量。这个特征向量将捕捉图像的语义信息。

为每个地质灾害类型准备一组文本描述，这些描述应该是在训练CLIP模型时使用过的。通过文本编码器将每个文本描述编码为文本特征向量。

对于每个图像特征向量，计算它与每个地质灾害类型的文本特征向量之间的余弦相似度。余弦相似度可以度量图像和文本之间的语义相似性。

对于每个图像，选择与其余弦相似度最高的文本描述，这个描述对应的地质灾害类型即为图像的预测类型。

可以将预测结果与图像一起可视化，以便直观地查看模型的预测情况。

实施例2

本发明第二个实施例，其不同于第一个实施例的是：基于CLIP模型的地质灾害图像识别方法还包括，为对本方法中采用的技术效果加以验证说明，本实施例采用传统技术方案与本发明发放进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

将传统的CLIP模型与本发明训练后的CLIP模型进行仿真实验，得到的对比数据如下表：

表1：传统模型与本发明模型数据对比表

	图片文本处理速度	预测的准确率
			传统CLIP模型	5张/s	96.54％
训练后的CLIP模型	11张/s	98.78％

由上述对比不难看出，我方发明模型的图片文本处理速度远高于传统方法，采用传统CLIP模型时，由于大量的地质灾害图像极其复杂且规格不同，传统CLIP模型在进行识别时工作量极大，响应速度慢，增加了时间成本，为客户带来不好的体验，而我方发明训练后的CLIP模型对地质灾害类的图像具有极强的识别能力，响应速度极快，有效节省了预测时间。

而且我方发明的预测准确率也远高于传统方法，传统CLIP模型在识别时，对中英文混杂的文本识别能力差，很可能出现分词错误，影响模型的理解能力导致模型在理解上下文时产生歧义，对预测的准确率造成影响，而我方发明方法训练后的CLIP模型集成了大量的中文信息，在处理中英文混杂的文本时，具有极高的理解性，对预测的准确性具有良好的提升。

实施例3

参照图2，为本发明第三个实施例，其不同于前两个实施例的是：基于CLIP模型的地质灾害图像识别方法的***，包括数据处理模块、训练模块和验证模块；数据处理模块用于采集数据并进行预处理，采集全国范围内的各类地质灾害事件，以及各类地质灾害的发生地点、规模、影响范围的详细信息，对文本信息和图像信息进行预处理；训练模块用于训练CLIP模型，对CLIP模型进行预训练，将预处理后的数据集输入至CLIP模型，对数据进行特征整提取和编码，衡量图像特征向量和文本特征向量之间的相似度，通过最大化相似对和最小化不相似对进行相似度训练，采用随机梯度下降训练CLIP模型使其逐渐学习到图像和文本的共享特征空间；验证模块用于对模型进行验证和调参数，使用测试集对训练好的模型进行验证和调参，验证完毕后输入新的地质灾害图像，对地质灾害类型进行预测。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于CLIP模型的地质灾害图像识别方法，其特征在于：包括，

收集地质灾害相关的数据集，对数据集进行预处理；

对CLIP模型进行预训练，将预处理后的数据集输入至CLIP模型，对数据进行特征整提取和编码；

衡量图像特征向量和文本特征向量之间的相似度，通过最大化相似对和最小化不相似对，对特征向量行相似度训练，并训练CLIP模型使其逐渐学习到图像和文本的共享特征空间；

使用测试集对训练好的模型进行验证和调参，验证完毕后输入新的地质灾害图像，对地质灾害类型进行预测。

2.如权利要求1所述的基于CLIP模型的地质灾害图像识别方法，其特征在于：所述数据集包括全国范围内的各类地质灾害事件，以及各类地质灾害的发生地点、规模、影响范围的详细信息；

所述预处理包括图像预处理和文本预处理；

所述图像预处理包括，将图像变为3通道的RGB图像，像素为224x224或320x320，对RGB图像进行缩放，缩放为预设大小并裁剪出地质灾害敏感区域，在将裁剪出来的图片像素除以255，使像素映射到0到1的范围；

所述文本预处理包括，对文本进行分词，去除掉情态词及无意义词汇，提取地质信息词并将词嵌入编码器内，转化为固定维度的文本向量表示。

3.如权利要求2所述的基于CLIP模型的地质灾害图像识别方法，其特征在于：所述预训练包括，通过将图像拆分成一系列的图块并对这些图块进行变换，ViT将输入图片拆分成16*16个patches，每个patch做一次线性变换降维同时嵌入位置信息，然后送入Transformer；

针对中文，一个完整的词的部分字被mask，则同属词的其他部分也会被mask，即对组成同一个词的汉字全部进行Mask，即为全词Mask，预训练过程中，模型自动学习词的语义信息，训练完成后字的embedding具有词的语义信息。

4.如权利要求3所述的基于CLIP模型的地质灾害图像识别方法，其特征在于：所述特征提取和编码包括，将输入图像划分为16x16或32x32大小的图块每个图块作为一个词汇，将每个图块通过线性变换转换为一个图像向量，将向量作为输入序列传递给Transformer的编码器，对图像中的特征进行建模，每个图块向量均能与其他图块向量进行交互；

向Transformer引入位置编码，在经过多层Transformer编码后，模型对所有图块的特征进行全局平均池化，得到整个图像的表示；

使用BertTokenizer对文本进行编码，利用Transformers中BERT类加载预训练模型，将编码后的文本输入到模型中进行分类。

5.如权利要求4所述的基于CLIP模型的地质灾害图像识别方法，其特征在于：所述相似度训练包括，从训练好的数据集中取出所有图像向量，定义一个为正样本，其余向量为负样本，将正样本记为锚样本0，计算锚样本0与负样本的相似度，将相似度小于所设阈值的负样本归类到0样本集中，将大于所设阈值的负样本归类到1样本集中，直到计算完所有负样本与锚样本0的相似度；

从1样本集中随机取一个样本定义为正样本1，记为锚样本1，其余样本定义为1集负样本，计算锚样本1与1集负样本的相似度，将相似度小于所设阈值的负样本归类到1样本集中，将大于所设阈值的负样本归类到2样本集中，直到计算完所有1集负样本与锚样本1的相似度，以此类推，直至所有样本集中的样本间的相似度均小于所设阈值为止；

将每个样本集中的样本单位转化为文本向量单位，从训练好的数据集中取出所有文本向量，每个文本向量与各个样本集中的样本进行相似度计算，计算每个文本向量与不同样本集间的平均相似度，将每个文本向量归类到与不同样本集间平均相似度最小的样本集中；

锚样本和负样本对之间的相似度，具体公式如下：

6.如权利要求5所述的基于CLIP模型的地质灾害图像识别方法，其特征在于：所述训练CLIP模型包括，将训练后的样本集载入CLIP模型中进行学习，学习完毕后进行图像识别训练和文本识别训练；

所述图像识别训练包括，向CLIP模型随机输入10张地质灾害图片，检测CLIP模型分别对每张图片的输出文本内容，若出现文本内容与图片信息匹配不一致时，当匹配错误组数＞3时则判断为样本集训练出现误差，采集匹配错误组的图片与文本信息，找到图片与文本各自所对应的样本集，对样本集进行错误修正，用正确的图片信息和文本信息替换错误的图片与文本信息，形成新的样本集，将新的样本集从新载入CLIP模型中进行学习；

当匹配错误组数≤3时判断为CLIP模型误差，将学习率设为0.01，计算错误输出的文本与实际文本之间的损失，计算损失对模型参数的梯度，根据梯度和学习率，更新模型的参数，更新规则为：新参数＝旧参数-学习率×梯度；

若文本内容与图片信息均匹配一致，则重复上述图像识别训练内容9次，若信息匹配仍全部一致则完成训练，若仍存在不一致的组数则继续进行训练直至无错误组数发生；

所述文本识别训练包括，向CLIP模型分别输入两组相同文本内容的地质灾害语句，一组为纯中文，另一组为中英文混杂，每组中的语句数均为10句，分别检测CLIP模型对两组文本内容的输出图片信息；

若出现图片信息与文本内容匹配不一致时，当纯中文组匹配错误句数＞3，且中英文混杂组匹配错误句＞3时，则判断为样本集训练出现误差，采集匹配错误句的图片与文本信息，找到图片与文本各自所对应的样本集，对样本集进行错误修正，用正确的图片信息和文本信息替换错误的图片与文本信息，形成新的样本集，将新的样本集从新载入CLIP模型中进行学习；

当纯中文组匹配错误句数＞3，且中英文混杂组匹配错误句≤3或＝0时，则判断为CLIP模型误差且文本识别偏英文，若中英文混杂组匹配错误句＝0，则校对中文与英文内容的匹配度，将错误的匹配内容进行修正，若中英文混杂组匹配错误句≤3时，则计算错误输出的图片与实际图片之间的损失梯度，并更新模型的参数；

当纯中文组匹配错误句数≤3，且中英文混杂组匹配错误句≤3时，则判断为CLIP模型误差，将纯中文组的错误语句与中英文混杂组的错误语句进行比对，判断是否为同一内容语句内容，若为同一语句则计算错误输出的图片与实际图片之间的损失梯度，并更新模型的参数，若不为同一语句则需先校对中文与英文内容的匹配度并进行修正，修正后在进行损失梯度的计算和模型参数的更新；

7.如权利要求6所述的基于CLIP模型的地质灾害图像识别方法，其特征在于：所述验证和调参包括，将测试集分成k个相等大小的子集，每个子集被称为一个折叠，将当前折叠作为验证集，将其他所有折叠合并为训练集，使用训练集训练模型，并使用当前折叠作为验证集来评估模型性能，记录当前折叠上的性能评估指标；

完成k次迭代后，对所有折叠的性能评估指标进行平均化，得到最终的验证性能估计，选择最佳的超参数配置，分析验证的结果，得到模型在不同折叠上的性能指标。

8.一种采用如权利要求1～7任一所述的基于CLIP模型的地质灾害图像识别方法的***，其特征在于：包括数据处理模块、训练模块和验证模块；

所述数据处理模块用于采集数据并进行预处理，采集全国范围内的各类地质灾害事件，以及各类地质灾害的发生地点、规模、影响范围的详细信息，对文本信息和图像信息进行预处理；

所述训练模块用于训练CLIP模型，对CLIP模型进行预训练，将预处理后的数据集输入至CLIP模型，对数据进行特征整提取和编码，衡量图像特征向量和文本特征向量之间的相似度，通过最大化相似对和最小化不相似对进行相似度训练，采用随机梯度下降训练CLIP模型使其逐渐学习到图像和文本的共享特征空间；

所述验证模块用于对模型进行验证和调参数，使用测试集对训练好的模型进行验证和调参，验证完毕后输入新的地质灾害图像，对地质灾害类型进行预测。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于CLIP模型的地质灾害图像识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于CLIP模型的地质灾害图像识别方法的步骤。