CN116416480A

CN116416480A - 一种基于多模板提示学习的视觉分类方法和装置

Info

Publication number: CN116416480A
Application number: CN202310680502.2A
Authority: CN
Inventors: 杨舒; 王生进
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-07-11
Anticipated expiration: 2043-06-09
Also published as: CN116416480B

Abstract

本发明提供一种基于多模板提示学习的视觉分类方法和装置，涉及机器学习技术领域，包括：利用候选文本集生成多个提示模板下的候选文本集；将待分类的视频的连续视频帧和每一个提示模板下的候选文本集输入视觉语言编码模型中，得到视频在每一个提示模板下的类别概率分布；利用所述类别概率分布，确定视频的视觉分类结果。本发明对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化‑半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型，提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率，进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。

Description

一种基于多模板提示学习的视觉分类方法和装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于多模板提示学习的视觉分类方法和装置。

背景技术

视觉语言预训练(Visual-language pre-training, VLP)采用多模态自监督学习的方式，利用大规模“图像/视频-文本对”数据，来学习视觉与语言之间的跨模态语义关联。然而，现有视觉语言预训练模型在应用到下游的图像/视频理解任务时，通常是在编码特征后面串联一个新的分类器/回归器，然后进行端到端的参数微调。这种方式存在两方面问题，第一方面，由于下游任务与预训练任务不一致，端到端的学习会造成预训练阶段学习到的知识的丢失；第二方面，当下游任务的训练样本较少时，微调的参数过多会造成过拟合。

与参数微调方法不同，提示学习方法借助提示模板来对下游任务进行转化，让其适应预训练模型，使得下游任务的目标函数与预训练任务保持一致。例如，在图像分类任务中，使用预定义的提示模板“A photo of [CLASS]”，测试时用候选的类别名称替换[CLASS]，得到的文本与测试图像一起送入图像-文本预训练模型中进行编码和匹配，从而完成图像分类。或者采用可学习的提示模板“X X X X X X [CLASS]”，在有分类标签样本上训练模板参数。然而，现有提示学习方法缺少可学习模板参数或可学习模板参数极少，并不能有效地利用下游任务样本，以致预训练模型泛化到下游任务上的泛化性能低。

发明内容

针对现有提示学习方法在将视觉语言预训练模型泛化到下游任务时存在的训练样本利用效率低的问题，本发明提供一种基于多模板提示学习的视觉分类方法和装置，对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型，通过模板参数和帧融合模块参数的联合优化，提高了训练样本利用效率，进而在将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时提高了任务理解的准确度。

第一方面，本发明提供一种基于多模板提示学习的视觉分类方法，所述方法包括：

获取待分类的视频；

对于多个提示模板中的每一个提示模板，基于视觉分类任务的类别名称集生成所述提示模板下的候选文本集；其中，将一个类别名称嵌入一个提示模板中可生成相应提示模板下关联相应类别名称的一个候选文本；

将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中，得到所述视频在所述提示模板下的类别概率分布；

利用所述视频在多个提示模板下的类别概率分布，确定所述视频的视觉分类结果；

其中，所述多个提示模板和所述视觉语言编码模型，是利用半标注的视觉分类样本集，对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的；

所述改进的视觉语言预训练模型为是在视觉语言预训练模型中的图像编码器后面接入帧融合模块而得到；所述帧融合模块用于对输入的连续视频帧的视觉特征进行特征融合。

根据本发明提供的基于多模板提示学习的视觉分类方法，所述多个预设提示模板的生成过程，包括：

基于给定提示模板格式，生成多个初始提示模板；其中，所述给定提示模板格式为提示模板由多个提示字符位和一个类别标志位组成；所述多个初始提示模板存在提示字符位个数和/或类别标志位位置的差异；

为每一个所述初始提示模板中每一个提示字符位嵌入一个单词得到所述多个预设提示模板；

其中，为任一初始提示模板中的任一提示字符位嵌入一个单词，包括：

初始化待嵌入单词；

利用单词表，确定所述待嵌入单词的编码序列号；

将所述编码序列号代入语言嵌入模型中，得到所述待嵌入单词的编码特征；

将所述编码特征嵌入所述任一初始提示模板中的所述任一提示字符位。

根据本发明提供的基于多模板提示学习的视觉分类方法，将一个类别名称嵌入一个提示模板等同于将一个类别名称嵌入一个提示模板的类别标志位；

所述将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中，得到所述视频在所述提示模板下的类别概率分布，包括：

利用所述视觉语言编码模型的图像编码器，确定所述视频的连续视频帧的融合视觉特征；

利用所述视觉语言编码模型的文本编码器，确定所述候选文本集中每一个候选文本的文本特征；

将所述融合视觉特征与所述候选文本集中每一个候选文本的文本特征分别进行特征相似度比对，得到比对结果；

将所述比对结果记为与所述候选文本集中每一个候选文本关联的类别名称即为所述视频的类别名称的概率；

基于所述概率，得到所述视频在所述提示模板下的类别概率分布。

根据本发明提供的基于多模板提示学习的视觉分类方法，所述多个提示模板和所述视觉语言编码模型，是利用半标注的视觉分类样本集，对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的，包括：

基于所述视觉语言预训练模型，利用所述视觉分类样本集包含的第一样本集对多个预设提示模板进行全监督学习，以优化多个所述预设提示模板得到多个第一提示模板；

基于多个所述第一提示模板，利用所述视觉分类样本集包含的第二样本集对所述改进的视觉语言预训练模型进行半监督学习，以优化所述帧融合模块得到所述视觉语言编码模型；

基于所述视觉语言编码模型，利用所述视觉分类样本集包含的第三样本集对多个所述第一提示模板进行全监督学习，以微调多个所述第一提示模板得到多个所述提示模板；

其中，所述第一样本集、所述第二样本集和所述第三样本集均是对预存的全类别标注视频集进行处理得到的；

所述第一样本集中的样本为携带类别标注的视频中间帧；

所述第二样本集中部分样本为携带类别标注的连续视频帧，部分样本为不携带类别标注的连续视频帧；

所述第三样本集中的样本为携带类别标注的连续视频帧。

根据本发明提供的基于多模板提示学习的视觉分类方法，所述基于所述视觉语言预训练模型，利用所述视觉分类样本集包含的第一样本集对多个预设提示模板进行全监督学习，以优化多个所述预设提示模板得到多个第一提示模板，包括：

对于每一个所述预设提示模板以及所述第一样本集中的每一个样本，基于所述类别名称集生成所述预设提示模板下的候选文本集；

将所述样本和所述预设提示模板下的候选文本集输入所述视觉语言预训练模型中，得到所述样本在所述预设提示模板下的类别概率分布；

根据所述样本的类别标注以及所述样本在多个预设提示模板下的类别概率分布，确定所述样本的全监督损失；

利用所述第一样本集中样本的全监督损失，优化多个所述预设提示模板得到多个所述第一提示模板；

所述基于所述视觉语言编码模型，利用所述第三样本集对多个所述第一提示模板进行全监督学习，以微调多个所述第一提示模板得到多个所述提示模板，包括：

对于每一个所述第一提示模板以及所述第三样本集中的每一个样本，基于所述类别名称集生成所述第一提示模板下的候选文本集；

将所述样本和所述第一提示模板下的候选文本集输入所述视觉语言编码模型中，得到所述样本在所述第一提示模板下的类别概率分布；

根据所述样本的类别标注以及所述样本在多个第一提示模板下的类别概率分布，确定所述样本的全监督损失；

利用所述第三样本集中样本的全监督损失，优化多个所述第一提示模板得到多个所述提示模板。

根据本发明提供的基于多模板提示学习的视觉分类方法，所述基于多个所述第一提示模板，利用所述视觉分类样本集包含的第二样本集对所述改进的视觉语言预训练模型进行半监督学习，以优化所述帧融合模块得到所述视觉语言编码模型，包括：

对于每一个所述第一提示模板以及所述第二样本集中的每一个样本，基于所述类别名称集生成所述第一提示模板下的候选文本集；

在所述样本为存在类别标注时，对所述样本在所述第一提示模板下的类别概率分布进行不确定性估计，得到所述样本在所述第一提示模板下的伪分类标签和权重；

根据所述样本在多个第一提示模板下的伪分类标签和权重，确定所述样本的无监督损失；

在所述样本为不存在类别标注时，根据所述样本的类别标注以及所述样本在多个第一提示模板下的类别概率分布，确定所述样本的全监督损失；

根据所述第二样本集中不存在类别标注的样本的无监督损失以及存在类别标注的样本的全监督损失，优化所述帧融合模块得到所述视觉语言编码模型。

根据本发明提供的基于多模板提示学习的视觉分类方法，对所述样本在所述第一提示模板下的类别概率分布进行不确定性估计，得到所述样本在所述第一提示模板下的伪分类标签，包括：

从所述样本在所述第一提示模板下的类别概率分布中查找满足第一条件的概率值；

若所述概率值存在，则将所述概率值指代的类别名称作为所述样本在所述第一提示模板下的伪分类标签；否则，认定所述样本在所述第一提示模板下的伪分类标签不存在；

其中，所述第一条件为：概率值是所处类别概率分布中的最大值且概率值大于等于置信度阈值。

根据本发明提供的基于多模板提示学习的视觉分类方法，对所述样本在所述第一提示模板下的类别概率分布进行不确定性估计，得到所述样本在所述第一提示模板下的权重，包括：

遍历所述样本在所述第一提示模板之外的其它第一提示模板下的类别概率分布，以查找满足第一条件的第一概率值；

若所述第一概率值存在且所述第一概率值指代的类别名称与所述伪分类标签不一致，则所述样本在所述第一提示模板下的不确定性度量为正无穷；

若所述第一概率值存在且所述第一概率值指代的类别名称与所述伪分类标签一致，或者所述第一概率值不存在，则所述样本在所述第一提示模板下的不确定性度量为所述样本在多个第一提示模板下的类别概率分布的标准差；

利用所述样本在所述第一提示模板下的不确定性度量计算所述样本在所述第一提示模板下的权重；

其中，所述样本在所述第一提示模板下的权重与所述样本在所述第一提示模板下的不确定性度量负相关。

根据本发明提供的基于多模板提示学习的视觉分类方法，所述无监督损失的表达式如下所示：

；

上式中，M为提示模板的个数，C为类别名称集中类别名称的个数，K为所述第二样本集中不存在类别标注的第i个样本的伪分类标签个数，

为所述第二样本集中不存在类别标注的第i个样本的第k个伪分类标签对应的不确定性度量，/>

为所述第二样本集中不存在类别标注的第i个样本的第k个伪分类标签对应的权重，/>

为由所述第二样本集中不存在类别标注的第i个样本的第k个伪分类标签转换的类别概率分布，/>

为所述第二样本集中不存在类别标注的第i个样本在第m个提示模板下的类别概率分布；

其中，所述

由下式确定：

；

上式中，

表征所述第二样本集中不存在类别标注的第i个样本的第k个伪分类标签对应的概率值在其所属类别概率分布中的位置。

第二方面，本发明提供一种基于多模板提示学习的视觉分类装置，所述装置包括：

视觉输入模块，用于获取待分类的视频；候选文本生成模块，用于对于多个提示模板中的每一个提示模板，基于视觉分类任务的类别名称集生成所述提示模板下的候选文本集；其中，将一个类别名称嵌入一个提示模板中可生成相应提示模板下关联相应类别名称的一个候选文本；

视觉语言编码模块，用于将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中，得到所述视频在所述提示模板下的类别概率分布；视觉分类结果输出模块，用于利用所述视频在多个提示模板下的类别概率分布，确定所述视频的视觉分类结果；

本发明提供一种基于多模板提示学习的视觉分类方法和装置，包括：获取待分类的视频；对于多个提示模板中的每一个提示模板，基于视觉分类任务的类别名称集生成所述提示模板下的候选文本集；其中，将一个类别名称嵌入一个提示模板中可生成相应提示模板下关联相应类别名称的一个候选文本；将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中，得到所述视频在所述提示模板下的类别概率分布；利用所述视频在多个提示模板下的类别概率分布，确定所述视频的视觉分类结果。本发明对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型，提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率，进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于多模板提示学习的视觉分类方法的流程示意图；

图2是本发明提供的全监督模板参数优化框架示意图；

图3是本发明提供的所述帧融合模块在视觉语言编码模型中的应用示意图；

图4是本发明提供的半监督模型优化框架示意图；

图5是本发明提供的基于多模板提示学习的视觉分类装置的结构示意图；

图6是本发明提供的电子设备的结构示意图；

附图标记：

610：处理器；620：通信接口；630：存储器；640：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明的基于多模板提示学习的视觉分类方法和装置。

第一方面，本发明提供一种基于多模板提示学习的视觉分类方法，如图1所示，所述方法包括：

S11：获取待分类的视频；

S12：对于多个提示模板中的每一个提示模板，基于视觉分类任务的类别名称集生成所述提示模板下的候选文本集；其中，将一个类别名称嵌入一个提示模板中可生成相应提示模板下关联相应类别名称的一个候选文本；

S13：将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中，得到所述视频在所述提示模板下的类别概率分布；S14：利用所述视频在多个提示模板下的类别概率分布，确定所述视频的视觉分类结果；其中，所述多个提示模板和所述视觉语言编码模型，是利用半标注的视觉分类样本集，对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的；

这里，视觉语言预训练模型即预先在大规模“图像/视频-文本对”数据集上进行过多模态自监督学习的模型，该模型可以对图像/连续视频帧和文本分别进行特征提取，将两个模态的特征映射到同一个语义空间。

改进的视觉语言预训练模型，在视觉语言预训练模型的图像编码器后面添加了帧融合模块，可对连续视频帧的视觉特征进行特征融合而得到一个视觉特征，进而为特征比对奠定基础。

本发明提供一种基于多模板提示学习的视觉分类方法，对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型，提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率，进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。

具体的，所述S11中待分类的视频的连续视频帧，通过以下方式获取：

S11.1：获取待分类的压缩视频；

S11.2：对所述压缩视频进行解码，得到解码的连续视频帧；

S11.3：对解码的连续视频帧进行预处理，得到待分类的视频的连续视频帧；

其中，预处理操作包括但不限于归一化。

具体的，所述S12中，多个提示模板是在多个预设提示模板的基础上，经过两阶段模板参数优化而得到的；

其中，多个预设提示模板的生成过程，包括：

SA：基于给定提示模板格式，生成多个初始提示模板；其中，所述给定提示模板格式为提示模板由多个提示字符位和一个类别标志位组成；所述多个初始提示模板存在提示字符位个数和/或类别标志位位置的差异；

假设用X表示提示字符位，用[CLASS]表示类别标志位，那么包括7个提示字符位且类别标志位位于最末端的初始提示模板可表示为“X X X X X X X [CLASS]”。

SB：为每一个所述初始提示模板中每一个提示字符位嵌入一个单词得到所述多个预设提示模板；

为了适应机器学习，初始提示模板中提示字符位和类别标志位的内容格式应为单词编码特征；预设提示模板的生成即为初始化其对应初始提示模板提示字符位的内容（该内容即为要学习的模板参数），也即为对其对应的初始提示模板提示字符位嵌入单词。

其中，对任一初始提示模板中的对一提示字符位嵌入单词，包括：

初始化待嵌入单词；

利用单词表，确定所述待嵌入单词的编码序列号；

这里语言嵌入模型，采用现有的，其选择将决定编码特征的维度。在本发明中，多个预设提示模板的长度、提示字符位初始内容、编码特征维度以及类别标志位位置分布，均会影响最终多个提示模板的性能。

进一步的，所述S12中，假设类别名称集中类别名称总数为C，提示模板总数为M，那么将C个类别名称嵌入至第m个提示模板，可生成C个包含该类别名称的文本，而这C个包含该类别名称的候选文本所组成的候选文本集合即称为第m个提示模板下的候选文本集；遍历所有提示模板，即可得到M个提示模板下的候选文本集。

需要说明的是，将一个类别名称嵌入一个提示模板等同于将一个类别名称嵌入一个提示模板的类别标志位，嵌入方法与预设提示模板生成过程中提示字符位单词嵌入过程一样，本发明所采用的语言嵌入模型始终为同一个。

具体的，所述S13，包括：

S13.1：利用所述视觉语言编码模型的图像编码器，确定所述视频的连续视频帧的融合视觉特征；

S13.2：利用所述视觉语言编码模型的文本编码器，确定所述候选文本集中每一个候选文本的文本特征；

S13.3：将所述融合视觉特征与所述候选文本集中每一个候选文本的文本特征分别进行特征相似度比对，得到比对结果；

S13.4：将所述比对结果记为与所述候选文本集中每一个候选文本关联的类别名称即为所述视频的类别名称的概率；

可以看出，所述比对结果越接近，概率（得分）越高，由此类别概率分布实际上是一种得分分布。

S13.5：基于所述概率，得到所述视频在所述提示模板下的类别概率分布。

可以理解的是，图像编码器、文本编码器以及跨模态特征相似度对比的结构都是视觉语言预训练模型中的结构，因此视觉语言编码模型中也存在相应结构。

本发明将M个提示模板下的候选文本集和所述视频进行特征提取与相似度比较，得到M个类别概率分布，每一个类别概率分布中由C个类别名称对应的概率组成。

具体的，所述S14，包括：

通过取平均或者投票方式，从所述视频在多个提示模板下的类别概率分布中确定一个类别概率分布，并将该类别概率分布种最大概率值对应的类别名称作为所述视频的视觉分类结果。

从上述步骤可以看出，本发明视觉分类方法的精度取决于多个提示模板以及视觉语言编码模型，所述多个提示模板和所述视觉语言编码模型，是利用半标注的视觉分类样本集，对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的，具体为：

SI：基于所述视觉语言预训练模型，利用所述视觉分类样本集包含的第一样本集对多个预设提示模板进行全监督学习，以优化多个所述预设提示模板得到多个第一提示模板；

SII：基于多个所述第一提示模板，利用所述视觉分类样本集包含的第二样本集对所述改进的视觉语言预训练模型进行半监督学习，以优化所述帧融合模块得到所述视觉语言编码模型；

SIII：基于所述视觉语言编码模型，利用所述视觉分类样本集包含的第三样本集对多个所述第一提示模板进行全监督学习，以微调多个所述第一提示模板得到多个所述提示模板；

所述第一样本集中的样本为携带类别标注的视频中间帧；

所述第三样本集中的样本为携带类别标注的连续视频帧。

这里，图2为全监督模板参数优化框架示意图，该图中可学习的提示模板为多个预设提示模板，如图2所示，SI具体为：

SI-1：对于每一个所述预设提示模板以及所述第一样本集中的每一个样本，基于所述类别名称集生成所述预设提示模板下的候选文本集；

SI-2：将所述样本和所述预设提示模板下的候选文本集输入所述视觉语言预训练模型中，得到所述样本在所述预设提示模板下的类别概率分布；

SI-3：根据所述样本的类别标注以及所述样本在多个预设提示模板下的类别概率分布，确定所述样本的全监督损失；

SI-4：利用所述第一样本集中样本的全监督损失，优化多个所述预设提示模板得到多个所述第一提示模板；

其中，所述样本的全监督损失的表达式为：

；

其中，

为第一训练集中第j个样本的全监督损失，/>

为第一训练集中第j个样本的真实标签/>

转化的0-1分布，/>

为第一训练集中第j个样本在第m个预设提示模板下的类别概率分布。

图3为所述帧融合模块在视觉语言编码模型中的应用示意图，该帧融合模块由一个帧再编码模块和一个自注意力池化模块构成。帧再编码模块输入N个视频帧的图像特征，与一个N位的可学***均池化，得到一个平均特征，然后将其与N个视频帧特征串联得到N+1个输入特征，送入一个多头的自注意层和一个全连接前馈网络得到N+1个特征，将第一个特征作为最终的视频编码特征输出。图4为半监督模型优化框架示意图，图3和图4中所指的提示模板特指第一提示模板，图4中文本集特指类别名称集。如图3和图4所示，SII具体为：

SII-1：对于每一个所述第一提示模板以及所述第二样本集中的每一个样本，基于所述类别名称集生成所述第一提示模板下的候选文本集；

SII-2：将所述样本和所述第一提示模板下的候选文本集输入所述视觉语言编码模型中，得到所述样本在所述第一提示模板下的类别概率分布；

SII-3：在所述样本为存在类别标注时，对所述样本在所述第一提示模板下的类别概率分布进行不确定性估计，得到所述样本在所述第一提示模板下的伪分类标签和权重；

SII-4：根据所述样本在多个第一提示模板下的伪分类标签和权重，确定所述样本的无监督损失；

SII-5：在所述样本为不存在类别标注时，根据所述样本的类别标注以及所述样本在多个第一提示模板下的类别概率分布，确定所述样本的全监督损失；

SII-6：根据所述第二样本集中不存在类别标注的样本的无监督损失以及存在类别标注的样本的全监督损失，优化所述帧融合模块得到所述视觉语言编码模型。

进一步的，所述SII-3，分为确定所述样本在所述第一提示模板下的伪分类标签和确定所述样本在所述第一提示模板下的权重两个阶段；

其中，确定所述样本在所述第一提示模板下的，包括：

SII-3-A：从所述样本在所述第一提示模板下的类别概率分布中查找满足第一条件的概率值；

SII-3-B：若所述概率值存在，则将所述概率值指代的类别名称作为所述样本在所述第一提示模板下的伪分类标签；否则，认定所述样本在所述第一提示模板下的伪分类标签不存在；

如果查找不到满足第一条件的概率值，那么该样本无意义，不参与无监督损失的计算。

确定所述样本在所述第一提示模板下的权重，包括：

SII-3-I：遍历所述样本在所述第一提示模板之外的其它第一提示模板下的类别概率分布，以查找满足第一条件的第一概率值

SII-3-II：若所述第一概率值存在且所述第一概率值指代的类别名称与所述伪分类标签不一致，则所述样本在所述第一提示模板下的不确定性度量为正无穷；

SII-3-III：若所述第一概率值存在且所述第一概率值指代的类别名称与所述伪分类标签一致，或者所述第一概率值不存在，则所述样本在所述第一提示模板下的不确定性度量为所述样本在多个第一提示模板下的类别概率分布的标准差；

SII-3-IV：利用所述样本在所述第一提示模板下的不确定性度量计算所述样本在所述第一提示模板下的权重；

SII-4中，所述无监督损失的表达式如下所示：

；

其中，所述

由下式确定：/>

；

上式中，

SII-5中，模型优化阶段的全监督损失与模板参数优化阶段的全监督损失计算方法一致，不再赘述。

本发明所述SII，利用多个第一提示模板自动生成无标注样本的伪标签，以应对下游任务有标签样本有限的问题；利用多个第一提示模板编码间的差异进行样本不确定性的度量，以应对伪标签噪声的问题；在多个第一提示模板的基础上，对改进的视觉语言预训练模型进行半监督模型优化，以提高改进的视觉语言预训练模型泛化到下游任务上的效率。

SIII，具体为：

SIII-1，对于每一个所述第一提示模板以及所述第三样本集中的每一个样本，基于所述类别名称集生成所述第一提示模板下的候选文本集；

SIII-2，将所述样本和所述第一提示模板下的候选文本集输入所述视觉语言编码模型中，得到所述样本在所述第一提示模板下的类别概率分布；

SIII-3，根据所述样本的类别标注以及所述样本在多个第一提示模板下的类别概率分布，确定所述样本的全监督损失；

SIII-4，利用所述第三样本集中样本的全监督损失，优化多个所述第一提示模板得到多个所述提示模板。

同样，模板参数微调阶段的全监督损失与模板参数优化阶段的全监督损失计算方法一致，不再赘述。

本发明SIII是在SII得到的视觉语言编码模型的基础上，对SI得到的多个提示模板进行微调的而得到的，微调过程与SI类似，学习率有所下降。

本方法适用于包括行为识别在内的视频理解任务，在使用相同的预训练视觉语言编码模型以及相同的训练样本的条件下，本方法可以得到更高的识别准确率。

例如，本发明可以适用于视频检索任务，与视频分类相比，将类型名称集替换为检索词集即可。

此外，本发明也可以利用视觉语言预训练模型和只进行全监督模板参数优化的提示模板进行图像理解任务，包括图像分类和图像检索。

为验证本发明有效性，采用CLIP预训练模型泛化到行为识别任务为例进行说明。

CLIP模型是指由Alec Radford等人在2021年的论文Learning TransferableVisual Models From Natural Language Supervision中提出的基于对比学习的语言-图像预训练模型(Contrastive Language-Image Pre-Training, CLIP)，该模型包含一个图像编码器和一个文本编码器，使用400M的“图像-文本描述对”数据集进行预训练，得到的两个编码器可以被应用到多种图像理解任务上。

行为识别任务采用的数据集HMDB51，包含5100个视频片段，训练样本3570个，测试样本1530个。这些视频片段被划分为51个行为类别。本实施例从训练样本中随机抽取60%（即2142个）“视频-类别对”作为有标签集，剩余40%（即1428个）训练样本只使用视频,构成无标签集。

1、全监督模板参数优化。

基于采用2142个有标签样本来优化M=3个提示模板的参数，其中，视觉输入取视频的中间帧图像。

2、半监督模型优化。

固定提示模板参数，使用2142个有标签样本和1428个无标签样本，采用半监督学习的方式调整视觉语言编码模型中帧融合模块参数。

3、全监督模板参数微调。

固定视觉语言编码模型参数，学习率降至之前步骤的1/5，使用2142个有标签样本来微调提示模板的参数。

4、测试。

使用1530个测试样本进行测试，对预测得分进行求和并归一化，得到预测的类别，并与数据集提供的类别名称对比，计算测试准确率。表1是现有方法和本发明方法的准确率对比表。如表1所示，本发明实现了视觉语言预训练模型到下游任务上的泛化，泛化能力比现有方法在测试集上准确率提高8.4%。

表1

第二方面，对本发明提供的基于多模板提示学习的视觉分类装置进行描述，下文描述的基于多模板提示学习的视觉分类装置与上文描述的基于多模板提示学习的视觉分类方法可相互对应参照。图5示例了一种基于多模板提示学习的视觉分类装置的结构示意图，如图5所示，所述装置包括：

视觉输入模块21，用于获取待分类的视频；

候选文本生成模块22，对于多个提示模板中的每一个提示模板，基于视觉分类任务的类别名称集生成所述提示模板下的候选文本集；其中，将一个类别名称嵌入一个提示模板中可生成相应提示模板下关联相应类别名称的一个候选文本；

视觉语言编码模块23，用于将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中，得到所述视频在所述提示模板下的类别概率分布；

视觉分类结果输出模块24，用于利用所述视频在多个提示模板下的类别概率分布，确定所述视频的视觉分类结果；

本发明提供一种基于多模板提示学习的视觉分类装置，对多个预设提示模板和融入帧融合模块的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调得到多个提示模板和视觉语言编码模型，提高了视觉语言预训练模型泛化到下游视觉理解任务时的训练样本利用效率，进而将多个提示模板和视觉语言编码模型应用于下游视觉理解任务时可提高理解的准确度。

在上述各实施例的基础上，作为一种可选的实施例，所述多个预设提示模板的生成过程，包括：

初始化待嵌入单词；

利用单词表，确定所述待嵌入单词的编码序列号；

在上述各实施例的基础上，作为一种可选的实施例，将一个类别名称嵌入一个提示模板等同于将一个类别名称嵌入一个提示模板的类别标志位；

所述视觉语言编码模块，包括：

视觉特征提取单元，用于利用所述视觉语言编码模型的图像编码器，确定所述视频的视觉特征；

文本特征提取单元，用于利用所述视觉语言编码模型的文本编码器，确定所述候选文本集中每一个候选文本的文本特征；

跨模态特征比对单元，用于将所述融合视觉特征与所述候选文本集中每一个候选文本的文本特征分别进行特征相似度比对，得到比对结果；

确定单元，用于将将所述比对结果记为与所述候选文本集中每一个候选文本关联的类别名称即为所述视频的类别名称的概率；

类别概率分布确定单元，用于基于所述概率，得到所述视频在所述提示模板下的类别概率分布。

在上述各实施例的基础上，作为一种可选的实施例，所述多个提示模板和所述视觉语言编码模型，是利用半标注的视觉分类样本集，对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的，包括：

所述第一样本集中的样本为携带类别标注的视频中间帧；

所述第三样本集中的样本为携带类别标注的连续视频帧。

在上述各实施例的基础上，作为一种可选的实施例，所述基于所述视觉语言预训练模型，利用所述视觉分类样本集包含的第一样本集对多个预设提示模板进行全监督学习，以优化多个所述预设提示模板得到多个第一提示模板，包括：

在上述各实施例的基础上，作为一种可选的实施例，所述基于多个所述第一提示模板，利用所述视觉分类样本集包含的第二样本集对所述改进的视觉语言预训练模型进行半监督学习，以优化所述帧融合模块得到所述视觉语言编码模型，包括：

在上述各实施例的基础上，作为一种可选的实施例，对所述样本在所述第一提示模板下的类别概率分布进行不确定性估计，得到所述样本在所述第一提示模板下的伪分类标签，包括：

在上述各实施例的基础上，作为一种可选的实施例，对所述样本在所述第一提示模板下的类别概率分布进行不确定性估计，得到所述样本在所述第一提示模板下的权重，包括：

在上述各实施例的基础上，作为一种可选的实施例，所述无监督损失的表达式如下所示：

；

其中，所述

由下式确定：

；

上式中，

第三方面，图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行基于多模板提示学习的视觉分类方法，该方法包括：获取待分类的视频；对于多个提示模板中的每一个提示模板，基于视觉分类任务的类别名称集生成所述提示模板下的候选文本集；其中，将一个类别名称嵌入一个提示模板中可生成相应提示模板下关联相应类别名称的一个候选文本；将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中，得到所述视频在所述提示模板下的类别概率分布；利用所述视频在多个提示模板下的类别概率分布，确定所述视频的视觉分类结果；其中，所述多个提示模板和所述视觉语言编码模型，是利用半标注的视觉分类样本集，对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的；所述改进的视觉语言预训练模型为是在视觉语言预训练模型中的图像编码器后面接入帧融合模块而得到；所述帧融合模块用于对输入的连续视频帧的视觉特征进行特征融合。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

第四方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的以执行基于多模板提示学习的视觉分类方法，该方法包括：获取待分类的视频；对于多个提示模板中的每一个提示模板，基于视觉分类任务的类别名称集生成所述提示模板下的候选文本集；其中，将一个类别名称嵌入一个提示模板中可生成相应提示模板下关联相应类别名称的一个候选文本；将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中，得到所述视频在所述提示模板下的类别概率分布；利用所述视频在多个提示模板下的类别概率分布，确定所述视频的视觉分类结果；其中，所述多个提示模板和所述视觉语言编码模型，是利用半标注的视觉分类样本集，对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的；所述改进的视觉语言预训练模型为是在视觉语言预训练模型中的图像编码器后面接入帧融合模块而得到；所述帧融合模块用于对输入的连续视频帧的视觉特征进行特征融合

第五方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的以执行基于多模板提示学习的视觉分类方法，该方法包括：获取待分类的视频；对于多个提示模板中的每一个提示模板，基于视觉分类任务的类别名称集生成所述提示模板下的候选文本集；其中，将一个类别名称嵌入一个提示模板中可生成相应提示模板下关联相应类别名称的一个候选文本；将所述视频的连续视频帧和所述候选文本集输入视觉语言编码模型中，得到所述视频在所述提示模板下的类别概率分布；利用所述视频在多个提示模板下的类别概率分布，确定所述视频的视觉分类结果；其中，所述多个提示模板和所述视觉语言编码模型，是利用半标注的视觉分类样本集，对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的；所述改进的视觉语言预训练模型为是在视觉语言预训练模型中的图像编码器后面接入帧融合模块而得到；所述帧融合模块用于对输入的连续视频帧的视觉特征进行特征融合

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多模板提示学习的视觉分类方法，其特征在于，所述方法包括：

获取待分类的视频；

2.根据权利要求1所述的基于多模板提示学习的视觉分类方法，其特征在于，所述多个预设提示模板的生成过程，包括：

初始化待嵌入单词；

利用单词表，确定所述待嵌入单词的编码序列号；

3.根据权利要求2所述的基于多模板提示学习的视觉分类方法，其特征在于，将一个类别名称嵌入一个提示模板等同于将一个类别名称嵌入一个提示模板的类别标志位；

4.根据权利要求1~3任一项所述的基于多模板提示学习的视觉分类方法，其特征在于，所述多个提示模板和所述视觉语言编码模型，是利用半标注的视觉分类样本集，对多个预设提示模板和改进的视觉语言预训练模型进行全监督模板参数优化-半监督模型优化以及全监督模板参数微调的三阶段训练而得到的，包括：

所述第一样本集中的样本为携带类别标注的视频中间帧；

所述第三样本集中的样本为携带类别标注的连续视频帧。

5.根据权利要求4所述的基于多模板提示学习的视觉分类方法，其特征在于，所述基于所述视觉语言预训练模型，利用所述视觉分类样本集包含的第一样本集对多个预设提示模板进行全监督学习，以优化多个所述预设提示模板得到多个第一提示模板，包括：

6.根据权利要求4所述的基于多模板提示学习的视觉分类方法，其特征在于，所述基于多个所述第一提示模板，利用所述视觉分类样本集包含的第二样本集对所述改进的视觉语言预训练模型进行半监督学习，以优化所述帧融合模块得到所述视觉语言编码模型，包括：

7.根据权利要求6所述的基于多模板提示学习的视觉分类方法，其特征在于，对所述样本在所述第一提示模板下的类别概率分布进行不确定性估计，得到所述样本在所述第一提示模板下的伪分类标签，包括：

8.根据权利要求7所述的基于多模板提示学习的视觉分类方法，其特征在于，对所述样本在所述第一提示模板下的类别概率分布进行不确定性估计，得到所述样本在所述第一提示模板下的权重，包括：

9.根据权利要求6所述的基于多模板提示学习的视觉分类方法，其特征在于，所述无监督损失的表达式如下所示：

；

其中，所述

由下式确定：

；

上式中，

10.一种基于多模板提示学习的视觉分类装置，其特征在于，所述装置包括：