CN117095187A

CN117095187A - 元学习视觉语言理解与定位方法

Info

Publication number: CN117095187A
Application number: CN202311330418.4A
Authority: CN
Inventors: 苏超; 彭德中; 胡鹏; 袁钟; 王旭; 孙元; 秦阳
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-11-21
Anticipated expiration: 2043-10-16
Also published as: CN117095187B

Abstract

本发明提供了一种元学习视觉语言理解与定位方法，包括：构建训练集；构建元学习视觉语言理解与定位训练模型；构建基于随机不相关训练机制的元学习内层循环训练，并利用支持集对基础学习器的参数进行更新；利用更新后的基础学习器参数对训练集中的查询集计算损失，并反向优化元学习视觉语言理解与定位训练模型；利用优化后的元学习视觉语言理解与定位训练模型编码测试图片‑文本描述样本对，输出被描述物体在图片中的定位框。本发明解决了现有的视觉语言理解与定位方法在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集，导致模型的泛化能力差，进而降低视觉语言理解与定位精度的问题。

Description

元学习视觉语言理解与定位方法

技术领域

本发明属于多模态视觉语言理解与定位技术领域，尤其涉及一种元学习视觉语言理解与定位方法。

背景技术

视觉语言理解与定位（visual grounding，VG）是指通过自然语言表达来准确定位图像中的目标区域或对象。简单来说，就是通过输入一张图片和对应的物体文本描述，输出被描述物体在图片中的定位框坐标。在视觉语言理解与定位任务中，被描述的物体通常由文本描述中的一个或多个信息片段来指定。信息可能包括物体对象属性、外观属性和视觉关系上下文等。视觉语言理解与定位任务结合了计算机视觉和自然语言理解，以增强图像的理解和分析能力。此外，它还支持诸如图像描述生成、图像文本检索和视觉语言问答等应用。总的来说，视觉语言理解与定位技术在推动计算机视觉和自然语言理解结合的众多领域的发展中起着至关重要的作用，具有重要的研究意义。

近年来，诸多深度视觉语言理解与定位方法已经被探索出来，它们借助于神经网络提取出图片的视觉特征及对应图片中物体的文本描述的语言特征，再经过特征融合生成最后的定位框。这些方法主要分为三类：两阶段方法、一阶段方法和基于Transformer的方法两阶段方法模型在初始阶段生成候选框区域，在随后的阶段将这些候选框与文本描述进行匹配，然后对候选框进行排序选择最终的定位框，但在这类方法中候选框的排序和选择需要较大的计算量，且无法穷尽所有可能即得到的候选框也是次优的。一阶段方法直接将文本描述与图像特征融合，并直接预测边界框来定位提到的对象，通过对可能的目标位置进行密集采样，减少区域建议上的冗余计算，相比于两阶段方法，一阶段方法在计算量上有了较大程度地减少，但是其仍然是基于通用的对象检测器，推断过程依赖于所有可能的候选区域的预测结果，这使得性能受到预测建议的质量或预定义锚框配置的限制。此外，不管是两阶段方法还是一阶段方法，实质上都是将候选对象表示为区域特征（对应于预测的建议）或点特征（密集锚框的特征），以与文本描述的语言特征进行匹配或融合，这种特征表示可能对捕捉文本描述中提到的详细视觉概念或上下文的灵活性较差，这种不灵活性增加了识别目标对象的困难。随着基于注意力机制的Transformer模型的发展，现在的视觉语言理解与定位方法已经基于Transformer实现了对定位框坐标进行直接回归，在基于Transformer的视觉语言理解与定位方法中，Transformer模型的核心组件注意力层在视觉和语言输入之间建立模态内部和模态间的对应关系，直接利用深度模型将跨模态数据回归成一个定位框。然而，不管是两阶段方法、一阶段方法还是最近的基于Transformer的方法，都会在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集，导致模型的泛化能力差，引起模型过拟合，极大地影响了视觉语言理解与定位模型的定位精度。

发明内容

针对现有技术中的上述不足，本发明提供的一种元学习视觉语言理解与定位方法，解决了视觉语言理解与定位任务训练时的收敛慢、训练不稳定问题以及在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集，导致模型的泛化能力差，引起模型过拟合，进而降低了视觉语言理解与定位精度的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种元学习视觉语言理解与定位方法，包括以下步骤：

S1、在元学习的每一轮迭代训练中，将目标视觉语言理解与定位数据集随机划分为没有重复数据的支持集和查询集，构建训练集，且每一轮参与元学习迭代训练的支持集与查询集不相关；

S2、根据输入的样本对，构建元学习视觉语言理解与定位训练模型，其中，所述输入的样本对为图片-文本描述样本对；

S3、构建基于随机不相关训练机制的元学习内层循环训练，并利用支持集对基础学习器的参数进行更新；

S4、利用更新后的基础学习器参数对训练集中的查询集计算损失，并反向优化元学习视觉语言理解与定位训练模型，以完成元学习的外层循环训练；

S5、利用优化后的元学习视觉语言理解与定位训练模型编码测试图片-文本描述样本对，输出被描述物体在图片中的定位框。

本发明的有益效果是：本发明基于随机不相关训练机制对元学习视觉语言理解与定位训练模型的内层和外层进行循环训练优化，并利用优化后的元学习视觉语言理解与定位训练模型输出测试图片-文本描述样本对中被描述物体在图片中的定位框。本发明提出了一种随机不相关的训练机制，使得元学习视觉语言理解与定位训练模型能直接在视觉语言理解与定位数据集上进行元学习迭代训练，提高了模型的泛化能力；利用元学习迭代训练加快了视觉语言理解与定位模型的收敛速度，提高了元学习视觉语言理解与定位模型训练时的稳定性。本发明解决了现有的视觉语言理解与定位方法在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集，导致模型的泛化能力差，引起模型过拟合，进而降低了视觉语言理解与定位精度的问题。

进一步地，所述支持集和查询集的表达式分别如下：

；

其中，和/>分别表示元学习在第i轮迭代训练中的支持集和查询集，/>和/>分别表示支持集和查询集中的第k个输入图片，/>和/>分别表示支持集和查询集中与第k个输入图片对应的文本描述，k的取值为1至/>，/>表示元学习中每一轮迭代训练中的批次大小。

上述进一步方案的有益效果是：本发明通过随机不相关的元学习数据划分机制划分得到元学习的支持集和查询集，并直接在视觉语言理解与定位数据集上进行元学习迭代训练，利用元学习的支持集和查询集，视觉语言理解与定位模型可以进行后续的元学习过程。

再进一步地，所述S2包括以下步骤：

S201、利用视觉Transformer网络作为元学习视觉语言理解与定位训练模型的视觉分支，提取输入样本对中图片的视觉特征，以及利用基于Bert的网络作为元学习视觉语言理解与定位训练模型的语言分支，提取输入样本对中文本描述的语言特征；

S202、利用视觉语言Transformer网络将所述图片的视觉特征和文本描述的语言特征进行融合，并将文本描述提到的视觉目标的坐标框进行回归处理，得到预测定位框；

S203、利用元学习视觉语言理解与定位训练模型的损失函数，计算所述预测定位框与真实定位框的损失；

S204、基于S203的计算结果，利用随机梯度下降法反向优化元学习视觉语言理解与定位训练模型。

上述进一步方案的有益效果是：利用视觉Transformer网络和基于Bert的网络分别作为元学习视觉语言理解与定位训练模型的视觉分支和语言分支，提取得到输入图片的视觉特征和对应文本描述的语言特征，再利用视觉语言Transformer网络将所述图片的视觉特征和文本描述的语言特征进行融合并进行跨模态推理，直接回归出预测定位框的坐标，利用损失函数计算训练损失和利用随机梯度下降法不断迭代优化元学习视觉语言理解与定位训练模型。

再进一步地，所述图片的视觉特征和文本描述的语言特征的表达式分别如下：

；

其中，和/>分别表示图片的视觉特征和文本描述的语言特征，/>表示视觉Transformer网络，/>表示基于Bert的网络，/>表示图片-文本描述样本对中的图片，/>表示与/>对应的文本描述。

上述进一步方案的有益效果是：提取的图片的视觉特征和对应文本描述的语言特征，为后续的特征融合及跨模态推理过程提供了基础。

再进一步地，所述预测定位框的表达式如下：

；

其中，表示预测定位框，其形式为/>，/>分别表示预测定位框中心点的横坐标和纵坐标，/>分别表示预测定位框的宽和高，/>和/>分别表示图片的视觉特征和文本描述的语言特征，/>表示用于融合/>和/>的视觉语言Transformer网络。

上述进一步方案的有益效果是：得到的预测定位框可以与真实定位框一起在后续过程中作为损失函数的输入计算训练损失。

再进一步地，所述元学习视觉语言理解与定位训练模型的损失函数的表达式如下：

；

其中，表示元学习视觉语言理解与定位训练模型的损失函数，/>表示图片-文本描述样本对/>的真实定位框，/>表示图片-文本描述样本对中的图片，/>表示与/>对应的文本描述，/>表示预测定位框，其形式为/>，/>分别表示预测定位框中心点的横坐标和纵坐标，/>分别表示预测定位框的宽和高，/>表示真实定位框和预测定位框重叠的区域面积，/>表示真实定位框和预测定位框的面积之和，/>表示真实定位框和预测定位框的最小外接矩形的面积。

上述进一步方案的有益效果是：利用上述的损失函数公式对预测定位框和真实定位框计算损失，该损失函数不仅关注预测定位框和真实定位框的重叠区域，还关注其他的非重合区域，能更好地反映预测定位框和真实定位框的重合度，更准确地反应模型的训练损失。

再进一步地，所述对基础学习器的参数进行更新，其表达式如下：

；

其中，表示第i轮元学习内层循环训练更新后的基础学习器参数，/>表示基础学习器第i轮元学习迭代训练中的元学习视觉语言理解与定位训练模型参数，/>表示元学习的内层循环训练学习率，/>表示元学习视觉语言理解与定位训练模型的损失函数，/>表示第i轮元学习迭代训练中的支持集，/>表示微分计算。

上述进一步方案的有益效果是：本发明通过内层循环训练使基础学习器能够学习到更具有泛化能力的特征表示和模型参数，从而提高在视觉语言理解与定位任务上的泛化能力。

再进一步地，所述反向优化元学习视觉语言理解与定位训练模型的权重参数的表达式如下：

；

其中，表示元学习视觉语言理解与定位训练模型的权重参数，/>表示外层循环训练的学习率，/>表示元学习迭代训练的总次数，/>表示第i轮元学习内层循环训练更新后的基础学习器参数，/>表示第i轮元学习迭代训练中的查询集，/>表示元学习的内层循环训练学习率，/>表示第i轮元学习中迭代训练集中的支持集，/>表示元学习视觉语言理解与定位训练模型的损失函数，/>表示微分计算，/>表示参数更新的量。

上述进一步方案的有益效果是：本发明通过元学习外层循环训练使元学习器能够快速地优化视觉语言理解与定位模型的参数，加快收敛速度，同时使训练更稳定。

再进一步地，所述定位框的坐标的表达式如下：

；

其中，表示定位框的坐标，其形式为/>，/>分别表示定位框中心点的横坐标和纵坐标，/>分别表示定位框的宽和高，/>表示优化后的元学习视觉语言理解与定位训练模型，/>表示输入优化后的元学习视觉语言理解与定位训练模型进行测试的图片-文本描述样本对，/>表示测试图片，/>表示与/>对应的文本描述。

上述进一步方案的有益效果是：通过迭代优化得到的最优元学习视觉语言理解与定位训练模型编码测试图片-文本描述样本对，能够输出文本描述中被描述物体在图片中的定位框。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

如图1所示，本发明提供了一种元学习视觉语言理解与定位方法，其实现方法如下：

本实施例中，构建训练数据，基于随机不相关训练机制从训练数据集中抽取出支持集和查询集用于训练模型，在元学习的每一轮迭代训练中，将目标视觉语言理解与定位数据集随机分成没有重复数据的不相关的支持集和查询集。需要注意的是，每一轮参与元学习迭代训练的支持集和查询集是不相关的，即支持集与查询集中的训练样本完全不重复，元学习第i轮迭代训练中的支持集和查询集如下：

；

S2、根据输入的样本对，构建元学习视觉语言理解与定位训练模型，其中，所述输入的样本对为图片-文本描述样本对，其实现方法如下：

本实施例中，元学习视觉语言理解与定位模型的输入为图片及其对应的文本描述样本对，利用基于视觉Transformer的网络作为模型的视觉分支，提取输入样本对中图片的视觉特征，利用基于Bert的网络作为模型的语言分支，提取输入样本对中文本描述的语言特征：

；

利用视觉语言Transformer网络将中提取到的图片的视觉特征和文本描述的语言特征进行融合，然后通过跨模态关系推理实现将文本描述提到的视觉目标的框标进行直接回归，得到预测定位框：

；

利用元学习视觉语言理解与定位训练模型的损失函数对得到的预测定位框与真实定位框b计算损失，在视觉语言理解与定位模型中的所有过程采用统一的损失函数：

；

在得到计算得出的损失后，使用随机梯度下降算法反向优化元学习视觉语言理解与定位模型，在元学习视觉语言理解与定位模型中采用的优化算法统一为随机梯度下降法。

本实施例中，构建基于随机不相关训练机制的元学习的内层循环训练，在内层循环训练中采用的损失函数为元学习视觉语言理解与定位模型统一使用的损失函数，采用的优化算法为随机梯度下降法，利用训练集中的支持集进行基础学习器的参数更新：

；

本实施例中，利用更新后的基础学习器参数对训练数据集中查询集计算损失，并反向优化元学习视觉语言理解与定位模型，完成元学习的外层循环训练过程。在本实施例中元学习视觉语言理解与定位模型以得到的和查询集/>作为输入，使用的损失函数为元学习视觉语言理解与定位模型统一使用的损失函数/>，通过使用随机梯度下降算法来指导元学习视觉语言理解与定位模型权重参数/>更新，本步骤不断更新的模型权重参数/>，就是最终想要的元学习视觉语言理解与定位模型权重参数，用于在S5中编码测试测试图片-文本描述样本对，设定如下的元学习目标并来指导元学习外层循环训练中视觉语言理解与定位模型权重参数/>的更新：

；

其中，表示元学习中的迭代训练总次数，i表示第i轮元学习，范围为1到/>，/>表示第i轮元学习迭代训练中的查询集，/>表示第i轮元学习内层循环训练更新后的基础学习器参数，/>表示视觉语言理解与定位模型统一使用的损失函数，/>表示元学习视觉语言理解与定位训练模型的权重参数。

在本实施例中涉及基于随机梯度下降法原理计算参数更新的公式为：

；

其中，i表示第i轮元学习，范围为1到，/>表示元学习中的迭代训练总次数，/>表示第i轮元学习中迭代训练集中的支持集，/>表示第i轮元学习迭代训练中的查询集，/>表示元学习的内层循环训练学习率，设置为1e-5，/>表示元学习视觉语言理解与定位训练模型的权重参数，/>表示元学习视觉语言理解与定位训练模型的损失函数，/>表示第i轮元学习内层循环训练更新后的基础学习器参数，/>表示参数更新的量。

元学习视觉语言理解与定位模型权重参数可以被更新为：

；

其中，表示外层循环训练的学习率，设置为1e-5，/>表示第i轮元学习迭代训练中的查询集，/>表示第i轮元学习内层循环训练更新后的基础学习器参数。

本实施例中，利用迭代优化后的最优元学习视觉语言理解与定位模型编码测试数据集，对于每一个用于测试的图片-文本描述样本对，利用训练好的模型参数计算其定位框回归点，输出被描述物体在图片中的定位框：

；

Claims

1.一种元学习视觉语言理解与定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的元学习视觉语言理解与定位方法，其特征在于，所述支持集和查询集的表达式分别如下：

；

3.根据权利要求1所述的元学习视觉语言理解与定位方法，其特征在于，所述S2包括以下步骤：

4.根据权利要求3所述的元学习视觉语言理解与定位方法，其特征在于，所述图片的视觉特征和文本描述的语言特征的表达式分别如下：

；

5.根据权利要求3所述的元学习视觉语言理解与定位方法，其特征在于，所述预测定位框的表达式如下：

；

6.根据权利要求3所述的元学习视觉语言理解与定位方法，其特征在于，所述元学习视觉语言理解与定位训练模型的损失函数的表达式如下：

；

7.根据权利要求1所述的元学习视觉语言理解与定位方法，其特征在于，所述对基础学习器的参数进行更新，其表达式如下：

；

8.根据权利要求1所述的元学习视觉语言理解与定位方法，其特征在于，所述反向优化元学习视觉语言理解与定位训练模型的权重参数的表达式如下：

；

9.根据权利要求1所述的元学习视觉语言理解与定位方法，其特征在于，所述定位框的坐标的表达式如下：

；