CN117095187A - 元学习视觉语言理解与定位方法 - Google Patents
元学习视觉语言理解与定位方法 Download PDFInfo
- Publication number
- CN117095187A CN117095187A CN202311330418.4A CN202311330418A CN117095187A CN 117095187 A CN117095187 A CN 117095187A CN 202311330418 A CN202311330418 A CN 202311330418A CN 117095187 A CN117095187 A CN 117095187A
- Authority
- CN
- China
- Prior art keywords
- learning
- meta
- representing
- training
- language understanding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 158
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 25
- 230000004807 localization Effects 0.000 claims description 17
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 9
- 238000013459 approach Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种元学习视觉语言理解与定位方法,包括:构建训练集;构建元学习视觉语言理解与定位训练模型;构建基于随机不相关训练机制的元学习内层循环训练,并利用支持集对基础学习器的参数进行更新;利用更新后的基础学习器参数对训练集中的查询集计算损失,并反向优化元学习视觉语言理解与定位训练模型;利用优化后的元学习视觉语言理解与定位训练模型编码测试图片‑文本描述样本对,输出被描述物体在图片中的定位框。本发明解决了现有的视觉语言理解与定位方法在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,进而降低视觉语言理解与定位精度的问题。
Description
技术领域
本发明属于多模态视觉语言理解与定位技术领域,尤其涉及一种元学习视觉语言理解与定位方法。
背景技术
视觉语言理解与定位(visual grounding,VG)是指通过自然语言表达来准确定位图像中的目标区域或对象。简单来说,就是通过输入一张图片和对应的物体文本描述,输出被描述物体在图片中的定位框坐标。在视觉语言理解与定位任务中,被描述的物体通常由文本描述中的一个或多个信息片段来指定。信息可能包括物体对象属性、外观属性和视觉关系上下文等。视觉语言理解与定位任务结合了计算机视觉和自然语言理解,以增强图像的理解和分析能力。此外,它还支持诸如图像描述生成、图像文本检索和视觉语言问答等应用。总的来说,视觉语言理解与定位技术在推动计算机视觉和自然语言理解结合的众多领域的发展中起着至关重要的作用,具有重要的研究意义。
近年来,诸多深度视觉语言理解与定位方法已经被探索出来,它们借助于神经网络提取出图片的视觉特征及对应图片中物体的文本描述的语言特征,再经过特征融合生成最后的定位框。这些方法主要分为三类:两阶段方法、一阶段方法和基于Transformer的方法两阶段方法模型在初始阶段生成候选框区域,在随后的阶段将这些候选框与文本描述进行匹配,然后对候选框进行排序选择最终的定位框,但在这类方法中候选框的排序和选择需要较大的计算量,且无法穷尽所有可能即得到的候选框也是次优的。一阶段方法直接将文本描述与图像特征融合,并直接预测边界框来定位提到的对象,通过对可能的目标位置进行密集采样,减少区域建议上的冗余计算,相比于两阶段方法,一阶段方法在计算量上有了较大程度地减少,但是其仍然是基于通用的对象检测器,推断过程依赖于所有可能的候选区域的预测结果,这使得性能受到预测建议的质量或预定义锚框配置的限制。此外,不管是两阶段方法还是一阶段方法,实质上都是将候选对象表示为区域特征(对应于预测的建议)或点特征(密集锚框的特征),以与文本描述的语言特征进行匹配或融合,这种特征表示可能对捕捉文本描述中提到的详细视觉概念或上下文的灵活性较差,这种不灵活性增加了识别目标对象的困难。随着基于注意力机制的Transformer模型的发展,现在的视觉语言理解与定位方法已经基于Transformer实现了对定位框坐标进行直接回归,在基于Transformer的视觉语言理解与定位方法中,Transformer模型的核心组件注意力层在视觉和语言输入之间建立模态内部和模态间的对应关系,直接利用深度模型将跨模态数据回归成一个定位框。然而,不管是两阶段方法、一阶段方法还是最近的基于Transformer的方法,都会在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,引起模型过拟合,极大地影响了视觉语言理解与定位模型的定位精度。
发明内容
针对现有技术中的上述不足,本发明提供的一种元学习视觉语言理解与定位方法,解决了视觉语言理解与定位任务训练时的收敛慢、训练不稳定问题以及在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,引起模型过拟合,进而降低了视觉语言理解与定位精度的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种元学习视觉语言理解与定位方法,包括以下步骤:
S1、在元学习的每一轮迭代训练中,将目标视觉语言理解与定位数据集随机划分为没有重复数据的支持集和查询集,构建训练集,且每一轮参与元学习迭代训练的支持集与查询集不相关;
S2、根据输入的样本对,构建元学习视觉语言理解与定位训练模型,其中,所述输入的样本对为图片-文本描述样本对;
S3、构建基于随机不相关训练机制的元学习内层循环训练,并利用支持集对基础学习器的参数进行更新;
S4、利用更新后的基础学习器参数对训练集中的查询集计算损失,并反向优化元学习视觉语言理解与定位训练模型,以完成元学习的外层循环训练;
S5、利用优化后的元学习视觉语言理解与定位训练模型编码测试图片-文本描述样本对,输出被描述物体在图片中的定位框。
本发明的有益效果是:本发明基于随机不相关训练机制对元学习视觉语言理解与定位训练模型的内层和外层进行循环训练优化,并利用优化后的元学习视觉语言理解与定位训练模型输出测试图片-文本描述样本对中被描述物体在图片中的定位框。本发明提出了一种随机不相关的训练机制,使得元学习视觉语言理解与定位训练模型能直接在视觉语言理解与定位数据集上进行元学习迭代训练,提高了模型的泛化能力;利用元学习迭代训练加快了视觉语言理解与定位模型的收敛速度,提高了元学习视觉语言理解与定位模型训练时的稳定性。本发明解决了现有的视觉语言理解与定位方法在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,引起模型过拟合,进而降低了视觉语言理解与定位精度的问题。
进一步地,所述支持集和查询集的表达式分别如下:
;
;
其中,和/>分别表示元学习在第i轮迭代训练中的支持集和查询集,/>和/>分别表示支持集和查询集中的第k个输入图片,/>和/>分别表示支持集和查询集中与第k个输入图片对应的文本描述,k的取值为1至/>,/>表示元学习中每一轮迭代训练中的批次大小。
上述进一步方案的有益效果是:本发明通过随机不相关的元学习数据划分机制划分得到元学习的支持集和查询集,并直接在视觉语言理解与定位数据集上进行元学习迭代训练,利用元学习的支持集和查询集,视觉语言理解与定位模型可以进行后续的元学习过程。
再进一步地,所述S2包括以下步骤:
S201、利用视觉Transformer网络作为元学习视觉语言理解与定位训练模型的视觉分支,提取输入样本对中图片的视觉特征,以及利用基于Bert的网络作为元学习视觉语言理解与定位训练模型的语言分支,提取输入样本对中文本描述的语言特征;
S202、利用视觉语言Transformer网络将所述图片的视觉特征和文本描述的语言特征进行融合,并将文本描述提到的视觉目标的坐标框进行回归处理,得到预测定位框;
S203、利用元学习视觉语言理解与定位训练模型的损失函数,计算所述预测定位框与真实定位框的损失;
S204、基于S203的计算结果,利用随机梯度下降法反向优化元学习视觉语言理解与定位训练模型。
上述进一步方案的有益效果是:利用视觉Transformer网络和基于Bert的网络分别作为元学习视觉语言理解与定位训练模型的视觉分支和语言分支,提取得到输入图片的视觉特征和对应文本描述的语言特征,再利用视觉语言Transformer网络将所述图片的视觉特征和文本描述的语言特征进行融合并进行跨模态推理,直接回归出预测定位框的坐标,利用损失函数计算训练损失和利用随机梯度下降法不断迭代优化元学习视觉语言理解与定位训练模型。
再进一步地,所述图片的视觉特征和文本描述的语言特征的表达式分别如下:
;
;
其中,和/>分别表示图片的视觉特征和文本描述的语言特征,/>表示视觉Transformer网络,/>表示基于Bert的网络,/>表示图片-文本描述样本对中的图片,/>表示与/>对应的文本描述。
上述进一步方案的有益效果是:提取的图片的视觉特征和对应文本描述的语言特征,为后续的特征融合及跨模态推理过程提供了基础。
再进一步地,所述预测定位框的表达式如下:
;
其中,表示预测定位框,其形式为/>,/>分别表示预测定位框中心点的横坐标和纵坐标,/>分别表示预测定位框的宽和高,/>和/>分别表示图片的视觉特征和文本描述的语言特征,/>表示用于融合/>和/>的视觉语言Transformer网络。
上述进一步方案的有益效果是:得到的预测定位框可以与真实定位框一起在后续过程中作为损失函数的输入计算训练损失。
再进一步地,所述元学习视觉语言理解与定位训练模型的损失函数的表达式如下:
;
其中,表示元学习视觉语言理解与定位训练模型的损失函数,/>表示图片-文本描述样本对/>的真实定位框,/>表示图片-文本描述样本对中的图片,/>表示与/>对应的文本描述,/>表示预测定位框,其形式为/>,/>分别表示预测定位框中心点的横坐标和纵坐标,/>分别表示预测定位框的宽和高,/>表示真实定位框和预测定位框重叠的区域面积,/>表示真实定位框和预测定位框的面积之和,/>表示真实定位框和预测定位框的最小外接矩形的面积。
上述进一步方案的有益效果是:利用上述的损失函数公式对预测定位框和真实定位框计算损失,该损失函数不仅关注预测定位框和真实定位框的重叠区域,还关注其他的非重合区域,能更好地反映预测定位框和真实定位框的重合度,更准确地反应模型的训练损失。
再进一步地,所述对基础学习器的参数进行更新,其表达式如下:
;
其中,表示第i轮元学习内层循环训练更新后的基础学习器参数,/>表示基础学习器第i轮元学习迭代训练中的元学习视觉语言理解与定位训练模型参数,/>表示元学习的内层循环训练学习率,/>表示元学习视觉语言理解与定位训练模型的损失函数,/>表示第i轮元学习迭代训练中的支持集,/>表示微分计算。
上述进一步方案的有益效果是:本发明通过内层循环训练使基础学习器能够学习到更具有泛化能力的特征表示和模型参数,从而提高在视觉语言理解与定位任务上的泛化能力。
再进一步地,所述反向优化元学习视觉语言理解与定位训练模型的权重参数的表达式如下:
;
;
其中,表示元学习视觉语言理解与定位训练模型的权重参数,/>表示外层循环训练的学习率,/>表示元学习迭代训练的总次数,/>表示第i轮元学习内层循环训练更新后的基础学习器参数,/>表示第i轮元学习迭代训练中的查询集,/>表示元学习的内层循环训练学习率,/>表示第i轮元学习中迭代训练集中的支持集,/>表示元学习视觉语言理解与定位训练模型的损失函数,/>表示微分计算,/>表示参数更新的量。
上述进一步方案的有益效果是:本发明通过元学习外层循环训练使元学习器能够快速地优化视觉语言理解与定位模型的参数,加快收敛速度,同时使训练更稳定。
再进一步地,所述定位框的坐标的表达式如下:
;
其中,表示定位框的坐标,其形式为/>,/>分别表示定位框中心点的横坐标和纵坐标,/>分别表示定位框的宽和高,/>表示优化后的元学习视觉语言理解与定位训练模型,/>表示输入优化后的元学习视觉语言理解与定位训练模型进行测试的图片-文本描述样本对,/>表示测试图片,/>表示与/>对应的文本描述。
上述进一步方案的有益效果是:通过迭代优化得到的最优元学习视觉语言理解与定位训练模型编码测试图片-文本描述样本对,能够输出文本描述中被描述物体在图片中的定位框。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
如图1所示,本发明提供了一种元学习视觉语言理解与定位方法,其实现方法如下:
S1、在元学习的每一轮迭代训练中,将目标视觉语言理解与定位数据集随机划分为没有重复数据的支持集和查询集,构建训练集,且每一轮参与元学习迭代训练的支持集与查询集不相关;
本实施例中,构建训练数据,基于随机不相关训练机制从训练数据集中抽取出支持集和查询集用于训练模型,在元学习的每一轮迭代训练中,将目标视觉语言理解与定位数据集随机分成没有重复数据的不相关的支持集和查询集。需要注意的是,每一轮参与元学习迭代训练的支持集和查询集是不相关的,即支持集与查询集中的训练样本完全不重复,元学习第i轮迭代训练中的支持集和查询集如下:
;
;
其中,和/>分别表示元学习在第i轮迭代训练中的支持集和查询集,/>和/>分别表示支持集和查询集中的第k个输入图片,/>和/>分别表示支持集和查询集中与第k个输入图片对应的文本描述,k的取值为1至/>,/>表示元学习中每一轮迭代训练中的批次大小。
S2、根据输入的样本对,构建元学习视觉语言理解与定位训练模型,其中,所述输入的样本对为图片-文本描述样本对,其实现方法如下:
S201、利用视觉Transformer网络作为元学习视觉语言理解与定位训练模型的视觉分支,提取输入样本对中图片的视觉特征,以及利用基于Bert的网络作为元学习视觉语言理解与定位训练模型的语言分支,提取输入样本对中文本描述的语言特征;
S202、利用视觉语言Transformer网络将所述图片的视觉特征和文本描述的语言特征进行融合,并将文本描述提到的视觉目标的坐标框进行回归处理,得到预测定位框;
S203、利用元学习视觉语言理解与定位训练模型的损失函数,计算所述预测定位框与真实定位框的损失;
S204、基于S203的计算结果,利用随机梯度下降法反向优化元学习视觉语言理解与定位训练模型。
本实施例中,元学习视觉语言理解与定位模型的输入为图片及其对应的文本描述样本对,利用基于视觉Transformer的网络作为模型的视觉分支,提取输入样本对中图片的视觉特征,利用基于Bert的网络作为模型的语言分支,提取输入样本对中文本描述的语言特征:
;
;
其中,和/>分别表示图片的视觉特征和文本描述的语言特征,/>表示视觉Transformer网络,/>表示基于Bert的网络,/>表示图片-文本描述样本对中的图片,/>表示与/>对应的文本描述。
利用视觉语言Transformer网络将中提取到的图片的视觉特征和文本描述的语言特征进行融合,然后通过跨模态关系推理实现将文本描述提到的视觉目标的框标进行直接回归,得到预测定位框:
;
其中,表示预测定位框,其形式为/>,/>分别表示预测定位框中心点的横坐标和纵坐标,/>分别表示预测定位框的宽和高,/>和/>分别表示图片的视觉特征和文本描述的语言特征,/>表示用于融合/>和/>的视觉语言Transformer网络。
利用元学习视觉语言理解与定位训练模型的损失函数对得到的预测定位框与真实定位框b计算损失,在视觉语言理解与定位模型中的所有过程采用统一的损失函数:
;
其中,表示元学习视觉语言理解与定位训练模型的损失函数,/>表示图片-文本描述样本对/>的真实定位框,/>表示图片-文本描述样本对中的图片,/>表示与/>对应的文本描述,/>表示预测定位框,其形式为/>,/>分别表示预测定位框中心点的横坐标和纵坐标,/>分别表示预测定位框的宽和高,/>表示真实定位框和预测定位框重叠的区域面积,/>表示真实定位框和预测定位框的面积之和,/>表示真实定位框和预测定位框的最小外接矩形的面积。
在得到计算得出的损失后,使用随机梯度下降算法反向优化元学习视觉语言理解与定位模型,在元学习视觉语言理解与定位模型中采用的优化算法统一为随机梯度下降法。
S3、构建基于随机不相关训练机制的元学习内层循环训练,并利用支持集对基础学习器的参数进行更新;
本实施例中,构建基于随机不相关训练机制的元学习的内层循环训练,在内层循环训练中采用的损失函数为元学习视觉语言理解与定位模型统一使用的损失函数,采用的优化算法为随机梯度下降法,利用训练集中的支持集进行基础学习器的参数更新:
;
其中,表示第i轮元学习内层循环训练更新后的基础学习器参数,/>表示基础学习器第i轮元学习迭代训练中的元学习视觉语言理解与定位训练模型参数,/>表示元学习的内层循环训练学习率,/>表示元学习视觉语言理解与定位训练模型的损失函数,/>表示第i轮元学习迭代训练中的支持集,/>表示微分计算。
S4、利用更新后的基础学习器参数对训练集中的查询集计算损失,并反向优化元学习视觉语言理解与定位训练模型,以完成元学习的外层循环训练;
本实施例中,利用更新后的基础学习器参数对训练数据集中查询集计算损失,并反向优化元学习视觉语言理解与定位模型,完成元学习的外层循环训练过程。在本实施例中元学习视觉语言理解与定位模型以得到的和查询集/>作为输入,使用的损失函数为元学习视觉语言理解与定位模型统一使用的损失函数/>,通过使用随机梯度下降算法来指导元学习视觉语言理解与定位模型权重参数/>更新,本步骤不断更新的模型权重参数/>,就是最终想要的元学习视觉语言理解与定位模型权重参数,用于在S5中编码测试测试图片-文本描述样本对,设定如下的元学习目标并来指导元学习外层循环训练中视觉语言理解与定位模型权重参数/>的更新:
;
其中,表示元学习中的迭代训练总次数,i表示第i轮元学习,范围为1到/>,/>表示第i轮元学习迭代训练中的查询集,/>表示第i轮元学习内层循环训练更新后的基础学习器参数,/>表示视觉语言理解与定位模型统一使用的损失函数,/>表示元学习视觉语言理解与定位训练模型的权重参数。
在本实施例中涉及基于随机梯度下降法原理计算参数更新的公式为:
;
其中,i表示第i轮元学习,范围为1到,/>表示元学习中的迭代训练总次数,/>表示第i轮元学习中迭代训练集中的支持集,/>表示第i轮元学习迭代训练中的查询集,/>表示元学习的内层循环训练学习率,设置为1e-5,/>表示元学习视觉语言理解与定位训练模型的权重参数,/>表示元学习视觉语言理解与定位训练模型的损失函数,/>表示第i轮元学习内层循环训练更新后的基础学习器参数,/>表示参数更新的量。
元学习视觉语言理解与定位模型权重参数可以被更新为:
;
其中,表示外层循环训练的学习率,设置为1e-5,/>表示第i轮元学习迭代训练中的查询集,/>表示第i轮元学习内层循环训练更新后的基础学习器参数。
S5、利用优化后的元学习视觉语言理解与定位训练模型编码测试图片-文本描述样本对,输出被描述物体在图片中的定位框。
本实施例中,利用迭代优化后的最优元学习视觉语言理解与定位模型编码测试数据集,对于每一个用于测试的图片-文本描述样本对,利用训练好的模型参数计算其定位框回归点,输出被描述物体在图片中的定位框:
;
其中,表示定位框的坐标,其形式为/>,/>分别表示定位框中心点的横坐标和纵坐标,/>分别表示定位框的宽和高,/>表示优化后的元学习视觉语言理解与定位训练模型,/>表示输入优化后的元学习视觉语言理解与定位训练模型进行测试的图片-文本描述样本对,/>表示测试图片,/>表示与/>对应的文本描述。
Claims (9)
1.一种元学习视觉语言理解与定位方法,其特征在于,包括以下步骤:
S1、在元学习的每一轮迭代训练中,将目标视觉语言理解与定位数据集随机划分为没有重复数据的支持集和查询集,构建训练集,且每一轮参与元学习迭代训练的支持集与查询集不相关;
S2、根据输入的样本对,构建元学习视觉语言理解与定位训练模型,其中,所述输入的样本对为图片-文本描述样本对;
S3、构建基于随机不相关训练机制的元学习内层循环训练,并利用支持集对基础学习器的参数进行更新;
S4、利用更新后的基础学习器参数对训练集中的查询集计算损失,并反向优化元学习视觉语言理解与定位训练模型,以完成元学习的外层循环训练;
S5、利用优化后的元学习视觉语言理解与定位训练模型编码测试图片-文本描述样本对,输出被描述物体在图片中的定位框。
2.根据权利要求1所述的元学习视觉语言理解与定位方法,其特征在于,所述支持集和查询集的表达式分别如下:
;
;
其中,和/>分别表示元学习在第i轮迭代训练中的支持集和查询集,/>和/>分别表示支持集和查询集中的第k个输入图片,/>和/>分别表示支持集和查询集中与第k个输入图片对应的文本描述,k的取值为1至/>,/>表示元学习中每一轮迭代训练中的批次大小。
3.根据权利要求1所述的元学习视觉语言理解与定位方法,其特征在于,所述S2包括以下步骤:
S201、利用视觉Transformer网络作为元学习视觉语言理解与定位训练模型的视觉分支,提取输入样本对中图片的视觉特征,以及利用基于Bert的网络作为元学习视觉语言理解与定位训练模型的语言分支,提取输入样本对中文本描述的语言特征;
S202、利用视觉语言Transformer网络将所述图片的视觉特征和文本描述的语言特征进行融合,并将文本描述提到的视觉目标的坐标框进行回归处理,得到预测定位框;
S203、利用元学习视觉语言理解与定位训练模型的损失函数,计算所述预测定位框与真实定位框的损失;
S204、基于S203的计算结果,利用随机梯度下降法反向优化元学习视觉语言理解与定位训练模型。
4.根据权利要求3所述的元学习视觉语言理解与定位方法,其特征在于,所述图片的视觉特征和文本描述的语言特征的表达式分别如下:
;
;
其中,和/>分别表示图片的视觉特征和文本描述的语言特征,/>表示视觉Transformer网络,/>表示基于Bert的网络,/>表示图片-文本描述样本对中的图片,/>表示与/>对应的文本描述。
5.根据权利要求3所述的元学习视觉语言理解与定位方法,其特征在于,所述预测定位框的表达式如下:
;
其中,表示预测定位框,其形式为/>,/>分别表示预测定位框中心点的横坐标和纵坐标,/>分别表示预测定位框的宽和高,/>和/>分别表示图片的视觉特征和文本描述的语言特征,/>表示用于融合/>和/>的视觉语言Transformer网络。
6.根据权利要求3所述的元学习视觉语言理解与定位方法,其特征在于,所述元学习视觉语言理解与定位训练模型的损失函数的表达式如下:
;
其中,表示元学习视觉语言理解与定位训练模型的损失函数,/>表示图片-文本描述样本对/>的真实定位框,/>表示图片-文本描述样本对中的图片,/>表示与/>对应的文本描述,/>表示预测定位框,其形式为/>,/>分别表示预测定位框中心点的横坐标和纵坐标,/>分别表示预测定位框的宽和高,/>表示真实定位框和预测定位框重叠的区域面积,/>表示真实定位框和预测定位框的面积之和,/>表示真实定位框和预测定位框的最小外接矩形的面积。
7.根据权利要求1所述的元学习视觉语言理解与定位方法,其特征在于,所述对基础学习器的参数进行更新,其表达式如下:
;
其中,表示第i轮元学习内层循环训练更新后的基础学习器参数,/>表示基础学习器第i轮元学习迭代训练中的元学习视觉语言理解与定位训练模型参数,/>表示元学习的内层循环训练学习率,/>表示元学习视觉语言理解与定位训练模型的损失函数,/>表示第i轮元学习迭代训练中的支持集,/>表示微分计算。
8.根据权利要求1所述的元学习视觉语言理解与定位方法,其特征在于,所述反向优化元学习视觉语言理解与定位训练模型的权重参数的表达式如下:
;
;
其中,表示元学习视觉语言理解与定位训练模型的权重参数,/>表示外层循环训练的学习率,/>表示元学习迭代训练的总次数,/>表示第i轮元学习内层循环训练更新后的基础学习器参数,/>表示第i轮元学习迭代训练中的查询集,/>表示元学习的内层循环训练学习率,/>表示第i轮元学习中迭代训练集中的支持集,/>表示元学习视觉语言理解与定位训练模型的损失函数,/>表示微分计算,/>表示参数更新的量。
9.根据权利要求1所述的元学习视觉语言理解与定位方法,其特征在于,所述定位框的坐标的表达式如下:
;
其中,表示定位框的坐标,其形式为/>,/>分别表示定位框中心点的横坐标和纵坐标,/>分别表示定位框的宽和高,/>表示优化后的元学习视觉语言理解与定位训练模型,/>表示输入优化后的元学习视觉语言理解与定位训练模型进行测试的图片-文本描述样本对,/>表示测试图片,/>表示与/>对应的文本描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330418.4A CN117095187B (zh) | 2023-10-16 | 2023-10-16 | 元学习视觉语言理解与定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330418.4A CN117095187B (zh) | 2023-10-16 | 2023-10-16 | 元学习视觉语言理解与定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095187A true CN117095187A (zh) | 2023-11-21 |
CN117095187B CN117095187B (zh) | 2023-12-19 |
Family
ID=88783590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311330418.4A Active CN117095187B (zh) | 2023-10-16 | 2023-10-16 | 元学习视觉语言理解与定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095187B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580500A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
US20200380403A1 (en) * | 2019-05-30 | 2020-12-03 | Adobe Inc. | Visually Guided Machine-learning Language Model |
US20210241099A1 (en) * | 2020-02-05 | 2021-08-05 | Baidu Usa Llc | Meta cooperative training paradigms |
US20220019734A1 (en) * | 2020-06-17 | 2022-01-20 | Tata Consultancy Services Limited | Method and system for visio-linguistic understanding using contextual language model reasoners |
CN114187472A (zh) * | 2021-12-06 | 2022-03-15 | 江南大学 | 一种基于模型驱动元学习的乳腺癌分子亚型预测方法 |
CN114220516A (zh) * | 2021-12-17 | 2022-03-22 | 北京工业大学 | 一种基于层级循环神经网络解码的脑ct医学报告生成方法 |
CN114491039A (zh) * | 2022-01-27 | 2022-05-13 | 四川大学 | 基于梯度改进的元学习少样本文本分类方法 |
CN115249361A (zh) * | 2022-07-15 | 2022-10-28 | 北京京东尚科信息技术有限公司 | 指示表达文本定位模型训练、装置、设备和介质 |
CN115953569A (zh) * | 2022-12-16 | 2023-04-11 | 华东师范大学 | 一种基于多步推理的一阶段视觉定位模型构建方法 |
CN116011507A (zh) * | 2022-12-06 | 2023-04-25 | 东北林业大学 | 融合元学习与图神经网络的稀有故障诊断方法 |
CN116050399A (zh) * | 2023-01-05 | 2023-05-02 | 中国科学院声学研究所南海研究站 | 一种可跨语料库可跨算法的生成式文本隐写分析方法 |
CN116071315A (zh) * | 2022-12-31 | 2023-05-05 | 聚光科技(杭州)股份有限公司 | 一种基于机器视觉的产品可视缺陷检测方法及*** |
CN116246279A (zh) * | 2022-12-28 | 2023-06-09 | 北京理工大学 | 一种基于clip背景知识的图文特征融合方法 |
CN116258990A (zh) * | 2023-02-13 | 2023-06-13 | 安徽工业大学 | 一种基于跨模态亲和力的小样本参考视频目标分割方法 |
CN116524356A (zh) * | 2023-04-11 | 2023-08-01 | 湖北工业大学 | 一种矿石图像小样本目标检测方法及*** |
CN116612324A (zh) * | 2023-05-17 | 2023-08-18 | 四川九洲电器集团有限责任公司 | 基于语义自适应融合机制的小样本图像分类方法及装置 |
US20230274127A1 (en) * | 2022-02-25 | 2023-08-31 | Electronics And Telecommunications Research Institute | Method and apparatus for learning concept based few-shot |
US20230297603A1 (en) * | 2022-03-18 | 2023-09-21 | Adobe Inc. | Cross-lingual meta-transfer learning adaptation to natural language understanding |
-
2023
- 2023-10-16 CN CN202311330418.4A patent/CN117095187B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200380403A1 (en) * | 2019-05-30 | 2020-12-03 | Adobe Inc. | Visually Guided Machine-learning Language Model |
CN110580500A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
US20210241099A1 (en) * | 2020-02-05 | 2021-08-05 | Baidu Usa Llc | Meta cooperative training paradigms |
US20220019734A1 (en) * | 2020-06-17 | 2022-01-20 | Tata Consultancy Services Limited | Method and system for visio-linguistic understanding using contextual language model reasoners |
CN114187472A (zh) * | 2021-12-06 | 2022-03-15 | 江南大学 | 一种基于模型驱动元学习的乳腺癌分子亚型预测方法 |
CN114220516A (zh) * | 2021-12-17 | 2022-03-22 | 北京工业大学 | 一种基于层级循环神经网络解码的脑ct医学报告生成方法 |
CN114491039A (zh) * | 2022-01-27 | 2022-05-13 | 四川大学 | 基于梯度改进的元学习少样本文本分类方法 |
US20230274127A1 (en) * | 2022-02-25 | 2023-08-31 | Electronics And Telecommunications Research Institute | Method and apparatus for learning concept based few-shot |
US20230297603A1 (en) * | 2022-03-18 | 2023-09-21 | Adobe Inc. | Cross-lingual meta-transfer learning adaptation to natural language understanding |
CN115249361A (zh) * | 2022-07-15 | 2022-10-28 | 北京京东尚科信息技术有限公司 | 指示表达文本定位模型训练、装置、设备和介质 |
CN116011507A (zh) * | 2022-12-06 | 2023-04-25 | 东北林业大学 | 融合元学习与图神经网络的稀有故障诊断方法 |
CN115953569A (zh) * | 2022-12-16 | 2023-04-11 | 华东师范大学 | 一种基于多步推理的一阶段视觉定位模型构建方法 |
CN116246279A (zh) * | 2022-12-28 | 2023-06-09 | 北京理工大学 | 一种基于clip背景知识的图文特征融合方法 |
CN116071315A (zh) * | 2022-12-31 | 2023-05-05 | 聚光科技(杭州)股份有限公司 | 一种基于机器视觉的产品可视缺陷检测方法及*** |
CN116050399A (zh) * | 2023-01-05 | 2023-05-02 | 中国科学院声学研究所南海研究站 | 一种可跨语料库可跨算法的生成式文本隐写分析方法 |
CN116258990A (zh) * | 2023-02-13 | 2023-06-13 | 安徽工业大学 | 一种基于跨模态亲和力的小样本参考视频目标分割方法 |
CN116524356A (zh) * | 2023-04-11 | 2023-08-01 | 湖北工业大学 | 一种矿石图像小样本目标检测方法及*** |
CN116612324A (zh) * | 2023-05-17 | 2023-08-18 | 四川九洲电器集团有限责任公司 | 基于语义自适应融合机制的小样本图像分类方法及装置 |
Non-Patent Citations (4)
Title |
---|
GUANGXING HAN等: "Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting", 《ARXIV:2204.07841V3》, pages 1 - 17 * |
曹思雨: "细粒度图像分类场景下的小样本学习方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, pages 138 - 432 * |
牛凯等: "视觉-语言导航的研究进展与发展趋势", 《计算机辅助设计与图形学学报》, vol. 34, no. 12, pages 1815 - 1827 * |
胡成纬: "基于室内场景图知识融入的视觉语言导航", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 3, pages 140 - 382 * |
Also Published As
Publication number | Publication date |
---|---|
CN117095187B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及*** | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN112633010A (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及*** | |
CN113064968B (zh) | 一种基于张量融合网络的社交媒体情感分析方法及*** | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN113705238B (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及*** | |
CN113392197B (zh) | 问答推理方法、装置、存储介质及电子设备 | |
CN114528398A (zh) | 一种基于交互双重图卷积网络的情感预测方法及*** | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN115587207A (zh) | 一种基于分类标签的深度哈希检索方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及*** | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及*** | |
CN111882042A (zh) | 用于液体状态机的神经网络架构自动搜索方法、***及介质 | |
CN117971420A (zh) | 任务处理、交通任务处理以及任务处理模型训练方法 | |
CN117095187B (zh) | 元学习视觉语言理解与定位方法 | |
Qin et al. | Modularized Pre-training for End-to-end Task-oriented Dialogue | |
CN116881416A (zh) | 关系推理与跨模态独立匹配网络的实例级跨模态检索方法 | |
CN117009478A (zh) | 一种基于软件知识图谱问答问句解析过程的算法融合方法 | |
CN116881409A (zh) | 一种基于电商知识图谱的商品信息自动问答方法 | |
Basnyat et al. | Vision powered conversational AI for easy human dialogue systems | |
CN115062123A (zh) | 一种对话生成***的知识库问答对生成方法 | |
CN110969187B (zh) | 一种图谱迁移的语义分析方法 | |
US12014149B1 (en) | Multi-turn human-machine conversation method and apparatus based on time-sequence feature screening encoding module | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |