CN113869518A

CN113869518A - 视觉常识推理方法、装置、电子设备及存储介质

Info

Publication number: CN113869518A
Application number: CN202110998227.XA
Authority: CN
Inventors: 徐常胜; 张熙; 张飞飞
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-12-31

Abstract

本发明提供一种视觉常识推理方法、装置、电子设备及存储介质，其中方法包括：获取待推理图像，以及所述待推理图像对应的推理问题和多个候选推理答案；将所述待推理图像，所述推理问题和所述多个候选推理答案输入至视觉常识推理模型，得到所述视觉常识推理模型输出的推理结果；其中，所述视觉常识推理模型是基于样本推理图像，以及所述样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。本发明提供的方法、装置、电子设备及存储介质，具有强大的特征学习能力和理解推理能力，所得到的推理结果的误差小，提高了视觉常识推理的准确性。

Description

视觉常识推理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种视觉常识推理方法、装置、电子设备及存储介质。

背景技术

随着社交网络中多模态数据量急剧增长，为有效地分析异构模态的数据，许多具有挑战性的任务被关注和研究。视觉常识推理(Visual Commonsense Reasoning)正是其中的一项任务。给定有关某张图像的一个问题，视觉常识推理模型不仅需要提供正确的答案，还需要提供合理的理由来证明该答案。近年来，随着深度学习技术的发展，视觉常识推理任务取得了***的进展。但是该任务仍是一个具有挑战性的问题，因为它需要全面理解图像中多样化的视觉内容、语义丰富的语言表达以及复杂的跨模态关系。

现有技术中，通过整体注意力机制，或探索具有大规模预训练的基于Transformer的模型来进行视觉常识推理，但是这些模型容易利用数据本身的偏见进行预测，无法进行对图像和文本进行全面的理解，并且计算量巨大，视觉常识推理的误差较大，准确性差。

发明内容

本发明提供一种视觉常识推理方法、装置、电子设备及存储介质，用于解决现有技术中视觉常识推理的误差较大，准确性差的技术问题。

本发明提供一种视觉常识推理方法，包括：

获取待推理图像，以及所述待推理图像对应的推理问题和多个候选推理答案；

将所述待推理图像，所述推理问题和所述多个候选推理答案输入至视觉常识推理模型，得到所述视觉常识推理模型输出的推理结果；

其中，所述视觉常识推理模型是基于样本推理图像，以及所述样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。

根据本发明提供的视觉常识推理方法，所述将所述待推理图像，所述推理问题和所述多个候选推理答案输入至视觉常识推理模型，得到所述视觉常识推理模型输出的推理结果，包括：

将所述待推理图像输入至所述视觉常识推理模型的图像编码层，得到所述图像编码层输出的图像特征；

将所述推理问题输入至所述视觉常识推理模型的文本编码层，得到所述文本编码层输出的问题特征；

将所述图像特征和所述问题特征，以及所述多个候选推理答案输入至所述视觉常识推理模型的结果分类层，得到所述结果分类层输出的推理结果。

根据本发明提供的视觉常识推理方法，所述视觉常识推理模型是基于如下步骤训练得到的：

基于所述样本推理图像，确定实例级正负样本和图像级正负样本；

基于所述多个候选样本推理答案，确定语义级正负样本；

基于所述样本推理图像、所述样本推理问题、所述实例级正负样本、所述图像级正负样本和所述语义级正负样本，对初始模型进行训练，得到所述视觉常识推理模型。

根据本发明提供的视觉常识推理方法，所述基于所述样本推理图像、所述样本推理问题、所述实例级正负样本、所述图像级正负样本和所述语义级正负样本，对初始模型进行训练，得到所述视觉常识推理模型，包括：

将所述样本推理图像输入至所述初始模型的图像编码层，得到所述图像编码层输出的样本图像特征；

将所述实例级正负样本输入至所述初始模型的图像编码层，得到所述图像编码层输出的实例级正样本图像特征和实例级负样本图像特征；

将所述图像级正负样本输入至所述初始模型的图像编码层，得到所述图像编码层输出的图像级正样本图像特征和图像级负样本图像特征；

将所述样本推理问题输入至所述初始模型的文本编码层，得到所述文本编码层输出的样本问题特征；

将所述语义级正负样本输入至所述初始模型的文本编码层，得到所述文本编码层输出的样本推理答案特征；

将样本图像特征、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征和图像级负样本图像特征分别与所述样本问题特征进行融合后，得到样本图像融合特征、实例级正样本融合特征、实例级负样本融合特征、图像级正样本融合特征和图像级负样本融合特征；

将所述样本图像融合特征、所述实例级正样本融合特征、所述实例级负样本融合特征、所述图像级正样本融合特征和所述图像级负样本融合特征分别与所述样本推理答案特征拼接后输入至所述初始模型的结果分类层，以最小化正负样本之间的对比损失和模型分类的交叉熵损失为目的对所述初始模型进行训练，得到所述视觉常识推理模型。

根据本发明提供的视觉常识推理方法，所述视觉常识推理模型的损失函数是基于如下步骤确定的：

基于交叉熵损失函数、所述样本图像融合特征和所述样本推理答案特征，确定基本分类损失函数；

基于对比损失函数、所述样本图像融合特征、所述实例级正样本融合特征和所述实例级负样本融合特征，确定实例级对比损失函数；

基于对比损失函数、所述样本图像融合特征、所述图像级正样本融合特征和所述图像级负样本融合特征，确定图像级对比损失函数；

基于对比损失函数、所述样本图像融合特征和所述样本推理答案特征，确定语义级对比损失函数；

基于交叉熵损失函数、所述实例级正样本图像特征、所述实例级负样本图像特征、所述图像级正样本图像特征、所述图像级负样本图像特征和所述样本推理答案特征，确定辅助分类损失函数；

基于所述基本分类损失函数、所述实例级对比损失函数、所述图像级对比损失函数、所述语义级对比损失函数和所述辅助分类损失函数，确定所述视觉常识推理模型的损失函数。

根据本发明提供的视觉常识推理方法，所述基于所述样本推理图像，确定实例级正负样本，包括：

基于任一样本推理图像中各个物体的推理贡献度大小，按照降序顺序选取满足第一预设数量的物体的集合作为所述任一样本推理图像对应的实例级正样本，以及按照升序顺序选取满足第一预设数量的物体作为所述任一样本推理图像对应的实例级负样本。

根据本发明提供的视觉常识推理方法，所述基于所述样本推理图像，确定图像级正负样本，包括：

基于任一样本推理图像中各个物体的推理贡献度大小，按照升序顺序选取满足第二预设数量的物体进行掩盖，将掩盖后得到的所述样本推理图像作为所述任一样本推理图像对应的图像级正样本；

基于除所述任一样本推理图像之外的其他样本推理图像，确定所述图像级负样本。

本发明提供一种视觉常识推理装置，包括：

获取单元，用于获取待推理图像，以及所述待推理图像对应的推理问题和多个候选推理答案；

推理单元，用于将所述待推理图像，所述推理问题和所述多个候选推理答案输入至视觉常识推理模型，得到所述视觉常识推理模型输出的推理结果；其中，所述视觉常识推理模型是基于样本推理图像，以及所述样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的视觉常识推理方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的视觉常识推理方法的步骤。

本发明实施例提供的视觉常识推理方法、装置、电子设备及存储介质，通过样本推理图像，以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到视觉常识推理模型，所得到的视觉常识推理模型能够对待推理图像，以及待推理图像对应的推理问题和多个候选推理答案进行处理，得到推理结果，由于视觉常识推理模型能够对图像和文本等多模态数据进行全面的理解，能够学习到待推理图像、推理问题和各个候选推理答案之间的关联性，具有强大的特征学习能力和理解推理能力，所得到的推理结果的误差小，提高了视觉常识推理的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的视觉常识推理方法的流程示意图；

图2为本发明提供的视觉常识推理装置的结构示意图；

图3为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的视觉常识推理方法的流程示意图，如图1所示，该方法包括：

步骤110，获取待推理图像，以及待推理图像对应的推理问题和多个候选推理答案。

具体地，待推理图像可以为照片、绘画、地图、影视画面、X光片、心电图等，其储存格式可以为PNG、BMP和JPEG等。本发明实施例对于待推理图像的类型和格式不作具体限定。

推理问题为针对待推理图像中的信息提出的信息请求。推理答案为与推理问题中要求回答的内容相对应的信息。候选推理答案为可能成为推理答案的选项。例如，对于一张图像，图像中的人物1拿着水杯准备喝水，推理问题可以为该图像人物1为什么拿着水杯，候选推理答案可以为4个，分别为人物1准备吃饭、人物1准备喝水、人物1准备读书和人物1准备跳舞。其中，第二个候选推理答案最接近图像中记载的真实情况。

步骤120，将待推理图像，推理问题和多个候选推理答案输入至视觉常识推理模型，得到视觉常识推理模型输出的推理结果；其中，视觉常识推理模型是基于样本推理图像，以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。

具体地，推理结果为从多个候选推理答案中选出推理答案。推理结果的确定可以通过视觉常识推理模型来实现。

视觉常识推理模型可以对待推理图像和推理问题进行特征提取，得到图像特征和文本特征，然后对图像特征、文本特征和各个候选推理答案之间的关联性进行学习，将关联性最高的候选推理答案作为推理答案。

可以预先训练得到视觉常识推理模型，具体可以通过如下训练方式得到：

首先，收集大量的样本推理图像，以及样本推理图像对应的样本推理问题和多个候选样本推理答案；其次，根据每一样本推理图像对应的样本推理问题的真实推理答案，对多个候选样本推理答案进行标注，确定每一候选样本推理答案的标签；随即，根据大量的样本推理图像，以及样本推理图像对应的样本推理问题、多个候选样本推理答案以及每一候选样本推理答案的标签，对初始模型进行训练，以提高初始模型对于推理结果的预测能力，得到视觉常识推理模型。

本发明实施例提供的视觉常识推理方法，通过样本推理图像，以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到视觉常识推理模型，所得到的视觉常识推理模型能够对待推理图像，以及待推理图像对应的推理问题和多个候选推理答案进行处理，得到推理结果，由于视觉常识推理模型能够对图像和文本等多模态数据进行全面的理解，能够学习到待推理图像、推理问题和各个候选推理答案之间的关联性，具有强大的特征学习能力和理解推理能力，所得到的推理结果的误差小，提高了视觉常识推理的准确性。

基于上述实施例，步骤120包括：

将待推理图像输入至视觉常识推理模型的图像编码层，得到图像编码层输出的图像特征；

将推理问题输入至视觉常识推理模型的文本编码层，得到文本编码层输出的问题特征；

将图像特征和问题特征，以及多个候选推理答案输入至视觉常识推理模型的结果分类层，得到结果分类层输出的推理结果。

具体地，视觉常识推理模型可以包括三层，分别为图像编码层、文本编码层和结果分类层。

图像编码层用于对待推理图像进行特征提取，得到待推理图像的图像特征。例如，该图像特征用于表示待推理图像中各个物体的信息，以及各个物体之间的相互作用信息等。

文本编码层用于对推理问题进行特征提取，得到推理问题的文本特征。例如，该文本特征用于表示推理问题中与待推理图像中的物体相关的语义信息。

结果分类层用于根据图像特征和问题特征，从多个候选推理答案中确定推理答案并输出推理结果。例如，结果分类层可以输出推理答案，也可以输出各个候选推理答案作为推理答案的预测概率。

基于上述任一实施例，视觉常识推理模型是基于如下步骤训练得到的：

基于样本推理图像，确定实例级正负样本和图像级正负样本；

基于多个候选样本推理答案，确定语义级正负样本；

基于样本推理图像、样本推理问题、实例级正负样本、图像级正负样本和语义级正负样本，对初始模型进行训练，得到视觉常识推理模型。

具体地，可以利用对比学习(Contrastive Learning)的方式提高视觉常识推理模型的特征学习能力。

可以根据样本推理图像，构建实例级正负样本和图像级正负样本。

实例级正负样本为从样本推理图像中的各个物体出发，构建的正负样本。其中，正样本可以由对确定推理结果贡献较大的物体组成，负样本可以由对确定推理结果贡献较小的物体组成。通过对实例级正负样本的学习，能够提高视觉推理模型对图像中物体的细节信息的学习能力。

图像级正负样本为从样本推理图像整体出发，构建的正负样本。其中，正样本可以为掩盖了部分对确定推理结果贡献较小的物体后所得到的图像，负样本可以为其他样本推理图像。通过对图像级正负样本的学习，能够提高视觉推理模型对图像整体的场景信息的学习能力。

可以根据多个候选样本推理答案，确定语义级正负样本。

语义级正负样本为从候选样本推理答案出发，构建的正负样本。其中，正样本可以为候选样本推理答案中真实的样本推理答案，负样本为其他候选样本推理答案。通过对语义级正负样本的学习，能够提高视觉推理模型对候选样本推理答案的语义信息的学习能力。

例如，四个候选样本推理答案分别记为a，b，c和d，根据自然存在的反事实情况，将正确选项a作为正样本，将其他三个错误选项设为负样本，进行对比学习。

基于上述任一实施例，基于样本推理图像、样本推理问题、实例级正负样本、图像级正负样本和语义级正负样本，对初始模型进行训练，得到视觉常识推理模型，包括：

将样本推理图像输入至初始模型的图像编码层，得到图像编码层输出的样本图像特征；

将实例级正负样本输入至初始模型的图像编码层，得到图像编码层输出的实例级正样本图像特征和实例级负样本图像特征；

将图像级正负样本输入至初始模型的图像编码层，得到图像编码层输出的图像级正样本图像特征和图像级负样本图像特征；

将样本推理问题输入至初始模型的文本编码层，得到文本编码层输出的样本问题特征；

将语义级正负样本输入至初始模型的文本编码层，得到文本编码层输出的样本推理答案特征；

将样本图像特征、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征和图像级负样本图像特征分别与样本问题特征进行融合后，得到样本图像融合特征、实例级正样本融合特征、实例级负样本融合特征、图像级正样本融合特征和图像级负样本融合特征；

将样本图像融合特征、实例级正样本融合特征、实例级负样本融合特征、图像级正样本融合特征和图像级负样本融合特征分别与样本推理答案特征拼接后输入至初始模型的结果分类层，以最小化正负样本之间的对比损失和模型分类的交叉熵损失为目的对初始模型进行训练，得到视觉常识推理模型。

具体地，可以采用多层次的反事实对比学习的方法，训练得到视觉常识推理模型，即采用不同模态数据类型的正负样本对视觉常识推理模型进行训练，并且图像数据类型的正负样本还包括了实例级和图像级两个层次。

初始模型的图像编码层可以选用神经网络模型，例如ResNet101和一个特征融合模块的组合。

将样本推理图像输入至初始模型的图像编码层，得到图像编码层输出的样本图像特征；将实例级正负样本输入至初始模型的图像编码层，得到图像编码层输出的实例级正样本图像特征和实例级负样本图像特征；将图像级正负样本输入至初始模型的图像编码层，得到图像编码层输出的图像级正样本图像特征和图像级负样本图像特征。

初始模型的文本编码层可以选用神经网络模型，例如BERT和一个特征融合模块的组合。

将样本推理问题输入至初始模型的文本编码层，得到文本编码层输出的样本问题特征；将语义级正负样本输入至初始模型的文本编码层，得到文本编码层输出的样本推理答案特征。

例如，对于训练数据中的样本推理图像、以及样本推理图像对应的样本推理问题和四个候选样本推理答案。四个候选样本推理答案分别记为a，b，c和d。根据样本推理图像，确定实例级正负样本和图像级正负样本。根据四个候选样本推理答案，确定语义级正负样本。

将样本推理图像输入至图像编码层中，提取得到样本图像特征

将样本推理问题输入至文本编码层中，提取得到样本问题特征

将语义级正负样本输入至初始模型的文本编码层，得到文本编码层输出的样本推理答案特征R_t∈{R_a,R_b,R_c,R_d},

t∈{a,b,c,d}。此处，D_q,D_v,D_r代表特征的维度，例如，D_v＝512，D_q＝D_r＝512。

将实例级正样本O_ins+和k个实例级负样本

输入至图像编码层，得到实例级正样本图像特征V_ins+和实例级负样本图像特征

此处i为实例级负样本的标号，i∈[1,k]。

将图像级正样本I_img+和m个图像级负样本

输入至图像编码层，得到图像级正样本图像特征V_img+和图像级负样本图像特征

此处j为图像级负样本的标号，j∈[1,m]。

接着，将样本图像特征V、实例级正样本图像特征V_ins+、实例级负样本图像特征

图像级正样本图像特征V_img+和图像级负样本图像特征

分别与样本问题特征Q进行融合后，得到样本图像融合特征

实例级正样本融合特征

实例级负样本融合特征

图像级正样本融合特征

和图像级负样本融合特征

在融合特征时，利用一个线性的跨模态融合方法对样本图像特征V和样本问题特征Q进行融合得到样本图像融合特征

具体实施方式如下：

这里的W_v和W_q是两个映射矩阵，LayerNorm是层归一化操作，可以稳定训练。其余融合特征的获取可以按照该方法进行。

最后，将样本图像融合特征

实例级正样本融合特征

实例级负样本融合特征

图像级正样本融合特征

和图像级负样本融合特征

分别与样本推理答案特征R_t拼接后输入至初始模型的结果分类层，以最小化正负样本之间的对比损失和模型分类的交叉熵损失为目的对初始模型进行训练，得到视觉常识推理模型。结果分类层可以采用分类函数f(·)进行分类。

对于初始模型进行训练时，其损失主要来自两个方面，一是各个正负样本之间的对比损失，二是模型进行分类时的交叉熵损失。因此，可以根据正负样本之间的对比损失和模型分类的交叉熵损失确定视觉常识推理模型的损失函数。

基于上述任一实施例，视觉常识推理模型的损失函数是基于如下步骤确定的：

基于交叉熵损失函数、样本图像融合特征和样本推理答案特征，确定基本分类损失函数；

基于对比损失函数、样本图像融合特征、实例级正样本融合特征和实例级负样本融合特征，确定实例级对比损失函数；

基于对比损失函数、样本图像融合特征、图像级正样本融合特征和图像级负样本融合特征，确定图像级对比损失函数；

基于对比损失函数、样本图像融合特征和样本推理答案特征，确定语义级对比损失函数；

基于交叉熵损失函数、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征、图像级负样本图像特征和样本推理答案特征，确定辅助分类损失函数；

基于基本分类损失函数、实例级对比损失函数、图像级对比损失函数、语义级对比损失函数和辅助分类损失函数，确定视觉常识推理模型的损失函数。

具体地，交叉熵损失(Cross-entropy Loss)用来衡量视觉常识推理模型对于样本的分类能力的高低程度，对比损失(Contrastive Loss)用来衡量视觉常识推理模型对于正负样本进行对比学习能力的高低程度。

根据交叉熵损失函数、样本图像融合特征

和样本推理答案特征R_t，确定基本分类损失函数L_base，用公式表示为：

式中，f(·)为分类函数，y_t是选项特征R_t的真实结果。

对比损失函数可以采用基于噪声对比估计的对比损失(InfoNCE)。

根据对比损失函数、样本图像融合特征V、实例级正样本融合特征

和实例级负样本融合特征

确定实例级对比损失函数L_ins，用公式表示为：

式中，相似性度量函数

温度参数τ＝0.2。通过优化上述损失，包含重要物体的正样本对的特征

被指引在特征空间中靠近，同时负样本对的特征

被指引远离。因此，模型可以感知到原始图像中更重要的物体，有益于在视觉常识推理中学习细粒度的视觉特征表示。

根据对比损失函数、样本图像融合特征

图像级正样本融合特征

和图像级负样本融合特征

确定图像级对比损失函数L_img，用公式表示为：

式中，相似性度量函数

温度参数τ＝0.2。通过优化上述损失，具有相似全局场景的正样本对的特征

被指引在特征空间中靠近，同时具有不同场景的负样本对的特征

被指引远离。因此，模型可以从全局的角度感知视觉信息。

根据对比损失函数、样本图像融合特征

和样本推理答案特征R_t，确定语义级对比损失函数L_sem，用公式表示为：

式中，相似性度量函数

温度参数τ＝0.1。通过优化上述损失，具有相似语义的融合特征

和特征R_a被指引靠近，而具有不相似语义的特征被指引互相远离。因此，语义级的对比损失帮助模型理解高层级的语义，并捕捉复杂的跨模态关系。此处假设正确答案选项为a，R_a为正样本推理答案特征，{R_b,R_c,R_d}为负样本推理答案特征。

此外，根据对比学习中，可以针对实例级和图像级的正负样本，构建预测结果间的对比，直接优化视觉常识推理的预测结果。

根据交叉熵损失函数、实例级正样本图像特征、实例级负样本图像特征和样本推理答案特征，可以得到实例级正样本对应的交叉熵分类损失

和实例级负样本对应的交叉熵分类损失

用公式表示为：

根据交叉熵损失函数、图像级正样本图像特征、图像级负样本图像特征和样本推理答案特征，可以得到图像级正样本对应的交叉熵分类损失

和图像级负样本对应的交叉熵分类损失

用公式表示为：

正样本的分类结果与负样本的分类结果相比，应该更接近于原始样本的分类结果。因此，正样本的推理结果应比负样本的结果更准确。基于以上推论，基于正负样本对应的分类损失，构建辅助学习损失以直接优化视觉常识推理中的答案预测结果，具体的损失函数定义如下：

式中，L_aux为辅助分类损失函数，

为实例级样本对应的辅助分类损失函数，

为图像级样本对应的辅助分类损失函数，幅度参数Δ＝0.3，权重参数γ＝0.5。通过优化上述函数，模型能够更好地区分正负样本，从而提高视觉常识推理的推理能力。

将上述所有损失函数进行整合，得到视觉常识推理模型的损失函数，用公式表示为：

L＝L_base+λ₁L_ins+λ₂L_img+λ₃L_sem+λ₄L_aux

式中，L为视觉常识推理模型的损失函数，λ₁,λ₂,λ₃,λ₄是平衡化参数。

基于上述任一实施例，基于样本推理图像，确定实例级正负样本，包括：

基于任一样本推理图像中各个物体的推理贡献度大小，按照降序顺序选取满足第一预设数量的物体的集合作为任一样本推理图像对应的实例级正样本，以及按照升序顺序选取满足第一预设数量的物体作为任一样本推理图像对应的实例级负样本。

具体地，可以采用基于梯度的Grad-CAM方法计算图像中的物体

对于视觉推理的贡献度，此处的w为样本推理图像中物体v_w的标号，n为样本推理图像中物体的数量。

第一预设数量可以记为k，

根据任一样本推理图像中各个物体的推理贡献度大小，按照降序顺序选取k个物体的集合作为实例级正样本O_ins+，即选择前k个贡献度高的物体构建事实样本。

同时，按照升序顺序选取满足k个物体作为任一样本推理图像对应的实例级负样本

即选择前k个贡献度低的物体构建反事实样本。

利用图像编码层，可以分别提取实例级正负样本的特征，分别记为

和

基于上述任一实施例，基于样本推理图像，确定图像级正负样本，包括：

基于任一样本推理图像中各个物体的推理贡献度大小，按照升序顺序选取满足第二预设数量的物体进行掩盖，将掩盖后得到的样本推理图像作为任一样本推理图像对应的图像级正样本；

基于除任一样本推理图像之外的其他样本推理图像，确定图像级负样本。

具体地，根据任一样本推理图像中各个物体的推理贡献度大小，按照升序顺序选取满足第二预设数量的物体进行掩盖，将掩盖后得到的样本推理图像作为任一样本推理图像对应的图像级正样本I_img+。

第二预设数量标记为y,可以根据任一样本推理图像中物体的总数量n和第一预设数量k进行确定。例如，

同时，为了破坏原始图像场景，从其他样本推理图像中随机选择m个图像作为负样本

利用图像编码层，可以分别提取图像级正负样本的特征，分别记为

和

基于上述任一实施例，本发明提供一种基于多层级反事实对比的视觉常识推理方法，该方法包括：

步骤一、提取原始图片和文本的特征，构建基本的视觉常识推理模块；

步骤二、利用反事实生成实例级的正负样本，构建实例级的对比学习，使模型关注图片细节信息；

步骤三、利用反事实生成图像级的正负样本，构建图像级的对比学习，使模型关注图片全局场景信息；

步骤四、考虑正确选项文本在语义级的反事实样本，构建语义级的对比学习，使模型建模跨模态语义关系；

步骤五、针对实例级和图像级的正负样本，构建预测结果间的对比；

步骤六、将上述所有部分整合到一个统一框架，进行视觉推理模型的整体训练。

本发明实施例提供的视觉常识推理方法的有益效果包括：

(1)本发明实施例提出了一个多层级的反事实对比学习框架进行视觉常识推理，提高了模型对多样化的视觉内容，高层级的文本语义，和复杂的跨模态关系的理解推理能力。

(2)本发明实施例将反事实思维引入对比学习中以生成翔实的事实和反事实样本，增强了模型的感知能力，有助于模型更有效地提取具有判别力的特征表示。

(3)本发明实施例将一个辅助对比模块集成到方法中，以直接优化答案预测，进一步提高了视觉常识推理的性能。

基于上述任一实施例，图2为本发明提供的视觉常识推理装置的结构示意图，如图2所示，该装置包括：

获取单元210，用于获取待推理图像，以及待推理图像对应的推理问题和多个候选推理答案；

推理单元220，用于将待推理图像，推理问题和多个候选推理答案输入至视觉常识推理模型，得到视觉常识推理模型输出的推理结果；其中，视觉常识推理模型是基于样本推理图像，以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。

本发明实施例提供的视觉常识推理装置，通过样本推理图像，以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到视觉常识推理模型，所得到的视觉常识推理模型能够对待推理图像，以及待推理图像对应的推理问题和多个候选推理答案进行处理，得到推理结果，由于视觉常识推理模型能够对图像和文本等多模态数据进行全面的理解，能够学习到待推理图像、推理问题和各个候选推理答案之间的关联性，具有强大的特征学习能力和理解推理能力，所得到的推理结果的误差小，提高了视觉常识推理的准确性。

基于上述任一实施例，推理单元220用于：

基于上述任一实施例，还包括：

图像正负样本确定单元，用于基于样本推理图像，确定实例级正负样本和图像级正负样本；

文本正负样本确定单元，用于基于多个候选样本推理答案，确定语义级正负样本；

训练单元，用于基于样本推理图像、样本推理问题、实例级正负样本、图像级正负样本和语义级正负样本，对初始模型进行训练，得到视觉常识推理模型。

基于上述任一实施例，训练单元用于：

基于上述任一实施例，还包括：

损失函数确定单元，用于基于交叉熵损失函数、样本图像融合特征和样本推理答案特征，确定基本分类损失函数；基于对比损失函数、样本图像融合特征、实例级正样本融合特征和实例级负样本融合特征，确定实例级对比损失函数；基于对比损失函数、样本图像融合特征、图像级正样本融合特征和图像级负样本融合特征，确定图像级对比损失函数；基于对比损失函数、样本图像融合特征和样本推理答案特征，确定语义级对比损失函数；基于交叉熵损失函数、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征、图像级负样本图像特征和样本推理答案特征，确定辅助分类损失函数；基于基本分类损失函数、实例级对比损失函数、图像级对比损失函数、语义级对比损失函数和辅助分类损失函数，确定视觉常识推理模型的损失函数。

基于上述任一实施例，图像正负样本确定单元包括：

实例级正负样本确定单元，用于基于任一样本推理图像中各个物体的推理贡献度大小，按照降序顺序选取满足第一预设数量的物体的集合作为任一样本推理图像对应的实例级正样本，以及按照升序顺序选取满足第一预设数量的物体作为任一样本推理图像对应的实例级负样本。

基于上述任一实施例，图像正负样本确定单元包括：

图像级正负样本确定单元，用于基于任一样本推理图像中各个物体的推理贡献度大小，按照升序顺序选取满足第二预设数量的物体进行掩盖，将掩盖后得到的样本推理图像作为任一样本推理图像对应的图像级正样本；基于除任一样本推理图像之外的其他样本推理图像，确定图像级负样本。

基于上述任一实施例，图3为本发明提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器(Processor)310、通信接口(Communications Interface)320、存储器(Memory)330和通信总线(Communications Bus)340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑命令，以执行如下方法：

获取待推理图像，以及待推理图像对应的推理问题和多个候选推理答案；将待推理图像，推理问题和多个候选推理答案输入至视觉常识推理模型，得到视觉常识推理模型输出的推理结果；其中，视觉常识推理模型是基于样本推理图像，以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。

此外，上述的存储器330中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视觉常识推理方法，其特征在于，包括：

2.根据权利要求1所述的视觉常识推理方法，其特征在于，所述将所述待推理图像，所述推理问题和所述多个候选推理答案输入至视觉常识推理模型，得到所述视觉常识推理模型输出的推理结果，包括：

3.根据权利要求2所述的视觉常识推理方法，其特征在于，所述视觉常识推理模型是基于如下步骤训练得到的：

基于所述多个候选样本推理答案，确定语义级正负样本；

4.根据权利要求3所述的视觉常识推理方法，其特征在于，所述基于所述样本推理图像、所述样本推理问题、所述实例级正负样本、所述图像级正负样本和所述语义级正负样本，对初始模型进行训练，得到所述视觉常识推理模型，包括：

5.根据权利要求4所述的视觉常识推理方法，其特征在于，所述视觉常识推理模型的损失函数是基于如下步骤确定的：

6.根据权利要求3至5任一项所述的视觉常识推理方法，其特征在于，所述基于所述样本推理图像，确定实例级正负样本，包括：

7.根据权利要求3至5任一项所述的视觉常识推理方法，其特征在于，所述基于所述样本推理图像，确定图像级正负样本，包括：

8.一种视觉常识推理装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的视觉常识推理方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视觉常识推理方法的步骤。