CN113869518A - 视觉常识推理方法、装置、电子设备及存储介质 - Google Patents

视觉常识推理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113869518A
CN113869518A CN202110998227.XA CN202110998227A CN113869518A CN 113869518 A CN113869518 A CN 113869518A CN 202110998227 A CN202110998227 A CN 202110998227A CN 113869518 A CN113869518 A CN 113869518A
Authority
CN
China
Prior art keywords
image
sample
reasoning
inference
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110998227.XA
Other languages
English (en)
Inventor
徐常胜
张熙
张飞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110998227.XA priority Critical patent/CN113869518A/zh
Publication of CN113869518A publication Critical patent/CN113869518A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视觉常识推理方法、装置、电子设备及存储介质,其中方法包括:获取待推理图像,以及所述待推理图像对应的推理问题和多个候选推理答案;将所述待推理图像,所述推理问题和所述多个候选推理答案输入至视觉常识推理模型,得到所述视觉常识推理模型输出的推理结果;其中,所述视觉常识推理模型是基于样本推理图像,以及所述样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。本发明提供的方法、装置、电子设备及存储介质,具有强大的特征学习能力和理解推理能力,所得到的推理结果的误差小,提高了视觉常识推理的准确性。

Description

视觉常识推理方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种视觉常识推理方法、装置、电子设备及存储介质。
背景技术
随着社交网络中多模态数据量急剧增长,为有效地分析异构模态的数据,许多具有挑战性的任务被关注和研究。视觉常识推理(Visual Commonsense Reasoning)正是其中的一项任务。给定有关某张图像的一个问题,视觉常识推理模型不仅需要提供正确的答案,还需要提供合理的理由来证明该答案。近年来,随着深度学习技术的发展,视觉常识推理任务取得了***的进展。但是该任务仍是一个具有挑战性的问题,因为它需要全面理解图像中多样化的视觉内容、语义丰富的语言表达以及复杂的跨模态关系。
现有技术中,通过整体注意力机制,或探索具有大规模预训练的基于Transformer的模型来进行视觉常识推理,但是这些模型容易利用数据本身的偏见进行预测,无法进行对图像和文本进行全面的理解,并且计算量巨大,视觉常识推理的误差较大,准确性差。
发明内容
本发明提供一种视觉常识推理方法、装置、电子设备及存储介质,用于解决现有技术中视觉常识推理的误差较大,准确性差的技术问题。
本发明提供一种视觉常识推理方法,包括:
获取待推理图像,以及所述待推理图像对应的推理问题和多个候选推理答案;
将所述待推理图像,所述推理问题和所述多个候选推理答案输入至视觉常识推理模型,得到所述视觉常识推理模型输出的推理结果;
其中,所述视觉常识推理模型是基于样本推理图像,以及所述样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。
根据本发明提供的视觉常识推理方法,所述将所述待推理图像,所述推理问题和所述多个候选推理答案输入至视觉常识推理模型,得到所述视觉常识推理模型输出的推理结果,包括:
将所述待推理图像输入至所述视觉常识推理模型的图像编码层,得到所述图像编码层输出的图像特征;
将所述推理问题输入至所述视觉常识推理模型的文本编码层,得到所述文本编码层输出的问题特征;
将所述图像特征和所述问题特征,以及所述多个候选推理答案输入至所述视觉常识推理模型的结果分类层,得到所述结果分类层输出的推理结果。
根据本发明提供的视觉常识推理方法,所述视觉常识推理模型是基于如下步骤训练得到的:
基于所述样本推理图像,确定实例级正负样本和图像级正负样本;
基于所述多个候选样本推理答案,确定语义级正负样本;
基于所述样本推理图像、所述样本推理问题、所述实例级正负样本、所述图像级正负样本和所述语义级正负样本,对初始模型进行训练,得到所述视觉常识推理模型。
根据本发明提供的视觉常识推理方法,所述基于所述样本推理图像、所述样本推理问题、所述实例级正负样本、所述图像级正负样本和所述语义级正负样本,对初始模型进行训练,得到所述视觉常识推理模型,包括:
将所述样本推理图像输入至所述初始模型的图像编码层,得到所述图像编码层输出的样本图像特征;
将所述实例级正负样本输入至所述初始模型的图像编码层,得到所述图像编码层输出的实例级正样本图像特征和实例级负样本图像特征;
将所述图像级正负样本输入至所述初始模型的图像编码层,得到所述图像编码层输出的图像级正样本图像特征和图像级负样本图像特征;
将所述样本推理问题输入至所述初始模型的文本编码层,得到所述文本编码层输出的样本问题特征;
将所述语义级正负样本输入至所述初始模型的文本编码层,得到所述文本编码层输出的样本推理答案特征;
将样本图像特征、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征和图像级负样本图像特征分别与所述样本问题特征进行融合后,得到样本图像融合特征、实例级正样本融合特征、实例级负样本融合特征、图像级正样本融合特征和图像级负样本融合特征;
将所述样本图像融合特征、所述实例级正样本融合特征、所述实例级负样本融合特征、所述图像级正样本融合特征和所述图像级负样本融合特征分别与所述样本推理答案特征拼接后输入至所述初始模型的结果分类层,以最小化正负样本之间的对比损失和模型分类的交叉熵损失为目的对所述初始模型进行训练,得到所述视觉常识推理模型。
根据本发明提供的视觉常识推理方法,所述视觉常识推理模型的损失函数是基于如下步骤确定的:
基于交叉熵损失函数、所述样本图像融合特征和所述样本推理答案特征,确定基本分类损失函数;
基于对比损失函数、所述样本图像融合特征、所述实例级正样本融合特征和所述实例级负样本融合特征,确定实例级对比损失函数;
基于对比损失函数、所述样本图像融合特征、所述图像级正样本融合特征和所述图像级负样本融合特征,确定图像级对比损失函数;
基于对比损失函数、所述样本图像融合特征和所述样本推理答案特征,确定语义级对比损失函数;
基于交叉熵损失函数、所述实例级正样本图像特征、所述实例级负样本图像特征、所述图像级正样本图像特征、所述图像级负样本图像特征和所述样本推理答案特征,确定辅助分类损失函数;
基于所述基本分类损失函数、所述实例级对比损失函数、所述图像级对比损失函数、所述语义级对比损失函数和所述辅助分类损失函数,确定所述视觉常识推理模型的损失函数。
根据本发明提供的视觉常识推理方法,所述基于所述样本推理图像,确定实例级正负样本,包括:
基于任一样本推理图像中各个物体的推理贡献度大小,按照降序顺序选取满足第一预设数量的物体的集合作为所述任一样本推理图像对应的实例级正样本,以及按照升序顺序选取满足第一预设数量的物体作为所述任一样本推理图像对应的实例级负样本。
根据本发明提供的视觉常识推理方法,所述基于所述样本推理图像,确定图像级正负样本,包括:
基于任一样本推理图像中各个物体的推理贡献度大小,按照升序顺序选取满足第二预设数量的物体进行掩盖,将掩盖后得到的所述样本推理图像作为所述任一样本推理图像对应的图像级正样本;
基于除所述任一样本推理图像之外的其他样本推理图像,确定所述图像级负样本。
本发明提供一种视觉常识推理装置,包括:
获取单元,用于获取待推理图像,以及所述待推理图像对应的推理问题和多个候选推理答案;
推理单元,用于将所述待推理图像,所述推理问题和所述多个候选推理答案输入至视觉常识推理模型,得到所述视觉常识推理模型输出的推理结果;其中,所述视觉常识推理模型是基于样本推理图像,以及所述样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的视觉常识推理方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的视觉常识推理方法的步骤。
本发明实施例提供的视觉常识推理方法、装置、电子设备及存储介质,通过样本推理图像,以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到视觉常识推理模型,所得到的视觉常识推理模型能够对待推理图像,以及待推理图像对应的推理问题和多个候选推理答案进行处理,得到推理结果,由于视觉常识推理模型能够对图像和文本等多模态数据进行全面的理解,能够学习到待推理图像、推理问题和各个候选推理答案之间的关联性,具有强大的特征学习能力和理解推理能力,所得到的推理结果的误差小,提高了视觉常识推理的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的视觉常识推理方法的流程示意图;
图2为本发明提供的视觉常识推理装置的结构示意图;
图3为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的视觉常识推理方法的流程示意图,如图1所示,该方法包括:
步骤110,获取待推理图像,以及待推理图像对应的推理问题和多个候选推理答案。
具体地,待推理图像可以为照片、绘画、地图、影视画面、X光片、心电图等,其储存格式可以为PNG、BMP和JPEG等。本发明实施例对于待推理图像的类型和格式不作具体限定。
推理问题为针对待推理图像中的信息提出的信息请求。推理答案为与推理问题中要求回答的内容相对应的信息。候选推理答案为可能成为推理答案的选项。例如,对于一张图像,图像中的人物1拿着水杯准备喝水,推理问题可以为该图像人物1为什么拿着水杯,候选推理答案可以为4个,分别为人物1准备吃饭、人物1准备喝水、人物1准备读书和人物1准备跳舞。其中,第二个候选推理答案最接近图像中记载的真实情况。
步骤120,将待推理图像,推理问题和多个候选推理答案输入至视觉常识推理模型,得到视觉常识推理模型输出的推理结果;其中,视觉常识推理模型是基于样本推理图像,以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。
具体地,推理结果为从多个候选推理答案中选出推理答案。推理结果的确定可以通过视觉常识推理模型来实现。
视觉常识推理模型可以对待推理图像和推理问题进行特征提取,得到图像特征和文本特征,然后对图像特征、文本特征和各个候选推理答案之间的关联性进行学习,将关联性最高的候选推理答案作为推理答案。
可以预先训练得到视觉常识推理模型,具体可以通过如下训练方式得到:
首先,收集大量的样本推理图像,以及样本推理图像对应的样本推理问题和多个候选样本推理答案;其次,根据每一样本推理图像对应的样本推理问题的真实推理答案,对多个候选样本推理答案进行标注,确定每一候选样本推理答案的标签;随即,根据大量的样本推理图像,以及样本推理图像对应的样本推理问题、多个候选样本推理答案以及每一候选样本推理答案的标签,对初始模型进行训练,以提高初始模型对于推理结果的预测能力,得到视觉常识推理模型。
本发明实施例提供的视觉常识推理方法,通过样本推理图像,以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到视觉常识推理模型,所得到的视觉常识推理模型能够对待推理图像,以及待推理图像对应的推理问题和多个候选推理答案进行处理,得到推理结果,由于视觉常识推理模型能够对图像和文本等多模态数据进行全面的理解,能够学习到待推理图像、推理问题和各个候选推理答案之间的关联性,具有强大的特征学习能力和理解推理能力,所得到的推理结果的误差小,提高了视觉常识推理的准确性。
基于上述实施例,步骤120包括:
将待推理图像输入至视觉常识推理模型的图像编码层,得到图像编码层输出的图像特征;
将推理问题输入至视觉常识推理模型的文本编码层,得到文本编码层输出的问题特征;
将图像特征和问题特征,以及多个候选推理答案输入至视觉常识推理模型的结果分类层,得到结果分类层输出的推理结果。
具体地,视觉常识推理模型可以包括三层,分别为图像编码层、文本编码层和结果分类层。
图像编码层用于对待推理图像进行特征提取,得到待推理图像的图像特征。例如,该图像特征用于表示待推理图像中各个物体的信息,以及各个物体之间的相互作用信息等。
文本编码层用于对推理问题进行特征提取,得到推理问题的文本特征。例如,该文本特征用于表示推理问题中与待推理图像中的物体相关的语义信息。
结果分类层用于根据图像特征和问题特征,从多个候选推理答案中确定推理答案并输出推理结果。例如,结果分类层可以输出推理答案,也可以输出各个候选推理答案作为推理答案的预测概率。
基于上述任一实施例,视觉常识推理模型是基于如下步骤训练得到的:
基于样本推理图像,确定实例级正负样本和图像级正负样本;
基于多个候选样本推理答案,确定语义级正负样本;
基于样本推理图像、样本推理问题、实例级正负样本、图像级正负样本和语义级正负样本,对初始模型进行训练,得到视觉常识推理模型。
具体地,可以利用对比学习(Contrastive Learning)的方式提高视觉常识推理模型的特征学习能力。
可以根据样本推理图像,构建实例级正负样本和图像级正负样本。
实例级正负样本为从样本推理图像中的各个物体出发,构建的正负样本。其中,正样本可以由对确定推理结果贡献较大的物体组成,负样本可以由对确定推理结果贡献较小的物体组成。通过对实例级正负样本的学习,能够提高视觉推理模型对图像中物体的细节信息的学习能力。
图像级正负样本为从样本推理图像整体出发,构建的正负样本。其中,正样本可以为掩盖了部分对确定推理结果贡献较小的物体后所得到的图像,负样本可以为其他样本推理图像。通过对图像级正负样本的学习,能够提高视觉推理模型对图像整体的场景信息的学习能力。
可以根据多个候选样本推理答案,确定语义级正负样本。
语义级正负样本为从候选样本推理答案出发,构建的正负样本。其中,正样本可以为候选样本推理答案中真实的样本推理答案,负样本为其他候选样本推理答案。通过对语义级正负样本的学习,能够提高视觉推理模型对候选样本推理答案的语义信息的学习能力。
例如,四个候选样本推理答案分别记为a,b,c和d,根据自然存在的反事实情况,将正确选项a作为正样本,将其他三个错误选项设为负样本,进行对比学习。
基于上述任一实施例,基于样本推理图像、样本推理问题、实例级正负样本、图像级正负样本和语义级正负样本,对初始模型进行训练,得到视觉常识推理模型,包括:
将样本推理图像输入至初始模型的图像编码层,得到图像编码层输出的样本图像特征;
将实例级正负样本输入至初始模型的图像编码层,得到图像编码层输出的实例级正样本图像特征和实例级负样本图像特征;
将图像级正负样本输入至初始模型的图像编码层,得到图像编码层输出的图像级正样本图像特征和图像级负样本图像特征;
将样本推理问题输入至初始模型的文本编码层,得到文本编码层输出的样本问题特征;
将语义级正负样本输入至初始模型的文本编码层,得到文本编码层输出的样本推理答案特征;
将样本图像特征、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征和图像级负样本图像特征分别与样本问题特征进行融合后,得到样本图像融合特征、实例级正样本融合特征、实例级负样本融合特征、图像级正样本融合特征和图像级负样本融合特征;
将样本图像融合特征、实例级正样本融合特征、实例级负样本融合特征、图像级正样本融合特征和图像级负样本融合特征分别与样本推理答案特征拼接后输入至初始模型的结果分类层,以最小化正负样本之间的对比损失和模型分类的交叉熵损失为目的对初始模型进行训练,得到视觉常识推理模型。
具体地,可以采用多层次的反事实对比学习的方法,训练得到视觉常识推理模型,即采用不同模态数据类型的正负样本对视觉常识推理模型进行训练,并且图像数据类型的正负样本还包括了实例级和图像级两个层次。
初始模型的图像编码层可以选用神经网络模型,例如ResNet101和一个特征融合模块的组合。
将样本推理图像输入至初始模型的图像编码层,得到图像编码层输出的样本图像特征;将实例级正负样本输入至初始模型的图像编码层,得到图像编码层输出的实例级正样本图像特征和实例级负样本图像特征;将图像级正负样本输入至初始模型的图像编码层,得到图像编码层输出的图像级正样本图像特征和图像级负样本图像特征。
初始模型的文本编码层可以选用神经网络模型,例如BERT和一个特征融合模块的组合。
将样本推理问题输入至初始模型的文本编码层,得到文本编码层输出的样本问题特征;将语义级正负样本输入至初始模型的文本编码层,得到文本编码层输出的样本推理答案特征。
例如,对于训练数据中的样本推理图像、以及样本推理图像对应的样本推理问题和四个候选样本推理答案。四个候选样本推理答案分别记为a,b,c和d。根据样本推理图像,确定实例级正负样本和图像级正负样本。根据四个候选样本推理答案,确定语义级正负样本。
将样本推理图像输入至图像编码层中,提取得到样本图像特征
Figure BDA0003234764990000111
将样本推理问题输入至文本编码层中,提取得到样本问题特征
Figure BDA0003234764990000112
将语义级正负样本输入至初始模型的文本编码层,得到文本编码层输出的样本推理答案特征Rt∈{Ra,Rb,Rc,Rd},
Figure BDA0003234764990000113
t∈{a,b,c,d}。此处,Dq,Dv,Dr代表特征的维度,例如,Dv=512,Dq=Dr=512。
将实例级正样本Oins+和k个实例级负样本
Figure BDA0003234764990000114
输入至图像编码层,得到实例级正样本图像特征Vins+和实例级负样本图像特征
Figure BDA0003234764990000115
此处i为实例级负样本的标号,i∈[1,k]。
将图像级正样本Iimg+和m个图像级负样本
Figure BDA0003234764990000116
输入至图像编码层,得到图像级正样本图像特征Vimg+和图像级负样本图像特征
Figure BDA0003234764990000117
此处j为图像级负样本的标号,j∈[1,m]。
接着,将样本图像特征V、实例级正样本图像特征Vins+、实例级负样本图像特征
Figure BDA0003234764990000118
图像级正样本图像特征Vimg+和图像级负样本图像特征
Figure BDA0003234764990000119
分别与样本问题特征Q进行融合后,得到样本图像融合特征
Figure BDA00032347649900001110
实例级正样本融合特征
Figure BDA00032347649900001111
实例级负样本融合特征
Figure BDA00032347649900001112
图像级正样本融合特征
Figure BDA00032347649900001113
和图像级负样本融合特征
Figure BDA00032347649900001114
在融合特征时,利用一个线性的跨模态融合方法对样本图像特征V和样本问题特征Q进行融合得到样本图像融合特征
Figure BDA0003234764990000121
具体实施方式如下:
Figure BDA0003234764990000122
这里的Wv和Wq是两个映射矩阵,LayerNorm是层归一化操作,可以稳定训练。其余融合特征的获取可以按照该方法进行。
最后,将样本图像融合特征
Figure BDA0003234764990000123
实例级正样本融合特征
Figure BDA0003234764990000124
实例级负样本融合特征
Figure BDA0003234764990000125
图像级正样本融合特征
Figure BDA0003234764990000126
和图像级负样本融合特征
Figure BDA0003234764990000127
分别与样本推理答案特征Rt拼接后输入至初始模型的结果分类层,以最小化正负样本之间的对比损失和模型分类的交叉熵损失为目的对初始模型进行训练,得到视觉常识推理模型。结果分类层可以采用分类函数f(·)进行分类。
对于初始模型进行训练时,其损失主要来自两个方面,一是各个正负样本之间的对比损失,二是模型进行分类时的交叉熵损失。因此,可以根据正负样本之间的对比损失和模型分类的交叉熵损失确定视觉常识推理模型的损失函数。
基于上述任一实施例,视觉常识推理模型的损失函数是基于如下步骤确定的:
基于交叉熵损失函数、样本图像融合特征和样本推理答案特征,确定基本分类损失函数;
基于对比损失函数、样本图像融合特征、实例级正样本融合特征和实例级负样本融合特征,确定实例级对比损失函数;
基于对比损失函数、样本图像融合特征、图像级正样本融合特征和图像级负样本融合特征,确定图像级对比损失函数;
基于对比损失函数、样本图像融合特征和样本推理答案特征,确定语义级对比损失函数;
基于交叉熵损失函数、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征、图像级负样本图像特征和样本推理答案特征,确定辅助分类损失函数;
基于基本分类损失函数、实例级对比损失函数、图像级对比损失函数、语义级对比损失函数和辅助分类损失函数,确定视觉常识推理模型的损失函数。
具体地,交叉熵损失(Cross-entropy Loss)用来衡量视觉常识推理模型对于样本的分类能力的高低程度,对比损失(Contrastive Loss)用来衡量视觉常识推理模型对于正负样本进行对比学习能力的高低程度。
根据交叉熵损失函数、样本图像融合特征
Figure BDA0003234764990000131
和样本推理答案特征Rt,确定基本分类损失函数Lbase,用公式表示为:
Figure BDA0003234764990000132
式中,f(·)为分类函数,yt是选项特征Rt的真实结果。
对比损失函数可以采用基于噪声对比估计的对比损失(InfoNCE)。
根据对比损失函数、样本图像融合特征V、实例级正样本融合特征
Figure BDA0003234764990000133
和实例级负样本融合特征
Figure BDA0003234764990000134
确定实例级对比损失函数Lins,用公式表示为:
Figure BDA0003234764990000135
式中,相似性度量函数
Figure BDA0003234764990000136
温度参数τ=0.2。通过优化上述损失,包含重要物体的正样本对的特征
Figure BDA0003234764990000137
被指引在特征空间中靠近,同时负样本对的特征
Figure BDA0003234764990000138
被指引远离。因此,模型可以感知到原始图像中更重要的物体,有益于在视觉常识推理中学习细粒度的视觉特征表示。
根据对比损失函数、样本图像融合特征
Figure BDA0003234764990000139
图像级正样本融合特征
Figure BDA00032347649900001310
和图像级负样本融合特征
Figure BDA00032347649900001311
确定图像级对比损失函数Limg,用公式表示为:
Figure BDA0003234764990000141
式中,相似性度量函数
Figure BDA0003234764990000142
温度参数τ=0.2。通过优化上述损失,具有相似全局场景的正样本对的特征
Figure BDA0003234764990000143
被指引在特征空间中靠近,同时具有不同场景的负样本对的特征
Figure BDA0003234764990000144
被指引远离。因此,模型可以从全局的角度感知视觉信息。
根据对比损失函数、样本图像融合特征
Figure BDA0003234764990000145
和样本推理答案特征Rt,确定语义级对比损失函数Lsem,用公式表示为:
Figure BDA0003234764990000146
式中,相似性度量函数
Figure BDA0003234764990000147
温度参数τ=0.1。通过优化上述损失,具有相似语义的融合特征
Figure BDA0003234764990000148
和特征Ra被指引靠近,而具有不相似语义的特征被指引互相远离。因此,语义级的对比损失帮助模型理解高层级的语义,并捕捉复杂的跨模态关系。此处假设正确答案选项为a,Ra为正样本推理答案特征,{Rb,Rc,Rd}为负样本推理答案特征。
此外,根据对比学习中,可以针对实例级和图像级的正负样本,构建预测结果间的对比,直接优化视觉常识推理的预测结果。
根据交叉熵损失函数、实例级正样本图像特征、实例级负样本图像特征和样本推理答案特征,可以得到实例级正样本对应的交叉熵分类损失
Figure BDA0003234764990000149
和实例级负样本对应的交叉熵分类损失
Figure BDA00032347649900001410
用公式表示为:
Figure BDA00032347649900001411
Figure BDA0003234764990000151
根据交叉熵损失函数、图像级正样本图像特征、图像级负样本图像特征和样本推理答案特征,可以得到图像级正样本对应的交叉熵分类损失
Figure BDA0003234764990000152
和图像级负样本对应的交叉熵分类损失
Figure BDA0003234764990000153
用公式表示为:
Figure BDA0003234764990000154
Figure BDA0003234764990000155
正样本的分类结果与负样本的分类结果相比,应该更接近于原始样本的分类结果。因此,正样本的推理结果应比负样本的结果更准确。基于以上推论,基于正负样本对应的分类损失,构建辅助学习损失以直接优化视觉常识推理中的答案预测结果,具体的损失函数定义如下:
Figure BDA0003234764990000156
Figure BDA0003234764990000157
Figure BDA0003234764990000158
式中,Laux为辅助分类损失函数,
Figure BDA0003234764990000159
为实例级样本对应的辅助分类损失函数,
Figure BDA00032347649900001510
为图像级样本对应的辅助分类损失函数,幅度参数Δ=0.3,权重参数γ=0.5。通过优化上述函数,模型能够更好地区分正负样本,从而提高视觉常识推理的推理能力。
将上述所有损失函数进行整合,得到视觉常识推理模型的损失函数,用公式表示为:
L=Lbase1Lins2Limg3Lsem4Laux
式中,L为视觉常识推理模型的损失函数,λ1234是平衡化参数。
基于上述任一实施例,基于样本推理图像,确定实例级正负样本,包括:
基于任一样本推理图像中各个物体的推理贡献度大小,按照降序顺序选取满足第一预设数量的物体的集合作为任一样本推理图像对应的实例级正样本,以及按照升序顺序选取满足第一预设数量的物体作为任一样本推理图像对应的实例级负样本。
具体地,可以采用基于梯度的Grad-CAM方法计算图像中的物体
Figure BDA0003234764990000161
对于视觉推理的贡献度,此处的w为样本推理图像中物体vw的标号,n为样本推理图像中物体的数量。
第一预设数量可以记为k,
Figure BDA0003234764990000162
根据任一样本推理图像中各个物体的推理贡献度大小,按照降序顺序选取k个物体的集合作为实例级正样本Oins+,即选择前k个贡献度高的物体构建事实样本。
同时,按照升序顺序选取满足k个物体作为任一样本推理图像对应的实例级负样本
Figure BDA0003234764990000163
即选择前k个贡献度低的物体构建反事实样本。
利用图像编码层,可以分别提取实例级正负样本的特征,分别记为
Figure BDA0003234764990000164
Figure BDA0003234764990000165
基于上述任一实施例,基于样本推理图像,确定图像级正负样本,包括:
基于任一样本推理图像中各个物体的推理贡献度大小,按照升序顺序选取满足第二预设数量的物体进行掩盖,将掩盖后得到的样本推理图像作为任一样本推理图像对应的图像级正样本;
基于除任一样本推理图像之外的其他样本推理图像,确定图像级负样本。
具体地,根据任一样本推理图像中各个物体的推理贡献度大小,按照升序顺序选取满足第二预设数量的物体进行掩盖,将掩盖后得到的样本推理图像作为任一样本推理图像对应的图像级正样本Iimg+
第二预设数量标记为y,可以根据任一样本推理图像中物体的总数量n和第一预设数量k进行确定。例如,
Figure BDA0003234764990000171
同时,为了破坏原始图像场景,从其他样本推理图像中随机选择m个图像作为负样本
Figure BDA0003234764990000172
利用图像编码层,可以分别提取图像级正负样本的特征,分别记为
Figure BDA0003234764990000173
Figure BDA0003234764990000174
基于上述任一实施例,本发明提供一种基于多层级反事实对比的视觉常识推理方法,该方法包括:
步骤一、提取原始图片和文本的特征,构建基本的视觉常识推理模块;
步骤二、利用反事实生成实例级的正负样本,构建实例级的对比学习,使模型关注图片细节信息;
步骤三、利用反事实生成图像级的正负样本,构建图像级的对比学习,使模型关注图片全局场景信息;
步骤四、考虑正确选项文本在语义级的反事实样本,构建语义级的对比学习,使模型建模跨模态语义关系;
步骤五、针对实例级和图像级的正负样本,构建预测结果间的对比;
步骤六、将上述所有部分整合到一个统一框架,进行视觉推理模型的整体训练。
本发明实施例提供的视觉常识推理方法的有益效果包括:
(1)本发明实施例提出了一个多层级的反事实对比学习框架进行视觉常识推理,提高了模型对多样化的视觉内容,高层级的文本语义,和复杂的跨模态关系的理解推理能力。
(2)本发明实施例将反事实思维引入对比学习中以生成翔实的事实和反事实样本,增强了模型的感知能力,有助于模型更有效地提取具有判别力的特征表示。
(3)本发明实施例将一个辅助对比模块集成到方法中,以直接优化答案预测,进一步提高了视觉常识推理的性能。
基于上述任一实施例,图2为本发明提供的视觉常识推理装置的结构示意图,如图2所示,该装置包括:
获取单元210,用于获取待推理图像,以及待推理图像对应的推理问题和多个候选推理答案;
推理单元220,用于将待推理图像,推理问题和多个候选推理答案输入至视觉常识推理模型,得到视觉常识推理模型输出的推理结果;其中,视觉常识推理模型是基于样本推理图像,以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。
本发明实施例提供的视觉常识推理装置,通过样本推理图像,以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到视觉常识推理模型,所得到的视觉常识推理模型能够对待推理图像,以及待推理图像对应的推理问题和多个候选推理答案进行处理,得到推理结果,由于视觉常识推理模型能够对图像和文本等多模态数据进行全面的理解,能够学习到待推理图像、推理问题和各个候选推理答案之间的关联性,具有强大的特征学习能力和理解推理能力,所得到的推理结果的误差小,提高了视觉常识推理的准确性。
基于上述任一实施例,推理单元220用于:
将待推理图像输入至视觉常识推理模型的图像编码层,得到图像编码层输出的图像特征;
将推理问题输入至视觉常识推理模型的文本编码层,得到文本编码层输出的问题特征;
将图像特征和问题特征,以及多个候选推理答案输入至视觉常识推理模型的结果分类层,得到结果分类层输出的推理结果。
基于上述任一实施例,还包括:
图像正负样本确定单元,用于基于样本推理图像,确定实例级正负样本和图像级正负样本;
文本正负样本确定单元,用于基于多个候选样本推理答案,确定语义级正负样本;
训练单元,用于基于样本推理图像、样本推理问题、实例级正负样本、图像级正负样本和语义级正负样本,对初始模型进行训练,得到视觉常识推理模型。
基于上述任一实施例,训练单元用于:
将样本推理图像输入至初始模型的图像编码层,得到图像编码层输出的样本图像特征;
将实例级正负样本输入至初始模型的图像编码层,得到图像编码层输出的实例级正样本图像特征和实例级负样本图像特征;
将图像级正负样本输入至初始模型的图像编码层,得到图像编码层输出的图像级正样本图像特征和图像级负样本图像特征;
将样本推理问题输入至初始模型的文本编码层,得到文本编码层输出的样本问题特征;
将语义级正负样本输入至初始模型的文本编码层,得到文本编码层输出的样本推理答案特征;
将样本图像特征、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征和图像级负样本图像特征分别与样本问题特征进行融合后,得到样本图像融合特征、实例级正样本融合特征、实例级负样本融合特征、图像级正样本融合特征和图像级负样本融合特征;
将样本图像融合特征、实例级正样本融合特征、实例级负样本融合特征、图像级正样本融合特征和图像级负样本融合特征分别与样本推理答案特征拼接后输入至初始模型的结果分类层,以最小化正负样本之间的对比损失和模型分类的交叉熵损失为目的对初始模型进行训练,得到视觉常识推理模型。
基于上述任一实施例,还包括:
损失函数确定单元,用于基于交叉熵损失函数、样本图像融合特征和样本推理答案特征,确定基本分类损失函数;基于对比损失函数、样本图像融合特征、实例级正样本融合特征和实例级负样本融合特征,确定实例级对比损失函数;基于对比损失函数、样本图像融合特征、图像级正样本融合特征和图像级负样本融合特征,确定图像级对比损失函数;基于对比损失函数、样本图像融合特征和样本推理答案特征,确定语义级对比损失函数;基于交叉熵损失函数、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征、图像级负样本图像特征和样本推理答案特征,确定辅助分类损失函数;基于基本分类损失函数、实例级对比损失函数、图像级对比损失函数、语义级对比损失函数和辅助分类损失函数,确定视觉常识推理模型的损失函数。
基于上述任一实施例,图像正负样本确定单元包括:
实例级正负样本确定单元,用于基于任一样本推理图像中各个物体的推理贡献度大小,按照降序顺序选取满足第一预设数量的物体的集合作为任一样本推理图像对应的实例级正样本,以及按照升序顺序选取满足第一预设数量的物体作为任一样本推理图像对应的实例级负样本。
基于上述任一实施例,图像正负样本确定单元包括:
图像级正负样本确定单元,用于基于任一样本推理图像中各个物体的推理贡献度大小,按照升序顺序选取满足第二预设数量的物体进行掩盖,将掩盖后得到的样本推理图像作为任一样本推理图像对应的图像级正样本;基于除任一样本推理图像之外的其他样本推理图像,确定图像级负样本。
基于上述任一实施例,图3为本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(Processor)310、通信接口(Communications Interface)320、存储器(Memory)330和通信总线(Communications Bus)340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑命令,以执行如下方法:
获取待推理图像,以及待推理图像对应的推理问题和多个候选推理答案;将待推理图像,推理问题和多个候选推理答案输入至视觉常识推理模型,得到视觉常识推理模型输出的推理结果;其中,视觉常识推理模型是基于样本推理图像,以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。
此外,上述的存储器330中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取待推理图像,以及待推理图像对应的推理问题和多个候选推理答案;将待推理图像,推理问题和多个候选推理答案输入至视觉常识推理模型,得到视觉常识推理模型输出的推理结果;其中,视觉常识推理模型是基于样本推理图像,以及样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种视觉常识推理方法,其特征在于,包括:
获取待推理图像,以及所述待推理图像对应的推理问题和多个候选推理答案;
将所述待推理图像,所述推理问题和所述多个候选推理答案输入至视觉常识推理模型,得到所述视觉常识推理模型输出的推理结果;
其中,所述视觉常识推理模型是基于样本推理图像,以及所述样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。
2.根据权利要求1所述的视觉常识推理方法,其特征在于,所述将所述待推理图像,所述推理问题和所述多个候选推理答案输入至视觉常识推理模型,得到所述视觉常识推理模型输出的推理结果,包括:
将所述待推理图像输入至所述视觉常识推理模型的图像编码层,得到所述图像编码层输出的图像特征;
将所述推理问题输入至所述视觉常识推理模型的文本编码层,得到所述文本编码层输出的问题特征;
将所述图像特征和所述问题特征,以及所述多个候选推理答案输入至所述视觉常识推理模型的结果分类层,得到所述结果分类层输出的推理结果。
3.根据权利要求2所述的视觉常识推理方法,其特征在于,所述视觉常识推理模型是基于如下步骤训练得到的:
基于所述样本推理图像,确定实例级正负样本和图像级正负样本;
基于所述多个候选样本推理答案,确定语义级正负样本;
基于所述样本推理图像、所述样本推理问题、所述实例级正负样本、所述图像级正负样本和所述语义级正负样本,对初始模型进行训练,得到所述视觉常识推理模型。
4.根据权利要求3所述的视觉常识推理方法,其特征在于,所述基于所述样本推理图像、所述样本推理问题、所述实例级正负样本、所述图像级正负样本和所述语义级正负样本,对初始模型进行训练,得到所述视觉常识推理模型,包括:
将所述样本推理图像输入至所述初始模型的图像编码层,得到所述图像编码层输出的样本图像特征;
将所述实例级正负样本输入至所述初始模型的图像编码层,得到所述图像编码层输出的实例级正样本图像特征和实例级负样本图像特征;
将所述图像级正负样本输入至所述初始模型的图像编码层,得到所述图像编码层输出的图像级正样本图像特征和图像级负样本图像特征;
将所述样本推理问题输入至所述初始模型的文本编码层,得到所述文本编码层输出的样本问题特征;
将所述语义级正负样本输入至所述初始模型的文本编码层,得到所述文本编码层输出的样本推理答案特征;
将样本图像特征、实例级正样本图像特征、实例级负样本图像特征、图像级正样本图像特征和图像级负样本图像特征分别与所述样本问题特征进行融合后,得到样本图像融合特征、实例级正样本融合特征、实例级负样本融合特征、图像级正样本融合特征和图像级负样本融合特征;
将所述样本图像融合特征、所述实例级正样本融合特征、所述实例级负样本融合特征、所述图像级正样本融合特征和所述图像级负样本融合特征分别与所述样本推理答案特征拼接后输入至所述初始模型的结果分类层,以最小化正负样本之间的对比损失和模型分类的交叉熵损失为目的对所述初始模型进行训练,得到所述视觉常识推理模型。
5.根据权利要求4所述的视觉常识推理方法,其特征在于,所述视觉常识推理模型的损失函数是基于如下步骤确定的:
基于交叉熵损失函数、所述样本图像融合特征和所述样本推理答案特征,确定基本分类损失函数;
基于对比损失函数、所述样本图像融合特征、所述实例级正样本融合特征和所述实例级负样本融合特征,确定实例级对比损失函数;
基于对比损失函数、所述样本图像融合特征、所述图像级正样本融合特征和所述图像级负样本融合特征,确定图像级对比损失函数;
基于对比损失函数、所述样本图像融合特征和所述样本推理答案特征,确定语义级对比损失函数;
基于交叉熵损失函数、所述实例级正样本图像特征、所述实例级负样本图像特征、所述图像级正样本图像特征、所述图像级负样本图像特征和所述样本推理答案特征,确定辅助分类损失函数;
基于所述基本分类损失函数、所述实例级对比损失函数、所述图像级对比损失函数、所述语义级对比损失函数和所述辅助分类损失函数,确定所述视觉常识推理模型的损失函数。
6.根据权利要求3至5任一项所述的视觉常识推理方法,其特征在于,所述基于所述样本推理图像,确定实例级正负样本,包括:
基于任一样本推理图像中各个物体的推理贡献度大小,按照降序顺序选取满足第一预设数量的物体的集合作为所述任一样本推理图像对应的实例级正样本,以及按照升序顺序选取满足第一预设数量的物体作为所述任一样本推理图像对应的实例级负样本。
7.根据权利要求3至5任一项所述的视觉常识推理方法,其特征在于,所述基于所述样本推理图像,确定图像级正负样本,包括:
基于任一样本推理图像中各个物体的推理贡献度大小,按照升序顺序选取满足第二预设数量的物体进行掩盖,将掩盖后得到的所述样本推理图像作为所述任一样本推理图像对应的图像级正样本;
基于除所述任一样本推理图像之外的其他样本推理图像,确定所述图像级负样本。
8.一种视觉常识推理装置,其特征在于,包括:
获取单元,用于获取待推理图像,以及所述待推理图像对应的推理问题和多个候选推理答案;
推理单元,用于将所述待推理图像,所述推理问题和所述多个候选推理答案输入至视觉常识推理模型,得到所述视觉常识推理模型输出的推理结果;其中,所述视觉常识推理模型是基于样本推理图像,以及所述样本推理图像对应的样本推理问题和多个候选样本推理答案训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的视觉常识推理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视觉常识推理方法的步骤。
CN202110998227.XA 2021-08-27 2021-08-27 视觉常识推理方法、装置、电子设备及存储介质 Pending CN113869518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110998227.XA CN113869518A (zh) 2021-08-27 2021-08-27 视觉常识推理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110998227.XA CN113869518A (zh) 2021-08-27 2021-08-27 视觉常识推理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113869518A true CN113869518A (zh) 2021-12-31

Family

ID=78988625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110998227.XA Pending CN113869518A (zh) 2021-08-27 2021-08-27 视觉常识推理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113869518A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761273A (zh) * 2023-01-10 2023-03-07 苏州浪潮智能科技有限公司 视觉常识推理方法和装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761273A (zh) * 2023-01-10 2023-03-07 苏州浪潮智能科技有限公司 视觉常识推理方法和装置、存储介质及电子设备
CN115761273B (zh) * 2023-01-10 2023-04-25 苏州浪潮智能科技有限公司 视觉常识推理方法和装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN113762322B (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN113627447A (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN114339450B (zh) 视频评论生成方法、***、设备及存储介质
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
CN115188067A (zh) 一种视频行为识别方法、装置、电子设备及存储介质
CN113987274A (zh) 视频语义表示方法、装置、电子设备和存储介质
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116186237A (zh) 一种基于事件因果推断的实体关系的联合抽取方法
CN114328943A (zh) 基于知识图谱的问题回答方法、装置、设备及存储介质
CN113869518A (zh) 视觉常识推理方法、装置、电子设备及存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN117540703A (zh) 文本生成方法、模型训练方法、装置及电子设备
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及***
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN115129849A (zh) 题目表示的获取方法、设备以及计算机可读存储介质
CN114443916A (zh) 一种面向试验数据的供需匹配方法及***
Strømsvåg Exploring the why in ai: Investigating how visual question answering models can be interpreted by post-hoc linguistic and visual explanations
CN114970494A (zh) 一种评论生成方法、装置、电子设备和存储介质
Wang et al. TASTA: Text‐Assisted Spatial and Temporal Attention Network for Video Question Answering
CN117540007B (zh) 基于相似模态补全的多模态情感分析方法、***和设备
CN117540024B (zh) 一种分类模型的训练方法、装置、电子设备和存储介质
Patel et al. Image Captioning Using Deep Learning Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination