CN115017911A

CN115017911A - 针对视觉和语言的跨模态处理

Info

Publication number: CN115017911A
Application number: CN202110247301.4A
Authority: CN
Inventors: 刘蓓; 傅建龙
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-09-06
Also published as: EP4302234A1; US20240185602A1; WO2022187063A1

Abstract

根据本公开的实现，提出了一种用于跨模态处理的方案。在该方案中，根据目标模型中的视觉特征提取子模型，提取训练图像的一组视觉特征。每个视觉特征对应于训练图像中的一个像素块。基于视觉语义词典，确定与该组视觉特征对应的一组视觉语义特征。根据目标模型中的文本特征提取子模型，提取与训练图像对应的训练文本的一组文本特征。每个文本特征对应于训练文本中的至少一个词。基于该组视觉语义特征和该组文本特征，训练目标模型以用于确定输入文本和输入图像之间的关联信息。以此方式，可以促进经训练的目标模型在各种视觉‑语言任务中准确且快速地提供结果。

Description

针对视觉和语言的跨模态处理

背景技术

在人工智能领域中，图像处理和自然语言处理已经得到显著发展，并且具有广泛应用。随之而来，出现了针对视觉和语言的跨模态处理需求，以用于各种视觉-语言任务。这样的视觉-语言任务例如包括图像检索、文本检索、视觉问答(VQA)和自然语言的视觉推理(NLVR)等。目前，已经提出了一些跨模态处理技术，以用于这些视觉-语言任务。

发明内容

根据本公开的实现，提出了一种用于跨模态处理的方案。在该方案中，根据目标模型中的视觉特征提取子模型，提取训练图像的一组视觉特征。每个视觉特征对应于训练图像中的一个像素块。基于视觉语义词典，确定与该组视觉特征对应的一组视觉语义特征。根据目标模型中的文本特征提取子模型，提取与训练图像对应的训练文本的一组文本特征。每个文本特征对应于训练文本中的至少一个词。基于该组视觉语义特征和该组文本特征，训练目标模型以用于确定输入文本和输入图像之间的关联信息。以此方式，可以促进经训练的目标模型在各种视觉-语言任务中准确且快速地提供结果。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算设备的框图；

图2示出了根据本公开的一些实现的训练视觉-语言模型的架构图；

图3示出了根据本公开的一些实现的视觉语义嵌入层的示意图；

图4示出了根据本公开的一些实现的基于多个通用任务的预训练的示意图；

图5示出了根据本公开的一些实现的通过训练视觉-语言模型而获得的视觉语义词典的示例；

图6示出了根据本公开的一些实现的应用视觉-语言模型的架构图；

图7示出了根据本公开的一些实现的训练模型的方法的流程图；以及

图8示出了根据本公开的一些实现的应用模型的方法的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本公开的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如本文所使用的，“神经网络”能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而延长网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。在本文中，术语“神经网络”、“网络”和“神经网络模型”可替换地使用。

如上文所提及的，已经提出了一些针对视觉和语言的跨模态学习方案，以用于各种视觉-语言任务。视觉-语言学习的一个重要目标是弥合视觉域和语言域之间的语义鸿沟，并将视觉和语言对齐在一个共同的空间中。已经提出使用注意力机制来建立视觉域和语言域之间的联系，包括用于模型的预训练和下游任务特定的训练。对于视觉输入，这些现有的解决方案利用对象检测模型来提取区域级的视觉特征。然而，对象检测模型并不总是能够很好地检测到区域，并且所检测到的区域受到对象检测模型所使用的预定义类别的限制。

使用区域级的视觉特征进行视觉-语言理解存在一些问题。首先，所检测到的区域关注边界框内的对象，而忽略了边界框外的上下文信息。图像的全局上下文对于语言域中的关系理解和推理非常重要。然而，区域级的视觉特征仅表示图像的一部分，而没有图像的全局上下文，这使得现有的解决方案难以完全理解图像的语义。例如，在没有上下文信息的情况下，现有的解决方案可能无法正确理解所检测到的对象之间的关系，导致为文本检索或VQA提供错误的答案。其次，在现有的解决方案中，对图像的视觉理解受限于预定义的对象类别(例如，1600种对象)和属性类别(例如，400个属性)。预定义的对象类别和属性类别之外的其他语义将被忽略。

此外，区域级的视觉特征是由对象检测模型提取的，这会受到低质量、噪声和过采样等因素的影响。对象检测模型的使用也使得难以进行端到端训练。所提取的区域级的视觉特征与语言域的特征存在语义鸿沟，而现有的解决方案仅通过一个或几个完全连接层难以弥合这种鸿沟。

根据本公开的实现，提供了一种用于跨模态处理的方案，旨在解决上述问题以及其他潜在问题中的一个或多个。在该方案中，根据视觉-语言模型中的视觉特征提取子模型，提取训练图像的一组视觉特征。每个视觉特征对应于训练图像中的一个像素块。基于视觉语义词典，确定与该组视觉特征对应的一组视觉语义特征。根据视觉-语言模型中的文本特征提取子模型，提取与训练图像对应的训练文本的一组文本特征。每个文本特征对应于训练文本中的至少一个词。基于该组视觉语义特征和该组文本特征，训练视觉-语言模型。

以此方式，经训练的视觉-语言模型能够提取全面的图像特征以用于跨模态理解。经训练的视觉-语言模型在处理各种视觉-语言任务中能够提供更准确的结果。另外，由于无需进行对象检测，与现有的解决方案相比，经训练的视觉-语言模型在处理视觉-语言任务中能够加速推理时间，例如将推理时间加速10倍。因此，该视觉-语言模型能够更好地支持在线视觉-语言应用。

以下进一步结合附图来详细描述该方案的各种示例实现。

示例环境

图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信***(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器***中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括多模态处理模块122，这些程序模块被配置为执行本文所描述的各种实现的功能。多模态处理模块122可以由处理单元110访问和运行，以实现相应功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的***或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们也可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

计算设备100可以用于实施本公开的多种实现中的多模态处理。如图1所示，计算设备100可以通过输入设备150接收训练数据集170。训练数据集170包括多个图像-文本对，每个图像-文本对包括训练图像和与训练图像对应的训练文本。图1中示出了图像-文本对的一个示例，即，训练图像171和与训练图像171对应的训练文本172。

在一些实现中，每个图像-文本对中的训练图像和训练文本可以是相匹配或对齐的。例如，训练文本172描述了训练图像171。在一些实现中，一些图像-文本对中的训练图像和训练文本可以是不匹配的，并且另一些图像-文本对中的训练图像和训练文本可以是相匹配的。在这种实现中，训练数据集170还包括指示训练图像与训练文本是否匹配的标签。

尽管在本文的示例中，训练文本172被示出为英文，但应当理解，这仅是示意性的而无意限制本公开的保护范围。本公开的实现适用于任何语言的文本。

计算设备100利用训练数据集170来训练视觉-语言模型180。相应地，在本文中，视觉-语言模型180也可以称为“目标模型”。经训练的视觉-语言模型180可以在视觉-语言任务中用于确定图像和文本之间的关联信息。在一些实现中，在计算设备100处对视觉-语言模型180的训练可以是针对通用任务的预训练。所获得的视觉-语言模型180后续可以针对将要应用视觉-语言模型180的特定任务而被微调。

将要应用视觉-语言模型180的特定任务在本文中也称为“下游任务”。下游任务可以包括但不限于图像检索、文本检索、VQA、NLVR、视觉蕴涵(VE)、基于图像生成文本、基于文本生成图像等。

在一些实现中，在计算设备100处对视觉-语言模型180的训练可以是针对下游任务对经预训练的模型的微调。在一些实现中，在计算设备100处对视觉-语言模型180的训练可以是针对下游任务直接训练视觉-语言模型180的初始版本。

计算设备100利用训练数据集170中的图像-文本对，端到端地训练视觉-语言模型180。通过训练，视觉-语言模型180可以从图像-文本对来学习到视觉表示、语言表示以及视觉和语言之间的关联。下面参考图2至图5来描述视觉-语言模型180如何通过训练学习到视觉表示、语言表示以及视觉和语言之间的关联。

***架构

图2示出了根据本公开的一些实现的训练视觉-语言模型180的架构图200。如图2所示，视觉-语言模型180总体上可以包括文本特征提取子模型210、视觉特征提取子模型220、视觉语义嵌入层230和融合子模型240。应当理解，仅出于示例性的目的描述视觉-语言模型180的结构和功能而不是暗示对于本公开的范围的任何限制。本公开的实现也可以被实施在不同的结构和/或功能中。

文本特征提取子模型210被配置为提取文本(在训练阶段为训练文本，而在推理阶段为输入文本)的一组文本特征。每个文本特征对应于文本中的至少一个词。例如，文本特征提取子模型210可以对文本进行标记化(tokenization)，以获得文本的标记(token)。可以用任何合适的框架或网络来实现文本特征提取子模型210。作为示例，可以利用来自变换器的双向编码器表示(BERT)来实现文本特征提取子模型210。

如图2所示，在训练阶段，文本特征提取子模型210提取输入文本172的一组文本特征215。该组文本特征215中的每个文本特征与训练文本172中的至少一个词对应。可以用

来表示该组文本特征215，并且用w_i表示

中的第i个嵌入向量。也即，每个嵌入向量w_i对应于训练文本172中的至少一个词。在图2的示例中，

中的嵌入向量w₁至w₁₀可以分别对应于词“a”、“yellow”、“dog”、“meets”、“a”、“car”、“coming”、“down”、“the”、“road”。应当理解，嵌入向量w_i的数目取决于训练文本172的长度和对文本进行划分的粒度。在本文中，假设每个嵌入向量w_i具有维度c。

以上描述了视觉-语言模型180在语言域中对文本的处理。在视觉域中，视觉-语言模型180包括视觉特征提取子模型220。视觉特征提取子模型220被配置为提取图像(在训练阶段为训练图像，而在推理阶段为输入图像)的一组视觉特征。每个视觉特征对应于图像中的一个像素块。

如图2所示，在训练阶段，视觉特征提取子模型220提取训练图像171的一组视觉特征260。该组视觉特征260中的每个视觉特征与训练图像171中的一个像素块对应。图2中示出了与训练图像171的左上像素块对应的视觉特征261，以及与训练图像171的右上像素块对应的视觉特征262。可以用

来表示该组视觉特征260，并且用

来表示训练图像171。那么，可以通过下式获得该组视觉特征260：

其中E(·；θ)是具有参数θ的视觉特征提取子模型220；用v_i表示

的第i个特征向量，l表示

中包括的特征向量v_i的数目；c表示每个特征向量v_i的维数，其与文本特征215具有相同的维度。另外，l的值，即

中包括的特征向量v_i的数目，取决于训练图像171被划分成的像素块的数目。

视觉特征提取子模型220可以被实现为可训练的视觉特征编码器。在视觉-语言模型180的训练中，视觉特征提取子模型220将一起被训练。可以采用任何合适的框架和网络来实现视觉特征提取子模型220。仅作为示例，可以采用残差网络后接1×1卷积层和2×2最大池化层作为视觉特征提取子模型220的结构。

在视觉-语言模型180中使用了可训练的视觉特征提取子模型220，例如卷积神经网络(CNN)编码器。视觉特征提取子模型220将整个图像作为输入并生成图像级的视觉特征，而不是现有解决方案中所提取的区域级的视觉特征。以此方式，可以保留训练图像中的完整视觉信息。与上文所提及的现有解决方案相比，在没有边界框的限制的情况下，视觉特征提取子模型220可以被端到端训练和更新，进而优化跨模态学习。

由视觉特征提取子模型220提取的视觉特征260比文本特征215更加多样化，这将给跨模态学习带来困难。有鉴于此，视觉-语言模型180还包括视觉语义词典250，其也可以简称为视觉词典(VD)。总体而言，由视觉特征提取子模型220提取的视觉特征260是低层图像特征，例如颜色特征、形状特征和图案特征等；利用视觉语义词典250，可以将具有相似的视觉语义的低层图像特征聚合到相同的视觉语义，即由相同的视觉语义特征表示。

视觉语义词典250包括具有索引的多个候选语义特征。图2中示意性示出了索引为2的候选语义特征251、索引为3的候选语义特征252、索引为4的候选语义特征253、索引为5的候选语义特征254以及索引为9的候选语义特征255。如下文将参考图3描述的，在训练阶段，视觉语义词典250随着视觉-语言模型180的训练而被更新。

如图2所示，由视觉特征提取子模型220提取的一组视觉特征260被输入到视觉语义嵌入层230。视觉语义嵌入层230基于视觉语义词典250，确定与一组视觉特征260对应的一组视觉语义特征235。可以理解的是，由于该组视觉特征260中的每个视觉特征对应于训练图像171中的一个像素块，该组视觉语义特征235中的每个视觉语义特征也对应于训练图像171中的一个像素块。在本文中，将视觉语义嵌入层230实现的视觉语义词典250的嵌入定义为映射函数f。相应地，可以用

来表示该组视觉语义特征235。下文将参考图3来详细描述视觉语义嵌入层230的操作。

接下来，基于语言域的文本特征215和视觉域的视觉语义特征235来训练视觉-语言模型180。在图2的示例中，为了跨模态处理，视觉-语言模型180中的融合子模型240被配置为基于视觉语义特征235和文本特征215，生成所述训练文本172和训练图像171的一组融合特征245。可以采用任何合适的框架或网络来实现融合子模型240。例如，可以采用多层变换器(Transformer)来实现融合子模型240。这样的多层变换器可以利用视觉域的特征和语言域的特征的融合来学习跨模态表示。应当理解，图2所示的融合子模型240和融合特征245仅是示例性的。在本公开的实现中，可以利用任何合适的子模型来组合文本特征和视觉语义特征。

在训练阶段，可以基于融合特征245来确定目标函数，并且通过最小化目标函数来训练视觉-语言模型180。在一些实现中，对视觉-语言模型180的训练可以是预训练。在这种实现中，可以针对用于预训练的一个或多个通用任务来确定目标函数。通用任务可以包括确定图像和文本是否匹配、预测被应用掩码的文本特征、预测被应用掩码的视觉语义特征等，如下文将参考图4描述的。

在一些实现中，对视觉-语言模型180的训练可以是针对具体下游任务的微调或训练。在这种实现中，可以针对具体下游任务来确定目标函数。

视觉语义特征的嵌入

图3示出了根据本公开的一些实现的视觉语义嵌入层230的示意图。如图3所示，视觉语义嵌入层至少包括查询操作301和映射操作302。查询操作301从视觉语义词典250中确定训练图像171的一组视觉特征260被映射到的至少一个候选语义特征。具体地，对于视觉特征v_i，查询操作301可以从视觉语义词典250中确定与视觉特征v_i最相似的候选语义特征。

可以用候选语义特征在视觉语义词典250中的索引来表示该组视觉特征260所映射到的候选语义特征。在本文中，将视觉语义词典250定义为矩阵

其包含k个c维嵌入向量。第j个嵌入向量d_j表示第j个候选语义特征。那么，对于视觉特征v_i，可以通过在矩阵

中搜索v_i的最近邻来计算视觉特征v_i所映射到的候选语义特征的索引(也称为“映射索引”)：

h_i＝argmin_j||v_i-d_j||₂ (2)

其中h_i表示第i个视觉特征v_i的映射索引。

在图3的示例中，一组视觉特征260中的视觉特征分别被映射到索引为2的候选语义特征251、索引为3的候选语义特征252、索引为4的候选语义特征253、索引为5的候选语义特征254以及索引为9的候选语义特征255。例如，视觉特征261被映射到索引为3的候选语义表示252；视觉特征362被映射到索引为2的候选语义表示251；以及视觉特征363被映射到索引为5的候选语义表示253。

由于每个视觉特征对应于训练图像171中的一个像素块，因此每个视觉特征所映射到的候选语义特征对应于相应的像素块。图3中示意性地示出了每个像素块所对应的候选语义特征的索引。例如，与视觉特征261对应的像素块321对应于索引为3的候选语义特征；与视觉特征362对应的像素块322对应于索引为2的候选语义特征；以及与视觉特征363对应的像素块323对应于索引为5的候选语义特征。

接下来，映射操作302基于一组视觉特征260所映射到的候选语义特征来生成与一组视觉特征260对应的一组视觉语义特征235。相应地，一组视觉语义特征235中的每个视觉语义特征被映射到视觉语义词典250中的一个候选语义特征。该候选语义特征的索引可以视为该视觉语义特征的映射索引。例如，视觉语义特征333、334和335具有映射索引5；视觉语义特征332具有映射索引2；视觉语义特征331具有映射索引3。

在一些实现中，针对视觉特征v_i，映射操作302可以将视觉特征v_i所映射到的候选语义特征确定为与视觉特征v_i对应的视觉语义特征。例如，映射操作302可以将索引为3的候选语义特征251确定为与视觉特征261对应的视觉语义特征。

如上文所提及的，可以将视觉语义嵌入层230实现的视觉语义词典250的嵌入定义为映射函数f，并且用

来表示一组视觉语义特征235。那么，在这种实现中，与视觉特征v_i对应的视觉语义特征f(v_i)由下式表示：

其中针对视觉特征v_i，使用了与v_i最接近的嵌入向量

在对视觉-语言模型180的训练为针对下游任务的微调的实现中，可以通过式(3)来确定视觉语义特征f(v_i)。这是由于在微调之前的预训练阶段，视觉语义词典250已经学习了视觉语义特征的表示。

在一些实现中，映射操作302可以基于一组视觉特征260来更新视觉语义词典250，并且基于经更新的视觉语义词典250来确定一组视觉语义特征235。具体地，针对视觉语义词典250中的某个候选语义特征，映射操作302可以从一组视觉特征260中确定被映射到该候选语义特征的一个或多个视觉特征，并且基于所确定的一个或多个视觉特征来更新该候选语义特征。经更新的候选语义特征被确定为与该一个或多个视觉特征对应的视觉语义特征。

在图3的示例中，与像素块323、324和325对应的视觉特征被映射到索引为5的候选语义特征253。相应地，索引为5的候选语义特征253基于与像素块323、324和325对应的视觉特征被更新。在一组视觉语义特征235中，与像素块323、324和325对应的视觉语义特征333、334、335被确定为经更新的索引为5的候选语义特征。

下文用f^-1(j)表示f的逆映射函数，其将索引j映射回一组视觉特征260中的一个或多个视觉特征。用|f^-1(j)|表示逆映射组的大小，即，索引j所映射回的一个或多个视觉特征的数目。例如，在图3中，|f^-1(2)|、|f^-1(3)|、|f^-1(4)|、|f^-1(5)|和|f^-1(9)|的值分别为4、8、2、3和3。

作为示例，可以使用动量方法来更新视觉语义词典250。由

表示的视觉语义词典250可以被随机初始化，并且在一批次或一小批次的训练中通过移动平均操作而被进一步更新。可以根据下式更新由嵌入向量d_j表示的候选语义特征：

其中

表示经更新的嵌入向量d_j；γ是动量系数，其可以被视为针对嵌入向量d_j的权重。γ的取值范围为[0,1]，例如γ＝0.99。

如式(4)所示，由嵌入向量d_j表示的候选语义特征基于被映射到该候选语义特征的视觉特征及其数目、以及针对该候选语义特征的权重被更新。注意，式(4)仅当|f^-1(j)|≠0时才能应用。换言之，在一批次或一小批次的训练中，仅被映射有视觉特征的候选语义特征被更新。

在这种实现中，映射操作302可以基于经更新的候选语义特征来确定一组视觉语义特征235。例如，与视觉特征v_i对应的视觉语义特征f(v_i)由下式表示：

其中针对视觉特征v_i，使用了经更新的嵌入向量

在图3的示例中，与像素块321对应的视觉语义特征331被确定为经更新的索引为3的候选语义特征252。与像素块322对应的视觉语义特征332被确定为经更新的索引为2的候选语义特征251。

在视觉-语言模型180利用不同批次的图像-文本对进行训练的过程中，视觉语义词典250也随之被更新。考虑到式(2)中的argmin运算不可微，因此梯度反向传播将被视觉语义词典250停止。为了使视觉特征提取子模型220能够训练，可以根据下式来更新f(v_i)：

其中sg[·]是停止梯度算符。

以上描述了视觉语义嵌入层的操作以及视觉语义词典的更新。可以如下地理解更新视觉语义词典250的作用：视觉语义词典250基于视觉特征的相似度对视觉特征执行聚类；具有相似语义的视觉特征将被聚合到同一簇中。换言之，具有相似语义的视觉特征被映射到相同的视觉语义特征，并且该视觉语义特征的索引可以被视为视觉语义标签。视觉语义词典250随着视觉-语言模型180的训练而更新，因此将受到用于训练的视觉-语言任务(如下文描述的)的影响。以此方式，视觉语义词典250中的候选语义特征(即，

中的嵌入向量d_j)更适合跨模态理解和对齐。

训练任务

如上文所提及的，在一些实现中，对视觉-语言模型180的训练可以是预训练。在这种实现中，可以针对一个或多个通用任务来对视觉-语言模型180进行预训练。通用任务可以包括确定图像和文本是否匹配、预测被应用掩码的文本特征、预测被应用掩码的视觉语义特征等。图4示出了根据本公开的一些实现的基于多个通用任务的预训练的示意图400。图4的示例中包括用于预测被应用掩码的视觉语义特征的掩码视觉建模(MVM)任务441、用于预测被应用掩码的文本特征的掩码语言建模(MLM)任务442和用于确定图像和文本是否匹配的图像-文本匹配(ITM)任务443。

在将视觉域的视觉语义特征235和语言域的文本特征215应用到融合子模型240之前，先对视觉语义特征235和文本特征215进行预处理。如图4所示，拼接(concatenate)操作401将由

表示的文本特征215和由

表示的视觉语义特征235拼接在一起，以形成拼接特征405，作为跨模态学习的输入序列。除了文本特征215和视觉语义特征235之外，拼接操作401在拼接特征405中添加了两个特殊标记，即标记[CLS]402和标记[SEP]403。标记[CLS]402用于指示分类位置，该分类位置处的输出可以用于后续的分类任务。标记[SEP]403用于指示文本特征的结束，即用于划分语言域特征和视觉域特征。

对于MLM任务442，掩码层412以拼接特征405作为输入，并且对一组文本特征215中的一个或多个文本特征应用掩码(如图4中的“m”所指示)，以输出经掩码的拼接特征422。如果文本特征w_i被应用掩码，则经掩码的拼接特征422包括未被掩码的其他文本特征

和所有的视觉语义特征

融合子模型240基于经掩码的拼接特征422，生成融合特征432。在融合子模型240由变换器实现的情况下，融合特征432可以被视为应用了注意力的特征。

MLM任务442可以基于融合特征432确定用于该任务的目标函数。MLM任务442用于使得视觉-语言模型108能够从视觉信息和上下文的语言信息来推断语言知识。有鉴于此，MLM任务442的目标是通过最小化对数似然来基于未被掩码的其他文本特征

和所有的视觉语义特征

预测被应用掩码的文本特征w_i。相应地，MLM任务的目标函数可以表述为下式：

其中D在下文中表示整个训练数据集170。也即，MLM任务的目标函数是基于所预测的文本特征与实际的文本特征w_i之间的差异确定的。针对MLM任务可以采用任何合适的掩码策略，例如与BERT中相同的掩码策略。

对于MVM任务441，掩码层411以拼接特征405作为输入，并且对一组视觉语义特征235中的一个或多个视觉语义特征应用掩码(如图4中的“m”所指示)，以输出经掩码的拼接特征421。如果视觉语义特征f(v_j)被应用掩码，则经掩码的拼接特征421包括未被掩码的其他视觉语义特征

和所有的文本特征

融合子模型240基于经掩码的拼接特征421，生成融合特征431。在融合子模型240由变换器实现的情况下，融合特征431可以被视为应用了注意力的特征。

MVM任务441可以基于融合特征431确定用于该任务的目标函数。MVM任务441用于使得视觉-语言模型108能够从语言信息和上下文的视觉信息来推断视觉知识。有鉴于此，MVM任务441的目标是通过最小化对数似然来基于未被掩码的其他视觉语义特征

和所有的文本特征

来预测被应用掩码的视觉语义特征f(v_j)。相应地，MVM任务的目标函数可以表述为下式：

其中D在下文中表示整个训练数据集170。也即，MVM任务的目标函数是基于所预测的视觉语义特征与实际的视觉语义特征f(v_j)之间的差异确定的。

当视觉语义特征f(v_j)被应用掩码时，该视觉语义特征f(v_j)在视觉语义词典250中的映射索引h_i可以被视为其标签。如图3所示，相邻的视觉语义特征可能具有相似的值，因此共享相同的映射索引。例如，视觉语义特征333和334均具有映射索引5，即对应于索引为5的候选语义特征。这可能导致视觉-语言模型180直接从被应用掩码的视觉语义特征f(v_j)的周围特征中复制映射索引用于预测。为了防止这种情况，被应用掩码的视觉语义特征可以对应于视觉语义词典250中的同一候选语义特征。例如，掩码层411可以随机选择一组视觉语义特征235中的任一视觉语义特征所具有的映射索引j，然后用特殊的标记[MASK]替换具有映射索引j的所有视觉语义特征。也即，掩码层411可以用与标记[MASK]对应的嵌入向量替换f^-1(j)中的所有嵌入向量。

对于ITM任务443，融合子模型240以拼接特征405作为输入，并且基于拼接特征405，生成融合特征433。在融合子模型240由变换器实现的情况下，融合特征433可以被视为应用了注意力的特征。

ITM任务443可以基于融合特征433确定用于该任务的目标函数。ITM任务443用于使得视觉-语言模型180能够建立语言域特征与视觉域特征之间的映射，以增强跨模态匹配。有鉴于此，ITM任务443可以对融合特征433中的标记[CLS]应用二分类器φ(·)，以预测训练图像和训练文本是否匹配。相应地，ITM任务的目标函数可以表述为下式：

其中y∈{0,1}表示图像和文本是否匹配，例如y＝1表示匹配，y＝0表示不匹配。

可以基于以上描述的通用任务，端到端地联合训练视觉特征提取子模型220、视觉语义嵌入层230(特别是视觉语义词典250)、文本特征提取子模型210和融合子模型240。假设以上三个任务的目标函数被分配有相等的权重，则完整的预训练目标函数可以表述为下式：

可以利用大量的数据集对视觉-语言模型180进行预训练。针对通用任务而预训练的视觉-语言模型180可以学习到针对视觉-语言任务的通用表示。因此，以此方式获得的视觉-语言模型180可以具有广泛的适用性。

应当理解，参考图4所描述的通用任务仅是示例性的。在一些实现中，可以基于更多或更少的通用任务来对视觉-语言模型180进行预训练。备选地或附加地，在一些实现中，分配给不同通用任务的目标函数的权重可以不同。例如，所分配的权重的大小可以取决于视觉-语言模型180的可能应用场景。

以上参考图4描述了在预训练的实现中的训练任务。在一些实现中，对视觉-语言模型180的训练可以针对具体下游任务的微调或训练。在这种实现中，可以针对具体下游任务来确定目标函数。下游任务可以包括但不限于图像检索、文本检索、VQA、NLVR、VE、基于图像生成文本、基于文本生成图像等。在针对下游任务的微调或训练中，图4中所示的通用任务可以由下游任务替换。此外，在将视觉语义特征235和文本特征215输入到融合子模型240前的预处理也可以取决于具体下游任务而不同。

下文将图像检索和文本检索统称为图像-文本检索。在针对图像-文本检索的微调或训练中，训练数据集包括相匹配的图像-文本对和不匹配的图像-文本对两者。为了使视觉-语言模型180能够针对相匹配的图像-文本对和不匹配的图像-文本对预测正确的分类，可以将针对图像-文本检索的微调或训练视为二分类问题。例如，可以使用来自融合子模型240的融合特征中的标记[CLS]来预测训练图像和训练文本是否相匹配。这与上文描述的ITM任务类似。

VQA要求视觉-语言模型180能够以图像和问题作为输入，并且输出答案。为此，可以将针对VQA的微调或训练视为多分类问题。例如，可以使用来自融合子模型240的融合特征中的标记[CLS]来进行多分类。

在针对基于图像生成文本的微调或训练中，可以对训练任务进行如下调整：不对视觉域的视觉语义特征应用掩码，而对语言域的文本特征按照词的顺序依次应用掩码。基于视觉语义特征和在前的文本特征来预测被应用掩码的文本特征，以微调或训练视觉-语言模型180。类似地，在针对基于文本生成图像的微调或训练中，不对语言域的文本特征进行掩码。基于文本特征逐一地预测与图像的像素块对应的视觉特征，以微调或训练视觉-语言模型180。

以上以图像-文本检索、VQA、文本生成和图像生成作为示例，描述了针对下游任务的微调或训练。鉴于以上描述和参考图4的描述，在本公开的实现中，可以针对各种具体下游任务来微调或训练视觉-语言模型180。

通过对视觉-语言模型180的训练，例如针对通用任务的预训练、针对下游任务的微调和针对下游任务的训练，视觉-语言模型180可以学习图像特征的表示、文本特征的表示以及图像特征和文本特征之间的对齐。特别地，通过训练而被更新的视觉语义词典250可以将具有相似的视觉语义的低层图像特征转换成视觉语义。

图5示出了根据本公开的一些实现的通过训练视觉-语言模型180而获得的视觉语义词典250的示例。如前文所描述的，图像的像素块可以对应于视觉语义词典250中的候选语义特征。图5示出了与通过训练获得的视觉语义词典250中的候选语义特征501相对应的多个像素块510，以及与候选语义特征502相对应的多个像素块520。从图5可以看出，候选语义特征501反映语义“人”，而候选语义特征502反映语义“建筑物”。应当理解，图5所示的各个像素块仅为了说明视觉语义词典250，而无意限制本公开的范围。

示例应用场景

图6示出了根据本公开的一些实现的应用视觉-语言模型180的架构图600。经训练的视觉-语言模型180可以应用于各种视觉-语言任务以进行推理。这样的视觉-语言任务可以包括但不限于图像检索，文本检索，VQA，NLVR，图像生成，或文本生成。

如图6所示，在语言域中，经训练的视觉-语言模型180包括经训练的文本特征提取子模型210。文本特征提取子模型210提取输入文本602的一组文本特征615。该组文本特征615中的每个文本特征与输入文本602中的至少一个词对应。

在视觉域中，经训练的视觉-语言模型180包括经训练的视觉特征提取子模型220和经训练的视觉语义词典250。视觉特征提取子模型220提取输入图像601的一组视觉特征660。该组视觉特征660中的每个视觉特征与输入图像601中的一个像素块对应。

由经训练的视觉特征提取子模型220提取的一组视觉特征660被输入到视觉语义嵌入层230。视觉语义嵌入层230基于视觉语义词典250，确定与一组视觉特征660对应的一组视觉语义特征635。视觉语义词典250包括具有索引的多个候选语义特征。具体地，针对该组视觉特征660中的每个视觉特征，视觉语义嵌入层230从视觉语义词典250中确定与该视觉特征最相似的候选语义特征，并将所确定的候选语义特征作为与该视觉特征对应的视觉语义特征。

接下来，基于一组视觉语义特征635和一组文本特征615确定输入文本602和输入图像601之间的关联信息645。例如，如图6所示，经训练的融合子模型240可以基于一组视觉语义特征635和一组文本特征615确定输入文本602和输入图像601之间的关联信息645。关联信息例如可以是应用了注意力的视觉语义特征和文本特征。

在图像检索的场景中，输入文本602可以是由发起图像检索的用户输入或以其他方式指定的文本，并且输入图像601可以是图像存储库中的候选图像。关联信息645可以用于确定输入图像601与输入文本602是否匹配。

在文本检索的场景中，输入图像601可以是由发起文本检索的用户输入或以其他方式指定的图像，并且输入文本602可以是文本存储库中的候选文本。关联信息645可以用于确定输入文本602与输入图像604是否匹配。

在VQA的场景中，输入文本602可以是问题，并且输入图像601可以是问题所针对的图像。关联信息645可以用于从输入图像601确定问题的答案。

在NLVR的场景中，输入文本602可以是描述，并且输入图像601可以包括一对图像。关联信息645可以用于确定描述是否与该对图像有关或一致。

在图像生成的场景中，输入文本602可以是对期望生成的目标图像的描述，并且输入图像601可以是参考图像。关联信息可以用于确定参考图像中与描述有关的像素块或区域，以用于生成目标图像。

在文本生成的场景中，输入图像601可以是与期望生成的目标文本匹配的图像，并且输入文本602可以参考文本。关联信息可以用于确定参考文本中可以描述输入图像601的文字，以用于生成目标文本。

示例方法

图7示出了根据本公开一些实现的训练目标模型的方法700的流程图。方法700可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的多模态处理模块122处。

如图7所示，在框710处，计算设备100根据目标模型中的视觉特征提取子模型，提取训练图像的一组视觉特征。每个视觉特征对应于训练图像中的一个像素块。在框720处，计算设备100基于视觉语义词典，确定与一组视觉特征对应的一组视觉语义特征。在框730处，计算设备100根据目标模型中的文本特征提取子模型，提取与训练图像对应的训练文本的一组文本特征。每个文本特征对应于训练文本中的至少一个词。在框740处，计算设备100基于一组视觉语义特征和一组文本特征，训练目标模型以用于确定输入文本和输入图像之间的关联信息。

在一些实现中，基于视觉语义词典确定一组视觉语义特征包括：从视觉语义词典中确定一组视觉特征被映射到的至少一个候选语义特征；基于一组视觉特征，更新至少一个候选语义特征；以及基于经更新的至少一个候选语义特征，确定一组视觉语义特征。

在一些实现中，更新至少一个候选语义特征包括：针对至少一个候选语义特征中的指定候选语义特征，确定一组视觉特征中被映射到指定候选语义特征的至少一个视觉特征；以及基于至少一个视觉特征和针对指定候选语义特征的权重，更新指定候选语义特征。基于经更新的至少一个候选语义特征，确定一组视觉语义特征包括：将经更新的指定候选语义特征确定为一组视觉语义特征中与至少一个视觉特征对应的视觉语义特征。

在一些实现中，训练目标模型包括：基于一组视觉语义特征和一组文本特征，根据目标模型中的融合子模型，生成针对训练文本和训练图像的一组融合特征；基于一组融合特征，确定目标函数；以及通过最小化目标函数，训练目标模型。

在一些实现中，生成一组融合特征包括：对一组视觉语义特征中的至少一个视觉语义特征应用掩码；基于一组文本特征和经掩码的一组视觉语义特征，根据融合子模型，生成一组融合特征。确定目标函数包括：基于一组融合特征，生成与被应用掩码的至少一个视觉语义特征对应的预测特征；以及基于预测特征与至少一个视觉语义特征之间的差异，确定目标函数。

在一些实现中，至少一个视觉语义特征对应于视觉语义词典中的同一候选语义特征。

在一些实现中，确定目标函数包括：基于一组融合特征和将要应用目标模型的特定任务，确定目标函数。

在一些实现中，特定任务包括以下至少一项：图像检索，文本检索，视觉问答，自然语言的视觉推理，图像生成，或文本生成。

图8示出了根据本公开一些实现的应用目标模型的方法800的流程图。方法800可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的多模态处理模块122处。方法800也可以由不同于计算设备100的另一计算设备实现。

如图8所示，在框810处，计算设备100根据经训练的目标模型中的视觉特征提取子模型，提取输入图像的一组视觉特征。每个视觉特征对应于输入图像中的一个像素块。在框820处，计算设备100基于视觉语义词典，确定与一组视觉特征对应的一组视觉语义特征。在框830处，计算设备100根据目标模型中的文本特征提取子模型，提取与输入图像对应的输入文本的一组文本特征。每个文本特征对应于输入文本中的至少一个词。在框840处，计算设备100基于一组视觉语义特征和一组文本特征，确定输入文本和输入图像之间的关联信息。

在一些实现中，关联信息用于以下任务中的至少一项：基于输入文本的图像检索，基于输入图像的文本检索，与输入文本和输入图像有关的VQA，与输入文本和输入图像有关的NLVR，基于输入文本的图像生成，或基于输入图像的文本生成。

在关联信息用于图像检索的实现中，输入文本可以是由发起图像检索的用户输入或以其他方式指定的文本，并且输入图像可以是图像存储库中的候选图像。关联信息可以用于确定输入图像是否与输入文本匹配。

在关联信息用于文本检索的实现中，输入图像可以是由发起文本检索的用户输入或以其他方式指定的图像，并且输入文本可以是文本存储库中的候选文本。关联信息可以用于确定输入文本是否与输入图像匹配。

在关联信息用于VQA的实现中，输入文本可以是问题，并且输入图像可以是问题所针对的图像。关联信息可以用于从输入图像确定问题的答案。

在关联信息用于NLVR的实现中，输入文本可以是描述，并且输入图像可以包括一对图像。关联信息可以用于确定描述是否与该对图像有关或一致。

在关联信息用于图像生成的实现中，输入文本可以是对期望生成的目标图像的描述，并且输入图像可以是参考图像。关联信息可以用于确定参考图像中与描述有关的像素块或区域，以用于生成目标图像。

在关联信息用于文本生成的实现中，输入图像可以是与将要被生成的目标文本匹配的图像，并且输入文本可以参考文本。关联信息可以用于确定参考文本中可以描述输入图像的文字，以用于生成目标文本。

示例实现

以下列出了本公开的一些示例实现方式。

在第一方面，本公开提供了一种计算机实现的方法。所述方法包括：根据目标模型中的视觉特征提取子模型，提取训练图像的一组视觉特征，其中每个视觉特征对应于所述训练图像中的一个像素块；基于视觉语义词典，确定与所述一组视觉特征对应的一组视觉语义特征；根据所述目标模型中的文本特征提取子模型，提取与所述训练图像对应的训练文本的一组文本特征，其中每个文本特征对应于所述训练文本中的至少一个词；以及基于所述一组视觉语义特征和所述一组文本特征，训练所述目标模型以用于确定输入文本和输入图像之间的关联信息。

在一些实现中，基于所述视觉语义词典确定所述一组视觉语义特征包括：从所述视觉语义词典中确定所述一组视觉特征被映射到的至少一个候选语义特征；基于所述一组视觉特征，更新所述至少一个候选语义特征；以及基于经更新的所述至少一个候选语义特征，确定所述一组视觉语义特征。

在一些实现中，更新所述至少一个候选语义特征包括：针对所述至少一个候选语义特征中的指定候选语义特征，确定所述一组视觉特征中被映射到所述指定候选语义特征的至少一个视觉特征；以及基于所述至少一个视觉特征和针对所述指定候选语义特征的权重，更新所述指定候选语义特征，并且其中基于经更新的所述至少一个候选语义特征，确定所述一组视觉语义特征包括：将经更新的所述指定候选语义特征确定为所述一组视觉语义特征中与所述至少一个视觉特征对应的视觉语义特征。

在一些实现中，训练所述目标模型包括：基于所述一组视觉语义特征和所述一组文本特征，根据所述目标模型中的融合子模型，生成针对所述训练文本和所述训练图像的一组融合特征；基于所述一组融合特征，确定目标函数；以及通过最小化所述目标函数，训练所述目标模型。

在一些实现中，生成所述一组融合特征包括：对所述一组视觉语义特征中的至少一个视觉语义特征应用掩码；基于所述一组文本特征和经掩码的所述一组视觉语义特征，根据所述融合子模型，生成所述一组融合特征，并且其中确定所述目标函数包括：基于所述一组融合特征，生成与被应用掩码的所述至少一个视觉语义特征对应的预测特征；以及基于所述预测特征与所述至少一个视觉语义特征之间的差异，确定所述目标函数。

在一些实现中，所述至少一个视觉语义特征对应于所述视觉语义词典中的同一候选语义特征。

在一些实现中，确定所述目标函数包括：基于所述一组融合特征和将要应用所述目标模型的特定任务，确定所述目标函数。

在一些实现中，所述特定任务包括以下至少一项：图像检索，文本检索，视觉问答，自然语言的视觉推理，图像生成，或文本生成。

在第二方面，本公开提供了一种计算机实现的方法。所述方法包括：根据经训练的目标模型中的视觉特征提取子模型，提取输入图像的一组视觉特征，其中每个视觉特征对应于所述输入图像中的一个像素块；基于视觉语义词典，确定与所述一组视觉特征对应的一组视觉语义特征；根据所述目标模型中的文本特征提取子模型，提取与所述输入图像对应的输入文本的一组文本特征，其中每个文本特征对应于所述输入文本中的至少一个词；以及基于所述一组视觉语义特征和所述一组文本特征，确定所述输入文本和所述输入图像之间的关联信息。

在一些实现中，所述关联信息用于以下任务中的至少一项：基于所述输入文本的图像检索，基于所述输入图像的文本检索，与所述输入文本和所述输入图像有关的视觉问答，与所述输入文本和所述输入图像有关的自然语言的视觉推理，基于所述输入文本的图像生成，或基于所述输入图像的文本生成。

在第三方面，本公开提供了一种电子设备。所述电子设备包括：处理单元；以及存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时，使得所述设备执行动作，所述动作包括：根据目标模型中的视觉特征提取子模型，提取训练图像的一组视觉特征，其中每个视觉特征对应于所述训练图像中的一个像素块；基于视觉语义词典，确定与所述一组视觉特征对应的一组视觉语义特征；根据所述目标模型中的文本特征提取子模型，提取与所述训练图像对应的训练文本的一组文本特征，其中每个文本特征对应于所述训练文本中的至少一个词；以及基于所述一组视觉语义特征和所述一组文本特征，训练所述目标模型以用于确定输入文本和输入图像之间的关联信息。

在第四方面，本公开提供了一种电子设备。所述电子设备包括：处理单元；以及存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时，使得所述设备执行动作，所述动作包括：根据经训练的目标模型中的视觉特征提取子模型，提取输入图像的一组视觉特征，其中每个视觉特征对应于所述输入图像中的一个像素块；基于视觉语义词典，确定与所述一组视觉特征对应的一组视觉语义特征；根据所述目标模型中的文本特征提取子模型，提取与所述输入图像对应的输入文本的一组文本特征，其中每个文本特征对应于所述输入文本中的至少一个词；以及基于所述一组视觉语义特征和所述一组文本特征，确定所述输入文本和所述输入图像之间的关联信息。

在第五方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备执行上述第一方面的方法。

在第六方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备执行上述第二方面的方法。

在第七方面，本公开提供了一种计算机可读介质，其上存储有机器可执行指令，机器可执行指令在由设备执行时使设备执行上述第一方面的方法。

在第八方面，本公开提供了一种计算机可读介质，其上存储有机器可执行指令，机器可执行指令在由设备执行时使设备执行上述第二方面的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实现的方法，包括：

根据目标模型中的视觉特征提取子模型，提取训练图像的一组视觉特征，其中每个视觉特征对应于所述训练图像中的一个像素块；

基于视觉语义词典，确定与所述一组视觉特征对应的一组视觉语义特征；

根据所述目标模型中的文本特征提取子模型，提取与所述训练图像对应的训练文本的一组文本特征，其中每个文本特征对应于所述训练文本中的至少一个词；以及

基于所述一组视觉语义特征和所述一组文本特征，训练所述目标模型以用于确定输入文本和输入图像之间的关联信息。

2.根据权利要求1所述的方法，其中基于所述视觉语义词典确定所述一组视觉语义特征包括：

从所述视觉语义词典中确定所述一组视觉特征被映射到的至少一个候选语义特征；

基于所述一组视觉特征，更新所述至少一个候选语义特征；以及

基于经更新的所述至少一个候选语义特征，确定所述一组视觉语义特征。

3.根据权利要求2所述的方法，

其中更新所述至少一个候选语义特征包括：

针对所述至少一个候选语义特征中的指定候选语义特征，确定所述一组视觉特征中被映射到所述指定候选语义特征的至少一个视觉特征；以及

基于所述至少一个视觉特征和针对所述指定候选语义特征的权重，更新所述指定候选语义特征，并且

其中基于经更新的所述至少一个候选语义特征，确定所述一组视觉语义特征包括：

将经更新的所述指定候选语义特征确定为所述一组视觉语义特征中与所述至少一个视觉特征对应的视觉语义特征。

4.根据权利要求1所述的方法，其中训练所述目标模型包括：

基于所述一组视觉语义特征和所述一组文本特征，根据所述目标模型中的融合子模型，生成针对所述训练文本和所述训练图像的一组融合特征；

基于所述一组融合特征，确定目标函数；以及

通过最小化所述目标函数，训练所述目标模型。

5.根据权利要求4所述的方法，

其中生成所述一组融合特征包括：

对所述一组视觉语义特征中的至少一个视觉语义特征应用掩码；

基于所述一组文本特征和经掩码的所述一组视觉语义特征，根据所述融合子模型，生成所述一组融合特征，并且

其中确定所述目标函数包括：

基于所述一组融合特征，生成与被应用掩码的所述至少一个视觉语义特征对应的预测特征；以及

基于所述预测特征与所述至少一个视觉语义特征之间的差异，确定所述目标函数。

6.根据权利要求5所述的方法，其中所述至少一个视觉语义特征对应于所述视觉语义词典中的同一候选语义特征。

7.根据权利要求4所述的方法，其中确定所述目标函数包括：

基于所述一组融合特征和将要应用所述目标模型的特定任务，确定所述目标函数。

8.根据权利要求7所述的方法，其中所述特定任务包括以下至少一项：

图像检索，

文本检索，

视觉问答，

自然语言的视觉推理，

图像生成，或

文本生成。

9.一种计算机实现的方法，包括：

根据经训练的目标模型中的视觉特征提取子模型，提取输入图像的一组视觉特征，其中每个视觉特征对应于所述输入图像中的一个像素块；

根据所述目标模型中的文本特征提取子模型，提取与所述输入图像对应的输入文本的一组文本特征，其中每个文本特征对应于所述输入文本中的至少一个词；以及

基于所述一组视觉语义特征和所述一组文本特征，确定所述输入文本和所述输入图像之间的关联信息。

10.根据权利要求9所述的方法，其中所述关联信息用于以下任务中的至少一项：

基于所述输入文本的图像检索，

基于所述输入图像的文本检索，

与所述输入文本和所述输入图像有关的视觉问答，

与所述输入文本和所述输入图像有关的自然语言的视觉推理，

基于所述输入文本的图像生成，或

基于所述输入图像的文本生成。

11.一种电子设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：

12.根据权利要求1所述的设备，其中基于所述视觉语义词典确定所述一组视觉语义特征包括：

13.根据权利要求12所述的设备，

其中更新所述至少一个候选语义特征包括：

14.根据权利要求11所述的设备，其中训练所述目标模型包括：

基于所述一组融合特征，确定目标函数；以及

通过最小化所述目标函数，训练所述目标模型。

15.根据权利要求14所述的设备，

其中生成所述一组融合特征包括：

其中确定所述目标函数包括：

16.根据权利要求15所述的设备，其中所述至少一个视觉语义特征对应于所述视觉语义词典中的同一候选语义特征。

17.根据权利要求14所述的设备，其中确定所述目标函数包括：

18.一种电子设备，包括：

处理单元；以及

19.一种计算机程序产品，包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行动作，所述动作包括：

20.一种计算机程序产品，包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行动作，所述动作包括：