CN112668671A

CN112668671A - 预训练模型的获取方法和装置

Info

Publication number: CN112668671A
Application number: CN202110274515.0A
Authority: CN
Inventors: 牛国成; 李伟; 高参; 肖欣延; 吴华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-04-16
Anticipated expiration: 2041-03-15
Also published as: CN112668671B; EP4060565A1; JP2022141587A; US20220292269A1; KR20220128935A

Abstract

本公开公开了一种预训练模型的获取方法和装置，涉及人工智能技术领域中的自然语言处理和深度学习技术。具体实现方案为：获取训练数据，所述训练数据包括单模语料和多模语料，其中多模语料包括第一模态语料和第二模态语料构成的语料对；利用所述训练数据对预训练模型进行多任务训练，所述多任务包括：至少一个跨模态对比学习任务和至少一个单模学习任务；本公开得到的预训练语言模型可以从不同形式的语料即包括单模语料、多模语料中学习，使得预训练语言模型能够有效地处理各种不同模态的信息。

Description

预训练模型的获取方法和装置

技术领域

本公开涉及计算机应用技术领域，尤其涉及人工智能技术领域中的自然语言处理和深度学习技术。

背景技术

大规模的预训练模型由于其强大的泛化能力和对规模数据的高效利用而得到了广泛关注。显然现有的预训练方法大多仅用于单模态场景，例如仅仅针对图像，或者仅仅针对文本。

然而，人类通过多种方式感知世界，例如视觉、语言、声音等等。多种模态的信息结合能够更好地进行信息理解，因此一个优秀的人工智能***应该能够有效地处理各种不同模态的信息。

发明内容

本公开提供了一种跨模态的预训练模型的获取方法、装置、设备、计算机存储介质和程序产品。

根据本公开的第一方面，提供了一种预训练模型的获取方法，包括：

获取训练数据，所述训练数据包括单模语料和多模语料，其中多模语料包括第一模态语料和第二模态语料构成的语料对；

利用所述训练数据对预训练模型进行多任务训练，所述多任务包括：至少一个跨模态对比学习任务和至少一个单模学习任务；

其中所述跨模态对比学习任务包括：利用所述预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示，确定所述多模语料中第一模态语料和第二模态语料之间的相似度；训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度，最小化负例多模语料中第一模态语料和第二模态语料之间的相似度；

所述单模学习任务包括：利用所述预训练模型对单模语料中第一部分内容的向量表示，预测该单模语料中第二部分内容；训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。

根据本公开的第二方面，提供了一种预训练模型的获取装置，包括：

获取单元，用于获取训练数据，所述训练数据包括单模语料和多模语料，其中多模语料包括第一模态语料和第二模态语料构成的语料对；

训练单元，用于利用所述训练数据对预训练模型进行多任务训练，所述多任务包括：至少一个跨模态对比学习任务和至少一个单模学习任务；

根据本公开的第三方面，本公开提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的第四方面，本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的第五方面，本公开提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据如上所述的方法。

由以上技术方案可以看出，本公开得到的预训练语言模型可以从不同形式的语料即包括单模语料、多模语料中学习，使得预训练语言模型能够有效地处理各种不同模态的信息。并且，在学习过程中不同模态语料之间互相增强，使得得到的预训练语言模型具有更好地语义理解能力和可泛化的表示。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的主要方法流程图；

图2是根据本公开实施例提供的训练预训练语言模型的示意图；

图3为本公开实施例提供的一个场景图示意图；

图4为本公开实施例提供的预训练模型的获取装置的结构示意图；

图5是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在现有的预训练模型中，大多仅能够处理单模数据，例如，BERT（BidirectionalEncoder Representation from Transformers，来自转换器的双向编码表示）模型仅能够学习并处理文本数据。SimCLR（Simple Framework for Contrastive Learning of VisualRepresentations，视觉表征对比学习的建议框架）模型仅能够学习并处理图像数据。VilBERT（Vision-and-Language BERT，视觉-语言BERT）模型虽然能够学习并处理图文对（即图像和文本构成的语料对），但对于单纯图像或文本数据则处理能力很差。本公开则提供了一种能够实现跨模态数据学习的预训练模型的获取方法，充分利用多种模态的信息使得预训练模型能够将各种模态的数据映射到同一的语义表示空间。下面结合实施例对本公开提供的方法进行详细描述。

图1为本公开实施例提供的主要方法流程图，该方法的执行主体可以是服务器端的装置，也可以是计算机终端中的装置。该装置可以体现为应用，也可以体现为应用中的插件或软件开发工具包（Software Development Kit，SDK）等功能单元，本公开实施例对此不加以特别限定。如图1中所示，该方法可以包括以下步骤：

在101中，获取训练数据，训练数据包括单模语料和多模语料，其中多模语料包括第一模态语料和第二模态语料构成的语料对。

本公开涉及的单模语料指的是单一模态的语料，例如图像、文本、视频或音频等模态的语料。在本公开中可以仅包含一种单模语料，也可以包括多于一种的单模语料。

多模语料指的是由两种模态的语料构成的语料对，例如图像和文本构成的语料对、图像和音频构成的语料对、文本和视频构成的语料对，等等。

作为一种优选的实施方式，在多模语料中可以包括正例多模语料和负例多模语料，其中正例多模语料所包含的第一模态语料和第二模态语料之间表达相同语义，而负例多模语料所包含的第一模态语料和第二模态语料之间表达不同语义。

在102中，利用训练数据对预训练模型进行多任务训练，多任务包括：至少一个跨模态对比学习任务和至少一个单模学习任务；

其中跨模态对比学习任务包括：利用预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示，确定多模语料中第一模态语料和第二模态语料之间的相似度；训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度，最小化负例多模语料中第一模态语料和第二模态语料之间的相似度；

单模学习任务包括：利用预训练模型对单模语料中第一部分内容的向量表示，预测该单模语料中第二部分内容；训练目标为最小化预测得到的第二部分内容与该单模语料中第二部分内容的差异。

本公开中预训练语言模型可以使用多层Transformer作为主模型，如图2中所示，将训练数据作为预训练语言模型的输入，由预训练语言模型将训练数据中的语料均映射至统一的向量空间，即输出每个语料（包括单模语料的各语料以及多模语料中的各第一模态语料和第二模态语料）的向量表示。

更具体地，对于其中一个语料而言，将该语料所包含的各Token（语义元素）输入预训练语言模型，由预训练语言模型输出各Token的向量表示。其中对于文本类语料而言，各Token可以是文本包含的各字符，也可以是各词语等。对于图像类语料而言，各Token可以是图像包含的各目标区域或者各像素等。对于视频类语料而言，可以分解为各帧图像，各Token可以是各帧图像或者关键帧的图像等。对于音频类语料而言，各Token可以是各音频帧、音频段，也可以是根据音频的频率、强度等得到的各帧频谱图。

在预训练语言模型的训练过程中，使用多任务训练。其中跨模态对比学习任务主要是利用多模语料进行训练，单模学习任务是利用单模语料进行训练。多任务可以进行联合训练，也可以交替训练，或者也可以分别依次进行训练。

为了更好地对本公开进行理解，下面以单模语料为图像、文本，多模语料为图-文对为例，对上述方法中的各步骤进行详细描述。

首先结合实施例对上述步骤101即“获取训练数据”进行详细描述。

在网络中大量存在不同模态的数据，主要是文本信息和视觉信息，文本知识和视觉知识通常是相辅相成的。在人类大脑中负责视觉的部分也可以学习和处理其他模态的信息，包括触觉和声音。统一不同模态的数据最大的挑战是将其统一到相同的语义空间，这些语义空间可以概括为不同的数据模式。因此，在本步骤中获取的训练数据包括多种模态的数据，体现为多模语料和单模语料。

其中，多模语料来自于网络上在语义上成对（pair）出现的数据。以图-文对为例。可以预先从网络中爬取图-文对构成图-文对数据库，本步骤中可以直接从该图-文对数据库中获取多模语料。至于如何从网络中爬取图-文对可以采用已有技术来实现。例如，可以从网络上爬取图像，然后从图像的上下文本中提取该图像的描述文本，然后由该图像和描述文本构成图-文对。再例如，可以从网络上爬取图像，然后人工标注描述文本，由该图像和描述人文构成图-文对。等等。

除了pair形态的多模语料之外，在网络上存在着更大规模的非pair形态的单模语料，例如单纯的文本语料、图像语料等。可以从网络上爬取这些单模语料后，经过筛选构成文本数据库、图像数据库等单模语料库。本步骤中可以直接从单模语料库中获取单模语料，例如获取文本语料和图像语料。

更进一步地，对于训练数据中从多模语料数据库中获取的多模语料可以进行正例和/或负例的扩展，采用的扩展方式可以包括改写扩展和检索扩展中的至少一种；然后将得到的多模语料添加至训练数据中。由于在后续的跨模态对比学习过程中，正例多模语料和负例多模语料的质量对预训练模型最终的效果有着重要影响，因此为了得到高质量的正例多模语料和负例多模语料，以及融合更多的单模语料来帮助学习，可以采用以下扩展方式中的至少一种：

第一种扩展方式：改写扩展。

对于正例多模语料的扩展可以包括：若正例多模语料中的第一模态语料为第一语种的文本，则利用翻译模型将该第一语种的文本翻译为第二语种的文本后再翻译回第一语种，将翻译后得到的第一语种的文本与该正例多模语料中的第二模态语料构建新的正例多模语料。

上述针对正例多模语料的扩展主要是基于回译（back translation）。例如，某正例多模语料由图像1和文本1构成的图-文对。假设文本1为中文，则可以将中文采用机器翻译模型翻译为英文和法文等，再将得到的英文和法文等文本翻译回中文，得到文本2、文本3等。那么可以分别将图像1和文本2构成的图-文对、图像1和文本3构成的图-文对作为新的正例多模语料添加至训练数据，从而实现了对正例多模语料的扩展。这一扩展通常是基于句子级别的文本改写式扩展。

对于负例多模语料的扩展可以包括：将正例多模语料中的第一模态语料解析为场景图，随机替换掉场景图中的实体、属性和关系中的至少一种，将替换后得到的场景图转换回第一模态语料，将转换后得到的第一模态语料与该正例多模语料中的第二模态语料构建新的负例多模语料。

场景图是一种数据结构，包括三种节点：实体节点、属性节点和关系节点。实体节点对应于实体词、属性节点对应于属性词，关系节点对应于关系词。举个例子：对于正例图-文对中由图像1和文本1构成，文本1为“女人穿着蓝色的裙子”。其中“女人”和“裙子”是实体节点。“蓝色”为属性节点，体现了实体节点“裙子”的属性，“穿着”是关系节点，体现了实体节点“女人”和“裙子”之间的关系。其产生的场景图可以如图3中所示，图中圆形节点代表实体节点，方形节点代表关系节点，平行四边形节点代表属性节点。

将场景图中的实体、属性和关系节点中的至少一种进行替换，形成诸如：文本2“女人穿着红色的裙子”，文本3“女人穿着蓝色的裤子”，文本4“女人穿着红色的裤子”等。然后分别将图像1和文本2组成一个新的图-文对，将图像1和文本3组成一个新的图-文对，将图像1和文本4组成一个新的图-文对，这些新的文本对作为负例多模语料添加至训练数据中，从而实现了对负例多模语料的扩展。这一扩展主要是基于短语级别、词汇级别进行改写扩展。

第二种扩展方式：检索扩展。

将正例多模语料中的第一模态语料在第一模态语料库中进行检索，利用检索得到的语料与该正例多模语料中的第二模态语料构建新的正例多模语料。

例如由图像1和文本1构成的正例图-文对。

作为其中一种实现方式，可以利用文本1在文本数据库中进行检索，得到与文本1之间的相似度大于或等于预设相似度阈值的文本，将检索得到的文本分别与图像1组合得到新的正例图-文对。其中检索得到的文本可以看做图像1和文本1构成的正例图-文对的文本层面的背景知识，作为训练样本的补充。

在检索过程中确定文本之间的相似度时，可以采用多种相似度确定方式。例如基于BERT的强语义表示能力，确定各文本的向量表示，通过计算向量表示之间的相似度来作为文本之间的相似度。再例如，可以基于TF-IDF统计手段，分别确定各文本中的关键词（即TF-IDF大于或等于预设统计阈值的词语）得到各文本的词集合；基于词集合中各词语在各文本中的词频，得到各文本对应的词频向量；通过计算词频向量之间的相似度来作为对应文本之间的相似度。

作为另一种实现方式，可以利用图像1在图像文本库中进行搜索，得到与图像1之间的相似度大于或等于预设相似度阈值的图像，将检索得到的图像分别与文本1组合得到新的正例图-文对。其中检索得到的图像可以看做图像1和文本1构成的正例图-文对的图像层面的背景知识，作为训练样本的补充。

在检索过程中确定图像之间的相似度时，可以采用多种相似度确定方式。在此提供一种方式：可以采用目标检测工具分别对各图像进行检测，确定检测得到的各图像所包含的对象的重叠率来作为对应图像之间相似度的体现。例如，如果图像1包含对象“女人”、“花朵”、“绿草”和“太阳”，图像2包含“女人”、“花朵”、“彩虹”和“书包”，图像3包含“女人”、“花朵”和“绿草”，那么图像1与图像3之间对象的重叠率高于图像1与图像2之间对象的重叠率，也就是说，图像3相比较图像2而言与图像1更相似。

结合实施例对上述步骤102即“利用训练数据对预训练模型进行多任务训练，多任务包括：至少一个跨模态对比学习任务和至少一个单模学习任务”进行详细描述。

假设训练数据包括：图像、文本以及图-文对。

对于被表示为

的文本，被拆分为各Token构成序列作为预训练语言模型的输入，表示为{[CLS],

,[SEP]}。其中，特殊符号[CLS]和[SEP]分别表示序列的起始位置和结束位置，

为正整数。经过预训练语言模型的多层注意力机制后，得到各Token对应的语义表示，体现为向量表示的序列{

}。

对于被表示为

的图像，可以通过目标检测工具检测出图像所包含的对象区域，将各对象区域的特征作为各Token连同整个图像的特征构成序列作为预训练语言模型的输入，表示为{[Image],

}，

为正整数。其中[Image]表示整个图像的特征。上述特征可以是对应图像或区域经过线性变换或神经网络变换得到的特征。经过预训练语言模型的多层注意力机制后，得到各Token对应的语义表示，体现为向量表示的序列{

}。

对于被表示为(

,

)的图-文对，将

和

的各Token拼接起来构成序列作为预训练语言模型的输入，表示为

{[Image],

,[CLS],

,[SEP]}

经过预训练语言模型的多层注意力机制后，得到各Token对应的语义表示，体现为向量表示的序列：

{

,

}

对于被表示为(

,

)的图-文对，还可以分别将

和

的序列作为输入，由预训练语言模型分别得到

的向量表示和

的向量表示。

在跨模态对比学习任务中，主要思想是使得含义相同的图-文对即正例图-文对在语义空间上更加接近，含义不同的图-文对即负例图-文对在语义空间上距离更远。即训练目标为最大化正例图-文对中图像和文本之间的相似度，最小化负例图-文对中图像和文本之间的相似度。

作为一种优选的实施方式，可以对改写扩展方式和检索扩展方式得到的图-文对在计算相似度的方式上进行区分。

其中，对于改写扩展得到的图-文对中图像和文本之间的相似度采用如下方式确定：将图像和文本进行拼接，将预训练模型对拼接后语料得到的向量表示映射为相似度取值。这种相似度计算方式被称为“单流式”。这种方式下，图像的序列和文本的序列是进行拼接后输入预训练模型的。预训练模型针对拼接后得到的序列得到整体的向量表示，经过对该向量表示进行映射（例如Softmax）后，得到相似度取值。

对于检索扩展得到的图-文对中图像和文本之间的相似度采用如下方式确定：将预训练模型对图像得到的向量表示和预训练模型对文本得到的向量表示进行相似度计算，例如计算两个向量表示之间的余弦相似度。这种相似度计算方式被称为“双塔式”。在这种方式下，图-文对中的图像的序列（由图像所包含各Token构成的序列）和文本的序列（由文本所包含各Token构成的序列）是分别输入预训练模型，由预训练模型分别得到图像的向量表示和文本的向量表示。

之所以对改写扩展方式和检索扩展方式得到的图-文对在计算相似度的方式上进行区分，是因为“单流式”的相似度计算方式是将图像和文本拼接后进行强相关的映射，这种方式更适用于进行“区分”，即区分出改写方式得到的图-文对和原始正例的图-文对。而检索扩展得到的图像或文本是作为原始图-文对的“背景知识”存在的正例图-文对。“双塔式”的相似度计算方式是将图像和文本分别进行编码后通过距离进行弱相关的计算，这种方式适用于更好地理解图像或文本的内容，因此检索扩展方式更适合于“双塔式”的相似度计算方式，其能够使得预训练模型能够更好地理解图像或文本的内容。

而训练数据中原始的图-文对则可以采用上述相似度计算方式中的任意一种。

如图2中所示，在跨模态对比学习任务中，可以根据上述两种相似度确定方式构造损失函数。例如，可以采用如下损失函数

：

其中，E是指取期望值的运算函数，

和

表示通过改写扩展得到的正例图-文对和负例图-文对，

和

表示通过检索扩展得到的正例图-文对和负例图-文对。

表示相似度函数。

表示训练数据集，在本损失函数中具体指图-文对语料的数据集。

和

分别表示正例图-文对中的文本和图像。

和

分别表示既可以取自正例图-文对中的文本和图像，也可以取自负例图-文对中的文本和图像。

如图2中所示，单模学习任务中包括视觉学习任务和文本学习任务。

视觉学习任务是针对图像进行的学习。在视觉学习任务中，采用类似掩码语言模型的方法。从图像中随机选取一部分区域进行掩码（Mask），利用预训练模型对未被Mask的区域的向量表示重建被Mask的区域，训练目标为最小化重建的区域与图像中被Mask的区域的差异。

例如，可以构建视觉学习任务的损失函数

：

其中，

为图像

中被Mask的区域，

为图像

中未被Mask的区域，

为KL距离（相对熵）函数，

表示训练数据集，在本损失函数中可以具体指图像语料的数据集，也可以进一步包括图-文对语料的数据集中的图像。

类似地，对于图-文对，可以将图-文对中的图像进行一部分区域的Mask，利用预训练模型对文本的向量表示和对图像中未被Mask的区域的向量表示重建图像中被Mask的区域，训练目标为最小化重建的区域与图像中未被Mask的区域的差异。

此时，构建视觉学习任务的损失函数可以为：

其中，图像

和文本

构成图-文对，

文本学习任务是针对文本进行的学习。在文本学习任务中，可以仍然采用类似掩码语言模型的方法。从单模语料的文本中随机选取一部分Token进行Mask，利用预训练模型对未被Mask的Token的向量表示还原被Mask的Token。训练目标定位最小化还原的Token与文本中被Mask的Token的差异。

其中上述还原可以采用预测模型实现，也可以采用生成模型实现。当采用预测模型实现时，可以是双向预测模型，采用的损失函数

可以是：

其中，

为文本

中被Mask的Token，

为文本

中未被Mask的Token，

为似然函数，

表示训练数据集，在本损失函数中可以具体指文本语料的数据集，还可以进一步包括图-文对语料的数据集中的文本。

当采用生成模型实现时，可以是序列生成模型。在采用序列生成模型时，需要从文本

中随机选择一部分连续的Token，记为

，

，剩余的Token记为

。这种情况下，采用的损失函数

可以是：

其中，

表示训练数据集，在本损失函数中具体指文本语料的数据集，还可以进一步包括图-文对语料的数据集中的文本。

类似地，在文本学习任务中也可以针对图-文对(

,

)中的文本

进行学习，文本中随机选取一部分Token进行Mask，利用预训练模型对未被Mask的Token的向量表示以及图-文对中的图像

的向量表示还原被Mask的Token。训练目标定位最小化还原的Token与文本中被Mask的Token的差异。

同样地，上述还原可以采用预测模型实现，也可以采用生成模型实现。当采用预测模型实现时，可以是双向预测模型，采用的损失函数

可以是：

其中，

当采用生成模型实现时，可以是序列生成模型。采用的损失函数

可以是：

其中，

在进行上述多任务训练时，如图2中所示，可以采用联合训练的方式。作为一种优选的实施方式，可以利用各任务的损失函数构建总损失函数，利用构建的总损失函数更新预训练模型的参数。例如，可以构建总的损失函数

为：

除了上述联合训练的方式之外，也可以采用交替训练的方式。例如，各训练任务依次交替训练，各训练任务在训练时采用各自的损失函数。

除了联合训练和交替训练的方式之外，也可以采用依次训练的方式。例如先对利用跨模态对比学习任务进行训练。训练结束后，在训练得到的预训练模型的基础上再进行视觉学习任务。训练结束后，在训练得到的预训练模型的基础上再进行文本学习任务，最终得到预训练模型。训练过程中各训练任务采用各自的损失函数。

在完成预训练模型的训练后，还可以挂接下游任务，并根据该下游任务对应的训练数据对预训练模型进行微调。其中下游任务可以是诸如：单模数据的分类任务、多模态的理解和生成任务、单模态数据的理解和生成任务，等等。例如，下游任务可以是文本分类任务、图像分类任务、针对图像生成问答的任务，针对文本生成图像的任务等等。

由以上描述可以看出，上述方法实施例可以具备以下优点：

1）本公开实施例得到的预训练语言模型可以从不同形式的语料即包括单模语料、多模语料中学习，使得预训练语言模型能够有效地处理各种不同模态的信息。

2）在学习过程中不同模态语料之间互相增强，使得得到的预训练语言模型具有更好的语义理解能力和可泛化的表示。这对于人工智能技术思路的革新是具有巨大创新意义的。

3）可以充分利用网络上大量的非配对文本语料库和图像集合，学习更多可概括的文本和视觉表征，提高视觉和语言理解和生成能力。

以上是对本公开所提供方法进行的详细描述，下面结合实施例对本公开提供的装置进行详细描述。

图4为本公开实施例提供的预训练模型的获取装置的结构示意图，如图4中所示，该装置400包括：获取单元401和训练单元402，还可以进一步包括扩展单元403。其中各组成单元的主要功能如下：

获取单元401，用于获取训练数据，训练数据包括单模语料和多模语料，其中多模语料包括第一模态语料和第二模态语料构成的语料对。

训练单元402，用于利用训练数据对预训练模型进行多任务训练，多任务包括：至少一个跨模态对比学习任务和至少一个单模学习任务。

其中跨模态对比学习任务包括：利用预训练模型对多模语料中第一模态语料的向量表示和第二模态语料的向量表示，确定多模语料中第一模态语料和第二模态语料之间的相似度；训练目标为最大化正例多模语料中第一模态语料和第二模态语料之间的相似度，最小化负例多模语料中第一模态语料和第二模态语料之间的相似度。

扩展单元403，用于对训练数据中的多模语料进行改写扩展和检索扩展中的至少一种，将扩展得到的多模语料添加至训练数据中。

其中，上述检索扩展包括：将正例多模语料中的第一模态语料在第一模态语料库中进行检索，利用检索得到的语料与该正例多模语料中的第二模态语料构建新的正例多模语料。

上述改写扩展包括：若正例多模语料中的第一模态语料为第一语种的文本，则利用翻译模型将该第一语种的文本翻译为第二语种的文本后再翻译回第一语种，将翻译后得到的第一语种的文本与该正例多模语料中的第二模态语料构建新的正例多模语料；或者，

将正例多模语料中的第一模态语料解析为场景图，随机替换掉场景图中的实体、属性和关系中的至少一种，将替换后得到的场景图转换回第一模态语料，将转换后得到的第一模态语料与该正例多模语料中的第二模态语料构建新的负例多模语料。

作为一种可实现的方式，训练单元402在执行跨模态对比学习任务中，对于检索扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定：将预训练模型对第一模态语料得到的向量表示和预训练模型对第二模态语料得到的向量表示进行相似度计算；对于改写扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定：将第一模态语料和第二模态语料进行拼接，将预训练模型对拼接后语料得到的向量表示映射为相似度取值。

训练单元402，还用于在执行单模学习任务时，进一步利用预训练模型对多模语料中第一模态语料中第一部分内容的向量表示以及第二模态语料的向量表示，预测该第一模态语料中第二部分内容；训练目标为最小化预测得到的第二部分内容与该第一模态语料中第二部分内容的差异。

具体地，训练单元402可以在进行多任务训练时，利用构建的总损失函数更新预训练模型的参数。其中，总损失函数由至少一个跨模态对比学习任务的损失函数和至少一个单模学习任务的损失函数之和得到。

上述装置中各单元的具体处理方式可以参见前述方法实施例中的相关描述，在此不做赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图5所示，是根据本公开实施例的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器（ROM）502中的计算机程序或者从存储单元508加载到随机访问存储器（RAM）503 中的计算机程序，来执行各种适当的动作和处理。在 RAM 503 中，还可存储设备 500 操作所需的各种程序和数据。计算单元 501、ROM 502 以及 RAM 503 通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如预训练模型的获取方法。例如，在一些实施例中，预训练模型的获取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。

在一些实施例中，计算机程序的部分或者全部可以经由 ROM 802 和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到 RAM 503并由计算单元501执行时，可以执行上文描述的预训练模型的获取方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行预训练模型的获取方法。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上***的***（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控30 制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM 或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种预训练模型的获取方法，包括：

2.根据权利要求1所述的方法，其中，所述单模语料包括：图像和文本；所述多模语料包括图像-文本对。

3.根据权利要求1所述的方法，还包括：

对所述训练数据中的多模语料进行改写扩展和检索扩展中的至少一种，将扩展得到的多模语料添加至所述训练数据中。

4.根据权利要求3所述的方法，其中，所述改写扩展包括：

若正例多模语料中的第一模态语料为第一语种的文本，则利用翻译模型将该第一语种的文本翻译为第二语种的文本后再翻译回第一语种，将翻译后得到的第一语种的文本与该正例多模语料中的第二模态语料构建新的正例多模语料；或者，

将正例多模语料中的第一模态语料解析为场景图，随机替换掉所述场景图中的实体、属性和关系中的至少一种，将替换后得到的场景图转换回第一模态语料，将转换后得到的第一模态语料与该正例多模语料中的第二模态语料构建新的负例多模语料。

5.根据权利要求3所述的方法，其中，所述检索扩展包括：

6.根据权利要求3、4或5所述的方法，其中，在所述跨模态对比学习任务中，对于检索扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定：将所述预训练模型对第一模态语料得到的向量表示和所述预训练模型对第二模态语料得到的向量表示进行相似度计算；

对于改写扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定：将第一模态语料和第二模态语料进行拼接，将所述预训练模型对拼接后语料得到的向量表示映射为相似度取值。

7.根据权利要求1所述的方法，其中，所述单模学习任务还包括：

利用所述预训练模型对所述多模语料中第一模态语料中第一部分内容的向量表示以及第二模态语料的向量表示，预测该第一模态语料中第二部分内容；训练目标为最小化预测得到的第二部分内容与该第一模态语料中第二部分内容的差异。

8.根据权利要求1所述的方法，其中，在所述多任务训练时，利用构建的总损失函数更新所述预训练模型的参数；

所述总损失函数由所述至少一个跨模态对比学习任务的损失函数和所述至少一个单模学习任务的损失函数之和得到。

9.一种预训练模型的获取装置，包括：

10.根据权利要求9所述的装置，其中，所述单模语料包括：图像和文本；所述多模语料包括图像-文本对。

11.根据权利要求9所述的装置，还包括：

扩展单元，用于对所述训练数据中的多模语料进行改写扩展和检索扩展中的至少一种，将扩展得到的多模语料添加至所述训练数据中。

12.根据权利要求11所述的装置，其中，所述扩展单元在执行所述改写扩展时，具体用于：

13.根据权利要求11所述的装置，其中，所述扩展单元在执行所述检索扩展时，具体用于：

14.根据权利要求11、12或13所述的装置，其中，所述训练单元在执行所述跨模态对比学习任务中，对于检索扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定：将所述预训练模型对第一模态语料得到的向量表示和所述预训练模型对第二模态语料得到的向量表示进行相似度计算；对于改写扩展得到的多模语料中第一模态语料和第二模态语料之间的相似度采用如下方式确定：将第一模态语料和第二模态语料进行拼接，将所述预训练模型对拼接后语料得到的向量表示映射为相似度取值。

15.根据权利要求9所述的装置，其中，所述训练单元，还用于在执行所述单模学习任务时，进一步利用所述预训练模型对所述多模语料中第一模态语料中第一部分内容的向量表示以及第二模态语料的向量表示，预测该第一模态语料中第二部分内容；训练目标为最小化预测得到的第二部分内容与该第一模态语料中第二部分内容的差异。

16.根据权利要求9所述的装置，其中，所述训练单元，具体用于在进行所述多任务训练时，利用构建的总损失函数更新所述预训练模型的参数；

17. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。