CN114972823A

CN114972823A - 数据处理方法、装置、设备及计算机介质

Info

Publication number: CN114972823A
Application number: CN202210671652.2A
Authority: CN
Inventors: 张新松; 刁诗哲; 周王春澍; 王嘉伟
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-08-30
Also published as: WO2023241410A1

Abstract

本申请公开了一种数据处理方法、装置、设备，及计算机介质，方法包括：获取包括互相匹配的待处理文本特征信息与待处理图像特征信息的待处理图文特征信息；待处理文本特征信息或待处理图像特征信息中包含掩码标识；基于初始向量生成规则，对待处理图文特征信息进行处理得到第一向量信息组与第二向量信息组；通过初始编码规则对第一向量信息组与第二向量信息组进行编码得到融合向量信息组；通过初始解码规则对融合向量信息组进行解码得到掩码标识对应的预测结果；基于预测结果与掩码标识对初始预训练模型进行训练得到目标预训练模型。提高了当需要训练对应多种任务的任务处理模型时，训练相应的预训练模型的训练效率。

Description

数据处理方法、装置、设备及计算机介质

技术领域

本申请属于人工智能领域，尤其涉及一种数据处理方法、装置、设备及计算机介质。

背景技术

目前，相关技术中的预训练模型，一般仅关注单一的任务类别的任务的处理，其中，任务类别可以为：涉及文本理解任务、视觉理解任务、多模态理解任务、图像到文本生成任务和文本到图像生成任务。多模态理解任务是同时理解视觉信息和语言信息来解决视觉问答、视觉推理和视觉蕴含等任务。图像到文本生成任务是需要理解输的图像信息生成相应的文本描述。文本到图像生成任务是需要根据输的文本信息生成相应的图像。当需要完成多种类别的任务时，相关技术中，需要训练各类别的任务对应的任务处理模型，与各类别的任务对应的预训练模型，预训练模型的训练效率较低。

发明内容

本申请实施例提供一种与现有技术不同的实现方案，以解决现有技术中，当需要训练对应多种任务的任务处理模型时，训练相应的预训练模型的训练效率较低的技术问题。

第一方面，本申请提供一种数据处理方法，包括：获取待处理图文特征信息，所述待处理图文特征信息包括待处理文本特征信息与待处理图像特征信息；所述待处理文本特征信息或所述待处理图像特征信息中包含掩码标识，所述待处理文本特征信息与所述待处理图像特征信息匹配；

基于初始向量生成规则生成所述待处理文本特征信息对应的第一向量信息组，以及所述待处理图像特征信息对应的第二向量信息组；

通过初始编码规则对所述第一向量信息组与所述第二向量信息组进行编码，得到对应的融合向量信息组；其中，所述融合向量信息组包括多个融合向量信息，各融合向量信息与所述第一向量信息组以及所述第二向量信息组相关；

通过初始解码规则对所述融合向量信息组进行解码，得到所述掩码标识对应的预测结果；

基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型，所述目标预训练模型用于根据获取到的目标任务类别训练所述目标任务类别对应的目标任务处理模型。

第二方面，本申请提供一种模型训练方法，包括：

获取目标任务类别，与所述目标任务类别对应的样本任务信息，所述样本任务信息包括样本任务输入信息，以及所述样本任务输入信息对应的样本任务结果标签；

获取目标预训练模型中的多个候选单元，所述多个候选单元包括：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元，以及第一目标交叉模态解码单元；

根据预设对应关系，从所述多个候选单元中，确定出所述目标任务类别对应的目标单元；

基于所述目标单元构建所述目标任务类别对应的初始任务处理模型；

利用所述样本任务信息对所述初始任务处理模型进行训练，得到用于完成所述目标任务类别对应的目标任务的目标任务处理模型；

其中，所述目标预训练模型为通过前述数据处理方法中的初始预训练模型训练得出的。

第三方面，本申请提供一种任务处理方法，包括：

获取目标任务类别的目标任务信息，所述目标任务信息包括目标任务输入信息；

根据所述目标任务类别确定对应的目标任务处理模型；

将所述目标任务输入信息输入所述目标任务处理模型，得到对应所述目标任务类别与所述目标任务输入信息的目标任务处理结果；

其中，所述目标任务处理模型为通过前述模型训练方法训练得出的。

第四方面，本申请提供一种数据处理装置，包括：

获取单元，用于获取待处理图文特征信息，所述待处理图文特征信息包括待处理文本特征信息与待处理图像特征信息；所述待处理文本特征信息或所述待处理图像特征信息中包含掩码标识，所述待处理文本特征信息与所述待处理图像特征信息匹配；

生成单元，用于基于初始向量生成规则生成所述待处理文本特征信息对应的第一向量信息组，以及所述待处理图像特征信息对应的第二向量信息组；

编码单元，用于通过初始编码规则对所述第一向量信息组与所述第二向量信息组进行编码，得到对应的融合向量信息组；其中，所述融合向量信息组包括多个融合向量信息，各融合向量信息与所述第一向量信息组以及所述第二向量信息组相关；

解码单元，用于通过初始解码规则对所述融合向量信息组进行解码，得到所述掩码标识对应的预测结果；

确定单元，用于基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型，所述目标预训练模型用于根据获取到的目标任务类别训练所述目标任务类别对应的目标任务处理模型。

第五方面，本申请提供一种模型训练装置，包括：

获取单元，用于获取目标任务类别，与所述目标任务类别对应的样本任务信息，所述样本任务信息包括样本任务输入信息，以及所述样本任务输入信息对应的样本任务结果标签；以及用于获取目标预训练模型中的多个候选单元，所述多个候选单元包括：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元，以及第一目标交叉模态解码单元；

确定单元，用于根据预设对应关系，从所述多个候选单元中，确定出所述目标任务类别对应的目标单元；

构建单元，用于基于所述目标单元构建所述目标任务类别对应的初始任务处理模型；

训练单元，用于利用所述样本任务信息对所述初始任务处理模型进行训练，得到用于完成所述目标任务类别对应的目标任务的目标任务处理模型；

其中，所述目标任务处理模型为通过前述模型训练方法中的初始预训练模型训练得出的。

第六方面，本申请提供一种任务处理装置，包括：

获取单元，用于获取目标任务类别的目标任务信息，所述目标任务信息包括目标任务输入信息；

确定单元，用于根据所述目标任务类别确定对应的目标任务处理模型；

输入单元，用于将所述目标任务输入信息输入所述目标任务处理模型，得到对应所述目标任务类别与所述目标任务输入信息的目标任务处理结果；

第七方面，本申请提供一种电子设备，包括：

处理器；以及

存储器，用于存储处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行第一方面、第二方面、第三方面、第一方面各可能的实施方式、第二方面各可能的实施方式、或第三方面各可能的实施方式中的任一方法。

第八方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第一方面、第二方面、第三方面、第一方面各可能的实施方式、第二方面各可能的实施方式、或第三方面各可能的实施方式中的任一方法。

本申请通过获取待处理图文特征信息，所述待处理图文特征信息包括待处理文本特征信息与待处理图像特征信息；所述待处理文本特征信息或所述待处理图像特征信息中包含掩码标识，所述待处理文本特征信息与所述待处理图像特征信息匹配；基于初始向量生成规则生成所述待处理文本特征信息对应的第一向量信息组，以及所述待处理图像特征信息对应的第二向量信息组；通过初始编码规则对所述第一向量信息组与所述第二向量信息组进行编码，得到对应的融合向量信息组；其中，所述融合向量信息组包括多个融合向量信息，各融合向量信息与所述第一向量信息组以及所述第二向量信息组相关；通过初始解码规则对所述融合向量信息组进行解码，得到所述掩码标识对应的预测结果；基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型，所述目标预训练模型用于根据获取到的目标任务类别训练所述目标任务类别对应的目标任务处理模型的方案，将针对与图像匹配的文本，以及图像本身的处理过程，统一到了同一预训练模型中，且用于训练目标预训练模型的样本数据涉及多模态的信息，通过本申请的方案训练得出的预训练模型，可为多种任务处理模型的训练提供素材，从而提高了当需要训练对应多种任务的任务处理模型时，训练相应的预训练模型的训练效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本申请一实施例提供的数据处理***的结构示意图；

图2a为本申请一实施例提供的数据处理方法的流程示意图；

图2b为本申请一实施例提供的数据处理方法的另一流程示意图；

图2c为本申请一实施例提供的数据处理方法的另一流程示意图；

图3a为本申请一实施例提供的模型训练方法的流程示意图；

图3b为本申请一实施例提供的目标单元的确定方式的示意图；

图3c为本申请一实施例提供的目标任务类别为分析图像对应的语义识别结果，对图像进行分类时，对应的目标任务处理结果的示例图；

图3d为本申请一实施例提供的目标任务类别为根据图文信息回答问题时，对应的目标任务处理结果的示例图；

图3e为本申请一实施例提供的目标任务类别为判断文字是否正确描述了图像对时，对应的目标任务处理结果的示例图；

图3f为本申请一实施例提供的目标任务类别为给出一张图像和一个文本描述，判断图像和文本之间的关系是蕴含、矛盾还是中立的任务时，对应的目标任务处理结果的示例图；

图3g为本申请一实施例提供的目标任务类别为给定一张图像，输出该图像的文本描述时，对应的目标任务处理结果的示例图；

图3h为本申请一实施例提供的目标任务类别为给定一段文本描述，输出该文本描述对应的图像时，对应的目标任务处理结果的示例图；

图3i为本申请一实施例提供的通过本申请的模型训练方法训练得出的目标任务处理模型，针对给定一段文本描述，输出该文本描述的图像的目标任务处理结果与相关技术中基于DALLE，以及OFA对应的模型确定出的目标任务处理结果的对比情况；

图4为本申请一实施例提供的任务处理方法的流程示意图；

图5为本申请一实施例提供的数据处理装置的结构示意图；

图6为本申请一实施例提供的模型训练装置的结构示意图；

图7为本申请一实施例提供的任务处理装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请实施例的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，下面对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

MIM:Masked Image Model，掩码视觉模型。

MLM:Masked Language Model，掩码语言模型。

FLAVA:A Foundational Language And Vision Alignment Model，基础语言和视觉对齐模型。

CLIP：Contrastive Language–Image Pre-training，对比文本-图像预训练模型。是一个基于图像和文本并行的多模态模型，然后通过两个分支的特征向量的相似度计算来构建训练目标。

SimVLM：Simple Visual Language Model Pre-training with WeakSupervision,弱监督简单视觉语言模型预训练。

MNLI：Multi-Genre Natural Language Inference，文本蕴含识别。

CoLA：The Corpus of Linguistic Acceptability，语言可接受语料库，有关语法的数据集，该任务主要是对一个给定句子，判定其是否语法正确。

MRPC：Microsoft Research Paraphrase Corpus，微软研究释义语料库，判断两个给定句子，是否具有相同的语义，属于句子对的文本二分类任务。

QQP：Quora Question Pairs，文本匹配，是由Quora发布的两个句子是否语义一致的数据集，属于句子对的文本二分类任务。

SST：The Stanford Sentiment Treebank，斯坦福情感分析数据集，主要针对电影评论来做情感分类，因此SST属于单个句子的文本分类任务(其中SST-2是二分类，SST-5是五分类，SST-5的情感极性区分的更细致)。

QNLI：Question Natural Language Inference，自然语言问题推理，其前身是SQuAD 1.0数据集，给定一个问句，需要判断给定文本中是否包含该问句的正确答案。属于句子对的文本二分类任务。

RTE:Recognizing Textual Entailment，文本蕴含识别模型，和MNLI类似，也是一个文本蕴含任务，不同的是MNLI是三分类，RTE只需要判断两个句子是否能够推断或对齐，属于句子对的文本二分类任务。

STS-B：the semantic textual similarity benchmark，语义文本相似度数据集。

ImageNet：是一个用于视觉对象识别软件研究的大型可视化数据库。

Food-101数据集：本数据集包含了101种食品类别的图像数据集，共有101,000张图像，平均每个类别拥有250张测试图像和750张训练图像。训练图像未经过数据清洗。所有图像都已经重新进行了尺寸缩放，最大边长达到了512像素。

CIFAR-10数据集：是一个用于识别普适物体的小型数据集。一共包含10个类别的RGB彩色图片，数据集中一共有50000张训练图像和10000张测试图像。

CIFAR100数据集：有100个类。每个类有600张彩色图像，其中500张作为训练集，100张作为测试集。

Cars：汽车数据集。

Aircraft数据集：该数据集包含10,200架飞机的图像，其中102种不同飞机，每一种都具有100张图像。

DTD，Describable Textures Dataset，纹理识别数据集。

Pets数据集，是Oxford提供的宠物数据集，内含约7000张猫狗图像，并且其中一部分图像标出了猫狗脸的位置。

Flowers102数据集：本数据集包含102种花类的图像数据集，每个类别包含40—258张图像。这些图像在比例、姿势以及光照方面有着丰富的变化。

MNIST数据集：是一个手写体数字的图像数据集。

STL-10数据集：是一个用于开发无监督特征学习、深度学习、自学学习算法的图像识别数据集。

Country211，国家统计数据集。

VQA_v2：visual question answering，视觉问答任务第2版本，形式是给一个图像和一个关于这张图像的问题，输出一个答案。

SNLI-VE,The Stanford Natural Language Inference,斯坦福自然语言推理语料库是一个50万标记英语句子对。

NLVR2为康奈尔大学研究团队推出的包含107,292个以成对照片为基础的人类书面英语句子的例子的数据集。

OFA模型，OFA(Unifying architectures,tasks,modalities through a simplesequence-to-sequence learning framework)是一个多任务训练框架，将不同的任务统一到序列到序列的训练目标，通过同时训练多个下游多模态任务来达到预训练的目的。该模型需要使用下游任务的标注数据，因此在可扩展性和方案可操作性方面存在缺陷。。

DALL.E模型，是一个文本生成图像的模型，通过将图像离散化之后使用图像token和文本token联合建模的技术，达到从文本生成图片的目的。

前缀语言模型，是一个从前至后的语言模型，可根据输入图像和前缀文本生成剩余文本，以及根据输入文本和前缀图像生成剩余图像。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请一示例性实施例提供的一种数据处理***的结构示意图，该结构包括：任务处理设备11与模型训练设备12；其中，任务处理设备11与模型训练设备12都可以为计算机设备，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、智能语音交互设备、智能家电、穿戴式智能设备、飞行器、智能车载终端等设备，终端还可以包括客户端，该客户端可以是视频客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

可选地，任务处理设备11用于：

根据所述目标任务类别确定对应的目标任务处理模型；

其中，所述目标任务处理模型通过前述模型训练方法训练得出。

具体地，模型训练设备12可用于对初始预训练模型进行训练得到目标预训练模型，以及对初始任务处理模型进行训练得出前述目标任务处理模型。

可选地，模型训练设备12在用于对初始预训练模型进行训练得到目标预训练模型时，具体用于：

获取待处理图文特征信息，所述待处理图文特征信息包括待处理文本特征信息与待处理图像特征信息；所述待处理文本特征信息或所述待处理图像特征信息中包含掩码标识，所述待处理文本特征信息与所述待处理图像特征信息匹配；

进一步地，当模型训练设备12用于对初始任务处理模型进行训练得出前述目标任务处理模型时，具体用于：

其中，所述目标预训练模型为基于前述初始预训练模型训练得出的。

本***实施例中的各组成单元，如任务处理设备11与模型训练设备12的执行原理及交互过程可参见如下各方法实施例的描述。

图2a为本申请一示例性实施例提供的一种数据处理方法的流程示意图，该方法可适用于模型训练设备，用于将初始预训练模型训练为目标预训练模型，该方法至少包括以下S201-S205：

S201、获取待处理图文特征信息，所述待处理图文特征信息包括待处理文本特征信息与待处理图像特征信息；所述待处理文本特征信息或所述待处理图像特征信息中包含掩码标识，所述待处理文本特征信息与所述待处理图像特征信息匹配；

具体地，其中，掩码标识可以为预设的标识，例如可以为预设的***数值0，针对待处理图文特征信息的确定方式，所述方法还包括以下步骤S01-S04：

S01、获取样本图文信息，所述样本图文信息包括样本文本信息与样本图像信息，所述样本文本信息与样本图像信息匹配；

可选地，样本文本信息与样本图像信息匹配指：样本文本信息所指的内容，与样本图像信息所指的内容相关；例如，样本文本信息所指的内容为“小狗”，样本图像信息所指的内容为小狗的图像。

又例如，当样本文本信息所指的内容为：“The Last Supper of Jesus with theTwelve Aposities,painting by Leonardo daVinci”时，样本图像信息所指的内容为图像《最后的晚餐》。

S02、根据所述样本文本信息与预设词库确定所述样本文本信息中的各字符在预设词库中的标记信息，得到所述样本文本信息对应的标记信息组；

S03、按照第一预设编码规则对所述样本图像信息进行编码，得到所述样本图像信息对应的初始向量信息组；

在本申请的一些可选的实施例中，参见图2b与图2c所示，初始预训练模型包括预处理单元，所述预处理单元中包含查表单元与第一图像编码器；可通过查表单元执行前述S02，以及前述第一预设编码规则可内置于第一图像编码器中，通过第一图像编码器执行前述S03。

标记信息组中包含多个标记信息，各标记信息与样本文本信息中的字符一一对应。可选地，标记信息可以为：地址信息、索引信息，位置信息等。

标记信息组中包含的多个标记信息都可以为***数值，例如，可以为图2b与图2c中的：a1 a2 a3 a4 a5 a6 a7 a8 a9,a10 a11 a12 a13 a14，其中，a1、a2、a3、a4、a5、a6、a7、a8、a9、a10、a11、a12、a13，以及a14可以为***数值，并且，多个标记信息之间不一定连续。

其中，第一图像编码器用于对样本图像信息进行特征提取，其具体可包括拆分模块与编码模块，可将样本图像信息拆分为预设数目的多个子图像；然后再基于编码模块与该多个子图像确定对应的多个初始向量信息，该多个初始向量信息组成了初始向量信息组。可选地，初始向量信息与子图像一一对应。

初始向量信息组中包含的多个初始向量信息可以为数值向量，具体可以为图2c中的：b1 b2 b3 b4 b5 b6 b7 b8 b9。

S04、基于预设掩码规则对所述标记信息组中的部分标记信息，或对初始向量信息组中的部分初始向量信息进行掩码处理，得到所述待处理图文特征信息。

可选地，初始预训练模型还包括掩码处理单元，前述预设掩码规则可内置于掩码处理单元，预设掩码规则可包括第一掩码规则与第二掩码规则；通过内置有预设掩码规则的掩码处理单元对所述标记信息组中的部分标记信息进行掩码处理时，具体可通过掩码处理单元中的内置有第一掩码规则的第一掩码处理模块，对所述标记信息组中的部分标记信息进行掩码处理，此时，待处理图像特征信息与初始向量信息组中的多个初始向量信息相同，对所述标记信息组中的部分标记信息进行掩码处理后，得到部分标记信息被掩码后的掩码标识，与标记信息中未被掩码处理的剩余标记信息；掩码标识与剩余标记信息的总和，则为待处理文本特征信息。此时，待处理图文特征信息可参见图2b中的待处理图文特征信息1。

其中，被掩码处理的部分标记信息中包含的标记信息的数量，与掩码标识的数量相同。

当通过内置有预设掩码规则的掩码处理单元，对所述初始向量信息组中的部分初始向量信息进行掩码处理时，具体可通过掩码处理单元中的内置有第二掩码规则的第二掩码处理模块对所述初始向量信息组中的部分初始向量信息进行掩码处理，此时，待处理文本特征信息与标记信息组中的多个标记信息相同，对所述初始向量信息组中的部分初始向量信息进行掩码处理后，得到部分初始向量信息被掩码后的掩码标识，与初始向量信息组中未被掩码处理的剩余初始向量信息；掩码标识与剩余初始向量信息的总和，则为待处理图像特征信息。此时，待处理图文特征信息可参见图2c中的待处理图文特征信息2。

其中，被掩码处理的部分初始向量信息中包含的初始向量信息的数量，与掩码标识的数量相同。

可选地，通过掩码处理单元，对所述标记信息组中的部分标记信息进行掩码处理，或对所述初始向量信息组中的部分初始向量信息进行掩码处理时，可从后往前做随机长度，或随机比例的掩码。

可选地，样本文本信息与样本图像信息匹配时，视为待处理文本特征信息与所述待处理图像特征信息匹配。

可选地，第一掩码处理模块与第二掩码处理模块可以为同一模块，也可以不为同一模块，对此，本申请不做限定。具体地，通过所述掩码处理单元对所述标记信息组中的部分标记信息进行掩码处理的示例可参见图2b所示，图2b中，标记信息组：a1 a2 a3 a4 a5a6 a7 a8 a9,a10 a11 a12 a13 a14中的部分标记信息：a5 a6 a7 a8 a9,a10 a11 a12a13 a14 为被掩码内容。

通过内置有预设掩码规则的掩码处理单元对所述初始向量信息组中的部分初始向量信息进行掩码处理的示例可参见图2c所示，图2c中，初始向量信息组：b1 b2 b3 b4 b5b6 b7 b8 b9中的部分初始向量信息b6 b7 b8 b9为掩码内容。

S202、基于初始向量生成规则生成所述待处理文本特征信息对应的第一向量信息组，以及所述待处理图像特征信息对应的第二向量信息组；

例如，第一向量信息组包括多个第一向量信息，可选地，参见图2b与图2c所示，前述初始预训练模型还可以包括初始向量生成单元，前述初始向量生成规则，内置于初始向量生成单元中，具体可通过初始向量生成单元执行前述S202。

前述多个第一向量信息可以为图2b与图2c中的t₁、t₂、...、t_n；第二向量信息组包括多个第二向量信息，该多个第二向量信息可以为2b与图2c中的v₁、v₂、...、v_m。

具体地，前述初始向量生成规则包括第一向量生成规则与第二向量生成规则。可通过初始向量生成单元中内置有第一向量生成规则的第一向量生成模块对所述待处理文本特征信息进行处理，得到所述待处理文本特征信息对应的第一向量信息组；通过初始向量生成单元中内置有第二向量生成规则的第二向量生成模块对所述待处理图像特征信息进行处理，得到所述待处理图像特征信息对应的第二向量信息组。其中，第二向量生成模块可以包括Resnet101中的前三层网络。

其中，第一向量生成模块可以对待处理文本特征信息进行位置嵌入，以及归一化处理，相应地，第二向量生成模块可以对待处理图像特征信息进行位置嵌入，以及归一化处理。

S203、通过初始编码规则对所述第一向量信息组与所述第二向量信息组进行编码，得到对应的融合向量信息组；其中，所述融合向量信息组包括多个融合向量信息，各融合向量信息与所述第一向量信息组以及所述第二向量信息组相关；

可选地，初始预训练模型可包括初始交叉模态编码单元，前述初始编码规则可内置于初始交叉模态编码单元中，具体可通过初始交叉模态编码单元执行前述S203。

具体地，初始编码规则可包括拼接规则与交叉模态编码规则。

参见图2b与图2c所示，初始交叉模态编码单元中可包括内置有拼接规则的拼接单元与内置有交叉模态编码规则的交叉模态编码器；其中，拼接单元，用于将第一向量信息组与第二向量信息组进行拼接，得到拼接向量，交叉模态编码器用于对所述拼接向量进行编码，得到所述融合向量信息组。

其中，拼接向量可以为图2b与图2c中的：v₁、v₂、...、v_m、t₁、t₂、...、t_n，或t₁、t₂、...、t_n、v₁、v₂、...、v_m。融合向量信息组包含的多个融合向量信息包括：h₁、h₂、...、h_l，其中，l＝m+n。

S204、通过初始解码规则对所述融合向量信息组进行解码，得到所述掩码标识对应的预测结果；

其中，预测结果中可包括待处理文本特征信息对应的预测文本特征信息，或待处理图像特征信息对应的预测图像特征信息。

可选地，参见图2b与图2c所示，初始预训练模型还包括初始交叉模态解码单元，前述初始解码规则可内置于初始交叉模态解码单元。具体可通过初始交叉模态解码单元执行前述S204。

具体地，当掩码标识是通过掩码处理单元，对所述标记信息组中的部分标记信息进行掩码处理得到的，预测结果中可包括待处理文本特征信息对应的预测文本特征信息；当掩码标识是通过掩码处理单元，对所述初始向量信息组中的部分初始向量信息进行掩码处理得到的，预测结果中可包括待处理图像特征信息对应的预测编码数值。其中，对于预测编码数值的解释可详见下文。

S205、基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型，所述目标预训练模型用于根据获取到的目标任务类别训练所述目标任务类别对应的目标任务处理模型。

可选地，具体可通过初始预训练模型中的训练单元执行前述S205。

可选地，S205中，基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型，包括以下S2051-S2053：

S2051、获取所述掩码标识对应的目标信息；

可选地，当所述掩码标识为通过掩码处理单元，对所述标记信息组中的部分标记信息进行掩码处理得到的时，掩码标识对应的目标信息为部分标记信息。

当所述掩码标识为通过掩码处理单元，对所述初始向量信息组中的部分初始向量信息进行掩码处理得到的时，针对掩码标识对应的目标信息的确定方式，所述方法还包括：

按照第二预设编码规则对所述样本图像信息进行编码，得到所述样本图像信息对应的编码数值组，所述编码数值组包括多个编码数值，其中，所述编码数值组中的编码数值的数量，与所述初始向量信息组中的初始向量信息的数量相同；并根据所述编码数值组确定所述掩码标识对应的目标信息。

其中，编码数值可以为***数值，如图2c所示，多个编码数值可以为：123 234345987 654 321999 888 777。

具体可参见图2c所示，第二预设编码规则可内置于第二图像编码器，内置有第二预设编码规则的第二图像编码器的作用是将样本图像信息的特征转换为离散的数值，即编码数值组中的多个编码数值，便于初始交叉模态解码单元输出对应的样本图像信息对应的预测编码数值，并将预测编码数值与编码数值组中，掩码标识对应的目标信息进行对比，对初始预训练模型进行训练。

进一步地，根据所述编码数值组确定所述掩码标识对应的目标信息，可包括以下S001-S003：

S001、获取所述掩码标识对应的被掩码内容在掩码对象中的第一位置信息；

其中，若所述待处理图文特征信息为基于预设掩码规则对所述初始向量信息组中的部分初始向量信息进行掩码处理得到的，则所述被掩码内容为所述部分初始向量信息，所述掩码对象为初始向量信息组。

其中，第一位置信息可包括：被掩码内容中的各初始向量信息在初始向量信息组中的索引信息，例如，图2c中的初始向量信息组：b1 b2 b3 b4 b5 b6 b7 b8 b9：中的部分初始向量信息b6b7 b8 b9为被掩码内容时，b6b7 b8 b9的第一位置信息可以为：6、7、8、9。

S002、从所述编码数值组中选择出所述第一位置信息对应的目标编码数值；

由于编码数值组中包含的编码数值的数量，与初始向量信息组中包含的初始向量信息的数量相同，可选地，编码数值组中各编码数值在编码数值组中的第二位置信息，与初始向量信息组中各初始向量信息在初始向量信息组中的第一位置信息一一对应。第二位置信息也可以为索引信息。具体地，图2c中的编码数值组中各编码数值在编码数值组中的索引信息，以及初始向量信息组中的各初始向量信息的索引信息可如表1所示：

表1编码数值组与初始向量信息组中索引信息不同时，对应的初始向量信息与编码数值。

索引信息	1	2	3	4	5	6	7	8	9
										初始向量信息组	b1	b2	b3	b4	b5	b6	b7	b8	b9
编码数值组	123	234	345	987	654	321	999	888	777

可选地，编码数值组中还包含各编码数值的第二位置信息，从所述编码数值组中选择出所述第一位置信息对应的目标编码数值可包括：从所述编码数值组中确定出与所述第一位置信息匹配的第二位置信息对应的目标编码数值。其中，当第一位置信息与第二位置信息相同时，可视为第一位置信息与第二位置信息匹配。

S003、将所述目标编码数值作为所述目标信息；

其中，若所述待处理图文特征信息为基于预设掩码规则对所述初始向量信息组中的部分初始向量信息进行掩码处理得到的，则所述被掩码内容为所述部分初始向量信息，所述掩码对象为所述初始向量信息组。

例如，参见图2c与表1所示，当第一位置信息为：6、7、8、9时，则目标编码数值为：“321999 888 777”。

S2052、确定所述预测结果与所述目标信息的相似度值，具体地，前述相似度值可通过交叉熵函数确定；

可选地，可参见图2b与图2c所示，训练单元可包括对比单元，该对比单元可执行S2052。

S2053、若所述相似度值小于预设相似度值，则将所述初始预训练模型作为目标预训练模型；

若所述相似度值不小于所述预设相似度值，则基于所述相似度值对所述初始预训练模型中的模型参数进行更新，得到模型参数进行更新后的初始预训练模型，并返回执行基于初始向量生成规则生成所述待处理文本特征信息对应的第一向量信息组，以及所述待处理图像特征信息对应的第二向量信息组的步骤，直至所述相似度值小于所述预设相似度值，得出目标预训练模型为止；

其中，所述初始预训练模型中的模型参数包括：所述初始向量生成规则中的参数、所述初始编码规则中的参数，以及所述初始解码规则中的参数中的至少一种参数。

可选地，初始预训练模型中的模型参数还可以包括：预处理单元中的参数。

可选地，初始预训练模型中还可包括另一查表单元，用于供相关人员根据该查表单元的输出结果确认初始训练模型的训练完成情况，例如，如图2b所示，若初始交叉模态解码单元的输出为：a5 a6 a7 a8 a9,a10 a11 a12 a13 a14，通过查表单元，则可确定出：“Jesus with the Twelve Aposities,painting by Leonardo daVinci”。

可选地，初始预训练模型中还可包括与第二图像编码器对应的图像解码器，用于供相关人员根据该图像解码器的输出结果确认初始训练模型的训练完成情况，例如，如图2c所示，若初始交叉模态解码单元的输出为：321999 888 777，则通过图像解码器可解码出：前述多个子图像中，321对应的子图像、999对应的子图像、888对应的子图像，以及777对应的子图像。

在本申请的另一些可选的实施例中，基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型，包括：

确定对所述初始预训练模型中的模型参数的更新次数是否大于预设次数，若是，则将所述初始预训练模型作为目标预训练模型；

若否，则获取所述掩码标识对应的目标信息；根据所述预测结果、所述目标信息以及预设的损失函数，确定出对应的损失信息；根据所述损失信息对所述初始预训练模型中的模型参数进行更新，得到模型参数进行更新后的初始预训练模型，并返回执行基于初始向量生成规则生成所述待处理文本特征信息对应的第一向量信息组，以及所述待处理图像特征信息对应的第二向量信息组的步骤，直至所述更新次数大于所述预设次数时，将所述初始预训练模型作为目标预训练模型；

其中，损失函数可以为交叉熵函数。

综上，参见图2b与图2c所示，初始预训练模型可包括：所述预处理单元、所述掩码处理单元、所述初始向量生成单元、所述初始交叉模块编码单元、所述初始交叉模态解码单元，以及所述训练单元。

进一步地，所述方法还包括以下S1-S2：

S1、获取所述目标任务类别，与所述目标任务类别对应的样本任务信息，所述样本任务信息包括样本任务输入信息，以及所述样本任务输入信息对应的样本任务结果标签；

S2、利用所述样本任务信息与所述目标预训练模型训练用于完成所述目标任务类别对应的目标任务的所述目标任务处理模型。

可选地，目标任务类别可以为：文本理解任务、图像理解任务(即视觉理解任务)、文本生成图像、图像生成文本、多模态识别任务等中的任一种。

前述样本任务输入信息，包括为了得出样本任务结果，所需的用于分析的任务前提；样本任务结果标签，为根据样本任务输入信息得出的任务处理结果，例如，若目标任务类别为图像生成文本，在训练该目标任务类别对应的目标任务处理模型时，需多个样本图像，以及各样本图像对应的文本生成结果，则该多个样本图像中的至少一个样本图像则为样本任务输入信息，各样本图像对应的文本生成结果则为样本任务结果标签。

可选地，目标预训练模型则为训练好的初始预训练模型。具体地，所述目标预训练模型包括多个候选单元：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元，以及第一目标交叉模态解码单元；

可选地，各候选单元中可包含多个子单元，确定出的目标单元可仅包括一候选单元中的部分子单元，也可以包含全部子单元。

可选地，预处理单元包括查表单元与第一图像编码器，确定出的目标单元中包含的预处理单元可仅包括查表单元或第一图像编码器，也可既包含查表单元也包含第一图像编码器。

可选地，第一目标交叉模态编码单元包括拼接单元与交叉模态编码器，确定出的目标单元包含的第一目标交叉模态编码单元中可仅包括交叉模态编码器，也可既包含拼接单元又包含交叉模态编码器。

S2中，利用所述样本任务信息与所述目标预训练模型训练用于完成所述目标任务类别对应的目标任务的所述目标任务处理模型，包括以下S21-S23：

S21、根据预设对应关系，从所述多个候选单元中，确定出所述目标任务类别对应的目标单元；

其中，预设对应关系中，存储有多个任务类别，以及各任务类别与其对应的任务处理模型的关联关系。

S22、基于所述目标单元构建所述目标任务类别对应的初始任务处理模型；

S23、利用所述样本任务信息对所述初始任务处理模型进行训练，得到所述目标任务处理模型；

其中，所述第一目标向量生成单元与所述初始向量生成单元对应、所述第一目标交叉模态编码单元与所述初始交叉模态编码单元，以及所述第一目标交叉模态解码单元与所述初始交叉模态解码单元对应。

具体地，第一目标向量生成单元为：训练好目标预训练模型后，该目标预训练模型中的初始向量生成单元；第一目标交叉模态编码单元为：训练好目标预训练模型后，该目标预训练模型中的初始交叉模态编码单元；第一目标交叉模态解码单元为：训练好目标预训练模型后，该目标预训练模型中的初始交叉模态解码单元。

在本申请的另一些可选的实施例中，前述确定目标单元的方式，还可以基于用户针对目标单元的选择指令实现，对此，本申请不做限定。

可选地，用于训练目标预训练模型的样本数据还可以包括纯文本的样本数据。用于训练目标预训练模型的样本数据(如样本图像信息，纯文本的样本数据)，可来源于网络，或公开数据集。

可选地，本申请中的目标预训练模型为一前缀语言模型，可以进行充分的语言和图像的关联，可使得目标预训练模型具有文本生成能力、图像编码能力、充分关联文本与图像，以增强跨模态理解的能力。

另外，目标预训练模型中的第二图像编码器可赋予目标预训练模型的图像生成能力，目标预训练模型中的查表单元，可赋予目标预训练模型的文字生成能力；第一目标交叉模态编码单元，与第一目标交叉模态解码单元赋予目标预训练模型多模态理解能力、文本理解能力，以及视觉理解能力；进而使得目标预训练模型的兼容能力与扩展性较强。其可为多种任务处理模型的训练提供素材，使得处理多种任务的效率也得到了提高。

并且，本方案提出，通过第二图像编码器将图像编码为离散的数据，进而可使得将包含图像信息与文本信息的图文信息作为样本数据，训练目标预训练模型，可以使得图像信息的处理方式，类似于文本信息的处理方式，训练得出目标预训练模型的速度更快。

通过前述模型训练方法训练得出的目标任务处理模型，基于与多种模态相关的目标预训练模型训练得出，在对任务处理时，具有较高的任务处理准确度。表2为通过本申请的方案确定出的目标任务处理模型在处理任务时，相应的目标任务处理结果的准确度值，与通过相关技术中的其他方法确定出的任务处理模型在处理任务时的任务处理结果的准确度值的对比情况。

表2：本方案的任务处理模型在处理任务时，相应的任务处理结果的准确度值，与通过其他方法确定出的任务处理模型在处理任务时的任务处理结果的准确度值的对比情况

其中，MIM、MLM、FLAVA、CLIP、SimVLM、SimVLM指任务处理模型的类别；

MNLI、CoLA、MRPC、QQP、SST-2、QNLI、RTE、STS-B为被处理的任务的类别信息；其中，MNLI结果是MNLI-m和MNLI-mm的平均值。MRPC和QQP结果是准确度和F1分数的平均值。CoLA报告了马修斯相关系数(MCC)，STS-B报告了皮尔逊相关系数(PCC)。

70M、46.4M，以及647.7M中的“M”指“million”即70M、46.4M，以及647.7M指用于计算任务处理结果的准确度值的数据量。

NLP Avg指针对自然语言处理层面的任务处理结果的准确度值的平均值。

Vision Avg指针对视觉识别(即图像识别)层面的任务处理结果的准确度值的平均值。

Multi-modal指针对多模态处理任务的任务处理结果的准确度值的平均值。

Eval method指对应任务的测评方法，具体包括：1)Fine-tuning指在对应任务上完整训练模型；2)Linear eval指固定模型，通过添加一个分类器预测对应任务的结果；3)zero-shot指完全固定模型，不增加任何可学习参数，来解决对应任务。

ImageNet、Food101、CIFAR10、Cars、Aircraft、DTD、Pets、Flowers102、MNIST、STL10，以及Country211指数据集名称。各数据集对应的任务处理结果的准确度值指以当前数据集为任务分析数据的任务处理结果的准确度值。

VQAv2、SNLI-VE、NLVR2指数据集名称；

I2T和T2I表示图像生成文本，与文本生成图像的任务。I2T@B4和I2T@C是根据图像生成文本任务的测评指标，B4指4-gram双语评估替换指数(Bilingual EvaluationUnderstudy，BLUE)，C指基于共识的图像描述评估(Consensus-based Image DescriptionEvaluation，CIDEr)。T2I@IS、T2I@FID、T2I@IS和T2I@FID是根据文本生成图像任务的测评指标，IS指Inception Score(IS)，FID是指Frechet Inception Distance(FID)。

其中，“↑”表示对应的准确度值越大，代表任务处理结果的准确度越高，“↓”表示对应的准确度值越小，代表任务处理结果的准确度越高。

由表2可知，通过本方案确定出的目标任务处理模型对目标任务进行处理时，在相同模型规模和数据规模情况下达到了同类模型的最先进的效果。与通过本申请的方案确定出的目标任务处理模型进行比较的相关模型是FLAVA和SimVLM。通过本申请的方案确定出的目标任务处理模型在全部26个任务中有22个任务的表现为最佳。在文本理解任务上和相关模型持平，除此之外，全部优于相关模型，包括在视觉理解任务、多模态理解任务、文本到图像的生成和图像到文本的生成任务上取得了大幅的提升。

图3a是本申请一示例性实施例提供的一种模型训练方法的流程示意图，该方法可适用于模型训练设备，该方法至少包括以下步骤以下S301-S305：

S301、获取目标任务类别，与所述目标任务类别对应的样本任务信息，所述样本任务信息包括样本任务输入信息，以及所述样本任务输入信息对应的样本任务结果标签；

S302、获取目标预训练模型中的多个候选单元，所述多个候选单元包括：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元，以及第一目标交叉模态解码单元；

S303、根据预设对应关系，从所述多个候选单元中，确定出所述目标任务类别对应的目标单元；

S304、基于所述目标单元构建所述目标任务类别对应的初始任务处理模型；

S305、利用所述样本任务信息对所述初始任务处理模型进行训练，得到用于完成所述目标任务类别对应的目标任务的目标任务处理模型；

可选地，所述目标预训练模型为通过图2a对应的实施例中的数据处理方法中的初始预训练模型训练得出的。

结合图2a对应的实施例可知，所述初始预训练模型包括：初始向量生成单元、初始交叉模态编码单元，以及初始交叉模态解码单元。

前述数据处理方法中，可具体基于初始向量生成单元中内置的初始向量生成规则，生成所述待处理文本特征信息对应的第一向量信息组，以及所述待处理图像特征信息对应的第二向量信息组；

通过内置于初始交叉模态编码单元的初始编码规则对所述第一向量信息组与所述第二向量信息组进行编码，得到对应的融合向量信息组；其中，所述融合向量信息组包括多个融合向量信息，各融合向量信息与所述第一向量信息组以及所述第二向量信息组相关；

并通过内置于初始交叉模态解码单元中的初始解码规则对所述融合向量信息组进行解码，得到所述掩码标识对应的预测结果；

并基于所述预测结果与所述掩码标识对初始预训练模型进行训练，得到目标预训练模型，所述目标预训练模型用于根据获取到的目标任务类别训练所述目标任务类别对应的目标任务处理模型。

其中，目标预训练模型为训练好的初始预训练模型，所述第一目标向量生成单元为初始预训练模型中训练好的初始向量生成单元、所述第一目标交叉模态编码单元为初始预训练模型中训练好的初始交叉模态编码单元，以及所述第一目标交叉模态解码单元为初始预训练模型中训练好的初始交叉模态解码单元。所述目标预训练模型包括多个候选单元，该多个候选单元至少包括以下单元中的至少2个：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元、第一目标交叉模态解码单元。

可选地，在基于所述目标单元构建初始任务处理模型时，还可根据目标任务类别获取目标单元以外的附加单元。即初始任务处理模型可以由目标单元与附加单元构建完成，在训练目标任务处理模型中，除了可对目标单元中的参数进行更新，还可以对附加单元的参数进行更新。

可选地，前述附加单元还可以恢复单元，恢复单元可包括查表单元和/或与第二图像编码器对应的图像解码器。

可选地，若目标单元中包括：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元、第一目标交叉模态解码单元，则训练好的初始任务处理模型，即目标任务处理模型中可包括：训练好的预处理单元、第二目标向量生成单元、第二目标交叉模态编码单元，以及第二目标交叉模态解码单元，还可包括图像解码器。

其中，第二目标向量生成单元为训练好的第一目标向量生成单元、第二目标交叉模态编码单元为训练好的所述第一目标交叉模态编码单元，第二目标交叉模态解码单元为训练好的第一目标交叉模态解码单元。

可选地，不同的目标任务类别，确定出的目标单元不同，在本申请的一些可选的实施例中，若目标任务类别为文本理解任务时，参见图3b所示，从所述多个候选单元中，确定出的该目标任务类别对应的目标单元可包括：预处理单元中的查表单元、第一目标向量生成单元、第一目标交叉模态编码单元中的交叉模态编码器，以及第一目标交叉模态解码单元。

在本申请的一些可选的实施例中，若目标任务类别为文本分类时，仅涉及到对文本的分析，不涉及对图像的分析，因此，从所述多个候选单元中，确定出的该目标任务类别对应的目标单元可包括：预处理单元中的查表单元、第一目标向量生成单元、第一目标交叉模态编码单元中的交叉模态编码器，以及第一目标交叉模态解码单元。

其中，在基于所述目标单元构建出的初始任务处理模型中，预处理单元中的查表单元与第一目标向量生成单元连接、第一目标向量生成单元与第一目标交叉模态编码单元中的交叉模态编码器连接，且第一目标交叉模态编码单元中的交叉模态编码器与第一目标交叉模态解码单元连接。

进一步地，初始任务处理模型还可以包括前述目标单元以外的其他单元，如初始任务处理模型还包括初始分类器，该初始分类器的输入接口与第一目标交叉模态解码单元的输出接口连接，初始分类器的输出接口用于输出预测的任务处理结果，进而使得在训练目标任务处理模型过程中，基于样本任务信息、预测的任务处理结果，以及样本任务结果标签对初始任务处理模型进行训练。

在本申请的一些可选的实施例中，训练得出目标任务类别为文本分类时，对应的目标任务处理模型后，针对目标任务：获取两个语句，确定第二语句与第一语句的关系，其中：

第一语句：Oneofournumberwillcarryoutyourinstructionsminutely；

第二语句：Amemberofmyteamwillexecuteyourorderswithimmenseprecision.

则可将第一语句与第二语句作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:蕴含(表示第二语句的语义蕴含第一语句的语义)。

在本申请的一些可选的实施例中，若目标任务类别为分析图像对应的语义识别结果，对图像进行分类的任务时，该目标任务类别仅涉及到对图像的分析与图像分类，因此，从所述多个候选单元中，确定出的该目标任务类别对应的目标单元可包括：预处理单元中的第一图像编码器，第一目标向量生成单元、第一目标交叉模态编码单元中的交叉模态编码器，以及第一目标交叉模态解码单元。

其中，在基于所述目标单元构建出的初始任务处理模型中，预处理单元中的第一图像编码器与第一目标向量生成单元连接、第一目标向量生成单元与第一目标交叉模态编码单元中的交叉模态编码器连接，且第一目标交叉模态编码单元中的交叉模态编码器与第一目标交叉模态解码单元连接。

在本申请的一些可选的实施例中，训练得出目标任务类别为分析图像对应的语义识别结果，对图像进行分类时，对应的目标任务处理模型后，针对目标任务：分析图3c中的图像1的语义识别结果，对图像进行分类，则可将图像1作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:台灯。针对目标任务：分析图3c中的图像2的语义识别结果，对图像进行分类，则可将图像2作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:冰激凌。

在本申请的一些可选的实施例中，若目标任务类别为根据图文信息回答问题的任务时，该目标任务类别涉及到对图像与文本的分析，因此，从所述多个候选单元中，确定出的该目标任务类别对应的目标单元可包括：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元，以及第一目标交叉模态解码单元。

其中，在基于所述目标单元构建出的初始任务处理模型中，预处理单元与第一目标向量生成单元连接、第一目标向量生成单元与第一目标交叉模态编码单元连接，且第一目标交叉模态编码单元与第一目标交叉模态解码单元连接。

在本申请的一些可选的实施例中，训练得出目标任务类别为根据图文信息回答问题的任务时，对应的目标任务处理模型后，针对目标任务：根据图3d中的图文信息1中包含的图像与文本：“Who is wearing glasses？”，回答问题，则可将图文信息1作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:man。针对目标任务：根据图3d中的图文信息2中包含的图像与文本：“Who is wearing glasses？”，回答问题，则可将图文信息2作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:woman。

在本申请的一些可选的实施例中，若目标任务类别为判断文字是否正确描述了图像对的任务时，该目标任务类别涉及到对图像与文本的分析，因此，从所述多个候选单元中，确定出的该目标任务类别对应的目标单元可包括：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元，以及第一目标交叉模态解码单元。

在本申请的一些可选的实施例中，训练得出目标任务类别为判断文字是否正确描述了图像对的任务时，对应的目标任务处理模型后，针对目标任务：判断图3e中的图文信息3中的文本是否正确描述了图文信息3中的图像对，则可将图文信息3作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:对。针对目标任务：判断图文信息4中的文本是否正确描述了图文信息4中的图像对，则可将图文信息4作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:错。

在本申请的一些可选的实施例中，若目标任务类别为给出一张图像和一个文本描述，判断图像和文本之间的关系是蕴含、矛盾还是中立的任务时，该目标任务类别涉及到对图像与文本的分析，因此，从所述多个候选单元中，确定出的该目标任务类别对应的目标单元可包括：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元，以及第一目标交叉模态解码单元。

在本申请的一些可选的实施例中，训练得出目标任务类别为给出一张图像和一个文本描述，判断图像和文本之间的关系是蕴含、矛盾还是中立的任务时，对应的目标任务处理模型后，

针对目标任务：给出图3f中的前提图像，与文本描述1：“Two woman are holdingpackages.”，判断前提图像，与文本描述1之间的关系是蕴含、矛盾还是中立，则可将前提图像与文本描述1作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:蕴含。

针对目标任务：给出图3f中的前提图像，与文本描述2：“The sisters arehugging goodbye whie holding to go packages after just eating lunch.”，判断前提图像，与文本描述2之间的关系是蕴含、矛盾还是中立，则可将前提图像与文本描述2作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:中立。

针对目标任务：给出图3f中的前提图像，与文本描述3：“The men are fightingoutside a deli.”，判断前提图像，与文本描述3之间的关系是蕴含、矛盾还是中立，则可将前提图像与文本描述3作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:矛盾。

在本申请的一些可选的实施例中，若目标任务类别为给定一张图像，输出该图像的文本描述的任务时，该目标任务类别该目标任务类别仅涉及到对图像的分析，因此，从所述多个候选单元中，确定出的该目标任务类别对应的目标单元可包括：预处理单元中的第一图像编码器，第一目标向量生成单元、第一目标交叉模态编码单元中的交叉模态编码器，以及第一目标交叉模态解码单元。

在本申请的一些可选的实施例中，训练得出目标任务类别为给定一张图像，输出该图像的文本描述时，对应的目标任务处理模型后，针对目标任务：给定图3g中的图像，输出该图像对应的文本描述，则可将该图像作为目标任务处理模型的目标任务输入信息，则可得出目标任务处理结果:“一只海鸟在岸边散步”。

在本申请的一些可选的实施例中，若目标任务类别为给定一段文本描述，输出该文本描述对应的图像时，仅涉及到对文本的分析，因此，从所述多个候选单元中，确定出的该目标任务类别对应的目标单元可包括：预处理单元中的查表单元、第一目标向量生成单元、第一目标交叉模态编码单元中的交叉模态编码器，以及第一目标交叉模态解码单元。

在本申请的一些可选的实施例中，训练得出目标任务类别为给定一段文本描述，输出该文本描述对应的图像时，对应的目标任务处理模型后，针对目标任务：给定图3h中的文本：“a baseball player holding a bat next to a base”，输出该文本对应的图像，则可将文本：“a baseball player holding a bat next to a base”，作为目标任务处理模型的目标任务输入信息，则可得出图3h中的图像。

通过本申请的模型训练方法训练得出的目标任务处理模型，针对为给定一段文本描述，输出该文本描述的图像的目标任务处理结果与相关技术中的DALLE，以及OFA相比，可参见图3i所示，由图3i可知，通过本申请的方案的出的目标任务处理结果中的图像生成质量更高，表现为更真实和准确。

图4是本申请一示例性实施例提供的一种任务处理方法的流程示意图，该方法包括以下S401-S403：

S401、获取目标任务类别的目标任务信息，所述目标任务信息包括目标任务输入信息；

S402、根据所述目标任务类别确定对应的目标任务处理模型；

S403、将所述目标任务输入信息输入所述目标任务处理模型，得到对应所述目标任务类别与所述目标任务输入信息的目标任务处理结果；

其中，目标任务类别与目标任务输入信息的对应关系，可参见前述图3a对应的实施例，此处不再赘述。

图5为本申请一示例性实施例提供的一种数据处理装置的结构示意图；

其中，该装置包括：

获取单元51，用于获取待处理图文特征信息，所述待处理图文特征信息包括待处理文本特征信息与待处理图像特征信息；所述待处理文本特征信息或所述待处理图像特征信息中包含掩码标识，所述待处理文本特征信息与所述待处理图像特征信息匹配；

生成单元52，用于基于初始向量生成规则生成所述待处理文本特征信息对应的第一向量信息组，以及所述待处理图像特征信息对应的第二向量信息组；

编码单元53，用于通过初始编码规则对所述第一向量信息组与所述第二向量信息组进行编码，得到对应的融合向量信息组；其中，所述融合向量信息组包括多个融合向量信息，各融合向量信息与所述第一向量信息组以及所述第二向量信息组相关；

解码单元54，用于通过初始解码规则对所述融合向量信息组进行解码，得到所述掩码标识对应的预测结果；

确定单元55，用于基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型，所述目标预训练模型用于根据获取到的目标任务类别训练所述目标任务类别对应的目标任务处理模型。

根据本申请的一个或多个实施例，所述装置还用于：

获取样本图文信息，所述样本图文信息包括样本文本信息与样本图像信息，所述样本文本信息与样本图像信息匹配；

根据所述样本文本信息与预设词库确定所述样本文本信息中的各字符在预设词库中的标记信息，得到所述样本文本信息对应的标记信息组；

按照第一预设编码规则对所述样本图像信息进行编码，得到所述样本图像信息对应的初始向量信息组；

基于预设掩码规则对所述标记信息组中的部分标记信息，或对初始向量信息组中的部分初始向量信息进行掩码处理，得到所述待处理图文特征信息。

根据本申请的一个或多个实施例，所述装置在用于基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型时，具体用于：

获取所述掩码标识对应的目标信息；

确定所述预测结果与所述目标信息的相似度值；

若所述相似度值小于预设相似度值，则将初始预训练模型作为目标预训练模型；

根据本申请的一个或多个实施例，所述装置还用于：

按照第二预设编码规则对所述样本图像信息进行编码，得到所述样本图像信息对应的编码数值组，所述编码数值组包括多个编码数值，其中，所述编码数值组中的编码数值的数量，与所述初始向量信息组中的初始向量信息的数量相同；

根据所述编码数值组确定所述掩码标识对应的目标信息。

根据本申请的一个或多个实施例，所述装置在用于根据所述编码数值组确定所述掩码标识对应的目标信息时，具体用于：

获取所述掩码标识对应的被掩码内容在掩码对象中的第一位置信息；

从所述编码数值组中选择出所述第一位置信息对应的目标编码数值；

将所述目标编码数值作为所述目标信息；

根据本申请的一个或多个实施例，前述装置在用于基于所述预测结果与所述掩码标识对初始预训练模型进行训练，得到目标预训练模型时，具体用于：

确定对初始预训练模型中的模型参数的更新次数是否大于预设次数，若是，则将所述初始预训练模型作为目标预训练模型；

图6为本申请一示例性实施例提供的一种模型训练装置的结构示意图，该装置包括：

获取单元61，用于获取目标任务类别，与所述目标任务类别对应的样本任务信息，所述样本任务信息包括样本任务输入信息，以及所述样本任务输入信息对应的样本任务结果标签；以及用于获取目标预训练模型中的多个候选单元，所述多个候选单元包括：预处理单元、第一目标向量生成单元、第一目标交叉模态编码单元，以及第一目标交叉模态解码单元；

确定单元62，用于根据预设对应关系，从所述多个候选单元中，确定出所述目标任务类别对应的目标单元；

构建单元63，用于基于所述目标单元构建所述目标任务类别对应的初始任务处理模型；

训练单元64，用于利用所述样本任务信息对所述初始任务处理模型进行训练，得到用于完成所述目标任务类别对应的目标任务的目标任务处理模型；

图7为本申请一示例性实施例提供的一种任务处理装置的结构示意图；其中，该装置包括：

获取单元71，用于获取目标任务类别的目标任务信息，所述目标任务信息包括目标任务输入信息；

确定单元72，用于根据所述目标任务类别确定对应的目标任务处理模型；

输入单元73，用于将所述目标任务输入信息输入所述目标任务处理模型，得到对应所述目标任务类别与所述目标任务输入信息的目标任务处理结果；

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，该装置可以执行上述方法实施例，并且该装置中的各个模块的前述和其它操作和/或功能分别为了上述方法实施例中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图8是本申请实施例提供的电子设备的示意性框图，该电子设备可包括：

存储器801和处理器802，该存储器801用于存储计算机程序，并将该程序代码传输给该处理器802。换言之，该处理器802可以从存储器801中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器802可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器802可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器801包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器801中，并由该处理器802执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图8所示，该电子设备还可包括：

收发器803，该收发器803可连接至该处理器802或存储器801。

其中，处理器802可以控制该收发器803与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器803可以包括发射机和接收机。收发器803还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备中的各个组件通过总线***相连，其中，总线***除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

根据本申请的一个或多个实施例，提供一种数据处理方法，包括：

根据本申请的一个或多个实施例，所述方法还包括：

根据本申请的一个或多个实施例，基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型，包括：

获取所述掩码标识对应的目标信息；

确定所述预测结果与所述目标信息的相似度值；

若所述相似度值小于预设相似度值，则将所述初始预训练模型作为目标预训练模型；

根据本申请的一个或多个实施例，所述方法还包括：

根据所述编码数值组确定所述掩码标识对应的目标信息。

根据本申请的一个或多个实施例，根据所述编码数值组确定所述掩码标识对应的目标信息，包括：

将所述目标编码数值作为所述目标信息；

根据本申请的一个或多个实施例，基于所述预测结果与所述掩码标识对初始预训练模型进行训练，得到目标预训练模型，包括：

根据本申请的一个或多个实施例，提供一种模型训练方法，包括：

根据本申请的一个或多个实施例，提供一种任务处理方法，包括：

根据所述目标任务类别确定对应的目标任务处理模型；

根据本申请的一个或多个实施例，提供一种数据处理装置，包括：

生成单元，用于基于初始向量生成规则生成所述待处理文本特征信息对应的第一向量信息组，以及所述待处理图像特征信息对应的第二向量信息组；；

根据本申请的一个或多个实施例，所述装置还用于：

获取所述掩码标识对应的目标信息；

确定所述预测结果与所述目标信息的相似度值；

根据本申请的一个或多个实施例，所述装置还用于：

根据所述编码数值组确定所述掩码标识对应的目标信息。

将所述目标编码数值作为所述目标信息；

根据本申请的一个或多个实施例，所述装置在用于：基于所述预测结果与所述掩码标识对初始预训练模型进行训练，得到目标预训练模型时，具体用于：

根据本申请的一个或多个实施例，提供一种模型训练装置，包括：

根据本申请的一个或多个实施例，提供一种任务处理装置，包括：

根据本申请的一个或多个实施例，提供一种电子设备，包括：

处理器；以及

存储器，用于存储处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行前述的各方法。

根据本申请的一个或多个实施例，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现前述的各方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括：

基于所述预测结果与所述掩码标识对初始预训练模型进行训练，得到目标预训练模型，所述目标预训练模型用于根据获取到的目标任务类别训练所述目标任务类别对应的目标任务处理模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，基于所述预测结果与所述掩码标识对所述初始预训练模型进行训练，得到目标预训练模型，包括：

获取所述掩码标识对应的目标信息；

确定所述预测结果与所述目标信息的相似度值；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述编码数值组确定所述掩码标识对应的目标信息。

5.根据权利要求4所述的方法，其特征在于，根据所述编码数值组确定所述掩码标识对应的目标信息，包括：

将所述目标编码数值作为所述目标信息；

6.根据权利要求2所述的方法，其特征在于，基于所述预测结果与所述掩码标识对初始预训练模型进行训练，得到目标预训练模型，包括：

7.一种模型训练方法，其特征在于，包括：

其中，所述目标预训练模型为通过权利要求1-6中任一项所述的数据处理方法中的初始预训练模型训练得出的。

8.一种任务处理方法，其特征在于，包括：

根据所述目标任务类别确定对应的目标任务处理模型；

其中，所述目标任务处理模型为通过权利要求7中所述的模型训练方法训练得出的。

9.一种数据处理装置，其特征在于，包括：

10.一种模型训练装置，其特征在于，包括：

11.一种任务处理装置，其特征在于，包括：

其中，所述目标任务处理模型为通过所述权利要求7的模型训练方法训练得出的。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6中任一项所述的数据处理方法，或权利要求7所述的模型训练方法，或权利要求8所述的任务处理方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的数据处理方法，或权利要求7所述的模型训练方法，或权利要求8所述的任务处理方法。