CN117093864A

CN117093864A - 文本生成模型训练方法以及装置

Info

Publication number: CN117093864A
Application number: CN202311014936.5A
Authority: CN
Inventors: 王义宇; 罗浩; 王帆
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-11-21

Abstract

本说明书实施例提供文本生成模型训练方法以及装置，其中该方法包括：确定初始文本样本，提取初始文本样本的文本特征；确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，基于多元高斯分布噪声、以及初始文本样本的文本特征，获得文本特征对应的图像特征；根据文本特征对应的图像特征，反映射获得图像特征对应的目标文本特征；根据目标文本特征确定目标文本样本，根据初始文本样本以及目标文本样本，训练获得文本生成模型。实现了通过表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，将文本特征映射到图像特征上，无需图像文本成对数据即可训练获得文本生成模型，节省了数据标注环节，降低了成本。

Description

文本生成模型训练方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种文本生成模型训练方法。

背景技术

图像描述任务是一个典型的VL(Vision-Language，同时涉及视觉和文本的任务，如图文检索、基于文本的图像生成、图像描述任务等)任务，旨在为给定的图像生成与图像对应的文本描述语句。

以往可以通过有监督的训练方法获得图像描述模型以完成图像描述任务，而有监督的训练方法需要依赖于人工标注的图像-文本成对数据集来进行训练，但是对数据集进行人工标注的成本高昂，且依赖人工标注的方式费时费力难以简单地拓展到大规模的数据。因此，亟需寻求一种能在低成本图像-文本成对数据下或仅有文本数据的情况下、驱动图像描述模型的训练方法。

发明内容

有鉴于此，本说明书实施例提供了一种文本生成模型训练方法、一种文本生成方法。本说明书一个或者多个实施例同时涉及一种文本生成模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文本生成模型训练方法，包括：

确定初始文本样本，提取所述初始文本样本的文本特征；

确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，基于所述多元高斯分布噪声、以及所述初始文本样本的文本特征，获得所述文本特征对应的图像特征；

根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的目标文本特征；

根据所述目标文本特征确定目标文本样本，根据所述初始文本样本以及所述目标文本样本，训练获得文本生成模型。

根据本说明书实施例的第二方面，提供了一种文本生成模型训练装置，包括：

特征提取模块，被配置为确定初始文本样本，提取所述初始文本样本的文本特征；

图像特征确定模块，被配置为确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，基于所述多元高斯分布噪声、以及所述初始文本样本的文本特征，获得所述文本特征对应的图像特征；

文本特征获得模块，被配置为根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的目标文本特征；

模型获得模块，被配置为根据所述目标文本特征确定目标文本样本，根据所述初始文本样本以及所述目标文本样本，训练获得文本生成模型。

根据本说明书实施例的第三方面，提供了一种文本生成模型训练方法，应用于云端，包括：

接收终端发送的初始文本样本，提取所述初始文本样本的文本特征；

根据所述目标文本特征确定目标文本样本，根据所述初始文本样本以及所述目标文本样本，训练获得文本生成模型；

将所述文本生成模型发送至所述终端。

根据本说明书实施例的第四方面，提供了一种文本生成模型训练装置，应用于云端，包括：

特征提取模块，被配置为接收终端发送的初始文本样本，提取所述初始文本样本的文本特征；

模型获得模块，被配置为根据所述目标文本特征确定目标文本样本，根据所述初始文本样本以及所述目标文本样本，训练获得文本生成模型；

模型发送模块，被配置为将所述文本生成模型发送至所述终端。

根据本说明书实施例的第五方面，提供了一种文本生成方法，包括：

确定待文本生成的图像，将所述待文本生成的图像输入文本生成模型；

通过所述文本生成模型，生成与所述待文本生成的图像对应的目标文本，其中，所述文本生成模型为根据上述文本生成模型训练方法训练获得。

根据本说明书实施例的第六方面，提供了一种文本生成装置，包括：

图像输入模块，被配置为确定待文本生成的图像，将所述待文本生成的图像输入文本生成模型；

文本生成模块，被配置为通过所述文本生成模型，生成与所述待文本生成的图像对应的目标文本，其中，所述文本生成模型为根据上述文本生成模型训练方法训练获得。

根据本说明书实施例的第七方面，提供了一种文本生成方法，应用于云端，包括：

接收终端发送的待文本生成的图像，将所述待文本生成的图像输入文本生成模型；

通过所述文本生成模型，生成与所述待文本生成的图像对应的目标文本，其中，所述文本生成模型为根据上述文本生成模型训练方法训练获得；

将所述目标文本发送至所述终端。

根据本说明书实施例的第八方面，提供了一种文本生成装置，应用于云端，包括：

图像输入模块，被配置为接收终端发送的待文本生成的图像，将所述待文本生成的图像输入文本生成模型；

文本生成模块，被配置为通过所述文本生成模型，生成与所述待文本生成的图像对应的目标文本，其中，所述文本生成模型为根据上述文本生成模型训练方法训练获得；

文本发送模块，被配置为将所述目标文本发送至所述终端。

根据本说明书实施例的第九方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本生成模型训练方法、文本生成方法的步骤。

根据本说明书实施例的第十方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述文本生成模型训练方法、文本生成方法的步骤。

根据本说明书实施例的第十一方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本生成模型训练方法、文本生成方法的步骤。

本说明书一个实施例提供的文本生成模型训练方法，包括确定初始文本样本，提取所述初始文本样本的文本特征；确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，基于所述多元高斯分布噪声、以及所述初始文本样本的文本特征，获得所述文本特征对应的图像特征；根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的目标文本特征；根据所述目标文本特征确定目标文本样本，根据所述初始文本样本以及所述目标文本样本，训练获得文本生成模型。

具体的，该方法通过确定初始文本样本，提取初始文本样本的文本特征，并确定多元高斯分布噪声；根据初始文本样本的文本特征和多元高斯分布噪声，获得文本特征对应的图像特征，根据图像特征反映射获得图像特征对应的目标文本特征，避免上述在文本特征没有正确获得对应的图像特征的情况下，出现模态崩塌的问题；根据目标文本特征确定目标文本样本，根据初始文本样本以及目标文本样本，训练获得文本生成模型，该方法无需图像文本成对数据，仅将文本数据作为训练样本即可实现对模型的训练，节省了数据标注环节，降低了成本。

附图说明

图1是本说明书一个实施例提供的一种文本生成模型训练方法的场景示意图；

图2是本说明书一个实施例提供的一种文本生成模型训练方法的流程图；

图3是本说明书一个实施例提供的一种文本生成模型训练方法的处理过程流程图；

图4是本说明书一个实施例提供的一种文本生成方法的流程图；

图5是本说明书一个实施例提供的一种文本生成方法的应用过程示意图；

图6是本说明书一个实施例提供的一种图像生成模型训练方法的流程图；

图7是本说明书一个实施例提供的一种图像生成方法的流程图；

图8是本说明书一个实施例提供的一种应用于云端的文本生成模型训练方法的流程图；

图9是本说明书一个实施例提供的一种文本生成模型训练装置的结构示意图；

图10是本说明书一个实施例提供的一种图像生成模型训练装置的结构示意图；

图11是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，需要说明的是，本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

大模型是指具有大规模模型参数的深度学习模型，通常包含上亿、上百亿、甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model)，通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型(Large Language Model,LLM)、多模态预训练模型(multi-modal pre-training model)等。

大模型在实际应用时，仅需少量样本对预训练模型进行微调即可应用于不同的任务中，大模型可以广泛应用于自然语言处理(Natural Language Processing，简称NLP)、计算机视觉等领域，具体可以应用于如视觉问答(Visual Question Answering，简称VQA)、图像描述(Image Captioning，简称IC)、图像生成等计算机视觉领域任务，以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务，大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

CLIP：Contrastive Language-Image Pre-Training，一种图文相关性匹配模型。

GPT-2:Generative Pre-trained Transformer，一种生成式语言模型。

人工标注图像-文本成对数据：以图像描述任务为例，指的是给定一张图像，人为编写一条或多条能够正确描述该图像的文本语句，编写的文本与图像具有足够准确且紧密的成对关系。

网络图像-文本成对数据：从社交网络上爬取的数据，所得到的文本数据不一定与图像数据紧密相关联，文本与图像可视为具有较弱关联性的成对关系。

生成图像描述的方法可分为有监督方法、弱监督方法或无监督方法，其中，有监督方法依赖于人工标注的图像-文本成对数据(即人工标注图像-文本成对数据)，使用预训练的卷积神经网络或目标检测网络提取图像的特征，并使用LSTM(Long Short Term Memory，长短期记忆网络)或者Transformer(一个利用注意力机制来提高模型训练速度的模型)对图像特征进行解码以生成图像描述；但是有监督方法受限于标注成本，相关的数据集(图像-文本成对数据)的规模并不是很大。

弱监督方法或无监督方法则无需图像文本成对数据，但使用现有的弱监督方法或无监督方法也存在一些问题，如现有的弱监督方法或无监督方法仅与一种或两种特定的、仅含文本数据的数据配置兼容，但在实际应用中用户可能具有不同的数据配置，如除仅含文本数据的文本语料库之外，也有可能提供少量高质量的成对数据、成对网络数据(即网络图像-文本成对数据)或网络图像数据。

在本说明书中，提供了一种文本生成模型训练方法、图像生成模型训练方法，本说明书同时涉及一种文本生成模型训练装置、一种图像生成模型训练装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种文本生成模型训练方法的场景应用图。

图1中包括云侧设备102和端侧设备104，其中，云侧设备102可以理解为云服务器，当然，在另一种可实现方案中，云侧设备102也可以替换为物理服务器；该端侧设备104可以理解为各种电子设备，可以是有屏设备，也可以是无屏设备，包括但不限于智能手机、笔记本电脑、智能音箱、智能电视、PC(Personal Computer，个人计算机)、可穿戴式设备等等；为了便于理解，本说明书实施例中，均以云侧设备102为云服务器、端侧设备104为笔记本电脑为例进行详细介绍。

具体实施时，在云侧设备102进行文本生成模型训练，其中，该文本生成模型可以理解为一种输入图像输出图像描述的模型。

云侧设备102确定训练样本，例如从数据库中获取训练样本；实际应用中，该数据库中可以包括4种数据配置的训练样本，其中，数据配置1的训练样本可以理解为标注的图像文本成对数据(即图像文本对)，数据配置2的训练样本可以理解为网络图像文本成对数据，数据配置3的训练样本可以理解为与文本不具关联关系的图像数据，数据配置4的训练样本可以理解为文本数据。

以数据配置4的文本数据作为训练样本为例，将训练样本输入文本生成模型，在文本生成模型中提取训练样本的文本特征，以及确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，根据多元高斯分布噪声与训练样本的文本特征，获得文本特征对应的图像特征，并根据图像特征反映射获得图像特征对应的目标文本特征，根据目标文本特征确定目标文本样本，根据目标文本样本以及训练样本训练获得文本生成模型。

在一种常用的场景下，用户可以使用端侧设备104与设置于云侧设备102的文本生成模型进行交互，端侧设备104上可以安装有各种应用，例如语音交互应用、网页浏览器应用、通信类应用等。

端侧设备104接收用户输入的待文本生成的图像，如待文本生成的图像为一张一个男人骑着摩托车的图像；端侧设备104调用云侧设备102中的文本生成模型，将该待文本生成的图像输入文本生成模型，在该文本生成模型中获取该待文本生成的图像对应的目标文本，如获得目标文本为“一个男人骑着摩托车在路上走”，并可以实现将目标文本返回至端侧设备104，以使用户获得目标文本。

在另一种常用的场景下，还可以将在云侧设备102中训练好的文本生成模型部署至端侧设备104中，那么，端侧设备104接收用户输入的待文本生成的图像，端侧设备104将该待文本生成的图像输入部署在端侧设备104中的文本生成模型，在该文本生成模型中获取该待文本生成的图像对应的目标文本。

本说明书实施例通过该文本生成模型训练方法，在确定初始文本样本后，提取初始文本样本的文本特征，并基于用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，以及文本样本的文本特征获得图像特征，根据图像特征获得目标文本特征，进而根据目标文本特征获得目标文本样本，根据初始文本样本和目标文本样本训练获得文本生成模型，该训练获得的文本生成模型无需成对数据即可实现图像描述任务，仅将文本数据作为训练样本即可实现对模型的训练，节省了数据标注环节，降低了成本。

参见图2，图2示出了根据本说明书一个实施例提供的一种文本生成模型训练方法的流程图，具体包括以下步骤。

步骤202：确定初始文本样本，提取所述初始文本样本的文本特征。

其中，初始文本样本可以理解为，任意类型、任意长度、任意格式的文本，如初始文本样本可以为“一个男人骑着摩托车在路上走”；文本特征可以理解为，将文本转换为可用于机器学习的数值特征。

在本说明书一个或多个实施例中，数据库中包含多种类型的数据，可以将每一种或者几种组合中的文本作为初始文本样本，以文本数据作为训练样本即可完成文本生成模型的训练，降低了对图像文本成对数据的要求和依赖。具体实现方式如下所述：

所述确定初始文本样本，包括：

从数据库中获取第一图像文本对、第二图像文本对、第三图像文本对和/或文本数据；将第一图像文本对、第二图像文本对、第三图像文本对和/或文本数据中的文本作为初始文本样本，

其中，所述第一图像文本对中的图像文本对的质量大于所述第二图像文本对中的图像文本对的质量，所述第二图像文本对中的图像文本对的质量大于所述第三图像文本对中的图像文本对的质量。

其中，数据库可以理解为，包含文本数据以及不同质量的图像文本成对数据的数据库，数据库中包含了多种数据配置的数据。

第一图像文本对可以理解为，标注的图像文本成对数据，图像文本成对数据中图像和文本之间的成对关系是强相关的，如COCO数据集、Flickr数据集中的图像文本成对数据，其中COCO数据集、Flickr数据集中的图像文本成对数据质量较高，图像和文本之间的成对关系是强相关的；该图像文本成对数据中的文本与上述数据库中的文本数据同源，同源可以理解为，该图像文本成对数据中的文本与上述文本数据从同一个获取文本渠道获得而来。

第二图像文本对可以理解为，图像对应的文本从网络中获取得到，即图像所对应的文本不一定与图像具有较强的成对关系，图像所对应的文本也不一定是完整的语句，比如CC3M、CC12M、YFCC数据集中的图像文本成对数据，其中CC3M、CC12M、YFCC数据集中的图像文本成对数据质量较低，图像所对应的文本不一定与图像具有较强的成对关系，图像所对应的文本也不一定是完整的语句；该图像文本成对数据中的文本与上述文本语料库中的文本异源，异源可以理解为，该图像文本成对数据中的文本与上述数据库中的文本数据是从不同获取文本渠道获得而来。

第三图像文本对可以理解为，包含从其他数据集中随机采样得到的图像，该图像文本成对数据中的文本以及图像没有关联关系。

文本数据可以理解为，在语言实际使用中出现的文本。

图像文本对的质量可以理解为，图像文本对中图像与文本之间的关联关系；图像与文本之间的关联关系越强代表图像文本对质量越高。

结合上述实施例，在数据库包含4种数据配置的训练样本的情况下，第一图像文本对可以理解为数据配置1，第二图像文本对可以理解为数据配置2，第三图像文本对可以理解为数据配置3，文本数据可以理解为数据配置4。

实际应用中，可以使用4种数据配置中任意一种数据配置中的文本作为训练样本进行模型训练，获得文本生成模型。

本说明书实施例提供的文本生成模型训练方法，数据库中包含多种数据配置，可以使用多种数据配置进行模型训练，该多种数据配置均可以实现模型训练，获得文本生成模型。

在本说明书一个或多个实施例中，为使多种数据配置中的文本转换为机器学习所能够识别的语言，提取文本的文本特征，该文本特征能用于机器学习；具体的，文本生成模型中包含文本编码网络层，在该文本编码网络层中，提取文本的文本特征，获得与该文本编码网络层适配的文本特征。具体实现方式如下所述：

所述文本生成模型包括文本编码网络层；

相应的，所述提取所述初始文本样本的文本特征，包括：

将所述初始文本样本输入文本生成模型，通过所述文本生成模型中的文本编码网络层，提取所述初始文本样本的文本特征，其中，所述初始文本样本的文本特征与所述文本编码网络层适配。

其中，文本编码网络层负责将输入转化为特征，比如在输入数据为文本的情况下，文本编码网络层提取该文本的文本特征。

实际应用中，该文本编码网络层可以利用CLIP模型实现，CLIP模型能够实现文本编码和图像编码，例如在CLIP模型中输入文本，那么CLIP模型可以实现提取文本的文本特征的功能；或者在CLIP模型中输入图像，那么CLIP模型则可以实现提取图像的图像特征的功能。

在本说明书实施例中，以CLIP模型实现对输入的初始文本样本的文本特征的提取为例，进行详细说明，具体实现如下所述：

将初始文本样本输入CLIP模型，通过CLIP模型提取输入的初始文本样本的文本特征。

本说明书实施例提供的文本生成模型训练方法，通过文本生成模型中的文本编码网络层，提取初始文本样本的文本特征，以实现将初始文本样本转换为机器学习所能识别的语言。

步骤204：确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，基于所述多元高斯分布噪声、以及所述初始文本样本的文本特征，获得所述文本特征对应的图像特征。

其中，多元高斯分布噪声可以理解为，该噪声的概率密度函数服从多元高斯分布(即正态分布)的一类噪声。

图像特征可以理解为，将图像转换为可用于机器学习的数值特征。需要说明的是，本说明书中的文本特征以及图像特征表示的为文本特征向量以及图像特征向量。

模态差异可以理解为，不同模态的数据(如图像数据、文本数据、语音数据等)之间因数据形式、表示方式、语义等方面而存在的差异。

具体的，该多元高斯分布噪声可以用于表述文本特征与图像特征之间的模态差异，根据确定的多元高斯分布噪声以及初始文本样本的文本特征，将初始文本样本的文本特征映射为文本特征对应的图像特征。

在本说明书一个或多个实施例中，文本和图像这两种模态之间特征是存在差异的，而通过注入多元高斯分布噪声可以实现从一个模态到另一个模态的转换，具体来说，文本生成模型在训练过程中是使用的文本数据作为输入，提取文本的文本特征，但是该模型用作推理时输入是图像数据。在模型训练时在文本数据提取的文本特征上注入一个多元高斯分布噪声，可以实现将文本特征投影到图像特征，这样在应用该模型的情况下，就可以直接使用图像数据作为输入，提取图像的图像特征。具体实现方式如下所述：

所述确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，包括：

通过文本生成模型中的噪声采样网络层，确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声。

本说明书实施例提供的文本生成模型训练方法，在文本生成模型中包含噪声采样网络层，在该噪声采样网络层中可以确定多元高斯分布噪声，该多元高斯分布噪声用于表述文本特征与图像特征之间的模态差异，可以实现从文本特征空间到图像特征空间的转换。

在本说明书一个或多个实施例中，通过对图像文本成对数据中的文本特征和图像特征进行采样，计算文本特征和图像特征之间的差值，然后计算该差值的均值和协方差，从而根据计算出的均值和协方差进行噪声采样，确定多元高斯分布噪声。具体实现方式如下所述：

所述通过文本生成模型中的噪声采样网络层，确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，包括：

确定待采样的图像文本对；

通过所述文本生成模型中的噪声采样网络层，对所述待采样的图像文本对中的文本特征与图像特征之间的模态差异进行采样，根据采样结果确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声。

其中，待采样的图像文本对可以理解为，数据库中的图像文本对，也可以为从其他数据集中随机获得的图像文本对；采样可以理解为，计算文本特征以及图像特征之间的差值；采样结果可以理解为，计算出的文本特征以及图像特征之间差值的均值和协方差。

实际应用中，随机获取待采样的图像文本成对数据，将图像文本成对数据输入文本生成模型中的噪声采样网络层，在该噪声采样网络层中对待采样的图像文本成对数据中的文本特征与图像特征之间的模态差异进行采样，计算文本特征和图像特征之间的差值，然后计算该差值的均值和协方差作为多元高斯分布的均值和协方差参数，也就是说，一个多元高斯分布是通过均值和协方差参数确定的，通过均值和协方差来进行噪声采样，从而确定出用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声。

沿用上例，第一图像文本对和第二图像文本对中存在图像文本成对数据，均值和协方差直接可以通过第一图像文本对和第二图像文本对中的图像文本成对数据进行计算，例如，假设第一图像文本对有N张图像，对应N条文本数据，使用文本生成模型提取图像的图像特征大小为N*D1，文本的文本特征为N*D2，计算图像特征与文本特征的差值，大小为N*D3，然后计算该差值的均值和协方差作为多元高斯分布的均值和协方差参数。

对于第三图像文本对和文本数据，均值和协方差参数是作为文本生成模型参数的一部分通过模型训练进行学习的。

本说明书实施例提供的文本生成模型训练方法，通过文本生成模型中的噪声采样网络层，在提取到的文本特征上注入一个多元高斯分布噪声，从而实现从文本特征空间到图像特征空间的跨模态特征映射。

在本说明书一个或多个实施例中，在训练文本生成模型阶段，输入文本生成模型中的为文本数据，提取的为文本特征，而在应用文本生成模型阶段，输入文本生成模型中的为图像数据，提取的为图像特征，为了在应用文本生成模型的情况下，能够识别提取到的图像特征，在训练文本生成模型阶段，把文本特征映射为图像特征。具体实现方式如下所述：

所述基于所述多元高斯分布噪声、以及所述初始文本样本的文本特征，获得所述文本特征对应的图像特征，包括：

将所述多元高斯分布噪声以及所述初始文本样本的文本特征，输入所述文本生成模型的映射层；

在所述映射层，基于所述多元高斯分布噪声，将所述初始文本样本的文本特征，映射为所述文本特征对应的图像特征。

具体的，在映射层中存在Add&L2 Norm(残差连接和归一化)，将提取到的初始文本样本的文本特征以及确定的多元高斯分布噪声，输入文本生成模型的映射层中的Add&L2Norm，在该映射层中的Add&L2 Norm对文本特征以及多元高斯分布噪声进行相加并归一化，将文本特征以及多元高斯分布噪声进行合并、实现将文本特征映射为对应的图像特征。

本说明书实施例提供的文本生成模型训练方法，在文本生成模型的映射层中，在提取到的初始文本样本的文本特征上注入一个多元高斯分布噪声，将文本特征以及多元高斯分布噪声进行相加并归一化，实现将初始文本样本的文本特征映射为文本特征对应的图像特征。

步骤206：根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的目标文本特征。

其中，目标文本特征可以理解为，将图像特征反映射获得的文本特征。

在本说明书一个或多个实施例中，在初始文本的文本特征与文本编码网络层适配的情况下，根据所述文本特征对应的图像特征，反映射获得的与图像特征对应的目标文本特征、也与文本编码网络层适配。具体实现方式如下所述：

所述文本生成模型包括文本编码网络层；

相应地，所述根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的目标文本特征，包括：

根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的、与所述文本编码网络层适配的目标文本特征。

实际应用中，通过CLIP模型获得的初始文本样本的文本特征、位于CLIP模型的嵌入空间，那么在初始文本样本的文本特征位于CLIP模型的嵌入空间的情况下，根据文本特征对应的图像特征，反映射获得的与图像特征对应的目标文本特征、也位于CLIP模型的嵌入空间中。

本说明书实施例提供的文本生成模型训练方法，初始文本的文本特征与文本编码网络层适配，通过初始文本的文本特征对应的图像特征，反映射获得的目标文本特征、同样与文本编码网络层适配。

在本说明书一个或多个实施例中，将映射层输出的图像特征输入文本生成模型中的反映射层，通过该反映射层，将该图像特征映射回文本特征空间，以保证模型鲁棒性并避免模态崩塌问题。具体实现方式如下所述：

所述根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的目标文本特征，包括：

将所述文本特征对应的图像特征输入所述文本生成模型中的反映射层；

在所述反映射层，将所述文本特征对应的图像特征，反映射为所述图像特征对应的目标文本特征，其中，所述反映射层包括前馈网络层，且所述反映射层与所述映射层为非对称结构。

在前馈网络层中，将输入的图像特征经过一系列线性变换和激活函数处理得到一个中间结果，将该中间结果与输入的图像特征进行残差连接和归一化处理，得到图像特征对应的目标文本特征。

实际应用中，文本生成模型中的反映射层相当于增加了一个额外的重构约束，在映射层的输出不完全在图像特征空间的情况下，通过反映射层也可以将映射层的输出映射回文本特征空间。也就是说，如果不存在该反映射层，在映射层没有正确的将文本特征映射为图像特征的情况下，在文本生成模型的应用阶段，将图像作为输入，提取的为图像特征，此时文本生成模型就可能不会生成正确的文本描述(也就是模态崩塌)，而通过文本生成模型中的反映射层，在模型训练阶段约束反映射层输出的是文本特征，这样可以保证即使模型应用阶段和模型训练阶段存在一定的图像文本域差异，该文本生成模型也能在输入图像的情况下，正常生成图像对应的文本描述(也就是保证了模型鲁棒性)。

本说明书实施例提供的文本生成模型训练方法，文本生成模型中的反映射层将映射层输出的图像特征空间的图像特征向量再次映射回文本特征空间的文本特征向量，以保证模型的鲁棒性，并且避免了在文本生成模型的应用阶段，在输入图像的情况下，不能生成正确的文本描述的模态崩塌的问题。

步骤208：根据所述目标文本特征确定目标文本样本，根据所述初始文本样本以及所述目标文本样本，训练获得文本生成模型。

其中，目标文本样本可以理解为，根据目标文本特征获得的文本样本。

具体的，在确定目标文本样本的情况下，计算初始文本样本以及目标文本样本的损失函数，其中，损失函数是一个用于衡量模型预测与真实值之间差距的函数，如利用交叉熵损失函数来进行模型训练。

在本说明书一个或多个实施例中，文本生成模型包括文本编码网络层和文本解码网络层，其中，文本编码网络层负责提取初始文本样本的文本特征；文本解码网络层负责将目标文本特征解码生成目标文本，在文本编码网络层和文本解码网络层嵌入空间不同的情况下，需要将与文本编码网络层适配的特征、投影为能与文本解码网络层适配的特征。具体实现方式如下所述：

所述文本生成模型包括文本解码网络层；

相应地，所述根据所述目标文本特征确定目标文本样本，包括：

通过所述文本生成模型的特征投影层，将与所述文本编码网络层适配的所述目标文本特征投影为、与所述文本解码网络层适配的投影文本特征；

将所述投影文本特征输入所述文本解码网络层，在所述文本解码网络层，将所述投影文本特征解码为目标文本样本。

其中，文本解码网络层可以理解为，能够将文本特征解码生成文本的网络层。

实际应用中，该文本解码网络层可以利用GPT-2模型实现；GPT-2模型能够实现文本解码的功能；以通过CLIP模型实现对输入的初始文本样本的文本特征的提取、通过GPT-2模型实现将投影文本特征解码为目标文本样本为例，对该文本生成模型训练方法进行详细说明。

由于CLIP模型的嵌入空间和GPT-2模型的嵌入空间不一致，通过文本生成模型的特征投影层，可以将CLIP模型嵌入空间的目标文本特征投影到GPT-2模型可以处理的特征，从而将特征投影后的、GPT-2模型可以处理的投影文本特征，输入GPT-2模型，生成该投影文本特征对应的目标文本。

实际应用中，特征投影层包括多层结构，每一层的结构都是一致的，为一个Transformer的Encoder(编码)层，在特征投影层获得的目标文本特征来自于CLIP模型的嵌入空间，而获得的目标文本特征需要输入GPT-2模型中进行文本生成，但是CLIP模型和GPT-2模型之间存在域差异，GPT-2模型不能直接处理CLIP模型获得的目标文本特征，特征投影层相当于起到一个中间过渡的作用，把CLIP模型嵌入空间的目标文本特征投影为GPT-2模型可以处理的投影文本特征。

具体的，在没有提示信息的情况下，可以将特征投影层获得的投影文本特征输入GTP-2模型，通过GTP-2模型对投影文本特征进行解码，获得投影文本特征对应的目标文本样本。

本说明书实施例提供的文本生成模型训练方法，通过将目标文本特征输入特征投影层，实现将与文本编码网络层适配的目标文本特征投影为、与文本解码网络层适配的投影文本特征，从而在文本解码网络层将投影文本特征解码为目标文本样本。

在本说明书另一种实施例中，在存在额外的提示信息的情况下，构造一个提示交互层，在提示交互层，将额外的提示信息以及特征投影层获得的投影文本特征进行融合，以达到更准确的目标文本。具体实现方式如下所述：

所述将所述投影文本特征输入所述文本解码网络层，在所述文本解码网络层，将所述投影文本特征解码为目标文本样本，包括：

提取所述初始文本样本的关键词，并确定所述关键词的关键词文本特征；

将所述投影文本特征、以及所述关键词文本特征输入所述文本生成模型的提示交互层；

在所述提示交互层，将所述关键词文本特征与所述投影文本特征进行融合，获得融合特征；

将所述融合特征输入所述文本解码网络层，在所述文本解码网络层，将所述融合特征解码为目标文本样本。

其中，关键词可以理解为，初始文本样本中的能够体现初始文本样本关键信息的词语，例如初始文本样本为“一个男人骑着摩托车在路上走”的情况下，关键词可以为“男人、摩托车”等。

具体的，可以在文本生成模型之外利用关键词提取器，提取初始文本样本的关键词，也可以在文本生成模型构建一个关键词提取层，提取初始文本样本的关键词，本说明书对此不做限定。

提取初始文本样本的关键词之后，确定关键词的关键词文本特征，将关键词文本特征以及投影文本特征输入提示交互层，在提示交互层，将关键词文本特征以及投影文本特征进行融合，获得融合特征，再对该融合特征进行解码获得目标文本样本。

实际应用中，提示交互层包括Cross MSA(Cross Multi-head Self Attention，跨模态多头注意力)层，Add&Norm(残差连接和层归一化)层，Feedforward(前馈网络)层，Add&Norm(残差连接和层归一化)层。

将投影文本特征作为Query(查询)，关键词文本特征作为Key(索引)、Value(值)输入提示交互层中的Cross MSA层，计算Query和Key的相似度，将计算出的相似度和对应的Value相乘，和Value作加权，得到一个输出；将该输出与投影文本特征输入Add&Norm层，也就是说，每次数据经过注意力层后，都会添加原始数据作为参考，避免原始数据信息的丢失；将Add&Norm层的输出、输入Feedforward层，在Feedforward层将注意力机制的输出投影到更高维度的空间，这意味着数据被拉伸到更高的维度，因此数据的细节被放大，让注意力机制更加注意需要注意的地方，将Feedforward层的输出以及Add&Norm层的输出、输入Add&Norm层，需要说明的说，每次经过注意力机制与Feedforward前馈网络后都会有Add&Norm操作，最终得到关键词文本特征以及投影文本特征进行融合后的融合特征。

本说明书实施例提供的文本生成模型训练方法，在不存在提示信息(关键词)的情况下，对经过特征投影层后的投影文本特征进行解码获得目标文本样本；在存在提示信息(关键词)的情况下，将投影文本特征以及提示信息进行融合，以得到更准确的目标文本样本。

下述结合附图3，对所述文本生成模型训练方法进行进一步说明。其中，图3示出了本说明书一个实施例提供的一种文本生成模型训练方法的处理过程流程图，具体包括以下步骤。

本说明书实施例以文本生成模型包括一个参数固定的CLIP模型和一个GPT-2模型为例，对该文本生成模型训练方法进行详细说明，此外该文本生成模型还包括映射模块(Mapping Module)、反向映射模块(Reverse Mapping Module)、特征投影模块(PrefixProjector Module)以及提示交互模块(Prompt Interaction Module)，其中可以通过CLIP模型实现初始文本样本的文本特征提取，可以通过GTP-2模型实现将目标文本特征解码为目标文本样本。

步骤302：获取一个输入文本，将该输入文本输入文本生成模型，使用CLIP模型的文本编码器提取输入文本的文本特征向量，并使用Mapping Module将文本特征映射到CLIP模型的图像特征空间。

其中，文本编码器可以理解为上述实施例中的文本编码网络层；输入文本可以理解为上述实施例中的初始文本样本，如输入文本为“一个男人骑着摩托车在路上走”。

映射模块中包括噪声采样器和残差连接归一化；其中，噪声采样器可以理解为上述实施例中的噪声采样网络层；残差连接归一化可以理解为上述实施例中的Add&L2 Norm；映射模块可以理解为上述实施例中的映射层。

实际应用中，将提取的输入文本的文本特征向量输入映射模块，通过映射模块中的噪声采样器中获得多元高斯分布噪声，将文本特征向量以及多元高斯分布噪声输入映射模块中的残差连接归一化，通过残差连接归一化对文本特征向量以及多元高斯分布噪声进行融合，并实现将文本特征映射到图像特征。

具体的，Mapping Module有一个多元高斯分布驱动，在文本特征上注入一个多元高斯分布噪声来执行从文本特征空间到图像特征空间的跨模态特征映射，核心在于计算多元高斯分布的均值和协方差参数。

实际应用中，输入文本经过CLIP模型获得输入文本对应的文本特征向量，将文本特征向量输入映射模块，获得文本特征向量对应的图像特征向量。

具体实现可参见上述实施例，在此不再赘述。

步骤304：将通过Mapping Module获得的图像特征向量输入Reverse MappingModule，使用Reverse Mapping Module将CLIP图像特征空间的图像特征向量再次映射回CLIP文本特征空间。

其中，反向映射模块可以理解为上述实施例中的反映射层，反向映射模块包括前馈网络层以及残差连接归一化，其中，残差连接归一化即上述实施例中的Add&Norm。

实际应用中，将步骤302获得的图像特征向量输入反向映射模块中，在前馈网络层中，将输入的图像特征向量经过一系列线性变换和激活函数处理得到一个中间结果，将该中间结果与输入的图像特征进行残差连接和归一化处理，得到图像特征对应的目标文本特征向量。

具体实现可参见上述实施例，在此不再赘述。

步骤306：将通过Reverse Mapping Module获得的目标文本特征向量输入PrefixProjector Module进行特征投影。

其中，特征投影模块可以理解为上述实施例中的特征投影层。

实际应用中，由于CLIP模型嵌入空间与GPT-2模型嵌入空间不一致，可以构造了一个Prefix Projector Module进行特征投影，由多层的Transformer Encoder(与提示交互模块的结构类似)构成，具体的，将步骤304输出的目标文本特征向量输入特征投影模块中，获得投影文本特征向量(即上述实施例中的投影文本特征)。

具体实现可参见上述实施例，在此不再赘述。

步骤308：获取输入文本的提示信息，将该提示信息、与通过Prefix ProjectorModule获得的投影文本特征向量进行融合。

具体的，为进一步赋予文本生成模型处理可选提示信息的能力，构造了一个Prompt Interaction Module，在模型训练阶段提取输入文本的关键词，或者在模型应用阶段用户可以选择性的提供额外的提示信息，该提示交互模块在提示信息上应用注意力机制以实现信息融合。

其中，提示信息可以理解为上述实施例中的关键词，在输入文本为“一个男人骑着摩托车在路上走”的情况下，提示信息为“男人，摩托车等”；提示交互模块可以理解为上述实施例中的提示交互层。

实际应用中，将步骤308输出的投影文本特征向量作为Q(即上述实施例中的Query)，将提示信息作为K(即上述实施例中的Key)、V(即上述实施例中的Value)输入提示交互模块中的跨模态多头注意力层，在该跨模态多头注意力层中计算注意力，从而更好地捕捉输入中的不同方面的信息；将Q以及跨模态多头注意力层的输出、输入残差连接归一化层，将残差连接归一化层的输出、输入前馈网络层以及下一级的残差连接归一化层，并且将前馈网络层的输出也输入下一级的残差连接归一化层，获得融合特征。

具体实现可参见上述实施例，在此不再赘述。

步骤310：使用GPT-2模型进行文本描述生成。

实际应用中，将步骤308获得的融合特征输入GPT-2模型的文本解码器，获得目标文本“一个男人骑着摩托车在路上走”。

其中，文本解码器可以理解为上述实施例中的文本解码网络层；文本描述可以理解为上述实施例中的目标文本。

具体实现可参见上述实施例，在此不再赘述。

本说明书实施例提供的文本生成模型训练方法，通过一个多元高斯分布噪声执行文本特征空间到图像特征空间的映射，从而实现使用文本语料库以自监督的形式驱动模型训练，极大的降低了对成对数据的依赖，此外，在文本生成模型中构造一个提示交互模块用于融合可选的提示信息以提高文本生成模型生成文本描述的性能。

参见图4，图4示出了本说明书一个实施例提供的一种文本生成方法的流程图。

步骤402：确定待文本生成的图像，将所述待文本生成的图像输入文本生成模型。

其中，待文本生成的图像可以理解为，用于获得图像描述的图像。

具体的，接收用户输入的、用于获得图像描述的图像，将该模型输入文本生成模型，此外，在用户提供额外提示信息的情况下，接收用户输入的额外提示信息，将额外提示信息输入文本生成模型。

例如，接收用户输入的一张图像为一个男人在冲浪，将该图像输入文本生成模型，同时，还可以将用户提供的额外提示信息如“人、冲浪板、水面”等输入到文本生成模型中。

步骤404：通过所述文本生成模型，生成与所述待文本生成的图像对应的目标文本，其中，所述文本生成模型为根据所述文本生成模型训练方法训练获得。

其中，目标文本可以理解为，与待文本生成的图像中的图像目标或物体、对应的相关描述的文本。

实际应用中，通过上述实施例获得的文本生成模型，生成与待文本生成的图像相关语义的图像描述。

沿用上例，通过上述文本生成模型，输入一张图像为一个男人在冲浪的情况下，输出的文本为“一个男人站在冲浪板上在水面上冲浪”。

本说明书实施例提供的文本生成方法，能够实现在文本生成模型中输入一张图像的情况下，生成与该输入的图像对应的图像描述文本，以完成图像描述任务。

参见图5，图5示出了本说明书一个实施例提供的一种文本生成方法的应用过程示意图。

将图像输入文本生成模型，通过本生成模型生成与该图像对应的图像描述文本。

其中，图像可以理解为上述实施例中的待文本生成的图像，图像描述文本可以理解为上述实施例中的目标文本。

实际应用中，将一个男人骑着摩托车的图像输入文本生成模型，通过文本生成模型，输出的图像描述文本为“一个男人骑着摩托车在路上走”。

上述为本实施例的一种文本生成方法的示意性方案。需要说明的是，该文本生成方法的技术方案与上述的文本生成模型训练方法的技术方案属于同一构思，文本生成方法的技术方案未详细描述的细节内容，均可以参见上述文本生成模型训练方法的技术方案的描述。

参见图6，图6示出本说明书一个实施例提供的一种图像生成模型训练方法的流程图。

与上述文本生成模型训练方法相对应的，可以实现一种图像生成模型训练方法，在实际应用中，可对文本生成模型训练方法获得的文本生成模型进行调整获得图像生成模型，例如可以将文本生成模型中的文本解码网络层替换为图像解码网络层，以实现根据图像特征确定目标图像。

其中，图像解码网络层可以利用Diffusion模型(一种深度生成模型)、AutoEncoder(自编码器)模型(一种深度生成模型)等实现，用于根据图像特征生成目标图像。

步骤602：确定初始图像样本，提取所述初始图像样本的图像特征。

步骤604：确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，基于所述多元高斯分布噪声、以及所述初始图像样本的图像特征，获得所述图像特征对应的文本特征。

步骤606：根据所述图像特征对应的文本特征，反映射获得所述文本特征对应的目标图像特征。

步骤608：根据所述目标图像特征确定目标图像样本，根据所述初始图像样本以及所述目标图像样本，训练获得图像生成模型。

具体的，步骤602-步骤608的具体实现可参见步骤202-步骤208。

上述为本实施例的一种图像生成模型训练方法的示意性方案。需要说明的是，该图像生成模型训练方法的技术方案与上述的文本生成模型训练方法的技术方案属于同一构思，图像生成模型训练方法的技术方案未详细描述的细节内容，均可以参见上述文本生成模型训练方法的技术方案的描述。

参见图7，图7示出本说明书一个实施例提供的一种图像生成方法的流程图。

步骤702：确定待图像生成的文本，将所述待图像生成的文本输入图像生成模型。

步骤704：通过所述图像生成模型，生成与所述待图像生成的文本对应的目标图像，其中，所述图像生成模型为根据所述图像生成模型训练方法训练获得。

上述为本实施例的一种图像生成方法的示意性方案。需要说明的是，该图像生成方法的技术方案与上述的文本生成模型训练方法的技术方案属于同一构思，图像生成方法的技术方案未详细描述的细节内容，均可以参见上述文本生成模型训练方法的技术方案的描述。

参见图8，图8示出本说明书一个实施例提供的一种应用于云端的文本生成模型训练方法的流程图。

步骤802：接收终端发送的初始文本样本，提取所述初始文本样本的文本特征。

其中，终端可以理解为各种电子设备，可以是有屏设备，也可以是无屏设备。包括但不限于智能手机、平板电脑、智能音箱、智能电视、PC(Personal Computer，个人计算机)、可穿戴式设备等等。

步骤804：确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，基于所述多元高斯分布噪声、以及所述初始文本样本的文本特征，获得所述文本特征对应的图像特征。

步骤806：根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的目标文本特征。

步骤808：根据所述目标文本特征确定目标文本样本，根据所述初始文本样本以及所述目标文本样本，训练获得文本生成模型。

步骤810：将所述文本生成模型发送至所述终端。

实际应用中，可以将训练好的文本生成模型发送至终端，使文本生成模型部署在终端中。

上述为本实施例的一种文本生成模型训练方法，应用于云端的示意性方案。需要说明的是，该文本生成模型训练方法，应用于云端的技术方案与上述的文本生成模型训练方法的技术方案属于同一构思，文本生成模型训练方法，应用于云端的技术方案未详细描述的细节内容，均可以参见上述文本生成模型训练方法的技术方案的描述。。

与上述方法实施例相对应，本说明书还提供了文本生成模型训练装置实施例，图9示出了本说明书一个实施例提供的一种文本生成模型训练装置的结构示意图。如图9所示，该装置包括：

特征提取模块902，被配置为确定初始文本样本，提取所述初始文本样本的文本特征；

图像特征确定模块904，被配置为确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，基于所述多元高斯分布噪声、以及所述初始文本样本的文本特征，获得所述文本特征对应的图像特征；

文本特征获得模块906，被配置为根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的目标文本特征；

模型获得模块908，被配置为根据所述目标文本特征确定目标文本样本，根据所述初始文本样本以及所述目标文本样本，训练获得文本生成模型。

可选地，所述图像特征确定模块904，进一步被配置为：

确定待采样的图像文本对；

可选地，所述图像特征确定模块904，进一步被配置为：

可选地，所述文本特征获得模块906，进一步被配置为：

可选地，所述特征提取模块902，进一步被配置为：

可选地，所述文本特征获得模块906，进一步被配置为：

可选地，所述模型获得模块908，进一步被配置为：

可选地，所述特征提取模块902，进一步被配置为：

其中，所述第一图像文本对中的图像文本对的质量高于所述第二图像文本对中的图像文本对的质量，所述第二图像文本对中的图像文本对的质量高于所述第三图像文本对中的图像文本对的质量。

该装置通过确定初始文本样本，提取初始文本样本的文本特征，并确定多元高斯分布噪声，多元高斯分布噪声能够比独立高斯分布噪声更优的表述文本特征与图像特征之间的模态差异；根据初始文本样本的文本特征和多元高斯分布噪声，获得文本特征对应的图像特征，根据图像特征反映射获得图像特征对应的目标文本特征，避免上述在文本特征没有正确获得对应的图像特征的情况下，出现模态崩塌的问题；根据目标文本特征确定目标文本样本，根据初始文本样本以及目标文本样本，训练获得文本生成模型，该训练获得的文本生成模型无需成对数据即可实现图像描述任务，仅将文本数据作为训练样本即可实现对模型的训练，节省了数据标注环节，降低了成本。

上述为本实施例的一种文本生成模型训练装置的示意性方案。需要说明的是，该文本生成模型训练装置的技术方案与上述的文本生成模型训练方法的技术方案属于同一构思，文本生成模型训练装置的技术方案未详细描述的细节内容，均可以参见上述文本生成模型训练方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了图像生成模型训练装置实施例，图10示出了本说明书一个实施例提供的一种图像生成模型训练装置的结构示意图。如图10所示，该装置包括：

特征提取模块1002，被配置为确定初始图像样本，提取所述初始图像样本的图像特征；

文本特征确定模块1004，被配置为确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，基于所述多元高斯分布噪声、以及所述初始图像样本的图像特征，获得所述图像特征对应的文本特征；

图像特征获得模块1006，被配置为根据所述图像特征对应的文本特征，反映射获得所述文本特征对应的目标图像特征；

模型获得模块1008，被配置为根据所述目标图像特征确定目标图像样本，根据所述初始图像样本以及所述目标图像样本，训练获得图像生成模型。

该装置通过确定初始图像样本，提取初始图像样本的图像特征，并确定多元高斯分布噪声，多元高斯分布噪声能够比独立高斯分布噪声更优的表述文本特征与图像特征之间的模态差异；根据初始图像样本的图像特征和多元高斯分布噪声，获得图像特征对应的文本特征，根据文本特征反映射获得文本特征对应的目标图像特征，避免上述在图像特征没有正确获得对应的文本特征的情况下，出现模态崩塌的问题；根据目标图像特征确定目标图像样本，根据初始图像样本以及目标图像样本，训练获得图像生成模型，该训练获得的图像生成模型无需成对数据即可实现图像生成任务，仅将图像数据作为训练样本即可实现对模型的训练，节省了数据标注环节，降低了成本。

上述为本实施例的一种图像生成模型训练装置的示意性方案。需要说明的是，该图像生成模型训练装置的技术方案与上述的文本生成模型训练方法的技术方案属于同一构思，图像生成模型训练装置的技术方案未详细描述的细节内容，均可以参见上述文本生成模型训练方法的技术方案的描述。

图11示出了根据本说明书一个实施例提供的一种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接，数据库1150用于保存数据。

计算设备1100还包括接入设备1140，接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)。

在本说明书的一个实施例中，计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图11所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。

其中，处理器1120用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本生成模型训练方法以及文本生成方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本生成模型训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本生成模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本生成模型训练方法以及文本生成方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本生成模型训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本生成模型训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本生成模型训练方法以及文本生成方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的文本生成模型训练方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述文本生成模型训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减，例如在某些地区，根据专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本生成模型训练方法，包括：

确定初始文本样本，提取所述初始文本样本的文本特征；

2.根据权利要求1所述的文本生成模型训练方法，所述确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，包括：

3.根据权利要求2所述的文本生成模型训练方法，所述通过文本生成模型中的噪声采样网络层，确定用于表述文本特征与图像特征之间的模态差异的多元高斯分布噪声，包括：

确定待采样的图像文本对；

4.根据权利要求1所述的文本生成模型训练方法，所述基于所述多元高斯分布噪声、以及所述初始文本样本的文本特征，获得所述文本特征对应的图像特征，包括：

5.根据权利要求1所述的文本生成模型训练方法，所述根据所述文本特征对应的图像特征，反映射获得所述图像特征对应的目标文本特征，包括：

6.根据权利要求1所述的文本生成模型训练方法，所述文本生成模型包括文本编码网络层；

相应的，所述提取所述初始文本样本的文本特征，包括：

将所述初始文本样本输入文本生成模型，通过所述文本生成模型中的文本编码网络层，提取所述初始文本样本的文本特征，其中，所述初始文本样本的文本特征与所述文本编码网络层适配；

7.根据权利要求6所述的文本生成模型训练方法，所述文本生成模型包括文本解码网络层；

8.根据权利要求7所述的文本生成模型训练方法，所述将所述投影文本特征输入所述文本解码网络层，在所述文本解码网络层，将所述投影文本特征解码为目标文本样本，包括：

9.根据权利要求1所述的文本生成模型训练方法，所述确定初始文本样本，包括：

10.一种文本生成模型训练方法，应用于云端，包括：

将所述文本生成模型发送至所述终端。

11.一种文本生成方法，包括：

通过所述文本生成模型，生成与所述待文本生成的图像对应的目标文本，其中，所述文本生成模型为根据权利要求1-10任意一项所述文本生成模型训练方法训练获得。

12.一种文本生成方法，应用于云端，包括：

通过所述文本生成模型，生成与所述待文本生成的图像对应的目标文本，其中，所述文本生成模型为根据权利要求1-10任意一项所述文本生成模型训练方法训练获得；

将所述目标文本发送至所述终端。

13.一种文本生成模型训练装置，包括：

14.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至10任意一项所述文本生成模型训练方法，或者实现权利要求11至12所述文本生成方法的步骤。