CN118114788A

CN118114788A - 图像生成模型的训练方法、图像生成方法及相关设备

Info

Publication number: CN118114788A
Application number: CN202410311418.8A
Authority: CN
Inventors: 李军伟
Original assignee: Xingyin Information Technology Shanghai Co ltd
Current assignee: Xingyin Information Technology Shanghai Co ltd
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-05-31

Abstract

本申请公开了一种图像生成模型的训练方法、图像生成方法及相关设备。该方法包括：获取多个训练数据对；针对第一训练数据对，基于文本理解模块，对第一训练数据对中的第一训练文本进行理解，得到第一向量；将第一向量和第一训练文本的嵌入向量进行交互，得到第二向量；基于第二向量和维度映射模块，生成图像生成模块所需的输入特征维度的第三向量；基于图像生成模块和第三向量，生成与第一训练文本对应的目标图像；基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失；基于目标损失，冻结图像生成模块的参数，对文本理解模块和维度映射模块进行训练，得到图像生成模型。

Description

图像生成模型的训练方法、图像生成方法及相关设备

技术领域

本申请涉及图像生成技术领域，具体涉及一种图像生成模型的训练方法、图像生成方法及相关设备。

背景技术

目前，在基于文本的图像生成领域，比如采用扩散模型进行文生图，一般这类模型的输入文本是通过精心设计的图像生成提示文本或者简单的短文本(比如字符长度小于阈值)，而对于复杂的长文本(比如字符长度大于阈值)而言，由于这类模型无法很好地理解复杂的长文本，对长文本的处理难度更大，使得这类模型生成图像的难度更大，降低了图像的生成精度。

发明内容

本申请提供了一种图像生成模型的训练方法、图像生成方法及相关设备，降低了图像生成的难度，提高了图像的生成精度。

第一方面，本申请提供一种图像生成模型的训练方法，图像生成模型包括文本理解模块、维度映射模块、图像生成模块，该方法包括：

获取多个训练数据对，其中，每个训练数据对包括训练文本、与训练文本对应的正相关图像和负相关图像；

针对第一训练数据对，基于文本理解模块，对第一训练数据对中的第一训练文本进行理解，得到第一向量，其中，第一训练数据对为多个训练数据对中的任意一个；

将第一向量和第一训练文本的嵌入向量进行交互，得到第二向量；

将第二向量输入到维度映射模块，得到第三向量；

将第三向量输入到图像生成模块，生成与第一训练文本对应的目标图像；

基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失；

基于目标损失，对文本理解模块和维度映射模块进行训练，得到图像生成模型。

第二方面，本申请提供一种图像生成方法，该方法包括：

获取目标文本，其中，目标文本的长度大于长度阈值；

对目标文本进行语义理解，得到文本向量；

对文本向量与目标文本的嵌入向量进行交互，得到交互向量；

对交互向量进行维度映射，得到目标向量；

基于目标向量，生成与目标文本对应的图像。

第三方面，本申请提供一种图像生成模型的训练装置，图像生成模型包括文本理解模块、维度映射模块、图像生成模块，装置包括：第一获取单元和第一处理单元；

第一获取单元，用于获取多个训练数据对，其中，每个训练数据对包括训练文本、与训练文本对应的正相关图像和负相关图像；

第一处理单元，用于针对第一训练数据对，基于文本理解模块，对第一训练数据对中的第一训练文本进行理解，得到第一向量，其中，第一训练数据对为多个训练数据对中的任意一个；

第一处理单元，还用于将第一向量和第一训练文本的嵌入向量进行交互，得到第二向量；

第一处理单元，还用于将第二向量输入到维度映射模块，得到第三向量；

第一处理单元，还用于将第三向量输入到图像生成模块，生成与第一训练文本对应的目标图像；

第一处理单元，还用于基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失；

第一处理单元，还用于基于目标损失，对文本理解模块和维度映射模块进行训练，得到图像生成模型。

第四方面，本申请提供一种服务器，服务器包括：第二获取单元和第二处理单元；

第二获取单元，用于获取目标文本，其中，目标文本的长度大于长度阈值；

第二处理单元，用于对目标文本进行语义理解，得到文本向量；

第二处理单元，还用于对文本向量与目标文本的嵌入向量进行交互，得到交互向量；

第二处理单元，还用于对交互向量进行维度映射，得到目标向量；

第二处理单元，还用于基于目标向量，生成与目标文本对应的图像。

第五方面，本申请提供一种电子设备，包括：处理器和存储器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行如第一方面或第二方面的方法。

第六方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行如第一方面或第二方面的方法。

第七方面，本申请提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机可操作来使计算机执行如第一方面或第二方面的方法。

实施本申请，具有如下有益效果：

本申请通过提供一种图像生成模型的训练方法，该图像生成模型包括文本理解模块、维度映射模块、图像生成模块，然后通过获取多个训练数据对，其中，每个训练数据对包括训练文本、与训练文本对应的正相关图像和负相关图像；然后针对第一训练数据对，基于文本理解模块对第一训练数据对中的第一训练文本进行理解，得到第一向量；然后将第一训练和第一训练文本的嵌入向量进行交互，得到第二向量；然后基于第二向量和维度映射模型，生成图像生成模块所需的输入特征维度的第三向量，然后基于第三向量和图像生成模块，生成与第一训练文本对应的目标图像，然后基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失，最后基于目标损失，冻结图像生成模块的参数，对文本理解模型和特征维度映射模块进行训练，得到图像生成模型。也就是说，本申请中的图像生成模块可以理解为是生成图像的扩散模型，本申请通过多个训练文本(比如社交型、描述型、广告型、文章型等各种类型、字符长度也不限定)，将每个训练文本进行理解、交互、维度映射等操作转换为图像生成模块用于生成图像的隐式提示词(即第三向量)，然后直接基于图像生成模块和该隐式提示词，生成对应的目标图像，最后基于目标损失对文本理解模块和维度映射模块进行训练，得到图像生成模型，使得针对复杂的超长文本而言，都可以使用本申请训练得到的图像生成模型，降低了图像生成难度，提高了图像生成精度，相比于将不符合图像生成模块的输入特征维度的超长文本直接输入到图像生成模块，由于图像生成模型无法正确理解超长文本即使得图像生成模块的处理难度更大，而本申请输入的第三向量满足图像生成模块的输入特征维度，图像生成模块直接基于输入的第三向量进行图像生成，即降低了图像生成模块的处理难度，进而保证了图像生成的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像生成模型的训练方法的流程示意图；

图2为本申请实施例提供的一种图像生成模型的训练示意图；

图3为本申请实施例提供的一种图像生成方法的流程示意图；

图4为本申请实施例提供的一种图像生成***的示意图；

图5为本申请的实施例提供的一种图像生成的场景示意图；

图6为本申请实施例提供的一种图像生成模型的训练装置的功能单元组成框图；

图7为本申请实施例提供的一种服务器的功能单元组成框图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

首先，对本申请所涉及的相关技术和相关术语进行解释说明：

用户生成内容(User Generated Content，UGC)：也称用户分享内容，即用户将自己创作生成的内容通过互联网平台进行展示或者提供给其他用户。

从上述背景技术可知，在基于文本的图像生成领域(即文生图)，比如基于扩散模型(St able Diffusion Model，SDM)生成图像，由于扩散模型的输入文本一般是通过精心设计的图像生成提示词或者简单的短文本，它们的字符长度一般小于阈值；但是对于较复杂的超长文本(其字符长度一般大于阈值)而言，扩散模型无法很好地正确理解该复杂的超长文本，对超长文本的处理难度更大，使得模型生成图像的难度也更大，进而降低图像生成的精度。

因此，本申请通过提供一种图像生成模型的训练方法，该图像生成模型包括文本理解模块、维度映射模块、图像生成模块，然后通过获取多个训练数据对，其中，每个训练数据对包括训练文本、与训练文本对应的正相关图像和负相关图像；然后针对第一训练数据对，基于文本理解模块对第一训练数据对中的第一训练文本进行理解，得到第一向量；然后将第一训练和第一训练文本的嵌入向量进行交互，得到第二向量；然后基于第二向量和维度映射模型，生成图像生成模块所需的输入特征维度的第三向量，然后基于第三向量和图像生成模块，生成与第一训练文本对应的目标图像，然后基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失，最后基于目标损失，冻结图像生成模块的参数，对文本理解模型和特征维度映射模块进行训练，得到图像生成模型。也就是说，本申请中的图像生成模块可以理解为是生成图像的扩散模型，本申请通过多个训练文本(比如社交型、描述型、广告型、文章型等各种类型、字符长度也不限定)，将每个训练文本进行理解、交互、维度映射等操作转换为图像生成模块用于生成图像的隐式提示词(即第三向量)，然后直接基于图像生成模块和该隐式提示词，生成对应的目标图像，最后基于目标损失对文本理解模块和维度映射模块进行训练，得到图像生成模型，使得针对复杂的超长文本而言，都可以使用本申请训练得到的图像生成模型，降低了图像生成难度，提高了图像生成精度，相比于将不符合图像生成模块的输入特征维度的超长文本直接输入到图像生成模块，由于图像生成模型无法正确理解超长文本即使得图像生成模块的处理难度更大，而本申请输入的第三向量满足图像生成模块的输入特征维度，图像生成模块直接基于输入的第三向量进行图像生成，即降低了图像生成模块的处理难度，进而保证了图像生成的精度。

参阅图1，图1为本申请实施例提供的一种图像生成模型的训练方法的流程示意图。

本申请实施例中的图像生成模型包括文本理解模块、维度映射模块、图像生成模块，该方法包括但不限于步骤S101-S107：

S101、获取多个训练数据对。

在本申请的实施例中，每个训练数据对包括训练文本、与训练文本对应的正相关图像和负相关图像，其中，本申请对训练文本的类型不限、字符长度不限。示例性的，步骤S101中的多个训练数据对的构造方法可以为：

首先，获取多个用户生成内容，其中，每个用户生成内容包括文本和多个图像，比如用户通过互联网平台分享文案并附上配图，每个用户分享的文案和该文案对应的配图可以视作一个用户生成内容；然后，针对第一用户生成内容，确定第一用户生成内容中的第一文本与第一用户生成内容中的多个第一图像的相关度，其中，第一用户生成内容为多个用户生成内容中的任意一个，比如，对第一文本进行特征提取，得到第一特征向量，以及对第一文本对应的多个第一图像中的每个第一图像进行特征提取，得到每个第一图像对应的第二特征向量，然后将第一特征向量映射为目标维度，得到第三特征向量，以及将每个第二特征向量映射为目标维度，得到多个第四特征向量，然后将第三特征向量和每个第四特征向量进行点击操作，得到第一文本与每个第一图像的相关度。当然在一种可选的实施例中，确定第一文本与每个第一图像的相关度还可以为：针对目标第一图像，对第一文本进行实体对象提取，得到第一实体对象，以及对目标第一图像进行实体对象进行提取，得到第二实体图像，其中，目标第一图像为第一文本对应的多个第一图像中的任意一个；对目标第一图像进行颜色特征提取，得到第一颜色特征，比如可以采用颜色直方图、颜色选择算法、颜色矢量算法等等，最终第一颜色特征包括目标第一图像中的主要颜色；以及对第一文本进行语义分析，确定第一文本的类型，其中，第一文本的类型包括陈述类(也可视为描述类，比如广告领域中对某一产品的描述、叙述类等)、情绪类中的愉悦类型、悲伤类型、愤怒类型、恐惧类型等；然后基于第一文本的类型与颜色的对应的关系，确定与第一文本对应的目标颜色；然后基于该目标颜色与目标第一图像中的主要颜色、第一实体对象和第二实体对象，确定第一文本与目标第一图像的相关度，同理以得到第一文本与每个第一图像的相关度，比如，第一实体对象和第二实体对象的数量均可以为一个或多个，确定每个第一实体对象和每个第二实体对象中所属类别相同的实体对象的数量，确定类别相同的实体对象的数量和第一实体对象的数量的第一比值，以及确定类别相同的实体对象的数量和第一实体对象的数量的第二比值，然后基于第一比值、第二比值以及比值与相关度之间的目标映射的关系，确定第一文本对应的第一相似度，比如将第一比值和第二比值求平均，然后基于平均后的比值和目标映射关系，确定第一相似度，然后计算目标颜色与目标第一图像中的主要颜色的第二相似度，然后基于第一相似度、第二相似度以及分别对应的预设权重，得到第一文本与目标第一图像的相关度，同理可以得到第一文本与每个第一图像的相关度。

然后，基于第一文本与每个第一图像的相关度，以及每个用户生成内容包括的多个图像，确定第一文本对应的正相关图像和负相关图像，比如，将第一文本对应的多个第一图像中与第一文本的相关度最高的图像确定为第一文本对应的正相关图像，然后从多个第二用户生成内容包括的图像中选择预设数量的图像，其中，多个第二用户生成内容为多个用户生成内容中除第一用户生成内容之外的用户生成内容，然后将第一文本对应的多个第一图像中与第一文本的相关度最低的图像、上述预设数量的图像确定为第一文本对应的负相关图像；可选的，还可以将第一文本对应的多个第一图像中相关度大于第一阈值的第一图像确定为第一文本对应的正相关图像，以及将第一文本对应的多个第一图像中相关度小于第二阈值的第一图像、上述预设数量的图像确定为第一文本对应的负相关图像，其中，第二阈值小于或者等于第一阈值。

最后，基于第一文本、第一文本对应的正相关图像、第一文本对应的负相关图像，构建与第一用户生成内容对应的训练数据对，以得到多个训练数据对，比如，由于第一文本对应的正相关图像和负相关图像的数量均可以为一个或多个，因此，第一用户生成内容对应的训练数据对可以由第一文本、与第一文本对应的一个正相关图像、与第一文本对应的一个负相关图像构成，同理便可以得到多个训练数据对，此处不再赘述，此时任意两个训练数据对中的正相关图像和负相关图像不完全相同；当然，第一用户生成内容对应的训练数据对还可以由第一文本、第一文本对应的所有正相关图像和第一文本对应的所有负相关图像构成，同理便可以得到多个训练对，此时可以理解为多个训练数据对于多个用户生成内容一一对应，应说明，本申请对多个训练数据对的具体构造方式不作具体限定。

S102、针对第一训练数据对，基于文本理解模块，对第一训练数据对中的第一训练文本进行理解，得到第一向量。

在本申请的实施例中，第一训练数据对为多个训练数据对中的任意一个，文本理解模块可以采用BERT模型作为初始化的模型，因此，在步骤S102之前，需要先对初始文本理解模块进行微调训练，具体的：

首先获取多个文本图像对，其中，多个文本图像可以随机构造，也可以为上述的多个用户生成内容中的文本和图像构造，比如每个文本图像对中包括一个用户生成内容中的文本、与该文本对应的正相关图像或者对应的负相关图像，本申请不作具体限定；然后针对第一文本图像对，对第一文本图像对中的第一图像进行特征提取，得到第四向量，也就是说，对第一图像进行视觉特征提取，本申请对视觉特征提取的具体方式不作限定，其中，第一文本图像对为多个文本图像对中的任意一个；然后获取目标提示词，其中，目标提示词表示基于文本图像对中的图像，对文本图像对中的文本进行摘要提取，也即是说，目标提示词的作用是用于提示对文本进行摘要概括，且该摘要概括是需要包括该文本对应的图像中的视觉特征；然后对第一文本图像对中的第一文本添加目标提示词，得到第二文本；然后基于第二文本和第四向量，确定多个第三文本，示例性的，对第二文本进行特征提取，得到第五向量，然后获取与第一文本图像对对应的查询向量，其中，该查询向量的参数是可以学习的，然后对查询向量进行自注意力机制处理，得到第六向量，然后将第四向量和第六向量进行特征交互，得到第七向量，然后将第五向量和第七向量进行特征交互，得到第八向量，然后基于第八向量，得到与第一文本对应的文本生成结果，即基于第八向量生成与第一文本对应的摘要，此时第一文本对应的文本生成结果可以理解为第一文本对应的摘要，然后基于每个文本图像对中的文本所对应的文本生成结果，确定多个第三文本，应说明，由于上述的文本图像对中的文本和图像会存在不相关的情形，即基于图像无法对该图像对应的文本进行摘要提取，即最终得到的文本生成结果为空(即未提取到摘要)，因为无法从图像和文本中提取到相同的特征，因此，现在基于每个文本图像对中的文本对应的文本生成结果是否为空来确定多个第三文本，比如将文本生成结果不为空的这部分文本生成结果中的文本确定为上述目标文本；最后基于确定多个第三文本，对初始文本理解模块进行训练，得到文本理解模块，示例性的，针对第四文本(为确定多个第三文本中的任意一个)，对第四文本进行词向量化，得到第一词向量，然后对第一词向量进行掩码处理(比如对第一词向量中的第一数量的子词向量进行掩码处理，本申请对第一数量不作具体限定)，得到第二词向量，然后对多个第二词向量进行注意力机制处理，比如多头注意力机制(Multi-Head Self-Attention)，得到第三词向量，然后对第三词向量和第一词向量进行残差处理后归一化，得到第四词向量，以及将第三词向量输入前馈神经网络(feedforward neural network，FNN)，得到第五词向量；再将第五词向量和第四词向量进行残差处理后归一化，得到第六词向量，然后将第六词向量输入全连接层，得到第四文本中每个词属于词集合中每个词的概率，然后基于第四文本中每个词属于词集合(比如预设的词汇表)中每个词的概率，确定第一损失，然后基于第一损失对初始文本理解模块进行训练，直至第一损失小于预设损失阈值，得到文本理解模块，其中，第一损失可以通过公式(1)得到：

其中，Loss₁表示第一损失，N表示第四文本中词的数量，w_i表示第四文本中的第i个词，或者N还可以为第四文本中被掩码的词的数量，此时w_i表示第四文本中被掩码的词中的第i个词，W_\i表示第四文本中除了w_i以外的词所构成的集合，P(w_i/W_\i)表示给定其他词的条件下(即第四文本中除了w_i以外的词)，第i个词属于词集合中的w_i的概率。

进一步地，在对初始文本理解模块进行微调训练得到文本理解模块之后，便可以将第一训练数据对中的第一训练文本输入文本理解模块，输出得到第一向量，具体的：对第一训练文本进行词嵌入，得到与第一训练文本对应的词嵌入向量，然后对该词嵌入向量进行掩码处理，得到掩码后的词向量，然后对掩码后的词向量进行类似于上述对多个第二词向量所进行的后续处理操作得到第六词向量的原理处理，输出得到第一向量，此处不再赘述。

S103、将第一向量和第一训练文本的嵌入向量进行交互，得到第二向量。

在本申请的实施例中，可以将第一向量和第一训练文本的嵌入向量采用交叉注意力机制，实现特征交互，得到第二向量。

S104、将第二向量输入到维度映射模块，得到第三向量。

在本申请的实施例中，第三向量的特征维度与图像生成模块的输入特征维度相同，示例性的，确定第二向量中的目标词向量，其中，该目标词向量用于表征包括第一训练文本的完整语义特征，比如可以将第二向量中与第一训练文本的第一个token对应的向量确定为目标词向量；然后基于维度映射模块，对目标词向量进行维度映射，得到第三向量，应说明，在本申请的实施例中，维度映射模块的参数也是可以学习的，以保证可以得到图像生成模块所需的输入特征，进而保证图像生成质量和效率。

S105、将第三向量输入到图像生成模块，生成与第一训练文本对应的目标图像。

在本申请的实施例中，图像生成模块可以为扩散模型，因此，基于图像生成模块生成目标图像具体可以为：获取噪声图像，然后对噪声图像进行特征提取，得到第九向量，获取预设去噪步数，然后在每一步去噪过程中，基于第三向量的引导去噪，对第九向量对应的噪声图像进行预设去噪步数的去噪，得到第十向量，然后对第十向量进行解码，得到目标图像。

S106、基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失。

在本申请的实施例中，步骤S106可以为：确定每个训练数据对对应的目标图像和每个训练数据对中的正相关图像的第一均方误差；以及确定每个训练数据对对应的目标图像和每个训练数据对中的负相关图像的第二均方误差；然后基于每个训练数据对对应的第一均方误差和第二均方误差，确定目标损失，其中，目标损失可以通过公式(2)得到：

其中，Loss₂表示目标损失，B表示多个训练数据对的数量，img_i+表示第i个训练数据对中的正相关图像，img_iout表示第i个训练数据对所对应的目标图像，img_i-表示第i个训练数据对中的负相关图像，MSE(img_i+,img_iout)表示第i个训练数据对所对应的第一均方误差，MSE(img_i-,img_iout)表示第i个训练数据对所对应的第二均方误差。应说明，公式(2)所得的目标损失是在基于第一用户生成内容对应的训练数据对由第一文本、与第一文本对应的一个正相关图像、与第一文本对应的一个负相关图像构成的条件下得到的。

当然，若第一用户生成内容对应的训练数据对是由第一文本、第一文本对应的所有正相关图像和第一文本对应的所有负相关图像构成的，也就是说，此时每个训练数据对中的正相关图像和负相关图像均可以为一个或多个，因此，需要确定每个训练数据对应的目标图像和每个训练数据对中的每个正相关图像的第一均方误差，以及确定每个训练数据对对应的目标图像和每个训练数据对中的每个负相关图像的第二均方误差，然后基于每个训练数据对应的每个第一均方误差和每个第二均方误差，确定目标损失，此时，该目标损失可以通过公式(3)得到：

其中，表示目标损失，B表示多个训练数据对的数量，C表示每个训练数据对中的正相关图像的数量，D表示每个训练数据对中的负相关图像的数量，img_ix+表示第i个训练数据对中的第x个正相关图像，img_iy-表示第i个训练数据对中的第y个负相关图像，MSE(img_ix+,img_iout)表示第i个训练数据对对应的目标图像与第i个训练数据对中的第x个正相关图像的第一均方误差，MSE(img_iy-,img_iout)表示第i个训练数据对对应的目标图像与第i个训练数据对中的第y个负相关图像的第二均方误差。

S107、基于目标损失，对文本理解模块和维度映射模块进行训练，得到图像生成模型。

在本申请的实施例中，冻结图像生成模块的参数，然后对文本理解模块和维度映射模块进行的参数进行更新训练，直至目标损失小于预设阈值，便可以得到训练好的文本理解模块、维度映射模块以及图像生成模块，进而得到训练好的图像生成模型，当然，本申请的图像生成模型还可以包括特征交互模块，因此在训练时，可以基于目标损失，冻结图像生成模块的参数，对文本理解模块、维度映射模块和特征交互模块的参数进行更新训练，得到图像生成模型。

为了便于理解，参阅图2，图2为本申请实施例提供的一种图像生成模型的训练示意图。

如图2所示，将多个训练文本(即上述实施例中的多个训练数据对所对应的多个训练文本)输入文本理解模块，然后将文本理解模块输出的每个训练文本对应的特征(即上述实施例中的第一向量)和每个训练文本对应的嵌入向量基于特征交互模块进行特征交互，然后基于特征交互模块输出的每个训练文本对应的特征(即上述实施例中的第二向量)和维度映射模块，输出与图像生成模块所需的输入特征维度的特征(即上述实施例中的第三向量)，然后图像生成模块基于维度映射模块输出的每个训练文本对应的第三向量，生成与多个训练文本对应的多个目标图像，然后基于多个目标图像、每个训练文本对应的正相关图像和负相关图像，确定目标损失(此处不再赘述原理)，然后基于目标损失对文本理解模块、特征交互模块和维度映射模块进行训练，直至目标损失小于预设损失阈值，得到训练好的图像生成模型。

因此，在得到训练好的图像生成模型之后，针对任意文本尤其是字符长度大于阈值的长文本，便可以基于训练好的图像生成模型进行图像生成，比如将获取到的目标文本输入基于本申请的图像生成模型的训练方法训练得到的图像生成模型，生成与目标文本对应的图像，示例性的，参阅图3，图3为本申请实施例提供的一种图像生成方法的流程示意图，该方法包括但不限于步骤S301-S305：

S301、获取目标文本。

在本申请的实施例中，目标文本的长度大于长度阈值，应说明，本申请中的图像生成方法主要是为了适用于文本长度大于长度阈值的这类长文本生成图像，那么对于文本长度小于长度阈值的文本生成图像而言，本申请的图像生成方法也可以实现。

S302、对目标文本进行语义理解，得到与目标文本对应的文本向量。

其中，步骤S302的原理和上述步骤S102中得到第一向量的原理类似，此处不再赘述。

S303、对文本向量与目标文本的嵌入向量进行交互，得到交互向量。

其中，步骤S303的原理和上述步骤103的原理类似，此处不再赘述。

S304、对交互向量进行维度映射，得到目标向量。

其中，步骤S304中得到目标向量的原理和上述步骤S104中得到第三向量的原理类似，此处不再赘述。

S305、基于目标向量，生成与目标文本对应的图像。

其中，步骤S305生成目标文本对应的图像的原理和上述步骤S105的原理类似，此处不再赘述，另外步骤S302-S305对应上述将目标文本输入图像生成模型后图像生成模型的处理操作。

参阅图4，图4为本申请实施例提供的一种图像生成***的示意图。

图4示出的***包括服务器和客户端；其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务，以及大数据和人工智能平台等基础云计算服务的云服务器，本申请不作具体限定；客户端可以是智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、台式计算机、智能手表、智能车载等智能终端，但并不局限于此。

客户端上可以安装有目标软件，用户可以通过该目标软件进行媒体内容的生成、分享、发布等，亦可以通过该目标软件实现文生图的功能等，因此，当用户通过在客户端上的目标软件完成目标文本的输入，相应地，客户端便获取到目标文本，然后服务器从客户端获取目标文本；然后服务器对目标文本进行文本理解，得到与目标文本对应的第五特征向量，然后服务器基于第五特征向量，生成与图像生成模块所需的输入特征维度的第六特征向量，然后基于第六特征向量和图像生成模块，生成与目标文本对应的图像，进一步的，服务器可以向客户端发送与目标文本对应的图像，相应的，客户端在接收到与目标文本对应的图像之后，可以显示该图像。

本申请的图像生成方法所适用的主要场景包括比如广告业务中广告文本生成广告图像、文本配图等可以涉及文本生成图像的场景均可以，本申请不一一列举。示例性的，参阅图5，图5为本申请的实施例提供的一种图像生成的场景示意图，如图5所示，用户通过客户端输入目标文本(图5示出的是通过虚拟键盘输入，当然还有其他方式，此处仅为示例，并未限定)，然后服务器从客户端获取目标文本，然后服务器基于本申请实施例中的图像生成方法生成与目标文本对应的图像，然后服务器向客户端发送与目标文本对应的图像，然后客户端显示该目标文本对应的图像。当然进一步的，比如针对需要发布广告的用户(简称广告主)而言，还可以基于本申请的实施例生成对应的广告内容，具体的：广告主通过客户端输入广告文本(比如主要针对文本长度大于长度阈值的文本)，相应地服务器获取到广告文本，然后服务器依据本申请实施例中的图像生成方法，生成与该广告文本对应的广告图像，其中，该广告图像的生成原理可以参照上述实施例的对应阐述，此处不再赘述，然后服务器向客户端发送该广告图像，进而广告主可以对由广告文本和广告图像生成的广告内容进行发布，即此时发布的广告内容为图文结合的内容(比如图文笔记等)，保证了发布的广告内容中的文本和图像之间的关联性。

可以看出，由于现有技术中的图像生成模型的输入文本一般都是字符长度小于长度阈值的短文本，对于字符长度大于长度阈值的长文本而言，在生成图像时的难度更大，效率也更低，因此，在本申请的实施例中，通过提供一种图像生成模型的训练方法以及一种图像生成方法，通过将每个输入文本进行理解、交互、维度映射等操作转换为图像生成模块用于生成图像的隐式提示词，然后直接基于图像生成模块和该隐式提示词，生成对应的目标图像，由于该隐式提示词满足图像生成模块的输入特征维度，相比于超长文本这种超出图像生成模块的输入特征维度，降低了图像生成模块的处理难度，即降低了图像生成难度，提高了图像生成效率。

参阅图6，图6为本申请实施例提供的一种图像生成模型的训练装置的功能单元组成框图。图像生成模型包括文本理解模块、维度映射模块、图像生成模块，图像生成模型的训练装置600包括：第一获取单元601和第一处理单元602；

第一获取单元601，用于获取多个训练数据对，其中，每个训练数据对包括训练文本、与训练文本对应的正相关图像和负相关图像；

第一处理单元602，用于针对第一训练数据对，基于文本理解模块，对第一训练数据对中的第一训练文本进行理解，得到第一向量，其中，第一训练数据对为多个训练数据对中的任意一个；

第一处理单元602，还用于将第一向量和第一训练文本的嵌入向量进行交互，得到第二向量；

第一处理单元602，还用于将第二向量输入到维度映射模块，得到第三向量；

第一处理单元602，还用于将第三向量输入到图像生成模块，生成与第一训练文本对应的目标图像；

第一处理单元602，还用于基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失；

第一处理单元602，还用于基于目标损失，对文本理解模块和维度映射模块进行训练，得到图像生成模型。

在本申请的一个实施方式中，在获取多个训练数据对方面，第一获取单元601，具体用于：

获取多个用户生成内容，其中，每个用户生成内容包括文本和多个图像；

针对第一用户生成内容，确定第一用户生成内容中的第一文本与第一用户生成内容中的多个第一图像的相关度，其中，第一用户生成内容为多个用户生成内容中的任意一个；

基于第一文本与每个第一图像的相关度，以及每个用户生成内容包括的多个图像，确定第一文本对应的正相关图像和负相关图像；

基于第一文本、第一文本对应的正相关图像、第一文本对应的负相关图像，构建与第一用户生成内容对应的训练数据对，以得到多个训练数据对。

在本申请的一个实施方式中，在基于第一文本与每个第一图像的相关度，以及每个用户生成内容包括的多个图像，确定第一文本对应的正相关图像和负相关图像方面，第一处理单元602，具体用于：

将多个第一图像中与第一文本的相关度最高的图像确定为所述第一文本对应的正相关图像；

从多个第二用户生成内容包括的图像中选择预设数量的图像，其中，多个第二用户生成内容为多个用户生成内容中除第一用户生成内容之外的用户生成内容；

将多个第一图像中与第一文本的相关度最低的图像、预设数量的图像确定为第一文本对应的负相关图像。

在本申请的一个实施方式中，在基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失方面，第一处理单元602，具体用于：

确定每个训练数据对对应的目标图像和每个训练数据对中的正相关图像的第一均方误差；

确定每个训练数据对对应的目标图像和每个训练数据对中的负相关图像的第二均方误差；

基于每个训练数据对对应的第一均方误差和第二均方误差，确定目标损失。

在本申请的一个实施方式中，在基于第二向量和维度映射模块，生成图像生成模块所需的输入特征维度的第三向量方面，第一处理单元602，具体用于：

确定第二向量中的目标词向量，其中，该目标词向量用于表征第一训练文本的完整语义特征；

基于维度映射模块，对目标词向量进行维度映射，得到第三向量。

在本申请的一个实施方式中，在基于文本理解模块，对第一训练数据对中的第一训练文本进行理解，得到第一向量之前，第一处理单元602，具体用于：

获取多个文本图像对；

针对第一文本图像对，对第一文本图像对中的第一图像进行特征提取，得到第四向量，其中，第一文本图像对为多个文本图像对中的任意一个；

获取目标提示词，其中，目标提示词表示基于文本图像对中的图像，对文本图像对中的文本进行摘要提取；

对第一文本图像对中的第一文本添加目标提示词，得到第二文本；

基于第二文本和第四向量，确定多个第三文本；

基于确定多个第三文本，对初始文本理解模块进行训练，得到文本理解模块。

在本申请的一个实施方式中，在基于第二文本和第四向量，确定多个第三文本方面，第一处理单元602，具体用于：

对第二文本进行特征提取，得到第五向量；

获取与第一文本图像对对应的查询向量；

对查询向量进行自注意力机制处理，得到第六向量；

将第四向量和第六向量进行特征交互，得到第七向量；

将第五向量和第七向量进行特征交互，得到第八向量；

基于第八向量，得到与第一文本对应的文本生成结果；

基于每个文本图像对中的文本所对应的文本生成结果，确定多个第三文本。

具体实现中，本发明实施例中所描述的第一获取单元601和第一处理单元602可执行本发明实施例提供的图像生成模型的训练方法的实施例中所描述的其他实现方式，在此不再赘述。

参阅图7，图7为本申请实施例提供的一种服务器的功能单元组成框图。服务器700包括：第二获取单元701和第二处理单元702；

第二获取单元701，用于获取目标文本，其中，目标文本的长度大于长度阈值；

第二处理单元702，用于对目标文本进行语义理解，得到文本向量；

第二处理单元702，还用于对文本向量与目标文本的嵌入向量进行交互，得到交互向量；

第二处理单元702，还用于对交互向量进行维度映射，得到目标向量；

第二处理单元702，还用于基于目标向量，生成与目标文本对应的图像。

具体实现中，本发明实施例中所描述的第二获取单元701和第二处理单元702可执行本发明实施例提供的图像生成方法的实施例中所描述的其他实现方式，在此不再赘述。

参阅图8，图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示，电子设备800包括收发器801、处理器802和存储器803。它们之间通过总线804连接。存储器803用于存储计算机程序和数据，并可以将存储器803存储的数据传输给处理器802。

电子设备800可以为图像生成模型的训练装置或者服务器；

当电子设备为图像生成模型的训练装置时，处理器802用于读取存储器803中的计算机程序执行以下操作：

控制收发器801获取多个训练数据对，其中，每个训练数据对包括训练文本、与训练文本对应的正相关图像和负相关图像；

将第二向量输入到维度映射模块，得到第三向量；

在本申请的一个实施方式中，在获取多个训练数据对方面，收发器801，具体用于执行以下步骤：

在本申请的一个实施方式中，在基于第一文本与每个第一图像的相关度，以及每个用户生成内容包括的多个图像，确定第一文本对应的正相关图像和负相关图像方面，处理器802，具体用于执行以下步骤：

在本申请的一个实施方式中，在基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失方面，处理器802，具体用于执行以下步骤：

在本申请的一个实施方式中，在基于第二向量和维度映射模块，生成图像生成模块所需的输入特征维度的第三向量方面，处理器802，具体用于执行以下步骤：

在本申请的一个实施方式中，在基于文本理解模块，对第一训练数据对中的第一训练文本进行理解，得到第一向量之前，处理器802，具体用于执行以下步骤：

获取多个文本图像对；

基于第二文本和第四向量，确定多个第三文本；

在本申请的一个实施方式中，在基于第二文本和第四向量，确定多个第三文本方面，处理器802，具体用于执行以下步骤：

对第二文本进行特征提取，得到第五向量；

获取与第一文本图像对对应的查询向量；

对查询向量进行自注意力机制处理，得到第六向量；

将第四向量和第六向量进行特征交互，得到第七向量；

将第五向量和第七向量进行特征交互，得到第八向量；

基于第八向量，得到与第一文本对应的文本生成结果；

具体实现中，本发明实施例中所描述的收发器801、处理器802还可执行本发明实施例提供的图像生成模型的训练方法的实施例所描述的其他实现方式，在此不再赘述。

当电子设备为服务器时，处理器802用于读取存储器803中的计算机程序执行以下操作：

控制收发器801获取目标文本，其中，目标文本的长度大于长度阈值；

对交互向量进行维度映射，得到目标向量；

基于目标向量，生成与目标文本对应的图像。

具体实现中，本发明实施例中所描述的收发器801、处理器802还可执行本发明实施例提供的图像生成方法的实施例所描述的其他实现方式，在此不再赘述。

应理解，本申请中的电子设备可以为服务器或者图像生成模型的训练装置，其中，图像生成模型的训练装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices，简称：MID)或穿戴式设备等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务，以及大数据和人工智能平台等基础云计算服务的云服务器，本申请不作具体限定。上述电子设备仅是举例，而非穷举，包含但不限于上述电子设备。

应理解，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种图像生成模型的训练方法或者图像生成方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种图像生成模型的训练方法或者图像生成方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAc cess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Ran dom Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像生成模型的训练方法，其特征在于，所述图像生成模型包括文本理解模块、维度映射模块、图像生成模块，所述方法包括：

获取多个训练数据对，其中，每个训练数据对包括训练文本、与所述训练文本对应的正相关图像和负相关图像；

针对第一训练数据对，基于所述文本理解模块，对所述第一训练数据对中的第一训练文本进行理解，得到第一向量，其中，所述第一训练数据对为所述多个训练数据对中的任意一个；

将所述第一向量和所述第一训练文本的嵌入向量进行交互，得到第二向量；

将所述第二向量输入到所述维度映射模块，得到第三向量；

将所述第三向量输入到所述图像生成模块，生成与所述第一训练文本对应的目标图像；

基于所述目标损失，对所述文本理解模块和所述维度映射模块进行训练，得到所述图像生成模型。

2.根据权利要求1所述的方法，其特征在于，所述获取多个训练数据对，包括：

针对第一用户生成内容，确定所述第一用户生成内容中的第一文本与所述第一用户生成内容中的多个第一图像的相关度，其中，所述第一用户生成内容为所述多个用户生成内容中的任意一个；

基于所述第一文本与每个第一图像的相关度，以及每个用户生成内容包括的多个图像，确定所述第一文本对应的正相关图像和负相关图像；

基于所述第一文本、所述第一文本对应的正相关图像、所述第一文本对应的负相关图像，构建与所述第一用户生成内容对应的训练数据对，以得到所述多个训练数据对。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一文本与每个第一图像的相关度，以及每个用户生成内容包括的多个图像，确定所述第一文本对应的正相关图像和负相关图像，包括：

将所述多个第一图像中与所述第一文本的相关度最高的图像确定为所述第一文本对应的正相关图像；

从多个第二用户生成内容包括的图像中选择预设数量的图像，其中，所述多个第二用户生成内容为所述多个用户生成内容中除所述第一用户生成内容之外的用户生成内容；

将所述多个第一图像中与所述第一文本的相关度最低的图像、所述预设数量的图像确定为所述第一文本对应的负相关图像。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失，包括：

基于每个训练数据对对应的第一均方误差和第二均方误差，确定所述目标损失。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述第二向量和所述维度映射模块，生成所述图像生成模块所需的输入特征维度的第三向量，包括：

确定所述第二向量中的目标词向量，其中，所述目标词向量用于表征所述第一训练文本的完整语义特征；

基于所述维度映射模块，对所述目标词向量进行维度映射，得到所述第三向量。

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述基于所述文本理解模块，对所述第一训练数据对中的第一训练文本进行理解，得到第一向量之前，所述方法还包括：

获取多个文本图像对；

针对第一文本图像对，对所述第一文本图像对中的第一图像进行特征提取，得到第四向量，其中，所述第一文本图像对为所述多个文本图像对中的任意一个；

获取目标提示词，其中，所述目标提示词表示基于文本图像对中的图像，对文本图像对中的文本进行摘要提取；

对所述第一文本图像对中的第一文本添加所述目标提示词，得到第二文本；

基于所述第二文本和所述第四向量，确定多个第三文本；

基于所述多个第三文本，对初始文本理解模块进行训练，得到所述文本理解模块。

7.一种图像生成方法，其特征在于，所述方法包括：

获取目标文本，其中，所述目标文本的长度大于长度阈值；

对所述目标文本进行语义理解，得到文本向量；

对所述文本向量与所述目标文本的嵌入向量进行交互，得到交互向量；

对所述交互向量进行维度映射，得到目标向量；

基于所述目标向量，生成与所述目标文本对应的图像。

8.一种图像生成模型的训练装置，其特征在于，所述图像生成模型包括文本理解模块、维度映射模块、图像生成模块，所述装置包括：第一获取单元和第一处理单元；

所述第一获取单元，用于获取多个训练数据对，其中，每个训练数据对包括训练文本、与所述训练文本对应的正相关图像和负相关图像；

所述第一处理单元，用于针对第一训练数据对，基于所述文本理解模块，对所述第一训练数据对中的第一训练文本进行理解，得到第一向量，其中，所述第一训练数据对为所述多个训练数据对中的任意一个；

所述第一处理单元，还用于将所述第一向量和所述第一训练文本的嵌入向量进行交互，得到第二向量；

所述第一处理单元，还用于将所述第二向量输入到所述维度映射模块，得到第三向量；

所述第一处理单元，还用于将所述第三向量输入到所述图像生成模块，生成与所述第一训练文本对应的目标图像；

所述第一处理单元，还用于基于每个训练数据对对应的目标图像、每个训练数据对中的正相关图像和负相关图像，确定目标损失；

所述第一处理单元，还用于基于所述目标损失，对所述文本理解模块和所述维度映射模块进行训练，得到所述图像生成模型。

9.一种服务器，其特征在于，所述服务器包括：第二获取单元和第二处理单元；

所述第二获取单元，用于获取目标文本，其中，所述目标文本的长度大于长度阈值；

所述第二处理单元，用于对所述目标文本进行语义理解，得到文本向量；

所述第二处理单元，还用于对所述文本向量与所述目标文本的嵌入向量进行交互，得到交互向量；

所述第二处理单元，还用于对所述交互向量进行维度映射，得到目标向量；

所述第二处理单元，还用于基于所述目标向量，生成与所述目标文本对应的图像。

10.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如权利要求1-7中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7中任一项所述的方法。