CN116704079B

CN116704079B - 图像生成方法、装置、设备及存储介质

Info

Publication number: CN116704079B
Application number: CN202310969506.2A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-09-29
Anticipated expiration: 2043-08-03
Also published as: CN116704079A

Abstract

本申请公开了一种图像生成方法、装置、设备及存储介质，涉及人工智能技术领域。方法包括：获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的编辑文本和固定文本；根据原始图像得到固定文本的调整后文本表征，固定文本的调整后文本表征与原始图像的内容有关；根据原始图像和固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，调整后的图像生成模型学习了固定文本所描述的不发生变化的图像内容；通过调整后的图像生成模型根据原始图像、编辑文本以及固定文本的调整后文本表征，生成原始图像对应的编辑后图像。上述方法提升了生成的编辑后图像的准确度。

Description

图像生成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能（Artificial Intelligence，简称AI）技术领域，特别涉及一种图像生成方法、装置、设备及存储介质。

背景技术

随着图生图（image-to-image）技术的持续发展，用户可以同时输入编辑文本和原始图像，得到针对原始图像的编辑后图像。在一种图像编辑任务时，需要保持原始图像中的部分对象不发生变化，而其他部分发生变化。例如，原始图像是戴帽子的女孩，编辑文本是戴帽子的男孩，则通过模型能够得到一张编辑后图像，该编辑后图像是保持原始图像中的帽子不变，而将女孩换成男孩。

相关技术中，需要利用三元组样本（原始图像、编辑后图像、编辑文本）来对模型进行上述图生成能力的训练，训练后的模型能够实现根据输入的编辑文本来对原始图像进行编辑，得到编辑后图像。

然而，上述训练方法中三元组样本的数量较少，且三元组样本中的编辑后图像可能会存在偏差，导致三元组样本自身的准确度不高。因此通过三元组样本训练出来的模型生成的编辑后图像中相对于原始图像中不应该发生变化的对象（例如上述帽子）容易发生变化，从而使得生成的编辑后图像的准确度也较低。

发明内容

本申请实施例提供了一种图像生成方法、装置、设备及存储介质，能够提升生成的编辑后图像的准确度。所述技术方案包括如下几方面。

根据本申请实施例的一个方面，提供了一种图像生成方法，所述方法包括以下步骤。

获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的编辑文本和固定文本，所述编辑文本用于对所述原始图像进行编辑，所述固定文本用于描述所述原始图像在编辑前后不发生变化的图像内容。

根据所述原始图像得到所述固定文本的调整后文本表征，所述固定文本的调整后文本表征与所述原始图像的内容有关。

根据所述原始图像和所述固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，所述调整后的图像生成模型学习了所述固定文本所描述的所述不发生变化的图像内容。

通过所述调整后的图像生成模型根据所述原始图像、所述编辑文本以及所述固定文本的调整后文本表征，生成所述原始图像对应的编辑后图像。

根据本申请实施例的一个方面，提供了一种图像生成装置，所述装置包括以下模块。

图文对获取模块，用于获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的编辑文本和固定文本，所述编辑文本用于对所述原始图像进行编辑，所述固定文本用于描述所述原始图像在编辑前后不发生变化的图像内容。

表征调整模块，用于根据所述原始图像得到所述固定文本的调整后文本表征，所述固定文本的调整后文本表征与所述原始图像的内容有关。

参数调整模块，用于根据所述原始图像和所述固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，所述调整后的图像生成模型学习了所述固定文本所描述的所述不发生变化的图像内容。

图像生成模块，用于通过所述调整后的图像生成模型根据所述原始图像、所述编辑文本以及所述固定文本的调整后文本表征，生成所述原始图像对应的编辑后图像。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述图像生成方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成方法。

本申请实施例提供的技术方案可以带来如下有益效果。

一方面，在进行图像生成时，先利用原始图像来得到固定文本的调整后表征，使得固定文本的调整后表征能够更加贴合该原始图像。另一方面，利用该固定文本的调整后表征和原始图像来对图像生成模型进行调整，使得图像生成过程中图像生成模型能够学习到原始图像中应当保持不变的图像内容，进而使得在图像生成过程中图像生成模型能够尽可能地保持原始图像中固定文本对应的图像内容不发生变化，从而提升了生成的编辑后图像的准确性。

附图说明

图1是本申请一个实施例提供的方案实施环境的示意图；

图2是本申请一个实施例提供的图像生成方法的示意图；

图3是相关技术中提供的三元组样本的示意图；

图4是本申请一个实施例提供的图像生成方法的流程图；

图5是本申请另一个实施例提供的图像生成方法的流程图；

图6是本申请一个实施例提供的表征替换的示意图；

图7是本申请一个实施例提供的调整后的图像生成模型的结构示意图；

图8是本申请一个实施例提供的旁路网络和去噪网络的示意图；

图9是本申请一个实施例提供的QKV网络的结构示意图；

图10是本申请又一个实施例提供的图像生成方法的流程图；

图11是本申请一个实施例提供的固定文本的文本表征的调整方式的示意图；

图12是本申请一个实施例提供的扩散模型和表征提取模块的结构示意图；

图13是本申请再一个实施例提供的图像生成方法的流程图；

图14是本申请一个实施例提供的图像生成模型的结构示意图；

图15是本申请另一个实施例提供的图像生成方法的示意图；

图16是本申请一个实施例提供的图像生成装置的框图；

图17是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在介绍本申请技术方案之前，先对本申请涉及的一些背景技术知识进行介绍说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。

计算机视觉技术（Computer Vision，简称CV）是一门研究如何使机器 “看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT（Vision Transformers），V-MOE（Vision Mixture of Expert），MAE（Masked Auto Encoder）等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR（Optical Character Recognition，光学字符识别）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D（three Dimensions，三维）技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习（Machine Learning，简称ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（Artificial Intelligence GeneratedContent，简称AIGC）、对话式交互、智能医疗、智能客服、游戏AI、虚拟现实（VirtualReality，简称VR）、增强现实（Augmented Reality，简称AR）等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、深度学习等技术，本申请实施例中先通过原始图像和固定文本来对图像生成模型进行调整，再利用调整后的图像生成模型根据原始图像和编辑文本来生成编辑后图像。具体通过如下实施例进行说明。

在介绍本申请技术方案之前，先对本申请涉及的一些名词进行解释说明。以下相关解释作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。

预训练模型（Pre-Training Model，简称PTM）：也称基石模型、大模型，是指具有大参量的深度神经网络（Deep Neural Network，简称DNN），在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调（fine tune）、参数高效微调、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型、视觉模型（swin-transformer、ViT、V-MOE）、语音模型、多模态模型等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容重要工具，也可以作为连接多个具体任务模型的通用接口。

扩散模型文生图：基于扩散过程的生成模型，输入目标文本text，模型对一个随机噪声图x经过一系列操作，并在目标文本的交叉注意力下，产生与文本相关的预测图像Y。

扩散模型图像编辑：基于扩散过程的生成模型，输入原图像以及编辑文本，模型对原图加入随机噪声产生的图x经过隐空间表征、在目标编辑文本的交叉注意力控制下对表征进行去噪操作，产生与文本和输入原图相关的预测图像Y。

请参考图1，其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括计算机设备20。

计算机设备20可以是诸如手机、台式电脑、平板电脑、笔记本电脑、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备，或者是其他一些具有较强计算能力的电子设备，该计算机设备可以是终端设备，也可以是服务器，本申请对此不作限定。计算机设备20根据用户输入信息10先对图像生成模型30进行调整，调整后的图像生成模型30可以用于针对编辑文本来对原始图像进行编辑，生成符合编辑文本的编辑后图像。

在本申请实施例中，图像生成模型30是机器学习模型。可选地，计算机设备20可以采用机器学习的方式对该图像生成模型30进行调整，以使得其具备较好的性能。在一些实施例中，用户输入信息10是用户输入的用于生成图像的信息，用户输入信息10包括原始图像、固定文本以及编辑文本。在一些实施例中，计算机设备20接收到用户输入信息10之后，先根据用户输入信息10中的原始图像和固定文本对图像计算机设备20中的图像生成模型30进行调整。在一些实施例中，调整后的图像生成模型30中包括调整后的表征提取模块、预训练的扩散模型以及调整后的旁路模块。示例性地，通过预训练的扩散模型和预训练的表征提取模块根据原始图像和固定文本，生成第一预测图像，利用第一预测图像和原始图像之间的差异来对表征提取模块的参数进行调整，得到调整后的表征提取模块。示例性地，利用调整后的表征提取模块、初始化的旁路模块和预训练的扩散模型，根据原始图像和固定文本，生成第二预测图像，利用第二预测图像和原始图像之间的差异来对旁路模块的参数进行调整，得到调整后的旁路模块。具体的扩散模型的内部处理流程参见下述实施例的解释说明，此处不再赘述。在一些实施例中，表征提取模块、旁路模块和扩散模型都是机器学习模型。

在另一些实施例中，在得到调整后的图像生成模型30之后，计算机设备20利用调整后的图像生成模型30根据用户输入信息10中的原始图像、固定文本以及编辑文本，得到用户想要的生成图像。

本申请实施例提供的方法，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储能力的电子设备。其中，在该电子设备是服务器时，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。

请参考图2，其示出了本申请一个实施例提供的图像生成方法的示意图。

如图2所示，图像生成过程包括第一次调整210和第二次调整220中的至少之一，图像生成模型的应用过程包括应用230。

示例性地，第一次调整210的具体调整流程如下：通过表征提取模块和扩散模型根据原始图像和固定文本，得到原始图像对应的第一预测图像，根据第一预测图像和原始图像的差异，对表征提取模块的参数进行调整，得到调整后的表征提取模块。

示例性地，第二次调整220的具体调整流程如下：通过调整后的表征提取模块、初始化的旁路模块以及预训练的扩散模型根据原始图像和固定文本，得到原始图像对应的第二预测图像，根据第二预测图像和原始图像的差异，对旁路模块的参数进行调整，得到调整后的旁路模块。

调整后的图像生成模型包括调整后的表征提取模块、预训练的扩散模型以及调整后的旁路模块。

示例性地，应用过程230的具体流程如下：将原始图像、编辑文本、目标文本输入至调整后的图像生成模型中，得到编辑后图像。其中，将目标文本对应的调整后文本表征替换掉编辑文本的文本表征中包含的编辑文本对应的文本表征片段，得到综合文本表征。通过预训练的扩散模型和调整后的旁路模块根据综合文本表征和原始图像，得到原始图像对应的编辑后图像。

当然，也可以直接进行第二次调整220，而不进行第一次调整210。在直接进行第二调整220时，根据第二预测图像和原始图像的差异，对旁路模块以及表征提取模块的参数进行调整，得到调整后的旁路模块和调整后的表征提取模块。

下面对相关技术中的图像生成方法进行解释说明。

相关技术中，基于扩散模型进行文生图或图生图最近得到迅速发展并获取较高质量的生成效果。而在图生图中有一个常用任务是：针对特定图像的编辑任务，常常需要保证图像背景和人物外观完全一致下进行属性编辑，如人物动作变化、图像风格变化等。然而由于基于扩散的图生图任务经常会改变原图像的外观（包括背景等），导致不能满足图像属性编辑的任务；而专门用于图像编辑的instruct pix2pix方法需要重新训练模型进行编辑，并且对基础模型敏感，每次更换基础模型需要重新收集海量数据微调模型，过程耗时耗力。

在相关技术的一些实施例中，存在一种图像生成模型，是开源的instructpix2pix基于stable diffusion模型。其训练样本集收集方式为：通过提示词1-生成图像1，通过对提示词1输入编辑文本（如make it rainy），然后经过开源的prompt-to-prompt方法进行模型推理产生新结果图像2，以及记录编辑结果提示词2，最终得到图像1、图像2、编辑文本三元组训练。收集图像需要对大规模目标待编辑的文本进行样本收集。若采用此开源方法收集中文场景训练数据，考虑到prompt-to-prompt推理后图像2和图像1内容可能会有偏差，故整个训练样本集带有较大噪声样本。如图3所示，图3的子图（a）认为是上述图像1（原始图像），图3的子图（b）认为是上述图像2（编辑后图像），编辑文本是“秋天”。不难看出，在图像1的基础上，经过编辑文本“秋天”，得到的图像2的天空中出现了较多的枫叶，而图像1中并没有枫树，因此根据编辑文本生成的图像2是不合理的，也即这是不真实的生成。综上，如果将该图像1、图像2以及编辑文本作为三元组，该三元组是不准确的。而基于不准确的三元组构成的训练样本集对图像生成模型进行训练，得到的训练效果并不好。因此，相关技术中的方法，一方面无法保证三元组样本中图像1图像2的主要内容不变，例如可能改变了图像中的不应该发生改变的某些物体，另一方面，该方法仅依赖大规模编辑训练集，不对编辑任务进行理解，可能在不恰当的位置生成渲染结果，如天空中出现秋天的树叶，最终训练结果出现不准确的编辑效果。再一方面，该方法需要大规模收集渲染前后训练样本，成本极高。

本申请实施例提供的技术方案针对如何快速并且保证原图像一致性的前提下进行图像编辑问题，提出了一种基于生成控制文本对齐与一致性图像信息微调的图像生成模型，对待编辑图像（原始图像）以及编辑文本，先指定编辑文本中需要保持一致性的目标文本（固定文本），先对目标文本根据给出的图像进行微调其表征；然后把图像中目标相关的信息微调到生成过程中，即用微调的以及给出图像进行模型微调。最终在应用时通过把微调表征经过加权嵌入到编辑文本的文本表征中，对新模型进行推理得到图像编辑效果。为了克服编辑中的文本表征与给出图像不匹配的问题，本申请实施例提供的技术方案在开始时预先微调了文本表征，获得一个与图像对齐的文本表征；然后通过采用模型旁路控制模块把图像需要保持一致的信息进一步微调到生成网络中，避免直接微调模型过拟合的同时可以让网络对保持图像一致性任务进行学习，从而允许后续生成有更多一致性；最终在应用时，由于不同的文本编辑语句会产生不一样的目标表征，对固定文本的调整后文本表征与编辑文本中的目标表征采用一种加权的方式得到更好的表征（综合文本表征），然后进行图像编辑的生成，从而保证图像一致性和生成可控性。一方面，通过文本对齐绑定词语和图像特定目标从而降低编辑语句产生明显与原图不一致的问题；另一方面，通过把图像的信息微调到模型中进一步实现图像编辑的一致性；又一方面，通过对齐的目标文本与编辑任务文本进行加权得到新的生成文本，在保持一致性文本表征下，提升编辑词汇的控制效果。

请参考图4，其示出了本申请一个实施例提供的图像生成方法的流程图。该方法各步骤的执行主体可以是上文介绍的计算机设备20。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤（410~440）中的至少一个步骤。

步骤410，获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的编辑文本和固定文本，编辑文本用于对原始图像进行编辑，固定文本用于描述原始图像在编辑前后不发生变化的图像内容。

在介绍具体步骤之前，先对本申请实施例中的图像生成模型的调整时机进行解释说明。

在一些实施例中，本申请实施例中的调整过程是完全独立于应用过程的，也即，先利用大批量的训练样本集对图像生成模型进行训练，当图像生成模型训练完成之后，该图像生成模型用于应用。在应用过程中，完全不会再涉及图像生成模型的训练，图像生成模型只需根据输入的原始图像、编辑文本以及固定文本，即可生成编辑后图像。

在另一些实施例中，本申请实施例中涉及的图像生成模型的调整过程和使用过程是彼此关联的。可选地，响应于获取到的用户输入的原始图像、原始图像对应的固定文本和编辑文本，先利用原始图像、原始图像对应的固定文本和编辑文本对图像生成模型进行调整，将调整后的图像生成模型用来根据用户输入的原始图像和原始图像对应的编辑文本来生成编辑后图像。在一些实施例中，每一次应用过程（使用过程）对应一次调整过程。在另一些实施例中，一次应用过程中对应有多个固定文本，则固定文本的数量和调整过程的次数相对应。示例性地，用户输入的固定文本包括固定文本1和固定文本2，则利用固定文本1根据上述调整过程对图像生成模型进行调整，再利用固定文本2根据上述调整过程对图像生成模型进行又一次调整。当图像生成模型调整好之后，根据用户输入的原始图像、编辑文本、固定文本1以及固定文本2，来生成用户想要的编辑后图像。

原始图像：是用户想要去编辑的图像。本申请实施例对于原始图像的来源同样不作限定，原始图像可以是真实的拍摄出来的图像，也可以是通过文生图模型基于描述文本生成的图像。当然，本申请实施例中对于原始图像的显示类型、显示样式、显示尺寸等等不作限定。

原始图像对应的编辑文本：是通过图像生成模型来对原始图像进行编辑以达到想要的编辑后图像的文本。本申请实施例中原始图像对应的编辑文本可以是用户输入的真实文本，也可以是基于模型随机生成的编辑文本，本申请实施例对于编辑文本的获取方式不作限定。当然，本申请实施例中对于编辑文本的字数、显示类型、显示样式等等不作限定。该编辑文本可以是针对原始图像中的场景给出的文本，也可以是针对原始图像中的对象给出的文本，本申请对此也不作限定。具体来说，该编辑文本可以是风格改变、人物动作改变或者物体替换等等。示例性地，原始图像是“一个戴帽子的女孩”，编辑文本是“一个戴帽子的男孩”。示例性地，原始图像是“一位跑步的老人”，编辑文本是“一个跑步的小孩”。

原始图像对应的固定文本：用于描述原始图像在编辑前后不发生变化的图像内容。本申请实施例中原始图像对应的固定文本可以是用户输入的真实文本，也可以是通过模型根据原始图像和编辑文本而确定出来的无需用户输入的文本，本申请实施例对于固定文本的获取方式不作限定。当然，本申请实施例中对于固定文本的字数、显示类型、显示样式等等不作限定。该固定文本可以是针对原始图像中的场景给出的文本，也可以是针对原始图像中的对象给出的文本，本申请对此也不作限定。示例性地，原始图像是“一个戴帽子的女孩”，编辑文本是“一个戴帽子的男孩”，固定文本是“帽子”。示例性地，原始图像是“一位跑步的老人”，编辑文本是“一个跑步的小孩”，固定文本是“跑步”。本申请实施例中固定文本可以包括在编辑文本中，也可以不包括在编辑文本中，本申请对此不作限定。

步骤420，根据原始图像得到固定文本的调整后文本表征，固定文本的调整后文本表征与原始图像的内容有关。

本申请实施例对于固定文本的调整后文本表征的维度不作限定，对于该调整后文本表征的表征形式不作限定，该调整后文本表征的表现形式包括但不限于向量、矩阵、数值等等。

在一些实施例中，通过表征调整模型来根据原始图像得到固定文本的调整后文本表征。示例性地，该表征调整模型是机器学习模型，可选地，对于该表征提取模型的架构不作限定。示例性地，该表征调整模型的输入是原始图像和固定文本，输出是固定文本对应的调整后表征。示例性地，该表征调整模型采用无监督的方式进行学习。当然，该表征调整模型也可以采用强化学习的方式进行训练。

在一些实施例中，上述表征调整模型可以包括预训练的扩散模型和预训练的表征提取模型。此处具体的调整过程可以参见下述实施例，此处不再赘述。

步骤430，根据原始图像和固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，调整后的图像生成模型学习了固定文本所描述的不发生变化的图像内容。

在一些实施例中，通过图像生成模型根据原始图像和固定文本的调整后文本表征，得到输出图像，根据输出图像和原始图像之间的差异，确定损失函数值。可选地，根据损失函数值对图像生成模型的参数进行调整，得到调整后的图像生成模型。本申请实施例对于参数调整的方式不作限定。示例性地，通过最小化损失函数值为目标，对图像生成模型的参数进行调整，得到调整后的图像生成模型。示例性地，根据损失函数值以反向梯度传播的方式，对图像生成模型的参数进行调整，得到调整后的图像生成模型。示例性地，根据损失函数值以正向梯度传播的方式，对图像生成模型的参数进行调整，得到调整后的图像生成模型。

步骤440，通过调整后的图像生成模型根据原始图像、编辑文本以及固定文本的调整后文本表征，生成原始图像对应的编辑后图像。

本申请实施例中对于调整后的图像生成模型的具体架构不作限定，该图像生成模型是机器学习模型。示例性地，该图像生成模型的输入是原始图像、编辑文本以及固定文本的调整后文本表征，该图像生成模型的输出是原始图像对应的编辑后图像。示例性地，该图像生成模型中包括编码模块、特征提取模块、特征融合模块以及解码模块中的至少之一。其中，编码模块用于对原始图像进行编码得到图像特征，特征提取模块用于提取编辑文本的文本表征，融合模块用于融合图像特征、编辑文本的文本表征以及固定文本的调整后表征得到融合特征，解码模块用于基于融合特征解码出编辑后图像。

当然，针对图像生成模型中的具体架构也可以参见下述实施例的解释说明，此处不再赘述。

本申请实施例提供的技术方案中，一方面，在进行图像生成时，先利用原始图像来得到固定文本的调整后表征，使得固定文本的调整后表征能够更加贴合该原始图像。另一方面，利用该固定文本的调整后表征和原始图像来对图像生成模型进行调整，使得图像生成过程中图像生成模型能够学习到原始图像中应当保持不变的图像内容，进而使得在图像生成过程中图像生成模型能够尽可能地保持原始图像中固定文本对应的图像内容不发生变化，从而提升了生成的编辑后图像的准确性。

请参考图5，其示出了本申请另一个实施例提供的图像生成方法的流程图。该方法各步骤的执行主体可以是上文介绍的计算机设备20。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤（510~560）中的至少一个步骤。

步骤510，获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的编辑文本和固定文本，编辑文本用于对原始图像进行编辑，固定文本用于描述原始图像在编辑前后不发生变化的图像内容。

步骤520，根据原始图像得到固定文本的调整后文本表征，固定文本的调整后文本表征与原始图像的内容有关。

步骤530，根据原始图像和固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，调整后的图像生成模型学习了固定文本所描述的不发生变化的图像内容。

步骤540，调整后的图像生成模型包括：预训练的扩散模型和调整后的表征提取模块，通过调整后的表征提取模块提取所编辑文本的文本表征。

在一些实施例中，在执行步骤520时，得到调整后的表征提取模块，调整后的表征提取模块用于提取固定文本的调整后文本表征。具体的如何得到调整后的表征提取模块，可以参见下述实施例的解释说明，此处不再赘述。

在一些实施例中，预训练的扩散模型是预训练模型，对于具体的预训练过程本申请不作赘述。

步骤550，根据编辑文本的文本表征和固定文本的调整后文本表征，得到综合文本表征。

本申请实施例对于综合文本表征的维度不作限定，对于该综合文本表征的表征形式不作限定，该综合文本表征的表现形式包括但不限于向量、矩阵、数值等等。

在一些实施例中，综合文本表征是将编辑文本的文本表征和固定文本的调整后文本表征融合得到的。在一些实施例中，通过特征融合模块将编辑文本的文本表征和固定文本的调整后文本表征融合得到的综合文本表征。其中，特征融合模块是机器学习模型。在另一些实施例中，将编辑文本的文本表征和固定文本的调整后文本表征进行维度对齐之后，进行加权求和，得到综合文本表征。本申请实施例对于综合文本表征的具体确定方式不作限定。

在一些实施例中，编辑文本中包括固定文本，编辑文本的文本表征中包括固定文本对应的文本表征片段。在一些实施例中，固定文本包含于编辑文本中。示例性地，原始图像是一个戴帽子的女孩的图像，编辑文本是“一个戴帽子的男孩”，固定文本是“帽子”。示例性地，原始图像是一位跑步的老人的图像，编辑文本是“一个跑步的小孩”，固定文本是“跑步”。在一些实施例中，编辑文本的字数是a，固定文本的字数是b，a大于b，编辑文本经过调整后的表征提取模块得到的文本表征的维度是a×k，每一个字符对应k维。可选地，维度为a×k的编辑文本的文本表征中存在维度为b×k的文本表征片段，该文本表征片段是编辑文本中包括的固定文本对应的文本表征。其中，a、b以及k是正整数。

在一些实施例中，对固定文本对应的文本表征片段和固定文本的调整后文本表征进行加权求和，得到固定文本的加权文本表征；用固定文本的加权文本表征替换编辑文本的文本表征中包含的固定文本对应的文本表征片段，得到综合文本表征。

在一些实施例中，固定文本对应的文本表征片段和固定文本的调整后文本表征的维度是一致的，或者不一致的。当固定文本对应的文本表征片段和固定文本的调整后文本表征的维度一致时，直接对固定文本对应的文本表征片段和固定文本的调整后文本表征进行加权求和，得到固定文本的加权文本表征。当固定文本对应的文本表征片段和固定文本的调整后文本表征的维度不一致时，先对固定文本对应的文本表征片段和固定文本的调整后文本表征进行对齐，将维度对齐之后的固定文本对应的文本表征片段和固定文本的调整后文本表征进行加权求和，得到固定文本的加权文本表征。本申请实施例对于固定文本对应的文本表征片段和固定文本的调整后文本表征分别对应的权重值不作限定。该权重值可以预先设定好，也可以开放给用户自定义设置。

在一些实施例中，用户自定义设置固定文本对应的权重值。在一些实施例中，在获取上述图文对时，同时获取用户自定义输入的固定文本对应的权重值，权重值用于确定上述加权求和的参数。在一些实施例中，用户自定义输入的固定文本对应的权重值为a，则a×固定文本的调整后文本表征+（1-a）×固定文本对应的文本表征片段=固定文本的加权文本表征。其中，a为0到1之间的数。

在一些实施例中，如图6的600所示，当编辑文本是“一只戴着一顶帽子的鸟”，固定文本是“一顶帽子”，在“一只戴着一顶帽子的鸟”的文本表征中包括固定文本“一顶帽子”对应的文本表征片段610。对固定文本“一顶帽子”对应的文本表征片段610和固定文本“一顶帽子”的调整后文本表征进行加权求和，得到固定文本“一顶帽子”的加权文本表征620；用固定文本“一顶帽子”的加权文本表征620替换编辑文本的文本表征中包含的固定文本对应的文本表征片段610，得到综合文本表征。

在一些实施例中，对于处于不同上下文的固定文本，可能会有不同的表征，如南x市长x大桥坐落在xx，南x市长x大桥在参观企业，虽然都含有“南x市长x大桥”，但明显一个是指桥、一个指人，故在不同的上下文相同的词可能具备不同表征。因此，需要对固定文本对应的文本表征片段和固定文本的调整后文本表征进行加权求和，得到固定文本的加权文本表征；用固定文本的加权文本表征替换编辑文本的文本表征中包含的固定文本对应的文本表征片段，得到综合文本表征。其中固定文本对应的文本表征片段对维持原始图像一致性很重要，当其权重很高时，与原图完全一样，但编辑能力很差（即不能顺应编辑文本的要求或者生成结果不自然）；固定文本的调整后文本表征是更能满足编辑需求的表征，但不能保证与原图一致性。因此，本申请实施例通过控制加权权重在两者中权衡。

步骤560，通过扩散模型根据原始图像和综合文本表征，生成编辑后图像。

在一些实施例中，在原始图像上叠加随机噪声图像，得到带噪声的原始图像；通过扩散模型的前向过程，生成带噪声的原始图像对应的隐空间表征；通过扩散模型的后向过程根据综合文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；对去噪后的隐空间表征进行解码，生成编辑后图像。可选地，扩散模型还可以是调整后的扩散模型。

在一些实施例中，调整后的图像生成模型还包括：调整后的旁路模块。

在一些实施例中，步骤560还包括步骤561~564（图中未示出）中的至少一个步骤。

步骤561，在原始图像上叠加随机噪声图像，得到带噪声的原始图像。

在一些实施例中，基于随机数来生成随机噪声图像。示例性地，该随机噪声图像的尺寸和原始图像的尺寸相同，将原始图像和随机噪声图像中对应位置像素点的像素值之间的和，确定为带噪声的原始图像中对应位置像素点的像素值。

步骤562，通过扩散模型的前向过程，生成带噪声的原始图像对应的隐空间表征。

扩散模型的前向过程又称为扩散过程（diffusion process），用于逐次往输入数据中加入噪声，直至输入数据趋近于纯噪声。示例性地，扩散过程整体可以是一个参数化的马尔可夫链（Markov chain）。需要注意的是，本申请实施例中的扩散模型是经过预训练的扩散模型，具有一定的基于噪声图像生成编辑后图像的能力。扩散模型的模型参数可以采用开源的模型结构和模型参数，本申请对此不作限定，对于扩散模型的预训练过程，也不再进行过多阐述。

在一些实施例中，通过第一编码器对带噪声的原始图像进行编码，得到带噪声的原始图像的初始特征向量；通过扩散模型的前向过程对初始特征向量进行T次加噪，生成带噪声的原始图像对应的隐空间表征，T为正整数。

在一些实施例中，随机噪声图像是指随机生成的一个噪声图像，随机噪声图像可以由随机数对应生成，不同的随机数对应于不同的随机噪声图像，随机数是指任意一个数字。不同随机数对应的随机噪声图像具有不同的图像特征，可以是图像不同的风格特征，例如，可以是画面色彩浓烈的风格特征，也可以是画面色彩浅淡的风格特征，也可以是图像不同的场景特征，例如，可以是城市的场景特征，也可以是草原的场景特征。

第一编码器是指任意一个编码器，带噪声的原始图像的初始特征向量中不仅具有原始图像的特征，还具有随机噪声图像的特征。带噪声的原始图像的初始特征作为扩散模型的前向过程的输入数据，通过扩散过程逐次向初始特征向量中添加噪声，初始特征向量则逐次失去其特征，进行T次加噪后，初始特征向量将变成没有任何特征的隐空间表征。即隐空间表征是指带噪声的原始图像对应的不具有图像特征的纯噪声图像的表征。隐空间表征的形式与文本表征的形式相同，可以是向量形式的表征，也可以是矩阵形式的表征。

步骤563，通过扩散模型的后向过程和调整后的旁路模块，根据综合文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数。在一些实施例中，通过扩散模型的后向过程，根据综合文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；对去噪后的隐空间表征进行解码，生成原始图像对应的编辑后图像。

在一些实施例中，扩散模型的前向过程对初始特征向量进行T次加噪，生成了随机噪声图像对应的隐空间表征，扩散模型的后向过程，根据文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征。扩散模型的后向过程用于根据约束条件，逐次对输入数据去除噪声，从而生成编辑后图像。示例性地，扩散模型的后向过程整体也可以是一个参数化的马尔可夫链。在一些实施例中，隐空间表征和文本表征作为扩散模型的后向过程的输入数据，扩散模型的后向过程基于文本表征对隐空间特征进行逐次去噪约束，使生成的编辑后图像满足文本表征的约束要求。在一些实施例中，通过扩散模型的后向过程，根据综合文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；对去噪后的隐空间表征进行解码，生成原始图像对应的编辑后图像。

在一些实施例中，扩散模型包括T个去噪网络，去噪网络包括下采样网络和上采样网络，调整后的旁路模块包括T个旁路网络。

在一些实施例中，T个去噪网络采用串联的方式进行连接，T个旁路网络分别与T个去噪网络并联连接。扩散模型的后向过程和旁路模块根据综合文本表征对隐空间表征进行一次去噪，是通过一个去噪网络和一个旁路网络对隐空间表征进行去噪，进行T次去噪后得到去噪后的隐空间表征。

在一些实施例中，在第i次去噪的过程中，将综合文本表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到第i个旁路网络的输出数据和第i个去噪网络的下采样网络的输出数据；根据第i个旁路网络的输出数据和第i个去噪网络的下采样网络的输出数据，得到第i个去噪网络的上采样网络的输入数据；通过第i个去噪网络的上采样网络，根据综合文本表征和第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，i为小于或等于T的正整数，第1个输入表征为隐空间表征，第i个输出表征作为第i+1个输入表征，第T个输出表征为去噪后的隐空间表征。

在一些实施例中，第i个输入表征是指经过i-1次去噪后的隐空间表征，第1个输入表征为隐空间表征。通过将综合文本表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，基于综合文本表征对第i个输入表征进行去噪，得到第i个旁路网络的输出数据和第i个去噪网络的下采样网络的输出数据。

在一些实施例中，第i个旁路网络和第i个去噪网络的下采样网络具有相同的结构，第i个旁路网络包括N个级联的第一网络单元，第i个去噪网络的下采样网络包括N个级联的第二网络单元，N为大于1的整数。

第一网络单元是指QKV（Query，Key，Value）单元，第i个旁路网络包括N个级联的QKV单元、M个级联的残差模块（Res Block）和一个空间转换器（Spatial Transformer）。第二网络单元是指QKV单元，第i个去噪网络包括N个级联的QKV单元、M个级联的残差模块和一个空间转换器。

在一些实施例中，由于第i个旁路网络和第i个去噪网络的下采样网络具有相同的结构，故在一些实施例中，可以在下述实施例中对旁路模块进行训练时将第i个去噪网络的下采样网络的参数，作为第i个旁路网络的初始化的参数。在一些实施例中，在下述实施例中对旁路模块进行调整时，第i个去噪网络的下采样网络的参数仅作为第i个旁路网络的初始化的参数，在后续的迭代调整中，会对第i个旁路网络的参数进行更新，而不改变第i个去噪网络的下采样网络的参数。可选地，对于第i个旁路网络的初始化的参数，也可以采用随机确定的方式进行设置。但是，相对于随机确定旁路网络的初始化参数的方式，采用经过预训练的去噪网络的下采样网络的参数作为旁路网络的初始化的参数，有助于加快旁路网络的收敛速度，提高训练效率。

在一些实施例中，在下述实施例中对旁路模块进行调整时，可以将第i个去噪网络中的N个级联的QKV单元、M个级联的残差模块和一个空间转换器的预训练参数，作为第i个旁路网络中的N个级联的QKV单元、M个级联的残差模块和一个空间转换器的初始化参数。

图7示出了调整后的图像生成模型的结构示意图。该调整后的图像生成模型包括预训练的扩散模型710、调整后的表征提取模块720以及调整后的旁路模块（包括多个旁路网络730）。根据任意一个随机数，生成随机噪声图像，将随机噪声图像和原始图像叠加，得到带噪声的原始图像C，通过编码器对带噪声的原始图像C进行编码，得到带噪声的原始图像C的初始特征向量Z，通过扩散模型的前向过程对初始特征向量进行T次加噪，生成带噪声的原始图像C对应的隐空间表征。隐空间表征和综合文本表征分别作为去噪网络的下采样网络和旁路的输入数据，根据旁路网络和下采样网络的输出数据，得到上采样网络的输入数据，上采样网络根据综合文本表征和上采样网络的输入数据，得到一次去噪后的输出特征。再经过T-1次去噪网络和旁路网络的作用，得到去噪后的隐空间表征，通过解码器对去噪后的隐空间表征进行解码，生成原始图像对应的编辑后图像Y。

图8示出了旁路网络和去噪网络的结构示意图，可以看出旁路网络的结构与去噪网络的下采用网络的结构相同，图8中的下采样网络包括3个级联的QKV单元、3个级联的残差模块和一个空间转换器，旁路网络同样包括3个级联的QKV单元、3个级联的残差模块和一个空间转换器，上采样网络包括3个级联的残差模块和3个级联的QKV单元。其中，在下述实施例中对旁路模块进行调整时，QKV7、8、9与QKV1、2、3的结构相同，QKV7、8、9的初始化参数是QKV1、2、3的预训练参数；残差模块7、8、9与残差模块1、2、3的结构相同，残差模块7、8、9的初始化参数是残差模块1、2、3的预训练参数；空间转换器2与空间转换器1的结构相同，空间转换器2的初始化参数是空间转换器1的预训练参数。

在一些实施例中，在第i次去噪的过程中，将综合文本表征和第i个输入表征分别作为第i个旁路网络和第i个去噪网络的下采样网络的输入数据，得到第i个旁路网络的空间转换器的输出数据和第i个去噪网络的下采样网络的空间转换器的输出数据。

图9示出了QKV网络的结构示意图，一个QKV网络中可以包括多个堆叠的残差模块和空间转换器，残差网络用于学习更多层次的特征，空间转换器用于实现QKV的计算过程。其中，Q（Query）是指to match others，表示要控制的信息，K（Key）是指to be matched，表示被控制的信息，V（Value）是指information to be extracted，表示输入特征的信息。

在一些实施例中，输入的Q是指第i个输入表征，KV是指综合文本表征，通过KV对Q进行控制，得到经KV控制后的Q。在图5的第一个QKV的计算过程中，KV与输入的Q相同，用于防止QKV网络训练过拟合，将KV控制后的Q输出第二个残差模块。在第二个QKV的计算过程中，Q是上一个QKV计算过程的输出，KV是指综合文本表征，得到经综合文本表征控制后的输入表征，再将第二个QKV计算过程的输出作为下采样网络中的其他模块的输入。

在一些实施例中，第i个旁路网络包括的第j个第一网络单元的输出数据，与第i个去噪网络的下采样网络包括的第j个第二网络单元的输出数据进行加权求和之后，作为第j+1个第二网络单元的输入数据，j为小于N的正整数。

参考图8所示，在第i次去噪的过程中，综合文本表征和第i个输入表征分别作为QKV7和QKV1的输入数据。将QKV7的输出数据和QKV1的输出数据进行加权求和之后，作为QKV2的输入数据，过程可以表示为output_QKV1+a×output_QKV7=input_QKV2，a为大于0的数。并将QKV8的输出数据和QKV2的输出数据进行加权求和之后，作为QKV3的输入数据，将QKV9的输出数据和QKV3的输出数据进行加权求和之后，作为残差模块1的输入数据。

参考图8所示，将旁路网络的空间转换器2的输出数据和下采样网络的空间转换器1的输出数据进行加权求和之后，可以作为去噪网络的上采样网络的输入数据，也即作为残差模块4的输入数据。同时，下采样网络的QKV1、2、3和残差模块1、2的输出数据也将分别作为上采样网络的残差模块5、6和QKV4、5、6的输入数据。

参考图8所示，去噪网络的上采样网络的输入数据包括综合文本表征、QKV1、2、3的输出数据、残差模块1、2的输出数据和空间转换器1的输出数据加权求和后的数据。空间转换器1输出数据和空间转换器2的输出数据加权求和之后，作为残差模块4的输入数据；将残差模块2的输出数据和残差模块4的输出数据加权求和之和，作为残差模块5的输入数据；将残差模块1的输出数据和残差模块5的输出数据加权求和之和，作为残差模块6的输入数据；将QKV3的输出数据和残差模块6的输出数据加权求和之后，作为QKV4的输入数据；将QKV2的输出数据和QKV4的输出数据加权求和之后，作为QKV5的输入数据；将QKV1的输出数据和QKV5的输出数据加权求和之后，作为QKV6的输入数据，从而得到QKV6的输出数据，也即得到去噪网络的上采样网络的输出数据，作为去噪网络的输出表征。

在一些实施例中，第1个去噪网络和第1个旁路网络对应的第1个输入表征为隐空间表征，第i个去噪网络的输出表征作为第i个去噪网络和第i个旁路网络对应的第i个输入表征，第T个去噪网络的输出表征即为去噪后的隐空间表征。

在一些实施例中，扩散模型的去噪网络和旁路模块的旁路网络，基于综合文本表征逐次对隐空间特征进行去噪，使最终得到的去噪后的隐空间表征能够充分符合综合文本表征的约束，从而图像生成模型生成的编辑后图像可以尽量符合综合文本表征对应的编辑文本。

步骤564，对去噪后的隐空间表征进行解码，生成编辑后图像。

在一些实施例中，通过第一解码器对去噪后的隐空间表征进行解码，生成原始图像对应的编辑后图像。第一解码器是指任意一个解码器，通过第一解码器对去噪后的隐空间表征进行解码，得到去噪后的隐空间表征对应的图像。

本申请实施例中通过引入综合文本表征以使得编辑文本对应的表征中能够涵盖固定文本的文本表征，从而使得用于对原始图像进行编辑的文本表征更能代表编辑意图，从而提升生成的图像的编辑效果。另外，将权重值开放给用户自定义设置，不仅能满足个性化定制的需求，还可以促进编辑后图像的多样化。

当然，本申请实施例还提供了与原图一致性的保证。通过不采用生成样本作为调整参考，而是进行文本表征对齐、生成降噪过程与原图微调来保持了原图一致性。同时本申请实施例还保证了生成可控性，通过基于固定文本的调整后文本表征下生成的综合文本表征，实现了生成效果控制。

请参考图10，其示出了本申请又一个实施例提供的图像生成方法的流程图。该方法各步骤的执行主体可以是上文介绍的计算机设备20。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤（1010~1070）中的至少一个步骤。

步骤1010，获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的编辑文本和固定文本，编辑文本用于对原始图像进行编辑，固定文本用于描述原始图像在编辑前后不发生变化的图像内容。

步骤1020，通过预训练的表征提取模块提取固定文本的文本表征。

在一些实施例中，预训练的表征提取模块是预训练模型，对于具体的预训练过程本申请不作赘述。

步骤1030，通过预训练的扩散模型根据原始图像和固定文本的文本表征，确定原始图像对应的第一预测图像。

在一些实施例中，在原始图像上叠加随机噪声图像，得到带噪声的原始图像；通过扩散模型的前向过程，生成带噪声的原始图像对应的隐空间表征；通过扩散模型的后向过程根据和固定文本的文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；对去噪后的隐空间表征进行解码，生成第一预测图像。此处生成图像的过程，可以参见上述模型使用侧的解释说明，不作赘述。

步骤1040，根据第一预测图像和原始图像之间的差异，对预训练的表征提取模块的参数进行调整，得到调整后的表征提取模块。

在一些实施例中，根据第一预测图像与原始图像中至少一个对应位置像素点的像素值之间的差值，确定第一损失函数值，第一损失函数值用于表征第一预测图像与原始图像之间的一致性；根据第一损失函数值对预训练的表征提取模块的参数进行调整，得到调整后的表征提取模块。

在一些实施例中，在计算第一损失函数值时，并不需要对应位置的全部像素点，而是选择其中部分像素点。示例性地，选择比例为全部像素点的a%。从全部像素点中随机选择出a%的像素点来计算第一损失函数值。其中，a是0到100之间的数。

示例性地，可以采用MSE（Mean Squared Error，均方误差）损失计算第一预测图像和原始图像之间的差异，第一损失函数值可以表示为如下公式：。其中，y表示图像中各点的像素值，表示原始图像中各点的像素值，表示第一预测图像中各点的像素值，n表示图像中像素的数量。可选地，若将训练样本集分为多个批次分别进行训练，则分别可以计算各个批次样本的损失，将多个批次的损失之和作为该轮训练的第一损失函数值。

当然，本申请实施例在计算上述原始图像和第一预测图像的损失时，原始图像也可以认为是带噪声的原始图像，也即计算带噪声的原始图像和生成图像之间的差异，从而确定损失，本申请对此不作限定。

本申请实施例对于参数调整的方式不作限定。示例性地，通过最小化第一损失函数值为目标，对预训练的表征提取模块进行调整，得到调整后的表征提取模块。示例性地，根据第一损失函数值以反向梯度传播的方式，对预训练的表征提取模块的参数进行调整，得到调整后的表征提取模块。示例性地，根据第一损失函数值以正向梯度传播的方式，对预训练的表征提取模块的参数进行调整，得到调整后的表征提取模块。

在一些实施例中，图11的1100示出了固定文本的文本表征的调整方式。示例性地，利用预训练的表征提取模块对固定文本的文本表征进行调整。如图11所示，对固定文本的文本表征进行调整，得到固定文本的调整后文本表征。图11中的删除线表示编辑文本中除去固定文本以外的其他文本不参加调整仅固定文本的文本表征参加调整，从而实现了文本对齐，由于文本对齐后模型生成能产生与原图像一样的效果，故仍需要对旁路模块进行调整使得生成过程中进一步实现固定文本和原始图像对齐。

在一些实施例中，如图12所示，其示出了扩散模型1210和表征提取模块1220的结构示意图。根据任意一个随机数，生成随机噪声图像，将随机噪声图像和原始图像叠加，得到带噪声的原始图像C，通过编码器对带噪声的原始图像C进行编码，得到带噪声的原始图像C的初始特征向量Z，通过扩散模型的前向过程对初始特征向量进行T次加噪，生成带噪声的原始图像C对应的隐空间表征。隐空间表征和固定文本的文本表征作为去噪网络的下采样网络的输入数据，根据下采样网络的输出数据，得到上采样网络的输入数据，上采样网络根据固定文本的文本表征和上采样网络的输入数据，得到一次去噪后的输出特征。再经过T-1次去噪网络的作用，得到去噪后的隐空间表征，通过解码器对去噪后的隐空间表征进行解码，生成原始图像对应的第一预测图像Y。根据第一预测图像和原始图像的差异来对表征提取模块1220的参数进行调整。

步骤1050，通过调整后的表征提取模块提取固定文本的调整后表征。

步骤1060，根据原始图像和固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，调整后的图像生成模型学习了固定文本所描述的不发生变化的图像内容。

步骤1070，通过调整后的图像生成模型根据原始图像、编辑文本以及固定文本的调整后文本表征，生成原始图像对应的编辑后图像。

请参考图13，其示出了本申请再一个实施例提供的图像生成方法的流程图。该方法各步骤的执行主体可以是上文介绍的计算机设备20。在下文方法实施例中，为了便于描述，仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤（1310~1350）中的至少一个步骤。

步骤1310，获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、原始图像对应的编辑文本和固定文本，编辑文本用于对原始图像进行编辑，固定文本用于描述原始图像在编辑前后不发生变化的图像内容。

步骤1320，根据原始图像得到固定文本的调整后文本表征，固定文本的调整后文本表征与原始图像的内容有关。

步骤1330，图像生成模型包括：旁路模块、预训练的扩散模型以及调整后的表征提取模块，通过扩散模型和旁路模块根据原始图像和固定文本的调整后文本表征，确定原始图像对应的第二预测图像。

在一些实施例中，在经过步骤1320得到调整后的表征提取模块之后，加上预训练的扩散模型以及初始化的旁路模块，能够得到本申请实施例中的图像生成模型。在一些实施例中，参见上述模型使用侧的实施例可知，旁路模块包括T个旁路网络（也可以称为信息网络），旁路网络中的初始化参数可以参照预训练的扩散模型中去噪网络的参数。

在一些实施例中，在原始图像上叠加随机噪声图像，得到带噪声的原始图像；通过扩散模型的前向过程，生成带噪声的原始图像对应的隐空间表征；通过扩散模型的后向过程根据和固定文本的调整后文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；对去噪后的隐空间表征进行解码，生成第二预测图像。此处生成图像的过程，可以参见上述模型使用侧的解释说明，不作赘述。

步骤1340，根据第二预测图像和原始图像之间的差异，对旁路模块的参数进行调整，得到调整后的图像生成模型。

在一些实施例中，根据第二预测图像与原始图像中至少一个对应位置像素点的像素值之间的差值，确定第二损失函数值，第二损失函数值用于表征第二预测图像与原始图像之间的一致性；根据第二损失函数值对旁路模块的参数进行调整，得到调整后的图像生成模型。

在一些实施例中，调整后的图像生成模型中包括调整后的旁路模块、预训练的扩散模型以及调整后的表征提取模块。在一些实施例中，在执行步骤1340时，只对旁路模块的参数进行调整，而不改变其他模块的参数。

在一些实施例中，在计算第二损失函数值时，并不需要对应位置的全部像素点，而是选择其中部分像素点。示例性地，选择比例为全部像素点的a%。从全部像素点中随机选择出a%的像素点来计算第二损失函数值。其中，a是0到100之间的数。

示例性地，可以采用MSE损失计算第二预测图像和原始图像之间的差异，第二损失函数值可以表示为如下公式：。其中，y表示图像中各点的像素值，表示原始图像中各点的像素值，表示第二预测图像中各点的像素值，n表示图像中像素的数量。可选地，若将训练样本集分为多个批次分别进行训练，则分别可以计算各个批次样本的损失，将多个批次的损失之和作为该轮训练的第二损失函数值。

当然，本申请实施例在计算上述原始图像和第二预测图像的损失时，原始图像也可以认为是带噪声的原始图像，也即计算带噪声的原始图像和生成图像之间的差异，从而确定损失，本申请对此不作限定。

本申请实施例对于参数调整的方式不作限定。示例性地，通过最小化第二损失函数值为目标，对旁路模块的参数进行调整，得到调整后的旁路模块。示例性地，根据第二损失函数值以反向梯度传播的方式，对旁路模块的参数进行调整，得到调整后的旁路模块。示例性地，根据第二损失函数值以正向梯度传播的方式，对旁路模块的参数进行调整，得到调整后的旁路模块。

在一些实施例中，如图14所示，其示出了图像生成模型的结构示意图。图像生成模型中包括预训练的扩散模型1410、调整后的表征提取模块1420以及旁路模块（包括多个旁路网络1430）的结构示意图。根据任意一个随机数，生成随机噪声图像，将随机噪声图像和原始图像叠加，得到带噪声的原始图像C，通过编码器对带噪声的原始图像C进行编码，得到带噪声的原始图像C的初始特征向量Z，通过扩散模型的前向过程对初始特征向量进行T次加噪，生成带噪声的原始图像C对应的隐空间表征。隐空间表征和固定文本的调整后文本表征分别作为去噪网络的下采样网络和旁路的输入数据，根据旁路网络和下采样网络的输出数据，得到上采样网络的输入数据，上采样网络根据固定文本的调整后文本表征和上采样网络的输入数据，得到一次去噪后的输出特征。再经过T-1次去噪网络和旁路网络的作用，得到去噪后的隐空间表征，通过解码器对去噪后的隐空间表征进行解码，生成原始图像对应的第二预测图像Y。根据第二预测图像和原始图像的差异来对旁路模块的参数进行调整。

步骤1350，通过调整后的图像生成模型根据原始图像、编辑文本以及固定文本的调整后文本表征，生成原始图像对应的编辑后图像。

本申请实施例提供的技术方案，通过对表征提取模块和旁路模块的参数分别进行调整，使两个模块都能学习到足够的信息，达到更好的图像生成效果，同时也避免了单一模块的训练容易导致的整体模型过拟合的问题。

综上，本申请实施例提供的技术方案引入一种文本微调方法来降低生成不一致的问题：通过目标文本微调，编辑文本与目标文本对齐，从而绑定词语和原图像、降低编辑语句产生明显与原图不一致的问题；降低训练样本错误的问题：不采用instruct pix2pix三元组训练方法（采用原图和编辑效果图训练），而是直接用原图训练，把图像和目标文本信息抗过拟合微调到模型中，从而允许通过目标文本加入编辑信息产生的编辑文本可以给编辑效果。提升编辑文本的控制效果：最终生成时，通过对齐目标文本与编辑任务文本表征进行加权得到新的文本表征，可在保持一致性文本表征下，提升编辑控制效果。

请参考图15，其示出了本申请另一个实施例提供的图像生成方法的示意图。在一些实施例中，用户能够自定义图像输入也即输入的原始图像，用户可以针对图像的编辑指令进行描述也即编辑文本，用户还可以自定义图像中不变的元素也即固定文本，展示的生成结果也即生成的编辑后图像。如图15的子图（a）所示，编辑文本是“一张动漫风格的图像”，固定文本是“图像”。当然，用户还可以自定义编辑强度也即固定文本的权重值，如图15的子图（b）所示，编辑强度是0.7，也即固定文本的权重值是0.7。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图16，其示出了本申请一个实施例提供的图像生成装置的框图。如图16所示，该装置1600可以包括：图文对获取模块1610、表征调整模块1620、参数调整模块1630和图像生成模块1640。

图文对获取模块1610，用于获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的编辑文本和固定文本，所述编辑文本用于对所述原始图像进行编辑，所述固定文本用于描述所述原始图像在编辑前后不发生变化的图像内容。

表征调整模块1620，用于根据所述原始图像得到所述固定文本的调整后文本表征，所述固定文本的调整后文本表征与所述原始图像的内容有关。

参数调整模块1630，用于根据所述原始图像和所述固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，所述调整后的图像生成模型学习了所述固定文本所描述的所述不发生变化的图像内容。

图像生成模块1640，用于通过所述调整后的图像生成模型根据所述原始图像、所述编辑文本以及所述固定文本的调整后文本表征，生成所述原始图像对应的编辑后图像。

在一些实施例中，表征调整模块1620，用于通过预训练的表征提取模块提取所述固定文本的文本表征；通过预训练的扩散模型根据所述原始图像和所述固定文本的文本表征，确定所述原始图像对应的第一预测图像；根据所述第一预测图像和所述原始图像之间的差异，对所述预训练的表征提取模块的参数进行调整，得到调整后的表征提取模块；通过所述调整后的表征提取模块提取所述固定文本的调整后表征。

在一些实施例中，表征调整模块1620，用于根据所述第一预测图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值，确定第一损失函数值，所述第一损失函数值用于表征所述第一预测图像与所述原始图像之间的一致性；根据所述第一损失函数值对所述预训练的表征提取模块的参数进行调整，得到所述调整后的表征提取模块。

在一些实施例中，所述图像生成模型包括：旁路模块、预训练的扩散模型以及调整后的表征提取模块。

在一些实施例中，参数调整模块1630，用于通过所述扩散模型和所述旁路模块根据所述原始图像和所述固定文本的调整后文本表征，确定所述原始图像对应的第二预测图像；根据所述第二预测图像和所述原始图像之间的差异，对所述旁路模块的参数进行调整，得到所述调整后的图像生成模型。

在一些实施例中，参数调整模块1630，用于根据所述第二预测图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值，确定第二损失函数值，所述第二损失函数值用于表征所述第二预测图像与所述原始图像之间的一致性；根据所述第二损失函数值对所述旁路模块的参数进行调整，得到所述调整后的图像生成模型。

在一些实施例中，所述调整后的图像生成模型包括：预训练的扩散模型和调整后的表征提取模块。

在一些实施例中，图像生成模块1640，用于通过所述调整后的表征提取模块提取所述编辑文本的文本表征；根据所述编辑文本的文本表征和所述固定文本的调整后文本表征，得到综合文本表征；通过所述扩散模型根据所述原始图像和所述综合文本表征，生成所述编辑后图像。

在一些实施例中，所述编辑文本包括所述固定文本，所述编辑文本的文本表征中包括所述固定文本对应的文本表征片段。

在一些实施例中，图像生成模块1640，用于对所述固定文本对应的文本表征片段和所述固定文本的调整后文本表征进行加权求和，得到所述固定文本的加权文本表征；用所述固定文本的加权文本表征替换所述编辑文本的文本表征中包含的所述固定文本对应的文本表征片段，得到所述综合文本表征。

在一些实施例中，图像生成模块1640，用于获取用户自定义输入的所述固定文本对应的权重值，所述权重值用于确定所述加权求和的参数。

在一些实施例中，所述调整后的图像生成模型还包括：调整后的旁路模块。

在一些实施例中，图像生成模块1640，用于在所述原始图像上叠加随机噪声图像，得到带噪声的原始图像；通过所述扩散模型的前向过程，生成所述带噪声的原始图像对应的隐空间表征；通过所述扩散模型的后向过程和所述调整后的旁路模块，根据所述综合文本表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；对所述去噪后的隐空间表征进行解码，生成所述编辑后图像。

在一些实施例中，所述扩散模型包括T个去噪网络，所述去噪网络包括下采样网络和上采样网络，所述调整后的旁路模块包括T个旁路网络。

在一些实施例中，图像生成模块1640，用于在第i次去噪的过程中，将所述综合文本表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据；根据所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据，得到所述第i个去噪网络的上采样网络的输入数据；通过所述第i个去噪网络的上采样网络，根据所述综合文本表征和所述第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，i为小于或等于T的正整数，第1个输入表征为所述隐空间表征，所述第i个输出表征作为第i+1个输入表征，第T个输出表征为所述去噪后的隐空间表征。

在一些实施例中，所述第i个旁路网络和所述第i个去噪网络的下采样网络具有相同的结构，所述第i个旁路网络包括N个级联的第一网络单元，所述第i个去噪网络的下采样网络包括N个级联的第二网络单元，N为大于1的整数；所述第i个旁路网络包括的第j个第一网络单元的输出数据，与所述第i个去噪网络的下采样网络包括的第j个第二网络单元的输出数据进行加权求和之后，作为第j+1个第二网络单元的输入数据，j为小于N的正整数。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图17，其示出了本申请一个实施例提供的计算机设备1700的结构框图。该计算机设备1700可以是任何具备数据计算、处理和存储能力的电子设备。该计算机设备1700可用于实现上述实施例中提供的图像生成方法。

通常，计算机设备1700包括有：处理器1701和存储器1702。

处理器1701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1701可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（FieldProgrammable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1701可以在集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1701还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1702中的非暂态的计算机可读存储介质用于存储计算机程序，所述计算机程序经配置以由一个或者一个以上处理器执行，以实现上述图像生成方法。

本领域技术人员可以理解，图17中示出的结构并不构成对计算机设备1700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被处理器执行时以实现上述图像生成方法。可选地，该计算机可读存储介质可以包括：ROM（Read-Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、SSD（Solid State Drives，固态硬盘）或光盘等。其中，随机存取存储器可以包括ReRAM（Resistance Random Access Memory，电阻式随机存取存储器）和DRAM（Dynamic Random Access Memory，动态随机存取存储器）。

在示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机程序，所述处理器执行所述计算机程序，使得所述计算机设备执行上述图像生成方法。

需要说明的是，本申请中相关数据（包括原始图像、固定文本以及编辑文本）收集处理在实例应用时应该严格根据相关国家法律法规的要求，获取个人信息主体的知情同意或单独同意，并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理行为。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的编辑文本和固定文本，所述编辑文本用于对所述原始图像进行编辑，所述固定文本用于描述所述原始图像在编辑前后不发生变化的图像内容；

根据所述原始图像和所述固定文本的文本表征得到所述固定文本的调整后文本表征，所述固定文本的调整后文本表征与所述原始图像的内容有关；

根据所述原始图像和所述固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，所述调整后的图像生成模型学习了所述固定文本所描述的所述不发生变化的图像内容；

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始图像和所述固定文本的文本表征得到所述固定文本的调整后文本表征，包括：

通过预训练的表征提取模块提取所述固定文本的文本表征；

通过预训练的扩散模型根据所述原始图像和所述固定文本的文本表征，确定所述原始图像对应的第一预测图像；

根据所述第一预测图像和所述原始图像之间的差异，对所述预训练的表征提取模块的参数进行调整，得到调整后的表征提取模块；

通过所述调整后的表征提取模块提取所述固定文本的调整后表征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一预测图像和所述原始图像的差异，对所述预训练的表征提取模块的参数进行调整，得到调整后的表征提取模块，包括：

根据所述第一预测图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值，确定第一损失函数值，所述第一损失函数值用于表征所述第一预测图像与所述原始图像之间的一致性；

根据所述第一损失函数值对所述预训练的表征提取模块的参数进行调整，得到所述调整后的表征提取模块。

4.根据权利要求1所述的方法，其特征在于，所述图像生成模型包括：旁路模块、预训练的扩散模型以及调整后的表征提取模块；

所述根据所述原始图像和所述固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型，包括：

通过所述扩散模型和所述旁路模块根据所述原始图像和所述固定文本的调整后文本表征，确定所述原始图像对应的第二预测图像；

根据所述第二预测图像和所述原始图像之间的差异，对所述旁路模块的参数进行调整，得到所述调整后的图像生成模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第二预测图像和所述原始图像之间的差异，对所述旁路模块的参数进行调整，得到所述调整后的图像生成模型，包括：

根据所述第二预测图像与所述原始图像中至少一个对应位置像素点的像素值之间的差值，确定第二损失函数值，所述第二损失函数值用于表征所述第二预测图像与所述原始图像之间的一致性；

根据所述第二损失函数值对所述旁路模块的参数进行调整，得到所述调整后的图像生成模型。

6.根据权利要求1所述的方法，其特征在于，所述调整后的图像生成模型包括：预训练的扩散模型和调整后的表征提取模块；

所述通过所述调整后的图像生成模型根据所述原始图像、所述编辑文本以及所述固定文本的调整后文本表征，生成所述原始图像对应的编辑后图像，包括：

通过所述调整后的表征提取模块提取所述编辑文本的文本表征；

根据所述编辑文本的文本表征和所述固定文本的调整后文本表征，得到综合文本表征；

通过所述扩散模型根据所述原始图像和所述综合文本表征，生成所述编辑后图像。

7.根据权利要求6所述的方法，其特征在于，所述编辑文本包括所述固定文本，所述编辑文本的文本表征中包括所述固定文本对应的文本表征片段；

所述根据所述编辑文本的文本表征和所述固定文本的调整后文本表征，得到综合文本表征，包括：

对所述固定文本对应的文本表征片段和所述固定文本的调整后文本表征进行加权求和，得到所述固定文本的加权文本表征；

用所述固定文本的加权文本表征替换所述编辑文本的文本表征中包含的所述固定文本对应的文本表征片段，得到所述综合文本表征。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取用户自定义输入的所述固定文本对应的权重值，所述权重值用于确定所述加权求和的参数。

9.根据权利要求6所述的方法，其特征在于，所述调整后的图像生成模型还包括：调整后的旁路模块；

所述通过所述扩散模型根据所述原始图像和所述综合文本表征，生成所述编辑后图像，包括：

在所述原始图像上叠加随机噪声图像，得到带噪声的原始图像；

通过所述扩散模型的前向过程，生成所述带噪声的原始图像对应的隐空间表征；

通过所述扩散模型的后向过程和所述调整后的旁路模块，根据所述综合文本表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；

对所述去噪后的隐空间表征进行解码，生成所述编辑后图像。

10.根据权利要求9所述的方法，其特征在于，所述扩散模型包括T个去噪网络，所述去噪网络包括下采样网络和上采样网络，所述调整后的旁路模块包括T个旁路网络；

所述通过所述扩散模型的后向过程和所述调整后的旁路模块，根据所述综合文本表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征，包括：

在第i次去噪的过程中，将所述综合文本表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据；

根据所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据，得到所述第i个去噪网络的上采样网络的输入数据；

通过所述第i个去噪网络的上采样网络，根据所述综合文本表征和所述第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；

其中，i为小于或等于T的正整数，第1个输入表征为所述隐空间表征，所述第i个输出表征作为第i+1个输入表征，第T个输出表征为所述去噪后的隐空间表征。

11.根据权利要求10所述的方法，其特征在于，所述第i个旁路网络和所述第i个去噪网络的下采样网络具有相同的结构，所述第i个旁路网络包括N个级联的第一网络单元，所述第i个去噪网络的下采样网络包括N个级联的第二网络单元，N为大于1的整数；

所述第i个旁路网络包括的第j个第一网络单元的输出数据，与所述第i个去噪网络的下采样网络包括的第j个第二网络单元的输出数据进行加权求和之后，作为第j+1个第二网络单元的输入数据，j为小于N的正整数。

12.一种图像生成装置，其特征在于，所述装置包括：

图文对获取模块，用于获取至少一个图文对，每个图文对中包括具有匹配关系的一张原始图像、所述原始图像对应的编辑文本和固定文本，所述编辑文本用于对所述原始图像进行编辑，所述固定文本用于描述所述原始图像在编辑前后不发生变化的图像内容；

表征调整模块，用于根据所述原始图像和所述固定文本的文本表征得到所述固定文本的调整后文本表征，所述固定文本的调整后文本表征与所述原始图像的内容有关；

参数调整模块，用于根据所述原始图像和所述固定文本的调整后文本表征，对图像生成模型的参数进行调整，得到调整后的图像生成模型；其中，所述调整后的图像生成模型学习了所述固定文本所描述的所述不发生变化的图像内容；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至11任一项所述的图像生成方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至11任一项所述的图像生成方法。