CN116542292B

CN116542292B - 图像生成模型的训练方法、装置、设备及存储介质

Info

Publication number: CN116542292B
Application number: CN202310812476.4A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-09-26
Anticipated expiration: 2043-07-04
Also published as: CN116542292A

Abstract

本申请公开了一种图像生成模型的训练方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：获取图像生成模型的训练样本集，训练样本集中包括至少一个图文对；通过表征提取模块生成人物名称对应的人物表征；通过扩散模型的前向过程，生成随机噪声图像对应的隐空间表征；通过扩散模型的后向过程和旁路模块，根据人物表征和隐空间表征，生成人物名称对应的预测图像；根据预测图像和人物图像之间的差异，对表征提取模块和旁路模块的参数进行调整，得到训练后的图像生成模型。本申请通过对表征提取模块和旁路模块进行训练，避免对经过预训练的扩散模型再次进行训练而导致模型产生过拟合的问题，提升了模型生成的图像质量。

Description

图像生成模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种图像生成模型的训练方法、装置、设备及存储介质。

背景技术

随着扩散模型（Diffusion Model）的发展，文生图（text-to-image）的创作能力大大提升，用户输入一个文本，模型对一个随机噪声图经过一系列操作即可生成与该文本相关的预测图像。

扩散模型的微调训练用于对未参与扩散模型的训练过程的新增样本再次进行训练，以使扩散模型可以基于新增文本生成与该新增文本对应的预测图像。相关技术中，对于扩散模型的微调训练，将需要进行训练的图文对输入到模型中，例如，可以将待训练的“张某某”的人物名称和人物图像输入到模型中进行训练，使得扩散模型应用时可以根据输入的“张某某”的人物名称，生成对应的人物图像。

然而，上述微调方法容易改变模型中训练好的参数，导致模型过拟合，从而导致模型生成的图像质量降低。

发明内容

本申请实施例提供了一种图像生成模型的训练方法、装置、设备及存储介质。所述技术方案包括如下几个方面。

根据本申请实施例的一个方面，提供了一种图像生成模型的训练方法，所述图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型，所述方法包括：获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一个人物名称和一张人物图像；通过所述表征提取模块生成所述人物名称对应的人物表征；通过所述扩散模型的前向过程，生成随机噪声图像对应的隐空间表征；通过所述扩散模型的后向过程和所述旁路模块，根据所述人物表征和所述隐空间表征，生成所述人物名称对应的预测图像；根据所述预测图像和所述人物图像之间的差异，对所述表征提取模块和所述旁路模块的参数进行调整，得到训练后的图像生成模型。

根据本申请实施例的一个方面，提供了一种基于图像生成模型的图像生成方法，所述图像生成模型包括表征提取模块、旁路模块和扩散模型；所述方法包括：获取包含第一人物名称的输入文本；通过所述表征提取模块生成所述输入文本的文本表征；通过所述扩散模型的前向过程，生成随机噪声图像对应的隐空间表征；通过所述扩散模型的后向过程和所述旁路模块，根据所述文本表征和所述隐空间表征，生成与所述输入文本相匹配的输出图像。

根据本申请实施例的一个方面，提供了一种图像生成模型的训练装置，所述图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型，所述装置包括：样本获取模块，用于获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一个人物名称和一张人物图像；表征提取模块，用于通过所述表征提取模块生成所述人物名称对应的人物表征；前向生成模块，用于通过所述扩散模型的前向过程，生成随机噪声图像对应的隐空间表征；后向生成模块，用于通过所述扩散模型的后向过程和所述旁路模块，根据所述人物表征和所述隐空间表征，生成所述人物名称对应的预测图像；模型训练模块，用于根据所述预测图像和所述人物图像之间的差异，对所述表征提取模块和所述旁路模块的参数进行调整，得到训练后的图像生成模型。

根据本申请实施例的一个方面，提供了一种基于图像生成模型的图像生成装置，所述图像生成模型包括表征提取模块、旁路模块和扩散模型；所述装置包括：文本获取模块，用于获取包含第一人物名称的输入文本；表征提取模块，用于通过所述表征提取模块生成所述输入文本的文本表征；前向生成模块，用于通过所述扩散模型的前向过程，生成随机噪声图像对应的隐空间表征；后向生成模块，用于通过所述扩散模型的后向过程和所述旁路模块，根据所述文本表征和所述隐空间表征，生成与所述输入文本相匹配的输出图像。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述图像生成模型的训练方法，或基于图像生成模型的图像生成方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法，或基于图像生成模型的图像生成方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成模型的训练方法，或基于图像生成模型的图像生成方法。

本申请实施例提供的技术方案可以带来如下有益效果：一方面，通过在图像生成模型中加入旁路模块，使得在图像生成模型的迭代训练中，可以仅对表征提取模块和旁路模块进行训练，而不用对扩散模型进行训练，避免对经过预训练的扩散模型再次进行训练而导致扩散模型遗忘已训练好的参数，产生模型过拟合的问题，提升了模型生成的图像质量。另一方面，采用的训练样本集中包括同一人物名称对应的多个人物图像，使得训练后的图像生成模型可以生成同一人物名称的不同人物表征，从而可以满足不同的人物图像生成需求，提升了图像生成模型的功能多样性。

附图说明

图1是本申请一个实施例提供的方案实施环境的示意图。

图2是本申请一个实施例提供的图像生成模型的训练方法的流程图。

图3是本申请另一个实施例提供的图像生成模型的训练方法的流程图。

图4是本申请一个实施例提供的旁路网络和去噪网络的结构示意图。

图5是本申请一个实施例提供的QKV网络的结构示意图。

图6是本申请一个实施例提供的图像生成模型的结构示意图。

图7是本申请一个实施例提供的图像生成模型的训练样本集的生成方法的流程图。

图8是本申请一个实施例提供的具有浓烈上妆效果的妆容示意图。

图9是本申请一个实施例提供的具有自然上妆效果的妆容示意图。

图10是本申请一个实施例提供的人脸超分模型的优化效果的示意图。

图11是本申请一个实施例提供的图像增强处理过程的示意图。

图12是本申请一个实施例提供的图像增强处理过程对图像生成模型的作用示意图。

图13是本申请另一个实施例提供的基于图像生成模型的图像生成方法的流程图。

图14是本申请一个实施例提供的基于人物表征生成人物表征库的过程示意图。

图15是本申请一个实施例提供的表征均值替换原始人物表征的示意图。

图16是本申请一个实施例提供的相似度最高的人物表征替换原始人物表征的示意图。

图17是本申请一个实施例提供的图像生成模型的应用界面的示意图。

图18是本申请一个实施例提供的图像生成模型的训练装置的框图。

图19是本申请一个实施例提供的基于图像生成模型的图像生成装置的框图。

图20是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请技术方案主要涉及人工智能技术中的机器学习技术，主要涉及图像生成模型的训练和使用过程。

请参考图1，其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以实现成为图像生成模型的训练和使用***。该方案实施环境可以包括：模型训练设备10和模型使用设备20。

模型训练设备10可以是诸如手机、平板电脑、笔记本电脑、台式电脑、智能电视、多媒体播放设备、车载终端、服务器、智能机器人等电子设备，或者是其他一些具有较强计算能力的电子设备。模型训练设备10用于对图像生成模型进行训练。

在本申请实施例中，图像生成模型是基于图像生成模型的训练方法训练得到的机器学习模型，用于根据包含人物名称的输入文本，生成与该输入文本相匹配的输出图像。模型训练设备10可以采用机器学习的方式对该图像生成模型进行训练，以使其具备根据输入文本生成与输入文本相匹配的输出图像的能力，具体的模型训练方法可以参考下述实施例。

图像生成模型包括表征提取模块、扩散模型和旁路模块。其中，表征提取模块用于获取输入文本的文本特征；扩散模型用于基于输入文本逐步去除噪声图像中的噪声，生成与输入文本相匹配的输出图像；旁路模块用于辅助扩散模型生成输入文本相匹配的输出图像，旁路模块的输出加权后作为扩散模型中特定网络的输入，进一步基于输入文本去除噪声图像中的噪声。表征提取模块和旁路模块是基于神经网络学习的功能模块。

在本申请实施例中，将输入文本输入图像生成模型，首先经由表征提取模块生成输入文本的文本特征，而后扩散模型和旁路模块基于文本特征对噪声图像进行逐步去噪，生成与输入文本相匹配的输出图像。

训练后的图像生成模型可部署在模型使用设备20中使用。模型使用设备20可以是诸如手机、平板电脑、笔记本电脑、台式电脑、智能电视、多媒体播放设备、车载终端、智能机器人等终端设备，也可以是服务器。在需要根据输入文本生成与输入文本相匹配的输出图像时，模型使用设备20可以通过训练后的图像生成模型实现上述功能。

模型训练设备10和模型使用设备20可以是两个独立存在的设备，也可以是同一个设备。若模型训练设备10和模型使用设备20是同一个设备时，则模型训练设备10可以部署在模型使用设备20中。

在本申请实施例中，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储功能的电子设备。该计算机设备可以是诸如手机、平板电脑、笔记本电脑、台式电脑、智能电视、多媒体播放设备、车载终端、智能机器人等终端设备，也可以是服务器。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。计算机设备可以是如图1中的模型训练设备10，也可以是模型使用设备20。

请参考图2，其示出了本申请一个实施例提供的图像生成模型的训练方法的流程图。图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型。该方法各步骤的执行主体可以是计算机设备。该方法可以包括如下步骤210~250中的至少一个步骤。

步骤210，获取图像生成模型的训练样本集，训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一个人物名称和一张人物图像。

人物名称是指任何一个人物的名称，可以是真实存在的人物的名称，也可以是虚拟存在的人物的名称。若人物名称是真实存在的人物的名称，则可以是知名人物的名称，例如知名科学家的名称、知名运动员的名称、知名演员的名称等，也可以是不知名的普通人物的名称，例如同学、同事、老师、邻居的名称等。若人物名称是虚拟存在的人物的名称，则人物可以不限制于人类形态，可以包括动物形态、自主创作的任何虚拟形态，例如，可以是影视剧人物的名称，也可以是动画角色的名称，也可以是游戏角色的名称，等等。

人物名称可以是文本的形式，也可以是数字的形式，也可以是字符串的形式，本申请对此不作限定。若人物名称是文本的形式，则人物名称可以是指人物的名字，例如“张某某”。

人物图像是指包含人物样貌、神情的图像，人物图像可以是彩色的人物图像，也可以是黑白的人物图像，在本申请实施例中，训练样本集中包括的人物图像是指彩色的人物图像。

人物名称与人物图像之间的匹配关系是指人物图像中包含人物名称对应的人物的图像，例如，“张某某”与一张人物图像具有匹配关系，则表示该人物图像中包含“张某某”的图像，“李某某”与一张人物图像不具有匹配关系，则表示该人物图像中不包含“李某某”的图像。一个人物名称可以与多张人物图像具有匹配关系，一张人物图像仅与一个人物名称具有匹配关系。一个人物名称可以和与其具有匹配关系的多张人物图像分别组成图文对，故训练样本集包括的至少一个图文对中可以包括同一个人物名称的多个图文对。

步骤220，通过表征提取模块生成人物名称对应的人物表征。

将图文对中的各个人物名称作为表征提取模块的输入，通过表征提取模块生成各个人物名称对应的人物表征，一个人物名称对应对于一个人物表征，则一张人物图像与一个人物表征具有匹配关系，一个人物名称与多张人物图像具有匹配关系。

人物表征可以是向量形式的表征，也可以是矩阵形式的表征。人物表征用于表示人物的特征，包括人物的外貌特征、性别特征、年龄特征、身份特征中的至少之一。

步骤230，通过扩散模型的前向过程，生成随机噪声图像对应的隐空间表征。

扩散模型的前向过程又称为扩散过程（diffusion process），用于逐次往输入数据中加入噪声，直至输入数据趋近于纯噪声。示例性地，扩散过程整体可以是一个参数化的马尔可夫链（Markov chain）。

需要注意的是，本申请实施例中的扩散模型是经过预训练的扩散模型，具有一定的基于噪声图像生成目标图像的能力。扩散模型的模型参数可以采用开源的模型结构和模型参数，本申请对此不作限定，对于扩散模型的预训练过程，也不再进行过多阐述。

在一些实施例中，通过第一编码器对随机噪声图像进行编码，得到随机噪声图像的初始特征向量；通过扩散模型的前向过程对初始特征向量进行T次加噪，生成随机噪声图像对应的隐空间表征，T为正整数。

随机噪声图像是指随机生成的一个噪声图像，随机噪声图像可以由随机数对应生成，不同的随机数对应于不同的随机噪声图像，随机数是指任意一个数字。不同随机数对应的随机噪声图像具有不同的图像特征，可以是图像不同的风格特征，例如，可以是画面色彩浓烈的风格特征，也可以是画面色彩浅淡的风格特征，也可以是图像不同的场景特征，例如，可以是城市的场景特征，也可以是草原的场景特征。

第一编码器是指任意一个编码器，随机噪声图像的初始特征向量具有随机噪声图像的特征。随机噪声图像的初始特征作为扩散模型的前向过程的输入数据，通过扩散过程逐次向初始特征向量中添加噪声，初始特征向量则逐次失去其特征，进行T次加噪后，初始特征向量将变成没有任何特征的隐空间表征。即隐空间表征是指随机噪声图像对应的不具有图像特征的纯噪声图像的表征。隐空间表征的形式与人物表征的形式相同，可以是向量形式的表征，也可以是矩阵形式的表征。

步骤240，通过扩散模型的后向过程和旁路模块，根据人物表征和隐空间表征，生成人物名称对应的预测图像。

扩散模型的后向过程用于根据约束条件，逐次对输入数据去除噪声，从而生成目标图像。示例性地，扩散模型的后向过程整体也可以是一个参数化的马尔可夫链。旁路模块用于辅助扩散模型的后向过程生成目标图像，旁路模块的输出加权后作为扩散模型中特定网络的输入，进一步基于输入数据去除输入数据中的噪声。

隐空间表征和人物表征作为扩散模型的后向过程和旁路模块的输入数据，扩散模型的后向过程和旁路模块基于人物表征对隐空间特征进行逐次去噪约束，使生成的预测图像满足人物表征的约束要求。

步骤250，根据预测图像和人物图像之间的差异，对表征提取模块和旁路模块的参数进行调整，得到训练后的图像生成模型。

在一些实施例中，可以根据预测图像和人物图像之间的差异，对表征提取模块和旁路模块的参数同时进行调整。

在一些实施例中，考虑到表征提取模块和旁路模块的功能不同，两个模块的收敛速度也不同，故同时训练表征提取模块和旁路模块会导致收敛慢的模块无法学习足够好的信息，进一步导致训练模块时会减慢收敛速度。故对表征提取模块和旁路模块的参数进行调整时，每一轮迭代调整将对表征提取模块和旁路模块中的一个模块的参数进行调整，另一个模块的参数保持不变，且表征提取模块和旁路模块的参数交替调整。同时也避免了单一模块的持续训练容易使整体模型过拟合的问题。

本申请实施例提供的技术方案，一方面，通过在图像生成模型中加入旁路模块，使得在图像生成模型的迭代训练中，可以仅对表征提取模块和旁路模块进行训练，而不用对扩散模型进行训练，避免对经过预训练的扩散模型再次进行训练而导致扩散模型遗忘已训练好的参数，产生模型过拟合的问题，提升了模型生成的图像质量。另一方面，采用的训练样本集中包括同一人物名称对应的多个人物图像，使得训练后的图像生成模型可以生成同一人物名称的不同人物表征，从而可以满足不同的人物图像生成需求，提升了图像生成模型的功能多样性。

请参考图3，其示出了本申请另一个实施例提供的图像生成模型的训练方法的流程图。该方法各步骤的执行主体可以是计算机设备。该方法可以包括如下步骤310~360中的至少一个步骤。

步骤310，获取图像生成模型的训练样本集，训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一个人物名称和一张人物图像。

步骤320，通过表征提取模块生成人物名称对应的人物表征。

步骤330，通过扩散模型的前向过程，生成随机噪声图像对应的隐空间表征。

步骤340，通过扩散模型的后向过程和旁路模块，根据人物表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数。

扩散模型的前向过程对初始特征向量进行T次加噪，生成了随机噪声图像对应的隐空间表征，扩散模型的后向过程和旁路模块，根据人物表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征。

在一些实施例中，扩散模型包括T个去噪网络，去噪网络包括下采样网络和上采样网络，旁路模块包括T个旁路网络。

T个去噪网络采用串联的方式进行连接，T个旁路网络分别与T个去噪网络并联连接。扩散模型的后向过程和旁路模块根据人物表征对隐空间表征进行一次去噪，是通过一个去噪网络和一个旁路网络对隐空间表征进行去噪，进行T次去噪后得到去噪后的隐空间表征。

步骤340包括步骤341~343（图中未示出）中的至少一个子步骤。

步骤341，在第i次去噪的过程中，将人物表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到第i个旁路网络的输出数据和第i个去噪网络的下采样网络的输出数据。

第i个输入表征是指经过i-1次去噪后的隐空间表征，第1个输入表征为隐空间表征。

通过将人物表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，基于人物表征对第i个输入表征进行去噪，得到第i个旁路网络的输出数据和第i个去噪网络的下采样网络的输出数据。

在一些实施例中，第i个旁路网络和第i个去噪网络的下采样网络具有相同的结构，第i个旁路网络包括N个级联的第一网络单元，第i个去噪网络的下采样网络包括N个级联的第二网络单元，N为大于1的整数。

第一网络单元是指QKV（Query，Key，Value）单元，第i个旁路网络包括N个级联的QKV单元、M个级联的残差模块（Res Block）和一个空间转换器（Spatial Transformer）。第二网络单元是指QKV单元，第i个去噪网络包括N个级联的QKV单元、M个级联的残差模块和一个空间转换器。

由于第i个旁路网络和第i个去噪网络的下采样网络具有相同的结构，故在一些实施例中，可以将第i个去噪网络的下采样网络的参数，作为第i个旁路网络的初始化的参数。

第i个去噪网络的下采样网络的参数仅作为第i个旁路网络的初始化的参数，在后续的迭代调整中，会对第i个旁路网络的参数进行更新，而不改变第i个去噪网络的下采样网络的参数。

可选地，对于第i个旁路网络的初始化的参数，也可以采用随机确定的方式进行设置。但是，相对于随机确定旁路网络的初始化参数的方式，采用经过预训练的去噪网络的下采样网络的参数作为旁路网络的初始化的参数，有助于加快旁路网络的收敛速度，提高训练效率。

示例性地，可以将第i个去噪网络中的N个级联的QKV单元、M个级联的残差模块和一个空间转换器的预训练参数，作为第i个旁路网络中的N个级联的QKV单元、M个级联的残差模块和一个空间转换器的初始化参数。

图4示出了旁路网络和去噪网络的结构示意图，可以看出旁路网络的结构与去噪网络的下采用网络的结构相同，图4中的下采样网络包括3个级联的QKV单元、3个级联的残差模块和一个空间转换器，旁路网络同样包括3个级联的QKV单元、3个级联的残差模块和一个空间转换器，上采样网络包括3个级联的残差模块和3个级联的QKV单元。其中，QKV7、8、9与QKV1、2、3的结构相同，QKV7、8、9的初始化参数是QKV1、2、3的预训练参数；残差模块7、8、9与残差模块1、2、3的结构相同，残差模块7、8、9的初始化参数是残差模块1、2、3的预训练参数；空间转换器2与空间转换器1的结构相同，空间转换器2的初始化参数是空间转换器1的预训练参数。

在第i次去噪的过程中，将人物表征和第i个输入表征分别作为第i个旁路网络和第i个去噪网络的下采样网络的输入数据，得到第i个旁路网络的空间转换器的输出数据和第i个去噪网络的下采样网络的空间转换器的输出数据。

图5示出了QKV网络的结构示意图，一个QKV网络中可以包括多个堆叠的残差模块和空间转换器，残差网络用于学习更多层次的特征，空间转换器用于实现QKV的计算过程。其中，Q（Query）是指to match others，表示要控制的信息，K（Key）是指to be matched，表示被控制的信息，V（Value）是指information to be extracted，表示输入特征的信息。

在本申请实施例中，输入的Q是指第i个输入表征，KV是指人物表征，通过KV对Q进行控制，得到经KV控制后的Q。在图5的第一个QKV的计算过程中，KV与输入的Q相同，用于防止QKV网络训练过拟合，将KV控制后的Q输出第二个残差模块。在第二个QKV的计算过程中，Q是上一个QKV计算过程的输出，KV是指人物表征，得到经人物表征控制后的输入表征，再将第二个QKV计算过程的输出作为下采样网络中的其他模块的输入。

在一些实施例中，第i个旁路网络包括的第j个第一网络单元的输出数据，与第i个去噪网络的下采样网络包括的第j个第二网络单元的输出数据进行加权求和之后，作为第j+1个第二网络单元的输入数据，j为小于N的正整数。

参考图4所示，在第i次去噪的过程中，人物表征和第i个输入表征分别作为QKV7和QKV1的输入数据。将QKV7的输出数据和QKV1的输出数据进行加权求和之后，作为QKV2的输入数据，过程可以表示为output_QKV1 +a*output_QKV7=input_QKV2，a为大于0的数。并将QKV8的输出数据和QKV2的输出数据进行加权求和之后，作为QKV3的输入数据，将QKV9的输出数据和QKV3的输出数据进行加权求和之后，作为残差模块1的输入数据。

步骤342，根据第i个旁路网络的输出数据和第i个去噪网络的下采样网络的输出数据，得到第i个去噪网络的上采样网络的输入数据。

示例性地，可以将第i个旁路网络的输出数据和第i个去噪网络的下采样网络的输出数据进行加权求和之后，作为第i个去噪网络的上采样网络的输入数据。

参考图4所示，将旁路网络的空间转换器2的输出数据和下采样网络的空间转换器1的输出数据进行加权求和之后，可以作为去噪网络的上采样网络的输入数据，也即作为残差模块4的输入数据。同时，下采样网络的QKV1、2、3和残差模块1、2的输出数据也将分别作为上采样网络的残差模块5、6和QKV4、5、6的输入数据。

步骤343，通过第i个去噪网络的上采样网络，根据人物表征和第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，i为小于或等于T的正整数，第1个输入表征为隐空间表征，第i个输出表征作为第i+1个输入表征，第T个输出表征为去噪后的隐空间表征。

参考图4所示，去噪网络的上采样网络的输入数据包括人物表征、QKV1、2、3的输出数据、残差模块1、2的输出数据和空间转换器1的输出数据加权求和后的数据。空间转换器1输出数据和空间转换器2的输出数据加权求和之后，作为残差模块4的输入数据；将残差模块2的输出数据和残差模块4的输出数据加权求和之和，作为残差模块5的输入数据；将残差模块1的输出数据和残差模块5的输出数据加权求和之和，作为残差模块6的输入数据；将QKV3的输出数据和残差模块6的输出数据加权求和之后，作为QKV4的输入数据；将QKV2的输出数据和QKV4的输出数据加权求和之后，作为QKV5的输入数据；将QKV1的输出数据和QKV5的输出数据加权求和之后，作为QKV6的输入数据，从而得到QKV6的输出数据，也即得到去噪网络的上采样网络的输出数据，作为去噪网络的输出表征。

第1个去噪网络和第1个旁路网络对应的第1个输入表征为隐空间表征，第i个去噪网络的输出表征作为第i个去噪网络和第i个旁路网络对应的第i个输入表征，第T个去噪网络的输出表征即为去噪后的隐空间表征。

扩散模型的去噪网络和旁路模块的旁路网络，基于人物表征逐次对隐空间特征进行去噪，使最终得到的去噪后的隐空间表征能够充分符合人物表征的约束，从而图像生成模型生成的预测图像可以尽量符合人物表征对应的人物图像。

步骤350，通过第一解码器对去噪后的隐空间表征进行解码，生成人物名称对应的预测图像。

第一解码器是指任意一个解码器，通过第一解码器对去噪后的隐空间表征进行解码，得到去噪后的隐空间表征对应的图像。

步骤360，根据预测图像和人物图像之间的差异，对表征提取模块和旁路模块的参数进行调整，得到训练后的图像生成模型。

步骤360包括步骤361~362（图中未示出）中的至少一个子步骤。

步骤361，根据预测图像和人物图像之间的差异，计算得到损失函数值。

示例性地，可以采用MSE（Mean Squared Error，均方误差）损失计算预测图像和人物图像之间的差异，损失函数值可以表示为如下公式。

。

其中，y表示图像中各点的像素值，表示图文对的人物图像中各点的像素值，表示预测图像中各点的像素值，n表示图像中像素的数量。

可选地，若将训练样本集分为多个批次分别进行训练，则分别可以计算各个批次样本的损失，将多个批次的损失之和作为该迭代轮次的损失函数值。

步骤362，根据损失函数值对表征提取模块和旁路模块的参数进行多轮迭代调整，得到训练后的图像生成模型；其中，每一轮迭代调整用于对表征提取模块和旁路模块中的一个模块的参数进行调整，另一个模块的参数保持不变，且表征提取模块和旁路模块的参数交替调整。

根据损失函数值，先对表征提取模块和旁路模块中的一个模块的参数进行调整，另一个模块的参数保持不变，再对表征提取模块和旁路模块中的另一个模块的参数进行调整，上一次调整过的模块的参数保持不变，而后保持交替调整的顺序依次对表征提取模块和旁路模块分别进行调整，在损失函数值满足训练条件后，即可得到训练后的图像生成模型。例如，根据损失函数值，可以先对表征提取模块的参数进行调整，旁路模块的参数保持不变，再对旁路模块的参数进行调整，表征提取模块的参数保持不变，而后继续对表征提取模块的参数进行调整，交替轮换，在损失函数值满足训练条件后，停止参数调整，得到训练后的图像生成模型。

可选地，损失函数值的训练条件可以是损失函数值小于设定阈值，也可以是损失函数值在设定的阈值范围内，等等，本申请对此不作限定。

表征提取模块和旁路模块的收敛速度是不同的，可以是表征提取模块的收敛速度大于旁路模块的收敛速度，也可以是旁路模块的收敛速度大于提取模块的收敛速度。由于表征提取模块和旁路模块的收敛速度不同，故会导致表征提取模块和旁路模块中收敛速度较快的模块会先完成收敛，则在此情况下，先完成收敛的模块不再参与后续的收敛过程，将继续对未完成收敛的模块进行收敛。

例如，若表征提取模块的收敛速度大于旁路模块的收敛速度，则表征提取模块在经过多次迭代调整后会先完成收敛，此时的旁路模块尚未完成收敛，则后续将不再对表征提取模块进行参数调整，每次迭代都将对旁路模块进行参数调整。

可选地，可以采用SGD（Stochastic Gradient Descent，随机梯度下降法），将损失反向回转到图像生成模型中，得到表征提取模块和旁路模块的梯度，并依此来更新参数。

通过对表征提取模块和旁路模块的参数交替调整，使两个模块都能学习到足够的信息，达到更好的图像生成效果，同时也避免了单一模块的持续训练容易导致的整体模型过拟合的问题。

图6示出了图像生成模型的结构示意图。根据任意一个随机数，得到随机数对应的随机噪声图像X，通过编码器对随机噪声图像X进行编码，得到随机噪声图像的初始特征向量Z，通过扩散模型的前向过程对初始特征向量进行T次加噪，生成随机噪声图像对应的隐空间表征。隐空间表征和人物表征分别作为去噪网络的下采样网络和旁路的输入数据，根据旁路网络和下采样网络的输出数据，得到上采样网络的输入数据，上采样网络根据人物表征和上采样网络的输入数据，得到一次去噪后的输出特征。再经过T-1次去噪网络和旁路网络的作用，得到去噪后的隐空间表征，通过解码器对去噪后的隐空间表征进行解码，生成人物名称对应的预测图像Y。

根据原始人物图像得到原始人物图像对应的人物名称，从而表征提取模块根据人物名称生成人物名称对应的人物表征，以作为去噪网络和旁路网络的输入数据。对原始人物图像进行增强处理，提高图像的质量，得到人物名称对应的人物图像，从而根据人物图像和预测图像之间的差异，计算损失函数值。并根据损失函数值对表征提取模块和旁路模块的参数进行交替调整，在损失函数值满足训练条件后，即可得到训练后的图像生成模型。

请参考图7，其示出了本申请一个实施例提供的图像生成模型的训练样本集的生成方法的流程图。该方法各步骤的执行主体可以是计算机设备。该方法可以包括如下步骤710~740中的至少一个步骤。

步骤710，获取人物名称对应的至少一张原始人物图像。

原始人物图像是指未经过图像增强处理的人物图像，例如，可以包括未经过调色、修复、优化处理的人物图像。可选地，原始人物图像可以是低质量图像，例如分辨率较低的图像，也可以是高质量图像，例如分辨率较高的图像。

步骤720，通过人脸上妆模型根据至少一张妆容图，生成至少一张原始人物图像对应的至少一张带妆人物图像；其中，一张原始人物图像和一张妆容图用于生成一张带妆人物图像。

妆容图是指具有参考妆容的参考人物图像，带状人物图像是指原始人物图像带有妆容图的参考妆容后的人物图像。人脸上妆模型用于将原始人物图像与妆容图中的参考妆容进行融合，生成带有参考妆容的带妆人物图像。

其中，人脸上妆模型的输入数据包括一张原始人物图像和一张妆容图，输出数据为融合原始人物图像和参考妆容的带妆人物图像。一张妆容图可以用于生成一张原始人物图像对应的一张带妆人物图像。

在一些实施例中，至少一张妆容图包括以下至少之一：具有浓烈上妆效果的妆容图；具有自然上妆效果的妆容图。

具有浓烈上妆效果的妆容图可以参考图8，其中，图8中的（1）图为原始人物图像，图8中的（2）、（3）、（4）图分别为基于不同的妆容图生成的带妆人物图像。浓烈上妆效果是指妆容较为丰富、妆容效果较为强烈、影响人物形象风格的上妆效果，例如图8的（2）图，上妆效果让人物看起来更加凌厉。

具有自然上妆效果的妆容图可以参考图9，其中，图9中的（1）图为原始人物图像，图9中的（2）图为基于妆容图生成的带妆人物图像。自然上妆效果是指仅修饰人物面部瑕疵，而不改变人物形象风格的上妆效果。

步骤730，通过人脸超分模型生成至少一张带妆人物图像分别对应的超分人物图像，超分人物图像的分辨率大于带妆人物图像的分辨率。

人脸超分模型用于对带妆人物图像进行优化，使得生成的超分人物图像的分辨率大于带妆人物图像的分辨率。人脸超分模型的优化效果可以参考图10所示，其中，图10中的（1）图是超分人物图像，图10中的（2）图是带妆人物图像，小格子表示图像的像素，则可以明显看出，图10中的（1）图的分辨率大于图10中的（2）图的分辨率。

步骤740，对至少一张带妆人物图像和至少一张带妆人物图像分别对应的超分人物图像进行选取，得到训练样本集中的图文对。

可选地，可以从至少一张带妆人物图像和至少一张带妆人物图像分别对应的超分人物图像中进行选取，得到训练样本集中的图文对，也可以从至少一张带妆人物图像分别对应的超分人物图像中进行选取，得到训练样本集中的图文对，本申请对此不作限定。

在本申请实施例中，对至少一张带妆人物图像和至少一张带妆人物图像分别对应的超分人物图像进行选取，则步骤740包括步骤741~743（图中未示出）中的至少一个子步骤。

步骤741，对于至少一张带妆人物图像和至少一张带妆人物图像分别对应的超分人物图像中的各张人物图像，分别进行质量打分，得到各张人物图像分别对应的分值。

各张人物图像分别对应的分值用于衡量各张人物图像的美观度，人物图像的美观度包括人物图像的分辨率、人物妆容与人物图像的适配度、人物妆容的美观度等图像元素。

步骤742，从各张人物图像中选择分值满足条件的至少一张人物图像，作为与人物名称具有匹配关系的至少一张人物图像。

根据各张人物图像的分值，从中选取分值满足条件的至少一张人物图像，作为与人物名称具有匹配关系的至少一张人物图像。其中，分值的满足条件可以是人物图像的分值大于设定阈值，也可以是人物图像的分值位于所有人物图像的比例阈值内，例如，分值的满足条件可以是所有人物图像的前10%的人物图像。

分值满足条件的人物图像的质量明显高于未经过图像增强处理的原始人物图像的质量，将高质量人物图像作为与人物名称具有匹配关系的至少一张人物图像。

图11示出了图像增强处理过程的示意图，人脸上妆模型通过原始人物图像和妆容图生成带妆人物图像，人脸超分模型生成带妆人物图像对应的超分人物图像，对带妆人物图像和超分人物图像进行质量打分，从而可以根据各张人物图像分别对应的分值，选择与人物名称具有匹配关系的至少一张人物图像。

步骤743，基于人物名称以及与人物名称具有匹配关系的至少一张人物图像，得到训练样本集中的至少一个图文对。

将一个人物名称和与该人物名称具有匹配关系的一张人物图像进行组合，得到一个图文对，将一个人物名称和与该人物名称具有匹配关系的至少一张人物图像分别进行组合，可以得到一个人物名称对应的至少一个图文对。从而基于不同的人物名称以及与人物名称具有匹配关系的至少一张人物图像，可以得到训练样本集中的至少一个图文对。

图12示出了图像增强处理过程对图像生成模型的作用示意图，对每张人脸提取人脸辅助信息，人脸上妆模型和人脸超分模型基于人脸辅助信息进行人脸增强，得到人脸增强后的人物图像，人物图像用于和图像生成模型生成的预测模型进行比较，从而根据两者之间的差异，计算损失函数值，以对图像生成模型的表征提取模块和旁路模块的参数进行交替调整。

通过对带妆人物图像和超分人物图像分别进行质量打分，并根据各自的分值选择满足条件的人物图像作为与人物名称具有匹配关系的至少一张人物图像，筛选掉了图像美观度较低的人物图像，使最后保留的人物图像都是质量较高的人物图像，从而有利于模型基于高质量图像进行参数调整，提高模型的图像生成效果。

本申请实施例提供的技术方案，通过对原始人物图像进行增强处理，排除原始人物图像中的非关键人脸信息，并保证原始人物图像中的关键人脸信息有效提取，从而得到包含关键人脸信息的高质量人物图像，避免图像生成模型基于原始人物图像中的非关键人脸信息进行训练而产生过拟合的问题，提高图像生成模型的图像生成效果。

请参考图13，其示出了本申请一个实施例提供的基于图像生成模型的图像生成方法的流程图。其中，图像生成模型是通过前述方法训练得到的，该图像生成模型包括表征提取模块、旁路模块和扩散模型。该方法各步骤的执行主体可以是计算机设备。该方法可以包括如下步骤1310~1340中的至少一个步骤。

步骤1310，获取包含第一人物名称的输入文本。

第一人物名称是指任意一个人物名称，输入文本中包含第一人物名称，例如，输入文本可以是“红唇张某某在照镜子”，其中，“张某某”为第一人物名称。

步骤1320，通过表征提取模块生成输入文本的文本表征。

文本特征用于表征输入文本的文本信息。

步骤1320包括步骤1321~1323（图中未示出）中的至少一个子步骤。

步骤1321，通过表征提取模块生成输入文本的原始文本表征，原始文本表征中包括第一人物名称对应的原始人物表征。

原始文本特征是指表征提取模块根据输入文本直接得到的文本特征，原始文本表征中包括第一人物名称对应的原始人物表征，原始人物表征是指表征提取模块根据输入文本中的第一人物名称得到的第一人物名称对应的人物表征。

步骤1322，从人物表征库中获取第一人物名称对应的人物表征，人物表征库中存储有不同的人物名称分别对应的人物表征。

人物表征库中存储的人物表征与表征提取模块根据第一人物名称得到的人物表征可以是相同的，也可以是不同的，通常情况下，人物表征库中存储的人物表征相较于表征提取模块根据第一人物名称得到的人物表征，更能准确表示第一人物名称对应的人物特征信息。

在一些实施例中，在人物表征库中，每个人物名称对应于一个人物表征，人物名称对应的人物表征是根据人物名称对应的多张人物图像得到的多个人物表征的均值。

一个人物名称可以对应于多张人物图像，一张人物图像对应于一个人物表征，每张人物图像所要表示的人物特征都是不同的，可以包括表示人物开心情绪的人物图像、表示人物伤感情绪的人物图像、表示人物忧虑心情的图像，等等。对人物名称对应的多张人物图像的多个人物表征计算均值，得到人物名称对应的表征均值，并将表征均值作为该人物名称的人物表征存入人物表征库中。

表征均值用于表示多张人物图像的平均人物特征，即融合了多张人物图像的人物表征的表征均值，例如，一个人物名称的表征均值表示的可以是没有任何情绪的人物图像。

基于多张人物图像得到的多个人物表征的均值，生成人物表征库的过程可以参考图14的图14中的（1）图，在图像生成模型训练完成之后，对于一个人物名称，根据多张人物图像对应的多个人物表征，计算多个人物表征的均值，并将表征均值存入人物表征库中，从而人物表征库中可以包含有不同的人物名称分别对应的人物表征，如图14中的（1）图所示的人物1表征、人物2表征，等等。

通过将人物名称对应的多张人物图像得到的多个人物表征的均值，作为人物名称对应的人物表征，可以更综合地表示该人物名称，使生成的人物图像能适应更普遍的应用需求。

在一些实施例中，在人物表征库中，每个人物名称对应于多个人物表征，人物名称对应的一个人物表征是根据人物名称对应的一张人物图像得到的。

一个人物名称对应于多张人物图像，一张人物图像对应于一个人物表征，则一个人物名称对应于多个人物表征，将每个人物名称对应的多个人物表征存入人物表征库中。

基于多张人物图像得到的多个人物表征，生成人物表征库的过程可以参考图14的图14中的（2）图，在图像生成模型训练完成之后，对于一个人物名称，将该人物名称对应的多个人物表征存入人物表征库中，从而人物表征库中可以包含有不同的人物名称分别对应的多个人物表征，如图14中的（2）图所示的人物1表征1、人物1表征2、…、人物2表征1、人物2表征2，等等。

在一些实施例中，从人物表征库中获取第一人物名称对应的多个人物表征；计算多个人物表征与第一人物名称对应的原始人物表征之间的相似度；从多个人物表征中，选择相似度最高的人物表征，作为第一人物名称对应的人物表征。

通过计算多个人物表征与第一人物名称对应的原始人物表征之间的相似度，可以得到多个人物表征与输入文本之间的匹配度，从而从多个人物表征中，选择相似度最高的人物表征作为第一人物名称对应的人物表征，使选择的人物表征更能贴合输入文本所要表达的意思，图像生成模型生成的人物图像也能与输入文本更加贴合匹配，满足更多样化的图像生成需求。

若输入文本为“红唇张某某在照镜子”，则需要从多个人物表征中选择与该输入文本匹配度最高的人物表征，例如，相似度最高的人物表征可以是表示人物性感风格的人物表征，会更为贴合“红唇张某某在照镜子”的语义特征。若选择的人物表征是表示人物青春风格的人物表征，则生成的人物图像会难以与输入文本相匹配对应。

步骤1323，将原始文本表征中的第一人物名称对应的原始人物表征，替换为第一人物名称对应的人物表征，生成输入文本的文本表征。

在确定第一人物名称对应的人物表征后，将原始文本表征中的第一人物名称对应的原始人物表征，替换为第一人物名称对应的人物表征，生成输入文本的文本表征，输入文本的文本表征将作为扩散模型的输入数据。

采用表征均值作为人物名称的人物表征，替换原始人物表征的过程可以参考图15所示。输入文本为“红唇张某某在照镜子”，将输入文本映射到词汇空间，获取“红唇张某某在照镜子”对应的原始文本表征，其中，框选出来的原始文本表征为“张某某”对应的原始人物表征。获取人物表征库中“张某某”对应的表征均值，对原始文本表征中的原始人物表征进行替换，即可得到“红唇张某某在照镜子”对应的文本表征。

采用多个人物表征中与原始人物表征相似度最高的人物表征，替换原始人物表征的过程可以参考图16所示。人物表征库中存储有不同人物名称对应的多个人物表征，例如，人物1对应有人物1表征1、人物1表征2，等等，则对输入文本“红唇张某某在照镜子”中“张某某”对应的原始人物表征进行替换时，需要计算“张某某”对应的多个人物表征与“张某某”对应的原始人物表征之间的相似度，查找相似度最高的人物表征，并将相似度最高的人物表征与“张某某”对应的原始人物表征进行替换，得到“红唇张某某在照镜子”对应的文本表征。

步骤1330，通过扩散模型的前向过程，生成随机噪声图像对应的隐空间表征。

步骤1340，通过扩散模型的后向过程和旁路模块，根据文本表征和隐空间表征，生成与输入文本相匹配的输出图像。

在一些实施例中，通过扩散模型的后向过程和旁路模块，根据文本表征对隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数；通过第一解码器对去噪后的隐空间表征进行解码，生成与输入文本相匹配的输出图像。

在一些实施例中，在第i次去噪的过程中，将文本表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到第i个旁路网络的输出数据和第i个去噪网络的下采样网络的输出数据；根据第i个旁路网络的输出数据和第i个去噪网络的下采样网络的输出数据，得到第i个去噪网络的上采样网络的输入数据；通过第i个去噪网络的上采样网络，根据文本表征和第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，i为小于或等于T的正整数，第1个输入表征为隐空间表征，第i个输出表征作为第i+1个输入表征，第T个输出表征为去噪后的隐空间表征。

上述步骤1330和步骤1340中关于扩散模型的功能介绍可以参考上文实施例，此处不再进行赘述。

本申请实施例提供的技术方案，通过表征提取模块生成输入文本的文本表征，使生成的文本表征可以多样化地表示输入文本的特征信息，提升了图像生成模型的功能多样性。既能通过表征均值来更综合地表示人物名称，使生成的人物图像能适应更普遍的应用需求，也能通过选取与原始人物表征相似度最高的人物表征来针对性地表示输入文本，使生成的人物图像能与输入文本更加贴合匹配，满足更多样化的图像生成需求。

图17示出了图像生成模型的应用界面的示意图，其中，图17中的（1）图表示图像生成模型新增训练任务的训练过程的显示界面，图17中的（2）图表示图像生成模型的训练结果最终展示的显示界面。

图17中的（1）图的训练部分可以支持新增人物名称的训练，在“系列名输入”和“系列图像输入部分”输入新增的训练样本，点击“确定”按钮，则应用程序将生成训练日志和训练结果。图17中的（1）图还支持对训练的人物名称进行创作，可以在创作部分的“系列名选择”中输入人物名称，在“人物描述”框内输入多行关于该人物名称的文本描述，并点击“人物描述”框下方的“确定”按钮，将在“生成结果展示”框内显示相应的人物图像，展示框内可以对每句文本描述生成多张人物图像。用户可以点选其中更喜欢的人物图像，再点击“生成结果展示”框下方的“确定”按钮后，可以跳转至图17中的（2）图所示的显示界面，图17中的（2）图的显示界面中的“生成结果展示”框内将展示最终被选中的人物图像。

本申请实施例提供的图像生成模型的训练方法和基于图像生成模型的图像生成方法，是相互对应的模型训练过程和使用过程。对于在其中一侧未详细说明的细节，可参见另一侧中的介绍说明。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图18，其示出了本申请一个实施例提供的图像生成模型的训练装置的框图。所述图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型。如图18所示，该装置1800可以包括：样本获取模块1810、表征提取模块1820、前向生成模块1830、后向生成模块1840和模型训练模块1850。

样本获取模块1810，用于获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一个人物名称和一张人物图像。

表征提取模块1820，用于通过所述表征提取模块生成所述人物名称对应的人物表征。

前向生成模块1830，用于通过所述扩散模型的前向过程，生成随机噪声图像对应的隐空间表征。

后向生成模块1840，用于通过所述扩散模型的后向过程和所述旁路模块，根据所述人物表征和所述隐空间表征，生成所述人物名称对应的预测图像。

模型训练模块1850，用于根据所述预测图像和所述人物图像之间的差异，对所述表征提取模块和所述旁路模块的参数进行调整，得到训练后的图像生成模型。

在一些实施例中，所述后向生成模块1840，包括去噪单元和解码单元。

去噪单元，用于通过所述扩散模型的后向过程和所述旁路模块，根据所述人物表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数。

解码单元，用于通过第一解码器对所述去噪后的隐空间表征进行解码，生成所述人物名称对应的预测图像。

在一些实施例中，所述扩散模型包括T个去噪网络，所述去噪网络包括下采样网络和上采样网络，所述旁路模块包括T个旁路网络。

所述去噪单元，用于在第i次去噪的过程中，将所述人物表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据；根据所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据，得到所述第i个去噪网络的上采样网络的输入数据；通过所述第i个去噪网络的上采样网络，根据所述人物表征和所述第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，i为小于或等于T的正整数，第1个输入表征为所述隐空间表征，所述第i个输出表征作为第i+1个输入表征，第T个输出表征为所述去噪后的隐空间表征。

在一些实施例中，所述第i个旁路网络和所述第i个去噪网络的下采样网络具有相同的结构，所述第i个旁路网络包括N个级联的第一网络单元，所述第i个去噪网络的下采样网络包括N个级联的第二网络单元，N为大于1的整数；所述第i个旁路网络包括的第j个第一网络单元的输出数据，与所述第i个去噪网络的下采样网络包括的第j个第二网络单元的输出数据进行加权求和之后，作为第j+1个第二网络单元的输入数据，j为小于N的正整数。

在一些实施例中，所述装置1800还包括初始化模块。

所述初始化模块，用于将所述第i个去噪网络的下采样网络的参数，作为所述第i个旁路网络的初始化的参数。

在一些实施例中，所述样本获取模块1810，包括原始图像获取单元、带妆图像生成单元和选取单元。

原始图像获取单元，用于获取所述人物名称对应的至少一张原始人物图像。

带妆图像生成单元，用于通过人脸上妆模型根据至少一张妆容图，生成所述至少一张原始人物图像对应的至少一张带妆人物图像；其中，一张原始人物图像和一张妆容图用于生成一张带妆人物图像。

选取单元，用于对所述至少一张带妆人物图像进行选取，得到所述训练样本集中的图文对。

在一些实施例中，所述样本获取模块1810，还包括超分图像生成单元。

超分图像生成单元，用于通过人脸超分模型生成所述至少一张带妆人物图像分别对应的超分人物图像，所述超分人物图像的分辨率大于所述带妆人物图像的分辨率。

所述选取单元，用于对所述至少一张带妆人物图像和所述至少一张带妆人物图像分别对应的超分人物图像进行选取，得到所述训练样本集中的图文对。

在一些实施例中，所述选取单元，用于对于所述至少一张带妆人物图像和所述至少一张带妆人物图像分别对应的超分人物图像中的各张人物图像，分别进行质量打分，得到所述各张人物图像分别对应的分值；从所述各张人物图像中选择所述分值满足条件的至少一张人物图像，作为与所述人物名称具有匹配关系的至少一张人物图像；基于所述人物名称以及与所述人物名称具有匹配关系的至少一张人物图像，得到所述训练样本集中的至少一个图文对。

在一些实施例中，所述模型训练模块1850，用于根据所述预测图像和所述人物图像之间的差异，计算得到损失函数值；根据所述损失函数值对所述表征提取模块和所述旁路模块的参数进行多轮迭代调整，得到所述训练后的图像生成模型；其中，每一轮迭代调整用于对所述表征提取模块和所述旁路模块中的一个模块的参数进行调整，另一个模块的参数保持不变，且所述表征提取模块和所述旁路模块的参数交替调整。

请参考图19，其示出了本申请一个实施例提供的基于图像生成模型的图像生成装置的框图。所述图像生成模型包括表征提取模块、旁路模块和扩散模型。如图19所示，该装置1900可以包括：文本获取模块1910、表征提取模块1920、前向生成模块1930和后向生成模块1940。

文本获取模块1910，用于获取包含第一人物名称的输入文本。

表征提取模块1920，用于通过所述表征提取模块生成所述输入文本的文本表征。

前向生成模块1930，用于通过所述扩散模型的前向过程，生成随机噪声图像对应的隐空间表征。

后向生成模块1940，用于通过所述扩散模型的后向过程和所述旁路模块，根据所述文本表征和所述隐空间表征，生成与所述输入文本相匹配的输出图像。

在一些实施例中，所述表征提取模块1920，包括原始表征提取单元、人物表征获取单元和替换单元。

原始表征提取单元，用于通过所述表征提取模块生成所述输入文本的原始文本表征，所述原始文本表征中包括所述第一人物名称对应的原始人物表征。

人物表征获取单元，用于从人物表征库中获取所述第一人物名称对应的人物表征，所述人物表征库中存储有不同的人物名称分别对应的人物表征。

替换单元，用于将所述原始文本表征中的所述第一人物名称对应的原始人物表征，替换为所述第一人物名称对应的人物表征，生成所述输入文本的文本表征。

在一些实施例中，在所述人物表征库中，每个人物名称对应于一个人物表征，所述人物名称对应的人物表征是根据所述人物名称对应的多张人物图像得到的多个人物表征的均值。

在一些实施例中，在所述人物表征库中，每个人物名称对应于多个人物表征，所述人物名称对应的一个人物表征是根据所述人物名称对应的一张人物图像得到的。

所述人物表征获取单元，用于从所述人物表征库中获取所述第一人物名称对应的多个人物表征；计算所述多个人物表征与所述第一人物名称对应的原始人物表征之间的相似度；从所述多个人物表征中，选择所述相似度最高的人物表征，作为所述第一人物名称对应的人物表征。

在一些实施例中，所述后向生成模块1940，包括去噪单元和解码单元。

去噪单元，用于通过所述扩散模型的后向过程和所述旁路模块，根据所述文本表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征，T为正整数。

解码单元，用于通过第一解码器对所述去噪后的隐空间表征进行解码，生成与所述输入文本相匹配的输出图像。

所述去噪单元，用于在第i次去噪的过程中，将所述文本表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据；根据所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据，得到所述第i个去噪网络的上采样网络的输入数据；通过所述第i个去噪网络的上采样网络，根据所述文本表征和所述第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，i为小于或等于T的正整数，第1个输入表征为所述隐空间表征，所述第i个输出表征作为第i+1个输入表征，第T个输出表征为所述去噪后的隐空间表征。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图20，其示出了本申请一个实施例提供的计算机设备2000的结构框图。该计算机设备2000可以是任何具备数据计算、处理和存储功能的电子设备。该计算机设备2000可用于实现上述实施例中提供的图像生成模型的训练方法或基于图像生成模型的图像生成方法。

通常，计算机设备2000包括有：处理器2001和存储器2002。

处理器2001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器2001可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（FieldProgrammable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器2001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2001可以在集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2001还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器2002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器2002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2002中的非暂态的计算机可读存储介质用于存储计算机程序，所述计算机程序经配置以由一个或者一个以上处理器执行，以实现上述图像生成模型的训练方法或基于图像生成模型的图像生成方法。

本领域技术人员可以理解，图20中示出的结构并不构成对计算机设备2000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示意性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被计算机设备的处理器执行时实现上述图像生成模型的训练方法或基于图像生成模型的图像生成方法。可选地，上述计算机可读存储介质可以是ROM（Read-Only Memory，只读存储器）、RAM（Random Access Memory，随机存取存储器）、CD-ROM（Compact Disc Read-Only Memory，只读光盘）、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述图像生成模型的训练方法或基于图像生成模型的图像生成方法。

需要说明的是，本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则（即未获取到用户对该提示界面或者弹窗发出的确认操作时），结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据（包括人物名称数据和人物图像数据），处理严格根据相关国家法律法规的要求，获取个人信息主体的知情同意或单独同意都是在用户同意并授权的情况下进行采集的，并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理行为且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像生成模型的训练方法，其特征在于，所述图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型，所述方法包括：

获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一个人物名称和一张人物图像；

通过所述表征提取模块生成所述人物名称对应的人物表征；

通过所述扩散模型的前向过程，生成随机噪声图像对应的隐空间表征；

通过所述扩散模型的后向过程和所述旁路模块，根据所述人物表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征；所述扩散模型包括T个去噪网络，所述去噪网络包括下采样网络和上采样网络，所述旁路模块包括T个旁路网络；所述通过所述扩散模型的后向过程和所述旁路模块，根据所述人物表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征，包括：在第i次去噪的过程中，将所述人物表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据；根据所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据，得到所述第i个去噪网络的上采样网络的输入数据；通过所述第i个去噪网络的上采样网络，根据所述人物表征和所述第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，T为正整数，i为小于或等于T的正整数，第1个输入表征为所述隐空间表征，所述第i个输出表征作为第i+1个输入表征，第T个输出表征为所述去噪后的隐空间表征；

通过第一解码器对所述去噪后的隐空间表征进行解码，生成所述人物名称对应的预测图像；

根据所述预测图像和所述人物图像之间的差异，对所述表征提取模块和所述旁路模块的参数进行调整，得到训练后的图像生成模型。

2.根据权利要求1所述的方法，其特征在于，所述第i个旁路网络和所述第i个去噪网络的下采样网络具有相同的结构，所述第i个旁路网络包括N个级联的第一网络单元，所述第i个去噪网络的下采样网络包括N个级联的第二网络单元，N为大于1的整数；

所述第i个旁路网络包括的第j个第一网络单元的输出数据，与所述第i个去噪网络的下采样网络包括的第j个第二网络单元的输出数据进行加权求和之后，作为第j+1个第二网络单元的输入数据，j为小于N的正整数。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第i个去噪网络的下采样网络的参数，作为所述第i个旁路网络的初始化的参数。

4.根据权利要求1所述的方法，其特征在于，所述获取所述图像生成模型的训练样本集，包括：

获取所述人物名称对应的至少一张原始人物图像；

通过人脸上妆模型根据至少一张妆容图，生成所述至少一张原始人物图像对应的至少一张带妆人物图像；其中，一张原始人物图像和一张妆容图用于生成一张带妆人物图像；

对所述至少一张带妆人物图像进行选取，得到所述训练样本集中的图文对。

5.根据权利要求4所述的方法，其特征在于，所述通过人脸上妆模型根据至少一张妆容图，生成所述至少一张原始人物图像对应的至少一张带妆人物图像之后，还包括：

通过人脸超分模型生成所述至少一张带妆人物图像分别对应的超分人物图像，所述超分人物图像的分辨率大于所述带妆人物图像的分辨率；

所述对所述至少一张带妆人物图像进行选取，得到所述训练样本集中的图文对，包括：

对所述至少一张带妆人物图像和所述至少一张带妆人物图像分别对应的超分人物图像进行选取，得到所述训练样本集中的图文对。

6.根据权利要求5所述的方法，其特征在于，所述对所述至少一张带妆人物图像和所述至少一张带妆人物图像分别对应的超分人物图像进行选取，得到所述训练样本集中的图文对，包括：

对于所述至少一张带妆人物图像和所述至少一张带妆人物图像分别对应的超分人物图像中的各张人物图像，分别进行质量打分，得到所述各张人物图像分别对应的分值；

从所述各张人物图像中选择所述分值满足条件的至少一张人物图像，作为与所述人物名称具有匹配关系的至少一张人物图像；

基于所述人物名称以及与所述人物名称具有匹配关系的至少一张人物图像，得到所述训练样本集中的至少一个图文对。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述预测图像和所述人物图像之间的差异，对所述表征提取模块和所述旁路模块的参数进行调整，得到训练后的图像生成模型，包括：

根据所述预测图像和所述人物图像之间的差异，计算得到损失函数值；

根据所述损失函数值对所述表征提取模块和所述旁路模块的参数进行多轮迭代调整，得到所述训练后的图像生成模型；

其中，每一轮迭代调整用于对所述表征提取模块和所述旁路模块中的一个模块的参数进行调整，另一个模块的参数保持不变，且所述表征提取模块和所述旁路模块的参数交替调整。

8.一种基于图像生成模型的图像生成方法，其特征在于，所述图像生成模型包括表征提取模块、旁路模块和扩散模型；所述方法包括：

获取包含第一人物名称的输入文本；

通过所述表征提取模块生成所述输入文本的文本表征；

通过所述扩散模型的后向过程和所述旁路模块，根据所述文本表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征；所述扩散模型包括T个去噪网络，所述去噪网络包括下采样网络和上采样网络，所述旁路模块包括T个旁路网络；所述通过所述扩散模型的后向过程和所述旁路模块，根据所述文本表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征，包括：在第i次去噪的过程中，将所述文本表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据；根据所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据，得到所述第i个去噪网络的上采样网络的输入数据；通过所述第i个去噪网络的上采样网络，根据所述文本表征和所述第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，T为正整数，i为小于或等于T的正整数，第1个输入表征为所述隐空间表征，所述第i个输出表征作为第i+1个输入表征，第T个输出表征为所述去噪后的隐空间表征；

通过第一解码器对所述去噪后的隐空间表征进行解码，生成与所述输入文本相匹配的输出图像。

9.根据权利要求8所述的方法，其特征在于，所述通过所述表征提取模块生成所述输入文本的文本表征，包括：

通过所述表征提取模块生成所述输入文本的原始文本表征，所述原始文本表征中包括所述第一人物名称对应的原始人物表征；

从人物表征库中获取所述第一人物名称对应的人物表征，所述人物表征库中存储有不同的人物名称分别对应的人物表征；

将所述原始文本表征中的所述第一人物名称对应的原始人物表征，替换为所述第一人物名称对应的人物表征，生成所述输入文本的文本表征。

10.根据权利要求9所述的方法，其特征在于，在所述人物表征库中，每个人物名称对应于一个人物表征，所述人物名称对应的人物表征是根据所述人物名称对应的多张人物图像得到的多个人物表征的均值。

11.根据权利要求9所述的方法，其特征在于，在所述人物表征库中，每个人物名称对应于多个人物表征，所述人物名称对应的一个人物表征是根据所述人物名称对应的一张人物图像得到的；

所述从人物表征库中获取所述第一人物名称对应的人物表征，包括：

从所述人物表征库中获取所述第一人物名称对应的多个人物表征；

计算所述多个人物表征与所述第一人物名称对应的原始人物表征之间的相似度；

从所述多个人物表征中，选择所述相似度最高的人物表征，作为所述第一人物名称对应的人物表征。

12.根据权利要求8所述的方法，其特征在于，所述第i个旁路网络和所述第i个去噪网络的下采样网络具有相同的结构，所述第i个旁路网络包括N个级联的第一网络单元，所述第i个去噪网络的下采样网络包括N个级联的第二网络单元，N为大于1的整数；

13.一种图像生成模型的训练装置，其特征在于，所述图像生成模型包括表征提取模块、旁路模块和经过预训练的扩散模型，所述装置包括：

样本获取模块，用于获取所述图像生成模型的训练样本集，所述训练样本集中包括至少一个图文对，每个图文对中包括具有匹配关系的一个人物名称和一张人物图像；

表征提取模块，用于通过所述表征提取模块生成所述人物名称对应的人物表征；

前向生成模块，用于通过所述扩散模型的前向过程，生成随机噪声图像对应的隐空间表征；

后向生成模块，用于通过所述扩散模型的后向过程和所述旁路模块，根据所述人物表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征；所述扩散模型包括T个去噪网络，所述去噪网络包括下采样网络和上采样网络，所述旁路模块包括T个旁路网络；在第i次去噪的过程中，将所述人物表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据；根据所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据，得到所述第i个去噪网络的上采样网络的输入数据；通过所述第i个去噪网络的上采样网络，根据所述人物表征和所述第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，T为正整数，i为小于或等于T的正整数，第1个输入表征为所述隐空间表征，所述第i个输出表征作为第i+1个输入表征，第T个输出表征为所述去噪后的隐空间表征；通过第一解码器对所述去噪后的隐空间表征进行解码，生成所述人物名称对应的预测图像；

模型训练模块，用于根据所述预测图像和所述人物图像之间的差异，对所述表征提取模块和所述旁路模块的参数进行调整，得到训练后的图像生成模型。

14.一种基于图像生成模型的图像生成装置，其特征在于，所述图像生成模型包括表征提取模块、旁路模块和扩散模型；所述装置包括：

文本获取模块，用于获取包含第一人物名称的输入文本；

表征提取模块，用于通过所述表征提取模块生成所述输入文本的文本表征；

后向生成模块，用于通过所述扩散模型的后向过程和所述旁路模块，根据所述文本表征对所述隐空间表征进行T次去噪，得到去噪后的隐空间表征；所述扩散模型包括T个去噪网络，所述去噪网络包括下采样网络和上采样网络，所述旁路模块包括T个旁路网络；在第i次去噪的过程中，将所述文本表征和第i个输入表征分别输入第i个旁路网络和第i个去噪网络的下采样网络，得到所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据；根据所述第i个旁路网络的输出数据和所述第i个去噪网络的下采样网络的输出数据，得到所述第i个去噪网络的上采样网络的输入数据；通过所述第i个去噪网络的上采样网络，根据所述文本表征和所述第i个去噪网络的上采样网络的输入数据，得到第i个输出表征；其中，T为正整数，i为小于或等于T的正整数，第1个输入表征为所述隐空间表征，所述第i个输出表征作为第i+1个输入表征，第T个输出表征为所述去噪后的隐空间表征；通过第一解码器对所述去噪后的隐空间表征进行解码，生成与所述输入文本相匹配的输出图像。

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的图像生成模型的训练方法，或者实现如权利要求8至12任一项所述的基于图像生成模型的图像生成方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至7任一项所述的图像生成模型的训练方法，或者实现如权利要求8至12任一项所述的基于图像生成模型的图像生成方法。