CN115018954B

CN115018954B - 图像生成方法、装置、电子设备和介质

Info

Publication number: CN115018954B
Application number: CN202210941909.1A
Authority: CN
Inventors: 吴凌翔; 王金桥; 牛蕴方
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Zidong Taichu Beijing Technology Co ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-10-28
Anticipated expiration: 2042-08-08
Also published as: CN115018954A

Abstract

本发明提供一种图像生成方法、装置和电子设备，涉及图像生成技术领域，解决了如何生成与目标文本的文本内容相匹配的目标无噪声图像的问题。该方法包括：可以先获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本；并基于噪声图像、目标文本、目标加噪阶段以及随机非空文本，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。这样将目标文本和随机非空文本作为去噪处理过程中的引导信息，对噪声图像进行去噪处理，可以生成与目标文本的文本内容相匹配的目标无噪声图像，从而提高了生成的目标无噪声图像的准确度。

Description

图像生成方法、装置、电子设备和介质

技术领域

本发明涉及图像生成技术领域，尤其涉及一种图像生成方法、装置和电子设备。

背景技术

在扩散模型场景下的图像去噪采样过程中，通常情况下，扩散模型生成的图像与目标文本的匹配度较差。

因此，如何生成与目标文本的文本内容相匹配的目标无噪声图像，从而提高生成的目标无噪声图像的准确度是本领域技术人员亟待解决的问题。

发明内容

本发明提供一种图像生成方法，可以生成与目标文本的文本内容相匹配的目标无噪声图像，从而提高了生成的目标无噪声图像的准确度。

本发明提供一种图像生成方法，该图像生成方法可以包括：

获取待处理的噪声图像、所述噪声图像对应的目标文本和目标加噪阶段和随机非空文本。

基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本，对所述噪声图像进行去噪处理，生成目标无噪声图像；其中，所述目标无噪声图像的图像内容与所述目标文本的文本内容的匹配度大于第一阈值。

根据本发明提供的一种图像生成方法，所述基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本，对所述噪声图像进行去噪处理，得到目标无噪声图像，包括：

S1、将所述噪声图像、所述目标文本以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中，得到第一参数；并将所述噪声图像、所述随机非空文本以及所述目标加噪阶段输入至所述图像去噪模型中，得到第二参数。

S2、根据所述第一参数所述第二参数，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。

S3、更新所述目标加噪阶段，判断更新后的加噪阶段是否等于第二阈值。

S4、在确定所述更新后的加噪阶段等于第二阈值的情况下，则将所述噪声图像在所述目标加噪阶段对应的无噪声图像，确定为所述目标无噪声图像。

S5、在确定所述更新后的加噪阶段大于所述第二阈值的情况下，则确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像，并将所述前一次加噪阶段对应的噪声图像确定为所述待处理的噪声图像，将所述更新后的加噪阶段确定为所述目标加噪阶段，将新的随机非空文本确定为所述随机非空文本，重复执行上述S1-S5，直至更新后的加噪阶段等于第二阈值，并将所述噪声图像在所述更新后的加噪阶段对应的无噪声图像，确定为所述目标无噪声图像。

根据本发明提供的一种图像生成方法，所述第一参数包括第一均值和第一方差，所述第二参数包括第二均值，所述根据所述第一参数所述第二参数，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像，包括：

对所述第一均值和所述第二均值进行融合，得到对应的目标均值。

根据所述目标均值和所述第一方差，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。

根据本发明提供的一种图像生成方法，所述对所述第一均值和所述第二均值进行融合，得到对应的目标均值，包括：

确定所述第一均值和所述第二均值的差值，并确定所述差值与其对应的权重之间的乘积。

将所述第二均值与所述乘积的和，确定为所述目标均值。

根据本发明提供的一种图像生成方法，所述确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像，包括：

根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差，生成所述前一次加噪阶段对应的噪声图像。

根据本发明提供的一种图像生成方法，所述根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一方差，生成所述前一次加噪阶段对应的噪声图像，包括：

根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像，以及所述第一方差确定第三均值。

基于所述第一方差确定第二方差。

根据所述第三均值和所述第二方差，生成所述前一次加噪阶段对应的噪声图像。

根据本发明提供的一种图像生成方法，所述图像去噪模型是基于多个噪声图像样本、所述多个噪声图像样本各自对应的文本和加噪阶段，对初始扩散模型中的初始图像去噪模型进行训练得到的。

本发明还提供一种图像生成装置，该图像生成装置可以包括：

获取单元，用于获取待处理的噪声图像、所述噪声图像对应的目标文本、目标加噪阶段和随机非空文本。

生成单元，用于基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本，对所述噪声图像进行去噪处理，生成目标无噪声图像；其中，所述目标无噪声图像的图像内容与所述目标文本的文本内容的匹配度大于第一阈值。

根据本发明提供的一种图像生成装置，所述生成单元，具体用于执行：

根据本发明提供的一种图像生成装置，所述第一参数包括第一均值和第一方差，所述第二参数包括第二均值，所述生成单元，具体用于对所述第一均值和所述第二均值进行融合，得到对应的目标均值；根据所述目标均值和所述第一方差，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像。

根据本发明提供的一种图像生成装置，所述生成单元，具体用于确定所述第一均值和所述第二均值的差值，并确定所述差值与其对应的权重之间的乘积；将所述第二均值与所述乘积的和，确定为所述目标均值。

根据本发明提供的一种图像生成装置，所述生成单元，具体用于根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一参数中的第一方差，生成所述前一次加噪阶段对应的噪声图像。

根据本发明提供的一种图像生成装置，所述生成单元，具体用于根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像，以及所述第一方差确定第三均值；基于所述第一方差确定第二方差；根据所述第三均值和所述第二方差，生成所述前一次加噪阶段对应的噪声图像。

根据本发明提供的一种图像生成装置，所述图像去噪模型是基于多个噪声图像样本、所述多个噪声图像样本各自对应的文本和加噪阶段，对初始扩散模型中的初始图像去噪模型进行训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的图像生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的图像生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的图像生成方法。

本发明提供的图像生成方法、装置和电子设备，在生成与目标文本的文本内容相匹配的目标无噪声图像时，可以先获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本；并基于噪声图像、目标文本、目标加噪阶段以及随机非空文本，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。这样将目标文本和随机非空文本作为去噪处理过程中的引导信息，对噪声图像进行去噪处理，可以生成与目标文本的文本内容相匹配的目标无噪声图像，从而提高了生成的目标无噪声图像的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图像生成方法的流程示意图；

图2为本发明实施例提供的对噪声图像进行去噪处理的过程示意图；

图3为本发明实施例提供的图像去噪模型的训练方法的流程示意图；

图4为本发明实施例提供的图像生成装置的结构示意图；

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本发明的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

本发明实施例提供的技术方案可以应用于图像生成场景中，尤其可以应用于扩散模型中的去噪场景中。在扩散模型场景下的图像去噪采样过程中，通常情况下，扩散模型生成的图像与目标文本的匹配度较差。

为了生成与目标文本的文本内容相匹配的目标无噪声图像，从而提高生成的目标无噪声图像的准确度，本发明实施例提供了一种图像生成方法，在图像去噪采样过程中，可以预先确定两个文本，一个文本为基于噪声图像，想要生成的无噪声图像的描述文本，另一个文本为随机选择的一个非空文本，并将该两个文本作为去噪处理过程中的引导信息，对噪声图像进行去噪处理，以生成与目标文本的文本内容相匹配的目标无噪声图像，从而提高了生成的目标无噪声图像的准确度。

下面，将通过下述几个具体的实施例对本发明提供的图像生成方法行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的图像生成方法的流程示意图，该图像生成方法可以由软件和/或硬件装置执行。示例的，请参见图1所示，该图像生成方法可以包括：

S101、获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本。

其中，目标文本可以理解为基于噪声图像，想要生成的无噪声图像的描述文本；随机非空文本是随机选择的一个不同于目标文本的非空文本。可以理解的是，在本发明实施例中，噪声图像对应的目标文本可以作为引导条件，随机非空文本可以作为引导基础，即目标文本和随机非空文本共同作为去噪处理过程中的引导信息，以结合该引导信息生成与目标文本的文本内容相匹配的目标无噪声图像。

示例地，在随机选择非空文本时，可以预先指定一个文本集合，该文本集合可以为一个文本训练集合中的全部文本，也可以为一个文本训练集合中的一个文本子集，具体可以根据实际需要进行设置，在此，本发明实施例不做具体限制。需要说明的是，为了保证去噪处理过程中采用的随机非空文本的内容尽可能不同，从而更加有利于辅助进行去噪处理，该文本集合需要有一定大小的规模，即文本集合需要包括一定数量的文本。

示例地，获取待处理的噪声图像时，可以从其他电子设备接收该噪声图像，可以从本地存储中查找获取该噪声图像，或者，也可以从其他第三方数据库中获取该噪声图像等，具体可以根据实际需要进行设置，在此，对于待处理的噪声图像的获取方法，本发明实施例不做具体限制。

其中，噪声图像可以理解为基于目标加噪阶段，对原始干净图像进行加噪处理得到的。假设在扩散模型场景下，设置的扩散步数为T步，目标加噪阶段用t表示，则可以确定加噪阶段范围为0-T，目标加噪阶段t为0-T内的一个随机数。示例地，假设随机确定出的目标加噪阶段为t=5，则扩散模型中的加噪处理算法，可以连续对原始干净图像进行五次加噪处理，其中，第二次加噪处理是在第一次加噪处理得到的噪声图像的基础上执行的，第三次加噪处理是在第二次加噪处理得到的噪声图像的基础上执行的，第四次加噪处理是在第三次加噪处理得到的噪声图像的基础上执行的，第五次加噪处理是在第四次加噪处理得到的噪声图像的基础上执行的，这样通过对原始干净图像进行五次加噪处理，就可以得到原始干净图像在目标加噪阶段t=5时的噪声图像。

示例地，扩散模型中的加噪处理算法，对原始干净图像进行加噪处理时，可以采用余弦方式的噪声添加方法进行逐步加噪处理，这样可以使得噪声的添加过程更平稳，可以在扩散过程中较好地保留原始干净图像的相关信息；当然，也可以采用其他的噪声添加方法进行加噪处理，具体可以根据实际需要进行设置，在此，本发明实施例只是以采用余弦方式的噪声添加方法进行加噪处理为例进行说明，但并不代表本发明实施例仅局限于此。

在分别获取到待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本后，就可以执行下述S102：

S102、基于噪声图像、目标文本、目标加噪阶段以及随机非空文本，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。

其中，第一阈值的取值可以根据实际需要进行设置，在此，对于第一阈值的具体取值，本发明实施例不做具体限制。

通常情况下，在扩散模型场景下，可以先随机初始化一个符合高斯概率分布的目标加噪阶段，扩散模型中的加噪处理算法基于目标加噪阶段对原始干净图像进行逐步加噪处理，得到噪声图像后，可以通过逆扩散过程逐步对加噪处理得到的噪声图像进行层层去噪处理，以得到预测的目标无噪声图像。示例地，通过逆扩散过程逐步对加噪处理得到的噪声图像进行层层去噪处理时，可以基于目标加噪阶段的取值，对噪声图像进行层层去噪处理，即循环执行去噪处理操作，以得到预测的目标无噪声图像。可以理解的是，本发明实施例中，在基于目标加噪阶段的取值对噪声图像进行层层去噪处理的过程中，不同去噪阶段的噪声图像对应的目标文本为同一文本、但不同去噪阶段对应的随机非空文本不同，这样更加有利于辅助进行去噪处理。

示例地，基于噪声图像、目标文本、目标加噪阶段以及随机非空文本，对噪声图像进行去噪处理时，其去噪处理过程可以包括：

S1、将噪声图像、目标文本以及目标加噪阶段输入至扩散模型中的图像去噪模型中，得到第一参数；并将噪声图像、随机非空文本以及目标加噪阶段输入至图像去噪模型中，得到第二参数，示例地，可参见图2所示，图2为本发明实施例提供的对噪声图像进行去噪处理的过程示意图，在得到第一参数和第二参数后，可执行下述S2：

S2、根据第一参数第二参数，生成噪声图像在目标加噪阶段对应的无噪声图像。

S3、更新目标加噪阶段，判断更新后的加噪阶段是否等于第二阈值。

S4、在确定更新后的加噪阶段等于第二阈值的情况下，则将噪声图像在目标加噪阶段对应的无噪声图像，确定为目标无噪声图像。

S5、在确定更新后的加噪阶段大于第二阈值的情况下，则确定目标加噪阶段的前一次加噪阶段对应的噪声图像，并将前一次加噪阶段对应的噪声图像确定为待处理的噪声图像，将更新后的加噪阶段确定为目标加噪阶段，将新的随机非空文本确定为随机非空文本，重复执行上述S1-S5，直至更新后的加噪阶段等于第二阈值，并将噪声图像在更新后的加噪阶段对应的无噪声图像，确定为目标无噪声图像。

其中，第二阈值的取值可以根据实际需要进行设置。示例地，当加噪阶段范围为0-T时，第二阈值为0。

示例地，图像去噪模型可以为UNet神经网络模型，UNet神经网络模型主要包含输入层、中间层和输出层。其中，输入层主要由若干残差块、注意力块和下采样块堆叠构成，用于提取噪声图像的特征；中间块由一个残差块、注意力块和另一个残差块组成，用于对提取的特征进行进一步的整和处理；输出块由若干残差块、注意力块和上采样块堆叠构成，用于对中间层整和处理的特征进行恢复，从而得到噪声图像所包含噪声的均值和方差。

示例地，图像去噪模型是基于多个噪声图像样本、多个噪声图像样本各自对应的文本和加噪阶段，对初始扩散模型中的初始图像去噪模型进行训练得到的，该初始图像去噪模型的训练过程将在后续进行详细描述。

示例地，在上述S1中，将噪声图像、目标文本以及目标加噪阶段输入至扩散模型中的图像去噪模型中，图像去噪模型可以采用正弦时间编码器，对目标加噪阶段进行编码，将得到的编码特征叠加至图像去噪模型中的各个残差块中，图像去噪模型可以采用分词器对目标文本进行分词并序列化，并将序列化文本特征输入注意力块中，采用注意力机制将文本特征进行融合，最终输出目标加噪阶段对应的噪声图像所包含的均值和方差，即第一参数，第一参数包括均值和方差可对应记为第一均值和第一方差；类似的，将噪声图像、随机非空文本以及目标加噪阶段输入至扩散模型中的图像去噪模型中，图像去噪模型可以采用正弦时间编码器，对目标加噪阶段进行编码，将得到的编码特征叠加至图像去噪模型中的各个残差块中，图像去噪模型可以采用分词器对随机非空文本进行分词并序列化，并将序列化文本特征输入注意力块中，采用注意力机制将文本特征进行融合，最终输出目标加噪阶段对应的噪声图像所包含的均值和方差，即第二参数，第二参数包括均值可对应记为第二均值，鉴于其包括的方差在后续处理过程中暂时未涉及，因此，可先不对其进行区分。

示例地，在上述S2中，根据第一参数和第二参数，生成噪声图像在目标加噪阶段对应的无噪声图像时，扩散模型可以采用随机差分引导的思想，先对第一均值和第二均值进行融合，得到对应的目标均值；再根据融合得到的目标均值和第一方差，生成噪声图像在目标加噪阶段对应的无噪声图像。这样采用采用随机差分引导的思想，生成噪声图像在目标加噪阶段对应的无噪声图像，相比较无引导的生成方法，可以在一定程度上提高生成的无噪声图像的图像质量和准确度。

示例地，对第一均值和第二均值进行融合时，可以先确定第一均值和第二均值的差值，并确定差值与其对应的权重之间的乘积；将第二均值与乘积的和，确定为目标均值。为了便于理解，示例地，假设目标加噪阶段为t，

表示目标加噪阶段t的噪声图像，

表示随机非空文本，

表示目标文本，将目标加噪阶段t的噪声图像

、目标文本

以及目标加噪阶段t输入至图像去噪模型，其输出的第一均值可记为

，将目标加噪阶段t的噪声图像

、随机非空文本

以及目标加噪阶段t输入至图像去噪模型，其输出的第二均值可记为

，则对第一均值

和第二均值

进行融合，得到目标均值可参见下述公式1：

其中，

表示融合得到的目标均值，

表示第一均值和第二均值的差值对应的权重。

在对第一均值和第二均值进行融合，得到对应的目标均值后，就可以根据目标均值和第一方差，生成噪声图像在目标加噪阶段对应的无噪声图像，其具体实现可参见现有技术中，基于均值和方差生成噪声图像在加噪阶段对应的无噪声图像的相关方法，在此，本发明实施例不再进行赘述。

在执行上述S2生成噪声图像在目标加噪阶段对应的无噪声图像后，不能直接将该无噪声图像确定为对噪声图像进行去噪处理最终得到的目标无噪声图像，而是要进一步更新加噪阶段，例如，每一次更新加噪阶段时，可以将目标加噪阶段的取值减1，得到更新后的加噪阶段；并判断更新后的加噪阶段是否大于第二阈值，示例地，第二阈值可以设置为0，具体可以根据实际需要进行设置。在确定更新后的加噪阶段等于第二阈值的情况下，则可以直接将噪声图像在目标加噪阶段对应的无噪声图像，确定为最终的目标无噪声图像；相反的，在确定更新后的加噪阶段大于第二阈值的情况下，需要进一步执行上述S5，确定目标加噪阶段的前一次加噪阶段对应的噪声图像

，并将前一次加噪阶段对应的噪声图像

确定为上述S1中的待处理的噪声图像，将更新后的加噪阶段确定为目标加噪阶段，将新的随机非空文本确定为随机非空文本，重复执行上述S1-S5，直至更新后的加噪阶段等于第二阈值，并将噪声图像在更新后的加噪阶段对应的无噪声图像，确定为最终的目标无噪声图像。

示例地，在上述S5中，确定目标加噪阶段的前一次加噪阶段对应的噪声图像时，可以根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一参数中的第一方差，生成前一次加噪阶段对应的噪声图像，从而获取到前一次加噪阶段对应的噪声图像。

示例地，根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一方差，生成前一次加噪阶段对应的噪声图像时，可以根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像，以及第一方差确定第三均值；并基于第一方差确定第二方差；再根据第三均值和第二方差，生成前一次加噪阶段对应的噪声图像。

示例地，根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像，以及第一方差确定第三均值时，可参见公式2：

其中，

表示第三均值，

表示目标加噪阶段t的噪声图像，

表示噪声图像

在目标加噪阶段t对应的无噪声图像，

表示目标加噪阶段t的噪声图像

所包含噪声的第一方差，

，

，

，s 表示加噪阶段1-t中的第s个加噪阶段，

表示加噪阶段s的噪声图像

所包含噪声的方差。

示例地，基于第一方差确定第二方差时，可参见公式3：

其中，

表示目标加噪阶段t的噪声图像

所包含噪声的第二方差。

示例地，根据第三均值和第二方差，生成前一次加噪阶段对应的噪声图像

，可参见公式4：

其中，

表示高斯过程，

表示符合正态分布的随机噪声。

结合上述公式2、公式3以及公式4，就可以生成前一次加噪阶段对应的噪声图像。

可以看出，本发明实施例中，在生成与目标文本的文本内容相匹配的目标无噪声图像时，可以先获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本；并基于噪声图像、目标文本、目标加噪阶段以及随机非空文本，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。这样将目标文本和随机非空文本作为去噪处理过程中的引导信息，对噪声图像进行去噪处理，可以生成与目标文本的文本内容相匹配的目标无噪声图像，从而提高了生成的目标无噪声图像的准确度。

上述图1所示的实施例详细地描述了在图像去噪采样过程中，如何生成与目标文本的文本内容相匹配的目标无噪声图像，下面，将通过下述图3所示的实施例，对如何训练生成图像去噪模型进行详细描述。

图3为本发明实施例提供的图像去噪模型的训练方法的流程示意图，该方法可以由软件和/或硬件装置执行。示例的，请参见图3所示，该图像去噪模型的训练方法可以包括：

S301、获取多个干净图像样本、多个干净图像样本各自对应的文本和加噪阶段。

其中，干净图像样本对应的文本，可以理解为该干净图像样本的描述文本，即干净图像样本的文本描述信息。

示例地，在获取多个干净图像样本和多个干净图像样本各自对应的文本时，可以从其他电子设备接收该多个干净图像样本和多个干净图像样本各自对应的文本，可以从本地存储中查找获取该多个干净图像样本和多个干净图像样本各自对应的文本，或者，也可以从其他第三方数据库中获取该多个干净图像样本和多个干净图像样本各自对应的文本等，具体可以根据实际需要进行设置。

示例地，从其他第三方数据库中获取该多个干净图像样本和多个干净图像样本各自对应的文本时，可以从第三方数据库中下载图像-文本数据集，将下载统一资源定位***（uniform resource locator，url）映射为hash数值，作为干净图像样本的文件名进行保存，为方便读取较大规模数据，提取干净图像样本的文件名和对应文本信息，并存储至文档中，通过加载文档获取所有文件的索引信息以及对应的文本信息，从而获取到多个干净图像样本和多个干净图像样本各自对应的文本。

在获取到多个干净图像样本、多个干净图像样本各自对应的文本和加噪阶段后，可以执行下述S302：

S302、将多个干净图像样本和多个干净图像样本各自对应的加噪阶段输入至初始扩散模型中的加噪处理算法中，得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。

其中，设置的扩散步数为T步，加噪阶段用t表示，则可以确定加噪阶段范围为0-T，加噪阶段t为0-T内的一个随机数，干净图像样本在加噪阶段t对应的噪声图像样本可记为

。

示例地，假设某个干净图像样本对应的加噪阶段t=5，则将该干净图像样本和对应的加噪阶段输入至初始扩散模型中的加噪处理算法中，扩散模型中的加噪处理算法可以连续对原始干净图像进行五次加噪处理，其中，第二次加噪处理是在第一次加噪处理得到的噪声图像的基础上执行的，第三次加噪处理是在第二次加噪处理得到的噪声图像的基础上执行的，第四次加噪处理是在第三次加噪处理得到的噪声图像的基础上执行的，第五次加噪处理是在第四次加噪处理得到的噪声图像的基础上执行的，这样通过对干净图像样本连续进行五次加噪处理，就可以得到该干净图像样本在加噪阶段t=5时的噪声图像样本。采用类似的方法，可以得到多个干净图像样本各自在加噪阶段对应的噪声图像样本。

S303、将多个干净图像样本各自在加噪阶段对应的噪声图像样本、目标文本和加噪阶段输入至所述初始扩散模型中的初始图像去噪模型中，得到各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差。

示例地，初始图像去噪模型可以为UNet神经网络模型，UNet神经网络模型主要包含输入层、中间层和输出层。其中，输入层主要由若干残差块、注意力块和下采样块堆叠构成，用于提取噪声图像样本的特征；中间块由一个残差块、注意力块和另一个残差块组成，用于对提取的特征进行进一步的整和处理；输出块由若干残差块、注意力块和上采样块堆叠构成，用于对中间层整和处理的特征进行恢复，从而得到噪声图像样本所包含噪声的均值和方差。

示例地，在本发明实施例中，输入层可以由15个残差块、9个注意力块和6个下采样块组成；中间层可以由2个残差块和1个注意力块组成；输出层可以由19个残差块、12个注意力块和6个上采样块构成。

示例地，将噪声图像样本、目标文本和加噪阶段输入至扩散模型中的初始图像去噪模型中，初始图像去噪模型可以采用正弦时间编码器，对加噪阶段进行编码，将得到的编码特征叠加至初始图像去噪模型中的各个残差块中，初始图像去噪模型可以采用分词器对目标文本进行分词并序列化，并将序列化文本特征输入注意力块中，采用注意力机制将文本特征进行融合，最终输出加噪阶段对应的噪声图像所包含的均值和方差。

在得到各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差后，就可以根据各干净图像样本和各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新，即执行下述S304：

S304、根据各干净图像样本和各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新，以得到最终的图像去噪模型。

可以理解的是，在本发明实施例中，对初始扩散模型进行更新时，仅对初始扩散模型中的初始图像去噪模型的模型参数进行更新，对于初始扩散模型中的加噪处理算法和其他计算方法中的参数通常不做更新。

示例地，根据各干净图像样本和各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新时，扩散模型可以根据各干净图像样本在加噪阶段对应的噪声图像所包含噪声的均值和方差，计算生成各干净图像样本在加噪阶段对应的预测干净图像；之后，再根据各干净图像样本和各干净图像样本在加噪阶段对应的预测干净图像，对初始图像去噪模型的模型参数进行更新。

示例地，根据各干净图像样本和各干净图像样本在加噪阶段对应的预测干净图像，对初始图像去噪模型的模型参数进行更新时，针对各干净图像样本，可以根据该干净图像样本和其在加噪阶段对应的预测干净图像，构造该干净图像样本对应的均方差损失和变分下界损失，并根据该干净图像样本对应的均方差损失和变分下界损失确定该干净图像样本对应的目标损失，从而确定出各干净图像样本对应的目标损失；再根据各干净图像样本对应的目标损失，确定多个干净图像样本对应的平均损失，并基于多个干净图像样本对应的平均损失，对初始图像去噪模型的模型参数进行更新，直至更新后的图像去噪模型收敛，并将收敛的图像去噪模型，确定为最终训练得到的图像去噪模型。

可以看出，本发明实施例中，在训练图像去噪模型时，可以先获取多个干净图像样本、多个干净图像样本各自对应的文本和加噪阶段；将多个干净图像样本和多个干净图像样本各自对应的加噪阶段输入至初始扩散模型中的加噪处理算法中，得到多个干净图像样本各自在加噪阶段对应的噪声图像样本；将多个干净图像样本各自在加噪阶段对应的噪声图像样本、目标文本和加噪阶段输入至所述初始扩散模型中的初始图像去噪模型中，得到各干净图像样本对应的噪声图像在加噪阶段所包含噪声的均值和方差；根据各干净图像样本和各干净图像样本对应的噪声图像在加噪阶段所包含噪声的均值和方差，对初始图像去噪模型的模型参数进行更新，以得到最终的图像去噪模型。这样不仅可以提升图像去噪模型的训练效率，而且可以有效加强图像去噪模型的去噪性能。

下面对本发明提供的图像生成装置进行描述，下文描述的图像生成装置与上文描述的图像生成方法可相互对应参照。

图4为本发明实施例提供的图像生成装置40的结构示意图，示例的，请参见图4所示，该图像生成装置40可以包括：

获取单元401，用于获取待处理的噪声图像、噪声图像对应的目标文本、目标加噪阶段和随机非空文本。

生成单元402，用于基于噪声图像、目标文本、目标加噪阶段以及随机非空文本，对噪声图像进行去噪处理，得到目标无噪声图像；其中，目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。

可选地，生成单元402，具体用于执行：

S1、将噪声图像、目标文本以及目标加噪阶段输入至扩散模型中的图像去噪模型中，得到第一参数；并将噪声图像、随机非空文本以及目标加噪阶段输入至图像去噪模型中，得到第二参数。

可选地，第一参数包括第一均值和第一方差，第二参数包括第二均值，生成单元402，具体用于对第一均值和第二均值进行融合，得到对应的目标均值；根据目标均值和第一方差，生成噪声图像在目标加噪阶段对应的无噪声图像。

可选地，生成单元402，具体用于确定第一均值和第二均值的差值，并确定差值与其对应的权重之间的乘积；将第二均值与乘积的和，确定为目标均值。

可选地，生成单元402，具体用于根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像以及第一参数中的第一方差，生成前一次加噪阶段对应的噪声图像。

可选地，生成单元402，具体用于根据噪声图像、噪声图像在目标加噪阶段对应的无噪声图像，以及第一方差确定第三均值；基于第一方差确定第二方差；根据第三均值和第二方差，生成前一次加噪阶段对应的噪声图像。

可选地，图像去噪模型是基于多个噪声图像样本、多个噪声图像样本各自对应的文本和加噪阶段，对初始扩散模型中的初始图像去噪模型进行训练得到的。

本发明实施例提供的图像生成装置40，可以执行上述任一实施例中图像生成方法的技术方案，其实现原理以及有益效果与图像生成方法的实现原理及有益效果类似，可参见图像生成方法的实现原理及有益效果，此处不再进行赘述。

图5为本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行图像生成方法，该方法包括：获取待处理的噪声图像、噪声图像对应的目标文本和目标加噪阶段和随机非空文本；基于噪声图像、目标文本、目标加噪阶段以及随机非空文本，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的图像生成方法，该方法包括：获取待处理的噪声图像、噪声图像对应的目标文本和目标加噪阶段和随机非空文本；基于噪声图像、目标文本、目标加噪阶段以及随机非空文本，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图像生成方法，该方法包括：获取待处理的噪声图像、噪声图像对应的目标文本和目标加噪阶段和随机非空文本；基于噪声图像、目标文本、目标加噪阶段以及随机非空文本，对噪声图像进行去噪处理，生成目标无噪声图像；其中，目标无噪声图像的图像内容与目标文本的文本内容的匹配度大于第一阈值。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像生成方法，其特征在于，包括：

获取待处理的噪声图像、所述噪声图像对应的目标文本和目标加噪阶段和随机非空文本；

基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本，对所述噪声图像进行去噪处理，生成目标无噪声图像；其中，所述目标无噪声图像的图像内容与所述目标文本的文本内容的匹配度大于第一阈值；

其中，所述基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本，对所述噪声图像进行去噪处理，生成目标无噪声图像，包括：

S1、将所述噪声图像、所述目标文本以及所述目标加噪阶段输入至扩散模型中的图像去噪模型中，得到第一参数；并将所述噪声图像、所述随机非空文本以及所述目标加噪阶段输入至所述图像去噪模型中，得到第二参数；

S2、根据所述第一参数所述第二参数，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像；

S3、更新所述目标加噪阶段，判断更新后的加噪阶段是否等于第二阈值；

S4、在确定所述更新后的加噪阶段等于第二阈值的情况下，则将所述噪声图像在所述目标加噪阶段对应的无噪声图像，确定为所述目标无噪声图像；

2.根据权利要求1所述的图像生成方法，其特征在于，所述第一参数包括第一均值和第一方差，所述第二参数包括第二均值，所述根据所述第一参数所述第二参数，生成所述噪声图像在所述目标加噪阶段对应的无噪声图像，包括：

对所述第一均值和所述第二均值进行融合，得到对应的目标均值；

3.根据权利要求2所述的图像生成方法，其特征在于，所述对所述第一均值和所述第二均值进行融合，得到对应的目标均值，包括：

确定所述第一均值和所述第二均值的差值，并确定所述差值与其对应的权重之间的乘积；

将所述第二均值与所述乘积的和，确定为所述目标均值。

4.根据权利要求1-3任一项所述的图像生成方法，其特征在于，所述确定所述目标加噪阶段的前一次加噪阶段对应的噪声图像，包括：

5.根据权利要求4所述的图像生成方法，其特征在于，所述根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像以及所述第一方差，生成所述前一次加噪阶段对应的噪声图像，包括：

根据所述噪声图像、所述噪声图像在所述目标加噪阶段对应的无噪声图像，以及所述第一方差确定第三均值；

基于所述第一方差确定第二方差；

6.根据权利要求1-3任一项所述的图像生成方法，其特征在于，

所述图像去噪模型是基于多个噪声图像样本、所述多个噪声图像样本各自对应的文本和加噪阶段，对初始扩散模型中的初始图像去噪模型进行训练得到的。

7.一种图像生成装置，其特征在于，包括：

获取单元，用于获取待处理的噪声图像、所述噪声图像对应的目标文本、目标加噪阶段和随机非空文本；

生成单元，用于基于所述噪声图像、所述目标文本、所述目标加噪阶段以及所述随机非空文本，对所述噪声图像进行去噪处理，生成目标无噪声图像；其中，所述目标无噪声图像的图像内容与所述目标文本的文本内容的匹配度大于第一阈值；

其中，所述生成单元，具体用于执行：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的图像生成方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的图像生成方法。