CN115861462B

CN115861462B - 图像生成模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN115861462B
Application number: CN202211268653.9A
Authority: CN
Inventors: 冯智达; 张振宇; 余欣彤; 李岚欣; 方晔玮; 陈徐屹; 刘佳祥; 尹维冲; 冯仕堃; 孙宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-11-03
Anticipated expiration: 2042-10-17
Also published as: CN115861462A

Abstract

本公开提出了一种图像生成模型的训练方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及自然语言处理、计算机视觉、深度学习等技术领域，可应用于图像去噪、图像生成等场景。具体实现方案为：通过对样本图像基于感兴趣区域，确定各像素单元的权重，进而基于该权重确定损失函数，并采用该损失函数进行生成模型的模型参数调整，能够提升该生成模型的训练效果，进而提高该图像生成模型训练后所生成图像的图像质量。

Description

图像生成模型的训练方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及自然语言处理、计算机视觉、深度学习等技术领域，可应用于图像去噪、图像生成等场景，尤其涉及图像生成模型的训练方法、装置、电子设备及存储介质。

背景技术

基于文本生成图像的任务是指通过输入一段自然语言形式的文本描述，从而图像生成模型输出与该文本描述相符合的图像。这种基于图像生成模型生成图像的方式，图像的质量极大依赖于生成模型的训练效果。通过提升模型的训练效果，将有助于提升图像生成模型所生成图像的图像质量。

发明内容

本公开提供了一种图像生成模型的训练方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种图像生成模型的训练方法，包括：

获取样本图像，以及获取所述样本图像的描述文本；对所述样本图像进行感兴趣区域识别，以根据所述样本图像中各像素单元是否属于感兴趣区域，确定所述样本图像中各像素单元的权重；采用图像生成模型基于所述描述文本，对设定的噪声图进行降噪处理，以得到降噪图像；根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异，以及所述样本图像中各像素单元的权重，确定损失函数；根据所述损失函数，对所述图像生成模型进行模型参数调整，以得到训练后的图像生成模型。

根据本公开的另一方面，提供了一种图像生成模型的训练装置，包括：

获取模块，用于获取样本图像，以及获取所述样本图像的描述文本；

第一确定模块，用于对所述样本图像进行感兴趣区域识别，以根据所述样本图像中各像素单元是否属于感兴趣区域，确定所述样本图像中各像素单元的权重；

处理模块，用于采用图像生成模型基于所述描述文本，对设定的噪声图进行降噪处理，以得到降噪图像；

第二确定模块，用于根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异，以及所述样本图像中各像素单元的权重，确定损失函数；

训练模块，用于根据所述损失函数，对所述图像生成模型进行模型参数调整，以得到训练后的图像生成模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行本公开第一方面实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开第一方面实施例所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例所提供的一种图像生成模型的训练方法的流程示意图；

图2为本公开实施例所提供的另一种图像生成模型的训练方法的流程示意图；

图3为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图；

图4为本公开实施例提供的一种扩散模型对多帧样本图像的降噪过程；

图5为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图；

图6为本公开提供的描述文本的生成过程的示意图之一；

图7为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图；

图8为本公开提供的描述文本的生成过程的示意图之二；

图9为本公开实施例提供的一种图像生成模型的训练装置的结构示意图；

图10为本公开实施例提供的示例电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着深度学习的不断发展，在基于文本生成图像的任务上，期望该任务所生成图像的效果能够达到真实照片和人类艺术作品的质量。为了能够提高生成模型所生成图像的图像质量，发明人发现，目前生成模型对于文本描述和生成图像之间的关系理解程度还存在欠缺，如果能够在训练阶段增强生成模型对文本描述和生成图像之间关系的理解程度，将更加有助于提升生成模型在训练后所生成图像的图像质量。

本公开的技术方案中，所涉及的图像数据和文本数据的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

图1为本公开实施例所提供的一种图像生成模型的训练方法的流程示意图，如图1所示，该方法包括：

步骤101，获取样本图像，以及获取样本图像的描述文本。

其中，描述文本，是一段自然语言形式的文本。该文本用于指示待训练的图像生成模型所输出的图像内容。图像生成模型，可基于文本生成图像的，也就是说描述文本用于进行预处理后输入图像生成模型，或者，采用未经处理直接输入图像生成模型的方式，以便图像生成模型基于描述文本生成图像。

样本图像，为至少一帧，是待训练的图像生成模型输出的期待值。用于训练图像生成模型基于描述文本输出对应的样本图像。

步骤102，对样本图像进行感兴趣区域识别，以根据样本图像中各像素单元是否属于感兴趣区域，确定样本图像中各像素单元的权重。

对样本图像进行感兴趣区域的识别，从而在样本图像中框选出感兴趣区域。样本图像可以根据设定规则，划分为多个单元，每个单元包括至少一个像素，从而可以将该单元称为像素单元。本领域技术人员可以知晓，每个像素单元包含至少一个像素，且各像素单元中包含的像素个数可以是相同的也可以是不同的，不影响本技术方案的实现。

为了确定像素单元是否属于感兴趣区域可以采用如下方式，本实施例中对此不作限定：

针对任意的一个像素单元，若像素单元中所含的各像素均属于感兴趣区域，则确定该像素单元属于感兴趣区域。否则，该像素单元不属于感兴趣区域。

或者，针对任意的一个像素单元，若像素单元所含的像素中至少一个像素属于感兴趣区域，则确定该像素单元属于感兴趣区域。否则，该像素单元不属于感兴趣区域。

又或者，针对任意的一个像素单元，若像素单元所含的像素中超过一定比例的像素属于感兴趣区域，则确定该像素单元属于感兴趣区域，否则，该像素单元不属于感兴趣区域。

采用如上方式确定各像素单元是否属于感兴趣区域之后，针对属于感兴趣区域和非感兴趣区域分别配置了对应的权重。也就是说，可以将样本图像中属于任一个感兴趣区域的像素单元的权重，确定为第一取值；将样本图像中不处于任一感兴趣区域的像素单元的权重，确定为第二取值，其中第一取值可以大于第二取值。

步骤103，采用图像生成模型基于描述文本，对设定的噪声图进行降噪处理，以得到降噪图像。

本公开实施例中采用的图像生成模型可以是通过对设定的噪声图，参考描述文本进行降噪，从而将降噪后得到的降噪图像作为最终输出的图像，即生成图像。

例如：图像生成模型具体可以为扩散模型。扩散模型(diffusion models)是一种深度生成模型，是受非平衡热力学的启发。扩散模型定义一个扩散步骤的马尔可夫链，通过扩散过程逐渐向样本图像添加随机噪声，然后学习逆扩散过程，即去噪的过程。

在图像生成模型的训练过程中，通过图像生成模型对设定的噪声图像进行降噪，以便图像生成模型学习到去噪的过程，使得降噪图像与作为期望的样本图像之间差异最小化。

步骤104，根据样本图像中各像素单元与降噪图像中对应像素单元之间的内容差异，以及样本图像中各像素单元的权重，确定损失函数。

相关技术中，为了使得损失函数能够表征样本图像与降噪图像之间的差异性，通常将样本图像与降噪图像中对应部分比较，基于差异确定损失函数。本实施例中，为了使得图像生成模型能够更好的关注到与描述文本关联性更高的感兴趣区域，从而针对属于感兴趣区域和不属于感兴趣区域的像素单元配置了不同的权重。

作为一种可能的实现方式，针对任意的一个像素单元，可以将样本图像中该像素单元与降噪图像中对应像素单元之间的像素值做差，并乘以该像素单元的权重，再对多个像素单元加权后的差异求和作为损失函数。

步骤105，根据损失函数，对图像生成模型进行模型参数调整，以得到训练后的图像生成模型。

根据损失函数的梯度，沿着使得损失函数梯度下降的方向调整模型参数，以得到训练后的图像生成模型。

需要说明的是，前述步骤101至步骤105需要重复执行多次，各次可以采用不同的样本图像，从而在损失函数小于阈值的情况下，停止训练，或者，在重复执行次数大于阈值的情况下，停止训练。将最后一次模型参数调整后得到的图像生成模型作为训练后的图像生成模型。

本公开提供的图像生成模型的训练方法，由于样本图像的感兴趣区域与样本图像的描述文本之间关联性较大，从而对样本图像基于感兴趣区域，确定各像素单元的权重，进而基于该权重确定损失函数，能够使得损失函数能够携带有感兴趣区域与描述文本之间关联性的相关信息，采用该损失函数对生成模型的模型参数进行调整，能够在训练阶段增强生成模型对描述文本和生成图像之间关系的理解程度，将有助于提升图像生成模型在训练后所生成图像的图像质量。

图2为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图，如图2所示，该方法包括：

步骤201，获取样本图像，以及获取样本图像的描述文本。

参考前述实施例中的相关描述，本实施例中不再赘述。

步骤202，对样本图像识别得到至少一个感兴趣区域。

本公开实施例中，感兴趣区域通常为包含要识别的目标对象的区域，目标对象可以为人、动物、植物、艺术品等等，此处不一一列举。样本图像中可能存在多个感兴趣区域，本步骤中，无需对感兴趣区域的个数进行限定，识别出的感兴趣区域可以为一个也可以为多个。

步骤203，将样本图像中属于任一个感兴趣区域的像素单元的权重，确定为第一取值。

若像素单元属于任意的一个感兴趣区域，可以将该像素单元的权重设置为第一取值。

步骤204，将样本图像中不处于任一感兴趣区域的像素单元的权重，确定为第二取值。

其中，第一取值大于第二取值。

若像素单元不属于任意的一个感兴趣区域，则说明该像素单元的图像内容与描述文本之间关联性较弱，从而将该像素单元的权重取值降低为第二取值，在后续损失函数的计算时，会降低该部分像素单元的差值对损失函数整体取值的影响。使得损失函数的取值受到感兴趣区域内的像素单元影响较大，使得训练后的图像生成模型更加关注感兴趣区域，感兴趣区域与描述文本之间的关联性较强，从而增加了图像生成模型生成的图像与描述文本之间的关联性。

可选地，第二取值可以与对应像素单元距离所述感兴趣区域的最小距离呈反向关系。也就是说，对于不属于任意的一个感兴趣区域的像素单元，距离感性区域的最小距离越远，则权重越小。通过权重的大小便可以细致区分像素区域与描述文本之间的关联程度。

步骤205，采用图像生成模型基于描述文本，对设定的噪声图进行至降噪处理，以得到降噪图像。

步骤206，根据样本图像中各像素单元与降噪图像中对应像素单元之间的内容差异，以及样本图像中各像素单元的权重，确定损失函数。

步骤207，根据损失函数，对图像生成模型进行模型参数调整。

其中，步骤205至步骤207参考前述实施例中的相关描述，本实施例中不再赘述。

本公开提供的图像生成模型的训练方法中，由于样本图像的感兴趣区域与样本图像的描述文本之间关联性较大，从而对样本图像基于感兴趣区域，确定各像素单元的权重，进而基于该权重确定损失函数，能够使得损失函数能够携带有感兴趣区域与描述文本之间关联性的相关信息，采用该损失函数对生成模型的模型参数进行调整，能够在训练阶段增强生成模型对描述文本和生成图像之间关系的理解程度，将有助于提升图像生成模型在训练后所生成图像的图像质量。

图3为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图，如图3所示，该方法包括：

步骤301，获取样本图像，以及获取样本图像的描述文本，其中，样本图像为顺序排列的多帧，后一帧样本图像是对前一帧样本图像进行噪声叠加得到的。

步骤302，对至少一帧样本图像识别得到至少一个感兴趣区域。

步骤303，将至少一帧样本图像中属于任一个感兴趣区域的像素单元的权重，确定为第一取值。

步骤304，将至少一帧样本图像中不处于任一感兴趣区域的像素单元的权重，确定为第二取值。

其中，第一取值大于第二取值。

步骤305，采用图像生成模型基于描述文本，对设定的噪声图进行至少一次降噪处理，以得到顺序排列的至少一帧降噪图像。

其中，后一帧降噪图像是对前一帧降噪图像进行降噪处理得到。

可选地，采用编码器对描述文本进行编码，以得到描述文本的语义向量；将语义向量输入图像生成模型，以使图像生成模型基于语义向量，采用注意力机制对设定的噪声图进行至少一次降噪处理，以得到顺序排列的至少一帧降噪图像；其中，后一帧降噪图像是对前一帧降噪图像进行降噪处理得到。通过多帧降噪图像，能够降低模型的训练难度，使得模型学习对噪声逆扩散的过程进行逐步学习。

步骤306，根据至少一帧样本图像中各像素单元与对应降噪图像中对应像素单元之间的内容差异，以及该样本图像中各像素单元的权重，确定损失函数。

作为一种可能的实现方式，针对任一帧样本图像，与排序对应的一帧降噪图像进行比对，以根据样本图像中各像素单元与降噪图像中对应像素单元之间的内容差异，以及样本图像中各像素单元的权重，确定各帧样本图像的损失分量。根据各帧样本图像的损失分量之和，确定损失函数。由于针对每一帧样本图像与对应降噪图像的差异均计入损失函数，从而提高了训练的准确性，训练效果更佳。

作为另一种可能的实现方式，将首帧样本图像中各像素单元与最后一帧降噪图像中对应像素单元之间的内容差异，以及样本图像中各像素单元的权重，确定损失函数。由于仅需要针对部分样本图像与对应噪声图像之间的差异确定损失函数，简化了计算量，提高了计算速度，提高了模型训练的速度。

步骤307，根据损失函数，对图像生成模型进行模型参数调整。

为了清楚说明本实施例中的损失函数确定方式，如图4所示，示意性说明了扩散模型对多帧样本图像的降噪过程。

基于扩散模型的文本生成图像技术，将生成任务建模成一个不断去噪的过程，即从一张完全是噪声的图像开始，将重复若干步去噪后得到的图像作为最终生成结果。

如图4所示，图像顺序采用Z的脚标标识，也称为时间步t，例如，图4中总数为T，分别标识为Z₁到Z_T。

扩散模型的损失函数直接在图像空间中进行计算，损失函数例如，可以为：

其中，t表示时间步(t＝1...T)，∈表示所加的噪声，表示噪声∈是从标准正态分布中采样出来的，z0表示未添加噪声的原始图像，z_t表示重复加入噪声t个时间步时的图像，∈_θ表示神经网络模型，输入第t个时间步的加噪结果z_t和时间步t。损失函数采用均方误差(MSE)，使预测结果∈_θ(z_t,t)逼近真实加入的噪声∈，并希望模型在所有时间步t的均方误差都尽可能小。

其中，表示权重矩阵，M表示图像长度和宽度，w_l是设定的超参数，x_key表示关键对象对应的图像区域。参数i和j表示像素单元在图像中的横向坐标和纵向坐标。表示权重矩阵中处于i和j位置的像素单元loss_ij的权重。

图5为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图，如图5所示，该方法包括：

步骤501，获取样本图像。

其中，步骤501可参照前述实施例中的解释说明，此处不再赘述。

步骤502，对样本图像进行目标检测，以识别得到样本图像中的关键对象的名称和/或关键对象的属性。

可选地，对样本图像采用对象分割模型，或者，基于目标框的目标检测模型对样本图像进行目标检测，以识别出样本图像中所呈现的关键对象的名称和属性信息。或者，识别出样本图像中所呈现的关键对象的名称，进而基于名称查询对应的属性信息。作为一种细粒度的知识，目标检测识别的关键对象和属性，很有可能在文本中没有出现过，进而干扰图像生成模型学习文本与图像之间的对应关系。因此，我们将识别结果对应的对象类别标签和属性类别标签，补充到原始文本中，从而增强文本和图像的对齐关系，更好地将额外的视觉知识融入训练过程。

其中，关键对象，可以是样本图像中处于中心位置的对象，或者，是占面积较大的对象，还可以是样本图像所着重表达的对象。

步骤503，根据关键对象的名称和/或关键对象的属性，生成描述文本。

可选地，获取样本图像对应的原始文本；将原始文本与关键对象的名称和/或关键对象的属性进行文本拼接，以得到描述文本。由于拼接的方式，实现较为简单，计算量较小，有利于减少训练所需的资源。

进一步地，将样本图像所属页面中展示的图像标题作为原始文本；或者，从样本图像所属的图像库中读取样本图像对应的原始文本；或者，将样本图像的标签，作为原始文本。通过采用多种不同途径获取原始文本，原始文本对图像的描述角度也可能是不同的，有利于图像生成模型将不同维度的描述文本与样本图像对齐，从而学习到更多图像与文本之间的映射关系。

步骤504，对样本图像进行感兴趣区域识别，以根据样本图像中各像素单元是否属于感兴趣区域，确定样本图像中各像素单元的权重。

步骤505，采用图像生成模型基于描述文本，对设定的噪声图进行降噪处理，以得到降噪图像。

步骤506，根据样本图像中各像素单元与降噪图像中对应像素单元之间的内容差异，以及样本图像中各像素单元的权重，确定损失函数。

步骤507，根据损失函数，对图像生成模型进行模型参数调整。

其中，步骤504-步骤507可参照前述实施例中的解释说明，原理相同，此处不再赘述。

为了清楚说明本实施例中描述文本的生成过程，图6为本公开提供的描述文本的生成过程的示意图之一，如图6所示，样本图像对应的原始文本为一束花。为了增强原始文本的内容，得到描述文本，在图6所示的处理过程中，将样本图像输入到目标检测模型中，从而得到两个检测框，两个检测框分别标注有标签，“花；红色的”、“花瓶；蓝色的”。将原始文本“一束花”和标签“花；红色的”、“花瓶；蓝色的”拼接，从而得到“一束花，红色的花，蓝色的花瓶”，将其作为描述文本。

同时，如图6所示，两个检测框对应的区域作为感兴趣区域，属于该感兴趣区域内的像素单元的权重确定为1+w_l，非感兴趣区域内的像素单元的权重确定为1。

图7为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图，如图7所示，该方法包括：

步骤701，获取样本图像，和对应的原始文本。

其中，样本图像对应的原始文本，通常包含的语义信息较少。

步骤702，对样本图像进行目标检测，以识别得到样本图像中的关键对象的名称和/或关键对象的属性。

其中，步骤702可参照前述实施例中的解释说明，此处不再赘述。

步骤703，将原始文本与关键对象的名称和/或关键对象的属性进行文本拼接，以得到第一候选文本。

本公开实施例中，通过对样本图像进行目标监测得到的样本图像中的关键对象的名称和/或关键对象的属性，与原始文本拼接，可选的，在拼接前可进行语义去重处理，在不降低文本信息量的情况下，提高拼接性，从而增加了得到的第一候选文本的语义信息量。

步骤704，对样本图像，采用文本生成模型进行语义识别，以将文本生成模型输出的文本作为第二候选文本。

图像描述生成是文本生成图像的逆过程，即给定图像，文本生成模型(或者称为图像描述生成模型)生成描述文本。文本生成模型生成的文本通常简洁明了，并且能够捕捉到更为复杂和精准的语义。因此，我们使用文本生成模型，为所有训练数据中的样本图像额外生成了一个描述文本，即第二候选文本，从而有助于描述文本的进一步丰富含义。

步骤705，从第一候选文本和第二候选文本中，选定描述文本。

由于第一候选文本和第二候选文本是基于不同方式生成，但两者之间存在交叠内容，因此，通过从中随机选择的方式，选定描述文本，在不增加重复信息的情况下，有助于图像生成模型学习到不同维度生成的文本与图像之间的映射关系。

步骤706，对样本图像进行感兴趣区域识别，以根据样本图像中各像素单元是否属于感兴趣区域，确定样本图像中各像素单元的权重。

步骤707，采用图像生成模型基于描述文本，对设定的噪声图进行降噪处理，以得到降噪图像。

步骤708，根据样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异，以及样本图像中各像素单元的权重，确定损失函数。

步骤709，根据损失函数，对图像生成模型进行模型参数调整。

其中，步骤706-步骤708可参照前述实施例中的解释说明，原理相同，此处不再赘述。

为了清楚说明本实施例中描述文本的生成过程，图8为描述文本的生成过程的示意图之二，如图8所示，样本图像对应的原始文本为一束花。为了增强原始文本的内容，得到描述文本，在图8所示的处理过程中，文本2为图6中将样本图像输入到目标检测模型中，从而得到两个检测框，两个检测框分别标注有标签，“花；红色的”、“花瓶；蓝色的”。将原始文本“一束花”和标签“花；红色的”、“花瓶；蓝色的”拼接，从而得到的“一束花，红色的花，蓝色的花瓶”。如图8所示，文本1为样本图像输入到图像描述生成模型中，该图像描述生成模型已学习到图像到文本的映射关系，从而基于样本图像可以输出一段表达“一束红色的花在一个蓝色花瓶里”，将其作为文本1。如图8所示，随机选择文本1或文本2作为描述文本，与样本图像配对，作为用于对图像生成模型进行训练的训练样本。

图9为本公开实施例提供的一种图像生成模型的训练装置的结构示意图，如图9所示，该装置，包括：

获取模块91，用于获取样本图像，以及获取所述样本图像的描述文本。

第一确定模块92，用于对所述样本图像进行感兴趣区域识别，以根据所述样本图像中各像素单元是否属于感兴趣区域，确定所述样本图像中各像素单元的权重。

处理模块93，用于采用图像生成模型基于所述描述文本，对设定的噪声图进行降噪处理，以得到降噪图像。

第二确定模块94，用于根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异，以及所述样本图像中各像素单元的权重，确定损失函数。

训练模块95，用于根据所述损失函数，对所述图像生成模型进行模型参数调整，以得到训练后的图像生成模型。

进一步，本公开实施例的一种实现方式中，所述第一确定模块，用于：

对所述样本图像识别得到至少一个感兴趣区域；

将所述样本图像中属于任一个所述感兴趣区域的像素单元的权重，确定为第一取值；

将所述样本图像中不处于任一所述感兴趣区域的像素单元的权重，确定为第二取值；其中，所述第一取值大于所述第二取值。

本公开实施例的一种实现方式中，所述第二取值与对应像素单元距离所述感兴趣区域的最小距离呈反向关系。

本公开实施例的一种实现方式中，获取模块91，包括：

检测单元，用于对所述样本图像进行目标检测，以识别得到所述样本图像中的关键对象的名称和/或所述关键对象的属性；

生成单元，用于根据所述关键对象的名称和/或所述关键对象的属性，生成所述描述文本。

本公开实施例的一种实现方式中，生成单元，用于：

获取所述样本图像对应的原始文本；

将所述原始文本与所述关键对象的名称和/或所述关键对象的属性进行文本拼接，以得到所述描述文本。

本公开实施例的一种实现方式中，生成单元，用于：

将所述样本图像所属页面中展示的图像标题作为所述原始文本；或者，

从所述样本图像所属的图像库中读取所述样本图像对应的原始文本；或者，

将所述样本图像的标签，作为所述原始文本。

本公开实施例的一种实现方式中，获取模块91，用于：

对所述样本图像，采用文本生成模型进行语义识别，以根据所述文本生成模型输出的文本确定所述描述文本。

本公开实施例的一种实现方式中，获取模块91，用于：

对所述样本图像进行目标检测，以识别得到所述样本图像中的关键对象的名称和/或所述关键对象的属性；

根据所述关键对象的名称和/或所述关键对象的属性，生成第一候选文本；

对所述样本图像，采用文本生成模型进行语义识别，以将所述文本生成模型输出的文本作为第二候选文本；

从所述第一候选文本和所述第二候选文本中，选定所述描述文本。

本公开实施例的一种实现方式中，处理模块93，包括：

编码单元，用于采用编码器对所述描述文本进行编码，以得到所述描述文本的语义向量；

处理单元，用于将所述语义向量输入所述图像生成模型，以使所述图像生成模型基于所述语义向量，采用注意力机制对设定的噪声图进行至少一次降噪处理，以得到顺序排列的至少一帧降噪图像；其中，后一帧降噪图像是对前一帧降噪图像进行降噪处理得到。

本公开实施例的一种实现方式中，所述样本图像为顺序排列的多帧，后一帧样本图像是对前一帧样本图像进行噪声叠加得到的；

第二确定模块94，用于：

针对任一帧样本图像，与排序对应的一帧降噪图像进行比对，以根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异，以及所述样本图像中各像素单元的权重，确定各帧所述样本图像的损失分量；

根据各帧所述样本图像的损失分量之和，确定所述损失函数。

本公开实施例的一种实现方式中，第二确定模块94，用于：

将首帧所述样本图像中各像素单元与最后一帧降噪图像中对应像素单元之间的内容差异，以及所述样本图像中各像素单元的权重，确定所述损失函数。

需要说明的是前述方法实施例的解释说明也适用于本实施例的方法，原理相同，此处不再赘述。

本公开提出的一种图像生成模型的训练装置中，通过对样本图像基于感兴趣区域，确定各像素单元的权重，进而基于该权重确定损失函数，并采用该损失函数进行生成模型的模型参数调整，能够提升该生成模型的训练效果，进而提高该图像生成模型训练后所生成图像的图像质量。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10为本公开实施例提供的示例电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)1002中的计算机程序或者从存储单元1008加载到RAM(Random AccessMemory，随机访问/存取存储器)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。I/O(Input/Output，输入/输出)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如图像生成模型的训练方法。例如，在一些实施例中，上述图像生成模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的方法实施例的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述的图像生成模型的训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上***的***)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像生成模型的训练方法，包括：

获取样本图像，以及获取所述样本图像的描述文本，其中，所述样本图像，为至少一帧，是待训练的图像生成模型输出的期待值，用于训练所述图像生成模型基于描述文本输出对应的样本图像，所述样本图像的描述文本，用于指示所述待训练的图像生成模型所输出的图像内容；

对所述样本图像识别得到至少一个感兴趣区域；

将所述样本图像中不处于任一所述感兴趣区域的像素单元的权重，确定为第二取值；其中，所述第一取值大于所述第二取值；

采用图像生成模型基于所述描述文本，对设定的噪声图进行降噪处理，以得到降噪图像；

根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异，以及所述样本图像中各像素单元的权重，确定损失函数；

根据所述损失函数，对所述图像生成模型进行模型参数调整，以得到训练后的图像生成模型。

2.根据权利要求1所述的方法，其特征在于，所述第二取值与对应像素单元距离所述感兴趣区域的最小距离呈反向关系。

3.根据权利要求1所述的方法，其特征在于，所述获取所述样本图像的描述文本，包括：

根据所述关键对象的名称和/或所述关键对象的属性，生成所述描述文本。

4.根据权利要求3所述的方法，其特征在于，所述根据所述关键对象的名称和/或所述关键对象的属性，生成所述描述文本，包括：

获取所述样本图像对应的原始文本；

5.根据权利要求4所述的方法，其特征在于，所述获取所述样本图像对应的原始文本，包括：

将所述样本图像的标签，作为所述原始文本。

6.根据权利要求1所述的方法，其特征在于，所述获取所述样本图像的描述文本，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述样本图像的描述文本，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述采用图像生成模型基于所述描述文本，对设定的噪声图进行降噪处理，以得到降噪图像，包括：

采用编码器对所述描述文本进行编码，以得到所述描述文本的语义向量；

将所述语义向量输入所述图像生成模型，以使所述图像生成模型基于所述语义向量，采用注意力机制对设定的噪声图进行至少一次降噪处理，以得到顺序排列的至少一帧降噪图像；其中，后一帧降噪图像是对前一帧降噪图像进行降噪处理得到。

9.根据权利要求8所述的方法，其特征在于，所述样本图像为顺序排列的多帧，后一帧样本图像是对前一帧样本图像进行噪声叠加得到的；

所述根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异，以及所述样本图像中各像素单元的权重，确定损失函数，包括：

10.根据权利要求8所述的方法，其特征在于，所述根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异，以及所述样本图像中各像素单元的权重，确定损失函数，包括：

11.一种图像生成模型的训练装置，包括：

获取模块，用于获取样本图像，以及获取所述样本图像的描述文本，其中，所述样本图像，为至少一帧，是待训练的图像生成模型输出的期待值，用于训练所述图像生成模型基于描述文本输出对应的样本图像，所述样本图像的描述文本，用于指示所述待训练的图像生成模型所输出的图像内容；

第一确定模块，用于对所述样本图像识别得到至少一个感兴趣区域；

12.根据权利要求11所述的装置，其特征在于，所述第二取值与对应像素单元距离所述感兴趣区域的最小距离呈反向关系。

13.根据权利要求11所述的装置，其特征在于，所述获取模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述生成单元，用于：

获取所述样本图像对应的原始文本；

15.根据权利要求14所述的装置，其特征在于，所述生成单元，用于：

将所述样本图像的标签，作为所述原始文本。

16.根据权利要求11所述的装置，其特征在于，所述获取模块，用于：

17.根据权利要求11所述的装置，其特征在于，所述获取模块，用于：

18.根据权利要求11-17任一项所述的装置，其特征在于，所述处理模块，包括：

19.根据权利要求18所述的装置，其特征在于，所述样本图像为顺序排列的多帧，后一帧样本图像是对前一帧样本图像进行噪声叠加得到的；

所述第二确定模块，用于：

20.根据权利要求18所述的装置，其特征在于，所述第二确定模块，用于：

21.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。