CN116630465B

CN116630465B - 一种模型训练、图像生成方法及设备

Info

Publication number: CN116630465B
Application number: CN202310904973.7A
Authority: CN
Inventors: 赵长福; 刘微; 陈维强; 赵越; 曲磊
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-24
Anticipated expiration: 2043-07-24
Also published as: CN116630465A

Abstract

本申请涉及人工智能技术领域，尤其涉及一种模型训练、图像生成方法及设备。模型训练时将图像文本对包括的样本图像输入到输入层，为样本图像增加目标噪声强度的噪声，得到目标噪声图像以及第一特征向量，将第一特征向量和样本文本对应的第一词嵌入向量输入到Transformer编码器，得到第二特征向量并输入到全连接层，得到预测噪声强度，根据该预测噪声强度对目标噪声图像进行降噪，得到生成图像，并根据预测噪声强度和目标噪声强度确定损失值，得到了可以生成图像的目标生成模型，实现了图像的自动生成，提高了模型训练时样本图像获取的效率，进而提高了模型训练的效率。本申请所保护的技术方案具有实时性，可控性特点，符合可信赖特性。

Description

一种模型训练、图像生成方法及设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型训练、图像生成方法及设备。

背景技术

对于涉及到图像的模型的训练以及算法的测试效果依赖于大量的样本图像，而实际的样本图像在获取的过程中会消耗大量人力物力，并且效率较低。目前，在对模型进行训练或者对算法进行测试时，通常是在公开图像集中获取一定数量的图像作为样本图像，或者通过实际采集的方式获取样本图像，这些方法难以很好的用于模型训练和算法测试。另外，由于季节、环境的变化，会导致实际采集到的样本图像的实际场景数据匮乏，例如，在夏天无法采集到下雪天场景的图像，最终使得模型的训练以及算法的测试效果只对某一特定的场景效果较好，缺乏泛化性。

因此，如何能够根据需要生成相应的图像成为亟待解决的问题。

发明内容

本申请实施例提供了一种模型训练、图像生成方法及设备，用以解决现有技术中无法根据需要生成相应图像的问题。

第一方面，本申请提供了一种模型训练方法，生成模型包括输入层、Transformer编码器和全连接层，所述方法包括：

获取样本集中的任一图像文本对，所述图像文本对包括样本图像以及对所述样本图像的内容进行描述的样本文本；

将所述样本图像输入到所述输入层，为所述样本图像增加目标噪声强度的噪声，得到目标噪声图像以及所述目标噪声图像的第一特征向量；

将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述Transformer编码器，得到第二特征向量，所述第二特征向量是所述Transformer编码器基于所述第一词嵌入向量和注意力机制，对所述第一特征向量进行特征提取得到的；

将所述第二特征向量输入到所述全连接层，得到所述全连接层输出的预测噪声强度；根据所述预测噪声强度对所述目标噪声图像进行降噪处理，得到生成图像，并根据所述预测噪声强度和所述目标噪声强度确定损失值，根据所述损失值对所述生成模型进行训练，得到目标生成模型。

第二方面，本申请实施例还提供了一种图像生成方法，所述方法包括：

接收待生成图像的提示文本；

将所述提示文本输入到目标生成模型中，得到目标生成图像，其中，所述目标生成模型包括输入层、Transformer编码器和全连接层。

第三方面，本申请实施例还提供了一种模型训练装置，生成模型包括输入层、Transformer编码器和全连接层，所述装置包括：

获取模块，用于获取样本集中的任一图像文本对，所述图像文本对包括样本图像以及对所述样本图像的内容进行描述的样本文本；

训练模块，用于将所述样本图像输入到所述输入层，为所述样本图像增加目标噪声强度的噪声，得到目标噪声图像以及所述目标噪声图像的第一特征向量；将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述Transformer编码器，得到第二特征向量，所述第二特征向量是所述Transformer编码器基于所述第一词嵌入向量和注意力机制，对所述第一特征向量进行特征提取得到的；将所述第二特征向量输入到所述全连接层，得到所述全连接层输出的预测噪声强度；根据所述预测噪声强度对所述目标噪声图像进行降噪处理，得到生成图像；根据所述预测噪声强度和所述目标噪声强度确定损失值，根据所述损失值对所述生成模型进行训练，得到目标生成模型。

第四方面，本申请实施例还提供了一种图像生成装置，所述装置包括：

接收模块，用于接收待生成图像的提示文本；

生成模块，用于将所述提示文本输入到目标生成模型中，得到目标生成图像，其中，所述目标生成模型包括输入层、Transformer编码器和全连接层。

第五方面，本申请实施例还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一项所述模型训练方法的步骤，或如上述任一项所述的图像生成方法的步骤。

第六方面，本申请实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述模型训练方法的步骤，或如上述任一项所述的图像生成方法的步骤。

由于在本申请实施例，在对模型进行训练时，获取样本集中的任一图像文本对，将图像文本对中包括的样本图像输入到输入层，为样本图像增加目标噪声强度的噪声，得到目标噪声图像以及目标噪声图像的第一特征向量，将第一特征向量和样本文本中包括的词对应的第一词嵌入向量输入到Transformer编码器，得到第二特征向量，将第二特征向量输入到全连接层，得到全连接层输出的预测噪声强度，根据该预测噪声强度对目标噪声图像进行降噪处理，得到生成图像，并根据预测噪声强度和目标噪声强度确定损失值，从而对生成模型进行训练，得到了可以生成图像的目标生成模型，实现了图像的自动生成，提高了模型训练时样本图像获取的效率，进而提高了模型训练的效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练过程示意图；

图2为本申请实施例示出的样本图像示意图；

图3为本申请实施例提供的目标标注方式确定过程示意图；

图4为本申请实施例提供的模型训练过程示意图；

图5为本申请实施例提供的评价过程示意图；

图6为本申请实施例提供的一种图像生成方法过程示意图；

图7为本申请实施例提供的图像生成过程示意图；

图8为本申请实施例提供的模型训练装置的结构示意图；

图9为本申请实施例提供的图像生成装置的结构示意图；

图10为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图，对本申请的实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种模型训练、图像生成方法及设备，生成模型包括输入层、编码器和全连接层，在对模型进行训练时，获取样本集中的任一图像文本对，该图像文本对包括样本图像以及对样本图像的内容进行描述的样本文本；将样本图像输入到所述输入层，为样本图像增加目标噪声强度的噪声，得到目标噪声图像以及目标噪声图像的第一特征向量；将第一特征向量和样本文本中包括的词对应的第一词嵌入向量输入到Transformer编码器，得到第二特征向量，该第二特征向量是Transformer编码器基于第一词嵌入向量和注意力机制，对第一特征向量进行特征提取得到的；将第二特征向量输入到全连接层，得到全连接层输出的预测噪声强度；根据预测噪声强度对目标噪声图像进行降噪处理，得到生成图像，并根据预测噪声强度和目标噪声强度确定损失值，根据损失值对生成模型进行训练，得到目标生成模型。

图1为本申请实施例提供的一种模型训练过程示意图，该过程包括以下步骤：

S101：获取样本集中的任一图像文本对，所述图像文本对包括样本图像以及对所述样本图像的内容进行描述的样本文本。

本申请实施例提供的模型训练方法应用于电子设备，该电子设备可以是服务器、PC等。

为了训练能够根据需要生成相应图像的模型，在本申请实施例中，预先配置有样本集，并使用样本集中包括的每个图像文本对对生成模型进行训练。其中，生成模型包括输入层、编码器和全连接层，其中，编码器可以为Transformer编码器。

在对生成模型进行训练时，可以在样本集中选取任一图像文本对，使用该任一图像文本对对生成模型进行训练，在本申请实施例中，所使用的任一图像文本对中均包括样本图像，以及对该样本图像的内容进行描述的样本文本。图2为本申请实施例示出的样本图像示意图，如图2所示，图2中包括双向的公路，且在公路两侧种植有绿化带，在公路的尽头有浓雾，因此该样本图像的对应的样本文本可以为：在一条具有绿化带的双向主干路的远方具有浓雾。

S102：将所述样本图像输入到所述输入层，为所述样本图像增加目标噪声强度的噪声，得到目标噪声图像以及所述目标噪声图像的第一特征向量。

获取到样本集中的任一图像文本对之后，将该样本文本对中包括的样本图像输入到生成模型的输入层中，由输入层为该样本图像增加目标噪声强度的噪声，使得该样本图像中包含的原始内容被所增加的噪声覆盖，增加了目标噪声强度的噪声的样本图像即为目标噪声图像，该目标噪声图像可以理解为是完全噪声图像。其中，目标噪声强度是工作人员根据经验预先配置的，在为样本图像增加目标噪声强度的噪声时，可以将该目标噪声强度的噪声一次添加到样本图像中，也可以将该目标噪声强度的噪声分为多次添加到样本图像中，每一次所添加的噪声的噪声强度可以相同也可以不同，较佳的，可以将目标噪声强度分成L次增加到样本图像中，且所增加的噪声强度逐次增加，也就是说，所增加的噪声的噪声强度一次比一次大。

得到了目标噪声图像之后，也就可以确定该目标噪声图像的第一特征向量，以便于根据该第一特征向量对生成模型进行训练。需要说明的是，如何确定目标噪声图像的第一特征向量为现有技术，在本申请实施例中不再赘述。

S103：将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述Transformer编码器，得到第二特征向量，所述第二特征向量是所述Transformer编码器基于所述第一词嵌入向量和注意力机制，对所述第一特征向量进行特征提取得到的。

得到了目标噪声图像的第一特征向量之后，为了使生成模型可以根据样本图像对应的样本文本的语义对样本图像进行特征提取，在本申请实施例中，可以确定样本文本中包括的词的第一词嵌入向量，在确定第一词嵌入向量时，可以将样本文本输入到文本编码器中，由文本编码器确定样本文本中包括的词的第一词嵌入向量，其中，文本编码器可以是Clip Text模型。

确定了第一词嵌入向量之后，将第一特征向量和第一词嵌入向量输入到生成模型的编码器中，该编码器可以为Transformer编码器，Transformer编码器可以基于接收到的第一词嵌入向量和注意力机制，对第一特征向量进行特征提取，得到第二特征向量，注意力机制为该第二特征向量中为包含样本第一词嵌入向量的部分分配了更多的权重。

S104：将所述第二特征向量输入到所述全连接层，得到所述全连接层输出的预测噪声强度；根据所述预测噪声强度对所述目标噪声图像进行降噪处理，得到生成图像，并根据所述预测噪声强度和所述目标噪声强度确定损失值，根据所述损失值对所述生成模型进行训练，得到目标生成模型。

确定了第二特征向量之后，将该第二特征向量输入到全连接层，得到该全连接层输出预测噪声强度，确定了预测噪声强度之后，根据该预测噪声强度对目标噪声图像进行降噪处理，即在目标噪声图像中去除该预测噪声强度的噪声，从而得到生成图像。

由于在本申请实施例中，是对样本图像增加了目标噪声强度的噪声之后得到目标噪声图像的，之后又是根据该目标噪声图像确定预测噪声强度的，因此，在本申请实施例中，为了对生成模型进行训练，在得到了预测噪声强度之后，可以根据该预测噪声强度和目标噪声强度确定损失值，在确定损失值时可以将交叉熵函数作为损失函数，根据该损失函数确定损失值。确定了损失值之后，根据该损失值对生成模型进行训练。

在本申请实施例中预先设置有收敛条件，经过大量的训练之后，当满足预设的收敛条件时，则可以确定该生成模型训练完成，得到目标生成模型。其中，收敛条件可以是，样本集中的图像文本对通过生成模型训练后得到的生成图像，与对应的样本图像的相似度大于设定相似度阈值的次数达到设定数量；也可以是对生成模型进行训练的迭代次数达到设置的最大迭代次数等，具体的本申请实施例对此不进行限制。

为了提高模型训练的效率，在上述实施例的基础上，在本申请实施例中，所述获取样本集中的任一图像文本对之前，所述方法还包括：

获取预先采集的第一预设数量的第一图像，以及所述第一预设数量的第一图像分别对应的第一标签文本，所述第一标签文本是对对应的第一图像的内容进行描述的文本；

将所述第一预设数量的第一图像逐一输入到图像描述网络，得到所述图像描述网络输出的所述第一预设数量的第一图像分别对应的第二标签文本，所述第二标签文本为所述图像描述网络对对应的第一图像的内容进行预测的文本；

分别确定所述第一预设数量的第一图像对应的第一标签文本，与对应的第二标签文本之间的第一相似度；根据所述第一预设数量的第一图像分别对应的第一相似度，确定综合相似度；

根据所述综合相似度以及预先划分的相似度区间，确定所述综合相似度对应的目标相似度区间，使用所述目标相似度区间对应的目标标注方式，为所述样本集中包括的任一样本图像添加样本文本，得到图像文本对，所述样本集中包括的样本图像的数量大于所述第一预设数量。

为了使训练的模型的效果更好，在对模型进行训练之前需要构建包含大量的图像文本对的训练集，在本申请实施例中，在获取样本集中的任一图像文本对之前，可以收集一定数量的样本图像保存在样本集中，该样本图像可以是在图像采设备采集到的视频中，通过抽帧的方式获取到的，也可以是在公开的图像集中获取到的，该样本图像可以是人物图像，也可以是风景图像，还可以是天气图像等，在本申请实施例中对此不进行限制。

由于本申请是希望训练根据需要生成相对应图像的模型，因此，在样本集中，每个样本图像均应对应有相应的样本文本，该样本文本可以是对对应的样本图像的内容进行描述的文本。由于样本集中样本图像的数据量较大，如果单纯的通过人工的方式对样本图像的样本文本进行标注，必定会浪费大量的人力和物力，因此，为了提高模型的训练效率，在本申请实施例中，希望能够使用一些已经训练完成的模型，生成各样本图像对应的样本文本，从而得到图像文本对，但是，训练集中的图像文本对的质量好坏将直接影响到生成模型的训练效果。因此，在本申请实施例中，可以预先使用第一预设数量的第一图像对已规定的各种标注方式进行测试，从而确定样本集中的样本图像使用哪一种标注方式标注其对应的样本文本，因此，在本申请实施例中，对样本集中的样本图像采用一种多策略图像文本对生成方法，也就是说，对样本图像的标注方式有多种。在本申请实施例中，预先规定了三种标注方式，分别为人工标注方式、半人工标注方式和非人工标注方式。

在本申请实施例中，人工标注方式为采用接收到的对样本图像的内容进行描述的样本文本对样本图像进行标注，也就是说，样本集中的样本图像全部由人工进行标注。具体的，电子设备的使用者在可以在可视化页面，针对每一个样本图像，输入对应的样本文本，电子设备在接收到输入的样本文本之后，将该样本文本对应对应的样本图像进行保存，得到图像文本对。

在本申请实施例中，半人工标注方式为部分样本图像采用接收到的对样本图像的内容进行描述的样本文本对样本图像进行标注，部分样本图像采用图像描述网络对样本图像的内容进行预测得到的样本文本进行标注，也就是说，样本集中的部分样本图像采用人工标注的方式标注对应的样本文本，另一部分样本图像采用非人工标注的方式标注对应的样本文本。其中，图像描述网络可以是Show and tell网络，当然，该图像描述网络也可以是其他网络，本申请实施例对此不进行限制。具体的，在使用半人工标注方式对样本集中的样本图像进行标注时，可以在样本集中随机选取30%的样本图像采用人工标注的方式标注对应的样本文本，将样本集中剩余70%的样本图像采用图像描述网络进行标注。

在本申请实施例中，非人工标注方式为采用图像描述网络，逐一对样本集中的样本图像的内容进行预测得到的样本文本进行标注，也就是说，样本集中的所有样本图像均由图像描述网络对样本图像的内容进行预测，得到样本文本。

在本申请实施例中，具体采用哪一种标注方式对样本集中的样本图像进行标注，可以通过以下方式进行确定。

为了确定使用哪一种标注方式对样本集中的样本图像进行标注，在本申请实施例中，可以获取预先采集的第一预设数量的第一图像，其中，该第一图像可以是已公开的数据集中的图像，也可以是使用图像采集设备采集到的图像，还可以是样本集中已经存在的图像，其中该第一预设数量小于样本集中包括的样本图像的数量。获取到了第一预设数量的第一图像之后，可以将该第一预设数量的第一图像进行显示，以便于电子设备的使用者针对每个第一图像输入对应的第一标签文本，该第一标签文本是电子设备的使用者对对应的第一图像的内容进行描述的文本。

在获取到了第一预设数量的第一图像之后，将该第一预设数量的第一图像逐一输入到图像描述网络中，由图像描述网络对每个第一图像的内容进行预测，得到每个第一图像分别对应的第二标签文本。

如果由图像描述网络预测的第二标签文本能够达到人工标注的水平，说明该描述网络对图像的内容的描述的准确率较高，则可以使用该图像描述网络对样本集中的样本图像进行标注。因此，在本申请实施例中，在确定了第一标签文本和第二标签文本之后，为了确定图像描述网络所预测的文本是否达到人工标注的水平，可以针对每个第一图像，确定该第一图像对应的第一标签文本与对应的第二标签文本之间的第一相似度。

具体的，可以采用Transformer网络对第一标签文本和第二标签文本进行编码，得到各标签文本对应的特征向量，并通过余弦相似度计算两个标签文本对应的特征向量的描述距离，即确定第一标签文本与第二标签文本之间的第一相似度。确定了每个第一图像的第一相似度之后，可以根据每个第一相似度确定平均相似度，并将该平均相似度确定为综合相似度。

由于相似度代表着两个标签文本之间的相似程度，如果相似度较高，则可以认为图像描述网络预测的第二标签文本，与人工标注的第一标签文本较为相似，那么，则可以在对样本集中的样本图像进行标注的时候，使用图像描述网络来对样本图像的内容进行预测，从而得到图像文本对。为了确定使用哪一种标注方式对样本集的样本图像进行标注，在本申请实施例中，预先划分有多个相似度区间，且每个相似度区间对应有相应的标注方式，本申请实施例预先规定的标注方式已经在上述实施例中进行了详细的说明，在此不再赘述。确定了综合相似度之后，确定该综合相似度对应的目标相似度区间，使用该目标相似度区间对应的目标标注方式，为样本集中包括的每个样本图像添加样本文本，从而得到样本图像文本对。

具体的，可以预先配置足够相似阈值和一般相似阈值，其中，足够相似阈值大于一般相似阈值。如果综合相似度大于足够相似阈值，则说明图像描述网络可以很好的描述图像中的信息，因此可以直接采用非人工标注方式为样本集中包括的任一样本图像添加样本文本。如果综合相似度不大于足够相似阈值，但是大于一般相似阈值，则说明图像描述网络可以较好的描述图像中的信息，但是与人工标注的方式得到的第一标签文本之间还是存在一定的偏差，因此，可以采用半人工标注方式为样本集中包括的任一样本图像添加样本文本。如果综合相似度不大于一般相似阈值，则说明图像描述网络对图像中的信息进行预测的效果不是很好，不能使用该图像描述网络对样本集中的样本图像进行标注，因此，只能采用人工标注方式为样本集中包括的任一样本图像添加样本文本。

在上述各实施例的基础上，在本申请实施例中，在获取预先采集的第一预设数量的第一图像，以及所述第一预设数量的第一图像分别对应的第一标签文本之后，在将所述第一预设数量的第一图像逐一输入到图像描述网络之前，所述方法还包括：

对所述第一预设数量的第一图像进行数据清洗。

在本申请实施例中，在对第一数量的第一图像进行数据清洗时，可以使用已有的模型对该第一数量的第一图像进行过滤。例如，如果希望得到的第一图像均是关于雾天的图像，那么则可以使用大雾的检测模型，快速从该第一预设数量的第一图像中过滤去除第一图像中的无雾图像，从而只保留与业务场景相关的图像。

由于第一预设数量的第一图像中，存在通过视频抽帧的方式获取到的图像，那么，通过视频抽帧的方式获取到的图像中，临近的图像存在相似度较高的可能性，为了提高效率，没有必要将很多相似度较高的图像都进行保留，因此，在本申请实施例中，可以使用相似度度量的方式，去除该第一预设数量的第一图像中相似度较高的部分第一图像。

具体的，可以预先设置一个相似度阈值，当该第一预设数量的第一图像中任意两张第一图像的相似度大于该相似度阈值时，则可以删除其中任一张第一图像，即两张相似度较高的第一图像只保留一张。在本申请实施例中，在确定两张第一图像的相似度时，可以使用感知哈希算法（pHash）、结构相似性（Structural Similarity，SSIM）、图像互信息（MI）、余弦相似度、直方图等算法，本申请实施例对此不进行限制。

另外，第一图像的清晰度对于图像描述网络对第一图像的内容进行预测的结果也起着重要的作用，因此，在本申请实施例中，预先配置有清晰度阈值，低于该清晰度阈值的第一图像不保留，因为低于一定清晰度的图像中的物体的特征可能不够清晰，对图像描述网络可能有误导作用。具体的，可以采用基于深度学习的图像清晰度评价函数对每一张第一图像的清晰度指数做出评价，若清晰度指数大于清晰度阈值，则保留该第一图像，若清晰度指数不大于清晰度阈值，则由人工判断是删除或另存到其它路径以保留原始图像的完整性。

下面结合一个具体的实施例对目标标注方式的确定过程进行说明，图3为本申请实施例提供的目标标注方式确定过程示意图，如图3所示，为了确定目标标注方式，可以从公开的图像集中获取一定数量的图像作为第一图像，并从图像采集设备采集到的各图像中随机选取一定数量的图像作为第一图像，获取到了各第一图像之后，对每个第一图像进行数据清洗。

将清洗后的每个第一图像在可视化页面进行显示，并接收针对每个第一图像输入的第一标签文本，得到图像对应的文本。将清洗后的每个第一图像逐一输入到图像描述网络，生成每个图像对应的文本，即图像描述网络针对每个第一图像的内容进行预测的第二标签文本。

得到了每个第一图像对应的第一标签文本和第二标签文本之后，可以基于相似度计算网络确定每个第一图像对应的第一相似度。并根据每个第一图像对应的第一相似度，确定综合相似度。

当该综合相似度大于足够相似阈值时，可以认为所确定的每个第一图像的第二标签文本与人工标注的第一标签文本之间比较相似，可以将目标标注方式确定为非人工标注方式，即使用图像描述网络对样本集中的每个样本图像进行标注。

当该综合相似度不大于足够相似阈值，但是大于一般相似阈值时，可以认为所确定的每个第一图像的第二标签文本与人工标注的第一标签文本之间存在一定的相似度，但是还有一些偏差的，因此，可以将目标标注方式确定为半人工标注方式，即部分样本图像采用接收到的对样本图像的内容进行描述的样本文本对样本图像进行标注，部分样本图像采用图像描述网络对样本图像的内容进行预测得到的样本文本进行标注。

当该综合相似度不大于一般相似阈值时，则可以认为所确定的每个第一图像的第二标签文本与人工标注的第一标签文本之间的相似度较低，即该第二标签文本与第一标签文本之间存在较大的偏差，因此，可以将目标标注方式确定为人工标注方式，即采用接收到的对样本图像的内容进行描述的样本文本对样本图像进行标注。

下面结合另一个实施例对目标标注方式的确定过程进行说明。

获取到预先采集的第一预设数量的第一图像之后，将每个第一预设数量的第一图像在标注平台的可视化页面中进行显示。该标注平台中包括多种场景，且每种场景包括有多个标识，例如针对城市道路这一场景，该场景包括的标识为：单向车道、双向车道、道路类型、是否有绿化带、雾团出现位置、雾浓度等，其中道路类型又可以分为快速路、主干路、次干路、支路等。电子设备的使用者在观看到某一个第一图像之后，电子设备的使用者可以基于主观认知，在标注平台对各相关的标识进行勾选，最终形成一条文本，该文本即为第一标签文本。重复上述步骤直至每个第一图像均标识完成。当然，当标注平台不存在电子设备的使用者希望得到的标识时，电子设备的使用者可以自定义的输入相关内容。示例性的，如果某一第一图像为如图2所示的图像，那么，电子设备的使用者输入的第一标签文本可以为：在一条具有绿化带的双向主干路的远方具有浓雾。

在接收输入的第一标签文本的同时，可以使用图像描述网络对第一图像的内容进行预测，得到第二标签文本。在本申请实施例中，可以针对每个第一图像，将该第一图像输入到卷积神经网络(Convolutional Neural Networks,CNN)结构的特征提取器中，获取该第一图像的特征向量，再将该第一图像的特征向量输入到长短期记忆网络（Long Short-Term Memory，LSTM）中，由LSTM根据接收到特征向量生成第二标签文本。并将每个第二标签文本对应第一图像进行保存。示例性的，如果某一第一图像为如图2所示的图像，那么，图像描述网络对第一图像的内容进行预测，得到的第二标签文本为：在道路的尽头有浓雾。

针对同一第一图像采用人工标注的方式得到第一标签文本，与图像描述网络生成的第二标签文本进行比较，确定图像描述网络是否可以准确的描述第一图像中的内容，例如第一图像中的天气情况，采用Transformer网络对第一标签文本以及第二标签文本进行编码，通过余弦相似度计算两个标签文本的描述距离，进而判断第二标签文本是否可以很好的表述第一图像中的内容。

为了进一步提高生成模型的训练效果，在上述各实施例的基础上，在本申请实施例中，所述为所述样本图像增加目标噪声强度的噪声，得到目标噪声图像以及所述目标噪声图像的第一特征向量包括：

为所述样本图像增加目标噪声强度的噪声，得到目标噪声图像；

将所述目标噪声图像裁剪成多个图像块，确定所述多个图像块分别对应的第四特征向量；

将所述第四特征向量按照预设的顺序进行拼接得到所述第一特征向量。

由于在确定目标噪声图像的第一特征向量时，是将目标噪声图像的各个像素点排列成一个序列，然后对该序列进行特征提取的，但是该像素点排列而成的序列过长，例如，一个224像素×224像素的常规图像，排列而成的序列长度就为224²=50176，因此，为了进一步提高生成模型的训练效果，在本申请实施例中，可以在确定目标噪声图像以及目标噪声图像的第一特征向量时，先为样本图像增加目标噪声强度的噪声，得到目标噪声图像，并将得到的目标噪声图像裁剪成多个图像块，并确定每个图像块分别对应的第四特征向量。

确定了每个图像块对应的第四特征向量之后，将每个第四特征向量按照预设的顺序进行拼接得到第一特征向量，由于裁剪后的目标噪声图像并不存在顺序的问题，因此，在本申请实施例中对该预设的顺序不进行限定，但是为了保证生成模型的训练效果，每次对图像块对应的第四特征进行拼接时，可以按照相同的顺序进行拼接。

具体的，假设目标噪声图像的大小为224像素*224像素，在对目标噪声图像进行裁剪时可以将目标噪声图像的长和宽分别除以16像素，那么，就得到了196个大小为16像素*16像素的图像块，确定每个图像块对应的第三特征向量，并将每个第三特征向量按照预设的顺序进行拼接，即可得到第一特征向量。在本申请实施例中，在确定每个图像块对应的第三特征向量时，可以将裁剪得到的各图像块排成一个序列，并输入到Vision Transformer网络模型的线性投射层中，由该线性投射层确定每个图像块对应的第三特征向量。

为了进一步提高生成模型的训练效果，在上述各实施例的基础上，在本申请实施例中，所述编码器包括第一线性投射层、多头注意力层和第二线性投射层，所述将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述编码器，得到第三特征向量包括：

将所述第一特征向量和所述第一词嵌入向量输入到所述第一线性投射层，所述第一线性投射层分别对所述第一特征向量和所述第一词嵌入向量进行归一化处理，得到第五特征向量和第六特征向量；

将所述第五特征向量和所述第六特征向量输入到所述多头注意力层，得到第七特征向量，所述第七特征向量是所述多头注意力层基于所述第六特征向量和注意力机制，对所述第五特征向量进行特征提取得到的；

将所述第七特征向量输入到所述第二线性投射层，所述第二线性投射层对所述第七特征向量进行归一化处理，得到所述第二特征向量。

在本申请实施例中，编码器具体包括第一线性投射层、多头注意力层和第二线性投射层，在将第一特征向量和样本文本中包括的词对应的第一词嵌入向量输入到编码器，得到第二特征向量时，可以将第一特征向量和第一词嵌入向量输入到编码器的第一线性投射（layer norm）层，该第一线性投射层分别对第一特征向量和第一词嵌入向量进行归一化处理，得到第四特征向量和第五特征向量。然后将得到的第四特征向量和第五特征向量输入到多头注意力层，该多头注意力层会基于第五特征向量和注意力机制对第四特征向量进行特征提取，从而得到第六特征向量。

得到了第六特征向量之后，再将该第六特征向量输入到第二线性投射层，该第二线性投射层对该第六特征向量进行归一化处理，得到第二特征向量。

为了进一步提高生成模型的训练效果，在上述各实施例的基础上，在本申请实施例中，所述将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述编码器，得到第三特征向量包括：

进行预设迭代轮数次迭代，每轮迭代时将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述编码器，得到第三候选特征向量；

若当前迭代轮数非最末迭代轮数，使用所述第三候选特征向量更新所述第一特征向量；

若当前迭代轮数达到所述预设迭代轮数，将所述第三候选特征向量确定为所述第三特征向量。

由于只对第一特征向量进行一次特征提取，得到第二特征向量，该第二特征向量中所蕴含的样本图像的知识的准确率较低，因此，在本申请实施例中，在确定第二特征向量时，可以进行预设迭代轮数次迭代，在每轮迭代时，可以将第一特征向量和样本文本中包括的词对应的第一词嵌入向量输入到编码器，由编码器对第一特征向量进行一次特征提取，得到第二候选向量。

如果当前迭代轮数非最末迭代轮数，则说明当前第二候选向量的准确率依然较低，需要对该第二候选向量再一次进行特征提取，可以使用该第二候选向量对第一特征向量进行更新，并将更新后的第一特征向量和第一词嵌入向量输入到编码器，由编码器对第一特征向量再一次进行特征提取。

如果当前迭代轮数达到了预设迭代轮数，则说明当前的第二候选向量的准确率较高，可以将该第二候选特征向量确定为所述第二特征向量。

在本申请实施例中，预设迭代轮数次迭代可以是任意整数，例如20次，本领域的技术人员可以根据需要进行配置，在本申请实施例中不进行限制。

下面结合一个具体的实施例对模型训练过程进行说明，相关技术中，通常使用稳定扩散模型(Stable Diffusion Model)生成图像，Stable Diffusion Model的核心是训练一个UNet网络模型，通过将文本嵌入向量以及一个由噪声组成的初始多维数组输入到UNet网络中，最终输出一个经过处理的信息矩阵，再使用自编码解码器根据处理的信息矩阵绘制最终的图像。其中，UNet网络是基于残差网络（Resnet）的一种编解码器结构，基于卷积神经网络具有较好的权重共享和局部相关性，这在较少的数据上能表现的很好，当存在较大的数据量时，UNet网络的性能会达到一个瓶颈，而ViT（Vision Transformer）模型结构在大数据集上性能往往优于卷积神经网络。因此，在本申请实施例中，基于Vision Transformer结构对稳定扩散模型的网络进行优化，提高网络的性能。图4为本申请实施例提供的模型训练过程示意图，如图4所示，将得到的目标噪声图像裁剪成多个图像块，将该多个图像块排列成一个序列输入到ViT模型的线性投射层中，得到该线性投射层输出的每个图像块对应的第三特征向量，将该第三特征向量按照预设的顺序进行拼接得到第一特征向量。并将该第一特征向量和对应的样本文本中包括的词对应第一词嵌入向量一同输入到Transformer编码器中，得到Transformer编码器输出的第二特征向量，其中第一词嵌入向量是基于CLIP词编码模型确定的。得到了第二特征向量之后，将该第二特征向量输入到全连接层中，得到该全连接层输出的预测噪声强度。

需要说明的是，由于在进行模型训练时，所接收到样本图像的尺寸较大，因此，在本申请实施例中，对于接收到的样本图像可以使用预先训练完成的自编码器，将该全尺寸的样本图像编码为低维潜在数据，即对该样本图像进行数据压缩，然后再进行预测噪声的确定，在使用预测噪声图像对进行了数据压缩的目标噪声图像进行了降噪处理之后，可以在使用训练完成的图像解码器将低维潜在数据解码回正常尺寸的图像，从而得到生成图像。需要说明的是，如何通过编码器和解码器对图像数据进行处理为现有技术，在本申请实施例中不再赘述。

为了确定训练后的生成模型是否合格，在上述各实施例的基础上，在本申请实施例中，所述方法还包括：

根据所述生成图像和所述样本图像，确定弗雷歇距离FID；

根据所述FID和预设FID阈值，确定训练后的生成模型是否合格。

为了确定所训练的生成模型是否合格，在本申请实施例中，可以通过确定生成模型所输出的生成图像的质量的方式，间接确定训练后的生成模型是否合格。在得到了生成模型输出的生成图像之后，根据该生成图像和对应的样本图像，确定弗雷歇距离（Fréchetdistance，FID）。若该FID大于预设FID阈值，则说明该生成图像与对应的样本图像越相似，可以确定训练后的生成模型合格，否则，则确定训练后的生成模型不合格。

需要说明的是，确定FID的过程为现有技术，在本申请对此不再赘述。

为了进一步确定训练后的生成模型是否合格，在上述各实施例的基础上，在本申请实施例中，所述方法还包括：

确定所述生成图像的初始得分IS；

根据所述IS和预设IS阈值，确定训练后的生成模型是否合格。

在得到了生成模型输出的生成图像之后，在本申请实施例中，还可以确定该生成图像的初始得分（(Inception Score，IS），若该IS大于预设IS阈值，则可以确定训练后的生成模型合格，否则，则确定训练后的生成模型不合格。

需要说明的是，确定IS的过程为现有技术，在本申请对此不再赘述。

根据所述生成图像和对应的样本文本，确定所述生成图像的语义对象准确度SOA；

根据所述SOA和预设SOA阈值，确定训练后的生成模型是否合格。

在得到了生成模型输出的生成图像之后，在本申请实施例中，还可以确定该生成图像的语义对象准确度（SOA），其中，该SOA是一种专门用于评估文本与图像一致性的度量标准，SOA更关注生成图像与对应的样本文本之间的一致性。若该SOA大于预设SOA阈值，则可以确定训练后的生成模型合格，否则，则确定训练后的生成模型不合格。

需要说明的是，确定SOA的过程为现有技术，在本申请对此不再赘述。

保存得到的生成图像，若保存的生成图像的数量达到第三预设数量，在所述第三预设数量的生成图像中随机选取第四预设数量的生成图像作为第一训练图像，并接收输入的所述第一训练图像对应的标签；

将所述第三预设数量的生成图像中除去所述第一训练图像的其他生成图像输出，并接收选择的第一优质图像，以及针对所述第一优质图像输入的标签；

使用所述第一训练图像和对应的标签，对第一其他图像模型进行训练，得到第一目标模型；

使用所述第一优质图像和对应的标签，对所述第一目标模型进行测试，根据对所述第一目标模型进行测试的结果，确定训练后的生成模型是否合格。

为了进一步确定训练后的生成模型是否合格，在本申请实施例中，还可以使用生成模型生成的生成图像训练第一其他图像模型，然后根据对该第一其他图像模型的测试结果，确定该生成模型是否合格。

在本申请实施例中，在生成模型生成了生成图像之后，可以保存得到的生成图像，若保存的生成图像的数量达到第三预设数量，则在该第三预设数量的生成图像中随机选取第四预设数量的生成图像作为第一训练图像，并将该训练图像进行显示，以便于电子设备的使用者输入每个训练图像对应的标签，该标签为人工描述的训练图像的内容。其中，第四预设数量小于第三预设数量。

具体的，假设第三预设数量为100，第四预设数量为60，那么则可以在100张生成图像中随机选取60张生成图像作为第一训练图像，并接收电子设备的使用者输入的该60张生成图像分别对应的标签。

为了确定生成模型是否合格，在得到了训练图像和对应的标签之后，可以使用该第一训练图像和对应的标签，对第一其他图像模型进行训练，得到目标模型，其中，该第一其他图像模型可以是任意图像识别模型，该第一其他图像模型的输入可以是第一训练图像，该第一其他图像模型的输出可以为对第一训练图像的内容进行描述的预测文本，根据该预测文本和对应的第一训练图像对应的标签，可以确定损失值，从而根据该损失值对该第一其他图像模型进行训练，从而得到第一目标模型。需要说明的是，本领域的技术人员可以根据需要选择该第一其他图像模型，本申请实施例对此不进行限制。

在得到了第一目标模型之后，可以使用第一优质图像和该第一优质图像对应的标签，对第一目标模型进行测试，根据对该第一目标模型进行测试的结果，确定训练后的生成模型是否合格。在本申请实施例中，可以将第一目标模型的精确率、召回率以及平均精度（mean Average Precision，MAP）等指标做为第一目标模型的评价指标，本申请实施例中对此不进行限制。

在本申请实施例中，可以将第三预设数量的生成图像中除去第一训练图像的其他生成图像输出，由电子设备的使用者在输出的这些其他生成图像中，选择图像质量较好的其他生成图像作为第一优质图像，并针对每个第一优质图像输入对图像内容进行描述的标签，电子设备在接收到电子设备的使用者选择的优质图像以及针对每个优质图像输入的标签之后，将标签和对应的优质图像进行保存。

由于在对第一目标模型进行测试时，所使用的图像为人工选择的优质图像，那么，如果第一目标模型的测试结果不理想，则说明在对该第一目标模型进行训练时，所使用的第一训练图像的质量不高，进而影响了训练完成的第一目标模型的质量，则可以认为训练后的生成模型不合格。

具体的，可以随机抽取生成模型生成的一定数量的生成图像，从抽取到的该一定数量的生成图像中随机选取60%的生成图像作为第一训练图像，并在可视化页面进行显示，并接收输入的每个第一训练图像对应的标签。获取到了每个第一训练图像对应的标签之后，将其余40%的生成图像在可视化页面进行显示，使电子设备的使用者在该40%的生成图像中选取图像质量较好的图像作为第一优质图像，并接收电子设备的使用者所选择的第一优质图像，以及针对每个第一优质图像输入的标签，作为目标模型的测试图像。使用所选择的第一训练图像和对应的标签，对第一其他图像模型进行训练，从而得到第一目标模型。并使用第一目标模型对电子设备的使用所选择的第一优质图像进行检测，根据检测的结果，确定训练后的初始识别模型是否合格。

保存得到的生成图像，若保存的生成图像的数量达到第五预设数量，使用所述第五预设数量的生成图像，对已验收合格的第一其他合格模型进行测试，根据对所述第一其他合格模型进行测试的结果，确定训练后的生成模型是否合格。

为了进一步确定生成模型是否合格，在生成模型生成了生成图像之后，可以保存得到的生成图像，若保存的生成图像的数量达到第五预设数量，在本申请实施例中，可以使用该第五预设图像的生成图像，对已验收合格的第一其他合格模型进行测试。由于该第一其他合格模型已经被确定了为合格，也就是说该第一其他合格模型的准确率较高，如果使用该第五预设图像的生成图像，对已验收合格的第一其他合格模型进行测试的结果不理想，则说明该第五预设图像的生成图像的质量较差，则说明训练后的生成模型不合格。反之，如果使用该第五预设图像的生成图像，对已验收合格的第一其他合格模型进行测试的结果较好，则说明该第五预设图像的生成图像的质量较好，也就是说明了，训练后的生成模型合格。

下面结合一个具体的实施例对确定生成模型是否合格的过程进行说明，图5为本申请实施例提供的评价过程示意图，如图5所示，在对生成模型进行评价时包括三个维度的评价。

在本申请实施例中，可以获取生成模型在一段时间内生成的N个生成图像，该N个生成图像中的内容均是与天气相关的。

获取到该N个生成图像之后，可以进行第一维度的评价，该第一维度的评价可以是评价该N个生成图像中是否存在多样性，评价该N个生成图像的图像质量，以及评价该N个生成图像是否与对应的样本文本相一致。其中，评价该N个生成图像中是否存在多样性时，可以确定每个生成图像之间的相似度，根据所确定的相似度确定每个生成图像之间的相似程度，若相似程度较低则说明该N个生成图像中存在多样性。评价该N个生成图像的图像质量时，可以确定每个生成图像的FID和IS，根据所确定FID和IS以及对应的阈值，确定每个生成图像的质量。评价该N个生成图像是否与对应的样本文本相一致时，可以确定生成图像与对应的样本文本的SOA。

当对上述三个方面的评价均满足对应的指标要求时，则可以进行第二维度的评价，如果上述三个方面的评价有其中之一不满足指标要求，可以输出人工复判的提示信息，或者将该N个生成图像直接丢弃，继续对训练后的生成模型进行训练。

在本申请实施例中，在进行第二维度的评价时，可以从该N个生成图像中随机选取60%的生成图像作为第一训练图像，使用第一训练图像和对应的标签对第一其他图像模型进行训练，得到第一目标模型。

人工方式在剩余的40%的生成图像中，选取图像质量较好的图像作为第一优质图像，使用该第一优质图像对第一目标模型进行测试，根据对第一目标模型进行测试的结果，确定训练后的生成模型是否合格，若合格，则可以进行第三维度的评价，否则，输出人工复判的提示信息，或者将该N个生成图像直接丢弃，继续对训练后的生成模型进行训练。

在本申请实施例中，在进行第三维度的评价时，可以使用该N个生成图像对已验收合格的第一其他合格模型进行测试，根据对该第一其他合格模型进行测试的结果，确定训练后的生成模型是否合格，若合格，则可以将该N个生成图像进行保存，将该训练后的生成模型标识为合格，否则，输出人工复判的提示信息，或者将该N个生成图像直接丢弃，继续对该训练后的生成模型进行训练。

图6为本申请实施例提供的一种图像生成方法过程示意图，该过程包括以下步骤：

S601：接收待生成图像的提示文本。

本申请实施例提供的图像生成方法应用于电子设备，该电子设备可以是服务器、PC等。

为了提高模型的训练效率，可以使用目标生成模型生成样本集中的样本图像，从而避免人工收集样本图像导致模型训练效率较低的问题。

在生成图像时，在本申请实施例中，可以接收待生成图像的提示文本，其中，该提示文本为电子设备的使用者根据生成图像的需要输入的，例如：生成1000幅在一条具有绿化带的双向主干路的远方具有浓雾的图像。

S602：将所述提示文本输入到目标生成模型中，得到目标生成图像，其中，所述目标生成模型包括输入层、Transformer编码器和全连接层。

接收到待生成图像的提示文本之后，将该提示文本输入到目标生成模型中，使该目标生成模型根据接收到的提示文本生成相应的图像。

在本申请实施例中，该目标生成模型即为训练后的生成模型，该目标生成模型中包括输入层、Transformer编码器和全连接层。

由于在本申请实施例中，在生成图像时，接收待生成图像的提示文本，并将该提示文本输入到目标生成模型中，得到目标生成图像，实现了由电子设备根据需要生成图像，避免了人工收集图像效率较低的问题。

为了提高生成图像的准确率，在上述实施例的基础上，在本申请实施例中，所述将所述提示文本输入到目标生成模型中，得到目标生成图像包括：

将所述提示文本输入到所述目标生成模型中，所述输入层生成随机噪声图像，并确定所述随机噪声图像的第七特征向量；

将所述第七特征向量和所述提示文本中包括的词对应的第二词嵌入向量输入到所述Transformer编码器，得到第八特征向量，所述第八特征向量是所述Transformer编码器基于所述第二词嵌入向量和注意力机制，对所述第七特征向量进行特征提取得到的；

将所述第八特征向量输入到所述全连接层，得到所述全连接层输出的预测噪声强度；根据所述预测噪声强度对所述随机噪声图像进行降噪处理，得到目标生成图像。

在本申请实施例中，在接收到了提示文本之后，将提示文本输入到目标生成模型之后，目标生成模型的输入层将生成随机噪声图像，如何生成随机噪声图像为现有技术，在本申请实施例中不再赘述。

生成了随机噪声图像之后，确定该随机噪声图像第七特征向量，并将第七特征向量和提示文本中包括的词对应的第二词嵌入向量输入到目标生成模型的编码器中，该编码器可以为Transformer编码器，得到第八特征向量，该第八特征向量是编码器基于第二词嵌入向量和注意力机制，对第七特征向量进行特征提取得到的，将第八特征向量输入到目标生成模型的全连接层，得到全连接层输出的预测噪声强度，根据预测噪声强度对随机噪声图像进行降噪处理，得到目标生成图像。

目标生成模型确定目标生成图像的过程与对生成模型进行训练时，得到生成图像的过程类似，由于上述各实施例已经进行了详细的描述，在本申请实施例不再赘述。

在一种可能的实施方式中，所述目标生成模型是基于上述各实施例所述的模型训练方法的步骤训练得到的。由于上述各实施例已经进行了详细的说明，在本申请实施例中不再对目标生成模型的得到过程进行赘述。

下面结合一个具体的实施例对图像生成过程进行说明，图7为本申请实施例提供的图像生成过程示意图，如图7所示，将接收到提示词输入到文本编码器中，其中，该提示词即为提示文本，文本编码为Clip Text模型，该Clip Text模型可以将提示文本转换成数字表示，以捕捉提示文本中的语义信息，将提示词输入到Clip Text模型中，Clip Text模型可以输出每个词的第二词嵌入向量，其中，每个词嵌入向量包含768个维度。

目标生成模型的输入层生成随机噪声图像，并确定随机噪声图像的第七特征向量，将第七特征向量和第二词嵌入向量输入到目标生成模型的Transformer编码器，Transformer编码器经过N轮迭代，其中N为100，得到第八特征向量，将第八特征向量输入到全连接层，得到全连接层输出的预测噪声强度，根据预测噪声强度对经过了数据压缩的随机噪声图像进行降噪处理，并使用训练完成的图像解码器将低维潜在数据解码回正常尺寸的图像，从而得到目标生成图像。

为了确定目标生成图像的质量，在上述各实施例的基础上，在本申请实施例中，所述方法还包括：

保存得到的目标生成图像，若保存的目标生成图像的数量达到第六预设数量，在所述第六预设数量的目标生成图像中随机选取第七预设数量的生成图像作为第二训练图像，并接收输入的所述第二训练图像对应的标签；

将所述第六预设数量的生成图像中除去所述第二训练图像的其他生成图像输出，并接收选择的第二优质图像，以及针对所述第二优质图像输入的标签；

使用所述第二训练图像和对应的标签，对第二其他图像模型进行训练，得到第二目标模型；

使用所述第二优质图像和对应的标签，对所述第二目标模型进行测试，根据对所述第二目标模型进行测试的结果，确定所述第六预设数量的目标生成图像的质量。

为了确定目标生成图像的质量，在本申请实施例中，可以将目标生成模型所生成的目标生成图像进行保存，当保存量第六预设数量的目标生成图像之后，可以在该第六预设数量的目标生成图像中随机选取第七预设数量的生成图像作为第二训练图像，并将所确定的每个第二训练图像在可视化页面进行显示，并针对每个第二训练图像输入的标签。使用每个第二训练图像和对应标签对第二其他图像模型进行训练，得到第二目标模型，其中，第二图像模型的确定方式与第一图像模型的确定方式一样，在本申请实施例中不再赘述。

将第六预设数量的生成图像中去除第二训练图像的其他生成图像在可视化页面进行显示，并接收电子设备的使用者所选择的第二优质图像，以及针对每个第二优质图像输入的标签。并使用该第二优质图像和对应的标签，对第二目标模型进行测试，根据对第二目标模型进行测试的结果，确定第六预设数量的目标生成图像的质量。在本申请实施例中，可以将第二目标模型的精确率、召回率以及平均精度（mean Average Precision，MAP）等指标做为第二目标模型的评价指标，本申请实施例中对此不进行限制。

当对第二目标模型的测试结果满足预设的要求时，则可以确定该第六预设数量的目标生成图像的质量较高，可以基于该目标生成图像进行后续处理，如果该第六预设数量的目标生成图像的质量较低，则可以由人工挑选该第六预设数量的目标生成图像质量较好的图像进行后续处理，将质量较低的目标生成图像删除，或者存储在其他存储路径中，另作他用。

为了进一步确定目标生成图像的质量，在上述各实施例的基础上，在本申请实施例中，所述方法还包括：

保存得到的目标生成图像，若保存的目标生成图像的数量达到第八预设数量，使用所述第八预设数量的目标生成图像，对已验收合格的第二其他合格模型进行测试，根据对所述第二其他合格模型进行测试的结果，确定所述第八预设数量的目标生成图像的质量。

为了进一步确定目标生成图像的质量，在本申请实施例中，可以将目标生成模型所生成的目标生成图像进行保存，当保存量第八预设数量的目标生成图像之后，可以使用该第八预设图像的目标生成图像，对已验收合格的第二其他合格模型进行测试。由于该第二其他合格模型已经被确定了为合格，也就是说该第二其他合格模型的准确率较高，如果使用该第八预设图像的生成图像，对已验收合格的第二其他合格模型进行测试的结果不理想，则说明该第八预设图像的生成图像的质量较差，为了保证基于该第八预设数量的目标生成图像进行后续处理的效果，在本申请实施例中，需要人工在该第八预设数量的目标生成图像中挑选图像质量较好的图像。反之，如果使用该第八预设图像的生成图像，对已验收合格的第二其他合格模型进行测试的结果较好，则说明该第八预设图像的生成图像的质量较好，可以基于该第八预设数量的目标生成图像进行后续处理。

为了提高样本集构建的效率，在上述各实施例的基础上，在本申请实施例中，所述方法还包括：

获取第九预设数量的目标生成图像，以及针对所述第九预设数量的目标生成图像输入的第三标签文本；

将所述第九预设数量的目标生成图像逐一输入到图像描述网络，得到所述图像描述网络输出的所述第九预设数量的目标生成图像分别对应的第四标签文本，所述第四标签文本为所述图像描述网络对对应的目标生成图像的内容进行预测的文本；

分别确定所述第九预设数量的目标生成图像对应的第三标签文本，与对应的第四标签文本之间的第二相似度；根据所述第九预设数量的目标生成图像分别对应的第二相似度，确定目标相似度；

根据所述目标相似度以及预先划分的相似度区间，确定所述目标相似度对应的目标相似度区间，使用所述目标相似度区间对应的目标标注方式，为所述目标生成模型生成的目标生成图像进行标注，得到目标样本集。

由于人工收集图像构成样本集的效率较低，在本申请实施例中，在获取到目标生成模型生成的目标生成图像之后，可以根据生成的目标生成图像构建目标样本集，该目标样本集中包括目标生成图像以及为每个目标生成图像标注的文本。

在本申请实施例中，可以在目标生成模型生成的目标生成图像中随机获取第九预设数量的目标生成图像，并将获取到的该第九预设数量的目标生成图像在可视化页面进行显示，以便于电子设备的使用者针对每个目标生成图像输入对应的第三标签文本，在接收到输入的第三标签文本之后，将每个第三标签文本对应目标生成图像进行保存。

将该第九预设数量的目标生成图像逐一输入到图像描述网络，得到图像描述网络输出的第九预设数量的目标生成图像分别对应的第四标签文本，确定第四标签文本的过程与确定第二标签文本的过程一致，上述各实施例已经进行了详细的说明，在此不再赘述。

确定了第四标签文本之后，分别确定第九预设数量的目标生成图像对应的第三标签文本，与对应的第四标签文本之间的第二相似度；根据第九预设数量的目标生成图像分别对应的第二相似度，确定目标相似度；根据目标相似度以及预先划分的相似度区间，确定目标相似度对应的目标相似度区间。确定目标相似度对应的目标相似度区间，与确定综合相似度对应的目标相似度区间的过程一致，上述各实施例已经进行了详细的说明，在本申请实施例中不再赘述。

确定了目标相似度对应的目标相似度区间之后，使用该目标相似度区间对应的目标标注方式，为目标生成模型生成的其他目标生成图像进行标注，从而得到目标样本集。

需要说明的是，所生成的目标生成图像不仅仅局限于构建样本集对模型进行训练，还可以使用该目标生成图像对算法进行验证，在本申请实施例中对此不进行限制。

本申请通过人工、半人工、非人工的标注方式获取图像文本对，对生成模型训练生成可用的数据，均可在给定时间段内处理待生成的图像，符合可信赖特性中的实时性的特点；并且，本申请在使用时可被用户随时干预，生成的图像用于较好的减轻全人工数据采集的成本和时间负担，并且生成的结果的重视程度以及被采纳的程度，完全可以由用户干预，符合可信赖特性中的可控性的特点。

图8为本申请实施例提供的模型训练装置的结构示意图，如图8所示，该装置包括：

获取模块801，用于获取样本集中的任一图像文本对，所述图像文本对包括样本图像以及对所述样本图像的内容进行描述的样本文本；

训练模块802，用于将所述样本图像输入到所述输入层，为所述样本图像增加目标噪声强度的噪声，得到目标噪声图像以及所述目标噪声图像的第一特征向量；将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述编码器，得到第二特征向量，所述第二特征向量是所述编码器基于所述第一词嵌入向量和注意力机制，对所述第一特征向量进行特征提取得到的；将所述第二特征向量输入到所述全连接层，得到所述全连接层输出的预测噪声强度；根据所述预测噪声强度对所述目标噪声图像进行降噪处理，得到生成图像；根据所述预测噪声强度和所述目标噪声强度确定损失值，根据所述损失值对所述生成模型进行训练，得到目标生成模型。

在一种可能的实施方式中，所述获取模块801，还用于获取预先采集的第一预设数量的第一图像，以及所述第一预设数量的第一图像分别对应的第一标签文本，所述第一标签文本是对对应的第一图像的内容进行描述的文本；将所述第一预设数量的第一图像逐一输入到图像描述网络，得到所述图像描述网络输出的所述第一预设数量的第一图像分别对应的第二标签文本，所述第二标签文本为所述图像描述网络对对应的第一图像的内容进行预测的文本；

确定模块803，用于分别确定所述第一预设数量的第一图像对应的第一标签文本，与对应的第二标签文本之间的第一相似度；根据所述第一预设数量的第一图像分别对应的第一相似度，确定综合相似度；根据所述综合相似度以及预先划分的相似度区间，确定所述综合相似度对应的目标相似度区间；

标注模块804，用于使用所述目标相似度区间对应的目标标注方式，为所述样本集中包括的任一样本图像添加样本文本，得到图像文本对，所述样本集中包括的样本图像的数量大于所述第一预设数量。

在一种可能的实施方式中，所述训练模块802，具体用于为所述样本图像增加目标噪声强度的噪声，得到目标噪声图像；将所述目标噪声图像裁剪成多个图像块，确定所述多个图像块分别对应的第三特征向量；将所述第三特征向量按照预设的顺序进行拼接得到所述第一特征向量。

在一种可能的实施方式中，所述训练模块802，具体用于将所述第一特征向量和所述第一词嵌入向量输入到所述第一线性投射层，所述第一线性投射层分别对所述第一特征向量和所述第一词嵌入向量进行归一化处理，得到第四特征向量和第五特征向量；将所述第四特征向量和所述第五特征向量输入到所述多头注意力层，得到第六特征向量，所述第六特征向量是所述多头注意力层基于所述第五特征向量和注意力机制，对所述第四特征向量进行特征提取得到的；将所述第六特征向量输入到所述第二线性投射层，所述第二线性投射层对所述第六特征向量进行归一化处理，得到所述第二特征向量。

在一种可能的实施方式中，所述训练模块802，具体用于进行预设迭代轮数次迭代，每轮迭代时将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述编码器，得到第二候选特征向量；若当前迭代轮数非最末迭代轮数，使用所述第二候选特征向量更新所述第一特征向量；若当前迭代轮数达到所述预设迭代轮数，将所述第二候选特征向量确定为所述第二特征向量。

在一种可能的实施方式中，所述装置还包括：

确定评估模块805，用于根据所述生成图像和所述样本图像，确定弗雷歇距离FID；根据所述FID和预设FID阈值，确定训练完成的生成模型是否合格。

在一种可能的实施方式中，所述确定评估模块805，还用于确定所述生成图像的初始得分IS；根据所述IS和预设IS阈值，确定训练后的生成模型是否合格。

在一种可能的实施方式中，所述确定评估模块805，还用于保存得到的生成图像，若保存的生成图像的数量达到第三预设数量，在所述第三预设数量的生成图像中随机选取第四预设数量的生成图像作为第一训练图像，并接收输入的所述第一训练图像对应的标签；将所述第三预设数量的生成图像中除去所述第一训练图像的其他生成图像输出，并接收选择的第一优质图像，以及针对所述第一优质图像输入的标签；使用所述第一训练图像和对应的标签，对第一其他图像模型进行训练，得到第一目标模型；使用所述第一优质图像和对应的标签，对所述第一目标模型进行测试，根据对所述第一目标模型进行测试的结果，确定训练后的生成模型是否合格。

在一种可能的实施方式中，所述确定评估模块805，还用于保存得到的生成图像，若保存的生成图像的数量达到第五预设数量，使用所述第五预设数量的生成图像，对已验收合格的第一其他合格模型进行测试，根据对所述第一其他合格模型进行测试的结果，确定训练后的生成模型是否合格。

图9为本申请实施例提供的图像生成装置的结构示意图，如图9所示，该装置包括：

接收模块901，用于接收待生成图像的提示文本；

生成模块902，用于将所述提示文本输入到目标生成模型中，得到目标生成图像，其中，所述目标生成模型包括输入层、Transformer编码器和全连接层。

在一种可能的实施方式中，所述生成模块902，具体用于将所述提示文本输入到所述目标生成模型中，所述输入层生成随机噪声图像，并确定所述随机噪声图像的第七特征向量；将所述第七特征向量和所述提示文本中包括的词对应的第二词嵌入向量输入到所述编码器，得到第八特征向量，所述第八特征向量是所述编码器基于所述第二词嵌入向量和注意力机制，对所述第七特征向量进行特征提取得到的；将所述第八特征向量输入到所述全连接层，得到所述全连接层输出的预测噪声强度；根据所述预测噪声强度对所述随机噪声图像进行降噪处理，得到目标生成图像。

在一种可能的实施方式中，所述装置包括：

训练模块903，用于基于上述任一模型训练方法得到目标生成模型。

在一种可能的实施方式中，所述装置还包括：

保存模块904，用于保存得到的目标生成图像；

确定评估模块905，用于若保存的目标生成图像的数量达到第六预设数量，在所述第六预设数量的目标生成图像中随机选取第七预设数量的生成图像作为第二训练图像，并接收输入的所述第二训练图像对应的标签；将所述第六预设数量的生成图像中除去所述第二训练图像的其他生成图像输出，并接收选择的第二优质图像，以及针对所述第二优质图像输入的标签；使用所述第二训练图像和对应的标签，对第二其他图像模型进行训练，得到第二目标模型；使用所述第二优质图像和对应的标签，对所述第二目标模型进行测试，根据对所述第二目标模型进行测试的结果，确定所述第六预设数量的目标生成图像的质量。

在一种可能的实施方式中，所述保存模块904，还用于保存得到的目标生成图像；

所述确定评估模块905，还用于若保存的目标生成图像的数量达到第八预设数量，使用所述第八预设数量的目标生成图像，对已验收合格的第二其他合格模型进行测试，根据对所述第二其他合格模型进行测试的结果，确定所述第八预设数量的目标生成图像的质量。

在一种可能的实施方式中，所述装置还包括：

构建模块906，用于获取第九预设数量的目标生成图像，以及针对所述第九预设数量的目标生成图像输入的第三标签文本；将所述第九预设数量的目标生成图像逐一输入到图像描述网络，得到所述图像描述网络输出的所述第九预设数量的目标生成图像分别对应的第四标签文本，所述第四标签文本为所述图像描述网络对对应的目标生成图像的内容进行预测的文本；分别确定所述第九预设数量的目标生成图像对应的第三标签文本，与对应的第四标签文本之间的第二相似度；根据所述第九预设数量的目标生成图像分别对应的第二相似度，确定目标相似度；根据所述目标相似度以及预先划分的相似度区间，确定所述目标相似度对应的目标相似度区间，使用所述目标相似度区间对应的目标标注方式，为所述目标生成模型生成的目标生成图像进行标注，得到目标样本集。

图10为本申请实施例提供的一种电子设备结构示意图，在上述各实施例的基础上，本申请还提供了一种电子设备，如图10所示，包括：处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信；

所述存储器1003中存储有计算机程序，当所述程序被所述处理器1001执行时，使得所述处理器1001执行如下步骤：

将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述编码器，得到第二特征向量，所述第二特征向量是所述编码器基于所述第一词嵌入向量和注意力机制，对所述第一特征向量进行特征提取得到的；

所述处理器1001还可以执行如下步骤：

接收待生成图像的提示文本；

处理器1001所执行的步骤与模型训练方法和图像生成方法的步骤相似，由于上述各实施例已经进行了详细的说明，在本申请实施例中不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准（Peripheral ComponentInterconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口1002用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器（RandomAccess Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。上述处理器可以是通用处理器，包括中央处理器、网络处理器（Network Processor，NP）等；还可以是数字指令处理器（Digital Signal Processing，DSP）、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在上述各实施例的基础上，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行如模型训练方法或图像生成方法的步，由于上述各实施例已经进行了详细的说明，在本申请实施例中不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

对于***/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请是参照根据本申请的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种模型训练方法，其特征在于，生成模型包括输入层、Transformer编码器和全连接层，所述方法包括：

将所述第二特征向量输入到所述全连接层，得到所述全连接层输出的预测噪声强度；根据所述预测噪声强度对所述目标噪声图像进行降噪处理，得到生成图像，并根据所述预测噪声强度和所述目标噪声强度确定损失值，根据所述损失值对所述生成模型进行训练，得到目标生成模型；

其中，所述Transformer编码器包括第一线性投射层、多头注意力层和第二线性投射层，所述将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述Transformer编码器，得到第二特征向量包括：

将所述第一特征向量和所述第一词嵌入向量输入到所述第一线性投射层，所述第一线性投射层分别对所述第一特征向量和所述第一词嵌入向量进行归一化处理，得到第四特征向量和第五特征向量；

将所述第四特征向量和所述第五特征向量输入到所述多头注意力层，得到第六特征向量，所述第六特征向量是所述多头注意力层基于所述第五特征向量和注意力机制，对所述第四特征向量进行特征提取得到的；

将所述第六特征向量输入到所述第二线性投射层，所述第二线性投射层对所述第六特征向量进行归一化处理，得到所述第二特征向量。

2.根据权利要求1所述的方法，其特征在于，所述获取样本集中的任一图像文本对之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，相似度区间对应的标注方式至少包括以下一项：

人工标注方式，所述人工标注方式为采用接收到的对样本图像的内容进行描述的样本文本对所述样本图像进行标注；

半人工标注方式，所述半人工标注方式为部分样本图像采用接收到的对样本图像的内容进行描述的样本文本对所述样本图像进行标注，部分样本图像采用图像描述网络对样本图像的内容进行预测得到的样本文本进行标注；

非人工标注方式，所述非人工标注方式为采用所述图像描述网络，逐一对所述样本集中的样本图像的内容进行预测得到的样本文本进行标注。

4.根据权利要求1所述的方法，其特征在于，所述为所述样本图像增加目标噪声强度的噪声，得到目标噪声图像以及所述目标噪声图像的第一特征向量包括：

将所述目标噪声图像裁剪成多个图像块，确定所述多个图像块分别对应的第三特征向量；

将所述第三特征向量按照预设的顺序进行拼接得到所述第一特征向量。

5.根据权利要求1所述的方法，其特征在于，所述将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述Transformer编码器，得到第二特征向量包括：

进行预设迭代轮数次迭代，每轮迭代时将所述第一特征向量和所述样本文本中包括的词对应的第一词嵌入向量输入到所述Transformer编码器，得到第二候选特征向量；

若当前迭代轮数非最末迭代轮数，使用所述第二候选特征向量更新所述第一特征向量；

若当前迭代轮数达到所述预设迭代轮数，将所述第二候选特征向量确定为所述第二特征向量。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种图像生成方法，其特征在于，所述方法包括：

接收待生成图像的提示文本；

将所述提示文本输入到目标生成模型中，得到目标生成图像，其中，所述目标生成模型包括输入层、Transformer编码器和全连接层；

其中，所述目标生成模型是基于如权利要求1-7任一项所述模型训练方法的步骤训练得到的。

9.根据权利要求8所述的方法，其特征在于，所述将所述提示文本输入到目标生成模型中，得到目标生成图像包括：

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

12.根据权利要求8所述的方法，其特征在于，所述方法还包括：

13.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-7任一项所述的模型训练方法的步骤，或如上述权利要求8-12任一项所述的图像生成方法的步骤。