CN117576264B

CN117576264B - 图像生成方法、装置、设备及介质

Info

Publication number: CN117576264B
Application number: CN202410053639.XA
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-03-22
Anticipated expiration: 2044-01-15
Also published as: CN117576264A

Abstract

本申请提供了一种图像生成方法、装置、设备及介质。该方法包括：对样本描述文本进行文本编码，得到样本描述文本的样本文本向量，将基准图像的图像向量作为样本图像向量，在对样本图像向量进行噪声加噪处理，得到样本加噪向量时，对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量，基于样本掩膜图像的样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到样本掩膜融合向量，基于样本掩膜融合向量和样本文本图像融合向量，确定样本区域关注向量，在确定样本区域关注向量对应的待解码样本文本图像向量时，对待解码样本文本图像向量进行向量解码处理，得到样本预测生成图像。本申请可以提升生成图像的预测效果。

Description

图像生成方法、装置、设备及介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像生成方法、装置、设备及介质。

背景技术

文生图模型是指输入文字生成相应图像的模型。现有在训练模型时，是通过样本文本和包含该样本文本所描述的关注对象的样本图像对模型进行训练的。比如，样本文本为“发型风格A”，关注对象为样本图像中的发型样式。这样，在包括“发型风格A”的目标文本输入到训练后的文生图模型时，所得到的生成图像中可以包含“发型风格A”所描述的发型样式。

然而，发明人在实践中发现，样本图像除了包含关注对象以外通常还会包含其他对象（比如关注对象为发型样式，其他对象为除发型样式所在区域以外的图像部分，如人物面部等），此时模型在学习关注对象的同时，也会无差别的学习到其他对象，因此，模型在学习关注对象时很容易被其他对象所干扰，影响所预测生成的关注对象的还原度，容易影响模型训练效果，进而导致模型在推理阶段的生成图像的预测效果低。

发明内容

本申请实施例提供了一种图像生成方法、装置、设备及介质，可以提升生成图像的预测效果。

一方面，本申请实施例提供了一种图像生成方法，方法包括：

获取用于训练初始业务模型的训练样本组以及训练样本组对应的样本生成图像；训练样本组包括样本描述文本和样本掩膜图像；样本描述文本为用于表征样本生成图像中的第一对象的描述文本；样本掩膜图像为在样本生成图像中去除第二对象，且保留第一对象的掩膜图像；第一对象为在样本生成图像中所需要关注的对象；第二对象为在样本生成图像中除第一对象之外的对象；初始业务模型包括关注对象处理组件；

通过初始业务模型对样本描述文本进行文本编码，得到样本描述文本的样本文本向量；

在通过初始业务模型获取到用于进行噪声处理的基准图像时，将基准图像的图像向量作为样本图像向量；

在通过初始业务模型对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量时，通过关注对象处理组件对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量；

在通过关注对象处理组件确定样本掩膜图像的样本掩膜向量时，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量，基于样本掩膜融合向量和样本文本图像融合向量，确定与第一对象的对象区域相关联的样本区域关注向量；

在通过关注对象处理组件确定样本区域关注向量对应的待解码样本文本图像向量时，通过初始业务模型对待解码样本文本图像向量进行向量解码处理，得到待解码样本文本图像向量对应的样本预测生成图像；样本预测生成图像用于与样本生成图像训练初始业务模型。

另一方面，本申请实施例提供了一种图像生成方法，方法包括：

获取用于训练初始业务模型的样本预测生成图像以及训练样本组对应的样本生成图像；训练样本组包括样本描述文本和样本掩膜图像；样本描述文本为用于表征样本生成图像中的第一对象的描述文本；样本掩膜图像为在样本生成图像中去除第二对象，且保留第一对象的掩膜图像；第一对象为在样本生成图像中所需要关注的对象；第二对象为在样本生成图像中除第一对象之外的对象；初始业务模型包括关注对象处理组件和损失计算网络；样本预测生成图像是由初始业务模型对待解码样本文本图像向量进行向量解码处理所得到的；待解码样本文本图像向量是由关注对象处理组件通过与第一对象的对象区域相关联的样本区域关注向量所确定的；样本区域关注向量是由关注对象处理组件基于样本掩膜融合向量和样本文本图像融合向量所确定的；样本掩膜融合向量是由关注对象处理组件在确定样本掩膜图像的样本掩膜向量时，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理所得到的；样本文本图像融合向量是由初始业务模型在对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量时，通过关注对象处理组件对样本加噪向量和样本文本向量进行向量融合处理所得到的；样本图像向量是由初始业务模型在获取到用于进行噪声处理的基准图像时，通过基准图像的图像向量所得到的；样本文本向量是由初始业务模型对样本描述文本进行文本编码所得到的；

通过损失计算网络确定样本预测生成图像和样本生成图像之间的图像像素差值矩阵；

在通过损失计算网络确定样本掩膜向量时，基于样本掩膜向量对图像像素差值矩阵进行掩膜处理，得到与第一对象的对象区域相关联的掩膜像素差值矩阵，基于掩膜像素差值矩阵和图像像素差值矩阵，确定与第一对象的对象区域相关联的区域关注像素差值矩阵；

通过区域关注像素差值矩阵，对初始业务模型进行模型训练，得到目标业务模型；目标业务模型用于生成包含第一对象的目标预测生成图像。

一方面，本申请实施例提供了一种图像生成装置，装置包括：

训练数据获取模块，用于获取用于训练初始业务模型的训练样本组以及训练样本组对应的样本生成图像；训练样本组包括样本描述文本和样本掩膜图像；样本描述文本为用于表征样本生成图像中的第一对象的描述文本；样本掩膜图像为在样本生成图像中去除第二对象，且保留第一对象的掩膜图像；第一对象为在样本生成图像中所需要关注的对象；第二对象为在样本生成图像中除第一对象之外的对象；初始业务模型包括关注对象处理组件；

数据编码模块，用于通过初始业务模型对样本描述文本进行文本编码，得到样本描述文本的样本文本向量；

数据编码模块，还用于在通过初始业务模型获取到用于进行噪声处理的基准图像时，将基准图像的图像向量作为样本图像向量；

向量融合模块，用于通过关注对象处理组件对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量，对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量；

向量处理模块，用于在通过关注对象处理组件确定样本掩膜图像的样本掩膜向量时，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量，基于样本掩膜融合向量和样本文本图像融合向量，确定与第一对象的对象区域相关联的样本区域关注向量；

向量解码模块，用于在通过关注对象处理组件确定样本区域关注向量对应的待解码样本文本图像向量时，通过初始业务模型对待解码样本文本图像向量进行向量解码处理，得到待解码样本文本图像向量对应的样本预测生成图像；样本预测生成图像用于与样本生成图像训练初始业务模型。

另一方面，本申请实施例提供了一种图像生成装置，装置包括：

预测数据获取模块，用于获取用于训练初始业务模型的样本预测生成图像以及训练样本组对应的样本生成图像；训练样本组包括样本描述文本和样本掩膜图像；样本描述文本为用于表征样本生成图像中的第一对象的描述文本；样本掩膜图像为在样本生成图像中去除第二对象，且保留第一对象的掩膜图像；第一对象为在样本生成图像中所需要关注的对象；第二对象为在样本生成图像中除第一对象之外的对象；初始业务模型包括关注对象处理组件和损失计算网络；样本预测生成图像是由初始业务模型对待解码样本文本图像向量进行向量解码处理所得到的；待解码样本文本图像向量是由关注对象处理组件通过与第一对象的对象区域相关联的样本区域关注向量所确定的；样本区域关注向量是由关注对象处理组件基于样本掩膜融合向量和样本文本图像融合向量所确定的；样本掩膜融合向量是由关注对象处理组件在确定样本掩膜图像的样本掩膜向量时，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理所得到的；样本文本图像融合向量是由初始业务模型在对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量时，通过关注对象处理组件对样本加噪向量和样本文本向量进行向量融合处理所得到的；样本图像向量是由初始业务模型在获取到用于进行噪声处理的基准图像时，通过基准图像的图像向量所得到的；样本文本向量是由初始业务模型对样本描述文本进行文本编码所得到的；

差值矩阵确定模块，用于通过损失计算网络确定样本预测生成图像和样本生成图像之间的图像像素差值矩阵；

差值矩阵处理模块，用于在通过损失计算网络确定样本掩膜向量时，基于样本掩膜向量对图像像素差值矩阵进行掩膜处理，得到与第一对象的对象区域相关联的掩膜像素差值矩阵，基于掩膜像素差值矩阵和图像像素差值矩阵，确定与第一对象的对象区域相关联的区域关注像素差值矩阵；

模型训练模块，用于通过区域关注像素差值矩阵，对初始业务模型进行模型训练，得到目标业务模型；目标业务模型用于生成包含第一对象的目标预测生成图像。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器与处理器相连，存储器用于存储计算机程序，处理器用于调用计算机程序，以使得该计算机设备执行本申请实施例中上述任一方面提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序适于由处理器加载并执行，以使得具有处理器的计算机设备执行本申请实施例中上述任一方面提供的方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序由处理器执行时实现本申请实施例中上述任一方面提供的方法。

本申请实施例中，可以获取训练样本组和训练样本组对应的样本生成图像，该训练样本组包括用于表征样本生成图像中的第一对象的描述文本（可以理解，该第一对象即为样本生成图像需要学习和关注的对象），样本生成图像中除第一对象以外的对象为第二对象；样本掩膜图像是在样本生成图像中去除第二对象，且保留第一对象的掩膜图像，即样本掩膜图像可用于标记第一对象的对象区域；因此可以将训练样本组和样本生成图像输入初始业务模型，通过初始业务模型确定样本描述文本的样本文本向量以及基准图像的图像向量（样本图像向量），此时可以通过初始业务模型中的关注对象处理组件对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量，并对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量，进而可以通过关注对象处理组件，基于样本掩膜图像的样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到与第一对象所在的对象区域相关联的样本掩膜融合向量（即该样本掩膜融合向量为第一对象所在的对象区域在样本文本图像融合向量中对应的区域向量），从而可以基于样本掩膜融合向量和样本文本图像融合向量确定与第一对象的对象区域相关联的样本区域关注向量，通过该样本区域关注向量可以使得初始业务模型可以重点关注到第一对象的对象区域上的相关特征信息，这样，在通过样本区域关注向量得到待解码样本文本图像向量时，可以对待解码样本文本图像向量解码得到样本预测生成图像，以用于训练初始业务模型，通过样本掩膜图像可以使得初始业务模型可以重点关注和学习第一对象的对象区域上的相关特征信息，提升初始业务模型对于该第一对象的学习能力，使得初始业务模型可以学习到样本描述文本与第一对象之间的关联关系，减少第二对象的对象区域上的特征信息（即无关特征信息）的影响，同时又可以将无关特征信息作为辅助指导模型训练（也就是可以使得初始业务模型有差别的学习第一对象和第二对象），提升在预测生成第一对象时的还原度以及模型训练效果，进而在推理阶段提升生成图像的预测效果和准确度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构示意图；

图2是本申请实施例提供的一种目标业务模型的训练过程示意图；

图3是本申请实施例提供的另一种目标业务模型的训练过程示意图；

图4是本申请实施例提供的一种图像生成方法的流程示意图；

图5是本申请实施例提供的一种掩膜图像制作的过程示意图；

图6是本申请实施例提供的另一种掩膜图像制作的过程示意图；

图7是本申请实施例提供的一种融合处理的过程示意图；

图8是本申请实施例提供的一种掩膜处理的过程示意图；

图9是本申请实施例提供的一种关注对象处理组件的示意图；

图10是本申请实施例提供的另一种关注对象处理组件的示意图；

图11是本申请实施例提供的又一种关注对象处理组件的示意图；

图12是本申请实施例提供的一种图像生成的过程示意图；

图13是本申请实施例提供的另一种图像生成方法的流程示意图；

图14是本申请实施例提供的一种图像生成的场景示意图；

图15是本申请实施例提供的一种目标业务模型的执行过程示意图；

图16是本申请实施例提供的又一种图像生成方法的流程示意图；

图17是本申请实施例提供的一种训练初始业务模型的过程示意图；

图18是本申请实施例提供的一种图像生成装置的结构示意图；

图19是本申请实施例提供的另一种图像生成装置的结构示意图；

图20是本申请实施例提供的又一种图像生成装置的结构示意图；

图21是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，图1是本申请实施例提供的一种网络架构示意图。如图1所示，该***架构可以包括业务服务器100以及业务终端集群，其中，业务终端集群可以包括一个或多个业务终端（比如为用户终端），这里将不对业务终端集群中的业务终端的数量进行限定。如图1所示，业务终端集群中的多个业务终端具体可以包括：业务终端200a、业务终端200b、…、业务终端200n，其中，业务终端集群之间可以存在通信连接，例如业务终端200a与业务终端200b之间存在通信连接，业务终端200a与业务终端200n之间存在通信连接。同时，业务终端集群中的任一业务终端可以与业务服务器100存在通信连接，以便于业务终端集群中的每个业务终端均可以通过该通信连接与业务服务器100进行数据交互，例如业务终端200a与业务服务器100之间存在通信连接。其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。

应该理解，如图1所示的业务终端集群中的每个业务终端均可以安装有用于图像处理的应用客户端。当应用客户端运行于各业务终端中时，可以分别与上述图1所示的业务服务器100之间进行数据交互。其中，该应用客户端可以为任意类型的客户端，比如可以是社交客户端、图像处理客户端、即时通信客户端（例如，会议客户端）、娱乐客户端（例如，游戏客户端、直播客户端）、多媒体客户端（例如，视频客户端）、资讯类客户端（例如，新闻资讯客户端）、购物客户端、车载客户端、多媒体客户端、应用下载客户端（用于给用户提供各种可下载的应用资源的客户端）等具有显示文字、图像、音频以及视频等数据信息功能的客户端。在此对应用客户端的具体类型不做限定。

例如，此处以应用客户端为图像处理客户端为例，对业务终端200a以及业务服务器100之间的数据交互过程进行阐述。图像处理客户端是指能够即时发送和接收互联网消息、且具有信息搜索功能等的客户端。业务终端200a上的图像处理客户端可以将用户输入的目标描述文本发送给业务服务器，由业务服务器将目标描述文本输入目标业务模型，并将相应得到的目标预测生成图像返回给图像处理客户端。比如，业务终端200a响应于针对目标描述文本的文生图操作，通过图像处理客户端将目标描述文本上传给业务服务器，业务服务器可以通过本申请技术方案确定目标描述文本对应的目标预测生成图像，并将目标预测生成图像返回给业务终端200a。可选地，还可以是由业务终端200a自己进行文生图操作，此时可以由业务终端200a自己通过本申请技术方案训练得到用于文生图的目标业务模型。

其中，可以理解的是，本申请实施例所涉及的计算机设备可以是服务器（例如，图1所示的业务服务器100），也可以是终端（例如，图1所示的业务终端集群中的任意一个业务终端）。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端、飞行器等等，但并不局限于此。本发明实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

可以理解的是，图1只是实例性地表征本申请技术方案的可能存在的网络架构，并不对本申请技术方案的具体架构进行限定，即本申请技术方案还可以提供其他形式的网络架构。

进一步地，请参见图2-图3，图2-图3为本申请实施例提供的一种目标业务模型的训练过程示意图。目标业务模型的训练过程用于表征本申请所提出的图像生成方法。其中，计算机设备可以获取训练样本组21以及训练样本组对应的样本生成图像22，该训练样本组包括样本描述文本23和样本掩膜图像24，样本描述文本为用于表征样本生成图像中的第一对象的描述文本，比如样本生成图像22可以为人物图像，该第一对象可以指人物图像中的发型和衣物部分，描述文本可以是“风格A”，用于关联和描述该图中的这类发型和衣物（如这类发型和衣物可以对应的是样本生成图像22中除了面部以外的信息），因此样本掩膜图像可以为在样本生成图像中去除第二对象，且保留第一对象的掩膜图像（可选地，该样本掩膜图像可以是二值图像，该二值图像中的第一掩膜值用于表示第一对象，第二掩膜值用于表示第二对象，其中，第一掩膜值可以是1、第二掩膜值可以是0；或者，第一掩膜值可以是第一像素值（如为255）、第二掩膜值可以是第二像素值（如为0））。可以理解，第一对象为在样本生成图像中需要关注的对象，第二对象是样本生成图像中除第一对象之外的其余图像部分所对应的对象（如人物面部）。

其中，可以将训练样本组和样本生成图像输入待训练的初始业务模型，通过初始业务模型对样本描述文本进行文本编码，得到样本描述文本的样本文本向量25，并在获取到基准图像时，对基准图像26进行图像编码，得到基准图像的图像向量，以作为样本图像向量27；通过初始业务模型对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量28，通过初始业务模型中的关注对象处理组件对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量29，此时可以在确定样本掩膜图像的样本掩膜向量210时，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到与第一对象的对象区域（即第一对象区域）相关联的样本掩膜融合向量211，即在样本文本图像融合向量中去除第二对象的对象区域（即第二对象区域）所在的区域向量，且保留第一对象区域所在的区域向量；可以基于样本掩膜融合向量和样本文本图像融合向量，确定与第一对象区域相关联的样本区域关注向量212，该样本区域关注向量用于确定待解码样本文本图像向量213，并对待解码样本文本图像向量进行向量解码处理，得到待解码样本文本图像向量对应的样本预测生成图像214，该样本预测生成图像、样本生成图像和样本掩膜图像可用于训练初始业务模型。

比如，如图3所示，可以是通过初始业务模型中的损失计算网络确定样本预测生成图像214和样本生成图像22之间的图像像素差值矩阵215；在确定出样本掩膜图像24的样本掩膜向量210时，基于样本掩膜向量对图像像素差值矩阵进行掩膜处理，得到与第一对象区域相关联的掩膜像素差值矩阵216，基于掩膜像素差值矩阵和图像像素差值矩阵，确定与第一对象区域相关联的区域关注像素差值矩阵217；通过区域关注像素差值矩阵，对初始业务模型进行模型训练，得到目标业务模型。目标业务模型用于生成包含第一对象的目标预测生成图像。比如，通过区域关注像素差值矩阵217确定模型损失值，通过模型损失值训练初始业务模型。

可选的，在一种可能的实施方式中，计算机设备可根据实际的业务需求，执行该图像生成方法以提升生成图像的预测效果。可以理解，本申请技术方案可以应用于任意类型的图像生成场景中，可以让初始业务模型在训练过程中，重点关注到想要学习的对象元素（即样本生成图像中的第一对象），然后能够让初始业务模型快速高效收敛，实际推理阶段可以高还原度的生成用户想要的对象元素，比如用户可以输入目标描述文本，目标业务模型根据该目标描述文本生成相应图像（如用户输入“4岁女孩穿着棉质连衣裙”，则生成的图像中包含“4岁女孩”对应的人物元素，以及该人物元素的衣物元素为“棉质连衣裙”）。所以本方案能够使用在文生图落地场景中进行针对输入的目标描述文本生成相匹配的图像，并对目标描述文本中的指定对象元素的高度还原。比如，本申请技术方案能够在游戏角色和道具制作、个性化写真、设计海报等方面提供重点道具元素的高还原生成能力，为这些落地场景提供高效的图像制作模型。

例如，本方案可以应用到游戏制作（或动漫制作）场景，其中，每个游戏角色人物（或动漫角色人物）都是有专属的道具元素，所以在游戏制作（或动漫制作）过程中需要将各个场景各个角度下每个游戏角色（或动漫角色）的专属道具元素进行百分之百还原。本方案能够在给到少量样本游戏道具图片（动漫人物图片）的情况下，通过训练初始业务模型学习样本游戏道具图片（动漫人物图片）中的专属道具元素，使得所训练得到的目标业务模型可以高度还原每个游戏角色（动漫角色）在不同场景下的专属道具元素（比如通过学习专属道具的正面效果图，使得目标业务模型可以生成专属道具的侧面效果图），进而可以用于高效去制作出各个场景下的游戏角色（动漫角色）建模，提升整体的游戏制作（动漫制作）效率。

又如，本方案还可以应用到写真形象制作场景，其中，在很多写真形象制作的过程中都是会让初始业务模型学习不同类型的写真形象（比如某种发型风格、某种衣服样式等），所有在写真形象制作过程中，需要将各个类型的写真形象进行百分之百还原。本方案能够通过训练初始业务模型学习各个类型的写真形象，使得所训练得到的目标业务模型可以高度还原适配于不同人物的写真形象（比如通过学习写真形象A，使得目标业务模型可以生成写真形象为写真形象A的人物图像），进而可以用于高效去制作出针对不同人物的写真图像，提升图像制作效率。可以理解，在此对本申请技术方案的应用场景不做限定。

相应地，在此对样本生成图像、样本生成图像中的第一对象、第一对象对应的样本描述文本不做限定，根据具体应用场景的不同而不同，可由相关业务人员根据实际应用场景确定。比如，需要在某个应用客户端新增图像生成功能时，可以通过本申请技术方案训练得到适配于该应用客户端的目标业务模型（比如应用客户端为图像处理客户端，当需要新增为用户生成定制化写真形象的图像生成功能时，可以通过不同风格的人物图像来训练初始业务模型，以实现训练得到的目标业务模型可以生成不同风格的写真形象），此时相关业务人员可以是该应用客户端的开发人员。又如，在需要通过图像生成功能制作游戏道具时，可以通过本申请技术方案训练得到适配于游戏制作场景的目标业务模型（比如可以通过一些游戏道具来训练初始业务模型，以实现训练得到的目标业务模型可以生成不同风格的游戏道具），此时相关业务人员可以是游戏设计人员。在此对相关业务人员不做限定。

其中，样本生成图像中的第一对象的确定方式不做限定，可以是直接识别出第一对象以生成样本掩膜图像，也可以是先识别出第二对象，将样本生成图像中除第二对象以外的对象作为第一对象，以生成样本掩膜图像。在此不做限定。

为便于理解，接下来，对本申请实施例的方案可能应用的技术领域中涉及的技术术语进行相关介绍：

一、人工智能：

本申请实施例涉及人工智能技术领域，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在一种可能的实现方式中，本申请实施例提供的图像生成方法可以与人工智能中的机器学习(Machine Learning, ML)技术相结合。ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。计算机设备可以应用ML技术构建并训练初始业务模型以得到用于图像生成的目标业务模型。

需要说明的是，本申请实施例中的计算机设备在获取相关数据时，比如可以是用户输入的目标描述文本时，可以显示提示界面或者弹窗，该提示界面或者弹窗用于提示用户当前正在获取目标描述文本等数据，仅仅在获取到用户对该提示界面或者弹窗发出确认操作后，开始执行数据获取的相关的步骤，否则结束。可以理解的是，在本申请的具体实施方式中，可能涉及到用户数据（例如，目标描述文本等），当本申请以上实施例运用到具体产品或技术中时，需要获得用户的许可或同意，且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。

可以理解，上述场景仅是作为示例，并不构成对于本申请实施例提供的技术方案的应用场景的限定，本申请的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着***架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

进一步的，请参见图4，图4是本申请实施例提供的一种图像生成方法，如图4所示，方法可以由上述提及的计算机设备来执行，比如，如图1中所示的任意一个业务终端或业务服务器，方法具体可以包括以下步骤S101-步骤S106：

S101、获取用于训练初始业务模型的训练样本组以及训练样本组对应的样本生成图像。

其中，一个训练样本组包括一个样本描述文本和一个样本掩膜图像。

其中，样本描述文本为用于表征样本生成图像中的第一对象的描述文本。第一对象为在样本生成图像中所需要关注的对象。在样本生成图像中除第一对象之外的对象为第二对象。也就是说，样本生成图像中，除第一对象的对象区域（第一对象区域）以外的区域为第二对象区域，第二对象区域上的图像部分为第二对象。可以理解，初始业务模型用于学习第一对象的特征信息以及样本描述文本与第一对象之间的关联关系。此时，第二对象可以理解为是无需关注的无关对象。

其中，样本掩膜图像为在样本生成图像中去除第二对象，且保留第一对象的掩膜图像。也就是说，样本掩膜图像用于标记样本生成图像中的第一对象。

其中，为了便于理解，以本申请技术方案应用在写真形象的生成场景中。样本生成图像可以是人物图像，第一对象可以是人物图像中的发型和衣物，第二对象可以是人物图像中除了发型和衣物以外的图像部分（如面部部分）。此时，样本掩膜图像可用于标记人物图像中的发型和衣物。也就是说，在写真形象的生成场景中，是想实现对于这种风格的衣物以及发型上的还原生成，所以重点关注的对象元素为人物图像中的发型和衣物风格，相对来说，人物图像中的面部特征是属于模型训练过程中的干扰，尤其是其面部特征的长相很容易影响到推理阶段实际生成图像中的人物面部的预测效果，所以需要在训练阶段提升针对发型和衣物风格（第一对象）的学习效果，同时降低面部特征（第二对象）对最终模型的学习效果的影响。此时，则需要获取针对第一对象的样本掩膜图像。

其中，训练样本组的数据准备中包括在获取到一个样本生成图像时获取该样本生成图像中的第一对象的样本掩膜图像（object mask），该样本掩膜图像的获取方式可以是通过人工制作（抠图）的方式进行获取，也可以是通过模型制作（对象分割模型进行识别）得到。

其中，通过人工抠图的方式可以是：首先是通过使用人工的方法来对第一对象（即关注元素对象）进行掩膜图像（mask图像）制作，比如可以使用专门的抠图工具来对样本生成图像进行处理。比如可以针对于人物图像中的面部进行抠图，然后剔除掉面部的图像区域来生成最终的样本掩膜图像。这样可以将人物图像中的面部进行扣除，然后对整张图像的透明通道进行处理，生成一个仅包含两个像素值的掩膜图像（即此时的掩膜图像是二值图像，比如二值图像中包括第一像素值和第二像素值，其中第一像素值用于标记面部，即第二对象，第二像素值用于标记需要学习的发型和衣物，即第一对象）。

其中，样本掩膜图像指的是通过设定一个与样本生成图像同样大小的像素矩阵，然后根据提前检测或者标注好的第一对象的位置坐标，来对想需要重点学习的第一对象的位置进行做掩膜设置以得到样本掩膜图像，比如，在像素值表现上是第一对象所在区域的像素值为第一像素值（第一掩膜值）。其余部分（第二对象所在区域）的像素值为第二像素值（第二掩膜值）。

例如，经过面部区域扣取之后，面部区域的透明通道像素值为0，面部区域以外的透明通道像素值为255，并将透明通道之外的像素通道进行剔除，即使用透明通道来替换原有的颜色通道，最终生成的二值图像就是面部区域的像素值为第二像素值（如0像素值），其余部分的像素值为第一像素值（如255像素值），其中第一像素值（255像素值）是在训练过程中需要让模型重点关注的对象元素。

例如，如图5所示，图5是本申请实施例提供的一种掩膜图像制作的过程示意图；其中，可以通过抠图工具在样本生成图像4a上进行面部标记，得到面部标记结果4b，面部标记结果包括针对样本生成图像上的面部区域的面部标记点，抠图工具可以通过面部标记点对样本生成图像进行抠图，以剔除样本生成图像中所标记的面部区域，以得到面部剔除图像4c，该面部剔除图像为去除面部但保留发型和衣物部分后的图像，进而可以得到用于标记发型和衣物的二值图像4d，该二值图像可以包括两个像素值，一个是第一像素值，一个是第二像素值，该第一像素值可用于标记发型和衣物，第二像素值可用于标记样本生成图像中除发型和衣物以外的图像部分（即此处通过抠图工具所标记的面部），该二值图像4d可以作为样本生成图像4a的样本掩膜图像。

其中，样本掩膜图像还可以通过对象分割模型进行识别。比如具体可以是：将样本生成图像输入对象分割模型，通过对象分割模型提取样本生成图像的图像空间特征和图像语义特征；通过对象分割模型对图像空间特征和图像语义特征进行特征融合处理，得到空间语义融合特征；通过对象分割模型，对空间语义融合特征进行特征计算，得到样本生成图像中的每个图像点位对应的对象标签；对象标签包括第一对象标签和第二对象标签；第一对象标签用于指示第一对象在样本生成图像中所对应的图像点位；第二对象标签用于指示第二对象在样本生成图像中所对应的图像点位；基于第一对象标签所指示的图像点位和第二对象标签所指示的图像点位确定样本掩膜图像。即第一对象标签用于指示第一对象，第二对象标签用于指示第二对象。比如，可以通过第一对象标签对应的图像点位和第二对象标签对应的图像点位配置进行做掩膜设置以得到样本掩膜图像，比如，在数值表现上是，第一对象标签所指示的图像点位（即第一对象所在区域）对应的数值为第一数值（即第一掩膜值，如为1）。其余部分（也就是第二对象标签所指示的图像点位，即第二对象所在区域）对应的数值为第二数值（即第二掩膜值，如为0）。

例如，以对象分割模型是人物面部对象分割模型（具体可以是bisenet网络，一种语义分割模型）为例，如图6所示，图6是本申请实施例提供的一种掩膜图像制作的过程示意图。其中，图6所示的对象分割模型包括是第一特征提取组件61a（空间路径（Spatial Path，SP）），第二特征提取组件61b（上下文路径（Context Path，CP））以及特征融合组件61c、尺寸还原组件61d。样本生成图像62a可以输入对象分割模型，得到样本生成图像中的面部分割结果62b，通过面部分割结果可以构建样本掩膜图像62c。

其中，对于第一特征提取组件，在人物面部对象分割模型中，可用于提取样本生成图像的图像空间特征63a，该第一特征提取组件中保留了原输入图像的空间尺度，丰富编码空间信息。其中，第一特征提取组件中包含了3层结构，每层结构都是一个卷积层+批规范化层（batch norm）+激活函数层（relu）。每个卷积层中的卷积步长可以相同也可以不同，比如可以均为2，这样计算出来的空间特征的尺寸是原输入的样本生成图像的尺寸的1/8，从而保留了丰富的空间细节。其中，卷积层是卷积神经网络（Convolutional Neural Network,CNN）， CNN是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。

其中，对于第二特征提取组件，在人物面部对象分割模型中，可用于提取样本生成图像的图像语义特征63b，可以充分利用轻量级模型与全局平均池化层以提供大感受野，具体可以借助全局平均池化层捕获样本生成图像的全局语义信息并计算注意力向量以指导特征学习。其中，第二特征提取组件中包括下采样特征层（可用于多次下采样，比如可以包括下采样特征层1-4，如下采样特征层1用于1/4下采样、下采样特征层2用于1/8下采样、下采样特征层3用于1/16下采样、下采样特征层4用于1/32下采样）、注意力细化层（具体可由全局池化层、卷积层、批规范化层和激活函数层、向量相乘层构成）。

其中，特征融合组件用于对第一特征提取组件和第二特征提取组件的特征输出进行最终的高级特征融合，得到空间语义融合特征。在特征表示的层面上，两路网络的特征并不相同，因此不能简单地加权这些特征。因为第一特征提取组件的输出包含了大量的空间信息，尤其是针对于细节信息。第二特征提取组件中编码了语义信息，可以理解为第一特征提取组件的输出特征为低层次的，而第二特征提取组件的输出特征为高层次，通过融合高低两个层次的输出特征来进行更为精准的特征信息提取，从而可以根据空间分辨率和感受野综合实现对象分割。计算完的融合特征后输入到激活函数中进行对于分割的判断，其具体判断是在空间语义融合特征中的每个向量点（即图像点位）进行计算的，得到对象分割结果63c，该对象分割结果记录了每个向量点的预测标签，该预测标签即为上述对象分割标签。其中，特征融合组件可以包括特征拼接层（用于拼接图像空间特征和图像语义特征）、全局池化层、卷积层、批规范化层、激活函数层、向量相乘层和向量求和层。

可以理解，经过计算后能够明确到样本生成图像中不同对象之间的分界线以及不同对象所在的区域，然后经过尺寸还原组件中的上采样层（upsample）后还原得到原输入图片尺寸的对象分割结果，即最终得到的对象分割结果中记录了样本生成图像中的每个图像点位对应的对象标签，进而能够得到原样本生成图像中所需要的分割区域，比如需要分割的面部区域，由此提取出第一对象和第二对象。因此，可以经过对象分割模型的计算得到样本生成图像的面部分割结果，并根据面部分割结果从而生成所需要的样本掩膜图像（比如根据每个图像点位对应的对象标签将每个图像点位进行二值化处理，并将得到的二值化图像作为样本掩膜图像，如第一对象标签对应的图像点位可以标记为第一掩膜值（如为第一数值1），第二对象标签对应的图像点位可以标记为第二掩膜值（如为第二数值0），即此时第一掩膜值可用于标记样本生成图像中的第一对象），以用于与样本生成图像和样本描述文本进行融入object mask机制的初始业务模型的训练。

其中，初始业务模型可以包括关注对象处理组件。该关注对象处理组件可以由UNet网络（一种语义分割网络）构成。初始业务模型的关注对象处理组件引入了多模态向量融合机制，即包括向量融合层，比如具体可以是交叉注意力层（cross-attention）。通过该交叉注意力层可以实现样加噪向量和样本文本向量的融合，以实现图文的多模态训练，进而实现条件图片生成任务。在本申请技术方案中，通过在向量融合层引入样本掩膜图像，可以使得在对样加噪向量和样本文本向量进行融合，得到多模态图文向量时，重点突出第一对象所在区域的多模态特征信息（即提升第一对象所在区域的多模态特征信息的权重），且进一步，可以降低第二对象所在区域的多模态特征信息的权重，从而可以有差别的学习第一对象和第二对象，提升模型训练效果。

S102、通过初始业务模型对样本描述文本进行文本编码，得到样本描述文本的样本文本向量。

其中，初始业务模型可以包括文本编码组件（Text encoder），文本编码组件可用于将输入的样本描述文本转换至文本向量嵌入空间，比如可以是一个简单的基于transformer（一种神经网络模型）的编码器，它将样本描述文本映射到文本向量嵌入空间得到潜在文本嵌入向量。可以理解，该样本描述文本作为第一对象的文本提示。

可以理解，可以将样本描述文本输入初始业务模型中的文本编码组件，该文本编码组件用于对样本描述文本进行文本分词处理，并对样本描述文本的每个文本分词进行文本编码，得到每个文本分词的文本分词向量，将样本描述文本的文本分词的文本分词向量作为样本描述文本的样本文本向量。

例如，样本描述文本为“dits style”，文本分词为“dits”和“style”，对样本描述文本进行文本编码，所得到的样本文本向量包括文本分词为“dits”的文本分词向量（样本文本向量）和文本分词为“style”的文本分词向量（样本文本向量）。

S103、在通过初始业务模型获取到用于进行噪声处理的基准图像时，将基准图像的图像向量作为样本图像向量。

其中，初始业务模型可以包括图像编码组件，图像编码组件可用于将基准图像转换至图像向量嵌入空间，比如可以是变分自编码器(VAE，Variational AutoEncoder)的编码器，它将基准图像映射到图像向量嵌入空间得到潜在图像嵌入向量，以作为样本图像向量。

相应的，初始业务模型还可以包括与图像编码组件相对的图像解码组件（又可称为图文解码组件）。图像编码组件将基准图像转换成低维的潜在表示形式，该表示形式作为后续网络输入。图文解码组件则做相反的事情，它将把潜在的表示形式转换回预测图像，即进行解码。

其中，可以预先需要训练好一个自编码模型（AutoEncoder，包括一个编码组件和一个解码组件）。这样就可以利用训练好的编码组件对图像进行压缩编码，以将压缩编码结果在潜在表示空间上做前向扩散和反向扩散操作，最后再通过解码组件恢复到原始图像空间即可得到预测生成图像。此处将这个过程称之为感知压缩（Perceptual Compression）。即将高维图像压缩到低维特征，然后在低维特征空间上进行相关操作，再反向解码至高维图像。

也就是说，可以利用图像编码组件获得输入到正向扩散过程中的基准图像的潜表示(latent)，即样本图像向量。而在推理过程中，图文解码组件将最终得到的潜信号转换回预测生成图像。

可以理解，可以在获取到用于进行噪声处理的基准图像时，将基准图像输入初始业务模型中的图像编码组件，该图像编码组件用于对基准图像进行图像编码，得到基准图像的图像向量，作为样本图像向量。

其中，基准图像可以是由初始业务模型所初始化生成的初始图像（噪声图像），以用于生成样本预测生成图像。可以理解，文本生成图像的过程即为基准图像在样本描述文本的指导下变成样本生成图像的过程。可以理解，在推理过程中，用户可以输入目标描述文本，在目标业务模型中随机初始化生成的初始图像作为目标基准图像。

进一步可选地，该基准图像可以是预先输入到初始业务模型中的样本指导图像对应的加噪图像。也就是说，此时可以理解为是图生图过程，即输入文本和图像A，在文本的基础上图像A变为图像B。可以理解，在推理过程中，用户可以输入目标描述文本和目标指导图像，该目标指导图像在目标业务模型中，进行噪声加噪处理，得到目标基准图像。

S104、在通过初始业务模型对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量时，通过关注对象处理组件对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量。

其中，关注对象处理组件可以有一个或多个，此处以两个为例（比如为第一关注对象处理组件和第二关注对象处理组件），当关注对象处理组件有三个以上时，处理过程与两个关注对象处理组件的处理过程相同。

其中，可以通过初始业务模型中的噪声加噪组件对样本图像向量进行噪声加噪处理。可选地，可以通过噪声加噪组件对样本图像向量进行N次噪声加噪处理（比如加入高斯噪声）。N与关注对象处理组件的数量相同。可以理解，噪声加噪组件和关注对象处理组件可以在一个图文处理组件中。可以理解，此过程为前向扩散过程。

相应地，反向扩散过程即为以噪声加噪处理的对应去噪过程，可以通过多个关注对象处理组件依次进行噪声去噪处理。例如，通过第一关注对象处理组件对样本加噪向量进行噪声去噪处理后，所得到的去噪结果输入到第二关注对象处理组件，由第二关注对象处理组件进行噪声去噪处理，将最后一个关注对象处理组件的输出结果作为待解码样本文本图像向量。也就是说，关注对象处理组件的输出结果可以理解为是样本加噪向量对应的去噪结果。

其中，在关注对象处理组件中的噪声去噪处理包括向量融合处理过程、掩膜处理过程、确定样本区域关注向量的过程以及确定待解码样本文本图像向量过程（即步骤S104-S106中的部分过程）。

可以理解，每个关注对象处理组件的噪声去噪处理过程相同。即每个关注对象处理组件中的处理过程相同。前一个关注对象处理组件输出的噪声加噪结果是后一个关注对象处理组件的输入。后一个关注对象处理组件输出的噪声去噪结果是前一个关注对象处理组件的输入。此时将关注对象处理组件看着一个整体（即以一个关注对象处理组件为例），对关注对象处理组件中的处理过程进行描述。

其中，关注对象处理组件可以包括编码组件和解码组件，编码组件由下采样组件构成，解码组件由上采样组件构成。下采样组件中的下采样层用于下采样处理，上采样组件中的上采样层用于上采样处理。下采样组件包括多个下采样层，此处以两个下采样层为例，当下采样层有三个以上时，处理过程与两个下采样层的处理过程相同。下采样组件中的下采样层的数量与上采样组件中的上采样层的数量相同，且下采样组件中的下采样层的下采样尺度与上采样组件中的上采样层的上采样尺度是相对的，因此，一个下采样层具有一个相对的上采样层。

其中，下采样层和上采样层之间可以具有向量融合层。通过关注对象处理组件对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量可以是，通过关注对象处理组件中的下采样层对样本加噪向量进行下采样处理，得到下采样样本加噪向量，通过向量融合层对下采样样本加噪向量和样本文本向量进行向量融合处理（比如采用注意力机制，如通过下采样样本加噪向量确定注意力参数query、通过样本文本向量确定注意力参数key和value），得到样本文本图像融合向量，此时可以通过样本掩膜图像对样本文本图像融合向量进行掩膜处理，得到样本掩膜融合向量，进而确定样本区域关注向量，该样本区域关注向量可以输入到上采样层进行上采样处理，得到上采样样本加噪向量，该上采样样本加噪向量可以输入到下一个关注对象处理组件，执行前述相同过程。可以理解，最后一个关注对象处理组件的输出结果即为待解码样本文本图像向量。

其中，可选地，也可以是，每两个下采样层之间具有一个下采样向量融合层（即向量融合层，又称交叉注意力层，attention网络），如下采样组件包括第一下采样层、与第一下采样层相关联的第一下采样向量融合层和第二下采样层。第二下采样层是与第一下采样层之间具有第一下采样向量融合层的下采样层。可以理解，当下采样组件还包括第三下采样层时，下采样组件还包括与第二下采样层相关联的第二下采样向量融合层。第三下采样层是与第二下采样层之间具有第二下采样向量融合层的下采样层。

也就是说，关注对象处理组件也包括编码器和解码器两部分，两者都由ResNet（一种残差网络）块组成。编码器压缩以降低分辨率，解码器用于解码以提高分辨率。也就是说，这里的编码器即为下采样组件，这里的解码器即为上采样组件。此外，分别在下采样组件和上采样组件中均采用的注意力机制，以融合样本文本向量。可以理解，下采样组件中的向量融合层在每两个下采样层之间，上采样组件中的向量融合层在每两个上采样层之间。此外，为了防止在下采样时丢失重要信息，通常在下采样组件和上采样组件之间添加了捷径的连接，即下采样组件中的某个下采样层的输出同样也会输入到上采样组件中相应上采样层（可以理解，对于上采样层，输入为前一个上采样向量融合层的输出以及相应下采样层的输出）。

其中，每个下采样层和每个下采样向量融合层执行的过程相同，且，前一个下采样层的输出为下一个下采样向量融合层的输入，以及前一个下采样向量融合层的输出是下一个下采样层的输入。

其中，以第一下采样层为例和第一下采样向量融合层为例，通过关注对象处理组件对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量可以是：通过关注对象处理组件中的对样本加噪向量进行下采样处理，得到样本加噪向量对应的第一样本下采样加噪向量，对第一样本下采样加噪向量和样本文本向量进行融合处理，得到第一样本下采样加噪向量对应的样本文本图像融合向量。即通过第一下采样层对样本加噪向量进行下采样处理，得到样本加噪向量对应的第一样本下采样加噪向量；通过第一下采样向量融合层对第一样本下采样加噪向量和样本文本向量进行融合处理，得到第一样本下采样加噪向量对应的样本文本图像融合向量。也就是说，每个下采样向量融合层的输入包括前一个下采样层的输出以及样本文本向量。

其中，样本文本向量包括样本描述文本的文本分词的文本分词向量。每个文本分词向量分别和第一样本下采样加噪向量进行融合处理，得到每个文本分词向量分别对应的文本图像融合向量。可以将所有文本分词的文本分词向量对应的文本图像融合向量作为样本文本图像融合向量P1（为了便于阐述，称为样本文本图像融合向量nn1），也可以是将所有文本分词的文本分词向量对应的文本图像融合向量的加权求和结果作为样本文本图像融合向量P2（为了便于阐述，称为样本文本图像融合向量nn2）。

其中，样本描述文本中包括用于绑定第一对象的第一样本子文本以及作为通用词的第二样本子文本，即第一样本子文本为第一对象的提示文本。第二样本子文本为样本描述文本中除第一样本子文本以外的文本。比如，样本描述文本为“发型风格A”（或者为“风格A”），第一对象为发型（或者为发型和衣物，即除了人物面部以外的信息），第一对象的提示文本可以是“A”，通用词为“发型风格”。也就是说，样本描述文本携带提示文本标记，该提示文本标记用于指示样本描述文本中的第一样本子文本。

可以理解，例如样本描述文本为“dits style”，第一对象为风格A（指定的发型和衣物），所绑定的文本可以是dits，此处的style则是一个通用词，对于特定风格，需要一个特定文本（token）来表达，而不能绑定到style这种通用词上，会抹除掉style本身其他的含义，可以理解为，会让初始业务模型遗忘其他风格的发型和衣物。如，第一对象为风格B，样本描述文本可以是“kit style”，此时风格B所绑定的文本可以是“kit”。

其中，样本文本向量包括第一样本子文本的第一样本文本向量和第二样本子文本的第二样本文本向量。因此，第一下采样向量融合层中的操作可以是：对第一样本下采样加噪向量和第一样本文本向量进行融合处理，得到第一样本过渡图文融合向量，对第一样本下采样加噪向量和第二样本文本向量进行融合处理，得到第二样本过渡图文融合向量，即通过第一下采样向量融合层对第一样本下采样加噪向量和第一样本文本向量进行融合处理，得到第一样本过渡图文融合向量；并通过第一下采样向量融合层对第一样本下采样加噪向量和第二样本文本向量进行融合处理，得到第二样本过渡图文融合向量；基于第一样本过渡图文融合向量和第二样本过渡图文融合向量，确定第一样本下采样加噪向量对应的样本文本图像融合向量。即将第一样本过渡图文融合向量和第二样本过渡图文融合向量作为样本文本图像融合向量。

其中，可以理解，第一样本子文本可以包括一个或多个文本分词。在第一样本子文本为样本描述文本中的部分文本时，第二样本子文本可以包括一个或多个文本分词。因此，第一样本文本向量包括第一样本子文本中的文本分词的文本分词向量，以及第二样本文本向量包括第二样本子文本中的文本分词的文本分词向量。

其中，可以将第一样本子文本中的文本分词的文本分词向量对应的向量融合结果作为第一样本过渡图文融合向量（为了便于阐述，称为第一样本过渡图文融合向量nn3），并将第二样本子文本中的文本分词的文本分词向量对应的向量融合结果作为第二样本过渡图文融合向量（为了便于阐述，称为第二样本过渡图文融合向量nn4），第一样本过渡图文融合向量nn3和第二样本过渡图文融合向量nn4为样本文本图像融合向量P3。

或者，也可以将第一样本子文本中的文本分词的文本分词向量对应的加权求和结果作为第一样本过渡图文融合向量（为了便于阐述，称为第一样本过渡图文融合向量nn5），以及将第二样本子文本中的文本分词的文本分词向量对应的加权求和结果作为第二样本过渡图文融合向量（为了便于阐述，称为第二样本过渡图文融合向量nn6），第一样本过渡图文融合向量nn5和第二样本过渡图文融合向量nn6为样本文本图像融合向量P4。

其中，上述加权求和所使用的加权系数可以根据实际场景设置。比如由需要在应用客户端中新增图像生成功能的开发人员，在通过本申请技术方案训练适配于该应用客户端的初始业务模型时进行设置。

其中，上述融合处理可以是采取注意力机制对第一样本下采样加噪向量和文本分词向量进行融合处理，注意力机制的输出结果（即多模态图文向量，包括融合了样本描述文本和基准图像的多模态特征信息）即为样本文本图像融合向量。此时，注意力机制中的query（注意力机制中的一种注意力参数）基于第一样本下采样加噪向量确定，注意力机制中的key（注意力机制中的一种注意力参数）和value（注意力机制中的一种注意力参数）基于文本分词向量确定。

例如，如图7所示，图7是本申请实施例提供的一种融合处理的过程示意图；其中，样本描述文本包括文本分词1-4，文本分词1-4的文本分词向量分别和第一样本下采样加噪向量m11进行融合处理，得到文本图像融合向量p1-p4，可以将文本图像融合向量p1-p4作为样本文本图像融合向量P1；或者，对文本图像融合向量p1-p4进行加权求和，得到样本文本图像融合向量P2；或者，样本描述文本包括第一样本子文本和第二样本子文本，第一样本子文本包括文本分词1-2，第二样本子文本包括文本分词3-4；此时可以将文本图像融合向量p1-p2作为第一样本过渡图文融合向量p11，将文本图像融合向量p3-p4作为第二样本过渡图文融合向量p12，并将p11和p12作为样本文本图像融合向量P3；或者，可以对文本图像融合向量p1-p2进行加权求和，得到第一样本过渡图文融合向量p11，对文本图像融合向量p3-p4进行加权求和，得到第二样本过渡图文融合向量p12，并将p11和p12作为样本文本图像融合向量P4。

S105、在通过关注对象处理组件确定样本掩膜图像的样本掩膜向量时，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量，基于样本掩膜融合向量和样本文本图像融合向量，确定与第一对象的对象区域相关联的样本区域关注向量。

其中，当样本掩膜图像为二值图像时，样本掩膜图像包括第一掩膜值和第二掩膜值；第一掩膜值用于标记第一对象；第二掩膜值为样本掩膜图像中除第一掩膜值以外的掩膜值。

其中，对样本文本图像融合向量进行掩膜处理可以是，在关注对象处理组件中的第一下采样向量融合层中，基于样本掩膜图像中的第一掩膜值和第二掩膜值确定样本掩膜向量；基于样本掩膜向量（中的第一掩膜处理值和第二掩膜处理值），对样本文本图像融合向量（比如可以是上述P1或P2）进行掩膜处理，得到与第一对象的对象区域（第一对象区域）相关联的样本掩膜融合向量。可以理解，当样本文本图像融合向量为P2时，样本掩膜融合向量有多个。可以理解，在掩膜处理时，样本掩膜图像会调整到与样本文本图像融合向量同一尺度。

其中，样本掩膜向量包括第一掩膜值（比如为1或者255像素值）对应的第一掩膜处理值和第二掩膜值（比如为0或者0像素值）对应的第二掩膜处理值。也就是说，在样本掩膜图像中，将第一掩膜值调整为第一掩膜处理值，第二掩膜值调整为第二掩膜处理值，将调整后的样本掩膜图像中的第一掩膜处理值和第二掩膜处理值作为样本掩膜向量。比如，第一掩膜处理值为1，第二掩膜值为0。即，第一掩膜处理值用于标记第一对象所在区域，第二掩膜处理值用于标记第二对象所在区域。

可以理解，此时样本掩膜融合向量仅包括第一对象区域在样本文本图像融合向量中的区域向量，样本掩膜融合向量中除第一对象区域以外的区域的向量值均为第二掩膜处理值（即为0）。可以理解，也就是仅获取第一样本子文本相关的样本文本图像融合向量中与第一对象区域相关联的样本掩膜融合向量。即此时样本掩膜融合向量即包括第一对象区域对应的多模态特征信息。

此时，确定与第一对象的对象区域相关联的样本区域关注向量可以是：通过第一下采样向量融合层，对样本掩膜融合向量和样本文本图像融合向量进行加权求和，得到与第一对象的对象区域相关联的样本区域关注向量。可以理解，当样本掩膜融合向量有多个时，每个样本掩膜融合向量与各自对应的样本文本图像融合向量进行加权求和，再对多个样本掩膜融合向量对应的加权求和结果进行加权求和，得到样本区域关注向量。

可以理解，样本掩膜融合向量包括第一对象区域对应的多模态特征信息（第一对象区域对应的区域向量），样本文本图像融合向量包括第一对象区域对应的多模态特征信息和第二对象区域对象对应的多模态特征信息（第二对象区域对应的区域向量）。为了使得初始业务模型可以重点关注第一对象，也就是重点关注第一对象区域对应的多模态特征信息，可以是通过提高样本文本图像融合向量中第一对象区域对应的多模态特征信息的特征权重（向量值权重），和/或降低第二对象区域对应的多模态特征信息的特征权重的方式实现。也就是说，在通过样本掩膜融合向量确定出第一对象区域对应的多模态特征信息后，对样本掩膜融合向量和样本文本图像融合向量进行加权求和可以使得样本区域关注向量中第一对象区域对应的多模态特征信息的特征权重相较于样本文本图像融合向量中第一对象区域对应的多模态特征信息的特征权重提高（也就是在样本区域关注向量中提高第一对象区域对应的区域向量的向量值），和/或，使得样本区域关注向量中第二对象区域对应的多模态特征信息的特征权重相较于样本文本图像融合向量中第二对象区域对应的多模态特征信息的特征权重降低（也就是在样本区域关注向量中降低第二对象区域对应的区域向量的向量值）。也就是说，通过与第一对象区域相关联的样本区域关注向量，相较于样本文本图像融合向量而言，可以更加重点关注第一对象区域对应的多模态特征信息以更好的学习到第一对象，同时也可以降低对第二对象区域对应的多模态特征信息的关注程度。

其中，可以理解，由于第一对象需要绑定第一样本子文本，因此掩膜处理可以是仅对第一样本过渡图文融合向量进行，也就是说初始业务模型重点学习第一样本子文本对应的第一样本过渡图文融合向量上的第一对象区域所在的特征信息。即对样本文本图像融合向量进行掩膜处理可以是，在第一下采样向量融合层，基于样本掩膜图像中的第一掩膜值和第二掩膜值确定样本掩膜向量；基于样本掩膜向量，对第一样本过渡图文融合向量（比如可以是上述nn3或nn4）进行掩膜处理，得到与第一对象的对象区域（第一对象区域）相关联的样本掩膜融合向量。可以理解，当第一样本过渡图文融合向量为nn3时，样本掩膜融合向量有多个。可以理解，在掩膜处理时，样本掩膜图像会调整到与第一样本过渡图文融合向量同一尺度。

其中，第一掩膜处理值可以为1，第二掩膜处理值可以为0。此时样本掩膜融合向量仅包括第一对象区域在第一样本过渡图文融合向量中的区域向量，样本掩膜融合向量中除第一对象区域以外的区域的向量值均为第二掩膜处理值（即为0）。可以理解，也就是仅获取与第一样本子文本相关的第一样本过渡图文融合向量中与第一对象区域相关联的样本掩膜融合向量。即此时样本掩膜融合向量即包括由第一样本子文本所确定的第一对象区域对应的多模态特征信息。

此时，确定与第一对象的对象区域相关联的样本区域关注向量可以是：通过第一下采样向量融合层，对样本掩膜融合向量和第一样本过渡图文融合向量进行加权求和，得到与第一对象的对象区域相关联的过渡样本区域关注向量；通过第一下采样向量融合层，对过渡样本区域关注向量和第二样本过渡图文融合向量进行加权求和，得到与第一对象的对象区域相关联的样本区域关注向量。

可以理解，样本掩膜融合向量包括由第一样本子文本所确定的第一对象区域对应的多模态特征信息（第一对象区域对应的区域向量），第一样本过渡图文融合向量包括由第一样本子文本所确定的第一对象区域对应的多模态特征信息和由第一样本子文本所确定的第二对象区域对象对应的多模态特征信息（第二对象区域对应的区域向量）。为了使得初始业务模型可以重点关注与第一样本子文本所绑定的第一对象，也就是重点关注由第一样本子文本所确定的第一对象区域对应的多模态特征信息，可以是通过提高第一样本过渡图文融合向量中第一对象区域对应的多模态特征信息的特征权重，和/或降低第二对象区域对应的多模态特征信息的特征权重的方式实现。也就是说，在通过样本掩膜融合向量确定出第一对象区域对应的多模态特征信息后，对样本掩膜融合向量和第一样本过渡图文融合向量进行加权求和可以使得过渡样本区域关注向量中第一对象区域对应的多模态特征信息的特征权重相较于第一样本过渡图文融合向量中第一对象区域对应的多模态特征信息的特征权重提高（也就是在第一样本过渡图文融合向量中提高第一对象区域对应的区域向量的向量值），和/或，使得过渡样本区域关注向量中第二对象区域对应的多模态特征信息的特征权重相较于第一样本过渡图文融合向量中第二对象区域对应的多模态特征信息的特征权重降低（也就是在第一样本过渡图文融合向量中降低第二对象区域对应的区域向量的向量值）。比如，对过渡样本区域关注向量和第二样本过渡图文融合向量进行加权求和的加权系数均为0.5，这样可以使得第一对象区域对应的多模态特征信息不变，但是第二对象区域对应的多模态特征信息降低，进而实现第一对象区域对应的多模态特征信息的特征权重的提高。该加权求和的加权系数可以根据实际场景设置。比如由需要在应用客户端中新增图像生成功能的开发人员，在通过本申请技术方案训练适配于该应用客户端的初始业务模型时进行设置。

也就是说，通过与第一对象区域相关联的过渡样本区域关注向量，相较于第一样本过渡图文融合向量而言，可以更加重点关注第一对象区域对应的多模态特征信息以更好的学习到第一对象，同时也可以降低对第二对象区域对应的多模态特征信息的关注程度。这样，可以通过调整的特征权重的过渡样本区域关注向量和第二样本过渡图文融合向量确定最终输出的样本区域关注向量。可以理解，由于第二样本子文本为通用词，不与第一对象绑定，因此可以不对第二样本过渡图文融合向量进行掩膜处理。

可以理解，当样本掩膜融合向量有多个时，每个样本掩膜融合向量与各自对应的第一样本过渡图文融合向量进行加权求和，再对多个样本掩膜融合向量对应的加权求和结果以及第二样本过渡图文融合向量进行加权求和，得到样本区域关注向量。

例如，如图8所示，图8是本申请实施例提供的一种掩膜处理的过程示意图；其中，在样本文本图像融合向量为上述图7所示的P1时，可以通过样本掩膜向量y分别对样本文本图像融合向量P1中的p1-p4进行掩膜处理，得到样本掩膜融合向量k11-k14，并对k11与p1的加权求和结果、k12与p2的加权求和结果、k13与p3的加权求和结果、k14与p4的加权求和结果进行加权求和，得到样本区域关注向量k15；或者，在样本文本图像融合向量为上述图7所示的P2时，可以通过样本掩膜向量对样本文本图像融合向量P2进行掩膜处理，得到样本掩膜融合向量k21，并对k21和P2进行加权求和得到样本区域关注向量k22；或者，在样本文本图像融合向量为上述图7所示的P3时，可以通过样本掩膜向量对P3包括的第一样本过渡图文融合向量p11中的文本图像融合向量p1进行掩膜处理，得到样本掩膜融合向量k31、对第一样本过渡图文融合向量p11中的文本图像融合向量p2进行掩膜处理，得到样本掩膜融合向量k32；并对k31和p1的加权求和结果、k32和p2的加权求和结果、p3、p4进行加权求和，得到样本区域关注向量k33；或者，在样本文本图像融合向量为上述图7所示的P4时，可以通过样本掩膜向量对P4中的p11进行掩膜处理，得到样本掩膜融合向量k41；并对k41和p11的加权求和结果、p12进行加权求和，得到样本区域关注向量k42。

可以理解，此时可以基于第一下采样向量融合层的输出结果（即第一下采样向量融合层输出的样本区域关注向量）更新样本加噪向量，得到第一更新样本加噪向量（即更新后的样本加噪向量），以输入到下一个下采样层。即第一更新样本加噪向量用于输入下采样组件中的第二下采样层；第二下采样层用于通过第一更新样本加噪向量输出第一样本下采样加噪向量对应的第二样本下采样加噪向量。

可以理解，当第二下采样层关联有第二下采样向量融合层时，第二下采样层输出的第二样本下采样加噪向量同样输入到第二下采样向量融合层中，得到第二下采样向量融合层所输出的样本区域关注向量，第二下采样向量融合层中的执行过程与第一下采样向量融合层相同。第二下采样向量融合层所输出的样本区域关注向量可用于更新样本加噪向量，且将更新后的样本加噪向量输入到第三下采样层，以此类推，直至最后一个下采样层。

相应地，上采样组件中的执行原理与下采样组件的执行原理相同。上采样组件可以包括多个上采样层，此处以两个上采样层为例，当上采样层有三个以上时，处理过程与两个上采样层的处理过程相同。每两个上采样层之间具有一个上采样向量融合层，如上采样组件包括第一上采样层、与第一上采样层相关联的第一上采样向量融合层和第二上采样层。第二上采样层是与第一上采样层之间具有第一上采样向量融合层的上采样层。可以理解，当上采样组件还包括第三上采样层时，上采样组件还包括与第二上采样层相关联的第二上采样向量融合层。第三上采样层是与第二上采样层之间具有第二上采样向量融合层的上采样层。

其中，每个上采样层和每个上采样向量融合层执行的过程相同，且，前一个上采样层的输出为上一个下采样向量融合层的输入，以及前一个上采样向量融合层的输出是上一个下采样层的输入。

其中，当第二下采样层为下采样组件中的最后一个下采样层时，可以基于第二样本下采样加噪向量更新样本加噪向量，得到第二更新样本加噪向量（更新后的样本加噪向量）。此时，第二更新样本加噪向量用于输入关注对象处理组件中的上采样组件所包括的第一上采样层。可以理解，第一上采样层和第一上采样向量融合层中的执行过程与第一下采样层和第一下采样向量融合层中的执行过程相同。也就是说，下采样组件中的最后一个下采样层的输出结果用于更新样本加噪向量，更新后的样本加噪向量可输入到上采样组件中的第一上采样层。

可以理解，第一上采样层用于输出第二更新样本加噪向量对应的第一样本上采样加噪向量（其具体描述与第一样本下采样加噪向量的相关描述同理）。第一样本上采样加噪向量用于输入与第一上采样层相关联的第一上采样向量融合层。第一上采样向量融合层用于对第一样本上采样加噪向量和样本文本向量进行向量融合处理，得到第一样本上采样加噪向量对应的样本文本图像融合向量（第一上采样向量融合层中的具体过程与第一下采样向量融合层中的具体过程同理）。第一样本上采样加噪向量对应的样本文本图像融合向量用于更新样本加噪向量，得到第三更新样本加噪向量。其中，第一上采样向量融合层还用于通过第一样本上采样加噪向量对应的样本文本图像融合向量和样本掩膜图像确定第一上采样向量融合层对应的样本区域关注向量（第一上采样向量融合层确定相应样本区域关注向量的具体方式与第一下采样向量融合层确定相应样本区域关注向量的具体方式）。因此可以基于第一上采样向量融合层对应的样本区域关注向量更新样本加噪向量，即此时第三更新样本加噪向量为第一上采样向量融合层对应的样本区域关注向量。

其中，第三更新样本加噪向量用于输入上采样组件包括的第二上采样层。第二上采样层用于通过第三更新样本加噪向量输出第一样本上采样加噪向量对应的第二样本上采样加噪向量（其具体描述与第二样本下采样加噪向量的相关描述同理）。可以理解，每个上采样向量融合层的输入包括前一个上采样层的输出以及样本文本向量。

可以理解，也就是说，可以基于第一上采样向量融合层的输出结果（即第一上采样向量融合层输出的样本区域关注向量）更新样本加噪向量，得到第三更新样本加噪向量（即更新后的样本加噪向量），以输入到下一个上采样层。

可以理解，当第二上采样层关联有第二上采样向量融合层时，第二上采样层输出的第二样本上采样加噪向量同样输入到第二上采样向量融合层中，得到第二上采样向量融合层所输出的样本区域关注向量，第二上采样向量融合层中的执行过程与第一上采样向量融合层相同。第二上采样向量融合层所输出的样本区域关注向量可用于更新样本加噪向量，且将更新后的样本加噪向量输入到第三上采样层，以此类推，直至最后一个上采样层。

可以理解，在上采样组件中，基于第二样本上采样加噪向量，确定样本区域关注向量对应的待解码样本文本图像向量。例如，若第二上采样层为上采样组件的最后一个上采样层，则将第二样本上采样加噪向量作为待解码样本文本图像向量。若第二上采样层不为上采样组件的最后一个上采样层，则将第二样本上采样加噪向量继续输入到后续网络层中，以确定待解码样本文本图像向量。也就是说，上采样组件的最后一个上采样层输出的样本上采样加噪向量即可作为待解码样本文本图像向量。

例如，如图9所示，图9是本申请实施例提供的一种关注对象处理组件的示意图；其中，以关注对象处理组件有两个为例（关注对象处理组件1和关注对象组件2），可以理解，可以将样本加噪向量（样本加噪向量n11）、样本文本向量w和样本掩膜图像输入关注对象处理组件1，在关注对象处理组件1中，对样本加噪向量和样本文本向量进行向量融合处理，得到关注对象处理组件1中的样本文本图像融合向量，基于样本掩膜图像的样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到关注对象处理组件1中的样本掩膜融合向量，基于关注对象处理组件1中的样本掩膜融合向量和关注对象处理组件1中的样本文本图像融合向量，确定关注对象处理组件1中的样本区域关注向量，并通过关注对象处理组件1中的样本区域关注向量确定关注对象处理组件1的输出结果，并基于关注对象处理组件1的输出结果更新样本加噪向量n11，得到更新后的样本加噪向量。可以理解，此时将更新后的样本加噪向量（关注对象处理组件1的输出结果）输入关注对象处理组件2，在关注对象处理组件2中，对更新后的样本加噪向量和样本文本向量进行向量融合处理，得到关注对象处理组件2中的样本文本图像融合向量，基于样本掩膜图像的样本掩膜向量对关注对象处理组件2中的样本文本图像融合向量进行掩膜处理，得到关注对象处理组件2中的样本掩膜融合向量，基于关注对象处理组件2中的样本掩膜融合向量和关注对象处理组件2中的样本文本图像融合向量，确定关注对象处理组件2中的样本区域关注向量，并通过关注对象处理组件2中的样本区域关注向量确定关注对象处理组件2的输出结果，此时可以通过关注对象处理组件2的输出结果确定待解码样本文本图像向量。比如，若关注对象处理组件2为最后一个关注对象处理组件，则将关注对象处理组件2的输出结果作为待解码样本文本图像向量；若关注对象处理组件2不为最后一个关注对象处理组件，则继续将关注对象处理组件2的输出结果输入后续关注对象处理组件。

其中，以关注对象处理组件1为例，对关注对象处理组件中的执行过程进行描述：关注对象处理组件1包括下采样组件80和上采样组件81，下采样组件包括下采样层80a、下采样向量融合层80b、下采样层80c；上采样组件81包括上采样层81a、上采样向量融合层81b、上采样层81c；其中，将样本加噪向量n11输入下采样层80a，由下采样层80a输出样本下采样加噪向量n12，将样本下采样加噪向量n12、样本文本向量w、样本掩膜图像的样本掩膜向量y输入下采样向量融合层80b，在下采样向量融合层80b中，对样本下采样加噪向量n12和样本文本向量w进行融合处理，得到样本下采样加噪向量n12对应的样本文本图像融合向量xp11,基于样本掩膜向量y对样本文本图像融合向量xp11进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量xk11，基于样本掩膜融合向量xk11和样本文本图像融合向量xp11，确定与第一对象的对象区域相关联的样本区域关注向量xk12（确定样本区域关注向量的方式可以参见上述图8示例的相关描述过程）。

此时，可以基于样本区域关注向量xk12更新样本加噪向量n11，得到更新后的样本加噪向量n11，并将更新后的样本加噪向量n11（即样本区域关注向量xk12）输入下采样层80c，输出样本下采样加噪向量n13。

此处以下采样层80c为最后一个下采样层为例，此时基于样本下采样加噪向量n13更新样本加噪向量n11，得到更新后的样本加噪向量n11，并将更新后的样本加噪向量n11（即样本下采样加噪向量n13）输入上采样层81a，由上采样层81a输出样本上采样加噪向量n21，将样本上采样加噪向量n21、样本文本向量w、样本掩膜向量y输入上采样向量融合层81b，在上采样向量融合层81b中，对样本上采样加噪向量n21和样本文本向量w进行融合处理，得到样本上采样加噪向量n21对应的样本文本图像融合向量xp21,基于样本掩膜向量y对样本文本图像融合向量xp21进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量xk21，基于样本掩膜融合向量xk21和样本文本图像融合向量xp21，确定与第一对象的对象区域相关联的样本区域关注向量xk22（确定样本区域关注向量的方式可以参见上述图8示例的相关描述过程）。

此时，可以基于样本区域关注向量xk22更新样本加噪向量n11，得到更新后的样本加噪向量n11，并将更新后的样本加噪向量n11（即样本区域关注向量xk22）输入上采样层81c，输出样本上采样加噪向量n22。

此处以上采样层81c为最后一个上采样层为例，此时上采样层81c输出的样本上采样加噪向量n22作为关注对象处理组件1的输出结果。此时基于样本上采样加噪向量n22更新样本加噪向量n11，得到更新后的样本加噪向量n11，并将更新后的样本加噪向量n11（即样本上采样加噪向量n22）输入关注对象处理组件2。

可以理解，可选地，当上述下采样层80c还关联有下采样向量融合层（比如此处称为下采样向量融合层Y，可以理解，下采样向量融合层Y之后还连接有下采样层Y，下采样层Y的输入为下采样向量融合层Y的输出，且下采样层Y用于对下采样向量融合层Y的输出进行下采样处理）时，样本下采样加噪向量n13、样本文本向量w、样本掩膜向量y输入下采样向量融合层Y，在下采样向量融合层Y中，对样本下采样加噪向量n13和样本文本向量w进行融合处理，得到样本下采样加噪向量n13对应的样本文本图像融合向量（此处称为样本文本图像融合向量Y）,基于样本掩膜向量y对样本文本图像融合向量Y进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量（此处称为样本掩膜融合向量Y），基于样本掩膜融合向量Y和样本文本图像融合向量Y，确定与第一对象的对象区域相关联的样本区域关注向量（此处称为样本区域关注向量Y，也就是通过在下采样向量融合层X中进行掩膜处理等过程后所输出的样本区域关注向量），此时可以基于样本区域关注向量Y更新样本加噪向量n11，得到更新后的样本加噪向量n11以输出至下采样向量融合层Y所连接的下采样层Y。

可以理解，可选地，当上述上采样层81c还关联有上采样向量融合层（比如此处称为上采样向量融合层X，可以理解，上采样向量融合层X之后还连接有上采样层X，上采样层X的输入为上采样向量融合层X的输出，且上采样层X用于对上采样向量融合层X的输出进行上采样处理）时，上述图9中所得到的样本上采样加噪向量n22、样本文本向量w、样本掩膜向量y还可以输入该上采样向量融合层X，在该上采样向量融合层X中，对样本上采样加噪向量n22和样本文本向量w进行融合处理，得到样本上采样加噪向量n22对应的样本文本图像融合向量（此处称为样本文本图像融合向量X）,基于样本掩膜向量y对样本文本图像融合向量X进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量（此处称为样本掩膜融合向量X），基于样本掩膜融合向量X和样本文本图像融合向量X，确定与第一对象的对象区域相关联的样本区域关注向量（此处称为样本区域关注向量X，也就是通过在上采样向量融合层X中进行掩膜处理等过程后所输出的样本区域关注向量），此时可以基于样本文本图像融合向量X更新样本加噪向量n11，得到更新后的样本加噪向量n11以输出至上采样向量融合层X所连接的上采样层X。

可选地，可以理解，由于每个向量融合层均执行提升对第一对象的关注度和降低对第二对象的关注度的步骤，会使得第二对象的关注度（也就是第二对象区域的特征权重）降得过低，就会导致初始业务模型产生对第二对象区域（即非关注区域）的遗忘。因此初始业务模型中的向量融合层可以具有针对掩膜处理的开关机制，每个向量融合层可以以一定概率执行掩膜处理，在一定程度上控制第二对象的关注度的降低程度。比如，一个向量融合层关联有一个掩膜处理开关，每次运行初始业务模型时，该掩膜处理开关以一定概率（如70%）处于第一状态，此时在向量融合层中，可以通过样本掩膜图像进行掩膜处理以得到样本区域关注向量并作为输出。可以理解，在掩膜处理开关处于第二状态时，可以不通过样本掩膜图像进行掩膜处理，直接将样本文本图像融合向量作为向量融合层的输出。

也就是说，在关注对象处理组件关联的掩膜处理开关为第一状态时，通过关注对象处理组件确定样本掩膜图像的样本掩膜向量，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量，并基于样本掩膜融合向量和样本文本图像融合向量，确定与第一对象的对象区域相关联的样本区域关注向量。

也就是说，以第一下采样向量融合层为例，其他向量融合层同理，第一下采样向量融合层可以关联有第一掩膜处理开关（如第二下采样向量融合层关联有第二掩膜处理开关），在通过第一下采样向量融合层，对样本掩膜融合向量和第一样本过渡图文融合向量进行加权求和，得到与第一对象的对象区域相关联的过渡样本区域关注向量之前，可以获取第一掩膜处理开关的开关状态，若第一掩膜处理开关处于第一状态，则通知执行通过第一下采样向量融合层，对样本掩膜融合向量和第一样本过渡图文融合向量进行加权求和，得到与第一对象的对象区域相关联的过渡样本区域关注向量的步骤。也就是将通过过渡样本区域关注向量所确定的样本区域关注向量作为第一下采样向量融合层的输出，以输入至下一个下采样层。又如，若第一掩膜处理开关处于第二状态，则基于样本文本图像融合向量更新样本加噪向量，得到第一更新样本加噪向量。也就是将样本文本图像融合向量作为第一下采样向量融合层的输出，以输入至下一个下采样层。

例如，如图10-图11所示，图10-图11是本申请实施例提供的一种关注对象处理组件的示意图；其中，如图10，以第一下采样向量融合层为例，第一下采样向量融合层可以关联有第一掩膜处理开关，在第一掩膜处理开关处于第一状态时，第一下采样向量融合层中会进行掩膜处理，即第一下采样向量融合层的输出为样本区域关注向量；在第一掩膜处理开关处于第二状态时，第一下采样向量融合层中不会进行掩膜处理，即第一下采样向量融合层的输出为样本文本图像融合向量。

具体的，如图11，以上述图9所示的关注对象处理组件1和关注对象组件2为例，样本加噪向量、样本文本向量和样本掩膜图像作为关注对象处理组件1的输入，关注对象处理组件1的输出、样本文本向量和样本掩膜图像作为关注对象处理组件2的输入，通过关注对象处理组件2的输出确定待解码样本文本图像向量。

其中，以关注对象处理组件1为例，关注对象处理组件1中的下采样向量融合层80b关联有掩膜处理开关1、关注对象处理组件1中的上采样向量融合层81b关联有掩膜处理开关2，若此时掩膜处理开关1-2均处于第一状态，则关注对象处理组件1中的处理过程上述图9示例相同。

其中，若此时掩膜处理开关1处于第一状态，且掩膜处理开关2处于第二状态，则关注对象处理组件1中的上采样向量融合层81b不执行掩膜处理，即在上采样向量融合层81b中，对样本上采样加噪向量n21和样本文本向量w进行融合处理，得到样本上采样加噪向量n21对应的样本文本图像融合向量xp21作为输出，此时，可以基于样本文本图像融合向量xp21更新样本加噪向量n11，得到更新后的样本加噪向量n11，并将更新后的样本加噪向量n11（即样本文本图像融合向量xp21）输入上采样层81c，输出样本上采样加噪向量n22。可以理解，关注对象处理组件1中除上采样向量融合层81b以外的其他部分的执行过程与上述图9示例相同，此处不再赘述。

可以理解，样本区域关注向量相较于样本文本图像融合向量，在样本掩膜融合向量的作用下，提升了第一对象区域的特征权重，以及降低了第二对象区域的特征权重，从而使得初始业务模型可以更加关注第一对象区域的多模态特征信息，同时又可以将第二对象区域的多模态特征信息作为指导，辅助训练初始业务模型，使得初始业务模型可以更好的学习到第一对象，进而提升针对第一对象的预测效果。

S106、在通过关注对象处理组件确定样本区域关注向量对应的待解码样本文本图像向量时，通过初始业务模型对待解码样本文本图像向量进行向量解码处理，得到待解码样本文本图像向量对应的样本预测生成图像。

可以理解，关注对象处理组件的输出结果为待解码样本文本图像向量。当关注对象处理组件有多个时，最后一个关注对象处理组件的输出结果为待解码样本文本图像向量。

可以理解，初始业务模型包括图文解码组件，可以通过图文解码组件对待解码样本文本图像向量进行向量解码处理，得到样本预测生成图像。可以理解，样本预测生成图像用于训练初始业务模型以得到目标业务模型。如具体可以与样本生成图像和样本掩膜图像一起初始业务模型。比如，通过样本预测生成图像、样本生成图像和样本掩膜图像计算得到用于训练初始业务模型的模型损失值，利用模型损失值训练初始业务模型得到目标业务模型。其中，训练初始业务模型的具体过程可以参见下述实施例的相关描述。

例如，如图12所示，图12是本申请实施例提供的一种图像生成的过程的示意图；其中，初始业务模型90包括文本编码组件90a、图像编码组件90b、图像处理组件90c和图文解码组件90d，图像处理组件包括噪声加噪组件90e和关注对象处理组件90f，关注对象处理组件中包括采样层（如上述图9所示的第一下采样层80a、第二下采样层80c、第一上采样层81a和第二上采样层80c）和向量融合层（比如第一下采样层和第二下采样层之间的下采样向量融合层80b、第一上采样层和第二上采样层之间的上采样向量融合层81b等）；样本生成图像91通过人工制作的方式或者对象分割模型识别的方式（比如通过对象分割模型的识别结果进行掩膜图像的制作）得到样本掩膜图像92，通过文本编码组件对样本描述文本93进行文本编码，得到样本描述文本的样本文本向量，初始业务模型在获取到基准图像94（latent）时，通过图像编码组件对基准图像进行图像编码，得到基准图像的图像向量以作为样本图像向量，通过噪声加噪组件对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量，通过关注对象处理组件中的采样层和向量融合层对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量，并在向量融合层中，基于样本掩膜图像的样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量，且基于样本掩膜融合向量和样本文本图像融合向量，确定与第一对象的对象区域相关联的样本区域关注向量，在通过关注对象处理组件中的采样层输出得到待解码样本文本图像向量（具体过程可以参见上述图9示例的相关描述）时，通过图文解码组件对待解码样本文本图像向量进行向量解码处理，得到待解码样本文本图像向量对应的样本预测生成图像95，此时可以在初始业务模型中的损失计算网络90g中，通过样本预测生成图像、样本生成图像和样本掩膜图像确定针对初始业务模型的模型损失值96，并利用模型损失值训练初始业务模型。

也就是说，本方案一共分为两个部分。第一部分是准备样本生成图像和样本掩码图像的准备，其中样本生成图像中需要包含所要重点关注的第一对象，样本掩码图像为第一对象对应的掩码图像。当准备到样本生成图像、样本掩膜图像和样本描述文本后，可以输入到第二部分，结合object mask机制对初始业务模型进行训练。在第二部分中，是构建了一个融入object mask机制的初始业务模型（文生图模型），样本生成图像和样本掩膜图像可以应用到初始业务模型的损失计算网络中，参与模型损失值的计算，同时，样本掩膜图像还会输入到关注对象处理组件中的向量融合层，以通过样本掩膜图像在样本文本图像融合向量中对第一对象区域和第二对象区域的特征权重进行调节，然后使得初始业务模型可以在训练期间重点关注第一对象，以此来提升初始业务模型对第一对象的学习能力以及推理阶段的还原效果。这样，可以使得初始业务模型快速高效的学习到样本生成图像中的第一对象的特性，能够提升初始业务模型的学习和训练效率。

进一步的，请参见图13，图13是本申请实施例提供的一种图像生成方法，如图13所示，方法可以由上述提及的计算机设备来执行，比如，如图1中所示的任意一个业务终端或业务服务器，方法具体可以包括以下步骤S201-步骤S205：

S201、获取目标描述文本。

其中，目标描述文本可以是用户输入的用于生成指定图像的文本。

S202、通过目标业务模型对目标描述文本进行文本编码，得到目标描述文本的目标文本向量。

其中，目标业务模型是通过对初始业务模型进行模型训练得到。初始业务模型的训练过程可以参见上述实施例的相关描述。

其中，初始业务模型包括文本编码组件、图像编码组件、关注对象处理组件和图文解码组件。该图像编码组件和图文解码组件可以是预先训练好的组件。因此对初始业务模型的训练可以是对文本编码组件和关注对象处理组件进行组件参数训练。因此目标业务模型可以包括训练后的文本编码组件和训练后的关注对象处理组件。

其中，可以通过目标业务模型中训练后的文本编码组件对目标描述文本进行文本编码，得到目标描述文本的目标文本向量。

其中，目标业务模型可以是扩散模型（diffusion model），该目标业务模型的关注对象处理组件引入了注意力机制，即包括交叉注意力层（cross-attention）。通过该交叉注意力层可以实现样本加噪向量和样本文本向量的融合，即交叉注意力层可作为向量融合层，以实现图文的多模态训练，进而实现条件图片生成任务。其中，扩散模型的目的是消除对基准图像的连续高斯噪声，即可以将关注对象处理组件视为一系列去噪自编码器。

其中，可以理解，目标业务模型主要由3个部分组成：变分自编码器（VAE）、关注对象处理组件（如UNet）和一个文本编码器。通过变分自编码器将基准图像转换为低维潜在空间得到样本图像向量，同时在低维潜在空间中对样本图像向量添加和去除高斯噪声（即前向扩散和反向扩散），然后将最终的确定的待解码样本文本图像向量进行解码输出到图像像素空间中，得到预测图像。其中，在前向扩散过程中，高斯噪声被迭代地应用于样本图像向量上。反向扩散过程由关注对象处理组件完成，通过从前向扩散的反方向去噪而获得最终的多模态潜在表征。最后，图文解码组件通过将多模态潜在表征转换回像素空间来生成输出预测图像。

可以理解，通过上述实施例可知，在模型训练过程中，对于去噪过程，还使用了样本掩膜图像对向量融合层中通过注意力机制所确定的样本文本图像融合向量（mask信息（attention map，可以理解，一个文本分词的文本分词向量可以对应得到一个attentionmap，也就是说，每个文本分词的文本分词向量分别与采样层所对应输出的采样向量进行注意力处理），可以与基准图像的尺寸相同，也可以不同）进行掩膜处理（也就是通过样本掩膜图像对mask信息进行信息过滤，以保留第一对象区域的多模态特征信息），以调整第一对象区域的多模态特征信息的特征权重，比如将用于绑定第一对象的文本对应的mask信息抽取出来，进行掩膜处理，以调整用于绑定第一对象的文本对应的mask信息中的特征权重。可以理解，掩膜处理结果只保留的第一对象区域的多模态特征信息，因此可以对掩膜处理结果和原来的mask信息进行加权求和，来实现mask信息中的特征权重调整，同时还保留了第二对象区域的降低了特征权重的多模态特征信息。

S203、在通过目标业务模型获取到用于进行噪声处理的目标基准图像时，将目标基准图像的图像向量作为目标图像向量。

其中，目标业务模型可以在获取到用于进行噪声处理的目标基准图像时，可以通过目标业务模型中图像编码组件对目标基准图像进行图像编码，得到目标基准图像的图像向量以作为目标图像向量。

S204、在通过目标业务模型对目标图像向量进行噪声加噪处理，得到目标图像向量的目标加噪向量时，通过训练后的关注对象处理组件对目标加噪向量和目标文本向量进行向量融合处理，得到目标文本图像融合向量。

其中，可以理解，目标业务模型中的具体过程和初始业务模型中的相关过程相同。需要说明的是，在目标业务模型中，不存在掩膜图像，即目标业务模型中不存在掩膜处理。目标业务模型中的向量融合层输出为对目标文本向量和前一个采样层输出的采样加噪向量的文本图像融合向量，且该文本图像融合向量由一个向量（即向量矩阵）构成。

其中，可以通过目标业务模型中的噪声加噪组件对目标图像向量进行噪声加噪处理，得到目标图像向量的目标加噪向量。可以理解，噪声加噪处理即为前向扩散过程。确定待解码目标文本图像向量的过程为反向扩散过程。

其中，通过训练后的关注对象处理组件对目标加噪向量和目标文本向量进行向量融合处理，得到目标文本图像融合向量的具体方式可以参见上述得到样本文本图像融合向量的相关方式。

其中，以一个训练后的关注对象处理组件包括一个下采样组件和一个上采样组件为例。

例如，下采样层和上采样层之间可以具有向量融合层。通过关注对象处理组件对目标加噪向量和目标文本向量进行向量融合处理，得到目标文本图像融合向量可以是，通过下采样层对目标加噪向量进行下采样处理，得到下采样目标加噪向量，通过向量融合层对下采样目标加噪向量和目标文本向量进行向量融合处理，得到目标文本图像融合向量，该目标文本图像融合向量可以输入到上采样层进行上采样处理，得到上采样目标加噪向量，该上采样目标加噪向量可以输入到下一个关注对象处理组件，执行前述相同过程。可以理解，最后一个关注对象处理组件的输出结果即为待解码目标文本图像向量。

又如，下采样组件包括第一下采样层、第一下采样向量融合层和第二下采样层，上采样组件包括第一上采样层、第一上采样向量融合层和第二上采样层。

因此，通过第一下采样层对目标加噪向量进行下采样处理，得到目标加噪向量对应的第一目标下采样加噪向量；通过第一下采样向量融合层对第一目标下采样加噪向量和目标文本向量进行融合处理，得到第一目标下采样加噪向量对应的目标文本图像融合向量。每个下采样向量融合层的输入包括前一个下采样层的输出以及目标文本向量。

可以理解，目标文本向量包括目标描述文本的所有文本分词的文本分词向量。每个文本分词向量分别和第一目标下采样加噪向量进行融合处理，得到每个文本分词向量分别对应的文本图像融合向量，并对所有文本分词向量对应的文本图像融合向量进行加权求和，得到第一下采样向量融合层对应的目标文本图像融合向量。

可以理解，可以基于第一下采样向量融合层对应的目标文本图像融合向量更新目标加噪向量，得到第一更新目标加噪向量，可以将第一更新目标加噪向量（第一下采样向量融合层对应的目标文本图像融合向量）输入第二下采样层，得到第二目标下采样加噪向量，该第二目标下采样加噪向量可以更新目标加噪向量，得到第二更新目标加噪向量，以输出到第二下采样层的后续网络层（如第二下采样向量融合层或者第一上采样层）。

此处以输入到第一上采样层为例，第一上采样层会输出第二更新目标加噪向量（第二目标下采样加噪向量）对应的第一目标上采样加噪向量，此时可以通过第一上采样向量融合层对第一目标上采样加噪向量和目标文本向量进行融合处理，得到第一目标上采样加噪向量对应的目标文本图像融合向量。每个上采样向量融合层的输入包括前一个上采样层的输出以及目标文本向量。

可以理解，可以基于第一上采样向量融合层对应的目标文本图像融合向量更新目标加噪向量，得到第三更新目标加噪向量，可以将第三更新目标加噪向量（第一上采样向量融合层对应的目标文本图像融合向量）输入第二上采样层，得到第二目标上采样加噪向量，该第二目标上采样加噪向量可以更新目标加噪向量，得到第四更新目标加噪向量，以输出到第二上采样层的后续网络层（如第二上采样向量融合层），或者作为训练后的关注对象处理组件的输出。

S205、在通过训练后的关注对象处理组件确定目标文本图像融合向量对应的待解码目标文本图像向量时，通过目标业务模型对待解码目标文本图像向量进行向量解码处理，得到待解码目标文本图像向量对应的目标预测生成图像。

其中，可以理解，训练后的关注对象处理组件中的最后一个上采样层会对前一个上采样向量融合层所输出目标文本图像融合向量进行上采样处理，所得到的目标上采样加噪向量即为待解码目标文本图像向量。

其中，可以通过目标业务模型中的图文解码组件对待解码目标文本图像向量进行向量解码处理，得到待解码目标文本图像向量对应的目标预测生成图像。

其中，可以理解，在目标描述文本包含样本描述文本时，目标预测生成图像包含第一对象。

比如，如图14所示，图14是本申请实施例提供的一种图像生成的场景示意图；其中，目标业务模型是通过样本描述文本14a（如“风格A”）、包含第一对象（如发型和衣物）的样本生成图像14b，和样本生成图像中的第一对象的样本掩膜图像14c对初始业务模型进行训练所得到的，当目标描述文本包括样本描述文本14d时，如为“风格A的男孩”，则生成的目标预测生成图像14e中包含的人物元素为一个男孩，以及适配于该人物元素的发型和衣物，且该发型和衣物为第一对象所指示的发型和衣物。因此，可以理解为在目标描述文本包含样本描述文本时，目标预测生成图像包含与第一对象相似的对象，即目标业务模型可用于生成包括与第一对象相似的对象的图像。

又如，如图15所示，图15是本申请实施例提供的一种目标业务模型的执行过程示意图；其中，在目标业务模型中，通过文本编码组件E2对样本描述文本T进行文本编码，得到样本文本向量W；在获取到基准图像X时，通过图像编码组件E1进行图像编码，得到样本图像向量N0，对样本图像向量N0进行噪声加噪处理（即前向扩散），得到N1，将N1输入到关注对象处理组件U1，输出结果可以理解为是N2，在关注对象处理组件U1中，样本文本向量W输入到关注对象处理组件U1，在关注对象处理组件U1中与N1对应的样本采样加噪向量（如样本下采样加噪向量、样本上采样加噪向量）进行向量融合，即采用注意力机制（QKV机制）；同理，将N2输入到关注对象处理组件U2，输出结果可以理解为是N3，在关注对象处理组件U2中，样本文本向量W输入到关注对象处理组件U2，在关注对象处理组件U2中与N2对应的样本采样加噪向量（如样本下采样加噪向量、样本上采样加噪向量）进行向量融合，以此类推，直至通过t-1个关注对象处理组件，得到第t-1个关注对象处理组件的输出结果Nt，该Nt可以作为待解码样本文本图像向量，通过图文解码组件D对Nt进行解码处理，得到目标预测生成图像X’。

其中，注意力机制又称attention机制，模仿人类注意力而提出的一种解决问题的办法，简单地说就是从大量信息中快速筛选出高价值信息。主要用于解决模型输入复杂特征的时候很难获得最终合理的向量表示问题。

本申请实施例中，可以获取目标描述文本，通过目标业务模型对目标描述文本进行文本编码，得到目标描述文本的目标文本向量，在通过目标业务模型获取到用于进行噪声处理的目标基准图像时，将目标基准图像的图像向量作为目标图像向量，通过训练后的关注对象处理组件对目标图像向量进行噪声加噪处理，得到目标图像向量的目标加噪向量，对目标加噪向量和目标文本向量进行向量融合处理，得到目标文本图像融合向量，在通过训练后的关注对象处理组件确定目标文本图像融合向量对应的待解码目标文本图像向量时，通过目标业务模型对待解码目标文本图像向量进行向量解码处理，得到待解码目标文本图像向量对应的目标预测生成图像。其中，目标业务模型在训练时，通过样本掩膜图像使得在训练过程中可以重点学习所需要关注的第一对象，从而使得目标业务模型有更好的训练效果，提升在预测生成指定的第一对象时的还原度，进而提升生成图像的预测效果和准确度。

进一步的，请参见图16，图16是本申请实施例提供的一种图像生成方法，如图16所示，方法可以由上述提及的计算机设备来执行，比如，如图1中所示的任意一个业务终端或业务服务器，方法具体可以包括以下步骤S301-步骤S304：

S301、获取用于训练初始业务模型的样本预测生成图像以及训练样本组对应的样本生成图像。

其中，通过上述实施例的相关描述可知，训练样本组包括样本描述文本和样本掩膜图像。样本描述文本为用于表征样本生成图像中的第一对象的描述文本。样本掩膜图像为在样本生成图像中去除第二对象，且保留第一对象的掩膜图像。第一对象为在样本生成图像中所需要关注的对象。第二对象为在样本生成图像中除第一对象之外的对象。初始业务模型包括关注对象处理组件和损失计算网络。

其中，样本预测生成图像是由初始业务模型对待解码样本文本图像向量进行向量解码处理所得到的。待解码样本文本图像向量是由关注对象处理组件通过与第一对象的对象区域相关联的样本区域关注向量所确定的。样本区域关注向量是由关注对象处理组件基于样本掩膜融合向量和样本文本图像融合向量所确定的。样本掩膜融合向量是由关注对象处理组件在确定样本掩膜图像的样本掩膜向量时，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理所得到的。样本文本图像融合向量是由关注对象处理组件在对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量时，对样本加噪向量和样本文本向量进行向量融合处理所得到的。样本图像向量是由初始业务模型在获取到用于进行噪声处理的基准图像时，通过基准图像的图像向量所得到的。样本文本向量是由初始业务模型对样本描述文本进行文本编码所得到的。

S302、通过损失计算网络确定样本预测生成图像和样本生成图像之间的图像像素差值矩阵。

其中，可以在损失计算网络中确定样本预测生成图像和样本生成图像之间的像素点对应的像素差值，以构成图像像素差值矩阵。

可以理解，样本预测生成图像会进行尺度变换至与样本生成图像同一尺寸，然后再确定图像像素差值矩阵。图像像素差值矩阵中每个像素差值就代表着样本预测生成图像和样本生成图像在相应像素点上的像素差值。

S303、在通过损失计算网络确定样本掩膜向量时，基于样本掩膜向量对图像像素差值矩阵进行掩膜处理，得到与第一对象的对象区域相关联的掩膜像素差值矩阵，基于掩膜像素差值矩阵和图像像素差值矩阵，确定与第一对象的对象区域相关联的区域关注像素差值矩阵。

其中，样本掩膜图像可以包括第一掩膜值和第二掩膜值；第一掩膜值用于标记第一对象；第二掩膜值为样本掩膜图像中除第一掩膜值以外的掩膜值。

因此，确定与第一对象的对象区域相关联的掩膜像素差值矩阵可以是：在损失计算网络中，基于样本掩膜图像中的第一掩膜值和第二掩膜值确定样本掩膜向量；基于样本掩膜向量，对图像像素差值矩阵进行掩膜处理，得到与第一对象的对象区域（第一对象区域）相关联的掩膜像素差值矩阵。

其中，确定样本掩膜向量的具体方式可以参见上述实施例的相关描述，在此不做赘述。此时掩膜像素差值矩阵仅包括第一对象区域在图像像素差值矩阵中的区域像素差值，掩膜像素差值矩阵中除第一对象区域以外的区域的向量值均为上述第二掩膜处理值。可以理解，也就是仅获取图像像素差值矩阵中与第一对象区域相关联的掩膜像素差值矩阵。

其中，基于掩膜像素差值矩阵和图像像素差值矩阵，确定与第一对象的对象区域相关联的区域关注像素差值矩阵可以是：对掩膜像素差值矩阵和图像像素差值矩阵进行加权求和，得到与第一对象的对象区域相关联的区域关注像素差值矩阵。

其中，可以理解，掩膜像素差值矩阵包括第一对象区域对应的区域像素差值，图像像素差值矩阵包括第一对象区域对应的区域像素差值和第二对象区域对应的区域像素差值，为了实际在训练初始业务模型时，重点通过第一对象区域所确定的模型损失值进行训练，可以是通过提高图像像素差值矩阵中第一对象区域对应的区域像素差值的损失权重（差值权重），和/或降低第二对象区域对应的区域像素差值的损失权重的方式实现。也就是说，在通过图像像素差值矩阵确定出第一对象区域对应的区域像素差值后，对掩膜像素差值矩阵和图像像素差值矩阵进行加权求和可以使得区域关注像素差值矩阵中第一对象区域对应的区域像素差值的损失权重相较于图像像素差值矩阵中第一对象区域对应的区域像素差值的损失权重提高（也就是在区域关注像素差值矩阵中提高第一对象区域对应的区域像素差值的数值），和/或，使得区域关注像素差值矩阵中第二对象区域对应的区域像素差值的损失权重相较于图像像素差值矩阵中第二对象区域对应的区域像素差值的损失权重降低（也就是在区域关注像素差值矩阵中降低第二对象区域对应的区域像素差值的数值）。

也就是说，通过与第一对象区域相关联的区域关注像素差值矩阵，相较于图像像素差值矩阵而言，可以使得模型损失值重点由第一对象区域对应的区域像素差值构成，进而通过该模型损失值训练初始业务模型时，可以调整第一对象和第二对象之间的学习比重，从无差别学习第一对象和第二对象变更为重点学习第一对象，辅助学习第二对象。

比如，对掩膜像素差值矩阵和图像像素差值矩阵进行加权求和的加权系数均为0.5，这样可以使得第一对象区域对应的区域像素差值的数值不变，但是第二对象区域对应的区域像素差值的数值降低，进而实现第一对象区域对应的区域像素差值的损失权重的提高。或者，将掩膜像素差值矩阵的加权系数设置为0.5、图像像素差值矩阵的加权系数设置为0.7，这样可以使得第一对象区域对应的区域像素差值的数值提高，第二对象区域对应的区域像素差值的数值降低，进而实现第一对象区域对应的区域像素差值的损失权重的提高。该加权求和的加权系数可以根据实际场景设置。比如由需要在应用客户端中新增图像生成功能的开发人员，在通过本申请技术方案训练适配于该应用客户端的初始业务模型时进行设置。

也就是说，此处使用了样本掩膜图像对图像像素差值矩阵进行掩膜处理（也就是通过样本掩膜图像对图像像素差值矩阵进行差值过滤，以保留第一对象区域的像素差值），以调整第一对象区域的像素差值的损失权重。可以理解，掩膜处理结果（掩膜像素差值矩阵）只保留的第一对象区域的像素差值，因此可以对掩膜处理结果和原来的图像像素差值矩阵进行加权求和，来实现图像像素差值矩阵中的损失权重调整，同时还保留了第二对象区域的降低了损失权重的像素差值，也就是说样本预测生成图像和样本生成图像在第二对象区域的上的模型损失值也参与模型训练，但损失权重被调低，以降低第二对象的学习关注度，从而能够降低第二对象对第一对象生成的干扰，样本预测生成图像和样本生成图像在第一对象区域的上的模型损失值的损失权重被调高，使得模型训练时可以重点关注第一对象区域上的第一对象，提升模型性能。

S304、通过区域关注像素差值矩阵，对初始业务模型进行模型训练，得到目标业务模型。

其中，可以通过区域关注像素差值矩阵计算模型损失值，并利用模型损失值对初始业务模型进行模型训练，得到目标业务模型。例如，可以通过MSE（均方误差，MeanSquared Error）损失函数计算模型损失值。

其中，初始业务模型还可以包括文本编码组件、图像编码组件，和图文解码组件。可以理解，文本编码组件用于得到样本文本向量；图像编码组件用于得到样本图像向量；图文解码组件用于得到样本预测生成图像。

因此，对初始业务模型进行模型训练，得到目标业务模型可以是对初始业务模型中的所有组件进行训练，也可以是对部分组件进行训练。比如，通过区域关注像素差值矩阵，对文本编码组件和关注对象处理组件进行组件参数训练，得到训练后的文本编码组件和训练后的关注对象处理组件；基于训练后的文本编码组件、图像编码组件、训练后的关注对象处理组件，和图文解码组件确定目标业务模型。此时训练出的目标业务模型可以用于生成包含第一对象的目标预测生成图像。

例如，如图17所示，图17是本申请实施例提供的一种训练初始业务模型的过程示意图；以样本描述文本为“dits style”为例，通过文本编码组件171a所得到的样本文本向量包括“dits”对应的样本文本向量（W1）和“style”对应的样本文本向量（W2），基准图像X通过图像编码组件171b进行图像编码得到样本图像向量N0，对样本图像向量N0进行噪声加噪处理得到样本加噪向量N1，此处以关注对象处理组件171c为1个为例，比如关注对象处理组件包括下采样组件80和上采样组件81，下采样组件包括下采样层80a、下采样向量融合层80b、下采样层80c；上采样组件81包括上采样层80a、上采样向量融合层81b、上采样层81c；根据上述图9示例可知，可以将样本加噪向量输入下采样层80a；下采样层80a的输出、样本文本向量和样本掩码图像作为下采样向量融合层80b的输入；下采样向量融合层80b的输出作为下采样层80c的输入；下采样层80c的输出作为上采样层80a的输入；上采样层80a的输出、样本文本向量和样本掩码图像作为上采样向量融合层81b的输入；上采样向量融合层81b的输出作为上采样层81c的输入；上采样层81c的输出可以作为待解码样本文本图像向量N2，通过图文解码组件171d对待解码样本文本图像向量N2进行解码，得到样本预测生成图像X’。

其中，以下采样向量融合层80b为例，下采样层80a的输出（N11）和样本文本向量（W1）进行融合处理，得到第一样本过渡图文融合向量（W11），下采样层80a的输出（N11）和样本文本向量（W2）进行融合处理，得到第二样本过渡图文融合向量（W12），此时以样本生成图像中的第一对象绑定的是“dits”为例，即抽取“dits”对应的向量融合结果（W11），基于样本掩膜图像S的样本掩膜向量对W11进行掩膜处理，得到与第一对象的对象区域（第一对象区域）相关联的样本掩膜融合向量（W21），该样本掩膜融合向量（W21）中保留了W11中第一对象区域所在的区域向量，而去除了第二对象区域（第二对象的对象区域）所在的区域向量（即为0），此时对W21和W11进行加权求和，得到与第一对象区域相关联的过渡样本区域关注向量（W22），并对过渡样本区域关注向量（W22）和第二样本过渡图文融合向量（W12）进行加权求和，得到与第一对象的对象区域相关联的样本区域关注向量，即下采样向量融合层80b的输出结果（W31）。

其中，在损失计算网络171e中，将样本预测生成图像X’的图像尺寸调整到与样本生成图像Xa相同，并确定样本预测生成图像X’和样本生成图像Xa之间的图像像素差值矩阵K1，基于样本掩膜图像的样本掩膜向量对图像像素差值矩阵K1进行掩膜处理，得到与第一对象区域相关联的掩膜像素差值矩阵K2，该掩膜像素差值矩阵K2中保留了K1中第一对象区域所在的区域差值，而去除了第二对象区域所在的区域差值（即为0），此时对K2和K1进行加权求和，得到与第一对象区域相关联的区域关注像素差值矩阵（K3），可以通过K3确定模型损失值，并训练初始业务模型中的文本编码组件和关注对象处理组件，得到目标业务模型，该目标业务模型可以包括训练后的文本编码组件171a’、图像编码组件、训练后的关注对象处理组件171c’，和图文解码组件。

可以理解，本申请技术方案，创新性的提出了一种基于object mask机制的模型训练方式，可以使得初始业务模型在文生图场景下可以重点关注需要学习的第一对象，从而提升第一对象的模型预测性能。该object mask机制是指将样本掩膜图像输入到初始业务模型的多个部分，以训练初始业务模型，可以对整个初始业务模型在针对于某些指定的第一对象生成训练时做出对象学习指导，从而能够使得初始业务模型快速的掌握针对第一对象的学习能力和生成能力，同时可以缩短整体的模型训练时间，使得模型快速收敛，以及提升在预测该第一对象时对该第一对象还原度，达到对象可控生成的目的。

其中，在object mask机制中，样本掩膜图像输入到初始业务模型的关注对象处理组件中的向量融合层，来对文生图过程中由样本文本向量和样本图像向量的样本加噪向量对应的采样向量计算出来的样本文本图像融合向量（attention信息）进行掩膜处理和第一对象的对象区域的特征权重调整，从而能够让初始业务模型在训练过程中，能够重点关注样本文本图像融合向量中第一对象的对象区域的多模态特征信息，指导初始业务模型可以重点学习这部分区域的特征信息，以提升对于该第一对象的学习能力。

此外，在object mask机制中，样本掩膜图像输入到初始业务模型的损失计算网络，利用样本掩膜图像对样本预测生成图像和样本生成图像之间的图像像素差值矩阵（损失信息）进行损失权重的调整，从而提升对需关注的第一对象在最终的模型损失值中的损失权重占比，从而能够加速初始业务模模型对于该第一对象的学习速度，同时提升了针对第一对象学习的准确性，降低了整个模型训练过程的耗时和成本。

也就是说，本申请技术方案中，在向量融合层和损失计算网络中的权重调整都是基于object mask来对原来信息（样本文本图像融合向量、图像像素差值矩阵）进行调整，所以能够让初始业务模型可以动态改变对关注对象的重点学习程度，这种机制能够让初始业务模型在重点学习关注对象的同时，还能够让初始业务模型也能辅助学习到非关注对象在样本生成图像中的特性，可以保持样本生成图像中所有对象元素的完整性，从而提升最终预测生成图像的质量，也就是将非关注对象作为辅助指导关注对象的学习，如可以学习到发型对应到的面部妆容，从而可以提升目标业务模型的泛化性，避免因只学习第一对象而造成的模型过拟合，从而在目标业务模型生成其他元素对象时，也可以实现准确生成。

由此可以将，通过使用object mask机制来实现，初始业务模型针对指定关注的第一对象的学习性能上的提升，同时还能够降低非关注对象（第一对象）对关注对象（第一对象）的学习影响，在图像生成过程中，可以通过使用样本掩膜图像对第二对象的attention信息和损失信息进行数值上的调整（比如降低数值），可以降低第二对象在整个训练过程中的关注度，从而能够降低在学习第一对象时第二对象所带来的干扰，以此也可以提升模型预测性能，以此来让训练得到的目标业务模型在实际推理的时候把用户想要生成的对象元素（第一对象）进行高度还原生成，让最终生成的预测图像更能够符合用户的需求，提高生成图像的预测效果和准确性。

本申请实施例中，可以获取用于训练初始业务模型的样本预测生成图像以及训练样本组对应的样本生成图像，通过损失计算网络确定样本预测生成图像和样本生成图像之间的图像像素差值矩阵，在通过损失计算网络确定样本掩膜向量时，基于样本掩膜向量对图像像素差值矩阵进行掩膜处理，得到与第一对象的对象区域相关联的掩膜像素差值矩阵，基于掩膜像素差值矩阵和图像像素差值矩阵，确定与第一对象的对象区域相关联的区域关注像素差值矩阵，可以通过区域关注像素差值矩阵，对初始业务模型进行模型训练，得到目标业务模型。也就是将第一对象的样本掩膜图像输入到初始业务模型的损失计算网络中，以通过样本掩膜图像在图像像素差值矩阵中对第一对象的对象区域的像素差值的损失权重进行调节，以使得初始业务模型在计算损失值进行模型训练时，可以重点关注第一对象的对象区域上对应确定出的模型损失值，提升整个初始业务模型对于需要关注的第一对象的学习能力，从而可以提升模型训练效果，提升在预测生成指定对象时的还原度，进而提升生成图像的预测效果和准确度。

进一步的，请参见图18-图19，图18-图19是本申请实施例提供的一种图像生成装置的结构示意图。如图18和图19所示，图像生成装置1可以包括：训练数据获取模块11、数据编码模块12、向量融合模块13、向量处理模块14、向量解码模块15；其中：

训练数据获取模块11，用于获取用于训练初始业务模型的训练样本组以及训练样本组对应的样本生成图像；训练样本组包括样本描述文本和样本掩膜图像；样本描述文本为用于表征样本生成图像中的第一对象的描述文本；样本掩膜图像为在样本生成图像中去除第二对象，且保留第一对象的掩膜图像；第一对象为在样本生成图像中所需要关注的对象；第二对象为在样本生成图像中除第一对象之外的对象；初始业务模型包括关注对象处理组件；

数据编码模块12，用于通过初始业务模型对样本描述文本进行文本编码，得到样本描述文本的样本文本向量；

数据编码模块12，还用于在通过初始业务模型获取到用于进行噪声处理的基准图像时，将基准图像的图像向量作为样本图像向量；

向量融合模块13，用于在通过初始业务模型对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量时，通过关注对象处理组件对样本加噪向量和样本文本向量进行向量融合处理，得到样本文本图像融合向量；

向量处理模块14，用于在通过关注对象处理组件确定样本掩膜图像的样本掩膜向量时，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量，基于样本掩膜融合向量和样本文本图像融合向量，确定与第一对象的对象区域相关联的样本区域关注向量；

向量解码模块15，用于在通过关注对象处理组件确定样本区域关注向量对应的待解码样本文本图像向量时，通过初始业务模型对待解码样本文本图像向量进行向量解码处理，得到待解码样本文本图像向量对应的样本预测生成图像；样本预测生成图像用于与样本生成图像训练初始业务模型。

其中，关注对象处理组件包括下采样组件，下采样组件包括第一下采样层和与第一下采样层相关联的第一下采样向量融合层；

向量融合模块13包括：

采样单元131，用于通过第一下采样层对样本加噪向量进行下采样处理，得到样本加噪向量对应的第一样本下采样加噪向量；

向量融合单元132，用于通过第一下采样向量融合层对第一样本下采样加噪向量和样本文本向量进行融合处理，得到第一样本下采样加噪向量对应的样本文本图像融合向量。

其中，样本描述文本包括第一样本子文本和第二样本子文本；第一样本子文本为第一对象的提示文本；第二样本子文本为样本描述文本中除第一样本子文本以外的文本；样本文本向量包括第一样本子文本的第一样本文本向量和第二样本子文本的第二样本文本向量；

向量融合单元132具体用于：

通过关注对象处理组件中的第一下采样向量融合层对第一样本下采样加噪向量和第一样本文本向量进行融合处理，得到第一样本过渡图文融合向量；

通过第一下采样向量融合层对第一样本下采样加噪向量和第二样本文本向量进行融合处理，得到第二样本过渡图文融合向量；

基于第一样本过渡图文融合向量和第二样本过渡图文融合向量，确定第一样本下采样加噪向量对应的样本文本图像融合向量。

其中，样本掩膜图像包括第一掩膜值和第二掩膜值；第一掩膜值用于标记第一对象；第二掩膜值为样本掩膜图像中除第一掩膜值以外的掩膜值；

向量处理模块14包括：

第一掩膜向量确定单元141，用于在关注对象处理组件中的第一下采样向量融合层中，基于样本掩膜图像中的第一掩膜值和第二掩膜值确定样本掩膜向量；

第一掩膜处理单元142，用于基于样本掩膜向量，对第一样本过渡图文融合向量进行掩膜处理，得到与第一对象的对象区域相关联的样本掩膜融合向量。

其中，向量处理模块14包括：

向量处理单元143，用于通过第一下采样向量融合层，对样本掩膜融合向量和第一样本过渡图文融合向量进行加权求和，得到与第一对象的对象区域相关联的过渡样本区域关注向量；

向量处理单元143，还用于通过第一下采样向量融合层，对过渡样本区域关注向量和第二样本过渡图文融合向量进行加权求和，得到与第一对象的对象区域相关联的样本区域关注向量。

其中，向量融合模块13还包括：

向量更新单元133，用于基于与第一对象的对象区域相关联的样本区域关注向量更新样本加噪向量，得到第一更新样本加噪向量；

其中，第一更新样本加噪向量用于输入下采样组件中的第二下采样层；第二下采样层用于通过第一更新样本加噪向量输出第一样本下采样加噪向量对应的第二样本下采样加噪向量；第二下采样层是与第一下采样层之间具有第一下采样向量融合层的下采样层。

其中，第一下采样向量融合层关联有第一掩膜处理开关；

向量处理模块14在通过第一下采样向量融合层，对样本掩膜融合向量和第一样本过渡图文融合向量进行加权求和，得到与第一对象的对象区域相关联的过渡样本区域关注向量之前，还用于：

若第一掩膜处理开关处于第一状态，则通知向量处理单元143执行通过第一下采样向量融合层，对样本掩膜融合向量和第一样本过渡图文融合向量进行加权求和，得到与第一对象的对象区域相关联的过渡样本区域关注向量的步骤。

其中，向量融合模块13还包括：

向量更新单元133，用于若第一掩膜处理开关处于第二状态，则基于样本文本图像融合向量更新样本加噪向量，得到第一更新样本加噪向量。

其中，下采样组件包括第二下采样层；第二下采样层是与第一下采样层之间具有第一下采样向量融合层的下采样层；第二下采样层用于输出第一样本下采样加噪向量对应的第二样本下采样加噪向量；

向量融合模块13还包括：

向量更新单元133，用于基于第二样本下采样加噪向量更新样本加噪向量，得到第二更新样本加噪向量；

其中，第二更新样本加噪向量用于输入关注对象处理组件中的上采样组件所包括的第一上采样层；第一上采样层用于输出第二更新样本加噪向量对应的第一样本上采样加噪向量；第一样本上采样加噪向量用于输入与第一上采样层相关联的第一上采样向量融合层；第一上采样向量融合层用于对第一样本上采样加噪向量和样本文本向量进行向量融合处理，得到第一样本上采样加噪向量对应的样本文本图像融合向量；第一样本上采样加噪向量对应的样本文本图像融合向量用于更新样本加噪向量，得到第三更新样本加噪向量；第三更新样本加噪向量用于输入上采样组件包括的第二上采样层；第二上采样层用于通过第三更新样本加噪向量输出第一样本上采样加噪向量对应的第二样本上采样加噪向量；第二上采样层是与第一上采样层之间具有第一上采样向量融合层的上采样层。

其中，向量解码模块15包括：

解码向量确定单元151，用于在上采样组件中，基于第二样本上采样加噪向量，确定样本区域关注向量对应的待解码样本文本图像向量。

其中，初始业务模型用于训练得到目标业务模型；目标业务模型包括训练后的关注对象处理组件；

向量解码模块15还包括：

文本获取单元152，用于获取目标描述文本；

模型处理单元153，用于通过目标业务模型对目标描述文本进行文本编码，得到目标描述文本的目标文本向量；

模型处理单元153，还用于在通过目标业务模型获取到用于进行噪声处理的目标基准图像时，将目标基准图像的图像向量作为目标图像向量；

模型处理单元153，还用于在通过目标业务模型对目标图像向量进行噪声加噪处理，得到目标图像向量的目标加噪向量时，通过训练后的关注对象处理组件对目标加噪向量和目标文本向量进行向量融合处理，得到目标文本图像融合向量；

模型处理单元153，还用于在通过训练后的关注对象处理组件确定目标文本图像融合向量对应的待解码目标文本图像向量时，通过目标业务模型对待解码目标文本图像向量进行向量解码处理，得到待解码目标文本图像向量对应的目标预测生成图像；

其中，在目标描述文本包含样本描述文本时，目标预测生成图像包含第一对象。

其中，训练数据获取模块11还包括：

对象分割单元111，用于将样本生成图像输入对象分割模型，通过对象分割模型提取样本生成图像的图像空间特征和图像语义特征；

对象分割单元111，还用于通过对象分割模型对图像空间特征和图像语义特征进行特征融合处理，得到空间语义融合特征；

对象分割单元111，还用于通过对象分割模型，对空间语义融合特征进行特征计算，得到样本生成图像中的每个图像点位对应的对象标签；对象标签包括第一对象标签和第二对象标签；第一对象标签用于指示第一对象在样本生成图像中所对应的图像点位；第二对象标签用于指示第二对象在样本生成图像中所对应的图像点位；

掩膜图像制作单元112，用于基于第一对象标签所指示的图像点位和第二对象标签所指示的图像点位确定样本掩膜图像。

其中，训练数据获取模块11、数据编码模块12、向量融合模块13、向量处理模块14、向量解码模块15的具体实现方式，可以参见上述实施例中的相关描述，这里将不再继续进行赘述。应当理解，对采用相同方法所得到的有益效果描述，也不再进行赘述。

进一步的，请参见图20，图20是本申请实施例提供的一种图像生成装置的结构示意图。如图20所示，图像生成装置2可以包括：预测数据获取模块21a、差值矩阵确定模块21b、差值矩阵处理模块21c、模型训练模块21d；其中：

预测数据获取模块21a，用于获取用于训练初始业务模型的样本预测生成图像以及训练样本组对应的样本生成图像；训练样本组包括样本描述文本和样本掩膜图像；样本描述文本为用于表征样本生成图像中的第一对象的描述文本；样本掩膜图像为在样本生成图像中去除第二对象，且保留第一对象的掩膜图像；第一对象为在样本生成图像中所需要关注的对象；第二对象为在样本生成图像中除第一对象之外的对象；初始业务模型包括关注对象处理组件和损失计算网络；样本预测生成图像是由初始业务模型对待解码样本文本图像向量进行向量解码处理所得到的；待解码样本文本图像向量是由关注对象处理组件通过与第一对象的对象区域相关联的样本区域关注向量所确定的；样本区域关注向量是由关注对象处理组件基于样本掩膜融合向量和样本文本图像融合向量所确定的；样本掩膜融合向量是由关注对象处理组件在确定样本掩膜图像的样本掩膜向量时，基于样本掩膜向量对样本文本图像融合向量进行掩膜处理所得到的；样本文本图像融合向量是由初始业务模型在对样本图像向量进行噪声加噪处理，得到样本图像向量的样本加噪向量时，通过关注对象处理组件对样本加噪向量和样本文本向量进行向量融合处理所得到的；样本图像向量是由初始业务模型在获取到用于进行噪声处理的基准图像时，通过基准图像的图像向量所得到的；样本文本向量是由初始业务模型对样本描述文本进行文本编码所得到的；

差值矩阵确定模块21b，用于通过损失计算网络确定样本预测生成图像和样本生成图像之间的图像像素差值矩阵；

差值矩阵处理模块21c，用于在通过损失计算网络确定样本掩膜向量时，基于样本掩膜向量对图像像素差值矩阵进行掩膜处理，得到与第一对象的对象区域相关联的掩膜像素差值矩阵，基于掩膜像素差值矩阵和图像像素差值矩阵，确定与第一对象的对象区域相关联的区域关注像素差值矩阵；

模型训练模块21d，用于通过区域关注像素差值矩阵，对初始业务模型进行模型训练，得到目标业务模型；目标业务模型用于生成包含第一对象的目标预测生成图像。

差值矩阵处理模块21c具体用于：

在损失计算网络中，基于样本掩膜图像中的第一掩膜值和第二掩膜值确定样本掩膜向量；

基于样本掩膜向量，对图像像素差值矩阵进行掩膜处理，得到与第一对象的对象区域相关联的掩膜像素差值矩阵。

其中，差值矩阵处理模块21c具体用于：

对掩膜像素差值矩阵和图像像素差值矩阵进行加权求和，得到与第一对象的对象区域相关联的区域关注像素差值矩阵。

其中，初始业务模型还包括文本编码组件、图像编码组件，和图文解码组件；文本编码组件用于得到样本文本向量；图像编码组件用于得到样本图像向量；图文解码组件用于得到样本预测生成图像；

模型训练模块21d具体用于：

通过区域关注像素差值矩阵，对文本编码组件和关注对象处理组件进行组件参数训练，得到训练后的文本编码组件和训练后的关注对象处理组件；

基于训练后的文本编码组件、图像编码组件、训练后的关注对象处理组件，和图文解码组件确定目标业务模型。

其中，预测数据获取模块21a、差值矩阵确定模块21b、差值矩阵处理模块21c、模型训练模块21d的具体实现方式，可以参见上述实施例中的相关描述，这里将不再继续进行赘述。应当理解，对采用相同方法所得到的有益效果描述，也不再进行赘述。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

进一步地，请参见图21，图21是本申请实施例提供的一种计算机设备的结构示意图。如图21所示，该计算机设备1900可以为终端，还可以为服务器，这里将不对其进行限制。为便于理解，本申请以计算机设备为服务器为例，该计算机设备1900可以包括：处理器1901，网络接口1904和存储器1905，此外，该计算机设备1900还可以包括：用户接口1903，和至少一个通信总线1902。其中，通信总线1902用于实现这些组件之间的连接通信。其中，用户接口1903还可以包括标准的有线接口、无线接口。网络接口1904可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1905可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器1905可选的还可以是至少一个位于远离前述处理器1901的存储装置。如图21所示，作为一种计算机可读存储介质的存储器1905中可以包括操作***、网络通信模块、用户接口模块以及计算机程序。

其中，该计算机设备1900中的网络接口1904还可以提供网络数据交互功能。在图21所示的计算机设备1900中，网络接口1904可提供网络数据交互功能；而用户接口1903主要用于为用户提供输入的接口；而处理器1901可以用于调用存储器1905中存储的计算机程序，以执行上述图4、图13和图16所对应实施例中对图像生成方法的描述，还可以执行前文图18（图19）所对应实施例中对图像生成装置1以及图20所对应实施例中对图像生成装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的图像生成装置1和图像生成装置2所执行的计算机程序，当处理器执行该计算机程序时，能够执行前文图4、图13和图16所对应实施例中对图像生成方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。

此外，需要说明的是：根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序由处理器执行时实现本申请实施例中上述任一方面提供的方法。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器可以执行该计算机程序，使得该计算机设备执行前文图4、图13和图16所对应实施例中对图像生成方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品实施例中未披露的技术细节，请参照本申请方法实施例的描述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储器（Read-Only Memory，ROM）或随机存储器（Random Access Memory，RAM）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像生成方法，其特征在于，所述方法包括：

获取用于训练初始业务模型的训练样本组以及所述训练样本组对应的样本生成图像；所述训练样本组包括样本描述文本和样本掩膜图像；所述样本描述文本为用于表征所述样本生成图像中的第一对象的描述文本；所述样本掩膜图像为在所述样本生成图像中去除第二对象，且保留所述第一对象的掩膜图像；所述第一对象为在所述样本生成图像中所需要关注的对象；所述第二对象为在所述样本生成图像中除所述第一对象之外的对象；所述初始业务模型包括关注对象处理组件；

通过所述初始业务模型对所述样本描述文本进行文本编码，得到所述样本描述文本的样本文本向量；

在通过所述初始业务模型获取到用于进行噪声处理的基准图像时，将所述基准图像的图像向量作为样本图像向量；

在通过所述初始业务模型对所述样本图像向量进行噪声加噪处理，得到所述样本图像向量的样本加噪向量时，通过所述关注对象处理组件对所述样本加噪向量和所述样本文本向量进行向量融合处理，得到样本文本图像融合向量；

在通过所述关注对象处理组件确定所述样本掩膜图像的样本掩膜向量时，基于所述样本掩膜向量对所述样本文本图像融合向量进行掩膜处理，得到与所述第一对象的对象区域相关联的样本掩膜融合向量，基于所述样本掩膜融合向量和所述样本文本图像融合向量，确定与所述第一对象的对象区域相关联的样本区域关注向量；

在通过所述关注对象处理组件确定所述样本区域关注向量对应的待解码样本文本图像向量时，通过所述初始业务模型对所述待解码样本文本图像向量进行向量解码处理，得到所述待解码样本文本图像向量对应的样本预测生成图像；所述样本预测生成图像用于与所述样本生成图像训练所述初始业务模型。

2.根据权利要求1所述的方法，其特征在于，所述关注对象处理组件包括下采样组件，所述下采样组件包括第一下采样层和与所述第一下采样层相关联的第一下采样向量融合层；

所述通过所述关注对象处理组件对所述样本加噪向量和所述样本文本向量进行向量融合处理，得到样本文本图像融合向量，包括：

通过所述关注对象处理组件中的所述第一下采样层对所述样本加噪向量进行下采样处理，得到所述样本加噪向量对应的第一样本下采样加噪向量；

通过所述第一下采样向量融合层对所述第一样本下采样加噪向量和所述样本文本向量进行融合处理，得到所述第一样本下采样加噪向量对应的样本文本图像融合向量。

3.根据权利要求2所述的方法，其特征在于，所述样本描述文本包括第一样本子文本和第二样本子文本；所述第一样本子文本为所述第一对象的提示文本；所述第二样本子文本为所述样本描述文本中除所述第一样本子文本以外的文本；所述样本文本向量包括所述第一样本子文本的第一样本文本向量和所述第二样本子文本的第二样本文本向量；

所述通过所述第一下采样向量融合层对所述第一样本下采样加噪向量和所述样本文本向量进行融合处理，得到所述第一样本下采样加噪向量对应的样本文本图像融合向量，包括：

通过所述第一下采样向量融合层对所述第一样本下采样加噪向量和所述第一样本文本向量进行融合处理，得到第一样本过渡图文融合向量；

通过所述第一下采样向量融合层对所述第一样本下采样加噪向量和所述第二样本文本向量进行融合处理，得到第二样本过渡图文融合向量；

基于所述第一样本过渡图文融合向量和所述第二样本过渡图文融合向量，确定所述第一样本下采样加噪向量对应的样本文本图像融合向量。

4.根据权利要求3所述的方法，其特征在于，所述样本掩膜图像包括第一掩膜值和第二掩膜值；所述第一掩膜值用于标记所述第一对象；所述第二掩膜值为所述样本掩膜图像中除所述第一掩膜值以外的掩膜值；

所述在通过所述关注对象处理组件确定所述样本掩膜图像的样本掩膜向量时，基于所述样本掩膜向量对所述样本文本图像融合向量进行掩膜处理，得到与所述第一对象的对象区域相关联的样本掩膜融合向量，包括：

在所述关注对象处理组件中的所述第一下采样向量融合层中，基于所述样本掩膜图像中的所述第一掩膜值和所述第二掩膜值确定所述样本掩膜向量；

基于所述样本掩膜向量，对所述第一样本过渡图文融合向量进行掩膜处理，得到与所述第一对象的对象区域相关联的样本掩膜融合向量。

5.根据权利要求4所述的方法，其特征在于，所述基于所述样本掩膜融合向量和所述样本文本图像融合向量，确定与所述第一对象的对象区域相关联的样本区域关注向量，包括：

通过所述第一下采样向量融合层，对所述样本掩膜融合向量和所述第一样本过渡图文融合向量进行加权求和，得到与所述第一对象的对象区域相关联的过渡样本区域关注向量；

通过所述第一下采样向量融合层，对所述过渡样本区域关注向量和所述第二样本过渡图文融合向量进行加权求和，得到与所述第一对象的对象区域相关联的样本区域关注向量。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

基于与所述第一对象的对象区域相关联的样本区域关注向量更新所述样本加噪向量，得到第一更新样本加噪向量；

其中，所述第一更新样本加噪向量用于输入所述下采样组件中的第二下采样层；所述第二下采样层用于通过所述第一更新样本加噪向量输出所述第一样本下采样加噪向量对应的第二样本下采样加噪向量；所述第二下采样层是与所述第一下采样层之间具有所述第一下采样向量融合层的下采样层。

7.根据权利要求6所述的方法，其特征在于，所述第一下采样向量融合层关联有第一掩膜处理开关；

所述通过所述第一下采样向量融合层，对所述过渡样本区域关注向量和所述第二样本过渡图文融合向量进行加权求和，得到与所述第一对象的对象区域相关联的样本区域关注向量之前，所述方法还包括：

若所述第一掩膜处理开关处于第一状态，则通知执行所述通过所述第一下采样向量融合层，对所述过渡样本区域关注向量和所述第二样本过渡图文融合向量进行加权求和，得到与所述第一对象的对象区域相关联的样本区域关注向量的步骤。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

若所述第一掩膜处理开关处于第二状态，则基于所述样本文本图像融合向量更新所述样本加噪向量，得到所述第一更新样本加噪向量。

9.根据权利要求2所述的方法，其特征在于，所述下采样组件包括第二下采样层；所述第二下采样层是与所述第一下采样层之间具有所述第一下采样向量融合层的下采样层；所述第二下采样层用于输出所述第一样本下采样加噪向量对应的第二样本下采样加噪向量；

所述方法还包括：

基于所述第二样本下采样加噪向量更新所述样本加噪向量，得到第二更新样本加噪向量；

其中，所述第二更新样本加噪向量用于输入所述关注对象处理组件中的上采样组件所包括的第一上采样层；所述第一上采样层用于输出所述第二更新样本加噪向量对应的第一样本上采样加噪向量；所述第一样本上采样加噪向量用于输入与所述第一上采样层相关联的第一上采样向量融合层；所述第一上采样向量融合层用于对所述第一样本上采样加噪向量和所述样本文本向量进行向量融合处理，得到所述第一样本上采样加噪向量对应的样本文本图像融合向量；所述第一样本上采样加噪向量对应的样本文本图像融合向量用于更新所述样本加噪向量，得到第三更新样本加噪向量；所述第三更新样本加噪向量用于输入所述上采样组件包括的第二上采样层；所述第二上采样层用于通过所述第三更新样本加噪向量输出所述第一样本上采样加噪向量对应的第二样本上采样加噪向量；所述第二上采样层是与所述第一上采样层之间具有所述第一上采样向量融合层的上采样层。

10.根据权利要求9所述的方法，其特征在于，所述通过所述关注对象处理组件确定所述样本区域关注向量对应的待解码样本文本图像向量，包括：

在所述上采样组件中，基于所述第二样本上采样加噪向量，确定所述样本区域关注向量对应的待解码样本文本图像向量。

11.根据权利要求1所述的方法，其特征在于，所述初始业务模型用于训练得到目标业务模型；所述目标业务模型包括训练后的关注对象处理组件；

所述方法还包括：

获取目标描述文本；

通过所述目标业务模型对所述目标描述文本进行文本编码，得到所述目标描述文本的目标文本向量；

在通过所述目标业务模型获取到用于进行噪声处理的目标基准图像时，将所述目标基准图像的图像向量作为目标图像向量；

在通过所述目标业务模型对所述目标图像向量进行噪声加噪处理，得到所述目标图像向量的目标加噪向量时，通过所述训练后的关注对象处理组件对所述目标加噪向量和所述目标文本向量进行向量融合处理，得到目标文本图像融合向量；

在通过所述训练后的关注对象处理组件确定所述目标文本图像融合向量对应的待解码目标文本图像向量时，通过所述目标业务模型对所述待解码目标文本图像向量进行向量解码处理，得到所述待解码目标文本图像向量对应的目标预测生成图像；

其中，在所述目标描述文本包含所述样本描述文本时，所述目标预测生成图像包含所述第一对象。

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述样本生成图像输入对象分割模型，通过所述对象分割模型提取所述样本生成图像的图像空间特征和图像语义特征；

通过所述对象分割模型对所述图像空间特征和所述图像语义特征进行特征融合处理，得到空间语义融合特征；

通过所述对象分割模型，对所述空间语义融合特征进行特征计算，得到所述样本生成图像中的每个图像点位对应的对象标签；所述对象标签包括第一对象标签和第二对象标签；所述第一对象标签用于指示所述第一对象在所述样本生成图像中所对应的图像点位；所述第二对象标签用于指示所述第二对象在所述样本生成图像中所对应的图像点位；

基于所述第一对象标签所指示的图像点位和所述第二对象标签所指示的图像点位确定所述样本掩膜图像。

13.一种图像生成方法，其特征在于，所述方法包括：

获取用于训练初始业务模型的样本预测生成图像以及训练样本组对应的样本生成图像；所述训练样本组包括样本描述文本和样本掩膜图像；所述样本描述文本为用于表征所述样本生成图像中的第一对象的描述文本；所述样本掩膜图像为在所述样本生成图像中去除第二对象，且保留所述第一对象的掩膜图像；所述第一对象为在所述样本生成图像中所需要关注的对象；所述第二对象为在所述样本生成图像中除所述第一对象之外的对象；所述初始业务模型包括关注对象处理组件和损失计算网络；所述样本预测生成图像是由所述初始业务模型对待解码样本文本图像向量进行向量解码处理所得到的；所述待解码样本文本图像向量是由所述关注对象处理组件通过与所述第一对象的对象区域相关联的样本区域关注向量所确定的；所述样本区域关注向量是由所述关注对象处理组件基于样本掩膜融合向量和样本文本图像融合向量所确定的；所述样本掩膜融合向量是由所述关注对象处理组件在确定所述样本掩膜图像的样本掩膜向量时，基于所述样本掩膜向量对所述样本文本图像融合向量进行掩膜处理所得到的；所述样本文本图像融合向量是由所述初始业务模型在对样本图像向量进行噪声加噪处理，得到所述样本图像向量的样本加噪向量时，通过所述关注对象处理组件对所述样本加噪向量和样本文本向量进行向量融合处理所得到的；所述样本图像向量是由所述初始业务模型在获取到用于进行噪声处理的基准图像时，通过所述基准图像的图像向量所得到的；所述样本文本向量是由所述初始业务模型对所述样本描述文本进行文本编码所得到的；

通过所述损失计算网络确定所述样本预测生成图像和所述样本生成图像之间的图像像素差值矩阵；

在通过所述损失计算网络确定所述样本掩膜向量时，基于所述样本掩膜向量对所述图像像素差值矩阵进行掩膜处理，得到与所述第一对象的对象区域相关联的掩膜像素差值矩阵，基于所述掩膜像素差值矩阵和所述图像像素差值矩阵，确定与所述第一对象的对象区域相关联的区域关注像素差值矩阵；

通过所述区域关注像素差值矩阵，对所述初始业务模型进行模型训练，得到目标业务模型；所述目标业务模型用于生成包含所述第一对象的目标预测生成图像。

14.根据权利要求13所述的方法，其特征在于，所述样本掩膜图像包括第一掩膜值和第二掩膜值；所述第一掩膜值用于标记所述第一对象；所述第二掩膜值为所述样本掩膜图像中除所述第一掩膜值以外的掩膜值；

所述在通过所述损失计算网络确定所述样本掩膜向量时，基于所述样本掩膜向量对所述图像像素差值矩阵进行掩膜处理，得到与所述第一对象的对象区域相关联的掩膜像素差值矩阵，包括：

在所述损失计算网络中，基于所述样本掩膜图像中的所述第一掩膜值和所述第二掩膜值确定所述样本掩膜向量；

基于所述样本掩膜向量，对所述图像像素差值矩阵进行掩膜处理，得到与所述第一对象的对象区域相关联的掩膜像素差值矩阵。

15.根据权利要求13所述的方法，其特征在于，所述基于所述掩膜像素差值矩阵和所述图像像素差值矩阵，确定与所述第一对象的对象区域相关联的区域关注像素差值矩阵，包括：

对所述掩膜像素差值矩阵和所述图像像素差值矩阵进行加权求和，得到与所述第一对象的对象区域相关联的区域关注像素差值矩阵。

16.根据权利要求13所述的方法，其特征在于，所述初始业务模型还包括文本编码组件、图像编码组件，和图文解码组件；所述文本编码组件用于得到所述样本文本向量；所述图像编码组件用于得到所述样本图像向量；所述图文解码组件用于得到所述样本预测生成图像；

所述通过所述区域关注像素差值矩阵，对所述初始业务模型进行模型训练，得到目标业务模型，包括：

通过所述区域关注像素差值矩阵，对所述文本编码组件和所述关注对象处理组件进行组件参数训练，得到训练后的文本编码组件和训练后的关注对象处理组件；

基于所述训练后的文本编码组件、所述图像编码组件、所述训练后的关注对象处理组件，和所述图文解码组件确定所述目标业务模型。

17.一种图像生成装置，其特征在于，所述装置包括：

训练数据获取模块，用于获取用于训练初始业务模型的训练样本组以及所述训练样本组对应的样本生成图像；所述训练样本组包括样本描述文本和样本掩膜图像；所述样本描述文本为用于表征所述样本生成图像中的第一对象的描述文本；所述样本掩膜图像为在所述样本生成图像中去除第二对象，且保留所述第一对象的掩膜图像；所述第一对象为在所述样本生成图像中所需要关注的对象；所述第二对象为在所述样本生成图像中除所述第一对象之外的对象；所述初始业务模型包括关注对象处理组件；

数据编码模块，用于通过所述初始业务模型对所述样本描述文本进行文本编码，得到所述样本描述文本的样本文本向量；

所述数据编码模块，还用于在通过所述初始业务模型获取到用于进行噪声处理的基准图像时，将所述基准图像的图像向量作为样本图像向量；

向量融合模块，用于在通过所述初始业务模型对所述样本图像向量进行噪声加噪处理，得到所述样本图像向量的样本加噪向量时，通过所述关注对象处理组件对所述样本加噪向量和所述样本文本向量进行向量融合处理，得到样本文本图像融合向量；

向量处理模块，用于在通过所述关注对象处理组件确定所述样本掩膜图像的样本掩膜向量时，基于所述样本掩膜向量对所述样本文本图像融合向量进行掩膜处理，得到与所述第一对象的对象区域相关联的样本掩膜融合向量，基于所述样本掩膜融合向量和所述样本文本图像融合向量，确定与所述第一对象的对象区域相关联的样本区域关注向量；

向量解码模块，用于在通过所述关注对象处理组件确定所述样本区域关注向量对应的待解码样本文本图像向量时，通过所述初始业务模型对所述待解码样本文本图像向量进行向量解码处理，得到所述待解码样本文本图像向量对应的样本预测生成图像；所述样本预测生成图像用于与所述样本生成图像训练所述初始业务模型。

18.一种图像生成装置，其特征在于，所述装置包括：

预测数据获取模块，用于获取用于训练初始业务模型的样本预测生成图像以及训练样本组对应的样本生成图像；所述训练样本组包括样本描述文本和样本掩膜图像；所述样本描述文本为用于表征所述样本生成图像中的第一对象的描述文本；所述样本掩膜图像为在所述样本生成图像中去除第二对象，且保留所述第一对象的掩膜图像；所述第一对象为在所述样本生成图像中所需要关注的对象；所述第二对象为在所述样本生成图像中除所述第一对象之外的对象；所述初始业务模型包括关注对象处理组件和损失计算网络；所述样本预测生成图像是由所述初始业务模型对待解码样本文本图像向量进行向量解码处理所得到的；所述待解码样本文本图像向量是由所述关注对象处理组件通过与所述第一对象的对象区域相关联的样本区域关注向量所确定的；所述样本区域关注向量是由所述关注对象处理组件基于样本掩膜融合向量和样本文本图像融合向量所确定的；所述样本掩膜融合向量是由所述关注对象处理组件在确定所述样本掩膜图像的样本掩膜向量时，基于所述样本掩膜向量对所述样本文本图像融合向量进行掩膜处理所得到的；所述样本文本图像融合向量是由所述初始业务模型在对样本图像向量进行噪声加噪处理，得到所述样本图像向量的样本加噪向量时，通过所述关注对象处理组件对所述样本加噪向量和样本文本向量进行向量融合处理所得到的；所述样本图像向量是由所述初始业务模型在获取到用于进行噪声处理的基准图像时，通过所述基准图像的图像向量所得到的；所述样本文本向量是由所述初始业务模型对所述样本描述文本进行文本编码所得到的；

差值矩阵确定模块，用于通过所述损失计算网络确定所述样本预测生成图像和所述样本生成图像之间的图像像素差值矩阵；

差值矩阵处理模块，用于在通过所述损失计算网络确定所述样本掩膜向量时，基于所述样本掩膜向量对所述图像像素差值矩阵进行掩膜处理，得到与所述第一对象的对象区域相关联的掩膜像素差值矩阵，基于所述掩膜像素差值矩阵和所述图像像素差值矩阵，确定与所述第一对象的对象区域相关联的区域关注像素差值矩阵；

模型训练模块，用于通过所述区域关注像素差值矩阵，对所述初始业务模型进行模型训练，得到目标业务模型；所述目标业务模型用于生成包含所述第一对象的目标预测生成图像。

19.一种计算机设备，其特征在于，包括存储器和处理器；

所述存储器与所述处理器相连，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-16任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-16任一项所述的方法。