CN113240115A

CN113240115A - 一种生成人脸变化图像模型的训练方法及相关装置

Info

Publication number: CN113240115A
Application number: CN202110636448.2A
Authority: CN
Inventors: 陈仿雄
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-08-10
Anticipated expiration: 2041-06-08
Also published as: CN113240115B

Abstract

本发明实施例涉及机器学习技术领域，公开了一种生成人脸变化图像模型的训练方法及相关装置，生成人脸变化图像模型包括文本编码网络、融合模块以及对抗生成网络，通过预设文本编码网络将文本描述编码成文本特征编码，以控制人脸图像的变化方向。其次，为了约束文本特征编码的准确性，构建预设图像描述网络，输出预测文本描述，然后，根据各预测文本描述和各文本描述，反向调节预设图像描述网络的参数和预设文本编码网络的参数，使得预测文本描述不断靠近文本描述，不断迭代，直至预设图像描述网络和预设文本网络均收敛，获取生成人脸变化图像模型。从而，使得训练得到的人脸变化图像模型能够按用于反映用户意愿的文本描述个性化控制修改人脸特征。

Description

一种生成人脸变化图像模型的训练方法及相关装置

技术领域

本发明实施例涉及机器学习技术领域，尤其涉及一种生成人脸变化图像模型的训练方法及相关装置。

背景技术

随着拍照和短视频的崛起，广大用户对于人脸的拍摄质量有着更高的要求，希望能够个性化控制人脸特征，即在拍摄过程中实现对自己的人脸特征按各自意愿进行修改调整，增加在拍摄过程中的趣味性和互动性。

目前，智能设备在拍摄过程中，仅仅存在一键美颜或增加动画场景等功能，不能实现根据个性化控制人脸特征。

发明内容

本发明实施例主要解决的技术问题是提供一种生成人脸变化图像模型的训练方法及相关装置，使得训练得到的生成人脸变化图像模型能够按用于反映用户意愿的文本描述个性化控制修改人脸特征，生成的变化后的人脸图像符合用户修改意愿。

为解决上述技术问题，第一方面，本发明实施例中提供给了一种生成人脸变化图像模型的训练方法，所述生成人脸变化图像模型包括文本编码网络、融合模块以及对抗生成网络，所述方法包括：

获取训练集，所述训练集包括若干组训练数据，所述训练数据包括随机潜码和文本描述，所述随机潜码为用于生成人脸图像的向量；

将各文本描述采用所述文本编码网络进行特征编码，以获得各文本特征编码，所述文本特征编码用于反映所述文本描述的语义特征；

将所述各文本特征编码分别与所述各文本特征编码对应的随机潜码输入至所述融合模块进行融合，以获取各融合潜码；

将所述各融合潜码分别输入所述对抗生成网络，以生成各训练变化图，其中，一个所述训练变化图为所述对抗生成网络基于一个所述融合潜码生成的人脸图像，一个所述训练变化图中的人脸属性与一个所述文本描述相匹配；

将所述各训练变化图和所述各训练变化图对应的文本描述作为各样本对，输入预设图像描述网络，以获得所述各训练变化图对应的预测文本描述；

根据预设损失函数，计算各所述文本描述和各所述预测文本描述之间的误差和；

根据所述误差和，反向调节所述文本编码网络和所述预设图像描述网络的模型参数，返回执行所述将各所述文本描述采用所述文本编码网络进行编码，以获得各文本特征编码的步骤，直至所述预设图像描述网络和所述预设文本编码网络均收敛。

在一些实施例中，所述文本编码网络包括顺序遗忘编码模块和第一递归神经网络模块，所述将各文本描述采用所述文本编码网络进行编码，以获得各文本特征编码的步骤，包括：

将各文本描述分别输入所述顺序遗忘编码模块进行编码处理，以获取各文本向量，每个文本向量的长度固定；

将所述各文本向量分别输入所述第一递归神经网络模块进行上下文关联，以获取所述各文本特征编码。

在一些实施例中，所述将所述各文本特征编码分别与所述各文本特征编码对应的随机潜码输入至所述融合模块进行融合，以获取各融合潜码的步骤，包括：

对目标文本特征编码和所述目标文本特征编码对应的随机潜码输入至所述融合模块进行非线性计算，获得所述目标文本特征编码对应的融合潜码，所述目标文本特征编码为任一文本特征编码。

在一些实施例中，所述预设图像描述网络包括特征提取模块和第二递归神经网络模块，

所述将所述各训练变化图和所述各训练变化图对应的文本描述作为各样本对，输入预设图像描述网络，以获得所述各训练变化图对应的预测文本描述步骤包括：

将目标样本对中的训练变化图输入所述特征提取模块进行特征提取，获得目标样本对应的特征向量，所述目标样本对为任一样本对；

将所述特征向量和所述目标样本对中的文本描述输入所述第二递归神经网络模块，通过所述第二递归神经网络模型对所述特征向量和所述目标样本对中的文本描述进行解码，输出所述目标样本对中的训练变化图对应的预测文本描述。

在一些实施例中，所述根据预设损失函数，计算各所述文本描述和各所述预测文本描述之间的误差和的步骤，包括：

根据以下公式计算各所述文本描述和各所述预测文本描述之间的误差和；

其中，N为所述样本对的数量，L(θ)为最大概率和，

表示L₂正则化项，μ表示权重值，θ^* _i为第i个样本对对应的文本描述和预测文本描述之间的误差；

其中，所述文本描述和所述预测文本描述之间的误差为所述预测文本描述是所述文本描述的最大概率，根据以下公式计算所述文本描述和所述预测文本描述之间的误差；

其中，θ为模型参数，I为所述训练变化图，y为所述文本描述，θ^*为在模型参数θ下所述预测文本描述是所述文本描述的最大概率，(y|I；θ)表示待训练的图像描述网络在模型参数θ下，输出的所述训练变化图I的预测文本描述是所述文本描述y的概率。

在一些实施例中，所述第二递归神经网络模块为长短期记忆神经网络，

计算所述log(y|I；θ)的步骤包括：

根据以下公式，计算所述文本描述中各单词的联合概率作为所述待训练的图像描述网络在模型参数θ下，输出的所述训练变化图I的预测文本描述是所述文本描述y的概率；

log(y_i|y₁,y₂,......,y_t；I；θ)＝f(h_t,c_t)

ht＝LSTM(x_t,h_t-1,m_t-1)

其中，y_t为相对于当前单词y_t-1的下一个单词，f是一个输出y_t的概率的非线性函数，c_t是在t时刻从训练变化图中提取的视觉上、下文向量，h_t是t时刻长短期记忆神经网络层的状态，x_t为所述特征向量，m_t-1是在t-1时刻的记忆单元。

为解决上述技术问题，第二方面，本发明实施例中提供给了一种生成人脸变化图像的方法，包括：

获取测试文本描述和测试潜码，其中，所述测试潜码基于测试人脸图像生成的用于反映所述测试人脸的人脸特征的向量；

将所述测试文本描述和所述测试潜码输入如上第一方面所述的生成人脸变化图像模型，以通过所述生成人脸变化图像模型中的文本编码模型对所述测试文本描述进行编码处理，生成测试文本特征编码；将所述测试文本特征编码和所述测试潜码输入所述生成人脸变化图像模型中的融合模块进行融合，以输出测试融合潜码；将所述测试融合潜码输入所述生成人脸变化图像模型中的对抗生成网络，输出测试人脸变化图像，其中，所述测试人脸变化图像中的人脸与所述测试人脸图像中的人脸均反映同一目标人脸且所述测试人脸变化图像中的人脸属性与所述测试文本描述相匹配。

在一些实施例中，所述获取文本描述，包括：

获取语音信息；

采用语音识别算法，获取与所述语音信息对应的文本信息，将所述文本信息作为所述文本描述。

为解决上述技术问题，第三方面，本发明实施例中提供给了一种电子设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上第一方面所述的方法。

为解决上述技术问题，第四方面，本发明实施例中提供给了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使电子设备执行如上第一方面所述的方法。

本发明实施例的有益效果：区别于现有技术的情况，本发明实施例提供的生成人脸变化图像模型的训练方法及相关装置，所述生成人脸变化图像模型包括文本编码网络、融合模块以及对抗生成网络，首先，通过将训练集中的文本描述采用预设文本编码网络进行编码，以将文本描述转换为对抗生成网络能够识别的文本特征编码，然后，将文本特征编码与对应的人脸图像的随机潜码融合形成融合潜码，将融合潜码输入对抗生成网络，即可生成训练变化图，该训练变化图即为人脸图像按与文本描述对应的文本特征编码改变人脸特征后生成的，即通过文本特征编码控制人脸图像的变化方向。其次，为了约束文本特征编码的准确性，提高训练后的预设文本编码网络的准确性，使得变化后的变化图符合文本描述，构建预设图像描述网络，并将各训练变化图和对应的文本描述作为样本对，对该预设图像描述网络进行训练，使得训练后的图像描述网络能够实现图像描述功能，输出预测文本描述，然后，通过预设损失函数计算各文本描述和各预测文本描述之间的误差和，基于该误差和，反向调节预设图像描述网络的参数和预设文本编码网络的参数，使得预测文本描述不断靠近文本描述，不断迭代，直至预设图像描述网络和预设文本网络均收敛，获取生成人脸变化图像模型。也即，通过预设图像描述网络判断由对抗生成网络根据融合潜码生成的训练变化图是否符合文本描述，继而判断预设文本编码网络的准确性，约束预设文本编码网络的参数不断向准确度高的方向调整，使得文本描述对应的文本特征编码能够准确控制人脸图像的变化方向，从而，使得训练得到的人脸变化图像模型能够按用于反映用户意愿的文本描述个性化控制修改人脸特征，生成的变化后的人脸图像符合用户意愿。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为采用本申请实施例中生成人脸变化图像模型的训练方法训练得到的生成人脸变化图像模型的应用场景示意图；

图2为本申请一实施例提供的一种电子设备的结构示意图；

图3为本申请一实施例提供的一种生成人脸变化图像模型的训练方法的流程示意图；

图4为本申请一实施例提供的一种生成人脸变化图像的方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

经本申请实施例中生成人脸变化图像模型的训练方法，训练所获得的生成人脸变化图像模型可以用于拍照、视频录制或修图等多种应用中，实现按用户意愿个性化改变原有的人脸特征。

一个可选的场景，用户希望在自拍的时候通过指令信息改变人脸特征，以修饰自拍照，可以理解的是，该指令信息可以为语音信息或文本信息等，例如，如图1所示，在自拍的时候，发布语音信息“大眼睛长头发”，拍照设备(图1中以智能手机为例)在获取到该语音信息后，将该语音信息转化为文本信息，将文本信息提供给经本申请中训练方法得到的生成人脸变化图像模型，同时，将反映用户的原人脸图像特征向量的潜码提供给该生成人脸变化图像模型，从而，经由该生成人脸变化图像模型，可以针对用户的原人脸图像按文本信息(“大眼睛长头发”)进行修改，输出相应的变化后的人脸变化图像，即可获取修饰后的自拍照。

另一个可选的场景，用户在修图的过程中，希望能够实现智能化修图，具体的，提供一个智能化的修图软件(app)，将待修人脸图像和文本描述输入到该修图软件中，首先，通过修图软件中的潜码模块获取该待修图像的潜码(即待修图像的特征向量)，然后，将潜码和文本描述输入该修图软件中训练好的生成人脸变化图像模型，经由该生成人脸变化图像模型，可以对该待修人脸图像按文本信息中的指示进行修改，输出相应的修改后的人脸变化图像，该人脸变化图像符合该文本信息中所指示的特征。

本申请实施例中的生成人脸变化图像模型的训练方法以及生成人脸变化图像的方法，可以应用于终端设备、计算机***以及服务器等电子设备中，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***以及包括上述任何***的分布式云计算技术环境等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

本申请一实施例提供了一种电子设备，请参阅图2，为本申请实施例提供的一种电子设备的硬件结构示意图，具体的，如图2所示，该电子设备10包括通信连接的至少一个处理器11和存储器12(图2中以总线连接、一个处理器为例)。

其中，所述处理器11用于提供计算和控制能力，以控制电子设备10执行相应任务，例如，控制所述电子设备10执行下述实施例提供的任意一种生成人脸变化图像模型的训练方法或下述实施例提供的任意一种生成人脸变化图像的方法。

可以理解的是，所述处理器11可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

所述存储器12作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中的生成人脸变化图像模型的训练方法对应的程序指令/模块，或本发明实施例中生成人脸变化图像的方法对应的程序指令/模块。所述处理器11通过运行存储在存储器12中的非暂态软件程序、指令以及模块，可以实现下述任一方法实施例中的生成人脸变化图像模型的训练方法，以及可以实现下述任一方法实施例中的生成人脸变化图像的方法。具体地，所述存储器12可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器12还可以包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

以下，对本申请实施例提供的生成人脸变化图像模型的训练方法进行详细说明，所述生成人脸变化图像模型包括文本编码网络、融合模块以及对抗生成网络，其中，文本编码网络用于将文本转化为编码，将文本数据数值化，融合模块用于对至少两个编码进行计算，以将至少两个编码融合，对抗生成网络用于生成图像。

请参阅图3，该训练方法S20包括但不限制于以下步骤：

S21：获取训练集，所述训练集包括若干组训练数据，所述训练数据包括随机潜码和文本描述，所述随机潜码为用于生成人脸图像的向量。

S22：将各文本描述采用所述预设文本编码网络进行编码，以获得各文本特征编码，所述文本特征编码用于反映所述文本描述的语义特征；

S23：将所述各文本特征编码分别与所述各文本特征编码对应的随机潜码输入至所述融合模块进行融合，以获取各融合潜码。

S24：将所述各融合潜码分别输入所述对抗生成网络，以生成各训练变化图，其中，一个所述训练变化图为所述对抗生成网络基于一个所述融合潜码生成的人脸图像，一个所述训练变化图中的人脸属性与一个所述文本描述相匹配。

S25：将所述各训练变化图和所述各训练变化图对应的文本描述作为各样本对，输入预设图像描述网络，以获得所述各训练变化图对应的预测文本描述。

S26：根据预设损失函数，计算各所述文本描述和各所述预测文本描述之间的误差和。

S27：根据所述误差和，反向调节所述文本编码网络和所述预设图像描述网络的模型参数，直至所述预设图像描述网络和所述预设文本编码网络均收敛。

在本实施例中，训练集包括若干组训练数据，训练数据包括随机潜码和文本描述，该随机潜码与文本描述一一对应。其中，该随机潜码为用于生成人脸图像的向量，即随机潜码相当于人脸图像的向量表达。该文本描述指示需要变化后得到的人脸特征，例如，文本描述Vec＝[A girl with long hair and big eyes]。

在步骤S22中，为了使得文本描述能够被模型学习，首先，对训练集中的每一文本描述，均采用预设文本编码网络进行编码，以获得对应的文本特征编码，文本特征编码用于反映文本描述的语义特征，可知，文本特征编码相当于文本描述的数值化表示。具体的，可以将文本描述中每个单词均转化为一个向量，从而，文本描述即为一个多列的向量矩阵。例如，将上述文本描述Vec＝[A girl with long hair and big eyes]转换为一个m*n的向量矩阵，其中，m为单个单词的维度，n＝8为单词个数。从而，可以将文本描述转化为能够被模型学习的向量矩阵。在一些实施例中，预设文本编码网络可以为循环神经网络(RecurrentNeural Network,RNN)等。

在一些实施例中，该预设文本编码网络包括顺序遗忘编码模块和第一递归神经网络模块。其中，顺序遗忘编码模块用于将不固定长度的文本序列转化为固定长度的向量，以满足模型需要输入固定长度的向量的需求。第一递归神经网络模块用于建立单词与单词之间的联系，方便学习文本描述的上下文信息。

在此实施例中，该步骤S22具体包括：

S221：将各文本描述分别输入所述顺序遗忘编码模块进行编码处理，以获取各文本向量，每个文本向量的长度固定。

S222：将所述各文本向量分别输入所述第一递归神经网络模块进行上下文关联，以获取所述各文本特征编码。

顺序遗忘编码模块(Fixed-size Ordinally Forgetting Encoding，FOFE)将所有的文本设定为一个词表，词表的大小为K，则词表中的每个单词表示为一个K维的热编码向量e∈R^s，则对于给定的文本序列y＝{w₁，w₂，......w_T}，其中，每一个单词w_t都由一个K维热编码向量e_t表示。然后，基于以下递归公式对每个部分序列进行编码，递归公式如下：

其中，z_t表示的是文本序列从位置1到位置t这段序列的编码，例如对于文本序列“A girl with long hair and big eyes”，当t＝5时，Z₅表示“Agirl with long hair”这段序列的编码，α(0＜α＜1)表示遗忘因子，表示前面序列对当前词的影响，实际上它的指数也反应了词在序列中的次序信息。

基于上述顺序遗忘编码模块的原理，对于训练集中的每一文本描述，输入该顺序遗忘编码模块后，则会输出一个文本向量[Z₁，Z₂，......，Z_T]。该文本向量中每一向量Z_t的维度与词表的维度一致(均为K维)，使得文本向量的长度固定，并且在上述递归公式的作用下，生成具有与上文信息关联的向量Z_t，也初步保留了文本的上下文信息。

也即，通过采用顺序遗忘编码模块，由于文本描述中的每个单词均表示成一个K维的热编码向量，从而，将可变长度的文本描述编码成固定大小的文本向量，能够保证任何长度的文本描述的唯一性。

然后，将各文本向量分别输入第一递归神经网络模块，第一递归神经网络会以一个初始的参数去学习文本向量，然后，输出各文本特征编码。递归神经网络模块能够进一步学习上下文信息，建立单词与单词之间的联系，使得文本特征编码能够反映文本描述的上下文信息。

在一些实施例中，第一递归神经网络模块可以为现有的双向长短期记忆神经网络(Bi-directional Long Short-Term Memory，Bi_LSTM)。例如，对于第i个文本向量[Z_i1,Z_i2,......,Z_iT]，输入双向长短期记忆神经网络后，双向长短期记忆神经网络会以一个初始的参数学习文本向量，然后，输出一个具有上下文信息特征的文本特征编码，该文本特征编码fi＝Bi-LSTM(Z_i1,Z_i2,......,Z_iT)。

在此实施例中，预设文本编码网络采用顺序遗忘编码模块和第一递归神经网络模块，将输入预设文本编码网络的文本描述进行编码得到文本特征编码，其中，顺序遗忘编码模块可以无损地将可变长度的文本描述编码成固定大小的文本向量，能够保证任何长度的文本描述的唯一性，同时，通过第一递归神经网络模块能更好地学习上下文信息，使得文本特征编码能够反映文本描述的上下文信息。

在获取到训练集中各文本描述对应的文本特征编码后，即在所述步骤S23中，将各文本特征编码分别与各文本特征编码对应的随机潜码输入至所述融合模块进行融合，以获得各融合潜码。

其中，融合模块可以包括至少一个函数，使得文本特征编码与该文本特征编码对应的随机潜码经过一系列的函数映射后得到融合潜码，从而，使得融合潜码在具有原人脸图像的人脸特征的基础上同时具有文本描述所反映的人脸特征。

在一些实施例中，所述步骤S23的步骤，具体包括：

对于训练数据中的任一文本描述对应的文本特征编码和随机潜码，即目标文本特征编码和目标文本特征编码对应的随机潜码采用融合模块中的非线性函数进行非线性计算，以将目标文本特征编码和目标文本编码对应的随机潜码进行融合，得到目标文本特征编码对应的融合潜码。可以理解的是，在此实施例中，融合潜码是由文本特征编码和随机潜码通过非线性映射获取的，从而，能够更好的保留随机潜码所反映的人脸五官特征的同时，通过融合文本特征编码，使得文本特征编码能够准确控制人脸变化的方向。

例如，融合模块中的非线性函数可以为双曲正切函数，对于文本特征编码f_i和随机潜码W_i，采用双曲正切函数映射，得到融合潜码w_i’，w_i’＝tanh(W_i*f_i+b_i)，其中，W_i表示第i个训练数据的随机潜码，f_i表示第i个训练数据对应的文本特征编码，b_i表示第i个训练数据的偏差值，其中，b_i的初始值为0，在模型训练的过程中随机变化，是一个随机数。

在此实施例中，通过将文本特征编码与随机潜码进行非线性计算后，得到融合潜码，使得融合潜码能更好的保留随机潜码所反映的人脸五官特征的同时，又能，使得文本特征编码能够准确控制人脸变化的方向。

在步骤S24中，采用各融合潜码分别输入对抗生成网络，以生成各训练变化图。其中，一个所述训练变化图为所述对抗生成网络基于一个所述融合潜码生成的人脸图像，即融合潜码与训练变化图一一对应，并且，一个所述训练变化图中的人脸属性与一个所述文本描述相匹配，即文本描述反映的人脸特征添加到了原人脸图像中后生成该训练变化图。

可以理解的是，对抗生成网络可以为styleGAN网络，StyleGAN网络的网络结构包括Mapping network和Synthesis network，其中，Mapping network具有8个全连接层，用于将输入的融合潜码编码成一维的中间向量，该中间向量能够反映各脸部特征，例如眼睛特征、嘴巴特征或鼻子特征等。然后，将中间向量和随机噪声均输入Synthesis network的每一子网络层，每一子网络层进行反卷积运算，将各中间向量和随机噪声映射成p*p分辨率大小的图像数据，随着子网络层递进，分辨率大小p*p越来越大，最终，生成所需大小的训练变化图像。

采用styleGAN生成的训练变化图符合真实人脸，此外，基于训练好的生成人脸变化图像模型在应用中也是对真实人脸按文本描述进行修改，从而，训练变化图的真实性，有利于当训练变化图作为训练数据时能够增加生成人脸变化图像模型的准确性。

基于文本特征编码控制人脸图像的变化方向得到训练变化图，为了约束文本特征编码的准确性，提高训练后的预设文本编码网络的准确性，使得变化后的图像符合文本描述，构建预设图像描述网络，以检测文本特征编码的准确性，实现反向提高预设文本编码网络的准确性。具体的，在步骤S25中，对每一训练变化图和对应的文本描述作为样本对，然后，将各样本对输入预设图像描述网络，预设图像描述网络会以一个初始的参数去学习各训练变化图和对应的文本描述之间的关系，并输出对应的预测文本描述。可以理解的是，训练变化图是由对抗生成网络按文本描述修改人脸特征后得到的，从而，文本描述相当于训练变化图的真实标签。

然后，通过预设损失函数计算各文本描述和预测文本描述之间的误差和，根据该误差和，反向调节文本编码网络和预设图像描述网络的模型参数，经过多次迭代训练，直至预设图像描述网络和预设文本编码网络均收敛，获取准确率高的生成人脸变化图像模型。可以理解的是，基于同时反向调节文本编码网络和预设图像描述网络的模型参数，从而，使得预设文本编码网络和预设图像描述网络均得到同时训练，实现端对端的训练，并且，通过训练过程中的预设图像描述网络监测训练过程中的预设文本编码网络输出的文本特征编码的准确性，使得预设文本编码网络输出的文本特征编码所反映的特征不断逼近真实的描述文本，实现根据文本描述精准控制人脸图像的变化方向，从而，使得训练得到的生成人脸变化图像模型中的对抗生成网络根据训练好的预设文本编码网络输出的文本特征编码即可生成与对应的文本描述相符的人脸。

在一些实施例中，可采用adam算法优化所述模型参数，迭代次数可以设置为500次，初始学习率设置为0.001，权重衰减设置为0.0005，每50次迭代，学习率衰减为原来的1/10，训练完后，输出所述模型参数，即获得所述生成人脸变化图像模型。

在本实施例中，调节文本编码网络和预设图像描述网络的模型参数，首先，通过将训练集中的文本描述采用预设文本编码网络进行编码，以将文本描述转换为对抗生成网络能够识别的文本特征编码，然后，将文本特征编码与对应的人脸图像的随机潜码融合形成融合潜码，将融合潜码输入对抗生成网络，即可生成训练变化图，该训练变化图即为人脸图像按与文本描述对应的文本特征编码改变人脸特征后生成的，即通过文本特征编码控制人脸图像的变化方向。其次，为了约束文本特征编码的准确性，提高训练后的预设文本编码网络的准确性，使得变化后的变化图符合文本描述，构建预设图像描述网络，并将各训练变化图和对应的文本描述作为样本对，对该预设图像描述网络进行训练，使得训练后的图像描述网络能够实现图像描述功能，输出预测文本描述，然后，通过预设损失函数计算各文本描述和各预测文本描述之间的误差和，基于该误差和，反向调节预设图像描述网络的参数和预设文本编码网络的参数，使得预测文本描述不断靠近文本描述，不断迭代，直至预设图像描述网络和预设文本网络均收敛，获取生成人脸变化图像模型。也即，通过训练后的预设图像描述网络判断由对抗生成网络根据融合潜码生成的训练变化图是否符合文本描述，继而判断预设文本编码网络的准确性，约束预设文本编码网络的参数不断向准确度高的方向调整，使得文本描述对应的文本特征编码能够准确控制人脸图像的变化方向，从而，使得训练得到的人脸变化图像模型能够按用于反映用户意愿的文本描述个性化控制修改人脸特征，生成的变化后的人脸图像符合用户意愿。

在一些实施例中，该预设图像描述网络包括特征提取模块和递归神经网络模块。其中，特征提取模块用于提取图像特征，将图像数据转化为用于反映图像特征的向量，递归神经网络模块用于学习图像特征和文本描述。

在此实施例中，预设图像描述网络包括特征提取模块和第二递归神经网络模块，在此实施例中，步骤S25具体包括：

S251：将目标样本对中的训练变化图输入所述特征提取模块进行特征提取，获得目标样本对应的特征向量，所述目标样本对为任一样本对。

S252：将所述特征向量和所述目标样本对中的文本描述输入所述第二递归神经网络模块，通过所述第二递归神经网络模型对所述特征向量和所述目标样本对中的文本描述进行解码，输出所述目标样本对中的训练变化图对应的预测文本描述。

一样本对包括训练变化图和对应的文本描述，对于任一样本对，即目标样本对，将目标样本对中的训练变化图输入特征提取模块进行特征提取，从而，获得特征向量，即实现将图像数据转换成向量。在一些实施例中，特征提取模块可以包括卷积层组、激活函数层和归一化层。

其中，卷积层组包括多个卷积层，每个卷积层包括至少一个卷积核，以进行卷积运算。一卷积层输出一特征图，卷积核个数越多，特征提取能力越强，其对应的特征图中的特征也越多，越背离原训练变化图。为了避免特征采样过程中特征信息流失，采用均步长，使得卷积核在卷积运算中移动的长度均匀。其中，激活函数层可以为Leaky ReLU或softmax等非线性激活函数，从而，激活函数层可以增加模型的非线性，使得神经网络可以应用到非线性模型中。其中，归一化层用于把数据映射到0～1范围之内，便于处理，使得计算更加便捷快速。

可以理解的是，生成特征向量的相应的数学表达式如下公式：

其中，

表示第l层的第m个特征图，

表示第1+1层的第n个特征图，

表示第l+1层的卷积核，

表示第l+1层的偏置项，

σ(·)表示LealyRelu激活函数，IN表示归一化。

训练变化图经上述特征提取模块进行特征提取后，生成一个1024*1的特征向量。可以理解的是，在一些实施例中，也可以采用现有的Mobilenet，Resnet网络结构或VGG网络结构提取特征。在此，对于特征提取模块不设任何限制，只要符合卷积特征提取的过程即可。

然后，将特征向量和样本对中对应的文本描述输入第二递归神经网络模块，第二递归神经网络模块对特征向量和目标样本对中的文本描述进行解码后，输出该训练变化图对应的预测文本描述。

具体的，对于一输入的训练变化图I和文本描述y，训练变化图I被特征提取模块提取特征生成一个一维的特征向量V，文本描述y中的每一个单词被映射成一个只包括0和1的热编码向量。然后，构建一个词表，则词表中的每个单词表示为一个K维的热编码向量，例如，“girl”被映射成向量[0,1,0,0,0,0]，并且文本描述以一个默认开始的单词<start>开始，以默认结束的单词<end>结束，则文本描述“A girl with long hair and big eyes”被映射成向量组[W0,W1,W2,......,W9]，其中，向量W0表示<start>,向量W9表示<end>，向量W2表示“girl”。可以理解的是，该映射可以采用上述顺序遗忘编码模块编码获取。

从而，特征向量和向量组输入第二递归神经网络模块，第二递归神经网络模块按自身的机理对特征向量与向量组进行解码，经第二递归神经网络模型的softmax层输出一组概率值，然后，将该概率值转换为热编码向量，在词表中查找热编码向量对应的单词，从而，实现输出预测文本描述，即单词序列[y1’,y2’,....yn’]。其中，第二递归神经网络模块可以为现有的长短期记忆网络(Long short-term memory,LSTM)。

在此实施例中，通过特征提取模块实现训练变化图像向量化，通过第二递归神经网络模块学习特征向量和文本描述之间的关系，使得预设图像描述网络能够实现图像描述功能，从而，可以通过该预设图像描述网络判断对抗生成网络生成的图像是否符合输入的文本描述，反向优化预设文本编码网络，以训练得到生成人脸变化图像模型。

在一些实施例中，所述步骤S26具体包括：

其中，N为所述样本对的数量，L(θ)为最大概率和的相反数，

表示L2正则化项，μ表示权重值，θ^* _i为第i个样本对对应的文本描述和预测文本描述之间的误差。

其中，L2正则化项可以防止模型过度拟合，提高模型的泛化性能。可以理解的是，当L(θ)在相邻几次迭代前后在一定范围内波动时，说明模型收敛，停止训练。

其中，θ为所述文本编码网络和所述预设图像描述网络的模型参数，I为所述训练变化图，y为所述文本描述，θ*为在模型参数θ下所述预测文本描述是所述文本描述的最大概率，(y|I；θ)表示待训练的图像描述网络在模型参数θ下，输出的所述训练变化图I的预测文本描述是所述文本描述y的概率。

可以理解的是，基于上述第二递归神经网络模块对特征向量和文本描述进行解码的原理，在计算文本描述和预测文本描述之间的误差的过程中，通过调整所述文本编码网络和所述预设图像描述网络的模型参数θ，获得多组概率值。相当于，将训练变化图I和多组概率值作为已知的样本结果，反推最具有可能(最大概率)导致样本结果为真实的样本对(I，y)的模型参数θ，即最大概率θ*说明了预测文本描述与真实的文本描述之间的接近程度，能够反映两者之间的误差。该最大概率θ*越大，两者之间的误差越小。

在此实施例中，通过调整第二递归神经网络模块输出多组概率值，然后，将训练变化图I和多组概率值作为已知的样本结果，反推最具有可能(最大概率)导致样本结果为真实的样本对(I，y)的模型参数θ，即最大概率θ*说明了预测文本描述与真实的文本描述之间的接近程度，能够准确反映两者之间的误差，使得预设损失函数准确，有益于训练出准确的生成人脸变化图像模型。

在一些实施例中，所述第二递归神经网络模块为现有的长短期记忆神经网络，长短期记忆神经网络采用遗忘门、输入门和输出门来控制记忆单元状态，其中，遗忘门用于控制是否遗忘当前记忆单元的值，输入门用于控制是否读取记忆单元的输入，输出门用于控制是否输出新的记忆单元的值。采用门的机制，能够一定程度上解决梯度***，梯度消失问题。

所述计算所述log(y|I；θ)的步骤包括：

log(y_i|y₁,y₂,......,y_t；I；θ)＝f(h_t,c_t)

ht＝LSTM(x_t,h_t-1,m_t-1)

其中，y_t为相对于当前单词y_t-1的下一个单词，f是一个输出y_t的概率的非线性函数，c_t是在t时刻从训练变化图中提取的视觉上下文向量，h_t是t时刻长短期记忆神经网络层的状态，x_t为所述特征向量，m_t-1是在t-1时刻的记忆单元，h_t-1是在t-1时刻长短期记忆神经网络层的状态。

在此实施例中，由于y代表任何一个句子，它的长度是无限的，因此，采用链式来模拟y中各单词y₁,...y_t上的联合概率，即

联合概率为预测出的各单词为文本描述中对应的单词的概率的组合，是预测文本描述为真实的文本描述的总的概率。在长短期记忆神经网络中，t-1时刻的记忆单元m_t-1和长短期记忆神经网络层的状态输入t时刻的记忆单元中，从而，长短期记忆神经网络能够利用之前生成的单词生成下一个单词，使得网络具有长期记忆功能，使得联合概率更加准确，并且，采用门的机制，能够一定程度上解决梯度***，梯度消失问题，使得训练得到的生成人脸变化图像模型更加准确。

综上所述，本发明实施例提供的生成人脸变化图像模型的训练方法及相关装置，所述生成人脸变化图像模型包括文本编码网络、融合模块以及对抗生成网络，首先，通过将训练集中的文本描述采用预设文本编码网络进行编码，以将文本描述转换为对抗生成网络能够识别的文本特征编码，然后，将文本特征编码与对应的人脸图像的随机潜码融合形成融合潜码，将融合潜码输入对抗生成网络，即可生成训练变化图，该训练变化图即为人脸图像按与文本描述对应的文本特征编码改变人脸特征后生成的，即通过文本特征编码控制人脸图像的变化方向。其次，为了约束文本特征编码的准确性，提高训练后的预设文本编码网络的准确性，使得变化后的变化图符合文本描述，构建预设图像描述网络，并将各训练变化图和对应的文本描述作为样本对，对该预设图像描述网络进行训练，使得训练后的图像描述网络能够实现图像描述功能，输出预测文本描述，然后，通过预设损失函数计算各文本描述和各预测文本描述之间的误差和，基于该误差和，反向调节预设图像描述网络的参数和预设文本编码网络的参数，使得预测文本描述不断靠近文本描述，不断迭代，直至预设图像描述网络和预设文本网络均收敛，获取生成人脸变化图像模型。也即，通过预设图像描述网络判断由对抗生成网络根据融合潜码生成的训练变化图是否符合文本描述，继而判断预设文本编码网络的准确性，约束预设文本编码网络的参数不断向准确度高的方向调整，使得文本描述对应的文本特征编码能够准确控制人脸图像的变化方向，从而，使得训练得到的人脸变化图像模型能够按用于反映用户意愿的文本描述个性化控制修改人脸特征，生成的变化后的人脸图像符合用户意愿。

以下，对本发明实施例所提供的生成人脸变化图像的方法进行详细说明，请参阅图4，该方法S30包括但不限制于以下步骤：

S31：获取测试文本描述和测试潜码，其中，所述测试潜码基于测试人脸图像生成的用于反映所述测试人脸的人脸特征的向量。

S32：将所述测试文本描述和所述测试潜码输入如上述任一实施例中的生成人脸变化图像模型，以通过所述生成人脸变化图像模型中的文本编码模型对所述测试文本描述进行编码处理，生成测试文本特征编码；将所述测试文本特征编码和所述测试潜码输入所述生成人脸变化图像模型中的融合模块进行融合，以输出测试融合潜码；将所述测试融合潜码输入所述生成人脸变化图像模型中的对抗生成网络，输出测试人脸变化图像，其中，所述测试人脸变化图像中的人脸与所述测试人脸图像中的人脸均反映同一目标人脸且所述测试人脸变化图像中的人脸属性与所述测试文本描述相匹配。

可以理解的是，测试人脸图像为需要修改特征前的包括人脸的图像，例如，可以为未经处理的人脸照片或未经处理的录制视频中的帧图像。若测试人脸图像为未经处理的人脸照片，则该实施例可以应用到拍照或修图等的应用场景中，以改变测试人脸图像的特征，若测试人脸图像为未经处理的录制视频中的帧图像，则该实施例可以应用到视频录制等应用场景中，以改变测试人脸图像的特征。

测试潜码为用于反映所述测试人脸的人脸特征的向量，即测试人脸图像为图像数据，则潜码为该图像数据的向量形式，例如，由测试潜码经对抗生成网络(styleGAN)可以生成该测试人脸图像。在一些实施例中，该测试潜码是基于测试人脸图像生成的，例如可以采用视觉几何组模型(Visual Geometry Group，VGG)将测试人脸图像转换为测试潜码。进一步的，在一些实施例中，还可以对该测试潜码进行优化，具体的，将转换得到的测试潜码输入对抗生成网络(styleGAN)生成新的人脸图像，判断新的人脸图像与测试人脸图像的相似性，根据相似性调整测试潜码，以得到优化后的准确的测试潜码。

文本描述是用户输出的，用于指示需要变化后得到的人脸特征，例如，文本描述可以为[A girl with long hair and big eyes]。

在获取到测试文本描述和测试潜码后，将文本描述和潜码输入上述任一实施例中的生成人脸变化图像模型，具体的，通过生成人脸变化图像模型中的文本编码模型对测试文本描述进行编码处理，生成测试文本特征编码；将测试文本特征编码和测试潜码输入所述生成人脸变化图像模型中的融合模块进行融合，以输出测试融合潜码；将测试融合潜码输入所述生成人脸变化图像模型中的对抗生成网络，输出测试人脸变化图像。该测试人脸变化图即为测试人脸图像根据该文本描述变化后的人脸变化图像，从而，测试人脸变化图像中的人脸与测试人脸图像中的人脸均反映同一目标人脸，例如均为人物“小红”的人脸，且测试人脸变化图像中的人脸属性与测试文本描述相匹配，例如测试文本描述为“短头发大眼睛”则测试人脸变化图像中的人脸属性也会体现“短头发大眼睛”。

可以理解的是，该生成人脸变化图像模型是通过上述实施例中的生成人脸变化图像模型的训练方法训练得到的，与上述实施例中的生成人脸变化图像模型具有相同的结构和功能，在此不再一一赘述。

在一些实施例中，获取文本描述的步骤，包括：

S311：获取语音信息。

S312：采用语音识别算法，获取与所述语音信息对应的文本信息，将所述文本信息作为所述文本描述。

可以理解的是，在本实施例中，文本描述由语音信息转换得到，具体的，可以通过电子设备中的麦克风采集语音信息，该语音信息可以由用户发出，例如，当用户对着电子设备说“长头发大眼睛”，则电子设备采集到反映该语音信息的音频信号，并采用现有的语音识别算法，例如高斯混合模型或隐马尔科夫模型等，对语音信息进行识别，获取与该语音信息对应的文本信息，即将音频信号转化为文本信息，并将该文本信息作为文本描述。从而，可以实现语音控制人脸特征的变化。

本实施例可以应用到拍照或视频录制中，例如，当用户使用电子设备(例智能手机)拍照或录制视频时，用户可以语音控制获得的照片中的特征或视频中的帧图像中的特征，例如，语音控制眼睛变大或头发变长等。从而，可以实现语音控制人脸特征变化，增加拍照或视频录制过程中的趣味性。

本发明另一实施例还提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使电子设备执行上述生成人脸变化图像模型的训练方法，或，生成人脸变化图像的方法。

需要说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种生成人脸变化图像模型的训练方法，其特征在于，所述生成人脸变化图像模型包括文本编码网络、融合模块以及对抗生成网络，所述方法包括：

2.根据权利要求1所述的训练方法，其特征在于，所述文本编码网络包括顺序遗忘编码模块和第一递归神经网络模块，所述将各文本描述采用所述文本编码网络进行编码，以获得各文本特征编码的步骤，包括：

3.根据权利要求1所述的训练方法，其特征在于，所述将所述各文本特征编码分别与所述各文本特征编码对应的随机潜码输入至所述融合模块进行融合，以获取各融合潜码的步骤，包括：

4.根据权利要求1所述的训练方法，其特征在于，所述预设图像描述网络包括特征提取模块和第二递归神经网络模块，

5.根据权利要求1所述的训练方法，其特征在于，所述根据预设损失函数，计算各所述文本描述和各所述预测文本描述之间的误差和的步骤，包括：

其中，N为所述样本对的数量，L(θ)为最大概率和，

其中，θ为所述文本编码网络和所述预设图像描述网络的模型参数，I为所述训练变化图，y为所述文本描述，θ^*为在模型参数θ下所述预测文本描述是所述文本描述的最大概率，(y|I；θ)表示待训练的图像描述网络在模型参数θ下，输出的所述训练变化图I的预测文本描述是所述文本描述y的概率。

6.根据权利要求5所述的训练方法，其特征在于，所述第二递归神经网络模块为长短期记忆神经网络，

计算所述log(y|I；θ)的步骤包括：

log(y_i|y₁,y₂,......,y_t；I；θ)＝f(h_t,c_t)

ht＝LSTM(x_t,h_t-1,m_t-1)

7.一种生成人脸变化图像的方法，其特征在于，包括：

获取测试文本描述和测试潜码，其中，所述测试潜码为基于测试人脸图像生成的用于反映所述测试人脸图像中人脸的人脸特征的向量；

将所述测试文本描述和所述测试潜码输入如权利要求1-6任一项所述的生成人脸变化图像模型，以通过所述生成人脸变化图像模型中的文本编码模型对所述测试文本描述进行编码处理，生成测试文本特征编码；将所述测试文本特征编码和所述测试潜码输入所述生成人脸变化图像模型中的融合模块进行融合，以输出测试融合潜码；将所述测试融合潜码输入所述生成人脸变化图像模型中的对抗生成网络，输出测试人脸变化图像，其中，所述测试人脸变化图像中的人脸与所述测试人脸图像中的人脸均反映同一目标人脸且所述测试人脸变化图像中的人脸属性与所述测试文本描述相匹配。

8.根据权利要求7所述的方法，其特征在于，所述获取文本描述，包括：

获取语音信息；

9.一种电子设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使电子设备执行如权利要求1-8任一项所述的方法。