CN116152447B

CN116152447B - 一种人脸建模方法、装置、电子设备及存储介质

Info

Publication number: CN116152447B
Application number: CN202310431115.5A
Authority: CN
Inventors: 杨硕; 何昊南; 何山; 殷兵; 刘聪; 周良; 胡金水
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-09-26
Anticipated expiration: 2043-04-21
Also published as: CN116152447A

Abstract

本申请提供一种人脸建模方法、装置、电子设备及存储介质，所述人脸建模方法，包括：获得包含目标人脸的影像数据；利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数；其中，所述面部参数处理模型至少基于样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到。该方法通过样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模，训练能够基于包含目标人脸的影像数据，获得目标人脸的面部参数的面部参数处理模型，使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。

Description

一种人脸建模方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理领域，具体涉及一种人脸建模方法、装置、电子设备及存储介质。

背景技术

随着游戏、短视频以及AR/VR技术的发展，人脸模型的创建技术越来越多的被应用于相关领域，例如：3D头像的创建、人脸的识别、虚拟化妆等。

目前大多数的移动设备中都配备有单目RGB相机，因此，如何基于单目图像或视频实现人脸模型的创建，成为本领域技术人员的一个重要研究方向。

发明内容

本申请提供一种人脸建模方法、装置、电子设备及存储介质，以从图像或视频中实现人脸模型的创建。

根据本申请实施例的第一方面，提供了一种人脸建模方法，包括：

获得包含目标人脸的影像数据；

利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数；

其中，所述面部参数处理模型至少基于样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到。

在本申请的一种可选实施方式中，所述利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数，包括：

获得所述影像数据的视觉特征；

对所述影像数据的视觉特征进行参数化处理，得到与所述目标人脸对应的面部参数。

在本申请的一种可选实施方式中，所述获得所述影像数据的视觉特征，包括：

将所述影像数据输入预先训练的面部参数处理模型，通过所述面部参数处理模型中的视觉特征提取模型，提取所述影像数据的视觉特征。

在本申请的一种可选实施方式中，所述面部参数处理模型至少基于样本声学特征，以及所述面部参数处理模型输出的样本视觉特征之间的相似度，进行参数优化得到；

所述样本声学特征包括所述样本影音数据中与人脸影像数据对应的语音数据的声学特征；所述样本视觉特征包括所述样本影音数据中的所述人脸影像数据的视觉特征。

在本申请的一种可选实施方式中，所述面部参数处理模型通过以下方式训练得到：

对样本影音数据中与人脸影像数据对应的语音数据进行声学特征提取处理，得到所述样本声学特征；

利用预先构建的面部参数处理模型，对所述样本影音数据中的人脸影像数据进行视觉特征提取处理，得到所述样本视觉特征；

至少根据所述样本声学特征与所述样本视觉特征之间的相似度，优化所述面部参数处理模型。

在本申请的一种可选实施方式中，所述至少根据所述样本声学特征与所述样本视觉特征之间的相似度，优化所述面部参数处理模型，包括：

根据所述样本声学特征和所述样本视觉特征之间的相似度，构建所述面部参数处理模型的损失函数；

基于所述损失函数，优化所述面部参数处理模型。

获得所述预先构建的面部参数处理模型，处理所述样本影音数据的人脸影像数据得到的样本人脸面部参数；

根据所述样本人脸面部参数和初始人脸模型参数，渲染样本人脸模型的二维图像；

根据所述二维图像与所述样本影音数据的人脸影像数据之间的差异度，以及所述样本声学特征与所述样本视觉特征之间的相似度，优化所述面部参数处理模型。

在本申请的一种可选实施方式中，所述二维图像与所述样本影音数据的人脸影像数据之间的差异度，通过以下方式确定：

计算所述二维图像与所述人脸影像数据之间的像素差值，确定所述二维图像与所述人脸影像数据之间的第一差异度；

和/或，

对所述二维图像和所述人脸影像数据进行人脸特征提取，得到所述二维图像的第一人脸特征和所述人脸影像数据的第二人脸特征；根据所述第一人脸特征和所述第二人脸特征，确定所述二维图像与所述人脸影像数据之间的第二差异度；

和/或，

确定所述二维图像的预设关键点与所述人脸影像数据中预设关键点之间的第三差异度。

在本申请的一种可选实施方式中，所述对所述二维图像和所述人脸影像数据进行人脸特征提取，得到所述二维图像的第一人脸特征和所述人脸影像数据的第二人脸特征，包括：

利用预先训练的人脸识别模型，对所述二维图像和所述人脸影像数据进行人脸特征提取，得到所述二维图像的第一人脸特征和所述人脸影像数据的第二人脸特征。

在本申请的一种可选实施方式中，所述方法还包括：

将所述目标人脸的面部参数应用于预先创建的初始人脸模型，获得与所述目标人脸对应的人脸模型。

根据本申请实施例的第二方面，提供了一种人脸建模装置，包括：

第一单元，用于获得包含目标人脸的影像数据；

第二单元，用于利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数；

根据本申请实施例的第三方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于通过运行所述存储器中的指令，执行上述人脸建模方法。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器运行时，执行上述人脸建模方法。

与现有技术相比，本申请具有以下优点：

本申请提供一种人脸建模方法、装置、电子设备及存储介质，所述人脸建模方法，包括：获得包含目标人脸的影像数据；利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数；其中，所述面部参数处理模型至少基于样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到。

该方法通过样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模，训练能够基于包含目标人脸的影像数据，获得目标人脸的面部参数的面部参数处理模型，使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请一实施例提供的人脸模型建模方法的应用场景示意图。

图2为本申请另一实施例提供的人脸建模方法流程图。

图3为本申请另一实施例提供的面部参数处理模型的训练流程图。

图4为本申请另一实施例提供的人脸建模装置结构示意图。

图5为本申请另一实施例提供的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供一种人脸建模方法、装置、电子设备及存储介质，以从图像或视频中实现人脸模型的创建，在以下的实施例中将逐一进行详细说明。

示例性实施环境

为了便于理解本申请实施例提供的所述人脸模型建模方法、装置、电子设备及存储介质，首先，对所述人脸模型建模方法的应用场景进行介绍。

在本申请场景实施例中，所述人脸模型创建方法具体应用于基于通过手机拍摄的影像数据，创建3D人脸模型。

请参考图1，图1为本申请一实施例提供的人脸模型建模方法的应用场景示意图。

图1中包括：3D人脸模型的生成阶段，以及面部参数处理模型的训练阶段；

3D人脸模型的生成阶段主要包括以下步骤S101至步骤S103：

步骤S101，获得拍摄得到的包含目标人脸的影像数据。

所述目标人脸的影像数据是指通过手机摄像头拍摄的期望创建3D人脸模型的人的视频片段。

步骤S102，利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化处理，得到所述目标人脸的面部参数。

即，将所述影像数据输入所述面部参数处理模型，以使所述面部参数处理模型对所述影像数据中的目标人脸进行参数化处理，得到所述目标人脸的面部参数。

步骤S103，根据所述目标人脸的面部参数，构建所述目标人脸的3D人脸模型。

具体的，可以将所述目标人脸的面部参数应用于预先创建的初始人脸模型，进而获得与所述目标人脸对应的3D人脸模型。

在实际应用的过程中，上述步骤S101至步骤S103的实施主体可以是拍摄所述影像数据的手机，也可以是专用于生成3D人脸头像的电脑或服务器，对此，本申请不做限制。

在面部参数处理模型的训练阶段：

在本申请场景实施例中，用于对所述面部参数处理模型进行训练的内容为样本影音数据，即，包含人脸的影像数据和影像数据中的语音数据的视频。

在本申请的一种可选实施方式中，所述样本影音数据可以为一段公开会议中发言人的视频片段，或者某段视频中剪辑得到的某人在讲话时的视频片段等等。

在对所述面部参数处理模型进行训练之间，首先构建用于训练所述面部参数处理模型的样本对。

在本申请实施例中，所述面部参数处理模型的样本对，包括：所述人脸影像数据中某一视频帧的视觉特征和与该视频帧对应的语音数据的声学特征。

具体的，如图1所示，图1中包括：声学模型104和面部参数处理模型105。

其中，声学模型104用于基于输入该模型的语音数据，提取该语音数据的声学特征；

面部参数处理模型105用于基于输入该模型的视频帧，提取该视频帧的视觉特征。

具体的，面部参数处理模型105中包含一视觉特征提取模型，在将所述视频帧输入所述面部参数处理模型105后，视觉特征提取模型会对所述视频帧进行视觉特征提取处理，以得到所述视觉特征。

在获得所述声学特征和所述视觉特征后，即可基于所述视觉特征和所述声学特征之间的相似度，构建面部参数处理模型105的损失函数，进而基于所述损失函数的损失值，对面部参数处理模型105进行优化处理。

可以理解的，以上对本申请场景实施例的介绍只是为了便于更好的理解本申请提供的人脸建模方法，而非用于对所述人脸建模方法的应用场景进行限定，所述人脸建模方法还可以应用于其他场景，比如说，用于人脸的识别、虚拟化妆等场景。

示例性方法

本申请实施例同时提供一种人脸建模方法，其核心在于，通过样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模，训练能够基于包含目标人脸的影像数据，获得目标人脸的面部参数的面部参数处理模型，使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。

在本申请的一种可选实施方式中，所述人脸建模方法的实施主体可以是笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备（例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，游戏主机）等各种类型的用户终端或者是这些数据处理设备中任意两个或多个的组合，也可以是服务器。

请参考图2，图2为本申请另一实施例提供的人脸建模方法流程图。

如图2所示，所述人脸建模方法，包括以下步骤S201和步骤S202：

步骤S201，获得包含目标人脸的影像数据。

在本申请实施例中，所述包含目标人脸的影像数据可以理解为针对目标人脸拍摄的视频。

在实际应用的过程中，所述包含目标人脸的影像数据可以通过手机、平板电脑等移动终端的摄像头拍摄获得，也可以通过互联网等方式获得。对此，本申请不做限制。

步骤S202，利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数。

所述预先训练的面部参数处理模型可以理解为一种卷积神经网络，在具体应用的过程中，可以采用机器学习（Machine Learning，ML）的方式训练获得所述面部参数处理模型。机器学习（是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科）专用于研究通过训练样本，获取新的知识或技能，重新组织已有知识结构并不不断改善自身性能。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术，属于人工智能（Artificial Intellingence，AI）技术的一个分支。

在本申请实施例中，所述面部参数处理模型中包括一视觉特征提取模型，在利用所述面部参数处理模型处理所述影像数据的过程中，所述视觉特征提取模型首先对所述影像数据进行帧级别的特征提取处理，得到所述影像数据中各视频帧中目标人脸的视觉特征，之后，所述面部参数处理模型再基于所述视觉特征，得到所述目标人脸的面部参数。

即，所述利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数，包括：

获得所述影像数据的视觉特征；

进一步的，为了便于理解所述面部参数处理模型获得所述目标人脸的面部参数的过程，以下首先对所述面部参数处理模型的训练过程进行介绍。

请参考图3，图3为本申请另一实施例提供的面部参数处理模型的训练流程图。

如图3所示，所述面部参数处理模型通过以下步骤S301至步骤S303训练：

步骤S301，对样本影音数据中与人脸影像数据对应的语音数据进行声学特征提取处理，得到所述样本声学特征。

在本申请实施例中，所述样本影音数据可以理解为一种包含人脸影像和语音数据的视频。比如说，所述样本影音数据可以为某一人物在讲话时的音视频。所述样本声学特征可以理解为所述样本影音数据中语音数据的音素特征。

在本申请的一种可选实施方式中，所述样本声学特征可以通过预先训练的语音识别模型获得。所述语音识别模型具体用于对输入所述语音识别模型的语音数据进行语音识别处理，得到与所述语音数据对应的识别文本。

其中，所述语音识别模型包括一声学模型和一特征解码器，其中，所述声学模型用于对输入语音识别模型的语音数据进行声学特征提取，得到所述语音数据的声学特征，所述特征解码器则用于对所述声学特征进行解码，得到与所述语音数据对应的识别文本。

在本申请的另一种可选实施方式中，所述样本声学特征也可以基于预先训练的声学特征提取模型获得，对此，本申请不做限制。

步骤S302，利用预先构建的面部参数处理模型，对所述样本影音数据中的人脸影像数据进行视觉特征提取处理，得到所述样本视觉特征。

所述样本影音数据中的人脸影像数据可以理解为所述样本影音数据中的影像部分，例如：所述样本影像数据中的视频帧。

在本申请实施例中，上述步骤S302，包括：将所述样本影音数据中的人脸影像数据输入所述预先构建的面部参数处理模型，通过所述面部参数处理模型中的视觉特征提取模型，提取所述人脸影像数据中的样本视觉特征。

如前文所述，所述样本影音数据中的语音数据的声学特征是指语音数据中的音素特征，而音素作为语音的基本单位与唇形间存在一定的对应关系，在通过所述面部参数处理模型提取所述人脸影像数据中的样本视觉特征后，所述样本视觉特征中也会存在人物在讲话时的人脸各个方面的视觉特征。基于此，即可对所述面部参数处理模型进行优化，并进一步执行以下步骤S303。

步骤S303，至少根据所述样本声学特征与所述样本视觉特征之间的相似度，优化所述面部参数处理模型。

在本申请的一种可选实施方式中，在对所述面部参数处理模型进行参数优化处理之前，还需将所述视觉特征与所述声学特征进行对应，以提高所述面部参数处理模型的训练精度。

在实际应用的过程中，对所述样本影音数据中的人脸影像数据的样本视觉特征的提取过程是基于视频帧进行的，即，每个视频帧对应一个视觉特征；而对于通过声学模型或语音识别模型提取得到的声学特征而言，所述声学特征的频率一般为49赫兹，每个声学特征之间的步长约为20毫秒，对于大多数样本影音数据而言，提取得到的每个视觉特征无法做到与所述声学特征一一对应。因此，在本申请实施例中，在通过所述语音识别模型提取得到所述声学特征后，可以基于相邻声学特征之间的变化，进行线性插值，以使线性插值后的声学特征的数量为视频帧数的两倍。

例如，对于30fps的样本影音数据，在对样本影音数据的声学特征进行线性插值处理后，声学特征的频率变为6hz，此时，每个视频帧有两个与之匹配的声学特征，可以将任意视频帧以及与该视频帧匹配的声学特征作为正样本对，将不相匹配的声学特征和视频帧作为负样本对，以在提取视频帧的视觉特征后，对所述面部参数处理模型进行训练。

基于所述损失函数，优化所述面部参数处理模型。

具体的，所述面部参数处理模型的损失函数的构建可以通过以下公式（1）至公式（3）实现：

（1）；

（2）；

（3）；

其中，表示声学特征；/>表示视觉特征；/>表示第i个视觉特征与其对应的声学特征之间的相似度；/>为可调节的温度系数；k表示视觉特征的个数；/>表示从声学特征到视觉特征的对比项；/>表示从视觉特征到声学特征的对比项；λ表示所述对比项的权重系数，在本申请的一种可选实施方式中，λ可以设为0.5；公式（3）为最终获得的损失函数；/>表示所述面部参数处理模型的损失值。

在本申请的另一可选实施方式中，所述至少根据所述样本声学特征与所述样本视觉特征之间的相似度，优化所述面部参数处理模型，包括以下步骤S1至步骤S3：

步骤S1，获得所述预先构建的面部参数处理模型，处理所述样本影音数据的人脸影像数据得到的样本人脸面部参数。

步骤S2，根据所述样本人脸面部参数和初始人脸模型参数，渲染样本人脸模型的二维图像。

在本申请的一种可选实施方式中，可以通过FLAME模型构建初始人脸模型，进而得到所述初始人脸模型参数。

所述初始人脸模型可以通过以下公式（4）表示：

（4）；

其中，N表示三维空间中所述初始人脸模型的N个顶点；为用于控制人脸模型形状变化的参数；/>为用于控制人脸模型表情变化的参数；/>为用于控制人脸模型关节运动和整体旋转的参数。

在实际应用的过程中，在将样本影音数据中得人脸影像数据输入到所述面部参数处理模型后，所述面部参数处理模型输出从人脸影像数据中得到的预测表情参数和关节运动参数/>，即，/>，其中/>表示所述面部参数处理模型，I表示输入所述面部参数处理模型的人脸影像数据。

在本申请的一种可选实施方式中，将所述面部参数处理模型的输出面部参数和所述初始人脸模型的初始人脸模型参数一起输入预设的微分渲染器，即可获得所述渲染样本人脸模型的二维图像。

具体的，上述步骤S2所述的根据所述预先构建的面部参数处理模型，处理所述样本影音数据的人脸影像数据得到的样本人脸面部参数的过程可以通过以下公式（5）表示：

（5）；

其中，表示所述样本人脸模型的二维图像，/>为用于渲染二维图像的纹理参数；为用于渲染二维图像的光照参数；/>为相机内外参的参数。

步骤S3，根据所述二维图像与所述样本影音数据的人脸影像数据之间的差异度，以及所述样本声学特征与所述样本视觉特征之间的相似度，优化所述面部参数处理模型。

具体的，上述步骤S3是指，在所述声学特征与所述样本视觉特征之间的相似度的基础上，结合所述二维图像与所述样本影音数据的人脸影像数据之间的差异度，构建所述面部参数处理模型的损失函数，从而优化所述面部参数处理模型。

本申请实施例之所以通过上述步骤S3优化所述面部参数处理模型，视为了使所述面部参数处理模型在学习到人脸建模过程中二维像素空间中的缺失的同时，还能学习到语音空间上的存在的信息。

进一步的，所述二维图像与所述样本影音数据的人脸影像数据之间的差异度可以通过以下方式获得：

和/或，

即，所述二维图像与所述样本影音数据的人脸影像数据之间的差异度，包括所述第一差异度、第二差异度，以及所述第三差异度中的一个或多个的组合。

在本申请的一种可选实施方式中，在根据所述二维图像与所述样本影音数据的人脸影像数据之间的差异度，以及所述样本声学特征与所述样本视觉特征之间的相似度，优化所述面部参数处理模型的过程中，还需要对所述二维图像与所述样本影音数据的人脸影像数据之间的差异度和所述样本声学特征与所述样本视觉特征之间的相似度调整至同一数量级，以便于后续对所述面部参数处理模型的优化。

具体的，所述二维图像与所述样本影音数据的人脸影像数据之间的像素差值的计算方法具体为，逐像素计算所述二维图像与所述人脸影像数据中的视频帧之间的像素差异。

进一步的，在本申请的一种可选实施方式中，所述对所述二维图像和所述人脸影像数据进行人脸特征提取的过程基于预先训练的人脸识别模型实现，即，利用预先训练的人脸识别模型，对所述二维图像和所述人脸影像数据进行人脸特征提取，得到所述二维图像的第一人脸特征和所述人脸影像数据的第二人脸特征。

进一步的，所述二维图像与所述人脸影像数据之间的第二差异度是指，所述第一人脸特征和所述第二人脸特征之间的差异。

进一步的，所述二维图像的预设关键点是指，在所述二维图像中标注的有关人脸的关键部位，比如说，所述人脸中的眼角、嘴角、嘴唇位置；类似的，所述人脸影像数据中的预设关键点是指人脸影像数据中标注的有关人脸的关键部位。

在本申请的一种可选实施方式中，为了便于设置二维图像的预设关键点，可以在获得上述步骤S1中的样本人脸面部参数后，基于所述样本人脸面部参数创建样本人脸模型，之后将样本人脸模型投影至二维平面，并将二维平面投影得到的图像作为渲染图像，将样本人脸模型关键点/顶点的投影点作为所述关键点。

基于此，可以通过计算所述二维图像的关键点与所述人脸影像数据的关键点之间的差异，进而得到的所述第三差异。

在通过以上方式训练获得所述面部参数处理模型后，即可基于上述步骤S201和步骤S202，得到所述目标人脸的面部参数。

在本申请的一种可选实施方式中，所述方法还包括：

即，通过所述面部参数处理模型得到的目标人脸的面部参数，构建与所述目标人脸对应的人脸模型。

在本申请的另一种可选实施方式中，也可以基于类似上述步骤S1和步骤S2的方式渲染所述目标人脸的二维图像，之后，在所述目标人脸的二维图像的基础上，构建与所述目标人脸对应的人脸模型。对此，本申请不做限制。

综上所述，所述人脸建模方法，通过样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模，训练能够基于包含目标人脸的影像数据，获得目标人脸的面部参数的面部参数处理模型，使得所述面部参数处理模型能够学习到二维图像中缺失的、而在语音空间中存在的信息。

示例性装置

本申请实施例同时提供一种人脸建模装置，请参考图4，图4为本申请另一实施例提供的人脸建模装置结构示意图。

如图4所述，所述人脸建模装置，包括：

第一单元401，用于获得包含目标人脸的影像数据；

第二单元402，用于利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数；

获得所述影像数据的视觉特征；

基于所述损失函数，优化所述面部参数处理模型。

和/或，

在本申请的一种可选实施方式中，所述装置还包括：

第三单元403，将所述目标人脸的面部参数应用于预先创建的初始人脸模型，获得与所述目标人脸对应的人脸模型。

本实施例提供的人脸建模装置，与本申请上述实施例所提供的人脸建模方法属于同一申请构思，可执行本申请上述任意实施例所提供的人脸建模方法，具备执行所述人脸建模方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的人脸建模方法的具体处理内容，此处不再加以赘述。

示例性电子设备

本申请另一实施例还提出一种电子设备，请参考图5，图5为本申请另一实施例提供的电子设备结构示意图。

如图5所述，所述电子设备，包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的人脸建模方法。

具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机***各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器（CPU）、微处理器等，也可以是特定应用集成电路（application-specificintegrated circuit，ASIC），或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作***和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器（read-onlymemory，ROM）、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器（random access memory，RAM）、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网（RAN），无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种人脸建模方法的各个步骤。

示例性计算机程序产品和存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的人脸建模方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的人脸建模方法中的步骤，具体可以实现以下步骤：

步骤S201，获得包含目标人脸的影像数据；

步骤S202，利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数；

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人脸建模方法，其特征在于，包括：

获得包含目标人脸的影像数据；

其中，所述面部参数处理模型至少基于样本影音数据中的人脸影像数据，以及与所述人脸影像数据对应的语音数据进行人脸参数建模训练得到，包括：所述面部参数处理模型至少基于样本声学特征，以及所述面部参数处理模型输出的样本视觉特征之间的相似度，进行参数优化得到；所述样本声学特征包括所述样本影音数据中与人脸影像数据对应的语音数据的声学特征；所述样本视觉特征包括所述样本影音数据中的所述人脸影像数据的视觉特征。

2.根据权利要求1所述的方法，其特征在于，所述利用预先训练的面部参数处理模型，对所述影像数据中的目标人脸进行参数化建模，得到所述目标人脸的面部参数，包括：

获得所述影像数据的视觉特征；

3.根据权利要求2所述的方法，其特征在于，所述获得所述影像数据的视觉特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述面部参数处理模型通过以下方式训练得到：

5.根据权利要求4所述的方法，其特征在于，所述至少根据所述样本声学特征与所述样本视觉特征之间的相似度，优化所述面部参数处理模型，包括：

基于所述损失函数，优化所述面部参数处理模型。

6.根据权利要求4所述的方法，其特征在于，所述至少根据所述样本声学特征与所述样本视觉特征之间的相似度，优化所述面部参数处理模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述二维图像与所述样本影音数据的人脸影像数据之间的差异度，通过以下方式确定：

和/或，

8.根据权利要求7所述的方法，其特征在于，所述对所述二维图像和所述人脸影像数据进行人脸特征提取，得到所述二维图像的第一人脸特征和所述人脸影像数据的第二人脸特征，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种人脸建模装置，其特征在于，包括：

第一单元，用于获得包含目标人脸的影像数据；

11.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于通过运行所述存储器中的指令，执行上述权利要求1-9任意一项所述的人脸建模方法。

12.一种计算机存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器运行时，执行上述权利要求1-9中任意一项所述的人脸建模方法。