CN110956691A

CN110956691A - 一种三维人脸重建方法、装置、设备及存储介质

Info

Publication number: CN110956691A
Application number: CN201911148553.0A
Authority: CN
Inventors: 王多民
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-04-03
Anticipated expiration: 2039-11-21
Also published as: CN110956691B

Abstract

本申请实施例公开了一种三维人脸重建方法、装置、设备及存储介质，该方法包括：检测到人脸图片获取指令时，获取包含人脸的二维图片；基于预设的人脸识别策略识别所述二维图片中的目标人脸，获取所述目标人脸的位置信息；基于所述目标人脸的位置信息剪裁所述二维图片中的目标人脸，得到剪裁后的目标人脸图片；将剪裁后的目标人脸图片输入到目标神经网络模型中，输出目标人脸的三维模型参数；基于所述目标人脸的三维模型参数驱动目标三维模型进行三维重建，得到所述目标人脸的三维人脸模型。如此，快速得到精度高效果优的人脸重建结果，且操作方便简单。

Description

一种三维人脸重建方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术，尤其涉及一种三维人脸重建方法、装置、设备及存储介质。

背景技术

三维人脸重建技术在各个领域已经被广泛应用，被用户熟知的当属三维人脸表情包的应用。现有技术中对于生成三维人脸表情包的方法多是利用图片或视频直接生成，例如，直接使用视频片段生成感兴趣片段的动态图片，或分析用户消息文本中与表情相关的关键字，利用关键字和表情模板生成表情。这些方法在生成表情包时有些没有与用户互动过程，缺少真实性和趣味性；有些分析二维图片中的人脸表情来驱动动画表情生成，二维图片对于三维模型的动画表情无法很好地进行驱动，会导致三维人脸重建效果不佳。

发明内容

为解决上述技术问题，本申请实施例期望提供一种三维人脸重建方法、装置、设备及存储介质。

本申请的技术方案是这样实现的：

第一方面，提供了一种三维人脸重建方法，该方法包括：

检测到人脸图片获取指令时，获取包含人脸的二维图片；

基于预设的人脸识别策略识别所述二维图片中的目标人脸，获取所述目标人脸的位置信息；

基于所述目标人脸的位置信息剪裁所述二维图片中的目标人脸，得到剪裁后的目标人脸图片；

将剪裁后的目标人脸图片输入到目标神经网络模型中，输出目标人脸的三维模型参数；

基于所述目标人脸的三维模型参数驱动目标三维模型进行三维重建，得到所述目标人脸的三维人脸模型。

第二方面，提供了一种三维人脸重建装置，该装置包括：

获取单元，用于检测到人脸获取指令时，获取包含人脸的二维图片；

检测单元，用于基于预设的人脸识别策略识别所述二维图片中的目标人脸，获取所述目标人脸的位置信息；

裁剪单元，用于基于所述目标人脸的位置信息剪裁所述二维图片中的目标人脸，得到剪裁后的目标人脸图片；

重建单元，用于将剪裁后的目标人脸图片输入到目标神经网络模型中，输出目标人脸的三维模型参数；基于所述目标人脸的三维模型参数驱动目标三维模型进行三维重建，得到所述目标人脸的三维人脸模型。

第三方面，提供了一种三维人脸重建设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器配置为运行所述计算机程序时，执行前述方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

附图说明

图1为本申请实施例中三维人脸重建方法的流程示意图；

图2为本申请实施例中模型训练方法的流程示意图；

图3为本申请实施例中三维人脸重建装置的组成结构示意图；

图4为本申请实施例中三维人脸重建设备的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

本申请实施例提供了一种三维人脸重建方法，图1为本申请实施例中三维人脸重建方法的流程示意图，如图1所示，该方法具体可以包括：

步骤101：检测到人脸图片获取指令时，获取包含人脸的二维图片；

步骤102：基于预设的人脸识别策略识别所述二维图片中的目标人脸，获取所述目标人脸的位置信息；

步骤103：基于所述目标人脸的位置信息剪裁所述二维图片中的目标人脸，得到剪裁后的目标人脸图片；

步骤104：将剪裁后的目标人脸图片输入到目标神经网络模型中，输出目标人脸的三维模型参数；

步骤105：基于所述目标人脸的三维模型参数驱动目标三维模型进行三维重建，得到所述目标人脸的三维人脸模型。

这里，建立三维人脸模型的执行主体可以为移动终端或固定终，移动终端获取到二维图片后，利用神经网络模型获取二维图片中人脸的三维模型参数，从而驱动标准三维模型进行三维重建得到三维人脸模型。

这里，人脸图片获取指令可以是开启建立三维人脸模型指令，或者拍照指令。通过摄像头获取包含人脸的二维图片，这里，摄像头可以为任何一种能够采集二维图片的摄像头，比如：单目摄像头、彩色摄像头、黑白摄像头等。人脸图片可以为黑白图片或彩色图片。比如，通过手机、相机、可穿戴设备的摄像头采集人脸图片。

在一些实施例中，所述基于预设的人脸识别策略识别所述二维图片中的目标人脸，获取所述目标人脸的位置信息，包括：基于预设的人脸识别策略识别所述二维图片中的至少一张人脸，获取至少一张人脸的位置信息；基于预设的筛选策略，从所述至少一张人脸中筛选出所述目标人脸，获取所述目标人脸的位置信息。

具体的，所述筛选策略包括：基于所述至少一张人脸的位置信息，确定所述至少一张人脸所占的像素数量；筛选出所占像素数量大于数量阈值的人脸作为目标人脸。

将剪裁后的目标人脸图片输入到目标神经网络模型中，目标神经网络模型中设置人脸关键点检测器，利用人脸关键点检测器识别出每张图片中N个人脸关键点，得到人脸的三维模型参数。这里，神经网络模型为轻量级神经网络，在计算资源有限的情况下快速得到精度高效果优的人脸重建结果。

也就是说，只有头像的面积大于最低识别面积时才能对人脸进行准确识别，否则，无法准确识别人脸信息，也就无法进行三维重建。

进一步地，根据识别到的人脸位置信息对人脸图片进行剪裁，将人脸图片中的背景减掉只保留人脸部分。具体的，在三维人脸重建装置中设置人脸识别器，用于识别人脸图片中的人脸位置，并对人脸进行剪裁，得到剪裁后的人脸图片。剪裁形状可以为正方形、举行、椭圆等。

具体的，预设的三维表情模板可以为表情库中保存的通用模板，比如，人物模板、动物模板、动画模板等。也可以是用户自己制作的模板。

比如，使用人脸姿态参数和人脸表情参数来驱动动画模板，由于三维动画模板与训练神经网络所用的三维数据具有相同的空间拓扑结构和节点语义信息，因此使用人脸姿态参数可以将三维动画驱动到与用户当前头部相同的姿态，使用人脸表情参数可以将三维动画驱动到与用户当前面部相同的表情。

在一些实施例中，所述方法还包括：获取语音采集单元采集的所述目标人脸的语音信息；获取所述目标三维模型对应的音频特征；利用所述目标三维模型对应的音频特征对所述语音信息进行调整，得到所述目标人脸对应的目标音频；保存所述目标人脸的三维人脸模型及其对应的目标音频。

也就是说，在三维人脸重建过程中，用户不仅可以根据自己的人脸和预设三维模型生成包含自己人脸信息的三维模型，还可以将自己的声音特征与音频模板相结合，生成具有自己声音特征的音频。这样从视觉和听觉均可以达到用户想要的效果，用户也可以自信选择只改变声音和人脸中的一种。

比如，当用户选择录制按钮时，手机终端开始对表情显示界面进行实时录制，同时调用手机的麦克风，保存用户的发声，当用户选择停止时，表情录制结束，带有声音的三维人脸保存到表情库中。

采用上述技术方案，基于表征不同人脸表情的二维图片以及具有表情表达能力的三维标准模型训练神经网络，能够拟合生成不同表情的三维人脸模型，增加三维人脸模型重建的真实性，并且使用轻量级的神经网络，在计算资源有限的情况下快速得到精度高效果优的人脸重建结果，且操作方便简单。

在上述实施例的基础上还提供了一种模型训练方法，图2为本申请实施例中模型训练方法的流程示意图，如图2所示，该方法包括：

步骤201：获取训练样本集；所述训练样本集包括至少一种人脸表情的二维图片；

实际应用中，获取训练样本集的方法可以包括：控制摄像头采集至少一种人脸表情的二维图片；利用采集到的所有二维图片建立训练样本集。这里，摄像头可以为任何一种能够采集二维图片的摄像头，比如：单目摄像头、彩色摄像头、黑白摄像头等。二维图片可以为黑白图片或彩色图片。训练样本集可以是从网络中的头像库中直接下载得到。

实际应用中，在建立训练样本集时，需要收集尽可能多的人脸表情样本，这样训练的神经网络模型才可以模拟出更多的表情。

具体的，所述训练样本集中人脸表情的种类包括以下至少之一：微笑、抿嘴、皱眉、眉毛抬高、愤怒、下颚左、下颚右、下颚向前、嘴巴向左、嘴巴向右、下巴抬起、张大嘴、鼓腮、闭眼和悲伤。

在一些实施例中，所述训练样本集中人脸类型包括以下至少之一：种族、年龄、性别、角度、脸型。

也就是说，在建立训练样本集时，除了考虑到人脸表情之外，还应该考虑到其他影响人脸三维重建的因素，比如种族、年龄、性别、体重、身高、脸型、拍摄角度等。

可以通过手机、相机、可穿戴设备等具备摄像头的电子设备在不同场景中以不同角度采集不同年龄、不同性别、不同角度、不同肤色的人脸的二维图片并保存；利用多个电子设备采集到的二维图片建立训练样本集；将所述训练样本集发送至三维人脸重建装置中，使三维人脸重建装置利用训练样本集训练神经网络模型。

步骤202：对所述训练样本集中的二维图片进行人脸关键点检测，确定所述二维图片中人脸的N个二维关键点；

这里，为了生成与二维图片中真实人脸相匹配的三维人脸图像，需要对二维图片中的人脸进行识别，并检测出N个关键点信息，这N个关键点是能够表征人脸特征的，比如人脸表情、人脸姿态、人脸身份等。

实际应用中，关键点的数量越多人脸信息越全面，但关键点数量越多对处理器的性能要求越高，成本也就高，因此为了平衡成本与效果，本申请实施例中关键点数量N取大于68的整数。比如90、106、240等。相较于常规的68个及以下个关键点，能够提供更多的人脸信息，提高三维人脸重建的准确性。

在一些实施例中，所述对所述训练样本集中的二维图片进行人脸关键点检测，确定所述二维图片中人脸的N个二维关键点，包括：对所述二维图片进行人脸检测和人脸剪裁，得到剪裁后的二维图片；对剪裁后的二维图片进行人脸关键点检测，确定所述二维图片中人脸的N个二维关键点。

具体的，可以设置人脸识别器和人脸关键点检测器，先利用人脸识别器识别出一张二维图片中一个或多个人脸位置，并对人脸进行剪裁，得到只包含人脸的图片；再利用人脸关键点检测器识别出每张图片的人脸关键点。

步骤203：基于所述N个二维关键点与人脸三维标准模型中N个三维关键点的对应关系，通过预设的优化算法对所述人脸三维标准模型进行迭代拟合，得到所述二维图片的标准三维模型参数；

示例性的，二维关键点只包含的x轴和y轴信息，三维关键点包含x轴、y轴和z轴的信息，基于二维图片中二维关键点(x1、y1)索引得到三维标准模型中具有相同x轴和y轴信息的点(x1、y1、z1)作为对应的三维关键点。

示例性的，利用每张人脸图片的106个人脸关键点与其在人脸三维标准模型中相应语义的106个关键点之间的对应关系，通过优化算法不断进行迭代，将人脸三维标准模板变化为图片中人脸的形状。优化算法以下述公式为优化目标：

直到算法收敛。其中s是缩放因子、R是旋转角度参数、t为平移参数，三者构成人脸姿态参数，

是迭代优化过程中三维模型上与二维关键点n相对应的三维关键点坐标，

为进行平行投影后的二维关键点坐标，

是二维关键点n的坐标，

是平均人脸，α_i是人脸身份参数，S_i是人脸身份基，β_i是人脸表情参数，B_i是人脸表情基。

在一些实施例中，所述人脸三维标准模型为三维形变模型(3D Morphable Model，3DMM)。3DMM具有表情表达能力的三维标准模型训练神经网络，能够拟合生成不同表情的三维人脸模型，增加三维人脸模型重建的真实性。

经过以上步骤101至步骤103，生成训练神经网络模型所需要的训练图片及相应的标准三维模型参数。这里，训练样本集中图片数量是百万级别，标准三维模型参数可以作为神经网络模型训练的真值。

步骤204：将所述训练样本集中的二维图片作为输入，所述训练样本集中的二维图片的标准三维模型参数作为目标输出，训练神经网络模型，得到所述目标神经网络模型。

具体的，所述三维模型参数包括：人脸姿态参数、人脸身份参数和人脸表情基。相应的，训练神经网络模型的过程包括：将所述训练样本集中的二维图片作为所述神经网络模型的输入，输出预测三维模型参数；基于预测三维模型参数中的一个参数，以及所述目标三维模型参数中的三个参数计算损失函数，调整所述神经网络模型，得到训练好的神经网络模型。这里，在计算模型损失参数时，对三组参数分别进行计算，当对其中一组参数进行计算时，其他两组参数使用真值(即标准三维模型参数)，通过这种方式使模型更好的收敛。

实际应用中，将二维图片输入到神经网络模型之前，还可以对二维图片进行人脸识别并剪裁出人脸，将剪裁后的二维图片输入到神经网络模型中。

这里，可以将训练好的神经网络模型配置在任何一种终端上，终端获取用户人脸的二维图片，输入到训练好的神经网络模型中，能够直接输出用户的三维重建模型。而且三维重建模型的表情可以随着用户表情变化实现相同的变化。

基于上述三维人脸重建方法，本申请实施例中给出了一种具体的实现场景如下。

人脸标准三维模型参数的获取过程如下：

步骤1：采集人脸二维图片；

具体的，采集要求为：年龄分布广泛且平均，从5岁到80岁尽量涵盖；性别比例均衡，男女比例保持在1左右；种族分布均匀，东亚人、中亚人、高加索人、黑人等人种分布均匀，其他人种也有部分图片；采集人脸图片时各种脸型的人都有涵盖。对于每个人，要求采集73种人脸姿态与15种表情。

人脸姿态包括：正脸；左侧30度(旋转roll)、左侧60度(roll)、左侧90度(roll)、右侧30度(roll)、右侧60度(roll)、右侧90度(roll)；抬头30度(俯仰pitch)、抬头60度(pitch)、低头30度(pitch)、低头60度(pitch)；左偏30度(偏移yaw)、左偏60度(yaw)、右偏30度(yaw)、右偏60度(yaw)；以及左侧3种情况与抬头2种情况的6种组合(roll+pitch)、以及右侧3种情况与抬头2种情况的6种组合(roll+pitch)、以及左侧3种情况与低头2种情况的6种组合(roll+pitch)、以及右侧3种情况与低头2种情况的6种组合(roll+pitch)；以及左侧3种情况与左偏2种情况的6种组合(roll+yaw)、以及右侧3种情况与右偏2种情况的6种组合(roll+yaw)、以及左侧3种情况与右偏30度的3种组合(roll+yaw)、以及右侧3种情况与左偏30度的3种组合(roll+yaw)；以及左偏2种情况与抬头2种情况的4种组合(yaw+pitch)、以及右偏2种情况与抬头2种情况的4种组合(yaw+pitch)、以及左偏2种情况与低头2种情况的4种组合(yaw+pitch)、以及右偏2种情况与低头2种情况的4种组合(yaw+pitch)；共73种姿态。

人脸表情包括：微笑、抿嘴、皱眉、眉毛抬高、愤怒、下颚左、下颚右、下颚向前、嘴巴向左、嘴巴向右、下巴抬起、张大嘴、鼓腮、闭眼和悲伤共15各表情。

步骤2：人脸识别及剪裁；

具体的，设置人脸识别器，利用人脸识别器识别出一张二维图片中一个或多个人脸位置，并对人脸进行剪裁，得到只包含人脸的图片。

步骤3：人脸二维关键点检测；

具体的，设置人脸关键点检测器，利用人脸关键点检测器识别出每张图片中106个人脸关键点。

步骤4：迭代优化，得到标准三维模型参数。

具体的，利用每张人脸图片的106个人脸关键点与其在人脸三维标准模型中相应语义的106个关键点之间的对应关系，通过优化算法不断进行迭代，将人脸三维标准模板变化为图片中人脸的形状。优化算法以下述公式为优化目标：

为进行平行投影后的二维关键点坐标，

是二维关键点n的坐标，

神经网络模型的获取过程如下：

步骤1：使用tensorflow构建网络模型，将训练样本集中的训练数据生成tfrecords，构建网络训练流程，使得输入->神经网络模型->输出->损失函数形成一个完整的链条。

步骤2：模型训练50个轮次，一个轮次为将数据集中的数据从头到尾跑一遍。

步骤3：模型的输出为人脸姿态参数{s,R,t}，人脸身份参数和人脸表情参数。

步骤4：在计算模型损失参数时，对三组参数分别进行计算，当对其中一组参数进行计算时，其他两组参数使用真值(即标准三维模型参数)，通过这种方式使模型更好的收敛。

深度神经网络模型训练结束后，可以直接使用剪裁好的人脸图片作为输入，生成图片相对应的人脸三维模型。需要注意的是，这里直接使用单张人脸图片即可生成人脸三维模型，使用方便，不需要用户进行复杂操作；同时使用的深度神经网络采用了轻量快速的模型，可以在手机终端上实时运行。

利用训练好的神经网络模型进行三维人脸重建的过程如下：

步骤1：表情制作界面内置于***输入法之中，当用户选择表情界面时，在其右下角有一个“+”符号，表示点击此按钮可以添加表情。当用户点击该按钮进行添加表情时，弹出界面中有制作3D动画表情的选项供用户选择。

这里，可以利用训练好的神经网络模型为用户制作3D动画表情模板，并将制作好的模板添加到***输入法的表情库中，供用户聊天过程中使用自制的3D表情。

步骤2：用户选择制作3D动画表情，显示3D动画表情制作界面，同时启动手机前置单目摄像头。

步骤3：用户在卡通标准模型库中选择三维动画表情模板，三维动画表情模板可以在应用商店中下载；用户也可以使用深度神经网络将自己的自拍照生成为一个三维模型，选择各种贴纸(例如比卡丘等)贴在生成的三维模型上，构造一个以自己人脸形状及选择的贴纸为纹理的三维动画模型，并保存在表情库中。

步骤4：当用户选定三维动画表情模板之后，界面便会实时显示选定的三维动画表情，由用户面部表情以及头部动作进行驱动。

步骤5：用户驱动三维动画表情的过程为：用户随意做出动作以及表情、说话等，前置摄像头实时捕捉用户人脸图像，经过人脸检测器检测人脸区域，进行人脸剪裁，将剪裁后的人脸图像送入生成参数的深度神经网络，由神经网络输出人脸姿态参数、人脸身份参数和人脸表情参数。这里使用人脸姿态参数和人脸表情参数来驱动动画表情。由于三维动画模板与训练神经网络所用的三维数据具有相同的空间拓扑结构和节点语义信息，因此使用姿态参数可以将三维动画驱动到与用户当前头部相同的姿态，使用人脸表情参数可以将三维动画驱动到与用户当前面部相同的表情。

步骤6：当用户选择录制按钮时，手机终端开始对表情显示界面进行实时录制，同时调用手机的麦克风，保存用户的发声。

步骤7：当用户选择停止时，表情录制结束，带有声音的表情保存到***输入法的内置表情库中。

步骤8：保存的三维动画表情可以由***输入法进行选择，发送给聊天软件中的联系人的终端。

本申请实施例中还提供了一种三维人脸重建装置，如图3所示，该装置包括：

获取单元301，用于检测到人脸获取指令时，获取包含人脸的二维图片；

检测单元302，用于基于预设的人脸识别策略识别所述二维图片中的目标人脸，获取所述目标人脸的位置信息；

裁剪单元303，用于基于所述目标人脸的位置信息剪裁所述二维图片中的目标人脸，得到剪裁后的目标人脸图片；

重建单元304，用于将剪裁后的目标人脸图片输入到目标神经网络模型中，输出目标人脸的三维模型参数；基于所述目标人脸的三维模型参数驱动目标三维模型进行三维重建，得到所述目标人脸的三维人脸模型。

在一些实施例中，检测单元302，具体用于基于预设的人脸识别策略识别所述二维图片中的至少一张人脸，获取至少一张人脸的位置信息；基于预设的筛选策略，从所述至少一张人脸中筛选出所述目标人脸，获取所述目标人脸的位置信息。

在一些实施例中，所述筛选策略包括：基于所述至少一张人脸的位置信息，确定所述至少一张人脸所占的像素数量；筛选出所占像素数量大于数量阈值的人脸作为目标人脸。

在一些实施例中，该装置还包括：语音采集单元，用于获取语音采集单元采集的所述目标人脸的语音信息；

语音处理单元，还用于获取所述目标三维模型对应的音频特征；利用所述目标三维模型对应的音频特征对所述语音信息进行调整，得到所述目标人脸对应的目标音频；

存储单元，用于保存所述目标人脸的三维人脸模型及其对应的目标音频。

在一些实施例中，所述获取单元，还用于获取训练样本集；所述训练样本集包括至少一种人脸表情的二维图片；

该装置还包括：训练单元，还用于对所述训练样本集中的二维图片进行人脸关键点检测，确定所述二维图片中人脸的N个二维关键点；基于所述N个二维关键点与人脸三维标准模型中N个三维关键点的对应关系，通过预设的优化算法对所述人脸三维标准模型进行迭代拟合，得到所述二维图片的标准三维模型参数；将所述训练样本集中的二维图片作为输入，所述训练样本集中的二维图片的标准三维模型参数作为目标输出，训练神经网络模型，得到所述目标神经网络模型。

在一些实施例中，所述训练样本集中人脸表情的种类包括以下至少之一：微笑、抿嘴、皱眉、眉毛抬高、愤怒、下颚左、下颚右、下颚向前、嘴巴向左、嘴巴向右、下巴抬起、张大嘴、鼓腮、闭眼和悲伤。

本申请实施例还提供了一种三维人脸重建设备，如图4所示，该设备包括：处理器401和配置为存储能够在处理器上运行的计算机程序的存储器402；处理器401运行存储器402中计算机程序时实现以下步骤：

检测到人脸图片获取指令时，获取包含人脸的二维图片；

在一些实施例中，处理器401运行存储器402中计算机程序时具体实现以下步骤：基于预设的人脸识别策略识别所述二维图片中的至少一张人脸，获取至少一张人脸的位置信息；基于预设的筛选策略，从所述至少一张人脸中筛选出所述目标人脸，获取所述目标人脸的位置信息。

在一些实施例中，处理器401运行存储器402中计算机程序时还实现以下步骤：获取语音采集单元采集的所述目标人脸的语音信息；获取所述目标三维模型对应的音频特征；利用所述目标三维模型对应的音频特征对所述语音信息进行调整，得到所述目标人脸对应的目标音频；保存所述目标人脸的三维人脸模型及其对应的目标音频。

在一些实施例中，处理器401运行存储器402中计算机程序时还实现以下步骤：获取训练样本集；所述训练样本集包括至少一种人脸表情的二维图片；对所述训练样本集中的二维图片进行人脸关键点检测，确定所述二维图片中人脸的N个二维关键点；基于所述N个二维关键点与人脸三维标准模型中N个三维关键点的对应关系，通过预设的优化算法对所述人脸三维标准模型进行迭代拟合，得到所述二维图片的标准三维模型参数；将所述训练样本集中的二维图片作为输入，所述训练样本集中的二维图片的标准三维模型参数作为目标输出，训练神经网络模型，得到所述目标神经网络模型。

当然，实际应用时，如图4所示，该设备中的各个组件通过总线***403耦合在一起。可理解，总线***403用于实现这些组件之间的连接通信。总线***403除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线***403。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD，Digital Signal ProcessingDevice)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(RAM，Random-Access Memory)；或者非易失性存储器(non-volatile memory)，例如只读存储器(ROM，Read-Only Memory)，快闪存储器(flash memory)，硬盘(HDD，Hard Disk Drive)或固态硬盘(SSD，Solid-State Drive)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序。

可选的，该计算机可读存储介质可应用于本申请实施例中的任意一种三维人脸重建设备，并且该计算机程序使得计算机执行本申请实施例的各个方法中由处理器实现的相应流程，为了简洁，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种三维人脸重建方法，其特征在于，所述方法包括：

检测到人脸图片获取指令时，获取包含人脸的二维图片；

2.根据权利要求1所述的方法，其特征在于，所述基于预设的人脸识别策略识别所述二维图片中的目标人脸，获取所述目标人脸的位置信息，包括：

基于预设的人脸识别策略识别所述二维图片中的至少一张人脸，获取至少一张人脸的位置信息；

基于预设的筛选策略，从所述至少一张人脸中筛选出所述目标人脸，获取所述目标人脸的位置信息。

3.根据权利要求2所述的方法，其特征在于，所述筛选策略包括：

基于所述至少一张人脸的位置信息，确定所述至少一张人脸所占的像素数量；

筛选出所占像素数量大于数量阈值的人脸作为目标人脸。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取语音采集单元采集的所述目标人脸的语音信息；

获取所述目标三维模型对应的音频特征；

利用所述目标三维模型对应的音频特征对所述语音信息进行调整，得到所述目标人脸对应的目标音频；

保存所述目标人脸的三维人脸模型及其对应的目标音频。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本集；所述训练样本集包括至少一种人脸表情的二维图片；

对所述训练样本集中的二维图片进行人脸关键点检测，确定所述二维图片中人脸的N个二维关键点；

基于所述N个二维关键点与人脸三维标准模型中N个三维关键点的对应关系，通过预设的优化算法对所述人脸三维标准模型进行迭代拟合，得到所述二维图片的标准三维模型参数；

将所述训练样本集中的二维图片作为输入，所述训练样本集中的二维图片的标准三维模型参数作为目标输出，训练神经网络模型，得到所述目标神经网络模型。

6.根据权利要求5所述的方法，其特征在于，所述训练样本集中人脸表情的种类包括以下至少之一：微笑、抿嘴、皱眉、眉毛抬高、愤怒、下颚左、下颚右、下颚向前、嘴巴向左、嘴巴向右、下巴抬起、张大嘴、鼓腮、闭眼和悲伤。

7.根据权利要求5所述的方法，其特征在于，所述训练样本集中人脸类型包括以下至少之一：种族、年龄、性别、角度、脸型。

8.一种三维人脸重建装置，所述装置包括：

9.一种三维人脸重建设备，所述设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。