CN112085850B

CN112085850B - 人脸重建方法及相关设备

Info

Publication number: CN112085850B
Application number: CN202010948800.1A
Authority: CN
Inventors: 姜倩文; 张�浩; 陈丽莉; 韩鹏; 何惠东; 石娟娟
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2024-06-21
Anticipated expiration: 2040-09-10
Also published as: CN112085850A

Abstract

本公开提供一种人脸重建方法及相关设备，包括：获取人脸重建目标对象的第一数量的人脸图像；根据所述第一数量的所述人脸图像，通过三维原点空间推算模型，得到所述第一数量的所述人脸图像对应的第二数量的二维图；根据所述第二数量的所述二维图，得到三维点图；根据所述三维点图，重建三维人脸。本公开实施例提出的人脸重建方法及相关设备，能够在一定程度上解决现有三维重建方法可操作性较差和成本较高的问题。

Description

人脸重建方法及相关设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种人脸重建方法及相关设备。

背景技术

三维(3D)人脸研究中一个比较受关注的方向是三维人脸重建，即通过一张或多张人脸图像重建出人脸的三维模型。它的应用场景很多，可以用于虚拟人物场景，如电影、动画、社交等领域，面部的准确3D渲染在构建定制的手术口罩或呼吸器时也可能会有用，商业空间可谓十分广泛。

面部的三维重建一直是计算机视觉和计算机图形领域的一个公开问题，因为人们对面部外观非常敏感，若重建过程中出现轻微异常，就会使最终结果看起来与现实差别较大，高水平的细节是个难点，也是栩栩如生的关键。

一般研究人员进行人脸三维重建必须使用耗资很高的专业设备，因为大多数人脸重建方法依赖于预先校准的摄像机或使用地标***来估计相对于几何对象的摄像机姿态，各种各样的工作都集中在使用光度学立体或多视图立体技术来进行面部结构重建，这种要求可操作性太差，成本较高，不利于技术的发展与研究。

发明内容

有鉴于此，本公开实施例提出了一种人脸重建方法及相关设备，以在一定程度上解决上述的问题。

本公开实施例的第一方面，提供了一种人脸重建方法，包括：

获取人脸重建目标对象的第一数量的人脸图像；

根据所述第一数量的所述人脸图像，通过三维原点空间推算模型，得到所述第一数量的所述人脸图像对应的第二数量的二维图；

根据所述第二数量的所述二维图，得到三维点图；

根据所述三维点图，重建三维人脸。

可选地，所述三维原点空间推算模型，包括：

视觉编码模块，被配置为：从所述第一数量的所述人脸图像中分别提取初始特征图；

注意力机制模块，被配置为：利用注意力机制处理所述初始特征图，得到基于注意力机制的特征图；

姿态回归模块，被配置为：利用多层感知机，将所述基于注意力机制的特征图处理得到第二数量的二维图。

可选地，所述注意力机制模块，被配置为：

从所述初始特征图随机选取两个特征向量进行卷积处理，得到所述两个特征向量的相似度；

将所述相似度大于第一预设相似度阈值的两个特征向量进行注意力映射，得到基于注意力机制的特征向量；

从所述初始特征图随机选取一个特征向量与所述基于注意力机制的特征向量进行卷积处理；

将所述相似度大于第二预设相似度阈值的特征向量归类形成为注意力引导的特征图；

将所述注意力引导的特征图与所述初始特征图进行加权微分求和，得到所述基于注意力机制的特征图。

可选地，根据所述三维点图，重建三维人脸，包括：

利用网格算法，对所述三维点图进行平滑处理，得到所述三维人脸。

可选地，利用网格算法，对所述三维点图进行平滑处理，得到所述三维人脸，包括：

设所述三维人脸为M＝(V,F)，其中V是所述三维人脸中顶点的集合，F是所述三维人脸中边的集合；

设所述三维人脸中所有顶点的变换矩阵为X＝[x₁,...,x_n]^K，其中x_i为每个顶点的变换矩阵；

采用以下公式对所述三维点图进行平滑处理：

其中，v_i∈V是所述三维人脸中的第i个顶点，u_i为所述三维人脸中各顶点的权重，K为所述三维点图中的点的集合；系数R＝diag(1,1,1,q)，q为用于权衡旋转和平移的平滑参量；t是目标特征点，数组T＝(v_i1,t_i),...,(v_il,t_l)。

可选地，所述第一数量的人脸图像为针对所述人脸重建目标对象拍摄的预定时长的视频文件中的帧图像。

本公开实施例的第二方面，提供了一种人脸重建装置，包括：

采集单元，被配置为：采集人脸重建目标对象的第一数量的人脸图像；

处理单元，被配置为：执行所述的方法。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的方法。

本公开实施例的第四方面，提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行所述方法。

从上面所述可以看出，本公开实施例提供的人脸重建方法及相关设备，通过特定算法将第一数量的人脸图像处理为三维点图进而重建三维人脸，使得无需通过专业设备进行图像采集和相应的相机位姿的映射，即可完成三维人脸的重建，应用场景更加广泛，使用更加方便，同时可以较大幅度地降低成本。

附图说明

为了更清楚地说明本公开或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开实施例提供的人脸重建方法的一个实施例的流程示意图；

图2A为本公开实施例中三维原点空间推算模型处理人脸图像的一种流程示意图；

图2B为本公开实施例中三维原点空间推算模型处理人脸图像的另一种流程示意图；

图2C为本公开实施例中将二维图映射成像为三维点图的示意图；

图2D为本公开实施例提供的人脸重建方法实施例处理重建人脸图像过程的示意图；

图3示出了本公开实施例提供的人脸重建装置的一个实施例的框图结构示意图；

图4示出了本公开实施例提供的一种更为具体的电子设备硬件结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

本公开实施例提供了一种人脸重建方法。所述人脸重建方法，包括以下步骤：

获取人脸重建目标对象的第一数量的人脸图像；

根据所述第二数量的所述二维图，得到三维点图；

根据所述三维点图，重建三维人脸。

本实施例提供的人脸重建方法，通过特定算法将第一数量的人脸图像处理为三维点图进而重建三维人脸，使得无需通过专业设备进行图像采集和相应的相机位姿的映射，即可完成三维人脸的重建，应用场景更加广泛，使用更加方便，同时可以较大幅度地降低成本。

图1示出了本公开实施例提供的人脸重建方法的一个实施例的流程示意图。

如图1所示，所述人脸重建方法，包括：

步骤102：获取人脸重建目标对象的第一数量的人脸图像。

可选地，所述第一数量的人脸图像是通过图像采集设备采集得到的。所述图像采集设备可以是摄像头、相机等具有图像采集功能的设备。可选地，所述人脸重建方法应用于移动终端，例如手机、平板电脑等，所述图像采集设备可以是手机或平板电脑的前置摄像头或后置摄像头等。

本公开的一个或多个实施例中，所述第一数量的人脸图像为针对所述人脸重建目标对象拍摄的预定时长的视频文件中的帧图像。

可选地，所述图像采集设备在采集人脸图像时，可将CPU/GPU锁频调到最高，使采样频率提升到最高120fps，然后通过拍摄一段相对静态的视频得到所述视频文件。通过对所述视频文件逐帧提取数据或等间隔帧提取数据(即每隔预定数量的帧提取一张图像)，并进行变形和简化，即可得到所述第一数量的人脸图像。

可选地，所有采样得到的数据库中的人脸图像共享相同的顶点映射和计数。

可选地，所述第一数量的具体数目可根据需要设定，在此不做具体限定。所述人脸重建目标对象为任意的需要进行人脸重建的对象，性别、年龄等均不做具体限定。

步骤104：根据所述第一数量的所述人脸图像，通过三维原点空间推算模型，得到所述第一数量的所述人脸图像对应的第二数量的二维图。

相机成像过程是真实三维空间中的三维原点映射到成像平面(二维空间)的过程，通过得到的二维图像并逆推出原点的相机坐标，进而才能得到重建空间的三维图像信息。本步骤中的从二维图像并逆推出原点的相机坐标的方法是利用改进的视觉同步定位和映射的方法。

本公开的一个或多个实施例中，所述三维原点空间推算模型，包括：

视觉编码模块，被配置为：从所述第一数量的所述人脸图像中分别提取初始特征图；所述视觉编码模块例如是用于提取位姿回归任务所需的特征的模块；

注意力机制模块，被配置为：利用注意力机制处理所述初始特征图，得到基于注意力机制的特征图；所述注意力机制模块例如是用于计算注意力并重新加权特征，旨在捕获图像特征的长期依赖性和全局相关性，这将有助于从广泛分离的空间区域中生成更好的特征图；

姿态回归模块，被配置为：利用多层感知机，将所述基于注意力机制的特征图处理得到第二数量的二维图；所述姿态回归模块例如是用于将新特征映射到原点的相机位姿，通过多层感知机将注意力引导特征分别映射到坐标和旋转，进而得到坐标信息和旋转信息。

通过所述三维原点空间推算模型，所述第一数量的所述人脸图像可以处理得到对应的第二数量的二维图，所述二维图例如是具有精确的已知三维原点坐标的关键帧，可称为有效二维图。

可选地，所述第二数量的具体数目可根据需要设定，在此不做具体限定。在一些情况下，所述第一数量和第二数量可能是相等的，也可能是不等的。

作为一个可选实施例，如图2A和2B所示，所述注意力机制模块，被配置为执行下述步骤：

步骤202：从所述初始特征图随机选取两个特征向量进行卷积处理，得到所述两个特征向量的相似度。

可选地，所述人脸图像通过视觉编码模块被分解成多个特征点，得到一个离散的初始特征图。从所述初始特征图中，可随机选取两个特征向量进行卷积处理，以得到两个特征向量的相似度。

步骤204：将所述相似度大于第一预设相似度阈值的两个特征向量进行注意力映射，得到基于注意力机制的特征向量。

本步骤中，仅对相似度大于第一预设相似度阈值的两个特征向量进行注意力映射，对于相似度小于第一预设相似度阈值的两个特征向量，则不进行注意力映射。

步骤206：从所述初始特征图随机选取一个特征向量与所述基于注意力机制的特征向量进行卷积处理。

步骤208：将所述相似度大于第二预设相似度阈值的特征向量归类形成为注意力引导的特征图。

在步骤206和步骤208中，相似度高的两个特征向量被归类映射在一起，然后不断地回归，并选取一个特征向量与所述基于注意力机制的特征向量进行卷积处理，相似度高则再归类到一起，最后形成一个注意力引导的特征图。

步骤210：将所述注意力引导的特征图与所述初始特征图进行加权微分求和，得到所述基于注意力机制的特征图。

可选地，加权微分求和中的加权系数大小是根据相似度高低而得到的。

本步骤中最终形成一个新的特征图(即基于注意力机制的特征图)，它包含旋转信息和坐标信息，再通过所述姿态回归模块，即可将所述基于注意力机制的特征图处理得到第二数量的二维图。

步骤106：根据所述第二数量的所述二维图，得到三维点图(也可称为三维散点图)。

本步骤中，可使用三维点云方法来估计和提取来自所述第二数量的所述二维图的面部特征点。三维点云是一种高效高精度的三维表示方法。

如图2C所示，本步骤利用不同视角的二维图映射生成三维点云，三维点云的每一个点都对应一个三维坐标，设备使用这种数据格式存储采集到的三维人脸信息，包含明显识别的面部特征及轮廓。

步骤108：根据所述三维点图，重建三维人脸。

在得到三维点图之后，基于三维点图可以采用各种方法来重建三维人脸，在这里不做具体限定。

由于非理想环境的限制，初步得到的三维点图在放大后观看是一些离散的点，分辨率较低，会有很多噪声，经过这一步能初步创建出一个粗糙简略的三维人脸，还有很多细节特征需要补充圆滑，可以用空间平滑算法再次处理。

作为一个可选实施例，根据所述三维点图，重建三维人脸，包括：

利用网格(Mesh)算法，对所述三维点图进行平滑处理，得到所述三维人脸，从而完成平滑处理。

本公开还可具体采用变形Mesh算法，变形的意思是指对所述三维点图除了平移、缩放和旋转之外，还可以非刚性扭曲，然后利用组合约束，对所述三维点图的网格进行矫正修复。

网格主要用于计算机图形学中，有三角、四角网格等很多种。不过绝大部分都是基于三角网格的，三角网格在图形学和三维建模中使用的非常广泛，用来模拟复杂物体的表面，如建筑、车辆、动物等。前面都是对一个个离散的空间点进行的处理，虽然远看能看出物体的轮廓，但是拉近了看是一个个分散的空间点，这样分辨率比较低，所以要将三维点图生成网格，最后得到的是一个连续平滑的表面，再加上纹理贴图，就能得到逼近真实物体的三维模型了。

作为一个可选实施例，利用网格算法，对所述三维点图进行平滑处理，得到最终的三维人脸，包括：

设所述三维人脸为M＝(V,F)，其中V是所述三维人脸中所有顶点的集合，F是所述三维人脸中所有边的集合；

采用以下公式对所述三维点图进行平滑处理：

上述公式中的第一个函数的作用是从三维人脸中找到与所述三维点图中的各顶点最近的点，然后计算距离。第二个函数的作用是使变换后的三维人脸模型尽量平滑。第三个函数的作用是寻找最佳特征点，使得三维人脸模型更加贴近真实物体。本函数的主要作用之一是计算人脸上的点到模板上的点之间的距离。

从上述实施例可以看出，采用本公开实施例提供的人脸重建方法，不需要昂贵的专业设备，通过智能移动终端获取的照片或视频画面就能重建一个3D人脸模型，亦即通过智能移动终端这种简易设备就可以实现高精度三维人脸重建的方法及***。采用本公开实施例提供的人脸重建方法，通过三维原点空间推算模型、Mesh算法的帮助下分析人脸图像，成功对多个面部进行了数字重建。实验结果表明，该方法可以达到亚毫米精度，输出效果专业度高。这种方案具有大众性，将专业技术推广到普通人群中，且随着智能移动设备CPU/GPU处理能力的升级换代，未来能够获得更加专业的处理模型，前景广阔。

最终整个算法处理过程仅需要约35分钟，完成一个人脸模型的精确修复，大致过程如图2D所示，从常规成像得到理想三维人脸重建模型。本公开实施例提供的人脸重建方法，最终重建的人脸三维模型中位数精度约为0.97毫米，比当前的主流视图重建方法精确度要高，在精细细节方面得到增强，这也是三维人脸重建研究的一个最新趋势：将精细的高频细节压印到重建模型之中。

需要说明的是，本公开的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

图3示出了本公开实施例提供的人脸重建装置的一个实施例的框图结构示意图。

如图3所示，所述人脸重建装置，包括：

采集单元301，被配置为：采集人脸重建目标对象的第一数量的人脸图像；

处理单元302，被配置为：执行所述人脸重建方法的任一实施例或实施例的排列、组合。

本实施例提供的人脸重建装置，通过特定算法将第一数量的人脸图像处理为三维点图进而重建三维人脸，使得无需通过专业设备进行图像采集和相应的相机位姿的映射，即可完成三维人脸的重建，应用场景更加广泛，使用更加方便，同时可以较大幅度地降低成本。

可选地，所述人脸重建装置采用移动终端实现，使用起来十分方便。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器401、存储器402、输入/输出接口403、通信接口404和总线405。其中处理器401、存储器402、输入/输出接口403和通信接口404通过总线405实现彼此之间在设备内部的通信连接。

处理器401可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案。

存储器402可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器402可以存储操作***和其他应用程序，在通过软件或者固件来实现本公开实施例所提供的技术方案时，相关的程序代码保存在存储器402中，并由处理器401来调用执行。

输入/输出接口403用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口404用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线405包括一通路，在设备的各个组件(例如处理器401、存储器402、输入/输出接口403和通信接口404)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器401、存储器402、输入/输出接口403、通信接口404以及总线405，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本公开实施例方案所必需的组件，而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述对本公开特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种人脸重建方法，包括：

获取人脸重建目标对象的第一数量的人脸图像；

根据所述第二数量的所述二维图，得到三维点图；

根据所述三维点图，重建三维人脸；

其中，所述三维原点空间推算模型，包括：

姿态回归模块，被配置为：利用多层感知机，将所述基于注意力机制的特征图处理得到第二数量的二维图；

所述注意力机制模块，进一步被配置为：

2.根据权利要求1所述的方法，其中，根据所述三维点图，重建三维人脸，包括：

3.根据权利要求2所述的方法，其中，利用网格算法，对所述三维点图进行平滑处理，得到所述三维人脸，包括：

采用以下公式对所述三维点图进行平滑处理：

4.根据权利要求1所述的方法，其中，所述第一数量的人脸图像为针对所述人脸重建目标对象拍摄的预定时长的视频文件中的帧图像。

5.一种人脸重建装置，包括：

处理单元，被配置为：执行如权利要求1-4任一项所述的方法。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至4任意一项所述的方法。

7.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至4任一所述方法。