CN108717732A

CN108717732A - 一种基于MobileNets模型的表情追踪方法

Info

Publication number: CN108717732A
Application number: CN201810486472.0A
Authority: CN
Inventors: 饶云波; 宋佳丽; 吉普照; 范柏江; 苟苗; 杨攀
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-10-30
Anticipated expiration: 2038-05-21
Also published as: CN108717732B

Abstract

本发明属于表情追踪技术，具体的说是一种基于MobileNets模型的表情追踪方法。本发明主要包括：通过预处理生成训练数据集，所述预处理为使得数据集中每一张图片的人脸均具有三维特征坐标；采用一个标准卷积层、12个分离卷积层、1个均值池化层以及全连接层和Softmax构建神经网络MobileNets模型；所述12个分离卷积层为6个深度卷积与6个点卷积；采用获得的训练数据集对构建的神经网络MobileNets模型进行训练；采用训练好的神经网络MobileNets模型获取输入图像的人脸三维特征点坐标；对模型提取的人脸三维特征点坐标做网格重建生成形变系数，用于对人脸3D模型进行控制，实现表情追踪。本发明的有益效果为，兼顾了模型大小与运行速度，因而可适应于移动设备，具有较强的实用性。

Description

一种基于MobileNets模型的表情追踪方法

技术领域

本发明属于表情追踪技术，具体的说是一种基于MobileNets模型的表情追踪方法。

背景技术

随着硬件设备的提升，面部表情追踪技术逐步运用于电影制作、VR社交、游戏制作等各领域。如《星际大战》和《阿凡达》等电影在人物的表情及动作制作上充分运用了追踪技术，在面部表情及动作的伸展性上表现极佳，达到如同真人般效果。此外，据美国某著名心理学家的研究结果表示，人类在社交中传递的感情，文字占比7％，声调占比38％，表情占比55％。针对目前互联网普及化的现象，为在尊重用户隐私的前提下提高交流的有效性以及休闲娱乐的趣味性，面部表情追踪技术的研究工作具备非常实际的研究意义。

人脸特征点的定位是面部表情追踪过程中的关键环节，特征点的提取是否精准直接影响到后续表情映射部分的真实性。它的主要实现过程为：由设备或源路径输入人脸后，对该人脸的五官及面部轮廓的位置进行定位并提取该定位点的坐标值，坐标值将用于表情映射过程中建模三角网格。提取出的特征点通过与该人脸的实际特征点坐标值进行差值计算评估算法精确度，不同的特征定位算法主要从定位准确度(accuracy)、速度(speed)以及鲁棒性(robustness)三个方面进行评估。

传统的级联回归方法首先构建一张初始人脸，然后通过多个弱回归器训练逐渐逼近真实的人脸形状。然而，一旦初始人脸形状与实际的人脸形状偏差过大时，后续的回归优化也会出现较大偏差。目前部分研究者开始致力于提高初始人脸的质量，效果有所提升，但也无法完全避免因初始人脸带来的误差。此外，当前众多研究者通过训练神经网络模型实现特征提取，这种方法主要取决于训练数据的预处理及网络模型的构建与优化，目前有大量的网络结构在速度与精度上都取得一定的成果，但仍有待提高。

发明内容

本发明的目的，就是针对上述问题，通过搭建并训练深度学习模型MobileNets实现人脸的特征点提取，以特征点生成形变系数的方式实现人脸表情到动画模型表情的追踪迁移。随着网络的普及化以及各类智能应用的出现，简单的文本信息及语音信息已很难满足用户在日常社交及游戏娱乐上的趣味性要求，考虑到用户人身安全、用户隐私泄露等安全隐患，表情追踪技术的出现有效的解决了这一问题，主要通过追踪用户表情并迁移到虚拟模型面部的方式实现,然而目前大部分的表情追踪技术对设备有较高的要求，如深度数据采集器Kinect、HTC vive等，这些设备目前尚未普及到大部分的用户，针对这一问题，本发明中实现了通过普通摄像头即可达到精确且高效的表情追踪效果，可应用于游戏娱乐、社交办公等领域。

本发明的技术方案为：

一种基于MobileNets模型的表情追踪方法，其特征在于，包括以下步骤：

S1、通过预处理生成训练数据集，所述预处理为使得数据集中每一张图片的人脸均具有三维特征坐标；

S2、采用一个标准卷积层、12个分离卷积层、1个均值池化层以及全连接层和Softmax构建神经网络MobileNets模型；所述12个分离卷积层为6个深度卷积与6个点卷积；

采用步骤S1获得的训练数据集对构建的神经网络MobileNets模型进行训练；

S3、采用训练好的神经网络MobileNets模型获取输入图像的人脸三维特征点坐标；

S4、对模型提取的人脸三维特征点坐标做网格重建生成形变系数，用于对人脸3D模型进行控制，实现表情追踪。

进一步的，步骤S1中所述三维特征坐标为包括人脸五官及外部轮廓的多个三维特征坐标。

进一步的，步骤S2中对构建的神经网络MobileNets模型进行训练的具体方法为：

设定共有64个三维特征坐标，神经网络MobileNets模型第一层的标准卷积层包含64个卷积核，训练集图片的高为h、宽为w，则：

经过第一层标准卷积层后，将输入图片处理为以步长2、卷积为(h/2)×(w/2)×64的特征大小；

在第二层，以步长为1或2依次迭代12层，将特征图处理为(h/32)×(w/32)×1024的特征大小；

均值池化层以步长m将特征图归一化为1×1×1024大小；

最终通过全连接层将特征分类为3×68个三维坐标点，实现训练集图片的特征提取。

本发明的有益效果为，使用轻量级网络MobileNets，兼顾了模型大小与运行速度，因而可适应于移动设备，具有较强的实用性。

附图说明

图1为深度可分离卷积结构图；

图2为训练结果图；

图3为单张图片测试结果示意图；

图4为表情映射结果示意图。

具体实施方式

下面结合附图和实施例，详细描述本发明的技术方案。

本发明中，首先进行用户面部特征点提取，将原始的MobileNets模型改进为以三维特征点数据进行训练并输出，包括五官及外部轮廓共68个特征点，数据集囊括了老年、青年、少年及中外等不同的人脸图像。训练好的模型有效的实现了人脸三维特征的提取，本发明将提取出的特征信息做三角网格重建生成形变系数，动画模型的表情将随形变系数的变化而改变。

数据集的准备与处理是模型训练的基础，例如下载100个包含人脸的视频，对视频进行简单处理，标注出视频中人脸的三维特征坐标。然后，将视频按帧切成单张图片，同时三维坐标也按单帧进行分装，最终得到数万张图片及其对应的标签。在视频的选取中，可以选择处于不同场景中不同国家的不同年龄段的人群，且视频中的人脸表情足够丰富，使得训练出的模型具有较强的鲁棒性。

为满足图像采集设备的简单化及特征提取的高速化，本发明中模型基于轻量级深度神经网络MobileNets做了改进。以往的卷积神经网络在图像处理及目标检测上有较好的使用效果，通过使用更深的网络结构来训练出精准度更高的模型，然而这类网络的问题是速度很难提高，并且由于过大的模型导致其无法嵌入到移动设备使用。MobileNets模型相比于以往卷积神经网络的不同是，它基于深度可分离卷积构建模型来构建轻量级神经网络，在保证精度的前提下同时兼顾了运行速度及模型大小的问题。

深度可分离卷积结构如图1所示，它将标准卷积分解为一个深度卷积和一个1*1的点卷积，其中深度卷积用于卷积滤波，点卷积将深度卷积的输出进行组合。假定M为输入信道数，N为输出信道数，D_F为方形输入特征图的空间宽度和高度，则标准卷积的时间复杂度为D_k·D_k·M·N·D_F·D_F，本发明的深度卷积的时间复杂度为D_k·D_k·M·D_F·D_F+M·N·D_F·D_F，将两者进行对比，结果如下：

可见，该模型有效的减小了计算时间复杂度及模型大小。本发明中，首次将MobileNets模型应用于人脸特征点提取，该结构将深度卷积和点卷积视为两个独立的模块，每一个卷积操作后都会跟一个Batchnorm和一个ReLU，下采样在深度卷积以及第一层标准卷积中处理。由于后续工作需要对提取出的特征点进行三角网格重建，因此本发明将模型结构做了改进，改进后的结构如表1所示，一个标准卷积层，12个分离卷积层(6个深度卷积+6个点卷积)，1个均值池化层以及全连接层和Softmax。假定输入一张高为h、宽为w的图片I，第一层是一个包含64个卷积核的标准卷积，将图片I以步长2卷积为(h/2)×(w/2)×64的特征大小。第二层开始为分离卷积和点卷积的组合，以步长为1或2依次迭代12层，将特征图逐步精确为(h/32)×(w/32)×1024的特征大小。接着一个均值池化层以步长m将特征图归一化为1×1×1024大小，最终通过全连接层将特征分类为3×68个三维坐标点，实现图片I的特征提取。

表1 MobileNets网络体系结构

以输入图片大小统一处理为224*224为例，具体包括：

步骤一：假定数据集包含N张人脸图像及其对应的标签文件(68个特征点的(x,y,z)坐标)，将其按7:3的比例划分为训练集及验证集，测试集图片单独准备，通常用一个完整视频分割为帧后的M张图片及其对应标签作为一个测试集。本发明使用了两万多张图片用于训练，测试所用的视频时长在20秒左右，按帧切分为600张图片左右。

步骤二：在Pytorch框架下训练模型，该框架提供了支持CPU和GPU的Tensor,可极大加速计算。为减小图片读取与处理的延迟，统一将输入图片(高为h，宽为w)resize为224*224大小，同时按此比例将对应的x,y坐标等比例缩小,z坐标不变，如下：

h_r＝224/h,w_r＝224/w (1)

new_x＝x×h,new_y＝y×w_r (2)

其中h_r指图片高度的压缩比例，w_r指图片宽度的压缩比例，new_x指压缩后的x坐标，new_y指压缩后的纵坐标。由于数据量较大，将训练样本分为大小为128的batch，每次训练epoch值设定为20，构建的模型每5个epoch保存一次，此外，由于分离卷积中参数较少，将权重衰减值设定为一个较小值：1e-4。为评估模型输出坐标与真实坐标之间的误差，采用Pytorch下的SmoothL1Loss函数作为模型的损失函数，如下：

该函数误差在(-1,1)上是平方损失，其他情况为L1损失。其中，下标i指x的第i个元素。在NVIDIA GeForce GPU上对数据集进行迭代训练，每训练一次(20epoch)的结果如图2所示。

训练结束后，由于每5个epoch保存一次模型，最终将生成多个模型，使用各个生成的模型对验证集数据进行处理，其中val_size设定为4，不断调参得到最优模型，其中weight_decay设定为1e－4，lr为1e－3，lr_decay为0.95。

步骤三：得到最优模型后，用测试数据对模型进行预测，此时batch_size设定为1。假定输入一张单一图片m进行测试，如图3所示，测试结果为一个数组结构。由于测试过程中，对图片m做了resize，因此最终输出结果也相应等比例缩小，本发明对数据按X＝X_i/h_r,Y＝Y_i/w_r的方式放大，用于后续的网格重建。

步骤四：通过以上步骤，可使用训练好的卷积神经网络MobileNets模型获取视频中人脸的三维特征点坐标，记为：S＝(X₁,Y₁,Z₁,X₂,...,Y₆₈,Z₆₈)^T∈R³ⁿ。本发明中特征点到动画模型的表情映射是采用一个包含SigMID激活和线性输出的两层的前馈神经网络来实现，该网络以集合S构建的三角网格内各顶点之间的距离作为输入数据。三角网格的构建过程为：首先，构造一个包含所有散点S＝{s₁,s₂,...s_n},1≤n≤68的超级三角形，放入三角形链表k。然后，***点s₁，在三角形链表中找到外接圆内包含点s1的三角形集合T，T＝{t₁,t₂,...t_n}，删除集合T的公共边，连接点s1与集合T中三角形的所有顶点，完成点s1到k的***。最后，循环***集合S中的散点并对三角形进行优化，构建出网格。计算出网格内各顶点之间的欧式距离并将其输入到模型中，得到一个动画模型可识别的形变系数，将生成的形变系数放到Unity3D工程中实现表情映射，如图4所示。

综上所述，本发明的关键点在于使用了轻量级卷积神经网络MobileNets提取人脸三维特征点坐标并将特征点转换为动画模型可识别的形变系数以实现表情映射的研究方法。

面部特征点的三维坐标提取：本发明利用轻量级卷积神经网络MobileNets的高效性，将其进行改进并用于人脸特征点提取。自制了2万多张人脸图像及其对应的标签文件训练网络，不断调参得到最优网络，该网络将用于本发明的特征点提取。由于图像及其标签在输入网络后比例被压缩，因此先对提取出的数据大小做处理，最终基于MobileNets模型获得人脸的特征点3D坐标。

利用特征点3D坐标实现人脸到动画模型的表情映射：获得人脸特征点3D坐标后，通过对特征点进行三角网格重建并计算各顶点之间的欧式距离，将178个距离值作为用于数据转换的模型的输入，得到动画模型可识别的形变系数，最后将形变系数放到Unity3D中实现表情映射。

考虑到目前深度学习研究以使用更深和更复杂的网络来提高精度为趋势，导致模型速度较大且运行速度较慢的问题，本发明使用轻量级网络MobileNets，它兼顾了模型大小与运行速度，因而可适应于移动设备，具有较强的实用性。随着移动电子产品的普及，用户在网络世界停留的时间逐渐增多，需求也逐步提高。为在保证用户休闲娱乐的趣味性的前提下保护用户个人隐私，表情移植技术开始逐步发展，主要表现为：在网络社交或办公中，用户可通过表情移植技术与陌生好友网上交流，在不暴露个人外貌的情况下看到对方的表情变化，相比简单的文字、语音交流具有更高的社交效率；在游戏场景中，可实现玩家表情对游戏人物表情的控制，从而提高游戏玩家的沉浸感，通过该技术可设计出多种吸引玩家的趣味游戏；在类似于漫威或动漫等场景较为酷炫的电影制作中，可通过演员对角色模型的表情以及肢体控制进行电影录制，不仅保护了演员的安全，还可节约大量时间及金钱成本。可见，表情移植技术具有较大的研究意义。本发明使用轻量级网络MobileNets进行面部特征提取，并对特征点做特定处理以得到动画模型可识别的形变系数，最终在Unity3D中实现表情映射。经以上分析可见本发明可运用于多个领域，具有较强的商业价值。

Claims

1.一种基于MobileNets模型的表情追踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于MobileNets模型的表情追踪方法，其特征在于，步骤S1中所述三维特征坐标为包括人脸五官及外部轮廓的多个三维特征坐标。

3.根据权利要求2所述的一种基于MobileNets模型的表情追踪方法，其特征在于，步骤S2中对构建的神经网络MobileNets模型进行训练的具体方法为：

设定共有68个三维特征坐标，神经网络MobileNets模型第一层的标准卷积层包含64个卷积核，训练集图片的高为h、宽为w，则：

均值池化层以步长m将特征图归一化为1×1×1024大小；