CN115984943B

CN115984943B - 面部表情捕捉及模型训练方法、装置、设备、介质及产品

Info

Publication number: CN115984943B
Application number: CN202310088843.0A
Authority: CN
Inventors: 黄美佳; 陈志远; 马晨光
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2024-05-14
Anticipated expiration: 2043-01-16
Also published as: CN115984943A

Abstract

本说明书实施例公开了一种面部表情捕捉及模型训练方法、装置、设备、介质及产品。其中，上述面部表情捕捉方法包括：获取目标面部视频数据，目标面部视频数据包括连续多帧目标面部图像；提取目标面部视频数据对应的第一目标参数序列，第一目标参数序列包括多帧目标面部图像各自对应的第一目标参数，第一目标参数包括第一目标表情参数和第一目标旋转平移参数；利用目标时序神经网络模型优化第一目标参数序列，得到第二目标参数序列，第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列，目标时序神经网络模型基于多个已知面部特征点序列的面部视频数据进行训练得到。

Description

面部表情捕捉及模型训练方法、装置、设备、介质及产品

技术领域

本说明书涉及计算机技术领域，尤其涉及一种面部表情捕捉及模型训练方法、装置、设备、介质及产品。

背景技术

近年来随着电子设备与渲染技术的快速发展，运动捕捉技术已经是游戏开发、3D影视动画制作和虚拟现实领域中不可缺少的生成工具，运动捕捉通过记录动态物体的运动轨迹，来捕捉空间特征点从而计算出三维空间坐标，使得运动轨迹数字化。相比于身体的动作捕捉，面部表情捕捉的难度更高，需要获取细微精准的面部表情动作变化。

发明内容

本说明书实施例提供了一种面部表情捕捉及模型训练方法、装置、设备、介质及产品，既提高对面部视频数据进行面部表情捕捉的精度和连贯性，又可以广泛应用于低端设备，应用成本低。上述技术方案如下：

第一方面，本说明书实施例提供了一种面部表情捕捉方法，包括：

获取目标面部视频数据；上述目标面部视频数据包括连续多帧目标面部图像；

提取上述目标面部视频数据对应的第一目标参数序列；上述第一目标参数序列包括上述多帧目标面部图像各自对应的第一目标参数；上述第一目标参数包括第一目标表情参数和第一目标旋转平移参数；

利用目标时序神经网络模型优化上述第一目标参数序列，得到第二目标参数序列；上述第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列；上述目标时序神经网络模型基于多个已知面部特征点序列的面部视频数据进行训练得到。

在一种可能的实现方式中，上述提取上述目标面部视频数据对应的第一目标参数序列，包括：

利用目标参数提取器提取上述目标面部视频数据对应的第一目标参数序列；上述目标参数提取器基于多张已知面部特征点的面部图像进行训练得到。

在一种可能的实现方式中，上述目标参数提取器基于多张已知面部特征点的面部图像以及上述多个已知面部特征点序列的面部视频数据进行训练得到。

在一种可能的实现方式中，上述目标参数提取器包括第一目标卷积网络和第二目标卷积网络；上述第一目标卷积网络用于提取上述目标面部视频数据对应的第一目标表情参数序列；上述第二目标卷积网络用于提取上述目标面部视频数据对应的第一目标旋转平移参数序列。

在一种可能的实现方式中，上述目标时序神经网络模型包括第一目标时序神经网络和第二目标时序神经网络；上述第一目标时序神经网络用于优化上述目标面部视频数据对应的第一目标表情参数序列；上述第二目标时序神经网络用于优化上述目标面部视频数据对应的第一目标旋转平移参数序列。

在一种可能的实现方式中，上述利用目标时序神经网络模型优化上述第一目标参数序列，得到第二目标参数序列之后，上述方法还包括：

将上述第二目标参数序列迁移至目标三维虚拟形象。

在一种可能的实现方式中，上述第二目标表情参数序列包括上述多帧目标面部图像各自对应的第二目标表情参数，用于表征上述目标面部视频数据中面部表情的变化情况；上述第二目标表情参数用于表征组成上述目标面部图像中面部整体表情的多维度的目标表情基系数。

在一种可能的实现方式中，组成上述目标三维虚拟形象的面部整体表情的表情基的维度与上述目标表情基系数的维度相等。

在一种可能的实现方式中，上述第二目标旋转平移参数序列包括上述多帧目标面部图像各自对应的第二目标旋转平移参数，用于表征组成上述目标面部视频数据中头部姿态的变化情况。

在一种可能的实现方式中，上述获取目标面部视频数据，包括：

基于图像采集设备获取视频数据；上述视频数据包括连续多帧包含面部的图像；

对上述连续多帧包含面部的图像进行面部检测，得到目标面部视频数据；上述目标面部图像为仅包含面部的图像或已知面部位置的图像。

第二方面，本说明书实施例提供了一种时序神经网络模型训练方法，上述方法包括：

获取多个已知面部特征点序列的面部视频数据；上述面部视频数据包括连续多帧第一面部图像；上述面部特征点序列包括上述多帧第一面部图像各自对应的第一面部特征点；

提取上述面部视频数据对应的参数序列；上述第一参数序列包括上述多帧第一面部图像各自对应的参数；上述参数包括第一身份参数、第一表情参数以及第一旋转平移参数；

将上述面部视频数据对应的第一表情参数序列和第一旋转平移参数序列输入时序神经网络模型中，输出优化后的第二表情参数序列和第二旋转平移参数序列；

基于上述面部视频数据对应的第一身份参数序列、上述第二表情参数序列和上述第二旋转平移参数序列生成上述多帧第一面部图像各自对应的第一三维网格；

基于上述多帧第一面部图像各自对应的第一三维网格以及上述多帧第一面部图像各自对应的第一面部特征点确定上述时序神经网络模型的第一损失；

基于上述第一损失训练上述时序神经网络模型，得到训练好的目标时序神经网络模型；上述目标时序神经网络模型用于优化本说明书实施例第一方面或第一方面的任意一种可能的实现方式中的第一目标参数序列。

在一种可能的实现方式中，上述基于上述多帧第一面部图像各自对应的第一三维网格以及上述多帧第一面部图像各自对应的第一面部特征点确定上述时序神经网络模型的第一损失，包括：

获取上述多帧第一面部图像各自对应的第一三维面部网格的三维面部特征点；

将上述三维面部特征点进行投影，得到对应的二维面部特征点；

基于上述多帧第一面部图像各自对应的第一面部特征点以及上述多帧第一面部图像各自对应的第一三维网格对应的二维面部特征点确定上述时序神经网络模型的第一损失。

在一种可能的实现方式中，上述提取上述面部视频数据对应的参数序列，包括：

利用目标参数提取器提取上述面部视频数据对应的参数序列。

在一种可能的实现方式中，上述提取上述面部视频数据对应的参数序列之前，上述方法还包括：

获取多张已知第二面部特征点的第二面部图像；

基于上述多张已知第二面部特征点的第二面部图像训练参数提取器，得到训练好的上述目标参数提取器。

在一种可能的实现方式中，上述基于上述多张已知第二面部特征点的第二面部图像训练参数提取器，得到训练好的上述目标参数提取器，包括：

将多张已知第二面部特征点的第二面部图像输入参数提取器中，输出每张上述第二面部图像各自对应的参数集；

基于上述参数集对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格；

获取上述第二三维网格对应的二维面部特征点；

将上述第二三维网格渲染为二维图像；

基于上述第二三维网格对应的二维面部特征点和上述二维图像确定上述参数提取器对应的第二损失；

基于上述第二损失训练上述参数提取器，得到训练好的上述目标参数提取器。

在一种可能的实现方式中，上述参数集包括第二身份参数、纹理参数、第二表情参数和第二旋转平移参数；

上述基于上述参数集对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格，包括：

基于上述第二身份参数、上述纹理参数以及上述第二表情参数对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格；

上述将上述第二三维网格渲染为二维图像，包括：

基于上述纹理参数和上述第二旋转平移参数将上述第二三维网格渲染为二维图像。

在一种可能的实现方式中，上述参数提取器包括第一卷积网络、第二卷积网络、第三卷积网络以及第四卷积网络；其中：

上述第一卷积网络，用于提取上述第二面部图像对应的第二表情参数；

上述第二卷积网络，用于提取上述第二面部图像对应的第二旋转平移参数；

上述第三卷积网络，用于提取上述第二面部图像对应的第二身份参数；

上述第四卷积网络，用于提取上述第二面部图像对应的纹理参数。

在一种可能的实现方式中，上述获取上述第二三维网格对应的二维面部特征点，包括：

获取上述第二三维网格对应的三维面部特征点；

将上述第二三维网格对应的三维面部特征点进行投影，得到对应的二维面部特征点。

在一种可能的实现方式中，上述基于上述第二三维网格对应的二维面部特征点和上述二维图像确定上述参数提取器对应的第二损失，包括：

基于上述第二三维网格对应的二维面部特征点和上述第二面部图像的第二面部特征点确定上述参数提取器的特征点损失；

基于上述二维图像和上述第二面部图像确定上述参数提取器的像素损失；

上述基于上述第二损失训练上述参数提取器，得到训练好的上述目标参数提取器，包括：

基于上述特征点损失和上述像素损失训练上述参数提取器，得到训练好的上述目标参数提取器。

在一种可能的实现方式中，上述获取多张已知第二面部特征点的第二面部图像，包括：

获取多张第二面部图像；

利用面部检测算法和特征点检测算法确定上述多张第二面部图像各自对应的第二面部特征点。

在一种可能的实现方式中，上述第二面部图像的第二面部特征点的数量为多个；上述第二面部图像为基于图像采集设备采集到的二维的图像。

在一种可能的实现方式中，上述利用目标参数提取器提取上述面部视频数据对应的参数序列，包括：

利用上述目标参数提取器的第一卷积网络提取上述面部视频数据对应的第一表情参数序列；

利用上述目标参数提取器的第二卷积网络提取上述面部视频数据对应的第一旋转平移参数序列；

利用上述目标参数提取器的第三卷积网络提取上述面部视频数据对应的第一身份参数序列。

在一种可能的实现方式中，上述基于上述第一损失训练上述时序神经网络模型，得到训练好的目标时序神经网络模型，包括：

基于上述第一损失训练上述时序神经网络模型、上述第一卷积网络、上述第二卷积网络以及上述第三卷积网络，得到训练好的目标时序神经网络模型以及第一目标卷积网络、第二目标卷积网络以及第三目标卷积网络；

其中，上述第一目标卷积网络用于提取本说明书实施例第一方面或第一方面的任意一种可能的实现方式中的目标面部视频数据对应的第一目标表情参数序列；

上述第二目标卷积网络用于提取本说明书实施例第一方面或第一方面的任意一种可能的实现方式中的目标面部视频数据对应的第一目标旋转平移参数序列。

第三方面，本说明书实施例提供了一种面部表情捕捉装置，包括：

第一获取模块，用于获取目标面部视频数据；上述目标面部视频数据包括连续多帧目标面部图像；

第一提取模块，用于提取上述目标面部视频数据对应的第一目标参数序列；上述第一目标参数序列包括上述多帧目标面部图像各自对应的第一目标参数；上述第一目标参数包括第一目标表情参数和第一目标旋转平移参数；

第一优化模块，用于利用目标时序神经网络模型优化上述第一目标参数序列，得到第二目标参数序列；上述第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列；上述目标时序神经网络模型基于多个已知面部特征点序列的面部视频数据进行训练得到。

在一种可能的实现方式中，上述第一提取模块具体用于：

在一种可能的实现方式中，上述面部表情捕捉装置还包括：

表情迁移模块，用于将上述第二目标参数序列迁移至目标三维虚拟形象。

在一种可能的实现方式中，上述第一获取模块包括：

第一获取单元，用于基于图像采集设备获取视频数据；上述视频数据包括连续多帧包含面部的图像；

第一面部检测单元，用于对上述连续多帧包含面部的图像进行面部检测，得到目标面部视频数据；上述目标面部图像为仅包含面部的图像或已知面部位置的图像。

第四方面，本说明书实施例提供了一种时序神经网络模型训练装置，包括：

第二获取模块，用于获取多个已知面部特征点序列的面部视频数据；上述面部视频数据包括连续多帧第一面部图像；上述面部特征点序列包括上述多帧第一面部图像各自对应的第一面部特征点；

第二提取模块，用于提取上述面部视频数据对应的参数序列；上述第一参数序列包括上述多帧第一面部图像各自对应的参数；上述参数包括第一身份参数、第一表情参数以及第一旋转平移参数；

第二优化模块，用于将上述面部视频数据对应的第一表情参数序列和第一旋转平移参数序列输入时序神经网络模型中，输出优化后的第二表情参数序列和第二旋转平移参数序列；

第一生成模块，用于基于上述面部视频数据对应的第一身份参数序列、上述第二表情参数序列和上述第二旋转平移参数序列生成上述多帧第一面部图像各自对应的第一三维网格；

第一确定模块，用于基于上述多帧第一面部图像各自对应的第一三维网格以及上述多帧第一面部图像各自对应的第一面部特征点确定上述时序神经网络模型的第一损失；

第一训练模块，用于基于上述第一损失训练上述时序神经网络模型，得到训练好的目标时序神经网络模型；上述目标时序神经网络模型用于优化本说明书实施例第一方面或第一方面的任意一种可能的实现方式中的第一目标参数序列。

在一种可能的实现方式中，上述第一确定模块包括：

第二获取单元，用于获取上述多帧第一面部图像各自对应的第一三维面部网格的三维面部特征点；

投影单元，用于将上述三维面部特征点进行投影，得到对应的二维面部特征点；

第一确定单元，用于基于上述多帧第一面部图像各自对应的第一面部特征点以及上述多帧第一面部图像各自对应的第一三维网格对应的二维面部特征点确定上述时序神经网络模型的第一损失。

在一种可能的实现方式中，上述第二提取模块具体用于：

在一种可能的实现方式中，上述时序神经网络模型训练装置还包括：

第三获取模块，用于获取多张已知第二面部特征点的第二面部图像；

第二训练模块，用于基于上述多张已知第二面部特征点的第二面部图像训练参数提取器，得到训练好的上述目标参数提取器。

在一种可能的实现方式中，上述第二训练模块包括：

参数提取单元，用于将多张已知第二面部特征点的第二面部图像输入参数提取器中，输出每张上述第二面部图像各自对应的参数集；

组合单元，用于基于上述参数集对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格；

第三获取单元，用于获取上述第二三维网格对应的二维面部特征点；

渲染单元，用于将上述第二三维网格渲染为二维图像；

第二确定单元，用于基于上述第二三维网格对应的二维面部特征点和上述二维图像确定上述参数提取器对应的第二损失；

训练单元，用于基于上述第二损失训练上述参数提取器，得到训练好的上述目标参数提取器。

上述组合单元具体用于：

上述渲染单元具体用于：

在一种可能的实现方式中，上述第三获取单元具体用于：

获取上述第二三维网格对应的三维面部特征点；将上述第二三维网格对应的三维面部特征点进行投影，得到对应的二维面部特征点。

在一种可能的实现方式中，上述第二确定单元具体用于：

基于上述第二三维网格对应的二维面部特征点和上述第二面部图像的第二面部特征点确定上述参数提取器的特征点损失；基于上述二维图像和上述第二面部图像确定上述参数提取器的像素损失；

上述训练单元具体用于：

在一种可能的实现方式中，上述第三获取模块包括：

第四获取单元，用于获取多张第二面部图像；

第三确定单元，用于利用面部检测算法和特征点检测算法确定上述多张第二面部图像各自对应的第二面部特征点。

在一种可能的实现方式中，上述第二提取模块具体用于：

利用上述目标参数提取器的第一卷积网络提取上述面部视频数据对应的第一表情参数序列；利用上述目标参数提取器的第二卷积网络提取上述面部视频数据对应的第一旋转平移参数序列；利用上述目标参数提取器的第三卷积网络提取上述面部视频数据对应的第一身份参数序列。

在一种可能的实现方式中，上述第一训练模块具体用于：

第五方面，本说明书实施例提供了一种电子设备，包括：处理器以及存储器；

上述处理器与上述存储器相连；

上述存储器，用于存储可执行程序代码；

上述处理器通过读取上述存储器中存储的可执行程序代码来运行与上述可执行程序代码对应的程序，以用于执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式或第二方面或第二方面的任意一种可能的实现方式提供的方法。

第六方面，本说明书实施例提供了一种计算机存储介质，上述计算机存储介质存储有多条指令，上述指令适于由处理器加载并执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式或第二方面或第二方面的任意一种可能的实现方式提供的方法。

第七方面，本说明书实施例提供了一种包含指令的计算机程序产品，当上述计算机程序产品在计算机或处理器上运行时，使得上述计算机或上述处理器执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式或第二方面或第二方面的任意一种可能的实现方式提供的方法。

本说明书实施例中，获取目标面部视频数据，目标面部视频数据包括连续多帧目标面部图像；提取目标面部视频数据对应的第一目标参数序列，第一目标参数序列包括多帧目标面部图像各自对应的第一目标参数，第一目标参数包括第一目标表情参数和第一目标旋转平移参数；利用目标时序神经网络模型优化上述第一目标参数序列，得到第二目标参数序列，第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列，目标时序神经网络模型基于多个已知面部特征点序列的面部视频数据进行训练得到，从而通过利用目标时序神经网络模型优化目标面部视频数据对应的与面部表情相关的第一目标参数序列，得到连贯性好、精度高的第二目标参数序列，即无需高端的图像采集设备，就可以实现高精度、高连贯性、应用成本低的面部表情捕捉。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一示例性实施例提供的一种面部表情捕捉***的架构示意图；

图2为本说明书一示例性实施例提供的一种面部表情捕捉方法的流程示意图；

图3为本说明书一示例性实施例提供的一种获取目标面部视频数据的实现过程示意图；

图4为本说明书一示例性实施例提供的一种提取目标面部视频数据对应的第一目标参数序列的实现过程示意图；

图5为本说明书一示例性实施例提供的一种面部表情捕捉方法的实现过程示意图；

图6为本说明书一示例性实施例提供的另一种面部表情捕捉方法的流程示意图；

图7为本说明书一示例性实施例提供的一种面部表情捕捉方法的整体实现过程示意图；

图8为本说明书一示例性实施例提供的一种时序神经网络模型训练方法的流程示意图；

图9为本说明书一示例性实施例提供的一种时序神经网络模型训练方法的实现过程示意图；

图10为本说明书一示例性实施例提供的一种确定时序神经网络模型的第一损失的流程示意图；

图11为本说明书一示例性实施例提供的一种目标参数提取器的训练流程示意图；

图12为本说明书一示例性实施例提供的一种目标参数提取器的训练过程示意图；

图13为本说明书一示例性实施例提供的一种训练目标参数提取器的具体流程示意图；

图14为本说明书一示例性实施例提供的一种训练目标参数提取器的实现过程示意图；

图15为本说明书一示例性实施例提供的一种面部表情捕捉装置的结构示意图；

图16为本说明书一示例性实施例提供的一种时序神经网络模型训练装置的结构示意图；

图17为本说明书一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述。

本说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

需要说明的是，本说明书实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本说明书中涉及的目标面部视频数据、面部图像等都是在充分授权的情况下获取的。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

面部表情捕捉：通过相机等机械装置来记录面部的一系列动作和表情，并将这些表情转换为一组参数数据的过程。

参数化三维面部模型(3D Morphable Face Model，3DMM)：通常由对大量同拓扑的参数化3D人脸做统计分解得到，包括形状基、表情基和纹理基向量，通过对基向量的各种组合，可以拟合生成各种形状的3D人脸。

时序神经网络：是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。

BlendShape：一组组成面部整体表情的基准(3DMM中的表情基)，通常使用ARKit的52个BlendShape表情基准组，通过加权组合，可以获得各种面部表情，来驱动虚拟角色的面部表情，以制作3D动画。

目前，相关的面部表情捕捉技术主要有三类：第一类面部表情捕捉技术由完备硬件摄像***和表情捕捉算法构成，普遍在专业的团队中使用，比如影视特效公司等，价格昂贵，操作复杂，依赖于高端的硬件设备，对于普通大众并不适用；第二类面部表情捕捉技术主要是基于深度信息采集设备，在获取图像数据的之外，也获取面部的深度信息，从而获得面部的三维数据，并利用算法根据追踪到的二维和三维的人脸数据输出为表情基准，但是，深度信息的获取利用了摄像头的3D结构光技术，硬件成本高昂，对于普通的单目RGB相机来说无法获取，无法在低端设备中应用；第三类面部表情捕捉技术是基于图像数据的面部捕捉算法，直接对每帧静态图像获取表情参数以实现面部捕捉。

但是，无论是上述哪一类面部表情捕捉技术，都只能对单帧的面部图像实现高精度的面部表情捕捉，而针对于面部视频数据，在面部表情捕捉的过程中，均缺少面部表情动作的连贯性，导致精度较低，用户体验差。因此，亟需一种既具备高精度和连贯性，又可以广泛应用于低端设备，应用成本低的面部表情捕捉方法。

接下来请参考图1，其为本说明书一示例性实施例提供的一种面部表情捕捉***的架构示意图。如图1所示，该面部表情捕捉***包括：图像采集设备110和终端120。其中：

图像采集设备110可以是相机(例如但不限于单目RGB相机)或安装有摄像头的其它设备等，本说明书实施例对此不作限定。当想要对目标用户或目标动物等进行面部表情捕捉时，可以先通过图像采集设备110采集其对应的目标面部视频数据，目标面部视频数据包括连续多帧目标面部图像。然后再将上述目标面部视频数据发送给终端120进行面部表情捕捉。图像采集设备110与终端120之间进行数据传输的方式可以是无线传输方式，也可以是有线传输方式。其中，无线传输方式可以包括无线上网、蓝牙和移动设备网络等，有线传输方式可以包括同轴电缆、读卡器、光纤和数字用户线路等。

终端120可以为用户端，具体包括一个或多个用户端。终端120中任意一个用户端均可以建立与网络之间的数据关系，并通过该网络和图像采集设备110建立数据连接关系，例如接收目标面部视频数据等。在终端120中可安装用户版的软件，用于实现提取目标面部视频数据对应的第一目标参数序列，第一目标参数序列包括多帧目标面部图像各自对应的第一目标参数，第一目标参数包括第一目标表情参数和第一目标旋转平移参数，并利用目标时序神经网络模型优化第一目标参数序列，得到第二目标参数序列，第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列。在进行面部表情捕捉之前，终端120还可以通过本说明书实施例提供的时序神经网络模型训练方法基于多个已知面部特征点序列的面部视频数据训练时序神经网络模型，从而得到训练好的上述面部表情捕捉过程中所用到的目标时序神经网络模型。其中，终端120中任意一个用户端可以但不限于是安装有用户版软件的手机、平板电脑、笔记本电脑等设备。

可选地，图像采集设备110和终端120可以为相互独立的两个设备，图像采集设备110也可以与终端120集成在一起，为设置在终端120上的摄像头，本说明书实施例对此不作限定。

可选地，本说明书实施例提供的面部表情捕捉方法以及时序神经网络模型训练方法不限于由上述终端120执行，还可以是由与终端120或图像采集设备110通过网络连接的服务器执行，本说明书实施例对此不作具体限定，以下实施例全部以由终端120执行上述面部表情捕捉为例进行说明。服务器可以但不限于是硬件服务器、虚拟服务器、云服务器等。

示例性地，上述面部表情捕捉***可以但不限于应用于游戏开发、3D影视动画制作、3D虚拟形象动态展示等各种场景中。

网络可以是在终端120和任意一个图像采集设备110之间提供通信链路的介质，也可以是包含网络设备和传输介质的互联网，不限于此。传输介质可以是有线链路，例如但不限于，同轴电缆、光纤和数字用户线路(digital subscriber line，DSL)等，或无线链路，例如但不限于，无线上网(wireless fidelity，WIFI)、蓝牙和移动设备网络等。

可以理解地，图1所示的面部表情捕捉***中的图像采集设备110和终端120的数目仅作为示例，在具体实现中，该面部表情捕捉***中可以包含任意数目的图像采集设备和终端。本说明书实施例对此不作具体限定。例如但不限于，图像采集设备110可以是多个图像采集设备组成的图像采集设备集群，终端120可以是多个终端组成的终端集群。

接下来结合图1，以由终端120执行面部表情捕捉为例，介绍本说明书实施例提供的面部表情捕捉方法。具体请参考图2，其为本说明书一示例性实施例提供的一种面部表情捕捉方法的流程示意图。如图2所示，该面部表情捕捉方法包括以下几个步骤：

S202，获取目标面部视频数据，目标面部视频数据包括连续多帧目标面部图像。

具体地，目标面部视频数据为2D的面部视频，目标面部图像为仅包括面部的2D面部图像。目标面部视频数据包括的连续多帧目标面部图像对应的多张面部可以来自于同一个目标对象(例如但不限于目标用户或目标动物等)，也可以来自不同的目标对象，本说明书实施例对此不作限定。

可选地，在需要对用户的表情动作进行面部表情捕捉时，可以采用图像采集设备110对其面部录制视频，从而得到目标面部视频数据。

可选地，当想要对提前制作好的目标面部视频数据中的人进行面部表情捕捉时，可以但不限于通过网络将上述目标面部视频数据发送至终端120或服务器。在获取到目标面部视频数据后，终端120或服务器将会根据本说明书实施例提供的面部表情捕捉方法实现对其进行面部表情捕捉。

可选地，当需要通过图像采集设备110采集实现获取目标面部视频数据时，终端120一般会先基于图像采集设备110获取视频数据，即通过网络接收到图像采集设备110发送的其采集到的视频数据，视频数据包括连续多帧包含面部的图像。由于图像采集设备110采集到的视频数据中的图像往往很难仅包括目标对象的面部，还会包括一定的背景部分，为了确保面部表情捕捉的精度，在接收到图像采集设备110采集的要进行面部表情捕捉的视频数据之后，如图3所示，还可以先对视频数据中连续多帧包含面部的图像进行面部检测(人脸检测)，从而得到实际用于面部表情捕捉的目标面部视频数据。此时，目标面部视频数据中的连续多帧目标面部图像均为仅包含面部的图像或已知面部位置的图像，以便进行面部表情捕捉时，能够尽可能避免目标面部视频数据的每帧目标面部图像中非面部部分对面部表情捕捉的干扰，或者能够高效准确地知道目标面部视频数据的每帧目标面部图像中面部所在位置，确保面部表情捕捉的效率和精度。

S204，提取目标面部视频数据对应的第一目标参数序列，第一目标参数序列包括多帧目标面部图像各自对应的第一目标参数，第一目标参数包括第一目标表情参数和第一目标旋转平移参数。

具体地，第一目标参数序列包括第一目标表情参数序列和第一目标旋转平移参数序列。在获取到目标面部视频数据之后，可以分别提取目标面部视频数据中每帧目标面部图像对应的第一目标表情参数和第一目标旋转平移参数，从而按照目标面部视频数据中各帧目标面部图像的先后顺序分别得到目标面部视频数据对应的第一目标表情参数序列和第一目标旋转平移参数序列。

可选地，在获取到目标面部视频数据之后，为了能够准确地提取出目标面部视频数据中各帧目标面部图像对应的第一目标参数，可以直接利用训练好的目标参数提取器提取目标面部视频数据对应的第一目标参数序列，目标参数提取器基于多张已知面部特征点的面部图像进行训练得到，从而在确保面部表情捕捉高连贯性以及低应用成本的同时，还进一步确保面部表情捕捉的高精度。

进一步地，为了进一步确保提取出的每帧目标面部图像对应的第一目标参数的准确性，以及提高S206中利用目标时序神经网络模型优化第一目标参数序列的优化效果，上述目标参数提取器可以是在基于多张已知面部特征点的面部图像进行训练，提高其对图像进行参数提取的精度之后，还进一步基于多个已知面部特征点序列的面部视频数据与目标时序神经网络模型共同进行训练得到，从而通过精度更高地目标参数提取器提高需要目标时序神经网络模型优化的第一目标参数序列的准确性以及一定的时序性，进而能够对目标面部视频数据实现更加连贯、精度更高的面部表情捕捉，即可以得到连贯性更强、精度更高的第二目标参数序列。

进一步地，如图4所示，上述目标参数提取器至少包括第一目标卷积网络和第二目标卷积网络，第一目标卷积网络用于提取目标面部视频数据对应的第一目标表情参数序列，第二目标卷积网络用于提取目标面部视频数据对应的第一目标旋转平移参数序列。

S206，利用目标时序神经网络模型优化第一目标参数序列，得到第二目标参数序列，第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列。

具体地，目标时序神经网络模型基于多个已知面部特征点序列的面部视频数据进行训练得到。上述面部特征点序列包括面部视频数据中各帧面部图像对应的面部特征点。为了尽可能确保训练好的目标时序神经网络的精度，每帧面部图像对应的面部特征点的数量为多个，例如但不限于66个、68个等。上述面部特征点序列中的面部特征点为2D的特征点。

具体地，如图5所示，目标时序神经网络模型包括第一目标时序神经网络和第二目标时序神经网络。在提取出目标面部视频数据对应的第一目标表情参数序列和第一目标旋转平移参数序列之后，还可以利用目标时序神经网络模型的第一目标时序神经网络优化上述第一目标表情参数序列，以及利用目标时序神经网络模型的第二目标时序神经网络优化上述第一目标旋转平移参数序列，即将第一目标表情参数序列和第一目标旋转平移参数序列输入训练好的目标时序神经网络模型中，分别对应输出优化后的高连贯性、高精度的第二目标表情参数序列和第二目标旋转平移参数序列。

具体地，第二目标表情参数序列包括目标面部视频数据中多帧目标面部图像各自对应的第二目标表情参数，用于表征目标面部视频数据中面部表情的变化情况。第二目标表情参数序列中的第二目标表情参数用于表征组成目标面部图像中面部整体表情的多维度的目标表情基系数，例如但不限于为52维的blendshape系数。

具体地，第二目标旋转平移参数序列包括目标面部视频数据中多帧目标面部图像各自对应的第二目标旋转平移参数，用于表征组成目标面部视频数据中头部姿态的变化情况。每帧目标面部图像对应的第二目标旋转平移参数可以但不限于包括三维立体空间上的3个旋转参数和三个平移参数。

由于第一目标参数序列均仅是通过单帧的目标面部图像获得，序列内的前后帧之间不存在关联关系，面部表情捕捉后会存在前后表情不连贯或者头部旋转运动时轻微跳跃的问题，为了解决这个问题，本说明书实施例利用基于多个已知面部特征点序列的面部视频数据进行训练得到的目标时序神经网络模型，优化包括目标面部视频数据中连续多帧目标面部图像各自对应与面部表情相关的第一目标参数的第一目标参数序列，得到连贯性好、时序性高的第二目标参数序列，从而无需高端的图像采集设备，就可以实现高连贯性、高精度且应用成本低的面部表情捕捉。

接下来请参考图6，其为本说明书一示例性实施例提供的另一种面部表情捕捉方法的流程示意图。如图6所示，该面部表情捕捉方法包括以下几个步骤：

S602，获取目标面部视频数据，目标面部视频数据包括连续多帧目标面部图像。

具体地，S602与S202一致，此处不再赘述。

S604，提取目标面部视频数据对应的第一目标参数序列，第一目标参数序列包括多帧目标面部图像各自对应的第一目标参数，第一目标参数包括第一目标表情参数和第一目标旋转平移参数。

具体地，S604与S204一致，此处不再赘述。

S606，利用目标时序神经网络模型优化第一目标参数序列，得到第二目标参数序列，第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列。

具体地，S606与S206一致，此处不再赘述。

S608，将第二目标参数序列迁移至目标三维虚拟形象。

具体地，当想要将在物理世界采集到的目标面部视频数据中的面部表情动作通过预先设置好的目标三维虚拟形象进行展示时，在利用目标时序神经网络模型优化所述第一目标参数序列，得到第二目标参数序列，即捕捉到目标面部视频数据中与面部表情相关的第二目标参数序列之后，可以将第二目标参数序列中各第二目标表情参数和各第二目标旋转平移参数分别对应目标面部视频数据中各帧目标面部图像的先后顺序迁移给目标三维虚拟形象，从而通过让目标三维虚拟形象拥有与目标面部视频数据对应的第二目标参数序列相同的多个第二目标表情参数和第二目标旋转平移参数，以及多个第二目标表情参数和第二目标旋转平移参数之间的变化情况，使得目标三维虚拟形象可以做出目标面部视频数据中目标对象面部相同的表情动作，极大地确保了目标三维虚拟形象所做的表情动作的连贯性和精度，也确保了目标三维虚拟形象所做的表情动作与目标面部视频数据中目标对象所做的面部表情动作的一致性。

进一步地，第二目标表情参数序列包括多帧目标面部图像各自对应的第二目标表情参数，用于表征目标面部视频数据中面部表情的变化情况。第二目标表情参数用于表征组成目标面部图像中面部整体表情的多维度的目标表情基系数。第二目标旋转平移参数序列包括目标面部视频数据中多帧目标面部图像各自对应的第二目标旋转平移参数，用于表征组成目标面部视频数据中头部姿态的变化情况。因此，将第二目标参数序列迁移至目标三维虚拟形象后，就可以让目标三维虚拟形象根据第二目标表情参数序列做出与目标面部视频数据中相同的面部表情变化，并同时通过根据第二目标旋转平移参数序列做出与目标面部视频数据中相同的头部姿态变化，以确保面部表情捕捉的精度和连贯性。

进一步地，为了确保目标三维虚拟形象的表情迁移效果，组成目标三维虚拟形象的面部整体表情的表情基的维度与第二目标表情参数所表征的目标表情基系数的维度应该相等，从而保证能够顺利高效的将第二目标参数序列迁移至目标三维虚拟形象。

可以理解地，本说明书实施例中，只需要确保目标三维虚拟形象的面部整体表情的表情基的维度与第二目标表情参数所表征的目标表情基系数的维度相等就可实现让目标三维虚拟形象做出目标面部视频数据中相同的表情动作，至于目标三维虚拟形象和目标面部视频数据中目标对象的脸可以一致或相似，也可以完全不同，例如但不限于目标面部视频数据中是人在做表情动作，而进行面部表情捕捉并迁移之后，可以是由动物对应的目标三维虚拟形象做与之相同的表情动作。

示例性地，如图7所示，本说明书实施例提供的面部表情捕捉方法可以主要分为视频数据采集与预处理模块、面部表情捕捉模块和表情迁移及虚拟替身展示模块这三个部分。其中视频数据采集与预处理模块主要由用户使用图像采集设备，例如单目RGB摄像头、手机等设备对目标对象(例如人或动物等)面部进行视频数据采集，并对采集到的每帧图像进行面部检测得到目标面部视频数据。然后，由于面部表情捕捉模块先提取预处理的目标面部视频数据对应的第一目标参数序列，并将该第一目标参数序列输入目标时序神经网络模型，输出得到优化后的第二目标参数序列。最后，由表情迁移及虚拟替身展示模块将捕捉到的目标对象在目标面部视频数据中的表情(第二目标参数序列)迁移给预先制作好的3D虚拟替身(目标三维虚拟形象)，得到第二目标参数序列的3D虚拟替身可以做出与目标对象相同的表情动作，将动态的效果进行展示。

接下来结合图1-图7，以由终端120执行时序神经网络模型训练为例，介绍上述实施例中所涉及的时序神经网络模型训练方法。具体请参考图8，其为本说明书一示例性实施例提供的一种时序神经网络模型训练方法的流程示意图。如图8所示，该时序神经网络模型训练方法包括以下几个步骤：

S802，获取多个已知面部特征点序列的面部视频数据，面部视频数据包括连续多帧第一面部图像，面部特征点序列包括多帧第一面部图像各自对应的第一面部特征点。

具体地，由于在面部表情捕捉时，为了确保面部表情捕捉的连贯性和精度，需要利用目标时序神经网络模型对目标面部视频数据对应的第一目标参数序列进行优化。因此，为了确保目标时序神经网络模型的优化效果，在S206，利用目标时序神经网络模型优化第一目标参数序列，得到第二目标参数序列之前，需要获取多个已知面部特征点序列的面部视频数据对时序神经网络模型进行训练，从而得到训练好的目标时序神经网络模型。

具体地，为了训练面部表情捕捉方法中所涉及的时序神经网络模型，终端120可以先通过网络接收到图像采集设备110发送的多个视频数据或者从多个视频平台中获取多个视频数据。为了提高训练数据的质量，确保时序神经网络模型的训练效果，在获取到多个视频数据之后，可以先清洗掉多个视频数据中面部模糊等识别不到面部表情的视频数据，然后利用面部检测算法对清洗后的各视频数据截取面部区域得到多个面部视频数据，并利用面部特征点检测算法(例如但不限于OpenSeeFace面部2D特征点检测算法)，对各面部视频数据的每帧第一面部图像进行检测，得到多个第一面部特征点(2D特征点)，从而获得多个面部视频数据以及多个面部视频数据各自对应的面部特征点序列。每帧第一面部图像对应第一面部特征点的数量可以是66个或69个等，本说明书对此不作限定。

S804，提取面部视频数据对应的第一参数序列，第一参数序列包括多帧第一面部图像各自对应的参数，参数包括第一身份参数、第一表情参数以及第一旋转平移参数。

具体地，第一参数序列包括第一身份参数序列、第一表情参数序列以及第一旋转平移参数序列。在获取到多个面部视频数据之后，可以分别提取各面部视频数据中每帧第一面部图像对应的第一身份参数、第一表情参数和第一旋转平移参数，从而按照面部视频数据中各帧第一面部图像的先后顺序分别得到面部视频数据对应的第一身份参数序列、第一表情参数序列以及第一旋转平移参数序列。

可以理解地，为了避免面部视频数据中多帧第一面部图像的面部对应的对象身份发生变化，例如面部视频数据的第一帧第一面部图像中的面部为用户A的面部，第二帧第一面部图像中的面部为用户B的面部，即面部视频数据中的头部形状发生变化而影响时序神经网络模型的训练效果，可以直接提取面部视频数据中每一帧第一面部图像对应的第一身份参数参与时序神经网络模型的训练；当面部视频数据中多帧第一面部图像的面部对应的对象身份未发生变化时，为了提高时序神经网络模型的训练效率，也可以只提取面部视频数据中第一帧任意一帧第一面部图像对应的第一身份参数参与时序神经网络模型的训练。

可选地，在获取到多个面部视频数据之后，为了能够准确地提取出面部视频数据中各帧第一面部图像对应的参数，可以直接利用训练好的目标参数提取器提取面部视频数据对应的第一参数序列，参数提取器基于多张已知面部特征点的面部图像进行训练得到，从而既提高时序神经网络模型训练过程中需要输入时序神经网络模型的参数序列的精度和准确性，又增强了训练好的目标时序神经网络模型提高面部表情捕捉时第一目标参数序列的连贯性和精确度的优化效果。

进一步地，如图9所示，目标参数提取器至少包括第一卷积网络、第二卷积网络以及第三卷积网络。在利用目标参数提取器提取面部视频数据对应的第一参数序列时，将会利用目标参数提取器的第一卷积网络提取面部视频数据对应的第一表情参数序列，利用目标参数提取器的第二卷积网络提取面部视频数据对应的第一旋转平移参数序列，以及利用目标参数提取器的第三卷积网络提取面部视频数据对应的第一身份参数序列。

S806，将面部视频数据对应的第一表情参数序列和第一旋转平移参数序列输入时序神经网络模型中，输出优化后的第二表情参数序列和第二旋转平移参数序列。

具体地，由于第一表情参数序列和第一旋转平移参数序列均仅是通过单帧的图像获得，序列内的前后帧之间不存在关联关系，会存在前后表情不连贯或者头部旋转运动时轻微跳跃的问题，为了解决这个问题，引入时序神经网络模型学***移参数序列，以此来增强序列内的前后帧之间的关联关系，提高面部表情捕捉的连贯性和精度。

可以理解地，由于面部视频数据中各帧的身份参数一般都是固定的，并不会随着人物运动而改变，因此无需进行优化。但是，在3D影视动画制作、3D虚拟形象动态展示等场景中，为了提高动画或虚拟形象动态展示的准确率和连贯性，增强训练好的目标时序网络模型的优化效果，可以将面部视频数据对应的第一身份参数序列与第一表情参数序列以及第一旋转平移参数序列一同输入时序神经网络模型，并利用输出的第二身份参数序列、第二表情参数序列和第二旋转平移参数序列共同生成多帧第一面部图像各自对应的第一三维网格，本说明书实施例对此不作限定。

具体地，如图9所示，在提取出面部视频数据对应的第一参数序列后，可以将面部视频数据对应的第一表情参数序列输入时序神经网络模型的第一时序神经网络中，输出对应优化后的第二表情参数序列，以及将面部视频数据对应的第一旋转平移参数序列输入时序神经网络模型的第二时序神经网络中，输出对应优化后的第二旋转平移参数序列。上述第一时序神经网络和第二时序神经网络是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络，可以但不限于是长短期记忆网络(Long Short-Term Memory，LSTM)。

S809，基于面部视频数据对应的第一身份参数序列、第二表情参数序列和第二旋转平移参数序列生成多帧第一面部图像各自对应的第一三维网格。

具体地，如图9所示，在得到优化后的第二表情参数序列和第二旋转平移参数序列后，可以结合对应的第一身份参数序列，通过对3DMM基向量进行组合，为面部视频数据的每一帧第一面部图像都拟合生成一个3D网格(第一三维网格)。第一三维网格由三维网格和多个能够表征头部特征的三维顶点(特征点)组成。

S810，基于多帧第一面部图像各自对应的第一三维网格以及多帧第一面部图像各自对应的第一面部特征点确定时序神经网络模型的第一损失。

具体地，如图10所示，上述S810中确定时序神经网络模型的第一损失的流程包括以下几个步骤：

S1002，获取多帧第一面部图像各自对应的第一三维面部网格的三维面部特征点。

具体地，在确定多帧第一面部图像各自对应的第一三维网格之后，可以根据特征点索引获得到各第一三维面部网格中的三维面部特征点。上述三维面部特征点为构成第一三维面部网格的所有顶点中能够代表面部轮廓和五官的点。

S1004，将三维面部特征点进行投影，得到对应的二维面部特征点。

具体地，由于单目RGB相机等低端的图像采集设备只能够获取到二维的图像数据，不能获取到三维的信息，为了确保本说明书实施例中高连贯性、高精度的面部表情捕捉方法可以广泛的应用于低成本的图像采集设备，在训练时序神经网络模型的过程中，可以通过将三维面部特征点投影到二维获得对应的二维面部特征点，以实现不需要提供额外的三维信息，就可以根据面部视频数据中各二维的第一面部图像的第一面部特征点以及对应的二维面部特征点确定时序神经网络模型时的第一损失。

S1006，基于多帧第一面部图像各自对应的第一面部特征点以及多帧第一面部图像各自对应的第一三维网格对应的二维面部特征点确定时序神经网络模型的第一损失。

具体地，如图9所示，在确定多帧第一面部图像各自对应的第一三维网格对应的二维面部特征点之后，可以直接根据各第一面部图像各自对应的第一面部特征点与二维面部特征点之间的差距确定时序神经网络模型的第一损失。上述第一面部图像对应的第一面部特征点的数量与对应的二维面部特征点的数量相同。

示例性地，上述第一损失其中，N表示第一面部图像对应的第一面部特征点的总数量；ω_n表示第n个第一面部特征点对应的权重系数；q_n表示第n个第一面部特征点(向量)；q'_n表示第一三维网格对应的第n个二维面部特征点(向量)。

可以理解地，对于每帧第一面部图像而言，不同部位的第一面部特征点或不同的第一面部特征点可以对应不同的权重系数，例如但不限于嘴巴部位的第一面部特征点对应的权重系数大于面部轮廓的第一面部特征点的权重系数，使时序神经网络模型能够基于第一损失进行训练实现更好地表情参数序列的优化效果。

S812，基于第一损失训练时序神经网络模型，得到训练好的目标时序神经网络模型。

可选地，在确定时序神经网络模型的第一损失之后，可以基于上述第一损失只训练时序神经网络模型，得到训练好的目标时序神经网络模型。

本说明书实施例中，通过多个已知二维的面部特征点序列的面部视频数据训练时序神经网络模型，得到训练好的目标时序神经网络模型，既赋予了目标时序神经网络模型能够增强面部表情捕捉时所涉及的目标面部视频数据对应的第一目标参数序列内帧与帧之间参数的关联关系的能力，实现能够通过目标时序神经网络模型提高面部表情捕捉的连贯性和精度，又为本说明实施例中的面部表情捕捉方法能够广泛应用于低端的图像采集设备提供一定的支持。

可选地，在确定时序神经网络模型的第一损失之后，也可以基于第一损失训练时序神经网络模型、第一卷积网络、第二卷积网络以及第三卷积网络，得到训练好的目标时序神经网络模型以及第一目标卷积网络、第二目标卷积网络以及第三目标卷积网络。即在基于第一损失训练时序神经网络模型，得到训练好的目标时序神经网络模型时，除了只训练时序神经网络模型之外，同时还会进一步训练目标参数提取器中的第一卷积网络、第二卷积网络以及第三卷积网络，以进一步增强在进行面部表情捕捉时目标参数提取器中第一卷积网络(第一目标卷积网络)和第二卷积网络(第二目标卷积网络)进行参数提取的精确度。上述第一目标卷积网络用于提取本说明书实施例提供的面部表情捕捉方法中所涉及的目标面部视频数据对应的第一目标表情参数序列；上述第二目标卷积网络用于提取本说明书实施例提供的面部表情捕捉方法中所涉及的目标面部视频数据对应的第一目标旋转平移参数序列。

为了确保S704中提取出的参数序列的准确性，提高时序神经网络模型的训练效果，进而确保面部表情捕捉的精度，在S704中利用目标参数提取器提取面部视频数据对应的参数序列之前，还需要先对目标参数提取器进行训练。具体请参考图11，其为本说明书一示例性实施例提供的一种目标参数提取器的训练流程示意图。如图11所示，该目标参数提取器的训练流程包括以下几个步骤：

S1102，获取多张已知第二面部特征点的第二面部图像。

具体地，当想要得到训练好的目标参数提取器时，可以通过网络或图像采集设备获取多张已知第二面部特征点的第二面部图像作为训练数据。第二面部图像的第二面部特征点的数量为多个，例如但不限于是66个或68个等。第二面部图像可以但不限于为基于图像采集设备采集到的二维的图像。上述第二面部特征点为2D的特征点。

可选地，如图12所示，为了训练目标参数提取器，可以先获取多张第二面部图像，然后利用面部检测算法和特征点检测算法(例如但不限于OpenSeeFace面部2D特征点检测算法)确定多张第二面部图像各自对应的第二面部特征点以及第二面部图像中面部的位置。

S1104，基于多张已知第二面部特征点的第二面部图像训练参数提取器，得到训练好的目标参数提取器。

具体地，如图13所示，S1104中训练参数提取器的具体实现流程包括以下几个步骤：

S1302，将多张已知第二面部特征点的第二面部图像输入参数提取器中，输出每张第二面部图像各自对应的参数集。

具体地，如图14所示，上述参数集包括第二身份参数、纹理参数、第二表情参数和第二旋转平移参数。上述参数提取器包括第一卷积网络、第二卷积网络、第三卷积网络以及第四卷积网络。其中：第一卷积网络，用于提取第二面部图像对应的第二表情参数；第二卷积网络，用于提取第二面部图像对应的第二旋转平移参数；三卷积网络，用于提取第二面部图像对应的第二身份参数；第四卷积网络，用于提取第二面部图像对应的纹理参数。

S1304，基于参数集对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格。

具体地，如图14所示，在基于参数集对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格时，具体可以基于第二身份参数、纹理参数以及第二表情参数对参数化三维面部模型的基向量进行组合，生成对应的包含纹理的第二三维网格。上述参数化三维面部模型通常由对大量同拓扑的参数化3D人脸做统计分解得到，包括形状基、表情基和纹理基向量，通过对基向量的各种组合，可以拟合生成各种形状的3D人脸(三维网格)。

S1306，获取第二三维网格对应的二维面部特征点。

具体地，在确定多帧第二面部图像各自对应的第二三维网格之后，可以先根据特征点索引获得到各第二三维网格对应的三维面部特征点。由于单目RGB相机等低端的图像采集设备只能够获取到二维的图像数据，不能获取到三维的信息，为了确保本说明书实施例中高连贯性、高精度的面部表情捕捉方法可以广泛的应用于低成本的图像采集设备，在训练目标参数提取器的过程中，同样也通过将第二三维网格对应的三维面部特征点进行投影得到对应的二维面部特征点，以实现不需要提供额外的三维信息，就确定参数提取器的损失。上述三维面部特征点为构成第二三维面部网格的所有顶点中能够代表面部轮廓和五官的点。

S1308，将第二三维网格渲染为二维图像。

具体地，在确定多帧第二面部图像各自对应的第二三维网格之后，还可以基于纹理参数和第二旋转平移参数使用可微分渲染器将各第二三维网格渲染为对应的二维图像。

可以理解地，S1308与S1306可以先后执行，也可以同步执行，本说明书实施例对此不作限定。

S1310，基于第二三维网格对应的二维面部特征点和二维图像确定参数提取器对应的第二损失。

具体地，如图14所示，第二损失包括特征点损失和像素损失。在确定第二三维网格对应的二维面部特征点和二维图像之后，可以基于第二三维网格对应的二维面部特征点和第二面部图像的第二面部特征点确定参数提取器的特征点损失，以及基于二维图像和第二面部图像确定参数提取器的像素损失。

示例性地，上述特征点损失其中，N表示第二面部图像对应的第二面部特征点的总数量；ω_n表示第n个第二面部特征点对应的权重系数；Q_n表示第n个第二面部特征点(向量)；Q'_n表示第二三维网格对应的第n个二维面部特征点(向量)。上述像素损失/>其中，M表示第二面部图像的像素点总和；A_i表示基于第二面部图像中面部位置生成的掩码图，该掩码图用于区分第二面部图像中的面部区域和非面部区域；I_i表示第二面部图像I的第i个像素点；I_i'表示渲染的二维图像I'的第i个像素点。

S1312，基于第二损失训练参数提取器，得到训练好的目标参数提取器。

具体地，在基于多张已知第二面部特征点的第二面部图像确定参数提取器的第二损失之后，可以基于参数提取器的第二损失中的特征点损失训练参数提取器，从而确保训练后得到的目标参数提取器提取出的表情参数、旋转平移参数等的准确性。同时，由于第二面部图像中包含了很多信息，为了避免由于参数太多导致训练过程中出现过拟合或学习不了的情况，还会利用参数提取器的第二损失中的像素损失来约束参数提取器的训练过程，从而所有的参数能够拟合得更好，进一步提高了目标参数提取器的训练效果。

接下来请参考图15，其为本说明书一示例性实施例提供的一种面部表情捕捉装置的结构示意图。如图15所示，该面部表情捕捉装置1500包括：

第一获取模块1510，用于获取目标面部视频数据；上述目标面部视频数据包括连续多帧目标面部图像；

第一提取模块1520，用于提取上述目标面部视频数据对应的第一目标参数序列；上述第一目标参数序列包括上述多帧目标面部图像各自对应的第一目标参数；上述第一目标参数包括第一目标表情参数和第一目标旋转平移参数；

第一优化模块1530，用于利用目标时序神经网络模型优化上述第一目标参数序列，得到第二目标参数序列；上述第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列；上述目标时序神经网络模型基于多个已知面部特征点序列的面部视频数据进行训练得到。

在一种可能的实现方式中，上述第一提取模块1520具体用于：

在一种可能的实现方式中，上述面部表情捕捉装置1500还包括：

在一种可能的实现方式中，上述第一获取模块1510包括：

上述面部表情捕捉装置中各模块的划分仅用于举例说明，在其他实施例中，可将面部表情捕捉装置按照需要划分为不同的模块，以完成上述面部表情捕捉装置的全部或部分功能。本说明书实施例中提供的面部表情捕捉装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本说明书实施例中所描述的面部表情捕捉方法的全部或部分步骤。

接下来请参考图16，其为本说明书一示例性实施例提供的一种时序神经网络模型训练装置的结构示意图。如图16所示，该时序神经网络模型训练装置1600包括：

第二获取模块1610，用于获取多个已知面部特征点序列的面部视频数据；上述面部视频数据包括连续多帧第一面部图像；上述面部特征点序列包括上述多帧第一面部图像各自对应的第一面部特征点；

第二提取模块1620，用于提取上述面部视频数据对应的参数序列；上述第一参数序列包括上述多帧第一面部图像各自对应的参数；上述参数包括第一身份参数、第一表情参数以及第一旋转平移参数；

第二优化模块1630，用于将上述面部视频数据对应的第一表情参数序列和第一旋转平移参数序列输入时序神经网络模型中，输出优化后的第二表情参数序列和第二旋转平移参数序列；

第一生成模块1640，用于基于上述面部视频数据对应的第一身份参数序列、上述第二表情参数序列和上述第二旋转平移参数序列生成上述多帧第一面部图像各自对应的第一三维网格；

第一确定模块1650，用于基于上述多帧第一面部图像各自对应的第一三维网格以及上述多帧第一面部图像各自对应的第一面部特征点确定上述时序神经网络模型的第一损失；

第一训练模块1660，用于基于上述第一损失训练上述时序神经网络模型，得到训练好的目标时序神经网络模型；上述目标时序神经网络模型用于优化本说明书实施例中所描述的第一目标参数序列。

在一种可能的实现方式中，上述第一确定模块1650包括：

在一种可能的实现方式中，上述第二提取模块1620具体用于：

在一种可能的实现方式中，上述时序神经网络模型训练装置1600还包括：

在一种可能的实现方式中，上述第二训练模块包括：

渲染单元，用于将上述第二三维网格渲染为二维图像；

上述组合单元具体用于：

上述渲染单元具体用于：

在一种可能的实现方式中，上述第三获取单元具体用于：

在一种可能的实现方式中，上述第二确定单元具体用于：

上述训练单元具体用于：

在一种可能的实现方式中，上述第三获取模块包括：

第四获取单元，用于获取多张第二面部图像；

在一种可能的实现方式中，上述第二提取模块1620具体用于：

在一种可能的实现方式中，上述第一训练模块1660具体用于：

其中，上述第一目标卷积网络用于提取本说明书实施例中所描述的目标面部视频数据对应的第一目标表情参数序列；

上述第二目标卷积网络用于提取本说明书实施例中所描述的目标面部视频数据对应的第一目标旋转平移参数序列。

上述时序神经网络模型训练装置中各模块的划分仅用于举例说明，在其他实施例中，可将时序神经网络模型训练装置按照需要划分为不同的模块，以完成上述时序神经网络模型训练装置的全部或部分功能。本说明书实施例中提供的时序神经网络模型训练装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本说明书实施例中所描述的时序神经网络模型训练方法的全部或部分步骤。

接下来请参阅图17，其为本说明书一示例性实施例提供的一种电子设备的结构示意图。如图17所示，该电子设备1700可以包括：至少一个处理器1710、至少一个通信总线1720、用户接口1730、至少一个网络接口1740、存储器1750。

其中，通信总线1720可用于实现上述各个组件的连接通信。

其中，用户接口1730可以包括显示屏(Display)和摄像头(Camera)，可选用户接口还可以包括标准的有线接口、无线接口。

其中，网络接口1740可选的可以包括蓝牙模块、近场通信(Near FieldCommunication，NFC)模块、无线保真(Wireless Fidelity，Wi-Fi)模块等。

其中，处理器1710可以包括一个或者多个处理核心。处理器1710利用各种接口和线路连接整个电子设备1700内的各个部分，通过运行或执行存储在存储器1750内的指令、程序、代码集或指令集，以及调用存储在存储器1750内的数据，执行路由电子设备1700的各种功能和处理数据。可选的，处理器1710可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1710可集成处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1710中，单独通过一块芯片进行实现。

其中，存储器1750可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选的，该存储器1750包括非瞬时性计算机可读介质。存储器1750可用于存储指令、程序、代码、代码集或指令集。存储器1750可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如获取功能、提取功能、优化功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1750可选的还可以是至少一个位于远离前述处理器1710的存储装置。如图17所示，作为一种计算机存储介质的存储器1750中可以包括操作***、网络通信模块、用户接口模块以及程序指令。

在一些可能的实施例中，电子设备1700可以是前述面部表情捕捉装置，在图17所示的电子设备1700中，用户接口1730主要用于为用户提供输入的接口，例如面部表情捕捉装置上的按键等，获取用户触发的指令；而处理器1710可以用于调用存储器1750中存储的程序指令，并具体执行以下操作：

获取目标面部视频数据；上述目标面部视频数据包括连续多帧目标面部图像。

提取上述目标面部视频数据对应的第一目标参数序列；上述第一目标参数序列包括上述多帧目标面部图像各自对应的第一目标参数；上述第一目标参数包括第一目标表情参数和第一目标旋转平移参数。

在一些可能的实施例中，上述处理器1710提取上述目标面部视频数据对应的第一目标参数序列时，具体用于执行：

在一些可能的实施例中，上述目标参数提取器基于多张已知面部特征点的面部图像以及上述多个已知面部特征点序列的面部视频数据进行训练得到。

在一些可能的实施例中，上述目标参数提取器包括第一目标卷积网络和第二目标卷积网络；上述第一目标卷积网络用于提取上述目标面部视频数据对应的第一目标表情参数序列；上述第二目标卷积网络用于提取上述目标面部视频数据对应的第一目标旋转平移参数序列。

在一些可能的实施例中，上述目标时序神经网络模型包括第一目标时序神经网络和第二目标时序神经网络；上述第一目标时序神经网络用于优化上述目标面部视频数据对应的第一目标表情参数序列；上述第二目标时序神经网络用于优化上述目标面部视频数据对应的第一目标旋转平移参数序列。

在一些可能的实施例中，上述处理器1710利用目标时序神经网络模型优化上述第一目标参数序列，得到第二目标参数序列之后，还用于执行：

将上述第二目标参数序列迁移至目标三维虚拟形象。

在一些可能的实施例中，上述第二目标表情参数序列包括上述多帧目标面部图像各自对应的第二目标表情参数，用于表征上述目标面部视频数据中面部表情的变化情况；上述第二目标表情参数用于表征组成上述目标面部图像中面部整体表情的多维度的目标表情基系数。

在一些可能的实施例中，组成上述目标三维虚拟形象的面部整体表情的表情基的维度与上述目标表情基系数的维度相等。

在一些可能的实施例中，上述第二目标旋转平移参数序列包括上述多帧目标面部图像各自对应的第二目标旋转平移参数，用于表征组成上述目标面部视频数据中头部姿态的变化情况。

在一些可能的实施例中，上述处理器1710获取目标面部视频数据时，具体用于执行：

基于图像采集设备获取视频数据；上述视频数据包括连续多帧包含面部的图像。

在一些可能的实施例中，电子设备1700可以是前述时序神经网络模型训练装置，上述处理器1710具体还执行：

获取多个已知面部特征点序列的面部视频数据；上述面部视频数据包括连续多帧第一面部图像；上述面部特征点序列包括上述多帧第一面部图像各自对应的第一面部特征点。

提取上述面部视频数据对应的参数序列；上述第一参数序列包括上述多帧第一面部图像各自对应的参数；上述参数包括第一身份参数、第一表情参数以及第一旋转平移参数。

将上述面部视频数据对应的第一表情参数序列和第一旋转平移参数序列输入时序神经网络模型中，输出优化后的第二表情参数序列和第二旋转平移参数序列。

基于上述面部视频数据对应的第一身份参数序列、上述第二表情参数序列和上述第二旋转平移参数序列生成上述多帧第一面部图像各自对应的第一三维网格。

基于上述多帧第一面部图像各自对应的第一三维网格以及上述多帧第一面部图像各自对应的第一面部特征点确定上述时序神经网络模型的第一损失。

基于上述第一损失训练上述时序神经网络模型，得到训练好的目标时序神经网络模型；上述目标时序神经网络模型用于优化本说明书实施例中所描述的第一目标参数序列。

在一些可能的实施例中，上述处理器1710基于上述多帧第一面部图像各自对应的第一三维网格以及上述多帧第一面部图像各自对应的第一面部特征点确定上述时序神经网络模型的第一损失时，具体用于执行：

获取上述多帧第一面部图像各自对应的第一三维面部网格的三维面部特征点。

将上述三维面部特征点进行投影，得到对应的二维面部特征点。

在一些可能的实施例中，上述处理器1710提取上述面部视频数据对应的参数序列时，具体用于执行：

在一些可能的实施例中，上述处理器1710提取上述面部视频数据对应的参数序列之前，还用于执行：

获取多张已知第二面部特征点的第二面部图像。

在一些可能的实施例中，上述处理器1710基于上述多张已知第二面部特征点的第二面部图像训练参数提取器，得到训练好的上述目标参数提取器时，具体用于执行：

将多张已知第二面部特征点的第二面部图像输入参数提取器中，输出每张上述第二面部图像各自对应的参数集。

基于上述参数集对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格。

获取上述第二三维网格对应的二维面部特征点。

将上述第二三维网格渲染为二维图像。

基于上述第二三维网格对应的二维面部特征点和上述二维图像确定上述参数提取器对应的第二损失。

在一些可能的实施例中，上述参数集包括第二身份参数、纹理参数、第二表情参数和第二旋转平移参数；

上述处理器1710基于上述参数集对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格时，具体用于执行：

基于上述第二身份参数、上述纹理参数以及上述第二表情参数对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格。

上述处理器1710将上述第二三维网格渲染为二维图像时，具体用于执行：

在一些可能的实施例中，上述参数提取器包括第一卷积网络、第二卷积网络、第三卷积网络以及第四卷积网络；其中：

在一些可能的实施例中，上述处理器1710获取上述第二三维网格对应的二维面部特征点时，具体用于执行：

获取上述第二三维网格对应的三维面部特征点。

在一些可能的实施例中，上述处理器1710基于上述第二三维网格对应的二维面部特征点和上述二维图像确定上述参数提取器对应的第二损失时，具体用于执行：

基于上述第二三维网格对应的二维面部特征点和上述第二面部图像的第二面部特征点确定上述参数提取器的特征点损失。

基于上述二维图像和上述第二面部图像确定上述参数提取器的像素损失。

上述处理器1710基于上述第二损失训练上述参数提取器，得到训练好的上述目标参数提取器时，具体用于执行：

在一些可能的实施例中，上述处理器1710获取多张已知第二面部特征点的第二面部图像时，具体用于执行：

获取多张第二面部图像。

在一些可能的实施例中，上述第二面部图像的第二面部特征点的数量为多个；上述第二面部图像为基于图像采集设备采集到的二维的图像。

在一些可能的实施例中，上述处理器1710利用目标参数提取器提取上述面部视频数据对应的参数序列时，具体用于执行：

利用上述目标参数提取器的第一卷积网络提取上述面部视频数据对应的第一表情参数序列。

利用上述目标参数提取器的第二卷积网络提取上述面部视频数据对应的第一旋转平移参数序列。

在一些可能的实施例中，上述处理器1710基于上述第一损失训练上述时序神经网络模型，得到训练好的目标时序神经网络模型时，具体用于执行：

基于上述第一损失训练上述时序神经网络模型、上述第一卷积网络、上述第二卷积网络以及上述第三卷积网络，得到训练好的目标时序神经网络模型以及第一目标卷积网络、第二目标卷积网络以及第三目标卷积网络；其中，上述第一目标卷积网络用于提取本说明书实施例中所描述的目标面部视频数据对应的第一目标表情参数序列；上述第二目标卷积网络用于提取本说明书实施例中所描述的实现方式中的目标面部视频数据对应的第一目标旋转平移参数序列。

本说明书实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述实施例中的一个或多个步骤。上述面部表情捕捉装置或时序神经网络模型训练装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时，全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字多功能光盘(DigitalVersatile Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下，本实施例和实施方案中的技术特征可以任意组合。

以上所述的实施例仅仅是本说明书的优选实施例方式进行描述，并非对本说明书的范围进行限定，在不脱离本说明书的设计精神的前提下，本领域普通技术人员对本说明书的技术方案作出的各种变形及改进，均应落入权利要求书确定的保护范围内。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书和说明书中记载的动作或步骤可以按照不同于说明书记载的实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种面部表情捕捉方法，所述方法包括：

获取目标面部视频数据；所述目标面部视频数据包括连续多帧目标面部图像；

提取所述目标面部视频数据对应的第一目标参数序列；所述第一目标参数序列包括所述多帧目标面部图像各自对应的第一目标参数；所述第一目标参数包括第一目标表情参数和第一目标旋转平移参数；

利用目标时序神经网络模型优化所述第一目标参数序列，得到第二目标参数序列；所述第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列；所述目标时序神经网络模型基于多个已知面部特征点序列的面部视频数据进行训练得到。

2.如权利要求1所述的方法，所述提取所述目标面部视频数据对应的第一目标参数序列，包括：

利用目标参数提取器提取所述目标面部视频数据对应的第一目标参数序列；所述目标参数提取器基于多张已知面部特征点的面部图像进行训练得到。

3.如权利要求2所述的方法，所述目标参数提取器基于多张已知面部特征点的面部图像以及所述多个已知面部特征点序列的面部视频数据进行训练得到。

4.如权利要求2所述的方法，所述目标参数提取器包括第一目标卷积网络和第二目标卷积网络；所述第一目标卷积网络用于提取所述目标面部视频数据对应的第一目标表情参数序列；所述第二目标卷积网络用于提取所述目标面部视频数据对应的第一目标旋转平移参数序列。

5.如权利要求1所述的方法，所述目标时序神经网络模型包括第一目标时序神经网络和第二目标时序神经网络；所述第一目标时序神经网络用于优化所述目标面部视频数据对应的第一目标表情参数序列；所述第二目标时序神经网络用于优化所述目标面部视频数据对应的第一目标旋转平移参数序列。

6.如权利要求1-5任一项所述的方法，所述利用目标时序神经网络模型优化所述第一目标参数序列，得到第二目标参数序列之后，所述方法还包括：

将所述第二目标参数序列迁移至目标三维虚拟形象。

7.如权利要求6所述的方法，所述第二目标表情参数序列包括所述多帧目标面部图像各自对应的第二目标表情参数，用于表征所述目标面部视频数据中面部表情的变化情况；所述第二目标表情参数用于表征组成所述目标面部图像中面部整体表情的多维度的目标表情基系数。

8.如权利要求7所述的方法，组成所述目标三维虚拟形象的面部整体表情的表情基的维度与所述目标表情基系数的维度相等。

9.如权利要求1所述的方法，所述第二目标旋转平移参数序列包括所述多帧目标面部图像各自对应的第二目标旋转平移参数，用于表征组成所述目标面部视频数据中头部姿态的变化情况。

10.如权利要求1所述的方法，所述获取目标面部视频数据，包括：

基于图像采集设备获取视频数据；所述视频数据包括连续多帧包含面部的图像；

对所述连续多帧包含面部的图像进行面部检测，得到目标面部视频数据；所述目标面部图像为仅包含面部的图像或已知面部位置的图像。

11.一种时序神经网络模型训练方法，所述方法包括：

获取多个已知面部特征点序列的面部视频数据；所述面部视频数据包括连续多帧第一面部图像；所述面部特征点序列包括所述多帧第一面部图像各自对应的第一面部特征点；

提取所述面部视频数据对应的第一参数序列；所述第一参数序列包括所述多帧第一面部图像各自对应的参数；所述参数包括第一身份参数、第一表情参数以及第一旋转平移参数；

将所述面部视频数据对应的第一表情参数序列和第一旋转平移参数序列输入时序神经网络模型中，输出优化后的第二表情参数序列和第二旋转平移参数序列；

基于所述面部视频数据对应的第一身份参数序列、所述第二表情参数序列和所述第二旋转平移参数序列生成所述多帧第一面部图像各自对应的第一三维网格；

基于所述多帧第一面部图像各自对应的第一三维网格以及所述多帧第一面部图像各自对应的第一面部特征点确定所述时序神经网络模型的第一损失；

基于所述第一损失训练所述时序神经网络模型，得到训练好的目标时序神经网络模型；所述目标时序神经网络模型用于优化如权利要求1-10任一项所述的第一目标参数序列。

12.如权利要求11所述的方法，所述基于所述多帧第一面部图像各自对应的第一三维网格以及所述多帧第一面部图像各自对应的第一面部特征点确定所述时序神经网络模型的第一损失，包括：

获取所述多帧第一面部图像各自对应的第一三维面部网格的三维面部特征点；

将所述三维面部特征点进行投影，得到对应的二维面部特征点；

基于所述多帧第一面部图像各自对应的第一面部特征点以及所述多帧第一面部图像各自对应的第一三维网格对应的二维面部特征点确定所述时序神经网络模型的第一损失。

13.如权利要求11所述的方法，所述提取所述面部视频数据对应的第一参数序列，包括：

利用目标参数提取器提取所述面部视频数据对应的第一参数序列。

14.如权利要求13所述的方法，所述提取所述面部视频数据对应的第一参数序列之前，所述方法还包括：

获取多张已知第二面部特征点的第二面部图像；

基于所述多张已知第二面部特征点的第二面部图像训练参数提取器，得到训练好的所述目标参数提取器。

15.如权利要求14所述的方法，所述基于所述多张已知第二面部特征点的第二面部图像训练参数提取器，得到训练好的所述目标参数提取器，包括：

将多张已知第二面部特征点的第二面部图像输入参数提取器中，输出每张所述第二面部图像各自对应的参数集；

基于所述参数集对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格；

获取所述第二三维网格对应的二维面部特征点；

将所述第二三维网格渲染为二维图像；

基于所述第二三维网格对应的二维面部特征点和所述二维图像确定所述参数提取器对应的第二损失；

基于所述第二损失训练所述参数提取器，得到训练好的所述目标参数提取器。

16.如权利要求15所述的方法，所述参数集包括第二身份参数、纹理参数、第二表情参数和第二旋转平移参数；

所述基于所述参数集对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格，包括：

基于所述第二身份参数、所述纹理参数以及所述第二表情参数对参数化三维面部模型的基向量进行组合，生成对应的第二三维网格；

所述将所述第二三维网格渲染为二维图像，包括：

基于所述纹理参数和所述第二旋转平移参数将所述第二三维网格渲染为二维图像。

17.如权利要求16所述的方法，所述参数提取器包括第一卷积网络、第二卷积网络、第三卷积网络以及第四卷积网络；其中：

所述第一卷积网络，用于提取所述第二面部图像对应的第二表情参数；

所述第二卷积网络，用于提取所述第二面部图像对应的第二旋转平移参数；

所述第三卷积网络，用于提取所述第二面部图像对应的第二身份参数；

所述第四卷积网络，用于提取所述第二面部图像对应的纹理参数。

18.如权利要求15所述的方法，所述获取所述第二三维网格对应的二维面部特征点，包括：

获取所述第二三维网格对应的三维面部特征点；

将所述第二三维网格对应的三维面部特征点进行投影，得到对应的二维面部特征点。

19.如权利要求15所述的方法，所述基于所述第二三维网格对应的二维面部特征点和所述二维图像确定所述参数提取器对应的第二损失，包括：

基于所述第二三维网格对应的二维面部特征点和所述第二面部图像的第二面部特征点确定所述参数提取器的特征点损失；

基于所述二维图像和所述第二面部图像确定所述参数提取器的像素损失；

所述基于所述第二损失训练所述参数提取器，得到训练好的所述目标参数提取器，包括：

基于所述特征点损失和所述像素损失训练所述参数提取器，得到训练好的所述目标参数提取器。

20.如权利要求14所述的方法，所述获取多张已知第二面部特征点的第二面部图像，包括：

获取多张第二面部图像；

利用面部检测算法和特征点检测算法确定所述多张第二面部图像各自对应的第二面部特征点。

21.如权利要求14-20任一项所述的方法，所述第二面部图像的第二面部特征点的数量为多个；所述第二面部图像为基于图像采集设备采集到的二维的图像。

22.如权利要求13-20任一项所述的方法，所述利用目标参数提取器提取所述面部视频数据对应的第一参数序列，包括：

利用所述目标参数提取器的第一卷积网络提取所述面部视频数据对应的第一表情参数序列；

利用所述目标参数提取器的第二卷积网络提取所述面部视频数据对应的第一旋转平移参数序列；

利用所述目标参数提取器的第三卷积网络提取所述面部视频数据对应的第一身份参数序列。

23.如权利要求22所述的方法，所述基于所述第一损失训练所述时序神经网络模型，得到训练好的目标时序神经网络模型，包括：

基于所述第一损失训练所述时序神经网络模型、所述第一卷积网络、所述第二卷积网络以及所述第三卷积网络，得到训练好的目标时序神经网络模型以及第一目标卷积网络、第二目标卷积网络以及第三目标卷积网络；

其中，所述第一目标卷积网络用于提取如权利要求1-10任一项所述的目标面部视频数据对应的第一目标表情参数序列；

所述第二目标卷积网络用于提取如权利要求1-10任一项所述的目标面部视频数据对应的第一目标旋转平移参数序列。

24.一种面部表情捕捉装置，所述装置包括：

第一获取模块，用于获取目标面部视频数据；所述目标面部视频数据包括连续多帧目标面部图像；

第一提取模块，用于提取所述目标面部视频数据对应的第一目标参数序列；所述第一目标参数序列包括所述多帧目标面部图像各自对应的第一目标参数；所述第一目标参数包括第一目标表情参数和第一目标旋转平移参数；

第一优化模块，用于利用目标时序神经网络模型优化所述第一目标参数序列，得到第二目标参数序列；所述第二目标参数序列包括第二目标表情参数序列和第二目标旋转平移参数序列；所述目标时序神经网络模型基于多个已知面部特征点序列的面部视频数据进行训练得到。

25.一种时序神经网络模型训练装置，所述装置包括：

第二获取模块，用于获取多个已知面部特征点序列的面部视频数据；所述面部视频数据包括连续多帧第一面部图像；所述面部特征点序列包括所述多帧第一面部图像各自对应的第一面部特征点；

第二提取模块，用于提取所述面部视频数据对应的第一参数序列；所述第一参数序列包括所述多帧第一面部图像各自对应的参数；所述参数包括第一身份参数、第一表情参数以及第一旋转平移参数；

第二优化模块，用于将所述面部视频数据对应的第一表情参数序列和第一旋转平移参数序列输入时序神经网络模型中，输出优化后的第二表情参数序列和第二旋转平移参数序列；

第一生成模块，用于基于所述面部视频数据对应的第一身份参数序列、所述第二表情参数序列和所述第二旋转平移参数序列生成所述多帧第一面部图像各自对应的第一三维网格；

第一确定模块，用于基于所述多帧第一面部图像各自对应的第一三维网格以及所述多帧第一面部图像各自对应的第一面部特征点确定所述时序神经网络模型的第一损失；

第一训练模块，用于基于所述第一损失训练所述时序神经网络模型，得到训练好的目标时序神经网络模型；所述目标时序神经网络模型用于优化如权利要求1-10任一项所述的第一目标参数序列。

26.一种电子设备，包括：处理器和存储器；

所述处理器与所述存储器相连；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-23任一项所述的方法。

27.一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-23任一项的方法步骤。

28.一种包含指令的计算机程序产品，当所述计算机程序产品在计算机或处理器上运行时，使得所述计算机或所述处理器执行如权利要求1-23任一项所述的方法。