CN113781613A

CN113781613A - 表情驱动方法、***及计算机设备

Info

Publication number: CN113781613A
Application number: CN202111082838.6A
Authority: CN
Inventors: 李团辉; 王擎
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-10

Abstract

本申请实施例提供一种表情驱动方法、***及计算机设备，通过目标对象的各个面部表情对应的多视角表情图像序列进行多视角重建获得各面部表情分别对应的三维表情模型，然后通过所述面部表情分别对应的多视角表情图像序列以及各所述面部表情分别对应的三维表情模型，对预设的神经网络进行训练，得到表情预测神经网络，最后，将获取的所述目标对象的面部图像输入所述表情预测神经网络，得到所述目标对象的三维表情模型，并根据所述三维表情模型对直播画面中的虚拟数字形象的面部表情进行驱动。如此，通过更加逼真的虚拟数字形象对目标对象(如主播)的面部表情进行更为精准且细腻的表达，让直播更加生动有趣、可大大提升虚拟直播的效果及用户体验。

Description

表情驱动方法、***及计算机设备

技术领域

本申请涉及基于人工智能的数字化直播相关技术领域，具体而言，涉及一种表情驱动方法、***及计算机设备。

背景技术

随着移动互联网技术以及网络通信技术的不断发展，网络直播在人们的日常工作及生活中得到了迅速的发展及应用。例如，用户可以通过智能手机、电脑、平板电脑等设备在线观看直播平台的各种主播提供的直播内容，又或者，用户也可以通过智能手机、电脑、平板电脑等设备随时随地在相应的直播平台提供直播内容，以供他人观看。在一些特定的直播场景中，为了提供多样化的直播体验，基于虚拟数字形象的虚拟直播方式也得到了广泛的应用。相较于真人主播进行直播的方式，虚拟直播无需主播进行真人互动，主播可在后台通过控制虚拟数字形象模拟后台主播的行为进行直播互动。在基于虚拟数字形象的虚拟直播应用场景中，虚拟数字形象的表情驱动是虚拟直播的一项重要技术分支。现有较为常见的一些用于对虚拟数字形象进行表情驱动的方案，大多存在驱动精度较低而导致虚拟数字形象的表情表达不够细腻的问题。

发明内容

基于以上内容，第一方面，本申请实施例提供一种表情驱动方法，所述方法包括：

通过图像采集设备从多个视角对目标对象的多个面部表情分别进行表情图像拍摄，获得所述目标对象的每个面部表情对应的多视角表情图像序列；其中，每个所述面部表情对应的多视角表情图像序列包括分别从多个不同的视角对所述目标对象的该面部表情进行拍摄而分别获得的每个视角下的至少一个面部表情图像；

根据各所述面部表情分别对应的多视角表情图像序列，通过多视角重建获得各所述面部表情分别对应的三维表情模型；

通过所述面部表情分别对应的多视角表情图像序列以及各所述面部表情分别对应的三维表情模型，对预设的神经网络进行训练，得到表情预测神经网络；

将获取的所述目标对象的面部图像输入所述表情预测神经网络，得到所述目标对象的三维表情模型，并根据所述三维表情模型对直播画面中的虚拟数字形象的面部表情进行驱动。

基于第一方面的一种可能的实施方式，根据各所述面部表情分别对应的多视角表情图像序列，通过多视角重建获得各所述面部表情分别对应的三维表情模型，包括：

针对每个所述多视角表情图像序列，对所述多视角表情图像序列中的各面部表情图像进行关键点提取，得到各面部表情图像包括的面部关键点；

将所述多视角表情图像序列中的一个面部表情图像作为参考图像，依次遍历该参考图像中的每个面部关键点，查找所述多视角表情图像序列中的其他面部表情图像中与所述参考图像中的各面部关键点相对应的面部关键点；

根据查找到的其他面部表情图像中与所述参考图像中的各面部关键点相对应的面部关键点，确定所述参考图像中各面部关键点的位置信息；

根据各所述面部关键点的位置信息重建得到所述多视角表情图像序列对应的面部表情的三维表情模型。

基于第一方面的一种可能的实施方式，通过所述面部表情分别对应的多视角表情图像序列以及各所述面部表情分别对应的三维表情模型，对预设的神经网络进行训练，得到表情预测神经网络，包括：

对各所述面部表情分别对应的三维表情模型进行拓扑映射得到符合设定规则的规则化三维网格模型；

针对每个所述多视角表情图像序列，基于所述多视角表情图像序列中的面部表情图像确定至少一个训练样本；

将所述训练样本依序输入所述神经网络，得到所述神经网络输出的预测三维网格模型，根据所述预测三维网格模型以及所述训练样本对应的样本标签计算所述神经网络的损失函数值，并根据所述损失函数值对所述神经网络的网络参数进行迭代更新，直到满足训练终止条件，得到所述表情预测神经网络；

其中，所述训练样本的样本标签为所述训练样本所属的多视角表情图像序列对应的规则化三维网格模型。

基于第一方面的一种可能的实施方式，针对每个所述多视角表情图像序列，基于所述多视角表情图像序列中的面部表情图像确定至少一个训练样本，包括：

将所述多视角表情图像序列中的预设拍摄视角对应的面部表情图像作为所述训练样本。

将所述多视角表情图像序列中的预设拍摄视角对应的一个面部表情图像作为基准样本；

基于所述基准样本进行数据增强，得到至少一个增强样本，最后将所述基准样本以及所述至少一个增强样本作为所述训练样本；

其中，所述数据增强的方式包括对所述基准样本进行旋转、镜像、亮度调整、噪声植入中的其中一种或两种及以上的组合。

其中，所述训练样本的样本标签为根据所述训练样本所属的多视角表情图像序列通过多视角重建获得的三维表情模型。

基于第一方面的一种可能的实施方式，根据所述三维表情模型对直播画面中的虚拟数字形象的面部表情进行驱动，包括：

根据所述表情预测神经网络输出的三维表情模型所包括的各个模型顶点的位置信息驱动所述虚拟数字形象的各面部关键点进行运动，使所述虚拟数字形象对所述目标对象的面部表情进行表达；或者

使用所述表情预测神经网络输出的三维表情模型所包括的各个模型顶点的位置坐标替代所述虚拟数字形象的各个对应的面部关键点的位置坐标实现对所述虚拟数字形象的面部表情驱动。

基于第一方面的一种可能的实施方式，所述图像采集设备包括多个4D摄像机，多个所述4D摄像机围绕所述目标对象设置形成阵列相机***，多个所述4D摄像机分别用于从不同的视角对所述目标对象的面部表情进行拍摄得到不同视角对应的面部表情图像，以形成所述多视角表情图像序列。

第二方面，本申请实施例还提供一种表情驱动***，所述表情驱动***包括：

图像采集模块，用于通过图像采集设备从多个视角对目标对象的多个面部表情分别进行表情图像拍摄，获得所述目标对象的每个面部表情对应的多视角表情图像序列；其中，每个所述面部表情对应的多视角表情图像序列包括分别从多个不同的视角对所述目标对象的该面部表情进行拍摄而分别获得的每个视角下的至少一个面部表情图像；

三维重建模块，用于根据各所述面部表情分别对应的多视角表情图像序列，通过多视角重建获得各所述面部表情分别对应的三维表情模型；

网络训练模块，用于通过所述面部表情分别对应的多视角表情图像序列以及各所述面部表情分别对应的三维表情模型，对预设的神经网络进行训练，得到表情预测神经网络；

表情驱动模块，用于将获取的所述目标对象的面部图像输入所述表情预测神经网络，得到所述目标对象的三维表情模型，并根据所述三维表情模型对直播画面中的虚拟数字形象的面部表情进行驱动。

第三方面，本申请实施例还提供一种计算机设备，包括机器可读存储介质以及一个或多个处理器，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述一个或多个处理器执行时，实现上述的方法。

基于本申请实施例的上述内容，相对于现有技术而言，本申请实施例提供的表情驱动方法、***及计算机设备，通过获取的目标对象的各个面部表情对应的多视角表情图像序列进行多视角重建获得各面部表情分别对应的三维表情模型，然后通过所述面部表情分别对应的多视角表情图像序列以及各所述面部表情分别对应的三维表情模型，对预设的神经网络进行训练，得到表情预测神经网络，最后，将获取的所述目标对象的面部图像输入所述表情预测神经网络，得到所述目标对象的三维表情模型，并根据所述三维表情模型对直播画面中的虚拟数字形象的面部表情进行驱动。

如此，相较于基于表情基等以往的传统表情驱动方案而言，本实施例的方案精度高而且实时性好。尤其在直播间应用场景使用的时候能够为主播打造一对一的虚拟数字形象。同时，本实施例可进一步借助高精度表情重建技术来训练神经网络，能够通过更加逼真的虚拟数字形象对主播的面部表情进行更为精准且细腻的表达，让直播更加生动有趣、可大大提升虚拟直播的效果及用户体验。进一步地，本实施例提供的方案无需依赖大量的人力消耗，可大大地提高生产效率和制作成本。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是用于实现本实施例提供的表情驱动方法的一种直播***的示意图。

图2是本申请实施例提供的表情驱动方法的流程示意图。

图3是本申请实施例提供的用于对目标对象进行多视角面部图像采集的阵列相机***的示意图。

图4是图2中步骤S200的子步骤流程示意图。

图5是图2中步骤S300的子步骤流程示意图。

图6是本实施例提供的对神经网络进行训练的过程示意图。

图7是使用训练后得到的表情预测神经网络进行表情模型预测的应用示意图。

图8是本申请实施例提供的用于实现上述表情驱动方法的计算机设备的示意图。

图9是本申请实施例提供的表情驱动***的功能模块示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

基于前述背景技术中所提及的问题，发明人经研究调查发现，在常见的基于虚拟数字人的虚拟直播场景中，较为常见的表情动画驱动方案是基于表情基而实现的虚拟数字人的表情驱动方式。表情基指的是把被驱动形象的特定的表情分解得到的表情单元。不同的表情单元表示不同部位的运动，可以包括眼睛、嘴巴、眉毛、鼻子等部位，例如闭眼、张嘴、眉毛抬起等。通过将这些表情基按照不同的权重进行线性组合可以得到不同的表情。但是，这种方案有一个缺陷，就是精度很低，无法表达细腻的表情。表情基线性组合得到的表情动画精度上限受到表情基数量的影响，通常影视级解决方案会设计数百个甚至数千个表情基，每个表情基负责脸部特定的一个部位的表情变化。而这种方案需要大量的人力消耗，非常依赖于动画师的手工设计，需要动画师反复的手调表情基来让这些表情基更好的表达真人的表情。所以常见的影视当中都会有一些专业的演员来表演，然后他们的表情通过数字替身的驱动被捕获下来。如此，基于表情基的方案要想达到高精度以及高细腻度的虚拟数字形象的驱动则代价非常高，不利于批量生产。

基于此，本申请实施例创新性的提出一种基于神经网络模型的表情驱动方法，可以实现高精度表情驱动，使得虚拟数字形象的表情驱动能够更为细腻的被表达，同时大大提升驱动效率并降低所需的成本。下面将结合具体的实施方式对本申请的方案进行详细的介绍。

首先，对本申请实施例的应用场景的***架构进行介绍。如图1所示，是本申请实施例提供的一种直播***的示意图。本实施例中，所述直播***包括直播提供终端100、直播服务器200以及直播接收终端300。示例性地，所述直播提供终端100以及所述直播接收终端300可以通过网络访问直播服务器200以使用直播服务器200提供的直播服务。例如，作为一种示例，针对直播提供终端100，可以通过直播服务器200下载主播端应用(APP)，并通过主播端应用进行注册后即可通过直播服务器200进行内容直播。相对应地，所述直播接收终端300也可以通过所述直播服务器200下载观众端应用，通过观众端应用访问直播服务器200即可观看直播提供终端100所提供的直播内容。在一些可能的实施方式中，主播端应用和观众端应用也可以是一个整合在一起的应用。

例如，直播提供终端100可以将直播内容(如直播视频流)发送给直播服务器200，观众可以通过直播接收终端300访问直播服务器200以观看直播内容。其中，直播服务器200推送的直播内容可以是当前正在直播平台中直播的实时内容，也可以是直播完成后存储的历史直播内容。可以理解，图1所示的直播***仅为一种可替代的示例，在其它可能的实施例中，所述直播***也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

此外，应当说明的是，在特定的应用场景，所述直播提供终端100和直播接收终端300也可以实现角色互换。例如，直播提供终端100的主播可以使用直播提供终端100提供直播服务，或者作为观众查看其它主播提供的直播内容。又例如，直播接收终端300的用户也可以使用直播接收终端300观看所关注的主播提供的直播内容，也可以作为主播通过所述直播接收终端300进行直播。

本实施例中，直播提供终端100和直播接收终端300可以是，但不限于，智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中，直播提供终端100和直播接收终端300中可以安装用于实现直播互动的相关应用或程序组件，例如，应用程序APP、Web网页、直播小程序、直播插件或组件等，但不限于此。直播服务器200可以是提供直播服务的后台设备，例如可以是，但不限于，服务器，服务器集群、云服务中心等。

本实施例中，在直播提供终端100一侧可以包括用于采集主播图像的图像采集设备。此外，还可以包括用于采集主播声音的音频采集设备以及用于主播进行信息输入的输入输出设备等，例如，可以包括但不限于入键盘、鼠标、触控屏、麦克风、扬声器等。其中，图像采集设备、音频采集设备以及输入输出设备可以是直接安装或集成于直播提供终端100上，也可以独立于直播提供终端100并与直播提供终端100通信连接以进行数据通信和互动。

如图2所示，是本申请实施例提供的表情驱动方法的流程示意图。本实施例中，所述表情驱动方法由计算机设备执行并实现。其中，所述计算机设备可以是图1所示的直播提供终端100，也可以是所述直播服务器200，具体不进行限定。应当理解，本实施例提供的表情驱动方法所包含的其中部分步骤的顺序在实际实施时可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除，本实施例对此不进行具体限定。

下面结合图2对本实施例的表情驱动方法的各个步骤通过示例的方式进行详细介绍，详细地，如图2所示，所述方法可以包括下述的步骤S100-步骤S400所述的相关内容。

步骤S100，通过图像采集设备从多个视角对目标对象的多个面部表情分别进行表情图像拍摄，获得所述目标对象的每个面部表情对应的多视角表情图像序列。

其中，本实施例中，每个所述面部表情对应的多视角表情图像序列包括分别从多个不同的视角对所述目标对象的该面部表情进行面部表情捕捉(图像拍摄)而分别获得的每个视角下的至少一个面部表情图像。

举例而言，作为一种示例，例如图3所示，可以采用围绕目标对象(如主播)呈阵列分布的一个摄像机阵列对所述目标对象的每个面部表情进行表情图像拍摄，进而获得针对每个面部表情的一个多视角表情图像序列。本实施例中，参照图3所示，在一种可替代的优选实施方式中，可采用12个4D数字人采集设备(4D摄像机)形成一个高精度阵列相机***作为所述图像采集设备对所述目标对象进行多视角、多面部表情的图像拍摄，得到分别与多个不同的面部表情对应多个多视角表情图像序列。

示例性地，本实施例所述的高精度阵列相机***例如可以包括如图3所示的C1、C2、C3、C4、C5、C6、C7、C8、C9、C10、C11、C12等十二个4D摄像机(采集设备)按照预先调校的采集参数(例如包括相机焦距、拍摄角度、相机位置分布等)进行设置。在需要获取所述目标对象的多视角表情序列时，所述目标对象可以根据需求按照预定义的各种表情(包括极端表情)，然后在目标对象作出相应的表情的情况下，通过各个4D摄像机分别拍摄获得所述目标对象在不同视角下的表情图像。例如，可以获得如图3所示的P1、P2、P3、P4、P5、P6、P7、P8、P9、P10、P11、P12等十二个视角下的十二个面部表情图像，然后由这十二个面部表情图像组成所述多视角表情图像序列。

进一步地，为了使得后续用于对虚拟数字形象的表情驱动能够更为完善和细腻，本实施例中，预定义的各种表情可以包括海量(如成百上千种)表情内容。例如，在进行面部表情图像捕捉时，可事先定义好作出极端表情所需表演的数据内容，以要求目标对象(如主播)按照定义作出各种表情。示例性地，第一种可以包括极端表情内容，为了捕捉面部运动的最大范围，需要目标对象做出预定义的极端表情并且用4D设备捕捉到极端表情的运动过程。这些极端表情示例性地可以包括，但不限于，尽可能大地张开嘴巴，将下巴尽可能向侧面和前方移动，抿嘴唇，睁大眼睛并强迫它们闭上等。第二种是FACS类型的表情，这些表情一般是一些常规的预设表情，例如眯眼、张嘴、皱眉、鼓腮等等。第三类是一些说话的预设内容，这部分可以选择一些包含了常见音节的句子和古诗词，保证目标对象说话的时候能涵盖所有的常见音节，做出相应的嘴型以利于面部表情的捕捉。

步骤S200，根据各所述面部表情分别对应的多视角表情图像序列，通过多视角重建获得各所述面部表情分别对应的三维表情模型。

详细地，本实施例所说的多视角重建是指使用每个所述面部表情对应的多视角表情图像序列中的各个视角下的图像重建出一个三维的网格模型，作为所述三维表情模型，重建所得到的三维表情模型即为可以对所述目标对象的所述面部表情进行表达的三维网格(mesh)模型。其中，本实施例中，所述三维表情模型可以包括多个不同的关键点(如眼部关键点、眉部关键点、鼻部关键点、嘴部关键点、下巴关键点)等形成的模型顶点，各个不同的模型顶点按照设定的拓扑顺序进行相连即可得到由不同的网格面片(如三角网格面片或多边形网格面片)而构成的三维网格模型。

本实施例中，在一种可能的多视角重建的示例性实施方案中，例如，图4所示，所述步骤S200可以包括下述的步骤S210-S240的步骤，示例性说明如下。

步骤S210，针对每个所述多视角表情图像序列，对所述多视角表情图像序列中的各面部表情图像进行关键点提取，得到各面部表情图像包括的面部关键点。

详细地，在一种可能的实现方式中，在步骤S210中，可以采用关键点SDK(SoftwareDevelopment Kit,软件开发工具包)基于各所述面部表情图像进行面部关键点提取而得到。所述关键点SDK可以是目前市面上任意一种成熟的关键点获取工具，本实施例对此不进行限定。

步骤S220，将所述多视角表情图像序列中的一个面部表情图像作为参考图像，依次遍历该参考图像中的每个面部关键点，查找所述多视角表情图像序列中的其他面部表情图像中与所述参考图像中的各面部关键点相对应的面部关键点。

其中，本实施例中，可以将具有最全的面部关键点的一个面部表情图像作为所述参考图像，例如，可以将正对所述目标对象的面部设置的一个4D摄像机拍摄的面部表情图像(如正脸图像)作为所述参考图像。

步骤S230，根据查找到的其他面部表情图像中与所述参考图像中的各面部关键点相对应的面部关键点，确定所述参考图像中各面部关键点的位置信息。

其中，本实施例中，所述各面部关键点的位置信息可以是各面部关键点的三维坐标。

步骤S240，根据各所述面部关键点的位置信息重建得到所述多视角表情图像序列对应的面部表情的三维表情模型。

示例性地，可以根据各所述面部关键点的位置信息，将相邻的面部关键点按照拓扑顺序进行连接。例如，相邻的三个面部关键点可以组成一个三角形的模型面片，多个不同的三角形的模型面片按照拓扑顺序连接起来就形成了对应的三维表情模型。

步骤S300，通过所述面部表情分别对应的多视角表情图像序列以及各所述面部表情分别对应的三维表情模型对预设的神经网络进行训练，得到表情预测神经网络。

其中，本实施例中，针对步骤S300，如图5所示，对所述预设的神经网络进行训练以得到表情预测神经网络的具体实现步骤，可以包括下述的步骤S310-S330，示例性说明如下。

步骤S310，对各所述面部表情分别对应的三维表情模型进行拓扑映射得到符合设定规则的规则化三维网格模型。

具体地，在本实施例中，由于前述的通过各所述多视角表情图像序列进行模型重建得到的三维表情模型可能是无规则的三维网格模型，例如，不同的三维表情模型中具有相同语义的面部关键点所对应的模型序号(拓扑关系)可能不同，这种情况下，在后续进行神经网络训练时，由于三维表情模型不是规则的三维网格模型，进而导致难以使训练的神经网络迅速收敛。基于此，在步骤S310中，对各所述三维表情模型进行拓扑映射，使得各三维表情模型上相同的面部关键点所对应的关键点序号相同，同时，使得各个三维表情模型对应的规则化三维网格模型具有相同数量的模型顶点。

步骤S320，针对每个所述多视角表情图像序列，基于所述多视角表情图像序列中的面部表情图像确定至少一个训练样本。

详细地，本实施例中，在一种可替代的实施方式中，可以将所述多视角表情图像序列中的预设拍摄视角对应的一个面部表情图像作为所述训练样本。例如，作为一种示例，可以将所述多视角表情图像序列中正对所述目标对象的面部设置的一个4D摄像机拍摄的面部表情图像(正脸图像)作为所述训练样本。

此外，在另一种可替代的实施方式中，可以首先将所述多视角表情图像序列中的预设拍摄视角对应的一个面部表情图像作为基准样本，然后基于该基准样本进行数据增强，得到至少一个增强样本，最后将所述基准样本以及所述至少一个增强样本作为所述训练样本。其中，所述基准样本也可以是正对所述目标对象的面部设置的一个4D摄像机拍摄的面部表情图像(正脸图像)。所述数据增强的方式可以包括，但不限于，对所述基准样本进行旋转、镜像、亮度调整、噪声植入等方式中的其中一种或两种以上的组合。如此，通过数据增强得到的训练样本，可以让训练样本的数据量进一步增大，以增强训练得到的神经网络的鲁棒性。通过数据增强之后，每张基准样本(如正脸图像)会得到M张图像组成的训练样本，这M张训练样本分别对应的的训练标签对应同一个规则化三维网格模型，即所述基准样本所属的多视角表情图像序列所对应的规则化三维网格模型。如此，假如有N个(如一万个)多视角表情图像序列，通过样本数据增强之后得到的训练数据集则包括N*M个训练样本。

步骤S330，将所述训练样本依序输入所述神经网络，得到所述神经网络输出的预测三维网格模型，根据所述预测三维网格模型以及所述训练样本对应的样本标签计算所述神经网络的损失函数值，并根据所述损失函数值对所述神经网络的网络参数进行迭代更新，直到满足训练终止条件，得到所述表情预测神经网络。

其中，本实施例中，所述训练样本的样本标签为所述训练样本所属的多视角表情图像序列对应的规则化三维网格模型。如此，所述损失函数值可以根据所述预测三维网格模型与所述规则化三维网格模型之间的匹配度(或相似度)而获得，或者也可以是所述匹配度，匹配度越高，所述损失函数值则越小。所述训练终止条件可以是所述损失函数值小于设定损失函数阈值，也可以是训练迭代次数达到预设的次数。

在本实施例中，应当理解，在一些可能的应用场景中，通过上述三维重建而获得的三维表情模型也可直接用于进行神经网络的训练，而无需进行重拓扑映射，也就是说，在其他一些可能的实施方式中，所述步骤S310可以被省略。基于此，在省略所述步骤S310的情况下，所述步骤S300可以具体包括以下内容。

首先，针对每个所述多视角表情图像序列，基于所述多视角表情图像序列中的面部表情图像确定至少一个训练样本。确定所述训练样本的方法与上述步骤S320的步骤基本相同，此处不在赘述。

然后，将所述训练样本依序输入所述神经网络，得到所述神经网络输出的预测三维网格模型，根据所述预测三维网格模型以及所述训练样本对应的样本标签计算所述神经网络的损失函数值，并根据所述损失函数值对所述神经网络的网络参数进行迭代更新，直到满足训练终止条件，得到所述表情预测神经网络。基于该步骤，所述训练样本的样本标签为根据所述训练样本所属的多视角表情图像序列而重建得到的三维表情模型。如此，所述损失函数值可以根据所述预测三维网格模型与所述重建得到的三维表情模型之间的匹配度(或相似度)而获得，或者也可以是所述匹配度。所述训练终止条件可以是所述损失函数值小于设定损失函数阈值，也可以是训练迭代次数达到预设的次数。

作为一种示例，请参阅图6所示，示出了本实施例对所述神经网络的训练过程示意图，下面结合图6对所述训练进行概括性说明。

所述训练过程包括两个主要分支，一个分支为通过搜集的训练数据重建规则化三维表情模型，另一个分支为神经网络对训练数据进行预测，以通过预测的三维表情模型与所述重建的规则化三维表情模型进行误差计算进而对神经网络进行网络参数调整。

详细地，第一，可通过前述的4D摄像机阵列对目标对象作出的各种预定义表情进行多视角拍摄，可分别得到不同的面部表情所对应的多视角表情图像序列，形成训练数据集。

第二，通过所述训练数据集中的每个多视角表情图像序列中的各面部表情图像进行三维模型重建，得到各个面部表情所对应的三维表情模型M1。然后对各面部表情所对应的三维表情模型进行拓扑映射，得到各个面部表情的规则化三维表情模型M2。

第三，从所述训练数据集中获取训练样本P(例如正脸图像)，将所述训练样本P输入所述神经网络进行模型预测，得到所述训练样本P对应的预测三维表情模型M3。

第四，计算所述预测三维表情模型M3与所述训练样本P所属的多视角表情图像序列对应的规则化三维表情模型M2之间的模型顶点误差获得损失函数值，并根据所述损失函数值调整所述神经网络的网络参数，直到满足训练终止条件，即可得到所述表情预测神经网络。其中，所述模型顶点误差可以是各个模型顶点之间三维坐标之间的位置偏移，例如可以通过欧式距离等进行表示，本实施例对此不进行限制。

步骤S400，将获取的所述目标对象的面部图像输入所述表情预测神经网络，得到所述目标对象的三维表情模型，并根据所述三维表情模型对直播画面中的虚拟数字形象的面部表情进行驱动。

详细地，本实施例中，可以通过任意一个4D摄像机对所述目标对象进行面部拍摄，得到所述目标对象的面部图像。然后将所述面部图像输入所述表情预测神经网络进行表情预测，得到所述目标对象的三维表情模型。其中，在步骤S400中，只需要用到单个4D摄像机，如将其对准目标对象的正脸，然后把每一帧的图像数据按照神经网络的训练数据的输入尺寸做预处理之后输入到表情预测神经网络做预测，表情预测神经网络的输出就是和训练数据一样的规则的可以表达人脸网格数据的规则化三维表情模型，用于驱动所述虚拟数字形象按照预测的结果进行动作。

例如图7所示，可以将正对目标对象面部的一个4D摄像机对所述目标对象的面部进行拍摄，可持续获得所述目标对象面部的正脸图像P0，然后将所述正脸图像P0输入训练得到的表情预测神经网络进行预测，得到所述正脸图像P0的预测三维表情模型M0，最后，通过所述预测三维表情模型M0对所述虚拟数字形象的面部表情进行驱动，以使所述虚拟数字形象对所述目标对象的面部表情进行实时的表达。

作为一种示例，在本实施例中，可以根据所述表情预测神经网络输出的三维表情模型所包括的各个模型顶点(面部关键点)的位置信息驱动所述虚拟数字形象的各面部关键点进行运动，使所述虚拟数字形象可以表达所述目标对象的面部表情。或者，也可以使用所述表情预测神经网络输出的三维表情模型所包括的各个模型顶点的位置坐标替代所述虚拟数字形象的各个对应面部关键点的位置坐标的方式实现对所述虚拟数字形象的面部表情驱动。

请参阅图8所示，图8是本申请实施例提供的用于实现上述表情驱动方法的计算机设备的示意图。详细地，所述计算机设备可以包括一个或多个处理器110、机器可读存储介质120以及表情驱动***130。处理器110与机器可读存储介质120可经由***总线通信连接。机器可读存储介质120存储有机器可执行指令，处理器110通过读取并执行机器可读存储介质120中机器可执行指令实现上文描述的表情驱动方法。

其中，所述机器可读存储介质120可以是，但不限于，随机存取存储器(RandomAccess Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。其中，机器可读存储介质120用于存储程序，所述处理器110在接收到执行指令后，执行所述程序。

所述处理器110可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是，但不限于，通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。

请参照图9，是所述表情驱动***130的功能模块示意图。本实施例中，所述表情驱动***130可以包括一个或多个在所述计算机设备运行的软件功能模块，这些软件功能模块可以计算机程序的形式存储在所述机器可读存储介质120中，以使得这些软件功能模块在被所述处理器130调用并执行时，可以实现本申请实施例所述的表情驱动方法。

详细地，所述表情驱动***130包括图像采集模块131，三维重建模块132，网络训练模块133，以及表情驱动模块134。

所述图像采集模块131用于通过图像采集设备从多个视角对目标对象的多个面部表情分别进行表情图像拍摄，获得所述目标对象的每个面部表情对应的多视角表情图像序列。其中，每个所述面部表情对应的多视角表情图像序列包括分别从多个不同的视角对所述目标对象的该面部表情进行拍摄而分别获得的每个视角下的至少一个面部表情图像。本实施例中，所述图像采集模块131用于执行上述方法实施例中的步骤S100，关于该图像采集模块131的详细内容可以参考上述对该步骤S100的具体内容描述，此处不再一一赘述。

所述三维重建模块132用于根据各所述面部表情分别对应的多视角表情图像序列，通过多视角重建获得各所述面部表情分别对应的三维表情模型。本实施例中，所述三维重建模块132用于执行上述方法实施例中的步骤S200，关于该三维重建模块132的详细内容可以参考上述对该步骤S200的具体内容描述，此处不再一一赘述。

所述网络训练模块133用于通过所述面部表情分别对应的多视角表情图像序列以及各所述面部表情分别对应的三维表情模型，对预设的神经网络进行训练，得到表情预测神经网络。本实施例中，所述网络训练模块133用于执行上述方法实施例中的步骤S300，关于所述网络训练模块133的详细内容可以参考上述对该步骤S300的具体内容描述，此处不再一一赘述。

所述表情驱动模块134用于将获取的所述目标对象的面部图像输入所述表情预测神经网络，得到所述目标对象的三维表情模型，并根据所述三维表情模型对直播画面中的虚拟数字形象的面部表情进行驱动。本实施例中，所述表情驱动模块134用于执行上述方法实施例中的步骤S400，关于该表情驱动模块134的详细内容可以参考上述对该步骤S400的具体内容描述，此处不再一一赘述。

综上所述，本申请实施例提供的表情驱动方法、***及计算机设备，提供了一种能够实时输出高精度表情动画的创新性解决方案。相较于基于表情基等以往传统的表情驱动方案而言，本实施例的方案精度高而且实时性好。尤其在直播间应用场景使用的时候能够为主播打造一对一的虚拟数字形象。同时，本实施例可进一步借助高精度表情重建技术来训练神经网络，是一种更加高精尖的解决方案，能够通过更加逼真的虚拟数字形象对主播的面部表情进行更为精准且细腻的表达，让直播更加生动有趣、可大大提升虚拟直播的效果及用户体验。进一步地，本实施例提供的方案无需依赖大量的人力消耗，可大大地提高生产效率和制作成本。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种表情驱动方法，其特征在于，所述方法包括：

2.根据权利要求1所述的表情驱动方法，其特征在于，根据各所述面部表情分别对应的多视角表情图像序列，通过多视角重建获得各所述面部表情分别对应的三维表情模型，包括：

3.根据权利要求1或2所述的表情驱动方法，其特征在于，通过所述面部表情分别对应的多视角表情图像序列以及各所述面部表情分别对应的三维表情模型，对预设的神经网络进行训练，得到表情预测神经网络，包括：

4.根据权利要求3所述的表情驱动方法，其特征在于，针对每个所述多视角表情图像序列，基于所述多视角表情图像序列中的面部表情图像确定至少一个训练样本，包括：

5.根据权利要求3所述的表情驱动方法，其特征在于，针对每个所述多视角表情图像序列，基于所述多视角表情图像序列中的面部表情图像确定至少一个训练样本，包括：

6.根据权利要求1或2所述的表情驱动方法，其特征在于，通过所述面部表情分别对应的多视角表情图像序列以及各所述面部表情分别对应的三维表情模型，对预设的神经网络进行训练，得到表情预测神经网络，包括：

7.根据权利要求1或2所述的表情驱动方法，其特征在于，根据所述三维表情模型对直播画面中的虚拟数字形象的面部表情进行驱动，包括：

8.根据权利要求1所述的表情驱动方法，其特征在于，所述图像采集设备包括多个4D摄像机，多个所述4D摄像机围绕所述目标对象设置形成阵列相机***，多个所述4D摄像机分别用于从不同的视角对所述目标对象的面部表情进行拍摄得到不同视角对应的面部表情图像，以形成所述多视角表情图像序列。

9.一种表情驱动***，其特征在于，所述表情驱动***包括：

10.一种计算机设备，其特征在于，包括机器可读存储介质以及一个或多个处理器，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述一个或多个处理器执行时，实现权利要求1-8任意一项所述的方法。