CN116825127A

CN116825127A - 基于神经场的语音驱动数字人生成方法

Info

Publication number: CN116825127A
Application number: CN202311017166.XA
Authority: CN
Inventors: 张凯; 周翔; 张炜晨; 陈文硕
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-09-29

Abstract

一种基于神经场的语音驱动数字人生成方法，包括如下步骤：S1、使用人脸模型构建可变形的数字人脸；S2、对给定语音的音频特征进行编码，进行音频特征到所述数字人脸的表情空间的映射；S3、基于神经场表达，根据音频特征驱动所述标准空间的数字人；其中，基于神经占据场与神经纹理场得到在标准空间的数字人，对于所述标准空间里的空间坐标，由神经位移场根据音频特征输出对应的位移。进一步地，步骤S3还使用人脸语义作为显式控制信号，进行基于人脸语义的眼睛控制。对比传统方法，本发明可获得更同步的人脸躯干驱动以及眼睛睁闭控制，在图像质量以及语音同步指标上都超过了传统方法。

Description

基于神经场的语音驱动数字人生成方法

技术领域

本发明涉及计算机视觉以及人工智能领域，特别是一种基于神经场的语音驱动数字人生成方法。

背景技术

语音驱动数字人是一种常见的人脸驱动技术，在电影、游戏以及最近兴起的元宇宙领域已经得到广泛应用。为了避免恐怖谷效应，需要数字人尽可能逼真以进一步提高观众观感体验。高真实度来自于多种方面：不仅人脸的渲染要尽量真实，人头的位姿也需要进行一定范围内自然的改变，除此之外，眼神的控制也是交互的重要一环。当前的人脸驱动方法往往只考虑人脸渲染的真实性，生成出来的数字人虽然真实却不自然。

传统的语音驱动数字人局限在二维，常见的方法是通过将语音映射到某一个中间模态，再将中间模态映射到口型，然后进行二维渲染得到数字人。中间模态有很多，包括三维的mesh或是二维的landmark点，甚至是不包含实际物理含义的隐变量latent code。但是他们最终都必须进行二维渲染转换成为图片。这一限制使数字人停留在二维层面。在头部位姿变化微小的情况下二维渲染是足够的，但是当头部位姿变化大的时候二维渲染则会显现出崩溃的情况，这是因为二维的方法不包含三维信息，所以驱动的结果也缺失三维一致性。这局限了语音驱动数字人方法的应用落地。

近来出现的神经辐射场方法以多视角图片作为输入，用MLP(多层感知机)对空间进行建模，通过体渲染方法得到二维图片与输入视角图片进行比对，建模连续的三维空间。由于对三维空间进行了建模以及采用的体渲染方法。神经辐射场拥有三维一致性与高质量的渲染结果。已有将神经辐射场利用在语音驱动数字人的尝试，这样得到的语音驱动数字人可以改变头部位姿，克服了二维方法面临的问题。但是基于神经辐射场的语音驱动数字人同时又带来了新的挑战：也就是它分别驱动头部和躯干的方法造成了躯干的不稳定，甚至产生了头身分离的现象，驱动结果抖动且不自然。除此之外，由于并未建立语音和眼睛睁闭的关联，导致数字人的眨眼不受控，这也影响了用户体验。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术的缺陷，提供一种基于神经场的语音驱动数字人生成方法。

为实现上述目的，本发明采用以下技术方案：

一种基于神经场的语音驱动数字人生成方法，包括如下步骤：

S1、使用人脸模型构建可变形的数字人脸；

优选地，使用改进的FLAME人脸模型构建可变形的数字人脸，所述改进的FLAME人脸模型基于FLAME模型，但位姿基、表情基以及线性蒙皮权重是在三维空间连续的；

S2、对给定语音的音频特征进行编码，进行音频特征到所述数字人脸的表情空间的映射；

S3、基于神经场表达，根据音频特征驱动所述标准空间的数字人；其中，基于神经占据场与神经纹理场得到在标准空间的数字人，对于所述标准空间里的空间坐标，由神经位移场根据音频特征输出对应的位移。

在一些实施例中，所述数字人脸的变形过程包括：

给定一个平均面网格其中N是顶点个数，将表情系数与表情基相乘，执行非刚性变形，接着使用线性混合蒙皮LBS算法计算刚性变形；LBS采用颈部、下巴和双眼的旋转向量和全局旋转向量与线性混合蒙皮权重相乘，对整个面部进行刚性形变；具体计算过程如下式：

其中，为位姿系数，/>为位姿基，K为关节点个数，B_P为位姿blendshape，/>为表情系数，/>为表情基，B_E为表情blendshape，T_P为经过非刚性形变的人脸网格mesh，/>是线性蒙皮权重，/>回归得到关节点坐标，W是线性蒙皮方程，M是最终得到的mesh。

在一些实施例中，步骤S2中，通过预训练的语音模型将音频转换为特征向量，音频特征随后经过4层一维卷积层，并映射到表情系数和下巴位姿；优选地，采用自注意力机制输出加权的表情特征。

在一些实施例中，所述神经场表达包括：

用两个多层感知机MLP表达数字人，一个用来预测当前位置的占据值以表达数字人的几何，另一个预测当前位置的RGB值以渲染数字人，两者的解耦带来几何与渲染表现

其中，A代表了当前抽取的音频特征，是坐标，occ∈[0,1]代表了x_c被占据的概率，θ_o代表了可学习参数；额外增添音频作为MLP的输入以解释不能被形变解释的拓扑变换；用一个神经纹理MLP来给数字人赋予颜色，所述神经纹理MLP对x_c输出当前坐标点的颜色，这一过程如下式所示：

其中，η_d代表了当前位置的法线方向，通过对几何场的梯度进行正则化得到。

在一些实施例中，步骤S3中，对于所述标准空间场里的3D点x_c，预测它对应的表情基ε、姿态基P以及线性蒙皮权重ω：

其中，所述表情基和所述位姿基结合通过音频得到的表情特征来得到非刚性位移后的点坐标，这一过程表示为：

随后，利用线性混合蒙皮LBS权重结合各个节点位姿作为输入，输出经过刚性变换后的点坐标；

经过音频驱动后得到的数字人表示为：

在一些实施例中，步骤S3中，还使用人脸语义作为显式控制信号，进行基于人脸语义的眼睛控制。

在一些实施例中，在预处理阶段，使用语义分割方法获取虚拟形象的语义分割结果；计算眼部区域的像素总数，并得到称为眼部比例的值，进行归一化，将其添加到表情系数中；在训练阶段，模型学习眼部比例的维度作为眼睛睁开度的度量，并实现对眼部的控制。

在一些实施例中，用像素损失作为训练目标，像素损失衡量生成的像素与真实像素的L2距离，具体表达如下：

其中，p表示对应光线击中人体表面的像素点；

优选地，额外增加一个mask loss，利用没有击中人体表面的光线来优化数字人的建模结果；

其中，CE代表了真实占据值与预测占据值的交叉熵损失；在光线上选取距离表面最近的点计算占据值与真实占据值进行比对。

在一些实施例中，利用人脸语义分割图的语义先验信息，增添一个语义损失函数，具体表达如下：

对于在标准场中属于面部的点，找到其对应的人脸mesh中最近的点并计算它们的距离作为损失函数。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器执行时，实现所述的基于神经场的语音驱动数字人生成方法。

本发明具有如下有益效果：

本发明提出了一种基于神经场的语音驱动数字人生成方法，针对语音驱动数字人常见的人脸、躯干不同步以及无法实现眼睛控制问题，本发明通过神经形变场以及基于语义的眼睛控制方法成功解决了上述问题，对比传统方法体现出了更同步的人脸躯干驱动以及眼睛睁闭控制，在图像质量以及语音同步指标上都超过了传统方法。

本发明优选实施例结合神经场以及人脸语义信息，利用FLAME的人脸先验同时改变人脸和躯干的位姿，再联合人脸语义信息实现对人眼睛睁闭的控制。本发明解决了传统方法的不足：包括渲染真实性、头部位姿的改变以及眼睛的睁闭问题。在与以往方法的对比上展现了更好的渲染结果与语音同步性。借助文字转语音、语音驱动数字人的管线，以极低成本得到一个可以与之进行真实自然交互的高质量数字人。

本发明实施例中的其他有益效果将在下文中进一步述及。

附图说明

图1为本发明实施例的人脸语义控制的基于神经场的语音驱动数字人生成方法(Sem-Avatar)的流程图。

图2为本发明实施例的人脸语义图。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

参阅图1，本发明实施例提供一种基于神经场的语音驱动数字人生成方法，包括如下步骤：

S1、使用人脸模型构建可变形的数字人脸；

如图1所示，在优选的实施例中，步骤S3中，还使用人脸语义作为显式控制信号，进行基于人脸语义的眼睛控制。

本发明的方法完全解决了传统方法语音驱动数字人头身不一致问题，带来了高质量的音频驱动人物形象。进一步地，本发明提出使用语义信息来引导人物形象的眼睛区域，这在FLAME模型中以前是无法控制的。通过大量的实验验证了本发明方法的有效性，表明本发明的方法可以合成出高度真实的音频驱动人物形象。

以下进一步描述本发明具体实施例。

本发明实施例的方法中提出了一种语义控制的半隐式神经场框架，名为Sem-Avatar，用于音频驱动数字人合成，实现高保真度的音频驱动虚拟形象。该半隐式神经场框架可参见图1。为了音频驱动数字人合成，本发明中对音频特征进行编码。本发明中使用神经隐式场，包括用于生成规范脸部模型的占用场和纹理场，随后是将规范空间变形为观察空间的变形场。最后，本发明的方法还提出了语义眼睛控制。

人脸模型

为了对数字人进行变形，基于FLAME(参见Li T,Bolkart T,Black M J,etal.Learning a model of facial shape and expression from 4D scans[J].ACMTrans.Graph.,2017,36(6):194:1-194:17)，一个3D人脸模型，进行变形过程。该变形过程如下：给定一个平均面网格其中N是顶点个数，FLAME首先将表情系数与表情基相乘，执行非刚性变形，接着使用LBS(线性混合蒙皮)算法计算刚性变形。LBS采用四个关节(颈部、下巴和双眼)的旋转向量和全局旋转向量与线性混合蒙皮权重相乘，对整个面部进行刚性形变。具体计算过程如下式：

其中，为位姿系数，/>(K为关节点个数)，为位姿基，B_P为位姿blendshape，/>为表情系数，/>为表情基，B_E为表情blendshape。T_P为经过非刚性形变的人脸网格mesh。/>是线性蒙皮权重，/>回归得到关节点坐标，W是线性蒙皮方程，M是最终得到的mesh。与FLAME并不完全相同的是，FLAME的位姿基、表情基以及线性蒙皮权重都是离散的，在本发明中这些权重都是在三维空间连续的。

语音到表情模块

给定驱动音频，通过音频到表情空间的映射来实现音频驱动的数字人生成。首先，通过预训练的语音模型将音频转换为特征向量，具体而言对于20毫秒的音频，模型会输出一个29维度的特征向量。在训练视频中，对每一帧图像采样邻近20个区块的音频以得到的音频特征。

音频特征A随后经过4层一维卷积层，并映射到表情系数和下巴位姿θ_jaw。为了平滑音频特征，采用了自注意力机制输出加权的表情特征，这样的做法保证音频考虑了上下文信息，连续帧输出的表情也更加平滑自然。

神经场表达的数字人

用两个多层感知机表达数字人，一个用来预测当前位置的占据值以表达数字人的几何，另一个预测当前位置的RGB值以渲染数字人。两者的解耦带来了更好的几何与渲染表现。

这其中，A代表了当前抽取的音频特征，是坐标，occ∈[0,1]代表了x_c被占据的概率，θ_o代表了可学习参数。我们额外增添了音频作为MLP的输入以解释那些不能被形变解释的拓扑变换。我们用一个神经纹理MLP来给数字人赋予颜色，这个MLP会对x_c输出当前坐标点的颜色，这一过程如下式所示：

这其中，η_d代表了当前位置的法线方向，通过对几何场的梯度进行正则化得到。

神经场驱动的数字人

基于神经占据场与神经纹理场得到了在标准空间的数字人，接下来根据音频驱动标准空间的数字人。对于标准场里的空间坐标x_c，神经位移场根据音频输出对应的位移。

首先，对于标准空间场里的3D点x_c，预测它对应的表情基ε、姿态基P以及线性蒙皮权重ω：

其中，表情基和位姿基会结合通过音频得到的表情特征得到非刚性位移后的点坐标，这一过程可以表示为：

随后我们利用LBS权重结合各个节点位姿作为输入，输出经过刚性变换后的点坐标。

这就是经过音频驱动后得到的数字人。

基于人脸语义的眼睛控制

由于FLAME模型未对眼睛的开合进行建模，神经隐式数字人也无法进行任何眼部动作。这个局限性继承自FLAME模型，严重影响了数字人的真实性，导致数字人在整个过程中保持着睁眼状态，显得高度不真实。为了解决这个问题，本发明提出了一种新的方法，通过使用人脸语义作为显式控制信号。

在预处理阶段，我们使用现成的语义分割方法获取虚拟形象的语义分割结果，如图2所示。我们计算眼部区域的像素总数，并形成一个称为眼部比例的值，我们对这个眼部比例进行归一化，并将其添加到表情系数中。在训练过程中，变形模块逐渐学习解释这个维度作为眼睛睁开度的度量，并实现对眼部的控制。

训练目标

我们用像素损失作为训练目标。像素损失衡量生成的像素与真实像素的L2距离，它的具体表达如下：

在这其中，p表示那些对应光线击中人体表面的像素点，为了进一步提升几何质量与渲染结果，我们额外增加了一个mask loss利用那些没有击中人体表面的光线优化数字人的建模结果。

在这里，CE代表了真实占据值与预测占据值的交叉熵损失。由于这些光线并没有击中人体表面，我们在光线上选取距离表面最近的点计算占据值与真实占据值进行比对。

除此之外，我们利用从之前方法得到的人脸语义分割图的语义先验信息增添了一个语义损失函数，这一损失函数有效稳定了训练过程，它的表达如下：

对于在标准场中属于面部的点，我们找到它对应的人脸mesh中最近的点并计算它们的距离作为损失函数，需要注意的是，无法再非面部区域采用这一损失函数，因为FLAME只包含了人脸部分，而缺失了头发、躯干部分。

性能分析

数据集：与以往的研究不同，我们的模型只需要一个3-5分钟的视频作为训练数据即可。具体而言，我们选择了AD-NeRF和LSP中各一段公开发布的视频。对于每个视频，我们将80％的帧用作训练集，20％的帧用作测试集。

评估指标：为了定量评估结果，我们选择峰值信噪比(Peak Signal-to-NoiseRatio,PSNR)和结构相似性(Structural Similarity,SSIM)作为图像质量的指标。此外，我们还使用关键点距离(Landmark Distance,LMD)和同步置信度分数(SynchronizationConfidence score,Sync)作为评估音频和唇部同步的指标。

实现细节：我们使用PyTorch实现了我们的框架。网络使用Adam优化器，学习率为0.0002。我们在8个NVIDIA Tesla V100s上以批次大小为8的方式训练模型，共进行40个epochs的训练。模型在256×256的分辨率下，使用5分钟的数据集进行训练，收敛时间大约为40小时。

实验设置：将本发明的方法与以下方法进行比较：1)AudioDVP，基于模型的音频驱动数字人的现有SOTA方法；2)Wav2lip，产生最先进的唇部同步结果的方法；3)AD-NeRF，基于隐式模型的现有SOTA音频驱动数字人的方法。

定量比对：我们在表1和表2中展示了本发明的定量结果。由于基于模型的方法只使用音频驱动口部区域，其余部分从原始视频中复制过来。我们只裁剪了下半脸部分进行比对。我们在全分辨率设置下与AD-NeRF进行比较，因为它也可以驱动整个数字人。

表1

表2

在裁剪设置下，本发明的方法在数据集A上在PSNR、SSIM和LMD指标上都取得了最好的结果。这证明本发明的方法可以生成具有细粒度细节高保真数字人。需要注意的是，Wav2Lip在Sync指标上取得了最高分，这是因为他们在训练过程中使用了预训练的Syncnet。尽管唇部同步分数很高，但Wav2lip生成的对话数字人显得不自然，嘴巴区域模糊，可以看到嘴巴区域周围有明显的边界。而且，生成具有3D感知能力的数字人对于Wav2lip而言是不可实现的。在全分辨率设置下，本发明的方法在所有指标上均优于AD-NeRF。由于AD-NeRF未使用眼睛的语义信息，我们进行了另一个实验，在这个实验里我们禁用语义控制模块以进行公平比较。正如表2所示，在两种设置下，本发明的方法都优于AD-NeRF，证明本发明成功地解决了头部和躯干之间的不一致性问题。

定性对比：本发明通过比较每种方法的渲染结果中的关键帧进行了定性实验。对比结果显示，AD-NeRF经常遇到上述的不一致问题，AudioDVP的唇部动作与驱动音频同步效果不佳。尽管Wav2lip在Syncnet指标上获得了最高分，但其唇部区域显得非常不自然。本发明的方法在唇部同步和图像质量之间取得了微妙的平衡，产生了最逼真的说话数字人。

消融分析

音频到表情模块：在本发明的框架中，我们选择以端到端的方式训练音频到表情模块，不对表情系数进行显式监督。因此，我们在这两个设置下进行了剔除实验。(1)使用表情监督：我们以tracking的FLAME表情作为真值来训练音频到表情模块，这样我们可以直接回归音频特征到FLAME表情系数。根据表3，我们可以观察到唇部同步指标的下降，这意味着这种设置不适合生成与音频同步的口型。(2)使用表情基监督：我们将预测的表情基础的真值设置为FLAME中最近顶点的表情基。这也导致了口型同步指标的下降，如表3所示。这两个实验表明，虽然我们能够使用音频来驱动与FLAME相似的数字人，但这并没有达到最佳结果。原因在于跟踪的FLAME表情和预训练的FLAME表情基础都可能不准确，导致了误差的增加。直接使用音频特征作为条件给我们带来了最好的结果。

表3

语义损失：我们还测试了没有语义损失的模块，以展示所提出的语义损失的作用。结果显示在表3中，我们发现语义损失对最终的渲染结果和音频同步有益。此外，语义损失稳定了训练过程，有效地防止了在引入该损失之前频繁的训练崩溃。

语义眼睛控制模块：为了证明语义眼睛控制模块的有效性，我们进行了一个去除语义控制模块的剔除实验。我们对比了裁剪眼部区域的图像保真度，结果显示在表4中。可以观察到，通过显式地控制眼睛动作，语义眼睛控制模块使驱动结果具有更好的保真度和更高的真实感。

表4

综上所述，本发明实施例提出了一种新颖的框架Semantic Controlled NeuralField for Audio Driven Avatar(Sem-Avatar)，该框架利用显式模型FLAME实现了音频驱动数字人的变形，完全解决了头身不一致问题，从而带来了高质量的音频驱动人物形象。本发明还提出使用语义信息来引导人物形象的眼睛区域，这在FLAME模型中以前是无法控制的。通过大量的实验验证了本发明方法的有效性，表明本发明的方法可以合成出高度真实的音频驱动人物形象。

总之，本发明针对如何利用音频驱动高真实数字人给出了端到端的实现方案，成功解决了头部位姿变动、头身不一致性问题，生成高真实度数字人。本发明的方法还可以通过人脸语义信息控制眼睛睁闭，克服音频驱动数字人不自然的问题。本发明的驱动效果在音频口型同步和渲染效果上优于同类方法，在数字人自然度以及渲染真实性都显著优于传统方案。

本发明实施例还提供一种存储介质，用于存储计算机程序，该计算机程序被执行时至少执行如上所述的方法。

本发明实施例还提供一种控制装置，包括处理器和用于存储计算机程序的存储介质；其中，处理器用于执行所述计算机程序时至少执行如上所述的方法。

本发明实施例还提供一种处理器，所述处理器执行计算机程序，至少执行如上所述的方法。

所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM，DynamicRandom AccessMemory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic RandomAccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double DataRateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

在本发明所提供的几个实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本发明所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本发明所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于神经场的语音驱动数字人生成方法，其特征在于，包括如下步骤：

S1、使用人脸模型构建可变形的数字人脸；优选地，使用改进的FLAME人脸模型构建可变形的数字人脸，所述改进的FLAME人脸模型基于FLAME模型，但位姿基、表情基以及线性蒙皮权重是在三维空间连续的；

2.如权利要求1所述的基于神经场的语音驱动数字人生成方法，其特征在于，所述数字人脸的变形过程包括：

3.如权利要求1或2所述的基于神经场的语音驱动数字人生成方法，其特征在于，步骤S2中，通过预训练的语音模型将音频转换为特征向量，音频特征随后经过4层一维卷积层，并映射到表情系数和下巴位姿；优选地，采用自注意力机制输出加权的表情特征。

4.如权利要求1至3任一项所述的基于神经场的语音驱动数字人生成方法，其特征在于，所述神经场表达包括：

(A,x_c)→occ

5.如权利要求1至4任一项所述的基于神经场的语音驱动数字人生成方法，其特征在于，步骤S3中，对于所述标准空间场里的3D点x_c，预测它对应的表情基ε、姿态基P以及线性蒙皮权重ω：

(x_c)→ε,P,ω

经过音频驱动后得到的数字人表示为：

6.如权利要求1至5任一项所述的基于神经场的语音驱动数字人生成方法，其特征在于，步骤S3中，还使用人脸语义作为显式控制信号，进行基于人脸语义的眼睛控制。

7.如权利要求6所述的基于神经场的语音驱动数字人生成方法，其特征在于，在预处理阶段，使用语义分割方法获取虚拟形象的语义分割结果；计算眼部区域的像素总数，并得到称为眼部比例的值，进行归一化，将其添加到表情系数中；在训练阶段，模型学习眼部比例的维度作为眼睛睁开度的度量，并实现对眼部的控制。

8.如权利要求1至7任一项所述的基于神经场的语音驱动数字人生成方法，其特征在于，用像素损失作为训练目标，像素损失衡量生成的像素与真实像素的L2距离，具体表达如下：

其中，p表示对应光线击中人体表面的像素点；

优选地，额外增加一个maskloss，利用没有击中人体表面的光线来优化数字人的建模结果；

9.如权利要求1至8任一项所述的基于神经场的语音驱动数字人生成方法，其特征在于，利用人脸语义分割图的语义先验信息，增添一个语义损失函数，具体表达如下：

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时，实现如权利要求1至9任一项所述的基于神经场的语音驱动数字人生成方法。