CN115909015A

CN115909015A - 一种可形变神经辐射场网络的构建方法和装置

Info

Publication number: CN115909015A
Application number: CN202310119675.7A
Authority: CN
Inventors: 杨延东; 朱红
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-04-04
Anticipated expiration: 2043-02-15
Also published as: CN115909015B

Abstract

本发明实施例提供了一种可形变神经辐射场网络的构建方法和装置，涉及模型训练技术领域，包括：获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据；根据视频帧对应的第一图像参数，得到视频帧中人物的人脸轮廓；将人脸轮廓和音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧；获取训练视频具有对应的目标视频的视频帧对应的第三图像参数，并计算视频帧对应的第三图像参数和视频帧对应的渲染视频帧对应的第二图像参数的误差数据；在根据误差数据确定可形变神经辐射场网络满足收敛条件时，得到训练完成的可形变神经辐射场网络。通过训练完成的可形变神经辐射场网络能够合成更具备真实感和表现力的虚拟人物。

Description

一种可形变神经辐射场网络的构建方法和装置

技术领域

本发明实施例涉及模型训练技术领域，特别是涉及一种可形变神经辐射场网络的构建方法和一种可形变神经辐射场网络的构建装置。

背景技术

目前，基于音频驱动的动态数字发言人（Talking head）受到越来越多的关注，对于数字发言人，其可以理解为一种合成的虚拟人物，该数字发言人可广泛应用于实际场景中，如零售主播、形象代言、远程会议、电影制片等。但是，合成具备真实感和富有表现力的数字发言人是一项极具挑战的任务，其技术难点不仅在于数字发言人的嘴部和音频的实时同步，而且眼神交流等几何动态变化细节也需要解决，同时还需要3D（3 Dimensions 三维）空间监督信息的缺失等。

现有的数字发言人合成技术方案是一个热点研究领域，主要技术方案可分为三类：基于图像的模型，隐式模型和显式模型。首先，基于图像的模型的方法可以合成高质量的结果，但是在处理较大的姿势或表情变化时可能会出现失真，且缺少几何和时序上的一致性，导致该结果可能是由于三维表面的形变信息是从2D（2 Dimensions 二维）图片中获取的；其次基于隐式模型的方法能在一定程度上解决空间几何和时序的一致性问题，但只能受限于静态场景重建，且很难泛化到未出现过的表情或姿态上；还有的是，显式模型合成法可生成几何一致且易于控制的数字人，但是只受限于颅部结构且无法合成头发信息，或者由于主干几何的松约束导致时空不一致问题。

发明内容

本发明实施例是提供一种可形变神经辐射场网络的构建方法、装置、电子设备以及计算机可读存储介质，以解决或部分解决现有技术基于音频驱动合成的虚拟人物缺乏真实感和表现力的问题。

本发明实施例公开了一种可形变神经辐射场网络的构建方法，包括：

获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据；其中，所述训练视频具有对应的目标视频，所述目标视频为包含所述训练视频的人物对应的虚拟人物的视频；

根据所述视频帧对应的所述第一图像参数，得到所述视频帧中所述人物的人脸轮廓；

将所述人脸轮廓和所述音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧；其中，所述渲染视频帧包含预设视角的第二图像参数；

获取所述目标视频的视频帧对应的第三图像参数，并计算所述视频帧对应的所述第三图像参数和所述视频帧对应的所述渲染视频帧对应的第二图像参数的误差数据；

在根据所述误差数据确定所述可形变神经辐射场网络满足收敛条件时，得到训练完成的可形变神经辐射场网络。

可选地，所述根据所述视频帧对应的所述第一图像参数，得到所述视频帧中所述人物的人脸轮廓，包括：

将所述第一图像参数输入至预设人脸模型进行训练；

当所述预设人脸模型满足收敛条件时，得到训练完成的人脸模型；

根据所述训练完成的人脸模型，得到所述视频帧中所述人物的人脸轮廓。

可选地，所述第一图像参数至少包括相机参数、外形数据、表情数据和姿势数据。

可选地，所述将所述人脸轮廓和所述音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧，包括：

将所述人脸轮廓和所述音频特征数据输入到所述可形变神经辐射场网络中；

根据所述人脸轮廓，确定所述人脸轮廓对应的所述视频帧的入射光线；

根据所述入射光线，确定所述入射光线与所述人脸轮廓的采样点位置；

根据所述采样点位置和所述音频特征数据，得到包含虚拟人物的渲染视频帧。

可选地，所述人脸轮廓用于区分所述训练视频中视频帧对应的前景和背景。

可选地，所述方法还包括：

当所述入射光线与所述人脸轮廓相交时，将所述入射光线作为所述训练视频中视频帧对应的前景；

当所述入射光线与所述人脸轮廓不相交时，将所述入射光线作为所述训练视频中视频帧对应的背景。

可选地，所述方法还包括：

根据所述入射光线的采样点位置，确定所述采样点位置的坐标编码和视角方向。

可选地，所述可形变神经辐射场网络包括隐式形变码和隐式外观码；其中，所述隐式形变码用于构建所述视频帧中人物的面部外观的表情变化，所述隐式外观码用于构建所述视频帧的不同光照和摄影后处理的变化。

获取所述视频帧对应的入射光线的采样点位置，确定所述采样点位置的坐标编码和视角方向；

将所述采样点位置的坐标编码和视角方向，以及所述可形变神经辐射场网络中的隐式形变码和隐式外观码输入至所述可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧。

可选地，所述可形变神经辐射场网络包括辐射场网络和编码器网络。

可选地，所述辐射场网络用于生成针对预设视角的所述视频帧的体密度，所述编码器网络用于生成针对预设视角的所述视频帧的颜色。

可选地，所述第二图像参数至少包括体密度和颜色。

可选地，所述方法还包括：

将所述视频帧对应的第一图像参数和所述可形变神经辐射场网络的隐式形变码输入所述至可形变神经辐射场网络的辐射场网络，得到预设视角的所述视频帧对应的体密度。

可选地，所述方法还包括：

将所述视频帧对应的视角方向、所述可形变神经辐射场网络的隐式外观码和所述音频特征数据输入至所述可形变神经辐射场网络的编码器网络，得到预设视角的所述视频帧对应的颜色。

可选地，所述方法还包括：

根据所述体密度和所述颜色，得到所述训练视频相对应的渲染视频帧。

可选地，所述获取所述目标视频的视频帧对应的第三图像参数，并计算所述视频帧对应的所述第三图像参数和所述视频帧对应的所述渲染视频帧对应的第二图像参数的误差数据，包括：

获取所述目标视频中视频帧对应的体密度和颜色；

根据所述渲染视频帧对应的体密度和颜色，计算所述目标视频中视频帧对应的体密度和颜色和所述渲染视频帧对应的体密度和颜色的误差数据。

可选地，在所述在根据所述误差数据确定所述可形变神经辐射场网络满足收敛条件时，得到训练完成的可形变神经辐射场网络之后，所述方法还包括：

根据所述训练完成的可形变神经辐射场网络，将包含人物的视频合成为包含虚拟人物的视频。

可选地，所述根据所述训练完成的可形变神经辐射场网络，将包含人物的视频合成为包含虚拟人物的视频，包括：

将所述误差数据作为所述可形变神经辐射场网络的优化目标；

对所述优化目标进行优化，并将包含人物的视频合成为包含虚拟人物的视频。

本发明实施例还公开了一种可形变神经辐射场网络的构建装置，包括：

数据获取模块，用于获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据；其中，所述训练视频具有对应的目标视频，所述目标视频为包含所述训练视频的人物对应的虚拟人物的视频；

人脸轮廓获取模块，用于根据所述视频帧对应的所述第一图像参数，得到所述视频帧中所述人物的人脸轮廓；

渲染视频帧获取模块，用于将所述人脸轮廓和所述音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧；其中，所述渲染视频帧包含预设视角的第二图像参数；

误差数据计算模块，用于获取所述目标视频的视频帧对应的第三图像参数，并计算所述视频帧对应的所述第三图像参数和所述视频帧对应的所述渲染视频帧对应的第二图像参数的误差数据；

可形变神经辐射场网络构建模块，用于在根据所述误差数据确定所述可形变神经辐射场网络满足收敛条件时，得到训练完成的可形变神经辐射场网络。

可选地，所述人脸轮廓获取模块具体用于：

将所述第一图像参数输入至预设人脸模型进行训练；

可选地，所述渲染视频帧获取模块具体用于：

可选地，所述装置还包括：

前景获取模块，用于当所述入射光线与所述人脸轮廓相交时，将所述入射光线作为所述训练视频中视频帧对应的前景；

背景获取模块，用于当所述入射光线与所述人脸轮廓不相交时，将所述入射光线作为所述训练视频中视频帧对应的背景。

可选地，所述装置还包括：

位置数据获取模块，用于根据所述入射光线的采样点位置，确定所述采样点位置的坐标编码和视角方向。

可选地，所述渲染视频帧获取模块具体用于：

可选地，所述装置还包括：

体密度获取模块，用于将所述视频帧对应的第一图像参数和所述可形变神经辐射场网络的隐式形变码输入至所述可形变神经辐射场网络的辐射场网络，得到预设视角的所述视频帧对应的体密度。

可选地，所述装置还包括：

颜色获取模块，用于将所述视频帧对应的视角方向、所述可形变神经辐射场网络的隐式外观码和所述音频特征数据输入至所述可形变神经辐射场网络的编码器网络，得到预设视角的所述视频帧对应的颜色。

可选地，所述误差数据计算模块具体用于：

获取所述目标视频中视频帧对应的体密度和颜色；

可选地，所述装置还包括：

第一虚拟人物视频合成模块，用于根据所述训练完成的可形变神经辐射场网络，将包含人物的视频合成为包含虚拟人物的视频。

可选地，所述装置还包括：

优化目标确定模块，用于将所述误差数据作为所述可形变神经辐射场网络的优化目标；

第二虚拟人物视频合成模块，用于对所述优化目标进行优化，并将包含人物的视频合成为包含虚拟人物的视频。

本发明实施例还公开了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如本发明实施例所述的方法。

本发明实施例还公开了一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如本发明实施例所述的方法。

本发明实施例包括以下优点：

在本发明实施例中，获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据，其中，训练视频具有对应的目标视频，目标视频为包含训练视频的人物对应的虚拟人物的视频，根据视频帧对应的第一图像参数，得到视频帧中人物的人脸轮廓，接着将人脸轮廓和音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧，其中，渲染视频帧包含预设视角的第二图像参数；进而获取目标视频的视频帧对应的第三图像参数，并计算视频帧对应的第三图像参数和视频帧对应的渲染视频帧对应的第二图像参数的误差数据，在根据误差数据确定可形变神经辐射场网络满足收敛条件时，得到训练完成的可形变神经辐射场网络。通过可形变神经辐射场网络对输入的包含人物的视频帧进行处理以得到训练完成的可形变神经辐射场网络，最后根据训练完成的可形变神经辐射场网络将包含人物的视频合成为包含虚拟人物的视频，从而有效地提升了虚拟人物的表现力和说服力，同时，提升了虚拟人物的三维视觉表示的流畅性和真实性。

附图说明

图1是本发明实施例中提供的一种现有技术的虚拟人物的合成方法的流程示意图之一；

图2是本发明实施例中提供的一种现有技术的虚拟人物的合成方法的流程示意图之二；

图3是本发明实施例中提供的一种可形变神经辐射场网络的构建方法的步骤流程图；

图4是本发明实施例中提供的一种可形变神经辐射场网络的构建方法的流程示意图；

图5是本发明实施例中提供的一种可形变神经辐射场网络的构建装置的结构框图；

图6是本发明实施例中提供的一种计算机可读存储介质的结构示意图；

图7是实现本发明各个实施例的一种电子设备的硬件结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

作为一种示例，目前，基于音频驱动的动态数字发言人受到越来越多的关注，对于数字发言人，其可以理解为一种合成的虚拟人物，该数字发言人可广泛应用于实际场景中，如零售主播、形象代言、远程会议、电影制片等。现有的数字发言人合成技术方案是一个热点研究领域，主要技术方案可分为三类：基于图像的模型，隐式模型和显式模型。首先，基于图像的模型的方法可以合成高质量的结果，但是在处理较大的姿势或表情变化时可能会出现失真，且缺少几何和时序上的一致性，导致该结果可能是由于三维表面的形变信息是从2D图片中获取的；其次基于隐式模型的方法能在一定程度上解决空间几何和时序的一致性问题，但只能受限于静态场景重建，且很难泛化到未出现过的表情或姿态上；还有的是，显式模型合成法可生成几何一致且易于控制的数字人，但是只受限于颅部结构且无法合成头发信息，或者由于主干几何的松约束导致时空不一致问题。但是，合成具备真实感和富有表现力的数字发言人是一项极具挑战的任务，其技术难点不仅在于数字发言人的嘴部和音频的实时同步，而且眼神交流等几何动态变化细节也需要解决，同时还需要3D空间监督信息的缺失等。具体地，现有的技术方案主要为基于图像的模型，隐式模型和显式模型，其主要技术方案如下：

基于图像的模型，无需依赖任何3D空间中的表达，采用一种变形场（WarpingFields）来变换一幅图像以匹配新的姿势或表情，或采用编解码器结构，编码器从给定的源图像中提取标识码，解码器基于此标识码和输入特征来合成输出图像，解码器可能依赖于面部关键点，脸部轮廓等信息。尽管该方案可以合成高质量的结果，但是在处理较大的姿势或表情变化时可能会出现失真，且缺少几何和时序上的一致性，这可能是由于这些三维表面的形变信息是从2D图片中获取的。

隐式模型，一般采用隐式表面函数如符号距离函数（Signed Distance Functions简称SDF）或者体素（Voxel）表示法，该技术路线是将人的面部表示为离散的隐式特征体素网格以合成动态变换，神经辐射场（Neural Radiance field简称NeRF）和体素渲染相结合的方案也受到很多的关注，该方案一般利用面部模型的低维参数或者音频信号来合成数字发言人；尽管隐式模型方法能在一定程度上解决空间几何和时序的一致性问题，但只能受限于静态场景重建，且很难泛化到未出现过的表情或姿态上。

显式模型，主要采用显式三角网格特征表示法，具体地，形变模型参数作为先验信息用于从不完整（部分遮挡）或者噪声数据（深度图）中重建数字发言人的面部特征，其中显式形变模型是从一系列3D头部扫描图中拟合构建的，用于提供面部形状，动作表情以及几何纹理的统计信息，也有采用生成式对抗网络（Generative Adversarial Networks简称GAN）进行生成和优化。

此外，还有一些采用2D神经渲染的方法来学习如何生成逼真的数字发言人，尽管这些方法可生成几何一致且易于控制的数字人，但是只受限于颅部结构且无法合成头发信息，或者由于主干几何的松约束导致时空不一致问题。

参照图1，示出了本发明实施例中提供的一种现有技术的虚拟人物的合成方法的流程示意图之一，具体地，如图1中所示，其为一种利用面部属性解耦的神经辐射场框架（Disentangled Face Attributes Neural Radiance Field简称DFA-NeRF）来进行嘴部动作和个性化特征的合成，通过音频来预测嘴部动作和个性化特征，并作为动态神经辐射场的输入，来使得合成的数字发言人的嘴部动作同步音频输入，产生更加自然的视觉效果的方案。如图1所示，利用面部属性解耦的神经辐射场框架的方法结合音频信息来预测嘴部活动并进行人脸表情个性化建模的工作，核心点是音频信息和嘴部活动高度相关，而个性化动作如头部和眨眼动作与音频弱相关，且每个人的表现各不相同。具体地，从视频中提取动作和面部表情信息，其中，面部动作表情信息可以解构成眼部动作和嘴部动作，采用基于高斯过程变分自编码器（Gaussian Process-Variational Autoencoder简称GP-VAE）概率模型来建模个性化的头部和眼部动作，同时也采用对比学习策略带同步关联学习音频语义和嘴部动作。最后将生成的动作特征作为视角方向，并将生成的眼部特征信息和同步的音频特征信息进行拼接，来驱动面部属性解耦的神经辐射场框架易胜成虚拟人物（数字发言人）。

但是，该方案目前无法对头部的发型进行合成建模，且渲染过程比较缓慢，这主要由于额外采用了基于高斯过程的概率采样模型，且该方案不支持多种语言的音频信号输入。

参照图2，示出了本发明实施例中提供的一种现有技术的虚拟人物的合成方法的流程示意图之二，如图2所示，其为一种基于音频驱动的数字发言人神经辐射场渲染技术方案（Audio Driven Neural Radiance Fields简称AD-NeRF），具体地，分别将头部和衣服的形变通过神经辐射场建模，解决了头部运动和衣着运动不一致的问题，在该方案中，首先分别基于图像语义分割技术分离出头部和衣着，并分别视为前景，其余部分视为背景，然后分别训练基于头部的神经辐射场（Head-NeRF）和基于衣服的神经辐射场（Torso-NeRF），最后将这两个神经渲染网络的输出结果分别对应拼接起来构成完整的虚拟人物（数字发言人）。

虽然此方案能较好地解决服饰衣着和头部动作不一致的问题，但存在嘴部合成结果不自然的现象，这是由于推理和训练过程中的音频信号的不一致造成的，且当嘴部表情变化明显时，会出现一定程度上的失真问题。

对此，本发明的核心发明点之一在于获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据，其中，训练视频具有对应的目标视频，目标视频为包含训练视频的人物对应的虚拟人物的视频，根据视频帧对应的第一图像参数，得到视频帧中人物的人脸轮廓，接着将人脸轮廓和音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧，其中，渲染视频帧包含预设视角的第二图像参数；进而获取目标视频的视频帧对应的第三图像参数，并计算视频帧对应的第三图像参数和视频帧对应的渲染视频帧对应的第二图像参数的误差数据，在根据误差数据确定可形变神经辐射场网络满足收敛条件时，得到训练完成的可形变神经辐射场网络，以根据训练完成的可形变神经辐射场网络将包含人物的视频合成为包含虚拟人物的视频。通过可形变神经辐射场网络对输入的包含人物的视频帧进行处理，进而合成虚拟人物，从而有效地提升了虚拟人物的表现力和说服力，同时，提升了虚拟人物的三维视觉表示的流畅性和真实性。

参照图3，示出了本发明实施例中提供的一种可形变神经辐射场网络的构建方法的步骤流程图，具体可以包括如下步骤：

步骤301、获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据；其中，所述训练视频具有对应的目标视频，所述目标视频为包含所述训练视频的人物对应的虚拟人物的视频；

对于训练视频，其可以为用于输入到可形变神经辐射场网络进行训练的视频，可以理解为训练数据，其中，训练视频可以为单目RGB（色彩模式）人脸说话视频或者自拍说话视频，其至少需要包括人物，可以理解的是，视频中除了人物的存在，还可以包含背景，如建筑等。其中，对于视频帧，亦可以理解为图像，一个视频帧通常对应一个图像，一段视频由多个视频帧组成。

对于第一图像参数，其可以包括相机参数、外形数据、表情数据和姿势数据；其中，对于相机参数，其可以为使用相机拍摄视频时的一种视角方向、拍摄光照或光线等；对于外形数据，其可以表示为任务的头部的形状，或者是头发，脸部的特征信息等；对于表情数据，其可以为人物的表情，如喜、怒、哀、乐等；对于姿势数据，其可以为任务的嘴部说话的动作，也可以为其他部位的姿势。需要说明的是，在本发明实施例中，为了方便理解，故列举的数据较为简单，即，对于第一图像参数所包含的数据，在实际的应用情况中，其可能远不止上述列举的数据，本领域技术人员可以根据实际情况对上述数据进行选取，本发明实施例对此不作限制。

其中，对于音频特征数据，其可以为视频中音频信号的特征信息，音频特征信息可以为梅尔倒谱系数（MeI-Freguency CeptraI Coefficients 简称MFCC）特征，对于梅尔倒谱系数特征，其为在语音识别（Speech Recognition）和话者识别（Speaker Recognition）方面，最常用到的语音特征。

对于目标视频，其可以为训练视频对应的目标视频，目标视频为包含训练视频的人物对应的虚拟人物的视频；其中，虚拟人物可以理解为数字发言人，数字发言人其可以为依托人工智能、深度学习等先进技术打造，数字人的五官、身体部位结合人体比例建模，拥有如同真人的***表情、肢体动作、语音语调、形象气质、情感表情，给人以热情、大方、自然的整体印象。

在一种示例中，参照图4，示出了本发明实施例中提供的一种可形变神经辐射场网络的构建方法的流程示意图，如图中所示，输入一段视频帧（Input Frames），即一段视频中包含多个视频帧，假设将输入的发言人视频中的帧率采样为25FPS（帧率），需要说明的是，此时需要确保视频帧对应的音频信号同步，其中，对于音频信号的同步可以采用对齐音频频率确保音频信号同步，从而可以通过采用面部表情细节捕捉和动画制作模块（DetailedExpression Capture and Animation，简称DECA）和面部关键点拟合模块（Landmarkfitting）来提取每一帧的相机参数、外形（Shape）数据、表情（Expression）数据、姿势（Pose）数据，同时，可以以100毫秒为时间窗口提取音频信号的梅尔倒谱系数特征。

在本发明实施例中，获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据，其中，训练视频具有对应的目标视频，目标视频为包含训练视频的人物对应的虚拟人物的视频。

步骤302、根据所述视频帧对应的所述第一图像参数，得到所述视频帧中所述人物的人脸轮廓；

其中，对于人脸轮廓，其可以理解为人物的脸型；人脸轮廓可以基于人脸模型（FLAME模型）得到，其中，人脸模型为一种常用的三维头部统计模型，能够基于给定的人脸数据集来拟合模型参数，并输出个性化的表情和姿势，对于人脸模型的具体训练过程，本发明实施例对此不作赘述。

在具体实现中，可以分别将训练视频中每一帧经过面部表情细节捕捉和动画制作模块和面部关键点拟合模块预处理得到的相机参数、外形数据、表情数据和姿势数据输入到人脸模型中进行拟合训练，得到人脸的轮廓，其中，人脸轮廓可以用于分离视频帧的前景和背景，可以理解的是，前景为包含人物的部分，背景为不包含人物的部分。

在本发明实施例中，在获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据之后，进而根据视频帧对应的第一图像参数，得到视频帧中人物的人脸轮廓。

步骤303、将所述人脸轮廓和所述音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧；其中，所述渲染视频帧包含预设视角的第二图像参数；

其中，对于可形变神经辐射场网络，其可以用于对视频数据进行训练和渲染从而得到包含虚拟人物的一种模型；对于渲染视频帧，其可以为根据可形变神经辐射场网络进行渲染得到的视频帧，也可以理解为渲染得到的新的图像；其中，渲染视频帧包含预设视角的第二图像参数，对于第二图像参数，其可以包括预设视角的视频帧的体密度和颜色，即渲染视频帧的对应的体密度和颜色，可以理解的是，通过可形变神经辐射场网络，可以渲染得到新的体密度和新颜色的视频帧或图像；其中，对于预设视角，其可以为通过渲染得到的新的视角，视角可以为视频帧对应的相机拍摄的视角方向。

在本发明实施例中，在获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据之后，进而根据视频帧对应的第一图像参数，得到视频帧中人物的人脸轮廓，进而将人脸轮廓和音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧，其中，渲染视频帧包含预设视角的第二图像参数。

步骤304、获取所述目标视频的视频帧对应的第三图像参数，并计算所述视频帧对应的所述第三图像参数和所述视频帧对应的所述渲染视频帧对应的第二图像参数的误差数据；

其中，对于目标视频，其可以为训练视频对应的目标视频，目标视频为包含训练视频的人物对应的虚拟人物的视频；对于第三图像参数，其为目标视频中各个视频帧对应的体密度和颜色，可以理解为原视频中每个视频帧对应的体密度和颜色，与第二图像参数不同的是，对于第二图像参数，其可以包括预设视角的视频帧的体密度和颜色，即渲染视频帧的对应的体密度和颜色。

对于误差数据，其可以为目标视频的视频帧对应的体密度和颜色与渲染视频帧对应的体密度和颜色之间的误差损失。

在具体实现中，获取到渲染视频帧的对应的体密度和颜色，进而获取目标视频的视频帧对应的体密度和颜色，并计算目标视频帧对应的体密度和颜色和渲染视频帧对应的体密度和颜色的误差数据。

步骤305、在根据所述误差数据确定所述可形变神经辐射场网络满足收敛条件时，得到训练完成的可形变神经辐射场网络。

其中，对于收敛条件，其为可形变神经辐射场网络中预设的收敛值，可根据实际情况进行调整。

在具体实现中，在获取到渲染视频帧的对应的体密度和颜色，进而获取目标视频的视频帧对应的体密度和颜色，并计算目标视频帧对应的体密度和颜色和渲染视频帧对应的体密度和颜色的误差数据之后，可以根据误差数据确定可形变神经辐射场网络的收敛条件，从而得到训练完成的可形变神经辐射场网络。在得到训练完成的可形变神经辐射场网络后，可以根据训练完成的可形变神经辐射场网络将包含人物的视频合成为包含虚拟人物的视频。

在一种可选实施例中，所述步骤302、根据所述视频帧对应的所述第一图像参数，得到所述视频帧中所述人物的人脸轮廓，包括：

将所述第一图像参数输入至预设人脸模型进行训练；

其中，对于第一图像参数，其可以包括相机参数、外形数据、表情数据和姿势数据；其中，对于相机参数，其可以为使用相机拍摄视频时的一种视角方向、拍摄光照或光线等；对于外形数据，其可以表示为任务的头部的形状，或者是头发，脸部的特征信息等；对于表情数据，其可以为人物的表情，如喜、怒、哀、乐等；对于姿势数据，其可以为任务的嘴部说话的动作，也可以为其他部位的姿势。需要说明的是，在本发明实施例中，为了方便理解，故列举的数据较为简单，即，对于第一图像参数所包含的数据，在实际的应用情况中，其可能远不止上述列举的数据，本领域技术人员可以根据实际情况对上述数据进行选取，本发明实施例对此不作限制。

在一种示例中，如图4中所示，输入一段视频帧，即一段视频中包含多个视频帧，其中，可以通过采用面部表情细节捕捉和动画制作模块和面部关键点拟合模块来提取每一帧的相机参数、外形数据、表情数据、姿势数据。

对于人脸轮廓，其可以理解为人物的脸型；人脸轮廓可以基于人脸模型得到，其中，人脸模型为一种常用的三维头部统计模型，能够基于给定的人脸数据集来拟合模型参数，并输出个性化的表情和姿势，对于人脸模型的具体训练过程，本发明实施例对此不作赘述。

可选地，人脸轮廓可以用于分离视频帧（可以理解为图像）的前景和背景，具体地，当入射光线与人脸轮廓相交时，将入射光线作为训练视频中视频帧对应的前景，当入射光线与人脸轮廓不相交时，将入射光线作为训练视频中视频帧对应的背景。

其中，对于入射光线，其可以为人为的使用相机拍摄时的相机中心发出的入射光线。

在发明实施例中，可以分别将训练视频中每一帧经过面部表情细节捕捉和动画制作模块和面部关键点拟合模块预处理得到的相机参数、外形数据、表情数据和姿势数据输入到人脸模型中进行拟合训练，得到人脸的轮廓，其中，人脸轮廓可以用于分离视频帧的前景和背景，可以理解的是，前景可以为包含人物的部分，背景可以为不包含人物的部分，具体地，当入射光线与人脸轮廓相交时，将入射光线作为训练视频中视频帧对应的前景，当入射光线与人脸轮廓不相交时，将入射光线作为训练视频中视频帧对应的背景。

在一种可选实施例中，所述步骤303、将所述人脸轮廓和所述音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧，包括：

其中，对于人脸轮廓，其可以理解为人物的脸型；对于音频特征数据，其可以为视频中音频信号的特征信息，音频特征信息可以为梅尔倒谱系数特征，对于梅尔倒谱系数特征，其为在语音识别和话者识别方面，最常用到的语音特征。

对于可形变神经辐射场网络，其可以用于对视频数据进行训练和渲染从而得到包含虚拟人物的一种模型；对于入射光线，其可以为人为的使用相机拍摄时的相机中心发出的入射光线；对于采样点位置，其可以为根据入射光线选取的位置，对于采样点位置，通常为人工根据经验选取的入射光线对应的采样点。

对于渲染视频帧，其可以为根据可形变神经辐射场网络进行渲染得到的视频帧，也可以理解为渲染得到的新的图像；其中，渲染视频帧包含预设视角的第二图像参数，对于第二图像参数，其可以包括预设视角的视频帧的体密度和颜色，即渲染视频帧的对应的体密度和颜色，可以理解的是，通过可形变神经辐射场网络，可以渲染得到新的体密度和新颜色的视频帧或图像；其中，对于预设视角，其可以为通过渲染得到的新的视角，视角可以为视频帧对应的相机拍摄的视角方向。

可选地，可以根据入射光线的采样点位置，确定采样点位置的坐标编码和视角方向，采样点位置的坐标编码，例如（x，y），对于x和y的取值，可以根据实际情况进行选取。

可选地，可形变神经辐射场网络包括隐式形变码和隐式外观码，具体地，隐式形变码和隐式外观码可以理解为在可形变神经辐射场网络中随机初始化的一种向量，其中，隐式形变码用于构建视频帧中人物的面部外观的表情变化，隐式外观码用于构建视频帧的不同光照和摄影后处理的变化。

具体地，可以通过获取视频帧对应的入射光线的采样点位置，确定采样点位置的坐标编码和视角方向，将采样点位置的坐标编码和视角方向，以及可形变神经辐射场网络中的隐式形变码和隐式外观码输入至可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧。

可选地，可形变神经辐射场网络包括辐射场网络和编码器网络，辐射场网络用于生成针对预设视角的视频帧的体密度，编码器网络用于生成针对预设视角的视频帧的颜色，由图4可知，可以将第一图像参数和隐式形变码输入至可形变神经辐射场网络的辐射场网络，得到预设视角的视频帧对应的体密度，将视角方向、隐式外观码和音频特征数据输入至可形变神经辐射场网络的编码器网络，得到预设视角的视频帧对应的颜色，最后，可以根据渲染出的渲染视频帧的体密度和颜色，得到训练视频相对应的渲染视频帧，即获取新的体密度和新的颜色的图像。

在一种可选实施例中，所述步骤304、获取所述目标视频的视频帧对应的第三图像参数，并计算所述视频帧对应的所述第三图像参数和所述视频帧对应的所述渲染视频帧对应的第二图像参数的误差数据，包括：

获取所述目标视频中视频帧对应的体密度和颜色；

其中，对于误差数据，其可以为目标视频的视频帧对应的体密度和颜色与渲染视频帧对应的体密度和颜色之间的误差损失；对于目标视频，其可以为训练视频对应的目标视频，目标视频为包含训练视频的人物对应的虚拟人物的视频；对于第三图像参数，其为目标视频中各个视频帧对应的体密度和颜色，可以理解为原视频中每个视频帧对应的体密度和颜色，与第二图像参数不同的是，对于第二图像参数，其可以包括预设视角的视频帧的体密度和颜色，即渲染视频帧的对应的体密度和颜色。

在本发明实施例中，根据获取到的目标视频中视频帧对应的体密度和颜色，进而根据渲染视频帧对应的体密度和颜色，计算目标视频中视频帧对应的体密度和颜色和渲染视频帧对应的体密度和颜色的误差数据。

在一种可选实施例中，所述根据所述训练完成的可形变神经辐射场网络，将包含人物的视频合成为包含虚拟人物的视频，包括：

其中，对于优化目标，其可以为上述步骤得到的误差数据，即目标视频的视频帧对应的体密度和颜色与渲染视频帧对应的体密度和颜色之间的误差损失；对于虚拟人物，其可以理解为数字发言人，数字发言人其可以为依托人工智能、深度学习等先进技术打造，数字人的五官、身体部位结合人体比例建模，拥有如同真人的***表情、肢体动作、语音语调、形象气质、情感表情，给人以热情、大方、自然的整体印象。

在具体实现中中，通过将误差数据作为可形变神经辐射场网络的优化目标，进而对优化目标进行优化，并将包含人物的视频合成为包含虚拟人物的视频，可解决虚拟人物的面部表情如眼部和嘴部不自然的问题，提供更多丰富的几何细节信息如皱纹，解决了虚拟人物的头发渲染问题，并扩展其适用于实际动态变化场景中，应用范围更加广泛，有效地提升了虚拟人物的表现力和说服力，同时，提升了虚拟人物的三维视觉表示的流畅性和真实性。

为了使本领域技术人员更好地理解本发明实施例的技术方案，下面通过具体示例进行示例性说明。

在一种示例中，在可形变神经辐射场网络（Deformable Neural Radiance Field简称Deformable NeRF）训练时，假设相机发射的入射光线采样第i帧图像，然后可以将入射光线上的采样点位置对应的坐标编码和视角方向，以及隐式形变码（Latent deformationcode）、隐式外观码（Latent appearance code）和音频特征，一起输入到可形变的神经辐射场网络中，渲染得到新的相机视角的体密度（Density）和颜色（RGB color）。具体地，假设一个的3D坐标点x，和视角方向d，经过位置编码函数后，输入到标准的可形变神经辐射场网络函数 F中，可输出得到颜色c和体密度，即：

对于从相机中心o沿入射方向d发出的射线，RGB颜色可由体素渲染方程算得，表示如下：

其中，和分别表示入射光线的远点和近点，是射线从到 t的累计透射率，通常采用层次采样方法来近似计算该积分，最后分别算出每个批次中训练样本图片（视频帧）中每条光线的颜色，并结合真实图片（初始输入的视频对应的视频帧或图像）像素的颜色，进行误差最小化优化训练，表示如下：

其中 p表示一个批次图片中所有像素的索引变量，是神经辐射场函数的参数，是真实图片的像素颜色值。但是这种标准的神经辐射场NeRF只能建模静态场景，因此不适用于人体头部的建模，这是因为人类在言语表达时面部有丰富的表情和多样化的姿势动作。

为了更好地建模这种动态变化的面部几何细节信息，我们采用了一种形变神经辐射场结构，对于视频中第i帧图像的3D点x，通过形变函数映射到标准空间中，即，具体地，定义为，其中是每一帧的隐式形变码。此外，考虑到实际场景中可能出现的光照变化，我们额外采用了隐式外观编码。最后，为建模音频信号和面部表情的关系，我们将经过音频编码器输出的同步音频信号的特征编码也输入到形变神经辐射场中。因此，第i帧的最终的形变神经辐射场可表示如下：

最后，通过常用的随机梯度下降法来优化这些隐编码和网络参数，在训练完毕后，可通过渲染公式生成获得生动形象的数字发言人，即生成虚拟人物。

值得一提的是，对于上述所提供的一种可形变神经辐射场网络的构建方法，可以合成更具备真实感和表现力的虚拟人物，在实际的应用场景中，本领域技术人员还可以根据实际应用情况将其应用于商业主播、形象代言等领域，本发明实施例对此不作限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明实施例中提供的一种可形变神经辐射场网络的构建装置的结构框图，具体可以包括如下模块：

数据获取模块501，用于获取包含人物的训练视频中视频帧对应的第一图像参数和音频特征数据；其中，所述训练视频具有对应的目标视频，所述目标视频为包含所述训练视频的人物对应的虚拟人物的视频；

人脸轮廓获取模块502，用于根据所述视频帧对应的所述第一图像参数，得到所述视频帧中所述人物的人脸轮廓；

渲染视频帧获取模块503，用于将所述人脸轮廓和所述音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧；其中，所述渲染视频帧包含预设视角的第二图像参数；

误差数据计算模块504，用于获取所述目标视频的视频帧对应的第三图像参数，并计算所述视频帧对应的所述第三图像参数和所述视频帧对应的所述渲染视频帧对应的第二图像参数的误差数据；

可形变神经辐射场网络构建模块505，用于在根据所述误差数据确定所述可形变神经辐射场网络满足收敛条件时，得到训练完成的可形变神经辐射场网络。

在一种可选实施例中，所述人脸轮廓获取模块具体502用于：

将所述第一图像参数输入至预设人脸模型进行训练；

在一种可选实施例中，所述渲染视频帧获取模块503具体用于：

在一种可选实施例中，所述装置还包括：

在一种可选实施例中，所述误差数据计算模块504具体用于：

获取所述目标视频中视频帧对应的体密度和颜色；

在一种可选实施例中，所述装置还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

另外，本发明实施例还提供了一种电子设备，包括：处理器，存储器，存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述可形变神经辐射场网络的构建方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601上存储有计算机程序，计算机程序被处理器执行时实现上述可形变神经辐射场网络的构建方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质601，如只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等。

图7为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是，本发明实施例中，射频单元701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器710处理；另外，将上行的数据发送给基站。通常，射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元701还可以通过无线通信***与网络和其他设备通信。

电子设备通过网络模块702为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元703还可以提供与电子设备700执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。

输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器（GraphicsProcessing Unit，GPU）7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置（如摄像头）获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709（或其它存储介质）中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。

电子设备700还包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度，接近传感器可在电子设备700移动到耳边时，关闭显示面板7061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061，可以采用液晶显示器（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode, OLED）等形式来配置显示面板7061。

用户输入单元707可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作）。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器710，接收处理器710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071，用户输入单元707还可以包括其他输入设备7072。具体地，其他输入设备7072可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板7071可覆盖在显示面板7061上，当触控面板7071检测到在其上或附近的触摸操作后，传送给处理器710以确定触摸事件的类型，随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中，触控面板7071与显示面板7061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元708为外部装置与电子设备700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设备700和外部装置之间传输数据。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器710是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器709内的软件程序和/或模块，以及调用存储在存储器709内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元；优选的，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

电子设备700还可以包括给各个部件供电的电源711（比如电池），优选的，电源711可以通过电源管理***与处理器710逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

另外，电子设备700包括一些未示出的功能模块，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种可形变神经辐射场网络的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述视频帧对应的所述第一图像参数，得到所述视频帧中所述人物的人脸轮廓，包括：

将所述第一图像参数输入至预设人脸模型进行训练；

3.根据权利要求1所述的方法，其特征在于，所述第一图像参数至少包括相机参数、外形数据、表情数据和姿势数据。

4.根据权利要求1所述的方法，其特征在于，所述将所述人脸轮廓和所述音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧，包括：

5.根据权利要求1所述的方法，其特征在于，所述人脸轮廓用于区分所述训练视频中视频帧对应的前景和背景。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述可形变神经辐射场网络包括隐式形变码和隐式外观码；其中，所述隐式形变码用于构建所述视频帧中人物的面部外观的表情变化，所述隐式外观码用于构建所述视频帧的不同光照和摄影后处理的变化。

9.根据权利要求8所述的方法，其特征在于，所述将所述人脸轮廓和所述音频特征数据输入到可形变神经辐射场网络中，得到包含虚拟人物的渲染视频帧，包括：

10.根据权利要求1所述的方法，其特征在于，所述可形变神经辐射场网络包括辐射场网络和编码器网络。

11.根据权利要求10所述的方法，其特征在于，所述辐射场网络用于生成针对预设视角的所述视频帧的体密度，所述编码器网络用于生成针对预设视角的所述视频帧的颜色。

12.根据权利要求1所述的方法，其特征在于，所述第二图像参数至少包括体密度和颜色。

13.根据权利要求8-12任一项所述的方法，其特征在于，所述方法还包括：

将所述视频帧对应的第一图像参数和所述可形变神经辐射场网络的隐式形变码输入至所述可形变神经辐射场网络的辐射场网络，得到预设视角的所述视频帧对应的体密度。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

15.根据权利要求12所述的方法，其特征在于，所述方法还包括：

16.根据权利要求15所述的方法，其特征在于，所述获取所述目标视频的视频帧对应的第三图像参数，并计算所述视频帧对应的所述第三图像参数和所述视频帧对应的所述渲染视频帧对应的第二图像参数的误差数据，包括：

获取所述目标视频中视频帧对应的体密度和颜色；

17.根据权利要求1所述的方法，其特征在于，在所述在根据所述误差数据确定所述可形变神经辐射场网络满足收敛条件时，得到训练完成的可形变神经辐射场网络之后，所述方法还包括：

18.根据权利要求17所述的方法，其特征在于，所述根据所述训练完成的可形变神经辐射场网络，将包含人物的视频合成为包含虚拟人物的视频，包括：

19.一种可形变神经辐射场网络的构建装置，其特征在于，包括：

20.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如权利要求1-18任一项所述的方法。

21.一种计算机可读存储介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-18任一项所述的方法。