CN117558047A

CN117558047A - 模型训练方法、视频生成方法、装置、设备以及存储介质

Info

Publication number: CN117558047A
Application number: CN202311503023.XA
Authority: CN
Inventors: 朱昊; 刁政宇; 李小雨; 张琦; 嵇歆雅; 陆元勋; 何倩芸; 曹汛
Original assignee: Nanjing University; Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Nanjing University; Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-13

Abstract

本申请提供了一种模型训练方法、视频生成方法、装置、设备以及存储介质，该方法包括：采集说话人脸视频数据集和音频数据集，说话人脸视频数据集包括多个人的说话人脸视频数据，每个人的说话人脸视频数据包括每个人在多视角下的多帧说话人脸图像，音频数据集包括多个人的音频数据；对每个人的说话人脸图像进行特征提取得到每个人的说话人脸图像对应的目标身份特征向量，以及对每个人的音频数据进行特征提取得到每个人的音频数据对应的目标音频特征向量；利用每个人的说话人脸图像对应的目标身份特征向量和每个人的音频数据对应的目标音频特征向量，对神经辐射场模型和超分网络进行联合训练，其中，神经辐射场模型的输出作为超分网络的输入。

Description

模型训练方法、视频生成方法、装置、设备以及存储介质

技术领域

本申请涉及人脸图像处理技术领域，并且更具体地，涉及一种模型训练方法、视频生成方法、装置、设备以及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用***。基于人工智能的说话人脸视频在例如远程视频会议、虚拟主播、数字人等应用中需求十分广泛。因此，如何构建高质量的说话人脸视频是一项亟需解决的问题。

发明内容

本申请提供了一种模型训练方法、视频生成方法、装置、设备以及存储介质，能够构建高质量的说话人脸视频。

第一方面，提供了一种模型训练方法，包括：

采集说话人脸视频数据集和音频数据集，其中，所述说话人脸视频数据集包括多个人的说话人脸视频数据，其中，每个人的说话人脸视频数据包括所述每个人在多视角下的多帧说话人脸图像，所述音频数据集包括所述多个人的音频数据，其中，所述多个人的音频数据与所述多个人的说话人脸视频数据同步；

对所述说话人脸视频数据集中的每个人的说话人脸图像进行特征提取，得到所述每个人的说话人脸图像对应的目标身份特征向量，以及，对所述音频数据集中的每个人的音频数据进行特征提取，得到所述每个人的音频数据对应的目标音频特征向量；

利用所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的目标音频特征向量，对神经辐射场模型和超分网络进行联合训练，其中，所述神经辐射场模型的输出作为所述超分网络的输入。

第二方面，提供了一种视频生成方法，包括：

获取目标说话人的人脸图像以及音频数据；

对所述音频数据进行特征提取，得到所述目标说话人的目标音频特征向量，以及，对所述人脸图像进行特征提取，得到所述目标说话人的目标身份特征向量；

将所述目标说话人的目标身份特征向量和所述目标说话人的目标音频特征向量输入至训练好的神经辐射场模型和超分网络中，得到目标说话人的说话人脸视频，其中，所述神经辐射场模型的输出为所述超分网络的输入。。

第三方面，提供了一种模型训练装置，包括：

采集单元，用于采集说话人脸视频数据集和音频数据集，其中，所述说话人脸视频数据集包括多个人的说话人脸视频数据，其中，每个人的说话人脸视频数据包括所述每个人在多视角下的多帧说话人脸图像，所述音频数据集包括所述多个人的音频数据，其中，所述多个人的音频数据与所述多个人的说话人脸视频数据同步；

特征提取单元，用于对所述说话人脸视频数据集中的每个人的说话人脸图像进行特征提取，得到所述每个人的说话人脸图像对应的目标身份特征向量，以及，对所述音频数据集中的每个人的音频数据进行特征提取，得到所述每个人的音频数据对应的目标音频特征向量；

训练单元，用于利用所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的目标音频特征向量，对神经辐射场模型和超分网络进行联合训练，其中，所述神经辐射场模型的输出作为所述超分网络的输入。

第四方面，提供了一种视频生成装置，包括：

获取单元，用于获取目标说话人的人脸图像以及音频数据；

特征提取单元，用于对所述音频数据进行特征提取，得到所述目标说话人的目标音频特征向量，以及，对所述人脸图像进行特征提取，得到所述目标说话人的目标身份特征向量；

视频生成单元，用于将所述目标说话人的目标身份特征向量和所述目标说话人的目标音频特征向量输入至训练好的神经辐射场模型和超分网络中，得到目标说话人的说话人脸视频，其中，所述神经辐射场模型的输出为所述超分网络的输入

第五方面，提供了一种模型训练装置，包括：存储器和处理器，该存储器用于存储计算机程序；该处理器用于调用并运行所述存储器中存储的计算机程序，执行如上述第一方面中的方法。

第六方面，提供了一种视频生成装置，包括：存储器和处理器，该存储器用于存储计算机程序；该处理器用于调用并运行所述存储器中存储的计算机程序，执行如上述第一方面中的方法。

第七方面，提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述第一方面至第二方面中的方法。

第八方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面至第二方面中的方法。

第九方面，提供了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面至第二方面中的方法。

因此，在本申请实施例中，可以利用多人多视点说话人脸视频数据集和音频数据集作为模型训练的数据集，一方面能够提升合成的人物身份的泛化性，另一方面能够生成宽视角的说话人脸图像。并且，通过对说话人脸图像提取身份特征向量，对音频数据提取音频特征向量，然后通过神经辐射场模型和超分网络基于身份特征向量和语音特征向量生成说话人脸视频，能够实现参数可控的高质量说话人脸视频的构建。

附图说明

图1是本申请实施例提供的一种计算机***的示意性结构图。

图2是本申请实施例提供的一种模型训练方法的示意性流程图。

图3是本申请实施例提供的一种采集多视角的说话人脸图像的示意性图。

图4是根据本申请实施例提供的说话人脸图像采集方法采集的说话人脸图像的示意性图。

图5是本申请实施例提供的模型训练方法的整体流程图。

图6是根据本申请实施例的模型训练方法训练得到的模型所生成的说话人脸图像的示意性图。

图7是本申请实施例提供的一种视频生成方法的示意性流程图。

图8是本申请实施例提供的一种模型训练装置的示意性框图。

图9是本申请实施例提供的一种视频生成装置的示意性框图。

图10是本申请实施例提供的一种模型训练装置的示意性框图。

图11是本申请实施例提供的一种视频生成装置的示意性框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请相关的术语进行说明。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等技术。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革，WavLM,UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性，可以优秀完成各方向的语音处理任务。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学。是一门融语言学、计算机科学、数学。于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

需要说明的是，本申请所涉及的数据(例如人脸视频数据、音频数据等)包括但不限于用于处理的数据、存储的数据、展示的数据等，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请实施例中涉及到的人脸识别模型、语音识别模型、双线性模型、神经辐射场模型、超分网络模型等都是在充分授权的情况下获取的。

图1是本申请实施例提供的一种计算机***的示意性结构图。如图1所示，该计算机***100包括终端110和服务器120。其中，终端110通过无线网络或有线网络与服务器120相连。

在一些实施例中，终端110是移动性终端或非移动性终端，作为示例，该终端110可以包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机中的至少一种。

在一些实施例中，服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群哦分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一些实施例中，终端110上安装视频生成相关的客户端。该客户端可以是小程序，也可以是应用程序(APP)，也可以是网页客户端等。该客户端用于获取用户输入信息，并将用户输入信息发送给服务器120。在一些情况中，用户输入信息可以是说话人脸视频数据集和音频数据集，用于实现视频生成***的训练过程，或者，也可以是目标说话人的人脸图像和音频数据，用于实现视频生成***的使用过程。可选地，视频生成***的训练过程和使用过程可以通过一个客户端实现，也可以通过多个客户端分别实现。

在一些实施例中，服务器120可以是视频生成***的运行方和视频生成服务的提供方。

在一些实施例中，服务器120可以接收客户端发送的说话人脸视频数据集和音频数据集，并根据该说话人脸视频数据集和音频数据集对视频生成***进行训练，并将训练好的视频生成***存储在服务器120上。可选地，服务器130也可以将视频生成***发送给终端110。

在一些实施例中，服务器120可以接收客户端发送的目标说话人的人脸图像和音频数据，然后将目标说话人的人脸图像和音频数据输入至视频生成***，生成目标说话人的说话人脸视频，并将该说话人脸视频发送给客户端。

可选地，在视频生成***的训练过程和使用过程中，服务器120承担进行主要计算工作，终端110承担次要计算工作；或者，服务器120承担次要计算工作，终端110承担主要计算工作；或者，服务器130和终端110之间采用分布式计算架构进行协同计算，本申请对此不作具体限定。

结合图2，对本申请实施例提供的模型训练方法进行说明。可选地，该模型训练方法可以由终端执行，或者，由服务器执行，或者，由终端和服务器联合执行。以下，从模型训练装置的角度描述该模型训练方法200。如图2所示，该方法200可以包括如下步骤：

S210，采集说话人脸视频数据集和音频数据集。

在一些实施例中，说话人脸视频数据集包括多个人的说话人脸视频数据，其中，每个人的说话人脸视频数据包括每个人在多视角下的多帧说话人脸图像，音频数据集包括多个人的音频数据，其中，该多个人的音频数据与该多个人的说话人脸视频数据同步。

也即，在本申请实施例中，可以采集多人多视角的说话人脸视频数据，进一步基于该说话人脸视频数据进行模型训练，一方面能够提升说话人身份的泛化性，另一方面能够实现宽视角的说话人脸的渲染。

在本申请一些实施例中，所述采集说话人脸视频数据集，包括：

采集M个人的K个视角的说话人脸视频数据，该M为大于1的正整数，K大于等于3。即，可以采集多人的至少三个视角的说话人脸视频数据。

在一些实施例中，该K个视角可以是以说话人为球形***的球心的水平圆周正负90度内的K个视角。例如，在水平圆周正负90度内均匀设置K个相机，同步采集该说话人的说话人脸图像。可选地，K可以是3、5、7、9等，本申请对此不做限定。

可选地，K＝3，该3个视角可以包括正面视角、左30度视角和右30度视角。

可选地，K＝5，该5个视角可以包括正面视角、左30度视角、左60度视角、右30度视角和右60度视角。

可选地，K＝7，该7个视角可以包括正面视角、左30度视角、左60度视角、左90度视角、右30度视角、右60度视角和右90度视角。

可选地，K＝9，该9个视角可以包括正面视角、左22.5度视角、左45度视角、左67.5度视角、左90度视角、右22.5度视角、右45度视角、右67.5度和右90度视角。

在一个具体实施例中，如图3所示，可以在以说话人为球形***的球心的水平圆周正负90度内均匀设置9台相机，同步采集一个人的9个视角的说话人脸视频。

应理解，本申请对于采集说话人脸视频数据的帧率、分辨率等参数不做具体限定，具体参数可以根据实际需要灵活调整。例如，该说话人脸视频数据的采集帧率可以是30帧每秒，分辨率规则可以是3696×2772。

应理解，本申请对于该M个人的数量不做限定，例如，为了提升说话人身份的泛化性，可以采集来自不同地域的不同性别、年龄、语言等差异的说话人的说话人脸视频数据。

图4示出了基于本申请实施例的说话人脸视频数据的采集方法采集的说话人脸图像。从图4中可以看出，基于本申请实施例的说话人脸视频数据的采集方法可以采集多人多个视角下的多帧说话人脸图像，对于同一个人，同一个采样时刻来说，可以采集多帧说话人脸图像，分别对应不同的视角。

在一些实施例中，该音频数据集可以包括多种语言的音频数据。例如中文音频数据和英文音频数据。

在本申请一些实施例中，所述采集音频数据集，包括：

采集多个人基于预设中文音频文本和预设英文音频文本的音频数据。

例如，采集该多个人在说预设中文音频文本时的音频数据，采集该多个说话人在说该预设英文文本时的音频数据，其中，预设中文音频文本涵盖较多的中文语素，该预设英文文本涵盖较多的英文语素，因此，基于预设中文音频文本和预设英文音频文本进行说话人的音频数据的采集，然后基于该音频数据进行训练，有利于涵盖更多音素，提升模拟的说话人语音的真实性。

作为示例而非限定，该预设中文音频文本来自AISHELL-3数据集。例如，可以在AISHELL-3数据集选择一定数量(例如100)个句子作为预设中文音频文本。该AISHELL-3数据集的音频数据覆盖了性别、年龄、地域、多领域语料等多项因素，将说话人在说该AISHELL-3数据集中的句子时采集的音频数据作为说话人视频生成***的训练数据，有助于提高生成的说话人的中文语音的准确性和鲁棒性。

作为示例而非限定，预设英文音频文本来自TIMIT数据集。例如，可以在TIMIT数据集选择一定数量(例如100)个句子作为预设英文音频文本。TIMIT数据集是一个重要的语音识别数据集，被广泛应用于语音识别和自然语言处理领域的研究。在训练视频生成***时，使用说话人在说该TIMIT数据集中的句子时采集的音频数据作为说话人视频生成***的训练数据，有助于提高生成的说话人的英文语音的准确性和鲁棒性。

在本申请一些实施例中，所述方法200还包括：

获取采集说话人脸视频数据集所采用的相机参数，该相机参数或称原始相机参数。

在一些实施例中，相机参数可以包括相机的内参和外参，其中，相机的外参可以包括相机的姿态参数，例如，相机的姿态参数包括旋转矩阵R和平移向量t。

例如，采用张正友标定法获取采集说话人脸视频数据集所采用的相机参数。

其中，张正友标定法是一种相机标定方法，是基于针孔相机模型设计的。张正友标定法需要使用棋盘格标定板，并在得到一张标定板的图像后，通过相应的图像检测算法得到每一个角点的像素坐标(u,v)。然后，张正友标定法将世界坐标系固定于棋盘格上，根据标定板上每一个格子的大小是已知的，可以计算得到每一个角点在世界坐标系下的物理坐标(X,Y,Z＝0)。利用这些信息，即每一个角点的像素坐标(u,v＝0)和每一个角点在世界坐标系下的物理坐标(X,Y,Z＝0)，来进行相机的标定，从而获得相机参数。

S220，对说话人脸视频数据集中的每个人的说话人脸图像进行特征提取，得到每个人的说话人脸图像对应的目标身份特征向量，以及，对音频数据集中的每个人的音频数据进行特征提取，得到每个人的音频数据对应的目标音频特征向量。

S230，利用每个人的说话人脸图像对应的目标身份特征向量和每个人的音频数据对应的目标音频特征向量，对神经辐射场模型和超分网络进行联合训练，其中，神经辐射场模型的输出作为超分网络的输入。

在本申请实施例中，目标身份特征向量用于控制生成的人物的外貌，目标音频特征向量用于驱动人物的表情。

在本申请一些实施例中，S220可以包括：

利用预训练好的人脸识别模型对说话人脸视频数据集中的每个人的说话人脸图像进行特征提取，得到每个人的说话人脸图像对应的身份特征向量；以及，利用预训练好的语音识别模型对音频数据集中的每个人的音频数据进行特征提取，得到每个人的音频数据对应的音频特征向量；

利用多层感知机(记为第一多层感知机，或称身份特征映射网络)对每个人的说话人脸图像对应的身份特征向量进行特征映射，得到每个人的说话人脸图像对应的目标身份特征向量，以及，利用多层感知机(记为第二多层感知机，或称音频特征映射网络)对每个人的音频数据对应的音频特征向量进行特征映射，得到每个人的音频数据对应的目标音频特征向量。

在本申请实施例中，身份特征映射网络和音频特征映射网络与神经辐射场模型是采用端到端方式训练得到的。

在一些实施例中，人脸识别模型可以采用ArcFace模型，或者，也可以采用其他人脸识别模型，本申请对此不做限定。其中，ArcFace模型的工作原理是通过对权重和特征进行归一化，并最大化角度空间的决策边界，从而实现人脸识别。

在一些实施例中，语音识别模型可以采用Wav2Vec 2.0模型，或者，也可以采用其他语音识别模型，本申请对此不做限定。其中，该Wav2Vec 2.0模型是一种预训练模型，用于语音识别任务，尤其是自动语音识别(Automatic Speech Recognition，ASR)任务。该Wav2Vec 2.0模型的核心思想是通过向量量化(Vector Quantization，VQ)构造自建监督训练目标，对输入做大量掩码后利用对比学习损失函数进行训练。在具体实现上，Wav2Vec2.0模型首先使用基于卷积神经网络(Convoluational Neural Network，CNN)的特征提取器将原始音频编码为帧特征序列。然后通过VQ模块把每帧特征转变为离散特征Q，并作为自监督目标。同时，帧特征序列做掩码操作后进入Transformer模型得到上下文表示C。最后通过对比学习损失函数，拉近掩码位置的上下文表示与对应的离散特征q的距离，即正样本对。

在本申请一些实施例中，为了提升身份数据的鲁棒性，所述方法200还包括：

利用预选好的人脸识别模型，提取同一个人在多个时刻多个视点下的多个身份特征向量；

将多个身份特征向量作为身份特征映射网络的输入，对身份特征映射网络进行训练。

例如，对于同一个人，可以提取任意时刻任意视角下的多个身份特征向量(例如1000个身份特征向量)，在对身份特征映射网络进行训练迭代的过程中随机输入，提升身份数据的鲁棒性。

在本申请一些实施例中，所述对音频数据集中的每个人的音频数据进行特征提取，得到每个人的音频数据对应的音频特征向量，包括：

根据说话人脸视频数据集中的同一个人的多帧说话人脸图像的采集帧率，对音频数据集中的与话人脸图像同步的音频数据进行分段，得到多个语音分段，其中，一个语音分段和一组说话人脸图像对齐；

对多个语音分段进行特征提取，得到每个语音分段对应的目标音频特征向量。

例如，先利用预训练好的语音识别模型对该多个语音分段进行特征提取，得到每个语音分段对应的音频特征向量，然后利用音频特征映射网络对该每个语音分段对应的音频特征向量进行映射，得到该每个语音分段对应的目标音频特征向量。

在本申请一些实施例中，利用每个人的说话人脸图像对应的目标身份特征向量和每个人的音频数据对应的目标音频特征向量，对神经辐射场模型进行训练，可以包括：

将与当前帧说话人脸图像对齐的语音分段相邻的多个语音分段对应的音频特征向量，作为当前帧说话人脸图像对应的音频特征向量；

将所述说话人脸视频数据集中的每帧说话人脸图像对应的目标身份特征向量和每帧说话人脸图像对应的目标音频特征向量作为一组训练数据，对神经辐射场模型进行训练。

即，在本申请实施例中，可以使用相邻的多个语音分段表示一帧说话人脸图像的音频特征，这样在模型训练时，可以利用连续音频中的相邻时序信息，有利于提升模拟的说话人音频的连贯性和流畅性。

举例说明，若说话人脸图像的采集帧率是30帧每秒，采用9个相机同步采集9个视角下的说话人脸图像，则一个采样时刻可以采集9帧说话人脸图像，将同一个采样时刻采集的说话人脸图像作为一组，则一秒可以采集30组说话人脸图像，每组说话人脸图像包括9帧说话人脸图像，对应9个视角。若一个人的说话人脸视频数据包括90组说话人脸图像，对应90个采样时刻，与该说话人脸视频数据同步的音频数据为3秒的语音信息，则可以将该3秒的语音信息划分为90个语音分段，按照时序一个语音分段对应一个采样时刻下的一组说话人脸图像。在本申请实施例中，为了利用连续音频中的时序相邻信息，可以使用一帧说话人脸图像相邻的X个语音分段表示该说话人脸图像的音频特征，其中，X为大于1的正整数。可选地，X可以是6、8、11、12、13等。可选地，相邻的X个语音分段可以包括：与说话人脸图像对齐的语音分段之前的Y个语音分段、对齐的语音分段以及对齐的语音分段之后的Z个语音分段，其中，Y+1+Z＝X，可选地，Y可以等于0，Z也可以等于0。

以下，对身份特征映射网络、音频特征映射网络和神经辐射场模型的相关实现进行说明。

多层感知机(Multilayer Perceptron)也叫人工神经网络(Artificial NeuralNetwork，ANN)，是一种基于神经网络的机器学习模型，通过多个神经元层实现对输入数据的复杂非线性映射，从而实现对数据的分类、回归等任务。多层感知机的基本结构包括输入层、隐藏层和输出层。多层感知机的层与层之间是全连接的，即，上一次的每个神经元和下一层的所有神经元都有连接。多层感知机的最底层是输入层，中间层是隐藏层，最后是输出层。

多层感知机的输入层用于接收原始数据，隐藏层通过一系列非线性变换将输入数据映射到高维空间中，输出层根据隐藏层的输入进行分类或回归等任务。在多层感知机中，每个神经元对应一个权重和一个偏置项，分别用于调整输入数据的权值和偏置，从而实现对数据的非线性变换，隐藏层和输出层的神经元通常采用激活函数来实现非线性变换。常见的激活函数包括sigmoid、正切双曲线(tanh)、校正非线性(ReLU)等。

在本申请一些实施例中，身份特征映射网络和音频特征映射网络所使用的感知机的层数可以根据模型的性能要求、计算复杂度等因素综合决定，例如可以选择两个4层感知机分别作为音频特征映射网络和身份特征映射网络，或者，也可以选择其他层数的感知机作为音频特征映射网络和身份特征映射网络，本申请对此不做限定。

在一些实施例中，神经辐射场模型是一种面向三维隐式空间建模的深度学习模型，它也可以被看作是一种全连接神经网络(又称多层感知机)。

神经辐射场模型的主要任务是预测新视角下的图像，神经辐射场模型的输入通常是一组二维图像以及相应的相机参数。以这些信息为输入，输出一个表示三维场景中每个点的颜色和不透明度(或者说，密度，体密度)的函数。更具体地说，对于每一个从相机射出的光线，神经辐射场模型会计算这个光线在通过空间时，所经过的每一个点的色彩以及这些点的不透明度。然后，基于获得的空间点的色彩和不透明度信息，进行体素渲染(VolumeRendering)以得到预测的图像。与传统的三维重建方法相比，神经辐射场模型具有以下优势：能够从单个或少数几个视角中预测每个像素点的颜色值和不透明度值；能够使用学习到的神经辐射场函数预测任意视角的图像；能够轻松地渲染出高质量的图像。因此，神经辐射场模型在增强现实等领域中具有巨大的潜力。

在一些实施例中，神经辐射场模型用于输出预测的目标视角下的说话人脸图像信息。其中，说话人脸图像信息包括高维特征向量、颜色信息和不透明度信息，其中，所述高维特征向量、所述颜色信息和所述不透明度信息用于生成低分辨率彩色图像和高维特征图像。例如，基于颜色信息和不透明度信息进行体渲染，得到低分辨率彩色图像，基于不透明度信息和高维特征向量进行体渲染，得到高维特征图像，例如通过体渲染方式渲染出64×64的低分辨率彩色图像和64×64×256的高维特征图像。在进行模型训时，可以将低分辨率彩色图像和采集的说话人脸图像(即彩色图像的真值)之间的均方误差作为神经辐射场模型的损失函数。

在本申请实施例中，可以训练神经辐射场模型预测参考人脸模型视角下的说话人脸图像。例如，可以将采集说话人脸图像的视角转换为参考人脸模型的视角，该参考人脸模型是一种拓扑一致的脸部网格模型，基于该参考人脸模型视角进行说话人脸图像的预测，有利于消除说话人脸无意识的头部运动带来的预测误差。

作为示例而非限定，该参考人脸模型可以是FaceScape中的脸部网格模型。

在本申请一些实施例中，所述方法200还包括：

获取采集说话人脸视频数据集所使用的原始三维采样点以及原始视角；

例如，根据采集说话人脸视频数据集所使用的相机参数确定采集该说话人脸视频数据集所使用的原始三维采样点和原始视角。

进一步地，将原始三维采样点转换为参考人脸模型下的目标三维采样点，以及，将所述原始视角转换为所述参考人脸模型下的目标视角。

例如，首先确定参考人脸模型下的目标相机参数，然后根据该目标相机参数将原始三维采样点转换为参考人脸模型下的目标三维采样点，以及，将所述原始视角转换为所述参考人脸模型下的目标视角。

在本申请一些实施例中，所述方法200还包括：

获取采集所述说话人脸视频数据集所使用的相机参数；

根据该相机参数，确定将说话人脸数据集中的说话人脸图像映射为参考人脸模型所使用的变换参数，所述变换参数包括缩放长度、旋转矩阵和平移向量中的至少之一；

根据变换参数对相机参数进行补偿，得到参考人脸模型下的目标相机参数。

在一些实施例中，所述根据该相机参数，确定将说话人脸数据集中的说话人脸图像映射为参考人脸模型所使用的变换参数，包括：

基于采集的多个人中的第i个人的说话人脸图像，获取第i个人的至少三个视角的二维关键点，例如i＝1,2,…,M，M是该多个人的总人数；

根据第i个人的至少三个视角的二维关键点，估计第i个人的说话人脸图像的三维关键点；

将双线性模型拟合到三维关键点上，得到参考人脸模型以及采集的说话人脸图像相对于参考人脸模型的变换参数。

在一个具体实施例中，可以根据同一个人的多帧说话人脸图像，获取同一个人的至少三个视角(例如正面视角以及相邻两侧各30度)的说话人脸图像的二维关键点，记为[l₁,l₂,…,l_M]∈R^M×2，进一步根据该二维关键点，估计三维关键点，例如通过优化如下能力函数估算三维关键点，记为[L₁,L₂,…,L_M]∈R^M×3。

可选地，该能量函数可以为：

其中，L_j和l_j分别表示说话人脸图像上的第j个三维关键点和二维关键点，Π_i是第i个说话人脸图像下的相机参数。

进一步地，将双线性模型拟合到三维关键点上，从而得到拓扑一致的脸部网格模型。其中，该双线性模型可以建模为V＝B(id,exp)，其中，id和exp分别是双线性模型的身份系数和表情系数，V是脸部网格模型，B表示从身份系数和表情系数到脸部网格模型的线性映射关系。

在一些实施例中，该双线性模型拟合过程中所优化的能量函数E可以表示为：

其中，变换参数包括s_h,R_h,t_h，分别是缩放尺度、旋转矩阵和平移向量。K_j(*)表示估计的三维关键点。估计出的R_h,t_h可以用于补偿原始相机参数R_raw,t_raw，确定目标相机参数。例如可以根据如下公式计算目标相机参数R和t。

t＝t_raw+R_raw·t_h

R＝R_raw·R_h

进一步地，可以根据该目标相机参数将原始三维采样点转换为参考人脸模型下的目标三维采样点，以及，将所述原始视角转换为所述参考人脸模型下的目标视角。

或者，也可以基于变换参数将原始三维采样点转换为参考人脸模型下的目标三维采样点，将所述原始视角转换为所述参考人脸模型下的目标视角。

在本申请一些实施例中，所述S230可以包括：

以目标三维采样点、目标视角、每个人的说话人脸图像对应的目标身份特征向量和每个人的音频数据对应的目标音频特征向量作为输入，对神经辐射场模型进行训练，输出在目标视角下目标三维采样点上的说话人脸图像信息。其中，该目标三维采样点是基于参考人脸模型的三维采样点，目标视角是基于参考人脸模型的视角，因此，基于该目标三维采样点和目标视角进行训练，有利于降低头部微小运动导致的预测误差。

在本申请一些实施例中，神经辐射场模型的预测过程可以建模为：

F_θ:(γ(x),γ(v),M^a(a),Mⁱ(i))→{c,σ,f}

其中，γ(*)表示编码模块，x表示目标三维采样点，v表示目标视角方向，M^a(*),Mⁱ(*)分别是音频特征映射网络和身份特征网络的输出，a为映射前的语音特征向量，i为映射前的身份特征向量，c表示颜色值，σ表示不透明度值，f表示高维特征向量。

在一些实施例中，利用低分分辨率彩色图像和高维特征图像，对超分网络进行训练。其中，训练好的超分网络的生成器用于生成目标说话人脸图像，生成的目标说话人脸图像在时序上合并为目标说话人脸视频，例如，将生成的多帧说话人脸图像在时序上进行高斯滤波处理后得到目标说话人脸视频。

在一些实施例中，该超分网络可以包括生成器和判别器，生成器用于将低分辨率图像转换为高分辨率图像，判别器用于评估生成器生成的图像是否真实。生成器是通过一系列的神经网络层来学习和模拟图像生成的过程，判别器是通过另一个神经网络层来区分真实图像和生成图像。超分网络通常使用对抗性训练的方式来训练生成器和判别器。对抗性训练是指让生成器和判别器在训练过程中互相竞争，以达到更好的性能。作为示例而非限定，该超分网络可以是基于StyleGAN的超分网络，其利用StyleGan的生成器和判别器来训练超分网络，以提升图像的重建质量和细节表现。

在本申请一些实施例中，S240可以包括：

将所述高维特征图像输入所述生成器，生成第一高分辨率彩色图像；

对所述低分辨率彩色图像进行上采样处理，得到第二高分辨率彩色图像；

将所述第一高分辨率彩色图像和所述第二高分辨率彩色图像组合得到假值图像；

对采集的说话人脸图像先进行下采样处理再进行上采样处理，得到第三高分辨率彩色图像；

将采集的说话人脸图像和所述第三高分辨率彩色图像组合得到假值图像；

利用假值图像和真值图像对所述判别器进行训练。例如，在训练过程中判别器可以对真值图像和假值图像进行判断，有利于提升生成器生成的说话人脸图像的多视角的一致性。

在一些实施例中，假值图像可以是将第一高分辨率彩色图像和第二高分辨率彩色图像连接组成，例如将第一高分辨率彩色图像中的一个采样点的三通道像素值和第二高分辨率彩色图像中对应采样点的三通道像素值合并作为假值图像中的对应采样点的像素值，即假值图像中一个采样点有6通道，共6个像素值。

在一些实施例中，第三高分辨率彩色图像可以认为是说话人脸图像的模糊副本。真值图像可以是将采集的说话人脸图像和第三高分辨率彩色图像连接组成，例如将采集的说话人脸图像的一个采样点的三通道像素值和第三高分辨率彩色图像对应采样点的三通道像素值合并作为真值图像中的对应采样点的像素值，即真值图像中一个采样点有6通道，共6个像素值。

在一些实施例中，生成器的输入可以是高维特征图像和嵌入特征向量，该嵌入特征向量可以是说话人脸图像对应的目标身份特征向量和目标音频特征向量的合并，例如，嵌入特征向量的维度可以是896维，生成器生成的高分辨率彩色图像可以是512×512。嵌入特征向量是指在网络的某些层中，将输入图像的特征表示为一个向量，并将其嵌入到网络的权重矩阵中。在超分网络中使用嵌入特征向量可以达到增强特征表达能力、提高网络的可解释性、增加网络的鲁棒性以及促进迁移学习的作用。

应理解，本申请并不限定生成器的具体网络结构，具体实现可以根据实际情况进行调整。例如，可以对StyleGAN的超分网络的生成器的网络结构进行修改，以适配本申请实施例中的生成器的输入，例如，若高维特征图像的维度时64×64，可以删除基于StyleGAN的超分网络的生成器的前5层卷积层，保留之后的卷积生成网络，作为本申请实施例中的生成器的网络结构。

在一些实施例中，可以认为视频生成***包括如下模型：

预训练好的人脸识别模型、预训练好的语音识别模型、身份特征映射网络、音频特征映射网络、神经辐射场模型、超分网络。

以下，结合图5，对本申请实施例的模型训练方法的整体流程进行说明。

步骤1：获取多个人的音频数据以及说话人脸图像。

即，采集音频数据集和说话人脸视频数据集。

进一步获取采集说话人脸图像所使用的原始相机参数。具体实现参考前述实施例的相关描述，为了简洁，这里不再赘述。

步骤2：利用预训练好的语音识别模型对音频数据进行特征提取，然后进行特征映射，得到目标音频特征向量，以及，利用预训练好的人脸识别模型对说话人脸图像进行特征提取，然后进行特征映射，得到目标身份特征向量。

步骤3：相机参数补偿模块根据原始相机参数确定将说话人脸图像映射为参考人脸模型下的补偿参数，根据该补偿参数对原始相机参数进行补偿，得到补偿后的相机参数。

步骤4：将目标音频特征向量、目标身份特征向量、补偿后的相机参数作为神经辐射场模型的输入，输出预测的颜色信息、不透明度信息以及高维特征向量。

步骤5：体渲染模块基于颜色信息和不透明度信息进行体渲染，得到低分辨率彩色图像，基于不透明度信息和高维特征向量进行体渲染，得到高维特征图像。

步骤6：将高维特征图像输入超分网络的生成器，生成高分辨率彩色图像。

将对低分辨率彩色图像进行上采样得到的高分辨率彩色图像和生成器生成的高分辨率彩色图像组合得到假值图像，将采集的说话人脸图像及其模糊副本作为真值图像，对超分网络的判别器进行训练，得到训练好的超分网络。

在一些实施例中，需要生成说话人脸视频时，获取目标说话人的人脸图像以及语音信息，将上述信息输入至视频生成***，可以生成多帧说话人脸图像，进一步将生成的说话人脸图像在时序上进行高斯滤波后，可以合并为目标说话人的说话人脸视频，图6是基于本申请实施例的模型训练方法训练的模型所生成的说话人脸图像序列。

应理解，本申请并不限定生成的说话人脸视频的应用场景，例如，可以应用于虚拟主播、数字人、远程视频会议等产品中。

图7是本申请实施例提供的一种视频生成方法的示意性流程图，可选地，该视频生成方法可以由终端执行，或者，由服务器执行，或者，由终端和服务器联合执行。以下，从视频生成装置的角度描述该视频生成方法900。如图7所示，该方法900可以包括如下至少部分内容：

S910，获取目标说话人的人脸图像以及音频数据；

S920，对所述音频数据进行特征提取，得到所述目标说话人的目标音频特征向量，以及，对所述人脸图像进行特征提取，得到所述目标说话人的目标身份特征向量；

S930，将所述目标说话人的目标身份特征向量和所述目标说话人的目标音频特征向量输入至神经辐射场模型和超分网络，得到目标说话人的说话人脸视频，其中，神经辐射场模型的输出作为超分网络的输入。

在一些实施例中，S930可以包括：

将目标说话人的目标身份特征向量和所述目标说话人的目标音频特征向量输入至神经辐射场模型，得到预测的说话人脸图像信息，其中，所述说话人脸图像信息包括高维特征向量、颜色信息和不透明度信息，所述说话人脸图像信息用于生成低分辨率彩色图像和高维特征图像；

进一步地，将所述低分辨率彩色图像和所述高维特征图像输入至训练好的超分网络中，利用所述超分网络的生成器生成所述目标说话人的说话人脸视频。

在一些实施例中，S920可以包括：

利用预训练好的人脸识别模型对所述说话人脸图像进行特征提取，得到所述说话人脸图像对应的身份特征向量，以及，利用预训练好的语音识别模型对所述音频数据进行特征提取，得到所述音频数据对应的音频特征向量；

利用多层感知机对所述说话人脸图像对应的身份特征向量进行特征映射，得到所述说话人脸图像对应的目标身份特征向量，以及，利用多层感知机对所述音频数据对应的音频特征向量进行特征映射，得到所述音频数据对应的目标音频特征向量。

在一些实施例中，该神经辐射场模型和超分网络可以是采用方法200中的模型训练方法训练得到的。

在一些实施例中，S930可以包括：

将目标三维采样点、目标视角、目标说话人的目标身份特征向量和目标说话人的目标音频特征向量输入至神经辐射场模型，得到预测的目标视角下的目标三维采样点上的说话人脸图像信息。具体实现参考方法200中的相关实现，为了简洁，这里不再赘述。

综上，在本申请实施例中，可以利用多人多视点说话人脸视频数据集和音频数据集进行训练，能够提升合成的人物身份的泛化性，避免输出的说话人脸视频出现模糊、嘴唇运动不明显等问题。并且，基于该身份特征向量和音频特征向量生成说话人脸视频，其中，该身份特征向量控制控制生成的说话人脸的外貌，该音频特征向量用于控制人脸的表情，从而能够输出参数可控的高质量说话人脸视频。

进一步地，在本申请实施例中，可以通过目标相机参数控制渲染的图像的视角，从而能够实现自由视点下的说话人脸视频的渲染。

因此，基于本申请实施例的模型训练方法训练得到的视频生成***实现自由视点下参数可控的高质量说话人脸视频的渲染，生成的说话人脸视频的峰值信噪比达到31，并且基于本申请实施例的视频生成***生成的说话人脸图像在图像质量和语音驱动口型效果上均有提升，具体指标的提升效果如表1所示，其中，PSNR表示峰值信噪比(Peak Signal-to-Noise Ratio)，SSIM表示结构相似性(structural similarity)，LPLPS表示学习感知图像补丁相似性(Learned Perceptual Image Patch Similarity)，LMD表示关键点误差(Landmark distance)，CPBD表示模糊监测累计概率(Cumulative Probability of BlurDetection)，其中，PSNR、SSIM和CPBD指标越高越好，LPIPS和LMD指标越低越好。

表1

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中所述的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的方法实施例。

图8为本申请实施例提供的模型训练装置的示意性结构图。可选地，该模型训练装置可以部署在服务器内，或者，部署在终端内，或者，部署在服务器和终端内。如图8所示，模型训练装置1000可以包括：

采集单元1010，用于采集说话人脸视频数据集和音频数据集，其中，所述说话人脸视频数据集包括多个人的说话人脸视频数据，其中，每个人的说话人脸视频数据包括所述每个人在多视角下的多帧说话人脸图像，所述音频数据集包括所述多个人的音频数据，其中，所述多个人的音频数据与所述多个人的说话人脸视频数据同步；

特征提取单元1020，用于对所述说话人脸视频数据集中的每个人的说话人脸图像进行特征提取，得到所述每个人的说话人脸图像对应的目标身份特征向量，以及，对所述音频数据集中的每个人的音频数据进行特征提取，得到所述每个人的音频数据对应的目标音频特征向量；

训练单元1030，用于利用所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的目标音频特征向量，对神经辐射场模型和超分网络进行联合训练。

在一些实施例中，训练单元1030还用于：

利用所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的目标音频特征向量对所述神经辐射场模型进行训练，得到预测的目标视角下的说话人脸图像信息，其中，所述说话人脸图像信息包括高维特征向量、颜色信息和不透明度信息；

基于所述高维特征向量、所述颜色信息和所述不透明度信息进行体渲染处理，得到低分辨率彩色图像和高维特征图像，所述低分辨率彩色图像和采集的说话人脸图像之间的误差作为所述神经辐射场模型的损失函数；

利用所述低分辨率彩色图像和所述高维特征图像对所述超分网络进行训练。

在一些实施例中，训练单元1030还用于：

将所述高维特征图像输入所述超分网络中的生成器，生成第一高分辨率彩色图像；

利用所述假值图像和真值图像对所述超分网络中的判别器进行训练。

在一些实施例中，训练单元1030还用于：

将所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的音频特征向量组合得到嵌入特征向量；

将所述高维特征图像和所述嵌入特征向量输入至所述生成器，得到所述第一高分辨率彩色图像。

在一些实施例中，所述特征提取单元1020具体用于：

利用预训练好的人脸识别模型对所述每个人的说话人脸图像进行特征提取，得到所述每个人的说话人脸图像对应的身份特征向量，以及，利用预训练好的语音识别模型对所述每个人的音频数据进行特征提取，得到所述每个人的音频数据对应的音频特征向量；

利用多层感知机对所述每个人的说话人脸图像对应的身份特征向量进行特征映射，得到所述每个人的说话人脸图像对应的目标身份特征向量，以及，利用多层感知机对所述每个人的音频数据对应的音频特征向量进行特征映射，得到所述每个人的音频数据对应的目标音频特征向量。

在一些实施例中，所述特征提取单元1020还用于：

根据所述说话人脸视频数据集中的同一个人的多帧说话人脸图像的采集帧率，对所述音频数据集中的与所述说话人脸图像同步的音频数据进行分段，得到多个语音分段，其中，一个语音分段和一组说话人脸图像对齐；

对所述每个语音分段进行特征提取，得到所述每个语音分段对应的目标音频特征向量。

在一些实施例中，所述第一训练单元1030还用于：

将与当前帧说话人脸图像对齐的语音分段相邻的多个语音分段对应的目标音频特征向量，作为所述当前帧说话人脸图像对应的目标音频特征向量；

将所述说话人脸视频数据集中的每帧说话人脸图像对应的目标身份特征向量和所述每帧说话人脸图像对应的目标音频特征向量作为一组训练数据，对所述神经辐射场模型进行训练。

在一些实施例中，所述模型训练装置还包括：

获取单元，用于获取采集所述说话人脸视频数据集所使用的原始三维采样点以及原始视角；

转换单元，用于将所述原始三维采样点转换为参考人脸模型下的目标三维采样点，以及，将所述原始视角转换为所述参考人脸模型下的所述目标视角；

其中，所述第一训练单元1020还用于：

以所述目标三维采样点、所述目标视角、所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的目标音频特征向量作为输入，对所述神经辐射场模型进行训练，输出在所述目标视角下所述目标三维采样点上的说话人脸图像信息。

在一些实施例中，所述模型训练装置还包括：

获取单元，用于获取采集所述说话人脸视频数据集所使用的相机参数；

确定单元，用于确定将所述说话人脸数据集中的说话人脸图像映射为所述参考人脸模型下的说话人脸图像所使用的变换参数，所述变换参数包括缩放长度、旋转矩阵和平移向量中的至少之一；

补偿单元，用于根据所述变换参数对所述相机参数进行补偿，得到所述参考人脸模型下的目标相机参数；

其中，所述转换单元还用于：

根据所述目标相机参数将所述三维采样点信息转换为所述参考人脸模型下的目标三维采样点信息，以及，根据所述目标相机参数将所述视角信息转换为所述参考人脸模型下的目标视角信息。

在一些实施例中，所述确定单元还用于：

基于采集的所述多个人中的第i个人的说话人脸图像，获取所述第i个人的至少三个视角的二维关键点，i＝1,2,…,M，M为所述多个人的总人数；

根据所述第i个人的至少三个视角的二维关键点，估计所述第i个人的说话人脸图像的三维关键点；

将双线性模型拟合到所述三维关键点上，得到所述参考人脸模型，以及采集的说话人脸图像相对于所述参考人脸模型的变换参数。

在一些实施例中，所述采集单元1010还用于：

采集所述多个人基于预设中文音频文本和预设英文音频文本的音频数据。

图9为本申请实施例提供的视频生成装置的示意性结构图。可选地，该视频生成可以部署在服务器内，或者，部署在终端内，或者，部署在服务器和终端内。如图9所示，视频生成1100可以包括：

获取单元1110，用于获取目标说话人的人脸图像以及音频数据；

特征提取单元1120，用于对所述音频数据进行特征提取，得到所述目标说话人的目标音频特征向量，以及，对所述人脸图像进行特征提取，得到所述目标说话人的目标身份特征向量；

视频生成单元1130，用于将所述目标说话人的目标身份特征向量和所述目标说话人的目标音频特征向量输入至神经辐射场模型和超分网络中，得到所述目标说话人的说话人脸视频。

在一些实施例中，视频生成单元1130具体用于：

进一步地，将所述低分辨率彩色图像和所述高维特征图像输入至训练好的超分网络中，利用所述超分网络的生成器生成所述目标说话人的说话人脸视频。在一些实施例中，所述特征提取单元1120还用于：

在一些实施例中，视频生成单元1130还用于：

将目标三维采样点、目标视角、目标说话人的目标身份特征向量和目标说话人的目标音频特征向量输入至神经辐射场模型，得到预测的目标视角下的目标三维采样点上的说话人脸图像信息。

图10为本申请实施例提供的模型训练装置的另一示意性结构图，如图10所示，模型训练装置可以包括：通信接口1201，存储器1202，处理器1203和通信总线1204。通信接口1201，存储器1202，处理器1203通过通信总线1204实现相互间的通信。通信接口1201用于探测装置1200与外部设备进行数据通信。存储器1202可用于存储软件程序以及模块，处理器1203通过运行存储在存储器1202的软件程序以及模块执行图模型训练方法实施例中相应操作。

在本申请一些实施例中，该处理器1203具体用于：

利用所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的目标音频特征向量，对神经辐射场模型进行训练，得到预测的目标视角下的说话人脸图像信息，其中，所述说话人脸图像信息包括高维特征向量、颜色信息和不透明度信息，其中，所述高维特征向量、所述颜色信息和所述不透明度信息用于生成低分辨率彩色图像和高维特征图像，所述低分辨率彩色图像和采集的说话人脸图像之间的误差作为所述神经辐射场模型的损失函数；

利用所述低分辨率彩色图像和所述高维特征图像对超分网络进行训练，其中，所述超分网络包括生成器和判别器，训练好的所述超分网络中的生成器用于生成目标说话人脸视频。

在一些实施例中，该模型训练装置可以是电子设备，或者，部署在电子设备中。该电子设备可以为移动电子设备，或者，也可以为非移动电子设备。

图11为本申请实施例提供的视频生成装置的另一示意性结构图，如图11所示，视频生成装置可以包括：通信接口1301，存储器1302，处理器1303和通信总线1304。通信接口1301，存储器1302，处理器1303通过通信总线1304实现相互间的通信。通信接口1301用于探测装置1300与外部设备进行数据通信。存储器1302可用于存储软件程序以及模块，处理器1303通过运行存储在存储器1302的软件程序以及模块执行图模型训练方法实施例中相应操作。

在本申请一些实施例中，该处理器1303具体用于：

获取目标说话人的人脸图像以及音频数据；

将所述目标说话人的目标身份特征向量和所述目标说话人的目标音频特征向量输入至神经辐射场模型和超分网络进行联合训练，其中，所述神经辐射场模型的输出作为所述超分网络的输入。

在一些实施例中，该视频生成装置可以是电子设备，或者，部署在电子设备中。该电子设备可以为移动电子设备，或者，也可以为非移动电子设备。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的，一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于计算机设备，并且该计算机程序使得计算机设备执行本申请实施例的中的方法实施例中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的***和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的目标音频特征向量，对神经辐射场模型和超分网络进行训练，包括：

基于所述高维特征向量、所述颜色信息和所述不透明度信息进行体渲染处理，得到低分辨率彩色图像和高维特征图像；

3.根据权利要求2所述的方法，其特征在于，所述利用所述低分辨率彩色图像和所述高维特征图像对所述超分网络进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述高维特征图像输入所述超分网络中的生成器，生成第一高分辨率彩色图像，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述对所述说话人脸视频数据集中的每个人的说话人脸图像进行特征提取，得到所述每个人的说话人脸图像对应的目标身份特征向量，以及，对所述音频数据集中的每个人的音频数据进行特征提取，得到所述每个人的音频数据对应的目标音频特征向量，包括：

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述对所述音频数据集中的每个人的音频数据进行特征提取，得到所述每个人的音频数据对应的目标音频特征向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述利用所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的目标音频特征向量，对神经辐射场模型进行训练，包括：

8.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

获取采集所述说话人脸视频数据集所使用的原始三维采样点以及原始视角；

将所述原始三维采样点转换为参考人脸模型下的目标三维采样点，以及，将所述原始视角转换为所述参考人脸模型下的所述目标视角；

其中，所述利用所述每个人的说话人脸图像对应的目标身份特征向量和所述每个人的音频数据对应的目标音频特征向量，对神经辐射场模型进行训练，包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取采集所述说话人脸视频数据集所使用的相机参数；

根据所述相机参数，确定将所述说话人脸数据集中的说话人脸图像映射为所述参考人脸模型下的说话人脸图像所使用的变换参数，所述变换参数包括缩放长度、旋转矩阵和平移向量中的至少之一；

根据所述变换参数对所述相机参数进行补偿，得到所述参考人脸模型下的目标相机参数；

其中，所述将所述三维采样点信息转换为参考人脸模型下的目标三维采样点信息，以及，将所述视角信息转换为所述参考人脸模型下的目标视角信息，包括：

10.根据权利要求9所述的方法，其特征在于，所述确定将所述说话人脸数据集中的说话人脸图像映射为所述参考人脸模型下的说话人脸图像所使用的变换参数，包括：

11.根据权利要求1-4中任一项所述的方法，其特征在于，所述采集音频数据集，包括：

12.一种视频生成方法，其特征在于，包括：

获取目标说话人的人脸图像以及音频数据；

将所述目标说话人的目标身份特征向量和所述目标说话人的目标音频特征向量输入至训练好的神经辐射场模型和超分网络中，得到目标说话人的说话人脸视频，其中，所述神经辐射场模型的输出为所述超分网络的输入。

13.一种模型训练装置，其特征在于，包括：

14.一种视频生成装置，其特征在于，包括：

获取单元，用于获取目标说话人的人脸图像以及音频数据；

视频生成单元，用于将所述目标说话人的目标身份特征向量和所述目标说话人的目标音频特征向量输入至训练好的神经辐射场模型和超分网络中，得到目标说话人的说话人脸视频，其中，所述神经辐射场模型的输出为所述超分网络的输入。

15.一种模型训练装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用并运行所述存储器中存储的计算机程序，执行如权利要求1至11任一项所述的方法。

16.一种视频生成装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于调用并运行所述存储器中存储的计算机程序，执行如权利要求12所述的方法。

17.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至11中任一项所述的方法，或如权利要求12所述的方法。