CN113077537A

CN113077537A - 一种视频生成方法、存储介质及设备

Info

Publication number: CN113077537A
Application number: CN202110474530.XA
Authority: CN
Inventors: 林哲; 陀得意; 韩欣彤; 康世胤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-06
Anticipated expiration: 2041-04-29
Also published as: CN113077537B

Abstract

本说明书提供一种视频生成方法、存储介质及设备，该方法中，对初始图片中的初始人脸特征进行解耦合，得到初始人脸形状特征和初始头部姿态特征，并对音频数据进行切分，并得到切分后的音频片段对应的目标表情特征，再利用初始人脸形状特征、初始头部姿态特征和目标表情特征进行组合，构建出音频片段对应的目标图片，最后利用所有音频片段对应的目标图片合并得到目标视频。这样，实现了根据初始图片和音频数据来生成视频，降低了基于单幅人脸图像来制作视频的制作成本，且提高了真实程度。

Description

一种视频生成方法、存储介质及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种视频生成方法、存储介质及设备。

背景技术

基于人脸的图像处理技术正在快速发展，并且得到了广泛的应用，尤其是虚拟现实、电影制作、游戏娱乐等领域。目前，基于单幅人脸图像来制作动画的方式通常是先根据该人脸图像建立人脸模型，再捕获真实人脸运动来提取表情参数并合成表情。然而，这样的方式需要消耗较多的人力，制作成本较高。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种视频生成方法、存储介质及设备。

根据本说明书实施例的第一方面，提供一种视频生成方法，所述方法包括：

获取初始图片，检测所述初始图片中的人脸关键点，利用所述人脸关键点获取初始人脸特征，所述初始人脸特征包括初始人脸形状特征和初始头部姿态特征；

获取音频数据，对所述音频数据进行切分，得到至少两个音频片段；

针对每个音频片段，获取所述音频片段对应的目标表情特征，并基于所述初始人脸形状特征、初始头部姿态特征以及所述目标表情特征的组合，构建出所述音频片段对应的目标图片；其中，所述目标表情特征表征发言者以所述音频片段发音而产生的人脸表情特征；

构建出每个音频片段对应的目标图片后，将所有目标图片作为视频帧进行合并，得到目标视频。

在某些例子中，上述音频数据是通过将目标文本输入预设的文本转语音模型进行转换得到的。

在某些例子中，上述预设的文本转语音模型具有对应多种音色的语音合成库；

所述获取音频数据，包括：

检测所述初始图片中人脸的属性特征；

基于检测到的属性特征确定目标音色；

将所述目标文本输入所述预设的文本转语音模型，得到所述预设的文本转语音模型根据所述目标文本，从所述语音合成库中提取出的对应目标音色的音频数据。

在某些例子中，上述音频片段对应的目标表情特征是基于将所述音频片段输入Speech2Face模型得到的。

在某些例子中，上述获取所述音频片段对应的目标表情特征，包括：

对所述音频片段进行音素识别，得到对应的音素数据；

将所述音素数据输入预设的神经网络模型，得到所述音素数据对应的目标表情特征，所述预设的神经网络模型是基于音素样本数据和与所述音素样本数据对应的表情特征样本数据训练得到的。

在某些例子中，上述预设的神经网络模型基于以下训练过程得到：

获取Speech2Face模型作为初始模型，所述Speech2Face模型的训练样本包括音频样本数据和与所述音频样本数据对应的表情特征样本数据；

将所述音频样本数据进行处理，得到音素样本数据；

利用所述音素样本数据和所述表情特征样本数据对所述初始模型重新训练，将训练得到的模型确定为所述预设的神经网络模型。

在某些例子中，上述基于所述初始人脸形状特征、初始头部姿态特征以及所述目标表情特征的组合，构建出所述音频片段对应的目标图片，包括：

将所述初始人脸形状特征、初始头部姿态特征以及所述目标表情特征进行组合，得到所述音频片段对应的目标人脸关键点；

基于所述目标人脸关键点，得到所述音频片段对应的landmark图片；

将所述landmark图片和所述初始图片作为换脸模型的输入，得到所述音频片段对应的目标人脸图片；

根据检测出的人脸框，将所述目标人脸图片融合至所述初始图片，构建得到所述音频片段对应的目标图片。

根据本说明书实施例的第二方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现说明书实施例中任一项方法。

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现说明书实施例中任一项方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例中，公开了一种视频生成方法、存储介质及设备，该方法中，对初始图片中的初始人脸特征进行解耦合，得到初始人脸形状特征和初始头部姿态特征，并对音频数据进行切分，并得到切分后的音频片段对应的目标表情特征，再利用初始人脸形状特征、初始头部姿态特征和目标表情特征进行组合，构建出音频片段对应的目标图片，最后利用所有音频片段对应的目标图片合并得到目标视频。这样，实现了根据初始图片和音频数据来生成视频，降低了基于单幅人脸图像来制作视频的制作成本，且提高了真实程度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种视频生成方法的流程图；

图2是本说明书根据一示例性实施例示出的视频生成的过程的示意图；

图3是本说明书根据一示例性实施例示出的landmark图片的示意图；

图4是本说明书实施例视频生成装置所在计算机设备的一种硬件结构图；

图5是本说明书根据一示例性实施例示出的一种视频生成装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

基于人脸的图像处理技术正在快速发展，并且得到了广泛的应用，尤其是虚拟现实、电影制作、游戏娱乐等领域。其中，基于单幅人脸图像来制作视频是目前比较热门的研究话题。相关技术中，基于单幅人脸图像来制作视频的方式通常是先根据该人脸图像建立人脸模型，再捕获真实人脸运动来提取表情参数并合成表情，然而这样的方式，在捕获真实人脸运动就需要采用设备支持以及需要消耗较多的人力，制作成本较高。

接下来对本说明书实施例进行详细说明。

如图1所示，图1是本说明书根据一示例性实施例示出的一种视频生成方法的流程图，所述方法包括：

在步骤101、获取初始图片，检测所述初始图片中的人脸关键点，利用所述人脸关键点获取初始人脸特征，所述初始人脸特征包括初始人脸形状特征和初始头部姿态特征；

本实施例中的初始图片是具有人脸画面的图片，这一人脸画面可以是真实人物的人脸画面，也可以是虚拟人物的人脸画面。人脸关键点检测也称为人脸关键点定位，是指从给定的人脸图像中，定位出人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。本步骤中，初始图片中的人脸关键点可以是通过人脸关键点检测算法检测得到。这里的人脸关键点检测算法可以包括ASM(Active Shape Model，主动形状模型)算法、DCNN(Deep Convolutional Nerual Network，深度卷积神经网络)算法等等。

在检测得到人脸关键点后，可以利用这些人脸关键点获取初始人脸特征。这里的初始人脸特征可以是通过人脸重建得到。人脸重建是指通过二维人脸图像重建出该人脸的三维模型，本实施例所采用的人脸重建方式可以是3DMM(3DMorphable Model，三维可变形人脸模型)方式。利用3DMM方式对检测到的人脸关键点进行处理，可以得到人脸三维网格，在得到人脸三维网格后，可以通过特征解耦合，得到人脸形状、头部姿态、人脸表情三种特征，并将提取的特征参数化。当然，在其他实施例中，也可以利用其他方式来进行人脸重建，如BFM(Basel Face Model，巴塞尔人脸模型)方式，本说明书对此不作限制。

在步骤102、获取音频数据，对所述音频数据进行切分，得到至少两个音频片段；

本步骤中提到的音频数据可以是用户输入的音频数据，也可以是对用户输入的目标文本转换得到的音频数据。当音频数据是对用户输入的目标文本转换得到的音频数据时，音频数据可以是通过将目标文本输入预设的TTS模型进行转换得到。文本转语音模型，也称为TTS(Text-To-Speech，从文本到语音)模型，隶属于语音合成的模型，用于将计算机自己产生的、或外部输入的文字信息转变为具有高自然度的语音。TTS模型的结构通常包括语音处理模块、韵律处理模块和声学处理模块，其中，语音处理模块主要模拟人对自然语言的理解过程，包括文本规整、词的划分、语法分析和语义分析；韵律处理模块为合成语音规划出音段特征，使合成语音能正确表达语意；声学处理模块根据语音处理模块和韵律处理模块的处理结果的要求输出语音。

本步骤中提到的对音频数据进行切分，可以是按照预设的每秒帧数来进行切分，例如，预设的每秒帧数是12，则按照每秒12帧语音帧的频率来对音频数据进行切分。当然，这里的预设的每秒帧数可以根据具体需要进行设置，本说明书对此不作限制。还有，步骤101和步骤102没有固定的先后顺序，也就是说，可以先执行步骤101再执行步骤102，或者先执行步骤102再执行步骤101，当然也可以同时执行。

在步骤103、针对每个音频片段，获取所述音频片段对应的目标表情特征，并基于所述初始人脸形状特征、初始头部姿态特征以及所述目标表情特征的组合，构建出所述音频片段对应的目标图片；其中，所述目标表情特征表征发言者以所述音频片段发音而产生的人脸表情特征；

本步骤中的目标表情特征是指利用音频片段发音而产生的人脸表情特征，也就是说，这个目标表情特征是与发言者以音频片段发音的这一说话动作相关联的面部表情的相关特征。在本实施例中，利用音频片段对应的目标表情特征来替换初始图片中的初始人脸特征中的初始表情特征，这样，使得重新组合而成的人脸图片能够具有与音频片段这一说话动作相关联的面部表情。需要说明的是，这里的表情可以是口型、眨眼、挑眉等等其中的至少一种。

在某些例子中，这里的目标表情特征可以是将音频片段输入Speech2Face模型而得到。Speech2Face模型是一种神经网络模型，其利用包含了几百万个视频的视听数据集进行训练，让模型学习声音和面部的相关性，找到说话的人一些基本特征，比如年龄、性别、种族等，并还原出相貌。由于Speech2Face模型在训练过程中学习音频和面部表情的相关性，因此能够预测出与输入的音频相关联的脸部相对应的表情特征。当然，在其他实施例中，目标表情特征也可以通过其他的方式进行得到，本说明书对此不作限制。

进一步地，若音频数据是对用户输入的目标文本通过预设的TTS模型转换得到的，由于TTS模型会输出不同的音色，例如TTS模型输出的音色体现的是小女孩声音，而初始图片中的人脸是中年男子的人脸，那么将TTS模型输出的音频数据输入Speech2Face模型处理的话，可能效果不好。基于此，本说明书提供以下两种解决方式：

方式一：在某些例子中，所述预设的TTS模型具有对应多种音色的语音合成库；所述获取音频数据，包括：检测所述初始图片中人脸的属性特征；基于检测到的属性特征确定目标音色；将所述目标文本输入所述预设的TTS模型，得到所述预设的TTS模型根据所述目标文本，从所述语音合成库中提取出的对应目标音色的音频数据。可以理解的，TTS模型在转换时，是根据处理好的文本所对应的单字或短语从语音合成库中提取音频，从而把语言学描述转换成言语波形的。在本实施例中，预设的TTS模型具有对应多种音色的语音合成库，包括男声、女声、童声等多种类型的音色，也就是说，在该语音合成库中，同一个单字或短语可以对应不同音色的音频数据，当确定好目标音色时，预设的TTS模型可以从语音合成库中提取出对应目标音色的音频数据。这里的目标音色根据初始图片中人脸的属性特征来确定，可选的，属性特征可以包括以下至少一种：年龄、性别。这样，TTS模型输出的音频数据的音色符合初始图片中人脸的属性特征，此时将音频数据输入Speech2Face模型进行处理，得到的目标表情特征比较准确，处理效果更好。

方式二：在某些例子中，所述基于所述音频片段，得到所述音频片段对应的目标表情特征，包括：对所述音频片段进行音素识别，得到对应的音素数据；将所述音素数据输入预设的神经网络模型，得到所述音素数据对应的目标表情特征，所述预设的神经网络模型是基于音素样本数据和与所述音素样本数据对应的表情特征样本数据训练得到的。音素是根据语音的自然属性划分出来的最小语音单位，一般分为元音音素和辅音音素，元音音素是在发音过程中由气流通过口腔而不受阻碍发出的音素，而辅音音素与元音音素相对，是指气流在口腔或咽头受到阻碍而形成的音素。汉语音素共有32个，英语音素共有48个。针对音频片段的音素识别可以采用相关技术中的语音识别算法来实现。若音频片段是音频数据按帧切分得到的，通常来说，一帧音频片段对应一个音素，而一个音素对应若干帧音频片段。需要说明的是，这里的音素数据也可以是对音频数据先进行音素识别再进行按帧切分后得到的，对此本说明书不作限制。在得到音素数据后，利用预设的神经网络模型来生成对应的目标表情特征。这里的预设的神经网络模型是基于音素样本数据和与所述音素样本数据对应的表情特征样本数据训练得到的，具体的，这些样本数据可以利用视听数据集通过处理得到，比如，针对视听数据集中的某个视频，可以对每帧视频帧进行处理，提取出音频和人脸特征，再对音频进行处理，得到音素，再从人脸特征中得到表情特征。通过将音频处理成音素，去除了音色对模型处理的影响，这样，即使TTS模型输出的音色与初始图片中的人脸的属性特征是不符合的，预设的神经网络模型所输出的目标表情特征也仍然是比较准确的。

在另一些例子中，这一预设的神经网络模型也可以通过对Speech2Face模型进行改进而得到，具体的，所述预设的神经网络模型基于以下训练过程得到：获取Speech2Face模型作为初始模型，所述Speech2Face模型的训练样本包括音频样本数据和与所述音频样本数据对应的表情特征样本数据；将所述音频样本数据进行处理，得到音素样本数据；利用所述音素样本数据和所述表情特征样本数据对所述初始模型重新训练，将训练得到的模型确定为所述预设的神经网络模型。也就是说，通过对Speech2Face模型的训练样本中的音频样本数据进行处理，得到音素样本数据，再利用音素样本数据和对应的表情特征样本数据进行重新训练，从而得到可以产生对应音素数据的目标表情特征的模型。

在获取音频片段对应的目标表情特征后，可以将初始人脸形状特征、初始头部姿态特征以及目标表情特征进行组合，利用组合后的这些特征重新构建人脸图片，即本步骤中提到的目标图片，这一目标图片能够具有与音频片段这一说话动作相关联的面部表情。具体地，针对如何基于初始人脸形状特征、初始头部姿态特征以及目标表情特征的组合，构建出音频片段对应的目标图片，本说明书的其中一个实施例采用以下的解决方案：

将组合后的这些特征输入参数化人脸模型，可以得到音频片段对应的目标人脸关键点。这里的过程类似于步骤101的逆过程。参数化人脸模型可以是由许多不同的人脸mesh(网格)，通过组合初始人脸形状特征、初始头部姿态特征以及目标表情特征，可以得到对应表情的人脸mesh，从人脸mesh中提取出眉毛、眼睛、鼻子、嘴巴、脸部轮廓的点，即可得到目标人脸关键点。而在得到目标人脸关键点后，可以利用目标人脸关键点和初始图片，构建出音频片段对应的目标图片。在某些例子中，这里的目标图片可以是利用换脸模型构建得到。换脸模型可以包括Talking Head Model，其是基于GAN(Generative AdversarialNetworks，生成式对抗网络)的对抗学习策略，通过对与不同说话者相对应的大型头部对话视频进行广泛的预训练来获得少样本学习能力，从而能够实现将视频帧中其他的人脸换成目标人脸，且效果极其逼真。换脸模型的输入是初始图片和landmark图片，这里的landmark图片可以是对目标关键点进行光栅化(rasterization)操作而得到，是将同一部位的目标关键点用相同颜色的线连接起来而得到的图片。将初始图片和landmark图片输入换脸模型，换脸模型根据landmark图片给出的部位区域，使用从初始图片中学到的特定人脸信息进行补全，从而实现换脸的效果。

另外，由于初始图片中除了人脸以外，往往还包括了场景、服装等内容，因此，为了避免除人脸以外的图片内容在处理过程中产生“失真”的情况，在步骤101的获取初始图片之后，可以先检测初始图片中的人脸框，再进行裁剪，并提取脸部区域的图片进行上述步骤101至103的处理，这样，在利用换脸模型得到目标人脸图片后，按照检测出的人脸框，将目标人脸图片融合至对应的初始图片，从而得到目标图片。这里的融合可以是指将目标人脸图片无缝贴回初始图片上。另外，在试验中发现，如果初始图片中的人脸姿态不是标准姿态，则直接根据人脸框提取脸部区域的话可能导致后续步骤的输出产生伪影、斑驳之类的情况，基于此，在检测出初始图片的人脸框之后，可以通过人脸框矫正模型对检测到的人脸框进行矫正，得到矫正后的人脸框，这样提取得到的脸部区域的图片中是矫正好的标准姿态的人脸。这里的人脸框矫正模型可以是利用待矫正的各种姿态的人脸图像和对应的矫正后的标准姿态的人脸图像作为训练样本，训练得到的神经网络模型。

在步骤104、构建出每个音频片段对应的目标图片后，将所有目标图片作为视频帧进行合并，得到目标视频。

在构建出每个音频片段对应的目标图片后，将所有目标图片作为视频帧进行合并，即可得到目标视频。可以理解的，此时的目标视频也可以认为是一段动画。当然，在某些例子中，目标视频也可以是将所有目标图片作为视频帧，与音频数据进行合并而得到的，此时的目标视频是带音频的视频，而且视频中人脸说话的表情，包括口型等，与真人完成对应音频内容的说话动作时是一致的，具有真实性。

本说明书实施例的方法，对初始图片中的初始人脸特征进行解耦合，得到初始人脸形状特征和初始头部姿态特征，并对音频数据进行切分，并得到切分后的音频片段对应的目标表情特征，再利用初始人脸形状特征、初始头部姿态特征和目标表情特征进行组合，得到目标人脸关键点，从而构建出音频片段对应的目标图片，最终利用所有目标图片合并得到目标视频。这样，实现了根据初始图片和音频数据来生成视频，降低了基于单幅人脸图像来制作视频的制作成本，且提高了真实程度。

本说明书实施例的方法可以应用于影视制作、游戏娱乐、网络社交等领域，例如，在网络社交中，用户不会直接使用自己的真实图像，而是使用虚拟人脸作为自己在虚拟世界的化身，在应用本说明书实施例的方法时，可以基于用户输入的目标文本来改变虚拟人脸的表情，以此模拟反应自己的情感，这样能够提升社交用户的互动性；又例如，在电影制作的后期剪辑时，如果要修改某一段台词内容，可以应用本说明书实施例的方法直接生成新的视频帧，新的视频帧中人脸的表情，包括口型与真人几乎一致，这样不需要重新拍摄，可以减少电影的制作成本。

为了对本说明书的视频生成方法做更为详细的说明，接下来介绍一具体实施例：

本实施例中，针对用户输入的初始图片21和目标文本22，生成目标视频23，如图2所示，图2是本说明书根据一示例性实施例示出的视频生成的过程的示意图，其中，具体的流程如下所示：

S201、检测初始图片21中的人脸框，通过人脸框矫正模块对检测到的人脸框进行矫正，得到矫正后的人脸框，对初始图片进行裁剪，提取脸部区域的图片24；

S202、检测图片24中的人脸关键点，利用人脸关键点获取初始人脸特征25，所述初始人脸特征25包括初始人脸形状特征和初始头部姿态特征；

S203、将目标文本22输入预设的TTS模型进行转换，得到输出的音频数据26；

S204、将音频数据26进行切分，得到N帧音频片段，并对每帧音频片段进行音素识别，得到对应的音素数据27；

S205、针对每帧音频片段，将对应的音素数据27输入预设的神经网络模型，得到对应的目标表情特征28；其中，预设的神经网络模型是利用Speech2Face模型的训练样本(音频样本数据和与音频样本数据对应的表情特征样本数据)进行处理后得到的音素样本数据和与音素样本数据对应的表情特征样本数据重新训练而得到的神经网络模型；

S206、针对每帧音频片段，将初始人脸特征25(初始人脸形状特征、初始头部姿态特征)和目标表情特征28进行组合，输入参数人脸模型，得到目标人脸关键点29；

S207、针对每帧音频片段，对目标人脸关键点进行光栅化操作，得到landmark图片30；如图3所示，图3是本说明书根据一示例性实施例示出的landmark图片的示意图；

S208、针对每帧音频片段，将图片24和landmark图片30输入换脸模型，得到目标人脸图片31；

S209、针对每帧音频片段，将目标人脸图片31按照矫正后的人脸框贴合初始图片21，得到目标图片32；

S210、将所有目标图片32和音频数据26进行合并，得到目标视频23。

本实施例可以根据初始图片和目标文本快速生成目标视频，且目标视频中的人物表情与目标文本的内容是相对应的，具有逼真的效果。而且，可以更换初始图片和/或目标文本，得到需要的视频，从而节约了视频制作成本，提高视频制作质量。

与前述方法的实施例相对应，本说明书还提供了视频生成装置及其所应用的终端的实施例。

本说明书视频生成装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本说明书实施例视频生成装置所在计算机设备的一种硬件结构图，除了图4所示的处理器410、内存430、网络接口420、以及非易失性存储器440之外，实施例中装置431所在的服务器或电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应地，本说明书实施例还提供一种计算机存储介质，所述存储介质中存储有程序，所述程序被处理器执行时实现上述任一实施例中的方法。

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

如图5所示，图5是本说明书根据一示例性实施例示出的一种视频生成装置的框图，所述装置包括：

获取模块51，用于获取初始图片，检测所述初始图片中的人脸关键点，利用所述人脸关键点获取初始人脸特征，所述初始人脸特征包括初始人脸形状特征和初始头部姿态特征；

切分模块52，用于获取音频数据，对所述音频数据进行切分，得到至少两个音频片段；

构建模块53，用于针对每个音频片段，获取所述音频片段对应的目标表情特征，并基于所述初始人脸形状特征、初始头部姿态特征以及所述目标表情特征的组合，构建出所述音频片段对应的目标图片；其中，所述目标表情特征表征发言者以所述音频片段发音而产生的人脸表情特征；

合并模块54，用于构建出每个音频片段对应的目标图片后，将所有目标图片作为视频帧进行合并，得到目标视频。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述音频数据是通过将目标文本输入预设的文本转语音模型进行转换得到的。

3.根据权利要求2所述的方法，其特征在于，所述预设的文本转语音模型具有对应多种音色的语音合成库；

所述获取音频数据，包括：

检测所述初始图片中人脸的属性特征；

基于检测到的属性特征确定目标音色；

4.根据权利要求3所述的方法，其特征在于，所述音频片段对应的目标表情特征是基于将所述音频片段输入Speech2Face模型得到的。

5.根据权利要求2所述的方法，其特征在于，所述获取所述音频片段对应的目标表情特征，包括：

对所述音频片段进行音素识别，得到对应的音素数据；

6.根据权利要求5所述的方法，其特征在于，所述预设的神经网络模型基于以下训练过程得到：

将所述音频样本数据进行处理，得到音素样本数据；

7.根据权利要求1所述的方法，其特征在于，在检测所述初始图片中的人脸关键点之前，包括：

检测所述初始图片中的人脸框；

通过人脸框矫正模型对检测到的人脸框进行矫正，得到矫正后的人脸框，并根据矫正后的人脸框对所述初始图片进行裁剪。

8.根据权利要求7所述的方法，其特征在于，所述基于所述初始人脸形状特征、初始头部姿态特征以及所述目标表情特征的组合，构建出所述音频片段对应的目标图片，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1～8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～8任一项所述的方法。