CN113990295A

CN113990295A - 一种视频生成方法和装置

Info

Publication number: CN113990295A
Application number: CN202111130297.XA
Authority: CN
Inventors: 王愈; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-01-28

Abstract

本发明提供了一种视频生成方法和装置，其中方法包括以下步骤：通过预设语音识别模型确定音频数据中的音素特征，通过预设语音合成模型确定文本数据中的音素特征；通过预设人脸特征转换模型对每帧音素特征向量进行处理，得到相应的每帧人脸特征；通过预设人脸重构模型确定每帧人脸特征对应的人脸图像；将连续帧的人脸图像和音频数据打包成视频文件。本方法具有以下优点：1、非特定人相关，支持输入任意人的语音数据或文本数据；2、鲁棒，简化了向量特征空间，便于人脸特征转换模型学习与人脸图像特性的稳定映射关系。

Description

一种视频生成方法和装置

技术领域

本发明涉及语音处理技术领域，尤其是涉及一种视频生成方法和装置。

背景技术

随着人工智能技术的发展，越来越多的人工智能技术在各个领域中得到了实际的应用，其中虚拟主播就是人工智能技术中的一个热门方向，虚拟主播是由计算机虚拟合成的播音人物动画，重点强调口型与发音的一致性与同步性。虚拟主播的应用场景，一般包括音频驱动和文字驱动两种：音频驱动是真人在后台录音而在前台生成虚拟主播动画视频，文字驱动则是直接输入文字，完全由虚拟主播负责生成同步的音频和动画。现有的虚拟主播生成方案通常是利用获取到的音频进行后续处理，并没有考虑到音频特征分布差异较大，例如，男声、女声和不同年龄人群的声音特征区别很大。

上述技术方案有如下缺陷：1、特定人相关，必须是同一人的音频和视频，分别提取的特征用来训练转换模型，同时，训练时需要同一人的大量数据，生成后只能用于本人，他人无法使用；2、不鲁棒，语音特征空间和图像特征空间并不是一一对应的，即特定语音发音细节和特定的人脸图像并非精确的一一对应，训练出的转换模型敏感易波动。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频生成方法、以及相应的一种视频生成装置。

为了解决上述问题，一方面，本发明实施例公开了一种视频生成方法，包括以下步骤：

获取输入信息；

根据所述输入信息确定目标音频数据，并以帧为粒度确定所述目标音频数据中的多个音频帧的音素特征；

根据所述多个音频帧的音素特征，分别生成对应的人脸特征；

根据所述人脸特征生成人脸图像；

采用所述多个音频帧和对应的人脸图像，生成视频文件。

进一步地，所述以帧为粒度确定所述目标音频数据中的多个音频帧的音素特征，包括：

采用预设音素识别模型，以帧为粒度确定所述目标音频数据中的多个音频帧对应的音素后验概率PPGs；

根据所述音频帧对应的PPGs，确定所述音频帧的音素特征。

进一步地，所述PPGs包括针对预设音素列表中各个音素的概率，所述根据所述音频帧对应的PPGs，确定所述音频帧的音素特征，包括：

对所述PPGs进行独热编码处理；

将独热编码处理后概率为一的音素，确定为所述音频帧的音素特征。

进一步地，所述根据所述多个音频帧的音素特征，分别生成对应的人脸特征，包括：

通过预设人脸特征转换模型，将所述音频帧的音素特征转换为对应的人脸特征。

进一步地，所述预设人脸特征转换模型通过如下方式训练得到：

获取样本视频，所述样本视频为含有讲话人人脸的视频；

提取所述样本视频的音频数据和视频数据；

按照相同的帧长，从所述音频数据提取语音特征，以及从所述视频数据提取人脸特征；

采用所述语音特征和所述人脸特征训练所述预设人脸特征转换模型。

进一步地，所述样本视频的时间长度大于预设时长。

进一步地，所述输入信息包括输入音频数据或输入文本数据；

所述根据所述输入信息确定目标音频数据，包括：

所述输入信息为音频数据时，通过预设语音识别模型确定所述目标音频数据；

所述输入信息为文本数据时，通过预设语音合成模型确定所述目标音频数据。

另一方面，本发明还提供了一种视频生成装置，包括：

数据获取模块，用于获取输入信息；

音素特征获取模块，用于根据所述输入信息确定目标音频数据，并以帧为粒度确定所述目标音频数据中的多个音频帧的音素特征；

人脸特征获取模块，用于根据所述多个音频帧的音素特征，分别生成对应的人脸特征；

人脸图像获取模块，用于根据所述人脸特征生成人脸图像；

视频文件生成模块，用于采用所述多个音频帧和对应的人脸图像，生成视频文件。

进一步地，所述音素特征获取模块包括：

PPGs获取子模块，用于采用预设音素识别模型，以帧为粒度确定所述目标音频数据中的多个音频帧对应的音素后验概率PPGs；

音素特征获取子模块，用于根据所述音频帧对应的PPGs，确定所述音频帧的音素特征。

进一步地，所述PPGs包括针对预设音素列表中各个音素的概率，所述音素特征获取子模块包括：

独热编码单元，用于对所述PPGs进行独热编码处理；

音素特征单元，用于将独热编码处理后概率为一的音素，确定为所述音频帧的音素特征。

进一步地，所述人脸特征获取模块包括：

人脸特征转换子模块，用于通过预设人脸特征转换模型，将所述音频帧的音素特征转换为对应的人脸特征。

进一步地，所述预设人脸特征转换模型通过如下模块训练得到：

样本视频获取模块，用于获取样本视频，所述样本视频为含有讲话人人脸的视频；

数据提取模块，用于提取所述样本视频的音频数据和视频数据；

人脸特征获取子模块，用于按照相同的帧长，从所述音频数据提取语音特征，以及从所述视频数据提取人脸特征；采用所述语音特征和所述人脸特征训练所述预设人脸特征转换模型。

进一步地，所述样本视频的时间长度大于预设时长。

进一步地，所述输入信息包括输入音频数据或输入文本数据；所述音素特征获取模块包括：

第一目标音频数据获取子模块，用于所述输入信息为音频数据时，通过预设语音识别模型确定所述目标音频数据；

第二目标音频数据获取子模块，用于所述输入信息为文本数据时，通过预设语音合成模型确定所述目标音频数据。

同时，本发明的实施例还提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现该视频生成方法的步骤。

同时，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现该视频生成方法的步骤。

上述技术方案通过预设音素识别模型，以帧为粒度确定目标音频数据中的多个音频帧对应的音素后验概率PPGs，根据PPGs确定音频帧的音素特征，再根据音素特征分别生成对应的人脸特征，根据人脸特征生成人脸图像，最后采用目标音频数据和对应的人脸图像生成视频文件。相对于现有技术中的音频到视频的虚拟主播生成方法，由于PPGs只体现发音内容而不含发音人个性信息，本方法具有以下优点：1、非特定人相关，支持输入任意人的语音数据或文本数据；2、鲁棒：简化了向量特征空间，便于人脸特征转换模型学习与人脸图像特性的稳定映射关系，生成的虚拟主播发音与人脸图像相适应。

附图说明

图1为本发明实施例提供的一种视频生成方法的步骤流程图；

图2为本发明实施例提供的一种UFANS神经网络的部分内部结构图；

图3是本发明实施例提供的另一种视频生成方法的示意图；

图4为本发明实施例提供的另一种视频生成方法的示意图；

图5为本发明实施例提供的另一种视频生成方法的示意图；

图6是本发明实施例提供的一种视频生成装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在对本发明的技术方案进行具体描述前，申请人先对几个技术方案中用到的名词进行简要介绍：

梅尔倒谱系数(Mel-frequencyCepstralCoefficients，MFCC)，在语音识别领域，MFCC是将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。

梅尔倒谱(Mel-cepstrum，MCEPs)，用于描述发音细节，包含了说话人的个人特性。由于每个人的声带、口腔特征的不同，不同人发出的声音波形具有不同特征，梅尔倒谱MCEPs为描述不同人发出的声音波形的差异特征的参数。

音素后验概率(Phoneticposteriorgrams，PPGs)，是语音识别***中声学模型的输出结果。音素是指根据语音的发音动作所划分出来的最小语音单位，例如，音频“啊”的音素为(ā)，“爱”的音素为(ài)等。语音音频的音频特征分布差异较大，例如男声，女声，不同年龄人群的声音特征分布差异区别较大，而不同的音频特征对后续的模型处理都会造成不同的影响。本申请将原始音频拆分成音素，可以避免受到音频特征带来的影响。PPGs为对于输入音频的每帧音素，评价其可能是某种音素的概率。比如，汉语语音识别***中，假如预设的音素列表是{a,b,c,d,e,f,g…zh,ch,sh,silence}共70个，则训练完成的语音识别模型输出的PPGs是一个70维的向量[x1,x2,…,x70]，向量中的每个元素都是介于0-1之间的概率，70个元素的总和等于1。

One-Hot化向量处理，也称为独热编码，就是对于一个向量，把其中的最大值改成1，其他值改成0。比如[1,3,5,2]，做One-Hot化的结果为[0,0,1,0]。

图1为本发明实施例提供的一种视频生成方法的步骤流程图，可应用于虚拟主播场景，虚拟主播在新闻播报、虚拟教师、虚拟面试、虚拟直播等场景下均有着极大的潜力，可降低人力成本。上述视频生成方法包括以下步骤：

步骤101、获取输入信息；

输入信息包括输入输音频数据或输入文本数据。

步骤102、根据所述输入信息确定目标音频数据，并以帧为粒度确定所述目标音频数据中的多个音频帧的音素特征；

用户依据实际需求选择音频输入或者文本输入，当用户选择音频输入时，将录音文件输入预设的语音识别模型，通过语音识别模型获取录音文件对应的梅尔倒谱系数(Mel-frequencyCepstralCoefficients，MFCC)、以及与MFCC相应的每帧音素的音素后验概率(Phoneticposteriorgrams，PPGs)；当用户选择文本数据输入时，将文本数据输入预设的语音合成模型，通过语音合成模型获取文本数据对应的梅尔倒谱系数和音素后验概率。于本实施例中，上述PPGs包括针对预设音素列表中各个音素的概率。语音识别模型和语音合成模型均为语音处理领域的通用技术，在此不做过多具体描述。

当输入信息为音频数据时，通过预设语音识别模型得到两组输出，一组是正常的录音数据，另一组是语音信息中每帧音素对应的PPGs，根据预设语音识别模型确定目标音频数据和目标音频数据中各音频帧对应的PPGs，并对所述PPGs进行独热编码(One-Hot)处理(独热编码，就是对于一个向量，把其中的最大值改成1，其他值改成0)，将独热编码处理后概率为1的音素确定为所述音频帧的音素特征。

当输入信息为文本数据时，通过语音合成模型产出两组输出，一组是正常的合成语音，另一组是每帧音素对应的PPGs，因为语音合成模型使用过程中是先对文本标出拼音再生成发音，所以可以直接输出每帧语音信息对应的具体音素，也就是{a,b,c,d,e,f,g…zh,ch,sh,silence}70个音素其中的一个，输出的PPGs是一个70维的向量[x1,x2,…,x70]，向量中的每个元素都是介于0-1之间的概率，70个元素的总和等于1，通过预设语音合成模型确定目标音频数据和目标音频数据中各音频帧对应的PPGs，并对所述PPGs进行独热编码(One-Hot)处理，将独热编码处理后概率为1的音素确定为所述音频帧的音素特征。One-Hot化向量处理简化了向量特征空间，便于后续人脸特征转换模型学习PPGs与人脸图像特性的稳定映射关系，生成的虚拟主播发音与人脸图像相适应。

步骤103、根据所述多个音频帧的音素特征，分别生成对应的人脸特征；

人脸特征转换模型需要针对特定目标人进行训练：搜集目标人预设时长以上含有人脸讲话的视频，于本实施例中，上述预设时长可以为十五分钟以上，当然本领域技术人员可以根据实际需要设定预设时长，本发明实施例对此不做限定。

其具体训练方式包括以下步骤：获取样本视频，所述样本视频为含有讲话人人脸的视频；提取所述样本视频的音频数据和视频数据；按照相同的帧长，从所述音频数据提取语音特征，以及从所述视频数据提取人脸特征；采用所述语音特征和所述人脸特征训练所述预设人脸特征转换模型。

人脸特征转换模型采用UFANS神经网络。UFANS(U-shapedFully-parallelAcousticNeuralStructure)是一种面向一维序列建模任务的深度神经网络结构。该结构有两大特色：一、U型结构，该结构借鉴于图像领域近年来十分热门的U-Net，结构内部一轮一轮地通过降采样递归地将输入尺寸减半，然后其中每轮的结果又回头通过反卷积将尺寸加倍，作为残差加到该轮的输入上，对于每一轮，可以看作两路的加和，一路基本的卷积和经过一趟尺寸下探到底后再恢复回来的另一路信息，有了第二路信息，能够覆盖到更宽的视野；二、全卷积，模型内部只有卷积、反卷积和池化(Pooling)操作，不包含任何RNN类基础结构，从而达到全并行化计算的效果，能够大幅提升计算速度。

如图2所示，图2为一种UFANS神经网络的部分内部结构图，其中，A表示降维阶段的卷积操作，B表示降维阶段池化层的polling均值，C表示反卷积操作，D表示升维阶段的卷积操作，E表示最后卷积操作。可选的，当预设轮次为2时，PPGs对应的音素序列向量先经过2轮长度减半的卷积操作A和B，得到尺寸为[T/4，F]的O_B2，再经2轮长度加倍的反卷积操作C和D恢复到原来输入的尺寸，得到输出的梅尔倒谱参数MCEPs。在训练人脸特征转换模型的过程中，采用UFANS神经网络可根据输入的音素序列向量进行变换，提高人脸特征转换模型的适应范围。

步骤104、根据所述人脸特征生成人脸图像；

通过人脸重构模型将人脸特征转化成人脸图像，人脸重构模型可以任意选用语音业内常用的经典技术方案，本申请中对人脸重构模型不做具体限定。

步骤105、采用所述多个音频帧和对应的人脸图像，生成视频文件。

上述技术方案通过预设音素识别模型，以帧为粒度确定目标音频数据中的多个音频帧对应的音素后验概率PPGs，根据PPGs确定音频帧的音素特征，再根据音素特征分别生成对应的人脸特征，根据人脸特征生成人脸图像，最后采用目标音频数据和对应的人脸图像生成视频文件。相对于图1所示的现有技术中的音频到视频的虚拟主播生成方法，由于PPGs只体现发音内容而不含发音人个性信息，本方法具有以下优点：1、非特定人相关，支持输入任意人的语音数据或文本数据；2、鲁棒：简化了向量特征空间，便于人脸特征转换模型学习与人脸图像特性的稳定映射关系，生成的虚拟主播发音与人脸图像相适应。

图3为本发明实施例提供的另一种视频生成方法的示意图，具体的，该方法包括：获取音频数据；通过预设语音识别模型确定音频数据中多个音频帧的音素特征；通过预设人脸特征转换模型对每帧所述音素特征进行处理，得到相应的每帧人脸特征；通过预设人脸重构模型确定每帧所述人脸特征对应的人脸图像；将连续帧的所述人脸图像和所述音频数据打包成视频文件。

相对于现有技术中的音频到视频的虚拟主播生成方法，本方法具有以下优点：1、非特定人相关，由于PPGs只体现发音内容而不含发音人个性信息，所以本申请中的视频生成方法支持输入任意人的语音，经过语音识别模型生成等效的PPGs，再经由后续步骤生成图像；2、鲁棒：PPGs简化了向量特征空间，便于人脸特征转换模型学习PPGs与人脸图像特性的稳定映射关系，生成的虚拟主播发音与人脸图像相适应。

图4为本发明实施例提供的另一种视频生成方法的示意图，在图3所示的视频生成方法的基础上，本发明提供了另一种视频生成方法，该方法主要用于文本数据输入，为了进一步简化向量特征，便于人脸特征转换模型学习PPGs与人脸图像特性的稳定映射关系，该方法包括训练阶段和合成阶段两个部分：

训练阶段的核心是训练人脸特征转换模型将PPGs转换为人脸特征，训练阶段需要搜集目标人十五分钟以上含有人脸讲话的视频；提取出音频与图像，分别按等长帧对音频提取语音特征和对图像提取人脸特征，作为训练数据的训练模型。人脸特征转换模型采用UFANS神经网络，训练阶段包括：

获取音频数据；通过预设语音识别模型确定音频数据中多个音频帧的音素特征；对每帧所述音素特征执行向量化处理，得到相应的音素序列向量，具体的，所述向量化处理为One-Hot化向量处理；通过预设人脸特征转换模型对每帧所述音素序列向量进行处理，得到相应的每帧人脸特征；通过预设人脸重构模型确定每帧所述人脸特征对应的人脸图像；将连续帧的所述人脸图像和所述语音信息打包成视频文件。

人脸特征转换模型训练好后，该方法的合成阶段包括：获取文本数据；通过预设语音合成模型确定文本数据中多个音频帧的音素特征；对每帧所述音素特征执行向量化处理，得到相应的音素序列向量，具体的，所述向量化处理为One-Hot化向量处理；通过预设人脸特征转换模型对每帧所述音素序列向量进行处理，得到相应的每帧人脸特征；通过预设人脸重构模型确定每帧所述人脸特征对应的人脸图像；将连续帧的所述人脸图像和所述语音信息打包成视频文件。

相对于现有技术中的音频到视频的虚拟主播生成方法，本方法具有以下优点：1、非特定人相关，支持输入任意人的语音数据或文本数据；2、鲁棒：简化了向量特征空间，便于人脸特征转换模型学习与人脸图像特性的稳定映射关系，生成的虚拟主播发音与人脸图像相适应。

在图3所示的音频驱动方法和图4所示的文本驱动方法两种场景中，其具体实施步骤类似，可以融合为一种双模态视频生成方法，图5所示为本发明实施例提供的另一种视频生成方法的示意图，该方法包括训练阶段和使用阶段，具体步骤在此不做重复描述。训练阶段搜集目标人十五分钟以上含有人脸讲话的视频；提取出音频与图像，分别按等长帧对音频提取语音特征和对图像提取人脸特征，作为训练数据的训练模型。人脸特征转换模型采用UFANS神经网络，训练完成后该方法同时支持音频和文本的输入，相对于现有技术中的音频到视频的虚拟主播生成方法，本方法具有以下优点：1、非特定人相关，支持输入任意人的语音数据或文本数据；2、鲁棒：简化了向量特征空间，便于人脸特征转换模型学习与人脸图像特性的稳定映射关系，生成的虚拟主播发音与人脸图像相适应。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

图6为本发明实施例提供的一种视频生成装置的结构框图，视频生成装置可以包括：

数据获取模块601，用于获取输入信息；

音素特征获取模块602，用于根据所述输入信息确定目标音频数据，并以帧为粒度确定所述目标音频数据中的多个音频帧的音素特征；

人脸特征获取模块603，用于根据所述多个音频帧的音素特征，分别生成对应的人脸特征；

人脸图像获取模块604，用于根据所述人脸特征生成人脸图像；

视频文件生成模块605，用于采用所述多个音频帧和对应的人脸图像，生成视频文件。

在一种可选实施例中，所述音素特征获取模块602可以包括：

在一种可选实施例中，所述PPGs包括针对预设音素列表中各个音素的概率，所述音素特征获取子模块可以包括：

独热编码单元，用于对所述PPGs进行独热编码处理；

在一种可选实施例中，所述人脸特征获取模块603可以包括：

在一种可选实施例中，所述预设人脸特征转换模型通过如下模块训练得到：

在一种可选实施例中，所述样本视频的时间长度大于预设时长。

在一种可选实施例中，所述输入信息包括输入音频数据或输入文本数据；所述音素特征获取模块602可以包括：

基于上述说明，本发明的技术方案中，通过预设音素识别模型，以帧为粒度确定目标音频数据中的多个音频帧对应的音素后验概率PPGs，根据PPGs确定音频帧的音素特征，再根据音素特征分别生成对应的人脸特征，根据人脸特征生成人脸图像，最后采用目标音频数据和对应的人脸图像生成视频文件。相对于图1所示的现有技术中的音频到视频的虚拟主播生成方法，由于PPGs只体现发音内容而不含发音人个性信息，本发明具有以下优点：1、非特定人相关，支持输入任意人的语音数据或文本数据；2、鲁棒：简化了向量特征空间，便于人脸特征转换模型学习与人脸图像特性的稳定映射关系，生成的虚拟主播发音与人脸图像相适应。

本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述视频生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频生成方法和一种视频生成装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频生成方法，其特征在于，包括：

获取输入信息；

根据所述人脸特征生成人脸图像；

采用所述多个音频帧和对应的人脸图像，生成视频文件。

2.根据权利要求1所述的方法，其特征在于，所述以帧为粒度确定所述目标音频数据中的多个音频帧的音素特征，包括：

根据所述音频帧对应的PPGs，确定所述音频帧的音素特征。

3.根据权利要求2所述的方法，其特征在于，所述PPGs包括针对预设音素列表中各个音素的概率，所述根据所述音频帧对应的PPGs，确定所述音频帧的音素特征，包括：

对所述PPGs进行独热编码处理；

4.根据权利要求1所述的方法，其特征在于，所述根据所述多个音频帧的音素特征，分别生成对应的人脸特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述预设人脸特征转换模型通过如下方式训练得到：

获取样本视频，所述样本视频为含有讲话人人脸的视频；

提取所述样本视频的音频数据和视频数据；

6.根据权利要求5所述的方法，其特征在于，所述样本视频的时间长度大于预设时长。

7.根据权利要求1所述的方法，其特征在于，所述输入信息包括输入音频数据或输入文本数据；

所述根据所述输入信息确定目标音频数据，包括：

8.一种视频生成装置，其特征在于，包括：

数据获取模块，用于获取输入信息；

人脸图像获取模块，用于根据所述人脸特征生成人脸图像；

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的视频生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的视频生成方法的步骤。