CN114550239A

CN114550239A - 视频生成方法及装置、存储介质、终端

Info

Publication number: CN114550239A
Application number: CN202210103257.4A
Authority: CN
Inventors: 沈伟林; 徐清; 宣晓华
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-27

Abstract

一种视频生成方法及装置、存储介质、终端，所述方法包括:获取待处理文本；将所述待处理文本转化为音节序列；将所述音节序列输入至视频生成模型，以得到所述视频生成模型输出的虚拟数字对象的视频；其中，所述视频生成模型是采用第一训练数据对第一预设模型进行训练得到的，所述第一训练数据包括第一样本音节序列和第一样本图像序列，所述第一样本音节序列是由第一样本文本转化得到的，所述第一样本图像序列中的图像包含所述虚拟数字对象脸部的影像，且所述第一样本图像序列中所述虚拟数字对象的唇形与所述第一样本文本相匹配。通过本发明的方案，可以高效地生成虚拟数字对象的唇形视频。

Description

视频生成方法及装置、存储介质、终端

技术领域

本发明涉及一种人工智能技术领域，尤其涉及一种视频生成方法及装置、存储介质、终端。

背景技术

随着虚拟数字对象技术的发展，越来越多的领域应用虚拟数字对象与用户进行交互，例如，虚拟主持人和虚拟主播等。其中，虚拟数字对象的视频是否真实自然是影响用户交互体验的重要因素。现有技术中，生成虚拟数字对象的唇形视频的效率较低，例如，虚拟数字对象的唇形视频依赖于特定说话人的限制，或者，虚拟数字对象的唇形视频依赖于复杂的人脸模型等。

因此，亟需一种视频生成方法，能够高效地生成真实自然的虚拟数字对象的唇形视频。

发明内容

本发明解决的技术问题是提供一种视频生成方法，能够高效地生成真实自然的虚拟数字对象的唇形视频。

为解决上述技术问题，本发明实施例提供一种视频生成方法，所述方法包括：获取待处理文本；将所述待处理文本转化为音节序列；将所述音节序列输入至视频生成模型，以得到所述视频生成模型输出的虚拟数字对象的视频；其中，所述视频生成模型是采用第一训练数据对第一预设模型进行训练得到的，所述第一训练数据包括第一样本音节序列和第一样本图像序列，所述第一样本音节序列是由第一样本文本转化得到的，所述第一样本图像序列中的图像包含所述虚拟数字对象脸部的影像，且所述第一样本图像序列中所述虚拟数字对象的唇形与所述第一样本文本相匹配。

可选的，获取待处理文本包括：获取输入音频；对所述输入音频进行语音识别，以得到所述待处理文本。

可选的，所述音节序列包括多个音节标识和每个音节标识的时间信息，所述音节标识用于唯一标识音节，所述时间信息用于指示所述音节在所述待处理文本对应的音频信息中的发音时间，将所述待处理文本转化为音节序列包括：将所述待处理文本转化为音节文本，所述音节文本包括所述多个音节标识；对所述音节文本和所述待处理文本对应的音频信息进行时间对齐处理，以得到所述音节序列。

可选的，对所述音节文本和所述待处理文本对应的音频数据进行时间对齐处理，以得到所述音节序列包括：对所述音节文本和所述音频数据进行时间对齐处理，以得到时间对齐后的音节文本，所述时间对齐后的音节文本包括所述音节标识与所述发音时间之间的对应关系；按照预设的时间步长对所述对齐后的音节文本进行采样，以得到所述音节序列。

可选的，将所述待处理文本转化为音节文本包括：将所述待处理文本转化为初始音节文本，所述初始音节文本包括多个音节；读取预先构建的音节字典；根据所述初始音节文本中每个音节在所述音节字典中的位置，确定该音节对应的音节标识。

可选的，待处理文本包含汉字和汉字以外的其他类型的文字，其中，所述其他类型的文字的字数占所述待处理文本的总字数的比例小于或等于预设的比例阈值，将所述待处理文本转化为初始音节文本包括：将所述其他类型的文字替换为发音相近的汉字，以得到替换后的待处理文本；将所述替换后的待处理文本输入至汉字拼音转换模型，以得到所述初始音节文本。

可选的，所述音节标识为对应的音节在所述音节字典中的位置编码。

可选的，所述视频生成模型包括：特征提取模块，用于至少根据所述音节序列计算特征张量；预测模块，用于根据所述特征张量，计算唇形图像序列，其中，所述唇形图像序列中的图像包含所述虚拟数字对象的唇形的影像；生成模块，用于根据所述唇形图像序列更新预设图像序列中图像的唇形区域，以得到所述视频，其中，所述预设图像序列中的图像包含所述虚拟数字对象的脸部的影像。

可选的，所述特征张量是根据音节特征张量和像素特征张量计算得到的，所述特征提取模块包括：第一特征提取单元和第二特征提取单元，其中，所述第一特征提取单元用于根据所述音节序列计算所述音节特征张量；所述第二特征提取单元用于根据所述预设图像序列中图像的预设区域的像素值计算像素特征张量，其中，所述预设区域为所述虚拟数字对象的脸部区域中除所述唇形区域以外的区域。

可选的，所述视频生成模型的训练方法包括：获取所述第一训练数据；采用所述特征提取模块根据所述第一样本音节序列计算样本特征张量；采用所述预测模块根据所述样本特征张量计算预测样本图像序列；根据所述预测样本图像序列和所述第一样本图像序列，计算预测损失；根据所述预测样本图像序列和所述第一样本音节序列，计算对齐损失，所述对齐损失用于指示所述预测样本图像序列和所述第一样本音节序列在时间上的差异；根据训练损失更新所述特征提取模块和所述预测模块，其中，所述训练损失是根据所述预测损失和所述对齐损失计算得到的。

可选的，根据训练损失更新所述特征提取模块和所述预测模块之前，所述方法还包括：获取第二训练数据，所述第二训练数据包括：第二样本音节序列、第二样本图像序列和对齐标签，其中，所述第二样本音节序列是根据第二样本文本转化得到的，所述第二样本图像序列包含所述虚拟数字对象的唇形的影像，所述第二样本图像序列中所述虚拟数字对象的唇形与所述第二样本文本相匹配，所述对齐标签用于指示所述第二样本图像序列与所述第二样本音节序列是否是时间对齐的；采用所述第二训练数据对第二预设模型进行训练，以得到对齐判别模块，所述对齐判别模块用于根据所述预测样本图像序列和所述第一样本音节序列，计算所述对齐损失。

本发明实施例还提供一种视频生成装置，所述装置包括：文本获取模块，用于获取待处理文本；音节转化模块，用于将所述待处理文本转化为音节序列；生成模块，用于将所述音节序列输入至视频生成模型，以得到所述视频生成模型输出的虚拟数字对象的视频；其中，所述视频生成模型是采用第一训练数据对第一预设模型进行训练得到的，所述第一训练数据包括第一样本音节序列和第一样本图像序列，所述第一样本音节序列是由第一样本文本转化得到的，所述第一样本图像序列中的图像包含所述虚拟数字对象脸部的影像，且所述第一样本图像序列中所述虚拟数字对象的唇形与所述第一样本文本相匹配。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的视频生成方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的视频生成方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例的方案中，将待处理文本转化为音节序列，并将音节序列输入至视频生成模型，以得到视频生成模型输出的虚拟数字对象的视频。由于视频生成模型是采用第一训练数据对第一预设模型进行训练得到的，第一训练数据包括第一样本音节序列和第一样本图像序列，第一样本音节序列是由第一样本文本转化得到的，虚拟数字对象第一样本图像序列中虚拟数字对象的唇形与第一样本文本相匹配，因此，第一预设模型能够学习到音节序列和虚拟数字对象的唇形区域的像素信息之间的映射关系。进一步地，训练得到的视频生成模型能够基于待处理文本的音节序列计算得到相应的图像序列，且图像序列中虚拟数字对象的唇形与待处理文本的发音是相匹配的。

一方面，较之现有的必须依赖于特定说话人的音频特征来驱动虚拟数字对象的方案相比，本发明实施例的方案可以基于文本生成虚拟数字对象的唇形视频，实现说话人和视频生成模型的解耦，通用性更好，有利于提高虚拟数字对象视频生成的效率。

另一方面，较之现有的通过模型输出的控制器的驱动参数进一步驱动人脸模型，以得到唇形视频的方案相比，本实施例的方案中视频生成模型学习的是音节序列和图像像素信息之间的映射关系，因此视频生成模型可以直接输出虚拟数字对象的视频，能够更加高效地生成虚拟数字对象的视频。

另外，本发明实施例的方案中，视频生成模型直接输出虚拟数字对象的视频，也即，虚拟数字对象整个唇形区域的像素均是根据音节序列得到的。较之现有的根据驱动参数驱动人脸模型中部分参数点的方案，本发明实施例的方案能够从像素级别体现虚拟数字对象唇形区域的姿态。换言之，输出的视频中更加能够体现虚拟数字对象唇形区域的运动细节，因此生成的虚拟数字对象的唇形视频更加真实自然。

进一步，本发明实施例的方案中，将待处理文本转化为音节文本，对音节文本和待处理文本对应的音频信息进行时间对齐处理，以得到音节序列。

采用这样的方案，可以从提取到音频信息中与唇形运动最相关的信息，也即，发音和发音时间，以便后续视频生成模型输出的唇形视频既与音频信息的内容相匹配，且时间上也是对齐的。

进一步，本发明实施例的方案，视频生成模型包括特征提取模块、预测模块和生成模块，预测模块基于特征提取模块计算唇形图像序列，生成模块用于根据唇形图像序列更新预设图像序列中图像的唇形区域，以得到视频。采用这样的方案，可以使虚拟数字对象的唇形运动与待处理文本的发音相匹配，又可以尽可能地保留预设图像序列中除唇形区域以外的脸部姿态，可以使得虚拟数字对象的视频更加真实自然。

进一步，本发明实施例的方案，特征提取模块包括：第一特征提取单元和第二特征提取单元，第一特征提取单元用于根据音节序列计算音节特征张量；第二特征提取单元用于根据预设图像序列中图像的预设区域的像素值计算像素特征张量，其中，预设区域为虚拟数字对象的脸部区域中除唇形区域以外的区域。也即，本发明实施例的方案中，唇形图像序列是基于待处理文本的音节序列和脸部区域中除唇形区域以外的其他区域的像素信息计算得到的。采用这样的方案，采用唇形图像序列更新预设图像序列中图像的唇形区域时，可以使唇形区域与预设区域连接处的图像质量更高，有利于进一步使得虚拟数字对象的视频更加真实自然。

进一步，本发明实施例的方案中，采用第一训练数据对第一预设模型进行训练时，除了计算预测损失，还根据预测样本图像序列和第一样本音节序列，计算对齐损失，然后根据对齐损失和预测损失计算得到最终的训练损失，并采用训练损失更新特征提取模块和预测模块。采用这样的方案，可以视频生成模型输出的唇形图像序列与音节序列在时间上是对齐的，也即，使得输出的视频与待处理文本对应的音频信息是对齐的，有利于提高虚拟数字对象的视频的真实度和自然度。

附图说明

图1是本发明实施例中一种视频生成方法的流程示意图；

图2是图1中步骤S102的一种具体实施方式的流程示意图；

图3是本发明实施例中一种视频生成模型的结构示意图；

图4是本发明实施例中一种视频生成模型的训练方法的流程示意图；

图5是本发明实施例中一种对齐判别模型的结构示意图；

图6是本发明实施例中一种视频生成装置的结构示意图。

具体实施方式

如背景技术所述，亟需一种视频生成方法，能够高效地生成真实自然的虚拟数字对象的唇形视频。

本发明的发明人研究发现，现有技术的方案中，为了实现端到端(end-to-end)地生成虚拟数字对象的视频，通常训练生成基于语音频谱生成视频的模型，也即，模型的输入为语音频谱(例如，梅尔频谱)，模型可以提取语音频谱中的音频特征(例如，梅尔频谱特征)，并根据音频特征输出视频。由于梅尔频谱特征不仅包含了语音数据的内容信息，还包括特定说话人的音频信息，因此这样的方案需要依赖特定的说话人，不利于视频生成效率的提高。

此外，现有技术的方案中，还可以针对不同的虚拟数字对象建立人脸模型，通过人脸模型输出的驱动参数调整人脸模型中多个参数点的位置，以得到虚拟数字对象的视频。采用这样的方案需要针对不同的虚拟数字对象专门构建人脸模型，因此这种方案过程复杂，视频生成效率也较低。此外，由于人脸模型中可驱动的参数点的数量通常是较少的，唇形区域的参数点只是可驱动的参数点的一部分，因此这样的方案只能从整体上反映脸部较大范围的运动，颗粒度较大，无法体现虚拟数字对象“说话”时脸部更为细节的运动，自然度有待提高。

为了解决上述技术问题，本发明实施例提供一种视频生成方法，本发明实施例的方案中，将待处理文本转化为音节序列，并将音节序列输入至视频生成模型，以得到视频生成模型输出的虚拟数字对象的视频。由于视频生成模型是采用第一训练数据对第一预设模型进行训练得到的，第一训练数据包括第一样本音节序列和第一样本图像序列，第一样本音节序列是由第一样本文本转化得到的，虚拟数字对象第一样本图像序列中虚拟数字对象的唇形与第一样本文本相匹配，因此，第一预设模型能够学习到音节序列和虚拟数字对象的唇形区域的像素信息之间的映射关系。进一步地，训练得到的视频生成模型能够基于待处理文本的音节序列计算得到相应的图像序列，且图像序列中虚拟数字对象的唇形与待处理文本的发音是相匹配的。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参照图1，图1是本发明实施例中一种视频生成方法的流程示意图。所述方法可以由终端执行，所述终端可以是各种恰当的终端，例如，可以是手机、计算机、物联网设备等，但并不限于此。通过本发明实施例的方案，可以生成虚拟数字对象的视频，其中，虚拟数字对象可以是虚拟主播、虚拟教师和虚拟主持人等，但并不限于此。

图1示出的视频生成方法可以包括：

步骤S101：获取待处理文本；

步骤S102：将所述待处理文本转化为音节序列；

步骤S103：将所述音节序列输入至视频生成模型，以得到所述视频生成模型输出的虚拟数字对象的视频。

可以理解的是，在具体实施中，所述方法可以采用软件程序的方式实现，该软件程序运行于芯片或芯片模组内部集成的处理器中；或者，该方法可以采用硬件或者软硬结合的方式来实现。

在步骤S101的具体实施中，可以获取输入信息，待处理文本可以是根据输入信息得到的。具体而言，可以从需要生成虚拟数字对象的视频的用户端获取输入信息。输入信息可以是基于麦克风等设备实时采集得到的，也可以基于键盘等设备实时输入的，还可以是预先采集或录制并通过有限或无线的方式传输至执行本实施例方案的终端的。

在一个具体的例子中，所述输入信息可以是以文本形式表现的输入文本，则待处理文本即为输入文本。进一步地，可以对待处理文本进行语音合成处理，以得到待处理文本对应的音频信息。

在另一个具体的例子中，所述输入信息也可以是以声音形式表现的输入音频。进一步地，可以对输入音频进行语音识别处理，以得到待处理文本。

在又一个具体的例子中，输入信息也可以是多模态信息，也即，输入信息包括输入文本和输入音频，其中，输入文本和输入音频的内容是相同的，但表现形式不同。也即，输入文本为待处理文本，输入音频为待处理文本对应的音频信息。

需要说明的是，本实施例对于待处理文本的长度和输入音频的时长并不进行限制。

因此，本实施例的方案中，用户可以通过各种模态的输入驱动虚拟数字对象的唇形运动。

在步骤S102的具体实施中，可以将待处理文本转化为音节序列，音节序列包括多个音节标识和每个音节标识的时间信息。

具体而言，音节标识可以用于唯一标识音节(Syllable)，音节标识可以是音节本身，也可以是字符等，但不限于此。可以理解的是，音节是语言中最小音义结合体的单位，音节通常是由单个辅音音素和至少一个元音音素组合得到，但并不限于此，例如，单个元音音素也可以自成音节。

进一步地，每个音节标识的时间信息可以用于指示该音节标识对应的音节在待处理文本对应的音频信息中的发音时间。其中，发音时间可以是发音的时间区间。因此，根据音节序列得到的视频可以与音频信息保持同步。

在一个具体的例子中，音节序列包括多组数据，每组数据包括：单个音节标识和对应的时间码，多组数据可以根据时间码按照时序排列的，所述时间码可以用于指示音节在音频信息中发音的起始时间。更进一步地，后续视频生成模型输出的各帧图像也可以具有时间码，由此可以根据图像的时间码与音节序列的时间码进行时间对齐，以使得视频与音频保持同步。

参照图2，图2是图1中步骤S102的一种具体实施方式的流程示意图。下面结合图2对步骤S102进行非限制性的说明。

步骤S201：将所述待处理文本转化为音节文本；

步骤S202：对所述音节文本和所述待处理文本对应的音频信息进行时间对齐处理，以得到时间对齐后的音节文本；

步骤S203：按照预设的时间步长对所述对齐后的音节文本进行采样，以得到所述音节序列。

在步骤S201的具体实施中，待处理文本可以是以文字为表现形式的文本，音节文本是以音节标识为表现形式的文本，也即，可以将以文字为表现形式的文本转化为以音节标识为表现形式的文本。

需要说明的是，本实施例对于待处理文本中文字的类型并不进行限制，可以是汉字、英文、日文、法文和拉丁文等等，但并不限于此。音节的类型与文字的类型相匹配，例如，如果待处理文本为汉字文本，则音节可以为拼音；如果待处理文本为英文文本，则音节可以为音标。

具体而言，可以将待处理文本输入至文字音节转化模型，并获取文字音节转化模型输出的初始音节文本，初始音节文本包括多个音节。其中，文字音节转化模型是用于将文字转化为音节的模型。更具体地，文字音节转化模型可以根据每个文字本身以及该文字的上下文确定该文本对应的音节。采用这样的方案有利于更加准确地确定每个文字对应的音节，有效应对一字多音的情况。需要说明的是，如果待处理文本中的文字为声调语言的文字，则初始音节文本中的音节可以带有声调。

更具体地，待处理文本中的标点符号对应的音节可以为静音标签，也即，所述静音标签用于指示待处理文本中的标点符号，换言之，所述静音标签可以用于指示待处理文本对应的音频信息中的静音。

在一个具体的例子中，待处理文本为汉字文本，可以将待处理文本输入至汉字拼音转换模型，并获取汉字拼音转换模型输出的初始音节文本，其中，初始音节文本中的音节可以是带声调的拼音。

进一步地，可以读取预先构建的音节字典，音节字典可以包括多个音节。针对初始音节文本中的每个音节，可以根据该音节在音节字典中的位置，确定该音节对应的音节标识。更具体地，所述音节标识为音节在音节字典中的位置编码，由此可以得到待处理文本的音节文本。

在一个变化例中，待处理文本包含汉字和汉字以外其他类型的文字，例如，可以是英文，其中，其他类型的文字的字数占待处理文本的总字数的比例小于或等于预设的比例阈值。换言之，待处理文本中以汉字为主，且掺杂了少量的其他类型的文字。由此，将待处理文本输入至汉字拼音转换模型之前，可以先将待处理文本中其他类型的文字替换为发音相近的汉字，以得到替换后的待处理文本；然后再将替换后的待处理文本输入至汉字拼音转化模型，以获取初始音节文本。采用这样的方案，可以高效地解决待处理文本中掺杂其他类型文字的情况，无需在训练阶段增加训练样本，更加简便高效。

在其他实施例中，也可以直接根据待处理文本和预先构建的文字音节对应字典，确定音节文本。

具体而言，预先构建的文字音节对应字典可以包括多个预设文字，每个预设文字具有对应的音节组。其中，如果文字为声调语言的文字，则音节组中包括多个音节，且同一个音节组中的音节相同但声调不同；如果文字为非声调语言，则音节组中可以包括单个音节。进一步地，可以通过查找的方式，确定待处理文本中每个文字对应的音标在文字音节对应字典中的位置，从而得到音节文本。

需要说明的是，与预先构建的文字音节对应字典相比，上文中预先构建的音节字典仅包含音节，不包含文字，也不包含文字和音节的对应关系。与在预先构建的文字音节对应字典中进行查找，以得到音节文本的方案相比，上文中先将待处理文本输入至文字音节转换模型，再根据文字音节转化模型输出的初始音节文本中确定音节文本的方案更加准确，有利于解决一字多音的问题。

在步骤S202的具体实施中，可以对音节文本和待处理文本对应的音频数据进行时间对齐处理，以得到时间对齐后的音节文本。其中，时间对齐后的音节文本可以包括音节标识与发音时间之间的对应关系，也即，可以确定每个音节标识对应的音节在音频信息中发音的时间区间。

在一个具体的例子中，可以将音节文本输入至蒙特利尔强制对齐(MontrealForced Alignment，MFA)模型，并获取MFA模型输出的时间对齐后的音节文本。

在步骤S203的具体实施中，可以按照预设的时间步长对对齐后的音节文本进行采样，以得到音节序列。更具体地，所述音节序列可以是一维向量，其中，连续多个相同的音节标识的数量可以用于指示该音节标识对应音节的发音时间。由此，本实施例中的音节序列既可以体现待处理文本的音节，又可以体现每个音节在音频信息中的发音时间，有利于减少视频生成模型的输入数据量，提高视频生成效率。

在实际应用中，可以设置预设长度的时间窗，并对时间窗内的音节文本进行采样，以得到时间窗内的音节序列。当前时间窗内的音节序列送入视频生成模型后，可以滑动时间窗，以得到下一个时间窗内的音节序列。

继续参考图1，在步骤S103的具体实施中，可以将音节序列输入至视频生成模型，以得到视频生成模型输出的虚拟数字对象的视频。具体而言，可以将时间窗内的音节序列输入至视频生成模型，以得到时间窗内的图像序列。其中，时间窗内的图像序列中的每张图像可以是根据时间窗内的音节序列这一整体得到的，采用这样的方案，有利于提高图像序列中体现的唇形运动的连贯性。

更具体而言，时间窗内的音节序列包括多个音节子序列，每个音节子序列中的音节标识相同且连续，视频生成模型输出的时间窗内的图像序列可以包括多个图像子序列，图像子序列和音节子序列一一对应。其中，图像子序列中包含的图像的数量由对应的音节子序列中音节标识的数量决定，也即，图像子序列由音节子序列对应的音节的发音时间确定，多个图像子序列的排列顺序由音节子序列对应的音节的发音时刻确定。

参照图3，图3是本发明实施例中一种视频生成模型的结构示意图。如图3所示，视频生成模型可以包括：特征提取模块31、预测模块32和生成模块33。下面结合图3示出的视频生成模型的结构对视频生成模型对音节序列的处理过程进行说明。

特征提取模块31可以用于至少根据音节序列计算特征张量。

在一个非限制性的例子中，特征提取模块31包括第一特征提取单元311和第二特征提取单元312。

一方面，可以将音节序列输入至第一特征提取单元311，第一特征提取单元311可以用于根据音节序列计算音节特征张量，并输出音节特征张量。

具体而言，第一特征提取单元311可以包括：嵌入层、第一卷积-采样组和第一拉长层。

其中，嵌入层用于将一维的音节序列进行补齐处理，以将一维的音节序列转化为三维的音节张量。

进一步地，嵌入层的输出连接第一卷积-采样组的输入，第一卷积-采样组用于基于三维的音节张量计算多维的音节特征张量。

具体而言，第一卷积-采样组包括多个第一卷积采样单元，每个卷积-采样单元可以包括单个卷积层和单个下采样层，其中，每个第一卷积-采样单元中的卷积层的输出连接下采样层的输入，下采样层的输出连接下一个第一卷积-采样单元中卷积层的输入。

进一步地，第一卷积-采样组的输出连接第一拉长层的输入，拉长层用于将多维的音节特征张量拉伸为一维的音节特征张量。更具体地，第一拉长层的输出即为第一特征提取单元311的输出。

另一方面，可以将预设图像序列输入至第二特征提取单元312，第二特征提取单元312可以用于根据预设图像序列中图像的预设区域的像素值计算像素特征张量。

具体而言，预设图像序列中的图像包含虚拟数字对象脸部区域的影像，预设区域可以为虚拟数字对象的脸部区域中除唇形区域以外的区域。在实际应用中，可以对预设图像序列中的图像进行人脸识别，以得到脸部区域，可以将脸部区域的上半部分作为预设区域，将脸部区域的下半部分作为唇形区域，但并不限于此。

在具体实施中，可以将预设图像序列中预设区域的像素信息输入至第二特征提取单元312，以得到第二特征提取单元312输出的像素特征张量。

更具体地，第二特征提取单元312可以包括：第一尺寸调整层、第二卷积-采样组和第二拉长层。

其中，第一尺寸调整层可以用于将三通道的图像转化为多维的像素张量，其中，像素张量的维数大于3，也即，第一尺寸调整层用于增加图像的通道数。

进一步地，第一尺寸调整层的输出连接第二卷积-采样组的输入，第二卷积-采样组用于基于多维的像素张量计算多维的像素特征张量。

具体而言，第二卷积-采样组可以包括多个第二卷积-采样单元，关于第二卷积-采样组和第二卷积-采样单元的更多描述可以参照第一卷积-采样组和第一卷积-采样单元的相关描述，在此不再赘述。

进一步地，第二卷积-采样组的输出连接第二拉长层的输入，第二拉长层用于将多维的像素特征张量拉伸为一维的像素特征张量。更具体地，第二拉长层的输出即为第二特征提取单元312的输出。

需要说明的是，在其他实施例中，特征提取模块31可以仅包含第一特征提取单元311。如果特征提取模块31仅包含第一特征提取单元311，则特征提取模块31输出的特征张量即为音节特征张量。

进一步地，预测模块32的输入与特征提取模块31的输出连接，预测模块32可以用于根据特征张量计算唇形图像序列，唇形图像序列中的图像包含虚拟数字对象的唇形区域的影像。其中，特征张量可以是根据音节特征张量和像素特征张量计算得到的，例如，可以是将音节特征张量和像素特征张量拼接得到的。

具体而言，预测模块32可以包括：线性映射层、第二尺寸调整层、采样-卷积组和第三尺寸调整层。

其中，线性映射层用于将一维的特征张量进行线性变化，以得到变换后的一维特征张量。

进一步地，线性映射层的输出与第二尺寸调整层的输入连接，第二尺寸调整层用于将变换后的一维特征张量转化为三维特征张量。

进一步地，第二尺寸调整层的输出连接采样-卷积组的输入，采样-卷积组用于根据三维特征张量计算多维的像素张量。其中，采样-卷积组包括多个采样卷积单元，每个采样卷积单元可以包括单个上采样层和单个卷积层，其中，每个采样卷积单元中的上采样层的输出连接卷积层的输入，卷积层的输出连接下一个采样卷积单元中的上采样层的输入。

进一步地，采样-卷积组的输出连接第三尺寸调整层的输入，第三尺寸调整层用于根据多维的像素张量计算三维的像素张量，以得到唇形图像序列，唇形图像序列包含多张唇形图像。也即，第三尺寸调整层的输出即为预测模块32的输出。

进一步地，生成模块33的输入与预测模块32的输出连接，生成模块33可以用于根据唇形图像序列更新预设图像序列中图像的唇形区域，以得到视频。具体而言，可以将预设图像序列中的唇形区域替换为唇形图像序列，以得到输出图像序列，从而得到视频。需要说明的是，预设图像序列中图像的数量和唇形图像序列中图像的数量是相同的。

由上，本实施例的方案中，视频生成模块得到的视频中既可以保留预设图像序列中虚拟数字对象除唇形区域以外的脸部姿态，又可以使唇形运动与待处理文本的音节相匹配。

进一步地，还可以根据视频生成模块输出的视频以及待处理文本对应的音频信息，得到最终输出的多模态数据，多模态数据可以为音视频数据。

参照图4，图4是本发明实施例中一种视频生成模型的训练方法的流程示意图，下面结合图4对本发明实施例中视频生成模型的训练方法进行非限制性的说明。

步骤S401：获取第一训练数据；

步骤S402：采用所述特征提取模块根据所述第一样本音节序列计算样本特征张量；

步骤S403：采用所述预测模块根据所述样本特征张量计算预测样本图像序列；

步骤S404：根据所述预测样本图像序列和所述第一样本图像序列，计算预测损失；

步骤S405：根据所述预测样本图像序列和所述第一样本音节序列，计算对齐损失；

步骤S406：根据训练损失更新所述特征提取模块和所述预测模块，其中，所述训练损失是根据所述预测损失和所述对齐损失计算得到的。

在步骤S401的具体实施中，第一训练数据可以包括第一样本音节序列和第一样本图像序列，其中，第一样本音节序列是由第一样本文本转化得到的，第一样本图像序列中的图像包含虚拟数字对象脸部区域的影像，且第一样本图像序列中虚拟数字对象的唇形与第一样本文本相匹配。

在具体实施中，可以获取样本视频，所述样本视频可以包括虚拟数字对象脸部区域的影像。更具体地，样本视频可以是由真人驱动虚拟数字对象，并对虚拟数字对象进行录制得到的。

进一步地，可以提取样本视频中的音频信息，以得到第一样本音频；然后可以对第一样本音频进行语音识别处理，以得到第一样本文本。

进一步地，可以将第一样本文本转化为第一样本音节序列。需要说明的是，将第一样本文本转化为第一样本音节序列的具体过程可以参照上文关于步骤S102的相关描述，在此不再赘述。

进一步地，可以从样本视频中提取初始样本图像序列，并对初始样本图像序列中的每帧图像进行人脸检测，以得到第一样本图像序列。

进一步地，可以将第一样本图像序列中的每张图像进行分割，以得到样本输入图像序列和样本标签图像序列。其中，样本标签图像序列为第一样本图像序列中每张图像的唇形区域，样本输入图像序列为第一样本图像序列中每张图像的预设区域。更具体地，样本输入图像序列可以是第一样本图像序列中图像的上半部分，样本标签图像序列可以是第一样本图像序列中图像的下半部分。

需要说明的是，在训练过程中，样本标签图像序列为用于训练第一预设模型的标签，样本输入图像序列为训练过程中模型的输入。

在具体实施中，可以按照预设的时间窗对第一样本音节序列和第一样本图像序列进行划分，以得到时间窗内的第一样本音节序列和第一样本图像序列。例如，时间窗长度为200毫秒，时间窗内的第一样本音节序列可以包括16个音节标识，以及时间窗内的第一样本图像序列可以包括5张三通道的图像。

在步骤S402的具体实施中，采用特征提取模块根据第一样本音节序列计算样本特征张量。

在步骤S403的具体实施中，可以采用预测模块根据样本特征张量计算预测样本图像序列。

关于特征提取模块和预测模块的具体结构可以参照上文关于图3的具体描述。下面以16×1的第一样本音节序列和5×96×96×3的第一样本图像序列为例，对步骤S402和步骤S403进行非限制性的说明。其中，16×1的第一样本音节序列可以是时间窗内的第一样本音节序列，5×96×96×3的第一样本图像序列即为上述对应的5张三通道的图像。

在具体实施中，可以将16×1的第一样本音节序列inp1输入嵌入层，以得到16×80×1的样本音节张量。

将16×80×1的样本音节张量输入第一卷积-采样组，以得到2×10×16的多维的样本音节特征张量。

将2×10×16的多维样本音节特征张量输入至第一拉长层，以得到1×320的一维的样本音节特征张量f1。

提取5×96×96×3的第一样本图像序列中的上半部分，以得到5×96×48×3的样本输入图像序列inp2，其中，5×96×96×3的第一样本图像序列中的下半部分即为样本标签图像序列oup1。

将5×96×48×3的样本输入图像序列inp2输入第一尺寸调整层，以得到96×48×15的多维样本像素张量。

将96×48×15的多维样本像素张量输入至第二卷积-采样组，以得到6×3×16的多维样本像素特征张量。

将6×3×16的多维样本像素特征张量输入至第二拉长层，以得到1×288的一维样本像素特征张量f2。

进一步地，可以将一维样本音节特征张量f1和一维样本像素特征张量f2进行拼接，以得到1×608的样本特征张量f。

进一步地，将1×608的样本特征张量f输入至线性映射层，以得到1×288的一维样本特征张量。

进一步地，将1×288的一维样本特征张量输入至第二尺寸调整层，以得到6×3×16的三维样本特征张量。

进一步地，将6×3×16的三维样本特征张量输入至采样-卷积组，以得到96×48×15的多维样本像素张量。

进一步地，将96×48×15的多维样本像素张量输入至第三尺寸调整层，以得到5×96×48×3的三维样本像素张量，由此得到16×1的第一样本音节序列对应的预测样本图像序列pred1。

在步骤S404的具体实施中，可以根据预测样本图像序列和第一样本图像序列，计算预测损失。

在上文所举的例子中，可以根据预测样本图像序列pred1和样本标签图像序列oup1计算预测损失。

在步骤S405的具体实施中，可以根据预测样本图像序列和第一样本音节序列，计算对齐损失。所述对齐损失用于指示所述预测样本图像序列和所述第一样本音节序列在时间上的差异。在上文的例子中，可以基于预测样本图像序列pred1和第一样本音节序列inp1计算对齐损失。

具体而言，可以将预测样本图像序列和第一样本音节序列输入至对齐判别模型，以得到对齐判别模型输出的对齐损失。其中，对齐判别模型可以是预先训练得到。由上，本实施例的方案中，在视频生成模型的训练过程中，采用预先构建的对齐判别模型来判断第一样本音节序列和预测样本音节序列在时间上是否是对齐的，从而使得训练得到的视频生成模型可以基于待处理文本的音节序列，计算得到时间对齐的唇形图像序列。

参照图5，图5示出了本发明实施例中一种对齐判别模型的结构示意图。对齐判别模型可以包括：

对齐特征提取模块51，用于根据所述第一样本音节序列和所述预测样本图像序列计算对齐特征张量；

判别模块52，用于根据对齐特征张量，计算对齐损失。

其中，对齐特征提取模块51包括：第一对齐特征提取单元511，用于根据第一样本音节序列计算第一对齐特征张量；第二对齐特征提取单元512，用于根据预测样本图像序列计算第二对齐特征张量。

关于第一对齐特征提取单元511的具体结构可以参照图3中关于第一特征提取单元311的相关描述，关于采用第一对齐特征提取单元511计算第一对齐特征张量的具体过程可以参照图4中关于步骤S402的相关描述，在此不再赘述。

关于第二对齐特征提取单元512的具体结构可以参照图3中关于第二特征提取单元312的相关描述，关于采用第二对齐特征提取单元512计算第二对齐特征张量的具体过程可以参照图4中关于步骤S403的相关描述，在此不再赘述。需要说明的是，第二特征提取单元312用于基于预设图像序列计算像素特征张量，也即，第二特征提取单元312的输入为预设图像序列。与第二特征提取单元312的不同之处在于，第二对齐特征提取单元512的输入是预测样本图像序列。换言之，在视频生成模型的训练过程中，第二特征提取单元312的输入为样本输入图像序列，第二对齐特征提取单元512的输入为预测样本图像序列。

进一步地，可以根据第一对齐特征张量和第二对齐特征张量计算得到对齐特征张量，例如，可以将第一对齐特征张量和第二对齐特征张量进行拼接，以得到对齐特征张量。

进一步地，可以将对齐特征张量对输入至判别模块52，以得到判别模块52输出的对齐损失。其中，所述判别模块52可以是线性分类器。

下面就对齐判别模型的训练过程进行说明。

对齐判别模型可以是采用第二训练数据对第二预设模型进行训练得到的。

具体而言，第二训练数据包括：第二样本音节序列、第二样本图像序列和对齐标签。其中，所述第二样本音节序列是根据第二样本文本转化得到的，所述第二样本图像序列包含虚拟数字对象的唇形的影像，所述第二样本图像序列中虚拟数字对象的唇形与所述第二样本文本相匹配，对齐标签用于指示第二样本图像序列与第二样本音节序列是否是时间对齐的。关于第二样本音节序列、第二样本文本和第二样本图像序列的更多内容可以参照上文关于步骤S102以及第一训练数据的相关描述，在此不再赘述。

在具体实施中，可以基于上述的样本输入视频构建第二训练数据。具体而言，第二训练数据可以包括多组数据，其中，每组数据包括单个第二样本音节序列、单个第二样本图像序列和对齐标签，每组数据中的对齐标签可以用于指示该组数据中第二样本音节序列和第二样本图像序列在时间上是否是对齐的。

更具体地，第二训练数据可以包括正样本和负样本，其中，正样本为第二样本图像序列和第二样本音节序列对齐的训练数据，负样本为第二样本图像序列和第二样本音节序列不对齐的训练数据。在一个非限制性的例子中，正样本和负样本的比例可以是1:1。

进一步地，可以采用第二训练数据对第二预设模型进行训练。例如，可以是采用梯度下降法对第二预设模型进行训练，当满足预先设置的训练结束条件时，可以得到对齐判别模型。更具体地，可以采用二值交叉熵(Binary Cross Entropy)函数作为损失函数，Adam作为优化器，0.001作为学习率进行训练，但并不限于此。

需要说明的是，本实施例中的对齐判别模型也是与说话人解耦的，也具有较好的通用性。

继续参考图4，在步骤S405的具体实施中，可以根据预测损失和对齐损失计算训练损失。例如，训练损失可以为预测损失和对齐损失的加权和，但并不限于此。

进一步地，可以采用训练损失更新特征提取模块和预测模块。进一步地，每次更新新特征提取模块和预测模块后，可以判断是否满足预先设置的训练结束条件，如果否，则可以返回至步骤S402，并重复执行步骤S402至步骤S405，直至满足预先设置的训练结束条件，以得到视频生成模型。更具体地，训练第一预设模型时也可以采用Adam作为优化器，0.001作为学习率，但并不限于此。

由上，可以得到本发明实施例中的视频生成模型。

需要说明的是，本发明实施例中的视频生成模型是基于第一样本音节序列和第一样本图像序列训练得到的，由于音节序列不包含与虚拟数字对象的唇形无关的信息(例如，说话人的音频特征)，因此，可以使模型快速地学习到文本的发音和虚拟数字对象的唇形之间的映射关系，显著减少了训练数据的需求量，具有简单易行高效的优点。

参照图6，图6是本发明实施例中的一种视频生成装置的结构示意图，图6示出的装置可以包括：

文本获取模块61，用于获取待处理文本；

音节转化模块62，用于将所述待处理文本转化为音节序列；

生成模块63，用于将所述音节序列输入至视频生成模型，以得到所述视频生成模型输出的虚拟数字对象的视频；

其中，所述视频生成模型是采用第一训练数据对第一预设模型进行训练得到的，所述第一训练数据包括第一样本音节序列和第一样本图像序列，所述第一样本音节序列是由第一样本文本转化得到的，所述第一样本图像序列中的图像包含所述虚拟数字对象脸部的影像，且所述第一样本图像序列中所述虚拟数字对象的唇形与所述第一样本文本相匹配。

关于本发明实施例中的视频生成装置的工作原理、工作方法和有益效果等更多内容，可以参照上文关于视频生成方法的相关描述，在此不再赘述。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的视频生成方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的视频生成方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

应理解，本申请实施例中，所述处理器可以为中央处理单元(central processingunit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(application specific integrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和***，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取待处理文本；

将所述待处理文本转化为音节序列；

将所述音节序列输入至视频生成模型，以得到所述视频生成模型输出的虚拟数字对象的视频；

2.根据权利要求1所述的视频生成方法，其特征在于，获取待处理文本包括：获取输入音频；

对所述输入音频进行语音识别，以得到所述待处理文本。

3.根据权利要求1所述的视频生成方法，其特征在于，所述音节序列包括多个音节标识和每个音节标识的时间信息，所述音节标识用于唯一标识音节，所述时间信息用于指示所述音节在所述待处理文本对应的音频信息中的发音时间，将所述待处理文本转化为音节序列包括：

将所述待处理文本转化为音节文本，所述音节文本包括所述多个音节标识；对所述音节文本和所述待处理文本对应的音频信息进行时间对齐处理，以得到所述音节序列。

4.根据权利要求3所述的视频生成方法，其特征在于，对所述音节文本和所述待处理文本对应的音频数据进行时间对齐处理，以得到所述音节序列包括：

对所述音节文本和所述音频数据进行时间对齐处理，以得到时间对齐后的音节文本，所述时间对齐后的音节文本包括所述音节标识与所述发音时间之间的对应关系；

按照预设的时间步长对所述对齐后的音节文本进行采样，以得到所述音节序列。

5.根据权利要求3所述的视频生成方法，其特征在于，将所述待处理文本转化为音节文本包括：

将所述待处理文本转化为初始音节文本，所述初始音节文本包括多个音节；

读取预先构建的音节字典；

根据所述初始音节文本中每个音节在所述音节字典中的位置，确定该音节对应的音节标识。

6.根据权利要求5所述的视频生成方法，其特征在于，所述待处理文本包含汉字和汉字以外的其他类型的文字，其中，所述其他类型的文字的字数占所述待处理文本的总字数的比例小于或等于预设的比例阈值，将所述待处理文本转化为初始音节文本包括：

将所述其他类型的文字替换为发音相近的汉字，以得到替换后的待处理文本；

将所述替换后的待处理文本输入至汉字拼音转换模型，以得到所述初始音节文本。

7.根据权利要求5所述的视频生成方法，其特征在于，所述音节标识为对应的音节在所述音节字典中的位置编码。

8.根据权利要求1所述的视频生成方法，其特征在于，所述视频生成模型包括：

特征提取模块，用于至少根据所述音节序列计算特征张量；

预测模块，用于根据所述特征张量，计算唇形图像序列，其中，所述唇形图像序列中的图像包含所述虚拟数字对象的唇形的影像；

生成模块，用于根据所述唇形图像序列更新预设图像序列中图像的唇形区域，以得到所述视频，其中，所述预设图像序列中的图像包含所述虚拟数字对象的脸部的影像。

9.根据权利要求8所述的视频生成方法，其特征在于，所述特征张量是根据音节特征张量和像素特征张量计算得到的，所述特征提取模块包括：第一特征提取单元和第二特征提取单元，其中，

所述第一特征提取单元用于根据所述音节序列计算所述音节特征张量；

所述第二特征提取单元用于根据所述预设图像序列中图像的预设区域的像素值计算像素特征张量，其中，所述预设区域为所述虚拟数字对象的脸部区域中除所述唇形区域以外的区域。

10.根据权利要求8所述的视频生成方法，其特征在于，所述视频生成模型的训练方法包括：

获取所述第一训练数据；

采用所述特征提取模块根据所述第一样本音节序列计算样本特征张量；

采用所述预测模块根据所述样本特征张量计算预测样本图像序列；

根据所述预测样本图像序列和所述第一样本图像序列，计算预测损失；

根据所述预测样本图像序列和所述第一样本音节序列，计算对齐损失，所述对齐损失用于指示所述预测样本图像序列和所述第一样本音节序列在时间上的差异；

根据训练损失更新所述特征提取模块和所述预测模块，其中，所述训练损失是根据所述预测损失和所述对齐损失计算得到的。

11.根据权利要求10所述的视频生成方法，其特征在于，根据训练损失更新所述特征提取模块和所述预测模块之前，所述方法还包括：

获取第二训练数据，所述第二训练数据包括：第二样本音节序列、第二样本图像序列和对齐标签，其中，所述第二样本音节序列是根据第二样本文本转化得到的，所述第二样本图像序列包含所述虚拟数字对象的唇形的影像，所述第二样本图像序列中所述虚拟数字对象的唇形与所述第二样本文本相匹配，所述对齐标签用于指示所述第二样本图像序列与所述第二样本音节序列是否是时间对齐的；

采用所述第二训练数据对第二预设模型进行训练，以得到对齐判别模块，所述对齐判别模块用于根据所述预测样本图像序列和所述第一样本音节序列，计算所述对齐损失。

12.一种视频生成装置，其特征在于，所述装置包括：

文本获取模块，用于获取待处理文本；

音节转化模块，用于将所述待处理文本转化为音节序列；

生成模块，用于将所述音节序列输入至视频生成模型，以得到所述视频生成模型输出的虚拟数字对象的视频；

13.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，执行权利要求1至11中任一项所述的视频生成方法的步骤。

14.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至11中任一项所述的视频生成方法的步骤。