CN113115104B

CN113115104B - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN113115104B
Application number: CN202110296780.9A
Authority: CN
Inventors: 叶奎; 黄旭为
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2023-04-07
Anticipated expiration: 2041-03-19
Also published as: CN113115104A

Abstract

本公开关于一种视频处理方法、装置、电子设备及存储介质，属于视频处理技术领域。方法包括：获取与待处理文本对应的声谱；对声谱进行分段处理，得到多个声谱段；采用表情系数序列生成模型对声谱进行预测处理，得到与声谱对应的表情系数序列，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应；生成与声谱段对应的音频段；将表情系数序列和多个音频段发送至客户端，以触发客户端生成目标视频。该方法有效提升表情系数序列生成的准确性和时效性，由于对声谱进行分段处理，且得到了与分段处理后的声谱段对应的音频段，该表情系数序列和音频段被用于处理目标视频，能够有效辅助提升后续视频处理的响应效率。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

随着智能终端的软硬件技术的发展，智能终端侧的处理视频的方法越来越流行，比如，采用文本驱动以处理视频(该文本驱动以处理视频，即指根据目标人物的视频和一段音频(该音频由文本合成)，生成与该音频同步的目标人物说话的视频，在处理视频的过程中采用了表情系数序列和由文本合成的音频)。

相关技术中文本驱动以处理视频的方法，表情系数序列的生成质量不高，且视频处理的响应效率较低。

发明内容

本公开提供一种视频处理方法、装置、电子设备、存储介质及计算机程序产品，以至少解决相关技术中文本驱动以处理视频的方法，表情系数序列的生成质量不高，且视频处理的响应效率较低的技术问题。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，包括：获取与待处理文本对应的声谱；对所述声谱进行分段处理，得到多个声谱段；采用表情系数序列生成模型对所述声谱进行预测处理，得到与所述声谱对应的表情系数序列，所述表情系数序列包括：多个表情系数，以及与所述表情系数对应的时长，所述表情系数与所述声谱段相对应；生成与所述声谱段对应的音频段；将所述表情系数序列和多个所述音频段发送至客户端，以触发所述客户端生成目标视频。

在本公开的一些实施例中，所述表情系数序列生成模型的训练方法包括：

获取多个样本声谱，以及与所述样本声谱对应的标注表情系数序列；

将所述多个样本声谱输入至神经网络模型，得到所述神经网络模型输出的预测的样本表情系数序列；

根据所述样本表情系数序列与所述标注表情系数序列之间的差值对所述神经网络模型进行训练，得到所述表情系数序列生成模型。

在本公开的一些实施例中，所述对所述声谱进行分段处理，得到多个声谱段，包括：

确定所述声谱的时间刻度信息，所述时间刻度信息，用于描述所述声谱所携带的声谱特征对应的分布时长；

根据所述时间刻度信息和所述目标视频的预设帧率确定分段时长；

对所述声谱进行分段处理，得到时长为所述分段时长的多个声谱段。

在本公开的一些实施例中，所述根据所述时间刻度信息和所述目标视频的预设帧率确定分段时长的步骤，包括：

确定预设值与所述预设帧率的比值；

确定所述时间刻度信息与所述比值的最小公约数，并将所述最小公约数作为所述分段时长。

在本公开的一些实施例中，在所述生成与所述声谱段对应的音频段后，还包括：

对所述声谱和所述表情系数序列进行对齐处理，得到目标表情系数序列；

将所述目标表情系数序列划分为多个表情系数子序列，所述表情系数子序列中的表情系数覆盖的时长是所述分段时长；

将与所述声谱对应的音频段，和与所述声谱对齐的表情系数子序列发送至所述客户端，以触发所述客户端采用所述表情系数子序列和所述音频段生成所述目标视频。

在本公开的一些实施例中，所述对所述声谱和所述表情系数序列进行对齐处理，得到目标表情系数序列，包括：

获取所述表情系数序列的时长与所述声谱的时间刻度信息的比值；

当所述声谱所包含的时间刻度信息的数量能够被所述比值整除时，将所述声谱处理为第一目标声谱，所述第一目标声谱所携带的第一目标声谱特征对应的第一目标分布时长，是所述声谱的分布时长与所述比值的整除值；

当所述声谱所包含的时间刻度信息的数量不能被所述比值整除时，将所述声谱处理为第二目标声谱，所述第二目标声谱所携带的第二目标声谱特征对应的第二目标分布时长，是对所述整除值与参考值进行加和处理得到的加和值，所述整除值，是将所述声谱的分布时长与所述比值整除得到的；

将与所述第一目标声谱或者所述第二目标声谱对齐的所述表情系数序列作为所述目标表情系数序列。

根据本公开实施例的第二方面，提供一种视频处理方法，包括：接收表情系数序列和多个音频段，其中，所述多个音频段，是对与待处理文本对应的声谱进行分段以得到多个声谱段，并根据所述多个声谱段所生成的，所述表情系数序列，是对所述声谱进行预测处理得到的，所述表情系数序列包括：多个表情系数，以及与所述表情系数对应的时长，所述表情系数与所述声谱段相对应；对所述表情系数序列和所述多个音频段进行融合处理，得到目标视频。

在本公开的一些实施例中，所述对所述表情系数序列和所述多个音频段进行融合处理，得到目标视频，包括：

获取与所述表情系数对应的多个人脸表情的混合变形；

融合所述表情系数与对应所述多个人脸表情的混合变形，得到与所述表情系数对应的人脸表情图像；

根据预设帧率，结合多个所述人脸表情图像合成得到合成视频；

融合所述多个音频段与所述合成视频，得到所述目标视频。

根据本公开实施例的第三方面，提供一种视频处理装置，包括：获取模块，被配置为执行获取与待处理文本对应的声谱；分段模块，被配置为执行对所述声谱进行分段处理，得到多个声谱段；预测模块，被配置为执行采用表情系数序列生成模型对所述声谱进行预测处理，得到与所述声谱对应的表情系数序列，所述表情系数序列包括：多个表情系数，以及与所述表情系数对应的时长，所述表情系数与所述声谱段相对应；生成模块，被配置为执行生成与所述声谱段对应的音频段；发送模块，被配置为执行将所述表情系数序列和多个所述音频段发送至客户端，以触发所述客户端生成目标视频。

在本公开的一些实施例中，还包括：

训练模块，被配置为执行获取多个样本声谱，以及与所述样本声谱对应的标注表情系数序列，并将所述多个样本声谱输入至神经网络模型，得到所述神经网络模型输出的预测的样本表情系数序列，以及根据所述样本表情系数序列与所述标注表情系数序列之间的差值对所述神经网络模型进行训练，得到所述表情系数序列生成模型。

在本公开的一些实施例中，所述分段模块，被配置为执行：

确定预设值与所述预设帧率的比值；

在本公开的一些实施例中，还包括：

对齐模块，被配置为执行对所述声谱和所述表情系数序列进行对齐处理，得到目标表情系数序列，并将所述目标表情系数序列划分为多个表情系数子序列，所述表情系数子序列中的表情系数覆盖的时长是所述分段时长，以及将与所述声谱对应的音频段，和与所述声谱对齐的表情系数子序列发送至所述客户端，以触发所述客户端采用所述表情系数子序列和所述音频段生成所述目标视频。

在本公开的一些实施例中，所述对齐模块，被配置为执行：

根据本公开实施例的第四方面，提供一种视频处理装置，包括：接收模块，被配置为执行接收表情系数序列和多个音频段，其中，所述多个音频段，是对与待处理文本对应的声谱进行分段以得到多个声谱段，并根据所述多个声谱段所生成的，所述表情系数序列，是对所述声谱进行预测处理得到的，所述表情系数序列包括：多个表情系数，以及与所述表情系数对应的时长，所述表情系数与所述声谱段相对应；融合模块，被配置为执行对所述表情系数序列和所述多个音频段进行融合处理，得到目标视频。

在本公开的一些实施例中，所述融合模块，被配置为执行：

获取与所述表情系数对应的多个人脸表情的混合变形；

融合所述多个音频段与所述合成视频，得到所述目标视频。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如前所述的视频处理方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如前所述的视频处理方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如前所述的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过获取与待处理文本对应的声谱，对声谱进行分段处理，得到多个声谱段，采用表情系数序列生成模型对声谱进行预测处理，得到与声谱对应的表情系数序列，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应，生成与声谱段对应的音频段，将表情系数序列和多个音频段发送至客户端，以触发客户端生成目标视频，由于声谱能够描述待处理文本的全局的上下文信息，且表情系数序列是根据声谱生成的，由此，有效提升表情系数序列生成的准确性和时效性，并且由于对声谱进行了分段处理，且得到了与分段处理后的声谱段相对应的音频段，该表情系数序列和音频段被用于处理目标视频，能够有效辅助提升后续视频处理的响应效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频处理方法的流程图。

图2是根据另一示例性实施例示出的一种视频处理方法的流程图。

图3是根据又一示例性实施例示出的一种视频处理方法的流程图。

图4为本公开实施例的应用场景示意图。

图5是根据再一示例性实施例示出的一种视频处理方法的流程图。

图6是根据一示例性实施例示出的一种视频处理装置框图。

图7是根据另一示例性实施例示出的一种视频处理装置框图。

图8是根据又一示例性实施例示出的一种视频处理装置框图。

图9是根据一示例性实施例示出的一种电子设备的框图。。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本实施例以视频处理方法被配置为视频处理装置中来举例说明。

本实施例中视频处理方法可以被配置在视频处理装置中，视频处理装置可以设置在服务器中。

需要说明的是，本公开实施例的执行主体，在硬件上可以例如为服务器的中央处理器(Central Processing Unit，CPU)，在软件上可以例如为服务器的相关后台服务，对此不作限制。

如图1所示，该视频处理方法包括以下步骤：

在步骤S101中，获取与待处理文本对应的声谱。

其中，该待处理文本可以被用于驱动客户端生成目标视频，目标视频比如包含人物A的头像的一段视频，采用该待处理文本驱动客户端生成目标视频时，可以例如处理该待处理文本得到相应的音频段，将该音频段与目标视频进行融合，并且在目标视频中加载显示该待处理文本，对此不做限制。

其中，该待处理文本可以是用户在客户端侧输入的，在用户在客户端侧输入一段待处理文本后，可以将该待处理文本发送至服务器，由服务器对该待处理文本进行相应的处理，得到表情系数序列和音频段，具体参见下述。

待处理文本具体例如，比如今天天气真好！

举例而言，服务器在获取到一段待处理文本之后，可以对该待处理文本进行预处理，比如，去除【比如今天天气真好！】之中的标点符号，将【比如今天天气真好】中的各个文字转换为拼音中的声母、韵母、音调等，而后，根据转换后的待处理文本得到相应的词嵌入向量，该词嵌入向量可以被用于生成与待处理文本对应的声谱。

而声谱，能够用来描述声音中所包含成份及音色中声学能量的分配模式，声谱可以被看作是“声音的照片”，声谱可以分为静态声谱和动态声谱。

本公开实施例中，在对待处理文本进行预处理得到相应的词嵌入向量后，可以采用相关技术中的声谱确定方式，获取与待处理文本对应的声谱(该声谱是与待处理文本的整体相对应的)，从而使得声谱能够携带待处理文本的上下文信息。

举例而言，可以将与待处理文本对应的词嵌入向量输入至声学模型(如基于深度学习的端到端语音合成模型Tacotron、Tacotron2等)得到声谱(声谱比如梅尔频谱或者倒谱(cepstrum)等)，对此不做限制。

本公开实施例中，以声谱为倒谱(cepstrum)进行示例，声谱可以表示为(T_cep，n_cep)，T_cep描述的是声谱的分布时长，T_cep包含了多个时间刻度信息，一个时间刻度信息表示一定时长(如10ms)，n_cep表示声谱的维度(如Cepstrum是20维)。

需要说明的是，上述声谱的具体呈现形式为矩阵，则T_cep即表示了列向量对应的时长分布，各列向量占据的分布时长即可以被称为时间刻度信息，n_cep表示了所有列向量的维度分布，上述一个时间刻度信息表示分布时长(如10ms)，则表示声谱的时间刻度信息为10ms，对此不做限制。

本公开实施例中,与待处理文本整体相对应的声谱通常能够携带待处理文本的上下文信息，上下文信息能够用于描述该待处理文本所表达的语义。

可以理解的是，基于不同的待处理文本表示的语义差异情况，则不同的待处理文本会携带不同或相同的上下文信息，基于不同或者相同的上下文信息，一段待处理文本中各个文字对应的语义、语调、持续时长是相同或者不相同的，这些语义、语调、持续时长能够表现在声谱的差异上。

本公开实施例中获取与待处理文本对应的声谱，使得声谱携带待处理文本的上下文信息，即该上下文信息表示的是与该段待处理文本的全局相对应的，表达的是该段待处理文本的全局的上下文信息。

在步骤S102中，对声谱进行分段处理，得到多个声谱段。

一些实施例中，可以确定声谱的时间刻度信息，时间刻度信息，用于描述声谱所携带的声谱特征对应的分布时长,并根据时间刻度信息和目标视频的预设帧率确定分段时长,以及对声谱进行分段处理，得到时长为分段时长的多个声谱段，从而能够有效提升划分得到的多个声谱段与目标视频的预设帧率的吻合程度，有效地辅助提升目标视频的融合处理效果。

举例而言,假设上述声谱的具体呈现形式为矩阵，则T_cep即表示了列向量(列向量可以是对应一个声谱特征)对应的分布时长，各列向量占据的分布时长，即可以被称为时间刻度信息，n_cep表示了所有列向量的维度分布，上述时间刻度信息表示一个列向量对应的分布时长，则假设分布时长是10ms，则表示声谱的时间刻度信息为10ms，对此不做限制。

上述在确定分段时长时，可以是根据时间刻度信息和目标视频的预设帧率(预设帧率可以具体例如为目标视频的每秒传输帧数(Frames Per Second，FPS))来确定分段时长，实现简便，且具有较好的实用性。

比如，假设计算得到的分段时长是100ms，则可以将声谱划分为多个时长是100ms的声谱段，而后，可以触发后续步骤，或者，也可以采用其他任意可能的分段时长去对声谱进行分段处理，对此不做限制。

另外一些实施例中，也可以根据实际渲染需求去对声谱进行分段处理，得到多个时长不相同的声谱段，对此不做限制。

在步骤S103中，采用表情系数序列生成模型对声谱进行预测处理，得到与声谱对应的表情系数序列，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应。

其中，表情系数能够用于表示人脸形状中和表情相关的成分，而用户在表达不同的声谱段时，通常会呈现出种类丰富的表情，从而表情系数可以是与声谱段相对应的，在驱动生成目标视频时，该表情系数可以被用于与声谱段对应的音频段进行融合。

而表情系数序列，可以具体包括多个表情系数，各个表情系数具有对应的时长，也即是说，由于表情系数序列是与整体的声谱相对应的，而声谱可以是包括多个声谱段，各个表情系数具有相对应的声谱段，与表情系数对应的时长，可以理解为人脸形状中和表情相关的成分，所属表情的持续时长，对此不做限制。

本公开实施例中，还考虑到不同的待处理文本具有不同的语义内容，则用户在采用音频呈现该待处理文本对应的语义内容时，可能会对应做出不同的表情，比如，当待处理文本为【比如今天天气真好！】时，则用户在表达该【比如今天天气真好！】的音频时，表情可能为欢快、开心的，当待处理文本为其它内容时，则用户在表达相应的音频时，表情可能与其它待处理文本的实际上下文语义相对应。

本公开实施例中，可以预先基于预设的表情分类标准，确定人脸图片中各表情的类别，而后针对不同类别的表情，采用不同的方式得到人脸图片中的人脸的各类别表情的表情系数，而后，获取多个样本声谱，以及与样本声谱对应的标注表情系数序列，并将多个样本声谱输入至神经网络模型，得到神经网络模型输出的预测的样本表情系数序列，以及根据样本表情系数序列与标注表情系数序列之间的差值对神经网络模型进行训练，从而将训练得到的神经网络模型作为表情系数序列生成模型，并使得该表情系数序列生成模型具有根据声谱生成表情系数序列的预测功能，从而能够有效地辅助提升表情系数序列的生成效率，且表情系数序列生成模型是预先基于海量的样本声谱和对应的标注表情系数序列训练得到的，在有效地提升表情系数序列的生成效率的同时，有效地提升表情系数序列生成的准确性。

当然，训练用的模型还可以采用其它人工智能模型，例如机器学习模型等，对此不做限制。

由此，本公开实施例在获取与待处理文本对应的声谱后，可以将声谱输入至已训练的表情系数序列生成模型，并采用表情系数序列生成模型对声谱进行预测处理，得到与声谱对应的表情系数序列，由于表情系数序列生成模型是已根据样本的声谱所携带的样本的上下文信息，以及各类别表情的表情系数训练得到的，因此，在保障表情系数序列的准确性的同时，实现快速地生成与声谱对应的表情系数序列。

当然，表情系数序列生成模型仅仅是实现生成与声谱对应的表情系数序列的一种可能的实现方式，在实际执行过程中，可以通过其他任意可能的方式来实现生成与声谱对应的表情系数序列，比如，还可以采用传统的编程技术(比如模拟法和工程学方法)实现，又比如，还可以数学方法来实现。

本公开实施例中的表情系数序列可以表示为一个2维矩阵，呈现形式可以是(T_e，n_e)，T_e指列向量对应的时长，各列向量对应的时长，即可以被称为时间刻度信息，一个时间刻度信息表示对应列向量占据的时长(比如40ms，表情系数序列的时间刻度信息可以是与目标视频的每秒传输帧数FPS相对应的)，n_e表示表情系数的维度(比如可以是51维，也可以使用其它维度，对此不做限制)。

在步骤S104中，生成与声谱段对应的音频段。

在生成与声谱段对应的音频段时，可以将声谱段输入至声码器中，由声码器对声谱段进行相应的映射处理，得到对应的音频段，其中声码器例如LpcNet声码器、WaveNet声码器、WaveRNN声码器等。

在步骤S105中，将表情系数序列和多个音频段发送至客户端，以触发客户端生成目标视频。

上述在对声谱进行分段处理，得到多个声谱段后，还生成与声谱段对应的音频段，而后，采用上述得到的表情系数序列和音频段触发客户端生成目标视频，比如可以将上述得到的表情系数序列和音频段实时地发送至客户端，以触发客户端生成目标视频，或者，在检测当前时间达到设定时间点时，将上述得到的表情系数序列和音频段发送至客户端，以触发客户端生成目标视频，对此不做限制。

本实施例中，通过获取与待处理文本对应的声谱，对声谱进行分段处理，得到多个声谱段，采用表情系数序列生成模型对声谱进行预测处理，得到与声谱对应的表情系数序列，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应，生成与声谱段对应的音频段，将表情系数序列和多个音频段发送至客户端，以触发客户端生成目标视频，由于声谱能够描述待处理文本的全局的上下文信息，且表情系数序列是根据声谱生成的，由此，有效提升表情系数序列生成的准确性和时效性，并且由于对声谱进行了分段处理，且得到了与分段处理后的声谱段相对应的音频段，该表情系数序列和音频段被用于处理目标视频，能够有效辅助提升后续视频处理的响应效率。

如图2所示，该视频处理方法包括以下步骤：

在步骤S201中，获取与待处理文本对应的声谱。

步骤S201的说明可以参见上述实施例，在此不再赘述。

在步骤S202中，确定声谱的时间刻度信息，时间刻度信息，用于描述声谱所携带的声谱特征对应的分布时长。

结合上述描述，假设本公开实施例中，以声谱为倒谱(cepstrum)进行示例，声谱可以表示为(T_cep，n_cep)，假设声谱的具体呈现形式为矩阵，则T_cep即表示了列向量(列向量可以是对应一个声谱特征)对应的分布时长，各列向量占据的分布时长，即可以被称为时间刻度信息，n_cep表示了所有列向量的维度分布，上述时间刻度信息表示一个列向量对应的分布时长，则假设分布时长是10ms，则表示声谱的时间刻度信息为10ms，对此不做限制。

在步骤S203中，根据时间刻度信息和目标视频的预设帧率确定分段时长。

其中，预设帧率可以具体例如为目标视频的每秒传输帧数FPS,每秒传输帧数FPS是图像领域中的定义，是指画面每秒传输帧数，每秒传输帧数FPS是测量用于保存、显示动态视频的信息数量，每秒钟帧数越多，所显示的动作就会越流畅。通常，避免动作不流畅的每秒传输帧数FPS的最低限值是25帧/秒。

其中，目标视频比如待融合表情系数序列和音频段，且包含人物A的头像的一段视频。

本实施例中，可以由客户端分析得到目标视频的每秒传输帧数FPS，并将目标视频的每秒传输帧数FPS反馈至服务器，由服务器接收客户端发送的目标视频的每秒传输帧数FPS，或者，客户端也可以预先将该视频类型对应的每秒传输帧数FPS预先存储至云服务器，由本地服务器直接根据目标视频的视频类型，从云服务器端获取目标视频的每秒传输帧数FPS，对此不做限制。

目标视频的每秒传输帧数FPS可以例如为，FPS＝30帧/秒。

上述在确定声谱的时间刻度信息，并接收客户端发送的目标视频的每秒传输帧数FPS后，可以根据时间刻度信息和目标视频的预设帧率确定分段时长，实现灵活地确定分段时长，并使得分段时长能够与目标视频的每秒传输帧数FPS相适配，避免影响目标视频的传输显示效果。

比如，可以分析实际的目标视频的显示需求，并根据显示需求适应地确定计算方式，从而根据该计算方式，根据时间刻度信息和每秒传输帧数FPS确定出分段时长，或者，也可以将时间刻度信息和每秒传输帧数FPS输入预训练的计算模型中，从而获取该计算模型输出的分段时长，对此不做限制。

本实施例中，可以是确定预设值与预设帧率的比值，确定时间刻度信息与比值的最小公约数，并将最小公约数作为分段时长，从而能够确定出最小的分段时长，实现最大程度地缩短首字响应时间(首字响应时间，是首段(音频+对应表情系数序列)传输至客户端所消耗的时间)。

其中预设值可以是根据实际的显示需求确定的，预设值比如1000。

例如，最短的分段时长T_min为K(声谱的时间刻度信息)与1000/FPS的最小公约数，具体如，声谱的时间刻度信息为10ms，目标视频的FPS＝30帧/秒，则T_min＝100ms。

在步骤S204中，对声谱进行分段处理，得到时长为分段时长的多个声谱段。

一些实施例中，可以确定分段时长，对声谱进行分段处理，得到时长为分段时长的多个声谱段，例如，可以以100ms为分段时长，将声谱划分为多个100ms的声谱段，而后，可以触发后续步骤，或者，也可以采用其他任意可能的分段时长去对声谱进行分段处理，对此不做限制。

在步骤S205中，采用表情系数序列生成模型对声谱进行预测处理，得到与声谱对应的表情系数序列，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应。

在步骤S206中，生成与声谱段对应的音频段。

比如，可以将声谱段输入至声码器中，由声码器对声谱段进行相应的映射处理，得到对应的音频段，其中声码器例如LpcNet声码器、WaveNet声码器、WaveRNN声码器等。

上述在获取与文本对应的声谱之后，通过对声谱进行分段处理，得到多个声谱段，生成与声谱段对应的音频段，能够更快地生成首段音频，缩短用户等待时间，并且在目标视频的播放过程中，也不会影响处理其它的声谱段，从而使得目标视频的播放和处理过程无缝融合，有效辅助提升后续视频处理的响应效率。

在步骤S207中，将表情系数序列和多个音频段发送至客户端，以触发客户端生成目标视频。

步骤S207的说明可以参见上述实施例，在此不再赘述。

本实施例中，由于声谱能够描述文本的全局的上下文信息，且表情系数序列是根据声谱生成的，由此，有效提升表情系数序列的准确性，并且由于对声谱进行了分段处理，得到了相对应的音频段，该表情系数序列和音频段被用于处理目标视频，能够有效辅助提升后续视频处理的响应效率。通过确定声谱的时间刻度信息，时间刻度信息，用于描述声谱所携带的声谱特征对应的分布时长，根据时间刻度信息和目标视频的预设帧率确定分段时长，以及对声谱进行分段处理，得到时长为分段时长的多个声谱段，能够有效提升划分得到的多个声谱段与目标视频的预设帧率的吻合程度，有效地辅助提升目标视频的融合处理效果。通过确定预设值与预设帧率的比值，确定时间刻度信息与比值的最小公约数，并将最小公约数作为分段时长，能够有效地缩短首字响应时间，有效地缩短了用户等待时间，从而有效地提升了用户的使用体验度，且在目标视频的播放过程中，也不会影响处理其它的声谱段，从而使得目标视频的播放和处理过程无缝融合，有效辅助提升后续视频处理的响应效率。

如图3所示，该视频处理方法包括以下步骤：

在步骤S301中，获取与待处理文本对应的声谱。

在步骤S302中，对声谱进行分段处理，得到多个声谱段。

在步骤S303中，采用表情系数序列生成模型对声谱进行预测处理，得到与声谱对应的表情系数序列，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应。

在步骤S304中，生成与声谱段对应的音频段。

步骤S301和步骤S304的说明可以参见上述实施例，在此不再赘述。

在步骤S305中，对声谱和表情系数序列进行对齐处理，得到目标表情系数序列。

上述在生成与声谱段对应的音频段后，还可以对声谱和表情系数序列进行对齐处理，得到目标表情系数序列，从而保障客户端侧处理目标视频的准确性，保障处理效果。

比如，可以表情系数序列的时长与声谱的时间刻度信息的比值为基准，对声谱和表情系数序列进行对齐处理，得到目标表情系数序列。

可选地，一些实施例中，可以获取表情系数序列的时长与声谱的时间刻度信息的比值，当声谱所包含的时间刻度信息的数量能够被比值整除时，将声谱处理为第一目标声谱，第一目标声谱所携带的第一目标声谱特征对应的第一目标分布时长，是声谱的分布时长与比值的整除值，而当声谱所包含的时间刻度信息的数量不能被比值整除时，将声谱处理为第二目标声谱，第二目标声谱所携带的第二目标声谱特征对应的第二目标分布时长，是对整除值与参考值进行加和处理得到的加和值，整除值，是将声谱的分布时长与比值整除得到的，将与第一目标声谱或者第二目标声谱对齐的表情系数序列作为目标表情系数序列，从而能够有效地保障对齐处理的合理性，保障后续客户端针对表情系数序列和多个音频段的融合处理效果，提升目标视频生成的质量。

可以理解的是，声谱可以表示为(T_cep，n_cep)，T_cep描述的是声谱的分布时长，T_cep包含了多个时间刻度信息，则声谱所包含的时间刻度信息的数量可以具体是指T_cep所包含的时间刻度信息的数量。

举例而言，声谱的时间刻度信息是K1＝10ms，表情系数序列的时长(该时长也可以理解为时间刻度信息)是K2＝40ms，则每4行声谱(呈现形式是(T_cep,n_cep))对应1行表情系数序列，计算方式是：表情系数序列的时长与声谱的时间刻度信息的比值K2/K1。在对齐处理时，若声谱所包含的时间刻度信息的数量(T_cep所包含的时间刻度信息的数量)能被4整除，则将声谱组织成第一目标声谱(T_cep//4,4,n_cep)的形式，若声谱所包含的时间刻度信息的数量(T_cep所包含的时间刻度信息的数量)不能被4整除，则取声谱最后4行，将声谱组织为第二目标声谱(T_cep//4+1,4,n_cep)，其中T_e＝T_cep//4+1，『//』是整除符号，从而实现了以表情系数序列的时长与声谱的时间刻度信息的比值为基准，对声谱和表情系数序列进行对齐处理，得到目标表情系数序列。

在步骤S306中，将目标表情系数序列划分为多个表情系数子序列，表情系数子序列中的表情系数覆盖的时长是分段时长。

比如，表情系数序列的时长是K2＝40ms，表情系数序列覆盖的总时长可以理解为表情系数序列之中列向量的数量与40ms的乘积值(例如，列向量的数量为10列，则总时长为400ms)，而分段时长为100ms，则采用100ms在时间维度对表情系数序列进行划分，得到四个时长为100ms的表情系数子序列。

在步骤S307中，将与声谱对应的音频段，和与声谱对齐的表情系数子序列发送至客户端，以触发客户端采用表情系数子序列和音频段生成目标视频。

上述在以表情系数序列的时长与声谱的时间刻度信息的比值为基准，对声谱和表情系数序列进行对齐处理，得到目标表情系数序列，并根据分段时长对目标表情系数序列进行划分，得到多个表情系数子序列后，可以将与声谱对应的音频段，和与声谱对齐的表情系数子序列发送至客户端，以触发客户端采用表情系数子序列和音频段生成目标视频。

参见图4，图4为本公开实施例的应用场景示意图，在图4中，首先将一段待处理文本输入声学模型，采用该声学模型处理待处理文本得到对应的声谱，并使得该声谱能够描述待处理文本的全局的上下文信息，而后将声谱输入至已训练的表情系数序列生成模型，得到表情系数序列生成模型输出的表情系数序列，同时对声谱进行分段处理，得到声谱段，并逐段地将声谱段输入至声码器得到对应的音频段(100ms)，而后，确定与每个音频段(100ms)对应的表情系数子序列，在传输至客户端用以渲染目标视频时，具体是将每个音频段(100ms)，以及与其对应的表情系数子序列逐段地传输至客户端。

由上述可知，本公开实施例中，在生成与声谱段对应的音频段后，还可以对声谱和表情系数序列进行对齐处理，得到目标表情系数序列，从而保障客户端侧处理目标视频的准确性，保障处理效果。表情系数序列生成模型的输入为声谱，从而有效地提升了模型预测的效率，并且声谱能够描述待处理文本的全局的上下文信息，从而使得生成的表情系数序列的准确性表现更优，另外，在传输至手机端侧用以渲染目标视频时，具体是将每个音频段(100ms)，以及与其对应的表情系数子序列逐段地传输至客户端侧，有效减短了首字响应时间，提升整体的视频处理效率。

参见下述表1和表2，表1呈现了表情系数序列生成模型的预测耗时，表2呈现了首字响应时间。

表1

字长	采用相关技术耗时	采用本公开耗时
			20字	125.9+-3.5ms	16.1+-0.5ms

表2

字长	采用相关技术耗时	采用本公开耗时
			20字	1345+-41.4ms	460.9+-43.4ms

本实施例中，由于声谱能够描述文本的全局的上下文信息，且表情系数序列是根据声谱生成的，由此，有效提升表情系数序列的准确性，并且由于对声谱进行了分段处理，得到了相对应的音频段，该表情系数序列和音频段被用于处理目标视频，能够有效辅助提升后续视频处理的响应效率。在生成与声谱段对应的音频段后，还可以对声谱和表情系数序列进行对齐处理，得到目标表情系数序列，从而保障客户端侧处理目标视频的准确性，保障处理效果。表情系数序列生成模型的输入为声谱，从而有效地提升了模型预测的效率，并且声谱能够描述待处理文本的全局的上下文信息，从而使得生成的表情系数序列的准确性表现更优，另外，在传输至手机端侧用以渲染目标视频时，具体是将每个音频段(100ms)，以及与其对应的表情系数子序列逐段地传输至客户端侧，有效减短了首字响应时间，提升整体的视频处理效率。通过将与第一目标声谱或者第二目标声谱对齐的表情系数序列作为目标表情系数序列，从而能够有效地保障对齐处理的合理性，保障后续客户端针对表情系数序列和多个音频段的融合处理效果，提升目标视频生成的质量。

本实施例中视频处理方法可以被配置在视频处理装置中，视频处理装置可以设置在电子设备中运行的客户端，而客户端(Client)或称为用户端，是指与服务器相对应，为客户提供本地服务的程序。通常将客户端安装在普通的客户机上，可以与服务器互相配合运行。本公开实施例中的客户端，可以具体是具备视频处理和播放功能的客户端，对此不做限制。

需要说明的是，本公开实施例的执行主体，在硬件上可以例如为电子设备的中央处理器(Central Processing Unit，CPU)，在软件上可以例如为电子设备的相关后台服务，对此不作限制。

如图5所示，该视频处理方法包括以下步骤：

在步骤S501中，接收表情系数序列和多个音频段，其中，多个音频段，是对与待处理文本对应的声谱进行分段以得到多个声谱段，并根据多个声谱段所生成的，表情系数序列，是对声谱进行预测处理得到的，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应。

针对步骤S501中术语的解释和描述可以具体参见上述实施例，在此不再赘述。

上述在由服务器生成与声谱段对应的音频段，将表情系数序列和多个音频段发送至客户端之后，可以由客户端接收表情系数序列和多个音频段。

一些实施例中，服务器在传输至客户端侧用以生成目标视频时，具体是将每个音频段(100ms)，以及与其对应的表情系数子序列逐段地传输至客户端侧，从而由客户端逐段地接收表情系数序列和多个音频段，能够有效减短了首字响应时间，提升整体的视频处理效率。

在步骤S502中，对表情系数序列和多个音频段进行融合处理，得到目标视频。

可选地，一些实施例中，在对表情系数序列和多个音频段进行融合处理，得到目标视频时，可以是获取与表情系数对应的多个人脸表情的混合变形，并融合表情系数与对应多个人脸表情的混合变形，得到与表情系数对应的人脸表情图像，根据预设帧率，结合多个人脸表情图像合成得到合成视频，以及融合多个音频段与合成视频，得到目标视频，从而在有效提升目标视频生成效率的同时，有效地提升目标视频生成的质量。

举例而言，假设客户端接收到音频段和表情系数序列(T_e,n_e),对于每个表情系数n_e，分别具有对应的n_e个人脸表情的混合变形blendshape，而后，可以融合表情系数与对应多个人脸表情的混合变形，例如，可以将n_e个表情系数与n_e个人脸表情的混合变形blendshape相乘，而后相加，即可得到与表情系数对应的人脸表情图像，如果存在T_e个表情系数，就生成T_e张人脸表情图像，而后，将多个人脸表情图像依据预设帧率生成无声音的合成视频，在采用多媒体处理工具FFmpeg(FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。)将生成的合成视频与多个音频段进行融合，得到目标视频。

当然，在实际应用的过程中，也可以采用其它任意可能的视频融合方式对表情系数序列和多个音频段进行融合处理，得到目标视频，对此不做限制。

本实施例中，通过接收表情系数序列和多个音频段，其中，多个音频段，是对与待处理文本对应的声谱进行分段以得到多个声谱段，并根据多个声谱段所生成的，表情系数序列，是对声谱进行预测处理得到的，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应，并对表情系数序列和多个音频段进行融合处理，得到目标视频，由于声谱能够描述待处理文本的全局的上下文信息，且表情系数序列是根据声谱生成的，由此，有效提升表情系数序列生成的准确性和时效性，并且由于对声谱进行了分段处理，且得到了与分段处理后的声谱段相对应的音频段，该表情系数序列和音频段被用于处理目标视频，能够有效提升视频处理的响应效率。

图6是根据一示例性实施例示出的一种视频处理装置框图。。

参照图6，该视频处理装置60包括：

获取模块601，被配置为执行获取与待处理文本对应的声谱；

分段模块602，被配置为执行对声谱进行分段处理，得到多个声谱段；

预测模块603，被配置为执行采用表情系数序列生成模型对声谱进行预测处理，得到与声谱对应的表情系数序列，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应；

生成模块604，被配置为执行生成与声谱段对应的音频段；

发送模块605，被配置为执行将表情系数序列和多个音频段发送至客户端，以触发客户端生成目标视频。

在本公开的一些实施例中，如图7所示，图7是根据另一示例性实施例示出的一种视频处理装置框图，该视频处理装置60还包括：

训练模块606，被配置为执行获取多个样本声谱，以及与样本声谱对应的标注表情系数序列，并将多个样本声谱输入至神经网络模型，得到神经网络模型输出的预测的样本表情系数序列，以及根据样本表情系数序列与标注表情系数序列之间的差值对神经网络模型进行训练，得到表情系数序列生成模型。

在本公开的一些实施例中，分段模块602，被配置为执行：

确定声谱的时间刻度信息，时间刻度信息，用于描述声谱所携带的声谱特征对应的分布时长；

根据时间刻度信息和目标视频的预设帧率确定分段时长；

对声谱进行分段处理，得到时长为分段时长的多个声谱段。

在本公开的一些实施例中，分段模块602，被配置为执行：

确定预设值与预设帧率的比值；

确定时间刻度信息与比值的最小公约数，并将最小公约数作为分段时长。

在本公开的一些实施例中，如图7所示，还包括：

对齐模块607，被配置为执行对声谱和表情系数序列进行对齐处理，得到目标表情系数序列，并将目标表情系数序列划分为多个表情系数子序列，表情系数子序列中的表情系数覆盖的时长是分段时长，以及将与声谱对应的音频段，和与声谱对齐的表情系数子序列发送至客户端，以触发客户端采用表情系数子序列和音频段生成目标视频。

在本公开的一些实施例中，对齐模块607，被配置为执行：

获取表情系数序列的时长与声谱的时间刻度信息的比值；

当声谱所包含的时间刻度信息的数量能够被比值整除时，将声谱处理为第一目标声谱，第一目标声谱所携带的第一目标声谱特征对应的第一目标分布时长，是声谱的分布时长与比值的整除值；

当声谱所包含的时间刻度信息的数量不能被比值整除时，将声谱处理为第二目标声谱，第二目标声谱所携带的第二目标声谱特征对应的第二目标分布时长，是对整除值与参考值进行加和处理得到的加和值，整除值，是将声谱的分布时长与比值整除得到的；

将与第一目标声谱或者第二目标声谱对齐的表情系数序列作为目标表情系数序列。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据又一示例性实施例示出的一种视频处理装置框图。

参照图8，该视频处理装置80包括：

接收模块801，被配置为执行接收表情系数序列和多个音频段，其中，多个音频段，是对与待处理文本对应的声谱进行分段以得到多个声谱段，并根据多个声谱段所生成的，表情系数序列，是对声谱进行预测处理得到的，表情系数序列包括：多个表情系数，以及与表情系数对应的时长，表情系数与声谱段相对应。

融合模块802，被配置为执行对表情系数序列和多个音频段进行融合处理，得到目标视频。

在本公开的一些实施例中，融合模块802，被配置为执行：

获取与表情系数对应的多个人脸表情的混合变形；

融合表情系数与对应多个人脸表情的混合变形，得到与表情系数对应的人脸表情图像；

根据预设帧率，结合多个人脸表情图像合成得到合成视频；

融合多个音频段与合成视频，得到目标视频。

本公开实施例还提供了一种电子设备，图9是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，电子设备900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制电子设备900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理***，一个或多个电源，及其他与为电子设备900生成、管理和分配电力相关联的组件。

多媒体组件908包括在电子设备900和用户之间的提供一个输出接口的触控显示屏。在一些实施例中，触控显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当电子设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。

在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为电子设备900提供各个方面的状态评估。例如，传感器组件914可以检测到电子设备900的打开/关闭状态，组件的相对定位，例如组件为电子设备900的显示器和小键盘，传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变，用户与电子设备900接触的存在或不存在，电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述视频处理方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器904，上述指令可由电子设备900的处理器920执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如前所述的视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取与待处理文本对应的声谱；

对所述声谱进行分段处理，得到多个声谱段；

采用表情系数序列生成模型对所述声谱进行预测处理，得到与所述声谱对应的表情系数序列，所述表情系数序列包括：多个表情系数，以及与所述表情系数对应的时长，所述表情系数与所述声谱段相对应；

生成与所述声谱段对应的音频段；

将所述表情系数序列和多个所述音频段发送至客户端，以触发所述客户端生成目标视频；

所述对所述声谱进行分段处理，得到多个声谱段，包括：

2.根据权利要求1所述的方法，其特征在于，所述表情系数序列生成模型的训练方法包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述时间刻度信息和所述目标视频的预设帧率确定分段时长的步骤，包括：

确定预设值与所述预设帧率的比值；

4.根据权利要求1所述的方法，其特征在于，在所述生成与所述声谱段对应的音频段后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述声谱和所述表情系数序列进行对齐处理，得到目标表情系数序列，包括：

当所述声谱所包含的时间刻度信息的数量不能被所述比值整除时，将所述声谱处理为第二目标声谱，所述第二目标声谱所携带的第二目标声谱特征对应的第二目标分布时长，是对所述整除值与参考值进行加和处理得到的加和值，所述整除值是将所述声谱的分布时长与所述比值整除得到的；

6.一种视频处理方法，其特征在于，包括：

接收表情系数序列和多个音频段，其中，所述多个音频段，是对与待处理文本对应的声谱进行分段以得到多个声谱段，并根据所述多个声谱段所生成的，所述表情系数序列，是对所述声谱进行预测处理得到的，所述表情系数序列包括：多个表情系数，以及与所述表情系数对应的时长，所述表情系数与所述声谱段相对应；

对所述表情系数序列和所述多个音频段进行融合处理，得到目标视频；

所述对与待处理文本对应的声谱进行分段以得到多个声谱段包括：

确定所述声谱的时间刻度信息，所述时间刻度信息，用于描述所述声谱所携带的声谱特征对应的分布时长；根据所述时间刻度信息和所述目标视频的预设帧率确定分段时长；

7.根据权利要求6所述的方法，其特征在于，所述对所述表情系数序列和所述多个音频段进行融合处理，得到目标视频，包括：

获取与所述表情系数对应的多个人脸表情的混合变形；

融合所述多个音频段与所述合成视频，得到所述目标视频。

8.一种视频处理装置，其特征在于，包括：

获取模块，被配置为执行获取与待处理文本对应的声谱；

分段模块，被配置为执行对所述声谱进行分段处理，得到多个声谱段；

预测模块，被配置为执行采用表情系数序列生成模型对所述声谱进行预测处理，得到与所述声谱对应的表情系数序列，所述表情系数序列包括：多个表情系数，以及与所述表情系数对应的时长，所述表情系数与所述声谱段相对应；

生成模块，被配置为执行生成与所述声谱段对应的音频段；

发送模块，被配置为执行将所述表情系数序列和多个所述音频段发送至客户端，以触发所述客户端生成目标视频；

所述分段模块，被配置为执行：

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求8所述的装置，其特征在于，所述分段模块，被配置为执行：

确定预设值与所述预设帧率的比值；

11.根据权利要求8所述的装置，其特征在于，还包括：

12.根据权利要求11所述的装置，其特征在于，所述对齐模块，被配置为执行：

13.一种视频处理装置，其特征在于，包括：

接收模块，被配置为执行接收表情系数序列和多个音频段，其中，所述多个音频段，是对与待处理文本对应的声谱进行分段以得到多个声谱段，并根据所述多个声谱段所生成的，所述表情系数序列，是对所述声谱进行预测处理得到的，所述表情系数序列包括：多个表情系数，以及与所述表情系数对应的时长，所述表情系数与所述声谱段相对应；

融合模块，被配置为执行对所述表情系数序列和所述多个音频段进行融合处理，得到目标视频；

14.根据权利要求13所述的装置，其特征在于，所述融合模块，被配置为执行：

获取与所述表情系数对应的多个人脸表情的混合变形；

融合所述多个音频段与所述合成视频，得到所述目标视频。

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-7中任一项所述的方法。

16.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-7中任一项所述的方法。