CN114945110A

CN114945110A - 说话头视频合成方法、装置、终端设备及可读存储介质

Info

Publication number: CN114945110A
Application number: CN202210611253.7A
Authority: CN
Inventors: 丁万; 黄东延; 颜霖煌; 杨志勇
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-26
Anticipated expiration: 2042-05-31
Also published as: CN114945110B

Abstract

本申请适用于终端技术领域，尤其涉及说话头视频合成方法、装置、终端设备及计算机可读存储介质。该方法中，终端设备获取目标文本和目标图像后，确定目标文本对应的声学特征和目标图像对应的副语言特征，以根据目标文本对应的声学特征和目标图像对应的副语言特征得到目标文本对应的合成语音。另外，终端设备确定目标文本对应的目标嘴部动作序列，并根据目标嘴部动作序列和目标图像得到目标用户对应的脸部动作视频。最后，终端设备对合成语音和脸部动作视频进行同步处理，得到目标用户对应的说话头视频。即本申请可以结合目标用户对应的副语言特征，得到目标文本对应的合成语音，使得说话头视频中包含符合用户期望的副语言信息，提升用户体验。

Description

说话头视频合成方法、装置、终端设备及可读存储介质

技术领域

本申请属于终端技术领域，尤其涉及一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。

背景技术

说话头视频合成是指根据一段文本和指定的脸部图像，输出对应该文本和该脸部图像的一段说话头的多模态视频(即包含合成的语音和说话时的脸部动作等)。但目前的说话头视频合成方法中，输入的脸部图像仅影响输出的视觉信息(即说话头视频的图像部分)，而并未考虑说话人的脸部特征对说话人的副语言信息(例如声纹，年龄、语速等)的影响，降低了用户体验。

发明内容

本申请实施例提供了一种说话头视频合成方法、装置、终端设备及计算机可读存储介质，可以解决现有的说话头视频合成未考虑说话人的脸部特征对说话人的副语言信息的影响，降低用户体验的问题。

第一方面，本申请实施例提供了一种说话头视频合成方法，可以包括：

获取目标文本和目标图像，所述目标图像中包含目标用户的脸部图像；

确定所述目标文本对应的声学特征，并确定所述目标图像对应的副语言特征；

根据所述目标文本对应的声学特征和所述目标图像对应的副语言特征，得到所述目标文本对应的合成语音；

确定所述目标文本对应的目标嘴部动作序列，并根据所述目标嘴部动作序列和所述目标图像，得到所述目标用户对应的脸部动作视频；

对所述合成语音和所述脸部动作视频进行同步处理，得到所述目标用户对应的说话头视频。

在上述的说话头视频合成方法中，终端设备可以获取目标文本和目标图像，目标图像中包含目标用户的脸部图像。随后，终端设备可以确定目标文本对应的声学特征，并确定目标图像对应的副语言特征，以根据目标文本对应的声学特征和目标图像对应的副语言特征，得到目标文本对应的合成语音。另外，终端设备可以确定目标文本对应的目标嘴部动作序列，并根据目标嘴部动作序列和目标图像，得到目标用户对应的脸部动作视频。最后，终端设备可以对合成语音和脸部动作视频进行同步处理，得到目标用户对应的说话头视频。即本申请实施例中，终端设备可以根据目标图像确定目标用户对应的副语言特征，从而可以结合目标用户对应的副语言特征，得到目标文本对应的合成语音，使得说话头视频中的合成语音包含符合用户期望的副语言信息，提升用户体验。

在一个示例中，在所述确定所述目标图像对应的副语言特征之前，所述方法还可以包括：

获取训练图像集；

对于所述训练图像集中的每一训练图像，确定所述训练图像对应的第一训练语音；

通过预设的副语言表征模型，确定所述第一训练语音对应的副语言特征，并将所述第一训练语音对应的副语言特征确定为所述训练图像对应的副语言特征；

利用各所述训练图像和各所述训练图像对应的副语言特征，训练得到副语言预测模型，所述副语言预测模型用于根据目标图像，预测所述目标图像对应的副语言特征。

示例性的，在所述通过预设的副语言表征模型，确定所述训练语音对应的副语言特征之前，所述方法还可以包括：

获取第一训练文本对应的第二训练语音，所述第二训练语音为第一用户对应的语音；

获取第二训练文本对应的第三训练语音和第四训练语音，所述第三训练语音为所述第一用户对应的语音，所述第四训练语音为第二用户对应的语音；

利用初始的副语言表征模型，获取所述第二训练语音对应的副语言特征；

根据所述第二训练语音对应的副语言特征对所述第四训练语音进行转换，得到第五训练语音；

根据所述第三训练语音和所述第五训练语音，调整所述副语言表征模型的模型参数，直至所述第三训练语音和所述第五训练语音之间的误差满足预设条件，得到预设的副语言表征模型。

在一种可能的实现方式中，所述确定所述目标文本对应的目标嘴部动作序列，可以包括：

确定所述目标文本对应的目标音素序列；

根据所述目标音素序列，确定所述目标文本对应的第一候选嘴部动作序列；

根据所述目标音素序列，获取所述目标文本对应的声学特征，并根据所述声学特征，确定所述目标文本对应的第二候选嘴部动作序列；

对所述第一候选嘴部动作序列和所述第二候选嘴部动作序列进行融合，得到所述目标文本对应的目标嘴部动作序列。

在一个示例中，在所述根据所述目标音素序列，确定所述目标文本对应的第一候选嘴部动作序列之前，所述方法还可以包括：

获取视频数据集，所述视频数据集包括多条视频数据；

对于每一视频数据，确定所述视频数据对应的训练音素序列；

确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作；

对于每一训练音素，根据所述训练音素对应的各第一初始嘴部动作，确定所述训练音素对应的第一训练嘴部动作；

根据各训练音素对应的第一训练嘴部动作，确定各所述训练音素序列对应的第一训练嘴部动作序列；

利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列，训练得到第一预测模型，所述第一预测模型用于根据音素序列，预测第一候选嘴部动作序列。

在另一个示例中，在所述根据所述声学特征，确定所述目标文本对应的第二候选嘴部动作序列之前，所述方法还可以包括：

获取视频数据集，所述视频数据集包括多条视频数据；

根据所述训练音素序列，获取所述视频数据对应的声学特征，并确定所述声学特征对应的第二初始嘴部动作序列；

确定所述训练音素序列对应的第一候选嘴部动作序列；

根据所述第二初始嘴部动作序列和所述训练音素序列对应的第一候选嘴部动作序列，得到所述声学特征对应的第二训练嘴部动作序列；

利用各所述声学特征和各所述声学特征对应的第二训练嘴部动作序列，训练得到第二预测模型，所述第二预测模型用于根据声学特征，预测第二候选嘴部动作序列。

在一种可能的实现方式中，所述根据所述目标嘴部动作序列和所述目标图像，得到所述目标用户对应的脸部动作视频，可以包括：

确定所述目标文本对应的目标音素序列；

确定所述目标音素序列中的各目标音素对应的第一时长，并根据所述第一时长确定所述合成语音对应的第二时长；

根据所述第二时长，获取所述目标文本对应的头部和眼部动作序列；

根据所述目标嘴部动作序列、所述头部和眼部动作序列以及所述目标图像，得到所述目标用户对应的脸部动作视频。

第二方面，本申请实施例提供了一种说话头视频合成装置，可以包括：

文本图像获取模块，用于获取目标文本和目标图像，所述目标图像中包含目标用户的脸部图像；

特征确定模块，用于确定所述目标文本对应的声学特征，并确定所述目标图像对应的副语言特征；

语音合成模块，用于根据所述目标文本对应的声学特征和所述目标图像对应的副语言特征，得到所述目标文本对应的合成语音；

脸部视频合成模块，用于确定所述目标文本对应的目标嘴部动作序列，并根据所述目标嘴部动作序列和所述目标图像，得到所述目标用户对应的脸部动作视频；

说话头视频获取模块，用于对所述合成语音和所述脸部动作视频进行同步处理，得到所述目标用户对应的说话头视频。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，使所述终端设备实现上述第一方面中任一项所述的说话头视频合成方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被计算机执行时，使所述计算机实现上述第一方面中任一项所述的说话头视频合成方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的说话头视频合成方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1是一种说话头视频合成方法的示意性流程图；

图2是本申请实施例提供的一种说话头视频合成方法的示意性流程图；

图3是本申请实施例提供的训练副语言预测模型的示意性流程图；

图4是本申请实施例提供的训练副语言表征模型的示意性流程图；

图5是本申请实施例提供的一种说话头视频合成装置的结构示意图；

图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

此外，本申请实施例中提到的“多个”应当被解释为两个或两个以上。

本申请实施例中提供的说话头视频合成方法中所涉及到的步骤仅仅作为示例，并非所有的步骤均是必须执行的步骤，或者并非各个信息或消息中的内容均是必选的，在使用过程中可以根据需要酌情增加或减少。本申请实施例中同一个步骤或者具有相同功能的步骤或者消息在不同实施例之间可以互相参考借鉴。

本申请实施例描述的业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参阅图1，图1示出了一种说话头视频合成方法的示意性流程图。该方法可以应用于终端设备。如图1所示，在需要合成说话头视频时，终端设备可以获取待合成的文本和人脸图像，并通过语音合成(text to speech，TTS)和语音转换(voice conversion，VC)技术合成文本对应的目标语音。随后，终端设备可以提取目标语音对应的语音特征，例如可以通过双向长短时记忆网络(bi-directional long short-term memory，BLSTM)来提取目标语音对应的语音特征，并将语音特征映射到发音时的嘴部动作，以得到文本对应的嘴部动作序列。然后，电子设备可以根据嘴部动作序列和人脸图像，合成人脸动作视频，例如可以采用vid2vid算法根据嘴部动作序列和人脸图像，合成人脸动作视频。最后，电子设备可以在时间维度上，将目标语音和人脸动作视频对齐，得到多模态的说话头视频。

即说话头视频合成方法中，输入的脸部图像一般仅影响输出的视觉信息(即说话头视频的图像部分)，但在实际交互中，用户会基于说话人的脸部特征对说话人的副语言信息(例如声纹，年龄、语速等)产生期望，若实际合成的说话头视频中的副语言信息与期望的副语言信息的差异较大，会使得用户产生怪异的感觉。而一般的说话头视频合成方法中，并未考虑说话人的脸部特征对说话人的副语言信息的影响，降低了用户体验。

为解决上述问题，本申请实施例提供了一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。该方法中，终端设备可以获取目标文本和目标图像，目标图像中包含目标用户的脸部图像。随后，终端设备可以确定目标文本对应的声学特征，并确定目标图像对应的副语言特征，以根据目标文本对应的声学特征和目标图像对应的副语言特征，得到目标文本对应的合成语音。另外，终端设备可以确定目标文本对应的目标嘴部动作序列，并根据目标嘴部动作序列和目标图像，得到目标用户对应的脸部动作视频。最后，终端设备可以对合成语音和脸部动作视频进行同步处理，得到目标用户对应的说话头视频。即本申请实施例中，终端设备可以根据目标图像确定目标用户对应的副语言特征，从而可以结合目标用户对应的副语言特征，得到目标文本对应的合成语音，以使得所输入的目标图像同时也可以影响说话头视频中的音频部分，即可以基于目标图像自动调节说话头视频中音频部分的副语言特征，使得说话头视频中包含符合用户期望的副语言信息，提升用户体验，具有较强的易用性和实用性。

本申请实施例中，终端设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personaldigital assistant，PDA)、桌上型计算机、云端服务器等，本申请实施例对终端设备的具体类型不作任何限制。

请参阅图2，图2示出了本申请实施例提供的说话头视频合成方法的示意性流程图。该方法可以应用终端设备。如图2所示，该方法可以包括：

S201、获取目标文本和目标图像，目标图像中包含目标用户的脸部图像。

本申请实施例中，当需要合成说话头视频时，终端设备可以获取待合成的目标文本和目标图像。目标文本可以为任一文本。目标用户可以为任一用户。例如，目标文本可以为“明天将会是美好的一天”，目标用户可以为用户A，即所需要合成的说话头视频为用户A说“明天将会是美好的一天”的脸部视频。

S202、确定所述目标文本对应的声学特征，并确定所述目标图像对应的副语言特征.

示例性的，在获取目标文本后，终端设备可以对目标文本进行前端分析，确定目标文本对应的目标音素序列。应理解，目标音素序列中包括的音素(以下称为目标音素)可以为一个或多个，具体可以根据目标文本来确定。随后，终端设备可以根据目标音素序列，获取目标文本对应的声学特征。

需要说明的是，本申请实施例对终端设备确定目标文本对应的目标音素序列和终端设备根据目标音素序列确定目标文本对应的声学特征的具体方式不作任何限定，可以根据实际场景具体确定。

在一个示例中，终端设备可以将目标图像输入至副语言预测模型进行处理，得到副语言预测模型输出的目标图像对应的副语言特征。

请参阅图3，图3示出了本申请实施例提供的训练副语言预测模型的示意性流程图。应理解，训练副语言预测模型的执行主体可以为本申请实施例中的终端设备，也可以为其他终端设备，在此将以训练副语言预测模型的执行主体为本申请实施例中的终端设备为例进行示例性说明。如图3所示，在所述确定所述目标图像对应的副语言特征之前，所述方法还可以包括：

S301、获取训练图像集。

S302、对于所述训练图像集中的每一训练图像，确定所述训练图像对应的第一训练语音。

S303、通过预设的副语言表征模型，确定所述第一训练语音对应的副语言特征，并将所述第一训练语音对应的副语言特征确定为所述训练图像对应的副语言特征。

S304、利用各所述训练图像和各所述训练图像对应的副语言特征，训练得到副语言预测模型，所述副语言预测模型用于根据目标图像，预测所述目标图像对应的副语言特征。

其中，训练图像集中的每一张训练图像均包含脸部图像。对于每一张训练图像，可以通过人工标注方式，确定该训练图像对应的训练语音(以下称为第一训练语音)。例如，可以采集训练图像和第一训练语音，并通过人工标注方式对训练图像和副语言信息符合期望的第一训练语音进行配对，得到<训练图像，第一训练语音>的数据对。随后，对于每一数据对，终端设备可以从第一训练语音中提取副语言特征，以作为该数据对中的训练图像对应的副语言特征。然后，终端设备可以通过训练图像集中的各训练图像以及各训练图像对应的副语言特征对副语言预测模型进行训练，使得副语言预测模型学习到人脸图像到期望的副语言特征的映射。即对于每一训练图像，可以将该训练图像对应的副语言特征作为标签，将该训练图像输入至副语言预测模型，以通过副语言预测模型预测该训练图像对应的副语言特征，并根据各训练图像所预测得到的副语言特征和各训练图像对应的副语言特征，确定训练误差A。当训练误差A不满足预设条件A时，可以调整副语言预测模型的模型参数，然后重新通过训练图像集中的各训练图像以及各训练图像对应的副语言特征对副语言预测模型进行训练，直至训练误差A满足预设条件A，得到训练完成的副语言预测模型。

应理解，副语言预测模型的结构可采用卷积神经网络(convolutional neuralnetwork，CNN)或长短时记忆网络(directional long short-term memory，LSTM)等。副语言预测模型的训练损失函数可以采用最小均方差(mean square error，MSE)。预设条件A可以由技术人员根据实际场景具体确定，本申请实施例对此不作任何限制。

请参阅图4，图4示出了本申请实施例提供的训练副语言表征模型的示意性流程图。应理解，训练副语言表征模型的执行主体可以为本申请实施例中的终端设备，也可以为其他终端设备，在此将以训练副语言表征模型的执行主体为本申请实施例中的终端设备为例进行示例性说明。如图4所示，在所述通过预设的副语言表征模型，确定所述训练语音对应的副语言特征之前，所述方法还可以包括：

S401、获取第一训练文本对应的第二训练语音，所述第二训练语音为第一用户对应的语音。

S402、获取第二训练文本对应的第三训练语音和第四训练语音，所述第三训练语音为所述第一用户对应的语音，所述第四训练语音为第二用户对应的训练语音。

S403、利用初始的副语言表征模型，获取所述第二训练语音对应的副语言特征。

S404、根据所述第二训练语音对应的副语言特征对所述第四训练语音进行转换，得到第五训练语音。

S405、根据所述第三训练语音和所述第五训练语音，调整所述副语言表征模型的模型参数，直至所述第三训练语音和所述第五训练语音之间的误差满足预设条件，得到预设的副语言表征模型。

对于S401至S405，第一训练文本和第二训练文本均可以为包含任一内容的文本，且第一训练文本与第二训练文本不相同。对于第一训练文本，终端设备可以获取不同用户朗读第一训练文本的训练语音(以下称为第二训练语音)。对于第二训练文本，终端设备可以获取不同用户朗读第二训练文本的训练语音(以下称为第三训练语音)。随后，终端设备可以根据第二训练语音和第三训练语音，构成副语言表征模型训练所需的三元组A，其中，每一三元组A中可以包括第一用户对应的第二训练语音和第三训练语音，以及第二用户对应的第三训练语音(为了便于区分，以下称为第四训练语音)。应理解，第一用户可以为任一用户，第二用户可以为不同于第一用户的任一用户。

对于每一三元组A，终端设备可以将该三元组A中第一用户对应的第三训练语音作为该三元组A对应的标签，来对副语言表征模型的训练进行监督。即对于每一三元组A，终端设备可以将第一用户对应的第二训练语音输入至初始的副语言表征模型，得到副语言表征模型输出的第二训练语音对应的副语言特征。随后，终端设备可以根据第二训练语音对应的副语言特征对该三元组A中第二用户对应的第四训练语音进行转换，例如，终端设备可以对第二用户对应的第四训练语音进行声学特征的提取，并利用语音转换模型根据所提取的声学特征和第二训练语音对应的副语言特征，得到第五训练语音，即得到利用第一用户对应的副语言信息朗读第二预设文本时的语音。

随后，终端设备可以根据第五训练语音和第一用户对应的第三训练语音确定误差B。当误差B不满足预设条件B时，可以调整副语言表征模型的模型参数，然后重新通过各三元组A对副语言表征模型进行训练，直至误差B满足预设条件B，从而得到训练完成的副语言表征模型。

下面对语音转换模型的训练过程进行说明。训练语音转换模型的执行主体可以为本申请实施例中的终端设备，也可以为其他终端设备，在此将以训练语音转换模型的执行主体为本申请实施例中的终端设备为例进行示例性说明。

应理解，终端设备可以获取训练文本集，训练文本集中包括多个训练文本(以下称为第三训练文本)，并通过TTS技术生成各第三训练文本对应的语音(以下称为源语音)。同时，终端设备可以获取不同用户朗读第三训练文本的语音(以下称为目标语音)。随后，终端设备可以通过训练完成的副语言表征模型，获取各目标语音对应的副语言特征，并根据各源语音、各目标语音以及各目标语音对应的副语言特征组成三元组B。其中，每一三元组B中可以包括一条源语音、与该源语音具有相同的第三训练文本的目标语音以及该目标语音对应的副语言特征。

对于每一三元组B，终端设备可以将该三元组B中的目标语音作为该三元组B对应的标签，来对语音转换模型的训练进行监督。即对于每一三元组B，终端设备可以获取该三元组B中的源语音所对应的声学特征，并可以将该声学特征和该三元组B中的目标语音对应的副语言特征，输入至初始的语音转换模型，得到语音转换模型转换得到的语音(以下称为预测语音)。

随后，终端设备可以根据各三元组B对应的预测语音和目标语音，确定训练误差C。当训练误差C不满足预设条件C时，可以调整语音转换模型的模型参数，然后重新通过各三元组B对语音转换模型进行训练，直至训练误差C满足预设条件C，从而得到训练完成的语音转换模型。

需要说明的是，副语言表征模型和语音转换模型的结构可以采用编码-解码结构，例如seq2seq结构等，损失函数可以采用MSE。

S203、根据所述目标文本对应的声学特征和所述目标图像对应的副语言特征，得到所述目标文本对应的合成语音。

在此，终端设备可以将目标文本对应的声学特征和目标图像对应的副语言特征输入上述训练得到的语音转换模型，以得到目标文本对应的合成语音。

S204、确定所述目标文本对应的目标嘴部动作序列，并根据所述目标嘴部动作序列和所述目标图像，得到所述目标用户对应的脸部动作视频。

需要说明的是，本申请实施例对确定目标文本对应的目标嘴部动作序列的方式不作具体限定，可以由技术人员根据实际场景具体确定。例如，可以根据目标文本对应的合成语音来确定目标文本对应的目标嘴部动作序列。

在一种可能的实现方式中，终端设备可以确定目标文本对应的目标音素序列，目标音素序列中包含一个或多个目标音素。随后，终端设备可以根据目标音素序列，确定目标文本对应的第一候选嘴部动作序列，同时，可以根据目标音素序列，获取目标文本对应的声学特征，并根据声学特征，确定目标文本对应的第二候选嘴部动作序列。然后，终端设备可以对第一候选嘴部动作序列和第二候选嘴部动作序列进行融合，得到目标文本对应的目标嘴部动作序列，从而可以根据目标嘴部动作序列和目标图像，得到目标用户对应的脸部动作视频。

也就是说，终端设备获取目标文本对应的目标音素序列后，可以根据语言学知识，将目标音素序列中的各目标音素映射至对应的视素，即粗略确定各目标音素对应的嘴部动作，得到目标文本对应的第一候选嘴部动作序列。也就是说，第一候选嘴部动作序列可以为嘴部动作的粗略预测。

示例性的，嘴部动作可以通过嘴部的关键点来进行量化表征。以下将以通过嘴部的关键点表征嘴部动作为例进行示例性说明。

同时，终端设备获取目标文本对应的声学特征之后，可以根据声学特征，确定目标文本对应的第二候选嘴部动作序列，第二候选嘴部动作序列为第一候选嘴部动作序列中未包含的嘴部动作的细节部分。

在一个示例中，终端设备可以将目标文本对应的目标音素序列输入第一预测模型进行预测处理，得到第一预测模型输出的目标音素序列对应的第一候选嘴部动作序列。在另一个示例中，终端设备可以将目标文本对应的声学特征输入至第二预测模型进行预测处理，得到第二预测模型输出的声学特征对应的第二候选嘴部动作序列。

下面对训练第一预测模型的过程进行说明。应理解，训练第一预测模型的执行主体可以为本申请实施例中的终端设备，也可以为其他终端设备，在此将以训练第一预测模型的执行主体为本申请实施例中的终端设备为例进行示例性说明。

示例性的，在所述根据所述目标音素序列，确定所述目标文本对应的第一目标嘴部动作序列之前，所述方法还可以包括：

步骤a1、获取视频数据集，所述视频数据集包括多条视频数据。

其中，视频数据集可以包括不同用户说不同文本内容的视频数据，视频数据中的每一条均包括说话的用户的脸部图像。应理解，视频数据集中的每一条视频数据的时长可以为任一数值。

步骤b1、对于每一视频数据，确定所述视频数据对应的训练音素序列。

终端设备获取视频数据集之后，可以确定每一条视频数据对应的音素序列(以下称为训练音素序列)。本申请实施例对终端设备确定各视频数据对应的训练音素序列的方式不作任何限制，可以由技术人员根据实际场景具体设置。

步骤c1、确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作。

本申请实施例中，在确定各视频数据对应的训练音素序列后，对每一训练音素序列，终端设备可以确定该训练音素序列中的各训练音素对应的嘴部动作(以下称为第一初始嘴部动作)，例如可以通过人工标注方式来确定各训练音素对应的第一初始嘴部动作，即可以通过人工标注各训练音素对应的嘴部关键点。

步骤d1、对于每一训练音素，根据所述训练音素对应的各第一初始嘴部动作，确定所述训练音素对应的第一训练嘴部动作。

示例性的，对于每一个训练音素，终端设备获取该训练音素对应的第一初始嘴部动作之后，例如获取该训练音素对应的各嘴部关键点(例如各嘴部关键点坐标)后，终端设备可以确定各嘴部关键点对应的平均值，并可以将该平均值确定为该训练音素对应的第一训练嘴部动作的量化值。

例如，对于训练音素A，当训练数据A、训练数据B、训练数据C和训练数据D中均包括训练音素A时，终端设备获取训练数据A中训练音素A对应的第一初始嘴部动作A、训练数据B中训练音素A对应的第一初始嘴部动作B、训练数据C中训练音素A对应的第一初始嘴部动作C和训练数据D中训练音素A对应的第一初始嘴部动作D之后，终端设备可以确定第一初始嘴部动作A、第一初始嘴部动作B、第一初始嘴部动作C和第一初始嘴部动作D的平均值，并可以将该平均值确定为训练音素A对应的第一训练嘴部动作。

步骤e1、根据各训练音素对应的第一训练嘴部动作，确定各所述训练音素序列对应的第一训练嘴部动作序列。

步骤f1、利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列，训练得到第一预测模型，所述第一预测模型用于根据音素序列，预测第一候选嘴部动作序列。

应理解，在确定各训练音素对应的第一训练嘴部动作后，终端设备可以将各训练音素序列中各训练音素的第一训练嘴部动作进行组合，得到各训练音素序列对应的第一训练嘴部动作序列，并可以利用各训练音素序列和各训练音素序列对应的第一训练嘴部动作序列对初始的第一预测模型进行训练，得到训练后的第一预测模型。其中，本申请实施例对第一预测模型的具体结构不作任何限制，可以由技术人员根据实际场景具体设置。

下面对训练第二预测模型的过程进行说明。应理解，训练第二预测模型的执行主体可以为本申请实施例中的终端设备，也可以为其他终端设备，在此将以训练第二预测模型的执行主体为本申请实施例中的终端设备为例进行示例性说明。

示例性的，在所述根据所述声学特征，确定所述目标文本对应的第二目标嘴部动作序列之前，所述方法还可以包括：

步骤a2、获取视频数据集，所述视频数据集包括多条视频数据。

步骤b2、对于每一视频数据，确定所述视频数据对应的训练音素序列。

应理解，a2与前述a1类似，具体内容可以参照前述a1中的描述，b2与前述b1类似，具体内容可以参照前述b1中的描述，为简明起见，在此不再赘述。

步骤c2、根据所述训练音素序列，获取所述视频数据对应的声学特征，并确定所述声学特征对应的第二初始嘴部动作序列。

本申请实施例中，在确定各视频数据对应的训练音素序列后，对于每一训练音素序列，终端设备可以根据该训练音素序列获取对应的声学特征，并确定该训练音素序列中的各训练音素对应的嘴部动作(以下称为第二初始嘴部动作)，例如可以通过人工标注方式来确定各训练音素对应的第二初始嘴部动作，即可以通过人工标注各训练音素对应的嘴部关键点，以此得到该声学特征对应的第二初始嘴部动作序列。

步骤d2、确定所述训练音素序列对应的第一候选嘴部动作序列。

步骤e2、根据所述第二初始嘴部动作序列和所述训练音素序列对应的第一候选嘴部动作序列，得到所述声学特征对应的第二训练嘴部动作序列。

示例性的，对于每一训练音素序列，终端设备可以通过第一预测模型，来预测该训练音素序列对应的第一候选嘴部动作序列。随后，终端设备可以根据第二初始嘴部动作序列和第一候选嘴部动作序列，确定该训练音素序列对应的声学特征所对应的第二训练嘴部动作序列。例如，终端设备可以将第二初始嘴部动作序列中的各第二初始嘴部动作减去第一候选嘴部动作序列中所对应的第一候选嘴部动作，来得到该训练音素序列对应的声学特征所对应的第二训练嘴部动作序列。

例如，对于声学特征A，当第二初始嘴部动作序列包括第二初始嘴部动作A1、第二初始嘴部动作B1、第二初始嘴部动作C1、第二初始嘴部动作D1和第二初始嘴部动作E1时，第一候选嘴部动作序列中可以包括第一候选嘴部动作A2、第一候选嘴部动作B2、第一候选嘴部动作C2、第一候选嘴部动作D2和第一候选嘴部动作E2，此时，终端设备可以将第二初始嘴部动作A1减去第一候选嘴部动作A2，得到第二训练嘴部动作A3，将第二初始嘴部动作B1减去第一候选嘴部动作B2，得到第二训练嘴部动作B3，将第二初始嘴部动作C1减去第一候选嘴部动作C2，得到第二训练嘴部动作C3，将第二初始嘴部动作D1减去第一候选嘴部动作D2，得到第二训练嘴部动作D3，以及将第二初始嘴部动作E1减去第一候选嘴部动作E2，得到第二训练嘴部动作E3。因此，终端设备可以将第二训练嘴部动作A3、第二训练嘴部动作B3、第二训练嘴部动作C3、第二训练嘴部动作D3和第二训练嘴部动作E3进行组合，得到声学特征A对应的第二训练嘴部动作序列。

步骤f2、利用各所述声学特征和各所述声学特征对应的第二训练嘴部动作序列，训练得到第二预测模型，所述第二预测模型用于根据声学特征，预测第二候选嘴部动作序列。

应理解，在确定各声学特征对应的第二训练嘴部动作序列后，终端设备可以利用各声学特征和各声学特征对应的第二训练嘴部动作序列对初始的第二预测模型进行训练，得到训练后的第二预测模型。其中，本申请实施例对第二预测模型的具体结构不作任何限制，可以由技术人员根据实际场景具体设置。

本申请实施例中，终端设备获取目标文本对应的第一候选嘴部动作序列(即嘴部动作的粗略信息)和第二候选嘴部动作序列(即嘴部动作的细节信息)后，可以对第一候选嘴部动作序列和第二候选嘴部动作序列进行融合，得到融合后的目标嘴部动作序列。随后，终端设备可以根据融合后的目标嘴部动作序列和目标图像，得到目标用户对应的脸部动作视频。

需要说明的是，本申请实施例对终端设备根据目标嘴部动作序列和目标图像，得到脸部动作视频的具体实现方式不作任何限制，可以由技术人员根据实际场景具体确定。例如，可以通过vid2vid算法来确定脸部动作视频。

应理解，人在说话时，除了嘴部动作还伴有头部和眼部(如眨眼)的动作，为了实现更自然地说话头视频的合成，还应预测说话时的头部和眼部动作。因此，本申请实施例可以基于头部和眼部动作与语音以及嘴部动作独立的假设，可以收集一个或多个用户(可以包括目标用户，也可以不包括目标用户)真实的视频数据集，在进行脸部动作视频的合成时，终端设备可以在该视频数据集中随机采样，得到自然的头部和眼部动作序列，进而将头部和眼部动作序列以及目标嘴部动作序列进行融合，得到融合后的动作序列，以根据融合后的动作序列来合成目标文本对应的脸部动作视频。

具体地，在确定目标文本对应的目标音素序列之后，终端设备可以确定目标音素序列中的各目标音素对应的第一时长，并根据第一时长确定合成语音对应的第二时长；根据第二时长，获取目标文本对应的头部和眼部动作序列。即终端设备可以从预设的视频数据集中，获取第二时长的头部和眼部动作，并可以将头部和眼部动作组合成目标文本对应的头部和眼部动作序列。随后，终端设备可以根据第一候选嘴部动作序列、第二候选嘴部动作序列、头部和眼部动作序列以及目标图像，得到目标用户对应的脸部动作视频。

S205、对所述合成语音和所述脸部动作视频进行同步处理，得到所述目标用户对应的说话头视频。

本申请实施例中，在得到目标文本对应的合成语音和脸部动作视频后，终端设备可以将合成语音和脸部动作视频在时间维度上进行同步(即对齐)，从而得到目标用户对应的说话头视频。

本申请实施例中，终端设备可以获取目标文本和目标图像，目标图像中包含目标用户的脸部图像。随后，终端设备可以确定目标文本对应的声学特征，并确定目标图像对应的副语言特征，以根据目标文本对应的声学特征和目标图像对应的副语言特征，得到目标文本对应的合成语音。另外，终端设备可以确定目标文本对应的目标嘴部动作序列，并根据目标嘴部动作序列和目标图像，得到目标用户对应的脸部动作视频。最后，终端设备可以对合成语音和脸部动作视频进行同步处理，得到目标用户对应的说话头视频。即本申请实施例中，终端设备可以根据目标图像确定目标用户对应的副语言特征，从而可以结合目标用户对应的副语言特征，得到目标文本对应的合成语音，使得说话头视频中的合成语音包含符合用户期望的副语言信息，提升用户体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的说话头视频合成方法，本申请实施例还提供了一种说话头视频合成装置。请参阅图5，图5示出了本申请实施例提供的一种说话头视频合成装置的结构框图。为了便于说明，仅示出了与本申请实施例相关的部分。

如图5所示，该装置可以包括：

文本图像获取模块501，用于获取目标文本和目标图像，所述目标图像中包含目标用户的脸部图像；

特征确定模块502，用于确定所述目标文本对应的声学特征，并确定所述目标图像对应的副语言特征；

语音合成模块503，用于根据所述目标文本对应的声学特征和所述目标图像对应的副语言特征，得到所述目标文本对应的合成语音；

脸部视频合成模块504，用于确定所述目标文本对应的目标嘴部动作序列，并根据所述目标嘴部动作序列和所述目标图像，得到所述目标用户对应的脸部动作视频；

说话头视频获取模块505，用于对所述合成语音和所述脸部动作视频进行同步处理，得到所述目标用户对应的说话头视频。

在一种可能的实现方式中，所述装置还可以包括：

训练图像获取模块，用于获取训练图像集；

第一训练语音确定模块，用于对于所述训练图像集中的每一训练图像，确定所述训练图像对应的第一训练语音；

副语言特征确定模块，用于通过预设的副语言表征模型，确定所述第一训练语音对应的副语言特征，并将所述第一训练语音对应的副语言特征确定为所述训练图像对应的副语言特征；

副语言预测模型训练模块，用于利用各所述训练图像和各所述训练图像对应的副语言特征，训练得到副语言预测模型，所述副语言预测模型用于根据目标图像，预测所述目标图像对应的副语言特征。

示例性的，所述装置还可以包括：

第二训练语音获取模块，用于获取第一训练文本对应的第二训练语音，所述第二训练语音为第一用户对应的语音；

第三训练语音获取模块，用于获取第二训练文本对应的第三训练语音和第四训练语音，所述第三训练语音为所述第一用户对应的语音，所述第四训练语音为第二用户对应的语音；

副语言特征获取模块，用于利用初始的副语言表征模型，获取所述第二训练语音对应的副语言特征；

训练语音转换模块，用于根据所述第二训练语音对应的副语言特征对所述第四训练语音进行转换，得到第五训练语音；

副语言表征模型训练模块，用于根据所述第三训练语音和所述第五训练语音，调整所述副语言表征模型的模型参数，直至所述第三训练语音和所述第五训练语音之间的误差满足预设条件，得到预设的副语言表征模型。

在一个示例中，所述脸部视频合成模块504，还可以用于确定所述目标文本对应的目标音素序列；根据所述目标音素序列，确定所述目标文本对应的第一候选嘴部动作序列；根据所述目标音素序列，获取所述目标文本对应的声学特征，并根据所述声学特征，确定所述目标文本对应的第二候选嘴部动作序列；对所述第一候选嘴部动作序列和所述第二候选嘴部动作序列进行融合，得到所述目标文本对应的目标嘴部动作序列。

在一种可能的实现方式中，所述装置还可以包括：

第一数据集获取模块，用于获取视频数据集，所述视频数据集包括多条视频数据；

第一训练音素序列确定模块，用于对于每一视频数据，确定所述视频数据对应的训练音素序列；

初始嘴部动作确定模块，用于确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作；

训练嘴部动作确定模块，用于对于每一训练音素，根据所述训练音素对应的各第一初始嘴部动作，确定所述训练音素对应的第一训练嘴部动作；

第一训练嘴部动作序列确定模块，用于根据各训练音素对应的第一训练嘴部动作，确定各所述训练音素序列对应的第一训练嘴部动作序列；

第一预测模型训练模块，用于利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列，训练得到第一预测模型，所述第一预测模型用于根据音素序列，预测第一候选嘴部动作序列。

在另一种可能的实现方式中，所述装置还可以包括：

第二数据集获取模块，用于获取视频数据集，所述视频数据集包括多条视频数据；

第二训练音素序列确定模块，用于对于每一视频数据，确定所述视频数据对应的训练音素序列；

声学特征获取模块，用于根据所述训练音素序列，获取所述视频数据对应的声学特征，并确定所述声学特征对应的第二初始嘴部动作序列；

候选嘴部动作序列确定模块，用于确定所述训练音素序列对应的第一候选嘴部动作序列；

第二训练嘴部动作序列确定模块，用于根据所述第二初始嘴部动作序列和所述训练音素序列对应的第一候选嘴部动作序列，得到所述声学特征对应的第二训练嘴部动作序列；

第二预测模型训练模块，用于利用各所述声学特征和各所述声学特征对应的第二训练嘴部动作序列，训练得到第二预测模型，所述第二预测模型用于根据声学特征，预测第二候选嘴部动作序列。

在一个示例中，所述脸部视频合成模块504，还可以用于确定所述目标文本对应的目标音素序列；确定所述目标音素序列中的各目标音素对应的第一时长，并根据所述第一时长确定所述合成语音对应的第二时长；根据所述第二时长，获取所述目标文本对应的头部和眼部动作序列；根据所述目标嘴部动作序列、所述头部和眼部动作序列以及所述目标图像，得到所述目标用户对应的脸部动作视频。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参阅图6，图6示出了本申请实施例提供的终端设备的结构示意图。如图6所示，该实施例的终端设备6可以包括：至少一个处理器60(图6中仅示出一个)、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述任意各个说话头视频合成方法实施例中的步骤。

所述终端设备6可以包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的举例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，还可以包括输入输出设备、网络接入设备等。

所述处理器60可以是中央处理单元(central processing unit，CPU)，该处理器60还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61在一些实施例中可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被计算机执行时，使所述计算机实现上述任意各个说话头视频合成方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备实现上述任意各个说话头视频合成方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory，ROM)、随机存取存储器(random accessmemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种说话头视频合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述确定所述目标图像对应的副语言特征之前，所述方法还包括：

获取训练图像集；

3.根据权利要求2所述的方法，其特征在于，在所述通过预设的副语言表征模型，确定所述训练语音对应的副语言特征之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述目标文本对应的目标嘴部动作序列，包括：

确定所述目标文本对应的目标音素序列；

5.根据权利要求4所述的方法，其特征在于，在所述根据所述目标音素序列，确定所述目标文本对应的第一候选嘴部动作序列之前，所述方法还包括：

获取视频数据集，所述视频数据集包括多条视频数据；

6.根据权利要求4所述的方法，其特征在于，在所述根据所述声学特征，确定所述目标文本对应的第二候选嘴部动作序列之前，所述方法还包括：

获取视频数据集，所述视频数据集包括多条视频数据；

确定所述训练音素序列对应的第一候选嘴部动作序列；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述目标嘴部动作序列和所述目标图像，得到所述目标用户对应的脸部动作视频，包括：

确定所述目标文本对应的目标音素序列；

8.一种说话头视频合成装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述终端设备实现如权利要求1至7中任一项所述的说话头视频合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被计算机执行时，使所述计算机实现如权利要求1至7中任一项所述的说话头视频合成方法。