CN111145282B

CN111145282B - 虚拟形象合成方法、装置、电子设备和存储介质

Info

Publication number: CN111145282B
Application number: CN201911274701.3A
Authority: CN
Inventors: 左童春; 何山; 胡金水; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-12-05
Anticipated expiration: 2039-12-12
Also published as: CN111145282A

Abstract

本发明实施例提供一种虚拟形象合成方法、装置、电子设备和存储介质，其中方法包括：确定语音数据的相关特征；相关特征用于表征语音数据中包含的与发言人表情相关的特征；将形象数据以及相关特征输入至表情合成模型中，得到表情合成模型输出的虚拟形象视频，虚拟形象视频中的虚拟形象配置有对应于语音数据的表情；其中，表情合成模型是基于样本发言人视频，样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的。本发明实施例提供的方法、装置、电子设备和存储介质，能够使得虚拟形象表情更好地贴合语音数据，更加自然真实。

Description

虚拟形象合成方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种虚拟形象合成方法、装置、电子设备和存储介质。

背景技术

近年来，随着计算机语音合成与视频合成技术的不断进步，业界研发出了多种基于语音驱动的虚拟形象合成技术。虚拟形象可以执行新闻播报、天气预报、解说游戏、提供订餐服务等任务。

虚拟形象在执行上述任务的过程中，多数仅合成与输出语音相匹配的口型，虚拟形象始终保持中性表情，或者预先设置几种基本表情，针对不同的语音输出内容配置对应的表情。由此合成的虚拟形象在输出语音时，其对应的表情往往不够逼真自然，用户体验较差。

发明内容

本发明实施例提供一种虚拟形象合成方法、装置、电子设备和存储介质，用以解决现有的虚拟形象在输出语音时对应的表情不够逼真、自然的问题。

第一方面，本发明实施例提供一种虚拟形象合成方法，包括：

确定语音数据的相关特征；所述相关特征用于表征所述语音数据中包含的与发言人表情相关的特征；

将形象数据以及所述相关特征输入至表情合成模型中，得到所述表情合成模型输出的虚拟形象视频，所述虚拟形象视频中的虚拟形象配置有对应于所述语音数据的表情；

其中，所述表情合成模型是基于样本发言人视频、所述样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的。

优选地，所述将形象数据以及所述相关特征输入至表情合成模型中，得到所述表情合成模型输出的虚拟形象视频，具体包括：

将任一帧分别对应的形象数据和相关特征输入至所述表情合成模型的特征提取层，得到所述特征提取层输出的帧特征；

将所述帧特征输入至所述表情合成模型的表情预测层，得到所述表情预测层输出的所述任一帧的虚拟表情图。

优选地，所述将任一帧分别对应的形象数据和相关特征输入至所述表情合成模型的特征提取层，得到所述特征提取层输出的帧特征，具体包括：

将任一帧分别对应的形象数据和相关特征输入至所述特征提取层的当前特征提取层，得到所述当前特征提取层输出的当前特征；

将所述任一帧前预设帧的虚拟表情图输入至所述特征提取层的帧前特征提取层，得到所述帧前特征提取层输出的帧前特征。

优选地，所述将所述帧特征输入至所述表情合成模型的表情预测层，得到所述表情预测层输出的所述任一帧的虚拟表情图，具体包括：

将所述当前特征和所述帧前特征融合后输入至所述表情预测层，得到所述表情预测层输出的所述任一帧的虚拟表情图。

优选地，所述将所述当前特征和所述帧前特征融合后输入至所述表情预测层，得到所述表情预测层输出的所述任一帧的虚拟表情图，具体包括：

将所述当前特征和所述帧前特征融合后输入至所述表情预测层的候选表情预测层中，得到所述候选表情预测层输出的候选表情图；

将所述当前特征和所述帧前特征融合后输入至所述表情预测层的光流预测层中，得到所述光流预测层输出的光流信息；

将所述候选表情图和所述光流信息输入至所述表情预测层中的融合层，得到所述融合层输出的所述任一帧的虚拟表情图。

优选地，所述表情合成模型是基于样本发言人视频，样本发言人视频对应的样本语音数据的相关特征和样本形象数据，以及判别器训练得到的，所述表情合成模型和所述判别器构成生成式对抗网络。

优选地，所述判别器包括图像判别器和/或视频判别器；

其中，所述图像判别器用于判断所述虚拟形象视频中任一帧虚拟表情图的合成真实性，所述视频判别器用于判断所述虚拟形象视频的合成真实性。

优选地，所述相关特征包括语言相关特征，以及情绪特征和/或发言人身份特征。

优选地，所述形象数据是基于所述发言人身份特征确定的。

优选地，所述虚拟形象视频中的虚拟形象配置的对应于所述语音数据的表情包括面部表情和颈部表情。

第二方面，本发明实施例提供一种虚拟形象合成装置，包括：

相关特征确定单元，用于确定语音数据的相关特征；所述相关特征用于表征所述语音数据中包含的与发言人表情相关的特征；

表情合成单元，用于将形象数据以及所述相关特征输入至表情合成模型中，得到所述表情合成模型输出的虚拟形象视频，所述虚拟形象视频中的虚拟形象配置有对应于所述语音数据的表情；

其中，所述表情合成模型是基于样本发言人视频，所述样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种虚拟形象合成方法、装置、电子设备和存储介质，应用包含有丰富的表情相关信息的相关特征进行虚拟形象的表情合成，能够使得虚拟形象表情更好地贴合语音数据，更加自然真实。此外，通过表情合成模型生成的虚拟形象视频中，虚拟形象的表情是以整体的形式存在的，相比针对于虚拟形象中执行表情的各个区域单独建模的方式，针对表情整体建模，能够有效解决各个区域的肌肉的联动性问题，使得各个区域的肌肉联动更加自然逼真。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的虚拟形象合成方法的流程示意图；

图2为本发明实施例提供的表情合成方法的流程示意图；

图3为本发明实施例提供的特征提取方法的流程示意图；

图4为本发明实施例提供的表情预测方法的流程示意图；

图5为本发明实施例提供的表情合成模型的结构示意图；

图6为本发明另一实施例提供的虚拟形象合成方法的流程示意图；

图7为本发明实施例提供的虚拟形象合成装置的结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，针对于虚拟形象的合成技术，主要可以分为以下三类：

第一类，基于语音驱动的虚拟形象合成技术：将从语音中获取到的语言信息和表情信息独立地作用于最终合成的视频。此类方法中，只考虑了数种基本表情，合成的虚拟形象比较木讷、只能做几种预定义的基本表情，且存在***部与眉毛、喉部、脸颊等区域不太搭配等问题。上述问题一方面是因为仅根据语音内容的发音特征来确定口型的张合，并没有考虑不同情绪，不同人之间的差别，也没有考虑到人脸肌肉块间的生理学联动性，因此无法个性化地表达丰富的情绪。另一方面是因为此类方法仅能从几种或几十种固定的表情中选择一两种叠加到合成的视频中，不能合成出丰富的人脸表情。

第二类，基于表情迁移的虚拟形象合成技术：将驱动人物的人脸表情、口型、刚体运动迁移到虚拟形象上。由此合成的视频更加逼真，但十分依赖真人表演，无法离线地进行合成。

第三类，基于人脸的各个部位单独建模实现虚拟形象表情的合成技术，需要艺术家根据生理学和美学专业知识设计出整个人脸的运动，合成了一段视频需要逐帧编辑各个部位的状态，不仅需要很强的专业知识，而且耗时耗力。

从解剖学上看，人脸面部有42块肌肉，可产生丰富的表情，准确传达各种不同的心态和情感。这些肌肉的伸缩不是独立的，具有较强的相关性，例如：人在平静状态下说话，唇部和下巴的肌肉发生伸缩，而人在情绪激动时说同样一句话，额部肌肉、脸颊肌肉也会发生伸缩，且唇部、下巴等区域的肌肉伸缩强度明显比平静时更大。此外，人类的表情有数千种，现有的方法仅几种或几十种预设表情，表情表达能力不够精细和个性化。因此，怎样自动化合成表情更加逼真，更加自然的虚拟形象，仍然是本领域技术人员亟待解决的问题。

对此，本发明实施例提供了一种虚拟形象合成方法。图1为本发明实施例提供的虚拟形象合成方法的流程示意图，如图1所示，该方法包括：

步骤110，确定语音数据的相关特征；相关特征用于表征语音数据中包含的与发言人表情相关的特征。

具体地，语音数据即用于进行虚拟形象合成的语音数据，此处虚拟形象可以是虚拟的人物形象，也可以是虚拟的卡通形象或者动物形象等，本发明实施例对此不作限定。语音数据可以是通过收音设备采集到的发言人说话的语音数据，也可以是从网络等途径得到的语音数据中截取的，本发明实施例对此不作具体限定。

相关特征是从语音数据分析得到的与发言人的表情相关的特征，例如语音数据中的语言相关特征，语言相关特征对应于不同的发音，不同的发音需要发言人调动面部肌肉形成不同的口型，又例如语音数据中的情绪特征，发言人在不同情绪下说出相同内容时，包括口型在内的面部肌肉与颈部肌肉的运动也是不同的，还例如语音数据中的场景特征，发言人的发言场景也可能影响发言人的面部表情，例如在嘈杂环境下发言时，发言人可能会高声说话，面部表情相对夸张，在安静的环境下发言时，发言人可能会低声说话，面部表情相对细微，再例如语音数据中的发言人身份特征，不同的发言人在说话时的表情可能不同的，例如主持儿童节目的主持人，说话时的表情可能是亲切的，主持搞笑节目的主持人，说话时的表情可能是夸张的。

步骤120，将形象数据以及相关特征输入至表情合成模型中，得到表情合成模型输出的虚拟形象视频，虚拟形象视频中的虚拟形象配置有对应于语音数据的表情；其中，表情合成模型是基于样本发言人视频、样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的。

具体地，形象数据即用于进行虚拟形象合成的图像数据，形象数据所对应的虚拟形象可以是语音数据所对应的发言人的虚拟形象，也可以是与语音所对应的发言人无关的虚拟形象，本发明实施例对此不做具体限定。形象数据包括纹理图和表情遮罩图，其中纹理图为虚拟形象本身的图像，纹理图中包含有虚拟形象，以及虚拟形象中执行表情的各个区域，表情遮罩图为掩盖掉虚拟形象中执行表情的各个区域之后的虚拟形象图像，可以对应于每一帧设置一张表情遮罩图，也可以是多帧对应一张表情遮罩图，本发明实施例对此不作具体限定。

表情合成模型用于基于形象数据的相关特征分析虚拟形象的表情，并将虚拟形象的表情与相结合，得到配置有对应于语音数据的表情的虚拟形象视频。在执行步骤120之前，还可以预先训练得到表情合成模型，具体可以通过如下方式训练得到表情合成模型：首先，收集大量样本发言人视频，以及样本发言人视频对应的样本语音数据，提取样本发言人视频中的样本形象数据，以及样本语音数据中的相关特征。此处，样本发言人视频为真人发言视频。随即，基于样本发言人视频，所述样本发言人视频对应的样本语音数据的相关特征以及样本形象数据对初始模型进行训练，从而得到表情合成模型。

本发明实施例提供的方法，应用包含有丰富的表情相关信息的相关特征进行虚拟形象的表情合成，能够使得虚拟形象表情更好地贴合语音数据，更加自然真实。此外，通过表情合成模型生成的虚拟形象视频中，虚拟形象的表情是以整体的形式存在的，相比针对于虚拟形象中执行表情的各个区域单独建模的方式，针对表情整体建模，能够有效解决各个区域的肌肉的联动性问题，使得各个区域的肌肉联动更加自然逼真。

基于上述实施例，表情合成模型包括特征提取层和表情预测层。图2为本发明实施例提供的表情合成方法的流程示意图，如图2所示，步骤120具体包括：

步骤121，将任一帧分别对应的形象数据和相关特征输入至表情合成模型的特征提取层，得到特征提取层输出的帧特征。

具体地，语音数据可以划分为多个帧的语音数据，针对于每一帧的语音数据，存在对应的相关特征。同样地，形象数据中，同一纹理图可以对应于每一帧，以体现虚拟形象视频中的虚拟形象的面貌，不同的表情遮罩图可以对应于不同帧，以体现虚拟形象视频中不同帧对应的虚拟形象的动作，尤其是头部动作。

表情合成模型中，特征提取层用于从任一帧分别对应的形象数据和相关特征中提取该帧的帧特征。此处帧特征可以该帧的形象特征和该帧的表情相关特征，还可以包含该帧的形象特征和表情相关特征的融合特征，本发明实施例对此不作具体限定。

步骤122，将帧特征输入至表情合成模型的表情预测层，得到表情预测层输出的该帧的虚拟表情图。

具体地，表情合成模型中，表情预测层用于基于任一帧的帧特征，预测该帧的虚拟表情图。此处，虚拟表情图为一帧包含虚拟形象的图像，其中虚拟形象配置有对应于该帧语音数据的表情，且虚拟形象的位置、动作等与该帧对应的形象数据一致。每帧虚拟表情图像构成虚拟形象视频。

本发明实施例提供的方法，通过获取任一帧的帧特征，并基于帧特征得到该帧的虚拟表情图，最终得到虚拟形象视频，通过提升每帧虚拟表情图的自然度和逼真度，实现虚拟形象视频整体自然度和逼真度的提升。

基于上述任一实施例，特征提取层包括当前特征提取层和帧前特征提取层；图3为本发明实施例提供的特征提取方法的流程示意图，如图3所示，步骤121具体包括：

步骤1211，将任一帧分别对应的形象数据和相关特征输入至特征提取层的当前特征提取层，得到当前特征提取层输出的当前特征。

步骤1212，将该帧前预设帧的虚拟表情图输入至特征提取层的帧前特征提取层，得到帧前特征提取层输出的帧前特征。

具体地，任一帧的帧特征包括当前特征和帧前特征两个部分，其中，当前特征是通过当前特征提取层，对该帧分别对应的形象数据和相关特征进行特征提取得到的，当前特征用于反映该帧在虚拟形象，尤其是虚拟形象表情方面的特征；帧前特征是通过帧前特征提取层，对该帧之前的预设帧的虚拟表情图进行特征提取得到的，帧前特征用于反映该帧之前的预设帧的虚拟表情图中虚拟形象，尤其是虚拟形象表情方面的特征。

此处，任一帧前预设帧可以是预先设定的该帧之前的若干帧，例如，任一帧为第n帧，该帧的帧前预设帧为该帧的前两帧，即第n－2帧和第n－1帧。

基于上述任一实施例，步骤122具体包括：将当前特征和帧前特征融合后输入至表情预测层，得到表情预测层输出的该帧的虚拟表情图。

本发明实施例中，将当前特征和帧前特征作为任一帧的帧特征用于表情预测，使得由此合成的虚拟形象表情不仅能够自然匹配该帧对应的语音数据，还可以实现该帧虚拟形象表情和前几帧的虚拟形象表情的自然过渡，进一步提高虚拟形象视频的逼真性和自然性。

基于上述任一实施例，表情预测层包括候选表情预测层、光流预测层和融合层；图4为本发明实施例提供的表情预测方法的流程示意图，如图4所示，步骤122具体包括：

步骤1221，将当前特征和帧前特征融合后输入至表情预测层的候选表情预测层中，得到候选表情预测层输出的候选表情图。

此处，候选表情预测层用于基于任一帧对应的当前特征和帧前特征，预测该帧的虚拟形象表情，并输出该帧的候选表情图。此处，该帧的候选表情图为配置有对应于该帧语音数据的表情的虚拟形象图。

步骤1222，将当前特征和帧前特征融合后输入至表情预测层的光流预测层中，得到光流预测层输出的光流信息。

此处，光流预测层用于基于任一帧对应的当前特征和帧前特征，预测上一帧与该帧之间的光流，并输出该帧的光流信息。此处，该帧的光流信息可以包括上一帧与该帧的预测光流，还可以包括将光流加权到候选表情图的权重。

步骤1223，将候选表情图和光流信息输入至表情预测层中的融合层，得到融合层输出的该帧的虚拟表情图。

此处，融合层用于融合任一帧的候选表情图和光流信息，进而得到该帧的虚拟表情图。例如，融合层可以直接将候选表情图与基于预测光流变形后的上一帧虚拟表情图进行叠加，或者基于预测得到的权重，对候选表情图和基于预测光流变形后的上一帧虚拟表情图进行加权叠加，得到虚拟表情图，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过当前特征和帧前特征进行光流预测，并将光流信息应用于虚拟表情图的生成，可以使得虚拟形象视频中虚拟形象执行表情的各个区域的肌肉运动更加自然。

基于上述任一实施例，图5为本发明实施例提供的表情合成模型的结构示意图，图5中，表情合成模型包括当前特征提取层、帧前特征提取层、候选表情预测层、光流预测层和融合层。

其中，当前特征提取层用于基于任一帧分别对应的形象数据和相关特征，得到该帧的当前特征。

假设语音数据的相关特征为M，将M送入长短时记忆网络LSTM可以得到相关特征的隐层特征HT，对应于每一帧的隐层特征可以标记为HT(0)，HT(1)，…，HT(t)，…，HT(N-1)。其中HT(t)表示第t帧对应的相关特征的隐层特征，N为形象数据的总帧数。第t帧对应的形象数据包括I(0)和I_m(t)。其中，I(O)表示纹理图，I_m(t)表示第t帧对应的表情遮罩图。

图5中，当前特征提取层中，将I(O)和I_m(t)送入第一层卷积(kenerl＝3，stride＝2，channel_out＝64)，将得到的特征图送入第二层卷积(kenerl＝3，stride＝2，channel_out＝128)，再将得到的特征图送入第三层卷积(kenerl＝3，stride＝2，channel_out＝256)，再将得到的特征图送入第四层卷积(kenerl＝3，stride＝2，channel_out＝512)，得到512维的特征图，再经过5层ResBlock(kenerl＝3，stride＝1，channel_out＝512)得到512维的特征图。在此过程中，相关特征的隐层特征HT(t)扩展后嵌入到第二、第三、第四层卷积中，与卷积结果相加，由此实现相关特征与形象数据的融合，得到第t帧的当前特征CFT(t)。

需要说明的是，在当前特征提取层中，将HT(t)与I(0)和I_m(t)的卷积结果FT(t)相加时，仅将HT(t)叠加在FT(t)的遮罩区域，并不对FT(t)的非遮罩区域进行叠加，此处遮罩区域即虚拟形象中执行表情的各个区域。由此，仅在需要执行表情的区域叠加表情相关的特征，在不需要执行表情的区域保持原始的虚拟形象，具体表示如下公式：

式中，θ为当前特征提取层的相关参数。

帧前特征提取层用于基于任一帧前预设帧的虚拟表情图，得到该帧的帧前特征。

假设该帧前预设帧为前两帧，即第t-1帧和第t-2帧。该帧前预设帧的虚拟表情图为Fake(t-1)和Fake(t-2)。帧前特征提取层中，将Fake(t-1)和Fake(t-2)送入4层卷积网络(kenerl＝3,stride＝2,channel_out＝64,128,256,512)，再经过第5层ResBlock(kenerl＝3,stride＝1,channel_out＝512)得到512维的特征图，即帧前特征PFT(t)。

由此得到第t帧的帧特征，表示为CFT(t)+PFT(t)。

候选表情预测层用于根据输入的帧特征，确定对应的候选表情图。候选表情预测层中，帧特征CFT(t)+PFT(t)经过4层ResBlock(kenerl＝3，stride＝1，channel_out＝512)和4层上采样层(kenerl＝3，stride＝2，channel_out＝256,128,64,1)可以得到第t帧的候选表情图，记为S(t)。用公式表达如下：

其中，为候选表情预测层的参数。

光流预测层用于根据输入的帧特征，预测上一帧与该帧之间的光流，并输出该帧的光流信息。光流预测层中，帧特征CFT(t)+PFT(t)经过4层ResBlock(kenerl＝3，stride＝1，channel_out＝512)和4层上采样层(kenerl＝3，stride＝2，channel_out＝256,128,64,3)即可得到上一帧的虚拟表情图Fake(t-1)与该帧的虚拟表情图Fake(t)之间的光流F(t-1)以及加权矩阵W(t)。

融合层用于融合任一帧的候选表情图S(t)和光流信息F(t-1)、W(t)，得到该帧的虚拟表情图Fake(t)。具体地，可以通过加权矩阵W(t)对候选表情图S(t)和经过光流F(t-1)变形的上一帧虚拟表情图F(t-1)⊙Fake(t-1)进行加权求和，从而实现二者的融合，具体公式如下：

Fake(t)＝S(t)*W(t)+(1-W(t))*F(t-1)⊙Fake(t-1)

式中，⊙表示使用光流对图像进行变形，W(t)为候选表情图的对应权重，1-W(t)为经过光流变形的上一帧虚拟表情图的对应权重。

本发明实施例提供的表情合成模型，通过相关特征的应用以及针对于表情整体建模，可以将不同人在不同情绪下的合成细节刻画地更加逼真，同时避免了独立合成时带来的不协调问题。此外，通过光流信息优化了合成虚拟形象的帧间连续性。

基于上述任一实施例，该方法中，表情合成模型是基于样本发言人视频，样本发言人视频对应的样本语音数据的相关特征和样本形象数据，以及判别器训练得到的，表情合成模型和判别器构成生成式对抗网络。

具体地，生成式对抗网络(GAN，Generative Adversarial Networks)是一种深度学习模型，是复杂分布上无监督学习最具前景的方法之一。生成式对抗网络通过框架中的两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。本发明实施例中，表情合成模型即生成模型，判别器即判别模型。

其中，表情合成模型用于合成连续的虚拟形象视频，判别器用于判别输入的视频是表情合成模型合成的虚拟形象视频还是真实录制的视频。判别器的作用在于判断表情合成模型合成的虚拟形象视频是否真实逼真。

本发明实施例提供的方法，通过表情合成模型与判别器的相互博弈学习训练，可以显著提高表情合成模型的训练效果，从而有效提高表情合成模型输出虚拟形象视频的逼真度和自然度。

基于上述任一实施例，判别器包括图像判别器和/或视频判别器；其中，图像判别器用于判断虚拟形象视频中任一帧虚拟表情图的合成真实性，视频判别器用于判断虚拟形象视频的合成真实性。

具体地，生成式对抗网络中，可以仅包括图像判别器或视频判别器，也可以同时包括图像判别器和视频判别器。

其中，图像判别器用于从图像层面进行真实性判别，即判断表情的合成，例如面部和颈部肌肉的合成是否逼真。图像判别器可以获取表情合成模型合成的当前帧的虚拟表情图Fake(t)，送入4层卷积网络(kenerl＝3，stride＝1，channel_out＝64,128,256,1)，将卷积得到的特征图与相同尺寸的全0矩阵计算L2范数。同理，图像判别器可以将真实录制视频中的任一图像帧Real(t)送入上述4层卷积网络，将卷积得到的特征图与相同尺寸的全1矩阵计算L2范数。此处，全0矩阵相当于标注为合成图像，全1矩阵相当于标注为真实图像，L2范数为图像判别器的损失值。为了使得合成的虚拟表情图在各个分辨率上质量更高，可以将表情合成模型输出的虚拟表情图分别下采样2倍、4倍后进行判别。

视频判别器用于在视频层面上进行真实性判别，即判断视频的合成，例如面部和颈部肌肉运动的联动性是否真实。可以获取表情合成模型合成的多帧连续的虚拟表情图和对应光流，例如Fake(t-2)，Fake(t-1)，Fake(t)和F(t-2)和F(t-1)，可将上述虚拟表情图和光流送入4层卷积网络(kenerl＝3，stride＝1，channel_out＝64,128,256,1)构成的视频判别器，计算判别损失。同理，视频判别器还需计算真实录制视频的判别损失。为了使得合成的虚拟形象视频在各个分辨率上的质量更高，可以将表情合成模型输出的虚拟表情图分别下采样2倍、4倍后进行判别。

在表情合成模型的训练过程中，可以表情合成模型的损失函数中加入上述判别器的相反损失函数，从而使得表情合成模型与判别器组合构成对抗损失。

基于上述任一实施例，该方法中，相关特征包括语言相关特征，以及情绪特征和/或发言人身份特征。

其中，语言相关特征对应于不同的发音，不同的发音需要发言人调动面部肌肉形成不同的口型，而不同的口型对应的面部肌肉与颈部肌肉的运动是不同的。情绪特征用于表征发言人的情绪，发言人在不同情绪下说出相同内容时，包括口型在内的面部肌肉与颈部肌肉的运动也是不同的。发言人身份特征用于表征发言人的身份，具体可以是发言人个人对应的标识，或者发言人的职业对应标识，再或者发言人的性格特征、语言风格特征等对应的标识，本发明实施例对此不作具体限定。

基于上述任一实施例，该方法中，形象数据是基于发言人身份特征确定的。

具体地，在预先存储的海量形象数据中，不同的形象数据对应于不同的虚拟形象，不同的虚拟形象具备不同的身份特征。在已知语音数据相关特征中的发言人身份特征后，可以从海量形象数据中选取得到与发言人身份特征相匹配的形象数据，应用于虚拟形象视频的合成。

例如，预先存储有A、B、C、D四个人的形象数据。在已知语音数据的发言人身份特征指向B时，可以对应确定B的形象数据用于虚拟形象视频的合成。

基于上述任一实施例，步骤110具体包括：确定语音数据的声学特征；基于声学特征确定相关特征。

具体地，此处的声学特征可以是语谱图和fbank特征。例如，可以使用自适应滤波器对语音数据进行去噪处理，并统一音频采样率和声道，此处设置为16K、单声道，随即从中提取语谱图和fbank特征(帧移10ms，窗长1s)。

此后，可以分别使用bottleneck网络提取出表征语言内容的BN特征序列作为语言相关特征，此处设置为每间隔40ms得到一个256维的BN特征，记为L(0),L(1)，…，L(N-1)，N为25fps视频的帧数。相比现有技术中基于音素特征的方法，BN特征是与语种无关的特征，即便表情合成模型训练时只有中文，表情合成模型时使用其他语种也能合成出正确的口型。此外，本发明实施例中应用已在8种基本表情(生气，高兴，害怕，沮丧，激动，惊讶，悲伤，中性)识别任务上充分训练后的卷积长短时记忆网络ConvLSTM提取表达情感的高维特征序列，作为情绪特征。此处，设置为每间隔40ms得到一个128维的情感向量，记为E(0),E(1)，…，E(N-1)，N为25fps视频的帧数。同样地，为了实现个性化定制，本发明实施例中应用基于深度神经网络DNN和i-vector的发言人身份识别网络提取发言人身份特征序列，此处设置为每间隔40ms得到一个128维的身份特征向量，记为P(0),P(1)，…，P(N-1)，N为25fps视频的帧数。最后，将得到的三种特征序列，按照对应帧拼接起来，对每一帧，均得到512维的融合的相关特征，记为M(0),M(1)，…，M(N-1)，N为25fps视频的帧数。

基于上述任一实施例，该方法中，虚拟形象视频中的虚拟形象配置的对应于语音数据的表情包括面部表情和颈部表情。

对应地，形象数据中的表情遮罩图，遮盖的部分包括面部表情的执行区域和颈部表情的执行区域。此处，面部表情的执行区域可以包括额肌、眼轮匝肌、皱眉肌、口轮匝肌等面部肌肉区域，不包含眼球区域和鼻梁区域，因为眼球的运动不是由面部肌肉控制的，鼻梁有骨骼，近似为刚体，受到面部其他区域肌肉运动的影响很小。

本发明实施例中，将面部表情和颈部表情相结合作为表情整体存在，相比针对于虚拟形象中执行表情的各个区域单独建模的方式，针对表情整体建模，能够有效解决各个区域的肌肉的联动性问题，使得各个区域的肌肉联动更加自然逼真。

基于上述任一实施例，图6为本发明另一实施例提供的虚拟形象合成方法的流程示意图，如图6所示，该方法包括：

步骤610，确定语音数据：

从收集到的视音频数据中抽取语音数据，使用自适应滤波器对语音数据进行去噪处理，并统一音频采样率和声道，随即从待识别语音数据中提取语谱图和fbank特征。为了充分保证语音数据的时序性，本发明实施例中不需要对输入的语音数据进行切分。

步骤620，获取语音数据的相关特征：

对于上一步骤得到的语音数据的语谱图和fbank特征，分别通过用于提取语言相关特征、情绪特征和发言人身份特征的神经网络，得到每一帧待识别语音数据分别对应的语言相关特征、情绪特征和发言人身份特征，将上述三种特征按照对应帧进行拼接，得到每一帧对应的相关特征。

步骤630，确定视频数据，检测人脸区域，裁剪头部区域：

从收集到的视音频数据中抽取视频数据，检测每帧图像的人脸区域，并以得到的人脸框为参考，向外扩1.5倍，得到包含整个头部和颈部的区域，裁剪该区域，并保存为图像序列，记为I(0),I(1),…,I(N-1)，N为25fps视频的帧数。

步骤640，生成形象数据：

根据肤色和人脸生理结构特征或者使用神经网络分割出每帧裁剪图像I(t)的额肌、眼轮匝肌、皱眉肌、口轮匝肌等面部肌肉区域和颈部肌肉区，此处不包含眼球区域、鼻梁区域，因为眼球的运动不是由面部肌肉控制的，鼻梁有骨骼，近似为刚体，受到面部其他区域肌肉运动的影响很小。将面部肌肉区和颈部肌肉区的像素值置零，得到表情遮罩图序列，记为Im(0)，Im(1)，…,Im(N-1)，N为25fps视频的帧数。

由此得到的形象数据包含有纹理图I(0)，以及每帧对应的表情遮罩图。

步骤650，输入表情合成模型，得到虚拟形象头部视频：

在表情合成模型中，将形象数据中的纹理图和表情遮罩图经过数层卷积网络得到特征图，与拼接的相关特征融合，再经过数层卷积网络，合成出面部和颈部区域，最后将光流信息加入到视频中，可以使得合成的口型、表情、喉部运动等更加自然。

例如，输入的纹理图是无表情的，语音数据是激动地说“夺冠了！”，对于不相关区域，例如纹理图的头发、鼻子等区域几乎拷贝到最终合成的虚拟表情图，而对于相关区域，例如口型、脸颊、眉毛等区域，会根据相关特征和纹理图像将原区域变形成新纹理，经过融合得到最终合成的虚拟表情图。

步骤660，融合虚拟形象头部视频和视频数据的身体部分：

如果直接将合成出的虚拟头像的头部区域按照原坐标拼接到的视频中，在边界处会出现细小的接缝，作为优选，可以采用泊松融合算法融合接缝区域，使之边界过渡更加平滑。

本发明实施例提供的方法，相比传统的基于语音驱动的虚拟形象合成技术和基于表情迁移的人脸合成的技术，不但能够更逼真地合成出不同人不同情绪下的面部和颈部肌肉运动，而且能够全自动的离线合成。节省了大量的人力成本，提高了生产效率。

基于上述任一实施例，图7为本发明实施例提供的虚拟形象合成装置的结构示意图，如图7所示，该装置包括相关特征确定单元710和表情合成单元720；

其中，相关特征确定单元710用于确定语音数据的相关特征；所述相关特征用于表征所述语音数据中包含的与发言人表情相关的特征；

表情合成单元720用于将形象数据以及所述相关特征输入至表情合成模型中，得到所述表情合成模型输出的虚拟形象视频，所述虚拟形象视频中的虚拟形象配置有对应于所述语音数据的表情；

本发明实施例提供的装置，应用包含有丰富的表情相关信息的相关特征进行虚拟形象的表情合成，能够使得虚拟形象表情更好地贴合语音数据，更加自然真实。此外，通过表情合成模型生成的虚拟形象视频中，虚拟形象的表情是以整体的形式存在的，相比针对于虚拟形象中执行表情的各个区域单独建模的方式，针对表情整体建模，能够有效解决各个区域的肌肉的联动性问题，使得各个区域的肌肉联动更加自然逼真。

基于上述任一实施例，表情合成单元720包括：

特征提取单元，用于将任一帧分别对应的形象数据和相关特征输入至所述表情合成模型的特征提取层，得到所述特征提取层输出的帧特征；

表情预测单元，用于将所述帧特征输入至所述表情合成模型的表情预测层，得到所述表情预测层输出的所述任一帧的虚拟表情图。

基于上述任一实施例，特征提取单元包括：

当前特征提取子单元，用于将任一帧分别对应的形象数据和相关特征输入至所述特征提取层的当前特征提取层，得到所述当前特征提取层输出的当前特征；

帧前特征提取子单元，用于将所述任一帧前预设帧的虚拟表情图输入至所述特征提取层的帧前特征提取层，得到所述帧前特征提取层输出的帧前特征。

基于上述任一实施例，表情预测单元具体用于：

基于上述任一实施例，表情预测单元包括：

候选表情预测子单元，用于将所述当前特征和所述帧前特征融合后输入至所述表情预测层的候选表情预测层中，得到所述候选表情预测层输出的候选表情图；

光流预测子单元，用于将所述当前特征和所述帧前特征融合后输入至所述表情预测层的光流预测层中，得到所述光流预测层输出的光流信息；

融合子单元，用于将所述候选表情图和所述光流信息输入至所述表情预测层中的融合层，得到所述融合层输出的所述任一帧的虚拟表情图。

基于上述任一实施例，所述表情合成模型是基于样本发言人视频，样本发言人视频对应的样本语音数据的相关特征和样本形象数据，以及判别器训练得到的，所述表情合成模型和所述判别器构成生成式对抗网络。

基于上述任一实施例，所述判别器包括图像判别器和/或视频判别器；

基于上述任一实施例，所述相关特征包括语言相关特征，以及情绪特征和/或发言人身份特征。

基于上述任一实施例，所述形象数据是基于所述发言人身份特征确定的。

基于上述任一实施例，所述虚拟形象视频中的虚拟形象配置的对应于所述语音数据的表情包括面部表情和颈部表情。

图8为本发明实施例提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如下方法：确定语音数据的相关特征；所述相关特征用于表征所述语音数据中包含的与发言人表情相关的特征；将形象数据以及所述相关特征输入至表情合成模型中，得到所述表情合成模型输出的虚拟形象视频，所述虚拟形象视频中的虚拟形象配置有对应于所述语音数据的表情；其中，所述表情合成模型是基于样本发言人视频，所述样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定语音数据的相关特征；所述相关特征用于表征所述语音数据中包含的与发言人表情相关的特征；将形象数据以及所述相关特征输入至表情合成模型中，得到所述表情合成模型输出的虚拟形象视频，所述虚拟形象视频中的虚拟形象配置有对应于所述语音数据的表情；其中，所述表情合成模型是基于样本发言人视频，所述样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟形象合成方法，其特征在于，包括：

其中，所述表情合成模型是基于样本发言人视频、所述样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的；

所述将形象数据以及所述相关特征输入至表情合成模型中，得到所述表情合成模型输出的虚拟形象视频，具体包括：

将所述语音数据中的任一帧分别对应的形象数据和相关特征输入至所述表情合成模型的特征提取层，得到所述特征提取层输出的帧特征，所述帧特征包括当前特征和帧前特征；

将所述帧特征输入至所述表情合成模型的表情预测层，得到所述表情预测层输出的所述任一帧的虚拟表情图，所述虚拟表情图为一帧包含虚拟形象的图像，每帧虚拟表情图构成虚拟形象视频；

所述将所述帧特征输入至所述表情合成模型的表情预测层，得到所述表情预测层输出的所述任一帧的虚拟表情图，包括：

2.根据权利要求1所述的虚拟形象合成方法，其特征在于，所述将所述语音数据中的任一帧分别对应的形象数据和相关特征输入至所述表情合成模型的特征提取层，得到所述特征提取层输出的帧特征，具体包括：

3.根据权利要求1所述的虚拟形象合成方法，其特征在于，所述表情合成模型是基于样本发言人视频，样本发言人视频对应的样本语音数据的相关特征和样本形象数据，以及判别器训练得到的，所述表情合成模型和所述判别器构成生成式对抗网络。

4.根据权利要求3所述的虚拟形象合成方法，其特征在于，所述判别器包括图像判别器和/或视频判别器；

5.根据权利要求1至4中任一项所述的虚拟形象合成方法，其特征在于，所述相关特征包括语言相关特征，以及情绪特征和/或发言人身份特征。

6.根据权利要求5所述的虚拟形象合成方法，其特征在于，所述形象数据是基于所述发言人身份特征确定的。

7.根据权利要求1至4中任一项所述的虚拟形象合成方法，其特征在于，所述虚拟形象视频中的虚拟形象配置的对应于所述语音数据的表情包括面部表情和颈部表情。

8.一种虚拟形象合成装置，其特征在于，包括：

其中，所述表情合成模型是基于样本发言人视频，所述样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的；

所述表情合成单元具体用于：

所述将所述当前特征和所述帧前特征融合后输入至所述表情预测层的候选表情预测层中，得到所述候选表情预测层输出的候选表情图；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的虚拟形象合成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的虚拟形象合成方法的步骤。