CN113963092B

CN113963092B - 音视频拟合关联的计算方法、装置、介质和设备

Info

Publication number: CN113963092B
Application number: CN202111442573.6A
Authority: CN
Inventors: 王苏振; 李林橙; 丁彧; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2024-05-03
Anticipated expiration: 2041-11-30
Also published as: CN113963092A

Abstract

本发明提供了一种音视频拟合关联的计算方法，利用了目标语音的音素特征和语音特征，还利用了从参考图像中提取结构特征，相比现有技术，音视频拟合关联的计算结果的泛化性和口型视觉表征效果得到了提升，以该计算结果为依据合成的人脸说话动画的质量也相应提升。此外，本发明还提供了音视频拟合关联的计算装置、介质和设备。实施本发明提供的各个具体实施方式作为人脸说话动画合成的前置准备，可以显著提高人脸说话动画的合成质量和最终效果。

Description

音视频拟合关联的计算方法、装置、介质和设备

技术领域

本发明属于神经网络和人工智能领域，尤其涉及一种音视频拟合关联的计算方法、装置、介质和设备。

背景技术

音视频拟合关联计算中的人脸语音动画构建，指的是基于输入的任意语音，以参考图像中给定的人物形象为基准，合成上述人物形象的虚拟语音动画。理想情况下，生成的虚拟语音动画需要呈现与输入的语音中相匹配的口型、表情、自然的头部运动。该技术可广泛应用于虚拟助手、智能客服、新闻播报、远程会议等多个领域，并基于人工智能大幅度降低相关行业的人工劳动。

现有技术中构建人脸语音动画的技术主要依赖于视频数据的语音视觉关联计算，其目的是从源数据中构建与说话动作关联的特征，并借助这些特征使用深度生成模型生成仿真的人脸图像，从而得到仿真的人脸图像说出指定语音的动画效果。

当选用三维形变模型或人脸关键点作为视觉模态表征时，缺乏对人脸外区域的表征，因此深度生成模型合成的人脸语音动画在人脸区域外会产生模糊的效果，导致人脸语音动画的质量不佳。

当选用语音特征作为语音模态表征时，若训练数据的来源为单一对象，则深度生成模型的泛化性欠佳，若训练数据的来源为多个对象，由于多个对象之间的差异，深度生成模型无法学习到准确的语音视觉关联表征。

当选用单一对象的音素特征作为语音模态表征时，虽然一定程度上解决了难以提升音色泛化的问题，但音素特征难以与自然语音中的情绪相关联，以此训练所得的深度生成模型生成的人脸语音动画具有明显的动作瑕疵，例如在说出语气比较强烈的语句时的嘴部动作不自然。

可见，现有技术中的各个解决方案均难以得到高质量的人脸语音动画。

发明内容

为了克服现有技术中的上述缺陷，本发明提供了一种音视频拟合关联的计算方法，该方法包括：

获取头动编码序列、目标语音和包含目标头像的参考图像；

从所述目标语音中提取音素特征序列和语音特征序列；

从所述参考图像中提取结构特征；

将所述音素特征序列与所述头动编码序列进行拼接得到第一联合编码序列，以及将所述语音特征序列与所述结构特征进行拼接得到第二联合编码序列；

将所述第一联合编码序列输入至基于注意力机制的神经网络模型的编码器中，所述编码器获得目标语音帧的隐空间表征；

将所述隐空间表征和所述第二联合编码序列共同输入至所述基于注意力机制的神经网络模型的解码器中，其中所述隐空间表征为所述解码器的键值对注意力，所述第二联合编码序列为所述解码器的查询向量；

所述解码器输出所述目标语音帧的特征向量；

将所述特征向量转化为密集运动场的描述参数。

根据本发明的一个方面，该方法中所述获取头动编码序列的步骤包括：根据一预设的头动数据生成所述头动编码序列；或根据与所述目标语音相匹配的视频生成所述头动编码序列。根据本发明的另一个方面，该方法中所述从目标语音中提取音素特征序列和语音特征序列的步骤包括：将所述目标语音按照预设周期拆分为多个语音帧；分别提取各个语音帧的音素特征和语音特征；根据预设的时序窗口，选择多个所述音素特征组成所述音素特征序列，以及选择多个所述语音特征组成所述语音特征序列。

根据本发明的另一个方面，该方法中所述从参考图像中提取结构特征的步骤包括：将所述参考图像输入一预训练好的无监督关键点检测器，提取所述无监督关键点检测器的中间层输出的特征图表征作为所述结构特征。

根据本发明的另一个方面，在将所述语音特征序列与所述结构特征进行拼接得到第二联合编码序列之前，该方法还包括：使用上采样卷积网络分别修改所述语音特征序列中各个语音特征的通道维度，使所述语音特征的通道维度与所述结构特征一致。

根据本发明的另一个方面，该方法中所述将所述特征向量转化为密集运动场的描述参数的步骤包括：使用全连接层将所述特征向量转化为所述描述参数。

根据本发明的另一个方面，该方法中所述使用全连接层将所述目标语音帧的特征向量转化为所述描述参数的步骤包括：将所述目标语音帧的特征向量分别输入两个全连接模型，通过所述两个全连接模型分别输出对应类型的所述描述参数；

根据本发明的另一个方面，该方法中所述描述参数包括：用于组成密集运动场的关键点参数、与所述关键点对应的局部仿射变换参数。

根据本发明的另一个方面，在所述将所述特征向量转化为密集运动场的描述参数之后，该方法还包括：根据所述描述参数生成包含所述目标头像的视频。

相应地，本发明提供了一种音视频拟合关联计算装置，该装置包括：

头动数据模块，用于获取或生成头动编码序列；

语音处理模块，用于从目标语音中提取音素特征序列和语音特征序列；

关键点检测模块，用于包含目标头像的从参考图像中提取结构特征；

第一联合编码模块，用于将所述音素特征序列与所述头动编码序列进行拼接得到第一联合编码序列；

第二联合编码模块，用于将所述语音特征序列与所述结构特征进行拼接得到第二联合编码序列；

基于注意力机制的神经网络模型，该神经网络模型包括编码器和解码器；

所述编码器，用于输入时序建模后的所述第一联合编码序列，并输出目标语音帧的隐空间表征；

所述解码器，用于输入所述隐空间表征和所述第二联合编码序列，并输出所述目标语音帧的特征向量，其中所述隐空间表征为所述解码器的键值对注意力，所述第二联合编码序列为所述解码器的查询向量；

与所述解码器的输出端连接的转换器模块，用于将所述特征向量转化为密集运动场的描述参数。

此外，本发明提供了一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的音视频拟合关联的计算方法。

本发明还提供了一种计算机设备，所述计算机设备包括存储器和处理器，其中：所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如所述的音视频拟合关联的计算方法。

本发明提供的各个具体实施方式在进行音视频拟合关联的计算时，所选用的输入特征包括单一对象的语音所携带的音素特征和语音特征，以及参考图像的结构特征，相对于现有技术，基于上述音素特征和语音特征的选用，音视频拟合关联的计算结果的泛化性和口型视觉表征效果得到了提升；基于上述结构特征的选用，音视频拟合关联的计算过程能更关注所述参考图像中人物和背景的结构分布信息，音视频拟合关联的计算结果的泛化性同样得到了提升，以该计算结果为依据合成的人脸说话动画的质量也相应提升。实施本发明提供的各个具体实施方式作为人脸说话动画合成的前置准备，可以显著提高人脸说话动画的合成质量和最终效果。

附图说明

通过阅读参照以下附图所作的对非限制性具体实施方式所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明的音视频拟合关联的计算方法的一个具体实施方式的流程示意图；

图2是图1示出的步骤S120的一个可选具体实施方式的流程示意图；

图3是根据本发明的音视频拟合关联的计算装置的一个具体实施方式的结构示意图；

图4是用于执行本发明的音视频拟合关联的计算方法的具体实施方式的一种典型计算机设备的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

为了更好地理解和阐释本发明，下面将结合附图对本发明作进一步的详细描述。本发明并不仅仅局限于这些具体实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

需要说明的是，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有这些具体细节，本发明同样可以实施。在下文给出的多个具体实施方式中，对于本领域熟知的原理、结构和部件未作详细描述，以便于凸显本发明的主旨。

本发明提供了一种音视频拟合关联的计算方法，请参考图1，图1是根据本发明的音视频拟合关联的计算方法的一个具体实施方式的流程示意图，该方法包括：

步骤S110，获取头动编码序列、目标语音和包含目标头像的参考图像；

步骤S120，从所述目标语音中提取音素特征序列和语音特征序列；

步骤S130，从所述参考图像中提取结构特征；

步骤S200，将所述音素特征序列与所述头动编码序列进行拼接得到第一联合编码序列，以及将所述语音特征序列与所述结构特征进行拼接得到第二联合编码序列；

步骤S300，将所述第一联合编码序列输入至基于注意力机制的神经网络模型的编码器中，所述编码器输出目标语音帧的隐空间表征；

步骤S400，将所述隐空间表征和所述第二联合编码序列共同输入至基于注意力机制的神经网络模型的解码器中，其中所述隐空间表征为所述解码器的键值对注意力，所述第二联合编码序列是所述解码器的查询向量；

步骤S500，所述解码器输出所述目标语音帧的特征向量；

步骤S600，将所述特征向量转化为密集运动场的描述参数。

具体地，由于本发明的音视频拟合关联的计算方法是合成人脸语音动画的前置准备步骤，合成人脸语音动画的最终目的是给定一个包含了人脸的静态图像和一个驱动源(例如有声视频片段或声音片段)，基于所述驱动源将处于静态图像状态的人脸合成为具有发声动作的动态人脸，也即静态图像的动态化，在该动态画面中，人脸会依次呈现与所述驱动源的声音相匹配的发声动作、头部动作、表情等。为了使这种静态图像的动态化更自然，往往考虑引入用于描述头部动作的信息，这也是步骤S110中获取所述头动编码序列的目的。本具体实施方式并不限定所述头动编码序列的来源，获取所述头动编码序列的步骤可以是根据一预设的头动数据生成所述头动编码序列，也可以是根据与所述语音相匹配的视频生成所述头动编码序列。

在步骤S120中，术语“语音”指的是作为驱动源用来驱动静态图像的声音数据，例如直接录制的声音数据，或从视频中提取的音轨数据。所述语音自然携带的可以利用的特征包括音素特征和语音特征，其中音素特征指的是使用自动语音识别技术工具从所述语音中提取的音素标签，通常使用 one-hot编码(独热编码)来表示。所述语音特征指的是根据所述语音计算得出的频谱特征，通常用来体现所述语音所携带的情感，例如在本具体实施方式中所述语音特征选择由MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征、FBANK(filterbank，滤波器组)特征和基频特征组成。本领域技术人员熟知，根据语音处理技术的特性，音素特征提取和语音特征提取的对象并非是所述语音的完整数据，而是将所述语音按预设长度进行分帧处理后得到的语音帧(也即预设长度的语音段)，因此步骤S120中的所述音素特征序列是由多个语音帧对应的音素特征组成，同理所述语音特征序列也是由多个语音帧对应语音特征组成。

在步骤S130中，术语“参考图像”指的是被驱动的静态图像，所述结构特征指的是所述参考图像所自然携带的可利用的结构信息。一个典型的实施例中，从所述参考图像中提取所述结构特征的具体步骤可实施为：将所述参考图像输入一预训练好的无监督关键点检测器，提取所述无监督关键点检测器的中间层输出的特征图表征作为所述结构特征。所述结构特征主要包含了所述参考图像中人物的头部、身体和背景等结构分布信息，这些结构分布信息也是深度神经网络在驱动静态图像的时所需的训练数据。

请参考图2，图2是图1示出的步骤S120的一个可选具体实施方式的流程示意图，步骤S120进一步包括如下步骤：

步骤S121，将所述语音按照预设周期拆分为多个语音帧；

步骤S122，分别提取各个语音帧的音素特征和语音特征；

步骤S123，根据预设的时序窗口，选择多个所述音素特征组成所述音素特征序列，以及选择多个所述语音特征组成所述语音特征序列。

在该可选具体实施方式中，将步骤S121中的所述预设周期选择为40毫秒，则所述语音的每秒数据可拆分为25个语音帧(语音帧)，相应地在步骤 S122中分别提取每一所述语音帧的音素特征和语音特征。为了提高连续帧的运动场表示的稳定性，可选定一预设的时序窗口，在步骤S123中选择所述多个音素特征组成所述音素特征序列，以及选择多个所述语音特征组成所述语音特征序列，所述时序窗口是为了约束所述音素特征序列和所述语音特征序列的时序。若将第i帧的音素特征记和语音特征分别记为p_i和a_i，同时所述时序窗口的长度选定为2n+1，则所述音素特征序列为(p_i-n，……p_i，…… p_i+n)，所述语音特征序列为(a_i-n，……a_i，……a_i+n)。

在步骤S200中，将所述音素特征序列与所述头动编码序列进行拼接得到第一联合编码序列，以及将所述语音特征序列与所述结构特征进行拼接得到第二联合编码序列，其目的是给后续的神经网络构建合适的输入。

其中，为了便于所述头动编码序列与所述音素特征序列的拼接，通常所述头动编码序列应与所述音素特征序列具有相似的数据编排结构，例如所述头动编码序列中的第i个头动编码记为h_i，则所述头动编码序列为(h_i-n，…… h_i，……h_i+n)。为了实现将p_i和h_i拼接起来得到第i帧的第一联合编码，可以对第i帧的音素特征p_i进行合适的预处理，例如通过词向量方式将音素特征 p_i转变为编码向量，最终将所有拼接形成的第一联合编码组合为所述第一联合编码序列。

在将所述语音特征序列与所述结构特征进行拼接得到第二联合编码序列之前，该方法还包括：使用上采样卷积网络分别修改所述语音特征序列中各个语音特征的通道维度，使所述语音特征的通道维度与所述结构特征一致。若将所述结构特征记为f^r，对于所述语音特征序列(a_i-n，……a_i，……a_i+n) 而言，第i帧的语音特征a_i通过所述上采样卷积网络将该语音特征a_i的二维特征维度修改为与所述结构特征的特征维度一致，这样就便于被修改后的语音特征a_i可以和结构特征f^r能在通道维度进行拼接，以得到第i帧的第二联合编码，最终将所有拼接形成的第二联合编码组合为所述第二联合编码序列。

本领域技术人员可理解，在执行步骤S200之后，对于第i帧而言，针对后续的神经网络构建的输入为(a_i-n；i+n，p_i-n；i+n，h_i-n；i+n,f^r)，即以第i帧作为中间帧的长度为2n+1的音素特征、头动编码、语音特征、结构特征组成的条件窗口输入。其中，i和n均为正整数，其取值范围是i-n至i+n，n的长度不做具体限定。

在步骤S300中，将所述第一联合编码序列输入至基于注意力机制的神经网络模型的编码器中，所述编码器输出目标语音帧的隐空间表征，该隐空间表征也即所述目标语音帧通用的隐空间口型表达。当输入为(a_i-n；i+n，p_i-n；i+n， h_i-n；i+n,f^r)时，所述目标语音帧即前文所述的第i帧。由于该阶段使用了来自所述语音的音素特征进行建模，因此所述隐空间表征有较好的音色泛化能力。

在步骤S400中，将所述隐空间表征和所述第二联合编码序列共同输入至基于注意力机制的神经网络模型的解码器中，其中所述隐空间表征为所述解码器的键值对注意力，所述第二联合编码序列是所述解码器的查询向量。典型地，所述基于注意力机制的神经网络模型可以选用Transformer，所述隐空间表征对应所述解码器的key-value输入，所述第二联合编码序列对应所述解码器的query输入。显然，由于将所述第二联合编码序列用作所述解码器的查询向量，充分利用了所述第二联合编码序列中包含的所述语音特征和所述结构特征所固有数据信息，同时该解码器又以根据所述隐空间表征作为键值对注意力，因此所述基于注意力机制的神经网络模型的输出结果可以在保证口型准确的基础上，对口型进行进一步调制，使口型动作的表现更为自然。

在步骤S500中，所述解码器输出所述目标语音帧的特征向量，具体而言，所述解码器输出的是多个的特征向量构成的集合，该特征向量集合中包含所述目标语音帧的特征向量。例如当输入为(a_i-n；i+n，p_i-n；i+n，h_i-n；i+n,f^r) 时，所述解码器输出2n+1帧的特征向量，其中所述目标语音帧为该2n+1帧中的第i帧，选取所述第i帧的特征向量执行步骤S600即可。

在步骤S600中，将所述目标语音帧的特征向量转化为密集运动场的描述参数，典型地，步骤S600中可以使用全连接层将所述特征向量转化为所述描述参数。更优选地，步骤S600可实施为如下流程：将所述目标语音帧的特征向量分别输入两个全连接模型，所述两个全连接模型分别输出对应类别的所述描述参数。其中，所述描述参数包括用于组成密集运动场的关键点参数，与所述关键点对应的局部仿射变换参数。所述关键点参数包括坐标数据等，所述局部仿射变换参数包括所述关键点的局部仿射变换矩阵及其一阶 Jacobian(雅可比)导数。

当将所述特征向量转化为密集运动场的描述参数之后，显然可以利用所述描述参数来执行与人脸语音动画合成相关的后续步骤，例如根据所述描述参数生成包含所述目标头像的视频。

需要说明的是，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

例如，虽然图1示出了步骤S120和步骤S130是顺序执行的，但在其他的具体实施方式中，步骤S120和步骤S130可以在并行执行。

相应地，本发明还提供了一种音视频拟合关联的计算装置，请参考图3，图3是根据本发明的音视频拟合关联的计算装置的一个具体实施方式的结构示意图，该装置包括：

头动数据模块110，用于获取或生成头动编码序列；

语音处理模块120，用于从目标语音121中提取音素特征序列和语音特征序列；

关键点检测模块130，用于从包含目标头像的参考图像131中提取结构特征；

第一联合编码模块210，用于将所述音素特征序列与所述头动编码序列进行拼接得到第一联合编码序列；

第二联合编码模块220，用于将所述语音特征序列与所述结构特征进行拼接得到第二联合编码序列；

基于注意力机制的神经网络模型300，该神经网络模型包括编码器310 和解码器320；

所述编码器310，用于输入时序建模后的所述第一联合编码序列，并输出目标语音帧的隐空间表征；

所述解码器320，用于输入所述隐空间表征和所述第二联合编码序列，并输出所述目标语音帧的特征向量，其中所述隐空间表征为所述解码器320 的键值对注意力，所述第二联合编码序列是所述解码器320的查询向量；

与所述解码器320的输出端连接的转换器模块400，用于将所述特征向量转化为密集运动场的描述参数。

本部分出现的术语和名词与前文中相同的术语或名词具有一致的含义，例如所述“头动编码序列”、“音素特征序列”和“结构特征”等，上述术语或名词及其涉及的工作原理均可参考前文中相关部分的描述和解释，为了简便起见在此不再赘述。

可选地，所述计算装置还包括上采样卷积网络140，用于分别修改所述语音特征序列中各个语音特征的通道维度，使所述语音特征的通道维度与所述结构特征一致。

可选地，转换器模块400可以用全连接层来实现，该全连接层包括两个全连接模型，例如图3中的全连接模型401和全连接模型402，所述两个全连接模型分别输出对应类别的所述描述参数；具体地，所述描述参数包括用于组成密集运动场的关键点参数，与所述关键点对应的局部仿射变换参数。

典型地，基于注意力机制的神经网络模型300是Transformer；所述隐空间表征对应解码器320的key-value输入；所述第二联合编码序列对应解码器320的query输入。

请参考图4，图4是用于执行本发明的音视频拟合关联的计算方法的具体实施方式的一种典型计算机设备的结构示意图。更具体而言，前文所述的音视频拟合关联的计算装置可作为该计算机设备的一部分包含于其中。所述计算机设备至少包括如下部分：CPU(中央处理器)501、RAM(随机存储器)502、ROM(只读存储器)503、***总线500、硬盘控制单元504、硬盘505、人机交互外部设备控制单元506、人机交互外部设备507、串行接口控制单元508、串行接口外部设备509、并行接口控制单元510、并行接口外部设备511、显示设备控制单元512和显示设备513。其中，CPU 501、RAM 502、ROM 503、硬盘控制单元504、人机交互外部设备控制单元506、串行接口控制单元508、并行接口控制单元510以及显示设备控制单元512与***总线500相连接，并通过***总线500实现彼此之前的通信。此外，硬盘控制单元504与硬盘505相连接；人机交互外部设备控制单元506与人机交互外部设备507相连接，典型地该人机交互外部设备是鼠标、轨迹球、触摸屏或键盘；串行接口控制单元508与串行接口外部设备509相连接；并行接口控制单元510与并行接口外部设备511相连接；显示设备控制单元512和显示设备513相连接。

图4所述的结构框图仅仅示出了能实践本发明各个实施例的一种计算机设备的结构，而并非是对本发明的实践环境的限制。在一些情况下，可以根据需要添加或者减少该计算机设备中的一些设备。例如，图4所示的设备可以移除人机交互外部设备507和显示设备513，其具体实施形态仅仅是一个能够被外部设备访问的服务器。当然图4所示的计算机设备可以单独地实现本发明运行的环境，也可以通过网络互相连接起来而提供本发明各个具体实施方式所适用运行环境，例如本发明的各个模块和/步骤可以分布地实现在互相连接的各个计算机设备中。

此外，本发明还公开了一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的音视频拟合关联的计算方法的各个具体实施方式，例如图1所示出的音视频拟合关联的计算方法。所述计算机可读介质可以是可由计算机设备访问的任何可用介质，且包括用任何方法和技术实现以存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机可读介质包括但不限于，RAM、 ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD) 或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备，或者可用于存储所需信息并且可由计算设备访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。

相应地，本发明还公开了一种计算机设备，所述计算机设备包括存储器和处理器，其中：所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如前文所述的音视频拟合关联的计算方法的各个具体实施方式，例如图1所示出的音视频拟合关联的计算方法。

本发明提供的音视频拟合关联的计算方法中涉及软件逻辑的部分可以使用可编程逻辑器件来实现，也可以实施为计算机程序产品，该程序产品使计算机执行上述方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现上述方法的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如可热拔插的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如RAM、ROM和硬盘。所述可移动介质包括但不限于：光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如磁带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。

本领域技术人员应当理解，任何具有适当编程装置的计算机***都能够执行包含在计算机程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序，但是以硬件方式实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，在权利要求的等同要件的含义和范围内的所有变化均涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他部件、单元或步骤，单数不排除复数。权利要求中陈述的多个部件、单元或装置也可以由一个部件、单元或装置通过软件或者硬件来实现。

以上所披露的仅为本发明的一部分实施例或具体实施方式，不能以此来限定本发明之权利范围，依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音视频拟合关联的计算方法，其特征在于，所述方法包括：

获取头动编码序列、目标语音和包含目标头像的参考图像；

从所述目标语音中提取音素特征序列和语音特征序列；

从所述参考图像中提取结构特征；

所述解码器输出所述目标语音帧的特征向量；

将所述特征向量转化为密集运动场的描述参数。

2.根据权利要求1所述的方法，其特征在于，所述获取头动编码序列的步骤包括：

根据一预设的头动数据生成所述头动编码序列；或

根据与所述目标语音相匹配的视频生成所述头动编码序列。

3.根据权利要求1所述的方法，其特征在于，所述从目标语音中提取音素特征序列和语音特征序列的步骤包括：

将所述目标语音按照预设周期拆分为多个语音帧；

分别提取各个语音帧的音素特征和语音特征；

根据预设的时序窗口，选择多个所述音素特征组成所述音素特征序列，以及选择多个所述语音特征组成所述语音特征序列。

4.根据权利要求1所述的方法，其特征在于，所述从参考图像中提取结构特征的步骤包括：

将所述参考图像输入一预训练好的无监督关键点检测器，提取所述无监督关键点检测器的中间层输出的特征图表征作为所述结构特征。

5.根据权利要求1所述的方法，其特征在于，在将所述语音特征序列与所述结构特征进行拼接得到第二图像联合编码序列之前，该方法还包括：

使用上采样卷积网络分别修改所述语音特征序列中各个语音特征的通道维度，使所述语音特征的通道维度与所述结构特征一致。

6.根据权利要求1所述的方法，其特征在于，所述将所述特征向量转化为密集运动场的描述参数的步骤包括：

使用全连接层将所述特征向量转化为所述描述参数。

7.根据权利要求6所述的方法，其特征在于，所述使用全连接层将所述目标语音帧的特征向量转化为所述描述参数的步骤包括：

将所述目标语音帧的特征向量分别输入两个全连接模型，通过所述两个全连接模型分别输出对应类别的所述描述参数。

8.根据权利要求1所述的方法，其特征在于，所述描述参数包括：

用于组成密集运动场的关键点参数、与所述关键点对应的局部仿射变换参数。

9.根据权利要求1所述的方法，其特征在于，在所述将所述特征向量转化为密集运动场的描述参数之后，该方法还包括：

根据所述描述参数生成包含所述目标头像的视频。

10.一种音视频拟合关联的计算装置，其特征在于，该装置包括：

头动数据模块，用于获取或生成头动编码序列；

关键点检测模块，用于从包含目标头像的参考图像中提取结构特征；

11.一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如权利要求1至9中任一项所述的音视频拟合关联的计算方法。

12.一种计算机设备，所述计算机设备包括存储器和处理器，其中：

所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的音视频拟合关联的计算方法。