CN116597857A

CN116597857A - 一种语音驱动图像的方法、***、装置及存储介质

Info

Publication number: CN116597857A
Application number: CN202310334646.2A
Authority: CN
Inventors: 李�权; 杨锦; 彭绪坪; 叶俊杰; 王伦基; 成秋喜; 付玟
Original assignee: Guangzhou Sailingli Technology Co ltd
Current assignee: Guangzhou Sailingli Technology Co ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-08-15

Abstract

本发明公开了一种语音驱动图像的方法、***、装置及存储介质，包括：获取音频数据，并通过语音特征提取模型提取所述音频数据对应的音频特征向量；通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测，得到唇形表情偏移量序列；获取三维人脸基础模型，将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理，得到三维人脸唇形表情动画。本发明实施例能够根据输入语音驱动图像生成包含唇形和表情的三维动画，效率高，稳定性好，可广泛应用于计算机技术领域。

Description

一种语音驱动图像的方法、***、装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音驱动图像的方法、***、装置及存储介质。

背景技术

随着3D视频内容丰富多样性不断的增长与数字虚拟人应用场景的快速发展，对3D数字虚拟人的相关内容产出提出了更高质量与更高效率的创作需求。通过快速的产出生成3D数字虚拟人时的唇形动作、面部表情，可以帮助观众更生动的理解对话内容。视觉动画和听觉声音的双模态信息融合的表达方式，不仅能提高用户对内容的理解度，还能在需要交互的场景中提供一种更为准确的体验，以及提高3D虚拟数字人的艺术性和观赏度。

目前制作3D人物唇形表情动画的技术方案包括以下类型：第一是通过专业的动画师听取音频内容，通过人力手工的方式制作出声音与人物动画唇形表匹配的关键帧动画；第二是通过动作捕捉设备捕捉专业演员的面部唇形表情，再由人力对捕捉的数据进行二次修整调节，最后导入渲染引擎驱动人物面部唇形表情运动。以上两种方案都需要耗费大量的人力与时间成本，并且不同的人和设备对最后产出的内容稳定性都有影响。

发明内容

有鉴于此，本发明实施例的目的是提供一种语音驱动图像的方法、***、装置及存储介质，能够根据输入语音驱动图像生成包含唇形和表情的三维动画，效率高，稳定性好。

第一方面，本发明实施例提供了一种语音驱动图像的方法，包括以下步骤：

获取音频数据，并通过语音特征提取模型提取所述音频数据对应的音频特征向量；

通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测，得到唇形表情偏移量序列；

获取三维人脸基础模型，将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理，得到三维人脸唇形表情动画。

可选地，所述语音特征提取模型包括卷积神经网络和双向长短记忆网络，所述通过语音特征提取模型提取所述音频数据对应的音频特征向量，具体包括：

将所述音频数据对应的一维向量输入到所述卷积神经网络，得到高层次的语音特征；

将所述高层次的语音特征输入到所述双向长短记忆网络，得到音频特征向量。

可选地，所述语音特征提取模型的训练过程包括：

获取语音样本数据及对应的真实语音样本特征向量；

将所述语音样本数据输入到初始模型，提取预测语音样本特征向量；

根据所述预测语音样本特征向量与所述真实语音样本特征向量之间的误差，对所述初始模型的模型参数进行调整，直至所述初始模型输出的预测语音样本特征向量与真实语音样本特征向量之间的误差满足训练要求，得到所述语音特征提取模型。

可选地，所述唇形表情预测模型包括transformer神经网络模型，所述transformer神经网络模型包括编码器网络和解码器网络，所述通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测，得到唇形表情偏移量序列，具体包括：

将所述音频特征向量输入到编码器网络，得到音频信息表征向量序列；

将所述音频信息表征向量序列和确定的表情情绪向量输入解码器网络，得到唇形表情偏移量序列。

可选地，所述唇形表情预测模型的训练过程包括：

获取说话人多个视角的视频样本数据，并根据所述视频数据建立三维点云人脸序列，并根据所述三维点云人脸序列确定真实人脸唇形表情偏移量；

提取视频样本数据的语音样本数据，并将所述三维点云人脸序列与语音样本数据进行匹配标注，形成样本数据对；

将样本数据对中的语音样本数据输入到编码器网络，得到音频样本信息表征向量；

将音频样本信息表征向量、样本数据对中的三维点云人脸序列和随机生成的表情情绪向量输入到解码器网络，得到预测人脸唇形表情偏移量；

根据目标损失函数计算真实人脸唇形表情偏移量与预测人脸唇形表情偏移量之间的损失值，并根据所述损失值对编码器网络、解码器网络和目标损失函数进行更新，得到transformer神经网络模型。

可选地，所述目标损失函数的计算公式如下：

Loss＝S_l×L_lip+S_f×L_face+S_r×L_reg

其中，Loss表示损失值，L_lip表示唇形区域的损失值，S_l表示唇形区域的影响系数，L_face表示唇形区域以外的人脸表情区域的损失值，S_f表示唇形区域以外的人脸表情区域的影响系数，L_reg表示表情正则项的损失值，S_r表示表情正则项的影响系数。

可选地，所述表情情绪向量通过以下方式获取：

将唇形表情预测模型训练过程中学习得到的表情情绪向量确定为表情情绪向量；

或，获取表情信息，根据所述表情信息确定表情情绪向量。

第二方面，本发明实施例提供了一种语音驱动图像的***，包括：

第一模块，用于获取音频数据，并通过语音特征提取模型提取所述音频数据对应的音频特征向量；

第二模块，用于通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测，得到唇形表情偏移量序列；

第三模块，用于获取三维人脸基础模型，将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理，得到三维人脸唇形表情动画。

第三方面，本发明实施例提供了一种语音驱动图像的装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述的方法。

第四方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的方法。

实施本发明实施例包括以下有益效果：本实施例通过语音特征提取模型提取音频数据对应的音频特征向量，以使唇形表情预测模型可以适应不同的语言，然后通过唇形表情预测模型和确定的表情情绪向量对音频特征向量进行预测得到唇形表情偏移量序列，得到唇形和表面的变化量，然后根据三维人脸基础模型和唇形表情偏移量序列得到三维人脸唇形表情动画，从而实现根据语音驱动图像生成包含唇形和表情的三维动画，效率高，稳定性好。

附图说明

图1是本发明实施例提供的一种语音驱动图像的方法的步骤流程示意图；

图2是本发明实施例提供的另一种语音驱动图像的方法的步骤流程示意图；

图3是本发明实施例提供的一种语言特征提取模型的结构框图；

图4是本发明实施例提供的一种唇形表情预测模型的结构框图；

图5是本发明实施例提供的一种语音驱动图像的***的结构框图；

图6是本发明实施例提供的一种语音驱动图像的装置的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参阅图1和图2所示，本发明实施例提供了一种语音驱动图像的方法，包括以下步骤：

S100、获取音频数据，并通过语音特征提取模型提取所述音频数据对应的音频特征向量。

音频数据指用于驱动图像的语音数据，语音数据包括多种语言，如中文或英文等。音频特征向量用于表征语言数据的音频特征。语音特征提取模型用于根据输入的音频数据得到输出的音频特征向量。

本领域技术人员可以理解的是，音频特征向量的具体类型根据实际应用确定，本实施例不做具体限制。例如，音频特征向量为PPG(phonetic posteriorgrams，音素后验概率图)特征向量，PPG音频特征向量可以提取更丰富音频特征信息，让后续通过语音预测3D人脸唇形表情过程中，提高对不同语言的自适应能力。

需要说明的是，语音特征提取模型的具体结构根据实际应用确定，本实施例不做具体限制。参阅图3，在一个具体的实施中，语音特征提取模型包括卷积神经网络(CNN，Convolutional Neural Networks)和双向长短期记忆网络(BiLSTM，Bi-directional LongShort-Term Memory)，语音特征提取模型的输入为语音信号，语音特征提取模型的输出为对应的语音特征向量，语音信号为按照一定时间间隔对音频数据采样得到的一维向量。具体地，将语音信号输入进1D-CNN(一维卷积神经网络)，经过3个1D-CNN网络层与池化层，提取出高层次的语音特征；接着将CNN层的输出作为输入，通过BiLSTM捕捉音频信号的时间序列信息，进一步提取语音特征；最后一层网络使用全连接层作为输出层，将BiLSTM层的输出映射到PPG特征向量。

可选地，所述语音特征提取模型的训练过程包括：

S101、获取语音样本数据及对应的真实语音样本特征向量；

S102、将所述语音样本数据输入到初始模型，提取预测语音样本特征向量；

S103、根据所述预测语音样本特征向量与所述真实语音样本特征向量之间的误差，对所述初始模型的模型参数进行调整，直至所述初始模型输出的预测语音样本特征向量与真实语音样本特征向量之间的误差满足训练要求，得到所述语音特征提取模型。

语音样本数据包括多种语言的样本数据，真实语音样本特征向量为语音样本数据的特征向量。初始模型指模型参数有待确定的语音特征提取模型。具体地，首先将语音样本数据输入到语音特征提取模型，得到预测语音样本特征向量，然后根据预测语音样本特征向量与真实语音样本特征向量之间的误差对初始模型的模型参数进行调整，调制过程中，使预测语音样本特征向量与真实语音样本特征向量之间的误差变小，当初始模型输出的预测语音样本特征向量与真实语音样本特征向量之间的误差满足训练要求，将对应模型参数的初始模型作为语音特征提取模型。

S110、将所述音频数据对应的一维向量输入到所述卷积神经网络，得到高层次的语音特征；

S120、将所述高层次的语音特征输入到所述双向长短记忆网络，得到音频特征向量。

具体地，参阅图3，首先，音频数据对应的一维向量输入到语音特征提取模型中的CNN(卷积神经网络)，经过提取得到高层次的语音特征；然后，将高层次的语音特征输入到语音特征提取模型中的BiLSTM(双向长短记忆网络)，经过提取得到音频特征向量。

S200、通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测，得到唇形表情偏移量序列。

唇形表情预测模型用于根据音频特征向量和表情情绪向量预测唇形表情偏移量序列。唇形表情偏移量表征唇形和表情基于未说话和无表情人脸点云的偏离程度。需要说明的是，唇形表情预测模型根据实际应用确定，本实施例不做具体限制。在一个具体的实施例中，参阅图4，唇形表情预测模型包括编码器和解码器，编码器包括向前传播层、若干个重叠的多头自注意力机制和向前传播层、线性投影层，解码器包括向前传播层、多头自注意力机制和线性投影层，编码器的输入为音频特征向量，编码器的输出为解码器的输入，解码器的输出为三维人脸唇形表情偏移值。

可选地，所述唇形表情预测模型的训练过程包括：

S201、获取说话人多个视角的视频样本数据，并根据所述视频数据建立三维点云人脸序列，并根据所述三维点云人脸序列确定真实人脸唇形表情偏移量。

视频样本数据包括通过多视角阵列相机采集不同人物说话的多视角视频数据，其中，视频中语音数据为多人多语言混合语音数据，视频中图像数据为不同人说话的多视角人脸数据，同时每个视角的视频分辨率尽可能在1080p以上。对采集好的视频的每一帧多视角人脸数据进行3D点云对齐重建，得到三维点云人脸序列；同时在重建的数据中为每一个说话选取一个自然状态下不说话闭嘴的3D人脸模型，作为自然表情基础模型并保存，将三维点云人脸序列与自然表情基础模型之间的偏移量作为真实人脸唇形表情偏移量。

S202、提取视频样本数据的语音样本数据，并将所述三维点云人脸序列与语音样本数据进行匹配标注，形成样本数据对。

提取视频样本数据的语音作为语音样本数据，对说话人3D人脸点云序列与对应的语音匹配标注，标注出每一段语音与之对应的说话人3D人脸点云序列，通过标注将数据分割成语音与说话人3D点云人脸匹配的数据对，最终形成序列小段并保存。

S203、将样本数据对中的语音样本数据输入到编码器网络，得到音频样本信息表征向量。

参阅图4，提取样本数据对中的语音样本数据对应的音频样本特征向量，将音频样本特征向量输入到编码器网络，得到音频样本信息表征向量。需要说明的是，编码器网络中重叠的多头自注意力机制和向前传播层的个数根据实际应用确定，本实施例不做具体限制，例如，多头自注意力机制和向前传播层的重叠个数为5个。

S204、将音频样本信息表征向量、样本数据对中的三维点云人脸序列和随机生成的表情情绪向量输入到解码器网络，得到预测人脸唇形表情偏移量。

训练过程中，表情情绪向量为随机高斯分布采样的N维向量，由于训练数据中有说话人带有不同情绪的发音表情数据对，带有情绪的训练数据输入唇形表情预测模型，通过训练计算损失函数反向传播将自动学习到不同情绪所蕴含的表情情绪向量，最终将不同情绪数据下学习到的表情情绪向量组合构成表情情绪向量矩阵并保存。参阅图4，将编码器输出的音频样本信息表征向量、样本数据对中的三维点云人脸序列和随机生成的表情情绪向量输入到解码器网络，解码器网络的输出为预测人脸唇形表情偏移量。

S205、根据目标损失函数计算真实人脸唇形表情偏移量与预测人脸唇形表情偏移量之间的损失值，并根据所述损失值对编码器网络、解码器网络和目标损失函数进行更新，得到transformer神经网络模型。

目标损失函数用于计算模型预测值与真实目标值之间的误差的函数，目标损失函数的具体形式根据实际应用确定，本实施例不做具体限制。根据目标损失函数计算的损失值越小，得到的transformer神经网络模型的模型参数越准确。

可选地，所述目标损失函数的计算公式如下：

Loss＝S_l×L_lip+S_f×L_face+S_r×L_reg

具体地，唇形区域的影响系数S_l的值与唇形区域以外的人脸表情区域的影响系数S_f的值根据实际应用中的权重大小进行调整，S_l与S_f调整后，同时调整表情正则项的影响系数S_r，让模型在训练中关注在更长时间内的表情变化，可避免模型表情预测在短时间内剧烈变化，使得表情变化能更加自然。在训练过程中，通过迭代不断去最小化目标损失函数的损失值，同时调节S_l、S_f和S_r系数，使得生成更准确、更自然的3D人脸唇形表情动画。

S210、将所述音频特征向量输入到编码器网络，得到音频信息表征向量序列；

S220、将所述音频信息表征向量序列和确定的表情情绪向量输入解码器网络，得到唇形表情偏移量序列。

编码器网络主要用于从音频特征中编码抽取与上下文相关的音频表示信息，输入数据是音频特征向量，输出是与上下文相关的音频信息表征向量；解码器网络是用于解码编码器网络输出的与上下文相关的音频信息表征向量与表情情绪向量，解码器网络输入是编码器网络输出的与上下文相关的音频信息表征向量、3D点云人脸与确定的表情情绪向量，解码器网络的输出为唇形表情偏移量序列。

可选地，所述表情情绪向量通过以下方式获取：

S221、将唇形表情预测模型训练过程中学习得到的表情情绪向量确定为表情情绪向量；

S222、或，获取表情信息，根据所述表情信息确定表情情绪向量。

具体地，在预测过程中，解码器网络输入的表情情绪向量可以是训练过程中已学习到的表情情绪向量，也可通过多个表情情绪向量的线性叠加组合形成新的表情情绪向量作为输入，控制输出3D人脸唇形表情顶点动画中的情绪。

S300、获取三维人脸基础模型，将所述三维人脸基础模型和所述唇形表情偏移量序列进行合成处理，得到三维人脸唇形表情动画。

三维人脸基础模型表征不说话且无表情的三维人脸模型，唇形表情偏移量表征三维人脸的唇形和表情的顶点偏移量。将三维人脸基础模型和唇形表情偏移量序列进行叠加处理，得到三维人脸唇形表情动画。

参阅图5，本发明实施例提供了一种语音驱动图像的***，包括：

可见，上述方法实施例中的内容均适用于本***实施例中，本***实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参阅图6，本发明实施例提供了一种语音驱动图像的装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

可见，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

此外，本申请实施例还公开了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述的方法。同样地，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种语音驱动图像的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音特征提取模型包括卷积神经网络和双向长短记忆网络，所述通过语音特征提取模型提取所述音频数据对应的音频特征向量，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述语音特征提取模型的训练过程包括：

获取语音样本数据及对应的真实语音样本特征向量；

4.根据权利要求1所述的方法，其特征在于，所述唇形表情预测模型包括transformer神经网络模型，所述transformer神经网络模型包括编码器网络和解码器网络，所述通过唇形表情预测模型和确定的表情情绪向量对所述音频特征向量进行预测，得到唇形表情偏移量序列，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述唇形表情预测模型的训练过程包括：

6.根据权利要求5所述的方法，其特征在于，所述目标损失函数的计算公式如下：

Loss＝S_l×L_lip+S_f×L_face+S_r×L_reg

7.根据权利要求1所述的方法，其特征在于，所述表情情绪向量通过以下方式获取：

或，获取表情信息，根据所述表情信息确定表情情绪向量。

8.一种语音驱动图像的***，其特征在于，包括：

9.一种语音驱动图像的装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一项所述的方法。

10.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述的方法。