CN112614212A

CN112614212A - 联合语气词特征的视音频驱动人脸动画实现方法及***

Info

Publication number: CN112614212A
Application number: CN202011484986.6A
Authority: CN
Inventors: 李舜; 肖双九
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-06
Anticipated expiration: 2040-12-16
Also published as: CN112614212B

Abstract

一种联合语气词特征的视音频驱动人脸动画方法及***，通过提取语音特征构建出语音特征矩阵，利用语气词增强训练网络的多层卷积操作对特征矩阵进行采样并映射到低维空间的中间变量；对输入的语音转换成文字，从文字内容中识别出语气词并构建one‑hot向量，与中间变量拼接后得到包含语气词特征的中间变量；再通过语气词增强训练网络进行卷积后映射为当前帧的表情AU参数，用于与视频追踪、语音预测算法生成的AU参数拟合后作为人脸模型的驱动参数，实现表情增强。本发明通过输入用户面部的视频内容和用户发声的音频内容，就可以联合驱动虚拟场景中的三维Avatar模型，在实时驱动的基础上，使整体和局部的面部动画都得到较为逼真和生动的表现效果。

Description

联合语气词特征的视音频驱动人脸动画实现方法及***

技术领域

本发明涉及的是一种计算机图形学领域的技术，具体是一种联合语气词特征的视音频驱动人脸动画实现方法及***。

背景技术

现有人脸表情动画的实现方式包括传统的交互建模与关键帧动画方法、基于脸部marker跟踪的动作捕捉方法、基于视频流图像的驱动方法和基于音频预测的驱动方法。其中交互建模与关键帧动画方法广泛的应用于游戏、三维动画等领域，是制作较高精度三维面部动画的主流方法。该方法具有精度较高、技术成熟、适合流水线生产等优点，但是需要建模师和动画师长时间的设置和调整，耗时耗力，且生产开销大。基于脸部marker跟踪的动作捕捉方法广泛的应用于电影工业级别的人脸动画生产，与VR、AR相关的电影生产环境紧密结合。该方法具有专业性强，动画精细度高，效果逼真等优点，但是需要高精度设备的支持和整个团队人员的协同开发，开发耗时长，耗资巨大。基于视频流图像的驱动方法采用神经网络进行特征学习，将视频流图像信息输入网络，输出每一帧的人脸表情AU参数值或者模型顶点位置等面部形变参数，来自动驱动的人脸动画。但该技术依赖视频信息输入的质量，对拍摄条件的要求高，且在在嘴唇等柔软组织区域无法得到逼真的效果。

基于音频驱动的三维人脸动画技术也是学术界的研究热点，采用的也是神经网络相关的技术，但与视频流图像驱动技术不同的是，该方法的输入是音频信息，通过提取音频中的特征信息，来预测面部形变。例如，构建一个4D数据集，来训练语音字符动画(VOCA)模型根据音频模拟用户的说话风格和面部表情，该方法能实现较高质量的口部区域姿势和动画，但是预测面部上方区域不够精准，导致整体人脸表情趋于中性。

发明内容

本发明针对现有技术需要高程度的制作成本和时间周期，单一基于视频流驱动方法和音频驱动方法各有弊端，且均未考虑到语气词的特征的缺陷，提出一种联合语气词特征的视音频驱动人脸动画方法及***，通过输入用户面部的视频内容和用户发声的音频内容，就可以联合驱动虚拟场景中的三维Avatar模型，在实时驱动的基础上，使整体和局部的面部动画都得到较为逼真和生动的表现效果。

本发明是通过以下技术方案实现的：

本发明涉及一种联合语气词特征的视音频驱动人脸动画实现方法，通过提取语音特征构建出语音特征矩阵，利用语气词增强训练网络的多层卷积操作对特征矩阵进行采样并映射到低维空间的中间变量；对输入的语音转换成文字，从文字内容中识别出语气词并构建one-hot向量，与中间变量拼接后得到包含语气词特征的中间变量；再通过语气词增强训练网络进行卷积后映射为当前帧的表情AU参数，用于与视频追踪、语音预测算法生成的AU参数拟合后作为人脸模型的驱动参数，实现表情增强。

所述的语音特征矩阵，采用但不限于python_speech_feature库提取，得到的语音特征为音频MFCC、Fbank或SSC，设置时间窗口，对多帧的语音特征构建语音特征矩阵。

所述的语音特征的采集率为25fps，winLen为0.025，时间窗口设为24×4。

所述的语气词增强训练网络包括四层卷积层，其中：第一层和第二层的filter大小为64， kernel大小为4×1，strides为4×1，第三层的filter大小为32，kernel大小为3×1，strides为3×1，第四层的filter大小为16，kernel大小为2×1，strides为2×1，各卷积层之间使用ReLu函数进行激活。

所述的语气词包括：在语句中用于表示语气，与情绪变化直接相关的词语。在一个完整的语句中，大量的词语是中性词，用户在对中性词进行发音时往往处于中性的面部状态，而语气词是这个语句中和情绪特征直接相关的词语，是连接口部形状和情绪特征的关键特征。

所述的语气词增强训练网络，通过以下方式构建得到用于训练的数据集，包括以下步骤：

1)人工挑选视频中含有语气词的片段，标注片段的起止时间；

2)使用工具自动剪切视频，得到含有语气词的各个视频片段；

3)对各个视频片段中的音频内容进行处理，转成文字内容；

4)人工矫正文字内容。

本发明涉及一种实现上述方法的联合语气词特征的视音频驱动人脸动画实现***，包括： openface视频追踪模块、语音预测模块、语气词增强模块和可视化模块，其中：openface视频追踪模块根据处理视频输入信息，进行面部位姿计算得到面部旋转角、视线旋转角，进行表情 AU参数检测得到AU强度参数，语音预测模块根据处理语音输入信息，通过语音特征窗口预测表情AU参数，语气词增强模块转换语音内容为文字，进行语气词特征提取后进一步进行表情增强处理，并使用语气词特征搭建语气词增强训练网络预测用于增强的表情AU参数，可视化模块根据视频追踪模块、语音预测模块和语气词增强模块输出的表情AU参数，进行融合处理，得到最终用于驱动人脸模型的AU参数，驱动人脸模型动画。

技术效果

本发明整体解决了现有三维Avatar人脸表情动画场景中，由于视频追踪信息提取的真实人脸表情幅度小、语音输入信息预测面部上方效果差，导致生成的人脸表情动画表情平淡、趋于中性的问题。

与现有技术相比，本发明引入语气词特征的概念，利用语气词增强训练网络学习识别语气词特征，学习语气词特征与面部表情AU参数在语境中的深层的映射关系，对语音输入信息进行语气词特征的提取，进行表情增强AU参数的预测，配合表情增强AU参数驱动三维Avatar 人脸模型，并且针对语气词特征的训练网络，本发明通过相应的语气词数据集构建方案，实现联合语气词特征的视音频驱动的人脸表情动画生成。最终得到的表情能够对较为准确地利用语气词特征和相关的语境信息，预测用户此时的表情，生成的人脸动画的面部表情更生动逼真。

附图说明

图1为本发明整体***结构示意图；

图2为本发明语气词数据集构建流程图。

具体实施方式

如图1所示，为本实施例涉及一种联合语气词特征的视音频驱动人脸动画实现***，包括：openface视频追踪模块、语音预测模块、语气词增强模块和可视化模块，其中：openface 视频追踪模块根据处理视频输入信息，进行面部位姿计算得到面部旋转角、视线旋转角，进行表情AU参数检测得到AU强度参数，语音预测模块根据处理语音输入信息，使用提取的音频特征构建音频特征矩阵，通过长短记忆网络(LSTM)来预测音频特征窗口与面部AU参数之间的映射关系，即表情AU参数，语气词增强模块转换语音内容为文字，进行语气词特征提取后进一步进行表情增强处理，可视化模块根据视频追踪模块、语音预测模块和语气词增强模块输出的表情AU参数，进行融合处理，得到最终用于驱动人脸模型的AU参数，驱动人脸模型动画。

所述的Openface视频追踪模块使用Openface库对输入的视频帧进行处理，基于局部约束模型(CLM)提取精准的人脸面部关键点，结合先验知识求解人脸面部位姿。对视频帧进行图像处理，提取直方图，使用交叉数据集预测人脸面部AU参数，其中：AU参数是指基于面部表情编码***(FACS)的各个表情动作单元的参数，用于设置人脸模型形状，该Openface视频追踪模块包括：人脸识别单元、面部关键点检测单元、面部位姿检测单元以及AU强度估计单元，其中：人脸识别单元根据当前帧的图像数据信息，进行人脸检测并得到人脸位置结果集，面部关键点检测单元根据人脸位置信息，进行关键点检测处理并得到面部关键点集，面部位姿检测单元根据面部关键点信息，进行PnP求解并得到面部旋转角，AU强度估计单元根据面部关键点位置和图像数据，生成定向梯度直方图，并基于CE-CLM模型求解各AU强度参数。

所述的音频特征包括：MFCC、Fbank、SSC。

所述的提取的音频特征，采用python_speech_feature库提取语音特征，采集率为25fps， winLen为0.025。

所述的语音预测模块包括：语音特征提取单元、AU分类检测单元以及AU强度回归预测单元，其中：语音特征提取单元根据输入的音频序列信息，使用python_speech_feature库提取 MFCC、Fbank、SSC这三种音频特征；AU分类检测单元根据音频特征信息，构建特征窗口向量，通过输入AU分类阶段的网络并输出得到当前帧的AU分类结果；AU强度回归预测单元根据AU分类单元的特征窗口向量和AU分类结果，通过输入AU强度回归阶段的网络并输出得到当前帧的 AU强度估计结果。

所述的语音预测包括：AU分类阶段和AU回归预测阶段，其中：AU分类阶段初筛音频窗口中存在的AU类型，使用的是两层LSTM结合一层Dense层，LSTM层设置recurrent_dropout为 0.35来防止过拟合，Dense层使用sigmod进行激活，该分类使用二维交叉熵作为损失函数， rmsprop作为优化器，得到AU参数的Mask；AU回归预测阶段预测AU的当前帧面部AU参数的准确值，使用的是两层LSTM结合一层Dense层，LSTM层设置recurrent_dropout为0.35来防止过拟合，Dense层的输出使用AU分类阶段得到的Mask进行激活，该分类使用L2正则损失作为损失函数，sgd作为优化器，得到AU参数的具体值。

所述的语音预测模块网络训练，使用的是vidmit数据集。

所述的语气词增强模块包括：语音特征提取单元、语气词识别单元以及语气词AU强度预测单元，其中：语音特征提取单元根据输入的音频序列信息，使用python_speech_feature库提取MFCC、Fbank、SSC这三种音频特征；语气词识别单元根据输入的音频序列信息，使用谷歌Gloud Speech API进行语音听写处理得到转换的文字内容，并识别语气词得到语气词识别结果；语气词AU强度预测单元根据音频特征信息构建特征窗口向量，同时根据语气词识别结果构建语气词one-hot向量，将特征窗口向量和语气词one-hot向量输入语气词AU强度预测网络并输出得到用于增强的当前帧的AU强度估计结果。该语气词增强模块按照以下步骤进行网络的搭建：

1)采用python_speech_feature库提取语音特征(MFCC、Fbank、SSC)，根据多帧时间窗口内的语音特征构建特征矩阵，其中：语音特征的采集率为25fps，winLen为0.025，时间窗口设为24×4；

2)利用多层的卷积操作对特征矩阵进行采样，并且映射到低维空间的中间变量，其中：卷积操作共有四层，第一层和第二层的filter大小为64，kernel大小为4×1，strides为4×1，第三层的filter大小为32，kernel大小为3×1，strides为3×1，第四层的filter大小为16，kernel大小为 2×1，strides为2×1，各卷积层之间使用ReLu函数进行激活；

3)识别语气词，根据语气词识别结果构建one-hot向量，其中：目前使用的语气词有“Um”、“Oh”、“Oops”、“Wow”、“Eh”、“Oh My God”六种语气词，即语气词特征向量为6×1的one-hot向量；

4)将上述2)和3)的结果进行拼接，得到包含语气词特征的中间变量；其中，第四层卷积层得到的是16×1的向量，拼接6×1的语气词特征向量，得到22×1的中间变量；

5)对包含语气词特征的中间变量进行卷积，映射为当前帧的表情AU参数；其中，卷积操作由两层全连接层构成，第一层由64个unit构成，激活函数为tanh，第二层由17个unit构成，激活函数为linear。第二层输出的17×1的向量即为用于驱动人脸模型的17个AU的参数值；

6)利用该表情AU参数对原本的驱动结果AU参数进行拟合，进行表情增强，使用拟合后的结果进行人脸模型的驱动。

如图2所示，所述的数据集通过以下方式构建得到：

1)人工挑选视频中含有语气词的片段，标注片段的起止时间。对每个视频，标注的方式是填写视频标题、链接、UniqueName(作者名_视频编号)和片段列表(记录片段的起止时间，以 json字符串的形式组织)；

2)使用工具自动剪切视频，得到含有语气词的各个视频片段。使用工具为imovie库，读取标注信息中的各个片段的起止时间并剪切视频。对得到的各个视频片段，自动填写索引文件，包括视频片段的UniqueName(作者名_视频编号_片段下标)、片段存储地址、音频存储地址、片段内容(文字)地址等；

3)对各个视频片段中的音频内容进行处理，转成文字内容。语音转文字使用的是Google Speech API进行的，得到每个单词的起止时间，并将该信息记录为片段内容文件。由于该API 会对部分语气词(如“Um”)进行静默处理，因此依然需要进行人工矫正的操作；

4)人工矫正文字内容。由于使用的视频来自于Youtube上的Vlog，Youtube自带的字幕不会对语气词进行静默处理，但是缺少起止时间。根据字幕结果，人工修改片段内容，添加上被静默的语气词。最终得到视频片段、音频片段、片段内容等多种数据文件，作为最终的数据集数据。

所述的可视化模块对视频追踪得到的人脸位姿修改模型的位姿，对视频追踪、语音预测和语气词增强得到的AU参数进行拟合，逐帧设置模型的skinMeshRenderer组件中的Blendshape 权重，使重定向人脸模型动，该可视化模块包括：AU参数拟合单元、离线驱动框架单元和实时驱动框架单元，其中：多种结果的AU参数拟合单元使用权重形式将视频追踪、语音预测、语气词增强的结果进行拟合；离线驱动框架单元通过文件读取每一帧的AU参数，逐帧设置重定向模型的skinMeshRenderer组件中的Blendshape权重，实现动画效果；实时驱动框架单元使用Google ProtoBuff进行AU参数的消息转发，并构建buffer存储三种结果的数据，再逐帧读取buffer，设置模型的skinMeshRenderer组件中的Blendshape权重，实现实时将三种结果的数据对齐的动画效果。

经过具体实际实验，在三维Avatar人脸表情动画的场景下，本***能以高于30fps，延迟低于150ms实时运行。在输入中包含语气词的情况下，得到的人脸表情动画更为生动，显著改善其他方法在此情形下面部表情不明显、趋于中性的情况。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种联合语气词特征的视音频驱动人脸动画实现方法，其特征在于，通过提取语音特征构建出语音特征矩阵，利用语气词增强训练网络的多层卷积操作对特征矩阵进行采样并映射到低维空间的中间变量；对输入的语音转换成文字，从文字内容中识别出语气词并构建one-hot向量，与中间变量拼接后得到包含语气词特征的中间变量；再通过语气词增强训练网络进行卷积后映射为当前帧的表情AU参数，用于与视频追踪、语音预测算法生成的AU参数拟合后作为人脸模型的驱动参数，实现表情增强；

所述的语音特征矩阵，采用python_speech_feature库提取，得到的语音特征为音频MFCC、Fbank或SSC，设置时间窗口，对多帧的语音特征构建语音特征矩阵；

所述的语气词增强训练网络包括四层卷积层；

所述的语气词包括：在语句中用于表示语气，与情绪变化直接相关的词语。

2.根据权利要求1所述的联合语气词特征的视音频驱动人脸动画实现方法，其特征是，所述的语气词增强训练网络中第一层和第二层卷积层的filter大小为64，kernel大小为4×1，strides为4×1，第三层卷积层的filter大小为32，kernel大小为3×1，strides为3×1，第四层卷积层的filter大小为16，kernel大小为2×1，strides为2×1，各卷积层之间使用ReLu函数进行激活。

3.根据权利要求1所述的联合语气词特征的视音频驱动人脸动画实现方法，其特征是，所述的语气词增强训练网络，通过以下方式构建得到用于训练的数据集，包括以下步骤：

3)对各个视频片段中的音频内容进行处理，转成文字内容；

4)人工矫正文字内容。

4.一种实现上述任一权利要求所述方法的联合语气词特征的视音频驱动人脸动画实现***，其特征在于，包括：openface视频追踪模块、语音预测模块、语气词增强模块和可视化模块，其中：openface视频追踪模块根据处理视频输入信息，进行面部位姿计算得到面部旋转角、视线旋转角，进行表情AU参数检测得到AU强度参数，语音预测模块根据处理语音输入信息，通过语音特征窗口预测表情AU参数，语气词增强模块转换语音内容为文字，进行语气词特征提取后进一步进行表情增强处理，并使用语气词特征搭建语气词增强训练网络预测用于增强的表情AU参数，可视化模块根据视频追踪模块、语音预测模块和语气词增强模块输出的表情AU参数，进行融合处理，得到最终用于驱动人脸模型的AU参数，驱动人脸模型动画。

5.根据权利要求4所述的视音频驱动人脸动画实现***，其特征是，所述的Openface视频追踪模块包括：人脸识别单元、面部关键点检测单元、面部位姿检测单元以及AU强度估计单元，其中：人脸识别单元根据当前帧的图像数据信息，进行人脸检测并得到人脸位置结果集，面部关键点检测单元根据人脸位置信息，进行关键点检测处理并得到面部关键点集，面部位姿检测单元根据面部关键点信息，进行PnP求解并得到面部旋转角，AU强度估计单元根据面部关键点位置和图像数据，生成定向梯度直方图，并基于CE-CLM模型求解各AU强度参数。

6.根据权利要求4所述的视音频驱动人脸动画实现***，其特征是，所述的语音预测模块包括：语音特征提取单元、AU分类检测单元以及AU强度回归预测单元，其中：语音特征提取单元根据输入的音频序列信息，使用python_speech_feature库提取MFCC、Fbank、SSC这三种音频特征；AU分类检测单元根据音频特征信息，构建特征窗口向量，通过输入AU分类阶段的网络并输出得到当前帧的AU分类结果；AU强度回归预测单元根据AU分类单元的特征窗口向量和AU分类结果，通过输入AU强度回归阶段的网络并输出得到当前帧的AU强度估计结果。

7.根据权利要求4或6所述的视音频驱动人脸动画实现***，其特征是，所述的语音预测包括：AU分类阶段和AU回归预测阶段，其中：AU分类阶段初筛音频窗口中存在的AU类型，使用的是两层LSTM结合一层Dense层，LSTM层设置recurrent_dropout为0.35来防止过拟合，Dense层使用sigmod进行激活，该分类使用二维交叉熵作为损失函数，rmsprop作为优化器，得到AU参数的Mask；AU回归预测阶段预测AU的当前帧面部AU参数的准确值，使用的是两层LSTM结合一层Dense层，LSTM层设置recurrent_dropout为0.35来防止过拟合，Dense层的输出使用AU分类阶段得到的Mask进行激活，该分类使用L2正则损失作为损失函数，sgd作为优化器，得到AU参数的具体值。

8.根据权利要求4所述的视音频驱动人脸动画实现***，其特征是，所述的语气词增强模块包括：语音特征提取单元、语气词识别单元以及语气词AU强度预测单元，其中：语音特征提取单元根据输入的音频序列信息，使用python_speech_feature库提取MFCC、Fbank、SSC这三种音频特征；语气词识别单元根据输入的音频序列信息，使用谷歌Gloud SpeechAPI进行语音听写处理得到转换的文字内容，并识别语气词得到语气词识别结果；语气词AU强度预测单元根据音频特征信息构建特征窗口向量，同时根据语气词识别结果构建语气词one-hot向量，将特征窗口向量和语气词one-hot向量输入语气词AU强度预测网络并输出得到用于增强的当前帧的AU强度估计结果。

9.根据权利要求4或8所述的视音频驱动人脸动画实现***，其特征是，所述的语气词增强模块按照以下步骤进行网络的搭建：

2)利用多层的卷积操作对特征矩阵进行采样，并且映射到低维空间的中间变量，其中：卷积操作共有四层，第一层和第二层的filter大小为64，kernel大小为4×1，strides为4×1，第三层的filter大小为32，kernel大小为3×1，strides为3×1，第四层的filter大小为16，kernel大小为2×1，strides为2×1，各卷积层之间使用ReLu函数进行激活；

5)对包含语气词特征的中间变量进行卷积，映射为当前帧的表情AU参数；其中，卷积操作由两层全连接层构成，第一层由64个unit构成，激活函数为tanh，第二层由17个unit构成，激活函数为linear，第二层输出的17×1的向量即为用于驱动人脸模型的17个AU的参数值；

10.根据权利要求4所述的视音频驱动人脸动画实现***，其特征是，所述的可视化模块包括：AU参数拟合单元、离线驱动框架单元和实时驱动框架单元，其中：多种结果的AU参数拟合单元使用权重形式将视频追踪、语音预测、语气词增强的结果进行拟合；离线驱动框架单元通过文件读取每一帧的AU参数，逐帧设置重定向模型的skinMeshRenderer组件中的Blendshape权重，实现动画效果；实时驱动框架单元使用Google ProtoBuff进行AU参数的消息转发，并构建buffer存储三种结果的数据，再逐帧读取buffer，设置模型的skinMeshRenderer组件中的Blendshape权重，实现实时将三种结果的数据对齐的动画效果。