CN113744371B

CN113744371B - 一种生成人脸动画的方法、装置、终端及存储介质

Info

Publication number: CN113744371B
Application number: CN202010475621.0A
Authority: CN
Inventors: 汪浩; 刘阳兴; 王树朋; 李秀阳; 邹梦超
Original assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Current assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2024-04-16
Anticipated expiration: 2040-05-29
Also published as: CN113744371A

Abstract

本发明适用于计算机技术领域，提供了一种生成人脸动画的方法、装置、终端及存储介质，包括：对待处理的语言信息进行分割处理，得到N个语言元素；将N个语言元素依次输入到已训练的人脸特征提取网络中处理，得到N个语言元素各自对应的3D人脸特征点集合；根据N个语言元素各自对应的3D人脸特征点集合生成语言信息对应的人脸动画。上述方式，人脸特征提取网络先确定语言元素对应的2D人脸特征点集合，再根据2D人脸特征点集合确定语言元素对应的3D人脸特征点集合。其采集了人脸在2D、3D两个维度的特征，使该3D人脸特征点集合特征丰富、语言信息与人物面部动作匹配，进而使得基于这些3D人脸特征点集合生成的人脸动画更准确。

Description

一种生成人脸动画的方法、装置、终端及存储介质

技术领域

本发明属于计算机技术领域，尤其涉及一种生成人脸动画的方法、装置、终端及存储介质。

背景技术

传统的语音生成三维(3-dimension，3D)人脸动画方法，是通过端到端的机器学习模型对输入的每个音频帧进行处理，得到与每个音频帧对应的视频帧，再对这些视频帧进行合成，最终生成3D人脸动画。由于该机器学习模型主要是通过音频帧直接映射得到对应的视频帧，因此常常会出现视频帧中的动画人物嘴型与语音信息不匹配的情况，导致最终生成的3D人脸动画不准确。

发明内容

有鉴于此，本发明实施例提供了一种生成人脸动画的方法、装置、终端及存储介质，以解决传统的语音生成3D人脸动画的方法，主要通过音频帧直接映射得到对应的视频帧，常常出现视频帧中的动画人物嘴型与语音信息不匹配的情况，导致最终生成的3D人脸动画不准确的问题。

本发明实施例的第一方面提供了一种生成人脸动画的方法，包括：

对待处理的语言信息进行分割处理，得到N个语言元素；N为大于1的整数；

将所述N个语言元素依次输入到已训练的人脸特征提取网络中处理，得到所述N个语言元素各自对应的3D人脸特征点集合；其中，所述人脸特征提取网络对所述N个语言元素的处理包括确定所述N个语言元素各自对应的2D人脸特征点集合，并根据所述2D人脸特征点集合确定所述N个语言元素各自对应的3D人脸特征点集合；

根据所述N个语言元素各自对应的3D人脸特征点集合生成所述语言信息对应的人脸动画。

可选的，当所述语言信息为音频信息时，所述语言元素为音频帧元素；所述对待处理的语言信息进行分割处理，得到N个语言元素包括：对所述音频信息进行音频分割处理，得到N个音频帧元素。

可选的，当所述语言信息为文字信息时，所述语言元素为分词；所述对待处理的语言信息进行分割处理，得到N个语言元素包括：对所述文字信息进行分词处理，得到N个分词。

可选的，当所述语言信息为音频信息时，所述语言元素为音频帧元素；所述人脸特征提取网络包括第一2D人脸特征提取网络和第一3D人脸特征提取网络；

所述将所述N个语言元素依次输入到已训练的人脸特征提取网络中处理，得到所述N个语言元素各自对应的3D人脸特征点集合包括：

将所述N个音频帧元素依次输入到所述第一2D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的2D人脸特征点集合；

将所述N个音频帧元素各自对应的2D人脸特征点集合依次输入到所述第一3D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的3D人脸特征点集合。

可选的，对于所述N个音频帧元素中的第t个音频帧元素，t为大于1且小于等于N的整数，所述将所述N个音频帧元素依次输入到所述第一2D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的2D人脸特征点集合包括：

获取第t-1个音频帧元素的音频特征向量；

将所述第t-1个音频帧元素的音频特征向量与所述第t个音频帧元素对应的向量进行融合，得到所述第t个音频帧元素的第一融合特征；

根据所述第一融合特征以及第一预设函数确定所述第t个音频帧元素对应的2D人脸特征点集合。

可选的，所述将所述N个音频帧元素各自对应的2D人脸特征点集合依次输入到所述第一3D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的3D人脸特征点集合包括：

获取所述第t-1个音频帧元素的2D人脸特征点集合的面部特征向量；

将所述第t-1个音频帧元素的2D人脸特征点集合的面部特征向量与所述第t个音频帧元素的2D人脸特征点集合对应的向量进行融合，得到所述第t个音频帧元素对应的第二融合特征；

根据所述第二融合特征以及第二预设函数确定所述第t个音频帧元素对应的3D人脸特征点集合。

可选的，所述将所述N个语言元素依次输入到已训练的人脸特征提取网络中处理，得到所述N个语言元素各自对应的3D人脸特征点集合之前，还包括：

将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合；所述第一样本训练集包括多个所述样本音频帧元素和每个所述样本音频帧元素对应的标准2D人脸特征点集合；

根据第一预设损失函数计算所述样本音频帧元素对应的2D人脸特征点集合和所述样本音频帧元素对应的标准2D人脸特征点集合之间的第一损失值；

当所述第一损失值大于第一预设阈值时，调整所述初始2D人脸特征提取网络的参数，并返回执行所述将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合的步骤。

可选的，所述根据第一预设损失函数计算所述样本音频帧元素对应的2D人脸特征点集合和所述样本音频帧元素对应的标准2D人脸特征点集合之间的第一损失值之后，还包括：

当所述第一损失值小于或等于所述第一预设阈值时，停止训练所述初始2D人脸特征提取网络，并将训练后的初始2D人脸特征提取网络作为所述第一2D人脸特征提取网络。

将第二样本训练集中的样本2D人脸特征点集合输入到初始3D人脸特征提取网络中处理，得到所述样本2D人脸特征点集合对应的3D人脸特征点集合；所述第二样本训练集包括多个所述样本2D人脸特征点集合和每个所述样本2D人脸特征点集合对应的标准3D人脸特征点集合；

根据第二预设损失函数计算所述样本2D人脸特征点集合对应的3D人脸特征点集合和所述样本2D人脸特征点集合对应的标准3D人脸特征点集合之间的第二损失值；

当所述第二损失值大于第二预设阈值时，调整所述初始3D人脸特征提取网络的参数，并返回执行所述将第二样本训练集中的样本2D人脸特征点集合输入到初始3D人脸特征提取网络中处理，得到所述样本2D人脸特征点集合对应的3D人脸特征点集合的步骤。

可选地，所述根据第二预设损失函数计算所述样本2D人脸特征点集合对应的3D人脸特征点集合和所述样本2D人脸特征点集合对应的标准3D人脸特征点集合之间的第二损失值之后，还包括：

当所述第二损失值小于或等于所述第二预设阈值时，停止训练所述初始3D人脸特征提取网络，并将训练后的初始3D人脸特征提取网络作为所述第一3D人脸特征提取网络。

可选的，当所述语言信息为文字信息时，所述语言元素为分词；所述人脸特征提取网络包括第二2D人脸特征提取网络和第二3D人脸特征提取网络；

将所述N个分词依次输入到所述第二2D人脸特征提取网络中处理，得到所述N个分词各自对应的2D人脸特征点集合；

将所述N个分词各自对应的2D人脸特征点集合依次输入到所述第二3D人脸特征提取网络中处理，得到所述N个分词各自对应的3D人脸特征点集合。

本发明实施例的第二方面提供了一种生成人脸动画的装置，该装置包括：

第一处理单元，用于对待处理的语言信息进行分割处理，得到N个语言元素；N为大于1的整数；

第二处理单元，用于将所述N个语言元素依次输入到已训练的人脸特征提取网络中处理，得到所述N个语言元素各自对应的3D人脸特征点集合；其中，所述人脸特征提取网络对所述N个语言元素的处理包括确定所述N个语言元素各自对应的2D人脸特征点集合，并根据所述2D人脸特征点集合确定所述N个语言元素各自对应的3D人脸特征点集合；

生成单元，用于根据所述N个语言元素各自对应的3D人脸特征点集合生成所述语言信息对应的人脸动画。

可选的，当所述语言信息为音频信息时，所述语言元素为音频帧元素；所述第一处理单元具体用于：

对所述音频信息进行音频分割处理，得到N个音频帧元素。

可选的，当所述语言信息为文字信息时，所述语言元素为分词；所述第一处理单元具体用于：

对所述文字信息进行分词处理，得到N个分词。

可选的，所述人脸特征提取网络包括第一2D人脸特征提取网络和第一3D人脸特征提取网络；所述第二处理单元包括：

音频2D处理单元，用于将所述N个音频帧元素依次输入到所述第一2D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的2D人脸特征点集合；

音频3D处理单元，用于将所述N个音频帧元素各自对应的2D人脸特征点集合依次输入到所述第一3D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的3D人脸特征点集合。

可选的，对于所述N个音频帧元素中的第t个音频帧元素，t为大于1且小于等于N的整数，所述音频2D处理单元具体用于：

获取第t-1个音频帧元素的音频特征向量；

可选的，所述音频3D处理单元具体用于：

可选的，所述装置还包括：

第一训练单元，用于将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合；所述第一样本训练集包括多个所述样本音频帧元素和每个所述样本音频帧元素对应的标准2D人脸特征点集合；

第一计算单元，用于根据第一预设损失函数计算所述样本音频帧元素对应的2D人脸特征点集合和所述样本音频帧元素对应的标准2D人脸特征点集合之间的第一损失值；

第一调整单元，用于当所述第一损失值大于第一预设阈值时，调整所述初始2D人脸特征提取网络的参数，并返回执行所述将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合的步骤。

可选的，所述装置还包括：

第一停止单元，用于当所述第一损失值小于或等于所述第一预设阈值时，停止训练所述初始2D人脸特征提取网络，并将训练后的初始2D人脸特征提取网络作为所述第一2D人脸特征提取网络。

可选的，所述装置还包括：

第二训练单元，用于将第二样本训练集中的样本2D人脸特征点集合输入到初始3D人脸特征提取网络中处理，得到所述样本2D人脸特征点集合对应的3D人脸特征点集合；所述第二样本训练集包括多个所述样本2D人脸特征点集合和每个所述样本2D人脸特征点集合对应的标准3D人脸特征点集合；

第二计算单元，用于根据第二预设损失函数计算所述样本2D人脸特征点集合对应的3D人脸特征点集合和所述样本2D人脸特征点集合对应的标准3D人脸特征点集合之间的第二损失值；

第二调整单元，用于当所述第二损失值大于第二预设阈值时，调整所述初始3D人脸特征提取网络的参数，并返回执行所述将第二样本训练集中的样本2D人脸特征点集合输入到初始3D人脸特征提取网络中处理，得到所述样本2D人脸特征点集合对应的3D人脸特征点集合的步骤。

可选的，所述装置还包括：

第二停止单元，用于当所述第二损失值小于或等于所述第二预设阈值时，停止训练所述初始3D人脸特征提取网络，并将训练后的初始3D人脸特征提取网络作为所述第一3D人脸特征提取网络。

可选的，所述人脸特征提取网络包括第二2D人脸特征提取网络和第二3D人脸特征提取网络；所述第二处理单元包括：

分词2D处理单元，用于将所述N个分词依次输入到所述第二2D人脸特征提取网络中处理，得到所述N个分词各自对应的2D人脸特征点集合；

分词3D处理单元，用于将所述N个分词各自对应的2D人脸特征点集合依次输入到所述第二3D人脸特征提取网络中处理，得到所述N个分词各自对应的3D人脸特征点集合。

本发明实施例的第三方面提供了另一种生成人脸动画的终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行以下步骤：

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本发明实施例提供的一种生成人脸动画的方法、装置、终端及存储介质，具有以下有益效果：

本发明实施例，将待处理的语言信息进行分割，得到多个语言元素；将这些语言元素依次输入到已训练的人脸特征提取网络中处理，得到每个语言元素对应的3D人脸特征点集合；基于这些3D人脸特征点集合生成对应的人脸动画。本发明中，已训练的人脸特征提取网络对语言元素处理时，先确定语言元素对应的2D人脸特征点集合，再根据2D人脸特征点集合确定语言元素对应的3D人脸特征点集合。其采集了人脸在2D、3D两个维度的特征，使得该3D人脸特征点集合特征丰富，更能体现出语言信息在人脸中对应的面部表现细节，使得语言信息与人物面部动作更匹配。因此基于这些3D人脸特征点集合生成的人脸动画更准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种生成人脸动画的方法的实现流程图；

图2是本发明另一实施例提供的一种生成人脸动画的方法的实现流程图；

图3是本发明再一实施例提供的一种生成人脸动画的方法的实现流程图；

图4是本发明一实施例提供的一种生成人脸动画的装置的示意图；

图5是本发明另一实施例提供的一种生成人脸动画的终端的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1，图1是本发明实施例提供的一种生成人脸动画的方法的示意流程图。本实施例中生成人脸动画的方法的执行主体为终端，终端包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant，PDA)等移动终端，还可以包括台式电脑等终端。如图1所示的生成人脸动画的方法可包括：

S101：对待处理的语言信息进行分割处理，得到N个语言元素；N为大于1的整数。

待处理的语言信息可以为待处理的音频信息，也可以是待处理的文字信息，还可以是待处理的图像等。语言元素为终端对待处理的语言信息进行分割处理后得到的不同的语言片段；例如，语言元素可以为音频帧元素、分词等。N为大于1的整数，具体的值不做限定。

示例性的，用户可将待处理的语言信息上传至终端，终端也可在服务器中获取待处理的语言信息，还可以是终端通过麦克风收音、摄像头拍摄图像、扫描文字等操作获取待处理的语言信息，对此不做限定。终端获取到待处理的语言信息后对其进行分割处理。由于待处理的语言信息的大小不同，采用的分割方法也可根据实际情况进行调整，因此得到的每个语言元素的大小以及所有语言元素的数量也会不同，对此不做限定。

示例性的，当待处理的语言信息为音频信息，语言元素为音频帧元素时，上述S101可以包括S1011，具体如下：

S1011：对所述音频信息进行音频分割处理，得到N个音频帧元素。

音频帧元素可以理解为对音频信息进行音频分割处理后得到的音频片段。终端可通过梅尔频率倒谱系数(Mel-Frequency Cepstral oefficients，MFCC)、线性预测分析(Linear Prediction Coefficients，LPC)或者感知线性预测系数(Perceptual LinearPredictive，PLP)等对音频信息进行音频分割处理，得到N个音频帧元素。其中，通过MFCC、LPC、PLP等对音频信息的音频分割操作可参考现有技术，此处不做赘述。

示例性的，待处理的音频信息由1分钟时长的音频构成，可将该音频信息分割为60个时长均为1秒的音频帧元素；也可将该音频信息分割为30个时长均为2秒的音频帧元素，对此不做限定。

本发明中，对待处理的音频信息进行分割得到多个音频帧元素，可使后续通过已训练的人脸特征提取网络对音频帧元素进行处理时，得到的3D人脸特征点集合与音频帧元素更匹配，精确度更高，进而使得通过这些3D人脸特征点集合生成的人脸动画更准确，使得生成的人脸动画中的动作与该音频信息相吻合。

示例性的，当待处理的语言信息为文字信息，语言元素为分词时，上述S101可以包括S1012，具体如下：

S1012：对所述文字信息进行分词处理，得到N个分词。

分词处理是指将文字信息切分为多个分词；分词可以理解为词组、单词和/或短句。示例性的，待处理的文字信息为“我今天非常开心”时，对其进行分词处理，得到的分词可以为我、今天、非常、开心，也可以为我、今天、非常开心，对此不做限定。

本发明中，对待处理的文字信息进行分割得到多个分词，可使后续通过已训练的人脸特征提取网络对分词进行处理时，得到的3D人脸特征点集合与分词更匹配，精确度更高，进而使得通过这些3D人脸特征点集合生成的人脸动画更准确，使得生成的人脸动画中的动作与该文字信息相吻合。

S102：将所述N个语言元素依次输入到已训练的人脸特征提取网络中处理，得到所述N个语言元素各自对应的3D人脸特征点集合；其中，所述人脸特征提取网络对所述N个语言元素的处理包括确定所述N个语言元素各自对应的2D人脸特征点集合，并根据所述2D人脸特征点集合确定所述N个语言元素各自对应的3D人脸特征点集合。

其中，语言元素对应的2D人脸特征点集合可以理解为语言元素在二维平面中对应的人脸特征点集合。语言元素对应的3D人脸特征点集合可以理解为语言元素在三维立体空间中对应的人脸特征点集合。

根据得到各个语言元素的先后顺序，将N个语言元素依次输入到已训练的人脸特征提取网络中处理，可得到这N个语言元素各自对应的3D人脸特征点集合。

示例性的，当待处理的语言信息为音频信息，语言元素为音频帧元素时，已训练的人脸特征提取网络可以包括第一2D人脸特征提取网络和第一3D人脸特征提取网络，上述S102可以包括S1021-S1022，具体如下：

S1021：将所述N个音频帧元素依次输入到所述第一2D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的2D人脸特征点集合。

其中，音频帧元素对应的2D人脸特征点集合可以理解为音频帧元素在二维平面中对应的人脸特征点集合。具体地，2D人脸特征点集合可以包括在二维平面中人脸的眉毛特征点、嘴巴特征点、眼睛特征点、脸部轮廓特征点、鼻子特征点、嘴角特征点、耳朵特征点、眼角特征点、眼睛大小特征点、瞳孔特征点等。第一2D人脸特征提取网络是使用机器学习算法，基于第一样本训练集对初始2D人脸特征提取网络训练得到。第一样本训练集中包括多个样本音频帧元素和每个样本音频帧元素对应的标准2D人脸特征点集合。

可以理解的是，第一2D人脸特征提取网络可以由本终端预先训练好，也可以由其他终端预先训练好后将第一2D人脸特征提取网络对应的文件移植至本终端中。也就是说，训练该第一2D人脸特征提取网络的执行主体与使用该第一2D人脸特征提取网络进行2D人脸特征点集合提取的执行主体可以是相同的，也可以是不同的。

示例性的，第一2D人脸特征提取网络可以包括输入层、隐含层、输出层。终端对音频信息进行音频分割处理，得到N个音频帧元素，根据得到各个音频帧元素的先后顺序，将N个音频帧元素依次输入到第一2D人脸特征提取网络中的输入层。输入层将这些音频帧元素传递至第一2D人脸特征提取网络中的隐含层。隐含层提取每个音频帧元素的音频特征向量，并将当前音频帧元素对应的向量与当前音频帧元素相邻的前一个音频帧元素的音频特征向量进行融合，根据融合得到的结果确定当前音频帧元素对应的2D人脸特征点集合，依次对每个音频帧元素做相同处理。通过输出层输出每个音频帧元素对应的2D人脸特征点集合。

示例性的，终端通过第一2D人脸特征提取网络对N个音频帧元素中的第t个音频帧元素进行处理时，S1021可以包括S10211-S10213，具体如下：

S10211：获取第t-1个音频帧元素的音频特征向量。

提取第t-1个音频帧元素的音频特征，音频特征可以包括声纹特征、语气特征、语调特征、分贝大小、音色等特征，这些特征在第一2D人脸特征提取网络中以向量的形式表现，基于这些特征各自对应的向量生成第t-1个音频帧元素的音频特征向量。第t-1个音频帧元素是与第t个音频帧元素相邻的音频帧元素，第t-1个音频帧元素的分割时间早于第t个音频帧元素，t为大于1且小于等于N的整数。终端对第t个音频帧元素进行处理时，需先获取到第t-1个音频帧元素的音频特征向量，便于后续终端对第t个音频帧元素进行融合处理。

例如，待处理的音频信息进行音频分割处理后，得到20个音频帧元素，现需要获取这20个音频帧元素中的第2个音频帧元素对应的2D人脸特征点集合时，终端可通过第一2D人脸特征提取网络中的隐含层提取第1个音频帧元素的音频特征向量。

S10212：将所述第t-1个音频帧元素的音频特征向量与所述第t个音频帧元素对应的向量进行融合，得到所述第t个音频帧元素的第一融合特征。

基于第一2D人脸特征提取网络将第t个音频帧元素转换为向量形式，即第t-1个音频帧元素的音频特征向量与第t个音频帧元素在第一2D人脸特征提取网络中均是以向量的形式表现，第一2D人脸特征提取网络中的隐含层可对第t-1个音频帧元素的音频特征向量和第t个音频帧元素对应的向量进行向量卷积运算，得到第t个音频帧元素的第一融合特征。其中，第一融合特征包括声纹特征、语气特征、语调特征、分贝大小、音色等特征。值得说明的是，S10211中提到的音频特征是第t-1个音频帧元素对应的音频特征，第一融合特征是对第t-1个音频帧元素的音频特征向量与第t个音频帧元素对应的向量进行融合后得到的融合特征，其不仅包含了第t-1个音频帧元素中的音频特征，还包含了第t个音频帧元素中的音频特征。

例如，终端通过第一2D人脸特征提取网络中的隐含层对第1个音频帧元素的音频特征向量和第2个音频帧元素对应的向量进行向量卷积运算，得到第2个音频帧元素的第一融合特征。

S10213：根据所述第一融合特征以及第一预设函数确定所述第t个音频帧元素对应的2D人脸特征点集合。

根据第一2D人脸特征提取网络中的隐含层对第t个音频帧元素的第一融合特征进行还原，得到第t个音频帧元素对应的2D人脸特征点集合。具体地，第一融合特征是以向量形式表现的，可将第一融合特征代入第一预设函数进行计算，得到第t个音频帧元素对应的2D人脸特征点集合，第一预设函数如下：

l_t＝h_t·w_t+b_t，其中，l_t表示第t个音频帧元素对应的2D人脸特征点集合，h_t表示第t个音频帧元素的第一融合特征，w_t表示第t个音频帧元素在第一2D人脸特征提取网络中的权重，b_t表示第t个音频帧元素在第一2D人脸特征提取网络中的偏置项。

例如，需要确定第2个音频帧元素对应的2D人脸特征点集合时，将第2个音频帧元素对应的第一融合特征代入上述第一预设函数，得到：l₂＝h₂·w₂+b₂。

示例性的，对于N个音频帧元素中的第1个音频帧元素，终端通过第一2D人脸特征提取网络中的隐含层提取第1个音频帧元素的音频特征向量后，可直接对该音频特征向量进行还原，得到第1个音频帧元素对应的2D人脸特征点集合。也可以是将第1个音频帧元素的音频特征向量与第1个音频帧元素对应的向量进行融合，得到第1个音频帧元素的第一融合特征，对该第一融合特征进行还原，得到第1个音频帧元素对应的2D人脸特征点集合。还可以是对第1个音频帧元素进行还原，得到第1个音频帧元素对应的2D人脸特征点集合，对此不做限定。

由于第t个音频帧元素的第一融合特征是融合了第t-1个音频帧元素的音频特征与第t个音频帧元素，使得第一融合特征中的特征丰富、各个特征之间联系密切。因此，基于第一融合特征确定的2D人脸特征点集合也更丰富、准确。

S1022：将所述N个音频帧元素各自对应的2D人脸特征点集合依次输入到所述第一3D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的3D人脸特征点集合。

其中，音频帧元素对应的3D人脸特征点集合可以理解为音频帧元素在三维立体空间中对应的人脸特征点集合。可通俗理解为3D人脸特征点集合是在2D人脸特征点集合的基础上增加了人脸中各个特征点在三维立体空间中对应的具体空间坐标。第一3D人脸特征提取网络是使用机器学习算法，基于第二样本训练集对初始3D人脸特征提取网络训练得到。第二样本训练集包括多个样本2D人脸特征点集合和每个样本2D人脸特征点集合对应的标准3D人脸特征点集合。

可以理解的是，第一3D人脸特征提取网络可以由本终端预先训练好，也可以有其他终端预先训练好后将第一3D人脸特征提取网络对应的文件移植至本终端中。也就是说，训练该第一3D人脸特征提取网络的执行主体与使用该第一3D人脸特征提取网络进行3D人脸特征点集合提取的执行主体可以是相同的，也可以是不同的。

示例性的，第一3D人脸特征提取网络可以包括输入层、隐含层、输出层。将N个音频帧元素各自对应的2D人脸特征点集合依次输入到第一3D人脸特征提取网络中的输入层。第一3D人脸特征提取网络中的输入层将这些2D人脸特征点集合传递至第一3D人脸特征提取网络中的隐含层。隐含层提取每个2D人脸特征点集合的面部特征，将当前音频帧元素的2D人脸特征点集合与当前音频帧元素相邻的前一个音频帧元素的2D人脸特征点集合的面部特征进行融合，根据融合得到的结果确定当前音频帧元素对应的3D人脸特征点集合。依次对每个音频帧元素的2D人脸特征点集合做相同处理。通过输出层输出每个音频帧元素对应的3D人脸特征点集合。

示例性的，S1022可以包括S10221-S10223，具体如下：

S10221：获取所述第t-1个音频帧元素的2D人脸特征点集合的面部特征向量。

提取第t-1个音频帧元素的2D人脸特征点集合的面部特征，面部特征可以包括人脸的眉毛特征点、嘴巴特征点、眼睛特征点、脸部轮廓特征点、鼻子特征点、嘴角特征点、耳朵特征点、眼角特征点、眼睛大小特征点、瞳孔特征点等，以及这些特征点各自对应的平面坐标。这些面部特征在第一3D人脸特征提取网络中以向量的形式表现，基于这些特征各自对应的向量生成第t-1个音频帧元素2D人脸特征点集合的面部特征向量。终端对第t个音频帧元素的2D人脸特征点集合进行处理时，需先获取到第t-1个音频帧元素的2D人脸特征点集合的面部特征向量，便于后续终端对第t个音频帧元素的2D人脸特征点集合进行融合处理。

例如，终端需要获取第3个音频帧元素对应的3D人脸特征点集合时，终端可通过第一3D人脸特征提取网络中的隐含层提取第2个音频帧元素的2D人脸特征点集合的面部特征向量。

S10222：将所述第t-1个音频帧元素的2D人脸特征点集合的面部特征向量与所述第t个音频帧元素的2D人脸特征点集合对应的向量进行融合，得到所述第t个音频帧元素对应的第二融合特征。

基于第一3D人脸特征提取网络将第t个音频帧元素的2D人脸特征点集合转换为向量形式，即第t-1个音频帧元素的2D人脸特征点集合的面部特征向量与第t个音频帧元素的2D人脸特征点集合，在第一3D人脸特征提取网络中均是以向量的形式表现。第一3D人脸特征提取网络中的隐含层可对第t-1个音频帧元素的2D人脸特征点集合的面部特征向量和第t个音频帧元素的2D人脸特征点集合对应的向量进行向量卷积运算，得到第t个音频帧元素的第二融合特征。其中，第二融合特征包括人脸的眉毛特征点、嘴巴特征点、眼睛特征点、脸部轮廓特征点、鼻子特征点、嘴角特征点、耳朵特征点、眼角特征点、眼睛大小特征点、瞳孔特征点等，以及这些特征点各自对应的平面坐标。值得说明的是，第二融合特征也是以向量形式表现的，S10221中提到的面部特征是第t-1个音频帧元素对应的面部特征，第二融合特征是对第t-1个音频帧元素对应的面部特征向量与第t个音频帧元素对应的向量进行融合后得到的融合特征，其不仅包含了第t-1个音频帧元素对应的面部特征，还包含了第t个音频帧元素对应的面部特征。

例如，终端通过第一3D人脸特征提取网络中的隐含层，对第2个音频帧元素的2D人脸特征点集合的面部特征向量和第3个音频帧元素的2D人脸特征点集合对应的向量进行向量卷积运算，得到第3个音频帧元素对应的第二融合特征。

S10223：根据所述第二融合特征以及第二预设函数确定所述第t个音频帧元素对应的3D人脸特征点集合。

根据第一3D人脸特征提取网络中的隐含层对第t个音频帧元素的第二融合特征进行还原，得到第t个音频帧元素对应的3D人脸特征点集合。具体地，第二融合特征是以向量形式表现的，可将第二融合特征代入第二预设函数进行计算，得到第t个音频帧元素对应的3D人脸特征点集合，第二预设函数如下：

L_t＝H_t·W_t+B_t，其中，L_t表示第t个音频帧元素对应的3D人脸特征点集合，H_t表示第t个音频帧元素的第二融合特征，W_t表示第t个音频帧元素在第一3D人脸特征提取网络中的权重，B_t表示第t个音频帧元素在第一3D人脸特征提取网络中的偏置项。

例如，需要确定第3个音频帧元素对应的3D人脸特征点集合时，将第3个音频帧元素对应的第二融合特征代入上述第二预设函数，得到：L₃＝H₃·W₃+B₃。

示例性的，对于N个音频帧元素中的第1个音频帧元素的2D人脸特征点集合，终端提取第1个音频帧元素的2D人脸特征点集合的面部特征向量后，可直接对该2D人脸特征点集合进行还原，得到第1个音频帧元素对应的3D人脸特征点集合。也可以是将第1个音频帧元素对应的面部特征向量与第1个音频帧元素对应的2D人脸特征点集合对应的向量进行融合，得到第1个音频帧元素的第二融合特征，对该第二融合特征进行还原，得到第1个音频帧元素对应的3D人脸特征点集合。还可以是对第1个音频帧元素的2D人脸特征点集合进行还原，得到第1个音频帧元素对应的3D人脸特征点集合，对此不做限定。

值得说明的是，在将音频帧元素对应的2D人脸特征点集合输入第一3D人脸特征提取网络中进行处理时，可以是第一2D人脸特征提取网络对N个音频帧元素都处理完毕，得到N个音频帧元素各自对应的2D人脸特征点集合后，将这些2D人脸特征点集合依次输入第一3D人脸特征提取网络中进行处理。也可以是，第一2D人脸特征提取网络对1个音频帧元素处理完毕，得到该音频帧元素对应的2D人脸特征点集合后，将该2D人脸特征点集合输入第一3D人脸特征提取网络中进行处理，对此均不作限定。

本发明中，通过已训练的人脸特征提取网络对音频帧元素处理时，并未采取音频帧元素到视频帧的直接映射，而是先通过第一2D人脸特征提取网络确定音频帧元素对应的2D人脸特征点集合，再通过第一3D人脸特征提取网络确定2D人脸特征点集合对应的3D人脸特征点集合。其采集了人脸在2D、3D两个维度的特征，使得到的3D人脸特征点集合特征丰富；进而使基于这些3D人脸特征点集合生成的人脸动画更准确。

示例性的，当待处理的语言信息为文字信息，语言元素为分词时，已训练的人脸特征提取网络可以包括第二2D人脸特征提取网络和第二3D人脸特征提取网络，上述S102可以包括S1023-S1024，具体如下：

S1023：将所述N个分词依次输入到所述第二2D人脸特征提取网络中处理，得到所述N个分词各自对应的2D人脸特征点集合。

其中，分词对应的2D人脸特征点集合可以理解为分词在二维平面中对应的人脸特征点集合。具体地，分词对应的2D人脸特征点集合可以包括在二维平面中人脸的眉毛特征点、嘴巴特征点、眼睛特征点、脸部轮廓特征点、鼻子特征点、嘴角特征点、耳朵特征点、眼角特征点、眼睛大小特征点、瞳孔特征点等。第二2D人脸特征提取网络是使用机器学习算法，基于第三样本训练集对预设2D人脸特征提取网络训练得到。第三样本训练集中包括多个样本分词和每个样本分词对应的标准2D人脸特征点集合。

本发明中第二2D人脸特征提取网络对分词进行处理时，与第一2D人脸特征提取网络对音频帧元素进行处理的不同之处在于，第二2D人脸特征提取网络无需对分词进行特征提取、特征融合等操作，可通过第二2D人脸特征提取网络直接映射出该分词对应的2D人脸特征点集合。

示例性的，第二2D人脸特征提取网络可以包括输入层、隐含层、输出层。终端对文字信息进行分词处理，得到N个分词，根据得到各个分词的先后顺序，将N个分词依次输入到第二2D人脸特征提取网络中的输入层。输入层将这些分词传递至第二2D人脸特征提取网络中的隐含层。隐含层确定每个分词对应的2D人脸特征点集合，然后通过输出层输出每个分词对应的2D人脸特征点集合。

S1024：将所述N个分词各自对应的2D人脸特征点集合依次输入到所述第二3D人脸特征提取网络中处理，得到所述N个分词各自对应的3D人脸特征点集合。

其中，分词对应的3D人脸特征点集合可以理解为分词在三维立体空间中对应的人脸特征点集合。可通俗理解为3D人脸特征点集合是在2D人脸特征点集合的基础上增加了人脸中各个特征点在三维立体空间中对应的具体空间坐标。第二3D人脸特征提取网络是使用机器学习算法，基于第四样本训练集对预设3D人脸特征提取网络训练得到。第四样本训练集包括多个分词样本2D人脸特征点集合和每个分词样本2D人脸特征点集合对应的标准3D人脸特征点集合。

第二3D人脸特征提取网络对各个分词对应的2D人脸特征点集合的处理，与第一3D人脸特征提取网络对各个音频帧元素对应的2D人脸特征点集合的处理过程相似，此处仅简单说明，详细过程不再赘述。

示例性的，第二3D人脸特征提取网络可以包括输入层、隐含层、输出层。将N个分词各自对应的2D人脸特征点集合依次输入到第二3D人脸特征提取网络中的输入层。第二3D人脸特征提取网络中的输入层将这些2D人脸特征点集合传递至第二3D人脸特征提取网络中的隐含层。隐含层提取每个2D人脸特征点集合的面部特征向量，将当前分词的2D人脸特征点集合对应的向量与当前分词相邻的前一个分词的2D人脸特征点集合的面部特征向量进行融合，根据融合得到的结果确定当前分词对应的3D人脸特征点集合。依次对每个分词的2D人脸特征点集合做相同处理。通过输出层输出每个分词对应的3D人脸特征点集合。

本发明中，通过已训练的人脸特征提取网络对分词处理时，并未采取分词到视频帧的直接映射，而是先通过第二2D人脸特征提取网络确定分词对应的2D人脸特征点集合，再通过第二3D人脸特征提取网络确定2D人脸特征点集合对应的3D人脸特征点集合。其采集了人脸在2D、3D两个维度的特征，使得到的3D人脸特征点集合特征丰富；进而使基于这些3D人脸特征点集合生成的人脸动画更准确。

S103：根据所述N个语言元素各自对应的3D人脸特征点集合生成所述语言信息对应的人脸动画。

终端根据每个语言元素各自对应的3D人脸特征点集合，生成每个3D人脸特征点集合对应的画面(视频帧)，将这些画面结合生成该语言信息对应的人脸动画。

示例性的，当待处理的语言信息为音频信息，语言元素为音频帧元素时，经过上述S1021、S1022的处理，可得到每个音频帧元素对应的3D人脸特征点集合。每个3D人脸特征点集合中包含了多个人脸特征点以及各个特征点在三维立体空间中对应的具体空间坐标，可根据3D人脸特征点集合中的信息生成每个3D人脸特征点对应的画面，按照生成每个画面的顺序对这些画面进行组合，生成该语言信息对应的人脸动画。

示例性的，当待处理的语言信息为文字信息，语言元素为分词时，经过上述S1023、S1024的处理，可得到每个分词对应的3D人脸特征点集合。根据3D人脸特征点集合中的信息生成每个3D人脸特征点对应的画面，按照生成每个画面的顺序对这些画面进行组合，生成该文字信息对应的人脸动画。

请参见图2，图2为本发明的另一个实施例提供的一种生成人脸动画的方法的示意流程图。主要涉及当待处理的语言信息为音频信息时，在执行如图1所示的生成人脸动画的方法之前，获得已训练的人脸特征提取网络的过程。该方法包括：

S201：将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合；所述第一样本训练集包括多个所述样本音频帧元素和每个所述样本音频帧元素对应的标准2D人脸特征点集合。

其中，第一样本训练集包含多个样本音频帧元素和每个样本音频帧元素对应的标准2D人脸特征点集合。样本音频帧元素是对样本音频信息经过音频分割处理后得到的，多个样本音频信息分割出多组样本音频帧元素。

初始2D人脸特征提取网络在训练过程中对应的网络结构，与在实际应用过程中使用的第一2D人脸特征提取网络中对应的网络结构相同。例如，在训练的过程中，初始2D人脸特征提取网络包括输入层、隐含层、输出层。相应地，将第一样本训练集中的样本音频帧元素输入初始2D人脸特征提取网络中处理，得到样本音频帧元素对应的2D人脸特征点集合的过程，与上述步骤S1021-S1022中的处理过程类似，此处不再赘述。

S202：根据第一预设损失函数计算所述样本音频帧元素对应的2D人脸特征点集合和所述样本音频帧元素对应的标准2D人脸特征点集合之间的第一损失值。

其中，样本音频帧元素对应的2D人脸特征点集合和样本音频帧元素对应的标准2D人脸特征点集合之间的第一损失值，用于衡量初始2D人脸特征提取网络对样本音频帧元素处理后得到的2D人脸特征点集合是否准确。

在该示例中，可以利用激活函数(sigmod函数)作为损失函数，通过该激活函数计算第一损失值。

在计算得到第一损失值时，判断第一损失值与第一预设阈值之间的大小，当判断结果为第一损失值大于第一预设阈值时，执行S203；当判断结果为第一损失值小于或等于第一预设阈值时，执行S204。

S203：当所述第一损失值大于第一预设阈值时，调整所述初始2D人脸特征提取网络的参数，并返回执行所述将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合的步骤。

第一预设阈值用于与第一损失值进行比较，根据第一损失值与第一预设阈值的比较结果可判断初始2D人脸特征提取网络是否达到训练要求，第一预设阈值可预先设定，在训练初始2D人脸特征提取网络的过程中可随时调整，对此不做限定。例如，在训练过程中终端比较第一损失值与第一预设阈值的大小，当第一损失值大于第一预设阈值时，判定当前的初始2D人脸特征提取网络还未达到要求。此时，需要调整初始2D人脸特征提取网络中的参数，之后返回S201，继续执行S201和S202，直到在S202中确定第一损失值小于或等于第一预设阈值时，执行S204。

S204：当所述第一损失值小于或等于所述第一预设阈值时，停止训练所述初始2D人脸特征提取网络，并将训练后的初始2D人脸特征提取网络作为所述第一2D人脸特征提取网络。

示例性地，在训练过程中终端比较第一损失值与第一预设阈值的大小，当第一损失值小于或等于第一预设阈值时，判定当前的初始2D人脸特征提取网络符合预期要求，停止训练初始2D人脸特征提取网络。将此时初始2D人脸特征提取网络作为训练好的第一2D人脸特征提取网络。

第一2D人脸特征提取网络是初始2D人脸特征提取网络经过大量的样本训练得到的，且其损失值保持在一个较小的范围内。因此，使用该第一2D人脸特征提取网络对音频帧元素进行处理时，得到的2D人脸特征点集合特征丰富，与音频帧元素匹配度极高。

请参见图3，图3为本发明再一个实施例提供的一种生成人脸动画的方法的示意流程图。主要涉及当待处理的语言信息为音频信息时，在执行如图1所示的生成人脸动画的方法之前，获得已训练的人脸特征提取网络的过程。该方法包括：

S301：将第二样本训练集中的样本2D人脸特征点集合输入到初始3D人脸特征提取网络中处理，得到所述样本2D人脸特征点集合对应的3D人脸特征点集合；所述第二样本训练集包括多个所述样本2D人脸特征点集合和每个所述样本2D人脸特征点集合对应的标准3D人脸特征点集合。

其中，第二样本训练集包括多个样本2D人脸特征点集合和每个样本2D人脸特征点集合对应的标准3D人脸特征点集合。第二样本训练集中的样本2D人脸特征点集合可以与第一样本训练集中样本音频帧元素对应的标准2D人脸特征点集合相同，也可以不同，对此不做限定。

初始3D人脸特征提取网络在训练过程中对应的网络结构，与在实际应用过程中使用的第一3D人脸特征提取网络中对应的网络结构相同。例如，在训练的过程中，初始3D人脸特征提取网络包括输入层、隐含层、输出层。相应地，将第二样本训练集中的样本2D人脸特征点集合输入初始3D人脸特征提取网络中处理，得到样本2D人脸特征点集合对应的3D人脸特征点集合的过程，与上述步骤S1023-S1024中的处理过程类似，此处不再赘述。

S302：根据第二预设损失函数计算所述样本2D人脸特征点集合对应的3D人脸特征点集合和所述样本2D人脸特征点集合对应的标准3D人脸特征点集合之间的第二损失值。

其中，样本2D人脸特征点集合对应的3D人脸特征点集合和样本2D人脸特征点集合对应的标准3D人脸特征点集合之间的第二损失值，用于衡量初始3D人脸特征提取网络对样本2D人脸特征点集合处理后得到的3D人脸特征点集合是否准确。

在该示例中，可以利用激活函数(sigmod函数)作为损失函数，通过该激活函数计算第二损失值。

也可以用L_gan＝Ε_lt,vt[logD(l_g,v_g)]+Ε_lt,vt[log(1-D(v_g,G(l_t)))]作为损失函数，计算第二损失值。其中，L_gan表示第二损失值，Ε_lt,vt[logD(l_g,v_g)]表示标准3D人脸特征点集合对应的值，Ε_lt,vt[log(1-D(v_g,G(l_t)))]表示初始3D人脸特征提取网络对样本2D人脸特征点集合处理后得到的3D人脸特征点集合对应的值。

在计算得到第二损失值时，判断第二损失值与第二预设阈值之间的大小，当判断结果为第二损失值大于第二预设阈值时，执行S303；当判断结果为第二损失值小于或等于第二预设阈值时，执行S304。

S303：当所述第二损失值大于第二预设阈值时，调整所述初始3D人脸特征提取网络的参数，并返回执行所述将第二样本训练集中的样本2D人脸特征点集合输入到初始3D人脸特征提取网络中处理，得到所述样本2D人脸特征点集合对应的3D人脸特征点集合的步骤。

第二预设阈值用于与第二损失值进行比较，根据第二损失值与第二预设阈值的比较结果可判断初始3D人脸特征提取网络是否达到训练要求，第二预设阈值可预先设定，在训练初始3D人脸特征提取网络的过程中可随时调整，对此不做限定。例如，在训练过程中终端比较第二损失值与第二预设阈值的大小，当第二损失值大于第二预设阈值时，判定当前的初始3D人脸特征提取网络还未达到要求。此时，需要调整初始3D人脸特征提取网络中的参数，之后返回S301，继续执行S301和S302，直到在S302中确定第二损失值小于或等于第二预设阈值时，执行S304。

S304：当所述第二损失值小于或等于所述第二预设阈值时，停止训练所述初始3D人脸特征提取网络，并将训练后的初始3D人脸特征提取网络作为所述第一3D人脸特征提取网络。

示例性地，在训练过程中终端比较第二损失值与第二预设阈值的大小，当第二损失值小于或等于第二预设阈值时，判定当前的初始3D人脸特征提取网络符合预期要求，停止训练初始3D人脸特征提取网络。将此时初始3D人脸特征提取网络作为训练好的第一3D人脸特征提取网络。

第一3D人脸特征提取网络是初始3D人脸特征提取网络经过大量的样本训练得到的，且其损失值保持在一个较小的范围内。因此，使用该第一3D人脸特征提取网络对音频帧元素进行处理时，得到的3D人脸特征点集合特征丰富，与音频帧元素匹配度极高。

示例性的，当待处理的语言信息为文字信息时，在执行如图1所示的生成人脸动画的方法之前，还可训练第二2D人脸特征提取网络和第二3D人脸特征提取网络。

示例性的，通过预设2D人脸特征提取网络对第三样本训练集进行大量训练，可得到第二2D人脸特征提取网络。其中，第三样本训练集中包括多个样本分词和每个样本分词对应的标准2D人脸特征点集合。

具体地，将第三样本训练集中的样本分词输入到预设2D人脸特征提取网络中处理，得到样本分词对应的2D人脸特征点集合。根据第三预设损失函数计算样本分词对应的2D人脸特征点集合和样本分词对应的标准2D人脸特征点集合之间的第三损失值。当终端检测到第三损失值大于第三预设阈值时，调整预设2D人脸特征提取网络的参数，并返回执行将第三样本训练集中的样本分词输入到预设2D人脸特征提取网络中处理，得到样本分词对应的2D人脸特征点集合的步骤。当第三损失值小于或等于第三预设阈值时，停止训练预设2D人脸特征提取网络，并将训练后的预设2D人脸特征提取网络作为第二2D人脸特征提取网络。其中，第三预设阈值用于与第三损失值进行比较，根据第三损失值与第三预设阈值的比较结果可判断预设2D人脸特征提取网络是否达到训练要求，第三预设阈值可预先设定，在训练预设2D人脸特征提取网络的过程中可随时调整，对此不做限定。

在该示例中，可以利用预设的激活函数作为第三预设损失函数，通过该激活函数计算第三损失值。

可以理解的是，在训练过程中，预设2D人脸特征提取网络对分词的处理方式，与第二2D人脸特征提取网络对分词的处理方式相同，可参考上述S1023的描述，此处不再赘述。

第二2D人脸特征提取网络是预设2D人脸特征提取网络经过大量的样本训练得到的，且其损失值保持在一个较小的范围内。因此，使用该第二2D人脸特征提取网络对分词进行处理时，得到的2D人脸特征点集合特征丰富，与分词配度极高。

示例性的，通过预设3D人脸特征提取网络对第四样本训练集进行大量训练，可得到第二3D人脸特征提取网络。其中，第四样本训练集包括多个分词样本2D人脸特征点集合和每个分词样本2D人脸特征点集合对应的标准3D人脸特征点集合。

具体地，将第四样本训练集中的分词样本2D人脸特征点集合输入到预设3D人脸特征提取网络中处理，得到分词样本2D人脸特征点集合对应的3D人脸特征点集合。根据第四预设损失函数计算分词样本2D人脸特征点集合对应的3D人脸特征点集合和分词样本2D人脸特征点集合对应的标准3D人脸特征点集合之间的第四损失值。当终端检测到第四损失值大于第四预设阈值时，调整预设3D人脸特征提取网络的参数，并返回执行将第四样本训练集中的分词样本2D人脸特征点集合输入到预设3D人脸特征提取网络中处理，得到分词样本2D人脸特征点集合对应的3D人脸特征点集合的步骤。当第四损失值小于或等于第四预设阈值时，停止训练预设3D人脸特征提取网络，并将训练后的预设3D人脸特征提取网络作为第二3D人脸特征提取网络。其中，第四预设阈值用于与第四损失值进行比较，根据第四损失值与第四预设阈值的比较结果可判断预设3D人脸特征提取网络是否达到训练要求，第四预设阈值可预先设定，在训练预设3D人脸特征提取网络的过程中可随时调整，对此不做限定。在该示例中，可以利用预设的激活函数作为第四预设损失函数，通过该激活函数计算第四损失值。

可以理解的是，在训练过程中，预设3D人脸特征提取网络对2D人脸特征点集合的处理方式，与第二3D人脸特征提取网络对2D人脸特征点集合的处理方式相同，可参考上述S1024的描述，此处不再赘述。

第二3D人脸特征提取网络是预设3D人脸特征提取网络经过大量的样本训练得到的，且其损失值保持在一个较小的范围内。因此，使用该第二3D人脸特征提取网络对分词进行处理时，得到的3D人脸特征点集合特征丰富，与分词配度极高。

示例性的，当待处理的语言信息为文字信息时，也可以先将文字信息转换为音频信息，再通过S101-S104中对音频信息的处理过程对转换得到的音频信息进行处理，得到该文字信息对应的人脸动画。可通过现有的语音合成技术将文字信息转换为音频信息，也可利用文字转语音的相关软件、程序等，将待处理的文字信息转换为音频信息，还可以在网上查找已训练好的文字转语音的神经网络模型，通过该神经网络模型将待处理的文字信息转换为对应的音频信息；此处仅为示例性说明，对此不做限定。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参见图4，图4是本发明一实施例提供的一种生成人脸动画的装置的示意图。该生成人脸动画的装置包括各单元用于执行图1、图2、图3对应的实施例中的各步骤。具体请参阅图1、图2、图3各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图4，包括：

第一处理单元410，用于对待处理的语言信息进行分割处理，得到N个语言元素；N为大于1的整数；

第二处理单元420，用于将所述N个语言元素依次输入到已训练的人脸特征提取网络中处理，得到所述N个语言元素各自对应的3D人脸特征点集合；其中，所述人脸特征提取网络对所述N个语言元素的处理包括确定所述N个语言元素各自对应的2D人脸特征点集合，并根据所述2D人脸特征点集合确定所述N个语言元素各自对应的3D人脸特征点集合；

生成单元430，用于根据所述N个语言元素各自对应的3D人脸特征点集合生成所述语言信息对应的人脸动画。

可选的，当所述语言信息为音频信息时，所述语言元素为音频帧元素；所述第一处理单元410具体用于：

对所述音频信息进行音频分割处理，得到N个音频帧元素。

可选的，当所述语言信息为文字信息时，所述语言元素为分词；所述第一处理单元410具体用于：

对所述文字信息进行分词处理，得到N个分词。

可选的，所述人脸特征提取网络包括第一2D人脸特征提取网络和第一3D人脸特征提取网络；所述第二处理单元420包括：

获取第t-1个音频帧元素的音频特征向量；

可选的，所述音频3D处理单元具体用于：

可选的，所述装置还包括：

可选的，所述人脸特征提取网络包括第二2D人脸特征提取网络和第二3D人脸特征提取网络；所述第二处理单元420包括：

请参见图5，图5是本发明另一实施例提供的一种生成人脸动画的终端的示意图。如图5所示，该实施例的终端5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个生成人脸动画的方法实施例中的步骤，例如图1所示的S101至S103。或者，所述处理器50执行所述计算机可读指令52时实现上述各实施例中各单元的功能，例如图4所示单元410至430功能。

示例性的，所述计算机可读指令52可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器51中，并由所述处理器50执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令52在所述终端5中的执行过程。例如，所述计算机可读指令52可以被分割为第一处理单元、第二处理单元以及生成单元，各单元具体功能如上所述。

所述生成人脸动画的终端可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是终端5的示例，并不构成对终端5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出终端、网络接入终端、总线等。

所称处理器50可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述终端5的内部存储单元，例如终端5的硬盘或内存。所述存储器51也可以是所述终端5的外部存储终端，例如所述终端5上配备的插接式硬盘，智能存储卡，安全数字卡，闪存卡等。进一步地，所述存储器51还可以既包括所述终端5的内部存储单元也包括外部存储终端。所述存储器51用于存储所述计算机可读指令以及所述终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神范围，均应包含在本发明的保护范围之内。

Claims

1.一种生成人脸动画的方法，其特征在于，包括：

对待处理的音频信息进行分割处理，得到N个音频帧元素；N为大于1的整数；

将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合；所述第一样本训练集包括多个所述样本音频帧元素和每个所述样本音频帧元素对应的标准2D人脸特征点集合；根据第一预设损失函数计算所述样本音频帧元素对应的2D人脸特征点集合和所述样本音频帧元素对应的标准2D人脸特征点集合之间的第一损失值；当所述第一损失值大于第一预设阈值时，调整所述初始2D人脸特征提取网络的参数，并返回执行所述将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合的步骤；

将所述N个音频帧元素依次输入到已训练的人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的3D人脸特征点集合；其中，所述人脸特征提取网络对所述N个音频帧元素的处理包括确定所述N个音频帧元素各自对应的2D人脸特征点集合，并根据所述2D人脸特征点集合确定所述N个音频帧元素各自对应的3D人脸特征点集合；

根据所述N个音频帧元素各自对应的3D人脸特征点集合生成所述音频信息对应的人脸动画。

2.如权利要求1所述的方法，其特征在于，所述人脸特征提取网络包括第一2D人脸特征提取网络和第一3D人脸特征提取网络；

所述将所述N个音频帧元素依次输入到已训练的人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的3D人脸特征点集合包括：

3.如权利要求2所述的方法，其特征在于，对于所述N个音频帧元素中的第t个音频帧元素，t为大于1且小于等于N的整数，所述将所述N个音频帧元素依次输入到所述第一2D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的2D人脸特征点集合包括：

获取第t-1个音频帧元素的音频特征向量；

4.如权利要求3所述的方法，其特征在于，所述将所述N个音频帧元素各自对应的2D人脸特征点集合依次输入到所述第一3D人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的3D人脸特征点集合包括：

5.如权利要求2所述的方法，其特征在于，所述根据第一预设损失函数计算所述样本音频帧元素对应的2D人脸特征点集合和所述样本音频帧元素对应的标准2D人脸特征点集合之间的第一损失值之后，还包括：

6.如权利要求2所述的方法，其特征在于，所述将所述N个音频帧元素依次输入到已训练的人脸特征提取网络中处理，得到所述N个音频帧元素各自对应的3D人脸特征点集合之前，还包括：

7.如权利要求6所述的方法，其特征在于，所述根据第二预设损失函数计算所述样本2D人脸特征点集合对应的3D人脸特征点集合和所述样本2D人脸特征点集合对应的标准3D人脸特征点集合之间的第二损失值之后，还包括：

8.一种生成人脸动画的装置，其特征在于，包括：

第一处理单元，用于对待处理的音频信息进行分割处理，得到N个音频帧元素；N为大于1的整数；

第二处理单元，用于将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合；所述第一样本训练集包括多个所述样本音频帧元素和每个所述样本音频帧元素对应的标准2D人脸特征点集合；根据第一预设损失函数计算所述样本音频帧元素对应的2D人脸特征点集合和所述样本音频帧元素对应的标准2D人脸特征点集合之间的第一损失值；当所述第一损失值大于第一预设阈值时，调整所述初始2D人脸特征提取网络的参数，并返回执行所述将第一样本训练集中的样本音频帧元素输入到初始2D人脸特征提取网络中处理，得到所述样本音频帧元素对应的2D人脸特征点集合的步骤；

生成单元，用于根据所述N个音频帧元素各自对应的3D人脸特征点集合生成所述音频信息对应的人脸动画。

9.一种生成人脸动画的终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。