CN109377540B

CN109377540B - 面部动画的合成方法、装置、存储介质、处理器及终端

Info

Publication number: CN109377540B
Application number: CN201811156589.9A
Authority: CN
Inventors: 陈晓威; 万里红; 张伟东; 张民英
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2023-12-19
Anticipated expiration: 2038-09-30
Also published as: CN109377540A

Abstract

本发明公开了一种面部动画的合成方法、装置、存储介质、处理器及终端。该方法包括：对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，音素时间戳文件包括：由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素；获取与音素时间戳文件对应的口型序列，其中，口型序列用于描述音素时间戳文件中的每个音素对应的口型信息；获取与表情时间戳文件对应的表情序列，其中，表情序列用于描述表情时间戳文件对应的表情信息；将口型序列和表情序列合成为面部动画。本发明解决了相关技术中所提供的语音解析方式易造成后续合成的语音动画存在较大误差，影响用户体验的技术问题。

Description

面部动画的合成方法、装置、存储介质、处理器及终端

技术领域

本发明涉及计算机领域，具体而言，涉及一种面部动画的合成方法、装置、存储介质、处理器及终端。

背景技术

人的面部信息包括：表情和口型。在通常情况下，表情与口型的变化具有独立性，其中，口型包含有较多的高频信息，而表情则更倾向于低频表达。例如，当普通人在阐述一句话时，口型会随着发音的变化而频繁变化。相对而言，表情变化则较为缓慢，甚至缺少明显变化。总体上，面部信息可以看成是表情与口型这两个相对独立部分的融合。

针对表情与口型的融合，相关技术中所提供的技术方案主要分为语音解析、表情与口型动画合成、语音驱动面部动画。对于语音解析而言，主要是面向中英文语音进行解析。对于表情与口型动画合成，主要是通过动作捕捉或者美术人员直接制作骨骼动作等方式实现。

关于中文语音音素解析，相关技术所提供的其中一种解决方案只能输入中文语音并输出中文文本，而无法准确地获取中文文本中每个音素的时间戳及其持续时长。相关技术所提供的另外一种解决方案(例如：IBM的Waston服务)虽然可以对中文语音进行处理并获得每个分词的时间戳及其持续时长，但是，Waston却无法准确地定位到每个文字的时间戳和持续时长，从而对后续生成的语音动画造成极大的误差。关于表情动画合成与语音驱动面部动画，相关技术中所提供的的动作捕捉方式成本较高、灵活性差、生成的数据量大，因而难以应用在移动端。另外，关于美术人员制作的表情动画合成以及语音驱动面部动画，同样存在效率低、灵活性差，反复修改的成本过高等问题。表1为相关技术中所提供的多种语音解析技术的现状说明，如表1所示：

表1

表2为相关技术中所提供的多种面部动画合成技术的现状说明，如表2所示：

表2

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明至少部分实施例提供了一种面部动画的合成方法、装置、存储介质、处理器及终端，以至少解决相关技术中所提供的语音解析方式易造成后续合成的语音动画存在较大误差，影响用户体验的技术问题。

根据本发明其中一实施例，提供了一种面部动画的合成方法，包括：

对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，音素时间戳文件包括：由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素；获取与音素时间戳文件对应的口型序列，其中，口型序列用于描述音素时间戳文件中的每个音素对应的口型信息；获取与表情时间戳文件对应的表情序列，其中，表情序列用于描述表情时间戳文件对应的表情信息；将口型序列和表情序列合成为面部动画。

可选地，在将口型序列和表情序列合成为面部动画之后，还包括：将面部动画与音频文件进行同步播放。

可选地，对音频文件进行语音解析，得到音素时间戳文件包括：将音频文件转换为文本序列；根据文本序列中每个文字的中文拼音将文本序列转换为音素序列，其中，每个文字对应至少一个音素；对音素序列进行时序建模，得到音素时间戳文件。

可选地，将音频文件转换为文本序列包括：采用连接时态分类-递归神经网络模型将音频文件转换为文本序列。

可选地，对音素序列进行时序建模，得到音素时间戳文件包括：采用隐马尔科夫模型对音素序列进行时序建模，得到音素时间戳文件。

可选地，获取与表情时间戳文件对应的表情序列包括：提取音频文件在预设时间窗内的声谱图；根据声谱图推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到表情序列。

可选地，根据声谱图推导出表情时间戳文件中的每个音素对应的表情动画以及每个表情对应的情感类别，得到表情序列包括：将声谱图设置为输入项，通过卷积神经网络推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到表情序列。

可选地，获取与音素时间戳文件对应的口型序列包括：根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型，其中，所述预设对应关系用于记录不同音素与口型类型之间的映射关系，每种口型类型分别对应不同的口型动画；将每个音素的时间戳与对应的口型类型进行映射，得到所述口型序列。

可选地，将口型序列和表情序列合成为面部动画，并将面部动画与音频文件进行同步播放包括：判断步骤，每间隔预设时长触发判断是否合成口型序列中的口型动画与表情序列中的表情动画；处理步骤，如果是，则先将当前口型动画与上一个口型动画进行融合，得到待播放的口型动画，再将触发时刻对应的表情动画与待播放的口型动画进行合成，得到触发时刻的面部动画；播放步骤，若未达到音频文件的播放结束时刻，则播放触发时刻的面部动画，并返回判断步骤，直至达到播放结束时刻。

根据本发明其中一实施例，还提供了一种面部动画的合成装置，包括：

解析模块，用于对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，音素时间戳文件包括：由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素；获取模块，用于获取与音素时间戳文件对应的口型序列以及获取与表情时间戳文件对应的表情序列，其中，口型序列用于描述音素时间戳文件中的每个音素对应的口型信息，表情序列用于描述表情时间戳文件对应的表情信息；合成模块，用于将口型序列和表情序列合成为面部动画。

可选地，上述装置还包括：播放模块，用于将面部动画与音频文件进行同步播放。

可选地，解析模块包括：第一转换单元，用于将音频文件转换为文本序列；第二转换单元，用于根据文本序列中每个文字的中文拼音将文本序列转换为音素序列，其中，每个文字对应至少一个音素；第一处理单元，用于对音素序列进行时序建模，得到音素时间戳文件。

可选地，第一转换单元，用于采用连接时态分类-递归神经网络模型将音频文件转换为文本序列。

可选地，第一处理单元，用于采用隐马尔科夫模型对音素序列进行时序建模，得到音素时间戳文件。

可选地，获取模块包括：提取单元，用于提取音频文件在预设时间窗内的声谱图；第一获取单元，用于根据声谱图推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到表情序列。

可选地，第一获取单元，用于将声谱图设置为输入项，通过卷积神经网络推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到表情序列。

可选地，获取模块包括：确定单元，用于根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型，其中，所述预设对应关系用于记录不同音素与口型类型之间的映射关系，每种口型类型分别对应不同的口型动画；第二获取单元，用于将每个音素的时间戳与对应的口型类型进行，得到所述口型序列。

可选地，合成模块包括：判断单元，用于每间隔预设时长触发判断是否合成口型序列中的口型动画与表情序列中的表情动画；第一处理单元，用于在判断单元输出为是时，则先将当前口型动画与上一个口型动画进行融合，得到待播放的口型动画，再将触发时刻对应的表情动画与待播放的口型动画进行合成，得到触发时刻的面部动画；播放单元，用于若未达到音频文件的播放结束时刻，则播放触发时刻的面部动画，并返回判断步骤，直至达到播放结束时刻。

根据本发明其中一实施例，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述面部动画的合成方法。

根据本发明其中一实施例，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述面部动画的合成方法。

根据本发明其中一实施例，还提供了一种终端，包括：一个或多个处理器，存储器，显示装置以及一个或多个程序，其中，一个或多个程序被存储在存储器中，并且被配置为由一个或多个处理器执行，一个或多个程序用于执行上述面部动画的合成方法。

在本发明至少部分实施例中，采用对音频文件进行语音解析以得到音素时间戳文件和表情时间戳文件，该音素时间戳文件包括由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长的方式，通过获取与音素时间戳文件对应的口型序列和与表情时间戳文件对应的表情序列，以及将口型序列和表情序列合成为面部动画，达到了通过预先建立的面部表情基和口型基以及分析语音得到语音中不同时刻的表情信息和口型信息，进而利用音素时间戳文件合成语音动画的目的，从而实现了对语音进行精准音素序列识别，而且只需输入语音数据以及对应的口型及表情文本序列，便可以生成整个面部(包含口型与表情的变化)动画过程的技术效果，进而解决了相关技术中所提供的语音解析方式易造成后续合成的语音动画存在较大误差，影响用户体验的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明其中一实施例的面部动画的合成方法的流程图；

图2是根据本发明其中一可选实施例的基于表4的口型动画配置对照示意图；

图3是根据本发明其中一可选实施例的面部动画合成及播放过程的流程图；

图4是根据本发明其中一实施例的面部动画的合成装置的结构框图；

图5是根据本发明其中一可选实施例的面部动画的合成装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明其中一实施例，提供了一种面部动画的合成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

该方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，移动终端可以包括一个或多个处理器(处理器可以包括但不限于图像处理器(GPU)或微处理器(MCU)或可编程逻辑器件(FPGA)等的处理装置)和用于存储数据的存储器，可选地，上述移动终端还可以包括用于通信功能的传输装置以及输入输出设备。本领域普通技术人员可以理解，上述结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比上述结构更多或者更少的组件，或者具有与上述结构不同的配置。

存储器可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明其中一实施例中的面部动画的合成方法对应的计算机程序，处理器通过运行存储在存储器内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的面部动画的合成方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在上述移动终端的运行环境下，本发明针对虚拟角色对话、语音消息可视化、视频后期制作等场景，提供了一套基于音频的面部动画生成***，生成的动画可以低开销地运行在多种平台。该面部动画生成***主要具有以下优点：

1)精准的音素序列识别：通过结合连接时态分类-递归神经网络(Connectionisttemporal classification-Recurrent Neural Networks，简称为CTC-RNN)和深度神经网络-隐马尔科夫模型(Deep Neural Networks-Hidden Markov Model，简称为DNN-HMM)模型的优点，实现对语音进行精准音素序列识别且输出相应的音素时间戳文件；

2)只需输入语音数据以及对应的文本，就可以生成整个面部动画过程，包含口型和表情的变化。

在本实施例中提供了一种运行于上述移动终端的面部动画的合成方法。图1是根据本发明其中一实施例的面部动画的合成方法的流程图，如图1所示，该方法包括如下步骤：

步骤S12，对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，音素时间戳文件包括：由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素；

步骤S14，获取与音素时间戳文件对应的口型序列以及与表情时间戳文件对应的表情序列，其中，口型序列用于描述音素时间戳文件中的每个音素对应的口型信息，表情序列用于描述表情时间戳文件对应的表情信息；

步骤S16，将口型序列和表情序列合成为面部动画。

通过上述步骤，可以实现采用对音频文件进行语音解析以得到音素时间戳文件和表情时间戳文件，该音素时间戳文件包括由音频文件转换得到的每个文字对应的至少一个音素中每个音素的时间戳和持续时长的方式，通过获取与音素时间戳文件对应的口型序列和与表情时间戳文件对应的表情序列，以及将口型序列和表情序列合成为面部动画，达到了通过预先建立的面部表情基和口型基以及分析语音得到语音中不同时刻的表情信息和口型信息，进而利用音素时间戳文件合成语音动画的目的，从而实现了对语音进行精准音素序列识别，而且只需输入语音数据以及对应的口型及表情文本序列，便可以生成整个面部(包含口型与表情的变化)动画过程的技术效果，进而解决了相关技术中所提供的语音解析方式易造成后续合成的语音动画存在较大误差，影响用户体验的技术问题。

在将口型序列和表情序列合成为面部动画之后，便可以将面部动画与音频文件进行同步播放。

可选地，在步骤S12中，对音频文件进行语音解析，得到音素时间戳文件可以包括以下执行步骤：

步骤S121，将音频文件转换为文本序列；

步骤S122，根据文本序列中每个文字的中文拼音将文本序列转换为音素序列，其中，每个文字对应至少一个音素；

步骤S123，对音素序列进行时序建模，得到音素时间戳文件。

在一个可选实施方式中，可以采用连接时态分类-递归神经网络模型将音频文件转换为文本序列，以及采用隐马尔科夫模型对音素序列进行时序建模，得到音素时间戳文件。

对于语音解析而言，本发明其中一可选实施例主要解决相关技术中所提供的中文语音解析方式无法获取每个文字的准确发音时间戳及其持续时长。为此，需要实现的目的在于语音识别与文本音素的时间对齐。

为了使得该可选实施例中所涉及的模型更具通用性，需要接受多变的输入，例如，不同的性别、年龄及情感。在训练数据驱动模型时，输入数据往往是语音和对应角色的面部动画数据，输出则是用于重构面部动画的参数。例如，使用悲伤老人的音频数据训练出来的模型只能针对悲伤老人的面部表情。为了解耦输入和输出之间的关系，需要通过一个中间表达层来解决输入与输出之间的多样性问题。为此，在本发明的一个可选实施例中，中间层采用了音素。音素是语音识别中的最小单位，依据音节的发音动作来分析，一个动作构成一个音素。因此，无论什么样的人发音，都能够从音频中提取到相应的音素信息。与相关技术中所提供的语音识别方式的最大差异在于：该可选实施例得到的是音素而并非文字。另外，由于需要生产时序上的动画序列，因此，音素的时间节点获取也至关重要。

相关技术中所提供的语音识别方式往往采用GMM-HMM来进行建模和训练，其中，HMM很好地解决音素动态时序上的问题，能够将每个音素划分为若干个状态，分别用来表示开始，中间和结束等。GMM则是对每个状态进行建模，这里假设每个状态的概率分布都满足GMM，然后，使用训练样本学习GMM的参数。近些年来，随着深度神经网络的崛起，对每个状态的建模便由GMM变成了DNN模型，而与HMM相关的部分则保持不变。总体上，语音识别的模型框架慢慢地转变为上下文相关的深度神经网络-隐马尔科夫模型(CD-DNN-HMM)。随着神经网络优化技术的飞速发展和图形处理器(GPU)计算能力的不断提升，最新的语音识别技术可通过RNN和CTC进行建模并实现端到端(end-to-end)语音识别的声学模型。CTC直接将语音和相应的文字对应起来，实现时序问题的分类，从而摒弃了HMM结构。由于神经网络强大的建模能力，端到端的输出标签不需要像传统框架一样进行细分。例如：对中文语音识别，框架的输出并没有细分为状态、音素或者声韵母，而是直接将中文作为输出。

在本发明的一个可选实施例中，需要实现精准地获取音素序列及其对应的时间。HMM对时间有很好的建模能力。但是，无论是GMM-HMM还是DNN-HMM，由于建模能力有限，导致模型的识别精度难以突破瓶颈。相对而言，CTC-RNN模型有较高的识别精度，但是，由于该模型是端到端的建模过程，并不包含精确的音素时间信息，因此，两者都难以满足本发明的需求。基于此，该可选实施例采用了两者相结合的模型。首先，使用CTC-RNN模型获得精准的文本序列，所谓的文本序列，是指将一段输入音频转换成一系列文字(例如：“你好”)。其次，根据每个文字的中文拼音，将文字分别转换成一个或多个音素(例如：n，i，h，ao)，基于此，文本序列可转换成音素序列。然后，利用HMM模型进行时序建模，该HMM模型主要解决的问题在于：(1)似然估计，HMM生成一串音素序列的概率；(2)解码，给定一串音素序列，寻找最可能从属的HMM状态序列，这一过程主要采用Viterbi算法。基于上述方式，在保证高识别精度的同时，可以获得精准的音素时间信息(例如：发音时间点、发音时长)。

可选地，步骤S14，获取与表情时间戳文件对应的表情序列可以包括以下执行步骤：

步骤S141，提取音频文件在预设时间窗内的声谱图；

步骤S142，根据声谱图推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到表情序列。

在一个可选实施方式中，可以将声谱图设置为输入项，通过卷积神经网络推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到表情序列。

关于语音识别中的音素信息提取，主要是针对高频信息的处理。所谓高频信息，是指语音信号中变化剧烈的区域。高频信息可以很好地表达口型动画，相比之下，人脸的面部信息则主要与人的情感相关。因此，在本发明的一个可选实施例中，进一步在音频中提取低频信息，以表现人脸的情感状态。

语音情感识别是一个非常复杂的过程。情感信息包含在音频文件的形状和轮廓信息内，因此，该可选实施例采用深度卷积神经网络(CNN)结构对不同情感类别进行建模，主要包括正常情感(即无面部表情)以及喜怒哀乐四种情感。

在该可选实施例中，对情感的处理流程包括：首先，采用一个固定的时间窗，对输入的一维音频信号进行滑动处理，提取音频文件在指定时间窗内的声谱图；然后，将声谱图作为输入，并基于CNN的多层信息处理机制，逐步推理出该时间窗内的情感状态并进行输出(正常，喜，怒，哀，乐)；最后，根据输出的情感类别，对人脸表情进行相应地控制与切换。

另外，上述正常，喜，怒，哀，乐的表情动画通常由美术制作人员预先设计完成，通过上述声谱图能够将不同时刻的表情动画与表情时间戳文件中的每个表情的时间戳相关联以得到表情序列，进而伴随着音频文件的播放显示对应时刻的表情动画。

可选地，在步骤S14中，获取与音素时间戳文件对应的口型序列可以包括以下执行步骤：

步骤S143，根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型，其中，所述预设对应关系用于记录不同音素与口型类型之间的映射关系，每种口型类型分别对应不同的口型动画；

步骤S144，将每个音素的时间戳与对应的口型类型进行，得到所述口型序列。

通过上述语音识别与对齐、语音情感识别，在本发明的一个可选实施例中，可以在输入音频的基础上分别获取情感信息和音素序列。在此基础上，进一步合成面部动画。例如：输入的音频文件(16k wav文件)内容为：“此人姓姜名尚，因感悟人间祸乱，向天请命，得神力，诛众妖，助文王武王开启人间盛世，并培育一代明主周穆王。”表3是通过语音识别获取到的音素序列表，如表3所示：

表3

音频(wav)文件标记	音素开始时间	音素结束时间	音素(拼音声母韵母)
				A00000	0.000	0.030	sil
A00000	0.030	0.040	c
				A00000	0.130	0.040	i
A00000	0.170	0.120	r
				A00000	0.250	0.120	en
A00000	0.370	0.100	x
				A00000	0.490	0.100	ing
A00000	0.590	0.130	j
				A00000	0.670	0.130	iang
A00000	0.800	0.080	m
				A00000	0.850	0.080	ing
A00000	0.930	0.220	sh
				A00000	1.120	0.220	ang
A00000	1.340	0.650	sil
				A00000	1.990	0.070	y
A00000	2.040	0.070	in
				A00000	2.110	0.090	g
A00000	2.180	0.090	an

……

A00000	11.730	0.090	zh
				A00000	11.820	0.090	ou
A00000	11.910	0.140	m
				A00000	12.000	0.140	u
A00000	12.140	0.180	w
				A00000	12.220	0.180	ang
A00000	12.400	0.030	sil

其中，sil是一个空音符，表示没有声音。

根据上述音素序列表可以看出，单个音素的时间最短为0.03秒，近似为手游的一帧时间，因此，每个音素对应一个口型动画文件。另外，对每个音素进行声母和韵母识别，并制定声母、韵母的口型映射表，加上待机口型，共设计出如下11种基础口型。

表4是声母的口型映射表，图2是根据本发明其中一可选实施例的基于表4的口型动画配置对照示意图，如表4和图2所示：

表4

表5是韵母的口型映射表，如表5所示：

表5

表6是特殊音素的口型映射表，如表6所示：

表6

音素	音素类别	映射口型类型	口型动画配置
				sil	无	0(待机初始)	口型动画11

根据音素与口型类型之间的映射关系，在每个时间戳上，获取音素对应的口型类型，进而确定配置的口型动画，然后再将音素与口型类型进行绑定，进而生成对应的口型数组(相当于上述口型序列)：

[[0.000,"0"],[0.030,"E"],[0.130,"E"],[0.170,"J"],[0.250,"H"],[0.370,"E"],[0.490,"E"],[0.590,"J"],[0.670,"A"],[0.800,"B"],[0.850,"E"],[0.930,"U"],[1.120,"A"],[1.340,"0"],[1.990,"E"],[2.040,"E"],[2.110,"H"],[2.180,"a"],[2.270,"U"],[2.370,"U"],[2.420,"J"],[2.530,"H"],[2.600,"J"],[2.660,"a"],[2.700,"H"],[2.880,"O"],[2.980,"H"],[3.090,"a"],[3.160,"0"],[3.750,"E"],[3.800,"A"],[3.890,"E"],[3.960,"a"],[4.040,"J"],[4.170,"E"],[4.320,"B"],[4.350,"E"],[4.510,"0"],[5.010,"E"],[5.090,"H"],[5.190,"U"],[5.350,"H"],[5.450,"H"],[5.600,"E"],[5.850,"0"],[6.020,"U"],[6.120,"U"],[6.230,"U"],[6.310,"O"],[6.480,"E"],[6.550,"A"],[6.770,"0"],[7.370,"U"],[7.470,"U"],[7.610,"U"],[7.660,"H"],[7.720,"U"],[7.770,"A"],[7.840,"U"],[8.020,"U"],[8.140,"U"],[8.170,"A"],[8.390,"H"],[8.600,"A"],[8.670,"J"],[8.830,"E"],[8.940,"J"],[9.000,"H"],[9.080,"J"],[9.170,"a"],[9.240,"U"],[9.400,"H"],[9.450,"U"],[9.640,"E"],[9.810,"0"],[10.170,"B"],[10.360,"E"],[10.450,"B"],[10.550,"a"],[10.630,"E"],[10.680,"U"],[10.710,"E"],[10.800,"E"],[10.880,"E"],[10.930,"A"],[11.040,"B"],[11.120,"E"],[11.290,"U"],[11.380,"U"],[11.650,"0"],[11.730,"U"],[11.820,"O"],[11.910,"B"],[12.000,"U"],[12.140,"U"],[12.220,"A"],[12.400,"0"]]。

可选地，在步骤S16中，将口型序列和表情序列合成为面部动画，并将面部动画与音频文件进行同步播放可以包括以下执行步骤：

步骤S161，每间隔预设时长触发判断是否合成口型序列中的口型动画与表情序列中的表情动画；

步骤S162，如果是，则先将当前口型动画与上一个口型动画进行融合，得到待播放的口型动画，再将触发时刻对应的表情动画与待播放的口型动画进行合成，得到触发时刻的面部动画；

步骤S163，若未达到音频文件的播放结束时刻，则播放触发时刻的面部动画，并返回步骤S161，直至达到播放结束时刻。

针对移动游戏平台，为使得游戏既能够保持流畅性，又能够减少耗电，通常锁定在30帧率。由于每一帧的时间是1秒/30＝1.0/30.0秒，因此，需要确保播放口型的频率和移动端的帧率保持一致。对于大于30帧的口型播放频率在锁定30帧的移动游戏平台上缺乏实际意义。

在音频文件开始播放之后，每间隔0.03秒触发，判断该时间点是否需要将相应的口型动画与表情动画合成为面部动画并播放。如果是，则在音频文件的播放时间范围内分别遍历离线生成的口型序列和表情序列以获取触发时刻对应的口型动画与表情动画，然后再将触发时刻得到的口型动画与表情动画合成为面部动画。

图3是根据本发明其中一可选实施例的面部动画合成及播放过程的流程图，如图3所示，该流程可以包括以下处理步骤：

步骤S302，开始播放音频文件；

步骤S304，开启已成功注册的定时器，其间隔设定为1.0/30.0秒；每间隔0.03秒触发，确定该时间点是否需要合成并播放相应的面部动画；

步骤S306，如果确定需要合成并播放相应的面部动画，遍历离线生成的口型序列和表情序列以获取触发时刻对应的口型动画与表情动画，然后再将触发时刻得到的口型动画与表情动画合成为面部动画，其中，触发时刻对应的口型动画需要对当前口型动画与上一个口型动画进行融合处理；

步骤S308，判断是否到达音频文件的结束播放时刻；如果是，则继续执行步骤S310；如果否，则在音频文件播放的时间范围内，持续同步播放面部动画，然后转到步骤S304；

步骤S310，如果到达音频文件的结束播放时刻，则完成播放面部动画。

通过本发明提供的上述实施例，可以得到如下性能分析数据：

(1)离线生成口型的计算性能：以2.6GHz Intel Core i5的Mac Mini配置为例，处理一个10秒的wav文件时，将语音转换成音素时间戳的平均耗时为6s。另外，将音素时间戳转换成口型数组的时间耗费可以忽略不计。

(2)运行过程的计算性能：可以在30帧及以上的环境中稳定运行。由于口型数组可以离线生成，因此实际的运行性能开销很小。若帧率低于30帧，由于单个音素的持续时间较短，因此可能会存在口型中间跳跃的情况，但总体影响较小。

(3)运行内存分析：对于10秒的wav文件，其对应的口型数组保存为txt文本文件，大小为900b。制作的11种口型骨骼动画，单个口型只有10帧左右，单个口型动作gis文件的存储大小为25kb，全部口型骨骼动画的存储大小为275kb，可以运行时按需加载。

真实自然的人脸面部动画制作是一项非常耗费时间和精力的工作，逼真的面部动画可以显著提高用户的信息接收和交互友好性，在游戏、语音可视化、视频后处理等业务中都有着重要的意义。本发明至少部分实施例通过开发语音识别算法和语音情感识别算法，实现对音频中的音素序列和情感信息进行提取。同时，还会将面部动画分解为少量的正交表情基和口型基，根据识别的音素和标注的情感结果，利用有效的融合算法生成出真实自然的人脸面部动画。经大量试验表明，生成的该人脸面部动画精准丰富、运行开销低，同时极大地降低了美术人员的制作成本。

由此可见，本发明所提供的至少部分实施例在面部动画合成方面，首先通过语音识别获取每个文字的音素的时间戳及其持续时长，然后驱动拼音语义的口型动作。以中文识别为例(也适用于其它语言)，支持基础动作、表情、口型动画的叠加融合。同时，还可以进行离线预处理，以使整个***在运行过程中，对CPU占用和内存开销较小，非常适合于手游平台。

在本发明其中一实施例中还提供了一种面部动画的合成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明其中一实施例的面部动画的合成装置的结构框图，如图4所示，该装置包括：解析模块10，用于对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，音素时间戳文件包括：由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素；获取模块20，用于获取与音素时间戳文件对应的口型序列以及获取与表情时间戳文件对应的表情序列，其中，口型序列用于描述音素时间戳文件中的每个音素对应的口型信息，表情序列用于描述表情时间戳文件对应的表情信息；合成模块30，用于将口型序列和表情序列合成为面部动画。

可选地，图5是根据本发明其中一可选实施例的面部动画的合成装置的结构框图，如图5所示，该装置包括：上述装置还包括：播放模块40，用于将面部动画与音频文件进行同步播放。

可选地，解析模块10包括：第一转换单元(图中未示出)，用于将音频文件转换为文本序列；第二转换单元(图中未示出)，用于根据文本序列中每个文字的中文拼音将文本序列转换为音素序列，其中，每个文字对应至少一个音素；第一处理单元(图中未示出)，用于对音素序列进行时序建模，得到音素时间戳文件。

可选地，第一转换单元(图中未示出)，用于采用连接时态分类-递归神经网络模型将音频文件转换为文本序列。

可选地，第一处理单元(图中未示出)，用于采用隐马尔科夫模型对音素序列进行时序建模，得到音素时间戳文件。

可选地，获取模块20包括：提取单元(图中未示出)，用于提取音频文件在预设时间窗内的声谱图；第一获取单元(图中未示出)，用于根据声谱图推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到表情序列。

可选地，第一获取单元(图中未示出)，用于将声谱图设置为输入项，通过卷积神经网络推导出表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到表情序列。

可选地，获取模块20包括：确定单元(图中未示出)，用于根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型，其中，所述预设对应关系用于记录不同音素与口型类型之间的映射关系，每种口型类型分别对应不同的口型动画；第二获取单元(图中未示出)，用于将每个音素的时间戳与对应的口型类型进行绑定，得到所述口型序列。

可选地，合成模块30包括：判断单元(图中未示出)，用于每间隔预设时长触发判断是否合成口型序列中的口型动画与表情序列中的表情动画；第一处理单元(图中未示出)，用于在判断单元输出为是时，则先将当前口型动画与上一个口型动画进行融合，得到待播放的口型动画，再将触发时刻对应的表情动画与待播放的口型动画进行合成，得到触发时刻的面部动画；播放单元(图中未示出)，用于若未达到音频文件的播放结束时刻，则播放触发时刻的面部动画，并返回判断步骤，直至达到播放结束时刻。

本发明其中一实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，音素时间戳文件包括：由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素；

S2，获取与音素时间戳文件对应的口型序列，其中，口型序列用于描述音素时间戳文件中的每个音素对应的口型信息；

S3，获取与表情时间戳文件对应的表情序列，其中，表情序列用于描述表情时间戳文件对应的表情信息；

S4，将口型序列和表情序列合成为面部动画，并将面部动画与音频文件进行同步播放。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明其中一实施例还提供了一种处理器，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面部动画的合成方法，其特征在于，包括：

对音频文件进行语音解析，得到表情时间戳文件；

将所述音频文件转换为文本序列；根据所述文本序列中每个文字的中文拼音将所述文本序列转换为音素序列；对所述音素序列进行时序建模，得到音素时间戳文件，其中，所述音素时间戳文件包括：由所述音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素，所述至少一个音素的类型包括韵母拼音或者所述至少一个音素的类型包括声母拼音和韵母拼音；

获取与所述音素时间戳文件对应的口型序列，其中，所述口型序列用于描述所述音素时间戳文件中的每个音素对应的口型信息；

获取与所述表情时间戳文件对应的表情序列，其中，所述表情序列用于描述所述表情时间戳文件对应的表情信息；

将所述口型序列和所述表情序列合成为面部动画，并将所述面部动画与所述音频文件进行同步播放；

将所述口型序列和所述表情序列合成为所述面部动画，并将所述面部动画与所述音频文件进行同步播放包括：每间隔预设时长触发判断是否合成所述口型序列中的口型动画与所述表情序列中的表情动画，其中，所述预设时长由游戏帧率确定；如果是，则先将当前口型动画与上一个口型动画进行融合，得到待播放的口型动画，再将触发时刻对应的表情动画与所述待播放的口型动画进行合成，得到所述触发时刻的面部动画；若未达到所述音频文件的播放结束时刻，则播放所述触发时刻的面部动画。

2.根据权利要求1所述的方法，其特征在于，将所述音频文件转换为所述文本序列包括：

采用连接时态分类-递归神经网络模型将所述音频文件转换为所述文本序列。

3.根据权利要求1所述的方法，其特征在于，对所述音素序列进行时序建模，得到所述音素时间戳文件包括：

采用隐马尔科夫模型对所述音素序列进行时序建模，得到所述音素时间戳文件。

4.根据权利要求1所述的方法，其特征在于，获取与所述表情时间戳文件对应的表情序列包括：

提取所述音频文件在预设时间窗内的声谱图；

根据所述声谱图推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到所述表情序列。

5.根据权利要求4所述的方法，其特征在于，根据所述声谱图推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到所述表情序列包括：

将所述声谱图设置为输入项，通过卷积神经网络推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到所述表情序列。

6.根据权利要求1所述的方法，其特征在于，获取与所述音素时间戳文件对应的口型序列包括：

根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型，其中，所述预设对应关系用于记录不同音素与口型类型之间的映射关系，每种口型类型分别对应不同的口型动画；

将每个音素的时间戳与对应的口型类型进行绑定，得到所述口型序列。

7.根据权利要求1所述的方法，其特征在于，将所述口型序列和所述表情序列合成为所述面部动画，并将所述面部动画与所述音频文件进行同步播放还包括：

播放所述触发时刻的面部动画之后返回每间隔预设时长触发判断是否合成所述口型序列中的口型动画与所述表情序列中的表情动画的步骤，直至达到所述播放结束时刻。

8.一种面部动画的合成装置，其特征在于，包括：

解析模块，用于对音频文件进行语音解析，得到表情时间戳文件；

所述解析模块包括：第一转换单元，用于将所述音频文件转换为文本序列；第二转换单元，用于根据所述文本序列中每个文字的中文拼音将所述文本序列转换为音素序列，其中，每个文字对应至少一个音素；第一处理单元，用于对所述音素序列进行时序建模，得到音素时间戳文件，其中，所述音素时间戳文件包括：由所述音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素，所述至少一个音素的类型包括韵母拼音或者所述至少一个音素的类型包括声母拼音和韵母拼音；

获取模块，用于获取与所述音素时间戳文件对应的口型序列以及获取与所述表情时间戳文件对应的表情序列，其中，所述口型序列用于描述所述音素时间戳文件中的每个音素对应的口型信息，所述表情序列用于描述所述表情时间戳文件对应的表情信息；

合成模块，用于将所述口型序列和所述表情序列合成为面部动画，并将所述面部动画与所述音频文件进行同步播放；

所述合成模块包括：判断单元，用于每间隔预设时长触发判断是否合成所述口型序列中的口型动画与所述表情序列中的表情动画，其中，所述预设时长由游戏帧率确定；第一处理单元，用于在所述判断单元输出为是时，则先将当前口型动画与上一个口型动画进行融合，得到待播放的口型动画，再将触发时刻对应的表情动画与所述待播放的口型动画进行合成，得到所述触发时刻的面部动画；播放单元，用于若未达到所述音频文件的播放结束时刻，则播放所述触发时刻的面部动画。

9.根据权利要求8所述的装置，其特征在于，所述第一转换单元，用于采用连接时态分类-递归神经网络模型将所述音频文件转换为所述文本序列。

10.根据权利要求8所述的装置，其特征在于，所述第一处理单元，用于采用隐马尔科夫模型对所述音素序列进行时序建模，得到所述音素时间戳文件。

11.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

提取单元，用于提取所述音频文件在预设时间窗内的声谱图；

第一获取单元，用于根据所述声谱图推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到所述表情序列。

12.根据权利要求11所述的装置，其特征在于，所述第一获取单元，用于将所述声谱图设置为输入项，通过卷积神经网络推导出所述表情时间戳文件中的每个音素对应的表情动画以及每个表情对应的情感类别，得到所述表情序列。

13.根据权利要求8所述的装置，其特征在于，所述获取模块包括：

确定单元，用于根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型，其中，所述预设对应关系用于记录不同音素与口型类型之间的映射关系，每种口型类型分别对应不同的口型动画；

第二获取单元，用于将每个音素的时间戳与对应的口型类型进行绑定，得到所述口型序列。

14.根据权利要求8所述的装置，其特征在于，所述播放单元还用于：

播放所述触发时刻的面部动画之后返回所述判断单元，直至达到所述播放结束时刻。

15.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的面部动画的合成方法。

16.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的面部动画的合成方法。

17.一种终端，其特征在于，包括：一个或多个处理器，存储器，显示装置以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序用于执行权利要求1至7中任意一项所述的面部动画的合成方法。