CN113609255A

CN113609255A - 一种面部动画的生成方法、***及存储介质

Info

Publication number: CN113609255A
Application number: CN202110891111.6A
Authority: CN
Inventors: 顾文元; 张雪源
Original assignee: Yuanmeng Human Intelligence International Co ltd
Current assignee: Shanghai Yuanmeng Intelligent Technology Co.,Ltd.; Yuanmeng humanistic Intelligence International Co., Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-11-05

Abstract

本发明公开了一种面部动画的生成方法、***及存储介质，其方法包括步骤：接收音频信息与文本信息；根据所述音频信息生成若干个口型；计算所述音频信息的口型变化速率；根据所述口型变化速率与若干个所述口型生成口型动画；获取所述文本信息的全局表情以及所述文本信息中各部分的若干个预设表情的权重；根据所述全局表情和所述文本信息各部分中若干个预设表情的权重生成表情动画；根据所述口型动画与所述表情动画生成面部动画。本发明引入口型变化速率作为参考量，生成不同的口型动画，不同的口型动画与不同表情结合生成面部动画，以及参考歌曲中每句歌词对于情绪表情的影响，使虚拟人在唱歌时面部动画更加丰富自然。

Description

一种面部动画的生成方法、***及存储介质

技术领域

本发明专利涉及动画技术领域，尤其指一种面部动画的生成方法、***及存储介质。

背景技术

随着虚拟人(数字人)技术的普及，虚拟人在各个领域被广泛应用，主要分为两种类型：以讲话为主的虚拟主播和以唱跳为主的虚拟歌姬。在虚拟人研究领域，面部动画合成一直是研究重点，目前主要有两种方法：传统的面捕方法以及利用机器学习或者深度学习算法合成的方法。

传统的面捕方法，即通过面捕软件，捕捉演员表演的面部动作，经过动画师后期精修完成。这种方法最终呈现的效果比较好，但是有两点不足之处：一是效率低下，需要大量动画师手工调整，制作时间和价格成本高昂；二是严重依赖于动捕演员的表演，每首歌都要请动捕演员单独录制，并且受制于面捕演员的表演水平，质量难以保证。

利用机器学习或者深度学习算法合成的方法。口型生成通过口型对齐获取音素的时间信息，再利用口型融合的方法自动生成面部动画。表情生成主要通过Blendshape控制眼部及嘴唇的变化，并对表情进行融合处理，从而生成面部表情。这种方法虽然效率高，但是难以兼顾口型和表情的表现细节及多元要素的影响，合成的动画机械感比较重。

目前，两种方法已应用于虚拟主播讲话场景，但是以虚拟歌姬为代表的虚拟人唱歌还主要以传统面捕方法为主，没有专门针对唱歌时口型和表情自动合成的算法。而唱歌和讲话的口型合成有很大不同，无法将说话口型与表情的算法直接移植到唱歌上，其中不同之处主要包括：

唱歌的语速范围很广，例如，说唱歌曲语速远远快于讲话，但是抒情歌曲远远慢于讲话。针对极快和极慢的语速，以讲话为目的设计的算法并不适用。

唱歌的表情和讲话不同，唱歌时有更多深情、眺望等艺术性的表情，有些十分夸张，而讲话时的表情都是较为日常的表达。

因此针对上述唱歌的语速范围很广以及唱歌的表情和讲话不同，需要一种面部动画的生成方法，解决传统口型与表情的算法无法应用的问题，以便于高效地合成高质量的唱歌面部动画，从而满足娱乐市场和动漫市场对虚拟人歌舞表演的大量需求。

发明内容

本发明的目的是提供一种面部动画的生成方法、***及存储介质，解决现有虚拟人面部动画生成算法模型无法直接套用在虚拟人唱歌领域的问题，从而有效地生成口型与表情更逼真生动的虚拟人面部动画。

为实现本发明以上的发明目的，本发明是通过以下技术方案实现的：

本发明提供一种面部动画的生成方法，包括步骤：

接收音频信息与文本信息；

根据所述音频信息生成若干个口型；

计算所述音频信息的口型变化速率；

根据所述口型变化速率与若干个所述口型生成口型动画；

获取所述文本信息的全局表情以及所述文本信息中各部分的若干个预设表情的权重；

根据所述全局表情和所述文本信息各部分中若干个预设表情的权重生成表情动画；

根据所述口型动画与所述表情动画生成面部动画。

本发明引入口型变化速率作为参考量，生成不同的口型动画，不同的口型动画与不同表情结合生成面部动画，可以解决虚拟人唱歌时语速不同对面部表情的影响，以及参考歌曲中每句歌词对于情绪表情的影响，使虚拟人在唱歌时面部动画更加丰富自然。

进一步地，本发明还提供一种面部动画的生成方法，所述的根据所述音频信息生成若干个口型，具体包括：

将所述音频信息各部分均转换成若干个音素；

根据各个所述音素生成对应的第一口型；

分别获取所述音频信息中各部分的若干个完整发音时段；

将各个所述完整发音时段与对应的所述音素进行时间对齐；

识别处于各个所述完整发音时段中间位置的音素对应的所述第一口型为关键口型。

本发明引入两种口型用于不同口型变化速率的情况下生成口型动画，使虚拟人在演唱不同语速的歌曲时均可以生成较为生动自然的面部表情。

进一步地，本发明提供一种面部动画的生成方法，所述的根据所述口型变化速率与若干个所述口型生成口型动画，具体包括：

根据所述口型变化速率与所述音频信息中各部分对应的若干个所述口型生成若干段子口型动画；

将若干段所述子口型动画按序组合生成所述口型动画；

所述根据所述口型变化速率与所述音频信息中各部分对应的若干个所述口型生成若干段子口型动画，具体包括：

当所述口型变化速率小于预设阈值时，根据所述音频信息中各部分对应的若干个所述第一口型生成所述子口型动画；

当所述口型变化速率大于预设阈值时，根据所述音频信息中各部分对应的若干个所述关键口型生成所述子口型动画。

进一步地，本发明一种面部动画的生成方法，所述的获取所述文本信息的全局表情，具体包括：

根据预设的情感分类模型计算所述文本信息中若干个预设情感的权重，以及分别计算所述文本信息各部分中若干个所述预设情感的权重；

根据预设的表情库将若干个所述预设情感转换成对应的所述预设表情；

识别所述文本信息中权重最高的所述预设表情为所述全局表情。

进一步地，本发明提供一种面部动画的生成方法，所述的根据所述全局表情和所述文本信息各部分中若干个预设表情的权重生成表情动画，具体包括：

采用加权平均方法将所述全局表情和若干个所述预设表情组合生成若干个局部表情；

将若干个所述局部表情按序组合生成所述表情动画。

本发明将多种表情做加权平均处理组合生成表情动画，使虚拟人在演唱过程中，歌曲出现情感变化时，虚拟人的面部表情更加多变自然，符合歌曲情感的表现。

进一步地，本发明提供一种面部动画的生成方法，其特征在于，所述的根据所述口型变化速率与所述口型生成口型动画之后，所述的获取所述文本信息的全局表情以及所述文本信息中各部分的若干个预设表情的权重之前，还包括：

采用线性内插的方法对所述口型动画进行线性平滑；

定义高斯型的平滑窗口，公式如下：

其中

k为所述口型变化速率，

为平滑窗口的参数，i为所述音频信息的相对时间刻度，e为常量；

对所述口型动画进行非线性平滑处理，公式如下：

其中l为口型生成的参数，N为所述平滑窗口宽度，N＝3f₃/k，为音频采样频率。

本发明在口型变化过程中采用非线性平滑处理，避免虚拟人在唱歌过程中，存在拖音现象时口型的机械变化，使虚拟人在演唱过程中面部表情更加自然流畅。

进一步地，本发明提供一种面部动画的生成方法，所述根据所述音频信息生成若干个口型之后，所述的根据所述口型变化速率与若干个所述口型生成口型动画之前，还包括：

计算所述音频信息M秒内的第一平均能量，公式如下：

其中为第一平均能量，t为所述音频信息当前时间，t的单位为分钟；

计算调制比例为规整后的第二平均能量，公式如下:

其中为第二平均能量，e为在所述音频信息1～T秒内的平均能量；

根据第二平均能量调试所述口型。

本发明根据音量调制虚拟人唱歌过程中口型的幅度，可以提升口型和歌曲的匹配度，使虚拟人在演唱过程中面部表情与歌曲更加贴近。

另外地，本发明还提供一种面部动画的生成***，包括：

接收模块，用于接收音频信息与文本信息，所述文本信息包括若干个子文本信息；

口型生成模块，与所述接收模块连接，用于根据所述音频信息生成若干个口型；

速率计算模块，与所述接收模块连接，用于根据所述音频信息计算出口型变化速率；

口型动画生成模块，与所述口型生成模块和所述速率计算模块连接，用于根据所述口型变化速率与若干个所述口型生成口型动画；

获取模块，与所述接收模块连接，用于获取所述文本信息的全局表情以及所述文本信息中各部分的若干个预设表情的权重；

表情动画生成模块，根据所述全局表情和所述文本信息各部分中若干个预设表情的权重生成表情动画；

面部动画生成模块，用于根据所述口型动画与所述表情动画生成面部动画。

进一步地，本发明提供一种面部动画的生成***，还包括：

平滑模块，与所述第一动画生成模块连接，用于对所述口型动画进行非线性平滑处理；

幅度调节模块，与所述口型生成模块连接，用于根据所述音频信息的能量调节若干个所述口型的幅度；

所述平滑模块包括线性平滑单元、平滑窗口定义单元和非线性平滑单元，线性平滑单元，用于采用线性内插的方法对所述口型动画进行线性平滑；

平滑窗口定义单元，用于定义高斯型的平滑窗口，公式如下：

其中

k为所述口型变化速率，

非线性平滑单元，用于对所述口型动画进行非线性平滑处理，公式如下：

其中l为口型生成的参数，N为所述平滑窗口宽度，N＝3/k，为音频采样频率。

所述幅度调节模块包括第一平均能量计算单元、第二平均能量计算单元和口型调试单元，

第一平均能量计算单元，用于计算所述音频信息t时刻至t1时刻的第一平均能量，公式如下：

第二平均能量计算单元，用于计算调制比例为规整后的第二平均能量，公式如下:

口型调试单元，用于根据第二平均能量调试所述口型。

另外地，本发明还提供一种存储介质，所述存储介质中存储有至少一条指令，所述指令用于实现如上述的面部动画的生成方法所执行的操作。

本发明提供一种面部动画的生成方法、***及存储介质，至少具有以下增益效果：

1)、本发明引入口型变化速率作为参考量，生成不同的口型动画，不同的口型动画与不同表情结合生成面部动画，可以解决虚拟人唱歌时语速不同对面部表情的影响，以及参考歌曲中每句歌词对于情绪表情的影响，使虚拟人在唱歌时面部动画更加丰富自然；

2)、本发明引入两种口型用于不同口型变化速率的情况下生成口型动画，使虚拟人在演唱不同语速的歌曲时均可以生成较为生动自然的面部表情；

3)、本发明将多种表情做加权平均处理组合生成表情动画，使虚拟人在演唱过程中，歌曲出现情感变化时，虚拟人的面部表情更加多变自然，符合歌曲情感的表现；

4)、本发明在口型变化过程中采用非线性平滑处理，避免虚拟人在唱歌过程中，存在拖音现象时口型的机械变化，使虚拟人在演唱过程中面部表情更加自然流畅；

5)、本发明根据音量调制虚拟人唱歌过程中口型的幅度，可以提升口型和歌曲的匹配度，使虚拟人在演唱过程中面部表情与歌曲更加贴近；

6)、本发明可以只根据获取的目标歌曲及其歌词，自动生成包含口型和表情的面部动画，无需人为干预，可以高效地制作大量虚拟人唱歌动画。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种面部动画的生成方法、***及存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种面部动画的生成方法的流程图；

图2是本发明一种面部动画的生成方法中口型生成方法的流程图；

图3是本发明一种面部动画的生成方法中口型动画生成方法的流程图；

图4是本发明一种面部动画的生成方法中获取全局表情方法的流程图；

图5是本发明一种面部动画的生成方法中表情动画生成方法的流程图；

图6是本发明一种面部动画的生成方法的另一个流程图；

图7是本发明一种面部动画的生成方法的又一个流程图；

图8是本发明一种面部动画的生成***的示意图；

图9是本发明一种面部动画的生成***中口型生成模块的示意图；

图10是本发明一种面部动画的生成***中口型动画生成模块的示意图；

图11是本发明一种面部动画的生成***中获取模块的示意图；

图12是本发明一种面部动画的生成***中表情动画生成模块的示意图；

图13是本发明一种面部动画的生成***中平滑模块的示意图；

图14是本发明一种面部动画的生成***中幅度调节模块的示意图；

图中标号：10-接收模块、20-口型生成模块、30-速率计算模块、40-口型动画生成模块、50-获取模块、60-表情动画生成模块、70-面部动画生成模块、80-平滑模块、90-幅度调节模块、21-音素转换单元、22-第一口型生成单元、23-完整发音时段获取单元、24-时间对齐单元、25-关键口型识别单元25、41-判断单元、42-子口型动画生成单元、43-口型动画组合单元、51-情感分类模型建立单元、52-表情库建立单元、53-权重计算单元、54-表情转换单元、55-全局表情识别单元、61-局部表情生成单元、62-表情动画组成单元、81-线性平滑单元、82-平滑窗口定义单元、83-非线性平滑单元、91-第一平均能量计算单元、92-第二平均能量计算单元、93-口型调试单元。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1

本发明的一个实施例，如图1所示，本发明提供一种面部动画的生成方法，包括步骤：

S100接收音频信息与文本信息。

具体地，音频信息包括唱歌声频、朗诵声频等，主要是指虚拟人唱歌过程中的需要生成表情的唱歌声频；文本信息包括歌词、朗诵文稿等，主要是指虚拟人唱歌过程中的需要生成表情的歌词。

S200根据音频信息生成若干个口型。

具体地，生成口型的方法包括传统的面捕方法、利用机器学习等深度学习算法合成的方法以及将音频转化为音素并生成口型的方法等等。

S300计算音频信息的口型变化速率。

具体地，口型变化速率是指口型随时间变化的快慢，参考讲话时语速估计，定义为平均一秒钟的歌词字数。通常快歌口型变化快，慢歌变化慢。该速率有助于从全局设定口型变化的速度以及控制口型的到位程度。

S400根据口型变化速率与若干个口型生成口型动画。

具体地，根据口型变化速率从全局设定口型变化的速度以及控制口型的到位程度。当口型变化速率较大时，各个口型间切换速度较快，各个口型的切换存在一定程度的抖动；当口型速率较小时，切换速度较慢，过度平稳，抖动较少。

S500获取文本信息的全局表情以及文本信息中各部分的若干个预设表情的权重。

具体地，本发明中表情生成主要包含两个部分，全局表情和局部表情。整首歌曲的平均情感类型决定了整首歌的全局表情，同时，每一句歌词的情绪都会影响局部表情的变化。

S600根据全局表情和文本信息各部分中若干个预设表情的权重生成表情动画。

具体地，本发明采用全局基础表情和局部变化表情相结合的方式，全局表情采用赢者通吃策略，局部表情采用加权平均策略，两者结合后产生整体既具有明确情绪风格，又富于多变情绪表现的面部表情。

S700根据口型动画与表情动画生成面部动画。

具体地，最终面部动画通过融合口型动画和表情动画而实现，表情动画由歌词语句的分辨率转换到与口型动画一致的时间分辨率q_t，融合后的动画为：

f_t＝l_t+q_t，

其中f_t代表生成的面部动画的模型参数，l_t代表生成的口型动画的模型参数，q_t代表生成的表情动画的模型参数。

具体地，本实施例中生成口型动画与生成表情动画的步骤先后顺序并没有完全限定，在实际面部表情生成过程中可以先生成口型动画再生成表情动画，也可以先生成表情动画再生成口型动画，口型动画和表情动画的生成顺序对具体生成步骤并无影响。

具体地，本实施例中根据音频信息生成若干个口型与计算音频信息的口型变化速率连个步骤的先后顺序并没有限定，在实际面部表情生成过程中可以先根据音频信息生成若干个口型后计算音频信息的口型变化速率，也可以先计算音频信息的口型变化速率后根据音频信息生成若干个口型，计算口型变化速率与根据音频信息生成口型的顺序对具体生成步骤并无影响。

本实施例提出了一种虚拟人唱歌面部动画合成的方法，填补了针对虚拟人唱歌的面部合成完整算法的空白。本实施例提出的方法法针对面部最重要的两个元素，即口型和表情，分别进行了合成并将其进行融合，从而生成丰富的、具有真实感和富于变化的面部动画。本实施例聚焦于虚拟人唱歌的应用场景，提出了完整的解决方案。本实施例中考虑虚拟人在唱歌时语速范围广的情况下，不同语速对于面部表情动画的影响，根据唱歌过程中不同的语速产生面部表情的变化，以及每句歌词对于面部表情的影响综合生成虚拟人在唱歌过程中的面部动画，使虚拟人在唱歌时面部表情更加丰富自然。

实施例2

基于实施例1中的面部动画的生成方法，如图2所示，其中根据文本信息生成若干个口型，具体包括：

S210将音频信息各部分均转换成若干个音素。

具体地，本实施例中将拼音拆分为最小单元，并构建了一个音素库。如表1所示：

声母	b，p，m，f，d，t，n，l，g，k，h，j，q，x，zh，ch，sh，r，z，c，s，y，w
		单韵母	a，o，e，i，u，ü，er
韵尾	nn，ng

表1

该音素库包含所有声母、单韵母和韵尾，其中，n和nn分别代表声母和韵尾的拼音n，每个音素对应一种口型。

S220根据各个音素生成对应的第一口型。

具体地，第一口型是指识别出该音素信息对应的口型，将每首歌曲拆解为按每句歌词划分的各个部分，每句歌词拆分成多个音素，每个音素对应一个口型。

S230分别获取音频信息中各部分的若干个完整发音时段。

具体地，获取每句歌词中每个完整发音的字或者单词，作为一个完整发音时段。

S240将各个完整发音时段与对应的音素进行时间对齐。

具体地，将每个完整发音的字或单词与该字或单词对应的多个音素按时间匹配对应，即在歌曲演唱过程中通过获取单个字演唱需要的时间，匹配得到演唱过程中这个字包含的多个音素，表现这些音素对应的口型所需经过的时间，对齐方法包括传统的基于HMM中Viterbi解码的对齐，以及基于TDNN神经网络的对齐。

S250识别处于各个完整发音时段中间位置的音素对应的第一口型为关键口型。

具体地，第二口型是指在发音过程中的关键口型，也就是发音时最显著的口型，通常处于一个音素完整发音时长的中间位置，受上下文音素影响相对较小。

实施例3

基于实施例2中的面部动画的生成方法，如图3所示，其中根据口型变化速率与若干个口型生成口型动画，具体包括：

S410根据口型变化速率与音频信息中各部分对应的若干个口型生成若干段子口型动画。

S420将若干段子口型动画按序组合生成口型动画。

其中，S410根据口型变化速率与对应的若干个口型生成子口型动画具体包括：

判断口型变化速率与预设阈值的大小关系。

具体地，根据口型变化速率从全局设定口型变化的速度以及控制口型的到位程度。当口型速率大于预设阈值时，并且各个口型间切换速度较快，允许一定程度的抖动；当口型速率小于预设阈值时，切换速度较慢，过度平稳，抖动较少。

其中切换速度是指每秒呈现的表情的数量，该阈值与切换速度由人为设定。例如，预设阈值为2、切换速度为2时，若口型变化速率大于2，则以每秒呈现两种表情的速度切换表情。

当口型变化速率小于预设阈值时，根据音频信息各部分对应的若干个第一口型生成所述子口型动画。

具体地，口型变化速率小时，所有音素对应的口型都会一定程度显示出来，并且切换较慢，过度平稳，抖动较少。也就是说在唱慢歌时，口型之间切换速率慢，每一个口型都会饱满的表现出来。

当口型变化速率大于预设阈值时，根据音频信息各部分对应的若干个关键口型生成子口型动画。

具体地，口型变化速率大时，在口型切换过程中只做出关键口型，并且关键口型间切换很快，允许一定程度的抖动。也就是说在唱快歌时，口型之间切换速率快，口型变化过程中只表现关键口型，并且口型的饱满度会相应调低。

本实施例引入两种口型用于不同口型变化速率的情况下生成口型动画，使虚拟人在演唱不同语速的歌曲时均可以生成较为生动自然的面部表情。

实施例4

基于实施例1～实施例3中任意一个实施例的面部动画的生成方法，如图4所示，其中获取文本信息的全局表情，具体包括：

S510预先建立情感分类模型，以及各个情感对应的表情的表情库。

具体地，情感分类模型采用在短文本语义分类上表现优异的Text CNN，训练所需的情感数据包含73首中文歌曲，对每一首歌的整体情绪和每一句歌词的情绪都进行了手工标注。对Text CNN训练使用十折交叉方法进行验证，获得了88.32％的单句识别精确率。

本实施例中还定义歌曲的四种情感为欢快(joyful)、忧伤(depressed)、批判(critical)和深情(affectionate)，动画师为每一种情感制作静态的表情，分别记为q^j、q^d、q^c、q^a，欢快(joyful)、忧伤(depressed)、批判(critical)和深情(affectionate)对应的四种表情q^j、q^d、q^c、q^a组成表情库。

S520根据预设的情感分类模型计算文本信息中若干个预设情感的权重，以及分别计算文本信息中各部分的若干个预设情感的权重。

具体地，根据情感分类模型计算整首歌的歌词整体表达的欢快、忧伤、批判、深情四种预设情感的权重，并同时计算每句歌词中欢快、忧伤、批判、深情四种预设情感的权重。

S530根据预设的表情库将若干个预设情感转换成对应的预设表情。

S540识别文本信息中权重最高的预设表情为全局表情。

具体地，对整首歌的各个情感进行打分，整首歌情感分类中得分最高的情感对应的表情记为q^g。

实施例5

基于实施例4中的面部动画的生成方法，如图5所示，其中根据全局表情和文本信息各部分中若干个预设表情的权重生成表情动画的步骤具体包括：

S610采用加权平均方法将全局表情和若干个预设表情组合生成若干个局部表情。

具体地，对整首歌每句歌词进行情歌和表情权重分析，第i句歌词四种情感的得分为

则该句歌词的融合表情为：

其中，w为全局表情的比例，该比例越高，局部变化越少；该比例越低，局部情绪波动越多。由于利用了表情加权，可以组合出多种复合表情和微表情，如深情为主并且略带忧伤的表情，从而增加表情的多样性。

S620将若干个局部表情按序组合生成表情动画。

具体地，基于整首歌曲的歌词大意生成的全局表情，与各句歌词中局部表情进行加权处理后，对生成的局部表情按歌曲演唱顺序进行动画合成。

本实施例将多种表情做加权平均处理组合生成表情动画，使虚拟人在演唱过程中，歌曲出现情感变化时，虚拟人的面部表情更加多变自然，符合歌曲情感的表现。

实施例6

基于前述实施例1～实施例5中任意一个实施例中的面部动画的生成方法，如图6所示，在根据口型变化速率与口型生成口型动画之后，获取文本信息的全局表情以及文本信息中各部分的若干个预设表情的权重之前，还包括：

S810采用线性内插的方法对口型动画进行线性平滑。

S820定义高斯型的平滑窗口，公式如下：

其中

k为口型变化速率，

为平滑窗口的参数，i为音频信息的相对时间刻度，e为常量。

具体地，k为所述口型变化速率，是指口型随时间变化的快慢，参考讲话时语速估计，定义为平均一秒钟的歌词字数。i为音频信息的相对时间刻度，是相对时间刻度，是在歌曲时间刻度上进行加减，以秒为计量单位，例如

是指当前时刻经过100秒后该歌曲对应口型动画的高斯型平滑窗口的参数。

S830对口型动画进行非线性平滑处理，公式如下：

其中l为口型生成的参数，N为平滑窗口宽度，即音频信息t时刻单字完整发音时段与前后两个单字完整发音时段的时间总和，N＝3f_s/k，f_s为音频采样频率。

具体地，N为该歌曲中t时刻对应的歌词中的字发音所需的时间，与前后两个字发音所需的时间的和值。

本实施例解决了传统讲话口型合成通常采用线性过度，即通过线性内插的方式填充两个拼音口型之间的过渡。由于讲话时两个拼音之间的时间间隔通常为几十毫秒，视觉上无法看出口型僵硬。但是唱歌时频繁存在拖音现象，两个拼音之间间隔可能会持续若干秒，如果只采用线性过度，则视觉上会明显地观察到口型的机械变化的问题，本发明在口型变化过程中采用非线性平滑处理。使虚拟人在演唱过程中面部表情更加自然流畅。

实施例7

基于前述实施例1～实施例6中任意一个实施例中的面部动画的生成方法，如图7所示，在根据音频信息生成若干个口型之后，根据口型变化速率与若干个口型生成口型动画之前，还包括：

S910计算音频信息M秒内的第一平均能量，公式如下：

其中e_t为第一平均能量，t为音频信息当前时间，t的单位为秒；

示例性地，i＝1,2,3...T，一首歌长度通常为4至5分钟，一段主歌或副歌约长1分钟，因此选择1分钟的窗口计算平均能量，即M等于60，此时t时刻的平均能量为：

S920计算调制比例为规整后的第二平均能量，公式如下:

其中r_t为第二平均能量，e为在1～T秒内的第一平均能量向量。

S930根据第二平均能量调试口型。

具体地，调试唇形的公式为：

其中

为调制后的唇形参数，l_t为调试前的唇形参数。

本实施例针对在唱歌过程中口型会相应张大或闭合的问题提出解决方法。一首歌的主歌部分，即从开始到高潮前，通常歌手唱歌的音量都会小于副歌的高潮部分，相应地，主歌部分口型的张开程度也会小于副歌部分。本发明根据音量调制虚拟人唱歌过程中口型的幅度，可以提升口型和歌曲的匹配度，使虚拟人在演唱过程中面部表情与歌曲更加贴近。

实施例8

本发明的一个实施例，如图8所示，本发明提供一种面部动画的生成***，包括：

接收模块10，用于接收音频信息与文本信息。

口型生成模块20，与接收模块连接，用于根据音频信息生成若干个口型。

其中，如图9所示，口型生成模块20具体包括：

音素转换单元21，用于将音频信息各部分均转换成若干个音素。

具体地，本实施例中将拼音拆分为最小单元，并构建了一个音素库。如表1所示，该音素库包含所有声母、单韵母和韵尾，其中，n和nn分别代表声母和韵尾的拼音n，每个音素对应一种口型。

第一口型生成单元22，与音素转换单元21连接，用于根据各个音素生成对应的第一口型。

完整发音时段获取单元23，用于分别获取音频信息中各部分的若干个完整发音时段。

时间对齐单元24，与音素转换单元和完整发音时段获取单元23连接，用于将各个完整发音时段与对应的音素进行时间对齐。

关键口型识别单元25，与时间对齐单元24和第一口型生成单元22连接，用于识别处于各个完整发音时段中间位置的音素对应的第一口型为关键口型。

速率计算模块30，与接收模块连接，用于根据音频信息计算出口型变化速率。

口型动画生成模块40，与口型生成模块和速率计算模块连接，用于根据口型变化速率与若干个口型生成口型动画。

具体地，根据口型变化速率从全局设定口型变化的速度以及控制口型的到位程度。

其中，如图10所示，口型动画生成模块40具体包括：

判断单元41，用于判断口型变化速率与预设阈值的大小关系。

子口型动画生成单元42，与判断单元41连接，用于当口型变化速率小于预设阈值时，根据音频信息中各部分对应的若干个第一口型生成若干段子口型动画。当口型变化速率大于预设阈值时，根据音频信息中各部分对应的若干个关键口型生成若干段子口型动画。

口型动画组合单元43，与子口型动画生成单元42连接，用于将若干段子口型动画按序组合生成口型动画。

获取模块50，与接收模块连接，用于获取文本信息的全局表情以及文本信息中各部分的若干个预设表情的权重。

具体地，本实施例中表情生成主要包含两个部分，全局表情和局部表情。整首歌曲的平均情感类型决定了整首歌的全局表情，同时，每一句歌词的情绪都会影响局部的表情变化。获取文本信息的全局表情是指根据歌词大意获取整首歌的全局情感，再讲全局情感转换成全局表情。

其中，如图11所示，获取模块50具体包括：

情感分类模型建立单元51，用于预先建立情感分类模型。

表情库建立单元52，用于根据各个情感对应的表情的表情库。

具体地，定义歌曲的四种情感为欢快(joyful)、忧伤(depressed)、批判(critical)和深情(affectionate)，动画师为每一种情感制作静态的表情，分别记为q^j、q^d、q^c、q^a，欢快(joyful)、忧伤(depressed)、批判(critical)和深情(affectionate)对应的四种表情q^j、q^d、q^c、q^a组成表情库。

权重计算单元53，与情感分类模型建立单元51连接，用于根据预设的情感分类模型计算文本信息中若干个预设情感的权重，以及分别计算文本信息各部分中若干个预设情感的权重。

表情转换单元54，与权重计算单元53和表情库建立单元52连接，用于根据预设的表情库将若干个预设情感转换成对应的预设表情。

全局表情识别单元55，与表情转换单元54连接，用于识别文本信息中权重最高的预设表情为全局表情。

具体地，对整首歌的各个情感进行打分，整首歌情感分类中得分最高的情感对应的表情记为全局表情q^g。

表情动画生成模块60，与获取模块50连接，用于根据全局表情和文本信息各部分中若干个预设表情的权重生成表情动画。

其中，如图12所示，表情动画生成模块60具体包括：

局部表情生成单元61，用于采用加权平均方法将全局表情和若干个预设表情组合生成若干个局部表情。

则该句歌词的融合表情为：

表情动画组成单62，与局部表情生成单元61连接，用于将若干个局部表情按序组合生成表情动画。

面部动画生成模块70，与表情动画生成模块60和口型动画生成模块40连接，用于根据口型动画与表情动画生成面部动画。

f_t＝l_t+q_t，

平滑模块80，与口型动画生成模块连接，用于对口型动画进行非线性平滑处理。

具体地，如图13所示，平滑模块80包括：

线性平滑单元81，用于采用线性内插的方法对口型动画进行线性平滑。

平滑窗口定义单元82，与线性平滑单元81连接，用于定义高斯型的平滑窗口，公式如下：

其中

k为口型变化速率，

非线性平滑单元83，与平滑窗口定义单元82连接，用于对口型动画进行非线性平滑处理，公式如下：

幅度调节模块90，与口型生成模块连接，用于根据音频信息的能量调节若干个口型的幅度。

具体地，如图14所示，幅度调节模块90包括：

第一平均能量计算单元91，用于计算音频信息M秒内的第一平均能量，公式如下：

第二平均能量计算单元92，与第一平均能量计算单元91连接，用于计算调制比例为规整后的第二平均能量，公式如下:

口型调试单元93，与第二平均能量计算单元93连接，用于根据第二平均能量调试所述口型。

具体地，调试唇形的公式为：

其中

为调制后的唇形参数，l_t为调试前的唇形参数。

本实施例中提出了一种虚拟人唱歌面部动画合成的***，填补了针对虚拟人唱歌的面部合成完整算法的空白。本实施例提出的***中不同模块针对面部最重要的两个元素，即口型和表情，分别进行了合成并将其进行融合，从而生成丰富的、具有真实感和富于变化的面部动画。本实施例聚焦于虚拟人唱歌的应用场景，提出了完整的解决方案。本实施例中考虑虚拟人在唱歌时语速范围广的情况下，不同语速对于面部表情动画的影响，根据唱歌过程中不同的语速产生面部表情的变化，以及每句歌词对于面部表情的影响综合生成虚拟人在唱歌过程中的面部动画。同时在口型变化过程中采用非线性平滑处理，以及根据音量调制虚拟人唱歌过程中口型的幅度，可以提升口型和歌曲的匹配度，使虚拟人在唱歌时面部表情更加丰富自然。

实施例9

本发明的一个实施例，本发明提供一种存储介质，该存储介质中存储有至少一条指令用于实现实施例1～实施例7中描述的面部动画的生成方法所执行的操作。

它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的面部动画的生成方法、***及存储介质，可以通过其他的方式实现。例如，以上所描述的面部动画的生成方法、***及存储介质实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接或集成电路，可以是电性、机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。