CN113781610A

CN113781610A - 一种虚拟人脸的生成方法

Info

Publication number: CN113781610A
Application number: CN202110719425.8A
Authority: CN
Inventors: 谢榕; 江路遥
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-12-10
Anticipated expiration: 2041-06-28
Also published as: CN113781610B

Abstract

本发明提供了一种虚拟人脸的生成方法，以汉语为研究对象，利用说话文本和真人正脸图像、侧脸图像信息生成具有流畅自然的口型动作和丰富逼真的面部表情变化的唇音同步的个性化人脸动画，包括原始人脸几何建模、人脸动态口型建模、人脸面部表情建模、语音建模、虚拟人脸合成。本发明提供一套完整的虚拟人脸制作步骤，制作成本低廉，可实现能同时兼顾口型变化、表情变化和形象个性化的唇音同步的虚拟人脸，将在电影制作、电脑游戏、虚拟主播、虚拟客服、线上虚拟教师教学等众多领域都有着广阔的应用价值与发展前景。

Description

一种虚拟人脸的生成方法

技术领域

本发明涉及人工智能虚拟人应用技术领域，尤其涉及一种虚拟人脸的生成方法。

背景技术

近年来，随着计算机视觉、计算机图形学以及人工智能技术的不断发展，虚拟人开始应用于各行各业，例如虚拟主持人、虚拟教师等。这些应用的出现对生成虚拟人脸提出了更高的要求。虚拟人脸生成旨在制作具有流畅自然的口型动作与丰富逼真的面部表情变化的唇音同步的个性化人脸动画，它在电影制作、电脑游戏、虚拟主播、虚拟客服、线上虚拟教师教学等众多领域都有着广阔的应用价值与发展前景。以线上虚拟教师教学为例，虚拟教师可以智能化地模拟教师讲课全过程，将原本通过讲义、课件的内容以虚拟教师形象的视频形式存储到线上授课平台。由于它不受时间与空间的限制，可以减少线上课程视频的制作成本和更新成本，极大地减轻教师制作线上课程的负担，并能为社会提供共享的优质教育资源。特别是，受新冠疫情影响，线下教育被暂停情形下，线上虚拟教师教学作为远程教育的优势开始显露并发挥重要作用。

然而现有以人脸动画技术为基础的虚拟人脸制作方法存在着口型表现不够自然、缺乏细致表情变化、人脸不具备泛化能力等问题。虽然当前一些深度学习方法一定程度上改善了虚拟形象的真实感，但制作动画的训练成本过高，训练时间偏长，且人脸外观依然比较单一。Cudeiro等人(2019)提出了一种声音驱动人物动画框架(Voice OperatedCharacter Animation,VOCA)，可根据给定的音频信号和三维头部网格模板生成唇音同步的三维人脸动画。该框架简单通用，对不同对象、不同语种以及不同音源都有良好的泛化能力。但由于它在学习面部运动时，主要聚焦于嘴巴所在下半张脸，而忽略了上半张脸部的变化。因此，不能通过音频驱动技术很好地对人脸动画进行建模。不依赖传统计算机绘图方法，而是使用完全训练的神经模块，Kumar等人(2017)提出了利用任意文本生成音频和照片级真实感唇音同步视频的架构-ObamaNet，实现了模仿美国前总统奥巴马讲话的高质量视频，并保证了精确唇音同步。该架构包括三个主要模块，即基于 Char2Wav的文本转语音网络、与音频同步的嘴特征点的时间延迟LSTM (Time-Delayed LSTM)以及基于Pix2Pix的基于特征点的视频帧的网络。其中，时延LSTM从音频特征来预测嘴部关键点，然后根据预测结果从人脸图库中找到与之最匹配的嘴部区域图像，将匹配嘴部序列与目标视频进行融合，最终生成人脸动画视频。虽然他们提出的方法可以合成逼真的视频，但由于不同人物对象的纹理和脸部形状存在较大差异，所建人脸三维模型很难适应其他人物，因而该方法不具备泛化能力。Chung等人(2017)提出了一种编码器-解码器卷积神经网络模型Speech2Vid，由音频编码器、身份图像编码器、人脸图像解码器和去模糊模块四个模块组成。但是该方法并没有考虑到视频帧之间的时间相关性，导致所生成的视频存在抖动问题，而且所提供的人脸表情也较为单一，视频真实感有一定的局限性。在他们的研究工作基础上，为了提高生成视频的真实度，该研究团队(2019)进一步地将音频所对应相邻时间区域内的五张静止图像输入身份图像编码器来提取人脸表情信息，并在Speech2Vid模型中增加了一个上下文编码器来提取音频所对应的真值图像人脸特征。Prajwal等人(2020)提出了基于生成对抗网络的LipGAN模型，对Speech2Vid模型进行改进，使生成器网络能够涵盖人脸图像编码器、音频编码器和人脸图像解码器。与Speech2Vid模型相比，LipGAN人脸图像解码器采用了更多的跳跃连接，使其人脸图像编码器能够提供更为丰富的人脸图像信息。于灵云(2020)采用发音器官运动轨迹驱动三维人脸模型，实现语音或文本到视觉的转化过程来生成人脸动画。基于二维图像的人脸动画生成任务，给定语音或文本作为输入，采用深度学习方法合成高真实感、任意身份以及唇音同步的人脸动画。然而，该研究也存在不足之处。基于发音器官运动轨迹驱动的人脸动画的思路在性能上比传统方法效率更高，但是围绕舌头、嘴唇等发音器官的建模，会影响到脸颊等脸部其它部位，因而大大影响了动画最终效果，使脸部变化不够自然。另一方面，人脸动画中，和口型变化相比，表情变化同样重要，生动而自然的人脸动画离不开眉眼、面颊等部位的表情变化，然而该研究对表情变化关注不足。

国外公司在人脸动画模拟技术上有着数十年的发展，研发了一系列经典产品。美国梦工厂(2001)为电影《怪物史莱克》设计了逼真形象的怪物史莱克主角，能做到唇音同步且表情与真人十分接近。一些经典3D游戏，如《魔兽世界》、《王者荣耀》以及《仙剑神曲》等，使用三维场景和虚拟人物取得了完美效果，游戏中人物的外形、运动、姿态都比较逼真，使玩家能够身临其境。美国计算机视觉公司Loom.ai的Loom.ai产品(2016)可以实现从一张静态图片中捕捉人类面部特征功能，创建一个逼真的3D虚拟化身。国内在该方面的研究起步相对较晚，但近年来也相继研发了一些虚拟人脸产品。北京沃富瑞德文化传播公司研制了有表情的仿生机器人，由有表情的仿生机器人和卡通形象机器人组成，以VOFRID 自由立体曲面表面显示技术为核心，改变机器人千篇一律的机械外型，赋予机器人拟人化的面部表情。科大讯飞公司提出了先进的A.I.虚拟主播解决方案，利用科大讯飞的语音合成、图像处理以及机器翻译等多项人工智能技术，实现了从文本到视频的自动输出，支持主播多语言视频生成，并可以实现定制真人形象以及卡通3D形象。但虚拟主播形象基本固定，制作特定形象所需成本较高。国内外公司研发的这些产品，其核心技术未被公开。

综述当前国内外虚拟人脸的研究现状，可以看到人脸动画技术已经得到广泛探索。如何在控制人脸口型和面部表情进行改变的同时保持局部细节信息，生成具有真实感的唇音同步的人脸依然面临着很大的挑战。当前研究大多采用学习机制使训练后的人脸模型具有较好口型、表情效果。然而，语种训练需要大量素材，而当前训练模型所需的各类语种样本不足。而且，模型训练所需成本偏高、训练周期也偏长。当前尚没有一种低成本方法来制作任意个性化的、逼真达到类似人类说话效果的虚拟人脸动画。

发明内容

本发明提供了一种虚拟人脸的生成方法，可利用说话文本和真人图像信息生成具有流畅自然的口型动作和丰富逼真的面部表情变化的唇音同步的个性化人脸动画，解决了现有技术中需要依赖大量训练样本才能保证人脸生成效果的技术问题。

本发明提供了一种虚拟人脸的生成方法，包括：

S1：构建原始人脸几何模型，其中，原始人脸几何模型包括人脸特征点；

S2：基于原始人脸几何模型中的人脸特征点确定嘴唇骨骼特征点，并通过建立音素与视位之间的映射关系、视位与口型关键帧之间的映射关系，对嘴唇骨骼特征点构建口型变化关键帧和中间帧，构建基于汉语拼音音素驱动的人脸动态口型模型，人脸动态口型模型包括口型变化关键帧以及口型变化中间帧的编号、嘴唇骨骼特征点坐标值、***时间，其中，音素指根据语音的自然属性划分出音节发音动作的最小单位，视位指音素发音时上下嘴唇和上下颚所在部位的状态，口型关键帧用以记录虚拟人物在音素发音时嘴巴动画画面中的关键内容，口型中间帧用以表示一个音素发音时从口型产生到口型结束的完整变化过程；

S3：根据口型变化关键帧以及口型变化中间帧的嘴唇骨骼特征点的坐标值、输入的说话文本所包含的情感关键词设计不同程度面部表情变化，并生成表情关键帧，构建人脸面部表情模型，表情关键帧用以记录虚拟人脸动画包含的面部表情变化；

S4：将输入的说话文本转化为声音音频，并对人说话的语速和停顿进行处理，构建语音模型；

S5：输入人脸正面图像和侧面图像，对步骤S1获得的原始人脸几何模型进行加工，得到真实人脸几何模型，再将真实人脸几何模型与步骤S2获得的人脸动态口型模型、步骤S3获得的人脸面部表情模型以及步骤S4获得的语音模型通过合成同步处理进行集成，生成虚拟人脸。

在一种实施方式中，步骤S2包括：

S2.1：参照预设标准对原始人脸几何模型包含的人脸特征点进行合并，选取其中骨骼特征点作为驱动口型模型变化的来源，得到嘴唇骨骼特征点；

S2.2：通过建立音素与视位之间的映射关系、视位与口型关键帧之间的映射关系，对嘴唇骨骼特征点构建口型变化关键帧；

S2.3：引入动态视位来制作口型变化的中间帧；

S2.4：对动态口型帧的信息进行保存，构建人脸动态口型模型，其中，动态口型帧的信息包括口型关键帧和中间帧，每帧信息包括骨骼点编号、骨骼点三维坐标、***时间。

在一种实施方式中，步骤S2.2包括：

S2.2.1：采用三个基本参数按照预设规则对汉语发音基本口型的因素状态进行分类，其中，三个基本参数包括嘴唇的纵向变化值、嘴唇的横向变化值以及上下颚和牙齿的开合变化值，根据分类后的音素状态定义视位，并构建音素与视位的映射关系；

S2.2.2：根据输入说话文本所对应的汉语拼音以及步骤S2.1中的嘴唇骨骼特征点，建立视位与口型关键帧之间的映射关系，每一个视位对应一套嘴唇骨骼点三维坐标。

在一种实施方式中，步骤S2.3包括：

S2.3.1：将静态视位作为口型关键帧，在两个静态视位之间增加若干中间帧来表示两个口型变化的连续过程，根据前后关键帧的特征点坐标，以两个关键帧之间的时间作为可变参数，计算中间帧的嘴部特征点坐标；

S2.3.2：根据两个口型关键帧之间时间间隔确定两个口型关键帧的中间帧数量；

S2.3.3：将所有口型关键帧数量与中间帧数量相加得到下一汉字的音素对应口型关键帧的***时间。

在一种实施方式中，步骤S3包括：

S3.1：建立基础情感词典，用于识别输入文本中与情感相关的情感关键词；

S3.2：结合情感词典，对输入的说话文本进行情感词识别与情感计算；

S3.3：根据口型变化关键帧以及口型变化中间帧的嘴唇骨骼特征点坐标值、输入的说话文本所包含的情感关键词设计不同程度面部表情变化，并生成表情关键帧；

S3.4：通过修改上眼睑骨骼特征点的三维坐标，设定张开和闭合时的关键帧，对眨眼动作进行控制。

在一种实施方式中，步骤S3.2包括：

S3.2.1：对情感参数进行初始化，其中，情感参数包括情感权值和情感程度副词的影响程度值；

S3.2.2：对输入文本进行分词处理；

S3.2.3：检测分词结果中的词语是否包含与情感相关的关键词，并根据情感词语含义的强烈程度，赋予该词语不同的情感权值；

S3.2.4：检测分词结果中的词语是否包含程度副词，并根据程度副词赋予该词语不同的情感程度副词的影响程度值；

S3.2.5：检测分词结果中的词语是否包含否定词，并确定否定词的数量；

S3.2.6：根据分词结果的情感权值、情感程度副词的影响程度值以及包含的否定词数量，计算输入文本分词的情感值。

在一种实施方式中，步骤S3.3包括：

S3.3.1：对不同基本动作单元进行叠加来表达丰富的面部表情，对表情进行动作单元定义，确定表情动作单元，其中面部表情包括快乐、愤怒、惊讶、悲伤；

S3.3.2：根据情感计算的结果和口型变化关键帧和中间帧的嘴唇骨骼特征点坐标值设计不同程度面部表情；

S3.3.3：对不同程度面部表情关键帧中特征点的坐标进行计算。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种虚拟人脸的生成方法，通过构建原始人脸几何模型、人脸动态口型模型、人脸面部表情模型、构建语音模型，然后输入人脸正面图像和侧面图像，对获得的原始人脸几何模型进行加工，得到真实人脸几何模型，再将真实人脸几何模型人脸动态口型模型、人脸面部表情模型以及语音模型通过合成同步处理进行集成，生成虚拟人脸。与现有技术相比，提出了一套完整的虚拟人脸制作方法和实现步骤，不需要大量的训练样本，只需提供说话文本以及真人正面图像和侧面图像，即可生成能模仿普通人说话时的语音音频、口型动作、面部表情变化和自然眨眼动作，大大降低了人脸生成的成本。

进一步地，参照真人影像资料和汉语发音教学视频，通过建立音素-视位-关键帧的映射以及关键帧插值，对选取的嘴唇骨骼特征点构建口型变化的关键帧和中间帧，可生成基于汉语拼音音素驱动的动态口型模型。并且，可实现无缝连接的唇音同步。根据动画播放速度，通过调整语音合成工具中的语速参数，使生成的汉字语音都能与动画中的口型相匹配。

进一步地，参照面部动作编码***框架，在构建基础情感词典的基础上，针对人类基本情感所对应的人脸面部表情变化的特点，根据输入的说话文本所包含的情感关键词、情感程度副词、情感否定词设计快乐、愤怒、惊讶和悲伤的不同程度的表情关键帧，使虚拟人脸动画包含丰富面部表情变化。

进一步地，采用UV展开的方法切割人脸模型，通过对真人图像的拉伸、衔接处理，实现对模型的外观贴图，输出带有真人面部器官特征、纹理、肤色等特点的人脸模型，使虚拟人物具有个性化的人脸动画，可泛化到任何虚拟角色。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例生成虚拟人脸流程图；

图2是本发明实施例构建的原始人脸几何模型；

图3是本发明实施例嘴唇骨骼特征点选取示意图；

图4是本发明实施例情感词识别与情感计算流程图；

图5是本发明实施例不同程度快乐情感的表情设计示意图；

图6是本发明实施例不同程度愤怒情感的表情设计示意图；

图7是本发明实施例不同程度惊讶情感的表情设计示意图；

图8是本发明实施例不同程度悲伤情感的表情设计示意图；

图9是本发明实施例模型切割示意图；

图10是本发明实施例模型UV展开平铺效果图；

图11是本发明实施例正脸图像与侧脸图像的对齐；

图12是本发明实施例人脸几何模型的贴图示意图；

图13是本发明实施例虚拟人脸合成示意图。

具体实施方式

针对现有技术难题，本发明以汉语为研究对象，设计一种汉语文本和情感词汇驱动的虚拟人脸生成方法。基于关键帧插值的人脸动画模型，建立中文音素- 视位-关键帧的映射，设计基于汉语拼音音素驱动的口型帧；同时，采用基于基础情感词典的情感关键词检测方法驱动虚拟人物脸部表情变化，实现能同时兼顾口型变化、表情变化以及形象个性化的唇音同步的虚拟人脸。

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种虚拟人脸的生成方法，包括：

S3：根据口型变化关键帧以及口型中间关键帧的嘴唇骨骼特征点坐标值、输入的说话文本所包含的情感关键词设计不同程度面部表情变化，并生成表情关键帧，构建人脸面部表情模型，表情关键帧用以记录虚拟人脸动画包含的面部表情变化；

具体来说，步骤S1中人脸几何建模是虚拟人脸生成的基础和关键，人脸模型的完整性和精确性将直接影响到后续步骤动态口型建模、表情建模、虚拟人脸合成的效果。为了描述人脸***在说话时五官的复杂运动变化，构建人脸几何模型并获取该模型的人脸基本特征点。

步骤S2是进行人脸动态口型建模，输入说话文本，该步骤通过建立音素- 视位-关键帧的映射以及关键帧插值，对选取的嘴唇骨骼特征点构建口型变化关键帧和中间帧，实现基于汉语拼音音素驱动的动态口型模型，动态口型模型包括动态口型关键帧和动态口型中间帧，关键帧和中间帧都包含三个信息，即编号、嘴唇骨骼特征点坐标值和***时间。

步骤S3是进行人脸面部表情建模，人的表情是通过控制面部肌肉的运动而使得人脸五官的形状和位置发生改变所产生的。参照Ekman和Friesen(1978) 提出的面部动作编码***(Facial Action Coding System,FACS)框架，在构建情感词典的基础上，针对四种人类基本情感所对应的人脸面部表情变化的特点，该步骤根据输入的说话文本所包含的情感关键词设计不同程度面部表情变化，并生成表情关键帧。与动态口型模型相对应，面部表情模型也包括关键帧和中间帧，其中，当没有情感变化时，则将动态口型关键帧和中间帧(口型帧)作为面部表情模型的视频帧(表情帧)，当涉及情感变化时，则修改动态口型关键帧和中间帧的嘴唇骨骼特征点坐标值后作为表情帧，帧的编号和***时间保持不变。

步骤S4进行语音建模，该步骤实现将输入的说话文本转化为声音音频，并对人说话的语速以及停顿进行处理，以构建语音模型。

步骤S5进行虚拟人脸合成，将原始人脸几何模型进行加工后得到真实人脸几何模型，然后再与动态口型模型、面部表情模型和语音模型进行集成。

参见图1，为本发明实施例生成虚拟人脸流程图，图2是本发明实施例中构建的原始人脸几何模型，其中，a)表示原始人脸几何模型示意图，b)表示人脸特征点获取。图3是本发明实施例嘴唇骨骼特征点选取示意图；图4是本发明实施例情感词识别与情感计算流程图；图5是本发明实施例不同程度快乐情感的表情设计示意图，a)表示原始模型，b)表示心里美滋滋，c)表示挺开心，d)表示非常兴奋；图6是本发明实施例不同程度愤怒情感的表情设计示意图，a)表示原始模型，b)表示有点憋屈，c)表示很生气，d)表示暴跳如雷；图7是本发明实施例不同程度惊讶情感的表情设计示意图，c)表示原始模型，d)表示有点惊讶，e)表示目瞪口呆，f)表示令人震惊；图8是本发明实施例不同程度悲伤情感的表情设计示意图，a)表示原始模型，b)表示有些失望，c)表示让人伤心，d)表示心情沉痛；图9是本发明实施例模型切割示意图；图10是本发明实施例模型UV展开平铺效果图；图11是本发明实施例正脸图像与侧脸图像的对齐；图12是本发明实施例人脸几何模型的贴图示意图；图13是本发明实施例虚拟人脸合成示意图，a)表示原始人脸，b)表示贴图后人脸，c)表示合成后人脸。

在一种实施方式中，步骤S1包括：

S1.1：采用制图工具通过编辑多边形的方式制作原始人脸几何模型，原始人脸几何模型涵盖人脸的脸廓、眉毛、眼睛、鼻子、嘴巴、耳朵和颈部；

S1.2：参照预设标准中定义的有关人脸特征点，选取其中的预设个特征点作为原始人脸几何模型的人脸特征点。

具体实施过程中，步骤S1.1采用制图工具通过编辑多边形的方式制作原始人脸几何模型。为了使人脸几何模型保持完整，模型涵盖人脸的脸廓、眉毛、眼睛、鼻子(鼻孔和鼻梁)、嘴巴、耳朵和颈部。为了达到逼真效果，模型中眼睛由眼眶、眼珠组成，以配合表情变化时的自然眨眼动作；嘴巴包括嘴唇(上唇和下唇)、舌头、牙齿(上齿和下齿)等组成部分来配合发音器官的发声。原始模型无表情、双唇紧闭，为人脸的初始自然状态。如图2的a)部分所示为一个用 3Ds Max制作的原始人脸模型示意图。

步骤S1.2：参照1999年2月正式公布的MPEG-4(即ISO/IEC 14496)标准中定义的有关人脸特征点，选取其中39个特征点，如图2的b)部分所示，包括左右眉毛各6个、额头7个、左右眼皮各2个、左右眼睑各2个、鼻子4个、左右脸颊各6个、嘴部12个。涉及口型建模的嘴部特征点由步骤2.1进行确定。对人脸五官进行定位，得到它们的特征点坐标。

在一种实施方式中，步骤S2包括：

S2.1：参照预设标准对原始人脸几何模型包含的人脸特征点，选取其中骨骼特征点作为驱动口型模型变化的来源，得到嘴唇骨骼特征点；

S2.3：引入动态视位来制作口型变化的中间帧；

具体实施过程中，步骤S2.1：嘴唇骨骼特征点选取。MPEG-4标准中定义了有关嘴唇的特征点。考虑到这些特征点中嘴唇骨骼点关联其周围小部分范围内的皮肤与肌肉，控制这些骨骼特征点的移动即可达到模拟、表现口型变化的效果。因此，本发明对标准中部分特征点进行合并，选取其中骨骼特征点作为驱动口型模型变化的来源。如图3所示，分别在上下嘴唇正中间选取1个，在两边嘴角各选取1个，以及左上、左下、右上、右下各选取2个，共12个骨骼特征点。

步骤S2.2：口型变化关键帧生成。该步骤建立音素-视位-关键帧的映射以获得人说话时口型变化的关键帧，其中，音素是指根据语音的自然属性划分出音节发音动作的最小单位，每个汉字可分解为一个或几个音素的组合。视位是指音素发音时上下嘴唇和上下颚所在部位的状态。采用关键帧记录虚拟人物在音素发音时嘴巴动画画面中的关键内容。

步骤S2.3：口型变化中间帧生成。人在说话时，口型动作是一个连续的变化过程。只定义一个静态的音素-视位-口型关键帧往往是不够的。该步骤引入动态视位来制作口型变化的中间帧，用以表示一个音素发音时从口型产生到口型结束的完整变化过程。

步骤S2.4：动态口型帧信息保存。根据所获得的声母、韵母音素所对应的视位以及F₀～F₁₀视位关键帧中特征点的坐标，生成动态口型的关键帧和中间帧，保存这些口型帧信息，每帧信息包括骨骼点编号、骨骼点三维坐标、***时间。其中，骨骼点编号为mouth_01～mouth_12号，对应于12个骨骼点中的一个特征点；骨骼点三维坐标由对照模型与真人视频中发音的帧获得，并根据合成的动画质量逐渐修改完善；***时间由v_speak和v_frame进行设置。

在一种实施方式中，步骤S2.2包括：

S2.2.1：采用三个基本参数按照预设规则对汉语发音基本口型的音素状态进行分类，其中，三个基本参数包括嘴唇的纵向变化值、嘴唇的横向变化值以及上下颚和牙齿的开合变化值，根据分类后的音素状态定义视位，并构建音素与视位的映射关系；

具体实施过程中，步骤S2.2.1：建立音素-视位映射

汉语发音由汉语拼音的声母、韵母和介母组成。采用三个基本参数，即嘴唇的纵向变化值、嘴唇的横向变化值以及上下颚和牙齿的开合变化值，按照规则 1～规则4对汉语发音基本口型的状态进行分类。

规则1：如果上下嘴唇闭合，纵向变化值、横向变化值以及上下颚和牙齿的开合变化值均为0，则该口型为初始状态。

规则2：如果嘴唇纵向变化值有改变，则对汉语拼音55个音素的口型进行分类，划分为四类状态，即：①无变化(嘴唇闭合不变)、②微小变化(高度差< 10％)、③中等变化(10％≤高度差<25％)、④显著变化(25≤高度差<50％)。

例如，音素“en”在发音时，嘴唇闭合，没有高度变化，属于第①类；音素“n”发音时，嘴唇微微张大，属于第②类；音素“e”发音时，上下嘴唇张开较大，属于第③类；音素“a”发音时，嘴唇张开明显，属于第④类。

规则3：如果嘴唇横向变化值有改变，则对音素口型进行分类，划分为三类状态，即：①嘴唇长度不变、②嘴唇长度减小、③嘴唇长度增大。

规则4：如果各音素在发音时引起上下颚和牙齿开合变化，则对口型进行分类，根据上下颚和牙齿的开合情况将嘴唇变化相近的音素细分为不同类别。

根据分类后的音素状态定义视位。在音素和视位之间建立如表1所示的音素 -视位映射表，该映射将作为制作口型变化关键帧的基础。

表1：音素-视位映射表

步骤2.2.2：建立视位-口型关键帧映射

根据输入说话文本所对应的汉语拼音以及步骤S2.1所定义的12个嘴唇骨骼特征点，建立视位-口型关键帧之间的映射，每一个视位对应一套嘴唇骨骼点三维坐标。确定嘴唇骨骼特征点的坐标时，提取真人视频和汉语拼音发音教学视频中的口型变化特征，根据各组特征预设各组坐标，合成口型动画后参考与真人对比的效果逐个进行修改、完善。

汉语中每一个汉字所对应的拼音都含有一个韵母，但不一定都含有声母。同时，声母和韵母的发音连续但又相对独立。因此，针对汉语中声母、韵母的不同情况，根据规则5～规则8，对汉字拼音进行判断与处理，分别保存声母和韵母。汉字的实体类中包含有声母、韵母和时间属性，对于每一个汉字对象，声母可以为空，而韵母不为空，时间属性用于记录该汉字在动画中驱动口型变化的帧数位置。

规则5：如果汉字第一位为“z”、“c”、“s”三个音节，但第二位不为“h”，则保存拼音的第一位为声母，其余部分为韵母；

规则6：如果汉字第一位为“z”、“c”、“s”三个音节，且第二位为“h”，则保存拼音的前两位为声母，其余部分为韵母；

规则7：如果汉字第一位为声母，但非“z”、“c”、“s”三个音节，则保存拼音的第一位为声母，其余部分为韵母；

规则8：如果汉字仅含有韵母，例如汉字“啊”的拼音为韵母“a”，则只保存拼音为韵母。

在一种实施方式中，步骤S2.3包括：

具体实施过程中，步骤S2.3.1：口型中间帧特征点坐标计算

设计中间帧时，将静态视位作为口型关键帧，在两个静态视位之间增加若干中间帧来表示两个口型变化的连续过程，使动画画面平滑流畅。利用插值函数在标准时间间隔内指定两个关键帧之间的平滑运动。根据前后关键帧的特征点坐标，以两个关键帧之间的时间作为可变参数，利用插值公式(1)计算中间帧的嘴部特征点坐标。

其中，P_(n,t)为嘴部第n个特征点在t时刻的坐标，t₁、t₂分别为前一关键帧、后一关键帧的特征点变化的时刻，Δt＝t₂-t₁。P_(n,t1)、P_(n,t2)分别为嘴部第n个特征点在t₁、t₂时刻的坐标。

步骤S2.3.2：中间帧数量计算

两个关键帧之间的中间帧数量由两个关键帧之间的时间间隔决定，但不同音素发音持续时间不一样。例如，通常声母的发音时间比韵母稍短，因此口型变化的时间也略短。

确定时间间隔时，给每个音素赋予一个权值，表示该音素对应的口型变化时间的长短。权值越大，则所对应的关键帧所需中间帧数量越多；反之，则越少。对照汉语拼音发音教学视频和真人发音视频，提取各组音素发音时间的长短，为每个音素设置如表2所示的权值。

表2：音素权值表

利用公式(2)计算某个汉字j发音时所需的持续时间。

其中，v_speak为语速，单位为个/秒，即一段话中平均每秒所说的字数，该参数根据应用需求人为设定。N为一段话的总字数，w_j为第j个汉字的音素所占权值大小，w为整段文字的权值总和。

汉字对应关键帧所需中间帧的数量由公式(3)进行计算。

其中，N_ji为第j个汉字的第i个音素所对应的关键帧后所需中间帧数量，w_i为第i个音素的权值，w_j为第j个汉字所有音素的权值之和，v_frame为动画播放速度，单位为帧/秒。

由式(2)和式(3)可知，中间帧的数量受v_speak和v_frame这两个参数的影响。v_speak因人而异，可以手动设置。v_speak越快，则每个字的发音时间越短，因而每个字对应关键帧后面的中间帧数量越少。中间帧数量偏少会使口型变化不自然。因此，实际应用中应确保一定数量的中间帧。对于v_frame的设置，播放速度越快，即每秒帧数越多，中间帧的数量相应也会越多，动画效果会越精细。根据人类视觉停留原理，画面停留时间过短并不易被人眼捕捉，通常不会超过24帧。因此，v_frame按照通常的标准设置为24帧/秒。

步骤S2.3.3：确定下一音素在关键帧的***时间

得到中间帧数量后，将所有关键帧数量与中间帧数量相加得到下一汉字j+1 的音素对应关键帧的***时间(即***帧数序号)，计算公式如式(4)所示。

其中，T_j+1为第j+1个汉字对应音素的***帧数序号，N_i为第i个汉字的关键帧和中间帧的数量总和。

在一种实施方式中，步骤S3包括：

具体实施过程中，步骤3.1：构建基础情感词典

建立基础情感词典，用于识别输入文本中与情感相关的情感关键词。根据 FACS，形成快乐、愤怒、惊讶、悲伤这四种人类最基本情感大类。中国知网情感分析用语词集包含极性情感词、极性评价词以及主张词语和程度副词，而简体中文情感极性词典包含情感极性词汇。参照中国知网情感分析用语词集与简体中文情感极性词典，汇总口语中出现频率较高的正向情感词和负向情感词，构建本发明的基础情感词典，如表3所示。

表3：基础情感词典

步骤S3.2：情感词识别与情感计算

结合基础情感词典，对输入的说话文本进行情感词识别与情感计算。情感词识别与情感计算的流程图如图4所示。

步骤S3.3：面部表情生成

人脸面部的各种丰富的表情和动作都是通过脸部肌肉运动表现出来的。本步骤实现不同程度面部表情变化。

步骤3.4：眨眼动作控制。该步骤模仿真人眨眼动作。

在一种实施方式中，步骤S3.2包括：

S3.2.2：对输入文本进行分词处理；

在具体实施过程中，步骤S3.2.1：情感参数初始化

为了进行情感值计算，首先对情感参数进行初始化，包括情感权值q和情感程度副词的影响程度值ω，令q＝1，ω＝1。同时，为了统计输入文本中否定词出现的次数，设置n为否定词的个数，令n＝0。

步骤S3.2.2：输入文本的分词处理

对输入文本进行分词处理。清除文本中一些无效词语和特殊符号，然后采用结巴分词等分词工具对文本进行分词操作，获得文本分词结果集合。

例如，文本“今天感觉挺开心”的分词结果为{“今天”，“感觉”，“挺”，“开心”}。

步骤S3.2.3：情感关键词检测

根据情感词语含义的强烈程度，赋予该词语不同的情感权值q，如表4所示，情感程度低，则q＝1；情感程度中，则q＝2；情感程度高，则q＝3。

例如，带有快乐情感的词汇“满意”权值较低、“狂喜”权值较高；带有愤怒情感的词汇“不悦”权值较低、“怒不可遏”权值较高。

表4：情感词汇权值分类

将步骤S3.2.2所得到的文本分词结果与步骤S3.1建立的基础情感词典中的情感词汇进行比对，检测分词是否为与情感相关的关键词，并根据情感词汇权值分类设置情感权值q。

例如，“今天感觉挺开心”文本分词结果中有情感词“开心”。

步骤S3.2.4：情感程度副词检测

情感的强烈程度会对表情变化产生一定影响。例如，快乐时，根据快乐程度的不同，表情变化在嘴角上扬与嘴角张开的变化幅度上会有一定差异；愤怒时，表情变化在皱眉程度上会有所不同，甚至在极其愤怒时会出现龇牙咧嘴和咬牙切齿的变化；惊讶时，表情变化在抬眉与睁大眼睛的幅度会根据惊讶程度的不同而发生改变；悲伤时，虽然在眼睑部位表情变化不明显，但会出现嘴角下拉动作的变化。

情感强烈程度通过程度副词来反映，设置情感程度副词的影响程度值ω。检测步骤3.2.2所得到的文本分词结果中是否含有程度副词，并根据表5确定该分词的ω值。

表5：程度副词影响程度

例如，“今天感觉挺开心”文本分词结果中含有程度副词“挺”，程度为高量级，ω＝3。

步骤S3.2.5：情感否定词检测

情感倾向会对人脸表情的变化产生较大影响，通过否定词来反映情感倾向。检测步骤3.2.2所得到的文本分词结果中是否含有否定词以及所含否定词的个数，确定n的值。

例如，“今天感觉不开心”文本分词结果中含有否定词“不”，否定词个数n ＝1。

步骤S3.2.6：情感值计算

在检测情感关键词、情感程度副词以及情感否定词的基础上，进一步根据公式(5)计算输入文本分词的情感值Q，即情感的强烈程度值。

Q＝(-1)ⁿ×q×ω (5)

其中，n为否定词出现的次数，q为情感权值，ω为程度副词的影响程度值。

在一种实施方式中，步骤S3.3包括：

在具体实施过程中，步骤S3.3.1：表情AU确定

FACS通过动作单元(Action Unit,AU)来描述人脸面部肌肉的放松或收缩，如表6所示。例如，AU₄为皱眉，表现为眉毛降低靠拢内皱，眉间产生皱纹； AU₇为眯眼，表现为收紧眼睑，拉下眼皮，下眼睑凸起。

表6：基本AU定义

AU编号	表情变化描述
		1	眉毛内角上抬
2	眉毛外角上抬
		4	皱眉
5	眼睑上升
		6	脸颊提升
7	眼轮匝肌内圈收紧(眯眼)
		9	皱鼻
12	拉动嘴角向上
		15	拉动嘴角向下
25,26,27	张嘴
		43	闭眼
45	眨眼

本发明对表6所示的不同基本AU进行叠加来表达丰富的面部表情。为了表现快乐、愤怒、惊讶、悲伤四种情感的面部表情变化，对这些表情进行AU定义，如表7所示。

表7：四种基本表情的AU定义

步骤S3.3.2：不同程度面部表情设计

人物表情表现主要体现在眼睛、脸颊和嘴巴这些部位产生的变化。参照FACS 所定义的情感变化的具体部位，对不同强烈程度下的情感分别设计不同幅度的面部表情变化，它是配合步骤2的设计所得到的动态口型模型根据不同程度情感进一步进行变换而得到的。该步骤根据以下情形1～情形4分别进行不同程度面部表情设计。

情形1：快乐表情设计

根据FACS的定义，快乐情感的表情主要体现在眼睛、嘴唇和脸颊的变化，即眼睛微眯、嘴角上扬、嘴唇一定程度分开以及脸颊提升。由于眯眼幅度随情感程度变化不明显，因此眼睑的变化幅度区别不明显。模拟不同程度下人脸模型的快乐情感表情变化。根据公式(5)计算的Q值的不同，快乐程度越高，嘴角上扬幅度越大。

例如，“今天感觉挺开心”，由结巴分词得到分词集合{“今天”、“感觉”、“挺”、“开心”}。其中，“挺”为程度副词，属于程度高量级，开心属于程度中等情感词汇，最终得到该情感强烈程度值为中高。“开”字发音时，人脸开始出现表情变化。与原始模型初始状态相比，快乐情感人脸模型应眼睑收紧，面颊上提，颧大肌出现凸起，且嘴角上扬并咧开嘴。

图5的b)、c)、d)所示分别为“心里美滋滋”、“挺开心”和“非常兴奋”三种不同程度快乐情感的表情变化设计例示意图。与图5的a)所示的原始模型对比，由于眼睑部位的变化较细微，即使程度不同也看不出明显差距。而嘴唇部分区别最明显，轻微程度时嘴角上扬，颧大肌上提轻微；中等程度时，嘴唇咧开，颧大肌变化明显；程度强烈时，嘴唇大张，上下颚牙齿及牙齿分开明显。

情形2：愤怒表情设计

根据FACS的定义，愤怒情感的表情主要体现在眉眼、眼睑和皮肤的变化，即眉眼内皱、眼睑小程度拉紧、鼻梁部分皮肤皱起。模拟不同程度下人脸模型的愤怒情感表情变化。根据公式(5)计算的Q值的不同，眉毛与额头皮肤的变化产生不同程度变化，愤怒程度越高，眉毛内皱位置越低，额头与鼻梁部分皮肤皱起越明显。FACS素材中提供了法令纹变化，但这一特征并非每个人都会出现，也与年龄有关，本发明未将其考虑其中。

例如，“我很生气”，由结巴分词得到分词集合{“我”，“很”，“生气”}。其中，“很”为程度副词，属于程度高量级，生气属于程度低等情感词汇，最终得到情感强烈程度为低上。“生”字发音时，人脸开始出现表情变化，与原始模型初始状态相比，眉眼部分变化相似，表现为内皱，眼睑出现小程度拉紧，鼻梁部分皮肤皱起。

图6的b)、c)、d)所示分别为“有点憋屈”、“很生气”和“暴跳如雷”三种不同程度愤怒情感的表情设计示例示意图。与图6的a)所示的原始模型对比，愤怒程度较轻时，眉毛微皱；中等程度时，鼻梁部分皮肤皱起；强烈程度时，增加眉眼和鼻梁部分变化，同时产生咬牙切齿的动作。

情形3：惊讶表情设计

根据FACS的定义，惊讶情感的表情主要体现在眉眼和嘴部的变化，即眉毛上扬、双目圆睁、嘴巴微张和上下颚分离。模拟不同程度下人脸模型的惊讶情感表情变化。根据公式(5)计算的Q值的不同，惊讶程度越高，眼睑变化越多，眉毛上扬也越多。嘴部张开动作受惊讶程度影响且因人而异。

图7的b)、c)、d)所示分别为“有点惊讶”、“目瞪口呆”和“令人震惊”三种不同程度惊讶情感的表情设计示例示意图。与图7的a)所示的原始模型对比，随着惊讶程度逐渐增强，眉毛上扬、眼睛睁大、眼睑变松和嘴巴张大的幅度也逐渐变大。

情形4：悲伤表情设计

根据FACS的定义，悲伤情感的表情主要体现在眉毛、眼皮和嘴角的变化，即眉毛微皱、眼皮微微下拉、嘴角下拉。模拟不同程度下人脸模型的悲伤情感表情变化。根据公式(5)计算的Q值的不同，皱眉程度与嘴角下拉程度会有不同程度变化，悲伤程度越高，皱眉越明显，嘴角下拉幅度越大。

图8的b)、c)、d)所示分别为“有些失望”、“让人伤心”和“心情沉痛”三种不同程度悲伤情感的表情设计示例示意图。与图8的a)所示的原始模型对比，悲伤的表情变化随着情感强度增加时，眉眼部分变化不明显，嘴角下拉和面部肌肉下垮程度随着情感强度产生明显变化。

步骤S3.3.3：表情关键帧生成

采用公式(6)，对不同程度面部表情关键帧中特征点的坐标进行计算。

P₍'_n,t)＝[P_(n,t)-P_(n,0)]×Q×μ+P_(n,0) (6)

其中，P₍'_n,t)为嘴部第n个特征点在t时刻表情变化时的坐标，P_(n,t)为同一视位在情感强烈程度中等时嘴部第n个特征点在t时刻的坐标，由公式(1)进行计算。P_(n,0)为嘴部第n个特征点初始时刻坐标，即初始状态无表情时的坐标。Q为情感的强烈程度值，由公式(5)进行计算。μ为比例系数。

需要说明的是，“步骤2：人脸动态口型建模”的结果为生成动态口型模型，即口型变化关键帧以及口型变化中间帧的编号、嘴唇骨骼特征点坐标值、***时间；该嘴唇骨骼特征点坐标值会输入到“步骤S3中”。如果输入文本中无情感词，则嘴唇骨骼特征点坐标值保持不变；如果输入文本中含有情感词，则进一步地对嘴唇骨骼特征点坐标值根据四种不同的表情情形进行变换。这是因为表情变化包含嘴唇的变化。

举例来说，当输入文本为“我是一名教师。”中间无情感词，则步骤S2生成“我是一名教师。”的口型模型。

当输入文本为“我今天挺好。”，则步骤S2生成“我今天挺好。”的口型模型，但在步骤S3会检测到程度副词“挺”和“好”时，会对口型模型作进一步地变换。

具体实施过程中，该步骤S3.4可以通过子步骤S3.4.1和S3.4.2来实现。

步骤S3.4.1：眨眼次数计算

根据对真人和视频影像资料观察可知，一般人每分钟眨眼次数为15～20次，即每3、4秒眨眼一次。人在无主观意识控制情况下，眨眼动作并非是平均分布的，有时会连续眨眼，有时会间隔近10秒。设计眨眼动作时，采用随机数来控制眨眼时间点。眨眼次数用m表示。对一段动画，根据其总时长，按3秒眨眼一次的频率计算m，一定时间范围内随机选取时间点触发眨眼动作，根据v_frame计算触发眨眼动作的帧数，从而控制眨眼动作。

步骤S3.4.2：眨眼动作设计

眨眼动作主要有张开和闭合两种状态。通过修改上眼睑骨骼特征点的三维坐标，设定张开和闭合时的关键帧。通过在随机数得到的时间点设定关键帧，修改张开和闭合状态，以实现眨眼动画。

步骤S4：语音建模可以通过子步骤S4.1～步骤S4.2来实现。

步骤S4.1：文本转语音

运用文本-语音转换技术(Text To Speak,TTS)将外部输入的任意文字信息转换成标准的自然语言语音音频信息。

步骤S4.2：语音的语速和停顿的处理

人在交流时常常会有意地或无意地调节说话语速或者说话停顿。语音处理需要进行说话语速控制以及说话停顿处理的操作，可以通过子步骤S4.2.1～S4.2.2 来实现。

步骤S4.2.1：说话语速控制

为了模拟虚拟人说话，并让人脸动画效果更加逼真、声情并茂，需要做到口型变化与音频输出相匹配。

使用jar包Jacob调用微软SAPI引擎实现文本到音频的合成。SAPI中有几个参数，包括输出文件类型、音频音量、语速程度值rate。其中，rate为唇音同步控制的重要参数(阈值-10～10)，根据常人发音语速，可剔除部分rate值。根据语速v_speak，选择合适的rate值合成语音。对应不同语速，其相应的rate值如表8所示。

表8：rate值对应语速

步骤S4.2.2：说话停顿处理

在文本处理过程中，将几种会产生停顿的标点符号(逗号、句号、分号、问号、感叹号)的位置进行记录、存储，语音处理时，在这些位置处产生短暂停顿。

例如，输入文本为“我。。。实在跑。。。不动啦”，

(1)由步骤S2生成“我实在跑不动啦”的口型模型。

(2)在模拟人说话时，需要进行语速的控制。

(3)由步骤S3识别出程度副词“实在”，会对步骤S4的语音建模中的语速产生影响。

(4)同时，在输入文本中含有句号，表示停顿，则需要进行停顿处理。

因此，语速和停顿之间需要配合。

步骤S5：虚拟人脸合成，可以通过子步骤S5.1～S5.3来实现。

步骤S5.1：UV展开

如果要将人脸模型做到细致入微，需要一个高质量的真人贴图与人脸模型进行缝合，也就是将人脸模型所在三维空间的x、y、z坐标对应于真人贴图中的坐标u、v、w。由于实际应用中w坐标很少用到，所以只需要考虑u、v坐标。本发明将其定义为UV展开，可以将三维信息降维到二维信息。

对步骤S1.1得到的原始人脸几何模型进行展开。由于人脸模型为对称结构，可将其从正中间进行切割。如图9所示，切割线延伸到整个头颅。然后将其平铺到网格上，图10所示为模型UV展开平铺效果图。

步骤S5.2：人脸贴图制作

为了保证贴图效果与真人接近，将输入的真人正脸图像与侧脸图像两张图片进行拼接的方式来实现人脸展开图的制作，包括子步骤S5.2.1～S5.2.3。

步骤S5.2.1：正侧人脸图像对齐

将如图11所示的正脸图像与侧脸图像进行对齐，以眼角、嘴角等特征明显的部位为基准进行对齐。

步骤S5.2.2：图像边界虚化

对齐后的新图像中，将两张图像交界处进行虚化，使其接近匹配皮肤的颜色以达到自然贴合的效果。

步骤S5.2.3：贴图处理

将合成后的人脸展开图平铺于模型的展开网格上，拉伸图片以保证眼、鼻、口等器官对齐，固定人脸各个器官的位置后，拉伸图片使其完全覆盖于网格图上，最后由3Ds Max等三维制作软件可读取贴图后生成的人脸模型。

如图12所示，为图2原始人脸模型在贴图后的人脸模型示意图。

步骤S5.3：合成同步处理

将步骤S1～步骤S4所获得的结果进行集成，合成最终虚拟人脸。由真人图像合成人脸展开图，用于贴图得到个性化的真实人脸模型；由文本信息得到的口型变化和表情变化存储于同一个3Ds Max maxscript文件中，用于驱动模型中的骨骼特征点移动，生成关键帧和中间帧；由文本转化的音频为动画添加匹配的声音。如图13所示为合成后的虚拟人脸示意图。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟人脸的生成方法，其特征在于，包括：

2.如权利要求1所述的虚拟人脸的生成方法，其特征在于，步骤S2包括：

S2.3：引入动态视位来制作口型变化的中间帧；

3.如权利要求2所述的虚拟人脸的生成方法，其特征在于，步骤S2.2包括：

4.如权利要求2所述的虚拟人脸的生成方法，其特征在于，步骤S2.3包括：

5.如权利要求1所述的虚拟人脸的生成方法，其特征在于，步骤S3包括：

6.如权利要求5所述的虚拟人脸的生成方法，其特征在于，步骤S3.2包括：

S3.2.2：对输入文本进行分词处理；

7.如权利要求5所述的虚拟人脸的生成方法，其特征在于，步骤S3.3包括：