CN112734889A

CN112734889A - 一种2d角色的口型动画实时驱动方法和***

Info

Publication number: CN112734889A
Application number: CN202110188571.2A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Zhongke Shenzhi Technology Co ltd
Current assignee: Beijing Zhongke Shenzhi Technology Co ltd
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2021-04-30

Abstract

本发明公开了一种2D角色的口型动画实时驱动方法和***，其中方法包括：定义2D角色的基本口型动作集合；定义所述基本口型动作集合中的元素的权重变化曲线；设计不同音素对应的口型动画；获取输入音频流对应的音素序列；将所述音素序列中的每个所述音素映射到对应的所述口型动画上；将各所述口型动画相互拼接，最终得到所述音频流驱动的2D角色的完整口型动画。本发明通过事先定义的基本口型动作集合以及基本口型动作集合中的每个元素的权重变化曲线，将输入的音频流对应的音素序列映射到口型动画片段上，然后将各个口型动画片段互相拼接，最终输出音频流实时驱动的具有高逼真度、高自然度的2D角色口型动画。

Description

一种2D角色的口型动画实时驱动方法和***

技术领域

本发明涉及数据处理技术领域，具体涉及一种2D角色的口型动画实时驱动方法和***。

背景技术

口型是角色面部动画的关键视点，口型动画是否逼真、自然直接影响到角色面部整体动画的真实度，因此，口型动画的制作在电影、游戏以及虚拟现实等人机交互方式中占据着重要地位。

通过语音驱动口型动画是当下生成口型动画的一种主要方法。语音驱动口型动画即以一段语音信号为输入，生成一段与该信号同步的口型动画。语音驱动口型动画的原理为，将语音信号转化为由一串发音单元(音素)构成的序列，然后将这些音素表达为口型的可视化形态(视素)，最后将这些可视化形态拼接为口型动画。但现有的语音驱动口型动画的方法存在音素过渡不自然等问题，最主要的是由于口型动画生成过程复杂，口型动画与音频输入存在延时，无法将输入的音频流实时转化为口型动画，导致口型动画不够逼真、自然。

发明内容

本发明的目的在于提供一种2D角色的口型动画实时驱动方法，通过事先定义的基本口型动作集合以及基本口型动作集合中的每个元素的权重变化曲线，将输入的音频流对应的音素序列映射到口型动画片段上，然后将各个口型动画片段互相拼接，最终输出音频流实时驱动的具有高逼真度、高自然度的2D角色口型动画。

为达此目的，本发明采用以下技术方案：

提供一种2D角色的口型动画实时驱动方法，具体步骤包括：

1)定义2D角色的基本口型动作集合；

2)定义所述基本口型动作集合中的元素的权重变化曲线；

3)设计不同音素对应的口型动画；

4)获取输入音频流对应的音素序列；

5)将所述音素序列中的每个所述音素映射到对应的所述口型动画上；

6)将各所述口型动画相互拼接，最终得到所述音频流驱动的2D角色的完整口型动画。

作为本发明的一种优选方案，步骤1)中，选取FaceGen脸部模型创建软件中预设的其中6种口型动作作为2D角色的基本口型动作组成所述基本口型动作集合。

作为本发明的一种优选方案，步骤2)中，定义的所述基本口型动作集合中的各所述元素对应的所述权重变化曲线可通过以下公式表达：

上式中，i表示所述基本口型动作集合中的第i个所述元素；

“6”表示所述元素的数量；

表示所述基本口型动作集合中的其中一种基本口型动作在t时刻对应的所述权重变化曲线；

音素b为当前音素a的后继音素，音素a和音素b组成的所述音素序列对应一段所述口型动画。

作为本发明的一种优选方案，每段所述口型动画的持续时间为100ms。

作为本发明的一种优选方案，步骤5)中，将所述音素序列映射到所述口型动画上的方法步骤具体包括：

5.1)将所述音素序列中的每个所述音素与事先定义好的所述口型动画相关联；

5.2)判断的当前音素在发声变化阶段的持续时间是否大于或等于一预设的时长阈值，

若是，则将所关联的所述口型动画中处于稳定阶段的动画按照当前音素在发声稳定阶段的时长进行相应的尺度缩放，并将所关联的所述口型动画中处于变化阶段的动画填充到当前音素的发声变化阶段；

若否，则直接将所关联的所述口型动画中处于变化阶段的动画填充到目标位置，以使得填充后的动画片段与当前音素的前驱音素在时间轴上互相重叠。

本发明还提供了一种2D角色的口型动画实时驱动***，可实现所述的口型动画实时驱动方法，所述***包括：

口型动作定义模块，用于提供给设计师定义2D角色的基本口型动作，并形成基本口型动作集合；

权重变化曲线定义模块，用于提供给所述设计师定义所述基本口型动作集合中的每个元素的权重变化曲线；

口型动画设计模块，用于提供给所述设计师设计不同音素对应的口型动画；

音频流获取模块，用于实时获取输入的音频流；

音频流转换模块，连接所述音频流获取模块，用于将所述音频流转换为对应的音素序列；

口型动画映射模块，分别连接所述音频流转换模块和所述口型动画设计模块，用于将所述音素序列映射到对应的口型动画上；

口型动画拼接模块，连接所述口型动画映射模块，用于将各所述口型动画互相拼接，输出所述音频流驱动的2D角色口型动画。

作为本发明的一种优选方案，所述口型动画映射模块中包括：

口型动画匹配单元，用于将所述音素序列中的每个音素与事先定义好的所述口型动画相匹配；

时长阈值设置单元，用于提供给所述设计师预设一时长阈值；

音素发声变化持续时长计算单元，用于计算当前音素在发声变化阶段的持续时间是否大于预设的时长阈值；

时长判断单元，分别连接所述时长阈值设置单元和所述音素发声变化持续时长计算单元，用于判断当前音素在发声变化阶段的持续时间是否大于或等于预设的所述时长阈值；

尺度缩放单元，连接所述时长判断单元，用于在判断到当前音素在发声变化阶段的持续时间大于或等于预设的所述时长阈值时，将与当前音素具有匹配关系的所述口型动画中处于稳定阶段的动画按照当前音素的在发声稳定阶段的时长进行相应的尺度缩放；

动画填充单元，连接所述尺度缩放单元，用于将经尺度缩放后的动画以及未经尺度缩放的动画填充到对应的目标位置，以使得填充后的动画片段与当前音素的前驱音素在时间轴上互相重叠。

本发明通过事先定义的基本口型动作集合以及基本口型动作集合中的每个元素的权重变化曲线，将输入的音频流对应的音素序列映射到口型动画片段上，然后将各个口型动画片段互相拼接，最终输出音频流实时驱动的具有高逼真度、高自然度的2D角色口型动画。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的2D角色的口型动画实时驱动方法的实现步骤图；

图2是将音素序列映射到口型动画上的方法步骤图；

图3是本发明一实施例提供的2D角色的口型动画实时驱动***的结构示意图；

图4是口型动画实时驱动***中的口型动画映射模块的内部结构示意图；

图5是实现口型动画实时驱动方法的原理图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明一实施例提供的一种2D角色的口型动画实时驱动方法，如图1和图5所示，具体包括：

步骤1)定义2D角色的基本口型动作集合；

步骤2)定义基本口型动作集合中的每个元素(基本口型动作)的权重变化曲线(每个基本口型动作的权重随时间的变化规律)；

步骤3)设计不同音素(语音信号可被转化为由一串发音单元构成的序列，这些发音单元被称为音素)对应的口型动画；

步骤4)获取输入音频流对应的音素序列；

步骤5)将音素序列中的每个音素映射到对应的口型动画上；

步骤6)将各口型动画相互拼接，最终得到音频流驱动的2D角色的完整口型动画。

在定义2D角色的基本口型动作集合之前，本发明首先对音素进行了分类。Timit语音库是目前声学语音研究中常用的语音数据库。Timit语音库包含由八种主要美国英文方言组成的630个扬声器的宽带录音，每个方言都有10个语音丰富的句子。Timit语音库定义了46种不同的音素。设计师在设计每个音素对应的口型动画时，需要考虑其后继音素的每种可能情况，因此，对于这46种音素，设计师需要设计2000多段不同的口型动画，这个工作量无疑是非常庞大的。所以为了减少口型动画的设计数量，本发明将表现为相似口型动作的不同音素归为一类，通过这种归类方法将46种音素归纳为16个音素类别，设计师仅需要对这16个音素类别设计对应的口型动画，工作量大幅降低，而且有利于后续口型动画映射的速度，进而大幅提升2D角色的完整口型动画的生成速度。

步骤1)中，本发明选取FaceGen脸部模型创建软件中预设的其中6种口型动作作为2D角色的基本口型动作组成基本口型动作集合。

一段口型动画由两个音素决定，比如该段口型动画中正在发音的音素为a，音素a的后继音素为b，则该段口型动画可表示为A(a,b)。每段口型动画由6条权重变化曲线构成，每条权重变化曲线对应表示6种口型动作中的其中一种口型动作在该段口型动画中按时间轴的变化趋势。基本口型动作中的各元素对应的权重变化曲线可通过以下公式表示：

上式中，i表示基本口型动作集合中的第i个元素；

“6”表示元素的数量；

表示基本口型动作集合中的其中一种基本口型动作在t时刻对应的权重变化曲线；

音素b为当前音素a的后继音素，音素a和音素b组成的音素序列对应一段口型动画。

为了保证2D角色口型动画的流畅性，提升2D角色口型动画的真实度，优选地，每段口型动画的持续时间为100ms。

人类在发声的时候，其唇部会迅速做出相应的动作，然后在这个动作上稳定下来，并且开始发声。基于这个特点，本发明将2D角色的发声过程分为两个阶段：稳定阶段和变化阶段。在稳定阶段，唇部拥有与当前正在发音的音素相对应的稳定的动作。在变化阶段，唇部的动作则迅速向下一个音素对应的动作转化。一般情况下，发音稳定阶段的持续时间受语速快慢等多种因素影响，而变化阶段的持续时间接近，可视为是恒定的。

每段口型动画都包含发音稳定阶段和变化阶段。稳定阶段表示当前音素对应的口型动作，变化阶段则表示当前因素向其后继音素进行过度的口型动作。由于发音稳定阶段的持续时长通常并不一致，所以需要对口型动画进行尺度缩放，以与发音的时长相匹配，让2D角色的口型动画看起来更加的自然、逼真。因此，如图2所示，步骤5)中，将音素序列映射到口型动画上的方法步骤具体包括：

步骤5.1)将音素序列中的每个音素与事先定义好的口型动画相关联；

步骤5.2)判断当前音素在发声变化阶段的持续时间是否大于或等于一预设的时长阈值(优选为30～50ms)，

若是，则将所关联的口型动画中处于稳定阶段的动画按照当前音素在发声稳定阶段的时长进行相应的尺度缩放，并将所关联的口型动画中处于变化阶段的动画填充到当前音素的发声变化阶段；

若否，则直接将所关联的口型动画中处于变化阶段的动画填充到目标位置，以使得填充后的动画片段与当前音素的前驱音素在时间轴上互相重叠。

综上，本发明通过事先定义的基本口型动作集合以及基本口型动作集合中的每个元素的权重变化曲线，将输入的音频流对应的音素序列映射到口型动画片段上，然后将各个口型动画片段互相拼接，最终输出音频流实时驱动的具有高逼真度、高自然度的2D角色口型动画。

本发明还提供了一种2D角色的口型动画实时驱动***，可实现上述的口型动画实时驱动方法，如图3所示，该***包括：

口型动作定义模块，用于提供给设计师定义2D角色的基本口型动作，并形成基本口型动作集合；本发明优选选取FaceGen脸部模型创建软件中预设的其中6种口型动作作为2D角色的基本口型动作。

权重变化曲线定义模块，用于提供给设计师定义基本口型动作集合中的每个元素的权重变化曲线；关于权重变化曲线的计算方法和功能作用在上述的口型动画实时驱动方法中作了具体阐述，在此不再赘述。

口型动画设计模块，用于提供给设计师设计不同音素对应的口型动画；

音频流获取模块，用于实时获取输入的音频流；

音频流转换模块，连接音频流获取模块，用于将输入的音频流转换为对应的音素序列；

口型动画映射模块，分别连接音频流转换模块和口型动画设计模块，用于将音素序列映射到对应的口型动画上；

口型动画拼接模块，连接口型动画映射模块，用于将各口型动画互相拼接，输出音频流驱动的2D角色口型动画。

如图4所示，口型动画映射模块中具体包括：

口型动画匹配单元，用于将音素序列中的每个音素与事先定义好的口型动画相匹配；

时长阈值设置单元，用于提供给设计师预设一时长阈值；

时长判断单元，分别连接时长阈值设置单元和音素发声变化持续时长计算单元，用于判断当前音素在发声变化阶段的持续时间是否大于或等于预设的时长阈值；

尺度缩放单元，连接时长判断单元，用于在判断到当前音素在发声变化阶段的持续时间大于或等于预设的时长阈值时，将与当前音素具有匹配关系的口型动画中处于稳定阶段的动画按照当前音素的在发声稳定阶段的时长进行相应的尺度缩放；

动画填充单元，连接尺度缩放单元，用于将经尺度缩放后的动画以及未经尺度缩放的动画填充到目标位置，以使得填充后的动画片段与当前音素的前驱音素在时间轴上互相重叠。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种2D角色的口型动画实时驱动方法，其特征在于，具体步骤包括：

1)定义2D角色的基本口型动作集合；

2)定义所述基本口型动作集合中的元素的权重变化曲线；

3)设计不同音素对应的口型动画；

4)获取输入音频流对应的音素序列；

2.根据权利要求1所述的口型动画实时驱动方法，其特征在于，步骤1)中，选取FaceGen脸部模型创建软件中预设的其中6种口型动作作为2D角色的基本口型动作组成所述基本口型动作集合。

3.根据权利要求1所述的口型动画实时驱动方法，其特征在于，步骤2)中，定义的所述基本口型动作集合中的各所述元素对应的所述权重变化曲线可通过以下公式表达：

上式中，i表示所述基本口型动作集合中的第i个所述元素；

“6”表示所述元素的数量；

4.根据权利要求3所述的口型动画实时驱动方法，其特征在于，每段所述口型动画的持续时间为100ms。

5.根据权利要求1所述的口型动画实时驱动方法，其特征在于，步骤5)中，将所述音素序列映射到所述口型动画上的方法步骤具体包括：

6.一种2D角色的口型动画实时驱动***，可实现如权利要求1-5任意一项所述的口型动画实时驱动方法，其特征在于，所述***包括：

音频流获取模块，用于实时获取输入的音频流；

7.根据权利要求6所述的口型动画实时驱动***，其特征在于，所述口型动画映射模块中包括：