CN117557692A

CN117557692A - 口型动画生成方法、装置、设备和介质

Info

Publication number: CN117557692A
Application number: CN202210934101.0A
Authority: CN
Inventors: 刘凯
Original assignee: Shenzhen Tencent Domain Computer Network Co Ltd
Current assignee: Shenzhen Tencent Domain Computer Network Co Ltd
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2024-02-13
Also published as: US20240203015A1; WO2024027307A1

Abstract

本申请涉及一种口型动画生成方法、装置、设备和介质。所述方法包括：基于目标音频进行特征分析，生成视素特征流数据；视素特征流数据中包括多组有序的视素特征数据；每组视素特征数据对应于目标音频中的一帧音频帧；分别对每组视素特征数据进行解析，得到与视素特征数据对应的视素信息和强度信息；强度信息，用于表征视素信息所对应的视素的变化强度；根据各组视素特征数据对应的视素信息和强度信息，控制虚拟脸部变化，以生成与目标音频对应的口型动画。采用本方法能够提升口型动画生成效率。

Description

口型动画生成方法、装置、设备和介质

技术领域

本申请涉及动画生成技术，特别是涉及一种口型动画生成方法、装置、设备和介质。

背景技术

在很多动画场景中，经常存在虚拟对象说话或交流的场景。虚拟对象说话或交流的时候需要相应的口型动画去呈现。比如，在电子游戏场景中，需要生成口型动画去呈现虚拟对象(比如，虚拟人物)说话或交流的场景，以使得游戏更加生动逼真。传统技术中，通常需要美术师先手动制作出数十种口型，然后，动画师再基于美术师预先制作好的口型进行动画制作，得到相应的口型动画。然而，这种通过人工手动制作口型动画的方式，需要花费大量的制作时间，从而导致口型动画生成效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升口型动画生成效率的口型动画生成方法、装置、设备和介质。

第一方面，本申请提供了一种口型动画生成方法，所述方法包括：

基于目标音频进行特征分析，生成视素特征流数据；所述视素特征流数据中包括多组有序的视素特征数据；每组视素特征数据对应于所述目标音频中的一帧音频帧；

分别对每组所述视素特征数据进行解析，得到与所述视素特征数据对应的视素信息和强度信息；所述强度信息，用于表征所述视素信息所对应的视素的变化强度；

根据各组所述视素特征数据对应的视素信息和强度信息，控制虚拟脸部变化，以生成与所述目标音频对应的口型动画。

第二方面，本申请提供了一种口型动画生成装置，所述装置包括：

生成模块，用于基于目标音频进行特征分析，生成视素特征流数据；所述视素特征流数据中包括多组有序的视素特征数据；每组视素特征数据对应于所述目标音频中的一帧音频帧；

解析模块，用于分别对每组所述视素特征数据进行解析，得到与所述视素特征数据对应的视素信息和强度信息；所述强度信息，用于表征所述视素信息所对应的视素的变化强度；

控制模块，用于根据各组所述视素特征数据对应的视素信息和强度信息，控制虚拟脸部变化，以生成与所述目标音频对应的口型动画。

在一个实施例中，所述生成模块还用于基于目标音频进行特征分析，得到音素流数据；所述音素流数据中包括多组有序的音素数据；每组音素数据对应于所述目标音频中的一帧音频帧；针对每组音素数据，根据预设的音素与视素的映射关系，对所述音素数据进行分析处理，得到所述音素数据对应的视素特征数据；根据各组音素数据分别对应的视素特征数据，生成视素特征流数据。

在一个实施例中，所述生成模块还用于确定所述目标音频相匹配的文本；将所述目标音频和所述文本进行对齐处理，根据对齐处理结果解析生成音素流数据。

在一个实施例中，所述视素特征数据中包括至少一个视素字段和至少一个强度字段；所述解析模块还用于针对每组所述视素特征数据，将所述视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，得到与所述视素特征数据对应的视素信息；对所述视素特征数据中的强度字段进行解析，得到与所述视素特征数据对应的强度信息。

在一个实施例中，所述视素字段包括至少一个单一发音视素字段和至少一个协同发音视素字段；所述视素列表中的视素包括至少一个单一发音视素和至少一个协同发音视素；所述解析模块还用于针对每组所述视素特征数据，将所述视素特征数据中的各个单一发音视素字段，分别与所述视素列表中的各个单一发音视素相映射；将所述视素特征数据中的各个协同发音视素字段，分别与所述视素列表中的各个协同发音视素相映射，得到与所述视素特征数据对应的视素信息。

在一个实施例中，所述控制模块还用于针对每组所述视素特征数据，通过所述视素特征数据对应的视素信息，向动画制作界面中的口型控件进行赋值，通过所述视素特征数据对应的强度信息，向所述动画制作界面中的强度控件进行赋值；通过赋值后的口型控件和赋值后的强度控件，控制虚拟脸部变化，以生成与所述视素特征数据对应的口型关键帧；根据各组视素特征数据分别对应的口型关键帧，生成与所述目标音频对应的口型动画。

在一个实施例中，所述视素信息包括至少一个单一发音视素参数和至少一个协同发音视素参数；所述口型控件包括至少一个单一发音口型控件和至少一个协同发音口型控件；所述控制模块还用于针对每组视素特征数据，通过所述视素特征数据对应的各个单一发音视素参数，分别向动画制作界面中的各个单一发音口型控件进行赋值；通过所述视素特征数据对应的各个协同发音视素参数，分别向动画制作界面中的各个协同发音口型控件进行赋值。

在一个实施例中，所述强度信息包括水平强度参数和垂直强度参数；所述强度控件包括水平强度控件和垂直强度控件；所述控制模块还用于通过所述视素特征数据对应的水平强度参数，向所述动画制作界面中的水平强度控件进行赋值；通过所述视素特征数据对应的垂直强度参数，向所述动画制作界面中的垂直强度控件进行赋值。

在一个实施例中，所述控制模块还用于响应于针对所述口型控件的触发操作，对所述赋值后的口型控件和所述赋值后的强度控件中的至少一种进行控件参数更新；通过所述更新后的控件参数，控制虚拟脸部变化。

在一个实施例中，所述动画制作界面中的各个口型控件分别与相应的运动单元具有映射关系；每个运动单元用于控制所述虚拟脸部的相应区域产生变化；所述控制模块还用于针对每个赋值后的口型控件所映射的运动单元，根据匹配的强度控件的运动强度参数，确定所述运动单元的目标运动参数；所述匹配的强度控件，是与所述赋值后的口型控件对应的赋值后的强度控件；根据具备所述目标运动参数的运动单元，控制虚拟脸部的相应区域产生变化，以生成与所述视素特征数据对应的口型关键帧。

在一个实施例中，所述控制模块还用于针对每个赋值后的口型控件所映射的运动单元，将匹配的强度控件的运动强度参数与所述运动单元的初始动画参数进行加权，得到所述运动单元的目标运动参数。

在一个实施例中，所述控制模块还用于针对每组视素特征数据对应的口型关键帧，将所述视素特征数据对应的口型关键帧与所述视素特征数据对应的时间戳进行绑定记录，得到所述口型关键帧对应的记录结果；根据各个口型关键帧分别对应的记录结果，得到与所述目标音频对应的动画播放曲线；根据所述动画播放曲线对各个口型关键帧进行按序播放，得到与所述目标音频对应的口型动画。

第三方面，本申请提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请各方法实施例中的步骤。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现本申请各方法实施例中的步骤。

第五方面，本申请提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本申请各方法实施例中的步骤。

上述口型动画生成方法、装置、设备、介质和计算机程序产品，基于目标音频进行特征分析，生成视素特征流数据。视素特征流数据中包括多组有序的视素特征数据，每组视素特征数据对应于目标音频中的一帧音频帧。通过分别对每组视素特征数据进行解析，可以得到与视素特征数据对应的视素信息和强度信息，强度信息，用于表征视素信息所对应的视素的变化强度。由于视素信息可以用于指示相应的视素，以及强度信息可以用于指示相应视素的张弛程度。因此，根据各组视素特征数据对应的视素信息和强度信息，可以控制虚拟脸部产生相应变化，以自动生成与目标音频对应的口型动画。相较于传统的手动制作口型动画的方式，本申请通过将目标音频解析为可以驱动虚拟脸部产生变化的视素特征流数据，从而通过视素特征流数据自动驱动虚拟脸部产生变化，以自动生成与目标音频对应的口型动画，缩短了口型动画的生成时间，从而提升了口型动画的生成效率。

附图说明

图1为一个实施例中口型动画生成方法的应用环境图；

图2为一个实施例中口型动画生成方法的流程示意图；

图3为一个实施例中视素特征流数据示意图；

图4为一个实施例中视素列表中的各个视素示意图；

图5为一个实施例中视素的强度说明示意图；

图6为一个实施例中音素与视素的映射关系示意图；

图7为一个实施例中对每组视素特征数据进行解析的原理示意图；

图8为一个实施例中协同发音视素的说明示意图；

图9为一个实施例中动画制作界面示意图；

图10为一个实施例中运动单元说明示意图；

图11为一个实施例中运动单元控制虚拟脸部的相应区域的原理示意图；

图12为一个实施例中一些基础的运动单元示意图；

图13为一个实施例中一些附加的运动单元示意图；

图14为一个实施例中音素、视素和运动单元之间的映射关系示意图；

图15为另一个实施例中动画制作界面示意图；

图16为一个实施例中动画播放曲线示意图；

图17为一个实施例中口型动画生成的总体架构图；

图18为一个实施例中口型动画生成的操作流程示意图；

图19为一个实施例中资产文件生成示意图；

图20为另一个实施例中资产文件生成示意图；

图21为又一个实施例中资产文件生成示意图；

图22为一个实施例中为预先创建的动画序列添加目标音频和相应的虚拟对象角色的操作界面示意图；

图23为一个实施例中自动生成口型动画的操作界面示意图；

图24为一个实施例中最终生成的口型动画示意图；

图25为另一个实施例中口型动画生成方法的流程示意图；

图26为一个实施例中口型动画生成装置的结构框图；

图27为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的口型动画生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储***可以存储服务器104需要处理的数据。数据存储***可以集成在服务器104上，也可以放在云上或其他服务器上。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

终端102可基于目标音频进行特征分析，生成视素特征流数据；视素特征流数据中包括多组有序的视素特征数据；每组视素特征数据对应于目标音频中的一帧音频帧。终端102可分别对每组视素特征数据进行解析，得到与视素特征数据对应的视素信息和强度信息；强度信息，用于表征视素信息所对应的视素的变化强度。终端102可根据各组视素特征数据对应的视素信息和强度信息，控制虚拟脸部变化，以生成与目标音频对应的口型动画。

可以理解，服务器104可将目标音频发送给终端102，终端102可基于目标音频进行特征分析，生成视素特征流数据。还可以理解，终端102可将生成的与目标音频对应的口型动画发送至服务器102中进行存储。本实施例对此不做限定，可以理解，图1中的应用场景仅为示意说明，并不限定于此。

需要说明的是，本申请一些实施例中的口型动画生成方法使用到了人工智能技术。比如，本申请中的视素特征流数据，则属于使用人工智能技术解析得到。

在一个实施例中，如图2所示，提供了一种口型动画生成方法，本实施例以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

步骤202，基于目标音频进行特征分析，生成视素特征流数据；视素特征流数据中包括多组有序的视素特征数据；每组视素特征数据对应于目标音频中的一帧音频帧。

其中，视素特征流数据，是用于表征视素特征的流式数据。视素特征流数据由多组有序的视素特征数据组成。视素特征数据，是用于表征相应视素的特征的单组数据。可以理解，一组视素特征数据对应于目标音频中的一帧音频帧，一组视素特征数据用于描述视素的特征。举例说明，参考图3，视素特征流数据中的其中一组视素特征数据，即“0.3814，0.4531，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.5283，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000”，其中，“0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.5283，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000”这二十个视素字段对应的数值分别用于描述预设的二十个视素。由这一组视素特征数据可知，只有第十个视素字段对应的数值为非零值，即“0.5283”，因此，该组视素特征数据可用于输出第十个视素字段对应的视素给用户。而“0.3814，0.4531”这两个强度字段对应的数值则可用于描述该被驱动的视素(即，第十个视素字段对应的视素)的变化强度。视素，是可视化的嘴型单位，可以理解，可视化的嘴型即为一种视素。可以理解，在虚拟人物说话的时候，虚拟人物的嘴巴会根据说话内容的不同而产生不同的嘴型(即视素)。比如，在虚拟人物说“a”的时候，虚拟人物的嘴巴会呈现出与“a”发音相匹配的视素。

具体地，终端可获取目标音频，并对目标音频进行分帧处理，得到多个音频帧。针对每一组音频帧，终端可对该音频帧进行特征分析，得到与该音频帧对应的视素特征数据。进而，终端可根据各个音频帧分别对应的视素特征数据，生成与目标音频对应的视素特征流数据。

在一个实施例中，终端可基于目标音频进行特征分析，得到音素流数据。进而，终端可对音素流数据进行分析处理，生成与目标音频对应的视素特征流数据。其中，音素流数据，是由音素组成的流式数据。音素，是根据语音的自然属性划分得到的最小语音单位。举例说明，“普通话”由八个音素，即“p,u,t,o,ng,h,u,a”组成。

在一个实施例中，图3为视素特征流数据的其中一部分。视素特征流数据中包括多组有序的视素特征数据(可以理解，图3中的每一行为一组视素特征数据)，每组视素特征数据对应于目标音频中的一帧音频帧。

步骤204，分别对每组视素特征数据进行解析，得到与视素特征数据对应的视素信息和强度信息；强度信息，用于表征视素信息所对应的视素的变化强度。

其中，视素信息，是用于描述视素的信息。为便于理解，现举例说明，参考图3，视素特征流数据中的其中一组视素特征数据，即“0.3814，0.4531，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.5283，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000，0.0000”，在对该组视素特征数据进行解析之后，可以得到与该组视素特征数据对应的视素信息。由这一组视素特征数据可知，只有第十个视素字段对应的数值为非零值，即“0.5283”，因此，该组视素特征数据可用于输出第十个视素字段对应的视素给用户，则该组视素特征数据对应的视素信息，则可用于描述第十个视素字段对应的视素的伴随强度信息(即，第十个视素字段对应的视素的伴随强度为0.5283)。可以理解，伴随强度信息可独立于解析得到的强度信息，不受解析得到的强度信息的影响。可以理解，针对每一组视素特征数据，该组视素特征数据对应的视素信息可以用于指示该组视素特征数据对应的视素。

具体地，视素特征数据中包括至少一个特征字段。终端可分别对每组视素特征数据中的各个特征字段进行解析，得到与视素特征数据对应的视素信息和强度信息。其中，特征字段是用于描述视素特征的字段。

在一个实施例中，参考图4，预设的视素列表中包括20个视素，即视素1至视素20。

在一个实施例中，强度信息可用于表征视素信息所对应的视素的变化强度。如图5所示，强度信息可划分为五个阶段的强度信息，即，第一阶段的强度信息对应的强度变化范围为0-20％，第二阶段的强度信息对应的强度变化范围为20％-40％，第三阶段的强度信息对应的强度变化范围为40％-65％，第四阶段的强度信息对应的强度变化范围为65％-85％，第五阶段的强度信息对应的强度变化范围为85％-100％。举例说明，针对某组视素特征数据进行解析，可以得到该组视素特征数据对应的视素信息和强度信息，若该组视素特征数据对应的视素信息所控制输出的视素为图4中的视素1，则该组视素特征数据对应的强度信息可用于表征视素1的变化强度。

步骤206，根据各组视素特征数据对应的视素信息和强度信息，控制虚拟脸部变化，以生成与目标音频对应的口型动画。

其中，虚拟脸部是虚拟对象的脸部。口型动画，是由多帧口型关键帧组成的动画序列。

具体地，针对每一组视素特征数据，终端可根据该组视素特征数据对应的视素信息和强度信息，控制虚拟脸部产生变化，得到该组视素特征数据对应的口型关键帧。进而，终端可根据各组视素特征数据分别对应的口型关键帧，生成与目标音频对应的口型动画。

上述口型动画生成方法中，基于目标音频进行特征分析，生成视素特征流数据。视素特征流数据中包括多组有序的视素特征数据，每组视素特征数据对应于目标音频中的一帧音频帧。通过分别对每组视素特征数据进行解析，可以得到与视素特征数据对应的视素信息和强度信息，强度信息，用于表征视素信息所对应的视素的变化强度。由于视素信息可以用于指示相应的视素，以及强度信息可以用于指示相应视素的张弛程度。因此，根据各组视素特征数据对应的视素信息和强度信息，可以控制虚拟脸部产生相应变化，以自动生成与目标音频对应的口型动画。相较于传统的手动制作口型动画的方式，本申请通过将目标音频解析为可以驱动虚拟脸部产生变化的视素特征流数据，从而通过视素特征流数据自动驱动虚拟脸部产生变化，以自动生成与目标音频对应的口型动画，缩短了口型动画的生成时间，从而提升了口型动画的生成效率。

在一个实施例中，基于目标音频进行特征分析，生成视素特征流数据，包括：基于目标音频进行特征分析，得到音素流数据；音素流数据中包括多组有序的音素数据；每组音素数据对应于目标音频中的一帧音频帧；针对每组音素数据，根据预设的音素与视素的映射关系，对音素数据进行分析处理，得到音素数据对应的视素特征数据；根据各组音素数据分别对应的视素特征数据，生成视素特征流数据。

具体地，终端可获取目标音频，并对目标音频中的每一帧音频帧进行特征分析，得到目标音频对应的音素流数据。针对音素流数据中的每一组音素数据，终端可根据预设的音素与视素的映射关系，对音素数据进行分析处理，得到该音素数据对应的视素特征数据。进而，终端可根据各组音素数据分别对应的视素特征数据，生成视素特征流数据。

在一个实施例中，终端可直接对目标音频进行特征分析，得到目标音频对应的音素流数据。

在一个实施例中，预设的音素与视素的映射关系可如图6所示。从图6可知，一个视素可与一个或多个音素相映射。

上述实施例中，通过将目标音频分析得到音素流数据，并根据预设的音素与视素的映射关系，再进一步对音素数据进行分析处理，可以得到音素数据对应的视素特征数据，提升视素特征流数据的准确率。

在一个实施例中，基于目标音频进行特征分析，得到音素流数据，包括：确定目标音频相匹配的文本；将目标音频和文本进行对齐处理，根据对齐处理结果解析生成音素流数据。

具体地，终端可获取与目标音频相匹配的文本，并获取该文本对应的参考音素流数据。终端可对目标音频进行语音识别，得到初始音素流数据。进而，终端可将初始音素流数据和参考音素流数据进行对齐，得到目标音频对应的音素流数据。其中，将初始音素流数据和参考音素流数据进行对齐，可以理解为，通过参考音素流数据对初始音素流数据中的各个音素进行查缺补漏。举例说明，目标音频为“普通话”，其由“p,u,t,o,ng,h,u,a”八个音素组成。终端对目标音频进行语音识别，得到的初始音素流数据可能为“p,u,t,ng,h,u,a”，遗漏了第四个音素“o”。此时，终端可通过文本对应的参考音素流数据“p,u,t,o,ng,h,u,a”，将初始音素流数据中识别遗漏的“o”进行补充，得到目标音频对应的音素流数据“p,u,t,o,ng,h,u,a”，这样可以提升获取得到的音素流数据的准确率。

在一个实施例中，终端可对目标音频进行语音识别，得到与目标音频相匹配的文本。在一个实施例中，终端还可直接获取与目标音频相匹配的文本。

为便于理解，举例说明，目标音频所记录的语音数据为用户正在说“普通话”，文本中记录有“普通话”这三个文本形式的文字，则该文本为与目标音频相匹配的文本。

上述实施例中，通过将目标音频和与目标音频相匹配的文本进行对齐处理，并根据对齐处理结果解析生成音素流数据，可以提升音素流数据的准确率，从而进一步提升视素特征流数据的准确率。

在一个实施例中，视素特征数据中包括至少一个视素字段和至少一个强度字段；分别对每组视素特征数据进行解析，得到与视素特征数据对应的视素信息和强度信息，包括：针对每组视素特征数据，将视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，得到与视素特征数据对应的视素信息；对视素特征数据中的强度字段进行解析，得到与视素特征数据对应的强度信息。

其中，视素字段，是用于描述视素的类型的字段。强度字段，是用于描述视素的强度的字段。

可以理解，上述视素特征数据中的特征字段，包括至少一个视素字段和至少一个强度字段。

在一个实施例中，参考图3，图3所示的视素特征流数据中包括2个强度字段和20个视素字段。可以理解，图3中的每一个浮点值对应一个字段。

具体地，针对每组视素特征数据，终端可将视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素(即，图4中所示的视素列表中的各个视素)进行映射，得到与视素特征数据对应的视素信息。可以理解，一个视素字段映射至视素列表中的一个视素。终端可对视素特征数据中的强度字段进行解析，得到与视素特征数据对应的强度信息。

在一个实施例中，图7为针对一组视素特征数据的解析过程。终端可将该视素特征数据中的20个视素字段，分别与预设的视素列表中的20个视素(即，视素1至视素20)进行映射，得到与视素特征数据对应的视素信息，并对视素特征数据中的2个强度字段(即，分别用于表征下巴和嘴唇的张弛程度的强度字段)进行解析，得到与视素特征数据对应的强度信息。

上述实施例中，通过将视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，可以得到与视素特征数据对应的视素信息，从而提升视素信息的准确率。通过对视素特征数据中的强度字段进行解析，可以得到与视素特征数据对应的强度信息，从而提升强度信息的准确率。

在一个实施例中，视素字段包括至少一个单一发音视素字段和至少一个协同发音视素字段；视素列表中的视素包括至少一个单一发音视素和至少一个协同发音视素；针对每组视素特征数据，将视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，得到与视素特征数据对应的视素信息，包括：针对每组视素特征数据，将视素特征数据中的各个单一发音视素字段，分别与视素列表中的各个单一发音视素相映射；将视素特征数据中的各个协同发音视素字段，分别与视素列表中的各个协同发音视素相映射，得到与视素特征数据对应的视素信息。

其中，单一发音视素字段，是用于描述单一发音视素的类型的字段。协同发音视素字段，是用于描述协同发音视素的类型的字段。单一发音视素，是单一发音的视素。协同发音视素，是协同发音的视素。

在一个实施例中，如图8所示，协同发音包括2个垂直方向的闭合音，即协同发音闭合音1和协同发音闭合音2。协同发音还包括2个水平方向的持续音，即协同发音持续音1和协同发音持续音2。

举例说明，“sue”中发“s”音时，“s”必须紧接着发“u”音位的嘟嘴，而在“see”中发“s”音时，“s”不会出现“u”。也就是说，“sue”的发音期间，需要激活持续音“u”，而“see”的发音期间就不需要激活持续音。可以理解，“sue”的发音中存在协同发音音素，“see”的发音中存在单一发音视素。

在一个实施例中，参考图3，视素字段包括16个单一发音视素字段和4个协同发音视素字段。

具体地，针对每组视素特征数据，终端可将视素特征数据中的各个单一发音视素字段，分别与视素列表中的各个单一发音视素相映射，可以理解，一个单一发音视素字段映射至视素列表中的一个单一发音视素。终端可将视素特征数据中的各个协同发音视素字段，分别与视素列表中的各个协同发音视素相映射，得到与视素特征数据对应的视素信息。可以理解，一个协同发音视素字段映射至视素列表中的一个协同发音视素。

上述实施例中，通过将视素特征数据中的各个单一发音视素字段，分别与视素列表中的各个单一发音视素相映射，可以提升单一发音视素字段与单一发音视素之间的映射准确率。以及，通过将视素特征数据中的各个协同发音视素字段，分别与视素列表中的各个协同发音视素相映射，可以提升协同发音视素字段与协同发音视素之间的映射准确率，从而可以使得到的与视素特征数据对应的视素信息的准确率提升。

在一个实施例中，根据各组视素特征数据对应的视素信息和强度信息，控制虚拟脸部变化，以生成与目标音频对应的口型动画，包括：针对每组视素特征数据，通过视素特征数据对应的视素信息，向动画制作界面中的口型控件进行赋值；通过视素特征数据对应的强度信息，向动画制作界面中的强度控件进行赋值；通过赋值后的口型控件和赋值后的强度控件，控制虚拟脸部变化，以生成与视素特征数据对应的口型关键帧；根据各组视素特征数据分别对应的口型关键帧，生成与目标音频对应的口型动画。

其中，动画制作界面，是用于制作口型动画的可视化界面。口型控件，是用于控制输出视素的可视化控件。强度控件，是用于控制视素的变化强度的可视化控件。

具体地，针对每组视素特征数据，终端可通过视素特征数据对应的视素信息，自动向终端的动画制作界面中的口型控件进行赋值，同时，终端还可通过视素特征数据对应的强度信息，自动向终端的动画制作界面中的强度控件进行赋值。进而，终端可通过赋值后的口型控件和赋值后的强度控件，自动控制虚拟脸部变化，以生成与视素特征数据对应的口型关键帧。终端可根据各组视素特征数据分别对应的口型关键帧，生成与目标音频对应的口型动画。

在一个实施例中，如图9所示，动画制作界面中包括20个口型控件(即，图9中902展示的口型控件1至口型控件16，903中展示的口型控件17至口型控件20)，以及分别与相应口型控件对应的强度控件(即图9中901所展示的控件)。

上述实施例中，通过视素特征数据对应的视素信息，自动向动画制作界面中的口型控件进行赋值，以及，通过视素特征数据对应的强度信息，自动向动画制作界面中的强度控件进行赋值，从而通过赋值后的口型控件和赋值后的强度控件，自动控制虚拟脸部变化，从而自动生成与目标音频对应的口型动画，可以使得口型动画的生成过程实现自动化，从而提升口型动画的生成效率。

在一个实施例中，视素信息包括至少一个单一发音视素参数和至少一个协同发音视素参数；口型控件包括至少一个单一发音口型控件和至少一个协同发音口型控件；针对每组视素特征数据，通过视素特征数据对应的视素信息，向动画制作界面中的口型控件进行赋值，包括：针对每组视素特征数据，通过视素特征数据对应的各个单一发音视素参数，分别向动画制作界面中的各个单一发音口型控件进行赋值；通过视素特征数据对应的各个协同发音视素参数，分别向动画制作界面中的各个协同发音口型控件进行赋值。

其中，单一发音视素参数，是单一发音视素对应的参数。协同发音视素参数，是协同发音视素对应的参数。单一发音口型控件，是单一发音视素对应的口型控件。协同发音口型控件，是协同发音视素对应的口型控件。

在一个实施例中，参考图7，视素信息包括16个单一发音视素参数(即，图7中视素1至视素16对应的视素参数)，以及4个协同发音视素参数(即，图7中视素17至视素20对应的视素参数)。

在一个实施例中，参考图9，口型控件包括16个单一发音口型控件(即，图9中的902所示的口型控件1至口型控件16)，以及4个协同发音口型控件(即，图9中的903所示的口型控件17至口型控件20)。

具体地，针对每组视素特征数据，终端可通过视素特征数据对应的各个单一发音视素参数，分别自动向终端的动画制作界面中的各个单一发音口型控件进行赋值。同时，终端还可通过视素特征数据对应的各个协同发音视素参数，分别自动向终端的动画制作界面中的各个协同发音口型控件进行赋值。

上述实施例中，通过视素特征数据对应的各个单一发音视素参数，分别自动向动画制作界面中的各个单一发音口型控件进行赋值，以及，通过视素特征数据对应的各个协同发音视素参数，分别自动向动画制作界面中的各个协同发音口型控件进行赋值，可以提升口型赋值的准确率，从而使得生成的口型动画与目标音频更加适配。

在一个实施例中，强度信息包括水平强度参数和垂直强度参数；强度控件包括水平强度控件和垂直强度控件；通过视素特征数据对应的强度信息，向动画制作界面中的强度控件进行赋值，包括：通过视素特征数据对应的水平强度参数，向动画制作界面中的水平强度控件进行赋值；通过视素特征数据对应的垂直强度参数，向动画制作界面中的垂直强度控件进行赋值。

其中，水平强度参数，是用于控制视素水平方向的变化强度的参数。垂直强度参数，是用于控制视素垂直方向的变化强度的参数。

可以理解，水平强度参数可用于控制视素中嘴唇的张弛程度，垂直强度参数可用于控制视素中下巴的闭合程度。

在一个实施例中，参考图7，强度信息包括水平强度参数(即，图7中嘴唇对应的视素参数)，以及垂直强度参数(即，图7中下巴对应的视素参数)。

在一个实施例中，参考图9，图9中901所示的强度控件可包括水平强度控件(即，用于控制视素的嘴唇的变化强度)和垂直强度控件(即，用于控制视素的下巴的变化强度)。如图9中904、905和906中所示的强度控件，水平强度控件和垂直强度控件的赋值不同，所呈现的视素的变化强度也不同，从而可以形成不同的口型。

具体地，终端可通过视素特征数据对应的水平强度参数，自动向终端的动画制作界面中的水平强度控件进行赋值。同时，终端还可通过视素特征数据对应的垂直强度参数，自动向终端的动画制作界面中的垂直强度控件进行赋值。

上述实施例中，通过视素特征数据对应的水平强度参数，自动向动画制作界面中的水平强度控件进行赋值，以及，通过视素特征数据对应的垂直强度参数，自动向动画制作界面中的垂直强度控件进行赋值，可以提升强度赋值的准确率，从而使得生成的口型动画与目标音频更加适配。

在一个实施例中，在根据各组视素特征数据分别对应的口型关键帧，生成与目标音频对应的口型动画之后，方法还包括：响应于针对口型控件的触发操作，对赋值后的口型控件和赋值后的强度控件中的至少一种进行控件参数更新；通过更新后的控件参数，控制虚拟脸部变化。

具体地，用户可对口型控件进行触发操作，终端可响应于针对口型控件的触发操作，对赋值后的口型控件和赋值后的强度控件中的至少一种进行控件参数更新。进而，终端可通过更新后的控件参数，控制虚拟脸部变化，以得到更新后的口型动画。

上述实施例中，通过针对口型控件的触发操作，可以进一步对赋值后的口型控件和赋值后的强度控件中的至少一种进行控件参数更新，并通过更新后的控件参数，控制虚拟脸部变化，以使得生成的口型动画更加逼真。

在一个实施例中，动画制作界面中的各个口型控件分别与相应的运动单元具有映射关系；每个运动单元用于控制虚拟脸部的相应区域产生变化；通过赋值后的口型控件和赋值后的强度控件，控制虚拟脸部变化，以生成与视素特征数据对应的口型关键帧，包括：针对每个赋值后的口型控件所映射的运动单元，根据匹配的强度控件的运动强度参数，确定运动单元的目标运动参数；匹配的强度控件，是与赋值后的口型控件对应的赋值后的强度控件；根据具备目标运动参数的运动单元，控制虚拟脸部的相应区域产生变化，以生成与视素特征数据对应的口型关键帧。

其中，运动强度参数，是赋值后的强度控件的参数。可以理解，通过视素特征数据对应的强度信息，向动画制作界面中的强度控件进行赋值之后，即可得到强度控件的运动强度参数。目标运动参数，是用于控制运动单元使虚拟脸部的相应区域产生变化的运动参数。

具体地，针对每个赋值后的口型控件所映射的运动单元，终端可根据与该赋值后的口型控件相匹配的强度控件的运动强度参数，确定该赋值后的口型控件所映射的运动单元的目标运动参数。进而，终端可基于具备目标运动参数的运动单元，控制虚拟脸部的相应区域产生变化，以生成与视素特征数据对应的口型关键帧。

在一个实施例中，每组视素特征数据对应的视素信息中还可包括影响视素的伴随强度信息。终端可根据与该赋值后的口型控件相匹配的强度控件的运动强度参数和伴随强度信息，确定该赋值后的口型控件所映射的运动单元的目标运动参数。

在一个实施例中，如图10所示，图10中的(a)中展示出一部分用于控制虚拟脸部的相应区域产生变化的运动单元(Action Unit，AU)。图10中的(b)中是五个基本表情(即，惊讶、恐惧、生气、开心和悲伤)所分别使用的运动单元。可以理解，每一个表情可同时由多个运动单元一同控制生成得到。还可以理解，每一个口型关键帧也可同时由多个运动单元一同控制生成得到。

在一个实施例中，如图11所示，每个运动单元可用于控制虚拟脸部的相应区域(比如，图11所示的区域a至区域n)产生变化。终端通过控制虚拟脸部的相应区域产生变化，以生成与视素特征数据对应的口型关键帧。

在一个实施例中，参考图12，图12所示的为本申请所使用的基础的运动单元。其中，基础的运动单元可分为上面部对应的运动单元和下面部对应的运动单元。通过上面部对应的运动单元可控制虚拟脸部的上面部产生相应变化，通过下面部对应的运动单元可控制虚拟脸部的下面部产生相应变化。

在一个实施例中，如图13所示，图13所示的为本申请所使用的附加的运动单元。其中，附加的运动单元可分别针对上面部区域的运动单元、针对下脸部的运动单元、针对眼睛和头部的运动单元、以及针对其他区域的运动单元。可以理解，在图12中所示的基础的运动单元的实现基础上，再通过附加的运动单元，可实现针对虚拟脸部的更多细节的控制，从而生成更丰富、更多细节的口型动画。

在一个实施例中，参考图14，图14中展示了音素、视素、运动单元这三者之间的映射关系。可以理解，视素Ah可通过下巴张开0.5，嘴角拉宽0.1、上唇上移0.1以及下唇移动0.1等运动单元进行叠加得到。

上述实施例中，针对每个赋值后的口型控件所映射的运动单元，根据匹配的强度控件的运动强度参数，可以确定运动单元的目标运动参数，进而根据具备目标运动参数的运动单元，可以自动控制虚拟脸部的相应区域产生变化，可以提升生成的口型关键帧的准确率，同时也可提升口型动画的生成效率。

在一个实施例中，针对每个赋值后的口型控件所映射的运动单元，根据匹配的强度控件的运动强度参数，确定运动单元的目标运动参数，包括：

针对每个赋值后的口型控件所映射的运动单元，将匹配的强度控件的运动强度参数与运动单元的初始动画参数进行加权，得到运动单元的目标运动参数。

其中，初始动画参数，是对运动单元进行初始化赋值后得到的动画参数。

具体地，针对每个赋值后的口型控件所映射的运动单元，终端可获取该赋值后的口型控件所映射的运动单元的初始动画参数，并将与该赋值后的口型控件相匹配的强度控件的运动强度参数，与该赋值后的口型控件所映射的运动单元的初始动画参数进行加权，得到运动单元的目标运动参数。

在一个实施例中，如图15所示，终端对口型控件进行赋值后，口型控件4所映射的运动单元(即，图15中的1501中所示的各个运动单元)被驱动。可以理解，图15中的1501中所示的各个运动单元对应的可视化参数即为初始动画参数。终端可将与口型控件4相匹配的强度控件的运动强度参数，与口型控件4所映射的运动单元的初始动画参数进行加权，得到运动单元的目标运动参数。

上述实施例中，针对每个赋值后的口型控件所映射的运动单元，通过将匹配的强度控件的运动强度参数与运动单元的初始动画参数进行加权，可以得到运动单元的目标运动参数，从而根据具备目标运动参数的运动单元，可以更准确地控制虚拟脸部的相应区域产生变化，提升生成的口型关键帧的准确率，从而使得生成的口型动画与目标音频更加适配。

在一个实施例中，根据各组视素特征数据分别对应的口型关键帧，生成与目标音频对应的口型动画，包括：针对每组视素特征数据对应的口型关键帧，将视素特征数据对应的口型关键帧与视素特征数据对应的时间戳进行绑定记录，得到口型关键帧对应的记录结果；根据各个口型关键帧分别对应的记录结果，得到与目标音频对应的动画播放曲线；根据动画播放曲线对各个口型关键帧进行按序播放，得到与目标音频对应的口型动画。

具体地，针对每组视素特征数据对应的口型关键帧，终端可将视素特征数据对应的口型关键帧与视素特征数据对应的时间戳进行绑定记录，得到口型关键帧对应的记录结果。终端可根据各个口型关键帧分别对应的记录结果，生成与目标音频对应的动画播放曲线(如图16所示，可以理解，动画播放曲线对应的纵坐标是伴随强度信息，动画播放曲线对应的横坐标是时间戳)，并对动画播放曲线进行存储。进而，终端可根据动画播放曲线对各个口型关键帧进行按序播放，得到与目标音频对应的口型动画。

在一个实施例中，每组视素特征数据对应的视素信息中还可包括影响视素的伴随强度信息。终端可根据各组视素特征数据对应的包含伴随强度信息的视素信息和强度信息，控制虚拟脸部变化，以生成与目标音频对应的口型动画。

上述实施例中，通过将视素特征数据对应的口型关键帧与视素特征数据对应的时间戳进行绑定记录，以生成与目标音频对应的动画播放曲线，从而根据动画播放曲线对各个口型关键帧进行按序播放，得到与目标音频对应的口型动画，这样将生成的口型动画记录存储下来，在后续需要的时候再进行播放。

在一个实施例中，如图17所示，终端可通过音频解析方案1或音频解析方案2对目标音频进行特征分析得到视素特征流数据。可以理解，音频解析方案1即为搭配文本对目标音频进行特征分析得到视素特征流数据。音频解析方案2即为单独对目标音频进行特征分析得到视素特征流数据。针对视素特征流数据中的每组视素特征数据，终端可将视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，得到与视素特征数据对应的视素信息，并对视素特征数据中的强度字段进行解析，得到与视素特征数据对应的强度信息。进而，终端可通过视素信息和强度信息控制虚拟脸部产生变化，以生成得到与目标音频对应的口型动画。可以理解，本申请的口型动画生成方法，可适用于各种风格的虚拟对象(比如，图17中的风格1至风格4对应的虚拟对象)。

在一个实施例中，如图18所示，用户可在动画制作界面的音频选择区域1801中选择目标音频和相应的文本(即，多媒体存储区域1802中的目标音频和文本)，以便搭配文本对目标音频进行特征分析，提升特征分析的准确率。用户可点击“音频生成口型动画”按钮，以触发向控件区域1803中的口型控件和强度控件赋值，进而自动驱动生成口型动画1804。

在一个实施例中，如图19所示，用户可点击动画制作界面中的“智能导出骨骼模型”按钮，终端可响应于针对“智能导出骨骼模型”按钮的触发操作，自动生成用于口型动画生成的资产文件1、资产文件2和资产文件3。进而，如图20所示，用户可点击动画制作界面中的“导出资产文件4”，终端可响应于针对“导出资产文件4”按钮的触发操作，自动生成用于口型动画生成的资产文件4。如图21所示，终端可基于资产文件4生成资产文件5。如图22所示，终端可根据资产文件1至资产文件5创建初始动画序列，并为创建的初始动画序列添加相应风格的虚拟对象和目标音频。进而，如图23所示，用户可点击动画制作界面中的“动画工具”中的“生成口型动画”，以便终端进行口型动画的自动生成，最终得到如图24中动画展示区域2401所示的口型动画。可以理解，初始动画序列不带口型，最终生成的口型动画具有与目标音频相对于的口型。其中，资产文件1、资产文件2和资产文件3是生成口型动画所需要的角色模型和骨骼等资产。资产文件4是生成口型动画所需要的表情资产。资产文件5是生成口型动画所需要的姿势资产。

如图25所示，在一个实施例中，提供了一种口型动画生成方法，本实施例以该方法应用于图1中的终端102为例进行说明，该方法具体包括以下步骤：

步骤2502，基于目标音频进行特征分析，得到音素流数据；音素流数据中包括多组有序的音素数据；每组音素数据对应于目标音频中的一帧音频帧。

步骤2504，针对每组音素数据，根据预设的音素与视素的映射关系，对音素数据进行分析处理，得到音素数据对应的视素特征数据。

步骤2506，根据各组音素数据分别对应的视素特征数据，生成视素特征流数据；视素特征流数据中包括多组有序的视素特征数据；每组视素特征数据对应于目标音频中的一帧音频帧；视素特征数据中包括至少一个视素字段和至少一个强度字段。

步骤2508，针对每组视素特征数据，将视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，得到与视素特征数据对应的视素信息。

步骤2510，对视素特征数据中的强度字段进行解析，得到与视素特征数据对应的强度信息；强度信息，用于表征视素信息所对应的视素的变化强度。

步骤2512，针对每组视素特征数据，通过视素特征数据对应的视素信息，向动画制作界面中的口型控件进行赋值，通过视素特征数据对应的强度信息，向动画制作界面中的强度控件进行赋值；动画制作界面中的各个口型控件分别与相应的运动单元具有映射关系；每个运动单元用于控制虚拟脸部的相应区域产生变化。

步骤2514，针对每个赋值后的口型控件所映射的运动单元，根据匹配的强度控件的运动强度参数，确定运动单元的目标运动参数；匹配的强度控件，是与赋值后的口型控件对应的赋值后的强度控件。

步骤2516，根据具备目标运动参数的运动单元，控制虚拟脸部的相应区域产生变化，以生成与视素特征数据对应的口型关键帧。

步骤2518，根据各组视素特征数据分别对应的口型关键帧，生成与目标音频对应的口型动画。

本申请还提供一种应用场景，该应用场景应用上述的口型动画生成方法。具体地，该口型动画生成方法可应用于游戏中虚拟对象的口型动画生成场景。终端可基于目标游戏音频进行特征分析，得到音素流数据；音素流数据中包括多组有序的音素数据；每组音素数据对应于目标游戏音频中的一帧音频帧。针对每组音素数据，根据预设的音素与视素的映射关系，对音素数据进行分析处理，得到音素数据对应的视素特征数据。根据各组音素数据分别对应的视素特征数据，生成视素特征流数据；视素特征流数据中包括多组有序的视素特征数据；每组视素特征数据对应于目标游戏音频中的一帧音频帧；视素特征数据中包括至少一个视素字段和至少一个强度字段。

针对每组视素特征数据，终端可将视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，得到与视素特征数据对应的视素信息。对视素特征数据中的强度字段进行解析，得到与视素特征数据对应的强度信息；强度信息，用于表征视素信息所对应的视素的变化强度。针对每组视素特征数据，通过视素特征数据对应的视素信息，向动画制作界面中的口型控件进行赋值，通过视素特征数据对应的强度信息，向动画制作界面中的强度控件进行赋值；动画制作界面中的各个口型控件分别与相应的运动单元具有映射关系；每个运动单元用于控制游戏对象虚拟脸部的相应区域产生变化。

针对每个赋值后的口型控件所映射的运动单元，终端可根据匹配的强度控件的运动强度参数，确定运动单元的目标运动参数；匹配的强度控件，是与赋值后的口型控件对应的赋值后的强度控件。根据具备目标运动参数的运动单元，控制游戏对象虚拟脸部的相应区域产生变化，以生成与视素特征数据对应的口型关键帧。根据各组视素特征数据分别对应的口型关键帧，生成与目标游戏音频对应的游戏口型动画。通过本申请口型动画生成方法，可提升游戏场景中的口型动画的生成效率。

本申请还另外提供一种应用场景，该应用场景应用上述的口型动画生成方法。具体地，该口型动画生成方法还可以应用于影视动画和VR动画(Virtual Reality，虚拟现实)等场景中。可以理解，在影视动画和VR动画等场景中，也可能涉及针对虚拟对象的口型动画的生成。通过本申请口型动画生成方法，可提升影视动画和VR动画等场景中的口型动画的生成效率。需要说明的是，本申请的口型动画生成方法还可以应用于这样的游戏场景中，即，游戏玩家可以选择对应的虚拟形象，进而，基于游戏玩家输入的语音去驱动选择的虚拟形象自动生成相应的口型动画。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照顺序依次显示，但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图26所示，提供了一种口型动画生成装置2600，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：

生成模块2602，用于基于目标音频进行特征分析，生成视素特征流数据；视素特征流数据中包括多组有序的视素特征数据；每组视素特征数据对应于目标音频中的一帧音频帧。

解析模块2604，用于分别对每组视素特征数据进行解析，得到与视素特征数据对应的视素信息和强度信息；强度信息，用于表征视素信息所对应的视素的变化强度。

控制模块2606，用于根据各组视素特征数据对应的视素信息和强度信息，控制虚拟脸部变化，以生成与目标音频对应的口型动画。

在一个实施例中，生成模块2602还用于基于目标音频进行特征分析，得到音素流数据；音素流数据中包括多组有序的音素数据；每组音素数据对应于目标音频中的一帧音频帧；针对每组音素数据，根据预设的音素与视素的映射关系，对音素数据进行分析处理，得到音素数据对应的视素特征数据；根据各组音素数据分别对应的视素特征数据，生成视素特征流数据。

在一个实施例中，生成模块2602还用于确定目标音频相匹配的文本；将目标音频和文本进行对齐处理，根据对齐处理结果解析生成音素流数据。

在一个实施例中，视素特征数据中包括至少一个视素字段和至少一个强度字段；解析模块2604还用于针对每组视素特征数据，将视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，得到与视素特征数据对应的视素信息；对视素特征数据中的强度字段进行解析，得到与视素特征数据对应的强度信息。

在一个实施例中，视素字段包括至少一个单一发音视素字段和至少一个协同发音视素字段；视素列表中的视素包括至少一个单一发音视素和至少一个协同发音视素；解析模块2604还用于针对每组视素特征数据，将视素特征数据中的各个单一发音视素字段，分别与视素列表中的各个单一发音视素相映射；将视素特征数据中的各个协同发音视素字段，分别与视素列表中的各个协同发音视素相映射，得到与视素特征数据对应的视素信息。

在一个实施例中，控制模块2606还用于针对每组视素特征数据，通过视素特征数据对应的视素信息，向动画制作界面中的口型控件进行赋值，通过视素特征数据对应的强度信息，向动画制作界面中的强度控件进行赋值；通过赋值后的口型控件和赋值后的强度控件，控制虚拟脸部变化，以生成与视素特征数据对应的口型关键帧；根据各组视素特征数据分别对应的口型关键帧，生成与目标音频对应的口型动画。

在一个实施例中，视素信息包括至少一个单一发音视素参数和至少一个协同发音视素参数；口型控件包括至少一个单一发音口型控件和至少一个协同发音口型控件；控制模块2606还用于针对每组视素特征数据，通过视素特征数据对应的各个单一发音视素参数，分别向动画制作界面中的各个单一发音口型控件进行赋值；通过视素特征数据对应的各个协同发音视素参数，分别向动画制作界面中的各个协同发音口型控件进行赋值。

在一个实施例中，强度信息包括水平强度参数和垂直强度参数；强度控件包括水平强度控件和垂直强度控件；控制模块2606还用于通过视素特征数据对应的水平强度参数，向动画制作界面中的水平强度控件进行赋值；通过视素特征数据对应的垂直强度参数，向动画制作界面中的垂直强度控件进行赋值。

在一个实施例中，控制模块2606还用于响应于针对口型控件的触发操作，对赋值后的口型控件和赋值后的强度控件中的至少一种进行控件参数更新；通过更新后的控件参数，控制虚拟脸部变化。

在一个实施例中，动画制作界面中的各个口型控件分别与相应的运动单元具有映射关系；每个运动单元用于控制虚拟脸部的相应区域产生变化；控制模块2606还用于针对每个赋值后的口型控件所映射的运动单元，根据匹配的强度控件的运动强度参数，确定运动单元的目标运动参数；匹配的强度控件，是与赋值后的口型控件对应的赋值后的强度控件；根据具备目标运动参数的运动单元，控制虚拟脸部的相应区域产生变化，以生成与视素特征数据对应的口型关键帧。

在一个实施例中，控制模块2606还用于针对每个赋值后的口型控件所映射的运动单元，将匹配的强度控件的运动强度参数与运动单元的初始动画参数进行加权，得到运动单元的目标运动参数。

在一个实施例中，控制模块2606还用于针对每组视素特征数据对应的口型关键帧，将视素特征数据对应的口型关键帧与视素特征数据对应的时间戳进行绑定记录，得到口型关键帧对应的记录结果；根据各个口型关键帧分别对应的记录结果，得到与目标音频对应的动画播放曲线；根据动画播放曲线对各个口型关键帧进行按序播放，得到与目标音频对应的口型动画。

上述口型动画生成装置，基于目标音频进行特征分析，生成视素特征流数据。视素特征流数据中包括多组有序的视素特征数据，每组视素特征数据对应于目标音频中的一帧音频帧。通过分别对每组视素特征数据进行解析，可以得到与视素特征数据对应的视素信息和强度信息，强度信息，用于表征视素信息所对应的视素的变化强度。由于视素信息可以用于指示相应的视素，以及强度信息可以用于指示相应视素的张弛程度。因此，根据各组视素特征数据对应的视素信息和强度信息，可以控制虚拟脸部产生相应变化，以自动生成与目标音频对应的口型动画。相较于传统的手动制作口型动画的方式，本申请通过将目标音频解析为可以驱动虚拟脸部产生变化的视素特征流数据，从而通过视素特征流数据自动驱动虚拟脸部产生变化，以自动生成与目标音频对应的口型动画，缩短了口型动画的生成时间，从而提升了口型动画的生成效率。

上述口型动画生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图27所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种口型动画生成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图27中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种口型动画生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于目标音频进行特征分析，生成视素特征流数据，包括：

基于目标音频进行特征分析，得到音素流数据；所述音素流数据中包括多组有序的音素数据；每组音素数据对应于所述目标音频中的一帧音频帧；

针对每组音素数据，根据预设的音素与视素的映射关系，对所述音素数据进行分析处理，得到所述音素数据对应的视素特征数据；

根据各组音素数据分别对应的视素特征数据，生成视素特征流数据。

3.根据权利要求2所述的方法，其特征在于，所述基于目标音频进行特征分析，得到音素流数据，包括：

确定所述目标音频相匹配的文本；

将所述目标音频和所述文本进行对齐处理，根据对齐处理结果解析生成音素流数据。

4.根据权利要求1所述的方法，其特征在于，所述视素特征数据中包括至少一个视素字段和至少一个强度字段；

所述分别对每组所述视素特征数据进行解析，得到与所述视素特征数据对应的视素信息和强度信息，包括：

针对每组所述视素特征数据，将所述视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，得到与所述视素特征数据对应的视素信息；

对所述视素特征数据中的强度字段进行解析，得到与所述视素特征数据对应的强度信息。

5.根据权利要求4所述的方法，其特征在于，所述视素字段包括至少一个单一发音视素字段和至少一个协同发音视素字段；所述视素列表中的视素包括至少一个单一发音视素和至少一个协同发音视素；

所述针对每组所述视素特征数据，将所述视素特征数据中的各个视素字段，分别与预设的视素列表中的各个视素进行映射，得到与所述视素特征数据对应的视素信息，包括：

针对每组所述视素特征数据，将所述视素特征数据中的各个单一发音视素字段，分别与所述视素列表中的各个单一发音视素相映射；

将所述视素特征数据中的各个协同发音视素字段，分别与所述视素列表中的各个协同发音视素相映射，得到与所述视素特征数据对应的视素信息。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据各组所述视素特征数据对应的视素信息和强度信息，控制虚拟脸部变化，以生成与所述目标音频对应的口型动画，包括：

针对每组所述视素特征数据，通过所述视素特征数据对应的视素信息，向动画制作界面中的口型控件进行赋值，通过所述视素特征数据对应的强度信息，向所述动画制作界面中的强度控件进行赋值；

通过赋值后的口型控件和赋值后的强度控件，控制虚拟脸部变化，以生成与所述视素特征数据对应的口型关键帧；

根据各组视素特征数据分别对应的口型关键帧，生成与所述目标音频对应的口型动画。

7.根据权利要求6所述的方法，其特征在于，所述视素信息包括至少一个单一发音视素参数和至少一个协同发音视素参数；所述口型控件包括至少一个单一发音口型控件和至少一个协同发音口型控件；

所述针对每组所述视素特征数据，通过所述视素特征数据对应的视素信息，向动画制作界面中的口型控件进行赋值，包括：

针对每组视素特征数据，通过所述视素特征数据对应的各个单一发音视素参数，分别向动画制作界面中的各个单一发音口型控件进行赋值；

通过所述视素特征数据对应的各个协同发音视素参数，分别向动画制作界面中的各个协同发音口型控件进行赋值。

8.根据权利要求6所述的方法，其特征在于，所述强度信息包括水平强度参数和垂直强度参数；所述强度控件包括水平强度控件和垂直强度控件；

所述通过所述视素特征数据对应的强度信息，向所述动画制作界面中的强度控件进行赋值，包括：

通过所述视素特征数据对应的水平强度参数，向所述动画制作界面中的水平强度控件进行赋值；

通过所述视素特征数据对应的垂直强度参数，向所述动画制作界面中的垂直强度控件进行赋值。

9.根据权利要求6所述的方法，其特征在于，在根据各组视素特征数据分别对应的口型关键帧，生成与所述目标音频对应的口型动画之后，所述方法还包括：

响应于针对所述口型控件的触发操作，对所述赋值后的口型控件和所述赋值后的强度控件中的至少一种进行控件参数更新；

通过所述更新后的控件参数，控制虚拟脸部变化。

10.根据权利要求6所述的方法，其特征在于，所述动画制作界面中的各个口型控件分别与相应的运动单元具有映射关系；每个运动单元用于控制所述虚拟脸部的相应区域产生变化；

所述通过赋值后的口型控件和赋值后的强度控件，控制虚拟脸部变化，以生成与所述视素特征数据对应的口型关键帧，包括：

针对每个赋值后的口型控件所映射的运动单元，根据匹配的强度控件的运动强度参数，确定所述运动单元的目标运动参数；所述匹配的强度控件，是与所述赋值后的口型控件对应的赋值后的强度控件；

根据具备所述目标运动参数的运动单元，控制虚拟脸部的相应区域产生变化，以生成与所述视素特征数据对应的口型关键帧。

11.根据权利要求10所述的方法，其特征在于，所述针对每个赋值后的口型控件所映射的运动单元，根据匹配的强度控件的运动强度参数，确定所述运动单元的目标运动参数，包括：

针对每个赋值后的口型控件所映射的运动单元，将匹配的强度控件的运动强度参数与所述运动单元的初始动画参数进行加权，得到所述运动单元的目标运动参数。

12.根据权利要求6所述的方法，其特征在于，所述根据各组视素特征数据分别对应的口型关键帧，生成与所述目标音频对应的口型动画，包括：

针对每组视素特征数据对应的口型关键帧，将所述视素特征数据对应的口型关键帧与所述视素特征数据对应的时间戳进行绑定记录，得到所述口型关键帧对应的记录结果；

根据各个口型关键帧分别对应的记录结果，得到与所述目标音频对应的动画播放曲线；

根据所述动画播放曲线对各个口型关键帧进行按序播放，得到与所述目标音频对应的口型动画。

13.一种口型动画生成装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。