CN112750187A

CN112750187A - 一种动画生成方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112750187A
Application number: CN202110068861.3A
Authority: CN
Inventors: 王海龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-05-04

Abstract

本申请提供了一种动画生成方法、装置、设备及计算机可读存储介质；方法包括：获取虚拟角色动画，虚拟角色动画包括音频信息和文本信息；对音频信息和文本信息进行对齐，得到文本信息中的每个汉字在音频信息的音节发音起始时间，得到与文本信息中的至少一个汉字对应的至少一个音节发音起始时间；从音节口型动画中，确定每个汉字对应的汉字口型动画，得到与至少一个汉字对应的至少一个汉字口型动画，音节口型动画是以音节为单位的口型动画；按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间，将至少一个汉字口型动画融合至虚拟角色动画中，生成目标虚拟角色动画。通过本申请，能够提升人工智能领域中所生成的动画的渲染效果。

Description

一种动画生成方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能领域中的计算机动画技术，尤其涉及一种动画生成方法、装置、设备及计算机可读存储介质。

背景技术

随着人工智能的快速发展，计算机动画技术得到了不断地进步，人们对口型动画的要求越来越高；因此，在生成动画时，需要将动画中的语音与口型对应起来。

一般来说，为了生成语音与口型对应的动画，通常先基于音素制作口型动画，再使用动画融合技术将各个口型动画融合至虚拟角色动画上，以生成语音与口型对应的动画；然而，上述生成语音与口型对应的动画的过程中，由于中文汉字对应至少一个音素，融合各个音素对应的口型动画后，每个中文汉字对应的口型动画就是至少一个音素对应的至少一个口型动画组合而成的，与中文汉字的对应效果较差；故，生成的动画的渲染效果较差。

发明内容

本申请实施例提供一种动画生成方法、装置、设备及计算机可读存储介质，能够提升所生成的动画的渲染效果。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种动画生成方法，包括：

获取虚拟角色动画，其中，所述虚拟角色动画包括音频信息和文本信息；

对所述音频信息和所述文本信息进行对齐，得到所述文本信息中的每个汉字在所述音频信息的音节发音起始时间，从而得到与所述文本信息中的至少一个汉字对应的至少一个音节发音起始时间；

从音节口型动画中，确定所述每个汉字对应的汉字口型动画，从而得到与所述至少一个汉字对应的至少一个汉字口型动画，其中，所述音节口型动画是以音节为单位的口型动画；

按照所述至少一个汉字对应的发音序列，依次基于所述至少一个音节发音起始时间，将所述至少一个汉字口型动画融合至所述虚拟角色动画中，生成目标虚拟角色动画。

本申请实施例提供一种动画生成装置，包括：

动画获取模块，用于获取虚拟角色动画，其中，所述虚拟角色动画包括音频信息和文本信息；

文本对齐模块，用于对所述音频信息和所述文本信息进行对齐，得到所述文本信息中的每个汉字在所述音频信息的音节发音起始时间，从而得到与所述文本信息中的至少一个汉字对应的至少一个音节发音起始时间；

动画调用模块，用于从音节口型动画中，确定所述每个汉字对应的汉字口型动画，从而得到与所述至少一个汉字对应的至少一个汉字口型动画，其中，所述音节口型动画是以音节为单位的口型动画；

动画生成模块，用于按照所述至少一个汉字对应的发音序列，依次基于所述至少一个音节发音起始时间，将所述至少一个汉字口型动画融合至所述虚拟角色动画中，生成目标虚拟角色动画。

在本申请实施例中，所述动画生成装置还包括口型动画模块，用于基于发音相似性，对中文音节中的声母和韵母分别进行分类，得到至少一类声母集合和至少一类韵母集合；确定所述至少一类声母集合中的每类声母集合对应的基础声母，以及所述至少一类韵母集合中的每类韵母集合对应的基础韵母；将所述每类声母集合对应的所述基础声母和所述每类韵母集合对应的所述基础韵母一一进行组合，得到所述每类声母集合与所述每类韵母集合对应的基础音节；绘制所述基础音节的所述口型动画，得到所述音节口型动画，其中，所述音节口型动画包括至少一个所述基础音节的所述口型动画。

在本申请实施例中，所述动画调用模块，还用于对所述每个汉字的音节进行拆分，得到汉字音节拆分结果，其中，所述汉字音节拆分结果至少包括汉字音节韵母；基于所述汉字音节拆分结果，从所述至少一类声母集合中的所述每类声母集合的所述基础声母，以及所述至少一类韵母集合中的所述每类韵母集合的所述基础韵母中，确定目标基础声母和目标基础韵母；将所述目标基础声母和所述目标基础韵母构成的所述基础音节对应的所述口型动画，作为所述汉字口型动画。

在本申请实施例中，所述动画调用模块，还用于当所述汉字音节拆分结果包括汉字音节声母和所述汉字音节韵母时，从所述至少一类声母集合中，确定所述汉字音节声母所属的目标声母集合，将所述目标声母集合对应的所述基础声母作为所述目标基础声母；从所述至少一类韵母集合中，确定所述汉字音节韵母所属的目标韵母集合，将所述目标韵母集合对应的所述基础韵母作为所述目标基础韵母。

在本申请实施例中，所述动画调用模块，还用于当所述汉字音节拆分结果包括所述汉字音节韵母时，从所述至少一类声母集合中，确定所述汉字音节韵母对应的目标声母集合，将所述目标声母集合对应的所述基础声母作为所述目标基础声母；从所述至少一类韵母集合中，确定所述汉字音节韵母所属的目标韵母集合，将所述目标韵母集合对应的所述基础韵母作为所述目标基础韵母。

在本申请实施例中，所述动画生成模块，还用于照所述至少一个汉字对应的所述发音序列，确定当前汉字，其中，所述当前汉字为所述至少一个汉字中的任一汉字；从所述至少一个音节发音起始时间中，确定所述当前汉字对应的当前音节发音起始时间；从所述至少一个汉字口型动画中，确定所述当前汉字对应的当前汉字口型动画；在所述虚拟角色动画上与所述当前音节发音起始时间对应的位置处，融合所述当前汉字口型动画，直到完成所述至少一个汉字口型动画的融合，生成所述目标虚拟角色动画。

在本申请实施例中，所述动画生成模块，还用于当所述当前汉字为所述至少一个汉字中除最后一个汉字之外的汉字时，获取预设时长的音节过渡动画；在所述当前汉字口型动画的尾部拼接所述音节过渡动画，得到当前待融合口型动画。

在本申请实施例中，所述动画生成模块，还用于在所述虚拟角色动画上与所述当前音节发音起始时间对应的位置处，融合所述当前待融合口型动画。

在本申请实施例中，所述动画生成装置还包括时长获取模块，用于对所述音频信息和所述文本信息进行对齐，得到所述每个汉字音节在所述音频信息中的音节发音时长。

在本申请实施例中，所述动画生成模块，还用于基于所述音节发音时长，调整所述汉字口型动画的动画速度，得到待融合口型动画，从而得到与所述至少一个汉字口型动画对应的至少一个待融合口型动画；按照所述至少一个汉字对应的所述发音序列，依次基于所述至少一个音节发音起始时间，将所述至少一个待融合口型动画融合至所述虚拟角色动画中，生成所述目标虚拟角色动画。

在本申请实施例中，所述动画生成装置还包括音量获取模块，用于从所述音频信息上与所述音节发音起始时间对应的位置处，获取所述每个汉字在所述音频信息的音节音量。

在本申请实施例中，所述动画生成模块，还用于将所述音节音量，作为所述汉字口型动画的播放权重，从而得到与所述至少一个汉字口型动画对应的至少一个播放权重；按照所述至少一个汉字对应的所述发音序列，依次基于所述至少一个音节发音起始时间和所述至少一个播放权重，融合所述至少一个汉字口型动画，生成所述目标虚拟角色动画。

在本申请实施例中，所述动画生成模块，还用于按照所述至少一个汉字对应的所述发音序列，依次基于所述至少一个音节发音起始时间，拼接所述至少一个汉字口型动画，得到目标口型动画；从所述至少一个音节发音起始时间中，确定最早音节发音起始时间；在所述虚拟角色动画上与所述最早音节发音起始时间对应的位置处，融合所述目标口型动画，生成所述目标虚拟角色动画。

在本申请实施例中，所述文本对齐模块，还用于将所述文本信息中的所述每个汉字的音节进行音素拆分，得到音素信息；获取所述音素信息中的每个音素在所述音频信息中的音素发音起始时间，从而得到与所述音素信息对应的至少一个音素发音起始时间；从所述音素信息对应的所述至少一个音素发音起始时间中，确定所述每个汉字对应的目标音素发音起始时间；将所述目标音素发音起始时间的最早起始时间，确定为所述每个汉字的所述音节发音起始时间。

在本申请实施例中，所述动画生成装置还包括动画播放模块，用于在预设虚拟场景中，播放所述目标虚拟角色动画。

在本申请实施例中，所述动画生成装置还包括动画优化模块，用于响应于作用在动画编辑客户端上的动画导入操作，播放所述目标虚拟角色动画，以确定所述目标虚拟角色动画中的待优化动画；对所述待优化动画进行优化，得到优化后的目标虚拟角色动画。

在本申请实施例中，所述动画播放模块，还用于在预设虚拟场景中，播放所述优化后的目标虚拟角色动画。

本申请实施例提供一种动画生成设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的动画生成方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的动画生成方法。

本申请实施例至少具有以下有益效果：由于在调整虚拟角色动画中虚拟角色的口型时，是基于虚拟角色动画对应的文本信息中的每个汉字，从音节口型动画中调用口型动画实现的；而音节口型动画是以音节为单位的口型动画，又由于一个汉字对应一个音节；因此，以音节为单位进行口型动画融合，能够提升生成的动画的口型与汉字的对应效果，所以，能够提升所生成的动画的渲染效果。

附图说明

图1是本申请实施例提供的动画生成***的一个可选的架构示意图；

图2是本申请实施例提供的图1中的一种终端的组成结构示意图；

图3是本申请实施例提供的动画生成方法的一个可选的流程示意图；

图4是本申请实施例提供的一种示例性的目标虚拟角色动画的播放示意图；

图5是本申请实施例提供的动画生成方法的另一个可选的流程示意图；

图6是本申请实施例提供的动画生成方法的又一个可选的流程示意图；

图7是本申请实施例提供的动画生成方法的再一个可选的流程示意图；

图8是本申请实施例提供的动画生成方法的又另一个可选的流程示意图；

图9是本申请实施例提供的一种示例性的动画生成流程示意图；

图10是本申请实施例提供的一种示例性的动画生成的主要流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

2)音素(phone)：是根据语音的自然属性划分出来的最小语音单位；从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素。比如，〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音是同一音素，不同发音动作发出的音是不同的音素。比如，〔ma-mi〕中，两个〔m〕发音动作相同，是相同的音素，〔a〕〔i〕发音动作不同，是不同的音素。一般来说，通常根据发音动作来描写音素。比如，〔m〕的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。用语音学术语来说，就是双唇鼻音。

3)音节(syllable)：是由一个或几个音素组成的语音单位，是最小的语音结构单位；其中，音节的构成分头腹尾三部分，因而音节之间具有明显可感知的界限。在汉语中，一般一个汉字的读音即为一个音节；普通话中常用基本无音调音节为400个，有音调音节(不包括轻声)为1300多个。由于音调不影响口型，因此，本申请实施例中的音节为无音调音节，当然也可以为有调音节。

4)顶点动画，顶点动画中，每帧动画其实就是模型特定姿态的一个“快照”。通过在帧之间插值的方法，引擎可以得到平滑的动画效果。

5)骨骼动画。在骨骼动画中，模型具有互相连接的“骨骼”组成的骨架结构，通过改变骨骼的朝向和位置来为模型生成动画。在本申请实施例中，所涉及的动画可以是顶点动画，还可以是骨骼动画。

6)操作，是一种用于触发设备执行处理的方式，比如，点击操作、双击操作、长按操作、滑动操作、手势操作、接收到的触发指令等；另外，在本申请实施例中的各种操作可以是单个操作，又可以是多个操作的总称。

7)响应于，用于表示所执行的处理所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

8)客户端，终端中运行的用于提供各种服务的应用程序，比如，动画编辑客户端；而动画生成设备为可以运行客户端的终端。

需要说明的是，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

另外，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开了研究和应用；例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等；随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。在本申请实施例中，将针对人工智能在动画处理领域的应用进行说明。

一般来说，为了生成语音与口型对应的动画，通常先基于音素或者基于声母韵母制作口型动画，再使用动画融合技术将各个口型动画融合至虚拟角色动画上，以生成语音与口型对应的动画；然而，上述生成语音与口型对应的动画的过程中，由于中文汉字对应至少一个音素或者对应一个声母和一个韵母，融合各个口型动画后，每个中文汉字对应的口型动画就是至少一个口型动画组合而成的，与中文汉字的对应效果较差，存在不自然的问题，并未根据中文的特点进行针对性的设计；故，生成的动画的渲染效果较差。

基于此，本申请实施例提供一种动画生成方法、装置、设备和计算机可读存储介质，能够提升所生成的动画的渲染效果。下面说明本申请实施例提供的动画生成设备的示例性应用，本申请实施例提供的动画生成设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明动画生成设备实施为终端时的示例性应用。

参见图1，图1是本申请实施例提供的动画生成***的一个可选的架构示意图；如图1所示，为支撑一个动画生成应用，在动画生成***100中，终端400(动画生成设备)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该动画生成***100中还包括数据库500，用于存储音节口型动画。

终端400，用于获取虚拟角色动画，其中，虚拟角色动画包括音频信息和文本信息；对音频信息和文本信息进行对齐，得到文本信息中的每个汉字在音频信息的音节发音起始时间，从而得到与文本信息中的至少一个汉字对应的至少一个音节发音起始时间；通过网络300，利用服务器200调用数据库500，以从音节口型动画中，确定每个汉字对应的汉字口型动画，从而得到与至少一个汉字对应的至少一个汉字口型动画，其中，音节口型动画是以音节为单位的口型动画；按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间，将至少一个汉字口型动画融合至虚拟角色动画中，生成目标虚拟角色动画。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图2，图2是本申请实施例提供的图1中的一种终端的组成结构示意图，图2所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线***440耦合在一起。可理解，总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***451，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的动画生成装置可以采用软件方式实现，图2示出了存储在存储器450中的动画生成装置455，其可以是程序和插件等形式的软件，包括以下软件模块：动画获取模块4551、文本对齐模块4552、动画调用模块4553、动画生成模块4554、口型动画模块4555、时长获取模块4556、音量获取模块4557、动画播放模块4558和动画优化模块4559，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的动画生成装置可以采用硬件方式实现，作为示例，本申请实施例提供的动画生成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的动画生成方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面，将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的动画生成方法。

参见图3，图3是本申请实施例提供的动画生成方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

S301、获取虚拟角色动画，其中，虚拟角色动画包括音频信息和文本信息。

在本申请实施例中，当动画生成设备进行口型动画的融合时，动画生成设备获取待处理对象，也就获取到了虚拟角色动画。

需要说明的是，虚拟角色动画为虚拟场景中的虚拟角色进行发音时的渲染动画，包括音频信息和文本信息；其中，虚拟角色为虚拟场景中的虚拟对象，比如，游戏角色、人机交互的虚拟目标等；音频信息为虚拟角色发音时的语音信息，比如，配音演员为针对游戏角色的对白文本的配音等；文本信息为音频信息对应的文本，比如，游戏角色的对白文本等。另外，虚拟角色动画中的虚拟角色的渲染口型与文本信息以及音频信息的对应性较差。

S302、对音频信息和文本信息进行对齐，得到文本信息中的每个汉字在音频信息的音节发音起始时间，从而得到与文本信息中的至少一个汉字对应的至少一个音节发音起始时间。

在本申请实施例中，动画生成设备获得了虚拟角色动画之后，为了确定口型动画在虚拟角色动画上的融合位置，对音频信息和文本信息进行对齐处理，所获得的文本信息中的每个汉字在音频信息中开始发音的时间即音节发音起始时间，就是口型动画在虚拟角色动画上的融合位置。这里，动画生成设备将所有汉字的音节发音起始时间进行组合，也就获得了至少一个汉字对应的至少一个音节发音起始时间。

需要说明的是，一个汉字指文本信息中的一个汉字，至少一个汉字为文本信息中的所有汉字；另外，至少一个汉字与至少一个音节发音起始时间一一对应，即至少一个汉字中的一个汉字，与至少一个音节发音起始时间中的一个音节发音起始时间。

S303、从音节口型动画中，确定每个汉字对应的汉字口型动画，从而得到与至少一个汉字对应的至少一个汉字口型动画。

在本申请实施例中，动画生成设备中预先设置有音节口型动画，或者动画生成设备能够获取到音节口型动画，该音节口型动画是以音节为单位的口型动画；动画生成设备针对每个汉字先确定对应的音节，基于确定的音节在音节口型动画中确定对应的口型动画，即汉字口型动画。这里，动画生成设备将所有汉字对应的各个汉字口型动画组合，也就得到了与至少一个汉字对应的至少一个汉字口型动画。

需要说明的是，音节口型动画可以是每个汉字音节对应的口型动画，其中，每个汉字音节可以是有调音节，还可以是无调音节；音节口型动画还可以是基础音节对应的口型动画，其中，基础音节为一个或多个汉字音节的表征音节；本申请实施例对此不作具体限定。

S304、按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间，将至少一个汉字口型动画融合至虚拟角色动画中，生成目标虚拟角色动画。

在本申请实施例中，动画生成设备基于音频信息，可以确定至少一个汉字的发音顺序，或者可以确定至少一个汉字一一对应的至少一个音节的发音顺序，该发音顺序即发音序列。动画生成设备按照发音序列，依次基于至少一个音节发音起始时间确定融合位置，将至少一个汉字口型动画融合至虚拟角色动画中，完成融合后，也就生成了目标虚拟角色动画。这里，动画生成设备可以先融合至少一个汉字口型动画，再将融合好的至少一个汉字口型动画融合至虚拟角色动画中，以生成目标虚拟角色；还可以将至少一个汉字口型动画一个一个融合至虚拟角色动画中，以生成目标虚拟角色动画；本申请实施例对此不作具体限定。

需要说明的是，目标虚拟角色动画中的虚拟角色的渲染口型与文本信息以及音频信息的对应性较好。

示例性地，参见图4，图4是本申请实施例提供的一种示例性的目标虚拟角色动画的播放示意图；如图4所示，为通过对播放的目标虚拟角色动画进行截图，所获得的渲染出的口型4-1至口型4-12。

可以理解的是，由于所获得的至少一个汉字口型动画，是通过从音节口型动画中获得每个汉字对应的汉字口型动画实现的；而音节口型动画是以音节为单位的口型动画，一个汉字对应一个音节，从而每个汉字口型动画与汉字的对应效果较好，也就能够提升目标虚拟角色动画的渲染效果。

参见图5，图5是本申请实施例提供的动画生成方法的另一个可选的流程示意图；如图5所示，在本申请实施例中，S303之前还包括S305-S308；也就是说，动画生成设备从音节口型动画中，确定每个汉字对应的汉字口型动画之前，该动画生成方法还包括S305-S308，下面对各步骤分别进行说明。

S305、基于发音相似性，对中文音节中的声母和韵母分别进行分类，得到至少一类声母集合和至少一类韵母集合。

在本申请实施例中，动画生成设备基于发音相似性，对中文音节中的声母和韵母分别进行分类，从而，针对中文音节中的声母，可以得到至少一类声母集合；针对中文音节中的韵母，可以得到至少一类韵母集合。

需要说明的是，发音相似性可以是发音口型的相似性，还可以是发音的语音特性的相似性，本申请实施例对此不作具体限定。以及，至少一类声母集合和至少一类韵母集合分别对应的类别数量，可以根据实际情况进行确定，然而，至少一类声母集合和至少一类韵母集合分别对应的类别数量越多，确定的音节口型动画中包括的口型动画越多。

S306、确定至少一类声母集合中的每类声母集合对应的基础声母，以及至少一类韵母集合中的每类韵母集合对应的基础韵母。

需要说明的是，动画生成设备针对至少一类声母集合中的每类声母集合，从该类声母集合中确定一个声母作为该类声母集合中的基础声母；比如，针对一类声母集合“b，p，m”，对应的基础声母为“b”。另外，动画生成设备针对至少一类韵母集合中的每类韵母集合，从该类韵母集合中确定一个韵母作为该类韵母集合中的基础韵母；比如，针对一类韵母集合“a，ia，an，ang，ai，ian，iang，ua，uan，uang”，对应的基础韵母为“a”。

S307、将每类声母集合对应的基础声母和每类韵母集合对应的基础韵母一一进行组合，得到每类声母集合与每类韵母集合对应的基础音节。

需要说明的是，动画生成设备所获得的基础音节的数量，可以为至少一类声母集合的类别数量和至少一类韵母集合的类别数量的乘积值，也可以为小于至少一类声母集合的类别数量和至少一类韵母集合的类别数量的乘积值(比如，有的基础声母和有的基础韵母不能组成音节时)，本申请实施例对此不作具体限定。

S308、绘制基础音节的口型动画，得到音节口型动画。

需要说明的是，音节口型动画包括至少一个基础音节的口型动画，其中，至少一个基础音节对应的数量小于或等于，至少一类声母集合的类别数量和至少一类韵母集合的类别数量的乘积值。

相应地，在本申请实施例中，S303中动画生成设备从音节口型动画中，确定每个汉字对应的汉字口型动画，可通过S3031-S3033实现，下面对各步骤分别进行说明。

S3031、对每个汉字的音节进行拆分，得到汉字音节拆分结果。

需要说明的是，动画生成设备基于音节的声母韵母组成，对每个汉字的音节进行拆分，所获得的拆分结果为汉字音节拆分结果。其中，汉字音节拆分结果至少包括汉字音节韵母。

S3032、基于汉字音节拆分结果，从至少一类声母集合中的每类声母集合的基础声母，以及至少一类韵母集合中的每类韵母集合的基础韵母中，确定目标基础声母和目标基础韵母。

需要说明的是，目标基础声母为各个基础声母中与汉字音节拆分结果对应的基础声母；目标基础韵母为各个基础韵母中与汉字音节拆分结果对应的基础韵母。

S3033、将目标基础声母和目标基础韵母构成的基础音节对应的口型动画，作为汉字口型动画。

需要说明的是，口型动画是与基础音节对应的，目标基础声母和目标基础韵母能够构成基础音节，从而，动画生成设备能够基于目标基础声母和目标基础韵母，获取到对应的基础音节对应的口型动画，即每个汉字对应的汉字口型动画。

可以理解的是，动画生成设备通过对中文音节中的声母和韵母分别进行分类，以获取包括基础音节对应的口型动画的音节口型动画，使得音节口型动画所包括的口型动画的数量较少，降低了获取音节口型动画对应的口型动画的资源消耗；提升了获取音节口型动画的效率。

在本申请实施例中，S3032可通过S30321和S30322实现；也就是说，动画生成设备基于汉字音节拆分结果，从至少一类声母集合中的每类声母集合的基础声母，以及至少一类韵母集合中的每类韵母集合的基础韵母中，确定目标基础声母和目标基础韵母，包括S30321和S30322，下面对各步骤分别进行说明。

S30321、当汉字音节拆分结果包括汉字音节声母和汉字音节韵母时，从至少一类声母集合中，确定汉字音节声母所属的目标声母集合，将目标声母集合对应的基础声母作为目标基础声母。

需要说明的是，由于汉字音节拆分结果至少包括汉字音节韵母，因此，存在汉字音节拆分结果包括汉字音节韵母和汉字音节声母的情况，还存在汉字音节拆分结果包括汉字音节韵母的情况。针对汉字音节拆分结果包括汉字音节声母和汉字音节韵母的情况，动画生成设备先确定汉字音节声母在至少一类声母集合中所属的一类声母集合，即目标声母集合；由于每类声母集合对应基础声母，从而目标声母集合也对应存在基础声母，这里，目标声母集合所对应的基础声母即目标基础声母；此时，动画生成设备也就完成了汉字音节拆分结果对应的目标基础声母的确定。

S30322、从至少一类韵母集合中，确定汉字音节韵母所属的目标韵母集合，将目标韵母集合对应的基础韵母作为目标基础韵母。

需要说明的是，动画生成设备先确定汉字音节声母在至少一类韵母集合中所属的一类韵母集合，即目标韵母集合；由于每类韵母集合对应基础韵母，从而目标韵母集合也对应存在基础韵母，这里，目标韵母集合所对应的基础韵母即目标基础韵母；此时，动画生成设备也就完成了汉字音节拆分结果对应的目标基础韵母的确定。

在本申请实施例中，S3032还可通过S30323和S30324实现；也就是说，动画生成设备基于汉字音节拆分结果，从至少一类声母集合中的每类声母集合的基础声母，以及至少一类韵母集合中的每类韵母集合的基础韵母中，确定目标基础声母和目标基础韵母，包括S30323和S30324，下面对各步骤分别进行说明。

S30323、当汉字音节拆分结果包括汉字音节韵母时，从至少一类声母集合中，确定汉字音节韵母对应的目标声母集合，将目标声母集合对应的基础声母作为目标基础声母。

需要说明的是，至少一类声母集合中存在一类声母集合，不仅包括各个声母还包括不带声母的音节，该不带声母的音节比如为，“o，en，a”。针对汉字音节拆分结果包括汉字音节韵母的情况，由于此时文本信息中的该汉字的音节是单韵母音节；这里，动画生成设备基于汉字音节韵母从至少一类声母集合对应的至少一个基础声母中确定对应的目标基础声母；也就是说，动画生成设备先确定汉字音节韵母在至少一类声母集合中所属的一类声母集合，即目标声母集合；由于每类声母集合对应基础声母，从而目标声母集合也对应存在基础声母，这里，目标声母集合所对应的基础声母即目标基础声母；此时，动画生成设备也就完成了汉字音节拆分结果对应的目标基础声母的确定。

示例性地，不仅包括各个声母还包括不带声母的音节的这类声母集合，为除“b，p，m，f”之外的其他声母以及不带声母的音节集合，对应的基础声母为“d”，从而，针对文本信息中的汉字“啊”，对应的目标基础声母为“d”。

S30324、从至少一类韵母集合中，确定汉字音节韵母所属的目标韵母集合，将目标韵母集合对应的基础韵母作为目标基础韵母。

需要说明的是，S30324实现过程的描述，与S30322实现过程的描述一致，本申请实施例在此不再赘述。

可以理解的是，不论是包括声母和韵母的汉字音节，还是只包括韵母的汉字音节，都能够确定对应的目标基础声母和目标基础韵母，进而通过目标基础声母和目标基础韵母确定基础音节，以获得基础音节对应的口型动画，减少了获取音节口型动画的资源消耗，提升了汉字的汉字口型动画的获取效率。

在本申请实施例中，S304可通过S3041-S3044实现；也就是说，动画生成设备按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间，将至少一个汉字口型动画融合至虚拟角色动画中，生成目标虚拟角色动画，包括S3041-S3044，下面对各步骤分别进行说明。

S3041、按照至少一个汉字对应的发音序列，确定当前汉字。

需要说明的是，动画生成设备按照至少一个汉字对应的发音序列，遍历至少一个汉字，这里，所遍历到的汉字，即当前汉字。从而，当前汉字为至少一个汉字中的任一汉字。

S3042、从至少一个音节发音起始时间中，确定当前汉字对应的当前音节发音起始时间。

在本申请实施例中，由于每个汉字都对应一个音节发音起始时间，从而，动画生成设备能够从至少一个音节发音起始时间中确定当前汉字对应的音节发音起始时间，也就确定出了当前汉字对应的当前音节发音起始时间。

S3043、从至少一个汉字口型动画中，确定当前汉字对应的当前汉字口型动画。

在本申请实施例中，由于每个汉字都对应一个汉字口型动画，从而，动画生成设备能够从至少一个汉字口型动画中确定当前汉字对应的汉字口型动画，也就确定出了当前汉字对应的当前汉字口型动画。

S3044、在虚拟角色动画上与当前音节发音起始时间对应的位置处，融合当前汉字口型动画，直到完成至少一个汉字口型动画的融合，生成目标虚拟角色动画。

需要说明的是，由于当前音节发音起始时间为当前汉字在虚拟角色动画的音频信息中开始发音的起始时间，因此，动画生成设备能够在虚拟角色动画上确定与当前音节发音起始时间对应的位置；从而，动画生成设备在确定的该位置处，将当前汉字口型动画融合至虚拟角色动画上；如此一个一个地融合各个汉字的汉字口型动画，直到完成至少一个汉字口型动画的融合时，融合完成的虚拟角色动画即目标虚拟角色动画。

在本申请实施例中，S3043中动画生成设备从至少一个汉字口型动画中，确定当前汉字对应的当前汉字口型动画之后，该动画生成方法还包括S3045和S3046，下面对各步骤分别进行说明。

S3045、当当前汉字为至少一个汉字中除最后一个汉字之外的汉字时，获取预设时长的音节过渡动画。

在本申请实施例中，动画生成设备在两个汉字口型动画之间还增加预设时长的音节过渡动画；从而，当当前汉字为至少一个汉字中除最后一个汉字之外的汉字时，动画生成设备才进行预设时长的音节过渡动画的获取。

需要说明的是，预设时长小于汉字口型动画的时长，比如，0.1秒或0.2秒；音节过渡动画是基于当前汉字口型动画和下一汉字的汉字口型动画获得的，为从当前汉字口型动画向下一汉字的汉字口型动画的过渡动画；比如，当前汉字为“你”，下一汉字为“好”时，音节过渡动画为“你”和“好”的共同音。

S3046、在当前汉字口型动画的尾部拼接音节过渡动画，得到当前待融合口型动画。

需要说明的是，动画生成设备可以在当前汉字口型动画的尾部拼接音节过渡动画，也可以在下一汉字的汉字口型动画的首部拼接音节过渡动画，本申请实施例对此不作具体限定。

另外，动画生成设备可以通过缩短当前汉字口型动画的时长和/或下一汉字的汉字口型动画的时长，来确定虚拟角色动画中预设时长的位置，以融合音节过渡动画。

相应地，在本申请实施例中，S3044中动画生成设备在虚拟角色动画上与当前音节发音起始时间对应的位置处，融合当前汉字口型动画，包括：动画生成设备在虚拟角色动画上与当前音节发音起始时间对应的位置处，融合当前待融合口型动画。也就是说，当动画生成设备对当前汉字口型动画拼接了音节过渡动画，获得了当前待融合口型动画之后，向虚拟角色动画融合的为当前待融合口型动画。

可以理解的是，通过在两个汉字口型动画之间增加音节过渡动画，使得融合后的口型动画更自然，解决了两个汉字口型动画之间瞬间切换造成的抖动问题，提升了融合后的口型动画的渲染效果。

参见图6，图6是本申请实施例提供的动画生成方法的又一个可选的流程示意图；如图6所示，在本申请实施例中，S301之后还包括S309；也就是说，动画生成设备获取虚拟角色动画之后，该动画生成方法还包括S309，下面对该步骤进行说明。

S309、对音频信息和文本信息进行对齐，得到每个汉字音节在音频信息中的音节发音时长。

在本申请实施例中，将文本信息中的每个汉字的音节进行音素拆分，得到音素信息；获取音素信息中的每个音素在音频信息中的音素发音时长，从而得到与音素信息对应的至少一个音素发音时长；从音素信息对应的至少一个音素发音时长中，确定每个汉字对应的目标音素发音时长；将目标音素发音时长的累计时长，确定为每个汉字的音节发音时长。这里，音素信息为至少一个汉字对应的各个音素的集合，目标音素发音时长包括的音素发音时长的数量为至少一个。

需要说明的是，S302和S309中对音频信息和文本信息进行对齐，为相同的处理过程，从而，动画生成设备对音频信息和文本信息进行对齐，得到每个汉字音节在音频信息中的音节发音时长和音节发音起始时间。

继续参见图6，相应地，在本申请实施例中，S304还可通过S3047和S3048实现；也就是说，动画生成设备按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间，将至少一个汉字口型动画融合至虚拟角色动画中，生成目标虚拟角色动画，包括S3047和S3048，下面对各步骤分别进行说明。

S3047、基于音节发音时长，调整汉字口型动画的动画速度，得到待融合口型动画，从而得到与至少一个汉字口型动画对应的至少一个待融合口型动画。

在本申请实施例中，由于汉字口型动画的时长是固定的，与音节发音时长并不一定相等；因此，动画生成设备基于音节发音时长，调整汉字口型动画的动画速度，以使调整后的汉字口型动画的时长为音节发音时长，该调整后的汉字口型动画即待融合口型动画；从而，当动画生成设备完成对至少一个汉字口型动画的动画速度调整之后，也就获得了至少一个待融合口型动画。

需要说明的是，至少一个汉字口型动画与至少一个待融合口型动画一一对应。

S3048、按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间，将至少一个待融合口型动画融合至虚拟角色动画中，生成目标虚拟角色动画。

需要说明的是，动画生成设备完成对至少一个汉字口型动画的动画速度的调整，得到至少一个待融合口型动画之后，则向虚拟角色动画融合的将是至少一个待融合口型动画。

参见图7，图7是本申请实施例提供的动画生成方法的再一个可选的流程示意图；如图7所示，在本申请实施例中，S302之后还包括S310；也就是说，动画生成设备对音频信息和文本信息进行对齐，得到文本信息中的每个汉字在音频信息的音节发音起始时间之后，该动画生成方法还包括S310，下面对该步骤进行说明。

S310、从音频信息上与音节发音起始时间对应的位置处，获取每个汉字在音频信息的音节音量。

需要说明的是，音节音量可以为每个汉字在音频信息的最大发音音量，还可以是与每个汉字对应的发音时长下的音量记录，等等，本申请实施例对此不作具体限定。

继续参见图7，相应地，在本申请实施例中，S304还可通过S3049和S30410实现；也就是说，动画生成设备按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间，将至少一个汉字口型动画融合至虚拟角色动画中，生成目标虚拟角色动画，包括S3049和S30410下面对各步骤分别进行说明。

S3049、将音节音量，作为汉字口型动画的播放权重，从而得到与至少一个汉字口型动画对应的至少一个播放权重。

需要说明的是，播放权重为汉字口型动画的播放参数，用于衡量汉字口型动画的播放程度，比如，当播放权重大于1时，汉字口型动画的口型较大，当播放权重小于1时，汉字口型动画的口型较小。另外，至少一个汉字口型动画与至少一个播放权重一一对应。

S30410、按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间和至少一个播放权重，融合至少一个汉字口型动画，生成目标虚拟角色动画。

需要说明的是，动画生成设备获得了至少一个汉字口型动画对应的至少一个播放权重之后，则向虚拟角色动画融合至少一个汉字口型动画时，即基于基于至少一个音节发音起始时间和至少一个播放权重进行的。

可以理解的是，通过将每个汉字的音节音量作为汉字口型动画的播放权重，使得不同的汉字对应不同的播放权重，从而所获得的目标虚拟对象动画的渲染效果较好。

在本申请实施例中，动画生成设备可以将汉字口型动画一个一个融合至虚拟角色动画中，如S3041-S3044所述；动画生成设备还可以先拼接至少一个汉字口型动画，再将拼接好的至少一个汉字口型动画融合至虚拟角色动画中，以得到目标虚拟角色动画。从而，S304还可以通过S30411-S30413实现；也就是说，动画生成设备按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间，将至少一个汉字口型动画融合至虚拟角色动画中，生成目标虚拟角色动画，包括S30411-S30413，下面对各步骤分别进行说明。

S30411、按照至少一个汉字对应的发音序列，依次基于至少一个音节发音起始时间，拼接至少一个汉字口型动画，得到目标口型动画。

需要说明的是，动画生成设备在按照发音序列拼接至少一个汉字口型动画时，也可以基于每个汉字的音节音量确定至少一个汉字口型动画对应的至少一个播放权重，还可以基于每个汉字的音节发音时长调整至少一个汉字口型动画的动画速度，又可以在至少一个汉字口型动画中的任两个汉字口型动画之间融合音节过渡动画。

S30412、从至少一个音节发音起始时间中，确定最早音节发音起始时间。

在本申请实施例中，动画生成设备从至少一个音节发音起始时间中选择最早的音节发音起始时间，也就获得了最早音节发音起始时间。

S30413、在虚拟角色动画上与最早音节发音起始时间对应的位置处，融合目标口型动画，生成目标虚拟角色动画。

在本申请实施例中，动画生成设备完成了至少一个口型动画的拼接获得目标口型动画之后，将目标口型动画融合至虚拟角色动画上与最早音节发音起始时间对应的位置处，也就生成了目标虚拟角色动画。

在本申请实施例中，S302中动画生成设备对音频信息和文本信息进行对齐，得到文本信息中的每个汉字在音频信息的音节发音起始时间，包括：动画生成设备将文本信息中的每个汉字的音节进行音素拆分，得到音素信息；并获取音素信息中的每个音素在音频信息中的音素发音起始时间，从而得到与音素信息对应的至少一个音素发音起始时间；以及从音素信息对应的至少一个音素发音起始时间中，确定每个汉字对应的目标音素发音起始时间；以及将目标音素发音起始时间的最早起始时间，确定为每个汉字的音节发音起始时间。

示例性地，动画生成设备可以通过MFA(Montreal-Forced-Aligner，文本强制对齐)或“LibriSpeech”或“speech-aligner”进行对齐。

参见图8，图8是本申请实施例提供的动画生成方法的又另一个可选的流程示意图；如图8所示，在本申请实施例中，S304之后还包括S311；也就是说，动画生成设备生成目标虚拟角色动画之后，该动画生成方法还包括S311，下面对该步骤进行说明。

S311、在预设虚拟场景中，播放目标虚拟角色动画。

需要说明的是，动画生成设备在渲染出的预设虚拟场景中，播放目标虚拟角色动画，以完成虚拟角色动画的口型的渲染。

继续参见图8，相应地，在本申请实施例中，S311之前还包括S312和S313；也就是说，动画生成设备在预设虚拟场景中，播放目标虚拟角色动画之前，该动画生成方法还包括S312和S313，下面对各步骤分别进行说明。

S312、响应于作用在动画编辑客户端上的动画导入操作，播放目标虚拟角色动画，以确定目标虚拟角色动画中的待优化动画。

在本申请实施例中，当用户将目标虚拟角色动画导入至动画编辑客户端时，动画生成设备也就接受到了作用在动画编辑客户端上的动画导入操作；此时，动画生成设备响应于该动画导入操作，将目标虚拟角色动画导入至动画编辑客户端中，并播放该目标虚拟角色动画。这里，动画生成设备通过播放目标虚拟角色动画，以通过接受操作确定目标虚拟角色动画中的待优化动画。

S313、对待优化动画进行优化，得到优化后的目标虚拟角色动画。

需要说明的是，动画生成设备可以对目标虚拟角色动画中的待优化动画的口型进行调整，也可以对目标虚拟角色动画中的待优化动画添加表情，本申请实施例对优化方式不作具体限定。

继续参见图8，相应地，在本申请实施例中，S311可通过S3111实现；也就是说，动画生成设备在预设虚拟场景中，播放目标虚拟角色动画，包括S3111，下面对该步骤进行说明。

S3111、在预设虚拟场景中，播放优化后的目标虚拟角色动画。

也就是说，动画生成设备完成了对目标虚拟角色动画中的待优化动画的优化，获得了优化后的目标虚拟角色动画之后，在预设虚拟场景中，播放的为优化后的目标虚拟角色动画。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

参见图9，图9是本申请实施例提供的一种示例性的动画生成流程示意图；如图9所示，当虚拟角色对白动画(虚拟角色动画)对应的场景为虚拟场景中的虚拟角色进行对白的场景时，该示例性的动画生成流程包括如下步骤：

S901、开始。

S902、获取虚拟角色对白动画的对白音频(音频信息)和对白文本(文本信息)。

S903、对对白音频和对白文本进行对齐，得到对白文本中的每个汉字在对白音频的发音起始时间(音节发音起始时间)和发音持续时长(音节发音时长)。

S904、基于每个汉字的音节，调用基础音节动画(音节口型动画)，得到每个汉字对应的口型动画(汉字口型动画)。

需要说明的是，基础音节动画的制作过程包括：声母和韵母分类、汉字归类、以及制作基础音节动画。

其中，声母和韵母分类时，根据发音相似性对声母和韵母分别进行分类，得到的声母类别如表1所示：

表1

声母代表	可以代表的声母
		b	b，p，m
f	f
		d	所有其他声母以及不带声母的音节

需要说明的是，声母代表即本申请实施例中的基础声母，可以代表的声母即本申请实施例中的声母集合。

得到的韵母类别如表2所示：

表2

韵母代表	可以代表的韵母
		a	a，ia，an，ang，ai，ian，iang，ua，uan，uang
e	e，o，er，ie，ei，en，eng
		i	i，in，ing
u	u，ü，iu
		ao	ao，ou，iao，ong
uo	uo，üe，uai，ui，üan，un，ün

需要说明的是，韵母代表即本申请实施例中的基础韵母，可以代表的韵母即本申请实施例中的韵母集合。

汉字归类时，基于声母代表和韵母代表归类为14个代表性的汉字(对应的音节即基础音节)，如表3所示：

表3

制作基础音节动画时，对上述14个汉字，分别制作对应的口型动画，也就得到了基础音节动画。

S905、基于两汉字分别对应的口型动画之间的过渡动画(音节过渡动画)的时长，调整发音持续时长，得到调整时长。

比如，将发音持续时长减去一半的过渡动画的时长所获得的时长，作为调整时长；也就是说，当过渡动画的时长为0.2秒时，对白文本“你好”中的“你”的持续时长为0.3秒、“好”的持续时长为0.5秒时，则“你”的调整时长为0.2秒，“你”的调整时长为0.4秒。

S906、基于调整时长调整每个汉字对应的口型动画的动画速度。

S907、基于发音起始时间，从对白音频中获取每个汉字的音量。

S908、在两个调整后的口型动画之间融合过渡动画。也就是说，在两个汉字对应的口型动画之间融合过渡动画。

S909、将每个汉字的音量作为融合后的口型动画(融合了过渡动画且调整了动画速度后的口型动画)的播放权重，融合至虚拟角色对白动画中，得到最终的虚拟角色对白动画。

S910、结束。

基于S901-S910，可以确定示例性的动画生成的主要流程，如图10所示，首先，针对虚拟角色对白动画10-1，获取对白音频和对白文本10-2；其次，对对白音频和对白文本10-2进行对齐，得到每个汉字的发音开始时间和发音持续时长10-3；然后，针对每个汉字，从基础音节动画10-4中调用口型动画10-5；最后，利用每个汉字的音节的开始时间和持续时长10-3，将口型动画10-5融合至虚拟角色对白动画10-1中，得到最终的虚拟角色对白动画10-6。

可以理解的是，本申请实施例提供的动画生成方法，解决了基于音素的动画生成方法导致的中文发音不自然的问题，提高了所生成动画中口型的整体表现。也就是说，通过针对中文发音每个字对应一个音节的特点，以音节为单位进行口型动画融合，能够使中文的口型动画表现出更自然的视觉效果，提升动画的渲染效果。

下面继续说明本申请实施例提供的动画生成装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的动画生成装置455中的软件模块可以包括：

动画获取模块4551，用于获取虚拟角色动画，其中，所述虚拟角色动画包括音频信息和文本信息；

文本对齐模块4552，用于对所述音频信息和所述文本信息进行对齐，得到所述文本信息中的每个汉字在所述音频信息的音节发音起始时间，从而得到与所述文本信息中的至少一个汉字对应的至少一个音节发音起始时间；

动画调用模块4553，用于从音节口型动画中，确定所述每个汉字对应的汉字口型动画，从而得到与所述至少一个汉字对应的至少一个汉字口型动画，其中，所述音节口型动画是以音节为单位的口型动画；

动画生成模块4554，用于按照所述至少一个汉字对应的发音序列，依次基于所述至少一个音节发音起始时间，将所述至少一个汉字口型动画融合至所述虚拟角色动画中，生成目标虚拟角色动画。

在本申请实施例中，所述动画生成装置455还包括口型动画模块4555，用于基于发音相似性，对中文音节中的声母和韵母分别进行分类，得到至少一类声母集合和至少一类韵母集合；确定所述至少一类声母集合中的每类声母集合对应的基础声母，以及所述至少一类韵母集合中的每类韵母集合对应的基础韵母；将所述每类声母集合对应的所述基础声母和所述每类韵母集合对应的所述基础韵母一一进行组合，得到所述每类声母集合与所述每类韵母集合对应的基础音节；绘制所述基础音节的所述口型动画，得到所述音节口型动画，其中，所述音节口型动画包括至少一个所述基础音节的所述口型动画。

在本申请实施例中，所述动画调用模块4553，还用于对所述每个汉字的音节进行拆分，得到汉字音节拆分结果，其中，所述汉字音节拆分结果至少包括汉字音节韵母；基于所述汉字音节拆分结果，从所述至少一类声母集合中的所述每类声母集合的所述基础声母，以及所述至少一类韵母集合中的所述每类韵母集合的所述基础韵母中，确定目标基础声母和目标基础韵母；将所述目标基础声母和所述目标基础韵母构成的所述基础音节对应的所述口型动画，作为所述汉字口型动画。

在本申请实施例中，所述动画调用模块4553，还用于当所述汉字音节拆分结果包括汉字音节声母和所述汉字音节韵母时，从所述至少一类声母集合中，确定所述汉字音节声母所属的目标声母集合，将所述目标声母集合对应的所述基础声母作为所述目标基础声母；从所述至少一类韵母集合中，确定所述汉字音节韵母所属的目标韵母集合，将所述目标韵母集合对应的所述基础韵母作为所述目标基础韵母。

在本申请实施例中，所述动画调用模块4553，还用于当所述汉字音节拆分结果包括所述汉字音节韵母时，从所述至少一类声母集合中，确定所述汉字音节韵母对应的目标声母集合，将所述目标声母集合对应的所述基础声母作为所述目标基础声母；从所述至少一类韵母集合中，确定所述汉字音节韵母所属的目标韵母集合，将所述目标韵母集合对应的所述基础韵母作为所述目标基础韵母。

在本申请实施例中，所述动画生成模块4554，还用于照所述至少一个汉字对应的所述发音序列，确定当前汉字，其中，所述当前汉字为所述至少一个汉字中的任一汉字；从所述至少一个音节发音起始时间中，确定所述当前汉字对应的当前音节发音起始时间；从所述至少一个汉字口型动画中，确定所述当前汉字对应的当前汉字口型动画；在所述虚拟角色动画上与所述当前音节发音起始时间对应的位置处，融合所述当前汉字口型动画，直到完成所述至少一个汉字口型动画的融合，生成所述目标虚拟角色动画。

在本申请实施例中，所述动画生成模块4554，还用于当所述当前汉字为所述至少一个汉字中除最后一个汉字之外的汉字时，获取预设时长的音节过渡动画；在所述当前汉字口型动画的尾部拼接所述音节过渡动画，得到当前待融合口型动画。

在本申请实施例中，所述动画生成模块4554，还用于在所述虚拟角色动画上与所述当前音节发音起始时间对应的位置处，融合所述当前待融合口型动画。

在本申请实施例中，所述动画生成装置455还包括时长获取模块4556，用于对所述音频信息和所述文本信息进行对齐，得到所述每个汉字音节在所述音频信息中的音节发音时长。

在本申请实施例中，所述动画生成模块4554，还用于基于所述音节发音时长，调整所述汉字口型动画的动画速度，得到待融合口型动画，从而得到与所述至少一个汉字口型动画对应的至少一个待融合口型动画；按照所述至少一个汉字对应的所述发音序列，依次基于所述至少一个音节发音起始时间，将所述至少一个待融合口型动画融合至所述虚拟角色动画中，生成所述目标虚拟角色动画。

在本申请实施例中，所述动画生成装置455还包括音量获取模块4557，用于从所述音频信息上与所述音节发音起始时间对应的位置处，获取所述每个汉字在所述音频信息的音节音量。

在本申请实施例中，所述动画生成模块4554，还用于将所述音节音量，作为所述汉字口型动画的播放权重，从而得到与所述至少一个汉字口型动画对应的至少一个播放权重；按照所述至少一个汉字对应的所述发音序列，依次基于所述至少一个音节发音起始时间和所述至少一个播放权重，融合所述至少一个汉字口型动画，生成所述目标虚拟角色动画。

在本申请实施例中，所述动画生成模块4554，还用于按照所述至少一个汉字对应的所述发音序列，依次基于所述至少一个音节发音起始时间，拼接所述至少一个汉字口型动画，得到目标口型动画；从所述至少一个音节发音起始时间中，确定最早音节发音起始时间；在所述虚拟角色动画上与所述最早音节发音起始时间对应的位置处，融合所述目标口型动画，生成所述目标虚拟角色动画。

在本申请实施例中，所述文本对齐模块4552，还用于将所述文本信息中的所述每个汉字的音节进行音素拆分，得到音素信息；获取所述音素信息中的每个音素在所述音频信息中的音素发音起始时间，从而得到与所述音素信息对应的至少一个音素发音起始时间；从所述音素信息对应的所述至少一个音素发音起始时间中，确定所述每个汉字对应的目标音素发音起始时间；将所述目标音素发音起始时间的最早起始时间，确定为所述每个汉字的所述音节发音起始时间。

在本申请实施例中，所述动画生成装置455还包括动画播放模块4558，用于在预设虚拟场景中，播放所述目标虚拟角色动画。

在本申请实施例中，所述动画生成装置455还包括动画优化模块4559，用于响应于作用在动画编辑客户端上的动画导入操作，播放所述目标虚拟角色动画，以确定所述目标虚拟角色动画中的待优化动画；对所述待优化动画进行优化，得到优化后的目标虚拟角色动画。

在本申请实施例中，所述动画播放模块4558，还用于在预设虚拟场景中，播放所述优化后的目标虚拟角色动画。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的动画生成方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的动画生成方法，例如，如图3示出的动画生成方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，由于在调整虚拟角色动画中虚拟角色的口型时，是基于虚拟角色动画对应的文本信息中的每个汉字，从音节口型动画中调用口型动画实现的；而音节口型动画是以音节为单位的口型动画，又由于一个汉字对应一个音节；因此，以音节为单位进行口型动画融合，能够提升生成的动画的口型与汉字的对应效果，所以，能够提升所生成的动画的渲染效果。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种动画生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从音节口型动画中，确定所述每个汉字对应的汉字口型动画之前，所述方法还包括：

基于发音相似性，对中文音节中的声母和韵母分别进行分类，得到至少一类声母集合和至少一类韵母集合；

确定所述至少一类声母集合中的每类声母集合对应的基础声母，以及所述至少一类韵母集合中的每类韵母集合对应的基础韵母；

将所述每类声母集合对应的所述基础声母和所述每类韵母集合对应的所述基础韵母一一进行组合，得到所述每类声母集合与所述每类韵母集合对应的基础音节；

绘制所述基础音节的所述口型动画，得到所述音节口型动画，其中，所述音节口型动画包括至少一个所述基础音节的所述口型动画；

所述从音节口型动画中，确定所述每个汉字对应的汉字口型动画，包括：

对所述每个汉字的音节进行拆分，得到汉字音节拆分结果，其中，所述汉字音节拆分结果至少包括汉字音节韵母；

基于所述汉字音节拆分结果，从所述至少一类声母集合中的所述每类声母集合的所述基础声母，以及所述至少一类韵母集合中的所述每类韵母集合的所述基础韵母中，确定目标基础声母和目标基础韵母；

将所述目标基础声母和所述目标基础韵母构成的所述基础音节对应的所述口型动画，作为所述汉字口型动画。

3.根据权利要求2所述的方法，其特征在于，所述基于所述汉字音节拆分结果，从所述至少一类声母集合中的所述每类声母集合的所述基础声母，以及所述至少一类韵母集合中的所述每类韵母集合的所述基础韵母中，确定目标基础声母和目标基础韵母，包括：

当所述汉字音节拆分结果包括汉字音节声母和所述汉字音节韵母时，从所述至少一类声母集合中，确定所述汉字音节声母所属的目标声母集合，将所述目标声母集合对应的所述基础声母作为所述目标基础声母；

从所述至少一类韵母集合中，确定所述汉字音节韵母所属的目标韵母集合，将所述目标韵母集合对应的所述基础韵母作为所述目标基础韵母。

4.根据权利要求2所述的方法，其特征在于，所述基于所述汉字音节拆分结果，从所述至少一类声母集合中的所述每类声母集合的所述基础声母，以及所述至少一类韵母集合中的所述每类韵母集合的所述基础韵母中，确定目标基础声母和目标基础韵母，包括：

当所述汉字音节拆分结果包括所述汉字音节韵母时，从所述至少一类声母集合中，确定所述汉字音节韵母对应的目标声母集合，将所述目标声母集合对应的所述基础声母作为所述目标基础声母；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述按照所述至少一个汉字对应的发音序列，依次基于所述至少一个音节发音起始时间，将所述至少一个汉字口型动画融合至所述虚拟角色动画中，生成目标虚拟角色动画，包括：

按照所述至少一个汉字对应的所述发音序列，确定当前汉字，其中，所述当前汉字为所述至少一个汉字中的任一汉字；

从所述至少一个音节发音起始时间中，确定所述当前汉字对应的当前音节发音起始时间；

从所述至少一个汉字口型动画中，确定所述当前汉字对应的当前汉字口型动画；

在所述虚拟角色动画上与所述当前音节发音起始时间对应的位置处，融合所述当前汉字口型动画，直到完成所述至少一个汉字口型动画的融合，生成所述目标虚拟角色动画。

6.根据权利要求5所述的方法，其特征在于，所述从所述至少一个汉字口型动画中，确定所述当前汉字对应的当前汉字口型动画之后，所述方法还包括：

当所述当前汉字为所述至少一个汉字中除最后一个汉字之外的汉字时，获取预设时长的音节过渡动画；

在所述当前汉字口型动画的尾部拼接所述音节过渡动画，得到当前待融合口型动画；

所述在所述虚拟角色动画上与所述当前音节发音起始时间对应的位置处，融合所述当前汉字口型动画，包括：

在所述虚拟角色动画上与所述当前音节发音起始时间对应的位置处，融合所述当前待融合口型动画。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述获取虚拟角色动画之后，所述方法还包括：

对所述音频信息和所述文本信息进行对齐，得到所述每个汉字音节在所述音频信息中的音节发音时长；

所述按照所述至少一个汉字对应的发音序列，依次基于所述至少一个音节发音起始时间，将所述至少一个汉字口型动画融合至所述虚拟角色动画中，生成目标虚拟角色动画，包括：

基于所述音节发音时长，调整所述汉字口型动画的动画速度，得到待融合口型动画，从而得到与所述至少一个汉字口型动画对应的至少一个待融合口型动画；

按照所述至少一个汉字对应的所述发音序列，依次基于所述至少一个音节发音起始时间，将所述至少一个待融合口型动画融合至所述虚拟角色动画中，生成所述目标虚拟角色动画。

8.根据权利要求1至5任一项所述的方法，其特征在于，所述对所述音频信息和所述文本信息进行对齐，得到所述文本信息中的每个汉字在所述音频信息的音节发音起始时间之后，所述方法还包括：

从所述音频信息上与所述音节发音起始时间对应的位置处，获取所述每个汉字在所述音频信息的音节音量；

将所述音节音量，作为所述汉字口型动画的播放权重，从而得到与所述至少一个汉字口型动画对应的至少一个播放权重；

按照所述至少一个汉字对应的所述发音序列，依次基于所述至少一个音节发音起始时间和所述至少一个播放权重，融合所述至少一个汉字口型动画，生成所述目标虚拟角色动画。

9.根据权利要求1至5任一项所述的方法，其特征在于，所述按照所述至少一个汉字对应的发音序列，依次基于所述至少一个音节发音起始时间，将所述至少一个汉字口型动画融合至所述虚拟角色动画中，生成目标虚拟角色动画，包括：

按照所述至少一个汉字对应的所述发音序列，依次基于所述至少一个音节发音起始时间，拼接所述至少一个汉字口型动画，得到目标口型动画；

从所述至少一个音节发音起始时间中，确定最早音节发音起始时间；

在所述虚拟角色动画上与所述最早音节发音起始时间对应的位置处，融合所述目标口型动画，生成所述目标虚拟角色动画。

10.根据权利要求1至5任一项所述的方法，其特征在于，所述对所述音频信息和所述文本信息进行对齐，得到所述文本信息中的每个汉字在所述音频信息的音节发音起始时间，包括：

将所述文本信息中的所述每个汉字的音节进行音素拆分，得到音素信息；

获取所述音素信息中的每个音素在所述音频信息中的音素发音起始时间，从而得到与所述音素信息对应的至少一个音素发音起始时间；

从所述音素信息对应的所述至少一个音素发音起始时间中，确定所述每个汉字对应的目标音素发音起始时间；

将所述目标音素发音起始时间的最早起始时间，确定为所述每个汉字的所述音节发音起始时间。

11.根据权利要求1至5任一项所述的方法，其特征在于，所述生成目标虚拟角色动画之后，所述方法还包括：

在预设虚拟场景中，播放所述目标虚拟角色动画。

12.根据权利要求11所述的方法，其特征在于，所述在预设虚拟场景中，播放所述目标虚拟角色动画之前，所述方法还包括：

响应于作用在动画编辑客户端上的动画导入操作，播放所述目标虚拟角色动画，以确定所述目标虚拟角色动画中的待优化动画；

对所述待优化动画进行优化，得到优化后的目标虚拟角色动画；

所述在预设虚拟场景中，播放所述目标虚拟角色动画，包括：

在预设虚拟场景中，播放所述优化后的目标虚拟角色动画。

13.一种动画生成装置，其特征在于，包括：

14.一种动画生成设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的方法。