CN113539240A

CN113539240A - 动画生成方法、装置、电子设备和存储介质

Info

Publication number: CN113539240A
Application number: CN202110812403.6A
Authority: CN
Inventors: 王海新; 杜峰
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-22
Anticipated expiration: 2041-07-19
Also published as: CN113539240B

Abstract

本发明实施例公开了一种动画生成方法、装置、电子设备和存储介质，该动画生成方法包括：获取目标语音数据和目标语音数据对应的目标文本数据，目标语音数据中包括不同语种的语音数据；对目标文本数据进行分析识别，得到目标文本数据中包括的各个音素，并对目标语音数据进行分析识别，得到各个音素中的每个音素的发音时段；确定每个音素所属的语种；查询每个音素所属的语种的口型配置表，得到为每个音素配置的口型；在每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画。本发明实施例能够提升虚拟形象的口型与表达语句的贴合度，使得虚拟形象的口型变化更加丰富，表达更加顺畅、自然。

Description

动画生成方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及计算机技术，尤其涉及一种动画生成方法、装置、电子设备和存储介质。

背景技术

随着直播行业的发展，各大平台纷纷推出自己的虚拟形象，利用虚拟形象说出互动语句与用户互动，比如利用虚拟形象说出“欢迎xx”以欢迎用户进入直播间，利用虚拟形象给直播间的用户讲解产品信息等。在利用虚拟形象与用户互动时，互动语句中除了汉语外，通常还会有其他语种的语言(比如英语的用户名、英语的产品名等)，针对互动语句中其他语种的语言，目前常用的做法是利用汉语口型代替其他语种语言的口型，从而驱动虚拟形象。

在实现本发明的过程中，发明人发现，利用汉语口型代替其他语种语言的口型驱动虚拟形象的做法，会出现口型与互动语句不搭、虚拟形象口型变化单一、表达生硬不自然等问题。

发明内容

本发明实施例提供一种动画生成方法、装置、电子设备和存储介质，能够提升虚拟形象的口型与表达语句的贴合度，使得虚拟形象的口型变化更加丰富，表达更加顺畅、自然。

第一方面，本发明实施例提供一种动画生成方法，包括：

获取目标语音数据和所述目标语音数据对应的目标文本数据，所述目标语音数据中包括不同语种的语音数据；

对所述目标文本数据进行分析识别，得到所述目标文本数据中包括的各个音素，并对所述目标语音数据进行分析识别，得到所述各个音素中的每个音素的发音时段；

确定所述每个音素所属的语种；

查询所述每个音素所属的语种的口型配置表，得到为所述每个音素配置的口型；

在所述每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画。

第二方面，本发明实施例提供一种动画生成装置，所述装置包括：

获取模块，用于获取目标语音数据和所述目标语音数据对应的目标文本数据，所述目标语音数据中包括不同语种的语音数据；

识别模块，用于对所述目标文本数据进行分析识别，得到所述目标文本数据中包括的各个音素，并对所述目标语音数据进行分析识别，得到所述各个音素中的每个音素的发音时段；

确定模块，用于确定所述每个音素所属的语种；

查询模块，用于查询所述每个音素所属的语种的口型配置表，得到为所述每个音素配置的口型；

生成模块，用于在所述每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一所述的动画生成方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的动画生成方法。

本发明实施例中，可以对由不同语种的语言构成的目标语句的语音数据(即目标语音数据)和文本数据(即目标文本数据)进行分析识别，得到目标文本数据中包括的各个音素和各个音素中的每个音素的发音时段，确定每个音素所属的语种；查询每个音素所属的语种的口型配置表，得到为每个音素配置的口型；在每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画。即本发明实施例中，可以识别出目标文本数据中包含的不同语种的音素，查询各个语种的口型配置表获取为不同语种音素配置的对应语种的口型，从而根据不同语种的口型驱动虚拟形象，虚拟形象口型变化丰富，避免了利用汉语口型代替其他语种语言的口型驱动虚拟形象产生的口型与互动语句不搭、口型变化单一、表达生硬不自然等问题，提升了虚拟形象的口型与表达语句的贴合度，使得虚拟形象的表达更加顺畅、自然。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提供的动画生成方法的一个流程示意图。

图2是本发明实施例提供的口型配置表的创建方法的一个流程示意图。

图3是本发明实施例提供的口型配置表的一个示例图。

图4是本发明实施例提供的口型配置表的另一示例图。

图5是本发明实施例提供的驱动虚拟形象的方法的一个流程示意图。

图6是本发明实施例提供的向量变化规律的一个示意图。

图7是本发明实施例提供的动画生成装置的一个结构示意图。

图8是本发明实施例提供的电子设备的一个结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的动画生成方法的一个流程示意图，该方法可以由本发明实施例提供的动画生成装置来执行，该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中，该装置可以集成在电子设备中，电子设备比如可以是计算机。以下实施例将以该装置集成在电子设备中为例进行说明，参考图1，该方法具体可以包括如下步骤：

步骤101，获取目标语音数据和目标语音数据对应的目标文本数据，所述目标语音数据中包括不同语种的语音数据。

示例地，以需要驱动虚拟形象表达出目标语句为例，目标语音数据可以理解为用语音形式表示的目标语句，目标文本数据可以理解为用文本形式表示的目标语句；目标语句可以由不同语种的语言构成，不同语种比如汉语、英语、法语、俄语等。一个具体的目标语句(用文本数据表示)比如：您好Sam，即该目标语句由汉语和英语构成。

具体实现中，需要驱动的虚拟形象可以是虚拟的人物形象，人物形象的性别不限，该虚拟形象可以是二维的虚拟形象，也可以是三维的虚拟形象。具体地，可以通过用户实时输入获取目标语音数据和目标文本数据，比如可以通过麦克风拾取用户发出的语音，从而得到目标语音数据；比如可以通过键盘或屏幕获取用户提供的文本，从而得到目标语音数据对应的目标文本数据。另外，还可以获取预先设置好的目标语音数据和对应的目标文本数据；此外，还可以获取目标语音数据，对该目标语言数据进行转换，得到目标语音数据对应的目标文本数据。

具体地，在得到目标文本数据之后，可以按照语种对该目标文本数据进行分割，从而得到分割文本数据；比如目标文本数据中包含汉语和英语时，可以分割出目标文本数据中的汉语和英语。例如目标文本数据为“您好Sam”时，可以将该目标文本数据分割成“您好”和“Sam”。在对该目标文本数据进行分割之后，可以对分割文本数据进行预处理，得到待识别文本数据，以便于后续识别；该预处理可以包括但不限于将特殊符号转换成对应语种的字或词，分割合成词等；比如，针对特殊符号“*”可以转换成“星”，针对特殊符号“&”可以转换成“与”，针对特殊符号“#”可以转换成“井”，针对合成词“what's”可以分割成“what is”。

步骤102，对目标文本数据进行分析识别，得到目标文本数据中包括的各个音素，并对目标语音数据进行分析识别，得到各个音素中的每个音素的发音时段。

具体地，可以对预处理之后的目标文本数据进行分析识别，即对待识别文本数据进行分析识别，从而得到目标文本数据中包括的各个音素。具体实现中，可以利用预先建立的各个语种的发音词典对对待识别文本数据进行分析识别，从而得到目标文本数据中包括的各个音素。比如，可以基于待识别文本数据中每个字或词查询对应语种的发音词典，从而得到各个音素。

示例地，各个语种的发音词典库比如汉语发音词典库、英语发音词典库、法语发音词典库等。其中，汉语发音词典库中可以包括各个汉字及其发音(音素)，英语发音词典库中可以包括各个单词及其发音(音素)。

在一个具体的实施例中，汉语发音词典库中的部分数据可如下，其中的***数字表示汉语音素的发音音调：

穿过ch uan1 g uo4

穿梭ch uan1 s uo1

穿着ch uan1 zh uo2

传ch uan2

在一个具体的实施例中，英语发音词典库中的部分数据可如下，其中的***数字表示英语音素的发音音调：

ABILENE AE1 B IH0 L IY2 N

ABILITIES AH0 B IH1 L AH0 T IY0 Z

ABILITY AH0 B IH1 L AH0 T IY0

ABIMELECH AE0 B IH0 M EH0 L EH1 K

ABINADAB AH0 B AY1 N AH0 D AE1 B

ABINGDON AE1 B IH0 NG D AH0 N

ABINGDON'S AE1 B IH0 NG D AH0 N Z

ABINGER AE1 B IH0 NG ER0

另外，为了使本发明的应用场景更加广泛，在英语发音词典库还可以加入英语品牌名、英语人名等。

示例地，可以通过预先训练好的声学模型对目标语音数据进行分析识别，得到各个音素中的每个音素的发音时段，预先训练好的声学模型可以包括隐马尔科夫链模型(Hidden Markov Model，HMM)-高斯混合模型(Gaussian Mixture Model，GMM)和深度神经网络(Deep Neural Networks，DNN)模型。比如，可以对目标语音数据进行分帧处理，得到多个音频帧；提取每个音频帧的声学特征，并将提取的声学特征输入预先训练好的声学模型，以使该声学模型预测每个音频帧中的候选音素的概率；根据每个音频帧中的候选音素的概率和识别目标文本数据得到的多个音素确定目标语音数据对应的音素序列，根据该音频序列中每个音素的发音开始时间和发音结束时间获取每个音素的发音时段。

其中，所提取的声学特征可以是梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCC)。经过对人类听觉感知的实验表明，人类听觉的感知聚焦在某些特定的区域，而不是整个频谱范围，因此MFCC是根据人类听觉特点进行设计的，比较适合用于语音识别场景。

其中，声学模型可基于混合语料库训练得到，混合语料库可以包括各个语种的语料库，比如汉语预料库、英语语料库、法语语料库等。其中，汉语预料库可以采用开源的语料库Aishell，Aishell由400个来自不同方言区的中国人参与录制，音频为16000Hz，总共时间为170小时的语音，并且提供每条语音对应的文本。英语语料库可以采用爱尔兰英语方言语音数据集(Ireland English Dialect Speech Data Set)，该数据集由不同方言的志愿者录制的英语句子构成，将48000Hz的语料库更改为16000Hz用于训练使用，并提供每条语音对应的文本。

具体实现中，可以按照第一比例从混合语料库中提取数据构建训练样本集，训练样本集中的每个样本包括语音数据和对应的文本数据，根据各个语种的发音词典库获取每个训练样本的文本数据中包括的音素，通过对每个训练样本的语音数据进行声学特征提取和识别，得到对应音素的发音时长，将每个训练样本包括的音素和对应音素的发音时长标注为对应训练样本的标签，利用具有标签的训练样本集进行模型训练，并通过损失函数对模型进行反向优化，从而得到声学模型。示例地，损失函数可以采用交叉熵损失函数。

另外，还可以按照第二比例从混合语料库中提取数据构建测试样本集，利用测试样本集对训练好的声学模型进行性能测试，如果测试结果满足要求，则将训练好的声学模型投入使用。其中，第一比例、第二比例均可以按照实际需求或经验设置，比如第一比例可以设置为80％，第二比例可以设置为5％。

在一个具体的实施例中，识别得到的每个音素的发音时段可以包括发音开始时间和发音结束时间，以目标文本数据为“您好”为例，得到的各个音素和每个音素的发音时段比如可如下表1所示：

表1

需要说明的是，表1所示数据仅为举例说明，并不构成对实际数据处理的最终限定。

步骤103，确定每个音素所属的语种。

示例地，可以基于每个音素查询各个语种的发音词典库，将与每个音素匹配的发音词典库对应的语种确定为对应音素所属的语种；其中，与某个音素匹配的发音词典库可以是包含该音素的发音词典库。比如，某个音素包含在汉语发音词典库中，则可以确定该音素所属的语种的汉语；再比如，某个音素包含在英语发音词典库中，则可以确定该音素所属的语种的英语。

步骤104，查询每个音素所属的语种的口型配置表，得到为每个音素配置的口型。

具体地，可以预先为每个语种创建口型配置表，为每个语种创建的口型配置表中包括对应语种所包括的所有音素和每个音素对应的口型。在得到目标语句中包括的各个音素后，可以根据每个音素对应的语种查询对应语种的口型配置表，从而得到为每个音素配置的口型。比如，某个音素所属的语种为汉语，则可以查询汉语的口型配置表，从而得到为该音素配置的汉语口型。再比如，某个音素所属的语种为英语，则可以查询英语的口型配置表，从而得到为该音素配置的英语口型。

步骤105，在每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画。

下面介绍本发明实施例提供的口型配置表的创建方法，如图2所示，该创建方法可以包括如下步骤：

步骤201，收集每个语种的音素，并确定每个语种的音素的语音视位。

示例地，该语种可以包括汉语、英语、法语、俄语等，每个语种均可以包括多个音素，音素指语音的最小发音单元。比如，汉语包括的音素有b、p、m、f、z、c、s、a、o、e、i、u、ü等，英语包括的音素有L、R、S、F、V、CH、SH、ZH等。

语音视位代表说一个字或词时的面部和口腔位置，它是音素的视觉等价物，是形成单词的基本声学单元，是语音的基本可视构建基块。在语言中，每个音素都有相应的代表口腔发音时的形状的语音视位。

步骤202，将每个语种中具有相同语音视位的音素归类。

具体实现中，不同的音素可能具有相同的语音视位，可以将每个语种中具有相同语音视位的音素归类。比如，汉语包括的音素中，音素in、ing、ie的语音视位均为In，则可以将音素in、ing、ie归为一类。再比如，英语包括的音素中，音素AE、AY的语音视位均为ai，则可以将音素AE、AY归为一类。

步骤203，根据每个语种中的音素归类为每类音素配置口型，从而得到为每个语种创建的口型配置表。

即可以为每个语种中语音视位相同的音素配置同一口型。比如汉语音素in、ing、ie的语音视位相同，可以为in、ing、ie配置同一个口型；英语音素AE、AY的语音视位相同，可以为AE、AY配置同一口型。具体实现中，所配置的口型可以通过多种变形器blendshape综合制作。

在一个具体的实施例中，以各个语种包括汉语和英语为例，则为汉语创建的口型配置表可如图3所示，为英语创建的口型配置表可如图4所示。为每个语种创建的口型配置表中可以包括口型标识、音素、语音视位，口型等项。需要说明的是，图3和图4中的音素、语音视位、口型等仅为示例，并不构成对实际配置的最终限定。

本发明实施例提供的口型配置表的创建方法，通过将每个语种中语音视位相同的音素归类，按照类别为每个语种创建口型配置表，可以简化数据处理，提高创建效率。

下面介绍本发明实施例提供的虚拟形象驱动方法，如图5所示，即图1中的步骤105具体可以包括如下步骤：

步骤1051，确定为当前音素配置的口型的多维状态向量，并确定为上一音素配置的口型的多维状态向量。

具体地，上一音素可以为发音时段在当前音素的发音时段之前且与当前音素的发音时段相邻的音素。比如在一个时间轴上按照发音时间先后顺序分别有音素1、音素2和音素3，如果当前音素为音素2，则当前音素的上一音素为音素1；如果当前音素为音素3，则当前音素的上一音素为音素2。另外，如果当前音素是时序排序上的第一个音素，则可以认为当前音素的上一音素为空，上一音素的口型的多维状态向量为0。

示例地，每一个口型都可以通过多维状态向量表示，该多维状态向量包括多个维度的状态向量，每个维度的状态向量表示构成一个口型的某个部位的状态特征值，该多个维度比如可以包括上唇、下唇、舌尖、舌位、舌面等，不同的口型具有的多维状态向量的值不同。

步骤1052，利用缓动函数对为当前音素配置的口型的多维状态向量和为上一音素配置的口型的多维状态向量进行计算，得到在当前音素的发音时段内的各个时刻的多维状态向量。

示例地，本发明实施例中的缓动函数可以包括缓出函数ease-out，缓出函数ease-out可以如下：

f(x_i)＝-x_i ²+2x_i

其中，x_i表示当前音素的发音时段内的第i时刻，f(x_i)表示当前音素的发音时段内的第i时刻的向量变化率；比如当前音素的发音时段对应的发音时长为5秒，则第i时刻可以是第1秒、第2秒、第3秒、第4秒或第5秒。可以看出，本发明实施例提供的缓动函数是一个变速运动的缓动函数，开始时变化速度很快，给人以流畅感，然后逐渐减速，不会让人觉得戛然而止。

为了便于计算，在进行向量计算时，可以根据当前音素的发音开始时间和发音结束时间确定当前音素的发音时长，根据当前音素的发音时长将当前音素的发音时段内的每个时刻x_i进行归一化处理，将归一化处理之后的x_i代入缓动函数进行计算。

具体地，可以利用缓动函数计算出当前音素的发音时段内的各个时刻的向量变化率；根据为当前音素配置的口型的多维状态向量和为上一音素配置的口型的多维状态向量计算出为当前音素配置的口型和为上一音素配置的口型在各个维度的向量差，根据为当前音素配置的口型和为上一音素配置的口型在各个维度的向量差、当前音素的发音时段内的各个时刻的向量变化率以及为上一音素配置的口型的多维状态向量计算当前音素的发音时段内的各个时刻各个维度的向量，根据当前音素的发音时段内的各个时刻各个维度的向量确定出在当前音素的发音时段内的各个时刻的多维状态向量。

比如，可以按照如下公式对缓动函数、为当前音素配置的口型的多维状态向量和为上一音素配置的口型的多维状态向量进行处理，得到在当前音素的发音时段内的各个时刻的多维状态向量：

E_ij＝-Δ_jf(x_i)+s_j

E_i＝(E_i1，E_i2，......E_ij)

其中，E_ij表示当前音素的发音时段内第i时刻第j维度的向量，Δ_j表示为当前音素配置的口型的多维状态向量与为上一音素配置的口型的多维状态向量中第j维度的向量差，s_j表示为上一音素配置的口型的多维状态向量中第j维度的向量，E_i表示当前音素的发音时段内第i时刻的多维状态向量。

通过分析公式E_ij＝-Δ_jf(x_i)+s_j可以得出，如果Δ_j>0，则向量变化规律可如图6中的(a)图所示，如果Δ_j<0，则向量变化规律可如图6中的(b)图所示，体现在动画变化上，即某个口型在开始变化时速度较快，逐渐变缓过渡至下一个口型，这样的设计不会让人觉得口型突然停止，造成卡动的现象，动画过渡表现较好。

步骤1053，将当前音素的发音时段内的各个时刻的多维状态向量提供给对应维度的变形器，以利用对应维度的变形器驱动虚拟形象，生成口型动画。

其中，多维状态向量中每个维度的状态向量对应一个变形器，每个变形器用于驱动虚拟形象的对应部位。比如，多维状态向量包括上唇、下唇和舌尖三个维度的状态向量，则上唇、下唇和舌尖分别对应一个变形器，在计算得到某个时刻的多维状态向量时，可以将多维状态向量中上唇的状态向量提供给上唇对应的变形器，将下唇的状态向量提供给下唇对应的变形器，将舌尖的状态向量提供给舌尖对应的变形器，从而使得对应的变形器按照对应维度的向量驱动虚拟形象的对应部位，从而生成口型动画。另外，在生成口型动画时，还可以将口型动画与目标语音数据同步播放，从而呈现出虚拟形象表达目标语音数据的动画效果。

利用本发明实施例提供的缓动函数计算在当前音素的发音时段内的各个时刻的多维状态向量，从而驱动虚拟形象，可以使得虚拟形象的口型变化更加真实、自然，提升了动画显示效果。实际应用中，还可以采用其他类型的缓动函数计算在当前音素的发音时段内的各个时刻的多维状态向量，比如采用线性缓动函数计算，此处不做具体限定。

下面以一个具体的例子说明本发明实施例提供的虚拟形象驱动方法，以目标文本数据为“您好”，识别得到各个音素及各个音素的发音时长如表1所示为例，各个音素均为汉语音素，则根据图3可知，音素n对应配置的口型为口型五、音素in对应配置的口型为口型八，音素h对应配置的口型为口型六，音素ao对应配置的口型为口型三，即要让虚拟形象表达出“您好”时，要驱动虚拟形象的口型按照口型五、口型八、口型六、口型三依次变化。

比如当前音素为ao，对应配置的口型为口型三，上一音素配置的口型为口型六，口型六的多维状态向量为[20，40，60]，口型三的多维状态向量为[50，20，90]，当前音素对应的发音时长为5秒，以计算当前音素的发音时长内的第2秒的多维状态向量为例，具体可如下：

将发音时刻(第2秒)归一化：2/5＝0.4；

第2秒时第一维度的状态向量为：-30*0.4(0.4-2)+20＝39.2；

第2秒时第二维度的状态向量为：-(-20)*0.4(0.4-2)+40＝27.2；

第2秒时第三维度的状态向量为：-30*0.4(0.4-2)+60＝79.2；

即音素ao的发音时段内的第2秒的多维状态向量为(39.2，27.2，79.2)，假设这个多维状态向量对应的维度分别为上唇、下唇和舌尖，则可以将39.2提供给上唇对应的变形器，将27.2提供给下唇对应的变形器，将79.2提供给舌尖对应的变形器，从而使得对应的变形器按照对应维度的向量驱动虚拟形象的对应部位。

针对当前音素的发音时段内的其他时刻，以及其他音素的发音时段内的各个时刻，可以按照类似的方法进行计算，从而可以得到每个音素的发音时段内的每个时刻的多维状态向量，将每个维度的状态向量提供给对应维度的变形器，对应维度的变形器按照时序驱动虚拟形象，即可实现虚拟形象表达出“您好”的动画效果。

图7是本发明是实施例提供的动画生成装置的一个结构图，该装置适用于执行本发明实施例提供的动画生成方法。如图7所示，该装置具体可以包括：

获取模块401，用于获取目标语音数据和所述目标语音数据对应的目标文本数据，所述目标语音数据中包括不同语种的语音数据；

识别模块402，用于对所述目标文本数据进行分析识别，得到所述目标文本数据中包括的各个音素，并对所述目标语音数据进行分析识别，得到所述各个音素中的每个音素的发音时段；

确定模块403，用于确定所述每个音素所属的语种；

查询模块404，用于查询所述每个音素所属的语种的口型配置表，得到为所述每个音素配置的口型；

生成模块405，用于在所述每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画。

一实施例中，所述生成模块405具体用于：

确定为当前音素配置的口型的多维状态向量，并确定为上一音素配置的口型的多维状态向量，所述上一音素为发音时段在所述当前音素的发音时段之前且与所述当前音素的发音时段相邻的音素；

利用缓动函数对为所述当前音素配置的口型的多维状态向量和为所述上一音素配置的口型的多维状态向量进行计算，得到在所述当前音素的发音时段内的各个时刻的多维状态向量；

将所述当前音素的发音时段内的各个时刻的多维状态向量提供给对应维度的变形器，以利用对应维度的变形器驱动所述虚拟形象，生成所述口型动画。

一实施例中，所述缓动函数包括缓出函数ease-out。

一实施例中，所述生成模块405利用缓动函数对为所述当前音素配置的口型的多维状态向量和为所述上一音素配置的口型的多维状态向量进行计算，得到在所述当前音素的发音时段内的各个时刻的多维状态向量，包括：

利用所述缓动函数计算出所述当前音素的发音时段内的各个时刻的向量变化率；

根据为所述当前音素配置的口型的多维状态向量和为所述上一音素配置的口型的多维状态向量计算出为所述当前音素配置的口型和为所述上一音素配置的口型在各个维度的向量差；

根据为所述当前音素配置的口型和为所述上一音素配置的口型在各个维度的向量差、所述当前音素的发音时段内的各个时刻的向量变化率以及为所述上一音素配置的口型的多维状态向量计算所述当前音素的发音时段内的各个时刻各个维度的向量；

根据所述当前音素的发音时段内的各个时刻各个维度的向量确定出在所述当前音素的发音时段内的各个时刻的多维状态向量。

一实施例中，所述当前音素的发音时段包括所述当前音素的发音开始时间和发音结束时间，所述生成模块405在利用缓动函数对为所述当前音素配置的口型的多维状态向量和为所述上一音素配置的口型的多维状态向量进行计算，得到在所述当前音素的发音时段内的各个时刻的多维状态向量之前，还用于：

根据所述当前音素的发音开始时间和发音结束时间确定所述当前音素的发音时长；

根据所述当前音素的发音时长将所述当前音素的发音时段内的各个时刻进行归一化处理。

一实施例中，所述确定模块403具体用于：

基于所述每个音素查询各个语种的发音词典库；

将与所述每个音素匹配的发音词典库对应的语种确定为对应音素所属的语种。

一实施例中，所述装置还包括：

创建模块，用于收集各个语种的音素，将所述各个语种中发音相同的音素归类，根据所述各个语种中的音素归类为每类音素配置口型，从而得到为所述各个语种创建的口型配置表。

一实施例中，所述装置还包括：

预处理模块，用于按照语种将所述目标文本数据进行分割得到分割文本数据；对所述分割文本数据进行预处理得到待识别文本数据；

所述识别模块402对所述目标文本数据进行分析识别，得到所述目标文本数据中包括的各个音素，包括：

对所述待识别文本数据进行分析识别，得到所述目标文本数据中包括的各个音素。

本领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例的装置，可以对由不同语种的语言构成的目标语句的语音数据(即目标语音数据)和文本数据(即目标文本数据)进行分析识别，得到目标文本数据中包括的各个音素和各个音素中的每个音素的发音时段，确定每个音素所属的语种；查询每个音素所属的语种的口型配置表，得到为每个音素配置的口型；在每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画。即本发明实施例中，可以识别出目标文本数据中包含的不同语种的音素，查询各个语种的口型配置表获取为不同语种音素配置的对应语种的口型，从而根据不同语种的口型驱动虚拟形象，虚拟形象口型变化丰富，避免了利用汉语口型代替其他语种语言的口型驱动虚拟形象产生的口型与互动语句不搭、口型变化单一、表达生硬不自然等问题，提升了虚拟形象的口型与表达语句的贴合度，使得虚拟形象的表达更加顺畅、自然。

本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例提供的动画生成方法。

本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例提供的动画生成方法。

下面参考图8，其示出了适于用来实现本发明实施例的电子设备的计算机***500的结构示意图。图8示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机***500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、识别模块、确定模块、查询模块和生成模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

获取目标语音数据和所述目标语音数据对应的目标文本数据，所述目标语音数据中包括不同语种的语音数据；对所述目标文本数据进行分析识别，得到所述目标文本数据中包括的各个音素，对所述目标语音数据进行分析识别，得到所述各个音素中的每个音素的发音时段；确定所述每个音素所属的语种；查询所述每个音素所属的语种的口型配置表，得到为所述每个音素配置的口型；在所述每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画。

根据本发明实施例的技术方案，可以对由不同语种的语言构成的目标语句的语音数据(即目标语音数据)和文本数据(即目标文本数据)进行分析识别，得到目标文本数据中包括的各个音素和各个音素中的每个音素的发音时段，确定每个音素所属的语种；查询每个音素所属的语种的口型配置表，得到为每个音素配置的口型；在每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画。即本发明实施例中，可以识别出目标文本数据中包含的不同语种的音素，查询各个语种的口型配置表获取为不同语种音素配置的对应语种的口型，从而根据不同语种的口型驱动虚拟形象，虚拟形象口型变化丰富，避免了利用汉语口型代替其他语种语言的口型驱动虚拟形象产生的口型与互动语句不搭、口型变化单一、表达生硬不自然等问题，提升了虚拟形象的口型与表达语句的贴合度，使得虚拟形象的表达更加顺畅、自然。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种动画生成方法，其特征在于，包括：

确定所述每个音素所属的语种；

2.根据权利要求1所述的动画生成方法，其特征在于，所述在所述每个音素的发音时段内按照对应的口型驱动虚拟形象，以生成口型动画，包括：

3.根据权利要求2所述的动画生成方法，其特征在于，所述缓动函数包括缓出函数ease-out。

4.根据权利要求3所述的动画生成方法，其特征在于，所述利用缓动函数对为所述当前音素配置的口型的多维状态向量和为所述上一音素配置的口型的多维状态向量进行计算，得到在所述当前音素的发音时段内的各个时刻的多维状态向量，包括：

5.根据权利要求3所述的动画生成方法，其特征在于，所述当前音素的发音时段包括所述当前音素的发音开始时间和发音结束时间，在利用缓动函数对为所述当前音素配置的口型的多维状态向量和为所述上一音素配置的口型的多维状态向量进行计算，得到在所述当前音素的发音时段内的各个时刻的多维状态向量之前，还包括：

6.根据权利要求1至5任一所述的动画生成方法，其特征在于，所述确定所述每个音素所属的语种，包括：

基于所述每个音素查询各个语种的发音词典库；

7.根据权利要求1至5任一所述的动画生成方法，其特征在于，所述口型配置表通过如下方式创建：

收集每个语种的音素，并确定所述每个语种的音素的语音视位；

将所述每个语种中具有相同语音视位的音素归类；

根据所述每个语种中的音素归类为每类音素配置口型，从而得到为所述每个语种创建的口型配置表。

8.根据权利要求1至5任一所述的动画生成方法，其特征在于，在对所述目标文本数据进行分析识别之前，还包括：

按照语种将所述目标文本数据进行分割得到分割文本数据；

对所述分割文本数据进行预处理得到待识别文本数据；

所述对所述目标文本数据进行分析识别，得到所述目标文本数据中包括的各个音素，包括：

9.一种动画生成装置，其特征在于，包括：

确定模块，用于确定所述每个音素所属的语种；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一所述的动画生成方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一所述的动画生成方法。