CN113314104B

CN113314104B - 交互对象驱动和音素处理方法、装置、设备以及存储介质

Info

Publication number: CN113314104B
Application number: CN202110604874.8A
Authority: CN
Inventors: 吴文岩; 吴潜溢; 高娜; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2023-06-20
Anticipated expiration: 2041-05-31
Also published as: CN113314104A; TW202248994A; WO2022252890A1

Abstract

公开了一种交互对象驱动和音素处理方法、装置、设备以及存储介质，所述交互对象驱动方法包括：获取交互对象的声音驱动数据的声学特征；利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值；根据所述姿态参数值控制所述交互对象的姿态。

Description

交互对象驱动和音素处理方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种交互对象驱动和音素处理方法、装置、设备以及存储介质。

背景技术

数字人是利用深度学习的方法，将所发出的声音与所呈现的口型、表情、动作等相匹配。随着数字人在众多领域的广泛应用，在许多场景下需要数字人能够支持多语种。

目前，通常利用语音识别模型所提取的声音特征，或者利用音素时间戳得到的声音特征来驱动数字人，然而这些特征在不同的语种下是有区别的，且深度学习需要针对不同语种的数据集，而当前开源数据集存在质量低、标注不完整、数据不均衡等问题。

如何实现数字人对多语种的支持是目前需要积极研究的问题。

发明内容

本公开实施例提供一种交互对象驱动和音素处理方案。

根据本公开的一方面，提供一种交互对象的驱动方法，所述方法包括：获取交互对象的声音驱动数据的声学特征；利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值；根据所述姿态参数值控制所述交互对象的姿态。

本公开实施例利用包含多语种的音素表对声音特征提取网络进行训练，可以提高对所述特征提取网络训练的效率和质量，并利用该网络提取所述声音驱动数据的音素后验特征，作为声音特征驱动所述交互对象，由于所述音素后验概率是与说话者无关、能够支持多语种的声音特征，使得交互对象的姿态在不同语种下都与真实发音相贴合。

结合本公开提供的任一实施方式，所述获取交互对象的声音驱动数据的声学特征，包括：获取所述交互对象的声音驱动数据对应的语音帧序列；根据所述语音帧序列中各个语音帧的声学特征向量，得到所述声音驱动数据的声学特征。

结合本公开提供的任一实施方式，所述声音特征提取网络包括第一全连接网络、编码子网络、第二全连接网络，所述利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率，包括：将所述声学特征输入至所述第一全连接网络，得到所述第一全连接网络输出的第一声学特征序列；利用所述编码子网络，对所述第一声学特征序列进行特征编码处理；将编码结果输入至所述第二全连接网络，得到所述声音驱动数据中各个语音帧的音素后验概率。

在本公开实施例中，通过将所述声音特征转换为序列，通过适用于提取序列特征的编码网络进行特征提取，并通过全连接网络分类处理，可以准确地预测出声音特征数据中各个语音帧的音素后验概率。

结合本公开提供的任一实施方式，所述根据所述各个音素的音素后验概率，得到所述交互对象的姿态参数值，包括：将所述各个语音帧的音素后验概率输入至时序网络，输出关联特征信息；将所述关联特征信息输入至第三全连接网络，得到关联特征序列；对所述关联特征序列进行激活处理，得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值。

通过时序网络和全连接网络来预测所述声音驱动数据中各个语音帧的音素后验概率对应的姿态参数值，以将具有关联性的历史音素后验概率和当前音素后验概率进行融合，从而使得历史姿态参数值对当前姿态参数值的变化产生影响，使得交互人物的姿态参数值的变化更加平缓、自然。

结合本公开提供的任一实施方式，所述交互对象的控制参数包括面部姿态控制参数，所述根据所述姿态参数值控制所述交互对象的姿态，包括：根据与所述各个语音帧的音素后验概率匹配的面部姿态控制参数，驱动所述交互对象实现与所述声音驱动数据中的各个语音帧匹配的面部姿态。

在根据所述声音驱动数据输出声音的同时，根据与所述声音驱动数据对应的面部姿态控制参数来驱动所述交互对象做出面部表情，则可以实现交互对象在输出声音的同时，同步做出发出该声音的嘴型和表情，从而使目标对象产生该交互对象正在说话的感觉，提高了目标对象的交互体验。

根据本公开的一方面，提出一种音素处理方法，所述方法包括：根据多个目标语种中的音素，得到包含多语种的音素表；基于所述包含多语种的音素表，训练得到声音特征提取网络，所述声音特征提取网络用于提取待识别语音帧的音素后验概率。

在本公开实施例中，利用包含多语种的音素表结合本公开提供的任一实施方式，所述根据多个目标语种中的音素，得到包含多语种的音素表包括：获取多个目标语种中的音素进行拼接；将拼接结果中发音相似度超过第一设定阈值的音素进行合并，得到所述包含多语种的音素表。

本公开实施例提出了一种通过拼接方式构建多语种音素表的方法，可以方便、快速地得到包含多个目标语种的音素表。

结合本公开提供的任一实施方式，所述方法还包括：将多个目标语种中的音素分别映射为发音相似度满足预设相似度条件的国际音标；将映射结果中具有相同发音的国际音标进行合并，得到所述包含多语种的音素表。

结合本公开提供的任一实施方式，响应于所述多个目标语种中存在与各个国际音标的发音相似度小于或等于第二设定阈值的第一音素，将所述第一音素添加至所述包含多语种的音素表中。

本公开实施例提出了一种通过将多个目标语种映射为国际音标，从而得到包含多语种的音素表的方法，该方法适用于多种目标语种，具有普适性。

结合本公开提供的任一实施方式，所述方法还包括：获取多语种的语音样本，所述语音样本的语种类型与所述多语种音素表包含的语种类型相同；对所述语音样本进行音素对齐操作，得到所述语音样本所包含的音素；利用所述多语种的音素表中的音素对所述语音样本中的音素进行标注。

在本公开实施例中，利用包含多语种的音素表，可以直接对多语种的语音样本进行标注，可以方便、高效地构建高质量、标注完整、数据均衡的语料库，以用于对声音特征提取网络进行训练。

结合本公开提供的任一实施方式，所述方法还包括：将标注后的语音样本的声学特征输入至所述声音特征提取网络，得到所述语音样本中各个语音帧的音素后验概率；根据所述语音帧的最大音素后验概率指示的音素与所标注的真实值之间的差异，调整所述声音特征提取网络的参数值。

根据本公开的一方面，提供一种交互对象的驱动装置，所述装置包括：第一获取单元，用于获取交互对象的声音驱动数据的声学特征；第二获取单元，用于利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；第三获取单元，用于根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值；控制单元，用于根据所述姿态参数值控制所述交互对象的姿态。

结合本公开提供的任一实施方式，所述第一获取单元具体用于：获取所述交互对象的声音驱动数据对应的语音帧序列；根据所述语音帧序列中各个语音帧的声学特征向量，得到所述声音驱动数据的声学特征。

结合本公开提供的任一实施方式，所述声音特征提取网络包括第一全连接网络、编码子网络、第二全连接网络，所述第二获取单元具体用于：将所述声学特征输入至所述第一全连接网络，得到所述第一全连接网络输出的第一声学特征序列；利用所述编码子网络，对所述第一声学特征序列进行特征编码处理；将编码结果输入至所述第二全连接网络，得到所述声音驱动数据中各个语音帧的音素后验概率。

结合本公开提供的任一实施方式，所述第三获取单元具体用于：将所述各个语音帧的音素后验概率输入至时序网络，输出关联特征信息；将所述关联特征信息输入至第三全连接网络，得到关联特征序列；对所述关联特征序列进行激活处理，得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值。

结合本公开提供的任一实施方式，所述交互对象的控制参数包括面部姿态控制参数，所述控制单元具体用于：根据与所述各个语音帧的音素后验概率匹配的面部姿态控制参数，驱动所述交互对象实现与所述声音驱动数据中的各个语音帧匹配的面部姿态。

根据本公开的一方面，提供一种音素处理装置，所述装置包括：音素表获取单元，用于根据多个目标语种中的音素，得到包含多语种的音素表；训练单元，用于基于所述包含多语种的音素表，训练得到声音特征提取网络，所述声音特征提取网络用于提取待识别语音帧的音素后验概率。

结合本公开提供的任一实施方式，所述音素表获取单元具体用于：获取多个目标语种中的音素进行拼接；将拼接结果中发音相似度超过第一设定阈值的音素进行合并，得到所述包含多语种的音素表；基于所述包含多语种的音素表，训练得到声音特征提取网络。

结合本公开提供的任一实施方式，所述音素表获取单元具体用于：将多个目标语种中的音素分别映射为发音相似度满足预设相似度条件的国际音标；将映射结果中具有相同发音的国际音标进行合并，得到所述包含多语种的音素表。

结合本公开提供的任一实施方式，响应于所述多个目标语种中存在与各个国际音标的发音相似度小于或等于所述第二设定阈值的第一音素，将所述第一音素添加至所述包含多语种的音素表中。

结合本公开提供的任一实施方式，所述装置还包括标注单元，用于：获取多语种的语音样本，所述语音样本的语种类型与所述多语种音素表包含的语种类型相同；对所述语音样本进行音素对齐操作，得到所述语音样本所包含的音素；利用所述多语种的音素表中的音素对所述语音样本中的音素进行标注。

结合本公开提供的任一实施方式，所述训练单元具体用于：将标注后的语音样本的声学特征输入至所述声音特征提取网络，得到所述语音样本中各个语音帧的音素后验概率；根据所述语音帧的最大音素后验概率指示的音素与所标注的真实值之间的差异，调整所述声音特征提取网络的参数值。

根据本公开的一方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

根据本公开的一方面，提供一种计算机程序产品，包括计算机程序，所述程序被处理器执行时实现本公开提供的任一实施方式所述的交互对象的驱动方法。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开至少一个实施例提出的交互对象的驱动方法的流程图；

图2是本公开至少一个实施例提出的对音素序列进行特征编码的过程示意图；

图3是本公开至少一个实施例示出的音素后验概率的映射过程示意图；

图4是本公开至少一个实施例提出的音素处理方法的流程图；

图5是本公开至少一个实施例提出的交互对象的驱动装置的结构示意图；

图6是本公开至少一个实施例提出的音素处理装置的结构示意图；

图7是本公开至少一个实施例提出的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本公开至少一个实施例提供了一种交互对象的驱动方法，所述驱动方法可以由终端设备或服务器等电子设备执行，所述终端设备可以是固定终端或移动终端，例如手机、平板电脑、游戏机、台式机、广告机、一体机、车载终端等等，所述服务器包括本地服务器或云端服务器等，所述方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

在本公开实施例中，交互对象可以是任意一种能够与目标对象进行交互的交互对象，其可以是虚拟人物，还可以是虚拟动物、虚拟物品、卡通形象等等其他能够实现交互功能的虚拟形象，虚拟形象的展现形式即可以是2D形式也可以是3D形式，本公开对此并不限定。所述目标对象可以是用户，也可以是机器人，还可以是其他智能设备。

所述交互对象可以通过终端设备进行展示，所述终端设备可以是电视机、带有显示功能的一体机、投影仪、虚拟现实(Virtual Reality，VR)设备、增强现实(AugmentedReality，AR)设备等，本公开并不限定终端设备的具体形式。

在一些实施例中，响应于终端设备接收到用于驱动交互对象输出语音的声音驱动数据，交互对象可以对目标对象发出指定语音。可以根据终端设备周边目标对象的动作、表情、身份、偏好等，生成声音驱动数据，以驱动交互对象通过发出指定语音进行回应，从而为目标对象提供拟人化的服务。在一些场景下，交互对象可以利用不同语种与目标对象进行交互，为了使交互对象的姿态在不同语种下都与真实发音相贴合，本公开至少一个实施例提出一种交互对象的驱动方法。

图1示出根据本公开至少一个实施例的交互对象的驱动方法的流程图，如图1所示，所述方法包括步骤101～步骤104。

在步骤101中，获取所述交互对象的声音驱动数据的声学特征。

所述声音驱动数据可以包括音频数据(语音数据)、文本等等。响应于声音驱动数据是音频数据，可以直接利用该音频数据驱动交互对象输出语音，也即终端设备通过该音频数据直接输出语音；响应于声音驱动数据是文本，可以根据所述文本中包含的语音，生成相应的音素，通过所生成的音素来驱动交互对象输出语音。以中文文本为例，可以首先将所述文本转换为拼音，再根据拼音生成相应的音素。所述声音驱动数据也可以是其他形式的驱动数据，本公开对此不进行限制。

在本公开实施例中，所述声音驱动数据可以是根据与交互对象进行交互的目标对象的动作、表情、身份、偏好等生成的驱动数据，也可以是终端设备从内部存储器调用的声音驱动数据。本公开对于该声音驱动数据的获取方式不进行限制。

响应于所述声音驱动数据为音频数据，可以通过将音频数据拆分为多个语音帧，根据语音帧的状态对语音帧进行组合而形成音素；根据所述音频数据所形成的各个音素则形成了音素序列。其中，音素是根据语音的自然属性划分出来的最小语音单元，真实人物一个发音动作能够形成一个音素。

响应于所述声音驱动数据为文本，可以根据所述文本中包含的语素，获得所述语素所包含的音素，从而获得相应的音素序列。本领域技术人员应当理解，还可以通过其他方式获得所述声音驱动数据对应的音素序列，本公开对此不进行限定。

在本公开实施例中，所述声学特征可以是与语音情感相关的特征，例如基频特征、共峰特征、梅尔频率倒谱系数(Mel Frequency Cofficient，MFCC)等等。

在步骤102中，利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率。

其中，所述音素后验概率表示所述语音帧对应于各个音素的概率。所述音素后验概率与说话者无关，只与说话内容有关。

在本公开实施例中，用于提取所述声音驱动数据中各个语音帧的音素后验概率的声音特征提取网络是根据包含多语种的音素表训练得到的。

在一些实施例中，可以通过以下方式获得包含多语种的音素表：获取多个目标语种中的音素进行拼接；将拼接结果中发音相似度超过第一设定阈值的音素进行合并，可以方便、快速地得到包含多个目标语种的音素表。

举例来说，可以将中文(拼音)中的音素与英文中的音素进行拼接，并将拼接结果中发音相同或相似的音素，例如“b”、“p”、“m”、“f”等进行合并，从而可以得到包含中文和英文的音素表。

在一些实施例中，可以通过以下方式获得包含多语种的音素表：首先，将多个目标语种中的音素分别映射为发音相似度满足相似度条件的国际音标(InternationalPhonetic Alphabet，IPA)，所述相似度条件例如为发音相同或者相似度最高。接下来，将映射结果中具有相同发音的国际音标进行合并，得到所述包含多语种的音素表。该方法适用于多种目标语种，具有普适性。

例如，可以将中文的所有音素映射为发音相似度最高的国际音标，同时将英文的所有音素映射为发音相似度最高的国际音标，并将中文和英文映射到的国际音标存储在一个音素表中，将具有相同发音的音素进行合并，则可以得到支持中文和英文的音素表。

举例来说，假设中文音素中包含音素a1,a2,a3,b,i1,i2.i3,ii1,ii2,ii3(其中1、2、3代表声调)，英文音素中包含a,b,i，IPA表中包含a,b,i。根据发音，分别将中文和英文中的音素映射到相似度最高的IPA上，中文顺序映射为a,a,a,b,i,i,i,i,i,i(由于IPA中没有ii发音，实际ii发音与i最为相似，那么就将ii映射到i)。同理英文映射后依次为a,b,i。

在一些实施例中，响应于所述多个目标语种中存在与各个国际音标的发音相似度小于或等于第二设定阈值的第一音素，将所述第一音素添加至所述包含多语种的音素表中。例如，中文中的音素“ng”在IPA表中是不存在的，而该发音与其他发音的相似度皆小于第二设定阈值；又或者当中文中的某个音素是由其他几个发音组成，发音与IPA表中的相素度也小于第二设定阈值，将这样的音素称为第一音素，并且保留该第一音素，追加在IPA表后面，即最终得到的IPA包含在自身全部的音素之外还包括该第一音素。

本领域技术人员应当理解，上述第一设定阈值、第二设定阈值可以根据实际需要具体设置，本公开对此不进行限定。

在步骤103中，根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值。

在本公开实施例中，可以根据所述声音驱动数据中各个语音帧的音素后验概率，获得与所述声音驱动数据匹配的交互对象的姿态参数值。

姿态参数用于控制所述交互对象的姿态，利用不同的姿态参数值可以驱动所述交互对象做出相应的姿态。该姿态参数可以包括面部姿态参数，所述面部姿态参数用于控制所述交互对象的面部姿态，包括表情、口型、五官动作和头部姿态等；在本公开实施例中，可以预先建立音素后验概率与交互对象的姿态参数值的对应关系，在获得了所述声音驱动数据中各个语音帧的后验概率的情况下，即可获得所述声音驱动数据对应的姿态参数值。姿态参数的具体形式可以根据交互对象模型的类型确定。

在步骤104中，根据所述姿态参数值控制所述交互对象的姿态。

其中，所述姿态参数值是与所述交互对象的声音驱动数据中各个语音帧的音素后验概率相匹配的，由于音素后验概率与语种无关，因此可以对于不同语种的语音数据和文本，所述交互对象所呈现的姿态，例如口型、表情、动作等都可以与实际发音相匹配，给与所述交互对象进行交互的目标对象以所述交互对象正在说话的感觉。

在本公开实施例中，先获取交互对象的声音驱动数据的声学特征，利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率，之后根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值，并根据所述姿态参数值控制所述交互对象的姿态，由于所述音素后验概率是与说话者无关、能够支持多语种的声音特征，本公开实施例利用包含多语种的音素表对声音特征提取网络进行训练，并利用该网络提取所述声音驱动数据的音素后验特征，作为声音特征驱动所述交互对象，使得交互对象的姿态在不同语种下都与真实发音相贴合。

在一些实施例中，可以根据以下方法来构建支持多语种的语料库。

首先，获取多语种的语音样本，所述语音样本的语种类型与所述多语种音素表包含的语种类型相同。例如，在所述音素表是支持中文和英文的音素表的情况下，则分别获取中文的语音样本和英文的语音样本。

接下来，对所述语音样本进行音素对齐操作，得到所述语音样本所包含的音素。

以所述语音样本为使用中文说“你好”的语音段，则在对所述语音样本进行语音操作后，可以得到在该语音段中各个音素的发音起止时间：n[0,0.2]，i3[0.2,0.4]，h[0.5,0.7]，ao3[0.7,1.2]，其中，[]内指示每个音素的发音起止时间，单位为秒。通过各个音素的发音起止时间，可以确定所述语音样本中的各个语音帧所对应的音素。

最后，利用所述多语种音素表中的音素对所述语音样本中的音素进行标注。

以所述多语种音素表为支持中文和英文的音素表为例，对于中文的语音样本和英文的语音样本，都可以直接调用所述多语种音素表中的音素进行标注，从而可以方便、高效地构建高质量、标注完整、数据均衡的语料库。

在一些实施例中，可以通过以下方法对所述声音特征提取网络进行训练。

首先，将标注后的语音样本的声学特征输入至所述声音特征提取网络，得到所述语音样本中各个语音帧的音素后验概率。其中，标注后的语音样本中每个语音帧标注有音素的真实值。

接下来，根据所述语音帧的最大音素后验概率指示的音素与所标注的真实值之间的差异，调整所述声音特征提取网络的参数值。在网络损失的变化满足收敛条件时，例如网络损失的变化量小于设定阈值时，或者迭代次数达到设定次数时完成训练，即得到了训练好的声音特征提取网络。

在一些实施例中，可以获取所述交互对象的声音驱动数据对应的语音帧序列，并根据所述语音帧序列中各个语音帧的声学特征向量，得到所述声音驱动数据的声学特征。以MFCC为例，根据所述语音帧序列中各个语音帧的MFCC系数，可以得到所述声音驱动数据对应的MFCC矩阵。

图2示出本公开至少一个实施例示出的声音特征提取过程示意图。如图2所示，本公开利用声音特征提取网络200对声音驱动数据的声学特征进行特征提取，以得到所述声音特征数据中各个语音帧的音素后验概率。所述声音特征提取网络200包括第一全连接网络201、编码子网络202和第二全连接网络203。

首先，将所述声音特征输入至所述第一全连接网络201，得到所述第一全连接网络输出的第一声学特征序列；接着，利用编码子网络202对所述第一声学特征序列进行特征编码处理，得到编码结果。所述编码子网路例如可以是CBHG网络、门控循环单元(GatedRecurrent Unit，GRU)等适用于提取序列特征的网络。最后，将所述编码结果输入至第二全连接网络203，得到所述声音驱动数据中各个语音帧的音素后验概率。

在一些实施例中，可以通过时序网络和全连接网络来预测所述声音驱动数据中各个语音帧的音素后验概率对应的姿态参数值，以将具有关联性的历史音素后验概率和当前音素后验概率进行融合，从而使得历史姿态参数值对当前姿态参数值的变化产生影响，使得交互人物的姿态参数值的变化更加平缓、自然。

图3示出本公开至少一个实施例示出的音素后验概率的映射过程示意图。如图3所示，首先将所述各个语音帧的音素后验概率输入至时序网络301，输出关联特征信息。其中，时序网络可以是一种时间递归神经网络，例如LSTM,所述时序网络可以学习所输入音素后验概率的历史信息，所输出的关联特征信息包含了历史信息对当前信息的影响。接下来，将所述关联特征信息输入至第三全连接网络302，得到关联特征序列。最后，通过激活层303对所述关联特征序列进行激活处理，将关联特征序列中的各个特征值变换为姿态参数值，得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值。

在一些实施例中，所述交互对象的姿态参数包括面部姿态控制参数，可以根据与所述各个语音帧的音素后验概率匹配的面部姿态控制参数，驱动所述交互对象实现与所述声音驱动数据中的各个语音帧匹配的面部姿态。其中，所述面部姿态参数例如可以包括面部肌肉控制系数。

人脸的运动，从解剖学角度来看，是由面部各部分肌肉协同变形的结果。因此，通过对交互对象的面部肌肉进行划分而获得面部肌肉模型，对划分得到的每一块肌肉(区域)通过对应的面部肌肉控制系数控制其运动，也即对其进行收缩/扩张控制，则能够使交互人物的面部做出各种表情。对于所述面部肌肉模型的每一块肌肉，可以根据肌肉所在的面部位置和肌肉自身的运动特征，来设置不同的肌肉控制系数所对应的运动状态。例如，对于上唇肌肉，其控制系数的数值范围为(0～1)，在该范围内的不同数值，对应于上唇肌肉不同的收缩/扩张状态，通过改变该数值，可以实现嘴部的纵向开合；而对于左嘴角肌肉，其控制系数的数值范围为(0～1)，在该范围内的不同数值，对应于左嘴角肌肉的收缩/扩张状态，通过改变该数值，可以实现嘴部的横向变化。

图4是本公开至少一个实施例提出的音素处理方法的流程图。如图4所示，所述方法包括步骤401～步骤402。

在步骤401中，根据多个目标语种中的音素，得到包含多语种的音素表。

在一个示例中，可以通过以下方式获得包含多语种的音素表：获取多个目标语种中的音素进行拼接；将拼接结果中发音相似度超过第一设定阈值的音素进行合并，可以方便、快速地得到包含多个目标语种的音素表。

在另一个示例中，可以通过以下方式获得包含多语种的音素表：首先，将多个目标语种中的音素分别映射为发音相似度满足相似度条件的国际音标，所述相似度条件例如为发音相同或者相似度最高。接下来，将映射结果中具有相同发音的国际音标进行合并，得到所述包含多语种的音素表。该方法适用于多种目标语种，具有普适性。

在一些实施例中，响应于所述多个目标语种中存在与各个国际音标的发音相似度小于或等于所述第二设定阈值的第一音素，将所述第一音素添加至所述包含多语种的音素表中。

在步骤402中，基于所述包含多语种的音素表，训练得到声音特征提取网络，所述声音特征提取网络用于提取待识别语音帧的音素后验概率。

首先，获取多语种的语音样本，所述语音样本的语种类型与所述多语种音素表包含的语种类型相同。

在本公开实施例中，利用包含多语种的音素表，可以直接调用所述多语种音的素表中的音素进行标注，从而可以方便、高效地构建高质量、标注完整、数据均衡的语料库。

图5是根据本公开至少一个实施例的交互对象的驱动装置的结构示意图，如图5所示，该装置可以包括：第一获取单元501，用于获取交互对象的声音驱动数据的声学特征；第二获取单元502，用于利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；第三获取单元503，用于根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值；控制单元504，用于根据所述姿态参数值控制所述交互对象的姿态。

在一些实施例中，所述第一获取单元具体用于：获取所述交互对象的声音驱动数据对应的语音帧序列；根据所述语音帧序列中各个语音帧的声学特征向量，得到所述声音驱动数据的声学特征。

在一些实施例中，所述声音特征提取网络包括第一全连接网络、编码子网络、第二全连接网络，所述第二获取单元具体用于：将所述声音特征输入至所述第一全连接网络，得到所述第一全连接网络输出的第一声学特征序列；利用所述编码子网络，对所述第一声学特征序列进行特征编码处理；将编码结果输入至所述第二全连接网络，得到所述声音驱动数据中各个语音帧的音素后验概率。

在一些实施例中，所述第三获取单元具体用于：将所述各个语音帧的音素后验概率输入至时序网络，输出关联特征信息；将所述关联特征信息输入至第三全连接网络，得到关联特征序列；对所述关联特征序列进行激活处理，得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值。

在一些实施例中，所述交互对象的控制参数包括面部姿态控制参数，所述控制单元具体用于：根据与所述各个语音帧的音素后验概率匹配的面部姿态控制参数，驱动所述交互对象实现与所述声音驱动数据中的各个语音帧匹配的面部姿态。

图6是根据本公开至少一个实施例的交互对象的驱动装置的结构示意图，如图6所示，该装置可以包括：音素表获取单元601，用于根据多个目标语种中的音素，得到包含多语种的音素表；训练获取单元602，用于基于所述包含多语种的音素表，训练得到声音特征提取网络，所述声音特征提取网络用于提取待识别语音帧的音素后验概率。

在一些实施例中，所述音素表获取单元具体用于：获取多个目标语种中的音素进行拼接；将拼接结果中发音相似度超过第一设定阈值的音素进行合并，得到所述包含多语种的音素表；基于所述包含多语种的音素表，训练得到声音特征提取网络。

在一些实施例中，所述音素表获取单元具体用于：将多个目标语种中的音素分别映射为发音相似度满足预设相似度条件的国际音标；将映射结果中具有相同发音的国际音标进行合并，得到所述包含多语种的音素表。

在一些实施例中，所述装置还包括标注单元，用于：获取多语种的语音样本，所述语音样本的语种类型与所述多语种音素表包含的语种类型相同；对所述语音样本进行音素对齐操作，得到所述语音样本所包含的音素；利用所述多语种的音素表中的音素对所述语音样本中的音素进行标注。

在一些实施例中，所述训练单元具体用于：将标注后的语音样本的声学特征输入至所述声音特征提取网络，得到所述语音样本中各个语音帧的音素后验概率；根据所述语音帧的最大音素后验概率指示的音素与所标注的真实值之间的差异，调整所述声音特征提取网络的参数值。

本公开至少一个实施例还提供了一种电子设备，如图7所示，所述设备包括存储器、处理器，存储器用于存储可在处理器上运行的计算机指令，处理器用于在执行所述计算机指令时实现本公开任一实施例所述的交互对象的驱动方法。

本公开至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的交互对象的驱动方法。

本公开至少一个实施例还提供了一种计算机程序产品，包括计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的交互对象的驱动方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CDROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种交互对象的驱动方法，其特征在于，所述方法包括：

获取交互对象的声音驱动数据的声学特征；

利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；

将所述各个语音帧的音素后验概率输入至时序网络，输出关联特征信息；

将所述关联特征信息输入至第三全连接网络，得到关联特征序列；

对所述关联特征序列进行激活处理，得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值；

根据所述姿态参数值控制所述交互对象的姿态。

2.根据权利要求1所述的方法，其特征在于，所述获取交互对象的声音驱动数据的声学特征，包括：

获取所述交互对象的声音驱动数据对应的语音帧序列；

根据所述语音帧序列中各个语音帧的声学特征向量，得到所述声音驱动数据的声学特征。

3.根据权利要求1所述的方法，其特征在于，所述声音特征提取网络包括第一全连接网络、编码子网络、第二全连接网络，所述利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率，包括：

将所述声音特征输入至所述第一全连接网络，得到所述第一全连接网络输出的第一声学特征序列；

利用所述编码子网络，对所述第一声学特征序列进行特征编码处理；

将编码结果输入至所述第二全连接网络，得到所述声音驱动数据中各个语音帧的音素后验概率。

4.根据权利要求1至3任一所述的方法，其特征在于，所述交互对象的姿态参数包括面部姿态参数，所述根据所述姿态参数值控制所述交互对象的姿态，包括：

根据与所述各个语音帧的音素后验概率匹配的面部姿态参数，驱动所述交互对象实现与所述声音驱动数据中的各个语音帧匹配的面部姿态。

5.一种交互对象的驱动装置，其特征在于，所述装置包括：

第一获取单元，用于获取交互对象的声音驱动数据的声学特征；

第二获取单元，用于利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；

第三获取单元，用于将所述各个语音帧的音素后验概率输入至时序网络，输出关联特征信息；将所述关联特征信息输入至第三全连接网络，得到关联特征序列；对所述关联特征序列进行激活处理，得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值；

控制单元，用于根据所述姿态参数值控制所述交互对象的姿态。

6.一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至4任一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至4任一所述的方法。