CN116259334A

CN116259334A - 语音情绪模型的训练方法、表情驱动方法、电子设备及介质

Info

Publication number: CN116259334A
Application number: CN202310252742.2A
Authority: CN
Inventors: 黄子龙; 范会善; 王炼; 余学武; 周永吉; 章铃娜; 姜京京; 赵新阳; 贺文明
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-13

Abstract

本申请公开了一种语音情绪模型的训练方法、表情驱动方法、电子设备及介质，涉及人工智能技术领域。模型训练方法包括，接收样本，所述样本包括音频数据和视频数据；根据所述音频数据和所述视频数据获取表情点位标签；获取所述音频数据中的多个音频特征；将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值；根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络，得到训练后的语音情绪识别模型。本申请的方法可以减少模型训练中的过拟合问题。

Description

语音情绪模型的训练方法、表情驱动方法、电子设备及介质

技术领域

本发明涉及人工智能领域，特别涉及一种语音情绪模型的训练方法、表情驱动方法、电子设备及介质。

背景技术

在面部表情情绪识别以及唇音识别中，语音情绪模型在接收音频数据后输出面部表情，输出的面部表情可以和音频数据实现唇音同步。

在相关技术中，对于语音情绪模型的训练，通常采用单特征输入的方式进行训练。例如，在网络端采用全连接或者VGG结构的单一音频特征输入的卷积神经网络的深度学习模型***。通过提取单一音频的特征，在特征提取网络中训练，将训练好的语音情绪模型结合输入的面部表情表情点位，来驱动生成面部表情以及实现唇音同步。在上述方法中，语音情绪模型会过于依赖单一的特征，容易造成过拟合。

发明内容

本申请提供了一种语音情绪模型的训练方法、表情驱动方法、电子设备及介质，可以减少模型训练中的过拟合问题。

本申请的第一方面公开了音情绪识别模型的训练方法，应用于电子设备，所述方法包括，接收样本，所述样本包括音频数据和视频数据；根据所述音频数据和所述视频数据获取表情点位标签；获取所述音频数据中的多个音频特征；将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值；根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络，得到训练后的语音情绪识别模型。

在上述第一方面的一种可能的实现中，所述方法还包括，将所述多个音频特征中的每个音频特征输入至包括至少三层结构的二维卷积层，其中，所述至少三层结构的每一层的第二维和第三维相等，并且从所述至少三层结构中的第三层开始，每层的通道数为前二层的通道数之和。

在上述第一方面的一种可能的实现中，将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络训练包括，将与所述每个音频特征对应的卷积层的通道数和所述情绪特征的通道数进行合并级联，得到级联后的卷积层。

在上述第一方面的一种可能的实现中，所述方法还包括，对所述级联后的卷积层进行降维处理。

在上述第一方面的一种可能的实现中，所述方法还包括，将所述级联后的卷积层的输出输入至池化层和全连接层。

在上述第一方面的一种可能的实现中，所述多个音频特征包括梅尔频率倒谱系数、Gammatone滤波器倒谱系数、线性判别倒谱系数中的至少两种。

在上述第一方面的一种可能的实现中，所述方法还包括，将所述多个音频特征中的一个音频特征和所述情绪特征并行输入第二卷积神经网络训练；设置所述卷积神经网络和所述第二卷积神经网络的权重，并根据所述权重的自适应训练得到所述训练后的语音情绪识别模型。

本申请的第二方面公开了一种表情驱动方法，所述方法包括，获取虚拟数字人的音频数据；提取所述音频数据中的多个音频特征；将所述多个音频特征输入至语音情绪识别模型进行识别，得到识别结果；根据所述识别结果，驱动所述虚拟数字人做出相应的表情，其中所述语音情绪识别模型是根据本申请第一方面所述的训练方法训练得到。

本申请的第三方面公开了一种语音情绪识别模型的训练装置，所述装置包括，接收模块，用于接收样本，所述样本包括音频数据和视频数据；采集模块，用于根据所述音频数据和所述视频数据获取表情点位标签，以及获取所述音频数据中的多个音频特征；训练模块，用于将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值，以及根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络，得到训练后的语音情绪识别模型。

在上述第三方面的一种可能的实现中，所述装置还包括，级联模块，用于将与所述每个音频特征对应的卷积层的通道数和所述情绪特征的通道数进行合并级联，得到级联后的卷积层。

本申请的第四方面公开了一种电子设备，所述设备包括存储有计算机可执行指令的存储器和处理器；当所述指令被所述处理器执行时，使得所述设备实施根据本申请第一和第二方面的方法。

本申请的第五方面公开了一种计算机可读介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现本申请第一方面和第二方面的方法。

本申请的第六方面公开了一种计算机程序产品，所述计算机程序被处理器执行时实现本申请第一方面和第二方面的方法。

本申请提供的语音情绪模型的训练方法、表情驱动方法、电子设备及介质，根据样本获取表情点位标签，并获取样本中的多个音频特征，通过将多个音频特征和情绪特征并行地输入至卷积神经网络进行训练。通过将训练值和表情点位标签的差异来训练卷积神经网络，得到训练后的语音情绪识别模型。通过多个特征并行输入模型以训练的方法可以在网络模型的输入端尽可能获取多的特征信息，以解决单特征输入造成过的拟合问题。

附图说明

图1为相关技术中的语音情绪模型的示意图；

图2为本申请一个实施例的语音情绪识别模型的训练方法200的流程示意图；

图3为本申请一个实施例的语音情绪模型的音频特征输入结构300的示意图；

图4为本申请一个实施例的多个特征并行输入卷积神经网络的示意图；

图5为本申请一个实施例的语音情绪识别模型的训练方法500的示意图

图6为本申请的一个实施例的语音情绪识别模型的示意图；

图7为本申请的一个实施例的表情驱动方法700的流程示意图；

图8为本申请的一个实施例的电子设备800的框图。

具体实施方式

下面结合具体实施例和附图对本申请做进一步说明。可以理解的是，本公开的说明性实施例包括但不限于语音情绪模型的训练方法、表情驱动方法、电子设备及介质，此处描述的具体实施例仅仅是为了解释本申请，而非对本申请的限定。此外，为了便于描述，附图中仅示出了与本申请相关的部分而非全部的结构或过程。另外，本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

图1示出了在面部表情情绪识别以及唇音识别领域中，语音情绪模型的示意图。语音情绪模型101在接收音频数据102后输出面部表情103，输出的面部表情103可以和音频数据实现唇音同步。

在相关技术中，对于语音情绪模型101的训练，通常采用单特征输入的方式进行训练，语音情绪模型101会过于依赖单一的特征，容易造成过拟合。

为了解决上述问题，本申请的一个实施例提供了一种语音情绪识别模型的训练方法200，能够改善模型训练过程中的过拟合，参见图2。方法200包括如下步骤。

S210，接收样本，样本包括音频数据和视频数据。

接收包括音频数据和视频数据的样本。在一些实施方式中，可以从三维动画工具中获取样本，样本不仅包括音频流数据，同时也包括面捕设备捕捉设定的数字人面部视频流数据。

S220，根据音频数据和视频数据获取表情点位标签。

根据样本中的音频数据和视频数据，获取与音频数据对应的表情点位，这种在样本中获取的表情点位可以成为表情点位标签。在一些试试方式中，可以通过脚本编译器提取同帧数音频对应的点位标签，得到每一帧音频的标签个数以及标签值。

S230，获取音频数据中的多个音频特征。

可以通过数字信号处理、时频变换以及倒谱变换等处理，得到音频数据中的多个音频特征。在语音信号中，情感识别的特征大致分为三类：韵律特征、音质特征和谱特征。韵律特征包括基音频率、短时能量等,一般通过与韵母、语调相关的韵律来表达。音质特征包括共振峰、谐波噪声比(HNR)等与发声声道的物理性质相关的声学特征。谱特征包括梅尔频率倒谱系数(Mel frequency cepstral coefficient,MFCC)、Gammatone滤波器倒谱系数(gammatone frequency fepstral foefficients,GFCC)、线性判别倒谱系数(linearprediction coefficients,LPC)。MFCC是在扭曲的频率尺度上推导出的倒谱系数，以人类听觉感知为中心。相比于高频区域，MFCC更能有效地表示低频区域。GFCC有较强的抗噪声能力和语音追踪能力，能够兼顾语音中的清音和浊音。LPC模拟人体声道，具有鲁棒性强的语音特征。

在一些实施方式中，多个音频特征包括MFCC、GFCC、LPC中的至少两种。多个音频特征的输入能够避免在模型训练过程中仅单一特征输入带来的过拟合问题。

S240，将多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值。

将并行的多个特征输入至卷积神经网络，并行的多个特征不仅包括S230中得到的音频特征，还包括情绪特征。将多个特征并行地输入至卷积神经网络，可以得到表情点位的训练值。这种多个特征拼接地输入至卷积神经网络的方式，可以保留各个特征的原始特性。

在一些实施方式中，输入卷积神经网络的情绪特征可以为符合高斯分布的白噪音数据。在一些示例中，情绪特征可以为自定义的[n,32,64,x]的高斯白噪音分布数据，其中，n为批次大小，x为通道数，例如x为16。

S250，根据表情点位标签和表情点位训练值训练卷积神经网络，得到训练后的语音情绪识别模型。

根据S220中获取的表情点位标签、S240中获取的表情点位训练值训练卷积神经网络最终得到训练后的语音情绪识别模型。

图2中的语音情绪识别模型的训练方法200根据样本获取表情点位标签，并获取样本中的多个音频特征，通过将多个音频特征和情绪特征并行地输入至卷积神经网络进行训练。通过将训练值和表情点位标签的差异来训练卷积神经网络，得到训练后的语音情绪识别模型。通过多个特征并行输入模型以训练的方法可以在网络模型的输入端尽可能获取多的特征信息，以解决单特征输入造成过的拟合问题。

在一些实施方式中，语音情绪识别模型的训练方法还可以包括，将多个音频特征中的每个音频特征输入至包括至少三层结构的二维卷积层，其中，至少三层结构的每一层的第二维和第三维相等，并且从至少三层结构中的第三层开始，每层的通道数为前二层的通道数之和。

图3示出了本申请一个实施例的语音情绪模型的音频特征输入结构300的示意图。输入结构300包括4层2D卷积神经网络301-304。其中每一个卷积层的步长设置均为“same”，并且保持每一层的第二维和第三维分别为16和32。

在图3中，单个音频特征的shape可以为(n,32,64,1)，依次输入至第一层卷积层至第四卷积层。第一层卷积层的shape为(n,16,32,32)，第二层卷积层的shape为(n,16,32,64)。

从第三层303开始，第三层303为前两层301、302采用合并级联(concatenate)的方式，对前两层通道数合并处理。例如，第三层303的第四维的通道数为自身的32维，加第一层的32维和第二层的64维一共为128维。第四层304的第四维的通道数为自身的64维，加第二层的64维和第三层的128维一共为256维。

图3中单一特征的密集卷积神经网络后续层的第三层开始通过对前两层采用合并级联的方式对音频特征进行提取处理，可有效利用不同层的特征信息提取更多音频特征信息。另外，相关技术中的深度学习网络端采用全连接或者VGG结构的卷积神经网络中，由于模型训练缓慢参数众多，在网络层加深时容易出现梯度消失的问题。而在图3中采用密集连接卷积层对音频特征进行提取，使得梯度能够始终保持在训练，从而尽可能缓解梯度消失的问题。

在一些实施方式中，方法200中将多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络训练包括，将与每个音频特征对应的卷积层的通道数和情绪特征的通道数进行合并级联，得到级联后的卷积层。

图4示出了本申请的一个实施例的多个特征并行输入卷积神经网络的示意图。图4中有4路并行输入，分别为与MFCC、GFCC、LPC音频特征对应的卷积层Conv 1、Conv 2、Conv3，以及情绪向量Emotion 1(图中的E1)。在一些示例中，Conv 1、Conv 2、Conv 3可以为通过如图3的音频特征输入结构输出的卷积层。Conv 1、Conv 2、Conv 3的shape为(n，16，32，256)。情绪向量Emotion 1来源于情绪向量输入Emotion Input，情绪向量输入为类型为[n,32,64,16]的高斯白噪音分布数据，情绪向量输入可以为随机生成的数据，随机生成的数据可以使得音频同步面部表情更加自然。情绪向量Emotion 1的步长strides＝[1，2]，shape为(n，16，32，16)。

值得注意的是，Conv 1、Conv 2、Conv 3、Emotion 1的第二维的时频、第三维的帧数特征的维度是一致的。这样，在S401中，可以通过对Conv 1、Conv 2、Conv 3、Emotion 1进行通道数合并级联得到mixed 1(n，16，32，784)。通过合并级联操作四种特征融合后有效地增加了特征信息，能够进一步缓解梯度消失问题，以及抑制过拟合现象。

在S402中，使用卷积层Conv4进行降维处理。卷积神经网络经过密集卷积和音频特征与情绪特征合并级联模块会导致数据维度尺寸较大。为减少前向运算消耗的内存，同时为了降低音频特征与情绪特征的冗余信息，在S402中可以采用大尺寸的卷积核和卷积步长对特征进行压缩。在一些示例中，卷积层Conv4的shape为(n，1，16，256)。通过该卷积层操作可以简化网络复杂度，减少计算量。

在S403中，使用情绪向量Emotion 2作为偏置。情绪向量Emotion 2来源于情绪向量输入Emotion Input。在一些示例中，情绪向量Emotion 2的步长strides＝[16，4]，shape为(n，1，16，16)。这样，可以通过对Conv 4和Emotion2进行通道数合并级联得到mixed2(n，1，16，272)。

在S404中，使用卷积层Conv5进行降维处理。在一些示例中，卷积层Conv5的shape为(n，1，8，256)。

在S405中，使用情绪向量Emotion 3作为偏置。情绪向量Emotion3来源于情绪向量输入Emotion Input。在一些示例中，情绪向量Emotion 3的步长strides＝[16，8]，shape为(n，1，8，16)。这样，可以通过对Conv 5和Emotion3进行通道数合并级联得到mixed 3(n，1，8，272)。

在S401、S403、S405中通过使用来源于情绪向量输入Emotion Input的Emotion 1-3进行偏置，在训练过程中通过与音频特征在网络中不断更新权重，不断调整优化后续的情绪向量矩阵。训练将不同情绪数据下学习到的情绪特征向量组合构成了情绪状态矩阵，后续与音频特征进行合并级联处理。

在一些实施方式中，本申请的语音情绪识别模型的训练方法还包括将级联后的卷积层的输出输入至池化层和全连接层。在一些示例中，池化层为全局平均池化层。全局平均池化是一种结构化正则操作，能够将前面网络层带帧数、特征与通道数的三个维度特征信息，通过数据变化压缩操作成为扁平化的一维数据，方便后续全连接层进行权重调整。例如，以图4的结构为例，全局平均池化层的shape为(n,272)。

在一些实施方式中，利用全连接层承接前层特征信息，进行权重优化，并下接最后的输出结果层。全连接层达到训练特征信息与标签数据输出的过渡作用。

在一些实施方式中，卷积神经网络的输出为标签点位，例如面部表情点位、唇音动作点位。在一些示例中，全连接层中可以设置128个数据点位。

在一些实施方式中，卷积神经网络输出数字人面部表情点位、唇音动作等点位。通过将数据流传到数字人接口端，可以实现端到端情绪与唇音识别。

图5示出了根据本申请的一个实施例的语音情绪识别模型的训练方法500的示意图。

在S510中，接收样本，将样本中的多个音频特征中的每个音频特征和情绪特征并行输入第一卷积神经网络进行训练。

第一卷积神经网络的训练过程可以参见图2中的方法200，在此不再赘述。

在S520中，将多个音频特征中的一个音频特征和情绪特征并行输入第二卷积神经网络训练。

在一些实施方式中，对于多个音频特征，可以选取其中的一种音频特征和情绪特征并行输入至第二卷积神经网络进行训练。

在S530中，设置第一卷积神经网络和第二卷积神经网络的权重，并根据权重的自适应训练得到训练后的语音情绪识别模型。

对于第一卷积神经网络和第二卷积神经网络对应的模型，可以分别设置权重。根据第一卷积神经网络和第二卷积神经网络组成的集成模型的输出来对权重进行自适应训练，最终达到最优的权重系数分配。

图5中采用权重自适应模型集成的方法，避免了单一模型中对于新样本适应不够、泛化能力差的问题。

图6示出了在本申请的一个实施例的语音情绪识别模型的示意图。语音情绪识别模型集成了4种模型601-604。

在模型601中，模型的输入为音频特征MFCC、GFCC、LPC以及情绪向量Emotion_input。可以参照图2的方法，基于音频特征MFCC、GFCC、LPC以及情绪向量Emotion_input四种特征输入并行的卷积神经网络，然后通过样本训练好模型。

在模型602中，模型的输入为音频特征MFCC和情绪向量Emotion_input。可以参照图2的方法，将MFCC和情绪向量Emotion_input两种特征输入并行的卷积神经网络以及训练。

在模型603中，模型的输入为音频特征GFCC和情绪向量Emotion_input。可以参照图2的方法，将GFCC和情绪向量Emotion_input两种特征输入并行的卷积神经网络以及训练。

在模型604中，模型的输入为音频特征LPC和情绪向量Emotion_input。可以参照图2的方法，将LPC和情绪向量Emotion_input两种特征输入并行的卷积神经网络以及训练。

基于多特征输入卷积神经网络模型601和双特征卷积神经网络模型602-604，四个模型进行权重自适应集成训练，通过权重系数因子a、b、c、d不断调整模型的占比权重，其中权重系数因子为介于0-1之间的数值。集成模型605的计算公式可以参照公式(1)。

模型605＝a*模型601+b*模型602+c*模型603+d*模型604(1)

权重系数因子的自适应通过不断在支持向量机SVM中自适应训练，最终达到一个最优效果,从而得到最终的集成模型605。

现在参考图7，图7示出了本申请一个实施例的表情驱动方法700的流程示意图。

在S710中，获取虚拟数字人的音频数据。

在S720中，提取音频数据中的多个音频特征。

可以通过数字信号处理、时频变换以及倒谱变换等处理，得到音频数据中的多个音频特征。在一些实施方式中，多个音频特征包括MFCC、GFCC、LPC中的至少两种。

在S730中，将多个音频特征输入至语音情绪识别模型进行识别，得到识别结果，其中语音情绪识别模型是根据本申请中的训练方法训练得到。

将多个音频特征输入至根据本申请的语音情绪识别模型的训练方法得到的模型中，得到数字人的面部表情和唇音点位数据。

在S740中，根据识别结果，驱动虚拟数字人做出相应的表情。

根据S730中获取的数字人的面部表情和唇音点位数据端到端地驱动数字人的面部表情、嘴唇动作，实现唇音同步。

本申请还公开了一种语音情绪识别模型的训练装置，该装置包括，接收模块，用于接收样本，样本包括音频数据和视频数据；采集模块，用于根据音频数据和视频数据获取表情点位标签，以及获取音频数据中的多个音频特征；训练模块，用于将多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值，以及根据表情点位标签和表情点位训练值训练所述卷积神经网络，得到训练后的语音情绪识别模型。本领域技术人员可以理解，该装置执行的步骤与方法200中的步骤对应，在此不再赘述。

在一些实施方式中，装置还包括，级联模块，用于将与每个音频特征对应的卷积层的通道数和情绪特征的通道数进行合并级联，得到级联后的卷积层。

现在参考图8，所示为根据本申请的一个实施例的电子设备800的框图。设备800可以包括一个或多个处理器802，与处理器802中的至少一个连接的***控制逻辑808，与***控制逻辑808连接的***内存804，与***控制逻辑808连接的非易失性存储器(NVM)806，以及与***控制逻辑808连接的网络接口810。

处理器802可以包括一个或多个单核或多核处理器。处理器802可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任何组合。在本文的实施例中，处理器802可以被配置为执行根据如图2-7所示的各种实施例的一个或多个实施例。

在一些实施例中，***控制逻辑808可以包括任意合适的接口控制器，以向处理器802中的至少一个和/或与***控制逻辑808通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，***控制逻辑808可以包括一个或多个存储器控制器，以提供连接到***内存804的接口。***内存804可以用于加载以及存储数据和/或指令。在一些实施例中设备800的内存804可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。

NVM/存储器806可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器806可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(Hard Disk Drive，硬盘驱动器)，CD(Compact Disc，光盘)驱动器，DVD(Digital Versatile Disc，数字通用光盘)驱动器中的至少一个。

NVM/存储器806可以包括安装在设备800的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口810通过网络访问NVM/存储806。

特别地，***内存804和NVM/存储器806可以分别包括：指令820的暂时副本和永久副本。指令820可以包括：由处理器802中的至少一个执行时导致设备800实施如图2-7所示的方法的指令。在一些实施例中，指令820、硬件、固件和/或其软件组件可另外地/替代地置于***控制逻辑808，网络接口810和/或处理器802中。

网络接口810可以包括收发器，用于为设备800提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口810可以集成于设备800的其他组件。例如，网络接口810可以集成于处理器802的，***内存804，NVM/存储器806，和具有指令的固件设备(未示出)中的至少一种，当处理器802中的至少一个执行所述指令时，设备800实现图2-7所示的各种实施例的一个或多个实施例。

网络接口810可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口810可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器802中的至少一个可以与用于***控制逻辑808的一个或多个控制器的逻辑封装在一起，以形成***封装(SiP)。在一个实施例中，处理器802中的至少一个可以与用于***控制逻辑808的一个或多个控制器的逻辑集成在同一管芯上，以形成片上***(SoC)。

设备800可以进一步包括：输入/输出(I/O)设备812。I/O设备812可以包括用户界面，使得用户能够与设备800进行交互；***组件接口的设计使得***组件也能够与设备800交互。在一些实施例中，设备800还包括传感器，用于确定与设备800相关的环境条件和位置信息的至少一种。

在一些实施例中，用户界面可包括但不限于显示器(例如，液晶显示器，触摸屏显示器等)，扬声器，麦克风，一个或多个相机(例如，静止图像照相机和/或摄像机)，手电筒(例如，发光二极管闪光灯)和键盘。

在一些实施例中，***组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。

在一些实施例中，传感器可包括但不限于陀螺仪传感器，加速度计，近程传感器，环境光线传感器和定位单元。定位单元还可以是网络接口810的一部分或与网络接口810交互，以与定位网络的组件(例如，全球定位***(GPS)卫星)进行通信。

可以理解的是，本发明实施例示意的结构并不构成对蓝牙通信设备800的具体限定。在本申请另一些实施例中，蓝牙通信设备800可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

可将程序代码应用于输入指令，以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理***包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何***。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理***通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可以由存储在计算机可读存储介质上的表示性指令来实现，指令表示处理器中的各种逻辑，指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的计算机可读存储介质上，并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

本申请的一个实施例公开了一种计算机可读介质，存储有可被一个或者多个处理器执行的一个或者多个程序，以实现本申请的方法。

本申请的一个实施例公开了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请的方法。

以上由特定的具体实施例说明本申请的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本申请的其他优点及功效。虽然本申请的描述将结合较佳实施例一起介绍，但这并不代表此发明的特征仅限于该实施方式。恰恰相反，结合实施方式作发明介绍的目的是为了覆盖基于本申请的权利要求而有可能延伸出的其它选择或改造。为了提供对本申请的深度了解，以下描述中将包含许多具体的细节。本申请也可以不使用这些细节实施。此外，为了避免混乱或模糊本申请的重点，有些具体细节将在描述中被省略。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

此外，各种操作将以最有助于理解说明性实施例的方式被描述为多个离散操作；然而，描述的顺序不应被解释为暗示这些操作必须依赖于顺序。特别是，这些操作不需要按呈现顺序执行。

除非上下文另有规定，否则术语“包含”，“具有”和“包括”是同义词。短语“A/B”表示“A或B”。短语“A和/或B”表示“(A和B)或者(A或B)”。

如这里所使用的，术语“模块”或“单元”可以指代、是或者包括：专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的(共享、专用或组)处理器和/或存储器、组合逻辑电路和/或提供所描述的功能的其他合适的组件。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质的途径分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制、但不限于、软盘、光盘、光盘、只读存储器(CD-ROM)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于通过电、光、声或其他形式的传播信号(例如，载波、红外信号、数字信号等)通过因特网传输信息的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可以不需要这样的特定布置和/或排序。在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包含结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元或是数据，但是这些单元或数据不应当受这些术语限制。使用这些术语仅仅是为了将一个特征与另一个特征进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一特征可以被称为第二特征，并且类似地第二特征可以被称为第一特征。

应注意的是，在本说明书中，相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

虽然通过参照本发明的某些优选实施例，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种语音情绪识别模型的训练方法，应用于电子设备，其特征在于，所述方法包括，接收样本，所述样本包括音频数据和视频数据；

根据所述音频数据和所述视频数据获取表情点位标签；

获取所述音频数据中的多个音频特征；

将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值；

根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络，得到训练后的语音情绪识别模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括，将所述多个音频特征中的每个音频特征输入至包括至少三层结构的二维卷积层，其中，所述至少三层结构的每一层的第二维和第三维相等，并且从所述至少三层结构中的第三层开始，每层的通道数为前二层的通道数之和。

3.根据权利要求1所述的方法，其特征在于，将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络训练包括，将与所述每个音频特征对应的卷积层的通道数和所述情绪特征的通道数进行合并级联，得到级联后的卷积层。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括，对所述级联后的卷积层进行降维处理。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括，将所述级联后的卷积层的输出输入至池化层和全连接层。

6.根据权利要求1所述的方法，其特征在于，所述多个音频特征包括梅尔频率倒谱系数、Gammatone滤波器倒谱系数、线性判别倒谱系数中的至少两种。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括，

将所述多个音频特征中的一个音频特征和所述情绪特征并行输入第二卷积神经网络训练；

设置所述卷积神经网络和所述第二卷积神经网络的权重，并根据所述权重的自适应训练得到所述训练后的语音情绪识别模型。

8.一种表情驱动方法，其特征在于，所述方法包括：

获取虚拟数字人的音频数据；

提取所述音频数据中的多个音频特征；

将所述多个音频特征输入至语音情绪识别模型进行识别，得到识别结果；

根据所述识别结果，驱动所述虚拟数字人做出相应的表情，其中所述语音情绪识别模型是根据权利要求1至7中任一项所述的训练方法训练得到。

9.一种语音情绪识别模型的训练装置，其特征在于，所述装置包括，

接收模块，用于接收样本，所述样本包括音频数据和视频数据；

采集模块，用于根据所述音频数据和所述视频数据获取表情点位标签，以及获取所述音频数据中的多个音频特征；

训练模块，用于将所述多个音频特征中的每个音频特征和情绪特征并行输入卷积神经网络，得到表情点位训练值，以及根据所述表情点位标签和所述表情点位训练值训练所述卷积神经网络，得到训练后的语音情绪识别模型。

10.根据权利要求9所述的训练装置，其特征在于，所述装置还包括，

级联模块，用于将与所述每个音频特征对应的卷积层的通道数和所述情绪特征的通道数进行合并级联，得到级联后的卷积层。

11.一种电子设备，其特征在于，所述设备包括存储有计算机可执行指令的存储器和处理器；当所述指令被所述处理器执行时，使得所述设备实施根据权利要求1至8中任一项所述的方法。

12.一种计算机可读介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至8中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。