CN108899046A

CN108899046A - 一种基于多级支持向量机分类的语音情感识别方法及***

Info

Publication number: CN108899046A
Application number: CN201810760350.6A
Authority: CN
Inventors: 尹伟杰; 刘树安; 宫俊
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2018-11-27

Abstract

本发明公开了一种基于多级支持向量机分类的语音情感识别方法及***。本发明方法，包括：提取所述语音情感在语音训练样本的情感特征；根据多级分类策略构建出语音情感识别模型；根据语音情感识别模型对所输入语音情感的类型进行判断；对语音情感进行了细致分类的方法，可以有效地将存在相似的特性某些情感也区分出来进行识别。进而本发明的技术方案解决了现有技术中的语音情感识别效果不理想，识别率低的问题。

Description

一种基于多级支持向量机分类的语音情感识别方法及***

技术领域

本发明涉及语音情感识别技术领域，具体而言，尤其涉及一种基于多级支持向量机分类的语音情感识别方法及***。

背景技术

情感是人类一种重要的本能，它同理性思维和逻辑推理能力一样，在人们的日常生活、工作、交流、处理事务和决策中扮演着重要的角色。其中，对语音信号情感的识别研究已发展为语音信号处理的重要分支，成为人机和谐交互的重要组成部分。由于情感信息的社会性、文化性以及语音信号自身的复杂性，语音情感识别尚有许多问题有待解决，如情感建模、特征的分析和选择及识别方法的改进。HMM技术、高斯混合模型和神经网络等方法在语音情感识别领域得到广泛应用,不过它们都存在一些难以弥补的缺陷。HMM分类决策能力差,需要先验统计知识；高斯混合模型也是基于统计理论的,需要大量训练样本才能获得比较好的识别效果；神经网络则存在网络结构难以确定、局部最优、容易过学习等问题。当样本数据较少或有限时，以上传统方法的工程应用受到限制。支持向量机是在结构风险最小化原则基础上建立起来的机器学习方法，能有效地克服基于经验风险最小化原则的神经网络容易过学习、泛化能力差等不足之处，对于小样本数据分析具有无可比拟的学习能力和推广能力，已成功应用手写字符、人脸识别说话人识别和情感识别等领域。

然而，由于在情感分类中，某些情感之间表现出比较相似的特性，传统基于支持向量机的识别方法只是赋予未知情感一个单独的预测标签，进行语音情感识别时只是采用一级判决器就将所有情感进行分类，导致最终的识别效果不理想，识别率低。

发明内容

根据上述提出语音情感识别效果不理想，识别率低的技术问题，而提供一种基于多级支持向量机分类的方法。本发明主要通过先将不同情感进行粗分类，然后再对相似情感细分类，对同一情感进行多次判别，从而起到对语音情感类型进行准确的划分测试样本精确的情感类型。

本发明采用的技术手段如下：

一种基于多级支持向量机分类的语音情感识别方法，其特征在于：包括:

S1：提取语音训练样本集的情感特征；

S2：构造情感特征的多级分类算法模型；

S3：根据多级分类算法模型对所输入语音情感的类型进行识别。

进一步地，所述语音训练样本集是由CASIA语音情感库中的情感构成。

进一步地，所述提取所述语音情感在语音训练样本的情感特征包括提取语音情感122维全局特征，其中所述122维全局特征包括：

特征1-7依次为短时能量的最大值、最小值、均值、方差、抖动、线性回归系数、线性回归系数的均方误差；

特征8依次为0-250HZ频段能量占总能量的百分比；

特征9-14依次为基因频率的最大值、最小值、均值、方差、一阶抖动、二阶抖动；

特征15-18依次为浊音帧差分基因的最大值、最小值、均值、方差；

特征19-70依次为0-12阶梅尔倒谱系数的最大值、最小值、均值、方差；

特征71-122依次为0-12阶梅尔倒谱系数一阶差分的最大值、最小值、均值、方差。

进一步地，所述构造基于支持向量机的多级分类算法的模型包括：

将所述情感特征根据传统支持向量机方法对情感进行分类识别，计算出情感分类识别率，进而得到语音情感识别混淆矩阵；

构造第一级分类器，设定第一级分类器概率为P1，将情感混淆度超过第一级分类器概率的语音情感归为未获知的语音情感类，未超过所述分类器概率的作为已获知的语音情感类；

对第一级分类器中的所述未获知的语音情感类构造第二级分类器，设定第二级分类器概率为P2，将情感混淆度超过第二级分类器概率的语音情感归为未获知的语音情感类，未超过所述分类器概率的作为已获知的语音情感类；

以此类推，对第N-1级分类器中的所述未获知的语音情感类构造第N级分类器，设定第N级分类器概率为PN，将情感混淆度超过第N级分类器概率的语音情感归为未获知的语音情感类，未超过所述分类器概率的作为已获知的语音情感类；

直至构造的多级分类器将所有语言情感分组，构造多级分类算法模型结束。

进一步地，所述第一级分类器概率、第二级分类器概率……第N级分类器概率是以10％为基础，然后依次递增2％的规律。

进一步地，所述情感混淆度I_ij定义为第i类情感错判为第j类情感的概率与第j类情感错判为第i类情感概率的平均值；数学表达式为：

其中，x为测试数据，t为测试数据x所对应的识别结果,B_j为测试数据错判为第j类情感的概率，B_i为测试数据错判为第i类情感的概率。

本发明还提供了一种基于多级支持向量机分类的语音情感识别***，包括：

特征提取单元，用于提取语音训练样本集的情感特征；

信号处理单元，用于构造情感特征的多级分类算法模型；

语音情感识别单元，用于根据多级分类算法模型对所输入语音情感的类型进行识别。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项所述的方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，所述程序运行时执行上述任意一项所述的方法。

较现有技术相比，本发明具有以下优点：

通过上述技术方案，本发明公开的一种基于多级支持向量机分类的语音情感识别方法，通过构造多级分类算法对语音情感进行了细致的分类，将存在相似的特性某些情感也区分出来进行识别，相比于传统的支持向量机的方法，能够更好的识别出语音之前的情感。与传统SVM方法进行的语音情感识别相比，采用多级分类算法来构建模型后，语音情感的识别率也大幅度提高。

应用本发明的技术方案本可以有效地解决了现有技术中的语音情感识别效果不理想，识别率低的问题。

基于上述理由本发明可在语音情感识别等领域广泛推广。

附图说明

为了更清楚的说明本发明的实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本发明提供的多级支持向量机分类的语音情感识别方法的流程图。

图2本发明提供的多级支持向量机分类的语音情感识别方法的分类示意图。

图3本发明提供的多级支持向量机分类的语音情感识***的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示：一种基于多级支持向量机分类的语音情感识别方法，包括以下步骤：

(1)提取语音训练样本的情感特征：选取惊讶、高兴、中性、生气四种情感构成语音情感训练样本集，提取语音训练样本的情感特征。

提取122维全局特征作为语音情感识别的情感特征：

特征1-7：短时能量的最大值、最小值、均值、方差、抖动、线性回归系数、线性回归系数的均方误差；

特征8：0-250HZ频段能量占总能量的百分比；

特征9-14：基因频率的最大值、最小值、均值、方差、一阶抖动、二阶抖动；

特征15-18：浊音帧差分基因的最大值、最小值、均值、方差；

特征19-70：0-12阶梅尔倒谱系数(MFCC)的最大值、最小值、均值、方差；

特征71-122：0-12阶梅尔倒谱系数(MFCC)一阶差分的最大值、最小值、均值、方差。

(2)根据多级分类策略构建出语音情感识别模型。

所述情感混淆度：两种不同情感的相似程度。

定义第i类情感B_i与第j类情感B_j的混淆度为I_ij，其具体含义：第i类情感错判为第j类情感的概率与第j类情感错判为第i类情感的概率的平均值，其数学表达式为：

其中，x为测试数据，t为测试数据x所对应的识别结果。

多级分类的构造算法具体步骤为：

a.利用传统支持向量机(SVM)方法计算出语音情感识别混淆矩阵；

b.构造第一级分类器，设定第一级分类器概率P1，将混淆度超过概率P1的情感归为一类，即若I_ab>P1，I_cd>P1，则将a、b归为一组，c、d归为一组；若I_ab>P1且I_bc>P1，则将a、b、c归为一组。在上级分类器构造完成的基础之上，构造第二级分类器时，再次设定第二级分类器概率P2，若I_ab>P2且I_bc>P2，也将a、b、c归为一组。本文在设计第一级分类器时P1设为10％，之后每级分类器概率都是在其上级分类器概率的基础之上依次递增2％，比如第二级分类器的P′就以第一级分类器概率P1为基础，然后再在该基础生依次递增2％，即依次为10％、12％、14％、16％等，以此类推；

c.对未分组的情感状态，根据式(1.1)计算其情感混淆度，转至步骤b，将其归入已有组或单独成组；

d.四种情感都得到正确分组，结束。

(3)根据语音情感识别模型对所输入语音情感的类型进行判断。

通过多级分类构造算法得出对所输入语音情感类型进行判断的多级分类策略，利用该多级分类策略构建出语音情感识别模型，实现对所输入语音的情感类型的判断，对于CASIA语音情感库的四种情感类型，进行语音情感识别。

如图2所示：一种基于多级支持向量机分类的语音情感识别***包括：

特征提取单元，提取所述语音情感在语音训练样本的情感特征，对其进行多级分类策略；

信号处理单元，根据多级分类策略构建出语音情感识别模型；

语音情感识别单元，根据语音情感识别模型对所输入语音的情感类型进行判断。

实例1如图3所示:

(1)提取语音训练样本的情感特征

本发明选择惊讶(surprise)、高兴(happy)、中性(neutral)、生气(anger)四种情感作为训练样本集。韵律学特征描述了语音信号在音量、声调、快慢、重音等方面的变化，韵律学特征可以表征说话人的心理状态，与语音情感表达密切相关的韵律参数有能量、基频等。基于谱的相关特征表现了发声运动之间以及声道形状变化之间的相关性，其中梅尔频率倒谱特征(MFCC)是根据人耳听觉特性提取得到的特征参数，充分考虑到了人耳特殊的感知特性，在语音情感识别技术中，除了前面所讲的一些基于生理学提取出来的情感特征之外，还有一些基于统计学知识得到的语音情感特征：最大值、最小值、方差、平均值、回归参数、协方差等等。在特征集中使用这些统计学得到的特征能够有效地提高语音情感识别的准确率。因此本发明使用了如下122维全局情感统计特征来表示语音情感：

特征1-7：短时能量的最大值、最小值、均值、方差、抖动、线性回归系数、线性回归系数的均方误差

特征8：0-250HZ频段能量占总能量的百分比

特征9-14：基因频率的最大值、最小值、均值、方差、一阶抖动、二阶抖动

特征15-18：浊音帧差分基因的最大值、最小值、均值、方差

特征19-70：0-12阶梅尔倒谱系数(MFCC)的最大值、最小值、均值、方差

特征71-122：0-12阶梅尔倒谱系数(MFCC)一阶差分的最大值、最小值、均值、方差

(2)构造多级分类算法，对语音情感进行多级分类

本发明对识别率验证的方法是采用十折交叉验证，即将语音情感库的所有语音文本等分成10份，每次实验将其中的9份语音文本作为训练数据来获得情感模型，1份语音文本作为测试数据来测试得到的情感模型。每次实验都会得到四种不同情感的识别率，更换训练集合与测试集，做十次实验，使每份数据都做过一次测试集，将十分测试结果的平均值作为对算法精度的估计，本发明所述所有计算识别率的实验均采用该方法进行。

a.首先利用传统SVM对四种情感进行分类识别，通过十折交叉验证方法得到四种情感的初始混淆矩阵如表1所示：

表1

其中，表1中斜对角线的概率表示正确识别率，比如惊讶识别为惊讶的正确识别率为79.50％，其余的表示误识率，比如生气错判为惊讶的误识率(即P(t＝i|x∈B_j)其中i表示情感生气，j表示情感惊讶)为5.00％。

b.根据混淆矩阵计算出不同情感类别间混淆度。

由表1情感间的混淆矩阵，再根据公式可以计算出四种情感间的混淆度，得到四种情感间的混淆度如表2所示：

表2

从表2看出，高兴(h)与生气(a)两种情感的混淆度I_h,a＝10.25％，高兴(h)与惊讶(s)两种情感的混淆度I_h,s＝11％。

c.根据多级分类构造算法进行第一次分级时的原则，将混淆度超过概率P＝10％的情感类型归为一类，混淆度与其它情感都小于10％的独自作为一类。因此通过表2可以将高兴(h)、生气(a)、惊讶(s)归分为一类；又因情感中性(n)与其它三类情感的混淆度都小于10％，所以将其单独作为一类，这样第一级分类器构造完成。

d.根据多级分类构造算法，经过第一级分类后并不能获知该类的语音情感是否能够再次划分，所以需要再次进行分类，直到判断出不可分为止，因此对高兴(h)、生气(a)、惊讶(s)这三种情感再次进行分类，重复步骤b的方法，首先得到高兴(h)、生气(a)、惊讶(s)这三种情感的混淆矩阵如表3所示：

表3

e.根据表3的混淆矩阵来及计算混淆度的公式，计算出这三种情感的类别间混淆度，得到表4：

表4

f.根据多级分类构造算法进行第二次分级的原则，第二级分类器的P′选取以第一级分类器P为基础，然后再在该基础生依次递增2％，即P′依次为10％、12％、14％、16％，由此可以得出该级分类器对应的概率P′为10％，由表4可以看出，在构造第二级分类器时，这三种情感之间的混淆度均大于10％，所以需将高兴(h)、生气(a)、惊讶(s)作为一类，无法再将这三种情感进行细分类，对于这三种情感不再进行细分，最终实现对四种情感的正确归类。

(3)语音情感识别

通过多级分类构造算法得出对所输入语音情感类型进行判断的多级分类策略，利用该多级分类策略构建出语音情感识别模型，实现对所输入语音的情感类型的判断，对于CASIA语音情感库的四种情感类型，进行语音情感识别，与利用传统SVM方法进行的语音情感识别相比，采用多级分类算法来构建模型后，生气情感的识别率提高了8.52％，惊讶情感的识别率降低了4.5％，高兴情感的识别率提高了3.5％，中性情感的识别率基本保持不变，总的平均识别率也由78.63％提升到了80.38％，提升幅度为1.75％。

本发明实施例还提供了一种基于多级支持向量机分类的语音情感识别***，该装置可以通过特征提取单元、信号处理单元、语音情感识别单元实现其功能。要说明的是，本发明实施例的基于多级支持向量机分类的语音情感识别***可以用于执行本发明实施例所提供的基于多级支持向量机分类的语音情感识别方法，本发明实施例的基于基于多级支持向量机分类的语音情感识别方法也可以通过本发明实施例所提供的基于多级支持向量机分类的语音情感识别***来执行。图3是根据本发明实施例的基于多级支持向量机分类的语音情感识别***的示意图。如图3所示，基于多级支持向量机分类的语音情感识别***包括：

特征提取单元，提取所述语音情感在语音训练样本的情感特征；

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多级支持向量机分类的语音情感识别方法，其特征在于，包括：

S1：提取语音训练样本集的情感特征；

S2：构造情感特征的多级分类算法模型；

2.根据权利要求1所述一种基于多级支持向量机分类的语音情感识别方法，其特征在于，所述语音训练样本集是由CASIA语音情感库中的情感构成。

3.根据权利要求1所述一种基于多级支持向量机分类的语音情感识别方法，其特征在于，所述步骤S1包括提取语音情感122维全局特征，其中所述122维全局特征包括：

特征8依次为0-250HZ频段能量占总能量的百分比；

4.根据权利要求1所述一种基于多级支持向量机分类的语音情感识别方法，其特征在于，所述步骤S3包括：

5.根据权利要求4所述一种基于多级支持向量机分类的语音情感识别方法，其特征在于，所述第一级分类器概率、第二级分类器概率……第N级分类器概率是以10％为基础，然后依次递增2％的规律。

6.根据权利要求4所述一种基于多级支持向量机分类的语音情感识别方法，其特征在于，所述情感混淆度I_ij定义为第i类情感错判为第j类情感的概率与第j类情感错判为第i类情感概率的平均值；数学表达式为：

7.一种基于多级支持向量机分类的语音情感识别***，其特征在于，包括：

特征提取单元，用于提取语音训练样本集的情感特征；

信号处理单元，用于构造情感特征的多级分类算法模型；

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至6中任意一项所述的方法。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的方法。