CN104200804A

CN104200804A - 一种面向人机交互的多类信息耦合的情感识别方法

Info

Publication number: CN104200804A
Application number: CN201410482861.8A
Authority: CN
Inventors: 孙晓; 陈炜亮; 李承程; 任福继
Original assignee: Hefei University of Technology
Current assignee: Shandong Xinfa Technology Co ltd
Priority date: 2014-09-19
Filing date: 2014-09-19
Publication date: 2014-12-10
Anticipated expiration: 2034-09-19
Also published as: CN104200804B

Abstract

本发明公开了一种基于深度学习的多类信息耦合的情感识别方法，其特征是按如下步骤进行：1获取人脸表情的视频数据以及语音数据；2对文本内容进行文本特征提取，获得文本信息特征；3提取语音数据的韵律学特征和整体语音特征并进行耦合，获得语音信息特征；3对视频数据进行进行图像特征提取，获得表情信息特征；4对文本信息特征、语音信息特征和表情信息特征进行耦合，获得综合信息特征；5利用深度学习方法对综合信息特征进行数据优化，并利用分类器对优化的综合信息特征进行训练，获得情感识别模型，以情感识别模型实现对多类信息耦合的情感识别。本发明能全面结合文本、语音和视频三个方面的数据信息，从而提高人机交互中的情感状态判断的准确度。

Description

一种面向人机交互的多类信息耦合的情感识别方法

技术领域

本发明属于自然语言处理技术与情感计算领域，具体地说，是一种深度学习的人机交互多信息情感分析方法。

背景技术

情感计算指的是让机器能够有识别理解人类情感的能力。人类表达情感中使用的文本，语音和图像等信息形式中都蕴含着能够代表情感的特征值。通过提取这些特征值，使用机器学习方法，让机器去自己学习特征值中蕴含的情感信息，即让机器能够懂得人类情感。

当前存在的识别方法主要有：单独对文本识别的方法，大多使用了TF-IDF等模型对文本进行情感识别，大多需要对文本进行预处理，同时在多语种和多分类识别中正确率较低；单独对语音识别的方法，多只使用韵律学特征或基于频谱的整体特征，韵律学特征中蕴含强烈情感的特征值较难提取并且受到噪音影响较大，而基于频谱的特征在一些单独反映强烈情感部分的表现较差；在结合多信息识别领域，大多是文本与语音，语音和视频两两结合，没有考虑到人际交互是一个三种信息共同传递交互的过程；因此，仅仅分析其中一两点特征是无法全面的表述人类会话中的情感传递，导致了情感分析不够准确；在特征模型的训练方面，使用一般机器学习的方法，面对大维度大数量级的数据，训练和预测存在着困难。

发明内容

本发明是为了克服现有技术存在的不足之处，提出一种基于深度学习的面向人机交互的多类信息耦合的情感识别方法，能全面结合文本、语音和视频三个方面的数据信息，从而提高人机交互中的情感状态判断的准确度。

本发明为解决技术问题采取如下技术方案：

本发明一种基于深度学习的多类信息耦合的情感识别方法，其特点是按如下步骤进行：

步骤1：利用摄像头装置和麦克风同步获取人脸表情的视频数据以及语音数据，并对所述视频数据进行情感分类；

步骤2：通过语音识别工具对所获得的语音数据进行语音识别，获得与所述语音数据对应的文本内容；

步骤3：利用N-gram算法对所述文本内容进行文本特征提取，获得第一信息特征，即文本信息特征；

步骤4：利用分词工具对所述文本内容进行分词，获得分词结果；利用情感词典找到分词结果中包含的情感词并标记为情感特征词；

步骤5：利用梅尔频率倒谱系数对所述语音数据进行语音特征提取，获得整体语音特征；

步骤6：根据所述分词结果对所述语音数据进行端点检测，获得语音段；

步骤7：提取所述语音段的韵律学特征，所述韵律学特征包括语速、振幅特征、基音周期和共振峰；

步骤8：将所述韵律学特征和整体语音特征进行耦合，获得第二信息特征，即语音信息特征；

步骤9：根据所述语音段对所述视频数据进行划分，获得图像集；并对所述图像集进行图像特征提取，获得第三信息特征，即表情信息特征；

步骤10：对所述本信息特征、语音信息特征和表情信息特征进行耦合，获得综合信息特征；

步骤11：利用深度学习方法对所述综合信息特征进行数据优化，获得优化的综合信息特征；

步骤12：利用分类器对所述优化的综合信息特征进行训练，获得情感识别模型，以所述情感识别模型实现对多类信息耦合的情感识别。

本发明基于深度学习的多类信息耦合的情感识别方法的特点也在于：

所述步骤3是按如下步骤进行：

步骤3.1、选取两个字作为词w的长度l，即l＝2，记为两字词w₂；

步骤3.2、利用式(1)获得在所述文本内容中任意一个两字词的共现概率p(w₂)，从而获得所有两字词的共现概率：

P (w_{2}) = P (C_{1}^{2} C_{2}^{2}) = P (C_{1}^{2}) P (C_{2}^{2} | C_{1}^{2}) - - - (1)

式(1)中，表示所述两字词w₂中的第1个字；表示所述两字词w₂中的第2个字；

步骤3.3、按照每个两字词在所述文本内容中的顺序，将所有两字词的共现概率依次排序并存入信息特征向量V_T1中；

步骤3.4、选取三个字作为词w的长度l，即l＝3，记为三字词w₃，

步骤3.5、利用式(2)获得在所述文本内容中任意一个三字词的共现概率p(w₃)，从而获得所有三字词的共现概率：

P (w_{3}) = P (C_{1}^{3} C_{2}^{3} C_{3}^{3}) = P (C_{1}^{3}) P (C_{2}^{3} | C_{1}^{3}) P (C_{3}^{3} | C_{1}^{3} C_{2}^{3}) - - - (2)

式(2)中，表示所述三字词w₃中的第1个字；表示所述三字词w₃中的第2个字；表示所述三字词w₃中的第3个字；

步骤3.6、按照每个三字词在所述文本内容中的顺序，将所有三字词的共现概率依次排序并存入信息特征向量V_T2中；

步骤3.7、选取四个字作为词w的长度l，即l＝4，记为四字词w₄，

步骤3.8、利用式(3)获得在所述文本内容中任意一个四字词的共现概率p(w₄)，从而获得所有四字词的共现概率：

P (w_{4}) = P (C_{1}^{4} C_{2}^{4} C_{3}^{4} C_{4}^{4}) = P (C_{1}^{4}) P (C_{2}^{4} | C_{1}^{4}) P (C_{3}^{4} | C_{1}^{4} C_{2}^{4}) P (C_{4}^{4} | C_{1}^{4} C_{2}^{4} C_{3}^{4}) - - - (3)

式(3)中，表示所述四字词w₄中的第1个字；表示所述四字词w₄中的第2个字；表示所述四字词w₄中的第3个字；表示所述四字词w₄中的第4个字；

步骤3.8、按照每个四字词在所述文本内容中的顺序，将所有四字词的共现概率依次排序并存入信息特征向量V_T3中；

步骤39、利用式(4)获得第一信息特征V_T：

V_T＝V_T1+V_T2+V_T3 (4)。

所述步骤4是按如下步骤进行：

步骤4.1、利用分词工具对所述文本内容进行分词，获得分词结果；所述分词结果为依次排序的词语，将所述分词结果存入本地语音词典库；

步骤4.2、利用情感词典找到分词结果中包含的情感词并标记为情感特征词；对所述情感特征词进行情感标注，获得相应的情感种类并将所述情感特征词和相应的情感种类存入本地语音词典库。

所述步骤5是按如下步骤进行：

步骤5.1、利用高通滤波器对所述语音数据进行预处理，获得平滑的语音信号；

步骤5.2、对所述平滑的语音数据取N个采样点为一帧进行分帧处理，获得分帧后的语音信号S(n)；

步骤5.3、利用式(3)所示的加窗函数W(n)，通过式(2)对所述分帧后的语音信号S(n)进行加窗处理，获得加窗后的语音信号S′(n)；

S′(n)＝S(n)+W(n) (2)

w (n) = (1 - a) - a \times \cos (\frac{2 πn}{N - 1}), 0 \leq n \leq N - 1 - - - (3)

式(3)中，a为调整系数，a∈(0,1)；

步骤5.4、利用式(4)对所述加窗后的语音信号S′(n)进行快速傅里叶变换，获得倒谱的语音信号X_a(K)：

X_{a} (K) = Σ_{n = 0}^{N - 1} W (n) e^{- j 2 πk / N}, 0 \leq k \leq N - - - (4)

步骤5.5、利用梅尔滤波器组对所述倒谱的语音信号X_a(K)进行滤波，获得加卷的语音信号；

步骤5.6、利用离散余弦变换对所述加卷的语音信号进行解卷，获得静态的梅尔频率倒谱参数SMFCC；

步骤5.7、对所述静态的梅尔频率倒谱参数进行动态差分计算，获得一阶差分的梅尔频率倒谱参数d₁MFCC；

步骤5.8、对所述一阶差分的梅尔频率倒谱参数进行动态差分计算，获得二阶差分的梅尔频率倒谱参数d₂MFCC；

步骤5.7、利用式(5)对所述静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合，获得整体语音特征MFCC：

MFCC = \frac{N}{3} d_{1} MFCC + \frac{N}{3} d_{2} MFCC + \frac{N}{3} SMFCC - - - (5) .

所述步骤6是利用双门限端点检测算法，对所述语音数据进行划分，删除语音中的静音和噪音部分，获得语音片段并标记出所述语音片段的起始帧与结束帧，从而获得语音段。

所述步骤9是按如下步骤进行：

步骤9.1、对所述视频数据进行分帧处理，获得逐帧的图像序列；

步骤9.2、利用所述语音片段的起始帧与结束帧对所述图像序列进行划分，获得与所述语音片段相对应的图像序列的起始帧与结束帧，从而获得图象集；

步骤9.3、利用人脸检测方法获得人脸表情的i个特征定位点，利用所述特征定位点对所述图像集中的每一帧图像进行定位，获得每一帧图像中的定位点，从而获得定位点集合V_i＝(V_i1,V_i2,…,V_iω)；ω表示图象集中的帧数；

步骤9.4、利用式(6)获得所述图象集的任意个定位点的方差从而获得定位点集合中所有定位点的方差：

{\overset{&OverBar;}{V}}_{i} = \frac{Σ_{j = 1}^{ω} {(V_{ij} - \frac{1}{ω} Σ_{j = 1}^{ω} V_{ij})}^{2}}{ω - 1} - - - (6)

以所述定位点V_i和定位点集合中所有定位点的方差作为第三类信息特征。

所述深度学习方法是将所述综合信息特征作为RBM模型的输入值，经过RBM模型优化后的输出值再次作为RBM模型的输入值，直到所述综合信息特征的数量级满足分类器的处理能力为止，以最后的输出值作为优化后的综合信息特征。

与现有技术相比，本发明的有益效果体现在：

1、本发明在文本情感识别上，使用N-gram算法对文本内容进行第一信息特征提取，即文本信息特征提取。N-gram算法具有语种无关性，能够处理中英简繁等等文本，同时不需要对文本进行预处理，对拼写错误的容错能力较强，无需提供另外的去词词典和规则。并且使用N-gram算法提取的文本特征值，针对单个词提取整个文本的特征值，能够很好反映整个文本的情感倾向，在多分类识别中也能得到很好的结果。

2、本发明在语音情感识别上，使用梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients，简称MFCC)作为整体语音特征同时结合语音的韵律学特征作为第二信息特征，即语音信息特征。根据人耳听觉机理的研究发现，这种MFCC是基于谱的语音特征，不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比其他语音特征(例如基于声道模型的LPCC)相比具有更好的鲁邦性，而且当信噪比降低时仍然具有较好的识别性能。同时基于谱的特征和韵律学特征相结合，能够弥补两者各自的不足，全面反映语音情感特性。

3、本发明使用文本信息特征，语音信息特征和表情信息特征三者结合作为综合信息特征来识别一个视频信息的情感特性。文本，语音和表情三者结合能够很好考虑到人际交互过程中情感的表达方式，弥补针对单独一者或者两者结合在情感识别实际运用中的缺点，能够全面反映出人类在交互过程中表现出的情感趋势和变迁，能够让机器学习到更好的情感经验。

4、本发明使用深度学习的方法对情感特征值进行优化。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据。比起一般的机器学习方法，不仅能够对情感特征值进行很好的优化降维处理，同时能够获得情感特征更高的情感特征值。

具体实施方式

本实施例中，一种基于深度学习的面向人机交互的多(类)信息耦合的情感识别方法，包括如下步骤：

步骤1、利用摄像头装置和麦克风同步获取人脸表情的视频数据以及语音数据，视频数据要求是对说话者脸部进行拍摄；对收集到的视频进行情感分类；具体的分为生气(angry)，恐惧(fear)，高兴(happy)，中立(neutral)，悲伤(sad)和惊喜(surprise)这六类情感，并分别用1、2、3、4、5、6表示。每个视频的综合情感特征可以用一个四元组Y表示。

Y＝(E,V_T,V_S,V_i) (1)

式(1)中，E代表本视频的情感分类，V_T表示第一信息特征即文本信息特征(Text Feature)，V_S表示第二信息特征即语音信息特征(Voice Feature)，V_i表示第三信息特征即表情信息特征(Image Feathre)。

步骤2、通过语音识别工具对所获得的语音数据进行语音识别，获得与语音数据对应的文本内容；本实施例中，使用讯飞语音识别工具包作为语音识别工具，得到结果为一段连续的，与语音数据匹配的文本数据。

步骤3、利用N-gram算法对文本内容进行文本特征提取，获得第一信息特征，即文本信息特征；利用特定长度的N-gram算法取多种长度的特征词并记录其共现频度，将共现频度按位存入第一类信息特征向量中。

本实施例中，常用表达词语的都为在四字以及四字以下的词汇，因此取两字词、三字词和四字词，具体的步骤如下：

步骤3.1、选取两个字作为词w的长度l，即单个字的个数l＝2，记为两字词w₂，

步骤3.2、利用式(1)获得在文本内容中任意一个两字词的共现概率p(w₂)，从而获得所有两字词的共现概率：

P (w_{2}) = P (C_{1}^{2} C_{2}^{2}) = P (C_{1}^{2}) P (C_{2}^{2} | C_{1}^{2}) - - - (1)

式(1)中，表示两字词w₂中的第1个字；表示两字词w₂中的第2个字；并有：

P (C_{l}^{l} | C_{1}^{l} C_{2}^{1} . . . C_{l - 1}^{l}) = \frac{W (C_{1}^{l} C_{2}^{1} . . . C_{l - 1}^{l} C_{l}^{l})}{W (C_{1}^{l} C_{2}^{l} . . . C_{l - 1}^{l})} - - - (2)

式(2)中，表征为在单个字都出现的情况下，出现的概率。表示为词出现次数。

步骤3.3、按照每个两字词在文本内容中的顺序，将所有两字词的共现概率依次排序并存入信息特征向量V_T1中；

步骤3.5、利用式(3)获得在文本内容中任意一个三字词的共现概率p(w₃)，从而获得所有三字词的共现概率：

P (w_{3}) = P (C_{1}^{3} C_{2}^{3} C_{3}^{3}) = P (C_{1}^{3}) P (C_{2}^{3} | C_{1}^{3}) P (C_{3}^{3} | C_{1}^{3} C_{2}^{3}) - - - (3)

式(3)中，表示三字词w₃中的第1个字；表示三字词w₃中的第2个字；表示三字词w₃中的第3个字；

步骤3.6、按照每个三字词在文本内容中的顺序，将所有三字词的共现概率依次排序并存入信息特征向量V_T2中；

步骤3.8、利用式(4)获得在文本内容中任意一个四字词的共现概率p(w₄)，从而获得所有四字词的共现概率：

P (w_{4}) = P (C_{1}^{4} C_{2}^{4} C_{3}^{4} C_{4}^{4}) = P (C_{1}^{4}) P (C_{2}^{4} | C_{1}^{4}) P (C_{3}^{4} | C_{1}^{4} C_{2}^{4}) P (C_{4}^{4} | C_{1}^{4} C_{2}^{4} C_{3}^{4}) - - - (4)

式(4)中，表示四字词w₄中的第1个字；表示四字词w₄中的第2个字；表示四字词w₄中的第3个字；表示四字词w₄中的第4个字；

步骤3.8、按照每个四字词在文本内容中的顺序，将所有四字词的共现概率依次排序并存入信息特征向量V_T3中；

步骤3.9、利用式(5)获得第一信息特征V_T：

V_T＝V_T1+V_T2+V_T3 (5)

步骤4、利用分词工具对文本内容进行分词，获得分词结果；并根据分词结果对语音数据进行端点检测，获得语音段；

步骤4.1、利用分词工具对文本内容进行分词，获得分词结果；分词结果为依次排序的词语，将分词结果存入本地语音词典库；将词按照顺序存入本地语音词典库。本实施例中，使用中科院ICTCLAS分词工具进行分词，例如：对文本内容“上班真是非常累”，得到分词结果为“上班真是非常累”。本地语音词典库包括语音词以及对应词的音频。从语音词典库中提取出分词结果中所有词的音频；

步骤4.2、利用情感词典找到分词结果中包含的情感词并标记为情感特征词；对情感特征词进行情感标注，例如，对表示生气(angry)的词标记上情感标注1，对表示恐惧(fear)的词标记上情感标注2；获得相应的情感种类并将情感特征词和相应的情感种类存入本地语音词典库。将一个词用(词，标记)的数据格式存入语音词典库。

步骤5：利用梅尔频率倒谱系数对语音数据进行语音特征提取，获得整体语音特征；

本实施例中，使用梅尔倒谱系数(mfcc)作为整体语音特征。梅尔倒谱系数实在Mel标度频率域提取出来的倒谱参数，与频率f的关系可以表示式(6)：

Mel (f) = 3595 \times 1 g (1 + \frac{f}{700}) - - - (6)

步骤5.1、利用式(7)所示的一阶激励响应高通滤波器对语音数据进行预处理，可以平缓语音信号中过于起伏的部分，获得平滑的语音信号：

H(S)＝1-μS^-1 (7)

本实施例中，μ＝0.97；

步骤5.2、对平滑的语音数据取N个采样点为一帧进行分帧处理，获得分帧后的语音信号S(n)；分帧处理的参数选择与语音信号的采样频率有关，本文取采样频率为8000Hz，一般人类语音信号在10-20ms为稳定的，故取10-20ms为一帧，设置帧长N为256，即隔256个采样点取一帧。分帧后信号为S(n)。为了避免窗边界对信号的遗漏，一般取帧长的一半作为帧移，即每次位移一帧的二分之一长度后再取下一帧，这样可以避免帧与帧之间的特性变化太大。

步骤5.3、对分帧后的语音信号利用式(8)和式(9)进行加窗处理，通过式(9)的海明窗进行加窗之后，能够减少语音信号吉布斯效应的影响，从而获得加窗后的语音信号S′(n)：

S′(n)＝S(n)+W(n) (8)

w (n) = (1 - a) - a \times \cos (\frac{2 πn}{N - 1}), 0 \leq n \leq N - 1 - - - (9)

式(3)中，a为调整系数，a∈(0,1)；本实施例中，a的取值为0.46；

步骤5.4、利用式(10)对加窗后的语音信号S′(n)进行快速傅里叶变换，获得倒谱的语音信号X_a(K)：

X_{a} (K) = Σ_{n = 0}^{N - 1} W (n) e^{- j 2 πk / N}, 0 \leq k \leq N - - - (10)

步骤5.5、利用梅尔滤波器组对倒谱的语音信号X_a(K)进行滤波，获得加卷的语音信号；

Mel滤波器组实质上是满足式(11)的一组三角滤波器：

Mel[f(m)]-Mel[f(m-1)]＝Mel[f(m+1)]-Mel[f(m-1)] (11)

式(11)中，f(m)为三角滤波器的中心频率，各f(m)之间的间隔随着m值减小而缩小，随着m值的增大而增宽。定义一个具有24个滤波器的滤波器组，因为每一个三角滤波器的覆盖范围都近似于人耳的一个临界带宽，因此可以来模拟人耳的掩蔽效应。24个滤波器形成满足式(12)的滤波器组，通过这个Mel滤波器组可以得到经过滤波后的Mel频率信号：

H_{m} (k) = \{\begin{matrix} 0 & , k < f (m - 1) \\ \frac{2 [k - f (m - 1)]}{[f (m + 1) - f (m - 1)] [f (m) - f (m - 1)]} & , f (m - 1) \leq k \leq f (m) \\ \frac{2 [f (m + 1) - k]}{[f (m + 1) - f (m - 1)] [f (m + 1) - f (m)]} & , f (m) \leq k \leq f (m + 1) \\ 0 & , f (m + 1) \leq k \end{matrix} - - - (12)

步骤5.6、利用离散余弦变换对加卷的语音信号进行解卷，获得静态的梅尔频率倒谱参数SMFCC；将步骤4.5中得到的信号H(k)通过式(13)进行离散余弦变换(DFT)，得到需要的静态mfcc参数SMFCC：

SMFCC (n) = Σ_{m = 0}^{N - 1} \log (m) \cos (\frac{πn (m - 0.5)}{M}), n = 1,2, . . ., L - - - (13)

L为mfcc的系数阶数，本实施例中L取值为12。

步骤5.7、利用式(14)对静态的梅尔频率倒谱参数进行动态差分，获得一阶差分的梅尔频率倒谱参数；

式(14)中，d_t表示第t个一阶差分，S_t表示第t个倒谱系数，p表示倒谱系数的阶数，k表示一阶导数的时间差，k取值为1。

步骤5.8、对一阶差分的梅尔频率倒谱参数进行动态差分计算，获得二阶差分的梅尔频率倒谱参数d₂MFCC，即将步骤5.7中得到的一阶差分参数带入式(14)得到二阶差分参数。

步骤5.9、利用式(15)对静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合，获得整体语音特征MFCC。

MFCC = \frac{N}{3} d_{1} MFCC + \frac{N}{3} d_{2} MFCC + \frac{N}{3} SMFCC - - - (15)

步骤6、根据分词结果利用双门限端点检测算法对语音数据进行端点检测，对语音数据进行划分，删除语音中的静音和噪音部分，获得语音片段并标记出语音片段的起始帧与结束帧，从而获得语音段；具体分为：

步骤6.1、从语音数据中提取包含语音的部分；

步骤6.2、利用双门限端点检测算法，标记出语音片段的起点与终点。

设置过零率低门限阈值，过零率高门限阈值，短时能量低门限阈值和短时能量高门限阈值。将语音数据输入，按帧检测，计算每一帧过零率和短时能量，如果过零率或者短时能量超过了低门限阈值，则将该帧标记为语音段起点，若之后连续几帧的过零率与短时能量都没有超过低门限阈值，则取消语音段起点标记。同时若这连续几帧中连续超过过零率或短时能量过零率或短时能量低门限阈值的时间过短，也取消语音段起始点标记点，否则将连续帧结束帧位置标记为语音段终点。继续同样的方法扫描剩余的语音数据，若检测到为语音数据结束位置，将结束位置标记为语音段终点。经过端点检测算法后可以得到去除静音、高频杂音等噪音，划分完的语音段；

步骤6.3、将所有语音片段拼接为待对准语音段，将语音段按顺序存入本地语音词典库；

步骤6.4、使用情感词典对分词结果进行查询，查询到的词标记为情感特征词，对情感特征词进行情感标注，将情感词存入本地语音词典库。本发明中使用情感词典为知网公开情感词典，其中包括情感词以及其情感值。根据情感词典查询得到的分词结果中的情感词，对情感词进行标注，并标记为情感特征词。

步骤6.5、对步骤4中的文本分词结果进行按顺序逐词扫描，从本地语音词典库调出与词对应的单词音频，并标明每个词的起始帧数和结束帧数；

步骤7、提取语音段的韵律学特征，韵律学特征包括语速、振幅特征、基音周期和共振峰；

步骤7.1、对步骤6.2中得到的音频片段计算音频段的持续时间t，同再根据语音本地语音词典库中文本内容的分词结果计算字数Z，利用式(16)得到音频的语速s：

s＝Z÷t (16)

步骤7.2、对步骤6中划分的音频段，通过式(17)所示的短时平均幅度函数来衡量音频段的振幅，提取当能量超过阀值的振幅值的平均值作为每一个音频段的振幅特征A_n，式(17)中x(n)为输入语音段。

A_{n} = Σ_{m = - \infty}^{+ \infty} | x (n) | W (n - m) - - - (17)

式(17)中，W(n)为加窗运算，可以使用矩形窗，也可使用汉明窗。

步骤7.3、使用短时自相关法对步骤5中得到的音频段进行基因周期的估值，提取音频段的基音周期P。

步骤7.3.1、对步骤6.2中得到的每一个语音片段通过式(18)消波函数进行中心消波处理，突出音频段中关于基音周期的信息，得到消波后的音频信号f(x)：

f (x) = \{\begin{matrix} x - x_{α}, x > x_{α} \\ 0, - x_{α} \leq x \leq x_{α} \\ x + x_{α}, x < x_{α} \end{matrix} - - - (18)

式(18)中，x_α为削波电平，x_α取每帧语音最大幅度的60％。

步骤7.3.2、利用中值平滑处理方法对消波后的音频信号f(x)进行平滑中值处理，把音频信号f(x)通过中值滤波器，采用一个滑动窗口，将窗口中心移动到样点，在样点左右各取M个样点，将这些样点从大到小列，得到中值x，即中值平滑处理后的样点。在实施例中，M取值为5。

步骤7.3.3、计算步骤7.3.2得到的信号x(n)相邻中值峰值之间的距离，即得到音频段的基音周期P。

步骤7.4、使用基于LPC的方法求出步骤6.2中得到音频片段的共振峰R。

步骤7.4.1、利用在LPC模型，将步骤6.2中得到的音频片段用式(19)的函数形式来表示：

z (n) = Σ_{β = 1}^{γ} α_{β} (n - β) + G \times u (n) - - - (19)

式(19)中，u(n)为激励函数，G为增益参数，β为LPC参数；γ表示极点个数。

步骤7.4.2：由式(20)得到相应的数字滤波器传递函数g(n)：

g (n) = \frac{z (n)}{G \times u (n)} = \frac{1}{Π (1 - α_{β} n^{- β})} - - - (20)

同时式(20)也可以表示为式(21)所示的γ个极点的级联形式：

g (n) = \frac{1}{Π (1 - n_{β} \times n^{- β})} - - - (21)

式(21)中，n_β是g(n)在n-平面上的第β个极点，g(n)的所有极点都在z平面的单位圆内。则第β个共振峰的频率和带宽分别为θ_β/2πT和ln(r_β)/πT。

步骤7.4.2、对步骤7.4.1得到的信号g(n)进行求根，判断得到共振峰R。

步骤8、将韵律学特征和整体语音特征进行耦合，获得第二信息特征，即语音信息特征；

将步骤5中得到24维语音特征MFCC，以及步骤7中得到的4个韵律学参数——语速s、振幅特征A_n、周期P和共振峰R结合得到一个27维的特征，即第二类信息特征。

步骤9、根据语音段对视频数据进行划分，获得图像集；并对图像集进行图像特征提取，获得第三信息特征，即图像信息特征；

步骤9.1、对视频数据进行分帧，得到逐帧的图像序列；由步骤6.5得到每个词的起始帧数和结束帧数，得到情感特征词的起始帧数和结束帧数，对每个情感特征词对应的视频数据进行第三信息特征提取。

步骤9.2、利用步骤4和步骤6中得到的分词结果和标记的每个词的起始帧数和结束帧数，查找每个情感特征词对应图像序列的起始帧数和结束帧数，得到图像集；

步骤9.3、针对对应的图像帧序列进行人脸检测，对图像帧序列预处理：尺寸归一化，去噪以及灰度均衡；利用人脸检测方法获得人脸表情的i个特征定位点，利用特征定位点对图像集中的每一帧图像进行定位，获得每一帧图像中的定位点，从而获得定位点集合V_i＝(V_i1,V_i2,…,V_iω)；ω表示图象序列中的帧数；

步骤9.4、利用式(22)获得图象集的任意个定位点的方差从而获得定位点集合中所有定位点的方差：

{\overset{&OverBar;}{V}}_{i} = \frac{Σ_{j = 1}^{ω} {(V_{ij} - \frac{1}{ω} Σ_{j = 1}^{ω} V_{ij})}^{2}}{ω - 1} - - - (22)

式(22)中，V_ij表示第j帧图像的第i个定位点位置；方差表征第i个定位点位置变化幅度；为所有点位点方差的集合；以定位点V_i和定位点集合中所有定位点的方差作为第三类信息特征。

步骤10、对本信息特征、语音信息特征和图像信息特征进行耦合，获得综合信息特征；

步骤10.1、将获得的第一信息特征，第二信息特征，第三信息特征，加权链接，获得综合信息特征。本发明中使用耦合方法为加权链接，同时也有矩阵加权相加，通过函数变换耦合等等方法。

步骤10.2、利用式(1)情感类别标注E对步骤10.1中得到的综合信息特征进行标注，得到标注完成的综合信息特征Y。

步骤11：利用深度学习方法对综合信息特征进行数据优化，获得优化的综合信息特征；

深度学习方法是将综合信息特征作为RBM模型的输入值，经过RBM模型优化后的输出值再次作为RBM模型的输入值，直到综合信息特征的数量级满足分类器的处理能力为止，以最后的输出值作为优化后的综合信息特征。从而由多层RBM模型构建出DBM模型。

具体的，本实施例中，采用3层RBM对特征向量进行优化，采用CD算法对每一层RBM进行训练，每层迭代次数设定为100次，3层RBM的节点数目分别为5000,4000,2000。即将综合信息特征向量作为第一层RBM的输入，第一层RBM的输出作为第二层RBM的输入。以此推论，第三层RBM输出即为优化后的综合信息特征。

步骤12、利用分类器对优化的综合信息特征进行训练，获得情感识别模型；

步骤12.1、使用格式转换算法将步骤10中得到的优化后的综合信息特征转换为分类能够处理的形式，得到转换完成的综合信息特征。本发明中使用分类器为Libsvm分类器，分类器所使用的核函数为RBF核函数。

步骤12.2、利用v-折交叉验证以及网络搜索的方法，输入综合信息特征，获得RBF核函数的参数c和的最佳值ρ。v-折交叉验证的做法是先将数据集合划分同样大小的v个集合。将其中的一个集合作为未知的，称为测试集，其他v-1子集作已知的训练集，从“未知”测试集上获得预测准确率可以更精确地反映出分类器在独立数据集合上的效果网络搜索易于实现，并且所花费的时间并没有多出多少。通过设置实数对(c,ρ)的初值，在预测测试集时不断试验不同的实数对(c＝2^-5，2^-3，2^-1，2¹，2³…，2¹⁵，…；ρ＝2^-15，2^-13，2^-11，…，2³，…)，最终能够确定一个实数对(c,ρ)能够给RBF核提供最好的参数。

步骤12.3、利用步骤11.2中获得的最佳参数对和Libsvm对优化的综合信息特征进行训练，得到模型。

步骤13、利用情感识别模型对待识别的人脸表情的视频数据以及语音数据进行多类信息情感识别；

步骤13.1、利用步骤2～10计算预测的人脸表情数据的综合信息特征，获得综合信息特征值。

步骤13.2、利用步骤11中获得的模型，预测综合信息特征值，从而获得待测试人脸表***数据的情感种类。

Claims

1.一种基于深度学习的多类信息耦合的情感识别方法，其特征是按如下步骤进行：

2.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法，其特征是：所述步骤3是按如下步骤进行：

P (w_{2}) = P (C_{1}^{2} C_{2}^{2}) = P (C_{1}^{2}) P (C_{2}^{2} | C_{1}^{2}) - - - (1)

P (w_{3}) = P (C_{1}^{3} C_{2}^{3} C_{3}^{3}) = P (C_{1}^{3}) P (C_{2}^{3} | C_{1}^{3}) P (C_{3}^{3} | C_{1}^{3} C_{2}^{3}) - - - (2)

P (w_{4}) = P (C_{1}^{4} C_{2}^{4} C_{3}^{4} C_{4}^{4}) = P (C_{1}^{4}) P (C_{2}^{4} | C_{1}^{4}) P (C_{3}^{4} | C_{1}^{4} C_{2}^{4}) P (C_{4}^{4} | C_{1}^{4} C_{2}^{4} C_{3}^{4}) - - - (3)

步骤3.9、利用式(4)获得第一信息特征V_T：

V_T＝V_T1+V_T2+V_T3 (4)。

3.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法，其特征是：所述步骤4是按如下步骤进行：

4.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法，其特征是：所述步骤5是按如下步骤进行：

S′(n)＝S(n)+W(n) (2)

w (n) = (1 - a) - a \times \cos (\frac{2 πn}{N - 1}), 0 \leq n \leq N - 1 - - - (3)

式(3)中，a为调整系数，a∈(0,1)；

X_{a} (K) = Σ_{n = 0}^{N - 1} W (n) e^{- j 2 πk / N}, 0 \leq k \leq N - - - (4)

MFCC = \frac{N}{3} d_{1} MFCC + \frac{N}{3} d_{2} MFCC + \frac{N}{3} SMFCC - - - (5) .

5.根据权利要求3所述的基于深度学习的多类信息耦合的情感识别方法，其特征是：所述步骤6是利用双门限端点检测算法，对所述语音数据进行划分，删除语音中的静音和噪音部分，获得语音片段并标记出所述语音片段的起始帧与结束帧，从而获得语音段。

6.根据权利要求5所述的基于深度学习的多类信息耦合的情感识别方法，其特征是：所述步骤9是按如下步骤进行：

{\overset{&OverBar;}{V}}_{i} = \frac{Σ_{j = 1}^{ω} {(V_{ij} - \frac{1}{ω} Σ_{j = 1}^{ω} V_{ij})}^{2}}{ω - 1} - - - (6)

7.根据权利要求1所述的基于深度学习的多类信息耦合的情感识别方法，其特征是：所述深度学习方法是将所述综合信息特征作为RBM模型的输入值，经过RBM模型优化后的输出值再次作为RBM模型的输入值，直到所述综合信息特征的数量级满足分类器的处理能力为止，以最后的输出值作为优化后的综合信息特征。