CN117457031A

CN117457031A - 基于语音全局声学特征和局部频谱特征的情绪识别方法

Info

Publication number: CN117457031A
Application number: CN202311499423.8A
Authority: CN
Inventors: 孙文财; 江威; 李世武; 刘雨薇; 王鑫; 刘馨泽; 马慧慧
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-01-26

Abstract

基于语音全局声学特征和局部频谱特征的情绪识别方法，属于驾驶员情绪识别技术领域，通过车载语音收集设备获取驾驶员的原始音频，对原始音频进行语音降噪、语音切割后预处理，提取全局声学特征和局部频谱特征，并进行拼接融合，特征降维，利用随机森林算法进行全局声学特征情绪识别，输出情绪种类的概率；利用SoftMax分离器输出局部频谱特征情绪种类的概率；将两种情绪种类的概率利进行决策融合，最终输出驾驶员的情绪状态。本发明解决了单一模态语音下驾驶员情绪识别准确率不够精准、对于驾驶环境下语音嘈杂缺乏有效区分的问题，通过驾驶员语音实时监测驾驶员的情绪，并准确的识别驾驶员情绪提供重要的理论和技术支持。

Description

基于语音全局声学特征和局部频谱特征的情绪识别方法

技术领域

本发明属于驾驶员情绪识别技术领域，特别是涉及到一种基于语音的全局声学特征与局部频谱特征融合的驾驶员情绪识别方法。

背景技术

驾驶车辆是一项复杂的任务，驾驶员必须应对不同的任务，每一项任务又是一个复杂的认知过程；情绪是一个影响认知功能的关键因素，而驾驶员无法控制情绪已被确定为事故的主要原因之一。驾驶员的情绪影响驾驶性能，与交通事故密切相关。负面情绪驾驶不仅会影响正常的道路交通秩序，还会威胁驾驶员和其他交通参与者的身心健康和人身安全，亟需提出一套实时监测驾驶员的情绪识别方法，能够实时准确的识别驾驶员情绪，对提升我国的道路安全状况具有重要的意义。

目前，驾驶员的情绪识别主要通过分析驾驶员的生理信号、面部表情、身体姿势、语音信号等情绪表情来实现。驾驶员面部表情情绪识别，需要装载车端摄像头采取驾驶员面部表情数据，对视频数据进行图像识别，进而判别驾驶员的情绪，但是此方法易受光照、面部遮挡以及驾驶员自身掩饰的影响，导致识别的可靠性难以保证。通过驾驶员的生理信号进行情绪识别，采集信号稳定性差，且往往需要佩戴侵入式设备进行数据采集，影响驾驶员的正常驾驶行为。相比之下，驾驶员语音信号具有易于采集、低入侵、不易侵犯隐私等优点。且目前对于驾驶员的语音情绪识别研究较少，较多都是纯理论层面，并未考虑实际驾驶环境的复杂性。此外，随着人机交互的迅速普及，通过驾驶员的声音识别情绪，具有广泛的应用潜力。

因此，现有技术亟需一种新的技术方案来解决上述问题。

发明内容

本发明所要解决的技术问题是：提供基于语音全局声学特征和局部频谱特征的情绪识别方法，通过全局声学特征和局部频谱特征的融合来实时识别驾驶员的情绪；解决了单一模态语音下驾驶员情绪识别准确率不够精准、对于驾驶环境下语音嘈杂缺乏有效区分的问题。

基于语音全局声学特征和局部频谱特征的情绪识别方法，包括以下步骤，且以下步骤顺次进行：

步骤一、采用车载语音收集设备实时采集驾驶员的原始音频，通过音频降噪模块与音频切割模块对原始音频进行语音降噪、语音切割，获得用于模型输入的目标音频；

步骤二、将所述步骤一获得的目标音频进行预处理，包括对目标音频进行预加重、分帧加窗以及端点检测；

步骤三、对预处理后的目标音频进行特征提取，提取全局声学特征和局部频谱特征；

步骤四、将提取的全局声学特征进行拼接融合，特征降维后，利用随机森林算法进行情绪识别，输出情绪种类的概率；

步骤五、将提取的局部频谱特征输入到融合注意力机制的Bi-LSTM双向长短时记忆网络和卷积神经网络模型中，利用SoftMax分离器输出情绪种类的概率；

步骤六、将随机森林分类器和SoftMax分离器输出的情绪种类的概率利用D-S证据理论进行决策融合，输出驾驶员的最终情绪状态。

所述步骤一音频降噪模块采用小波变换法去除语音信号中的环境噪声，保留原始语音。

所述步骤一音频切割模块采用2s窗口截断整个语音，将其划分为一系列的音频片段，并在每个子段之间设置1s重叠，不足2s的音频用零填充。

所述步骤二采用一阶FIR高通数字滤波器实现目标音频预加重；采用可移动的有限长度窗口进行加权的方法实现分帧加窗；采用基于短时能量STE和短时平均过零率ZCR双门限法进行语音信号的端点检测。

所述步骤三全局声学特征包括：MFCC系数、共振峰参数、短时平均能量、短时平均过零率以及基频。

所述步骤四随机森林模型将数据集划分为训练集和测试集，通过交叉验证依次选择随机森林的criterion参数、决策树的个数、决策树的最大深度、分割内部节点所需要的最小样本数、每棵树用到的最大特征数，对所获得的参数附近进行小范围网格搜索，排除各个参数之间的相互影响，得到最优的模型参数组合；构建高识别性能的基于语音的全局声学特征与局部频谱特征融合的驾驶员情绪识别模型，模型输出驾驶员的情绪种类概率。

所述步骤五提取的局部频谱特征为对数梅尔频谱图，作为Bi-LSTM的输入层，将图像解析为输入张量矩阵。

所述步骤六D-S证据理论进行决策融合的规则为：

式中，m₁(A)表示随机森林分类器对命题A的支持程度，即基本概率数；m₂(A)表示SoftMax分类器对命题A的支持程度；

K表示归一化常数：

式中，A表示合成后输出结果，B表示随机森林分类器输出的结果，C表示SoftMax分类器输出结果。

通过上述设计方案，本发明可以带来如下有益效果：

1、本发明提出的基于语音的全局声学特征与局部频谱特征融合的驾驶员情绪识别模型，可以对驾驶环境下驾驶员的情绪进行精准识别，对于驾驶安全的风险预警和安全决策具有重要意义；

2、基于全局声学特征与局部频谱特征融合的方法，这是两种不同类型的特征，它们位于各自的特征空间之中，从不同的方面描述了语音信号中包含的情绪信息。因此，这两种特征之间存在着一定的互补性，更加充分地挖掘语音中的情绪信息，解决了单一模态语音下驾驶员情绪识别准确率不够精准、对于驾驶环境下语音嘈杂缺乏有效区分的问题，通过驾驶员语音实时监测驾驶员的情绪，并准确的识别驾驶员情绪提供重要的理论和技术支持。

附图说明

以下结合附图和具体实施方式对本发明作进一步的说明：

图1为本发明基于语音全局声学特征和局部频谱特征的情绪识别方法流程示意图。

图2为本发明基于语音全局声学特征和局部频谱特征的情绪识别方法全局声学特征和局部频谱特征提取的流程示意图。

具体实施方式

本发明提出的基于语音的全局声学特征与局部频谱特征融合的驾驶员情绪识别方法，通过车载语音收集设备获取驾驶员的原始音频，对原始音频进行语音降噪、语音切割，获得用于模型输入的目标音频；将获得用于模型输入的目标音频进行预处理；对预处理后的目标音频进行特征提取，提取全局声学特征和局部频谱特征；将提取的全局声学特征进行拼接融合，特征降维，之后利用随机森林算法进行情绪识别，输出情绪种类的概率；将提取的局部频谱特征输入到融合注意力机制的Bi-LSTM(双向长短时记忆网络)和卷积神经网络模型中，利用SoftMax分离器输出情绪种类的概率；将两种分类器输出的情绪种类的概率利用D-S证据理论进行决策融合，最终输出驾驶员的情绪状态。解决了单一模态语音下驾驶员情绪识别准确率不够精准、对于驾驶环境下语音嘈杂缺乏有效区分的问题，通过驾驶员语音实时监测驾驶员的情绪，并准确的识别驾驶员情绪提供重要的理论和技术支持；

为使得本发明的目的、特征、优点能够更加的明显和易懂，下面结合本发明的实施例中的附图，对本发明中的技术方案进行清楚完整地描述。显然，本发明不受下述实施例的限制，可根据本发明的技术方案与实际情况来确定具体的实施方式。为了避免混淆本发明的实质，公知的方法、过程、流程并没有详细叙述。

步骤一、车载语音收集设备实时获取驾驶员的原始音频，对原始音频进行语音降噪、语音切割，获得用于模型输入的目标音频。

步骤二、将获得用于模型输入的目标音频进行预处理。

步骤三、对预处理后的目标音频进行特征提取，提取全局声学特征和局部频谱特征。

步骤四、将提取的全局声学特征进行拼接融合，特征降维，之后利用随机森林算法进行情绪识别，输出情绪种类的概率。

步骤五、将提取的局部频谱特征输入到融合注意力机制的Bi-LSTM(双向长短时记忆网络)和卷积神经网络模型中，利用SoftMax分离器输出情绪种类的概率。

步骤六、将两种分类器输出的情绪种类的概率利用D-S证据理论进行决策融合，最终输出驾驶员的情绪状态。

所述的步骤一中的车载语音收集设备，包含音频降噪模块与音频切割模块。

所述的音频降噪模块采用小波变换法去除语音信号中的环境噪声，保留原始语音。

式中，f(t)为待处理的信号；为小波函数；α为小波函数的缩放变量，对应于频率；τ为小波函数的平移变量，对应于时间，t为信号中的时间信息；

所述的音频切割模块采用2s窗口截断整个语音，将其划分为一系列的音频片段。持续时间小于2s的音频用零填充。

所述的步骤二中将获得用于模型输入的目标音频进行预处理：

第一步、对目标音频进行预加重，目标音频通过一阶FIR高通数字滤波器实现预加重，传递函数公式：

H(z)＝1-αz^-1

式中α为预加重系数，0.9＜α＜1.0。

设n时刻的语音采样值为x(n)，经过预加重处理后的输出语音为y(n)：

y(n)＝x(n)-αx(n-1)

式中α取0.98。

第二步、对目标音频进行分帧及加窗，语音信号的分帧是采用可移动的有限长度窗口进行加权的方法来实现的，保持其连续性。由于每一帧的开始和结束都会产生间断，随着分割次数的增加，分割后的语音信号与原始信号的误差将越来越大，分帧操作中通过移动有限长度窗函数w(n)，并采用加权的方式可以解决。

S_W(n)＝s(n)*w(n)

式中，w(n)表示窗函数，s(n)表示语音信号，S_W(n)表示加窗后的语音信号。

选择汉明窗作为窗函数，式中N为窗口长度，即样本点个数。

第三步、对目标音频进行端点检测，在驾驶员驾车过程中，不会一直说话，因此需要通过端点检测确定声音信号中语音段与噪声段的区间。采用基于短时能量(STE)和短时平均过零率(ZCR)双门限法来进行语音信号的端点检测。短时能量计算公式：

式中，E_n为第n帧语音信号，x(m)为语音信号短时能量值。

短时平均过零率计算公式：

式中，sgn为符号函数，其值为1或-1。

步骤三中所述的对预处理后的目标音频进行特征提取，提取全局声学特征和局部频谱特征。

所述的全局声学特征包括：

MFCC系数、共振峰参数、短时平均能量、短时平均过零率以及基频

(1)MFCC系数计算过程：

第一步、进行快速傅里叶变换(FFT)

对每一帧信号进行FFT，从时域数据转变为频域数据：

X(i,k)＝FFT[x_i(m)]

式中i表示分帧后的第i帧，k表示频域中的第k条谱线。语音信号x(n)经过预处理后为x_i(m)。

第二步、计算谱线能量

对每一帧FFT后的数据计算谱线的能量：

E(i,k)＝[x_i(k)]²

第三步、计算通过梅尔滤波器的能量

在频域中相当于把每帧的能量谱E(i,k)与梅尔滤波器的频域响应H_m(k)相乘并相加：

式中，i表示第i帧；k表示频域中的第k条谱线。

第四步、计算DCT倒谱

序列x(n)的FFT倒谱为

式中，FFT和FFT^-1分别表示快速傅里叶变换和快速傅里叶逆变换。

序列x(n)的DCT为

式中，参数N是序列x(n)的长度；C(k)是正交因子，可表示为

求DCT的倒谱，即把梅尔滤波器的能量取对数后计算DCT:

式中，S(i,m)是求出的梅尔滤波器能量；m是指第m个梅尔滤波器(共有M个)；i是指第i帧；n是DCT后的谱线。

(2)共振峰参数计算过程：

由于语音x(n)是由声门脉冲激励e(n)经声道响应v(n)滤波而得。而在倒谱域中和/>是相对分离的，因此求取共振峰时，则是从倒谱域分离/>后恢复的v(n)中计算。

具体步骤如下：

第一步、对语音信号的x(n)进行预加重，并进行加窗和分帧，然后做傅里叶变换

式中，i代表第i帧；j代表第j个频率分量，为傅里叶变换的频率索引。

第二步、求取X_i(k)的倒谱，给倒谱信号加窗h(n)，得

第三步、求取h_i(n)的包络线

第四步、在包络线上寻找最大值，获得相应的共振峰参数。

(3)短时平均能量计算过程：

设语音波形时域信号为x(n)，加窗函数w(n)分帧处理后得到的第i帧语音信号为y_i(n)，计算第i帧n时刻语音信号y_i(n)语音信号的短时平均能量为

式中，N为窗长，w(n)为窗函数；n＝1,2,…,L,i＝1,2,…,fn,L为帧长；fn为分帧后的总帧数。

(4)短时平均过零率计算过程：

定义语音信号x(n)分帧后有y_i(n)，帧长为L，短时平均过零率为

式中，sgn是符号函数，即

(5)基频计算过程：

采取短时自相关函数法：

设语音信号的时间序列为x(n)，加窗分帧处理后得到的第i帧语音信号为x_i(m)，其中下标i代表第i帧，设每帧帧长为N。x_i(m)的短时自相关函数定义为

式中，k是时间的延迟量。

通常进行归一化处理，表达式为：

r_i(k)＝R_i(k)/R_i(0)

k＝0时，R_i(0)为最大值。所以r_i(k)的模值小于或等于1。

将上述得到的音频的全局声学特征进行拼接融合，形成新的特征向量。

将上述音频的全局声学特征融合而成的特征向量利用主成分分析法进行特征降维，计算过程为：首先上述特征个数设为p，样本集的特征向量个数设为q，则样本集X＝[x₁,x₂…x_i…x_q]，x_i为p维特征向量。

第一步、对数据进行中心化处理：

第二步、计算协方差矩阵H及特征向量：

H＝XX^T＝[x₁x₂…x_q][x₁x₂…x_q]^T

其中X表示样本特征向量集矩阵，X^T表示样本特征向量集的转置矩阵，H代表协方差矩阵。

第三步、选取前n个最大的特征值对应的特征向量进行标准化并组成矩阵W，n的具体选择根据主成分的累计贡献率来确定。

第四步、求解新的特征向量

z_i＝W^Tx_i

其中z_i表示PCA降维后的新特征向量，W^T表示矩阵W的转置矩阵。

第五步、确定新特征向量的维数

根据主成分的方差贡献率：

式中：i＝1，2，3...n；R_i为方差贡献率；s_i为方差。

前n个主成分的累计贡献率为：

其中Y_n即为前n个主成分的累计贡献率。可以根据自己需要设定Y_n的阈值大小。根据所设的Y_n大小计算保留的主成分的个数。

上述获得的PCA降维后语音全局声学特征融合的新特征向量矩阵为Z。

步骤四中所述的利用随机森林算法来进行驾驶员的情绪分类，将提取的全局声学特征进行拼接融合，特征降维后的新特征向量连同标签输入到随机森林模型中进行训练。将数据集划分为训练集和测试集，通过交叉验证依次选择随机森林的criterion参数、决策树的个数、决策树的最大深度、分割内部节点所需要的最小样本数、每棵树用到的最大特征数，通过上述获得的参数附近进行小范围的网格搜索，排除各个参数之间的相互影响，得到最优的模型参数组合。依此来构建高识别性能的基于语音的全局声学特征与局部频谱特征融合的驾驶员情绪识别模型。

步骤五中所述的提取的驾驶员语音的局部频谱特征(对数梅尔频谱图)构造数据集，输入到融合注意力机制的Bi-LSTM(双向长短时记忆网络)和卷积神经网络模型中。所述的驾驶员情绪识别的模型如下所示：

将提取的对数梅尔频谱图作为输入层的输入，将图像解析为输入张量矩阵。Bi-LSTM使用2个单独的LSTM隐藏层处理2个方向的数据:后向层从t＝T～1迭代计算获取后隐藏序列前向层从t＝1～T迭代计算求得前向隐藏序列/>然后将前向隐藏序列与后向隐藏序列进行拼接,更新到输出层y：

Bi-LSTM进行上下文信息的提取，然后输入卷积神经网络模块中。

在卷积层通过卷积核对输入的张量矩阵进行卷积运算来提取图片的特征，所述的卷积计算过程为：

上式中，表示经过卷积层计算后的结果；g(x)表示为激活函数；L，W分别表示所用卷积核的长度和宽度；ω^n,m表示卷积核在(n,m)位置的权重；u表示上一层的输出结果；

将上述卷积后的结果利用最大池化方法进行降维，降低计算量和网络的复杂性。

通过全连接层将卷积层和池化层得到的局部特征进行整合，得到输出结果：

y＝ωh+b₁

其中h表示隐藏层的输出，ω表示连接权值；b₁表示偏置；

自注意力机制的本质思想可假设为通过计算每一个查询项和各个键的相关性得到每个键的对应值的权重系数，然后将权重与对应的键值进行加权求和，在语音信号由Bi-LSTM和卷积神经网络输入后，计算每一帧的权重数值。

利用类似SoftMax函数将上述得到的结果进行归一化处理：

a_i表示预测的情绪种类的概率值,L_x表示对应的数据源长度。

将权重系数和相应的键值做加权求和，从而得到最后的注意力数值。

将注意力机制计算得出的权重值与输入矩阵H相乘的结果输入到全连接层，进行分类输出。

A＝softmax(g(H^TW₁)W₂)

式中W₁、W₂表示实验中人为调试的最合适的参数矩阵；H表示由Bi-LSTM和卷积神经网络提取出的输入矩阵。

步骤六中所述的将两种分类器输出的情绪种类概率通过D-S证据理论进行融合，获得最终的驾驶员的情绪识别结果，D-S证据理论对于相互独立的不同证据源有不同的基本概率分配函数。具体合成规则如下：

K表示归一化常数：

式中，A表示合成后输出结果。B表示随机森林分类器输出的结果。C表示SoftMax分类器输出结果。通过D-S证据理论对上述两种分类器进行决策融合，输出最终的驾驶员情绪识别结果。

Claims

1.基于语音全局声学特征和局部频谱特征的情绪识别方法，其特征是：包括以下步骤，且以下步骤顺次进行：

2.根据权利要求1所述的基于语音全局声学特征和局部频谱特征的情绪识别方法，其特征是：所述步骤一音频降噪模块采用小波变换法去除语音信号中的环境噪声，保留原始语音。

3.根据权利要求1所述的基于语音全局声学特征和局部频谱特征的情绪识别方法，其特征是：所述步骤一音频切割模块采用2s窗口截断整个语音，将其划分为一系列的音频片段，并在每个子段之间设置1s重叠，不足2s的音频用零填充。

4.根据权利要求1所述的基于语音全局声学特征和局部频谱特征的情绪识别方法，其特征是：所述步骤二采用一阶FIR高通数字滤波器实现目标音频预加重；采用可移动的有限长度窗口进行加权的方法实现分帧加窗；采用基于短时能量STE和短时平均过零率ZCR双门限法进行语音信号的端点检测。

5.根据权利要求1所述的基于语音全局声学特征和局部频谱特征的情绪识别方法，其特征是：所述步骤三全局声学特征包括：MFCC系数、共振峰参数、短时平均能量、短时平均过零率以及基频。

6.根据权利要求1所述的基于语音全局声学特征和局部频谱特征的情绪识别方法，其特征是：所述步骤四随机森林模型将数据集划分为训练集和测试集，通过交叉验证依次选择随机森林的criterion参数、决策树的个数、决策树的最大深度、分割内部节点所需要的最小样本数、每棵树用到的最大特征数，对所获得的参数附近进行小范围网格搜索，排除各个参数之间的相互影响，得到最优的模型参数组合；构建高识别性能的基于语音的全局声学特征与局部频谱特征融合的驾驶员情绪识别模型，模型输出驾驶员的情绪种类概率。

7.根据权利要求1所述的基于语音全局声学特征和局部频谱特征的情绪识别方法，其特征是：所述步骤五提取的局部频谱特征为对数梅尔频谱图，作为Bi-LSTM的输入层，将图像解析为输入张量矩阵。

8.根据权利要求1所述的基于语音全局声学特征和局部频谱特征的情绪识别方法，其特征是：所述步骤六D-S证据理论进行决策融合的规则为：

K表示归一化常数：