CN113180659A

CN113180659A - 一种基于三维特征和空洞全卷积网络的脑电情感识别***

Info

Publication number: CN113180659A
Application number: CN202110034341.0A
Authority: CN
Inventors: 李冬冬; 王喆; 柴冰; 杨海; 杜文莉
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-07-30
Anticipated expiration: 2041-01-11
Also published as: CN113180659B

Abstract

一种基于三维特征和空洞全卷积网络的脑电情感识别***，包括如下步骤：首先对脑电信号进行预处理后分解到四个不同的频段上，并进行分帧处理，从每个帧中提取不同频段上各个电极通道的脑电情感特征；然后该特征按照脑电信号采集时电极放置的位置信息进行重排，并按照频带进行拼接，构建一个三维脑电特征阵列，再输入到空洞全卷积网络中进行训练，并引入谱范数正则化项，最终使用softmax分类器进行情感分类。由于大脑的情感活动涉及不同电极通道和频带之间的信息回传和交互，本发明中的三维特征表示能够捕获不同电极通道和频带之间的信息，空洞全卷积网络在此基础上可以进一步挖掘深层次的有利于情感分类的特征，从而进一步提高脑电情感识别的正确率。

Description

一种基于三维特征和空洞全卷积网络的脑电情感识别***

技术领域

本发明涉及脑电情感识别技术领域，具体地说，本发明涉及一种基于三维特征和空洞全卷积网络对脑电信号进行情感分类的脑电情感识别***。

背景技术

情感在我们的日常生活和交流中起到不可替代的作用。尤其是当我们与机器互动时，我们也希望机器能理解我们在表达什么样的情感。因此，情感被认为是构建更友好、更自然的人机交互(HMI)的重要因素。随着人工智能技术的飞速发展，自动情感识别技术的出现使其成为可能。对于情感识别，应该对情感进行定量的定义和使用。心理学家通常将情感分成两种分类模型，一种是离散型，包含六种基本情感(快乐、悲伤、恐惧、厌恶、愤怒、惊讶)和混合情感等。另一种是维度模型，用valence和arousal维度表示。一般来说，直接从大脑皮层采集的脑电图(EEG)信号是情感刺激的实时反映，为情感识别提供了更全面的途径。

将脑电信号应用于情感识别的过程包括情感诱发，脑电信号采集，脑电信号预处理，特征提取和选择，情感分类。在这些过程中，有效特征的提取和选择以及最终的情感分类是最重要的两个步骤。研究者感兴趣的是五个频带的脑电信号，包括Delta(约1-3Hz)、Theta(约 4-7Hz)、Alpha(约8-12Hz)、Beta(约13-30Hz)和Gamma(约31-100Hz)。基本来说，每个频带上的脑电特征可以是时域特征(包括均值、标准差等等)，可以是频域特征(包括频带功率、功率谱密度等等)，也可以是时频域特征(包括微分熵、小波变换等等)。时域特征主要考虑脑电信号的时间特性，频域特征是从频率的角度捕获脑电信号信息，而时频域特征则从脑电信号的时间和频率维度提取脑电信息。根据获得的脑电特征，构建了大量的情感识别模型。常用的情感分类模型可以分为两种，一种是传统的机器学习模型(如SVM、决策树、随机森林等等)，这种需要手动的特征提取和优化；另一种是端到端的深度学习模型(如CNN、 RNN、LSTM等等)，不再需要人工特征，可以自动提取情感相关特征进行情感识别。

由于大脑的情感活动涉及不同电极通道和频带之间的信息回传和交互，因此如何适当地利用这些先验知识非常重要。三维特征表示能够捕获不同电极通道和频带之间的信息，空洞全卷积网络在此基础上可以进一步挖掘深层次的有利于情感分类的特征。针对这两者各自的特性，若能充分利用这些脑电特征信息，将会进一步提高脑电情感识别的正确率。

发明内容

本发明所要解决的技术问题是提供一种更加有效的脑电情感识别***，通过该脑电情感识别***，可以进一步提高情感识别的正确率。由于三维特征表示能够很好地利用脑电信号的信息，空洞全卷积网络可以进一步挖掘深层次的有利于情感分类的特征，所以如何能够更好地结合两者各自的特点去完美剖析脑电特征是本发明的一个难点。鉴于上述难点，本发明的目的是提出一种基于三维特征表示和空洞全卷积网络的脑电情感识别***。通过三维特征表示，能够更好地利用脑电信号电极通道间，频带间以及不同特征激活模式之间的互补信息；通过空洞全卷积网络来提取更深层次的脑电特征信息，进而提升脑电情感识别的性能。

1.一种基于三维特征和空洞全卷积网络的脑电情感识别***，其特征在于，包括如下步骤：

S1、对所收集到的脑电信号样本进行预处理，并将预处理后的脑电信号分解到四个不同的频段上；

S2、对步骤S1所得到的不同频段上的脑电信号进行分帧处理，从每个帧中提取不同频段上各个电极通道的脑电情感特征并移除基线特征；

S3、将步骤S2所得到的不同频段上各个电极通道的脑电情感特征按照脑电信号采集时电极放置的位置信息进行重排，并按照频带进行拼接，得到不同特征的二维表示。

S4、堆叠步骤S3所得到的不同特征的二维表示，构建一个三维脑电特征阵列；

S5、将步骤S4所得到的三维脑电特征阵列输入到空洞全卷积网络中进行训练，并引入谱范数正则化项，最终使用softmax分类器进行情感分类。

2.根据权利要求1所述的一种基于三维特征和空洞全卷积网络架构的脑电情感识别***，其特征在于：S1所述收集到的脑电信号样本来自多模态数据集DEAP和DREAMER；所述收集到的脑电信号样本包含四种连续情感，分别为：高/低valence，高/低arousal，高/低dominance, 高/低liking；所述收集到的脑电信号样本包含五个频段，分别为Delta,Theta,Alpha,Beta, Gamma；所述收集到的脑电信号样本需要先经过预处理移除眼电伪迹，并用带通滤波器过滤出4.0-45Hz的脑电信号；所述预处理后的脑电信号的采样频率是128Hz；所述预处理后的脑电信号使用巴特沃斯滤波器来将所述脑电信号分解到五个不同的频段上。

3.根据权利要求1所述的一种基于三维特征和空洞全卷积网络架构的脑电情感识别***，其特征在于：S2所述从每个帧中提取不同频段上各个电极通道的脑电情感包含时域特征 Kurtosis(K)，频域特征Power(P)，时频域特征Differential Entropy(DE)，所述时域特征K可以被定义为，

其中，μ是均值，σ是标准偏差，E表示求均值操作，μ₄是四阶中心矩。

所述频域特征P可以被定义为，

其中，N表示一帧EEG信号的长度。

所述时频域特征DE可以被定义为，

其中f(x)为概率密度函数。当样本服从高斯分布N(μ,σ²)时，相应的概率密度函数

可以代入上式进行进一步化简，化简后的DE可以被定义为，

其中，e是Euler常数，σ表示EEG信号的标准偏差。

所述移除基线特征可以被定义为，

其中，s表示刺激片段的数量，t表示第t帧的脑电信号，

表示第一帧的基线信号特征。

4.根据权利要求1所述的一种基于三维特征和空洞全卷积网络架构的脑电情感识别***，其特征在于：S3所述将不同频段上各个电极通道的脑电情感特征按照脑电信号采集时电极放置的位置信息进行重排，

然后按照频带进行拼接，以K特征为例，所述K特征的二维表示可以被定义为，

其中，

同样地，P特征的二维表示

DE特征的二维表示

5.根据权利要求1所述的一种基于三维特征和空洞全卷积网络架构的脑电情感识别***，其特征在于：S4所述堆叠不同特征的二维表示是在所述K'_t，P'_t，D'_t的第三个维度进行拼接，所述三维脑电特征阵列的维度是2h×2w×3。

6.根据权利要求1所述的一种基于三维特征和空洞全卷积网络架构的脑电情感识别***，其特征在于：S5所述谱范数正则化项被定义为为矩阵的最大奇异值，

为了约束所述空洞全卷积网络网络中每个权重矩阵W^l的谱范数，相应的优化过程可以被定义为，

其中，

是正则化因子，第二项是谱范数正则化项，通过惩罚每一层的谱范数之和，可以实现对于整个所述空洞全卷积网络网络谱范数的约束。

本发明有益的效果是：本发明的基于三维特征和空洞全卷积网络的脑电情感识别***，利用三维特征表示可以进一步挖掘脑电信号的电极通道间，频带间以及不同特征激活模式之间的互补信息。空洞全卷积网络仅使用卷积层而不使用池化层来防止脑电信息的丢失，其中空洞卷积被结合到网络中以增加感受野，同时在损失函数中引入谱范数正则化项来训练网络，使空洞全卷积网络具有更好的泛化能力。因此，相对于其它只关注特征层面和网络模型的方法，本方法有着更好的鲁棒性，提高了情感识别的性能。

附图说明

图1是本发明中总体框架的流程图；

图2是本发明中三维特征表示的流程图；

图3是本发明中空洞全卷积网络的结构图；

具体实施方式

下面结合附图和具体实施例对本发明进行详细描述：本发明的方法共分为四个部分。

第一部分：脑电数据预处理

脑电信号在它获取的时候容易受到噪声和伪迹的影响。所获取的脑电信号通常需要进行预处理，以提取淹没在无关噪声中的有用信号。因此，原始的EEG数据被下采样到128Hz， EOG伪迹被移除，并且用一个带通频率滤波器过滤出4.0-45Hz的脑电信号。在此基础上，使用巴特沃斯滤波器将来自c个电极通道的脑电数据分解到几个频带上，分别为Theta频带，Alpha频带，Beta频带和Gamma频带。下一步是将每个受试者的一次试验中的EEG信号分成m帧，第一帧作为基线帧，剩下的m-1帧是试验帧。每一帧的长度是n秒，相邻帧之间没有重叠。这里，将第t个试验帧视为X_t，因此每个经历了s个刺激的受试者都有s×(m-1)个试验帧，也就是说帧索引的变化范围是1到s×(m-1)。在这些操作之后，可以从每个通道中获取帧级特征用于后续的脑电情感识别。

第二部分：多特征获取和表示

对于多特征获取，提取了不同激活模式下特定情感的特征。对于它的表示，按照电极放置位置来重排这些特征以获得更多先验的通道间和频带间信息。为了捕获不同激活模式之间的情感活动，采用特征数列构建来充分利用它们之间的互补信息。

(1)特征提取：对于上面提到的任何一个试验帧X，它实际上是四个频带上不同电极通道的一组EEG信号集合，每个试验帧可以看作是一个样本。具体来说，X＝{S_ij}并且S_ij是第i 个频带上第j个电极通道的脑电信号。这里i表示4个脑电频带，j表示c个电极通道。所提出的方法提取了不同种类的特征，包括时域上的峰度特征，频域上的频带功率特征以及时频域上的微分熵特征。

时域上的峰度特征(K)是一种很简单但是很有效的用于脑电情感识别的特征。直观上来说，K反映了信号峰值的尖锐程度。对于一个样本X，K^(X)是四阶中心矩和方差平方的比值。其计算公式如下：

其中μ是均值，σ是标准偏差，E表示求均值操作，μ₄是四阶中心矩。

频域上的功率特征(P)包含了大量的节律频带信息，到目前为止仍然被广泛地应用于脑电情感识别。对于一个样本X，在一个特定频带i上第j个电极通道的功率特征可以被计算出。它的公式如下：

其中，N表示一帧EEG信号的长度。

时频域上的DE特征(D)是从香农熵推导得到的并且被看作是其连续形式，它只依赖于概率密度函数。可以被表示如下：

其中f(x)是样本X的概率密度函数。如果X服从高斯分布N(μ,σ²)，那么相应的概率密度函数

可以代入上式进行进一步化简。简化后的公式可以被推导成如下：

其中e表示Euler常数，σ表示脑电信号的标准偏差。

(2)基线修正：为了进一步防止预处理后的脑电信号中出现伪迹，将试验特征和基线特征之间的差值作为最后的分类特征。然后，对每一种特这个，差值操作可以被定义如下：

其中，s表示刺激的数量，t表示一个刺激中第t个试验帧并且总共有m-1个试验帧。finalFeature_s ^t＝{finalFeature_s ²,…,finalFeature_s ^m}，trialFeature_s ^t＝{trialFeature_s ²,…,trialFeature_s ^m}， baseFeature_s ¹表示一个刺激中第一个基线信号特征。

所获得的特征可能会在很大范围内变化，一些更大的特征可能会主导着分类器，使得它不能从其它特征中正确地学习。为了避免这种情况，对每个特征进行归一化，归一化后的特征的数学表达如下：

其中

表示样本X归一化后的特征，finalFeature^(X)表示用于分类的最终特征。μ_X和σ_X表示样本X的特征均值和标准偏差。

第三部分：交叉频带的特征重排和构建

由于大脑的情感活动涉及到不同电极通道和频带之间的信息回传和交互，将所获得的第 t帧的一维特征序列K_t，P_t，D_t进行重排来挖掘通道间和频带间信息。此外，这三种特征在不同的激活模式下表达脑电信息，特征阵列构建可以更好地探索它们之间的互补性和相关性。本章节所提出的方法试图根据电极位置将所获得的一维脑电特征序列转换成二维网格 (h×w)，其中h和w分别表示垂直和水平所用的电极数量。三维特征表示的过程如图2所示，主要包括三个步骤：(a)使用特征提取方法来获得帧级特征；(b)将获得的不同频带上的特征分别近似映射到二维电极网格中，这可以将额外的通道间和频带间信息考虑在内；(c) 将多个特征构建成三维脑电特征阵列。

三维特征表示(K_t，P_t，D_t)算法的基本步骤为：

1：将所获得的一维脑电特征序列转换成二维电极网格；

2：对于(K_t，P_t，D_t)中的任何一个特征f_t，进入循环；

3：Theta频带上的网格

大小是9×9；

4：Alpha频带上的网格

大小是9×9；

5：Beta频带上的网格

大小是9×9；

6：Gamma频带上的网格

大小是9×9；

7：水平堆叠Theta和Alpha频带上的网格变成

8：水平堆叠Beta和Gamma频带上的网格变成

9：垂直堆叠f₁和f₂的网格变成

10：将二维电极网格构建成三维脑电特征数列；

11：将所获得的三个网格K'_t，P'_t，D'_t在第三个维度上进行拼接

Concatenate((K'_t,P'_t,D'_t),axis＝3)，大小是18×18×3；

12：步骤结束，返回第t个帧的三维脑电特征阵列

第四部分：空洞全卷积网络

空洞全卷积网络只包含卷积层，它采用空洞卷积核来***地聚合通道间和频带间信息，而不是下采样特征图，因为池化操作不可避免地丢失更多的EEG特征信息。所提出的空洞全卷积网络有五个卷积层和一个全连接层，如图3所示。具体来说，第一个层有64个1×1大小的卷积核，以便于实现跨频带和跨电极通道的交互以及脑电特征信息的整合，然后修正线性单元(rectified linear unit，RELU)激活函数被用于非线性特这个转换。接下来的三个层分别采用64，128和256个大小为4×4的卷积核，它们分别卷积来自前一层的特征图，这里空洞卷积被用于扩大感受野来包含更大范围的脑电特征信息。在卷积之后，缩放指数线性单元 (scaled exponential linear unit，SELU)激活函数被用来防止梯度消失和梯度***。值得注意的是最后一个卷积层拥有1×1大小的卷积核，它实际上是不同特征图上每个像素点的像素结合并将特征维度从256降到64，这有助于进一步提高空洞全卷积网络的表示能力。在这些卷积层之后，全连接层被用来将所有64个特征图映射成一维向量，并且神经元的数量是1024，然后dropout层的丢失率设置为0.5。相应的输出通过softmax激活函数将其转化成概率分布，维度设置成2或4，这取决于情感的类别。

为了进一步提高空洞全卷积网络的泛化性能，谱范数正则化项【】被引入到网络的损失函数中来减少输入扰动。谱范数正则化项从权重矩阵的谱范数角度引入规则约束，防止权重矩阵具有更大的谱范数，从而使空洞全卷积网络表现出更好的泛化能力。对于一个矩阵A，谱范数被表示为它的最大奇异值，相应的数学表达式如下：

为了约束空洞全卷积网络中每个权重矩阵W^l的谱范数，所提出的方法将如下的优化过程考虑在内：

其中

是一个正则化因子，第二项是谱范数正则化项。通过惩罚每一层的谱范数之和，可以实现对整个网络的谱范数的约束。

实验设计

实验数据集：

实验中所使用的DEAP数据集是一个大规模的标准情感数据集。这个数据集包含来自32 个健康受试者(一半女性，一半男性)的32个通道的脑电信号记录和8个通道的外周生理信号记录。每个受试者都被要求去观看40个一分钟长的音乐视频片段，它们的生理信号用40 个电极来记录(电极按照国际10-20***放置)。每次试验包含63秒的信号，其中3秒是基线信号。在每次试验的结尾，每个受试者分别对Valence，Arousal，Dominance和Liking这四个维度进行打分，以便于评估他们当前的情感状态。所有的原始信号都以512赫兹采样频率进行记录。

实验结果

不同特征重排下的实验结果：

为了进一步讨论通道间和频带间信息在脑电情感识别中的贡献，将所提出的三维特征表示与几种代表性的特征重排方式进行了比较。这里，CNN由三个卷积层和一个最大池化层组成用于情感分类，附加一个具有1024个隐藏节点的全连接层以获得输出。所有卷积层都有 3×3的卷积核，第一层的卷积核数量是32，然后在后面的层依次加倍。RELU被用作卷积层的激活函数，最大池化层采用2×2的窗口。

首先，本实验分别考察了三种特征下的不同重排方式。从一个样本中提取到的每种脑电特征总数为128个(32通道×4频带)。然后将每种特征表示成1×128的图像格式，这是单个脑电特征重排的基线(表示为B1)。接下来，按照频带(表示为R11)和电极通道信息(表示为R12)对每种特征进行重排，可以分别表示成4×32和32×4形式。最后，集成频带和电极通道信息的特征重排(表示为R13)方式被表示成18×18×1的大小。实验结果如表1所示。很明显，在所有单个特征下，R13会带来更好的性能，这可能归因于R13很好地利用了特征重排带来的先验信息。

表1在DEAP数据集上使用不同特征重排时的分类准确性

Table 1Classification accuracies when using different featurerearrangements on DEAP dataset.

其次，对于多特征融合，所提出的方法构建了广泛的实验来详细分析先验信息的贡献，如表2所示。每个样本在所有频带下总共可以得到384(32通道×4频带×3)个特征，然后多特征的水平拼接表示成1×384形式，这也是多特征重排的基线(表示为B2)。为了进一步验证通道间信息的存在，分别在四个频带(Theta，Alpha，Beta和Gamma)上进行了实验，此时每个样本总共可以获得96(32通道×3)个特征。然后将传统输入格式的EEG特征 (1×32×3，表示为R21)和重排输入格式的EEG特征(9×9×3，表示为R22)进行比较。显而易见的是，从R21到R22，分类性能有了很大的提升，这表明通道间信息可能在脑电情感分类任务中发挥着重要的作用。与此同时，为了验证频带间信息的存在，本节还在四个频带上的平均值和所有频带上进行了实验。然后将重排输入格式(9×9×3，记为R22)的EEG 特征与三维特征表示输入格式的EEG特征进行比较。从R22到三维特征表示的性能改进表明，频带间信息可能在脑电情感分类任务中起重要作用。总的来说，三维特征表示取得了最好的结果。其优势在于它强大的表示能力，能够将通道间、频带间以及不同激活模式之间的互补信息考虑在内。因此，三维特征表示可能是一种有帮助的特征重排方法，它能够充分利用脑电信号的先验知识。

表2在DEAP数据集上使用不同特征重排来验证通道间和频带间信息的分类准确性

Table 2 Classification accuracies when using different featurerearrangements to verify the inter-channel and inter-frequency bandinformation.

不同分类模型下的实验结果：

正如上面所提到的，多特征融合考虑了不同激活模式之间的互补信息，因此它能够带来更好的情感识别性能。为了显示空洞全卷积网络的优越性，本节还用其它模型实现了情感分类器，例如一维的深度模型CNN以及浅层模型决策树(DecisionTree，DT)和随机森林(RandomForest，RF)。CNN采用与上述相同的参数配置，DT和RF的最优参数采用交叉验证的网格搜索法来确定。DT的最大深度设置为10，其它参数采用默认设置。RF可以检测到训练过程中特征之间的相互影响，其最大深度设置为6。通过对深度模型(CNN)和浅层模型(DT和RF)的比较，说明了使用B2特征重排时深度表示学习的优势，相应的结果如表 3.4所示。值得注意的是，三维特征表示带来了更好的性能，因为它补充了额外的通道间，频带间和不同激活模式之间的互补信息等先验知识用于脑电情感识别。因此，用18×18×3的三维脑电特征阵列作为输入来验证空洞全卷积网络和SNR的有效性。此外，空洞卷积被用来让每个卷积的输出包含更大范围的脑电特征信息而不用改变参数的数量。空洞率(表示为D) 使用斐波那契序列项，这有助于通过提供较低的空洞率增加来在一定程度上缓解网格划分问题。从表3中可以看出，当D等于2时可以达到最好的性能，此时4×4的卷积核就等同于9×9 的卷积核，它与脑电电极网格的大小正好相等。在此基础上，通过在网络的损失函数中加入谱范数正则化项来减少其对扰动的EEG特征的敏感性，并进一步提高脑电情感识别的性能。

表3在DEAP数据集上使用不同分类模型时的分类准确性

Table 3 Classification accuracies when using different models.

Claims

S5、将步骤S4所得到的三维脑电特征阵列输入到DFCN中进行训练，并引入谱范数正则化项，最终使用softmax分类器进行情感分类。

2.根据权利要求1所述的一种基于三维特征和空洞全卷积网络的脑电情感识别***，其特征在于：S1所述收集到的脑电信号样本来自多模态数据集DEAP和DREAMER；所述收集到的脑电信号样本包含四种连续情感，分别为：高/低valence，高/低arousal，高/低dominance,高/低liking；所述收集到的脑电信号样本包含五个频段，分别为Delta,Theta,Alpha,Beta,Gamma；所述收集到的脑电信号样本需要先经过预处理移除眼电伪迹，并用带通滤波器过滤出4.0-45Hz的脑电信号；所述预处理后的脑电信号的采样频率是128Hz；所述预处理后的脑电信号使用巴特沃斯滤波器来将所述脑电信号分解到五个不同的频段上。

3.根据权利要求1所述的一种基于三维特征和空洞全卷积网络的脑电情感识别***，其特征在于：S2所述从每个帧中提取不同频段上各个电极通道的脑电情感包含时域特征Kurtosis(K)，频域特征Power(P)，时频域特征Differential Entropy(DE)，所述时域特征K可以被定义为，