CN114209323B

CN114209323B - 一种识别情绪的方法以及基于脑电数据的情绪识别模型

Info

Publication number: CN114209323B
Application number: CN202210069138.1A
Authority: CN
Inventors: 陈益强; 翁伟宁; �谷洋; 王记伟
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2024-05-10
Anticipated expiration: 2042-01-21
Also published as: CN114209323A

Abstract

本发明实施例提供了一种识别情绪的方法以及基于脑电数据的情绪识别模型，其中，情绪识别模型包括：空间矩阵构造模块，用于根据多个时间片中的每个时间片获得的用户的脑电信号生成第一空间矩阵，得到多个第一空间矩阵；空间特征提取模块，用于对多个第一空间矩阵中每个第一空间矩阵分别利用注意力机制计算每行以及每列的注意力权值，并根据每个第一空间矩阵的每行以及每列的注意力权值获得多个第二空间矩阵；时空特征融合模块，用于提取多个第二空间矩阵间的时序关联特征，根据多个第二空间矩阵以及对应的时序关联特征，得到多个时空表征向量；情绪识别模块，用于根据多个时空表征向量确定用户的情绪。

Description

一种识别情绪的方法以及基于脑电数据的情绪识别模型

技术领域

本发明涉及生理数据挖掘领域，具体来说涉及心理状态检测领域，更具体地说，涉及一种识别情绪的方法以及基于脑电数据的情绪识别模型。

背景技术

基于可穿戴设备的生理健康检测是当今医疗行业和健康领域的发展重点，且不同的可穿戴设备(例如，健康手环、智能手表、血压血糖检测设备等相关设备)被广泛应用于健康管理。而针对心理健康的检测及管理领域仍然保持空白，心理健康是除生理健康外的重要健康内容，其直接影响人们的情绪状态以及心理状态。心理健康检测包含了医学、心理学以及数据分析等多领域内容，通过医学定义、生理状态分析、各类行为信号以及生理信号计算以及情绪状态预测、检测等技术能够为用户心理监控、不良心理状态预警等应用实现技术支持，成为心理健康检测的重要途径和方法。

情绪识别是心理状态检测的重要内容，情绪是个体与外界进行交互产生的心理状态。多模态生理数据可被应用于计算情绪状态，包括脑电图信号、肌肉电信号、皮肤电阻率等生理信号以及行为、表情、手势等行为信号。而在多模态数据中，脑电信号由于其具有的难伪装性、情绪直接关联性和易采集性等特点成为计算情绪的首要方法。现有技术仅关注脑电信号的时间特征(例如公开号为CN112364697A的专利申请文献)或者空间特征(例如公开号为CN112990008A的专利申请文献)，导致情绪识别的精度不高。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种识别情绪的方法以及基于脑电数据的情绪识别模型。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种基于脑电数据的情绪识别模型，包括：空间矩阵构造模块，用于根据多个时间片中的每个时间片获得的用户的脑电信号生成第一空间矩阵，得到多个第一空间矩阵；空间特征提取模块，用于对多个第一空间矩阵中每个第一空间矩阵分别利用注意力机制计算每行以及每列的注意力权值，并根据每个第一空间矩阵的每行以及每列的注意力权值获得多个第二空间矩阵；时空特征融合模块，用于提取多个第二空间矩阵间的时序关联特征，根据多个第二空间矩阵以及对应的时序关联特征，得到多个时空表征向量；情绪识别模块，用于根据多个时空表征向量确定用户的情绪。

在本发明的一些实施例中，所述第一空间矩阵是将相应时间片的用户的脑电信号经过数据预处理后按照采集脑电信号的多个电极的空间分布生成，其中，所述数据预处理包括数据滤波处理、和/或数据去伪迹处理和/或数据去基线化处理，相应时间片对应的第一空间矩阵中的数值为经数据预处理后的该时间片内相应通道采集的脑电信号的通道方差。

在本发明的一些实施例中，所述第二空间矩阵是将对应第一空间矩阵中每个数据分别与其所在行对应的注意力权值相乘并与其所在列对应的注意力权值相乘得到。

在本发明的一些实施例中，所述空间特征提取模块包括：包括第一全连接网络的第一全连接网络模块，所述第一全连接网络模块被配置为：将第一空间矩阵的每行数据的均值的拼接向量输入第一全连接网络进行处理，得到第一全连接网络的输出，以及将第一全连接网络的输出进行Softmax计算后得到该第一空间矩阵的每行的注意力权值；以及包括第二全连接网络的第二全连接网络模块，所述第二全连接网络模块被配置为：将第一空间矩阵的每列数据的均值的拼接向量输入第二全连接网络进行处理，得到第二全连接网络的输出，以及将第二全连接网络的输出进行Softmax计算后得到该第一空间矩阵的每列的注意力权值。

在本发明的一些实施例中，所述时空特征融合模块包括堆叠的多个编码网络，每个编码网络的输入依次经过该编码网络的自注意力机制层、前馈层以及残差层的处理；其中，首个编码网络的输入为多个空间表征序列，每个空间表征序列为对应第二空间矩阵中各行对应的数据依次拼接得到，后续的编码网络的输入为其前一个编码网络输出的中间的时空表征向量，最后一个编码网络输出最终的时空表征向量。

在本发明的一些实施例中，所述自注意力机制层为单向的自注意力机制层，其中，单向的自注意力机制层被配置为：在时间片对应序列之间的注意力关系时，计算当前的时间片对应序列与其前向的时间片对应序列之间的注意力关系，以及当前的时间片对应序列与自身的注意力关系，而不计算当前的时间片对应序列与后向的时间片对应序列的注意力关系。

在本发明的一些实施例中，所述情绪识别模型是经以下方式训练得到：获取多个训练样本，每个训练样本包括多个时间片对实验人员采集的脑电信号以及每个时间片对应的情绪标签；利用多个训练样本训练情绪识别模型输出各训练样本中实验人员在相应时间片对应的情绪，根据对相应训练样本输出的多个情绪以及对应的情绪标签计算损失值，利用损失值更新空间特征提取模块、时空特征融合模块以及情绪识别模块的参数。

根据本发明的第二方面，提供一种识别情绪的方法，所述方法包括：获取脑电采集设备在多个时间片采集的用户的脑电信号；将多个时间片的用户的脑电信号输入基于第一方面所述的情绪识别模型，输出用户在每个时间片的情绪。

在本发明的一些实施例中，每个时间片的情绪为用户的瞬时情绪，所述方法还包括：基于用户在多个时间片的瞬时情绪以及各瞬时情绪对应的概率，以软投票的方式确定用户的长期情绪。

根据本发明的第三方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储可执行指令；所述一个或多个处理器被配置为经由执行所述可执行指令以实现第二方面所述方法的步骤。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的基于脑电数据的情绪识别模型的模块结构示意图；

图2为根据本发明实施例的基于脑电数据的情绪识别模型进行情绪识别的过程示意图；

图3为国际标准10-20***中的脑电电极布置情况以及空间电极矩阵与之的对应情况；

图4为根据本发明实施例的基于脑电数据的情绪识别模型的数据处理示意图；

图5根据本发明实施例的基于脑电数据的情绪识别模型中单向的自注意力机制层的示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，现有技术仅关注脑电信号的时间特征或者空间特征，导致情绪识别的精度不高。本发明根据脑电信号构造第一空间矩阵，基于第一空间矩阵自身的数据计算每行以及每列的注意力权值，并用以计算第二空间矩阵，从而能够针对不同的个体差异，通过每行以及每列的注意力权值反映当前个体的脑电信号的空间关联度，以得到能更准确反映其情绪的第二空间矩阵；并且，本发明还根据第二空间矩阵提取时序关联特征，根据多个第二空间矩阵以及对应的时序关联特征，得到多个时空表征向量，以在考虑空间关联特征以及时间关联特征的条件得到时空表征向量，从而更准确地识别用户的情绪。

根据本发明的一个实施例，参见图1，本发明提供一种基于脑电数据的情绪识别模型，包括：空间矩阵构造模块10、空间特征提取模块20、时空特征融合模块30以及情绪识别模块40。为了提取时序关联特征，以预定的多个时间片对应的脑电信号组成输入数据，依次经空间矩阵构造模块10、空间特征提取模块20、时空特征融合模块30以及情绪识别模块40的处理，得到每个时间片对应情绪。一个示意性的脑电信号(也可称脑电数据)采集以及处理的过程参见图2，包括：利用脑电采集设备中的多个电极进行多维数据采集，得到脑电信号；利用空间矩阵构造模块10按照电极的空间排布构造第一空间矩阵，利用空间特征提取模块20基于交叉注意力机制计算第二空间矩阵(对应于根据每个第一空间矩阵的每行以及每列的注意力权值获得第二空间矩阵)，利用时空融合模块30提取时序关联特征并根据相应的第二空间矩阵计算时空表征向量，利用情绪识别模块40根据时空表征向量识别用户的情绪。例如，-1、0、1分别消极情绪、中性情绪、积极情绪。

为了便于理解，先介绍脑电采集设备采集脑电信号的过程。脑电采集设备有多种类型，一般来说，只要是按照特定的空间分布设置多个信号采集点(电极或其他类型的脑电采集传感器)的脑电采集设备采集的脑电信号，均适用本发明处理。作为示例，给出一个示意性的脑电采集设备(依据国际标准10-20***)的脑电电极布置情况(对应于电极的空间分布)，用于采样脑电信号的电极为氯化银电极，或者电极包括以氯化银和毛毡为材料的部件。电极采用生理盐水浸湿后按照国际标准10-20***的说明指定的空间分布方式布置并与用户的头皮相接触，以使所有电极均放置在标准定义的通道上并记录实时的脑电信号。图3a中小圆圈内的字母及数字指示电极名称，其中，字母代表的含义为：F：额叶(Frontallobe)、Fp：前额叶(Frontal poles)、T：颞叶(Temporal lobes)、O：枕叶(Occipitallobes)、P：顶叶(Parietal lobes)、C：中心部(Central)或感觉运动皮层(Sensorimotorcortex)、Z：零点(Zero)即左右脑中心。数字代表的含义为：用不同数字区分相应的电极，其中，左脑对应区域采用单数，右脑对应区域采用双数。更详细的电极名称含义可以参照公开的国际标准10-20***的说明。

根据本发明的一个实施例，空间矩阵构造模块10，用于根据多个时间片中的每个时间片获得的用户的脑电信号生成第一空间矩阵，得到多个第一空间矩阵。

为了降低一些无关或者弱相关的因素对情绪识别的影响，需要对脑电信号进行数据预处理，根据本发明的一个实施例，第一空间矩阵是将相应时间片的用户的脑电信号经过数据预处理后按照采集脑电信号的多个电极的空间分布生成，其中，所述数据预处理包括数据滤波处理、数据去伪迹处理以及数据去基线化处理。该实施例的技术方案至少能够实现以下有益技术效果：无关信号包括噪声数据、情绪无关数据以及对脑电信号造成严重干扰的环境基线，而本发明采用数据滤波、数据去伪迹及去基线化处理后，能够更好地去除无关或者弱相关的因素对情绪识别的影响，提高后续情绪识别的准确性。

根据本发明的一个实施例，数据滤波处理通过数据滤波算法以带通滤波器过滤脑电信号中的低频及高频数据，保留频率处于第一预定频率以及第二预定频率之间数据。例如，数据滤波算法以带通滤波器过滤低频及高频数据，以蕴含大量情绪相关信息的0.5HZ-70HZ频带作为保留的特征区间，其余频带中包含大量无关低通、高通噪声，予以去除，以降低无关的噪声数据对情绪识别的影响。

根据本发明的一个实施例，数据去伪迹处理包括对脑电信号以采集通道为单位进行通道归一化处理。通道归一化处理可缩小通道内的脑电信号绝对值并降低高锯齿形伪迹对低波形相关脑电数据的影响，示意性的数据去伪迹处理的计算方式如下：

其中，CR_i表示相应通道的第i采样点，CR_min表示该通道内的最小值，CR_max表示该通道内的最大值，C_i表示归一化计算后第i采样点的通道值。该实施例的技术方案至少能够实现以下有益技术效果：数据去伪迹处理旨在降低脑电信号中的干扰信息，例如，降低肌电信号及眼电信号对情绪识别的影响，从而提高情绪识别的准确性。

根据本发明的一个实施例，数据去基线化处理是将相应时间片对应的脑电信号减去利用多个脑电信号对应通道采集的基线信号计算的基线信号均值。其中，降低环境影响的去基线化方法，是将连续的脑电信号区分成为实验信号(相应时间片对应的脑电信号)和基线信号并做差，以减去环境因素的影响。由于脑电信号的特殊性以及情绪状态的特殊性，不同的测试环境因素会导致整体脑电信号的差异性，而不同的初始情绪状态会影响总体的情绪电位变化，降低整体的特征表征有效程度以及情绪识别精度。因此，利用去基线化处理，可减少环境因素在情绪识别中的影响。

由于实时采集的用户的脑电信号以及训练样本中的脑电信号可参考的基线信号的条件不同，可以分别设置对应的去基线化处理。

在本发明的一些实施例，对于实时采集的用户的脑电信号，可以利用预先存储的脑电采集设备对应的各通道的基线信号均值或者脑电采集设备在未接触用户的头皮前预定时长内采集的各通道的基线信号计算的基线信号均值进行数据去基线化处理。脑电采集设备例如是基于Emotiv Epoc+的多通道脑电采集传感器。

根据本发明的一个实施例，对于训练样本，可按照以下公式将训练样本中的数据分成基线信号、预测情绪用的脑电信号并分割时间片：

其中，XS为相应时间段内的脑电信号样本，而XB为时间段内基线信号，包括XE为时间段内的脑电信号(属于识别情绪所需的实验信号)，k1表示基线信号时间片数量，k为总时间片数。基线数据与实验数据的划分时间片长度一致，以便进行去基线计算。优选的，数据去基线化处理的计算公式如下：

i∈(k₁+1，k)。

其中，XB_j表示第j个时间片对应的基线信号，X′_i表示第i个时间片去基线化处理前的脑电信号。该公式通过计算各通道的基线信号均值用于减弱脑电信号中的环境因素的影响，可提供更准确的训练数据，改善模型的预测精度。

根据本发明的一个实施例，第一空间矩阵是将相应时间片的用户的脑电信号经过数据预处理后按照采集脑电信号的多个电极的空间分布生成，其中，所述数据预处理包括数据滤波处理、数据去伪迹处理以及数据去基线化处理，相应时间片对应的第一空间矩阵中的数值为经数据预处理后的该时间片内相应通道采集的脑电信号的通道方差。例如，假设采用前述国际标准10-20***，脑电电极布置情况与空间电极矩阵(空间矩阵)的对照关系可参照图3b，多个时间片对应的多个空间矩阵可参照图4，国际标准10-20***能够按照电极的空间布置生成9x9空间矩阵，空间矩阵中的每个位置基于相应空间电极采集的脑电数据填充，例如，将经过预处理的各个电极对应通道的脑电信号的通道方差作为通道特征并按照电极的空间分布填入空间矩阵的对应位置，将第一空间矩阵中没有对应电极的位置直接置零以稀疏化矩阵。

根据本发明的一个实施例，空间特征提取模块20，用于对多个第一空间矩阵中每个第一空间矩阵分别利用注意力机制计算每行以及每列的注意力权值，并根据每个第一空间矩阵的每行以及每列的注意力权值获得多个第二空间矩阵。由于有多个第一空间矩阵作为输入，针对每个第一空间矩阵生成一个第二空间矩阵，得到多个第二空间矩阵。优选的，第二空间矩阵是将对应第一空间矩阵中每个数据分别与其所在行对应的注意力权值相乘并与其所在列对应的注意力权值相乘得到。

为了分析每一个电极在整体空间矩阵中的空间特征，需要对所有的电极做信道注意力分析以获得其关联度权重，根据本发明的一个实施例，空间特征提取模块20包括：包括第一全连接网络的第一全连接网络模块，所述第一全连接网络模块被配置为：将第一空间矩阵的每行数据的均值的拼接向量输入第一全连接网络进行处理，得到第一全连接网络的输出，以及将第一全连接网络的输出进行Softmax计算后得到该第一空间矩阵中每行的注意力权值；以及包括第二全连接网络的第二全连接网络模块，所述第二全连接网络模块被配置为：将第一空间矩阵的每列数据的均值的拼接向量输入第二全连接网络进行处理，得到第二全连接网络的输出，以及将第二全连接网络的输出进行Softmax计算后得到该第一空间矩阵中每列的注意力权值。

根据本发明的一个实施例，每行的注意力权值以两层全连接网络计算，其计算公式如下所示：

w_l＝softmax(w₄×tanh(w₃×l+b₃)+b₄)；

其中，w₃为全连接网络中的第一层的权重参数、w₄为全连接网络中的第二层的权重参数，b₃为全连接网络中的第一层的偏置，b₄为全连接网络中的第二层的偏置，tanh为双曲正切激活函数，softmax为指数概率激活函数，l为第一空间矩阵的行均值向量(对应于每行数据的均值的拼接向量)。

优选的，每列的注意力权值以两层全连接网络计算，其计算公式如下所示：

w_c＝softmax(W₄×tanh(W₃×c+B₃)+B₄)

其中，W₃为全连接网络中的第一层的权重参数、W₄为全连接网络中的第二层的权重参数，B₃为全连接网络中的第一层的偏置，B₄为全连接网络中的第二层的偏置，tanh为双曲正切激活函数，softmax为指数概率激活函数，c为第一空间矩阵的列均值向量(对应于每列数据的均值的拼接向量)。

以上计算结果w_l包括生成的各行对应的注意力权值，w_c包括生成的各列对应的注意力权值。第一空间矩阵中相应位置的填充数据与其所在的每行、列的注意力权值相乘，即为对脑电电极的第二空间矩阵，其计算公式如下所示

其中，v_i，j为计算后得到的第二空间矩阵的第i行第j列的数据，表示数据所处的第i行的注意力权值，/>表示数据所处的第j列的注意力权值，S_i，j表示第一空间矩阵第i行第j列的数据(原填充的数据)，I表示空间矩阵的行号，J表示空间矩阵的列号。例如，若为国际标准10-20***，I＝9，J＝9，i∈(0，9)，j∈(0，9)，表示空间矩阵(第一空间矩阵和/或第二空间矩阵)的大小为10×10。该实施例的技术方案至少能够实现以下有益技术效果：本发明将行、列分开，分别按照行和列作为最小单位计算其交叉注意值(对应于每行、每列的注意力权值)，行脑区计算每行的均值，并将这些均值作为行表征计算注意力权值；列脑区计算每列均值，将这些均值作为列表征计算注意力权值。每个时间片生成的第二空间矩阵包含通道相似、关联特征，得到的空间特征更准确，有利于提高情绪识别的精确性。

根据本发明的一个实施例，时空特征融合模块30，用于提取多个第二空间矩阵间的时序关联特征，根据多个第二空间矩阵以及对应的时序关联特征，得到多个时空表征向量。根据本发明的一个实施例，时空特征融合模块30包括堆叠的多个编码网络，每个编码网络的输入依次经过该编码网络的自注意力机制层、前馈层以及残差层的处理；其中，首个编码网络的输入为多个空间表征序列，每个空间表征序列为对应第二空间矩阵中各行对应的数据依次拼接得到，后续的编码网络的输入为其前一个编码网络的输出的中间的时空表征向量，最后一个编码网络输出最终的时空表征向量。该实施例的技术方案至少能够实现以下有益技术效果：本发明通过自注意力机制层、前馈层以及残差层的处理，可以更好地向空间特征中注入时序特征，从而优化后续特征向量表达的精确性，提高情绪识别的精度。

根据本发明的一个实施例，多个编码网络可以基于Transformer模型来改造。Transformer模型(时序数据挖掘网络)包含编码器和解码器两大模块，编码器用于计算各空间表征序列的时间关联特征并生成时间表征向量，解码器用于解释生成的中间时序向量。本发明中不使用Transformer网络中的解码部分，因此可以只针对Transformer模型的编码器进行改造，下面对编码器进行详细解释。根据本发明的一个实施例，经改造的Transformer模型包括多个编码网络，不含原Transformer模型的解码器。其中，每个编码网络包括依次连接的自注意力机制层(或者称自注意力计算模块)、前馈层(或者称全连接模块)以及残差层(或者称残差连接模块)。自注意力机制层、前馈层和残差层依次连接构成一个编码网络。参见图4，多个编码网络(xN，表示N个编码网络堆叠，例如，N为4、6、8等)级联形成深度的编码器，即经改造的Transformer模型。经改进的Transformer模型的编码网络的输入和输出的数据格式一致，自注意力机制层、前馈层和残差层计算细粒度的时间依赖关系并形成相应表征，并在深层网络中保持了梯度和分布，以较少参数高效率地实现了时序特征挖掘并与空间特征融合。

根据本发明的一个实施例，在自注意力机制层中，多个第二时空矩阵被转换为空间表征序列按照其在时间维度中的前后顺序作为Transformer网络的输入，自注意力计算模块需要计算输入间的关联度，针对每个输入，采用三个矩阵计算关联度运算中的Q、K、V向量，其计算公式为：

Q_t＝W_Q×X_t；

K_t＝W_K×X_t；

V_t＝W_V×X_t；

其中，X_t表示第t个输入序列(应当理解，在多个编码网络的情况下，如果是首个编码网络，此处序列是指时间片t对应的空间表征序列；如果是后续的编码网络，此处序列是指其前一个编码网络对时间片t输出的时空表征向量)，而W_Q表示用于生成Q向量的参数矩阵、W_K表示用于生成K向量的参数矩阵、W_V表示用于生成V向量的参数矩阵。Q_t、K_t、V_t分别为关联度计算中时间片t对应的询问向量、键向量、值向量，×符号为矩阵间的标准乘法运算。其中询问向量用于当前序列与其余序列的相似性计算，而键向量表示矩阵的索引，用于与询问向量点乘计算形成相似度量，值向量用于在相似得分中生成空间表征序列表征向量，相似得分的计算公式如下所示：

i，j∈(0，n)；

其中，Score_ij表示时间片i对应的序列对时间片j对应的序列的相似性得分，n表示序列总数，dK_j为时间片j对应的序列的键向量维度，Q_i表示时间片i对应的序列的询问向量，K_j表示时间片j对应的序列的键向量。

根据本发明的一个实施例，通过自注意力机制层按照空间表征序列的时间顺序计算中间时序向量。根据本发明的一个实施例，自注意力机制层通过相似性得分和值向量计算中间时序向量。可选的，自注意力机制层生成中间时序向量的计算方式如下：

其中，XN_t表示时间片t对应的序列的中间时序向量(中间时序表征)，Score_t，t表示时间片t对应序列与自身的相似性得分，Score_t，j表示时间片t与时间片j对应的序列之间的相似性得分，e表示自然对数，V_t为时间片t对应序列的值向量。该公式即采用softmax激活函数计算与不同序列的相似性指数占比并生成权重，以加权和的值向量作为与所有其余序列计算相似性后的中间时序向量。

根据本发明的一个实施例，为了降低计算量，本发明的经改造的Transformer模型的编码网络可将原Transformer模型的编码器中的多头注意力机制改为单头注意力机制。优选的，改为单头注意力机制的情况下，可将Transformer模型的编码器中的权重参数的规格进行调整以适应空间表征序列，使得经过自注意力机制层得到的中间时序向量相对于空间表征序列在数据格式上保持不变，即每一个空间表征序列生成一个格式完全相同的中间时序向量。

根据本发明的一个实施例，前馈层用于对自注意力机制层输出的中间时序向量进行非线性变换，生成中间时序向量。优选的，前馈层生成中间时序向量的计算公式如下所示：

g_t＝W₂(Relu(W₁·XN_t+b₁))；

其中，g_t表示时间片t对应的经过前馈层后生成的中间时序向量，W₁表示前馈层的第一层的权重参数，W₂表示前馈层的第二层的权重参数，b₁表示前馈层的第一层的偏置，XN_t表示时间片t对应的经自注意力机制层生成中间时序向量，Relu为非线性激活函数。Relu用于提高算法的非线性表征能力。

根据本发明的一个实施例，残差层(残差连接层)用于对其所属编码网络的输入以及其所属编码网络的前馈层的输出进行残差连接以及层正则化，输出时空表征向量。应当理解，首个编码网络的输入是多个空间表征序列，后续的编码网络的输入为其前一个编码网络输出的中间的时空表征向量。本发明通过残差层对数据进行跳层连接(残差连接)以及层正则化，可以提高序列运算梯度。优选的，残差层的计算公式如下所示：

R_t＝LayerNorm(g_t+XN_t)；

其中，R_t为表示残差层对时间片t的输出(也是其所属编码网络对时间片t的输出)，g_t表示残差层所属编码网络的前馈层对时间片t的输出，XN_t表示残差层所属编码网络的输入，LayerNorm表示层正则化。层正则化例如是对该层的所有神经元执行方差均值的正则化。该实施例的技术方案至少能够实现以下有益技术效果：残差层可防止算法的梯度消失造成训练困难，保持深层网络的梯度和数据分布

以上经改造的Transformer模型中，自注意力机制层并未改造，即自注意力机制层仍采用双向的自注意力机制层。双向的自注意力机制层中，会考虑当前的时间片t与其之前以及之后的时间片之间的注意力关系，但是，经过发明人实验和分析发现，由于用户当前的情绪通常只与前面经历的事件或者前面产生的情绪有关，与后续情绪无关或者关联较弱。根据本发明的一个实施例，自注意力机制层优选为单向的自注意力机制层，其中，单向的自注意力机制层被配置为：在各时间片对应序列之间的注意力关系时，计算当前的时间片对应序列与其前向的时间片对应序列之间的注意力关系，以及当前的时间片对应序列与自身的注意力关系；而不计算当前的时间片对应序列与后向的时间片对应序列的注意力关系。由此，屏蔽时间顺序上对当前的时间片计算特征时对后向的时间片的依赖性，即在计算注意力关系时，所有序列只与其前向序列计算依赖关系。参见图5，Q_t、K_t、V_t分别表示时间片t对应的查询向量、键向量、值向量，Q_t+1、K_t+1、V_t+1分别表示时间片t+1对应的查询向量、键向量、值向量。图5的虚线部分，表示被屏蔽的数据流。若为双向的自注意力机制层，则虚线部分为实线，表示考虑了当前时间片的序列与其后向的时间片的序列之间的注意力关系。为了进一步说明，下面以公式来解释，若采用双向的自注意力机制层，自注意力机制层生成中间时序向量的计算方式为：

即：计算了时间片t与所有向量的注意力相关性。

若采用单向的自注意力机制层，自注意力机制层生成中间时序向量的计算方式为：

从公式的差异可见，其中只计算时间片t与其之前时间片(前向的时间片)的注意力关系，而不考虑与时间片t之后的时间片(后向的时间片)之间的注意力关系(即屏蔽了后续的时间片)。例如，假设一次输入10个时间片，假设当前的时间片为时间片4，则计算时间片4对应序列与时间片0-4对应序列之间的注意力关系，而不计算时间片4对应序列与时间片5-9对应序列之间的注意力关系。

该实施例的技术方案至少能够实现以下有益技术效果：由于情绪识别与句子翻译的场景不同，情绪识别的场景下，前面的情绪对当前的情绪的影响更强，而在后的情绪的影响相对更弱，因此，本实施例改为单向的自注意力机制层，从而提高模型对情绪识别的精度。

根据本发明的一个实施例，应当理解，除用已有的Transformer模型进行改造外，也可直接参照本发明实施例的说明而构造相应的模型结构，以实现基于脑电数据的情绪识别模型。

根据本发明的一个实施例，训练数据可以采用SEED数据集和/或DEAP数据集。在训练数据中，情绪以视频刺激诱发，视频包含相关情绪标签，且视频结束后对用户进行问卷反馈真实情绪，以视频标签与问卷标签一致样本作为可行训练样本。训练数据以数据矩阵和对应标签的形式构成字典存储，其存储为：S_i＝(X_i，l_i)，X_i∈R^{c×((bt+dt)*r)}，l_i∈{-1，0，1}，其中，S_i为第i个样本的存储数据结构，X_i为格式为[c，((bt+dt)*r)]的数据矩阵，c为电极总数，r为信号采样率，bt表示情绪诱发前的记录时长，dt表示情绪诱发过程中的记录时长，bt对应环境下的基线时间，用于记录基线信号，dt对应诱发情绪记录脑电信号的时间，l_i为该样本i标签。标签用-1、0、1分别表示消极情绪、中性情绪和积极情绪三种。如上所示数据采集方法将所有样本以矩阵存储，为模型训练提供数据基础。

根据本发明的一个实施例，情绪识别模块40，用于根据多个时空表征向量确定用户的情绪。根据本发明的一个实施例，情绪识别模块40包括多层的全连接网络。例如，情绪识别模块40包括两层的全连接网络，计算公式为：

E_t＝softmax(w₆×Relu(w₅×R_t+b₅)+b₆)；

其中，w₅、w₆分别为情绪识别模块的全连接网络的第一层、第二层的权重参数，b₅、b₆分别为情绪识别模块的全连接网络的第一层、第二层的偏置，Relu为非线性激活函数，softmax为全连接网络的输出层的概率激活函数以生成各情绪识别概率。E_t表示识别出的用户在时间片t属于相应情绪的概率。

根据本发明的一个实施例，情绪识别模型是经以下方式训练得到：获取多个训练样本，每个训练样本包括多个时间片对实验人员采集的脑电信号以及每个时间片对应的情绪标签；利用多个训练样本训练情绪识别模型输出各训练样本中实验人员在相应时间片对应的情绪，根据对相应训练样本输出的多个情绪以及对应的情绪标签计算损失值，利用损失值更新空间特征提取模块20、时空特征融合模块30以及情绪识别模块40的参数。根据本发明的一个实施例，模型训练时以交叉熵损失函数计算损失值。即：以交叉熵损失函数作为优化目标训练模型。交叉熵损失函数计算公式如下：

其中，E_t表示识别出的用户在时间片t属于相应情绪的概率，Y_t，j表示标签中指示的用户在时间片t所属的情绪类别，T表示当前用于更新模型参数的时间片数量，K表示情绪的类别数量。例如，情绪的类别数量为3类，分别为消极情绪、中性情绪和积极情绪。原始的标签用-1、0、1分别表示消极情绪、中性情绪和积极情绪。利用交叉熵损失函数根据实验人员在相应时间片的情绪识别结果与真实情绪标签，即可计算得到损失值。应当注意的是，由于是计算交叉熵损失，需要将原始的标签转换为交叉熵损失所需要的用0、1表示的多通道标签。即：Y_t，j为其标签对应的独热向量(One-hot)。例如，多通道标签对应于消极情绪、中性情绪和积极情绪的通道依次排列时，原始的标签中的-1需转换为1、0、0；0需要转换为0、1、0；1需要转换0、0、1，以适用于多分类的交叉熵损失函数计算损失值。

根据本发明的一个实施例，本发明还提供一种识别情绪的方法，包括：获取在多个时间片的用户的脑电信号，输入基于前述相应实施例的情绪识别模型，输出用户在每个时间片的情绪。根据本发明的一个实施例，每个时间片的情绪为用户的瞬时情绪，所述方法还包括：基于用户在多个时间片的瞬时情绪以及各瞬时情绪对应的概率，以软投票的方式确定用户的长期情绪。瞬时情绪(或者称：短期情绪)识别即为各时间片对应的情绪识别结果，而长期情绪预测通过样本中的短期情绪软投票生成，即样本短期情绪中的多数情绪作为样本的长期情绪(或者称诱发情绪)，或者，以样本的短期情绪中平均概率最大的情绪作为样本的长期情绪。

根据本发明的一个实施例，情绪识别模型的训练以及用于识别情绪的过程包括以下步骤：

步骤S1：模型训练采用以脑电采集设备(基于Emotiv Epoc+多通道脑电采集传感器)在情绪诱发条件下采样的带标签多通道脑电信号以及SEED、DEAP脑电基准数据集作为训练数据。其中，原始数据需进行降噪、去伪迹以及去除环境基线影响。数据降噪滤去信号中的非脑电以及情绪不相关部分信号，去伪迹算法减少采样过程中的眼电、肌电以及呼吸信号的采集对脑电信号造成干扰，去基线化去除数据中的环境因素(如气温、湿度、体温等)在信号中的不稳定性。数据预处理在模型运算前完成，数据按照时间顺序分割时间片并等待模型运算。

步骤S2：情绪识别模型在维持数据时间顺序的情况下读入训练样本中各时间片对应的脑电数据。确保训练的准确性。首先实现数据的空间表征，取某一时间内的指定数量时间片按照时间维度排列形成样本，每个时间片为多通道短时间的采样矩阵，按照电极通道的空间分布填入空间矩阵(对应于第一空间矩阵)，交叉注意力机制在矩阵的各维度计算并生成注意力权值矩阵，以加权空间矩阵(对应于第二空间矩阵)作为信号空间表征。该方法通过空间关联度计算生成加权空间矩阵，其中包含了电极及脑区在不同情绪诱发的激活状态，能够直观反映个体在情绪诱发中的差异性和相似性，实现针对用户情绪认知能力差异的分析和记录。

步骤S3：利用训练样本训练情绪识别模型，输出各训练样本中实验人员在相应时间片对应的情绪，根据对相应训练样本输出的多个情绪以及对应的情绪标签计算损失值，利用损失值更新空间特征提取模块、时空特征融合模块以及情绪识别模块的参数，其中，采用交叉熵损失函数来计算损失值，并反复迭代S2、S3步骤直至模型收敛。

步骤S4：经训练的情绪识别模型通过历史情绪状况识别短时间内的瞬时情绪以及长时间内的持续情绪状态(对应于长期情绪)。针对用户的实时情绪监测，实时监测个体脑电信号并以时间窗口生成情绪数据，时间窗口在时间维度上更新数据实现实时的瞬时情绪和/或持续情绪状态识别。

为了验证本发明的效果，发明人基于SEED数据集(SJTU Emotion EEG Dataset)进行了实验。

对照技术方案1：现有的Cascade CNN模型，采用级联的卷积神经网络(CNN)，使用约12层卷积层，只关注数据的空间特征；其对情绪的平均识别精度为69.2243％；

对照技术方案2：现有的Cascade LSTM模型，级联的长短期记忆网络(LSTM)，使用了6层长短期记忆网络，只关注数据的时间特征；其对情绪的平均识别精度为75.4227％。

本发明的实施方案1：基于脑电数据的情绪识别模型，采用采用了堆叠的6个编码网络，其中采用单向的自注意力机制层；

本发明的实施方案2：基于脑电数据的情绪识别模型，采用采用了堆叠的6个编码网络，其中采用双向的自注意力机制层。

本发明的实施方案对不同用户的情绪的识别精度以及平均识别精度如下表所示，可看到，本发明的实施方案1以及实施方案2都比以上对照技术方案1、2更优。并且，在采用单向的自注意力机制层的情况下，模型的识别效果相对更好。总的来说，本发明采用轻量级的神经网络模型进行训练，提高了模型的泛化能力和普适效果并防止训练过程中的过拟合，保证跨用户条件下的高精度情绪识别。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于脑电数据的情绪识别模型，其特征在于，包括：

空间矩阵构造模块，用于根据多个时间片中的每个时间片获得的用户的脑电信号生成第一空间矩阵，得到多个第一空间矩阵；

空间特征提取模块，用于对多个第一空间矩阵中每个第一空间矩阵分别利用注意力机制计算每行以及每列的注意力权值，并根据每个第一空间矩阵的每行以及每列的注意力权值获得多个第二空间矩阵，所述第二空间矩阵是将对应第一空间矩阵中每个数据分别与其所在行对应的注意力权值相乘并与其所在列对应的注意力权值相乘得到，其中，所述空间特征提取模块包括：

包括第一全连接网络的第一全连接网络模块，所述第一全连接网络模块被配置为：将第一空间矩阵的每行数据的均值的拼接向量输入第一全连接网络进行处理，得到第一全连接网络的输出，以及将第一全连接网络的输出进行Softmax计算后得到该第一空间矩阵中每行的注意力权值；以及

包括第二全连接网络的第二全连接网络模块，所述第二全连接网络模块被配置为：将第一空间矩阵的每列数据的均值的拼接向量输入第二全连接网络进行处理，得到第二全连接网络的输出，以及将第二全连接网络的输出进行Softmax计算后得到该第一空间矩阵中每列的注意力权值；

时空特征融合模块，用于提取多个第二空间矩阵间的时序关联特征，根据多个第二空间矩阵以及对应的时序关联特征，得到多个时空表征向量；

情绪识别模块，用于根据多个时空表征向量确定用户的情绪。

2.根据权利要求1所述的情绪识别模型，其特征在于，所述第一空间矩阵是将相应时间片的用户的脑电信号经过数据预处理后按照采集脑电信号的多个电极的空间分布生成，其中，所述数据预处理包括数据滤波处理、和/或数据去伪迹处理和/或数据去基线化处理，相应时间片对应的第一空间矩阵中的数值为经数据预处理后的该时间片内相应通道采集的脑电信号的通道方差。

3.根据权利要求1所述的情绪识别模型，其特征在于，所述时空特征融合模块包括堆叠的多个编码网络，每个编码网络的输入依次经过该编码网络的自注意力机制层、前馈层以及残差层的处理；

其中，首个编码网络的输入为多个空间表征序列，每个空间表征序列为对应第二空间矩阵中各行对应的数据依次拼接得到，后续的编码网络的输入为其前一个编码网络输出的中间的时空表征向量，最后一个编码网络输出最终的时空表征向量。

4.根据权利要求3所述的情绪识别模型，其特征在于，所述自注意力机制层为单向的自注意力机制层，其中，单向的自注意力机制层被配置为：在时间片对应序列之间的注意力关系时，计算当前的时间片对应序列与其前向的时间片对应序列之间的注意力关系，以及当前的时间片对应序列与自身的注意力关系，而不计算当前的时间片对应序列与后向的时间片对应序列的注意力关系。

5.根据权利要求1-4之一所述的情绪识别模型，其特征在于，所述情绪识别模型是经以下方式训练得到：

获取多个训练样本，每个训练样本包括多个时间片对实验人员采集的脑电信号以及每个时间片对应的情绪标签；

利用多个训练样本训练情绪识别模型输出各训练样本中实验人员在相应时间片对应的情绪，根据对相应训练样本输出的多个情绪以及对应的情绪标签计算损失值，利用损失值更新空间特征提取模块、时空特征融合模块以及情绪识别模块的参数。

6.一种识别情绪的方法，其特征在于，所述方法包括：

获取脑电采集设备在多个时间片采集的用户的脑电信号；

将多个时间片的用户的脑电信号输入基于权利要求1-5之一所述的情绪识别模型，输出用户在每个时间片的情绪。

7.根据权利要求6所述的方法，其特征在于，每个时间片的情绪为用户的瞬时情绪，所述方法还包括：

基于用户在多个时间片的瞬时情绪以及各瞬时情绪对应的概率，以软投票的方式确定用户的长期情绪。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

存储器，其中存储器用于存储可执行指令；

所述一个或多个处理器被配置为经由执行所述可执行指令以实现权利要求6或7所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求6或7所述方法的步骤。