CN115169507A

CN115169507A - 类脑多模态情感识别网络、识别方法及情感机器人

Info

Publication number: CN115169507A
Application number: CN202211092432.0A
Authority: CN
Inventors: 胡滨; 李祎
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2022-10-11
Anticipated expiration: 2042-09-08
Also published as: CN115169507B

Abstract

本发明公开了一种类脑多模态情感识别网络、识别方法及情感机器人，其中，类脑多模态情感识别方法包括提取视频表情特征和语音情感特征，计算与音频强关联的视频特征和与视频强关联的音频特征，拼接视频表情特征和语音情感特征，得到原始拼接特征，计算模态m的多头自注意力特征和模态m的多头跨模态强关联特征，对所有头部的同类特征进行拼接，得到第一至第四拼接特征，将第一至第四拼接特征分别输入双向长短期记忆网络后，拼接所有特征得到统一特征向量，基于统一特征向量进行情感分类识别。本发明通过改进多模态特征融合过程，通过相同头部内部特征融合、不同头部外部特征融合后再进行特征拼接，最终提高了情感识别结果的鲁棒性和精准率。

Description

类脑多模态情感识别网络、识别方法及情感机器人

技术领域

本发明属于类脑智能与情感计算技术领域，更具体地，涉及一种类脑多模态情感识别网络、识别方法及情感机器人。

背景技术

图1 展示的是一个典型面部表情识别***的结构，主要由3部分组成：人脸检测、表情特征提取、分类器。心理学研究发现，在人类的情感表达中，面部表情约占比55%，语音和说话内容分别占38%与7%。现有深度学习方法在面部表情识别方面取得了重要进展，然而，单模态识别***面临情感解释不全面、分类不准确等局限，限制了情感机器人的应用。虽然也有一些文献提出了融合视觉和听觉的多模态情感识别方法，受融合方法的限制，导致现有情感识别方法在准确率和鲁棒性等方面无法满足动态场景下人机交互、临床诊断的使用要求，依然限制了情感机器人的应用与制备。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种类脑多模态情感识别网络、识别方法及情感机器人，其目的在于对多模态融合方法进行改进，由此提高情感识别的鲁棒性及准确率。

为实现上述目的，按照本发明的一个方面，提供了一种类脑多模态情感识别方法，包括：

提取视频表情特征

和语音情感特征

；

融合视频表情特征

和语音情感特征

，得到与音频强关联的视频特征

和与视频强关联的音频特征

；

拼接视频表情特征

和语音情感特征

，得到原始拼接特征

；

计算模态m的多头自注意力特征

，其中，m取a或v，

为头部序号，

，

、

、

分别为特征

在n种不同转换矩阵下的Query、Key、 Value矩阵，

为Query矩阵的维度；

计算模态m的多头跨模态强关联特征

，其中，

取

或

，

为特征

在n种不同转换矩阵下的Query矩阵，

和

分别为特征

在n种不同转换矩阵下的Key、Value矩阵；

对所有头部的同类特征进行拼接，得到第一至第四拼接特征

、

、

、

，其中，

，

；

将第一至第四拼接特征分别输入双向长短期记忆网络后，拼接所有特征得到统一特征向量，基于统一特征向量进行情感分类识别。

在其中一个实施例中，

计算与音频强关联的视频特征

的过程包括：

将特征

依次经Relu激活函数和Sigmoid激活函数处理，得到模态

的强关联权重

；

将特征

与强关联权重

相乘，得到中间特征

；

计算与音频强关联的视频特征

；

计算与视频强关联的音频特征

的过程包括：

将特征

依次经输入Relu激活函数和Sigmoid激活函数处理，得到模态

的强关联权重

；

将特征

与强关联权重

相乘，得到中间特征

；

计算与视频强关联的音频特征

；

其中，

和

分别为特征

和特征

的Query矩阵，

和

分别为特征

的 Key、Value矩阵，

和

分别为特征

的Key、Value矩阵。

在其中一个实施例中，所述双向长短期记忆网络为改进的残差双向长短期记忆网络，包括：上层双向长短期记忆网络和下层双向长短期记忆网络，输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和，得到改进的残差双向长短期记忆网络的输出结果。

在其中一个实施例中，视频表情特征的提取过程包括：

先采用多任务级联卷积神经网络对人脸图像进行特征点定位；

再采用嵌入残差通道空间注意力模块的神经网络提取视频表情特征；

其中，嵌入残差通道空间注意力模块嵌于神经网络每个池化层之前，嵌入残差通道空间注意力模块包括通道注意力模块和空间注意力模块以及求和模块，其中，

通道注意力模块用于对输入特征依次进行全局平均池化、全连接和sigmoid激活函数处理后再与输入特征相乘，输出通道注意力特征

；

空间注意力模块用于提取输入特征的单一通道特征后，依次对所提取的每个单一通道特征进行全局平均池化、最大池化、卷积、sigmoid激活函数处理并拼接所有经处理后的单一通道特征，输出空间注意力特征

；

求和模块用于对输出通道注意力特征和空间注意力特征进行计算，得到嵌入残差通道空间注意力模块的输出结果

，其中，

、

和

均为设定的求和权重。

在其中一个实施例中，多任务级联卷积神经网络包括依次连接的提议网络、细化网络和输出网络，其中，

提议网络为全卷积网络，用于确定候选区域；

细化网络相比于所述提议网络在最后增加全连接层，用于使用边界框回归进行特征标定；

输出网络相比于所述细化网络在中间增加一个卷积层，用于对人脸细节特征进行处理，标记出脸部关键特征点。

在其中一个实施例中，语音情感特征的提取过程包括：

将音频信号转换为梅尔频率倒谱系数向量；

将梅尔频率倒谱系数向量输入所述改进的残差双向长短期记忆网络，更新系数向量；

将更新后的系数向量输入音频卷积网络，提取语音情感特征。

在其中一个实施例中，将音频信号转换为梅尔频率倒谱系数向量，包括：

对音频信号依次进行预加重、分帧和加窗处理；

对每一帧加窗后的特征通过快速傅里叶变换得到频谱；

将频谱输入Mel滤波器组，得到Mel频谱；

对Mel频谱进行倒谱分析，得到梅尔频率倒谱系数向量。

按照本发明的另一方面，提供了一种类脑多模态情感识别网络，包括：

视频表情特征提取网络和语音情感特征提取网络，分别用于提取视频表情特征

和语音情感特征

；

两阶段注意力融合网络，用于对视频表情特征和语音情感特征进行融合处理，输出第一至第四拼接特征

、

、

、

；

双向长短期记忆网络，用于获取第一至第四拼接特征前后时刻的信息，更新第一至第四拼接特征；

第一特征拼接网络，用于拼接更新后的第一至第四拼接特征，得到统一特征向量；

分类网络，用于基于统一特征向量进行情感分类识别；

其中，两阶段注意力融合网络包括第一通道特征融合网络和第二空间特征融合网络：

第一通道特征融合网络用于融合视频表情特征

和语音情感特征

，得到与音频强关联的视频特征

和与视频强关联的音频特征

；

第二空间特征融合网络包括向量拼接模块和多头注意力模块：

向量拼接模块用于拼接视频表情特征

和语音情感特征

，得到原始拼接特征

；

多头注意力模块包括多头自注意力特征提取模块和多头跨模态强关联特征提取模块，其中，

多头自注意力特征提取模块用于计算模态m的多头自注意力特征

，其中，m取a或v，

为头部序号，

，

、

、

分别为特征

在n种不同转换矩阵下的Query、Key、Value矩阵，

为Query矩阵的维度；

多头跨模态强关联特征提取模块用于计算模态m的多头跨模态强关联特征

，其中，

取

或

，

为特征

在n种不同转换矩阵下的 Query矩阵，

和

分别为特征

在n种不同转换矩阵下的Key、Value矩阵；

第二特征拼接网络，用于对所有头部的同类特征进行拼接，得到第一至第四拼接特征

、

、

、

，其中，

，

。

按照本发明的又一方面，提供了一种情感机器人，包括数据采集模块、情感识别模块和交互模块，其中，

数据采集模块用于采集测试者的情感视频数据；

所述情感识别模块具备上述的类脑多模态情感识别网络，用于根据所采集的人情感视频数据识别测试者的情感；

所述交互模块用于根据所述情感识别模块所识别出的情感做出相应的动作。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明在提取视频表情特征

和语音情感特征

之后，基于所提取的特征，执行以下三个方面的操作：第一方面计算跨模态强关联特征，得到与音频强关联的视频特征

和与视频强关联的音频特征

，第二方面对视频表情特征

和语音情感特征

进行拼接，得到原始拼接特征

，第三方面计算模态m的多头自注意力特征

。在得到与音频强关联的视频特征

和与视频强关联的音频特征

以及原始拼接特征

之后，又基于这些特征计算m的多头跨模态强关联特征

。最后，对音频情感的多头自注意力特征

进行拼接，得到第一拼接特征

，对视频表情的多头自注意力特征

进行拼接，得到第二拼接特征

，对音频情感的多头跨模态强关联特征

进行拼接，得到第三拼接特征

，对视频表情的多头跨模态强关联特征

进行拼接，得到第四拼接特征

。最后将四类拼接经过双向长短期记忆网络、特征拼接和分类器后，得到情感分类识别结果。本发明通过改进多模态特征融合过程，通过相同头部内部特征融合、不同头部外部特征融合后再进行特征拼接，最终提高了情感识别结果的鲁棒性和精准率，且实验也验证了结果的可靠度。

附图说明

图1为一实施例的面部表情识别***的基本模块示意图。

图2为一实施例的人类多模态情感识别的主要流程图。

图3为一实施例的类脑多模态情感识别方法的步骤流程图。

图4为一实施例的类脑多模态情感识别网络的示意图。

图5（a）为一实施例的实现跨模态强关联特征提取的网络示意图。

图5（b）为另一实施例的实现跨模态强关联特征提取的网络示意图。

图5（c）为一实施例的实现模态m的多头自注意力特征提取的网络示意图。

图5（d）为一实施例的模态m的多头跨模态强关联特征提取的网络示意图。

图6为一实施例的MTCNN网络示意图。

图7（a）为一实施例的RCS-VGG19网络示意图。

图7（b）为一实施例的残差通道空间注意力模块的结构框图。

图8为一实施例的1DCNN音频卷积网络示意图。

图9为一实施例的残差双向LSTM网络示意图。

图10为一实施例的在FER2013测试集上的混淆矩阵图。

图11为一实施例的在FER2013测试集上的面部识别精度曲线。

图12为一实施例的NAO6机器人对不同情感的动作反馈图，其中，（a）表示焦虑对应的NAO6动作反馈；(b) 表示高兴对应的NAO6动作反馈；(c) 表示惊讶对应的NAO6动作反馈；(d) 表示悲伤对应的NAO6动作反馈；(e) 表示生气对应的NAO6动作反馈；(f) 表示厌恶对应的NAO6动作反馈；(g)表示中性对应的NAO6动作反馈。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

人类的情感识别是一个复杂动态过程，涉及多模态感知通道，如图2，其识别精度依赖多模态信息的整合、学习等功能。然而，在计算机***中，多模态信号存在网络难训练、特征难融合等缺陷，导致现有情感识别方法在准确率和鲁棒性等方面无法满足动态场景下人机交互、临床诊断的使用要求，限制了情感机器人的应用与制备。因此，模拟人脑多模态信息融合机制，发展新的类脑协同学习方法，有望突破现有情感识别方法在准确率和鲁棒性等方面的局限。

如图3所示为一实施例中的类脑多模态情感识别方法的步骤流程图，该方法至少包括以下步骤：

步骤S100：提取视频表情特征

和语音情感特征

。

步骤S200：计算跨模态强关联特征、原始拼接特征和模态m的多头自注意力特征。

在提取到视频表情特征和语音情感特征后，可以基于此特征执行三方面的操作，分别为：

步骤S210：计算与音频强关联的视频特征

和与视频强关联的音频特征

。

在一实施例中，可以通过常规的注意力融合机制计算与音频强关联的视频特征

和与视频强关联的音频特征

，其计算公式为：

其中，

为近似最大函数，用于神经网络的分类层，

取a或v，

、

、

分别为特征

的Query、 Key、Value矩阵，即，

、

、

分别为特征

的Query、 Key、 Value矩阵，

、

、

分别为特征

的Query、 Key、Value矩阵。

其中，关于Query、 Key、Value矩阵，可以根据常规公式计算所得，具体如下：

其中，W^Q、W^K、W^V为随机生成的线性变换矩阵。

在另一实施例中，为了进一步提高识别精度，也可以先对特征进行预处理后再通过注意力融合机制计算与音频强关联的视频特征

和与视频强关联的音频特征

。具体过程为：

计算与音频强关联的视频特征

的过程包括：

将特征

依次经Relu激活函数和Sigmoid激活函数处理，得到模态

的强关联权重

，即

，其中，

、

、

和

均为神经网络可学习的参数。

将特征

与强关联权重

相乘，得到中间特征

，即

。

计算与音频强关联的视频特征

，其中，

为特征

的 Query矩阵，

和

分别为特征

的Key、Value矩阵。

相应的，计算与视频强关联的音频特征

的过程包括：

将特征

依次经输入Relu激活函数（也称逻辑回归函数）和Sigmoid激活函数（也称线性整流函数）处理，得到模态

的强关联权重

，即

将特征

与强关联权重

相乘，得到中间特征

，即

。

计算与视频强关联的音频特征

，其中，

特征

的Query 矩阵，

和

分别为特征

的Key、Value矩阵。

步骤S220：拼接视频表情特征

和语音情感特征

，得到原始拼接特征

。

即

。

步骤S230：计算模态m的多头自注意力特征

。

模态m的多头自注意力特征

的计算公式为：

其中，

为头部序号，

，

、

、

分别为特征

在n种不同转换矩阵下的Query、 Key、Value矩阵，Query、 Key、Value矩阵的计算参考上文，不同的i对应不同的线性转换矩阵W。

即，对应于视频模态，其多头自注意力特征

的计算公式为：

对应于音频模态，其多头自注意力特征的计算公式为：

此时所计算的多头自注意力特征是单个模态各自的特征向量，不存在特征交叉。

步骤S300：计算模态m的多头跨模态强关联特征

。

模态m的多头跨模态强关联特征

的计算公式为：

其中，

取

或

，

为特征

在n种不同转换矩阵下的Query矩阵，

和

分别为特征

在n种不同转换矩阵下的Key、Value矩阵。

即，对应于视频模态，其多头跨模态强关联特征

的计算公式为：

对应于音频模态，其多头跨模态强关联特征

的计算公式为：

此时所计算的多头跨模态强关联特征是融合了跨模态强关联特征和拼接特征所得。

步骤S400：对所有头部的同类特征进行拼接，得到第一至第四拼接特征

、

、

、

。

其中，第一拼接特征

为对音频情感的多头自注意力特征

进行拼接而成，即

第二拼接特征

为对视频表情的多头自注意力特征

进行拼接而成，即

第三拼接特征

为对音频情感的多头跨模态强关联特征

进行拼接而成，即

第四拼接特征

为对视频表情的多头跨模态强关联特征

进行拼接而成，即

。

步骤S500：将第一至第四拼接特征分别输入双向长短期记忆网络后，拼接所有特征得到统一特征向量，基于统一特征向量进行情感分类识别。

在一实施例中，将第一至第四拼接特征分别输入双向长短期记忆网络后，通过全局平均池化对每个通道取均值，再进行特征拼接，以防止过拟合。

对应的，本发明还涉及一种类脑多模态情感识别网络，通过该网络可以完成上述类脑多模态情感识别方法。具体的，参考图4所示为一实施例中的类脑多模态情感识别网络的结构示意图，其中每个方框代表了一个算法的模块或代码的一部分，该模块或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。具体的，类脑多模态情感识别网络至少包括：

视频表情特征提取网络，用于提取视频表情特征

；

语音情感特征提取网络，用于提取语音情感特征

；

、

、

、

；

双向长短期记忆（Long Short-Term Memory，以下简称LSTM）网络，用于获取第一至第四拼接特征前后时刻的信息，更新第一至第四拼接特征

、

、

、

；

第一特征拼接网络，用于拼接更新后的第一至第四拼接特征，得到同一特征向量

。

分类网络，用于基于统一特征向量进行情感分类识别。通常设置全连接层输出分类结果。

其中，本发明的核心网络为两阶段注意力融合网络的设计，其至少包括第一通道特征融合网络和第二空间特征融合网络：

第一通道特征融合网络用于融合视频表情特征

和语音情感特征

，得到与音频强关联的视频特征

和与视频强关联的音频特征

；

向量拼接模块用于拼接视频表情特征

和语音情感特征

，得到原始拼接特征

；

。其具体计算公式参考上文介绍，具体可以通过图5（c）所示的网络实现自注意力特征提取。

。其具体计算公式参考上文介绍，具体可以通过图5（d）所示的网络实现跨模态强关联特征提取。

、

、

、

。

基于上述所搭建的，将情感视频数据输入其中后，便能执行上文介绍的类脑多模态情感识别方法，最终输出情感分类结果。

在一实施例中，视频表情特征提取网络包括依次连接的多任务级联卷积神经网络（Multi-task Cascaded Convolutional Neural Network，以下简称MTCNN）和嵌入残差通道空间注意力模块（Residual-Channel-Spatial Attention，简称RCS注意力模块）的神经网络（例如VGG19神经网络），RCS注意力模块嵌嵌于神经网络每个池化层之前。视频表情特征的提取过程包括：先采用多任务级联卷积神经网络对人脸图像进行特征点定位，再采用嵌入RCS注意力模块的神经网络提取视频表情特征。例如，先采用MTCNN检测人脸，提取人脸图像，并对人脸图像进行特征点定位，标记68个特征点（如眼、嘴、鼻等位置）；再构建了一种嵌入RCS注意力模块的VGG19网络（以下简称RCS- VGG19网络），通过仿射变换进行人脸矫正，提取128维的人脸特征信息。

具体的，如图6所示为一具体实施例中的MTCNN网络，其包括种包含三个级联结构，依次为提议网络(Proposal Network，以下简称P-Net)、细化网络(Refine Network，以下简称R-Net)和输出网络(Output Network，以下简称O-Net)。首先，输入图像被预处理缩放到不同的大小；然后，P-Net通过遍历缩放图像中的每个像素，用于定位人脸区域；R-Net用于过滤边界框，O-Net将输出面部关键点，用于面部检测，且这三个网络是级联的，前一网络输出为后续网络的输入；最后，MTCNN根据这三个任务进行训练，实现人脸区域定位（即分类）、边界框回归和人脸关键点定位这三个功能。

MTCNN网络中各部分结构与功能如下：

P-Net是一个全卷积网络，其输入数据是大小为12×12×3的图像，输出为候选区域和边界回归向量，对候选区域进行标定，通过非极大值抑制算法去除重叠框定。

R-Net的网络与P-Net网络类似，但最后添加了一个全连接层，用于图像分类，其输入数据为P-Net的输出图像，图像大小为24×24×3，同样使用边界框回归进行标定，稍微调整候选形式，通过NMS（非极大值抑制）算法合并重叠区域。

O-Net的网络与R-Net相似，其输入数据为R-Net的输出图像，图像大小为48×48×3，不同之处在于新添加的一个卷积层，用来对人脸细节的特征进行处理。O-Net可以标记5个脸部关键点：左眼、右眼、鼻子、左嘴角、右嘴角。

具体的，如图7（a）所示为一具体实施例中的RCS- VGG19网络，其作用于被MTCNN框定出来的面部区域，目的是提取人脸表情特征向量。如图7（a）所示，不同于传统VGG网络， VGG19网络采用深度可分离卷积，代替常规卷积，减小卷积层的计算消耗；同时每个池化层之前，嵌入RCS注意力模块，通过激励改变特征通道权重（权重取值更大意味着特征更重要），添加通道注意力机制，以提升模型提取特征的能力。这两方面改进有利于将RCS- VGG19网络嵌入算力有限的机器人。具体的，VGG19要求的RGB图像像素不小于197×197，因此RCS- VGG19网络的输入数据是O-Net边界框回归、重新调整大小后的人脸图像。RCS- VGG19网络隐含层的最后一层输出视频表情特征

。

具体的，如图7（b）所示为RCS注意力模块的结构框图，其主要包括通道注意力模块和空间注意力模块以及求和模块。

其中，通道注意力模块用于对输入特征F依次进行全局平均池化、全连接和sigmoid激活函数处理后再与输入特征相乘，输出通道注意力特征

，其中，

表示sigmoid激活函数，

表示全连接处理，

表示全局平均池化。

其中，空间注意力模块用于提取输入特征的单一通道特征后，依次对所提取的每个单一通道特征进行全局平均池化、最大池化、卷积、sigmoid激活函数处理并拼接所有经处理后的单一通道特征，输出空间注意力特征

，其中，

表示卷积操作，具体可以为卷积核为7*7的卷积操作，

表示最大池化操作。

在一实施例中，语音情感特征提取网络包括依次连接的梅尔频率倒谱系数（MelFrequency Cepstrum Coefficient，以下简称 MFCC)）处理网络、LSTM网络和音频卷积网络。语音情感特征提取过程至少包括：先将音频信号转换为梅尔频率倒谱系数向量，然后将梅尔频率倒谱系数向量输入所述改进的残差双向长短期记忆网络，更新系数向量；最后将更新后的系数向量输入音频卷积网络，提取语音情感特征。

具体的，MFCC的计算流程包括：

1）对音频信号预加重、分帧和加窗。预加重主要是将音频通过一个高通滤波器，用来增强高频信息；分帧主要是音频切成一小段一小段，每一小段为一帧，通常一帧为20~30毫秒；加窗主要对每一帧的音频信号乘上窗函数(如汉明窗)，增加帧前、帧后两端的连续性，避免频谱泄露。

2）对每一帧加窗后通过快速傅里叶变换FFT得到频谱。加窗后的音频经过FFT后就可以得到频谱，FFT由离散傅里叶变换公式给出。

3）频谱通过Mel滤波器组得到Mel频谱。Mel滤波器组包含 20-30个三角函数滤波器，Mel滤波器组能识别特定帧中存在多少能量，得到每帧的滤波器组能量后，对其取log函数，得到Mel频谱。

4）对Mel频谱进行倒谱分析，即：取对数，做逆变换，这里的逆变换是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数构成一个向量，就是每帧的MFCC向量。

本发明使用Python中librosa工具包，计算音频的MFCC参数。

进一步考虑音频的时序特性，本发明构建基于1DCNN（一维卷积神经网络）的音频卷积网络，提取音频特征，记为特征向量

。在一具体的实施例中，采用的1DCNN网络如图8 所示。

在一实施例中，上述所采用的LSTM网络均为改进的残差LSTM网络。如图9所示，该改进的残差LSTM网络包括上层双向长短期记忆网络和下层双向长短期记忆网络，输入特征X_i依次经过下层双向长短期记忆网络和上层长短期记忆网络后再与输入特征X_i求和，得到改进的残差双向长短期记忆网络的输出结果Y_i。考虑到经典LSTM算法只关注历史信息，不能获取t时刻之后的信息，我们采用残差双向LSTM获取t时刻前后文的语音信息，从整段音频时序出发判断说话者的情感，增强识别精度，同时防止过拟合。

本发明还涉及一种情感机器人，其包括采集模块、情感识别模块和交互模块，其中，

数据采集模块用于采集测试者的情感视频数据；

所述情感识别模块具备上文的类脑多模态情感识别网络，用于根据所采集的人情感视频数据识别测试者的情感；

具体的，打开机器人的可编程接口，如Choregraphe、Python等，嵌入本发明的类脑协同学习情感识别网络。根据情感类别，结合机器人的运动关节属性，编排机器人的上肢、下肢动作。启动机器人的摄像头获取测试者的视频流信号，通过麦克风获取音频流信号，把所采集的信号作为输入，送入机器人的情感识别模块，输出情感类别，机器人根据情感类别做出高兴、愤怒等动作反馈，实现机器人对情感的判断和交互。

以下，以具体的实施例进行说明。

实施例一

使用来自RAVDESS数据集的中的数据作为多模态情感数据，该数据集包含由24名专业演员(12名女性, 12名男性)制作的7356个文件，他们用中性的北美口音发出两个词汇匹配的语句，平均时长为3.74秒。言语包含平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，而歌曲包含平静、快乐、悲伤、愤怒和恐惧的情绪。在实施例中，将数据按照4:1:1的比例分成训练集、验证集和测试集，并使用随机水平翻转和随机旋转来进行数据增强，使可用数据更加充分。

第一阶段，从上述训练集中提取视频表情特征和语音情感特征。

为提取视频表情特征，先制备面部表情数据集，将RAVDESS中的视频分剪为15个连续帧，使用MTCNN网络对人物的面部进行检测并调整大小，获得图像大小为224×224像素的面部表情序列。再使用RCS-VGG19网络在VGG Face人脸数据集上进行预训练，实现迁移学习，迁移学习的作用是将模型放在与实验问题相关的大型数据集上进行预训练，然后使用预训练好的模型在制备的面部表情数据集中进行微调训练。这里，CNN使用随机梯度下降作为优化器，学习率为0.01，batch_size取值128，训练120个epoch之后得到训练好的视频表情特征提取网络。

为提取语音情感特征，对RAVDESS音频数据，通过librosa工具包计算MFCC特征向量，使用1DCNN提取音频特征，同样，这里的CNN使用随机梯度下降作为优化器，学习率为0.01，batch_size取值128，训练120个epoch之后得到训练好的语音情感特征提取网络。

第二阶段，进行视频表情特征和语音情感特征的融合。

步骤1：通过上文介绍的两阶段注意力融合网络实现特征融合，输出第一至第四拼接特征

、

、

、

。本实施例中具体采取先对特征进行预处理后再通过注意力融合机制计算与音频强关联的视频特征

和与视频强关联的音频特征

。

步骤2：通过上文介绍的残差双向LSTM获取视频前后两个时间的信息，防止过拟合。

步骤3：添加全局平均池化层，对步骤2获取的特征进行选择，提高特征感受野，通过逐步减小特征层的大小，达到减小模型参数与计算量的目的，也可以防止过拟合。在全局平均池化之后，通过Concatenate 函数构建特征拼接层，输出融合的特征向量，完成面部表情和音频情感特征的融合。

第三阶段：将上述融合的双模态情感特征进行集成，通过Softmax函数，将来自特征拼接层的输入值转化为概率，预测每个情感类别的概率，然后选择预测值最高的类别作为输出，即完成情感识别过程。

上述实施例可以采用Pycharm编译器进行编写，编程语言为Python 3.6，深度学***台包括Intel(R) Xeon(R) Silver 4110 CPU处理器和用于加速模型训练的Nvidia GeForce RTX 2080Ti GPU。实施效果如图10、图11、表1、表2和表3所示。

图10展示了上述实施例在人脸表情数据集FER2013测试集上的混淆矩阵，将对角线元素加和得到所有预测正确的个数，除以总样本数，得到准确率74.25%。

如图11为上述实施例在面部表情数据集FER2013的识别精度曲线，该识别精度高达74.25%。不同网络在面部表情数据集FER2013的识别精度对比如表1所示，其中，GCN模型出自文献“Fast and Efficient Facial Expression Recognition Using a GaborConvolutional Network”，Single MLCNN模型出自文献“Facial Expression RecognitionUsing a Temporal Ensemble of Multi-Level Convolutional Neural Networks.”，其对比结果如下：

如表1所示，相比最新的面部表情识别方法(73.03%)，本发明精度提升约1.22%。

不同网络模型在RAVDESS数据集上的识别精度的对比如表2所示，其中，LogisticRegression on posteriors of the CNN-14&biLSTM-GuidedST模型出自文献“Multimodalemotion recognition on RAVDESS dataset using transfer learning”，xlsr-Wav2Vec2.0模型出自文献“A Proposal for Multimodal Emotion Recognition UsingAural Transformers and Action Units on RAVDESS Dataset”，CNN-X模型出自文献“Shallow over Deep Neural Networks: An Empirical Analysis for Human EmotionClassification Using Audio Data. In: International Conference on Internet ofThings and Connected Technologies”，其对比结果如下：

如表2所示，本发明在视频数据集的多模态识别精度达86.16%，相比最新的双模态识别方法(82.99%)，本发明精度提升约3.17%。

另外，为验证本发明算法在模态缺失时的鲁棒性，将所发明的类脑学习情感识别算法应用于单模态的音频数据集和视频数据集(无语音)，不同网络模型在单模态数据集识别精度对比如表3所示，其中，Guided-ST and bi-LSTM with attention模型和AlexNet模型以及CNN-14模型出自文献“Multimodal emotion recognition on RAVDESS datasetusing transfer learning”，bi-LSTM+Attention模型出自文献“A Proposal forMultimodal Emotion Recognition Using Aural Transformers and Action Units onRAVDESS Dataset”，ERANN-0-4模型出自文献“Eranns: Efficient residual audioneural networks for audio pattern recognition”，其对比结果如下：

如表3所示，本算法在单音频、单视频数据集上的识别精度分别达到71.00%和74.92%，较其他算法具有一定优势，因此，本发明所提及的方案具有较好的鲁棒性。

实施例二

基于NAO6代机器人展开，NAO机器人是法国Aldebaran Robotics公司开发的一款人形机器人，NAO拥有人形外观，身高为574mm，重量为5.4kg，全身上下共25个自由度，全身配备多种传感器，包括4个麦克风、2个摄像头、2个红外线发射接收装置、1个超声波测距仪、9个触碰传感器、1个IMU和8个压力传感器，使得NAO机器人可以实时感知环境、避免碰撞障碍物等，进而保证NAO执行特定感知识别任务的能力。第二实施例使用的NAO6是全新的第6代NAO机器人。将本发明算法通过Choregraphe界面和Python语言，嵌入NAO6机器人***，赋予机器人自主判断情感和交互功能。具体步骤如下：

步骤1：启动NAO6机器人，打开其可视化操作***Choregraphe，将移动、说话、语音识别、人脸检测等指令盒，拖动到Choregraphe***中，点击连接，完成情感识别与交互初始化过程。

步骤2：编排机器人的上肢、下肢动作，匹配高兴、悲伤、生气、恐惧、惊讶、中性等情感，完成情感交互动作初始化过程。

步骤3：将本发明的类脑协同学习情感识别算法，通过Python语音，封装成一个指令盒，拖入Choregraphe***，完成情感识别算法的嵌入过程。

步骤4：启动NAO6机器人上的两个摄像头和四个麦克风。获取测试者的人脸图像和声音，根据链路，先将人脸图像送入人脸检测指令盒，再激活Choregraphe***中情感识别指令盒，最后输出情感类别，完成面部表情和音频的多模态识别过程。

步骤5： NAO6机器人根据步骤4输出的情感类别，结合步骤3编排的情感表达动作，做出高兴、愤怒等动作反馈，完成情感交互过程。

图12展示了NAO6机器人根据本发明对于检测到的不同情感，自主做出不同的动作反馈。综上，通过第二实施例及其实施效果，验证了本发明在机器人情感识别与交互方面的成功应用。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种类脑多模态情感识别方法，其特征在于，包括：

提取视频表情特征

和语音情感特征

；

融合视频表情特征

和语音情感特征

，得到与音频强关联的视频特征

和与视频强关联的音频特征

；

拼接视频表情特征

和语音情感特征

，得到原始拼接特征

；

计算模态m的多头自注意力特征

，其中，m取a或v，

为头部序号，

，

、

、

分别为特征

在n种不同转换矩阵下的Query、 Key、Value矩阵，

为Query矩阵的维度；

计算模态m的多头跨模态强关联特征

，其中，

取

或

，

为特征

在n种不同转换矩阵下的Query矩阵，

和

分别为特征

在n种不同转换矩阵下的Key、Value矩阵；

对所有头部的同类特征进行拼接，得到第一至第四拼接特征

，其中，

，

；

2.如权利要求1所述的类脑多模态情感识别方法，其特征在于，

计算与音频强关联的视频特征

的过程包括：

将特征

依次经Relu激活函数和Sigmoid激活函数处理，得到模态

的强关联权重

；

将特征

与强关联权重

相乘，得到中间特征

；

计算与音频强关联的视频特征

；

计算与视频强关联的音频特征

的过程包括：

将特征

依次经输入Relu激活函数和Sigmoid激活函数处理，得到模态

的强关联权重

；

将特征

与强关联权重

相乘，得到中间特征

；

计算与视频强关联的音频特征

；

其中，

和

分别为特征

和特征

的Query矩阵，

和

分别为特征

的Key、 Value矩阵，

和

分别为特征

的Key、Value矩阵。

3.如权利要求1所述的类脑多模态情感识别方法，其特征在于，所述双向长短期记忆网络为改进的残差双向长短期记忆网络，包括：上层双向长短期记忆网络和下层双向长短期记忆网络，输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和，得到改进的残差双向长短期记忆网络的输出结果。

4.如权利要求1所述的类脑多模态情感识别方法，其特征在于，视频表情特征的提取过程包括：

通道注意力模块用于对输入特征

依次进行全局平均池化、全连接和sigmoid激活函数处理后再与输入特征相乘，输出通道注意力特征

；

空间注意力模块用于提取输入特征

的单一通道特征后，依次对所提取的每个单一通道特征进行全局平均池化、最大池化、卷积、sigmoid激活函数处理并拼接所有经处理后的单一通道特征，输出空间注意力特征

；

，其中，

、

和

均为设定的求和权重。

5.如权利要求4所述的类脑多模态情感识别方法，其特征在于，多任务级联卷积神经网络包括依次连接的提议网络、细化网络和输出网络，其中，

提议网络为全卷积网络，用于确定候选区域；

6.如权利要求3所述的类脑多模态情感识别方法，其特征在于，语音情感特征的提取过程包括：

将音频信号转换为梅尔频率倒谱系数向量；

7.如权利要求6所述的类脑多模态情感识别方法，其特征在于，将音频信号转换为梅尔频率倒谱系数向量，包括：

对音频信号依次进行预加重、分帧和加窗处理；

对每一帧加窗后的特征通过快速傅里叶变换得到频谱；

将频谱输入Mel滤波器组，得到Mel频谱；

对Mel频谱进行倒谱分析，得到梅尔频率倒谱系数向量。

8.一种类脑多模态情感识别网络，其特征在于，包括：

和语音情感特征

；

；

分类网络，用于基于统一特征向量进行情感分类识别；

第一通道特征融合网络用于融合视频表情特征

和语音情感特征

，得到与音频强关联的视频特征

和与视频强关联的音频特征

；

向量拼接模块用于拼接视频表情特征

和语音情感特征

，得到原始拼接特征

；

，其中，m取a或v，

为头部序号，

，

、

、

分别为特征

在n种不同转换矩阵下的Query、 Key、Value矩阵，

为Query矩阵的维度；

，其中，

取

或

，

为特征

在n种不同转换矩阵下的 Query矩阵，

和

分别为特征

在n种不同转换矩阵下的Key、Value矩阵；

第二特征拼接网络，用于对所有头部的同类特征进行拼接，得到第一至第四拼接特

，其中，

，

。

9.如权利要求8所述的类脑多模态情感识别网络，其特征在于，所述双向长短期记忆网络为改进的残差双向长短期记忆网络，包括：上层双向长短期记忆网络和下层双向长短期记忆网络，输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和，得到改进的残差双向长短期记忆网络的输出结果。

10.一种情感机器人，其特征在于，包括数据采集模块、情感识别模块和交互模块，其中，

数据采集模块用于采集测试者的情感视频数据；

所述情感识别模块具备权利要求8或9所述的类脑多模态情感识别网络，用于根据所采集的人情感视频数据识别测试者的情感；