CN114511895B

CN114511895B - 一种基于注意力机制多尺度网络的自然场景情绪识别方法

Info

Publication number: CN114511895B
Application number: CN202011280735.6A
Authority: CN
Inventors: 卿粼波; 晋儒龙; 何小海; 陈洪刚; 文虹茜
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2024-02-02
Anticipated expiration: 2040-11-16
Also published as: CN114511895A

Abstract

本发明涉及一种基于注意力机制多尺度网络的自然场景情绪识别方法，主要涉及人物和场景线索融合的情绪识别。本发明本发明主要包括：对于人物分支，提取特征同时加入姿态注意力机制，该分支能有效挖掘人物本身的情绪状态；对于场景分支，使用多尺度网络增强场景中局部细节特征，融合空间注意力模型自动关注场景中对情绪识别有效的区域。本发明充分利用人物与场景各自的优势进行情绪识别，提高了情绪识别的精确率。

Description

一种基于注意力机制多尺度网络的自然场景情绪识别方法

技术领域

本发明属于情绪识别领域，具体涉及一种基于注意力机制多尺度网络的自然场景情绪识别方法。

背景技术

情绪识别是计算机视觉的一项基本任务，它是情感计算的一部分，旨在识别出某个体的感受与状态，例如高兴、悲伤、厌恶、惊喜等等。情绪识别技术用途广泛，目前已经在人机交互、安防、医疗健康等领域有所应用。

针对情绪识别的研究，无论是传统的手工提取特征，还是深度学习方法，多数研究都是关注于面部特征，因其能够提供最明显直观的情感状态。研究发现，声音、文本、姿态以及身体物理信号(心跳变化，瞳孔放大程度等)等也能辅助识别情绪，因此也有学者融合多模态信息来提高情绪识别的准确性。然而在自然场景中，基于视觉信息仍是主要的情绪识别方法，但也存在相应的挑战。首先，自然场景中人脸通常存在光照不均匀、遮挡、拍摄角度等问题，导致难以直接识别其情绪状态；其次，同一种行为处于不同场景会出现不同的情绪状态，例如在办公室浏览电脑与在家中浏览电脑可能是两种不同的情绪状态。

综上所述，如何有效地结合场景与人物的关系，克服上述现有技术所存在的缺陷是本技术领域亟待解决的问题。

发明内容

鉴于现有技术存在的不足，本发明的目的是提出一种基于注意力机制多尺度网络的自然场景情绪识别方法，充分结合人物与场景的信息，能够有效提高情绪识别的精确率。其特征在于，包括如下步骤：

a.将人物图像以及去除人物的场景图像送入双分支网络进行训练；

b.在上述a中双分支网络，第一分支输入人物图像，使用特征提取网络和姿态注意力机制得到人物特征，第二分支输入场景图像，使用多尺度网络和空间注意力模型提取图像的全局特征；

c.对上述b中的双分支网络进行融合分类，最终得到情绪识别的结果；

该方法主要包括以下步骤：

(1)静态图像I通过人物边界框处理为人物图像I_B以及去除人物的场景图像I_C，计算公式为：其中bbox_IB表示主要人物所在区域；

(2)I_B送入第一分支的卷积层，池化层，全连接层进行特征提取，得到个体的特征向量f_B’，同时I_B经过姿态注意力机制得到个体的情绪置信度λ；

(3)I_C送入第二分支通过多尺度网络得到场景的特征向量f_C1，多尺度网络中的特征图通过空间注意力模型，得到特征向量f_C2；

(4)对上述(2)和(3)得到的特征向量进行进行融合与分类，得到最终的情绪识别的结果。

与现有技术相比，本发明的优点主要体现在以下几个方面：

第一，对于图像中的人物，不仅仅是关注人脸，同时也关注人物的姿势以及姿态，能够有效挖掘个体本身的情绪状态。

第二，人物的情绪状态通常会受到周围环境的影响，因此本发明还关注了场景信息以辅助情绪识别，充分利用图像中人物与场景各自的优势，有效提升了情绪识别的精确率。

附图说明

图1为本发明基于注意力机制多尺度网络的自然场景情绪识别方法的原理示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

下面结合附图，对本发明的方案进行具体说明：

(1)静态图像I通过边界框得到人物图像I_B以及去除人物的背景图像I_C，计算公式为：其中bbox_IB表示主要人物所在区域，对I_B和I_C进行缩放、光照、亮度、对比度增强处理，形成训练集；

所述步骤(2)具体包括以下步骤：

(2.1)特征提取阶段，卷积层，池化层，全连接层使用ResNet-50模型实现，进而得到个体的特征向量f_B’；

(2.2)姿态注意力机制使用1个全局平均池化和2个卷积层构建，I_B经过姿态注意力机制得到个体的情绪置信度λ，λ通过Sigmoid归一化到[0,1]区间，第一分支的特征向量表示为f_B＝λ·f_B’；

所述步骤(3)具体包括以下步骤：

(3.1)多尺度网络由3个尺度的特征图{F₁，F₂，F₃}构成，分别对应I_C的{8,16,32}下采样倍数，3个尺度的特征图使用ResNet-18模型进行提取，ResNet模型拥有四个残差块，使用最后3个残差块得到的特征图作为{F₁，F₂，F₃}，对{F₁，F₂，F₃}进行卷积和两倍下采样得到3张通道数均为256的特征图{P₁，P₂，P₃}，{P₁，P₂，P₃}通过分类器C得到3个特征向量f_C1＝{f_P1，f_P2，f_P3}，其中分类器C由1个卷积层、1个池化层组成；

(3.2)空间注意力模型使用3个卷积层、1个平均池化层和2个批量标准化构建，对特征图F₂使用空间注意力模型，得到与F₂尺寸相同的注意力分布图，对应位置相乘后送入分类器C得到特征向量f_C2，第二分支的特征向量表示为f_C＝cat[f_C1，f_C2]，其中cat表示特征向量在最后一维进行拼接；

(4)对上述(2)和(3)得到的特征向量进行早期融合与分类，得到最终情绪识别的结果。

Claims

1.一种基于注意力机制多尺度网络的自然场景情绪识别方法，其特征在于，包括如下步骤：

b.在上述a中双分支网络，第一分支输入人物图像，用特征提取网络和姿态注意力机制得到人物特征，第二分支输入场景图像，使用多尺度网络和空间注意力模型提取图像的全局特征；

该方法主要包括以下步骤：

(1)静态图像I通过人物边界框处理为人物图像I_B以及去除人物的场景图像I_C，计算公式为：其中/>表示主要人物所在区域；

(2)I_B送入第一分支的卷积层，池化层，全连接层进行特征提取，得到个体的特征向量f_B’，同时I_B经过姿态注意力机制得到个体的情绪置信度λ，并通过f_B＝λ·f_B’得到人物特征向量f_B；

(3)I_C送入第二分支通过多尺度网络得到场景的特征向量f_C1，多尺度网络中的特征图通过空间注意力模型，得到特征向量f_C2，并将f_C1、f_C2在向量最后一维上拼接得到第二分支特征f_C；

(4)对上述(2)和(3)得到的特征向量f_B、f_C通过在通道维度进行拼接进行早期融合并进行分类，得到最终的情绪识别的结果。

2.如权利要求1所述的一种基于注意力机制多尺度网络的自然场景情绪识别方法，其特征在于步骤(2)中卷积层，池化层，全连接层构成的特征提取网络使用ResNet-50模型实现，使用1个全局平均池化和2个卷积层构建姿态注意力机制，第一分支的特征向量表示为f_B＝λ·f_B’。

3.如权利要求1所述的一种基于注意力机制多尺度网络的自然场景情绪识别方法，其特征在于步骤(3)中多尺度网络由3个尺度的特征图{F₁，F₂，F₃}构成，分别对应I_C的{8,16,32}下采样倍数，3个尺度的特征图使用ResNet-18模型进行提取，空间注意力模型使用3个卷积层、1个平均池化层和2个批量标准化构建，第二分支的特征向量表示为f_C＝cat[f_C1，f_C2]，其中cat表示特征向量在最后一维进行拼接。

4.如权利要求1所述的一种基于注意力机制多尺度网络的自然场景情绪识别方法，其特征在于步骤(4)中使用早期融合对双分支网络的特征向量直接拼接，使用全连接层进行情绪的分类识别。