CN114511895B - 一种基于注意力机制多尺度网络的自然场景情绪识别方法 - Google Patents
一种基于注意力机制多尺度网络的自然场景情绪识别方法 Download PDFInfo
- Publication number
- CN114511895B CN114511895B CN202011280735.6A CN202011280735A CN114511895B CN 114511895 B CN114511895 B CN 114511895B CN 202011280735 A CN202011280735 A CN 202011280735A CN 114511895 B CN114511895 B CN 114511895B
- Authority
- CN
- China
- Prior art keywords
- scene
- network
- emotion recognition
- branch
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 27
- 230000007246 mechanism Effects 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 10
- 230000008451 emotion Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 241000282326 Felis catus Species 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000002996 emotional effect Effects 0.000 abstract description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010344 pupil dilation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于注意力机制多尺度网络的自然场景情绪识别方法,主要涉及人物和场景线索融合的情绪识别。本发明本发明主要包括:对于人物分支,提取特征同时加入姿态注意力机制,该分支能有效挖掘人物本身的情绪状态;对于场景分支,使用多尺度网络增强场景中局部细节特征,融合空间注意力模型自动关注场景中对情绪识别有效的区域。本发明充分利用人物与场景各自的优势进行情绪识别,提高了情绪识别的精确率。
Description
技术领域
本发明属于情绪识别领域,具体涉及一种基于注意力机制多尺度网络的自然场景情绪识别方法。
背景技术
情绪识别是计算机视觉的一项基本任务,它是情感计算的一部分,旨在识别出某个体的感受与状态,例如高兴、悲伤、厌恶、惊喜等等。情绪识别技术用途广泛,目前已经在人机交互、安防、医疗健康等领域有所应用。
针对情绪识别的研究,无论是传统的手工提取特征,还是深度学习方法,多数研究都是关注于面部特征,因其能够提供最明显直观的情感状态。研究发现,声音、文本、姿态以及身体物理信号(心跳变化,瞳孔放大程度等)等也能辅助识别情绪,因此也有学者融合多模态信息来提高情绪识别的准确性。然而在自然场景中,基于视觉信息仍是主要的情绪识别方法,但也存在相应的挑战。首先,自然场景中人脸通常存在光照不均匀、遮挡、拍摄角度等问题,导致难以直接识别其情绪状态;其次,同一种行为处于不同场景会出现不同的情绪状态,例如在办公室浏览电脑与在家中浏览电脑可能是两种不同的情绪状态。
综上所述,如何有效地结合场景与人物的关系,克服上述现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
鉴于现有技术存在的不足,本发明的目的是提出一种基于注意力机制多尺度网络的自然场景情绪识别方法,充分结合人物与场景的信息,能够有效提高情绪识别的精确率。其特征在于,包括如下步骤:
a.将人物图像以及去除人物的场景图像送入双分支网络进行训练;
b.在上述a中双分支网络,第一分支输入人物图像,使用特征提取网络和姿态注意力机制得到人物特征,第二分支输入场景图像,使用多尺度网络和空间注意力模型提取图像的全局特征;
c.对上述b中的双分支网络进行融合分类,最终得到情绪识别的结果;
该方法主要包括以下步骤:
(1)静态图像I通过人物边界框处理为人物图像IB以及去除人物的场景图像IC,计算公式为:其中bboxIB表示主要人物所在区域;
(2)IB送入第一分支的卷积层,池化层,全连接层进行特征提取,得到个体的特征向量fB’,同时IB经过姿态注意力机制得到个体的情绪置信度λ;
(3)IC送入第二分支通过多尺度网络得到场景的特征向量fC1,多尺度网络中的特征图通过空间注意力模型,得到特征向量fC2;
(4)对上述(2)和(3)得到的特征向量进行进行融合与分类,得到最终的情绪识别的结果。
与现有技术相比,本发明的优点主要体现在以下几个方面:
第一,对于图像中的人物,不仅仅是关注人脸,同时也关注人物的姿势以及姿态,能够有效挖掘个体本身的情绪状态。
第二,人物的情绪状态通常会受到周围环境的影响,因此本发明还关注了场景信息以辅助情绪识别,充分利用图像中人物与场景各自的优势,有效提升了情绪识别的精确率。
附图说明
图1为本发明基于注意力机制多尺度网络的自然场景情绪识别方法的原理示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
下面结合附图,对本发明的方案进行具体说明:
(1)静态图像I通过边界框得到人物图像IB以及去除人物的背景图像IC,计算公式为:其中bboxIB表示主要人物所在区域,对IB和IC进行缩放、光照、亮度、对比度增强处理,形成训练集;
(2)IB送入第一分支的卷积层,池化层,全连接层进行特征提取,得到个体的特征向量fB’,同时IB经过姿态注意力机制得到个体的情绪置信度λ;
所述步骤(2)具体包括以下步骤:
(2.1)特征提取阶段,卷积层,池化层,全连接层使用ResNet-50模型实现,进而得到个体的特征向量fB’;
(2.2)姿态注意力机制使用1个全局平均池化和2个卷积层构建,IB经过姿态注意力机制得到个体的情绪置信度λ,λ通过Sigmoid归一化到[0,1]区间,第一分支的特征向量表示为fB=λ·fB’;
(3)IC送入第二分支通过多尺度网络得到场景的特征向量fC1,多尺度网络中的特征图通过空间注意力模型,得到特征向量fC2;
所述步骤(3)具体包括以下步骤:
(3.1)多尺度网络由3个尺度的特征图{F1,F2,F3}构成,分别对应IC的{8,16,32}下采样倍数,3个尺度的特征图使用ResNet-18模型进行提取,ResNet模型拥有四个残差块,使用最后3个残差块得到的特征图作为{F1,F2,F3},对{F1,F2,F3}进行卷积和两倍下采样得到3张通道数均为256的特征图{P1,P2,P3},{P1,P2,P3}通过分类器C得到3个特征向量fC1={fP1,fP2,fP3},其中分类器C由1个卷积层、1个池化层组成;
(3.2)空间注意力模型使用3个卷积层、1个平均池化层和2个批量标准化构建,对特征图F2使用空间注意力模型,得到与F2尺寸相同的注意力分布图,对应位置相乘后送入分类器C得到特征向量fC2,第二分支的特征向量表示为fC=cat[fC1,fC2],其中cat表示特征向量在最后一维进行拼接;
(4)对上述(2)和(3)得到的特征向量进行早期融合与分类,得到最终情绪识别的结果。
Claims (4)
1.一种基于注意力机制多尺度网络的自然场景情绪识别方法,其特征在于,包括如下步骤:
a.将人物图像以及去除人物的场景图像送入双分支网络进行训练;
b.在上述a中双分支网络,第一分支输入人物图像,用特征提取网络和姿态注意力机制得到人物特征,第二分支输入场景图像,使用多尺度网络和空间注意力模型提取图像的全局特征;
c.对上述b中的双分支网络进行融合分类,最终得到情绪识别的结果;
该方法主要包括以下步骤:
(1)静态图像I通过人物边界框处理为人物图像IB以及去除人物的场景图像IC,计算公式为:其中/>表示主要人物所在区域;
(2)IB送入第一分支的卷积层,池化层,全连接层进行特征提取,得到个体的特征向量fB’,同时IB经过姿态注意力机制得到个体的情绪置信度λ,并通过fB=λ·fB’得到人物特征向量fB;
(3)IC送入第二分支通过多尺度网络得到场景的特征向量fC1,多尺度网络中的特征图通过空间注意力模型,得到特征向量fC2,并将fC1、fC2在向量最后一维上拼接得到第二分支特征fC;
(4)对上述(2)和(3)得到的特征向量fB、fC通过在通道维度进行拼接进行早期融合并进行分类,得到最终的情绪识别的结果。
2.如权利要求1所述的一种基于注意力机制多尺度网络的自然场景情绪识别方法,其特征在于步骤(2)中卷积层,池化层,全连接层构成的特征提取网络使用ResNet-50模型实现,使用1个全局平均池化和2个卷积层构建姿态注意力机制,第一分支的特征向量表示为fB=λ·fB’。
3.如权利要求1所述的一种基于注意力机制多尺度网络的自然场景情绪识别方法,其特征在于步骤(3)中多尺度网络由3个尺度的特征图{F1,F2,F3}构成,分别对应IC的{8,16,32}下采样倍数,3个尺度的特征图使用ResNet-18模型进行提取,空间注意力模型使用3个卷积层、1个平均池化层和2个批量标准化构建,第二分支的特征向量表示为fC=cat[fC1,fC2],其中cat表示特征向量在最后一维进行拼接。
4.如权利要求1所述的一种基于注意力机制多尺度网络的自然场景情绪识别方法,其特征在于步骤(4)中使用早期融合对双分支网络的特征向量直接拼接,使用全连接层进行情绪的分类识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011280735.6A CN114511895B (zh) | 2020-11-16 | 2020-11-16 | 一种基于注意力机制多尺度网络的自然场景情绪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011280735.6A CN114511895B (zh) | 2020-11-16 | 2020-11-16 | 一种基于注意力机制多尺度网络的自然场景情绪识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114511895A CN114511895A (zh) | 2022-05-17 |
CN114511895B true CN114511895B (zh) | 2024-02-02 |
Family
ID=81546489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011280735.6A Active CN114511895B (zh) | 2020-11-16 | 2020-11-16 | 一种基于注意力机制多尺度网络的自然场景情绪识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511895B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036877A (zh) * | 2023-07-18 | 2023-11-10 | 六合熙诚(北京)信息科技有限公司 | 一种人脸表情及姿态融合的情绪识别方法及*** |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN109376720A (zh) * | 2018-12-19 | 2019-02-22 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
CN110705490A (zh) * | 2019-10-09 | 2020-01-17 | 中国科学技术大学 | 视觉情感识别方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111325111A (zh) * | 2020-01-23 | 2020-06-23 | 同济大学 | 一种融合逆注意力和多尺度深度监督的行人重识别方法 |
CN111339847A (zh) * | 2020-02-14 | 2020-06-26 | 福建帝视信息科技有限公司 | 一种基于图卷积神经网络的人脸情绪识别方法 |
CN111414862A (zh) * | 2020-03-22 | 2020-07-14 | 西安电子科技大学 | 基于神经网络融合关键点角度变化的表情识别方法 |
CN111582397A (zh) * | 2020-05-14 | 2020-08-25 | 杭州电子科技大学 | 一种基于注意力机制的cnn-rnn图像情感分析方法 |
CN111914600A (zh) * | 2019-05-08 | 2020-11-10 | 四川大学 | 一种基于空间注意力模型的群组情绪识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815785A (zh) * | 2018-12-05 | 2019-05-28 | 四川大学 | 一种基于双流卷积神经网络的人脸情绪识别方法 |
-
2020
- 2020-11-16 CN CN202011280735.6A patent/CN114511895B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN109376720A (zh) * | 2018-12-19 | 2019-02-22 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
CN111914600A (zh) * | 2019-05-08 | 2020-11-10 | 四川大学 | 一种基于空间注意力模型的群组情绪识别方法 |
CN110705490A (zh) * | 2019-10-09 | 2020-01-17 | 中国科学技术大学 | 视觉情感识别方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111325111A (zh) * | 2020-01-23 | 2020-06-23 | 同济大学 | 一种融合逆注意力和多尺度深度监督的行人重识别方法 |
CN111339847A (zh) * | 2020-02-14 | 2020-06-26 | 福建帝视信息科技有限公司 | 一种基于图卷积神经网络的人脸情绪识别方法 |
CN111414862A (zh) * | 2020-03-22 | 2020-07-14 | 西安电子科技大学 | 基于神经网络融合关键点角度变化的表情识别方法 |
CN111582397A (zh) * | 2020-05-14 | 2020-08-25 | 杭州电子科技大学 | 一种基于注意力机制的cnn-rnn图像情感分析方法 |
Non-Patent Citations (4)
Title |
---|
Huijun Xing et al.Dual attention based feature pyramid network.《China Communications》.2020,第17卷(第8期),242-252. * |
Masih Aminbeidikhti et al.Emotion Recognition with Spatial Attention and Temporal Softmax Pooling.《Image Analysis and Recognition》.2019,第11662卷323-331. * |
Ronak Kosti et al.Emotion Recognition in Context.《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR)》.2017,1960-1968. * |
杨川.基于深度学习的人体姿态估计技术研究.《中国优秀硕士学位论文全文数据库(信息科技辑)》.2020,(第02期),I138-1726. * |
Also Published As
Publication number | Publication date |
---|---|
CN114511895A (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | A visual attention based ROI detection method for facial expression recognition | |
CN108615010B (zh) | 基于平行卷积神经网络特征图融合的人脸表情识别方法 | |
CN109919830B (zh) | 一种基于美学评价的带参考人眼图像修复方法 | |
CN109325952B (zh) | 基于深度学习的时尚服装图像分割方法 | |
CN108629338B (zh) | 一种基于lbp和卷积神经网络的人脸美丽预测方法 | |
Gallo et al. | Image and encoded text fusion for multi-modal classification | |
CN110533024B (zh) | 基于多尺度roi特征的双二次池化细粒度图像分类方法 | |
CN108846444A (zh) | 面向多源数据挖掘的多阶段深度迁移学习方法 | |
CN109920538B (zh) | 一种基于数据增强的零样本学习方法 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
Li et al. | Learning symmetry consistent deep cnns for face completion | |
WO2022127494A1 (zh) | 位姿识别模型训练方法、装置、位姿识别方法和终端设备 | |
CN111694959A (zh) | 基于面部表情和文本信息的网络舆情多模态情感识别方法及*** | |
CN113269089A (zh) | 基于深度学习的实时手势识别方法及*** | |
Song et al. | Multi-modal machine learning in engineering design: A review and future directions | |
CN111126307A (zh) | 联合稀疏表示神经网络的小样本人脸识别方法 | |
CN117149944B (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及*** | |
CN108073851A (zh) | 一种抓取手势识别的方法、装置及电子设备 | |
Zhai et al. | Asian female facial beauty prediction using deep neural networks via transfer learning and multi-channel feature fusion | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
CN114511895B (zh) | 一种基于注意力机制多尺度网络的自然场景情绪识别方法 | |
Jian et al. | Dual-branch-UNnet: A dual-branch convolutional neural network for medical image segmentation | |
CN106778554A (zh) | 基于联合特征PCANet的宫颈细胞图像识别方法 | |
CN116434023A (zh) | 基于多模态交叉注意力网络的情感识别方法、***及设备 | |
CN106203448A (zh) | 一种基于非线性尺度空间的场景分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |