CN108921037B - 一种基于BN-inception双流网络的情绪识别方法 - Google Patents

一种基于BN-inception双流网络的情绪识别方法 Download PDF

Info

Publication number
CN108921037B
CN108921037B CN201810579049.5A CN201810579049A CN108921037B CN 108921037 B CN108921037 B CN 108921037B CN 201810579049 A CN201810579049 A CN 201810579049A CN 108921037 B CN108921037 B CN 108921037B
Authority
CN
China
Prior art keywords
network
spp
double
individual
initiation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810579049.5A
Other languages
English (en)
Other versions
CN108921037A (zh
Inventor
卿粼波
王露
滕奇志
何小海
熊文诗
吴晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201810579049.5A priority Critical patent/CN108921037B/zh
Publication of CN108921037A publication Critical patent/CN108921037A/zh
Application granted granted Critical
Publication of CN108921037B publication Critical patent/CN108921037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于姿态信息的个体情绪识别方法,主要涉及利用深度学习方法研究个体姿态以判断个体的情绪。该方法包括:首先引入基于BN‑inception双流网络模型,通过对原始图像和光流图像的学习,提取输入序列的静态和动态特征;然后在双流网络的基础上加入空间金字塔池化(Space Pyramid Pooling,SPP),使图像以原始尺寸输入网络,从而减少因变形对模型性能造成的影响。本发明首先利用双流网络对输入序列进行时空特征的学习,并引入金字塔池化,以保留视频帧的原始信息,使得网络能有效地学习个体姿态情绪的特征,得到较高的识别率。

Description

一种基于BN-inception双流网络的情绪识别方法
技术领域
本发明涉及深度学习领域中的情绪识别问题,尤其是涉及一种基于BN-inception+SPP双流网络的情绪分析方法。
背景技术
情绪是综合了人的感觉、思想和行为的一种状态,在人与人的交流中发挥着重要作用。通常根据一个人面部表情即能判断其情绪状态,但是在某些特定的环境中,如监控视角、面部存在遮挡等情况下,我们不一定能够获取清晰的人脸面部表情。实际上,一个人的真实情绪不仅仅依靠人脸表情进行表达,个体的肢体动作也能表达一定的情绪信息。因此,本发明的研究主要集中在基于视频的个体姿态的情绪识别。
情绪识别是计算机视觉领域中的重要研究内容和方向,目前很多权威的国际期刊和顶级会议设有相关的主题和内容,且许多国外名校还开设了相关的课程。传统的基于视频的情绪识别方法主要依靠人工选取的特征,这一方法耗时耗力且取得的模型参数的泛化性能差,服务于情绪识别的程度有限。深度学习是人工智能领域发展的一个重要组成部分,近年来已成为人工智能领域非常热门的研究方向。它在许多领域(如图像识别、语音识别等)都取得了很大的突破,特别是在视频分析中已取得了较高的识别率和泛化能力。因此本专利利用深度学习在视频分析中的优势,对视频中个体情绪识别进行研究。
基于姿态信息的情绪识别在近几年才发展起来,相关的研究较少,主要集中于传统算法的研究。Li等[1]提出了一种利用原始骨架坐标和骨架运动进行行为识别与分类;Piana等[2]提出一个从全身运动出发的情绪自动识别模型和***,它用于帮助自闭症儿童学会识别和通过全身运动来表达情感。同样也有人将人体姿态的运动特征和高级的运动学几何特征进行组合,进行聚类进行分类。Crenn等[3]利用人的3D骨架序列得到运行数据等低层特征,然后将特征分解为几何特征、运动特征和傅里叶特征三种,计算这些低层特征的元特征(如均值、标准偏差等),最后采用分类器将元特征分类。深度学习不管在识别时间还是准确度上,与传统方法相比都有很大的提高,但是由于与姿态相关的情绪数据集的缺乏,采用深度学习进行基于姿态信息的个体情绪识别相关研究还很少。
发明内容
本发明的目的是提供一种基于姿态的个体情绪识别方法,将深度学习与视频中的人体姿态相结合,充分利用BN-inception+SPP网络结构的优越性,同时引入双流网络结构进行基于视频的个体情绪识别,有效学习个体姿态的情绪特征,得到较高的识别率。
为了方便说明,首先引入如下概念:
光流法:是一种简单实用的图像运动的表达方式,通常定义为一个图像序列中的图像亮度模式的表观运动,即空间物体表面上的点的运动速度在视觉传感器的成像平面上的表达。
卷积神经网络:一种多层前馈神经网络,每层由多个二维平面组成,每个平面的神经元独立工作,卷积神经网络包括卷积层和池化层。
双流卷积神经网络:针对视频行为特征的提取而设计,网络以单帧RGB原始图像和基于视频数据得到的光流图像分别作为两个输入,以实现对行为对象空间表观信息的表示及行为过程时序特征的提取。
空间金字塔池化(Space Pyramid Pooling,SPP):是由多个降采样层组合而成,它能够对由粗到细的对输入特征图进行划分,并把特征图转换为一个长度固定的特征向量,所以SPP层能够提取各种局部信息。
本发明具体采用如下技术方案:
提出了基于BN-inception双流网络的情绪识别方法,该方法的主要特征在于:
1.将个体姿态数据集划分为四个情绪类别:无聊(bored),激动(excited),生气(frantic),放松(relaxed);
2.在BN-inception双流网络的全连接层之前加入空间金字塔池化(SpacePyramid Pooling,SPP),对数据集分别进行时空网络的训练;
该方法主要包括以下步骤:
(1)将个体姿态序列数据集,划分为四个情绪类别:无聊,激动,生气,放松;
(2)采用文献[4]的光流算法生成数据集对应的光流图像序列,表示个体姿态的运动特征;
(3)将原始数据集和光流数据集分别按照比例划分为训练集、验证集和测试集;
(4)引入基于BN-inception的双流卷积神经网络模型,并在其全连接层之前加入SPP层优化BN-inception网络,利用训练集和验证集进行时空网络的训练,利用测试集进行验证;
(5)将基于BN-inception+SPP的空间流和时间流两通道网络进行平均融合,得到测试集上的准确度ACC(Accuracy)和宏平均精确度MAP(Macro Average Precision)。
附图说明
图1为本发明基于BN-inception+SPP双流网络的情绪识别整体框架示意图。
图2-a~图2-b为本发明在未加入SPP层时在测试集上得到的准确度混淆矩阵,其中,2-a为空间流BN-inception网络的测试矩阵,2-b为时间流BN-inception网络的测试矩阵。
图3-a~图3-b为本发明在加入SPP层时在测试集上得到的准确度混淆矩阵,其中,3-a为空间流BN-inception+SPP网络的测试矩阵,3-b为时间流BN-inception+SPP网络的测试矩阵。
图4为本发明将基于BN-inception+SPP的空间流和时间流两通道网络平均融合后,得到测试集上的ACC和MAP。
具体实施方式
下面结合附图及实施例对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
图1中,一种基于BN-inception+SPP双流网络的情绪识别方法,包括以下步骤:
(1)首先在得到公共空间的中的个体数据集之后,采用文献[4]的光流算法生成原始数据集的光流图像序列,表示个体姿态的运动特征;
(2)按比例将原始数据集和得到的光流数据集分别划分为测试集、验证集和训练集三部分,并给定对应的情绪类别;
(3)去掉图1所示的SPP层,将训练集和验证集的数据分别输入时空网络进行学习,得到训练模型,利用测试集的数据进行测试验证其效果;
(4)加入SPP层,将训练集以原始尺寸分别输入时空网络进行学习,得到训练模型,利用测试集集的数据进行测试验证其效果;
(5)将基于BN-inception+SPP的空间流和时间流两通道网络平均融合后,得到测试集上的ACC和MAP;
本发明采用Caffe对空间流和时间流两个通道的卷积神经网络分开进行训练,通过实验对时间流和空间流网络的参数进行了设置,如表1所示。由于建立的个体姿态情绪数据集的样本数量较少,为防止过拟合现象,采用了数据扩充和在网络中加入Dropout层的方法。
表1训练参数设置
Figure GDA0001789660910000041
参考文献:
[1]Li C,Zhong Q,Xie D,et al.Skeleton-based Action Recognition withConvolutional Neural Networks[J].2017:597-600.
[2]Piana S,
Figure GDA0001789660910000042
A,Odone F,et al.Adaptive Body GestureRepresentation for Automatic Emotion Recognition[J].ACM Transactions onInteractive Intelligent Systems(TiiS),2016,6(1):6.
[3]Crenn A,Khan R A,Meyer A,et al.Body Expression Recognition fromAnimated 3D Skeleton[C]//International Conference on 3D Imaging.IEEE,2017:1-7.
[4]Brox T,Bruhn A,Papenberg N,et al.High Accuracy Optical FlowEstimation Based on A Theory for Warping[C]//European Conference on ComputerVision(ECCV),2004:25-36.

Claims (3)

1.一种基于BN-inception+SPP双流网络的个体情绪识别方法,其特征在于:
a.将个体姿态数据集划分为四个情绪类别:无聊bored,激动excited,生气frantic,放松relaxed,给定每个序列的情绪类别;
b.在BN-inception双流网络的全连接层之前加入空间金字塔池化Space PyramidPooling,对数据集分别进行时空网络的训练;
c.该基于BN-inception+SPP的双流网络训练参数为基础学习率base_lr:0.00000001;学习率变化指数gamma:0.01;权重衰减weight_decay:0.005;最大迭代次数max_iter:150000;
该方法主要包括以下步骤:
(1)采用光流算法处理数据集生成对应的光流图像序列,表示个体姿态的运动特征;
(2)将数据集划分为训练集、验证集和测试集三部分,并给定每个序列的情绪类别;
(3)引入基于BN-inception的双流卷积神经网络模型,并在其全连接层之前加入SPP层优化BN-inception网络,利用训练集和验证集进行时空网络的训练,利用测试集进行验证;
(4)将基于BN-inception+SPP的空间流和时间流两通道网络进行平均融合,得到测试集上的准确度ACC和宏平均精确度MAP。
2.如权利要求1所述的基于BN-inception+SPP双流网络的个体情绪识别方法,其特征在于在步骤(3)中利用双流网络分别对数据集的时空特征进行学习。
3.如权利要求1所述的基于BN-inception+SPP双流网络的个体情绪识别方法,其特征在于在步骤(3)中首先在BN-inception双流网络的全连接层之前加入SPP层,使得训练集以原始尺寸输入网络,避免固定输入尺寸带来的运动信息丢失,接着再对数据集分别进行时空网络的训练。
CN201810579049.5A 2018-06-07 2018-06-07 一种基于BN-inception双流网络的情绪识别方法 Active CN108921037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810579049.5A CN108921037B (zh) 2018-06-07 2018-06-07 一种基于BN-inception双流网络的情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810579049.5A CN108921037B (zh) 2018-06-07 2018-06-07 一种基于BN-inception双流网络的情绪识别方法

Publications (2)

Publication Number Publication Date
CN108921037A CN108921037A (zh) 2018-11-30
CN108921037B true CN108921037B (zh) 2022-06-03

Family

ID=64418934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810579049.5A Active CN108921037B (zh) 2018-06-07 2018-06-07 一种基于BN-inception双流网络的情绪识别方法

Country Status (1)

Country Link
CN (1) CN108921037B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766856B (zh) * 2019-01-16 2022-11-15 华南农业大学 一种双流RGB-D Faster R-CNN识别哺乳母猪姿态的方法
CN109814565A (zh) * 2019-01-30 2019-05-28 上海海事大学 时空双流数据驱动深度q学习的无人船智能航行控制方法
CN109886160B (zh) * 2019-01-30 2021-03-09 浙江工商大学 一种非限定条件下的人脸识别方法
CN110147729A (zh) * 2019-04-16 2019-08-20 深圳壹账通智能科技有限公司 用户情绪识别方法、装置、计算机设备及存储介质
CN110175596B (zh) * 2019-06-04 2022-04-22 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN112131908B (zh) * 2019-06-24 2024-06-11 北京眼神智能科技有限公司 基于双流网络的动作识别方法、装置、存储介质及设备
CN110414561A (zh) * 2019-06-26 2019-11-05 武汉大学 一种适用于机器视觉的自然场景数据集的构建方法
CN111968091B (zh) * 2020-08-19 2022-04-01 南京图格医疗科技有限公司 一种临床图像中病变区域的检测和分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663429A (zh) * 2012-04-11 2012-09-12 上海交通大学 运动目标的运动模式分类和动作识别的方法
CN107368798A (zh) * 2017-07-07 2017-11-21 四川大学 一种基于深度学习的人群情绪识别方法
CN107491731A (zh) * 2017-07-17 2017-12-19 南京航空航天大学 一种面向精确打击的地面运动目标检测与识别方法
CN107944442A (zh) * 2017-11-09 2018-04-20 北京智芯原动科技有限公司 基于改进卷积神经网络的对象检测装置及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050265580A1 (en) * 2004-05-27 2005-12-01 Paul Antonucci System and method for a motion visualizer
CN103544963B (zh) * 2013-11-07 2016-09-07 东南大学 一种基于核半监督判别分析的语音情感识别方法
CN104732203B (zh) * 2015-03-05 2019-03-26 中国科学院软件研究所 一种基于视频信息的情绪识别与跟踪方法
CN106295568B (zh) * 2016-08-11 2019-10-18 上海电力学院 基于表情和行为双模态结合的人类自然状态情感识别方法
CN106897671B (zh) * 2017-01-19 2020-02-25 济南中磁电子科技有限公司 一种基于光流和Fisher Vector编码的微表情识别方法
CN107784114A (zh) * 2017-11-09 2018-03-09 广东欧珀移动通信有限公司 表情图像的推荐方法、装置、终端及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663429A (zh) * 2012-04-11 2012-09-12 上海交通大学 运动目标的运动模式分类和动作识别的方法
CN107368798A (zh) * 2017-07-07 2017-11-21 四川大学 一种基于深度学习的人群情绪识别方法
CN107491731A (zh) * 2017-07-17 2017-12-19 南京航空航天大学 一种面向精确打击的地面运动目标检测与识别方法
CN107944442A (zh) * 2017-11-09 2018-04-20 北京智芯原动科技有限公司 基于改进卷积神经网络的对象检测装置及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition;Kaiming He et al;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20150109;3 *
基于改进的深度卷积神经网络的人体动作识别方法;陈胜娣 等;《计算机应用研究》;20180207;2-3、5 *

Also Published As

Publication number Publication date
CN108921037A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108921037B (zh) 一种基于BN-inception双流网络的情绪识别方法
CN108520535B (zh) 基于深度恢复信息的物体分类方法
Liu et al. Two-stream 3d convolutional neural network for skeleton-based action recognition
Wang et al. Large-scale isolated gesture recognition using convolutional neural networks
Hu et al. 3D separable convolutional neural network for dynamic hand gesture recognition
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及***
CN105224942B (zh) 一种rgb-d图像分类方法及***
CN109919031A (zh) 一种基于深度神经网络的人体行为识别方法
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
CN104680141B (zh) 基于运动单元分层的人脸表情识别方法及***
Rioux-Maldague et al. Sign language fingerspelling classification from depth and color images using a deep belief network
CN109190479A (zh) 一种基于混合深度学习的视频序列表情识别方法
CN110580500A (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
Li et al. Sign language recognition based on computer vision
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN113221663A (zh) 一种实时手语智能识别方法、装置及***
CN107066979A (zh) 一种基于深度信息和多维度卷积神经网络的人体动作识别方法
CN109086664A (zh) 一种动静态融合的多态手势识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN110490915A (zh) 一种基于卷积受限玻尔兹曼机的点云配准方法
CN110889335B (zh) 基于多通道时空融合网络人体骨架双人交互行为识别方法
Tur et al. Isolated sign recognition with a siamese neural network of RGB and depth streams
Agrawal et al. Redundancy removal for isolated gesture in Indian sign language and recognition using multi-class support vector machine
Özbay et al. 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant