CN108921042B - 一种基于深度学习的人脸序列表情识别方法 - Google Patents

一种基于深度学习的人脸序列表情识别方法 Download PDF

Info

Publication number
CN108921042B
CN108921042B CN201810587517.3A CN201810587517A CN108921042B CN 108921042 B CN108921042 B CN 108921042B CN 201810587517 A CN201810587517 A CN 201810587517A CN 108921042 B CN108921042 B CN 108921042B
Authority
CN
China
Prior art keywords
network
face
face sequence
expression recognition
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810587517.3A
Other languages
English (en)
Other versions
CN108921042A (zh
Inventor
卿粼波
周文俊
吴晓红
何小海
熊文诗
滕奇志
熊淑华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201810587517.3A priority Critical patent/CN108921042B/zh
Publication of CN108921042A publication Critical patent/CN108921042A/zh
Application granted granted Critical
Publication of CN108921042B publication Critical patent/CN108921042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的人脸序列的表情分析方法,主要涉及利用多尺度人脸表情识别网络对人脸序列表情进行分类。该方法包括:构建多尺度人脸表情识别网络(其中包括处理128×128,224×224,336×336等不同分辨率的三个通道),并利用该网络并行提取不同分辨率的人脸序列中的特征,最后融合这三种特征,得到人脸序列表情的分类。本发明充分发挥深度学习的自我学习能力,避免了人工提取特征的局限性,使得本发明方法的适应能力更强。利用多流深度学习网络的结构特征,并行训练及预测,最后融合多个子网络的分类结果,提高了准确率及工作效率。

Description

一种基于深度学习的人脸序列表情识别方法
技术领域
本发明涉及视频分析领域中的人脸序列表情识别问题,尤其是涉及一种基于深度学习的多流神经网络对人脸序列表情分类的视频分析方法。
背景技术
人脸表情是人类情感识别的重要特征之一。达尔文在《人与动物的情感表达》一书中介绍了这一领域作为研究领域。人脸表情识别是指从给定的静态图像或动态视频序列中分离出特定的表情状态,从而确定被识别对象的心理情绪。目前,人脸表情自动识别有着广泛的应用,如数据驱动动画、神经营销、交互式游戏、社交机器人以及许多其他人机交互***。
而人脸表情识别又可分为基于静态图片的表情识别和基于视频序列的表情识别。视频大量存在于现实生活之中,如无人机视频监控,网络共享视频,3D视频等。相比于静态图片中的人脸表情分析,通过对视频中人脸表情进行分析将有助于动态的了解视频中的人的情感及情绪的变化,有着广阔的应用前景。比如疲劳驾驶,通过分析人表情的变化,人脸表情识别程序可分析出驾驶员是否处于疲劳状态,以防止交通事故的发生。
传统人脸表情识别方法中人工提取的特征维数过大,特征单一,计算复杂,且识别的效果直接与选取的特征有关。为避免人为因素对模型的影响,本文选择深度学习模型进行人脸表情识别的研究。深度学习(Deep Learning)是一个近几年备受关注的研究领域,在机器学习中起着重要的作用。深度学习通过建立、模拟人脑的分层结构来实现对外部输入的数据进行从低级到高级的特征提取,从而能够解释外部数据。深度学习强调网络结构的深度,通常有多个隐藏层,以用来突出特征学习的重要性。与人工规则构造特征的浅层结构相比,深度学习利用大量的数据来学习特征,更能够描述数据特有的丰富的特征信息。我们还可以通过学习一种深层非线性网络,实现复杂模型的逼近,表征输入数据分布式表示。
发明内容
本发明的目的是提供一种视频序列中人脸表情识别的方法,将深度学习与视频人脸表情相结合,充分发挥深度学习自我学习的优势,可以解决目前浅层学习的参数难以调整,需要人工选取特征,准确率不高等问题。
为了方便说明,首先引入如下概念:
人脸序列表情分类:对于视频序列中个体的情绪进行分析,将每个个体划分到正确的情绪类别之中。根据实际需求不同,可定义不同的人脸表情类别。
卷积神经网络(CNN):受视觉神经机制的启发而设计的,是为识别二维形状而设计的一种多层感知器,这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。
长短记忆型递归神经网络(LSTM):为了解决循环神经网络在时间上的梯度消失问题,机器学习领域发展出了长短时记忆单元LSTM,通过门的开关实现时间上记忆功能,防止梯度消失。
长效递归卷积神经网络(Long-term Recurrent Convolutional Networks,LRCN)[1]:结合了CNN与LSTM单元,首先,以视频单帧图像作为CNN的输入,实现对图像的空间信息建模,然后以视频连续帧作为LSTM的输入,实现对象的时序特征提取。
VGG-Face+LSTM:采用LRCN网络结构,其中CNN单元采用VGG-Face网络结构。
多尺度人脸序列表情识别网络:通过多个并行的子神经网络提取人脸序列不同分辨率的特征,然后将多个子神经网络进行加权融合形成多流神经网络。
数据集:其中包括YouTube Face数据集,AEFW 6.0数据集。
本发明具体采用如下技术方案:
提出了一种基于深度学习的人脸序列表情识别方法,该方法的主要特征在于:
1).将人脸序列处理成不同的分辨率;
2).采用不同的神经网络处理不同分辨率的人脸序列;
3).采用加权的方法对上述2中的多个网络通道进行融合,得到多尺度人脸序列表情识别网络模型;
该方法主要包括以下步骤:
A.多尺度人脸序列表情识别网络的训练,其具体包括:
A1.对视频序列进行预处理,其中通过人脸检测跟踪等视频分析技术获取人脸序列,将每个人脸序列处理为三个不同的分辨率,其中包括128×128,224×224,336×336;最后将上述人脸序列数据集分为训练集、测试集和验证集,并贴上定义好的几个情绪类别标签;
A2.采用LRCN结构的3通道多尺度人脸序列表情识别网络(Coarse Resolution通道,Normal Resolution通道,Fine Resolution通道等)分别对上述三种分辨率的人脸序列进行分析,其中Coarse Resolution通道(CS-stream)处理分辨率为128×128的人脸序列,Normal Resolution通道(NS-stream)处理分辨率为224×224的人脸序列,FineResolution通道(FS-stream)处理分辨率为336×336的人脸序列;
A3.训练时先将训练集和验证集中三种不同分辨率的人脸序列分别输入三个通道,完成整个网络的训练,最后融合,保存生成的网络与网络参数模型,以用于预测;
B.利用多尺度人脸序列表情识别网络与训练好的网络参数模型进行视频的人脸序列表情分类:
B1.提取步骤A1中生成的测试集视频的不同分辨率人脸图像序列,为分类做准备;
B2.利用多尺度人脸表情识别网络和步骤A中生成的网络参数模型,以步骤B1中计算的不同分辨率人脸图像序列作为输入,并融合三通道的分类结果,来预测该视频的人脸表情类别。
优选地,在步骤A1中的情绪类别标签包括bored、excited、frantic、relaxed。
优选地,在步骤A1中数据预处理包括:对每一个人脸序列进行采样得到三种不同分辨率的人脸序列。
优选地,在步骤A2中利用VGG-Face+LSTM网络作为CS-stream通道和NS-stream通道的基础网络模型;利用Deeper VGG-Face+LSTM作为FS-stream通道的基础网络模型。
优选地,在步骤B中预测时对人脸序列的三种不同分辨率分别分类处理,然后对三个通道的分类结果采用2:5:3的比例加权融合得到最终的人脸表情类别预测结果。
本发明的有益效果是:
(1)充分发挥深度学习的自我学习优势,机器自动学习良好的特征。当输入人脸序列时能够快速准确地提取特征,加权融合分类,避免了人工提取特征的局限性,适应能力更强。
(2)利用多尺度人脸序列表情识别网络的结构特征,对网络进行训练,预测,最后对结果进行融合,可以大大的减少训练所需时间,增加工作效率。
(3)结合多流深度学习网络,融合视频序列不同分辨率的特征,使分类结果更加准确、可靠。
(4)将深度学习与视频人脸表情识别相结合,解决传统方法准确率不高等问题,提高研究价值。
附图说明
图1为本发明的基于深度学习的人脸序列表情识别方法的流程图;
图2为多尺度人脸序列表情识别网络的组成图;
图3为本发明方法在本文测试集上将三通道的分类结果按2:5:3的比例融合的混淆矩阵。
具体实施方式
下面通过实例对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
图1中,基于深度学习的人脸序列表情识别方法,具体包括以下步骤:
(1)通过人脸检测跟踪等视频分析技术获取视频中的人脸序列,将人脸序列数据集分为bored,excited,frantic,relaxed四个不同的人脸表情类别,将分好等级的数据集按8:1:1的比例分为训练集、测试集和验证集,并制作数据标签。
(2)分别将上述步骤(1)中各数据集的视频序列进行采样处理,每个视频序列分别得到3种不同的分辨率人脸序列(包括128×128,224×224,336×336)。
(3)利用不同的网络通道处理不同分辨率下的人脸序列,本方法具体使用CS-stream通道处理分辨率为128×128的人脸序列,NS-stream通道分辨率为224×224的人脸序列;利用FS-stream通道处理分辨率为336×336的人脸序列,最后采用2:5:3的权重融合三个通道得到本方法的多尺度人脸序列表情识别网络。
(4)训练:其中采用VGG-Face+LSTM作为CS-stream通道与NS-stream通道的基础网络,Deeper VGG-Face+LSTM在VGG-Face+LSTM网络的基础上添加了两个卷积层作为FS-stream通道的基础网络,对三通道网络加权融合得到多尺度人脸表情识别网络,然后从上述步骤(2)处理过的训练集和验证集中取1/10的数据对多尺度人脸序列表情识别网络微调,验证输入数据是否有效,如果无效则重新生成输入数据。接着利用步骤(2)中训练集和验证集对多尺度人脸序列表情识别网络进行训练。这里先对网络的CNN部分进行训练,然后用CNN提取的特征对LSTM部分进行训练,最后得到训练完成的网络的参数模型,用于预测网络。
(5)多尺度人脸表情识别网络加载步骤(4)中得到的网络参数模型。
(6)将上述步骤(2)的验证集视频的不同分辨率序列分别输入预测网络的三个通道。
(7)将三个通道得到的结果采用2:5:3的权重融合得到预测结果。
参考文献
[1]Donahue J,Anne Hendricks L,Guadarrama S,et al.Long-term recurrentconvolutional networks for visual recognition and description[C]//Proceedingsof the IEEE conference on computer vision and pattern recognition.2015:2625-2634.

Claims (3)

1.一种基于深度学习的人脸序列表情识别方法,其特征在于:
1).将人脸序列处理成不同的分辨率分别处理;
2).采用不同的神经网络处理不同分辨率的人脸序列;
3).采用加权的方法对上述2)中的多个网络通道进行融合,得到多尺度人脸序列表情识别网络模型;
该方法包括以下步骤:
A.多尺度人脸序列表情识别网络的训练,其具体包括:
A1.对视频序列进行预处理,其中通过人脸检测跟踪的视频分析技术获取人脸序列,将每个人脸序列处理成三种不同的分辨率,这三种不同的分辨率包括128×128,224×224,336×336;最后将上述三种不同分辨率的人脸序列分为训练集、测试集和验证集,并贴上定义好的情绪类别标签;
A2.采用长效递归卷积神经网络(Long-term Recurrent Convolutional Networks,LRCN)结构的三通道多尺度人脸序列表情识别网络分别对上述三种不同的分辨率的人脸序列进行分析,所述三通道是指Coarse Resolution通道即CS-stream,Normal Resolution通道即NS-stream,Fine Resolution通道即FS-stream,其中CS-stream处理分辨率为128×128的人脸序列,NS-stream处理分辨率为224×224的人脸序列,FS-stream处理分辨率为336×336的人脸序列;
A3.训练时先将训练集和验证集中三种不同分辨率的人脸序列分别输入多尺度人脸序列表情识别网络的三个通道,完成整个网络的训练,最后融合三通道并保存生成的网络与网络参数模型,以用于预测;
所述步骤A中利用不同网络提取不同分辨率的人脸序列中的时空特征,采用VGG-Face+LSTM作为CS-stream通道与NS-stream通道的基础网络,Deeper VGG-Face+LSTM在VGG-Face+LSTM网络的基础上添加了两个卷积层作为FS-stream通道的基础网络,对三通道网络采用2:5:3的权重融合得到多尺度人脸表情识别网络;
B.利用多尺度人脸序列表情识别网络与训练好的网络参数模型进行视频的人脸序列表情分类:
B1.提取步骤A1中生成的测试集中的不同分辨率的人脸序列,为分类做准备;
B2.利用多尺度人脸表情识别网络和步骤A中生成的网络参数模型,以步骤B1中提取的不同分辨率人脸序列作为输入,并融合三通道的分类结果,预测该视频的人脸表情类别。
2.如权利要求1所述的基于深度学习的人脸序列表情识别方法,其特征在于步骤A1中的情绪类别标签包括bored,excited,frantic,relaxed。
3.如权利要求1所述的基于深度学习的人脸序列表情识别方法,其特征在于步骤B中预测时对人脸序列的不同分辨率分别分类处理,然后对三个通道的分类结果采用2:5:3的权重融合得到最终的人脸表情识别预测结果。
CN201810587517.3A 2018-06-06 2018-06-06 一种基于深度学习的人脸序列表情识别方法 Active CN108921042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810587517.3A CN108921042B (zh) 2018-06-06 2018-06-06 一种基于深度学习的人脸序列表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810587517.3A CN108921042B (zh) 2018-06-06 2018-06-06 一种基于深度学习的人脸序列表情识别方法

Publications (2)

Publication Number Publication Date
CN108921042A CN108921042A (zh) 2018-11-30
CN108921042B true CN108921042B (zh) 2019-08-23

Family

ID=64417989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810587517.3A Active CN108921042B (zh) 2018-06-06 2018-06-06 一种基于深度学习的人脸序列表情识别方法

Country Status (1)

Country Link
CN (1) CN108921042B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815785A (zh) * 2018-12-05 2019-05-28 四川大学 一种基于双流卷积神经网络的人脸情绪识别方法
CN110069994B (zh) * 2019-03-18 2021-03-23 中国科学院自动化研究所 基于人脸多区域的人脸属性识别***、方法
CN110135242B (zh) * 2019-03-28 2023-04-18 福州大学 基于低分辨率红外热成像深度感知的情绪识别装置及方法
CN110084122B (zh) * 2019-03-28 2022-10-04 南京邮电大学 基于深度学习的动态人脸情绪识别方法
CN110046576A (zh) * 2019-04-17 2019-07-23 内蒙古工业大学 一种训练识别面部表情的方法和装置
CN110163145A (zh) * 2019-05-20 2019-08-23 西安募格网络科技有限公司 一种基于卷积神经网络的视频教学情感反馈***
CN110175998A (zh) * 2019-05-30 2019-08-27 沈闯 基于多尺度深度学习的乳腺癌图像识别方法、装置及介质
CN110648170A (zh) * 2019-09-02 2020-01-03 平安科技(深圳)有限公司 一种物品推荐的方法及相关装置
CN111339847B (zh) * 2020-02-14 2023-04-14 福建帝视信息科技有限公司 一种基于图卷积神经网络的人脸情绪识别方法
CN111310734A (zh) * 2020-03-19 2020-06-19 支付宝(杭州)信息技术有限公司 保护用户隐私的人脸识别方法和装置
CN111709278B (zh) * 2020-04-30 2022-09-06 北京航空航天大学 一种识别猕猴面部表情的方法
CN112149756A (zh) * 2020-10-14 2020-12-29 深圳前海微众银行股份有限公司 模型训练方法、图像识别方法、装置、设备及存储介质
TWI744057B (zh) * 2020-10-27 2021-10-21 國立成功大學 深度偽造影片檢測系統及其方法
CN116798103B (zh) * 2023-08-29 2023-12-01 广州诚踏信息科技有限公司 基于人工智能的人脸图像处理方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932846A (zh) * 2006-10-12 2007-03-21 上海交通大学 基于外表模型的视频人脸跟踪识别方法
CN107958230A (zh) * 2017-12-22 2018-04-24 中国科学院深圳先进技术研究院 人脸表情识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824272B (zh) * 2014-03-03 2016-08-17 武汉大学 基于k近邻重识别的人脸超分辨率重建方法
CN105960647B (zh) * 2014-05-29 2020-06-09 北京旷视科技有限公司 紧凑人脸表示
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932846A (zh) * 2006-10-12 2007-03-21 上海交通大学 基于外表模型的视频人脸跟踪识别方法
CN107958230A (zh) * 2017-12-22 2018-04-24 中国科学院深圳先进技术研究院 人脸表情识别方法及装置

Also Published As

Publication number Publication date
CN108921042A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108921042B (zh) 一种基于深度学习的人脸序列表情识别方法
CN107368798B (zh) 一种基于深度学习的人群情绪识别方法
CN105354548B (zh) 一种基于ImageNet检索的监控视频行人重识别方法
CN109815785A (zh) 一种基于双流卷积神经网络的人脸情绪识别方法
Qin et al. Applying the convolutional neural network deep learning technology to behavioural recognition in intelligent video
CN105787458B (zh) 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN105590099B (zh) 一种基于改进卷积神经网络的多人行为识别方法
CN110363131B (zh) 基于人体骨架的异常行为检测方法、***及介质
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109919031A (zh) 一种基于深度神经网络的人体行为识别方法
CN106529477B (zh) 基于显著轨迹和时空演化信息的视频人体行为识别方法
CN111626116B (zh) 基于融合多注意力机制和Graph的视频语义分析方法
CN110502988A (zh) 视频中的组群定位与异常行为检测方法
CN107122050B (zh) 基于csfl-gdbn的稳态运动视觉诱发电位脑-机接口方法
CN107808139A (zh) 一种基于深度学习的实时监控威胁分析方法及***
CN108921037B (zh) 一种基于BN-inception双流网络的情绪识别方法
CN110348381A (zh) 一种基于深度学习的视频行为识别方法
CN109376613A (zh) 基于大数据和深度学习技术的视频智能监控***
CN109871124A (zh) 基于深度学习的情感虚拟现实场景评估方法
CN113283438A (zh) 基于多源显著性和时空榜样适配的弱监督视频目标分割方法
CN112836105B (zh) 一种基于运动生理表征融合的大规模学生有氧能力分群方法
CN104144328A (zh) 一种智能视频监控方法
CN109614896A (zh) 一种基于递归卷积神经网络的视频内容语义理解的方法
Tomar et al. Crowd analysis in video surveillance: A review
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant