CN108038434B - 基于多示例学习的视频人脸表情预检测方法 - Google Patents

基于多示例学习的视频人脸表情预检测方法 Download PDF

Info

Publication number
CN108038434B
CN108038434B CN201711262030.XA CN201711262030A CN108038434B CN 108038434 B CN108038434 B CN 108038434B CN 201711262030 A CN201711262030 A CN 201711262030A CN 108038434 B CN108038434 B CN 108038434B
Authority
CN
China
Prior art keywords
detection
video
frame
image
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711262030.XA
Other languages
English (en)
Other versions
CN108038434A (zh
Inventor
谢利萍
魏海坤
张金霞
郭伟立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711262030.XA priority Critical patent/CN108038434B/zh
Publication of CN108038434A publication Critical patent/CN108038434A/zh
Application granted granted Critical
Publication of CN108038434B publication Critical patent/CN108038434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多示例学习的视频人脸表情预检测方法,包括:(1)对训练样本和待测试样本的视频数据进行预处理,提取出视频中每帧图像的人脸面部区域;(2)采用LBP描述子对预处理得到的每帧图像的人脸面部区域进行特征抽取,得到每帧图像的特征向量;(3)根据训练样本的特征向量,基于多示例学习,采用扩展的结构化输出支持向量机,求解表情预检测函数;(4)使用步骤(3)中得到的预检测函数,根据步骤(2)的待测试样本的特征向量,进行人脸表情预检测,得到表情预检测结果。本发明可以实时监测表情,识别率高。

Description

基于多示例学习的视频人脸表情预检测方法
技术领域
本发明涉及表情检测方法,尤其涉及一种基于多示例学习的视频人脸表情预检测方法。
背景技术
表情是人类传播情感信息,辨认对方的态度和内心世界的重要方式,人脸表情识别技术是机器人理解人类感情的基础,为实现高效智能的人机交互与多媒体信息处理等领域的研究提供技术支持。近年来,基于视频的人脸表情识别研究获得了国内外研究者们的广泛关注。2016年,夏季达沃斯论坛展出的由中国科学技术大学研制的中国首台体验交互美女机器人“佳佳”就是人脸表情识别技术的一次精彩亮相,而同场现身的日本东芝公司研发的ChihiraAico更是内置了人脸表情***,能够表达与人类相似的开心、难过等逼真的面部表情。
传统的人脸表情识别方法流程为:数据预处理,特征提取,特征降维或特征融合,表情识别分类。尽管取得了较好的表情识别率,但是人脸表情的展示有一个过程,如果采用这些传统的识别方法,无法及时地对表情进行识别。本发明主要针对这一实际问题提出了一种表情预检测方法,表情预检测的目标是在一个表情开始之后,结束之前尽早地对判断出该事件,如图1所示。表情识别的及时性在实现实时人机交互中起着至关重要的作用,但目前,表情预检测仍是一个相对较新的,也是更具挑战的一个研究方向,相关研究少之又少。
事件预检测是Hoai等人发表在2012年CVPR(IEEE国际计算机视觉与模式识别会议)的工作首次提出的概念,并提出了边缘最大化预检测算法(Max-Margin Early EventDetectors,MMED),MMED是最经典的也是应用最广泛的事件预检测模型,在表情预检测中也取得了较好的效果。相较于传统的表情识别方法,表情预检测模型需要对不完整的目标片断进行检测,因而通常对训练样本进行扩展,用提取出的各种长度不同的视频片断训练模型,所以视频片断的特征表示起着至关重要的作用。但是MMED算法在提取视频片断特征时,只用了第一帧和最后一帧的图像信息,使得对整个片断的信息挖掘不够充分,模型缺乏灵活性,降低了识别率。
Hoai等人的工作使得事件预检测相关的研究得到更多的关注,也有一些关于视频表情预检测的算法被相继提出。Lumei等人提出了early AdaBoost算法(“Early facialexpression recognition using early rankboost”)来进行三维的表情识别,但是在测试阶段,表情的预检测需要图像序列的长度,而序列长度只有在读取完整个表情图像序列后才能得到,所以这不能用来实时检测。Schuller等人也作了比较相似的研究(“Avec 2012:the continuous audio/visual emotion challenge”),在AVEC2012数据集上识别图像各个帧的标签,这就需要在训练阶段给出每个图像序列中各个帧的标签,但在表情预检测中,对于每个图像序列,只有一个标签。这些算法都不能实现真正的实时表情检测。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种基于多示例学习的视频人脸表情预检测方法MIEFD(multi-instance learning model for early facialexpression detection),灵活性大,识别率高,可以实现实时表情检测。
技术方案:本发明所述的基于多示例学习的视频人脸表情预检测方法包括:
(1)对训练样本和待测试样本的视频数据进行预处理,提取出视频中每帧图像的人脸面部区域;
(2)采用LBP描述子对预处理得到的每帧图像的人脸面部区域进行特征抽取,得到每帧图像的特征向量;
(3)根据训练样本的特征向量,采用扩展的结构化输出支持向量机,求解表情预检测函数;
(4)使用步骤(3)中得到的预检测函数,根据步骤(2)的待测试样本的特征向量,进行人脸表情预检测,得到表情预检测结果。
进一步的,所述步骤(1)具体包括:
(1-1)对于训练样本和待测试样本的视频数据,采用深度串联卷积神经网络,提取视频中每帧图像中人脸的5个关键点位置坐标,包括两个眼睛、鼻尖点和嘴角左右两点;
(1-2)固定两个眼睛和鼻尖点的位置,通过仿射变换实现人脸关键点对齐;
(1-3)对于对齐后的图像,裁剪出人脸面部区域。
进一步的,所述步骤(2)具体包括:
(2-1)将预处理得到的每帧图像的人脸面部区域,划分为多个4×4像素的单元;
(2-2)对于每个单元中的每个像素点,以该像素点为中心点,将半径为3像素的邻域中8个像素点的灰度值与中心点比较,将大于中心点灰度值的像素点标记为1,反之则标记为0,通过顺序读取邻域像素点标记得到一个8位二进制码,将该8位二进制码的十位进制数记为该中心点的LBP值;
(2-3)计每个LBP值出现的频率,然后进行归一化处理,得到每个单元的直方图;
(2-4)将一个图像中的所有单元的直方图进行串联,得到该图像的LBP特征向量。
进一步的,所述步骤(3)具体包括:
(3-1)从每个训练样本中抽取多个视频片断,两个视频片断构成一个约束对,从而得到多个约束对;
(3-2)建立多示例学习的人脸表情预检测目标优化函数为:
Figure GDA0002451979090000031
Figure GDA0002451979090000032
Figure GDA0002451979090000033
式中,{w,b}为需要训练求取的参数,γ表示平衡参数,n为训练样本的个数,Ci为训练样本Vi中提取出的约束对的个数,c表示约束对的标号,
Figure GDA0002451979090000034
为损失函数,
Figure GDA0002451979090000035
表示训练样本Vi中抽取的约束对c中的两个视频片断的包,
Figure GDA0002451979090000036
表示
Figure GDA0002451979090000037
中的表情片断所占的比例,μ(·)表示在某个时刻,目标事件占整个视频片断的比例,
Figure GDA0002451979090000038
Figure GDA0002451979090000039
分别表示
Figure GDA00024519790900000310
中的第j个子片段示例,
Figure GDA00024519790900000311
分别表示
Figure GDA00024519790900000312
子片段示例的总数,g(·)表示求输入片断包的预检测值,
Figure GDA00024519790900000313
为预检测函数,
Figure GDA00024519790900000314
表示子片段示例·的特征向量,
Figure GDA00024519790900000315
表示边界,
Figure GDA00024519790900000316
表示训练样本Vi在时刻t时已经发生的部分图像帧,
Figure GDA00024519790900000317
表示从第1帧到第t帧的片断子集,Li表示训练样本Vi的总帧长;本发明中,片断包的输出取其所包含的片断示例检测函数的平均值,即
Figure GDA00024519790900000318
Figure GDA00024519790900000319
(3-3)求解所述目标优化函数得到参数w,b,将其带入公式
Figure GDA00024519790900000320
得到预检测函数。
进一步的,所述步骤(3-3)具体包括:
(3-3-1)初始化目标优化函数中待求取参数w,b,γ为0;
(3-3-2)根据初始化参数值,对每个训练样本,提取r个最有效的约束对;
(3-3-3)设定所有训练样本的总约束对个数的上限为R,若超过该上限值,对约束对进行删减,保留对优化模型最有效的R个约束对;
(3-3-4)通过二次规划求解该目标优化问题,得到参数w,b,γ的当前值;
(3-3-5)重复步骤(3-3-2)至(3-3-4)直至算法收敛,得到最终的w,b,γ的最优值。
其中,所述约束对满足以下条件:
A有效性:计算每个约束对的损失函数值,如果损失小于或等于0,则约束对无效,反之,则为有效;
B小于预设重叠率阈值:约束对的两个视频片断的重叠率小于预设阈值,重叠率pd的计算公式为
Figure GDA0002451979090000041
式中,
Figure GDA0002451979090000042
表示训练样本Vi中抽取的约束对c所包含的两个视频片断,s(·)、e(·)分别表示视频的起始和结束。
进一步的,所述步骤(4)具体包括:
(4-1)对于第k个待测试样本Vk,逐帧读取每帧的特征向量,并根据历史数据采用预检测函数计算每帧图像对应的检测值,k=1,…,m,m为待测试样本的个数;其中,在时刻t,检测值为:
Figure GDA0002451979090000043
式中,
Figure GDA0002451979090000044
表示Vk中片段I对应的图像帧,
Figure GDA0002451979090000045
表示在时刻t所包含的所有视频片段的最大检测值,t0表示检测初始时刻,f(·)预检测函数;其中,
Figure GDA0002451979090000046
(4-2)若检测值大于预设阈值,则认为当前时刻检测到该表情事件,当检测到该表情事件结束时,预检测清空历史数据,重新开始检测下一个事件。
有益效果:本发明与现有技术相比,其显著优点是:
1、基于多示例学习的表情预检测方案,能够检测识别不完整的表情片断,对待检测样本,能够在读取每帧图像的同时,实时给出当前帧对应的检测值,并随着读取帧数的增加,不断修正检测值,为实现真正的实时人机交互提供技术支持。
2、基于多示例学习,将每个视频片断看作一个包,包中的一个示例表示该片断的一个子集,能够更有效充分地挖掘片断中的有价值信息,提高识别的正确性和及时性。而且不同的示例构成和整合方案使得该方法更具灵活性,能够适应不用场景的应用需求。
3、通过减少不同视频片断之间的重叠率,并充分考虑其互补性来选取对预检测算法最有效的训练数据集,充分保障了算法的鲁棒性。
4、基于约束对生成策略,通过二次规划寻找模型的最优解,大大减少了训练对计算机的内存消耗,降低了运行成本。
附图说明
图1为本发明的方法流程图;
图2为基于视频的表情预检测示意图;
图3为LBP算子示意图(半径为3,领域像素点个数为8);
图4为LBP算子编码示意图;
图5为CASIA数据库下不同方法在多次实验下的AMOC曲线均值对比图;
图6为CASIA数据库下不同方法归一化的预检测时间对比样例示意图。
具体实施方式
本实施例提供了一种基于多示例学习的视频人脸表情预检测方法MIEFD,如图1所示,包括以下步骤:
(1)对训练样本和待测试样本的视频数据进行预处理,提取出视频中每帧图像的人脸面部区域。该步骤具体包括:
(1-1)对于训练样本和待测试样本的视频数据,采用王晓刚等人在CVPR13提出的深度串联卷积神经网络(Deep Convolutional Network Cascade),提取视频中每帧图像中人脸的5个关键点位置坐标,包括两个眼睛、鼻尖点和嘴角左右两点。
脸部关键点检测对人脸分析、识别来说至为重要,王晓刚等人发表在CVPR13上的论文“Deep Convolutional Network Cascade for Facial Point Detection”提出了一种三级卷积神经网络的级联回归器新方法。在第一级,把整张脸作为输入,最好地利用了上下文信息,并在深度构架的高层提取了全局的高级特征,做出了准确的关键点位置估计。另外两级网络在这基础上提高精度。
(1-2)固定两个眼睛和鼻尖点的位置,通过仿射变换实现人脸关键点对齐。
人脸对齐是指通过对图像按比例缩放、旋转、平移或剪切等仿射变换,将不同大小、形状、姿态的人脸图像对齐到一个“标准人脸”的过程。相关研究表明鼻尖点和两个眼睛中心点的位置不易受面部表情的影响,因此本发明固定提取出的这三个点的位置坐标,通过仿射变换来实现人脸对齐。假定(x,y)为变换后人脸图像上某个关键点位置,(x',y')是对应的变换前的坐标位置,a,b,c,d,s,θ,是仿射变换系数,那么变换前后的关键点位置间关系如下:
Figure GDA0002451979090000061
3个关键点仿射变换前位置为:左侧眼睛(xl,yl),右侧眼睛(xr,yr),鼻尖点(xc,yc),通过上述变换式可以得到
Figure GDA0002451979090000062
利用最小二乘法求解该线性方程的解,假定待求解变量为h=[a,b,c,d]T,h左侧矩阵用符号K表示,等式右边的向量用U表示,则方程的解为:h=(KTK)-1(KTU),通过仿射变换h即可实现不同大小、形状、姿态下的人脸图像关键点的对齐,方便后续的人脸表情图像特征提取。
(1-3)对于对齐后的图像,裁剪出人脸面部区域。
(2)采用LBP描述子对预处理得到的每帧图像的人脸面部区域进行特征抽取,得到每帧图像的特征向量。该步骤具体包括:
(2-1)将预处理得到的每帧图像的人脸面部区域,划分为多个4×4像素的单元。
(2-2)对于每个单元中的每个像素点,以该像素点为中心点,将半径为3像素的邻域中8个像素点的灰度值与中心点比较(如图3所示),将大于中心点灰度值的像素点标记为1,反之则标记为0,通过顺序读取邻域像素点标记得到一个8位二进制码,将该8位二进制码的十位进制数记为该中心点的LBP值。
其中,局部二元模式(LBP)描述子可以对灰度图像中局部邻近区域的纹理信息进行度量和提取,同时时融合纹理的统计特征和结构特征,不受光照变化等影响,具有灰度不变性和旋转不变性等优点。如图2所示,以3×3像素为区域,半径为1的窗口的LBP编码过程为例,将中心像素点的灰度值为阈值,将周围相邻的4个像素的灰度值与中心灰度值进行比较,大于该阈值的像素点,其相应位置标记为1,反之则标记为0,通过给不同位置的标记赋予不同的权重,将这个3×3窗口表示为一个4位的二进制码,然后根据以下公式转换为一个无符号整数:
Figure GDA0002451979090000071
Figure GDA0002451979090000072
其中,R为邻域半径,P为邻域像素点的个数,gp,gc分别为邻域像素和中点像素的灰度值,计算得到的值就是该窗口的LBP值,
(2-3)计每个LBP值出现的频率,然后进行归一化处理,得到每个单元的直方图。
(2-4)将一个图像中的所有单元的直方图进行串联,得到该图像的LBP特征向量。
即通过对整个人脸图像逐行逐列扫描,最后统计整张图像中各个不同LBP值的出现频率作为图像的特征向量,即LBP算子。
(3)根据训练样本的特征向量,采用扩展的结构化输出支持向量机,求解表情预检测函数。例如图4所示。
不同于传统的表情识别方法,只需识别完整的表***,预检测算法需要对不完整的表情片断进行准确检测,为了辨别信息量不同的两个片断,本发明通过模型求解得到一个单调性的预检测函数f,使得信息量越大的片断对应的函数值越大。
该步骤具体包括:
(3-1)从每个训练样本中抽取多个视频片断,两个视频片断构成一个约束对,从而得到多个约束对。
其中,抽取的约束对应当满足以下条件:
A有效性:计算每个约束对的损失函数值,如果损失小于或等于0,则约束对无效,反之,则为有效;根据值的大小,将所有约束对按有效性从高到低进行排序。
B小于预设重叠率阈值:约束对的两个视频片断的重叠率小于预设阈值,重叠率pd的计算公式为
Figure GDA0002451979090000073
式中,
Figure GDA0002451979090000074
表示训练样本Vi中抽取的约束对c所包含的两个视频片断,s(·)、e(·)分别表示视频的起始和结束。本发明中重叠率阈值可以设置为0.7。
(3-2)建立多示例学习的人脸表情预检测目标优化函数为:
Figure GDA0002451979090000075
Figure GDA0002451979090000076
Figure GDA0002451979090000077
式中,{w,b}为需要训练求取的参数,γ表示平衡参数,n为训练样本的个数,Ci为训练样本Vi中提取出的约束对的个数,c表示约束对的标号,
Figure GDA0002451979090000081
为损失函数,
Figure GDA0002451979090000082
表示训练样本Vi中抽取的约束对c中的两个视频片断的包,
Figure GDA0002451979090000083
表示
Figure GDA0002451979090000084
中的表情片断所占的比例,μ(·)表示在某个时刻,目标事件占整个视频片断的比例,
Figure GDA0002451979090000085
Figure GDA0002451979090000086
分别表示
Figure GDA0002451979090000087
中的第j个子片段示例,
Figure GDA0002451979090000088
分别表示
Figure GDA0002451979090000089
子片段示例的总数,g(·)表示求输入片断包的预检测值,
Figure GDA00024519790900000810
为预检测函数,
Figure GDA00024519790900000811
表示子片段示例·的特征向量,
Figure GDA00024519790900000812
表示边界,
Figure GDA00024519790900000813
表示训练样本Vi在时刻t时已经发生的部分图像帧,
Figure GDA00024519790900000814
表示从第1帧到第t帧的片断子集,Li表示训练样本Vi的总帧长。本发明中,片断包的输出取其所包含的片断示例检测函数的平均值,即
Figure GDA00024519790900000815
Figure GDA00024519790900000816
本发明基于多示例学习,把每个视频片断看作一个包,包中的一个示例表示该片断的一个片段子集。示例的特征用首尾帧图像对应的特征向量相减得到,包的输出通过整合各个示例检测值得到。通过不同的示例生成和整合策略,能够更充分地挖掘片断中的有用信息,也使该方法更具灵活性,能够适应不用场景的应用需求。然后基于结构化输出支持向量机,根据训练数据,对模型进行优化,得到预检测函数f。
(3-3)求解所述目标优化函数得到参数w,b,将其带入公式
Figure GDA00024519790900000817
得到预检测函数。
其中,目标优化函数是一个典型的带约束凸优化问题,可以通过二次规划得到模型解。但由于模型包含的约束对较多,为了降低对计算机内存的需求,本发明采用约束对生成策略进行优化,具体过程如下:
(3-3-1)初始化目标优化函数中待求取参数w,b,γ为0;
(3-3-2)根据初始化参数值,对每个训练样本,提取15个最有效的约束对;
(3-3-3)设定所有训练样本的总约束对个数的上限为2000,若超过该上限值,对约束对进行删减,保留对优化模型最有效的2000个约束对;
(3-3-4)通过二次规划求解该目标优化问题,得到参数w,b,γ的当前值;
(3-3-5)重复步骤(3-3-2)至(3-3-4)直至算法收敛,得到最终的w,b,γ的最优值。
人类的六个基本表情分别为:高兴,愤怒,厌恶,恐惧,惊讶和悲伤。本发明的任务是识别并预检测出消极表情:愤怒,厌恶,恐惧和悲伤;其余表***样本即为负样本。
(4)使用步骤(3)中得到的预检测函数,根据步骤(2)的待测试样本的特征向量,进行人脸表情预检测,得到表情预检测结果。该步骤具体包括:
(4-1)对于第k个待测试样本Vk,逐帧读取每帧的特征向量,并根据历史数据采用预检测函数计算每帧图像对应的检测值,k=1,…,m,m为待测试样本的个数;其中,在时刻t,检测值为:
Figure GDA0002451979090000091
式中,
Figure GDA0002451979090000092
表示Vk中片段I对应的图像帧,
Figure GDA0002451979090000093
表示在时刻t所包含的所有视频片段的最大检测值,t0表示检测初始时刻,f(·)预检测函数;其中,
Figure GDA0002451979090000094
(4-2)若检测值大于预设阈值,则认为当前时刻检测到该表情事件,当检测到该表情事件结束时,预检测清空历史数据,重新开始检测下一个事件。
为了验证所提方法的有效性,本发明分别与其他三个方法进行了比较,分别是:FrmPeak,FrmAll和MMED。其中,FrmPeak和FrmAll是基于帧训练的支持向量机模型,FrmPeak模型中,所有训练样本只取峰值状态的图像作为训练数据;FrmAll模型中,取所有视频样本的所有图像作为训练数据,若该视频为正样本,则视频中所有图像都设为正样本;在测试阶段,FrmPeak和FrmAll都是将训练得到的支持向量对每帧图像进行分类识别。
实验中采用人脸表情识别中经典的数据库:Oulu-CASIA VIS(“Facialexpression recognition from near-infrared videos”)。为了方便,用CASIA替代表示。所有实验结果取5次实验的平均值。
表1.本发明方法与其他方法的对比实验结果
FrmPeak FrmAll MMED MIEFD
AUC 0.7600±0.0053 0.7841±0.0057 0.8426±0.0160 0.8771±0.0093
表1比较了不同方法的AUC值,AUC值越大,说明识别率越高。实验结果表明:1)FrmAll SVM的识别的正确率优于FrmPeak SVM,这说明仅仅用一帧峰值状态的图像来表示一个表情是不够的,表情的时间信息的有效利用能提高识别效率。2)基于视频片断的方法(MMED,MIEFD),相比基于图像帧的SVM,识别率将大大提高,因为视频中包含更多的信息。3)本发明提出的MIEFD相比MMED,性能明显提升,因为通过引入多示例学习,视频片断中的有效信息得到更充分的挖掘。
图5比较了不同方法的AMOC值,AMOC值越小,说明表情的预检测越及时。实验结果表明:1)基于视频片断的方法(MMED,MIEFD)在识别结果的及时性上远远优于基于图像帧的方法;2)与MMED相比,MIEFD的识别及时性提升非常大。图6是不同方法检测到表情事件的归一化时间的示意图。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (6)

1.一种基于多示例学习的视频人脸表情预检测方法,其特征在于该方法包括:
(1)对训练样本和待测试样本的视频数据进行预处理,提取出视频中每帧图像的人脸面部区域;
(2)采用LBP描述子对预处理得到的每帧图像的人脸面部区域进行特征抽取,得到每帧图像的特征向量;
(3)根据训练样本的特征向量,采用扩展的结构化输出支持向量机,求解表情预检测函数;该步骤具体包括:
(3-1)从每个训练样本中抽取多个视频片断,两个视频片断构成一个约束对,从而得到多个约束对;
(3-2)建立多示例学习的人脸表情预检测目标优化函数为:
Figure FDA0002440678440000011
s.t.
Figure FDA0002440678440000012
Figure FDA0002440678440000013
式中,{w,b}为需要训练求取的参数,γ表示平衡参数,n为训练样本的个数,Ci为训练样本Vi中提取出的约束对的个数,c表示约束对的标号,
Figure FDA0002440678440000014
为损失函数,
Figure FDA0002440678440000015
表示训练样本Vi中抽取的约束对c中的两个视频片断的包,
Figure FDA0002440678440000016
表示
Figure FDA0002440678440000017
中的表情片断所占的比例,μ(·)表示在某个时刻,目标事件占整个视频片断的比例,
Figure FDA0002440678440000018
分别表示
Figure FDA0002440678440000019
中的第j个子片段示例,
Figure FDA00024406784400000110
分别表示
Figure FDA00024406784400000111
子片段示例的总数,g(·)表示求输入片断包的预检测值,
Figure FDA00024406784400000112
为预检测函数,
Figure FDA00024406784400000113
表示子片段示例·的特征向量,
Figure FDA00024406784400000114
表示边界,
Figure FDA00024406784400000115
表示训练样本Vi在时刻t时已经发生的部分图像帧,
Figure FDA00024406784400000116
表示从第1帧到第t帧的片断子集,Li表示训练样本Vi的总帧长;
(3-3)求解所述目标优化函数得到参数w,b,将其带入公式
Figure FDA0002440678440000021
得到预检测函数;
(4)使用步骤(3)中得到的预检测函数,根据步骤(2)的待测试样本的特征向量,进行人脸表情预检测,得到表情预检测结果。
2.根据权利要求1所述的基于多示例学习的视频人脸表情预检测方法,其特征在于:所述步骤(1)具体包括:
(1-1)对于训练样本和待测试样本的视频数据,采用深度串联卷积神经网络,提取视频中每帧图像中人脸的5个关键点位置坐标,包括两个眼睛、鼻尖点和嘴角左右两点;
(1-2)固定两个眼睛和鼻尖点的位置,通过仿射变换实现人脸关键点对齐;
(1-3)对于对齐后的图像,裁剪出人脸面部区域。
3.根据权利要求1所述的基于多示例学习的视频人脸表情预检测方法,其特征在于:所述步骤(2)具体包括:
(2-1)将预处理得到的每帧图像的人脸面部区域,划分为多个4×4像素的单元;
(2-2)对于每个单元中的每个像素点,以该像素点为中心点,将半径为3像素的邻域中8个像素点的灰度值与中心点比较,将大于中心点灰度值的像素点标记为1,反之则标记为0,通过顺序读取领域像素点标记得到一个8位二进制码,将该8位二进制码的十位进制数记为该中心点的LBP值;
(2-3)计算每个LBP值出现的频率,然后进行归一化处理,得到每个单元的直方图;
(2-4)将一个图像中的所有单元的直方图进行串联,得到该图像的LBP特征向量。
4.根据权利要求1所述的基于多示例学习的视频人脸表情预检测方法,其特征在于:所述步骤(3-3)具体包括:
(3-3-1)初始化目标优化函数中待求取参数w,b,γ为0;
(3-3-2)根据初始化参数值,对每个训练样本,提取r个最有效的约束对;
(3-3-3)设定所有训练样本的总约束对个数的上限为R,若超过该上限值,对约束对进行删减,保留对优化模型最有效的R个约束对;
(3-3-4)通过二次规划求解该目标优化问题,得到参数w,b,γ的当前值;
(3-3-5)重复步骤(3-3-2)至(3-3-4)直至算法收敛,得到最终的w,b,γ的最优值。
5.根据权利要求1或4所述的基于多示例学习的视频人脸表情预检测方法,其特征在于:所述约束对满足以下条件:
A有效性:计算每个约束对的损失函数值,如果损失小于或等于0,则约束对无效,反之,则为有效;
B小于预设重叠率阈值:约束对的两个视频片断的重叠率小于预设阈值,重叠率pd的计算公式为
Figure FDA0002440678440000031
式中,
Figure FDA0002440678440000032
表示训练样本Vi中抽取的约束对c所包含的两个视频片断,s(·)、e(·)分别表示视频的起始和结束。
6.根据权利要求1所述的基于多示例学习的视频人脸表情预检测方法,其特征在于:所述步骤(4)具体包括:
(4-1)对于第k个待测试样本Vk,逐帧读取每帧的特征向量,并根据历史数据采用预检测函数计算每帧图像对应的检测值,k=1,…,m,m为待测试样本的个数;其中,第k个待测试样本在时刻t的检测值为:
Figure FDA0002440678440000033
式中,
Figure FDA0002440678440000034
表示Vk中片段I对应的图像帧,
Figure FDA0002440678440000035
表示在时刻t所包含的所有视频片段的最大检测值,t0表示检测初始时刻,f(·)预检测函数;其中,
Figure FDA0002440678440000036
(4-2)若检测值大于预设阈值,则认为当前时刻检测到该表情事件,当检测到该表情事件结束时,预检测清空历史数据,重新开始检测下一个事件。
CN201711262030.XA 2017-12-04 2017-12-04 基于多示例学习的视频人脸表情预检测方法 Active CN108038434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711262030.XA CN108038434B (zh) 2017-12-04 2017-12-04 基于多示例学习的视频人脸表情预检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711262030.XA CN108038434B (zh) 2017-12-04 2017-12-04 基于多示例学习的视频人脸表情预检测方法

Publications (2)

Publication Number Publication Date
CN108038434A CN108038434A (zh) 2018-05-15
CN108038434B true CN108038434B (zh) 2020-06-16

Family

ID=62095048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711262030.XA Active CN108038434B (zh) 2017-12-04 2017-12-04 基于多示例学习的视频人脸表情预检测方法

Country Status (1)

Country Link
CN (1) CN108038434B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985152A (zh) * 2018-06-04 2018-12-11 珠海格力电器股份有限公司 一种动态面部表情的识别方法及装置
CN109002769A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 一种基于深度神经网络的牛脸对齐方法及***
CN109299650B (zh) * 2018-07-27 2021-09-07 东南大学 基于视频的非线性在线表情预检测方法及装置
CN109214279A (zh) * 2018-07-27 2019-01-15 东南大学 基于视频的在线人脸表情预检测方法及装置
CN109858392B (zh) * 2019-01-11 2021-02-02 复旦大学 一种用于化妆前后人脸图像自动识别方法
CN110263215B (zh) * 2019-05-09 2021-08-17 众安信息技术服务有限公司 一种视频情感定位方法及***
CN110147755B (zh) * 2019-05-16 2023-03-24 珠海华园信息技术有限公司 基于上下文级联cnn的人头检测方法
CN113111789B (zh) * 2021-04-15 2022-12-20 山东大学 一种基于视频流的面部表情识别方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778457A (zh) * 2015-04-18 2015-07-15 吉林大学 基于多示例学习的视频人脸识别算法
CN106548160A (zh) * 2016-11-09 2017-03-29 浙江博天科技有限公司 一种人脸微笑检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778457A (zh) * 2015-04-18 2015-07-15 吉林大学 基于多示例学习的视频人脸识别算法
CN106548160A (zh) * 2016-11-09 2017-03-29 浙江博天科技有限公司 一种人脸微笑检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Deep Convolutional Network Cascade For Facial Point Detection;Yi Sun等;《2013 IEEE Conference on Computer Vision and Pattern Recognition》;20131003;第3476-3483页 *
Facial expression recognition based on Local Binary Patterns: A comprehensive study;Caifeng Shan等;《Image and Vision Computing》;20091231;第27卷;第803-816页 *
Max-Margin Early Event Detectors;Minh Hoai等;《2012 IEEE Conference on Computer Vision and Pattern Recognition》;20120726;第2863-2870页 *
Multi-Instance Hidden Markov Model For Facial Expression Recognition;Chongliang Wu等;《2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG)》;20150723;第1-6页 *

Also Published As

Publication number Publication date
CN108038434A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
CN108038434B (zh) 基于多示例学习的视频人脸表情预检测方法
CN109002841B (zh) 一种基于Faster-RCNN模型的建筑构件提取方法
Hussain et al. Feature sets and dimensionality reduction for visual object detection
Duan et al. Detecting small objects using a channel-aware deconvolutional network
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及***
Sie Ho Lee et al. Detecting curved symmetric parts using a deformable disc model
CN109325507B (zh) 结合超像素显著性特征与hog特征图像分类方法和***
CN103593680A (zh) 一种基于隐马尔科夫模型自增量学习的动态手势识别方法
CN103295009B (zh) 基于笔画分解的车牌字符识别方法
CN112232332B (zh) 一种基于视频序列的非接触式手掌检测方法
CN109558855B (zh) 一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法
CN110889387A (zh) 一种基于多轨迹匹配的实时动态手势识别方法
CN105160305B (zh) 一种手指多模态特征融合方法
CN109299650B (zh) 基于视频的非线性在线表情预检测方法及装置
Zhang et al. Self-guided adaptation: Progressive representation alignment for domain adaptive object detection
CN107609509A (zh) 一种基于运动显著性区域检测的动作识别方法
CN111105443A (zh) 一种基于特征关联的视频群体人物运动轨迹跟踪方法
CN103902100B (zh) 用于智能手绘输入的基于速度特征的笔划分割方法
Zhang et al. Activity object detection based on improved faster R-CNN
CN112446417B (zh) 基于多层超像素分割的纺锤形果实图像分割方法及***
Huang et al. A geometrical-model-based face recognition
CN107146215A (zh) 一种基于颜色直方图和凸包的显著性检测方法
CN111159456A (zh) 基于深度学习与传统特征的多尺度服装检索方法及***
Dai et al. An Improved ORB Feature Extraction Algorithm Based on Enhanced Image and Truncated Adaptive Threshold
CN111144469A (zh) 基于多维关联时序分类神经网络的端到端多序列文本识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant