CN101777116B

CN101777116B - 一种基于动作跟踪的脸部表情分析方法

Info

Publication number: CN101777116B
Application number: CN2009102437341A
Authority: CN
Inventors: 王阳生; 汪晓妍; 周晓旭; 冯雪涛; 周明才
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2009-12-23
Filing date: 2009-12-23
Publication date: 2012-07-25
Anticipated expiration: 2029-12-23
Also published as: CN101777116A

Abstract

本发明一种基于动作跟踪的脸部表情分析方法，特别涉及人脸多特征跟踪和表情识别技术方法，包括步骤：对输入视频图像进行预处理并进行人脸检测和人脸关键点定位，以确定人脸位置并进行归一化；采用三维参数化人脸网格模型对人脸和表情动作进行建模，提取鲁棒特征并结合在线学习方法对输入视频图像中人脸的位置、姿态及表情动作进行跟踪，实现快速和有效的人脸多特征跟踪；将跟踪得到的表情参数作为表情分析的特征，并采用一种改进的基于高斯基距离度量的模糊聚类算法进行表情分析，给出表情的模糊性描述。

Description

一种基于动作跟踪的脸部表情分析方法

技术领域

本发明涉及图像处理与模式识别技术领域，特别涉及人脸多特征跟踪和表情识别技术方法。

背景技术

人脸是人类行为中一种丰富而有力的人际交流信息的来源。人脸表情含有丰富的人体行为信息，对它的研究可以进一步了解人类对应的心理状态。人脸表情也在人际交往和非言语交流中扮演着非常重要的角色。表情能够填补言语交流的不足，也可以独立传递完整的思想。计算机和机器人如果能够像人类那样具有理解和表达情感的能力，并能够自主适应环境，这将从根本上改变人与计算机之间的关系，使计算机能够更好的为人类服务。要利用人脸表情所提供的信息，研究出鲁棒、准确、快速且智能的自动化实时人脸表情识别方法是非常重要的。

表情是情绪的外在表现之一，而情绪是受到历史、社会和个体等诸多方面影响的综合产物，这也使得表情的变化既细致入微又扑朔迷离。表情分析与识别与情感识别是两个不同的概念，表情识别仅依赖于视觉信息把面部肌肉的运动及其它面部特征的变形分成抽象的各个类别。现有的一些表情识别方法普遍存在这样以下一些问题：

目前大部分算法很难排除不同人的面部差异对于表情识别的影响。在人脸识别研究中表情是干扰，而在专门研究表情识别时也同样需要排除因人脸的差异而导致的表情变化。人脸的类别比表情类别要多得多，可以达到了几十亿，典型的表情类别却只有几种到几十种，因此在统计意义上不同人脸造成的表情类别中的类内差异会大于表情变化引起的人脸类别的类内差异，所以表情识别中人脸差异的干扰更大于人脸识别中表情的干扰。另外不同的文化背景及不同的性别等都会对表情的表现形式产生影响，对表情的分析与识别带来困难。

现有的方法一般将前期的定位跟踪部分与后续的表情分类孤立开考虑，即在进行了定位归一化调整后再重新对图像进行特征提取进而分类识别。而实际上在对人脸进行特征定位过程中也需要对于脸部特征进行建模和处理，定位以后完全地抛弃之前的结果再重新进行特征抽取导致了整体效率低下，如果结合多特征的定位与跟踪提取出有效的特征来用于表情识别就可以节省很多后续的处理。现有的表情识别方法都倾向于使用尽量多的特征和尽量多的信息保证识别效果，但很多信息不是必须的。多数识别方法直接对图像提取脸部的纹理信息，或脸部纹理信息和形状信息结合构造表情分类特征向量，依据观点主要是信息越多越有利于表达表情，越能提高表情识别率。纹理信息中相对包含了更多的可用信息，对纹理信息处理和表示方法也相对于形状信息要多，所以现有的表情识别研究中基于纹理信息的方法要相对多一些。但是纹理特征往往复杂也导致了冗余度高，效率低的问题。现有的识别方法多数直接映射到确定性的几种表情，输出结果是表情类别的标记，而忽视表情的复杂性和不确定性，没有进行表情模糊性的描述。情感是复杂多样的，识别表情是为了情感的识别，表情模糊性是情感复杂性的一种反映。通常说的某一种表情是指那种表情的典型面部表达，在实际中，相信每个人都遇到过愤怒带点悲伤、高兴带点惊讶等等复杂表情的例子。所以如果硬性给某张表情图像定义成一种表情不是很妥当，而有必要在识别时给出表情模糊性的描述。

在实用性方面，现有技术对于人脸检测定位、人脸跟踪和表情分析这三者的结合，仍然缺少完整有效的解决方案。本发明针对这些问题，平衡各方面性能的需求，同时考虑到实际应用中对计算速度的要求，给出了有效的解决方法。

发明内容

本发明的目的是提供一种基于动作跟踪的脸部表情分析方法。本***首先实时地、鲁棒地检测到人脸和关键点位置，然后对视频中人脸的位置、姿态及表情动作进行跟踪，并将跟踪得到的特征参数直接用于表情识别。由于表情的复杂性和不确定性，在识别时给出表情模糊性的描述。

为实现上述目的，本发明提出一种基于动作跟踪的脸部表情分析方法，该方法包括步骤：

步骤1：对输入视频图像进行预处理并对人脸和脸部关键点的位置进行检测和定位，以确定脸部位置，获得脸部关键点定位信息并进行脸部的归一化；

步骤2：采用三维参数化人脸网格模型对脸部和脸部表情动作进行建模，利用脸部位置和关键点的定位信息对三维模型进行初始化，得到三维模型的初始位置、姿态和形状参数，然后提取鲁棒特征结合在线学习方法实现视频中的人脸多特征跟踪，即对输入视频图像中脸部的位置、姿态及表情动作多个特征进行实时和有效的跟踪，相当于提取了脸部特征；

步骤3：将跟踪得到人脸多特征中的表情参数特征作为表情分析的特征，并采用一种改进的基于高斯基距离度量的模糊聚类算法进行表情分析，给出表情的模糊性描述。

根据本发明的实施例，所述人脸检测和人脸关键点定位的步骤包括：

步骤11：从输入视频图像的视频流中，提取每一帧图像；

步骤12：采用像素的均值和方差算法对每帧图像进行光线矫正预处理；

步骤13：对输入视频图像序列，使用基于AdaBoost的方法对人脸进行检测，得到人脸在图像中的位置和大小；

步骤14：在人脸检测得到人脸在图像中位置和大小的基础上，使用基于主动表观模型的方法对人脸关键点进行定位。

根据本发明的实施例，所述的人脸多特征跟踪，即脸部特征提取的步骤如下：

步骤21：通过检测和定位的人脸和脸部多个特征点位置的结果，对三维可变形人脸网格模型的形状、位置和姿态进行初始化；

步骤22：根据三维网格模型的形状姿态参数，采用分段仿射变换，分别计算出基于灰度和边强度的形状无关纹理图像作为观测；

步骤23：对基于灰度和边强度的形状无关纹理图像建立基于高斯分布的在线纹理模型；

步骤24：对于输入视频图像序列中的每帧图像，利用反转合成图像对齐算法进行在线纹理模型的迭代运算，得到最优的姿态和表情参数，实现实时跟踪；

步骤25：根据每帧图像的姿态表情参数计算结果重新计算基于灰度和边强度的形状无关纹理图像，并利用计算结果对在线纹理模型进行更新。

根据本发明的实施例，所述表情分析步骤如下：

步骤31：采集不同表情类别情况下的视频数据，通过自动检测、定位和跟踪得到每张图片中人脸对应的姿态和表情参数，组成了存在不同表情的训练样本集；

步骤32：选择一部分人脸图像数据手动标定其对应的表情类别，将其对应的姿态和表情参数组成标定样本集合；

步骤33：根据标定样本集合计算各表情参数特征的改进方差率；

步骤34：根据改进方差率，计算每个表情参数特征对应的惩罚因子；

步骤35：初始化训练样本集合中各个样本的隶属度和各个聚类中心；

步骤36：采用改进的基于高斯基距离度量来计算各个样本与聚类中心的距离，更新各个样本的隶属度和各个聚类中心直到收敛，得到各个表情类别最终的聚类中心；

步骤37：对于新输入视频中的图像，根据跟踪得到人脸多特征中的表情参数特征和各个表情类别的聚类中心，采用改进的基于高斯基距离度量来计算其对于每个分类的隶属度，给出表情的模糊性描述，完成表情分析。

本发明的有益效果：本发明可以实现对视频流中的人脸及人脸动作的自动检测定位、实时跟踪并进行自动的表情分析。在人脸和表情建立的模型中引入了生理结构约束，避免了生成一些实际不可能出现的表情，提高了后期跟踪识别的效率。另外根据人脸表情的特点可以选择出合适的表情动作参数用于人脸多特征跟踪和表情识别。使用三维可变形人脸网格进行位置、姿态和动作的跟踪，可以适用于头部姿态和表情具有较大幅度变化的情况，动作跟踪精细。在人脸多特征跟踪过程中，采用鲁棒特征和在线学习的自适应方法来进行观测建模，保证了跟踪算法对于复杂的光线和表情变化的高度稳定性。同时观测模型在跟踪前的检测和定位阶段进行初始化且在跟踪过程中不断自我更新，因此不需要针对特定使用者进行提前训练的过程，可以适用于任何使用者。利用反转合成图像对齐算法实现对观测模型的匹配，有效地提高了跟踪的速度。在表情分析过程中，使用一种基于高斯基距离度量的模糊聚类算法用于表情识别，基于改进方差率来设计高斯基度量中的惩罚因子，可以提高聚类算法的性能。将跟踪与表情分类进行了统一考虑，直接将跟踪得到的表情参数作为表情识别的特征，排除了不同人的面部差异对于表情识别的影响。由于表情的复杂性和不确定性，本发明的方法在识别时还可以给出表情模糊性的描述。

附图说明

图1是本发明的人脸表情的自动分析方法的流程图；

图2是本发明的自动表情分析方法采用的坐标***和姿态参数定义；

图3是本发明的自动表情分析方法的跟踪正确和跟踪失败时对应的形状无关纹理图像(边强度和灰度)；

图4是本发明的人脸表情自动分析方法的对三维网格模型进行初始化后的结果及相应得到的形状无关边强度和灰度纹理图像；

图5是本发明的表情自动分析方法的模糊聚类算法流程图。

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

请参见图1，本发明提供的一种基于动作跟踪的自动表情分析方法，按照以下步骤实施：

(1)采用自动人脸检测和定位算法，对输入视频图像上人脸及人脸关键点位置进行检测和定位，确定脸部位置并实现脸部的归一化。人脸检测方法采用了Adaboost和Cascade结合的人脸分类器，人脸关键点定位采用了AAM(Active Appearance Model)方法。采用320×240的彩***图像作为输入，完成一次人脸检测和人脸关键点定位的总时间小于100ms。

(2)使用CANDIDE三维可变形网格模型对人脸和表情进行建模。CANDIDE模型不但包括了网格、纹理信息，而且提供了形状参数和动画参数，来分别描述不同人之间和同一人脸的不同表情所造成的差别。其根据这样的思路进行设计，人脸模型的形状由N个顶点链接而成，每个顶点由一个三维坐标来表示。模型可以通过如下描述进行变形：

g＝g+Sτ_s+Aτ_a

g是模型的三维标准网格，τ_s和τ_a分别为形状和表情系数，S和A分别是表示模型的形状和动画分量，g表示了变形后的网格模型。因此Sτ_s描述的是不同人的人脸形状差异，而Aτ_a描述的是同一人脸的表情变化。本文中假设形状和表情的变化相互独立，实际应用中可以通过线性组合来逼近这两种变化。动画分量对应着模型中的活动单元向量AUV，而形状分量对应着模型中的形状单元SU(Shape Units)。CANDIDE-3模型中定义了14个形状单元SU和20个活动单元向量AUV，通过设置不同的形状和表情参数可以实现对模型进行控制，从而实现对不同人之间的脸部形状变化和同一人脸上的表情变化的描述。

得到由形状和表情系数确定三维网格后，还需要人脸的姿态参数进行建模。图2中显示了所采用的坐标***和姿态参数定义，由3D到2D的映射使用弱透视模型为：

g＝f·R·(g+Sτ_s+Aτ_a)+t

其中f为相机焦距，平移向量t＝(t_x，t_y)^T，t_x和t_y分别表示x和y方向的平移，旋转矩阵R定义如下：

R＝R_α·R_β·R_γ

其中，α、β、γ分别代表三个轴的旋转方向，R_α、R_β和R_γ分别表示了***中三个坐标的旋转，定义如下：

R_{α} = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos α & \sin α \\ 0 & - \sin α & \cos α \end{matrix}]

R_{β} = [\begin{matrix} \cos β & 0 & - \sin β \\ 0 & 1 & 0 \\ \sin β & 0 & \cos β \end{matrix}]

R_{γ} = [\begin{matrix} \cos γ & \sin γ & 0 \\ - \sin γ & \cos γ & 0 \\ 0 & 0 & 1 \end{matrix}]

这样姿态参数τ_p可以表示为：

τ_p＝[α，β，γ，f，t_x，t_y]^T

则我们需要的所有参数ρ可以表示为：

ρ = {[α, β, γ, f, t_{x}, t_{y}, τ_{a}^{T}, τ_{s}^{T}]}^{T}

在本发明提供的方法中，形状变化系数τ_s是在检测和定位以后确定的，在跟踪过程中不再发生改变，除非跟踪失败，需要重新初始化网格模型；表情变化系数τ_a在跟踪过程中根据每一帧图像上人脸的动作进行调整，在检测和定位阶段，假设τ_a中的每个值都为0，即人脸为中性表情。人脸的动作跟踪的结果即由τ_a表达。另外，检测定位和跟踪阶段都需要确定人脸三维网格模型的位置和姿态参数，即对人脸位置和姿态跟踪的结果。

(3)采用一种基于边强度和灰度的融合信息的鲁棒特征和在线学习的自适应目标建模方法并结合反转合成图像对齐算法用于人脸的多特征跟踪，在视频图像序列中对人脸位置、姿态和表情动作进行实时跟踪。

要对输入图像与参考图像通过灰度或边强度纹理信息来进行比较，需要去除形状变化对纹理的影响。因此我们采用分段仿射变换将纹理从网格g映射到标准网格g中，得到形状无关纹理图像。如图3，通过生成形状无关纹理图像可以很好地判断跟踪结果的准确性，当参数准确时，对应的纹理图像是一张完好的正面无表情人脸，而跟踪错误时纹理图像也随之发生了变形。如图4是第一帧输入图像通过检测定位对三维网格模型进行初始化后的结果及相应得到的形状无关边强度和灰度纹理图像。

在t时刻的形状无关灰度和边强度纹理图像都可以看成是该时刻的观测，将两者相结合组成的特征数组记为A_t。假定纹理中的像素与像素间相互独立，则可建立一个多元高斯模型来描述纹理的分布。假设t时刻分布的中心为μ_t，方差为σ_t ²，它们都是以纹理图像大小为长度的向量。这样观测A_t发生的概率可以表示为：

p (A_{t} | ρ_{t}) = Π_{j = 1}^{d} N (A_{t} (j); μ_{t} (j), σ_{t}^{2} (j))

其中ρ_t为t时刻的跟踪参数，d是像素点总数，函数N(x；μ，σ²)表示均值为μ，方差为σ²正态分布的概率密度函数：

N (x; μ, σ^{2}) = {(2 π σ^{2})}^{- 1 / 2} \exp {- \frac{1}{2} {(\frac{x - μ}{σ})}^{2}}

其中x为函数变量。

为了更好地利用当前帧的跟踪结果使模型自适应，采用如下方式对模型参数进行更新以得到t+1时刻的分布模型的均值和方差：

μ_t+1(j)＝(1-α_t)μ_t(j)+α_tA_t(j)

σ_{t + 1}^{2} (j) = (1 - α_{t}) σ_{t}^{2} (j) + α_{t} {(A_{t} (j) - μ_{t} (j))}^{2}

其中更新速度系数α_t＝1/t，且将其限制在0.01与0.1之间。要求得最优的形状和表情参数，需所得形状无关纹理图像与观测模型的距离最小化，即满足：

\min_{ρ} e_{t} = \min_{ρ} Dis (W (I_{t}; ρ), μ_{t}) = \min_{ρ} Σ_{j = 1}^{d} {(\frac{A_{t} (j) - μ_{t} (j)}{σ_{t} (j)})}^{2}

其中，e_t表示观测模型计算误差，W(I_t；ρ)表示对于输入图像I_t，对应参数ρ生成的形状无关纹理图像，Dis()表示两者间的距离函数，d是像素点总数。

建立在线纹理模型后，采用反转图像合成算法来实现对在线纹理模型的匹配，以提高模型匹配的效率。反转合成图像对齐算法是一种快速的梯度下降算法，其提出就是为了优化梯度下降法中需要每次迭代中都要重新计算Hessian矩阵的问题。在图像对齐问题中需要最小化的目标函数为：

\underset{x}{Σ} {| I (W (x; p)) - T (x) |}^{2}

其中T(x)是需要对齐的目标模板，p是迭代参数，I(W(x；p))说明利用迭代参数对图像的变形操作。一般会通过迭代参数的变化量来对其进行优化，反转合成图像对齐算法改变了迭代量的优化位置：

\underset{x}{Σ} {| I (W (x; p)) - T (W (x; Δp)) |}^{2}

优化的过程就变成需要在目标模板上求取一个变化量Δp，使得模板与当前形状对齐。通过一阶泰勒进行近似就得到：

\underset{x}{Σ} {| T (x) + &dtri; T \frac{&PartialD; W}{&PartialD; p} Δp - I (W (x; p)) |}^{2}

这样可以得到变化量：

Δp = \underset{x}{Σ} H^{- 1} {[&dtri; T \frac{&PartialD; W}{&PartialD; p}]}^{T} [I (W (x; p)) - T (x)]

其中Hessian矩阵H为：

H = \underset{x}{Σ} {[&dtri; T \frac{&PartialD; W}{&PartialD; p}]}^{T} &dtri; T \frac{&PartialD; W}{&PartialD; p}

这里定义最快下降图像SD：

SD = &dtri; T \frac{&PartialD; W}{&PartialD; p}

其描述了误差下降最快的路径，所以称之为最快下降图像，这样就有：

H＝SD^TSD

其中的雅克比

是在(x，0)处进行计算的，因此Hessian矩阵和最快下降图像可以提前计算出来。迭代参数的更新上就需要对变形操作进行“合成”运算：

W(x；p)←W(W^-1(x；p)；p)

p＝arg{W(x；p)}

反转合成图像对齐算法主要分成两块，提前计算部分和迭代部分。如果不考虑动态更新模版，算法包括如下几个步骤：

1.提前计算部分：

(1)计算模板的梯度图像；

(2)计算(x，0)处的雅克比

(3)计算最快下降图像SD；

(4)计算Hessian矩阵

2.迭代至收敛：

(1)根据当前系数，对输入图像进行变形操作，得到形状无关纹理图像，表示为I(W(x；p))；

(2)计算误差图像I(W(x；p))-T(x)，如果误差不再减少则退出循环；

(3)通过以上结果计算系数的变化量Δp；

(4)更新变形操作W(x；p)←W(W^-1(x；Δp)；p)

将在线纹理模型中的观测模型的均值μ_t作为反转图像合成算法中的目标模板，模型匹配过程为如下步骤：

1.初始化：

(1)通过检测定位确定形状参数τ_s，设置表情参数τ_a和姿态参数为零，并计算形状无关纹理图像，初始化在线纹理模型。

(2)计算(x，0)处的雅克比；

2.在t时刻进行如下迭代：

(1)设置模板为μ_t并计算模板的梯度图像T(x)；

(2)计算最快下降图像SD和Hessian矩阵；

(3)迭代姿态和表情参数至收敛(迭代次数不超过某固定值)：

(a)根据当前系数和输入图像计算形状无关纹理图像W(x；ρ)并计算纹理特征A_t作为观测；

(b)根据观测模型计算误差e_t与上次误差做比较，如果误差不再减少则退出循环；

(c)计算系数的变化量Δρ；

(d)更新变形操作W(x；ρ)←W(W^-1(x；Δρ)；ρ)

(e)求得新的参数ρ′后，以小步更新姿态和表情参数ρ←ρ+λ(ρ′-ρ)，其中参数λ＜＜1。

3.跟踪结果更新在线纹理模型，即计算新的均值μ和方差σ²。

(4)将跟踪得到的表情参数作为表情分析的特征，并采用一种改进的基于高斯基距离度量的模糊聚类算法进行表情分析，给出表情的模糊性描述。

给定集合Rⁿ表示实数n维向量空间，对于

1≤k≤N，N是样本个数，X_k＝(x_k1，x_k2，…，x_kn)^T∈Rⁿ，其中，x_kj(j＝1，2，…，n)是样本X_k(k＝1，2，…，N)的第j个特征值，n是特征个数。则所述X的一个模糊C-划分F_C是指：

F_{C} = {U_{c \times N} &Element; M_{cN} | μ_{ik} &Element; [0,1], &ForAll; i, k; Σ_{i = 1}^{c} μ_{ik} = 1, &ForAll; k; 0 < Σ_{k = 1}^{N} μ_{ik} < N, &ForAll; i}

(i＝1，2，…，c；k＝1，2，…，N)

其中，U_c×N表示划分F_C中的元素，M_cN是c×N阶矩阵的集合，μ_ik表示样本X_k属于第i类的隶属度。

是指每一个元素属于c个模糊子集的隶属度总和为1。

是指每一子集非空，但又不能是全集X。为了讨论问题方便，也可以将要求放宽，允许有空集和全集，这样的划分空间称为退化的模糊C划分空间。在聚类分析中，对给定的数据集，如果能找出在一定条件下的最佳划分矩阵U，则对应的分类就是在该条件下的最佳分类。

记V^T＝(V₁，V₂，…，V_c)(V_i∈Rⁿ，i＝1，2，…，c)为聚类中心向量，Bezdek的模糊聚类算法的关键是在对于给定的c，选择隶属度μ_ik(i＝1，2，…，c；k＝1，2，…，N)和V_i(i＝1，2，…，c)使得误差函数最小化min J_m(U，V，c)表示为：

\min J_{m} (U, V, c) = Σ_{k = 1}^{N} Σ_{n = 1}^{C} μ_{jk}^{h} d_{jk}^{2} = Σ_{k = 1}^{N} Σ_{j = 1}^{C} μ_{jk}^{h} {| | X_{k} - V_{j} | |}^{2}, 1 \leq h \leq \infty

这里，

且

V_{i} = \frac{Σ_{k = 1}^{N} {(μ_{ik})}^{h} X_{k}}{Σ_{k = 1}^{N} {(μ_{ik})}^{h}} i = 1,2, \cdot \cdot \cdot, c

μ_{ik} = {(Σ_{j = 1}^{c} {(\frac{d_{ik}}{d_{jk}})}^{\frac{2}{h - 1}})}^{- 1}

可以证明当h＞1，可用以上两个式子作为更新公式求取类中心和隶属度的软分类矩阵且进行迭代运算，该运算是收敛的。由此得到模糊聚类算法步骤为：

1.预先给定聚类数C，随机生成软分类矩阵

N是样本的个数；

2.根据U_i ⁰计算类中心v_i，其中X_j为原始样本的数据，用向量来表达；

3.由v_i计算新的软分类矩阵

4.对于预先给定尽量小的数ε(如10^-2，10^-3，....)，如果

5.则μ_ij ^*及相应得到的v_i ^*即是所求结果，否则再返回到步骤2。其中ε越小，结果越精确。

改进方差率(augmented variance ratio，AVR)是一种非常有效的特征子集选择方法，其定义为：

AVR (F) = \frac{Var (F)}{\frac{1}{c} Σ_{i = 1}^{c} \frac{{Var}_{i} (F)}{\min_{i &NotEqual; j} | {mean}_{i} (F) - {mean}_{j} (F) |}}

其中，c是类别总数，Var(F)是特征F在整体分布上的方差，也就是类间方差，Var_i(F)是特征F属于第i类的方差，也就是第i类的类内方差，mean_i(F)是特征F属于第i类的平均值.即使特征属于某一类的平均值与其属于另一类的平均值比较接近，也就是说这两类几乎重叠在一起，惩罚因子min_i≠j|mean_i(F)-mean_j(F)|仍然可以保证区分开这两类。单个特征的AVR值越大，则该特征的区分度也就越大。样本X_i与X_j之间基于AVR的高斯基距离定义如下：

d_{GB}^{'} (X_{k}, X_{j}) = \sqrt{1 - \exp (- Σ_{i = 1}^{n} β_{i} {| | x_{ki} - x_{ji} | |}^{2})}

单个特征的AVR值越大，则该特征的区分度也就越好，此时，其相应在高斯基距离度量中惩罚的力度应该越小；反之，如果特征的AVR值越差，其区分力度也越小，其在高斯基距离度量中惩罚的力度应该越强。由此，我们将与第i个特征F_i相应的惩罚系数定义如下：

β_i＝λ_i/n

λ_{i} = \frac{1}{AVR (F_{i})}

其中n是特征个数。

由以上这种基于AVR改进的高斯基距离度量方式，我们将对模糊聚类中的目标函数进行重新定义：

\min J_{AVR_AFCM} = Σ_{j = 1}^{c} Σ_{k = 1}^{N} {(u_{jk})}^{h} {1 - \exp (1 - Σ_{i = 1}^{n} β_{i} {| | x_{ki} - v_{ji} | |}^{2})

求解最小化全局代价函数得到类中心和隶属度更新公式如下：

v_{j} = \frac{Σ_{m = 1}^{N} {(u_{jm})}^{h} \exp (- Σ_{i = 1}^{n} β_{i} {| | x_{ki} - v_{ji} | |}^{2}) X_{k}}{Σ_{m = 1}^{N} {(u_{jm})}^{h} \exp (- Σ_{i = 1}^{n} β_{i} {| | x_{ki} - v_{ji} | |}^{2})}

μ_{jk} = \frac{{[1 / (1 - \exp (- Σ_{i = 1}^{n} β_{i} {| | x_{ki} - v_{ji} | |}^{2})]}^{1 / (h - 1)}}{Σ_{m = 1}^{c} {[1 / (1 - \exp (- Σ_{i = 1}^{n} β_{i} {| | x_{ki} - v_{mi} | |}^{2})]}^{1 / (h - 1)}}

则我们可以得到基于改进方差率的高斯距离度量的模糊聚类过程。如图5示出本发明的表情自动分析方法的模糊聚类算法流程图，具体的表情分析步骤如下：

1.采集不同表情类别情况下的视频数据，通过自动检测、定位和跟踪得到每张图片中人脸对应的姿态和表情参数，组成了存在不同表情的训练样本集。选择一部分人脸图像数据手动标定其对应的表情类别，将其对应的姿态和表情参数组成标定样本集合。

2.预先给定聚类数，根据标定样本集合计算各表情参数特征的改进方差率；

3.根据改进方差率，计算每个表情参数特征对应的惩罚因子；

4.初始化训练样本集合中各个样本的隶属度和各个聚类中心；

5.采用改进的基于高斯基距离度量来计算各个样本与聚类中心的距离，更新各个样本的隶属度和各个聚类中心直到收敛，得到各个表情类别最终的聚类中心；

6.对于新输入视频中的图像，根据跟踪得到人脸多特征中的表情参数特征和各个表情类别的聚类中心，采用改进的基于高斯基距离度量来计算其对于每个分类的隶属度，给出表情的模糊性描述，完成表情分析。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于动作跟踪的脸部表情分析方法，其特征在于：该方法包括步骤：

步骤3：将跟踪得到人脸多特征中的表情参数特征作为表情分析的特征，并采用一种基于改进方差率定义的高斯基距离度量的模糊聚类算法进行表情分析，给出表情的模糊性描述的步骤如下：

步骤32：选择一部分人脸图像数据手动标定其对应的表情类别，将其对应的姿态和表情参数组成标定样本集合；给定标定样本集合

Rⁿ表示实数n维向量空间，对于

1≤k≤N，N是样本个数，X_k＝(x_k1，x_k2，…，x_kn)^T∈Rⁿ，其中，x_kj(j＝1，2，…，n)是样本X_k(k＝1，2，…，N)的第j个特征值，n是特征个数；

步骤33：根据标定样本集合计算各表情参数特征的改进方差率；对于特征F改进方差率的定义为：

AVR (F) = \frac{Var (F)}{\frac{1}{c} Σ_{i = 1}^{c} \frac{{Var}_{i} (F)}{\min_{i &NotEqual; j} | {mean}_{i} (F) - {mean}_{j} (F) |}}

其中，c是类别总数，Var(F)是特征F在整体分布上的方差，也就是类间方差，Var_i(F)是特征F属于第i类的方差，也就是第i类的类内方差，mean_i(F)是特征F属于第i类的平均值；

步骤34：根据改进方差率，计算每个表情参数特征对应的惩罚因子；对第i类，其特征F_i相应的惩罚系数β_i定义如下：

β_i＝λ_i/n

λ_{i} = \frac{1}{AVR (F_{i})}

步骤36：采用基于改进方差率定义的高斯基距离度量来计算各个样本与聚类中心的距离，更新各个样本的隶属度和各个聚类中心直到收敛，得到各个表情类别最终的聚类中心；样本X_k与样本X_j之间基于AVR的高斯基距离定义如下：

d_{GB}^{'} (X_{k}, X_{j}) = \sqrt{1 - \exp (Σ_{i = 1}^{n} β_{i} {| | x_{ki} - x_{ji} | |}^{2})}

其中，x_ki和x_ji分别表示样本X_k和样本X_j的第i个特征值；

步骤37：对于新输入视频中的图像，根据跟踪得到人脸多特征中的表情参数特征和各个表情类别的聚类中心，采用基于改进方差率定义的高斯基距离度量来计算其对于每个分类的隶属度，给出表情的模糊性描述，完成表情分析。

2.根据权利要求1所述的基于动作跟踪的脸部表情分析方法，其特征在于，所述人脸检测和人脸关键点定位的步骤包括：

步骤11：从输入视频图像的视频流中，提取每一帧图像；

3.根据权利要求1所述的基于动作跟踪的脸部表情分析方法，其特征在于，所述的人脸多特征跟踪，即脸部特征提取的步骤如下：

步骤22：根据三维可变形人脸网格模型的形状姿态参数，采用分段仿射变换，分别计算出基于灰度和边强度的形状无关纹理图像作为观测；