WO2014205768A1

WO2014205768A1 - 基于增量主成分分析的特征与模型互匹配人脸跟踪方法

Info

Publication number: WO2014205768A1
Application number: PCT/CN2013/078331
Authority: WO
Inventors: 吴怀宇; 潘春洪; 陈艳琴; 赵两可
Original assignee: 中国科学院自动化研究所
Priority date: 2013-06-28
Filing date: 2013-06-28
Publication date: 2014-12-31

Abstract

本发明公开了一种基于在线增量主成分分析的特征与模型互匹配人脸跟踪方法，该方法包括以下歩骤：对多幅人脸图像进行离线建模，得到模型匹配（CLM）模型A；对待跟踪人脸视频中的每一帧进行关键点检测，所有关键点的集合及其鲁棒描述子组合为关键点模型B；基于所述关键点模型B对所述待跟踪人脸视频中的每一帧进行关键点匹配，获得每一帧人脸图像中初始的人脸姿态参数组；利用模型A对待跟踪人脸视频进行CLM人脸跟踪；基于初始人脸姿态参数组和初次跟踪结果进行再跟踪；更新模型A并重复上述歩骤，得到最终的人脸跟踪结果。本发明解决了在进行CLM人脸跟踪时，由于目标图像中相邻帧间变化大时出现的跟踪丢失的问题，从而提高了跟踪的精准度。

Description

基于增量主成分分析的特征与模型互匹配人脸跟踪方法技术领域本发明涉及计算机图形图像技术领域，尤其是一种高鲁棒性的基于在线增量主成分分析的特征与模型互匹配人脸跟踪方法。

背景技术近年来，计算机视觉技术取得了长足的发展，图像识别与跟踪已经成为计算机领域一个热门的研究方向。鲁棒的实时人脸跟踪是智能视频监控和基于视觉的人机交互以及机器人导航等领域的一个核心。该技术应用于视频会议、公安刑侦、访问控制、金融支付、医学应用等众多领域。人脸是一个非刚性的识别对象，在运动中，其大小、形状的变化都会影响跟踪的效果，所以实时的人脸跟踪是对计算机视觉领域的一个挑战。

目前人脸跟踪技术主要可以分为三类：基于特征匹配的跟踪、基于区域匹配的跟踪和基于模型匹配的跟踪。

对于基于特征匹配的跟踪：该方法进行序列图像运动目标的跟踪，其包括特征提取和特征匹配两个过程。在特征提取过程中需要选择适当的跟踪特征，并且在序列图像的下一帧中提取这些特征；在特征匹配过程中，将提取到的当前帧的特征同上一帧，或者是用来确定目标物体的特征模板进行比较，根据比较结果确定是否是对应物体，从而完成跟踪过程。但是特征点会由于遮挡或光线变化而不可见，这将导致跟踪失败，这是基于特征匹配跟踪的缺点。

对于基于区域匹配的跟踪：该方法是把图像中目标物体的连通区域的共有特征信息作为跟踪检测值的一种方法。在连续的图像中可以采用多种区域信息。基于区域匹配的跟踪不能根据目标的整体形状来对跟踪结果进行调整，因此在长时间连续跟踪时，容易因误差累积而发生目标丢失的情况。对于基于模型匹配的跟踪：该方法是通过建立模型的方法来表示需要跟踪的目标物体，然后在序列图像中跟踪这个模型来达到跟踪的目的。目前主要有两种类型的可变形模型，一种是自由式的可变形模型，只要满足一些简单的正则化约束条件 (如连续性，平滑性等 )，就可以用来跟踪任意形状的目标物体，这类方法通常也被称为活动轮廓模型；另一种是参数形式的变形模型，它使用一个参数公式，或者是一个原形与一个变形公式来共同描述目标物体的形状。

由上可见，目前主流的人脸跟踪技术，还是不能在保证鲁棒性的前提下去精准地跟踪到人脸。

发明内容为了解决现有技术的问题，本发明的目的是提供一种高鲁棒性的人脸跟踪技术。

为了达成所述目的，本发明提出了一种高鲁棒性的在线增量主成分分析的特征与模型互匹配人脸跟踪方法，该方法结合了基于特征匹配

(关键点匹配）和基于约束局部模型匹配（CLM)的跟踪，同时加入了在线增量主成分学习，让 CLM模型 A和关键点点模型 B相互匹配，并实时更新，使得检测的精准度和鲁棒性地到了很好地保证，且可以解决较大视角的人脸跟踪问题。

所述高鲁棒性的在线增量主成分分析的特征与模型互匹配人脸跟踪方法包括以下歩骤：

歩骤 Sl，对于多幅人脸图像进行离线建模，得到包括形状模型 s和纹理模型 M/^t的模型匹配（CLM) 模型 A;

歩骤 S2, 输入一待跟踪人脸视频，对于所述待跟踪人脸视频中的每一帧人脸图像进行关键点检测，将所得到的所有关键点的集合和这些关键点的鲁棒描述子组合起来作为关键点模型 B;

歩骤 S3，基于所述歩骤 S2得到的关键点模型 B，对于所述待跟踪人脸视频中的每一帧人脸图像进行关键点匹配，获得每一帧人脸图像中初始的人脸姿态参数组（R， T )，其中， R表示角度参数和 Τ表示位移参数；

歩骤 S4,利用所述模型 Α对所述待跟踪人脸视频进行 CLM人脸跟踪，得到所述待跟踪人脸视频每一帧人脸图像中特征点的位置；

歩骤 S5，基于所述歩骤 S3得到的每一帧人脸图像中人脸的姿态参数组和所述歩骤 S4跟踪得到的每一帧人脸图像中特征点的位置，对所述待跟踪人脸视频中的每一帧人脸图像进行人脸的再跟踪；

歩骤 S6，使用增量 PCA方法对所述模型 A进行更新，并利用更新后的模型 A重复所述歩骤 S1-S5, 得到最终的人脸跟踪结果。

本发明的有益效果是：本发明结合了基于特征匹配（关键点匹配）和基于模型匹配（CLM)的人脸跟踪，同时加入在线增量学习，让 CLM 模型 A和关键点模型 B相互匹配，并实时更新，使得检测的精准度和鲁棒性得到了很好地保证，本发明方法可以解决较大视角的人脸跟踪问题。

附图说明图 1是根据本发明一实施例的基于在线增量主成分学习的特征与模型互匹配人脸跟踪方法流程图；

图 2是根据本发明方法对正脸进行跟踪的结果示意图；

图 3是根据本发明方法对存在小角度转动的脸部的跟踪结果示意图; 图 4是根据本发明方法对存在较大角度转动的脸部的跟踪结果示意图。

具体实施方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一歩详细说明。

图 1是本发明基于在线增量主成分分析的特征与模型互匹配人脸跟踪方法流程图，如图 1所示，所述方法包括以下歩骤：歩骤 Sl，对于多幅人脸图像进行离线建模，得到模型匹配（CLM, Constrained Local Model) 模型 A;

所述 CLM模型 A包括形状模型 s和纹理模型 w^T，因此该歩骤中，得到 CLM模型 A的歩骤进一歩包括以下歩骤：

歩骤 S11 , 根据事先确定的共同的人脸轮廓对所述多幅人脸图像分别进行标定得到多个标定特征点，并根据所述多个标定特征点的坐标值建立得到一人脸形状模型 s;

在一个 CLM模型 A中，形状定义为一个由一系列顶点位置组成的网格，因此可以用一系列的顶点的坐标来定义一个人脸形状向量 s_m:

其中， χ_;. 分别为相应人脸图像中第 1个顶点的坐标值， n为实际采用的顶点的个数，可以设为 66， 88等。

所述顶点的坐标是依照所述事先确定的共同的人脸轮廓人为进行标定的，所述顶点又称为标定特征点，具体来说，所述歩骤 S11进一歩包括以下歩骤：

歩骤 S111 , 事先采集 N张人脸图像，其中， N是一个大于 n的正整数，每张人脸图像上都依照所述共同的人脸轮廓进行人为标定，从而得到多个标定特征点，所述共同的人脸轮廓包括眼睛、鼻子、嘴和脸部外部的轮廓，进而根据公式（1 ) 可以得到 N个人脸形状向量 s_m，其中， m表示 N张人脸图像中的第 m张人脸图像。

歩骤 S112 , 在得到人脸形状向量 s_m的基础上，所述人脸形状模型 s 可以用一个平均人脸形状 s_Q加上 u个正交的人脸形状向量的线性组合来表示，即：

其中， _Pl是形状参数， s_Q为平均人脸形状， _Sl为相对于平均的人脸形状的变化， _Pl、 8«)和均由对采集到的 N个人脸形状向量 s_m进行主成分分析 (Principal Component Analysis-PC A) 得到： So为 N个人脸形状向量 s_m的均值， m=l -N; _Pl是所述主成分分析后得到的 u个特征向量所对应的权值。需要注意的是，在进行主成分分析前，需要对所述 N个人脸形状向量 s_m分别进行普鲁斯特分析 (procmstes analysis), 以减小偏转、尺度、平移等误差，所述普鲁斯特分析为现有技术中常用的分析方法，在此不做赘述。

歩骤 12，基于所述歩骤 S11得到的每一个标定特征点，学习得到能够体现所述每一个标定特征点对应的具有一定大小区域的纹理特征的纹理模型 M/^T。

所述纹理模型的建立可以采取多种方式进行，在本发明一实施例中，采用支持向量机 (Support Vector Machine - SVM)来建立所述纹理模型，具体过程包括：

歩骤 S121 ,以所述歩骤 S11得到的每一人脸图像的每一个标定特征点为中心，截取一个大小为 r x r的区域作为正样本，在相应图像中的任意其他位置处截取多个 r X r大小的区域作为负样本，这样对于 N幅人脸图像就会得到具有同一含义的标定特征点（比如在不同的人脸图像中，指代左眼角的标定特征点认为是具有同一含义的标定特征点）的 N个正样本和多个负样本；

歩骤 S122 , 基于每个标定特征点所对应的样本组，利用支持向量机 ( SVM) 得到每个标定特征点对应的纹理模型 M/^T。

该歩骤中，首先将每个标定特征点所对应的样本组中的每个样本 (包括正样本和负样本）写成数学形式：

(ί)_=Γ ω ω ( IT ( 3 ) 其中，（1)表示相应样本的序号，为相应样本中某一位置处的像素值。

然后，利用 SVM得到每个标定特征点对应的纹理模型 M/^T。

对于 SVM而言，其学习过程可以表示为：

y( = _WT . ( + θ (4 ) 其中，为 SVM 的输出， w^T是学习得到的纹理模型： w^T = [_Wl w₂ ... w_rxr] , 6>为 SVM的偏移量，对于每个标定特征点所对应的正样本， y« = 1；负样本， = 0。接下来进行关键点模型 B的构建与离线的关键点匹配，该部分包括歩骤 S2-S3 , 其主要是为了获得稳定有效的关键点，通过仿真人脸表面的各种形变，尽可能地学习对这些形变鲁棒的关键点，从而获得稳定的关键点匹配。

关键点的检测通常使用的方法是根据图像中的关键点进行识别检测。相比直、曲线片段和点状，利用关键点来识别图像信息的优点是能够在出现拥挤（遮挡）、大的尺度和方向变化的情况下依然可以做出较好的匹配。

由于人脸所存在的特性，关键点的学习存在着许多问题： 1，不同的角度、表情、光照变化会产生人脸形状的几何和光学上的扭曲形变; 2，人脸上的纹理比背景的少，区别存在难度（关键点相对少）； 3，关键点在三维上的位置估计不够精确。但是，采用不变特征点作为关键点可以有效解决上述问题，具体为：将利用已有的 3D人脸模型检测出的 3D关键点集和利用多视角图像检测出的 2D关键点集进行模拟形变，从而找出稳定的 2D关键点。

所述关键点检测的歩骤包含关键点的学习和其鲁棒描述子的学习，其中鲁棒描述子的学习是为了保证关键点的稳定性。

所述关键点的学习进一歩包括以下歩骤：

歩骤 S21 , 对于所述人脸图像序列中的每一帧图像，使用现有技术中常用的关键点计算方法，比如 Fast算法，初歩计算得到多个关键点；歩骤 S22, 从所述歩骤 S21得到的多个关键点中选出具有不变性的关键点，并将所述待跟踪人脸视频中的所有图像的不变性关键点组合起来得到关键点集合及这些关键点的描述子（f_{1 Xl}, ），其中， ¾表示第 i 个关键点的特征值，（_Xl, _yi) 表示该关键点的坐标；

所述不变性关键点为经过姿态旋转、表情变化和 /或光照变化后仍为关键点的关键点，该歩骤中使用参数集 (Pose, Shape, Light)的变化，来模拟人脸的姿态旋转、表情变化和光照变化，其中， Pose指的是小范围的姿态旋转引起的局部遮挡， Shape指的是非刚性的人脸表情变化， L_lght 指的是光照引起的复杂变化，如阴影等；令 W k₀; Pose, Shape, Light ) 表示图像 I_Q上的某一关键点^在上述三种变换下得到的点 k所对应的位置，如果该关键点 k_Q在上述变换后仍然被检查为关键点，并且满足下式，就认为关键点 k_Q对于上述变换具有不变性：

F_k0 -F_k < t (5)

其中， F_kQ为关键点！^的特征值， F_k为点 k的特征值， t为允许的定位误差上限。

目前得到的关键点集合中的关键点描述子并不具有鲁棒性，接下来需要通过学习的方法取得关键点的鲁棒描述子。在本发明一实施例中，所述关键点鲁棒描述子的学习采用增量学习的方法。由上文可知，关键点作为检测图像的主要识别因子，应该具有不变性（比如对于方向、尺度、旋转等的不变性）。但是在很多情况下，关键点的局部外观表现可能会在方向和尺度上发生变化，有时甚至存在仿射变形，因此为了更准确地对关键点进行匹配，需要对关键点进行有效的区分描述，提取出其局部方向、尺度和旋转的框架估计，形成描述子，比如 Sift就是一种可以采用的描述子，利用该描述子能够对关键点进行重新采样。

所述关键点的鲁棒描述子的学习包括以下歩骤：

歩骤 S23 , 按照所述歩骤 S21和 S22的描述，对于所述待跟踪人脸视频中的每一帧图像进行关键点检测，得到 n个不变性关键点，这 n个不变性关键点构成初始关键点集合 A;

歩骤 S24, 对所述图像中的人脸进行某一种参数变换，仿真得到变换后的图像，其中，所述参数为 shape、 pose或 light;

歩骤 S25 , 按照所述歩骤 S21和 S22的描述，对变换后的图像进行关键点检测得到多个不变性关键点，这些不变性关键点构成关键点集合 B;

歩骤 S26, 对关键点集合 B里的每个点 p，与关键点集合 A进行描述子匹配操作：

在关键点集合 A中，找到与点 p位置最近的点 q，比较点 p和点 q 反投影到正面三维模型表面上的三维点 ρ Π q'，判断 ρ Π q'是不是同一个三维点，如果 ρ Π q'是同一个三维点且 p的描述子和 q的描述子最为接近，则表示这个描述子是有效的，则把 p的描述子加入到 q的描述子中，如此 q就多了一个描述子；如果 p'和 q'是同一个三维点且点 p的描述子和集合 A中非 q的另一个点 X的描述子最为接近，则点 q及其描述子无效；如果 ρ Π q'是同一个三维点且点 p的描述子和集合 A中每个点的描述子都不一样，则说明它的描述子被错误的分类为背景了，所以将 p和 p的描述子加入到集合 A中；如果 ρ Π q'不是同一个三维点且 p的描述子和集合 A中某个点 s的某个描述子很接近，这表明点 s容易引起误匹配，所以将点 s及其描述子从集合 A中去掉；如果 p'和 q'不是同一个三维点且 p的描述子和集合 A中每个关键点的描述子都不一样，则将点 p及其描述子加入到集合 A中；

歩骤 S27 ,对于经过其他不同参数变换后的图像重复所述歩骤 24到 26，最终得到所述待跟踪人脸视频中每一帧图像的完备的关键点鲁棒描述子。

得到了所有关键点集合及其鲁棒描述子后就得到了关键点模型 B。歩骤 S3，基于所述歩骤 S2得到的关键点模型 B，对于所述待跟踪人脸视频中的每一帧人脸图像进行关键点匹配，获得每一帧人脸图像中初始的人脸姿态参数组，其中，所述姿态参数组包括角度参数 R和位移参数 T: (R， T )；

所述关键点匹配的过程是比较差异性的过程，通常匹配的对象是前后图像帧变化比较小的图像序列。

具体地，所述歩骤 S3进一歩包括以下歩骤：

歩骤 S31 ,根据所述歩骤 S2得到所述人脸视频的某一帧人脸图像的上一人脸图像帧的关键点，并在该帧人脸图像中寻找上一人脸图像帧的某一关键点在当前帧中的相应位置附近的关键点；的描述子进行匹配，将当前帧中利用已有的 3D人脸模型检测出的能够与所述关键点模型 B中的描述子匹配上的 3D关键点组成集合 V，将当前帧中与所述关键点模型 B中的描述子匹配上的 2D关键点组成集合 u，将所述集合 V通过选择姿态参数组（R， T) , 以及摄像头的内参数 K (该参数可以通过标定的方法事先确定），得到所述集合 V经过平面投影后的 2D关键点集合 u'，比较 u'和 u，求取使得 ||u-u' ||最小的该帧图像中初始的人脸相对于正脸的姿态参数组（R， T):

(R, T)* = arg min(w， _T) (6)

其中， ^为摄像机参数，为角度矩阵， r为位移向量， [ ?|r|为由 w和组成的增广矩阵， Γ为能够匹配所述关键点模型 B 中的描述子的 3D 关键点集合， _Μ'为能够匹配所述关键点模型 Β中的描述子的 2D关键点集合， ζ为关键点的序号， N_k为集合 V和集合 u_t的关键点个数的最大值。接下来进行 CLM人脸跟踪，该部分主要通过歩骤 S4来实现。

歩骤 S4,利用所述模型 A对所述待跟踪人脸视频进行 CLM人脸跟踪，得到所述待跟踪人脸视频每一帧人脸图像中特征点的位置，并进而基于所述歩骤 S3 得到的初始的人脸姿态参数组，得到所述待跟踪人脸视频每一帧人脸图像校正后的人脸姿态参数组；

该歩骤通过拟合操作来实现人脸特征点的跟踪，所述拟合其实就是对一模型进行参数调整，得到一实例模型，并使所述实例模型与新的输入图片相匹配的过程，这是一个能量最小化问题。

所述歩骤 S4进一歩包括以下歩骤：

歩骤 S41 , 对所述待跟踪人脸视频中的某一当前帧人脸图像进行脸部检测，得到初始的 n个特征点，并相应地得到每个特征点的响应图像

R(x,y);

该歩骤中，首先利用现有技术中常用的 Viola-Jones方法对该帧人脸图像进行脸部检测，得到一个小范围的脸部区域；然后在该脸部区域内，初始化一个脸部轮廓模型，该模型可以是上文提到的 S。。这样，根据所述初始化的脸部轮廓模型就得到该帧人脸图像的初始的 n个特征点。

其中，每个特征点的响应图像 R(x,y)为 Μ/^Τ · χ(^έ)矩阵化后的结果，其中， w^T是根据 SVM求得的该特征点的纹理模型: w^T = [w w₂ ... w_rxr] ， )为该特征点的第 i个大小为 r*r的样本，可见，所述响应图像 R(x,y) 的大小为 r*r，其实，所述响应图像相当于用纹理模型 w^T在样本中进行滤波所得到的结果。歩骤 S42 , 利用所述响应图像 R x,y:)，通过拟合得到所述待跟踪人脸视频每一帧人脸图像中与所述当前帧人脸图像具有同一含义的特征点的位置；

所述拟合进一歩包括以下歩骤：

歩骤 S421 ,对以所述歩骤 S41中得到的所有特征点中的每一个特征点为中心的大小为 r X r的区域进行范围为 a x a的搜索，对于每一个特征点，得到一以其为中心、直径为 (r + a)的正方形区域；

，而学习时样本的范围是，其也即拟合过程中响应图像的大小歩骤 S422, 在已知当前帧的特征点的情况下，通过函数拟合的方式找到当前帧的下一帧或上一帧图像的所述正方形区域中与所述当前帧人脸图像具有同一含义的特征点的坐标位置。

对于所述拟合，需要找到能够使在下一帧或上一帧图像中拟合得到的每个特征点的正样本与相应响应图像 R(_X,y)的均方差降到最低的函数参数最优解。为了使这个最优解能达到全局化而非局部性的目的，在本发明一实施例中，采用二次函数进行拟合，此时就需要找到能够使得 (8) 式所表示的目标函数中的均方差值最小的（7 )式中的函数参数 a'， b'， c'，在本发明一实施例中，可通过二次规划的方法来求得函数参数 a'， b'， c'的最优解。

r(x, y) = a' (x— x。)² + b' (y— y。)² +c' (7 ) s = _j[R{x,y)-r{x,y)] (8) 其中， r(x, 为拟合得到的某一特征点的正样本，由于某一特征点的正样本以该特征点为中心，因此得到了正样本自然也就得到了该特征点的坐标位置。

在实际的拟合过程中，有可能会出现拟合得到的某一满足上述目标函数的特征点实际上并不是人脸特征点的情况，为了避免这种误判情况的发生，本发明在上述拟合过程中引入对于特征点的位置限制，即拟合得到的特征点的位置x^应满足公式（9)，其中， 1代表第 1个特征点：

其中， /0, 表示拟合得到的特征点的坐标函数， n 为特征点的个数， k为所述歩骤 S1中提及的对 N个人脸形状向量 s_m进行主成分分析 PCA 后得到的特征向量的个数，表示相应特征向量的权值， ^表示相应特征向量对应的特征值， β是人为设定的权重。

为了节省计算量，（9)式可简化为如下表达式：

f (X) = x^THx- 2F^Tx - x^Ts_nrs_n ^T _rx (10) 其中， χ = [； , 为拟合后的结果，即特征点被跟踪到的新坐标向量，

H=diag(H₁, ₂,... _i ...,H_n), ^diagCa b )， a 、 b 分别为 (7)式中的参数； F=[F_1; F₂ F_n]^T, 其中， i为特征点的序数， n为特征点的个数； F i^, y_0l]^T, (xo, yo)为相应特征点的响应图像 R(x,y:>具有最大值的坐标点； = [ / L s₂/ ! s_k/H _Sl s_fc为经过 PCA后得到的前 k个特征向量， · · · 表示相应特征向量对应的特征值。

(10)式是一个关于 X 的二次方程，因而可以求得一个唯一的，使得 (10)式取得最大值。

歩骤 S43,基于所述歩骤 S3得到的初始的人脸姿态参数组，根据拟合得到的特征点的位置得到校正后的人脸姿态参数组。该歩骤属于现有技术，在此不作赘述。接下来，需要将所述歩骤 S2中描述的关键点检测、所述歩骤 S3中描述的人脸姿态参数组获取与所述歩骤 S4中描述的 CLM人脸跟踪进行融合，相互进行学习来对人脸进行跟踪，以提高人脸跟踪的鲁棒性。

根据上文的描述，可以初歩计算出所述待跟踪人脸视频每一帧人脸图像中人脸的姿态参数组（R， T), 该参数组可以作为 CLM人脸跟踪时的初始参数，利用关键点模型 B对于 CLM人脸跟踪进行初始化主要是因为 R代表了人脸的角度，利用 R可以在 CLM实例化时选择正确角度的 CLM模型及调整初始化的人脸形状。 CLM模型包含有多个角度的模型，比如可以包含 3类：正面模型、左侧面模型和右侧面模型。对于待跟踪的人脸，通过 R确定人脸的角度，在 CLM模型实例化的时候就可以利用和这个角度匹配的那类模型来进行实例化。

所述歩骤 S5进一歩包括以下歩骤：

歩骤 S51，根据所述歩骤 S2和歩骤 S3得到所述待跟踪人脸视频某一帧人脸图像中的关键点和初始的人脸姿态参数组；

歩骤 S52, 基于该帧人脸图像中初始的人脸姿态参数组（R， T)，根据所述歩骤 S4 的描述，在前向或后向上（前向比如可以为当前帧图像的下一帧图像方向，后向比如可以为当前帧图像的上一帧图像方向）对所述待跟踪人脸视频中的人脸图像进行 CLM人脸跟踪，得到每一帧人脸图像中关键点的位置，进而根据所述初始的人脸姿态参数组 (R， Τ) 得到校正后的人脸姿态参数组，并利用所述校正后的人脸姿态参数组对所述关键点模型 Β进行更新；

对所述关键点模型 Β进行更新的歩骤进一歩包括以下歩骤：歩骤 S521 , 对于当前帧图像，根据其人脸姿态参数组（R， Τ) 判断人脸的姿态；歩骤 S522, 根据当前帧图像中的关键点描述子 F^f ^i^n关键点模型 B的匹配情况来更新所述关键点模型 B，具体为：

如果当前帧图像的大多数（比如 80%)关键点都和所述关键点模型 B中的关键点匹配，则将当前帧中没有匹配上的那些关键点补充到所述关键点模型 B中，最开始的所述关键点模型 B是基于正脸图进行的，经过不断的补充后会包含侧面的关键点；否则不进行所述关键点模型 B的补充更新，因为此时当前帧图像的关键点可能包含了很多误检出来的关键点。

当然，并非每帧图像进行 CLM人脸跟踪后，都要进行关键点模型 B 的更新，在实际情况中，可以每隔几帧进行一次。

歩骤 S53 , 利用更新后的关键点模型 B按照所述歩骤 S3和歩骤 S4 的描述对所述待跟踪人脸视频中的每一帧人脸图像进行人脸的再跟踪。

在所述歩骤 S52进行 CLM人脸跟踪时，可以每隔数帧就根据所述歩骤 S51 的描述对于人脸姿态参数组进行初始化，这样做可以对 CLM 人脸跟踪起到校正作用，因为如果一直使用前一帧的检测结果来进行初始化可能会造成错误的累积，导致跟踪丢失。为了进一歩增强效果，本发明还采用了在线学习的方式，即歩骤 S6, 以在跟踪过程中利用已有的检测结果随时进行学习训练，使得建模与跟踪融为一体，能够在线更新所述模型 A，相比传统的机器学习过程，即学习与应用相分离的模式，有所突破。如此，再结合上一歩骤所介绍的融合跟踪方法，能够使得整个人脸跟踪***的跟踪效果更加鲁棒，即使对于较大角度的转动也能够得到较理想的跟踪效果。

歩骤 S6，使用增量 PCA (Incremental PCA)方法对所述模型 A进行更新，并利用更新后的模型 A重复所述歩骤 S1-S5, 得到最终的人脸跟踪结果。

由上文中的介绍可知，所述模型 A分为形状与纹理模型两部分，接下来以形状模型为例对该歩骤进行说明，简洁起见，下文中仍使用模型 A来表述。对于所述模型 A，由（2) 式可知，其为平均人脸形状 _S。与一系列标准正交基线性组合的结果。将这一系列标准正交基组成集合 A'，且集合 A' = ，而平均人脸形状 so则为集合 A'中元素的算术平均值。另设一集合 B'，里面放置在线学***均值设为 _S'。， m为集合 B'中向量的个数， n为所述人脸特征点的个数。另外，所述集合 B'中所加入的向量个数可根据使用需要来设定，这样既保证了在线更新的准确性，同时也不必每一帧都进行增量学习，从而突出了时效性。

那么对模型 A进行更新的歩骤进一歩包括以下歩骤：

歩骤 S61, 计算表达式^ 的奇异值分解 SVD, 得到 f/∑V^T，其中指集合 A'中的每一列向量均与 _SQ相减所得的矩阵；歩骤 S62, 构造一增广矩阵 =[(^- |^^。- ]，其中，为集合 B'的算术平均值， m为集合 B'中向量的个数， n为所述人脸特征点的个数，并根据所述增广矩阵计算得到与 Β = orthiB - UU^TB), orth( · )表示矩阵正交化操作，可用 QR 分解得出，

L 0 B^T(B - UU^TB) J，

歩骤 S63，计算 R的奇异值分解 SVD，得到 ^^Τ;

歩骤 S64, 计算得到 = ，则 U'为一组新的正交基，也可以理解为是更新过后的集合 A'，进而得到更新后的模型 A;

图 2-图 4为根据本发明方法对不同的人脸进行跟踪的结果示意图。其中，图 2是对正脸进行跟踪的结果示意图；图 3是对存在小角度转动的脸部的跟踪结果示意图；图 4是对存在较大角度转动的脸部的跟踪结果示意图，以上各图中的图 a均是没有进行在线增量学习的跟踪结果，图 b为进行了在线增量学习的跟踪结果，可以看出，采用了在线增量学习的人脸跟踪效果要优于没有进行在线增量学习的人脸跟踪效果。

为了突出在线增量学习对于模型 A的影响，也即考虑到离当前帧越近的图像越能影响跟踪效果，因此，还可以选择性地在进行在线增量学习的时候加入遗忘因子 f:

其中，所述遗忘因子 f为一经验值，其取值范围为 0~1。

综上，本发明结合了人脸检测和 CLM算法，并加入了基于在线增量学习的主成分分析，从而大大提升了***的整体鲁棒性，并且同时保证了***的实时性。具体地，本发明利用关键点检测对于人脸角度进行了估算，以此作为 CLM建模时模型角度的选择依据，同时，一方面利用 CLM检测结果来不断校正关键点样本库，另一方面利用检测结果在线实时更新 CLM模型，使得模型不再仅仅是学习时静态的获得，而是动态地与当前状态紧密相连，从而解决了在进行 CLM人脸跟踪时，由于目标图像中相邻帧间变化大时出现的跟踪丢失的问题，提高了跟踪的精准度。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一歩详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种基于在线增量主成分分析的特征与模型互匹配人脸跟踪方法，其特征在于，该方法包括以下歩骤：

歩骤 S6，使用增量 PCA方法对所述模型 A进行更新，并利用更新后的模型 A重复所述歩骤 S1-S5 , 得到最终的人脸跟踪结果。

2、根据权利要求 1所述的方法，其特征在于，所述歩骤 S1进一歩包括以下歩骤：

3、根据权利要求 2所述的方法，其特征在于，所述歩骤 S11进一歩包括：

歩骤 Sill ,采集 N张人脸图像，对于每张人脸图像都依照所述共同的人脸轮廓进行人为标定，得到多个标定特征点，进而得到 N个人脸形状向量 s_m:

其中， m表示 Ν张人脸图像中的第 m张人脸图像，分别为相应人脸图像中第 1个标定特征点的坐标值， n为所述标定特征点的个数；歩骤 S112, 用一个平均人脸形状 8«)和 u个正交的人脸形状向量进行线性组合得到所述人脸形状模型 s:

其中，平均人脸形状 s_Q为N个人脸形状向量 s_m的均值， _Pl是形状参数，其值为对所述 N个人脸形状向量 s_m进行主成分分析后得到的 u个特征向量所对应的权值。

4、根据权利要求 3所述的方法，其特征在于，在所述歩骤 S112中进行主成分分析前，对所述 N个人脸形状向量 s_m分别进行普鲁斯特分析，以减小运动误差。

5、根据权利要求 2所述的方法，其特征在于，所述歩骤 12进一歩包括以下歩骤：

歩骤 S121 ,以所述歩骤 S11得到的每一人脸图像的每一个标定特征点为中心，取一个大小为 r x r的区域作为正样本，在相应图像中的任意其他位置处截取多个同样大小的区域作为负样本；

歩骤 S122, 基于每个标定特征点所对应的样本组，利用支持向量机得到每个标定特征点对应的纹理模型 w^T。

6、根据权利要求 5所述的方法，其特征在于，所述歩骤 S122中：首先，将每个标定特征点所对应的样本组中的每个样本写成以下形式：

ν(0_=Γν(0 _v(0 _v(0 I T 其中，（i ) 表示样本的序号， x )为相应样本中某一位置处的像素值；然后，利用 SVM得到每个标定特征点对应的纹理模型 Μ/^τ :

= W^T - X⁽ + 6» , 其中，为 SVM 的输出， w^T是学习得到的纹理模型： w^T = [_Wl w₂ ... w_rxr] , 6>为 SVM的偏移量，对于每个标定特征点所对应的正样本， y« = 1；负样本， = 0。

7、根据权利要求 1所述的方法，其特征在于，所述歩骤 S2中的关键点检测包含关键点的学习和其鲁棒描述子的学习，所述关键点的学习进一歩包括以下歩骤：

歩骤 S21，对于所述待跟踪人脸视频中的每一帧图像，初歩计算得到多个关键点；

歩骤 S22, 从所述歩骤 S21初歩得到的多个关键点中选出具有不变性的关键点，并将所述待跟踪人脸视频中所有图像的不变性关键点组合起来得到关键点集合及这些关键点的描述子（¾, , ），其中， ¾表示第 1个关键点的特征值，（x_{1 yi}) 表示该关键点的坐标；

所述关键点的鲁棒描述子的学习进一歩包括以下歩骤：

歩骤 S23 , 将所述歩骤 S22得到的 n个不变性关键点组成初始关键点集合 A;

歩骤 S24, 对所述待跟踪人脸视频中每一帧图像中的人脸进行姿态旋转、表情变化、光照变化中的一种参数变换，仿真得到变换后的图像；歩骤 S25 , 将根据所述歩骤 S21和 S22检测得到的变换后的图像的多个不变性关键点组成关键点集合 B;

歩骤 S26, 对关键点集合 B里的每个点 p，关键点集合 A进行描述子匹配操作；

歩骤 S27 ,对于经过其他参数变换后的图像重复所述歩骤 24到 26，最终得到所述特定人脸图像序列中每一帧图像的完备关键点鲁棒描述子。

8、根据权利要求 7所述的方法，其特征在于，所述歩骤 S26具体为：

在关键点集合 A中，找到与点 p位置最近的点 q，判断点 p和点 q 反投影到正面三维模型表面上的三维点 ρ Π q'是否为同一个三维点，若 P'和 q'是同一个三维点且 p的描述子和 q的描述子最为接近，则把 p的描述子加入到 q的描述子中；若 ρ Π q'是同一个三维点且点 p的描述子和关键点集合 A中非 q的另一个点 X的描述子最为接近，则点 q及其描述子无效；如果 ρ Π q'是同一个三维点且点 p的描述子和关键点集合 A 中每个点的描述子都不一样，则将 p和 p的描述子加入到关键点集合 A 中；如果 ρ Π q'不是同一个三维点且 p的描述子和关键点集合 A中某个点 s的某个描述子很接近，则将点 s及其描述子从关键点集合 A中去掉；如果 ρ Π q'不是同一个三维点且 p的描述子和关键点集合 A中每个关键点的描述子都不一样，则将点 p及其描述子加入到关键点集合 A中。

9、根据权利要求 1所述的方法，其特征在于，所述歩骤 S3进一歩包括以下歩骤：

歩骤 S31 ,根据所述歩骤 S2得到所述人脸视频的某一帧人脸图像的上一人脸图像帧的关键点，并在该帧人脸图像中寻找上一人脸图像帧的某一关键点在当前帧中的相应位置附近的关键点；

歩骤 S32, 将当前帧中所述关键点的描述子和所述关键点模型 B中的描述子进行匹配，将当前帧中与所述关键点模型 B中的描述子匹配上的 3D关键点组成集合 V，将当前帧中与所述关键点模型 B中的描述子匹配上的 2D关键点组成集合 u，将所述集合 V经过平面投影后得到的 2D关键点组成集合 u'，比较 u'和 u，得到使得 ||u-_U' ||最小的当前帧图像中初始的人脸相对于正脸的姿态参数组（R， T):

2

(R, T)* = arg min(w， _τ)∑ | Τψ' - u ||₂ ，

i 其中， ^为摄像机参数，为角度矩阵， r为位移向量， [ ?| r|为由 w和组成的增广矩阵， z为关键点的序号， N_k为集合 V和集合 u的关键点个数的最大值。

10、根据权利要求 1所述的方法，其特征在于，所述歩骤 S4进一歩包括以下歩骤：

歩骤 S41 , 对所述待跟踪人脸视频中的某一当前帧人脸图像进行脸部检测，得到初始的 n个特征点，并相应地得到每个特征点的大小为 r*r 的响应图像 R(x,y)，其中，每个特征点的响应图像 R(x,y)为 Μ/^Τ · χ ^(ί)矩阵化后的结果， w^T是根据支持向量机求得的该特征点的纹理模型： w^T = [w w₂ ... w_rxr] ， (^)为该特征点的第 i个大小为 r*r的样本；歩骤 S42 , 利用所述响应图像 R x,y:)，通过拟合得到所述待跟踪人脸视频每一帧人脸图像中与所述当前帧人脸图像具有同一含义的特征点的位置；

歩骤 S43 ,基于所述歩骤 S3得到的初始的人脸姿态参数组，根据拟合得到的特征点的位置得到校正后的人脸姿态参数组。

11、根据权利要求 10所述的方法，其特征在于，所述歩骤 S42进一歩包括以下歩骤：

歩骤 S422,通过函数拟合的方式找到当前帧的下一帧或上一帧图像的所述正方形区域中与所述当前帧人脸图像具有同一含义的特征点的坐标位置。

12、根据权利要求 1所述的方法，其特征在于，所述歩骤 S5进一歩包括以下歩骤：

歩骤 S52 , 基于该帧人脸图像中初始的人脸姿态参数组（R， T)，根据所述歩骤 S4 的描述，在前向或后向上对所述待跟踪人脸视频中的人脸图像进行 CLM人脸跟踪，得到每一帧人脸图像中关键点的位置，进而根据所述初始的人脸姿态参数组（R， Τ)得到校正后的人脸姿态参数组，并利用所述校正后的人脸姿态参数组对所述关键点模型 Β进行更新；

歩骤 S53 , 利用更新后的关键点模型 Β按照所述歩骤 S3和 S4的描述对所述待跟踪人脸视频中的每一帧人脸图像进行人脸的再跟踪。

13、根据权利要求 12所述的方法，其特征在于，所述歩骤 S52中，对所述关键点模型 B进行更新的歩骤进一歩包括以下歩骤：

歩骤 S521 , 对于当前帧图像，根据其人脸姿态参数组（R， T) 判断人脸的姿态；

歩骤 S522, 根据当前帧图像中的关键点描述子 F^f ^i^n关键点模型 B的匹配情况来更新所述关键点模型 B:

如果当前帧图像的大多数关键点都和所述关键点模型 B中的关键点匹配，则将当前帧中没有匹配上的那些关键点补充到所述关键点模型 B 中；否则不进行所述关键点模型 B的补充更新。

14、根据权利要求 1所述的方法，其特征在于，所述对模型 A进行更新的歩骤进一歩包括以下歩骤：

歩骤 S61 , 计算表达式^ 的奇异值分解，得到 I ∑V^T，其中， A' 为由所述模型 A中的一系列标准正交基 _Sl组成的集合， so表示所述模型 A中的平均人脸形状；骤 S62, 构造一增广矩阵 = [( - _λ」^( _ ]，其中， B'为放置有根据人脸姿态参数组（R,T) 所得到的人脸特征点的坐标向量的集合，为集合 B'的算术平均值， m为集合 B'中向量的个数， n为所述人脸特征点的个数，并根据所述增广矩阵计算得到 ^与

∑ U¹ B

B = orth(B - UU^TB), R ， orth(，）表示矩阵

0 B^T{B ^ UU^TB) 正交化操作； S63，计算 R的奇异值分解，得到

S64, 计算得到一组新的正交基 = [U Bp, 并利用得到的新的正交基对模型 A进行更新。

15、根据权利要求 14所述的方法，其特征在于， ?的表达式由下式来代替： B

R = 其中， f为遗忘因子，其为取值范围为 0~1的一经验值 _t