CN110969110A

CN110969110A - 一种基于深度学习的人脸跟踪方法及***

Info

Publication number: CN110969110A
Application number: CN201911186853.8A
Authority: CN
Inventors: 杨金江; 李云夕; 熊子瑶
Original assignee: Hangzhou Quwei Science & Technology Co ltd
Current assignee: Hangzhou Quwei Science & Technology Co ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-07
Anticipated expiration: 2039-11-28
Also published as: CN110969110B

Abstract

本发明公开了一种基于深度学习的人脸跟踪方法及***，跟踪方法包括步骤：S1、获取视频流的起始帧作为当前帧，设置n＝0；S2、判断视频流的当前帧n是否满足n％N＝＝0，若是，执行步骤S3，若否，执行步骤S4，其中，N为预设间隔帧数；S3、对当前帧进行人脸检测，若检测到人脸，输出人脸候选框，执行步骤S4，否则，获取视频流的下一帧作为当前帧，设置n＝0，执行步骤S2；S4、对人脸候选框进行人脸验证，验证人脸候选框中是否包含人脸，若是，输出人脸框图像，执行步骤S5，否则，获取视频流的下一帧作为当前帧，设置n＝0，执行步骤S2；S5、对所述人脸框图像进行关键点定位，计算人脸关键点的外接矩形框；S6、扩展所述外接矩形框得到外扩矩形框，提取视频流的下一帧作为当前帧，设置n＝n+1、外扩矩形框为人脸候选框，执行步骤S2。本发明兼容单人脸和多人脸跟踪，不受场景环境影响，且人脸跟踪鲁棒性高、实时性强。

Description

一种基于深度学习的人脸跟踪方法及***

技术领域

本发明涉及图像处理领域，具体涉及一种基于深度学习的人脸跟踪方法及***。

背景技术

近年来，针对人脸分析的研究越来越多，所谓人脸分析，是指在人脸的基础上，通过计算机视觉和模式识别理论，对人的表情、位置、身份等进行识别。人脸跟踪及人脸识别是人脸分析中的重要环节，再通过其他环节的相互配合，有效的完成整个人脸分析的过程。人脸分析已经取得了比较大的进步，而且在监控***中也得了良好的运用。人脸跟踪是在视频流或图像序列中确定某个或多个人脸的运动轨迹以及尺度变化的过程。人脸跟踪在图像识别分析和目标追踪等领域中有着重大意义，是图像与追踪领域长期以来关注的焦点。许多深度学习算法也层出不穷，单目跟踪和多目跟踪算法相继出现。但现有算法也存在各自的不足，比如单目跟踪算法不能进行多人脸跟踪，多目跟踪算法计算量大，无法部署在移动设备上，在帧内容变化较大时会出现跟踪失败等现象。

公开号为CN 110008793A的发明专利申请公开了一种人脸识别方法、装置及设备，包括：提取视频文件的关键帧；确定所述关键帧后播放的预设数量的图像帧为非关键帧；对所述关键帧进行人脸识别，获得所述关键帧中的人脸图像；根据所述关键帧中的人脸图像，对所述非关键帧进行人脸跟踪，获得所述非关键帧中的人脸图像。该识别方法只对视频文件的关键帧进行人脸识别，对关键帧后播放的预设数量的图像帧进行人脸跟踪，由于无需对视频文件的每一图像帧均执行人脸识别，对部分图像帧采用人脸跟踪的方式，相对于执行人脸识别过程，运算速度会快很多，一定程度上解决了现有技术视频中的人脸识别过程计算量大，耗时和耗力的问题。

然而，其人脸识别结果依赖于关键帧的检测，即使检测的关键帧不包括人脸而非关键帧包括人脸，也依然只对关键帧进行检测，同时不能有效跟踪非关键帧中的人脸。同时，当人脸检测有误时，可能存在人脸误跟踪的问题。因此，如何实现高鲁棒性、高效率、低计算量的人脸跟踪方法是本领域亟待解决的问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于深度学习的人脸跟踪方法及***。本发明兼容单人脸和多人脸跟踪，不受场景环境影响；人脸跟踪鲁棒性高，解决误跟踪以及跟丢等问题；本发明移动端实时性强，跟踪速度可到100FPS，跟踪方法极易落地到移动产品端。

为了实现以上目的，本发明采用以下技术方案：

一种基于深度学习的人脸跟踪方法，包括步骤：

S1、获取视频流的起始帧作为当前帧，设置n＝0；

S2、判断视频流的当前帧n是否满足n％N＝＝0，若是，执行步骤S3，若否，执行步骤S4，其中，N为预设间隔帧数；

S3、对当前帧进行人脸检测，若检测到人脸，输出人脸候选框，执行步骤S4，否则，获取视频流的下一帧作为当前帧，设置n＝0，执行步骤S2；

S4、对人脸候选框进行人脸验证，验证人脸候选框中是否包含人脸，若是，输出人脸框图像，执行步骤S5，否则，获取视频流的下一帧作为当前帧，设置n＝0，执行步骤S2；

S5、对所述人脸框图像进行关键点定位，计算人脸关键点的外接矩形框；

S6、扩展所述外接矩形框得到外扩矩形框，提取视频流的下一帧作为当前帧，设置n＝n+1、外扩矩形框为人脸候选框，执行步骤S2。

进一步地，所述人脸检测由卷积神经网络实现，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层；第一卷积层与输入层连接，输入层输入的是视频流图像帧，全连接层位于最后一个池化层和输出层之间，输出层输出人脸或非人脸、人脸候选框。

进一步地，所述人脸验证由卷积神经网络实现，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层→第六卷积层→第六PReLU层→第六池化层→第七卷积层→第七PReLU层；第一卷积层与输入层连接，输入层输入的是人脸候选框，全连接层位于最后一个池化层和输出层之间，输出层为分类器，输出人脸或非人脸。

进一步地，所述关键点定位由卷积神经网络实现，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第三池化层→第四卷积层→第四PReLU层；第一卷积层与输入层连接，输入层输入的是人脸框图像，全连接层位于最后一个池化层和输出层之间，输出层输出人脸的关键点。

进一步地，所述关键点包括左眼睛、右眼睛、鼻子、嘴巴以及脸部外轮廓。

本发明还提出一种基于深度学习的人脸跟踪***，包括：

图像/视频模块，用于获取视频流的起始帧作为当前帧，设置n＝0；

判断模块，用于判断视频流的当前帧n是否满足n％N＝＝0，若是，调用人脸检测模块，若否，调用人脸验证模块，其中，N为预设间隔帧数；

人脸检测模块，用于对当前帧进行人脸检测，若检测到人脸，输出人脸候选框，调用人脸验证模块，否则，获取视频流的下一帧作为当前帧，设置n＝0，调用判断模块；

人脸验证模块，用于对人脸候选框进行人脸验证，验证人脸候选框中是否包含人脸，若是，输出人脸框图像，调用人脸对齐模块，否则，获取视频流的下一帧作为当前帧，设置n＝0，调用判断模块；

人脸对齐模块，用于对所述人脸框图像进行关键点定位，计算人脸关键点的外接矩形框；

扩展模块，用于扩展所述外接矩形框得到外扩矩形框，提取视频流的下一帧作为当前帧，设置n＝n+1、外扩矩形框为人脸候选框，调用判断模块。

进一步地，所述人脸检测模块为卷积神经网络，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层；第一卷积层与输入层连接，输入层输入的是视频流图像帧，全连接层位于最后一个池化层和输出层之间，输出层输出人脸或非人脸、人脸候选框。

进一步地，所述人脸验证模块为卷积神经网络，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层→第六卷积层→第六PReLU层→第六池化层→第七卷积层→第七PReLU层；第一卷积层与输入层连接，输入层输入的是人脸候选框，全连接层位于最后一个池化层和输出层之间，输出层为分类器，输出人脸或非人脸。

进一步地，所述人脸对齐模块为卷积神经网络实现，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第三池化层→第四卷积层→第四PReLU层；第一卷积层与输入层连接，输入层输入的是人脸框图像，全连接层位于最后一个池化层和输出层之间，输出层输出人脸的关键点。

本发明提供了一种基于深度学习的人脸跟踪方法及***，通过人脸检测模块对视频序列中的第n帧进行人脸检测，得到人脸候选框，并通过人脸验证模块对人脸候选框进一步筛选，获取确定是人脸的基准框，然后将基准框通过人脸对齐模块获得人脸五官以及轮廓的关键点，并计算所有点的外接矩形，往复循环以上流程，以实现人脸跟踪。首先，本发明间隔预设间隔帧数才进行一次人脸检测，大大地降低人脸跟踪时间，能在移动端进行实时人脸检测跟踪；其次，本发明增加人脸验证模块，对人脸候选框进行筛选，若验证结果为非人脸则进行人脸检测，增强人脸追踪鲁棒性，防止人脸误跟踪，利用人脸对齐模块的结果作为下一帧人脸追踪的输入，使得整个***更加健壮；最后，本发明设计的人脸检测模型，不受人脸个数的限制，可以有效解决单人脸和多人脸跟踪的问题，使得人脸跟踪***不受场景环境等影响。

附图说明

图1是实施例一提供的一种基于深度学习的人脸跟踪方法流程图；

图2是关键点及人脸框示意图；

图3是实施例三提供的一种基于深度学习的人脸跟踪***结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

实施例一

如图1所示，本实施例提出了一种基于深度学习的人脸跟踪方法，包括：

S1、获取视频流的起始帧作为当前帧，设置n＝0；

视频流由多帧图像组成，对视频流的人脸跟踪实质是对多帧图像的人脸检测与识别。本发明具体实施例所述的人脸跟踪方法，逐帧对视频流进行处理。首先通过图像/视频模块获取视频流的起始帧，其中n＝0，视频流的获取具体通过图像编解码库，例如imageio库、OpenCV等。

为了解决现有技术中视频人脸跟踪过程计算量大、耗时和耗力的问题，本发明无需对视频流中的每一图像帧均执行人脸检测，在检测出人脸后，经过预设间隔帧数再进行人脸检测。本领域技术人员可以根据需要预设间隔帧数，如5帧、10帧等。由于间隔5帧、10帧等才进行一次人脸检测，大大地降低人脸跟踪时间，能在移动端进行实时人脸检测跟踪。

对于视频流的起始帧，由于0％N＝＝0，因此必然会执行步骤S3，进行人脸检测，即本发明首先将视频流的起始帧作为人脸检测的输入。

对于需要进行人脸检测的当前帧，本发明通过人脸检测模块检测当前帧中的人脸。若人脸检测模块输出为非人脸，则返回图像/视频模块获取视频流的下一帧，并将该帧作为当前帧，设置n＝0，再次用人脸检测模块进行检测，往复循环，直到人脸检测模块输出为人脸为止，当人脸检测模块输出为人脸时，将人脸检测模块输出的人脸候选框进行下一步的验证。当输出为人脸时，输出相应的人脸候选框。也就是说，本发明并不是固定地对某些位置的帧进行人脸检测，而是会根据对当前帧的人脸检测结果判断是否对下一帧继续进行人脸检测。避免了当当前帧不包含人脸、而下一帧包括人脸时，不能对人脸进行有效检测与跟踪的问题。

本发明人脸检测模块由卷积神经网络子模块堆叠而成，卷积神经网络子模块由卷积层、PReLU层以及池化层构成。具体地，人脸检测模块包括5个卷积层，每个卷积层都附带一个带参数的非线性激活函数PReLU层，第一卷积层、第二个卷积层、第四个卷积层后连接有池化层，每一个池化层均采用最大池化的方法。具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层。此外，卷积神经网络还包括输入层、全连接层、输出层，第一卷积层与输入层连接，输入层输入的是需要处理的视频流图像帧，全连接层位于最后一个池化层和输出层之间，其中每一个神经元都与前一层的全部神经元相连接，并根据目标检测的需要，有针对性地将特征向量映射到输出层。输出层输出人脸或非人脸、人脸候选框。

本发明利用大量的人脸样本图片对人脸检测模块进行训练，得到最终的人脸检测模块。人脸样本图片可以来源于公开人脸数据库FDDB和widerface。将人脸样本图片输入预设人脸检测模块，计算卷积神经网络的损失函数，利用损失函数对卷积神经网络进行迭代、更新，基于深度学习的人脸检测通过不断对卷积神经网络进行训练，使损失函数降到预期值，生成最终的人脸检测模块。

为了避免人脸跟踪过程中的误跟踪以及跟踪丢失等问题，本发明在人脸检测模块检测到人脸后，会对人脸检测模块输出的人脸候选框进行进一步验证，以确定人脸候选框中是否包含人脸。当人脸验证模块的输出结果是不包含人脸时，则返回图像/视频模块获取视频流的下一帧，并将该帧作为当前帧，设置n＝0，再次用人脸检测模块进行检测，检测到人脸后用人脸验证模块进行验证，往复循环，直到人脸验证模块输出为包含人脸为止。当人脸验证模块输出为包含人脸时，将人脸验证模块输出的人脸框图像数据进行下一步的关键点定位。通过人脸验证模块的进一步验证，提升了人脸跟踪的准确性。

本发明人脸验证模块由卷积神经网络子模块堆叠而成，卷积神经网络子模块由卷积层、PReLU层以及池化层构成。具体地，人脸检测模块包括7个卷积层，每个卷积层都附带一个带参数的非线性激活函数PReLU层，第一卷积层、第二个卷积层、第四个卷积层、第六卷积层后连接有池化层，每一个池化层均采用最大池化的方法。具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层→第六卷积层→第六PReLU层→第六池化层→第七卷积层→第七PReLU层。此外，卷积神经网络还包括输入层、全连接层、输出层，第一卷积层与输入层连接，输入层输入的是需要处理的人脸候选框，全连接层位于最后一个池化层和输出层之间，其中每一个神经元都与前一层的全部神经元相连接，并根据人脸验证的需要，有针对性地将特征向量映射到输出层。输出层为分类器，输出人脸或非人脸。

本发明利用大量的人脸样本图片、非人脸样本图片对人脸验证模块进行训练，得到最终的人脸验证模块。将样本图片输入预设人脸样本模块，计算卷积神经网络的损失函数，利用损失函数对卷积神经网络进行迭代、更新，基于深度学习的人脸验证通过不断对卷积神经网络进行训练，使损失函数降到预期值，生成最终的人脸验证模块。

获取人脸框图像后，通过人脸对齐模块进行相应的关键点定位。所述人脸关键点可以包括但不限于左眼睛、右眼睛、鼻子、嘴巴以及脸部外轮廓等5个关键点。通过人脸对齐模块检测到人脸关键点后，计算所有人脸关键点的外接矩形框。

本发明人脸对齐模块由卷积神经网络子模块堆叠而成，卷积神经网络子模块由卷积层、PReLU层以及池化层构成。具体地，人脸检测模块包括4个卷积层，每个卷积层都附带一个带参数的非线性激活函数PReLU层，第一卷积层、第二个卷积层、第三个卷积层后连接有池化层，每一个池化层均采用最大池化的方法。具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第三池化层→第四卷积层→第四PReLU层。此外，卷积神经网络还包括输入层、全连接层、输出层，第一卷积层与输入层连接，输入层输入的是需要处理的人脸框图像，全连接层位于最后一个池化层和输出层之间，其中每一个神经元都与前一层的全部神经元相连接，并根据关键点定位的需要，有针对性地将特征向量映射到输出层。输出层输出人脸的关键点。

本发明利用大量的人脸样本图片对人脸对齐模块进行训练，得到最终的人脸对齐模块。将样本图片输入预设人脸样本模块，计算卷积神经网络的损失函数，利用损失函数对卷积神经网络进行迭代、更新，基于深度学习的人脸验证通过不断对卷积神经网络进行训练，使损失函数降到预期值，生成最终的人脸对齐模块。

人脸跟踪过程中，由于人脸会出现移动等情况，因此，本发明并不直接将检测得到的外接矩形框作为下一帧的人脸候选框，进行下一帧的人脸验证，而是扩展所述外接矩形框得到外扩矩形框，将其作为下一帧的人脸候选框。因此，本发明的人脸跟踪方法适应性强。

如图2所示，点状数据为人脸对齐模块定位的人脸关键点，框A为外接矩形框，框B为外扩矩形框，外扩矩形框B作为人脸候选框，作为下一帧的人脸验证模块的输入。

例如，预设间隔帧数为10时，当n＝1，由于1对于预设间隔帧数求余不为0，所以不执行人脸检测，直接跳转到人脸验证模块，并将上一帧人脸对齐的结果(也即图2框B的人脸图像数据)作为人脸验证模块的输入，若人脸验证模块输出结果为人脸，则将上一帧人脸关键点外扩矩形内的人脸图像数据(也即图2框B的人脸图像数据)作为当前帧，输入到人脸对齐模块进行人脸关键点定位，再次计算人脸关键点的外扩矩形。因为在视频流中，人脸是运动的，所以该外扩矩形不再完全和图2中框B相同，即框B也是不断变动的，并将该外扩矩形内的人脸图像数据作为下一帧的预输入。返回图像/视频模块获取视频流的下一帧(n＝2)，反复执行以上过程，当n＝10时，10对10求余等于0，则须执行人脸检测，将当前帧(n＝10)的图像数据输入人脸检测模块进行人脸检测，往复循环，直到程序执行到视频流的最后一帧。就这样，即可实现视频流中人脸跟踪，在每一帧都加入人脸验证，解决误跟踪以及跟丢等问题。每个10帧才进行一次人脸检测，跟踪实时性强，跟踪速度可到100FPS，能够应用于移动端，在移动端进行实时人脸检测跟踪。

实施例二

如图2所示，本实施例提出了一种基于深度学习的人脸跟踪***，包括：

本发明利用大量的人脸样本图片对人脸检测模块进行训练，得到最终的人脸检测模块。人脸样本图片可以来源于相似人脸数据库FGLFW。将人脸样本图片输入预设人脸检测模块，计算卷积神经网络的损失函数，利用损失函数对卷积神经网络进行迭代、更新，基于深度学习的人脸检测通过不断对卷积神经网络进行训练，使损失函数降到预期值，生成最终的人脸检测模块。

获取人脸框图像后，通过人脸对齐模块进行相应的关键点定位。所述人脸关键点可以包括但不限于左眼睛、右眼睛、鼻子、左嘴角和右嘴角等5个关键点。通过人脸对齐模块检测到人脸关键点后，计算所有人脸关键点的外接矩形框。

由此可知，本发明提供的基于深度学习的人脸跟踪方法及***，间隔预设间隔帧数才进行一次人脸检测，大大地降低人脸跟踪时间，能在移动端进行实时人脸检测跟踪；此外，本发明增加人脸验证模块，对人脸候选框进行筛选，若验证结果为非人脸则进行人脸检测，增强人脸追踪鲁棒性，防止人脸误跟踪，利用人脸对齐模块的结果作为下一帧人脸追踪的输入，使得整个***更加健壮；且本发明设计的人脸检测模型，不受人脸个数的限制，可以有效解决单人脸和多人脸跟踪的问题，使得人脸跟踪***不受场景环境等影响。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于深度学习的人脸跟踪方法，其特征在于，包括步骤：

S1、获取视频流的起始帧作为当前帧，设置n＝0；

2.根据权利要求2所述的人脸跟踪方法，其特征在于，所述人脸检测由卷积神经网络实现，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层；第一卷积层与输入层连接，输入层输入的是视频流图像帧，全连接层位于最后一个池化层和输出层之间，输出层输出人脸或非人脸、人脸候选框。

3.根据权利要求1所述的人脸跟踪方法，其特征在于，所述人脸验证由卷积神经网络实现，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层→第六卷积层→第六PReLU层→第六池化层→第七卷积层→第七PReLU层；第一卷积层与输入层连接，输入层输入的是人脸候选框，全连接层位于最后一个池化层和输出层之间，输出层为分类器，输出人脸或非人脸。

4.根据权利要求1所述的人脸跟踪方法，其特征在于，所述关键点定位由卷积神经网络实现，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第三池化层→第四卷积层→第四PReLU层；第一卷积层与输入层连接，输入层输入的是人脸框图像，全连接层位于最后一个池化层和输出层之间，输出层输出人脸的关键点。

5.根据权利要求1所述的人脸跟踪方法，其特征在于，所述关键点包括左眼睛、右眼睛、鼻子、嘴巴以及脸部外轮廓。

6.一种基于深度学习的人脸跟踪***，其特征在于，包括：

7.根据权利要求6所述的人脸跟踪***，其特征在于，所述人脸检测模块为卷积神经网络，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层；第一卷积层与输入层连接，输入层输入的是视频流图像帧，全连接层位于最后一个池化层和输出层之间，输出层输出人脸或非人脸、人脸候选框。

8.根据权利要求6所述的人脸跟踪***，其特征在于，所述人脸验证模块为卷积神经网络，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第四卷积层→第四PReLU层→第四池化层→第五卷积层→第五PReLU层→第六卷积层→第六PReLU层→第六池化层→第七卷积层→第七PReLU层；第一卷积层与输入层连接，输入层输入的是人脸候选框，全连接层位于最后一个池化层和输出层之间，输出层为分类器，输出人脸或非人脸。

9.根据权利要求6所述的人脸跟踪***，其特征在于，所述人脸对齐模块为卷积神经网络实现，包括输入层、全连接层、输出层、卷积神经网络子模块，所述卷积神经网络子模块的具体结构为：第一卷积层→第一PReLU层→第一池化层→第二卷积层→第二PReLU层→第二池化层→第三卷积层→第三PReLU层→第三池化层→第四卷积层→第四PReLU层；第一卷积层与输入层连接，输入层输入的是人脸框图像，全连接层位于最后一个池化层和输出层之间，输出层输出人脸的关键点。

10.根据权利要求6所述的人脸跟踪***，其特征在于，所述关键点包括左眼睛、右眼睛、鼻子、嘴巴以及脸部外轮廓。