WO2017096753A1

WO2017096753A1 - 人脸关键点跟踪方法、终端和非易失性计算机可读存储介质

Info

Publication number: WO2017096753A1
Application number: PCT/CN2016/081631
Authority: WO
Inventors: 汪铖杰
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2015-12-11
Filing date: 2016-05-11
Publication date: 2017-06-15
Also published as: US20200005022A1; US20180018503A1; US10452893B2; US11062123B2; CN106874826A

Abstract

一种人脸关键点跟踪方法包括：读取视频文件中一帧图像；检测所述一帧图像中人脸位置，获取人脸坐标框位置，并配置人脸关键点的初始位置；根据所述人脸关键点的初始位置获取人脸关键点坐标位置；读取视频文件中相邻下一帧图像；将上一帧图像的人脸关键点坐标位置作为下一帧图像的人脸关键点的初始位置；根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置。

Description

人脸关键点跟踪方法、终端和非易失性计算机可读存储介质

本申请要求于2015年12月11日提交中国专利局、申请号为201510922450.0、发明名称为“人脸关键点跟踪方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及图像处理领域，特别是涉及一种人脸关键点跟踪方法和装置、终端和非易失性计算机可读存储介质。

背景技术

人脸跟踪是指在视频文件或视频流或图像序列中确定某个人脸的运动轨迹及大小变化的过程。人脸跟踪在图像分析和识别图像领域具有重大意义。人脸跟踪算法的鲁棒性和实时性是两个难以同时满足的指标，因为随着鲁棒性的提升，算法的复杂程度会大幅度增加，受限于有限的计算机处理能力，人脸跟踪的实时性必会降低。

在视频文件或视频流中为了实现人脸跟踪效果，需对每一帧做人脸检测和人脸关键点定位，如此人脸检测算法需要耗费大量时间，跟踪效率低。

发明内容

基于此，有必要提供一种人脸关键点跟踪方法，能节省时间，提高人脸跟踪效率。

此外，还有必要提供一种终端和非易失性计算机可读存储介质，能节省时间，提高人脸跟踪效率。

一种人脸关键点跟踪方法，包括：

读取视频文件中一帧图像；

检测所述一帧图像中人脸位置，获取人脸坐标框位置；

根据所述人脸坐标框位置配置人脸关键点的初始位置；

根据所述人脸关键点的初始位置获取人脸关键点坐标位置；

重复执行如下步骤：

读取视频文件中相邻下一帧图像；

将上一帧图像的人脸关键点坐标位置作为下一帧图像的人脸关键点的初始位置；

根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置。

一种终端，包括存储器及处理器，所述存储器中储存有计算机可读指令，所述指令被所述处理器执行时，使得所述处理器执行以下步骤：

读取视频文件中一帧图像；

检测所述一帧图像中人脸位置，获取人脸坐标框位置；

根据所述人脸坐标框位置配置人脸关键点的初始位置；

根据所述人脸关键点的初始位置获取人脸关键点坐标位置；

重复执行如下步骤：

读取视频文件中相邻下一帧图像；

一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行以下步骤：

读取视频文件中一帧图像；

检测所述一帧图像中人脸位置，获取人脸坐标框位置；

根据所述人脸坐标框位置配置人脸关键点的初始位置；

根据所述人脸关键点的初始位置获取人脸关键点坐标位置；

重复执行如下步骤：

读取视频文件中相邻下一帧图像；

本发明的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中终端的内部结构示意图；

图2为一个实施例中人脸关键点跟踪方法的流程图；

图3为一个实施例中根据该人脸坐标框位置配置人脸关键点的初始位置的具体步骤流程图；

图4为一个实施例中将人脸关键点与人脸坐标框位置中心对齐的示意图；

图5为一个实施例中缩放人脸关键点的示意图；

图6为获取五官点坐标位置的示意图；

图7为一个实施例中人脸关键点跟踪装置的结构框图；

图8为另一个实施例中人脸关键点跟踪装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中终端的内部结构示意图。如图1所示，该终端包括通过***总线连接的处理器、存储介质、内存和网络接口、图像采集装置、显示屏、扬声器和输入装置。其中，终端的存储介质存储有操作***，还包括一种人脸关键点跟踪装置，该人脸关键点跟踪装置用于实现一种人脸关键点跟踪方法。该处理器用于提供计算和控制能力，支撑整个终端的运行。终端中的内存为存储介质中的人脸关键点跟踪装置的运行提供环境，网络接口用于与服务器进行网络通信，如发送视频文件请求至服务器，接收服务器返回的视频文件等。终端的图像采集装置可采集外部图像，例如摄像头拍摄图像等。显示屏可以是液晶显示屏或者电子墨水显示屏等，输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该终端可以是手机、平板电脑或者个人数字助理。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图2为一个实施例中人脸关键点跟踪方法的流程图。如图2所示，一种人脸关键点跟踪方法，可运行于图1中的终端上，包括：

步骤202，读取视频文件中一帧图像。

具体地，视频文件可为在线视频文件或下载在终端上的视频文件。在线视频文件可以一边播放，一边读取。下载在终端上的视频文件也可以一边播放，一边读取。

视频文件在播放时视频图像是一帧一帧的进行播放，可以抓取每一帧图像进行处理。首先，读取视频文件中的其中某一帧图像进行处理。该某一帧图像可为视频文件的第一帧图像，也可为其他帧图像。

步骤204，检测该一帧图像中人脸位置，获取人脸坐标框位置。

本实施例中，检测该一帧图像中人脸位置，获取人脸坐标框位置的步骤包括：利用人脸检测技术检测一帧图像中人脸位置，获取人脸坐标框位置。

具体地，人脸检测技术是输入包含人脸图的图像，可以检测出人脸的矩形坐标框位置。

人脸检测技术主要采用Robust Real-Time Face Detection(鲁棒实时人脸检测)。可通过Haar-Like特征与Adaboost算法实现人脸检测，在该方法中，采用Haar-Like特征表示人脸，对各Haar-Like特征进行训练得到弱分类器，通过Adaboost算法选择多个最能代表人脸的弱分类器构成强分类器，将若干个强分类器串联组成一个级联结构的层叠分类器，即人脸检测器。其中，每个Haar-Like特征考虑基准框与一个领域框的人脸图像信息。

也可采用多尺度块状局部二值模式(Multi-sale Block based Local Binary Patterns，MBLBP)特征与Adaboost算法实现人脸检测。该方法中采用可表示基准框与8个领域框的人脸图像信息的MBLBP特征表示人脸，通过比较基准框的平均灰度与8个领域框各自的平均灰度计算MBLBP特征。

也可采用多尺度的结构化定序测量特征(Multi-scale Structured Ordinal Features，MSOF)与Adaboost算法实现人脸检测。该方法中采用可表示基准框与8个领域框的人脸图像信息的MSOF特征表示人脸，8个领域框相对于基准框的距离可调，且基准框与8个领域框可以不相连。

也可采用采集人脸和非人脸图像作为训练样本集，提取人脸和非人脸图像的弹性的块状局部二值模式(Flexible Block Based Local Binary Patterns，FBLBP)特征构成FBLBP特征集。利用FBLBP特征和GentleBoost算法进行训练，得到第一分类器，第一层分类器包括若干个最优第二分类器，每个最优第二分类器通过GentleBoost算法训练所得。第一分类器为强分类器，第二分类器为弱分类器。将弱分类器累加得到强分类器。将多层第一分类器级联成人脸检测器。采用人脸检测器检测第一帧图像或其他帧图像中的人脸位置，获取人脸坐标框位置。

人脸坐标框的坐标是以终端屏幕显示时左上角作为坐标原点，以横向为X轴和纵向为Y轴建立的坐标系，不限于此，也可采用其他自定义方式建立坐标系。

步骤206，根据该人脸坐标框位置配置人脸关键点的初始位置。

在一个实施例中，如图3所示，根据该人脸坐标框位置配置人脸关键点的初始位置包括：

步骤302，通过平移预存的人脸关键点，使该预存的人脸关键点和该人脸坐标框位置中心对齐。

具体地，预存的人脸关键点有中心，人脸坐标框位置也有中心，将预存的人脸关键点的中心与人脸坐标框位置中心重合在一起，即中心对齐。

步骤304，缩放该预存的人脸关键点，使该预存的人脸关键点尺寸与该人脸坐标框尺寸一致。

具体地，当预存的人脸关键点和人脸坐标框位置中心重合在一起后，通过缩放人脸关键点，使得人脸关键点尺寸与人脸坐标框尺寸一样。

通过平移和缩放人脸关键点，使得人脸关键点和人脸坐标框位置匹配，得到一帧图像的人脸关键点的初始位置，计算量小，操作简单。

步骤208，根据该人脸关键点的初始位置获取人脸关键点坐标位置。

本实施例中，根据该人脸关键点的初始位置获取人脸关键点坐标位置的步骤包括：利用人脸关键点定位技术根据该人脸关键点的初始位置获取人脸关键点坐标位置。

具体地，人脸关键点定位技术是指输入包含人脸图像、人脸关键点初始位置，得到人脸关键点坐标位置。人脸关键点坐标位置是指多个点的二位坐标值。

人脸关键点定位是在人脸检测基础上，进一步定位人脸的眼睛、眉毛、鼻子、嘴巴、轮廓等，主要是利用关键点附近的信息以及各个关键点之间的相互关系来定位。人脸关键点定位技术采用基于回归的算法，如Face Alignment by Explicit Shape Regression。Face Alignment by Explicit Shape Regression使用了一个两级的boosted regressor。使用了第一层10级，第二层500级。在这个二级结构中，第一级中每个节点都是500个弱分类器的级联，也就是一个第二层的regressor中。在第二层中regressor中，特征是保持不变的，在第一层中，特征是变化的。在第一层，每一个节点的输出都是上一个节点的输入。

fern作为原始regressor。fern是N个特征和阈值的组合，将训练样本划分为2的F次幂个bins。每一个bin对应一个输出y_b，即

这里β是过拟合系数，|Ω_b|是当前bin中样本总数。这样，最后的输出就是一个所有训练样本的线性组合。并采用shape index feature，就是根据关键点的位置和一个偏移量，取得该位置的像素值，然后计算两个这样的像素的差值，从而得到了形状索引特征。该方法中采用的是局部坐标而非全局坐标系，极大的增强了特征的鲁棒性。

此外，人脸关键点定位可包括(1)(2)(3)：

(1)使用训练的多个定位模型在输入的人脸图像上得到多个定位结果。每一个定位结果包括多个人脸关键点位置。人脸关键点位置包括眼睛、眉毛、鼻子、嘴巴、轮廓的位置。

假设采用K个定位模型A₁～A_K，这K个定位模型的集合被表示为A。将输入的人脸图像与K个定位模型对齐，用(x，y)表示像素在图像上的位置，从而得到的K个定位结果，分别表示为S₁，S₂，...，S_K，每个定位结果S中具有L个人脸关键点位置，因此，S可表示为：S＝{x₁，_y1，x₂，y₂，…，x_L，y_L}。

可通过在训练集C(C₁～C_K)上训练得到定位模型A。每一个训练集C_K具有大量人脸图像样本的集合，训练集C_K中的每一张人脸图像样本I_i上标定了L个关键点位置，即S_i＝{x_i1，y_i1，x_i2，y_i2，…，x_iL，y_iL}。

训练集C₁～C_K的人脸图像样本可根据表情、年龄、人种、身份等因素被分类为不同类型。如此，可以根据不同的类型来训练得到定位模型A。

在训练定位模型A时，首先统计训练集C中全部样本关键点位置的平均值S⁰，称为平均关键点位置。|C|表示训练集C中样本的数量，则可通过以下的公式来得到平均关键点位置S⁰：

对于训练集C中每一张人脸图像样本Ii，将平均关键点位置S⁰放置在图像中间，然后提取平均关键点位置S⁰的各个关键点位置的尺度不变特征变换(SIFT)特征，将提取的SIFT特征拼接成特征向量f_i。这样，可以根据训练集C中的全部样本图片建立一个回归模型，使得

f_i·A＝S_i-S⁰ 公式(2)

对于一张输入的需要定位的人脸图像，首先将平均关键点位置S⁰放置在该输入图像的中间，然后提取S⁰个关键点位置的SIFT特征拼接得到特征向量f。可通过以下等式得到包括K个定位结果的定位结果集合S。

S＝S⁰+f·A 公式(3)

通过上述方式，可从训练的多个定位模型得到关于输入图像的关键点位置的多个定位结果。

(2)对得到的多个定位结果进行评价，从中选择出最优的定位结果。

训练集C中的人脸图像样本I_i上标定了L个关键点的位置S_i＝{x_i1，y_i1，x_i2，y_i2，…，x_iL，y_iL}。可针对每一个关键点训练一个Boost分类器，从而可得到L个分类器h₁，h₂，...h_L。这L个分类器可形成评价模型E。

在训练分类器时，可使用训练集C的人脸图像中距离关键点位置较近的图像块(例如，图像块的中心位置与关键点位置的距离在第一预定距离以内)作为正样本，并使用距离关键点位置较远(例如，图像块的中心位置与关键点位置的距离超过第二预定距离)的图像块作为负样本来训练关键点分类器。

关键点定位结果S_i进行评价时，将以各个关键点位置(x_j，y_j)为中心的预定大小的图像块分别输入到对应的关键点分类器h_j，从而得到一个评分h_j(x_j，y_j)。由此可得到全部关键点分类器针对此关键点定位结果的S_j评分，然后得到该定位结果的平均评分：

可以得到K个定位结果S₁，S₂，…，S_K中的每个定位结果的评分，并从中选择最优的定位结果S*，即，评分最高的定位结果，作为最终的人脸关键点位置的定位结果。

(3)得到的最优定位结果S*的评分超过预定阈值T，则利用最优定位结果更新评价模型和/或定位模型。

具体地，在更新评价模型时，可将与定位结果S*对应的输入图像加入到训练集C中，利用定位结果S*的L个关键点位置生成预定数量的正样本图像块和负样本图像块，然后利用生成的正样本图像块和负样本图像块来训练L个关键点的分类器h₁，h₂，...h_L，从而可更新评价模型E。例如，根据本发明的实施例，可使用在线AdaBoost方法来训练关键点分类器h₁，h₂，...h_L。

在更新定位模型时，当确定存在评分超过预定阈值的新的定位结果S*时，确定与定位结果S*对应的定位模型的类型。具体地，可基于与定位结果S*对应的SIFT特征向量f，利用在线K均值方法查找S*所属的类型。如果确定S*属于当前已有的K个定位模型中的某一类A_k，则将其加入与A_k对应的训练集C_k，并基于前面所述的训练定位模型的方法重新训练定位模型A_k，从而更新定位模型A_k。

如果确定S*不属于当前已有的K类的定位模型中的某一类，则新建一个对应的训练集C_K+1。当新增训练集C_K+1中的样本数量超过一门限时，使用其训练新的定位模型A_K+1。这样，可从原有的K个定位模型增加到K+1个定位模型，在增加定位模型之后，定位结果从原来的K个增加为K+1个。

用F来表示为训练集C中的样本图片的全部样本特征向量f组成的矩阵，F的第i行表示第i个样本的特征向量；用S表示训练集C中全部样本的人工标定的关键点位置组成的矩阵，S的第i行表示第i个样本的关键点位置；用S⁰表示训练集C中全部样本的平均关键点位置组成的矩阵，S⁰的第i行表示第i个样本的平均关键点位置。则在更新之前的原有定位模型A满足以下等式：

F·A＝S-S⁰

可以通过最小二乘方式求解A：

A＝(F^TF)^-1·F·(S--S⁰)

其中协方差矩阵：

Cov_xx＝F^TF，Cov_xy＝F·(S-S⁰)

Cov_xx和Cov_xy的第m行第n列的元素可以表示为：

其中，f_im表示训练集C中第i样本的特征向量的第m维的值；Sin表示训练集C中第i样本的人工标定的关键点位置的第n维的值；表示训练集C中第i个样本的平均关键点位置的第n维的值。

当新增样本s*时，可如以下的等式所示更新协方差矩阵的元素：

其中，表示新增样本的特征向量的第m维的值；表示新增样本的人工标定的关键点的第n维的值；表示新增样本的平均关键点位置的第n维的值。

采用上述的人脸关键点定位技术根据人脸关键点的初始位置获取人脸关键点坐标位置。

步骤210，读取视频文件中相邻下一帧图像。

具体地，读取视频文件中上一被处理的一帧图像的相邻下一帧图像。

步骤212，将上一帧图像的人脸关键点坐标位置作为相邻下一帧图像的人脸关键点的初始位置。

步骤214，根据该下一帧图像的人脸关键点的初始位置获取该下一帧图像的人脸关键点坐标位置。

本实施例中，根据该下一帧图像的人脸关键点的初始位置获取该下一帧图像的人脸关键点坐标位置的步骤包括：利用人脸关键点定位技术根据该下一帧图像的人脸关键点的初始位置获取该下一帧图像的人脸关键点坐标位置。

步骤216，判断视频文件处理完毕，若是，则结束，若否，则返回步骤210。

具体地，重复执行步骤210至214，直到应用退出或视频文件处理完毕。

该人脸关键点包括五官点。五官点包括眼睛、眉毛、鼻子、嘴巴、耳朵。采用五官点跟踪，计算量小，可提高跟踪效率。

上述人脸关键点跟踪方法，通过人脸坐标框位置配置人脸关键点的初始位置，再根据人脸关键点的初始位置获取人脸关键点坐标位置，读取下一帧图像，将上一帧图像的人脸关键点坐标位置作为下一帧图像的人脸关键点的初始位置，得到下一帧图像的人脸关键点坐标位置，以此跳过人脸检测器检测，可提高人脸关键点跟踪的效率。

此外，因移动终端的数据处理能力有限，采用上述人脸关键点跟踪方法，可节省大量的计算，方便移动终端快速进行人脸跟踪，提高人脸关键点跟踪的效率。

在一个实施例中，上述人脸关键点跟踪方法，在读取视频文件中的一帧图像或相邻下一帧图像后，可对读取的一帧图像进行去噪处理。通过去噪处理提高图像的清晰度，方便更加准确的跟踪人脸。

具体地，可对读取的一帧图像采用平均加权方法进行去噪处理，即对图像中所有像素采用平均加权进行处理。

下面结合具体的应用场景描述人脸关键点跟踪方法的实现过程。人脸关键点以五官点为例。如图4所示，读取视频文件中一帧图像，检测到一帧图像中人脸位置，并获取人脸坐标框位置410，将预存的人脸关键点420的中心与人脸坐标框位置410的中心对齐。如图5所示，当预存的人脸关键点420的中心与人脸坐标框位置410的中心对齐后，缩放预存的人脸关键点420，使得人脸关键点的尺寸与人脸坐标框的尺寸一样，如此得到人脸关键点的初始位置。如图6所示，根据人脸关键点的初始位置获取人脸关键点坐标位置，即五官点的坐标位置，如图6中交叉点“x”所示。再读取视频文件中相邻下一帧图像；将上一帧图像的人脸关键点坐标位置作为下一帧图像的人脸关键点的初始位置；根据下一帧图像的人脸关键点的初始位置获取下一帧图像的人脸关键点坐标位置。

图7为一个实施例中人脸关键点跟踪装置的结构框图。如图7所示，一种人脸关键点跟踪装置，运行于终端上，包括读取模块702、检测模块704、配置模块706和获取模块708。其中：

读取模块702用于读取视频文件中一帧图像。

检测模块704用于检测该一帧图像中人脸位置，获取人脸坐标框位置。

本实施例中，检测模块704利用人脸检测技术检测一帧图像中人脸位置，获取人脸坐标框位置。

配置模块706用于根据该人脸坐标框位置配置人脸关键点的初始位置。

本实施例中，配置模块706还用于通过平移预存的人脸关键点，使该预存的人脸关键点和该人脸坐标框位置中心对齐；以及缩放该预存的人脸关键点，使该预存的人脸关键点尺寸与该人脸坐标框尺寸一致。

具体地，预存的人脸关键点有中心，人脸坐标框位置也有中心，将预存的人脸关键点的中心与人脸坐标框位置中心重合在一起，即中心对齐。当预存的人脸关键点和人脸坐标框位置中心重合在一起后，通过缩放人脸关键点，使得人脸关键点尺寸与人脸坐标框尺寸一样。通过平移和缩放人脸关键点，使得人脸关键点和人脸坐标框位置匹配，得到一帧图像的人脸关键点的初始位置，计算量小，操作简单。

获取模块708用于根据该人脸关键点的初始位置获取人脸关键点坐标位置。

本实施例中，获取模块708还用于利用人脸关键点定位技术根据该人脸关键点的初始位置获取人脸关键点坐标位置。

重复执行如下过程：

读取模块702还用于读取视频文件中相邻下一帧图像。

配置模块706还用于将上一帧图像的人脸关键点坐标位置作为下一帧图像的人脸关键点的初始位置。

获取模块708还用于根据该下一帧图像的人脸关键点的初始位置获取该下一帧图像的人脸关键点坐标位置。

本实施例中，获取模块708还用于利用人脸关键点定位技术根据该下一帧图像的人脸关键点的初始位置获取该下一帧图像的人脸关键点坐标位置。

直到应用退出或视频文件处理完毕。

上述人脸关键点跟踪装置，通过人脸坐标框位置配置人脸关键点的初始位置，再根据人脸关键点的初始位置获取人脸关键点坐标位置，读取下一帧图像，将上一帧图像的人脸关键点坐标位置作为下一帧图像的人脸关键点的初始位置，得到下一帧图像的人脸关键点坐标位置，以此跳过人脸检测器检测，可提高人脸关键点跟踪的效率。

图8为另一个实施例中人脸关键点跟踪装置的结构框图。如图8所示，一种人脸关键点跟踪装置，运行于终端上，除了包括读取模块702、检测模块704、配置模块706和获取模块708，还包括去噪模块710。其中：

去噪模块710用于在读取视频文件中的一帧图像或相邻下一帧图像后，可对读取的一帧图像进行去噪处理。通过去噪处理提高图像的清晰度，方便更加准确的跟踪人脸。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种人脸关键点跟踪方法，包括：

读取视频文件中一帧图像；

检测所述一帧图像中人脸位置，获取人脸坐标框位置；

根据所述人脸坐标框位置配置人脸关键点的初始位置；

根据所述人脸关键点的初始位置获取人脸关键点坐标位置；

重复执行如下步骤：

读取视频文件中相邻下一帧图像；

将上一帧图像的人脸关键点坐标位置作为下一帧图像的人脸关键点的初始位置；

根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置。
根据权利要求1所述的方法，其特征在于，所述检测所述一帧图像中人脸位置，获取人脸坐标框位置的步骤包括：

利用人脸检测技术检测所述一帧图像中人脸位置，获取人脸坐标框位置。
根据权利要求1所述的方法，其特征在于，所述根据所述人脸坐标框位置配置人脸关键点的初始位置的步骤包括：

通过平移预存的人脸关键点，使所述预存的人脸关键点和所述人脸坐标框位置中心对齐；

缩放所述预存的人脸关键点，使所述预存的人脸关键点尺寸与所述人脸坐标框尺寸一致。
根据权利要求1所述的方法，其特征在于，所述根据所述人脸关键点的初始位置获取人脸关键点坐标位置的步骤包括：

利用人脸关键点定位技术根据所述人脸关键点的初始位置获取人脸关键点坐标位置；

根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置的步骤包括：

利用人脸关键点定位技术根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置。
根据权利要求1所述的方法，其特征在于，所述人脸关键点包括五官点。
根据权利要求1所述的方法，其特征在于，还包括：

在读取视频文件中的一帧图像或相邻下一帧图像后，对读取的一帧图像或相邻下一帧图像进行去噪处理。
一种终端，包括存储器及处理器，所述存储器中储存有计算机可读指令，所述指令被所述处理器执行时，使得所述处理器执行以下步骤：

读取视频文件中一帧图像；

检测所述一帧图像中人脸位置，获取人脸坐标框位置；

根据所述人脸坐标框位置配置人脸关键点的初始位置；

根据所述人脸关键点的初始位置获取人脸关键点坐标位置；

重复执行如下步骤：

读取视频文件中相邻下一帧图像；

将上一帧图像的人脸关键点坐标位置作为下一帧图像的人脸关键点的初始位置；

根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置。
根据权利要求7所述的终端，其特征在于，所述检测所述一帧图像中人脸位置，获取人脸坐标框位置的步骤包括：

利用人脸检测技术检测所述一帧图像中人脸位置，获取人脸坐标框位置。
根据权利要求7所述的终端，其特征在于，所述根据所述人脸坐标框位置配置人脸关键点的初始位置的步骤包括：

通过平移预存的人脸关键点，使所述预存的人脸关键点和所述人脸坐标框位置中心对齐；

缩放所述预存的人脸关键点，使所述预存的人脸关键点尺寸与所述人脸坐标框尺寸一致。
根据权利要求7所述的终端，其特征在于，所述根据所述人脸关键点的初始位置获取人脸关键点坐标位置的步骤包括：

利用人脸关键点定位技术根据所述人脸关键点的初始位置获取人脸关键点坐标位置；

根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置的步骤包括：

利用人脸关键点定位技术根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置。
根据权利要求7所述的终端，其特征在于，所述人脸关键点包括五官点。
根据权利要求7所述的终端，其特征在于，还包括：

在读取视频文件中的一帧图像或相邻下一帧图像后，对读取的一帧图像或相邻下一帧图像进行去噪处理。
一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行以下步骤：

读取视频文件中一帧图像；

检测所述一帧图像中人脸位置，获取人脸坐标框位置；

根据所述人脸坐标框位置配置人脸关键点的初始位置；

根据所述人脸关键点的初始位置获取人脸关键点坐标位置；

重复执行如下步骤：

读取视频文件中相邻下一帧图像；

将上一帧图像的人脸关键点坐标位置作为下一帧图像的人脸关键点的初始位置；

根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置。
根据权利要求13所述的非易失性计算机可读存储介质，其特征在于，所述检测所述一帧图像中人脸位置，获取人脸坐标框位置的步骤包括：

利用人脸检测技术检测所述一帧图像中人脸位置，获取人脸坐标框位置。
根据权利要求13所述的非易失性计算机可读存储介质，其特征在于，所述根据所述人脸坐标框位置配置人脸关键点的初始位置的步骤包括：

通过平移预存的人脸关键点，使所述预存的人脸关键点和所述人脸坐标框位置中心对齐；

缩放所述预存的人脸关键点，使所述预存的人脸关键点尺寸与所述人脸坐标框尺寸一致。
根据权利要求13所述的非易失性计算机可读存储介质，其特征在于，所述根据所述人脸关键点的初始位置获取人脸关键点坐标位置的步骤包括：

利用人脸关键点定位技术根据所述人脸关键点的初始位置获取人脸关键点坐标位置；

根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置的步骤包括：

利用人脸关键点定位技术根据所述下一帧图像的人脸关键点的初始位置获取所述下一帧图像的人脸关键点坐标位置。
根据权利要求13所述的非易失性计算机可读存储介质，其特征在于，所述人脸关键点包括五官点。
根据权利要求13所述的非易失性计算机可读存储介质，其特征在于，还包括：

在读取视频文件中的一帧图像或相邻下一帧图像后，对读取的一帧图像或相邻下一帧图像进行去噪处理。