CN107273933A

CN107273933A - 一种图像追踪分类器的构建方法及应用其的人脸追踪方法

Info

Publication number: CN107273933A
Application number: CN201710503156.5A
Authority: CN
Inventors: 樊应若; 董远; 白洪亮
Original assignee: Beijing Faceall Co
Current assignee: Beijing Faceall Co
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2017-10-20

Abstract

本发明公开了一种目标追踪分类器的构建方法及应用其的人脸追踪方，其中分类器构建方法包括如下步骤：获取用于训练的第一样本集；构建卷积神经网络模型；对第一样本集中每张图片进行目标框标记后，进行预处理得到第一目标区域图像和第二目标区域图像，第一目标区域图像根据目标框进行图像扩展得到，第二目标区域图像通过由第一目标区域图像和对应目标框标注图像变换得到；利用所有的第一图像区域和第二图像区域对卷积神经网络模型进行训练，得到目标回归模型。本发明利用基于深度学***衡的问题，对快速移动、光照模糊变化有更强的鲁棒性，运算量小，提高了追踪的速度。

Description

一种图像追踪分类器的构建方法及应用其的人脸追踪方法

技术领域

本发明涉及人脸追踪技术领域，具体涉及一种图像追踪分类器的构建方法及应用其的人脸追踪方法。

背景技术

现如今的追踪算法主要有基于传统特征的机器学习、滤波器学习等算法，但是由于提取的是HOG等传统特征，鲁棒性较差，对于光照模糊、尺寸变化等复杂场景追踪效果不佳。

现有的人脸追踪方法存在如下技术缺陷：1)目前对于人脸，深度学习用于追踪时，在线微调，计算量大，难以达到实时性的问题；2)针对光照变化、快速移动情况，传统算法效果不好的问题。

发明内容

本发明的目的提供一种加强因光照及尺寸变化等复杂场景下导致的人脸追踪方法的鲁棒性，加快人脸追踪技术的计算速度，并提高人脸追踪模型的效率。

为了实现上述目的，本发明提供了一种图像追踪分类器的构建方法，包括如下步骤：

获取用于训练的第一样本集；

构建卷积神经网络模型；

对第一样本集中每张图片进行目标框标记后，进行预处理得到第一目标区域图像和第二目标区域图像，第一目标区域图像根据目标框进行图像扩展得到，第二目标区域图像通过由第一目标区域图像和对应目标框标注图像变换得到；

利用所有的第一图像区域和第二图像区域对卷积神经网络模型进行训练，得到目标回归模型。

进一步，所述对第一样本集中每张图片进行目标框标记后，进行预处理得到第一目标区域图像和第二目标区域图像包括

利用样本集中目标框的标注，得到目标区域图像；

获取目标区域图像的中心坐标，根据中心坐标将目标区域对象进行扩展处理，得到第一目标区域图像；

对第一目标区域图像进行放缩、平移变换，得到第二目标区域图像。

进一步，第一样本集包括图片集和视频集；

其中，所述利用所有的第一图像区域和第二图像区域对卷积神经网络模型进行训练，得到得到目标回归模型还包括

判断第一样本集是否为视频集；

如果第一样本集为视频集，则获取并利用当前帧图片的第一图像区域和下一帧图片的第二图像区域对卷积神经网络模型进行训练；

如果第一样本集非视频集，则获取并利用当前图片的第一图像区域及其第二图像区域对卷积神经网络模型进行训练。

进一步，所述图像分类模型包括依次连接的5个卷积层和2个全连接层；

还包括

接收第二样本集；

对第二样本集中每张图片进行目标框标记后预处理，得到第三目标区域图像和第四目标区域图像；

固定图像分类模型中卷积层参数，利用所有的第三目标区域图像和第四对目标回归模型进行再次训练，重新调节全连接层的参数，得到图像追踪分类器。

进一步，第三目标区域图像根据第二样本集中每张图片的目标框进行图像扩展得到，第四目标区域图像通过由第三目标区域图像和对应目标框标注图像变换得到。

进一步，所述第二样本集为视频集。

本发明还提供了一种应用图像追踪分类器的人脸追踪方法，包括如下步骤：

接收人脸追踪视频集；

将人脸追踪视频集输入利用所述图像追踪分类器，在人脸追踪视频集中每张人脸图片上进行追踪预测。

在上述技术方案中，本发明利用基于深度学***衡的问题，同时基于caffe架构中构建的 CNN网络模型对快速移动、光照模糊变化有更强的鲁棒性，运算量小，提高了追踪的速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明所述的图像追踪分类器的构建方法一个实施例的流程示意图；

图2为本发明所述的图像追踪分类器的构建方法对第一样本集预处理的流程示意图；

图3为本发明所述的图像追踪分类器的构建方法中卷积神经网络模型的训练流程示意图；

图4为本发明所述的图像追踪分类器的构建方法中卷积神经网络模型的训练工作原理流程示意图；

图5为本发明所述的图像追踪分类器的构建方法另一个实施例的流程示意图；

图6为本发明所述的图像追踪分类器的构建方法另一个实施例中卷积神经网络模型的训练流程框图示意图；

图7为本发明所述的图像追踪分类器的构建方法另一个实施例中IOU的说明示意图；

图8为应用本发明所述的图像追踪分类器的构建方法的人脸追踪方法流程框图示意图；

图9为应用本发明所述的图像追踪分类器的构建方法对一组视频的追踪效果示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

本发明中鲁棒性指控制***在一定参数摄动下，维持稳定、健壮的特性。本发明利用深度学习模块Caffe模型构建神经网络。这是因为Caffe是一个清晰而高效的深度学习框架，具有如下特点：(1)上手快，模型与相应优化都是以文本形式而非代码形式给出，Caffe给出了模型的定义、最优化设置以及预训练的权重，方便立即上手；(2)速度快，能够运行最棒的模型与海量的数据。，Caffe与cuDNN结合使用，测试AlexNet模型，在K40上处理每张图片只需要1.17ms；(3)模块化，方便扩展到新的任务和设置上，可以使用Caffe 提供的各层类型来定义自己的模型；(4)开放性，公开的代码和参考模型用于再现；(5)社区好，可以通过BSD-2参与开发与讨论。为此本发明利用caffe 构建并训练卷积神经网络。

由于基于传统特征的机器学习、滤波器学习等算法是提取HOG等传统特征，鲁棒性较差，对于光照模糊、尺寸变化等复杂场景追踪效果不佳，为此本发明提出了利用深度学习的卷积神经网络模型解决，为此本发明提供了一种图像追踪分类器的构建方法。如图1所示，所述方法包括如下步骤：

S101、获取用于训练的第一样本集；

S102、构建卷积神经网络模型；

S103、对第一样本集中每张图片进行目标框标记后，进行预处理得到第一目标区域图像和第二目标区域图像，第一目标区域图像根据目标框进行图像扩展得到，第二目标区域图像通过由第一目标区域图像和对应目标框标注图像变换得到；

S104、利用所有的第一图像区域和第二图像区域对卷积神经网络模型进行训练，得到目标回归模型。

进一步，所述训练得到图像分类模型的卷积神经网络是基于caffe架构下的，包括依次连接的5个卷积层和2个全连接层；本发明提出的训练卷积神经网络模型(即CNN模型)的方法，利用L1Loss做回归训练，利用卷积神经网络模型自学习的方法，解决传统方法追踪的鲁棒性较低和现有深度学习追踪的实时性较差问题。

具体地S103中，如图2所示，所述利用卷积神经网络对第一样本集中每张图片进行预处理包括

S1031、利用样本集中目标框的标注，得到目标区域图像；

S1032、获取目标区域图像的中心坐标，根据中心坐标将目标区域对象进行扩展处理，得到第一目标区域图像；

S1033、对第一目标区域图像进行放缩、平移变换，得到第二目标区域图像。

具体实施时，第一样本集包括图片集和视频集。本法实施例中将样本集设为图片集(DET图片集)和视频集(ALOV视频集)，具体地，DET图片集和ALOV视频集可通过网络进行下载，还可通过在线平台收集海量用户上传的各种图片或视频。本实施例中，DET数据集有478,807张用bounding box 标注目标区域图像的物体图片，ALOV是含有314个物体的视频数据集。

本实施例中图片集和视频集均为包括人脸的图片，具体用bounding box 进行操作，用标记好的图片集和视频集中所有图片的人脸框，基于人脸框中心坐标扩展扣图得到第一图像区域，根据人脸框所属的图片将人脸框进行平移、缩放，即用bounding box进行左右平移、大小伸缩，得到第二图像区域。具体地，标记的人脸框图片(目标区域图像)及其扩展图片(第一图像区域和第二图像区域)按照所属的场景分别存储；本发明中将训练样本进行数据扩张，

如ALOV视频集，为评估追踪算法的鲁棒性Amsterdam Library提出的一个公开数据集。数据集覆盖多种场景：光照变化、平移变换、模糊变化、快速运动、低对比度等等。本实施例ALOV视频集一共有314个视频序列，为了追求视频的多样性，每个视频序列的帧数较少，但是场景复杂；一共有89364帧，共14个场景视频，每个场景视频又拆分成多个片段，组成314个视频。具体可选的存储在如下14个目录中：01-Light/ 02-SurfaceCover/03-Specularity/04-Transparency/05-Shape/ 06-MotionSmoothness/07-MotionCoherence/08-Clutter/ 09-Confusion/10-LowContrast/11-Occlusion/12-MovingCamera /13-ZoomingCamera/14-LongDuration。

如图3所示为本发明中训练卷积神经网络模型的流程示意图。

S104具体包括S1041-S1043。

其中，S1041、判断第一样本集是否为视频集；

S1042、如果第一样本集为视频集，则获取并利用当前帧图片的第一图像区域和下一帧图片的第二图像区域对卷积神经网络模型进行训练；

S1043、如果第一样本集非视频集，则获取并利用当前图片的第一图像区域及其第二图像区域对卷积神经网络模型进行训练。

如用于训练卷积神经网络模型的第一样本集为视频集，在第t-1帧中，假设目标所在位置为(cx,cy)，目标区域图像大小为(w,h)，则在t-1 帧中提取一块大小为(2w,2h)的图像块输入到CNN中；同时，在第t帧(不同于t-1帧的图)中也以上一帧图的中心坐标，宽高，变换后提取图像块，将两帧图片中提取的两个图像块一起输入CNN。

而如果用于训练卷积神经网络模型的第一样本集为图片集，那么在选定的图片中提取的目标区域图像大小为(w,h)，则在该图片中对目标区域图像大小为(w,h)扩大两倍后得到第一目标区域图像，并还在该图片将以原图中心坐标，宽高，变换后提取图像块，即第二目标区域图像，即在当前图片上提取的第一目标图像和第二目标区域图像两个图像块一起输入 CNN中。

如图4所示为利用第一样本集对卷积神经网络模型训练工作流程示意图。所述卷积神经网络模型如图6所示依次有5层卷积层，两个全连接层。其中，image代表视频上一帧的目标图像区域(即第一目标图像区域)， target代表视频下一帧(即当前帧)中的目标图像区域(即第二目标图像区域)，bbox是下一帧(当前帧)目标(即目标区域图像)的bounding box 标注(具体采用矩形框进行表示)。target和image分别经过5层卷积层后，特征融合(concat)，在将该特征通过全连接层fc6_，fc8_进行回归得到目标的框的位置。回归得到目标的框的位置与bbox标注框(即目标图像区域)的四个点坐标，经过subtract层相减，经过abssum层取绝对值相加，得到最后的L1-Loss。

具体为，将最后预测的结果(即回归得到的目标框的位置)为 (x1,y1,x2,y2)，其中，(x1,y1)表示目标框左上角坐标，(x2,y2)表示目标框右下角坐标，将回归得到的目标框与人脸框标注bouding box坐标相减作差值，利用损失函数进行训练，损失函数为L1绝对值损失函数。

L(Y,f(X))＝|Y-f(X)| (1)；

其中，L1计算方式如下：

L1＝|x₂₁-x₁₁|+|x₂₂-x₁₂|+|y₂₁-y₁₁|+|y₂₂-y₁₂| (2)；

其中，(X₂₁,Y₂₁),(X₂₂,Y₂₂)代表网络预测输出的图片帧中第一目标检测框的左上角坐标，右下角坐标；(X₁₁,Y₁₁)、(X₁₂,Y₁₂)分别代表图片帧标注的目标区域的左上角坐标、右下角坐标。

更进一步，如图5所示为本发明所述构建图像追踪分类器方法另一个实施例的流程示意图。所述方法还包括

S105、接收第二样本集；

S106、对第二样本集中每张图片进行目标框标记后预处理，得到第三目标区域图像和第四目标区域图像；其中，第三目标区域图像根据第二样本集中每张图片的目标框进行图像扩展得到，第四目标区域图像通过由第三目标区域图像和对应目标框标注图像变换得到。

S107、固定图像分类模型中卷积层参数，利用所有的第三目标区域图像和第四对目标回归模型进行再次训练，重新调节全连接层的参数，得到图像追踪分类器。

本实施例目的在于首先利用第一样本集对卷积神经网络模型进行预训练，然后再利用第二样本集进行二次训练。整个训练过程如图6所示，包括预训练过程和二次训练过程。通过预训练得到图像分类模型，确定预训练后卷积神经网络模型的各个参数，即5个卷积层和2个全连接层的参数，最后利用第二样本集对预训练后的卷积神经网络模型进行二次训练，具体地第二样本集采用300VW人脸视频数据集，该过程为了防止过拟合，保持卷积层参数不变，二次训练过程仅仅调整全连接层的参数。

具体地，300VW图片帧(全包括人的视频帧)的处理方式与第一样本集一样，但300VW是人脸视频数据集，具有人脸特征，适合用来微调全连接层fc6_,fc8_。具体地，用300VW人脸视频数据集的测试集作测试集，每次输入网络是视频的前后两帧，target和image也是前后两帧的图像目标区域，用F1-score做衡量标准。F1-score的定义如下式(3)：

F1-score＝2*Precision*Recall/(Precision+Recall) (3)，其中，recision是准确率，Recall是召回率。

准确率(Precision)＝预测为真实正例除以所有被预测为正例样本的个数；召回率(Recall)＝预测为真实正例除以所有真实正例样本的个数。

实验中IOU阈值设置为Thresh，IOU>Thresh设为预测正确，IOU<Thresh 预测错误。IOU是预测的bounding box与标注的框的重叠比例。如图7所示，假设A是预测的boundingbox，B是标注的框。

IOU计算公式如式(4)：

IOU＝(A∩B)/(A∪B) (4)。

本实施例中用300VW测试集测试，如表1用300VW测试集测试阶段不同IOU阈值的平均F-score得分。

表1

Thresh:0.500000	Mean:0.851014
		Thresh:0.700000	Mean:0.806154
Thresh:0.900000	Mean:0.614568

根据表1说明训练的追踪模型在保证实时性的情况下，精度也比较合理。由于预训练和微调阶段都是线下进行，测试时网络参数都是固定的，因此可以达到实时性效果。

如图8所示为应用所述的图像追踪分类器的人脸追踪方法，包括如下步骤：

S201、接收人脸追踪视频集；

S202、将人脸追踪视频集输入利用图像追踪分类器，在人脸追踪视频集中每张人脸图片上进行追踪预测。

本发明所述的人脸追踪分类器能够解决光照变化对人脸追踪的影响，将人脸追踪视频集(具体采用VOT2014视频)输入图像追踪分类器，输出的人脸视频的结果如图9所示。其中红色是预测(即追踪)输出的框，白色是标注的目标框。图9为VOT2014视频按照从左至右，从上之下的方向分别输出的19、79、179、288帧给出的结果，速度为98fps。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.一种图像追踪分类器的构建方法，其特征在于，包括如下步骤：

获取用于训练的第一样本集；

构建卷积神经网络模型；

2.根据权利要求1所述的图像追踪分类器的构建方法，其特征在于，所述对第一样本集中每张图片进行目标框标记后，进行预处理得到第一目标区域图像和第二目标区域图像包括

利用样本集中目标框的标注，得到目标区域图像；

3.根据权利要求1所述的图像追踪分类器的构建方法，其特征在于，第一样本集包括图片集和视频集；

判断第一样本集是否为视频集；

4.根据权利要求1所述的图像追踪分类器的构建方法，其特征在于，所述图像分类模型包括依次连接的5个卷积层和2个全连接层；

还包括

接收第二样本集；

5.根据权利要求4所述的图像追踪分类器的构建方法，其特征在于，第三目标区域图像根据第二样本集中每张图片的目标框进行图像扩展得到，第四目标区域图像通过由第三目标区域图像和对应目标框标注图像变换得到。

6.根据权利要求1所述的图像追踪分类器的构建方法，其特征在于，所述第二样本集为人脸视频集。

7.一种应用权利要求1-6中任一项所述的图像追踪分类器的人脸追踪方法，其特征在于，包括如下步骤：

接收人脸追踪视频集；