CN111209822A

CN111209822A - 一种热红外图像的人脸检测方法

Info

Publication number: CN111209822A
Application number: CN201911394420.1A
Authority: CN
Inventors: 张天序; 郭诗嘉; 李正涛; 苏轩; 郭婷
Original assignee: Nanjing Huatu Information Technology Co ltd
Current assignee: Nanjing Huatu Information Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-29

Abstract

本发明公开了一种热红外图像的人脸检测方法，包括以下步骤：(1)获取训练集的正样本和负样本，以及测试集，对正样本的每张热红外图像分别框出人脸框作为标定框；(2)获取训练标签；(3)搭建卷积神经网络，将训练集及训练标签一起输入卷积神经网络进行训练，利用损失函数来优化卷积神经网络，从而获得所需的卷积神经网络的训练模型；(4)输入测试集中的热红外图像，通过卷积神经网络获得人脸检测框。本发明通过将热红外图像输入卷积神经网络进行训练获得满足要求的卷积神经网络，可实现对热红外图像的自动检测从而准确框选出人脸范围，减少检测错误率。

Description

一种热红外图像的人脸检测方法

技术领域

本发明属于生物特征识别技术领域，更具体地，涉及一种人脸检测方法。

背景技术

人脸检测，即得到图片中所有人脸的具***置，具***置通常使用一个矩形框表示，矩形框内的物体即为人脸，矩形框外的部分为背景。

可见光的人脸检测技术已经广泛应用到海关、车站、考勤、自动驾驶和疑犯追踪等领域。但可见光的人脸检测技术无法在无外界光源的情况下进行工作，无法对面部有遮挡物的人脸进行检测。可见光也不可以进行活体检测，无法判定成像是真人，因此易被照片欺骗，易被有妆容打扮的人脸欺骗，导致人脸检测的结果不准确，受限的因素较多。

热红外的图像是热辐射成像，它是根据物体的红外辐射差异成像，红外热成像仪能够把物体表面的自然发射的红外辐射分布转变为可见图像。由于不同物体或同一物体的不同部位通常具有不同的热辐射特性，如温差、发射率等，在进行热红外成像后，热红外图像中的物体因为其热辐射的差异而区别开来。因此热红外图像可以轻松解决活体检验的作用，人脸相较其他物体是高温物体，在灰度图中成像为白色，面部不同器官分布不同的毛细血管，导致热辐射不同，可以呈现面部五官。

目前主动近红外人脸识别开始兴起，但该技术需要主动光源，而且限制距离在50-100cm。并且主动光源会在眼镜上产生明显的反光，降低了眼睛的定位的精度，主动光源在长期使用后，会出现损坏和衰减。目前国内无对热红外图像的人脸检测方法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种热红外图像的人脸检测方法，其在无需任何光源的情况下，可以在热红外图像中清楚的框出人脸的位置，满足对于热红外图像的检测需求。

为实现上述目的，按照本发明的一个方面，提供了一种热红外图像的人脸检测方法，其特征在于，包括以下步骤：

(1)将N张热红外图像作为正样本及L张未显示人脸的热红外图像作为负样本一起组成训练集，获取M张热红外图像作为测试集，对正样本的每张热红外图像分别框出人脸框作为标定框；正样本中每张热红外图像的标记均为1，负样本中每张热红外图像的标记均为0；

(2)每张热红外图像的标定框的中心点坐标值和宽度、高度尺寸值按比例缩小，缩小后的中心点坐标值、宽度、高度尺寸值与该张热红外图像的标记一起存在一个独立的txt文件中，则共计获得N个txt文件；

此外，将训练集中每张热红外图像的路径和负样本中所有热红外图像的标记一起存在另一个txt文件中；

以此方式，共获得N+1个txt文件作为训练标签；

(3)搭建卷积神经网络，将训练集及训练标签一起输入卷积神经网络进行训练，利用损失函数来优化卷积神经网络，从而获得所需的卷积神经网络的训练模型；

(4)输入测试集中的热红外图像，通过卷积神经网络获得人脸检测框。

优选地，步骤(1)中，采用红外热像仪采集热红外图像，采集情况如下：每个人的人脸与中波红外热像仪采用多组距离、多组设定时间来录制视频，视频按设定帧数裁剪后选取设定数量的照片，然后挑选出N张热红外图像作为训练集。

优选地，步骤(2)中生成训练标签具体如下：

(2.1)存标定框的中心点的相对坐标：

其中，(x₁，y₁)，(x₂，y₂)表示标定框上的对角位置的两个坐标，由(x₁，y₁)，(x₂，y₂)确定该标定框，x₁和x₂表示x-y图像坐标系下的宽度坐标，y₁和y₂表示x-y图像坐标系下的高度坐标，并且x₁＞x₂，y₁＞y₂；

centre_x表示标定框的中心点在x-y图像坐标系下的宽度坐标，centre_y表示标定框的中心点在x-y图像坐标系下的长度坐标，w表示标定框所在的热红外图像的长度，h表示标定框所在的热红外图像的高度；

(2.2)存标定框的长度对于其所在的热红外图像的相对尺寸：

其中，frame_x表示标定框的相对宽度，frame_y表示标定框的相对高度；

将以上的centre_x、centre_y、frame_x、frame_y和正样本中热红外图像的标记存入同一个txt文件中，正样本中不同热红外图像的标记和标定框的centre_x、centre_y、frame_x、frame_y存入不同的txt文件。

优选地，所述卷积神经网络采用Darknet框架和Yolo网络，Darknet框架用于对输入的热红外图像进行卷积、最大池化以及归一化的操作，以获取卷积神经网络的权重，Yolo网络用于进行对卷积神经网络的权重进行处理，以进行人脸判定以及位置回归。

优选地，标定框与卷积神经网络构建的预测框的尺寸关系如下：

a_x＝d_x+Δ(m_x)

a_y＝d_y+Δ(m_y)

其中，a_x，a_y分别表示u-v图像坐标系下标定框的中心坐标的宽度和高度，a_w和a_h表示标定框的宽度和高度，Δ(m_x)，Δ(m_y)分别表示标定框中心到预测框中心的宽度方向的偏移量和高度方向的偏移量，d_x，d_y分别表示预测框的中心坐标的宽度和高度，p_w，p_h分别表示为预测框的宽度和高度，m_w，m_h分别为预测框的宽缩放比和高缩放比，Δ函数为sigmoid函数。

优选地，卷积神经网络构建的预测框为六个并且分为两个规模，这六个预测框的高度按从大至小排序后分别为预测框I、预测框II、预测框III、预测框IV、预测框V和预测框VI，其中第一个规模分配预测框I、预测框III和预测框IV，第二个规模分配预测框II、预测框IV和预测框VI。

优选地，步骤(3)中，损失函数进行对卷积神经网络进行优化的具体如下：

其中，loss表示损失，S²表示卷积神经网络的网格数，B表示每个单元格预测框的个数，

表示第i个网格的第j个anchor box是否负责这个目标，不负责时取值为0，负责时取值为1，

表示i个网格的第j个预测框不负责的目标，有目标的情况取值为1，没有目标的情况取值为0，λ_coord＝5，λ_noobj＝0.5，x_i，y_i分别表示第i个预测框的中心点坐标的宽度和高度，

分别表示第i个标定框的中心点坐标的宽度和高度，w_i，h_i分别表示第i个预测框的宽度和高度，

分别表示第i个标定框的宽度和高度，c_i表示第i个预测框的置信度，选中的预测框的取值为1，未选中的预测框的取值为0，

表示第i个标定框的置信度，选中的标定框的取值为1，未选中的标定框的取值为0，p_i表示第i个预测框中为人脸的分类概率，

表示表示第i个标定框中为人脸的分类概率，c表示有无人脸的类，classes表示有人脸和没有人脸的类的集合；

获得损失loss后，采用随机梯度下降算法进行更新，卷积神经网络不断选择和判断当前目标下最优的参数，根据损失loss的结果，对卷积神经网络中的参数更新，卷积神经网络达到所需的指标后停止更新。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1)本发明通过将热红外图像输入卷积神经网络进行训练获得满足要求的卷积神经网络，可以实现对热红外图像的自动检测从而准确框选出人脸范围，减少人脸检测的错误率。

2)本发明通过热红外技术进行人脸检测，在无需任何光源的情况下，可以在热红外图像中清楚的框出人脸的位置，满足对于热红外图像的检测需求。

附图说明

图1是本发明的流程示意图；

图2是本发明中获取训练标签的流程示意图；

图3是本发明中卷积神经网络获得损失计算的流程图；

图4是待检测的热红外图像；

图5是对图4的热红外图像进行检测后的示意图；

图6是第一个规模中的三个预测框的示意图；

图7是第二个规模中的三个预测框的示意图；

图8是对两个人脸进行检测的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

参照各附图，一种热红外图像的人脸检测方法，包括以下步骤：

(1)将N张热红外图像作为正样本及L张未显示人脸的热红外图像作为负样本一起组成训练集，获取M张热红外图像作为测试集。

为了保证足够量的热红外图像，就需要保证足够的实验数据。具体地，可采用德国的IRCAM公司型号为TAURUS-110kM的中波红外热像仪，数据的测试环境为：人脸距离相机的距离为2米，3米，5米不同距离的人脸，过对每个人录制设定时间的视频，每个视频按设定帧数裁剪后选取设定数量的照片，可以选择200个人进行拍摄，采用50帧的截取视频的形式，包括了不同的姿态，不同场景背景的影响，有无外来光源的场景，通过大量实验保证了人脸检测模型后续使用的准确性。然后可对上述视频截取的热红外图像进行筛选，将不符合训练要求的图片除去，对训练数据筛选是为了去掉一些无用数据，防止在深度学习中，计算机学习了这些参数，影响到了真实参数，比如裁剪图片的时候，易出现在姿态转换中出现的模糊图像，一般会将这些模糊图像除去，最终可得到14万张的热红外图像作为训练集，获得M＝6万张热红外图像作为测试集，而训练集选取N＝3.5万张热红外图像作为正样本及L＝10.5万张热红外图像作为负样本，正样本中的热红外图像均露显示了人脸及能将人脸框选出来，而负样本中的图像则未显示人脸，譬如只显示了设备、衣服、墙壁等。

然后对正样本的每张热红外图像分别框出人脸框作为标定框；正样本中每张热红外图像的标记均为1，负样本中每张热红外图像的标记均为0；

以此方式，共获得N+1个txt文件作为训练标签，具体如下：

(2.1)存标定框的中心点的相对坐标：

(2.2)存标定框的长度对于其所在的热红外图像的相对尺寸：

本发明只需要存标定框中心点的相对坐标和标定框的相对尺寸即可，节省了大量参数的获取时间，由于采用的是相对值，所以可以加速收敛。

所述卷积神经网络采用Darknet框架，Darknet框架用于对输入的热红外图像进行卷积、最大池化以及归一化的操作，以获取卷积神经网络的权重，具体地，Darknet框架训练了53层网络，提供了106层完全卷积的底层架构。前向传播过程中，张量的尺寸变换是通过改变卷积核的步长来实现的，如stride＝(2，2)，这就等于将图像边长缩小了一半(即面积缩小到原来的1/4)。在网络中，要经历5次缩小，会将特征图缩小到原输入尺寸的1/2⁵，即1/32。输入为416x416，则输出为13x13(416/32＝13)。backbone会将输出特征图缩小到输入的1/32。

卷积神经网络还采用了Yolo网络，用于进行对卷积神经网络的权重进行处理，以进行人脸判定以及位置回归，其通过设计Fast Anchor(快速预测框算法)，搭建了六个预测框并且它们分为两个规模，这六个预测框的高度按从大至小排序后分别为预测框I、预测框II、预测框III、预测框IV、预测框V和预测框VI，其中第一个规模分配预测框I、预测框III和预测框IV，第二个规模分配预测框II、预测框IV和预测框VI。

标定框与卷积神经网络构建的预测框的尺寸关系如下：

a_x＝d_x+Δ(m_x)

a_y＝d_y+Δ(m_y)

其中，a_x，a_y分别表示u-v图像坐标系下标定框的中心坐标的宽度和高度，a_w和a_h表示标定框的宽度和高度，Δ(m_x)，Δ(m_y)分别表示标定框中心到预测框中心的宽度方向的偏移量和高度方向的偏移量，d_x，d_y分别表示预测框的中心坐标的宽度和高度，p_w，p_h分别表示为预测框的宽度和高度，m_w，m_h分别为预测框的宽缩放比和高缩放比；Δ函数为sigmoid函数，将预测量缩放到0-1之内，目的是可以快速收敛。在检测是否是人脸时，长宽比例近似为1∶1，不会出现长宽比例差距很大的预测框。

损失函数进行对卷积神经网络进行优化的具体如下：

上式中，对w，h的损失函数采用总方差，置信度的损失函数用二值交叉熵。第一行的式子为总方误差，用来作为位置预测的损失函数，第二行的式子用根号总方差作为高度和宽度的损失函数，第三行和第四行的式子用二值交叉熵作为置信度的损失函数，第五行的式子用SSE作类别概率的损失函数。

获得损失loss后，采用随机梯度下降算法进行更新，卷积神经网络不断选择和判断当前目标下最优的参数，根据损失loss的结果对卷积神经网络中的参数更新从而保证卷积神经网络的输出结果与训练标签相同，卷积神经网络达到所需的指标后停止更新。

(4)输入待检测的热红外图像，获得人脸检测结果。本发明可以实现单张图0.024s的处理，且精度高，正确率可达98.6％以上。

此外，本发明中提到的坐标都是指u-v图像坐标系下的坐标，热红外图像和框的宽度都为左右方向的边长尺寸，高度均为竖直方向的边长尺寸。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种热红外图像的人脸检测方法，其特征在于，包括以下步骤：

以此方式，共获得N+1个txt文件作为训练标签；

2.根据权利要求1所述的一种热红外图像的人脸检测方法，其特征在于，步骤(1)中，采用红外热像仪采集热红外图像，采集情况如下：每个人的人脸与中波红外热像仪采用多组距离、多组设定时间来录制视频，视频按设定帧数裁剪后选取设定数量的照片，然后获得训练集和测试集。

3.根据权利要求1所述的一种热红外图像的人脸检测方法，其特征在于，步骤(2)中生成训练标签具体如下：

(2.1)存标定框的中心点的相对坐标：

(2.2)存标定框的长度对于其所在的热红外图像的相对尺寸：

4.根据权利要求1所述的一种热红外图像的人脸检测方法，其特征在于，所述卷积神经网络采用Darknet框架和Yolo网络，Darknet框架用于对输入的热红外图像进行卷积、最大池化以及归一化的操作，以获取卷积神经网络的权重，Yolo网络用于进行对卷积神经网络的权重进行处理，以进行人脸判定以及位置回归。

5.根据权利要求1所述的一种热红外图像的人脸检测方法，其特征在于，标定框与卷积神经网络构建的预测框的尺寸关系如下：

a_x＝d_x+Δ(m_x)

a_y＝d_y+Δ(m_y)

6.根据权利要求5所述的一种热红外图像的人脸检测方法，其特征在于，卷积神经网络构建的预测框为六个并且分为两个规模，这六个预测框的高度按从大至小排序后分别为预测框I、预测框II、预测框III、预测框IV、预测框V和预测框VI，其中第一个规模分配预测框I、预测框III和预测框IV，第二个规模分配预测框II、预测框IV和预测框VI。

7.根据权利要求1所述的一种热红外图像的人脸检测方法，其特征在于，步骤(3)中，损失函数进行对卷积神经网络进行优化的具体如下：