CN111008569A

CN111008569A - 一种基于人脸语义特征约束卷积网络的眼镜检测方法

Info

Publication number: CN111008569A
Application number: CN201911086367.9A
Authority: CN
Inventors: 郑河荣; 徐友剑
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-04-14

Abstract

本发明涉及一种基于人脸语义特征约束卷积网络的眼镜检测方法，本发明针对Structure Inference Net存在的场景区域不准确问题，提出通过结构推理网络充分利用人脸区域和其他区域的特征信息来提高后续区域的可靠性。由于人脸与眼镜的相对位置稳定，可将人脸或附近区域视为眼镜所处的场景，眼镜与人脸等目标之间也有一定的联系，结合场景和物体间的联系可以提高眼镜检测的精度。提出的眼镜检测卷积网络利用人脸场景信息和眼镜之间的内在语义关联性性建立推理模型，可以大大提高眼镜检测的准确率；解决了现有目标检测技术存在的未充分、合理利用图片场景信息的问题。

Description

一种基于人脸语义特征约束卷积网络的眼镜检测方法

技术领域

本发明涉及计算机视觉的目标检测领域，尤其涉及一种基于人脸语义特征约束卷积网络的眼镜检测方法。

背景技术

在人像采集的日常工作中，需要对采集照片进行质量核审，检测是否佩戴眼镜等饰物是照片质量检测中的重要一环。传统的检测算法对眼镜检测效果不佳，同时人工方式审核人员照片是否佩戴眼镜耗时耗力，人像大小等因素都影响人像照片的眼镜检测无法达到检测预期目标。

从已有发明来看，目前发明主要采用传统的眼镜检测和深度学***方向位置由嘴部区域确定，镜架横梁中心垂直方向位置由人脸图像边缘信息图的像素横向投影情况来确定，根据水平和垂直两者方向位置定位镜架横梁区域，根据横梁区域的横线长度判断是否配戴眼镜，若横线长度与镜架横梁区域水平方向长度近似相等，则佩戴眼镜，反之，未戴眼镜。该发明需要的特征信息少，相对其他方法更加简捷，能有效检测人脸图像是否佩戴眼镜。也有基于深度学习的眼镜检测方法，例如陈文青等人基于眼睛区域的边缘特征提出一种基于神经网络的眼镜检测方法，考虑到眼镜边框与周围像素对比度明显，提取眼睛区域的边缘特征。使用BP神经网络进行模型训练，对人脸图像进行边缘检测和特征提取，利用训练好的模型进行判断人脸图像是否佩戴眼镜。

另外一方面，卷积网络在目标检测中得到了广泛的应用。和传统的BP神经网络相比较，卷积网络在目标检测准确率提到了明显的提升。尽管已有研究对目标检测做了大量的研究，提出了一系列算法。例如Fast-RCNN在提取Object Proposals的基础上，利用卷积网络实现一种多任务学习方式，对目标分类和包围框回归进行同步训练。例如Faster-RCNN设计了候选区域生成网络即RPN，将Object Proposal检测算法也加入到深度卷积网络中实现，是端到端的深度学习算法。YOLO则直接将整张图像作为网络的输入，仅通过一次前向传播直接得到目标包围框的位置和目标类别，检测速度快，但是检测效果特别是小目标检测效果稍差。SSD借鉴了多参考窗口技术，分别在多个尺度的特征图上进行检测和包围框回归。但是，这些卷积网络应用于眼镜检测时，由于眼镜目标较小、半框和无框眼镜的特征难以获取等原因导致检测准确率不高，存在明显的漏检等问题。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于人脸语义特征约束卷积网络的眼镜检测方法，本发明针对Structure Inference Net存在的场景区域不准确问题，提出通过结构推理网络充分利用人脸区域和其他区域的特征信息来提高后续区域的可靠性。由于人脸与眼镜的相对位置稳定，可将人脸或附近区域视为眼镜所处的场景，眼镜与人脸等目标之间也有一定的联系，结合场景和物体间的联系可以提高眼镜检测的精度。提出的眼镜检测卷积网络利用人脸场景信息和眼镜之间的内在语义关联性性建立推理模型，可以大大提高眼镜检测的准确率；解决了现有目标检测技术存在的未充分、合理利用图片场景信息的问题。

本发明是通过以下技术方案达到上述目的：一种基于人脸语义特征约束卷积网络的眼镜检测方法，包括：

(1)初始训练数据采集及标注，得到带标签的训练集；

(2)人脸语义特征约束下的眼镜检测卷积网络模型的构建，并基于训练集进行训练模型；

(3)基于训练好的人脸语义特征约束下的的眼镜检测卷积网络模型进行眼镜检测，实现对人像照片的眼镜检测。

作为优选，所述步骤(1)具体如下：

(1.1)利用人工拍照、人工从网络或者其他开源人脸数据集中搜集戴眼镜人像照片，对采集图像进行人工标注，其中眼镜区域为xmin，ymin，xmax，ymax四个坐标，代表眼镜区域，得到初始部分训练集C_S1；(1.2)选取若干副眼镜图片，使用抠图方法得到眼镜的png图，并人工标注眼镜区域，标注方法同步骤(1.1)的标注方法，选择人像照片，标注双眼位置，并根据双眼的中心宽度和与水平系的夹角，将眼镜png图合成到人像图片上，得到得到初始部分训练集C_S2；

(1.3)经过上述步骤得到带标签的初始训练集Cs＝C_S1+C_S2。

作为优选，所述步骤(2)具体如下：

(2.1)使用官方在ImageNet图像库上训练好的模型作为眼镜检测的预训练模型，在此基础上进行微调；

(2.2)人脸语义特征约束下的眼镜检测卷积网络模型由Faster-RCNN网络和结构推理网络混合构成，其中由Faster-RCNN的RPN方法生成固定数量的ROI，经过ROI-Pooling得到特征向量并映射成一个节点作为结构推理网络SIN的初始状态S_in；

(2.3)根据步骤(2.2)中由RPN生成的固定数量ROI区域，以每一个ROI区域的宽高和中心点为基准，分别选取宽度和高度为r_w倍和r_h倍的区域作为该ROI区域的场景，经过VGG16、ROI-Pooling等层作为SIN的场景输入IN_s；

(2.4)根据步骤(2.2)中由RPN生成的固定数量ROI区域，每两个ROI的联系信息，作为结构推理模型的边缘信息输入IN_e，共十二维；

i，k代表两个ROI区域；

(2.5)利用结构推理网络SIN对S_in推理，推理结构初始场景和边缘GRU状态都为S_in，IN_s是场景输入，IN_e是边缘信息输入，S_out是推理结果，即推理输出；

(2.6)推理结果使用softmax进行分类，使用Bounding-box regression边界框回归；其中，模型目标函数为

其中p_i为anchor预测为目标的概率，

为GT标签，若正标签为1，否则为0；N_cls为anchor数量，

为两个类别的对数损失；t_i＝{t_x,t_y,t_w,t_h}，代表该anchor预测的偏移量，

表示anchor相对于gt实际的偏移量；

(2.7)利用梯度下降方法对步骤(2.6)中的目标函数进行优化。

作为优选，所述步骤(3)具体如下：

(3.1)将测试图片输入到训练好的网络模型中，得到测试图片的目标分类和定位；

(3.2)进行统计分析，统计输出目标被正确分类和定位的准确率，以map为标准；得到最终模型的正确检测效果。

本发明的有益效果在于：本发明根据图片中眼镜目标区域的粗略位置即选取特定位置的场景，即人脸背景，提取这部分的关键特征信息作为结构推理网络的场景输入；这种处理方法使结构推理网络能合理获取到准确的场景信息，提升推理效果，提高眼镜检测精度；构建人脸语义特征约束下的眼镜检测卷积网络模型，根据眼镜目标的尺寸和位置选取特定位置的场景信息作为结构推理网络的场景输入，舍弃了图片的多余信息，保留最关键信息，在经过ROI-Pooling后，最大程度保留了眼镜目标的最关键场景信息，提高推理效果，提高本发明的实际应用价值；本发明设计充分利用人脸语义信息有效提高眼镜的检测精度。

附图说明

图1是本发明的方法流程示意图；

图2是本发明实施例的结构推理网络示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：本实施例中，人像戴眼镜图片内容定义为：个人半身或全身正面戴眼镜照片。以眼镜目标为正样本，其余为负样本。由于人工收集样本图像具有周期长、数量少、成本高等特点，不能完全满足模型训练需要的大量样本图像，因此需要采取其他方法进行样本图像的增强处理，能在一定程度上提高模型训练的识别率。

如图1所示，一种基于人脸语义特征约束卷积网络的眼镜检测方法，包括如下步骤：

步骤一、初始训练数据采集及标注；

步骤1.1：利用人工拍照、人工从网络或者其他开源人脸数据集中搜集大量戴眼镜人像照片，约2000张；

步骤1.2：选取若干副眼镜图片，使用抠图方法得到眼镜的png图，并人工标注眼镜镜片区域。

步骤1.3：搜集大量人像照片，人工标注双眼位置，用于之后的图像合成计算。

步骤1.4:对所有样本图像进行预处理。由于采集的样本来自不同的网站平台，存在规格大小不一，附带水印等问题。对网络收集图片，利用人工方式进行裁剪去除水印，并使用python代码将图片缩放至长宽500像素以下，约2000张(戴眼镜与无眼镜比例大致为1：1)。对人像照片，根据眼镜镜片和人像眼睛的标注计算双眼的中心宽度和与水平系的夹角，将眼镜png图合成到人像图片上，生成图片以及眼镜变换后的坐标框，约3000张合成图。

步骤1.5：经过上述步骤将网络样本集C_S1和合成样本集C_S2组成训练集。

步骤二、人脸语义特征约束下的眼镜检测卷积网络模型的构建及训练；

步骤2.1：本方法基于TensorFlow深度学习框架，以Faster-RCNN检测网络为基础，融合结构推理网络SIN来构建人脸语义特征约束下的眼镜检测卷积网络模型；

步骤2.2：结构推理网络的初始化，由Faster-RCNN的RPN方法生成128个ROI区域，提取这些ROI区域的特征，并经过ROI-Pooling、FC等层得到特征向量并映射成一个节点作为结构推理网络SIN的初始状态；

步骤2.3：场景的选择，对每一个ROI区域，以原ROI中心点位置为初始位置，以原ROI区域长宽为基准，选取高度和宽度分别为r_h和r_w倍的区域，根据图片左上角为原点建立坐标轴，原始ROI区域的坐标为：x_c1，y_c1，w₁，h₁，其中x_c1和y_c1为ROI中心坐标，w₁和h₁分别为ROI区域的宽度和高度.选择的场景区域为：x_c2＝x_c1，y_c2＝y_c1，w₂＝r_ww₁，h₂＝r_hh₁其中x_c2和y_c2为场景区域中心坐标，w₂，h₂分别为场景区域的宽度和高度，超过边界的部分按图片最大或最小长宽值处理.由于人脸和眼镜相对位置稳定，可以从眼镜推断出大致的人脸位置，以人脸位置为眼镜目标的场景最为适合，因此令r_h和r_w取值为7和2。

步骤2.4：结构推理网络的场景输入，提取经过场景选择后的场景特征，128个ROI区域与128个场景区域特征一一对应，并经过ROI-Pooling、FC等层得到特征向量并转化成一个向量作为结构推理网络SIN的场景输入。

步骤2.5：结构推理网络的边缘信息输入，对于物体v_i，其他物体v_k传递给v_i的消息是

其中k＝(1,2,3,4…).

是物体k的视觉特征.

W_v和W_p是学习获取到的权重矩阵,f_i ^v和

分别是物体i和物体k的视觉特征.

代物体i和物体k的空间位置关系，

其中x_i和y_i是ROI区域b_i的中心，w_i和h_i是b_i的宽度和高度，s_i是b_i的面积。

是边缘GRU的输入是其他物体传递给物体v_i的消息的整合.

就是ROI区域的边缘信息，即一个ROI区域从其他ROI区域接收到的信息综合，作为结构推理网络SIN的边缘信息输入。

步骤2.6：结构推理网络，如图2所示；使用场景GRU和边缘GRU，原始图像提供两个GRU的初始状态，场景选择为场景GRU提供输入，ROI之间的空间关系为边缘GRU提供输入，场景GRU和边缘GRU的输出进行一次mean pooling平均池化操作，得到最终的GRU输出结果，即最终的推理输出。推理输出使用softmax进行分类，使用Bounding-box regression边界框回归。

步骤三、基于眼镜检测卷积网络模型的眼镜检测；

步骤3.1：将测试图片输入训练好的最终网络模型，得到测试图像的目标分类和定位；

步骤3.2：对测试图片做统计分析，统计输出目标被正确分类和定位的准确率，以map为标准，得到模型的检测效果。

经过上述步骤的操作，即可实现对人像照片的眼镜检测。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。