CN111597936A

CN111597936A - 基于深度学习的人脸数据集标注方法、***、终端及介质

Info

Publication number: CN111597936A
Application number: CN202010374477.1A
Authority: CN
Inventors: 张攀; 闵梁
Original assignee: Shenzhen Inveno Technology Co ltd
Current assignee: Shenzhen Inveno Technology Co ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-28

Abstract

本发明提供的基于深度学习的人脸数据集标注方法、***、终端及介质，方法包括以下步骤：获取包含多个图片的待标注人脸数据集；构建并训练人脸检测模型，保存训练好的人脸检测模型；利用训练好的人脸检测模型对待标注人脸数据集中图片的人脸进行检测，得到各个图片中人脸位置，以获得样本；接收用户针对样本中每个图片在人脸位置录入的人脸名字，完成待标注人脸数据集中图片的标注。该方法极大地提高人脸数据集的标注效率，能够为人脸检测或人脸识别模型的训练提供大量准确的样本。

Description

基于深度学习的人脸数据集标注方法、***、终端及介质

技术领域

本发明属于人脸标注技术领域，具体涉及基于深度学习的人脸数据集标注方法、***、终端及介质。

背景技术

人脸识别技术是基于人的脸部特征信息来进行身份识别的一种生物识别技术。而现有人脸识别技术需要利用人脸数据集对人脸识别模型进行训练，再利用训练好的人脸识别模型进行人脸匹配。其中人脸数据集需要在人脸图像中标注出人脸的位置以及身份。

现有的人脸数据集的标注通常依赖于人工标注，需要耗费大量人力，且标注的效率很低，无法满足模型训练需要大量已标注数据集的要求。为了解决上述问题，目前已经有一些通过传统机器学习方法或者第三方服务来辅助标注的方法，例如：

申请号201410053879.6中提到的一种人脸图像的身份标注方法及人脸身份识别方法。该方法利用搜索引擎搜索待标注图像的网页，然后根据网页中所出现人名的频率和第三方API来确定该图片的身份。具体的流程如图1所示。但是该方法过于相信搜索引擎，搜索引擎返回的结果有可能是和待标注样本相关的网页，很多时候并不是待标注样本中的人物。而且该发明依赖于第三方API，没有给出自已的人脸识别方案。

申请号201310268319.8中提到的人脸标注方法、装置及设备中通过聚类的方式来对待标注人脸数据集进修聚类。具体步骤如下：1、获取人脸数据库中任意两个人脸之间的人脸距离；2、根据待聚类人脸与其他人脸之间的人脸距离获取待聚类人脸的近邻人脸；3、计算待聚类人脸和近邻人脸之间的复合共享近邻得分；4、根据该人脸距离以及复合共享近邻得分对待聚类人脸进行聚类，得到包含有人脸的分类；5、标注分类中尚未标注的人脸。具体的流程如图2所示。首先聚类方法不太适合类别太多的数据集。如果有几十万上百万的人脸，聚类模型花费时间长、且很难收敛。并且聚类时需要提前告知有多少个类别，而且如果数据集中单张图片包含多张人脸，在该场景下，聚类是行不通的。

发明内容

针对现有技术中的缺陷，本发明提供一种基于深度学习的人脸数据集标注方法、***、终端及介质，极大地提高人脸数据集的标注效率，能够为人脸检测或人脸识别模型的训练提供大量准确的样本。

第一方面，一种基于深度学习的人脸数据集标注方法，包括以下步骤：

获取包含多个图片的待标注人脸数据集；

构建并训练人脸检测模型，保存训练好的人脸检测模型；

利用训练好的人脸检测模型对待标注人脸数据集中图片的人脸进行检测，得到各个图片中人脸位置，以获得样本；

接收用户针对样本中每个图片在人脸位置录入的人脸名字，完成待标注人脸数据集中图片的标注。

优选地，所述获取包含多个图片的待标注人脸数据集具体包括：

接收用户根据待标注人物录入的关键字；

根据所述关键词在预设的数据库进行搜索，获得与待标注人物匹配的资讯；

提取所述资讯中的图片；

根据提取到的所有图片构建所述待标注人脸数据集；

存储该待标注人脸数据集。

优选地，所述人脸检测模型为SSH模型；其中SSH模型的主干网为VGG16。

优选地，所述利用训练好的人脸检测模型对待标注人脸数据集中图片的人脸进行检测，得到各个图片中人脸位置具体包括：

加载训练好的人脸检测模型和待标注人脸数据集；

利用训练好的人脸检测模型对待标注人脸数据集中图片的人脸进行检测，以获得标识人脸位置的边框；

检测该图片中边框数量是否为0，或者是边框数量是否超过预设的上限值；

如果是，设置该图片的标注信息无效；

如果不是，获取该图片中所有的边框，利用NMS算法在该图片的所有边框中，剔除IOU大于预设值的边框，得到所述该图片中人脸位置。

优选地，所述接收用户针对样本中每个图片在人脸位置录入的人脸名字，完成待标注人脸数据集中图片的标注具体包括：

获取所述样本；

接收用户针对样本中每个图片的人脸位置从预设的待标注人物库中选择对应的待标注人物，完成待标注人脸数据集中图片的标注。

第二方面，一种基于深度学习的人脸数据集标注***，包括：

待标注人脸数据集：包含多个图片；

人脸检测模型；

在线预测服务：用于利用人脸检测模型对待标注人脸数据集中图片的人脸进行检测，得到各个图片中人脸位置，以获得样本；

标注工具：用于接收用户针对样本中每个图片在人脸位置录入的人脸名字，完成待标注人脸数据集中图片的标注。

优选地，所述在线预测服务具体用于：

加载人脸检测模型和待标注人脸数据集；

利用人脸检测模型对待标注人脸数据集中图片的人脸进行检测，以获得标识人脸位置的边框；

如果是，设置该图片的标注信息无效；

优选地，所述标注工具具体用于：

获取所述样本；

第三方面，一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面所述的方法。

第四方面，一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。

由上述技术方案可知，本发明提供的基于深度学习的人脸数据集标注方法、***、终端及介质，极大地提高人脸数据集的标注效率，能够为人脸检测或人脸识别模型的训练提供大量准确的样本。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明背景技术中提供的第一种身份标注方法的流程图。

图2为本发明背景技术中提供的第二种人脸标注方法的流程图。

图3为本发明实施例一提供的人脸数据集标注方法的流程图。

图4为本发明实施例一提供的待标注人脸数据集获取方法的流程图。

图5为本发明实施例一提供的图片中人脸位置获取方法的流程图。

图6为本发明实施例一获取到人脸位置的图像。

图7为本发明实施例一利用NMS算法剔除边框前的图像。

图8为本发明实施例一利用NMS算法剔除边框后的图像。

图9为本发明实施例一标注人脸名字之前的图像。

图10为本发明实施例一标注人脸名字之后的图像。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

具体实现中，本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端。然而，应当理解的是，终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

终端支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

人脸数据集标注：是指框出人脸图像中人脸的位置以及身份。人脸检测：是指如果人脸图像中存在人脸，则框出人脸所在的位置，如果存在多张人脸，则画多个边框。人脸识别：是指如果图像中存在人脸，则识别出该人脸的身份，如果存在多张人脸，则给出所有人脸的身份。

现有技术有时候会将样本标注看成一个分类的问题，即只标注出图像中存在的人脸身份，没有标注出人脸的具***置。实际上，人脸识别是目标检测问题，不是分类问题。如果看成是分类问题的话，当图像中背景过多或者出现多张人脸，分类模型不能识别图像中多张人脸的具体身份。

实施例一：

一种基于深度学习的人脸数据集标注方法，参见图3，包括以下步骤：

S1：获取包含多个图片的待标注人脸数据集；

S2：构建并训练人脸检测模型，保存训练好的人脸检测模型；

S3：利用训练好的人脸检测模型对待标注人脸数据集中图片的人脸进行检测，得到各个图片中人脸位置，以获得样本；

S4：接收用户针对样本中每个图片在人脸位置录入的人脸名字，完成待标注人脸数据集中图片的标注。

具体地，该方法主要利用深度学习方法训练一个可以识别图片中人脸具***置的人脸检测模型，并且框出待标注人脸数据集中图片的人脸具***置，用户(即标注人员)仅仅需要在框出的人脸中标出人脸名称即可。如果人脸检测模型框出的边框位置不准确的话，标注人员可以手动修正边框的位置。

该方法标注后得到的待标注人脸数据集作为后续的人脸检测或者人脸识别的样本，这样该方法就可以为后续的人脸检测模型或者人脸识别模型提供准确的大量的样本。该方法极大地提高人脸数据集的标注效率，能够为人脸检测或人脸识别模型的训练提供大量准确的样本。

参见图4，所述获取包含多个图片的待标注人脸数据集具体包括：

接收用户根据待标注人物录入的关键字；

提取所述资讯中的图片；

根据提取到的所有图片构建所述待标注人脸数据集；

存储该待标注人脸数据集。

具体地，无论是人脸检测还是人脸识别都需要大量的标注数据(即样本)来训练模型。所以模型最终的好坏，标注数据的质量起着很大的作用。本实施例中待标注人脸数据主要来自资讯中图片。例如利用ES(Elastic Search的缩写)匹配关键字，尽可能搜索与待标注人物匹配的资讯，然后提取资讯中的图片，构成待标注人脸数据集。资讯包括新闻、网页等等。数据库可以是某公司的数据库或在线数据库。最后得到的待标注人脸数据集包括图片名称、图片link、目标列表、目标数量、图片大小、标注边框列表、任务批次、操作者、备注、图片状态、质检状态、质检者、预分类、质检时间、预检测目标数量、样本来源等数据。

具体地，本实施例选用SSH(Single Stage Headless Face Detector)模型作为人脸检测算法，SSH模型的优点是推断快、内存消耗少、能够检测出多尺度的人脸。

SSH的主干网可以由标注人员自行选择,本实施例中SSH模型的主干网选用VGG16。SSH模型中有三个检测模块，分别为M1、M2、M3。三个检测模块使用的步长分别为8、16和32，分别用于检测大、中、小人脸。

本实施例用于训练SSH模型的数据集来源于开源数据集WIDERFACE。训练环境及配置如下：Tensorflow 1.14，GPU GTX1080ti，Python 3.6，Ubuntu 16.04和Cuda 10.0。训练好的人脸检测模型对单张图片预测(800*1200)在80毫秒左右。

参见图5，所述利用训练好的人脸检测模型对待标注人脸数据集中图片的人脸进行检测，得到各个图片中人脸位置具体包括：

加载训练好的人脸检测模型和待标注人脸数据集；

如果是，设置该图片的标注信息无效；

具体地，本实施例的方法在过滤样本时，剔除待标注数据集中无人脸或者人脸过多的样本。本实施例在筛选样本时，过滤掉不需要标注的样本，即图片中边框数量为0的样本。过滤掉人脸太多的图片，即边框数量是否超过预设的上限值。该方法在过滤掉某个图片时，会设置该图片的标注信息无效，忽略该标注信息。图6为根据该方法得到人脸位置的图片，图6中由于存在3个人脸，所以识别出三个边框。

由于SSH模型输出的边框可能存在重叠比较大的框(即IOU大于预设值的边框)，所以该方法通过NMS(非极大抑制)算法去掉这些边框，参见图7、8所示，图7、8分别为剔除前、后的图像。NMS算法主要包括以下步骤：

1)将所有边框的得分排序，选中最高分及其对应的边框：

2)遍历其余的边框，如果和当前最高分边框的重叠面积(IOU)大于预设值时，删除该边框。

3)从未处理的边框中继续选一个得分最高的，重复上述过程。

获取所述样本；

具体地，该步骤用于对识别出人脸位置的图片进行标定。这样标注人员看到的样本全部是带有人脸、带有人脸位置、画出人脸边框的图片。标注人员仅需要标注出边框中人物的身份即可。标注人物身份前后的图像参见图9、10所示。该方法为了更加方便标注人员标注，可以将待标注人物库中所有的待标注人物罗列出来，标注人员在进行标注时，只需要在罗列出的待标注人物中选择即可，不需要手动输入待标注人物，方便快捷。

实施例二：

一种基于深度学习的人脸数据集标注***，包括：

待标注人脸数据集：包含多个图片；

人脸检测模型；

具体地，在线预测服务可以采用java开发环境，Tensorflow开发工具包加载pb模型，服务框架采用springboot，满足高并发请求场景。

优选地，所述在线预测服务具体用于：

加载人脸检测模型和待标注人脸数据集；

如果是，设置该图片的标注信息无效；

优选地，所述标注工具具体用于：

获取所述样本；

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的***可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例所提供的***，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例三：

一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述的方法。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备可以包括显示器(LCD等)、扬声器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

本发明实施例所提供的终端，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例四：

一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述的方法。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例所提供的介质，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度学习的人脸数据集标注方法，其特征在于，包括以下步骤：

获取包含多个图片的待标注人脸数据集；

构建并训练人脸检测模型，保存训练好的人脸检测模型；

2.根据权利要求1所述基于深度学习的人脸数据集标注方法，其特征在于，所述获取包含多个图片的待标注人脸数据集具体包括：

接收用户根据待标注人物录入的关键字；

提取所述资讯中的图片；

根据提取到的所有图片构建所述待标注人脸数据集；

存储该待标注人脸数据集。

3.根据权利要求1所述基于深度学习的人脸数据集标注方法，其特征在于，所述人脸检测模型为SSH模型；其中SSH模型的主干网为VGG16。

4.根据权利要求2所述基于深度学习的人脸数据集标注方法，其特征在于，所述利用训练好的人脸检测模型对待标注人脸数据集中图片的人脸进行检测，得到各个图片中人脸位置具体包括：

加载训练好的人脸检测模型和待标注人脸数据集；

如果是，设置该图片的标注信息无效；

5.根据权利要求4所述基于深度学习的人脸数据集标注方法，其特征在于，所述接收用户针对样本中每个图片在人脸位置录入的人脸名字，完成待标注人脸数据集中图片的标注具体包括：

获取所述样本；

6.一种基于深度学习的人脸数据集标注***，其特征在于，包括：

待标注人脸数据集：包含多个图片；

人脸检测模型；

7.根据权利要求6所述基于深度学习的人脸数据集标注***，其特征在于，所述在线预测服务具体用于：

加载人脸检测模型和待标注人脸数据集；

如果是，设置该图片的标注信息无效；

8.根据权利要求6所述基于深度学习的人脸数据集标注***，其特征在于，所述标注工具具体用于：

获取所述样本；

9.一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-5任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。