CN112818833A - 基于深度学习的人脸多任务检测方法、***、装置及介质 - Google Patents

基于深度学习的人脸多任务检测方法、***、装置及介质 Download PDF

Info

Publication number
CN112818833A
CN112818833A CN202110124545.3A CN202110124545A CN112818833A CN 112818833 A CN112818833 A CN 112818833A CN 202110124545 A CN202110124545 A CN 202110124545A CN 112818833 A CN112818833 A CN 112818833A
Authority
CN
China
Prior art keywords
face
image
processing
deep learning
multitask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110124545.3A
Other languages
English (en)
Other versions
CN112818833B (zh
Inventor
梁延研
朱震威
林旭新
于春涛
杨琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boyan Technology Zhuhai Co ltd
China Energy International Development Investment Group Co.,Ltd.
Original Assignee
China Energy International Construction Investment Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Energy International Construction Investment Group Co ltd filed Critical China Energy International Construction Investment Group Co ltd
Priority to CN202110124545.3A priority Critical patent/CN112818833B/zh
Publication of CN112818833A publication Critical patent/CN112818833A/zh
Application granted granted Critical
Publication of CN112818833B publication Critical patent/CN112818833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度学习的人脸多任务检测方法、***、装置及存储介质,该方法包括获取原始人脸图像;对所述原始人脸图像进行归一化处理,得到第一图像;将所述第一图像输入超分辨率神经网络模型进行处理,得到第二图像;将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理,得到人脸框坐标和人脸关键点坐标;本发明通过超分辨率神经网络模型,能够在保持特征图尺寸的前提下增强特征信息,同时增加对于小目标人脸的检测性能;通过基于深度学习的人脸多任务检测模型,可提升不同尺寸人脸的检测效果,使得检测结果更加精准;本发明可广泛应用于图像处理技术领域。

Description

基于深度学习的人脸多任务检测方法、***、装置及介质
技术领域
本发明涉及图像处理技术领域,尤其是一种基于深度学习的人脸多任务检测方法、***、装置及存储介质。
背景技术
人脸检测技术最初起源于人脸识别,是计算机视觉领域中一个核心并且历史悠久的研究分支,是人脸相关应用里至关重要的第一步。在近几十年里,人脸检测已经引起了人们的高度重视,被认为是图像分析中成功的应用之一。目前大多数现有技术,为了提高模型对于小人脸的检测准确率,会采取放大图像的预处理方式,然而这会带来两个不利影响:
1)输入图像尺寸的增大,会同比例放大模型推理过程中生成的特征图尺寸,这也就造成了计算量和内存占用量激增;
2)增大图像尺寸在放大较小目标的同时,也放大了较大目标,这对于深度神经网络模型检测大样本能力是呈负面影响的。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于深度学习的人脸多任务检测方法、***、装置及存储介质。
本发明所采取的技术方案是:
一方面,本发明实施例包括一种基于深度学习的人脸多任务检测方法,包括:
获取原始人脸图像;
对所述原始人脸图像进行归一化处理,得到第一图像;
将所述第一图像输入超分辨率神经网络模型进行处理,得到第二图像;
将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理,得到人脸框坐标和人脸关键点坐标。
进一步地,所述对所述原始人脸图像进行归一化处理,得到第一图像具体为:
采用将0-255的灰度值均匀映射到0-1之间的方法对原始人脸图像进行归一化处理,得到第一图像。
进一步地,所述超分辨率神经网络模型包括:
特征提取模块,用于从所述第一图像中提取图像特征;
非线性映射模块,用于将提取的所述图像特征进行非线性映射,得到所述第二图像,所述第二图像包含高分辨率图像信息。
进一步地,所述将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理这一步骤,具体包括:
将所述第二图像输入骨干网路处理,获取得到多个层级的特征图;
将各个层级的特征图经过1×1的卷积核处理后,将高级语义的特征与低级语义逐层合并,得到多个包含高级语义信息的特征图;
将所有所述包含高级语义信息的特征图输入区域建议网络处理,获取得到人脸目标粗候选框;
将所述人脸目标粗候选框对应到第一位置,所述第一位置为所述第一图像通过骨干网络处理输出的特征图位置,并通过RoI Align方法将所有所述人脸目标粗候选框统一成两个维度并分到第一支线和第二支线上处理;
所述第一支线对所述人脸目标粗候选框进行筛选和修正,得到人脸框坐标;
所述第二支线对所述人脸目标粗候选框进行处理,得到人脸关键点坐标。
进一步地,所述通过RoI Align方法将所有所述人脸目标粗候选框统一成两个维度并分到第一支线和第二支线上处理,具体为:
通过RoI Align方法将所有所述人脸目标粗候选框统一成维度为7x7x256的图像并分到第一支线上处理;
通过RoI Align方法将所有所述人脸目标粗候选框统一成维度为14x14x256的图像并分到第二支线上处理。
进一步地,所述第一支线对所述人脸目标粗候选框进行筛选和修正,得到人脸框坐标这一步骤,具体包括:
通过两个全连接层将维度为7x7x256的图像的特征抽象到一维;
分别用两个全连接层拟合所述人脸目标粗候选框的分类和位置偏移量;
根据所述人脸目标粗候选框的分类和位置偏移量,对所述人脸目标粗候选框进行修正,得到人脸框坐标。
进一步地,所述第二支线对所述人脸目标粗候选框进行处理,得到人脸关键点坐标这一步骤,具体包括:
将维度为14x14x256的图像经过4层卷积层处理;
再通过全连接层进行拟合处理,得到人脸关键点坐标。
另一方面,本发明实施例还包括一种基于深度学习的人脸多任务检测***,包括:
获取模块,用于获取原始人脸图像;
归一化处理模块,用于对所述原始人脸图像进行归一化处理,得到第一图像;
超分辨率模块,用于将所述第一图像输入超分辨率神经网络模型进行处理,得到第二图像;
人脸多任务检测模块,用于将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理,得到人脸框坐标和人脸关键点坐标。
另一方面,本发明实施例还包括一种基于深度学习的人脸多任务检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的检测方法。
另一方面,本发明实施例还包括计算机可读存储介质,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现所述的检测方法。
本发明的有益效果是:
(1)本发明通过超分辨率神经网络模型,能够在保持特征图尺寸的前提下增强特征信息,同时增加对于小目标人脸的检测性能,使得小人脸更容易的被检测到,与放大输入图像相比,带来计算资源增加量非常小;
(2)本发明通过基于深度学习的人脸多任务检测模型,可提升不同尺寸人脸的检测效果,使得检测结果更加精准,且能够保证在检测过程中人脸图像的尺寸范围不会在特征增强的过程中发生改变。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所述基于深度学习的人脸多任务检测方法的步骤流程图;
图2为本发明实施例所述基于深度学习的人脸多任务检测模型的网络架构图;
图3为本发明实施例所述基于深度学习的人脸多任务检测模型的训练流程示意图;
图4为本发明实施例所述网络参数的具体设置的示意图;
图5为本发明实施例所述基于深度学习的人脸多任务检测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
下面结合附图,对本申请实施例作进一步阐述。
参照图1,本发明实施例提出一种基于深度学习的人脸多任务检测方法,包括但不限于以下步骤:
S1.获取原始人脸图像;
S2.对所述原始人脸图像进行归一化处理,得到第一图像;
S3.将所述第一图像输入超分辨率神经网络模型进行处理,得到第二图像;
S4.将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理,得到人脸框坐标和人脸关键点坐标。
关于步骤S2,也就是所述对所述原始人脸图像进行归一化处理,得到第一图像具体为:
S201.采用将0-255的灰度值均匀映射到0-1之间的方法对原始人脸图像进行归一化处理,得到第一图像。
本实施例中,步骤S2的操作采用将0-255的灰度值均匀映射到0-1之间的方法,与一般的检测任务中采用的均值标准差归一化不同,其目的是可适配超分辨率神经网络模型的学习。
步骤S3中所述的超分辨率神经网络模型包括:
特征提取模块,用于从所述第一图像中提取图像特征;
非线性映射模块,用于将提取的所述图像特征进行非线性映射,得到所述第二图像,所述第二图像包含高分辨率图像信息。
本实施例中,超分辨率神经网络模型采用的是一个轻量级的网络,包括四个卷积层和一个上采样层,其中上采样层仅用于重建高分辨率图像,而不参与主干网络的推理过程,而经过四个卷积层处理得到包含高分辨率信息的第二图像,所述第二图像为与输入的原始图像具有同等分辨率的特征图像;然后,将第二图像输入到基于深度学习的人脸多任务检测模型中作进一步处理。因此,该超分辨率神经网络模型致力于在保持特征图尺寸的前提下增强特征信息,这对于检测占有像素点范围小的目标有良好的帮助。
本实施例中,在对超分辨率神经网络模型的训练过程中,包括以下处理过程:
(1)使用双三次插值下采样处理所述第一图像得到低分辨率图像,通过特征提取模块从所述低分辨率图像中提取图像特征;
(2)通过非线性映射模块将提取的所述图像特征映射到用于表示更高分辨率图像信息的同等分辨率特征图像,所述同等分辨率特征图像为所述第二图像;
(3)通过图像重构模块对所述第二图像进行可学习的上采样处理,得到模型还原出的高分辨率图像;
本实施例中,在对超分辨率神经网络模型的训练过程中,通过超分辨率模块处理所述低分辨率图像,可输出模型预测还原的高分辨率图像,比较并计算所述高分辨率与所述第一图像的差异,以监督网络训练过程;而在应用过程中,图像重构模块不参与工作。
可选地,步骤S4,也就是所述将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理这一步骤,具体包括:
S401.将所述第二图像输入骨干网路处理,获取得到多个层级的特征图;
S402.将各个层级的特征图经过1×1的卷积核处理后,将高级语义的特征与低级语义逐层合并,得到多个包含高级语义信息的特征图;
S403.将所有所述包含高级语义信息的特征图输入区域建议网络处理,获取得到人脸目标粗候选框;
S404.将所述人脸目标粗候选框对应到第一位置,所述第一位置为所述第一图像通过骨干网络处理输出的特征图位置,并通过RoI Align方法将所有所述人脸目标粗候选框统一成两个维度并分到第一支线和第二支线上处理;
S405.所述第一支线对所述人脸目标粗候选框进行筛选和修正,得到人脸框坐标;
S406.所述第二支线对所述人脸目标粗候选框进行处理,得到人脸关键点坐标。
其中,步骤S404中所述通过RoI Align方法将所有所述人脸目标粗候选框统一成两个维度并分到第一支线和第二支线上处理,具体为:
S404-1.通过RoI Align方法将所有所述人脸目标粗候选框统一成维度为7x7x256的图像并分到第一支线上处理;
S404-2.通过RoI Align方法将所有所述人脸目标粗候选框统一成维度为14x14x256的图像并分到第二支线上处理。
其中,步骤S405,也就是所述第一支线对所述人脸目标粗候选框进行筛选和修正,得到人脸框坐标这一步骤,具体包括:
S405-1.通过两个全连接层将维度为7x7x256的图像的特征抽象到一维;
S405-2.分别用两个全连接层拟合所述人脸目标粗候选框的分类和位置偏移量;
S405-3.根据所述人脸目标粗候选框的分类和位置偏移量,对所述人脸目标粗候选框进行修正,得到人脸框坐标。
其中,步骤S406,也就是所述第二支线对所述人脸目标粗候选框进行处理,得到人脸关键点坐标这一步骤,具体包括:
S406-1.将维度为14x14x256的图像经过4层卷积层处理;
S406-2.再通过全连接层进行拟合处理,得到人脸关键点坐标。
本实施例中,基于深度学习的人脸多任务检测模型通过按一定规律交替的卷积层、批归一化层、激活函数和池化层获得信息高度抽象化的特征图,并构建多尺度特征金字塔协助各种尺度大小的人脸被准确检测;同时,采用的二阶段的网络架构,分为选取候选框和生成精确检测结果两个部分,其中后者又可分为两个并行支线,通过两个并行支线分别得到人脸框坐标和人脸关键点坐标。
具体地,参照图2,首先,将经过超分辨率神经网络模型处理得到的信息增强特征图输入至backbone network,以获取各个层级的特征图,由于层数渐深以及逐级下采样处理,导致语义抽象程度逐渐变高,而特征图尺度逐渐变小;通过M5-M2层的处理,可将高级语义的特征与低级语义逐层合并,获得多种尺寸且包含高级语义信息的特征图(如图2中的P2-P6),形成特征金字塔,提升不同尺寸人脸的检测效果;
其次,得到的所有特征图(P2-P6)都输入RPN(Region Proposal Network,区域建议网络),假设以每一个像素点为中心,分别铺设边长为4、5.04、6.35像素,边长比例为1:1的锚框,通过两个支线分别拟合:即将分类锚框所在位置属于人脸或背景(两个softmax得分),与回归锚框与真值目标框的位置偏移量(左上角点的横纵坐标以及长宽的偏移量,共四个值)进行拟合,由此,可获取人脸目标的粗候选框,在此过程中,产生了第一组lossfunction:
Figure BDA0002923168720000071
式中,pi表示人脸目标的分类概率,ti表示人脸目标的位置偏移量,
Figure BDA0002923168720000072
表示pi对应的真值,
Figure BDA0002923168720000078
表示ti对应的真值;Ncls、Nreg分别为一个batch中分类和回归目标的个数;Lcls表示分类的loss function,采用的是二分类的交叉熵损失;Lreg表示位置回归的lossfunction,采用smooth L1损失。
接着,将输出的人脸目标的粗候选框对应到经过超分辨率神经网络模型处理得到的信息增强特征图位置,并通过RoI Align方法将所有的人脸目标的粗候选框都统一到维度为14x14x256和维度为14x14x256两种形式中,并分到两个支线中做处理。如图2所示,其中一条支线通过两个全连接层将特征抽象到一维,再分别用两个全连接层拟合目标框的分类和位置偏移量,以达到精细修正目标框的作用;另外一条支线通过4层卷积层处理,再用全连接拟合5个landmarks在对应目标框中归一化的位置(共10个值)。在此过程中产生了第二组loss function:
Figure BDA0002923168720000073
该第二组loss function基本与第一组loss function和一样,只是增加了landmark的监督,Llm采用的是smooth L1损失,li
Figure BDA0002923168720000074
分别为landmark的预测值和真值;λ1、λ2、λ3均为权重。
因此,基于深度学习的人脸多任务检测模型的总loss function为:
Figure BDA0002923168720000075
式中,α均为权重,
Figure BDA0002923168720000076
为第一组loss function,
Figure BDA0002923168720000077
为第二组lossfunction。
参照图3,本发明实施例中,因引入了超分辨率神经网络模型,因此还提出一种与之契合的训练策略,以提高基于深度学习的人脸多任务检测模型对于占有像素点数较少目标的检测性能,如图3所示,图中的Detector对应如图2所示的结构,Detection loss对应所述的LossD。超分辨率神经网络模型作为对原始图像信息增强的模块,需要通过与输入图像对应的高分辨率图像监督,因此需要通过对原图像做下采样处理,以生成训练对,这一部分的loss function为:
Figure BDA0002923168720000081
式中,yi,表示SRimage(超分辨率恢复图像),
Figure BDA0002923168720000082
表示HR image(高分辨率图像),W、H、C分别为图像的宽、高和通道数。
为了使基于深度学习的人脸多任务检测模型保持在原始图像的目标尺寸上性能不降低的同时增加对于小目标的检测性能,本发明实施例中提出一种新的训练策略。将训练过程中每个batch分成两组:一组为原图(ori_img),只通过main line部分处理;另一组为4倍下采样后的图像(de_img),即为可提供高分辨率图像对应做超分辨率训练的样本,通过main line和branch line共同处理。最终以一定权重对两部分数据的loss值求和,以监督整个网络,其中,原图(ori_img)通过main line部分处理的loss值为:Lori_img=LossD;4倍下采样后的图像(de_img)通过main line和branch line共同处理的loss值为:Lde_img=LossD+βLossSR;而二者求和的表达式为:Losstotal=Lori_img+γLde_img;式中,β和γ为相关权重,Liri_img和Lde_img分别为两个支线的loss值,Losstotal为最终调整基于深度学习的人脸多任务检测模型参数的总损失值。
参照图4,图4示出了图2所示网络架构中各个参数的具体设置的示意图。
本发明实施例所述基于深度学习的人脸多任务检测方法具有以下技术效果:
(1)本发明实施例通过超分辨率神经网络模型,能够在保持特征图尺寸的前提下增强特征信息,同时增加对于小目标人脸的检测性能,使得小人脸更容易的被检测到,与放大输入图像相比,带来计算资源增加量非常小;
(2)本发明实施例通过基于深度学习的人脸多任务检测模型,可提升不同尺寸人脸的检测效果,使得检测结果更加精准,且能够保证在检测过程中人脸图像的尺寸范围不会在特征增强的过程中发生改变。
另一方面,本发明实施例还提出一种基于深度学习的人脸多任务检测***,包括:
获取模块,用于获取原始人脸图像;
归一化处理模块,用于对所述原始人脸图像进行归一化处理,得到第一图像;
超分辨率模块,用于将所述第一图像输入超分辨率神经网络模型进行处理,得到第二图像;
人脸多任务检测模块,用于将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理,得到人脸框坐标和人脸关键点坐标。
参照图5,本发明实施例还提供了一种基于深度学习的人脸多任务检测装置200,具体包括:
至少一个处理器210;
至少一个存储器220,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器210执行,使得所述至少一个处理器210实现如图1所示的方法。
其中,存储器220作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器220可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器220可选包括相对于处理器210远程设置的远程存储器,这些远程存储器可以通过网络连接至处理器210。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
可以理解到,图5中示出的装置结构并不构成对装置200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示的装置200中,处理器210可以调取存储器220中储存的程序,并执行但不限于图1所示实施例的步骤。
以上所描述的装置200实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现实施例的目的。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现如图1所示的方法。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
可以理解的是,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种基于深度学习的人脸多任务检测方法,其特征在于,包括:
获取原始人脸图像;
对所述原始人脸图像进行归一化处理,得到第一图像;
将所述第一图像输入超分辨率神经网络模型进行处理,得到第二图像;
将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理,得到人脸框坐标和人脸关键点坐标。
2.根据权利要求1所述的一种基于深度学习的人脸多任务检测方法,其特征在于,所述对所述原始人脸图像进行归一化处理,得到第一图像具体为:
采用将0-255的灰度值均匀映射到0-1之间的方法对原始人脸图像进行归一化处理,得到第一图像。
3.根据权利要求1所述的一种基于深度学习的人脸多任务检测方法,其特征在于,所述超分辨率神经网络模型包括:
特征提取模块,用于从所述第一图像中提取图像特征;
非线性映射模块,用于将提取的所述图像特征进行非线性映射,得到所述第二图像,所述第二图像包含高分辨率图像信息。
4.根据权利要求1所述的一种基于深度学习的人脸多任务检测方法,其特征在于,所述将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理这一步骤,具体包括:
将所述第二图像输入骨干网路处理,获取得到多个层级的特征图;
将各个层级的特征图经过1×1的卷积核处理后,将高级语义的特征与低级语义逐层合并,得到多个包含高级语义信息的特征图;
将所有所述包含高级语义信息的特征图输入区域建议网络处理,获取得到人脸目标粗候选框;
将所述人脸目标粗候选框对应到第一位置,所述第一位置为所述第一图像通过骨干网络处理输出的特征图位置,并通过RoIAlign方法将所有所述人脸目标粗候选框统一成两个维度并分到第一支线和第二支线上处理;
所述第一支线对所述人脸目标粗候选框进行筛选和修正,得到人脸框坐标;
所述第二支线对所述人脸目标粗候选框进行处理,得到人脸关键点坐标。
5.根据权利要求4所述的一种基于深度学习的人脸多任务检测方法,其特征在于,所述通过RoI Align方法将所有所述人脸目标粗候选框统一成两个维度并分到第一支线和第二支线上处理,具体为:
通过RoIAlign方法将所有所述人脸目标粗候选框统一成维度为7x7x256的图像并分到第一支线上处理;
通过RoIAlign方法将所有所述人脸目标粗候选框统一成维度为14x14x256的图像并分到第二支线上处理。
6.根据权利要求5所述的一种基于深度学习的人脸多任务检测方法,其特征在于,所述第一支线对所述人脸目标粗候选框进行修正,得到人脸框坐标这一步骤,具体包括:
通过两个全连接层将维度为7x7x256的图像的特征抽象到一维;
分别用两个全连接层拟合所述人脸目标粗候选框的分类和位置偏移量;
根据所述人脸目标粗候选框的分类和位置偏移量,对所述人脸目标粗候选框进行修正,得到人脸框坐标。
7.根据权利要求5所述的一种基于深度学习的人脸多任务检测方法,其特征在于,所述第二支线对所述人脸目标粗候选框进行处理,得到人脸关键点坐标这一步骤,具体包括:
将维度为14x14x256的图像经过4层卷积层处理;
再通过全连接层进行拟合处理,得到人脸关键点坐标。
8.一种基于深度学习的人脸多任务检测***,其特征在于,包括:
获取模块,用于获取原始人脸图像;
归一化处理模块,用于对所述原始人脸图像进行归一化处理,得到第一图像;
超分辨率模块,用于将所述第一图像输入超分辨率神经网络模型进行处理,得到第二图像;
人脸多任务检测模块,用于将所述第二图像输入基于深度学习的人脸多任务检测模型进行处理,得到人脸框坐标和人脸关键点坐标。
9.一种基于深度学习的人脸多任务检测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述的检测方法。
10.计算机可读存储介质,其特征在于,其上存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现如权利要求1-7任一项所述的检测方法。
CN202110124545.3A 2021-01-29 2021-01-29 基于深度学习的人脸多任务检测方法、***、装置及介质 Active CN112818833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110124545.3A CN112818833B (zh) 2021-01-29 2021-01-29 基于深度学习的人脸多任务检测方法、***、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110124545.3A CN112818833B (zh) 2021-01-29 2021-01-29 基于深度学习的人脸多任务检测方法、***、装置及介质

Publications (2)

Publication Number Publication Date
CN112818833A true CN112818833A (zh) 2021-05-18
CN112818833B CN112818833B (zh) 2024-04-12

Family

ID=75860153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110124545.3A Active CN112818833B (zh) 2021-01-29 2021-01-29 基于深度学习的人脸多任务检测方法、***、装置及介质

Country Status (1)

Country Link
CN (1) CN112818833B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951867A (zh) * 2017-03-22 2017-07-14 成都擎天树科技有限公司 基于卷积神经网络的人脸识别方法、装置、***及设备
CN107909026A (zh) * 2016-11-30 2018-04-13 深圳奥瞳科技有限责任公司 基于嵌入式***小规模卷积神经网络的年龄和性别评估
CN107958444A (zh) * 2017-12-28 2018-04-24 江西高创保安服务技术有限公司 一种基于深度学习的人脸超分辨率重建方法
CN109101915A (zh) * 2018-08-01 2018-12-28 中国计量大学 基于深度学习的人脸与行人及属性识别网络结构设计方法
CN110263756A (zh) * 2019-06-28 2019-09-20 东北大学 一种基于联合多任务学习的人脸超分辨率重建***
CN110532871A (zh) * 2019-07-24 2019-12-03 华为技术有限公司 图像处理的方法和装置
CN111160202A (zh) * 2019-12-20 2020-05-15 万翼科技有限公司 基于ar设备的身份核验方法、装置、设备及存储介质
CN111259742A (zh) * 2020-01-09 2020-06-09 南京理工大学 基于深度学习的异常人群检测方法
CN111274977A (zh) * 2020-01-22 2020-06-12 中能国际建筑投资集团有限公司 多任务卷积神经网络模型及使用方法、装置和存储介质
US20210012198A1 (en) * 2018-05-31 2021-01-14 Huawei Technologies Co., Ltd. Method for training deep neural network and apparatus

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909026A (zh) * 2016-11-30 2018-04-13 深圳奥瞳科技有限责任公司 基于嵌入式***小规模卷积神经网络的年龄和性别评估
CN106951867A (zh) * 2017-03-22 2017-07-14 成都擎天树科技有限公司 基于卷积神经网络的人脸识别方法、装置、***及设备
CN107958444A (zh) * 2017-12-28 2018-04-24 江西高创保安服务技术有限公司 一种基于深度学习的人脸超分辨率重建方法
US20210012198A1 (en) * 2018-05-31 2021-01-14 Huawei Technologies Co., Ltd. Method for training deep neural network and apparatus
CN109101915A (zh) * 2018-08-01 2018-12-28 中国计量大学 基于深度学习的人脸与行人及属性识别网络结构设计方法
CN110263756A (zh) * 2019-06-28 2019-09-20 东北大学 一种基于联合多任务学习的人脸超分辨率重建***
CN110532871A (zh) * 2019-07-24 2019-12-03 华为技术有限公司 图像处理的方法和装置
CN111160202A (zh) * 2019-12-20 2020-05-15 万翼科技有限公司 基于ar设备的身份核验方法、装置、设备及存储介质
CN111259742A (zh) * 2020-01-09 2020-06-09 南京理工大学 基于深度学习的异常人群检测方法
CN111274977A (zh) * 2020-01-22 2020-06-12 中能国际建筑投资集团有限公司 多任务卷积神经网络模型及使用方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Task-Oriented Feature-Fused Network With Multivariate Dataset for Joint Face Analysis", 《IEEE TRANSACTIONS ON CYBERNETICS》, pages 1292 - 1305 *
刘意文: "基于深度学习的低分辨率人脸检测算法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, no. 01, pages 138 - 1842 *

Also Published As

Publication number Publication date
CN112818833B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN112446383B (zh) 车牌识别方法及装置、存储介质、终端
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN111402130B (zh) 数据处理方法和数据处理装置
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及***
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN112800964B (zh) 基于多模块融合的遥感影像目标检测方法及***
Zhou et al. Scale adaptive image cropping for UAV object detection
CN111860398B (zh) 遥感图像目标检测方法、***及终端设备
CN111652869B (zh) 基于深度学习的板坯空洞识别方法、***、介质及终端
WO2023116632A1 (zh) 基于时空记忆信息的视频实例分割方法和分割装置
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及***
CN112200191B (zh) 图像处理方法、装置、计算设备及介质
CN112434618A (zh) 基于稀疏前景先验的视频目标检测方法、存储介质及设备
CN112949520A (zh) 一种基于多尺度小样本的航拍车辆检测方法及检测***
CN116994236A (zh) 一种基于深度神经网络的低质图像车牌检测方法
CN111179212A (zh) 集成蒸馏策略和反卷积的微小目标检测片上实现方法
CN113963272A (zh) 一种基于改进yolov3的无人机图像目标检测方法
CN112634628B (zh) 一种车辆速度确定方法、终端及存储介质
CN113743346A (zh) 图像识别方法、装置、电子设备及存储介质
CN113284153A (zh) 卫星云层图像处理方法、装置、计算机设备和存储介质
CN111833363B (zh) 图像边缘和显著性检测方法及装置
US10832413B2 (en) Curvilinear object segmentation with geometric priors
CN116682076A (zh) 面向船舶***的多尺度目标检测方法、***及设备
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
CN116403127A (zh) 一种无人机航拍图像目标检测方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Building I, 15th Floor, Jinlong Center, 105 Xixinghai Road, New Port, Macau, China

Patentee after: China Energy International Development Investment Group Co.,Ltd.

Country or region after: ????

Address before: Building C, 7th Floor, Jinlong Center, 105 Xianxinghai Road, New Port, Macau, China

Patentee before: China Energy International Construction Investment Group Co.,Ltd.

Country or region before: ????

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240430

Address after: Room 4202, Building 2, No. 522 Duhui Road, Hengqin New District, Zhuhai City, Guangdong Province

Patentee after: Boyan Technology (Zhuhai) Co.,Ltd.

Country or region after: China

Address before: Building I, 15th Floor, Jinlong Center, 105 Xixinghai Road, New Port, Macau, China

Patentee before: China Energy International Development Investment Group Co.,Ltd.

Country or region before: ????

TR01 Transfer of patent right