CN111274977B - 多任务卷积神经网络模型及使用方法、装置和存储介质 - Google Patents

多任务卷积神经网络模型及使用方法、装置和存储介质 Download PDF

Info

Publication number
CN111274977B
CN111274977B CN202010074725.0A CN202010074725A CN111274977B CN 111274977 B CN111274977 B CN 111274977B CN 202010074725 A CN202010074725 A CN 202010074725A CN 111274977 B CN111274977 B CN 111274977B
Authority
CN
China
Prior art keywords
face
feature
key point
feature map
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010074725.0A
Other languages
English (en)
Other versions
CN111274977A (zh
Inventor
梁延研
林旭新
于晓渊
于春涛
杨琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boyan Technology Zhuhai Co ltd
Original Assignee
China Energy International High Tech Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Energy International High Tech Research Institute Co ltd filed Critical China Energy International High Tech Research Institute Co ltd
Priority to CN202010074725.0A priority Critical patent/CN111274977B/zh
Publication of CN111274977A publication Critical patent/CN111274977A/zh
Application granted granted Critical
Publication of CN111274977B publication Critical patent/CN111274977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多任务卷积神经网络模型,及使用所述模型同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法、装置及存储介质。所述模型中的区域提取模块能够检测输入图像中人脸边界框的位置,而关键点定位模块能够定位人脸关键点的坐标;并且,关键点定位模块通过使用全局管道注意力机制和全局空间注意力机制,能够让模型学习特征图的管道权值和空间权值,从而在不同的维度中挖掘出更具识别能力的特征和信息;使用所述模型同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法在各种非约束条件下,包括表情、姿态和遮挡,都可以获得精确的结果,且该方法简洁高效,更具有鲁棒性。本发明广泛应用于图像处理技术领域。

Description

多任务卷积神经网络模型及使用方法、装置和存储介质
技术领域
本发明涉及图像处理技术领域,尤其是一种多任务卷积神经网络模型,及使用所述模型同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法、装置及存储介质。
背景技术
人脸检测技术最初起源于人脸识别,是计算机视觉领域中一个核心并且历史悠久的研究分支,是人脸相关应用里至关重要的第一步。在近几十年里,人脸检测已经引起了人们的高度重视,被认为是图像分析中成功的应用之一。面孔是复杂的、多维的、有意义的视觉刺激,开发一个面部识别的计算模型是困难的。计算机通过运用一定的搜索匹配方法在给定的图像中检测出是否包含人脸,并确定人脸所在的具***置、大小、姿态的过程就是指人脸检测,同时其被认为是人脸相关研究应用的前提和基础,用它来辅助人们完成对生物特征的识别,将是一件具有重大研究价值和意义的事情。人脸检测是许多后续人脸分析相关应用的关键步骤,例如人脸对齐、人脸识别、人脸跟踪等。人脸检测效果的优劣对后续相关应用的性能起着决定性作用,它也属于目标检测的一种特定情况。人脸检测的最终目的就是在给定任意图像中判断是否有人脸的存在,若存在人脸,需要定位其具体的位置,并用矩形框示意。虽然这对于人类而言似乎是一项毫不费力的工作,但是于计算机来说,则是十分艰巨而又繁杂的,它不同于人的大脑神经,可以通过视网膜上的成像条件反射的进行分析,立马得出我们想要的结果。计算机要在输入的图像中搜索到人脸的具***置十分具有挑战性,由于每个人的相貌不同,人脸成像的角度,相关的挑战还可以归因于姿态、尺度、面部表情,遮挡和照明条件的变化,这些都给计算机的检测带来了极大的困难。随着环境应用的复杂化以及卷积神经网络的飞速发展,其在各种视觉任务中都有出色的表现,例如人脸识别,目标分类和物体检测。现有技术中,对于目标检测任务,通过R-CNN方法使用图像分割技术,选择性搜索,找到候选图像区域,并且使用AlexNet的版本对候选图像进行分类,调整PASCAL VOC数据集中的目标对象。目前,采用卷积神经网络结构进行人脸检测存在以下问题:一、现有的人脸检测算法大多采用滑动窗口的方法扫描图片,滑动窗口的数量过多容易导致计算量较大,从而影响检测速度;二、传统的卷积神经网络各网络层的权值均采用随机初始化的方式,容易造成网络收敛慢、训练时间长的问题;三、无法同时对输入图像中的人脸目标进行边界框检测和关键点定位。
发明内容
针对上述至少一个技术问题,本发明的目的在于提供一种多任务卷积神经网络模型,及使用所述模型同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法、装置及存储介质。
本发明所采取的技术方案是:一方面,本发明实施例包括一种多任务卷积神经网络模型,用于同时对输入图像中的人脸目标进行边界框检测和关键点定位,包括区域提取模块和关键点定位模块;
所述区域提取模块包含多个级联的卷积栈,每个所述卷积栈由多个卷积层组成,以分别输出不同语义的特征图;所述区域提取模块用于检测输入图像中人脸边界框的位置;
所述关键点定位模块包括第一子模块、第二子模块和第三子模块;
所述第一子模块用于执行任务间的特征融合,所述任务间的特征融合为根据所述区域提取模块检测到的人脸边界框的位置,提取相应的人脸特征图,并融合所述人脸特征图得到第一融合特征图;
所述第二子模块用于执行任务内的特征融合,所述任务内的特征融合为采用密集编码结构,将所述第一融合特征图进行连续编码,得到第二融合特征图;
所述第三子模块用于将所述第二融合特征图进行解码后,使用卷积算子对解码后的特征图进行编码,以输出相应的关键点热度图,并根据所述关键点热度图,定位关键点坐标。
进一步地,区域提取模块检测输入图像中人脸边界框的位置这一操作,具体包括:
区域提取模块获取输入图像;
经过多次并行卷积处理得到区域类别响应图,每个所述区域类别响应图对应多个区域位置响应图;
所述区域类别响应图中的每个像素点限定相应尺度的参考区域;
所述区域位置响应图修正相应参考区域的位置和大小;
检测得到输入图像中人脸边界框的位置。
进一步地,第一子模块执行任务间的特征融合这一操作,具体包括:
根据所述区域提取模块检测到的人脸边界框的位置,提取多幅相应的人脸特征图;
分别采用感兴趣区域对齐方法和L2标准化方法处理所述多幅相应的人脸特征图,以统一不同特征图的大小和量纲,并得到第一人脸特征图;
使用全局管道注意力机制,将所述第一人脸特征图进行管道加权处理,得到第二人脸特征图;
使用全局空间注意力机制,将所述第二人脸特征图进行空间维度加权处理,得到第一融合特征图。
进一步地,所述全局管道注意力机制是通过以下步骤执行的:
利用两个并行的分离式卷积过滤器,分别从水平方向和垂直方向对所述第一人脸特征图进行全局编码,得到一维特征图;
合并所述一维特征图;
进行卷积操作,以恢复所述一维特征图的管道维度;
通过sigmoid操作归一化相应的特征值,以生成匹配所述第一人脸特征图的管道权值;
根据所述管道权值,对所述第一人脸特征图的每个管道进行加权处理,得到第二人脸特征图。
进一步地,所述全局空间注意力机制是通过以下步骤执行的:
对所述第二人脸特征图进行边缘填充处理;
利用两个并行的分离式卷积过滤器,分别对边缘填充处理后的特征图进行全局编码;
合并编码后的特征图;
利用反卷积操作将合并得到的特征图进行空间维度恢复处理;
通过sigmoid操作归一化相应的特征值,以生成匹配所述第二人脸特征图的空间权值;
根据所述空间权值,对所述第二人脸特征图的每一个空间像素点进行加权处理,得到第一融合特征图。
进一步地,第二子模块包括多个组合单元,每个所述组合单元包括多个ReLU激活的卷积层;所述第二子模块执行任务内的特征融合这一操作,具体包括:
利用多个所述组合单元执行任务内的特征融合操作;
使用密集编码结构,所述密集编码结构为使用密集的跳转连接对目标组合单元进行中间特征融合,并输入到与目标组合单元相邻的下一个组合单元进行特征编码,所述目标组合单元为所述第二子模块中的任意一个组合单元;
根据所述密集编码结构,对所述第一融合特征图进行连续编码,得到第二融合特征图。
进一步地,根据所述关键点热度图,定位关键点坐标这一操作,具体包括:
获取每个关键点热度图里的目标像素点坐标,所述目标像素点坐标为预测概率值大于第一阈值的像素点坐标;
对所述目标像素点坐标进行加权平均计算,得到相应的关键点坐标。
另一方面,本发明实施例还包括一种同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法,该方法包括以下步骤:
获取人脸图像;
利用所述多任务卷积神经网络模型接收所述人脸图像并进行处理;
获取所述多任务卷积神经网络模型输出的人脸边界框的位置和关键点坐标。
另一方面,本发明实施例还包括一种同时对输入图像中的人脸目标进行边界框检测和关键点定位的装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行所述同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法。
另一方面,本发明实施例还包括一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法。
本发明的有益效果是:本发明提供一种多任务卷积神经网络模型,该模型包括区域提取模块和关键点定位模块;两个模块对输入的图像进行并行处理,以同时对输入图像中的人脸目标进行边界框检测和关键点定位;区域提取模块能够检测输入图像中人脸边界框的位置,而关键点定位模块能够定位人脸关键点的坐标;并且,关键点定位模块通过使用全局管道注意力机制和全局空间注意力机制,能够让模型学习特征图的管道权值和空间权值,从而在不同的维度中挖掘出更具识别能力的特征和信息;同时,关键点定位模块在执行任务内的特征融合时,通过使用密集跳转连接,使得不同感受野的特征图能够互相补足,从而能够捕捉到多尺度的上下文信息;且密集跳转连接的使用使得组合单元里的每个卷积层至少有一条最短梯度路径连接到最后的输出层,从而有效地改善了梯度流动;使用所述模型同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法在各种非约束条件下,包括表情、姿态和遮挡,都可以获得精确的结果,且该方法简洁高效,更具有鲁棒性。
附图说明
图1为发明实施例中所述多任务卷积神经网络模型的框架图;
图2为发明实施例中所述全局管道注意力机制的原理图;
图3为发明实施例中所述全局空间注意力机制的原理图;
图4为本发明实施例中所述任务内的特征融合的方法示意图。
具体实施方式
本实施例中,主要使用多任务卷积神经网络模型来同时对输入图像中的人脸目标进行边界框检测和关键点定位,参照图1,所述多任务卷积神经网络模型包括区域提取模块和关键点定位模块;
所述区域提取模块包含多个级联的卷积栈,每个所述卷积栈由多个卷积层组成,以分别输出不同语义的特征图;所述区域提取模块用于检测输入图像中人脸边界框的位置;
所述关键点定位模块包括第一子模块、第二子模块和第三子模块;
所述第一子模块用于执行任务间的特征融合,所述任务间的特征融合为根据所述区域提取模块检测到的人脸边界框的位置,提取相应的人脸特征图,并融合所述人脸特征图得到第一融合特征图;
所述第二子模块用于执行任务内的特征融合,所述任务内的特征融合为采用密集编码结构,将所述第一融合特征图进行连续编码,得到第二融合特征图;
所述第三子模块用于将所述第二融合特征图进行解码后,使用卷积算子对解码后的特征图进行编码,以输出相应的关键点热度图,并根据所述关键点热度图,定位关键点坐标。
本实施例中,区域提取模块是一个单阶段目标检测网络,它采用了经典的VGG16模型作为网络骨架,该骨架包含了五个级联的卷积栈,每个卷积栈由若干个卷积层组成,分别输出不同语义的特征图。关键点定位模块是一个基于区域的全卷积网络,通过使用密集跳转连接,能够共享区域提取模块里的大部分卷积层,对于非共享部分,本实施例中设计了两个特征融合子模块,即第一子模块和第二子模块,分别用于处理任务间的特征融合和任务内的特征融合,以及设计了第三子模块,用于将所述第二子模块处理得到的融合特征图进行解码后,使用卷积算子对解码后的特征图进行编码,以输出相应的关键点热度图,然后利用位置重加权策略,根据关键点热度图,定位出相应的关键点坐标向量。
进一步作为可选的实施方式,区域提取模块检测输入图像中人脸边界框的位置这一操作,具体包括:
区域提取模块获取输入图像;
经过多次并行卷积处理得到区域类别响应图,每个所述区域类别响应图对应多个区域位置响应图;
所述区域类别响应图中的每个像素点限定相应尺度的参考区域;
所述区域位置响应图修正相应参考区域的位置和大小;
检测得到输入图像中人脸边界框的位置。
本实施例中,输入一张图片到区域提取模块,经过网络骨架和后续的三个卷积层的并行卷积处理,得到区域类别响应图以及区域位置响应图,区域类别响应图里的每个像素点代表了一个特定尺度的参考区域,当值越大时,参考区域成为人脸区域的置信度越高,每个区域类别响应图对应了四个区域位置响应图,分别用于修正参考区域的位置和大小,通过修正,可以获得相应的人脸边界框的位置。
本实施例中,关键点定位模块中的第一子模块执行任务间的特征融合过程,具体包括:
根据所述区域提取模块检测到的人脸边界框的位置,提取多幅相应的人脸特征图;
分别采用感兴趣区域对齐方法和L2标准化方法处理所述多幅相应的人脸特征图,以统一不同特征图的大小和量纲,并得到第一人脸特征图;
使用全局管道注意力机制,将所述第一人脸特征图进行管道加权处理,得到第二人脸特征图;
使用全局空间注意力机制,将所述第二人脸特征图进行空间维度加权处理,得到第一融合特征。
本实施例中,根据人脸边界框的位置,模型从区域提取模块里的网络骨架中提取相应的人脸特征图并将它们合并。这些特征图取自最后三个卷积栈的所有卷积层,代表了不同的语义信息。为了统一不同特征图的大小和量纲,分别采用感兴趣区域(RoI)对齐方法和L2标准化操作来处理。进一步地,使用全局管道注意力机制和全局空间注意力机制让多任务卷积神经网络模型学习特征图的管道权值和空间权值,从而在不同的维度中挖掘出更具识别能力的特征和信息。其中,所述全局管道注意力机制是通过以下步骤执行的:
利用两个并行的分离式卷积过滤器,分别从水平方向和垂直方向对所述第一人脸特征图进行全局编码,得到一维特征图;
合并所述一维特征图;
进行卷积操作,以恢复所述一维特征图的管道维度;
通过sigmoid操作归一化相应的特征值,以生成匹配所述第一人脸特征图的管道权值;
根据所述管道权值,对所述第一人脸特征图的每个管道进行加权处理,得到第二人脸特征图。
本实施例中,全局管道注意力机制原理如图2所示,合并后的特征图维度为3840×14×14,它们将经过两个并行的分离式卷积过滤器,每个过滤器包含了两个卷积操作,分别从水平方向和垂直方向对合并后的特征图进行全局编码,即设定卷积核大小为14×1或1×14。在编码过程中,管道维度由3840降到128,空间维度由14×14缩小到1×1,合并后得到256×1×1的一维特征图。为了生成匹配输入特征图的管道权值,也就是合并后的特征图的管道权值,通过卷积操作将所述256×1×1的一维特征图恢复管道维度,并通过sigmoid操作归一化相应的特征值。最后,生成的管道权值将被用于输入特征图的每个管道,得到第二人脸特征图,从而改善特征的识别能力。
进一步地,所述全局空间注意力机制是通过以下步骤执行的:
对所述第二人脸特征图进行边缘填充处理;
利用两个并行的分离式卷积过滤器,分别对边缘填充处理后的特征图进行全局编码;
合并编码后的特征图;
利用反卷积操作将合并得到的特征图进行空间维度恢复处理;
通过sigmoid操作归一化相应的特征值,以生成匹配所述第二人脸特征图的空间权值;
根据所述空间权值,对所述第二人脸特征图的每一个空间像素点进行加权处理,得到第一融合特征图。
本实施例中,全局空间注意力机制原理如图3所示,经过管道加权后的特征图,也就是所述第二人脸特征图,将通过全局空间注意力机制进行空间维度加权。具体的,输入特征图的维度为3840×14×14,它们首先经过两个并行的分离式卷积过滤器,每个过滤器包含了卷积核大小为14×1和1×14的两个卷积操作。由于在原尺度的特征图进行全局编码会导致空间维度降低,从而损害特征的空间信息,因此,在全局编码前对输入特征图先进行pad=3的边缘填充,使得编码后的空间维度为7×7,这样既保留了必要的空间信息,又不影响输入特征图的全局视野,接着,使用一个卷积核大小为8×8的反卷积操作将编码后的特征图的管道维度从256降到1,并恢复它的空间维度为14×14,通过sigmoid的归一化操作,获得了输入特征图的空间权值,这些空间权值将被用于输入特征图的每一个空间像素点,得到第一融合特征图,从而进一步改善它的识别能力。
本实施例中,关键点定位模块中的第二子模块包括多个组合单元,每个所述组合单元包括多个ReLU激活的卷积层;所述第二子模块执行任务内的特征融合这一操作,具体包括:
利用多个所述组合单元执行任务内的特征融合操作;
使用密集编码结构,所述密集编码结构为使用密集的跳转连接对目标组合单元进行中间特征融合,并输入到与目标组合单元相邻的下一个组合单元进行特征编码,所述目标组合单元为所述第二子模块中的任意一个组合单元;
根据所述密集编码结构,对所述第一融合特征图进行连续编码,得到第二融合特征图。
本实施例中,经过任务间的特征融合后,新的特征图(第一融合特征图)将进行任务内的特征融合。如图4所示,定义了三个带ReLU激活的卷积操作为一个组合单元,它们的卷积核大小设为3×3,可以对输入的特征图(第一融合特征图)进行连续编码并保持着逐渐增大的感受野。传统的栈式编码结构只保留单一的梯度流向,随着组合单元的叠加,梯度将逐渐衰弱,从而影响网络的训练效率。为了解决这个问题,本实施例使用了密集编码结构,即使用密集的跳转连接对先前的组合单元进行中间特征融合,并输入到下一个组合单元进行特征编码。在这个过程中,不同感受野的特征图互相补足,从而能够捕捉到多尺度的上下文信息。此外,密集跳转连接的使用使得组合单元里的每个卷积层至少有一条最短梯度路径连接到最后的输出层,从而有效地改善了梯度流动。
本实施例中,关键点定位模块中的第三子模块用于将第二年子模块处理得到的第二融合特征图进行解码后,使用卷积算子对解码后的特征图进行编码,以输出相应的关键点热度图,并根据所述关键点热度图,定位关键点坐标。其中,根据所述关键点热度图,定位关键点坐标这一操作,具体包括:
获取每个关键点热度图里的目标像素点坐标,所述目标像素点坐标为预测概率值大于第一阈值的像素点坐标;
对所述目标像素点坐标进行加权平均计算,得到相应的关键点坐标。
本实施例中,在任务间的特征融合和任务内的特征融合后,得到的第二融合特征图将通过卷积核大小为2×2或10×10的三个级联的反卷积操作进行逐步解码,使得空间维度由14×14扩展为120×120,再使用卷积算子对解码后的特征图进行编码并输出维度为N×1×1的关键点热度图,这里的N表示人脸关键点的个数。在后处理阶段,采用一种位置重加权方案,即对每个关键点热度图里预测概率大于0.5的像素点坐标进行加权平均计算,这里的0.5为所述第一阈值,从而得到最终的关键点坐标。具体做法如下:当预测到某一关键点,如果相应热度图里符合要求的像素点有三个,它们的预测值分别为0.6,0.7和0.9,坐标分别为(10,10),(20,20)和(30,30),那么最终的关键点坐标为:[0.6×(10,10)+0.7×(20,20)+0.9×(30,30)]/(0.6+0.7+0.9)≈(21.36,21.36)。相较于直接取最大峰值的像素点坐标作为关键点的做法,该方案得到的结果更具鲁棒性。
综上所述,本发明实施例中所述使用多任务卷积神经网络模型同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法具有以下优点:
任务卷积神经网络模型包括区域提取模块和关键点定位模块;两个模块对输入的图像进行并行处理,以同时对输入图像中的人脸目标进行边界框检测和关键点定位;区域提取模块能够检测输入图像中人脸边界框的位置,而关键点定位模块能够定位人脸关键点的坐标;并且,关键点定位模块通过使用全局管道注意力机制和全局空间注意力机制,能够让模型学习特征图的管道权值和空间权值,从而在不同的维度中挖掘出更具识别能力的特征和信息;同时,关键点定位模块在执行任务内的特征融合时,通过使用密集跳转连接,使得不同感受野的特征图能够互相补足,从而捕捉到多尺度的上下文信息;且密集跳转连接的使用使得组合单元里的每个卷积层至少有一条最短梯度路径连接到最后的输出层,从而有效地改善了梯度流动;使用所述模型同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法在各种非约束条件下,包括表情、姿态和遮挡,都可以获得精确的结果,且该方法简洁高效,更具有鲁棒性。
本实施例还包括一种同时对输入图像中的人脸目标进行边界框检测和关键点定位的装置,该装置可以包括处理器和存储器。其中,
存储器用于存储程序指令;
处理器用于读取存储器中的程序指令,并根据存储器中的程序指令执行实施例所示的同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法。
所述存储器还可以单独生产出来,并用于存储与所述同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法相应的计算机程序。当这个存储器与处理器连接时,其存储的计算机程序将被处理器读取出来并执行,从而实施所述同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法,达到实施例中所述的技术效果。
本实施例还包括一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,在所述计算机程序被处理器执行时,执行实施例所示同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三、第四等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本实施例描述的过程的操作,除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本实施例所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims (7)

1.一种多任务卷积神经网络模型,用于同时对输入图像中的人脸目标进行边界框检测和关键点定位,其特征在于,包括区域提取模块和关键点定位模块;
所述区域提取模块包含多个级联的卷积栈,每个所述卷积栈由多个卷积层组成,以分别输出不同语义的特征图;所述区域提取模块用于检测输入图像中人脸边界框的位置;
所述关键点定位模块包括第一子模块、第二子模块和第三子模块;
所述第一子模块用于执行任务间的特征融合,所述任务间的特征融合为根据所述区域提取模块检测到的人脸边界框的位置,提取相应的人脸特征图,并融合所述人脸特征图得到第一融合特征图;
所述第二子模块用于执行任务内的特征融合,所述任务内的特征融合为采用密集编码结构,将所述第一融合特征图进行连续编码,得到第二融合特征图;
所述第三子模块用于将所述第二融合特征图进行解码后,使用卷积算子对解码后的特征图进行编码,以输出相应的关键点热度图,并根据所述关键点热度图,定位关键点坐标;
第一子模块执行任务间的特征融合这一操作,具体包括:
根据所述区域提取模块检测到的人脸边界框的位置,提取多幅相应的人脸特征图;
分别采用感兴趣区域对齐方法和L2标准化方法处理所述多幅相应的人脸特征图,以统一不同特征图的大小和量纲,并得到第一人脸特征图;
使用全局管道注意力机制,将所述第一人脸特征图进行管道加权处理,得到第二人脸特征图;
使用全局空间注意力机制,将所述第二人脸特征图进行空间维度加权处理,得到第一融合特征图;
所述全局管道注意力机制是通过以下步骤执行的:
利用两个并行的分离式卷积过滤器,分别从水平方向和垂直方向对所述第一人脸特征图进行全局编码,得到一维特征图;
合并所述一维特征图;
进行卷积操作,以恢复所述一维特征图的管道维度;
通过sigmoid操作归一化相应的特征值,以生成匹配所述第一人脸特征图的管道权值;
根据所述管道权值,对所述第一人脸特征图的每个管道进行加权处理,得到第二人脸特征图;
所述全局空间注意力机制是通过以下步骤执行的:
对所述第二人脸特征图进行边缘填充处理;
利用两个并行的分离式卷积过滤器,分别对边缘填充处理后的特征图进行全局编码;
合并编码后的特征图;
利用反卷积操作将合并得到的特征图进行空间维度恢复处理;
通过sigmoid操作归一化相应的特征值,以生成匹配所述第二人脸特征图的空间权值;
根据所述空间权值,对所述第二人脸特征图的每一个空间像素点进行加权处理,得到第一融合特征图。
2.根据权利要求1所述的一种多任务卷积神经网络模型,其特征在于,区域提取模块检测输入图像中人脸边界框的位置这一操作,具体包括:
区域提取模块获取输入图像;
经过多次并行卷积处理得到区域类别响应图,每个所述区域类别响应图对应多个区域位置响应图;
所述区域类别响应图中的每个像素点限定相应尺度的参考区域;
所述区域位置响应图修正相应参考区域的位置和大小;
检测得到输入图像中人脸边界框的位置。
3.根据权利要求1所述的一种多任务卷积神经网络模型,其特征在于,第二子模块包括多个组合单元,每个所述组合单元包括多个ReLU激活的卷积层;所述第二子模块执行任务内的特征融合这一操作,具体包括:
利用多个所述组合单元执行任务内的特征融合操作;
使用密集编码结构,所述密集编码结构为使用密集的跳转连接对目标组合单元进行中间特征融合,并输入到与目标组合单元相邻的下一个组合单元进行特征编码,所述目标组合单元为所述第二子模块中的任意一个组合单元;
根据所述密集编码结构,对所述第一融合特征图进行连续编码,得到第二融合特征图。
4.根据权利要求1所述的一种多任务卷积神经网络模型,其特征在于,根据所述关键点热度图,定位关键点坐标这一操作,具体包括:
获取每个关键点热度图里的目标像素点坐标,所述目标像素点坐标为预测概率值大于第一阈值的像素点坐标;
对所述目标像素点坐标进行加权平均计算,得到相应的关键点坐标。
5.一种同时对输入图像中的人脸目标进行边界框检测和关键点定位的方法,其特征在于,包括:
获取人脸图像;
利用权利要求1-4任一项所述多任务卷积神经网络模型接收所述人脸图像并进行处理;
获取所述多任务卷积神经网络模型输出的人脸边界框的位置和关键点坐标。
6.一种同时对输入图像中的人脸目标进行边界框检测和关键点定位的装置,其特征在于,
包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求5所述的方法。
7.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求5所述的方法。
CN202010074725.0A 2020-01-22 2020-01-22 多任务卷积神经网络模型及使用方法、装置和存储介质 Active CN111274977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010074725.0A CN111274977B (zh) 2020-01-22 2020-01-22 多任务卷积神经网络模型及使用方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010074725.0A CN111274977B (zh) 2020-01-22 2020-01-22 多任务卷积神经网络模型及使用方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN111274977A CN111274977A (zh) 2020-06-12
CN111274977B true CN111274977B (zh) 2023-05-23

Family

ID=71003490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010074725.0A Active CN111274977B (zh) 2020-01-22 2020-01-22 多任务卷积神经网络模型及使用方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN111274977B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652878B (zh) * 2020-06-16 2022-09-23 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机设备及存储介质
CN113780040A (zh) * 2020-06-19 2021-12-10 北京沃东天骏信息技术有限公司 唇部关键点的定位方法及装置、存储介质、电子设备
CN111881743B (zh) * 2020-06-23 2024-06-07 安徽清新互联信息科技有限公司 一种基于语义分割的人脸特征点定位方法
CN111783596B (zh) * 2020-06-24 2021-08-13 北京百度网讯科技有限公司 人脸识别模型的训练方法、装置、电子设备及存储介质
CN112084911B (zh) * 2020-08-28 2023-03-07 安徽清新互联信息科技有限公司 一种基于全局注意力的人脸特征点定位方法及***
CN112183547A (zh) * 2020-10-19 2021-01-05 中国科学院计算技术研究所 基于多模态数据的多任务学习方法及***
CN112348892A (zh) * 2020-10-29 2021-02-09 上海商汤智能科技有限公司 点定位方法及相关装置、设备
CN114529731B (zh) * 2020-10-30 2024-07-12 北京眼神智能科技有限公司 人脸特征点定位及属性分析方法、装置、存储介质及设备
CN112464865A (zh) * 2020-12-08 2021-03-09 北京理工大学 一种基于像素和几何混合特征的人脸表情识别方法
CN112597837B (zh) 2020-12-11 2024-05-28 北京百度网讯科技有限公司 图像检测方法、装置、设备、存储介质和计算机程序产品
CN112818833B (zh) * 2021-01-29 2024-04-12 中能国际建筑投资集团有限公司 基于深度学习的人脸多任务检测方法、***、装置及介质
CN113158791B (zh) * 2021-03-15 2022-08-16 上海交通大学 一种以人为中心的图像描述标注方法、***、终端及介质
CN113111804B (zh) * 2021-04-16 2024-06-04 贝壳找房(北京)科技有限公司 一种人脸检测的方法、装置、电子设备及存储介质
CN113469111A (zh) * 2021-07-16 2021-10-01 中国银行股份有限公司 图像关键点检测方法及***、电子设备、存储介质
CN116912884B (zh) * 2023-07-21 2024-03-19 北京优创新港科技股份有限公司 一种人体关键点检测方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657595A (zh) * 2018-12-12 2019-04-19 中山大学 基于堆叠沙漏网络的关键特征区域匹配人脸识别方法
CN109685023A (zh) * 2018-12-27 2019-04-26 深圳开立生物医疗科技股份有限公司 一种超声图像的面部关键点检测方法及相关装置
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110334587A (zh) * 2019-05-23 2019-10-15 北京市威富安防科技有限公司 人脸关键点定位模型的训练方法、装置及关键点定位方法
CN110533721A (zh) * 2019-08-27 2019-12-03 杭州师范大学 一种基于增强自编码器的室内目标物体6d姿态估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657595A (zh) * 2018-12-12 2019-04-19 中山大学 基于堆叠沙漏网络的关键特征区域匹配人脸识别方法
CN109685023A (zh) * 2018-12-27 2019-04-26 深圳开立生物医疗科技股份有限公司 一种超声图像的面部关键点检测方法及相关装置
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110334587A (zh) * 2019-05-23 2019-10-15 北京市威富安防科技有限公司 人脸关键点定位模型的训练方法、装置及关键点定位方法
CN110533721A (zh) * 2019-08-27 2019-12-03 杭州师范大学 一种基于增强自编码器的室内目标物体6d姿态估计方法

Also Published As

Publication number Publication date
CN111274977A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274977B (zh) 多任务卷积神经网络模型及使用方法、装置和存储介质
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
US10769496B2 (en) Logo detection
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
US20180114071A1 (en) Method for analysing media content
CN111199230B (zh) 目标检测的方法、装置、电子设备及计算机可读存储介质
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
Xu et al. Effective face detector based on yolov5 and superresolution reconstruction
CN109543548A (zh) 一种人脸识别方法、装置及存储介质
CN114787865A (zh) 轻追踪:用于在线自顶向下人体姿态追踪的***和方法
CN111428664B (zh) 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法
CN112381061B (zh) 一种面部表情识别方法及***
KR20220076398A (ko) Ar장치를 위한 객체 인식 처리 장치 및 방법
CN108154130B (zh) 一种目标图像的检测方法、装置及存储介质、机器人
JP2013206458A (ja) 画像における外観及びコンテキストに基づく物体分類
CN108109164B (zh) 一种信息处理方法及电子设备
CN116343287A (zh) 面部表情识别、模型训练方法、装置、设备及存储介质
CN115050045A (zh) 一种基于Vision MLP的行人重识别方法
CN114930409A (zh) 多任务人脸检测器和特征点检测器
CN113111804B (zh) 一种人脸检测的方法、装置、电子设备及存储介质
Tian et al. BAN, a barcode accurate detection network
Harish et al. New features for webcam proctoring using python and opencv
CN112580395A (zh) 基于深度信息的3d人脸活体识别方法、***、设备及介质
CN113837015A (zh) 一种基于特征金字塔的人脸检测方法及***
CN113128289B (zh) 人脸识别的特征提取计算方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liang Yanyan

Inventor after: Lin Xuxin

Inventor after: Yu Xiaoyuan

Inventor after: Yu Chuntao

Inventor after: Yang Linlin

Inventor before: Liang Yanyan

Inventor before: Lin Xuxin

Inventor before: Yu Xiaoyuan

CB03 Change of inventor or designer information
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Tower C, 7 / F, Jinlong center, 105 xianxinghai Road, new port, Macau, China

Applicant after: China Energy International Development Investment Group Co.,Ltd.

Address before: Tower C, 7 / F, Jinlong center, 105 xianxinghai Road, new port, Macau, China

Applicant before: China Energy International Construction Investment Group Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230510

Address after: A18, Jinlong Center, 105 Xianxinghai Road, New Port, Macau, China

Applicant after: China Energy International High tech Research Institute Co.,Ltd.

Address before: Tower C, 7 / F, Jinlong center, 105 xianxinghai Road, new port, Macau, China

Applicant before: China Energy International Development Investment Group Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20240409

Address after: Room 4202, Building 2, No. 522 Duhui Road, Hengqin New District, Zhuhai City, Guangdong Province

Patentee after: Boyan Technology (Zhuhai) Co.,Ltd.

Country or region after: China

Address before: A18, Jinlong Center, 105 Xianxinghai Road, New Port, Macau, China

Patentee before: China Energy International High tech Research Institute Co.,Ltd.

Country or region before: ????

TR01 Transfer of patent right