CN113642545B - 一种基于多任务学习的人脸图像处理方法 - Google Patents

一种基于多任务学习的人脸图像处理方法 Download PDF

Info

Publication number
CN113642545B
CN113642545B CN202111200961.3A CN202111200961A CN113642545B CN 113642545 B CN113642545 B CN 113642545B CN 202111200961 A CN202111200961 A CN 202111200961A CN 113642545 B CN113642545 B CN 113642545B
Authority
CN
China
Prior art keywords
face
information
frame
vector
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111200961.3A
Other languages
English (en)
Other versions
CN113642545A (zh
Inventor
张小亮
王秀贞
戚纪纲
杨占金
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Superred Technology Co Ltd
Original Assignee
Beijing Superred Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Superred Technology Co Ltd filed Critical Beijing Superred Technology Co Ltd
Priority to CN202111200961.3A priority Critical patent/CN113642545B/zh
Publication of CN113642545A publication Critical patent/CN113642545A/zh
Application granted granted Critical
Publication of CN113642545B publication Critical patent/CN113642545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开公开了一种基于多任务学习的人脸图像处理方法,该方法包括步骤:利用人脸多任务模型对当前帧图像进行处理,包括:经人脸多任务模型的人脸检测组件,输出人脸框位置信息;经人脸多任务模型的人脸关键点提取组件,输出人脸关键点位置信息;经人脸多任务模型的重识别组件,输出人脸重识别信息;基于人脸框位置信息和所述人脸重识别信息,与上一帧中的人脸进行匹配,以确定当前帧所检测出的人脸的人脸标识。本公开一并公开了训练生成该人脸多任务模型的方法。

Description

一种基于多任务学习的人脸图像处理方法
技术领域
本公开涉及图像处理技术领域,尤其涉及基于多任务学习的人脸图像处理方法。
背景技术
当前,人脸检测技术、人脸关键点检测技术、人脸追踪技术的业务范围、应用场景均很广泛,但将三种任务通过一个模型,进行端到端处理的方法几乎没有。现有的业务解决方案,基本上是使用训练好的人脸检测模型,检测出视频图像中的人脸;随后,输入到训练好的人脸关键点检测模型中,输出人脸关键点,以解决人脸关键点检测任务。或者,将人脸检测模型的输出接入人脸追踪特征提取模型中,输出人脸标识(人脸ID),以解决人脸追踪任务。也就是说,通过级联连接各种网络模型,是当前业务的大多数解决方案。但这种处理方式存在明显的缺点,即,针对人脸检测任务、人脸关键点检测任务、人脸追踪任务,需训练至少三个网络模型。相应地,需要预先制作三种数据集标签,分别用于训练这三种网络模型;并且,在网络推理过程中,需经过三个基础网络以用于人脸特征提取,网络结构冗余且处理耗时。
因此,需要一种基于多任务学习的人脸图像处理方案。
发明内容
为此,本公开提供了一种基于多任务学习的人脸图像处理方法,以力图解决或至少缓解上面存在的问题。
根据本公开的第一个方面,提供了一种训练生成人脸多任务模型的方法,包括步骤:获取多个人脸图像及其对应的人脸标签,其中人脸标签包括:人脸标识、归一化后的人脸框信息、归一化后的人脸关键点信息;对人脸标签进行处理,生成人脸标签数据,包括:基于归一化后的人脸框信息,生成与人脸位置相关的第一向量、第二向量、第三向量;基于归一化后的人脸关键点信息,生成与人脸关键点位置相关的第四向量;基于人脸标识,生成与人脸标识相关的第五向量;将人脸图像输入人脸多任务模型进行处理,得到人脸预测数据;基于人脸标签数据与所输出的人脸预测数据,对人脸多任务模型进行分支训练,并在损失函数收敛时,训练结束,将所对应的人脸多任务模型,作为最终生成的人脸多任务模型。
可选地,在根据本公开的方法中,人脸多任务模型包括耦接的特征提取组件、人脸检测组件、人脸关键点提取组件和重识别组件;以及将人脸图像输入人脸多任务模型进行处理,得到人脸预测数据的步骤包括:将人脸图像输入特征提取组件,经处理后输出人脸特征图;将人脸特征图输入人脸检测组件,经处理后输出人脸中心位置预测信息、人脸宽度预测信息、人脸中心偏差预测信息;将人脸特征图输入人脸关键点提取组件,经处理后输出人脸关键点预测位置;将人脸特征图输入重识别组件,经处理后输出人脸重识别预测信息;将人脸中心位置预测信息、人脸宽度预测信息、人脸中心偏差预测信息、人脸关键点预测位置、人脸重识别预测信息,作为人脸预测数据。
可选地,在根据本公开的方法中,人脸标签数据与所输出的人脸预测数据,对人脸多任务模型进行分支训练的步骤包括:基于第一向量和人脸中心位置预测信息,以第一方式计算第一损失;基于第二向量、第三向量和人脸宽度预测信息、人脸中心偏差预测信息,以第二方式计算第二损失;基于第四向量和人脸关键点预测位置,以第三方式计算第三损失;结合第一损失、第二损失和第三损失,训练特征提取组件、人脸检测组件和人脸关键点提取组件,直到满足预定条件时,冻结特征提取组件、人脸检测组件和人脸关键点提取组件;基于第五向量和人脸重识别预测信息,以第四方式计算第四损失;利用第四损失,训练重识别组件,直到满足预定条件时,训练结束,将所对应的人脸多任务模型,作为最终生成的人脸多任务模型。
可选地,在根据本公开的方法中,基于归一化后的人脸框信息,生成与人脸位置相关的第一向量的步骤包括:利用归一化后的人脸框信息,确定高斯半径;结合高斯半径和归一化后的人脸框信息,确定高斯分布图;基于高斯分布图,生成第一向量。
可选地,在根据本公开的方法中,利用归一化后的人脸框信息,确定高斯半径的步骤包括:基于预测人脸框与标签人脸框的位置关系,分别计算指示人脸框位置的热图对应的高斯半径;从所计算出的高斯半径中选取最小值,作为高斯半径。
可选地,在根据本公开的方法中,基于归一化后的人脸框信息,生成与人脸位置相关的第二向量的步骤包括:基于归一化后的人脸框信息,计算归一化后的人脸中心点距离各人脸框的边的垂直距离;基于各垂直距离,生成第二向量。
可选地,在根据本公开的方法中,获取多个人脸图像及其对应的人脸标签的步骤还包括:获取多个人脸图像及其对应的初始人脸标签,其中初始人脸标签包括:人脸标识、初始人脸框信息、初始人脸关键点信息;基于人脸图像的宽和高,对初始人脸框信息和初始人脸关键点信息进行处理,得到归一化后的人脸框信息和归一化后的人脸关键点信息。
可选地,在根据本公开的方法中,基于归一化后的人脸框信息,生成与人脸位置相关的第三向量的步骤包括:将初始人脸框的中心点坐标转换为整型坐标,并记作转换后中心点坐标;计算初始人脸框的中心点坐标与转换后中心点坐标的差值;基于所述差值生成第三向量。
可选地,在根据本公开的方法中,基于归一化后的人脸关键点信息,生成与人脸关键点位置相关的第四向量的步骤包括:结合各人脸关键点信息及预设高斯半径,分别确定高斯分布图;基于各高斯分布图,确定第四向量。
根据本公开的第二个方面,提供了一种基于多任务学习的人脸图像处理方法,包括步骤:利用人脸多任务模型对当前帧图像进行处理,包括:经人脸多任务模型的人脸检测组件,输出人脸框位置信息;经人脸多任务模型的人脸关键点提取组件,输出人脸关键点位置信息;经人脸多任务模型的重识别组件,输出人脸重识别信息;基于人脸框位置信息和所述人脸重识别信息,与上一帧中的人脸进行匹配,以确定当前帧所检测出的人脸的人脸标识,其中,人脸多任务模型通过执行如上所述的方法来生成。
可选地,在根据本公开的方法中,基于人脸框位置信息和人脸重识别信息,与上一帧中的人脸进行匹配,以确定当前帧所检测出的人脸的人脸标识的步骤包括:确定人脸框位置信息与预测人脸框的匹配度,作为第一匹配值;对人脸重识别信息和上一帧的人脸重识别信息进行特征匹配,以得到第二匹配值;通过多人脸关联匹配,来得到第三匹配值;将当前帧未匹配的人脸框与上一帧的人脸框进行匹配,以得到第四匹配值;结合第一匹配值、第二匹配值、第三匹配值和第四匹配值,确定出当前帧中所检测出的人脸的人脸标识。
可选地,在根据本公开的方法中,确定人脸框位置信息与预测人脸框的匹配度,作为第一匹配值的步骤,还包括:基于上一帧图像的人脸框位置信息,生成预测人脸框。
根据本公开的第三个方面,提供了一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,当程序指令被处理器读取并执行时,使得计算设备执行上述方法。
根据本公开的第四个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得计算设备执行上述方法。
根据本公开的技术方案,对用于训练的人脸图像进行标注,并基于标注数据生成人脸标签。在训练人脸多任务模型时,对人脸标签进行处理,生成对应的人脸标签数据,用于对人脸多任务模型的各组件进行训练。因此,仅需制作一次用于训练的人脸标签,即可实现对多种人脸图像处理任务的学习。
此外,人脸多任务模型仅需经过一个基础结构用于特征提取(即,特征提取组件),相较于现有方案中采用多种网络级联的方案,本公开的人脸多任务模型更加简单,网络推理节省时间和空间。
此外,在基于人脸多任务模型得到视频图像中的人脸框位置信息、人脸关键点位置信息和人脸重识别信息后,结合多种方式来确定当前帧与上一帧的人脸匹配度,以实现人脸追踪。相比于直接用ReID结果进行关联匹配或者单纯地预测人脸轨迹,本方案能够减少人脸标识跳换的次数。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本公开一个实施例的计算设备100的示意图;
图2示出了根据本公开一个实施例的训练生成人脸多任务模型的方法200的流程示意图;
图3至图5分别示出了根据本公开一些实施例的预测人脸框与标签人脸框的位置关系的示意图;
图6示出了根据本公开一个实施例的人脸多任务模型600的结构示意图;
图7示出了根据本公开一个实施例的特征提取组件610的结构示意图;
图8示出了根据本公开一个实施例的人脸检测组件620的结构示意图;
图9示出了根据本公开一个实施例的人脸关键点提取组件630的结构示意图;
图10示出了根据本公开一个实施例的重识别组件640的结构示意图;
图11示出了根据本公开一些实施例的基于多任务学习的人脸图像处理方法1100的流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
针对现有技术中存在的问题,本公开提供了一种基于多任务学习的人脸图像处理方案。首先,将获取的视频图像帧输入到人脸多任务模型中进行处理,以检测出视频图像帧中的人脸并输出人脸位置信息、人脸关键点位置信息,及人脸重识别(ReID)预测信息。在一种实施例中,检测出的人脸用人脸框来表示,人脸位置信息至少包括人脸框位置信息(如,人脸框的中心点的位置、人脸框的四个角点的位置等)、人脸框的尺寸信息(如,人脸框的宽高、人脸框中心点距离人脸框的边的距离等)等。之后,基于人脸框位置信息和人脸重识别预测信息,确定出当前帧所检测出的人脸的人脸标识(人脸ID),以达到人脸追踪的效果。
相应地,本公开还提供了该人脸多任务模型的训练方法。首先,采集人脸图像及其对应的人脸标签,并生成数据集标签。之后,将人脸图像输入到所构建的人脸多任务模型中进行处理,以生成预测数据。通过计算预测数据和数据集标签的损失值,来对人脸多任务模型进行分支训练,以得到训练好的人脸多任务模型。
根据本公开的实施方式,通过计算设备来执行生成人脸多任务模型的方法及基于多任务学习的人脸图像处理方法。图1是示例性的计算设备100的构造图。
如图1所示,在基本配置102中,计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(µP)、微控制器(µC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,***存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM,磁盘中的数据需要加载至物理内存中才能够被处理器104读取。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用222可以布置为在操作***上由一个或多个处理器104利用程序数据124执行指令。操作***120例如可以是Linux、Windows等,其包括用于处理基本***服务以及执行依赖于硬件的任务的程序指令。应用122包括用于实现各种用户期望的功能的程序指令,应用122例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等,但不限于此。当应用122被安装到计算设备100中时,可以向操作***120添加驱动模块。
在计算设备100启动运行时,处理器104会从存储器106中读取操作***120的程序指令并执行。应用122运行在操作***120之上,利用操作***120以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用122时,应用122会加载至存储器106中,处理器104从存储器106中读取并执行应用122的程序指令。
计算设备100还包括存储设备132,存储设备132包括可移除存储器136和不可移除存储器138,可移除存储器136和不可移除存储器138均与存储接口总线134连接。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器153或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100还包括与总线/接口控制器130相连的存储接口总线134。存储接口总线134与存储设备132相连,存储设备132适于进行数据存储。示例的存储设备132可以包括可移除存储器136(例如CD、DVD、U盘、可移动硬盘等)和不可移除存储器138(例如硬盘驱动器HDD等)。
在根据本公开的计算设备100中,应用122包括用于执行本公开的训练生成人脸多任务模型的方法200,和/或,基于多任务学习的人脸图像处理方法1100的指令。程序数据124中可以包括用于训练生成人脸多任务模型的训练数据、标签数据、及该人脸多任务模型相关的模型参数,本公开对此不做限制。此外,上述指令可以指示处理器104执行本公开的上述方法,以实现人脸检测、人脸关键点提取、人脸追踪等任务。
图2示出了根据本公开一个实施例的训练生成人脸多任务模型的方法200的流程示意图。根据一种实施例,方法200可以在计算设备(如上所述的计算设备100)中执行。方法200的目的在于通过训练,生成人脸多任务模型。
如图2所示,方法200始于步骤S210。在步骤S210中,获取多个人脸图像及其对应的人脸标签。人脸标签至少包括:人脸标识、归一化后的人脸框信息、归一化后的人脸关键点信息。
根据本公开的实施方式,所采集的多个人脸图像可以是连续的视频图像帧(例如,多段视频流),且可以来自不同的摄像头。人脸图像可以是仅包含面部的图像,也可以是包含人体正面的上半身或者全身的图像,本公开对此不做过多限制。
针对每张人脸图像,对其进行标注,标注出人脸框、人脸关键点、人脸标识(face_id),作为初始人脸标签。换言之,初始人脸标签至少包括:人脸标识、初始人脸框信息、初始人脸关键点信息。
在一种实施例中,face_id表示所有人脸图像中出现的第几张人脸,如果整个视频中出现6张人脸,就按0~5给face_id赋值。由于本公开的实施例中,使用了很多个视频数据集,所以如果第一个视频中face_id为0~5,那第二个视频中出现的face_id从6开始标号,以此类推。此外,人脸关键点包含眼睛(2个关键点)、鼻尖(1个关键点)、嘴角(2个关键点),共5个关键点。
鉴于所获取的人脸图像的尺寸可能不一致,为便于之后网络处理、图像缩放、信息还原等处理,还需要对初始人脸标签进行归一化处理。根据一种实施例,基于人脸图像的宽和高,对初始人脸框信息和初始人脸关键点信息进行处理,得到归一化后的人脸框信息和归一化后的人脸关键点信息。
例如,初始人脸标签可以表示为:
[0,0,x0,y0,w,h,x1,y1,x2,y2,x3,y3,x4,y4,x5,y5],
其中,第一个“0”表示,该人脸图像中出现的第一个人脸;第二个“0”表示该人脸的face_id=0;x0,y0,w,h表示初始人脸框信息,具体地,(x0,y0)表示人脸框中心点位置,w和h表示人脸框的宽和高;(x1,y1)、(x2,y2)、(x3,y3)、(x4,y4)、(x5,y5)表示5个人脸关键点的坐标信息,此时标签中的值是在原图坐标系下的值。
设原人脸图像的宽为ori_width,高为ori_height。那么,归一化后的人脸框信息为:x0/ori_width,y0/ori_height,w/ori_width,h/ori_height,即,用初始人脸框信息除以原人脸图像的宽或高,得到归一化后的人脸框信息。
同样地,用初始人脸关键点信息除以原人脸图像的宽或高,得到归一化后的人脸关键点信息,表示为:
(x1/ori_width,y1/ori_height)、(x2/ori_width,y2/ori_height)、(x3/ori_width, y3/ori_height)、(x4/ori_width,y4/ori_height)、(x5/ori_width,y5/ori_height)。
这样,经归一化处理后的人脸标签为:
[0,0,x0/ori_width,y0/ori_height,w/ori_width,h/ori_height,x1/ori_width,y1/ori_height,x2/ori_width,y2/ori_height,x3/ori_width,y3/ori_height,x4/ori_width,y4/ori_height,x5/ori_width,y5/ori_height]。
最后,每一张人脸图像对应同名的txt文件,用来存储该人脸图像的人脸标签。其中,txt文件中的每一行代表图像中出现的一个人脸的信息,每一行格式为:num,face_id,归一化后的人脸框信息,归一化后的人脸关键点信息。num表示在该人脸图像中的人脸序号,即,该人脸属于该人脸图像中出现的第几张人脸。
根据另一些实施例,假设每一段视频对应一个数据集,该数据集中包含该段视频中包含的连续图像帧、及各图像帧对应的人脸标签,还需要对多个数据集进行融合,具体地,对多个数据集的face_id标签进行融合,假如数据集1中有50个face_id,数据集2中有60个face_id,融合后,数据集1的face_id从0-49,数据集2的第一个face_id就设为50,以此类推。
此外,还可以使用通用的数据增强方式,对数据集中的人脸图像进行增强处理。处理方式包括但不限于,按顺序的对图像HSV随机增强、图像补齐、图像resize、按照一定范围内的随机仿射变换、放缩、旋转图像等,以生成数据增强后的人脸图像,得到更广泛的训练数据。
对应地,提取被增强的人脸图像的人脸标签,将其中归一化后的人脸框信息、归一化后的人脸关键点信息,还原到数据增强后的人脸图像中去,作为其对应的人脸标签。
随后,在步骤S220中,对人脸标签进行处理,生成人脸标签数据。
根据本公开的实施方式,人脸标签数据包括:与人脸位置相关的第一向量、第二向量、第三向量,与人脸关键点位置相关的第四向量,以及与人脸标识相关的第五向量。在根据本公开的实施例中,这些人脸标签数据将用于对人脸多任务模型的训练,这部分内容会在后续训练的步骤中进行详细阐述,此处不做展开。
根据本公开的实施方式,采用如下方式来对人脸标签进行处理,以便用于后续的训练步骤。
1)基于归一化后的人脸框信息,生成与人脸位置相关的第一向量(记作face_hm)、第二向量(记作lrtb)、第三向量(记作face_reg)。其中,第一向量指示了人脸框中心点位置,第二向量指示了人脸框中心点距人脸框上下左右四个边的距离,第三向量指示了人脸中心点的偏移量。
以下分别介绍上述三个向量的生成方式。
a) 第一向量face_hm
首先,利用归一化后的人脸框信息,确定高斯半径。将归一化后人脸框信息,转换到一个特征图中(此处的特征图的尺寸,可参考下文中人脸检测组件620的输出Output0的大小),求取其相应坐标值,并将转换后的人脸框记作标签人脸框,这样,基于预测人脸框与标签人脸框的位置关系,分别计算指示人脸框位置的热图对应的高斯半径。
在一种实施例中,预测人脸框与标签人脸框的位置关系分3种情况:预测人脸框与标签人脸框存在圆内切,预测人脸框与标签人脸框存在圆外切,预测人脸框与标签人脸框一个边内切、一个边外切。
图3至图5分别示出了预测人脸框与标签人脸框的位置关系的示意图。以下结合图3至图5,就这3种情况下计算高斯半径的过程,进行一一说明。在图中,用虚线框表示预测人脸框,用实线框表示标签人脸框。设标签人脸框的宽和高分别为
Figure 176429DEST_PATH_IMAGE001
Figure 41617DEST_PATH_IMAGE002
,预测人脸框和标签人脸框的IOU(Intersection-over-Union,交并比)为0.7。
如图3,预测人脸框和标签人脸框两个角点以r1为半径的圆外切。此时,可以得到如下关系:
Figure 367425DEST_PATH_IMAGE003
(1)
如图4,预测人脸框和标签人脸框两个角点以r2为半径的圆内切。此时,可以得到如下关系:
Figure 950853DEST_PATH_IMAGE004
(2)
如图5,预测人脸框和标签人脸框两个角点以r3为半径的圆一个边内切、一个边外切。此时,可以得到如下关系:
Figure 200569DEST_PATH_IMAGE005
(3)
求解上述公式(1)(2)(3),就可以得到对应的高斯半径r1,r2,r3。
从所计算出的高斯半径中选取最小值,作为所要求的高斯半径r,记作r=min(r1,r2,r3)。
接着,结合高斯半径和归一化后的人脸框信息,确定高斯分布图。在一种实施例中,通过如下公式求出高斯分布图。
Figure 185842DEST_PATH_IMAGE006
(4)
式中,
Figure 495601DEST_PATH_IMAGE007
Figure 504008DEST_PATH_IMAGE008
为归一化后的人脸框中心点坐标,更具体地,是标签人脸框中的中心点坐标;
Figure 557415DEST_PATH_IMAGE009
为标准差,通常设为高斯直径的六分之一,即
Figure 397195DEST_PATH_IMAGE010
Figure 877855DEST_PATH_IMAGE011
为在高斯分布图中第(x,y)坐标的值。
之后,基于高斯分布图,生成第一向量。
在一种实施例中,将第一向量face_hm设为一个与上述特征图(即,Output0的输出)同等大小的tensor(1,featuremap_w,featuremap_h)。然后将上一步中求得的高斯分布图放入此向量中进行保存。
b) 第二向量lrtb
首先,基于归一化后的人脸框信息,计算归一化后的人脸中心点距离各人脸框的边的垂直距离,即,中心点距人脸框上、下、左、右四个边的距离。然后,基于各垂直距离,生成第二向量。
c) 第三向量face_reg
首先,将初始人脸框的中心点坐标转换为整型坐标,并记作转换后中心点坐标。通常,初始人脸框的中心点坐标为浮点型,将其强转为整型。假设初始人脸框的中心点坐标为(524.16,650.88),对应的ori_width=960,ori_height=960。那么,归一化后的中心点坐标为(0.546,0.678),将初始人脸框的中心点坐标转换为整型坐标为(524,651)。
接着,计算初始人脸框的中心点坐标与转换后中心点坐标的差值。之后,使用face_reg向量保存所求得的差值,作为第三向量。
2)基于归一化后的人脸关键点信息,生成与人脸关键点位置相关的第四向量(记作 point_hm)。
先结合各人脸关键点信息及预设高斯半径,分别确定高斯分布图。在一种实施例中,预设高斯半径为1,将归一化后的人脸关键点坐标,转换到相应的特征图中(特征图尺寸可参考下文中人脸关键点提取组件630的输出Output4的尺寸),得到转换后的5个关键点坐标。之后,基于转换后的这5个关键点的坐标,分别拟合出5个高斯分布图,拟合高斯分布图的过程可参考上文中公式(4)的相关描述,此处不再赘述。
之后,基于各高斯分布图,确定第四向量。在一种实施例中,设置第四向量point_hm为(5,featuremap_w,featuremap_h)。然后将上一步所求得的5个高斯分布图,放入此向量中保存。换言之,可以理解为,针对每个关键点,均有一个第四向量,对应存储该关键点对应的高斯分布图。
3)基于人脸标识,生成与人脸标识相关的第五向量(记作ReID)。
在一种实施例中,将人脸标签中的face_id,保存到第五向量ReID中。
随后在步骤S230中,将人脸图像输入人脸多任务模型进行处理,得到人脸预测数据。
根据本公开的实施方式,在执行该步骤之前,还包括步骤:构建人脸多任务模型,并设置初始的网络参数。
图6示出了根据本公开一个实施例的人脸多任务模型600的结构示意图。
人脸多任务模型600包括耦接的特征提取组件610、人脸检测组件620、人脸关键点提取组件630和重识别组件640。其中,特征提取组件610分别与人脸检测组件620、人脸关键点提取组件630和重识别组件640相耦接。
以下结合图6,对人脸多任务模型600的处理流程进行说明。
首先,将人脸图像输入特征提取组件610,由特征提取组件610通过一定量的卷积块、反卷积层、激活层、多尺度特征融合等操作,对输入图像进行特征提取,之后,输出人脸特征图。
之后,将人脸特征图输入人脸检测组件620,经由卷积层、BN层、激活函数等处理后,输出人脸中心位置预测信息、人脸宽度预测信息、人脸中心偏差预测信息。
同时,将人脸特征图输入人脸关键点提取组件630,经由卷积层、BN层、激活函数等处理后,输出人脸关键点预测位置。
同时,将人脸特征图输入重识别组件640,经由卷积层、BN层、激活函数等处理后,输出人脸重识别预测信息。
将人脸中心位置预测信息、人脸宽度预测信息、人脸中心偏差预测信息、人脸关键点预测位置、人脸重识别预测信息,作为人脸预测数据。
以下示出根据本公开一些实施例的人脸多任务模型600中各组件的具体结构。应当了解,以下示出的结构仅作为示例,任何基于本公开实施例的描述,来构建的人脸多任务模型600,均在本公开的保护范围之内。
以下将结合图7至图11,对人脸多任务模型600中的各组件的网络结构进行说明。
图7示出了根据本公开一个实施例的特征提取组件610的结构示意图。
首先,输入人脸图像,在一种实施例中,输入的人脸图像的尺寸为960x960x3,通过卷积块C1对输入图像进行通道扩充(由3扩充为24)、并将特征图尺寸缩减为480 x480。在一种实施例中,卷积块C1由卷积层、BN层和激活函数SiLU耦接而成,其中,卷积核尺寸为3x3,stride为2。
然后,通过3个耦接的卷积块C2进一步对卷积块C1输出的特征图进行通道扩充及尺寸缩减。在一种实施例中,每个卷积块C2由卷积层(卷积核尺寸为3x3)、BN层、激活函数SiLU和1x1的Pointwise卷积、BN层耦接组成。三个卷积块C2的stride分别为1,2,2,通道扩展系数分别为1,4,4。
随后,通过3个耦接的卷积块C3进一步对卷积块C2输出的特征图进行通道扩充及尺寸缩减。每个卷积块C3由尺寸为1x1的Pointwise卷积、BN层、激活函数SiLU、SE模块(Squeeze-and-Excitation)和1x1的Pointwise卷积、BN层耦合组成。其中,三个卷积块C3的stride分别为2,1,2,通道扩展系数分别为4,6,6。如图7示例性地示出了卷积块C3的一个具体结构。其中示出了一个SE模块的示意图,在其中一个分支中,先进行depthwidth卷积,之后经BN层、激活函数SiLU后输出;在另一个分支中,先通过二元自适应均值池化层AdaptiveAvgPool2d(即,Squeeze过程),将其输出经线性全连接(Liner)、激活函数SiLU、线性全连接(Liner)(即,Excitation过程),最后用sigmoid限制到[0,1]的范围,把这个值作为scale乘到上一个分支的输出上。
最后,针对这7个卷积块,对第3,4,5,7卷积块使用反卷积层、BN层、激活函数、特征融合等操作进行多尺度特征融合操作,得到最终的特征提取结果并输出人脸特征图。
图8示出了根据本公开一个实施例的人脸检测组件620的结构示意图。
人脸检测组件620主要由卷积层、激活函数组成。如图8所示,卷积层主要包括卷积核尺寸为3×3的普通卷积conv、卷积核尺寸为1×1的Pointwise卷积。激活函数采用SiLU函数。人脸检测组件620包括3个输出:Output0、Output1和Output2。Output0表示人脸中心位置预测信息(即,人脸中心点预测值),Output1表示人脸宽度预测信息(即,人脸中心点距人脸框上下左右的距离的预测值),Output2表示人脸中心偏差预测信息(即,人脸中心点的偏差值的预测值)。
图9示出了根据本公开一个实施例的人脸关键点提取组件630的结构示意图。
人脸关键点提取组件630主要由卷积层、激活函数组成。如图9所示,卷积层主要包括卷积核尺寸为3×3的普通卷积conv、卷积核尺寸为1×1的Pointwise卷积。激活函数采用SiLU函数。其输出Output4为人脸关键点预测位置。
图10示出了根据本公开一个实施例的重识别组件640的结构示意图。
重识别组件640主要由卷积层、激活函数组成。如图10所示,卷积层主要包括卷积核尺寸为3×3的普通卷积conv、卷积核尺寸为1×1的Pointwise卷积。激活函数采用SiLU函数。其输出Output5为人脸重识别预测信息(即,每一个点的ReID特征信息)。
随后在步骤S240中,基于人脸标签数据与所输出的人脸预测数据,对人脸多任务模型进行分支训练,并在损失函数收敛时,训练结束,将所对应的人脸多任务模型,作为最终生成的人脸多任务模型。
根据一种实施方式,步骤S240可以按照如下几个步骤来执行。
第一步,基于第一向量face_hm和人脸中心位置预测信息,以第一方式计算第一损失,记作
Figure 170296DEST_PATH_IMAGE012
。在一种实施例中,第一方式采用如下公式来表示:
Figure 27393DEST_PATH_IMAGE013
(5)
其中,和
Figure 407166DEST_PATH_IMAGE014
是超参数,
Figure 58727DEST_PATH_IMAGE015
表示第一向量face_hm中不为0的第(x,y)坐标的值,
Figure 104043DEST_PATH_IMAGE016
表示对应的人脸中心位置预测值,N表示保存在face_hm的高斯分布图中不为0元素的数量。
第二步,基于第二向量lrtb、第三向量face_reg和人脸宽度预测信息、人脸中心偏差预测信息,以第二方式计算第二损失,记作
Figure 499253DEST_PATH_IMAGE017
。在一种实施例中,第二方式通过smoothL1 loss来实现,采用如下公式来表示:
Figure 48046DEST_PATH_IMAGE018
(6)
其中,
Figure 73770DEST_PATH_IMAGE019
表示第二向量lrtb中的值,
Figure 340804DEST_PATH_IMAGE020
表示人脸宽度信息预测值,
Figure 539704DEST_PATH_IMAGE021
表示第三向量face_reg中的值,
Figure 943003DEST_PATH_IMAGE020
表示人脸中心偏差预测值,N表示保存在face_hm的高斯分布图中不为0元素的数量。
第三步,基于第四向量point_hm和人脸关键点预测位置,以第三方式计算第三损失,记作
Figure 201946DEST_PATH_IMAGE022
。在一种实施例中,第三方式通过MSE loss来实现,具体采用如下公式表示:
Figure 143226DEST_PATH_IMAGE023
(7)
其中,
Figure 880238DEST_PATH_IMAGE024
表示第i个第四向量中第xy坐标下的值,
Figure 403624DEST_PATH_IMAGE025
表示第i个人脸关键点第xy坐标下的预测值,N表示保存在point_hm中的所有高斯分布图中中不为0元素的数量,i最高取5。
第四步,结合第一损失、第二损失和第三损失,训练特征提取组件、人脸检测组件和人脸关键点提取组件,直到满足预定条件时,冻结特征提取组件、人脸检测组件和人脸关键点提取组件。
根据本公开的一种实施方式,基于第一损失和第二损失,来训练人脸检测组件。具体而言,将第一损失和第二损失相加,得到新的损失函数,记作
Figure 833468DEST_PATH_IMAGE026
,来训练人脸检测组件,如下公式所示:
Figure 809514DEST_PATH_IMAGE027
(8)
同时,基于第三损失
Figure 287900DEST_PATH_IMAGE022
,来训练人脸关键点提取组件。
在一种实施例中,将人脸图像输入人脸多任务模型进行处理,得到人脸预测数据,对应计算出
Figure 931371DEST_PATH_IMAGE026
Figure 266537DEST_PATH_IMAGE022
。之后,调整特征提取组件610、人脸检测组件620和人脸关键点提取组件630的网络参数,重复迭代计算
Figure 995459DEST_PATH_IMAGE026
Figure 74273DEST_PATH_IMAGE022
,直到满足预定条件(如,
Figure 260666DEST_PATH_IMAGE026
Figure 766734DEST_PATH_IMAGE022
均收敛)时,特征提取组件610、人脸检测组件620和人脸关键点提取组件630训练结束,冻结这三个组件。
第五步,基于第五向量和人脸重识别预测信息,以第四方式计算第四损失
Figure 982952DEST_PATH_IMAGE028
。在一种实施例中,第四方式通过改进后的trilet loss来实现,具体如公式(9)所示:
Figure 865457DEST_PATH_IMAGE029
(9)
式中,D( )表示两特征值的距离,在一种实施例中,D通过余弦距离来确定,和 表示自适应超参数,可根据实际场景,进行多次尝试后由经验确定。
在一种实施例中,
Figure 217941DEST_PATH_IMAGE028
相当于一个分类损失,用来区分不同人脸。其中,positive1和positive2为正样本,negative为负样本。
Figure 98172DEST_PATH_IMAGE030
表示的是对图像中特定位置(即,由人脸检测组件620检测到的人脸框中心点)通过重识别组件640进行特征提取得到的特征。
Figure 536107DEST_PATH_IMAGE031
表示的是同类人脸(即存储在标签向量ReID中的face_id相同的脸),在其他位置或图像中所对应提取到的特征。
Figure 956724DEST_PATH_IMAGE032
表示的是不同类人脸(即存储在标签向量ReID中的face_id不同的脸),在对应位置或图像中所对应提取到的特征。
假设训练集有100张人脸,也就是有100个face_id,100个分类。假设face_id为1的人脸,出现在训练集中第1张人脸图像至第50张人脸图像;face_id为2的人脸,出现在第3张人脸图像到第30张人脸图像。那么,
Figure 429294DEST_PATH_IMAGE030
为第1张人脸图像中face_id为1的人脸,经重识别组件640提取到的特征;
Figure 277164DEST_PATH_IMAGE031
为第3张人脸图像中face_id为1的人脸,经重识别组件640提取到的特征;
Figure 202395DEST_PATH_IMAGE032
为第3张人脸图像中face_id为2的人脸,经重识别组件640提取到的特征。
通过这种训练方式,区分不同face_id的人脸,进而更好地提取重识别特征。
第六步,利用第四损失,训练重识别组件640。
结合前述描述可知,在训练重识别组件时,将人脸图像输入经第四步训练好的特征提取组件610中,由其输出特征给重识别组件640,接着计算第四损失,并根据第四损失调整重识别组件640的网络参数,直到满足预定条件(如,
Figure 613653DEST_PATH_IMAGE028
收敛)时,训练结束。
此时,将经第四步训练好的特征提取组件610、人脸检测组件620、人脸关键点提取组件630、以及经第六步训练好的重识别组件640,作为最终生成的人脸多任务模型。
根据本公开的训练生成人脸多任务模型的方法,对用于训练的人脸图像进行标注,并基于标注数据生成人脸标签。在训练人脸多任务模型时,对人脸标签进行处理,生成对应的人脸标签数据,用于对人脸多任务模型的各组件进行训练。因此,仅需制作一次用于训练的人脸标签,即可实现对多种人脸图像处理任务的学习。
此外,人脸多任务模型仅需经过一个基础结构用于特征提取(即,特征提取组件),相较于现有方案中采用多种网络级联的方案,本公开的人脸多任务模型更加简单,网络推理节省时间和空间。
图11示出了根据本公开一种实施例的基于多任务学习的人脸图像处理方法1100的流程示意图。方法1100可以在方法200的基础上实现。应当了解,方法1100与方法200的内容互为补充,重复之处,此处不再赘述。
如图11所示,方法1100始于步骤S1110。在步骤S1110中,利用人脸多任务模型对当前帧图像进行处理。其中,人脸多任务模型600可以通过方法200训练生成。关于人脸多任务模型600的具体结构,此处不再赘述。
具体而言,将当前帧图像输入人脸多任务模型600,经特征提取组件610提取人脸特征,并输出人脸特征图。将人脸特征图分别输入与之耦接的人脸检测组件620、人脸关键点提取组件630和重识别组件640,经人脸检测组件620,输出人脸框位置信息;经人脸关键点提取组件630,输出人脸关键点位置信息;经重识别组件640,输出人脸重识别信息。
需要说明的是,关于人脸多任务模型600的具体处理流程,可参考前文方法200中的相关描述,此处不再赘述。
随后,在步骤S1120中,基于人脸框位置信息和人脸重识别信息,与上一帧中的人脸进行匹配,以确定当前帧所检测出的人脸的人脸标识。
根据本公开的一种实施方式,采用如下方式来完成人脸的关联匹配(即,人脸追踪)。
首先,确定人脸框位置信息与预测人脸框的匹配度,作为第一匹配值。在一种实施例中,预测人脸框是基于上一帧图像的人脸框位置信息所生成的。例如,将上一帧图像经人脸检测组件620输出的人脸框位置信息,通过卡尔曼滤波,得到一个预测的人脸框,即预测人脸框。在根据本公开的实施例中,将人脸框位置信息与预测人脸框进行IOU匹配,得到第一匹配值,记作A。
接着,对人脸重识别信息和上一帧的人脸重识别信息进行特征匹配,以得到第二匹配值。在一种实施例中,通过特征余弦距离和/或马氏距离,对当前帧的人脸重识别信息和上一帧的人脸重识别信息进行特征匹配,得到第二匹配值,记作B。
之后,通过多人脸关联匹配,来得到第三匹配值。在一种实施例中,利用KM算法,对当前帧中所检测出的人脸框与上一帧中所检测出的人脸框,进行匹配,以得到第三匹配值,记作C。
之后,将上一步KM匹配中遗留下的当前帧未匹配的人脸框,再与上一帧的人脸框进行IOU匹配,以得到第四匹配值,记作D。
最后,结合第一匹配值A、第二匹配值B、第三匹配值C和第四匹配值D,确定出当前帧中所检测出的人脸的人脸标识。
根据一种实施例,将上述四个匹配值采用各自权重进行加权组合,得到一个总体匹配程度,最终,选取匹配度最高的当前帧人脸框,继承上一帧的人脸标识(face_id),达到人脸追踪的效果。
可选地,通过如下公式来确定总体匹配程度scale:
Figure 940729DEST_PATH_IMAGE033
其中,
Figure 225080DEST_PATH_IMAGE034
Figure 637607DEST_PATH_IMAGE035
Figure 400027DEST_PATH_IMAGE036
Figure 519292DEST_PATH_IMAGE037
分别为第一匹配值A、第二匹配值B、第三匹配值C和第四匹配值D的权重系数。在一种实施例中,
Figure 974544DEST_PATH_IMAGE038
根据本公开的实施方式,在基于人脸多任务模型得到视频图像中的人脸框位置信息、人脸关键点位置信息和人脸重识别信息后,结合多种方式来确定当前帧与上一帧的人脸匹配度,以实现人脸追踪。其中,第一匹配值A结合卡尔曼滤波,预测出人脸框轨迹的位置。第二匹配值B通过人脸重识别信息(ReID)进行了特征匹配。第三匹配值C结合了关联匹配算法的匹配结果。第四匹配值D主要对未匹配上的人脸进行一次找回。相比于直接用ReID结果进行关联匹配或者单纯地预测人脸轨迹,本方案能够减少人脸标识跳换的次数。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本公开的方法和设备,或者本公开的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本公开的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本公开的方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与本公开的示例一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的优选实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该公开的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本公开,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本公开的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本公开的主题而选择的。因此,在不偏离本公开的实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本公开的范围,对本公开所做的公开是说明性的而非限制性的。

Claims (9)

1.一种训练生成人脸多任务模型的方法,包括步骤:
获取多个人脸图像及其对应的人脸标签,其中所述人脸标签包括:人脸标识、归一化后的人脸框信息、归一化后的人脸关键点信息;
对所述人脸标签进行处理,生成人脸标签数据, 包括:
基于所述归一化后的人脸框信息,生成与人脸位置相关的第一向量、第二向量、第三向量,其中,所述第一向量指示了人脸框中心点位置,所述第二向量指示了人脸框中心点距人脸框上下左右四个边的距离,所述第三向量指示了人脸中心点的偏移量;
基于所述归一化后的人脸关键点信息,生成与人脸关键点位置相关的第四向量;
基于所述人脸标识,生成与人脸标识相关的第五向量;
将所述人脸图像输入人脸多任务模型进行处理,得到人脸预测数据;
基于所述人脸标签数据与所输出的人脸预测数据,对所述人脸多任务模型进行分支训练,并在损失函数收敛时,训练结束,将所对应的人脸多任务模型,作为最终生成的人脸多任务模型,
其中基于所述归一化后的人脸框信息,生成与人脸位置相关的第一向量和第二向量的步骤包括:利用所述归一化后的人脸框信息,确定高斯半径;结合所述高斯半径和所述归一化后的人脸框信息,确定高斯分布图;基于所述高斯分布图,生成第一向量;基于所述归一化后的人脸框信息,计算归一化后的人脸中心点距离各人脸框的边的垂直距离;基于各垂直距离,生成第二向量。
2.如权利要求1所述的方法,其中,所述人脸多任务模型包括耦接的特征提取组件、人脸检测组件、人脸关键点提取组件和重识别组件;以及
所述将人脸图像输入人脸多任务模型进行处理,得到人脸预测数据的步骤包括:
将所述人脸图像输入所述特征提取组件,经处理后输出人脸特征图;
将所述人脸特征图输入所述人脸检测组件,经处理后输出人脸中心位置预测信息、人脸宽度预测信息、人脸中心偏差预测信息;
将所述人脸特征图输入所述人脸关键点提取组件,经处理后输出人脸关键点预测位置;
将所述人脸特征图输入所述重识别组件,经处理后输出人脸重识别预测信息;
将所述人脸中心位置预测信息、所述人脸宽度预测信息、所述人脸中心偏差预测信息、所述人脸关键点预测位置、所述人脸重识别预测信息,作为人脸预测数据。
3.如权利要求2所述的方法,其中,基于所述人脸标签数据与所输出的人脸预测数据,对所述人脸多任务模型进行分支训练的步骤包括:
基于所述第一向量和所述人脸中心位置预测信息,以第一方式计算第一损失;
基于所述第二向量、所述第三向量和所述人脸宽度预测信息、人脸中心偏差预测信息,以第二方式计算第二损失;
基于所述第四向量和所述人脸关键点预测位置,以第三方式计算第三损失;
结合所述第一损失、第二损失和第三损失,训练所述特征提取组件、所述人脸检测组件和所述人脸关键点提取组件,直到满足预定条件时,冻结所述特征提取组件、所述人脸检测组件和所述人脸关键点提取组件;
基于所述第五向量和所述人脸重识别预测信息,以第四方式计算第四损失;
利用所述第四损失,训练所述重识别组件,直到满足预定条件时,训练结束,将所对应的人脸多任务模型,作为最终生成的人脸多任务模型。
4.如权利要求1所述的方法,其中,获取多个人脸图像及其对应的人脸标签的步骤还包括:
获取多个人脸图像及其对应的初始人脸标签,其中所述初始人脸标签包括:人脸标识、初始人脸框信息、初始人脸关键点信息;
基于所述人脸图像的宽和高,对所述初始人脸框信息和初始人脸关键点信息进行处理,得到归一化后的人脸框信息和归一化后的人脸关键点信息。
5.如权利要求4所述的方法,其中,基于所述归一化后的人脸框信息,生成与人脸位置相关的第三向量的步骤包括:
将初始人脸框的中心点坐标转换为整型坐标,并记作转换后中心点坐标;
计算初始人脸框的中心点坐标与转换后中心点坐标的差值;
基于所述差值生成第三向量。
6.如权利要求1所述的方法,其中,所述基于归一化后的人脸关键点信息,生成与人脸关键点位置相关的第四向量的步骤包括:
结合各人脸关键点信息及预设高斯半径,分别确定高斯分布图;
基于各所述高斯分布图,确定第四向量。
7.一种基于多任务学习的人脸图像处理方法,包括步骤:
利用人脸多任务模型对当前帧图像进行处理,包括:
经人脸多任务模型的人脸检测组件,输出人脸框位置信息;
经人脸多任务模型的人脸关键点提取组件,输出人脸关键点位置信息;
经人脸多任务模型的重识别组件,输出人脸重识别信息;
基于所述人脸框位置信息和所述人脸重识别信息,与上一帧中的人脸进行匹配,以确定当前帧所检测出的人脸的人脸标识,
其中,所述人脸多任务模型通过执行如权利要求1-6中任一项所述的方法来生成。
8.如权利要求7所述的方法,其中,所述基于人脸框位置信息和人脸重识别信息,与上一帧中的人脸进行匹配,以确定当前帧所检测出的人脸的人脸标识的步骤包括:
确定所述人脸框位置信息与预测人脸框的匹配度,作为第一匹配值,其中所述预测人脸框是基于上一帧图像的人脸框位置信息而生成的;
对所述人脸重识别信息和上一帧的人脸重识别信息进行特征匹配,以得到第二匹配值;
通过多人脸关联匹配,来得到第三匹配值;
将当前帧未匹配的人脸框与上一帧的人脸框进行匹配,以得到第四匹配值;
结合所述第一匹配值、所述第二匹配值、第三匹配值和第四匹配值,确定出当前帧中所检测出的人脸的人脸标识。
9.一种计算设备,包括:
至少一个处理器和存储有程序指令的存储器;
当所述程序指令被所述处理器读取并执行时,使得所述计算设备执行如权利要求1-6中任一项所述的方法,和/或,如权利要求7或8所述的方法。
CN202111200961.3A 2021-10-15 2021-10-15 一种基于多任务学习的人脸图像处理方法 Active CN113642545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111200961.3A CN113642545B (zh) 2021-10-15 2021-10-15 一种基于多任务学习的人脸图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111200961.3A CN113642545B (zh) 2021-10-15 2021-10-15 一种基于多任务学习的人脸图像处理方法

Publications (2)

Publication Number Publication Date
CN113642545A CN113642545A (zh) 2021-11-12
CN113642545B true CN113642545B (zh) 2022-01-28

Family

ID=78427053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111200961.3A Active CN113642545B (zh) 2021-10-15 2021-10-15 一种基于多任务学习的人脸图像处理方法

Country Status (1)

Country Link
CN (1) CN113642545B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109956A (zh) * 2023-04-12 2023-05-12 安徽省空安信息技术有限公司 一种无人机自适应变焦高精度目标检测智能巡检方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499128A (zh) * 2008-01-30 2009-08-05 中国科学院自动化研究所 基于视频流的三维人脸动作检测和跟踪方法
WO2018040099A1 (zh) * 2016-08-31 2018-03-08 深圳市唯特视科技有限公司 一种基于灰度和深度信息的三维人脸重建方法
CN108304001A (zh) * 2018-02-09 2018-07-20 成都新舟锐视科技有限公司 一种人脸检测跟踪方法、球机头部转动控制方法及球机
CN112329702A (zh) * 2020-11-19 2021-02-05 上海点泽智能科技有限公司 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
CN112733680A (zh) * 2020-12-31 2021-04-30 南京视察者智能科技有限公司 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110650368B (zh) * 2019-09-25 2022-04-26 新东方教育科技集团有限公司 视频处理方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499128A (zh) * 2008-01-30 2009-08-05 中国科学院自动化研究所 基于视频流的三维人脸动作检测和跟踪方法
WO2018040099A1 (zh) * 2016-08-31 2018-03-08 深圳市唯特视科技有限公司 一种基于灰度和深度信息的三维人脸重建方法
CN108304001A (zh) * 2018-02-09 2018-07-20 成都新舟锐视科技有限公司 一种人脸检测跟踪方法、球机头部转动控制方法及球机
CN112329702A (zh) * 2020-11-19 2021-02-05 上海点泽智能科技有限公司 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质
CN112733680A (zh) * 2020-12-31 2021-04-30 南京视察者智能科技有限公司 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备

Also Published As

Publication number Publication date
CN113642545A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
US10482337B2 (en) Accelerating convolutional neural network computation throughput
US9424493B2 (en) Generic object detection in images
CN111178251B (zh) 一种行人属性识别方法及***、存储介质及终端
EP3417425B1 (en) Leveraging multi cues for fine-grained object classification
EP1835460B1 (en) Image processing system, learning device and method, and program
CN107392930B (zh) 一种量子Canny边缘检测方法
CN107808147B (zh) 一种基于实时人脸点跟踪的人脸置信度判别方法
CN112991447A (zh) 一种动态环境下视觉定位与静态地图构建方法及***
CN111582267B (zh) 一种文本检测方法、计算设备及可读存储介质
CN113642545B (zh) 一种基于多任务学习的人脸图像处理方法
US20220270341A1 (en) Method and device of inputting annotation of object boundary information
CN111160395A (zh) 图像识别方法、装置、电子设备和存储介质
Spiller Object Localization Using Deformable Templates
US9014486B2 (en) Systems and methods for tracking with discrete texture traces
WO2022247403A1 (zh) 关键点检测方法、电子设备、程序及存储介质
JP2013016171A (ja) 人体動作周期の特定と人体動作の認識の方法、装置、及びプログラム
CN111428566A (zh) 一种形变目标跟踪***及方法
CN112801067B (zh) 一种检测虹膜光斑的方法及计算设备
Kim et al. Improving the search accuracy of the VLAD through weighted aggregation of local descriptors
CN111428567B (zh) 一种基于仿射多任务回归的行人跟踪***及方法
CN114758332B (zh) 一种文本检测方法、装置、计算设备及存储介质
Jiang et al. Weakly-supervised vehicle detection and classification by convolutional neural network
JP2009104244A (ja) 情報処理装置および方法、並びにプログラム
Pototzky et al. Self-supervised learning for object detection in autonomous driving
CN114283488B (zh) 生成检测模型的方法及利用检测模型检测眼睛状态的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant