CN116434303A - 基于多尺度特征融合的人脸表情捕捉方法、装置及介质 - Google Patents

基于多尺度特征融合的人脸表情捕捉方法、装置及介质 Download PDF

Info

Publication number
CN116434303A
CN116434303A CN202310331030.XA CN202310331030A CN116434303A CN 116434303 A CN116434303 A CN 116434303A CN 202310331030 A CN202310331030 A CN 202310331030A CN 116434303 A CN116434303 A CN 116434303A
Authority
CN
China
Prior art keywords
face
coefficient
identity
expression
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310331030.XA
Other languages
English (en)
Inventor
谭明奎
李振梁
刘艳霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202310331030.XA priority Critical patent/CN116434303A/zh
Publication of CN116434303A publication Critical patent/CN116434303A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度特征融合的人脸表情捕捉方法、装置及介质,其中方法包括:获取人脸图像;将获得的人脸图像输入训练后的表情捕捉模型中,输出人脸系数;所述表情捕捉模型包括系数预测网络,所述系数预测网络包括骨干网络、全连接层以及多尺度特征融合模块;所述多尺度特征融合模块用于融合骨干网络不同阶段的图像特征,并通过融合后特征预测身份系数、表情系数和纹理系数。本发明通过多尺度特征融合模块,在骨干网络基础上,不断融合骨干网络不同阶段的图像特征,利用融合特征进行人脸身份、表情、纹理的预测,能够获得更为精细的预测结果。本发明可广泛应用于人脸图像数据处理领域。

Description

基于多尺度特征融合的人脸表情捕捉方法、装置及介质
技术领域
本发明涉及人脸图像数据处理领域,尤其涉及一种基于多尺度特征融合的人脸表情捕捉方法、装置及介质。
背景技术
近年来,虚拟数字人领域得到了越来越多的关注,而人脸表情捕捉是实现虚拟数字人驱动的一大重要技术。该任务通常的输入为包含人脸的图像或视频,利用深度神经网络学习图像特征并预测人脸的各项系数,通过三维可形变模型重构三维人脸,最终获取人脸的表情系数作为表情捕捉的预测结果。然而,现有方法存在部分缺陷:一是没有同时考虑输入图像的全局与局部信息,难以捕获人脸细微表情;二是没有考虑不同输入图像的置信度差异,人脸的身份与表情难以解耦。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于多尺度特征融合的人脸表情捕捉方法、装置及介质。
本发明所采用的技术方案是:
一种基于多尺度特征融合的人脸表情捕捉方法,包括以下步骤:
获取人脸图像;
将获得的人脸图像输入训练后的表情捕捉模型中,输出人脸系数;
所述表情捕捉模型包括系数预测网络,所述系数预测网络包括骨干网络、全连接层以及多尺度特征融合模块;所述多尺度特征融合模块用于融合骨干网络不同阶段的图像特征,并通过融合后特征预测身份系数、表情系数和纹理系数。
进一步地,所述表情捕捉模型通过以下方式训练获得:
获取人脸数据,对人脸数据进行预处理,获得训练集;
构建表情捕捉模型,所述表情捕捉模型由系数预测网络、置信度预测网络和重建与渲染模块构成;
根据训练集和损失函数对构建的表情捕捉模型进行训练,在表情捕捉模型训练后,去除置信度预测网络和重建与渲染模块,获得训练后的表情捕捉模型;
其中,所述系数预测网络用于学习图像特征并预测人脸系数,将T张相同身份但不同表情的人脸图像I输入到系数预测网络,输出人脸的身份系数α、表情系数β、纹理系数δ、姿态系数p以及光照系数γ;
所述置信度预测网络用于为训练时输入的多张人脸图像预测各自的置信度,以优化身份一致性损失;所述重建与渲染模块用于利用预测的人脸系数,结合三维可形变模型(3DMM)重构三维人脸并渲染成二维图像。
进一步地,所述系数预测网络的工作方式如下:
所述全连接层接收骨干网络的输出,并输出姿态系数p和光照系数γ;
定义Xl-1与Xl为骨干网络的上一阶段与当前阶段的输出特征,所述多尺度特征融合模块通过以下方式融合特征:
使用3x3的卷积(步幅=2)对上一阶段特征Xl-1进行降采样得到特征
Figure BDA0004154922210000021
目的是为了使上一阶段特征图与当前阶段特征图的空间尺寸保持一致;
对上一步得到的降采样后特征
Figure BDA0004154922210000022
与当前阶段特征Xl执行拼接操作,再利用3x3卷积层进行特征的融合,获得多尺度融合后的特征Xf
进一步地,所述重建与渲染模块的工作方式如下:
根据三维可形变模型,以及系数预测网络预测获得的身份系数α、表情系数β、纹理系数δ构建三维人脸模型;
根据构建获得的三维人脸模型,结合姿态系数p与光照系数γ,将三位人脸模型渲染至二维图像;
其中获得的二维图像用于损失函数的计算。
进一步地,所述三维人脸模型表示为形状S与纹理T两大部分:
Figure BDA0004154922210000023
Figure BDA0004154922210000024
其中,
Figure BDA0004154922210000025
和/>
Figure BDA0004154922210000026
为三维人脸模型的均值人脸形状和均值纹理,Bid,Bexp与Btex分别代表三维人脸模型中经过PCA降维的人脸身份、表情以及纹理的基底。
进一步地,所述损失函数包括结合置信度权重的身份一致性损失函数;
通过在骨干网络的基础上增加信度预测网络,以预测T张输入图像的身份系数置信度c1…T,其中置信度c的维度与身份系数α的维度相同;
所述身份一致性损失函数的计算方式如下:
对于T张相同身份的输入图像,系数预测网络得到T个人脸的身份系数预测结果αt(t=1,…,T),结合置信度预测网络输出的身份系数置信度,构建T个身份系数的伪标签
Figure BDA0004154922210000031
即:
Figure BDA0004154922210000032
约束T个身份系数与伪标签接近,得到函数:
Figure BDA0004154922210000033
其中,ct为第t张输入图像的置信度;αt为第t张输入图像的身份系数。
进一步地,所述损失函数还包括人脸区域光照损失函数和人脸关键点损失函数;
所述人脸区域光照损失函数的表达式为:
Figure BDA0004154922210000034
式中,A人脸区域mask;
所述人脸关键点损失函数的表达式为:
Figure BDA0004154922210000035
式中,P和
Figure BDA0004154922210000036
分别为输入图像以及渲染后图像的2D关键点坐标,n为人脸关键点数量。
进一步地,所述对人脸数据进行预处理,获得训练集,包括:
将人脸数据中图像裁剪成预设尺寸大小的图像;
将裁剪后的人脸数据切分为训练集、验证集、测试集三个部分;
对训练集中的图像进行人脸分割,得到图像的人脸区域分割结果;采用预设的人脸关键点检测方法,得到人脸的二维关键点坐标。
本发明所采用的另一技术方案是:
一种基于多尺度特征融合的人脸表情捕捉装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明通过多尺度特征融合模块,在骨干网络基础上,不断融合骨干网络不同阶段的图像特征,利用融合特征进行人脸身份、表情、纹理的预测,能够获得更为精细的预测结果。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中表情捕捉模型的训练流程图;
图2是本发明实施例中基于多尺度特征融合的表情捕捉模型结构图;
图3是本发明实施例中多尺度特征融合模块的结构图;
图4是本发明实施例中身份伪标签的构建示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
现有基于三维人脸重建的表情捕捉方法存在以下问题:(1)没有考虑到人脸的身份、表情、纹理信息应同时结合图像的全局与局部信息进行预测,导致无法捕捉人脸细微表情。(2)现有方法在使用身份一致性损失时,没有考虑多张图像的置信度差异性,导致人脸身份与表情的解耦效果不足。针对问题(1),本发明提出多尺度特征融合模块,在现有的骨干网络基础上,不断融合骨干网络不同阶段的图像特征,利用融合特征进行人脸身份、表情、纹理的预测,获得更为精细的预测结果。针对问题(2),本发明提出结合置信度权重的身份一致性损失函数,利用额外的置信度预测网络,为多张输入图像输出身份系数置信度,并以此计算身份伪标签,进而计算身份一致性损失函数,实现更好的人脸身份与表情解耦。
本实施例提供一种基于多尺度特征融合的人脸表情捕捉方法,包括以下步骤:
S101、获取人脸图像;
S102、将获得的人脸图像输入训练后的表情捕捉模型中,输出人脸系数;
所述表情捕捉模型包括系数预测网络,所述系数预测网络包括骨干网络、全连接层以及多尺度特征融合模块;所述多尺度特征融合模块用于融合骨干网络不同阶段的图像特征,并通过融合后特征预测身份系数、表情系数和纹理系数。
作为一种可选的实施方式,上述的表情捕捉模型的训练方式为:第一步需要构建用于训练网络模型的人脸图像数据集,并做一定的数据预处理。第二步构建用于预测人脸系数的深度神经网络模型,针对难以捕获人脸细微表情的问题,提出多尺度特征融合模块,同时结合图像的全局与局部信息,得到更精确的表情预测结果;针对不同输入图像差异大的问题,增加置信度预测分支网络,使用结合置信度权重的身份一致性损失函数,实现更优的身份与表情解耦,进一步提升表情预测的准确性。最后将构建完成的系数预测模型在数据集上训练直至收敛。进一步作为可选的实施方式,采用自监督的方式对模型进行训练。
参见图1,上述的训练步骤具体包括步骤A1-A3:
A1、获取人脸数据,对人脸数据进行预处理,获得训练集;
A2、构建表情捕捉模型,所述表情捕捉模型由系数预测网络、置信度预测网络和重建与渲染模块构成;
A3、根据训练集和损失函数对构建的表情捕捉模型进行训练,在表情捕捉模型训练后,去除置信度预测网络和重建与渲染模块,获得训练后的表情捕捉模型;
其中,所述系数预测网络用于学习图像特征并预测人脸系数,将T张相同身份但不同表情的人脸图像I输入到系数预测网络,输出人脸的身份系数α、表情系数β、纹理系数δ、姿态系数p以及光照系数γ;
所述置信度预测网络用于为训练时输入的多张人脸图像预测各自的置信度,以优化身份一致性损失;所述重建与渲染模块用于利用预测的人脸系数,结合三维可形变模型重构三维人脸并渲染成二维图像。
以下结合附图及具体实施例对上述方法进行详细解释说明。
S1:收集并处理人脸数据集
S1-1:收集带有不同人脸以及表情的图像数据,并将图像数据裁剪成特定尺寸大小(如:224*224像素)。
S1-2:将数据集切分为训练集、验证集、测试集三个部分。
S1-3:对训练集中的图像,使用现有的人脸分割方法,得到图像的人脸区域分割结果。同时使用现有的人脸关键点检测方法,得到人脸的2D关键点坐标。
S2:构建网络模型
本发明解决的任务是为输入的2D人脸图像进行表情捕捉,即预测该图像中人脸对应于特定三维可形变模型(3D Morphable Model,3DMM)的表情系数。模型的整体结构,如图2所示,主要分为三个部分:(1)系数预测网络:利用骨干神经网络学习图像特征并预测人脸系数;(2)结合置信度权重的身份一致性损失:置信度预测网络为训练时输入的多张人脸图像预测各自的置信度,并以此优化身份一致性损失;(3)重建与渲染模块:利用预测的人脸系数,结合3DMM重构三维人脸并渲染成2D图像。
本实施例中,训练时需要置信度预测网络,以及重建与渲染模块生成的信息参与损失函数的计算,而测试与应用时仅需要系数预测网络,由该模块生成所需的表情系数即可。
S2-1:构建系数预测网络:将T张相同身份但不同表情的人脸图像I输入到系数预测网络,获取人脸的身份、表情、纹理、姿态以及光照系数(α,β,δ,p,γ)。系数预测网络由骨干网络、全连接层以及多尺度特征融合模块构成。
S2-1-1:骨干网络:在ImageNet上预训练的ResNet50模型,全连接层接收骨干网络的输出,并输出上述各项系数。现有方法采用骨干网络输出的最后一层特征作为全连接层的输入,预测所有系数。本发明中我们认为人脸的身份、表情以及纹理应考虑不同尺度的图像特征,即同时考虑图像的全局与局部信息,因此使用如图3所示的多尺度特征融合模块,并用融合后特征预测上述的3项系数,而对于姿态与光照系数,仍利用骨干网络的最后一层特征预测。
S2-1-2:多尺度特征融合模块:
定义Xl-1与Xl为骨干网络上一阶段与当前阶段的输出特征。该模块分为两个步骤:(1)使用3x3的卷积(步幅=2)对上一阶段特征Xl-1进行降采样得到
Figure BDA0004154922210000061
目的是为了使上一阶段特征图与当前阶段特征图的空间尺寸保持一致。(2)对上一步得到的降采样后特征
Figure BDA0004154922210000062
与当前阶段特征Xl执行拼接操作,再利用3x3卷积层进行特征的融合,获得多尺度融合后的特征Xf
如图2所示,对于骨干网络ResNet50模型的4个阶段,本实施例采用3个特征融合模块,不断融合本阶段的骨干网络特征以及上一阶段的融合特征,实现图像的多尺度特征融合,最后利用该融合特征预测人脸的身份、表情以及纹理系数。
S2-2:置信度预测网络:
为实现人脸身份与表情的更好解耦,本发明提出结合置信度权重的身份一致性损失函数(具体在步骤S3-3),为实现该损失函数,需要对输入的T张相同身份图像,预测其身份系数置信度。具体实现为在骨干网络的基础上增加一个分支网络,预测T张输入图像的身份系数置信度c1…T,其中置信度c与身份系数α具有相同维度。
作为一种可选的实施方式,本实施例中采用轻量级的MobileNetV3模型作为分支网络,以减少训练时间。将MobileNetV3的最后一层网络修改为全连接层,输出维度设置为与身份系数α相同的维度,即可输出T张图像的身份置信度。
S2-3:重建与渲染模块:
S2-3-1:通过系数预测网络得到人脸的身份、表情、纹理、姿态以及光照系数后(分别为图2中的α,β,δ,p,γ),首先需要结合三维可形变模型即3DMM进行三维人脸重建。在3DMM中,任意的三维人脸可表示为形状S与纹理T两大部分,即:
Figure BDA0004154922210000071
Figure BDA0004154922210000072
其中
Figure BDA0004154922210000073
和/>
Figure BDA0004154922210000074
为3DMM模型的均值人脸形状和均值纹理,Bid,Bexp与Btex分别代表3DMM中经过PCA降维的人脸身份、表情以及纹理的基底。由上述的公式,结合步骤S2-1预测的身份、表情、纹理系数α,β,δ可得到对应于输入图像的三维人脸模型。
S2-3-2:对于上一步得到的三维人脸模型。利用可微分渲染器中包含的针孔相机模型以及球谐光照模型,结合姿态系数p与光照系数γ,可将三位人脸模型渲染至二维图像。该二维图像用于后续损失函数的计算。
S3:计算损失函数
利用步骤S2预测的人脸身份系数,以及最后得到的二维渲染图像,构建本发明用于训练的损失函数。
S3-1:人脸区域光照损失函数。在T张输入图像中,对于第t张图像I,计算渲染后图像
Figure BDA0004154922210000087
与其的脸部像素值差异,得到损失函数Lp,即:
Figure BDA0004154922210000081
其中A是步骤S1-3获取的人脸区域mask。
S3-2:人脸关键点损失函数。计算输入图像与渲染后图像的人脸2D关键点差异,即:
Figure BDA0004154922210000082
其中P和
Figure BDA0004154922210000083
分别为输入图像以及渲染后图像的2D关键点坐标,n为人脸关键点数量。
S3-3:结合置信度权重的身份一致性损失函数。
为处理多张输入图像由于姿态、模糊程度、遮挡等引起的人脸置信度不同的情况,本发明提出该损失函数。对于T张相同身份的输入图像,系数预测网络得到T个人脸的身份系数预测结果αt(t=1,…,T),首先结合步骤S2中置信度预测网络输出的身份系数置信度,构建T个身份系数的伪标签
Figure BDA0004154922210000084
(如图4),即:
Figure BDA0004154922210000085
其中c为步T张输入图像的置信度。之后约束T个身份系数与伪标签接近,得到损失函数,即:
Figure BDA0004154922210000086
利用置信度与身份系数计算得到的身份系数伪标签,与现有方法直接计算身份系数平均值的方式对比,能够减少不同输入图像之间的差异带来的影响,更好地实现人脸身份与表情之间的解耦。
S4:使用在步骤S2构建的系数预测网络模型,在预处理完成并划分好的数据集上进行深度学习模型训练。通过步骤S3设计的损失函数,采用随机梯度下降方法更新模型的权重直至损失函数值收敛,并保存模型的网络权重。最后在数据集的验证集和测试集上进行测试与评估。
综上所述,本实施例方案提出基于多尺度特征融合的人脸表情捕捉方法,一方面通过多尺度特征融合解决人脸细微表情难以捕获的问题,另一方面由提出的结合置信度权重的身份一致性损失函数,实现人脸与表情的更好解耦。表1展示了本发明方法与现有表情捕捉方法在FEAFA人脸数据集上的实验对比结果,本实施例方法在表情系数的预测指标上超越了现有的最优方法。
表1
Figure BDA0004154922210000091
注:表1为本发明方法与现有其他方法在FEAFA数据集的不同人脸表情上的对比结果,数值代表表情系数预测值与真实值的平均绝对误差(MAE)
本实施例还提供一种基于多尺度特征融合的人脸表情捕捉装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本实施例的一种基于多尺度特征融合的人脸表情捕捉装置,可执行本发明方法实施例所提供的一种基于多尺度特征融合的人脸表情捕捉方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种基于多尺度特征融合的人脸表情捕捉方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于多尺度特征融合的人脸表情捕捉方法,其特征在于,包括以下步骤:
获取人脸图像;
将获得的人脸图像输入训练后的表情捕捉模型中,输出人脸系数;
所述表情捕捉模型包括系数预测网络,所述系数预测网络包括骨干网络、全连接层以及多尺度特征融合模块;所述多尺度特征融合模块用于融合骨干网络不同阶段的图像特征,并通过融合后特征预测身份系数、表情系数和纹理系数。
2.根据权利要求1所述的一种基于多尺度特征融合的人脸表情捕捉方法,其特征在于,所述表情捕捉模型通过以下方式训练获得:
获取人脸数据,对人脸数据进行预处理,获得训练集;
构建表情捕捉模型,所述表情捕捉模型由系数预测网络、置信度预测网络和重建与渲染模块构成;
根据训练集和损失函数对构建的表情捕捉模型进行训练,在表情捕捉模型训练后,去除置信度预测网络和重建与渲染模块,获得训练后的表情捕捉模型;
其中,所述系数预测网络用于学习图像特征并预测人脸系数,将T张相同身份但不同表情的人脸图像I输入到系数预测网络,输出人脸的身份系数α、表情系数β、纹理系数δ、姿态系数p以及光照系数γ;
所述置信度预测网络用于为训练时输入的多张人脸图像预测各自的置信度,以优化身份一致性损失;所述重建与渲染模块用于利用预测的人脸系数,结合三维可形变模型重构三维人脸并渲染成二维图像。
3.根据权利要求1或2所述的一种基于多尺度特征融合的人脸表情捕捉方法,其特征在于,所述系数预测网络的工作方式如下:
所述全连接层接收骨干网络的输出,并输出姿态系数p和光照系数γ;
定义Xl-1与Xl为骨干网络的上一阶段与当前阶段的输出特征,所述多尺度特征融合模块通过以下方式融合特征:
对上一阶段特征Xl-1进行降采样得到特征
Figure FDA0004154922200000011
对上一步得到的降采样后特征
Figure FDA0004154922200000012
与当前阶段特征Xl执行拼接操作,进行特征的融合,获得多尺度融合后的特征Xf
4.根据权利要求2所述的一种基于多尺度特征融合的人脸表情捕捉方法,其特征在于,所述重建与渲染模块的工作方式如下:
根据三维可形变模型,以及系数预测网络预测获得的身份系数α、表情系数β、纹理系数δ构建三维人脸模型;
根据构建获得的三维人脸模型,结合姿态系数p与光照系数γ,将三位人脸模型渲染至二维图像;
其中获得的二维图像用于损失函数的计算。
5.根据权利要求4所述的一种基于多尺度特征融合的人脸表情捕捉方法,其特征在于,所述三维人脸模型表示为形状S与纹理T两大部分:
Figure FDA0004154922200000021
Figure FDA0004154922200000022
其中,
Figure FDA0004154922200000023
和/>
Figure FDA0004154922200000024
为三维人脸模型的均值人脸形状和均值纹理,Bid,Bexp与Btex分别代表三维人脸模型中经过PCA降维的人脸身份、表情以及纹理的基底。
6.根据权利要求2所述的一种基于多尺度特征融合的人脸表情捕捉方法,其特征在于,所述损失函数包括结合置信度权重的身份一致性损失函数;
通过在骨干网络的基础上增加信度预测网络,以预测T张输入图像的身份系数置信度c1…T,其中置信度c的维度与身份系数α的维度相同;
所述身份一致性损失函数的计算方式如下:
对于T张相同身份的输入图像,系数预测网络得到T个人脸的身份系数预测结果αt(t=1,…,T),结合置信度预测网络输出的身份系数置信度,构建T个身份系数的伪标签
Figure FDA0004154922200000025
即:
Figure FDA0004154922200000026
约束T个身份系数与伪标签接近,得到函数:
Figure FDA0004154922200000027
其中,ct为第t张输入图像的置信度;αt为第t张输入图像的身份系数。
7.根据权利要求6所述的一种基于多尺度特征融合的人脸表情捕捉方法,其特征在于,所述损失函数还包括人脸区域光照损失函数和人脸关键点损失函数;
所述人脸区域光照损失函数的表达式为:
Figure FDA0004154922200000028
式中,A人脸区域mask;
所述人脸关键点损失函数的表达式为:
Figure FDA0004154922200000031
式中,P和
Figure FDA0004154922200000032
分别为输入图像以及渲染后图像的2D关键点坐标,n为人脸关键点数量。
8.根据权利要求2所述的一种基于多尺度特征融合的人脸表情捕捉方法,其特征在于,所述对人脸数据进行预处理,获得训练集,包括:
将人脸数据中图像裁剪成预设尺寸大小的图像;
将裁剪后的人脸数据切分为训练集、验证集、测试集三个部分;
对训练集中的图像进行人脸分割,得到图像的人脸区域分割结果;采用预设的人脸关键点检测方法,得到人脸的二维关键点坐标。
9.一种基于多尺度特征融合的人脸表情捕捉装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-8任一项所述方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。
CN202310331030.XA 2023-03-30 2023-03-30 基于多尺度特征融合的人脸表情捕捉方法、装置及介质 Pending CN116434303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310331030.XA CN116434303A (zh) 2023-03-30 2023-03-30 基于多尺度特征融合的人脸表情捕捉方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310331030.XA CN116434303A (zh) 2023-03-30 2023-03-30 基于多尺度特征融合的人脸表情捕捉方法、装置及介质

Publications (1)

Publication Number Publication Date
CN116434303A true CN116434303A (zh) 2023-07-14

Family

ID=87086607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310331030.XA Pending CN116434303A (zh) 2023-03-30 2023-03-30 基于多尺度特征融合的人脸表情捕捉方法、装置及介质

Country Status (1)

Country Link
CN (1) CN116434303A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218499A (zh) * 2023-09-29 2023-12-12 北京百度网讯科技有限公司 面部表情捕捉模型的训练方法、面部表情驱动方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218499A (zh) * 2023-09-29 2023-12-12 北京百度网讯科技有限公司 面部表情捕捉模型的训练方法、面部表情驱动方法和装置

Similar Documents

Publication Publication Date Title
WO2016054779A1 (en) Spatial pyramid pooling networks for image processing
CN108986891A (zh) 医疗影像处理方法及装置、电子设备及存储介质
CN111667459B (zh) 一种基于3d可变卷积和时序特征融合的医学征象检测方法、***、终端及存储介质
CN112396645A (zh) 一种基于卷积残差学习的单目图像深度估计方法和***
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN110807362A (zh) 一种图像检测方法、装置和计算机可读存储介质
CN112132739A (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
dos Santos Rosa et al. Sparse-to-continuous: Enhancing monocular depth estimation using occupancy maps
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
CN116958492B (zh) 一种基于NeRf重建三维底座场景渲染的VR编辑方法
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN112818955A (zh) 一种图像分割方法、装置、计算机设备以及存储介质
CN112258565A (zh) 图像处理方法以及装置
CN116434303A (zh) 基于多尺度特征融合的人脸表情捕捉方法、装置及介质
CN112396657A (zh) 一种基于神经网络的深度位姿估计方法、装置及终端设备
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与***
CN108986210B (zh) 三维场景重建的方法和设备
Zhou et al. A superior image inpainting scheme using Transformer-based self-supervised attention GAN model
CN112307991A (zh) 一种图像识别方法、装置及存储介质
CN117078809A (zh) 基于图像的动效生成方法、装置、设备和存储介质
CN114820755B (zh) 一种深度图估计方法及***
CN116385369A (zh) 深度图像质量评价方法、装置、电子设备及存储介质
CN117036658A (zh) 一种图像处理方法及相关设备
CN116228850A (zh) 物体姿态估计方法、装置、电子设备及可读存储介质
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination