CN117765155A - 一种表情重定向驱动方法及虚拟显示设备 - Google Patents
一种表情重定向驱动方法及虚拟显示设备 Download PDFInfo
- Publication number
- CN117765155A CN117765155A CN202310102129.2A CN202310102129A CN117765155A CN 117765155 A CN117765155 A CN 117765155A CN 202310102129 A CN202310102129 A CN 202310102129A CN 117765155 A CN117765155 A CN 117765155A
- Authority
- CN
- China
- Prior art keywords
- driving
- expression
- target
- head model
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 title claims abstract description 70
- 210000001097 facial muscle Anatomy 0.000 claims description 50
- 210000003205 muscle Anatomy 0.000 claims description 39
- 238000005192 partition Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 35
- 238000009826 distribution Methods 0.000 claims description 29
- 230000003993 interaction Effects 0.000 claims description 25
- 238000005457 optimization Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 13
- 238000000638 solvent extraction Methods 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 5
- 210000003128 head Anatomy 0.000 description 102
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 9
- 230000001815 facial effect Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 210000000988 bone and bone Anatomy 0.000 description 4
- 210000005252 bulbus oculi Anatomy 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000037303 wrinkles Effects 0.000 description 2
- 208000013875 Heart injury Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- WHHGLZMJPXIBIX-UHFFFAOYSA-N decabromodiphenyl ether Chemical compound BrC1=C(Br)C(Br)=C(Br)C(Br)=C1OC1=C(Br)C(Br)=C(Br)C(Br)=C1Br WHHGLZMJPXIBIX-UHFFFAOYSA-N 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 210000003041 ligament Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 230000004215 skin function Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请涉及三维重建技术领域,提供一种表情重定向驱动方法及虚拟显示设备,在重建目标对象用于远程三维交互的数字人时,将人脸生物学特征中的人脸肌肉分布作为先验,对从单目相机采集的人脸图像中的稠密关键点进行分区,这样,可以利用人脸肌肉对应的表情影响权重,对相应分区内关键点对模型顶点的初始驱动权重进行更新,获得各关键点的目标驱动权重,并根据各关键点的目标驱动权重,调整初步表情驱动后初始头部模型中顶点的坐标,从而在表情参数驱动的基础上,利用人脸肌肉对模型的顶点进行偏置,进而增加初始头部模型的真实性和表达精度,以此进行表情驱动的优化,获得细节表达精度更高的目标头部模型。
Description
技术领域
本申请涉及三维重建技术领域,提供一种表情重定向驱动方法及虚拟显示设备。
背景技术
在远程三维通信***中,人体的三维重建与驱动是构建远程三维呈现的基础,而人脸驱动则是人体驱动的重点,且三维模型在通信***的终端设备上渲染显示的效果,会影响用户的感知和体验。因此,实时高精度的表情驱动,有利于更精确的面部表情表达,直接影响了三维模型的显示效果。
在基于有限的输入数据进行表情驱动的情况下,如基于单相机采集的图像进行表情驱动,对驱动算法有较高的需求,这是因为驱动算法的执行效率、输出精度等,直接影响了驱动数据的输出。
目前,常用的表情驱动算法通常对人脸大幅度运动的情形有比较好的支撑,例如张嘴、抬眉、微笑等面部动作,但无法表达面部细节特征,而这些面部细节特征恰恰能够帮助人们理解微表情,让人脸更具有表现力。
发明内容
本申请实施例提供了一种表情重定向驱动方法及虚拟显示设备,用于提高三位数字人面部的精细程度。
一方面,本申请实施例提供一种表情重定向驱动方法,应用于数字人,包括:
对远程三维交互过程中,单相机采集的目标对象的交互图像进行预处理,获得人脸图像;
提取所述人脸图像中的稠密关键点,并根据各关键点的原始驱动权重,对预设头部模型进行初步表情驱动,获得所述目标对象对应的数字人的初始头部模型;
根据人脸肌肉与表情的关联关系,优化所述各关键点的初始驱动权重,获得所述各关键点的目标驱动权重;
根据所述各关键点的目标驱动权重,调整所述初始头部模型中相应顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型。
另一方面,本申请实施例提供一种虚拟显示设备,包括处理器、存储器和显示屏,所述显示屏、所述存储器和所述处理器通过总线连接;
所述显示屏用于显示远程三维交互过程中目标对象的数字人;
所述存储器存储有计算机程序,所述处理器根据所述计算机程序,执行以下操作:
对远程三维交互过程中,单相机采集的目标对象的交互图像进行预处理,获得人脸图像;
提取所述人脸图像中的稠密关键点,并根据各关键点的原始驱动权重,对预设头部模型进行初步表情驱动,获得所述目标对象对应的数字人的初始头部模型;
根据人脸肌肉与表情的关联关系,优化所述各关键点的初始驱动权重,获得所述各关键点的目标驱动权重;
根据所述各关键点的目标驱动权重,调整所述初始头部模型中相应顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型。
可选的,所述关联关系包括先验的人脸肌肉分布信息,以及,每块人脸肌肉对应的表情影响权重,所述处理器根据人脸肌肉与表情的关联关系,优化所述各关键点的初始驱动权重,获得所述各关键点的目标驱动权重,具体操作为:
根据先验的人脸肌肉分布信息,对所述稠密关键点进行分区;
将每块人脸肌肉对应的表情影响权重,与相应分区内关键点的初始驱动权重进行加权,获得相应分区内关键点的目标驱动权重。
可选的,所述处理器根据所述各关键点的目标驱动权重,调整所述初始头部模型中相应顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型,具体操作为:
根据先验的人脸肌肉分布信息,对所述初始头部模型进行分区;
针对所述初始头部模型的至少一个目标分区,使用相应分区内关键点的目标驱动权重,调整所述目标分区内顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型。
可选的,所述表情影响权重与所述人脸肌肉之间具有非线性关系。
可选的,获得表情驱动优化后所述数字人的目标头部模型之后,所述处理器还执行:
针对当前帧对应的目标头部模型中的全部顶点,对相邻位置处的顶点进行插值以进行空域上的平滑;
对所述当前帧及其之前的连续N帧对应的目标头部模型中,相应顶点的坐标进行平均以进行时域上的平滑。
另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机设备执行本申请实施例提供的表情重定向驱动方法的步骤。
本申请实施例提供的一种表情重定向驱动方法及虚拟显示设备中,针对单目相机采集的人脸图像,进行稠密关键点提取,提高了人脸驱动的精度,并且,将人脸生物学特征中的人脸肌肉分布作为先验,对提取的稠密关键点进行分区,这样,利用人脸肌肉对应的表情影响权重,对相应分区内关键点对模型顶点的初始驱动权重进行更新,获得各关键点的目标驱动权重,并根据各关键点的目标驱动权重,调整初步表情驱动后初始头部模型中顶点的坐标,从而在表情参数驱动的基础上,利用人脸肌肉对模型的顶点进行偏置,进而增加初始头部模型的真实性和表达精度,以此进行表情驱动的优化,获得细节表达精度更高的目标头部模型。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的远程三维通信***结构图;
图2为本申请实施例提供的表情重定向驱动方法流程图;
图3A为本申请实施例提供的稠密关键点示意图;
图3B为本申请实施例提供的稠密关键点与头部模型映射示意图;
图4为本申请实施例提供的语义分割示意图;
图5为本申请实施例提供的人脸肌肉分布示意图;
图6为本申请实施例提供的人脸肌肉与表情的关系示意图;
图7为本申请实施例提供的关键点权重更新方法流程图;
图8为本申请实施例提供的表情驱动优化方法流程图;
图9为本申请实施例提供的平滑方法流程图;
图10为本申请实施例提供的完整的表情重定向驱动方法流程图;
图11为本申请实施例提供的虚拟显示设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
如图1所示,远程三维通信***一般可分为三端:采集端、传输端(也称为云端)、显示端。其中,采集端负责采集人体重建数据和构建人体三维模型,传输端负责对重建的人体三维模型的数据进行接收、传输和分发,显示端负责根据接收数据进行三维模型的渲染显示。三维重建的数据涉及形状、运动和材质等信息。高精度的人体三维模型往往意味着比较大的数据体量,这与在显示端的显示的实时性存在冲突,而远程三维通信***的沉浸式渲染,往往又需要高精度的三维模型。因此,为平衡传输数据体量和传输延迟,提高渲染质量,在远程三维重建***中,大多采用基于少量的驱动数据驱动预设模型的方式,进行人体的三维重建与驱动。
人脸是重要的信息传递的媒介,在人体的三维重建与驱动中,头部的三维重建与驱动是影响三维人体模型呈现效果的重要因素。在头部驱动过程中,通过将交互对象的表情迁移到预先重建的头部模型(可以为已重建的其他人的模型或Avatar)上,可以实现表情重定向驱动。目前,常用的表情重定向驱动算法,一般通过混合变形(blendshape)表情参数进行面部驱动,这对人脸大幅度运动的情形有比较好的支撑,例如张嘴、抬眉、微笑等面部动作,但其无法表达面部细节特征,实时驱动精度有限,而头部表现的拟真程度,严重影响了AR、VR等产品提供的面对面的三维通讯效果。
一般的,人脸的生物学特征(如肌肉、器官等)恰恰能够对微表情进行表达,让人脸更具有表现力,有助于跨过恐怖谷效应,并且,这些生物学特征也存在个性化,如人的胖瘦、年龄等因素会导致皮肤、肌肉、骨骼等差异,使得同一个表情参数在不同的被驱动模型上会有表情差异。
鉴于此,本申请实施例提供一种表情重定向驱动方法及虚拟显示设备,针对单相机采集的人脸图像中提取的稠密关键点,先基于每个关键点的原始驱动权重,对预设头部模型进行初步驱动;再利用先验的人脸肌肉分布,对稠密关键点进行分区,并利用每个人脸肌肉对表情的影响权重,对相应分区内的关键点的初始驱动权重进行更新,获得每个关键点的目标驱动权重;然后根据各分区的关键点的目标驱动权重,调整初步驱动后的头部模型中相应顶点的坐标,以此进行表情重定向驱动的优化,得到目标头部模型。
本申请实施例中的头部模型,可以为参数化模型。其中,参数化模型是指对预先扫描的大量高精度三维头部模型进行降维分析(如主成分分析或者网络自编码等方法),生成的一组基函数,这组基函数中参数变量(即形状参数shape、表情参数expression、位姿参数pose)可以作为人体头部的参数化表达,因此,人脸的形状可以看作这些参数共同作用下的形状。通过对这组基函数进行线性或非线性混合,便可以产生个性化的头部模型。目前经典的头部的参数化模型主要包括3DMM、FLAME、DECA等模型。
以基于FLAME模型构建的参数化模型为例,其由标准的线性混合蒙皮(Linearblend skinning,LBS)和混合形状(Blend Shape)两部分构成,采用的标准网格模型中网格顶点数N=5023,关节数K=4,分别位于颈部、下颚和两个眼球。FLAME参数化模型的主要构成如下:
其中,表示形状参数,/>表示姿态参数(包括骨架的运动参数),/>为表情参数。 可以唯一标识头部模型的顶点坐标。W()表示线性蒙皮函数,用于将头部模型网格T沿关节进行变换,J()表示预测不同头部关节点位置的函数,T表示头部模型网格,Bs()表示形状参数对头部模型网格T的影响函数,Bp()表示姿态参数对头部模型网格T的影响函数,Be()表示表情参数对头部模型网格T的影响函数,Tp()表示在形状参数、姿态参数和表情参数的共同作用下对头部模型网格T进行形变的函数,s、p、e、ω分别表示形状权重、姿态权重、表情权重,蒙皮权重。s、p、e、ω是通过对预先构建的头部样本数据训练得到的。s、p、e、ω训练完成后,后续只要提供/>等参数即可得到拓扑一致的头部参数化模型。
本申请实施例采用的头部参数化模型,可以是通过预先采集的RGBD图像(包含RGB图像和深度图像)或者RGB图像拟合出的参数化模型,或者是美工按照参数化模型的拓扑结构重构的模型。
在参数化模型中,表情参数可以驱动人脸进行非刚性形变,从而表达人脸的各种表情变化,实现表情重定向驱动。
参见图2,为本申请实施例提供的表情重定向驱动方法流程图,该流程主要包括以下几步:
S201:对远程三维交互过程中,单相机采集的目标对象的交互图像进行预处理,获得人脸图像。
在远程三维交互过程中,单相机采集的交互图像通常会包含目标对象所在环境中其他物体,对人脸形成干扰,因此,针对交互过程中的每帧交互图像,先进行人脸检测,裁剪出包含人脸区域的人脸图像。
考虑到交互过程中,目标对象在单相机前可能会进行前后左右移动,这样,移动后就会导致人脸在交互图像中的分辨率发生了变化。为了进行稳定的关键点提取,在一些实施例中,对每帧交互图像中裁剪出的人脸图像进行了分割和对齐,从而将人脸图像统一为一个固定尺寸(如224*224或者512*512),这样,对齐后人脸图像中的人脸区域是固定的,从而提高后续关键点检测的准确性。
其中,人脸分割与对齐可采用常规方法,例如face_alignment、dlib等。
S202:提取人脸图像中的稠密关键点,并根据各关键点的原始驱动权重,对预设头部模型进行初步表情驱动,获得目标对象对应的数字人的初始头部模型。
目前,相关技术在进行表情驱动时,提取的关键点数量一般为几十个(如68个),比较稀疏,不适用于精细的人脸驱动。
为了提高人脸的精细度,本申请实施例针对每帧人脸图像,采用Mediapipe_facemesh方法,获取人脸468个稠密的关键点,包含眼球、眼角、眉毛、嘴角等,如图3A所示。
一般的,目标对象的形状在远程三维交互过程中是固定不变的,因此,在交互过程中,可以根据第一帧人脸图像中提取的468个关键点,计算出形状参数后,后续直接使用,无需重新计算,或者,也可以在终端设备本地预先存储一个与目标对象的形状一致的头部模型,这样,在交互时可以直接使用存储的头部模型进行交互。而目标对象在交互过程中,可能会发生头部转动、平移等刚性运动,头部位姿是不断变化的,需要根据每帧人脸图像中提取的468个关键点,实时计算位姿参数,同时,在交互过程中,目标对象可能做出微笑、愤怒、伤心等非刚性运动,面部表情也是不断变化的,因此,也需要根据每帧人脸图像中提取的468个关键点,实时计算表情参数。
考虑到头部位姿的变化幅度一般比较大,相关技术在使用位姿参数驱动人脸进行刚性形变的过程比较成熟,因此,此部分不作为本申请实施例的重点,在此不再展开描述,本申请实施例重点在于远程三维交互过程中,基于表情参数驱动人脸进行非刚性形变的过程。
在一种示例中,获得468个稠密的关键点后,可以通过二维到三维的映射,建立人脸关键点与模型顶点的对应关系,其中,一个关键点可以对应一个多顶点,一个顶点也可以对应一个或多个关键点。
例如,如图3B所示,(a)表示提取的468个人脸关键点,(b)为预设头部模型,通过建模软件或者Warp软件,可以建立关键点与模型顶点间的对应关系。
基于关键点与模型顶点间的对应关系,针对每一个关键点,利用该关键点的原始驱动权重,调整预设头部模型中对应的顶点的坐标以进行初步表情驱动,从而获得目标对象对应的数字人的初始头部模型。
其中,原始驱动权重的实时求解过程,则是根据对应关系及预先构建的预设头部模型的表情基实时表情参数的过程,具体求解公式表示如下:
其中,F(ψ)表示实时提取的稠密关键点,base表示预设头部模型,即各关键点在模型上的映射点,βi表示第i个表情基,ψi表示需要计算的表情参数,n为表情基的总数。
针对公式3,可采用Cholesky分解法,对构建的稠密矩阵进行求解,便可以获得表情参数,即获得各关键点对预设头部模型进行初步表情驱动的原始驱动权重。
需要说明的是,在进行初步表情驱动时,预设头部模型的形状参数和位姿参数已经与当前目标对象的形状和姿态一致。
S203:根据人脸肌肉与表情的关联关系,优化各关键点的初始驱动权重,获得各关键点的目标驱动权重。
人脸的生物学特征主要包括五官、骨骼和肌肉。其中,人脸五官可通过语义分割方式获得,分割效果如图4所示。考虑到人脸变形主要是通过骨骼和肌肉进行驱动,而肌肉是骨骼间连接的纽带,因此,本申请实施例以生物学特征中的人脸肌肉对面部表情的影响,对表情重定向驱动的结果进行优化,得到面部表情细节更加丰富的高精度头部模型。
如图5所示,为本申请实施例提供的人脸肌肉分布示意图,可将人脸肌肉分布作为先验,根据人脸肌肉分布情况和提取的关键点数量,预先建立人脸肌肉与表情的关联关系。其中,关联关系包括先验的人脸肌肉分布信息(如人脸肌肉的类别、位置等信息),以及,每块人脸肌肉对应的表情影响权重。
在一种示例中,关联关系的建立过程为:通过统计提前预设的各种表情下,人脸肌肉分布的应力情况,获得每块人脸肌肉影响的顶点以及对顶点的影响大小。例如,如图6所示,为愤怒龇牙表情下,各人脸肌肉的应力示意图。进一步地,根据顶点与关键点的对应关系,确定每块人脸肌肉影响的关键点,以及,根据每块人脸肌肉对顶点的影响大小,确定每块人脸肌肉对关键点的影响大小,并将每块人脸肌肉对关键点的影响大小,作为相应的人脸肌肉对应的表情影响权重,从而获得人脸肌肉与表情的关联关系。
由于人脸肌肉可以驱动人脸变形,从而影响面部表情,因此,可以基于人脸肌肉与表情的关联关系,优化各关键点的初始驱动权重,获得各关键点的目标驱动权重,具体过程参见图7,主要包括以下几步:
S2031:根据先验的人脸肌肉分布信息,对稠密关键点进行分区。
其中,关键点分区的数量与人脸肌肉分布中肌肉数量一致,并且,每块人脸肌肉的对应的分区内关键点的数量不同。
S2032:将每块人脸肌肉对应的表情影响权重,与相应分区内关键点的初始驱动权重进行加权,获得相应分区内关键点的目标驱动权重。
基于稠密人脸关键点进行表情参数求解时,每个关键点对模型顶点有一个初始驱动权重,每块人脸肌肉也可以驱动模型顶点变形,对应一个更加精细的表情影响权重,并将该表情影响权重作为分区内关键点的表情影响权重,通过将关键点的初始驱动权重和关键点的标签驱动权重进行加权,可以获得更加精确的目标驱动权重。
在一种示例中,人脸肌肉与表情影响权重之间可以是线性关系,即,每块人脸肌肉对应的分区内,不同关键点的表情影响权重大小相同。
在另一种示例中,人脸肌肉与表情影响权重之间还可以是非线性关系,即,每块人脸肌肉对应的分区内,不同关键点的表情影响权重大小不同。
例如,以笑肌为例,靠近嘴部的关键点的表情影响权重,大于靠近脸部的关键点的表情影响权重。
S204:根据各关键点的目标驱动权重,调整初始头部模型中相应顶点的坐标,获得表情驱动优化后数字人的目标头部模型。
在一些实施例中,由于人脸的稠密关键点是根据人脸肌肉分布信息进行分区的,初始头部模型也是根据人脸肌肉分布信息进行分区的,因此,稠密关键点的分区与初始头部模型的分区具有一一对应的关系。因此,可以根据分区后的结果,使用每个分区内关键点的目标驱动权重,对相应分区内的模型顶点进行全局优化,获得高精度的目标头部模型。
考虑到不同关键点对面部细节的影响不同,例如,眼角、嘴部、额头等区域的关键点,对皱纹细节的影响较大,再例如,眼球的转动对思考细节的影响较大。因此,可以对初步表情驱动后的初始头部模型中细节信息较为丰富的区域,进行表情驱动优化,获得精细程度更高的目标头部模型。具体优化过程参见图8,主要包括以下几步:
S2041:根据先验的人脸肌肉分布信息,对初始头部模型进行分区。
对初步表情驱动后的初始头部模型中细节信息较为丰富的区域进行优化时,可以按照人脸肌肉分布信息,对初始头部模型进行分区,从而对细节信息较为丰富的目标分区进行局部优化。
S2042:针对初始头部模型的至少一个目标分区,使用相应分区内关键点的目标驱动权重,调整目标分区内顶点的坐标,获得表情驱动优化后数字人的目标头部模型。
在基于实时求解的表情参数对预设头部模型进行初步驱动后,经过各关键点优化后的目标驱动权重,可对至少一个目标区分内的顶点进行偏置,从而改变目标分区内顶点的坐标,获得目标对象对应的数字人的目标头部模型。
交互过程中,目标对象的动作一般会发生连续变化,为了防止人脸抖动的产生,在一些实施例中,还可以对当前帧对应的目标头像的目标头部模型,在时域和空域上进行平滑,从而进一步提高模型的精度。
具体平滑过程参见图9,主要包括以下几步:
S901:针对当前帧对应的目标头部模型中的全部顶点,对相邻位置处的顶点进行插值以进行空域上的平滑。
在一种示例中,对目标头部模型中的所有顶点建立k-dimensional树(简称kd-tree,一种对k维空间中的点进行存储以便对其进行快速检索的树形数据结构)然后采用滤波方法,对kd-tree中顶点进行点云平滑。
需要说明的是,本申请实施例对滤波方法不做限制性要求,例如,可以采用均值滤波、中指滤波和高斯滤波中的至少一种,可以采用PCL库直接进行滤波处理。
S902:对当前帧及其之前的连续N帧对应的目标头部模型中,相应顶点的坐标进行平均以进行时域上的平滑。
交互过程是一个时序连续的工程,因此,可以对连续N帧的目标头部模型进行时域平滑。可选的,N大于等于3小于等于5。
本申请的实施例提供的表情重定向驱动方法,对单相机采集的人脸图像进行稠密关键点提取,丰富了关键点数量,提高了人脸驱动的精度,并利用每个关键点的原始驱动权重,对预设头部模型进行初步驱动,获得与目标对象的表情初步一致的初始头部模型,此时,初始头部模型的细节表达较差,为了提高初始头部模型的细节信息(如眼球方向、皱纹等信息),将人脸生物学特征中的人脸肌肉分布作为先验,对稠密关键点进行分区,并利用每个人脸肌肉对表情的影响权重,更新相应分区内的关键点的初始驱动权重,进一步地,根据各分区关键点更新后的目标驱动权重,对初始头部模型的顶点进行偏置,增加初始头部模型的真实性和表达精度,以此进行表情重定向驱动的优化,获得细节信息丰富的目标头部模型。
参见图10,为本申请实施例提供的表情重定向驱动的完整方法流程图,该流程主要包括以下几步:
S1001:获取远程三维交互过程中,单相机采集的目标对象的交互图像。
S1002:对交互图像进行预处理操作,获得人脸图像。
S1003:提取人脸图像中的稠密关键点。
S1004:针对每个关键点,建立其与预设头部模型中顶点的对应关系。
S1005:根据该对应关系,求解各关键点的初始驱动权重。
S1006:根据各关键点的初始驱动权重,对预设头部模型进行初步表情驱动。
S1007:根据先验的人脸肌肉分布信息,对稠密关键点进行分区,获得人脸肌肉与关键点间的对应关系。
S1008:根据每块人脸肌肉对应的表情影响权重,更新相应分区内各关键点的初始驱动权重,获得目标驱动权重。
S1009:根据先验的人脸肌肉分布信息,对初始头部模型进行分区,获得人脸肌肉与模型顶点间的对应关系。
S1010:根据人脸肌肉与关键点间的对应关系,以及,人脸肌肉与模型顶点间的对应关系,使用目标分区内关键点的目标驱动权重,对相应分区内顶点进行偏置,实现对表情重定向驱动的优化。
S1011:对当前帧目标对象的目标头部模型进行时域和空域的平滑,获得表情重定向驱动的最终结果。
需要说明的是,图10所示的流程为远程三维交互过程中表情参数的驱动过程,不包含位姿参数和形状参数的驱动过程,将本申请实施例中表情参数驱动后的结果,与位姿参数和形状参数驱动后的结果相结合后,可以得到与数字人的人体三维模型拼接的头部三维模型。
基于相同的技术构思,本申请实施例提供了一种虚拟显示设备,该虚拟显示设备可以为AR设备,也可以为VR设备,可以实现上述实施例提供的表情重定向驱动方法的步骤。
参见图11,该虚拟显示设备包括处理器1101、存储器1102和显示屏1103,所述显示屏1103、所述存储器1102和所述处理器1101通过总线1104连接;
所述显示屏1103用于显示远程三维交互过程中目标对象的数字人;
所述存储器1102存储有计算机程序,所述处理器1101根据所述计算机程序,执行以下操作:
对远程三维交互过程中,单相机采集的目标对象的交互图像进行预处理,获得人脸图像;
提取所述人脸图像中的稠密关键点,并根据各关键点的原始驱动权重,对预设头部模型进行初步表情驱动,获得所述目标对象对应的数字人的初始头部模型;
根据人脸肌肉与表情的关联关系,优化所述各关键点的初始驱动权重,获得所述各关键点的目标驱动权重;
根据所述各关键点的目标驱动权重,调整所述初始头部模型中相应顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型。
可选的,所述关联关系包括先验的人脸肌肉分布信息,以及,每块人脸肌肉对应的表情影响权重,所述处理器1101根据人脸肌肉与表情的关联关系,优化所述各关键点的初始驱动权重,获得所述各关键点的目标驱动权重,具体操作为:
根据先验的人脸肌肉分布信息,对所述稠密关键点进行分区;
将每块人脸肌肉对应的表情影响权重,与相应分区内关键点的初始驱动权重进行加权,获得相应分区内关键点的目标驱动权重。
可选的,所述处理器1101根据所述各关键点的目标驱动权重,调整所述初始头部模型中相应顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型,具体操作为:
根据先验的人脸肌肉分布信息,对所述初始头部模型进行分区;
针对所述初始头部模型的至少一个目标分区,使用相应分区内关键点的目标驱动权重,调整所述目标分区内顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型。
可选的,所述表情影响权重与所述人脸肌肉之间具有非线性关系。
可选的,获得表情驱动优化后所述数字人的目标头部模型之后,所述处理器1101还执行:
针对当前帧对应的目标头部模型中的全部顶点,对相邻位置处的顶点进行插值以进行空域上的平滑;
对所述当前帧及其之前的连续N帧对应的目标头部模型中,相应顶点的坐标进行平均以进行时域上的平滑。
需要说明的是,图11仅是一种示例,给出虚拟显示设备执行本申请实施例提供的表情重定向驱动方法步骤所必要的硬件。未示出的,该虚拟显示设备还可以包括扬声器、拾音器、通信接口、电源、左右眼镜片等常规交互设备的硬件。
本申请实施例图11中涉及的处理器可以是中央处理器(Central ProcessingUnit,CPU),通用处理器,图形处理器(Graphics Processing Unit,GPU)数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-specific IntegratedCircuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
本申请实施例还提供一种计算机可读存储介质,用于存储一些指令,这些指令被执行时,可以完成前述实施例中的表情重定向驱动方法。
本申请实施例还提供一种计算机程序产品,用于存储计算机程序,该计算机程序用于执行前述实施例中的表情重定向驱动方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种表情重定向驱动方法,其特征在于,应用于数字人,所述方法包括:
对远程三维交互过程中,单相机采集的目标对象的交互图像进行预处理,获得人脸图像;
提取所述人脸图像中的稠密关键点,并根据各关键点的原始驱动权重,对预设头部模型进行初步表情驱动,获得所述目标对象对应的数字人的初始头部模型;
根据人脸肌肉与表情的关联关系,优化所述各关键点的初始驱动权重,获得所述各关键点的目标驱动权重;
根据所述各关键点的目标驱动权重,调整所述初始头部模型中相应顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型。
2.如权利要求1所述的方法,其特征在于,所述关联关系包括先验的人脸肌肉分布信息,以及,每块人脸肌肉对应的表情影响权重,所述根据人脸肌肉与表情的关联关系,优化所述各关键点的初始驱动权重,获得所述各关键点的目标驱动权重,包括:
根据先验的人脸肌肉分布信息,对所述稠密关键点进行分区;
将每块人脸肌肉对应的表情影响权重,与相应分区内关键点的初始驱动权重进行加权,获得相应分区内关键点的目标驱动权重。
3.如权利要求2所述的方法,其特征在于,所述根据所述各关键点的目标驱动权重,调整所述初始头部模型中相应顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型,包括:
根据先验的人脸肌肉分布信息,对所述初始头部模型进行分区;
针对所述初始头部模型的至少一个目标分区,使用相应分区内关键点的目标驱动权重,调整所述目标分区内顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型。
4.如权利要求2或3所述的方法,其特征在于,所述表情影响权重与所述人脸肌肉之间具有非线性关系。
5.如权利要求1所述的方法,其特征在于,获得表情驱动优化后所述数字人的目标头部模型之后,所述方法还包括:
针对当前帧对应的目标头部模型中的全部顶点,对相邻位置处的顶点进行插值以进行空域上的平滑;
对所述当前帧及其之前的连续N帧对应的目标头部模型中,相应顶点的坐标进行平均以进行时域上的平滑。
6.一种虚拟显示设备,其特征在于,包括处理器、存储器和显示屏,所述显示屏、所述存储器和所述处理器通过总线连接;
所述显示屏用于显示远程三维交互过程中目标对象的数字人;
所述存储器存储有计算机程序,所述处理器根据所述计算机程序,执行以下操作:
对远程三维交互过程中,单相机采集的目标对象的交互图像进行预处理,获得人脸图像;
提取所述人脸图像中的稠密关键点,并根据各关键点的原始驱动权重,对预设头部模型进行初步表情驱动,获得所述目标对象对应的数字人的初始头部模型;
根据人脸肌肉与表情的关联关系,优化所述各关键点的初始驱动权重,获得所述各关键点的目标驱动权重;
根据所述各关键点的目标驱动权重,调整所述初始头部模型中相应顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型。
7.如权利要求6所述的虚拟显示设备,其特征在于,所述关联关系包括先验的人脸肌肉分布信息,以及,每块人脸肌肉对应的表情影响权重,所述处理器根据人脸肌肉与表情的关联关系,优化所述各关键点的初始驱动权重,获得所述各关键点的目标驱动权重,具体操作为:
根据先验的人脸肌肉分布信息,对所述稠密关键点进行分区;
将每块人脸肌肉对应的表情影响权重,与相应分区内关键点的初始驱动权重进行加权,获得相应分区内关键点的目标驱动权重。
8.如权利要求7所述的虚拟显示设备,其特征在于,所述处理器根据所述各关键点的目标驱动权重,调整所述初始头部模型中相应顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型,具体操作为:
根据先验的人脸肌肉分布信息,对所述初始头部模型进行分区;
针对所述初始头部模型的至少一个目标分区,使用相应分区内关键点的目标驱动权重,调整所述目标分区内顶点的坐标,获得表情驱动优化后所述数字人的目标头部模型。
9.如权利要求7或8所述的虚拟显示设备,其特征在于,所述表情影响权重与所述人脸肌肉之间具有非线性关系。
10.如权利要求6所述的虚拟显示设备,其特征在于,获得表情驱动优化后所述数字人的目标头部模型之后,所述处理器还执行:
针对当前帧对应的目标头部模型中的全部顶点,对相邻位置处的顶点进行插值以进行空域上的平滑;
对所述当前帧及其之前的连续N帧对应的目标头部模型中,相应顶点的坐标进行平均以进行时域上的平滑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310102129.2A CN117765155A (zh) | 2023-02-08 | 2023-02-08 | 一种表情重定向驱动方法及虚拟显示设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310102129.2A CN117765155A (zh) | 2023-02-08 | 2023-02-08 | 一种表情重定向驱动方法及虚拟显示设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117765155A true CN117765155A (zh) | 2024-03-26 |
Family
ID=90318800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310102129.2A Pending CN117765155A (zh) | 2023-02-08 | 2023-02-08 | 一种表情重定向驱动方法及虚拟显示设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117765155A (zh) |
-
2023
- 2023-02-08 CN CN202310102129.2A patent/CN117765155A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3992918A1 (en) | Method for generating 3d expression base, voice interactive method, apparatus and medium | |
US11868515B2 (en) | Generating textured polygon strip hair from strand-based hair for a virtual character | |
JP2024522287A (ja) | 三次元人体再構成方法、装置、デバイスおよび記憶媒体 | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN112102480B (zh) | 图像数据处理方法、装置、设备以及介质 | |
Ping et al. | Computer facial animation: A review | |
CN112950769A (zh) | 三维人体重建方法、装置、设备及存储介质 | |
CN115049016B (zh) | 基于情绪识别的模型驱动方法及设备 | |
JP4842242B2 (ja) | キャラクタアニメーション時の皮膚のしわのリアルタイム表現方法及び装置 | |
WO2022060229A1 (en) | Systems and methods for generating a skull surface for computer animation | |
CN110443872B (zh) | 一种具备动态纹理细节的表情合成方法 | |
CN114904268A (zh) | 一种虚拟形象的调整方法、装置、电子设备及存储介质 | |
CN114333482A (zh) | 一种基于混合现实技术的虚拟解剖教学*** | |
WO2022026603A1 (en) | Object recognition neural network training using multiple data sources | |
WO2023160074A1 (zh) | 一种图像生成方法、装置、电子设备以及存储介质 | |
CN116630508A (zh) | 3d模型处理方法、装置及电子设备 | |
CN115686202A (zh) | 跨Unity/Optix平台的三维模型交互渲染方法 | |
CN117765155A (zh) | 一种表情重定向驱动方法及虚拟显示设备 | |
CN115023742A (zh) | 具有详细褶皱的面部网格变形 | |
CN108198234B (zh) | 可实时互动的虚拟角色生成***及方法 | |
Jia et al. | Facial expression synthesis based on motion patterns learned from face database | |
CN117576280B (zh) | 一种基于3d数字人的智能端云一体化生成方法及*** | |
CN117237542B (zh) | 基于文本的三维人体模型生成方法和装置 | |
CN118071887B (zh) | 一种图像生成方法及相关装置 | |
Zhu et al. | Robust quasi-uniform surface meshing of neuronal morphology using line skeleton-based progressive convolution approximation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |