CN115631285A - 基于统一驱动的人脸渲染方法、装置、设备及存储介质 - Google Patents
基于统一驱动的人脸渲染方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115631285A CN115631285A CN202211487137.5A CN202211487137A CN115631285A CN 115631285 A CN115631285 A CN 115631285A CN 202211487137 A CN202211487137 A CN 202211487137A CN 115631285 A CN115631285 A CN 115631285A
- Authority
- CN
- China
- Prior art keywords
- face
- rendering
- initial
- model
- driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000000605 extraction Methods 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 12
- 238000013179 statistical model Methods 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 50
- 230000014509 gene expression Effects 0.000 description 15
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000007621 cluster analysis Methods 0.000 description 4
- 239000004816 latex Substances 0.000 description 4
- 229920000126 latex Polymers 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 230000000193 eyeblink Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本发明提供一种基于统一驱动的人脸渲染方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。通过本发明提供的实施例不仅能提高驱动精度,而且解耦了驱动与渲染。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于统一驱动的人脸渲染方法、装置、设备及存储介质。
背景技术
在利用人工智能进行人脸三维重建时,从中间表达的角度分析,当前现有技术中基于人工智能驱动的技术方案主要包括以下几种:
第一种,以潜变量(latent)作为中间表达,进行端到端训练。如通过对比学习解耦ID、语音和头部姿态,使生成的驱动视频可以从不同驱动源分别获取ID、嘴形及头部姿态进行可控驱动,经过GAN框架生成图像,通过解耦expression(表情)中的eye blink(眨眼)和mouth(嘴形),结合对比学习连结mouth embedding(嘴开口)和audio embedding(嵌入音频),也能够从不同驱动源分别获取头部姿态,表情及嘴形特征,驱动radience field(辐射场)生成person specific(个人特定)的渲染图像。然而由于整体为基于端到端训练,存在驱动和渲染耦合的情况,即学习出来的2D latent space(2D潜变量空间)跟训练阶段使用的生成器强相关,导致latent难以覆用于其他生成器; 而且因为是端到端的训练,没有对学习出来的latent做约束和监督,所以即使用相同的生成器和网路结构,如果训练数据不同,那么学习出来的latent也没法交叉使用,耦合问题严重。
第二种,同样以latent作为中间表达,端到端训练,但第一种现有技术的虚拟人建模以图片为主。第二种则以计算机图形学中常用的mesh(网格)和texture(纹理)来表达,也就是说latent(潜变量)中包含了3D几何变化的信息。比如Deep Appearance Models(深度外貌模型)用7306个3维坐标的vertex(顶点)表示几何结构,用2D texture map(2D纹理图)表示纹理,通过person specific(个人特定)的端到端VAE结构训练,使其latent(潜变量)空间编码了以expression(表情)为主的信息,通过geometry(几何图形)和texture(纹理)解码器分别解码出latent(潜变量)对应的几何和纹理信息,也就是改变latent(潜变量)来实现驱动。Authentic Volumetric Avatars(逼真三维头像)则以position map(位置图)取代vertex(顶点)来表示3D几何结构,另加入ID encoder(ID编码器)和gaze encoder(眼神编码器)作ID和gaze的显式控制,支持通用 (非person specific(个人特定)) 的驱动,但中间表达仍然以expression(表情)为主,通过geometry(几何)和appearance(外观)解码器(condition on ID(以ID作输入)) 分别解码出latent(潜变量)对应的几何和纹理信息。此种方案不仅存在与第一种方案存在相同的问题,而且由于训练数据除图像 (纹理) 外,还额外引入了3D几何坐标作为输入,因此latent空间储存的信息量较第一类丰富,可分别解码出纹理及几何,但构建该训练数据的前期配准成本和工作量巨大。
第三种,以参数化模型作为中间表达,先对驱动源和被驱动源分别提取每帧人脸的3DMM(三维人脸统计模型)参数,然后将被驱动源的参数替换成驱动源的,由此获得驱动后的3DMM参数,再经过一个conditional decoder(条件式解码器)解码出驱动图像,此种方法驱动效果受制于3DMM表达能力以及fitting(参数匹配)方法,做到了驱动跟渲染解耦,但以牺牲驱动精度为代价,驱动不够精确。
发明内容
本发明提供一种基于统一驱动的人脸渲染方法、装置、设备及存储介质,不仅能提高驱动精度,而且解耦了驱动与渲染。
第一方面,本发明提供一种基于统一驱动的人脸渲染方法,所述方法包括:
获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;
将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;
根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
优选地,根据本发明提供的基于统一驱动的人脸渲染方法,
所述获取目标源数据至少包括:
获取多个初始数据;
根据每一所述初始数据的属性,按照预设属性分类策略对多个所述初始数据进行分类提取处理,得到多个子数据集;
从所述子数据集中筛选出目标数据集,并从所述目标数据集中筛选出所述目标源数据。
优选地,根据本发明提供的基于统一驱动的人脸渲染方法,
所述驱动模型至少包括:潜变量提取模型、潜变量转换模型;
所述将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,包括:
将所述初始人脸图像输入所述潜变量提取模型,提取出与所述初始人脸图像对应的人脸潜变量特征;
利用所述潜变量转换模型将所述人脸潜变量特征转换为对应的三维人脸参数。
优选地,根据本发明提供的基于统一驱动的人脸渲染方法,
所述人脸潜变量特征至少包括:第一人脸特征、人脸动作特征;
所述将所述初始人脸图像输入所述潜变量提取模型,提取出与所述初始人脸图像对应的人脸潜变量特征,包括:
将所述初始人脸图像输入预设的人脸识别模型,并利用所述人脸识别模型中的第一编码器对所述初始人脸图像进行第一提取处理,得到对应的所述第一人脸特征;以及
利用所述人脸识别模型中的第二编码器对所述初始人脸图像进行第二提取处理,得到对应的第二人脸特征;
对所述第二人脸特征进行解耦处理,生成多个所述人脸动作特征。
优选地,根据本发明提供的基于统一驱动的人脸渲染方法,
所述利用所述潜变量转换模型将所述人脸潜变量特征转换为对应的三维人脸参数,包括:
获取三维人脸统计模型的多个初始人脸参数;
构建每一所述初始人脸参数分别与所述第一人脸特征、所述人脸动作特征之间的映射关系;
基于所述映射关系,利用所述潜变量转换模型的多层感知器,分别将所述第一人脸特征和所述人脸动作特征转换为所述三维人脸参数。
优选地,根据本发明提供的基于统一驱动的人脸渲染方法,
所述根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像,包括:
根据预设的渲染策略,调用与所述渲染策略对应的图像渲染模型;
利用所述图像渲染模型对所述三维人脸参数进行渲染,生成所述目标人脸图像。
第二方面,本发明还提供一种基于统一驱动的人脸渲染装置,所述装置包括:
获取模块,用于获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;
识别模块,用于将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;
渲染模块,用于根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于统一驱动的人脸渲染方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于统一驱动的人脸渲染方法的步骤。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于统一驱动的人脸渲染方法的步骤。
本发明提供的基于统一驱动的人脸渲染方法、装置、设备及存储介质,通过获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。不仅能提高驱动精度,而且解耦了驱动与渲染。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于统一驱动的人脸渲染方法的流程示意图之一;
图2是本发明提供的基于统一驱动的人脸渲染方法的流程示意图之二;
图3是本发明提供的图1中步骤S200的流程示意图;
图4是本发明提供的基于统一驱动的人脸渲染方法的流程示意图之三;
图5是本发明提供的基于统一驱动的人脸渲染装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图6描述本发明的基于统一驱动的人脸渲染方法、装置、设备及存储介质。
如图1所示,其为本发明实施例提供的基于统一驱动的人脸渲染方法的实施流程示意图,基于统一驱动的人脸渲染方法可以包括但不限于步骤S100至S300。
S100,获取多个物料的物料信息,其中,所述物料信息至少包括物料标识;
S200,将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;
S300,根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
在一些实施例的步骤S100中,获取目标源数据。
可以理解的是,其具体执行步骤可以为:计算机程序先获取多个初始数据;再根据每一所述初始数据的属性,按照预设属性分类策略对多个所述初始数据进行分类提取处理,得到多个子数据集;从所述子数据集中筛选出目标数据集,并从所述目标数据集中筛选出所述目标源数据。
需要说明的是,其中所述目标源数据至少包括:初始人脸图像。
在一些实施例的步骤S200中,将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数。
可以理解的是,在执行完步骤S100获取目标源数据的步骤之后,其具体执行步骤可以为:将所述初始人脸图像输入预设的人脸识别模型,并利用所述人脸识别模型中的第一编码器对所述初始人脸图像进行第一提取处理,得到对应的所述第一人脸特征;以及利用所述人脸识别模型中的第二编码器对所述初始人脸图像进行第二提取处理,得到对应的第二人脸特征;对所述第二人脸特征进行解耦处理,生成多个所述人脸动作特征。
再获取三维人脸统计模型的多个初始人脸参数;构建每一所述初始人脸参数分别与所述第一人脸特征、所述人脸动作特征之间的映射关系;基于所述映射关系,利用所述潜变量转换模型的多层感知器,分别将所述第一人脸特征和所述人脸动作特征转换为所述三维人脸参数。
需要说明的是,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的。
在一些实施例的步骤S300中,根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
可以理解的是,在执行完步骤S200将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数的步骤之后,其具体执行步骤可以为:根据预设的渲染策略,调用与所述渲染策略对应的图像渲染模型;利用所述图像渲染模型对所述三维人脸参数进行渲染,生成所述目标人脸图像。
在本发明的一些实施例中,所述获取目标源数据至少包括:
获取多个初始数据;
根据每一所述初始数据的属性,按照预设属性分类策略对多个所述初始数据进行分类提取处理,得到多个子数据集;
从所述子数据集中筛选出目标数据集,并从所述目标数据集中筛选出所述目标源数据。
可以理解的是,计算机程序首先从预设的数据库获取多个初始数据,在根据每个初始数据的属性,按照属预设属性分类策略对获取到的多个初始数据进行分类提取处理,得到多个子数据集。在根据目标属性,从多个子数据集中筛选出目标数据集,并从目标数据集中筛选出目标源数据。
在一些实施例中,参考图2所示,对多个初始数据进行分类提取处理,得到多个子数据集,比如初始数据至少包括但不限于:不带语义信息的非语义图像数据,非语义视频数据,非语义音频数据,带语义信息的语义图像数据,语义视频数据,非语义音频数据等。
计算机程序根据多个初始数据分别对应的结构属性进行分类提取,得到多个子数据集。
需要说明的是,多个子数据集至少包括但不限于:子数据集A:(UnstructuredDriving Source)非结构化驱动源数据集,子数据集B:(Structured Driving Source)结构化驱动源数据集。从多个子数据集中筛选出子数据集A为目标数据集,并从目标数据集中筛选出目标源数据。目标源数据至少包括但不限于初始人脸图像。
初始人脸图像至少包括但不限于:ID Image(人脸ID图像)、Driving Image(人脸动作图像)、Driving Audio(语音动作数据)。
进一步需要说明的是,子数据集B:(Structured Driving Source)结构化驱动源数据集的获取方式可以包括但不限于:利用聚类分析算法获取,或利用传统计算机视觉或信号处理方法获取。
更具体地,获取子数据集B的步骤可以为从非结构化驱动源数据集中提取语义特点,以构成子数据集B。比如从语义图像数据或语义视频中提取的特征,关键点,语义分割mask(掩膜),深度图,光流图,运动轨迹等;或者从语义音频数据中提取的MFCC特征,音素,音高等带语义的结构化表达,以构成结构化驱动源数据集。
相对地,还可以从用户画像或业务数据中获取结构化驱动源数据集,其可以包括但不限于:用户个性数据,年龄数据,性别数据等等。
需要说明的是,聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
可以理解的是,子数据集B为(Structured Driving Source)结构化驱动源数据集,其可以包括Driving Signal 1(驱动信号1),Driving Signal n(驱动信号n),其分别对应Signal 1 Encoder(信号1 编码器)、Signal n Encoder(信号n 编码器),分别对应提取出Signal 1 latent(信号1 潜变量)、Signal n latent(信号n 潜变量)。
如图3所示,在本发明的一些实施例中,所述驱动模型至少包括:潜变量提取模型、潜变量转换模型,步骤S200可以包括但不限于步骤S310至S320。
S310,将所述初始人脸图像输入所述潜变量提取模型,提取出与所述初始人脸图像对应的人脸潜变量特征;
S320,利用所述潜变量转换模型将所述人脸潜变量特征转换为对应的三维人脸参数。
在一些实施例的步骤S310中,将所述初始人脸图像输入所述潜变量提取模型,提取出与所述初始人脸图像对应的人脸潜变量特征。
可以理解的是,其具体执行步骤可以为:计算机程序将所述初始人脸图像输入预设的人脸识别模型,并利用所述人脸识别模型中的第一编码器对所述初始人脸图像进行第一提取处理,得到对应的所述第一人脸特征;以及利用所述人脸识别模型中的第二编码器对所述初始人脸图像进行第二提取处理,得到对应的第二人脸特征;对所述第二人脸特征进行解耦处理,生成多个所述人脸动作特征。
在一些实施例的步骤S320中,利用所述潜变量转换模型将所述人脸潜变量特征转换为对应的三维人脸参数。
可以理解的是,在执行完步骤S310将所述初始人脸图像输入所述潜变量提取模型,提取出与所述初始人脸图像对应的人脸潜变量特征的步骤之后,其具体执行步骤可以为:首先获取三维人脸统计模型的多个初始人脸参数;构建每一所述初始人脸参数分别与所述第一人脸特征、所述人脸动作特征之间的映射关系;基于所述映射关系,利用所述潜变量转换模型的多层感知器,分别将所述第一人脸特征和所述人脸动作特征转换为所述三维人脸参数。
在本发明的一些实施例中,所述人脸潜变量特征至少包括:第一人脸特征、人脸动作特征;
所述将所述初始人脸图像输入所述潜变量提取模型,提取出与所述初始人脸图像对应的人脸潜变量特征,包括:
将所述初始人脸图像输入预设的人脸识别模型,并利用所述人脸识别模型中的第一编码器对所述初始人脸图像进行第一提取处理,得到对应的所述第一人脸特征;以及
利用所述人脸识别模型中的第二编码器对所述初始人脸图像进行第二提取处理,得到对应的第二人脸特征;
对所述第二人脸特征进行解耦处理,生成多个所述人脸动作特征。
可以理解的是,将所述初始人脸图像输入预设的人脸识别模型,并利用所述人脸识别模型中的第一编码器对所述初始人脸图像进行第一提取处理,得到对应的所述第一人脸特征。
如图2所示,在一些实施例中,驱动模型至少包括:潜变量提取模型(LatentExtractor)、潜变量转换模型(Latent Converter)。在潜变量提取模型(LatentExtractor)中,第一编码器可以为ID Encoder(ID 编码器),第一人脸特征可以为IDlatent(ID潜变量特征)。
需要说明的是,人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别。
人脸特征提取,也称人脸表征,它是对人脸进行特征建模的过程。利用人脸识别模型进行人脸特征提取的方法通常可以包括以下两种:一种是基于知识的表征方法;另外一种是基于代数特征或统计学习的表征方法。在本申请的实施例中不作具体限定。
进一步需要说明的是,第二编码器可以为Non ID Encoder(非ID编码器),第二人脸特征可以为Non ID latent(非ID潜变量特征)。
在利用所述人脸识别模型中的第二编码器对所述初始人脸图像进行第二提取处理,得到对应的第二人脸特征之后,在对所述第二人脸特征进行解耦处理,生成多个所述人脸动作特征。
可以理解的是,人脸动作特征至少可以为:head pose(头部姿态), eye blink(眨眼),gaze(眼神朝向),expression(表情)。
进一步需要说明的是,预训练Audio Encoder(Audio编码器)跟Non ID Encoder(非ID编码器)做对比学习可以提取Audio latent(Audio潜变量特征)。
在本发明的一些实施例中,所述利用所述潜变量转换模型将所述人脸潜变量特征转换为对应的三维人脸参数,包括:
获取三维人脸统计模型的多个初始人脸参数;
构建每一所述初始人脸参数分别与所述第一人脸特征、所述人脸动作特征之间的映射关系;
基于所述映射关系,利用所述潜变量转换模型的多层感知器,分别将所述第一人脸特征和所述人脸动作特征转换为所述三维人脸参数。
可以理解的是,在潜变量转换模型(Latent Converter)中,首先获取三维人脸统计模型(3DMM,3D Morphable models)的多个初始人脸参数,再通过多层感知器(MLP,Multi-Layer Perceptron) 学习解耦特征到相应参数之间转换的映射关系,即通过多层感知器构建每一所述初始人脸参数分别与所述第一人脸特征、所述人脸动作特征之间的映射关系,并基于映射关系,利用所述潜变量转换模型的多层感知器,分别将所述第一人脸特征和所述人脸动作特征转换为所述三维人脸参数。
需要说明的是,多层感知器(MLP,Multilayer Perceptron)是一种前馈人工神经网络模型,其将输入的多个数据映射到单一的输出的数据上。
需要说明的是,三维人脸统计模型是一个通用的三维人脸模型,用固定的点数来表示人脸。它的核心思想就是人脸可以在三维空间中进行一一匹配,并且可以由其他许多幅人脸正交基加权线性相加而来。
在本发明的一些实施例中,所述根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像,包括:
根据预设的渲染策略,调用与所述渲染策略对应的图像渲染模型;
利用所述图像渲染模型对所述三维人脸参数进行渲染,生成所述目标人脸图像。
可以理解的是,在Rendering(渲染层),根据预设的渲染策略,调用与所述渲染策略对应的图像渲染模型,再利用所述图像渲染模型对所述三维人脸参数进行渲染,生成所述目标人脸图像。
需要说明的是,图像渲染模型至少可以为:3D CG模型、 Neural rendering(神经渲染), GAN/Diffusion 模型。
如图4所示,其为本发明提供的基于统一驱动的人脸渲染方法的流程示意图之三,首先获取初始人脸图像,利用驱动模型的潜变量提取模型对初始人脸图像进行提取处理,提取出多个潜变量特征,再利用潜变量转换模型将多个潜变量特征通过多层感知器转换为多个对应的三维人脸参数,在根据预设的渲染策略,调用与所述渲染策略对应的图像渲染模型,再利用所述图像渲染模型对所述三维人脸参数进行渲染,生成所述目标人脸图像。
其中,潜变量特征至少包括:ID、headpose(头部姿态)、eyeblink/gaze(眨眼/眼神)、expression(表情)、audio/mouth(嘴开口)。
三维人脸参数至少包括但不限于Shape(形状三维人脸参数)、Pose(姿势三维人脸参数)、Expression(表情三维人脸参数)。
Pose(姿势三维人脸参数)至少包括但不限于neck pose(颈部姿势)和jaw pose(下颌姿势)。
本发明提供的基于统一驱动的人脸渲染,通过获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。不仅能提高驱动精度,而且解耦了驱动与渲染。
本发明提出了一种混合的统一驱动框架,保证驱动精度跟latent(潜变量)方案一致甚至更好的同时,解耦了驱动和渲染,使得本发明提出的驱动框架可以端到端训练一次后,换任意一个渲染器或渲染方式能够直接覆用原来训好的驱动模型,只要训练渲染部分就可以。 节省了多次重复训练驱动模型的同时,保证了驱动效果的一致性,实现了驱动模型一次训练、多次使用,实现统一驱动的目的,提升3D参数化表达能力。
本发明以人脸为主要说明,但实际上本发明可以适用于其他部件,包括但不限于肢体 (比如采用SMPL的参数化表达),手 (比如采用MANO的参数化表达) 等部分。再通过统一的全身模型比如SMPL-X 统一头 (FLAME),身 (SMPL),手 (MANO) 等多个部件,形成一个表达统一,但驱动方式可因应不同部件而异的统一驱动引擎。
下面对本发明提供的基于统一驱动的人脸渲染装置进行描述,下文描述的基于统一驱动的人脸渲染装置与上文描述的基于统一驱动的人脸渲染方法可相互对应参照。
参考图5所示,为本发明提供的基于统一驱动的人脸渲染装置的结构示意图,所述装置包括:
获取模块510,用于获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;
识别模块520,用于将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;
渲染模块530,用于根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
可选地,根据本发明提供的基于统一驱动的人脸渲染装置,获取模块510,用于获取多个初始数据;根据每一所述初始数据的属性,按照预设属性分类策略对多个所述初始数据进行分类提取处理,得到多个子数据集;从所述子数据集中筛选出目标数据集,并从所述目标数据集中筛选出所述目标源数据。
可选地,根据本发明提供的基于统一驱动的人脸渲染装置,所述驱动模型至少包括:潜变量提取模型、潜变量转换模型,识别模块520,用于将所述初始人脸图像输入所述潜变量提取模型,提取出与所述初始人脸图像对应的人脸潜变量特征;
利用所述潜变量转换模型将所述人脸潜变量特征转换为对应的三维人脸参数。
可选地,根据本发明提供的基于统一驱动的人脸渲染装置,所述人脸潜变量特征至少包括:第一人脸特征、人脸动作特征,识别模块520,用于将所述初始人脸图像输入预设的人脸识别模型,并利用所述人脸识别模型中的第一编码器对所述初始人脸图像进行第一提取处理,得到对应的所述第一人脸特征;以及利用所述人脸识别模型中的第二编码器对所述初始人脸图像进行第二提取处理,得到对应的第二人脸特征;对所述第二人脸特征进行解耦处理,生成多个所述人脸动作特征。
可选地,根据本发明提供的基于统一驱动的人脸渲染装置,识别模块520,用于获取三维人脸统计模型的多个初始人脸参数;构建每一所述初始人脸参数分别与所述第一人脸特征、所述人脸动作特征之间的映射关系;基于所述映射关系,利用所述潜变量转换模型的多层感知器,分别将所述第一人脸特征和所述人脸动作特征转换为所述三维人脸参数。
可选地,根据本发明提供的基于统一驱动的人脸渲染装置,渲染模块530,用于根据预设的渲染策略,调用与所述渲染策略对应的图像渲染模型;利用所述图像渲染模型对所述三维人脸参数进行渲染,生成所述目标人脸图像。
本发明提供的基于统一驱动的人脸渲染装置,通过获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。不仅能提高驱动精度,而且解耦了驱动与渲染。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于统一驱动的人脸渲染方法,该方法包括:获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于统一驱动的人脸渲染方法,该方法包括:获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于统一驱动的人脸渲染方法,该方法包括:获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于统一驱动的人脸渲染方法,其特征在于,包括:
获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;
将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;
根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
2.根据权利要求1所述的基于统一驱动的人脸渲染方法,其特征在于,
所述获取目标源数据至少包括:
获取多个初始数据;
根据每一所述初始数据的属性,按照预设属性分类策略对多个所述初始数据进行分类提取处理,得到多个子数据集;
从多个所述子数据集中筛选出目标数据集,并从所述目标数据集中筛选出所述目标源数据。
3.根据权利要求1所述的基于统一驱动的人脸渲染方法,其特征在于,
所述驱动模型至少包括:潜变量提取模型、潜变量转换模型;
所述将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,包括:
将所述初始人脸图像输入所述潜变量提取模型,提取出与所述初始人脸图像对应的人脸潜变量特征;
利用所述潜变量转换模型将所述人脸潜变量特征转换为对应的三维人脸参数。
4.根据权利要求3所述的基于统一驱动的人脸渲染方法,其特征在于,
所述人脸潜变量特征至少包括:第一人脸特征、人脸动作特征;
所述将所述初始人脸图像输入所述潜变量提取模型,提取出与所述初始人脸图像对应的人脸潜变量特征,包括:
将所述初始人脸图像输入预设的人脸识别模型,并利用所述人脸识别模型中的第一编码器对所述初始人脸图像进行第一提取处理,得到对应的所述第一人脸特征;以及
利用所述人脸识别模型中的第二编码器对所述初始人脸图像进行第二提取处理,得到对应的第二人脸特征;
对所述第二人脸特征进行解耦处理,生成多个所述人脸动作特征。
5.根据权利要求4所述的基于统一驱动的人脸渲染方法,其特征在于,
所述利用所述潜变量转换模型将所述人脸潜变量特征转换为对应的三维人脸参数,包括:
获取三维人脸统计模型的多个初始人脸参数;
构建每一所述初始人脸参数分别与所述第一人脸特征、所述人脸动作特征之间的映射关系;
基于所述映射关系,利用所述潜变量转换模型的多层感知器,分别将所述第一人脸特征和所述人脸动作特征转换为所述三维人脸参数。
6.根据权利要求1至5任一项所述的基于统一驱动的人脸渲染方法,其特征在于,
所述根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像,包括:
根据预设的渲染策略,调用与所述渲染策略对应的图像渲染模型;
利用所述图像渲染模型对所述三维人脸参数进行渲染,生成所述目标人脸图像。
7.一种基于统一驱动的人脸渲染装置,其特征在于,所述装置包括:
获取模块,用于获取目标源数据,其中所述目标源数据至少包括:初始人脸图像;
识别模块,用于将所述初始人脸图像输入预设的驱动模型,输出与所述初始人脸图像对应的三维人脸参数,其中,所述三维人脸参数是所述驱动模型对所述初始人脸图像进行提取和转换得到的;
渲染模块,用于根据预设的渲染策略,对所述三维人脸参数进行渲染,生成目标人脸图像。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于统一驱动的人脸渲染方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于统一驱动的人脸渲染方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于统一驱动的人脸渲染方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211487137.5A CN115631285B (zh) | 2022-11-25 | 2022-11-25 | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211487137.5A CN115631285B (zh) | 2022-11-25 | 2022-11-25 | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115631285A true CN115631285A (zh) | 2023-01-20 |
CN115631285B CN115631285B (zh) | 2023-05-02 |
Family
ID=84911015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211487137.5A Active CN115631285B (zh) | 2022-11-25 | 2022-11-25 | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631285B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152324A (zh) * | 2023-09-04 | 2023-12-01 | 艾迪普科技股份有限公司 | 基于三维播放器的数据驱动方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144208A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
WO2020140832A1 (zh) * | 2019-01-04 | 2020-07-09 | 北京达佳互联信息技术有限公司 | 人脸三维重建方法、装置、电子设备及存储介质 |
CN113313085A (zh) * | 2021-07-28 | 2021-08-27 | 北京奇艺世纪科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN114282895A (zh) * | 2021-12-22 | 2022-04-05 | 中国农业银行股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN115205949A (zh) * | 2022-09-05 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 图像生成方法以及相关设备 |
CN115356953A (zh) * | 2022-10-21 | 2022-11-18 | 北京红棉小冰科技有限公司 | 虚拟机器人决策方法、***和电子设备 |
-
2022
- 2022-11-25 CN CN202211487137.5A patent/CN115631285B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144208A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
WO2020140832A1 (zh) * | 2019-01-04 | 2020-07-09 | 北京达佳互联信息技术有限公司 | 人脸三维重建方法、装置、电子设备及存储介质 |
CN113313085A (zh) * | 2021-07-28 | 2021-08-27 | 北京奇艺世纪科技有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN114282895A (zh) * | 2021-12-22 | 2022-04-05 | 中国农业银行股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN115205949A (zh) * | 2022-09-05 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 图像生成方法以及相关设备 |
CN115356953A (zh) * | 2022-10-21 | 2022-11-18 | 北京红棉小冰科技有限公司 | 虚拟机器人决策方法、***和电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152324A (zh) * | 2023-09-04 | 2023-12-01 | 艾迪普科技股份有限公司 | 基于三维播放器的数据驱动方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115631285B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12039454B2 (en) | Microexpression-based image recognition method and apparatus, and related device | |
CN110785767B (zh) | 紧凑的无语言面部表情嵌入和新颖三元组的训练方案 | |
CN115205949B (zh) | 图像生成方法以及相关设备 | |
CN110555896B (zh) | 一种图像生成方法、装置以及存储介质 | |
Tieleman | Optimizing neural networks that generate images | |
WO2022052530A1 (zh) | 人脸矫正模型的训练方法、装置、电子设备及存储介质 | |
CN114724214B (zh) | 一种基于面部动作单元的微表情编辑方法及*** | |
CN115565238B (zh) | 换脸模型的训练方法、装置、设备、存储介质和程序产品 | |
CN115914505B (zh) | 基于语音驱动数字人模型的视频生成方法及*** | |
CN113344777A (zh) | 基于三维人脸分解的换脸与重演方法及装置 | |
CN114241558B (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
CN112766366A (zh) | 对抗生成网络的训练方法及其图像处理方法、装置 | |
CN115049016A (zh) | 基于情绪识别的模型驱动方法及设备 | |
CN114529785B (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
CN116129013A (zh) | 一种生成虚拟人动画视频的方法、装置及存储介质 | |
CN115631285B (zh) | 基于统一驱动的人脸渲染方法、装置、设备及存储介质 | |
CN113657272B (zh) | 一种基于缺失数据补全的微视频分类方法及*** | |
Li et al. | End-to-end training for compound expression recognition | |
RU2755396C1 (ru) | Нейросетевой перенос выражения лица и позы головы с использованием скрытых дескрипторов позы | |
CN115631274B (zh) | 一种人脸图像生成方法、装置、设备及存储介质 | |
JP7479507B2 (ja) | 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム | |
CN112990123B (zh) | 图像处理方法、装置、计算机设备和介质 | |
Singh et al. | Facial emotion detection using action units | |
WO2024066549A1 (zh) | 一种数据处理方法及相关设备 | |
US20240212176A1 (en) | Method of generating 3d scan data through broadband lidar scan-based image interpolation and apparatus for providing platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Wang Wenlan Inventor after: Wang Duomin Inventor after: Wang Baoyuan Inventor before: Wang Wenlan |
|
CB03 | Change of inventor or designer information |