CN117541758A - 虚拟人脸配置参数生成方法、装置、设备和存储介质 - Google Patents

虚拟人脸配置参数生成方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN117541758A
CN117541758A CN202311605223.6A CN202311605223A CN117541758A CN 117541758 A CN117541758 A CN 117541758A CN 202311605223 A CN202311605223 A CN 202311605223A CN 117541758 A CN117541758 A CN 117541758A
Authority
CN
China
Prior art keywords
virtual
face image
sample
face
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311605223.6A
Other languages
English (en)
Inventor
温来祥
郑立国
李猛
齐森
黄剑锋
淮永建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Jidong Pangu Network Technology Co ltd
Jilin Animation Institute
Original Assignee
Jilin Jidong Pangu Network Technology Co ltd
Jilin Animation Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin Jidong Pangu Network Technology Co ltd, Jilin Animation Institute filed Critical Jilin Jidong Pangu Network Technology Co ltd
Priority to CN202311605223.6A priority Critical patent/CN117541758A/zh
Publication of CN117541758A publication Critical patent/CN117541758A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Architecture (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明实施例提供一种虚拟人脸配置参数生成方法、装置、设备和存储介质,该方法包括:获取真人人脸图像;将真人人脸图像输入预先训练的第一网络模型,得到虚拟人脸配置参数;获取平均参数向量以及投影矩阵;基于平均参数向量以及投影矩阵,对虚拟人脸配置参数进行预设的去异常处理,得到修正后的虚拟人脸配置参数;将修正后的虚拟人脸配置参数输入虚拟人脸自定义***,得到与真人人脸图像匹配的三维虚拟人脸模型。采用本发明,可以根据用户输入的真人人脸图像,自动生成用于输出与真人人脸图像相匹配的三维虚拟人脸模型的虚拟人脸配置参数,无需用户手动一一设置虚拟人脸配置参数。

Description

虚拟人脸配置参数生成方法、装置、设备和存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种虚拟人脸配置参数生成方法、装置、设备和存储介质。
背景技术
在以角色扮演为主的虚拟交互环境中,用户通常希望拥有独一无二的角色形象,特别是在游戏、社交等虚拟交互环境中。这些角色形象通常需要专业水平的三维建模人员来制作,而且制作过程耗时费力、成本也很高。特别地,在一些虚拟交互环境中也常常采用角色自定义***,一定程度上方便用户创建喜欢的角色形象,满足了用户对角色形象的个性化要求,但是角色自定义***的使用对于用户来说是极为复杂的。
角色自定义***中的虚拟人脸自定义***,允许用户通过面板中的虚拟人脸配置参数输入界面来调整虚拟人脸配置参数,进而可以得到多种多样的面部形象。然而虚拟人脸配置参数输入界面中提供的可调整的虚拟人脸配置参数通常具有成百上千个,这就使得需要耗费大量的时间和精力才能调整出用户满意的面部形象,尤其如果用户想要调整出与用户的面部特征相匹配的面部形象对应的虚拟人脸配置参数,调参过程操作效率极低。
发明内容
本发明实施例提供一种虚拟人脸配置参数生成方法、装置、设备和存储介质,用以实现提高虚拟人脸自定义***操作过程中的调参效率,特别是获取与真人人脸图像相匹配的三维虚拟人脸模型的效率,并且允许用户进一步调整配置参数以达到满意的三维虚拟人脸面部形象。
第一方面,本发明实施例提供一种虚拟人脸配置参数生成方法,该方法包括:
获取真人人脸图像;
将所述真人人脸图像输入预先训练的第一网络模型,得到虚拟人脸配置参数;
获取平均参数向量以及投影矩阵;
基于所述平均参数向量以及所述投影矩阵,对所述虚拟人脸配置参数进行预设的去异常处理,得到修正后的虚拟人脸配置参数;
将所述修正后的虚拟人脸配置参数输入虚拟人脸自定义***,得到与所述真人人脸图像匹配的三维虚拟人脸模型。
第二方面,本发明实施例提供一种虚拟人脸配置参数生成装置,包括:
获取模块,用于获取真人人脸图像;
输入模块,用于将所述真人人脸图像输入预先训练的第一网络模型,得到虚拟人脸配置参数;
所述获取模块,用于获取平均参数向量以及投影矩阵;
去异常模块,用于基于所述平均参数向量以及所述投影矩阵,对所述虚拟人脸配置参数进行预设的去异常处理,得到修正后的虚拟人脸配置参数;
生成模块,用于将所述修正后的虚拟人脸配置参数输入虚拟人脸自定义***,得到与所述真人人脸图像匹配的三维虚拟人脸模型。
第三方面,本发明实施例提供一种电子设备,其中包括处理器和存储器,其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器至少可以实现第一方面中的虚拟人脸配置参数生成方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现第一方面中的虚拟人脸配置参数生成方法。
采用本发明,在推理过程中,可以根据用户输入的真人人脸图像,自动生成用于输出与真人人脸图像相匹配的三维虚拟人脸模型的虚拟人脸配置参数,无需用户手动一一设置虚拟人脸配置参数。与此同时,还可以基于平均参数向量以及投影矩阵,去除直接由第一网络模型生成的虚拟人脸配置参数中的异常因素,然后将修正后的虚拟人脸配置参数输入到虚拟人脸自定义***中可以生成符合一般审美的正常的与真人人脸图像匹配的三维虚拟人脸模型,可以提高调整配置参数的效率,可以降低生成不能满足用户要求的虚拟人脸模型的概率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种虚拟人脸配置参数生成方法的流程示意图;
图2为本发明实施例提供的一种训练第一网络模型的流程示意图;
图3为本发明实施例提供的一种虚拟人脸配置参数生成装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图1为本发明实施例提供的一种虚拟人脸配置参数生成方法的流程图,该方法可以应用于电子设备。如图1所示,该方法包括如下步骤:
101、获取真人人脸图像。
102、将真人人脸图像输入预先训练的第一网络模型,得到虚拟人脸配置参数。
103、获取平均参数向量以及投影矩阵。
104、基于平均参数向量以及投影矩阵,对虚拟人脸配置参数进行预设的去异常处理,得到修正后的虚拟人脸配置参数。
105、将修正后的虚拟人脸配置参数输入虚拟人脸自定义***,得到与真人人脸图像匹配的三维虚拟人脸模型。
实际应用中,网络模型的应用包括两个方面,即训练过程以及推理过程,在第一网络模型未经过训练时需要对其进行训练以获得需要的功能,在完成第一网络模型的训练之后,可以将第一网络模型用于实际的推理过程。下面先介绍第一网络模型的推理过程,而第一网络模型的训练过程会在下文中进行介绍。
首先,可以获取真人人脸图像,该真人人脸图像可以是指真人的照片,比如用户自己的照片、朋友的照片、家人的照片等等。为了更好地基于真人人脸图像生成三维虚拟人脸模型,可以使用满足预设要求的真人人脸图像,该预设要求例如可以是真人人脸需要在真人人脸图像的正中,且上部需要包含整个额头,下部需要包含真人的下颚甚至需要露出一定宽度的脖颈。
可以理解的是,用户使用的原始图像可能不能满足上述预设要求,原始图像中可能会包含一些除真人人脸以外的背景信息,因此可以预先对原始图像进行预处理,以输出满足预设要求的真人人脸图像。可选地,获取真人人脸图像的过程可以实现为:获取包含真人人脸图像的原始图像;提取原始图像中的人脸特征点;基于提取到的人脸特征点以及预设的标准人脸图像中的人脸特征点,将原始图像对齐到标准人脸图像;基于对齐后的结果,按照标准人脸图像的边沿对原始图像进行剪裁,得到真人人脸图像。
实际应用中,可以获取包含真人人脸图像的原始图像,然后提取原始图像中的人脸特征点。接着还可以获取标准人脸图像,标准人脸图像为上述满足预设要求的人脸图像,可以预先提取标准人脸图像中的人脸特征点。然后参照标准人脸图像中的人脸特征点,按照原始图像中的人脸特征点将原始图像对齐到标准人脸图像。
其中,由于两种图像中的人脸特征点不止一个,因此在对齐时可以在整体上将两种图像对齐。其中,在整体上对齐的过程可以理解为,可以取多个人脸特征点的中心点,将两种图像的中心点进行对齐。或者,也可以计算两种图像中各组相同类别的人脸特征点间的最短路径。
在对齐之后,可以沿着标准人脸图像的边沿对原始图像进行剪裁,这样就可以得到满足预设要求的真人人脸图像。
在某些可选实施例中,可选地,在提取原始图像中的人脸特征点之前,还可以检测原始图像中是否包含人脸;若未在原始图像中检测到人脸,则输出提示信息,其中,提示信息用于提示用户未在原始图像中检测到人脸。若能够在原始图像中检测到人脸,则可以继续执行后续步骤。
以上介绍了获取真人人脸图像的实现方式,在获取到真人人脸图像之后,可以将真人人脸图像输入预先训练的第一网络模型,得到虚拟人脸配置参数。其中,推理阶段得到的虚拟人脸配置参数用于输入到虚拟人脸自定义***,以生成与真人人脸图像匹配的三维虚拟人脸模型。其中,与真人人脸图像相匹配的三维虚拟人脸可以理解为是,三维虚拟人脸与真人人脸图像中的真人人脸具有相类似的面部特征,比如说,真人人脸为瓜子脸,则虚拟人脸也为瓜子脸。其中,举例来说,虚拟人脸配置参数例如可以是虚拟人脸的面部宽度等参数。
需要说明的是,由于虚拟人脸配置参数为第一网络模型所输出的,在某些情况下,由于第一网络模型本身的限制,可能会导致输出的虚拟人脸配置参数中包含异常参数。比如说,正常来说,虚拟人脸的面部宽度最大不超过A个单位,但是第一网络模型输出的虚拟人脸的面部宽度超过了该A个单位的数值,如果采用这样的面部宽度去构建虚拟人脸,则构建出的虚拟人脸看起来不能满足日常的审美要求。
为了解决上述问题,在本发明实施例中,在获得第一网络模型输出的虚拟人脸配置参数之后,可以对虚拟人脸配置参数进行去异常处理。具体来说,可以获取平均参数向量以及投影矩阵,然后基于平均参数向量以及投影矩阵,对虚拟人脸配置参数进行预设的去异常处理,得到修正后的虚拟人脸配置参数。
下面介绍获取平均参数向量以及投影矩阵的具体实现方式。
可选地,获取平均参数向量以及投影矩阵的过程可以实现为:获取样本数据集,其中,样本数据集中包含有多个样本虚拟人脸配置参数;确定样本数据集对应的汇总矩阵;对汇总矩阵进行奇异值分解(Singular Value Decomposition,SVD)特征分解,得到平均参数向量以及投影矩阵。
可以预先采集大量的样本虚拟人脸配置参数,这些样本虚拟人脸配置参数可以是在输入到虚拟人脸自定义***后能够输出符合一般审美的正常虚拟人脸图像的参数。在采集到大量的样本虚拟人脸配置参数后,可以基于样本虚拟人脸配置参数,构建汇总矩阵。其中,构建汇总矩阵的过程可以实现为:将样本虚拟人脸配置参数按照预设方式叠加在一起,得到汇总矩阵。
在得到汇总矩阵之后,可以对汇总矩阵进行SVD特征分解,在进行特征分解的过程中可以获得平均参数向量以及由特征分解结果输出的向量构成的投影矩阵。
在获得平均参数向量以及投影矩阵之后,可以基于平均参数向量以及投影矩阵,对虚拟人脸配置参数进行去异常处理。其中,可以参照下述公式来对虚拟人脸配置参数进行去异常处理:
x′=PPT(x-m)+m (公式1)
其中,x′为修正后的虚拟人脸配置参数,P为投影矩阵,x为修正前的虚拟人脸配置参数,m为平均参数向量。
概括来说,去异常处理的过程可以理解为是,先对虚拟人脸配置参数进行降维约束处理,其中,降维约束处理又可以理解为是对虚拟人脸配置参数进行了有损压缩处理,在有损压缩处理的过程中清洗掉了参数中的异常因素。在降维约束处理之后,又对降维约束的结果进行恢复,由于恢复前已清洗掉了参数中的异常因素,因此在恢复时这些异常因素也不会被恢复出来,进而实现了将虚拟人脸配置参数中的异常因素去除的效果。
采用上述方式获得修正后的虚拟人脸配置参数之后,可以将修正后的虚拟人脸配置参数输入虚拟人脸自定义***,得到与真人人脸图像匹配的三维虚拟人脸模型。
采用本发明实施例提供的方法,可以基于平均参数向量以及投影矩阵,去除直接由第一网络模型生成的虚拟人脸配置参数中的异常因素,然后将修正后的虚拟人脸配置参数输入到虚拟人脸自定义***中可以生成符合一般审美的正常的与真人人脸图像匹配的三维虚拟人脸模型,可以提高调整配置参数的效率,可以降低生成不能满足用户要求的虚拟人脸模型的概率。
下面将介绍第一网络模型的训练过程,其中,第一网络模型也可以称为是映射模型。
可选地,样本数据集中还包含有多个样本真人人脸图像,如图2所示,训练过程为:
201、将样本真人人脸图像输入到待训练的第一网络模型,得到训练虚拟人脸配置参数。
202、基于平均参数向量以及投影矩阵,对训练虚拟人脸配置参数进行去异常处理,得到修正后的训练虚拟人脸配置参数。
203、将修正后的训练虚拟人脸配置参数输入预先训练的虚拟人脸图像生成模型,得到与样本真人人脸图像匹配的样本虚拟人脸图像。
204、确定样本虚拟人脸图像与样本真人人脸图像之间的相似度。
205、基于相似度,调整待训练的第一网络模型的模型参数,以完成对待训练的第一网络模型的训练过程。
其中,训练过程中的前几个步骤与推理过程中的某些步骤的具体实现方式类似,可以参照对推理过程中相关步骤的具体实现方式的描述来理解训练过程中的前几个步骤。
其中,第一网络模型可以由两部分构成,第一部分可以设置为人脸特征编码器,如Encoder4Editing、pSp等,用于将人脸图像编码为设定规格的特征向量;第二部分可以设置为多层感知器(Multilayer Perceptron,简写为MLP),将第一部分输出的特征向量映射为设定规格的虚拟人脸配置参数,如372个虚拟人脸配置参数。
其中,预先训练的虚拟人脸图像生成模型是基于虚拟人脸自定义***输出的参考配置参数和参考虚拟人脸图像配对的目标数据集训练而成。具体来说,可以利用虚拟人脸自定义***,获取参考虚拟人脸配置参数和参考虚拟人脸图像配对的目标数据集;利用深度学习监督训练方法,采用L1损失函数,通过目标数据集训练得到虚拟人脸图像生成模型,其中,虚拟人脸图像生成模型能够模拟虚拟人脸自定义***的功能,并且具有深度学习训练过程中反向传播的能力。在向虚拟人脸图像生成模型输入虚拟人脸配置参数之后,虚拟人脸图像生成模型可以输出相应的虚拟人脸图像。
实际应用中,在得到与样本真人人脸图像匹配的样本虚拟人脸图像之后,可以计算样本虚拟人脸图像与样本真人人脸图像之间的相似度。其中,在某些可选实施例中,这里的相似度可以解释为是样本虚拟人脸图像与样本真人人脸图像之间的多个方面的相似度的求和结果。在下文中将要介绍几种计算样本虚拟人脸图像与样本真人人脸图像之间的相似度的具体实现方式,可以在该几种方式中选择任一种或者多种组合以计算样本虚拟人脸图像与样本真人人脸图像之间的不同方面的相似度,然后可以对这些相似度进行求和,以得到最终结果。当然,除了这里所列举的几种计算相似度的方式以外,还可以根据实际需求扩展其他方式来计算相似度。
(1)基于人脸识别特征向量计算的相似度Lsim
可选地,可以将样本真人人脸图像输入到预先训练的第二网络模型,以提取样本真人人脸图像的真人人脸识别特征向量;将样本虚拟人脸图像输入到第二网络模型,以提取样本虚拟人脸图像的虚拟人脸识别特征向量;计算真人人脸识别特征向量和虚拟人脸识别特征向量之间的相似度,得到样本虚拟人脸图像与样本真人人脸图像之间的相似度。
其中,上述第二网络模型也可以称为是人脸识别特征模型,如ArcFace模型。在某些应用场景中,可以将规格为1024*1024的图像输入到ArcFace模型,通过ArcFace模型输出512维的人脸识别特征向量。
其中,上述计算真人人脸识别特征向量和虚拟人脸识别特征向量之间的相似度的过程可以实现为:计算真人人脸识别特征向量和虚拟人脸识别特征向量之间的余弦距离,得到真人人脸识别特征向量和虚拟人脸识别特征向量之间的相似度。
(2)基于人脸语义分割概率图计算的相似度Lseg
可选地,可以将样本真人人脸图像输入到预先训练的第三网络模型,以提取样本真人人脸图像的真人人脸语义分割概率图;将样本虚拟人脸图像输入到第二网络模型,以提取样本虚拟人脸图像的虚拟人脸语义分割概率图;计算真人人脸语义分割概率图和虚拟人脸语义分割概率图之间的L1损失值,得到样本虚拟人脸图像与样本真人人脸图像之间的相似度。
其中,L1损失也可以称为平均绝对误差(Mean Absolute Error,简写为MAE),是一种在回归问题中使用的损失函数,用于衡量预测值与实际值之间的绝对差异。
其中,上述第三网络模型也可以称为是人脸语义分割模型,如基于BiSeNet的FaceParsing。如将1024*1024的图像输入到FaceParsing,可以获得19*1024*1024维的概率图。通过人脸语义分割模型,可以对图像中的人脸进行语义分割,以输出图像中各像素点属于构成人脸各部分区域的概率值,并以该概率值组成概率图。其中,人脸各部分区域例如可以是左眉、右眉、左眼、右眼、鼻子、上嘴唇、下嘴唇、脸部皮肤等。
可以理解的是,可以基于真人人脸语义分割概率图,确定样本真人人脸图像的MASK。其中,MASK可以理解为是,对于人脸图像中的任一像素点i来说,由该任一像素点i属于人脸不同部分区域的概率值的最大值所标注的图像,通过MASK可以知道哪部分是属于人脸区域的。
值得注意的是,人脸语义分割概率图为多维概率图,共包括N层。对于每一层来说,可以计算真人人脸语义分割概率图和虚拟人脸语义分割概率图中相应一层概率图之间的L1损失值。最后,可以基于所有层对应的L1损失值,计算样本虚拟人脸图像与样本真人人脸图像之间的相似度,例如,可以将所有层对应的L1损失值进行加和。
需要说明的是,为了消除非人脸部分区域对计算结果的影响,可以只计算各层中被MASK标记为属于人脸部分区域的部分。真人人脸语义分割概率图和虚拟人脸语义分割概率图都可以使用基于真人人脸语义分割概率图所确定的MASK,这样可以基于真人人脸图像导向生成具有相似特征的虚拟人脸图像。
(3)基于人脸感知特征图计算的相似度Lper
可选地,可以将样本真人人脸图像输入到预先训练的第四网络模型,以提取样本真人人脸图像的真人人脸感知特征图;将样本虚拟人脸图像输入到第四网络模型,以提取样本虚拟人脸图像的虚拟人脸感知特征图;计算真人人脸感知特征图和虚拟人脸感知特征图之间的相似度,得到样本虚拟人脸图像与样本真人人脸图像之间的相似度。
其中,上述第四网络模型可以是深度学习模型,如VGG19。其中,VGG19的损失函数为:
其中,x代表输入图像,y代表目标图像,Fi(x)和Fi(y)分别表示它们在预训练的网络模型中的第i层的特征表示,N是特征层数。
需要说明的是,真人人脸感知特征图和虚拟人脸感知特征图可以是第四网络模型的中间层输出的结果以及输出层输出的结果间的组合,可以根据实际需求选取第四网络模型中合适的中间层输出的结果添加到真人人脸感知特征图或者虚拟人脸感知特征图中。
另外,需要补充的是,人脸感知特征图和人脸识别特征向量之间的差别是,它们分别是对样本虚拟人脸图像与样本真人人脸图像采用了不同的分析手法所获得的能够表示样本虚拟人脸图像与样本真人人脸图像的特征信息。其中,分析手法由所使用的网络模型本身所决定。
(4)基于五官分类特征图计算的相似度Latt
可选地,可以分别将样本真人人脸图像以及样本虚拟人脸图像,输入到预先训练的第五网络模型,以提取样本真人人脸图像以及样本虚拟人脸图像的五官分类特征图;计算样本真人人脸图像以及样本虚拟人脸图像的五官分类特征图之间的相似度,得到样本虚拟人脸图像与样本真人人脸图像之间的相似度。
其中,上述第五网络模型可以是以ResNet为主干的深度学习模型。
举例来说,以人脸眼型为例,人脸眼型可以包括杏花眼、丹凤眼等。通过第五网络模型,可以对样本真人人脸图像以及样本虚拟人脸图像中的五官进行分类,得到表示五官分类的结果。
可选地,计算样本真人人脸图像以及样本虚拟人脸图像的五官分类特征图之间的相似度,得到样本虚拟人脸图像与样本真人人脸图像之间的相似度的过程可以实现为:计算样本真人人脸图像以及样本虚拟人脸图像的五官分类特征图之间的L1损失值,得到样本虚拟人脸图像与样本真人人脸图像之间的相似度。
在一种可能的实现方式中,可以将上述几种相似度进行求和,以获得样本真人人脸图像以及样本虚拟人脸图像之间最终的相似度,即:
Loss=Lsim+Lseg+Lper+Latt (公式3)
在计算出Loss之后,可以通过深度学习的反向传播优化调整第一网络模型中的模型参数,并通过多次迭代优化模型参数,直到达到预设迭代次数或者Loss达到预设阈值。
采用本发明实施例提供的方法,在推理过程中,可以根据用户输入的真人人脸图像,自动生成用于输出与真人人脸图像相匹配的三维虚拟人脸模型的虚拟人脸配置参数,无需用户手动一一设置虚拟人脸配置参数。与此同时,还可以基于平均参数向量以及投影矩阵,去除直接由第一网络模型生成的虚拟人脸配置参数中的异常因素,然后将修正后的虚拟人脸配置参数输入到虚拟人脸自定义***中可以生成符合一般审美的正常的与真人人脸图像匹配的三维虚拟人脸模型,可以降低生成不能满足用户要求的三维虚拟人脸模型的概率。
以下将详细描述本发明的一个或多个实施例的虚拟人脸配置参数生成装置。本领域技术人员可以理解,这些虚拟人脸配置参数生成装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图3为本发明实施例提供的一种虚拟人脸配置参数生成装置的结构示意图,如图3所示,该装置包括:
获取模块31,用于获取真人人脸图像;
输入模块32,用于将所述真人人脸图像输入预先训练的第一网络模型,得到虚拟人脸配置参数;
所述获取模块31,用于获取平均参数向量以及投影矩阵;
去异常模块33,用于基于所述平均参数向量以及所述投影矩阵,对所述虚拟人脸配置参数进行预设的去异常处理,得到修正后的虚拟人脸配置参数;
生成模块34,用于将所述修正后的虚拟人脸配置参数输入虚拟人脸自定义***,得到与所述真人人脸图像匹配的三维虚拟人脸模型。
可选地,所述获取模块31,用于:
获取包含所述真人人脸图像的原始图像;
提取所述原始图像中的人脸特征点;
基于提取到的人脸特征点以及预设的标准人脸图像中的人脸特征点,将所述原始图像对齐到所述标准人脸图像;
基于对齐后的结果,按照所述标准人脸图像的边沿对所述原始图像进行剪裁,得到所述真人人脸图像。
可选地,所述装置还包括检测模块,所述检测模块,用于:
检测所述原始图像中是否包含人脸;
若未在所述原始图像中检测到人脸,则输出提示信息,其中,所述提示信息用于提示用户未在所述原始图像中检测到人脸。
可选地,所述获取模块31,用于:
获取样本数据集,其中,所述样本数据集中包含有多个样本虚拟人脸配置参数;
确定所述样本数据集对应的汇总矩阵;
对所述汇总矩阵进行奇异值分解SVD特征分解,得到平均参数向量以及投影矩阵。
可选地,所述样本数据集中还包含有多个样本真人人脸图像,所述装置还包括训练模块,所述训练模块,用于:
将所述样本真人人脸图像输入到待训练的第一网络模型,得到训练虚拟人脸配置参数;
基于所述平均参数向量以及所述投影矩阵,对所述训练虚拟人脸配置参数进行所述去异常处理,得到修正后的训练虚拟人脸配置参数;
将所述修正后的训练虚拟人脸配置参数输入所述预先训练的虚拟人脸图像生成模型,得到与所述样本真人人脸图像匹配的样本虚拟人脸图像;
确定所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度;
基于所述相似度,调整所述待训练的第一网络模型的模型参数,以完成对所述待训练的第一网络模型的训练过程。
可选地,所述训练模块,用于:
将所述样本真人人脸图像输入到预先训练的第二网络模型,以提取所述样本真人人脸图像的真人人脸识别特征向量;
将所述样本虚拟人脸图像输入到所述第二网络模型,以提取所述样本虚拟人脸图像的虚拟人脸识别特征向量;
计算所述真人人脸识别特征向量和所述虚拟人脸识别特征向量之间的相似度,得到所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度。
可选地,所述训练模块,用于:
将所述样本真人人脸图像输入到预先训练的第三网络模型,以提取所述样本真人人脸图像的真人人脸语义分割概率图;
将所述样本虚拟人脸图像输入到所述第二网络模型,以提取所述样本虚拟人脸图像的虚拟人脸语义分割概率图;
计算所述真人人脸语义分割概率图和所述虚拟人脸语义分割概率图之间的L1损失值,得到所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度。
可选地,所述训练模块,用于:
将所述样本真人人脸图像输入到预先训练的第四网络模型,以提取所述样本真人人脸图像的真人人脸感知特征图;
将所述样本虚拟人脸图像输入到所述第四网络模型,以提取所述样本虚拟人脸图像的虚拟人脸感知特征图;
计算所述真人人脸感知特征图和所述虚拟人脸感知特征图之间的相似度,得到所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度。
可选地,所述训练模块,用于:
分别将所述样本真人人脸图像以及所述样本虚拟人脸图像,输入到预先训练的第五网络模型,以提取所述样本真人人脸图像以及所述样本虚拟人脸图像的五官分类特征图;
计算所述样本真人人脸图像以及所述样本虚拟人脸图像的五官分类特征图之间的相似度,得到所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度。
图3所示装置可以执行前述图1至图2所示实施例中提供的虚拟人脸配置参数生成方法,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图3所示虚拟人脸配置参数生成装置的结构可实现为一电子设备,如图4所示,该电子设备可以包括:处理器91、存储器92。其中,所述存储器92上存储有可执行代码,当所述可执行代码被所述处理器91执行时,使所述处理器91至少可以实现如前述图1至图2所示实施例中提供的虚拟人脸配置参数生成方法。
可选地,该电子设备中还可以包括通信接口93,用于与其他设备进行通信。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述图1至图2所示实施例中提供的虚拟人脸配置参数生成方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例提供的虚拟人脸配置参数生成方法可以由某种程序/软件来执行,该程序/软件可以由网络侧提供,前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中,并在其需要执行前述虚拟人脸配置参数生成方法时,通过CPU将该程序/软件读取到内存中,进而由CPU执行该程序/软件以实现前述实施例中所提供的虚拟人脸配置参数生成方法,执行过程可以参见前述图1至图2中的示意。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种虚拟人脸配置参数生成方法,其特征在于,包括:
获取真人人脸图像;
将所述真人人脸图像输入预先训练的第一网络模型,得到虚拟人脸配置参数;
获取平均参数向量以及投影矩阵;
基于所述平均参数向量以及所述投影矩阵,对所述虚拟人脸配置参数进行预设的去异常处理,得到修正后的虚拟人脸配置参数;
将所述修正后的虚拟人脸配置参数输入虚拟人脸自定义***,得到与所述真人人脸图像匹配的三维虚拟人脸模型。
2.根据权利要求1所述的方法,其特征在于,所述获取真人人脸图像,包括:
获取包含所述真人人脸图像的原始图像;
提取所述原始图像中的人脸特征点;
基于提取到的人脸特征点以及预设的标准人脸图像中的人脸特征点,将所述原始图像对齐到所述标准人脸图像;
基于对齐后的结果,按照所述标准人脸图像的边沿对所述原始图像进行剪裁,得到所述真人人脸图像。
3.根据权利要求2所述的方法,其特征在于,在提取所述原始图像中的人脸特征点之前,所述方法还包括:
检测所述原始图像中是否包含人脸;
若未在所述原始图像中检测到人脸,则输出提示信息,其中,所述提示信息用于提示用户未在所述原始图像中检测到人脸。
4.根据权利要求1所述的方法,其特征在于,所述获取平均参数向量以及投影矩阵,包括:
获取样本数据集,其中,所述样本数据集中包含有多个样本虚拟人脸配置参数;
确定所述样本数据集对应的汇总矩阵;
对所述汇总矩阵进行奇异值分解SVD特征分解,得到平均参数向量以及投影矩阵。
5.根据权利要求1所述的方法,其特征在于,所述样本数据集中还包含有多个样本真人人脸图像,所述方法还包括:
将所述样本真人人脸图像输入到待训练的第一网络模型,得到训练虚拟人脸配置参数;
基于所述平均参数向量以及所述投影矩阵,对所述训练虚拟人脸配置参数进行所述去异常处理,得到修正后的训练虚拟人脸配置参数;
将所述修正后的训练虚拟人脸配置参数输入预先训练的虚拟人脸图像生成模型,得到与所述样本真人人脸图像匹配的样本虚拟人脸图像;
确定所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度;
基于所述相似度,调整所述待训练的第一网络模型的模型参数,以完成对所述待训练的第一网络模型的训练过程。
6.根据权利要求5所述的方法,其特征在于,所述确定所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度,包括:
将所述样本真人人脸图像输入到预先训练的第二网络模型,以提取所述样本真人人脸图像的真人人脸识别特征向量;
将所述样本虚拟人脸图像输入到所述第二网络模型,以提取所述样本虚拟人脸图像的虚拟人脸识别特征向量;
计算所述真人人脸识别特征向量和所述虚拟人脸识别特征向量之间的相似度,得到所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度。
7.根据权利要求5所述的方法,其特征在于,所述确定所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度,包括:
将所述样本真人人脸图像输入到预先训练的第三网络模型,以提取所述样本真人人脸图像的真人人脸语义分割概率图;
将所述样本虚拟人脸图像输入到所述第二网络模型,以提取所述样本虚拟人脸图像的虚拟人脸语义分割概率图;
计算所述真人人脸语义分割概率图和所述虚拟人脸语义分割概率图之间的L1损失值,得到所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度。
8.根据权利要求5所述的方法,其特征在于,所述确定所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度,包括:
将所述样本真人人脸图像输入到预先训练的第四网络模型,以提取所述样本真人人脸图像的真人人脸感知特征图;
将所述样本虚拟人脸图像输入到所述第四网络模型,以提取所述样本虚拟人脸图像的虚拟人脸感知特征图;
计算所述真人人脸感知特征图和所述虚拟人脸感知特征图之间的相似度,得到所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度。
9.根据权利要求5所述的方法,其特征在于,所述确定所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度,包括:
分别将所述样本真人人脸图像以及所述样本虚拟人脸图像,输入到预先训练的第五网络模型,以提取所述样本真人人脸图像以及所述样本虚拟人脸图像的五官分类特征图;
计算所述样本真人人脸图像以及所述样本虚拟人脸图像的五官分类特征图之间的相似度,得到所述样本虚拟人脸图像与所述样本真人人脸图像之间的相似度。
10.根据权利要求5所述的方法,其特征在于,所述方法还包括:
利用所述虚拟人脸自定义***,获取参考虚拟人脸配置参数和参考虚拟人脸图像配对的目标数据集;
利用深度学习监督训练方法,通过所述目标数据集训练得到所述虚拟人脸图像生成模型,其中,所述虚拟人脸图像生成模型能够模拟所述虚拟人脸自定义***的功能,并且具有深度学习训练过程中反向传播的能力。
11.一种虚拟人脸配置参数生成装置,其特征在于,包括:
获取模块,用于获取真人人脸图像;
输入模块,用于将所述真人人脸图像输入预先训练的第一网络模型,得到虚拟人脸配置参数;
所述获取模块,用于获取平均参数向量以及投影矩阵;
去异常模块,用于基于所述平均参数向量以及所述投影矩阵,对所述虚拟人脸配置参数进行预设的去异常处理,得到修正后的虚拟人脸配置参数;
生成模块,用于将所述修正后的虚拟人脸配置参数输入虚拟人脸自定义***,得到与所述真人人脸图像匹配的三维虚拟人脸模型。
12.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的虚拟人脸配置参数生成方法。
13.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的虚拟人脸配置参数生成方法。
CN202311605223.6A 2023-11-28 2023-11-28 虚拟人脸配置参数生成方法、装置、设备和存储介质 Pending CN117541758A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311605223.6A CN117541758A (zh) 2023-11-28 2023-11-28 虚拟人脸配置参数生成方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311605223.6A CN117541758A (zh) 2023-11-28 2023-11-28 虚拟人脸配置参数生成方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN117541758A true CN117541758A (zh) 2024-02-09

Family

ID=89793566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311605223.6A Pending CN117541758A (zh) 2023-11-28 2023-11-28 虚拟人脸配置参数生成方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117541758A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056088A (zh) * 2016-06-03 2016-10-26 西安电子科技大学 基于自适应虚拟样本产生准则的单样本人脸识别方法
CN115249371A (zh) * 2021-04-28 2022-10-28 ***通信集团四川有限公司 一种人脸识别模型的训练方法、装置及电子设备
CN115393486A (zh) * 2022-10-27 2022-11-25 科大讯飞股份有限公司 虚拟形象的生成方法、装置、设备及存储介质
CN115984940A (zh) * 2023-01-12 2023-04-18 百果园技术(新加坡)有限公司 一种虚拟角色人脸处理方法、装置、设备、存储介质及产品
WO2023109753A1 (zh) * 2021-12-14 2023-06-22 魔珐(上海)信息科技有限公司 虚拟角色的动画生成方法及装置、存储介质、终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056088A (zh) * 2016-06-03 2016-10-26 西安电子科技大学 基于自适应虚拟样本产生准则的单样本人脸识别方法
CN115249371A (zh) * 2021-04-28 2022-10-28 ***通信集团四川有限公司 一种人脸识别模型的训练方法、装置及电子设备
WO2023109753A1 (zh) * 2021-12-14 2023-06-22 魔珐(上海)信息科技有限公司 虚拟角色的动画生成方法及装置、存储介质、终端
CN115393486A (zh) * 2022-10-27 2022-11-25 科大讯飞股份有限公司 虚拟形象的生成方法、装置、设备及存储介质
CN115984940A (zh) * 2023-01-12 2023-04-18 百果园技术(新加坡)有限公司 一种虚拟角色人脸处理方法、装置、设备、存储介质及产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAELIM CHOI; JIWOO KANG; HYEWON SONG; SANGHOON LEE: "Fitting Facial Models to Spatial Points: Blendshape Approaches and Benchmark", 2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), 6 September 2018 (2018-09-06) *
董西伟;尧时茂;王玉伟;朱阳平;: "基于虚拟样本图像集的多流形鉴别学习算法", 计算机应用研究, no. 06, 14 June 2017 (2017-06-14) *

Similar Documents

Publication Publication Date Title
US10452899B2 (en) Unsupervised deep representation learning for fine-grained body part recognition
CN111241989B (zh) 图像识别方法及装置、电子设备
CN110659582A (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
CN109271958B (zh) 人脸年龄识别方法及装置
CN110909651A (zh) 视频主体人物的识别方法、装置、设备及可读存储介质
EP4246431A1 (en) Face image quality assessment method and apparatus, computer device and storage medium
JP5766620B2 (ja) 物体領域検出装置、方法、及びプログラム
KR20060097074A (ko) 객체의 모양모델 생성장치 및 방법과 이를 이용한 객체의특징점 자동탐색장치 및 방법
JP2008542911A (ja) メトリック埋め込みによる画像比較
CN111881926A (zh) 图像生成、图像生成模型的训练方法、装置、设备及介质
JP2020087103A (ja) 学習方法、コンピュータプログラム、分類器、及び生成器
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN114868124A (zh) 控制方法、信息处理装置以及控制程序
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN115984930A (zh) 微表情识别方法、装置、微表情识别模型的训练方法
CN113221660B (zh) 一种基于特征融合的跨年龄人脸识别方法
CN110910325A (zh) 一种基于人工蝴蝶优化算法的医疗影像处理方法及装置
CN116543419B (zh) 基于嵌入式平台的酒店卫勤人员穿戴检测方法及***
JP2005141437A (ja) パターン認識装置及びその方法
US20230281981A1 (en) Methods, devices, and computer readable media for training a keypoint estimation network using cgan-based data augmentation
CN117541758A (zh) 虚拟人脸配置参数生成方法、装置、设备和存储介质
CN114299590A (zh) 人脸补全模型的训练方法、人脸补全方法及***
CN114445649A (zh) 用多尺度超像素融合检测rgb-d单幅图像阴影的方法
CN111160487A (zh) 人脸图像数据集的扩充方法和装置
CN114424218A (zh) 机器学习装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination