CN117218300A - 三维模型的构建方法、三维构建模型的训练方法及装置 - Google Patents
三维模型的构建方法、三维构建模型的训练方法及装置 Download PDFInfo
- Publication number
- CN117218300A CN117218300A CN202311479191.XA CN202311479191A CN117218300A CN 117218300 A CN117218300 A CN 117218300A CN 202311479191 A CN202311479191 A CN 202311479191A CN 117218300 A CN117218300 A CN 117218300A
- Authority
- CN
- China
- Prior art keywords
- point
- dimensional
- model
- deformation
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000012549 training Methods 0.000 title claims abstract description 64
- 238000010276 construction Methods 0.000 title claims description 53
- 230000008921 facial expression Effects 0.000 claims abstract description 59
- 238000005070 sampling Methods 0.000 claims abstract description 40
- 238000009877 rendering Methods 0.000 claims abstract description 16
- 210000000988 bone and bone Anatomy 0.000 claims description 60
- 230000014509 gene expression Effects 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 24
- 210000004209 hair Anatomy 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000005477 standard model Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 210000003128 head Anatomy 0.000 description 318
- 230000036544 posture Effects 0.000 description 49
- 238000005516 engineering process Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 206010065687 Bone loss Diseases 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 210000000689 upper leg Anatomy 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- RKTYLMNFRDHKIL-UHFFFAOYSA-N copper;5,10,15,20-tetraphenylporphyrin-22,24-diide Chemical compound [Cu+2].C1=CC(C(=C2C=CC([N-]2)=C(C=2C=CC=CC=2)C=2C=CC(N=2)=C(C=2C=CC=CC=2)C2=CC=C3[N-]2)C=2C=CC=CC=2)=NC1=C3C1=CC=CC=C1 RKTYLMNFRDHKIL-UHFFFAOYSA-N 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种三维模型的构建方法、三维构建模型的训练方法及装置,涉及人工智能技术领域。所述方法包括:获取输入头部图像的初始三维头部模型,初始三维头部模型具有输入头部图像对应的头部姿势和面部表情;在形变空间中对初始三维头部模型进行点采样,得到形变点集;获取形变点集对应的规范点集,规范点集中的规范点是指形变点被形变至规范空间中所对应的点;基于规范点集,构建输入头部图像对应的规范三维头部模型;预测得到各个规范点的预期颜色值;根据各个规范点的预期颜色值,对规范三维头部模型进行渲染,得到最终三维头部模型。本申请可应用于人工智能、智慧交通等场景。本申请实施例能够提高三维头部模型的生成灵活性。
Description
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种三维模型的构建方法、三维构建模型的训练方法及装置。
背景技术
随着人工智能技术的发展,神经网络模型可被用于三维模型的构建场景中,诸如三维全身模型、三维头部模型、三维脸部模型等构建场景。
以三维头部模型为例,相关技术针对现实生活,通过神经网络模型学习面部姿势、光照和表情控制,以实现三维头部模型的构建。然而,在构建游戏角色的三维头部模型的情况下,由于游戏角色的面部表情夸张、特效多,因此相关技术训练得到的神经网络模型难以结合游戏特效,进行三维头部模型的夸张表情渲染。
发明内容
本申请实施例提供了一种三维模型的构建方法、三维构建模型的训练方法及装置,能够提高三维头部模型的生成灵活性。所述技术方案包括如下内容。
根据本申请实施例的一个方面,提供了一种三维模型的构建方法,所述方法包括:
获取输入头部图像的初始三维头部模型,所述初始三维头部模型具有所述输入头部图像对应的头部姿势和面部表情;
在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点;
获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点;
基于所述规范点集,构建所述输入头部图像对应的规范三维头部模型;
对于所述规范点集中的各个规范点,基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值;
根据所述各个规范点的预期颜色值,对所述规范三维头部模型进行渲染,得到所述输入头部图像对应的最终三维头部模型。
根据本申请实施例的一个方面,提供了一种三维构建模型的训练方法,所述方法包括:
获取样本头部图像的初始三维头部模型,所述初始三维头部模型具有所述样本头部图像对应的头部姿势和面部表情;
在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点;
通过三维构建模型获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点;
通过所述三维构建模型基于所述头部姿势、所述面部表情和所述规范点的三维位置,预测得到所述规范点的预测占用率,所述预测占用率用于预测表示所述规范点的编码复杂程度;
对于所述规范点集中的各个规范点,通过所述三维构建模型基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值;
基于所述各个规范点的预测占用率和预期颜色值,对所述三维构建模型进行训练,得到训练后的三维构建模型,所述训练后的三维构建模型用于构建并渲染得到输入头部图像的最终三维头部模型。
根据本申请实施例的一个方面,提供了一种三维模型的构建装置,所述装置包括:
初始模型获取模块,用于获取输入头部图像的初始三维头部模型,所述初始三维头部模型具有所述输入头部图像对应的头部姿势和面部表情;
形变点集获取模块,用于在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点;
规范点集获取模块,用于获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点;
规范模型构建模块,用于基于所述规范点集,构建所述输入头部图像对应的规范三维头部模型;
颜色值预测模块,用于对于所述规范点集中的各个规范点,基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值;
最终模型获取模块,用于根据所述各个规范点的预期颜色值,对所述规范三维头部模型进行渲染,得到所述输入头部图像对应的最终三维头部模型。
根据本申请实施例的一个方面,提供了一种三维构建模型的训练装置,所述装置包括:
初始模型获取模块,用于获取样本头部图像的初始三维头部模型,所述初始三维头部模型具有所述样本头部图像对应的头部姿势和面部表情;
形变点集获取模块,用于在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点;
规范点集获取模块,用于通过三维构建模型获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点;
占用率预测模块,用于通过所述三维构建模型基于所述头部姿势、所述面部表情和所述规范点的三维位置,预测得到所述规范点的预测占用率,所述预测占用率用于预测表示所述规范点的编码复杂程度;
颜色值预测模块,用于对于所述规范点集中的各个规范点,通过所述三维构建模型基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值;
构建模型训练模块,用于基于所述各个规范点的预测占用率和预期颜色值,对所述三维构建模型进行训练,得到训练后的三维构建模型,所述训练后的三维构建模型用于构建并渲染得到输入头部图像的最终三维头部模型。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述三维模型的构建方法,或者实现上述三维构建模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述三维模型的构建方法,或者实现上述三维构建模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述三维模型的构建方法,或者执行上述三维构建模型的训练方法。
本申请实施例提供的技术方案可以包括如下有益效果。
通过基于输入头部图像,构建具有输入头部图像对应的头部姿势和面部表情的初始三维头部模型,再将该初始三维头部模型形变至规范空间,得到规范三维头部模型,再结合预期颜色值对该规范三维头部模型进行渲染,即可得到头部姿势和面部表情完全可控的最终三维头部模型,也即通过调整输入头部图像即可灵活调整最终三维头部模型的头部姿势和面部表情,从而提高了三维头部模型的生成灵活性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的三维构建模型的示意图;
图3是本申请一个实施例提供的三维构建模型的训练方法的流程图;
图4是本申请另一个实施例提供的规范点集的获取方法的流程图;
图5是本申请一个实施例提供的三维模型的构建方法的流程图;
图6是本申请一个实施例提供的面部区域的示意图;
图7是本申请一个实施例提供的三维模型的构建装置的框图;
图8是本申请另一个实施例提供的三维模型的构建装置的框图;
图9是本申请一个实施例提供的三维构建模型的训练装置的框图;
图10是本申请另一个实施例提供的三维构建模型的训练装置的框图;
图11是本申请一个实施例提供的计算机设备的框图。
具体实施方式
在对本申请实施例进行介绍说明之前,首先对本申请中涉及的相关名词进行解释说明。
1、形变
其是指改变3D模型的形状的过程,如可通过调整各种参数和属性,对3D模型进行扭曲、拉伸、挤压等处理。其在3D模型的个性化定制和创意设计中扮演重要角色。
2、Mesh
网格,图形学中的基础单元。例如,3D模型的表面由多个网格(如三角面片、四角面片等)拼接而成。Mesh也可以被称之为Vertex(顶点),如三维模型可以看成是多个小三角形组成,每个小三角形就可以看成一个顶点,顶点越多,三维模型越精细。
3、3D重建
其是指对三维物体建立适合计算机表示和处理的数学模型的过程,如该数学模型是在计算机环境下对三维物体进行处理、操作和分析性质的基础,也是在计算机中建立表达客观世界的虚拟现实的关键技术。
4、蒙皮
其是指一种将3D模型绑定到骨骼上的技术。例如,在三维软件中创建的3D模型的基础上,为3D模型添加骨骼,由于骨骼与3D模型是相互独立的,为了让骨骼驱动3D模型以产生合理的运动,则可以利用蒙皮技术将3D模型绑定到骨骼上。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革,Swin-Transformer、ViT(Vision Transformer,视觉转换器)、V-MOE(Vision Mixture-of-Experts)、MAE(Masked Autoencoders,掩码自动编码器)等视觉领域的预训练模型经过微调(finetune),可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(Three-Dimensional)技术、虚拟现实、增强现实、同步定位与地图构建等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
本申请实施例提供的技术方案涉及人工智能的计算机视觉技术和机器学习技术。首先,其可以利用计算机视觉技术,进行图像(如输入头部图像和样本头部图像)的扫描,以构建初始三维头部模型。其次,其可利用机器学习技术,对三维构建模型(如形变网络、占用网络和纹理网络)进行训练,以得到训练完成的三维构建模型,该训练完成的三维构建模型可用于构建并渲染得到具有输入头部图像对应的头部姿势和脸部表情的三维头部模型。
本申请实施例提供的技术方案适用于任何需要三维头部模型构建的场景中,诸如游戏角色构建(如3D游戏)、动画制作(如3D动画)、3D重建等场景。本申请实施例提供的技术方案能够提高三维头部模型的生成灵活性。
下述将对本申请实施例提供方案实施环境和三维构建模型的模型架构进行说明。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。
模型训练设备10可以是诸如手机、台式电脑、平板电脑、笔记本电脑、PC(PersonalComputer,个人计算机)、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备,或者是其他一些具有较强计算能力的电子设备,本申请实施例对此不作限定。其中,服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。
模型训练设备10用于对三维构建模型30进行训练。可选地,模型训练设备10可以采用机器学习的方式对该三维构建模型30进行训练,以使得其具备较好的性能。其中,三维构建模型30是一种用于构建三维头部模型的神经网络模型。该三维构建模型30以头部图像为输入,以该头部图像对应的三维头部模型为输出。其中,三维头部模型是指头部的三维模型,头部图像是指包含头部的图像,诸如头部对应的RGB(Red-Green-Blue,红色-绿色-蓝色)图像、RGB-D(RGB-Depth,RGB-深度)图像、视频帧、贴图、头像等。
可选地,上述训练过程是一个迭代过程,如采用多批样本头部图像,对三维构建模型30的参数进行迭代调整,以得到训练完成的三维构建模型30,本申请实施例以某一个样本头部图像对应的训练过程为例进行说明。可选地,迭代的终止条件可以包括以下至少一种:最小化三维构建模型30的总损失、迭代次数大于或等于阈值、三维构建模型30的总损失小于或等于阈值等,本申请实施例对此不作限定。
上述训练完成的三维构建模型30可部署在模型使用设备20中使用,以提供三维头部模型的构建服务。模型使用设备20可以是诸如手机、台式电脑、平板电脑、笔记本电脑、个人计算机、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备,或者是其他一些具有较强计算能力的电子设备,本申请实施例对此不作限定。
可选地,模型使用设备20中可以安装目标应用程序的客户端,该目标应用程序可以是诸如3D模型构建类应用程序、3D重建类应用程序、游戏角色模型构建类应用程序、动画制作类应用程序,以及任何支持3D模型构建的应用程序。可选地,上述目标应用程序的客户端支持上述训练完成的三维构建模型30。
示例性地,该三维构建模型30可用于游戏类应用程序的建模资源的快速建模场景中。例如,针对一些建模困难的游戏角色,可通过该三维构建模型30重新快速渲染建模,以得到该游戏角色的三维头部模型,然后再将该三维头部模型送入游戏类应用程序中实现快速调试,如此可以实现一些不合格的三维头部模型的替换和调试。
在一个示例中,参考图2,上述三维构建模型30包括形变网络31、占用网络32和纹理网络33。
形变网络31是指用于对三维模型进行形变的神经网络,其可用于将三维模型从观察空间(如形变空间)形变至规范空间,以得到规范三维模型。示例性地,其以形变空间中的形变点为输入,以该形变在规范空间中对应的规范点为输出。该形变网络31学习有规范空间对应的蒙皮权重场,以实现形变。可选地,该形变网络31可以采用诸如MLP(Multi-layerPerceptron,多层感知机)、Resnet101(具有101层的深度残差网络)、Resnet50、CNN(Convolutional Neural Network,卷积神经网络)、DNN(Deep Neural Networks,深度神经网络)等神经网络构建,其也可以采用上述预训练模型构建,本申请实施例对此不作限定。
其中,形变空间(Deformed Space)可以是指形变前的空间,如SMPL-X(SkinnedMulti-Person Linear Model-X)模型对应的空间,规范空间(Canonical Space)可以是指形变后的空间,如一个标准的体积空间/范围。其中,SMPL-X模型本身是广泛使用的参数化人体模型。
可选地,形变网络31可以包括多个子网络(即形变器),每个子网络对应处理头部的一个部位。示例性地,本申请实施例将头部划分成四个部分:脸部、左耳、右耳和头发,则可以为形变网络31设置四个子网络(如图2中的形变器1-4),以分别对该四个部位进行形变。
占用网络32是指用于对占用率进行预测的神经网络,其可用于预测得到规范点的预测占用率,该预测占用率可用于表征该规范点的形状。示例性地,占用网络32以规范点的三维位置、头部姿态(如头发姿势)和脸部表情为输入,以规范点的预测占用率为输出。可选地,该占用网络32可以采用诸如MLP、Resnet101、Resnet50、CNN、DNN等神经网络构建,其也可以采用上述预训练模型构建,本申请实施例对此不作限定。
纹理网络33是指用于对颜色值进行预测的神经网络,其可用于预测得到规范点的预测颜色值,该预测颜色值可用于表征该规范点的纹理。示例性地,纹理网络33以规范点的三维位置和单位方向为输入,以规范点的预测颜色值为输出。可选地,该纹理网络33可以采用诸如MLP、Resnet101、Resnet50、CNN、DNN等神经网络构建,其也可以采用上述预训练模型构建,本申请实施例对此不作限定。
本申请实施例对三维构建模型30的模型架构不作限定,上述实施例中的三维构建模型30仅为示例性地和解释性地,凡是能够实现三维头部模型构建的模型应当均在本申请实施例的保护范围内。
下述为本申请方法实施例,通过该方法实施例对三维构建模型的训练过程和三维模型的构建过程进行说明,对于本申请方法实施例中未披露的细节,请参照上述实施例。
请参考图3,其示出了本申请一个实施例提供的三维构建模型的训练方法的流程图,该方法各步骤的执行主体可以是图1所示方案实施环境中的模型训练设备10,该方法可以包括如下几个步骤(301~306)。
步骤301,获取样本头部图像的初始三维头部模型,该初始三维头部模型具有样本头部图像对应的头部姿势和面部表情。
样本头部图像是指用于作为训练样本的头部图像,头部图像是指包括头部的图像,诸如针对游戏角色的头部图像、针对三维模型的头部图像、针对人的头部图像,本申请实施例对此不作限定。
可选地,头部图像携带有头部的姿势信息、表情信息和纹理信息。头部姿势即是指头部的姿势信息,面部表情是指头部对应的脸部的表情。本申请实施例对头部图像对应的头部姿势和面部表情不作限定,其可以是虚构的夸张姿势和表情,也可以是真实的姿势和表情,还可以是指带有特效的姿势和表情。
在本申请实施例中,头部姿势可以包括以下至少之一:头发姿势、铰接式耳朵姿势、脸部姿势、头部的整体姿势。
上述初始三维头部模型可以对样本头部图像中的头部进行扫描,构建得到的三维头部模型,该初始三维头部模型的表面可由多个网格拼接得到。
在一个示例中,该初始三维头部模型可以是一种参数化人体模型,该初始三维头部模型的构建过程可以如下:对样本头部图像进行姿势扫描,得到头部姿势和面部表情。基于头部姿势和面部表情,以及形状参数,构建得到初始三维头部模型;其中,形状参数用于控制初始三维头部模型的形状。
示例性地,可以利用SMPL-X技术基于样本头部图像,构建得到初始三维头部模型,该初始三维头部模型可以是SMPL-X模型,该SMPL模型可以是一种裸体的基于顶点(即网格)的三维模型,其能够精确地表示三维物体的不同形状和姿态。上述形状参数可利用PCA(Principal Components Analysis,主成分分析)原理控制Mesh的胖瘦高矮,从而实现控制整个三维头部模型的形状。
例如,初始三维头部模型可以表示如下:
;
其中,为形状参数,/>为头部姿势,/>为面部表情。/>可以进一步分为头部的整体姿势/>、脸部姿势/>、铰接式耳朵姿势/>和头发姿势/>。在一个示例中,/>,、/>、/>、/>、/>和N=10475。
步骤302,在形变空间中对初始三维头部模型进行点采样,得到形变点集,该形变点集包括初始三维头部模型在形变空间中的多个形变点,形变点是待形变的点。
可选地,形变点可以是指在初始三维头部模型的表面上的点,也即对初始三维头部模型的表面上的点进行点采样,即可得到形变点集。采样点的三维位置可以采用其在形变空间中的三维坐标表示。
在一个示例中,为了减少三维头部模型的构建工作量,提高三维头部模型的构建效率,本申请实施例采用部分感知采样,也即针对头部的不同部位以指定采样率进行采样,以得到形变点集,如此也可以使得采集得到的形变点分布合理,有利于提高三维头部模型的构建效果。
示例性地,形变点集的获取过程可以包括如下内容。
1、获取初始三维头部模型的表面上各个点的部位标签,该部位标签与初始三维头部模型的不同部位对应的骨骼相关。
上述部位标签用于指示头部的部位,该头部的部位可以根据头部的骨骼进行划分。示例性地,头部的部位标签可以记为P={F,LH,RH,B},F为脸部标签,其与脸部对应的骨骼相关;LH为左耳标签,其与左耳对应的骨骼相关;RH为右耳标签,其与右耳对应的骨骼相关;B为头发标签,其与头发对应的骨骼相关。
示例性地,可以先获取各个点分别对应的网格,该网格用于拼接成初始三维头部模型的表面。例如,对于各个点,将离点最近的网格确定为该点对应的网格。然后对于各个点,获取点对应的网格的部位标签。可选地,网格的部位标签可以是预先计算得到的。再将点对应的网格的部位标签确定为点的部位标签。
2、根据部位标签对各个点进行划分,得到多个点集,不同的点集对应不同的部位标签。
不同的点集对应不同的部位。示例性地,对于每个部位标签,该部位标签对应的点集可以表示为/>,其中,/>用于指示初始三维头部模型的表面上的点,/>用于指示点/>的头部标签。
3、对于各个部位标签,按照部位标签对应的指定采样率,在形变空间中对部位标签对应的点集进行点采样,得到部位标签对应的形变点。
上述指定采样率可以根据经验值进行设置与调整,不同部位标签对应的指令采样率可以不相同,如结合部位标签对应的部位的大小,确定该部位标签对应的指定采样率,本申请实施例对此不作限定。
例如,对于某个点集,根据该点集对应的部位标签,确定该点集对应的指定采样率,再按照该指定采样率对该点集进行采样,即可得到该部位标签的部位对应的形变点。
4、对各个部位标签对应的形变点进行组合,得到形变点集。
可选地,可将各个部位标签对应的形变点作为子集进行组合,以得到形变点集,如此便于后续以部位标签对应的形变器,对部位标签对应的子集中的形变点进行形变,如此有利于提高形变的合理性。
步骤303,通过三维构建模型获取形变点集对应的规范点集,该规范点集中的规范点是指形变点被形变至规范空间中所对应的点。
可选地,通过三维构建模型中的形变网络对形变点集中的各个形变点进行形变,得到各个形变点分别对应的规范点。本申请实施例中的三维构建模型与上述实施例介绍相同,这里不再赘述。
本申请实施例中的目标是将初始三维头部模型转换为由关节神经隐式曲面定义的规范三维头部模型,以使得本申请能够处理不同拓扑结构,且能够实现更高的几何分辨率和更高的整体外观保证度,则上述形变网络可以是用于学习连续蒙皮权重的正向线性混合蒙皮(LBS,Linear Blending Skinning)的神经网络,以实现形变。其中,蒙皮权重用于指示网格对于不同的关节点(骨骼点)的影响,不同关节点对不同网格的影响不同,网格的形变量与蒙皮权重相关。
例如,参考图2,形变网络31包括形变器1至形变器4,对于部位标签为脸部标签的形变点,采用形变器1获取该形变点对应的规范点;对于部位标签为左耳标签的形变点,采用形变器2获取该形变点对应的规范点;对于部位标签为右耳标签的形变点,采用形变器3获取该形变点对应的规范点;对于部位标签为头发标签的形变点,采用形变器4获取该形变点对应的规范点。
在一个示例中,以某个形变点的形变过程为例,参考图4,步骤303还可以包括如下几个子步骤。
步骤303a,对于形变点集中各个形变点,通过三维构建模型获取形变点在规范空间中对应的至少一个候选点。
上述候选点是指可能与形变点相对应的规范点,候选点与形变点对应相同的骨骼(即相同的部位标签),则上述至少一个候选点可以记为:,对于/>,/>为该部位标签对应的候选点数量,/>表示第i个候选点。
示例性地,至少一个候选点的获取过程可以包括如下内容。
1、通过三维构建模型获取候选点对应的蒙皮权重,该蒙皮权重用于指示候选点对应的蒙皮点与骨骼之间的关联程度。
为了模拟骨骼形变,本申请利用形变网络(如MLP)基于LBS方法学习规范空间中的蒙皮权重场,该蒙皮权重场用于指示如何将形变空间变换到规范空间,形式上为:将由位姿定义的形变空间中的3D点转换至规范空间中的3D点。
示例性地,本申请通过三维构建模型基于规范空间和形变空间之间的变换矩阵,以及头发、耳朵和面部各自对应的骨骼数量,构建蒙皮权重场,该蒙皮权重场用于指示各个形变点的蒙皮权重。
例如,该蒙皮权重场可以表示如下:
;
其中,表示候选点/>(可以以位置编码/>表征)在规范空间中的蒙皮权重,nb、nh和nf分别表示头发、耳朵和面部的骨骼数量,k是联合数、/>是k的变换矩阵,wk是混合重量,J为矩阵。
然后,从蒙皮权重场中确定出候选点对应的蒙皮权重。例如,可以根据候选点的三维位置,从蒙皮权重场中确定出候选点对应的蒙皮权重,该候选点对应的蒙皮权重即为该候选点对应的形变点的蒙皮权重。
2、根据蒙皮权重和骨骼转换关系,构建形变点和规范点之间的形变表达式;其中,骨骼转换关系用于指示初始三维头部模型的各个骨骼的转换方式。
形变表达式用于指示形变点和规范点之间的形变对应关系。示例性地,若初始三维头部模型的骨骼数量为G,则蒙皮权重,满足/>且/>。
在通过形变网络学习到蒙皮权重场w,以及给定骨骼转换关系的情况下,对于规范空间中的任意点/>,其唯一的形变表达式可以如下:
;
其中,与形变点/>相对应(本申请实施例中的点可以以三维位置进行表示),/>为/>对应的骨骼转换。由于靠近头部某一部位的点很可能受到该部位骨骼的影响最大,如此通过结合骨骼转换关系构建形变表达式,有利于提高形变的准确性和合理性。
3、在第一迭代条件的约束下,通过形变表达式查询得到形变点对应的至少一个候选点。
规范形状是未知的,并且在训练过程中学习。由于形变点和规范点之间的形变对应关系指示隐式定义的,对于每个形变点,需要在第一迭代条件的约束下,对形变表达式进行迭代,以确定形变点对应的至少一个候选点,该第一迭代条件可以表示如下:。如此可通过每个骨骼转换,将形变点逐步转换到的规范空间中,最后通过分析局部收敛来确定形变点/>对应的至少一个候选点/>。
步骤303b,通过三维构建模型获取至少一个候选点的预测占用率。
可选地,通过三维构建模型中的占用网络获取至少一个候选点的预测占用率。该候选点的预测占用率是指预测得到占用率,其可用于表征候选点的形状,以及候选点的编码复杂度。占用网络可用于对规范空间中的头部的几何形状进行建模。
为了捕捉局部非刚性形变(如面部、服装的褶皱),本申请以头发姿势和面部表情为参数构建占用网络。示例性地,该占用网络可以表示如下:
;
其中,用于表示候选点/>的位置编码,以用于指示该候选点/>的三维位置,如此有利于更好地保留高频细节,/>为头发姿势,/>为面部表情。
例如,参考图2,将头发姿势、面部表情和候选点的位置编码输入占用网络32,即可得到该候选点的预测占用率。
步骤303c,根据预测占用率,从至少一个候选点中选择出形变点对应的规范点。
可选地,将至少一个候选点中预测占用率最大的候选点确定为形变点对应的规范点。
示例性地,若形变点对应的候选点集为:/>,则该形变点对应的规范点可以表示如下:
;
其中,为/>对应的部位标签,/>为第i个候选点。
则形变点对应的预测占用率可以表示如下:/>
。
形变点对应的预测占用率可用于构建规范三维头部模型。
步骤303d,对各个形变点对应的规范点进行组合,得到规范点集。
可选地,通过形变网络分别获取各个形变点对应的规范点后,对各个规范点进行组合,即可得到规范点集。
在一个示例中,为了提高三维构建模型的训练效率,本申请实施例对形变网络中的每个形变器,仅使用骨骼变换进行初始化。其中,每个形变器可以学习有相同的蒙皮权重场,但对应不同的初始化方法。
示例性地,本申请首先将初始三维头部模型的骨骼划分成四组(对应上述4个部位标签):头发对应的骨骼、左耳对应的骨骼/>、右耳对应的骨骼/>和面部对应的骨骼/>。对于部位标签为/>的给定形变点,本申请通过如下公式,对该形变点对应的规范点和雅克比矩阵/>进行初始化:
;
;
其中,可以是常量超参数,也可以是学习参数,本申请实施例对此不作限定;为均值,/>为方差;/>为/>对应的股骨转换关系,/>是与具有相同维度的潜在变量,/>。
步骤304,通过三维构建模型基于头部姿势、面部表情和规范点的三维位置,预测得到规范点的预测占用率,该预测占用率用于预测表示规范点的编码复杂程度。
可选地,通过三维构建模型中的占用网络基于头部姿势、面部表情和规范点的三维位置,预测得到规范点的预测占用率,该过程与候选点的预测占用率获取方法相同,这里不再赘述。
规范点的预测占用率可用于指示规范点的几何形状,以及指示规范点的编码复杂程度。形变点对应的规范点/>的预测占用率可以表示如下:
。
步骤305,对于规范点集中的各个规范点,通过三维构建模型基于规范点的三维位置和单位方向,预测得到规范点的预期颜色值。
规范点的三维位置是指规范点在规范空间中的位置,其可以采用x、y和z三维坐标进行表示。规范点的单位方向是指用于观察该规范点的单位方向,如从虚拟相机的原点o观察该规范点的单位方向。预期颜色值可以是指通过三维构建模型中的纹理网络预测得到的颜色值,该预期颜色值可用于指示规范点为纹理。
在一个示例中,预期颜色值的获取过程可以包括如下内容。
1、通过三维构建模型基于规范点的三维位置和单位方向,预测得到规范点对应的体密度和初始颜色值。
体密度(体积密度)是指射线在规范点终止于无穷小粒子的微分概率,初始颜色值是指在单位方向上经过该规范点的光线的颜色。可选地,可通过三维构建模型中的纹理网络基于规范点的三维位置和单位方向,预测得到规范点对应的体密度和初始颜色值。例如,参考图2,将规范点的三维位置和单位方向输入纹理网络33,即可得到规范点的体密度和初始颜色值。
其中,体密度可以表示为:,初始颜色值可以表示为:/>;其中,/>是预定义的位置嵌入应用于p和d,p为规范点的三维位置,d为规范点的位方向。
2、通过三维构建模型基于体密度、初始颜色值,以及相机射线,预测得到规范点的预期颜色值;其中,相机射线是指相机原点沿着单位方向穿过规范点的射线。
为了渲染样本头部图像中像素的颜色值(如RGB值),本申请采用纹理网络学习光线从虚拟相机的原点沿单位方向d透射过规范点时,规范点的预测颜色值。示例性地,该预期颜色值可以表示如下:
;
其中,,其表示沿单位方向d从近边界tn到t的累积透射率,/>为相机射线,/>表示相机射线在单位方向d上的长度,o为虚拟相机的原点坐标,s表示曲面。
步骤306,基于各个规范点的预测占用率和预期颜色值,对三维构建模型进行训练,得到训练后的三维构建模型,该训练后的三维构建模型用于构建并渲染得到输入头部图像的最终三维头部模型。
其中,输入头部图像是指用于指示构建三维头部模型的头部图像,如游戏角色的头部图像、人的头部图像、模型的头部图像等,本申请实施例对此不作限定。最终三维头部模型可以是指经过纹理渲染后的规范三维头部模型。
三维构建模型的训练过程是一个迭代过程,一个样本头部图像用可于一次迭代;或者,一批样本头部图像用于一次迭代,本申请实施例对此不作限定。可将满足迭代条件的三维构建模型确定为训练完成的三维构建模型,训练完成的三维构建模型可被部署在模型使用设备中,以提供三维头部模型的构建服务。
在一个示例中,先获取样本头部图像对应的训练损失,再根据训练损失对三维构建模型的模型参数进行调整,在三维构建模型的训练过程中,同时对三维构建模型所包括的形变网络、占用网络和纹理网络的模型参数进行调整。
示例性地,该过程可以包括如下内容。
1、对于各个规范点,基于规范点的预测占用率的梯度,得到规范点的预测法线。
可选地,规范点的预测法线可以表示如下:
;
其中,为规范点/>对应的形变点,/>为预测法线。
2、基于各个规范点的预测占用率和预测法线,构建第一子损失,该第一子损失用于监督规范三维头部模型的几何形状。
可选地,对于各个规范点,基于规范点的预测占用率和真实占用率,构建该规范点的占用损失,以及基于规范点的预测法线和真实法线,构建该规范点的法线损失;对各个规范点的占用损失进行求和,得到总占用损失,以及对各个规范点的法线损失进行求和,得到总法线损失,再对总占用损失和总法线损失进行加权求和,得到第一子损失。
其中,真实占用率和真实法线为标签数据,真实占用率用于指示规范点真正的占用率,真实法线用于指示规范点真正的法线。
示例性地,以二进制交叉熵函数,构建占用损失,以及以L2范式构建法线损失,则第一子损失可以表示如下:
;
其中,为总占用损失,/>为总法线损失,/>为/>对应的权重参数,/>为/>对应的权重参数,/>为真实占用率(统一以规范点/>对应的形变点/>表示),/>为真实法线,/>和/>分别表示初始三维头部模型表面上的点和表面周围薄壳内的点。
3、基于各个规范点的预测颜色值,构建第二子损失,该第二子损失用于监督规范三维头部模型对应的纹理,该规范三维头部模型是指初始三维头部模型形变至的三维头部模型。
可选地,对于各个规范点,基于规范点的预测颜色值和真实颜色值,构建该规范点对应的纹理损失,再对各个规范点对应的纹理损失进行求和,得到第二子损失。真实颜色值为标签数据,用于指示规范点真正的颜色值。
示例性地,以L2范式构建纹理损失,则第二子损失可以表示如下:
;
其中,为/>对应的权重参数,/>为预测颜色值,/>为真实颜色值。
4、基于规范三维头部模型的骨骼对应的候选点的预测占用率、关节对应的候选点的蒙皮权重,以及表面对应的候选点的蒙皮权重,构建第三子损失,该第三子损失用于监督规范三维头部模型的网格。
可选地,对于骨骼对应的候选点,基于候选点的预测占用率和预测占用率上限1,构建候选点的骨骼损失,对各个候选点的骨骼损失进行求和,得到总股骨损失;对于关节对应的候选点,基于候选点的蒙皮权重,以及规范等级0.5,构建候选点的关节损失,对各个候选点的关节损失进行求和,得到总关节损失;对于表面对应的候选点,基于候选点的蒙皮权重和真实蒙皮权重,得到形变损失,对各个候选点的形变损失进行求和,得到总形变损失;对总骨骼损失、总关节损失和总形变损失进行加权求和,得到第三子损失。
示例性地,该第三子损失可以表示如下:
;
其中,为总骨骼损失/>的权重参数,/>为总关节损失/>的权重参数,/>为总形变损失/>的权重参数,/>为候选点,N(i)是i关节的邻近骨骼,为真实蒙皮权重;/>、/>和/>分别是指骨骼、关节和网格(表面)对应的候选点。
5、基于第一子损失、第二子损失和第三子损失,得到三维构建模型的总损失。
可选地,对第一子损失、第二子损失和第三子损失进行求和,得到三维构建模型的总损失。
6、基于总损失,对三维构建模型进行训练,得到训练后的三维构建模型。
基于总损失,对三维构建模型的模型参数进行迭代调整,得到训练完成的三维构建模型,本申请实施例对迭代终止条件不作限定。例如,以最小化总损失为目标,对三维构建模型的模型参数进行迭代调整,即可得到训练完成的三维构建模型。
综上所述,本申请实施例提供的技术方案,通过结合预测占用率、预测法线、预测颜色值、蒙皮权重,同时在几何形状、纹理和形变三个维度对三维构建模型进行训练,有利于提高三维构建模型构建三维头部模型的准确性和逼真程度。
另外,在头部姿势和面部表情的基础上,结合预期颜色值对三维头部模型进行训练,实现通过该三维头部模型对三维头部模型的头部姿势和面部表情完全可控,也即通过调整头部姿势和面部表情即可灵活调整最终三维头部模型的头部姿势和面部表情,从而提高了三维头部模型的生成灵活性。
请参考图5,其示出了本申请一个实施例提供的三维模型的构建方法的流程图,该方法各步骤的执行主体可以是图1所示方案实施环境中的模型使用设备20,该方法可以包括如下几个步骤(501~506)。
步骤501,获取输入头部图像的初始三维头部模型,该初始三维头部模型具有输入头部图像对应的头部姿势和面部表情。
上述输入头部图像是指用于指示构建三维头部模型的头部图像,该输入头部图像包括头部信息,诸如头部的姿势信息、表情信息和纹理信息。本申请实施例对输入头部图像不作限定,其可以是诸如游戏角色的头部图像、人的头部图像、三维模型的头部图像等。头部姿势即是指头部的姿势信息,面部表情是指头部对应的脸部的表情,本申请实施例对头部图像对应的头部姿势和面部表情不作限定,其可以是虚构的夸张姿势和表情,也可以是真实的姿势和表情,还可以是指带有特效的姿势和表情。
上述初始三维头部模型可以是指以脸部姿势、面部表情为参数表示的三维头部模型。示例性地,可以先对输入头部图像进行姿势扫描,得到头部姿势和面部表情;再基于头部姿势和面部表情,以及形状参数,构建得到初始三维头部模型;其中,形状参数用于控制初始三维头部模型的形状。该初始三维头部模型的获取过程与上述实施例介绍相同,这里不再赘述。
步骤502,在形变空间中对初始三维头部模型进行点采样,得到形变点集,该形变点集包括初始三维头部模型在形变空间中的多个形变点,形变点是待形变的点。
可选地,在形变空间中对初始三维头部模型的表面上的点进行点采样,即可得到形变点集合,采样点的三维位置可以采用其在形变空间中的三维坐标表示,本申请实施例对形变点的数量不作限定,其可以根据经验值进行设置与调整。
在一个示例中,形变点集的获取过程可以包括如下内容。
1、获取初始三维头部模型的表面上各个点的部位标签,该部位标签与初始三维头部模型的不同部位对应的骨骼相关。
可选地,先获取各个点分别对应的网格,该网格用于拼接成初始三维头部模型的表面;对于各个点,获取点对应的网格的部位标签;最后将点对应的网格的部位标签确定为点的部位标签。其中,对于各个点,可以将离点最近的网格确定为该点对应的网格。
2、根据部位标签对各个点进行划分,得到多个点集,不同的点集对应不同的部位标签。
示例性地,头部的部位标签可以记为P={F,LH,RH,B},F为脸部标签,其与脸部对应的骨骼相关;LH为左耳标签,其与左耳对应的骨骼相关;RH为右耳标签,其与右耳对应的骨骼相关;B为头发标签,其与头发对应的骨骼相关。则可以将各个点划分成4个点集,也即脸部标签、左耳标签、右耳标签和头发标签分别对应一个点集。
3、对于各个部位标签,按照部位标签对应的指定采样率,在形变空间中对部位标签对应的点集进行点采样,得到部位标签对应的形变点。
例如,以脸部标签为例,对于脸部标签对应的点集,采用脸部标签对应的指定采样率,在形变空间中对脸部部位标签对应的点集进行点采样,得到脸部标签对应的形变点。相比采用同一的采样率,对表面进行采样,本申请得到的形变点集的质量更高,有利于提高三维头部模型的构建质量。
4、对各个部位标签对应的形变点进行组合,得到形变点集。
例如,对脸部标签、左耳标签、右耳标签和头发标签分别对应的形变点进行组合,得到形变点集。可选地,各个部位标签对应的形变点可以以子集的形式存在。
步骤503,获取形变点集对应的规范点集,该规范点集中的规范点是指形变点被形变至规范空间中所对应的点。
可选地,输入头部图像对应的最终三维头部模型由上述三维构建模型得到,该三维构建模型包括形变网络和纹理网络,上述规范点集由形变网络获取,下述预测颜色值由纹理网络获取,该形变网络和纹理网络为神经网络。其中,三维构建模型可以是指训练完成的三维构建模型。
示例性地,通过形变网络对规范点集中的各个形变点进行形变,即可得到规范点集。该过程可以包括如下内容:对于形变点集中的各个形变点,获取形变点在规范空间中对应的至少一个候选点,再获取至少一个候选点的预测占用率,该预测占用率用于预测表示候选点的编码复杂程度,然后根据预测占用率,从至少一个候选点中选择出形变点对应的规范点,最后对各个形变点对应的规范点进行组合,得到规范点集。
对于至少一个候选点,先通过形变网络获取候选点对应的蒙皮权重,该蒙皮权重用于指示候选点对应的网格与骨骼之间的关联程度,再根据蒙皮权重和骨骼转换关系,构建形变点和候选点之间的形变表达式;其中,骨骼转换关系用于指示初始三维头部模型的各个骨骼的转换方式,最后在第一迭代条件的约束下,通过形变表达式查询得到形变点对应的至少一个候选点。
对于蒙皮权重,先基于规范空间和形变空间之间的联合数的逆变换矩阵,以及头发、耳朵和面部各自对应的骨骼数量,构建规范空间对应的蒙皮权重场;其中,蒙皮权重场用于指示各个候选点的蒙皮权重,该逆变换矩阵用于指示候选点在规范空间中的三维位置与在形变空间中的位姿之间的转换关系;然后基于候选点的三维位置,从蒙皮权重场中确定出候选点对应的蒙皮权重。
步骤502-503,与上述步骤302-303介绍相同,本申请实施例未说明的内容,可以参考上述实施例,这里不再赘述。
步骤504,基于规范点集,构建输入头部图像对应的规范三维头部模型。
对于规范点集中的各个规范点,通过占用网络基于规范点的三维位置、头发姿势和面部表情,依次预测到各个规范点的预测占用率,再基于各个规范点的预测占用率,对各个规范点进行拼接,构建得到输入头部图像对应的规范三维头部模型。其中,规范三维头部模型可以是指规范空间中的三维头部模型,该规范三维头部模型可以以3D点表示。
示例性地,以占用率为0.5等级来定义规范形状,则该规范三维头部模型可以表示如下:
;
其中,为规范点,/>为规范点的预测占用率。
步骤505,对于规范点集中的各个规范点,基于规范点的三维位置和单位方向,预测得到规范点的预期颜色值。
可选地,上述三维构建模型还包括纹理网络,通过纹理网络基于规范点的三维位置和单位方向,即可预测得到规范点的预期颜色值。
示例性地,先通过纹理网络基于规范点的三维位置和单位方向,预测得到规范点对应的体密度和初始颜色值,再通过纹理网络基于体密度、初始颜色值,以及相机射线,预测得到规范点的预期颜色值;其中,相机射线是指相机原点沿着单位方向穿过规范点的射线。
步骤505与上述步骤305介绍相同,本申请实施例未说明的内容,可以参考上述实施例,这里不再赘述。
步骤506,根据各个规范点的预期颜色值,对规范三维头部模型进行渲染,得到输入头部图像对应的最终三维头部模型。
可选地,对于各个规范点,将规范点的预期颜色值作为该规范点的纹理,对该规范点的进行渲染,即可得到渲染后的规范点,在规范三维头部模型上的所有规范点均被渲染后,即可得到最终三维头部模型。
示例性地,参考图6,本申请实施例能够根据头像(即输入头部图像),实现三维头部模型的构建,并且该三维头部模型可旋转、可变换不同表情和姿态,具有很高的灵活性,左侧601示出了一种表情姿态下的面部区域,右侧602示出了另一种表情姿态下的面部区域,两种表情姿态均较为夸张。
综上所述,本申请实施例提供的技术方案,通过基于输入头部图像,构建具有输入头部图像对应的头部姿势和面部表情的初始三维头部模型,再将该初始三维头部模型形变至规范空间,得到规范三维头部模型,再结合预期颜色值对该规范三维头部模型进行渲染,即可得到头部姿势和面部表情完全可控的最终三维头部模型,也即通过调整输入头部图像即可灵活调整最终三维头部模型的头部姿势和面部表情,从而提高了三维头部模型的生成灵活性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
参考图7,其示出了本申请一个实施例提供的三维模型的构建装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备中。如图7所示,该装置700包括:初始模型获取模块701、形变点集获取模块702、规范点集获取模块703、规范模型构建模块704、颜色值预测模块705和最终模型获取模块706。
初始模型获取模块701,用于获取输入头部图像的初始三维头部模型,所述初始三维头部模型具有所述输入头部图像对应的头部姿势和面部表情。
形变点集获取模块702,用于在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点。
规范点集获取模块703,用于获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点。
规范模型构建模块704,用于基于所述规范点集,构建所述输入头部图像对应的规范三维头部模型。
颜色值预测模块705,用于对于所述规范点集中的各个规范点,基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值。
最终模型获取模块706,用于根据所述各个规范点的预期颜色值,对所述规范三维头部模型进行渲染,得到所述输入头部图像对应的最终三维头部模型。
在一些实施例中,所述形变点集获取模块702,用于:
获取所述初始三维头部模型的表面上各个点的部位标签,所述部位标签与所述初始三维头部模型的不同部位对应的骨骼相关;
根据所述部位标签对所述各个点进行划分,得到多个点集,不同的点集对应不同的部位标签;
对于各个所述部位标签,按照所述部位标签对应的指定采样率,在所述形变空间中对所述部位标签对应的点集进行点采样,得到所述部位标签对应的形变点;
对各个所述部位标签对应的形变点进行组合,得到所述形变点集。
在一些实施例中,所述形变点集获取模块702,还用于:
获取所述各个点分别对应的网格,所述网格用于拼接成所述初始三维头部模型的表面;
对于各个所述点,获取所述点对应的网格的部位标签;
将所述点对应的网格的部位标签确定为所述点的部位标签。
在一些实施例中,如图8所示,所述规范点集获取模块703,包括:候选点获取子模块703a、占用率预测子模块703b、规范点确定子模块703c和规范点集获取子模块703d。
候选点获取子模块703a,用于对于所述形变点集中的各个形变点,获取所述形变点在所述规范空间中对应的至少一个候选点。
占用率预测子模块703b,用于获取所述至少一个候选点的预测占用率,所述预测占用率用于预测表示所述候选点的编码复杂程度。
规范点确定子模块703c,用于根据所述预测占用率,从所述至少一个候选点中选择出所述形变点对应的规范点。
规范点集获取子模块703d,用于对所述各个形变点对应的规范点进行组合,得到所述规范点集。
在一些实施例中,所述候选点获取子模块703a,用于:
获取所述候选点对应的蒙皮权重,所述蒙皮权重用于指示所述候选点对应的网格与骨骼之间的关联程度;
根据所述蒙皮权重和骨骼转换关系,构建所述形变点和所述候选点之间的形变表达式;其中,骨骼转换关系用于指示所述初始三维头部模型的各个骨骼的转换方式;
在第一迭代条件的约束下,通过所述形变表达式查询得到所述形变点对应的至少一个候选点。
在一些实施例中,所述候选点获取子模块703a,还用于:
基于所述规范空间和所述形变空间之间的联合数的逆变换矩阵,以及头发、耳朵和面部各自对应的骨骼数量,构建所述规范空间对应的蒙皮权重场;其中,所述蒙皮权重场用于指示各个所述候选点的蒙皮权重,所述逆变换矩阵用于指示所述候选点在所述规范空间中的三维位置与在所述形变空间中的位姿之间的转换关系;
基于所述候选点的三维位置,从所述蒙皮权重场中确定出所述候选点对应的蒙皮权重。
在一些实施例中,所述颜色值预测模块705,用于:
基于所述规范点的三维位置和单位方向,预测得到所述规范点对应的体密度和初始颜色值;
基于所述体密度、所述初始颜色值,以及相机射线,预测得到所述规范点的预期颜色值;其中,所述相机射线是指相机原点沿着所述单位方向穿过所述规范点的射线。
在一些实施例中,所述初始模型获取模块701,用于:
对所述输入头部图像进行姿势扫描,得到所述头部姿势和所述面部表情;
基于所述头部姿势和所述面部表情,以及形状参数,构建得到所述初始三维头部模型;其中,所述形状参数用于控制所述初始三维头部模型的形状。
在一些实施例中,所述最终三维头部模型由三维构建模型得到,所述三维构建模型包括形变网络和纹理网络,所述规范点集由所述形变网络获取,所述预测颜色值由所述纹理网络获取,所述形变网络和所述纹理网络为神经网络。
综上所述,本申请实施例提供的技术方案,通过基于输入头部图像,构建具有输入头部图像对应的头部姿势和面部表情的初始三维头部模型,再将该初始三维头部模型形变至规范空间,得到规范三维头部模型,再结合预期颜色值对该规范三维头部模型进行渲染,即可得到头部姿势和面部表情完全可控的最终三维头部模型,也即通过调整输入头部图像即可灵活调整最终三维头部模型的头部姿势和面部表情,从而提高了三维头部模型的生成灵活性。
参考图9,其示出了本申请一个实施例提供的三维构建模型的训练装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备中。如图9所示,该装置900包括:初始模型获取模块901、形变点集获取模块902、规范点集获取模块903、占用率预测模块904、颜色值预测模块905和构建模型训练模块906。
初始模型获取模块901,用于获取样本头部图像的初始三维头部模型,所述初始三维头部模型具有所述样本头部图像对应的头部姿势和面部表情。
形变点集获取模块902,用于在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点。
规范点集获取模块903,用于通过三维构建模型获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点。
占用率预测模块904,用于通过所述三维构建模型基于所述头部姿势、所述面部表情和所述规范点的三维位置,预测得到所述规范点的预测占用率,所述预测占用率用于预测表示所述规范点的编码复杂程度。
颜色值预测模块905,用于对于所述规范点集中的各个规范点,通过所述三维构建模型基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值。
构建模型训练模块906,用于基于所述各个规范点的预测占用率和预期颜色值,对所述三维构建模型进行训练,得到训练后的三维构建模型,所述训练后的三维构建模型用于构建并渲染得到输入头部图像的最终三维头部模型。
在一些实施例中,所述形变点集获取模块902,用于:
获取所述初始三维头部模型的表面上各个点的部位标签,所述部位标签与所述初始三维头部模型的不同部位对应的骨骼相关;
根据所述部位标签对所述各个点进行划分,得到多个点集,不同的点集对应不同的部位标签;
对于各个所述部位标签,按照所述部位标签对应的指定采样率,在所述形变空间中对所述部位标签对应的点集进行点采样,得到所述部位标签对应的形变点;
对各个所述部位标签对应的形变点进行组合,得到所述形变点集。
在一些实施例中,所述形变点集获取模块902,还用于:
获取所述各个点分别对应的网格,所述网格用于拼接成所述初始三维头部模型的表面;
对于各个所述点,获取所述点对应的网格的部位标签;
将所述点对应的网格的部位标签确定为所述点的部位标签。
在一些实施例中,如图10所示,所述规范点集获取模块903,包括:候选点获取子模块903a、规范点确定子模块903b和规范点集获取子模块903c。
候选点获取子模块903a,用于对于所述形变点集中各个形变点,通过所述三维构建模型获取所述形变点在所述规范空间中对应的至少一个候选点。
所述占用率预测模块904,还用于通过所述三维构建模型获取所述至少一个候选点的预测占用率。
规范点确定子模块903b,用于根据所述预测占用率,从所述至少一个候选点中选择出所述形变点对应的规范点。
规范点集获取子模块903c,用于对所述各个形变点对应的规范点进行组合,得到所述规范点集。
在一些实施例中,所述候选点获取子模块903a,用于:
通过所述三维构建模型获取所述候选点对应的蒙皮权重,所述蒙皮权重用于指示所述候选点对应的蒙皮点与骨骼之间的关联程度;
根据所述蒙皮权重和骨骼转换关系,构建所述形变点和所述规范点之间的形变表达式;其中,骨骼转换关系用于指示所述初始三维头部模型的各个骨骼的转换方式;
在第一迭代条件的约束下,通过所述形变表达式查询得到所述形变点对应的至少一个候选点。
在一些实施例中,所述候选点获取子模块903a,还用于:
通过所述三维构建模型基于所述规范空间和所述形变空间之间的变换矩阵,以及头发、耳朵和面部各自对应的骨骼数量,构建蒙皮权重场,所述蒙皮权重场用于指示各个所述形变点的蒙皮权重;
基于所述候选点的三维位置,从所述蒙皮权重场中确定出所述候选点对应的蒙皮权重。
在一些实施例中,所述颜色值预测模块905,用于:
通过所述三维构建模型基于所述规范点的三维位置和单位方向,预测得到所述规范点对应的体密度和初始颜色值;
通过所述三维构建模型基于所述体密度、所述初始颜色值,以及相机射线,预测得到所述规范点的预期颜色值;其中,所述相机射线是指相机原点沿着所述单位方向穿过所述规范点的射线。
在一些实施例中,所述构建模型训练模块906,用于:
对于各个所述规范点,基于所述规范点的预测占用率的梯度,得到所述规范点的预测法线;
基于所述各个规范点的预测占用率和预测法线,构建第一子损失,所述第一子损失用于监督规范三维头部模型的几何形状,所述规范三维头部模型是指所述初始三维头部模型形变至的三维头部模型;
基于所述各个规范点的预测颜色值,构建第二子损失,所述第二子损失用于监督所述规范三维头部模型对应的纹理;
基于所述规范三维头部模型的骨骼对应的候选点的预测占用率、关节对应的候选点的蒙皮权重,以及表面对应的候选点的蒙皮权重,构建第三子损失,所述第三子损失用于监督所述规范三维头部模型的网格;
基于所述第一子损失、所述第二子损失和所述第三子损失,得到所述三维构建模型的总损失;
基于所述总损失,对所述三维构建模型进行训练,得到所述训练后的三维构建模型。
综上所述,本申请实施例提供的技术方案,通过结合预测占用率、预测法线、预测颜色值、蒙皮权重,同时在几何形状、纹理和形变三个维度对三维构建模型进行训练,有利于提高三维构建模型构建三维头部模型的准确性和逼真程度。
另外,在头部姿势和面部表情的基础上,结合预期颜色值对三维头部模型进行训练,实现通过该三维头部模型对三维头部模型的头部姿势和面部表情完全可控,也即通过调整头部姿势和面部表情即可灵活调整最终三维头部模型的头部姿势和面部表情,从而提高了三维头部模型的生成灵活性。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图11,其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以是任何具备数据计算、处理和存储功能的电子设备,该计算机设备可以实现成为图1所示方案实施环境中的模型训练设备10或模型使用设备20。具体来讲可以包括如下内容。
该计算机设备1100包括中央处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable GateArray,现场可编程逻辑门阵列)等)1101、包括RAM(Random-Access Memory,随机存取存储器)1102和ROM(Read-Only Memory,只读存储器)1103的***存储器1104,以及连接***存储器1104和中央处理单元1101的***总线1105。该计算机设备1100还包括帮助服务器内的各个器件之间传输信息的基本输入/输出***(Input Output System,I/O***)1106,和用于存储操作***1113、应用程序1114和其他程序模块1115的大容量存储设备1107。
该基本输入/输出***1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中,该显示器1108和输入设备1109都通过连接到***总线1105的输入输出控制器1110连接到中央处理单元1101。该基本输入/输出***1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备1107通过连接到***总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。该大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说,该大容量存储设备1107可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的***存储器1104和大容量存储设备1107可以统称为存储器。
根据本申请实施例,该计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在该***总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括计算机程序,所述计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述三维模型的构建方法或三维构建模型的训练方法。
在一些实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述三维模型的构建方法或三维构建模型的训练方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在一些实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机程序,所述处理器执行所述计算机程序,使得所述计算机设备执行上述三维模型的构建方法或三维构建模型的训练方法。
需要说明的是,本申请实施例在收集用户的相关数据之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据,处理严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意都是在用户同意并授权的情况下进行采集的,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的输入头部图像、样本头部图像等都是在充分授权的情况下获取的。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (20)
1.一种三维模型的构建方法,其特征在于,所述方法包括:
获取输入头部图像的初始三维头部模型,所述初始三维头部模型具有所述输入头部图像对应的头部姿势和面部表情;
在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点;
获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点;
基于所述规范点集,构建所述输入头部图像对应的规范三维头部模型;
对于所述规范点集中的各个规范点,基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值;
根据所述各个规范点的预期颜色值,对所述规范三维头部模型进行渲染,得到所述输入头部图像对应的最终三维头部模型。
2.根据权利要求1所述的方法,其特征在于,所述在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,包括:
获取所述初始三维头部模型的表面上各个点的部位标签,所述部位标签与所述初始三维头部模型的不同部位对应的骨骼相关;
根据所述部位标签对所述各个点进行划分,得到多个点集,不同的点集对应不同的部位标签;
对于各个所述部位标签,按照所述部位标签对应的指定采样率,在所述形变空间中对所述部位标签对应的点集进行点采样,得到所述部位标签对应的形变点;
对各个所述部位标签对应的形变点进行组合,得到所述形变点集。
3.根据权利要求2所述的方法,其特征在于,所述获取所述初始三维头部模型的表面上各个点的部位标签,包括:
获取所述各个点分别对应的网格,所述网格用于拼接成所述初始三维头部模型的表面;
对于各个所述点,获取所述点对应的网格的部位标签;
将所述点对应的网格的部位标签确定为所述点的部位标签。
4.根据权利要求1所述的方法,其特征在于,所述获取所述形变点集对应的规范点集,包括:
对于所述形变点集中的各个形变点,获取所述形变点在所述规范空间中对应的至少一个候选点;
获取所述至少一个候选点的预测占用率,所述预测占用率用于预测表示所述候选点的编码复杂程度;
根据所述预测占用率,从所述至少一个候选点中选择出所述形变点对应的规范点;
对所述各个形变点对应的规范点进行组合,得到所述规范点集。
5.根据权利要求4所述的方法,其特征在于,所述获取所述形变点在所述规范空间中对应的至少一个候选点,包括:
获取所述候选点对应的蒙皮权重,所述蒙皮权重用于指示所述候选点对应的网格与骨骼之间的关联程度;
根据所述蒙皮权重和骨骼转换关系,构建所述形变点和所述候选点之间的形变表达式;其中,骨骼转换关系用于指示所述初始三维头部模型的各个骨骼的转换方式;
在第一迭代条件的约束下,通过所述形变表达式查询得到所述形变点对应的至少一个候选点。
6.根据权利要求5所述的方法,其特征在于,所述获取所述候选点对应的蒙皮权重,包括:
基于所述规范空间和所述形变空间之间的联合数的逆变换矩阵,以及头发、耳朵和面部各自对应的骨骼数量,构建所述规范空间对应的蒙皮权重场;其中,所述蒙皮权重场用于指示各个所述候选点的蒙皮权重,所述逆变换矩阵用于指示所述候选点在所述规范空间中的三维位置与在所述形变空间中的位姿之间的转换关系;
基于所述候选点的三维位置,从所述蒙皮权重场中确定出所述候选点对应的蒙皮权重。
7.根据权利要求1所述的方法,其特征在于,所述基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值,包括:
基于所述规范点的三维位置和单位方向,预测得到所述规范点对应的体密度和初始颜色值;
基于所述体密度、所述初始颜色值,以及相机射线,预测得到所述规范点的预期颜色值;其中,所述相机射线是指相机原点沿着所述单位方向穿过所述规范点的射线。
8.根据权利要求1所述的方法,其特征在于,所述获取输入头部图像的初始三维头部模型,包括:
对所述输入头部图像进行姿势扫描,得到所述头部姿势和所述面部表情;
基于所述头部姿势和所述面部表情,以及形状参数,构建得到所述初始三维头部模型;其中,所述形状参数用于控制所述初始三维头部模型的形状。
9.一种三维构建模型的训练方法,其特征在于,所述方法包括:
获取样本头部图像的初始三维头部模型,所述初始三维头部模型具有所述样本头部图像对应的头部姿势和面部表情;
在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点;
通过三维构建模型获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点;
通过所述三维构建模型基于所述头部姿势、所述面部表情和所述规范点的三维位置,预测得到所述规范点的预测占用率,所述预测占用率用于预测表示所述规范点的编码复杂程度;
对于所述规范点集中的各个规范点,通过所述三维构建模型基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值;
基于所述各个规范点的预测占用率和预期颜色值,对所述三维构建模型进行训练,得到训练后的三维构建模型,所述训练后的三维构建模型用于构建并渲染得到输入头部图像的最终三维头部模型。
10.根据权利要求9所述的方法,其特征在于,所述在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,包括:
获取所述初始三维头部模型的表面上各个点的部位标签,所述部位标签与所述初始三维头部模型的不同部位对应的骨骼相关;
根据所述部位标签对所述各个点进行划分,得到多个点集,不同的点集对应不同的部位标签;
对于各个所述部位标签,按照所述部位标签对应的指定采样率,在所述形变空间中对所述部位标签对应的点集进行点采样,得到所述部位标签对应的形变点;
对各个所述部位标签对应的形变点进行组合,得到所述形变点集。
11.根据权利要求10所述的方法,其特征在于,所述获取所述初始三维头部模型的表面上各个点的部位标签,包括:
获取所述各个点分别对应的网格,所述网格用于拼接成所述初始三维头部模型的表面;
对于各个所述点,获取所述点对应的网格的部位标签;
将所述点对应的网格的部位标签确定为所述点的部位标签。
12.根据权利要求9所述的方法,其特征在于,所述通过三维构建模型获取所述形变点集对应的规范点集,包括:
对于所述形变点集中各个形变点,通过所述三维构建模型获取所述形变点在所述规范空间中对应的至少一个候选点;
通过所述三维构建模型获取所述至少一个候选点的预测占用率;
根据所述预测占用率,从所述至少一个候选点中选择出所述形变点对应的规范点;
对所述各个形变点对应的规范点进行组合,得到所述规范点集。
13.根据权利要求12所述的方法,其特征在于,所述通过所述三维构建模型获取所述形变点在所述规范空间中对应的至少一个候选点,包括:
通过所述三维构建模型获取所述候选点对应的蒙皮权重,所述蒙皮权重用于指示所述候选点对应的蒙皮点与骨骼之间的关联程度;
根据所述蒙皮权重和骨骼转换关系,构建所述形变点和所述规范点之间的形变表达式;其中,骨骼转换关系用于指示所述初始三维头部模型的各个骨骼的转换方式;
在第一迭代条件的约束下,通过所述形变表达式查询得到所述形变点对应的至少一个候选点。
14.根据权利要求13所述的方法,其特征在于,所述通过所述三维构建模型获取所述候选点对应的蒙皮权重,包括:
通过所述三维构建模型基于所述规范空间和所述形变空间之间的变换矩阵,以及头发、耳朵和面部各自对应的骨骼数量,构建蒙皮权重场,所述蒙皮权重场用于指示各个所述形变点的蒙皮权重;
基于所述候选点的三维位置,从所述蒙皮权重场中确定出所述候选点对应的蒙皮权重。
15.根据权利要求9所述的方法,其特征在于,所述通过所述三维构建模型基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值,包括:
通过所述三维构建模型基于所述规范点的三维位置和单位方向,预测得到所述规范点对应的体密度和初始颜色值;
通过所述三维构建模型基于所述体密度、所述初始颜色值,以及相机射线,预测得到所述规范点的预期颜色值;其中,所述相机射线是指相机原点沿着所述单位方向穿过所述规范点的射线。
16.根据权利要求9所述的方法,其特征在于,所述基于所述各个规范点的预测占用率和预期颜色值,对所述三维构建模型进行训练,得到训练后的三维构建模型,包括:
对于各个所述规范点,基于所述规范点的预测占用率的梯度,得到所述规范点的预测法线;
基于所述各个规范点的预测占用率和预测法线,构建第一子损失,所述第一子损失用于监督规范三维头部模型的几何形状,所述规范三维头部模型是指所述初始三维头部模型形变至的三维头部模型;
基于所述各个规范点的预测颜色值,构建第二子损失,所述第二子损失用于监督所述规范三维头部模型对应的纹理;
基于所述规范三维头部模型的骨骼对应的候选点的预测占用率、关节对应的候选点的蒙皮权重,以及表面对应的候选点的蒙皮权重,构建第三子损失,所述第三子损失用于监督所述规范三维头部模型的网格;
基于所述第一子损失、所述第二子损失和所述第三子损失,得到所述三维构建模型的总损失;
基于所述总损失,对所述三维构建模型进行训练,得到所述训练后的三维构建模型。
17.一种三维模型的构建装置,其特征在于,所述装置包括:
初始模型获取模块,用于获取输入头部图像的初始三维头部模型,所述初始三维头部模型具有所述输入头部图像对应的头部姿势和面部表情;
形变点集获取模块,用于在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点;
规范点集获取模块,用于获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点;
规范模型构建模块,用于基于所述规范点集,构建所述输入头部图像对应的规范三维头部模型;
颜色值预测模块,用于对于所述规范点集中的各个规范点,基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值;
最终模型获取模块,用于根据所述各个规范点的预期颜色值,对所述规范三维头部模型进行渲染,得到所述输入头部图像对应的最终三维头部模型。
18.一种三维构建模型的训练装置,其特征在于,所述装置包括:
初始模型获取模块,用于获取样本头部图像的初始三维头部模型,所述初始三维头部模型具有所述样本头部图像对应的头部姿势和面部表情;
形变点集获取模块,用于在形变空间中对所述初始三维头部模型进行点采样,得到形变点集,所述形变点集包括所述初始三维头部模型在所述形变空间中的多个形变点,所述形变点是待形变的点;
规范点集获取模块,用于通过三维构建模型获取所述形变点集对应的规范点集,所述规范点集中的规范点是指所述形变点被形变至规范空间中所对应的点;
占用率预测模块,用于通过所述三维构建模型基于所述头部姿势、所述面部表情和所述规范点的三维位置,预测得到所述规范点的预测占用率,所述预测占用率用于预测表示所述规范点的编码复杂程度;
颜色值预测模块,用于对于所述规范点集中的各个规范点,通过所述三维构建模型基于所述规范点的三维位置和单位方向,预测得到所述规范点的预期颜色值;
构建模型训练模块,用于基于所述各个规范点的预测占用率和预期颜色值,对所述三维构建模型进行训练,得到训练后的三维构建模型,所述训练后的三维构建模型用于构建并渲染得到输入头部图像的最终三维头部模型。
19.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的三维模型的构建方法,或者实现如权利要求9至16任一项所述的三维构建模型的训练方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至8任一项所述的三维模型的构建方法,或者实现如权利要求9至16任一项所述的三维构建模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311479191.XA CN117218300B (zh) | 2023-11-08 | 2023-11-08 | 三维模型的构建方法、三维构建模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311479191.XA CN117218300B (zh) | 2023-11-08 | 2023-11-08 | 三维模型的构建方法、三维构建模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117218300A true CN117218300A (zh) | 2023-12-12 |
CN117218300B CN117218300B (zh) | 2024-03-01 |
Family
ID=89046568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311479191.XA Active CN117218300B (zh) | 2023-11-08 | 2023-11-08 | 三维模型的构建方法、三维构建模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218300B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974867A (zh) * | 2024-04-01 | 2024-05-03 | 哈尔滨工业大学(威海) | 一种基于高斯点渲染的单目人脸化身生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160358104A1 (en) * | 2015-06-02 | 2016-12-08 | Nec Laboratories America, Inc. | Annealed Sparsity Via Adaptive and Dynamic Shrinking |
US20170301085A1 (en) * | 2014-09-11 | 2017-10-19 | B.G. Negev Technologies And Applications Ltd. (Ben Gurion University | Interactive segmentation |
US20210090301A1 (en) * | 2019-09-24 | 2021-03-25 | Apple Inc. | Three-Dimensional Mesh Compression Using a Video Encoder |
WO2021109578A1 (zh) * | 2019-12-02 | 2021-06-10 | 北京天元创新科技有限公司 | 业务运维中告警的预测方法、装置与电子设备 |
CN113827965A (zh) * | 2021-09-28 | 2021-12-24 | 完美世界(北京)软件科技发展有限公司 | 游戏场景中样条线的渲染方法、装置及设备 |
CN114896564A (zh) * | 2022-05-23 | 2022-08-12 | 武汉市市政建设集团有限公司 | 采用自适应泰森多边形参数化的瞬变电磁二维贝叶斯反演方法 |
-
2023
- 2023-11-08 CN CN202311479191.XA patent/CN117218300B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170301085A1 (en) * | 2014-09-11 | 2017-10-19 | B.G. Negev Technologies And Applications Ltd. (Ben Gurion University | Interactive segmentation |
US20160358104A1 (en) * | 2015-06-02 | 2016-12-08 | Nec Laboratories America, Inc. | Annealed Sparsity Via Adaptive and Dynamic Shrinking |
US20210090301A1 (en) * | 2019-09-24 | 2021-03-25 | Apple Inc. | Three-Dimensional Mesh Compression Using a Video Encoder |
WO2021109578A1 (zh) * | 2019-12-02 | 2021-06-10 | 北京天元创新科技有限公司 | 业务运维中告警的预测方法、装置与电子设备 |
CN113827965A (zh) * | 2021-09-28 | 2021-12-24 | 完美世界(北京)软件科技发展有限公司 | 游戏场景中样条线的渲染方法、装置及设备 |
CN114896564A (zh) * | 2022-05-23 | 2022-08-12 | 武汉市市政建设集团有限公司 | 采用自适应泰森多边形参数化的瞬变电磁二维贝叶斯反演方法 |
Non-Patent Citations (2)
Title |
---|
BEN MILDENHALL等: "NeRF: representing scenes as neural radiance fields for view synthesis", COMMUNICATIONS OF THE ACM, vol. 65, no. 1, pages 99 - 106, XP055953603, DOI: 10.1145/3503250 * |
KAIYUE SHEN等: "X-Avatar: Expressive Human Avatars", 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 16911 - 16921 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974867A (zh) * | 2024-04-01 | 2024-05-03 | 哈尔滨工业大学(威海) | 一种基于高斯点渲染的单目人脸化身生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117218300B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021184933A1 (zh) | 一种人体三维模型重建方法 | |
CN112614213B (zh) | 人脸表情确定方法、表情参数确定模型、介质及设备 | |
CN108961369B (zh) | 生成3d动画的方法和装置 | |
CN111325851B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN111369681A (zh) | 三维模型的重构方法、装置、设备及存储介质 | |
JP2022503647A (ja) | クロスドメイン画像変換 | |
CN110599395A (zh) | 目标图像生成方法、装置、服务器及存储介质 | |
CN110942512B (zh) | 基于元学习的室内场景重建方法 | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN117218300B (zh) | 三维模型的构建方法、三维构建模型的训练方法及装置 | |
CN116977522A (zh) | 三维模型的渲染方法、装置、计算机设备和存储介质 | |
CN111862278B (zh) | 一种动画获得方法、装置、电子设备及存储介质 | |
CN113822965A (zh) | 图像渲染处理方法、装置和设备及计算机存储介质 | |
CN115115805A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
Shen et al. | Clipgen: A deep generative model for clipart vectorization and synthesis | |
CN115222917A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN116363308A (zh) | 人体三维重建模型训练方法、人体三维重建方法和设备 | |
Yang et al. | Multiscale mesh deformation component analysis with attention-based autoencoders | |
CN115346262A (zh) | 一种表情驱动参数的确定方法、装置、设备及存储介质 | |
CN116630514A (zh) | 图像处理方法、装置、计算机可读存储介质及电子设备 | |
CN116958324A (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
CN116452715A (zh) | 动态人手渲染方法、装置及存储介质 | |
CN116152419A (zh) | 数据处理方法、装置、设备及存储介质 | |
Chang et al. | 3D hand reconstruction with both shape and appearance from an RGB image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |