CN116228994B - 三维模型获取方法、装置、设备及存储介质 - Google Patents
三维模型获取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116228994B CN116228994B CN202310513127.2A CN202310513127A CN116228994B CN 116228994 B CN116228994 B CN 116228994B CN 202310513127 A CN202310513127 A CN 202310513127A CN 116228994 B CN116228994 B CN 116228994B
- Authority
- CN
- China
- Prior art keywords
- target object
- pictures
- geometric
- loss function
- function value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000003860 storage Methods 0.000 title claims abstract description 30
- 238000005457 optimization Methods 0.000 claims abstract description 61
- 230000004044 response Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 139
- 238000009877 rendering Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 32
- 238000010276 construction Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 26
- 230000005855 radiation Effects 0.000 description 26
- 238000005516 engineering process Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000005070 sampling Methods 0.000 description 13
- 230000001537 neural effect Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005672 electromagnetic field Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008043 neural expression Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computer Graphics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Image Generation (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本申请关于一种三维模型获取方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取N个物体图片;基于N个物体图片,获取目标物体的几何特征,以及目标物体的纹理特征;基于目标物体的几何特征,以及目标物体的纹理特征生成目标物体的N个重建图片;基于目标物体的N个重建图片,以及N个物体图片之间的差异,对目标物体的几何特征,以及目标物体的纹理特征进行迭代优化;响应于对目标物体的几何特征优化完成,基于目标物体的几何特征,构建目标物体的三维模型。上述方案可以提高三维物体的建模效果。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种三维模型获取方法、装置、设备及存储介质。
背景技术
三维物体重建是指通过对不同拍摄角度的二维图片进行处理,得到该二维图片中的物体的三维模型的过程。
在相关技术中,可以通过多视图立体深度估计的方法对输入的图像进行每张图像的深度几何估计,再将获取的每张图像所对应的深度图进行融合,最终获取所要重建物体的点云结构,再利用泊松重建等方法从点云中恢复出物体的几何结构的网格表面。
然而,上述相关技术所示的方案依赖多视角图像的图像质量,通常对光照变化比较敏感,难以实现对物体的高质量重建,建模效果较差。
发明内容
本申请实施例提供了一种三维模型获取方法、装置、设备及存储介质,可以提高三维物体的建模效果,该技术方案如下:
一方面,提供了一种三维模型获取方法,所述方法包括:
获取N个物体图片;所述N个物体图片是对同一个目标物体进行不同角度的图像采集得到的图片;N为大于或者等于2的整数;
基于所述N个物体图片,获取所述目标物体的几何特征,以及所述目标物体的纹理特征;
基于所述目标物体的几何特征,以及所述目标物体的纹理特征生成所述目标物体的N个重建图片;
基于所述目标物体的N个重建图片,以及所述N个物体图片之间的差异,对所述目标物体的几何特征,以及所述目标物体的纹理特征进行迭代优化;
响应于对所述目标物体的几何特征优化完成,基于所述目标物体的几何特征,构建所述目标物体的三维模型。
另一方面,提供了一种三维模型获取装置,所述装置包括:
图片获取模块,用于获取N个物体图片;所述N个物体图片是对同一个目标物体进行不同角度的图像采集得到的图片;N为大于或者等于2的整数;
特征提取模块,用于基于所述N个物体图片,获取所述目标物体的几何特征,以及所述目标物体的纹理特征;
图片重建模块,用于基于所述目标物体的几何特征,以及所述目标物体的纹理特征生成所述目标物体的N个重建图片;
优化模块,用于基于所述目标物体的N个重建图片,以及所述N个物体图片之间的差异,对所述目标物体的几何特征,以及所述目标物体的纹理特征进行迭代优化;
模型构建模块,用于响应于对所述目标物体的几何特征优化完成,基于所述目标物体的几何特征,构建所述目标物体的三维模型。
在一种可能的实现方式中,所述特征提取模块,用于将所述N个物体图片输入图片重建模型中的特征提取分支,获得所述图片重建模型的特征提取分支输出的,所述目标物体的几何特征,以及所述目标物体的纹理特征;
所述图片重建模块,用于通过所述图片重建模型中的体渲染分支,基于所述目标物体的几何特征对应的无向距离场,以及所述目标物体的纹理特征,生成所述N个重建图片;
所述优化模块,用于,
基于所述目标物体的N个重建图片,以及所述N个物体图片之间的差异,获取损失函数值;
基于所述损失函数值,对所述图片重建模型的模型参数进行更新;
将所述N个物体图片输入参数更新后的所述图片重建模型,获得所述图片重建模型的特征提取分支输出的,所述目标物体的新的几何特征,以及所述目标物体的新的纹理特征。
在一种可能的实现方式中,所述图片重建模块,还用于通过所述图片重建模型中的体渲染分支,基于所述目标物体的新的几何特征对应的无向距离场,以及所述目标物体的新的纹理特征,生成N个新的重建图片;
所述装置还包括:
所述优化模块,还用于响应于所述N个新的重建图片以及所述N个物体图片之间的差异满足收敛条件,确定所述目标物体的几何特征优化完成;
所述优化模块,还用于响应于所述N个新的重建图片以及所述N个物体图片之间的差异不满足所述收敛条件,基于所述目标物体的N个新的重建图片,以及所述N个物体图片之间的差异,获取新的损失函数值,基于所述新的损失函数值,对所述图片重建模型的模型参数进行更新。
在一种可能的实现方式中,所述体渲染分支使用的体渲染公式中包含密度函数;
所述密度函数用于将所述目标物体的几何特征转化为概率密度。
在一种可能的实现方式中,所述几何特征基于无向距离场来表征;所述密度函数用于通过可微分的指示函数,将所述几何特征中的无向距离值转换为概率密度。
在一种可能的实现方式中,所述损失函数值中包含第一损失函数值和第二损失函数值中的至少一种:
所述第一损失函数值是基于所述N个重建图片与所述N个物体图片之间,对应的像素之间的颜色差异获得的函数值;
所述第二损失函数值是基于所述N个重建图片与所述N个物体图片之间,对应的面片之间的颜色差异获得的函数值。
在一种可能的实现方式中,所述损失函数值中还包含第三损失函数值、第四损失函数值以及第五损失函数值中的至少一种:
所述第三损失函数值用于优化所述无向距离场的模长;
所述第四损失函数值用于优化所述无向距离场的复杂度;
所述第五损失函数值用于优化所述无向距离场的轮廓。
在一种可能的实现方式中,所述第三损失函数值是基于所述无向距离场的模长与1之间的差值计算得到的。
在一种可能的实现方式中,所述第四损失函数值用于排除所述无向距离场中非物体表面的采样点。
在一种可能的实现方式中,所述第五损失函数值是基于所述无向距离场的轮廓与所述目标物体的轮廓之间的差异计算得到的。
在一种可能的实现方式中,所述模型构建模块,用于响应于对所述目标物体的几何特征优化完成,从所述目标物体的几何特征中,提取所述目标物体的显式的网格表面。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储由至少一条计算机指令,所述至少一条计算机指令由所述处理器加载并执行以实现上述三维模型获取方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机指令,所述计算机指令由处理器加载并执行以实现上述三维模型获取方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的三维模型获取方法。
本申请提供的技术方案可以包括以下有益效果:
基于对同一个目标物体进行不同角度的图像采集得到的N个物体图片,获取目标物体的几何特征和纹理特征;基于目标物体的几何特征,以及目标物体的纹理特征生成目标物体的N个重建图片;基于目标物体的N个重建图片,以及N个物体图片之间的差异,对目标物体的几何特征,以及目标物体的纹理特征进行优化,当对目标物体的几何特征优化完成时,基于目标物体的几何特征,构建目标物体的三维模型;上述方案中,通过N个物体图片生成目标物体的初始的几何特征和纹理特征后,可以将N个物体图片作为参考,继续通过目标物体的几何特征和纹理特征进行迭代优化,从而提高了目标物体的几何特征的准确性,进而提高三维物体的建模效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请一示例性实施例涉及的***的示意图;
图2是本申请一示例性实施例示出的一种三维模型获取方法的流程图;
图3是本申请涉及的一种三维模型重建的框架图;
图4是本申请一示例性实施例示出的另一种三维模型获取方法的流程图;
图5是本申请涉及的模型结构示意图;
图6是本申请一示例性实施例示出的再一种三维模型获取方法的流程图;
图7是本申请涉及的另一种三维模型重建的框架图;
图8是传统建模方案的建模结果示意图;
图9是本申请涉及的基于无向距离场的开放边界物体的建模结果示意图;
图10是本申请涉及的基于无向距离场的封闭边界物体的建模结果示意图;
图11是本申请一个实施例提供的三维模型获取装置的方框图;
图12示出了本申请一示例性实施例示出的计算机设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请实施例提供了一种用于通过二维图像进行三维模型重建的方法。为了便于理解,下面对本申请涉及的几个名词进行解释。
1)人工智能(Artificial Intelligence,AI):人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习、自动驾驶、智慧交通等方向。
2)计算机视觉技术(Computer Vision,CV):计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
3)机器学习(Machine Learning,ML):机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
4)隐式神经表示(Implicit Neural Representations):是指通过神经网络的方式将输入的图像、音频、以及点云等信号表示为函数的方法。对于输入x找到一个合适的网络F使得网络F能够表征函数Φ由于函数Φ是连续的,从而使得原始信号是连续的、可微的。这么干的好处在于,可以获取更高效的内存管理,得到更加精细的信号细节,并且使得图像在高阶微分情况下仍然是存在解析解的,并且为求解反问题提供了一个全新的工具。
5)神经渲染(neural rendering):神经渲染是一种基于深度神经网络和物理引擎的方法,可以根据现有场景创建新颖的图像和视频片段。它使用户可以控制场景属性,例如照明、相机参数、姿势、几何形状、形状和语义结构。
6)体渲染(volume rendering):在科学可视化和计算机图形学中,体绘制是一组用于显示 3D 离散采样数据集(通常是 3D 标量场)的 2D 投影的技术。
7)有向距离场(Signed Distance Function,SDF):在数学及其应用中,有符号距离函数(或有向距离函数)是度量空间中给定点x到集合Ω边界的正交距离,符号由x是否在内部决定Ω。该函数在Ω内的点x处具有正值,随着x接近Ω的边界(符号距离函数为零)它的值减小,并且它在Ω之外取负值。 然而,有时也采用替代约定(即Ω内部为负,外部为正)。
8)无向距离场(Unsigned Distance Function,UDF):在数学及其应用中,无符号距离函数是度量空间中给定点x到集合Ω边界的正交距离。
图1示出了本申请一示例性实施例提供的三维模型获取方法所使用的***的示意图,如图1所示,该***包括:服务器110以及终端120。
其中,上述服务器110可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
上述终端120可以是具有网络连接功能以及数据处理功能的终端设备,比如,终端120可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、膝上型便携计算机和台式计算机等等。
可选的,上述***中包含一个或者多个服务器110,以及多个终端120。本申请实施例对于服务器110和终端120的个数不做限制。
终端以及服务器通过通信网络相连。可选的,通信网络是有线网络或无线网络。
其中,上述终端和服务器中的至少一个可以存储/运行有用于通过二维图片对三维物体进行建模的建模工具或插件等应用程序。
比如,上述服务器110中可以设置有应用程序安装包,终端120可以从服务器110下载应用程序安装包并安装上述应用程序;后续终端120通过该应用程序,使用二维图片对三维物体进行建模。
图1中仅示出了一个终端,但在不同实施例中存在多个其它终端可以接入服务器110。可选地,还存在一个或多个终端是开发者对应的终端,在该终端上安装有对上述应用程序进行开发的开发和编辑平台,开发者可在该终端上对上述应用程序进行编辑和更新,并将更新后的上述应用程序安装包通过有线或无线网络传输至服务器110,终端120可从服务器110下载上述应用程序安装包实现对应用程序的更新。
再比如,上述服务器110可以设置安装并运行上述应用程序,终端120可以向服务器110发送二维图片,服务器110通过该应用程序,使用接收到的二维图片对三维物体进行建模,并将建模结果返回给终端120。
可选的,上述的无线网络或有线网络使用标准通信技术或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术或格式来代表通过网络交换的数据。此外可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。
图2示出了本申请一示例性实施例示出的三维模型获取方法的流程图,该方法由计算机设备执行,该计算机设备可以实现为终端或服务器,该终端或者服务器可以是图1所示的终端或服务器,如图2所示,该三维模型获取方法包括以下步骤。
步骤210:获取N个物体图片;N个物体图片是对同一个目标物体进行不同角度的图像采集得到的图片;N为大于或者等于2的整数。
在本申请实施例中,对于待重建的目标物体,可以预先通过N个不同的角度对该目标物体进行图像采集,得到N个物体图片。
步骤220:基于N个物体图片,获取目标物体的几何特征,以及目标物体的纹理特征。
其中,上述几何特征可以是用于表示目标物体的几何结构的特征。
上述目标物体的几何特征,是指目标物体的三维形态和结构的特征。比如,上述目标物体的几何特征可以用来表示目标物体的形状和尺寸。
上述纹理特征可以是用于表征目标物体表面的纹理信息。
步骤230:基于目标物体的几何特征,以及目标物体的纹理特征生成目标物体的N个重建图片。
在本申请实施例中,由于几何特征可以表征目标物体的几何结构,而纹理特征可以表征目标物体表面的纹理(相当于颜色和材质等),因此,通过目标物体的几何特征和纹理特征,可以生成指定视角上观察该目标物体的二维图片(即上述重建图片)。
在本申请实施例中,计算机设备可以通过体渲染等方式,基于目标物体的几何特征,以及目标物体的纹理特征生成目标物体的N个重建图片。
步骤240:基于目标物体的N个重建图片,以及N个物体图片之间的差异,对目标物体的几何特征,以及目标物体的纹理特征进行优化。
其中,上述N个重建图片和N个物体图片之间是一一对应的关系,具体来说,对于一个重建图片和对应的一个物体图片来说,两者对应目标物体的相机参数是一致的,并且,目标物体的几何特征和纹理特征越准确,对应的重建图片和物体图片也越相近,相对应的,计算机设备可以根据生成的重建图片,以及该重建图片对应的物体图片之间的差异,对标物体的几何特征,以及目标物体的纹理特征进行优化,使得通过优化后的几何特征和纹理特征再次重建得到的新的重建图片,能够更接近对应的物体图片。
其中,上述步骤220至步骤240的过程可以迭代执行,也就是,通过优化后的几何特征和纹理特征再次重建得到的新的重建图片后,根据新的重建图片和对应的物体图片之间的差异,对几何特征和纹理特征再进行优化,重复执行上述步骤,直至达到收敛条件。
其中,上述收敛条件可以包括:迭代次数达到次数阈值、相邻两次优化前后的几何特征和纹理特征之间的差异小于特征差异阈值、相邻两次优化前后得到的重建图片之间的差异小于第一图片差异阈值、最近一次优化后得到的重建图片和对应的物体图片之间的差异小于第二图片差异阈值等等。本申请实施例对于上述收敛条件不做限定。
步骤250:响应于对目标物体的几何特征优化完成,基于目标物体的几何特征,构建目标物体的三维模型。
在本申请实施例中,当目标物体的几何特征优化完成后,计算机设备可以基于该目标物体最后一次优化后的几何特征,构建对应的三维模型。
其中,上述构建三维模型,可以是指基于目标物体的几何特征,生成用于表征目标物体的三维模型的模型数据。
综上所述,本申请实施例所示的方案,基于对同一个目标物体进行不同角度的图像采集得到的N个物体图片,获取目标物体的几何特征和纹理特征;基于目标物体的几何特征,以及目标物体的纹理特征生成目标物体的N个重建图片;基于目标物体的N个重建图片,以及N个物体图片之间的差异,对目标物体的几何特征,以及目标物体的纹理特征进行优化,当对目标物体的几何特征优化完成时,基于目标物体的几何特征,构建目标物体的三维模型;上述方案中,通过N个物体图片生成目标物体的初始的几何特征和纹理特征后,可以将N个物体图片作为参考,继续通过目标物体的几何特征和纹理特征进行迭代优化,从而提高了目标物体的几何特征的准确性,进而提高三维物体的建模效果。
基于上述图2所示的方案,在一种可能的是实现方式中,上述步骤230可以替换为:基于目标物体的几何特征对应的无向距离场,以及目标物体的纹理特征生成所述目标物体的N个重建图片。
在一种可能的实现方式中,可以通过无向距离场来表征物体的几何结构。也就是说,上述目标物体的几何特征中包含无向距离场。
在本申请实施例中,场(field)是为所有(连续)空间和时间坐标中的至少一种定义的量(标量),如电磁场,重力场等。也就是说,场是一个连续的概念,是将一个高维的向量映射到一个标量。
其中,上述无向距离场是一种神经场,神经场是一种用神经网络进行全部或者部分参数化的场。
在视觉领域,可以认为神经场是以空间坐标以及其他维度(时间、相机位姿等)的信息作为输入,通过一个多层感知机(Multilayer Perceptron,MLP)网络模拟目标函数,生成一个目标标量(比如颜色、深度等)的过程。
由于有向距离场需要将空间划分为内部与外部,因此只能建模封闭表面物体,无法对开放边界物体进行重建(具体来说,开放边界物体没有内部与外部之分),如衣服等物体,对于此类物体,如果使用有向距离场作为形状的表达形式,会将开放边界物体错误得建模为封闭表面物体,无法反应正确的几何拓扑。
上述无向距离场是一种对三维空间中的目标物体表面的隐式表达,上述无向距离场是一个空间场,这个空间场中每个体素(像素所对应的体积单位)记录自己与目标物体的表面(也称为边界)之间的最小距离;通过三维空间中各个点与目标物体的表面之间的最小距离,可以确定出上述目标物体的边界的位置,从而实现对目标物体的形状、尺寸等几何结构的表征。
具体来说,目标物体的无向距离场可以通过一个距离场函数来表示,向该距离场函数输入三维空间中的任意一个点的坐标,该距离场函数即可以计算出该点与三维空间中的目标物体的边界集合之间的正交距离(或者说该点与目标物体表面之间的最近距离)。
由于无向距离场只记录空间中某点到物体表面的最近距离,不记录符号,因此不需要划分空间的内部与外部,因此可以准确的建模开放边界物体。
除了无向距离场(UDF)之外,还可以使用截断有向距离场(Truncated SignedDistance Function,TSDF)作为物体的几何结构表征,其中,作为物体的几何结构表征时,TSDF记录了光束方向上的障碍表面(也就是物体表面)的截断符号距离,TSDF值为0的表面就是障碍物表面。
上述截断有向距离场也是一种对三维空间中的目标物体表面的隐式表达,上述截断有向场同样是一个空间场,这个空间场中每个体素(像素所对应的体积单位,也就是空间中的一个点)记录自己与目标物体的表面(也称为边界)之间的截断符号距离(当距离超过阈值时不再变化),并且该截断符号距离具有正负号,正号表示该体素处于目标物体之外,负号表示该体素位于目标物体内部;通过三维空间中各个点与目标物体的表面之间的截断符号,可以确定出上述目标物体的边界的位置,从而实现对目标物体的形状、尺寸等几何结构的表征。
具体来说,目标物体的截断有向距离场同样可以通过一个距离场函数来表示,向该距离场函数输入三维空间中的任意一个点的坐标,该距离场函数即可以计算出该点与三维空间中的目标物体的边界集合之间的截断符号距离。
综上所述,本申请实施例所示的方案,基于对同一个目标物体进行不同角度的图像采集得到的N个物体图片,获取目标物体的几何特征和纹理特征;基于目标物体的几何特征,以及目标物体的纹理特征生成目标物体的N个重建图片;基于目标物体的N个重建图片,以及N个物体图片之间的差异,对目标物体的几何特征,以及目标物体的纹理特征进行优化,当对目标物体的几何特征优化完成时,基于目标物体的几何特征,构建目标物体的三维模型;上述方案中,由于上述几何特征基于无向距离场来表征,而无向距离场不仅可以准确的表征边界封闭的物体的几何结构,还可以准确的表征开放边界的物体的几何结构,因此能够适用于开放边界和非开放边界的物体的建模,扩展了三维物体建模的应用范围,提高三维物体的建模效果。
本申请各个实施例所示的方案,可以基于隐式神经表达实现任意拓扑物体的重建,只需要对物体进行多视角拍摄(比如360°的多视角拍摄),即可通过输入拍摄的多视角的图片,通过神经渲染的方式自动重建出物体的准确的几何结构,省去繁琐的人工建模过程。
请参考图3,其示出了本申请涉及的一种三维模型重建的框架图。如图3所示,首先,通过摄像头对目标物体31进行不同角度的图像采集,得到N个物体图片32。
然后,计算机设备对N个物体图片32进行特征提取,得到用于描述目标物体的几何结构的无向距离场33,以及描述目标物体的纹理的颜色辐射场34。
计算机设备再基于无向距离场33和颜色辐射场34进行图片生成,得到N个重建图片35。
计算机设备根据N个物体图片32和N个重建图片35之间的差异,对无向距离场33和颜色辐射场34进行迭代优化,每次优化后更新N个重建图片35,直至迭代优化完成。
在迭代优化完成后,计算机设备根据最后一次迭代优化后的无向距离场33,创建目标物体31的三维模型36。
图4示出了本申请一个示例性实施例提供的三维模型获取方法的流程图。该方法可以由计算机设备执行。即在图2示出的实施例中,步骤220至步骤240可以实现为步骤220a至步骤240a。
步骤220a:将N个物体图片输入图片重建模型中的特征提取分支,获得图片重建模型的特征提取分支输出的,目标物体的几何特征,以及目标物体的纹理特征。
比如,以上述几何特征基于无向距离场来表征为例,本申请实施例所示的方案首先将待重建的目标物体表征成无方向的距离场以及关于纹理的神经辐射场,这两个场都使用神经网络作为表达介质。请参考图5,其示出了本申请涉及的模型结构示意图。如图5所示,该模型中的特征提取分支510包含几何特征提取分支510a,以及,纹理特征提取分支510b。
上述几何特征提取分支510a,以及,纹理特征提取分支510b分别用于根据输入的N个物体图片530,对目标物体进行几何与纹理表征。
可选的,上述几何特征提取分支510a是一个机器学习网络(比如MLP网络),该机器学习网络中具有若干个网络权重参数,其输入为图片数据,输出为一个无向距离场。
可选的,上述纹理特征提取分支510b也是一个机器学习网络(比如MLP网络),该机器学习网络中具有若干个网络权重参数,其输入为图片数据,输出为一个颜色辐射场。
其中,上述几何特征提取分支510a可以实现为用于输出无向距离场的多层感知机(UDF-MLP),上述纹理特征提取分支510b可以实现为用于输出颜色辐射场的多层感知机(Color-MLP)。
不同于传统方法采用显式的点云或者网格作为待重建物体的几何表征形式,本方案采用无向距离场(UDF-MLP)来表征待重建的物体的几何。传统方法采用显式的图片来表达物体的纹理信息,本方案采用隐式的颜色辐射场(Color-MLP)来表达物体的纹理信息,这两个场都使用全连接神经网络来表达。本方案的目标是通过迭代优化,通过输入多视图,逐像素得计算输入视图上颜色与合成视图颜色得差值,并最小化这个误差,将UDF-MLP与Color-MLP都优化成符合待重建物体的几何与纹理特征。
其中,上述无向距离场和颜色辐射场都可以视为辐射场。
其中,上述辐射场可以视为一个函数:如果从一个角度向一个静态空间发射一条射线,可以查询到这条射线在空间中每个点的概率密度,以及该位置在射线角度下呈现出来的颜色。其中概率密度用来计算权重,对点上的颜色做加权求和就可以呈现像素颜色。本申请实施例所示的方案,通过神经网络来建模红绿蓝(Red-Green-Blue,RGB)值和概率密度。
上述步骤220a的执行过程,与神经辐射场(Neural Radiance Fields,NeRF)算法或类NeRF算法中提取物体的有向距离场和颜色辐射场的过程类似,此处不再赘述。
步骤230a:通过图片重建模型中的体渲染分支,基于目标物体的几何特征对应的无向距离场,以及目标物体的纹理特征,生成N个重建图片。
本申请实施例所示的方案通过神经渲染合成新视图;以上述图5为例,体渲染分支520使用神经渲染的方式对UDF-MLP和Color-MLP进行迭代优化。通过该算法提出的基于UDF的神经渲染公式,从UDF-MLP与Color-MLP中提取几何与纹理信息,合成新的视图。
步骤240a:基于目标物体的N个重建图片,以及N个物体图片之间的差异,获取损失函数值;基于损失函数值,对图片重建模型的模型参数进行更新;将N个物体图片输入参数更新后的图片重建模型,获得图片重建模型的特征提取分支输出的,目标物体的新的几何特征,以及目标物体的新的纹理特征。
其中,上述对图片重建模型的模型参数进行更新,可以是指对图片重建模型中的特征提取分支的模型参数进行更新,或者,也可以是指对图片重建模型中的特征提取分支和体渲染分支的模型参数进行更新。
在一种可能的实现方式中,上述步骤220a至步骤240a为迭代执行的步骤,也就是说,计算机设备在步骤240a之后,还可以通过图片重建模型中的体渲染分支执行以下过程:
基于目标物体的新的几何特征对应的无向距离场,以及目标物体的新的纹理特征,生成N个新的重建图片;
响应于N个新的重建图片以及N个物体图片之间的差异满足收敛条件,确定目标物体的几何特征优化完成;
响应于N个新的重建图片以及N个物体图片之间的差异不满足收敛条件,基于目标物体的N个新的重建图片,以及N个物体图片之间的差异,获取新的损失函数值,基于新的损失函数值,对图片重建模型的模型参数进行更新。
其中,上述收敛条件可以包括:N个新的重建图片以及N个物体图片中,对应的两个图片之间的差异小于第一图片差异阈值。可选的,上述收敛条件也可以设置为其它条件,本申请实施例不做限定。
在本申请实施例中,计算机设备可以通过对图片重建模型的参数不断进行迭代更新的方式,来对目标物体的无向距离场和颜色辐射场进行迭代优化,从而提供一种通过机器学习模型来优化目标物体的无向距离场和颜色辐射场的方案,使得目标物体的无向距离场逐渐逼近目标物体的实际的几何结构,保证目标物体的几何结构优化的准确性。
在一种可能的实现方式中,上述体渲染分支使用的体渲染公式中包含密度函数;该密度函数用于将目标物体的几何特征转化为概率密度。
可选的,上述体渲染分支的工作流程可以如下:
首先将三维坐标X输入到一个8层全连接网络中(比如,通过ReLU作为激活层,每层有256个通道),输出概率密度(也可以称为体积密度)和一个256维的特征向量,然后该特征向量与观察方向d(该观察方向可以包括光线位置和角度,可以表示为θ和φ)串联输入另一个全连接网络(比如,通过ReLU作为激活层,每层有128个通道),输出依赖于视角的RGB颜色,再通过体渲染技术将该RGB颜色合成到重建图片中。/>
也就是说,本申请实施例提供的算法提出了一种新型的基于无向距离场的神经体渲染方程。当从相机中心发射出一条光线r其方向为v,想合成该光线对应的颜色时,可以利用以下体渲染公式来渲染这条光线对应的颜色:
基于上述体渲染公式,计算机设备在重建图片时,在这条光线上采样得到若干个采样点,采样点可以表示为r(t),每个点都通过UDF-MLP输出一个概率密度σ(density),通过Color-MLP输出一个颜色c,将所有采样点的概率密度与颜色进行积分就可以得到这条光线对应的颜色值C(t)。其中T(t)表示透明度,描述某个采样点被遮挡的概率。
在本申请实施例中,通过体渲染公式来融合无向距离场和颜色辐射场,从而重建出与N个物体图片一一对应的N个重建图片,该过程中,通过将无向距离场转化为概率密度的方式,实现无向距离场和颜色辐射场的正确融合,保证图片重建的准确性,进而保证后续对目标物体的几何结构优化的准确性。
在一种可能的实现方式中,响应于几何特征基于无向距离场来表征,密度函数用于通过可微分的指示函数,将几何特征中的无向距离值转换为概率密度。
本申请实施例所示的方案,设计了一种新颖的方式,将光线上一个采样点的无向距离值转换为概率密度/>, 将无向距离场的距离值通过概率模型映射成概率值。
其中,k为可优化的超参数,描述将无向距离值转换为概率密度的程度。为采样点处无向距离场梯度方向与光线方向的夹角。
其中,函数,本申请实施例将其定义为指示函数(indicator function),根据体渲染方程处处可导的性质,为了克服无向距离场(UDF)在零值域处不可导的问题,本算法通过概率模型,提出了一种可微分的指示函数(indicator function)形式:
其中,表示光线r上的第i个采样点,/>表示光线r上的第j个采样点,/>是第i个采样点与第i+1采样点之间的距离,α是超参数,/>是可优化的超参数,描述了第i个采样点是否被遮挡的程度。/>是第j+1个采样点处无向距离场的梯度方向与光线方向直接的夹角。/>
在本申请实施例中,对于无向距离场在零值域处不可导的缺点,本申请实施例通过可微分的指示函数来实现基于无向距离场和颜色辐射场的体渲染,保证重建图片的准确性,进而保证后续对目标物体的几何结构优化的准确性。
在一种可能的实现方式中,损失函数值中包含第一损失函数值和第二损失函数值中的至少一种:
第一损失函数值是基于N个重建图片与N个物体图片之间,对应的像素之间的颜色差异获得的函数值;
第二损失函数值是基于N个重建图片与N个物体图片之间,对应的面片之间的颜色差异获得的函数值。
其中,计算机设备对于N个重建图片与N个物体图片中,对应的一个重建图片和一个物体图片,计算该重建图片和物体图片中位置对应的像素之间的颜色差异,得到N个重建图片与N个物体图片中,位置对应的像素之间的颜色差异,然后再基于N个重建图片与N个物体图片中,位置对应的像素之间的颜色差异计算得到第一损失函数值,该第一损失函数值可以体现N个重建图片与N个物体图片之间在像素层面上的区别。
类似的,计算机设备对于N个重建图片与N个物体图片中,对应的一个重建图片和一个物体图片,计算该重建图片和物体图片中位置对应的面片之间的颜色差异(比如取面片的平均颜色值之间的差异),得到N个重建图片与N个物体图片中,位置对应的面片之间的颜色差异,然后再基于N个重建图片与N个物体图片中,位置对应的面片之间的颜色差异计算得到第二损失函数值,该第二损失函数值可以体现N个重建图片与N个物体图片之间在面片层面上的区别。
在本申请实施例中,计算机设备可以通过重建图片和物体图片之间的颜色的差异,实现对图片重建模型的参数更新,使得更新后的图片重建模型能够通过优化无向距离场和颜色辐射场,输出更接近物体图片的重建图片,从而保证无向距离场的优化的准确性。
在一种可能的实现方式中,响应于几何特征基于无向距离场来表征,损失函数值中还包含第三损失函数值、第四损失函数值以及第五损失函数值中的至少一种:
第三损失函数值用于优化无向距离场的模长;
第四损失函数值用于优化无向距离场的复杂度;
第五损失函数值用于优化无向距离场的轮廓。
在本申请实施例中,计算机设备还可以通过控制模型优化过程中的无向距离场的模长、复杂度和轮廓,来避免对模型参数的过度修改,从而保证每次迭代过程中的参数优化的准确性,同时缩短所需要的迭代次数,提高迭代效率和准确性。
在一种可能的实现方式中,第三损失函数值是基于无向距离场的模长与1之间的差值计算得到的。
在本申请实施例中,计算机设备在对图片重建模型进行优化的过程中,控制无向距离场的模长尽量接近1,从而实现模型优化过程中的无向距离场的模长的可控,提高迭代效率和准确性。
在一种可能的实现方式中,第四损失函数值用于排除无向距离场中非物体表面的采样点。
在本申请实施例中,计算机设备在对图片重建模型进行优化的过程中,通过排除无向距离场中非物体表面的采样点的方式,控制无向距离场的复杂度,从而实现模型优化过程中的无向距离场的复杂度的可控,提高迭代效率和准确性。
在一种可能的实现方式中,第五损失函数值是基于无向距离场的轮廓与目标物体的轮廓之间的差异计算得到的。
在本申请实施例中,计算机设备在对图片重建模型进行优化的过程中,通过最小化无向距离场的轮廓和目标物体的轮廓之间的差异,控制无向距离场的轮廓向目标物体的轮廓逼近,从而实现模型优化过程中的无向距离场的轮廓的可控,提高迭代效率和准确性。
在一种可能的实现方式中,上述目标物体的轮廓可以通过对目标图片中的目标物体进行轮廓标注得到。
在本申请实施例中,能量函数设计、误差计算部分如下:
以图4为例,本方案涉及的算法可以采用迭代优化的方式对UDF-MLP和Color-MLP进行优化。通过计算合成的新视图(即重建图片)与输入视图(即物体图片)之间的差距,来作为主要的能量函数。通过最小化能量函数,来逐步迭代优化,使得无向距离场(UDF-MLP)与纹理辐射场(Color-MLP)符合待重建物体的几何与纹理特征。同时使用多个正则项作为能量函数(即上述损失函数)的辅助项,使得优化过程更加稳定。该算法提出的能量函数如下:
L=Lcolor+λ0Lpatch+λ1Leik+λ2Lreg(+γLmask)
第一项Lcolor是在像素层面上(pixel-level)计算合成视图上某个像素点的颜色值与输入视图对应像素点的颜色值之间的误差,第二项Lpatch是在面片层面(patch-level)上计算合成视图上一小块区域的所有像素点颜色值与输入视图上对应区域上所有像素点颜色值之间的误差,第三项Leik是计算无向距离场的法向模长与单位模长1之间的误差,第四项Lreg是鼓励无向距离场形式简单,避免产生欠优化解。其中:
其中,τ是一个常量标量,用于缩放 UDF 值,并且M是每个优化步骤的采样光线数。该公式有效地排除了 UDF 场上非表面的采样点为零,因此鼓励无向距离场具有简洁的结构。K表示第k条光线,i表示光线上的第i个采样点。
Lmask计算无向距离场的轮廓与输入物体轮廓之间的差距。
在本申请实施例中,计算机设备可以通过计算合成图像与输入真实视图之间的误差(以及其它辅助项误差),使用adam优化器对UDF-MLP和Color-MLP进行优化。
在一种可能的实现方式中,计算机设备在执行步骤220a之前,还可以从多个候选图片重建模型中,选择与N个物体图片相匹配的图片重建模型。其中,上述候选图片重建模型,是对样本物体的无向距离场和颜色辐射场进行优化的过程中,迭代优化完成时的重建模型。其中,对样本物体的无向距离场和颜色辐射场进行优化的过程,与上述步骤220a至步骤240a的迭代优化过程类似,次数不再赘述。
由于其它物体的三维重建过程对于目标物体的三维重建过程也有一定的指导意义,具体来说,对于不同的物体进行三维重建过程中,重建模型的参数优化过程通常存在一定的共性,体现在模型更新结果上来说,使用对一个物体A的无向距离场和颜色辐射场迭代优化至收敛的重建模型a,直接提取另一个物体B的无向距离场和颜色辐射场时,可能得到相对准确的结果,因此,如果在对物体B进行三维重建过程中,使用重建模型a作为初始化的图片重建模型,且该重建模型a与目标物体匹配,则可以极大的缩短三维重建的迭代步骤,以及所需要的图片数量,这对三维重建过程具有极大的效率提升的作用。
在一种可能的实现方式中,上述物体分类可以按照是否是开放边界物体来分类,比如,计算机设备中预先存储开放边界物体对应的候选图片重建模型,以及开放非边界开放物体对应的候选图片重建模型;计算机设备获取到上述N个物体图片后,可以从N个物体图片中识别目标物体是否为开放边界物体,如果识别结果为目标物体是开放边界物体,则确定开放边界物体对应的候选图片重建模型作为对目标物体进行三维重建所使用的图片重建模型;反之,如果识别结果为目标物体是非开放边界物体,则确定非开放边界物体对应的候选图片重建模型作为对目标物体进行三维重建所使用的图片重建模型。
在另一种可能的实现方式中,上述物体分类可以按照物体的种类来分类,比如,计算机设备中预先存储人物、动物、地形、建筑等物体种类分别对应的候选图片重建模型;计算机设备获取到上述N个物体图片后,可以从N个物体图片中识别目标物体的物体种类,并确定识别出的物体种类对应的候选图片重建模型作为对目标物体进行三维重建所使用的图片重建模型。
在本申请实施例中,计算机设备中可以预先存储若干个物体分类对应的候选图片重建模型,从多个候选图片重建模型中,选择与N个物体图片相匹配的图片重建模型时,计算机设备可以将多个候选图片重建模型中,对应该目标物体的物体分类的候选图片重建模型,确定为上述对目标物体进行三维重建所使用的图片重建模型。具体的,如果物体A和物体B属于相同的物体分类,则使用重建模型a直接提取另一个物体B的无向距离场和颜色辐射场时,有更大的概率可能得到相对准确的结果,进而可以提高三维重建过程的效率。
图6示出了本申请一个示例性实施例提供的三维模型获取方法的流程图。该方法可以由计算机设备执行。即在图2示出的实施例中,步骤250可以实现为步骤250a。
步骤250a:响应于对目标物体的几何特征优化完成,从目标物体的几何特征中,提取目标物体的显式的网格表面。
在本申请实施例中,在优化过程收敛后,计算机设备可以使用mesh-UDF算法等网格提取算法,从优化好的无向距离场中提取显示的网格表面(mesh),得到目标物体重建的三维模型的模型数据。
其中,上述mesh-UDF算法通过局部检测表面交叉,将深度UDF直接网格化为具有行进立方体扩展的开放表面。
该技术可以直接从实际拍摄的多视角图片中高质量建模三维模型,包括封闭表面的物体与开放边界的物体,重建出来的物体可以应用于游戏已经电影中的数字内容模型,省去了繁琐的人工建模步骤,降低了三维模型的制造门槛。同时,低成本的三维内容建模,可以节省游戏和影视中数字内容的制作成本,提升数字内容的制造效率。现有的建模方法只能对封闭表面物体进行建模,无法对开放边界物体进行建模,如人物服饰等,极大限制了智能化数字内容生成的范围。
为了建模任意拓扑形式的物体,本申请上述实施例所示的方案采用无向距离场来对物体的几何进行表示。相对于有向距离场而言,有向距离场的符号需要将空间划分为内部与外部,但是开放边界物体没有内部与外部之分,因此有向距离场无法建模开放物体。而无向距离场不需要划分空间的内部与外部,因此可以建模开放边界物体。
本申请上述实施例所示的方案可以用于游戏以及影视中三维数字内容生产。比如,可以作为插件的形式集成在建模软件中,通过输入一系列的多视角图片自动对拍摄物体的几何结构进行重建。
以游戏中的三维数字内容生产为例,请参考图7,其示出了本申请涉及的一种三维模型重建的框架图。如图7所示,在用于游戏的三维数字内容生产过程中,首先,通过摄像头对待建模的目标物体71进行不同角度的图像采集,得到N个物体图片72,并将该N个物体图片72输入计算机设备。
然后,计算机设备对N个物体图片72进行物体分类识别,获得物体分类73,并从若干个候选图片重建模型74中匹配选择出与物体分类73对应的图片重建模型75。
再然后,计算机设备通过图片重建模型75中的特征提取分支75a,对N个物体图片72进行特征提取,得到用于描述目标物体的几何结构的无向距离场76,以及描述目标物体的纹理的颜色辐射场77。
计算机设备再通过重建模型75中的体渲染分支75b,基于无向距离场76和颜色辐射场77进行图片生成,得到N个重建图片78。
计算机设备根据N个物体图片72和N个重建图片78之间的差异(可选的结合一直多个辅助项),计算损失函数值79,通过损失函数值79对重建模型75进行参数的迭代优化,每次优化后通过重建模型75重新生成新的N个重建图片78,直至迭代优化完成。
在迭代优化完成后,计算机设备根据最后一次迭代优化后的无向距离场76,通过mesh-UDP算法获取目标物体71的三维模型710的模型数据(比如网格数据),后续可以通过该模型数据开发游戏中的虚拟对象的对象模型。
具体的,请参考图8、图9和图10。其中,图8是传统建模方案的建模结果示意图;图9是本申请涉及的,基于无向距离场的开放边界物体的建模结果示意图;图10是本申请涉及的,基于无向距离场的封闭边界物体(即非开放边界物体)的建模结果示意图。
对比图8至图10可见,本申请涉及的建模方案能够适用于开放边界物体和非开放边界物体的准确建模。
同时,本申请实施例所示的算法可以进一步从大规模数据中学习到先验信息作为重建的指引,来减少输入图像的数量,加快重建的速度,进一步提高建模的效率。
图11示出了本申请一示例性实施例示出的三维模型获取装置的方框图,该装置可以用于执行如图2、图4或图6所示方法中的全部或部分步骤;如图11所示,该装置可以包括以下模块。
图片获取模块1101,用于获取N个物体图片;所述N个物体图片是对同一个目标物体进行不同角度的图像采集得到的图片;N为大于或者等于2的整数;
特征提取模块1102,用于基于所述N个物体图片,获取所述目标物体的几何特征,以及所述目标物体的纹理特征;
图片重建模块1103,用于基于所述目标物体的几何特征,以及所述目标物体的纹理特征生成所述目标物体的N个重建图片;
优化模块1104,用于基于所述目标物体的N个重建图片,以及所述N个物体图片之间的差异,对所述目标物体的几何特征,以及所述目标物体的纹理特征进行迭代优化;
模型构建模块1105,用于响应于对所述目标物体的几何特征优化完成,基于所述目标物体的几何特征,构建所述目标物体的三维模型。
在一种可能的实现方式中,所述特征提取模块1102,用于将所述N个物体图片输入图片重建模型中的特征提取分支,获得所述图片重建模型的特征提取分支输出的,所述目标物体的几何特征,以及所述目标物体的纹理特征;
所述图片重建模块1103,用于通过所述图片重建模型中的体渲染分支,基于所述目标物体的几何特征对应的无向距离场,以及所述目标物体的纹理特征,生成所述N个重建图片;
所述优化模块1104,用于,
基于所述目标物体的N个重建图片,以及所述N个物体图片之间的差异,获取损失函数值;
基于所述损失函数值,对所述图片重建模型的模型参数进行更新;
将所述N个物体图片输入参数更新后的所述图片重建模型,获得所述图片重建模型的特征提取分支输出的,所述目标物体的新的几何特征,以及所述目标物体的新的纹理特征。
在一种可能的实现方式中,所述图片重建模块1103,还用于通过所述图片重建模型中的体渲染分支,基于所述目标物体的新的几何特征对应的无向距离场,以及所述目标物体的新的纹理特征,生成N个新的重建图片;
所述装置还包括:
所述优化模块1104,还用于响应于所述N个新的重建图片以及所述N个物体图片之间的差异满足收敛条件,确定所述目标物体的几何特征优化完成;
所述优化模块1104,还用于响应于所述N个新的重建图片以及所述N个物体图片之间的差异不满足所述收敛条件,基于所述目标物体的N个新的重建图片,以及所述N个物体图片之间的差异,获取新的损失函数值,基于所述新的损失函数值,对所述图片重建模型的模型参数进行更新。
在一种可能的实现方式中,所述体渲染分支使用的体渲染公式中包含密度函数;
所述密度函数用于将所述目标物体的几何特征转化为概率密度。
在一种可能的实现方式中,所述几何特征基于无向距离场来表征;所述密度函数用于通过可微分的指示函数,将所述几何特征中的无向距离值转换为概率密度。
在一种可能的实现方式中,所述损失函数值中包含第一损失函数值和第二损失函数值中的至少一种:
所述第一损失函数值是基于所述N个重建图片与所述N个物体图片之间,对应的像素之间的颜色差异获得的函数值;
所述第二损失函数值是基于所述N个重建图片与所述N个物体图片之间,对应的面片之间的颜色差异获得的函数值。
在一种可能的实现方式中,所述损失函数值中还包含第三损失函数值、第四损失函数值以及第五损失函数值中的至少一种:
所述第三损失函数值用于优化所述无向距离场的模长;
所述第四损失函数值用于优化所述无向距离场的复杂度;
所述第五损失函数值用于优化所述无向距离场的轮廓。
在一种可能的实现方式中,所述第三损失函数值是基于所述无向距离场的模长与1之间的差值计算得到的。
在一种可能的实现方式中,所述第四损失函数值用于排除所述无向距离场中非物体表面的采样点。
在一种可能的实现方式中,所述第五损失函数值是基于所述无向距离场的轮廓与所述目标物体的轮廓之间的差异计算得到的。
在一种可能的实现方式中,所述模型构建模块1105,用于响应于对所述目标物体的几何特征优化完成,从所述目标物体的几何特征中,提取所述目标物体的显式的网格表面。
综上所述,本申请实施例所示的方案,基于对同一个目标物体进行不同角度的图像采集得到的N个物体图片,获取目标物体的几何特征和纹理特征;基于目标物体的几何特征,以及目标物体的纹理特征生成目标物体的N个重建图片;基于目标物体的N个重建图片,以及N个物体图片之间的差异,对目标物体的几何特征,以及目标物体的纹理特征进行优化,当对目标物体的几何特征优化完成时,基于目标物体的几何特征,构建目标物体的三维模型;上述方案中,通过N个物体图片生成目标物体的初始的几何特征和纹理特征后,可以将N个物体图片作为参考,继续通过目标物体的几何特征和纹理特征进行迭代优化,从而提高了目标物体的几何特征的准确性,进而提高三维物体的建模效果。
图12示出了本申请一示例性实施例示出的计算机设备1200的结构框图。该计算机设备可以实现为本申请上述方案中的服务器或终端。该计算机设备1200包括中央处理单元(Central Processing Unit,CPU)1201、包括随机存取存储器(Random Access Memory,RAM)1202和只读存储器(Read-Only Memory,ROM)1203的***存储器1204,以及连接***存储器1204和中央处理单元1201的***总线1205。该计算机设备1200还包括用于存储操作***1209、应用程序1210和其他程序模块1211的大容量存储设备1206。
该大容量存储设备1206通过连接到***总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。该大容量存储设备1206及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,该大容量存储设备1206可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory,EEPROM)闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(DigitalVersatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的***存储器1204和大容量存储设备1206可以统称为存储器。
根据本公开的各种实施例,该计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在该***总线1205上的网络接口单元1207连接到网络1208,或者说,也可以使用网络接口单元1207来连接到其他类型的网络或远程计算机***(未示出)。
该存储器还包括至少一条计算机指令,该至少一条计算机指令存储于存储器中,中央处理单元1201通过执行该至少一条计算机指令来实现上述各个实施例所示的方法中的全部或者部分步骤。
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并执行以实现上述三维模型获取方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述三维模型获取方法中的全部或部分步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (13)
1.一种三维模型获取方法,其特征在于,所述方法包括:
获取N个物体图片;所述N个物体图片是对同一个目标物体进行不同角度的图像采集得到的图片;N为大于或者等于2的整数;
基于所述N个物体图片,获取所述目标物体的几何特征,以及所述目标物体的纹理特征;
基于所述目标物体的几何特征对应的无向距离场,以及所述目标物体的纹理特征生成所述目标物体的N个重建图片;所述目标物体的N个重建图片与所述N个物体图片之间是一一对应的关系;
基于所述目标物体的N个重建图片与对应的所述物体图片之间的差异,对所述目标物体的几何特征,以及所述目标物体的纹理特征进行迭代优化;
响应于对所述目标物体的几何特征优化完成,基于所述目标物体的几何特征,构建所述目标物体的三维模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述N个物体图片,获取所述目标物体的几何特征,以及所述目标物体的纹理特征,包括:
将所述N个物体图片输入图片重建模型中的特征提取分支,获得所述图片重建模型的特征提取分支输出的,所述目标物体的几何特征,以及所述目标物体的纹理特征;
所述基于所述目标物体的几何特征对应的无向距离场,以及所述目标物体的纹理特征生成所述目标物体的N个重建图片,包括:
通过所述图片重建模型中的体渲染分支,基于所述目标物体的几何特征对应的无向距离场,以及所述目标物体的纹理特征,生成所述N个重建图片;
所述基于所述目标物体的N个重建图片与对应的所述物体图片之间的差异,对所述目标物体的几何特征,以及所述目标物体的纹理特征进行迭代优化,包括:
基于所述目标物体的N个重建图片与对应的所述物体图片之间的差异,获取损失函数值;
基于所述损失函数值,对所述图片重建模型的模型参数进行更新;
将所述N个物体图片输入参数更新后的所述图片重建模型,获得所述图片重建模型的特征提取分支输出的,所述目标物体的新的几何特征,以及所述目标物体的新的纹理特征。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过所述图片重建模型中的体渲染分支,基于所述目标物体的新的几何特征对应的无向距离场,以及所述目标物体的新的纹理特征,生成N个新的重建图片;
响应于所述N个新的重建图片与对应的所述物体图片之间的差异满足收敛条件,确定所述目标物体的几何特征优化完成;
响应于所述N个新的重建图片与对应的所述物体图片之间的差异不满足所述收敛条件,基于所述目标物体的N个新的重建图片与对应的所述物体图片之间的差异,获取新的损失函数值,基于所述新的损失函数值,对所述图片重建模型的模型参数进行更新。
4.根据权利要求2所述的方法,其特征在于,所述体渲染分支使用的体渲染公式中包含密度函数;
所述密度函数用于将所述目标物体的几何特征转化为概率密度。
5.根据权利要求4所述的方法,其特征在于,所述密度函数用于通过可微分的指示函数,将所述几何特征中的无向距离值转换为概率密度。
6.根据权利要求2所述的方法,其特征在于,所述损失函数值中包含第一损失函数值和第二损失函数值中的至少一种:
所述第一损失函数值是基于所述N个重建图片与所述N个物体图片之间,对应的像素之间的颜色差异获得的函数值;
所述第二损失函数值是基于所述N个重建图片与所述N个物体图片之间,对应的面片之间的颜色差异获得的函数值。
7.根据权利要求6所述的方法,其特征在于,所述损失函数值中还包含第三损失函数值、第四损失函数值以及第五损失函数值中的至少一种:
所述第三损失函数值用于优化所述无向距离场的模长;
所述第四损失函数值用于优化所述无向距离场的复杂度;
所述第五损失函数值用于优化所述无向距离场的轮廓。
8.根据权利要求7所述的方法,其特征在于,所述第三损失函数值是基于所述无向距离场的模长与1之间的差值计算得到的。
9.根据权利要求7所述的方法,其特征在于,所述第四损失函数值用于排除所述无向距离场中非物体表面的采样点。
10.根据权利要求7所述的方法,其特征在于,所述第五损失函数值是基于所述无向距离场的轮廓与所述目标物体的轮廓之间的差异计算得到的。
11.一种三维模型获取装置,其特征在于,所述装置包括:
图片获取模块,用于获取N个物体图片;所述N个物体图片是对同一个目标物体进行不同角度的图像采集得到的图片;N为大于或者等于2的整数;
特征提取模块,用于基于所述N个物体图片,获取所述目标物体的几何特征,以及所述目标物体的纹理特征;
图片重建模块,用于基于所述目标物体的几何特征对应的无向距离场,以及所述目标物体的纹理特征生成所述目标物体的N个重建图片;所述目标物体的N个重建图片与所述N个物体图片之间是一一对应的关系;
优化模块,用于基于所述目标物体的N个重建图片与对应的所述物体图片之间的差异,对所述目标物体的几何特征,以及所述目标物体的纹理特征进行迭代优化;
模型构建模块,用于响应于对所述目标物体的几何特征优化完成,基于所述目标物体的几何特征,构建所述目标物体的三维模型。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储有至少一条计算机指令,所述至少一条计算机指令由所述处理器加载并执行以实现如权利要求1至10任一所述的三维模型获取方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机指令,所述计算机指令由处理器加载并执行以实现如权利要求1至10任一所述的三维模型获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310513127.2A CN116228994B (zh) | 2023-05-09 | 2023-05-09 | 三维模型获取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310513127.2A CN116228994B (zh) | 2023-05-09 | 2023-05-09 | 三维模型获取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116228994A CN116228994A (zh) | 2023-06-06 |
CN116228994B true CN116228994B (zh) | 2023-08-01 |
Family
ID=86589557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310513127.2A Active CN116228994B (zh) | 2023-05-09 | 2023-05-09 | 三维模型获取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116228994B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127633A (zh) * | 2019-12-20 | 2020-05-08 | 支付宝(杭州)信息技术有限公司 | 三维重建方法、设备以及计算机可读介质 |
CN115115805A (zh) * | 2022-07-21 | 2022-09-27 | 深圳市腾讯计算机***有限公司 | 三维重建模型的训练方法、装置、设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201017578A (en) * | 2008-10-29 | 2010-05-01 | Chunghwa Picture Tubes Ltd | Method for rebuilding 3D surface model |
CN104063894B (zh) * | 2014-06-13 | 2017-02-22 | 中国科学院深圳先进技术研究院 | 点云三维模型重建方法及*** |
CN105654547B (zh) * | 2015-12-23 | 2018-06-19 | 中国科学院自动化研究所 | 三维重建方法 |
CN105654548B (zh) * | 2015-12-24 | 2018-10-16 | 华中科技大学 | 一种基于大规模无序图像的多起点增量式三维重建方法 |
CN106056056B (zh) * | 2016-05-23 | 2019-02-22 | 浙江大学 | 一种远距离非接触的行李体积检测***及其方法 |
CN109118578A (zh) * | 2018-08-01 | 2019-01-01 | 浙江大学 | 一种层次化的多视图三维重建纹理映射方法 |
CN109255830B (zh) * | 2018-08-31 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 三维人脸重建方法和装置 |
CN109840939B (zh) * | 2019-01-08 | 2024-01-26 | 北京达佳互联信息技术有限公司 | 三维重建方法、装置、电子设备及存储介质 |
CN110378047A (zh) * | 2019-07-24 | 2019-10-25 | 哈尔滨工业大学 | 一种基于计算机视觉的大跨度桥梁拓扑感知三维重建方法 |
CN112424835B (zh) * | 2020-05-18 | 2023-11-24 | 上海联影医疗科技股份有限公司 | 用于图像重建的***和方法 |
CN113240613B (zh) * | 2021-06-07 | 2022-08-30 | 北京航空航天大学 | 一种基于边缘信息重建的图像修复方法 |
CN115330940B (zh) * | 2022-08-09 | 2023-05-23 | 北京百度网讯科技有限公司 | 一种三维重建方法、装置、设备和介质 |
-
2023
- 2023-05-09 CN CN202310513127.2A patent/CN116228994B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127633A (zh) * | 2019-12-20 | 2020-05-08 | 支付宝(杭州)信息技术有限公司 | 三维重建方法、设备以及计算机可读介质 |
CN115115805A (zh) * | 2022-07-21 | 2022-09-27 | 深圳市腾讯计算机***有限公司 | 三维重建模型的训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116228994A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325851B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
WO2020228525A1 (zh) | 地点识别及其模型训练的方法和装置以及电子设备 | |
CN112085840B (zh) | 语义分割方法、装置、设备及计算机可读存储介质 | |
CN109255830A (zh) | 三维人脸重建方法和装置 | |
Wang et al. | 3d lidar and stereo fusion using stereo matching network with conditional cost volume normalization | |
JP2023545199A (ja) | モデル訓練方法、人体姿勢検出方法、装置、デバイスおよび記憶媒体 | |
CN110610486B (zh) | 单目图像深度估计方法及装置 | |
CN116310076A (zh) | 基于神经辐射场的三维重建方法、装置、设备及存储介质 | |
CN115222917A (zh) | 三维重建模型的训练方法、装置、设备及存储介质 | |
CN115272599A (zh) | 一种面向城市信息模型的三维语义地图构建方法 | |
CN117456136A (zh) | 一种基于多模态视觉识别的数字孪生场景智能生成方法 | |
CN114494395A (zh) | 基于平面先验的深度图生成方法、装置、设备及存储介质 | |
CN116051699B (zh) | 动捕数据的处理方法、装置、设备及存储介质 | |
CN116228994B (zh) | 三维模型获取方法、装置、设备及存储介质 | |
CN116402943A (zh) | 基于符号距离场的室内三维重建方法和装置 | |
Cai et al. | Automatic generation of Labanotation based on human pose estimation in folk dance videos | |
CN116433852B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN114842071B (zh) | 一种图像视角自动转化方法 | |
CN117392297A (zh) | 三维模型重建方法、装置、设备及存储介质 | |
Liang et al. | Simulation-based machine learning training data generation system | |
US11562504B1 (en) | System, apparatus and method for predicting lens attribute | |
CN117218278A (zh) | 三维模型的重建方法、装置、设备及存储介质 | |
CN116740300B (zh) | 一种基于多模态的素体与纹理融合家具模型重建方法 | |
CN116524106A (zh) | 一种图像标注方法、装置、设备及存储介质、程序产品 | |
He | Research on outdoor garden scene reconstruction based on PMVS Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40088261 Country of ref document: HK |