CN117078867A - 一种三维重建的方法、装置、存储介质及电子设备 - Google Patents
一种三维重建的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117078867A CN117078867A CN202311330012.6A CN202311330012A CN117078867A CN 117078867 A CN117078867 A CN 117078867A CN 202311330012 A CN202311330012 A CN 202311330012A CN 117078867 A CN117078867 A CN 117078867A
- Authority
- CN
- China
- Prior art keywords
- model
- target
- dimensional
- reconstruction
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004088 simulation Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 80
- 238000004590 computer program Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 description 22
- 239000013598 vector Substances 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012512 characterization method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000010755 BS 2869 Class G Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本申请的一些实施例提供了一种三维重建的方法、装置、存储介质及电子设备,该方法包括:确定对目标对象三维重建的重建参数,其中,所述目标对象包括:目标图片和/或目标语句,所述重建参数包括:三维格式和目标模拟比例;将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型中,输出所述目标对象的目标三维模型,其中,所述目标三维重建模型包括:第一生成模型和/或第二生成模型。本申请的一些实施例可以提升三维建模的效率和效果。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种三维重建的方法、装置、存储介质及电子设备。
背景技术
随着渲染技术的不断发展,图像的三维建模技术的需要也逐渐增加。
目前,在对图像进行三维重建时,通过对图像的特征进行分析重建三维模型。由于图像的形式各种各样,通过特征分析的方式工作量较大,三维重建的效率较低。
因此,如何提供一种高效的三维重建的方法的技术方案成为亟需解决的技术问题。
发明内容
本申请的一些实施例的目的在于提供一种三维重建的方法、装置、存储介质及电子设备,通过本申请的实施例的技术方案可以提升对单张图片进行三维重建的效率和效果。
第一方面,本申请的一些实施例提供了一种三维重建的方法,包括:确定对目标对象三维重建的重建参数,其中,所述目标对象包括:目标图片和/或目标语句,所述重建参数包括:三维格式和目标模拟比例;将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型,输出所述目标图片的目标三维模型,其中,所述目标三维重建模型包括:第一生成模型和/或第二生成模型。
本申请的一些实施例通过确定目标对象的重建参数后,通过将目标对象输入到对应的目标三维重建模型中,得到目标对象对应的目标三维模型,实现了对单张图片和/或目标语句进行三维重建,效率较高,重建效果较好,进而提升后续工作效率。
在一些实施例,在所述将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型中之前,所述方法还包括:基于预先训练的目标生成模型,利用第一训练数据集对初始重建模型进行训练,获取所述第一生成模型;和/或,基于所述目标生成模型,利用第二训练数据集对初始语言模型进行训练,获取所述第二生成模型;其中,所述目标生成模型是通过所述第一训练数据集对初始生成模型进行预先训练得到的,所述目标生成模型包括:解码器、模拟比例和网络估计器。
本申请的一些实施例通过训练数据集、目标生成模型可以对初始重建模型和初始语言模型进行训练得到第一生成模型和第二生成模型,为后续三维重建提供有效的模型支持。
在一些实施例,所述第一训练数据集中包括:多个三维模型样本以及所述多个三维模型样本中每个三维模型样本对应的多张图片;所述第二训练数据集中包括:所述多个三维模型样本以及所述多个三维模型样本中每个三维模型样本对应的标签信息。
本申请的一些实施例通过第一训练集和第二训练集可以为模型训练提供有效的数据支持。
在一些实施例,所述基于预先训练的目标生成模型,利用第一训练数据集对初始重建模型进行训练,获取所述第一生成模型,包括:将所述多张图片中每张图片对应的每个三维模型样本输入至所述目标生成模型,得到第一预测结果;将所述每个三维模型样本对应的多张图片分别输入至所述初始重建模型,并基于所述目标生成模型,生成第二预测结果;利用所述第一预测结果和所述第二预测结果,优化所述初始重建模型,得到所述第一生成模型。
在一些实施例,所述基于所述目标生成模型,利用第二训练数据集对初始语言模型进行训练,获取所述第二生成模型,包括:将所述每个三维模型样本对应的标签信息输入至所述初始语言模型,并基于所述目标生成模型,得到第三预测结果;利用所述第一预测结果和所述第三预测结果,优化所述初始语言模型,得到所述第二生成模型。
在一些实施例,所述多个三维模型样本的表征方式为点云、体素、网格或符号距离函数SDF。
本申请的一些实施例可以支持多种形式的三维模型样本,适应性较广。
在一些实施例,所述将所述多张图片中每张图片对应的每个三维模型样本输入至所述目标生成模型,得到第一预测结果,包括:对所述每个三维模型样本进行缩放处理,以使所述每个三维模型样本的包围盒的尺寸满足设定阈值;按照预设尺寸对所述每个三维模型样本的包围盒进行切分,获得所述每个三维模型样本对应的模型样本块;通过所述模型样本块生成所述第一预测结果。
本申请的一些实施例通过输入到目标生成模型中,对每个三维模型样本进行处理生成第一预测结果,可以为模型训练提供支持。
第二方面,本申请的一些实施例提供了一种三维重建的装置,包括:参数确定模块,用于确定对目标对象三维重建的重建参数,其中,所述目标对象包括:目标图片和/或目标语句,所述重建参数包括:三维格式和目标模拟比例;模型重建模块,用于将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型中,输出所述目标对象的目标三维模型,其中,所述目标三维重建模型包括:第一生成模型和/或第二生成模型。
第三方面,本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。
第四方面,本申请的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。
第五方面,本申请的一些实施例提供一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的方法。
附图说明
为了更清楚地说明本申请的一些实施例的技术方案,下面将对本申请的一些实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请的一些实施例提供的一种三维重建的***图;
图2为本申请的一些实施例提供的网络模型结构示意图之一;
图3为本申请的一些实施例提供的网络模型结构示意图之二;
图4为本申请的一些实施例提供的网络模型结构示意图之三;
图5为本申请的一些实施例提供的一种三维重建的方法流程图;
图6为本申请的一些实施例提供的一种三维重建的装置组成框图;
图7为本申请的一些实施例提供的一种电子设备示意图。
具体实施方式
下面将结合本申请的一些实施例中的附图,对本申请的一些实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
相关技术中,在电影、游戏等行业中,三维模型创作过程是非常耗时的,占据了项目大部分成本。因此,如何提升三维模型重建的效率,降低成本为现有技术中存在的问题。
鉴于此,本申请的一些实施例提供了一种三维重建的方法,该方法在选择确定好目标对象的三维重建的重建参数后,可以将目标对象输入至相匹配的目标三维重建模型中,得到目标对象对应的目标三维模型。本申请的一些实施例可以通过重建参数选取对应的目标三维重建模型,适应性较广;同时通过目标三维重建模型对目标对象进行三维重建的效率较高且效果较好,保证了后续的工作效率。
下面结合附图1示例性阐述本申请的一些实施例提供的三维重建的***的整体组成结构。
如图1所示,本申请的一些实施例提供了一种三维重建的***,该三维重建的***包括:终端100和处理服务器200。终端100可以将需要进行三维重建的目标对象发送至处理服务器200,以及用户可以在终端100上选择重建参数并发送至处理服务器200。处理服务器200可以通过重建参数匹配对应的目标三维重建模型,将目标对象输入至目标三维重建模型,得到目标对象的目标三维模型,并发送至终端100,以显示给用户。
在本申请的一些实施例中,终端100可以是移动终端,也可以为非便携的电脑终端,本申请的实施例在此不作具体限定。
在本申请的一些实施例中,目标对象可以是目标图片,也可以是目标语句,还可以是目标图片+目标语句的组合。一种实施方式中,当目标对象为目标图片时,目标三维重建模型为预先训练得到的第一生成模型。一种实施方式中,当目标对象为目标语句时,目标三维重建模型为预先训练得到的第二生成模型。另一种实施方式中,当目标对象为目标图片+目标语句的组合时,目标三维重建模型为第一生成模型+第二生成模型,通过两者相互修正补充,得到最终的目标三维模型。具体的,可以根据实际情况进行选择重建方法,本申请实施例在此不作具体限定。
为了实现对目标对象的快速三维重建,首先需要对相关模型进行训练,得到目标三维重建模型,因此,下面结合附图2示例性阐述本申请的一些实施例提供的由处理服务器200执行的获取目标三维重建模型的实现过程。由上文可知,目标三维重建模型包括第一生成模型和/或第二生成模型,且第一生成模型和第二生成模型的训练过程均与目标生成模型相关,因此,下面首先示例性阐述目标生成模型的获取过程。
请参见附图2,图2为本申请的一些实施例提供的获取目标生成模型的结构图。
在本申请的一些实施例中,三维重建的方法还包括:训练目标生成模型。其中,目标生成模型是通过第一训练数据集对初始生成模型进行预先训练得到的。目标生成模型包括:解码器、模拟比例和网络估计器。其中,第一训练数据集中包括:多个三维模型样本以及多个三维模型样本中每个三维模型样本对应的多张图片。
例如,在本申请的一些实施例中,初始生成模型可以采用VQ-VAE(VectorQuantized Variational Autoencoder,或称为3D-VQ-VAE)网络结构模型。如图2所示,该VQ-VAE包括编码器、解码器和一个Transformer。通过训练数据集对VQ-VAE进行训练,在训练过程中可以通过损失函数(如重建损失、目标损失等)进行优化,得到训练好的VQ-VAE的解码器、Codebook(作为模拟比例的一个具体示例)和Transformer(作为网络估计器的一个具体示例)。
例如,作为本申请的一个具体示例,训练的具体过程包括:如图2所示的过程1→2→3→4→5→6,通过VQ-VAE将输入的3D(即三维)模型样本(如图2的汽车模型)首先进行分块处理,然后输入到编码器、Transformer和解码器,生成预测模型样本(即图2中的生成3D模型)。通过预测模型样本和3D模型样本对应的完整模型进行对比,通过像素对比L2损失函数+Transformer损失函数(也就是交叉熵损失函数+L2正则化损失,并通过掩码方式训练)进行训练调优,得到训练好的解码器、Codebook和Transformer。其中,训练好的Codebook部分为编码部分,其输出的是隐藏向量,其可以模拟生成45%、65%或85%等不同比例的覆盖率的三维模型,比例越低,生成的三维模型的多样性越大。而剩余的三维模型的比例由训练好的Transformer预测生成。例如,训练好的Codebook模拟生成85%,则训练好的Transformer预测的是剩余的15%。在实际应用中,模拟生成的比例(或称为模拟比例)可以根据实际情况进行设定,本申请实施例在此不作具体限定。
另外,在本申请的另一些实施例中,3D-VQ-VAE的解码器中的卷积神经网络CNN(Convolutional Neural Networks,卷积神经网络)可以替换为FCN(Fully ConvolutionalNetworks,全卷积神经网络),此时可以不通过预设阈值调整3D模型样本。
下面示例性阐述第一生成模型的获取过程。
在本申请的一些实施例中,获取第一生成模型的方法包括:
S1,获取第一训练数据集。
在本申请的一些实施例中,第一训练数据集中包括:多个三维模型样本以及所述多个三维模型样本中每个三维模型样本对应的多张图片。其中,多个三维模型样本的表征方式为点云、体素、网格或符号距离函数SDF。
例如,在本申请的一些实施例中,首先需要准备第一训练数据集,数据集中的三维(3D)模型样本的表征方式可以是:点云、体素、Mesh(即网格)或有符号距离函数(SDF,Signed Distance Field)等。在实际中,训练模型时的输入数据是成对的,图片+3D模型样本,这两个是一一对应的,即一个3D模型样本,对应不同角度或细节不同的图片。
具体的,可以采集不同表征方式下的多个模型样本(也就是3D模型样本),对于每种表征方式下的模型样本,分别生成6张侧面单视图(如,每45度一张,作为多张图片的一个具体示例)。每种表征方式下的模型样本数据准备2万个3D模型,以及对应的12万张图片(共计48万张图)。具体的,三维模型样本的数量可以根据实际情况进行设定,本申请实施例并不局限于此。
S2,基于预先训练的目标生成模型,利用第一训练数据集对初始重建模型进行训练,获取所述第一生成模型。
例如,在本申请的一些实施例中,通过如图3所示的网络模型结构进行训练,得到第一生成模型。其中,图3中的网络模型结构包括:残差网络和上卷积构成的初始重建模型,以及训练好的目标生成模型中的Codebook(即图3中的组合)、Transformer和解码器。
在本申请的一些实施例中,S2可以包括:S21,将所述多张图片中每张图片对应的每个三维模型样本输入至所述目标生成模型,得到第一预测结果;S22,将所述每个三维模型样本对应的多张图片分别输入至所述初始重建模型,并基于所述目标生成模型,生成第二预测结果;S23,利用所述第一预测结果和所述第二预测结果,优化所述初始重建模型,得到所述第一生成模型。
例如,在本申请的一些实施例中,将第一训练数据集中的每张图片对应的三维模型样本输入到目标生成模型中生成第一预测结果Z,每张图片输入到图3所示的网络模型中得到第二预测结果Z’,通过计算Z和Z’间的损失,优化由残差网络和上卷积网络组成的初始重建模型,得到第一生成模型。其中,“输入3D模型”与“输入图片”是对应的关系,比如3D模型是汽车,那么输入图片也应该是这个汽车的输入图片,以便训练网络。例如,如图3所示的训练过程包括:7→8→9→5→6,即:将图片对应的3D模型样本输入到目标生成模型中生成Z。将图片输入到图3中的网络模型中,通过上述训练好的Codebook,生成Z’。通过损失函数计算Z’和Z之间的损失,优化初始重建模型,当训练次数达到上限或收敛到预设值则输出训练好的模型,得到第一生成模型。需要说明的是,图3中的过程5输出的特征向量是完整的,比如6464个特征向量;而通过Codebook生成的特征向量是有限的,比如32/>32。而Transformer的作用就是利用这个32/>32的特征向量,来估计64/>64的特征向量,从而完成特征的估计。也就是说,本申请实施例通过训练好的目标生成模型辅助训练由残差网络和上卷积网络组成的初始重建模型,得到最终的第一生成模型。
在本申请的一些实施例中,S21还可以包括:对所述每个三维模型样本进行缩放处理,以使所述每个三维模型样本的包围盒的尺寸满足设定阈值;按照预设尺寸对所述每个三维模型样本的包围盒进行切分,获得所述每个三维模型样本对应的模型样本块;通过所述模型样本块生成所述第一预测结果。
例如,在本申请的一些实施例中,上文图2中的分块以及S21中得到Z的过程中的切分过程具体可以包括:目标生成模型可以通过缩放使输入的3D模型的包围盒尽量靠近某个值(比如128128/>128,作为设定阈值的一个具体示例),以便让输入模型的尺寸保持一致。具体的,设定阈值可以根据实际情况进行设定,本申请实施例在此不作具体限定。之后,按照一定长宽高(比如1/>1/>1,作为预设尺寸的一个具体示例),把包围盒切分成若干个小块,得到3D模型样本。例如,拆分成512个Patches。具体拆分方法可以包括:比如,按照8/>8/>8对包围盒进行拆分;比如,先用64/>64/>64对包围盒进行拆分,删除无效分块,然后相邻8个分块合并成一个最终的Patches,外层不够8个的,需要自动补全,最终形成512个分块等等;比如,先用1个大的包围盒,把模型包裹起来,然后拆分成8块,删除无用分块;然后每块再拆分成8块,删除无用分块;然后每块再拆分成8块,删除无用分块;然后每块再拆分成8块,删除无用分块;然后再向上合并,相邻8块合并成一块,不够的需要填补进来,最终形成8/>8/>8的结构,一共512块。具体的可以根据实际情况选择拆分方式,本申请实施例并不局限于此。
下面示例性阐述第二生成模型的获取过程。
在本申请的一些实施例中,获取第二生成模型的方法包括:
S3,获取第二训练数据集。
在本申请的一些实施例中,第二训练数据集中包括:所述多个三维模型样本以及所述多个三维模型样本中每个三维模型样本对应的标签信息。
例如,在本申请的一些实施例中,每个三维模型样本分别给定三级语句标签(作为标签信息的一个具体示例)。如,第一级是类别标签(比如椅子、桌子、房子、汽车等实体);第二级为关键信息标签,也就是实体的描述关键信息(比如黄色椅子、三条腿椅子、木质椅子等);第三级为细节标签,描述具体细节(比如,黄色椅子上放置有坐垫、箱体等)。和第一训练数据集一样准备2万个3D模型,以及对应的6万个标签(共计24万个标签)。在训练中,输入数据是成对的,即:三级语句标签+3D模型样本,这两个是对应的(训练时是一对多的,即一个模型,对应不同标签的语句)。
S4,基于所述目标生成模型,利用第二训练数据集对初始语言模型进行训练,获取所述第二生成模型。
例如,在本申请的一些实施例中,通过如图4所示的网络模型结构进行训练,得到第二生成模型。其中,图4中的网络模型结构包括:BERT模型和上卷积构成的初始语言模型,以及训练好的目标生成模型中的Codebook(即图4中的组合)、Transformer和解码器。
在本申请的一些实施例中,S4可以包括:将所述每个三维模型样本对应的标签信息输入至所述初始语言模型,并基于所述目标生成模型,得到第三预测结果;利用所述第一预测结果和所述第三预测结果,优化所述初始语言模型,得到所述第二生成模型。
例如,在本申请的一些实施例中,将第二训练数据集中的标签信息输入到图4所示的网络模型中,生成第三预测结果Z’’,利用Z’’以及S21得到的Z进行损失计算,优化图4中的初始语言模型,得到符合要求的第二生成模型。例如,如图4所示的训练过程包括:10→11→12→5→6,即:图4中的一个标签信息为“一辆黑色梅赛德斯-奔驰G级越野车”,经过训练过程11→12→5→6对应的生成如图4所示的3D模型Z’’。使用已经训练好的Transformer、VQ-VAE的解码器和Codebook,来训练图4中的上卷积(BERT是已经训练好的)。其中,训练过程中的损失函数是生成3D模型Z’’的像素对比L2损失函数。
需要说明的是,上文提供的训练过程可以适用于训练采用不同表征形式的模型对应的目标三维重建模型。也就是说,3D模型数据的表示方法可以是点云、体素、网格、SDF等,一种表示方法对应一个目标三维重建模型。其中,每种表示方法均对应有不同的Codebook、Transformer和VQ-VAE解码器。例如,3D模型样本的表征形式为点云,此时通过该表征形式的训练数据集训练得到的目标三维重建模型的作用为生成点云形式的目标三维模型。因此,在处理服务器200中可以通过上述训练过程单独训练得到点云形式的目标三维模型、体素形式的目标三维模型、网格形式的目标三维模型以及SDF形式的目标三维模型等并存储在本地的模型库中。也就是说,本地的模型库中存储有多个网络结构相同的训练好的模型,但是模型的参数均不相同,可以支持生成各种数据格式(如点云、体素、网格、SDF等)的目标三维模型。
下面结合附图5示例性阐述本申请的一些实施例提供的三维重建的具体过程。
请参见附图5,图5为本申请的一些实施例提供的一种三维重建的方法流程图,该三维重建的方法包括:
S510,确定对目标对象三维重建的重建参数,其中,所述目标对象包括:目标图片和/或目标语句,所述重建参数包括:三维格式和目标模拟比例。
例如,在本申请的一些实施例中,用户可以在终端100输入或选择对目标对象三维重建后需要输出的3D模型数据格式(作为三维格式的一个具体示例),选择目标模拟比例(例如,85%),并发送给处理服务器200。其中,目标对象可以的单张图片(作为目标图片的一个具体示例),也可以是目标语句,即包含有三级语句标签的一段话,亦或是单张图片+三级语句标签的组合形式。本申请实施例在此不作具体限定。
S520,将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型中,输出所述目标对象的目标三维模型,其中,所述目标三维重建模型包括:第一生成模型和/或第二生成模型。
例如,在本申请的一些实施例中,处理服务器200可以根据目标对象的类型、3D模型数据格式和目标模拟比例从本地的模型库中匹配对应的目标三维重建模型。其中,目标三维重建模型是通过上文提供的训练方法预先训练得到并存储到模型库中的。例如,目标对象为单张图片、3D模型数据格式为点云、目标模拟比例为85%,此时从本地的模型库中匹配到的是可以生成点云形式的第一生成模型。
例如,作为本申请的另一个具体示例,目标对象为单张图片+三级语句标签的组合形式,3D模型数据格式为点云、目标模拟比例为85%,此时从本地的模型库中匹配到的是可以生成点云形式的第一生成模型和第二生成模型。通过将单张图片输入至第一生成模型得到第一生成3D模型,将三级语句标签输入到第二生成模型得到第二生成3D模型。最后,利用第一生成3D模型对第二生成3D模型进行细节修正得到目标三维模型;或者,利用第二生成3D模型对第一生成3D模型进行细节修正得到目标三维模型。例如,单张图片为一张方桌,通过第一生成模型可以得到桌子3D模型(也就是第一生成3D模型)。三级语句标签为一张放置有圆柱形花瓶的方桌,通过第二生成模型可以得到放置圆柱形花瓶方桌3D模型(也就是第二生成3D模型)。通过放置圆柱形花瓶方桌3D模型对桌子3D模型进行修正,得到放置有花瓶的桌子3D模型(也就是目标三维模型)。
在本申请的一些实施例中,S520可以包括:所述将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型中,输出所述目标对象的目标三维模型,包括:将所述目标对象输入至所述目标三维重建模型中后,基于所述目标模拟比例生成对应的隐藏特征向量,同时通过网络估计器预测剩余特征向量;解码器基于所述隐藏特征向量和所述剩余特征向量,得到所述目标三维模型。
例如,在本申请的一些实施例中,目标三维重建模型中含有训练好的Codebook(作为目标模拟比例的一个具体示例)、训练好的Transformer(作为网络估计器的一个具体示例)。目标对象输入至目标三维重建模型后,首先通过Codebook生成最终输出的目标三维模型的85%的隐藏特征向量,剩余15%的部分由训练好的Transformer预测生成预测剩余特征向量,最终两个向量综合生成目标3D模型(也就是目标三维模型)。应理解,目标模拟比例越小,生成的目标3D模型的多样性越好;目标模拟比例越大,生成的目标3D模型越像目标对象。
请参考图6,图6示出了本申请的一些实施例提供的三维重建的装置的组成框图。应理解,该三维重建的装置与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该三维重建的装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
图6的三维重建的装置包括至少一个能以软件或固件的形式存储于存储器中或固化在三维重建的装置中的软件功能模块,该三维重建的装置包括:参数确定模块610,用于确定对目标对象三维重建的重建参数,其中,所述目标对象包括:目标图片和/或目标语句,所述重建参数包括:三维格式和目标模拟比例;模型重建模块620,用于将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型中,输出所述目标对象的目标三维模型,其中,所述目标三维重建模型包括:第一生成模型和/或第二生成模型。
在本申请的一些实施例中,在模型重建模块620之前,三维重建的装置还包括训练模块(图中未示出),用于基于预先训练的目标生成模型,利用第一训练数据集对初始重建模型进行训练,获取所述第一生成模型;和/或,基于所述目标生成模型,利用第二训练数据集对初始语言模型进行训练,获取所述第二生成模型;其中,所述目标生成模型是通过所述第一训练数据集对初始生成模型进行预先训练得到的,所述目标生成模型包括:解码器、模拟比例和网络估计器。
在本申请的一些实施例中,所述第一训练数据集中包括:多个三维模型样本以及所述多个三维模型样本中每个三维模型样本对应的多张图片;所述第二训练数据集中包括:所述多个三维模型样本以及所述多个三维模型样本中每个三维模型样本对应的标签信息。
在本申请的一些实施例中,训练模块,用于将所述多张图片中每张图片对应的每个三维模型样本输入至所述目标生成模型,得到第一预测结果;将所述每个三维模型样本对应的多张图片分别输入至所述初始重建模型,并基于所述目标生成模型,生成第二预测结果;利用所述第一预测结果和所述第二预测结果,优化所述初始重建模型,得到所述第一生成模型。
在本申请的一些实施例中,将所述每个三维模型样本对应的标签信息输入至所述初始语言模型,并基于所述目标生成模型,得到第三预测结果;利用所述第一预测结果和所述第三预测结果,优化所述初始语言模型,得到所述第二生成模型。
在本申请的一些实施例中,所述多个三维模型样本的表征方式为点云、体素、网格或符号距离函数SDF。
在本申请的一些实施例中,训练模块,用于对所述每个三维模型样本进行缩放处理,以使所述每个三维模型样本的包围盒的尺寸满足设定阈值;按照预设尺寸对所述每个三维模型样本的包围盒进行切分,获得所述每个三维模型样本对应的模型样本块;通过所述模型样本块生成所述第一预测结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本申请的一些实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
本申请的一些实施例还提供了一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
如图7所示,本申请的一些实施例提供一种电子设备700,该电子设备700包括:存储器710、处理器720以及存储在存储器710上并可在处理器720上运行的计算机程序,其中,处理器720通过总线730从存储器710读取程序并执行所述程序时可实现如上述任意实施例的方法。
处理器720可以处理数字信号,可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中,处理器720可以是微处理器。
存储器710可以用于存储由处理器720执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码,用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器720可以用于执行存储器710中的指令以实现上述所示的方法。存储器710包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种三维重建的方法,其特征在于,包括:
确定对目标对象三维重建的重建参数,其中,所述目标对象包括:目标图片和/或目标语句,所述重建参数包括:三维格式和目标模拟比例;
将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型中,输出所述目标对象的目标三维模型,其中,所述目标三维重建模型包括:第一生成模型和/或第二生成模型。
2.如权利要求1所述的方法,其特征在于,在所述将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型中之前,所述方法还包括:
基于预先训练的目标生成模型,利用第一训练数据集对初始重建模型进行训练,获取所述第一生成模型;和/或,
基于所述目标生成模型,利用第二训练数据集对初始语言模型进行训练,获取所述第二生成模型;
其中,所述目标生成模型是通过所述第一训练数据集对初始生成模型进行预先训练得到的,所述目标生成模型包括:解码器、模拟比例和网络估计器。
3.如权利要求2所述的方法,其特征在于,所述第一训练数据集中包括:多个三维模型样本以及所述多个三维模型样本中每个三维模型样本对应的多张图片;所述第二训练数据集中包括:所述多个三维模型样本以及所述多个三维模型样本中每个三维模型样本对应的标签信息。
4.如权利要求3所述的方法,其特征在于,所述基于预先训练的目标生成模型,利用第一训练数据集对初始重建模型进行训练,获取所述第一生成模型,包括:
将所述多张图片中每张图片对应的每个三维模型样本输入至所述目标生成模型,得到第一预测结果;
将所述每个三维模型样本对应的多张图片分别输入至所述初始重建模型,并基于所述目标生成模型,生成第二预测结果;
利用所述第一预测结果和所述第二预测结果,优化所述初始重建模型,得到所述第一生成模型。
5.如权利要求4所述的方法,其特征在于,所述基于所述目标生成模型,利用第二训练数据集对初始语言模型进行训练,获取所述第二生成模型,包括:
将所述每个三维模型样本对应的标签信息输入至所述初始语言模型,并基于所述目标生成模型,得到第三预测结果;
利用所述第一预测结果和所述第三预测结果,优化所述初始语言模型,得到所述第二生成模型。
6.如权利要求3-5中任一项所述的方法,其特征在于,所述多个三维模型样本的表征方式为点云、体素、网格或符号距离函数SDF。
7.如权利要求4或5所述的方法,其特征在于,所述将所述多张图片中每张图片对应的每个三维模型样本输入至所述目标生成模型,得到第一预测结果,包括:
对所述每个三维模型样本进行缩放处理,以使所述每个三维模型样本的包围盒的尺寸满足设定阈值;
按照预设尺寸对所述每个三维模型样本的包围盒进行切分,获得所述每个三维模型样本对应的模型样本块;
通过所述模型样本块生成所述第一预测结果。
8.一种三维重建的装置,其特征在于,包括:
参数确定模块,用于确定对目标对象三维重建的重建参数,其中,所述目标对象包括:目标图片和/或目标语句,所述重建参数包括:三维格式和目标模拟比例;
模型重建模块,用于将所述目标对象输入至与所述重建参数相匹配的目标三维重建模型中,输出所述目标对象的目标三维模型,其中,所述目标三维重建模型包括:第一生成模型和/或第二生成模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器运行时执行如权利要求1-7中任意一项权利要求所述的方法。
10.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器运行时执行如权利要求1-7中任意一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330012.6A CN117078867B (zh) | 2023-10-16 | 2023-10-16 | 一种三维重建的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330012.6A CN117078867B (zh) | 2023-10-16 | 2023-10-16 | 一种三维重建的方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117078867A true CN117078867A (zh) | 2023-11-17 |
CN117078867B CN117078867B (zh) | 2023-12-12 |
Family
ID=88717449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311330012.6A Active CN117078867B (zh) | 2023-10-16 | 2023-10-16 | 一种三维重建的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078867B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714262A (zh) * | 2009-12-10 | 2010-05-26 | 北京大学 | 单幅图像的三维场景重建方法 |
CN110599592A (zh) * | 2019-09-12 | 2019-12-20 | 北京工商大学 | 一种基于文本的三维室内场景重建方法 |
WO2023077816A1 (zh) * | 2021-11-03 | 2023-05-11 | 中国华能集团清洁能源技术研究院有限公司 | 边界优化的遥感图像语义分割方法、装置、设备及介质 |
CN116310148A (zh) * | 2023-05-17 | 2023-06-23 | 山东捷瑞数字科技股份有限公司 | 一种数字孪生三维场景构建方法、装置、设备及介质 |
CN116597087A (zh) * | 2023-05-23 | 2023-08-15 | 中国电信股份有限公司北京研究院 | 三维模型生成方法及装置、存储介质及电子设备 |
-
2023
- 2023-10-16 CN CN202311330012.6A patent/CN117078867B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714262A (zh) * | 2009-12-10 | 2010-05-26 | 北京大学 | 单幅图像的三维场景重建方法 |
CN110599592A (zh) * | 2019-09-12 | 2019-12-20 | 北京工商大学 | 一种基于文本的三维室内场景重建方法 |
WO2023077816A1 (zh) * | 2021-11-03 | 2023-05-11 | 中国华能集团清洁能源技术研究院有限公司 | 边界优化的遥感图像语义分割方法、装置、设备及介质 |
CN116310148A (zh) * | 2023-05-17 | 2023-06-23 | 山东捷瑞数字科技股份有限公司 | 一种数字孪生三维场景构建方法、装置、设备及介质 |
CN116597087A (zh) * | 2023-05-23 | 2023-08-15 | 中国电信股份有限公司北京研究院 | 三维模型生成方法及装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117078867B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110612538B (zh) | 生成输入数据项的离散潜在表示 | |
US10565792B2 (en) | Approximating mesh deformations for character rigs | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
US11978268B2 (en) | Convex representation of objects using neural network | |
CN117454495B (zh) | 一种基于建筑草图轮廓序列的cad矢量模型生成方法及装置 | |
US11893687B2 (en) | Segmenting a 3D modeled object representing a mechanical assembly | |
KR102662672B1 (ko) | 3d 객체의 다각형 메쉬들을 생성하기 위한 자동 회귀 신경망 | |
US11403807B2 (en) | Learning hybrid (surface-based and volume-based) shape representation | |
CN116824092B (zh) | 三维模型生成方法、装置、计算机设备和存储介质 | |
Sheng et al. | A lightweight surface reconstruction method for online 3D scanning point cloud data oriented toward 3D printing | |
CN113487529A (zh) | 一种基于Yolo的气象卫星云图目标检测方法 | |
CN112185477A (zh) | 分子特征的提取及三维定量构效关系的计算方法及装置 | |
CN117788629B (zh) | 一种具有风格个性化的图像生成方法、装置及存储介质 | |
Gao et al. | Tetgan: A convolutional neural network for tetrahedral mesh generation | |
CN112800144A (zh) | 多粒度时空对象的生成方法及装置 | |
CN117078867B (zh) | 一种三维重建的方法、装置、存储介质及电子设备 | |
CN116958325A (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
Li et al. | Progressive compression and transmission of 3D model with WebGL | |
CN115661340A (zh) | 一种基于源信息融合的三维点云上采样方法与*** | |
CN116883524A (zh) | 图像生成模型训练、图像生成方法、装置和计算机设备 | |
Wang | [Retracted] Optimization of Three‐Dimensional Model of Landscape Space Based on Big Data Analysis | |
CN117853678B (zh) | 基于多源遥感进行地理空间数据三维实体化改造的方法 | |
CN116957991B (zh) | 三维模型补全方法 | |
CN117541703B (zh) | 一种数据渲染方法、装置、设备及计算机可读存储介质 | |
Li | Design of 3D Image Visual Communication System for Automatic Reconstruction of Digital Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |