CN114493995A - 图像渲染模型训练、图像渲染方法及装置 - Google Patents
图像渲染模型训练、图像渲染方法及装置 Download PDFInfo
- Publication number
- CN114493995A CN114493995A CN202210050988.7A CN202210050988A CN114493995A CN 114493995 A CN114493995 A CN 114493995A CN 202210050988 A CN202210050988 A CN 202210050988A CN 114493995 A CN114493995 A CN 114493995A
- Authority
- CN
- China
- Prior art keywords
- density
- target scene
- image
- initial
- image rendering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 211
- 238000012549 training Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000005070 sampling Methods 0.000 claims abstract description 140
- 239000011159 matrix material Substances 0.000 claims abstract description 94
- 210000005036 nerve Anatomy 0.000 claims abstract description 43
- 230000005855 radiation Effects 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229960001948 caffeine Drugs 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- RYYVLZVUVIJVGH-UHFFFAOYSA-N trimethylxanthine Natural products CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/08—Projecting images onto non-planar surfaces, e.g. geodetic screens
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Graphics (AREA)
- Image Generation (AREA)
Abstract
本发明提供一种图像渲染模型训练、图像渲染方法及装置,所述模型训练方法包括:确定目标场景的多角度目标场景图;对多角度目标场景图进行投影重建,得到用于表征目标场景的3D场景密度的显式密度分布矩阵;对目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;基于初始渲染图像与多角度目标场景图之间的差异,以及各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异,对初始神经辐射场进行训练,得到图像渲染模型。本发明可以在不增加额外前向运算的基础上,加快损失函数的收敛,提高模型的训练速度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像渲染模型训练、图像渲染方法及装置。
背景技术
NeRF(Neural Radiance Fields)是一种深度渲染方法,其主要特点是场景隐式表达和图像的容积渲染。NeRF首先根据场景不同视角的图像学习到场景表征,再由表征生成任意指定角度的图像。
在根据场景不同视角的图像学习到场景表征后,若要生成任意指定角度的图像,则需要在场景表征中进行采样,并基于采样得到的体素进行图像渲染,得到渲染图像。
由于基于NeRF生成的容积内场景特征分布不均匀,为提高采样效率,NeRF采用二次采样的方法,具体为:先在一条投影线上先均匀采样64个体素,计算沿该射线的密度分布,然后根据该射线的密度分布,再在该射线采样128个样本。
由上述基于NeRF的采样方法可知,产生一幅投影渲染图像时需要对每个图像像素对应的射线上做几百次采样并进行相应的的实时计算,计算量较大,且非常耗时,同时在训练网络时需要对多幅场景图像多次迭代,计算量更是巨大。
发明内容
本发明提供一种图像渲染模型训练、图像渲染方法及装置,用以解决现有技术中图像渲染计算量较大且效率较低的缺陷。
本发明提供一种图像渲染模型训练方法,包括:
确定目标场景的多角度目标场景图;
对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵;
对所述目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;
基于所述初始渲染图像与所述多角度目标场景图之间的差异,以及各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异,对所述初始神经辐射场进行训练,得到图像渲染模型。
根据本发明提供的一种图像渲染模型训练方法,所述各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异基于如下步骤确定:
基于各区域采样点的密度,确定各区域的采样点密度均值;
基于各区域的采样点密度均值,与所述显式密度分布矩阵中对应区域的密度之间的差平方,确定各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异。
根据本发明提供的一种图像渲染模型训练方法,所述图像渲染模型的损失函数值基于如下公式计算得到:
其中,表示所述损失函数值,表示投影线r对应的初始渲染像素,C(r)表示投影线r对应的目标场景中的相应像素,表示迭代训练时所有投影线集合,表示所述区域k的采样点密度均值,ρ(k)表示所述显式密度分布矩阵中区域k的密度,表示显式密度分布矩阵中的分布区域集合。
根据本发明提供的一种图像渲染模型训练方法,所述对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵,包括:
将所述多角度目标场景图输入至容积渲染模型,由所述容积渲染模型对所述多角度目标场景图进行投影重建,得到所述显式密度分布矩阵;所述容积渲染模型基于所述多角度目标场景图训练得到。
根据本发明提供的一种图像渲染模型训练方法,所述容积渲染模型基于如下步骤训练得到:
将所述多角度目标场景图输入至容积渲染模型的初始模型,由所述初始模型对所述多角度目标场景图进行容积渲染,得到各角度目标场景图对应的初始容积渲染图像;
基于各角度目标场景图与各角度目标场景图对应的初始容积渲染图像之间的差异,对初始模型进行训练,得到所述容积渲染模型。
本发明还提供一种图像渲染方法,包括:
确定目标场景对应渲染图像的目标角度;
基于所述图像渲染模型,得到所述目标角度对应的渲染图像;
其中,所述图像渲染模型是基于如上任一项所述的图像渲染模型训练方法训练得到的。
本发明还提供一种图像渲染模型训练装置,包括:
第一确定单元,用于确定目标场景的多角度目标场景图;
投影重建单元,用于对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵;
体素采样单元,用于对所述目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;
模型训练单元,用于基于所述初始渲染图像与所述多角度目标场景图之间的差异,以及各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异,对所述初始神经辐射场进行训练,得到图像渲染模型。
本发明还提供一种图像渲染装置,包括:
第二确定单元,用于确定目标场景对应渲染图像的目标角度;
图像渲染单元,用于基于所述图像渲染模型,得到所述目标角度对应的渲染图像;
其中,所述图像渲染模型是基于如上任一项所述的图像渲染模型训练方法训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像渲染模型训练方法和/或所述图像渲染方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像渲染模型训练方法和/或所述图像渲染方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像渲染模型训练方法和/或所述图像渲染方法的步骤。
本发明提供的图像渲染模型训练、图像渲染方法及装置,由于各区域采样点的密度可以直接从各采样点中包含的体素特征中获取,显式密度分布矩阵中对应区域的密度可以直接从显式密度分布矩阵中读取,从而在确定各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异时不需要进行额外的前向运算。此外,本发明结合各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异以及初始渲染图像与多角度目标场景图之间的差异,对初始神经辐射场进行训练,实现在不增加额外前向运算的基础上,加快损失函数的收敛,提高模型的训练速度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的图像渲染模型训练方法的流程示意图;
图2是本发明提供的图像渲染方法的流程示意图;
图3是本发明提供的图像渲染模型训练装置的结构示意图;
图4是本发明提供的图像渲染装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
NeRF是一种深度渲染方法,其主要特点是场景隐式表达和图像的容积渲染。NeRF的基本思想是将目标场景看作3D的容积,训练一个神经网络来表征该场景。沿观察方向投影线对3D容积采样,由表征网络函数计算色彩特征并投影积分后,该方法就可生成渲染图像。
NeRF用神经辐射场来隐式表征场景的色彩特征。神经辐射场是一个深度神经网络。网络的输入是容积化场景体素点的三维位置坐标和观察相机的二维角度坐标,输出是对应五维坐标体素的色彩密度特征。
NeRF渲染首先根据场景不同视角的图像学习到场景表征,再由表征生成任意指定角度的图像。因此NeRF方法的实施可以分为两个步骤:场景表征的学习、场景的投影成像。
训练好的NeRF模型成为场景的3D表征函数。给定投影方向,就可以按照容积渲染步骤产生渲染图像,即三维体积保存的数据沿投影方向形成二维渲染图像。投影积分以RayMarching方式实现,包括四步组成:1.在投影图像上逐像素产生射线Ray cast;2.沿射线对容积的体素采样;3.获取/计算体素特性;4.累积体素特性计算投影图像的颜色灰度值。
其中,NeRF渲染中最重要一步是采样,每个采样点的颜色信息需要对NeRF的隐式神经网络函数前向计算来得到。由于容积内场景特征分布不均匀,为提高采样效率,NeRF采用二次采样的方法。NeRF方法在一条投影线上先均匀采样64个体素,计算沿该射线的密度分布。根据分布,NeRF再在该射线采样128个样本。
由前述的NeRF的具体采样方法可知,产生一幅投影图像时需要对每个图像像素对应的射线上做几百次采样和NeRF神经网络的实时计算,非常耗时,而在训练网络时需要对多幅场景图像多次迭代,计算量更是巨大。
对此,本发明提供一种图像渲染模型训练方法。图1是本发明提供的图像渲染模型训练方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、确定目标场景的多角度目标场景图;
步骤120、对多角度目标场景图进行投影重建,得到用于表征目标场景的3D场景密度的显式密度分布矩阵;
步骤130、对目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;
步骤140、基于初始渲染图像与多角度目标场景图之间的差异,以及各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异,对初始神经辐射场进行训练,得到图像渲染模型。
具体地,目标场景是3D场景,目标场景的多角度目标场景图指不同视角的目标场景对应的二维图像。在对多角度目标场景图进行投影重建后,可以得到显式密度分布矩阵,该显式密度矩阵可以是一个显式3D体素密度表征矩阵,用于表征目标场景的3D场景密度,且由于该矩阵是一个显式矩阵,从而可以直接从该矩阵中读取矩阵每个区域对应的3D场景密度信息。显式密度分布矩阵中包含有目标场景有效体素(如目标场景中的实体体素)的密度信息以及无效体素(如目标场景中的背景体素)的密度信息,且有效体素对应区域的密度大于无效体素对应区域的密度。
例如,在对多角度目标场景图进行投影重建后,得到64×64×64的显式密度分布矩阵为矩阵,则可以理解为显式密度分布矩阵被划分为64×64×64个格子区域,由于显式密度分布矩阵是一个显式矩阵,从而可以从显式密度分布矩阵中直接读取每个区域对应的密度信息。
同时,对目标场景的初始神经辐射场进行体素采样,具体可以是在投影方向对应的投影线上进行第一次均匀采样,然后根据均匀采样后的采样点计算得到投影线上的密度分布,再根据投影线上的密度分布在投影线上进行二次采样,得到体素采样后的各采样点。其中,各采样点的体素特征包含各采样点的密度与色值信息,而基于密度与色值,可以确定各采样点的体素色彩,进而基于体素色彩进行容积投影,得到初始渲染图像。
然而,上述初始渲染图像是经未训练完成的初始神经辐射场得到的,即得到的初始渲染图像是不准确的,因此本发明实施例基于初始渲染图像(目标场景的预测渲染图像)与多角度目标场景图(目标场景的真实图像)之间的差异,以及各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异,对初始神经辐射场进行训练,得到图像渲染模型,该图像渲染模型可以用来生成更多不同角度的场景渲染图像。
需要说明的是,传统方法中在对初始神经辐射场进行训练的过程中,需要对每次采样后的各采样点进行前向计算,得到对应的初始渲染图像,然后基于初始渲染图像与多角度目标场景图之间的差异,确定损失函数,并基于损失函数对初始神经辐射场进行迭代优化。然而,传统方法中在进行体素采样时,采用的是二次采样,即先在投影线上均匀采样,然后基于均匀采样的结果计算得到投影线上的密度分布,并基于密度分布在投影线上进行二次采样,从而整个过程涉及到几百次采样,然后针对每次采样后的各采样点进行前向计算,大幅度增加了计算量,进而导致图像渲染模型收敛速度较慢。
对此,本发明实施例除了基于初始渲染图像与多角度目标场景图之间的差异对初始神经辐射场进行训练外,还采用各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异对初始神经辐射场进行训练,若各区域采样点的密度与显式密度分布矩阵对应区域的密度之间的差异越小,则表明对应的采样点生成的初始渲染图像越贴近对应角度的目标场景图,当各区域采样点的密度与显式密度分布矩阵对应区域的密度之间的差异与前述的神经辐射场初始渲染图像与多角度目标场景图之间的差异之和足够小时,表明初始神经辐射场达到收敛条件,此时可以不必再进行体素采样,也就是减少了体素采样的次数,加快了初始神经辐射场的收敛。同时,本发明实施例结合各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异进行训练,可以避免传统方法需要针对每个角度的投影方向进行采样,并针对每次采样进行前向运算时过于精细训练导致产生随机偏差的问题。
此外,各区域采样点的密度是可以直接从体素采样后得到的各采样点的体素特征中获取得到,而不需要额外进行计算,且显式密度分布矩阵中对应区域的密度也是可以直接从显式密度分布矩阵中读取的,同样不需要额外进行计算,也就是基于各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异,以及初始渲染图像与多角度目标场景图之间的差异,对初始神经辐射场进行训练时,不仅能够加快神经辐射场的收敛,而且不需要进行额外的前向计算。
本发明实施例提供的图像渲染模型训练方法,由于各区域采样点的密度可以直接从各采样点中包含的体素特征中获取,显式密度分布矩阵中对应区域的密度可以直接从显式密度分布矩阵中读取,从而在确定各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异时不需要进行额外的前向运算。此外,本发明实施例结合各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异以及初始渲染图像与多角度目标场景图之间的差异,对初始神经辐射场进行训练,实现在不增加额外前向运算的基础上,加快损失函数的收敛,提高模型的训练速度。
基于上述实施例,各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异基于如下步骤确定:
基于各区域采样点的密度,确定各区域的采样点密度均值;
基于各区域的采样点密度均值,与显式密度分布矩阵中对应区域的密度之间的差平方,确定各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异。
具体地,各区域采样点的密度可以直接从体素采样后得到的采样点中的体素特征中获取,而不需要额外进行前向运算得到。每个区域可能包含多个采样点,对多个采样点的密度进行平均值计算,得到各区域的采样点密度均值。
同时,从显式密度分布矩阵中可以直接读取对应区域的密度信息,进而基于各区域的采样点密度均值,与显式密度分布矩阵中对应区域的密度,可以确定两者之间的差平方,并以该差平方表征两者之间的差异。两者之间的差平方越小,表明两者之间的差异越小,当两者之间的差异与初始渲染图像和多角度目标场景图之间的差异之和足够小时,表明初始神经辐射场达到收敛条件,此时可以不必再进行体素采样,也就是减少了体素采样的次数,从而不仅减少了每次采样后进行前向计算的计算量,而且加快了初始神经辐射场的收敛。
基于上述任一实施例,图像渲染模型的损失函数值基于如下公式计算得到:
其中,表示损失函数值,表示投影线r对应的初始渲染像素,C(r)表示投影线r对应的目标场景图中的相应像素,表示迭代训练时所有投影线集合,表示区域k的采样点密度均值,ρ(k)表示显式密度分布矩阵中区域k的密度,表示显式密度分布矩阵中的分布区域集合。
需要说明的是,在获取中的需要对投影线r上对应的每个采样点进行前向运算后渲染得到,计算量较大。若没有对初始神经辐射场进行监督训练,则需要在投影线r上进行多次采样,并针对每次采样后进行前向运算,不仅计算量较大,而且还会减慢损失函数的收敛速度。因此,本发明实施例基于初始渲染图像与多角度目标场景图之间的差异,以及各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异确定损失函数值,从而在各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异与初始渲染图像和多角度目标场景图之间的差异之和足够小时,表明损失函数达到收敛条件,此时可以不必再进行体素采样,也就是减少了体素采样的次数,加快了损失函数的收敛。
此外,由于在训练数据量较大的情况下,模型训练中一次迭代不能全部包含所有训练数据,因此本发明实施例可以将训练数据分成多个不同的批次(训练batch)进行迭代,也就是上述可以表示为每个训练batch(批)中所有的投影线集合,也就是模型训练中一次迭代同时用到的训练数据。
基于上述任一实施例,对多角度目标场景图进行投影重建,得到用于表征目标场景的3D场景密度的显式密度分布矩阵,包括:
将多角度目标场景图输入至容积渲染模型,由容积渲染模型对多角度目标场景图进行投影重建,得到显式密度分布矩阵;容积渲染模型基于多角度目标场景图训练得到。
具体地,容积渲染模型用于对多角度目标场景图进行投影重建,从而可以得到用于表征3D场景密度的显式密度分布矩阵。由于该矩阵是一个显式矩阵,从而可以直接从该矩阵中读取3D场景密度信息,而不需要再根据该矩阵进行计算得到3D场景密度信息。
在得到显式密度分布矩阵后,后续可以直接从显式密度分布矩阵中读取各区域的密度,而不需要再对各采样点进行前向运算得到各区域的密度,进而减少了计算量。
基于上述任一实施例,容积渲染模型基于如下步骤训练得到:
将多角度目标场景图输入至容积渲染模型的初始模型,由初始模型对多角度目标场景图进行容积渲染,得到各角度目标场景图对应的初始容积渲染图像;
基于各角度目标场景图与各角度目标场景图对应的初始容积渲染图像之间的差异,对初始模型进行训练,得到容积渲染模型。
具体地,显式密度分布矩阵可以通过训练完成的容积渲染模型确定,容积渲染模型可以基于如下过程训练得到:将多角度目标场景图作为样本输入至容积渲染模型的初始模型,该初始模型为未经训练的模型,由初始模型对多角度目标场景图进行容积渲染,得到各角度目标场景图对应的初始容积渲染图像。其中,初始容积渲染图像是初始模型预测得到的容积渲染图像。
基于各角度目标场景图与各角度目标场景图对应的初始容积渲染图像之间的差异,对初始模型进行迭代优化,在达到收敛条件后得到容积渲染模型,从而可以通过容积渲染模型对多角度目标场景图进行投影重建,得到显式密度分布矩阵。
基于上述任一实施例,本发明提供又一种图像渲染模型训练方法,该方法包括:
对容积渲染模型的初始模型赋予随机初始值,然后可以使用容积渲染方法针对输入的多角度样本场景图对应进行渲染,将渲染好的初始容积渲染图像与对应角度的目标场景图的均值方差作为代价函数,迭代重建构建显式密度分布矩阵,使得显式密度分布矩阵最终能够以64×64×64的精度显式表达对应角度的目标场景图对应3D场景的体素密度分布状况。
然后,对目标场景的初始神经辐射场进行体素采样,由于神经辐射场是基于场景坐标和视角信息隐式给出相应坐标处的体素对应视角的颜色信息,从而体素采样得到的各采样点的体素特征中包含有各采样点的密度与色值信息,进而对各采样点的密度与色值信息经过容积投影后即可获得初始渲染图像。
根据各区域采样点中体素特征携带的密度信息,可以确定各区域采样点的密度均值,同时从上述显式密度分布矩阵中直接读取对应区域的密度,从而可以确定两者之间的差平方,并以两者之间的差平方与初始渲染图像和多角度目标场景图之间的差平方之和作为损失函数对初始神经辐射场进行迭代优化,得到图像渲染模型。
基于上述任一实施例,本发明提供一种图像渲染方法,如图2所示,该方法包括:
步骤210、确定目标场景对应渲染图像的目标角度;
步骤220、基于图像渲染模型,得到目标角度对应的渲染图像;
其中,图像渲染模型是基于如上任一实施例所述的图像渲染模型训练方法训练得到的。
具体地,在基于初始渲染图像与多角度目标场景图之间的差异,以及各区域采样点的密度与显式密度分布矩阵中对应区域的密度之间的差异,对初始神经辐射场进行训练后,可以得到图像渲染模型,该图像渲染模型可以生成目标场景任意角度对应的渲染图像,具体为:在确定目标场景对应渲染图像的目标角度后,可以通过图像渲染模型生成目标角度对应的渲染图像。其中,目标角度可以是任意角度。
下面对本发明提供的图像渲染模型训练装置进行描述,下文描述的图像渲染模型训练装置与上文描述的图像渲染模型训练方法可相互对应参照。
基于上述任一实施例,本发明提供一种图像渲染模型训练装置,如图3所示,该装置包括:
第一确定单元310,用于确定目标场景的多角度目标场景图;
投影重建单元320,用于对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵;
体素采样单元330,用于对所述目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;
模型训练单元340,用于基于所述初始渲染图像与所述多角度目标场景图之间的差异,以及各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异,对所述初始神经辐射场进行训练,得到图像渲染模型。
基于上述任一实施例,所述装置还包括:
密度均值确定单元,用于基于各区域采样点的密度,确定各区域的采样点密度均值;
损失确定单元,用于基于各区域的采样点密度均值,与所述显式密度分布矩阵中对应区域的密度之间的差平方,确定各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异。
基于上述任一实施例,所述图像渲染模型的损失函数值基于如下公式计算得到:
其中,表示所述损失函数值,表示投影线r对应的初始渲染像素,C(r)表示投影线r对应的目标场景图中的相应像素,表示迭代训练时所有投影线集合,表示所述区域k的采样点密度均值,ρ(k)表示所述显式密度分布矩阵中区域k的密度,表示显式密度分布矩阵中的分布区域集合。
基于上述任一实施例,所述投影重建单元320,用于:
将所述多角度目标场景图输入至容积渲染模型,由所述容积渲染模型对所述多角度目标场景图进行投影重建,得到所述显式密度分布矩阵;所述容积渲染模型基于所述多角度目标场景图训练得到。
基于上述任一实施例,所述装置还包括:
容积渲染单元,用于将所述多角度目标场景图输入至容积渲染模型的初始模型,由所述初始模型对所述多角度目标场景图进行容积渲染,得到各角度目标场景图对应的初始容积渲染图像;
渲染模型训练单元,用于基于各角度目标场景图与各角度目标场景图对应的初始容积渲染图像之间的差异,对初始模型进行训练,得到所述容积渲染模型。
基于上述任一实施例,本发明还提供一种图像渲染装置,如图4所示,该装置包括:
第二确定单元410,用于确定目标场景对应渲染图像的目标角度;
图像渲染单元420,用于基于所述图像渲染模型,得到所述目标角度对应的渲染图像;
其中,所述图像渲染模型是基于如上任一实施例所述的图像渲染模型训练方法训练得到的。
图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、存储器(memory)520、通信接口(Communications Interface)530和通信总线540,其中,处理器510,存储器520,通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令,以执行图像渲染模型训练方法,该方法包括:确定目标场景的多角度目标场景图;对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵;对所述目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;基于所述初始渲染图像与所述多角度目标场景图之间的差异,以及各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异,对所述初始神经辐射场进行训练,得到图像渲染模型。
和/或,以执行图像渲染方法,该方法包括:确定目标场景对应渲染图像的目标角度;基于所述图像渲染模型,得到所述目标角度对应的渲染图像;其中,所述图像渲染模型是基于如上所述的图像渲染模型训练方法训练得到的。
此外,上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的图像渲染模型训练方法,该方法包括:确定目标场景的多角度目标场景图;对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵;对所述目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;基于所述初始渲染图像与所述多角度目标场景图之间的差异,以及各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异,对所述初始神经辐射场进行训练,得到图像渲染模型。
和/或,以执行图像渲染方法,该方法包括:确定目标场景对应渲染图像的目标角度;基于所述图像渲染模型,得到所述目标角度对应的渲染图像;其中,所述图像渲染模型是基于如上所述的图像渲染模型训练方法训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的图像渲染模型训练方法,该方法包括:确定目标场景的多角度目标场景图;对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵;对所述目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;基于所述初始渲染图像与所述多角度目标场景图之间的差异,以及各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异,对所述初始神经辐射场进行训练,得到图像渲染模型。
和/或,以执行图像渲染方法,该方法包括:确定目标场景对应渲染图像的目标角度;基于所述图像渲染模型,得到所述目标角度对应的渲染图像;其中,所述图像渲染模型是基于如上所述的图像渲染模型训练方法训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种图像渲染模型训练方法,其特征在于,包括:
确定目标场景的多角度目标场景图;
对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵;
对所述目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;
基于所述初始渲染图像与所述多角度目标场景图之间的差异,以及各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异,对所述初始神经辐射场进行训练,得到图像渲染模型。
2.根据权利要求1所述的图像渲染模型训练方法,其特征在于,所述各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异基于如下步骤确定:
基于各区域采样点的密度,确定各区域的采样点密度均值;
基于各区域的采样点密度均值,与所述显式密度分布矩阵中对应区域的密度之间的差平方,确定各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异。
4.根据权利要求1所述的图像渲染模型训练方法,其特征在于,所述对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵,包括:
将所述多角度目标场景图输入至容积渲染模型,由所述容积渲染模型对所述多角度目标场景图进行投影重建,得到所述显式密度分布矩阵;所述容积渲染模型基于所述多角度目标场景图训练得到。
5.根据权利要求4所述的图像渲染模型训练方法,其特征在于,所述容积渲染模型基于如下步骤训练得到:
将所述多角度目标场景图输入至容积渲染模型的初始模型,由所述初始模型对所述多角度目标场景图进行容积渲染,得到各角度目标场景图对应的初始容积渲染图像;
基于各角度目标场景图与各角度目标场景图对应的初始容积渲染图像之间的差异,对初始模型进行训练,得到所述容积渲染模型。
6.一种图像渲染方法,其特征在于,包括:
确定目标场景对应渲染图像的目标角度;
基于所述图像渲染模型,得到所述目标角度对应的渲染图像;
其中,所述图像渲染模型是基于权利要求1至5任一项所述的图像渲染模型训练方法训练得到的。
7.一种图像渲染模型训练装置,其特征在于,包括:
第一确定单元,用于确定目标场景的多角度目标场景图;
投影重建单元,用于对所述多角度目标场景图进行投影重建,得到用于表征所述目标场景的3D场景密度的显式密度分布矩阵;
体素采样单元,用于对所述目标场景的初始神经辐射场进行体素采样,并基于体素采样得到的各采样点中包含有密度与色值的体素特征生成初始渲染图像;
模型训练单元,用于基于所述初始渲染图像与所述多角度目标场景图之间的差异,以及各区域采样点的密度与所述显式密度分布矩阵中对应区域的密度之间的差异,对所述初始神经辐射场进行训练,得到图像渲染模型。
8.一种图像渲染装置,其特征在于,包括:
第二确定单元,用于确定目标场景对应渲染图像的目标角度;
图像渲染单元,用于基于所述图像渲染模型,得到所述目标角度对应的渲染图像;
其中,所述图像渲染模型是基于权利要求1至5任一项所述的图像渲染模型训练方法训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述图像渲染模型训练方法的步骤,和/或,所述处理器执行所述程序时实现如权利要求6所述图像渲染方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述图像渲染模型训练方法的步骤,和/或,所述计算机程序被处理器执行时实现如权利要求6所述图像渲染方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210050988.7A CN114493995A (zh) | 2022-01-17 | 2022-01-17 | 图像渲染模型训练、图像渲染方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210050988.7A CN114493995A (zh) | 2022-01-17 | 2022-01-17 | 图像渲染模型训练、图像渲染方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114493995A true CN114493995A (zh) | 2022-05-13 |
Family
ID=81511124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210050988.7A Pending CN114493995A (zh) | 2022-01-17 | 2022-01-17 | 图像渲染模型训练、图像渲染方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114493995A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049783A (zh) * | 2022-05-20 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 模型的确定方法、场景重建模型、介质、设备及产品 |
CN115147577A (zh) * | 2022-09-06 | 2022-10-04 | 深圳市明源云科技有限公司 | Vr场景生成方法、装置、设备及存储介质 |
CN115588108A (zh) * | 2022-11-02 | 2023-01-10 | 上海人工智能创新中心 | 一种生成序列影像的方法、电子设备及介质 |
CN115631418A (zh) * | 2022-11-18 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像处理方法、神经辐射场的训练方法和神经网络 |
CN116246009A (zh) * | 2022-09-06 | 2023-06-09 | 支付宝(杭州)信息技术有限公司 | 虚拟形象处理方法及装置 |
-
2022
- 2022-01-17 CN CN202210050988.7A patent/CN114493995A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049783A (zh) * | 2022-05-20 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 模型的确定方法、场景重建模型、介质、设备及产品 |
CN115049783B (zh) * | 2022-05-20 | 2024-04-02 | 支付宝(杭州)信息技术有限公司 | 模型的确定方法、场景重建模型、介质、设备及产品 |
CN115147577A (zh) * | 2022-09-06 | 2022-10-04 | 深圳市明源云科技有限公司 | Vr场景生成方法、装置、设备及存储介质 |
CN116246009A (zh) * | 2022-09-06 | 2023-06-09 | 支付宝(杭州)信息技术有限公司 | 虚拟形象处理方法及装置 |
CN116246009B (zh) * | 2022-09-06 | 2024-04-16 | 支付宝(杭州)信息技术有限公司 | 虚拟形象处理方法及装置 |
CN115588108A (zh) * | 2022-11-02 | 2023-01-10 | 上海人工智能创新中心 | 一种生成序列影像的方法、电子设备及介质 |
CN115588108B (zh) * | 2022-11-02 | 2024-05-14 | 上海人工智能创新中心 | 一种生成序列影像的方法、电子设备及介质 |
CN115631418A (zh) * | 2022-11-18 | 2023-01-20 | 北京百度网讯科技有限公司 | 图像处理方法、神经辐射场的训练方法和神经网络 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114493995A (zh) | 图像渲染模型训练、图像渲染方法及装置 | |
CN113888689A (zh) | 图像渲染模型训练、图像渲染方法及装置 | |
CN111488865B (zh) | 图像优化方法、装置、计算机存储介质以及电子设备 | |
WO2021203795A1 (zh) | 一种基于显著性密集连接扩张卷积网络的胰腺ct自动分割方法 | |
CN111105424A (zh) | ***自动勾画方法及装置 | |
WO2006024974A1 (en) | Feature weighted medical object contouring using distance coordinates | |
CN112184888A (zh) | 三维血管建模的方法及装置 | |
CN110598806A (zh) | 一种基于参数优化生成对抗网络的手写数字生成方法 | |
CN110176064B (zh) | 一种摄影测量生成三维模型的主体对象自动识别方法 | |
CN113554742B (zh) | 一种三维图像的重建方法、装置、设备及存储介质 | |
CN113095333A (zh) | 无监督特征点检测方法及装置 | |
CN112381845B (zh) | 岩心图像生成方法、模型训练方法及装置 | |
CN117501313A (zh) | 基于深度神经网络的毛发渲染*** | |
CN114004909A (zh) | 一种基于x射线通量分布的ct重建方法及装置 | |
CN113096238B (zh) | 一种x射线图模拟方法、装置、电子设备及存储介质 | |
CN114663478A (zh) | 一种根据多参考点预测信息估计锚点位置的方法 | |
CN115409949A (zh) | 模型训练方法、视角图像生成方法、装置、设备及介质 | |
CN115375839A (zh) | 一种基于深度学习的多视角头发建模方法及*** | |
CN114882095A (zh) | 一种基于轮廓匹配的物体高度在线测量方法 | |
CN112750156B (zh) | 光场成像***、处理方法和装置 | |
CN111358492A (zh) | 一种四维造影图像生成方法、装置、设备及存储介质 | |
CN114787867A (zh) | 用于医学图像配准的器官变形补偿 | |
Aykac et al. | 3D segmentation of the mouse spleen in microCT via active contours | |
KR102648938B1 (ko) | 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치 | |
WO2023233575A1 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai Applicant after: Shanghai Bi Ren Technology Co.,Ltd. Address before: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai Applicant before: Shanghai Bilin Intelligent Technology Co.,Ltd. Country or region before: China |