CN116758207A

CN116758207A - 图像渲染模型的训练方法和图像渲染方法

Info

Publication number: CN116758207A
Application number: CN202310577580.XA
Authority: CN
Inventors: 刘继文
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-09-15

Abstract

本公开关于一种图像渲染模型的训练方法、图像渲染方法、装置、电子设备及存储介质，所述方法包括：获取针对目标对象的训练数据样本，并根据训练数据样本对图像渲染模型进行预训练，得到满足预训练完成条件的图像渲染模型；根据满足预训练完成条件的图像渲染模型得到目标对象对应的深度图像，构建目标对象的点云数据；根据目标对象的点云数据对目标对象进行表面重建，得到目标对象的表面重建结果，并基于目标对象的表面重建结果确定目标对象对应的目标采样点；基于目标采样点，对满足预训练完成条件的图像渲染模型进行训练，得到训练完成的图像渲染模型。采用本方法，提高了图像渲染模型的训练效率。

Description

图像渲染模型的训练方法和图像渲染方法

技术领域

本公开涉及图像处理技术领域，尤其涉及图像渲染模型的训练方法、图像渲染方法、装置、电子设备及存储介质。

背景技术

随着图像处理技术的发展，出现了图像渲染技术，在目前的图像渲染技术中，通常采用NeRF(可微分渲染，Neural Radiance Fields)模型来实现图像渲染，得到在三维场景中目标对象表面各点的体积密度和颜色值。但是，NeRF模型的训练过程需要训练大量的无效点(即非目标对象表面的点)的数据，导致模型训练速度较慢，进而导致利用NeRF模型对目标对象进行图像渲染的效率较低。

目前的NeRF模型的加速训练方法中，在包含目标对象的三维空间中，对目标对象进行粗重建，得到目标对象粗重建结果。该重建结果用于确定目标对象的粗分布区域，然后在粗分布区域中进行数据采样，得到用于表征目标对象的多个采样点数据，基于多个采样点数据对NeRF模型进行训练，得到训练完成的NeRF模型。

然而，目前的NeRF模型的加速训练方法中，为了保证目标对象的完整性，目标对象的粗分布区域，往往比目标对象的实际分布区域大，而且目标对象的内部空间也会包含的粗分布区域内，内部空间的数据点也会参与数据采样。因此，得到的多个采样点还是包含大量无效点数据，即非目标对象表面数据，而对无效点的训练增加了NeRF模型的训练时间，降低模型训练效率。

发明内容

本公开提供一种图像渲染模型的训练方法、图像渲染方法、装置、电子设备及存储介质，以至少解决相关技术中图像渲染模型的训练效率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像渲染模型的训练方法，所述方法包括：

获取针对目标对象的训练数据样本，并根据所述训练数据样本对图像渲染模型进行预训练，得到满足预训练完成条件的图像渲染模型；

根据所述满足预训练完成条件的图像渲染模型得到的深度图像，构建所述目标对象的点云数据；

根据所述目标对象的点云数据对所述目标对象进行表面重建，得到所述目标对象的表面重建结果，并基于所述目标对象的表面重建结果确定所述目标对象对应的目标采样点；

基于所述目标采样点，对所述满足预训练完成条件的图像渲染模型进行训练，得到训练完成的图像渲染模型。

在一示例性实施例中，所述获取针对目标对象的训练数据样本，包括：

获取包含目标对象的预设时长内的视频段；所述视频段中包含多个预设拍摄视角的初始图像数据；

对所述视频段进行抽帧处理，得到包含多个目标初始视频帧的初始图像数据的图像序列；

根据预先训练的物体分割模型对所述图像序列中包含的每一初始图像数据进行去除背景处理，得到去除背景后的图像数据；

确定每一所述去除背景后的图像数据对应的相机位姿，并根据每一所述去除背景后的图像数据以及每一所述去除背景后的图像数据对应的相机位姿，得到所述目标对象的训练数据样本。

在一示例性实施例中，所述根据所述训练数据样本对图像渲染模型进行预训练，得到满足预训练完成条件的图像渲染模型，包括：

将所述训练数据样本输入图像渲染模型中，通过所述图像渲染模型对所述训练数据样本中每一图像数据进行处理，输出每一所述图像数据对应的渲染图像；

根据预设的各标准渲染图像与各所述渲染图像进行损失计算，得到所述训练数据样本对应的损失结果；

当所述损失结果以及模型训练次数满足预训练完成条件时，得到满足所述预训练完成条件的图像渲染模型。

在一示例性实施例中，所述将所述训练数据样本输入图像渲染模型中，通过所述图像渲染模型对所述训练数据样本中每一图像数据进行处理，输出每一所述图像数据对应的深度图像和渲染图像，包括：

将所述训练数据样本输入图像渲染模型中，基于所述训练数据样本中每一图像数据对应的相机位姿，生成所述相机位姿下的所述图像数据对应的多个模拟光线，在每一所述模拟光线所在的光线方向上进行数据采样，得到所述模拟光线对应的多个采样点；

确定所述模拟光线上的多个采样点的颜色值和体积密度值，并根据所述多个采样点的颜色值、体积密度值和位置坐标，确定所述相机位姿下的所述图像数据对应的深度图像和渲染图像。

在一示例性实施例中，所述根据所述多个采样点的颜色值、体积密度和位置坐标，确定所述相机位姿下的所述图像数据对应的深度图像和渲染图像，包括：

根据各所述模拟光线对应的多个采样点的颜色值、体积密度值和预设的积分算法，确定所述相机位姿下的所述图像数据对应的渲染图像；

根据各所述模拟光线对应的多个采样点的位置坐标、体积密度值和预设的积分算法，确定所述相机位姿下的所述图像数据对应的深度图像。

在一示例性实施例中，所述根据所述满足预训练完成条件的图像渲染模型得到的深度图像，构建所述目标对象的点云数据，包括：

基于所述满足预训练完成条件的图像渲染模型得到的各深度图像中包含的像素点的位置坐标以及预设的转换算法，对各所述深度图像中包含的像素点进行融合和转换，得到初始点云数据；

根据预设的空间划分策略，将初始点云数据对应的三维空间划分为预设数目的网格；

统计每一所述网格中初始点云数据的数量，并将小于预设数量阈值的网格中的初始点云数据消除，得到去噪后的所述目标对象的点云数据。

根据本公开实施例的第二方面，一种图像渲染方法，所述方法包括：

将目标相机位姿输入至针对目标对象的所述训练完成的图像渲染模型中，通过所述训练完成的图像渲染模型的处理，输出所述目标相机位姿对应的拍摄视角下的所述目标对象的渲染图像；其中，所述训练完成的图像渲染模型的训练过程包括执行如上述第一方面中任一项所述的图像渲染模型的训练方法。

根据本公开实施例的第三方面，提供一种图像渲染模型的训练装置，所述装置包括：

预训练单元，被配置为执行获取针对目标对象的训练数据样本，并根据所述训练数据样本对图像渲染模型进行预训练，得到满足预训练完成条件的图像渲染模型；

构建单元，被配置为执行根据所述满足预训练完成条件的图像渲染模型得到的深度图像，构建所述目标对象的点云数据；

重建单元，被配置为执行根据所述目标对象的点云数据对所述目标对象进行表面重建，得到所述目标对象的表面重建结果，并基于所述目标对象的表面重建结果确定所述目标对象对应的目标采样点；

训练单元，被配置为执行基于所述目标采样点，对所述满足预训练完成条件的图像渲染模型进行训练，得到训练完成的图像渲染模型。

在一示例性实施例中，所述预训练单元包括：

获取子单元，被配置为执行获取包含目标对象的预设时长内的视频段；所述视频段中包含多个预设拍摄视角的初始图像数据；

抽帧子单元，被配置为执行对所述视频段进行抽帧处理，得到包含多个目标初始视频帧的初始图像数据的图像序列；

第一处理子单元，被配置为执行根据预先训练的物体分割模型对所述图像序列中包含的每一初始图像数据进行去除背景处理，得到去除背景后的图像数据；

构建子单元，被配置为执行确定每一所述去除背景后的图像数据对应的相机位姿，并根据每一所述去除背景后的图像数据以及每一所述去除背景后的图像数据对应的相机位姿，得到所述目标对象的训练数据样本。

在一示例性实施例中，所述预训练单元包括：

第二处理子单元，被配置为执行将所述训练数据样本输入图像渲染模型中，通过所述图像渲染模型对所述训练数据样本中每一图像数据进行处理，输出每一所述图像数据对应的渲染图像；

计算子单元，被配置为执行根据预设的各标准渲染图像与各所述渲染图像进行损失计算，得到所述训练数据样本对应的损失结果；

确定子单元，被配置为执行当所述损失结果以及模型训练次数满足预训练完成条件时，得到满足所述预训练完成条件的图像渲染模型。

在一示例性实施例中，所述第二处理子单元具体用于将所述训练数据样本输入图像渲染模型中，基于所述训练数据样本中每一图像数据对应的相机位姿，生成所述相机位姿下的所述图像数据对应的多个模拟光线，在每一所述模拟光线所在的光线方向上进行数据采样，得到所述模拟光线对应的多个采样点；

在一示例性实施例中，所述第二处理子单元具体用于根据各所述模拟光线对应的多个采样点的颜色值、体积密度值和预设的积分算法，确定所述相机位姿下的所述图像数据对应的渲染图像；

在一示例性实施例中，所述构建单元包括：

融合转换单元，被配置为执行基于所述满足预训练完成条件的图像渲染模型得到的各深度图像中包含的像素点的位置坐标以及预设的转换算法，对各所述深度图像中包含的像素点进行融合和转换，得到初始点云数据；

划分单元，被配置为执行根据预设的空间划分策略，将初始点云数据对应的三维空间划分为预设数目的网格；

去噪单元，被配置为执行统计每一所述网格中初始点云数据的数量，并将小于预设数量阈值的网格中的初始点云数据消除，得到去噪后的所述目标对象的点云数据。

根据本公开实施例的第四方面，提供了一种图像渲染装置，该装置包括：

渲染单元，被配置为执行将目标相机位姿输入至针对目标对象的训练完成的图像渲染模型中，通过所述训练完成的图像渲染模型的处理，输出所述目标相机位姿对应的拍摄视角下的所述目标对象的渲染图像；其中，所述训练完成的图像渲染模型的训练过程包括执行如上述第一方面中任一项所述的图像渲染模型的训练方法。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的图像渲染模型的训练方法，以及实现如上述第二方面中所述的图像渲染方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述第一方面中任一项所述的图像渲染模型的训练方法，以及实现如上述第二方面中所述的图像渲染方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行上述第一方面中任一项所述的图像渲染模型的训练方法，以及实现如上述第二方面中所述的图像渲染方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

采用本方法，通过对图像渲染模型的预训练，得到满足预训练完成条件的图像渲染模型输出的目标对象的深度图像，进而基于该深度图像实现对目标对象表面重建，得到表面重建结果，基于该表面重建结果可以确定出目标对象对应的目标采样点，使得图像渲染模型进行图像渲染模型的训练时，仅对目标采样点进行训练，减少对无效点(即非目标采样点)的训练时间，提高了图像渲染模型的训练效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像渲染模型的训练方法的流程图。

图2是根据一示例性实施例示出的一种目标对象表面重建结果的示意图。

图3是根据一示例性实施例示出的一种确定目标对象表面的交点的示意图。

图4是根据一示例性实施例示出的一种获取目标对象的训练数据样本步骤的流程图。

图5是根据一示例性实施例示出的一种图像渲染模型的预训练步骤的流程图。

图6是根据一示例性实施例示出的一种图像渲染模型中模型处理过程的流程图。

图7是根据一示例性实施例示出的一种目标对象的图像处理过程中采样点数据处理流程图。

图8是根据一示例性实施例示出的一种确定渲染图像和深度图像步骤的流程图。

图9是根据一示例性实施例示出的一种图像渲染模型的应用方法的流程图。

图10是根据一示例性实施例示出的一种目标对象各个拍摄视角渲染图像的示意图。

图11是根据一示例性实施例示出的一种图像渲染模型的训练装置的框图。

图12是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

图1是根据一示例性实施例示出的一种图像渲染模型的训练方法的流程图，如图1所示，该图像渲染模型的训练方法应用于计算机设备中，该方法包括以下步骤。

在步骤S110中，获取针对目标对象的训练数据样本，并根据训练数据样本对图像渲染模型进行预训练，得到满足预训练完成条件的图像渲染模型。

其中，目标对象可以是椅子、桌子、茶杯等物体，也可以是人、猫、狗等生物，即目标对象为具体实物，可以进行图像渲染即可，本公开实施例对于目标对象的类型不做限定。

在实施中，计算机设备中预先存储有目标对象的训练数据样本以及预设有图像渲染模型，该训练数据样本中包含相机设备在不同相机位姿、不同拍摄视角下的图像数据。在需要对目标对象进行图像渲染时，计算机设备获取该目标对象对应的训练数据样本，并根据训练数据样本中包含的相机位姿以及每一相机位姿对应的图像数据对预设的图像渲染模型进行预训练，从而，得到预训练完成后，满足预训练完成条件的图像渲染模型。

在步骤S120中，根据满足预训练完成条件的图像渲染模型得到目标对象对应的深度图像，构建目标对象的点云数据。

在实施中，在得到满足预训练完成条件的图像渲染模型之后，计算机设备通过该满足预训练完成条件的图像渲染模型确定训练数据样本中目标对象每一图像数据对应的深度图像。然后，计算机设备根据各深度图像中各像素点表征的距离数据，构建三维空间中包含目标对象的点云数据。点云数据表征在三维空间中目标对象表面的位置坐标。

在步骤S120中，根据目标对象的点云数据对目标对象进行表面重建，得到目标对象的表面重建结果，并基于目标对象的表面重建结果确定目标对象对应的目标采样点。

其中，目标采样点为目标对象的表面重建结果与预设模拟光线的交点。

在实施中，计算机设备根据目标对象的点云数据对目标对象进行表面重建，即如图2所示，将相邻点的点云数据连接成面片，得到目标对象的表面重建结果(即mesh，网状结构)。然后，计算机设备针对训练数据样本中每一相机位姿下的图像数据，生成模拟光线。在每一模拟光线上进行数据采样，得到这条模拟光线上的多个采样点。然后，如图3所示，基于模拟光线对应的多个采样点与目标对象的表面重建结果，确定目标对象的表面重建结果与模拟光线的交点的采样点为目标对象对应的目标采样点。

在步骤S140中，基于目标采样点，对满足预训练完成条件的图像渲染模型进行训练，得到训练完成的图像渲染模型。

在实施中，计算机设备基于目标采样点，再次对预训练后满足预训练完成条件的图像渲染模型进行进一步的训练，进一步训练过程中利用目标采样点的体积密度值和颜色，通过预设的积分算法得到对应相机位姿下对应的渲染图像，并基于标准渲染图像与输出的渲染图像之间计算损失结果，从而实现对图像渲染模型进行有监督式训练，得到最终的训练完成的图像渲染模型。具体的，图像渲染模型的训练过程与图像渲染模型进行预训练的过程相似，本公开实施例不过多赘述。

上述图像渲染模型的训练方法中，通过对图像渲染模型的预训练，得到满足预训练完成条件的图像渲染模型输出的目标对象的深度图像，进而基于该深度图像实现对目标对象表面重建，得到表面重建结果，基于该表面重建结果可以确定出目标对象对应的目标采样点，使得图像渲染模型进行图像渲染模型的训练时，仅对目标采样点进行训练，减少对无效点(即非目标采样点)的训练时间，提高图像渲染模型的训练效率，进而提高图像渲染效率。

在一示例性实施例中，如图4所示，在步骤S110中，获取针对目标对象的训练数据样本具体可以通过以下步骤实现：

在步骤S402中，获取包含目标对象的视频段。

其中，视频段中包含多个预设拍摄视角的初始图像数据。每一种预设拍摄视角对应一种相机位姿。

在实施中，摄像设备围绕目标对象的周围进行视频拍摄，在视频拍摄过程中摄像设备可以采用多种不同的相机位姿，得到一段包含目标对象的视频段。例如，环绕目标对象拍摄一段视频，包含正视、俯视、斜视等多个拍摄视角，视频长度约1分钟。然后，在需要对目标对象进行图像渲染时，计算机设备获取该包含目标对象的预设时长内的视频段。

在步骤S404中，对视频段进行抽帧处理，得到包含多个目标初始视频帧的初始图像数据的图像序列。

在实施中，视频段中包含多个初始视频帧的图像数据，计算机设备对视频段中多个初始视频帧进行抽帧处理，得到抽帧处理后包含多个目标初始视频帧的初始图像数据的图像序列。

可选的，计算机设备对视频段进行抽帧处理的方法，可以是按照采用随机抽帧方法，也可以采用等比例抽帧方法，还可以采用等时长抽帧方法，本公开实施例对于抽帧处理的方法不做限定。

在步骤S406中，根据预先训练的物体分割模型对图像序列中包含的每一初始图像数据进行去除背景处理，得到去除背景后的图像数据。

在实施中，计算机设备中预先存储有训练完成的物体分割模型，该物体分割模型经过预先训练可以对图像数据进行分割处理。因此，计算机设备根据该物体分割模型对图像序列中包含的每一初始图像数据进行去除背景处理，得到去除背景后的图像数据。其中，物体分割模型可以为深度学习模型，本公开实施例不做限定。

在步骤S408中，确定每一去除背景后的图像数据对应的相机位姿，并根据每一去除背景后的图像数据以及每一去除背景后的图像数据对应的相机位姿，得到目标对象的训练数据样本。

在实施中，对去除背景后的图像数据，计算机设备利用colmap(一种三维重建软件)确定去除背景后的每一图像数据对应的相机位姿，并根据目标对象对应的每一去除背景后的图像数据以及每一去除背景后的图像数据对应的相机位姿，得到目标对象的训练数据样本。

本实施例中，通过对多个预设拍摄视角的目标对象的初始图像数据进行处理，确定每一初始图像数据对应的相机位姿，从而基于每一初始图像数据以及每一初始图像数据对应的相机位姿构建训练数据样本，从而用于对预设的图像渲染模型的训练。

在一示例性实施例中，如图5所示，在步骤S110中，根据训练数据样本对图像渲染模型进行预训练，得到满足预训练完成条件的图像渲染模型具体可以通过以下步骤实现：

在步骤S502中，将训练数据样本输入图像渲染模型中，通过图像渲染模型对训练数据样本中每一图像数据进行处理，输出每一图像数据对应的渲染图像。

其中，图像渲染模型可以为NeRF(可微分渲染，Neural Radiance Fields)模型。

在实施中，计算机设备将训练数据样本中的每一图像数据以及该图像数据对应的相机位姿输入图像渲染模型中，通过图像渲染模型生成每一相机位姿下的图像数据朝向方向的，生成多条模拟光线。具体模拟光线的数量等于图像数据的大小(w*h个)。然后，在每一条模拟光线上进行采样，计算每一个采样点的颜色值和体积密度值，利用多条模拟光线的颜色值和体积密度值，得到每一图像数据对应的渲染图像。

可选的，图像渲染模型除了可以输出渲染图像之外，计算机设备还可以基于图像渲染模型在预训练过程中得到的中间数据结果，得到每一图像数据对应的深度图像。

在步骤S504中，根据预设的各标准渲染图像与各渲染图像进行损失计算，得到训练数据样本对应的损失结果。

在实施中，计算机设备中预设有标准渲染图像，然后，计算机设备根据图像渲染模型得到的各渲染图像以及预设的各标准渲染图像进行损失计算，得到训练数据样本对应的损失结果。具体的，损失计算方法可以为：loss＝sum(abs(C-C1))/n。其中，C表示标准渲染图像，C1表示图像渲染模型输出的渲染图像，abs()表示取绝对值。n表示训练数据样本中图像数据的数量。

在步骤S506中，当损失结果以及模型训练次数满足预训练完成条件时，得到满足预训练完成条件的图像渲染模型。

在实施中，计算机设备中预设有模型训练次数阈值(或称为模型迭代次数阈值)，当模型训练次数达到模型训练次数阈值，且图像渲染模型的损失结果稳定在预设范围内，则确定当前图像渲染模型的训练已满足预训练完成条件，则计算机设备得到满足预训练完成条件的图像渲染模型。其中，该模型训练次数阈值可以为模型总训练次数(即预训练次数和最终的训练次数的总和)的1/10。

本实施例中，通过训练数据样本以及预设的预训练完成条件，对图像渲染模型进行预训练，得到满足预训练完成条件的图像渲染模型，以使可以基于该满足预训练完成条件的图像渲染模型得到深度图像，进而完成目标对象的表面重建，提高表面重建精确度，以使能够精确贴合目标对象的表面。

在一示例性实施例中，如图6所示，在步骤S502中，将训练数据样本输入图像渲染模型中，通过图像渲染模型对训练数据样本中每一图像数据进行处理，输出每一图像数据对应的渲染图像具体可以通过以下步骤实现：

在步骤S602中，将训练数据样本输入图像渲染模型中，基于训练数据样本中每一图像数据对应的相机位姿，生成相机位姿下的图像数据对应的多个模拟光线，在每一模拟光线所在的光线方向上进行数据采样，得到模拟光线对应的多个采样点。

在实施中，计算机设备将训练数据样本输入图像渲染模型中，基于训练数据样本中的每一图像数据对应的相机位姿，生成相机位姿下的图像数据对应的多个模拟光线，在每一模拟光线所在的光线方向上进行数据采样，例如，一条模拟光线上采样约10个点，w*h＝80条模拟光线，从而得到80条模拟光线对应的多个采样点(800个采样点)。

在步骤S604中，确定模拟光线上的多个采样点的颜色值和体积密度值，并根据多个采样点的颜色值、体积密度值和位置坐标，确定相机位姿下的图像数据对应的深度图像和渲染图像。

在实施中，基于图像渲染成像的原理，在每一条模拟光线上的采样点，约靠近目标对象表面的采样点的颜色值越深、体积密度值越大，越远离目标对象表面的采样点颜色值越浅(即越接近透明)，体积密度值越小，因此，如图7所示，计算机设备基于各模拟光线上采样点与目标对象的表面的相对距离，利用预设的标准渲染图像进行有监督式学习，确定各模拟光线上的多个采样点的颜色值和体积密度值。然后，根据多个采样点的颜色值、体积密度值和各采样点的位置坐标，确定在每一相机位姿下的图像数据对应的深度图像和渲染图像。为了使图像渲染模型输出的渲染图像越来越接近标准渲染图像，图像渲染模型在该预训练过程中对目标对象表面的采样点的权重会越来越大，进而，在预训练结束后，可以精确的确定出目标对象表面的采样点。

本实施例中，基于预设的标准图像渲染图像以及训练数据样本，对图像渲染模型进行有监督式训练，使图像渲染模型在预训练的过程中可以逐渐增大目标对象表面的采样点的权重，进而可以得到精确的目标对象表面的采样点，从而可以得到各相机位姿下的图像数据对应的深度图像和渲染图像。

在一示例性实施例中，如图8所示，在步骤S604中，根据所述多个采样点的颜色值、体积密度值和位置坐标，确定所述相机位姿下的所述图像数据对应的深度图像和渲染图像具体可以通过以下步骤实现：

在步骤S802中，根据各模拟光线对应的多个采样点的颜色值、体积密度值和预设的积分算法，确定相机位姿下的图像数据对应的渲染图像。

在实施中，计算机设备根据每一图像数据生成的各模拟光线对应的多个采样点的颜色值，利用体积密度值对颜色值进行积分处理，确定相机位姿下的该图像数据对应的渲染图像。

在步骤S804中，根据各模拟光线对应的多个采样点的位置坐标、体积密度值和预设的积分算法，确定相机位姿下的图像数据对应的深度图像。

在实施中，计算机设备根据每一图像数据生成的各模拟光线对应的多个采样点的位置坐标，利用体积密度值对位置坐标进行积分处理，确定相机位姿下的该图像数据对应的深度图像。

本实施例中，根据预设的积分算法，以及预训练过程中得到的各采样点的颜色值、体积密度值和位置坐标，确定图像数据对应的深度图像和渲染图像，以基于该深度图像构建点云数据，完成目标对象的表面重建。

在一示例性实施例中，如图9所示，在步骤S120中，根据满足预训练完成条件的图像渲染模型得到的深度图像，构建目标对象的点云数据具体可以通过以下步骤实现：

在步骤S902中，基于满足预训练完成条件的图像渲染模型得到的各深度图像中包含的像素点的位置坐标以及预设的转换算法，对各深度图像中包含的像素点进行融合和转换，得到初始点云数据。

在实施中，在得到满足预训练完成条件的图像渲染模型的情况下，基于满足预训练完成条件的图像渲染模型可以得到各图像数据对应的深度图像，每一深度图像中包含的各像素点对应的数据值表征该像素点在世界坐标系下目标对象表面的三维坐标(x,y,12)。然后，计算机设备基于各像素点的位置坐标以及预设的转换算法，对各像素点的位置坐标进行转换，并将各深度图像中转换后的各像素点的位置坐标融合在三维空间中，得到初始点云数据。

在步骤S904中，根据预设的空间划分策略，将初始点云数据对应的三维空间划分为预设数目的网格。

在实施中，计算机设备根据预设的空间划分策略，将初始点云数据对应的三维空间划分为预设数目的网格。例如，计算机设备将三维空间划分为n*n(例如，500*500)的小格子。

在步骤S906中，统计每一网格中初始点云数据的数量，并将小于预设数量阈值的网格中的初始点云数据消除，得到去噪后的目标对象的点云数据。

在实施中，计算机设备统计每一网格中包含的初始点云数据的数量，若某一网格中包含的初始点云数据的数量大于或者等于预设数量阈值，则保留该网格中的初始点云数据。若某一网格中初始点云数据的数量小于预设数量阈值，则表征该网格中的初始点云数据为噪音数据，计算机设备消除该网格中的初始点云数据，得到去噪后的目标对象的点云数据。

本实施例中，通过对各深度图像数据中像素点的位置坐标进行融合和转换，得到初始点云数据，进而，对初始点云数据进行去噪处理，得到去噪后的目标对象的点云数据，该点云数据中包含的每一点均是经过处理后得到的目标对象的表面的点，以使基于该点云数据可以进行目标对象表面重建。

在一示例性实施例中，提供了一种图像渲染方法，该方法包括：

将目标相机位姿输入至针对目标对象的训练完成的图像渲染模型中，通过训练完成的图像渲染模型的处理，输出目标相机位姿对应的拍摄视角下的目标对象的渲染图像。

在实施中，计算机设备将目标相机位姿输入至针对目标对象的训练完成的图像渲染模型中，通过训练完成的图像渲染模型对目标相机位姿的处理，输出该目标相机位姿对应的拍摄视角下的目标对象的渲染图像。如图10所示，展示的是各个拍摄视角下的目标对象(例如，目标对象为椅子)的渲染图像。其中，训练完成的图像渲染模型基于目标相机位姿进行的数据处理过程与图像渲染模型的预训练和最终训练的过程的结合相似，即图像渲染模型基于该目标相机位姿生成模拟光线，进而，确定各目标采样点，对各目标采样点进行颜色值和体积密度值的计算处理，得到该目标相机位姿对应的拍摄视角下的目标对象的渲染图像。

本实施例中，通过上述图像渲染模型的训练方法进行图像渲染模型的训练，提高了图像渲染模型的训练效率，进而，基于该训练完成的图像渲染模型进行目标对象的图像渲染，可以得到任意相机位姿对应的任意拍摄视角下的目标对象的渲染图像。

应该理解的是，虽然图1、图4-图6、图8和图9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、图4-图6、图8和图9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图11是根据一示例性实施例示出的一种图像渲染模型的训练装置框图。参照图11，该装置包括预训练单元1102、构建单元1104、重建单元1106和和训练单元1108。

该预训练单元1102被配置为获取针对目标对象的训练数据样本，并根据训练数据样本对图像渲染模型进行预训练，得到满足预训练完成条件的图像渲染模型。

该构建单元1104被配置为根据满足预训练完成条件的图像渲染模型得到的目标对象对应的深度图像，构建目标对象的点云数据。

该重建单元1106被配置为根据目标对象的点云数据对目标对象进行表面重建，得到目标对象的表面重建结果，并基于目标对象的表面重建结果确定目标对象对应的目标采样点。目标采样点为目标对象的表面重建结果与预设模拟光线的交点。

该训练单元1108被配置为基于目标采样点，对满足预训练完成条件的图像渲染模型进行训练，得到训练完成的图像渲染模型。

在一示例性实施例中，所述预训练单元1102包括：

获取子单元，被配置为执行获取包含目标对象的视频段；所述视频段中包含多个预设拍摄视角的初始图像数据；

在一示例性实施例中，所述预训练单元1102包括：

在一示例性实施例中，所述构建单元1104包括：

在一示例性实施例中，提供一种图像渲染装置。该装置包括：

渲染单元，被配置为执行将目标相机位姿输入至针对目标对象的训练完成的图像渲染模型中，通过所述训练完成的图像渲染模型的处理，输出所述目标相机位姿对应的拍摄视角下的所述目标对象的渲染图像。其中，该训练完成的图像渲染模型的训练过程包括上述图像渲染模型的训练方法的执行过程，本公开实施例不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于图像渲染模型的训练方法的电子设备1200的框图。例如，电子设备1200可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图12，电子设备1200可以包括以下一个或多个组件：处理组件1202、存储器1204、电源组件1206、多媒体组件1208、音频组件1210、输入/输出(I/O)的接口1212、传感器组件1214以及通信组件1216。

处理组件1202通常控制电子设备1200的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在电子设备1200的操作。这些数据的示例包括用于在电子设备1200上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

电源组件1206为电子设备1200的各种组件提供电力。电源组件1206可以包括电源管理***，一个或多个电源，及其他与为电子设备1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述电子设备1200和用户之间的提供输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括前置摄像头和/或后置摄像头。当电子设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括麦克风(MIC)，当电子设备1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为电子设备1200提供各个方面的状态评估。例如，传感器组件1214可以检测到电子设备1200的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1200的显示器和小键盘，传感器组件1214还可以检测电子设备1200或电子设备1200组件的位置改变，用户与电子设备1200接触的存在或不存在，设备1200方位或加速/减速和电子设备1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件1216被配置为便于电子设备1200和其他设备之间有线或无线方式的通信。电子设备1200可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1204，上述指令可由电子设备1200的处理器1220执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备1200的处理器1220执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像渲染模型的训练方法，其特征在于，所述方法包括：

根据所述满足预训练完成条件的图像渲染模型得到所述目标对象对应的深度图像，构建所述目标对象的点云数据；

根据所述目标对象的点云数据对所述目标对象进行表面重建，得到所述目标对象的表面重建结果，并基于所述目标对象的表面重建结果确定所述目标对象对应的目标采样点；所述目标采样点为所述目标对象的表面重建结果与预设模拟光线的交点；

2.根据权利要求1所述的图像渲染模型的训练方法，其特征在于，所述获取针对目标对象的训练数据样本，包括：

获取包含目标对象的视频段；所述视频段中包含多个预设拍摄视角的初始图像数据；

3.根据权利要求1所述的图像渲染模型的训练方法，其特征在于，所述根据所述训练数据样本对图像渲染模型进行预训练，得到满足预训练完成条件的图像渲染模型，包括：

将所述训练数据样本输入所述图像渲染模型中，通过所述图像渲染模型对所述训练数据样本中每一图像数据进行处理，输出每一所述图像数据对应的渲染图像；

4.根据权利要求3所述的图像渲染模型的训练方法，其特征在于，所述将所述训练数据样本输入图像渲染模型中，通过所述图像渲染模型对所述训练数据样本中每一图像数据进行处理，输出每一所述图像数据对应的深度图像和渲染图像，包括：

将所述训练数据样本输入所述图像渲染模型中，基于所述训练数据样本中每一图像数据对应的相机位姿，生成所述相机位姿下的所述图像数据对应的多个模拟光线，在每一所述模拟光线所在的光线方向上进行数据采样，得到所述模拟光线对应的多个采样点；

5.根据权利要求4所述的图像渲染模型的训练方法，其特征在于，所述根据所述多个采样点的颜色值、体积密度值和位置坐标，确定所述相机位姿下的所述图像数据对应的深度图像和渲染图像，包括：

6.根据权利要求1所述的图像渲染模型的训练方法，其特征在于，所述根据所述满足预训练完成条件的图像渲染模型得到的深度图像，构建所述目标对象的点云数据，包括：

根据预设的空间划分策略，将所述初始点云数据对应的三维空间划分为预设数目的网格；

7.一种图像渲染方法，其特征在于，所述方法包括：

将目标相机位姿输入至针对目标对象的训练完成的图像渲染模型中，通过所述训练完成的图像渲染模型的处理，输出所述目标相机位姿对应的拍摄视角下的所述目标对象的渲染图像；所述训练完成的图像渲染模型的训练过程包括执行如权利要求1至6中任一项所述的图像渲染模型的训练方法。

8.一种图像渲染模型的训练装置，其特征在于，所述装置包括：

构建单元，被配置为执行根据所述满足预训练完成条件的图像渲染模型得到所述目标对象对应的深度图像，构建所述目标对象的点云数据；

重建单元，被配置为执行根据所述目标对象的点云数据对所述目标对象进行表面重建，得到所述目标对象的表面重建结果，并基于所述目标对象的表面重建结果确定所述目标对象对应的目标采样点；所述目标采样点为所述目标对象的表面重建结果与预设模拟光线的交点；

9.一种图像渲染装置，其特征在于，所述装置包括：

渲染单元，被配置为执行将目标相机位姿输入至针对目标对象的训练完成的图像渲染模型中，通过所述训练完成的图像渲染模型的处理，输出所述目标相机位姿对应的拍摄视角下的所述目标对象的渲染图像；所述训练完成的图像渲染模型的训练过程包括执行如权利要求1至6中任一项所述的图像渲染模型的训练方法。

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的图像渲染模型的训练方法，以及如权利要求7所述的图像渲染方法。

11.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的图像渲染模型的训练方法，以及如权利要求7所述的图像渲染方法。