CN116250021A - 图像生成模型的训练方法、新视角图像生成方法及装置 - Google Patents
图像生成模型的训练方法、新视角图像生成方法及装置 Download PDFInfo
- Publication number
- CN116250021A CN116250021A CN202080104956.XA CN202080104956A CN116250021A CN 116250021 A CN116250021 A CN 116250021A CN 202080104956 A CN202080104956 A CN 202080104956A CN 116250021 A CN116250021 A CN 116250021A
- Authority
- CN
- China
- Prior art keywords
- color
- image
- observation point
- view angle
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000003086 colorant Substances 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims description 92
- 238000012545 processing Methods 0.000 claims description 30
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 101100269850 Caenorhabditis elegans mask-1 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
一种图像生成模型的训练方法,根据残差颜色训练图像生成模型,残差颜色属于低频信息,易于表征和记忆,因此可以提高图像生成模型所生成的新视角图像的清晰度。本申请实施例方法包括:根据目标观测点的位置和视角方向,确定至少一张参考图像。然后根据至少一张参考图像在来自目标观测点的光线经过的空间位置的参考颜色和目标观测点对应视角图像中像素的真实颜色,确定空间位置的残差颜色,最后根据残差颜色,训练图像生成模型。
Description
本申请实施例涉及人工智能领域,尤其涉及图像生成模型的训练方法、新视角图像生成方法及装置。
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术以及应用***。简单来说,人工智能研究的是各种智能机器的设计原理和实现方法,使得机器具有感知、推理和决策的功能。在实践中,AI技术可以用于图像的生成,使得智能机器基于已有的不同视角的图像,生成新视角的图像。
在一种图像生成模型的训练方法中,通过对观测光线上的点进行采样,并将图像的几何信息和纹理信息存储在神经网络中,利用体渲染技术得到新视角视图。
在这种方法中,由于纹理信息属于高频信息,神经网络记忆并表征高频信息的难度较高,因此得到的新视角视图较为模糊,不够清晰。
发明内容
本申请实施例提供了图像生成模型的训练方法、新视角图像生成方法及装置,通过图像生成模型学习来自任一观测点的光线所经过的空间位置的残差颜色,生成新视角图像,由于残差颜色属于低频信息,易于表征和记忆,因此可以提升新视角图像的清晰度。
本申请实施第一方面提供了一种图像生成模型的训练方法,包括:
训练设备可以接收人工输入的目标观测点的位置和视角方向,目标观测点是对被观测物体进行观测的任意一个观测点。每一个观测点都有各自的位置和视角方向,通常情况下,使用三维坐标(x,y,z)表示一个观测点的位置,使用
表示一个观测点的视角方向。
训练设备在获取到目标观测点的位置和视角方向之后,可以根据该位置和该视角方向,从预先输入的N张图像中,确定出至少一张参考图像。其中,N为大于或等于2的整数。之后,训练设备可以预测(predict)出来自目标观测点的光线所经过的空间位置的参考颜色(reference color)。
在对图像生成模型进行训练的时候,实际上是存在目标观测点对应的视角图像的,训练设备可以获取到该视角图像中每个像素的真实颜色(ground-truth)。之后,训练设备就可以根据真实颜色和参考颜色,确定出来自目标观测点的光线所经过的空间位置的残差颜色(residual color)。最后,训练设备就可以使用该残差颜色,对图像生成模型进行训练。
本申请实施例中,图像生成模型是根据残差颜色训练得到的,残差颜色属于低频信息,易于表征和记忆,因此,可以提升基于该图像生成模型得到的新视角图像的清晰度。
结合第一方面,本申请实施例第一方面的第一种实现方式中,由于遮挡、光照等干扰 因素使得在不同观测点预测得到的图像并不完全相同,在不同的参考图像中,同一个空间位置的参考颜色也可能不相同。因此,训练设备可以选择至少一张参考图像中,在来自于目标观测点的光线经过的空间位置的颜色的众数作为第一参考颜色,用于后续确定残差颜色。
本申请实施例中,选择至少一张参考图像在空间位置的颜色的众数作为第一参考颜色,在一定程度上可能会减少干扰因素对于图像生成模型的准确度的影响,提升技术方***性。
结合第一方面或者第一方面的第一种实现方式,本申请实施例第一方面的第二种实现方式中,训练图像生成模型的损失函数可以是多个。
在真实颜色不是透明色的情况下,可以只使用残差颜色的损失函数对图像生成模型进行训练。
在真实颜色是透明色的情况下,只用残差颜色的损失函数训练图像生成模型,而不让图像生成模型学习真实颜色的话,容易出现过拟合的现象,使得空间中真实颜色是透明的点,在预测的图像中变得不透明,造成伪影(artifact)的情况,影响生成图像的清晰度。因此,在真实颜色是透明的情况下,训练设备可以基于联合网络,使用残差颜色的损失函数和直接预测的损失函数,对图像生成模型进行联合训练。
本申请实施例中,使用多个损失函数共同训练图像生成模型,提高了算法的鲁棒性,也让训练出来的图像生成模型能够适用多种情况,提升了方案的灵活性。
结合第一方面、第一方面的第一种至第二种实现方式中的任一种,本申请实施例第一方面的第三种实现方式中,训练设备可以根据上一训练周期的训练结果,不断优化图像生成模型,使得图像生成模型更贴近真实情况,可以使用下述方式进行优化。
训练设备在对图像生成模型进行过一个迭代周期的训练之后,可以得到目标观测点对应的新视角图像。然后对比新视角图像和训练时所使用的至少一张参考图像中的每一张参考图像,从而确定出第二参考颜色,将第二参考颜色作为在下一迭代周期对图像生成模型进行训练的第一参考颜色。
结合第一方面的第三种实现方式,本申请实施例第一方面的第四种实现方式中,训练设备可以使用如下的方式确定出第二参考颜色。
首先,训练设备可以将目标观测点在上一迭代周期得到的新视角图像中,选择任意一个像素点作为基准点,然后选择以该基准点为中心的相同像素大小的图像块作为对比的依据,通过比较这一图像块在新视角图像和参考图像中的相似度,确定出第二参考颜色。可能会出现以下几种情况:
如果以基准点为中心的相同像素大小的图像块,在新视角图像和每一张参考图像中的相似度满足都预设条件,则说明该基准点在至少一张参考图像中,均没有被遮挡,上一个训练周期使用的第一参考颜色可以继续在后续的迭代周期中使用。
如果在至少一张参考图像中,存在部分参考图像,使得该图像块在新视角图像和这部分参考图像中的相似度不满足预设条件,则意味着在这些参考图像中,该基准点被遮挡了。因此,训练设备可以确定第二参考颜色是满足预设条件的参考图像在该基准点的颜色的众 数。
如果该图像块在新视角图像和至少一张参考图像中的每一张参考图像中的相似度都不满足预设条件,则意味着该基准点在这些参考图像中都被遮挡了,训练设备可以将第二参考颜色的颜色值确定为0。
本申请实施例中,训练设备通过比较经过上一个迭代周期预测的目标观测点的视角图像和训练时所使用的至少一张参考图像,从而去除在上一迭代周期中对训练图像生成模型所用的不合适的参数值,从而降低遮挡对新视角图像造成的影响,提升了算法的鲁棒性,以及技术方***性。
结合第一方面、第一方面的第一种至第四种实现方式中的任一种,本申请实施例第一方面的第五种实现方式中,训练设备可以根据目标观测点的位置和视角方向确定出至少一个参考观测点,然后确定至少一个参考观测点对应的图像为参考图像。
其中,每个参考观测点与目标观测点的距离均需要满足预设条件。由于两点的位置越接近,视角方向越相似,在两个点观测到的图像的相似程度才会越高,因此,此处的距离是由两个点的位置和视角方向共同决定的,既要使得两点的位置之间满足预设条件,又要使得两点的视角方向之间满足预设条件。满足预设条件可以是小于或者等于预设阈值。
本申请实施例中,通过位置和视角方向决定参考观测点,在满足预设条件的情况下使得根据图像生成模型得到的新视角图像的准确度在误差允许的范围之内,提升了方***性。
结合第一方面、第一方面的第一种至第五种实现方式中的任一种,本申请实施例第一方面的第六种实现方式中,残差颜色的损失函数可以是:
其中,
用于表示根据残差颜色和第一参考颜色预测出的新视角图像,
表示的是每个空间点的第一参考颜色,
表示的是每个空间点的残差颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点之间的距离,C(r)用于表示真实颜色。
残差颜色的损失函数的作用是使得根据第一参考颜色和残差颜色预测出的新视角图像,尽可能地接近于真实图像。
结合第一方面、第一方面的第一种至第六种实现方式中的任一种,本申请实施例第一方面的第七种实现方式中,直接预测的损失函数可以是:
其中,
用于表示直接预测出的目标观测点对应的视角图像中像素的颜色,c
i表示的是每个空间点的真实颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点之间的距离。直接预测的损失函数的作用是,在只学习真实颜色的情况下,使得预测出的新视角图像尽可能地接近于真实图像。
本申请实施例第二方面提供了一种新视角图像的生成方法,包括:
虚拟观测点(virtual view point)是实际上并没有对被观测物体进行过观测的观测点,可以由人工随机选择。在人工选定虚拟观测点之后,执行设备可以接收人工输入的虚拟观测点的位置和视角方向。
执行设备在获取到虚拟观测点的位置和视角方向,可以将该位置和视角方向输入到图像生成模型中,得到来自虚拟观测点的光线所经过的空间位置的残差颜色。然后结合获取到的参考颜色,生成虚拟观测点对应的新视角图像。其中,参考颜色是根据至少一张参考图像确定出来的。
本申请实施例中,图像生成模型是根据残差颜色训练得到的,残差颜色属于低频信息,易于表征和记忆,因此,可以提升基于该图像生成模型得到的新视角图像的清晰度。
结合第二方面,本申请实施例第二方面的第一种实现方式中,图像生成模型可以是根据残差颜色的损失函数训练得到的。也可以是根据残差颜色的损失函数,以及直接预测的损失函数训练得到的。使用根据残差颜色的损失函数,以及直接预测的损失函数训练得到的图像生成模型,预测得到的新视角图像的效果会更加准确。
本申请实施例中,执行设备使用的图像生成模型可以是使用多个损失函数共同训练得到的图像生成模型,提高了生成的图像的清晰度。
结合第二方面或者第二方面的第一种实现方式,本申请实施例第二方面的第二种实现方式中,参考颜色包括第一参考颜色,第一参考颜色是指来自虚拟观测点的光线经过的空间位置的颜色的众数。执行设备获取第一参考颜色的方式可以是接收训练设备发送的第一参考颜色。
结合第二方面或者第二方面的第一种实现方式,本申请实施例第二方面的第三种实现方式中,执行设备不从训练设备处获取第一参考颜色,而是可以根据虚拟观测点的位置和视角方向,来确定第一参考颜色。确定的过程可以如下所述:
执行设备可以虚拟观测点的位置和视角方向,确定出至少一个参考观测点,然后确定至少一个参考观测点中每个参考观测点对应的参考图像。其中,参考观测点与虚拟观测点的距离需要满足预设条件。只要两个观测点的位置或者视角方向不同,那么这两个点就是不同的观测点。由于两点的位置越接近,视角方向越相似,在两个点观测到的图像的相似程度越高,因此,此处的距离是由两个点的位置和视角方向共同决定的,既要使得两点的位置之间满足预设条件,又要使得两点的视角方向之间满足预设条件。满足预设条件可以是小于或者等于预设阈值。
本申请实施例中,通过位置和视角方向决定参考观测点,在满足预设条件的情况下使得根据图像生成模型得到的新视角图像的准确度在误差允许的范围之内,提升了方***性。
结合第二方面的第一种至第三种实现方式中的任一种,本申请实施例第二方面的第四种实现方式中,残差颜色的损失函数可以是:
其中,
用于表示根据残差颜色和第一参考颜色预测出的新视角图像,
表示的是每个空间点的第一参考颜色,
表示的是每个空间点的残差颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点的距离,C(r)用于表示真实颜色。
残差颜色的损失函数的作用是使得根据第一参考颜色和残差颜色预测出的新视角图像,尽可能地接近于真实图像。
结合第二方面的第一种至第四种实现方式中的任一种,本申请实施例第二方面的第五种实现方式中,直接预测的损失函数可以是:
其中,
用于表示直接预测出的目标观测点对应的视角图像中像素的颜色,c
i表示的是每个空间点的真实颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点的距离。直接预测的损失函数的作用是,在只学习真实颜色的情况下,使得预测出的新视角图像尽可能地接近于真实图像。
本申请实施例第三方面提供了一种图像生成模型的训练装置,包括:
确定单元,用于确定目标观测点的位置和视角方向,然后根据目标观测点的位置和视角方向,从N张输入图像中确定至少一张参考图像,其中,N为大于或等于2的整数。再根据至少一张参考图像,确定空间位置的参考颜色。其中,空间位置为来自目标观测点的光线经过的位置。
获取单元,用于获取目标观测点对应的视角图像中像素的真实颜色。
确定单元,还用于根据参考颜色和真实颜色,确定空间位置的残差颜色。
处理单元,用于根据残差颜色,训练图像生成模型。
本方面所示的有益效果,与第一方面的有益效果相似,详见第一方面所示,此处不再赘述。
结合第三方面,本申请实施例第三方面的第一种实现方式中,参考颜色包括:第一参考颜色,第一参考颜色为来自目标观测点的光线经过的位置的颜色的众数。
结合第三方面或者第三方面的第一种实现方式,本申请实施例第三方面的第二种实现方式中,处理单元,用于:
若真实颜色不是透明色,则根据残差颜色的损失函数,训练图像生成模型。
若真实颜色是透明色,则获取直接预测的损失函数,并根据残差颜色的损失函数,以及直接预测的损失函数,训练图像生成模型。
结合第三方面、第三方面的第一种实现至第二种实现方式中的任一种,本申请实施例第三方面的第三种实现方式中,获取单元,还用于获取目标观测点对应的新视角图像,其中,新视角图像是执行设备根据图像生成模型预测的。
确定单元,还用于根据新视角图像,以及至少一张参考图像中的每一张参考图像,确定第二参考颜色。之后,将第二参考颜色作为第一参考颜色。
结合第三方面的第三种实现方式,本申请实施例第三方面的第四种实现方式中,确定单元,具体用于:
确定目标观测点对应的新视角图像中的任一像素点为基准点。
若以基准点为中心的相同像素大小的图像块,在新视角图像和每一张参考图像中的相似度满足预设条件,则确定第二参考颜色为第一参考颜色。
若以基准点为中心的相同像素大小的图像块,在新视角图像和至少一张参考图像中的部分参考图像中的相似度不满足预设条件,则确定第二参考颜色为满足预设条件的参考图像在空间位置的参考颜色的众数。
若以基准点为中心的相同像素大小的图像块,在新视角图像和每一张参考图像中的相似度关系均不满足预设条件,则确定第二参考颜色的颜色值为0。
结合第三方面、第三方面的第一种至第四种实现方式中的任一种,本申请实施例第三方面的第五种实现方式中,确定单元,具体用于:
根据目标观测点的位置和视角方向,确定至少一个参考观测点,其中,至少一个参考观测点中的每个参考观测点与目标观测点的距离满足预设条件。
根据至少一个参考观测点,获取至少一张参考图像,其中,至少一个参考观测点中的每个参考观测点对应于至少一张参考图像中的每张参考图像。
结合第三方面的第一种至第五种实现方式中的任一种,本申请实施例第三方面的第六种实现方式中,残差颜色的损失函数可以是:
其中,
用于表示根据残差颜色和第一参考颜色预测出的新视角图像,
表示的是每个空间点的第一参考颜色,
表示的是每个空间点的残差颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点的距离。C(r)用于表示真实颜色。
残差颜色的损失函数的作用是使得根据第一参考颜色和残差颜色预测出的新视角图像,尽可能地接近于真实图像。
结合第三方面的第一种至第六种实现方式中的任一种,本申请实施例第三方面的第七种实现方式中,直接预测的损失函数可以是:
其中,
用于表示直接预测出的目标观测点对应的视角图像中像素的颜色,c
i表示的是每个空间点的真实颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点的距离。直接预测的损失函数的作用是,在只学习真实颜色的情况下,使得预测出的新视角图像尽可能地接近于真实图像。
本申请实施例第四方面提供了一种新视角图像的生成装置,包括:
确定单元,用于确定虚拟观测点的位置和视角方向。
获取单元,用于将虚拟观测点的位置和视角方向输入到图像生成模型中,获取来自虚拟观测点的光线经过的空间位置的残差颜色。
获取单元,还用于获取参考颜色,参考颜色是根据至少一张参考图像,确定出的空间位置的颜色。
处理单元,用于根据空间位置的残差颜色和参考颜色,生成虚拟观测点对应的新视角图像。
本方面所示的有益效果,与第一方面的有益效果相似,详见第一方面所示,此处不再赘述。
结合第四方面,本申请实施例第四方面的第一种实现方式中,图像生成模型包括:根据残差颜色的损失函数,训练得到的图像生成模型。或者,根据残差颜色的损失函数,以及直接预测的损失函数,训练得到的图像生成模型。
结合第四方面或者第四方面的第一种实现方式,本申请实施例第四方面的第二种实现方式中,参考颜色包括:第一参考颜色,第一参考颜色为来自虚拟观测点的光线经过的空间位置的颜色的众数。
获取单元,具体用于接收训练设备发送的第一参考颜色。
结合第四方面或者第四方面的第一种实现方式,本申请实施例第四方面的第二种实现方式中,参考颜色包括:第一参考颜色。
获取单元,具体用于:
根据虚拟观测点的位置和视角方向,确定至少一个参考观测点,其中,至少一个参考观测点中的每个参考观测点与虚拟观测点的距离满足预设条件。
从N张参考图片中确定至少一张参考图片,其中,至少一个参考观测点中的每个参考观测点对应于至少一张参考图像中的每张参考图像,N为大于或等于2的整数。
根据至少一张参考图像,确定第一参考颜色。
本申请实施例第五方面提供了一种图像处理***,包括:训练设备、执行设备。
训练设备包括第一处理器和第一存储器,第一处理器用于执行前述第一方面的方法, 第一存储器用于存储训练图片集,训练图片集中包括至少两张图像。
执行设备包括第二处理器和第二存储器,第二处理器用于执行前述第二方面的方法,第二存储器用于存储新视角图像。
本申请实施例第六方面提供了一种计算机可读存储介质,该计算机可读存储介质中保存有程序,当所述计算机执行所述程序时,执行前述第一方面或第二方面的方法。
本申请实施例第七方面提供了一种计算机程序产品,当所述计算机程序产品在计算机上执行时,计算机执行前述第一方面或第二方面的方法。
本申请实施例第八方面提供了一种计算机设备,包括:
处理器、存储器、输入输出设备以及总线。其中,处理器、存储器、输入输出设备与总线相连。处理器中存储计算机指令,处理器用于执行计算机指令,使得计算机设备执行以下步骤:
确定目标观测点的位置和视角方向。
根据位置和视角方向,从N张输入图像中确定至少一张参考图像,其中,N为大于或等于2的整数。
根据至少一张参考图像,确定空间位置的参考颜色,空间位置为来自目标观测点的光线经过的位置。
获取目标观测点对应的视角图像中像素的真实颜色。
根据参考颜色和真实颜色,确定空间位置的残差颜色。
根据残差颜色,训练图像生成模型。
该计算机设备用于执行前述第一方面的方法。
本申请实施例第九方面提供了一种计算机设备,包括:
处理器、存储器、输入输出设备以及总线。其中,处理器、存储器、输入输出设备与总线相连。处理器中存储计算机指令,处理器用于执行计算机指令,使得计算机设备执行以下步骤:
确定虚拟观测点的位置和视角方向。
将位置和视角方向输入到图像生成模型中,获取来自虚拟观测点的光线经过的空间位置的残差颜色。
获取参考颜色,参考颜色是根据至少一张参考图像,确定出的空间位置的颜色。
根据空间位置的残差颜色和参考颜色,生成虚拟观测点对应的新视角图像。
该计算机设备用于执行前述第二方面的方法。
图1为本申请实施例人工智能主体框架的一种结构示意图;
图2为本申请实施例图像处理***的一个应用场景示意图;
图3为本申请实施例图像处理***的一种***架构图;
图4为本申请实施例图像生成模型的训练方法的一个流程示意图;
图5为本申请实施例图像生成模型的训练方法的另一个流程示意图;
图6为本申请实施例新视角图像生成方法的一个流程示意图;
图7为本申请实施例图像生成模型的训练装置的一个结构示意图;
图8为本申请实施例新视角图像的生成装置的一个结构示意图;
图9为本申请实施图像处理***的一个结构示意图。
本申请实施例提供了图像生成模型的训练方法、新视角图像生成方法及装置,通过图像生成模型学习光线经过的空间点的残差颜色,生成新视角图像,提升了新视角图像的清晰度。
首先对成像过程进行简单的介绍。光线在穿过物体时,会受到物体本身的不透明度等相关因素的影响,再经过光的折射和反射,最终呈现出人眼所看到的颜色。使用数学模型来模拟人眼观测物体的过程,可以理解为对某一观测点发出的每条光线在每一个空间点的颜色进行积分的过程。
接下来,对本申请实施例可能涉及的相关概念进行解释。
(1)损失函数(loss function)。
损失函数用于衡量预测值和真实值之间的差值,差值的大小能够很好地反映出模型和实际数据之间的差异。训练模型的作用在于使得根据模型预测的结果尽可能接近真实结果,所以可以通过设定损失函数来评价并不断对所训练的模型进行优化,损失函数的输出值(loss)越大,说明预测结果和真实结果的差异越大,训练模型的过程就是在尽可能缩小loss的过程。
(2)目标观测点、参考观测点、虚拟观测点。
客观地说,目标观测点、参考观测点和虚拟观测点一样,都是对物体进行观测的一个视角,可以把一个观测点简单地理解为一个相机的姿态。在不同的观测点对同一个物体进行观测,得到的图像可能是不一样的,原因在于每个观测点都有各自的位置和视角方向。通常情况下,观测点的位置表示为三维的坐标点(x,y,z),观测点的视角方向包括绕着观测点的各个轴向旋转的角度,可以包括三个角度,由于某些观测点对于其中的一个轴向的旋转方向并不敏感,因此,观测点的视角方向也可以表示为二维的形式,比如
具体此处不做限定。
本申请实施例中,目标观测点,是指在对图像生成模型进行训练时,人工任意选定的一个视角。参考观测点,是指已经对待观测物体进行观测并生成了相应的视角图像的观测点。虚拟观测点,是指之前并没有在该观测点对待观测物体进行观测,在现有的图片集中并不存在虚拟观测点对应的新视角图像。
(3)参考颜色。
参考颜色是指来自目标观测点的光线所经过的空间位置的颜色,需要根据参考图像进行确定。确定参考颜色的过程实际上是一个预测的过程,在得到参考图像的情况下,
下面对人工智能***的总体工作流程进行描述,请参阅图1,图1为本申请实施例人工智能主体框架的一种结构示意图,该主体框架描述了人工智能***总体工作流程,适用 于通用的人工智能领域需求。
图1所示的实施例中包括“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度。
“智能信息链”反映的是从数据的获取到处理的一系列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。
而“IT价值链”则是从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施。
基础设施为人工智能***提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。基础设施通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。
(2)数据。
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理。
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能***中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力。
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用***,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用。
智能产品及行业应用指人工智能***在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。
下面对本申请实施例的应用场景进行简单的说明。请参阅图2,图2为本申请实施例图像处理***的一个应用场景示意图。
相机201、处理器202和智能手机203之间建立通信连接,处理器202可以接收到相机201发送的照片或者视频,这些照片和视频中的每一帧画面可以看作是训练图片集中的 图像,处理器202根据虚拟观测点的位置和视角方向,从收到的图像中确定参考观测点对应的参考图像,利用已经训练好的图像生成模型,生成新视角图像。之后,处理器202可以将新视角图像进行整合,并发送给智能手机203,也可以只向智能手机203发送未经过整合的新视角图像。其中,整合后的图像可以是360°全景照片或者720°全景照片,根据实际应用的需要进行选择,具体此处不做限定。智能手机203对收到的图像进行展示。
需要注意的是,图2所示实施例只是本申请实施例图像处理***的一个应用场景,在实际应用中,相机201还可以被其他的设备替换,可以是笔记本电脑,也可以是平板电脑,只要是具有摄像功能,能够拍摄照片或者视频的设备即可,具体此处不做限定。处理器202并不一定存在于智能手机203之外,可以就是智能手机203中的处理器。智能手机203也可以被其他的设备替换,可以是虚拟现实(virtual reality,VR)设备或者增强现实(augmented raelity,AR)设备,还可以是混合现实(mixed reality,MR)设备,只要该设备对新视角图像进行展示即可,具体此处不做限定。
下面对本申请实施例提供的图像处理***进行介绍,请参阅图3,图3为本申请实施例提供的图像处理***的一种***架构图。在图3所示的实施例中,图像处理***包括执行设备310,训练设备320,数据库330,客户设备340和数据存储***350,其中执行设备310包括计算模块311。
其中,数据库330中存有训练图片集,使得训练设备320根据训练图片集中的至少一张参考图像,对来自目标观测的光线经过的位置的参考颜色进行预测。训练设备320用于生成图像生成模型301,并利用数据库330中的至少一张图片对图像生成模型301进行迭代训练,从而得到最优的图像生成模型301。执行设备310根据图像生成模型301生成新视角图像之后,可以将新视角图像发送给不同的设备,可以发送给客户设备340,也可以发送给数据存储***350,具体此处不做限定。
图像生成模型301可以应用于不同的设备中,例如手机、平板、笔记本电脑、VR设备、AR设备、监控***等等,具体此处不做限定。训练设备320将图像生成模型301配置在执行设备310中的方式可以是通过无线通信方式发送,也可以是通过有线通信方式发送,还可以通过可移动存储设备将图像生成模型301配置在执行设备310中,实际的配置方式根据实际应用的需要进行选择,具体此处不做限定。
数据库330中的训练图片集中有多张图像,训练设备320在对图像生成模型301进行训练时,会根据输入的目标观测点的位置和视角方向,从输入的训练图片集中确定出至少一张图片作为参考图像。训练图片集中的多张图像,有多种表现形式,可以是使用拍摄设备得到的照片,也可以是视频帧中的至少一帧图像,具体此处不做限定。训练图片集中的多张图像有多种获取方式,可以是从数据采集设备360中获取的,也可以是客户设备340发送的,其中,数据采集设备360可以是笔记本电脑,也可以是照相机,只要是具有摄像功能,能够拍摄照片或者视频的设备即可,具体此处不做限定。
本申请实施例中,客户设备340和执行设备310可以分别为独立的设备,也可以为一个整体,具体此处不做限定。执行设备310配置有I/O接口312,用于与客户设备340进行数据交互,用户可以通过客户设备340向I/O接口312输入虚拟观测点的空间位置和视 角方向,执行设备310通过I/O接口312将生成的新视角图像发送给客户设备340,提供给用户。
需要注意的是,图3仅是本申请实施例提供的图像处理***的架构示意图,图中所示的设备、器件之间的位置关系并不构成任何限制。示例的,若执行设备310配置在客户设备340中,当客户设备340为手机时,执行设备310也可以是手机中的图像处理器(graphics processing unite,GPU)或者神经网络处理器(neural-network processing units,NPU),具体此处不做限定。
下面对本申请实施例提供的图像生成模型的训练方法进行描述,请参阅图4,图4为本申请实施例中图像生成模型训练方法的一个流程示意图,包括:
401、训练设备确定目标观测点的位置和视角方向。
在对图像生成模型进行训练时,需要将训练的目标观测点的相关信息输入到训练设备。其中,目标观测点的相关信息包括目标观测的位置和目标观测点的视角方向。本申请实施例以目标观测点的位置是一个三维的坐标点(x,y,z),观测点的视角方向是二维的
为例,进行介绍。目标观测点的坐标点和视角方向可以由人工选定后,输入到训练设备中。
402、训练设备确定至少一张参考图像。
在对图像生成模型进行训练之前,可以使用拍摄设备在多个不同的观测点对同一个物体进行观测,得到多张图像。其中,拍摄设备可以是智能手机、相机或者拍立得,只要是具有拍摄功能的设备即可,具体此处不做限定。多张图像的表现形式有多种,可以是拍摄设备使用拍照功能得到的照片,也可以是拍摄设备使用录像功能得到的视频中的每一帧图像,具体此处不做限定。
使用拍摄设备得到的多张的图像,可以称为训练图片集,可以将这些图像输入到训练设备中,使得训练设备从中选择出至少一张参考图像。下面对训练设备选择参考图像的过程进行说明。
训练设备根据输入的目标观测点的位置和目标观测点的视角方向,可以确定出至少一个参考观测点,然后从训练图片集中确定出每个参考观测点对应的参考图像。其中,至少一个参考观测点中的每一个参考观测点和目标观测点之间的距离需要满足预设条件。这里所说的距离是由观测点的位置和视角方向共同决定的,因为两个观测点之间的位置越接近,以及两个观测点的视角方向越类似的话,这两个观测点对应的视角图像的重叠区域才会越大,两个视角图像的相似度才越高。因此,参考观测点和目标观测点之间的距离需要满足预设条件包括两点的位置之间满足预设条件,两点的视角方向之间满足预设条件。满足预设条件可以是小于或者等于某个预设阈值。
需要注意的是,每个观测点是视角方向都可以使用观测点自身的坐标系表示,但是在于其他观测点进行对比的时候,各个观测点应该以同一个坐标系为基准,这样才能使得对比的结果具有参考意义。
本申请实施例中,训练设备可以在误差允许的范围内从训练图片集中选择参考图像,提升了方案的可实现性。
403、训练设备根据至少一张参考图像,确定空间位置的第一参考颜色。
训练设备确定出至少一张参考图像之后,训练设备可以将来自目标观测点的光线经过的空间位置中的空间点,反投影回参考图像中的不同像素位置上,得到该空间点在参考图像中的参考颜色。由于遮挡和光照等因素的影响,不同观测点在同一空间位置反投影出的参考颜色可能会不同,为了减少这些因素的干扰,训练设备可以将参考颜色的众数作为后续训练过程中使用的参数,也即第一参考颜色。在一定程度上可能会降低干扰因素对于预测结果的影响,提升本申请技术方***性。
404、训练设备获取目标观测点对应的视角图像中像素的真实颜色。
在对图像生成模型进行训练时,实际上在目标观测点对被观测物体进行过观测,并且存在目标观测点对应的视角图像。因此,目标观测点对应的视角图像中像素的真实颜色可以由人工预先输入给训练设备,用于跟第一参考颜色进行对比,确定出残差颜色。
需要注意的是,步骤403和步骤404没有必然的先后顺序,可以先执行步骤403,也可以先执行步骤404,根据实际应用的需要进行选择,具体此处不做限定。
405、训练设备确定空间位置的残差颜色。
残差颜色可以理解为,是关于目标观测点的位置和视角方向,以及神经网络的参数的一个函数,第一参考颜色和真实颜色是该神经网络的相关参数。训练设备在已知目标观测点的位置和视角方向,以及第一参考颜色和真实颜色的情况下,可以通过神经网络得到来自目标观测点的光线经过的空间位置中某一个空间点的残差颜色和不透明度。
406、训练设备确定真实颜色是否为透明,若是,则执行步骤408,若否,则执行步骤407。
由于颜色的透明度不同,对于最终生成的图像的影响程度也不同,因此训练设备在获取到真实颜色之后,可以根据真实颜色的透明情况,确定对图像生成模型进行训练所使用的损失函数的类型。
需要注意的是,步骤405和步骤406没有必然的先后顺序,可以先执行步骤405,也可以先执行步骤406,根据实际应用的需要进行选择,具体此处不做限定。
407、训练设备根据残差颜色的损失函数,训练图像生成模型。
训练设备在确定出真实颜色是透明的情况下,可以根据预设的残差颜色的损失函数,训练图像生成模型。残差颜色的损失函数可以是:
其中,
用于表示根据残差颜色和第一参考颜色预测出的新视角图像,
表示的是每个空间点的第一参考颜色,
表示的是每个空间点的残差颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点的距离。C(r)用于表示真实颜色。
408、训练设备获取直接预测的损失函数。
训练设备在确定出真实颜色不是透明的情况下,可以获取直接预测的损失函数。直接预测的损失函数可以是:
其中,
用于表示直接预测出的目标观测点对应的视角图像中像素的颜色,c
i表示的是每个空间点的真实颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点的距离。直接预测的损失函数的作用是,在只学习真实颜色的情况下,使得预测出的新视角图像尽可能地接近于真实图像。
训练设备可以通过不同的方式直接预测出目标观测点对应的视角图像的真实颜色,比如使用MPI技术,或者使用NeRF技术预测真实颜色,这一过程并不是本申请技术方案重点关注的地方,所以不做详细的描述。
409、训练设备根据残差颜色的损失函数和直接预测的损失函数,训练图像生成模型。
训练设备在确定出直接预测的损失函数之后,可以根据残差颜色的损失函数和直接预测的损失函数,对图像生成模型进行联合训练。联合训练的损失函数可以表示为
Loss=Loss
whole+Loss
resi
本申请实施例中,图像生成模型是根据残差颜色训练得到的,残差颜色属于低频信息,易于表征和记忆,因此,可以提升基于该图像生成模型得到的新视角图像的清晰度。
进一步的,训练设备可以联合直接预测的损失函数对图像生成模型进行训练,避免因为真实颜色为透明的情况下,仅仅使用残差颜色的损失函数训练图像生成模型出现过拟合的现象,减少了新视角图像出现错误的概率,提高了算法的鲁棒性和本申请技术方案的可靠性。
由于不同参考观测点观测到的图像不尽相同,一些参考观测点观测到的可能是遮挡物的颜色,从而影响第一参考颜色和残差颜色的取值,也会影响图像生成模型的准确度。
因此,训练设备需要对图像生成模型进行优化,请参阅图5,图5为本申请实施例中图像生成模型的训练方法的一个实施例。
501、训练设备确定目标观测点的位置和视角方向。
502、训练设备确定至少一张参考图像。
503、训练设备根据至少一张参考图像,确定空间位置的第一参考颜色。
504、训练设备获取目标观测点对应的视角图像中像素的真实颜色。
505、训练设备确定空间位置的残差颜色。
506、训练设备确定真实颜色是否为透明,若是,则执行步骤508,若否,执行步骤507。
507、训练设备根据残差颜色的损失函数,训练图像生成模型。
508、训练设备获取直接预测的损失函数。
509、训练设备根据残差颜色的损失函数和直接预测的损失函数,训练图像生成模型。
步骤501至步骤509与图4所示实施例中步骤401至步骤409类似,此处不再赘述。
510、训练设备确定新视角图像与每一张参考图像是否满足预设条件,若是,则执行步骤511,若否,则执行步骤512。
训练设备在对图像生成模型进行了一个迭代周期的训练之后,需要对图像生成模型的准确度进行检测,对于存在的问题进行修正,从而不断优化图像生成模型,使得依据该图像生成模型得到的新视角图像尽可能地接近真实图像。下面对图像生成模型的优化过程进行介绍。
执行设备可以根据上一个迭代周期后的图像生成模型,得到虚拟观测点对应的空间位置的残差颜色,然后结合这一空间位置的参考颜色,预测出虚拟观测点对应的新视角图像。然后将新视角图像输入到训练设备中,训练设备通过判断新视角图像和参考图像之间的相似度,判断训练过程中使用的参考图像是否准确。
空间点投影到图像上会对应到某一个像素位置,因此,判断的方式可以是,选择新视角图像中的某一个像素点作为基准点,比较以基准点为中心的相同像素大小的图像块,在新视角图像和每一张参考图像中的相似度,是否满足预设条件。若满足预设条件,则说明这一张参考图像并不存在遮挡的情况,可以继续用于下一迭代周期对图像生成模型的训练过程中。
其中,图像块的大小可以是3px×3px,也可以是5px×5px,px是pixel的缩写,表示的是像素根据实际应用的需要进行选择,具体此处不做限定。两个图像块的相似度满足预设条件,可以是两个图像块的颜色相似度小于或等于预设阈值。
511、训练设备确定第二参考颜色为第一参考颜色。
如果训练设备选取的每一张参考图像都满足预设条件,则说明上一迭代周期使用的第一参考颜色并没有出错,可以继续在后续的训练过程中使用。
512、训练设备确定满足条件的参考图像的参考颜色的众数为第二参考颜色。
如果训练设备选取的至少一张参考图像中存在不满足条件的参考图像,那么训练设备需要将不满足条件的参考图像去掉,重新确定训练过程使用的参考颜色。
至少一张参考图像中存在不满足条件的参考图像,可能有以下两种情况:
一种情况是至少一张参考图像中的部分参考图像不满足条件,假设一共有Y张参考图像,其中的X张图像不满足预设条件,那么训练设备可以确定剩下的(Y-X)张图像才是用来确定第二参考颜色的依据。在这种情况下,第二参考颜色是这(Y-X)张参考图像在待观测点的参考颜色的众数。第二参考颜色可能与上一迭代周期使用的第一参考颜色相同,也有可能不同,与被观测物体被遮挡的情况有关,具体此处不做限定。其中,Y为大于或等于1的整数,X为大于或等于1,且小于Y的整数。
另一种情况是N张参考图像中的每一张参考图像都不满足条件,在这种情况下,训练设备可以确定第二参考颜色的颜色值为0。
可选的,在实际应用中可能存在多个第一参考颜色,出现这种情况的原因可能有多种,下面分别举例说明。假设有18张参考图像,待观测点的真实颜色是红色。
一种可能的情况是,有9张参考图像中的参考颜色是遮挡物的颜色(黄色),有9张参考图像中的颜色是真实颜色(红色),此时参考颜色的众数有两个。
一种可能的情况是,有6张参考图像中的参考颜色是遮挡物1的颜色(黄色),有6张参考图像中的参考颜色是遮挡物2的颜色(绿色),有6张参考图像中的参考颜色是真实颜色(红色),此时参考颜色的众数有三个。
在这些情况中,由于遮挡的存在使得第一参考颜色出现不符合实际需要的情形,仅仅使用图4所示的实施例的方法,难以去除错误的第一参考颜色带来的影响。步骤512的意义就在于剔除错误的参考图像对于图像生成模型的不利影响,提升算法的鲁棒性。
513、训练设备将第二参考颜色作为第一参考颜色,对图像生成模型进行优化。
训练设备在确定出第二参考颜色之后,可以将第二参考颜色作为第一参考颜色输入到图像生成模型中,从而调整图像生成模型的参数,对图像生成模型进行优化。
本申请实施例中,图像生成模型是根据残差颜色训练得到的,残差颜色属于低频信息,易于表征和记忆,因此,可以提升基于该图像生成模型得到的新视角图像的清晰度。
进一步的,训练设备通过比较新视角图像和训练时所使用的至少一张参考图像,从而去除在上一迭代周期中对训练图像生成模型所用的不合适的参数值,从而降低待观测点被遮挡对新视角图像造成的影响,提升了算法的鲁棒性,以及技术方***性。
需要注意的是,在本申请的一种实施方式中,在图5所示实施例中,步骤506、步骤508和步骤509可以不执行,在步骤505之后直接执行步骤507。
在这种实现方式中,训练设备直接依据残差颜色的损失函数对图像生成模型进行优化,并根据上一迭代周期的训练结果不断对图像生成模型进行优化,相较于图4所示的实施例,去除了训练图片集中错误的参考图像,使得根据训练好的图像生成模型得到的新视角图像的准确度更高。同时,相较于图5所示的实施例,可以节约操作步骤,简化操作过程,从而减少了运算资源的消耗。
由于图像生成模型的质量与密集匹配的准确性有关,而图像的密集匹配又基于纹理的相似性,图像中无纹理的区域难以提供匹配信息,纹理丰富的区域可以提供准确的匹配信息。此处所说的纹理丰富的区域,是指颜色变化的区域,比如由红色变为黄色,两个颜色的交接处,可以看作是纹理的边缘。此外,由于人的感官对于纹理丰富的区域的感知也较为敏感,所以,本申请实施例提供的图像生成模拟在训练时会对纹理丰富的区域进行更多的训练,使得最终得到的图像生成模型更加实用。
本申请实施例还提供了一种新视角图像的生成方法,可以使用上述的图像生成模型,生成新视角的图像。请参阅图6,图6为本申请实施例中新视角图像生成方法的一个实施例。
601、执行设备确定虚拟观测点的位置和视角方向。
虚拟观测点是实际上并没有对被观测物体进行过观测的观测点,可以由人工随机选择。在人工选定虚拟观测点之后,执行设备可以接收人工输入的虚拟观测点的位置和视角方向。
602、执行设备根据图像生成模型,获取残差颜色。
执行设备在获取虚拟观测点的位置和视角方向之后,可以将虚拟观测点的位置和视角方向输入到图像生成模型中,得到虚拟观测点对应的空间位置的残差颜色。其中,虚拟观测点对应的空间位置是指来自虚拟观测点的光线所经过的位置。
本实施例中,执行设备使用的图像生成模型包括图3至图5所示实施例中的图像生成模型,可以是未完全训练好的图像生成模型,也可以是训练好的图像生成模型,根据实际应用的需要进行选择,具体此处不做限定。
虽然使用没训练好的图像生成模型得到的残差颜色存在较大的误差,但是基于该残差颜色得到的新视角图像可以用来去除遮挡的参考图像,从而对图像生成模型进行优化,有存在的意义。
使用训练好的图像生成模型得到的残差颜色是本申请实施例理想状态下的残差颜色,基于该残差颜色生成的新视角图像也较为准确。
603、执行设备获取第一参考颜色。
执行设备在接收到虚拟观测点的位置和视角方向之后,可以从训练图片集中确定出至少一张参考图像,从而获取到第一参考颜色。
需要注意的是,从训练图片集中确定出至少一张参考图像的执行主体也可以是训练设备,训练设备选择参考图像的过程与图4所示实施例步骤402类似,不同之处在于确定参考观测点的依据是虚拟观测点的位置和视角方向,而不是目标观测点是位置和视角方向,具体此处不再赘述。
需要注意的是,本实施例中的第一参考颜色包括图4和图5所示实施例中的第一参考颜色。
执行设备在获取到第一参考颜色时,还能够获取到空间位置的不透明度,因为空间位置的不透明度会影响最终的成像效果,因此执行设备还需要获取到不透明度。
604、执行设备根据残差颜色和第一参考颜色,生成新视角图像。
在图像中,每个像素位置的颜色是由一条光线上多个空间点的颜色积分得到的,执行设备在获取到每个空间点的第一参考颜色、残差颜色和不透明度之后,可以积分得到虚拟观测点对应的新视角图像,积分的过程可能有以下几种情况。
其中一种情况是分别对每个空间点的残差颜色和第一参考颜色进行积分,然后将积分的结果相加,得到新视角图像。
另一种情况是先把每个空间点的第一参考颜色和残差颜色相加,然后再一起积分,得到新视角图像。上述两种积分方式,使用的具有物理意义的函数都可以是
其中,
表示的是预测出来的新视角图像,
表示的是每个空间点的第一参考颜色,
表示的是每个空间点的残差颜色,σ
i表示的是所述空间位置中某一个空间点的不透明度,δ
i用于表示的是一条光线上各个空间点的距离。
本申请实施例中,图像生成模型是根据残差颜色训练得到的,残差颜色属于低频信息,易于表征和记忆,因此,执行设备使用该图像生成模型生成的新视角图像的清晰度较高。
下面对本申请实施例提供的图像生成模型的训练装置进行说明,请参阅图7,图7为本申请实施例提供的图像生成模型的训练装置700的一个实施例,包括:
确定单元701,用于确定目标观测点的位置和视角方向,然后根据目标观测点的位置 和视角方向,从N张输入图像中确定至少一张参考图像,其中,N为大于或等于2的整数。再根据至少一张参考图像,确定空间位置的参考颜色。其中,空间位置为来自目标观测点的光线经过的位置。
获取单元702,用于获取目标观测点对应的视角图像中像素的真实颜色。
确定单元701,还用于根据参考颜色和真实颜色,确定空间位置的残差颜色。
处理单元703,用于根据残差颜色,训练图像生成模型。
在本申请的一些可选实施例中,参考颜色包括:第一参考颜色,第一参考颜色为来自目标观测点的光线经过的位置的颜色的众数。
在本申请的一些可选实施例中,处理单元703,用于:
若真实颜色不是透明色,则根据残差颜色的损失函数,训练图像生成模型。
若真实颜色是透明色,则获取直接预测的损失函数,并根据残差颜色的损失函数,以及直接预测的损失函数,训练图像生成模型。
在本申请的一些可选实施例中,获取单元702,还用于获取目标观测点对应的新视角图像,其中,新视角图像是执行设备根据图像生成模型预测的。
确定单元701,还用于根据新视角图像,以及至少一张参考图像中的每一张参考图像,确定第二参考颜色。之后,将第二参考颜色作为第一参考颜色。
在本申请的一些可选实施例中,确定单元701,具体用于:
确定新视角图像中的任一像素点为基准点。
若以基准点为中心的相同像素大小的图像块,在新视角图像和每一张参考图像中的相似度满足预设条件,则确定第二参考颜色为第一参考颜色。
若以基准点为中心的相同像素大小的图像块,在新视角图像和至少一张参考图像中的部分参考图像中的相似度不满足预设条件,则确定第二参考颜色为满足预设条件的参考图像在空间位置的参考颜色的众数。
若以基准点为中心的相同像素大小的图像块,在新视角图像和每一张参考图像中的相似度关系均不满足预设条件,则确定第二参考颜色的颜色值为0。
在本申请的一些可选实施例中,确定单元701,具体用于:
根据目标观测点的位置和视角方向,确定至少一个参考观测点,其中,至少一个参考观测点中的每个参考观测点与目标观测点的距离满足预设条件。
根据至少一个参考观测点,获取至少一张参考图像,其中,至少一个参考观测点中的每个参考观测点对应于至少一张参考图像中的每张参考图像。
在本申请的一些可选实施例中,残差颜色的损失函数可以是:
其中,
用于表示根据残差颜色和第一参考颜色预测出的新视角图像,
表示的是每个空间点的第一参考颜色,
表示的是每个空间点的残差颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点的距离。C(r)用于表示真实颜色。
在本申请的一些可选实施例中,直接预测的损失函数可以是:
其中,
用于表示直接预测出的目标观测点对应的视角图像中像素的颜色,c
i表示的是每个空间点的真实颜色,σ
i表示的是空间位置中某一个空间点的不透明度,δ
i表示的是一条光线上各个空间点的距离。直接预测的损失函数的作用是,在只学习真实颜色的情况下,使得预测出的新视角图像尽可能地接近于真实图像。
本实施例中,图像生成模型的训练装置700可以执行前述图3至图5所示实施例中训练设备执行的操作,具体此处不再赘述。
下面对本申请实施例提供的新视角图像的生成装置进行介绍,请参阅图8,图8为本申请实施例提供的新视角图像的生成装置800的一个实施例,包括:
确定单元801,用于确定虚拟观测点的位置和视角方向。
获取单元802,用于将虚拟观测点的位置和视角方向输入到图像生成模型中,获取来自虚拟观测点的光线经过的空间位置的残差颜色。
获取单元802,还用于获取参考颜色,参考颜色是根据至少一张参考图像,确定出的空间位置的颜色。
处理单元803,用于根据空间位置的残差颜色和参考颜色,生成虚拟观测点对应的新视角图像。
在本申请的一些可选实施例中,图像生成模型包括:根据残差颜色的损失函数,训练得到的图像生成模型。或者,根据残差颜色的损失函数,以及直接预测的损失函数,训练得到的图像生成模型。
在本申请的一些可选实施例中,参考颜色包括:第一参考颜色,第一参考颜色为来自虚拟观测点的光线经过的空间位置的颜色的众数。
获取单元802,具体用于接收训练设备发送的第一参考颜色。
在本申请的一些可选实施例中,参考颜色包括:第一参考颜色。
获取单元802,具体用于:
根据虚拟观测点的位置和视角方向,确定至少一个参考观测点,其中,至少一个参考观测点中的每个参考观测点与虚拟观测点的距离满足预设条件。
从N张参考图片中确定至少一张参考图片,其中,至少一个参考观测点中的每个参考观测点对应于至少一张参考图像中的每张参考图像,N为大于或等于2的整数。
根据至少一张参考图像,确定第一参考颜色。
本实施例中,新视角图像的生成装置800可以执行前述图2所示实施例中处理器所执 行的操作,或者图6所示实施例中执行设备所执行的操作,具体此处不再赘述。
本申请实施例还提供了一种图像处理***,请参阅图9,图9为本申请实施例提供的图像处理***900的一个实施例,包括:
训练设备910和执行设备920。
训练设备910包括:第一处理器911和第一存储器912。
第一存储器912,用于存储训练图片集,训练图片集中包括至少两张图像。
第一处理器911,用于执行前述图3至图5所示实施例中训练设备执行的操作,或者前述图7所示实施例中图像生成模型的训练装置700所执行的操作,具体此处不再赘述。
训练设备920包括:第二处理器921和第二存储器922。
第二存储器922,用于存储新视角图像。
第二处理器921,用于前述图2所示实施例中处理器所执行的操作,前述图6所示实施例中执行设备所执行的操作,或者前述图8新视角图像的生成装置800所执行的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (23)
- 一种图像生成模型的训练方法,其特征在于,包括:确定目标观测点的位置和视角方向;根据所述位置和所述视角方向,从N张输入图像中确定至少一张参考图像,其中,N为大于或等于2的整数;根据所述至少一张参考图像,确定空间位置的参考颜色,所述空间位置为来自所述目标观测点的光线经过的位置;获取所述目标观测点对应的视角图像中像素的真实颜色;根据所述参考颜色和所述真实颜色,确定所述空间位置的残差颜色;根据所述残差颜色,训练图像生成模型。
- 根据权利要求1所述的方法,其特征在于,所述参考颜色包括:第一参考颜色,所述第一参考颜色为所述空间位置的颜色的众数。
- 根据权利要求1所述的方法,其特征在于,所述根据所述残差颜色,训练图像生成模型,包括:若所述真实颜色不是透明色,则根据所述残差颜色的损失函数,训练所述图像生成模型;若所述真实颜色是透明色,则获取直接预测的损失函数;根据所述残差颜色的损失函数,以及所述直接预测的损失函数,训练所述图像生成模型。
- 根据权利要求1至3中任一项所述的方法,其特征在于,在所述根据所述残差颜色,训练图像生成模型之后,所述方法还包括:获取目标观测点对应的新视角图像,其中,所述新视角图像是执行设备根据所述图像生成模型预测的;根据所述新视角图像,以及所述至少一张参考图像中的每一张参考图像,确定第二参考颜色;将所述第二参考颜色作为所述第一参考颜色。
- 根据权利要求4所述的方法,其特征在于,所述根据所述新视角图像,以及所述至少一张参考图像中的每一张参考图像,确定第二参考颜色,包括:确定所述新视角图像中的任一像素点为基准点;若以所述基准点为中心的相同像素大小的图像块,在所述新视角图像和所述每一张参考图像中的相似度满足预设条件,则确定所述第二参考颜色为所述第一参考颜色;若以所述基准点为中心的相同像素大小的图像块,在所述新视角图像和所述至少一张参考图像中的部分参考图像中的相似度不满足预设条件,则确定所述第二参考颜色为满足预设条件的参考图像在所述空间位置的参考颜色的众数;若以所述基准点为中心的相同像素大小的图像块,在所述新视角图像和所述每一张参考图像中的相似度关系均不满足预设条件,则确定所述第二参考颜色的颜色值为0。
- 根据权利要求1至5中任一项所述的方法,其特征在于,所述根据所述位置和所述 视角方向,从N张输入图像中确定至少一张参考图像,包括:根据所述位置和所述视角方向,确定至少一个参考观测点,其中,所述至少一个参考观测点中的每个参考观测点与所述目标观测点的距离满足预设条件;根据所述至少一个参考观测点,获取所述至少一张参考图像,其中,所述至少一个参考观测点中的每个参考观测点对应于所述至少一张参考图像中的每张参考图像。
- 一种新视角图像的生成方法,其特征在于,包括:确定虚拟观测点的位置和视角方向;将所述位置和所述视角方向输入到图像生成模型中,获取来自所述虚拟观测点的光线经过的空间位置的残差颜色;获取参考颜色,所述参考颜色是根据至少一张参考图像,确定出的所述空间位置的颜色;根据所述空间位置的残差颜色和所述参考颜色,生成所述虚拟观测点对应的新视角图像。
- 根据权利要求7所述的方法,其特征在于,所述图像生成模型包括:根据残差颜色的损失函数,训练得到的图像生成模型;或,根据所述残差颜色的损失函数,以及直接预测的损失函数,训练得到的图像生成模型。
- 根据权利要求7或8所述的方法,其特征在于,所述参考颜色包括:第一参考颜色,所述第一参考颜色为所述空间位置的颜色的众数;所述获取参考颜色包括:接收训练设备发送的第一参考颜色。
- 根据权利要求7或8所述的方法,其特征在于,所述参考颜色包括:所述第一参考颜色;所述获取参考颜色,包括:根据所述位置和视角方向,确定至少一个参考观测点,其中,所述至少一个参考观测点中的每个参考观测点与所述虚拟观测点的距离满足预设条件;从N张参考图片中确定至少一张参考图片,其中所述至少一个参考观测点中的每个参考观测点对应于所述至少一张参考图像中的每张参考图像;根据所述至少一张参考图像,确定所述第一参考颜色。
- 一种图像生成模型的训练装置,其特征在于,包括:确定单元,用于:确定目标观测点的位置和视角方向;根据所述位置和所述视角方向,从N张输入图像中确定至少一张参考图像,其中,N为大于或等于2的整数;根据所述至少一张参考图像,确定空间位置的参考颜色,所述空间位置为来自所述目标观测点的光线经过的位置;获取单元,用于获取所述目标观测点对应的视角图像中像素的真实颜色;所述确定单元,还用于根据所述参考颜色和所述真实颜色,确定所述空间位置的残差 颜色;处理单元,用于根据所述残差颜色,训练图像生成模型。
- 根据权利要求11所述的装置,其特征在于,所述参考颜色包括:第一参考颜色,所述第一参考颜色为所述空间位置的颜色的众数。
- 根据权利要求11所述的装置,其特征在于,所述处理单元,具体用于:若所述真实颜色不是透明色,则根据所述残差颜色的损失函数,训练所述图像生成模型;若所述真实颜色是透明色,则获取直接预测的损失函数;根据所述残差颜色的损失函数,以及所述直接预测的损失函数,训练所述图像生成模型。
- 根据权利要求11至13中任一项所述的装置,其特征在于,所述获取单元,还用于获取目标观测点对应的新视角图像,其中,所述新视角图像是执行设备根据所述图像生成模型预测的;所述确定单元,还用于根据所述新视角图像,以及所述至少一张参考图像中的每一张参考图像,确定第二参考颜色;所述确定单元,还用于将所述第二参考颜色作为所述第一参考颜色。
- 根据权利要求14所述的装置,其特征在于,所述确定单元,具体用于:确定所述新视角图像中的任一像素点为基准点;若以所述基准点为中心的相同像素大小的图像块,在所述新视角图像和所述每一张参考图像中的相似度满足预设条件,则确定所述第二参考颜色为所述第一参考颜色;若以所述基准点为中心的相同像素大小的图像块,在所述新视角图像和所述至少一张参考图像中的部分参考图像中的相似度不满足预设条件,则确定所述第二参考颜色为满足预设条件的参考图像在所述空间位置的参考颜色的众数;若以所述基准点为中心的相同像素大小的图像块,在所述新视角图像和所述每一张参考图像中的相似度关系均不满足预设条件,则确定所述第二参考颜色的颜色值为0。
- 根据权利要求11至15所述的装置,其特征在于,所述确定单元,具体用于:根据所述位置和所述视角方向,确定至少一个参考观测点,其中,所述至少一个参考观测点中的每个参考观测点与所述目标观测点的距离满足预设条件;根据所述至少一个参考观测点,获取所述至少一张参考图像,其中,所述至少一个参考观测点中的每个参考观测点对应于所述至少一张参考图像中的每张参考图像。
- 一种新视角图像的生成装置,其特征在于,包括:确定单元,用于确定虚拟观测点的位置和视角方向;获取单元,用于将所述位置和所述视角方向输入到图像生成模型中,获取来自所述虚拟观测点的光线经过的空间位置的残差颜色;所述获取单元,还用于获取参考颜色,所述参考颜色是根据至少一张参考图像,确定出的所述空间位置的颜色;处理单元,用于根据所述空间位置的残差颜色和所述参考颜色,生成所述虚拟观测点 对应的新视角图像。
- 根据权利要求17所述的装置,其特征在于,所述图像生成模型包括:根据残差颜色的损失函数,训练得到的图像生成模型;或,根据所述残差颜色的损失函数,以及直接预测的损失函数,训练得到的图像生成模型。
- 根据权利要求17或18所述的装置,其特征在于,所述参考颜色包括:第一参考颜色,所述第一参考颜色为所述空间位置的颜色的众数;所述获取单元,具体用于接收训练设备发送的第一参考颜色。
- 根据权利要求17或18所述的装置,其特征在于,所述参考颜色包括:所述第一参考颜色;所述获取单元,具体用于:根据所述位置和视角方向,确定至少一个参考观测点,其中,所述至少一个参考观测点中的每个参考观测点与所述虚拟观测点的距离满足预设条件;从N张参考图片中确定至少一张参考图片,其中,所述至少一个参考观测点中的每个参考观测点对应于所述至少一张参考图像中的每张参考图像,N为大于或等于2的整数;根据所述至少一张参考图片,确定所述第一参考颜色。
- 一种图像处理***,其特征在于,包括:训练设备、执行设备;所述训练设备包括第一处理器和第一存储器,所述第一处理器用于执行权利要求1至6中任一项所述的方法,所述第一存储器用于存储训练图片集,所述训练图片集中包括至少两张图像;所述执行设备包括第二处理器和第二存储器,所述第二处理器用于执行权利要求7至10中任一项所述的方法,所述第二存储器用于存储新视角图像。
- 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中保存有程序,当所述计算机执行所述程序时,执行权利要求1至10中任一项所述的方法。
- 一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上执行时,所述计算机执行权利要求1至10中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/128680 WO2022099613A1 (zh) | 2020-11-13 | 2020-11-13 | 图像生成模型的训练方法、新视角图像生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116250021A true CN116250021A (zh) | 2023-06-09 |
Family
ID=81602050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080104956.XA Pending CN116250021A (zh) | 2020-11-13 | 2020-11-13 | 图像生成模型的训练方法、新视角图像生成方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116250021A (zh) |
WO (1) | WO2022099613A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116681818B (zh) * | 2022-10-28 | 2024-04-09 | 荣耀终端有限公司 | 新视角重建方法、新视角重建网络的训练方法及装置 |
CN115965736B (zh) * | 2023-03-16 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN115953544B (zh) * | 2023-03-16 | 2023-05-09 | 浪潮电子信息产业股份有限公司 | 一种三维重建方法、装置、电子设备及可读存储介质 |
CN116434146B (zh) * | 2023-04-21 | 2023-11-03 | 河北信服科技有限公司 | 一种三维可视化综合管理平台 |
CN117746192B (zh) * | 2024-02-20 | 2024-06-28 | 荣耀终端有限公司 | 电子设备及其数据处理方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945282B (zh) * | 2017-12-05 | 2021-01-29 | 洛阳中科信息产业研究院(中科院计算技术研究所洛阳分所) | 基于对抗网络的快速多视角三维合成和展示方法及装置 |
US11069030B2 (en) * | 2018-03-22 | 2021-07-20 | Adobe, Inc. | Aesthetics-guided image enhancement |
CN110322002B (zh) * | 2019-04-30 | 2022-01-04 | 深圳市商汤科技有限公司 | 图像生成网络的训练及图像处理方法和装置、电子设备 |
CN110321849B (zh) * | 2019-07-05 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 图像数据处理方法、装置以及计算机可读存储介质 |
CN110634170B (zh) * | 2019-08-30 | 2022-09-13 | 福建帝视信息科技有限公司 | 一种基于语义内容和快速图像检索的照片级图像生成方法 |
CN111652798B (zh) * | 2020-05-26 | 2023-09-29 | 浙江大华技术股份有限公司 | 人脸姿态迁移方法和计算机存储介质 |
-
2020
- 2020-11-13 CN CN202080104956.XA patent/CN116250021A/zh active Pending
- 2020-11-13 WO PCT/CN2020/128680 patent/WO2022099613A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022099613A1 (zh) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210012093A1 (en) | Method and apparatus for generating face rotation image | |
CN116250021A (zh) | 图像生成模型的训练方法、新视角图像生成方法及装置 | |
CN112085840B (zh) | 语义分割方法、装置、设备及计算机可读存储介质 | |
US10289938B1 (en) | Systems and methods regarding image distification and prediction models | |
CN111710036B (zh) | 三维人脸模型的构建方法、装置、设备及存储介质 | |
US11670097B2 (en) | Systems and methods for 3D image distification | |
EP3992908A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
Tippetts et al. | Dense disparity real-time stereo vision algorithm for resource-limited systems | |
CN111753698A (zh) | 一种多模态三维点云分割***和方法 | |
CN107635129A (zh) | 三维三目摄像装置及深度融合方法 | |
JP2020042503A (ja) | 三次元表象生成システム | |
CN114092615A (zh) | 使用人工智能在3d物体上进行uv映射 | |
CN114219855A (zh) | 点云法向量的估计方法、装置、计算机设备和存储介质 | |
EP4268189A1 (en) | Method and system for automatic characterization of a three-dimensional (3d) point cloud | |
CN116012515A (zh) | 一种神经辐射场网络训练方法以及相关设备 | |
CN117422884A (zh) | 三维目标检测方法、***、电子设备及存储介质 | |
EP3992909A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
CN110514140B (zh) | 一种三维成像方法、装置、设备以及存储介质 | |
KR20210018114A (ko) | 교차 도메인 메트릭 학습 시스템 및 방법 | |
CN105574844A (zh) | 辐射响应函数估计方法和装置 | |
CN115841546A (zh) | 一种场景结构关联的地铁站多视矢量仿真渲染方法及*** | |
CN113658274B (zh) | 用于灵长类动物种群行为分析的个体间距自动计算方法 | |
US20220157016A1 (en) | System and method for automatically reconstructing 3d model of an object using machine learning model | |
CN113065521B (zh) | 物体识别方法、装置、设备及介质 | |
US20220180548A1 (en) | Method and apparatus with object pose estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |