CN112651881B

CN112651881B - 图像合成方法、装置、设备、存储介质以及程序产品

Info

Publication number: CN112651881B
Application number: CN202011619097.6A
Authority: CN
Inventors: 卢飞翔; 刘宗岱; 张良俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Baidu USA LLC
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Baidu USA LLC
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-08-01
Anticipated expiration: 2040-12-30
Also published as: CN112651881A

Abstract

本公开公开了图像合成方法、装置、设备、存储介质及程序产品，涉及图像处理技术领域。具体实现方案为：对包括第一目标对象的第一视角的图像进行纹理补全处理，得到第一目标对象的纹理贴图；利用纹理贴图生成第一目标对象的三维模型；根据第二视角的场景图像的方位信息，将第一目标对象的三维模型投影得到第一目标对象的二维图像；将第一目标对象的二维图像叠加到场景图像中，得到第二视角的合成图像。本公开实施例能够显著降低数据合成的成本，为深度神经网络的训练提供了大量的训练数据，大大减少了人力、物力和财力的消耗。

Description

图像合成方法、装置、设备、存储介质以及程序产品

技术领域

本公开涉及一种计算机技术领域，尤其涉及一种图像处理技术领域。

背景技术

机器学习模型训练通常需要大量标注的多视角图像作为训练集。以车路协同的应用场景为例，可在车辆顶部和路口电线杆、红绿灯位置安装视觉传感器，对道路上的车辆进行多视角的检测、分割、位姿估计。车路协同是实现自动驾驶的重要途径。利用车路协同可有效解决遮挡车辆的难题，大大增加自动驾驶技术的安全性。但是，传统方法需要大量标注的多视角图像作为训练集，然后进行网络模型训练。多视角图像的训练数据在交通场景中难以获得，且数据难以标注。

发明内容

本公开提供了一种图像合成方法、装置、设备、存储介质及程序产品。

根据本公开的一方面，提供了一种图像合成方法，包括：

对包括第一目标对象的第一视角的图像进行纹理补全处理，得到第一目标对象的纹理贴图；

利用纹理贴图生成第一目标对象的三维模型；

根据第二视角的场景图像的方位信息，将第一目标对象的三维模型投影得到第一目标对象的二维图像；

将第一目标对象的二维图像叠加到场景图像中，得到第二视角的合成图像。

根据本公开的另一方面，提供了一种图像合成装置，包括：

处理单元，用于对包括第一目标对象的第一视角的图像进行纹理补全处理，得到第一目标对象的纹理贴图；

生成单元，用于利用纹理贴图生成第一目标对象的三维模型；

投影单元，用于根据第二视角的场景图像的方位信息，将第一目标对象的三维模型投影得到第一目标对象的二维图像；

叠加单元，用于将第一目标对象的二维图像叠加到场景图像中，得到第二视角的合成图像。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开任意一项实施例所提供的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现本公开任意一项实施例所提供的方法。

上述申请中的一个实施例具有如下优点或有益效果：能够显著降低数据合成的成本，为深度神经网络的训练提供了大量的训练数据，大大减少了人力、物力和财力的消耗。以车辆作为目标对象为例，本公开实施例可为网络模型训练提供大量标注的多视角图像，可以提升车路协同任务的准确率，提升环境感知的性能，可以有效地提升自动驾驶车辆的安全性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的图像合成方法的流程图；

图2是根据本公开另一实施例的图像合成方法的纹理补全的流程图；

图3是根据本公开另一实施例的图像合成方法的三维模型重建的流程图；

图4是根据本公开另一实施例的图像合成方法的图像投影的流程图；

图5是根据本公开另一实施例的图像合成方法的图像修复的流程图；

图6是根据本公开另一实施例的图像合成方法的流程图；

图7是根据本公开另一实施例的图像合成方法的数据多样性效果示意图；

图8是根据本公开一实施例的图像合成装置的示意图；

图9是根据本公开另一实施例的图像合成装置的示意图；

图10是用来实现本公开实施例的图像合成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

机器学习模型训练通常需要大量标注的多视角图像作为训练集。以车路协同的应用场景为例，利用车路协同可对道路上的车辆进行多视角的检测，有效解决遮挡车辆的难题，大大增加自动驾驶技术的安全性。但是，传统方法需要大量标注的多视角图像作为训练集，然后进行网络模型训练。多视角图像的训练数据在交通场景中难以获得，且数据难以标注。

以车路协同的应用场景为例，相关技术中多角度图像的生成方法主要包括以下几种技术方案：

(1)三维模型渲染。该方案需要构建大量的车辆三维模型以及城市三维模型。需要调整模型的纹理贴图、场景光照、渲染参数等数据，利用3dsMax等渲染软件进行图像渲染。该方案成本高、效率低下、效果难以保证，获得的图像数据很难进行网络训练。

(2)利用多视角图像，训练像素点的对应关系，预测新视角下的图像。该方案需要大量标注的多视角图像作为训练集。训练数据在交通场景中难以获得，且数据难以标注。

(3)利用生成对抗网络(GAN，Generative Adversarial Networks)的方式进行图像合成。该方案需要两张以上的图像对(image pair)作为训练数据，该数据难以获取。另外，GAN网络难以训练，结果难以控制。该方案最大的缺陷是无法自动生成对应的标注结果。

有鉴于此，本公开面向车路协同任务，提供了一种多视角图像的合成方法。图1是根据本公开一实施例的图像合成方法的流程图。参见图1，该图像合成方法包括：

步骤S110，对包括第一目标对象的第一视角的图像进行纹理补全处理，得到第一目标对象的纹理贴图；

步骤S120，利用纹理贴图生成第一目标对象的三维模型；

步骤S130，根据第二视角的场景图像的方位信息，将第一目标对象的三维模型投影得到第一目标对象的二维图像；

步骤S140，将第一目标对象的二维图像叠加到场景图像中，得到第二视角的合成图像。

其中，在步骤S110和步骤S120中进行第一目标对象的三维模型重建，在步骤S130和步骤S140中将第一目标对象的三维模型的投影叠加到场景图像中，得到新视角的合成图像。

在第一目标对象的三维模型重建的任务中，通常需要根据单目图像重构三维模型的纹理贴图。由于单目图像拍摄视角的单一性，无法获取第一目标对象的完整的纹理贴图。以车辆作为第一目标对象为例，从正面对车辆进行拍摄，无法拍摄到车辆的尾灯。另外，由于拍摄视角单一，可能拍摄到的第一目标对象的图像中有些部件的图像纹理可能是不完整的。因此需要将第一目标对象中的缺失部分进行补全，才能对第一目标对象进行三维模型重建。

在步骤S110中，可首先获取拍摄到的包括第一目标对象的第一视角的图像。例如第一视角的图像可以是从正面拍摄的前视图。可利用预先训练的深度神经网络对包括第一目标对象的第一视角的图像进行纹理补全处理，得到第一目标对象的纹理贴图。在步骤S120中，利用步骤S110中得到的纹理贴图进行三维模型重建，生成第一目标对象的三维模型。

在步骤S130中，可首先获取拍摄到的第二视角的场景图像和场景图像的方位信息。例如第二视角的场景图像可以是从高处向下拍摄的道路场景的俯视图。在一个示例中，从相机参数中可获取场景图像的方位信息。方位信息可包括道路场景的三维几何信息，包括平面方程、法向等。根据方位信息，可将第一目标对象的三维模型进行投影操作，得到第一目标对象的二维图像。例如，可将第一目标对象的三维模型投影到道路场景的平面方程所确定的平面上，得到第一目标对象的二维图像。通过投影操作使得三维模型在道路场景中的摆放位置与道路场景的三维几何信息协调一致。

在步骤S140中，将步骤S110中得到的第一目标对象的二维图像叠加到场景图像中，得到第二视角的合成图像。

在车路协同的应用场景中，各种视觉传感器拍摄到的图像中，可能多数是第一视角的图像，第二视角的图像的数量较少。本公开实施例可利用第一目标对象的第一视角的图像和第二视角的场景图像合成第二视角的图像。利用本公开实施例生成图像，能够显著降低数据合成的成本，为深度神经网络的训练提供了大量的训练数据，大大减少了人力、物力和财力的消耗。以车辆作为目标对象为例，本公开实施例可为网络模型训练提供大量标注的多视角图像，可以提升车路协同任务的准确率，提升环境感知的性能，可以有效地提升自动驾驶车辆的安全性。

图2是根据本公开另一实施例的图像合成方法的纹理补全的流程图。该实施例的图像合成方法可以包括上述实施例的各步骤。此外，如图2所示，在一种实施方式中，图1中的步骤S110，对包括第一目标对象的第一视角的图像进行纹理补全处理，得到第一目标对象的纹理贴图，具体可包括：

步骤S210，将包括第一目标对象的第一视角的图像进行分割，得到包括第一目标对象的至少一个部件的分割图像；

步骤S220，在包括第一目标对象的第一视角的图像中，对第一目标对象的位姿进行标注，得到位姿标注信息；

步骤S230，根据位姿标注信息将分割图像投影，得到第一目标对象的待处理图像；

步骤S240，利用深度神经网络对待处理图像进行纹理补全处理，得到第一目标对象的纹理贴图。

在步骤S210中，首先将包括第一目标对象的第一视角的图像进行分割，得到包括第一目标对象的至少一个部件的分割图像。

以车辆作为第一目标对象为例，将需要重建的模型对象分割成若干个Part(部件)。例如可将车辆分割成4个车轮、前盖、后盖、尾灯等多个部件。在一个示例中，若拍摄到的车辆的图像是从正面拍摄的，则图像中可能只有前盖和2个前轮，而没有后盖和尾灯。也就是说，有一部分部件是在拍摄到的图像中可见的，还有一部分部件可能是在拍摄到的图像中不可见的。另外由于拍摄角度的限制，该图像中的前盖和2个前轮的图像纹理也可能也是不完整的。可对拍摄到的车辆的图像进行分割，得到包括图像中的各个部件的分割图像。

在一个示例中，可将分割图像作为第一目标对象的至少一个部件的待处理图像。

在另一个示例中，在步骤S220中，还可以在包括第一目标对象的图像中，对第一目标对象的位姿进行标注，得到位姿标注信息。尽管对同一个第一目标对象进行拍摄，由于拍摄角度不同，可能导致呈现在图像上的第一目标对象的位姿不同，第一目标对象的各个部件的图像也可能因为拍摄角度的不同而不同。因此，可利用识别算法对第一目标对象的位姿进行识别，得到位姿标注信息。也可以通过人工标注的方式，得到位姿标注信息。

在一种实施方式中，位姿标注信息可包括六自由度空间位姿。物体在空间具有的六个自由度可包括沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度。因此，利用六自由度空间位姿可确定物体的位置。

在步骤S230中，根据位姿标注信息将分割图像投影，可利用图像投影算法对分割图像进行投影操作，以矫正第一目标对象的不同位姿所导致的分割图像的偏差，投影后得到第一目标对象的至少一个部件的待处理图像。

在步骤S240中，利用预先训练的深度神经网络对待处理图像进行纹理补全处理，得到第一目标对象的纹理贴图。在一个示例中，可利用图神经网络模型对待处理图像进行纹理补全处理。具体地，可预先构建第一目标对象的所有部件的关联图的数据结构。在关联图的数据结构中，关联图中的每个结点元素用于表示第一目标对象的一个部件。在以车辆作为第一目标对象的示例中，关联图中可包括n个结点，每个结点代表车辆的一个部件，例如车轮、前盖、尾灯等。在步骤S210中对包括第一目标对象的图像进行分割时，也是根据关联图的数据结构中定义的结点进行图像分割。分割后得到的待处理图像中的各个部件在关联图中都可以找到与该部件对应的结点。

对于在拍摄到的包括第一目标对象的图像中可见的部件，在关联图中可以找到该部件对应的结点。可分别将待处理图像中的各个部件的图像赋值给关联图中对应的结点元素。对于在拍摄到的包括第一目标对象的图像中不可见的部件，也就是图像中没有拍到的部件，在关联图中将该部件对应的结点赋值为空结点。最后利用赋值后的所有部件对应的结点元素，构建第一目标对象的所有部件的关联图。

将构建的第一目标对象的关联图输入到图神经网络模型。在输入的关联图中，图中结点表示第一目标对象的部件的图像，有的部件的图像纹理可能是不完整的，还有的部件的图像纹理可能是完全没有的。利用图神经网络模型将输入的关联图中不完整的或者完全没有的图像纹理补全，输出第一目标对象的所有部件的纹理补全的图像。

本公开实施例可针对第一目标对象生成高质量的完整的三维纹理贴图，能够显著降低三维纹理重建的成本，实现目标对象全方位的仿真渲染。以车辆作为第一目标对象为例，通过车辆的三维模型重建可极大地丰富自动驾驶仿真数据库，为感知***训练提供了丰富的资源。

图3是根据本公开另一实施例的图像合成方法的三维模型重建的流程图。该实施例的图像合成方法可以包括上述实施例的各步骤。此外，如图3所示，在一种实施方式中，图1中的步骤S120，利用纹理贴图生成第一目标对象的三维模型，具体可包括：

步骤S310，获取第一目标对象的可变形模板的变形参数，其中，变形参数与第一目标对象的外观形状相对应；

步骤S320，根据可变形模板的变形参数和纹理贴图，生成第一目标对象的三维模型。

以车辆作为第一目标对象为例，可变形模板用于生成外观不同形状的车辆。可变形模板的变形参数对应于不同的车辆的外观形状。不同车型的车辆整体外观形状不同，组成车辆的各个部件的形状也可能不同。可根据不同车型的各个部件的形状创建对应的可变形模板。可变形模板中的纹理贴图是预定义的纹理轮廓，可将轮廓中的纹理填充，进行图像纹理补全。调节可变形模板的变形参数，结合补全的纹理贴图，可生成车辆的三维模型。

本公开实施例中通过可变形模板和纹理补全实现车辆的三维模型重建，可极大地丰富自动驾驶仿真数据库，为感知***训练提供了丰富的资源。

图4是根据本公开另一实施例的图像合成方法的图像投影的流程图。该实施例的图像合成方法可以包括上述实施例的各步骤。此外，如图4所示，在一种实施方式中，图1中的步骤S130，根据第二视角的场景图像的方位信息，将第一目标对象的三维模型投影得到第一目标对象的二维图像，具体可包括：

步骤S410，根据第二视角的场景图像的拍摄参数，得到场景图像的方位信息，方位信息包括场景图像的平面方程；

步骤S420，调整第一目标对象的三维模型的位姿，将第一目标对象的三维模型投放到平面方程确定的平面上；

步骤S430，将投放后的第一目标对象的三维模型投影得到第一目标对象的二维图像。

其中，第二视角的场景图像的拍摄参数可包括相机参数。相机参数可包括相机的内参和外参中的至少一种。相机的内参可包括焦距。相机的外参可包括相机位置。在步骤S410中，在获取拍摄到的第二视角的场景图像时，可同时获取拍摄参数。根据拍摄参数可得到场景图像的方位信息。方位信息可包括道路场景的三维几何信息。三维几何信息可包括平面方程、法向等。

以车辆作为第一目标对象为例，在步骤S420中，根据场景图像的方位信息调整车辆的三维模型的位姿，将车辆的三维模型投放到平面方程确定的平面上。其中，根据场景图像的方位信息调整车辆的三维模型的位姿，使得三维模型在道路场景中的摆放位置与道路场景的三维几何信息协调一致。在步骤S430中，将投放后的车辆的三维模型投影得到车辆的二维图像。

本公开实施例中根据第二视角的场景图像的方位信息，将的第一目标对象的三维模型投影得到二维图像，使得三维模型在道路场景中的摆放位置与道路场景的三维几何信息协调一致，从而使得合成的图像效果更加真实。

图5是根据本公开另一实施例的图像合成方法的图像修复的流程图。该实施例的图像合成方法可以包括上述实施例的各步骤。此外，如图5所示，在一种实施方式中，上述方法还包括：

步骤S510，利用图像修复方法，将拍摄到的第二视角的备用图像中的第二目标对象去除；

步骤S520，将去除第二目标对象的备用图像作为第二视角的场景图像。

在这种实施方式中，基于第二视角进行拍摄后，拍摄到的图像作为备用图像。将备用图像进行修复处理后，将修复处理后的备用图像作为第二视角的场景图像。拍摄到的第二视角的备用图像的道路场景中可能存在行人和车辆。以三维模型重建的车辆作为第一目标对象为例，第二视角的备用图像中的行人和车辆作为第二目标对象。可利用图像修复方法，将第二目标对象从备用图像中去除，将去除第二目标对象的备用图像作为第二视角的场景图像。

在车路协同的应用场景中，视觉传感器拍摄到的图像中可能第二视角的图像的数量较少。利用上述方法可生成大量的第二视角的图像，为网络模型训练提供大量的多视角图像，提升模型的鲁棒性。

在一种实施方式中，上述方法还包括：

根据第一目标对象在合成图像中的位置信息，得到合成图像的标注信息。

其中，标注信息可包括二维标注信息和三维标注信息。二维标注信息可包括“二维包围盒”和“实例级分割”中的至少一种。“二维包围盒”包括车辆整***置的标注信息。“实例级分割”包括把车辆分割成部件，标注每个部件的位置。三维标注包括“三维包围盒”和“六自由度空间位姿”中的至少一种。

本公开实施例的图像合成方法，能够合成多个视角的图像，以及自动生成对应的二维标注信息和三维标注信息，大大降低了获取训练数据的成本，有效地提升了深度学习模型的鲁棒性。

图6是根据本公开另一实施例的图像合成方法的流程图。图6中的各个标号表示如下：

标号1表示源图像(Source)，源图像为前视图(Front View)；

标号2表示目标图像(Target)，目标图像为俯视图(Top View)；

标号(a)表示可变形车辆模板和六自由度空间位姿标注(Vehicle Template&labeled 6-DOF Pose)；

标号(b)表示基于部件的纹理贴图补全(Part based Texture Inpainting)；

标号(c)表示基于模型的视图合成(Model based View Synthesis)；

标号(d)表示带有相机标定的背景图(Background Images with CameraCalibration)；

标号(e)表示背景图像修复(Background Inpainting)；

标号(f)表示背景图像的三维结构(3D structyre of Background)；

标号(g)表示带有标注的新视角的合成结果(Novel-view Results with Ground-Truth Annotations)。

参见图1至图6，如图6中的标号(a)所示，针对车辆对象，三维重建任务的输入信息可包括单张交通场景图像、图像中标注的每辆车的六自由度空间位姿、以及三维车辆的可变形模板。可变形模板中可含有纹理贴图。如标号(b)所示，根据标注的六自由度空间位姿，把图像像素投影到纹理贴图上。然后训练一个深度神经网络，把纹理贴图的缺失区域填补完整。如标号(c)所示，然后调节三维车辆模型的可变形模板的变形参数，生成大量不同的车辆三维模型。结合生成的纹理贴图，进行模型的渲染，得到车辆的二维图像。

如标号(d)所示，针对背景图像部分，可获取一张路口的图像。背景图像部分可以是为三维车辆模型作背景的第二视角的场景图像。拍摄图像的相机的内参、外参已经提前标定。如标号(e)所示，利用现有的图像修复(image inpainting)方法，把背景图像部分中的车辆进行去除。如标号(f)所示，利用相机的内参和外参，恢复路口的三维几何信息。三维几何信息包括平面方程、法向等。最后，如标号(g)所示，把标号(c)中生成的带有纹理的车辆摆放到背景图像的随机位置上，也就是把车辆置于背景路面上，合成多个视角的图像。同时，获得合成图像对应的二维标注信息和三维标注信息。

图7是根据本公开另一实施例的图像合成方法的数据多样性效果示意图。

图7中的各个标号表示如下：

标号(a1)表示自动驾驶***中输入的真实图像(Input Real Images in AD)；

标号(b1)表示纹理贴图补全(Inpainted Texture Maps)；

标号(c1)表示车辆的三维可变形模板(3D Deformed Vehicle Models)；

标号(d1)表示含有丰富的参数的输出图像(Output Images with variousparams)。

如标号(a1)所示，自动驾驶***中输入的真实图像作为包括第一目标对象的第一视角的图像。如标号(b1)所示，对包括第一目标对象的第一视角的图像进行纹理补全处理，得到第一目标对象的纹理贴图。如标号(c1)所示，根据所述可变形模板的变形参数和纹理贴图，可生成第一目标对象的三维模型。其中，可变形模板中的不同的车辆外观形状可以和纹理贴图随机任意组合，可生成大量的具有不同外观形状和纹理的车辆三维模型。生成模型的输出结果如标号(d1)所示。

本公开实施例的图像合成方法能够确保生成数据的多样性和逼真性。如图6和7所示，本公开实施例从真实采集的交通场景的图像中，恢复车辆的纹理贴图。然后调节三维模型的变形参数，获得大量形状不一的三维车辆。然后把纹理贴图与形状不一的三维车辆进行随机组合，进行多视角渲染。在渲染过程中，还可以调节不同的相机参数(内参、外参)和场景光照信息，以及调节生成图像的分辨率。利用以上方法能够在确保图像质量的情况下，尽可能的增加数据的多样性。

图8是根据本公开一实施例的图像合成装置的示意图。参见图8，该图像合成装置包括：

处理单元100，用于对包括第一目标对象的第一视角的图像进行纹理补全处理，得到第一目标对象的纹理贴图；

生成单元200，用于利用纹理贴图生成第一目标对象的三维模型；

投影单元300，用于根据第二视角的场景图像的方位信息，将第一目标对象的三维模型投影得到第一目标对象的二维图像；

叠加单元400，用于将第一目标对象的二维图像叠加到场景图像中，得到第二视角的合成图像。

在一种实施方式中，处理单元100用于：

将包括第一目标对象的第一视角的图像进行分割，得到包括第一目标对象的至少一个部件的分割图像；

在包括第一目标对象的第一视角的图像中，对第一目标对象的位姿进行标注，得到位姿标注信息；

根据位姿标注信息将分割图像投影，得到第一目标对象的待处理图像；

利用深度神经网络对待处理图像进行纹理补全处理，得到第一目标对象的纹理贴图。

在一种实施方式中，生成单元200用于：

获取第一目标对象的可变形模板的变形参数，其中，变形参数与第一目标对象的外观形状相对应；

根据可变形模板的变形参数和纹理贴图，生成第一目标对象的三维模型。

在一种实施方式中，投影单元300用于：

根据第二视角的场景图像的拍摄参数，得到场景图像的方位信息，方位信息包括场景图像的平面方程；

调整第一目标对象的三维模型的位姿，将第一目标对象的三维模型投放到平面方程确定的平面上；

将投放后的第一目标对象的三维模型投影得到第一目标对象的二维图像。

图9是根据本公开另一实施例的图像合成装置的示意图。如图9所示，在一种实施方式中，上述装置还包括修复单元220，修复单元220用于：

利用图像修复方法，将拍摄到的第二视角的备用图像中的第二目标对象去除；

将去除第二目标对象的备用图像作为第二视角的场景图像。

在一种实施方式中，上述装置还包括标注单元500，标注单元500用于：

本公开实施例的图像合成装置中的各单元的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图10所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元80执行上文所描述的各个方法和处理，例如图像合成方法。例如，在一些实施例中，图像合成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的图像合成方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像合成方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像合成方法，包括：

利用所述纹理贴图生成第一目标对象的三维模型；

根据第二视角的场景图像的方位信息，将所述第一目标对象的三维模型投影得到第一目标对象的二维图像；

将所述第一目标对象的二维图像叠加到所述场景图像中，得到第二视角的合成图像；

其中，所述对包括第一目标对象的第一视角的图像进行纹理补全处理，得到第一目标对象的纹理贴图，包括：将所述包括第一目标对象的第一视角的图像进行分割，得到包括第一目标对象的至少一个部件的分割图像；在所述包括第一目标对象的第一视角的图像中，对所述第一目标对象的位姿进行标注，得到位姿标注信息；根据所述位姿标注信息将所述分割图像投影，得到第一目标对象的待处理图像；利用深度神经网络对所述待处理图像进行纹理补全处理，得到第一目标对象的纹理贴图。

2.根据权利要求1所述的方法，其中，所述利用所述纹理贴图生成第一目标对象的三维模型，包括：

获取第一目标对象的可变形模板的变形参数，其中，所述变形参数与所述第一目标对象的外观形状相对应；

根据所述可变形模板的变形参数和所述纹理贴图，生成第一目标对象的三维模型。

3.根据权利要求1至2中任一项所述的方法，其中，所述根据第二视角的场景图像的方位信息，将所述第一目标对象的三维模型投影得到第一目标对象的二维图像，包括：

根据第二视角的场景图像的拍摄参数，得到所述场景图像的方位信息，所述方位信息包括所述场景图像的平面方程；

调整所述第一目标对象的三维模型的位姿，将所述第一目标对象的三维模型投放到所述平面方程确定的平面上；

4.根据权利要求1至2中任一项所述的方法，所述方法还包括：

将去除所述第二目标对象的备用图像作为所述第二视角的场景图像。

5.根据权利要求1至2中任一项所述的方法，所述方法还包括：

根据所述第一目标对象在所述合成图像中的位置信息，得到所述合成图像的标注信息。

6.一种图像合成装置，包括：

生成单元，用于利用所述纹理贴图生成第一目标对象的三维模型；

投影单元，用于根据第二视角的场景图像的方位信息，将所述第一目标对象的三维模型投影得到第一目标对象的二维图像；

叠加单元，用于将所述第一目标对象的二维图像叠加到所述场景图像中，得到第二视角的合成图像；

其中，所述处理单元用于：将所述包括第一目标对象的第一视角的图像进行分割，得到包括第一目标对象的至少一个部件的分割图像；在所述包括第一目标对象的第一视角的图像中，对所述第一目标对象的位姿进行标注，得到位姿标注信息；根据所述位姿标注信息将所述分割图像投影，得到第一目标对象的待处理图像；利用深度神经网络对所述待处理图像进行纹理补全处理，得到第一目标对象的纹理贴图。

7.根据权利要求6所述的装置，其中，所述生成单元用于：

8.根据权利要求6至7中任一项所述的装置，其中，所述投影单元用于：

9.根据权利要求6至7中任一项所述的装置，所述装置还包括修复单元，所述修复单元用于：

10.根据权利要求6至7中任一项所述的装置，所述装置还包括标注单元，所述标注单元用于：

11. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-5中任一项所述的方法。