WO2022052620A1

WO2022052620A1 - 图像生成方法及电子设备

Info

Publication number: WO2022052620A1
Application number: PCT/CN2021/106178
Authority: WO
Inventors: 安世杰; 张渊; 郑文
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2020-09-10
Filing date: 2021-07-14
Publication date: 2022-03-17
Also published as: CN114170349A

Abstract

一种图像生成方法及电子设备，涉及图像处理技术领域。方法包括：确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，第一图像区域为目标对象所在的图像区域，第二图像区域为背景所在的图像区域；通过基于第二图像区域的图像数据，替换第一图像区域的图像数据，获取第二图像；通过基于第二深度信息，填充第三图像区域的深度，获取第三图像区域的第三深度信息；通过基于第一深度信息和第三深度信息，将第一图像区域中的图像数据融合至深度填充后的第二图像中，获取第三图像。

Description

图像生成方法及电子设备

本公开基于申请号为202010947268.1、申请日为2020年9月10日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本公开涉及图像处理技术领域，特别涉及一种图像生成方法及电子设备。

背景技术

随着图像处理技术的发展，用户能随时随地拍摄图像，而由于拍摄的图像是二维图像，因此，该图像只能呈现到平面效果的景物和人像，在用户希望查看具有三维效果的景物和人像的时候，需要依靠后期制作，将二维图像转换为三维图像来实现。

相关技术中，通过双摄相机拍摄同一场景的不同角度的二维图像，确定不同角度的二维图像之间的差异信息，将该差异信息转化成二维图像的深度信息，基于该深度信息重建三维图像。

发明内容

本公开实施例提供了一种图像生成方法及电子设备，能够优化生成的三维图像的图像效果。所述技术方案如下：

根据本公开实施例的一方面，提供了一种图像生成方法，所述方法包括：

确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为背景所在的图像区域；

通过基于所述第二图像区域的图像数据替换所述第一图像区域的图像数据，获取第二图像；

通过基于所述第二深度信息填充所述第三图像区域的深度，获取第三图像区域的第三深度信息，所述第三图像区域为所述第二图像中与所述第一图像区域对应的图像区域；

通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像。

在一些实施例中，所述通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像，包括：

基于所述第一图像区域的图像数据，创建第一三维模型，所述第一三维模型为所述目标对象对应的三维模型；

基于深度填充后的所述第二图像，创建第二三维模型，所述第二三维模型为所述背景对应的三维模型；

基于所述第一深度信息和所述第三深度信息，融合所述第一三维模型和所述第二三维模型对应的像素信息，得到所述第三图像，其中，所述第一三维模型对应的像素点在所述第三图像中的深度信息为所述第一深度信息，所述第二三维模型对应的像素点在所述第三图像中的深度信息为所述第三深度信息。

在一些实施例中，所述基于所述第一深度信息和所述第三深度信息，融合所述第一三维模型和所述第二三维模型对应的像素信息，得到所述第三图像，包括：

从所述第一三维模型中，确定所述目标对象的每个像素点的深度信息，所述每个像素点的深度信息以所述目标对象的目标关键点的深度信息为基准，所述目标关键点为所述目标对象的关键点；

基于所述目标关键点，确定第一像素点，所述第一像素点为所述目标关键点在所述第二三维模型中对应的像素点；

赋值所述第一像素点的像素信息和深度信息，所述第一像素点的像素信息为所述目标关键点在所述第一三维模型中的像素信息，所述第一像素点的深度信息为所述目标关键点的第一深度信息；

基于所述目标关键点与所述目标对象中其他像素点的位置关系，确定第二像素点，所述第二像素点为所述其他像素点在所述第二三维模型中对应的像素点；

赋值所述第二像素点的像素信息和深度信息，得到所述第三图像，所述第二像素点的像素信息为所述其他像素点在所述第一三维模型中的像素信息，所述第二像素点的深度信息为所述其他像素点的第三深度信息。

在一些实施例中，所述通过基于所述第二图像区域的图像数据替换所述第一图像区域的图像数据，获取第二图像，包括：

对所述第一图像进行图像分割，确定所述第一图像区域对应的区域轮廓；

去除所述区域轮廓内的图像数据；

在去除后的所述区域轮廓中填充背景，得到所述第二图像。

在一些实施例中，所述在去除后的所述区域轮廓中填充背景，得到所述第二图像，包括：

将去除后的所述第一图像输入至图像补全模型，得到所述第二图像，所述图像补全模型用于在所述区域轮廓中填充背景。

在一些实施例中，所述确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，包括：

将所述第一图像输入至第一深度确定模型中，得到所述第一深度信息和所述第二深度信息。

在一些实施例中，所述第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层；

所述将所述第一图像输入至第一深度确定模型中，得到所述第一深度信息和所述第二深度信息，包括：

将所述第一图像输入至所述特征提取层，通过所述特征提取层提取所述第一图像的多层特征得到所述第一图像的多个图像特征；

通过所述特征图生成层采样所述多个图像特征得到不同尺度的多个特征图；

通过所述特征融合层融合所述多个特征图得到融合后的特征图；

通过所述深度确定层卷积处理所述融合后的特征图得到所述第一深度信息和所述第二深度信息。

在一些实施例中，所述方法还包括：

确定待添加的特效元素的第一坐标和第二坐标，所述第一坐标为所述特效元素在所述第三图像的图像坐标系下的位置坐标，所述第二坐标为所述特效元素在所述第三图像的相机坐标系下的深度坐标；

通过基于所述第一坐标和所述第二坐标，将所述特效元素融合至所述第三图像的第一目标像素点，获取第四图像，所述第一目标像素点为位置坐标为所述第一坐标，深度坐标为所述第二坐标的像素点。

在一些实施例中，所述方法还包括：

旋转所述第三图像，生成视频。

在一些实施例中，所述旋转所述第三图像，生成视频，包括：

将所述目标对象的目标关键点对应的位置坐标设置为所述第三图像对应的相机坐标系的坐标原点；

确定向所述相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度；

基于所述旋转角度，旋转所述第三图像中的像素点，生成视频。

在一些实施例中，所述确定向所述相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度，包括：

获取所述目标关键点在每个方向的预设展示角度、预设运动速度和预设展示帧数；

基于所述预设运动速度和预设展示帧数，确定展示角度权重；

基于所述展示角度权重和所述预设展示角度，确定所述方向的旋转角度。

根据本公开实施例的另一方面，提供了一种深度确定模型的训练方法，所述方法包括：

获取多个第一图像集合，每个第一图像集合对应一个图像场景；

对于每个第一图像集合，基于第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

基于所述采样权重，采样所述第一图像集合，得到第二图像集合；

基于多个第二图像集合，训练第二深度确定模型得到第一深度确定模型。

根据本公开实施例的另一方面，提供了一种图像生成装置，所述装置包括：

第一确定单元，被配置为确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为背景所在的图像区域；

替换单元，被配置为通过基于所述第二图像区域的图像数据，替换所述第一图像区域的图像数据，获取第二图像；

填充单元，被配置为通过基于所述第二深度信息填充所述第三图像区域的深度，获取第三图像区域的第三深度信息，所述第三图像区域为所述第二图像中与所述第一图像区域对应的图像区域；

第一融合单元，被配置为通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像。

在一些实施例中，所述第一融合单元包括：

第一创建子单元，被配置为基于所述第一图像区域的图像数据，创建第一三维模型，所述第一三维模型为所述目标对象对应的三维模型；

第二创建子单元，被配置为基于深度填充后的所述第二图像，创建第二三维模型，所述第二三维模型为所述背景对应的三维模型；

融合子单元，被配置为基于所述第一深度信息和所述第三深度信息，融合所述第一三维模型和所述第二三维模型对应的像素信息，得到所述第三图像，其中，所述第一三维模型对应的像素点在所述第三图像中的深度信息为所述第一深度信息，所述第二三维模型对应的像素点在所述第三图像中的深度信息为所述第三深度信息。

在一些实施例中，所述融合子单元，被配置为从所述第一三维模型中，确定所述目标对象的每个像素点的深度信息，所述每个像素点的深度信息以所述目标对象的目标关键点的深度信息为基准，所述目标关键点为所述目标对象的关键点；基于所述目标关键点，确定第一像素点，所述第一像素点为所述目标关键点在所述第二三维模型中对应的像素点；赋值所述第一像素点的像素信息和深度信息，所述第一像素点的像素信息为所述目标关键点在所述第一三维模型中的像素信息，所述第一像素点的深度信息为所述目标关键点的第一深度信息；基于所述目标关键点与所述目标对象中其他像素点的位置关系，确定第二像素点，所述第二像素点为所述其他像素点在所述第二三维模型中对应的像素点；赋值所述第二像素点的像素信息和深度信息，得到所述第三图像，所述第二像素点的像素信息为所述其他像素点在所述第一三维模型中的像素信息，所述第二像素点的深度信息为所述其他像素点的第三深度信息。

在一些实施例中，所述替换单元包括：

分割子单元，被配置为对所述第一图像进行图像分割，确定所述第一图像区域对应的区域轮廓；

去除子单元，被配置为去除所述区域轮廓内的图像数据；

补全子单元，被配置为在去除后的所述区域轮廓中填充背景，得到所述第二图像。

在一些实施例中，所述补全子单元，被配置为将去除后的所述第一图像输入至图像补全模型，得到所述第二图像，所述图像补全模型用于在所述区域轮廓中填充背景。

在一些实施例中，所述第一确定单元，被配置为将所述第一图像输入至第一深度确定模型中，得到所述第一深度信息和所述第二深度信息。

所述第一确定单元包括：

特征提取子单元，被配置为将所述第一图像输入至所述特征提取层，通过所述特征提取层提取所述第一图像的多层特征得到所述第一图像的多个图像特征；

采样子单元，被配置为通过所述特征图生成层采样所述多个图像特征得到不同尺度的多个特征图；

特征融合子单元，被配置为通过所述特征融合层融合所述多个特征图得到融合后的特征图；

卷积子单元，被配置为通过所述深度确定层卷积处理所述融合后的特征图得到所述第一深度信息和所述第二深度信息。

在一些实施例中，所述装置还包括：

第三确定单元，被配置为确定待添加的特效元素的第一坐标和第二坐标，所述第一坐标为所述特效元素在所述第三图像的图像坐标系下的位置坐标，所述第二坐标为所述特效元素在所述第三图像的相机坐标系下的深度坐标；

第二融合单元，被配置为通过基于所述第一坐标和所述第二坐标，将所述特效元素融合至所述第三图像的第一目标像素点，获取第四图像，所述第一目标像素点为位置坐标为所述第一坐标，深度坐标为所述第二坐标的像素点。

在一些实施例中，所述装置还包括：

生成单元，被配置为旋转所述第三图像，生成视频。

在一些实施例中，所述生成单元，包括：

坐标设置子单元，被配置为将所述目标对象的目标关键点对应的位置坐标设置为所述第三图像对应的相机坐标系的坐标原点；

确定子单元，被配置为确定向所述相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度；

生成子单元，被配置为基于所述旋转角度，旋转所述第三图像中的像素点，生成视频。

在一些实施例中，所述确定子单元，被配置为：

获取子单元，被配置为获取所述目标关键点在每个方向的预设展示角度、预设运动速度和预设展示帧数；基于所述预设运动速度和预设展示帧数，确定展示角度权重；基于所述展示角度权重和所述预设展示角度，确定所述方向的旋转角度。

根据本公开实施例的另一方面，提供了一种深度确定模型的训练装置，所述装置包括：

获取单元，被配置为获取多个第一图像集合，每个第一图像集合对应一个图像场景；

第二确定单元，被配置为对于每个第一图像集合，基于第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

采样单元，被配置为基于所述采样权重，采样所述第一图像集合，得到第二图像集合；

模型训练单元，被配置为基于多个第二图像集合，训练第二深度确定模型得到第一深度确定模型。

根据本公开实施例的另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

在一些实施例中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

去除所述区域轮廓内的图像数据；

在去除后的所述区域轮廓中填充背景，得到所述第二图像。

在一些实施例中，所述第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层；所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

旋转所述第三图像，生成视频。

根据本公开实施例的另一方面，提供了一种电子设备，

所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

根据本公开实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如下步骤：

根据本公开实施例的另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备执行如下步骤：

在本公开实施例中，由于第二图像是在第一图像中经过背景填充和深度填充后得到的，这样将第二图像和第一图像中目标对象所在的第一图像区域进行融合，得到第三图像，在第三图像的视角发生变化时，能够填补背景空洞的同时，还防止目标对象的边界处出现扭曲或缺失，优化了生成的图像的图像效果。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是根据一示例性实施例提供的一种图像生成方法流程图；

图2是根据一示例性实施例提供的一种图像生成方法流程图；

图3是根据一示例性实施例提供的一种图像处理的示意图；

图4是根据一示例性实施例提供的一种图像处理的示意图；

图5是根据一示例性实施例提供的一种图像处理的示意图；

图6是根据一示例性实施例提供的一种图像生成方法流程图；

图7是根据一示例性实施例提供的一种图像生成方法流程图；

图8是根据一示例性实施例提供的一种图像处理的示意图；

图9是根据一示例性实施例提供的一种图像生成方法流程图；

图10是根据一示例性实施例提供的一种图像处理的示意图；

图11是根据一示例性实施例提供的一种图像生成装置的框图；

图12是根据一示例性实施例提供的一种深度确定模型的训练方法流程图；

图13是根据一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了使采集到的图像能够以三维图像的形式进行展示，电子设备对采集到的画面进行图像处理，生成三维图像，将三维图像展示给用户。三维图像是指具有三维效果的图像。本公开实施例提供的方案应用在电子设备中，电子设备为具有图像采集功能的电子设备。例如，电子设备为摄像机，或者，电子设备为有摄像头的手机、平板电脑或可穿戴设备等。在本公开实施例中，对电子设备不做具体限定。

例如，本公开实施例提供的图像生成方法能够应用在如下几个场景中：

在一个场景：电子设备在拍摄图像时，直接按照本公开实施例提供的方法，将拍摄得到的二维图像转换为三维图像。

在另一个场景中，电子设备在拍摄得到二维图像后，将二维图像存储至电子设备中；在用户通过电子设备分享二维图像时，电子设备通过本公开实施例提供的方法，将二维图像转换为三维图像，分享该三维图像。其中，分享图像包括向其他用户分享图像、向社交展示平台分享图像、向短视频平台分享图像等中的至少一项。

在另一个场景中，电子设备在拍摄得到二维图像后，将二维图像存储至电子设备中；在用户通过电子设备生成视频时，电子设备获取被选择的多个二维图像，通过本公开实施例提供的方法，将多个二维图像转换为多个三维图像，将多个三维图像合成视频。例如，用户在短视频平台分享视频时，先选择包含人脸的多个二维的自拍图像，通过本申请实施例提供的方法，将多个二维的自拍图像转换为多个三维的自拍图像，将多个三维的自拍图像合成视频，向短视频平台分享得到的该视频。

图1为根据一示例性实施例提供的一种图像生成方法流程图。如图1所示，该方法包括以下步骤：

步骤101：确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，该第一图像区域为目标对象所在的图像区域，该第二图像区域为背景所在的图像区域。

步骤102：通过基于该第二图像区域的图像数据替换该第一图像区域的图像数据，获取第二图像。

步骤103：通过基于该第二深度信息填充第三图像区域的深度，获取第三图像区域的第三深度信息，该第三图像区域为第二图像中与该第一图像区域对应的图像区域。

步骤104：通过基于该第一深度信息和该第三深度信息，将该第一图像区域中的图像数据融合至深度填充后的该第二图像中，获取第三图像。

在一些实施例中，通过基于该第一深度信息和该第三深度信息，将该第一图像区域中的图像数据融合至深度填充后的该第二图像中，获取第三图像，包括：

基于该第一图像区域的图像数据，创建第一三维模型，该第一三维模型为该目标对象对应的三维模型；

基于深度填充后的该第二图像，创建第二三维模型，该第二三维模型为该背景对应的三维模型；

基于该第一深度信息和该第三深度信息，融合该第一三维模型和该第二三维模型对应的像素信息，得到该第三图像，其中，该第一三维模型对应的像素点在该第三图像中的深度信息为该第一深度信息，该第二三维模型对应的像素点在该第三图像中的深度信息为该第三深度信息。

在一些实施例中，该基于该第一深度信息和该第三深度信息，融合该第一三维模型和该第二三维模型的像素信息，得到该第三图像，包括：

从该第一三维模型中，确定该目标对象的每个像素点的深度信息，该每个像素点的深度信息以该目标对象的目标关键点的深度信息为基准，该目标关键点为该目标对象的关键点；

基于该目标关键点，确定第一像素点，第一像素点为目标关键点在该第二三维模型中对应的像素点；

赋值第一像素点的像素信息和深度信息，第一像素点的像素信息为该目标关键点在第一三维模型中的像素信息，第一像素点的深度信息为该目标关键点的第一深度信息；

基于该目标关键点与该目标对象中其他像素点的位置关系，确定第二像素点，第二像素点为其他像素点在该第二三维模型中对应的像素点；

赋值第二像素点的像素信息和深度信息，得到第三图像，第二像素点的像素信息为该其他像素点在第一三维模型中的像素信息，第二像素点的深度信息为该其他像素点的第三深度信息。

在一些实施例中，通过基于该第二图像区域的图像数据替换该第一图像区域的图像数据，获取第二图像，包括：

对该第一图像进行图像分割，确定该第一图像区域对应的区域轮廓；

去除该区域轮廓内的图像数据；

在去除后的区域轮廓中填充背景，得到第二图像。

在一些实施例中，在去除后的区域轮廓中填充背景，得到第二图像，包括：

将去除后的第一图像输入至图像补全模型，得到该第二图像，该图像补全模型用于在区域轮廓中填充背景。

在一些实施例中，确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，包括：

将第一图像输入至第一深度确定模型中，得到第一深度信息和第二深度信息。

在一些实施例中，该第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层；

将第一图像输入至第一深度确定模型中，得到第一深度信息和第二深度信息，包括：

将该第一图像输入至该特征提取层，通过特征提取层提取第一图像的多层特征得到第一图像的多个图像特征；

通过特征图生成层采样多个图像特征得到不同尺度的多个特征图；

通过特征融合层融合多个特征图得到融合后的特征图；

通过深度确定层卷积处理融合后的特征图得到第一深度信息和第二深度信息。

在一些实施例中，该方法还包括：

确定待添加的特效元素的第一坐标和第二坐标，第一坐标为特效元素在第三图像的图像坐标系下的位置坐标，第二坐标为特效元素在第三图像的相机坐标系下的深度坐标；

通过基于第一坐标和第二坐标，获取第四图像，第四图像为将特效元素融合至第三图像的第一目标像素点，获取第四图像，第一目标像素点为位置坐标为第一坐标，深度坐标为第二坐标的像素点。

在一些实施例中，该方法还包括：

旋转第三图像，生成视频。

在一些实施例中，旋转第三图像，生成视频，包括：

将目标对象的目标关键点对应的位置坐标设置为第三图像对应的相机坐标系的坐标原点；

确定向相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度；

基于旋转角度，旋转第三图像中的像素点，生成视频。

在一些实施例中，确定向相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度，包括：

获取目标关键点在每个方向的预设展示角度、预设运动速度和预设展示帧数；

基于该预设运动速度和预设展示帧数，确定展示角度权重；

基于该展示角度权重和该第一预设展示角度，确定该方向的旋转角度。

图2为根据一示例性实施例提供的一种图像生成方法流程图。在本公开实施例中以训练第一深度确定模型为例进行说明。如图2所示，该方法包括以下步骤：

步骤201：电子设备获取多个第一图像集合，每个第一图像集合对应一个图像类别。

图像类别用于表示图像所属的场景，也即图像类别为图像场景，图像场景包括室内场景和室外场景。第一图像集合中包括多个样本图像，样本图像中标记该样本图像中像素点的深度信息。对于每个第一图像集合，电子设备获取该第一图像集合的步骤包括：电子设备获取多个图像，该多个图像的类别为该图像类别；标记该多个图像中像素点的深度信息，得到多个样本图像，将多个样本图像组成第一图像集合。

在一些实施例中，电子设备获取到多个第一图像集合后，将多个第一图像集合划分为训练数据和测试数据。训练数据用于对于模型进行训练，测试数据用于确定训练得到的模型是否符合要求。

在一些实施例中，电子设备从多个第一图像集合中选择部分样本图像作为训练数据，将多个第一图像集合中剩下的样本图像作为测试数据。在一些实施例中，电子设备从每个第一图像集合中选择部分样本图像，将从每个第一图像集合中选择的样本图像组成训练数据，将每个第一图像集合中剩下的样本图像组成测试数据。例如，电子设备获取两个第一图像集合，分别为图像集合A和图像集合B，图像集合A包括的样本图像的拍摄场景为室外，也即图像集合A的图像类别为室外；图像集合B包括的样本图像的拍摄场景为室内，也即图像集合B的图像类别为室外；电子设备分别从图像集合A和图像集合B中选择部分样本图像，将选择的样本图像组成训练数据，将图像集合A中剩余的样本图像和图像集合B中剩余的样本图像组成测试数据。

在本实现方式中，由于每个第一图像集合对应一个图像类别，因此通过多个图像集合进行后续的模型训练，使得能够针对不同图像类别下深度的差异对模型进行训练，从而提高了训练得到的第一深度确定模型的准确性。

步骤202：对于每个第一图像集合，电子设备基于第一数量和第二数量，确定该第一图像集合的采样权重。

其中，该第一数量为第一图像集合中包括的样本图像的数量，该第二数量为该多个第一图像集合中包括的样本图像的总数量，该采样权重与该第二数量正相关，且该采样权重与该第一数量负相关。由于每个第一图像集合对应一个图像类别，电子设备基于不同图像合集中的样本图像的数量，确定不同图像类别的第一图像集合的采样权重，从而后续基于不同图像类别的该采样权重进行模型训练，能够提高准确性。

在一些实施例中，电子设备将第二数量和第一数量的比值作为采样权重。例如，第二数量为K和第一数量为k_i，则该采样权重为K/k_i。其中，i表示该第一图像集合的标签(图像类别)。

在本实现方式中，电子设备将第二数量和第一数量的比值作为采样权重，从而第一数量越多的第一图像集合的采样权重越小，第一数量越少的第一图像集合的采样权重越大，这样能够保证在进行模型训练时，各个图像类别的样本图像均衡，防止模型训练出现偏差。

步骤203：电子设备基于该采样权重，采样该第一图像集合，得到第二图像集合。

电子设备基于该采样权重，从该第一图像集合中获取样本图像，将获取的样本图像组成第二图像集合。

在一些实施例中，电子设备确定第三数量，第三数量为预期的第二图像集合的总数量。对于每个第一图像合集，电子设备基于该第一图像集合的采样权重和该第三数量，确定第四数量，第四数量为需要从该第一图像集合中采集的样本图像的数量，从该第一图像集合中采集该第四数量的样本图像。

在一些实施例中，该第四数量的样本图像为第一图像集合中相邻的样本图像，或者，该第四数量的样本图像为第一图像集合中随机采样得到的样本图像，或者，该第四数量的样本图像为第一图像集合中均匀采样得到的样本图像等。在本公开实施例中，对电子设备从第一图像集合采样得到样本图像的方式不作具体限定。

步骤204：电子设备基于多个第二图像集合，训练第二深度确定模型得到第一深度确定模型。

电子设备基于第二图像集合和损失函数，调整第二深度确定模型的模型参数，得到训练完成的第一深度确定模型，该过程通过以下步骤(1)-(3)实现，包括：

(1)电子设备基于该第二图像集合和损失函数，确定第二深度确定模型的损失值。

电子设备通过训练第二深度确定模型得到第一深度确定模型，该过程包括：对于第二图像集合中的每个样本图像，电子设备将该样本图像输入至第二深度确定模型中，输出该样本图像的深度信息，将该第二深度确定模型输出的深度信息与该样本图像中标注的深度信息输入至损失函数中，得到第二深度确定模型的损失值。

在一些实施例中，该损失函数为向量损失函数；例如，该损失函数包括深度x方向损失函数、深度y方向损失函数、法向量损失函数和反向鲁棒损失函数(Reversed HuBer)中的至少一个。

另外，在本步骤之前，电子设备构建第二深度确定模型。在一些实施例中，电子设备通过卷积神经网络来构建第二深度确定模型。

该第二深度确定模型的结构与第一深度确定模型的结构相同。相应的，参见图3，该第二深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层。其中，第二深度确定模型中的每一层由卷积层组成，并且，每一层卷积层为相同结构的卷积层或不同结构的卷积层。例如，第二深度确定模型中的卷积层为Depthwise Convolution(深度卷积结构)、Pointwise Convolution(逐点卷积结构)或Depthwise-Pointwise Convolution(深度逐点卷积结构)中的至少一种。在本公开实施例中，对该卷积层的结构不作具体限定。

其中，该特征提取层由四层卷积层组成。该特征提取层用于提取样本图像的多层特征，得到该样本图像的多个图像特征。例如，样本图像为3通道图像。相应的，电子设备将3通道的样本图像输入第一层卷积层，通过第一层卷积层，将该3通道的样本图像转化为16通道的样本图像；再将该16通道的样本图像输入至第二层卷积层，通过第二层卷积层，将该16通道的样本图像转化为32通道的样本图像；再将该32通道的样本图像输入至第三层卷积层，通过第三层卷积层，将该32通道的样本图像转化为64通道的样本图像；再将该64通道的样本图像输入至第四层卷积层，通过第四层卷积层，将该64通道的样本图像转化为128通道的样本图像。对于不同通道数的样本图像，分别提取该样本图像的图像特征，从而能够得到不同卷积层对应的不同的图像特征。

该特征图生成层用于采样多个图像特征，得到不同尺度的多个特征图，通过特征提取层输出的不同卷积层的图像特征，来确定样本图像中局部图像的特征和全局图像的特征，记录每个像素点在样本图像的位置与全局图像的相对关系，以便向特征融合层和深度确定层提供局部特征信息和全局特征信息。

其中，该特征图生成层由五层卷积层组成。第一层卷积层至第四层卷积层用于采样128通道的样本图像；该第一层至第四层卷积层分别与第五层卷积层连接，将采样后的样本图像输入至第五层卷积层，该第五卷积层将接收到的四个样本图像进行尺度转换，得到不同尺度的多个特征图，将该不同尺度的多个特征图输入至特征融合层。

该特征融合层用于对该多个特征图进行特征融合，得到融合后的特征图。其中，该特征融合层逐步恢复图像分辨率以及缩减通道数，融合了特征提取层的特征，兼顾了样本图像中不同深度的特征。

其中，该特征融合层包括三层卷积层，第一层卷积层下采样128通道的样本图像的特征图，得到64通道的样本图像的特征图；第二层卷积层下采样64通道的样本图像的特征图，得到32通道的样本图像的特征图；第三层卷积层下采样32通道的样本图像的特征图，得到16通道的样本图像的特征图，然后对得到的多个特征图进行特征融合，得到融合后的特征图，将融合后的特征图输入至深度确定层。

该深度确定层用于基于融合后的特征图，确定样本图像的各个像素点的深度信息。

在一些实施例中，电子设备先获取多个第一图像集合，再构建第二深度确定模型；或者，电子设备先构建第二深度确定模型，再获取多个第一图像集合；或者，电子设备同时获取多个第一图像集合和构建第二深度确定模型。也即，电子设备先执行步骤201，再执行步骤202；或者，电子设备先执行步骤202，再执行步骤201；或者，电子设备同时执行步骤201和步骤202。在本公开实施例中，对步骤201和步骤202的执行顺序不作具体限定。

(2)电子设备通过该损失值和模型优化器更新该第二深度确定模型的模型参数，得到第三深度确定模型。

优化器用于采用随机梯度下降方法来更新模型参数。在本步骤中，电子设备基于该优化器，通过该随机梯度下降法更新模型参数，模型参数包括梯度值。

(3)电子设备基于该训练数据和向量损失函数，确定该第三深度确定模型的损失值，直到该损失值小于预设损失值，完成模型训练得到该第一深度确定模型。

电子设备调整第二深度确定模型的模型参数后，继续对得到的第三深度确定模型进行模型训练，该过程与步骤(1)-(2)相似，在此不再赘述，每次执行完步骤(2)之后，电子设备基于该模型的损失值，确定模型训练是否完成。响应于该损失值不小于预设损失值，确定模型训练未完成，继续执行步骤(1)-(2)，响应于该损失值小于预设损失值，确定模型训练完成，得到第一深度确定模型。

在一些实施例中，电子设备完成模型训练后，对该第一深度确定模型的预测结果进行评价。相应的，电子设备基于该测试数据，测试该第一深度确定模型，得到该第一深度确定模型的测试结果，该测试结果用于表示第一深度确定模型是否符合要求。响应于该测试结果用于表示第一深度确定模型符合要求时，确定第一深度确定模块为可用的深度确定模型，后续基于第一深度确定模型确定图像的深度信；响应于该测试结果用于表示第一深度确定模型不符合要求时，继续训练第一深度确定模型，直到第一深度确定模型符合要求为止。

其中，电子设备采用mean Relative Error(平均相对误差)算法或Root Mean Squared Error(均方根误差算法)中的至少一种算法来，确定第一确定模型的测试结果。图4和图5是根据一示例性实施例提供的一种第一深度确定模型的测试结果的效果图，深度信息相同的像素点被标注为相同的标记，且，深度信息越相似，标注的标记越相似。例如，通过不同的颜色区分不同的深度信息，深度信息越相似，颜色就越相近。

在一些实施例中，第一深度确定模型的训练过程由当前用于生成图像的电子设备执行；或者，由除当前设备以外的其他电子设备执行。在第一深度确定模型由其他电子设备执行的情况下，电子设备获取第一深度确定模型的过程为：电子设备向其他电子设备发送获取请求，该获取请求用于请求获取第一深度确定模型；其他电子设备基于该获取请求，获取第一深度确定模型，将该第一深度确定模型发送给电子设备；电子设备接收该第一深度确定模型。其中，其他电子设备训练第一深度确定模型的过程与电子设备训练第一深度确定模型的过程相似，在此不再赘述。

在本公开实施例中，由于采样权重是基于第一数量和第二数量确定的，第一数量为该第一图像集合中样本图像的数量，第二数量为多个第一图像集合中样本图像的总数量，从而在进行基于该采样权重，采样第一图像集合时，能够控制每个第一图像集合中的样本图像的数量，保证了包括样本图像越多的第一图像集合的采样权重越小，而包括样本图像越小的第一图像的采样权重越大，这样，保证每个第一图像集合选择出的样本图像是均衡的，防止模型训练出现偏差。

图6为根据一示例性实施例提供的一种图像生成方法流程图。在本公开实施例中以对图像进行处理，生成三维动态图像为例进行说明。如图6所示，该方法包括以下步骤：

步骤601：电子设备确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息。

该第一图像区域为目标对象所在的图像区域，该第二图像区域为背景所在的图像区域，背景为该第一图像中除该目标对象以外的部分。在一些实施例中，该目标对象为指定物体、人或其他动物面部等对象。

在一些实施例中，电子设备通过第一深度确定模型得到第一深度信息和第二深度信息，该过程为：电子设备将第一图像输入至第一深度确定模型，得到第一深度信息和第二深度信息。其中，该第一深度确定模型的结构与第二深度确定模型的结构相同，相应的，该第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层。本步骤通过以下步骤(1)-(4)实现，包括：

(1)电子设备将该第一图像输入至该特征提取层，通过该特征提取层提取第一图像的多层特征得到第一图像的多个图像特征。

本步骤与步骤204的步骤(1)中，电子设备通过第二深度确定模型中特征提取层提取图像特征的过程相似，在此不再赘述。

(2)电子设备通过该特征图生成层采样多个图像特征得到不同尺度的多个特征图。

本步骤与步骤204的步骤(1)中，电子设备通过第二深度确定模型中特征图生成层，生成特征图的过程相似，在此不再赘述。

(3)电子设备通过该特征融合层融合多个特征图得到融合后的特征图。

本步骤与步骤204的步骤(1)中，电子设备通过第二深度确定模型中特征融合层进行特征融合的过程相似，在此不再赘述。

(4)电子设备通过该深度确定层卷积处理融合后的特征图得到第一深度信息和第二深度信息。

本步骤与步骤204的步骤(1)中，电子设备通过第二深度确定模型中的深度确定层确定图像的深度信息的过程相似，在此不再赘述。

在本实现方式中，通过事先训练好的第一深度确定模型，确定该第一图像的第一深度信息和第二深度信息，从而缩短了第一深度信息和第二深度信息的确定时长，进而提高了图像处理速度，使得本方案能够适用于即时成像的场景中。

在一些实施例中，电子设备检测第一图像中是否存在目标对象，响应于第一图像中存在目标对象，电子设备执行步骤601；响应于第一图像中不存在目标对象，结束。

在一些实施例中，响应于第一图像中存在目标对象，电子设备还检测目标对象所在的第一图像区域与第一图像的面积比，响应于该面积比大于预设阈值，执行步骤601，响应于该面积比不大于预设阈值，结束。

在一些实施例中，该第一图像为RGB(Red Green Blue)三通道图像。

步骤602：电子设备通过基于第二图像区域的图像数据替换第一图像区域的图像数据，获取第二图像。

图像数据包括图像中像素点的位置、像素值等信息。电子设备将第一图像区域内的图像数据通过掩码去除，再通过第二图像区域对第一图像区域进行背景填充，得到第二图像。其中，本步骤通过以下步骤(1)-(3)实现，包括：

(1)电子设备对该第一图像进行图像分割，确定该第一图像区域对应的区域轮廓。

电子设备通过图像分割模型，对第一图像进行分割，得到第一图像区域对应的区域轮廓。该图像分割模型为电子设备事先获取的图像分割模型。在一些实施例中，该图像分割模型为掩码分割模型。

在一些实施例中，电子设备确定出第一图像区域对应的区域轮廓后，在第一图像中标记该区域轮廓。

(2)电子设备去除该区域轮廓内的图像数据。

电子设备去除区域轮廓中像素点的像素值，以实现去除该区域轮廓内的图像数据。另外，去除区域轮廓内的图像数据后，会得到第一图像区域的图像掩码。参见图7和图8，图7左侧的图像和图8左侧的图像所示的是区域轮廓的掩码图像。

(3)电子设备在去除后的区域轮廓中填充背景，得到第二图像。

电子设备通过图像补全模型，在去除后的区域轮廓中填充背景，则步骤(3)包括：电子设备将去除后的第一图像输入至图像补全模型，得到该第二图像，该图像补全模型用于在区域轮廓中填充背景。

电子设备将去除后的第一图像输入至图像补全模型，通过图像补全模型基于该第二图像区域的图像数据，在区域轮廓中填充背景，得到的第二图像是完整的背景图像。图7的右侧图像和图8右侧图像为完整的背景图像。

在一些实施例中，图像补全模型确定第二图像区域的图像特征，基于第二图像区域的图像特征，在区域轮廓中填充背景。

在本实现方式中，通过在区域轮廓中填充背景，从而防止了在视角变换时，目标对象的边界处出现空洞区域，优化了生成的三维图像的图像效果。

步骤603：电子设备通过基于第二深度信息填充第三图像区域的深度，获取第三图像区域的第三深度信息，该第三图像区域为第二图像中与该第一图像区域对应的图像区域。

电子设备基于该第二深度信息，向该第三图像区域进行深度信息扩散，得到该第三深度信息。在一些实施例中，扩散方式为泊松扩散方式。例如，电子设备确定第二图像区域中相邻像素点之间的深度信息变化规律，基于该深度信息变化规律，确定第三图像区域中每个像素点的深度信息；或者，对于第三图像区域中的每个像素点，电子设备确定该像素点在区域轮廓的深度信息，将确定出的深度信息赋值给该像素点。

在本实现方式中，电子设备通过填充第三图像区域的深度，从而使第三图像区域的深度与第二图像区域的深度匹配，从而使生成的背景更和谐，生成的三维图像的效果更真实。

步骤604：电子设备基于该第一图像区域的图像数据，创建第一三维模型，该第一三维模型为该目标对象对应的三维模型。

第一三维模型为基于第一图像区域的图像数据生成的三维模型。在一些实施例中，电子设备基于第一图像区域中目标对象的至少一个关键点，创建第一三维模型。例如，电子设备识别第一图像区域中目标对象的至少一个关键点，基于该至少一个关键点，通过三维模型生成算法，创建第一三维模型。参见图9，图9中右侧的图为基于左侧的图的人脸图像创建的第一三维模型。例如，该目标对象为人脸，则该至少一个关键点为人脸关键点。在一些实施例中，该三维模型生成算法为3DMM(3D Morphable Model，3D形变模型；3D，3 Dimensional，三维)算法。则该第一三维模型为mesh网格图像模型。

步骤605：电子设备基于深度填充后的该第二图像，创建第二三维模型，该第二三维模型为该背景对应的三维模型。

本步骤与步骤604相似，在此不再赘述。

步骤606：电子设备基于该第一深度信息和该第三深度信息，融合第一三维模型和第二三维模型对应的像素信息，得到第三图像。

其中，第一三维模型对应的像素点在第三图像中的深度信息为该第一深度信息，第二三维模型对应的像素点在第三图像中的深度信息为该第三深度信息。

在本实现方式中，通过将第一三维模型和第二三维模型融合生成第三图像，使得第三图像中包含三维的目标对象和三维的背景，从而保证了在视角变换时，能够填补背景空洞的同时，还防止目标对象的边界处出现扭曲或缺失，优化了生成的三维图像的图像效果。

在一些实施例中，电子设备确定一坐标系，将第一三维模型和第二三维模型融合至该坐标系下，使得第一三维模型和第二三维模型对应的像素点的深度信息为基于该坐标系的标准下的深度信息，分别将第一三维模型和第二三维模型对应的像素信息分别赋值到对应的像素位置，得到第三图像。在一些实施例中，电子设备基于第一三维模型或第二三维模型建立坐标系，将第二三维模型或第一三维模型映射到该坐标系中，将第一三维模型和第二三维模型对应的像素信息分别赋值到对应的像素位置，得到第三图像。其中，映射过程中，电子设备分别基于第一三维模型或第二三维模型中关键点在第二图像中的位置和第一三维模型和第二三维模型中各个关键点之间的参数信息，确定其他像素点与目标关键点的位置关系，基于该位置关系，融合第一三维模型和第二三维模型，得到第三图像。本步骤通过以下步骤(A1)-(A5)实现，包括：

(A1)电子设备从该第一三维模型中，确定该目标对象的每个像素点的深度信息，该每个像素点的深度信息以该目标对象的目标关键点的深度信息为基准，该目标关键点为该目标对象的关键点。

其中，该每个像素点的深度信息以该目标对象的目标关键点的深度信息为基准，该目标关键点为该至少一个关键点中的关键点。例如，该目标关键点为人脸图像中鼻头对应的像素点，或者，该目标关键点为第一三维模型的中心点。电子设备从目标对象的至少一个关键点中，选择一个目标关键点，将该目标关键点的深度信息确定为第一深度信息，电子设备基于第一三维模型的模型参数，确定第一三维模型中各个像素点相对于目标关键点的深度信息，基于该目标关键点的第一深度信息和第一三维模型中各个像素点相对于目标关键点的深度信息，确定第一三维模型中各个像素点的深度信息。例如，该第一三维模型为通过3DMM算法确定的mesh图像，则基于mesh图像中各个像素点的参数信息确定目标对象的各个像素点的深度信息。

(A2)电子设备基于目标关键点，确定第一像素点，

第一像素点为目标关键点在该第二三维模型中对应的像素点。第一三维模型和第二三维模型为第一图像中的目标对象和背景对应的三维模型，因此，第一三维模型和第二三维模型能够映射到同一图像坐标系中。在本步骤中，电子设备将第一三维模型映射到第二三维模型中。在一些实施例中，电子设备选择第二三维模型的中心点作为第一像素点，或者，电子设备基于第一映射关系和第二映射关系，确定第一三维模型和第二三维模型的映射关系，第一映射关系为第一三维模型与第一图像的映射关系，第二映射关系为第二三维模型与第一图像的映射关系，基于该第一三维模型和第二三维模型的映射关系，从第二三维模型中确定目标关键点对应的第一像素点。

(A3)电子设备赋值第一像素点的像素信息和深度信息。

第一像素点的像素信息为目标关键点在第一三维模型中的像素信息，第一像素点的深度信息为目标关键点的第一深度信息。该像素信息包括像素点的像素值等信息。电子设备将第二三维模型中的第一像素点的深度信息修改为目标关键点的第一深度信息，将第一像素点的像素信息修改为目标关键点的像素信息。例如，电子设备将第一三维模型中人脸中鼻头的位置确定为目标关键点，则将第一像素点的深度信息确定为鼻子的第一深度信息。

在一些实施例中，电子设备直接将目标关键点的像素信息和第一深度信息赋值给该第一像素点。在一些实施例中，电子设备在第二三维模型上设置新的图层，将该图层中第一像素点的像素信息和深度信息修改为目标关键点的像素信息和第一深度信息。

在本实现方式中，通过添加新的图层，使得第一三维模型和第二三维模型之间能够互不影响，且到达一体成型的效果，优化了生成的三维图像的图像效果。

(A4)电子设备基于目标关键点与该目标对象中其他像素点的位置关系，确定第二像素点。

第二像素点为其他像素点在该第二三维模型中对应的像素点。例如，电子设备将目标关键点设置在第二三维模型对应的坐标系的原点，将该第一三维模型和第二三维模型对应的坐标系的原点设置在第二图像中目标关键点对应的像素点的位置。

(A5)电子设备赋值第二像素点的像素信息和深度信息，得到第三图像，第二像素点的像素信息为该其他像素点在第一三维模型中的像素信息，第二像素点的深度信息为该其他像素点的第三深度信息。

本步骤与步骤(A3)相似，在此不再赘述。

在本实现方式中，电子设备基于不同的像素点在同一图像中的位置关系，融合第一三维模型和第二三维模型，使得在视角变换时，能够填补背景空洞的同时，还防止目标对象的边界处出现扭曲或缺失，优化了生成的三维图像的图像效果。

另外，电子设备还能够在该第三图像中添加特效元素，得到具有特效元素的第四图像，该过程为：电子设备确定待添加的特效元素的第一坐标和第二坐标，第一坐标为特效元素在第三图像的图像坐标系下的位置坐标，第二坐标为该特效元素在该第三图像的相机坐标系下的深度坐标，该深度坐标为该相机坐标系下该特效元素在该图像中的深度信息对应的坐标位置；通过基于第一坐标和第二坐标，将该特效元素融合至该第三图像的第一目标像素点，获取第四图像，第一目标像素点的位置坐标为第一坐标，深度坐标为第二坐标的像素点。

电子设备基于相机成像原理，将像素位置转换到坐标系。坐标系下的坐标为齐次坐标(X，Y，1)，在该坐标系下该像素点的深度为该深度图估计的距离，将该齐次坐标的深度坐标1和深度Z相乘构成真实深度坐标(X,Y,Z)，即为重建出的三维模型。

在本步骤中，电子设备选定三维图像中不同的位置和深度，放置不同的动态效果，得到第四图像。例如，参见图10，在人脸周围、深度分别为1，2，3.5的位置放置蝴蝶元素。该过程与步骤606中的(A1)-(A5)相似，在此不再赘述。

在本实现方式中，电子设备基于深度信息在第三图像中添加特效元素，使得添加的特效元素与第三图像更加贴合生动，优化了生成的三维图像的图像效果。

电子设备生成了三维的第三图像后，还能够旋转第三图像，生成视频。该过程通过以下步骤(B1)-(B3)实现，包括：

(B1)电子设备将目标对象的目标关键点对应的位置坐标设置为第三图像对应的相机坐标系的坐标原点。

(B2)电子设备确定向相机坐标系的每个坐标轴对应的方向进行选择的旋转角度。

电子设备分别确定每个坐标轴对应的方向上的旋转角度，在一些实施例中，该旋转角度为预设的旋转角度，或者，该旋转角度为基于旋转指令生成的旋转角度。

在一些实施例中，电子设备确定该目标关键点在预设展示角度、预设运动速度和预设展示帧数；基于该预设运动速度和预设展示帧数，确定展示角度权重；基于该展示角度权重和该预设展示角度，确定该方向的旋转角度。

例如，预设X(或Y)方向上的预设展示角度为AmpX(或AmpY)，t为预设展示帧数，在一些实施例中，该预设展示帧数还通过时间标识，s为预设运动速度，那么每次绕X轴旋转AmpX*sin(s*t)角度(或绕Y轴旋转选AmpY*sin(s*t)角度)。其中，sin(s*t)为展示角度。

在本实现方式中，通过预先设置的运动轨迹，确定第三图像的展示轨迹，使得第三图像能够按照指定的路线进行旋转展示，防止第三图像生成视频时产生轨迹混乱的问题。

在一些实施例中，电子设备获取旋转指令，基于该旋转指令，从该旋转指令对应的旋转角度和预设展示角度中，选择该方向的旋转角度。

该旋转指令为电子设备接收到的用户通过屏幕输入的指令，或者，该旋转指令为由电子设备中的角度传感器产生的指令。在一些实施例中，电子设备接收用户输入的手势操作，基于手势操作确定旋转角度。在另一些实施例中，电子设备通过角度传感器确定当前电子设备的倾斜角度，将该倾斜角度确定为旋转角度。例如，该角度传感器为陀螺仪，则电子设备基于电子设备姿态获取陀螺仪四元数attitude，计算出X轴和Y轴的倾斜角度x_anlge和y_angle，绕X轴旋转min(x_anlge,AmpX)角度，再绕Y轴旋转min(y_anlge,AmpY)角度。

在本实现方式中，电子设备基于接收到的旋转指令确定第三图像的运动轨迹，使得第三图像的运动轨迹更加灵活。

(B3)电子设备基于该旋转角度，旋转该第三图像中的像素点，生成视频。

电子设备将坐标系平移到该像素点，基于该像素点和旋转角度旋转第三图像中的该像素点，得到视频。目标关键点按照上述运动轨迹运动，最终回到初始位置，重复执行上述(B2)-(B3)得到三维动态的视频。

在本实现方式中，第三图像基于运行轨迹生成三维动态视频，丰富了图像的展示方式。

图11据一示例性实施例提供的一种图像生成的框图。参见图11，装置包括：

第一确定单元1101，被配置为确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为背景所在的图像区域；

替换单元1102，被配置为通过基于所述第二图像区域的图像数据，替换所述第一图像区域的图像数据，获取第二图像；

填充单元1103，被配置为通过基于所述第二深度信息填充所述第三图像区域的深度，获取第三图像区域的第三深度信息，所述第三图像区域为所述第二图像中与所述第一图像区域对应的图像区域；

第一融合单元1104，被配置为通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像。

在一些实施例中，所述第一融合单元1104包括：

在一些实施例中，所述替换单元1102包括：

去除子单元，被配置为去除所述区域轮廓内的图像数据；

所述第一确定单元1101包括：

在一些实施例中，所述装置还包括：

生成单元，被配置为旋转所述第三图像，生成视频。

在一些实施例中，所述生成单元，包括：

在一些实施例中，所述确定子单元，被配置为获取所述目标关键点在每个方向的预设展示角度、预设运动速度和预设展示帧数；基于所述预设运动速度和预设展示帧数，确定展示角度权重；基于所述展示角度权重和所述预设展示角度，确定所述方向的旋转角度。

需要说明的是：上述实施例提供的图像生成装置在图像生成时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像生成装置与图像生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12据一示例性实施例提供的一种深度确定模型的训练装置。参见图12，装置包括：

获取单元1201，被配置为获取多个第一图像集合，每个第一图像集合对应一个图像场景；

第二确定单元1202，被配置为对于每个第一图像集合，基于第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

采样单元1203，被配置为基于所述采样权重，采样所述第一图像集合，得到第二图像集合；

模型训练单元1204，被配置为基于多个第二图像集合，训练第二深度确定模型得到第一深度确定模型。

需要说明的是：上述实施例提供的深度确定模型的装置在深度确定模型训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的深度确定模型的训练装置与深度确定模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13示出了本公开一个示例性实施例提供的电子设备1300的结构框图。在一些实施例中，电子设备1300是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1300包括有：处理器1301和存储器1302。

在一些实施例中，处理器1301包括一个或多个处理核心，比如4核心处理器、8核心处理器等。在一些实施例中，处理器1301采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器1301也包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，存储器1302包括一个或多个计算机可读存储介质，该计算机可读存储介质是非暂态的。在一些实施例中，存储器1302还包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1301所执行以实现本公开中方法实施例提供的图像生成方法。

在一些实施例中，电子设备1300还可选包括有：***设备接口1303和至少一个***设备。在一些实施例中，处理器1301、存储器1302和***设备接口1303之间通过总线或信号线相连。在一些实施例中，各个***设备通过总线、信号线或电路板与***设备接口1303相连。在一些实施例中，***设备包括：射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。

***设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和***设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和***设备接口1303中的任意一个或两个在单独的芯片或电路板上实现，本公开的实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路1304包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。在一些实施例中，射频电路1304通过至少一种无线通信协议来与其他终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。在一些实施例中，该UI包括图形、文本、图标、视频及其他们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。在一些实施例中，该触摸信号作为控制信号输入至处理器1301进行处理。此时，显示屏1305还用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305为一个，设置在电子设备1300的前面板；在另一些实施例中，显示屏1305为至少两个，分别设置在电子设备1300的不同表面或呈折叠设计；在另一些实施例中，显示屏1305是柔性显示屏，设置在电子设备1300的弯曲表面上或折叠面上。甚至，显示屏1305还设置成非矩形的不规则图形，也即异形屏。在一些实施例中，显示屏1305采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。在一些实施例中，摄像头组件1306包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其他融合拍摄功能。在一些实施例中，摄像头组件1306还包括闪光灯。在一些实施例中，闪光灯是单色温闪光灯，在一些实施例中，闪光灯是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，用于不同色温下的光线补偿。

在一些实施例中，音频电路1307包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，在一些实施例中，麦克风为多个，分别设置在电子设备1300的不同部位。在一些实施例中，麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。在一些实施例中，扬声器是传统的薄膜扬声器，在一些实施例中，扬声器以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅能够将电信号转换为人类可听见的声波，也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还包括耳机插孔。

定位组件1308用于定位电子设备1300的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。在一些实施例中，定位组件1308是基于美国的GPS(Global Positioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1309用于为电子设备1300中的各个组件进行供电。在一些实施例中，电源1309是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还用于支持快充技术。

在一些实施例中，电子设备1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

在一些实施例中，加速度传感器1311检测以电子设备1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311用于检测重力加速度在三个坐标轴上的分量。在一些实施例中，处理器1301基于加速度传感器1311采集的重力加速度信号，控制显示屏1305以横向视图或纵向视图进行用户界面的显示。在一些实施例中，加速度传感器1311还用于游戏或者用户的运动数据的采集。

在一些实施例中，陀螺仪传感器1312检测电子设备1300的机体方向及转动角度，陀螺仪传感器1312与加速度传感器1311协同采集用户对电子设备1300的3D动作。处理器1301基于陀螺仪传感器1312采集的数据，能够实现如下功能：动作感应(比如基于用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

在一些实施例中，压力传感器1313设置在电子设备1300的侧边框和/或显示屏1305的下层。当压力传感器1313设置在电子设备1300的侧边框时，能够检测用户对电子设备1300的握持信号，由处理器1301基于压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时，由处理器1301基于用户对显示屏1305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301基于指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314基于采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。在一些实施例中，指纹传感器1314被设置在电子设备1300的正面、背面或侧面。当电子设备1300上设置有物理按键或厂商Logo时，指纹传感器1314与物理按键或厂商Logo集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301基于光学传感器1315采集的环境光强度，控制显示屏1305的显示亮度。在一些实施例中，当环境光强度较高时，调高显示屏1305的显示亮度；当环境光强度较低时，调低显示屏1305的显示亮度。在另一个实施例中，处理器1301还基于光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，通常设置在电子设备1300的前面板。接近传感器1316用于采集用户与电子设备1300的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变小时，由处理器1301控制显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变大时，由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员能够理解，图13中示出的结构并不构成对电子设备1300的限定，能够包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质中存储至少一条程序代码，至少一条程序代码由服务器加载并执行，以实现上述实施例中图像生成方法。

在示例性实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质中存储至少一条程序代码，至少一条程序代码由服务器加载并执行，以实现上述实施例中深度确定模型的训练方法。

在一些实施例中，该计算机可读存储介质是存储器。例如，该计算机可读存储介质是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，紧凑型光盘只读储存器)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述图像生成方法中所执行的操作。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述深度确定模型的训练方法中所执行的操作。

本公开所有实施例均能够单独被执行，还能够与其他实施例相结合被执行，均视为本公开要求的保护范围。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来程序代码相关的硬件完成，该的程序存储于一种计算机可读存储介质中，上述提到的存储介质是只读存储器，磁盘或光盘等。

Claims

一种图像生成方法，所述方法包括：

确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为背景所在的图像区域；

通过基于所述第二图像区域的图像数据替换所述第一图像区域的图像数据，获取第二图像；

通过基于所述第二深度信息填充所述第三图像区域的深度，获取第三图像区域的第三深度信息，所述第三图像区域为所述第二图像中与所述第一图像区域对应的图像区域；

通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像。
根据权利要求1所述的方法，其中，所述通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像，包括：

基于所述第一图像区域的图像数据，创建第一三维模型，所述第一三维模型为所述目标对象对应的三维模型；

基于深度填充后的所述第二图像，创建第二三维模型，所述第二三维模型为所述背景对应的三维模型；

基于所述第一深度信息和所述第三深度信息，融合所述第一三维模型和所述第二三维模型对应的像素信息，得到所述第三图像，其中，所述第一三维模型对应的像素点在所述第三图像中的深度信息为所述第一深度信息，所述第二三维模型对应的像素点在所述第三图像中的深度信息为所述第三深度信息。
根据权利要求2所述的方法，其中，所述基于所述第一深度信息和所述第三深度信息，融合所述第一三维模型和所述第二三维模型对应的像素信息，得到所述第三图像，包括：

从所述第一三维模型中，确定所述目标对象的每个像素点的深度信息，所述每个像素点的深度信息以所述目标对象的目标关键点的深度信息为基准，所述目标关键点为所述目标对象的关键点；

基于所述目标关键点，确定第一像素点，所述第一像素点为所述目标关键点在所述第二三维模型中对应的像素点；

赋值所述第一像素点的像素信息和深度信息，所述第一像素点的像素信息为所述目标关键点在所述第一三维模型中的像素信息，所述第一像素点的深度信息为所述目标关键点的第一深度信息；

基于所述目标关键点与所述目标对象中其他像素点的位置关系，确定第二像素点，所述第二像素点为所述其他像素点在所述第二三维模型中对应的像素点；

赋值所述第二像素点的像素信息和深度信息，得到所述第三图像，所述第二像素点的像素信息为所述其他像素点在所述第一三维模型中的像素信息，所述第二像素点的深度信息为所述其他像素点的第三深度信息。
根据权利要求1所述的方法，其中，所述通过基于所述第二图像区域的图像数据替换所述第一图像区域的图像数据，获取第二图像，包括：

对所述第一图像进行图像分割，确定所述第一图像区域对应的区域轮廓；

去除所述区域轮廓内的图像数据；

在去除后的所述区域轮廓中填充背景，得到所述第二图像。
根据权利要求4所述的方法，其中，所述在去除后的所述区域轮廓中填充背景，得到所述第二图像，包括：

将去除后的所述第一图像输入至图像补全模型，得到所述第二图像，所述图像补全模型用于在所述区域轮廓中填充背景。
根据权利要求1所述的方法，其中，所述确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，包括：

将所述第一图像输入至第一深度确定模型中，得到所述第一深度信息和所述第二深度信息。
根据权利要求6所述的方法，其中，所述第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层；

所述将所述第一图像输入至第一深度确定模型中，得到所述第一深度信息和所述第二深度信息，包括：

将所述第一图像输入至所述特征提取层，通过所述特征提取层提取所述第一图像的多层特征得到所述第一图像的多个图像特征；

通过所述特征图生成层采样所述多个图像特征得到不同尺度的多个特征图；

通过所述特征融合层融合所述多个特征图得到融合后的特征图；

通过所述深度确定层卷积处理所述融合后的特征图得到所述第一深度信息和所述第二深度信息。
根据权利要求1所述的方法，其中，所述方法还包括：

确定待添加的特效元素的第一坐标和第二坐标，所述第一坐标为所述特效元素在所述第三图像的图像坐标系下的位置坐标，所述第二坐标为所述特效元素在所述第三图像的相机坐标系下的深度坐标；

通过基于所述第一坐标和所述第二坐标，将所述特效元素融合至所述第三图像的第一目标像素点，获取第四图像，所述第一目标像素点为位置坐标为所述第一坐标，深度坐标为所述第二坐标的像素点。
根据权利要求1-8任一项所述的方法，其中，所述方法还包括：

旋转所述第三图像，生成视频。
根据权利要求9所述的方法，其中，所述旋转所述第三图像，生成视频，包括：

将所述目标对象的目标关键点对应的位置坐标设置为所述第三图像对应的相机坐标系的坐标原点；

确定向所述相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度；

基于所述旋转角度，旋转所述第三图像中的像素点，生成视频。
根据权利要求10所述的方法，其特征在于，所述确定向所述相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度，包括：

获取所述目标关键点在每个方向的预设展示角度、预设运动速度和预设展示帧数；

基于所述预设运动速度和预设展示帧数，确定展示角度权重；

基于所述展示角度权重和所述预设展示角度，确定所述方向的旋转角度。
一种深度确定模型的训练方法，所述方法包括：

获取多个第一图像集合，每个第一图像集合对应一个图像场景；

对于每个第一图像集合，根据第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

基于所述采样权重，采样所述第一图像集合，得到第二图像集合；

基于多个第二图像集合，训练第二深度确定模型得到第一深度确定模型。
一种图像生成装置，所述装置包括：

第一确定单元，被配置为确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为背景所在的图像区域；

替换单元，被配置为通过基于所述第二图像区域的图像数据，替换所述第一图像区域的图像数据，获取第二图像；

填充单元，被配置为通过基于所述第二深度信息填充所述第三图像区域的深度，获取第三图像区域的第三深度信息，所述第三图像区域为所述第二图像中与所述第一图像区域对应的图像区域；

第一融合单元，被配置为通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像。
根据权利要求13所述的装置，其中，所述第一融合单元包括：

第一创建子单元，被配置为基于所述第一图像区域的图像数据，创建第一三维模型，所述第一三维模型为所述目标对象对应的三维模型；

第二创建子单元，被配置为基于深度填充后的所述第二图像，创建第二三维模型，所述第二三维模型为所述背景对应的三维模型；

融合子单元，被配置为基于所述第一深度信息和所述第三深度信息，融合所述第一三维模型和所述第二三维模型对应的像素信息，得到所述第三图像，其中，所述第一三维模型对应的像素点在所述第三图像中的深度信息为所述第一深度信息，所述第二三维模型对应的像素点在所述第三图像中的深度信息为所述第三深度信息。
根据权利要求14所述的装置，其中，所述融合子单元，被配置为从所述第一三维模型中，确定所述目标对象的每个像素点的深度信息，所述每个像素点的深度信息以所述目标对象的目标关键点的深度信息为基准，所述目标关键点为所述目标对象的关键点；基于所述目标关键点，确定第一像素点，所述第一像素点为所述目标关键点在所述第二三维模型中对应的像素点；赋值所述第一像素点的像素信息和深度信息，所述第一像素点的像素信息为所述目标关键点在所述第一三维模型中的像素信息，所述第一像素点的深度信息为所述目标关键点的第一深度信息；基于所述目标关键点与所述目标对象中其他像素点的位置关系，确定第二像素点，所述第二像素点为所述其他像素点在所述第二三维模型中对应的像素点；赋值所述第二像素点的像素信息和深度信息，得到所述第三图像，所述第二像素点的像素信息为所述其他像素点在所述第一三维模型中的像素信息，所述第二像素点的深度信息为所述其他像素点的第三深度信息。
根据权利要求13所述的装置，其中，所述替换单元包括：

分割子单元，被配置为对所述第一图像进行图像分割，确定所述第一图像区域对应的区域轮廓；

去除子单元，被配置为去除所述区域轮廓内的图像数据；

补全子单元，被配置为在去除后的所述区域轮廓中填充背景，得到所述第二图像。
根据权利要求16所述的装置，其中，所述补全子单元，被配置为将去除后的所述第一图像输入至图像补全模型，得到所述第二图像，所述图像补全模型用于在所述区域轮廓中填充背景。
根据权利要求13所述的装置，其中，所述第一确定单元，被配置为将所述第一图像输入至第一深度确定模型中，得到所述第一深度信息和所述第二深度信息。
根据权利要求18所述的装置，其中，所述第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层；

所述第一确定单元包括：

特征提取子单元，被配置为将所述第一图像输入至所述特征提取层，通过所述特征提取层提取所述第一图像的多层特征得到所述第一图像的多个图像特征；

采样子单元，被配置为通过所述特征图生成层采样所述多个图像特征得到不同尺度的多个特征图；

特征融合子单元，被配置为通过所述特征融合层融合所述多个特征图得到融合后的特征图；

卷积子单元，被配置为通过所述深度确定层卷积处理所述融合后的特征图得到所述第一深度信息和所述第二深度信息。
根据权利要求13所述的装置，其中，所述装置还包括：

第三确定单元，被配置为确定待添加的特效元素的第一坐标和第二坐标，所述第一坐标为所述特效元素在所述第三图像的图像坐标系下的位置坐标，所述第二坐标为所述特效元素在所述第三图像的相机坐标系下的深度坐标；

第二融合单元，被配置为通过基于所述第一坐标和所述第二坐标，将所述特效元素融合至所述第三图像的第一目标像素点，获取第四图像，所述第一目标像素点为位置坐标为所述第一坐标，深度坐标为所述第二坐标的像素点。
根据权利要求13-20任一项所述的装置，其中，所述装置还包括：

生成单元，被配置为旋转所述第三图像，生成视频。
根据权利要求21所述的装置，其中，所述生成单元，包括：

坐标设置子单元，被配置为将所述目标对象的目标关键点对应的位置坐标设置为所述第三图像对应的相机坐标系的坐标原点；

确定子单元，被配置为确定向所述相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度；

生成子单元，被配置为基于所述旋转角度，旋转所述第三图像中的像素点，生成视频。
根据权利要求22所述的装置，其中，所述确定子单元，被配置为获取所述目标关键点在每个方向的预设展示角度、预设运动速度和预设展示帧数；基于所述预设运动速度和预设展示帧数，确定展示角度权重；基于所述展示角度权重和所述预设展示角度，确定所述方向的旋转角度。
一种深度确定模型的训练装置，所述装置包括：

获取单元，被配置为获取多个第一图像集合，每个第一图像集合对应一个图像场景；

第二确定单元，被配置为对于每个第一图像集合，基于第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

采样单元，被配置为基于所述采样权重，采样所述第一图像集合，得到第二图像集合；

模型训练单元，被配置为基于多个第二图像集合，训练第二深度确定模型得到第一深度确定模型。
一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为背景所在的图像区域；

通过基于所述第二图像区域的图像数据替换所述第一图像区域的图像数据，获取第二图像；

通过基于所述第二深度信息填充所述第三图像区域的深度，获取第三图像区域的第三深度信息，所述第三图像区域为所述第二图像中与所述第一图像区域对应的图像区域；

通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像。
根据权利要求25所述的电子设备，其中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

基于所述第一图像区域的图像数据，创建第一三维模型，所述第一三维模型为所述目标对象对应的三维模型；

基于深度填充后的所述第二图像，创建第二三维模型，所述第二三维模型为所述背景对应的三维模型；

基于所述第一深度信息和所述第三深度信息，融合所述第一三维模型和所述第二三维模型对应的像素信息，得到所述第三图像，其中，所述第一三维模型对应的像素点在所述第三图像中的深度信息为所述第一深度信息，所述第二三维模型对应的像素点在所述第三图像中的深度信息为所述第三深度信息。
根据权利要求26所述的电子设备，其中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

从所述第一三维模型中，确定所述目标对象的每个像素点的深度信息，所述每个像素点的深度信息以所述目标对象的目标关键点的深度信息为基准，所述目标关键点为所述目标对象的关键点；

基于所述目标关键点，确定第一像素点，所述第一像素点为所述目标关键点在所述第二三维模型中对应的像素点；

赋值所述第一像素点的像素信息和深度信息，所述第一像素点的像素信息为所述目标关键点在所述第一三维模型中的像素信息，所述第一像素点的深度信息为所述目标关键点的第一深度信息；

基于所述目标关键点与所述目标对象中其他像素点的位置关系，确定第二像素点，所述第二像素点为所述其他像素点在所述第二三维模型中对应的像素点；

赋值所述第二像素点的像素信息和深度信息，得到所述第三图像，所述第二像素点的像素信息为所述其他像素点在所述第一三维模型中的像素信息，所述第二像素点的深度信息为所述其他像素点的第三深度信息。
根据权利要求25所述的电子设备，其中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

对所述第一图像进行图像分割，确定所述第一图像区域对应的区域轮廓；

去除所述区域轮廓内的图像数据；

在去除后的所述区域轮廓中填充背景，得到所述第二图像。
根据权利要求28所述的电子设备，其中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

将去除后的所述第一图像输入至图像补全模型，得到所述第二图像，所述图像补全模型用于在所述区域轮廓中填充背景。
根据权利要求25所述的电子设备，其中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

将所述第一图像输入至第一深度确定模型中，得到所述第一深度信息和所述第二深度信息。
根据权利要求30所述的电子设备，其中，所述第一深度确定模型包括特征提取层、特征图生成层、特征融合层和深度确定层；所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

将所述第一图像输入至所述特征提取层，通过所述特征提取层提取所述第一图像的多层特征得到所述第一图像的多个图像特征；

通过所述特征图生成层采样所述多个图像特征得到不同尺度的多个特征图；

通过所述特征融合层融合所述多个特征图得到融合后的特征图；

通过所述深度确定层卷积处理所述融合后的特征图得到所述第一深度信息和所述第二深度信息。
根据权利要求25所述的电子设备，其中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

确定待添加的特效元素的第一坐标和第二坐标，所述第一坐标为所述特效元素在所述第三图像的图像坐标系下的位置坐标，所述第二坐标为所述特效元素在所述第三图像的相机坐标系下的深度坐标；

通过基于所述第一坐标和所述第二坐标，将所述特效元素融合至所述第三图像的第一目标像素点，获取第四图像，所述第一目标像素点为位置坐标为所述第一坐标，深度坐标为所述第二坐标的像素点。
根据权利要求25-32任一项所述的电子设备，其中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

旋转所述第三图像，生成视频。
根据权利要求33所述的电子设备，其中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

将所述目标对象的目标关键点对应的位置坐标设置为所述第三图像对应的相机坐标系的坐标原点；

确定向所述相机坐标系的每个坐标轴对应的方向进行旋转的旋转角度；

基于所述旋转角度，旋转所述第三图像中的像素点，生成视频。
根据权利要求34所述的电子设备，其中，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

获取所述目标关键点在每个方向的预设展示角度、预设运动速度和预设展示帧数；

基于所述预设运动速度和预设展示帧数，确定展示角度权重；

基于所述展示角度权重和所述预设展示角度，确定所述方向的旋转角度。
一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

获取多个第一图像集合，每个第一图像集合对应一个图像场景；

对于每个第一图像集合，基于第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

基于所述采样权重，采样所述第一图像集合，得到第二图像集合；

基于多个第二图像集合，训练第二深度确定模型得到第一深度确定模型。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如下步骤：

确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为背景所在的图像区域；

通过基于所述第二图像区域的图像数据替换所述第一图像区域的图像数据，获取第二图像；

通过基于所述第二深度信息填充所述第三图像区域的深度，获取第三图像区域的第三深度信息，所述第三图像区域为所述第二图像中与所述第一图像区域对应的图像区域；

通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如下步骤：

获取多个第一图像集合，每个第一图像集合对应一个图像场景；

对于每个第一图像集合，基于第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

基于所述采样权重，采样所述第一图像集合，得到第二图像集合；

基于多个第二图像集合，训练第二深度确定模型得到第一深度确定模型。
一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备执行以下步骤：

确定第一图像中第一图像区域的第一深度信息和第二图像区域的第二深度信息，所述第一图像区域为目标对象所在的图像区域，所述第二图像区域为背景所在的图像区域；

通过基于所述第二图像区域的图像数据替换所述第一图像区域的图像数据，获取第二图像；

通过基于所述第二深度信息填充所述第三图像区域的深度，获取第三图像区域的第三深度信息，所述第三图像区域为所述第二图像中与所述第一图像区域对应的图像区域；

通过基于所述第一深度信息和所述第三深度信息，将所述第一图像区域中的图像数据融合至深度填充后的所述第二图像中，获取第三图像。
一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备执行以下步骤：

获取多个第一图像集合，每个第一图像集合对应一个图像场景；

对于每个第一图像集合，基于第一数量和第二数量，确定所述第一图像集合的采样权重，所述第一数量为第一图像集合中包括的样本图像的数量，所述第二数量为所述多个第一图像集合中包括的样本图像的总数量，所述采样权重与所述第二数量正相关，且所述采样权重与所述第一数量负相关；

基于所述采样权重，采样所述第一图像集合，得到第二图像集合；

基于多个第二图像集合，训练第二深度确定模型得到第一深度确定模型。