CN111815666B

CN111815666B - 图像处理方法及装置、计算机可读存储介质和电子设备

Info

Publication number: CN111815666B
Application number: CN202010796552.3A
Authority: CN
Inventors: 樊欢欢; 李姬俊男
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2024-04-02
Anticipated expiration: 2040-08-10
Also published as: CN111815666A

Abstract

本公开提供了一种图像处理方法、图像处理装置、计算机可读存储介质和电子设备，涉及图像处理技术领域。该图像处理方法包括：获取二维图像，对二维图像进行语义分割，确定二维图像的前景区域和背景区域；确定背景区域的深度信息；利用背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息；其中，遮挡区域的位置与前景区域在二维图像上的位置对应；结合遮挡区域的像素信息和深度信息，生成与二维图像对应的三维图像。本公开可以将二维图像转换为三维图像，以提升图像的立体表现能力。

Description

图像处理方法及装置、计算机可读存储介质和电子设备

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种图像处理方法、图像处理装置、计算机可读存储介质和电子设备。

背景技术

随着例如手机、平板电脑等电子设备的普及以及摄像模组配置的不断提升，用户对拍照效果的追求也不断提高。

目前，用户利用电子设备拍摄出的照片存在不生动、缺乏立体感的问题，尤其在寓教于乐的场景中，不能充分发挥出展示的作用。

发明内容

本公开提供一种图像处理方法、图像处理装置、计算机可读存储介质和电子设备，进而至少在一定程度上克服拍摄出的照片立体感弱的问题。

根据本公开的第一方面，提供了一种图像处理方法，包括：获取二维图像，对二维图像进行语义分割，确定二维图像的前景区域和背景区域；确定背景区域的深度信息；利用背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息；其中，遮挡区域的位置与前景区域在二维图像上的位置对应；结合遮挡区域的像素信息和深度信息，生成与二维图像对应的三维图像。

根据本公开的第二方面，提供了一种图像处理装置，包括：语义分割模块，用于获取二维图像，对二维图像进行语义分割，确定二维图像的前景区域和背景区域；深度确定模块，用于确定背景区域的深度信息；遮挡信息确定模块，用于利用背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息；其中，遮挡区域的位置与前景区域在二维图像上的位置对应；三维图像生成模块，用于结合遮挡区域的像素信息和深度信息，生成与二维图像对应的三维图像。

根据本公开的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的图像处理方法。

根据本公开的第四方面，提供了一种电子设备，包括处理器；存储器，用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得所述处理器实现上述的图像处理方法。

在本公开的一些实施例所提供的技术方案中，对二维图像进行语义分割，得到前景区域和背景区域，并确定背景区域的深度信息，利用背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息，进而利用遮挡区域的像素信息和深度信息生成三维图像。一方面，本公开可以将二维图像转换为三维图像，提高了图像展示的立体感，视觉效果得到了提升；另一方面，针对寓教于乐的场景，本公开可以充分展示图像的信息，使用户更易了解图像的内容；再一方面，可以将本方案应用于增强现实技术或虚拟现实技术中，构建不同类型的应用场景，以提高用户的感知程度和参与度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本公开实施例的图像处理方案的示例性***架构的示意图；

图2示出了适于用来实现本公开实施例的电子设备的结构示意图；

图3示意性示出了根据本公开的示例性实施方式的图像处理方法的流程图；

图4示意性示出了根据本公开实施例的语义分割的效果图；

图5示意性示出了利用神经网络确定遮挡区域的像素信息和深度信息的网络结构图；

图6示意性示出了根据本公开实施例的整个图像处理过程的流程图；

图7示意性示出了根据本公开的示例性实施方式的图像处理装置的方框图；

图8示意性示出了根据本公开的另一示例性实施方式的图像处理装置的方框图；

图9示意性示出了根据本公开的又一示例性实施方式的图像处理装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

随着终端技术和摄像技术的发展，用户对图像的要求越来越高。相册中的二维图像存在不生动、缺乏立体感的问题，如果将二维图像转换为三维图像，不但能够使图像的内容更加丰富，还可以提高娱乐性和用户体验。

在本公开的示例性实施方式中，结合语义分割技术和深度估计技术，可以实现将二维图像转换为三维图像，进而可以将二维相册转换为三维相册。在一些场景中，还可以利用三维图像形成动画，以起到寓教于乐的目的。此外，还可以将生成的三维图像应用在增强现实场景或虚拟现实场景，本公开对生成的三维图像的应用范围不做限制。

图1示出了本公开实施例的图像处理方案的示例性***架构的示意图。

如图1所示，***架构1000可以包括终端设备1001、1002、1003中的一种或多种，网络1004和服务器1005。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器1005可以是多个服务器组成的服务器集群等。

用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互，以接收或发送消息等。终端设备1001、1002、1003可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

在仅使用终端设备1001、1002、1003实现本公开示例性实施方式的图像处理方案的实例中，在终端设备1001、1002、1003确定出需要转换为三维图像的二维图像时，首先，一方面，可以对二维图像进行语义分割，确定二维图像的前景区域和背景区域，另一方面，可以对二维图像进行深度估计，得到二维图像上各像素的深度信息，进而确定背景区域的深度信息；接下来，可以利用背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息，其中，遮挡区域的位置与前景区域在二维图像上的位置对应；然后，结合遮挡区域的像素信息和深度信息，生成与二维图像对应的三维图像。

在这种情况下，下面所述的图像处理装置可以配置在终端设备1001、1002、1003中。

本公开所述图像处理方案还可以由服务器1005执行。首先，服务器1005借助于网络1004从终端设备1001、1002、1003获取二维图像，或者服务器1005可以从其他服务器或存储设备中获取二维图像；接下来，服务器1005可以对二维图像进行语义分割，确定二维图像的前景区域和背景区域，另外，还可以对二维图像进行深度估计，并基于深度估计的结果确定背景区域的深度信息；随后，服务器1005可以利用背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息，并结合遮挡区域的像素信息和深度信息，生成与二维图像对应的三维图像。此外，服务器1005还可以利用三维图像生成三维相册，以及/或者将三维图像发送给终端设备1001、1002、1003。

在这种情况下，下面所述的图像处理装置可以配置在服务器1005中。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图，可以将上述终端设备配置为图2所示电子设备的形式。另外需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的图像处理方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。

USB接口230是符合USB标准规范的接口，具体可以是MiniUSB接口，MicroUSB接口，USBTypeC接口等。USB接口230可以用于连接充电器为电子设备200充电，也可以用于电子设备200与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

充电管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210、内部存储器221、显示屏290、摄像模组291和无线通信模块260等供电。

电子设备200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。

移动通信模块250可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。

无线通信模块260可以提供应用在电子设备200上的包括无线局域网(WirelessLocal Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)、蓝牙(Bluetooth，BT)、全球导航卫星***(Global Navigation Satellite System，GNSS)、调频(Frequency Modulation，FM)、近距离无线通信技术(Near Field Communication，NFC)、红外技术(Infrared，IR)等无线通信的解决方案。

电子设备200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏290和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

电子设备200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。在一些实施例中，电子设备200可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

电子设备200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。

音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中，音频模块270可以设置于处理器210中，或将音频模块270的部分功能模块设置于处理器210中。

扬声器271，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备200可以通过扬声器271收听音乐，或收听免提通话。受话器272，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备200接听电话或语音信息时，可以通过将受话器272靠近人耳接听语音。麦克风273，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风273发声，将声音信号输入到麦克风273。电子设备200可以设置至少一个麦克风273。耳机接口274用于连接有线耳机。

针对电子设备200中传感器模块280可以包括的传感器，深度传感器用于获取景物的深度信息。压力传感器用于感受压力信号，可以将压力信号转换成电信号。陀螺仪传感器可以用于确定电子设备200的运动姿态。气压传感器用于测量气压。磁传感器包括霍尔传感器。电子设备200可以利用磁传感器检测翻盖皮套的开合。加速度传感器可检测电子设备200在各个方向上(一般为三轴)加速度的大小。距离传感器用于测量距离。接近光传感器可以包括例如发光二极管(LED)和光检测器，例如光电二极管。指纹传感器用于采集指纹。温度传感器用于检测温度。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏290提供与触摸操作相关的视觉输出。环境光传感器用于感知环境光亮度。骨传导传感器可以获取振动信号。

按键294包括开机键，音量键等。按键294可以是机械按键。也可以是触摸式按键。马达293可以产生振动提示。马达293可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口295用于连接SIM卡。电子设备200通过SIM卡和网络交互，实现通话以及数据通信等功能。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

下面将以终端设备执行本公开图像处理方案为例进行说明。

图3示意性示出了本公开的示例性实施方式的图像处理方法的流程图。参考图3，所述图像处理方法可以包括以下步骤：

S32.获取二维图像，对二维图像进行语义分割，确定二维图像的前景区域和背景区域。

在本公开的示例性实施方式中，二维图像可以是通过终端设备的摄像模组拍摄出的图像，也可以是从其他设备或服务器上获取到的图像，本公开对二维图像的格式、尺寸、来源等均不做限制。

二维图像可以存储在二维相册中，用户可以从中挑选出要进行三维转换的二维图像执行本公开方案的步骤。终端设备也可以按时间顺序、拍摄地点等对相册中的二维图像进行分类，按类别执行本公开二维图像转换三维图像的方案。

在另一些实施例中，每当终端设备拍摄一张二维图像时，终端设备均会执行本公开方案，以得到对应的三维图像。

终端设备在获取到待进行三维转换的二维图像后，可以对二维图像进行语义分割。所谓语义分割，指的是在像素级别上的分类，将属于同一类的像素归为一类。

根据本公开一些实施例，可以采用语义分割模型来实现对二维图像的语义分割，该语义分割模型可以基于深度神经网络来实现。首先，可以利用训练数据集对语义分割模型进行训练，接下来，将二维图像输入训练后的语义分割模型，根据模型的输出，即可得到二维图像的前景区域和背景区域。例如，前景区域包含的对象可以是人、动物、汽车等与用户兴趣点对应的对象，而背景区域对应于人、动物、汽车等所处的背景，例如，草地、树木、天空等。

本公开对语义分割的实现方式不作具体限制，然而，应当注意的是，将语义分割的构思应用到二维图像转换至三维图像中的方案均属于本公开的内容。

图4示意性示出了根据本公开实施例的语义分割的效果图。参考图4，对二维图像40进行语义分割后，可以得到背景区域41和前景区域42。

S34.确定背景区域的深度信息。

在终端设备获取二维图像后，还可以对二维图像进行深度估计。所谓深度估计，指的是确定二维图像上各像素点的深度信息。

根据本公开一些实施例，可以采用深度估计模型来实现对二维图像的深度估计，该深度估计模型也可以基于神经网络来实现。首先，可以利用大量带有像素级别深度标签的图像对深度估计模型进行训练，得到训练后的深度估计模型；接下来，可以将二维图像输入训练后的深度估计模型，根据模型的输出，可以得到二维图像深度估计的结果，即二维图像的深度信息。

应当注意的是，本公开对执行深度估计的过程和步骤S32执行语义分割的过程的先后顺序不做限制。也就是说，可以先执行语义分割的过程后执行深度估计的过程，也可以先执行深度估计的过程后执行语义分割的过程，还可以同时执行语义分割和深度估计的过程。

对二维图像进行深度估计后，可以基于深度估计的结果确定背景区域的深度信息。

例如，在确定出二维图像的背景区域后，即可获得背景区域的坐标。接下来，利用前景区域的坐标可以从二维图像的深度信息中确定出背景区域的深度信息。

类似地，终端设备还可以确定出前景区域的深度信息。

此外，在本公开的另一些实施例中，在对二维图像进行深度估计之前，还可以识别前景区域内是否包含目标对象。在前景区域包含目标对象的情况下，则对二维图像进行深度估计。在前景区域包含目标对象的情况下，则不对二维图像进行处理。

该目标对象可以由用户提前设置，例如，在用户期望仅对二维相册中包含人物(或特定人物，如本人)的图像进行三维图像转换的情况下，用户可以设置目标对象为人物。具体的，可以在相册中配置该设置功能，用户可以通过滑动、点击、勾选等方式进行目标对象的设置。通过在相册中添加此设置功能，可以满足不同用户的需求。

具体的，针对识别前景区域是否包含目标对象的过程，在语义分割算法可以直接确定出分割出的区域所包含对象类型的情况下，可以直接根据语义分割的结果确定出前景区域是否包含目标对象。

在语义分割算法不能直接确定出分割出的区域所包含对象类型的情况下，可以另外执行对前景区域的识别操作，以得到前景区域是否包含目标对象的结果。对前景区域进行图像识别的过程也可以采用神经网络的方式实现，本公开对此不做限制。

上面以对二维图像进行深度估计为例，说明了确定背景区域深度信息的过程。然而，在本公开的另一些实施例中，终端设备上可以配置有深度传感器，在拍摄二维图像时，可以直接通过深度传感器获取二维图像的深度信息，进而可以直接确定出背景区域的深度信息。

S36.利用背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息；其中，遮挡区域的位置与前景区域在二维图像上的位置对应。

在本公开的示例性实施方式中，遮挡区域指的是，前景区域遮挡背景的区域。遮挡区域的位置与前景区域在二维图像上的位置对应，也就是说，遮挡区域可以是二维图像中剔除前景区域后，二维图像中缺失的图像区域，也即所处位置是前景区域对应的位置。参考图4，遮挡区域为小狗遮挡的区域。

在移动终端确定出背景区域的像素信息和深度信息的情况下，可以对遮挡区域的像素信息和深度信息进行预测。

首先，可以对背景区域的像素信息和深度信息进行特征提取，生成中间信息。接下来，一方面，可以对中间信息执行像素信息预测过程，以确定遮挡区域的像素信息；另一方面，可以对中间信息执行深度信息预测过程，以确定遮挡区域的深度信息。

具体的，可以通过一个卷积神经网络(Convolutional Neural Networks，CNN)来实现像素信息预测过程，并通过另一个卷积神经网络来实现深度信息预测过程。

参考图5，首先，可以将背景区域的像素信息和深度信息输入第一神经网络51进行特征提取，生成中间信息。具体的，可以利用VGG16网络来配置第一神经网络51，也可以利用一个CNN网络来配置第一神经网络51，本公开对此不做限制。

接下来，一方面，可以将中间信息输入第二神经网络52，该第二神经网络52可以是CNN网络，以对遮挡区域的像素信息进行预测，输出遮挡区域的像素信息。

另一方面，可以将中间信息输入第三神经网络53，该第三神经网络可以是另一CNN网络，以对遮挡区域的深度信息进行预测，输出遮挡区域的深度信息。

本公开对图5所涉神经网络的网络结构及训练过程不做限制。

此外，考虑到一些二维图像的前景区域与背景区域的深度差较小，没有必要耗费资源进行三维转换。因此，在确定遮挡区域的像素信息和深度信息之前，还可以包括确定前景区域与背景区域之间深度差的过程。

首先，终端设备可以确定前景区域的深度信息；接下来，基于前景区域的深度信息和背景区域的深度信息，确定前景区域与背景区域的深度差；随后，将该深度差与深度阈值进行比较。其中，可以预先设置该深度阈值，例如，将其设置为10cm、0.5m等。

如果该深度差大于深度阈值，则执行确定遮挡区域的像素信息和深度信息的过程。如果该深度差不大于深度阈值，则停止本方案的处理过程，还可以向用户反馈“由于深度差较小，不建议进行转换”的提示。

S38.结合遮挡区域的像素信息和深度信息，生成与二维图像对应的三维图像。

首先，可以基于深度估计的结果确定前景区域的深度信息，并获取前景区域的像素信息；接下来，可以结合遮挡区域的像素信息和深度信息以及前景区域的像素信息和深度信息，生成与二维图像对应的三维图像。

在本公开的一些实施例中，本公开所述三维图像可以是与在二维平面上与二维图像尺寸相同的图像。

在这种情况下，生成三维图像的过程，除需要遮挡区域的像素信息和深度信息以及前景区域的像素信息和深度信息外，还需要利用背景区域的像素信息和深度信息。

在本公开的另一些实施例中，本公开所述三维图像可以是仅针对前景区域的三维图像。就如图4所示的二维图像而言，生成的三维图像可以是仅包括小狗而不包含背景区域的三维图像。

具体的，可以利用遮挡区域的像素信息和深度信息以及前景区域的像素信息和深度信息，生成前景区域对应对象的三维图像，作为二维图像对应的三维图像。

应当理解的是，生成三维图像的过程包括三维渲染的过程。另外，由于是三维图像，因此，根据观看视角的不同，可以映射出图像中各对象(物体)之间的遮挡关系，并根据该遮挡关系得到不同视角下的观看效果。在此基础上，可以生成三维动画，以便用户观看到不同角度下的三维图像。

下面将参考图6对本公开实施例的整个图像处理过程进行说明。

在步骤S602中，终端设备可以获取二维图像；在步骤S604中，终端设备可以对二维图像进行语义分割；在步骤S606中，终端设备可以对二维图像进行深度估计。

基于步骤S604语义分割的结果，在步骤S608中，可以确定出前景区域，在步骤S610中，可以确定出背景区域。基于步骤S606语义分割的结果，在步骤S612中，可以确定出二维图像上各像素的深度值(即深度信息)。

在步骤S614中，可以根据背景区域的像素信息和背景区域的深度信息，对遮挡部分进行像素估计和深度估计。

针对基于神经网络的像素估计过程，在步骤S616中，可以确定出遮挡部分的像素信息。

针对基于另一神经网络的深度估计过程，在步骤S618中，可以确定出遮挡部分的深度信息。

在步骤S620中，结合遮挡部分的深度信息和前景区域的信息，进行三维渲染。

在步骤S622中，终端设备可以将渲染得到三维图像输出。另外，可以生成三维动画进行展示，还可以基于三维图像生成三维相册，具体的，可以将该三维相册配置为云相册，以节省终端设备的存储空间。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种图像处理装置。

图7示意性示出了本公开的示例性实施方式的图像处理装置的方框图。参考图7，根据本公开的示例性实施方式的图像处理装置7可以包括语义分割模块71、深度确定模块73、遮挡信息确定模块75和三维图像生成模块77。

具体的，语义分割模块71可以用于获取二维图像，对二维图像进行语义分割，确定二维图像的前景区域和背景区域；深度确定模块73可以用于确定背景区域的深度信息；遮挡信息确定模块75可以用于利用背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息；其中，遮挡区域的位置与前景区域在二维图像上的位置对应；三维图像生成模块77可以用于结合遮挡区域的像素信息和深度信息，生成与二维图像对应的三维图像。

基于本公开示例性实施方式的图像处理装置，一方面，本公开可以将二维图像转换为三维图像，提高了图像展示的立体感，视觉效果得到了提升；另一方面，针对寓教于乐的场景，本公开可以充分展示图像的信息，使用户更易了解图像的内容；再一方面，可以将本方案应用于增强现实技术或虚拟现实技术中，构建不同类型的应用场景，以提高用户的感知程度和参与度。

根据本公开的示例性实施例，遮挡信息确定模块75可以被配置为执行：对背景区域的像素信息和深度信息进行特征提取，生成中间信息；对中间信息执行像素信息预测过程，以确定遮挡区域的像素信息；对中间信息执行深度信息预测过程，以确定遮挡区域的深度信息。

根据本公开的示例性实施例，参考图8，相比于图像处理装置7，图像处理装置8还可以包括深度差比较模块81。

具体的，深度差比较模块81可以被配置为执行：确定前景区域的深度信息；基于前景区域的深度信息和背景区域的深度信息，确定前景区域与背景区域的深度差；将深度差与深度阈值进行比较；其中，如果深度差大于深度阈值，则控制遮挡信息确定模块75执行确定遮挡区域的像素信息和深度信息的过程。

根据本公开的示例性实施例，三维图像生成模块77可以被配置为执行：获取前景区域的像素信息和深度信息；结合遮挡区域的像素信息和深度信息以及前景区域的像素信息和深度信息，生成与二维图像对应的三维图像。

根据本公开的示例性实施例，三维图像生成模块77生成三维图像的过程可以被配置为执行：利用遮挡区域的像素信息和深度信息以及前景区域的像素信息和深度信息，生成前景区域对应对象的三维图像，作为与二维图像对应的三维图像。

根据本公开的示例性实施例，三维图像生成模块77生成三维图像的过程还可以被配置为执行：利用遮挡区域的像素信息和深度信息、前景区域的像素信息和深度信息以及背景区域的像素信息和深度信息，生成与二维图像对应的三维图像。

根据本公开的示例性实施例，深度确定模块73可以被配置为执行：对二维图像进行深度估计，并基于深度估计的结果确定背景区域的深度信息。

根据本公开的示例性实施例，参考图9，相比于相比于图像处理装置7，图像处理装置9还可以包括对象识别模块91。

具体的，对象识别模块91可以被配置为执行：识别前景区域内是否包含目标对象；其中，如果前景区域包含目标对象，则控制深度确定模块73执行对二维图像进行深度估计的过程。

应当理解的是，对象识别模块91还可以配置于上述图像处理装置8中。类似地，图像处理装置8中包括的深度差比较模块81还可以配置于图像处理装置9中。

由于本公开实施方式的图像处理装置的各个功能模块与上述方法实施方式中相同，因此在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种图像处理方法，其特征在于，包括：

获取二维图像，对所述二维图像进行语义分割，确定所述二维图像的前景区域和背景区域；

确定所述背景区域的深度信息；

利用所述背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息；其中，所述遮挡区域的位置与所述前景区域在所述二维图像上的位置对应；

结合所述遮挡区域的像素信息和深度信息，生成与所述二维图像对应的三维图像。

2.根据权利要求1所述的图像处理方法，其特征在于，利用所述背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息，包括：

对所述背景区域的像素信息和深度信息进行特征提取，生成中间信息；

对所述中间信息执行像素信息预测过程，以确定所述遮挡区域的像素信息；

对所述中间信息执行深度信息预测过程，以确定所述遮挡区域的深度信息。

3.根据权利要求2所述的图像处理方法，其特征在于，在确定遮挡区域的像素信息和深度信息之前，所述图像处理方法还包括：

确定所述前景区域的深度信息；

基于所述前景区域的深度信息和所述背景区域的深度信息，确定所述前景区域与所述背景区域的深度差；

将所述深度差与深度阈值进行比较；

其中，如果所述深度差大于所述深度阈值，则执行确定遮挡区域的像素信息和深度信息的过程。

4.根据权利要求1所述的图像处理方法，其特征在于，结合所述遮挡区域的像素信息和深度信息，生成与所述二维图像对应的三维图像，包括：

获取所述前景区域的像素信息和深度信息；

结合所述遮挡区域的像素信息和深度信息以及所述前景区域的像素信息和深度信息，生成与所述二维图像对应的三维图像。

5.根据权利要求4所述的图像处理方法，其特征在于，结合所述遮挡区域的像素信息和深度信息以及所述前景区域的像素信息和深度信息，生成与所述二维图像对应的三维图像，包括：

利用所述遮挡区域的像素信息和深度信息以及所述前景区域的像素信息和深度信息，生成所述前景区域对应对象的三维图像，作为与所述二维图像对应的三维图像。

6.根据权利要求4所述的图像处理方法，其特征在于，结合所述遮挡区域的像素信息和深度信息以及所述前景区域的像素信息和深度信息，生成与所述二维图像对应的三维图像，包括：

利用所述遮挡区域的像素信息和深度信息、所述前景区域的像素信息和深度信息以及所述背景区域的像素信息和深度信息，生成与所述二维图像对应的三维图像。

7.根据权利要求1所述的图像处理方法，其特征在于，确定所述背景区域的深度信息包括：

对所述二维图像进行深度估计，并基于深度估计的结果确定所述背景区域的深度信息。

8.根据权利要求7所述的图像处理方法，其特征在于，在对所述二维图像进行深度估计之前，所述图像处理方法还包括：

识别所述前景区域内是否包含目标对象；

其中，如果所述前景区域包含目标对象，则对所述二维图像进行深度估计。

9.一种图像处理装置，其特征在于，包括：

语义分割模块，用于获取二维图像，对所述二维图像进行语义分割，确定所述二维图像的前景区域和背景区域；

深度确定模块，用于确定所述背景区域的深度信息；

遮挡信息确定模块，用于利用所述背景区域的像素信息和深度信息，确定遮挡区域的像素信息和深度信息；其中，所述遮挡区域的位置与所述前景区域在所述二维图像上的位置对应；

三维图像生成模块，用于结合所述遮挡区域的像素信息和深度信息，生成与所述二维图像对应的三维图像。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至8中任一项所述的图像处理方法。

11.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如权利要求1至8中任一项所述的图像处理方法。