CN115205161B

CN115205161B - 一种图像处理方法及设备

Info

Publication number: CN115205161B
Application number: CN202210994225.8A
Authority: CN
Inventors: 王国毅; 刘小伟; 周俊伟
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2023-02-21
Anticipated expiration: 2042-08-18
Also published as: CN115205161A

Abstract

本申请实施例公开了一种图像处理方法及设备，其中，该方法包括：对待处理图像进行全景分割处理，得到多个对象和多个对象对应的轮廓掩码；移除待处理图像中的目标对象得到第一图像，目标对象为多个对象中的对象；基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全，第一对象为多个对象中被目标对象遮挡的对象。基于本申请所描述的方法，能够移除待处理图像中的目标对象，并对移除目标对象后的空缺处进行图像补全，从而提高图像的美观度。

Description

一种图像处理方法及设备

技术领域

本申请涉及电子技术领域，尤其涉及一种图像处理方法及设备。

背景技术

随着时代的不断发展，越来越多人们开始喜欢通过拍照留下纪念。但在拍照的过程中，常常会遇到图像中出现不相干事物的情况，影响图像的美观度。例如，用户在公众场合拍照时，由于公众场合人流量较大，因此容易受到无关路人或者无关物体进入画面从而干扰拍摄。

发明内容

本申请实施例提供了一种图像处理方法及设备，能够移除待处理图像中的目标对象，并对移除目标对象后的空缺处进行图像补全，从而提高图像的美观度。

第一方面，本申请实施例提出了一种图像处理方法，该方法包括：对待处理图像进行全景分割处理，得到多个对象和多个对象对应的轮廓掩码；移除待处理图像中的目标对象得到第一图像，目标对象为多个对象中的对象；基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全，第一对象为多个对象中被目标对象遮挡的对象。

基于第一方面所描述的方法，能够移除用户希望移除的目标图像，同时也能够对移除目标图像后的空缺进行图像补偿，有利于提高图像的美观度。

在一种可能的实现方式中，第一对象的数量大于1，基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全，具体实现方式为：确定多个第一对象的深度值；基于多个第一对象的深度值，计算多个第一对象中通过图像补全的像素的深度值；基于多个第一对象的轮廓掩码和多个第一对象中通过图像补全的像素的深度值，对第一图像中的多个第一对象进行图像补全，其中，深度值高的第一对象的图层低于深度值低的第一对象的图层。有利于提高图像补全的效果，从而提高图像的美观度。

在一种可能的实现方式中，对待处理图像进行全景分割处理，得到多个对象和多个对象对应的轮廓掩码，具体实现方式为：将待处理图像输入全景分割模型，得到多个对象和多个对象对应的轮廓掩码。基于该实现方式，能够训练出图像补全效果更好的图像补全模型，从而有利于提升图像补全后的美观度。

在一种可能的实现方式中，该方法还包括：获取第一训练图像以及第一训练图像中包括的至少一个第二对象；将第一训练图像输入全景分割模型得到至少一个第三对象；基于至少一个第二对象和至少一个第三对象调整全景分割模型的参数。基于该实现方式，有利于得到一个全景分割处理能力较强的全景分割模型，从而提高全景处理的效果。

在一种可能的实现方式中，基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全，具体实现方式为：将第一对象的轮廓掩码和第一对象输入图像补全模型进行图像补全。

在一种可能的实现方式中，该方法还包括：获取第二训练图像和第二训练图像中的对象的轮廓掩码，第二训练图像中包括一个对象；随机去除第二训练图像中的任意大小的区域得到输入图像；将输入图像和第二训练图像中的对象的轮廓掩码输入至图像补全模型，得到补全图像；基于补全图像和第二训练图像计算轮廓掩码损失值；基于轮廓掩码损失值调整图像补全模型中的参数。基于该实现方式，能够训练出图像补全效果更好的图像补全模型，从而有利于提升图像补全后的美观度。

在一种可能的实现方式中，图像补全模型包括粗修复网络和精修复网络；将输入图像和第二训练图像中的对象的轮廓掩码输入至图像补全模型，得到补全图像，具体实现方式为：将输入图像和第二训练图像中的对象的轮廓掩码输入至粗修复网络得到粗修复图像；将粗修复图像、输入图像和第二训练图像中的对象的轮廓掩码输入至精修复网络得到补全图像；基于补全图像和第二训练图像计算轮廓掩码损失值，具体实现方式为：基于补全图像、粗修复图像和第二训练图像计算轮廓掩码损失值。

在一种可能的实现方式中，确定多个第一对象的深度值，具体实现方式为：将待处理图像输入深度估计模型得到待处理图像中每个像素的深度值；基于待处理对象中每个像素的深度值确定第一对象的深度值。

在一种可能的实现方式中，该方法还包括：获取第三训练图像和第三训练图像对应的真实深度值；将第三训练图像输入至深度估计模型得到训练深度值；基于训练深度值和真实深度值的误差调整深度估计模型中的参数。基于该实现方式，能够训练出深度估计效果更好的深度估计模型，从而有利于提升图像补全后的美观度。

在一种可能的实现方式中，移除待处理图像中的目标对象得到第一图像之前，该方法还包括：显示待处理图像中包括的多个对象和多个对象的标识；接收用户对待处理图像中的对象的选择操作；将选择操作选择的对象确定为目标对象。基于该实现方式，有利于使用户能够灵活地控制需要移除的目标对象。

在一种可能的实现方式中，将选择操作选择的对象确定为目标对象，具体实现方式为：确定选择操作选择的对象的语义类型；将多个对象中语义类型和选择操作选择的对象的语义类型相同的对象确定为目标对象。基于该实现方式，能够直接移除待处理图像中用户选择的语义类型的对象，简化了用户的操作。

在一种可能的实现方式中，目标对象的语义类型为预设语义类型。基于该实现方式，可直接移除用户预设的语义类型，简化用户操作，提高了图像处理的便捷性。

在一种可能的实现方式中，多个对象中包括多个第四对象的语义类型为预设语义类型；移除待处理图像中的目标对象得到第一图像之前，该方法还包括：基于预设图像和多个第四对象确定第五对象；确定多个第四对象中除第五对象以外的其它对象为目标对象。基于该实现方式，能够在无需用户进行手动操作的过程中，通过预设图像保留用户期望留下的对象，通过预设语义类型移除用户希望移除的对象，提高了图像处理的智能性，也简化了用户的操作。

第二方面，本申请提出了一种图像处理装置，该图像处理装置包括全景分割单元、移除单元和图像补全单元，其中：该全景分割单元，用于对待处理图像进行全景分割处理，得到多个对象和多个对象对应的轮廓掩码；该移除单元，用于移除待处理图像中的目标对象得到第一图像，目标对象为多个对象中的对象；该图像补全单元，用于基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全，第一对象为多个对象中被目标对象遮挡的对象。

在一种可能的实现方式中，第一对象的数量大于1，该图像补全单元基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全时，该图像补全单元具体用于：确定多个第一对象的深度值；基于多个第一对象的深度值，计算多个第一对象中通过图像补全的像素的深度值；基于多个第一对象的轮廓掩码和多个第一对象中通过图像补全的像素的深度值，对第一图像中的多个第一对象进行图像补全，其中，深度值高的第一对象的图层低于深度值低的第一对象的图层。

在一种可能的实现方式中，该全景分割单元对待处理图像进行全景分割处理，得到多个对象和多个对象对应的轮廓掩码时，该全景分割单元，具体用于：将待处理图像输入全景分割模型，得到多个对象和多个对象对应的轮廓掩码。

在一种可能的实现方式中，该图像处理装置包括训练单元，该训练单元，用于：获取第一训练图像以及第一训练图像中包括的至少一个第二对象；将第一训练图像输入全景分割模型得到至少一个第三对象；基于至少一个第二对象和至少一个第三对象调整全景分割模型的参数。

在一种可能的实现方式中，该图像补全单元基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全时，该图像补全单元，具体用于：将第一对象的轮廓掩码和第一对象输入图像补全模型进行图像补全。

在一种可能的实现方式中，该训练单元，还用于：获取第二训练图像和第二训练图像中的对象的轮廓掩码，第二训练图像中包括一个对象；随机去除第二训练图像中的任意大小的区域得到输入图像；将输入图像和第二训练图像中的对象的轮廓掩码输入至图像补全模型，得到补全图像；基于补全图像和第二训练图像计算轮廓掩码损失值；基于轮廓掩码损失值调整图像补全模型中的参数。

在一种可能的实现方式中，图像补全模型包括粗修复网络和精修复网络；该训练单元将输入图像和第二训练图像中的对象的轮廓掩码输入至图像补全模型，得到补全图像时，鸡腿用于：将输入图像和第二训练图像中的对象的轮廓掩码输入至粗修复网络得到粗修复图像；将粗修复图像、输入图像和第二训练图像中的对象的轮廓掩码输入至精修复网络得到补全图像；该训练单元基于补全图像和第二训练图像计算轮廓掩码损失值时，具体用于：基于补全图像、粗修复图像和第二训练图像计算轮廓掩码损失值。

在一种可能的实现方式中，该全景分割单元确定多个第一对象的深度值时，该全景分割单元具体用于：将待处理图像输入深度估计模型得到待处理图像中每个像素的深度值；基于待处理对象中每个像素的深度值确定第一对象的深度值。

在一种可能的实现方式中，该训练单元，还用于：获取第三训练图像和第三训练图像对应的真实深度值；将第三训练图像输入至深度估计模型得到训练深度值；基于训练深度值和真实深度值的误差调整深度估计模型中的参数。

在一种可能的实现方式中，该图像处理装置还包括交互单元，在移除待处理图像中的目标对象得到第一图像之前，交互单元用于显示待处理图像中包括的多个对象和多个对象的标识；接收用户对待处理图像中的对象的选择操作；将选择操作选择的对象确定为目标对象。

在一种可能的实现方式中，交互单元将选择操作选择的对象确定为目标对象时，该交互单元具体用于：确定选择操作选择的对象的语义类型；将多个对象中语义类型和选择操作选择的对象的语义类型相同的对象确定为目标对象。

在一种可能的实现方式中，目标对象的语义类型为预设语义类型。

在一种可能的实现方式中，多个对象中包括多个第四对象的语义类型为预设语义类型；移除待处理图像中的目标对象得到第一图像之前，该交互单元还用于：基于预设图像和多个第四对象确定第五对象；确定多个第四对象中除第五对象以外的其它对象为目标对象。

第三方面，本申请实施例提供了一种电子设备，电子设备包括存储器和至少一个处理器；存储器与一个或多个处理器耦合，存储用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行如第一方面或第一方面下的任意一种可能的实现方式所描述的方法。

第四方面，本申请实施例提供了一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面或第一方面下的任意一种可能的实现方式所描述的方法。

第五方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面或第一方面下的任意一种可能的实现方式所描述的方法。

附图说明

图1是本申请实施例提供的电子设备的结构示意图；

图2是本申请实施例提高的电子设备的软件结构框图；

图3是本申请实施例提供的一种图像处理方法的流程示意图；

图4是本申请实施例提供的全景分割示意图；

图5是本申请实施例提供的全景分割模型的结构示意图；

图6是本申请实施例提供的目标图像移除的示意图；

图7是本申请实施例提供的图像补全的示意图；

图8是本申请实施例提供的随机去除图像区域的示意图；

图9是本申请实施例提供的图像补全的结构示意图；

图10是本申请实施例提供的CSA层的处理过程示意图；

图11是本申请实施例提供的深度估计的示意图；

图12是本申请实施例提供的人机交互的示意图。

具体实施方式

下面结合附图对本申请具体实施例作进一步的详细描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

随着时代的不断发展，越来越多人们开始喜欢通过拍照留下纪念。但在拍照的过程中，常常会遇到图像中出现不相干事物的情况，影响图像的美观度。为了能够移除图像中的目标对象，从而提高图像的美观度，本申请实施例提出了一种图像处理方法，该图像处理方法可以应用在电子设备中，该图像处理方法大致可以包括：对待处理图像进行全景分割处理，得到多个对象和多个对象对应的轮廓掩码；移除待处理图像中的目标对象得到第一图像，目标对象为多个对象中的对象；基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全，第一对象为多个对象中被目标对象遮挡的对象。基于本申请所描述的方法，能够移除用户希望移除的目标图像，同时也能够对移除目标图像后的空缺进行图像补偿，有利于提高图像的美观度。

上述所描述的电子设备可以为终端设备，例如智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，但并不局限于此。该电子设备也可以为服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例对电子设备的类型不作限定。

请参见图1，图1示出了电子设备100的结构示意图。下面以电子设备100为例对实施例进行具体说明。应该理解的是，电子设备100可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

电子设备100可以包括：处理器110、存储器120、天线1，天线2，移动通信模块150，无线通信模块160，显示屏194。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器120，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

天线1和天线2用于发射和接收电磁波信号。终端设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备输出声音信号，或通过显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端设备上的包括无线局域网(wirelesslocal area networks，WLAN)(如Wi-Fi网络)，蓝牙(bluetooth，BT)，BLE广播，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端设备可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code divisionmultiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC ，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system ，GPS)，全球导航卫星***(global navigation satellite system，GLONASS)，北斗卫星导航***(beidounavigation satellite system，BDS)，准天顶卫星***(quasi-zenith satellitesystem，QZSS)和/或星基增强***(satellite based augmentation systems，SBAS)。

图2是本发明实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和***库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序(也可以称为应用)。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图***，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图***包括可视控件，例如显示文字的控件，显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

***库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子***进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如: MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面对本申请实施例提供的图像处理方法进一步进行详细描述：

请参见图3，图3是本申请实施例提供的一种图像处理方法的流程示意图。图3所示的方法执行主语可以为电子设备，或主语可以为电子设备中的芯片。图3以电子设备为方法的执行主体为例进行说明。本申请实施例的其他附图所示的图像处理方法的执行主语同理，后文不再赘述。图3所示的图像处理方法包括步骤301~步骤303。其中：

301、对待处理图像进行全景分割处理，得到多个对象和多个对象对应的轮廓掩码。

本申请实施例中，待处理图像指用户需要进行处理的图像，该待处理图像可以是电子设备本地存储的图像，例如，该电子设备为终端设备，用户通过终端设备的摄像头进行拍摄得到了该图像，该图像存储在该终端设备的本地存储空间中；该待处理图像也可以是由其它设备发送给电子设备的，例如，该电子设备为服务器，用户通过终端设备向服务器发送该待处理图像，以请求服务器对该待处理图像进行图像处理。本申请实施例对如何获取待处理对象不作限定。

其中，全景分割处理包括语义分割(semantic)和实例分割(instancesegmentation)。语义分割指确定图像中的每个像素所对应的语义，但是同一类别之间的对象不会区分。语义分割用于确定图像中包含的一个或者多个语义对象。实例分割指确定图像中像素所对应的实例，且会对特定的物体实例进行分类，实例分割用于确定图像中包含的一个或者多个实例对象。示例性的，如图4所示，图4所示的待处理图像中包含了两辆车和一棵树，若经过全景分割中的语义对象分割，则可以确定该待处理对象中包含两个语义对象，即图像区域401和图像区域402中包含的像素对应一个语义对象，该语义对象的类别为车辆，而图像区域403中包含的像素对应一个语义对象，该语义对象的类别为树。而在经过实例对象分割后，可以确定该待处理对象中包含三个实例对象，即图像区域401对应实例对象车辆1，图像区域401对应实例对象车辆2，图像区域403对应实例对象树。本申请实施例所描述的多个对象包括语义对象和实例对象，其中，若待处理对象中的图像区域能够通过实例分割确定对应的实例对象，则确定该像素所对应的对象为实例对象，例如树，车辆，人物。若待处理对象中的像素不能通过实例分割确定对应的实例对象，仅能通过语义分割确定该像素对应的语义对象，则确定该像素所对应的对象为语义对象，例如天空，大地等。还需说明的是，轮廓掩码主要用于指示该对象所对应的轮廓。电子设备通过全景分割处理，能够识别待处理图像中的一个或者多个对象，从而后续能够对需要移除的对象进行处理。

在一种可能的实现方式中，对待处理图像进行全景分割处理，得到多个对象和多个对象对应的轮廓掩码，具体实现方式可以为：将待处理图像输入全景分割模型，得到多个对象和多个对象对应的轮廓掩码。

该全景分割模型主要用于对图像进行全景分割处理。可选地，该全景分割模型的训练方式可以为：获取第一训练图像以及第一训练图像中包括的至少一个第二对象；将第一训练图像输入全景分割模型得到至少一个第三对象；基于至少一个第二对象和至少一个第三对象调整全景分割模型的参数。其中，训练该全景分割模型的设备可以为电子设备，也可以是除了电子设备以外的其他设备，本申请实施例对此不作限定。第一训练图像的数量可以为一张或者多张，本申请实施例对此不作限定。

其中，该全景分割模型可以如图5所示，首先通过特征提取模块提取图像特征，该特征提取模块可以为深度残差网络(Deep residual network, ResNet)50。将图像特征通过语义分割和实例分割，得到语义对象和实例对象，基于语义对象和实例对象的结果进行融合。具体的融合结果为，针对一个像素，如果该像素有对应的实例对象，则该像素属于该实例对象，为实例分割的结果；如果该像素没有对应的实例对象，则该像素属于对应的语义对象，为语义分割的结果。第二对象和第三对象均可以指语义对象和/或实例对象。第二对象为第一训练图像中所包括的对象，示例性的，可以是通过人为处理已经分割好后的对象，而第三对象是第一训练图像通过全景分割模型处理后得到的对象，第二对象和第三对象越相近，则该全景分割模型的全景分割处理能力越强。可以通过像素计算第二对象和第三对象之间的误差，通过反向传播算法，调整网络参数，减小误差。基于该实现方式，有利于得到一个全景分割处理能力较强的全景分割模型，从而提高全景处理的效果。

可选地，在全景分割模型训练完成后，还可以通过全景质量 (panoptic quality，PQ)评价模型的效果，其中，PQ值越高，则说明该全景分割模型越好；PQ值越低，则说明该全景分割模型效果越差。PQ的计算方式如下：

(1)

其中，TP(True Positive，真正)指被模型预测为正的正样本，FP(FalsePositive，假正)指被模型预测为正的负样本，FN(False Negative，假负)表示被模型预测为负的正样本，p表示预测值，g表示真实值(ground truth，GT)。IoU(Intersection overUnion)是一种测量在特定数据集中检测相应物体准确度的一个标准。

302、移除待处理图像中的目标对象得到第一图像，该目标对象为多个对象中的对象。

本申请实施例中，第一图像为不包含目标对象所对应的像素的待处理图像。例如，如图6所示，待处理图像中车辆601为目标对象，电子设备移除待处理对象中的车辆601后，得到第一图像，其中车辆601所对应的像素位置602此时为空白，不包含任何内容。

303、基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全，第一对象为多个对象中被目标对象遮挡的对象。

本申请实施例中，第一对象为多个对象中被目标对象遮挡的对象，例如，如图7所示，在图像补全之前，第一图像中像素区域701所对应的位置为被移除的目标对象所在的位置，像素区域701所对应的目标对象遮挡了对象702，对象702对应的语义类型为大地，从图像中看出对象702所对应的大地由于被目标对象所遮挡，所以空缺了一部分，因此可以确定该对象702为第一对象。电子设备采用图像补全的方式，基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全，第一对象的轮廓掩码可以表征该第一对象的形状，第一对象由于被目标对象遮挡，因此第一对象的轮廓并不是完整的，因此电子设备可以根据第一对象对应的语义类型的完整轮廓和该第一对象的轮廓掩码进行对比，确定缺失的部分，从而进行补全。例如，如图7所示，对象702对应的类型为大地，由于被目标对象所遮挡，可以通过对象702所对应的轮廓掩码识别确定对象702所对应的大地缺失的像素区域701所在的部分，因此可以基于对象702对应的轮廓掩码以及第一对象，对像素区域701所在的部分进行图像补全。

在一种可能的实现方式中，基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全的具体实现方式为：将第一对象的轮廓掩码和第一对象输入图像补全模型进行图像补全。

该图像补全模型主要用于对第一图像中的第一对象进行图像补全。可选地，该图像补全模型的训练方法可以为：获取第二训练图像和第二训练图像中的对象的轮廓掩码，第二训练图像中包括一个对象；随机去除第二训练图像中的任意大小的区域得到输入图像；将输入图像和第二训练图像中的对象的轮廓掩码输入至图像补全模型，得到补全图像；基于补全图像和第二训练图像计算轮廓掩码损失值；基于轮廓掩码损失值调整图像补全模型中的参数。其中，训练该图像补全模型的设备可以为电子设备，也可以是除了电子设备以外的其他设备，本申请实施例对此不作限定。第二训练图像的数量可以为一张或者多张，本申请实施例对此不作限定。

其中，第二训练图像中仅包括一个对象，获取第二训练图像的方法可以为：收集全景分割公开的数据集或者也可以自采数据集，自采数据集的方法为：使用不规则的轮廓线将将物体分割出来，可以分出实例对象的，如桌椅、人物等，标注每一实例对象的轮廓；若无法分出实例对象，则区分其语义对象，如地面、天空，标注每一语义对象的轮廓即可。基于上述对数据集处理，可以得到多个对象，将这多个对象拆分为只包含一个对象的图像，即该图像为第二训练图像。若为语义对象，可以切割出该语义对象最大的完整的矩形区域作为第二训练图像。其中，若实例对象是不完整的样本，例如，假设该实例对象为一辆车，但分割出得到的车辆仅有真实车辆的一部分，完整度小于80%，则可以剔除该实例对象，不用于进行训练。

还需补充说明的是，随机去除第二训练图像中的任意大小的区域得到输入图像，这个步骤可以重复多次，主要用于模拟真实的场景中，对象会被遮挡的场景。例如，如图8所示，将第二训练图像中包含了一个实例对象汽车，随机去除第二训练图像中任意大小，或者任意形状的区域得到输入对象，通过图8可见输入图像中包含的实例对象汽车有一部分区域被去除掉了。

轮廓掩码损失值是基于该图像补全模型对输入图像进行图像补全处理时该图像补全模型中的部分参数得到，其中，轮廓掩码损失值越小则说明该图像补全模型的图像补全效果越好。进一步可选地，图像补全模型包括粗修复网络和精修复网络；将输入图像和第二训练图像中的对象的轮廓掩码输入至图像补全模型，得到补全图像，具体实现方式为：将输入图像和第二训练图像中的对象的轮廓掩码输入至粗修复网络得到粗修复图像；将粗修复图像、输入图像和第二训练图像中的对象的轮廓掩码输入至精修复网络得到补全图像；基于补全图像和第二训练图像计算轮廓掩码损失值，具体实现方式为：基于补全图像、粗修复图像和第二训练图像计算轮廓掩码损失值。基于该实现方式，能够训练出图像补全效果更好的图像补全模型，从而有利于提升图像补全后的美观度。

图像补全模型的网络结构如图9所示，图像补全模型包括粗修复网络和精修复网络，其中，粗修复网络用于粗略生成缺失部分，精修复网络，用于实现更好的修复效果。粗修复网络的输入包括输入图像和轮廓掩码，其中，轮廓掩码指的是该输入图像所对应的第二训练图像中包含的对象的轮廓掩码，该轮廓掩码指示了输入图像中所包含的对象的完整轮廓。在经过粗修复网络修复后，可以得到粗修复图像。精修复网络的输入包括输入图像、轮廓掩码以及通过粗修复网络得到的粗修复图像，经过精修复网络可以得到最终的输出图像。

还需要补充的是，轮廓掩码损失值L _m可以通过下列公式(2)进行计算：

(2)

其中，I _r表示补全图像，I _p表示粗修复图像，I’_gt表示第二训练图像中的对象的轮廓掩码。

进一步可选地，电子设备基于补全图像和第二训练图像计算轮廓掩码损失值，基于轮廓掩码损失值调整图像补全模型中的参数的具体实现方式为：基于一致性损失值(consistency Loss)L _c、重建损失值(reconstruction loss)L _re、鉴别器损失值D _R和轮廓掩码损失值L _m计算出总损失值L，基于该总损失值L调整图像补全模型中的相关参数，总损失值L计算公式可以参见下列公式(3)：

(3)

λ _r表示L _re所对应的权重值、λ _m表示L _m所对应的权重值、λ _c表示L _c所对应的权重值、λ _R表示D _R所对应的权重值。

L _c的计算方式可以参见公式(4)：

(4)

其中，I _p表示粗修复图像，I _gt表示第二训练图像，CSA表示精修复网络中的残差通道空间注意力(channel-spatial attention，CSA)层之后的输出的特征向量，Φ_n表示第二训练图像的超分辨率测试序列(Visual Geometry Group，VGG)4-3层的特征向量，CSA _d表示解码器中对应的位置的特征向量。

CSA层用于保证在图像修复的过程中，生成的填充区域与未残缺部分图像的连贯性。具体的，CSA的过程主要分为搜索和生成两个步骤。如图10所示，M表示图像的残缺区域，即需要填充的区域M，

表示未残缺区域。搜索阶段中，计算每一图像块m _i与未残缺区域

的相似度D _max，计算方法可以参见下列公式(5)，将相似度最高的图像块作为

。

(5)

在生成阶段，计算每一图像块m _i与其相邻图像块的相似度D _ad，计算方法可以参见公式(6)所示，使用相邻图像块的值来对当前的初始值进行优化，如公式(7)所示，得到的最终的值作为当前的图像块的像素值。其中，m ₁没有相邻图像块，因此，m ₁对应的相似度D _ad为0。

(6)

(7)

L _re的计算方式可以参见公式(8)：

(8)

D _R的计算方式可以参见公式(9)：

(9)

其中，D表示鉴别器，具体指补全图像和粗修复图像输入到鉴别器种，网络负责分辨出真实的图像和虚假的图像。其中，

表示对一个批次（batch）内的第二修复图像的取平均值，

表示一个batch内的补全图像取平均值。

在一种可能的实现方式中，第一对象的数量为多个，电子设备基于第一对象的轮廓掩码对第一图像中的第一对象进行图像补全，具体实现方式为：确定多个第一对象的深度值；基于多个第一对象的深度值，计算多个第一对象中通过图像补全的像素的深度值；基于多个第一对象的轮廓掩码和多个第一对象中通过图像补全的像素的深度值，对第一图像中的多个第一对象进行图像补全，其中，深度值高的第一对象的图层低于深度值低的第一对象的图层。

其中，当目标对象遮挡的第一对象为多个时，由于多个第一对象被遮挡住，因此在通过图像补全后，多个第一对象之间可能存在重叠的地方，为了能够得到更好的图像补全效果，本申请提出了深度估计方法，即计算多个第一对象之间的深度值。其中深度值可以理解为在拍摄图像时，该物体距离摄像头的远近，深度值越高，说明该物体离摄像头越远，深度值越低，则说明物体距离该摄像头越近，因此计算重叠的两个第一对象在重叠部分的深度值，将深度值高的第一对象的图层设置低于深度值低的第一对象的图像，有利于提高图像补全的效果，从而提高图像的美观度。例如，如图11所示，假设车辆1101为目标对象，树1102和树1103分别是被目标对象车挡后的第一对象，在将车辆1101去除后，对树1102和树1103进行图像补全后，会发现树1102和树1103之间存在重叠的像素区域1104。计算树1102和树1103分别在像素区域1104的深度值，若经过计算确定树1102在像素区域1104的深度值低于树1103，因此最终设定树1102的图层高于树1103，即可得到最终图像。

计算多个第一对象中通过图像补全的像素的深度值的具体实现方式可以为：确定第一对象中第一像素的坐标（x坐标，y坐标）、第二像素的坐标（x坐标，y坐标）和第二像素的真实深度值，其中，第一像素指第一对象中需要图像补全的像素，第二像素指第一对象中除需要图像补全的像素以外的其它像素。然后通过机器学习算法建立数学模型，例如假设最高次幂为3次，则可以假设目标深度对应的多项式为：

(10)

其中，x、y为坐标值，a~j为常数项，先随机初始化为任意常数，输入第二像素及其对应的坐标值，计算与目标深度值，对比目标深度值与真实深度值之间的误差，利用反向传播，调整常数值，反复迭代。当与目标深度值和真实深度值之间的误差小于阈值时，则认为求取到合理的常数项，停止迭代，数学模型建立完成，确定最终的目标深度值对应的多项式。将第一像素的坐标代入该多项式，可以确定该第一像素对应的深度值。

可选地，确定多个第一对象的深度值，具体实现方式为：将待处理图像输入深度估计模型得到待处理图像中每个像素的深度值；基于待处理对象中每个像素的深度值确定第一对象的深度值。

该深度估计模型主要用于计算图像中每个像素的深度值，进一步可选地，该深度估计模型的训练方法可以为：获取第三训练图像和第三训练图像对应的真实深度值；将第三训练图像输入至深度估计模型得到训练深度值；基于训练深度值和真实深度值的误差调整深度估计模型中的参数。其中，训练该深度估计模型的设备可以为电子设备，也可以是除了电子设备以外的其他设备，本申请实施例对此不作限定。第三训练图像的数量可以为一张或者多张，本申请实施例对此不作限定。

其中，可以通过RGBD数据采集设备采集第三训练图像，RGBD数据采集设备采集到的第三训练图像还包括该第三训练图像每个像素的真实深度值。通过深度估计模型计算的得到第三训练图像对应的训练深度值，逐像素计算训练深度值和真实深度值之间的误差，使用反向传播法，调整深度估计模型的网络参数，减小误差。基于该实现方式，有利于能够获得深度估计效果更好的深度估计模型，从而有利于提高图像补全的效果，从而提高图像的美观度。

在一种可能的实现方式中，移除待处理图像中的目标对象得到第一图像之前，该方法还包括：显示待处理图像中包括的多个对象和多个对象的标识；接收用户对待处理图像中的对象的选择操作；将选择操作选择的对象确定为目标对象。示例性的，如图12所示，电子设备上显示了待处理图像，以及待处理图像中所包含的多个对象和多个对象对应的标识，用户可以通过点击等操作方式选择需要移除的目标对象，例如假设用户需要移除树2，则点击树2所对应的区域，电子设备即可通过用户的选择操作确定树2为目标对象。基于该实现方式，有利于使用户能够灵活地控制需要移除的目标对象。

可选地，将选择操作选择的对象确定为目标对象，具体实现方式为：确定选择操作选择的对象的语义类型；将多个对象中语义类型和选择操作选择的对象的语义类型相同的对象确定为目标对象。示例性的，如图12所示，当用户通过点击的方式选择了待处理图像中的树2时，电子设备可以识别树2所对应的语义类型为树，且该待处理图像还包括和树2的语义类型一样的对象，该对象为树1。基于该方法，用户仅需选择树1，电子设备即可以识别树1和树2均为目标对象，能够直接移除待处理图像中用户选择的语义类型的对象，简化了用户的操作。

在另一种可能的实现方式中，目标对象的语义类型为预设语义类型。用户可以提前通过电子设备设置好预设的语义类型，例如，假设用户设定目标对象的语义类型为车辆，则当电子设备在处理待处理对象时，可以直接将待处理对象中的车辆全部视作目标对象。基于该实现方式，可直接移除用户预设的语义类型，简化用户操作，提高了图像处理的便捷性。

可选地，多个对象中包括多个第四对象的语义类型为预设语义类型；移除待处理图像中的目标对象得到第一图像之前，该方法还包括：基于预设图像和多个第四对象确定第五对象；确定多个第四对象中除第五对象以外的其它对象为目标对象。示例性的，假设预设图像为用户上传的自拍照，预设的语义类型为人物，待处理对象中包含的多个第四对象分别为用户和游客，其中，多个第四对象中的第五对象为用户本人，多个第四对象中除第五对象以外的其它对象为游客，因此电子设备可以通过预设图像识别多个第四对象，确定出第五对象，将除第五对象以外的其它对象确定为目标对象，并进行移除。基于该实现方式，能够无需用户进行手动操作，通过预设图像保留用户期望留下的对象和预设语义类型移除用户希望移除的对象，提高了图像处理的智能性，也简化了用户的操作。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线）或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质(例如，DVD)、或者半导体介质（例如，固态硬盘（solid state disk，SSD））等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

将待处理图像输入全景分割模型，得到多个对象和所述多个对象对应的轮廓掩码，所述多个对象中包括多个第四对象的语义类型为预设语义类型；

基于预设图像和所述多个第四对象确定所述多个第四对象中的第五对象，所述预设图像用于确定期望保留的对象；

确定所述多个第四对象中除第五对象以外的其它对象为目标对象；

移除所述待处理图像中的目标对象得到第一图像；

将所述待处理图像输入深度估计模型得到所述待处理图像中每个像素的深度值；

基于所述待处理图像中每个像素的深度值确定多个第一对象的深度值，所述第一对象为所述多个对象中被所述目标对象遮挡的对象；

基于所述多个第一对象的深度值，计算所述多个第一对象中通过图像补全的像素的深度值；

基于所述多个第一对象的轮廓掩码和所述多个第一对象中通过图像补全的像素的深度值，对所述第一图像中的所述多个第一对象进行图像补全，其中，深度值高的第一对象的图层低于深度值低的第一对象的图层。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一训练图像以及所述第一训练图像中包括的至少一个第二对象；

将所述第一训练图像输入所述全景分割模型得到至少一个第三对象；

基于所述至少一个第二对象和所述至少一个第三对象调整所述全景分割模型的参数。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第三训练图像和所述第三训练图像对应的真实深度值；

将所述第三训练图像输入至所述深度估计模型得到训练深度值；

基于所述训练深度值和所述真实深度值的误差调整所述深度估计模型中的参数。

4.一种电子设备，其特征在于，包括收发器、处理器和存储器，所述存储器用于存储计算机程序，所述处理器调用所述计算机程序，用于执行如权利要求1-3中任意一项所述的方法。

5.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如权利要求1-3中任意一项所述的方法。