WO2021022983A1

WO2021022983A1 - 图像处理方法和装置、电子设备、计算机可读存储介质

Info

Publication number: WO2021022983A1
Application number: PCT/CN2020/102023
Authority: WO
Inventors: 黄海东
Original assignee: Oppo广东移动通信有限公司
Priority date: 2019-08-07
Filing date: 2020-07-15
Publication date: 2021-02-11
Also published as: CN110473185A; CN110473185B

Abstract

一种图像处理方法，包括：获取可见光图；将所述可见光图输入主体检测模型的主体识别层中，得到主体识别图；其中，所述主体检测模型是根据同一场景的预设条件进行训练得到的模型；将所述可见光图输入所述主体检测模型的深度预测层中，得到深度预测图；融合所述主体识别图和所述深度预测图，得到主体区域置信度图；根据所述主体区域置信度图确定所述可见光图中的目标主体。

Description

图像处理方法和装置、电子设备、计算机可读存储介质

相关申请的交叉引用

本申请要求于2019年08月07日提交中国专利局、申请号为2019107267853、发明名称为“图像处理方法和装置、电子设备、计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及影像领域，特别是涉及一种图像处理方法和装置、电子设备、计算机可读存储介质。

背景技术

随着影像技术的发展，人们越来越习惯通过电子设备上的摄像头等图像采集设备拍摄图像或视频，记录各种信息。摄像头在采集图像过程中有时需要检测到主体，传统的主体检测方式无法准确的检测出图像中的主体。

发明内容

本申请实施例提供一种图像处理方法和装置、电子设备、计算机可读存储介质，能够提高主体检测的准确性。

一种图像处理方法，包括：

获取可见光图；

将所述可见光图输入主体检测模型的主体识别层中，得到主体识别图；其中，所述主体检测模型是根据同一场景的预设条件进行训练得到的模型；

将所述可见光图输入所述主体检测模型的深度预测层中，得到深度预测图；

融合所述主体识别图和所述深度预测图，得到主体区域置信度图；

根据所述主体区域置信度图确定所述可见光图中的目标主体。

一种图像处理装置，包括：

获取模块，用于获取可见光图；

识别模块，用于将所述可见光图输入主体检测模型的主体识别层中，得到主体识别图；其中，所述主体检测模型是根据同一场景的预设条件进行训练得到的模型；

预测模块，用于将所述可见光图输入所述主体检测模型的深度预测层中，得到深度预测图；

融合模块，用于融合所述主体识别图和所述深度预测图，得到主体区域置信度图；

确定模块，用于根据所述主体区域置信度图确定所述可见光图中的目标主体。

一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下操作：

获取可见光图；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：

获取可见光图；

上述图像处理方法和装置、电子设备、计算机可读存储介质，获取可见光图，将可见光图输入主体检测模型的主体识别层中，可以得到主体识别图，从而初步识别出可见光图中的主体。将可见光图输入主体检测模型的深度预测层中，可以得到可见光图对应的深度图。通过双路网络识别得到深度图和主体识别图，再融合主体识别图和深度预测图，得到主体区域置信度图，根据主体区域置信度图确定可见光图中的目标主体，从而更加准确的识别出可见光图中的目标主体。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中电子设备的内部结构框图；

图2为一个实施例中图像处理方法的流程图；

图3为一个实施例中融合主体识别图和深度预测图，得到主体区域置信度图的操作的流程图；

图4为一个实施例中确定每个子块对应的重叠区域的加权置信度的操作的流程图；

图5为一个实施例中主体检测模型的网络结构示意图；

图6为另一个实施例中图像处理方法的流程图；

图7为一个实施例中图像处理效果示意图；

图8为一种主体检测模型的训练装置的结构框图；

图9为另一个实施例中电子设备的内部结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例中的图像处理方法、主体检测模型的训练方法可应用于电子设备。该电子设备可为带有摄像头的计算机设备、个人数字助理、平板电脑、智能手机、穿戴式设备等。电子设备中的摄像头在拍摄图像时，会进行自动对焦，以保证拍摄的图像清晰。

在一个实施例中，上述电子设备中可包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图1为一个实施例中图像处理电路的示意图。如图1所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

如图1所示，图像处理电路包括第一ISP处理器130、第二ISP处理器140和控制逻辑器150。第一摄像头110包括一个或多个第一透镜112和第一图像传感器114。第一图像传感器114可包括色彩滤镜阵列(如Bayer滤镜)，第一图像传感器114可获取用第一图像传感器114的每个成像像素捕捉的光强度和波长信息，并提供可由第一ISP处理器130处理的一组图像数据。第二摄像头120包括一个或多个第二透镜122和第二图像传感器 124。第二图像传感器124可包括色彩滤镜阵列(如Bayer滤镜)，第二图像传感器124可获取用第二图像传感器124的每个成像像素捕捉的光强度和波长信息，并提供可由第二ISP处理器140处理的一组图像数据。

第一摄像头110采集的第一图像传输给第一ISP处理器130进行处理，第一ISP处理器130处理第一图像后，可将第一图像的统计数据(如图像的亮度、图像的反差值、图像的颜色等)发送给控制逻辑器150，控制逻辑器150可根据统计数据确定第一摄像头110的控制参数，从而第一摄像头110可根据控制参数进行自动对焦、自动曝光等操作。第一图像经过第一ISP处理器130进行处理后可存储至图像存储器160中，第一ISP处理器130也可以读取图像存储器160中存储的图像以对进行处理。另外，第一图像经过ISP处理器130进行处理后可直接发送至显示器170进行显示，显示器170也可以读取图像存储器160中的图像以进行显示。

其中，第一ISP处理器130按多种格式逐个像素地处理图像数据。例如，每个图像像素可具有8、10、12或14比特的位深度，第一ISP处理器130可对图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

图像存储器160可为存储器装置的一部分、存储设备、或电子设备内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自第一图像传感器114接口时，第一ISP处理器130可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器160，以便在被显示之前进行另外的处理。第一ISP处理器130从图像存储器160接收处理数据，并对所述处理数据进行RGB和YCbCr颜色空间中的图像数据处理。第一ISP处理器130处理后的图像数据可输出给显示器170，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，第一ISP处理器130的输出还可发送给图像存储器160，且显示器170可从图像存储器160读取图像数据。在一个实施例中，图像存储器160可被配置为实现一个或多个帧缓冲器。

第一ISP处理器130确定的统计数据可发送给控制逻辑器150。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、第一透镜112阴影校正等第一图像传感器114统计信息。控制逻辑器150可包括执行一个或多个例程(如固件)的处理器和/或微控制器，一个或多个例程可根据接收的统计数据，确定第一摄像头110的控制参数及第一ISP处理器130的控制参数。例如，第一摄像头110的控制参数可包括增益、曝光控制的积分时间、防抖参数、闪光控制参数、第一透镜112控制参数(例如聚焦或变焦用焦距)、或这些参数的组合等。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵，以及第一透镜112阴影校正参数。

同样地，第二摄像头120采集的第二图像传输给第二ISP处理器140进行处理，第二ISP处理器140处理第一图像后，可将第二图像的统计数据(如图像的亮度、图像的反差值、图像的颜色等)发送给控制逻辑器150，控制逻辑器150可根据统计数据确定第二摄像头120的控制参数，从而第二摄像头120可根据控制参数进行自动对焦、自动曝光等操作。第二图像经过第二ISP处理器140进行处理后可存储至图像存储器160中，第二ISP处理器140也可以读取图像存储器160中存储的图像以对进行处理。另外，第二图像经过ISP处理器140进行处理后可直接发送至显示器170进行显示，显示器170也可以读取图像存储器160中的图像以进行显示。第二摄像头120和第二ISP处理器140也可以实现如第一摄像头110和第一ISP处理器130所描述的处理过程。

在一个实施例中，第一摄像头110可为彩色摄像头，第二摄像头120可为TOF(Time Of Flight，飞行时间)摄像头或结构光摄像头。TOF摄像头可获取TOF深度图，结构光摄像头可获取结构光深度图。第一摄像头110和第二摄像头120可均为彩色摄像头。通过两个彩色摄像头获取双目深度图。第一ISP处理器130和第二ISP处理器140可为同一ISP处理器。

第一摄像头110和第二摄像头120拍摄同一场景分别得到可见光图和深度图，将可见光图和深度图发送给ISP处理器。ISP处理器可根据可见光图和深度图及对应的已标注的主体掩膜图对主体检测模型进行训练，得到训练好的模型。ISP处理器获取可见光图；将所述可见光图输入主体检测模型的主体识别层中，得到主体识别图；其中，所述主体检测模型是根据同一场景的预设条件进行训练得到的模型；将所述可见光图输入所述主体检测模型的深度预测层中，得到深度预测图；融合所述主体识别图和所述深度预测图，得到主体区域置信度图；根据所述主体区域置信度图确定所述可见光图中的目标主体。通过双路网络识别得到深度图和主体识别图，再融合主体识别图和深度预测图，得到主体区域置信度图，根据主体区域置信度图确定可见光图中的目标主体，可以更加准确的识别出可见光图中的目标主体。

图2为一个实施例中图像处理方法的流程图。如图2所示，该图像处理方法包括：

操作202，获取可见光图。

其中，主体检测(salient object detection)是指面对一个场景时，自动地对感兴趣区域进行处理而选择性的忽略不感兴趣区域。感兴趣区域称为主体区域。可见光图是指RGB(Red、Green、Blue)图像。可通过彩色摄像头拍摄任意场景得到彩色图像，即RGB图像。该可见光图可为电子设备本地存储的，也可为其他设备存储的，也可以为从网络上存储的，还可为电子设备实时拍摄的，不限于此。

具体地，电子设备的ISP处理器或中央处理器可从本地或其他设备或网络上获取可见光图，或者通过摄像头拍摄一场景得到可见光图。

操作204，将可见光图输入主体检测模型的主体识别层中，得到主体识别图。其中，主体检测模型是根据同一场景的预设条件进行训练得到的模型。

其中，预设条件是指根据同一场景获取不同的训练数据，根据不同的训练数据训练主体检测模型。根据同一场景获取的训练数据可包括同一场景的可见光图、深度图及对应的已标注的主体掩膜图。该主体检测模型是将同一场景的可见光图、深度图及对应的已标注的主体掩膜图输入到包含有初始网络权重的主体检测模型进行训练得到的。其中，可见光图作为训练的主体检测模型的输入，深度图和已标注的主体掩膜(mask)图作为训练的主体检测模型期望输出得到的真实值(ground truth)。主体掩膜图是用于识别图像中主体的图像滤镜模板，可以遮挡图像的其他部分，筛选出图像中的主体。主体检测模型可训练能够识别检测各种主体，如人、花、猫、狗、背景等。

在本实施例中，根据同一场景获取的训练数据可以包括同一场景对应的可见光图、中心权重图、深度图及已标注的主体掩膜图。其中，可见光图和中心权重图作为训练的主体检测模型的输入，深度图和已标注的主体掩膜(mask)图作为训练的主体检测模型期望输出得到的真实值(ground truth)。

具体地，该主体检测模型包括主体识别层和深度预测层，ISP处理器或中央处理器可将该可见光图输入该主体检测模型中的主体识别层，主体识别层对该可见光图进行处理，可得到对应的主体识别图。

操作206，将可见光图输入主体检测模型的深度预测层中，得到深度预测图。

具体地，主体检测模型的深度预测层用于对可见光图进行检测，得到可见光图对应的深度预测图。ISP处理器或中央处理器可将该可见光图输入该主体检测模型中的深度预测层，通过深度预测层对该可见光图进行处理，可得到该可见光图对应的深度预测图。

操作208，融合主体识别图和深度预测图，得到主体区域置信度图。

其中，图像融合是指将多源信道所采集到的关于同一图像的图像数据最大限度地提取信道中的有利信息合成高质量图像的技术。

具体地，ISP处理器或中央处理器可将该主体识别图和深度预测图通过融合算法进行融合处理，得到主体区域置信度图。主体区域置信度图是用于记录主体属于哪种能识别的主体的概率，例如某个像素点属于人的概率是0.8，花的概率是0.1，背景的概率是0.1等。

操作210，根据主体区域置信度图确定该可见光图中的目标主体。

其中，主体是指各种对象，如人、花、猫、狗、牛、蓝天、白云、背景等。目标主体是指需要的主体，可根据需要选择。

具体地，ISP处理器或中央处理器可根据主体区域置信度图选取置信度最高或次高等作为可见光图中的主体，若存在一个主体，则将该主体作为目标主体；若存在多个主体，可根据需要选择其中一个或多个主体作为目标主体。

本实施例中的图像处理方法，获取可见光图，将可见光图输入主体检测模型的主体识别层中，可以得到主体识别图，从而初步识别出可见光图中的主体。将可见光图输入主体检测模型的深度预测层中，可以得到可见光图对应的深度图。通过双路网络识别得到深度图和主体识别图，再融合主体识别图和深度预测图，得到主体区域置信度图，根据主体区域置信度图可以确定可见光图中的目标主体，利用可见光图、深度图和主体掩膜图等训练得到的主体检测模型，或者利用可见光图、中心权重图、深度图和主体掩膜图等训练得到的主体检测模型，可以更加准确的识别出可见光图中的目标主体。

在一个实施例中，如图3所示，该融合该主体识别图和该深度预测图，得到主体区域置信度图，包括：

操作302，对深度预测图进行分块处理，得到至少两个子块。

具体地，ISP处理器或中央处理器可将深度预测图进行连通域分块。进一步地，可将深度预测图按照不同的深度将连通域分为不同的子块，可得到至少两个子块。

操作304，确定至少两个子块中的每个子块与该主体识别图的重叠区域，并确定该每个子块对应的重叠区域的加权置信度。

其中，重叠区域是指子块和该主体识别图中相同的区域。置信度也称可靠度、置信水平或置信系数，是指总体参数值落在样本统计值某一区内的概率。加权置信度是指赋予加权因子之后的置信度。

具体地，ISP处理器或中央处理器确定至少两个子块中的每个子块与该主体识别图的重叠区域，可将每个子块与该主体识别图做与运算，并保留每个子块在该主体识别图中的区域，即重叠区域。接着，ISP处理器或中央处理器可计算出每个子块保留在主体识别图中的区域，即重叠区域的加权置信度，得到每个子块对应的重叠区域的加权置信度。

操作306，根据加权置信度生成主体区域置信度图。

具体地，ISP处理器或中央处理器可根据每个子块对应的重叠区域的加权置信度生成主体区域置信度图。

本实施例中的图像处理方法，对深度预测图进行分块处理，得到至少两个子块，确定至少两个子块中的每个子块与该主体识别图的重叠区域，并确定该每个子块对应的重叠区域的加权置信度，根据加权置信度生成主体区域置信度图，可以得到深度预测图和主体识别图的融合后的主体区域置信度图。结合深度预测图和主体识别图识别图像的主体，提高了主体识别的精度和准确性。

在一个实施例中，该确定该每个子块对应的重叠区域的加权置信度，包括：确定该每个子块对应的重叠区域的面积和该每个子块的深度；获取加权因子，根据该加权因子、该每个子块对应的重叠区域的面积和该每个子块的深度，得到该每个子块对应的重叠区域的加权置信度。

具体地，ISP处理器或中央处理器可确定该每个子块保留在主体识别图中的区域的面积，即每个子块和该主体识别图对应的重叠区域的面积。接着，ISP处理器或中央处理器可获取该每个子块的深度，并获取加权因子，根据加权因子、一个子块的深度和该子块对应的重叠区域的面积，计算得到该子块对应的重叠区域的加权置信度。进一步地，按照相同的方式可计算出每个子块对应的重叠区域的加权置信度。

在本实施例中，每个子块对应的重叠区域的加权置信度与每个子块对应的重叠区域的面积呈正相关。当子块对应的重叠区域的面积越大，则计算得到的该子块对应的重叠区域的加权置信度也越大。

在本实施例中，每个子块对应的重叠区域的加权置信度与每个子块的深度呈正相关。当子块深度越大，则计算得到的该子块对应的重叠区域的加权置信度也越大。

在本实施例中，ISP处理器或中央处理器可计算出每个子块对应的重叠区域的面积分别与加权因子的乘积，并将每个子块对应的乘积与每个子块的深度对应相加，可得到每个子块对应的重叠区域的加权置信度。

例如，融合算法为F＝λS+d，其中，F为加权置信度，λ为加权因子，S为一个子块和主体识别图的重叠区域的面积，d为子块的深度。ISP处理器或中央处理器可根据该融合算法计算得到每个子块对应的重叠区域的加权置信度。

本实施例中，通过确定该每个子块对应的重叠区域的面积和该每个子块的深度，获取加权因子，根据该加权因子、该每个子块对应的重叠区域的面积和该每个子块的深度，得到该每个子块对应的重叠区域的加权置信度，使得主体区域变得更精细可控。通过深度图和主体检测图融合可以更加准确的识别出可见光图中的目标主体。该方案可应用于单目相机图像虚化或辅助自动对焦等场景。

在一个实施例中，ISP处理器或中央处理器可获取子块的重叠区域的面积对应的第一加权因子，及子块的深度对应的第二加权因子。每个子块对应的重叠区域的加权置信度与每个子块对应的重叠区域的面积呈正相关，与每个子块的深度也呈正相关。

进一步地，ISP处理器或中央处理器可计算出每个子块对应的重叠区域的面积分别与第一加权因子的乘积，并计算出每个子块的深度分别与第二加权因子的乘积，并将每个子块相对应的两个乘积相加，可得到每个子块对应的重叠区域的加权置信度。例如，融合算法为F＝λ ₁S+λ ₂d，其中，F为加权置信度，λ ₁为第一加权因子，λ ₂为第一加权因子，S为一个子块和主体识别图的重叠区域的面积，d为一个子块的深度。ISP处理器或中央处理器可根据该融合算法计算得到每个子块对应的重叠区域的加权置信度。

在一个实施例中，该根据该主体区域置信度图确定该可见光图中的目标主体，包括：

操作402，对该主体区域置信度图进行处理，得到主体掩膜图。

具体地，主体区域置信度图中存在一些置信度较低、零散的点，可通过ISP处理器或中央处理器对主体区域置信度图进行过滤处理，得到主体掩膜图。该过滤处理可采用配置置信度阈值，将主体区域置信度图中置信度值低于置信度阈值的像素点过滤。该置信度阈值可采用自适应置信度阈值，也可以采用固定阈值，也可以采用分区域配置对应的阈值。

操作404，检测该可见光图，确定该可见光图中的高光区域。

其中，高光区域是指亮度值大于亮度阈值的区域。

具体地，ISP处理器或中央处理器对可见光图进行高光检测，筛选得到亮度值大于亮度阈值的目标像素点，对目标像素点采用连通域处理得到高光区域。

操作406，根据该可见光图中的高光区域与该主体掩膜图，确定该可见光图中消除高光的目标主体。

具体地，ISP处理器或中央处理器可将可见光图中的高光区域与该主体掩膜图做差分计算或逻辑与计算得到可见光图中消除高光的目标主体。

本实施例中，对主体区域置信度图做过滤处理得到主体掩膜图，提高了主体区域置信度图的可靠性，对可见光图进行检测得到高光区域，然后与主体掩膜图进行处理，可得到消除了高光的目标主体，针对影响主体识别精度的高光、高亮区域单独采用滤波器进行处理，提高了主体识别的精度和准确性。

在一个实施例中，该对该主体区域置信度图进行处理，得到主体掩膜图，包括：对该主体区域置信度图进行自适应置信度阈值过滤处理，得到主体掩膜图。

其中，自适应置信度阈值是指置信度阈值。自适应置信度阈值可为局部自适应置信度阈值。该局部自适应置信度阈值是根据像素点的领域块的像素值分布来确定该像素点位置上的二值化置信度阈值。亮度较高的图像区域的二值化置信度阈值配置的较高，亮度较低的图像区域的二值化阈值置信度配置的较低。

可选地，自适应置信度阈值的配置过程包括：当像素点的亮度值大于第一亮度值，则配置第一置信度阈值，当像素点的亮度值小于第二亮度值，则配置第二置信度阈值，当像素点的亮度值大于第二亮度值且小于第一亮度值，则配置第三置信度阈值，其中，第二亮度值小于或等于第一亮度值，第二置信度阈值小于第三置信度阈值，第三置信度阈值小于第一置信度阈值。

可选地，自适应置信度阈值的配置过程包括：当像素点的亮度值大于第一亮度值，则配置第一置信度阈值，当像素点的亮度值小于或等于第一亮度值，则配置第二置信度阈值，其中，第二亮度值小于或等于第一亮度值，第二置信度阈值小于第一置信度阈值。

对主体区域置信度图进行自适应置信度阈值过滤处理时，将主体区域置信度图中各像素点的置信度值与对应的置信度阈值比较，大于或等于置信度阈值则保留该像素点，小于置信度阈值则去掉该像素点，可去除不必要的信息，保留关键信息。

在一个实施例中，该对该主体区域置信度图进行自适应置信度阈值过滤处理，得到主体掩膜图，包括：

对该主体区域置信度图进行自适应置信度阈值过滤处理，得到二值化掩膜图；对该二值化掩膜图进行形态学处理和引导滤波处理，得到主体掩膜图。

具体地，ISP处理器或中央处理器将主体区域置信度图按照自适应置信度阈值过滤处理后，将保留的像素点的置信度值采用1表示，去掉的像素点的置信度值采用0表示，得到二值化掩膜图。

形态学处理可包括腐蚀和膨胀。可先对二值化掩膜图进行腐蚀操作，再进行膨胀操作，去除噪声；再对形态学处理后的二值化掩膜图进行引导滤波处理，实现边缘滤波操作，得到边缘提取的主体掩膜图。

通过形态学处理和引导滤波处理可以保证得到的主体掩膜图的噪点少或没有噪点，边缘更加柔和。

在一个实施例中，该根据该可见光图中的高光区域与该主体掩膜图，确定该可见光图中消除高光的目标主体，包括：将该可见光图中的高光区域与该主体掩膜图做差分处理，得到消除高光的目标主体。

具体地，ISP处理器或中央处理器将该可见光图中的高光区域与该主体掩膜图做差分处理，即可见光图和主体掩膜图中对应的像素值相减，得到该可见光图中的目标主体。通过差分处理得到去除高光的目标主体，计算方式简单。

在一个实施例中，该主体检测模型的训练方式，包括：

获取同一场景的可见光图、深度图和已标注的主体掩膜图；将该可见光图作用于包含初始网络权重的主体检测模型的主体识别层，并将该可见光图作用于该包含初始网络权重的主体检测模型的深度预测层，将该深度图和该已标注的主体掩膜图作为该主体检测模型输出的真实值，对该包含初始网络权重的主体检测模型进行训练，得到该主体检测模型的目标网络权重。

可收集一个场景的可见光图、深度图和对应的已标注的主体掩膜图。对可见光图和深度图进行语义级的标注，标注里面的主体。可收集大量的可见光图，然后基于COCO数据集中的前景目标图和简单的背景图进行融合得到大量的纯色背景或简单背景的图像，作为训练的可见光图。COCO数据集中包含数量众多的前景目标。

主体检测模型的网络结构采用基于mobile-Unet的架构，并在decoder部分增加层之间的桥接，使高级语义特征在上采样时更充分的传递。中心权重图作用于主体监测模型的输出层，引入中心注意力机制，让处于画面中心的对象更容易被检测为主体。

主体检测模型包括输入层、主体识别层、深度预测层和输出层。主体识别层的网络结构包括卷积层(conv)、池化层(pooling)、双线性插值层(Bilinear Up sampling)、卷积特征连接层(concat+conv)、输出层等。在双线性插值层和卷积特征连接层之间采用deconvolution+add(反卷积特征叠加)操作实现桥接，使得高级语义特征在上采样时更充分的传递。卷积层、池化层、双线性插值层、卷积特征连接层等可为主体检测模型的中间层。深度预测层的网络结构包括卷积层(conv)、池化层(pooling)等。

初始网络权重是指初始化的深度学习网络模型的每一层的初始权重。在模型训练过程中，该初始网络权重不断迭代更新，从而得到目标网络权重。目标网络权重是指训练得到的能够检测图像主体的深度学习网络模型的每一层的权重。在本实施例中，该初始网络权重为初始化的主体检测模型中每一层的初始权重。该目标网络权重是指训练得到的能够检测图像主体的主体检测模型中每一层的权重。可通过预设训练次数得到目标网络权重，也可以设置深度学习网络模型的损失函数。当训练得到损失函数值小于损失阈值时，将主体检测模型的当前网络权重作为目标网络权重。

图5为一个实施例中主体检测模型的网络结构示意图。如图5所示，主体检测模型的主体识别层的网络结构包括卷积层502、池化层504、卷积层506、池化层508、卷积层510、池化层512、卷积层514、池化层516、卷积层518、卷积层520、双线性插值层522、卷积层524、双线性插值层526、卷积层528、卷积特征连接层530、双线性插值层532、卷积层534、卷积特征连接层536、双线性插值层538、卷积层540、卷积特征连接层542等，卷积层502作为主体识别层的输入层，卷积特征连接层542作为主体识别层的输出层。

该主体检测模型的编码部分包括卷积层502、池化层504、卷积层506、池化层508、卷积层510、池化层512、卷积层514、池化层516、卷积层518，解码部分包括卷积层520、双线性插值层522、卷积层524、双线性插值层526、卷积层528、卷积特征连接层530、双线性插值层532、卷积层534、卷积特征连接层536、双线性插值层538、卷积层540、卷积特征连接层542。卷积层506和卷积层534级联(Concatenation)，卷积层510和卷积层528级联，卷积层514与卷积层524级联。双线性插值层522和卷积特征连接层530采用反卷积特征叠加(Deconvolution+add)桥接。双线性插值层532和卷积特征连接层536采用反卷积特征叠加桥接。双线性插值层538和卷积特征连接层542采用反卷积特征叠加桥接。

主体检测模型的深度预测层的网络结构包括卷积层552、池化层554、卷积层556、池化层558、卷积层560、池化层562、卷积层564、池化层566、卷积层568、池化层570、卷积层572、池化层574、卷积层576、池化层578。其中，卷积层552作为深度预测层的输入层，池化层578作为深度预测层的输出层。卷积层564、池化层566、卷积层568、池化层570、卷积层572、池化层574、卷积层576、池化层578的输出的特征大小相同。

可以理解的是，本实施例中的主体检测模型的的主体识别层的网络结构和深度预测层的网络机构仅为示例，不作为对本申请的限制。可以理解的是，主体检测模型的网络结构中的卷积层、池化层、双线性插值层、卷积特征连接层等均可以根据需要设置多个。

原图500(如可见光图)输入到主体检测模型的主体识别层的卷积层502，同时将原图500(如可见光图)输入到主体检测模型的深度预测层的卷积层552。经过处理，主体识别层的卷积特征连接层542输出主体识别图580，深度预测层的池化层578输出深度预测图590。

该主体检测模型的训练过程中对深度图采用预设数值的丢失率。该预设数值可为50％。深度图的训练过程中引入概率的dropout，让主体检测模型可以充分的挖掘深度图的信息，当主体检测模型无法获取深度图时，仍然可以输出准确结果。对深度图输入采用dropout的方式，让主体检测模型对深度图的鲁棒性更好，即使没有深度图也可以准确分割主体区域。

此外，因正常的电子设备拍摄过程中，深度图的拍摄和计算都相当耗时耗力，难以获取，在训练时深度图设计为50％的dropout概率，能够保证没有深度信息的时候主体检测模型依然可以正常检测。

本实施例通过设计一个双深度学习网络结构，其中一个深度学习网络结构用于对RGB图进行处理得到深度预测图，另一个深度学习网络结构用于对RGB图进行处理，得到主体识别图，然后将两个深度学习网络结构的输出进行卷积特征连接，即将深度预测图和主体识别图进行融合然后再输出，可准确识别可见光图像中的目标主体。

在一个实施例中，根据同一场景的预设条件训练得到主体检测模型，包括：获取同一场景的可见光图、深度图和已标注的主体掩膜图；生成与该可见光图对应的中心权重图，其中，该中心权重图所表示的权重值从中心到边缘逐渐减小；将该可见光图作用于包含初始网络权重的主体检测模型的输入层，将该深度图和该中心权重图作用于初始的主体检测模型的输出层，将该已标注的主体掩膜图作为该主体检测模型输出的真实值，对该包含初始网络权重的主体检测模型进行训练，得到该主体检测模型的目标网络权重。

在一个实施例中，如图6所示，当该主体检测模型是预先根据同一场景的可见光图、中心权重图、深度图及对应的已标注的主体掩膜图进行训练得到的模型时，该方法还包括：

操作602，生成与该可见光图对应的中心权重图，其中，该中心权重图所表示的权重值从中心到边缘逐渐减小。

其中，中心权重图是指用于记录可见光图中各个像素点的权重值的图。中心权重图中记录的权重值从中心向四边逐渐减小，即中心权重最大，向四边权重逐渐减小。通过中心权重图表征可见光图的图像中心像素点到图像边缘像素点的权重值逐渐减小。

ISP处理器或中央处理器可以根据可见光图的大小生成对应的中心权重图。该中心权重图所表示的权重值从中心向四边逐渐减小。中心权重图可采用高斯函数、或采用一阶方程、或二阶方程生成。该高斯函数可为二维高斯函数。

操作606，将该中心权重图作用于该主体检测模型的输出层。

该融合该主体识别图和该深度预测图，得到主体区域置信度图，包括：

操作608，对该中心权重图、该主体识别图和该深度预测图进行融合，得到主体区域置信度图。

具体地，主体检测模型的主体识别层输出主体识别图，主体检测模型的深度预测层输出该深度预测图后，ISP处理器或中央处理器将该中心权重图作用于该主体检测模型的输出层，通过输出层对该中心权重图、该主体识别图和该深度预测图进行融合，得到主体区域置信度图。

本实施例中的图像处理方法，获取可见光图，并生成与可见光图对应的中心权重图后，将可见光图输入到主体检测模型的主体识别层和深度预测层中检测，得到主体识别图和深度预测图。将中心权重图作用于该主体检测模型的输出层，与主体识别图及深度预测图结合进行处理，可以得到主体区域置信度图，根据主体区域置信度图可以确定得到可见光图中的目标主体，利用中心权重图可以让图像中心的对象更容易被检测，利用训练好的利用可见光图、中心权重图和主体掩膜图等训练得到的主体检测模型，可以更加准确的识别出可见光图中的目标主体。

在一个实施例中，上述图像处理方法还包括：当存在多个主体时，根据每个主体所属类别的优先级、每个主体在可见光图中所占的面积、每个主体在所述可见光图中的位置中的至少一种，确定目标主体。

其中，类别是指对主体所分的类，如人像、花、动物、风景等类别。位置是指在可见光图中的位置，可以采用坐标表示。

具体地，当存在多个主体时，获取每个主体所属类别的优先级，选取优先级最高或次高等的主体作为目标主体。

当存在多个主体时，获取每个主体在可见光图中所占的面积，选取在可见光图中所占面积最大或次大等的主体作为目标主体。

当存在多个主体时，获取每个主体在可见光图中的位置，选取主体在可见光图中的位置与该可见光图的中心点之间的距离最小的主体为目标主体。

当存在多个主体所属类别的优先级相同且最高时，获取该多个主体在可见光图中所占的面积，选取在可见光图中所占面积最大或次大的主体作为目标主体。

当存在多个主体所属类别的优先级相同且最高时，获取该优先级相同且最高的多个主体中每个主体在可见光图中所占的面积，选取在可见光图中所占面积最大或次大的主体作为目标主体。

当存在多个主体所属类别的优先级相同且最高时，获取该优先级相同且最高的多个主体中每个主体在可见光图中的位置，选取主体在可见光图中的位置与该可见光图的中心点之间的距离最小的主体为目标主体。

当存在多个主体所属类别的优先级相同且最高，获取该优先级相同且最高的多个主体中每个主体在可见光图中所占的面积，存在多个主体在可见光图中所占的面积相同时，获取面积相同的多个主体在可见光图中的位置，选取主体在可见光图中的位置与该可见光图的中心点之间的距离最小的主体为目标主体。

当存在多个主体时，可以获取每个主体所属类别的优先级、每个主体在可见光图中所占的面积、每个主体在可见光图中的位置，可以按照优先级、面积和位置三个维度筛选，优先级、面积和位置筛选的顺序可根据需要设定，不作限定。

本实施例中，当存在多个主体时，根据主体所属类别的优先级、主体在可见光图中面积和主体在可见光图中位置中的一种或至少两种进行筛选确定目标主体，可以准确确定目标主体。

在一个实施例中，上述图像处理方法还包括：当确定存在多个主体，且该多个主体均为人脸时，判断多个人脸是否在同一平面；

当该多个人脸处于同一平面时，将该多个人脸作为目标主体；

当该多个人脸处于不同平面时，选择面积最大的人脸作为目标主体。

具体地，可获取每个人脸的深度信息，通过比较深度信息是否相同来确定多个人脸是否在同一平面上，当深度信息相同时，则在同一平面，当深度信息不同时，则不在同一平面。人脸的深度信息可采用人脸所在区域的每个像素点的深度信息的平均值、中值或加权值等表示。人脸的深度信息也可采用人脸所在区域的每个像素点按照预设函数计算得到深度信息。该预设函数可为线性函数、指数函数或幂函数等。

图7为一个实施例中图像处理效果示意图。如图7所示，RGB图702中存在一只蝴蝶，将RGB图输入到主体检测模型后得到主体区域置信度图704，然后对主体区域置信度图704进行滤波和二值化得到二值化掩膜图706，再对二值化掩膜图706进行形态学处理和引导滤波实现边缘增强，得到主体掩膜图708。

在一个实施例中，提供了一种图像处理方法，包括：

操作(a1)，获取同一场景的可见光图、深度图和已标注的主体掩膜图。

操作(a2)，将该可见光图作用于包含初始网络权重的主体检测模型的主体识别层，并将该可见光图作用于该包含初始网络权重的主体检测模型的深度预测层，将该深度图和该已标注的主体掩膜图作为该主体检测模型输出的真实值，对该包含初始网络权重的主体检测模型进行训练，得到该主体检测模型的目标网络权重。

操作(a3)，获取可见光图。

操作(a4)，将该可见光图输入主体检测模型的主体识别层中，得到主体识别图。其中，该主体检测模型是预先根据同一场景的可见光图、深度图及对应的已标注的主体掩膜图进行训练得到的模型。

操作(a5)，将该可见光图输入该主体检测模型的深度预测层中，得到深度预测图。

操作(a6)，对该深度预测图进行分块处理，得到至少两个子块。

操作(a7)，确定该至少两个子块中的每个子块与该主体识别图的重叠区域，确定该每个子块对应的重叠区域的面积和该每个子块的深度。

操作(a8)，获取加权因子，根据该加权因子、该每个子块对应的重叠区域的面积和该每个子块的深度，得到该每个子块对应的重叠区域的加权置信度。

操作(a9)，根据该加权置信度生成主体区域置信度图。

操作(a10)，对该主体区域置信度图进行自适应置信度阈值过滤处理，得到二值化掩膜图。

操作(a11)，对该二值化掩膜图进行形态学处理和引导滤波处理，得到主体掩膜图。

操作(a12)，检测该可见光图，确定该可见光图中的高光区域。

操作(a13)，根据该可见光图中的高光区域与该主体掩膜图，确定该可见光图中消除高光的目标主体。

本实施例中的图像处理方法，对RGB图像进行主体检测时，通过双路网络对该RGB图像进行识别，并引入了中心权重图，使得深度特征增强和中心注意力特征增强，不仅可以准确的分割简单场景，如主体单一，背景区域对比度不高的场景下的主体，更大大提高了复杂场景下的目标主体识别准确度。引入深度图可以解决传统目标检测方法对自然图像***的目标鲁棒性较差的问题。针对影响主体识别精度的高光、高亮区域，采用了高光检测识别出RGB图像中的高光区域，然后采用单独的滤波器进行过滤处理。

应该理解的是，虽然图2-图6的流程图中的各个操作按照箭头的指示依次显示，但是这些操作并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些操作的执行并没有严格的顺序限制，这些操作可以以其它的顺序执行。而且，图2-图6中的至少一部分操作可以包括多个子操作或者多个阶段，这些子操作或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子操作或者阶段的执行顺序也不必然是依次进行，而是可以与其它操作或者其它操作的子操作或者阶段的至少一部分轮流或者交替地执行。

图8为一个实施例的图像处理装置的结构框图。如图8所示，一种图像处理装置，包括：获取模块802、识别模块804、预测模块806、融合模块808和确定模块810。其中，

获取模块802，用于获取可见光图。

识别模块804，用于将该可见光图输入主体检测模型的主体识别层中，得到主体识别图；其中，该主体检测模型是根据同一场景的预设条件进行训练得到的模型。

预测模块806，用于将该可见光图输入该主体检测模型的深度预测层中，得到深度预测图。

融合模块808，用于融合该主体识别图和该深度预测图，得到主体区域置信度图。

确定模块810，用于根据该主体区域置信度图确定该可见光图中的目标主体。

本实施例中的图像处理装置，获取可见光图，将可见光图输入主体检测模型的主体识别层中，可以得到主体识别图，从而初步识别出可见光图中的主体。将可见光图输入主体检测模型的深度预测层中，可以得到可见光图对应的深度图。通过双路网络识别得到深度图和主体识别图，再融合主体识别图和深度预测图，得到主体区域置信度图，根据主体区域置信度图可以确定可见光图中的目标主体，利用可见光图、深度图和主体掩膜图等训练得到的主体检测模型，或者利用可见光图、中心权重图、深度图和主体掩膜图等训练得到的主体检测模型，可以更加准确的识别出可见光图中的目标主体。

在一个实施例中，融合模块808还用于：对该深度预测图进行分块处理，得到至少两个子块；确定该至少两个子块中的每个子块与该主体识别图的重叠区域，并确定该每个子块对应的重叠区域的加权置信度；根据该加权置信度生成主体区域置信度图。

本实施例中的图像处理装置，对深度预测图进行分块处理，得到至少两个子块，确定至少两个子块中的每个子块与该主体识别图的重叠区域，并确定该每个子块对应的重叠区域的加权置信度，根据加权置信度生成主体区域置信度图，可以得到深度预测图和主体识别图的融合后的主体区域置信度图。结合深度预测图和主体识别图识别图像的主体，提高了主体识别的精度和准确性。

在一个实施例中，融合模块808还用于：确定该每个子块对应的重叠区域的面积和该每个子块的深度；获取加权因子，根据该加权因子、该每个子块对应的重叠区域的面积和该每个子块的深度，得到该每个子块对应的重叠区域的加权置信度。通过确定该每个子块对应的重叠区域的面积和该每个子块的深度，获取加权因子，根据该加权因子、该每个子块对应的重叠区域的面积和该每个子块的深度，得到该每个子块对应的重叠区域的加权置信度，使得主体区域变得更精细可控。通过深度图和主体检测图融合可以更加准确的识别出可见光图中的目标主体。

在一个实施例中，确定模块810还用于：对该主体区域置信度图进行处理，得到主体掩膜图；检测该可见光图，确定该可见光图中的高光区域；根据该可见光图中的高光区域与该主体掩膜图，确定该可见光图中消除高光的目标主体。对主体区域置信度图做过滤处理得到主体掩膜图，提高了主体区域置信度图的可靠性，对可见光图进行检测得到高光区域，然后与主体掩膜图进行处理，可得到消除了高光的目标主体，针对影响主体识别精度的高光、高亮区域单独采用滤波器进行处理，提高了主体识别的精度和准确性。

在一个实施例中，确定模块810还用于：对该主体区域置信度图进行自适应置信度阈值过滤处理，得到主体掩膜图。对主体区域置信度图进行自适应置信度阈值过滤处理时，将主体区域置信度图中各像素点的置信度值与对应的置信度阈值比较，大于或等于置信度阈值则保留该像素点，小于置信度阈值则去掉该像素点，可去除不必要的信息，保留关键信息。

在一个实施例中，确定模块810还用于：对该主体区域置信度图进行自适应置信度阈值过滤处理，得到二值化掩膜图；对该二值化掩膜图进行形态学处理和引导滤波处理，得到主体掩膜图。通过形态学处理和引导滤波处理可以保证得到的主体掩膜图的噪点少或没有噪点，边缘更加柔和。

在一个实施例中，该图像处理装置还包括：训练模块。该训练模块用于：获取同一场景的可见光图、深度图和已标注的主体掩膜图；将该可见光图作用于包含初始网络权重的主体检测模型的主体识别层，并将该可见光图作用于该包含初始网络权重的主体检测模型的深度预测层，将该深度图和该已标注的主体掩膜图作为该主体检测模型输出的真实值，对该包含初始网络权重的主体检测模型进行训练，得到该主体检测模型的目标网络权重。

在一个实施例中，当该主体检测模型是预先根据同一场景的可见光图、中心权重图、深度图及对应的已标注的主体掩膜图进行训练得到的模型时，该装置还包括：生成模块。

该生成模块用于：生成与该可见光图对应的中心权重图，其中，该中心权重图所表示的权重值从中心到边缘逐渐减小；将该中心权重图作用于该主体检测模型的输出层；

该融合模块还用于：对该中心权重图、该主体识别图和该深度预测图进行融合，得到主体区域置信度图。

上述图像处理装置中各个模块的划分仅用于举例说明，在其他实施例中，可将图像处理装置按照需要划分为不同的模块，以完成上述图像处理装置的全部或部分功能。

图9为一个实施例中电子设备的内部结构示意图。如图9所示，该电子设备包括通过***总线连接的处理器和存储器。其中，该处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作***和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种图像处理方法。内存储器为非易失性存储介质中的操作***计算机程序提供高速缓存的运行环境。该电子设备可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

本申请实施例中提供的图像处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的操作。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行图像处理方法的操作。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行图像处理方法。

本申请实施例所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种图像处理方法，其特征在于，包括：

获取可见光图；

将所述可见光图输入主体检测模型的主体识别层中，得到主体识别图；其中，所述主体检测模型是根据同一场景的预设条件进行训练得到的模型；

将所述可见光图输入所述主体检测模型的深度预测层中，得到深度预测图；

融合所述主体识别图和所述深度预测图，得到主体区域置信度图；

根据所述主体区域置信度图确定所述可见光图中的目标主体。
根据权利要求1所述的方法，其特征在于，所述融合所述主体识别图和所述深度预测图，得到主体区域置信度图，包括：

对所述深度预测图进行分块处理，得到至少两个子块；

确定所述至少两个子块中的每个子块与所述主体识别图的重叠区域，并确定所述每个子块对应的重叠区域的加权置信度；

根据所述加权置信度生成主体区域置信度图。
根据权利要求2所述的方法，其特征在于，所述确定所述每个子块对应的重叠区域的加权置信度，包括：

确定所述每个子块对应的重叠区域的面积和所述每个子块的深度；

获取加权因子，根据所述加权因子、所述每个子块对应的重叠区域的面积和所述每个子块的深度，得到所述每个子块对应的重叠区域的加权置信度。
根据权利要求3所述的方法，其特征在于，所述获取加权因子，根据所述加权因子、所述每个子块对应的重叠区域的面积和所述每个子块的深度，得到所述每个子块对应的重叠区域的加权置信度，包括：

获取所述每个子块的重叠区域的面积对应的第一加权因子，及所述每个子块的深度对应的第二加权因子；

根据所述第一加权因子、所述第二加权因子、所述每个子块对应的重叠区域的面积和所述每个子块的深度，得到所述每个子块对应的重叠区域的加权置信度。
根据权利要求3所述的方法，其特征在于，所述子块对应的重叠区域的加权置信度与所述子块对应的重叠区域的面积呈正相关。
根据权利要求3所述的方法，其特征在于，所述子块对应的重叠区域的加权置信度与所述子块深度呈正相关。
根据权利要求1所述的方法，其特征在于，所述根据所述主体区域置信度图确定所述可见光图中的目标主体，包括：

对所述主体区域置信度图进行处理，得到主体掩膜图；

检测所述可见光图，确定所述可见光图中的高光区域；

根据所述可见光图中的高光区域与所述主体掩膜图，确定所述可见光图中消除高光的目标主体。
根据权利要求7所述的方法，其特征在于，所述对所述主体区域置信度图进行处理，得到主体掩膜图，包括：

对所述主体区域置信度图进行自适应置信度阈值过滤处理，得到主体掩膜图。
根据权利要求8所述的方法，其特征在于，所述对所述主体区域置信度图进行自适应置信度阈值过滤处理，得到主体掩膜图，包括：

对所述主体区域置信度图进行自适应置信度阈值过滤处理，得到二值化掩膜图；

对所述二值化掩膜图进行形态学处理和引导滤波处理，得到主体掩膜图。
根据权利要求7所述的方法，其特征在于，所述根据所述可见光图中的高光区域与所述主体掩膜图，确定所述可见光图中消除高光的目标主体，包括：

将所述可见光图中的高光区域与所述主体掩膜图做差分处理，得到消除高光的目标主体。
根据权利要求1至10中任一项所述的方法，其特征在于，所述主体检测模型的训练方式，包括：

获取同一场景的可见光图、深度图和已标注的主体掩膜图；

将所述可见光图作用于包含初始网络权重的主体检测模型的主体识别层，并将所述可见光图作用于所述包含初始网络权重的主体检测模型的深度预测层，将所述深度图和所述已标注的主体掩膜图作为所述主体检测模型输出的真实值，对所述包含初始网络权重的主体检测模型进行训练，得到所述主体检测模型的目标网络权重，所述初始网络权重为初始化的主体检测模型中每层的初始权重。
根据权利要求1所述的方法，其特征在于，当所述主体检测模型是预先根据同一场景的可见光图、中心权重图、深度图及对应的已标注的主体掩膜图进行训练得到的模型时，所述方法还包括：

生成与所述可见光图对应的中心权重图，其中，所述中心权重图所表示的权重值从中心到边缘逐渐减小；

将所述中心权重图作用于所述主体检测模型的输出层；

所述融合所述主体识别图和所述深度预测图，得到主体区域置信度图，包括：

对所述中心权重图、所述主体识别图和所述深度预测图进行融合，得到主体区域置信度图。
一种图像处理装置，其特征在于，包括：

获取模块，用于获取可见光图；

识别模块，用于将所述可见光图输入主体检测模型的主体识别层中，得到主体识别图；其中，所述主体检测模型是根据同一场景的预设条件进行训练得到的模型；

预测模块，用于将所述可见光图输入所述主体检测模型的深度预测层中，得到深度预测图；

融合模块，用于融合所述主体识别图和所述深度预测图，得到主体区域置信度图；

确定模块，用于根据所述主体区域置信度图确定所述可见光图中的目标主体。
一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取可见光图；

将所述可见光图输入主体检测模型的主体识别层中，得到主体识别图；其中，所述主体检测模型是根据同一场景的预设条件进行训练得到的模型；

将所述可见光图输入所述主体检测模型的深度预测层中，得到深度预测图；

融合所述主体识别图和所述深度预测图，得到主体区域置信度图；

根据所述主体区域置信度图确定所述可见光图中的目标主体。
根据权利要求14所述的移动终端，其特征在于，所述处理器执行所述融合所述主体识别图和所述深度预测图，得到主体区域置信度图时，还执行如下操作：

对所述深度预测图进行分块处理，得到至少两个子块；

确定所述至少两个子块中的每个子块与所述主体识别图的重叠区域，并确定所述每个子块对应的重叠区域的加权置信度；

根据所述加权置信度生成主体区域置信度图。
根据权利要求15所述的移动终端，其特征在于，所述处理器执行所述确定所述每个子块对应的重叠区域的加权置信度时，还执行如下操作：

确定所述每个子块对应的重叠区域的面积和所述每个子块的深度；

获取加权因子，根据所述加权因子、所述每个子块对应的重叠区域的面积和所述每个子块的深度，得到所述每个子块对应的重叠区域的加权置信度。
根据权利要求16所述的移动终端，其特征在于，所述处理器执行所述获取加权因子，根据所述加权因子、所述每个子块对应的重叠区域的面积和所述每个子块的深度，得到所述每个子块对应的重叠区域的加权置信度时，还执行如下操作：

获取所述每个子块的重叠区域的面积对应的第一加权因子，及所述每个子块的深度对应的第二加权因子；

根据所述第一加权因子、所述第二加权因子、所述每个子块对应的重叠区域的面积和所述每个子块的深度，得到所述每个子块对应的重叠区域的加权置信度。
根据权利要求15所述的移动终端，其特征在于，所述处理器执行所述根据所述主体区域置信度图确定所述可见光图中的目标主体时，还执行如下操作：

对所述主体区域置信度图进行处理，得到主体掩膜图；

检测所述可见光图，确定所述可见光图中的高光区域；

根据所述可见光图中的高光区域与所述主体掩膜图，确定所述可见光图中消除高光的目标主体。
根据权利要求18所述的移动终端，其特征在于，所述处理器执行所述对所述主体区域置信度图进行处理，得到主体掩膜图时，还执行如下操作：

对所述主体区域置信度图进行自适应置信度阈值过滤处理，得到主体掩膜图。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的方法的步骤。