CN110889410B

CN110889410B - 浅景深渲染中语义分割的稳健用途

Info

Publication number: CN110889410B
Application number: CN201910848714.0A
Authority: CN
Inventors: A·林德斯科格; M·W·陶; A·纳曼
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-09-11
Filing date: 2019-09-09
Publication date: 2023-10-03
Anticipated expiration: 2039-09-09
Also published as: CN110889410A; US11250571B2; US20200082535A1

Abstract

本公开涉及浅景深渲染中语义分割的稳健用途。本公开涉及用于在图像处理技术例如浅景深(SDOF)渲染中稳健使用语义分割信息的技术。语义分割可被定义为在图像上创建掩模的过程，其中像素被分割成预定义的一组语义类别。分割可以是二进制的(例如，“人物像素”或“非人物像素”)或多类(例如，可将像素标记为：“人物”、“狗”、“猫”等)。随着语义分割技术在准确性和采用方面的增加，开发利用此类分割和开发用于将分割信息整合到现有计算机视觉应用诸如合成SDOF渲染中的柔性技术的方法变得越来越重要，以在广泛的图像捕获场景中产生改善的结果。在一些实施方案中，可以对相机设备利用语义分割信息的初始深度、视差和/或模糊估计采用精修操作。

Description

浅景深渲染中语义分割的稳健用途

技术领域

本公开整体涉及数字成像领域。更具体地，但并非限制性地，本公开涉及用于在图像处理技术(例如，浅景深(SDOF)渲染)中稳健使用语义分割信息的技术。

背景技术

在相机成像中，多个因素(诸如透镜光圈的尺寸)可能影响图像的“景深”(DOF)。大型数码单透镜反光(DSLR)相机和具有宽光圈透镜的相机可用于捕获具有相对浅景深的图像，这意味着与在其他条件下(例如，更窄的光圈)捕获的图像相比，捕获图像中的对象将显得锐利(即，聚焦)的景深范围非常小。虽然SDOF图像的聚焦区域的有限范围可能看起来是物理限制，但它已经变成摄影师应用了一个多世纪的美学优势。例如，所谓的SDOF摄影可能特别适合肖像摄影，因为它可以强调对象(通常被带入相机的聚焦范围)，同时不强调背景，否则可能对场景不太感兴趣(例如，通过使背景看起来模糊和/或失焦)。

移动的多功能设备(诸如智能电话和平板设备)的出现已经使得人们期望能够将实时或几乎实时地生成高水平图像质量的小外形相机集成到此类移动的多功能设备中。随着用户依赖这些多功能设备作为其日常使用的主要相机，用户越来越需要他们已习惯于在专用相机设备中使用的功能，例如“肖像风格”SDOF摄影模式。

在某些情况下，诸如在移动设备中使用的上述小型相机，可能难以光学地实现给定水平的SDOF。例如，移动设备的相机可以具有比DSLR相机使用的最小光圈还小的光圈，因此与DSLR相机可以实现的景深相比可以具有相对大的景深。在这些情况下，为了获得具有较浅景深的图像，可能需要在捕获图像之后人工合成图像中的失焦模糊，例如通过使用捕获图像的估计深度映射。

例如，在此类肖像风格的合成SDOF图像中，可以将更大量的模糊应用于被估计距离捕获场景的聚焦平面更远的对象和像素。换句话讲，在捕获场景的前景中具有聚焦平面的合成SDOF图像中，在捕获场景中“更深”的对象可能具有更大量的模糊被应用于它们，而在聚焦前景对象(诸如人类对象)中，可以保持相对更锐利，从而愉快地向图像的观察者强调人类对象的外观。

在一些情况下，可以在合成SDOF图像生成过程中利用与捕获图像对应的“模糊映射”。模糊映射可以用于存储捕获图像中的一个或多个像素的值，这些值表示待应用于捕获图像中的对应像素以呈现期望的SDOF效果的模糊量。例如，在一些情况下，模糊映射可以存储表示待应用于捕获图像中的对应像素的模糊半径的值，尽管在模糊映射中使用模糊半径只是可以存储在模糊映射中的特定值的一个示例。然而，在SDOF渲染中使用模糊映射的一个问题是它们通常不具有高空间分辨率，例如，与将应用它们的捕获颜色图像相比，因此导致对焦(例如，前景)对象的边缘在所得到的合成SDOF图像中缺乏一些精修。模糊映射的另一个问题是存在深度估计误差，例如，背景像素可能被错误地分类为前景像素(因此在场景的背景中引入锐利的伪影)和/或前景像素可能被错误地分类为背景像素(因此在场景中在感兴趣的对象中引入无意或不自然的模糊)。

由模糊映射的空间分辨率差引起的问题的一个潜在解决方案是利用语义分割，例如，创建将捕获场景按像素级划分为类别，例如，在“人物像素”与“非人物像素”之间，以帮助驱动确定图像中的何处应该应用模糊效果以呈现期望的SDOF效果。根据一些实施方案，语义分割可以涉及在捕获图像上创建掩模的过程，例如，逐像素掩模，其中像素被分配(或“分割”)成预定义的一组语义类。如上所述，此类分割可以是二进制的(例如，给定像素可以被分类为“人物像素”或“非人物像素”)，或者分割也可以是多类分割(例如，给定的像素可以标记为：“人物”、“狗”、“猫”或“其他”)。

因此，一些生成合成SDOF图像的方法可以使用高细节分割掩模来分割出人(或训练分割以识别其他感兴趣的对象)，然后将分割的人(或训练分割以识别其他感兴趣的对象)覆盖为完全锐利，即在模糊背景之上。在一些情况下，这种覆盖效果可以经由使用α糙面来实现，该糙面定义了基底层或背景层与分割覆盖层之间的混合量(例如，经由透明度的控制)。然而，使用具有中间值α的覆盖层像素(例如，在0到1的范围内为0.5)，可以产生粘贴在模糊像素之上的锐利像素的效果，从而导致可能不期望的重影或闪烁效果。这种方法也可能导致缺乏逐渐模糊，例如，在场景前景中的人与场景背景中的对象之间，这在所得到的合成SDOF图像中看起来也不自然。

随着语义分割技术在准确性和采用方面的增加，开发利用此类语义分割和开发用于将分割信息整合到现有计算机视觉应用(诸如以稳健的方式创建深度、视差和/或模糊映射)中的柔性技术的方法变得越来越重要，以便在广泛的图像捕获场景中产生改善的结果，特别是在对捕获图像渲染合成的SDOF效果时。

发明内容

本文公开了相机设备、程序存储设备和相关方法，它们被配置为在图像处理技术中稳健地利用语义分割信息，例如，由大景深(“LDOF”)相机捕获的图像中的合成失焦背景渲染效果，例如具有较小透镜孔径的小型相机。这些效果的这种合成渲染可用于近似用真正的SDOF相机捕获的图像的外观。应当理解，从LDOF图像(或从LDOF相机捕获的图像)创建/合成/渲染SDOF或失焦效果的任何描述意味着捕获图像(即，图像在捕获时具有第一“大”景深，其被合成地缩小到较小的“浅”景深)的景深的相对变化而不暗示任何特定的景深范围。

根据本文公开的一些实施方案，相机设备可以利用一个(或多个)相机和图像传感器，以捕获场景中的输入图像，以及捕获场景的对应深度/视差信息，这可以提供捕获场景中的各种对象的深度的初始估计，并且通过扩展，提供被认为是在场景的背景和/或前景中的捕获图像的部分的指示。例如，在一些实施方案中，可以通过使用辅助立体相机、聚焦像素和/或其他类型的深度/视差传感器来获得捕获场景的初始深度/视差信息。根据一些此类实施方案，该深度信息数据可以被转换为初始模糊映射的形式，例如，二维值的阵列，其中每个值表示在模糊操作中待应用于捕获图像中的对应像素的模糊操作的半径、直径(或其他尺寸指示参数)。

在获得初始模糊映射之后，可以使用语义分割信息以稳健的方式精修初始模糊映射。例如，在一些实施方案中，可以获得高细节分割掩模，其提供捕获图像的包含“人”的部分的指示(或者在给定具体实施中期望在焦点中的场景中的其他类型的分割对象)。基于所获得的分割掩模，可以从初始模糊映射中指示的模糊量中减去确定的模糊量，用于已经被分割为“人”(或者在给定具体实施中期望在焦点中的场景中的其他类型的分割对象)的捕获图像的部分。

这种基于分割的、有针对性的减法方法修改初始模糊映射的一些优点是，它将逐渐减少应用于任何分割对象的模糊量(包括使更精细的细节更加可见)，从而利用来自高分辨率分割掩模的增加的细节转移，以及改善初始模糊映射中可能存在的任何缺陷或错误，例如，从初始深度/视差估计中的错误/不准确性。此外，虽然经由上述模糊减法处理可以使捕获图像中的一些非分割对象更锐利，但是它们将不会完全锐利。视觉上，这仍然比上述覆盖场景更令人愉悦，其中分割掩模内的所有像素被渲染为完全锐利。

此外，在一些实施方案中，除了从初始模糊映射中指示已经被分割为人(或其他分割对象类别)的捕获图像的部分中减去的模糊量之外，待应用于不被认为是人(或其他分割对象类别)的区域的模糊量应增加适量。这可以帮助减少(或不太明显)初始深度/视差估计中的一些误差/不准确性。

因此，根据一些实施方案，公开了一种非暂态程序存储设备。该程序存储设备可被一个或多个处理器读取。指令存储在程序存储设备上，用于使得一个或多个处理器：从一个或多个图像捕获设备处获得场景的第一图像，该第一图像包括多个第一像素，该像素具有色值；获得第一图像的初始模糊映射；获得包括多个第一分割值的至少一个分割掩模，其中每个分割值对应于第一图像中的像素；对初始模糊映射执行精修操作，其中该精修操作至少部分地基于至少一个分割掩模和初始模糊映射；基于精修操作生成用于第一图像的精修模糊映射；以及至少部分地基于精修模糊映射来生成第一图像的模糊版本。

根据其他实施方案，该指令还可使得一个或多个处理器获得针对至少一个所获得的分割掩模码中的一个分割掩模码的置信掩模，其中该精修操作还至少部分地基于所获得的置信掩模。在一些实施方案中，可以获得一个或多个分割掩模(和对应的置信掩模)作为神经网络的输出，例如卷积神经网络(CNN)。

根据其他实施方案，可以获得至少两个分割掩模，其中该精修操作还至少部分地基于至少两个分割掩模中的每个分割掩模。可以训练每个分割掩模，以在捕获场景中分割出不同类别的对象，并且每个分割掩模可以对模糊映***修操作具有可调量的影响。

根据其他实施方案，该指令还可使得一个或多个处理器对精修模糊映射执行对象特定模糊处理，其中该对象特定模糊处理可以包括例如脸部特定模糊处理和/或身体特定模糊处理。在一些实施方案中，可以在从精修模糊映射生成第一图像的最终模糊版本之前执行对象特定模糊处理。

根据以上列举的程序存储设备的实施方案，本文还公开了各种精修模糊映射的方法，例如，用于SDOF渲染。

根据以上列举的程序存储设备的实施方案，本文还公开了各种电子设备。此类电子设备可包括存储器、一个或多个图像捕获设备、显示器、用户界面以及可操作地耦接到存储器的一个或多个处理器。指令可以存储在存储器中，这些指令使得一个或多个处理器根据以上列举的程序存储设备的实施方案执行技术。

附图说明

图1A是期望应用合成SDOF效果的场景的图像。

图1B是根据一个或多个实施方案的图1A中所示图像的分割掩模。

图1C是图1A中所示图像的再现，期望对其应用合成的SDOF效果。

图1D是图1A中所示图像的初始模糊映射。

图1E是示出根据一个或多个实施方案的模糊映***修操作的框图。

图2是根据一个或多个实施方案的使用精修模糊映射合成SDOF效果的示例性方法。

图3是根据一个或多个实施方案的用于生成精修模糊映射的***的框图。

图4是示出示例性电子设备的框图，其中可以实现本文公开的技术中的一种或多种技术。

具体实施方式

在以下描述中，为了解释的目的，阐述了很多具体细节以便提供对本发明的彻底理解。然而，对本领域的技术人员而言显而易见的是，可以在不存在这些具体细节的情况下实践本发明。在其他实例中，结构和设备被以框图的形式示出，以便避免模糊本发明。对没有下标或后缀的数字的引用应当理解为引用对应于附图标记的所有下标和后缀情况。此外，本公开中所使用的语言已主要被选择用于可读性和指导性目的，并且可能没有被选择为划定或限定本发明的主题，从而诉诸于所必需的权利要求以确定此类发明主题。在说明书中提到“一个实施方案”或“一种实施方案”意指在本发明的至少一个实施方案中包括的结合该实施方案描述的特定特征、结构或特性，并且多次提到“一个实施方案”或“一种实施方案”不应被理解为全部必然地参考相同的实施方案。

现在转到图1A，示出了期望应用合成SDOF效果的场景的图像100。在图像100中，在场景中的三个不同深度处存在三个人类对象(102/104/106)，对象102处于最浅深度，接着是对象104，接着是对象106，其位于场景中的最深处。然而，尽管在场景中处于不同深度，但是三个人类对象(102/104/106)在图像100的分割掩模110中形成单个连续部分，如下文将更详细地讨论的。

现在转到图1B，示出了根据一个或多个实施方案的用于图1A的图像100的分割掩模110。语义分割掩模可用于编码图像像素到两个或更多个语义类别的映射，其中类别描述相应像素所属的语义对象或类别。分割掩模110使用以下惯例，其中白色像素表示被确定为包括人像素的图像100内的区域112，并且其中黑色像素表示被确定为包括非人像素的图像100内的区域114。

根据所使用的特定分割方案，像素分类可以是离散的(即，编码给定的类别)或连续的(即，编码类别的概率)。例如，对于人物分割CNN，不是输出是二进制的(例如，其中值“1”＝人物像素，值“0”＝非人物像素)，网络可以产生中间概率值(例如，0.75＝75％的可能性，像素是人物的一部分)。除了分割掩模本身之外，根据所使用的分割方案，还可以生成置信映射(未示出)。此类置信映射编码了由分割掩模描述的类别预测的相对确定性。通过利用置信映射和/或语义分割的连续概率，算法可以以明显更稳健的方式表现，例如，通过允许语义分割仅对分割更准确的模糊映***修过程具有更大的影响，这将在下文进一步详细讨论。

在一些实施方案中，语义分割还可以包括实例分割的形式。在实例分割中，在图像中找到的人物(或其他感兴趣的分割类别)的每个单独实例可以被编码为单独的分割类别。在此类情况下，实例分割可以帮助防止SDOF效果渲染过程在整个连续分割区域的深度上平滑(即，推动连续分割区域中的所有像素具有相同的模糊深度和/或量)，这可能看起来不自然，特别是在连续分割区域可能包括多个不同的人的图像中，这些人在分割掩模中是连续的，但实际上位于场景中的不同深度，如在图1A的图像100中的人类对象102/104/106的情况。

现在转到图1D，示出了图1A中所示的图像100的初始模糊映射120。在初始模糊映射120的惯例中，较亮的像素反映被估计为远离聚焦平面的像素，例如在场景中更深(因此导致在SDOF渲染过程期间应用更大量的模糊)，并且较暗的像素反映在场景中被估计更接近聚焦平面(例如，更浅)的像素(因此导致在SDOF渲染过程期间应用较少量的模糊)。如图1D所示，来自图像100的各种人类对象102/104/106分别在位置122/124/126处的初始模糊映射120中表示。初始模糊映射120还反映了这样的事实：对象122将比被捕获场景中更深处的对象124/126接收相对较少的模糊。还如图1D所示，对象122的脸部和衣服在初始模糊映射120中表现出一定程度的变化，例如，从对象122的眼镜的轮廓可以看出，其显然在初始模糊映射中估计的深度与对象122的脸部的其他部分的深度略有不同。

如下文将更详细地讨论的，模糊映射中的此类变化可能导致应用于对象122的模糊量的不期望的变化。如果这些变化发生在人类观察者特别敏感的图像的一部分处，诸如捕获场景中感兴趣的人类对象的脸部，则这可能是特别令人讨厌的。因此，现在应当理解，对初始模糊映射的附加改善，例如考虑捕获场景中的各种对象的语义含义和特征的那些，可能是期望的，以允许生成更高质量的合成SDOF图像。

需注意，图1C是图1A中所示图像100的简单再现，期望对其应用合成的SDOF效果。仅为了便于与图1D的对应初始模糊映射120进行比较，图1C中再现了图像100。

图1E是示出根据一个或多个实施方案的模糊映***修操作140的框图130。如图1E所示，来自分割掩模110和初始模糊映射120的信息在模糊映***修操作140中被组合，这将在下文更详细地描述，从而产生精修的模糊映射150。

通过初始模糊映射120和精修模糊映射150的比较可以注意到，精修模糊映射150已经确定应当在对应于人类对象152/154/156的图像部分中应用(即，在模糊映射中反射为较暗的像素)减少量的模糊(即，与初始模糊映射120中的它们的表示122/124/126相比)。从上述初始模糊映射120中估计的值的有意减少模糊还可以具有允许在场景中较深的人类对象(例如，对象156)被渲染为比场景的背景稍微更聚焦的效果，虽然不是很锐利，但可能进一步有助于创建自然的渲染SDOF图像。

根据其他实施方案，模糊映***修操作还可以尝试平滑在人类对象152/154/156的脸部和身体内应用的模糊量(即，在对应于人类对象152/154/156的脸部和身体的图像部分中，精修模糊映射150中的像素的颜色反射变化较小)，从而产生更自然的再现SDOF图像。通过将初始模糊映射120中的脸部123中的模糊映射值的相对大量的变化与精修模糊映射150中的对应脸部153中的模糊映射值的相对不足的变化进行比较，还可以看到精修模糊映射150中的初始模糊映射120的平滑。

此外，在精修模糊映射150中可以更好地保留场景中的人类对象的精细细节，例如，在人类对象的头部和身体的边缘周围，使得可以在渲染的SDOF图像中最小化对应于分割掩模的边缘的图像的部分中的不想要的伪影(例如，前述的重影或闪烁伪影)。现在将更详细地描述如何以稳健的方式组合来自分割掩模110和初始模糊映射120的信息，以生成改善的精修模糊映射的特定细节。

示例性过程概述

现在转到图2，示出了根据上述一个或多个实施方案的用于使用精修模糊映射合成SDOF效果的示例性方法200。首先，方法200可以通过任选地获得捕获图像的初始视差/深度映射开始，例如，从任何期望的视差或视差估计模态获得(步骤202)。例如，如上所述，该初始信息可以从例如二级立体相机、聚焦像素和/或其他类型的深度/视差传感器获得，诸如激光、结构光、IR传感器等。

接下来，可以任选地获得简单透镜模型(SLM)(步骤204)。基于用于捕获正在渲染SDOF效应的图像的透镜模型和/或图像传感器、聚焦平面等的各种特性，SLM可例如用于确定给定像素应如何呈现模糊的初始估计。应当理解，上文提到的一个或多个透镜模型特征可以是指正在模拟SDOF效果的透镜类型，而不是实际用于捕获图像的透镜。例如，图像可能已经被固定孔径相机透镜捕获，但是该合成SDOF渲染过程可能试图模拟已经由具有不同孔径尺寸的透镜捕获的图像。因此，根据一些实施方案，在步骤206处，可以使用SLM(例如，来自步骤204)来帮助将初始视差/深度映射(来自步骤202)转换为初始模糊映射，诸如，上文参考图1D讨论的初始模糊映射120。在其他实施方案中，可以从一个或多个其他源直接(或间接)获得初始模糊映射，因此可以不必直接从视差/深度信息和/或SLM估计或生成该初始模糊映射，如任选步骤202和204中所示。

接下来，该过程可以获得捕获图像的一个或多个分割掩模，并且任选地，获得一个或多个分割掩模的对应置信掩模(步骤208)。如上所述，该分割可以是二进制、多类或甚至连续的。分割掩模和置信掩模可以由神经网络或其他基于机器学习的***产生。置信掩模可以反映给定神经网络或其他基于机器学习的***在参考颜色图像中的任何给定像素的分割分类中具有的置信度。

接下来，方法200可以对初始模糊映射执行模糊映***修操作，从而创建精修的模糊映射(步骤210)。如上所述，在一些实施方案中，对图像中识别的各种分割类别的了解(以及此类别中对象的典型模糊首选项)可允许方法200从初始模糊映射智能地精修模糊值以创建更高质量和/或更自然的合成SDOF图像。

根据一些实施方案，初始模糊映射中的值可以表示为：b_0(x，y)，其中b₀是指初始模糊映射值，并且(x,y)表示模糊映射值适用的模糊映射内的像素位置。例如，在一些实施方案中，值b₀可以是指待在捕获图像中的位置(x,y)处的像素处应用的模糊半径。在一些实施方案中，b₀可以是0与1之间的正数。在其他实施方案中，可以使用模糊映射中的值的任何期望上限。

根据一些实施方案，分割掩模中的值可以表示为：S(x,y)，其中S是指分割掩模值，并且(x,y)表示分割掩模值应用的分割掩模内的像素位置。例如，如上所述，在一些实施方案中，如果像素被认为是分割的一部分，则的值可以被设置为“1”，或者如果像素被认为不是分割的一部分，则可以设置为“0”。在其他实施方案中，如上所述，在给定分割掩模内可能有两个以上的类别和/或可以使用连续概率值(即，编码属于给定类别的像素的相对概率)。

因此，根据一些实施方案，可以根据以下公式修改初始模糊映射b₀内的值以创建精修模糊映射：

b_r(x,y)＝b₀(x,y)-α*S(x,y) (公式1)，

其中b_r(x,y)是指位于位置(x,y)处的像素的精修模糊映射值，b₀(x,y)是指位于(x,y)位置处的像素的初始模糊映射值，S(x,y)是指位于(x,y)位置处的像素的分割掩模值，并且α是可调强度参数，其定义了在确定给定像素的精修模糊映射值时对分割掩模中的值给予多大影响。例如，如果给定像素是分割类别的一部分(即，“S”值为1或接近1)，则可能期望在最终渲染的SDOF图像中推动给定像素更锐利。如上文的公式1所示，α*S项的值越大，将从最终渲染的SDOF图像中的给定像素移除的模糊量越大。相比之下，如果给定像素不是分割类别的一部分(即，“S”值为0或接近0)，则可能期望允许将一定量的模糊(直到来自初始模糊映射的整个值)应用于最终渲染的SDOF图像中的像素。如上文的公式1所示，α*S项的值越小，在最终渲染的SDOF图像中，初始模糊映射的模糊量将减少越少，相反，α*S项的值越大，在最终渲染的SDOF图像中，初始模糊映射的模糊量将减少得越多。现在还应当理解，可调强度参数α的较大值将允许分割掩模中的值对初始模糊映射中的值被修改的量具有更大的影响。

在其他实施方案中，可以基于分割类别的语义含义来修改上文示出的公式1的框架。例如，如果分割类别是通常在捕获场景(例如，太阳)的背景中找到的对象，则公式1中“α*S(x，y)”项前面的减号可以改为加号。换句话讲，精修操作可以向被确定为分割类别的一部分的像素添加附加的模糊(与当分割的类别是指在渲染的SDOF图像中需要聚焦的对象(诸如人)时减少应用于像素的模糊量相反)。以这种方式，如果初始深度/视差估计具有与图像中的太阳有关的像素的错误或缺失信息(例如，将那些像素分类为前景)，则这个错误可以经由添加“α*S(x，y)”项来“加回”附加模糊来补偿。如可以理解的，基于此类类别的语义含义以及在此类类别的对象中通常期望的模糊量，相似的修改也可以应用于不同的分割类别。

根据其他实施方案，一个或多个附加可调强度参数也可以用于确定精修模糊映射值b_r，例如，如下文的公式2中所示：

b_r(x,y)＝β*(1-S(x,y))^γ*b₀(x,y)-α*S(x,y) (公式2)，

其中β表示附加的可调强度参数，该参数将允许初始模糊映射中的值在精修模糊映射中针对未被分类为在分割掩模中的给定像素而增加，并且γ表示线性因子，其可以例如用于基于不在分割掩模中的给定像素来调整针对给定像素移除初始模糊映射的模糊量的锐度。(即“S”值为0或接近0)。如上所述，适度地增加待应用于图像的不被视为分割类别的一部分的区域的模糊量可以帮助减轻(或不太明显)初始深度/视差估计中的一些误差/不准确性。在一些实施方案中，还可以基于SDOF渲染过程试图模拟的透镜孔径来调制α和/或β的值。例如，当试图模拟较大的孔径(即，存在较强的浅景深效应的孔径)时，可调强度参数α和/或β可以被自适应地调制以解决所得到的SDOF图像中的更多模糊，如果需要的话

如上所述，分割掩模还可以提供对应的置信掩模，其反映分割操作在分割掩模中的给定像素的分类中具有的置信的量。因此，根据其他实施方案，可以进一步修改用于确定精修模糊映射值(b_r)的框架以考虑置信水平，例如，如下文的公式3所示：

b_r(x,y)＝β*(1-S(x,y))*C(x,y)^γ*b₀(x,y)-α*S(x,y)*C(x,y) (公式3)，

其中C(x,y)是指位于位置(x,y)处的像素的给定分割掩模值的置信度。

如现在应当理解的，本文描述的模糊映***修操作可以有利地将来自初始深度/视差估计和分割信息的见解融合在一起，而不是完全依赖于一个信息源而排除其他源。这样做可以为模糊映射生成过程增加附加的稳健性，并允许***在各种图像捕获场景中生成自然的结果。

接下来，返回到图2的方法200，可以将一个或多个对象特定的模糊映射处理应用于精修模糊映射(步骤212)。例如，如在美国专利公开No.2018/0070007(下文称为‘007公布)的共同转让的专利申请中所描述的，该专利申请以引用的方式并入本文，在一些实施方案中，可以对模糊映射的区域应用特定处理，该区域对应于图像中的感兴趣区域，例如人类对象的脸部和/或身体。例如，根据一些实施方案，应用于人脸的对象特定处理可以包括平滑对应于人脸的像素的精修模糊映射中的模糊值(即，使得对应于人脸的像素被聚焦渲染和/或具有共同的模糊量)。在图1E的精修模糊映射150中的对象152的脸部153的前述表示中示出了这种类型的处理的一个示例。与初始模糊映射120中的对象122的脸部123的表示相比，脸部153更均匀地由黑色(即，锐利)像素表示，从而导致人类对象102在所得到的渲染的SDOF图像中被渲染为完全锐利，而不是由于轻微模糊的区域，例如由于初始深度/视差图中的误差或微小变化。

在其他实施方案中，在步骤212处应用的对象特定处理可以进一步包括软件“滚降”功能(例如，基于梯度的功能)到位于所识别的感兴趣对象的边界周围的像素的模糊映射值(例如，基于此类像素的相对深度和/或距感兴趣对象的距离)，以便软化到模糊映射的其余部分中的值的过渡，并且/或者软化可能由感兴趣对象的边界周围存在的精细细节引起的任何深度/模糊错误(例如，脸部毛发或人脸周围的其他毛发的精细细节，其中初始深度映射不能区分与人物有关的像素以及与具有足够空间分辨率的人物无关的像素)。

一旦在步骤214处获得了最终精修模糊映射，例如，作为步骤210处的模糊映***修操作的结果和/或在步骤212处应用一个或多个特定对象的模糊映射处理，方法200可以执行SDOF渲染操作(步骤216)，其将最终精修模糊映射中的值转换为待在捕获图像中的每个像素位置处应用的模糊量，从而生成合成SDOF图像。如上所述，除了肖像风格的SDOF成像之外，本文描述的改善的模糊映***修技术还可以用于各种其他摄影应用中，例如，在增强现实(AR)或虚拟现实(VR)应用和/或重新照明应用中，如果需要的话。

示例性***概述

现在转到图3，示出了根据一个或多个实施方案的用于生成精修模糊映射的***300的框图。从图3的左侧开始，***可以获得原始颜色图像(例如，RGB格式)304。结合原始颜色图像304，可以从期望的模态获得初始深度/视差信息302，例如，以原始颜色图像304的初始深度或视差映射的形式。此外，可以对原始颜色图像304执行分割操作306，从而导致任意数量的期望分割掩模，任何数量的这些分割掩模可以具有对应的置信掩模。如上所述，在原始颜色图像上产生的每个此类分割掩模可以具有期望数量的类别。在其中获得多个分割掩模的情况下，每个此类分割掩模对初始模糊映射中的值的精修的影响可以例如相等、基于给定像素位置处的每个分割掩模的相对置信度，或者可以针对特定具体实施的需要和/或相应分割掩模的各种分割对象/区域的语义含义进行单独调整。

然后可以将每个信息源(即：深度/视差图(302)、原始颜色图像数据(304)(如果给定的实现需要)和分割信息(306))馈送到模糊映***修操作308中。如上所述，模糊映***修操作308可以：例如，基于所获得的深度/视差图以及捕获相机的SLM来获得初始模糊映射(步骤310)；将初始模糊映射与分割掩模(以及可选地，置信掩模)信息以稳健的方式组合，该稳健的方式遵循由一个或多个分割掩模识别的各种分割类别的语义含义(例如，如上参照图2所述)，以生成精修的模糊映射(步骤312)；然后任选地将一个或多个附加处理(例如，对象特定处理(诸如‘007公布中描述的那些))应用于精修模糊映射(步骤314)。然后，模糊映***修操作的结果将是最终精修的模糊映射，其已经考虑了基于初始深度/基于视差的模糊估计和出现在图像中的各种分割类别的语义含义。然后可以通过SDOF渲染过程(316)将最终精修的模糊映射中的值转换成对应的模糊量，以根据任何期望的方法应用于捕获的图像，从而产生改善的合成SDOF图像(318)。

在一些实施方案中，如图3中的虚线箭头所示，颜色图像数据304也可以用于模糊映***修过程。例如，可以基于在色值方面与给定像素相似的相邻像素来进一步精修初始模糊映射值。例如，可以根据围绕给定像素的n×n邻域中的所有足够相似颜色的像素的加权平均数来修改给定像素的初始模糊值。在一些实施方案中，可以在稳健地使用语义分割信息之前应用该基于颜色图像的模糊映射修改步骤，以进一步精修初始模糊映射值。在一些实施方案中，可以采用滤波器，例如双边滤波器，以便强制执行横跨区域处理像素的一致性。

还应当指出的是，本文描述的模糊映***修技术还与模糊映射修改和/或SDOF渲染的其他方法兼容。例如，如果本文描述的精修模糊映射应用传统的“覆盖”SDOF渲染技术(即，其中分割区域的完全锐利版本直接覆盖在模糊背景之上的那些技术)，则仍然可以实现改善的结果，例如，由于初始模糊映射错误地表征为背景对象的像素的模糊量会有所减少，从而减少了在采用传统的“覆盖”方法进行合成SDOF渲染的实施方案中常见的聚焦与模糊对象之间的锐利过渡。又如，212/314中提到的对象特定模糊映射处理也可以与本文描述的各种分割感知模糊映***修过程无缝地结合。

示例性电子设备

现在参见图4，其示出了根据一个实施方案的例示性的可编程电子设备400的简化的功能框图。电子设备400可为例如移动电话、个人媒体设备、便携式相机、或平板电脑、笔记本电脑或台式计算机的***。如图所示，电子设备400可包括处理器405、显示器410、用户界面415、图形硬件420、设备传感器425(例如，近距离传感器/环境光传感器、加速度计和/或旋转仪)、麦克风430、音频编解码器435、扬声器440、通信电路445、图像捕获设备450(例如，它可以包括具有不同特性或能力(例如，高动态范围(HDR)、光学图像稳定(OIS)***、光学变焦和数字变焦等)的多个相机单元/光学图像传感器)、视频编解码器455、存储器460、存储装置465以及通信总线470。

处理器405可执行有必要用于实施或控制由电子设备400所执行的多种功能的操作的指令(例如，诸如根据本文描述的各种实施方案的模糊映射信息的生成和/或处理)。处理器405可例如驱动显示器410并可从用户界面415接收用户输入。用户界面415可采取多种形式，例如按钮、小键盘、拨号盘、点击轮、键盘、显示屏和/或触摸屏。用户界面415可以例如是用户可以通过其观看捕获的视频流的导线管和/或指示用户想要捕获的特定帧(例如，通过在设备的显示屏上正显示所需帧的时刻点击物理按钮或虚拟按钮)。在一个实施方案中，显示器410可以显示在处理器405和/或图形硬件420和/或图像捕获电路同时地生成视频流并将视频流存储在存储器460和/或存储装置465中时其被捕获的视频流。处理器405可以是片上***(例如存在于移动设备中的那些片上***)，并且可包括一个或多个专用图形处理单元(GPU)。处理器405可基于精简指令集计算机(RISC)架构或复杂指令集计算机(CISC)架构或任何其他合适的架构，并且可包括一个或多个处理内核。图形硬件420可以是用于处理图形和/或帮助处理器405执行计算任务的专用计算硬件。在一个实施方案中，图形硬件420可包括一个或多个可编程图形处理单元(GPU)。

例如，根据本公开，图像捕获设备450可以包括一个或多个相机单元，这些相机单元被配置为捕获图像，例如，可以被处理以生成针对此类捕获图像的精修模糊映射信息的图像。至少部分地通过以下设备可处理来自图像捕获设备450的输出：视频编解码器455和/或处理器405和/或图形硬件420、和/或结合在图像捕获设备450内的专用图像处理单元或图像信号处理器。这样捕获的图像可被存储在存储器460和/或存储装置465中。存储器460可包括由处理器405、图形硬件420和图像捕获设备450使用的一种或多种不同类型的介质以执行设备功能。例如，存储器460可包括存储器超高速缓存、只读存储器(ROM)、和/或随机存取存储器(RAM)。存储装置465可存储介质(例如，音频文件、图像文件和视频文件)、计算机程序指令或软件、偏好信息、设备配置文件信息以及任何其他合适的数据。存储装置465可包括一个或多个非暂态存储介质，所述非暂态存储介质包括例如磁盘(固定硬盘、软盘和可移动磁盘)和磁带、光学介质(例如CD-ROM和数字视频光盘(DVD))以及半导体存储装置(例如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。存储器460和存储装置465可用于保持计算机程序指令或代码，所述计算机程序指令或代码被组织成一个或多个模块并以任何所需的计算机编程语言编写。例如，在由处理器405执行时，此类计算机程序代码可实现本文所述的方法或过程中的一种或多种。

应当理解，以上描述旨在是示例性的而非限制性的。例如，如本公开中所描述的使用语义分割来精修模糊映射并改善其质量可以与多个传感器模态一起使用，并且不依赖于创建初始模糊映射所基于的初始深度/视差估计所涉及的特定感测或硬件。应用包括但不限于基于从传统立体图像对计算的深度/视差信息的初始模糊映射、从聚焦像素(即，用于相位检测自动聚焦的像素)计算的视差以及经由主动感测获取的深度。另外，在本公开中，涉及深度和视差估计两者。应当理解，广义上，视差可被视为与深度成反比。

在回顾以上描述时，许多其他实施方案对于本领域的技术人员而言将是显而易见的。因此，应当参考所附权利要求以及赋予此类权利要求的等同形式的完整范围来确定本发明的范围。

Claims

1.一种非暂态程序存储设备，所述非暂态程序存储设备包括被存储在其上的指令，所述指令使得一个或多个处理器：

获得场景的第一图像，所述第一图像包括多个第一像素，所述像素具有色值；

获得所述第一图像的初始模糊映射；

获得包括多个第一分割值的至少一个分割掩模，其中每个分割值对应于所述第一图像中的像素；

对所述初始模糊映射执行精修操作，其中所述精修操作至少部分地基于所述至少一个分割掩模和所述初始模糊映射；

基于所述精修操作来生成用于所述第一图像的精修模糊映射；以及

至少部分地基于所述精修模糊映射来生成所述第一图像的模糊版本。

2.根据权利要求1所述的非暂态程序存储设备，其中所述指令还使得所述一个或多个处理器：获得针对所获得的所述至少一个分割掩模中的一个分割掩模的置信掩模，其中所述精修操作还至少部分地基于所获得的置信掩模。

3.根据权利要求1所述的非暂态程序存储设备，其中所述精修操作还包括至少部分地基于与所述第一像素对应的所述至少一个分割掩模中的一个分割掩模中的值来修改与来自所述多个第一像素的第一像素对应的所述初始模糊映射中的值。

4.根据权利要求1所述的非暂态程序存储设备，其中所述精修操作还基于至少一个可调强度参数。

5.根据权利要求1所述的非暂态程序存储设备，其中所述指令还使得所述一个或多个处理器：对所述精修模糊映射执行对象特定模糊处理。

6.根据权利要求1所述的非暂态程序存储设备，其中所述至少一个分割掩模中的至少一个分割掩模作为来自神经网络的输出而获得。

7.一种电子设备，包括：

存储器；

一个或多个图像捕获设备；

显示器；

用户界面；和

一个或多个处理器，所述一个或多个处理器可操作地耦接到所述存储器，其中所述一个或多个处理器被配置为执行使得所述一个或多个处理器执行以下操作的指令：

从所述一个或多个图像捕获设备处获得场景的第一图像，所述第一图像包括多个第一像素，所述像素具有色值；

获得所述第一图像的初始模糊映射；

8.根据权利要求7所述的电子设备，其中所述指令还使得所述一个或多个处理器：获得针对所获得的所述至少一个分割掩模中的一个分割掩模的置信掩模，其中所述精修操作还至少部分地基于所获得的置信掩模。

9.根据权利要求7所述的电子设备，其中所述精修操作还包括至少部分地基于与所述第一像素对应的所述至少一个分割掩模中的一个分割掩模中的值来修改与来自所述多个第一像素的第一像素对应的所述初始模糊映射中的值。

10.根据权利要求7所述的电子设备，其中所述精修操作还基于至少一个可调强度参数。

11.根据权利要求7所述的电子设备，其中所述指令还使得所述一个或多个处理器：对所述精修模糊映射执行对象特定模糊处理。

12.根据权利要求7所述的电子设备，其中所述至少一个分割掩模中的至少一个分割掩模作为来自神经网络的输出而获得。

13.一种图像处理方法，包括：

从一个或多个图像捕获设备处获得场景的第一图像，所述第一图像包括多个第一像素，所述像素具有色值；

获得所述第一图像的初始模糊映射；

14.根据权利要求13所述的方法，还包括：获得针对所获得的所述至少一个分割掩模中的一个分割掩模的置信掩模，其中所述精修操作还至少部分地基于所获得的置信掩模。

15.根据权利要求13所述的方法，其中所述精修操作还包括至少部分地基于与所述第一像素对应的所述至少一个分割掩模中的一个分割掩模的值来修改与来自所述多个第一像素的第一像素对应的所述初始模糊映射中的值。

16.根据权利要求13所述的方法，其中修改与来自所述多个第一像素的所述第一像素对应的所述初始模糊映射中的所述值还包括以下中的至少一者：增大与来自所述多个第一像素的所述第一像素对应的所述初始模糊映射中的所述值；或减小与来自所述多个第一像素的所述第一像素对应的所述初始模糊映射中的所述值。

17.根据权利要求13所述的方法，其中所述精修操作还基于至少一个可调强度参数。

18.根据权利要求13所述的方法，还包括：对所述精修模糊映射执行对象特定模糊处理。

19.根据权利要求18所述的方法，其中所述对象特定模糊处理包括以下中的至少一者：脸部特定模糊处理；或身体特定模糊处理。

20.根据权利要求13所述的方法，其中所述至少一个分割掩模中的至少一个分割掩模作为来自神经网络的输出而获得。