CN104969240B

CN104969240B - 用于图像处理的方法和***

Info

Publication number: CN104969240B
Application number: CN201480007293.4A
Authority: CN
Inventors: S·库尔比斯
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-02-27
Filing date: 2014-02-13
Publication date: 2017-10-24
Anticipated expiration: 2034-02-13
Also published as: WO2014133769A3; US9025868B2; WO2014133769A2; EP2943912A2; EP2943912A4; CN104969240A; US20140241624A1

Abstract

用于图像处理的***和方法的各个方面可以包括具有一个或多个处理器的计算设备。计算设备可操作为确定二维图像的帧的子集中多个像素的亮度值。计算设备可操作为确定该帧的该子集中这多个像素的纹理值。计算设备可操作为基于这多个像素的所确定亮度值和所确定纹理值识别该二维图像的该帧中的主题区域和背景区域。

Description

用于图像处理的方法和***

技术领域

本公开内容的各种实施例涉及用于图像处理的方法和***。更具体而言，本公开内容的各种实施例涉及用于确定感兴趣的区域的图像处理的方法和***。

背景技术

在图像处理中，二维(2D)图像到三维(3D)图像的转换是多种多样的应用中发展起来的感兴趣的领域。对3D图像中对象的相对深度指定在2D到3D图像转换中扮演着重要的角色。图像中对象的深度是相对于背景来指定的。为了实现这种指定，图像被分割，以将这些对象与背景区分。但是，图像中的某些对象，诸如人的头发，在外观上人与人之间有显著的差别。差别可以包括不同的发色色调和光照效果。在偶然的情况下，头发和背景颜色可以具有相似的强度。鉴于这些挑战，现有技术不能准确地将某些对象与背景区分，并且因此不能对这些对象指定正确的相对深度。

通过比较此类***与参考附图在本申请剩余部分中阐述的本公开内容的一些方面，常规的和传统的方法的更多限制和缺点将对本领域技术人员变得明显。

发明内容

提供了用于图像处理的***和方法，基本上如在至少一个附图中示出的、和/或联系至少一个附图所描述的，如在权利要求中更完整阐述的。

本公开内容的这些和其它特征及优点可以从阅读本公开内容的以下详细描述连同附图来理解，其中附图中相同的标号贯穿全文指相同的部分。

附图说明

图1是根据本公开内容实施例的说明用于图像处理的网络环境的框图。

图2是根据本公开内容实施例的说明用于确定主题区域和背景区域的图像处理的计算设备的框图。

图3是根据本公开内容实施例的说明用于确定主题区域和背景区域的图像处理的方法的图。

图4是根据本公开内容实施例的说明用于确定感兴趣区域的图像处理的方法的图。

图5是根据本公开内容实施例的说明用于头发分割的子任务序列的流程图。

图6A-6B是根据本公开内容实施例的说明二维输入图像和下量化的图像的屏幕快照的图。

图7A-7B是根据本公开内容实施例的说明二维输入图像和被修剪、调整大小和下量化的图像的屏幕快照的图。

图8是根据本公开内容实施例的说明了示出不同类像素的预测位置的二维图像的屏幕快照的图。

图9A-9B是根据本公开内容实施例的说明二维图像的头发和背景区域的柱状图的图。

图10是根据本公开内容实施例的说明与背景类比较而言的头发类的基于梯度的独特性函数的图。

图11是根据本公开内容实施例的说明了示出感兴趣区域与背景区域的布尔类型图像的屏幕快照的图。

图12是根据本公开内容实施例的说明用于所确定的感兴趣区域的后期处理的方法的图。

图13A是根据本公开内容实施例的说明感兴趣区域的平滑图像的屏幕快照的图。

图13B是根据本公开内容实施例的说明在消除离群数据片之前和之后感兴趣区域的平滑图像的屏幕快照的图。

图13C是根据本公开内容实施例的说明感兴趣区域掩模的屏幕快照的图。

图13D是根据本公开内容实施例的说明叠加在二维输入图像上的掩模图像的屏幕快照的图。

具体实施方式

各种实现可以在用于图像处理以便确定感兴趣区域的***和方法中找到。

用于图像处理的方法的示例性方面可以包括具有一个或多个处理器的计算设备。在实施例中，计算设备可操作为确定二维图像的帧的子集中的多个像素的亮度值。计算设备还可操作为确定该帧的该子集中的这多个像素的纹理值。计算设备可操作为基于这多个像素的所确定亮度值和所确定纹理值识别该二维图像的该帧中的主题区域和背景区域。

在实施例中，像素的亮度值和纹理值分别存储在第一查找表集合和第二查找表集合中。二维图像的帧中的主题区域和背景区域的识别包括基于像素的亮度值和纹理值分别与第一查找表集合和第二查找表集合的比较把这多个像素归为第一类和/或第二类。在实施例中，第一类包括头部类并且第二类包括背景类。头部类可以进一步包括脸部类和头发类。

在实施例中，计算设备还可操作为基于二维图像中主题区域和背景区域的识别把二维图像转换成三维图像。

用于图像处理的方法的示例性方面可以包括具有一个或多个处理器的计算设备。在实施例中，计算设备可操作为基于第一二维图像中的第一类像素和第二类像素的亮度生成第一值集合。如本文中所使用的，图像中像素的亮度是图像中一个或多个对象的明度(brightness)分布或光度(luminosity)信息。计算设备还可操作为基于第一二维图像中第一类像素和第二类像素的纹理生成第二值集合。计算设备可以基于主题像素的亮度值和主题像素的纹理值分别与所生成的第一值集合和所生成的第二值集合的比较把主题像素归为第一类像素和第二类像素之一。

在实施例中，主题像素属于第一二维图像。在另一种实施例中，主题像素属于与第一二维图像不同的第二二维图像。在实施例中，第一类包括头部类并且第二类包括背景类。头部类可以进一步包括脸部类和头发类。

在实施例中，计算设备可以基于第一值集合和第二值集合确定第一二维图像中感兴趣的区域。在实施例中，计算设备可以基于第一值集合和第二值集合确定第二二维图像中感兴趣的区域。

第一值集合对应于存储来自第一二维图像的第一类像素和第二类像素的亮度值的柱状图计数的第一查找表(LUT)集合。第一LUT集合代表用于第一和第二类像素的类条件概率分布。第二值集合对应于存储用于第一类像素的梯度独特性指标函数的第二LUT集合。

用于图像处理的方法的示例性方面可以包括具有一个或多个处理器的计算设备。在实施例中，计算设备可操作为确定在本文被称为二维ROI图像的二维图像中的感兴趣区域(ROI)。计算设备可以基于对应于二维图像的亮度的第一预定值集合确定二维ROI图像中的第一类像素和第二类像素。计算设备可以分析对应于所述二维图像的纹理的第一类像素和第二类像素的纹理，以确定感兴趣的区域。计算设备还可操作为基于二维ROI图像中感兴趣区域的确定把二维图像转换成三维图像。然后，从转换获得的3D图像被用来渲染3D媒体内容。

在实施例中，二维ROI图像是从二维输入图像生成的。在例子中，包括运动图像序列的二维(2D)媒体内容被分成多个2D图像帧。来自运动图像序列的每个图像帧代表该二维输入图像。二维ROI图像是通过修剪、调整大小和下量化二维输入图像生成的。与二维输入图像相比，二维ROI图像具有更低的尺寸。

在实施例中，该方法还包括预测二维ROI图像中的第一区域和第二区域。预测的第一区域和第二区域对应于二维ROI图像中的第一类像素和第二类像素可能存在的样本区域。例如，预测的第一区域和预测的第二区域分别包括头部区域和背景区域。基于第一和第二类像素的亮度以及第一预定值集合，第一类像素和第二类像素通过利用贝叶斯法则计算类条件概率函数被确定。每个类条件概率函数代表以另一个事件发生为条件的一个事件的概率。

在实施例中，第一预定值集合对应于第一查找表(LUT)集合。第一LUT集合存储来自二维ROI图像和/或至少一个之前的二维图像的第一类像素和第二类像素的亮度值的柱状图计数。

纹理的分析包括为第一类像素和第二类像素计算梯度独特性指标函数。与第二类像素相比而言第一类像素的唯一性基于计算出的梯度独特性指标函数和第二预定值集合被确定。在实施例中，第二预定值集合对应于第二查找表集合。第二查找表集合存储用于二维ROI图像和/或至少一个之前的二维图像的第一类像素的梯度独特性指标函数。

在实施例中，像素的第一类包括头部类并且像素的第二类包括背景类。头部类可以进一步包括脸部类和头发类。感兴趣的区域是人的头发区域、头部区域或者其组合。在实施例中，感兴趣的区域表示为布尔类型图像。

在实施例中，被表示为布尔类型图像的感兴趣区域接受一个或多个后期处理任务。通过填充感兴趣区域中的间隙，感兴趣区域接受图像平滑。然后，除去感兴趣区域周围断开的片、或者离群数据。检测所关心区域的外部轮廓，以生成感兴趣区域(ROI)的掩模图像。然后，ROI掩模图像被恢复到二维输入图像的原始规模。

图1是根据本公开内容实施例的说明用于图像处理的网络环境的框图。参考图1，示出了网络环境100。网络环境100可以包括服务器计算设备102、用户计算设备104、媒体管理设备106、数据库108以及通信网络110。服务器计算设备102和用户计算设备104在本文也可以被统称为计算设备102/104。

服务器计算设备102可以包括可以使得能够从媒体管理设备106直接地或者经通信网络110接收和处理静止和运动图像的合适逻辑、电路***、接口和/或代码。例如，服务器计算设备102可操作为执行所接收图像的图像分割、对图像中的对象的相对深度指定以及2D到3D图像转换。在实施例中，服务器计算设备102可以实现为基于云的服务器。服务器计算设备102可以存储并周期性地更新一个或多个自学习LUT集合，或者自主地或者与数据库108关联地。管理员用户可以与服务器计算设备102直接交互。在其它实施例中，管理员用户可以通过通信网络110间接地向服务器计算设备102发布命令或指令。

用户计算设备104可以包括可以使得能够从媒体管理设备106直接地或者经通信网络110接收和处理静止和运动图像的合适逻辑、电路***、接口和/或代码。例如，用户计算设备104也可操作为执行所接收图像的图像分割、对图像中对象的相对深度指定以及2D到3D图像转换。用户计算设备104可以包括计算机、智能电话、移动设备、个人数字助理(PDA)、膝上型电脑、平板PC和消费者设备或电器(诸如电视和/或机顶盒)当中的一个或多个。但是，本公开内容不限于此，并且在不限制本公开内容范围的情况下，其它类型的用户计算设备104可以通信耦合到媒体管理设备106和服务器计算设备102。用户计算设备104还可以包括能够接收并渲染媒体内容的计算设备。用户计算设备104还可操作为与数据库108关联地存储并周期性地更新一个或多个自学习LUT集合。终端用户可以与用户计算设备104直接交互。在其它实施例中，管理员用户可以通过通信网络110间接地向服务器计算设备102发布命令或指令。

媒体管理设备106可以包括可以使得能够捕捉、存储和向服务器计算设备102和/或用户计算设备104直接地或者经通信网络110间接地分发媒体的合适逻辑、电路***、接口和/或代码。例如，所捕捉的媒体包括静止图像和运动图像。媒体管理设备106可操作为以可配置的分辨率和以不同的图像捕捉格式来捕捉运动和/或静止图像。媒体管理设备106还可操作为执行各种形式媒体内容的产生、分发和管理，这些媒体内容诸如电视内容、点播媒体内容、基于web的内容和个人内容。媒体内容的格式可以包括但不限于AVI、MPEG和DivX。在实施例中，媒体管理设备106可操作为经网络向用户计算设备104广播运动图像。媒体管理设备106可以经有线或无线通信协议把运动图像分发或传送到服务器计算设备102或用户计算设备104。媒体管理设备106还可以包括大容量存储设备，以存储所捕捉的媒体用于后续传送或分发。

数据库108可以包括可以使得能够存储媒体和数据以及把媒体和数据传送到服务器计算设备102和用户计算设备104的合适逻辑、电路***、接口和/或代码。数据库108可操作为根据来自到服务器计算设备102和用户计算设备104的指令存储并周期性地更新一个或多个自学习LUT集合。

通信网络110可以包括各种计算设备104可以通过其在计算环境100中接收和发送媒体内容和数据的介质。通信网络110的例子可以包括但不限于因特网、无线保真(WiFi)网络、无线局域网(WLAN)、局域网(LAN)、电话线(POTS)或者城域网(MAN)。根据各种有线和无线通信协议，诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、红外(IR)、IEEE 802.11、802.16、蜂窝通信协议和/或蓝牙(BT)通信协议，计算环境100中的各种设备可操作为连接到通信网络110。

在操作中，在本文被统称为计算设备102/104的服务器计算设备102或用户计算设备104可以从媒体管理设备106接收二维(2D)媒体内容，诸如运动图像或静止图像。在实施例中，计算设备102/104可以分割运动图像，以创建合适格式的单独2D图像帧的序列，其中格式包括但不限于联合图像专家组(JPEG)、可移植网络图形(PNG)、图形交换格式(GIF)和标签图像文件格式(TIFF)格式。计算设备102/104可以从2D图像帧生成亮度信息。计算设备102/104可以从2D图像帧提取亮度信息。在实施例中，计算设备102/104可以接收直接来自媒体管理设备106或者来自另一计算设备的二维图像。计算设备102/104可以确定二维图像的帧的子集中的多个像素的亮度值。计算设备102/104可以基于像素的独特梯度确定帧的子集中的多个像素的纹理值。计算设备102/104可以基于多个像素的所确定亮度值和所确定纹理值识别二维图像的帧中的主题区域和背景区域。

在实施例中，通过基于像素的亮度值和纹理值分别与第一查找表集合和第二查找表集合的比较把像素归为第一类和/或第二类，计算设备102/104可以识别二维图像的帧中的主题区域和背景区域。在例子中，识别出的主题区域包括头发区域和/或头部区域。

在实施例中，计算设备102/104可以基于二维图像中主题区域和背景区域的识别把二维图像转换成三维图像。

在实施例中，计算设备102/104可以基于第一二维图像中的第一类像素和第二类像素的亮度生成第一值集合。在实施例中，第一值集合对应于第一查找表(LUT)集合。第一LUT集合存储第一类像素和第二类像素的亮度值的柱状图计数。第一LUT集合代表第一和第二类像素的类条件概率分布。计算设备102/104可以基于第一二维图像中的第一类像素和第二类像素的纹理生成第二值集合。第二值集合对应于第二LUT集合。在实施例中，第二LUT集合存储第一类像素的梯度独特性指标函数。在实施例中，计算设备102/104可以生成第一LUT集合和第二LUT集合，作为持续自训练例程的一部分。计算设备102/104可以把生成的第一LUT集合和第二LUT集合传送到数据库108以供存储。计算设备102/104可以基于第一值集合和第二值集合确定第一二维图像中的感兴趣区域。在实施例中，计算设备102/104可以基于第一值集合和第二值集合确定第二二维图像中的感兴趣区域。

在实施例中，计算设备102/104可以确定在本文也被称为二维ROI图像的二维图像中的感兴趣区域(ROI)。计算设备102/104可以基于第一预定值集合确定二维ROI图像中的第一类像素和第二类像素。例如，第一类像素包括头部类并且第二类像素包括背景类。在实施例中，头部类进一步包括脸部类和头发类。计算设备102/104可以基于第二预定值集合分析第一类像素和第二类像素的纹理。确定的感兴趣区域包括头部区域、头部区域或者其组合。

在实施例中，计算设备102/104可操作为预测二维ROI图像中的第一区域和第二区域。预测的第一区域和第二区域对应于二维ROI图像中第一类像素和第二类像素可能存在的样本区域。例如，预测的第一区域和预测的第二区域可以分别包括头部区域和背景区域。计算设备102/104可以通过基于第一和第二类像素的亮度以及第一预定值集合利用贝叶斯法则计算类条件概率函数来确定第一类像素和第二类像素。

在实施例中，第一预定值集合对应于第一查找表(LUT)集合。第一LUT集合存储二维ROI图像和/或至少一个之前的二维图像的第一类像素和第二类像素的亮度值的柱状图计数。

在实施例中，计算设备102/104可操作为通过为第一类像素和第二类像素计算梯度独特性指标函数来分析纹理。基于计算出的梯度独特性指标函数和第二预定值集合，计算设备102/104确定第一类像素的与第二类像素相比的唯一性。在实施例中，第二预定值集合对应于第二LUT集合。第二LUT集合存储来自二维ROI图像和/或至少一个之前的二维图像的第一类像素的梯度独特性指标函数。

在实施例中，计算设备102/104可以从二维输入图像生成二维ROI图像。每个二维输入图像是来自2D媒体内容的运动图像序列的二维(2D)图像帧。计算设备102/104通过修剪、调整大小和下量化每个二维输入图像来生成二维ROI图像。为了生成二维ROI图像的修剪、调整大小和下量化操作的次序和再现可以是预定的或者随机的。与二维输入图像相比，二维ROI图像具有降低的尺寸。在实施例中，计算设备102/104可操作为基于2D图像帧中感兴趣区域的确定把每个2D图像帧转换成3D图像。

图2是根据本公开内容实施例的说明用于确定感兴趣区域的图像处理的计算设备的框图。图2是结合图1的元素来解释的。参考图2，示出了计算设备102/104。在实施例中，图2中所绘出的计算设备是服务器计算设备102。在另一种实施例中，图2中所绘出的计算设备是用户计算设备104。计算设备102/104可以包括处理器202、存储器204、输入-输出(I/O)设备206以及收发器208。

处理器202可以通信耦合到存储器204和I/O设备206。另外，收发器208可以通信耦合到处理器202、存储器204和I/O设备206。

处理器202可以包括可操作为执行存储在存储器204中的指令集的合适的逻辑、电路***、接口和/或代码。处理器202可以基于本领域中已知的多种处理器技术来实现。处理器202的例子可以是基于X86的处理器、RISC处理器、ASIC处理器、CISC处理器、或者任何其它处理器。

存储器204可以包括可操作为存储所接收的指令集的合适的逻辑、电路***、接口和/或代码。存储器204可以基于但不限于随机存取存储器(RAM)、只读存储器(ROM)、硬盘驱动器(HDD)、存储服务器和/或安全数字(SD)卡来实现。

I/O设备206可以包括可操作地连接到处理器202的各种输入和输出设备。输入设备的例子包括但不限于键盘、鼠标、操纵杆、触摸屏、麦克风、相机、运动传感器、光传感器和/或驻坞站。输出设备的例子包括但不限于显示器和扬声器。

收发器208可以包括可操作为与媒体管理设备106和数据库108通信的合适的逻辑、电路***、接口和/或代码。收发器208可以实现用于支持与通信网络110的有线或无线通信的已知技术。

在操作中，处理器202可操作为从媒体管理设备106接收二维(2D)媒体内容，诸如运动图像或静止图像。在实施例中，处理器202可以分割运动图像，以用合适的格式创建单独2D图像帧的序列。处理器202可以从2D图像帧生成仅亮度的图像。处理器202可以通过从2D图像帧提取亮度信息来生成仅亮度的图像。每个2D图像帧构成到处理器202的二维输入图像。在实施例中，处理器202可以从二维输入图像生成更低尺寸的二维ROI图像。基于对象检测算法的对象边框(bounding box)，二维ROI图像通过修剪、调整大小和下量化二维输入图像被生成。为了生成二维ROI图像的修剪、调整大小和下量化操作的次序和再现可以是预定的或者任意的。二维ROI图像的存储器需求比二维输入图像的存储器需求低。

处理器202可操作为确定二维ROI图像的帧的子集中的多个像素的亮度值。处理器202可操作为基于像素的独特梯度确定该帧的该子集中的这多个像素的纹理值。处理器202可操作为基于多个像素的所确定亮度值和所确定纹理值识别二维图像的帧中的主题区域和背景区域。

在实施例中，处理器202可操作为通过基于像素的亮度值和纹理值分别与第一查找表集合和第二查找表集合的比较把像素归为第一类和/或第二类，来识别二维ROI图像的帧中的主题区域和背景区域。在例子中，所识别出的主题区域包括头发区域和/或脸部区域。

在实施例中，处理器202可操作为基于二维ROI图像中主题区域和背景区域的识别把二维图像转换成三维图像。

在实施例中，处理器202可操作为基于第一二维ROI图像中的第一类像素和第二类像素的亮度生成第一值集合。例如，第一值集合对应于第一查找表(LUT)集合以存储用于第一类像素和第二类像素的亮度值的柱状图计数。第一LUT集合代表用于第一和第二类像素的类条件概率分布。处理器202可以基于第一二维ROI图像中的第一类像素和第二类像素的纹理生成第二值集合。例如，第二值集合对应于第二LUT集合以存储用于第一二维ROI图像中的第一类像素的梯度独特性指标函数。在实施例中，处理器202可以生成第一LUT集合和第二LUT集合，作为自训练例程的一部分。处理器202可以把生成的第一LUT集合和第二LUT集合传送到数据库108以供存储。

处理器202可以基于第一值集合和第二值集合确定第一二维ROI图像中的感兴趣区域(ROI)。在实施例中，处理器202基于第一值集合和第二值集合确定第二二维ROI图像中的感兴趣区域。处理器202可以基于第一值集合确定第二二维ROI图像中的第一类像素和第二类像素。例如，第一类像素包括头部类并且第二类像素包括背景类。在实施例中，头部类进一步包括脸部类和头发类。基于第二值集合，处理器202可以分析第二二维ROI图像中的第一类像素和第二类像素的纹理。确定的感兴趣区域包括头部区域、头发区域或者其组合。根据本发明的实施例，确定感兴趣区域的图像处理可以或者在服务器计算设备102处或者在用户计算设备104处执行。

在实施例中，处理器202可操作为预测第二二维ROI图像中的第一区域和第二区域。预测的第一区域和第二区域对应于第二二维ROI图像中第一类像素和第二类像素有可能存在的范例区域。例如，预测的第一区域和预测的第二区域分别包括头部区域和背景区域。基于第一和第二类像素的亮度以及贝叶斯法则，通过计算类条件概率函数，处理器202可以确定第二亮度中的第一类像素和第二类像素。

在实施例中，处理器202可操作为通过为第一类像素和第二类像素计算梯度独特性指标函数来分析纹理。处理器202可以基于梯度独特性指标函数和第二值集合来确定第二二维ROI图像中的第一类像素与第二类像素相比而言的唯一性。

在实施例中，计算设备基于感兴趣区域的确定把2D图像转换为3D图像。2D到3D转换可以或者在服务器计算设备102处或者在用户计算设备104处执行，并且这都在本公开内容的范围内。

图3是根据本公开内容实施例的说明用于确定主题区域和背景区域的图像处理的方法300的图。图3将结合图1和图2的元素来描述。方法300可以在包括一个或多个处理器202的计算设备102/104中实现。

方法300在302开始。在304，二维图像的帧的子集中的多个像素的亮度值可以由计算设备102/104确定。在步骤306，该帧的该子集中的这多个像素的纹理值可以由计算设备102/104基于像素的独特梯度来确定。多个像素的亮度值和纹理值分别存储在第一查找表集合和第二查找表集合中。

在步骤308，基于像素的所确定亮度值和所确定纹理值识别二维图像的帧中的主题区域和背景区域。二维图像的帧中的主题区域和背景区域的识别可以包括基于像素的亮度值和纹理值分别与第一查找表集合和第二查找表集合的比较把多个像素归为第一类和/或第二类。在步骤310，方法300结束。

图4是根据本公开内容实施例的说明用于确定感兴趣区域的图像处理的方法400的图。图4将结合图1和图2的元素来描述。方法400可以在包括一个或多个处理器202的计算设备102/104中实现。

方法400在402开始。在步骤404，基于对象边框，二维ROI图像由计算设备102/104从二维输入图像生成。例如，对象边框是基于脸部检测的脸部边框。二维输入图像基于脸部边框被修剪、调整大小和下量化。为了减少硬件实现的存储器和门电路使用，计算设备102/104把较宽的脸部二维输入图像修剪、调整大小和下量化成较小的二维ROI图像。较小的二维ROI图像的存储器需求低于实际二维输入图像的存储器需求。在实施例中，计算设备102/104可以对二维输入图像执行修剪、调整大小和下量化操作当中的一个或多个，以生成较小的二维ROI图像。

在步骤406，基于二维ROI图像中像素的亮度值，第一值集合可以由计算设备102/104生成。在实施例中，计算设备102/104利用基于逐帧的自训练算法处理一个或多个二维图像，其中该算法使用仅亮度的图像信息。计算设备102/104可以参照脸部边框收集正和负范例，以形成用于头发和背景区域的概率和判别函数。在实施例中，第一值集合对应于存储用于头发类像素和背景类像素的亮度值的柱状图计数的第一查找表(LUT)集合。

在步骤408，第二值集合可以基于二维ROI图像中像素的纹理由计算设备102/104生成。在实施例中，第二值集合对应于第二LUT集合以存储用于第一类像素的梯度独特性指标函数。在实施例中，计算设备102/104可以生成第一LUT集合和第二LUT集合，作为持续自训练例程的一部分。计算设备102/104可以利用贝叶斯决策理论连同仅头发的独特梯度特征集合来确定感兴趣的区域。例如，基于由Sony脸部跟踪(sFace)***给出的矩形脸部边框信息，计算设备102/104训练自身以对每个图像提取这些特征。但是，本公开内容不限于此，并且，在不限制本公开内容范围的情况下，其它类型的脸部跟踪或脸部运动捕捉***可以被用来提供脸部边框信息。脸部二维ROI图像被计算设备102/104处理，以利用自学习LUT和学到的特征来识别头发像素。

在步骤410，感兴趣的区域由计算设备102/104确定。在步骤410a，基于第一值集合和贝叶斯法则确定第一类像素和第二类像素。在步骤410b，基于第二值集合分析第一类像素和第二类像素。例如，第二值集合对应于存储用于第一类像素的梯度独特性指标函数的第二LUT集合。在步骤412，方法400结束。

参考图5-12D，将描述确定感兴趣区域(ROI)的图像处理的例子。在这个例子中，感兴趣的区域是头部区域和头发区域的组合。根据本公开内容的实施例，计算设备102/104利用头发分割算法来确定感兴趣的区域。用于分割算法的接口函数的定义是hairSeg(..)。根据本公开内容的实施例，计算设备102/104可操作为执行函数hairSeg(..)以执行头发分割，来确定头发区域。接口函数hairSeg(..)的输入参数包括：二维(2D)输入图像的亮度(L)、2D输入图像的宽度(W)、2D输入图像的高度(H)、来自脸部检测的脸部边框的x中心(x坐标)(face_xc)、来自脸部检测的脸部边框的y中心(y坐标)(face_yc)以及脸部边框的半宽(face_hw)。

函数hairSeg(..)的输出包括头发掩模图像(p_mask)(包含0和1，其可以是布尔类型图像)以及可选的头发概率图像(p_probMap)。算法中被设置为缺省值的其它参数包括量化位数(nBits＝[6])、指向用于修剪和调整大小后的脸部ROI(facel)的存储器的指针、facel的宽度(szCol＝[75])以及facel的高度(szRow＝[75])。用于纹理分析的梯度结构是利用诸如梯度步进(step＝[1])、y轴梯度范围(MaxTstepY:[-22])和x轴梯度范围(MaxTstepX:[-22])之类的参数定义的。虽然算法中的某些参数被设置为缺省值，但是，依赖于应用和处理需求，这些参数的值可以改变，而不限制本公开内容的范围。

依赖于所定义的梯度结构，函数hairSeg(..)计算纹理(梯度)查找表(LUT)的所需尺寸。亮度LUT分别为头发和背景类生成(hdLumLUT,bgLumLUT)。每个LUT具有无符号整数类型的大小为1x2^nBits的存储器位置。用于本文所公开的梯度结构的每个纹理LUT的尺寸可以是24x2^nBits布尔类型。为了减小LUT的存储器消耗，计算设备102/104把修剪后的脸部图像下量化到指定的nBits参数值。下量化是利用cropAndRszHeadROI(..)函数实时执行的。输入2D图像的下量化减小了基于柱状图的LUT的存储器需求。然后，函数hairSeg(..)调用相关的子例程来执行头发分割的各种子任务，如参考图5-12D所描述的。

图5是根据本公开内容实施例的说明用于头发分割的子任务的序列的流程图。根据本公开内容的实施例，计算设备102/104可操作为执行一个或多个子例程以执行头发分割的各种子任务，来确定头发区域。参考图5，示出了绘出与修剪和调整大小、生成自学习查找表(LUT)和独特特征、以及利用贝叶斯法则和独特梯度函数对头发分割的子任务相对应的子例程的序列。函数hairSeg(..)调用这些子例程来执行头发分割的各种子任务。

在步骤502，计算设备102/104执行cropAndRszHeadROI(..)函数来生成二维脸部ROI图像。

在步骤504，计算设备102/104执行makeTheLUTs(..)函数来生成自学习查找表(LUT)和独特特征。

在步骤506，计算设备102/104执行BayesRuleSeg(..)函数来利用贝叶斯法则和独特梯度函数对头发分割，以确定头发区域。

图6A-6B是根据本公开内容实施例的说明二维输入图像和下量化图像的屏幕快照的图。参考图6A，示出了例如具有每像素8位的分辨率的二维输入图像。参考图6B，示出了例如具有每像素6位的分辨率的下量化图像。到cropAndRszHeadROI(..)函数的输入包括二维输入图像及其脸部边框信息。通过把二维输入图像修剪、调整大小和下量化到预先指定的尺寸，cropAndRszHeadROI(..)函数的输出包括更宽的脸部感兴趣区域(ROI)。修剪、调整大小和下量化操作减小二维图像的实时处理的存储器需求和计算成本。

图7A-7B是根据本公开内容实施例的说明二维输入图像和被修剪、调整大小和下量化的图像的屏幕快照的图。参考图7A，示出了与脸部边框叠加的二维输入图像。参考图7B，示出了修剪、调整大小和下量化后的二维脸部ROI图像。参考图8-12D描述的后续处理是对图7B中所示的二维脸部ROI图像执行的。

图8是根据本公开内容实施例的说明了示出不同类像素的预测位置的二维ROI图像的屏幕快照的图。参考图8，示出了具有预测的类样本区域的二维图像。预测的类样本区域包括头部/头发范例区域、背景范例区域和未指定的区域。如在图8中所看到的，头发类可以包括头发、脸部和背景类的混合。类似地，在某些脸部例子中，背景类可以包括头发像素。

具有图8的预测的类样本区域的二维ROI图像构成到makeTheLUTs(..)函数的输入。makeTheLUTs(..)函数生成两个查找表(LUT)集合，即基于柱状图的类条件概率密度函数(也被称为基于亮度的LUT)以及基于梯度的独特指标函数(GraDilndicator)(也被称为纹理LUT)。基于亮度的LUT是基于用于图8中所说明的背景和头发预测区域的每个亮度值的柱状图计数形成的。

图9A-9B是根据本公开内容实施例的分别说明用于二维ROI图像的头发和背景区域的样本柱状图的图。参考图9A，示出了用于二维ROI图像的头发区域的面积规格化的样本柱状图。参考图9B，示出了用于二维ROI图像的背景区域的面积规格化的样本柱状图。

为了使LUT独立于样本尺寸，LUT被面积规格化，使得LUT(即，总计等于同一预定数量(N)的柱状图之下的区域)独立于在在其上收集数据的区域尺寸。例如，

其中nBits＝6并且N＝4096。

图9A-9B中所说明的LUT图把类条件概率分布函数表示为贝叶斯法则图像分割算法(BayesRuleSeg(..)函数)中的p(LumValue|Class)。在实施例中，基于亮度的LUT还为皮肤类生成，其中对于图像分割需要附加的像素归类。

纹理查找表(LUT)是布尔类型。在实施例中，纹理LUT仅为头发类生成。图10是根据本公开内容实施例的说明与背景类比较而言的用于头发类的基于梯度的独特性函数的图。在这个例子中，假设头发区域中的背景像素可以与选定的背景区域具有相似的纹理特性。同时，可以存在相对于背景纹理(梯度)特征而言唯一的某些头发纹理特征。基于这些标准，如果头发纹理特征是唯一的，则值1指定给LUT中的对应像素，否则就指定值0，如图10中所示。

基于梯度的独特性指标函数是基于梯度的唯一性得出的。算法首先(i)关于二维图像中的每个头发区域像素定义梯度方向。例如，第一梯度方向可以由Δi＝1和Δj＝0表示。对于所有的头发区域像素，算法(ii)最初对于每个梯度索引(g)把头发梯度指标如下地设置为1：

g＝|halmg(i,j)-halmg(i+Δi,j+Δj)|

haGraDilndicator1(g)＝1。

然后，算法(iii)基于纹理LUT对照背景类评估头发梯度指标的唯一性。类似地，对于所有背景区域像素，如果背景类中存在相同的梯度，则算法如下地把头发梯度指标复位为0：

g＝|bglmg(i,j)-bglimg(i+Δi,j+Δj)|

haGraDilndicator1(g)＝0，其中“halmg”和“bglmg”分别代表图8中的头发和背景范例区域。

在评估头发梯度指标之后，(iv)没有复位的haGraDilndicator1(.)索引唯一地代表头发区域。此外，步骤(i)至(iv)对于其它梯度方向重复。在这个例子中，使用24个梯度方向函数。这些梯度方向函数被设计为布尔类型，并且因此使用最小量的存储器。

计算设备102/104基于BayesRuleSeg(..)函数确定感兴趣的区域。BayesRuleSeg(..)函数利用类条件概率函数和独特梯度指标函数分割出头发区域。分割是基于两个部分，即贝叶斯决策法则和独特梯度函数。

基于以下表达式，贝叶斯决策法则决定头发区域中的像素是否必须被指定给头发类：

如果p(lum|hair)p(hair)>p(lum|bg)p(bg)，

则决定是头发；

其中头发的先验概率p(hair)＝脸部的先验概率p(face)＝1，并且背景的先验概率p(bg)＝3(或者另选地是1/4和3/4)。背景的先验概率被设置为是头发的先验概率的三倍。此外，贝叶斯决策法则还可以包括以下表达式来区分同一二维图像中的头发区域和皮肤区域：

如果p(lum|hair)p(hair)>p(lum|bg)p(bg)并且>p(lum|skin)p(skin)，

则决定是头发；

其中p(face)＝p(skin)。

在独特梯度分析中，如果有任何一个梯度独特性函数指示像素位置是头发，则那个像素被如下地指定给头发类：

对所有k方向检查：如果一个或多个haGraDilndicator-k(.)＝1，则把像素指定给头发类。

类似地，当或者贝叶斯决策法则或独特梯度分析确定像素属于头发类时，二维ROI图像的头发类区域中的每个像素被指定给头发类。在实施例中，当贝叶斯决策法则和独特梯度分析都确定像素属于头发类时，二维ROI图像的头发类区域中的每个像素被指定给头发类。

图11是根据本公开内容实施例的说明了示出感兴趣区域与背景区域的布尔类型图像的屏幕快照的图。参考图11，示出了基于贝叶斯决策法则和梯度独特性函数的布尔类型图像，这是BayesRuleSeg(..)函数的样本结果。

图12是根据本公开内容实施例的说明用于确定的感兴趣区域的后期处理的方法的图。图12将结合图1和图2的元素来描述。方法1200可以在包括一个或多个处理器202的计算设备102/104中实现。

方法1200在1202开始。在步骤1204，通过填充感兴趣区域中的间隙，计算设备102/104可以使感兴趣的区域接受图像平滑。图13A是根据本公开内容实施例的说明感兴趣区域的平滑后的图像的屏幕快照的图。被平滑的感兴趣区域周围的离群数据或者断开的片被计算设备102/104除去。图13B是根据本公开内容实施例的说明在消除离群数据片之前和之后感兴趣区域的平滑后的图像的屏幕快照的图。计算设备102/104执行函数enforceBorderConsist(..)来执行图像平滑和消除离群数据。

在步骤1206，计算设备102/104可以检测感兴趣区域的外部轮廓，以生成感兴趣区域或头部的掩模图像。在实施例中，计算设备102/104通过简单的滑动平均操作来平滑外部轮廓。计算设备102/104通过以该轮廓代表头部(头发加脸部)区域的置信度填充该轮廓内的区域来创建头发掩模图像。头部掩模图像被用来在2D至3D转换期间向头部区域指定深度。计算设备102/104执行函数hairBorderDetect(..)，以检测外部轮廓并生成头部掩模图像。图13C是根据本公开内容实施例的说明感兴趣区域掩模的屏幕快照的图。

在步骤1208，计算设备102/104可以把头发掩模图像的原始规模恢复到二维输入图像的规模。计算设备102/104执行函数imprintTheFaceMask(..)，以恢复结果得到的头部掩模图像的规模。头部掩模图像的规模被恢复，以建立头发(或头部)掩模与二维输入图像之间的正确对应性，以便把头部掩模盖到(imprint)二维输入图像上。图13D是根据本公开内容实施例的说明叠加到二维输入图像上的掩模图像的屏幕快照的图。在步骤1210，方法1200结束。

根据本公开内容的另一种实施例，用于图像处理的方法和***可以包括通信耦合到媒体管理设备106的计算设备102/104。

计算设备102/104可以包括一个或多个处理器，例如可操作为确定二维图像的帧的子集中的多个像素的亮度值的处理器202(图2)。处理器202可操作为基于像素的独特梯度确定帧的子集中的像素的纹理值。处理器202还可操作为基于像素的所确定亮度值和所确定纹理值识别二维图像的帧中的主题区域和背景区域。

在实施例中，处理器202还可操作为从第一二维图像生成第一值集合和第二值集合。处理器202可操作为确定第一二维图像中的感兴趣区域。在另一种实施例中，处理器202可操作为确定第二二维图像中的感兴趣区域。处理器202可操作为基于第一值集合确定第二二维图像中的第一类像素和第二类像素。处理器202可操作为基于第二值集合分析第二二维图像中的第一类像素和第二类像素的纹理。

***还可以包括可操作为存储对应于第一值集合的第一查找表(LUT)集合和对应于第二值集合的第二LUT集合的存储器(例如，数据库存储器或者存储器204)。第一LUT集合存储第一二维图像的第一类像素和第二类像素的亮度值的柱状图计数。第二LUT集合存储用于第一二维图像的第一类像素的梯度独特性指标函数。

本公开内容的其它实施例可以提供其上存储机器代码和/或计算机程序的非暂态计算机可读介质和/或存储介质以及/或者非暂态机器可读介质和/或存储介质，所述机器代码和/或计算机程序具有至少一个可由机器和/或计算机执行的代码部分，由此使机器和/或计算机执行包括确定二维图像中的主题区域和背景区域的步骤。二维图像的帧的子集中的多个像素的亮度值被确定。该帧的子集中的这多个像素的纹理值被确定。二维图像的帧中的主题区域和背景区域基于多个像素的所确定亮度值和所确定纹理值被识别。

在实施例中，计算设备102/104还可操作为为了2D到3D的图像/视频转换而对图像中的人脸执行自动深度指定。在另一种实施例中，主题区域和背景区域的确定结果可以被外部***用来为了2D到3D的图像/视频转换而对人脸执行自动深度指定。此外，根据本公开内容实施例的主题区域和背景区域的确定可以在脸部识别、年龄/性别识别、数字头发造型以及人机接口应用(诸如手势识别和头部姿态估计)中有应用。

因而，本公开内容可以在硬件或者硬件和软件的组合中实现。本公开内容可以以在至少一个计算机***中的集中方式或者以其中不同元件跨几个互连的计算机***散布的分布方式实现。适于执行本文所描述方法的任何种类的计算机***或其它装置都是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机***，计算机程序在被加载和执行时可以控制计算机***，使得它执行本文所描述的方法。本公开内容可以在包括还执行其它功能的集成电路的一部分的硬件中实现。

本公开内容还可以嵌入在计算机程序产品中，该计算机程序产品包括使得能够实现本文所描述的方法的所有特征，并且当加载到计算机***中时能够执行这些方法。本上下文中的计算机程序意味着一组指令的任何表示(以任何语言、代码或符号的)，所述指令旨在使具有信息处理能力的***直接地或者在以下当中任何一个或两个之后执行特定的功能：a)转换成另一种语言、代码或符号；b)以不同的材料形式复制。

虽然本公开内容已经参考某些实施例进行了描述，但是本领域技术人员应当理解，在不背离本公开内容范围的情况下，可以进行各种改变并且等价物可以被替代。此外，在不背离其范围的情况下，可以进行许多修改以使特定的情形或材料适应本公开内容的示教。因此，目的在于本公开内容不限于所公开的特定实施例，而是本公开内容将包括属于权利要求范围的所有实施例。

Claims

1.一种用于图像处理的方法，所述方法包括：

在计算设备中：

确定二维图像的帧的子集中的多个像素的亮度值；

确定所述帧的所述子集中的所述多个像素的纹理值；及

基于所述多个像素的确定的所述亮度值和确定的所述纹理值识别所述二维图像的所述帧中的主题区域和背景区域，

其中所述二维图像的所述帧中的所述主题区域和所述背景区域的所述识别包括：基于所述多个像素的所述亮度值和所述纹理值分别与第一查找表集合和第二查找表集合的比较来将所述多个像素归为第一类和/或第二类。

2.如权利要求1所述的方法，包括分别在第一查找表集合和第二查找表集合中存储所述多个像素的所述亮度值和所述纹理值。

3.如权利要求1所述的方法，其中所述第一类包括头部类并且所述第二类包括背景类，其中所述头部类包括脸部类和头发类。

4.如权利要求1所述的方法，包括基于所述二维图像中所述主题区域和所述背景区域的所述识别来使所述二维图像转换成三维图像。

5.一种用于图像处理的方法，所述方法包括：

在计算设备中：

基于第一二维图像中的第一类像素和第二类像素的亮度生成第一值集合；及

基于所述第一二维图像中的所述第一类像素和所述第二类像素的纹理生成第二值集合，其中生成的所述第一值集合和生成的所述第二值集合被用来基于主题像素的亮度值和所述主题像素的纹理值分别与生成的所述第一值集合和生成的所述第二值集合的比较来将所述主题像素归为第一类像素和第二类像素之一。

6.如权利要求5所述的方法，其中所述主题像素属于所述第一二维图像。

7.如权利要求5所述的方法，其中所述主题像素属于与所述第一二维图像不同的第二二维图像。

8.如权利要求5所述的方法，其中所述第一值集合对应于存储所述第一二维图像中的所述第一类像素和所述第二类像素的亮度值的柱状图计数的第一查找表集合。

9.如权利要求5所述的方法，其中所述第二值集合对应于存储用于所述第一类像素的梯度独特性指标函数的第二查找表集合。

10.一种用于图像处理的方法，所述方法包括：

在计算设备中：

确定二维图像中的感兴趣区域，包括：

基于对应于所述二维图像的亮度的第一预定值集合确定所述二维图像中的第一类像素和第二类像素；及

基于对应于所述二维图像的纹理的第二预定值集合分析所述第一类像素和所述第二类像素的所述纹理；及

基于所述二维图像中的所述感兴趣区域的所述确定，将所述二维图像转换为三维图像。

11.如权利要求10所述的方法，还包括从二维输入图像生成所述二维图像，其中，与所述二维输入图像相比，所述二维图像具有较低的尺寸。

12.如权利要求11所述的方法，其中所述从所述二维输入图像生成所述二维图像包括对所述二维输入图像修剪、调整大小和/或下量化。

13.如权利要求10所述的方法，其中所述二维图像中的所述第一类像素和所述第二类像素的所述确定包括：

预测所述二维图像中对应于所述第一类像素和所述第二类像素的第一区域和第二区域；及

基于所述第一类像素和第二类像素的亮度以及所述第一预定值集合来计算类条件概率函数，其中所述类条件概率函数是利用贝叶斯法则计算的。

14.如权利要求13所述的方法，其中预测的所述第一区域和预测的所述第二区域分别包括头部区域和背景区域。

15.如权利要求10所述的方法，其中所述第一预定值集合对应于第一查找表集合，用于存储所述二维图像和至少一个之前的二维图像当中的一个或多个的所述第一类像素和所述第二类像素的亮度值的柱状图计数。

16.如权利要求10所述的方法，其中所述纹理的所述分析包括：

为所述第一类像素和所述第二类像素计算梯度独特性指标函数；

基于计算出的所述梯度独特性指标函数和所述第二预定值集合来确定与所述第二类像素相比而言的所述第一类像素的唯一性。

17.如权利要求10所述的方法，其中所述第二预定值集合对应于第二查找表集合，用于存储用于所述二维图像和至少一个之前的二维图像中的一个或多个的所述第一类像素的梯度独特性指标函数。

18.如权利要求10所述的方法，其中所述第一类包括头部类并且所述第二类包括背景类，其中所述头部类包括脸部类和头发类。

19.如权利要求10所述的方法，其中确定的所述感兴趣区域包括头发区域和/或头部区域。

20.如权利要求10所述的方法，其中确定的所述感兴趣区域表示为布尔类型的图像。

21.如权利要求10所述的方法，还包括：

对确定的所述感兴趣区域进行平滑；

除去平滑后的所述感兴趣区域周围的离群数据；

检测所述感兴趣区域的外部轮廓，以生成感兴趣区域的掩模图像；及

使所述感兴趣区域的掩模图像恢复到二维输入图像的原始规模。

22.一种用于图像处理的***，所述***包括：

在计算设备中的一个或多个处理器，能够操作为：

确定二维图像的帧的子集中的多个像素的亮度值；

基于所述多个像素的独特梯度确定所述帧的所述子集中的所述多个像素的纹理值；及

其中所述一个或多个处理器能够操作为：通过基于所述多个像素的所述亮度值和所述纹理值分别与第一查找表集合和第二查找表集合的比较将所述多个像素归为第一类和/或第二类，来识别所述二维图像的所述帧中的所述主题区域和所述背景区域。

23.如权利要求22所述的***，还包括存储器，能够操作为存储：

对应于确定的所述亮度值的第一查找表集合；及

对应于确定的所述纹理值的第二查找表集合。

24.如权利要求22所述的***，其中所述第一类包括头部类并且所述第二类包括背景类，其中所述头部类包括脸部类和头发类。

25.如权利要求22所述的***，其中所述一个或多个处理器能够操作为基于所述二维图像中的所述主题区域和所述背景区域的所述识别，来将所述二维图像转换成三维图像。

26.一种其上存储有计算机程序的非暂态计算机可读存储介质，其中所述计算机程序具有用于图像处理的至少一个代码部分，所述至少一个代码部分能够被计算机执行，以使所述计算机执行包括以下的步骤：

确定二维图像的帧的子集中的多个像素的亮度值；

确定所述帧的所述子集中的所述多个像素的纹理值；及

基于所述多个像素的确定的所述亮度值和确定的所述纹理值来识别所述二维图像的所述帧中的主题区域和背景区域，