CN105531998B

CN105531998B - 用于对象检测和分割的方法、装置及计算机程序产品

Info

Publication number: CN105531998B
Application number: CN201480045887.4A
Authority: CN
Inventors: S·尤基尔; V·慕尼恩德; K·A·戈文达拉奥
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2013-08-19
Filing date: 2014-07-01
Publication date: 2017-07-07
Anticipated expiration: 2034-07-01
Also published as: WO2015025073A1; JP2016535353A; JP6154075B2; EP3036901A1; EP3036901B1; KR20160045098A; US20150078669A1; KR101784639B1; CN105531998A; EP3036901A4; US9443130B2

Abstract

在示例实施例中，提供了一种方法、装置和计算机程序产品。方法包括促进对包括一个或多个对象的场景的第一图像和第二图像的接收。方法包括通过在第一图像中检测对象的对象点来在第一图像中检测对象。方法包括基于在第一图像中对对象的对象点的检测来在第二图像中检测对象的对象点。对应于第一图像的对象点的第二图像中的对象点的检测包括在第二图像中的与第一图像的对象点相对应的极线上搜索对象点。方法包括确定第一图像中的对象点与第二图像中的对象点之间的差异值。

Description

用于对象检测和分割的方法、装置及计算机程序产品

技术领域

各种实现总体上涉及用于图像中的对象检测和分割的方法、装置和计算机程序产品。

背景技术

当前诸如相机、移动电话和其他设备等各种电子设备用于捕获场景的两个或多个图像。这样的图像(例如立体图像)捕获可以用于对象检测和后处理应用。一些后处理应用包括所捕获的图像中的对象的差异/深度估计以及对象的分割。虽然电子设备能够支持检测立体图像中的对象的应用，然而这样的对象检测和后处理应用(诸如差异估计和对象分割等)涉及密集型计算。

发明内容

权利要求中给出了示例实施例的各个方面。

第一方面，提供了一种方法，包括：促进对包括一个或多个对象的场景的第一图像和第二图像的接收；检测第一图像中的一个或多个对象，其中检测一个或多个对象包括检测第一图像中的一个或多个对象的对象点(object point)；基于第一图像中的一个或多个对象的对象点的检测，检测第二图像中的一个或多个对象的对象点，其中检测第二图像中的与第一图像中的对象点相对应的对象点包括在第二图像中的与第一图像中的对象点相对应的极线(epipolar line)上搜索第二图像中的对象点；以及确定第一图像中的一个或多个对象的对象点与第二图像中的一个或多个对象的对象点之间的差异值，其中至少基于对象点在第一图像中的检测位置以及对象点在第二图像中的检测位置来确定第一图像中的对象点与第二图像中的对象点之间的差异值。

第二方面，提供了一种装置，包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，至少一个存储器和计算机程序代码被配置成与至少一个处理器一起使得装置至少执行：促进对包括一个或多个对象的场景的第一图像和第二图像的接收；在第一图像中检测一个或多个对象，其中检测一个或多个对象包括在第一图像中检测一个或多个对象的对象点；基于在第一图像中的一个或多个对象的对象点的检测来在第二图像中检测一个或多个对象的对象点，其中检测第二图像中的与第一图像中的对象点相对应的对象点包括在第二图像中的与第一图像中的对象点相对应的极线上搜索第二图像中的对象点；以及确定第一图像中的一个或多个对象的对象点与第二图像中的一个或多个对象的对象点之间的差异值，其中至少基于对象点在第一图像中的检测位置以及对象点在第二图像中的检测位置来确定第一图像中的对象点与第二图像中的对象点之间的差异值。

第三方面，提供了一种包括至少一个计算机可读存储介质的计算机程序产品，计算机可读存储介质包括指令集，指令集在由一个或多个处理器执行时使得装置至少执行：促进对包括一个或多个对象的场景的第一图像和第二图像的接收；在第一图像中检测一个或多个对象，其中检测一个或多个对象包括在第一图像中检测一个或多个对象的对象点；基于在第一图像中的一个或多个对象的对象点的检测来在第二图像中检测一个或多个对象的对象点，其中检测第二图像中的与第一图像中的对象点相对应的对象点包括在第二图像中的与第一图像中的对象点相对应的极线上搜索第二图像中的对象点；以及确定第一图像中的一个或多个对象的对象点与第二图像中的一个或多个对象的对象点之间的差异值，其中至少基于对象点在第一图像中的检测位置以及对象点在第二图像中的检测位置来确定第一图像中的对象点与第二图像中的对象点之间的差异值。

第四方面，提供了一种装置，包括：用于促进对包括一个或多个对象的场景的第一图像和第二图像的接收的装置；用于在第一图像中检测一个或多个对象的装置，其中检测一个或多个对象包括在第一图像中检测一个或多个对象的对象点；用于基于在第一图像中的一个或多个对象的对象点的检测来在第二图像中检测一个或多个对象的对象点的装置，其中检测第二图像中的与第一图像中的对象点相对应的对象点包括在第二图像中的与第一图像中的对象点相对应的极线上搜索第二图像中的对象点；以及用于确定第一图像中的一个或多个对象的对象点与第二图像中的一个或多个对象的对象点之间的差异值的装置，其中至少基于对象点在第一图像中的检测位置以及对象点在第二图像中的检测位置来确定第一图像中的对象点与第二图像中的对象点之间的差异值。

第五方面，提供了一种包括程序指令的计算机程序，程序指令在由装置执行时使得装置：促进对包括一个或多个对象的场景的第一图像和第二图像的接收；在第一图像中检测一个或多个对象，其中检测一个或多个对象包括在第一图像中检测一个或多个对象的对象点；基于在第一图像中的一个或多个对象的对象点的检测来在第二图像中检测一个或多个对象的对象点，其中检测第二图像中的与第一图像中的对象点相对应的对象点包括在第二图像中的与第一图像中的对象点相对应的极线上搜索第二图像中的对象点；以及确定第一图像中的一个或多个对象的对象点与第二图像中的一个或多个对象的对象点之间的差异值，其中至少基于对象点在第一图像中的检测位置以及对象点在第二图像中的检测位置来确定第一图像中的对象点与第二图像中的对象点之间的差异值。

附图说明

在附图中的图中，通过示例而非限制的方式来说明各种实施例，在附图中：

图1图示根据一个示例实施例的设备；

图2图示根据一个示例实施例的装置的示例框图；

图3图示根据一个示例实施例的一对图像中的对象的检测的示例表示；

图4图示根据一个示例实施例的来自一对图像中的图像的对象的分割的示例表示；

图5是描绘根据一个示例实施例的示例方法的流程图；以及

图6是描绘根据另一示例实施例的用于对象检测和分割的示例方法的流程图。

具体实施方式

通过参考附图中的图1到图6来理解示例实施例及其潜在效果。

图1图示根据示例实施例的设备100。然而，应当理解，所图示和下文中所描述的设备100仅为可以得益于各种实施例的、例示性的一种类型的设备，因此不应当认为其限制实施例的范围。正因如此，应当理解，以下结合设备100所描述的部件中的至少一些部件可以是可选的并且因此在示例实施例中可以包括与结合图1的示例实施例所描述的相比更多、更少或不同的部件。设备100可以是若干类型电子设备中的任何电子设备，例如便携式数字助理(PDA)、寻呼器、移动电视、游戏设备、蜂窝电话、所有类型的计算机(例如膝上型计算机、移动计算机或台式计算机)、相机、音频/视频播放器、收音机、全球定位***(GPS)设备、媒体播放器、移动数字助理、或者上述电子设备的任意组合以及其他类型的通信设备。

设备100可以包括与发送器104和接收器106可操作通信的天线102(或多个天线)。设备100还可以包括分别向发送器104提供信号以及从接收器106接收信号的装置(诸如控制器或者其他处理设备)。信号可以包括依照可适用的蜂窝***的空中接口标准的信令信息，和/或还可以包括对应于用户语音的数据、接收的数据和/或用户生成的数据。就这一点而言，设备100可以能够使用一个或多个空中接口标准、通信协议、调制类型和接入类型来操作。作为说明，设备100可以能够根据多个第一、第二、第三和/或***通信协议等中的任何通信协议来操作。例如，设备100可以能够根据第二代(2G)无线通信协议IS-136(时分多址(TDMA))、GSM(全球移动通信***)和IS-95(码分多址(CDMA))、或者第三代(3G)无线通信协议(诸如通用移动电信***(UMTS)、CDMA1000、宽带CDMA(WCDMA)和时分同步CDMA(TD-SCDMA))、3.9G无线通信协议(诸如演进通用陆地无线电接入网络(E-UTRAN))、***(4G)无线通信协议等来操作。作为替选(或者另外地)，设备100可以能够根据非蜂窝通信机制来操作。例如，诸如因特网、局域网、广域网等计算机网络；诸如网络、网络、电气与电子工程师协会(IEEE)802.11x网络等短距离无线通信网络；诸如公共交换电话网络(PSTN)等有线电信网络。

控制器108可以包括实现设备100的音频和逻辑功能等的电路***。例如，控制器108可以包括但不限于一个或多个数字信号处理器设备、一个或多个微处理器设备、带有数字信号处理器的一个或多个处理器、不带数字信号处理器的一个或多个处理器、一个或多个专用计算机芯片、一个或多个现场可编程门阵列(FPGA)、一个或多个控制器、一个或多个专用集成电路(ASIC)、一个或多个计算机、各种模数变换器、数模变换器和/或其他支持电路。设备100的控制和信号处理功能根据这些设备各自的能力在其之间分配。控制器108因此还可以包括先于调制和传输的卷积编码以及交织消息和数据的功能。控制器108另外可以包括内部语音编码器，并且可以包括内部数据调制解调器。另外，控制器108可以包括操作一个或多个软件程序的功能，一个或多个软件程序可以存储在存储器中。例如，控制器108可以能够操作连接程序，诸如传统的网页浏览器。连接程序因此可以使得设备100能够根据无线应用协议(WAP)、超文本传输协议(HTTP)等传送和接收网页内容，诸如基于位置的内容和/或其他网页内容。在示例实施例中，控制器108可以实现为多核处理器，诸如双核或四核处理器。然而，控制器108中可以包括任何数目的处理器。

设备100还可以包括用户接口，用户接口包括可以耦合到控制器108的输出设备(诸如振铃器110、耳机或扬声器112、麦克风114、显示器116)和用户输入接口。使得设备100能够接收数据的用户输入接口可以包括使得设备100能够接收数据的若干设备(诸如小键盘118、触摸屏、麦克风或其他输入设备)中的任何设备。在包括小键盘118的实施例中，小键盘118可以包括数字键(0-9)和相关键(#、*)以及用于操作设备100的其他硬键和软键。替选地或者另外地，小键盘118可以包括传统的QWERTY小键盘布置。小键盘118还可以包括与功能相关联的各种软键。另外，或者替选地，设备100可以包括诸如操纵杆或其他用户输入接口等的接口设备。设备100还包括为用于操作设备100的各种电路供电以及可选地提供机械振动作为可检测输出的电池120(诸如振动电池组等)。

在示例实施例中，设备100包括与控制器108通信的媒体捕获元件，诸如相机、视频和/或音频模块。媒体捕获元件可以是用于捕获图像、视频和/或音频用于存储、显示或传输的任何装置。在媒体捕获元件为相机模块122的示例实施例中，相机模块122可以包括能够从所捕获的图像形成数字图像文件的数字相机(或者多个相机的阵列)。这样，相机模块122包括所有硬件(诸如镜头或其他光学部件)以及用于从所捕获的图像产生数字图像文件的软件。替选地，相机模块122可以包括查看图像所需要的硬件，而设备100的存储器设备存储由控制器108以软件形式可执行的指令以从所捕获的图像创建数字图像文件。在示例实施例中，相机模块122还可以包括辅助控制器108处理图像数据的处理元件(诸如协处理器)以及用于压缩和/或解压缩图像数据的编码器和/或解码器。编码器和/或解码器可以根据JPEG标准格式或者另一类似格式来编码和/或解码。对于视频，编码器和/或解码器可以采用多个标准格式(诸如例如与H.261、H.262/MPEG-2、H.263、H.264、H.264/MPEG-4、MPEG-4相关联的标准等)中的任何格式。在一些情况下，相机模块122可以向显示器116提供现场图像数据。另外，在示例实施例中，显示器116可以位于设备100的一侧，并且相机模块122可以包括相对于显示器116被定位在设备100的相对侧的镜头，以使得相机模块122能够捕获设备100的一侧的图像并且向位于设备100的另一侧的用户呈现这样的图像的视图。实际上，相机模块也可以在任一侧，但是通常在显示器116的相对侧或者显示器116的相同侧(例如视频通话摄像头)。

设备100还可以包括用户识别模块(UIM)124。UIM 124可以是其中内置有处理器的存储器设备。UIM 124可以包括例如订户识别模块(SIM)、通用集成电路卡(UICC)、通用订户识别模块(USIM)、可移除用户识别模块(R-UIM)或者任何其他智能卡。UIM 124通常存储与移动订户相关的信息元素。除了UIM 124，设备100可以配备有存储器。例如，设备100可以包括易失性存储器126，诸如包括用于数据的暂时存储的缓存区的易失性随机存取存储器(RAM)。设备100还可以包括其他非易失性存储器128，其可以是嵌入式的或者可以是可移除的。非易失性存储器128可以另外地或者替选地包括电可擦除可编程只读存储器(EEPROM)、闪存存储器、硬盘驱动器等。存储器可以存储由设备100用于实现设备100的功能的任何数量的信息和数据。

图2图示根据示例实施例的用于检测和分割场景的图像中的对象的装置200。装置200例如可以在图1的设备100中采用。然而，应当注意，装置200也可以在各种其他移动和固定设备上采用，并且因此实施例不应当限于在诸如图1的设备100等设备上的应用。替选地，实施例可以在包括例如以上列出的这些的设备的组合上采用。因此，各种实施例可以整个在单个设备(例如设备100)上或者设备的组合中采用。另外，应当注意，下面描述的设备或元件可以不是强制的，因此其中一些可以在某些实施例中省略。

装置200包括至少一个处理器202和至少一个存储器204，或者其与至少一个处理器202和至少一个存储器204通信。至少一个存储器204的示例包括但不限于易失性和/或非易失性存储器。易失性存储器的一些示例包括但不限于随机存取存储器、动态随机存取存储器、静态随机存取存储器等。非易失性存储器的一些示例包括但不限于硬盘、磁带、光盘、可编程只读存储器、可擦除可编程只读存储器、电可擦除可编程只读存储器、闪存存储器等。存储器204可以被配置成存储用于使得装置200能够实施根据各种示例实施例的各种功能的信息、数据、应用、指令等。例如，存储器204可以被配置成缓冲包括媒体内容的输入数据以用于由处理器202来处理。另外地或者替选地，存储器204可以被配置成存储用于由处理器202来执行的指令。

处理器202的示例可以包括控制器108。处理器202可以以各种不同的方式来实现。处理器202可以实现为多核处理器、单核处理器或者多核处理器和单核处理器的组合。例如，处理器202可以实现为各种处理装置(诸如协处理器、微处理器、控制器、数字信号处理器(DSP)、具有或没有DSP的处理电路***、或者包括集成电路(诸如例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、微控制器单元(MCU)、硬件加速度、专用计算机芯片等)的各种其他处理设备)中的一个或多个。在示例实施例中，多核处理器可以被配置成执行存储器204中所存储的指令或者处理器202可访问的指令。替选地或者另外地，处理器202可以被配置成执行硬编码功能。这样，不论是用硬件或软件方法或者用其组合来配置，处理器202可以表示在相应地配置时能够执行根据各种实施例的操作的实体，例如以电路***物理地实现的实体。例如，如果处理器202实现为ASIC、FPGA等中的两个或多个，则处理器202可以具体地被配置成用于进行本文中所描述的操作的硬件。替选地，作为另一示例，如果处理器202实现为软件指令的执行器，则指令可以具体地将处理器202配置成在指令被执行时执行本文中所描述的算法和/或操作。然而，在一些情况下，处理器202可以是具体设备(例如被适配用于通过以执行本文中所描述的算法和/或操作的指令进一步配置处理器202来使用实施例的移动终端或网络设备)的处理器。处理器202可以包括被配置成支持处理器202的操作的时钟、算术逻辑单元(ALU)和逻辑门等。

用户接口206可以与处理器202通信。用户接口206的示例包括但不限于输入接口和/或输出用户接口。输入接口被配置成接收用户输入的指示。输出用户接口向用户提供听觉、视觉、机械的或其他输出和/或反馈。输入接口的示例可以包括但不限于键盘、鼠标、操纵杆、小键盘、触摸屏、软键等。输出接口的示例可以包括但不限于显示器(诸如发光二极管显示器、薄膜晶体管(TFT)显示器、液晶显示器、有源矩阵有机发光二极管(AMOLED)显示器)、麦克风、扬声器、振铃器、振动器等。在示例实施例中，用户接口206除了其他设备或元件之外还可以包括扬声器、麦克风、显示器、以及键盘、触摸屏等中的任一个或全部。就这一点而言，例如，处理器202可以包括被配置成控制用户接口206的一个或多个元件(诸如例如扬声器、振铃器、麦克风、显示器等)的至少一些功能的用户接口电路***。处理器202和/或包括处理器202的用户接口电路***可以被配置成通过存储在处理器202可访问的存储器(例如至少一个存储器204)上的计算机程序指令(例如软件和/或固件)来控制用户接口206的一个或多个元件的一个或多个功能。

在示例实施例中，装置200可以包括电子设备。电子设备的一些示例包括通信设备、具有通信能力的媒体捕获设备、计算设备等。电子设备的一些示例可以包括移动电话、个人数字助理(PDA)等。计算设备的一些示例可以包括膝上型计算机、个人计算机等。电子设备的一些示例可以包括相机。在示例实施例中，电子设备可以包括具有用户接口电路***和用户接口软件的用户接口，例如UI 206，其被配置成促进用户通过显示器的使用控制电子设备的至少一个功能并且还被配置成响应于用户输入。在示例实施例中，电子设备可以包括被配置成显示电子设备的用户接口的至少部分的显示电路***。显示器和显示电路***可以被配置成促进用户控制电子设备的至少一个功能。

在示例实施例中，电子设备可以实现为包括收发器。收发器可以是根据软件来操作或者用硬件或软件和硬件的组合来实现的任何设备或电路***。例如，在软件控制下操作的处理器202或者具体被配置成执行本文中所描述的操作的、实现为ASIC或FPGA的处理器202或者其组合从而将装置或电路***配置成执行收发器的功能。收发器可以被配置成接收媒体内容。媒体内容的示例可以包括音频内容、视频内容、数据及其组合。

在示例实施例中，电子设备可以实现为包括至少一个图像传感器，诸如图像传感器208和图像传感器210。虽然图2的示例表示中仅示出两个图像传感器208和210，然而电子设备可以包括多于两个图像传感器或者仅一个图像传感器。图像传感器208和210可以与处理器202和/或装置200的其他部件通信。图像传感器208和210可以与其他成像电路***和/或软件通信，并且被配置成捕获数字图像或者捕获视频或其他图形媒体。图像传感器208和210以及其他电路***组合可以是至少一个相机模块(诸如设备100的相机模块122)的示例。图像传感器208和210连同其他部件也可以被配置成从不同位置(或不同角度)捕获描绘场景的多个图像。在示例实施例中，图像传感器208和210可以伴随有用于捕获场景的两个视图(诸如立体视图)的相应镜头。在替选实施例中，可以有单个相机模块，其具有用于从位置(x)捕获场景的第一图像以及然后移动一段距离(例如10米)到另一位置(y)并且捕获场景的第二图像的图像传感器。

这些部件(202-210)可以经由集中式电路***212彼此通信以执行场景的多个图像中的对象的检测和分割。集中式电路***212可以是被配置成除其他之外还提供和支持装置200的部件(202-210)之间的通信的各种设备。在某些实施例中，集中式电路***212可以是中央印刷电路板(PCB)，诸如母板、主板、***板或逻辑板。集中式电路***212可以另外地或者替选地包括其他印刷电路组件(PCA)或通信通道介质。

在示例实施例中，处理器202与存储器204的内容并且可选地与本文中所描述的其他部件一起被配置成使得装置200促进第一图像和第二图像的接收。在实施例中，第一图像和第二图像包括包含一个或多个对象的场景的稍微不同的视图。在示例实施例中，场景的第一图像和第二图像被捕获使得在第一图像与第二图像之间在场景的至少一个对象中存在差异(disparity)。在示例实施例中，第一图像和第二图像为立体图像对。例如，立体相机捕获第一图像和第二图像，使得第一图像包括与表示相同场景的第二图像的轻微视差(parallax)。在一些其他示例实施例中，也可以从能够捕获场景的多个视图的相机(例如多基线相机、阵列相机、全光相机和光场相机)接收第一图像和第二图像。在一些示例实施例中，第一图像和第二图像可以预先录制或存储在装置200中，或者可以从装置200外部的源来接收。在这样的示例实施例中，使得装置200从外部存储介质(诸如DVD、光盘(CD)、闪存驱动、存储卡等)或者通过因特网、等从外部存储位置接收第一图像和第二图像。在示例实施例中，处理装置可以被配置成促进包括一个或多个对象的场景的第一图像和第二图像的接收，其中在第一图像与第二图像之间在场景的至少一个对象中存在差异。处理装置的示例可以包括处理器202，其可以是控制器和/或图像传感器208和210的示例。

在示例实施例中，由装置200接收的第一图像和第二图像可以是相对于彼此校正的立体图像对。在由装置200接收或访问的第一图像和第二图像不是校正的图像的实施例中，对这些图像进行校正用于进一步处理。在这样的示例实施例中，处理器202被配置成与存储器204的内容以及可选地与本文中所描述的其他部件一起引起装置200相对于第二图像校正第一图像使得第一图像中的行(例如水平线)对应于第二图像中的行(例如水平线)。例如，如果第一图像和第二图像是具有轻微不同视图的场景的图像捕获，则通过改变第一图像相对于第二图像的方位来校正第一图像和第二图像，使得穿过第一图像中的点的水平线对应于与第二图像中的与该点相关联的极线。在示例中，由于立体图像中的极线约束，一个图像中(例如第一图像中)的对象的每个像素点(也称为“对象点”)在另一个图像(例如第二图像)中具有对应的极线。例如，由于极线约束，对于第一图像的像素点，第二图像中的极线处可以存在对应的像素点，其中该极线为第一图像的像素点的对应极线。在示例实施例中，处理装置可以被配置成相对于第二图像校正第一图像使得第一图像中的水平线对应于第二图像中的水平线。处理装置的示例可以包括处理器202，其可以是控制器108的示例。

在示例实施例中，使得装置200在第一图像中检测一个或多个对象。比如，第一图像可以包含诸如蝴蝶等对象，并且通过装置200来检测蝴蝶的多个对象点。在示例中，装置200被配置成使用现有技术中已知的合适的对象检测技术来检测蝴蝶和蝴蝶的位置。在示例实施例中，处理装置可以被配置成在第一图像中检测一个或多个对象的对象点。处理装置的示例可以包括处理器202，其可以是控制器108的示例。在示例实施例中，以稀疏方式来检测任何对象的对象点，例如仅检测对象的很少的对象点。

在示例实施例中，处理器202被配置成与存储器204的内容并且可选地与本文中所描述的其他部件一起引起装置200基于第一图像中的一个或多个对象的对象点的检测在第二图像中检测一个或多个对象的对象点。比如，对于第一图像中所检测到的每个对象，在第二图像中检测对应的对象。在示例实施例中，检测对应于在第一图像中所检测到的对象的点(也称为“对象点”)的、第二图像中的对象的对应点包括在第二图像中的极线上搜索第二图像中的对象点。在示例中，第二图像中的极线为第一图像的对象点的对应极线。比如，对第一图像中的每个对象点，第二图像中可以存在极线；并且在第二图像中检测对应于第一图像中的对象点的对象点包括在第二图像中沿着对应的极线(对应于第一图像中的对象点)搜索对象点。在示例实施例中，处理装置可以被配置成基于第一图像中的一个或多个对象的对象点的检测来在第二图像中检测一个或多个对象的对象点。处理装置的示例可以包括处理器202，其可以是控制器108的示例。

在示例实施例中，处理器202可以被配置成与存储器204的内容以及可选地与本文中所描述的其他部件一起在第二图像中沿着对象点的对应极线确定第一图像的一个或多个对象的对象点的搜索范围。在示例中，搜索范围包括第二图像中的极线。其中极线对应于与第一图像中所检测到的对象相关联的对象点。在示例实施例中，一个或多个对象中的第一对象的对象点的搜索范围大于一个或多个对象中的第二对象的对象点的搜索范围。在示例中，具有最大尺寸(或者最接近捕获第一和第二图像的相机)的对象与最大的搜索区域相关联，并且具有比最大尺寸小的尺寸(或者远离相机)的对象的搜索范围相应减小。在示例实施例中，处理装置可以被配置成在第二图像中确定第一图像的一个或多个对象的对象点的搜索范围。处理装置的示例可以包括处理器202，其可以是控制器108的示例。

在示例实施例中，处理器202被配置成与存储器204的内容以及可选地与本文中所描述的其他部件一起引起装置200确定第一图像中的一个或多个对象的对象点与第二图像中的一个或多个对象的对象点之间的差异值。在某个示例中，对象可以在第一图像与第二图像之间具有单个差异。然而，在例如面部的对象中，面部的鼻尖可以与面部的耳朵具有不同的差异。在示例实施例中，至少基于第一图像中的对象点的检测位置和第二图像中的对象点的检测位置来确定第一图像与第二图像之间的对象点的差异值。例如，第一图像和第二图像中的对象点的位置的不同可以是第一图像与第二图像之间的对象点的差异。在示例实施例中，处理装置可以被配置成确定第一图像中的一个或多个对象的对象点与第二图像中的一个或多个对象的对象点之间的一个或多个差异值，其中至少基于第一图像中的对象点的检测位置和第二图像中的对象点的检测位置来确定第一图像与第二图像之间的对象点的差异值。处理装置的示例可以包括处理器202，其可以是控制器108的示例。

在示例实施例中，处理器202被配置成与存储器204的内容以及可选地与本文中所描述的其他部件一起引起装置200基于与对象的对象点相关联的至少一个差异值分割第一图像和第二图像中的至少一个图像中的一个或多个对象中的(或多个)对象。比如，可以基于与对象相关联的差异值以及包括但不限于图像切割方法等技术来将对象从在图像(第一图像或第二图像)中检测到的其他对象分割。在示例实施例中，对于对象从图像(第一图像或第二图像)的分割，装置200被使得向对象的对象点指配对象标签(object label)并且向图像的其余像素点指配非对象标签(non-object label)，并且装置200还被使得使用诸如图像切分方法等合适的技术分割对应于所指配的对象标签的部分。比如，处理器202与存储器204的内容以及可选地与本文中所描述的其他部件一起引起装置200基于第一图像与第二图像之间的对象成本函数(object cost function)向与对象相关联的对象点指配对象标签。在示例实施例中，对象成本函数为第一图像与第二图像之间的一个或多个图像参数的一致性程度。图像参数的示例包括但不限于第一图像和第二图像的颜色和纹理。在示例实施例中，针对与差异值的第一范围相关联的对象的对象点，计算对象成本函数，向用于对象成本函数为最小的差异值指配对象标签用于对象(对象的对象点)。在示例实施例中，装置200被使得基于第一图像与第二图像之间的非对象成本函数向图像的其余像素点指配非对象标签。例如，向除了与对象相关联的对象点之外的图像中的其他点指配非对象标签。在示例中，在第一图像和第二图像的像素点之间计算非对象成本函数，用于差异值的第二范围(例如，不同于用于计算对象成本的差异值的第一范围)。在示例中，从非对象成本函数中选择最小非对象成本函数，并且与最小非对象成本函数相关联的差异值被指配作为非对象标签用于图像的其余像素点。在示例实施例中，装置200被使得基于向对象标签和非对象标签应用图形切割算法来分割对象。在示例实施例中，处理装置可以被配置成基于与对象的对象点相关联的至少一个差异值来分割第一图像和第二图像中的至少一个图像中的一个或多个对象中的该对象。处理装置的示例可以包括处理器202，其可以是控制器108的示例。

参考图3和4进一步描述对象检测和分割的一些示例实施例，这些图3和4仅表示一个或多个示例实施例，而不应当被视为限制各个示例实施例的范围。

图3图示根据示例实施例的立体图像对中的对象的检测的示例表示。在示例实施例中，立体相机可以用于捕获立体图像对，诸如场景的第一图像310和第二图像350。场景的示例可以包括对象的任何可见的设置或布置使得场景的图像能够由媒体捕获模块(诸如相机模块122或传感器(诸如传感器208和210))捕获，其中第一图像310在图像310和图像350中捕获的场景的对象的位置方面稍微不同于第二图像350。在示例实施例中，第一图像310和第二图像350还可以由运动相机在两个不同的时刻来捕获使得第一图像310对应于场景的左眼图像并且第二图像350对应于场景的右眼图像。例如，捕获表示场景的第一图像310，然后相机移动一段预定距离和/或角度以捕获场景的第二图像350。在其他示例中，图像310和350可以由能够捕获场景的多个视图的相机(诸如多基线相机、阵列相机、光场相机和全光相机等)来捕获。在图3中，第一图像310和第二图像350示出包括对象(诸如男人312、女人314、孩子316以及由云311和树313描绘的背景)的场景的不同视图。应当注意，在立体图像对310和350之间对象312、314、316和背景311、313可以存在差异。

在示例中，第一图像310中的每个对象点(或像素点)可以在第二图像350中具有位于对应极线处的对应对象点。在示例实施例中，第一图像310中的位置(x，y)处的像素点可以在图像350中的极线上具有对应于该像素点的对应像素点。例如，像素点318(描绘女人314的鼻尖的像素点)可以在图像350中的像素点318的极线352处具有对应像素点。类似地，图像310中的每个像素点可以在图像350中具有对应的极线。在示例实施例中，图像310和图像350被校正以分别生成图像320和360。在实施例中，校正图像310和350包括使图像310和350对齐以生成图像320和360，使得图形320的水平线(像素行)对应于图形360的水平线(像素行)。应当注意，图像对310和350的校正过程(给定相机参数，通过直接的或者较弱的校准)将原始图像对310和350的平面变换成图像对320和360中的不同平面使得所得到的极线沿着新的扫描线平行并且相等。如图3所示，通过旋转/调整图像310和/350来校正图像310和350使得图像320的像素行对应于图像360的像素行。

在示例实施例中，装置200被使得在图像320中检测一个或多个对象。在示例中，图像320可以具有至少一个对象，比如，描绘场景的图像320除其他之外还包括例如男人312、女人314、孩子316以及包含云311和树313的背景等的对象。在示例实施例中，可以以顺序方式水平(沿着每个像素行)扫描图像320，以在图像320中检测对象312、314和316的位置和/或颜色分布。应当注意，可以使用合适的对象(或面部)检测技术(诸如基于肤色的方法、提升(boosting)方法、支持向量机(SVM)方法、高斯混合方法、最大似然方法和神经网络方法)来在图像320中检测对象。如图3所示，所检测的面部322、324和326分别对应于男人312、女人314和孩子316的面部。

在示例实施例中，基于一个或多个对象(诸如第一图像320中的对象312、314和316)的对象点的检测来在第二图像360中检测一个或多个对象的对象点。比如，对于在第一图像320中检测到的每个对象，使用图像230中的对象的位置在第二图像360中检测对应对象。在示例实施例中，对于在第一图像312中检测到的男人312(对象)的面部322，在针对面部322确定的搜索范围内在图像360中搜索和检测类似对象。在示例中，特征可以包括使对应于在第一图像320中检测到的男人312(对象)的一些对象点或所有对象点与第二图像360中的男人312匹配。匹配特征的示例可以包括匹配表示图像320中的男人312的维度、颜色、纹理和像素边缘。各种示例实施例排除搜索整个图像360以搜索已经在图像320中检测到的任何对象；取而代之，在基于极线约束确定的搜索范围内执行搜索。例如，对于图像320中的每个检测到的面部，按照与图像360中相同的比例来搜索面部。比如，在示例实施例中，可以在图像360中从与图像320中面部的对象点相同的位置开始搜索面部的对象点，并且沿着相同的扫描线(与对象点对应的极线)扫描图像360。因此，通过基于图像320中(并且从而基于图像360中)面部的位置的知识以及极线约束来定位搜索范围极大地降低了图像360中的面部检测的复杂性。

在示例实施例中，在图像360中沿着图像320的对应对象点的极线确定图像360中的对象312、314和316的搜索范围。在示例中，每个像素点(诸如图像320中的像素点318)与第二图像360中的极线(参见362)相关联，并且因此在图像360中在极线362上搜索像素点318。类似地，图像320的其他像素点可以沿着其对应极线搜索。例如，对应于图像320的孩子316的面部326的像素点可以在第二图像360中的像素点的对应极线处搜索，并且搜索范围被约束于沿着极线。如图3所示，确定可以包括对应于面部326的像素点的多个极线的搜索范围376，并且搜索区域376可以定义在图像360中检测面部326的很可能的区域。类似地，在图像360中确定搜索区域372和374中的多个极线用于在图像360中检测面部322和324。

在一些示例实施例中，通过基于在图像320中检测到的对象的尺寸信息(或者距捕获图像的相机的距离)来优化图像360中的搜索范围，可以进一步减少沿着图像360中的极线的搜索中所涉及的计算。在示例实施例中，装置200还被使得基于一个或多个对象的对应尺寸对在图像320中检测到的一个或多个对象排序。比如，将与图像320中的所检测到的每个对象322、324和326相关联的尺寸分别确定为h1、h2和h3。在示例实施例中，基于其尺寸按照降序顺序来排序对象。例如，如果尺寸为h1>h2>h3，则处理器202被配置成按照诸如322、324和326的顺序来对面部排序。在示例实施例中，可以针对特定立体相机设置根据基线、焦距和面部尺寸来校准最大面部的搜索范围。

在示例实施例中，第二图像360中的搜索范围随着在图像320中检测到的对象的尺寸的减小而减小。替选地或者另外地，与远离相机的对象相比，接近相机的对象的搜索范围可以更大。在示例实施例中，接近相机的对象可以与远离相机的其他对象相比具有图像320与360之间的更大的差异。在示例实施例中，基于对象的尺寸和位置，可以确定搜索范围。比如，由于面部322的尺寸大于面部324，并且面部324大于面部326，所以按照差异的降序顺序的对象可以是对象322、324和326。在示例实施例中，基于差异的降序顺序，搜索范围372大于搜索范围374，并且搜索范围374大于搜索范围376。在不失一般性的情况下，对于最大面部(例如面部322)，差异以及对应的搜索范围372最大。可以根据基线、焦距和面部322的尺寸对于特定立体相机设置而校准搜索范围372。另外，可以基于搜索范围372来估计搜索范围374，例如稍微小于搜索范围372。进一步地，可以基于搜索范围374来估计搜索范围376，例如稍微小于搜索范围374。

在示例实施例中，确定与一个或多个对象相关联的一个或多个差异值。在示例实施例中，基于图像320中对象的位置以及图像360中对象的位置来确定图像320与图像360之间的该对象的差异值。例如，如果男人312在图像320中在位置382处(以表示图像360中的男人312的虚拟位置的虚线382示出)并且在图像360中在位置384处，则与男人312相关联的差异值386被确定为位置382与384之间的距离。图3还示出，确定孩子316的差异392为分别与孩子316在图像320和图像360中的位置相关联的位置388(用表示图像320中的孩子316的虚拟位置的虚线示出)与位置390之间的差别。应当理解，由于通过使用极线约束(通过沿着极线确定搜索范围而非扫描整个图像360)显著减小了检测图像360中的对象的复杂性，并且因此也减小了图像320与360之间的对象的差异计算的复杂性。在一些示例中，对象对于各种对象点可以具有相同的差异，而在一些示例中，对象的各种对象点(或区域)可以具有图像320和360之间的不同差异。

图4是根据示例实施例的从立体图像对(例如图像320和360)中的图像的分割对象的示例表示。在示例实施例中，至少基于与对象的对象点相关联的差异值来分割图像320和图像360中的至少一个图像中的一个或多个对象。比如，可以基于与孩子316的面部的对象点(或像素点)相关联的差异值(例如d1、d2、d3和d4)将图像360中的孩子316的面部从图像360分割。在示例实施例中，为了分割对象(例如孩子316)，装置200被使得向孩子316的面部指配对象标签(例如向孩子316的面部的对象点指配相同的对象标签)并且向图像360的其余部分指配非对象标签。在示例实施例中，装置200还被使得使用诸如图形切割方法等合适的技术分割对应于所指配的对象标签的图像360的部分(例如孩子316)。

在示例实施例中，装置200被使得确定对应于对象的对象点的第一差异和第二差异。在不失一般性的情况下，在示例实施例中，第一差异可以是对象对于对象中的对象点可以具有的最小差异(d_min)，第二差异可以是对象对于对象中的对象点可以具有的最大差异(d_max)。在示例中，装置200确定与孩子316的面部相关联的最大差异d_max为d3并且与孩子的面部相关联的最小差异d_min为d2。在本示例中，最大差异d3和最小差异d2确定图像320与图像360之间与孩子316的面部相关联的差异的范围。

在示例实施例中，基于针对图像(诸如图像320和图像360)之间的不同差异值所计算的对象成本函数，向与对象(例如孩子316的面部)相关联的对象点指配对象标签(L1)。比如，装置200被使得针对图像320和图像360之间的、位于在第一差异(d_min)与第二差异(d_max)之间的差异范围内的不同差异值计算对象成本函数。装置200被使得从差异范围中选择如下差异作为对象标签，针对该差异的对象成本函数在图像320和360之间最低(在对象成本函数当中)。在示例实施例中，计算与不同差异值C(x，y，d)相关联的对象成本函数，其中d在d_min与d_max之间变化。在示例实施例中，装置200还被使得选择针对各种差异值计算的对象成本函数中的最低的对象成本函数，例如对象成本函数C(x，y，L1)＝minC(x，y，d)，其中d在d_min与d_max之间变化。在本示例中，由于对差异L1(对于d＝L1)，图像320与360之间的对象成本函数最低，选择差异L1作为对象(诸如孩子316的面部)的对象标签。

在示例实施例中，装置200被使得基于图像320与360之间的非对象成本函数向非对象点(例如，除了对象(例如孩子316的面部)之外的其余像素点)指配非对象标签(L2)。比如，装置200被使得针对位于第一差异和第二差异的外部的差异范围内的不同差异值计算非对象成本函数。例如，可以针对图像320与图像360之间的差异范围(0，d_min-Δ)或(d_max+Δ，M)计算非对象成本函数，其中M为场景中的最大差异，Δ为差异的单位/步长。装置200被使得从差异范围((0，d_min-Δ)与(d_max+Δ，M))中选择如下差异值作为非对象标签，该差异值的非对象成本函数为图像320与360之间最低的。在示例实施例中，计算与不同差异值C(x，y，d)相关联的非对象成本函数，其中d在范围(0，d_min-Δ)与(d_max+Δ，M)中变化。在示例实施例中，装置200被使得选择针对不同差异值计算的非对象成本函数中的最低非对象成本函数，例如非对象成本函数C(x，y，L2)＝min C(x，y，d)，其中d在范围(0，d_min-Δ)与(d_max+Δ，M)中变化。在本示例中，由于对差异L2(对于d＝L2)，图像320与360之间的非对象成本函数最低，选择差异L2作为图像320或360中除了孩子316的面部之外的图像区域的非对象标签。

在示例实施例中，对于差异值，基于匹配图像320和360以确定图像320与360之间的一个或多个图像参数的一致性程度，计算对象成本函数和非对象成本函数，其中图像320和360中的一个图像的像素以差异值位移。例如，对于差异值“d”，图像360的每个像素以差异“d”在一方向上位移，并且匹配位移后的图像360与图像320以确定位移后的图像320与图像360之间的参数(例如颜色)的一致性程度。在示例实施例中，基于针对各种差异值的、所确定的一致性程度来计算对象成本函数或非对象成本函数。在示例实现中，对象成本函数和/或非对象成本函数随着位移后的图像360与图像320之间的一致性程度的增加而减小。在示例实施例中，分别选择对于对象成本函数和非对象成本函数最低的差异值(分别为L1、L2)作为对象标签(例如差异L1)和非对象标签(例如差异L2)。

在示例实施例中，基于根据对象标签(L1)和非对象标签(L2)应用图形切割算法来从图像(诸如图像360)分割对象。比如，在示例中，被指配对象标签(L1)的对象点表示孩子316的面部，被指配非对象标签(L2)的对象点表示场景中除了孩子316的面部之外的区域。在示例实施例中，孩子316的面部可以视为前景，除了孩子316的面部之外的区域可以视为背景。在示例实施例中，可以使用图形切割算法从由标签L2表示的背景分割表示孩子316的面部的区域(例如被指配标签L1)。如图4所示，从图像400(图像320或360的示例)中的背景404分割孩子316的面部(用402示出)。

图5是描绘根据示例实施例的用于检测对象的示例方法500的流程图。在示例实施例中，方法500包括在场景的图像中检测对象以及在图像中确定对象的差异，其中场景的图像被捕获使得在图像之间在场景的至少一个对象中存在差异。流程图中所描绘的方法500可以由例如图2的装置200来执行。

在方框505，方法500包括促进对场景的图像(诸如第一图像和第二图像)的接收。如参考图2所描述的，可以从包括两个传感器和相关部件的媒体捕获设备或者从外部源(诸如DVD、光盘(CD)、闪存驱动、存储卡)接收第一图像(I1)和第二图像(I2)，或者可以通过因特网、等从外部存储位置接收第一图像(I1)和第二图像(I2)。在示例实施例中，第一图像(I1)和第二图像(I2)包括场景的两个不同视图。图像I1和I2的示例分别可以是参考图3示出和解释的图像310和350。

在方框510，方法500包括在第一图像I1中检测一个或多个对象。比如，第一图像I1可以包括三个对象A、B、C，并且扫描第一图像I1以确定对象A、B、C及其各自在第一图像I1中的位置。如参考图3所解释的，通过合适的对象检测技术来扫描第一图像I1以检测对象A、B和C的对象点。在方框515，方法500包括基于第一图像(I1)中的一个或多个对象的对象点的检测在第二图像(I2)中检测一个或多个对象的对象点。比如，对于在图像I1中检测到的每个对象，使用极线约束在图像I2中检测对应对象。在示例实施例中，检测在图像I2中的与图像I1中的对象点相对应的对象点包括在图像I2中的极线上搜索图像I2中的对象点，其中图像I2中的极线为图像I1的对象点的对应极线。比如，图像I1中的每个对象点对应于图形I2中的一极线。在示例中，为了在图像I2中搜索图像I1的对应对象点，搜索被限制于沿着与图形I1的对象点相对应的图像I2中的极线，而不是搜索整个图像I2。如参考图2所描述的，通过沿着与图像I1的对象点相对应的图像I2中的极线执行水平扫描来在图像I2中检测与对象相关联的对象点。在示例实施例中，确定对应于在图像I2中检测到的各种对象的对象点的位置。

在方框520，方法500包括确定图像I1中的对象的对象点与图像I2中的对象的对象点之间的差异值。比如，对象C可以具有对应于对象C的一个或多个区域(也称为“对象点”)的、图像I1与图像I2之间的一个或多个差异值。例如，对象C包括区域(R1、R2、R3和R4)，区域(R1、R2、R3和R4)可以在图像I1与I2之间具有不同的差异。在示例中，面部的不同区域可以具有图像I1与I2之间不同的差异值，例如鼻尖可以具有比面部的耳朵更大的差异。然而，在各种情况下，对象可以在图像I1与I2之间对于其对象点具有均匀的差异。

图6是描绘根据另一示例实施例的示例方法600的流程图。在流程图中描绘的方法600可以由例如图2的装置200来执行。在各种示例中，方法600包括提供计算上有效的场景的图像中的对象检测、图像中的对象的差异值(和深度)计算以及图像中的对象的分割。方法600的示例实施例借助于立体图像来解释，但是应当注意，在方法600中描述的各种操作可以在通过多基线相机、阵列相机、全光相机和光场相机所捕获的场景的任何两个或多个图像处执行。

在方框605，方法600包括促进对立体图像对(诸如第一图像和第二图像)的接收。第一图像(I1)和第二图像(I2)可以由立体相机来捕获。图像I1和I2也可以用多基线相机、阵列相机、全光相机或光场相机来捕获，这些图像I1和I2的示例分别可以是如图3所示的图像310和350。

在某些情况下，由装置200接收或者由传感器捕获的图像I1和I2可以不是关于彼此校正之后的图像。在这样的情况下，方法600(在方框610)包括校正图像I1和图像I2使得图形I1和I2中的行彼此对应。就此程度而言，如果在装置200处接收的图像I1和I2为经校正的图像，则不需要校正操作(在方框610)。

在方框615，方法600包括通过在图像I1中检测一个或多个对象的对象点来在图像I1中检测一个或多个对象。比如，图像I1包括三个对象A、B、C，并且扫描图像I1以确定对象A、B和C的对象点及其各自在图像I1中的位置。在方框620，方法600包括基于图像I1中的一个或多个对象的对象点的检测在图像I2中检测一个或多个对象的对象点。应当注意，并非在图像I2中的每个像素点上搜索对象点；取而代之，在图像I2中的与对象点对应的极线上的有限搜索范围中搜索对象点，其中基于图像I1中已经检测到的对象A、B和C的对象点的位置来确定搜索范围。可以通过由方框625和630执行的操作来执行方框620的操作。

在方框625，方法600包括沿着对象点在图像I2中的对应极线在图像I2中确定图像I1的一个或多个对象的对象点的搜索范围。在示例实施例中，可以基于来自相机的对象的尺寸和距离来确定对象的对象点的搜索范围。比如，在图像I1中检测到的对象A、B和C分别具有尺寸H1、H2和H3。在示例中，确定与尺寸H1相关联的对象A最大，之后是与尺寸H3相关联的对象C，与尺寸H2相关联的对象B最小。在本示例中，第二图像I2中的搜索范围随着图像I1中检测到的对象的尺寸的减小而减小。比如，如果与对象A相关联的搜索范围为S1，则与尺寸H3相关联的对象C的搜索范围小于搜索范围S1(C的搜索范围为S2，故S2<S1)，并且与尺寸H2相关联的对象B的搜索范围最小。

在630，方法600包括在针对对象点确定的搜索区域中在第二图像I2中搜索对象点。例如，沿着图像I2中的与图像I1的对象A的对象点相对应的极线确定用于图像I1的对象A的对象点的、图像I2中的搜索范围；并且在所确定的搜索范围中搜索对象A的对象点。

在方框635，方法600包括确定图像I1中的一个或多个对象的对象点与图像I2中的一个或多个对象的对象点之间的差异值。比如，对象C可以具有对应于对象C的一个或多个区域(也称为“对象点”)的、图像I1与I2之间的一个或多个差异值。例如，对象C包括区域(R1、R2、R3和R4)，并且区域(R1、R2、R3和R4)可以在图像I1与I2之间具有不同的差异。在示例实施例中，对象可以具有相同的差异。在示例实施例中，基于对象在图像I1中的位置与对象在图像I2中的位置来确定图像I1与图像I2之间的对象的差异值。

在方框640，方法600包括基于与对象相关联的图像I1与I2之间的差异值，分割图像I1和图像I2中的至少一个图像中的一个或多个对象中的对象。比如，可以基于与对象C相关联的图像I1与I2之间的差异值将对象C从图像I2分割。在示例实施例中，方框640的操作可以由方框645-670来执行。

在方框645，方法600包括确定对应于对象C的对象点的第一差异(例如d_min)和第二差异(d_max)。比如，对象C跨越与不同区域(诸如(R1、R2、R3和R4))相关联的图像I1与I2之间的不同差异值。在实施例中，计算与对象C相关联的第一差异(d_min)和第二差异(d_max)，确定由对象C的对象点跨越的差异值的范围(d_min，d_max)。在示例实施例中，可以校准d_min、d_max的值作为特定的立体相机设置的函数(诸如基线、焦距、面部尺寸和对象的差异)。

在方框650，方法600包括针对位于第一差异值与第二差异值之间(例如在范围(d_min，d_max)中)的多个差异值计算图像I1与I2之间的对象成本函数。在方框655，方法600包括基于第一图像I1与第二图像I2之间的对象成本函数为与对象C相关联的对象点指配对象标签(L1)。在方框655，从范围(d_min，d_max)中选择如下差异值作为对象标签，该差异值的对象成本函数在图像I1与I2之间最低。参考图4描述了对象成本函数的计算的一些示例实施例。

在方框660，方法600包括针对位于第一差异值与第二差异值外部的范围中(例如在范围(0，d_min-Δ)或(d_max+Δ，M)中)的一个或多个差异值计算图像I1与I2之间的非对象成本函数，其中M为场景中的最大差异，Δ为差异的单位/步长。在方框665，方法600包括基于图像I1与I2之间的非对象成本函数向为非对象点(例如除了对象C之外的其余像素点)指配非对象标签(L2)。在示例实施例中，在不同差异值(从(0，d_min-Δ)和(d_max+Δ，M)中)中选择如下差异值作为非对象标签，该差异值的非对象成本函数在图像I1与I2之间最低。

在方框670，方法600包括基于对象标签和非对象标签分割对象。在示例实施例中，方法600包括基于向对象标签L1和非对象标签L2上应用图形切割算法来分割对象。比如，使用图形切割算法将被指配对象标签L1的对象点从背景(被指配非对象标签L2)分割。因此，可以从图像I1或I2分割对象C。

应当注意，为了便于对图5和6的流程图的讨论，本文中将某些操作描述为按照某个顺序执行的连续的不同步骤。这样的实现仅是示例并且不限制范围。某些操作可以组在一起并且在单个操作中执行，并且某些操作可以按照不同于本文中给出的示例中所采用的顺序来执行。另外，方法500和600的某些操作按照自动方式来执行。这些操作基本上不涉及与用户的交互。方法500和600的其他操作可以按照手动方式或者半自动方式来执行。这些操作涉及经由一个或多个用户接口呈现与用户的交互。

这些流程图中描绘的方法可以例如由图2的装置200来执行。流程图的操作以及流程图中的操作的组合可以由各种装置来执行，诸如硬件、固件、处理器、电路***和/或与包括一个或多个计算机程序指令的软件的执行相关联的其他设备。例如，各种实施例中所描述的过程中的一个或多个过程可以由计算机程序指令来实现。在示例实施例中，采用这些过程的各种实施例中所描述的计算机程序指令可以由装置的至少一个存储器设备来存储并且由装置中的至少一个处理器来执行。任何这样的计算机程序指令可以被加载到计算机或其他可编程装置(例如硬件)上以产生机器，使得所得到的计算机或其他可编程装置实施用于实现流程图中所规定的操作的装置。这些计算机程序指令也可以存储在计算机可读存储介质(与诸如载波或电磁信号等传输介质相对)中，其可以指示计算机或其他可编程装置按照特定方式工作，使得计算机可读存储器中存储的指令产生其执行实现流程图中所规定的操作的制造品。计算机程序指令也可以被加载到计算机或其他可编程装置上以引起在计算机或其他可编程装置上执行一系列操作从而产生计算机实现的过程，使得在计算机或其他可编程装置上执行的指令提供操作用于实现流程图中的操作。在装置200的帮助下描述方法的操作。然而，可以使用任何其他装置来描述和/或实践方法的操作。

在不以任何方式限制随附呈现的权利要求的范围、解释、或应用的情况下，本文中所公开的示例实施例中的一个或多个的技术效果是在场景的图像(例如立体图像)中检测对象，其中图像中的对象之间存在差异。各种实施例提供用于减小立体图像中的对象检测的复杂性的技术。比如，仅在立体图像中的一个图像中检测对象，而非完全在另一个图像中扫描以实现对象的检测，取而代之，在基于对象的极线约束确定的搜索范围内执行搜索。由于另一个图像中对象的检测是计算上高效的，所以也高效地确定与立体图像中的对象相关联的差异。另外，各种实施例提供使用图形切割、基于与对象相关联的差异值从图像分割对象，其为快速和准确的分割过程。

以上描述的额各种实施例可以用软件、硬件、应用逻辑或者软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在至少一个存储器、至少一个处理器、装置、计算机程序产品上。在示例实施例中，应用逻辑、软件或指令集被维护在各种传统的计算机可读介质中的任何一个上。在本文档的上下文中，“计算机可读介质”可以是能够包含、存储、通信、传播或传输用于由指令执行***、装置或设备(诸如计算机)来执行或者与其联系的指令的任何介质或装置，图1和/或2中描述和描绘装置作为一个示例。计算机可读介质可以包括可以是能够包含或存储用于由指令执行***、装置或设备(诸如计算机)来使用或与其结合使用的指令的任何介质或装置的计算机可读存储介质。

根据需要，本文中所讨论的不同功能可以按照不同顺序和/或彼此同时执行。另外，根据需要，以上描述的功能中的一个或多个可以是可选的或者可以省略。

虽然在从属权利要求中给出实施例的各个方面，然而其他方面包括来自所描述的实施例和/或独立权利要求的特征与从属权利要求的特征的其他组合，并且不仅包括权利要求中明确给出的组合。

本文中还应当注意，虽然以上描述本发明的示例实施例，然而不应当在限制意义上来理解这些描述。相反，可以在不偏离如所附权利要求中定义的本公开的范围的情况下做出若干变化和修改。

Claims

1.一种用于处理图像的方法，该方法包括：

促进对包括一个或多个对象的场景的第一图像和第二图像的接收；

在所述第一图像中检测所述一个或多个对象，其中检测所述一个或多个对象包括：在所述第一图像中检测所述一个或多个对象的对象点；

基于在所述第一图像中对所述一个或多个对象的所述对象点的检测来在所述第二图像中检测所述一个或多个对象的所述对象点，其中检测所述第二图像中的与所述第一图像中的对象点相对应的对象点包括：在所述第二图像中的与所述第一图像中的所述对象点相对应的极线上搜索所述第二图像中的所述对象点；

确定所述第一图像中的所述一个或多个对象的所述对象点与所述第二图像中的所述一个或多个对象的所述对象点之间的差异值，其中至少基于所述对象点在所述第一图像中的检测位置以及所述对象点在所述第二图像中的检测位置来确定所述第一图像中的所述对象点与所述第二图像中的所述对象点之间的差异值；以及

分割所述第一图像和所述第二图像中的至少一个图像中的所述一个或多个对象中的一个对象，包括：

确定与所述对象的所述对象点相对应的第一差异值和第二差异值；

针对位于所述第一差异值与所述第二差异值之间的多个差异值来计算所述第一图像与所述第二图像之间的对象成本函数；

基于对象成本函数为一个图像中的所述对象的所述对象点指配对象标签；

针对除了位于所述第一差异值与所述第二差异值之间的所述多个差异值之外的一个或多个差异值来计算所述第一图像与所述第二图像之间的非对象成本函数；

基于所述第一图像与所述第二图像之间的所述非对象成本函数为所述图像中除了所述对象的所述对象点之外的点指配非对象标签；以及

基于所述对象标签和所述非对象标签来分割所述图像中的所述对象。

2.根据权利要求1所述的方法，其中在所述第二图像中检测所述一个或多个对象的所述对象点包括：

沿着所述第一图像的所述对象点的极线在所述第二图像中确定针对所述第一图像的所述对象点的搜索范围，其中如果所述一个或多个对象中的第一对象在尺寸上大于所述一个或多个对象中的第二对象，则针对所述第一对象的对象点的搜索范围大于针对所述第二对象的对象点的搜索范围；以及

在针对所述对象点所确定的所述搜索范围中搜索所述第二图像中的所述对象点。

3.根据权利要求1所述的方法，其中所述第一图像和所述第二图像为经校正的图像。

4.根据权利要求1所述的方法，其中所述第一图像中的所述对象点与所述第二图像中的所述对象点之间的所述差异值为所述对象点在所述第一图像中的检测位置与所述对象点在所述第二图像中的检测位置之间的差别。

5.根据权利要求1所述的方法，其中用于对象成本函数在所述对象成本函数之中为最低的差异值被指配作为所述对象标签，并且用于非对象成本函数在所述非对象成本函数之中为最低的差异值被指配作为所述非对象标签。

6.根据权利要求1所述的方法，其中针对所述多个差异值中的差异值来计算所述第一图像与所述第二图像之间的所述对象成本函数包括：在所述第一图像和所述第二图像中的一个图像的像素以所述差异值被位移的情况下，确定所述第一图像与所述第二图像之间的一个或多个图像参数的一致性程度。

7.根据权利要求1所述的方法，其中所述第一图像和所述第二图像为立体图像对。

8.根据权利要求1或7所述的方法，其中由能够捕获所述场景的多个视图的相机来捕获所述第一图像和所述第二图像，所述相机选自包括立体相机、多基线相机、阵列相机和全光相机的组。

9.一种用于处理图像的装置，所述装置包括：

用于促进对包括一个或多个对象的场景的第一图像和第二图像的接收的装置；

用于在所述第一图像中检测所述一个或多个对象的装置，其中检测所述一个或多个对象包括：在所述第一图像中检测所述一个或多个对象的对象点；

用于基于在所述第一图像中对所述一个或多个对象的所述对象点的检测来在所述第二图像中检测所述一个或多个对象的所述对象点的装置，其中检测所述第二图像中的与所述第一图像中的对象点相对应的对象点包括：在所述第二图像中的与所述第一图像中的所述对象点相对应的极线上搜索所述第二图像中的所述对象点；

用于确定所述第一图像中的所述一个或多个对象的所述对象点与所述第二图像中的所述一个或多个对象的所述对象点之间的差异值的装置，其中至少基于所述对象点在所述第一图像中的检测位置以及所述对象点在所述第二图像中的检测位置来确定所述第一图像中的所述对象点与所述第二图像中的所述对象点之间的差异值；以及

用于分割所述第一图像和所述第二图像中的至少一个图像中的所述一个或多个对象中的一个对象的装置，包括：

用于确定与所述对象的所述对象点相对应的第一差异值和第二差异值的装置；

用于针对位于所述第一差异值与所述第二差异值之间的多个差异值来计算所述第一图像与所述第二图像之间的对象成本函数的装置；

用于基于对象成本函数为一个图像中的所述对象的所述对象点指配对象标签的装置；

用于针对除了位于所述第一差异值与所述第二差异值之间的所述多个差异值之外的一个或多个差异值来计算所述第一图像与所述第二图像之间的非对象成本函数的装置；

用于基于所述第一图像与所述第二图像之间的所述非对象成本函数为所述图像中除了所述对象的所述对象点之外的点指配非对象标签的装置；以及

用于基于所述对象标签和所述非对象标签来分割所述图像中的所述对象的装置。

10.根据权利要求9所述的装置，其中为了在所述第二图像中检测所述一个或多个对象的所述对象点，所述装置还包括：

用于沿着所述第一图像的所述对象点的极线在所述第二图像中确定针对所述第一图像的所述对象点的搜索范围的装置，其中如果所述一个或多个对象中的第一对象在尺寸上大于所述一个或多个对象中的第二对象，则针对所述第一对象的对象点的搜索范围大于针对所述第二对象的对象点的搜索范围；以及

用于在针对所述对象点所确定的所述搜索范围中搜索所述第二图像中的所述对象点的装置。

11.根据权利要求9所述的装置，其中所述第一图像和所述第二图像为经校正的图像。

12.根据权利要求9所述的装置，其中所述第一图像中的所述对象点与所述第二图像中的所述对象点之间的所述差异值为所述对象点在所述第一图像中的检测位置与所述对象点在所述第二图像中的检测位置之间的差别。

13.根据权利要求9所述的装置，其中用于对象成本函数在所述对象成本函数之中为最低的差异值被指配作为所述对象标签，并且用于非对象成本函数在所述非对象成本函数之中为最低的差异值被指配作为所述非对象标签。

14.根据权利要求9所述的装置，其中针对所述多个差异值中的差异值来计算所述第一图像与所述第二图像之间的所述对象成本函数包括：在所述第一图像和所述第二图像中的一个图像的像素以所述差异值被位移的情况下，确定所述第一图像与所述第二图像之间的一个或多个图像参数的一致性程度。

15.根据权利要求9所述的装置，其中所述第一图像和所述第二图像为立体图像对。

16.根据权利要求9或15所述的装置，其中由能够捕获所述场景的多个视图的相机来捕获所述第一图像和所述第二图像，所述相机选自包括立体相机、多基线相机、阵列相机和全光相机的组。

17.根据权利要求9所述的装置，其中所述装置包括电子设备，所述电子设备包括：

用于促进用户通过对显示器的使用来控制所述电子设备的至少一个功能并且还被配置成对用户输入进行响应的装置；以及

用于显示所述电子设备的用户接口的至少部分的装置，所述显示器和显示电路***被配置成促进所述用户控制所述电子设备的至少一个功能。

18.根据权利要求17所述的装置，其中所述电子设备包括被配置成捕获所述第一图像和所述第二图像的至少一个图像传感器。

19.根据权利要求18所述的装置，其中所述电子设备包括移动电话。

20.一种被配置成执行根据权利要求1到8中的任一项所述的方法的装置。