CN101676953A

CN101676953A - 自动视频图像分割

Info

Publication number: CN101676953A
Application number: CN200910205771A
Authority: CN
Inventors: 王珏; 白雪
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2008-08-22
Filing date: 2009-08-24
Publication date: 2010-03-24
Anticipated expiration: 2029-08-24
Also published as: US8175379B2; US20120213432A1; CN101676953B; US8422775B2; US20100046830A1

Abstract

本发明涉及自动视频图像分割。具体地，公开了用于自动分割视频序列的方法、***和计算机可读存储介质。根据视频序列的至少一个先前图像的已有分割信息，确定视频序列的当前图像的分割形状预测和分割颜色模型。根据所述分割形状预测和分割颜色模型的加权组合，自动生成当前图像的分割。将当前图像的分割存储在存储介质中。

Description

自动视频图像分割

优先权信息

本申请要求2008年8月22日提交的、发明名称为“AutomaticVideo Image Segmentation”、序列号为61/091,242的美国临时申请的优先权权益，该美国临时申请的发明人为Jue Wang和Xue Bai，并且在此通过引用并入其全文。

技术领域

本发明总体上涉及数字图像处理，具体地，涉及视频序列中图像的自动分割。

背景技术

数字图像可包括光栅图形、矢量图形或其组合。光栅图形数据(在此也称为位图)可作为称作像素的个体图像元素的网格来存储和操纵。位图可以通过其像素的宽度和高度来表征，也可以通过每个像素的位数来表征。通常，RGB(红、绿、蓝)颜色空间中定义的彩色位图可包括用于红、绿和蓝通道中每个通道的每个像素的1到8位。Alpha通道可用来存储诸如每个像素的透明度值之类的附加数据。矢量图形数据可以作为一个或多个利用几何基元构建的几何对象来存储和操纵。几何基元(例如，点、线、多边形、贝赛尔曲线和文本字符)可根据数学公式来表示数字图像的部分。

数字图像处理是这样的过程，其利用例如计算机***的计算装置来分析和/或修改数字图像。使用专用的软件程序，可按照各种方式来操纵和变换数字图像。

有许多数字视频应用需要将每个视频图像或帧分割成例如前景图像或感兴趣对象/区域以及背景。这类分割的现有技术方法包括利用各种图像编辑工具来手工分割每个帧图像。然而，这种手工分割是耗时、繁琐且易出错的。

发明内容

提出了用于执行自动分割视频序列图像的***、方法和计算机可读存储介质的各种实施方式。

首先，视频序列的当前图像(例如，第一图像)的分割形状预测和分割颜色模型可根据所述视频序列的至少一个先前图像的已有分割信息来确定。例如，在一种实施方式中，用户可手工将当前图像分割成前景和背景，存储该当前图像的分割信息，该分割信息包括将背景从图像的前景(例如前景对象)中划分出来的分割轮廓。

正如所期望的，可通过多种技术中的任意技术来执行形状预测和颜色模型的确定。例如，对于形状预测而言，在一种实施方式中，可采用缩放不变特征变换(SIFT)技术来根据所述序列的至少一个先前图像(也即，根据预先存在的分割轮廓)生成当前图像的分割轮廓的估计或粗略版本。对于视频中的连续帧来说，SIFT关键点是用于视频中连续帧的可靠特征。通过将先前图像/帧的SIFT关键点与当前图像/帧中的对应关键点进行匹配，可以确定对当前(或新的)帧中轮廓的良好初始猜测。因而，一旦根据这两个帧中的匹配关键点确定了仿射变换，便可以对所述初始轮廓进行变换，以生成对后续帧轮廓的粗略估计或预测形状。在一些实施方式中，可以沿着轮廓构建多个局部分类器，并使用其来执行关于该轮廓的操作。例如，在一些实施方式中，可采用滑动窗口方法，其中，中心点位于轮廓上的每个分类器定义围绕相应轮廓点(分类器的中心)的局部区域并对该局部区域进行操作，整合来自先前帧的颜色和形状信息(例如颜色模型和形状预测)，并由此确定预测轮廓。因而，形状对齐过程可用来将分类器窗口与帧i+1中的前景对象进行粗略对齐。

更具体地，在一些实施方式中，根据形状轮廓的相应部分生成局部分割形状预测可以包括：通过应用于相应区域中多个关键点上的缩放不变特征变换(SIFT)来生成初始局部分割形状预测；以及通过使用应用于沿形状轮廓相应部分的点上的光流(optical flow)，来细化初始局部分割形状预测的估计，从而生成局部分割形状预测。在一种实施方式中，通过使用应用于沿形状轮廓相应部分的点上的光流来细化初始局部分割形状预测的估计从而生成局部分割形状预测，可以包括：根据相应区域中前景像素的光流来确定局部平均流向量；以及将局部平均流向量应用于沿形状轮廓相应部分的点，来生成局部分割形状预测。至少可以根据局部分类器中包括的至少一个先前图像的相应区域的颜色信息，来生成局部分割颜色模型。因而，使用局部分类器来表征以及操作图像的局部区域，可显著增强分割的精度和结果，对于具有复杂前景对象和/或背景的图像而言尤其如此。

尽管对轮廓上的每个点(或者这些点的某些指定子集，诸如沿轮廓的等间隔采样点)进行变换将会生成将轮廓与后续帧图像近似对齐的粗略轮廓估计，该变换通常捕捉两帧之间对象的主要刚体运动，并因而通常可能忽略特定于所述对象的部分的局部运动的运动效果。为了确定对更好的轮廓预测，可计算变换帧与下一帧之间的轮廓像素的光流。然而，由于边界上光流的不可靠性，例如出现遮蔽(occlusion)，直接将流向量添加到轮廓点(即，在像素级)可能生成不稳定的结果。因而，在一种实施方式中，可采用轮廓内部的局部平均流，而不是(使用每个分类器的中心点)根据轮廓点本身来计算光流。通过将局部平均光流并如所述过程中，可生成更精确且鲁棒的估计轮廓。

因而，从这两个步骤中(变换/对齐加平均光流)，可以生成轮廓预测，或者更准确地说，多个预测或估计轮廓部分或分段，每个部分或分段由相应的分类器覆盖并与之关联。接着，该预测或估计的轮廓可以用作先验形状(形状预测)，并可指定局部分类器的位置。

一种计算传播的分类器中像素的前景概率的方法是通过高斯混合模型(GMM)。在这种方法中，对除了围绕轮廓的窄带之外的、第二分类器的局部区域或窗口中的所有像素进行采样，所述窄带在一些实施方式中可由(|d_x|＜Δ)来定义，其中Δ是第一分类器中不确定带的宽度，d_x是分类器中像素x离轮廓的最大距离。换句话说，由于所述估计或预测的轮廓几乎一定会出错，因此比较难以将所述估计轮廓附近的像素分类为前景或背景像素，并且因此在FG侧上的估计轮廓附近的像素实际上可能是在实际的(未知的)边界的BG侧上，反之亦然。

在一些实施方式中，生成局部分割颜色模型可以包括：根据用于所述至少一个先前图像的局部分类器中所包括的所述至少一个先前图像的相应区域的颜色信息，来生成局部分割简单颜色模型；以及根据用于所述至少一个先前图像的局部分类器中所包括的所述至少一个先前图像的相应区域的颜色信息、并根据用于所述当前图像的局部分类器中所包括的所述当前图像的相应区域的颜色信息，来生成局部分割混合颜色模型。可以确定所述局部分割混合颜色模型与局部分割简单颜色模型的辨识度。接着，至少根据局部分类器中所包括的所述至少一个先前图像的相应区域的颜色信息来生成局部分割颜色模型，可以包括：如果所述局部分割简单颜色模型具有比所述局部分割混合颜色模型更大的辨识度，则选择所述局部分割简单颜色模型作为局部分割颜色模型；如果所述局部分割混合颜色模型具有比所述局部分割简单颜色模型更大的辨识度，则选择所述局部分割混合颜色模型作为所述局部分割颜色模型。

如上所讨论的，除了颜色模型之外，先验形状(即预测形状)亦可用来生成分类器区域的概率或特征图。更具体地，来自预测形状的贡献(作为加权和的一部分)可基于所述颜色模型的辨识度，其中，如果所述颜色模型在前景颜色与背景颜色之间进行了清晰的区分，则依赖所述颜色模型来对所述区域的像素进行分类；以及如果所述颜色模型没有给出清晰的区分，则依赖所述先验形状来对像素进行分类，其中中间状况由应用到每个的权重解决，例如，其中权重的和取为某正则化值，例如1。换句话说，在一些实施方式中，所述权重是颜色与形状贡献的线性和的系数。然而注意，在其它实施方式中，所述形状与颜色贡献可由非线性组合来确定。

一旦确定了帧i+1的颜色图(如上所讨论的)，其可用来对帧i的像素进行(重)分类(由于该图像已进行分割，其实际分类是已知的)，以及通过确定由颜色模型导致的错误来确定所述颜色模型的置信度或可靠性。通过使用上述技术的实施方式，每个分类器可以确定图像的相应部分逼近估计轮廓的概率或特征图。

在一种实施方式中，所有局部窗口中的(也即，来自所有局部分类器的)概率(即概率或特征图)可被组合，以形成合成的特征图。例如，对于多个分类器中的每个局部分类器，可根据局部分类器的局部分割形状和局部分割颜色模型的加权组合来生成局部特征图估计，其中局部特征图估计将相应区域中的像素分类为背景或前景像素。接着，可通过组合局部特征图估计来生成当前图像的特征图估计。可以使用多个局部分类器中的每个分类器的颜色模型及形状预测来确定图像(例如，帧i+1)的组合概率或特征图。换句话说，可将多个局部特征图(例如前景遮罩)结合到一起，从而形成全局或组合的特征图或遮罩。

可根据分割形状预测和分割颜色模型的加权组合来自动生成当前图像的分割。在一种实施方式中，组合特征(概率)图可用来分割图像(为前景及背景部分)。例如，在一种实施方式中，使用诸如图切割(Graph Cut)之类的图像处理算法，组合特征图(即所生成的当前图像的特征图估计)可用来分割图像，其中概率值可设置为数据成本，此后，可执行GAC(测地线主动轮廓)算法来对边界进一步规则化，这例如通过Level Set方法来实现。然而注意，根据需要，可采用任意其它算法和/或工具。在备选实施方式中，局部特征图都可用来对每个分类器窗口进行局部分割，此后，可将这些局部分割(分割的图像部分)结合到一起来形成分割的图像，而不是生成组合特征图并继而根据该组合特征图来分割图像。

对当前图像的分割可存储到例如计算机***的存储器介质中，和/或例如通过诸如SAN的网络耦合到计算机***的存储器介质中。所述方法接着可对视频序列的后续图像或帧重复上述方法步骤，下面进行更详细地描述。换句话说，可对视频序列中的一个或多个连续图像重复步骤：确定视频序列的当前图像的分割形状预测及分割颜色模型；自动生成当前图像的分割；以及存储当前图像的分割。

因而，在此公开的***和方法的各种实施方式可用来在数字视频图像序列中自动执行图像分割。

附图说明

图1是配置用于实现本发明实施方式的示例性***的框图；

图2示了根据一种实施方式的示例性视频图像处理模块；

图3示了根据一种实施方式的具有分割/遮罩的示例性视频序列；

图4是根据一种实施方式的、用于自动图像分割的示例性单帧传播方法的高层示意图；

图5示了根据一种实施方式的图4的单帧传播方法的迭代方面；

图6是根据一种实施方式的、用于自动图像分割的示例性多帧传播方法的高层示意图；

图7是描述了根据一种实施方式的、用于对视频序列中的图像执行自动分割的方法流程图；

图8和图9描述了根据一种实施方式的、连续视频帧中的关键点的缩放不变特征变换(SIFT)；

图10示出了根据一种实施方式的视频帧中轮廓点的光流；

图11示出了根据一种实施方式的、在连续视频帧中分割轮廓的预测；

图12示出了根据一种实施方式的连续视频帧中的局部分类器；

图13示出了根据一种实施方式的具有自适应权重的局部颜色与形状整合；

图14示出了根据一种实施方式的候选局部颜色模型；

图15示出了根据一种实施方式的、图14的两个候选颜色模型的使用及结果；

图16示出了根据一种实施方式的形状预测置信度；

图17示出了根据一种实施方式的、基于颜色模型辨识度的形状预测约束；

图18示出了根据一种实施方式的颜色与形状整合；

图19示出了根据一种实施方式的、关于特征图估计与分割的轮廓迭代；

图20示出了根据一种实施方式的、利用初始帧的颜色模型进行分割的多帧传播；

图21示出了根据一种实施方式的、使用关于窗口/分类器位置的反馈修正方法来进行分割的多帧传播；

图22示出了根据一种实施方式的、在视频序列中修正或重置分割的多帧传播的用户交互；以及

图23和图24示出了通过应用图7方法的实施方式而生成的示例性视频序列。

虽然本发明允许进行各种修改和备选形式，但是在附图中通过实施例的方式示出了特定的实施方式，并在这里进行了详细的描述。然而应该理解，附图及详细说明并非要将本发明限制于所公开的特定形式，恰恰相反，本发明覆盖所有落在由所附的权利要求限定的本发明的精神和范围内的修改、等价物和替换。

具体实施方式

在此描述的***及方法的实施方式可用来在数字视频序列中自动执行对例如感兴趣区域或对象(例如前景对象)的视频图像分割。更具体地，在此公开的***和方法的实施方式可用来分析连续的数字视频图像或帧，以及用来根据序列中初始帧或关键帧的初始预先存在的分割或遮罩，将帧的初始图像分割传播到一个或多个后续帧中，从而例如自动生成用于视频序列中对应视频帧的前景遮罩序列。应用这些遮罩的示例包括但不限于：数字电影中的特效，例如移除或替换背景，应用效果到不同的图像层中等等；以及例如用于科学或安全应用的图像分解及分析，例如监测、监控、人脸识别等。

在下列详细描述中，将阐述众多特定细节以便全面理解请求保护的主题。然而，本领域技术人员要理解，可以在不包括这些特定细节的情况下实施请求保护的主题。在其它情况下，没有对本领域普通技术人员所了解的方法、装置或***进行详细描述，以避免混淆请求保护的主题。部分详细描述是按照对数据位或二进制数字信号进行操作的算法或符号表示的方式给出的，所述数据位或二进制数字信号存储在诸如计算机存储器之类的计算***存储器中。这些算法描述或表示是数据处理领域的普通技术人员用来将其工作的实质内容传递给本领域其它技术人员的技术的示例。这里的算法通常被认为是有条理的操作序列，或者导致期望结果的类似处理。在这种上下文中，操作或处理涉及物理量的物理操作。典型地，虽然不是必需的，但是这些物理量可采用能够进行存储、传输、组合、比较或以其他方式操作的电或磁信号的形式。主要出于通用的理由，间或已证明是方便的，其指代诸如位、数据、值、元件、符号、字符、术语、数目、数字等等。然而应该理解，所有这些及类似术语与适当的物理量相关联，仅仅是方便的标签。除非具体另外指出，否则明显如下面讨论的，应该认识到在整个说明书讨论中，采用诸如“处理”、“计算”、“运算”、“确定”等之类的术语指示诸如计算机或类似电子计算设备之类的计算平台的动作或处理，所述动作或处理操作或转换在所述计算平台的存储器、寄存器或其它信息存储设备、传输设备、或显示设备之内表示为物理电子量或磁量的数据。

图1是描述了计算机***100的组成元件的方框图，该计算机***100配置用于实施本文所描述的***和方法的实施方式。计算机***100可包括一个或多个处理器110，且其采用诸如SPARC^TM架构、Intel公司或AMD的x86兼容架构、或者可处理数据的其它架构或芯片组之类的任意期望架构或芯片组设施。任意期望的诸如各种版本的Unix、Linux、微软公司的

苹果公司的

的操作***，或能在硬件平台上运行软件的任意其它操作***之类的操作***可运行在计算机***100上。处理器110可通过至少一个通信总线耦合到一个或多个诸如存储器120之类的所描述的其它组件上。

在一种实施方式中，专用显卡或其它图形组件156可耦合到处理器110。图形组件156可包括图形处理单元(GPU)170，其在一些实施方式中可用于执行至少一部分下面描述的技术。此外，计算机***100可包括一个或多个成像设备152。所述一个或多个成像设备152可包括诸如监视器或打印机之类的各类基于光栅的成像设备。在一种实施方式中，一个或多个显示设备152可耦合到图形组件156上，以便显示由图形组件156提供的数据。

在一种实施方式中，在任何时刻，处理器110可执行以实施在此描述的技术方面的程序指令140可部分或全部地驻留在计算机***100的存储器120中。存储器120可采用诸如任意不同类型的ROM或RAM(例如，DRAM、SDRAM、RDRAM、SRAM等)或其组合之类的任意适宜介质来实施。所述程序指令亦可存储在处理器110可访问的存储设备160上。在不同实施方式中，多种存储设备160中的任意存储设备可用来存储程序指令140，包括任意期望类型的持久和/或易失性存储设备，诸如单盘、盘阵列、光学器件(例如，CD-ROM、CD-RW驱动器、DVD-ROM、DVD-RW驱动器)、闪存设备、各种类型的RAM、全息存储设备等。存储设备160可通过一个或多个存储设备或I/O接口耦合到处理器110。在一些实施方式中，可通过任意适宜的计算机可读存储介质提供程序指令140给计算机***100，计算机可读存储介质包括上面描述的存储器120和存储设备160。

计算机***100亦可包括一个或多个附加的I/O接口，诸如用于一个或多个用户输入设备150的接口。此外，计算机***100可包括一个或多个提供对网络的访问的网络接口154。应该注意，计算机***100的一个或多个组件可位于远程且可通过网络访问。在多种实施方式中，程序指令可采用任意期望的编程语言、脚本语言或者编程语言和/或脚本语言的组合来实施，例如C、C++、C#、Java^TM、Perl等。计算机***100亦可包括多个未在图1中示出的元件，如省略号所示。

图2描述了一种示例性图像分析模块，其可实施用于自动传播视频图像分割的方法的实施方式，如下面参照图6所述。在一种实施方式中，模块200可提供用户接口202，其包括一个或多个用户接口元件，通过这些用户接口元件，用户可启动、交互、指导和/或控制模块200所执行的方法。模块200可获得一组数字视频图像210，以及可选地获取用户输入212；分析初始分割的图像或帧以及一个或多个后续帧；并且将初始图像分割传播到后续一个或多个帧中。分割信息204(例如指定或促进分割的信息)可用于执行图像分析或处理。

图像分析模块200可实施为单机应用或者在单机应用中实施，或者实施为视频处理和/或演示应用的模块或插件。可以实施模块200的实施方式的示例应用类型可以包括但不限于：视频编辑、处理和/或演示应用，以及安全或国防应用、教育、科学、医疗、出版、数字全息照相、数字电影、游戏、动画、市场中的应用、和/或可执行数字视频图像编辑或演示的其它应用，例如其中操作涉及不同层的图像的那些。可用来实现实施方式的应用的具体示例包括但不限于：

和

除了生成输出图像220之外，模块200可以用来显示、处理、修改输出图像和/或将输出图像存储到例如存储设备或存储介质之类的存储器介质中。

概述

在此公开的一种实施方式提供了一种鲁棒的用于视频对象分割的交互式***和方法。基于视频序列中的先前(或任何其它)帧的预先存在的分割信息(该信息例如由用户例如通过手工分割先前帧提供)，所述分割可传播到视频序列中的将来帧或者说后续帧。如下文更为详细说明的，在一些实施方式中，可采用滑动窗口方法，其中每个窗口包括局部分类器或者与之关联，该局部分类器整合来自所述先前帧的称为“先验”的颜色以及形状信息，例如颜色模型和形状预测，从而将该分类器所覆盖的像素分类为前景像素或背景像素。这两个先验可结合自适应的权重，所述权重与所述颜色模型的辨识度相关。接着，可以结合来自个体局部分类器的分类结果，从而形成精确的特征图，以及根据所述特征图执行的图像二值分割。可以迭代该过程，直到分割轮廓收敛。注意，在一些实施方式中，当每个窗口收敛时，可以终止每个窗口的迭代。

图3描述了一种示例性视频序列，具体地，帧1到5，其中，已经对该序列的第一图像(帧1)进行了例如人工分割，如与第一图像相关联的二值遮罩所示；其中所述遮罩的白色区域对应于前景，黑色区域对应于背景。在帧2到5之下示出了对应的视频图像，其中已将相应的遮罩应用于每个图像，以移除所有背景图像信息，仅留下每个图像的前景对象。在这里描述的实施方式中，作为此类遮罩基础的每个图像的分割(分割成前景部分及背景部分)可根据先前分割信息(例如，来自对帧1的分割)而自动确定。

在称为单帧传播模型实施方式的一组实施方式中，每个帧的分割轮廓(即，背景与前景之间的边界)可根据先前帧的分割轮廓来确定。图4是根据一种实施方式的示例性单帧传播技术的高层示意图，其描述了本发明的关键概念。可以看到，在这种方法中，可以使用由用户提供的第一帧(帧i)分割(例如图像的分割轮廓)来通过多个局部分类器确定当前图像(帧i+1)的分割形状预测(图4中称为形状“先验”)，在图4中，其由沿着帧i和i+1的分割轮廓的虚线框或窗口表示。这些分类器或窗口可用来表征局部区域中的(特别地，沿着轮廓的)图像颜色及形状属性，这些属性继而可用来生成多个局部特征图，这些局部特征图一起组成了图像的特征图，亦称作(关于前景及背景像素分类的)概率图，根据概率图，可以确定当前图像或帧的轮廓(分割)，这将在下文进行更详细地描述。

在一种实施方式中，该单帧方法可包括迭代成分，如图5所示，其中，从表示为C_i的帧i的轮廓可生成形状预测，并且该形状预测用来创建特征图估计，其继而被用来计算当前帧i+1的分割(轮廓)。注意，在图5的实施方式中，可以对特征图估计和分割(轮廓的计算)进行迭代，以细化所计算的轮廓。例如，从一个迭代中计算得出的轮廓可用来生成细化的特征图估计，其继而可以用来确定细化的分割或轮廓。可重复该迭代，直到满足某种收敛条件，例如直到连续计算的轮廓之间的差小于某指定阈值。

以略微不同的方式来描述，可以认为单帧传播模型是***的基本构建块，其将帧i中的对象轮廓C_i传递或变换为帧i+1中的对象轮廓C_i+1。该基本思想是：执行粗略形状预测以生成预测的轮廓，并接着细化预测形状周围的轮廓。该过程可包括若干独立步骤。例如，在一种实施方式中，初始轮廓Ci可由SIFT关键点匹配和光流进行变换。可沿轮廓构造或构建一组局部分类器，以分离前景像素/背景像素，其中分类器对颜色与形状信息(例如，该分类器的局部区域的颜色与形状信息)进行整合，以表征或者指定该区域中的轮廓。接着，可结合所述局部分类器结果，以生成帧i+1中对象的精确特征图，其后可以进行二值分割。该估计-分割步骤可重复若干次，直到C_i+1收敛。

在称为多帧传播模型实施方式的另一组实施方式中，可以使用来自一个帧(例如，如帧1之类的初始帧)的分割信息来确定多个后续帧的分割。例如，可以使用各种技术在窗口/分类器传播通过连续帧时鲁棒地对其进行追踪。这样的多帧传播模型的示例性实施方式在图6中示出，其中如图所示，可以使用帧1(或i)的分割(由附图中帧1的遮罩表示)来按照类似于上文关于图4描述的单帧方法将分割轮廓从帧1传播到后续帧2(或i+1)中，这可能包括迭代过程，如帧2和3之上的“迭代”所指示，该迭代过程在如上参照图5描述。如图6所示，在该实施方式中，一旦确定了帧2(i+1)的分割，该分割信息可用来确定例如帧3(i+2)等后续帧的分割(轮廓)。然而注意，在一些实施方式中，连同来自先前帧的分割信息，亦可使用来自初始帧的信息，例如颜色图或其它分割相关信息，如下列进行的更详细地描述。

图7-用于在视频序列中执行自动图像分割的方法的流程图

图7是示出了用于在数字视频序列中自动确定分割的方法的流程图。除其他设备之外，图7所示的方法可与图1所示的计算机***的实施方式配合使用。在各种实施方式中，所示出的一些方法步骤可并行执行、按照与所示不同的顺序执行、或者可以省略。附加的方法步骤亦可根据需要执行。可自动执行任意所述方法步骤(即，无用户干预)。如图所示，该方法可如下进行操作。

首先，在702，可根据所述视频序列的至少一个先前图像的已有分割信息，来确定视频序列的当前图像(即，第一图像)的分割形状预测和分割颜色模型。例如，在一种实施方式中，用户可手工将当前图像分割成前景和背景，存储该当前图像的分割信息，该分割信息包括将图像中的背景从前景(例如，前景对象中)分离出来的分割轮廓。

根据需要，可通过多种技术中的任意技术来确定形状预测和颜色模型。例如，对于形状预测而言，在一种实施方式中，可以使用缩放不变特征变换(SIFT)技术，基于该序列的至少一个先前图像(也即，基于预先存在的分割轮廓)来生成当前图像的分割轮廓的估计或粗略版本。SIFT关键点是用于视频中连续帧的可靠特征。通过将所述先前图像/帧的SIFT关键点与当前图像/帧中的对应关键点相匹配，可以确定对当前(或新)帧中轮廓的良好初始猜测。因而，更具体地，该方法可在当前帧中搜索针对先前帧的前景对象内的每个(SIFT)关键点的最佳匹配。根据点的对应关系，可确定仿射变换(即，指定平移、旋转、错切以及可能的缩放)，其将{x_j}在最小二乘估计意义上变换到{y_j}(j＝1，2，...n)。

图8示出了连续视频帧中匹配关键点(即特征点)的示例。如图所示，帧i中的每个关键点x对应于帧i+1中的关键点。当确定这些关键点时，在一些实施方式中，为了效率和鲁棒性，可将搜索范围限制为包围所述轮廓的区域，例如略大于所述轮廓的包围盒的矩形，如围绕轮廓C_i所限界的对象的虚线盒所示。此外，在一些实施方式中，在拟合这些点时可忽略孤立点。

图9描述了这些关键点及其在图3介绍的所述示例性视频序列的两个连续帧中的匹配或对应性(亦在图4和6中使用)。注意，由于两个连续帧之间的图像变化很小，检测及关联所述关键点一般是简单且相当可靠的。因而，根据这些点确定的仿射变换可以提供生成初始轮廓的粗略估计的简易手段，例如通过经由所述变换将所述轮廓传播到下一帧。

因而，一旦已根据所述两个帧中的所述匹配关键点确定了所述仿射变换，便可以对初始轮廓进行变换，以生成后续帧轮廓的粗略估计或预测形状。如上所述，在一些实施方式中，可沿所述轮廓构造多个局部分类器，并使用这些局部分类器来执行关于轮廓的操作。例如，在一些实施方式中，可采用滑动窗口方法，其中，中心点位于所述轮廓上的每个分类器定义围绕相应轮廓点(分类器中心)的局部区域并对该区域进行操作，其整合来自先前帧的颜色及形状信息(例如颜色模型和形状预测)，并由此确定预测轮廓。在一种实施方式中，可如下定义分类器，使得轮廓中的每个点由至少两个分类器覆盖(例如包含)，其中在图4中，分类器被表示为沿着帧i和i+1的分割轮廓的小矩形。因而，优选地，每个分类器盒或窗口与至少两个其它分类器交叠。换句话说，所述多个局部分类器中的每个局部分类器的相应区域和所述多个局部分类器的至少两个其它局部分类器的相应区域交叠。

由此，所述形状对齐过程可进行操作，以粗略地将所述分类器窗口和帧i+1中的前景对象对齐。

注意，在现有技术中的方法，颜色模型通常是针对整个前景对象和背景而构造的，其可以与所述前景和背景的指定局部区域有限相关。如上所述，在一些实施方式中，确定分割形状预测和分割颜色模型可包括：为至少一个先前图像构造多个局部分类器，其中每个局部分类器包括所述至少一个先前图像的相应区域，所述相应区域包含所述至少一个先前图像的形状轮廓的相应部分，并且其中，所述多个局部分类器覆盖所述至少一个先前图像的形状轮廓。接着，对于多个分类器的每个局部分类器，可根据局部分类器中所包含的至少一个先前图像的形状轮廓的相应部分，来生成当前图像的局部分割形状预测。

更具体地，在一些实施方式中，根据所述形状轮廓的相应部分生成局部分割形状预测可以包括：使用应用于相应区域中多个关键点的缩放不变特征变换(SIFT)，来生成初始局部分割形状预测；以及通过使用应用于沿着形状轮廓相应部分的点上的光流，来细化初始局部分割形状预测，从而生成局部分割形状预测。在一种实施方式中，使用应用于沿着形状轮廓相应部分的点上的光流来细化初始局部分割形状预测从而生成局部分割形状预测可以包括：根据相应区域中的前景像素的光流来确定局部平均流向量，以及将局部平均流向量应用于沿所述形状轮廓的相应区域的点，从而生成局部分割形状预测。

最后，至少可以根据局部分类器中所包括的至少一个先前图像的相应区域的颜色信息，来生成局部分割颜色模型。因而，使用局部分类器来表征和操作图像的局部区域，可以显著增强分割的精度和结果，对于具有复杂前景对象和/或背景的图像而言尤其如此。

尽管对轮廓上的每个点(或者这些点的某种指定子集，诸如沿所述轮廓的等间距采样点)进行所述变换将会生成将轮廓与后续帧的图像对齐的粗略轮廓估计，但该变换通常捕获对象在两帧之间的主要刚体运动，并因而通常可省略特定于对象的部分的局部运动的运动效果。为了更好地预测所述轮廓，可以计算已变换帧与下一帧之间的轮廓像素的光流。然而，由于边界上光流的不可靠性，例如其中出现遮蔽，直接将所述流向量添加到所述轮廓点(即，在像素级)可能生成不稳定的结果。因而，在一种实施方式中，可使用所述轮廓内的局部平均流，而不是根据轮廓点本身(使用每个分类器的中心点)来计算光流。例如，现在转到图10，设x是已变换轮廓C^*上的点。Ω是C^*的内部区域，Nx是以x为中心的局部分类器或窗口。现在，通过区域Ω∩N_x中的平均流向量v移动点x，即x′＝x+v。换句话说，应用于x的流向量是既在内部区域Ω中、又在分类器窗口中(即，这两个点集的交集中)的所有点的平均流向量。该区域或局部平均光流比根据单个点生成的光流更鲁棒，这主要是由于对象的运动通常是局部平滑的这一事实。通过将局部平均光流结合到该过程中，可生成更精确和鲁棒的估计轮廓。

因而，从这两个步骤(变换/对齐加平均光流)，可生成轮廓的预测，或者更准确地说，生成多个预测的或估计的轮廓部分或分段，其中的每一个由相应的分类器覆盖并与之相关联。该预测的或估计的轮廓继而可用作形状先验(形状预测)，并可指定局部分类器的位置。图11示出了具有用户提供的分割的第一帧(标记为帧1)，所述分割由所述前景对象周围的白色轮廓线表示，以及具有对齐和光流后的轮廓的第二帧(标记为帧2)。注意，与图4的帧i+1相对应的帧2中的轮廓非常类似于(帧1的)初始轮廓，但仍旧不是完美的，而是估计或预测。然而，分类器可以使用该轮廓(具体地，构成所述轮廓的轮廓分段)来确定更好的轮廓，现在将进行描述。

构造局部分类器

如上所述，在一些实施方式中，局部分类器可包括沿着轮廓的一组滑动窗口。在一种示例性实施方式中，分类器盒或窗口的典型尺寸可从50×50变化到70×70像素，当然，根据需要可采用任意其它尺寸。在一种实施方式中，这些窗口的中心可以是沿着轮廓C_i的等间距采样点，如图12所示(注意为了说明，仅示出了一些没有交叠的窗口)。亦如上所示，可设置窗口的数量，使得所述轮廓附近的每个点由至少两个窗口覆盖。如上所述，这些交叠窗口的中心可以进行变换，并与轮廓一起(光学上平均的)流入下一帧。换句话说，每个分类器及其相应的轮廓分段或部分可以通过形状对齐和局部平均光流而从帧1传播到帧2，因而生成两组一一对应的滑动窗口或分类器，表示为{W_k ⁱ}，{W_k ⁱ⁺¹}，k＝1，2，...N。为了方便，在下文描述中，这两组分类器对可表示为第一和第二分类器。换句话说，通过将平均流向量应用于至少一个先前图像的多个局部分类器，可生成当前图像的多个局部分类器，其对应于所述至少一个先前图像的多个局部分类器，其中当前图像的每个局部分类器包括当前图像的相应区域，该区域包含当前图像的形状轮廓的相应部分，并且其中当前图像的多个局部分类器覆盖当前图像的形状轮廓。

对于图12，给出W_k ⁱ(第一分类器)中的标记像素，将W_k ⁱ⁺¹(第二分类器)中的像素可以根据他们在颜色和形状上的强时间相关性而被分类为前景像素或背景像素。换句话说，对于每个分类器来说，给出帧i和帧i+1的形状和颜色之间的强相关，帧i的像素的分类(分类为前景或背景)可用来对帧i+1的像素进行分类。

图13示出了根据一种实施方式的结合了自适应权重的颜色及形状。在这种示例性实施方式中，特定局部分类器的颜色模型和预测形状(形状先验)根据属于其相应背景或前景特征的置信度级别来进行组合，从而生成分类器的局部区域的结果特征图。例如，如图13指示，根据分类器颜色模型的辨识度的测量(表示为σ)，可以对表示为Pc的颜色模型的贡献(根据所述颜色模型的前景概率)和表示为Ps的形状先验的贡献(根据所述形状先验的前景概率)进行加权和相加，从而生成表示分类器的像素的前景和背景似然性的整合概率(特征)图。换句话说，根据颜色模型的辨识度，颜色和形状线索可与自适应的权重相结合。因而，该过程中体现的实践原则可以声明为：当颜色是可分离的时候，信任颜色；否则信任形状。换句话说，如果分类器的颜色模型明确区分了前景颜色和背景颜色，则依赖于所述颜色模型来分类所述区域的像素；而如果所述颜色模型不能明确区分，则更为依赖形状先验来分类所述像素。在一些实施方式中，可认为该方法是一类模糊逻辑像素分类方案，其中适当地使用颜色模型和预测形状来将像素分类为前景或背景像素。下面给出关于该过程的更多细节。

确定颜色模型

计算传播分类器W_k ⁱ⁺¹中像素的前景概率的一种方法是通过高斯混合模型(GMM)。在该方法中，除了轮廓周围的窄带之外，对第二分类器的局部区域或窗口中的所有像素进行采样，在一些实施方式中，所述窄带可由(|d_x＜Δ|)定义，其中Δ是第一分类器中不确定带的宽度，而d_x是分类器中像素x距离轮廓的最大距离。换句话说，由于所估计或预测的轮廓几乎一定出错，因此较难将所估计的轮廓附近的像素分类为前景或背景像素，并且因此FG侧估计轮廓附近的像素实际上可能在实际(未知)边界的BG侧，反之亦然。

图14示出了相关的分类器(例如，第一和第二分类器W_k ⁱ和W_k ⁱ⁺¹)的区域，其中每个区域划分成相应前景及背景子区域。更具体地，如图所示，第一分类器划分成前景F1和背景B1，第二分类器划分成前景F2和背景B2。来自第一分类器的采样像素可表示成{F₁；B₁}。在一些实施方式中，为了创建更丰富的颜色模型，亦可对第二分类器中的颜色进行采样。注意，由于预测轮廓并不总是精确的，因此第二分类器中的不确定带比第一分类器中的不确定带要宽，因而表示为{F₂；B₂}的采样像素距轮廓更远，其中他们的FG/BG状态要更可靠。更具体地，

F₂＝{x|d_x＞max{d_x}/2}，

以及

B₂＝{x|d_x＜min{d_x}/2}，

其中d_x是距轮廓的有符号距离变换，前景为正侧。注意，在此提到的采样像素和不确定带的特定准则仅是示例性的，根据需要可采用其它值、恒量和关系式。

在存在极大帧间运动的情况下，W_k ⁱ⁺¹中的假设采样可能是不精确的。例如，分界为{F₂，B₂}的像素可能在区域的前景侧和背景侧二者上，也即，分割像素的轮廓预测可能是不准确的，以至于实际的轮廓甚至不在该区域内，这种情况下，不应使用{F₂，B₂}像素。因而，可以设置或指定标准，以决定在颜色模型的确定中是否要包括{F₂，B₂}。可构建两个候选颜色模型：

简单模型：{F₁，B₁}

混合模型：{F₁，B₁；F₂，B₂}。

假设前景未发生很大变化(前景偏差)，则可以期待：添加{F₂，B₂}将降低W_k ⁱ⁺¹中的误分类(例如，将背景像素划分为前景，或相反)。这可以简单地通过针对每个模型对概率大于0.5.的像素数目进行计数来验证，并且采用得到较小数目的模型。

在一种实施方式中，可以使用6-分量(例如，3个用于前景颜色、3个用于背景颜色)来训练GMM。最终的前景概率可通过对数标尺进行正则化，即：

P_{C} (x) = \frac{\log P_{B} (x)}{\log P_{F} (x) + \log P_{B} (x)}, x &Element; W_{k}^{i + 1} .

图15示出了由于使用两种候选颜色模型而导致的示例性差异，其中两种候选颜色模型例如基于来自两个分类器像素{F₁，B₁；F₂，B₂}的混合颜色模型，以及仅基于来自第一分类器像素{F₁，B₁}的简单颜色模型。在上面一行，使用了图14的分类器区域，可以看到，由混合模型生成的概率图比由简单模型生成的概率图清楚得多，即前景和背景被更清楚地分开，并且也更接近地对应于第二图像。因而，在这种情况下，应该使用混合颜色模型。在下面一行，第二帧没有前景部分，但预测的轮廓仍指示了前景部分。注意，使用混合颜色模型的概率图并不对应于第二图像(因为前景变化很大)，而使用简单颜色模型的概率图正确地反映了没有前景像素的情况，因而在这种情况下，应采用简单颜色模型。

综上，在一些实施方式中，生成局部分割颜色模型可以包括：根据至少一个先前图像的局部分类器中所包括的至少一个先前图像的相应区域的颜色信息，来生成局部分割简单颜色模型；以及根据至少一个先前图像的局部分类器中所包括的至少一个先前图像的相应区域的颜色信息以及当前图像的局部分类器中所包括的当前图像的相应区域的颜色信息，来生成局部分割混合颜色模型。可以确定局部分割混合颜色模型与局部分割简单颜色模型的辨识度。继而，至少根据局部分类器中包括的至少一个先前图像的相应区域的颜色信息来生成局部分割颜色模型可以包括：如果局部分割简单颜色模型具有比局部分割混合颜色模型更大的辨识度，则选择局部分割简单颜色模型作为局部分割颜色模型；如果局部分割混合颜色模型具有比局部分割简单颜色模型更大的辨识度，则选择局部分割混合颜色模型作为局部分割颜色模型。

形状先验

如上所述，除了颜色模型之外，形状先验(即预测形状)亦可用来生成分类器区域的概率或特征图。更具体地，来自预测形状的贡献(作为加权和的一部分)可以基于颜色模型的辨识度，其中如果颜色模型清楚区分了前景颜色和背景颜色，则依赖颜色模型来对该区域的像素进行分类，以及如果颜色模型未清楚区分，则依赖形状先验来对像素进行分类，其中中间状况由应用到每个的权重解决，例如，其中权重的和取为某正则化值，例如1。换句话说，在一些实施方式中，权重是颜色及形状贡献的线性和中的因数。然而注意，在其它实施方式中，可通过非线性组合来确定形状及颜色贡献。

图16示出了根据一种实施方式的形状预测置信度。更具体地，图16示出了例如在颜色贡献与形状贡献的加权线性和中，基于上述预测轮廓的像素分类的置信度与预测形状概率图对整合概率图的贡献之间的示例性关系。如图16所示，在这种实施方式中，对于每个像素，取决于由d轴表示的与估计轮廓的像素的距离，由Ps轴表示的应用于形状贡献的权重从0变到1，即从无贡献变到唯一的贡献。如上面所讨论的，来自颜色模型和预测形状的贡献可以是互补的，从而使得一个增加，另一个就降低。注意，根据图16的图，d值为0意味着像素位于(至少近似地)轮廓上，因此，根据预测的形状来判断像素位于(实际)轮廓的哪一侧(FG或BG)具有最大的不确定性，因此，应用于形状预测的权重为0。此外，对于位置距离0充分远(沿任一方向)的像素，即深入区域的FG或BG部分的像素，可以通过预测形状(权重给为1)对其进行可靠的分类。在数学上表示成：

假设Mk是由Ci+1包围的二值(前景)遮罩，即：

M_{k} (x) = \{\begin{matrix} 1, d_{x} &GreaterEqual; 0 \\ 0, d_{x} < 0 \end{matrix} .

形状置信度项(权重)Ps可定义为：

P_{s} (x) = \{\begin{matrix} \frac{| d_{x} |}{σ}, | d_{x} | \leq σ \\ 1, | d_{x} | > σ \end{matrix},

其中σ是控制形状的模糊宽度的参数，即关于预测形状(即，估计轮廓)的不确定带，其中如上所述，σ表示颜色模型的辨识度。换句话说，σ的值取决于颜色模型中前景和背景的分离度或辨识度，并且该值被用来模糊预测形状的轮廓，从而使得颜色模型越可靠，预测形状关于轮廓就越不清楚。因而，考虑距离估计轮廓愈远的像素，愈发依赖于预测形状来将像素分类为FG或BG像素，相反，对于距离估计轮廓愈近的像素，愈依赖于颜色图，其中变换的宽度和比率由σ指定，如图16所示。当然，应注意根据需要，其它实施方式可按不同方式来整合颜色贡献与形状贡献。

颜色与形状的整合

图17示出了根据一种实施方式的、基于颜色模型的辨识度的形状预测约束。如上文关于图16所述，模糊宽度σ与颜色模型的辨识度有关。当前景和背景颜色分离时，σ大且形状约束宽松，即预测形状概率图中的模糊带较宽；当FG和BG颜色是混合的时侯，σ变小且形状约束严格，预测形状概率图中的模糊带较窄。

在一种实施方式中，可以使用分类误差作为颜色辨识度的测量。例如，设L_k是来自颜色模型的W_k ⁱ的预测标签(F＝1，B＝0)。分类误差e是误分类的和，通过距轮廓的距离来加权：

e = \frac{{&Integral;}_{W_{k}^{i}} | L_{k} (x) - M_{k} (x) | \cdot ω (x) dx}{{&Integral;}_{W_{k}^{i}} ω (x) dx},

其中

ω (x) = \exp (- \frac{d_{x}^{2}}{2 σ_{d}^{2}}) .

如图17所示，σ是e的递减函数：

σ = \{\begin{matrix} σ_{\min} + a {(e - e_{\max})}^{r}, & 0 \leq e \leq e_{\max} \\ σ_{\min}, & e > e_{\max} \end{matrix},

其中

a = \frac{σ_{\max} - σ_{\min}}{e_{\max}^{r}} .

换句话说，一旦确定了帧i+1的颜色图(如上所述)，其可用来对帧i(其实际分类已知，因为该图像已进行分割)的像素进行(重)分类，并且通过确定由于颜色模型而导致的误差，来确定颜色模型的置信度或可靠性，即确定σ。换句话说，一旦计算出误差e，可从其计算出σ。注意经由上述表达式，可以对σ值施加限制，具体地σ_min和σ_max。

在一种示例性实施中，e_max＝0.12，σ_max＝l，σ_min＝2，并且r＝2。l是W_k ⁱ的大小，如上面所提到的，最终概率是颜色先验与形状先验的加权线性组合：

P_int(x)＝P_s(x)M_k(x)+(1-P_s(x))P_C(x)。

因而，如图17所示，颜色模型的最小辨识度σ_min可与关于颜色模型的最大误差相关，并且可定义形状预测占主导贡献的点。

图18示出了根据一种实施方式的颜色与形状整合。更具体地，图18示出了示例性的颜色概率图与形状概率图(即特征图)，P_c和P_s，以及用于分类器(区域)的对应整合概率图P_int。注意，整合概率或特征图是比颜色或形状图中的任何一个更精确及恰当的轮廓估计。因而，通过使用上面技术的实施方式，每个分类器可确定用于接近估计轮廓的图像相应部分的概率或特征图。

组合特征图

在一种实施方式中，可以组合所有局部窗口中的(即，来自所有局部分类器的)概率(即概率或者特征图)，以形成组合特征图。例如，对于所述多个分类器中的每个局部分类器来说，可根据局部分类器的局部分割形状和局部分割颜色模型的加权组合来生成局部特征图估计，其中局部特征图估计将相应区域中的像素分类为背景或前景像素。接着，可通过组合局部特征图估计来生成当前图像的特征图估计。

如果像素被多个窗口覆盖，则其相应的概率(分类)可以根据不同窗口中的(即，来自不同分类器的)值的加权线性组合来确定，例如：

P (x) = \frac{\underset{k}{Σ} P_{int} (x - c_{k}) ω_{k}}{\underset{k}{Σ} ω_{k}}

ω_k＝(|x-c_k|+ε)^-1，

其中c_k是W_k ⁱ⁺¹的中心，k对覆盖x的所有窗口求和，ε是小的常量。换句话说，对于像素或点x，应用于如下相应概率值的权重可以基于x距每个分类器窗口的中心点的距离，其中所述相应概率值来自于线性和中的分类器的每个重叠概率或特征图。当然，这种上述组合方案仅仅是示例性的，并不意味着将用来组合局部特征图的技术限制于任意特定方法。

因而，可以使用多个局部分类器中每一个的颜色模型和形状预测二者来确定图像的组合概率或特征图(例如，帧i+1的)。换句话说，可以将多个局部特征图(例如前景遮罩)缝合到一起，以形成全局或组合的特征图或遮罩。

在704，可根据分割形状预测和分割颜色模型的加权组合，自动生成当前图像的分割，如下所述。

分割

在一种实施方式中，可以使用组合特征(概率)图来分割图像(分割为前景及背景部分)。例如，在一种实施方式中，可以使用组合特征图(也即，所生成的针对当前图像的特征图估计)、利用诸如图切割之类的图像处理算法来分割图像，其中概率值可设置为数据成本，之后，可执行GAC(测地线主动轮廓)算法来进一步规则化边界，例如通过Level Set方法来实施。然而注意，可以根据需要采用任意其它算法和/或工具。

在备选实施方式中，可以使用每个局部特征图来对每个分类器窗口执行局部分割，之后将这些局部分割(分割图像部分)缝合到一起从而形成分割图像，而不是生成组合特征图并继而根据组合特征图来分割图像。

迭代细化

在一些实施方式中，上述技术部分可按迭代方式重复，从而进一步细化分割。例如，将分割边界用作初始轮廓，可以重复上述特征图估计和分割过程，以生成更精确的结果。在一种实施方式中，在迭代期间，可固定窗口或分类器区域，也即，可以仅更新轮廓内部(分类器区域的局部前景部分)。对每个迭代，可选择不同的颜色样本，且可以将当前轮廓用作形状先验或预测形状。继而可以对局部结果进行组合以便进行分割。当局部分类器的轮廓不再发生大的变化时，例如在某一指定阈值内，例如最多几个(10到20个)像素，则迭代可以终止。图19描述了根据一种实施方式的关于特征图估计和分割的轮廓迭代。可以看到，在特征图估计和分割之后，通过分类区域的中心点的初始(估计)轮廓可移动到中心的右边。接着，该轮廓可用于下一迭代，即进行下一特征图估计和分割。换句话说，自动生成当前图像的分割生成了当前图像的形状轮廓，且该方法可包括迭代地执行上述确定分割形状预测和分割颜色模型，以及自动地生成当前图像的分割，直到当前图像的形状轮廓收敛，其中每个迭代的当前图像的分割被用作下一迭代的分割信息。

通常，不同分类器(窗口)以不同的速度收敛。因而，在每个迭代的结尾，可以标记已收敛的分类器，在将来的迭代中可仅更新未标记的分类器。如上所注，可执行迭代，直到所有分类器收敛，或者直到确定不会出现收敛，在这种情况下，用户例如可以通过手工分割图像进行干预，下面将进行更详细地讨论。

在706，可以存储当前图像的分割，例如存储在计算机***100的存储器介质中，和/或例如通过例如SAN的网络耦合到计算机***的存储器介质上。该方法继而可对视频序列的后续图像或帧重复上述方法步骤，下面将进行更详细地描述。换句话说，可对视频序列中的一个或多个邻近图像重复：确定视频序列的当前图像的分割形状预测和分割颜色模型，自动生成当前图像的分割，以及存储当前图像的分割。

在一种实施方式中，存储当前图像的分割可以包括：存储描述或指明图像分割的信息，以便例如随后用于处理图像，例如为了特定效果等。在其它实施方式中，可以存储分割图像本身。

多帧传播

由于误差会逐帧累积，上述单帧传播技术的简单串联可能导致严重的不精确性。下面描述两种能有效地控制或改善误差扩散的方法。第一种方法是始终依赖于第一帧中的颜色样本。因而，尽管单帧传播方法形成了在此公开的自动分割技术的基础，但是在一些实施方式中，可扩展及修改该方法以形成多帧传播过程，其中初始帧的颜色信息用来自动对多个后续帧执行分割。

图20描述了根据一种实施方式的使用初始帧颜色模型的分割的多帧传播。如图20所示，第一帧C1用来生成后续轮廓或分割序列，具体地用于后续帧C2-Cn。可以看到，初始帧(C1)的颜色模型被用于每个后续帧，而每个帧的形状信息(例如每一帧的形状预测)用于下一帧。换句话说，每个帧的自动分割采用了来自初始帧(在“混合模型”情况下，可能是当前帧)的颜色模型，但采用了前一帧的预测形状。换句话说，为了确定帧Ci+1的分割，根据C1(可能是Ci+1)来确定颜色模型，而不是根据Ci和Ci+1构造颜色模型。该方案将每一帧的分割误差保持在恒定水平，这不同于误差随传播扩散或增大的简单串联方法。注意，对每个后续帧来说，自动分割是一迭代过程，类似于上述迭代细化。

以略有不同的方式来表述，在一些实施方式中，对于上述迭代执行(确定分割形状预测和分割颜色模型，以及自动生成当前图像的分割)中的每个迭代，当形状轮廓收敛之后，可以将局部分类器重定位到所述形状轮廓上。这种重定位可以包括：确定从局部分类器中心到形状轮廓的法向距离；以及至少部分基于所述法向距离来将局部分类器移动到形状轮廓上。确定法向距离以及移动局部分类器可以使误差的传播和扩散得以改善。在一种实施方式中，可以使用法向距离的局部平均值来重定位每个窗口。

在抑制误差的第二种方法中，可以向分类器窗口位置增加反馈修正，这可以使分类器鲁棒地追踪轮廓或边界。图21示出了根据一种实施方式的使用关于窗口/分类器位置的反馈修正方法的分割的多帧传播。更具体地，图21示出了这一过程的示例性实施方式，其中可以看到，在(a)中指示初始窗口位置，其中轮廓通过了多个分类器窗口的中心点。这可以表示通过形状预测由分类器的粗略对齐(以及各个相应的轮廓分段)生成的状况。在(b)中，当迭代的细化过程收敛之后，形成新的边界或轮廓。接着，对于每个窗口中心，可确定其在新的轮廓或边界上最近点的位移。换句话说，一旦确定了新轮廓，可确定从每个分类器中心点到新轮廓的法向位移(向量)。接着，如(c)所示，可以根据该位移来移动分类器窗口中心。例如，在一种实施方式中，可以根据绕区域的平均位移来移动分类器窗口中心，例如，可以基于相邻或邻近分类器(例如，与当前分类器交叠的那些分类器)的位移向量的平均来移动分类器窗口，例如根据需要，可以对窗口i-2、i-1，i，i+1和i+2的向量求平均，以移动窗口i，或者可以对当前窗口的某个距离之内的分类器的向量求平均等等。在备选实施方式中，分类器窗口中心可根据其相应的位移简单地移动到轮廓上。最后，如图21的(d)所示，通过上文描述的形状预测，边界或轮廓以及分类器窗口中心可以移动或传播到下一帧。由此，一旦移动了轮廓或边界，窗口中心可随后移动到(或靠近)轮廓。

由此，可以采用上述一种或两种抑制误差的方法来限制或改进自动分割过程中误差的传播及扩散，然而应当注意到，可以根据需要使用任意其它误差管理技术。

用户交互

参照图2及其它如上所述，在一些实施方式中，可以提供图形用户界面(GUI)以允许用户修改分割结果，例如由此，用户可以与自动分割过程交互并对其进行干预。例如，在自动确定的轮廓/分割不能收敛的状况下，或者在确定轮廓不精确的情况下，用户例如可以按照前向渐进方式来编辑分割结果。

给定分割良好的帧，该方法可自动地将分割传播到下面的N个帧，且用户可向前播放视频从而检测结果，直到找到错误。现在示出两种用户修正模式。

局部修正

对于小错误，用户可仅修正一小部分轮廓。换句话说，可以仅仅手工更新数量有限的窗口。修正接着可传播到下面的帧中。

重置开始帧

在需要进行较大修正的情况下(例如在数量和/或种类上)，例如在轮廓飘离边界、前景对象移出/移入场景、前景遮蔽等情况下，用户可以手工修正当前帧，并且可以将当前帧设为进行自动分割过程的第一帧或初始帧，并且方法从该帧继续，向前传播，直到出现另一个错误。当到达最后一帧时，整个视频序列得以分割。图22示出了根据一种实施方式的用户交互以修正或重置视频序列中的多帧分割传播，其中上面的帧序列(1到5)根据初始帧1自动分割，但是在帧3中检测到了错误并且由用户进行了修正。接着，如图22所示，重置经修正的帧3，或将其指定为相继帧(4到7)的连续(重新计算的)分割的初始帧。

更详细地说，在一些实施方式中，对视频序列中的一个或多个邻近图像而言，执行上述确定视频序列的当前图像的分割形状预测和分割颜色模型、自动生成当前图像的分割以及存储当前图像的分割可以包括：对视频序列中的第一组多个邻近图像，包括对于所述第一组多个邻近图像中的最终(即最后)图像，执行确定视频序列的当前图像的分割形状预测和分割颜色模型、自动生成当前图像的分割以及存储当前图像的分割；继而响应于输入，编辑所述最终图像的分割，从而生成已编辑分割信息；继而对于视频序列中的第二组多个邻近图像，包括对于所述第二组多个邻近图像的第一图像，执行确定视频序列的当前图像的分割形状预测和分割颜色模型、自动生成当前图像的分割以及存储当前图像的分割，其中所述第一图像与所述视频序列中的所述第一组多个邻近图像中的最终图像邻近。由此，用于确定第二组多个邻近图像中的第一图像的分割形状预测和分割颜色模型的已有分割信息可以包括所述已编辑分割信息。

应该注意，尽管上述技术被描述为在视频序列中分割的前向传播，但是在一些实施方式中，该技术亦可或者替代地沿反向传播。换句话说，对于视频序列的特定方向而言，在此描述的技术是不可知的或者是通用的。

在一些实施方式中，可以使用这方面来改进分割过程。例如，在一种实施方式中，上述方法的实施方式可从任一端在视频序列(可以是较大视频序列中的较小的子序列)上执行，例如并发地和/或顺序地，例如直到每个图像的轮廓收敛。例如，在一种实施方式中，用户可以手工分割限定序列的两个关键帧，接着从两端向内传播，可以在中间停止(至少暂时地)，从而使该图像的竞争轮廓相一致，接着可选地继续到相反端，(通过相反传播)对先前计算的分割进行细化。亦可预期这种双向技术的其它变体。

因而，上述技术的各种实施方式可用来自动传播视频序列中的前景/背景图像分割。

示例性结果

图23和图24示出了应用上述技术的实施方式得到的示例性视频序列，其中视频序列的初始图像在左边(从上到下)垂直示出，在图的中间示出了对应的分割遮罩或特征图，而在右边垂直示出了具有合成在蓝色背景上的已分割前景的对应图像。可以看到，在两个序列中，由用户提供了第一(上方的)分割遮罩。注意，在图23的序列中，示出了每隔10个帧，如通过标记每个初始帧图像的帧编号所指示的。

虽然已详细描述了上述实施方式，但是只要充分理解了上述公开，则许多变体和修改对本领域技术人员来说是显而易见的。所附权利要求将解释成包括所有这些变体和修改。

Claims

1.一种***，包括：

装置，用于根据视频序列的至少一个先前图像的已有分割信息来确定所述视频序列的当前图像的分割形状预测和分割颜色模型；

装置，用于根据所述分割形状预测和所述分割颜色模型的加权组合来自动生成所述当前图像的分割；以及

装置，用于存储所述当前图像的分割。

2.如权利要求1的***，其中所述确定分割形状预测和分割颜色模型包括：

构造用于所述至少一个先前图像的多个局部分类器，其中每个局部分类器包括所述至少一个先前图像的相应区域，所述相应区域包括所述至少一个先前图像的形状轮廓的相应部分，并且其中所述多个局部分类器覆盖所述至少一个先前图像的所述形状轮廓；以及

对于所述多个分类器中的每个局部分类器：

根据所述局部分类器中包括的所述至少一个先前图像的所述形状轮廓的相应部分，生成所述当前图像的局部分割形状预测；以及

至少根据所述局部分类器中包括的所述至少一个先前图像的相应区域的颜色信息，生成局部分割颜色模型。

3.如权利要求2的***，其中所述自动生成当前图像的分割包括：

对于所述多个分类器的每个局部分类器：

根据局部分类器的所述局部分割形状和所述局部分割颜色模型的加权组合来生成局部特征图估计，其中所述局部特征图估计将相应区域中的像素分类为背景像素或前景像素；

通过组合所述局部特征图估计，来生成所述当前图像的特征图估计；以及

根据生成的特征图，生成所述当前图像的分割。

4.如权利要求3的***，其中所述根据形状轮廓的相应部分生成局部分割形状预测包括：

通过应用于所述相应区域中多个关键点的缩放不变特征变换(SIFT)，生成初始局部分割形状预测；以及

通过使用应用于沿所述形状轮廓的相应部分的点的光流，来细化所述初始局部分割形状预测的估计，从而生成所述局部分割形状预测。

5.如权利要求4的***，其中所述通过使用应用于沿所述形状轮廓的相应部分的点的光流来细化所述初始局部分割形状预测的估计从而生成所述局部分割形状预测包括：

根据相应区域中前景像素的光流来确定局部平均流向量；

将所述局部平均流向量应用于沿所述形状轮廓的所述相应部分的所述点，从而生成所述局部分割形状预测。

6.如权利要求5的***，进一步包括：

装置，用于通过将所述平均流向量应用于所述至少一个先前图像的所述多个局部分类器，构造与所述至少一个先前图像的所述多个局部分类器相对应的、所述当前图像的多个局部分类器，其中所述当前图像的每个局部分类器包括所述当前图像的相应区域，所述相应区域包括所述当前图像的形状轮廓的相应部分，并且其中所述当前图像的所述多个局部分类器覆盖所述当前图像的所述形状轮廓。

7.如权利要求6的***，其中所述生成局部分割颜色模型包括：

根据所述至少一个先前图像的所述局部分类器中包括的所述至少一个先前图像的相应区域的颜色信息，生成局部分割简单颜色模型；

根据所述至少一个先前图像的所述局部分类器中包括的至少一个先前图像的相应区域的颜色信息以及所述当前图像的所述局部分类器中包括的所述当前图像的相应区域的颜色信息，生成局部分割混合颜色模型；

确定所述局部分割混合颜色模型和所述局部分割简单颜色模型的辨识度；

其中根据所述局部分类器中包括的所述至少一个先前图像的相应区域的颜色信息来生成局部分割颜色模型包括：

如果所述局部分割简单颜色模型具有大于所述局部分割混合颜色模型的辨识度，则选择所述局部分割简单颜色模型作为所述局部分割颜色模型；以及

如果所述局部分割混合颜色模型具有大于所述局部分割简单颜色模型的辨识度，则选择所述局部分割混合颜色模型作为所述局部分割颜色模型。

8.如权利要求7的***，其中所述根据所述局部分类器的局部分割形状和局部分割颜色模型的加权组合来生成局部特征图估计包括：

对于相应区域中的至少一个像素子集中的每个像素：

根据所述像素距所述形状轮廓的部分的距离以及所述局部分割颜色模型的所述辨识度，来确定形状置信度测量；

根据所述局部分割颜色模型对所述至少一个先前图像的相应区域中的前景像素和背景像素进行分类的能力，来确定颜色置信度测量；

使用通过所述形状置信度测量加权的所述局部分割形状以及通过所述颜色置信度测量加权的所述局部分割颜色模型，将所述像素分类为背景或前景。

9.如权利要求2的***，其中所述自动生成当前图像的分割产生所述当前图像的形状轮廓，其中所述***进一步包括：

装置，用于迭代地执行所述确定分割形状预测和分割颜色模型以及所述自动生成当前图像的分割，直到所述当前图像的所述形状轮廓收敛，其中每个迭代的当前图像的分割被用作下一迭代的分割信息。

10.如权利要求9的***，进一步包括：

装置，用于当所述形状轮廓收敛时，将所述局部分类器重定位到所述迭代执行的每个迭代的所述形状轮廓上，其中所述重定位包括：

确定从所述局部分类器的中心到所述形状轮廓的法向距离；以及

至少部分地根据所述法向距离来将所述局部分类器移动到所述形状轮廓上；

其中所述确定法向距离和所述移动局部分类器使误差的传播和扩散得以改善。

11.如权利要求2的***，其中所述多个局部分类器的每个局部分类器的相应区域与所述多个局部分类器的至少其它两个局部分类器的相应区域交叠。

12.如权利要求1的***，进一步包括：

装置，用于对视频序列中一个或多个邻近图像执行所述确定视频序列的当前图像的分割形状预测和分割颜色模型、所述自动生成当前图像的分割、以及所述存储当前图像的分割。

13.如权利要求12的***，其中对于视频序列中的一个或多个邻近图像，所述确定分割颜色模型包括：选择所述至少一个先前图像的所述分割颜色模型，其中使用所述至少一个先前图像的所述分割颜色模型使误差的传播和扩散得以改善。

14.如权利要求12的***，其中所述执行包括：

对于视频序列中的第一组多个邻近图像，包括对于所述第一组多个邻近图像中的最终图像，执行所述确定视频序列的当前图像的分割形状预测和分割颜色模型、所述自动生成当前图像的分割、以及所述存储当前图像的分割；

响应于输入，编辑所述最终图像的分割，从而生成已编辑分割信息；以及

对于所述视频序列中的第二组多个邻近图像，包括对于所述第二组多个邻近图像中的第一图像，执行所述确定视频序列的当前图像的分割形状预测和分割颜色模型、所述自动生成当前图像的分割、以及所述存储当前图像的分割，其中所述第一图像与所述视频序列中的所述第一组多个邻近图像中的所述最终图像邻近，其中用于所述确定所述第二组多个邻近图像中的所述第一图像的分割形状预测和分割颜色模型的所述已有分割信息包括所述已编辑分割信息。

15.如权利要求1的***，其中所述已有分割信息指示所述视频序列的至少一个先前图像的分割轮廓，其中所述分割轮廓将所述至少一个先前图像的背景从前景中划分出来。

16.一种计算机实现的方法，包括：

根据视频序列的至少一个先前图像的已有分割信息，来确定所述视频序列的当前图像的分割形状预测和分割颜色模型；

根据所述分割形状预测和所述分割颜色模型的加权组合来自动生成所述当前图像的分割；以及

存储所述当前图像的分割。

17.如权利要求16的计算机实现的方法，其中所述确定分割形状预测和分割颜色模型包括：

构造所述至少一个先前图像的多个局部分类器，其中每个局部分类器包括所述至少一个先前图像的相应区域，所述相应区域包括所述至少一个先前图像的形状轮廓的相应部分，并且其中所述多个局部分类器覆盖所述至少一个先前图像的所述形状轮廓；以及对于所述多个分类器中的每个局部分类器：

18.如权利要求17的计算机实现的方法，其中所述自动生成当前图像的分割包括：

对于所述多个分类器的每个局部分类器：

根据局部分类器的所述局部分割形状和所述局部分割颜色模型的加权组合，生成局部特征图估计，其中所述局部特征图估计将相应区域中的像素分类为背景像素或前景像素；

通过组合所述局部特征图估计来生成所述当前图像的特征图估计；以及

根据生成的特征图，生成所述当前图像的分割。

19.如权利要求18的计算机实现的方法，其中所述根据形状轮廓的相应部分生成局部分割形状预测包括：

20.如权利要求19的计算机实现的方法，其中所述通过使用应用于沿所述形状轮廓的相应部分的点的光流来细化所述初始局部分割形状预测的估计从而生成所述局部分割形状预测包括：

根据相应区域中的前景像素的光流来确定局部平均流向量；

21.如权利要求20的计算机实现的方法，进一步包括：

通过将所述平均流向量应用于所述至少一个先前图像的所述多个局部分类器，构造与所述至少一个先前图像的所述多个局部分类器相对应的、所述当前图像的多个局部分类器，其中所述当前图像的每个局部分类器包括所述当前图像的相应区域，所述相应区域包括所述当前图像的形状轮廓的相应部分，并且其中所述当前图像的所述多个局部分类器覆盖所述当前图像的所述形状轮廓。

22.如权利要求21的计算机实现的方法，其中所述生成局部分割颜色模型包括：

其中至少根据所述局部分类器中包括的所述至少一个先前图像的相应区域的颜色信息来生成局部分割颜色模型包括：

如果所述局部分割简单颜色模型具有大于局部分割混合颜色模型的辨识度，则选择所述局部分割简单颜色模型作为所述局部分割颜色模型；以及

23.如权利要求22的计算机实现的方法，其中所述根据所述局部分类器的局部分割形状和局部分割颜色模型的加权组合来生成局部特征图估计包括：

对于相应区域中的至少一个像素子集中的每个像素：

24.如权利要求17的计算机实现的方法，其中所述自动生成当前图像的分割产生所述当前图像的形状轮廓，其中所述方法进一步包括：

迭代地执行所述确定分割形状预测和分割颜色模型以及所述自动生成当前图像的分割，直到所述当前图像的形状轮廓收敛，其中每个迭代的当前图像的分割被用作下一迭代的分割信息。

25.如权利要求24的计算机实现的方法，进一步包括：

对所述迭代执行的每个迭代，当所述形状轮廓收敛时，将所述局部分类器重定位到所述形状轮廓上，包括：

26.如权利要求17的计算机实现的方法，其中所述多个局部分类器的每个局部分类器的相应区域与所述多个局部分类器的至少其它两个局部分类器的相应区域交叠。

27.如权利要求16的计算机实现的方法，进一步包括：

对视频序列中一个或多个邻近图像执行所述确定视频序列的当前图像的分割形状预测和分割颜色模型、所述自动生成当前图像的分割、以及所述存储当前图像的分割。

28.如权利要求27的计算机实现的方法，其中对于视频序列中的一个或多个邻近图像，所述确定分割颜色模型包括选择所述至少一个先前图像的所述分割颜色模型，其中使用所述至少一个先前图像的所述分割颜色模型使误差的传播和扩散得以改善。

29.如权利要求27的计算机实现的方法，其中所述执行包括：

响应于输入，编辑最终图像的分割，从而生成已编辑分割信息；以及

对于视频序列中的第二组多个邻近图像，包括对于所述第二组多个邻近图像中的第一图像，执行所述确定视频序列的当前图像的分割形状预测和分割颜色模型、所述自动生成当前图像的分割、以及所述存储当前图像的分割，其中所述第一图像与所述视频序列中的所述第一组多个邻近图像中的所述最终图像邻近，其中用于所述确定所述第二组多个邻近图像中的所述第一图像的分割形状预测和分割颜色模型的所述已有分割信息包括所述已经编辑分割信息。

30.如权利要求16的计算机实现的方法，其中所述已有分割信息指示所述视频序列的至少一个先前图像的分割轮廓，其中所述分割轮廓将所述至少一个先前图像的背景从前景中划分出来。