CN102360494B

CN102360494B - 一种多前景目标交互式图像分割方法

Info

Publication number: CN102360494B
Application number: CN 201110317169
Authority: CN
Inventors: 向世明; 孟高峰; 潘春洪
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-10-18
Filing date: 2011-10-18
Publication date: 2013-09-04
Anticipated expiration: 2031-10-18
Also published as: CN102360494A

Abstract

本发明提供一种多前景目标交互式图像分割方法，包括步骤：对像素颜色在图像局部窗口内进行线性重构，利用线性投影对颜色重构系数进行多次修正；利用修正后的颜色重构系数对像素类别标签向量在图像局部窗口内进行多次线性重构，估计得到局部重构误差；累加局部重构误差获得全局重构误差；构建多前景目标交互式图像分割模型；对用户标注的同一类像素进行聚类分析，获得聚类中心；以聚类中心为训练样本，采用回归估计得到一组多项式函数；利用多项式函数对未标注像素进行映射，获得初始解；求解分割模型；判定未标注像素的类别归属，输出分割结果。本发明解决现有技术难以同时分割多个前景目标的问题，具有广阔的应用前景。

Description

一种多前景目标交互式图像分割方法

技术领域

本发明涉及图像处理和模式识别等技术领域，特别涉及基于图像像素类别标签向量多次线性重构和像素类别标签向量回归的多前景目标交互式图像分割方法。

背景技术

图像分割是指将用户感兴趣的视觉目标从图像背景中分离开来，从而将图像划分为多个互不相交的子区域。图像分割可为视觉目标跟踪、目标分类、目标编辑等后续图像处理任务提供基础，在数字娱乐、医学图像处理、视频监控、工业检测、军事和体育等各行各业中有着十分重要的应用。

经过过去几十年的研究，图像分割技术得到了较大的发展。但是，目前并不存在一个通用的分割方法能够完全自动地分割所有的复杂图像。其根本原因在于视觉模式分组的不确定性。这种不确定性集中地体现在，一个实体目标，比如行人，通常由多个具有不同视觉外观的区域所构成，但在构建完全自动的图像分割方法时却缺少如何将这些视觉区域组合成所需目标的相关线索。在交互式图像分割中，基于用户标注的前景目标和图像背景，可有效地避免模式分组的不确定性。交互式图像分割技术一经出现便得到了广泛的应用。

交互式图像分割方法可以分为基于边界的方法和基于区域的方法。早期的交互式图像分割方法，如智能剪刀法、目标抽取法等，均属于基于边界的方法。这类方法要求用户沿着目标边界勾画，通常需要花费较长的用户交互时间。近年来，随着模式识别技术的发展，研究人员提出了基于区域的交互式图像分割方法。在人机交互方式上，用户只需在感兴趣的前景目标和图像背景中通过拖动鼠标勾画出一些划痕，即可完成交互。可见，在这类方法中，用户提供交互信息的方式更加轻松，所需交互时间会更短。相对于基于边界的分割方法，基于区域的方法充分地利用了图像的局部空间结构，通常可获得更精确的分割结果。

图论是构建基于区域的交互式图像分割方法的一个有力工具。其中，基于图切割的交互式图像分割方法是目前使用最广泛的一种方法。在此方法中，首先对图上的每一条边赋权重，然后将用户标注像素的类别标签信息在该图上进行传播，并采用最大流量/最小切割方法来给出分割结果。像素的类别标签信息在该图上的传播也被研究人员解释为一个随机游走问题。即是说，让未标注像素在图上沿带权重的边进行随机游走。在游走的过程中，如果首先遇到用户标注的前景像素，则该像素将被标注为前景目标；否则将被标注为背景目标。但是，分割结果在很大程度上取决于边权重。同时，为了获得精确的分割结果，基于边权重的方法需要大量的用户标注，这就增加了用户的标注工作量。

随后，研究人员提出了多种基于局部判别分析的图论方法。这类方法并不需要对图上的每一条边赋权重，而是在每一个像素的局部窗口邻域内引入一个判别分析方法，将像素通过其特征向量直接映射为类别标签，比如局部线性表示、局部线性变换等方法。随后，研究人员提出对图像局部窗口内的每一个像素，分别用其余像素的类别标签来估计该像素的类别标签。比如，对3×3大小的图像局部窗口，需要执行9次类别标签估计。相应地，由于需要对图像局部窗口内的每一个像素的类别标签进行误差估计，计算量变得十分庞大。另外，如果图像局部窗口内像素的颜色相同，这种估计将执行完全相同的计算，从而并不能提高该方法的分割精度。总结起来，这些方法存在图像分割的精度有限或者计算复杂度较高的缺点，不便于快速准确地呈现交互式分割结果。

另外，现有的交互式图像分割方法主要是针对两类分类问题而设计的。需要强调的是，多年以来研究人员已经注意到，图切割方法可以自然地进行扩展并用于处理多类分类问题。但是，图切割方法需要大量的用户交互以及对边权重较敏感等缺点，在多类分类问题中并没有引起人们的广泛兴趣。在实际应用中，用户为了将一幅图像中多个前景目标从背景中分割出来，通常仍依赖于一个较好的两类分类方法。但是，在实施分割的过程中，用户需要多次调用两类分类方法来完成其分割任务。图1给出了一个例子。为了分割出图中的两个游客，需要将其中一人当作背景，每次分割出一个游客，然后将两次分割结果进行合成。但可能存在另一个问题，即两次分割的前景区域有可能在边界附近出现重叠。因此，这种重叠需要额外的方法来进行处理。这种每次只分割出一个前景目标的方法，必然需要较多的用户参与和较长的用户等待时间。

发明内容

现有的交互式图像分割技术主要是针对两类分类问题而设计的，即一次运行从图像背景中分割出一个前景目标。当需要从图像背景中分割出多个前景目标时，需要多次调用两类分类方法，然后再将分割结果进行合成。这不仅增加了用户的等待时间，操作起来也不方便，本发明的目的在于克服现有技术难以一次性分割出多于一个前景目标的不足，提供一种一次运行即可从图像背景中分割出多个前景目标的交互式图像分割方法。

为达成所述目的，本发明提供的多前景目标交互式图像分割方法的步骤包含：

步骤S1：输入图像及用户标注的前景目标和图像背景，对图像的每一个像素，在其图像局部窗口内对其颜色进行线性重构，利用最小二乘估计获得初始的颜色重构系数，通过线性投影方法对初始的颜色重构系数进行修正，得到多组修正后的颜色重构系数；

步骤S2：对图像的每一个像素，分别用每一组修正后的颜色重构系数对其类别标签向量在其图像局部窗口内进行线性重构，将多次重构误差进行累加，得到对应于该像素的类别标签向量的局部重构误差；

步骤S3：累加所有像素的类别标签向量的局部重构误差，得到类别标签向量的全局重构误差；

步骤S4：基于类别标签向量的全局重构误差和用户标注像素的类别标签信息，构建多前景目标交互式图像分割模型；

步骤S5：以像素颜色及空间坐标组成像素特征，分别对用户标注的属于同一类的像素进行聚类分析，获得聚类中心；

步骤S6：以各聚类中心为训练样本通过回归估计得到一组多项式函数；

步骤S7：利用回归估计得到的多项式函数，对未标注像素进行映射，获得该像素的类别标签向量的初始解；

步骤S8：以未标注像素的类别标签向量的初始解为基础，采用基于二部图的共轭梯度迭代法求解多前景目标交互式图像分割模型，获得未标注像素的类别标签向量；

步骤S9：根据求解获得的未标注像素的类别标签向量，判定其类别归属，输出分割结果。

优选实施例，对初始的颜色重构系数进行修正的次数由位于图像局部窗口内的像素颜色自动确定，实现步骤如下：给定像素p及其3×3大小的图像局部窗口，记位于该图像局部窗口内的其它8个邻居像素为p₁，p₂…，p₈；记∑_p为一个3行8列的颜色平移矩阵，即

Σ_{p} = [v_{p_{1}} - v_{p}, v_{p_{2}} - v_{p}, \cdot \cdot \cdot, v_{p_{8}} - v_{p}],

其中v_p，

分别表示像素p，p₁，p₂，…，p₈的颜色向量；记σ₁，σ₂，…，σ₈为8×8大小的矩阵

按升序排列的特征值，其中η为一个正则化参数，I为一个8×8的单位矩阵，上标T表示转置；将排列好的特征值σ₁，σ₂，…，σ₈序列，从第一个特征值开始向后逐次分成前后两段数据，计算前一段特征值数据之和与后一段特征值数据之和的比值；如果该比值小于0.5，则继续对该特征值序列进行前后分组；如果该比值大于0.5，则停止分组，记录当前已执行的分组次数即为需要对初始的颜色重构系数进行修正的次数。

优选实施例，采用线性投影法对初始的颜色重构系数进行修正，得到多组修正后的颜色重构系数，其实现步骤如下：记向量w_p记录像素p的初始的颜色重构系数；记t_p为对初始的颜色重构系数进行修正的次数，按如下方法对向量w_p进行t_p次修正，得到如下t_p个向量，每个向量记录一组修正后的颜色重构系数：

{\tilde{w}}_{p}^{(1)} = (w_{p} + s_{1}) / 2,

{\tilde{w}}_{p}^{(2)} = (w_{p} + s_{2}) / 2,

\cdot \cdot \cdot, {\tilde{w}}_{p}^{(t_{p})} = (w_{p} + s_{t_{p}}) / 2,

式中：

分别记录t_p次颜色重构系数修正后的结果；s₁表示矩阵S的第一列；s₂表示矩阵S的第二列；

表示矩阵S的第t_p列；S为由线性投影方向向量导出的颜色重构系数修正矩阵。

优选实施例，聚类中心数目默认取值40。

优选实施例，所述的一组多项式函数由聚类中心导出，并具有如下形式：

f_{m} (x) = Σ_{i = 1}^{C} Σ_{j = 1}^{K} α_{j, i}^{(m)} {(1 + x \cdot c_{j}^{(i)})}^{2},

m＝1，2，…，C，

式中：f_m(x)表示第m个多项式函数；x为一个5维向量，表示自变量；C为类别总数，其中类别包含用户标注的各前景目标和图像背景；K为聚类中心数目；

表示属于第i类的第j个聚类中心；

表示多项式系数；“·”表示向量内积运算符。

优选实施例，采用基于二部图的共轭梯度迭代法求解多前景目标交互式图像分割模型是将图像视为一个四连通的格子图，按空间间隔一行和一列的方式将像素划分为两个集合以构成一个二部图，在用共轭梯度迭代法进行求解时，交替更新对应于两个像素集合的类别标签向量。

本发明的有益效果：本发明的方法针对交互式图像分割中一次需要提取多个前景目标的实际应用需求，可将用户标注的多个前景目标从图像背景中同时分割出来。1)该方法对前景目标的数目不设限制，完全可以满足各种应用需求；2)该方法将交互式图像分割视为一个多类分类问题，根据多类分类机理构建图像分割模型，具有思想直观，理论完善，易于编程等特点；3)该方法仅依赖于输入图像的像素颜色和空间位置信息，无需额外的视觉特征，可实现准确快速的多前景目标分割。本发明是一种新型的多前景目标交互式图像分割技术，突破了现有技术难以从图像背景中同时分割出多个前景目标的限制。该方法通过在每个像素的图像局部窗口内多次实施类别标签向量线性重构，可提高所建交互式图像分割模型的精度；通过回归估计得到一组多项式函数为模型求解提供了良好的初始解；采用基于二部图的共轭梯度迭代法进行求解，可减少迭代次数和计算量，加快模型求解速度。本发明提供的多前景目标交互式图像分割技术，分割精度高、计算快速，在数字娱乐与艺术、消费类电子、医学图像处理、目标识别等领域具有广阔的应用前景。

附图说明

图1是调用现有的两类分类方法分割多个前景目标的步骤示意图；

图2是使用本发明方法分割多个前景目标的步骤示意图；

图3是图像像素编号示意图；

图4是关于像素的3×3邻域及像素的8个邻居像素示意图；

图5是将重构系数局部关联矩阵累加至重构系数全局关联矩阵的示意图；

图6是由图像像素构成的二部图示意图；

图7a是待分割的图像，包含两个需要分割的行人；图7b是关于前景目标和图像背景的用户标注；图7c是执行本发明方法得到的分割结果；图7d是根据分割结果提取出来的两个行人；

图8a是待分割的图像，包含五朵需要分割的鲜花；图8b是关于前景目标和图像背景的用户标注；图8c是执行本发明方法得到的分割结果；图8d是根据分割结果提取出来的五朵鲜花；

图9a是待分割的图像，其中只包含一个需要分割的海星；图9b是关于前景目标和图像背景的用户标注；图9c是执行本发明方法得到的分割结果；图9d是根据分割结果提取出来的海星；

图10a是待分割的图像，其中需要分割的前景目标是离镜头最近的游客；图10b是关于前景目标和图像背景的用户标注；图10c是执行现有的图切割方法得到的分割结果；图10d是执行本发明方法得到的分割结果。

图11是本发明多前景目标交互式图像分割方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明构建一个多前景目标交互式图像分割方法，一次性地快速准确地分割出多个前景目标，如附图2所示，是对现有方法的一个很好的补充。

下面结合附图对本发明加以说明。图11示出本发明的多前景目标交互式图像分割方法，主要包含以下步骤：

步骤S1：输入图像及用户标注的前景目标和图像背景，对图像的每一个像素，在其图像局部窗口内对其颜色进行线性重构，利用最小二乘估计获得初始的颜色重构系数，通过线性投影方法对初始的颜色重构系数进行修正，得到多组修正后的颜色重构系数。

具体地，对输入的待分割图像，记图像的宽度为w个像素，图像高度为h个像素。按行扫描的方式，从左至右从上至下对图像像素进行连续编号，如附图3所示。

对像素p，p＝1，2，…，w×h，以该像素为中心，取出其3×3像素大小的图像局部窗口，即3×3像素大小的邻域。特别地，对位于左上角、左下角、右上角、右下角、左边界、右边界、上边界和下边界的像素，其图像局部窗口定义为与其最近的一个3×3邻域。这样，每一个像素可获得一个3×3像素大小的图像局部窗口及位于该窗口内的8个邻居像素。关于像素的图像局部窗口及其8个邻居像素的直观获取方法，可参见附图4。

对像素p的8个邻居像素，从小到大对它们的编号进行排列，记为p₁，p₂，…，p₈。接着，对像素p的红绿蓝三个颜色分量分别进行归一化，并组成一个三维颜色向量。归一化即是用灰阶数除以255得到。依此类推，可以分别获得像素p的8个邻居像素的颜色向量。然后，用8个邻居像素的颜色向量线性地近似重构像素p的颜色向量如下：

v_{p} \approx w_{1} v_{p_{1}} + w_{2} v_{p_{2}} + \cdot \cdot \cdot w_{8} v_{p_{8}},

其中，v_p为像素p的颜色向量；为其8个邻居像素的颜色向量；w₁，w₂，…，w₈分别为对应于像素p₁，p₂，…，p₈的颜色重构系数，其和为1，即w₁+w₂+…+w₈＝1。

采用向量符号简记方法，我们用向量w_p记录这8个颜色重构系数，即w_p＝[w₁，w₂，…，w₈]^T，其中上标T表示转置。在满足上述颜色重构系数之和等于1的约束条件下，采用通常的最小二乘估计方法得到w_p如下：

w_{p} = {(Σ_{p}^{T} Σ_{p} + ηI)}^{- 1} e / sum ({(Σ_{p}^{T} Σ_{p} + ηI)}^{- 1} e),

其中，η为一个小的正数，是一个正则化参数；I为一个8×8的单位矩阵，与ηI组成一个正则化项，可避免因单纯地使用矩阵而出现矩阵不可逆的情形；e为一个元素全为1的8维向量，用于计算矩阵行和；sum(·)表示对向量元素求和；∑_p为一个3行8列的颜色平移矩阵，其各列为8个邻居像素分别与像素p的颜色向量之差，即另外，上标T表示转置，上标“-1”表示矩阵求逆运算。在本发明中，η可取0.001～0.1之间的任意值。

向量w_p记录了像素p始初的8个颜色重构系数。这些颜色重构系数实际上只是统计意义上的最小二乘解。下面说明如何通过线性投影法对向量w_p进行修正，以获得修正后的颜色重构系数。

首先，对矩阵

进行特征值分解，获得8个特征值和8个模长为1的特征向量。按特征值升序方式将它们排列如下：(σ₁，u₁)，(σ₂，u₂)，…，(σ₈，u₈)。在每一括号内，前者表示矩阵

的特征值，后者表示与该特征值相对应的特征向量。比如，σ₁为矩阵

最小的特征值，u₁为与最小的特征值对应的特征向量；σ₈为矩阵最大的特征值，u₈为与最大的特征值对应的特征向量。

其次，自动确定对颜色重构系数的修正次数。具体地，将排列好的特征值σ₁，σ₂，…，σ₈序列，从第一个特征值开始向后逐次分成前后两段数据，计算前一段特征值数据之和与后一段特征值数据之和的比值。比如，第一次计算时，获得比值

依此类推。如果该比值小于0.5，则继续对该特征值序列进行前后分组。如果发现该比值大于0.5，则停止分组，记录当前已经执行的分组次数。该分组次数即为需要对颜色重构系数进行修正的次数记为t_p。

接着，定义一个线性投影方向向量，以便对记录于向量w_p中的初始的颜色重构系数进行修正从而降低重构误差。具体地，取出前t_p个最小的特征值对应的特征向量按顺序组成一个8行t_p列矩阵H，即

基于矩阵H，定义如下线性投影方向向量q：

q = (\sqrt{t_{p}} \times | {sum}_{column} (H) | \times e_{0} - t_{p}^{2} \times {sum}_{column} (H)),

其中，sum_columu(H)表示对矩阵H按各列元素分别求和所获得的一个长度为t_p的行向量，|·|表示向量的模，e₀为一个长度为t_p且元素全为1的行向量。因此，q为一个长度为t_p的行向量。随后，用向量q的每一个元素除以其模长使向量q的模长等于1。

然后，利用投影方向向量q，对矩阵H进行线性投影，得到一个大小为8行t_p列的矩阵S，即

矩阵S即为由线性投影方向向量导出的颜色重构系数修正矩阵。取出S的每列，按如下公式对w_p进行t_p修正：

{\tilde{w}}_{p}^{(1)} = (w_{p} + s_{1}) / 2,

{\tilde{w}}_{p}^{(2)} = (w_{p} + s_{2}) / 2,

\cdot \cdot \cdot, {\tilde{w}}_{p}^{(t_{p})} = (w_{p} + s_{t_{p}}) / 2,

其中，

分别记录t_p组修正结果，每组包含8个修正后的颜色重构系数；s₁表示矩阵S的第一列；s₂表示矩阵S的第二列；

表示矩阵S的第t_p列。

可以证明，利用上述修正后的颜色重构系数来重构像素p的颜色，会减少颜色重构误差。通过这一步我们得到了t_p组修正后的颜色重构系数。

步骤S2：对图像的每一个像素，分别用每一组修正后的颜色重构系数对其类别标签向量在其图像局部窗口内进行线性重构，将多次重构误差进行累加得到对应于该像素的类别标签向量的局部重构误差。

对象素p，p＝1，2，…，w×h，记y_p为像素p的类别标签向量；记为其8个邻居的类别标签向量。对给定的待分割图像，设用户标注了C-1个前景目标，考虑到图像背景，待分割的图像最终将被分成C类，C为类别总数。为了解决多类分类问题，这里需要用C维类别标签向量来替代整数型类别标号。需要强调的是，采用类别标签向量表示方法也适用于两类问题，即只包含一个前景目标和一个背景的情形。此时，类别标签向量为一个二维向量，也可实现两类划分。

首先，取出记录于向量

中的8个修正后的颜色重构系数t₁，t₂，…，t₈，记

利用像素p的8个邻居像素的类别标签向量，重构像素p的类别标签向量如下：

y_{p} \approx t_{1} y_{p_{1}} + t_{2} y_{p_{2}} + \cdot \cdot \cdot t_{8} y_{p_{8}} .

接着，逐一取出记录于

的各组修正后的颜色重构系数，按上述方法分别对像素p的类别标签向量y_p进行线性重构。

这样，对像素p的类别标签向量y_p一共进行了t_p次线性重构。对每一次线性重构，可以估计一个重构误差。通过这种方式，一共可以估计t_p个误差。比如，对第一次线性重构，可获得误差

其中|·|表示向量求模运算。累积这些误差的平方，通过简单的矩阵运算，可得像素p的类别标签向量y_p在图像局部窗口内的局部重构误差

其中，tr(·)表示对括号内的矩阵求迹运算，即表示求括号内的矩阵的主对角线元素之和；Y_p为由像素p及其8个邻居像素的标签向量所构成的大小为C行9列的矩阵，即A_p为一个9×9的重构系数局部关联矩阵，它通过t_p次类别标签重构累积得到，其计算公式如下：

A_{p} = (\begin{matrix} 1 & - {({\tilde{w}}_{p}^{(1)})}^{T} \\ - {\tilde{w}}_{p}^{(1)} & {\tilde{w}}_{p}^{(1)} {({\tilde{w}}_{p}^{(1)})}^{T} \end{matrix}) + (\begin{matrix} 1 & - {({\tilde{w}}_{p}^{(2)})}^{T} \\ - {\tilde{w}}_{p}^{(2)} & {\tilde{w}}_{p}^{(2)} {({\tilde{w}}_{p}^{(2)})}^{T} \end{matrix}) + \cdot \cdot \cdot + (\begin{matrix} 1 & - {({\tilde{w}}_{p}^{(t_{p})})}^{T} \\ {\tilde{w}}_{p}^{(t_{p})} & {\tilde{w}}_{p}^{(t_{p})} {({\tilde{w}}_{p}^{(t_{p})})}^{T} \end{matrix}),

这里，上标T表示转置。

通过这一步，我们得到了像素类别标签向量的局部重构误差

tr (Y_{p} A_{p} Y_{p}^{T}) .

步骤S3：累加所有像素的类别标签向量的局部重构误差，得到类别标签向量的全局重构误差。

具体地，对像素p，p＝1，2，…，w×h，累加步骤S2所得到的各像素类别标签向量的局部重构误差，得到类别标签向量的全局重构误差

Σ_{p = 1}^{w \times h} tr (Y_{p} A_{p} Y_{p}^{T}) .

下面说明如何计算该全局重构误差。设L为一个行和列均为w×h的重构系数全局关联矩阵，用于记录对重构系数局部关联矩阵的累加结果。为此，应先将重构系数全局关联矩阵L初始化为一个零矩阵。另外，由于每一个像素只与周围8个邻居像素关联，因此重构系数全局关联矩阵L可以分配为一个稀疏矩阵。

对像素p，p＝1，2，…，w×h，先取出像素p的8个邻居像素的编号，即p₁，p₂，…，p₈，然后将步骤S2得到的重构系数局部关联矩阵A_p中的元素逐一加到重构系数全局关联矩阵L的一个9×9的子矩阵中。行序号和列序号的对应关系为：

1→p，2→p₁，3→p₂，

4→p₃，5→p₄，6→p₅，

7→p₆，8→p₇，9→p₈.

可进一步解释如下：将重构系数局部关联矩阵A_p的第一行第一列元素加到重构系数全局关联矩阵L的第p行第p列的元素之上；将重构系数局部关联矩阵A_p的第一行第二列元素加到重构系数全局关联矩阵L的第p行第p₁列的元素之上；依此类推。关于上述累加过程，可参见附图5。

按上述步骤，将图像像素p从编号1遍历至编号w×h，最终可获得重构系数全局关联矩阵L的所有元素。

接着，记Y为一个大小为C行w×h列的类别标签向量矩阵，其每列对应于一个像素的类别标签向量。这样，对所有局部重构误差的求和则等于对矩阵乘积YLY^T的求迹运算，即

其中tr(·)表示对括号内的矩阵求迹运算，上标T表示转置。

步骤S4：基于类别标签向量的全局重构误差和用户标注像素的类别标签信息，构建多前景目标交互式图像分割模型。

多前景目标交互式图像分割模型的目标函数由两项构成。一项为步骤S3得到的类别标签向量全局重构误差，另一项为用户标注像素的类别标签向量的似然误差。

为了计算用户标注像素的类别标签向量的似然误差，需分配一个大小为C行w×h列的矩阵Z，用于记录用户标注像素的类别标签信息。为此，需要将矩阵Z初始化为0。然后，对标注像素所在的列，用该像素的类别标签向量填充矩阵Z的该列。具体地，如果该列对应的像素已标注且属于第i类，则该列的第i个元素为1，其余元素全为0。最后，用户标注像素的类别标签向量的似然误差可计算为：tr((Y-Z)(Y-Z)^T)，其中，tr(·)表示对括号内的矩阵求迹运算，上标T表示转置，Y为步骤S3中的类别标签向量矩阵。

综合类别标签向量全局重构误差和用户标注像素的类别标签向量的似然误差，构建如下多前景目标交互式图像分割模型：

\min_{Y} tr ({YLY}^{T}) + γtr ((Y - Z) {(Y - Z)}^{T}),

其中，γ为一个正则化平衡参数，用于对两项误差进行平衡。对于参数γ，如果γ＝0表示用户的标注不会起作用。当γ取无穷大时，在上述模型中，第一项将不会起作用。为了在两项之间取得平衡，并最终得到对未标注像素的分割结果，γ既不能取0，也不能取无穷大。但是，参数γ的值越大，记录于矩阵Z中的有关用户标注像素的类别标签向量越不容易被违反。在交互式图像分割中，我们认为用户的标注总是对的，需要得到满足。因此，在本发明中，γ取10000至100000之间的任意值。因为实验表明这个范围内的取值可以得到最理想的结果。

通过这一步，我们得到了一个可以实现多前景目标交互式图像分割的最优化模型。该模型的特点在于，所需求解的变量Y为一个矩阵，而不是一个向量。另外，该模型有唯一的一个全局最优解，采用有效的迭代求解法能够收敛到全局最优解。我们知道，良好的初始解是加快迭代求解的关键。在接下来的步骤S5、S6、S7中，将通过回归估计方法为每个未标注像素的类别标签向量计算一个初始解，以便加快迭代求解过程。

步骤S5：以像素颜色及空间坐标组成像素特征，分别对用户标注的属于同一类的像素进行聚类分析，获得聚类中心。

在交互式图像分割中，用户通过拖动鼠标来标注前景目标和图像背景。在拖动鼠标的过程中，用户很容易标注成千上万个像素。但是，具体到同一前景目标或者图像背景，其所包含的不同颜色个数通常是很小的。基于此，我们对标注像素进行聚类分析。

设用户一共标注了C类，包含C-1个前景目标和一个图像背景。对用户标注的每一个像素p，用其归一化的像素颜色和图像坐标作为该像素的特征向量x_p：

x_{p} = {[\frac{r_{p}}{255}, \frac{g_{p}}{255}, \frac{b_{p}}{255}, \frac{x_{p}}{w}, \frac{y_{p}}{h}]}^{T},

其中，r_p，g_p，b_p分别为像素p的红绿蓝三颜色分量，x_p，y_p分别为其图像空间横坐标和纵坐标，w为图像的宽度，h为图像的高度，上标T表示转置。

取出用户标注的属于第i类的所有像素，按上述方法提取每一个像素的特征向量，采用常用的K-均值方法对这些特征向量进行聚类分析，获得K个聚类中心，记为

其中上标(i)表示这些聚类中心是从用户标注的第i类像素中聚类得到的。

本发明方法中，聚类中心数目K设定为40。由于每一个聚类中心代表一个基本聚类模式，因此用这些数目的聚类中心可以表述十分复杂的视觉目标。另外，即便对仅含有少数几种颜色的目标，当K被设定为40时，由于在特征向量中引入像素空间坐标，聚类中心不会为空且大多数聚类中心都是相近的，因此并不会引起计算上的冲突。

最后，将类别i从1一直遍历到C，一共可获得C×K个聚类中心，依次记为：

{c_{1}^{(1)}, c_{2}^{(1)}, \cdot \cdot \cdot, c_{k}^{(1)}; c_{1}^{(2)} c_{2}^{(2)}, \cdot \cdot \cdot, c_{K}^{(2)}; \cdot \cdot \cdot; c_{1}^{(C)}, c_{2}^{(C)}, \cdot \cdot \cdot, c_{K}^{(C)}},

其中，

表示属于第一类的K个聚类中心；

表示属于第二类的K个聚类中心；

表示属于第C类的K个聚类中心。

步骤S6：以各聚类中心为训练样本通过回归估计得到一组多项式函数。

由于每个聚类中心属于哪一类是事先已知的，因此它们的类别标签向量也是已知的。如果聚类中心属于第i类(i＝1，2，…，C)，则其类别标签向量是一个C维向量，且只有第i个元素为1，其余C-1个元素全为零。记该向量为c_i，即c_i＝[0，…，0，1，0，…，0]^T，其中上标T表示转置。

需要指出的是，此处引入的类别标签向量也适用于只需分割出一个前景目标的情形。考虑到背景必须做为一类来处理，此时令C＝2即可。

然后，引入C个多项式函数。每一个多项式函数为C×K个基本项的线性组合。每一个基本项为一个二阶多项式，其具体形式为(1+x·y)²，其中x为一个5维向量，表示自变量；y代表一个5维向量，对应于某一聚类中心；运算符“.”表示向量的内积。基于C×K个聚类中心，C个多项式函数的最终形式如下：

f_{m} (x) = Σ_{i = 1}^{C} Σ_{j = 1}^{K} α_{j, i}^{(m)} {(1 + x \cdot c_{j}^{(i)})}^{2},

m＝1，2，…，C，

其中，

表示待定系数，f_m(x)表示第m个多项式函数，m从1一直取值到C。每一个多项式函数包含C×K个待定系数。

接着，利用回归估计方法来确定这些多项式的系数。具体地，将C×K聚类中心分别作为自变量，逐一代入至C个多项式函数，其对应的多项式函数的值由类别标签向量的分量来决定。比如，对第一个聚类中心由于其属于第一类，此时有

对其它聚类中心点，依此类推。对C×K聚类中心，一共可以得到K×C²个方程。进一步，利用矩阵代数可将这些方程收集到一个线性方程组中，以便于高效求解。该线性方程组为：

其中，A、α和B代表括号中的对应矩阵。对上式中的各符号，可进一步解释如下：A表示该线性方程组的系数矩阵，其行数和列数均为C×K；α为一个C×K行C列的待求的系数矩阵，其第一列为多项式函数f₁(x)中的C×K个等待求系数，最后一列为f_C(x)中的C×K个等待求系数，其它各列依此类推；B为一个C×K行C列矩阵，各列记录C×K聚类中心被同一多项式映射后的值。另外，矩阵A元素的值由各多项式函数中的基本项来计算，比如，

a_{1,1} = {(1 + c_{1}^{(1)} \cdot c_{1}^{(1)})}^{2},

a_{1,2} = {(1 + c_{1}^{(1)} \cdot c_{2}^{(1)})}^{2},

a_{1, C \times K} = {(1 + c_{1}^{(1)} \cdot c_{K}^{(C)})}^{2};

a_{2,1} = {(1 + c_{2}^{(1)} \cdot c_{1}^{(1)})}^{2},

a_{1,2} = {(1 + c_{2}^{(1)} \cdot c_{2}^{(1)})}^{2},

a_{1, C \times K} = {(1 + c_{2}^{(1)} \cdot c_{K}^{(C)})}^{2};

a_{C \times K, 1} = {(1 + c_{K}^{(C)} \cdot c_{1}^{(1)})}^{2},

a_{C \times K, 2} = {(1 + c_{K}^{(C)} \cdot c_{2}^{(1)})}^{2},

a_{C \times K, C \times K} = {(1 + c_{K}^{(C)} \cdot c_{K}^{(C)})}^{2};

对其他元素，依此类推。

采用矩阵符号简记方法，上述线性方程组可简写为Aα＝B。在正则化的回归估计框架下，系数矩阵α由如下公式来计算：

α＝(A+λI)^-1B，

其中，λ为一个正则化回归参数，I为一个与矩阵A同大小的单位矩阵。引入正则项λI，是为了防止因矩阵A不可逆所带来的计算问题以及防止对C×K个聚类中心的过拟合。在本发明中，λ取0.001～0.1，因为实验表明这个范围内的取值可以得到最理想的结果。

求出系数矩阵α之后，也就完成了对C个多项式函数f₁(x)，f₂(x)，…，f_C(x)的估计。

步骤S7：利用回归估计得到的多项式函数，对未标注像素进行映射，获得该像素的类别标签向量的初始解。

对待分割图像的每一个用户未标注像素，按步骤S5相同的方法获取一个5维特征向量。以该向量为自变量，利用步骤S6获得的C个多项式函数进行映射，可获得C个映射结果。最后，将这C个结果按顺序组成一个C维向量，作为该未标注像素的类别标签向量的初始解。

步骤S8：以未标注像素的类别标签向量的初始解为基础，采用基于二部图的共轭梯度迭代法求解多前景目标交互式图像分割模型，获得未标注像素的类别标签向量。

具体地，对步骤S4所构建的多前景目标交互式图像分割模型，对其目标函数求关于类别标签向量矩阵Y的导数，并令导数等于零，可以得到如下线性方程组：

(L+γE)Y＝γEZ，

其中，E为一个行数和列数均为w×h的主对角矩阵，按像素编号顺序对应于用户标注像素的主对角线元素的值为1，其余元素的值全为零。

求解线性方程组的方法有很多，比如常用的消元法等。但对大规模线性方程组消元法获得的精度往往并不高。我们采用迭代法来求解。最常用的迭代求解法是高斯-塞德尔迭代法和共轭梯度迭代法。但高斯-塞德尔迭代法的收敛速度较慢。因此采用共轭梯度迭代法进行求解。标准的共轭梯度迭代法是逐变量迭代的。为了减少计算量，加快计算速度，我们将图像视为一个二部图，并在此基础上执行共轭梯度迭代法。

为此，我们将图像视为一个四连通的格子图，每个像素为该图上的一个顶点，以空间间隔一行和一列的方式，将此格子图的顶点划分为两个集合，记为集合F和集合G。这样得到了一个二部图。关于顶点的划分可参考附图6。在附图6中，矩形顶点属于一个集合，圆形顶点则属于另一个集合。可见，属于同一个集合的顶点相互之间没有边相连，且每一个像素只属于两个顶点集合中的某一个，因此附图6中关于顶点的划分满足二部图的全部特性。这样任何一对连通像素点对均被划分到不同的集合。

在迭代开始前，分配一个C行w×h列矩阵，记为Y₀。根据像素编号，在矩阵Y₀中对应于未标注像素的列，用步骤S7获得的该未标注像素的类别标签向量的初始解来填充该列元素；在矩阵Y₀中对应于用户标注像素的列，用已知的该像素的类别标签向量来填充该列元素，即如果该标注像素属于第i类(i＝1，2，…，C)，则其类别标签向量是一个C维向量，且只有第i个元素为1，其余C-1个元素全为零。

然后，以矩阵Y₀为初始值开始迭代。在迭代的过程中，先保持二部图中集合G中的像素在当前解Y中的值不变，通过利用共轭梯度迭代法更新集合F中的像素所对应的解。接着，保持集合F中的像素在当前解Y中的值不变，迭代更新集合G中的像素所对应的解。按此方式循环求解直到收敛。由于每次只更新一半数目的像素，可明显加快收敛速度。

通过这一步，我们得到了类别标签向量矩阵Y，其中对应于未像素的列记录了未标注像素的类别标签向量。

步骤S9：根据求解获得的未标注像素的类别标签向量，判定其类别归属。

具体地，从步骤S8获得的类别标签向量矩阵Y中，逐次取出对应于未标注像素的各列元素，求这些元素的最大者，将最大者所在的位置序号作为该像素的最后类别标号。

通过这一步，每一个未标注像素均获得了一个类别标号，每一个类别标号均为1，2，…，C中的一个整数。

介绍了实施方案中的技术细节之后，下面说明本发明的试验效果。为了验证本发明的有效性，我们用包含不同数目的前景目标的图像进行实验。

图7a至图7d给出了一个包含两个前景目标的交互式图像实例。对图7a中的图像，我们的任务是要将两个行人从背景中分割出来。考虑到背景必须作为一类，因此需要将该任务视为一个三类分类问题。图7b给出了对目标和背景的标注，分别采用了三种颜色。图7c给出了通过执行本发明所述方法得出的分割结果，其中黑色区域代表背景，灰色和白色区域分别代表一个前景目标。图7d给出了通过分割结果从原图像中提取出的前景目标。可见，两个行人被精确地从背景中分割开来。

图8a至图8d给出了一个包含五个前景目标的交互式图像实例。对图8a中的图像，我们的任务是要将五朵鲜花从背景中分割出来。考虑到背景必须作为一类，因此需要将该任务视为一个六类分类问题。图8b给出了对目标和背景的标注，分别采用了六种不同的颜色。图8c给出了通过执行本发明所述方法得出的分割结果。图8d给出了通过分割结果从原图像中提取出的前景目标。可见，五个前景目标被精确地从背景中分割开来。

执行本发明方法，可以从图像中同时分割出数目多于一个的前景目标。当然，本发明方法也可自然地适用于只有一个前景目标的情形。在这种情形下，在本发明所述的步骤中，只需要将类别数C置为2即可。图9a至图9d给出了一个只需分割出一个前景目标的交互式图像分割实例。对图9a中的图像，我们的任务是要将海星从背景中分割出来。考虑到背景必须作为一类，因此需要将该任务视为一个两类分类问题。图9b给出了对前景目标和图像背景的标注，分别采用了两种不同的颜色。图9c给出了通过执行本发明所述方法得出的分割结果。图9d给出了通过分割结果从原图像中提取出的前景目标。可见，作为前景目标的海星被从背景中精确地分割出来。

为了进一步验证本发明的方法，我们与目前在交互式图像分割中使用最广泛的图切割方法进行了比较。图10a至图10d给出了一个比较实例。图10a给出了待分割图像。这里的任务是分割出离镜头最近的游客。图10b给出了对前景目标和背景的标注，分别采用了两种不同的颜色。图10c给出了利用图切割方法分割出来的结果。由于图像左上角存在一块白色的区域没有标注，而这块区域与游客上臂衣服的颜色相当接近，图切割方法将此块背景分割为前景，给出了不正确的分割结果。利用图切割方法要获得更精确的分割结果，需要对左上角属于背景的白色区域进行标注，这就需要更多的人机交互工作。图10d给出了执行本发明方法后得到的分割结果。可见，即使左上角属于背景的白色区域并没有被标注，本发明方法仍可将前景目标从背景中精确地分割出来。

实验表明，本发明方法可以有效地分割出用户指定的前景目标。同时，本发明采用回归估计方法得到未标注像素的类别标签向量的初始解，为迭代求解提供了一个良好的初始值，且进一步通过引入二部图方法以利用图像像素空间结构来求解线性方程组，加快了运算速度。实验表明，对500×500像素大小的图像，在3.0GCPU、2GB的计算机上，在C语言计算环境中本发明方法仅需18秒左右即可给出分割结果。为了进一步评估采用回归估计方法提供一个初始解对计算速度的影响，我们对步骤S8中的初始解Y₀进行随机初始化，也就是不执行步骤S5，S6，S7，在同样的计算环境下，对500×500像素大小的图像，此时需要花40秒左右才能给出分割结果。另外，若利用回归估计方法提供一个初始解，但不采用基于二部图的共轭梯度迭代法，而是采用标准的共轭梯度迭代法求解S8步骤中的线性方程组，对500×500像素大小的图像，此时需要花28秒左右才能给出分割结果。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解为想到的变换或替换，都应涵盖在本发明权利要求的包含范围之内。

Claims

1.一种多前景目标交互式图像分割方法，其特征在于，包括步骤如下：

步骤S1：输入图像及用户标注的前景目标和图像背景，对图像的每一个像素，在其图像局部窗口内对其颜色进行线性重构，利用最小二乘估计获得初始的颜色重构系数，通过线性投影方法对初始的颜色重构系数进行修正，得到多组修正后的颜色重构系数：

所述对图像的每一个像素，在其图像局部窗口内对其颜色进行线性重构的步骤S1B包括：

步骤S1B1，对输入的待分割图像，记图像的宽度为w个像素，图像高度为h个像素，按行扫描的方式，从左至右从上至下对图像像素进行连续编号；

步骤S1B2，对像素p，p＝1，2，…，w×h，以该像素为中心，取出其3×3像素大小的图像局部窗口，即3×3像素大小的邻域；对位于左上角、左下角、右上角、右下角、左边界、右边界、上边界和下边界的像素，其图像局部窗口定义为与其最近的一个3×3邻域，每一个像素可获得一个3×3像素大小的图像局部窗口及位于该窗口内的8个邻居像素；

步骤S1B3，对像素p的8个邻居像素，从小到大对它们的编号进行排列，记为p₁，p₂，…，p₈，对像素p的红绿蓝三个颜色分量分别进行归一化，并组成一个三维颜色向量，依此类推，可以分别获得像素p的8个邻居像素的颜色向量，用8个邻居像素的颜色向量线性地近似重构像素p的颜色向量如下：

v_{p} \approx w_{1} v_{p 1} + w_{2} v_{p 2} + \cdot \cdot \cdot w_{8} v_{p 8},

其中，v_p为像素p的颜色向量；

为其8个邻居像素的颜色向量；w₁，w₂，…，w₈分别为对应于像素p₁，p₂，…，p₈的颜色重构系数，其和为1，即w₁+w₂+…+w₈＝1；

步骤S1B4，采用向量符号简记方法，用向量w_p记录这8个颜色重构系数，即w_p＝[w₁，w₂，…，w₈]^T，其中上标T表示转置，在满足上述颜色重构系数之和等于1的约束条件下，采用通常的最小二乘估计方法得到w_p如下：

W_{P} = {(Σ_{p}^{T} Σ_{p} + ηI)}^{- 1} e / sum ({(Σ_{p}^{T} Σ_{p} + ηI)}^{- 1} e),

其中，η为一个小的正数，是一个正则化参数，取0.001～0.1之间的任意值；I为一个8×8的单位矩阵，与ηI组成一个正则化项；e为一个元素全为1的8维向量，用于计算矩阵行和；sum(·)表示对向量元素求和；∑_p为一个3行8列的颜色平移矩阵，其各列为8个邻居像素分别与像素p的颜色向量之差，即

Σ_{p} = [v_{p 1} - v_{p}, v_{p 2} - v_{p}, \cdot \cdot \cdot, v_{p 8} - v_{p}],

上标T表示转置，上标“-1”表示矩阵求逆运算；

所述通过线性投影方法对初始的颜色重构系数进行修正，得到多组修正后的颜色重构系数的步骤S1C包括：

步骤S1C1，对矩阵进行特征值分解，获得8个特征值和8个模长为1的特征向量，按特征值升序方式将它们排列如下：(σ₁，u₁)，(σ₂，u₂)，…，(σ₈，u₈)，在每一括号内，前者表示矩阵的特征值，后者表示与该特征值相对应的特征向量；

步骤S1C2，确定对颜色重构系数的修正次数，具体地，将排列好的特征值σ₁，σ₂，…，σ₈序列，从第一个特征值开始向后逐次分成前后两段数据，计算前一段特征值数据之和与后一段特征值数据之和的比值，如果该比值小于0.5，则继续对该特征值序列进行前后分组；如果发现该比值大于0.5，则停止分组，记录当前已经执行的分组次数，该分组次数即为需要对颜色重构系数进行修正的次数，记为t_p；

步骤S1C3，定义一个线性投影方向向量，以便对记录于向量w_p中的初始的颜色重构系数进行修正从而降低重构误差，具体地：取出前t_p个最小的特征值对应的特征向量按顺序组成一个8行t_p列矩阵H，即

基于矩阵H，定义如下线性投影方向向量q：

q = (\sqrt{t_{p}} \times | {sum}_{column} (H) | \times e_{0} - t_{p}^{2} \times {sum}_{column} (H)),

其中，sum_column(H)表示对矩阵H按各列元素分别求和所获得的一个长度为t_p的行向量，|·|表示向量的模，e₀为一个长度为t_p且元素全为1的行向量，q为一个长度为t_p的行向量；用向量q的每一个元素除以其模长使向量q的模长等于1；

步骤S1C4，利用投影方向向量q，对矩阵H进行线性投影，得到一个大小为8行t_p列的矩阵S，即

S = | {sum}_{column} (H) | \times (H - 2 H q^{T} q) / \sqrt{t_{p}},

矩阵S即为由线性投影方向向量导出的颜色重构系数修正矩阵，取出S的每列，按如下公式对w_p进行t_p次修正：

{\tilde{W}}_{p}^{(1)} = (W_{p} + S_{1}) / 2, {\tilde{W}}_{p}^{(2)} = (W_{p} + S_{2}) / 2, \cdot \cdot \cdot, {\tilde{W}}_{p}^{(t_{p})} = (W_{p} + S_{t_{p}}) / 2,

其中，

分别记录t_p组修正结果，每组包含8个修正后的颜色重构系数；s₁表示矩阵S的第一列；s₂表示矩阵S的第二列；s_tp表示矩阵S的第t_p列；

步骤S4：基于类别标签向量的全局重构误差和用户标注像素的类别标签信息，构建多前景目标交互式图像分割模型：多前景目标交互式图像分割模型的目标函数由两项构成；一项为步骤S3得到的类别标签向量全局重构误差，另一项为用户标注像素的类别标签向量的似然误差，该步骤包括：

步骤S4A，为了计算用户标注像素的类别标签向量的似然误差，需分配一个大小为C行w×h列的矩阵Z，用于记录用户标注像素的类别标签信息，这里，C为类别总数，w为图像的宽度，h为图像的高度；为此，需要将矩阵Z初始化为0；然后，对标注像素所在的列，用该像素的类别标签向量填充矩阵Z的该列；最后，用户标注像素的类别标签向量的似然误差可计算为：tr((Y-Z)(Y-Z)^T)，其中，tr(·)表示对括号内的矩阵求迹运算，上标T表示转置，Y为大小为C行w×h列的类别标签向量矩阵，其每列对应于一个像素的类别标签向量；

步骤S4B，综合类别标签向量全局重构误差和用户标注像素的类别标签向量的似然误差，构建如下多前景目标交互式图像分割模型：

\begin{matrix} \min_{Y} & tr ({YLY}^{T}) + γtr ((Y - Z) {(Y - Z)}^{T}), \end{matrix}

其中，γ为一个正则化平衡参数，用于对两项误差进行平衡，L为步骤S3构建的全局关联矩阵，tr(·)表示对括号内的矩阵求迹运算，上标T表示转置；

步骤S8：以未标注像素的类别标签向量的初始解为基础，采用基于二部图的共轭梯度迭代法求解多前景目标交互式图像分割模型，获得未标注像素的类别标签向量，

本步骤中，采用基于二部图的共轭梯度迭代法求解多前景目标交互式图像分割模型是将图像视为一个四连通的格子图，按空间间隔一行和一列的方式将像素划分为两个集合以构成一个二部图，在用共轭梯度迭代法进行求解时，交替更新对应于两个像素集合的类别标签向量；

2.根据权利要求1所述的方法，其特征在于，聚类中心数目默认取值40。

3.根据权利要求1所述的方法，其特征在于，所述的一组多项式函数由聚类中心导出，并具有如下形式：

f_{m} (x) = Σ_{i = 1}^{C} Σ_{j = 1}^{K} α_{j, i}^{(m)} {(1 + x \cdot c_{j}^{(i)})}^{2},

m＝1，2，…，C.

式中：f_m(x)表示第m个多项式函数；x为一个5维向量，表示自变量；C为类别总数，其中类别包含用户标注的各前景目标和图像背景；K为聚类中心数目；表示属于第i类的第j个聚类中心；

表示多项式系数；“·”表示向量内积运算符。