CN105787948A

CN105787948A - 一种基于多变形分辨率的快速图像分割方法

Info

Publication number: CN105787948A
Application number: CN201610168393.6A
Authority: CN
Inventors: 韩守东; 邓朔; 陈阳
Original assignee: Huazhong University of Science and Technology
Current assignee: Anhui Zhuorui 3d Technology Co ltd
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2016-07-20
Anticipated expiration: 2036-03-23
Also published as: CN105787948B

Abstract

本发明公开了一种基于多变形分辨率的快速图像分割方法，包括：同时对输入图像进行多种不同的尺度压缩和长宽比调整，然后在不同变形分辨率空间下并行地完成Graph Cuts分割，获取系列不完全准确的临时分割结果，并将这些临时分割结果反变形至原始分辨率空间，通过加权投票的方式得到多变形分辨率权重图；依据多变形分辨率权重图信息对先验掩图Trimap进行矫正，确定并缩小待分割区域，同时对前景与背景的带权高斯混合模型进行训练，进而据此建立精简图模型并快速求解，以得到最终的分割结果。本发明对于包含复杂细节区域的前景物体有着较好的分割效果；算法框架具有灵活的可扩展性，可通过替换不同的底层分割算法以适应不同的分割场景。

Description

一种基于多变形分辨率的快速图像分割方法

技术领域

本发明属于图像处理技术领域，更具体地，涉及一种基于多变形分辨率的快速图像分割方法。

背景技术

图像分割是图像处理领域中的基本任务之一，分割的结果可以为更上层的机器视觉研究，例如视觉显著性分析、场景分析、医学图像分析等，提供关于前景目标的重要描述信息。图像分割方法可以分为无监督与交互式两类。其中，无监督的图像分割方法对输入图像或者应用场景有严格的要求，分割结果往往不可预知也无法干预和矫正。因此，借助低代价用户交互(例如使用标记框或画笔)来辅助完成目标精准分割的分割方法有着更为广泛的应用空间。近年来，基于图割(GraphCuts)框架的交互式分割方法成为了研究的热点与趋势，它所提出的能量泛函，能够很好地融合图像中的区域差异与边缘特征，且具有良好的可扩展性。为了能够在轻量用户交互的前提下对前景目标进行准确而快速的分割，已有大量方法在GraphCuts的基础上进行了扩展和改进。例如，LazySnapping方法通过对原始图像进行超像素预分割，并基于区域的非参数邻近模型来简化图结构，以高效完成图像分割；Lombaert等通过压缩原始图像的分辨率并引入多层窄带还原机制，以构建系列精简的图结构模型来实现加速分割；OneCut方法通过对能量泛函中的L1距离表达形式进行了改进，使其能够更好的拉开前景与背景的特征差异，从而提高分割结果的准确度；GrabCut方法则通过利用高斯混合模型(GaussianMixtureModel,GMM)对目标与背景分别进行概率分布建模，并采用迭代优化机制对图模型进行求解，得到了不错的分割结果。

但是，不管如何扩展或是改进，但凡基于GraphCuts框架的分割方法，在某种确定的图像分辨率情况下，其均固有的存在着“收缩偏执”(shrinkingbias)的问题，即由于能量泛函中的平滑项表示了图像中的边缘属性，因此在使用最大流/最小割算法对图模型进行求解的过程中，解集总是会倾向于包含更短的边界(shorterboundaries)，具体表现为在分割一些具有细长区域或者凹陷区域的前景目标时，其最终分割结果可能会偏执地将这些边界过长的区域直接收缩截断，造成对应区域出现误分割的情况。

发明内容

针对传统基于GraphCuts的分割方法中所存在着“收缩偏执”问题，本发明提出了一种基于多变形(差异性尺度与长宽比)分辨率的快速图像分割方法，通过对原始图像进行多变形分辨率压缩与重组，充分利用GraphCuts方法的“收缩偏执”特性，实现了用户在极简交互(仅需提供一个矩形标记框)情况下对细节丰富前景目标的准确快速分割。

本发明提供了一种基于多变形分辨率的快速图像分割方法，包括：

(1)多变形分辨率权重图的生成：同时对输入图像进行多种不同的尺度压缩和长宽比调整，然后在不同变形分辨率空间下并行地完成GraphCuts分割，获取系列不完全准确的临时分割结果，并将这些临时分割结果反变形至原始分辨率空间，通过加权投票的方式得到多变形分辨率权重图；

(2)基于多变形分辨率权重图的快速分割：依据多变形分辨率权重图信息对先验掩图Trimap进行矫正，确定并缩小待分割区域，同时对前景与背景的带权高斯混合模型进行训练，进而据此建立精简图模型并快速求解，以得到最终的分割结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，由于采用多变形分辨率权重图技术以及精简图模型算法，能够取得下列有益效果：

(1)对于包含复杂细节区域的前景物体有着较好的分割效果；

(2)较低的时间消耗，具备实时分割能力；

(3)算法框架具有灵活的可扩展性，可通过替换不同的底层分割算法以适应不同的分割场景。

附图说明

图1是本发明的流程图；

图2是原始输入图像及其对应的矩形标记框；

图3是各变形分辨率空间下的临时分割结果；

图4是通过公式(7)所生成的多变形分辨率权重图；

图5是矫正Trimap图中“未知”区域的膨胀腐蚀结果；

图6是最终的分割结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的主要内容包含两个部分，分别为多变形分辨率权重图的生成与基于此权重图的快速分割。其中，多变形分辨率权重图的生成策略将GraphCuts方法的“收缩偏执”问题转化为了本发明的优势之一，因为通过对原始图像进行尺度压缩和长宽比调整，原本过长的目标区域边界可能会变成短边界，而由于“收缩偏执”的存在，这些原本无法被准确分割的细节区域将有可能实现正确分割(如图3中的c所示)，但同时，由于多变形分辨率的引入，我们也会丢失掉部分图像信息并得到系列不完全准确的临时分割结果(如图3中的b、d、f所示)，为此我们提出了权重图的概念，通过权重图对多变形分辨率空间下的各临时分割结果进行交叉验证，并对其差异信息进行筛选与重组；另外，由于本发明所生成的多变形分辨率权重图对目标前景有着很强的描述能力，因此我们可以利用此权重图对先验掩图(Trimap，通过用户交互完成先验信息的初始化，分为前景、背景和未知三类)进行矫正，得到关于前/背景更为准确的先验描述信息，结合权重图与矫正后的Trimap，我们便可以构建更为准确的前/背景特征概率分布模型，并最终采用精简图模型方法实现快速分割。

一、多变形分辨率权重图的生成

本发明首先同时对输入图像进行多种不同的尺度压缩和长宽比调整，然后在不同变形分辨率空间下并行地完成GraphCuts分割，获取系列不完全准确的临时分割结果。这里，采用尺度压缩技术来降低输入图像的数据规模，是为了提高本发明的计算效率，因为直接在原始的高分辨率空间中进行图像分割往往耗时较长，而其分割结果与进行合理尺度缩放后的分割结果又相差不大。另外，由于GraphCuts方法的“收缩偏执”，使得相同的输入图像在不同的变形分辨率空间下可以得到不同的分割结果(如图3所示)，虽然这些临时分割结果并不完全准确，但本发明提出的权重图可以有效地对各临时分割结果进行交叉验证，并对其差异信息进行筛选与重组，准确地获取原始图像中关于前景与背景的先验描述信息。

对于原始输入图像I₀，通过尺度压缩和调整图像长宽比，我们可以构建如下的一系列变形低分辨率图像集{I₁,I₂,...,I_R}：

I_i＝η(I₀,λ_i)i＝1,...,R(5)

同时，对于用户通过交互所输入的标记框，我们也采用相同的变形方式对其进行处理。这里，R为所选择的变形分辨率数量；η为某种图像尺度缩放策略；λ_i＝[height_i,width_i]表示由I₀调整到I_i的变形长宽缩放比。

在完成以上所描述的系列尺度压缩和长宽比调整之后，由于各变形低分辨率空间的相互独立性，我们采用了并行加速策略对图像集{I₁,I₂,...,I_R}中的每个图像I_i分别运行GrabCut(由各变形用户标记框初始化)，以获得不同变形低分辨率空间下的临时分割结果集{L₁,L₂,...,L_R}，然后通过采用如下的反变形还原策略将其全部映射回原始分辨率(同I₀)以得到分割标签集{L₁′,L₂′,...,L_R′}：

L_i′＝η(L_i,1/λ_i)i＝1,...,R(6)

为方便统计，对于L_i和L_i′，其取值均为“1”或者“0”的标签值，这里标签“1”表示对应的像素属于前景目标区域，而标签“0”则表示对应的像素属于背景区域。

对于反变形还原后的分割标签集{L₁′,L₂′,...,L_R′}，由于GrabCut继承了GraphCuts方法的“收缩偏执”特性，所以在各变形分辨率空间得到的分割标签结果L_i′并不完全一致。通过对这些标签值的相关性和差异性进行统计分析，我们发现有些像素的标签值在不同的L_i′中基本保持一致(一直被标签为“1”或者“0”，基本可以确认它们就是绝对前景或者绝对背景)，而另外一些像素的标签值则在不同的L_i′中各不相同(真实的目标轮廓往往存于其中)。考虑到在不同变形分辨率空间下得到的分割标签结果L_i′之间的可信度并不相同，本发明设计了基于投票加权的多变形分辨率权重图生成策略，针对原始图像分辨率中的每个像素统计其在多变形分辨率空间下被标记为前景(标签值为“1”)的数量，并采用加权的方式保证统计结果的平衡性和可靠性。我们采用了与原始图像分辨率完全相同的矩阵W来表示多变形分辨率权重图，W中的数值表示了对应像素最终被划分到前景区域的可能性，则该权重图可以按照如下的方式生成得到：

其中，各变形分辨率空间所对应的加权系数为通常，对于公式(5)中的某变形参数λ_i，当其height_i和width_i的乘积越大时，I_i中的像素数量级就会越大，图像经过尺度压缩与长宽比调整后的信息损耗越少，进而L_i和L_i′的可靠程度和准确性就越高，所以其对应的可信度加权系数也可以适当地设置得大一些，反之亦然。

二、基于多变形分辨率权重图的快速分割

对于GraphCuts分割方法，用户交互的数量与准确性对最终的分割质量有着非常重要的影响。通常，更为详细的用户标记(例如采用套索及多次交互)可以提供更多关于前景与背景的描述信息，通过对这些前/背景样本特征进行机器学习或者概率分布统计，就可以构建出更为准确的分割模型，提高分割结果的准确性。虽然本发明的用户标记非常简单(仅需提供一个矩形标记框)，但是我们上节中所生成的多变形分辨率权重图对前景区域及其目标细节具有非常准确的描述能力，因此我们可以利用此权重图对先验掩图(Trimap，由用户标记的矩形框完成初始化，暂分为背景和未知两类，缺乏对前景目标的准确描述)进行如下的矫正(得到Trimap_*)，筛选出未知区域中可信度足够高的前/背景样本点，以代替复杂的用户交互。

{Trimap}_{*}^{(p)} = \{\begin{matrix} f & W^{(p)} > W_{h} \\ u & W^{(p)} &Element; [W_{l}, W_{h}] \\ b & W^{(p)} < W_{l} \end{matrix} - - - (8)

式中，f、u、b分别表示“前景”、“未知”和“背景”，上标(p)表示原始输入图像I₀中某像素p所对应的位置，和分别表示阈值划分的上界与下界，为各变形分辨率空间的平均加权系数，k为上下界阈值的控制系数。

与GrabCut方法类似，本发明也采用了高斯混合模型(GMM)来对前景与背景的颜色特征进行概率密度分布估计。不同的是，传统的GrabCut方法是将用户标记的矩形框内的所有像素均当作前景样本点来进行训练学习，这样势必导致关于前景目标的GMM建模不准，且前景与背景的GMM重叠度过大等问题。而本发明则是先通过公式(8)从全图中筛选出足够丰富、足够可信的前/背景样本点，并结合上节中所生成的多变形分辨率权重图W，对筛选出的前/背景样本点赋予不同的权重(避免低可信度样本集对GMM训练结果造成不良干扰)，构建更为准确的前/背景带权GMM模型。另外，相对于传统GrabCut方法中所采用的K-means算法，本发明采用了Orchard和Bouman所提出的二叉树量化算法用于初始聚类(将进行GMM训练的总样本集Ω划分到不同的高斯分量中去)，该方法对于符合高斯分布的采样空间可以证明是最优的聚类策略。

对于某带权GMM模型中的第m个高斯分量(样本集为Ω_m)，假定其分量权重、带权均值和带权协方差分别为μ_m和C_m，则各参数可以采用如下的方式进行估计：

μ_{m} = {(\underset{x &Element; Ω_{m}}{Σ} ω^{(x)})}^{- 1} \underset{x &Element; Ω_{m}}{Σ} ω^{(x)} I_{0}^{(x)} - - - (10)

C_{m} = {(\underset{x &Element; Ω_{m}}{Σ} ω^{(x)})}^{- 1} \underset{x &Element; Ω_{m}}{Σ} ω^{(x)} (I_{0}^{(x)} - μ_{m}) {(I_{0}^{(x)} - μ_{m})}^{T} - - - (11)

式中，上标(x)表示原始输入图像I₀中某像素x所对应的位置，表示I₀中像素x的颜色特征，ω^(x)则表示像素x的样本带权值。

对样本集Ω中某个样本x所分配的带权值ω^(x)，直接反应了该样本的可信度及其对GMM参数估计的贡献程度，而在我们上节所生成的多变形分辨率权重图W中，其取值越高的区域表示这些区域被标注为前景的可能性越高，反之则为背景的可能性越高。结合公式(8)矫正后得到的Trimap_*，本发明对I₀中的所有像素样本进行了如下的前/背景带权值分配：

于是，在对前景GMM参数进行估计时，样本集Ω取的所有像素点x，ω^(x)采用公式(12)进行样本带权值分配；而在对背景GMM参数进行估计时，样本集Ω取的所有像素点x，ω^(x)采用公式(13)进行样本带权值分配。

在完成前/背景的带权GMM参数估计之后，我们就可以通过构建GraphCuts模型并采用最大流/最小割算法进行全局最优化求解，以得到最终的分割结果。传统的GraphCuts方法往往需要在全图范围内建立能量泛函和图割模型，当图结构规模较大时，势必会导致建模与求解的时间开销偏高。考虑到通过公式(8)矫正后得到的Trimap_*具有足够的准确性和可靠性，而其中绝大多数的像素点已经被标记为“前景”或者“背景”，因此本发明仅需要对那些被标记为“未知”的稀疏区域(相对全图而言，占比很小)构建精简的图模型，这样可以极大地减少建模与求解的计算量。具体地，在构建精简图模型以实现GraphCuts加速时，为保证精简后的图模型分割结构与基于全图的分割结果完全一致，我们需要对全图模型中的部分N-links(平滑项)进行T-links(数据项)折算，折算后的能量泛函如公式(14)所示，这样我们就可以在保障分割结果准确性的同时完成前/背景的快速分割。

E (α) = \underset{p &Element; U}{Σ} (D_{p} (α) + γ \underset{α_{p} &NotEqual; α_{q}}{\underset{q &Element; \overset{&OverBar;}{U}, q &Element; N_{p}}{Σ}} S_{p, q} (α)) + γ \underset{(p, q) &Element; N, α_{p} &NotEqual; α_{q}}{\underset{q &Element; U, q &Element; N}{Σ}} S_{p, q} (α) - - - (14)

式中，α表示精简图模型的最终分割标号值，“0”为背景，“1”为前景；集合U表示Trimap_*中所有被标记为“未知”的像素点集合，而U表示那些被标记为“前景”或“背景”的像素点集合；N为图像中所有邻接像素对所组成的集合，而N_p表示所有与像素p邻接的像素集合；D_p(α)代表数据项(T-links)，可以由公式(9)、(10)、(11)所描述的带权GMM计算为S_p,q(α)代表平滑项(N-links)，可以计算为S_p,q(α)＝τ+||p-q||^-1exp(-ξ||I_p-I_q||²)，其中τ为滤噪常数(一般设为2.5)，||·||为欧式距离，ξ＝(2|N|^-1∑_(p,q)∈N||I_p-I_q||²)^-1；γ是用来控制数据项和平滑项各自权重的平衡系数，一般设为50。

现以图2所示的输入图像为例进行说明：

(1)获取输入图像及其用户交互信息

首先读取待分割的输入图像，如图2所示；然后，提示用户交互式地完成包含前景目标的矩形框标记，如图2中所示的绿色矩形框。

(2)对原始输入图像及其用户标记进行变形压缩

如公式(5)所示，采用标准的双线性插值算法对原始输入图像及其用户标记完成变形压缩，将其变形压缩至R个不同长宽比的低分辨率空间中。此处，R被设置为6，变形长宽缩放比λ_i分别为(1,0.35)、(2,0.25)、(0.25,0.5)、(0.35,1)、(0.25,2)、(0.5,0.5)。对于λ_i参数的选择，我们应当将其height_i和width_i的乘积限制在一个合理的取值范围之内(这里为[0.125,0.5])，使得每个变形低分辨率图像I_i上的像素数量级不会太小而且近似相等，确保在其上得到的临时分割结果足够可信，而且其可信度近似相等，这样才能有效保障权重图生成的质量。

(3)获取各变形低分辨率空间下的临时分割结果

考虑到GrabCut方法具有相当的准确性并且有着较好的时间效率，因此我们使用GrabCut方法来获取各变形低分辨率空间下的临时分割结果，如图3所示。

(4)生成多变形分辨率权重图

对步骤3所产生的各临时分割结果依据公式(2)分别进行反变形还原，并采用公式(7)生成多变形分辨率权重图，如图4所示。由于在步骤2中，我们限制了height_i和width_i的乘积，因此各变形低分辨率图像的像素数量级大体相同，为了便于计算与可视化，我们将公式(7)中各变形分辨率空间所对应的加权系数均设置为20。从图4的可视化效果我们可以看出，多变形分辨率权重图能够很好地描述图像中的前景与背景，颜色越深的区域表示其为前景的可能越高，反之则为背景的可能性越高。

(5)矫正Trimap

基于步骤4所生成的多变形分辨率权重图，采用阈值划分的方式对Trimap进行矫正更新，如公式(8)所示，其中上下界阈值的控制系数k取2。

(6)训练带权GMM模型

在训练GMM模型的统计参数时，样本集的准确程度会直接影响到GMM参数的准确性，因此我们借助步骤5中所矫正的Trimap来获取更加准确的前/背景样本集，并采用公式(12)、(13)为对应的像素进行前/背景带权值分配，进而使用公式(9)、(10)、(11)训练带权的GMM模型。

(7)构建精简图模型并求解

针对步骤5所矫正的Trimap，由于前景物体的真实轮廓一般分布在其“未知”区域的边缘，为了提高最终分割结果的稳定性，我们利用形态学算法对矫正Trimap图中被标记为“未知”的区域分别同时进行一定程度的膨胀和腐蚀，并对膨胀和腐蚀后的结果使用异或运算，如图5所示(此处的膨胀与腐蚀系数均设置为7)，使得最终形成的新“未知”区域最大可能的包含前景的真实轮廓，于是我们仅需要对这些新“未知”区域依据公式(14)构建精简的图模型。对于该区域中的每个像素点p∈U，其在ST精简图模型中所对应的N-links和T-links按如下的方式进行设置：

在建立了以上的ST精简图模型之后，最后使用最大流/最小割算法快速地求解出最终分割结果，如图6所示。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多变形分辨率的快速图像分割方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤(1)中同时对输入图像进行多种不同的尺度压缩和长宽比调整，具体为：

I_i＝η(I₀,λ_i)i＝1,...,R(1)

同时，对于用户通过交互所输入的标记框，我们也采用相同的变形方式对其进行处理；这里，R为所选择的变形分辨率数量；η为某种图像尺度缩放策略；λ_i＝[height_i,width_i]表示由I₀调整到I_i的变形长宽缩放比。

3.如权利要求1或2所述的方法，其特征在于，所述步骤(1)中在不同变形分辨率空间下并行地完成GraphCuts分割，具体为：

用了并行加速策略对图像集{I₁,I₂,...,I_R}中的每个图像I_i分别运行GrabCut(由各变形用户标记框初始化)，以获得不同变形低分辨率空间下的临时分割结果集{L₁,L₂,…,L_R}，然后通过采用如下的反变形还原策略将其全部映射回原始分辨率(同I₀)以得到分割标签集{L′₁,L′₂,...,L′_R}：

L′_i＝η(L_i,1/λ_i)i＝1,...,R(2)。

4.如权利要求3所述的方法，其特征在于，对于L_i和L′_i，其取值均为“1”或者“0”的标签值，这里标签“1”表示对应的像素属于前景目标区域，而标签“0”则表示对应的像素属于背景区域。

5.如权利要求4所述的方法，其特征在于，所述步骤(1)中的将临时分割结果反变形至原始分辨率空间，并通过加权投票的方式得到多变形分辨率权重图具体包括：

采用与原始图像分辨率完全相同的矩阵W来表示多变形分辨率权重图，W中的数值表示了对应像素最终被划分到前景区域的可能性，则该权重图可以按照如下的方式生成得到：

其中，各变形分辨率空间所对应的加权系数为对于公式(5)中的变形参数λ_i，当其height_i和width_i的乘积越大时，I_i中的像素数量级就会越大，图像经过尺度压缩与长宽比调整后的信息损耗越少，进而L_i和L_i′的可靠程度和准确性就越高，其对应的可信度加权系数应适当地设置得大一些，反之亦然。

6.如权利要求1或2所述的方法，其特征在于，所述步骤(2)中的利用权重图矫正Trimap并训练带权高斯混合模型，进而构建精简图模型并求解具体包括：

采用阈值化方式利用权重图中的数值对Trimap进行精确矫正，并划分出未知标记的待分割区域：

{Trimap}_{*}^{(p)} = \{\begin{matrix} f & W^{(p)} > W_{h} \\ u & W^{(p)} &Element; [W_{l}, W_{h}] \\ b & W^{(p)} < W_{l} \end{matrix} - - - (4)

式中，f、u、b分别表示“前景”、“未知”和“背景”，上标(p)表示原始输入图像I₀中某像素p所对应的位置，和分别表示阈值划分的上界与下界，为各变形分辨率空间的平均加权系数，k为上下界阈值的控制系数；

利用校正后的Trimap对带权高斯混合模型进行权值分配：

最终对待分割区域建立精简图模型，其对应的能量泛函如下式：

E (α) = \underset{p &Element; U}{Σ} (D_{p} (α) + γ \underset{α_{p} &NotEqual; α_{q}}{\underset{q &Element; \overset{&OverBar;}{U}, q &Element; N_{p}}{Σ}} S_{p, q} (α)) + γ \underset{(p, q) &Element; N, α_{p} &NotEqual; α_{q}}{\underset{p &Element; U, q &Element; U}{Σ}} S_{p, q} (α) - - - (7)

其中，α表示精简图模型的最终分割标号值，“0”为背景，“1”为前景；集合U表示Trimap_*中所有被标记为“未知”的像素点集合，而表示那些被标记为“前景”或“背景”的像素点集合；N为图像中所有邻接像素对所组成的集合，而N_p表示所有与像素p邻接的像素集合；D_p(α)代表数据项(T-links)；S_p,q(α)代表平滑项(N-links)，τ为滤噪常数，||·||为欧式距离；γ是用来控制数据项和平滑项各自权重的平衡系数。