CN103400386A

CN103400386A - 一种用于视频中的交互式图像处理方法

Info

Publication number: CN103400386A
Application number: CN2013103268154A
Authority: CN
Inventors: 王好谦; 邓博雯; 张永兵; 戴琼海
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2013-07-30
Filing date: 2013-07-30
Publication date: 2013-11-20
Anticipated expiration: 2033-07-30
Also published as: CN103400386B

Abstract

本发明提供了一种交互式图像处理方法，该方法在视频序列中提取关键帧，并将相邻关键帧之间的帧逐个叠加形成用于交互标记的关键帧簇，以此将所述关键帧的图像区分为前景区域、背景区域和未知区域；然后对所述关键帧进行谱聚类和α值估计，获得所述关键帧的抠图结果；最后，将所述关键帧的抠图结果传递至整个视频序列，得到最终的抠图结果。因为是在每个关键帧簇上交互标记前背景点，充分利用了视频序列所包含的时空信息，基于关键帧的用户接口保证了用户交互的自然性和直观性，符合人类视觉***的观察习惯；通过在关键帧簇上的标记取代单独在关键帧上的标记，对于前景对象局部动作较大的情况有较强的鲁棒性。

Description

一种用于视频中的交互式图像处理方法

技术领域

本发明涉及图像处理领域，特别涉及一种基于图像模糊连接度的交互式图像处理方法。

背景技术

数字抠图技术是一种通过少量的用户交互，将前景对象准确地从图像或是视频序列中提取出来的技术过程。数字抠图是照片编辑或影视制作等图像处理领域基础的关键技术，在计算机图像处理技术发源之初就得到了广泛的关注和研究。

抠图技术简单来说就是将图像完整地划分为前景区域（F）和背景区域（B），其中需处理的是未知区域（C）的像素p的颜色向量C_p，颜色向量C_p由前景区域像素F_p、背景区域像素B_p和透明度参数α_p线性构成：

C_p=α_pF_p+(1-α_p)B_p，

其中α_p∈[0,1]，0代表背景，1代表前景。对于大多数自然图片来说，F和B都不会局限于一些特定的值，而每个像素的α、F、B值又都是未知待定的。对于某一个像素我们已知的信息是它三维的颜色向量C_p，未知的信息是F_p、B_p和α_p，所以抠图过程是一个通过三个已知量求七个未知量的非约束性问题。

单幅图像抠图技术发展至今已经产生很多不同的算法，比如全局采样方法、KNN（最邻近结点算法）方法、Large Kernel方法、Nonlocal方法、PSF（Point-spread Function，点扩散函数）方法、Shared抠图方法等，无论是在抠图结果准确性、MSE性能测试还是算法速度上都有着不同程度的显著进步。但另一方面，对视频序列的抠图相比对单幅图像的抠图更具挑战性：视频序列的大数据量、每帧图像边缘处理的流畅性、对物体大幅度动作的适应性等影响因素在对单幅图像的抠图技术中均无需考虑。目前的视频抠图算法有贝叶斯视频抠图***、基于Rotoscoping的视频抠图、基于Graphcut的视频剪贴***、Snapcut等，但是这些算法中，或者由于运动估计本身存在较大的误差导致抠图结果无法满意，或者对于前景对象运动的鲁棒性不强，或者使用的算法计算量过大，无法满足视频序列大规模数据流的要求，或者需要用户输入的信息过于复杂且不直观，***需要经过训练的专业人员操作，实用性不强。

发明内容

本发明在前人研究的基础上，结合视频序列抠图特有的时空三维信息，提出了一种快速视频抠图方法：将前后关键帧之间的帧叠加成关键帧簇，在关键帧簇上进行用户交互标记，保证了用户交互的自然性和直观性，并且对于前景对象局部动作较大的情况有较强的鲁棒性。还使用标准化谱聚类（谱聚类方法是子空间学习算法的一种，谱聚类算法建立在谱图论理基础上，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。）完成聚类过程，将传统的模糊连接度分割扩展应用到视频序列的三维空间里完成α值估计。还进一步使用SURF（Speeded Up Robust Features）检测匹配搜索窗，将关键帧的抠图结果传递至整个视频序列，大大减小了算法的时间复杂度。同时，还根据视频序列中前景对象的不同运动情况设计了一种自适应选择传播方向的视频流赋值方法，使得算法对于不同种类的前景对象运动视频都能有较好的抠图结果。

本发明所要解决的技术问题是：克服现有技术的缺陷，提供一种用户交互简单直观、鲁棒性较强且抠图效果好的用于视频中的交互式图像处理方法，该方法在视频序列中提取关键帧，并将相邻关键帧之间的帧逐个叠加形成用于交互标记的关键帧簇，以此将所述关键帧的图像区分为前景区域、背景区域和未知区域；然后对所述关键帧进行谱聚类和α值估计，获得所述关键帧的抠图结果；最后，将所述关键帧的抠图结果传递至整个视频序列，得到最终的抠图结果。

根据实施例，本发明还可采用以下优选的技术方案：

所述将所述关键帧的抠图结果传递至整个视频序列包括：a.在关键帧检测前景对象的边缘线，b.遍历所述边缘线设置若干个搜索窗，c.用SURF特征点检测方法寻找标记前后帧匹配的所述搜索窗，d.将所述关键帧对应的搜索窗内的抠图结果顺次赋值给其他中间帧对应的搜索窗。

所述步骤d中，如果前景为单一或者相互独立的运动物体，则赋值的视频流向前后两个方向传播；如果视频序列中前景为有相对运动的多个物体，则赋值的视频流只从前往后传播。

所述SURF特征点检测方法包括如下步骤：

1)计算积分图；

2)构建Hessian矩阵；

3)构建尺度空间；

4)定位特征点；

5)确定旋转主方向；

6)计算SURF特征点描述子。

所述提取关键帧是每隔10～20帧提取一帧作为关键帧。

所述谱聚类采用标准化谱聚类方法。

所述标准化谱聚类的步骤如下：

1）由原始数据集构建相似度矩阵W，

W_{i, j} = \{\begin{matrix} w_{i, j}, i &NotEqual; j \\ 0, i = j \end{matrix},

w_i,j用于表示数据之间的相似度；

2）将W的每一列元素相加得N个数，构建一个由这N个数组成对角线，其他元素都为0的N×N矩阵D，

D_{i, j} = \{\begin{matrix} Σ_{j = 1}^{n} w_{i, j}, i = j \\ 0, i &NotEqual; j \end{matrix};

3）由原始数据集构建相似度矩阵W构建拉普拉斯矩阵L=D-W，

L_{i, j} = \{\begin{matrix} Σ_{j = 1}^{n} w_{i, j}, i = j \\ - w_{i, j}, i &NotEqual; j \end{matrix},

将L标准化之后得

求解L’的前k个特征值

以及对应的特征向量

将

逐个乘以

得到矩阵L的前k个特征向量；

4）把k个特征向量排列起来组成一个N×k的矩阵，将其中每一行看作k维空间中的一个向量，进行聚类；

其中，w_i,j用于表示两个像素点数据之间的相似度，i、j表示两个不同的像素点，N表示对角线上的数据个数，k表示特征向量数。

所述k的选择使用启发式方法，即从第1个到第m个的特征值都较小，从第m+1个开始，特征值有数量级上的变大，则k取m。

所述步骤4）中的聚类采用K-means算法或Mean-shift算法或GMM算法。

所述α值估计采用基于三维模糊连接度的α值估计方法，用来来计算未知区域与已知区域像素之间的模糊连接度，并根据基本抠图公式C=αF+(1-α)B得到关键帧前景对象的抠图结果。

本发明与现有技术对比的有益效果是：因为是在每个关键帧簇上交互标记前背景点，充分利用了视频序列所包含的时空信息，基于关键帧的用户接口保证了用户交互的自然性和直观性，符合人类视觉***的观察习惯，同时结合了视频流的时间信息，叠加形成关键帧簇，通过在关键帧簇上的标记取代单独在关键帧上的标记，对于前景对象局部动作较大的情况有较强的鲁棒性。

一个优选的技术方案中，还包括将所述抠图结果传递至整个视频序列的步骤，包括a.在关键帧检测前景对象边缘，b.沿所述边缘设置搜索窗，c.用SURF特征点检测方法寻找标记前后帧匹配的所述搜索窗。由于SURF检测法使用了积分图代替一般矩形区域内繁琐的反复求和过程，在保证匹配性能的基础上大大减少了计算量，加快了处理速度。

一个进一步优选的技术方案中，将所述抠图结果传递至整个视频序列的步骤中，如果前景为单一或者相互独立的运动物体，则赋值的视频流向前后两个方向传播，通过双向传播可确保前景对象的运动信息被更完整的传递至整个视频序列；如果视频序列中前景为有相对运动的多个物体，则赋值的视频流只从前往后传播，可避免在传播抠图信息时由于物体相对运动过程中的重叠产生错误的反向传播信息。

附图说明

图1是本发明处理方法的一个实施例的使用过程框图。

图2是图关键帧提取示意图。

图3是在视频序列里连接像素的6个临近像素建立三维时空模型的示意图。

图4是一个实施例的未知区域的一个像素的抠图结果示意图。

图5是一个实施例中赋值的视频流只允许沿时间方向正向传播的示意图。

图6是另一个实施例中赋值的视频流可以从关键帧出发沿正反两个方向传播的示意图。

具体实施方式

一种用户交互简单直观、鲁棒性较强且抠图效果好的用于视频中的交互式图像处理方法，该方法主要通过在视频序列中提取关键帧，并将相邻关键帧之间的帧逐个叠加形成用于交互标记的关键帧簇，以此将前景和背景分离获得抠图结果。其基本的处理及使用流程可表示为如图1所示的流程框图，包括在输入视频序列后进行关键帧叠加步骤，用户交互（输入）后的谱聚类步骤，基于模糊连接度α值估计的步骤，SURF寻找对应搜索窗的步骤，以及自适应视频流赋值的步骤。

下面对照附图和结合优选具体实施方式对本发明一个较佳的实施例进行详细的阐述。

1.关键帧叠加

输入原始视频序列，提取序列中关键帧，将相邻关键帧之间的帧逐个叠加，形成若干组关键帧簇，用户在每个关键帧簇上交互标记前、背景点，充分利用视频序列所包含的时空信息，基于关键帧的用户接口保证了用户交互的自然性和直观性，符合人类视觉***的观察习惯，同时结合了视频流的时间信息，叠加形成关键帧簇，通过在关键帧簇上的标记取代单独在关键帧上的标记，对于前景对象局部动作较大的情况有较强的鲁棒性。具体说明如下：

输入视频序列，提取关键帧，本算法中使用的关键帧是每隔10帧提取一帧，如图2所示。本领域技术人员可根据前景对象的运动情况调整提取关键帧的间隔，一般可在10～20帧之间选择，均能够实现本发明的发明目的。比如，在前景对象运动不大的情况下，可每隔20帧提取一帧。将前后关键帧之间的帧逐个叠加，形成一系列关键帧簇，如图2，用户在每个关键帧簇上标记出前、背景点，经过用户交互之后，每个关键帧图像上都可分为三个区域：前景区域、背景区域和未知区域，后续抠图的主要目标即是确定未知区域像素的颜色分布。

2.标准化谱聚类

在前述关键帧叠加后使用标准化谱聚类算法对关键帧图片进行聚类，标准化谱聚类算法利用样本数据的相似矩阵进行特征分解，然后用得到的特征向量进行聚类，只需要图片数据的相似性矩阵就能够完成聚类，用数据的特征向量元素来表示原来的数据，起到了重要的降维作用，能够识别任意形状的样本空间且收敛于全局最优解，且计算复杂度比一般的聚类算法小，在高维数据上表现尤为明显。

具体步骤如下：

1）根据数据构造成一个图G=(V,E)，其中V和E分别表示图G的顶点集和边集，图G的每个像素点对应一个数据点。将相似的点连接起来，假设边e的两个不同像素点为i和j，权重为w_i,j，w_i,j用于表示两个像素点数据之间的相似度。根据相似度定义，由原始数据集构建相似度矩阵W，

W_{i, j} = \{\begin{matrix} w_{i, j}, i &NotEqual; j \\ 0, i = j \end{matrix},

2）将相似度矩阵W的每一列元素相加得N个数，构建一个由这N个数组成对角线、其他元素都为0的N×N矩阵D，

D_{i, j} = \{\begin{matrix} Σ_{j = 1}^{n} w_{i, j}, i = j \\ 0, i &NotEqual; j \end{matrix},

3）由相似度矩阵构建拉普拉斯矩阵L=D‐W，

L_{i, j} = \{\begin{matrix} Σ_{j = 1}^{n} w_{i, j}, i = j \\ - w_{i, j}, i &NotEqual; j \end{matrix},

将L标准化之后得

L^{'} = D^{- \frac{1}{2}} {LD}^{- \frac{1}{2}},

求解L’的前k个（从小到大排列）特征值

以及对应的特征向量

将

逐个乘以

得到矩阵L的前k个特征向量。其中，N和k对每帧图像来说是固定值，N是对角线上的数据个数，k是特征向量数。

一个优选的做法是：选择k的过程使用启发式方法，即如果从第1个到第m个的特征值都较小，从第m+1个开始特征值有数量级上的变大，则k取m。

4）把k个特征向量排列起来组成一个N×k的矩阵，将其中每一行看作k维空间中的一个向量，并使用一般聚类算法进行聚类，譬如K‐means算法等，聚类结果中每一行所属的类别即原图G中像素点所属类别。

需要说明的是：采用一般的谱聚类算法即可实现本发明的发明目的，本步骤2中采用的标准化谱聚类算法是为了方便计算和/或获得更好的技术效果，也即3）中的标准化是可选择的操作。

3.基于三维模糊连接度的α值估计

视频序列里每个关键帧的每个像素都具有6个邻近像素：包括4个同一帧内空间上的邻近像素，2个前后帧之间时间上的邻近像素。这样就构建了视频序列的三维时空模型，在此基础上计算未知区域与已知区域像素之间的模糊连接度，即点到点连接路径中相似度最小的一段的最大值，这种类似于“木桶短板”的连接度设计使得当计算完未知区域一点到已知区域的模糊连接度后，同一区域的其他点到已知区域的连接度可沿用之前的计算结果，因而会大大减少计算量和算法所需时间。

具体是：在视频序列里连接每个像素的6个邻近像素，建立三维时空模型如图3所示，在此模型内计算未知区域与已知区域像素之间的模糊连接度FC，假设未知区域要计算的像素点为p₁，已知区域某一像素点为q₁，则p₁与q₁之间的模糊连接度FC为：

FC(p₁,q₁)=maxmin{μ_κ(p₁,r),μ_κ(r,q₁)}

其中，r是p₁到q₁路径上任意一点，且μ_κ为两个像素之间的相似度：

μ_{κ} (x, y) = \exp {- \frac{1}{2} [I (x) - I (y)]^{T} Σ^{- 1} [I (x) - I (y)]},

I（x）、I（y）表示像素x、y的三维颜色向量，T表示的是矩阵转置。

由此可以快速得到图像中像素点p₁的α值：

α (p_{1}) = \frac{F C^{f} (p_{1})}{F C^{f} (p_{1}) + F C^{b} (p_{1})},

其中，FC^f和FC^b分别是p₁到前景和p₁到背景已知区域的模糊连接度。

求得未知区域像素的α（不透明度）值之后，很容易就可根据基本的抠图公式：C=αF+(1-α)B得到未知区域像素的颜色分布，也就是得到了关键帧前景物体的抠图结果，如图4。其中，C、F、B分别表示一个RGB三维值组成的向量。

计算模糊连接度FC时，由于类似于“木桶短板”的连接度设计，使得计算步骤中可以有简化的过程：如图4，当计算出p₁点到其他区域的所有模糊连接度之后，FC(p₁,q₁)和FC(p₁,p₂)都为已知。基于之前对于模糊连接度FC的数学设计易知，在任意三个像素点（上述建立的三维时空模型里的三个像素点，也即上述图G中的三个空间邻近像素点）为顶点、两两之间的模糊连接度FC为边构成的空间三角形中，必然存在两边相等并小于第三边的结构关系。在图4中，因为模糊连接度的定义，FC（p1,q1）指的是从p1到q1的某一路径上，找出权重最弱的一段，即相当于一个木桶的最短板，比较每条路径的最短板，找出最短板最大的一条路径，在这条路径上的那个最短板作为要计算的FC，即找出最短板最强的木桶的最短板长度。回到图4中，已知FC(q1,p1)和FC(p1,p2)的情况下，根据数学定义上的传递性，FC(q1,p2)一定等于两者中较小的。也即，如果两者不相等，则FC(q1,p1)等于FC(p1,p2)和FC(q1,p2)中较小的，如果FC(p₁,q₁)<FC(p₁,p₂)，则FC(p₂,q₁)=FC(p₁,q₁)；如果FC(p₁,q₁)>FC(p₁,p₂)，则FC(p₂,q₁)=FC(p₁,p₂)；只有当两者相等，即FC(p₁,q₁)=FC(p₁,p₂)时，FC(p₂,q₁)需要重新计算，仅仅在这一技巧的使用下，就可将计算量减少至原先逐个遍历像素点计算的1/3。

4.SURF寻找对应搜索窗

经由以上步骤得到视频序列关键帧的抠图结果，需将该结果传递至整个视频序列。首先，在关键帧上检测前景物体的边缘，并沿着所述边缘设置搜索窗；接着，使用SURF感兴趣点检测方法寻找标记前后帧匹配的搜索窗。由于SURF检测法使用了积分图代替一般矩形区域内繁琐的反复求和过程，在保证匹配性能的基础上大大减少了计算量，加快了算法速度。具体描述如下：

经由以上步骤得到关键帧的抠图结果后，使用Sobel算子（在边缘检测中，常用的一种模板是Sobel算子，Sobel算子有两个，一个是检测水平边缘的，另一个是检测垂直边缘的）检测出前景物体的边缘线，在所述边缘线上顺时针每隔n个像素选取点作为搜索窗的中心点，遍历整个边缘线提取若干个正方形搜索窗，搜索窗的边长一般取前景物体最小外接矩形边长的1/10，n取搜索窗边长的一半。

设置完搜索窗之后，选用SURF检测前后帧对应的搜索窗，后续的视频流赋值过程都在每个搜索窗内进行，在后续步骤中将关键帧对应的搜索窗内的抠图结果顺次赋值给其他中间帧对应的搜索窗（所述中间帧对应的搜索窗即通过以上步骤由关键帧中的搜索窗匹配得到的对应窗口）。其中SURF检测的具体步骤如下：

1)计算积分图；

2)构建Hessian矩阵；

3)构建尺度空间；

4)精确定位特征点；

5)确定旋转主方向；

6)计算SURF特征点描述子。

5.自适应视频流赋值

在将搜索窗的抠图结果由关键帧向其他中间帧赋值的过程中，如果抠图结果中前景为单一或者相互独立的运动物体，则赋值的视频流应从前后两个方向传播，如图5所示，通过双向传播确保前景物体的运动信息被更完整的传递至整个视频序列；如果视频序列中前景物体为有相对运动的多个物体，则赋值的视频流应只从前往后传播，如图6所示，可避免在传播抠图信息时由于物体相对运动过程中的重叠产生错误的反向传播信息。所述中间帧是指各相邻关键帧之间的各帧。

首先，判断前景物体是否为有相对运动的多个物体，如果是，则如图5所示，设置赋值的视频流只允许沿时间方向正向传播；如果不是，则如图6所示，设置赋值的视频流可以从关键帧出发沿正、反两个方向传播。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种用于视频中的交互式图像处理方法，其特征在于：在视频序列中提取关键帧，并将相邻关键帧之间的帧逐个叠加形成用于交互标记的关键帧簇，以此将所述关键帧的图像区分为前景区域、背景区域和未知区域；然后对所述关键帧进行谱聚类和α值估计，获得所述关键帧的抠图结果；最后，将所述关键帧的抠图结果传递至整个视频序列，得到最终的抠图结果。

2.如权利要求1所述的用于视频中的交互式图像处理方法，其特征在于：所述将所述关键帧的抠图结果传递至整个视频序列包括：a.在关键帧检测前景对象的边缘线，b.遍历整个所述边缘线设置若干个搜索窗，c.用SURF特征点检测方法寻找标记前后帧匹配的所述搜索窗，d.将所述关键帧对应的搜索窗内的抠图结果顺次赋值给其它中间帧对应的搜索窗。

3.如权利要求2所述的用于视频中的交互式图像处理方法，其特征在于：所述步骤d中，如果前景为单一或者相互独立的运动物体，则赋值的视频流向前后两个方向传播；如果视频序列中前景为有相对运动的多个物体，则赋值的视频流只从前往后传播。

4.如权利要求2所述的用于视频中的交互式图像处理方法，其特征在于所述SURF特征点检测方法包括如下步骤：

1)计算积分图；

2)构建Hessian矩阵；

3)构建尺度空间；

4)定位特征点；

5)确定旋转主方向；

6)计算SURF特征点描述子。

5.如权利要求1所述的用于视频中的交互式图像处理方法，其特征在于：所述提取关键帧是每隔10～20帧提取一帧作为关键帧。

6.如权利要求1所述的用于视频中的交互式图像处理方法，其特征在于：所述谱聚类采用标准化谱聚类方法。

7.如权利要求6所述的用于视频中的交互式图像处理方法，其特征在于：所述标准化谱聚类的步骤如下：

1）由原始数据集构建相似度矩阵W，

W_{i, j} = \{\begin{matrix} w_{i, j}, i &NotEqual; j \\ 0, i = j \end{matrix},

D_{i, j} = \{\begin{matrix} Σ_{j = 1}^{n} w_{i, j}, i = j \\ 0, i &NotEqual; j \end{matrix};

3）由原始数据集构建相似度矩阵W构建拉普拉斯矩阵L=D-W，

L_{i, j} = \{\begin{matrix} Σ_{j = 1}^{n} w_{i, j}, i = j \\ - w_{i, j}, i &NotEqual; j \end{matrix},

将L标准化之后得

L^{'} = D^{- \frac{1}{2}} {LD}^{- \frac{1}{2}},

求解L’的前k个特征值以及对应的特征向量

将

逐个乘以

得到矩阵L的前k个特征向量；

8.如权利要求7所述的用于视频中的交互式图像处理方法，其特征在于：所述k的选择使用启发式方法，即若从第1个到第m个的特征值都较小，从第m+1个开始，特征值有数量级上的变大，则k取m。

9.如权利要求7所述的用于视频中的交互式图像处理方法，其特征在于：所述步骤4）中的聚类采用K-means算法或Mean-shift算法或GMM算法。

10.如权利要求1所述的用于视频中的交互式图像处理方法，其特征在于：所述α值估计采用基于三维模糊连接度的α值估计方法，用来来计算未知区域与已知区域像素之间的模糊连接度，并根据基本抠图公式C=αF+(1-α)B得到关键帧前景对象的抠图结果。