CN1997114A

CN1997114A - 一种基于轮廓时空特征的视频对象标注方法

Info

Publication number: CN1997114A
Application number: CN 200610053398
Authority: CN
Inventors: 庄越挺; 董兆华; 肖俊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2006-09-14
Filing date: 2006-09-14
Publication date: 2007-07-11
Anticipated expiration: 2026-09-14
Also published as: CN100413327C

Abstract

本发明公开了一种视频前景对象标注的方法。包括如下步骤：(1)把一段视频分成若干部分，每部分包含一幅关键帧和若干幅非关键帧；(2)对于关键帧，要求用户输入提示信息，指定前景对象和背景对象中的一些关键部分，然后对关键帧进行标注；(3)对于非关键帧，根据关键帧上的标注结果，把前景部分的颜色分布和形状信息，以及背景部分的颜色部分作为先验知识，根据这些先验知识，对非关键帧进行标注。本发明把关键帧上的交互信息和前景形状传送到非关键帧上，综合考虑非关键帧上每个部分对于前景和背景分布的颜色相关性，相邻两个区域的颜色差异，以及形状信息来求解非关键帧的标注。结果表明，本发明能够解决前景物体边缘部分标注不准确的问题。

Description

一种基于轮廓时空特征的视频对象标注方法

技术领域

本发明涉及视频处理领域，尤其涉及一种基于轮廓时空特征的视频对象标注方法。

背景技术

随着数码相机和数码摄像机的普及化，交互式图像和视频处理成为非常热门和前沿研究方向。其中，以交互式手段实现视频前景高效提取，进而将提取出来的前景合成到新的视频序列中，或者对该前景进行卡通风格编辑等操作，成为视频领域一个重要的技术。

视频是连续图像帧构成的，实现视频流中前景和背景对象分割可以对每帧分别进行交互操作，使用图像前景提取方法，得到各帧的前景和背景，从而生成整段视频的前景和背景。但是，这种手段存在如下几个问题：首先，需要大量重复性乏味工作，即用户对每帧上的背景和前景都需要进行交互提示；其次，这种手段对每帧分别处理，没有考虑它们之间的时间连续性，相邻帧之间少量的差别都会照成视觉上的跳跃。

如果能够准确地跟踪视频流中物体运动，那么对关键帧可以按照交互机制提取前景和背景，将交互知识和运动跟踪结果扩散到非关键帧上达到自动提取非关键帧前景和背景目的。Hertzmann等人就采用光流估计算法来跟踪物体的运动[3]，但是目前光流估计算法很难鲁棒得到普通视频中运动跟踪结果，因此不能用光流估计算法来得到非关键帧上的前景，但是光流估计的结果可以作为一个约束条件来动态更新跟踪过程。基于这样的思路，本发明提出了一种在关键帧上进行交互式前景背景提取，非关键帧根据与关键帧在时序上相关性以及非关键帧本身空间相关性来进行视频前景提取的方法。

有大量的工作是在轮廓提取的基础上进行前景提取的。Hall等人提出了一种用户监督下轮廓提取方法[2]，其允许用户对若干帧中前景物体轮廓进行勾勒，然后再对其它帧进行插值，这样得到其他帧的前景轮廓，从而得到前景区域。这种方法需要大量人力来进行勾勒轮廓，对于快速运动的视频，需要人工勾勒的帧数就越多，否则中间帧的插值结果产生的错误就越大。Agarwala等人提出了一种基于优化和用户交互来提取轮廓的方法[1]，减少了用户的交互。但是这些方法是存在局限性的，它用近似的轮廓边来表示物体形状，边缘细节丰富的物体容易丢失这些细节信息。而且，这些方法要求前景物体和背景的分界线要明显。

也有一些工作是基于物体分块的基础上进行前景提取的。Wang等人提出了一种交互式图分割的视频前景提取方法[6]，使用Mean-Shift对图像进行预分块，来减少需要的部分数量。他们在全局代价函数的基础上增加了局部代价函数，即对背景和跨标注的地方进行统计建模，然后对其进行最小割处理。Li等人的算法也是一种利用图分割算法进行视频对象提取的方法[4]，这个方法综合考虑了关键帧上每个部分相对于前景和背景颜色分布的颜色相关性，并使跨过物体边缘的相邻两个区域的颜色差异最大化，同时，还考虑了物体运动的时间相关性。但是，当物体颜色和周围背景颜色相似时，这两种方法出现边缘判断错误。

[1]A. Agarwala，A.Hertzmann，D.H.Salesin，and S.M.Seitz.Keyframe-Based Tracking forRotoscoping and Animation.In Proceedings of ACM SIGGRAPH 2004.2004.pp.584-591

[2]J. Hall，D. Greenhill and G.Jones.Segmenting Film Sequences using Active Surfaces.InInternational Conference on Image Processing(ICIP).1997.pp.751-754

[3]A.Hertzmann and K.Perlin.Painterly Rendering for Video and Interaction.In Proceedings ofthe lst International Symposium on Non-photorealistic Animation and Rendering.2000.pp.7-12

[4]Y.Li，J.Sun and H.Y.Shum.Video Object Cut and Paste.In Proceedings of ACMSISGGRAPH 2005.2005.pp.595-600

[5]L.Vincent and P.Soille.Watersheds in Digital Spaces：An Efficient Algorithm Based onImmersion Simulations.IEEE Tran.on Pattern Analysis and Machine Intelligence.1991.13(6)，pp.583-598

[6]J.Wang，P.Bhat，R.A.Colbum，M.Agrawala and M.F.Cohen.Interactive Video Cutout.InProceedings of ACM SIGGRAPH 2005.2005.pp.585-594

发明内容

本发明的目的是提供一种基于轮廓时空特征的视频对象标注方法。

它包括如下步骤：

(1)把一段视频分成若干部分，每部分包含若干帧，在这些帧中，有一幅关键帧，其它的都是非关键帧；

(2)对于关键帧，要求用户输入提示信息，指定前景对象和背景对象中的一些关键部分，然后对关键帧进行标注，得出该帧上的每个部分的从属关系；

(3)对于非关键帧，根据关键帧上的标注结果，根据前景的颜色分布和形状信息，以及背景的颜色信息，对非关键帧进行标注。

所述的把一段视频分成若干部分：根据视频中物体运动的速度，每个部分的帧数会和它成反比，对于物体运动快速的情况下，每个部分的帧数少，反之，则帧数多。

对于关键帧，要求用户输入提示信息，指定前景对象和背景对象中的一些关键部分：用户在关键帧的图像上，用鼠标对前景或者背景进行勾勒，画上一些点，线段和多边形，这样，对于这些点，线段和多边形而言，它们是关键帧上标注的硬性限制，即这些部分在标注的过程中前景或者背景的从属关系不会改变；

对关键帧进行标注，得出该帧上的每个部分的从属关系，对关键帧进行标注，标注方法包括如下步骤：

(1)对图像先进行预处理，采用沉浸式分水岭算法，把图像中相邻的并且颜色相差在某个阈值范围之内的像素点划分为同一个区域；

(2)对于每个区域，把这个区域内的平均颜色值作为它的区域颜色；

(3)对用户输入指定的前景和背景上的像素点的颜色值进行聚类，得到一组背景颜色中心和前景颜色中心；

(4)定义区域块的数据值差异为该区域颜色和前景或者背景的颜色中心之间差异的最小值，定义相邻区域块之间差异为相邻区域块的颜色之间的距离；

(5)根据数据值的差异和相邻区域块之间的差异，把每个区域块作为一个节点，构造一幅图分割的图，再对这幅图做最小割，得到对该幅图像的近似最优化解的标注。

对于非关键帧，根据关键帧上的标注结果，根据前景的颜色分布和形状信息，以及背景的颜色信息，对非关键帧进行标注，标注方法包括如下步骤：

(1)根据关键帧的标注结果，对前景和背景的颜色进行聚类，这个聚类结果将应用到非关键帧的数据值的差异中；

(2)根据关键帧的标注结果，得到前景物体的轮廓。利用信任度扩散算法，在一定的运动范围内估算物体的运动，得到非关键帧上物体轮廓的大致位置，把这个轮廓信息做为相邻区域块差异的补充；

(3)根据数据值的差异和相邻区域块之间的差异，把每个区域块做为一个节点，在非关键帧上构造一幅图分割的图，在这幅图上做最小割，得到非关键帧上的标注。

本发明的有益效果

目前一些关于视频前景标注的方法，当前景对象和背景颜色相似时，普遍存在前景物体边缘标注不准确的情况，本发明利用信任度扩散算法把关键帧上的交互信息和前景形状传送到非关键帧上，并且综合考虑非关键帧上每个部分(区域块)对于前景和背景分布的颜色相关性，相邻两个区域的颜色差异，以及形状信息来求解非关键帧的标注。实验结果表明，本发明能够解决前景物体边缘标注不准确的问题。

附图说明

图1是基于轮廓时空特征的视频对象标注方法流程示意图，图中：3个方框表示本发明的三个步骤，输入为视频序列和用户在关键帧上的交互信息；

图2是本发明的关键帧和非关键帧的图分割的构造，图中：实线框表示关键帧上的图，虚线框表示非关键帧上的图；

图3表示马尔可夫网络中的信息传递过程；

图4是本发明的轮廓边的弧度计算示意图；

图5是本发明的关键帧上的用户交互信息以及标注的结果；

图6是本发明的轮廓边运动估算结果以及标注结果；

图7(a)是Li等人方法的视频前景标注的结果，

图7(b)是本发明的标注结果；

图8是本发明与Li等人方法标注结果的比较图，图中：第一行是原始视频序列，中间一行是Li等人方法的处理结果，最后一行是本发明的结果。

具体实施方式

本发明利用图分割算法实现关键帧和非关键帧上的前景标注。由于这种标注是二值的，因此，定义标注X＝{0，1}，其中0表示背景，1表示前景。在这些图像上构造2D图，如图2所示。图2中实线框部分表示关键帧，虚线框部分表示中间帧。假设2D图表示为G＝{V，ε}，其中V是图像上的每个区域的集合，ε是连接这些区域和标注的边的集合。从简洁考虑，在图2中省略了一些区域和标注点的连接边。

为了提高处理速度，先利用分水岭算法[Vincent1991]对视频中的每一帧进行预处理，将其分割成一些小的区域块。这个分水岭算法是过分割的，它能够很好地保持物体的轮廓。所以，图2中所示的点不是像素，而是这些过分割区域。对于关键帧来说，解决标注问题就是使得Gibbs能量E(X)最小化：

E (X) = \underset{i &Element; V}{Σ} E_{d} (x_{i}) + α \underset{i, j &Element; ϵ}{Σ} E_{l} (x_{i}, x_{j}) - - - (1)

其中：E_d(x_i)是数据相关函数，也就是区域i的平均颜色相对于前景和背景中的颜色分布的相关性；E_l(x_i，x_j)是跨越物体边缘的两个区域i和j之间的颜色差异。α是调节参数，用来调节这两个函数在整个能量函数中的比例，本文取α＝1.5。α可以根据经验得到，对于一些物体轮廓比较明显的视频，这个参数可以设置得小些，而对于背景颜色和前景颜色近似的视频，这个参数可以设置得大些。公式(1)中几个函数数值如下定义：

\{\begin{matrix} E_{d} (x_{i} = 1) = 0, E_{d} (x_{i} = 0) = \infty & &ForAll; i &Element; F \\ E_{d} (x_{i} = 1) = \infty, E_{d} (x_{i} = 0) = 0 & &ForAll; i &Element; B \\ E_{d} (x_{i} = 1) = \frac{d_{i}^{F}}{d_{i}^{F} + d_{i}^{B}}, E_{d} (x_{i} = 0) = \frac{d_{i}^{B}}{d_{i}^{F} + d_{i}^{B}} & &ForAll; i &NotElement; F \cup B \end{matrix} - - - (2)

E_{l} (x_{i}, x_{j}) = | x_{i} + x_{j} | e^{- α {| | c_{i} - c_{j} | |}^{2}} - - - (3)

其中，

d_{k}^{E} = \min_{m} | | c_{i} - K_{m}^{F} | |,

d_{k}^{B} = \min_{n} | | c_{i} - K_{n}^{B} | |

，‖‖表示欧氏距离。F表示用户指定的前景种子点集合，B表示用户指定的背景种子点集合，c_i是区域i上的平均颜色值，K_m ^F是前景种子点进行聚类后的第m类颜色值，K_n ^B是背景种子点进行聚类后的第n类颜色值。对于E_l(x_i，x_j)，当相邻两个区域给定相同标注，即属于同一个物体的情况下，该函数取值为0，只有当这两个区域有不同标注，也就是这两个区域跨越物体的边界时，才有非0值。

由于中间非关键帧本身没有可直接利用的交互信息，因此本文使用信任度扩散算法来估算关键帧上用户交互信息的运动情况，从而得到中间帧上用户近似交互信息。信任度扩散算法将在后面进行介绍，用户交互信息的运动估计和其它非轮廓边上的像素一样，但是它们的观察函数只和亮度相关，势能函数只和运动空间连续性相关，因此整个运动估计过程和轮廓边的跟踪是一样的，只是把(11)和(12)式中的λ_G和λ_C设置为0，让梯度和弧度不起作用。从数值意义上来讲，这些交互信息有助于获得E_d这个函数。E_l函数的获得和关键帧上是相同的。但是，由于要利用视频帧间的时间连续性特性，在非关键帧和关键帧的能量函数是有差别的。非关键帧的能量函数可如下表示：

E (X) = \underset{i &Element; V}{Σ} E_{d} (x_{i}) + α \underset{i, j &Element; ϵ}{Σ} E_{l} (x_{i}, x_{j}) + β \underset{i, j &Element; ϵ}{Σ} E_{s} (x_{i}, x_{j}) - - - (4)

比较公式(1)和(4)，这两个能量函数的区别在于，非关键帧上的能量函数增加了形状约束分量E_s(x_i，x_j)。我们使用基于形状特征的轮廓跟踪算法，根据关键帧上的前景轮廓特征以及相邻帧之间的时间连续性，来计算非关键帧上的物体轮廓的大致位置，然后得到E_s(x_i，x_j)。基于形状特征的轮廓跟踪算法在第四章中会有详细的介绍。

本发明使用[Boycov2001]所提出的最大流算法来求(1)和(4)式的最小化的解，这种算法是一种近似的全局最优的方法，用来解决视觉上的标注问题。

本发明把物体轮廓的时空特征规约为四个：亮度、梯度、空间连续和弧度保持，这四个时空特征本身蕴涵的约束可以指导轮廓跟踪，同时采用信任度扩散算法来近似推理时空约束的动态变化。

求解物体的运动就是对物体的运动给出标注，使得后验概率P(X|Y)最大。其中，X＝{x_i}是标注集合，x_i＝(u_i，v_i)，u和v分别表示水平和垂直运动距离；Y＝{I，I′}是观察到的关键帧和非关键帧。构造一个马尔可夫网络，如图3所示。后验概率P(X|Y)可以如下表示：

P (X | Y) &Proportional; \underset{i}{Π} φ_{i} (x_{i}, y_{i}) \underset{i}{Π} \underset{j &Element; N (i)}{Π} ψ_{i, j} (x_{i}, y_{i}) - - - (5)

φ_i(x_i，y_i)是观察函数，用来计算概率P(y_i|x_i)；ψ_i，j(x_i，x_j)是势能函数，用来衡量相邻节点之间标注的相容性。

马尔可夫理论认为：在马尔可夫场中，一个节点的条件概率只受周围相邻点影响。信任度扩散主要目的是在一个四连通图上，对相邻节点之间信息进行传递。每个信息是一组可能的标注所构成向量。m_ij ^t是在t时刻节点i发送到j的信息，m_i ^t是t时刻标注发送给节点j的信息，b_i是节点i的信任度。信任度扩散算法是一个迭代的算法，每次迭代过程如下：

m_{ij}^{t + 1} (x_{j}) = \frac{1}{Z} \max_{x_{i}} ψ_{ij} (x_{i}, x_{j}) m_{i}^{t} (x_{i}) \underset{k &Element; N (j) \ i}{Π} m_{kj}^{t} (x_{j}) - - - (6)

m_i ^t(x_i)在每个时刻都是相同的，它的值是φ_i(x_i，y_i)；N(j)\i表示和节点j相邻的非i节点集合，Z是一个归一化数值。最后信任度的值为：

b_{i} (x_{i}) = \frac{1}{Z} m_{i} (x_{i}) \underset{j &Element; N (i)}{Π} m_{ji} (x_{i}) - - - (7)

标注值为：

x_{i} = \underset{x_{k}}{\arg \max} b_{i} (x_{k}) - - - (8)

在数值实现时，(6)和(7)式中乘法的计算量太大，所以把它们转换到对数空间进行计算，可以得到：

m_{ij}^{t + 1} (x_{j}) = \max_{x_{i}} (ψ_{ij} (x_{i}, x_{j}) + m_{i}^{t} (x_{i}) + \underset{k &Element; N (i) \ i}{Σ} m_{kj}^{t} (x_{j})) - - - (9)

b_{i} (x_{i}) = m_{i} (x_{i}) + \underset{j &Element; N (i)}{Σ} m_{ji} (x_{i}) - - - (10)

视频相邻帧物体在运动过程中亮度，梯度和弧度不会有大变化，而且相邻时刻物体运动是连续的。分析这些约束条件，可知亮度和梯度值会影响观察函数，而运动的空间连续性和弧度会影响势能函数，因此这些函数可以如下表示：

φ_i(x_i)＝exp(-(λ_IE_I(x_i)+λ_GE_G(x_i))) (11)

φ_ij(x_i，x_j)＝exp(-(λ_NE_N(x_i，x_j)+λ_CE_C(x_i，x_j))) (12)

其中：E_j是图像亮度保持约束，E_G是梯度保持约束，E_N是空间连续性约束，E_C是弧度保持约束，λ_l、λ_G、λ_N和λ_C是对应于子能量函数的权值。

假设f(x，y，t)是t帧上坐标为(x，y)像素点的灰度值，f(x+u，y+v，t+dt)是t+dt帧上坐标为(x+u，y+v)像素点的灰度值，其中u和v分别是该像素的水平和垂直运动的距离。根据泰勒展开，

f(x+u，y+v，t+dt)＝f(x，y，t)+f_xu+f_yv+f_tdt+O(²) (13)

O(²)是非常小的数值，因此有：

f(x+u，y+v，t+dt)≈f(x，y，t)+f_xu+f_yv+f_tdt (14)

物体在相邻帧运动过程中，亮度值变化非常小，所以图像的亮度约束就是使得f(x+u，y+v，t+dt)和f(x，y，t)之间差异最小化，因此

E_I(x_i)＝f_xu_i+f_yv_i+f_tdt (15)

一般来说，物体轮廓部分梯度值比较大的，易与非轮廓部分进行区分。因此，本文把梯度值作为判断该位置是否物体轮廓的一个重要指标。设g(x，y，t)是t帧上坐标为(x，y)像素点的梯度值，同样可以得到：

E_G(x_i)＝g_xu_i+g_yv_i+g_tdt (16)

为了保持物体空间连续性，物体上相邻部分运动应该是连续的。因此有：

E_N(x_i，x_j)＝|u_i-u_j|v_i-v_j| (17)

在物体的运动过程中，物体轮廓形状大致保持不变，也就是说物体轮廓上某点弧度保持恒定性。我们用轮廓线的二阶导数来近似弧度，

c＝‖p_j+p_k-2p_i‖ (18)

其中p_i，p_j和P_k是轮廓线上相邻三点，如图4所示。

令弧度保持约束能量函数为：

E_{C} = {| | (p_{j}^{t + dt} + p_{k}^{t + dt} - 2 p_{i}^{t + dt}) - (p_{j}^{t} + p_{k}^{t} - {2 p}_{i}^{t}) | |}^{2} - - - (19)

其中

p_{i}^{t + dt} - p_{i}^{t} = (u_{i} \cdot dt, v_{i} \cdot dt)

，因此上式可以转化为：

E_C(x_i，x_j)＝((u_j+u_k-2u_i)²+(v_j+v_k-2v_i)²)·(dt)² (20)

把(u_k，v_k)近似为(u_i，v_i)，这样上式就只和i，j的标注有关。得到：

E_C(x_j，x_j)＝((u_j-u_i)²+(v_j-v_i)²)·(dt)² (21)

这样可以得到观察函数和势能函数(11)和(12)，利用信任度扩散算法，根据(9)、(10)和(8)式可以得到轮廓边上的各点的运动矢量(u，v)，非关键帧上的轮廓位置就可以得到。如图6所示，(a)是关键帧上根据标注结果得到的轮廓，(b)是根据信任度扩散算法对关键帧上的轮廓跟踪得到的结果。轮廓的跟踪是比较准确的，虽然在头部有些误差，但作为一种轮廓提示信息，对最终非关键帧上的标注而言，这种结果是足够的。

式(4)中的形状分量如下：

E_{s} (x_{i}, x_{j}) = 1 - e^{{- d}_{ij}} - - - (22)

d_ij是i和j的中点到轮廓边的最近距离。可以看出，和轮廓边越近的边这个分量就越小，也就越有可能被分割。

实施例1

针对室内的一段视频，对它的进行前景标注。实施过程如下：

(1)首先把它分成若干部分，每个部分包括10帧，其中一帧为关键帧。使用沉浸式分水岭算法对这些帧进行预处理，使得图像由这些图块组成。

(2)在关键帧上，用户对它进行交互操作，指定一些前景部分和背景部分，如图5(a)所示。使用图分割算法，如公式(1)，对关键帧进行标注，得到结果如图5(b)所示。

(3)关键帧上前景的轮廓如图6(a)所示，然后利用信任度扩散算法，把这些轮廓信息传递到非关键帧上，计算得到形状分量，如公式(22)。使用图分割算法，如公式(4)，对这些非关键帧进行标注，得到结果如图6(b)所示。

其中的参数设置如下：α＝1.5，β＝0.8，λ_I＝1.0，λ_G＝1.0，λ_N＝1.0，λ_c＝2.0。

实施例2

针对室外的一段视频，对它进行前景标注。实施过程如下：

(2)在关键帧上，用户对它进行交互操作，用线条指定一些前景部分和背景部分。使用图分割算法，如公式(1)，对关键帧进行标注，得到关键帧的前景标注结果。

(3)使用信任度扩散算法，把关键帧上的前景轮廓信息传递到非关键帧上，通过公式(22)计算得到形状分量。使用图分割算法，如公式(4)，对这些非关键帧进行标注，得到非关键帧上的前景标注结果。

参数可以这样设置：α＝1.0，其它参数同实施例1。得到视频前景标注结果如图8中的第三行所示。

Claims

1.一种基于轮廓时空特征的视频对象标注方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种基于轮廓时空特征的视频对象标注方法，，其特征在于所述的把一段视频分成若干部分：根据视频中物体运动的速度，每个部分的帧数会和它成反比，对于物体运动快速的情况下，每个部分的帧数少，反之，则帧数多。

3.根据权利要求1所述的一种基于轮廓时空特征的视频对象标注方法，其特征在于所述的对于关键帧，要求用户输入提示信息，指定前景对象和背景对象中的一些关键部分：用户在关键帧的图像上，用鼠标对前景或者背景进行勾勒，画上一些点，线段和多边形，这样，对于这些点，线段和多边形而言，它们是关键帧上标注的硬性限制，即这些部分在标注的过程中前景或者背景的从属关系不会改变；

4.根据权利要求1所述的一种基于轮廓时空特征的视频对象标注方法，其特征在于所述的对关键帧进行标注，得出该帧上的每个部分的从属关系，对关键帧进行标注，标注方法包括如下步骤：

5.根据权利要求1所述的一种基于轮廓时空特征的视频对象标注方法，其特征在于所述的对于非关键帧，根据关键帧上的标注结果，根据前景的颜色分布和形状信息，以及背景部分的颜色信息，对非关键帧进行标注，标注方法包括如下步骤：