CN102074020B

CN102074020B - 对视频进行多体深度恢复和分割的方法

Info

Publication number: CN102074020B
Application number: CN2010106169405A
Authority: CN
Inventors: 鲍虎军; 章国锋
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2010-12-31
Filing date: 2010-12-31
Publication date: 2012-08-15
Anticipated expiration: 2030-12-31
Also published as: CN102074020A

Abstract

本发明公开一种对视频进行多体深度恢复和分割的方法，包括如下步骤：（1）对视频用迭代方法进行能量最小化，得到视频的每一帧的初始标号，初始标号由像素的深度和分割信息组成；（2）对每一帧进行图像分割后，用多体平面拟合方法对每一帧图像的初始标号进行优化，得到每一帧图像所有分割块的优化后的标号；（3）利用优化后的标号，为每一帧上的每个像素从邻近帧中选出一组可见帧和一组不可见帧；（4）对所述视频的每一帧用迭代方法进行能量最小化，得到视频的每一帧的迭代后的标号，然后用层次置信度传播算法进一步扩展迭代后的标号中深度的级数。本发明可对存在多个刚性物体运动的视频进行深度恢复和分割。

Description

对视频进行多体深度恢复和分割的方法

技术领域

本发明涉及一种深度恢复和分割的方法，对存在多个刚性物体运动的视频进行深度恢复和分割。

背景技术

基于深度的三维恢复和图像(或视频)分割一直以来都是计算机视觉中的基础问题，因为计算出来的深度图像和分割图像可以被分别或共同用于很多重要的应用中，比如物体识别、基于图像的渲染、和图像(或视频)编辑。然而对这两类问题的研究经常是独立的，直到最近才有人开始对他们一同进行研究。比如L.Quan，J.Wang，P.Tan，and L.Yuan.Image-based modeling by jointsegmentation.International Journal of Computer Vision(IJCV’07)。

多视图的立体恢复(深度恢复)技术(Multi-View Stereo，即MVS)可以用来从一组图像中计算深度和三维几何信息。基于三维重建的重要性，已经有人对存在运动物体的动态场景进行重建进行了研究。三维运动分割是将多个运动物体的特征轨迹区分开来，目的是恢复他们的实际位置和对应的摄像机运动信息。为了简单起见，这类方法大多数都采用仿射摄像机模型(affine cameramotion)，比如J.P.Costeira and T.Kanade.A multi-body factorization method formotion analysis.IEEE International Conference on Computer Vision(ICCV′95)，也有少数已经提出来的方法处理透视摄像机模型下的三维分割问题，比如K.Schindler，J.U，and H.Wang.Perspective-view multibody structure-and-motionthrough model selection.(ECCV’06)。然而，这些方法都不能被直接用到高质量的三维重建上面来，特别是在需要得到图像分割的前提下。

如果运动的刚性物体都分别被遮住了，那么可以对每一个物体独立地运用MVS。经典的图像分割方法比如mean shift、normalized cuts和weightedaggregation(SWA)，都只是简单的处理二维图像而没有考虑MVS中的整体几何信息。

为了抽取出前景中的运动物体和该物体一些可能的可见边界，一些双层分割方法被提了出来，比如A.Criminisi，G.Cross，A.Blake，and V.Kolmogorov.Bilayersegmentation of live video.CVPR’06。这些方法假定摄像机是静止的，背景颜色也很容易估计或者模拟。然而值得注意的是这些方法也不适用于MVS，因为在MVS中摄像机是需要移动的。

最近，章国锋等人在G.Zhang，J.Jia，W.Hua，and H.Bao.Robust bilayersegmentation and motion/depth estimation with a handheld camera.IEEETransactions on Pattern Analysis and Machine Intelligence(PAMI’2010)中用运动信息和深度信息来模拟背景环境并且抽取出高质量的前景层。可以不断地对计算得到的深度运动场和双层分割结果进行迭代优化。然而此方法仅限于双层分割。另外对于前景层来说只计算了其运动信息而没有计算深度信息，这对于三维重建来说是不够的。

在二维运动分割中，运动趋势相同的像素被大致分到一组，最后再分成多个不同层次。这种方法严重依赖于运动估计的精确性，并且很难得到高质量的分割结果，特别是当出现严重遮挡的时候。

另外，二维运动分割也需要得到运动和分割的计算，这二者是“鸡和蛋”的问题，也就是说，对运动估计的不精确会造成分割的不准确，反过来对分割的不准确又会造成运动计算的不精确。于是对这二者的优化经常会得到一个局部的最优值而结束。

发明内容

本发明的目的在于提供一种对视频进行多体深度恢复和分割的方法，可对存在多个刚性物体运动的视频进行深度恢复和分割。

为实现上述目的，本发明所采取的技术方案是：该对视频进行多体深度恢复和分割的方法包括如下步骤：

(1)利用式(1)的能量方程对视频用迭代方法进行能量最小化，得到视频的每一帧的初始标号，所述初始标号由像素的深度信息和分割信息组成，

E^{'} (L; \hat{I}) Σ_{t = 1}^{n} \underset{x_{t} &Element; I_{t}}{Σ} (1 - P_{init} (x_{t}, L_{t} (x_{t})) + λ_{s} \underset{y_{t} &Element; N (x_{t})}{Σ} ρ (L_{t} (x_{t}), L_{t} (y_{t}))) . - - - (1)

其中，

P_{init} (x_{t}, L_{t} (x_{t})) = \frac{1}{{| φ}^{'} (x_{t}) |} \underset{t^{'} &Element; φ^{'} (x_{t})}{Σ} p_{c} (x_{t}, L_{t} (x_{t}), I_{t}, I_{t^{'}}) - - - (2)

p_{c} (x_{t}, l, I_{t}, I_{t^{'}}) = \frac{σ_{c}}{σ_{c} + | | I_{t} (x_{t}) - I_{t^{'}} (x^{'}) | |} - - - (3)

式(1)、式(2)和式(3)中，I_t表示第t帧图像，t＝1…n，且n为视频的总帧数；x_t表示I_t上的一个像素；L_t(x_t)表示x_t的标号；N(x_t)表示像素x_t的所有邻近像素；ρ(L_t(x_t)，L_t(y_t))＝min{|L_t(x_t)-L_t(y_t)|，η}，表示邻近像素之间的标号的差值；η表示截断参数；φ′(x_t)表示对像素x_t可见的帧，且所述对像素x_t可见的帧中与x_t对应的像素在第t帧的重投影与x_t重合；p_c表示像素x_t和x′的颜色相似性；l表示x_t的标号；σ_c表示控制式(3)的差分函数形状的参数；x′表示第t′帧中与像素x_t对应的像素，且第t′帧是属于φ′(x_t)的一帧；I_t(x)表示像素x_t的颜色值；I_t′(x′)是像素x′的颜色值；x′的坐标由利用式(4)得到的x′^h进行齐次坐标到二维坐标的转变得到：

x^{' h} ~ K_{t^{'}} R_{t^{'}}^{T} R_{t} K_{t}^{- 1} x_{t}^{h} + D (l) K_{t^{'}} R_{t^{'}}^{T} (T_{t} - T_{t^{'}}) - - - (4)

式(4)中，h表示齐次坐标；D(l)表示像素x_t的标号中的深度信息；K_t′、R_t′和T_t′分别对应表示第t′帧所对应的摄像机的内部参数矩阵、外部参数的旋转矩阵和外部参数的平移矩阵；K_t、R_t和T_t分别是第t帧对应的摄像机的内部参数矩阵、外部参数的旋转矩阵和外部参数的平移矩阵；

(2)对每一帧进行图像分割后，用多体平面拟合方法对每一帧图像的所述初始标号进行优化，得到每一帧图像所有分割块的优化后的标号；

(3)利用步骤(2)最终所得到的优化后的标号，为第t帧上的每个像素x_t从邻近帧中选出一组可见帧φ_v(x_t)和一组不可见帧φ_o(x_t)，所述可见帧中的所有像素变换到第t帧都不与x_t重合，所述不可见帧中的至少一个像素变换到第t帧会与x_t重合；

(4)利用式(5)所示的能量方程对所述视频的每一帧用迭代方法进行能量最小化，得到视频的每一帧的迭代后的标号，然后用层次置信度传播算法进一步扩展迭代后的标号中深度的级数，

E_t(L_t)＝E_d(L_t)+E_s(L_t) (5)

其中，

E_{s} (L_{t}) = λ_{s} \underset{x_{t}}{Σ} \underset{y_{t} &Element; N (x_{t})}{Σ} ρ (L_{t} (x_{t}), L_{t} (y_{t})) - - - (6)

E_{d} (L_{t}) = \underset{x_{t} &Element; I_{t}}{Σ} 1 - P (x_{t}, L_{t} (x_{t})) - - - (7)

P (x_{t}, l) = \frac{1}{| φ_{v} (x_{t}) | + | φ_{0} (x_{t}) |} (\underset{t^{'} &Element; φ_{0} (x_{t})}{Σ} p_{o} (x_{t}, l {, L}_{t^{'}}, t) + \underset{t^{'} &Element; φ_{v} (x_{t})}{Σ} p_{c} (x_{t}, l, I_{t}, I_{t^{'}}) \cdot p_{v} (x_{t}, l, L_{t^{'}})) - - - (8)

p_{c} (x_{t}, l, I_{t}, I_{t^{'}}) = \frac{σ_{c}}{σ_{c} + | | I_{t} (x_{t}) - I_{t^{'}} (x^{'}) | |} - - - (9)

p_{v} (x_{t}, l, L_{t^{'}}) = \{\begin{matrix} 0, & S (l) &NotEqual; S (l^{'}) \\ p_{g} (x_{t}, D (l), D (l^{'})), & S (l) = S (l^{'}) \end{matrix} - - - (10)

p_{g} (x_{t}, D (l), D (l^{'})) = \exp (- \frac{{| | x_{t} - x_{t}^{t^{' &RightArrow; t}} | |}^{2}}{2 σ_{d}^{2}}) - - - (11)

式(5)至式(11)中，E_d(L_t)和E_s(L_t)分别表示能量方程中的数据项和平滑项；I_t表示第t帧图像，t＝1…n，且n为视频的总帧数；x_t表示I_t上的一个像素；L_t(x_t)表示x_t的标号；N(x_t)表示像素x_t的所有邻近像素；ρ(L_t(x_t)，L_t(y_t))＝min{|L_t(x_t)-L_t(y_t)|，η}，表示邻近像素之间的标号的差值；η表示截断参数；x′表示第t′帧中与像素x_t对应的像素；I_t(x)表示像素x_t的颜色值；I_t′(x′)是像素x′的颜色值；x′的坐标由利用式(4)得到的x′^h进行齐次坐标到二维坐标的转变得到；p_c表示像素x_t和x′的颜色相似性；l表示x_t的标号；l′表示像素x′的标号；S(l)和S(l′)分别表示标号l和标号l′中的分割标号；p_g表示衡量两个像素之间几何上的一致性；D(l)和D(l′)分别表示标号l和标号l′中的的深度标号；

是将像素x′根据D(l′)重投影到第t帧上的像素；p_v表示像素x_t和坐标x′所对应像素的几何一致性和分割一致性。

进一步地，本发明步骤(2)所述“用多体平面拟合方法对所述初始标号进行优化”的方法如下：

对每一帧进行图像分割后，对每个分割块逐次赋予一个物体标号，同一分割块每次所赋予的物体标号互不相同，然后对每个分割块的每次赋值结果利用式(1)所示的能量方程得到相应的最小能量值和该分割块所在平面的参数；将每个分割块中的最小能量值中的最小值与初始标号所对应的最小能量值进行比较：若分割块中的最小能量值中的最小值小于初始标号所对应的最小能量值，则将该分割块中的最小能量值中的最小值所对应的物体标号作为分割标号赋给该分割块中的像素，得到该分割块的优化后的标号；否则，以所述初始标号作为该分割块的优化后的标号。

与现有技术相比，本发明的有益效果是：

(1)提出了一个全新的多体立体视觉模型，将深度和分割标号统一用一个标号表示，并且解决了全局最优化标号问题，从而本发明首次将多视图立体匹配方法扩展到具有多个独立运动的刚性物体的场景中，并且用全局优化方法来进行最优化求解；

(2)提出了一种匹配帧自适应选取的策略，将相邻帧已经恢复的深度和分割信息投影到当前帧来，进行像素的可见性判断，并对缺失像素进行填补，得到标号先验性约束来处理遮挡问题；

(3)提出了一个全新的多体平面拟合方法，有效解决了无特征区域的深度和分割难计算问题。

附图说明

图1是本发明的基本流程图；

图2是本发明的原理图之一，描述的是多视图几何中的投影和重投影；

图3是本发明中标号图缺失像素填补方法的描述：(a)是第61帧；(b)是第76帧；(c)是预先标号并重投影后所有像素的深度信息L_76，61，红色的为遮挡像素；(d)是标号图缺失像素填补方法的过程示例；

图4是采用与不采用本发明中的匹配帧自适应选择和标号先验性约束的效果对比：(a)是实验数据序列的第一帧；图(b)和(c)分别是采用和不采用预先标号的自适应帧选择方法处理得到这一帧的两个标号图结果(标号值用灰度表示)；图(d)和(e)是分别把图(b)和图(c)中矩形区域放大后方便观察的效果图；

图5是本发明的一个实例的流水线图：(a)是图片序列中的一帧；(b)是初始求解后多体平面拟合前得到的标号图；(c)是多体平面平面拟合后的标号图；(d)是两遍优化迭代后的标号图；(e)是人和背景的分割图；(f)是没有进行深度层次扩展的三维重建面片结果；(g)是深度层次扩展后的三维重建面片结果；

图6是本发明的两个三体实例：(a)和(d)分别是选定的两帧；(b)是(a)的标号图；(c)是(a)的分割图；(e)是(d)的标号图，(f)是(d)的分割图；

图7是本发明的一个实例的重建面片结果：(a)是背景的几何信息；(b)和(c)分别是该帧中两个人的重建面片结果；

图8是一个盒子序列的实例结果：(a)是图片序列中的一帧；(b)是本发明计算得到的该帧的标号图；

图9是一个玩具序列的实例结果：(a)是图片序列中的一帧；(b)是本发明计算得到的该帧的标号图；(c)是本发明计算得到的该帧的分割结果图。

具体实施方式

本发明提供了一种稳定高效的多体深度恢复和分割的方法，图1显示本发明的基本流程图，主要包括如下步骤：

步骤1)初始化处理阶段，按照本发明提出的能量方程对视频用迭代方法进行能量最小化，得到视频的每一帧的初始标号，所述初始标号由像素的深度标号和分割标号组成，其具体步骤为：

本发明的目的是既要求出所有像素的深度值，又要求出该像素属于哪一个物体，于是这里有两个标号，一个是深度标号，一个是分割标号。本发明把像素的这两个标号值统一用一个扩展的标号来表示：

L = {d_{1}^{1}, d_{2}^{1}, . . ., d_{m_{1}}^{1}, . . ., d_{1}^{K}, d_{2}^{K}, . . ., d_{m_{K}}^{K}}

这里假定场景中有K个物体(包含背景)。第k个物体在摄像机捕获的图像上的像素视差值(实际上是深度的倒数，这里称为深度标号)的范围在

之间，将这个区间均匀分割，从而每个视差值定义如下：

d_{i}^{k} = (i - 1) Δd + d_{\min}^{k}

这就是L集合中所有元素的意义。这里有

| L | = Σ_{k = 1}^{K} m_{k}

用S(l)表示标号为l的像素所在的物体，即分割标号。D(l)表示标号为l的像素的视差值，即深度标号。由L集合的任意一个元素L_i很容易可以得到S(l)和D(l)，先找到索引项h使得满足下面不等式：

1 \leq i - Σ_{j = 1}^{h - 1} m_{j} \leq m_{h}

则S(l)＝h，

D (l) = d_{j - Σ_{j = 1}^{h - 1} m_{j}}^{h} .

对下述能量方程进行优化：

E^{'} (L; \hat{I}) Σ_{t = 1}^{n} \underset{x_{t} &Element; I_{t}}{Σ} (1 - P_{init} (x_{t}, L_{t} (x_{t})) + λ_{s} \underset{y_{t} &Element; N (x_{t})}{Σ} ρ (L_{t} (x_{t}), L_{t} (y_{t}))) .

其中P_init的定义如下：

P_{init} (x_{t}, L_{t} (x_{t})) = \frac{1}{{| φ}^{'} (x_{t}) |} \underset{t^{'} &Element; φ^{'} (x_{t})}{Σ} p_{c} (x_{t}, L_{t} (x_{t}), I_{t}, I_{t^{'}})

在这里x_t是第t帧图像I_t上的一个像素，t＝1…n，且n为视频的总帧数；N(x_t)是x_t的所有邻近像素，ρ(L_t(x_t)，L_t(y_t))＝min{|L_t(x_t)-L_t(y_t)|，η}，表示邻近像素之间的标号的差值。η是一个截断参数，使得在最小化能量函数的时候不至于因平滑项能量值过大而丢失物体边界的不连续性，即避免被过度平滑。

这里φ′(x_t)指的是一些选定的帧，在这些帧里面x_t这个像素是可见的。这里用文献S.B.Kang and R.Szeliski.Extracting view-dependent depth maps from acollection of images.International Journal of Computer Vision(IJCV’2004)所公开的方法来选定这些帧。

这里的p_c是这样定义的：

p_{c} (x_{t}, l, I_{t}, I_{t^{'}}) = \frac{σ_{c}}{σ_{c} + | | I_{t} (x_{t}) - I_{t^{'}} (x^{'}) | |}

其中σ_c是一个控制上式的差分函数形状的参数，I_t′(x′)是像素x_t在φ′(x_t)中对应的像素x′的颜色值，x′的齐次坐标x′^h可以这样求得：

x^{' h} ~ K_{t^{'}} R_{t^{'}}^{T} R_{t} K_{t}^{- 1} x_{t}^{h} + D (l) K_{t^{'}} R_{t^{'}}^{T} (T_{t} - T_{t^{'}})

由上面x′^h进行齐次坐标到二维坐标转变即可得到得到x′的坐标。上面的D(l)就是像素x_t的标号l中的深度标号，K_t′、R_t′和T_t′分别是第t′帧对应的摄像机内参矩阵、外参的旋转矩阵和平移矩阵。K_t、R_t和T_t分别是第t帧对应的摄像机内参矩阵、外参的旋转矩阵和平移矩阵。需要说明的是，在进行本发明的所有步骤之前所有帧的摄像机内参和外参都是已知。

步骤2)对每一帧进行图像分割后，用多体平面拟合方法对每一帧图像的所述初始标号进行优化，得到每一帧图像所有分割块的优化后的标号，其具体步骤为：

先用mean shift计算出I_t的分割，即

假定环境中有K个物体(包含背景)。对于如上所示的每一个分割块s_i，假定它是属于物体k的，并且是一个平面，有三个参数

然后优化能量方程(1)可以得到这三个参数的值，和一个最小能量枚举这个分割块s_i所属的物体k可以得到K个最小能量即E′⁰，E′¹，…，E′^(k-1)，取其中最小者(不妨设为E′^j)、对应的物体j和对应的三个参数作为该分割块的最小能量、它对应的物体、和它的三个平面参数[a_i，b_i，c_i]。

前面在初始化阶段的步骤1)中计算出来了初始的每个像素标号，那么把s_i中所有像素按照这个初始的标号带入能量方程(1)可以得到一个能量E′^t，如果E′^j＜E′^t那么就更新所有s_i中的像素x_t的分割标号，即所属物体为j，也即S(x_t)＝j，平面参数为[a_i，b_i，c_i]，即

采用多体平面拟合算法优化前后的效果对比如图5所示。

步骤3)匹配帧的自适应选择与标号先验性约束。就是根据在初始化阶段或上一次迭代优化得到的标号，为第t帧上的每个像素x_t从相邻帧中选出两组帧，一组帧由那些对像素x_t可见的帧组成，记作φ_v(x_t)，另一组帧由那些对像素x_t不可见的帧组成，记作φ_o(x_t)，具体包含以下步骤：

1)在步骤2)得到优化后的标号后，用W.R.Mark，L.McMillan，and G.Bishop.Post-rendering 3D warping.(SI3D’1997)的方法把第t′帧的标号图变换到第t帧上得到L_t′，t。如果通过这样的重投影，第t′帧的标号图上的任何像素都没有投影到x_t，如图2所示，那么记第t′帧属于φ_o(x_t)，否则属于φ_v(x_t)。

2)实际上不需要对所有帧进行匹配计算，而只需要选择最多N₁帧进行匹配计算即可(这里N₁一般设为16～20)。如果找到的|φ_v(x_t)|小于一个下限N₂(一般定为5)那么再找一些邻近的没有像素重投影到x_t的帧φ_o(x_t)，使得

|φ_v(x_t)|+|φ_o(x_t)|＝N₂。

3)注意到被遮挡的像素是无法计算匹配代价的，所以如果一个像素在所有邻近帧中都不可见，那么它的深度值是无法直接得到的。但是这种情况下仍然能够大致估计该像素的深度值和它所属的物体，这也就是为什么要挑选φ_o(x_t)的缘故。具体做法如下：

对于相邻帧投影过来的标号图，如图3所示，对每个缺失的像素x_t，分别进行水平和垂直方向的搜索，各找到两个最近的有效投影像素，在这四个像素中取具有标号最小的那个，记作x^*，将它的标号作为x_t的标号。可以用x^*在L_t′，t中的标号替代x_t在L_t′，t中的标号即L_t′，t(x)＝L_t′，t(x^*)的可信度由这两个像素之间的距离决定，这个可信度定义如下：

ω_{0} (x) = e^{- \frac{{| | x - x^{*} | |}^{2}}{{2 σ}_{ω}^{2}}}

其中常数σ_ω设为10。

尽管这种缺失标号推断方法并不是很精确，但已经对遮挡情况很重要情况下计算的数据项能起到改善作用。如下定义标号先验性约束：

p_{o} (x_{t}, l, L_{t^{'}, t}) = λ_{o} \cdot ω_{o} (x_{t}) = \frac{β}{β + | l - L_{t^{'} t} (x_{t}) |}

其中λ_o是一个权重，β用来控制上式的差分函数的形状。上式要求当ω_o(x)很高的时候，L_t(x_t)需要跟L_t′，t(x_t)相近。

图4给出了采用匹配帧自适应选择和标号先验性约束的标号计算结果，以及和不采用情况下计算的标号图的对比结果。可以看到采用匹配帧自适应选择和标号先验性约束计算的标号图在不连续边界处得到了明显的改善。

步骤4)迭代优化阶段，根据本发明提出的能量方程对单目视频序列的所有帧进行迭代优化，求出所有帧的标号图，然后用层次置信度传播算法提高深度恢复的精细度，具体包含以下步骤：

1)按照能量方程

E_t(L_t)＝E_d(L_t)+E_s(L_t)

进行优化求得最小能量值，即可得到所有像素的深度值和所属分割块。利用置信度传播算法对这个能量方程进行两趟优化即可得到比较精确的结果。

这里

E_{s} (L_{t}) = λ_{s} \underset{x_{t}}{Σ} \underset{y_{t} &Element; N (x_{t})}{Σ} ρ (L_{t} (x_{t}), L_{t} (y_{t}))

表示的是平滑项，用来衡量图像上相邻像素之间的标号差异，使得相邻像素之间的标号差值尽可能小。ρ被定义成ρ(L_t(x_t)，L_t(y_t))＝min{|L_t(x_t)-L_t(y_t)|，η}，表示邻近像素之间的标号差值。η是一个截断值，使得在最小化能量函数的时候不至于因平滑项能量值过大而丢失物体边界的不连续性，即避免被过度平滑。

数据项E_d(L_t)定义如下：

E_{d} (L_{t}) = \underset{x_{t} &Element; I_{t}}{Σ} 1 - P (x_{t}, L_{t} (x_{t}))

这里

P (x_{t}, l) = \frac{1}{| φ_{v} (x_{t}) | + | φ_{0} (x_{t}) |} (\underset{t^{'} &Element; φ_{0} (x_{t})}{Σ} p_{o} (x_{t}, l {, L}_{t^{'}}, t) + \underset{t^{'} &Element; φ_{v} (x_{t})}{Σ} p_{c} (x_{t}, l, I_{t}, I_{t^{'}}) \cdot p_{v} (x_{t}, l, L_{t^{'}}))

其中

p_{c} (x_{t}, l, I_{t}, I_{t^{'}}) = \frac{σ_{c}}{σ_{c} + | | I_{t} (x_{t}) - I_{t^{'}} (x^{'}) | |},

描述的是像素x_t和x′之间的颜色相似性；x_t和x′分别是第t帧和第t′帧上的像素；p_v描述的是像素x_t和x′之间的几何一致性和分割一致性，即x_t和x′是否在同一个物体上，深度是否一致。具体定义如下：

p_{v} (x_{t}, l, L_{t^{'}}) = \{\begin{matrix} 0 & S (l) &NotEqual; S (l^{'}) \\ p_{g} (x_{t}, D (l), D (l^{'})), & S (l) = S (l^{'}) \end{matrix}

其中l′是x′的标号。如果l和l′是不同的物体即S(l)≠S(l′)，则两个像素不是两帧中对应的像素，需要分隔开。否则，用p_g来衡量两个像素之间几何上的一致性，其定义如下：

p_{g} (x_{t}, D (l), D (l^{'})) = \exp (- \frac{{| | x_{t} - x_{t}^{t^{' &RightArrow; t}} | |}^{2}}{2 σ_{d}^{2}})

这里

是将t′帧上的x′根据计算得到的D(l′)投影到第t帧上的对应点。

2)在上述处理过程中，本发明采用置信度传播算法(Belief Propagation，简称BP)来优化目标函数。由于标号的数目跟内存需求量成正比。这对于处理大分辨率图像来说，很容易造成内存需求量超出所运行机器的内存空间。采用层次化的求解策略固然可以减少内存使用量，但会一定程度上降低物体分割和深度恢复的质量，特别是在不连续边界区域。为了尽可能得到高质量的物体分割和深度恢复结果，本发明采用一个简单的基于区域切分的求解策略来克服内存瓶颈。过程很简单，就是将图像均匀切割成M×M个区域，分别对各个区域进行能量优化。如果某个颜色分割块跨越多个区域，则需要进行相应的***。该策略简单有效，可以有效克服内存瓶颈，而且对处理结果影响很小。

至此，本发明多体深度恢复和分割的所有步骤全部结束。

在初始化和两次迭代优化的时候，通常每个物体深度的层数m_k设在51～101之间。经过两次迭代优化之后，通常分割的结果已经非常准确了。然后，为了进一步提高深度的精度，本发明可以固定分割标号，这时候标号实际上等同于深度级数。本发明采用从粗到细的层次化置信度传播算法，可以在不需要增加很多计算代价的条件下有效地扩展全局优化中的深度级数，从而提高深度恢复的精度。

在实验中，视频序列的图像分辨率大小是960×540。***中绝大部分参数可以采用默认值，在处理过程中无需调整，例如，取λ_s＝5/|L|，η＝0.03|L|，λ_o＝0.3，σ_c＝10，σ_d＝2，β＝0.02|L|，进而得到图8、9所示的结果。

本发明的一组实验是如图8所示的一组盒子序列的实验，其中图8(a)是视频中的一帧，图8(b)是利用本发明得到的该帧的标号图；本发明的另一组实验是如图9所示的一组玩具序列的实验，图9(a)是视频中的一帧，图9(b)是利用本发明的到的该帧的标号图，图9(c)是利用本发明得到的该帧的分割图。从图8和图9的标号图和原图的对比可以看出整个标号图轮廓分明，在边界处恢复得很准确；从图9的分割图与原图的对比可以看出分割结果很准确，不同物体被精准的分割开了，由此说明本发明提出的算法在多体情况下求得的结果很精确。

Claims

1.一种对视频进行多体深度恢复和分割的方法，其特征在于，包括如下步骤：

E^{'} (L; \hat{I}) Σ_{t = 1}^{n} \underset{x_{t} &Element; I_{t}}{Σ} (1 - P_{init} (x_{t}, L_{t} (x_{t})) + λ_{s} \underset{y_{t} &Element; N (x_{t})}{Σ} ρ (L_{t} (x_{t}), L_{t} (y_{t}))) . - - - (1)

其中，

P_{init} (x_{t}, L_{t} (x_{t})) = \frac{1}{{| φ}^{'} (x_{t}) |} \underset{t^{'} &Element; φ^{'} (x_{t})}{Σ} p_{c} (x_{t}, L_{t} (x_{t}), I_{t}, I_{t^{'}}) - - - (2)

p_{c} (x_{t}, l, I_{t}, I_{t^{'}}) = \frac{σ_{c}}{σ_{c} + | | I_{t} (x_{t}) - I_{t^{'}} (x^{'}) | |} - - - (3)

x^{' h} ~ K_{t^{'}} R_{t^{'}}^{T} R_{t} K_{t}^{- 1} x_{t}^{h} + D (l) K_{t^{'}} R_{t^{'}}^{T} (T_{t} - T_{t^{'}}) - - - (4)

E_t(L_t)＝E_d(L_t)+E_s(L_t) (5)

其中，

E_{s} (L_{t}) = λ_{s} \underset{x_{t}}{Σ} \underset{y_{t} &Element; N (x_{t})}{Σ} ρ (L_{t} (x_{t}), L_{t} (y_{t})) - - - (6)

E_{d} (L_{t}) = \underset{x_{t} &Element; I_{t}}{Σ} 1 - P (x_{t}, L_{t} (x_{t})) - - - (7)

P (x_{t}, l) = \frac{1}{| φ_{v} (x_{t}) | + | φ_{0} (x_{t}) |} (\underset{t^{'} &Element; φ_{0} (x_{t})}{Σ} p_{o} (x_{t}, l {, L}_{t^{'}}, t) + \underset{t^{'} &Element; φ_{v} (x_{t})}{Σ} p_{c} (x_{t}, l, I_{t}, I_{t^{'}}) \cdot p_{v} (x_{t}, l, L_{t^{'}})) - - - (8)

p_{c} (x_{t}, l, I_{t}, I_{t^{'}}) = \frac{σ_{c}}{σ_{c} + | | I_{t} (x_{t}) - I_{t^{'}} (x^{'}) | |} - - - (9)

p_{v} (x_{t}, l, L_{t^{'}}) = \{\begin{matrix} 0, & S (l) &NotEqual; S (l^{'}) \\ p_{g} (x_{t}, D (l), D (l^{'})), & S (l) = S (l^{'}) \end{matrix} - - - (10)

p_{g} (x_{t}, D (l), D (l^{'})) = \exp (- \frac{{| | x_{t} - x_{t}^{t^{' &RightArrow; t}} | |}^{2}}{2 σ_{d}^{2}}) - - - (11)

式(5)至式(11)中，E_d(L_t)和E_s(L_t)分别表示能量方程中的数据项和平滑项；I_t表示第t帧图像，t＝1…n，且n为视频的总帧数；x_t表示I_t上的一个像素；L_t(x_t)表示x_t的标号；N(x_t)表示像素x_t的所有邻近像素；ρ(L_t(x_t)，L_t(y_t))＝min{|L_t(x_t)-L_t(y_t)|，η}，表示邻近像素之间的标号的差值；η表示截断参数；x′表示第t′帧中与像素x_t对应的像素；I_t(x)表示像素x_t的颜色值；I_t′(x′)是像素x′的颜色值；x′的坐标由利用式(4)得到的x′_h进行齐次坐标到二维坐标的转变得到；p_c表示像素x_t和x′的颜色相似性；l表示x_t的标号；l′表示像素x′的标号；S(l)和S(l′)分别表示标号l和标号l′中的分割标号；p_g表示衡量两个像素之间几何上的一致性；D(l)和D(l′)分别表示标号l和标号l′中的的深度标号；

2.根据权利要求1所述的对视频进行多体深度恢复和分割的方法，其特征在于，步骤(2)所述“用多体平面拟合方法对所述初始标号进行优化”的方法如下：