CN103002309A

CN103002309A - 对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法

Info

Publication number: CN103002309A
Application number: CN2012103609760A
Authority: CN
Inventors: 章国锋; 鲍虎军; 姜翰青
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2012-09-25
Filing date: 2012-09-25
Publication date: 2013-03-27
Anticipated expiration: 2032-09-25
Also published as: CN103002309B

Abstract

本发明公开了一种对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法。它利用多视图几何方法结合DAISY特征向量，对于同一时刻的多目视频帧进行立体匹配，得到多目视频每一时刻的初始化深度图；对于多目视频的每一帧图像计算动态概率图，利用动态概率图对每帧图像进行动态像素点和静态像素点的划分，利用不同的优化方法进行时空一致性的深度优化，对于静态点，利用bundle optimization方法结合多个相邻时刻的颜色和几何一致性约束进行优化；对于动态点，统计多个相邻时刻的多目摄像机之间对应像素点的颜色和几何一致性约束信息，对每一时刻动态深度值进行时空一致性优化。本发明在3D立体影像、3D动画、增强现实和运动捕获等领域将会有很高的应用价值。

Description

对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法

技术领域

本发明涉及立体匹配和深度恢复方法，尤其涉及一种对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法。

背景技术

视频的稠密深度恢复技术是计算机中层视觉领域的基础技术之一，其在3D建模、3D影像、增强现实和运动捕获等众多领域中有及其重要的应用。这些应用通常要求深度恢复结果具有很高精度和时空一致性。

视频的稠密深度恢复技术的难点在于：对于场景中的静态和动态物体，所恢复的深度值具有很高的精度和时空一致性。虽然目前对于静态场景的深度恢复技术已能够恢复具有较高精度的深度信息，但是自然界处处充满了运动的物体，对于视频场景中包含的动态物体来说，现有的深度恢复方法都很难达到较高的精度及时空域上的一致性。这些方法通常要求较多个固定放置的同步摄像机对场景进行捕获，在每个时刻对同步的多目视频帧利用多视图几何的方法进行立体匹配，从而恢复每个时刻的深度信息。而这种拍摄方法更多是被应用于实验室内动态场景的拍摄工作，实际拍摄过程中这种拍摄模式会有很多限制。另外现有的方法在时序上优化深度的过程中，通常利用光流寻找到不同时刻视频帧上对应像素点，然后将对应点的深度值或3D点位置进行线性或曲线拟合，从而估计出当前帧像素点的深度信息。这种时域上3D光顺化的方法只能使得时序上对应像素点的深度更为一致，并不能优化出真正准确的深度值；同时由于光流估计不鲁棒性的普遍存在，使得动态点的深度优化问题变得更为复杂难解。

现有的视频深度恢复方法主要分为两大类：

1.对于单目静态场景视频的时域一致性深度恢复

此类方法较为典型的是Zhang于09年提出的方法：G.Zhang,J.Jia,T.-T.Wong,and H.Bao.Consistent depth maps recovery from a video sequence.IEEETransactions on Pattern Analysis and Machine Intelligence,31(6):974-988,2009.。此方法首先利用传统多视图几何的方法初始化每帧图像的深度，然后在时域上利用bundle optimization技术统计多个时刻的几何和颜色一致性来优化当前帧的深度。此方法对于静态场景能够恢复出高精度的深度图；对于包含动态物体的场景，此方法不能恢复动态物体的深度值。

2.对于多目动态场景视频的深度恢复

此类方法较为典型的是Zitnick的方法：C.L.Zitnick,S.B.Kang,M.Uyttendaele,S.Winder,and R.Szeliski.High-quality video view interpolation using a layeredrepresentation.ACM Transactions on Graphics,23:600-608,August 2004.、Larsen的方法：E.S.Larsen,P.Mordohai,M.Pollefeys,and H.Fuchs.Temporallyconsistent reconstruction from multiple video streams using enhanced beliefpropagation.In ICCV，pages 1-8,2007.以及Lei的方法：C.Lei,X.D.Chen,and Y.H.Yang.A new multi-view spacetime-consistent depth recovery framework for freeviewpoint video rendering.In ICCV，pages 1570-1577,2009.。这些方法都利用同一时刻的多目同步视频帧恢复深度图，要求利用较多数目的固定放置的同步摄像机拍摄动态场景，不适合用于户外实际拍摄。Larsen和Lei的方法分别利用时空域上能量优化和时域3D光顺化的方法来优化深度值，使得这些方法不够鲁棒，不能处理光流估计产生严重错误的情况。

对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法的步骤1）使用了Tola提出的DAISY特征描述符：E.Tola,V.Lepetit,and P.Fua.Daisy:An efficient dense descriptor applied to wide-baseline stereo.IEEE Transactions onPattern Analysis and Machine Intelligence,32(5):815-830,2010.

对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法的步骤1）和步骤2）使用了Comaniciu提出的Mean-shift技术：D.Comaniciu,P.Meer,and S.Member.Mean shift:A robust approach toward feature space analysis.IEEETransactions on Pattern Analysis and Machine Intelligence,24:603-619,2002.

对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法的步骤2）使用了Rother提出的Grabcut技术：C.Rother,V.Kolmogorov,and A.Blake.”grabcut”:interactive foreground extraction using iterated graph cuts.ACMTransactions on Graphics,23:309-314,August 2004.

对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法的步骤1）、步骤2）和步骤3）使用了Felzenszwalb提出的能量方程优化技术：P.F.Felzenszwalb and D.P.Huttenlocher.Efficient belief propagation for early vision.International Journal of Computer Vision,70(1):41-54,2006.

发明内容

本发明的目的在于针对现有技术的不足，提供一种对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法。

对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法的步骤如下：

1）利用多视图几何方法结合DAISY特征向量，对于同一时刻的多目视频帧进行立体匹配，得到多目视频每一时刻的初始化深度图；

2）利用步骤1）得到的初始化深度图对于多目视频的每一帧图像计算动态概率图，并利用动态概率图对每帧图像进行动态像素点和静态像素点的划分；

3）对于步骤2）所划分的动态像素点和静态像素点，利用不同的优化方法进行时空一致性的深度优化，对于静态像素点，利用bundle optimization方法结合多个相邻时刻的颜色和几何一致性约束进行优化；对于动态像素点，统计多个相邻时刻的多目摄像机之间对应像素点的颜色和几何一致性约束信息，由此对每一时刻动态深度值进行时空一致性优化。

所述的步骤1）为：

（1）利用多视图几何方法结合DAISY特征描述符，对于同一时刻的多目视频帧进行立体匹配，通过如下能量优化方程式求解每一时刻图像帧的初始化深度图：

E_{D} (D_{m}^{t}; \hat{I} (t)) = E_{d} (D_{m}^{t}; \hat{I} (t)) + E_{s} (D_{m}^{t})

其中

表示在t时刻的M个多目同步视频帧，表示第m个视频的t时刻的图像帧，

表示第m个视频的t时刻的深度图；

是数据项，表示

中像素点与根据

计算的

中其余图像帧投影点之间的DAISY特征相似度，其计算公式如下：

E_{d} (D_{m}^{t}; \hat{I} (t)) = \underset{x_{m}^{t}}{Σ} \frac{\underset{m^{'} &NotEqual; m}{Σ} L_{d} (x_{m}^{t}, D_{m}^{t} (x_{m}^{t}); I_{m}^{t}, I_{m^{'}}^{t})}{M - 1}

其中是用来估计对应像素的DAISY特征相似度的惩罚函数，

表示像素点

的DAISY特征描述符，

是

利用

投影至

中的投影位置；

是平滑项，表示相邻像素x、y之间的深度平滑程度，其计算公式如下：

E_{s} (D_{m}^{t}) = λ \underset{x}{Σ} \underset{y &Element; N (x)}{Σ} \min {| D_{m}^{t} (x) - D_{m}^{t} (y) |, η}

其中平滑权重λ为0.008，深度差的截断值η为3；

（2）利用多目视频帧的初始化深度在3D空间中的一致性来判断每帧图像中的每个像素点在同一时刻其余摄像机中是否可见，从而得到同一时刻多个摄像机两两之间的可视性图；可视性图的计算公式如下：

V_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) = \{\begin{matrix} 1 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | \leq δ_{d} \\ 0 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | > δ_{d} \end{matrix}

其中

表示

在中是否可见，1表示可见，0表示不可见；δ_d是深度差异的阈值，

是通过利用

将

投影至上计算得到的；利用所得到的可视性图，对每个像素

计算总体可视性如果

在t时刻所有其余视频帧中均不可见，则

为0，否则为1；

（3）结合所求得的可视性图重新初始化每帧图像的深度图，DAISY特征相似度仅在可见的像素格点进行比较估计；并且，当的像素点的初始化深度值出现错误的情况下，利用Mean-shift技术对每帧图像进行分割，对于每个分割区域，利用的像素点的深度来拟合参数为[a,b,c]的平面，利用拟合的平面重新定义

的像素点的数据项：

E_{d} (x_{m}^{t}, D_{m}^{t}) = \underset{x_{m}^{t}}{Σ} \frac{σ_{d}}{σ_{d} + | ax + by + c - D_{m}^{t} (x_{m}^{t}) |}

其中σ_d用来控制数据项对于深度值与拟合平面的距离差的敏感度，x和y是像素点的坐标值；利用重新定义的数据项进行能量优化，从而纠正被遮挡像素点的错误深度值；

所述的步骤2）为：

（1）对于每帧图像中的像素点，利用初始化深度

将其投影至其余时刻帧，比较像素点在当前时刻帧与其余时刻帧上的对应位置的几何与颜色的一致性，统计深度值和颜色值具有一致性的其余时刻帧数目所占的比例值，作为像素点属于动态物体的概率值，从而得到每帧图像的动态概率图，其计算公式如下：

P_{d} (x_{m}^{t}) = \frac{\underset{(m^{'}, t^{'}) &Element; N (m, t)}{Σ} C_{m &RightArrow; m^{'}}^{t &RightArrow; t^{'}} (x_{m}^{t}) = dynamic}{| N (m, t) |}

其中启发式函数用来判断

在其余帧

上几何和颜色是否一致；首先比较

与对应位置

的深度值差异，如果

在

上的深度值与

的深度不相似，则认为几何不一致，如果

与

的深度值相似，则比较其颜色值，如果颜色相似，则认为与

的颜色值一致，否则认为颜色不一致；统计具有深度值和颜色值一致性的其余时刻帧数目所占的比例，作为像素点属于动态物体的概率值；

（2）将动态概率图利用大小为0.4的阈值η_p进行二值化得到每帧图像的初始动态/静态分割图；利用Mean-shift技术对每帧图像进行over-segmentation，即粒度小的图像分割，对于每个分割区域统计二值化后的动态像素点数目的比例值，如果比例值大于0.5，则将整个分割区域的像素点标记为动态，否则标记为静态，由此对二值化分割图进行边界调整和去噪；

（3）利用连续时刻图像之间对应像素点的坐标偏移量，将每帧图像的像素点跟踪至同一视频中的相邻时刻帧寻找对应像素点，统计对应像素点分割标记为动态的帧数目所占的比例，由此计算像素点的时域动态概率，其计算公式如下：

P_{d}^{'} (x_{m}^{t}) = \frac{\underset{t^{'} &Element; N (t)}{Σ} S_{m}^{t^{'}} (x_{m}^{t} + O_{m}^{t &RightArrow; t^{'}} (x_{m}^{t})) = dynamic}{| N (t) |}

其中

表示

从t至t′时刻的光流偏移量，

表示

在t′时刻对应像素点的动态/静态分割标记，N(t)表示t前后连续5个相邻时刻帧；利用时域动态概率，通过如下能量优化方程式优化每一时刻图像帧的动态/静态分割图：

E_{S} (S_{m}^{t}; P_{d}^{'}, I_{m}^{t}) = E_{d} (S_{m}^{t}; P_{d}^{'}) + E_{s} (S_{m}^{t}; I_{m}^{t})

其中

表示视频m在第t帧的动态/静态分割图；数据项E_d的定义如下：

E_{d} (S_{m}^{t}; P_{d}^{'}) = \underset{x_{m}^{t}}{Σ} e_{d} (S_{m}^{t} (x_{m}^{t}))

e_{d} (S_{m}^{t} (x_{m}^{t})) = \{\begin{matrix} - \log (1 - P_{d}^{'} (x_{m}^{t})) & S_{m}^{t} (x_{m}^{t}) = static \\ - \log (P_{d}^{'} (x_{m}^{t})) & S_{m}^{t} (x_{m}^{t}) = dynamic \end{matrix}

平滑项E_s促使分割边界与图像边界尽可能一致，其定义如下：

E_{s} (S_{m}^{t}; I_{m}^{t}) = λ \underset{x}{Σ} \underset{y &Element; N (x)}{Σ} \frac{| S_{m}^{t} (x) - S_{m}^{t} (y) |}{1 + {| | I_{m}^{t} (x) - I_{m}^{t} (y) | |}_{2}}

对于经能量优化后的动态/静态分割图，利用Grabcut分割技术进行进一步优化，除去分割边界上的毛刺，得到最终时序上一致动态/静态划分；

所述的步骤3）为：

（1）对于静态像素点，利用bundle optimization方法统计当前时刻帧像素点和多目视频多个相邻时刻帧上对应像素点之间的颜色和几何一致性约束信息，由此对当前时刻静态深度值进行优化；

（2）对于动态像素点

假设其候选深度为d，首先根据d将其投影至同一时刻t的视频m，得到对应像素点

比较

和

的颜色与几何一致性，其计算公式如下：

L_{g} (x_{m}^{t}, x_{m^{'}}^{t}) = p_{c} (x_{m}^{t}, x_{m^{'}}^{t}) p_{g} (x_{m}^{t}, x_{m^{'}}^{t})

其中

估计

和

的颜色一致性，其计算公式如下：

p_{c} (x_{m}^{t}, x_{m^{'}}^{t}) = \frac{σ_{c}}{σ_{c} + {| | I_{m}^{t} (x_{m}^{t}) - I_{m^{'}}^{t} (x_{m^{'}}^{t}) | |}_{1}}

σ_c控制颜色差异的敏感度,

估计和

的几何一致性，其计算公式如下：

p_{g} (x_{m}^{t}, x_{m^{'}}^{t}) = \frac{σ_{w}}{σ_{g} + d_{g} (x_{m}^{t}, x_{m^{'}}^{t}; D_{m}^{t}, D_{m^{'}}^{t})}

σ_g控制深度差异的敏感度，对称投影误差计算函数d_g将

投影至同一时刻t的视频m′的投影位置并计算其与的距离，同时计算投影至t时刻m视频的投影位置与

的距离，然后计算两者的平均距离；

接下来，利用利用光流将

和

跟踪至相邻时刻t′得到对应像素点

和

比较

和

的颜色与几何一致性，其计算公式如下：

L_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}) = p_{c} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}) p_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}})

累积多个相邻时刻的颜色与几何一致性估计值，由此重新定义对于动态像素点深度优化的能量方程数据项：

E_{d}^{'} (D_{m}^{t}; \hat{I}, \hat{D}) = \underset{x_{m}^{t}}{Σ} 1 - \frac{\underset{t^{'} &Element; N (t)}{Σ} \underset{m^{'} &NotEqual; m}{Σ} L_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}})}{(M - 1) | N (t) |}

利用重新定义的数据项进行能量优化方程式求解，从而在时空域上优化每帧图像中的动态像素点深度值。

本发明对于视频场景中包含的动态物体来说，现有的深度恢复方法都很难达到较高的精度及时空域上的一致性，这些方法通常要求较多个固定放置的同步摄像机对场景进行捕获，这种拍摄方法更多是被应用于实验室内动态场景的拍摄工作，实际拍摄过程中这种拍摄模式会有很多限制；本发明所提出的一种对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法能够对于多目视频中的动态和静态物体恢复每一时刻的准确深度图，亦能够保持深度图在多个时刻之间的高度一致性。此方法允许多目摄像机自由独立地运动，并允许较少数目（仅2个）的摄像机拍摄的动态场景，在实际拍摄过程中更为实用。

附图说明

图1是对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法流程图；

图2(a)是视频序列的一帧图像；

图2(b)是与图2(a)同步的一帧图像；

图2(c)是图2(a)的初始化深度图；

图2(d)是利用图2(a)和图2(b)估计出的可视性图；

图2(e)是利用图2(d)进行平面拟合纠正的初始化深度图；

图3(a)是图2(a)的动态概率图；

图3(b)是图3(a)经过二值化并利用Mean-shift分割进行边界调整及去噪后的动态/静态分割图；

图3(c)是经过时域上优化的分割图；

图3(d)是经过Grabcut技术优化的分割图；

图3(e)是图3(a-d)中方框区域的局部放大图；

图4(a)是视频序列的一帧图像；

图4(b)是图4(a)的动态/静态分割图；

图4(c)是图4(a)经时空一致性优化后的深度图；

图4(d)是图4(a)和图4(c)中方框区域的局部放大图；

图4(e)是视频序列的另一帧图像；

图4(f)是图4(e)经时空一致性优化的深度图结果；

图4(g)是利用图4(f)重建出的3D场景模型以及纹理映射后的结果；

图5是时空一致性深度优化的示意图。

具体实施方式

所述的步骤1）为：

E_{D} (D_{m}^{t}; \hat{I} (t)) = E_{d} (D_{m}^{t}; \hat{I} (t)) + E_{s} (D_{m}^{t})

其中

表示在t时刻的M个多目同步视频帧，

表示第m个视频的t时刻的图像帧，表示第m个视频的t时刻的深度图；

是数据项，表示

中像素点与根据

计算的

E_{d} (D_{m}^{t}; \hat{I} (t)) = \underset{x_{m}^{t}}{Σ} \frac{\underset{m^{'} &NotEqual; m}{Σ} L_{d} (x_{m}^{t}, D_{m}^{t} (x_{m}^{t}); I_{m}^{t}, I_{m^{'}}^{t})}{M - 1}

其中

是用来估计对应像素的DAISY特征相似度的惩罚函数，

表示像素点的DAISY特征描述符，是

利用

投影至

中的投影位置；

E_{s} (D_{m}^{t}) = λ \underset{x}{Σ} \underset{y &Element; N (x)}{Σ} \min {| D_{m}^{t} (x) - D_{m}^{t} (y) |, η}

其中平滑权重λ为0.008，深度差的截断值η为3；

V_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) = \{\begin{matrix} 1 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | \leq δ_{d} \\ 0 & | D_{m &RightArrow; m^{'}}^{t} (x_{m}^{t}) - D_{m^{'}}^{t} (x_{m^{'}}^{t}) | > δ_{d} \end{matrix}

其中

表示在

中是否可见，1表示可见，0表示不可见；δ_d是深度差异的阈值，

是通过利用

将

投影至

上计算得到的；利用所得到的可视性图，对每个像素

计算总体可视性

如果在t时刻所有其余视频帧中均不可见，则

为0，否则为1；

（3）结合所求得的可视性图重新初始化每帧图像的深度图，DAISY特征相似度仅在可见的像素格点进行比较估计；并且，当

的像素点的初始化深度值出现错误的情况下，利用Mean-shift技术对每帧图像进行分割，对于每个分割区域，利用

的像素点的深度来拟合参数为[a,b,c]的平面，利用拟合的平面重新定义

的像素点的数据项：

E_{d} (x_{m}^{t}, D_{m}^{t}) = \underset{x_{m}^{t}}{Σ} \frac{σ_{d}}{σ_{d} + | ax + by + c - D_{m}^{t} (x_{m}^{t}) |}

其中σ_d用来控制数据项对于深度值与拟合平面的距离差的敏感度，x和y是像素点

的坐标值；利用重新定义的数据项进行能量优化，从而纠正被遮挡像素点的错误深度值；

所述的步骤2）为：

（1）对于每帧图像中的像素点，利用初始化深度将其投影至其余时刻帧，比较像素点在当前时刻帧与其余时刻帧上的对应位置的几何与颜色的一致性，统计深度值和颜色值具有一致性的其余时刻帧数目所占的比例值，作为像素点属于动态物体的概率值，从而得到每帧图像的动态概率图，其计算公式如下：

P_{d} (x_{m}^{t}) = \frac{\underset{(m^{'}, t^{'}) &Element; N (m, t)}{Σ} C_{m &RightArrow; m^{'}}^{t &RightArrow; t^{'}} (x_{m}^{t}) = dynamic}{| N (m, t) |}

其中启发式函数用来判断

在其余帧

上几何和颜色是否一致；首先比较与对应位置的深度值差异，如果在上的深度值与

的深度不相似，则认为几何不一致，如果

与

的深度值相似，则比较其颜色值，如果颜色相似，则认为与

P_{d}^{'} (x_{m}^{t}) = \frac{\underset{t^{'} &Element; N (t)}{Σ} S_{m}^{t^{'}} (x_{m}^{t} + O_{m}^{t &RightArrow; t^{'}} (x_{m}^{t})) = dynamic}{| N (t) |}

其中

表示

从t至t′时刻的光流偏移量，表示

E_{S} (S_{m}^{t}; P_{d}^{'}, I_{m}^{t}) = E_{d} (S_{m}^{t}; P_{d}^{'}) + E_{s} (S_{m}^{t}; I_{m}^{t})

其中

E_{d} (S_{m}^{t}; P_{d}^{'}) = \underset{x_{m}^{t}}{Σ} e_{d} (S_{m}^{t} (x_{m}^{t}))

e_{d} (S_{m}^{t} (x_{m}^{t})) = \{\begin{matrix} - \log (1 - P_{d}^{'} (x_{m}^{t})) & S_{m}^{t} (x_{m}^{t}) = static \\ - \log (P_{d}^{'} (x_{m}^{t})) & S_{m}^{t} (x_{m}^{t}) = dynamic \end{matrix}

E_{s} (S_{m}^{t}; I_{m}^{t}) = λ \underset{x}{Σ} \underset{y &Element; N (x)}{Σ} \frac{| S_{m}^{t} (x) - S_{m}^{t} (y) |}{1 + {| | I_{m}^{t} (x) - I_{m}^{t} (y) | |}_{2}}

所述的步骤3）为：

（2）对于动态像素点

假设其候选深度为d，首先根据d将其投影至同一时刻t的视频m′，得到对应像素点

比较

和

的颜色与几何一致性，其计算公式如下：

L_{g} (x_{m}^{t}, x_{m^{'}}^{t}) = p_{c} (x_{m}^{t}, x_{m^{'}}^{t}) p_{g} (x_{m}^{t}, x_{m^{'}}^{t})

其中

估计

和

的颜色一致性，其计算公式如下：

p_{c} (x_{m}^{t}, x_{m^{'}}^{t}) = \frac{σ_{c}}{σ_{c} + {| | I_{m}^{t} (x_{m}^{t}) - I_{m^{'}}^{t} (x_{m^{'}}^{t}) | |}_{1}}

σ_c控制颜色差异的敏感度,

估计

和

的几何一致性，其计算公式如下：

p_{g} (x_{m}^{t}, x_{m^{'}}^{t}) = \frac{σ_{w}}{σ_{g} + d_{g} (x_{m}^{t}, x_{m^{'}}^{t}; D_{m}^{t}, D_{m^{'}}^{t})}

σ_g控制深度差异的敏感度，对称投影误差计算函数d_g将

投影至同一时刻t的视频m′的投影位置并计算其与

的距离，同时计算

投影至t时刻m视频的投影位置与

的距离，然后计算两者的平均距离；

接下来，利用利用光流将

和

跟踪至相邻时刻t′得到对应像素点

和

比较

和

的颜色与几何一致性，其计算公式如下：

L_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}) = p_{c} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}}) p_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}})

E_{d}^{'} (D_{m}^{t}; \hat{I}, \hat{D}) = \underset{x_{m}^{t}}{Σ} 1 - \frac{\underset{t^{'} &Element; N (t)}{Σ} \underset{m^{'} &NotEqual; m}{Σ} L_{g} ({\hat{x}}_{m}^{t^{'}}, {\hat{x}}_{m^{'}}^{t^{'}})}{(M - 1) | N (t) |}

实施例

如图1所示，对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法的步骤如下：

2）利用步骤1）得到的初始化的深度图对于多目视频的每一帧图像计算动态概率图，并利用动态概率图对每帧图像的像素点进行动态/静态的分类；

3）对于步骤2）所划分的动态和静态像素点，利用不同的优化方法进行时空一致性的深度优化，对于静态点，利用bundle optimization方法结合多个相邻时刻的颜色和几何一致性约束进行优化；对于动态点，统计多个相邻时刻的多目摄像机之间对应像素点的颜色和几何一致性约束信息，由此对每一时刻动态深度值进行时空一致性优化。

所述的步骤1）为：

（1）利用多视图几何方法结合DAISY特征描述符，对于如图2(a)和图2(b)所示的同一时刻的双目视频帧进行立体匹配，通过能量优化方程式求解每一时刻图像帧的初始化深度图，如图2(c)所示；

（2）利用多目视频帧的初始化深度在3D空间中的一致性来判断每帧图像中的每个像素点在同一时刻其余摄像机中是否可见，从而得到同一时刻多个摄像机两两之间的可视性图，如图2(d)所示；

（3）结合所求得的可视性图重新初始化每帧图像的深度图，DAISY特征相似度仅在可见的像素格点进行比较估计；并且，当不可见像素点的初始化深度值出现错误的情况下，利用Mean-shift技术对每帧图像进行分割，对于每个分割区域，利用可见像素点的深度来拟合平面，利用拟合的平面填补纠正不可见像素点的深度值，如图2(e)所示；

所述的步骤2）为：

（1）对于每帧图像中的像素点，利用初始化深度将其投影至其余时刻帧，比较像素点在当前时刻帧与其余时刻帧上的对应位置的几何与颜色的一致性，统计深度值和颜色值具有一致性的其余时刻帧数目所占的比例值，作为像素点属于动态物体的概率值，从而得到每帧图像的动态概率图，如图3(a)所示；

（2）将动态概率图二值化得到每帧图像的初始动态/静态分割图；利用Mean-shift技术对每帧图像进行over-segmentation，即粒度小的图像分割，对于每个分割区域统计二值化后的动态像素点数目的比例值，如果比例值大于0.5，则将整个分割区域的像素点标记为动态，否则标记为静态，由此对二值化分割图进行边界调整和去噪，如图3(b)所示；

（3）利用连续时刻图像之间对应像素点的坐标偏移量，将每帧图像的像素点跟踪至同一视频中的相邻时刻帧寻找对应像素点，统计对应像素点分割标记为动态的帧数目所占的比例，由此计算像素点的时域动态概率，通过能量优化方程式优化每一时刻图像帧的动态/静态分割图，如图3(c)所示；对于图3(c)，利用Grabcut分割技术进行进一步优化，除去分割边界上的毛刺，得到最终时序上一致动态/静态划分，如图3(d)所示；

所述的步骤3）为：

（1）对于静态点，利用bundle optimization方法统计当前时刻帧像素点和多目视频多个相邻时刻帧上对应像素点之间的颜色和几何一致性约束信息，由此对当前时刻静态深度值进行优化；

（2）对于动态点的时空一致性深度优化方法如图5所示，假设像素点的候选深度为d，首先根据d将其投影至同一时刻t的视频m′，得到对应像素点

比较

和的颜色与几何一致性；接下来，利用利用光流将

和

跟踪至相邻时刻t′得到对应像素点和比较和

的颜色与几何一致性；累积多个相邻时刻的颜色与几何一致性估计值，由此在时空域上利用能量优化方程式优化每帧图像中的动态像素点深度值，得到时空域上一致的深度图，如图4(c)和图4(f)所示。