CN102074020B - 对视频进行多体深度恢复和分割的方法 - Google Patents

对视频进行多体深度恢复和分割的方法 Download PDF

Info

Publication number
CN102074020B
CN102074020B CN2010106169405A CN201010616940A CN102074020B CN 102074020 B CN102074020 B CN 102074020B CN 2010106169405 A CN2010106169405 A CN 2010106169405A CN 201010616940 A CN201010616940 A CN 201010616940A CN 102074020 B CN102074020 B CN 102074020B
Authority
CN
China
Prior art keywords
msub
mrow
msup
frame
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010106169405A
Other languages
English (en)
Other versions
CN102074020A (zh
Inventor
鲍虎军
章国锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shangtang Technology Development Co Ltd
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2010106169405A priority Critical patent/CN102074020B/zh
Publication of CN102074020A publication Critical patent/CN102074020A/zh
Application granted granted Critical
Publication of CN102074020B publication Critical patent/CN102074020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种对视频进行多体深度恢复和分割的方法,包括如下步骤:(1)对视频用迭代方法进行能量最小化,得到视频的每一帧的初始标号,初始标号由像素的深度和分割信息组成;(2)对每一帧进行图像分割后,用多体平面拟合方法对每一帧图像的初始标号进行优化,得到每一帧图像所有分割块的优化后的标号;(3)利用优化后的标号,为每一帧上的每个像素从邻近帧中选出一组可见帧和一组不可见帧;(4)对所述视频的每一帧用迭代方法进行能量最小化,得到视频的每一帧的迭代后的标号,然后用层次置信度传播算法进一步扩展迭代后的标号中深度的级数。本发明可对存在多个刚性物体运动的视频进行深度恢复和分割。

Description

对视频进行多体深度恢复和分割的方法
技术领域
本发明涉及一种深度恢复和分割的方法,对存在多个刚性物体运动的视频进行深度恢复和分割。
背景技术
基于深度的三维恢复和图像(或视频)分割一直以来都是计算机视觉中的基础问题,因为计算出来的深度图像和分割图像可以被分别或共同用于很多重要的应用中,比如物体识别、基于图像的渲染、和图像(或视频)编辑。然而对这两类问题的研究经常是独立的,直到最近才有人开始对他们一同进行研究。比如L.Quan,J.Wang,P.Tan,and L.Yuan.Image-based modeling by jointsegmentation.International Journal of Computer Vision(IJCV’07)。
多视图的立体恢复(深度恢复)技术(Multi-View Stereo,即MVS)可以用来从一组图像中计算深度和三维几何信息。基于三维重建的重要性,已经有人对存在运动物体的动态场景进行重建进行了研究。三维运动分割是将多个运动物体的特征轨迹区分开来,目的是恢复他们的实际位置和对应的摄像机运动信息。为了简单起见,这类方法大多数都采用仿射摄像机模型(affine cameramotion),比如J.P.Costeira and T.Kanade.A multi-body factorization method formotion analysis.IEEE International Conference on Computer Vision(ICCV′95),也有少数已经提出来的方法处理透视摄像机模型下的三维分割问题,比如K.Schindler,J.U,and H.Wang.Perspective-view multibody structure-and-motionthrough model selection.(ECCV’06)。然而,这些方法都不能被直接用到高质量的三维重建上面来,特别是在需要得到图像分割的前提下。
如果运动的刚性物体都分别被遮住了,那么可以对每一个物体独立地运用MVS。经典的图像分割方法比如mean shift、normalized cuts和weightedaggregation(SWA),都只是简单的处理二维图像而没有考虑MVS中的整体几何信息。
为了抽取出前景中的运动物体和该物体一些可能的可见边界,一些双层分割方法被提了出来,比如A.Criminisi,G.Cross,A.Blake,and V.Kolmogorov.Bilayersegmentation of live video.CVPR’06。这些方法假定摄像机是静止的,背景颜色也很容易估计或者模拟。然而值得注意的是这些方法也不适用于MVS,因为在MVS中摄像机是需要移动的。
最近,章国锋等人在G.Zhang,J.Jia,W.Hua,and H.Bao.Robust bilayersegmentation and motion/depth estimation with a handheld camera.IEEETransactions on Pattern Analysis and Machine Intelligence(PAMI’2010)中用运动信息和深度信息来模拟背景环境并且抽取出高质量的前景层。可以不断地对计算得到的深度运动场和双层分割结果进行迭代优化。然而此方法仅限于双层分割。另外对于前景层来说只计算了其运动信息而没有计算深度信息,这对于三维重建来说是不够的。
在二维运动分割中,运动趋势相同的像素被大致分到一组,最后再分成多个不同层次。这种方法严重依赖于运动估计的精确性,并且很难得到高质量的分割结果,特别是当出现严重遮挡的时候。
另外,二维运动分割也需要得到运动和分割的计算,这二者是“鸡和蛋”的问题,也就是说,对运动估计的不精确会造成分割的不准确,反过来对分割的不准确又会造成运动计算的不精确。于是对这二者的优化经常会得到一个局部的最优值而结束。
发明内容
本发明的目的在于提供一种对视频进行多体深度恢复和分割的方法,可对存在多个刚性物体运动的视频进行深度恢复和分割。
为实现上述目的,本发明所采取的技术方案是:该对视频进行多体深度恢复和分割的方法包括如下步骤:
(1)利用式(1)的能量方程对视频用迭代方法进行能量最小化,得到视频的每一帧的初始标号,所述初始标号由像素的深度信息和分割信息组成,
E ′ ( L ; I ^ ) Σ t = 1 n Σ x t ∈ I t ( 1 - P init ( x t , L t ( x t ) ) + λ s Σ y t ∈ N ( x t ) ρ ( L t ( x t ) , L t ( y t ) ) ) . - - - ( 1 )
其中,
P init ( x t , L t ( x t ) ) = 1 | φ ′ ( x t ) | Σ t ′ ∈ φ ′ ( x t ) p c ( x t , L t ( x t ) , I t , I t ′ ) - - - ( 2 )
p c ( x t , l , I t , I t ′ ) = σ c σ c + | | I t ( x t ) - I t ′ ( x ′ ) | | - - - ( 3 )
式(1)、式(2)和式(3)中,It表示第t帧图像,t=1…n,且n为视频的总帧数;xt表示It上的一个像素;Lt(xt)表示xt的标号;N(xt)表示像素xt的所有邻近像素;ρ(Lt(xt),Lt(yt))=min{|Lt(xt)-Lt(yt)|,η},表示邻近像素之间的标号的差值;η表示截断参数;φ′(xt)表示对像素xt可见的帧,且所述对像素xt可见的帧中与xt对应的像素在第t帧的重投影与xt重合;pc表示像素xt和x′的颜色相似性;l表示xt的标号;σc表示控制式(3)的差分函数形状的参数;x′表示第t′帧中与像素xt对应的像素,且第t′帧是属于φ′(xt)的一帧;It(x)表示像素xt的颜色值;It′(x′)是像素x′的颜色值;x′的坐标由利用式(4)得到的x′h进行齐次坐标到二维坐标的转变得到:
x ′ h ~ K t ′ R t ′ T R t K t - 1 x t h + D ( l ) K t ′ R t ′ T ( T t - T t ′ ) - - - ( 4 )
式(4)中,h表示齐次坐标;D(l)表示像素xt的标号中的深度信息;Kt′、Rt′和Tt′分别对应表示第t′帧所对应的摄像机的内部参数矩阵、外部参数的旋转矩阵和外部参数的平移矩阵;Kt、Rt和Tt分别是第t帧对应的摄像机的内部参数矩阵、外部参数的旋转矩阵和外部参数的平移矩阵;
(2)对每一帧进行图像分割后,用多体平面拟合方法对每一帧图像的所述初始标号进行优化,得到每一帧图像所有分割块的优化后的标号;
(3)利用步骤(2)最终所得到的优化后的标号,为第t帧上的每个像素xt从邻近帧中选出一组可见帧φv(xt)和一组不可见帧φo(xt),所述可见帧中的所有像素变换到第t帧都不与xt重合,所述不可见帧中的至少一个像素变换到第t帧会与xt重合;
(4)利用式(5)所示的能量方程对所述视频的每一帧用迭代方法进行能量最小化,得到视频的每一帧的迭代后的标号,然后用层次置信度传播算法进一步扩展迭代后的标号中深度的级数,
Et(Lt)=Ed(Lt)+Es(Lt)        (5)
其中,
E s ( L t ) = λ s Σ x t Σ y t ∈ N ( x t ) ρ ( L t ( x t ) , L t ( y t ) ) - - - ( 6 )
E d ( L t ) = Σ x t ∈ I t 1 - P ( x t , L t ( x t ) ) - - - ( 7 )
P ( x t , l ) = 1 | φ v ( x t ) | + | φ 0 ( x t ) | ( Σ t ′ ∈ φ 0 ( x t ) p o ( x t , l , L t ′ , t ) + Σ t ′ ∈ φ v ( x t ) p c ( x t , l , I t , I t ′ ) · p v ( x t , l , L t ′ ) ) - - - ( 8 )
p c ( x t , l , I t , I t ′ ) = σ c σ c + | | I t ( x t ) - I t ′ ( x ′ ) | | - - - ( 9 )
p v ( x t , l , L t ′ ) = 0 , S ( l ) ≠ S ( l ′ ) p g ( x t , D ( l ) , D ( l ′ ) ) , S ( l ) = S ( l ′ ) - - - ( 10 )
p g ( x t , D ( l ) , D ( l ′ ) ) = exp ( - | | x t - x t t ′ → t | | 2 2 σ d 2 ) - - - ( 11 )
式(5)至式(11)中,Ed(Lt)和Es(Lt)分别表示能量方程中的数据项和平滑项;It表示第t帧图像,t=1…n,且n为视频的总帧数;xt表示It上的一个像素;Lt(xt)表示xt的标号;N(xt)表示像素xt的所有邻近像素;ρ(Lt(xt),Lt(yt))=min{|Lt(xt)-Lt(yt)|,η},表示邻近像素之间的标号的差值;η表示截断参数;x′表示第t′帧中与像素xt对应的像素;It(x)表示像素xt的颜色值;It′(x′)是像素x′的颜色值;x′的坐标由利用式(4)得到的x′h进行齐次坐标到二维坐标的转变得到;pc表示像素xt和x′的颜色相似性;l表示xt的标号;l′表示像素x′的标号;S(l)和S(l′)分别表示标号l和标号l′中的分割标号;pg表示衡量两个像素之间几何上的一致性;D(l)和D(l′)分别表示标号l和标号l′中的的深度标号;
Figure GDA0000151171500000047
是将像素x′根据D(l′)重投影到第t帧上的像素;pv表示像素xt和坐标x′所对应像素的几何一致性和分割一致性。
进一步地,本发明步骤(2)所述“用多体平面拟合方法对所述初始标号进行优化”的方法如下:
对每一帧进行图像分割后,对每个分割块逐次赋予一个物体标号,同一分割块每次所赋予的物体标号互不相同,然后对每个分割块的每次赋值结果利用式(1)所示的能量方程得到相应的最小能量值和该分割块所在平面的参数;将每个分割块中的最小能量值中的最小值与初始标号所对应的最小能量值进行比较:若分割块中的最小能量值中的最小值小于初始标号所对应的最小能量值,则将该分割块中的最小能量值中的最小值所对应的物体标号作为分割标号赋给该分割块中的像素,得到该分割块的优化后的标号;否则,以所述初始标号作为该分割块的优化后的标号。
与现有技术相比,本发明的有益效果是:
(1)提出了一个全新的多体立体视觉模型,将深度和分割标号统一用一个标号表示,并且解决了全局最优化标号问题,从而本发明首次将多视图立体匹配方法扩展到具有多个独立运动的刚性物体的场景中,并且用全局优化方法来进行最优化求解;
(2)提出了一种匹配帧自适应选取的策略,将相邻帧已经恢复的深度和分割信息投影到当前帧来,进行像素的可见性判断,并对缺失像素进行填补,得到标号先验性约束来处理遮挡问题;
(3)提出了一个全新的多体平面拟合方法,有效解决了无特征区域的深度和分割难计算问题。
附图说明
图1是本发明的基本流程图;
图2是本发明的原理图之一,描述的是多视图几何中的投影和重投影;
图3是本发明中标号图缺失像素填补方法的描述:(a)是第61帧;(b)是第76帧;(c)是预先标号并重投影后所有像素的深度信息L76,61,红色的为遮挡像素;(d)是标号图缺失像素填补方法的过程示例;
图4是采用与不采用本发明中的匹配帧自适应选择和标号先验性约束的效果对比:(a)是实验数据序列的第一帧;图(b)和(c)分别是采用和不采用预先标号的自适应帧选择方法处理得到这一帧的两个标号图结果(标号值用灰度表示);图(d)和(e)是分别把图(b)和图(c)中矩形区域放大后方便观察的效果图;
图5是本发明的一个实例的流水线图:(a)是图片序列中的一帧;(b)是初始求解后多体平面拟合前得到的标号图;(c)是多体平面平面拟合后的标号图;(d)是两遍优化迭代后的标号图;(e)是人和背景的分割图;(f)是没有进行深度层次扩展的三维重建面片结果;(g)是深度层次扩展后的三维重建面片结果;
图6是本发明的两个三体实例:(a)和(d)分别是选定的两帧;(b)是(a)的标号图;(c)是(a)的分割图;(e)是(d)的标号图,(f)是(d)的分割图;
图7是本发明的一个实例的重建面片结果:(a)是背景的几何信息;(b)和(c)分别是该帧中两个人的重建面片结果;
图8是一个盒子序列的实例结果:(a)是图片序列中的一帧;(b)是本发明计算得到的该帧的标号图;
图9是一个玩具序列的实例结果:(a)是图片序列中的一帧;(b)是本发明计算得到的该帧的标号图;(c)是本发明计算得到的该帧的分割结果图。
具体实施方式
本发明提供了一种稳定高效的多体深度恢复和分割的方法,图1显示本发明的基本流程图,主要包括如下步骤:
步骤1)初始化处理阶段,按照本发明提出的能量方程对视频用迭代方法进行能量最小化,得到视频的每一帧的初始标号,所述初始标号由像素的深度标号和分割标号组成,其具体步骤为:
本发明的目的是既要求出所有像素的深度值,又要求出该像素属于哪一个物体,于是这里有两个标号,一个是深度标号,一个是分割标号。本发明把像素的这两个标号值统一用一个扩展的标号来表示:
L = { d 1 1 , d 2 1 , . . . , d m 1 1 , . . . , d 1 K , d 2 K , . . . , d m K K }
这里假定场景中有K个物体(包含背景)。第k个物体在摄像机捕获的图像上的像素视差值(实际上是深度的倒数,这里称为深度标号)的范围在
Figure GDA0000151171500000062
之间,将这个区间均匀分割,从而每个视差值定义如下:
d i k = ( i - 1 ) Δd + d min k
这就是L集合中所有元素的意义。这里有
| L | = Σ k = 1 K m k
用S(l)表示标号为l的像素所在的物体,即分割标号。D(l)表示标号为l的像素的视差值,即深度标号。由L集合的任意一个元素Li很容易可以得到S(l)和D(l),先找到索引项h使得满足下面不等式:
1 ≤ i - Σ j = 1 h - 1 m j ≤ m h
则S(l)=h, D ( l ) = d j - Σ j = 1 h - 1 m j h .
对下述能量方程进行优化:
E ′ ( L ; I ^ ) Σ t = 1 n Σ x t ∈ I t ( 1 - P init ( x t , L t ( x t ) ) + λ s Σ y t ∈ N ( x t ) ρ ( L t ( x t ) , L t ( y t ) ) ) .
其中Pinit的定义如下:
P init ( x t , L t ( x t ) ) = 1 | φ ′ ( x t ) | Σ t ′ ∈ φ ′ ( x t ) p c ( x t , L t ( x t ) , I t , I t ′ )
在这里xt是第t帧图像It上的一个像素,t=1…n,且n为视频的总帧数;N(xt)是xt的所有邻近像素,ρ(Lt(xt),Lt(yt))=min{|Lt(xt)-Lt(yt)|,η},表示邻近像素之间的标号的差值。η是一个截断参数,使得在最小化能量函数的时候不至于因平滑项能量值过大而丢失物体边界的不连续性,即避免被过度平滑。
这里φ′(xt)指的是一些选定的帧,在这些帧里面xt这个像素是可见的。这里用文献S.B.Kang and R.Szeliski.Extracting view-dependent depth maps from acollection of images.International Journal of Computer Vision(IJCV’2004)所公开的方法来选定这些帧。
这里的pc是这样定义的:
p c ( x t , l , I t , I t ′ ) = σ c σ c + | | I t ( x t ) - I t ′ ( x ′ ) | |
其中σc是一个控制上式的差分函数形状的参数,It′(x′)是像素xt在φ′(xt)中对应的像素x′的颜色值,x′的齐次坐标x′h可以这样求得:
x ′ h ~ K t ′ R t ′ T R t K t - 1 x t h + D ( l ) K t ′ R t ′ T ( T t - T t ′ )
由上面x′h进行齐次坐标到二维坐标转变即可得到得到x′的坐标。上面的D(l)就是像素xt的标号l中的深度标号,Kt′、Rt′和Tt′分别是第t′帧对应的摄像机内参矩阵、外参的旋转矩阵和平移矩阵。Kt、Rt和Tt分别是第t帧对应的摄像机内参矩阵、外参的旋转矩阵和平移矩阵。需要说明的是,在进行本发明的所有步骤之前所有帧的摄像机内参和外参都是已知。
步骤2)对每一帧进行图像分割后,用多体平面拟合方法对每一帧图像的所述初始标号进行优化,得到每一帧图像所有分割块的优化后的标号,其具体步骤为:
先用mean shift计算出It的分割,即
假定环境中有K个物体(包含背景)。对于如上所示的每一个分割块si,假定它是属于物体k的,并且是一个平面,有三个参数
Figure GDA0000151171500000081
然后优化能量方程(1)可以得到这三个参数的值,和一个最小能量枚举这个分割块si所属的物体k可以得到K个最小能量即E′0,E′1,…,E′(k-1),取其中最小者(不妨设为E′j)、对应的物体j和对应的三个参数作为该分割块的最小能量、它对应的物体、和它的三个平面参数[ai,bi,ci]。
前面在初始化阶段的步骤1)中计算出来了初始的每个像素标号,那么把si中所有像素按照这个初始的标号带入能量方程(1)可以得到一个能量E′t,如果E′j<E′t那么就更新所有si中的像素xt的分割标号,即所属物体为j,也即S(xt)=j,平面参数为[ai,bi,ci],即
Figure GDA0000151171500000084
采用多体平面拟合算法优化前后的效果对比如图5所示。
步骤3)匹配帧的自适应选择与标号先验性约束。就是根据在初始化阶段或上一次迭代优化得到的标号,为第t帧上的每个像素xt从相邻帧中选出两组帧,一组帧由那些对像素xt可见的帧组成,记作φv(xt),另一组帧由那些对像素xt不可见的帧组成,记作φo(xt),具体包含以下步骤:
1)在步骤2)得到优化后的标号后,用W.R.Mark,L.McMillan,and G.Bishop.Post-rendering 3D warping.(SI3D’1997)的方法把第t′帧的标号图变换到第t帧上得到Lt′,t。如果通过这样的重投影,第t′帧的标号图上的任何像素都没有投影到xt,如图2所示,那么记第t′帧属于φo(xt),否则属于φv(xt)。
2)实际上不需要对所有帧进行匹配计算,而只需要选择最多N1帧进行匹配计算即可(这里N1一般设为16~20)。如果找到的|φv(xt)|小于一个下限N2(一般定为5)那么再找一些邻近的没有像素重投影到xt的帧φo(xt),使得
v(xt)|+|φo(xt)|=N2
3)注意到被遮挡的像素是无法计算匹配代价的,所以如果一个像素在所有邻近帧中都不可见,那么它的深度值是无法直接得到的。但是这种情况下仍然能够大致估计该像素的深度值和它所属的物体,这也就是为什么要挑选φo(xt)的缘故。具体做法如下:
对于相邻帧投影过来的标号图,如图3所示,对每个缺失的像素xt,分别进行水平和垂直方向的搜索,各找到两个最近的有效投影像素,在这四个像素中取具有标号最小的那个,记作x*,将它的标号作为xt的标号。可以用x*在Lt′,t中的标号替代xt在Lt′,t中的标号即Lt′,t(x)=Lt′,t(x*)的可信度由这两个像素之间的距离决定,这个可信度定义如下:
ω 0 ( x ) = e - | | x - x * | | 2 2 σ ω 2
其中常数σω设为10。
尽管这种缺失标号推断方法并不是很精确,但已经对遮挡情况很重要情况下计算的数据项能起到改善作用。如下定义标号先验性约束:
p o ( x t , l , L t ′ , t ) = λ o · ω o ( x t ) = β β + | l - L t ′ t ( x t ) |
其中λo是一个权重,β用来控制上式的差分函数的形状。上式要求当ωo(x)很高的时候,Lt(xt)需要跟Lt′,t(xt)相近。
图4给出了采用匹配帧自适应选择和标号先验性约束的标号计算结果,以及和不采用情况下计算的标号图的对比结果。可以看到采用匹配帧自适应选择和标号先验性约束计算的标号图在不连续边界处得到了明显的改善。
步骤4)迭代优化阶段,根据本发明提出的能量方程对单目视频序列的所有帧进行迭代优化,求出所有帧的标号图,然后用层次置信度传播算法提高深度恢复的精细度,具体包含以下步骤:
1)按照能量方程
Et(Lt)=Ed(Lt)+Es(Lt)
进行优化求得最小能量值,即可得到所有像素的深度值和所属分割块。利用置信度传播算法对这个能量方程进行两趟优化即可得到比较精确的结果。
这里
E s ( L t ) = λ s Σ x t Σ y t ∈ N ( x t ) ρ ( L t ( x t ) , L t ( y t ) )
表示的是平滑项,用来衡量图像上相邻像素之间的标号差异,使得相邻像素之间的标号差值尽可能小。ρ被定义成ρ(Lt(xt),Lt(yt))=min{|Lt(xt)-Lt(yt)|,η},表示邻近像素之间的标号差值。η是一个截断值,使得在最小化能量函数的时候不至于因平滑项能量值过大而丢失物体边界的不连续性,即避免被过度平滑。
数据项Ed(Lt)定义如下:
E d ( L t ) = Σ x t ∈ I t 1 - P ( x t , L t ( x t ) )
这里 P ( x t , l ) = 1 | φ v ( x t ) | + | φ 0 ( x t ) | ( Σ t ′ ∈ φ 0 ( x t ) p o ( x t , l , L t ′ , t ) + Σ t ′ ∈ φ v ( x t ) p c ( x t , l , I t , I t ′ ) · p v ( x t , l , L t ′ ) )
其中
p c ( x t , l , I t , I t ′ ) = σ c σ c + | | I t ( x t ) - I t ′ ( x ′ ) | | ,
描述的是像素xt和x′之间的颜色相似性;xt和x′分别是第t帧和第t′帧上的像素;pv描述的是像素xt和x′之间的几何一致性和分割一致性,即xt和x′是否在同一个物体上,深度是否一致。具体定义如下:
p v ( x t , l , L t ′ ) = 0 S ( l ) ≠ S ( l ′ ) p g ( x t , D ( l ) , D ( l ′ ) ) , S ( l ) = S ( l ′ )
其中l′是x′的标号。如果l和l′是不同的物体即S(l)≠S(l′),则两个像素不是两帧中对应的像素,需要分隔开。否则,用pg来衡量两个像素之间几何上的一致性,其定义如下:
p g ( x t , D ( l ) , D ( l ′ ) ) = exp ( - | | x t - x t t ′ → t | | 2 2 σ d 2 )
这里
Figure GDA0000151171500000106
是将t′帧上的x′根据计算得到的D(l′)投影到第t帧上的对应点。
2)在上述处理过程中,本发明采用置信度传播算法(Belief Propagation,简称BP)来优化目标函数。由于标号的数目跟内存需求量成正比。这对于处理大分辨率图像来说,很容易造成内存需求量超出所运行机器的内存空间。采用层次化的求解策略固然可以减少内存使用量,但会一定程度上降低物体分割和深度恢复的质量,特别是在不连续边界区域。为了尽可能得到高质量的物体分割和深度恢复结果,本发明采用一个简单的基于区域切分的求解策略来克服内存瓶颈。过程很简单,就是将图像均匀切割成M×M个区域,分别对各个区域进行能量优化。如果某个颜色分割块跨越多个区域,则需要进行相应的***。该策略简单有效,可以有效克服内存瓶颈,而且对处理结果影响很小。
至此,本发明多体深度恢复和分割的所有步骤全部结束。
在初始化和两次迭代优化的时候,通常每个物体深度的层数mk设在51~101之间。经过两次迭代优化之后,通常分割的结果已经非常准确了。然后,为了进一步提高深度的精度,本发明可以固定分割标号,这时候标号实际上等同于深度级数。本发明采用从粗到细的层次化置信度传播算法,可以在不需要增加很多计算代价的条件下有效地扩展全局优化中的深度级数,从而提高深度恢复的精度。
在实验中,视频序列的图像分辨率大小是960×540。***中绝大部分参数可以采用默认值,在处理过程中无需调整,例如,取λs=5/|L|,η=0.03|L|,λo=0.3,σc=10,σd=2,β=0.02|L|,进而得到图8、9所示的结果。
本发明的一组实验是如图8所示的一组盒子序列的实验,其中图8(a)是视频中的一帧,图8(b)是利用本发明得到的该帧的标号图;本发明的另一组实验是如图9所示的一组玩具序列的实验,图9(a)是视频中的一帧,图9(b)是利用本发明的到的该帧的标号图,图9(c)是利用本发明得到的该帧的分割图。从图8和图9的标号图和原图的对比可以看出整个标号图轮廓分明,在边界处恢复得很准确;从图9的分割图与原图的对比可以看出分割结果很准确,不同物体被精准的分割开了,由此说明本发明提出的算法在多体情况下求得的结果很精确。

Claims (2)

1.一种对视频进行多体深度恢复和分割的方法,其特征在于,包括如下步骤:
(1)利用式(1)的能量方程对视频用迭代方法进行能量最小化,得到视频的每一帧的初始标号,所述初始标号由像素的深度信息和分割信息组成,
E ′ ( L ; I ^ ) Σ t = 1 n Σ x t ∈ I t ( 1 - P init ( x t , L t ( x t ) ) + λ s Σ y t ∈ N ( x t ) ρ ( L t ( x t ) , L t ( y t ) ) ) . - - - ( 1 )
其中,
P init ( x t , L t ( x t ) ) = 1 | φ ′ ( x t ) | Σ t ′ ∈ φ ′ ( x t ) p c ( x t , L t ( x t ) , I t , I t ′ ) - - - ( 2 )
p c ( x t , l , I t , I t ′ ) = σ c σ c + | | I t ( x t ) - I t ′ ( x ′ ) | | - - - ( 3 )
式(1)、式(2)和式(3)中,It表示第t帧图像,t=1…n,且n为视频的总帧数;xt表示It上的一个像素;Lt(xt)表示xt的标号;N(xt)表示像素xt的所有邻近像素;ρ(Lt(xt),Lt(yt))=min{|Lt(xt)-Lt(yt)|,η},表示邻近像素之间的标号的差值;η表示截断参数;φ′(xt)表示对像素xt可见的帧,且所述对像素xt可见的帧中与xt对应的像素在第t帧的重投影与xt重合;pc表示像素xt和x′的颜色相似性;l表示xt的标号;σc表示控制式(3)的差分函数形状的参数;x′表示第t′帧中与像素xt对应的像素,且第t′帧是属于φ′(xt)的一帧;It(x)表示像素xt的颜色值;It′(x′)是像素x′的颜色值;x′的坐标由利用式(4)得到的x′h进行齐次坐标到二维坐标的转变得到:
x ′ h ~ K t ′ R t ′ T R t K t - 1 x t h + D ( l ) K t ′ R t ′ T ( T t - T t ′ ) - - - ( 4 )
式(4)中,h表示齐次坐标;D(l)表示像素xt的标号中的深度信息;Kt′、Rt′和Tt′分别对应表示第t′帧所对应的摄像机的内部参数矩阵、外部参数的旋转矩阵和外部参数的平移矩阵;Kt、Rt和Tt分别是第t帧对应的摄像机的内部参数矩阵、外部参数的旋转矩阵和外部参数的平移矩阵;
(2)对每一帧进行图像分割后,用多体平面拟合方法对每一帧图像的所述初始标号进行优化,得到每一帧图像所有分割块的优化后的标号;
(3)利用步骤(2)最终所得到的优化后的标号,为第t帧上的每个像素xt从邻近帧中选出一组可见帧φv(xt)和一组不可见帧φo(xt),所述可见帧中的所有像素变换到第t帧都不与xt重合,所述不可见帧中的至少一个像素变换到第t帧会与xt重合;
(4)利用式(5)所示的能量方程对所述视频的每一帧用迭代方法进行能量最小化,得到视频的每一帧的迭代后的标号,然后用层次置信度传播算法进一步扩展迭代后的标号中深度的级数,
Et(Lt)=Ed(Lt)+Es(Lt)    (5)
其中,
E s ( L t ) = λ s Σ x t Σ y t ∈ N ( x t ) ρ ( L t ( x t ) , L t ( y t ) ) - - - ( 6 )
E d ( L t ) = Σ x t ∈ I t 1 - P ( x t , L t ( x t ) ) - - - ( 7 )
P ( x t , l ) = 1 | φ v ( x t ) | + | φ 0 ( x t ) | ( Σ t ′ ∈ φ 0 ( x t ) p o ( x t , l , L t ′ , t ) + Σ t ′ ∈ φ v ( x t ) p c ( x t , l , I t , I t ′ ) · p v ( x t , l , L t ′ ) ) - - - ( 8 )
p c ( x t , l , I t , I t ′ ) = σ c σ c + | | I t ( x t ) - I t ′ ( x ′ ) | | - - - ( 9 )
p v ( x t , l , L t ′ ) = 0 , S ( l ) ≠ S ( l ′ ) p g ( x t , D ( l ) , D ( l ′ ) ) , S ( l ) = S ( l ′ ) - - - ( 10 )
p g ( x t , D ( l ) , D ( l ′ ) ) = exp ( - | | x t - x t t ′ → t | | 2 2 σ d 2 ) - - - ( 11 )
式(5)至式(11)中,Ed(Lt)和Es(Lt)分别表示能量方程中的数据项和平滑项;It表示第t帧图像,t=1…n,且n为视频的总帧数;xt表示It上的一个像素;Lt(xt)表示xt的标号;N(xt)表示像素xt的所有邻近像素;ρ(Lt(xt),Lt(yt))=min{|Lt(xt)-Lt(yt)|,η},表示邻近像素之间的标号的差值;η表示截断参数;x′表示第t′帧中与像素xt对应的像素;It(x)表示像素xt的颜色值;It′(x′)是像素x′的颜色值;x′的坐标由利用式(4)得到的x′h进行齐次坐标到二维坐标的转变得到;pc表示像素xt和x′的颜色相似性;l表示xt的标号;l′表示像素x′的标号;S(l)和S(l′)分别表示标号l和标号l′中的分割标号;pg表示衡量两个像素之间几何上的一致性;D(l)和D(l′)分别表示标号l和标号l′中的的深度标号;
Figure FDA0000151171490000031
是将像素x′根据D(l′)重投影到第t帧上的像素;pv表示像素xt和坐标x′所对应像素的几何一致性和分割一致性。
2.根据权利要求1所述的对视频进行多体深度恢复和分割的方法,其特征在于,步骤(2)所述“用多体平面拟合方法对所述初始标号进行优化”的方法如下:
对每一帧进行图像分割后,对每个分割块逐次赋予一个物体标号,同一分割块每次所赋予的物体标号互不相同,然后对每个分割块的每次赋值结果利用式(1)所示的能量方程得到相应的最小能量值和该分割块所在平面的参数;将每个分割块中的最小能量值中的最小值与初始标号所对应的最小能量值进行比较:若分割块中的最小能量值中的最小值小于初始标号所对应的最小能量值,则将该分割块中的最小能量值中的最小值所对应的物体标号作为分割标号赋给该分割块中的像素,得到该分割块的优化后的标号;否则,以所述初始标号作为该分割块的优化后的标号。
CN2010106169405A 2010-12-31 2010-12-31 对视频进行多体深度恢复和分割的方法 Active CN102074020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106169405A CN102074020B (zh) 2010-12-31 2010-12-31 对视频进行多体深度恢复和分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106169405A CN102074020B (zh) 2010-12-31 2010-12-31 对视频进行多体深度恢复和分割的方法

Publications (2)

Publication Number Publication Date
CN102074020A CN102074020A (zh) 2011-05-25
CN102074020B true CN102074020B (zh) 2012-08-15

Family

ID=44032549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106169405A Active CN102074020B (zh) 2010-12-31 2010-12-31 对视频进行多体深度恢复和分割的方法

Country Status (1)

Country Link
CN (1) CN102074020B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017108413A1 (en) * 2015-12-21 2017-06-29 Koninklijke Philips N.V. Processing a depth map for an image

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013026826A (ja) * 2011-07-21 2013-02-04 Sony Corp 画像処理方法、画像処理装置及び表示装置
US8938114B2 (en) * 2012-01-11 2015-01-20 Sony Corporation Imaging device and method for imaging hidden objects
US9621869B2 (en) * 2012-05-24 2017-04-11 Sony Corporation System and method for rendering affected pixels
CN102903096B (zh) * 2012-07-04 2015-06-17 北京航空航天大学 一种基于单目视频的对象深度提取方法
CN103002309B (zh) * 2012-09-25 2014-12-24 浙江大学 对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法
CN103198486B (zh) * 2013-04-10 2015-09-09 浙江大学 一种基于各向异性扩散的深度图像增强方法
CN103500447B (zh) * 2013-09-18 2015-03-18 中国石油大学(华东) 基于增量式高次布尔能量最小化的视频前后景分割方法
US20150381972A1 (en) * 2014-06-30 2015-12-31 Microsoft Corporation Depth estimation using multi-view stereo and a calibrated projector
CN104616286B (zh) * 2014-12-17 2017-10-31 浙江大学 快速的半自动多视图深度修复方法
CN104574379B (zh) * 2014-12-24 2017-08-25 中国科学院自动化研究所 一种基于目标多部件学习的视频分割方法
CN106056622B (zh) * 2016-08-17 2018-11-06 大连理工大学 一种基于Kinect相机的多视点深度视频复原方法
US11361508B2 (en) * 2020-08-20 2022-06-14 Qualcomm Incorporated Object scanning using planar segmentation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101142593A (zh) * 2005-03-17 2008-03-12 英国电讯有限公司 跟踪视频序列中的目标的方法
CN101271578A (zh) * 2008-04-10 2008-09-24 清华大学 一种平面视频转立体视频技术中的深度序列生成方法
CN101789124A (zh) * 2010-02-02 2010-07-28 浙江大学 对已知摄像机参数和深度信息的视频序列的时空一致性分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101142593A (zh) * 2005-03-17 2008-03-12 英国电讯有限公司 跟踪视频序列中的目标的方法
CN101271578A (zh) * 2008-04-10 2008-09-24 清华大学 一种平面视频转立体视频技术中的深度序列生成方法
CN101789124A (zh) * 2010-02-02 2010-07-28 浙江大学 对已知摄像机参数和深度信息的视频序列的时空一致性分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Long Quan et al..Image-Based Modeling by Joint Segmentation.《International Journal of Computer Vision》.2007,第75卷(第1期), *
Sing Bing Kang et al..Extracting View-Dependent Depth Maps from a Collection of Images.《International Journal of Computer Vision》.2004,第58卷(第2期), *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017108413A1 (en) * 2015-12-21 2017-06-29 Koninklijke Philips N.V. Processing a depth map for an image

Also Published As

Publication number Publication date
CN102074020A (zh) 2011-05-25

Similar Documents

Publication Publication Date Title
CN102074020B (zh) 对视频进行多体深度恢复和分割的方法
CN106910242B (zh) 基于深度相机进行室内完整场景三维重建的方法及***
Roussos et al. Dense multibody motion estimation and reconstruction from a handheld camera
EP2595116A1 (en) Method for generating depth maps for converting moving 2d images to 3d
Zhang et al. Recovering consistent video depth maps via bundle optimization
CN111882668B (zh) 一种多视角立体对象重建方法与***
Lee et al. Silhouette segmentation in multiple views
US20090285544A1 (en) Video Processing
CN103002309B (zh) 对于多目同步摄像机拍摄的动态场景视频的时空一致性深度恢复的方法
Zhang et al. Simultaneous multi-body stereo and segmentation
Luo et al. Foreground removal approach for hole filling in 3D video and FVV synthesis
WO2018133119A1 (zh) 基于深度相机进行室内完整场景三维重建的方法及***
Bebeselea-Sterp et al. A comparative study of stereovision algorithms
CN103049929A (zh) 基于联合优化的多摄像机动态场景3d重建方法
Kahl et al. Multiview reconstruction of space curves
Wang et al. Vid2Curve: simultaneous camera motion estimation and thin structure reconstruction from an RGB video
Lee et al. Automatic 2d-to-3d conversion using multi-scale deep neural network
Mahmoud et al. Fast 3d structure from motion with missing points from registration of partial reconstructions
Kim et al. Multi-view object extraction with fractional boundaries
Fan et al. Collaborative three-dimensional completion of color and depth in a specified area with superpixels
Klose et al. Reconstructing Shape and Motion from Asynchronous Cameras.
Engels et al. Automatic occlusion removal from façades for 3D urban reconstruction
Guo et al. Mesh-guided optimized retexturing for image and video
Ruhl et al. Interactive scene flow editing for improved image-based rendering and virtual spacetime navigation
Gupta et al. 3dfs: Deformable dense depth fusion and segmentation for object reconstruction from a handheld camera

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210709

Address after: Room 288-8, 857 Shixin North Road, ningwei street, Xiaoshan District, Hangzhou City, Zhejiang Province

Patentee after: ZHEJIANG SHANGTANG TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 310027 No. 38, Zhejiang Road, Hangzhou, Zhejiang, Xihu District

Patentee before: ZHEJIANG University

TR01 Transfer of patent right