WO2013023325A1

WO2013023325A1 - 基于图像运动信息的2d转3d方法

Info

Publication number: WO2013023325A1
Application number: PCT/CN2011/001377
Authority: WO
Inventors: 冯涛; 张彦丁; 杨东
Original assignee: 北京世纪高蓝科技有限公司
Priority date: 2011-08-18
Filing date: 2011-08-18
Publication date: 2013-02-21
Also published as: EP2629531A1; US20130235155A1; JP2014504468A; CN103053165B; CN103053165A; EP2629531A4

Abstract

本发明公开了一种基于图像运动信息的2D转3D方法，涉及2D转3D技术领域。该方法包括步骤：S1.基于运动估计的方法得到输入的2D图像各像素的深度值；S2.根据各像素的亮度值，对各像素的深度值进行累加，得到输入的2D图像的深度图；S3.根据步骤S2得到的深度图，进行基于深度图的图像重构左眼和/或右眼图像；S4.将步骤S4的左眼图像和右眼图像合成并输出得到3D图像。在本发明的方法中，由于对运动估计得到的深度值进行了累加处理，得到的深度图连续且稠密，提高了重构图像的质量以及3D视觉效果。

Description

基于图像运动信息的 2D转 3D方法技术领域

本发明涉及 2D转 3D技术领域，尤其涉及一种基于图像运动信息的 2D转 3D方法。

背景技术

三维（Three Dimensions, 3D )电视席卷而来成为全球电视产业新的发展方向，各大电视生厂商都推出了自己的 3D电视。 3D应用在人们的生活中变得越来越流行，但是虽然不断有 3D电影拍摄， 3D片源仍不能满足目前的巿场需要。将二维（Two Dimensions, 2D )片源自动的转换为 3D成为新的巿场需要。

2D与 3D之间的转换即为生成基于 2D视图内容的第二视图视频，该过程包括两个方面的处理：一个为深度估计以得到深度图（depth map/image ); 另一个为基于深度图的图像重构（Depth Image Based Rendering, DIBR )。深度图以 8 位灰度值存储了深度信息（0灰度表示最远值， 255灰度表示最近值），在过去的多年中， 2D转 3D这一领域出现了很多算法，较常用的为基于运动估计的 2D 转 3D算法，该方法通过运动估计的方法得到输入图像的深度图，但是，由于深度图需要相当的稠密度及精确度，而现有的基于运动估计的 2D转 3D算法得到的深度图较为稀疏，在物体分解出不能区分出不同物体，从而影响 DIBR得到的图像质量，因此，限制了该方法的推广使用。

发明内容

(一）要解决的技术问题

本发明要解决的技术问题是：如何提高基于图像运动信息的 2D转 3D方法生成图像的质量。

(二）技术方案

为解决上述问题，本发明提供了一种基于运动估计的 2D转 3D方法，该方法包括步骤：

51. 基于运动估计的方法得到^入的 2D图像各像素的深度值；

52. 根据各像素的亮度值，对所述各像素的深度值进行累加，得到所述输入的 2D图像的深度图；

53. 根据步骤 S2得到的深度图，基于深度图的图像重构，重构左眼和 /或右眼图像；

54. 将步骤 S4的左眼图像和右眼图像合成并输出得到 3D图像。

优选地，步骤 S1进一步包括：

S1.1 基于运动估计的方法计算各像素的运动矢量；

S1.2根据步驟 S1.1得到的运动矢量分别计算各像素的深度值。

为:

优选地，所述运动估计的方法为菱形搜索算法。

优选地，步骤 S2进一步包括：

S2.1 从所述输入的 2D图像的第一行开始，对各像素的深度值进行累加得到每一个像素的深度累加值 D(x，y)' _:

S2.2 按照以下公式，将所述深度累加值归一化到 [0, 255]之间，得到归一化的深度值 D(x，y)" :

D(x,y)" =

其中， I ( x,y )为（x，y )位置处的像素的亮度值，其取值范围为 [0， 255]; SCALE为亮度值的缩放因子； width为所述输入的 2D图像的宽度值， height 为所述输入的 2D图像的高度值； DEPTH SCALE为深度值缩放因子，

sum

sidth*height

sum= D(x,y)' |

x=o,y=o

优选地，步骤 S2.1进一步包括：

S2.l l若 y为 0，则 D(x，y)' = 0 , 否则，执行步骤 S2.12;

S2.12若 y为奇数，且 X为 0, 贝 lj D(_X，y)' = D(x,y-l)'+D(_X，y)，若 x不为 0，

D(x,y)' = min(D(x-l₎y)'+|l(x+l,y)-l(x-l,y)|*SCALE,D(x₎y-l)^,) + D(x,y)*(l+|l(x,y-l)-l(x,y+l)|*SCALE 否则执行步骤 S2.13; S2.13 若 x=width-l，贝 lj D(x,y)' = D(x，y-l)'+D(x，y)，否则：

D(x,y)' = min(D(x-l,y)'+|l(x+l,y)-I(x-l,y)|*SCALE,D(x,y-l)^,) + D(x,y)*(l+|l(x,y-l)-l(x,y+l)|*SCALE

S2.14 若 < 1^_§ , 则返回步骤 S2.l l，否则，输出步骤 S2.12或 S2.13 得到的 D(x,y)'。

优选地， SCALE=0.1。

优选地， DEPTH一 SCALE=120。

优选地，步驟 S3进一步包括：

S3.1 按照下式重构左眼或右眼图像：

xl=xc+——

2 z

tx f

xr = xc

2 z

l/Z=D_z (x,y)"-Dzero

其中， xl、 xr分别为左眼图像及右眼图像中对应输入的 2D图像 xc位置的位置， f为眼睛的焦距， tx为两眼之间的距离， Z为像素点离人眼的距离， Dzero为零平面的位置，其取值范围为 [0，255]；

S3.2 将（xc，y ) 处的像素值拷贝到对应的（xl,y )或（xr,y ) 处。

优选地， Dzero=255。

(三）有益效果

在本发明的方法中，由于对运动估计得到的深度值进行了累加处理，得到的深度图连续且稠密，提高了重构图像的质量以及 3D视觉效果。

附图说明

图 1/2是依照本发明一种实施方式的基于图像运动信息的 2D转 3D方法流程图；

图 2/2是一种双摄像机的视觉模型示意图。

具体实施方式

本发明提出的基于图像运动信息的 2D转 3D方法，结合附图及实施例详细说明如下。

如图 1/2所示，依照本发明一种实施方式的基于图像运动信息的 2D转 3D方法包括步骤： 51. 基于运动估计的方法得到输入的 2D图像各像素的深度值；

52. 根据各像素的亮度值，对各像素的深度值进行累加，得到输入的 2D 图像的深度图；

53. 根据步骤 S2得到的深度图，进行基于深度图的图像重构左眼和 /或右眼图像；

54. 将步骤 S4的左眼图像和右眼图像合成并输出得到 3D图像。

在本实施方式的方法中，步骤 S1进一步包括：

S1.1 基于运动估计的方法计算各像素的运动矢量，其中，运动估计的方法采用菱形搜索算法，先进行大的菱形的搜索，再进行小的菱形的搜索，最后的到整数像素精度的运动矢量，当然，其他的搜索算法在这里同样适用，不作为对本发明方法的限制；

S1.2根据步骤 S1.1得到的运动矢量分别计算各像素的深度值。

其中，深度值的计算公式为：

y为像素所在行， X为像素所在列， D ( x，y )为未知（x，y )处的像素的深度值， MV_X以及 MV_y分别为所述像素水平方向以及竖直方向的运动矢量， C为常量，本实施方式中 C=l。

为了提高步骤 SI.1中搜索的精度，减少噪声（特别是某些片源中添加的椒盐噪声）对运动搜索精度的影响，在进行步骤 S1.1的运动搜索之前，可对输入的 2D 图像进行去噪处理，此为本领域的技术人员所公知的，在此不做由于运动搜索得到的运动矢量不连续，如果直接计算得到的深度图很稀疏，而实际的深度图应该是稠密的，所以本发明根据各像素的亮度信息对运动矢量计算得到的深度值进行累加。

在本实施方式中，步骤 S2进一步包括：

S2.1 从输入的 2D图像的第一行开始，对各像素的深度值进行累加得到每一个像素的深度累加值 D(x，y)'，该步骤进一步包括：

S2.l l若 y为 0，则 D(x,y)' = 0，否则，执行步骤 S2.12; S2.12 若 y为奇数，且 x为 0, j¾j D(x，y) ' = D(_X，y-l)'+ D(x，y) , 若 x不为 0, 则：

D(x,y)' = min(D(x-l,y)^,+|l(x+l,y)-l(x-l,y)|*SCALE,D(x,y-l)¹) + D(x,y)*(l+|l(x,y-l)-I(x,y+l)|*SCALE 否则执行步骤 S2.13;

S2.13 若 x=width-l，则 D(x,y) ' = D(x,y-l)'+D(x，y)，否则：

D(x,y)' = min(D(x-l，y)'+|l(x+l,y)— I(x-l,y)|*SCALE,D(x,y-l)')+D(x,y)*(l+|l(x，y-l)-I(x，y+l)|*SCALE

S2.14若 y < height，则返回步骤 S2.ll，否则，输出步骤 S2.12或 S2.13 得到的 D(x，y) '。

S2.2 按照以下公式，将深度累加值归一化到 [0, 255]之间，得到归一化的深度值 D(x，y) "，从而得到连续稠密的深度图：

D(x,y)" = ( 6 )

其中， I ( x，y )为（x，y )位置处的像素的亮度值，其取值范围为 [0， 255]; SCALE为亮度值的缩放因子，本实施方式中 SCALE=0.1; width为输入的 2D 图像的宽度值， height为输入的 2D图像的高度值； DEPTH— SCALE为深度值缩放因子，本实施方式中， DEPTH一 SCALE=120;

, sum ( _π

sum- \ Ί、 )

sidth*height

sum= D(x,y) ' ( 8 )；

x=o, =o

S2.3 对步骤 S2.2得到的归一化深度值 D(x，y)"进行非对称高斯滤波，得到最终的深度值 D_z (x，y)"，该非对称高斯滤波处理为本领域所述熟知的技术，在此不做赘述。

由于将在图像水平方向进行投影变换，所以水平方向应尽量保持深度值的连续性，避免运动搜索带来的噪声过大影响，所以本发明未将水平梯度值用于缩放运动得到深度值。

由于人眼的视觉特性，有 70%的人视觉感知依重于右眼， 20%的人依重于左眼。为了减少计算量，本发明在使用 DIBR重构图像时仅重构用户不倚重的那只眼，不失一般性，这里默认为左眼。且这种情况下虽然重构帧的质量较差，但不影响 3D的视觉效杲。因此，本实施方式中在歩骤 S3中，以左眼图像为例，即，在步骤 S3中根据步骤 S2得到的深度图，基于 DIBR重构左眼图像。

如图 2/2所示，其中， Cc为输入的 2D图像， C1为重构的左眼图像， Cr 为重构的右眼图像。 f为眼睛的焦距， tx为基线距离，即两眼之间的距离， Z 为观测的像素点离人眼的距离，按照公式（11 )进行计算。 Dzero为零平面的位置，取值 [0， 255]，在本实施方式中可取 255。公式（9 )、 ( 10 )为图 2中对应 Cl、 Cr、 Cc中同一像素点投影的几何关系，根据公式（9 )、 ( 10 )计算得到对应输入的 2D图像 xc位置的 xl或 xr值，然后将（xc，y )处的像素值拷贝到对应的（xl,y )或（xr，y )处（本实施方式中拷贝到（xl,y ) )。

即步骤 S3进一步包括：

S3.1 按照下式重构左眼或右眼图像：

( 9 )

2 z

xr = xc-—— ( 10 )

2 ζ

l/Z=D_z (x,y) "-Dzero ( 11 )

其中， xl、 xr分别为左眼图像及右眼图像中对应输入的 2D图像 xc位置的位置， f为眼睛的焦距， tx为两眼之间的距离， Z为像素点离人眼的距离， Dzero为零平面的位置，其取值范围为 [0,255];

S3.2 将（xc，y ) 处的像素值拷贝到对应的（xl，y )或（xr，y ) 处。

为了减少重构图像的锯齿效应，先将输入的 2D 图像的水平方向进行缩放，以提高投影时的像素精度。在本实施方式中，在水平方向将图像拉伸到原来的 4倍，根据以上的人眼视觉关系计算得到每行 xl对应的 1/4像素精度的 X值。若 xl对应的 X的值超出了图像范围，则根据插值得到 xl位置的像素值；若多个 xl对应相同的 x，则取 D(x,y) "最大的 xl, 其它的 xl位置值通过插值得到；若 xl对应的 X唯一，则 xl位置的像素值为输入的 2D图像 X位置的像素值。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

工业实用性

使用本发明的基于图像运动信息的 2D转 3D方法得到的图像重构图像质量高， 3D视觉效果好，对推动 2D片源自动的转换为 3D的巿场发展具有重要意义。