CN103596014B

CN103596014B - 多视点分布式视频编码中视点间边信息的生成方法

Info

Publication number: CN103596014B
Application number: CN201310613353.4A
Authority: CN
Inventors: 郭继昌; 许颖; 孙骏; 申燊; 金卯亨嘉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2013-11-26
Filing date: 2013-11-26
Publication date: 2016-12-07
Anticipated expiration: 2033-11-26
Also published as: CN103596014A

Abstract

本发明属于分布式视频编码技术领域。解决现有技术的不足，提高非直线型多视点排布的视点间边信息的重构质量，为此，本发明采用的技术方案是，多视点分布式视频编码中视点间边信息的生成方法，包括如下步骤：首先，采用单应性模型获得视差矢量MV，单应性模型如下式所示：第二，解码当前视点。由第一步获得的视差矢量MV_n‑1，和已经解码的前两个视点，第n‑2个视点和第n‑1个视点，现在需要解码当前视点本发明主要应用于视频编码。

Description

多视点分布式视频编码中视点间边信息的生成方法

技术领域

本发明属于分布式视频编码技术领域，尤其涉及一种非直线型分布的多视点分布式视频编码中视点间边信息的生成方法，具体讲，涉及多视点分布式视频编码中视点间边信息的生成方法。

背景技术

分布式视频编码是一种新兴的视频编码技术，它能够使运动估计与运动补偿预测从编码端转移到解码端，有效地降低了编码端复杂度，适用于低复杂度、低功耗的视频***，如无线监控***、无线视频***等。分布式多视点视频编码和传统的单视点视频编码相比可以提供更多的视频场景信息。

在多视点分布式视频编码中，边信息包括时间边信息和视点间边信息，时间边信息多采用运动补偿内插法和运动补偿外推法，视点间边信息通常采用视差矢量内插法和单应性模型。但是，无论是视差矢量内插法和单应性模型采用的都是内插法，它的原理类似于运动补偿内插法，运动补偿内插法的前提是物体的运动在一条直线上。同理，通常的视点间的边信息获取方法的前提条件都是要求多个视点位于同一条直线上，实际上多视点的分布不一定都位于一条直线上，那么当多视点是非直线分布的时候，急需一种低误码率高效的边信息生成方法。

现有的分布式多视点视频编码的多视点间的视点间边信息的生成方法多为视差矢量内插法和单应性模型内插法，这两种方法都是针对多个视点分布在同一条直线上，目前的多个视点分布在不同直线的，都是采用内插法获得视点间边信息进行近似，视点间的内插法的适用前提是多视点分布在同一条直线上，或者至少相邻的三个视点分布在一条直线上，这使得使用视差矢量内插法和单应性模型内插法存在必然的误差。

发明内容

本发明旨在解决现有技术的不足，提高非直线型多视点排布的视点间边信息的重构质量，为此，本发明采用的技术方案是，多视点分布式视频编码中视点间边信息的生成方法，包括如下步骤：

首先，采用单应性模型获得视差矢量MV，单应性模型如下式所示：

λ [\begin{matrix} x_{b} \\ y_{b} \\ 1 \end{matrix}] = [\begin{matrix} a & b & c \\ d & e & f \\ g & h & 1 \end{matrix}] [\begin{matrix} x_{f} \\ y_{f} \\ 1 \end{matrix}]

x_{b} = \frac{a + {bx}_{f} + {cy}_{f}}{{gx}_{f} + {hy}_{f} + 1}

y_{b} = \frac{d + {ex}_{f} + {fy}_{f}}{{gx}_{f} + {hy}_{f} + 1}

式中，(x_f,y_f)是前一视点在t时刻所在的帧中的像素值位置；(x_b,y_b)是前一视点的像素位置(x_f,y_f)经过单应性模型对应到后一视点的像素位置；x_f，x_b为横坐标，y_f，y_b为纵坐标，x_f，y_f中的f表示前一个视点，x_b，y_b中的b表示后一个视点，a,b,c,d,e,f,g,h,l为变换参数，变换参数通过全局运动估计技术来估计；

现有已解码的视点，记作关键视点，第n-2个视点,第n-1个视点，则根据单应性模型可以获得第n-2个视点到第n-1个视点的视差矢量MV_n-1:

MV_n-1=(mv_x,mv_y)

其中 mv_x=x_n-2-x_n-1

mv_y=y_n-2-y_n-1

x_{n - 1} = \frac{{a - bx}_{n - 2} + {cy}_{n - 2}}{{gx}_{n - 2} + {hy}_{n - 2} + 1}

y_{n - 1} = \frac{d + {ex}_{n - 2} + {fy}_{n - 2}}{{gx}_{n - 2} + {hy}_{n - 2} + 1}

式中，(x_n-2,y_n-2)是第n-2个视点中t时刻在的帧的像素值位置；(x_n-1,y_n-1)是经过单应性模型第n-2个视点中t时刻在的帧的像素值位置(x_n-2,y_n-2)对应到第n-1个视点中t时刻在的帧的像素值位置；mv_x是视差矢量MV_n-1的横向分量，mv_y是视差矢量MV_n-1的纵向分量；

第二，解码当前视点。由第一步获得的视差矢量MV_n-1，和已经解码的前两个视点，第n-2个视点和第n-1个视点，现在需要解码当前视点，即第n个视点的视点间边信息，由第一步中，MV_n-1是有第n-2个视点到第n-1个视点的视差矢量，根据多个视点的几何关系，求得第n-1个视点到第n个视点的视差矢量为MV_n；定义I[n,t,x,y]表示第n个视点在t时刻所在帧中(x,y)位置处的像素值。则第n个视点的像素值可以描述为

I[n,t,x,y]=I[n-1,t,x+mv_x,y+mv_y]

其中MV_n=(mv_x,mv_y)为视差矢量，mv_x表示视差矢量MV_n的横向分量，mv_y表示视差矢量MV_n的纵向分量，x表示横坐标，y表示纵坐标，n-1表示第n-1个视点。

本发明的技术特点及效果：

第一，通过上述描述的视差矢量外推法，不仅可以广泛运用在非直线型分布的多视点分布式视频编解码***中，还可以运用在直线型分布的多视点分布式编解码***中，有广泛的适用性。

第二，上述描述的视差矢量外推法是基于单应性模型获得的，是基于像素的，通过块匹配方法获得的视差矢量，是基于块的。基于像素的视差矢量获得方法相对于基于块的视差矢量获得方法具有更高的准确性。

第三，在非直线型分布的多视点分布式视频编码***中，上述描述的视差矢量外推法，可以减少视差矢量内插法带来视深误差，使得非直线型排布的多视点分布式视频编解码的视点边信息生成质量大大提高。在多视点分布式视频编码***各种，一帧图像的边信息包括视点间边信息和时间边信息，视差矢量外推法提高了视点间边信息的质量，从而提高了整个帧的重构质量。

附图说明

图1本发明的视差补偿外推法原理图。

图2轴对称型多视点分布图。

图3扩展的轴对称型多视点分布图。

图4扩展的轴对称型多视点分布的局部放大图。

具体实施方式

非直线型分布的多视点分布式视频编码中视点间边信息的生成方法—视差矢量外推法。视差矢量外推法包括两部分：视差矢量的获得和当前视点的解码。首先，对于视差矢量的获得，一般的获取视差矢量的方法是基于块的运动匹配，即根据MAD原则获得当前时点的前一个已解码视点和后一个已解码视点的视差矢量，这样获得的视差矢量会有一定的视点深度误差。本发明提出了一种新的视差矢量的获得方法，视差矢量MV的获得是通过单应性模型获得，单应性模型如下式所示：

λ [\begin{matrix} x_{b} \\ y_{b} \\ 1 \end{matrix}] = [\begin{matrix} a & b & c \\ d & e & f \\ g & h & 1 \end{matrix}] [\begin{matrix} x_{f} \\ y_{f} \\ 1 \end{matrix}]

x_{b} = \frac{a + {bx}_{f} + {cy}_{f}}{{gx}_{f} + {hy}_{f} + 1}

y_{b} = \frac{d + {ex}_{f} + {fy}_{f}}{{gx}_{f} + {hy}_{f} + 1}

式中，(x_f,y_f)是前一视点在t时刻所在的帧中的像素值位置；(x_b,y_b)是前一视点的像素位置(x_f,y_f)经过单应性模型对应到后一视点的像素位置；x_f，x_b为横坐标，y_f，y_b为纵坐标，x_f，y_f中的f表示前一个视点，x_b，y_b中的b表示后一个视点；a,b...h为变换参数。只要这个场景为近似平坦的，这个公式就有效。参数可以通过全局运动估计技术来估计。

现有已解码的视点（记作关键视点）第n-2个视点,第n-1个视点，则根据单应性模型可以获得第n-2个视点到第n-1个视点的视差矢量MV_n-1:

MV_n-1=(mv_x,mv_y)

其中 mv_x=x_n-2-x_n-1

mv_y=y_n-2-y_n-1

x_{n - 1} = \frac{{a - bx}_{n - 2} + {cy}_{n - 2}}{{gx}_{n - 2} + {hy}_{n - 2} + 1}

y_{n - 1} = \frac{d + {ex}_{n - 2} + {fy}_{n - 2}}{{gx}_{n - 2} + {hy}_{n - 2} + 1}

式中，(x_n-2,y_n-2)是第n-2个视点中t时刻在的帧的像素值位置；(x_n-1,y_n-1)是经过单应性模型第n-2个视点中t时刻在的帧的像素值位置(x_n-2,y_n-2)对应到第n-1个视点中t时刻在的帧的像素值位置，a,b...h为变换参数；mv_x是视差矢量MV_n-1的横向分量，mv_y是视差矢量MV_n-1的纵向分量。

第二，解码当前视点。由第一步获得的视差矢量MV_n-1，和已经解码的前两个视点，第n-2个视点和第n-1个视点。现在需要解码当前视点（即第n个视点）的视点间边信息，由第一步中，MV_n-1是有第n-2个视点到第n-1个视点的视差矢量，根据多个视点的几何关系，可以求得第n-1个视点到第n个视点的视差矢量为MV_n；定义I[n,t,x,y]表示第n个视点在t时刻所在帧中(x,y)位置处的像素值。则第n个视点的像素值可以描述为

I[n,t,x,y]=I[n-1,t,x+mv_x,y+mv_y]

根据上说公式获得的像素值，可以重构出第n个视点的视点间边信息。

下面结合附图对本发明作更详细的说明。

如图1所示的多视点分布式视频编码中视点间边信息的生成方法—视差矢量外推法。视差矢量外推法包括两部分：视差矢量的获得和当前视点的解码。首先，对于视差矢量的获得，一般的获取视差矢量的方法是基于块的运动匹配，即根据MAD原则获得当前时点的前一个已解码视点和后一个已解码视点的视差矢量，这样获得的视差矢量会有一定的视点深度误差。本发明提出了一种新的视差矢量的获得方法，视差矢量MV的获得是通过单应性模型获得，单应性模型如下式所示：

λ [\begin{matrix} x_{b} \\ y_{b} \\ 1 \end{matrix}] = [\begin{matrix} a & b & c \\ d & e & f \\ g & h & 1 \end{matrix}] [\begin{matrix} x_{f} \\ y_{f} \\ 1 \end{matrix}]

x_{b} = \frac{a + {bx}_{f} + {cy}_{f}}{{gx}_{f} + {hy}_{f} + 1}

y_{b} = \frac{d + {ex}_{f} + {fy}_{f}}{{gx}_{f} + {hy}_{f} + 1}

式中，(x_f,y_f)是前一视点在t时刻所在的帧中的像素值位置；(x_b,y_b)是前一视点的像素位置(x_f,y_f)经过单应性模型对应到后一视点的像素位置；x_f，x_b为横坐标，y_f，y_b为纵坐标，x_f，y_f中的f表示前一个视点，x_b，y_b中的b表示后一个视点；a,b...h为变换参数。只要这个场景为近似平坦的，这个公式就有效。参数可以通过全局运动估计技术来估计（参考文献：Xiao F,Liu J,Guo J,et al.Novel Side Information Generation Algorithm ofMultiview Distributed Video Coding for Multimedia Sensor Networks[J].International Journal of Distributed Sensor Networks,2012.）。

现有已解码的视点（记作关键视点）第n-2个视点,，第n-1个视点，则根据单应性模型可以获得第n-2个视点到第n-1个视点的视差矢量MV_n-1:

MV_n-1=(mv_x,mv_y)

其中 mv_x=x_n-2-x_n-1

mv_y=y_n-2-y_n-1

x_{n - 1} = \frac{{a - bx}_{n - 2} + {cy}_{n - 2}}{{gx}_{n - 2} + {hy}_{n - 2} + 1}

y_{n - 1} = \frac{d + {ex}_{n - 2} + {fy}_{n - 2}}{{gx}_{n - 2} + {hy}_{n - 2} + 1}

式中，(x_n-2,y_n-2)是第n-2个视点中t时刻在的帧的像素值位置；(x_n-1,y_n-1)是经过单应性模型，第n-2个视点中t时刻在的帧的像素值位置(x_n-2,y_n-2)对应到第n-1个视点中t时刻在的帧的像素值位置，a,b...h为变换参数；mv_x是视差矢量MV_n-1的横向分量，mv_y是视差矢量MV_n-1的纵向分量。

第二，解码当前视点。由第一步获得的视差矢量MV_n-1，和已经解码的前两个视点，第n-2个视点和第n-1个视点。现在需要解码当前视点（即第n个视点）的视点间边信息，由第一步中，MV_n-1是有第n-2个视点到第n-1个视点的视差矢量，根据多个视点的几何关系，可以求得第n-1个视点到第n个视点的视差矢量为MV_n;定义I[n,t,x,y]表示第n个视点在t时刻所在帧中(x,y)位置处的像素值。则第n个视点的像素值可以描述为

I[n,t,x,y]=I[n-1,t,x+mv_x,y+mv_y]

如图2所示的轴对称分布的多视点分布式视频编解码中，1号、2号、3号视点构成轴对称分布（关于2号视点所在的直线对称）。记1号视点与3号视点的中心位置为o，1号视点与3号视点的距离为a,2号视点距离o点的距离为b。由已解码的关键视点1号视点和2号视点，根据公式本发明所述的视差矢量外推法可以求得视差补偿矢量为MV₂，根据几何关系可以求得2号视点与3号视点的视差矢量：

把1、2、3号视点放在一个直角坐标系下，以2号视点为原点，则有如下的关系式成立：

MV₃=(mv_x',mv_y')

mv_x'=mv_x

mv_y'=-mv_y

其中，MV₂=(mv_x,mv_y)表示从1号视点指向2号视点的视差矢量，mv_x表示视差矢量MV₂的横向分量，mv_y表示视差矢量MV₂的纵向分量，MV₃=(mv_x',mv_y')表示2号视点指向3号视点的视差矢量，mv_x'表示视差矢量MV₃的横向分量，mv_y'表示视差矢量MV₃的纵向分量,x表示横坐标，y表示纵坐标，mv_x',mv_y'中的上标用来区别mv_x，mv_y

则3号视点在t时刻的像素位置为(x,y)处的像素值I[3,t,x,y]为

I[3,t,x,y]=I[2,t,x+mv_x',y+mv_y']

如图3所示的扩展的轴对称分布的多视点分布式视频编解码中，6个视点等距分布在一个近圆弧上，距离为c。图3所示的多视点不关于任何视点轴对称，但它可以看作是局部轴对称的。设1号、2号视点作为关键视点且已解码，如图4所示的扩展的轴对称分布的局部放大图，将1、2、3号视点放在一个直角坐标系上，且2号视点在原点处。根据单应性模型可以求出1号视点与2号视点间的视差矢量MV₂。平移1号视点与2号经视点外推法得到的视差矢量至第三象限。根据图4所示的几何关系，我们得到2号视点到3号视点的视差矢量MV₃：

MV₃=（mv'_x,mvy'_y）

其中

{mvx}^{'} = \frac{{bmv}_{x} c^{2} \cos β - a {({mv}_{x})}^{2} {mv}_{y} - {bmv}_{x} {({mv}_{y})}^{2}}{{amv}_{x} {mv}_{y} - b {({mv}_{x})}^{2}}

{mv}_{y}^{'} = \frac{a {({mv}_{x})}^{2} + {bmv}_{x} {mv}_{y} - {ac}^{2} \cos β}{{amv}_{y} - {bmv}_{x}}

MV₂=(mv_x,mv_y)表示从1号视点指向2号视点的视差矢量，mv_x表示视差矢量MV₂的横向分量，mv_y表示视差矢量MV₂的纵向分量，x表示横坐标，y表示纵坐标，MV₃=(mv_x',mv_y')表示2号视点指向3号视点的视差矢量，mv_x'表示视差矢量MV₃的横向分量，mv_y'表示视差矢量MV₃的纵向分量，mv_x',mv_y'中的上标用来区别mv_x，mv_y；β是图4标注的角度，cosβ是β的余弦值

根据公式I[3,t,x,y]=I[2,t,x+mv_x',y+mv_y']可以得到3号视点的视点间边信息。

同理，我可以根据上述公式由2号视点3号视点外推出4号视点的视点间边信息等等。

当1-6号视点分布在右半圆弧上时，视差矢量的获得同上述公式。

由上述实施方案知，视差补偿外推法的多视点不仅可以等距分布同一条直线上，还可以分布在轴对称型和等距分布在圆弧上。

Claims

1.一种多视点分布式视频编码中视点间边信息的生成方法，其特征是，包括如下步骤：

λ [\begin{matrix} x_{b} \\ y_{b} \\ 1 \end{matrix}] = [\begin{matrix} a & b & c \\ d & e & f \\ g & h & 1 \end{matrix}] [\begin{matrix} x_{f} \\ y_{f} \\ 1 \end{matrix}]

x_{b} = \frac{a + {bx}_{f} + {cy}_{f}}{{gx}_{f} + {hy}_{f} + 1}

y_{b} = \frac{d + {ex}_{f} + {fy}_{f}}{{gx}_{f} + {hy}_{f} + 1}

式中，(x_f,y_f)是前一视点在t时刻所在的帧中的像素值位置；(x_b,y_b)是前一视点的像素位置(x_f,y_f)经过单应性模型对应到后一视点的像素位置；x_f，x_b为横坐标，y_f，y_b为纵坐标，x_f，y_f中的f表示前一个视点，x_b，y_b中的b表示后一个视点，a,b,c,d,e,f,g,h,l为变换参数，该变换参数通过全局运动估计技术来估计；

现有已解码的视点，记作关键视点，根据单应性模型获得第n-2个视点到第n-1个视点的视差矢量MV_n-1:

MV_n-1＝(mv_x,mv_y)

其中mv_x＝x_n-2-x_n-1

mv_y＝y_n-2-y_n-1

x_{n - 1} = \frac{a + {bx}_{n - 2} + {cy}_{n - 2}}{{gx}_{n - 2} + {hy}_{n - 2} + 1}

y_{n - 1} = \frac{d + {ex}_{n - 2} + {fy}_{n - 2}}{{gx}_{n - 2} + {hy}_{n - 2} + 1}

第二，解码当前视点由第一步获得的视差矢量MV_n-1，和已经解码的前两个视点，第n-2个视点和第n-1个视点，现在需要解码当前视点，即第n个视点的视点间边信息，由第一步中，MV_n-1是有第n-2个视点到第n-1个视点的视差矢量，根据多个视点的几何关系，求得第n-1个视点到第n个视点的视差矢量为MV_n；定义I[n,t,x,y]表示第n个视点在t时刻所在帧中(x,y)位置处的像素值，则第n个视点的像素值描述为

I[n,t,x,y]＝I[n-1,t,x+mv_x,y+mv_y]

其中MV_n＝(mv_x,mv_y)为视差矢量，mv_x表示视差矢量MV_n的横向分量，mv_y表示视差矢量MV_n的纵向分量，x表示横坐标，y表示纵坐标，n-1表示第n-1个视点。