CN101651841B

CN101651841B - 一种立体视频通讯的实现方法、***和设备

Info

Publication number: CN101651841B
Application number: CN 200810147391
Authority: CN
Inventors: 王静; 方平; 刘源; 李凯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2008-08-13
Filing date: 2008-08-13
Publication date: 2011-12-07
Anticipated expiration: 2028-08-13
Also published as: CN101651841A

Abstract

本发明的实施例公开了一种立体视频通讯的实现方法、***和设备，该方法包括：获取观看者的方位信息；从大范围场景中获取与所述观看者方位信息对应的视频区域；根据与所述观看者方位信息对应的视频区域的视频数据合成立体视频。本发明的实施例中，获取观看者的方位信息并根据观看者方位信息从获取的大范围场景中获取对应的视频区域合成立体视频，可以快速准确地响应观看者的方位变化。当观看者的相对正常位置的上下或左右移动的幅度较大时，可以快速获得相应的立体视频，使观看者获得最佳的立体视频观看效果。

Description

一种立体视频通讯的实现方法、***和设备

技术领域

本发明涉及视频技术领域，尤其涉及一种立体视频通讯的实现方法、***和设备。

背景技术

目前传统的视频是一种二维信息载体，只能表现出景物的内容而忽略了物体的远近、位置等深度信息。而人类习惯使用两只眼睛来观察世界，作为观察的主体，人类需要提供比一幅图像更多的信息画面来获取必须的空间信息。立体视频(Stereo Video)/3D视频技术可以提供符合立体视觉原理的具有深度信息的画面，从而能够真实地重现客观世界景象，表现出场景的纵深感、层次感和真实性，是当前视频技术发展的重要方向。

立体视频的基本原理是模拟人眼成像原理，采用双摄像机得到左眼图像和右眼图像，在呈现时使人的左右眼分别看到左右眼图像，最后合成得到具有立体感的图像，使观察者能够感到场景的深度。因此，可以把双目立体视频看成是在现有2D视频上增加了对深度信息的扩展。

MVV(Multi-Viewpoint Video，多视点视频)/FVV(Free Viewpoint Video，自由视点视频)是当前视频领域研究的另一个热点。其基本思想是由多个摄像机同时拍摄场景，如体育或戏剧场景，不同的摄像机的拍摄角度不同，产生多个视频流；这些不同视点的视频流送到用户终端，用户可以选择任意的视点和方向观看场景。用户选择的视点可以是预定义的固定的摄像机拍摄视点，也可以是一个虚拟视点，其图像由周围真实的摄像机拍摄的图像合成得到。

立体视频和自由视点视频不是互相排斥的，而是可以融合为一个***。自由视点视频***中的每一个视点可以采用2D方式，也可以采用立体方式观看。

立体视频和自由视点视频有着广泛的应用前景，应用领域包括DVD、电视广播、电影、视频通信、移动设备以及特定的应用，如医疗、军事等，并将形成很大的设备市场，如3D显示器、机顶盒、媒体内容、采集设备和内容创建设备等。

立体视频技术早在七八十年代就已开始研究，但由于技术不成熟，显示设备昂贵和缺乏标准等原因一直没有大规模应用。目前的立体视频技术一般采用双摄像头进行同步视频采集，在编码端形成左右眼其中的一幅图像和一幅包含每个像素深度信息的深度图进行编码传输。解码端解码并通过深度信息还原左右眼图像对并进行渲染，用户通过立体眼镜或立体显示器观看。

用户的观看方式可分为两种：一种是左右眼图像的视差固定，用户看到的场景和用户与场景的距离无关；另一种是用户看到的立体图像和用户到场景的距离和方位有关，因此往往需要对用户进行定位，在解码端进行立体图像的重建，调整用户观看的立体感。当采用观看用户位置相关的重建时，即当用户双眼的观看位置发生如图1所示上下，左右，前后变化时，所看到的内容也相应变化，可以提供用户更强的真实感，带来更好的用户体验；但是其要求***能根据用户的方位变化，快速准确重构虚拟视点，即新视点的立体图像。

现有技术中一种立体视频通讯的实现方法为：采用图形学的方法，该方法基于已获取的不同角度的多幅图像对场景中的目标进行建模，当观看用户移动到不同的方位时，通过目标模型相对新视点的方位投影得到虚拟视点的观看内容，即虚拟视点的立体图像。

发明人在实现本发明的过程中，发现现有技术的方法至少存在以下问题：现有技术中需要构建场景的目标模型，光照模型及目标的反射特性等，当场景中的目标比较简单且比较有规则时，可以获得较好的效果。但当观看用户移动到不同的方位时，考虑到实际场景一般都存在较多的不规则目标，且遮挡关系复杂，难以通过两幅图像完成场景的快速准确建模，且复杂度较高。

发明内容

本发明的实施例提供一种立体视频通讯的实现方法、***和设备，用于实现观看者方位变化时立体视频的快速响应。

本发明的实施例提供一种立体视频通讯的实现方法，包括：

获取观看者的方位信息；

从大范围场景中获取与所述观看者方位信息对应的视频区域，其中所述获取与所述观看者方位信息对应的视频区域包括从采集到的大范围场景中切割得到与所述观看者方位信息对应的视频区域；

根据与所述观看者方位信息对应的视频区域的视频数据合成立体视频。

本发明的实施例还提供一种采集端设备，包括：

采集单元，用于采集大范围场景的视频数据；

获取单元，用于获取观看者方位信息；

切割单元，用于根据所述获取单元获取的观看者方位信息，从所述采集单元采集到的大范围场景中的视频数据切割得到与所述观看者方位信息对应的视频区域；

发送单元，用于将所述切割单元切割得到的对应的视频区域的视频数据向接收端发送。

本发明的实施例还提供一种实现立体视频通讯的***，包括：

采集端，用于根据获取到的观看者方位信息，从采集到的大范围场景中，切割得到与所述观看者方位信息对应的区域，并发送所述对应区域的视频数据；

接收端，用于接收所述对应区域的视频数据，并根据接收到的所述对应区域的视频数据合成立体视频。

本发明的实施例还提供一种接收端设备，包括：

接收单元，用于接收采集端发送的大范围场景的视频数据；

获取单元，用于获取观看者方位信息；

切割单元，用于根据所述获取单元获取的观看者方位信息，从所述接收到的大范围场景中切割得到与所述观看者方位信息对应的视频区域；

重构单元，用于根据所述切割单元切割得到的对应的视频区域的视频数据合成立体视频。

本发明的实施例还提供一种实现立体视频通讯的***，包括：

采集端设备，用于发送大范围场景的视频数据；

接收端设备，用于根据获取的观看者方位信息，从所述接收到的大范围场景的视频数据，切割得到与所述观看者方位信息对应的视频区域；并根据所述对应视频区域的视频数据合成立体视频。

本发明的实施例还提供一种实现立体视频通讯的***，包括网守、网关、多点控制单元、第一视频通信终端以及第二视频通信终端，所述第一视频通信终端以及第二视频通信终端在所述网守、网关和多点控制单元的控制下实现视频数据的交互，

所述第一视频通信终端，用于发送大范围场景的视频数据；所述第二视频通信终端，用于根据获取的观看者方位信息，从所述接收到的大范围场景的视频数据，切割得到与观看者方位信息对应的视频区域；并根据所述对应视频区域的视频数据合成立体视频；或

所述第一视频通信终端，用于根据获取到的观看者方位信息，从采集到的大范围场景中，切割得到与所述观看者方位信息对应的区域，并发送所述对应区域的视频数据；所述第二视频通信终端，用于接收所述对应区域的视频数据，并根据接收到的所述对应区域的视频数据合成立体视频。

与现有技术相比，本发明的实施例具有以下优点：

本发明的实施例中，获取观看者的方位信息并根据观看者方位信息从获取的大范围场景中获取对应的视频区域合成立体视频，可以快速准确地响应观看者的方位变化。当观看者的相对正常位置的上下或左右移动的幅度较大时，可以快速获得相应的立体视频，使观看者获得最佳的立体视频观看效果。

附图说明

图1是现有技术中用户观看方位的变化示意图；

图2是本发明的实施例中左右摄像机拍摄的立体图像对示意图；

图3A是本发明的实施例中观看位置上下左右移动场景内容切割示意图；

图3B是本发明的实施例中观看位置前后移动场景内容切割示意图；

图4是本发明的实施例中立体视频通讯的实现方法流程图；

图5是本发明实施例中图像采集端的流程图；

图6是本发明实施例的双目平行摄像***视差计算示意图；

图7是本发明实施例的混合编解码基本流程图。

图8是本发明实施例中图像接收端的主要流程图；

图9是本发明实施例中图像视差和物体景深以及用户离显示器距离的关系示意图；

图10是本发明实施例中的立体视频通讯***的组网图；

图11是本发明实施例中立体视频通讯***的结构示意图；

图12是本发明实施例中图像采集端设备的结构示意图；

图13是本发明实施例中立体视频通讯***的结构示意图；

图14是本发明实施例中图像接收端设备的结构示意图；

图15是本发明实施例的立体视频通讯***的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述：

本发明的实施例提供一种立体视频通讯的实现方法，针对用户在观看过程中相对正常观看位置作上下，左右或前后移动，导致观看到的场景内容发生变化的问题，本发明的实施例在编码端使用高分辨率的摄像机拍摄包含前景目标的大范围的场景内容，在显示端仅显示满足立体显示器分辨率需求的前景目标区域(由于立体显示器同时显示左右两幅图像，因此其分辨率仅为正常显示器的一半)，如图2所示。其中实线框范围表示拍摄的范围，虚线框表示立体显示器的显示场景区域。

当显示端检测到观看者在正常观看位置作上下或左右移动时，可以直接在拍摄的场景范围内移动虚线框，如图3A所示，图3A中左侧四幅图和右侧四幅图分别表示左右视图的切割情况。其中，四幅图的中间一幅视图表示原始参考位置，上下左右视图分别表示当观看视点上下左右移动时对应的场景内容切割。因此，根据观看者的上下或左右移动，选择对应的显示区域并对图像作虚拟视点投影变换，从而得到新视点的立体图像。

当观看者相对正常位置作前后移动时，则可以通过缩小和放大虚线框选取相应的场景内容，如图3B所示，图中左侧两幅图和右侧两幅图分别表示左右视图的切割情况，其中，左上和右上图分别表示左右眼图像在观看位置后移时的场景内容切割，左下和右下图分别表示左右眼图像在观看位置前移时的场景内容切割。因此，根据前后移动对所选择的内容进行大小调整，得到对应观看者位置变化后的显示内容。

对于本发明实施例提出的根据观看者方位变化、从拍摄的大范围场景中切割对应的显示区域的方法，该切割功能可以在图像采集端或显示端实现。在采集端实现时，由显示端将观看者的方位信息发送到采集端，采集端根据接收到的显示端观看者方位信息从采集的内容中切割，并且仅传输切割的内容到显示端，编码传输的视频数据量较小；在显示端实现时，采集端将采集到的大范围的场景内容发送到显示端，由显示端根据观看者的方位信息，对从采集端接收到的大范围场景进行切割，切割出对应的显示内容并进行重构显示，如此，显示端的内容选择及重构较自由，且可以更快速响应观看者的方位变化。

以下结合具体的应用场景，对本发明的实施方法作进一步详细描述。

本发明实施例提供一种立体视频通讯的实现方法，如图4所示，包括：

步骤s101、获取观看者的方位信息。

步骤s102、从大范围场景中获取与所述观看者方位信息对应的视频区域。

步骤s103、根据与所述观看者方位信息对应的视频区域的视频数据合成立体视频。

该方法可以在采集端或接收端实现，以切割功能在采集端实现为例，则采集端获取观看者方位信息后，根据观看者方位信息从采集到的大范围场景中切割得到与所述观看者方位信息对应的区域，将所述对应区域的视频数据向接收端发送，由接收端根据接收到的视频数据合成立体视频。再以切割功能在接收端实现为例，则接收端接收采集端发送的大范围场景的视频数据，并根据获取到的观看者方位信息，切割从采集端接收到的大范围场景，得到与所述观看者方位信息对应的区域，将该对应区域的视频数据合成立体视频。

以下以步骤s101～步骤s104所描述的切割功能在采集端实现为例，详细说明本发明实施例中的立体视频通讯的实现方法。切割功能在采集端实现时，采集端的流程如图5所示，包括以下步骤：

步骤s501、接收不同摄像机采集的视频流。

采集时，摄像机布局采用平行双目摄像机模型，即从间隔一定距离的相同平面对同一场景进行平行拍摄。摄像机由采集控制功能进行控制。摄像机通过CameraLink、IEEE1394或同轴电缆等方式连接到采集控制功能进行视频流的传输，同时还通过远程控制数据线连接到采集控制功能，使采集控制功能可以远程遥控摄像机进行平移/转动/拉近/拉远等操作。此处的摄像机应采用高分辨率的摄像机以采集比显示内容更大的场景内容，则当观看者在正常位置附近作上下或左右移动时，仅需在原有的拍摄场景中切割对应的内容作变换即可重构对应的立体视频，而不需要控制摄像机运动，从而实现对观看者方位变化的快速响应。

步骤s502、对视频流的采集进行同步控制。

同步功能用于控制多摄像机视频流的同步采集。对于高速运动的物体，同步采集是非常重要的，否则导致不同视点或是同一视点左右眼的图像在同一时刻差异很大，观看者看到的立体视频就会失真。同步功能通过硬件或软件时钟产生同步信号、输出到摄像机的外同步接口对摄像机进行同步采集控制实现，或是输出同步信号到采集控制功能，由采集控制功能通过控制线对摄像机进行同步采集控制。同步功能也可以采用一台摄像机的视频输出信号作为控制信号输入到其他摄像机进行同步采集控制。

步骤s503、采集同步后的图像，根据该采集到的图像进行摄像机的标定，获得摄像机的参数。

在立体视频***中，为了进行立体匹配和场景重建等，需要得到场景的深度或视差信息，而深度或视差信息的获得又必须知道物体某一点在世界坐标系下的坐标和其成像点坐标之间的成像关系。摄像机的内外参数是决定该成像关系的一个重要因素，而往往摄像机的内参(如图像中心、焦距，镜头畸变等)和外参又是未知、部分未知或者原则上不确定的。因此有必要通过某种方法获取摄像机的内部和外部参数，该过程称为摄像机标定。在立体视频的摄像机采集中，根据仿射变换原理，某一点的理想成像方程(不考虑畸变情况)可以表示为：

[\begin{matrix} u \\ v \\ 1 \end{matrix}] = K [\begin{matrix} R & t \end{matrix}] [\begin{matrix} X_{w} \\ Y_{w} \\ Z_{w} \end{matrix}]

K = [\begin{matrix} fs & 0 & u_{0} \\ 0 & f & v_{0} \\ 0 & 0 & 1 \end{matrix}]

其中u、v为成像点坐标；[X_w Y_w Z_w]为世界坐标；f_s为图像的尺度因子，为图像水平单位像素数f_u和垂直单位像素数f_v之比；f为焦距；u₀、v₀为图像中心坐标。R为摄像机的旋转矩阵，t为摄像机平移向量。其中K为摄像机的内参，R和t为摄像机的外参。对于平行双摄像机***，可以得到：

d_{x} (m_{l}, m_{r}) = \begin{matrix} \{\begin{matrix} \frac{x_{l}}{X_{l}} = \frac{f}{Z} \\ \frac{x_{r}}{X_{r}} = \frac{f}{Z} \end{matrix} &DoubleRightArrow; x_{l} - x_{r} = \frac{f}{Z} (X_{l} - X_{r}) = \frac{fB}{Z} \end{matrix}

其中f为焦距，Z为点到成像平面的距离，B为两台摄像机光心的间距，d为视差，如图6所示。可以看出，焦距f对深度Z的影响很大。此外内参中的图像中心和畸变系数等也会对深度和视差计算有影响，需要利用这些参数进行图像校正。

目前摄像机标定有多种方法，如传统标定法和自标定法等。传统标定法的基本方法为：建立摄像机成像模型线形方程组，并测出场景中一组点的世界坐标和其在成像平面上的对应坐标，然后将这些坐标值代入该线形方程组中求出内参和外参。自标定的基本方法为：仅通过图像点之间的对应关系对摄像机进行标定，其依据的是多幅图像中成像点间存在的特殊约束关系(如极线约束)，因此可以不需要场景的结构信息。自标定法的优点是灵活，方便；缺点是标定精度不太高，鲁棒性不足，而且由于需要进行特征点匹配，标定时间较长。

本发明实施例所描述的标定功能用于完成多摄像机标定，求出每个摄像机的内参和外参，针对不同的应用场景采用不同的标定算法。如针对视频会议场景，该标定功能可以采用改进后的传统标定法，能够简化传统标定法的复杂的处理过程，但相比自标定法能够提高精度和减少标定时间。具体方法为：提供或找到一种和拍摄场景相融合，并且能够稳定存在的物品作为参照物，如视频会议场景中观看者的名牌，或场景中的杯子等物品。这些物品应该可以提供物理几何尺寸，并且有丰富的特征可供提取。如名牌的边缘和上面的文字或图案，杯子的同心圆特征等，并采用相应的算法进行标定。如采用平面标定法进行标定的方法如下：(1)提供已知物理尺寸的平面标定参照物；(2)从不同角度拍摄得到平面标定参照物的图像；(3)自动匹配并检测出平面标定参照物图像上的特征点，如文字和图案的特征点等。(4)根据平面标定算法求出摄像机的内参和外参。(5)求出畸变系数，并进行优化。

由于是多摄像机采集，虽然可以通过遥控方式对摄像机的内参和外参进行控制，但仍会出现不同摄像机的参数相差较大的情况，如摄像机的焦距和外参。这时就需要将求出的不同摄像机内参和外参作为反馈信息提供给采集控制功能，采集控制功能根据当前参数的差异对摄像机进行调节，通过迭代过程使不同摄像机的参数差异达到可接受的水平。

步骤s504、根据获取的摄像机的参数，对采集到的图像进行预处理。

预处理的主要内容包括：去除图像的噪声；消除不同摄像机带来的图像差异，如对不同摄像机设置导致的图像亮度和色度差异进行调节；根据摄像机内参中的畸变系数对图像进行校正，如径向畸变校正；对于某些依赖扫描线匹配的立体匹配算法(如Dynamic Programming动态规划法)进行极线对齐操作等。预处理后的图像可以消除大部分采集时带来的图像噪声和由于摄像机差异导致的不希望的图像间的不一致性，有利于后续的立体匹配和深度/视差提取。

步骤s505、对预处理后的图像进行切割处理。

从显示端接收观看者的方位信息后，根据该方位信息从拍摄的大范围场景中切割出对应的场景区域，用于后续的处理。切割处理的原理具体为：当观看者作上下或左右移动时，采用图3描述的方法进行切割；当观看者作前后移动时，采用图4所描述的方法进行切割。如上文所述，该切割处理也可以放在显示端进行，即采集端处理并传输摄像机所拍摄的大范围场景内容，在显示端对所接收到的大范围场景根据观看者的方位进行切割。

步骤s506、对图像进行立体图像匹配，以及视差/深度提取。

立体图像匹配是立体视频中的一项关键技术。立体视频的重构需要得到成像物体的三维信息，而其中关键的深度信息必须从多幅图像中获取。获取深度信息的首要工作就是需要找到场景中某一点在多幅图像中对应的成像点，然后再根据该点在多幅图像中坐标求出其在空间中的坐标，从而得到该点的深度信息。找到场景中某一点在不同图像中对应成像点的过程由图像匹配完成。

目前的立体匹配技术主要包括：基于窗口的匹配、基于特征的匹配和动态规划法等。其中基于窗口的匹配和动态规划法都采用了基于灰度的匹配算法。基于灰度的算法的基本思想是将图像分割成小的子区域，以其灰度值作为模版在其他图像中找到和其最相似灰度值分布的子区域，如果两个子区域满足相似性要求，可以认为子区域中的点是匹配的。在匹配过程中，通常使用相关函数衡量两个区域的相似性。基于灰度的匹配一般都得到图像的密集的深度图。基于特征的匹配没有直接利用图像的灰度，而是利用由图像灰度信息导出的特征进行匹配，相比利用简单的亮度和灰度变化信息更加稳定。匹配特征可以认为是潜在的能够描述场景3D结构重要特征，如边缘和边缘的交点(角点)。基于特征的匹配一般先得到稀疏的深度信息图，然后利用内插值等方法得到图像的密集深度信息图。

匹配/深度提取功能对两个邻近摄像机拍摄图像的最大视差进行了限制，如果超过该最大视差，匹配算法的效率会很差，无法得到较高精度的视差/深度信息。该最大视差可由***预先进行配置。匹配/深度提取功能所采用的匹配算法不是固定的，能够从多种匹配算法(如窗口匹配，动态规划法等)中进行选择，根据应用场景进行配置。完成了匹配操作之后，匹配/深度提取功能根据得到的图像视差和摄像机的参数求出场景的深度信息。下面以基于灰度的窗口匹配算法为例进行说明：

设f_L(x，y)和f_R(x，y)作为左右摄像机采集的两幅图像，(x_L，y_L)为f_L (x，y)中的一点。以(x_L，y_L)为中心构成一个模版T，大小为m×n。可以在f_R(x，y)中平移该模版，设在水平位置平移Δx，在垂直位置平移Δy，其在f_R(x，y)中覆盖的第k个区域为S_k，则S_k和T的相关性可以用相关函数衡量：

D (S_{k}, T) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} {[S_{k} (i, j) - T (i, j)]}^{2} = Σ_{i = 1}^{m} Σ_{j = 1}^{n} {[S_{k} (i, j)]}^{2} - 2 Σ_{i = 1}^{m} Σ_{j = 1}^{n} S_{k} (i, j) T (i, j) + Σ_{i = 1}^{m} Σ_{j = 1}^{n} {[T (i, j)]}^{2}

当D(S_k，T)达到最小时，可以认为达到最佳匹配。如果S_k和T相同，则D(S_k，T)＝0

在上式中，

代表了模版T的能量，为常数，

为Sk区域的能量，其随着模版T的变化而变化。如果T的变化范围较小，

也近似为常量。为了使D(S_k，T)最小，则

应该最大。此处采用NCC(Normalized Cross Correlation，归一化交叉相关算法)消除亮度差异引起的误匹配，相关函数可表示为：

C (Δx, Δy) = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} | S_{k} (i, j) - E (S_{k}) | | T (i, j) - E (T) |}{\sqrt{Σ_{i = 1}^{m} Σ_{j = 1}^{n} {[S_{k} (i, j) - E (S_{k})]}^{2}} \sqrt{Σ_{i = 1}^{m} Σ_{j = 1}^{n} {[T (i, j) - E (T)]}^{2}}}

其中E(S_k)和E(T)分别为S_k和T的平均灰度值。当C(Δx，Δy)最大时，D(S_k，T)最小，可以认为(x_L，y_L)和点(x_L+Δx，y_L+Δy)匹配。Δx，Δy分别为两幅图像之间的水平视差和垂直视差。对于上面所述的平行摄像机***，垂直视差近似为0，水平视差可以表示为：Δx＝fB/Z，从而可以求出场景中某点的深度信息：Δx＝fB/Z。

由于匹配操作是计算密集型任务，需要占用大量处理器时间，因此匹配/深度提取功能对匹配算法进行了优化(如采用并行计算)，以保证***的实时性。

步骤s507、对图像进行编码。

目前立体视频编码主要也可以分为两类：基于块的编码和基于对象的编码。在立体图像的编码中，除了帧内预测和帧间预测消除空域和时域上的数据冗余度外，还必须消除多通道图像之间的空域数据冗余性。视差(Parallax)估计与补偿是立体视频编码中的一项关键技术，用于消除多通道图像间的空域冗余度。视差估计补偿的核心是找到两幅(或多幅)图像间的相关性，其和运动估计补偿是类似的，但视差估计补偿比运动估计补偿要复杂。运动估计补偿处理的是同一摄像机时间不同步的图像，而视差估计补偿处理的是不同摄像机时间同步的图像。在视差估计补偿中，可能所有像素的位置都会发生改变(距离很远的物体可以认为视差为0)。

本发明实施例中的视频编解码模块对双目立体视频按如下方式进行编解码，即按一帧图像+视差/深度值+部分残差的混合方式进行编码。混合编解码方案充分利用了相邻图像间的相关性，压缩效率更高，相比独立压缩方式能减少更多的相邻图像间存在的时域和空域数据冗余。此外，采用视差/深度编码有利于进行图像的重构。对于图像中有遮挡，无法提取视差/深度的部分，采用残差编码，使重构图像的质量更好。如图7所示为双目立体视频混合编码方案的基本流程图。

此外，视频编解码时还需要接收来自观看者的反向信道的输入，根据观看者的方位信息对编解码进行控制。基本的控制包括下面两方面：(1)根据观看者选择的视点，分割双目摄像机所拍摄场景内容中的对应分块，仅处理该分块内容，通过这种方式可以有效地节省编解码功能处理能力。(2)根据用户终端的显示能力对相应的视频流进行编解码，如对于只具有2D显示能力的终端，则编码并发送1路2D视频流。通过这种方式可以提高所述立体视频通讯***和普通视频通讯***的兼容性，并减少无用的数据的传输。

步骤s508、复用编码后的数据流。

复用功能接收来自视频编解码功能的已编码视频流，按帧/场的方式对多路视频流进行复用，如按场方式进行复用，可以将一个视频流编码为奇场，另一个视频流编码为偶场，奇偶场作为一帧进行传输。

步骤s509、分组处理复用数据流。

发送方的网络传输功能接收复用数据流，对数据流进行分组处理，封装成符合RTP等协议的数据包，通过网络接口(如以太网接口、ISDN接口等)向外发送。此外，发送方的网络传输功能还必须接收音频编码功能提供的编码音频数据流，***控制功能发送的信令数据流和用户数据功能提供的用户数据(如传输的文件数据)，对这些数据进行分组。

步骤s510、发送分组数据流。

发送方的网络传输功能通过网络接口把经分组处理后的复用数据流、收音频编码功能提供的编码音频数据流，***控制功能发送的信令数据流和用户数据功能提供的用户数据发送到接收端。

图像接收端的流程如图8所示，包括以下步骤：

步骤sS01、接收分组数据流。

接收端接收经发送端分组处理的数据流，包括复用数据流、编码音频数据流、信令数据流和用户数据等。

步骤s802、提取分组数据，获取复用数据流。

接收端网络传输功能接收到发送端的分组，去除协议头保留用户有效数据，并按数据类型分别发送到复用/解复用功能、音频编码/解码功能、***控制功能和用户数据功能。另外，对每一种媒体类型，完成适当的逻辑成帧、顺序编号、差错检测和差错纠正。

步骤s803、解复用数据流，获取编码数据流。

解复用功能接收来自网络传输功能的分组数据，进行解复用，还原多路已编码视频流。

步骤s804、解码数据流。

解码功能对传输/存储的编码数据(左图像数据、视差/深度信息数据、右图像残差数据)同时进行解码，并将解码后的视差/深度信息数据和右图像残差数据解行合成，合成的右图像将显示在具有3D显示能力的终端。

步骤s805、判断是否需要对解码得到的数据流进行重构，是则继续，否则进行步骤s807。

重构功能可以从用户输入功能得到用户观看的视点信息，如果用户选择的视点位于摄像机的拍摄视点上，则不需要进行重构；如果用户选择的视点位于两个邻近的摄像机组或同组的邻近摄像机之间(没有摄像机的虚拟视角)，需要根据相邻的摄像机拍摄的图像重构用户选择视点处的图像。

步骤s806、对解码数据流进行重构。

重构功能通过某个摄像机拍摄视点的视差/深度信息，以及相邻摄像机的位置参数信息，可以根据投影方程确定该场景的点在某个虚拟视角中的成像点坐标，从而可以重构出该虚拟视角的视频图像。

(1)解决用户如何观看到没有放置摄像机视点的视频图像的问题，因为摄像机的数目是有限的，很难覆盖所有的视点，而用户有可能需要观看没有放置摄像机视点处的场景。重构单元可以从用户输入单元得到用户观看的视点信息，如果用户选择的视点位于摄像机的拍摄视点上，则不需要进行重构；如果用户选择的视点位于两个邻近的摄像机组或同组的邻近摄像机之间(没有摄像机的虚拟视角)，需要根据相邻的摄像机拍摄的图像重构用户选择视点处的图像。通过某个摄像机拍摄视点的视差/深度信息，以及相邻摄像机的位置参数信息，可以根据投影方程确定该场景的点在某个虚拟视角中的成像点坐标，从而可以重构出该虚拟视角的视频图像。

(2)解决用户通过自动立体显示器观看立体图像因为位置移动带来的视差变化，从而导致所看到的立体图像发生变化的问题。自动立体显示器可以使用户在不带眼镜的条件下也能看到立体图像，但此时用户离自动立体显示器的距离是可以改变的，导致图像的视差发生变化。

图9显示了平行摄像机***下图像视差p和物体景深z_p以及用户离显示器距离D的关系，通过简单的几何关系可以得到：

\{\begin{matrix} \frac{x_{L}}{D} = \frac{x_{p}}{D - z_{p}} \\ \frac{x_{R} - x_{B}}{D} = \frac{x_{p} - x_{B}}{D - z_{p}} \end{matrix} &DoubleRightArrow; \frac{x_{L} - x_{R} + x_{B}}{D} = \frac{x_{B}}{D - z_{p}} &DoubleRightArrow; | x_{L} - x_{R} | = x_{B} (1 - \frac{D}{D - z_{p}}) = x_{B} (\frac{1}{\frac{z_{p}}{D} - 1} + 1) = p

从上式可以看出，图像的视差p依赖于用户到显示器的距离D。立体视频接收端收到的立体视频图像一般只具有固定的视差，可以作为一个参考视差p_ref，当D发生改变时，重构单元需要对视差p_ref做相应的调整，生成新的视差p′，并根据新视差重新生成另一幅图像。这样可以保证用户和显示表面的距离发生改变时能看到合适的图像。用户到显示表面的距离可以通过摄像机算出深度图自动检测，或由用户通过用户输入单元进行手工控制。

步骤s807、对数据流进行渲染。

渲染功能接收重构功能提供的视频数据流，将视频图像渲染到显示设备上。

步骤s808、将渲染后的数据流进行显示。

渲染后的数据流可以在各种显示终端(如普通的2D视频显示设备，自动立体显示设备，立体眼镜和全息显示设备等)上进行显示。

在上述描述的方法中，切割处理是由采集端完成的，如上文所述，该切割处理步骤也可在接收端上完成。此时：采集端将拍摄的大范围场景的视频信息向接收端发送。接收端获取用户的方位信息；根据该方位信息，从拍摄的大范围场景中切割出对应的区域，并将切割出的区域中的视频信息合成立体视频向用户展示。对于该情况下的处理方法，与上述图5和图8相似，区别在于切割处理功能从采集端移到了接收端，在此不进行详细描述。

通过使用本发明实施例提供的上述方法，获取观看者的方位信息并根据观看者方位信息从获取的大范围场景中获取对应的视频区域合成立体视频，可以快速准确地响应观看者的方位变化。由于直接通过在大范围的场景中切割适合观看者位置的观看内容并作一定的变换实现新视点的立体视频重构，因此可以快速准确地响应观看者的方位变化。当观看者的相对正常位置的上下或左右移动的幅度较大时，可以同时遥控拍摄端的摄像机作相应的变化，以保证观看者新视点的内容始终包含在摄像机所拍摄的范围内，使观看者获得最佳的立体视频观看效果。

本发明实施例提供一种可快速准确响应观看者方位变化的立体视频通讯的***，包括网守、网关、多点控制单元、第一视频通信终端以及第二视频通信终端，所述第一视频通信终端以及第二视频通信终端在所述网守、网关和多点控制单元的控制下实现视频数据的交互。具体的，所述第一视频通信终端，用于发送大范围场景的视频数据；所述第二视频通信终端，用于根据获取的观看者方位信息，从所述接收到的大范围场景的视频数据，切割得到与观看者方位信息对应的视频区域；并根据所述对应视频区域的视频数据合成立体视频；或所述第一视频通信终端，用于根据获取到的观看者方位信息，从采集到的大范围场景中，切割得到与所述观看者方位信息对应的区域，并发送所述对应区域的视频数据；所述第二视频通信终端，用于接收所述对应区域的视频数据，并根据接收到的所述对应区域的视频数据合成立体视频。

所述视频通讯***可以在基于H.323协议进行组网的网络结构中实现，如图10所示，为使用本发明所述的立体视频通讯***的实例。该视频通讯***建立在分组网络上(如局域网、E1、窄带ISDN和宽带ISDN等)，主要由H.323网守(Gatekeeper)、H.323网关(Gateway)、H.323多点控制单元(MCU)、普通的2D视频通信终端和本发明所涉及的立体(3D)视频通信终端等构成。其中：

(1)网守是网络中一个H.323实体，为H.323终端、网关和MCU提供地址转换和网络接入控制。网守也可以为终端、网关、MCU提供其他服务，如带宽管理和网关定位。

(2)H.323网关为分组网络的H.323终端、电路交换网上的其他ITU终端、或者其他H.323网关之间提供实时双向通信。

(3)多点控制单元是网络中一个端点，为三个或更多终端及网关参加一个多点会议服务，也可以连接两个终端构成点对点会议，随后再扩展为多点会议。MCU由两部分组成：必需的MC(多点控制器，Multipoint Controller)和可选的MP(多点处理器，Multipoint Processor)。其中MC为多点会议提供控制功能，和终端进行能力协商，控制会议资源；MP在多点控制器的控制下在多点会议中对音频、视频和/或数据流进行混合、交换等集中处理。

(4)2D视频通信终端包括了只具有2D图像处理和显示能力的视频通信终端，如可视电话，视频会议终端和个人计算机视频通信终端等。

(5)3D立体视频通讯终端包括具有3D立体图像处理和立体显示能力的食品通讯终端，如立体可视电话，立体视频会议终端和带立体显示器的个人计算机视频通讯终端等。

在该网络结构中，当一方发起视频通信会话时，首先通过多点控制器或自身与对端进行能力协商。如果双方都是立体视频通讯***，则用户双方可以根据本发明实施例所述方案实现在不同视点看到实时切割重构的立体视频，如果一方是普通的2D视频终端，由于不满足立体视频通信的条件，双方用户只能以2D方式进行视频通信。

本发明的实施例提供一种实现立体视频通讯的***，图11所示，包括：

采集端1，用于根据获取到的观看者方位信息，从采集到的大范围场景中，切割得到与所述观看者方位信息对应的区域，并发送所述对应区域的视频数据；

接收端2，用于接收所述对应区域的视频数据，并根据接收到的所述对应区域的视频数据合成立体视频。

具体的，该采集端1可以包括：

采集单元11，用于采集大范围场景的视频数据；

获取单元12，用于获取观看者方位信息；

切割单元13，用于根据获取单元12获取的观看者方位信息，从采集单元11采集到的大范围场景中的视频数据切割得到与所述观看者方位信息对应的视频区域；

发送单元14，用于将切割单元13切割得到的对应的视频区域的视频数据向接收端2发送。

如图12所示，上述采集端1中，其切割单元13可以具体包括：

第一切割子单元131，用于当所述观看者方位信息为上下或左右移动时，在所述拍摄的大范围场景中对显示区域进行对应的上下或左右移动，切割得到与所述观看者方位信息对应的视频区域；

第二切割子单元132，用于当所述观看者方位信息为前后移动时，在所述拍摄的大范围场景中对显示区域进行对应的放大或缩小移动，切割得到与所述观看者方位信息对应的视频区域。

该采集端设备1还包括：

预处理单元15，用于利用采集视频数据所使用双目摄像采集设备的参数，对所述与观看者方位信息对应的视频区域的视频数据进行预处理；

深度信息获取单元16，用于对所述预处理单元15预处理后的视频数据进行匹配，获取深度信息；

编码单元17，用于将所述视频区域的视频数据以及深度信息进行编码；

复用分组单元18，用于将所述编码后的数据流复用后进行分组处理并通过所述发送单元14向接收端2发送。

本发明的实施例还提供一种实现立体视频通讯的***，图13所示，包括：

采集端3，用于发送大范围场景的视频数据；

接收端4，用于根据获取的观看者方位信息，从所述接收到的大范围场景的视频数据，切割得到与所述观看者方位信息对应的视频区域；并根据所述对应视频区域的视频数据合成立体视频。

具体的，该接收端4可以包括：

接收单元41，用于接收采集端3发送的大范围场景的视频数据；

获取单元42，用于获取观看者方位信息；

切割单元43，用于根据所述获取单元42获取的观看者方位信息，从所述接收到的大范围场景中切割得到与所述观看者方位信息对应的视频区域；

重构单元44，用于根据所述切割单元43切割得到的对应的视频区域的视频数据合成立体视频。

如图14所示，上述接收端4中，其切割单元43可以具体包括：

第一切割子单元41，用于当所述观看者方位信息为上下或左右移动时，在所述拍摄的大范围场景中对显示区域进行对应的上下或左右移动，切割得到与所述观看者方位信息对应的视频区域；

第二切割子单元42，用于当所述观看者方位信息为前后移动时，在所述拍摄的大范围场景中对显示区域进行对应的放大或缩小移动，切割得到与所述观看者方位信息对应的视频区域。

上述接收端4中，其重构单元44可以具体包括：

第一重构子单元441，用于直接利用所述接收到的视频数据中切割得到的原始左右视频数据合成立体视频；或

第二重构子单元442，用于对所述接收到的视频数据中的切割得到的原始左右视频数据进行立体匹配获得深度视频数据，基于所述深度视频数据和所述原始左右视频数据进行重构，合成立体视频。

本发明的一实施例中，以切割处理功能位于网络侧的采集端为例，立体视频通讯***的结构如图15所示，包括：采集端10、以及接收端20。其中，采集端10获取拍摄的大范围场景的视频信息，并获取观看者的方位信息；根据该方位信息，从拍摄的大范围场景中切割出对应的区域并将切割出的区域中的视频信息向接收端20发送。接收端20获得该视频信息并合成立体视频向用户展示。

采集端10具体包括：双目摄像机采集单元101，同步单元102，标定单元103，采集控制单元104，预处理单元105，切割处理单元106、匹配/深度提取单元107，视频编码单元108，复用单元109，网络传输单元110，音频编码解码单元111，***控制单元112和用户数据单元113。具体的：

双摄像机采集单元101，摄像机布局采用平行双目摄像机模型，即从间隔一定距离的相同平面对同一场景进行平行拍摄。采集控制单元104控制摄像机，摄像机通过CameraLink、IEEE1394或同轴电缆等方式连接到采集控制单元104进行视频流的传输，同时还通过远程控制数据线连接到采集控制单元104，使采集控制单元104可以远程遥控摄像机进行平移/转动/拉近/拉远等操作。摄像机应采用高分辨率的摄像机以采集比显示内容更大的场景内容，则当观看者在正常位置附近作上下或左右移动时，仅需在原有的拍摄场景中切割对应的内容作变换即可重构对应的立体视频，而不需要控制摄像机运动，从而实现对观看者方位变化的快速响应。

同步单元102，用于控制双摄像机采集单元101中多摄像机视频流的同步采集。同步单元102通过同步信号或者是控制信号对摄像机进行同步采集控制，同步采集要求达到帧同步或行/场同步。

标定单元103，用于完成多摄像机标定，求出每个摄像机的内参和外参，针对不同的应用场景采用不同的标定算法。如针对视频会议场景，标定单元103的一个实例采用的是改进后的传统标定法，能够简化传统标定法的复杂的处理过程，但相比自标定法能够提高精度和减少标定时间。其基本思想是提供或找到一种和拍摄场景相融合，并且能够稳定存在的物品作为参照物，如视频会议场景中用户的名牌，或是场景中杯子等物品。这些物品应该可以提供物理几何尺寸，并且有丰富的特征可供提取。如名牌的边缘和上面的文字或图案，杯子的同心圆特征等，并采用相应的算法进行标定。如采用平面标定法进行标定的方法如下：(1)提供已知物理尺寸的平面标定参照物；(2)从不同角度拍摄得到平面标定参照物的图像；(3)自动匹配并检测出平面标定参照物图像上的特征点，如文字和图案的特征点等。(4)根据平面标定算法求出摄像机的内参和外参。(5)求出畸变系数，并进行优化。

采集控制单元104，用于控制摄像机进行视频的采集并输出。对于双目摄像机采集***，采集控制单元104输出双目立体视频流。对于模拟摄像机，采集控制单元需要将模拟信号转换为数字视频数据。数字视频数据以帧的形式保存在采集控制单元104的缓存中。此外，采集控制单元104还将采集到的数字视频数据提供给标定单元103进行摄像机标定，标定单元103将得到摄像机内参和外参返回给采集控制单元104。采集控制单元104根据这些参数建立起视频流和所属采集摄像机属性的一一对应的关系，这些属性包括摄像机唯一的编号，摄像机内参和外参，每帧的采集时间戳等，并将摄像机属性和视频流按照一定格式进行输出。除了上述功能，采集控制单元104还提供对摄像机的控制功能和视频数据采集的同步功能：采集控制单元104可以根据摄像机标定的参数，通过摄像机的遥控接口对摄像机进行平移/转动/拉近/拉远等操作。采集控制单元104也可以通过摄像机的同步接口向摄像机提供同步时钟信号用以控制同步采集。

预处理单元105，从采集控制单元104处接收采集的视频数据缓存和相应的摄像机参数，根据预处理算法对缓存的视频数据进行处理。

切割处理单元106，用于接收显示端观看者的方位信息，并根据该信息从摄像机拍摄的大范围场景中切割出对应的场景区域，用于后续的处理。该切割处理单元也可以放在显示端进行，即采集端处理并传输摄像机所拍摄的大范围场景内容，在显示端对所接收到的大范围场景根据观看者的方位进行切割。

匹配/深度提取单元107，用于对两个邻近摄像机采集的视频数据进行匹配，并计算得到视差/深度信息。匹配/深度提取单元107对两个邻近摄像机拍摄的视频数据的最大视差进行了限制，如果超过该最大视差，匹配算法的效率会很差，无法得到较高精度的视差/深度信息。该最大视差可由***预先进行配置。匹配/深度提取单元所采用的匹配算法不是固定的，能够从多种匹配算法(如窗口匹配，动态规划法等)中进行选择，根据应用场景进行配置。完成了匹配操作之后，匹配/深度提取单元根据得到的视频数据的视差和摄像机的参数求出场景的深度信息。

视频编码单元108，用于根据用户的方位信息对编解码进行控制。基本的控制包括下面两方面：(1)根据用户选择的视点，分割双目摄像机所拍摄场景内容中的对应分块，仅处理该分块内容，通过这种方式可以有效地节省编解码单元处理能力。(2)根据用户终端的显示能力对相应的视频流进行编解码，如对于只具有2D显示能力的终端，则编码并发送1路2D视频流。通过这种方式可以提高所述立体视频通讯***和普通视频通讯***的兼容性，并减少无用的数据的传输。

复用单元109，用于接收来自视频编解码单元的已编码视频流，按帧/场的方式对多路视频流进行复用；同时接收来自网络传输单元的分组数据，进行解复用，还原多路已编码视频流。

网络传输单元110，发送方的网络传输单元接收复用单元的复用数据流、音频编码单元111提供的编码音频数据流，***控制单元112发送的信令数据流和用户数据单元113提供的用户数据(如传输的文件数据)。对每一种媒体类型，完成适当的逻辑成帧、顺序编号、差错检测和差错纠正。

音频编码单元111(G711、G729等)：对来自麦克风的音频信号进行编码发送，对接收到的音频码进行解码并输出到扬声器。

用户数据单元112：支持远程信息处理应用，如电子白板、静态图像传输、文件交换、数据库访问、音频图形会议等。

***控制单元113：为终端的正确的操作提供信令。它提供呼叫控制、能力交换、命令和指示的信令、以及消息。

接收端20具体包括：网络传输单元120，解复用单元121，视频解码单元122，用户输入单元123，重构单元124，渲染单元125以及立体显示单元126。具体的：

网络传输单元120，用于接收采集端10发送的数据。

解复用单元121，用于对接收的来自网络传输功能的分组数据，进行解复用，还原多路已编码视频流。

视频解码单元122，用于对传输/存储的编码数据(左图像数据、视差/深度信息数据、右图像残差数据)同时进行解码，并将解码后的视差/深度信息数据和右图像残差数据解行合成，合成的右图像将显示在具有3D显示能力的终端。

用户输入单元123，用于接收终端的输入，并反馈给解码单元122和重构单元124，用于控制视频流的编码和重构。用户输入单元包括的信息主要有观看者的方位信息、显示和用户的距离信息等。用户输入单元的信息可以由最终用户通过GUI界面或遥控设备进行输入，如观看视点、距离信息和显示方式；也可由终端自己检测，如终端的显示能力信息。

重构单元124，用于解决用户如何观看到没有放置摄像机视点的视频数据的问题和解决用户通过自动立体显示器观看立体视频数据因为位置移动带来的视差变化，从而导致所看到的立体视频数据发生变化的问题。

渲染单元125，用于接收重构单元提供的视频数据流，将视频数据渲染到立体显示单元126上。

立体显示单元126，用于对接收到的视频数据进行显示。

在上述图15所描述的***中，切割处理是由采集端完成的，如上文所述，该切割处理功能也可在接收端上完成。此时：采集端将拍摄的大范围场景的视频信息向接收端发送。接收端获取用户的方位信息；根据该方位信息，从拍摄的大范围场景中切割出对应的区域，并将切割出的区域中的视频信息合成立体视频向用户展示。对于该情况下的***、采集端以及接收端的结构，与上述图15相似，区别在于切割处理单元从采集端移到了接收端，在此不进行详细描述。

通过使用本发明实施例提供的上述***和设备，获取观看者的方位信息并根据观看者方位信息从获取的大范围场景中获取对应的视频区域合成立体视频，可以快速准确地响应观看者的方位变化。由于直接通过在大范围的场景中切割适合观看者位置的观看内容并作一定的变换实现新视点的立体视频重构，因此可以快速准确地响应观看者的方位变化。当观看者的相对正常位置的上下或左右移动的幅度较大时，可以同时遥控拍摄端的摄像机作相应的变化，以保证观看者新视点的内容始终包含在摄像机所拍摄的范围内，使观看者获得最佳的立体视频观看效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以可借助软件加必要的通用硬件平台的方式来实现基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种立体视频通讯的实现方法，其特征在于，包括：

获取观看者的方位信息；

2.如权利要求1所述的方法，其特征在于，所述获取观看者的方位信息包括：采集端获取观看者方位信息；

所述从大范围场景中获取与所述观看者方位信息对应的视频区域包括：所述采集端根据所述观看者方位信息，从采集到的大范围场景中切割得到与所述观看者方位信息对应的视频区域；

所述根据与观看者方位信息对应的视频区域的视频数据合成立体视频包括：所述采集端将所述对应的视频区域的视频数据发送给接收端，使得所述接收端根据所述对应的视频区域的视频数据合成立体视频。

3.如权利要求2所述的方法，其特征在于，所述采集端将所述对应的视频区域的视频数据发送给接收端包括：

所述采集端利用采集视频数据所使用双目摄像采集设备的参数，对所述视频区域的视频数据进行预处理；

所述采集端对所述预处理后的视频数据进行匹配，获取深度信息；

所述采集端将所述视频区域的视频数据以及深度信息进行编码；

所述采集端将所述编码后的数据流复用后进行分组处理并向接收端发送。

4.如权利要求1所述的方法，其特征在于，

所述获取观看者的方位信息包括：接收端获取观看者方位信息；

所述从大范围场景中获取与所述观看者方位信息对应的视频区域包括：所述接收端根据观看者方位信息，从采集端发送的大范围场景中切割得到与所述观看者方位信息对应的视频区域；

所述根据与所述观看者方位信息对应的视频区域的视频数据合成立体视频包括：所述接收端根据对应的视频区域的视频数据合成立体视频。

5.如权利要求4所述的方法，其特征在于，所述接收端获取观看者方位信息前还包括：

所述接收端接收所述采集端发送的大范围场景的视频数据。

6.如权利要求5所述的方法，所述采集端发送的大范围场景的视频数据包括：

所述采集端利用采集视频数据所使用双目摄像采集设备的参数，对所述大范围场景的视频数据进行预处理；

7.如权利要求2或4所述的方法，其特征在于，所述从大范围场景中切割得到与所述观看者方位信息对应的视频区域包括：

所述观看者方位信息为上下或左右移动时，在所述拍摄的大范围场景中对显示区域进行对应的上下或左右移动，切割得到与所述观看者方位信息对应的视频区域；

所述观看者方位信息为前后移动时，在所述拍摄的大范围场景中对显示区域进行对应的放大或缩小移动，切割得到与所述观看者方位信息对应的视频区域。

8.如权利要求2或4所述的方法，其特征在于，所述视频区域的视频数据包括由双目摄像采集设备采集的所述视频区域的原始左右视频数据。

9.如权利要求8所述的方法，其特征在于，所述根据对应的视频区域的视频数据合成立体视频包括：

直接利用所述对应的视频区域的视频数据中的原始左右视频数据合成立体视频；或

对所述对应的视频区域的视频数据中的原始左右视频数据进行立体匹配获得深度视频数据，基于所述深度视频数据和所述原始左右视频数据进行重构，合成立体视频。

10.一种采集端设备，其特征在于，包括：

采集单元，用于采集大范围场景的视频数据；

获取单元，用于获取观看者方位信息；

11.如权利要求10所述的采集端设备，其特征在于，所述切割单元包括：

第一切割子单元，用于当所述观看者方位信息为上下或左右移动时，在所述拍摄的大范围场景中对显示区域进行对应的上下或左右移动，切割得到与所述观看者方位信息对应的视频区域；

第二切割子单元，用于当所述观看者方位信息为前后移动时，在所述拍摄的大范围场景中对显示区域进行对应的放大或缩小移动，切割得到与所述观看者方位信息对应的视频区域。

12.如权利要求10所述的采集端设备，其特征在于，还包括：

预处理单元，用于利用采集视频数据所使用双目摄像采集设备的参数，对所述与观看者方位信息对应的视频区域的视频数据进行预处理；

深度信息获取单元，用于对所述预处理单元预处理后的视频数据进行匹配，获取深度信息；

编码单元，用于将所述视频区域的视频数据以及深度信息进行编码；

复用分组单元，用于将所述编码后的数据流复用后进行分组处理并通过所述发送单元向接收端发送。

13.一种实现立体视频通讯的***，其特征在于，包括：

14.一种接收端设备，其特征在于，包括：

接收单元，用于接收采集端发送的大范围场景的视频数据；

获取单元，用于获取观看者方位信息；

15.如权利要求14所述的设备，其特征在于，所述切割单元包括：

16.如权利要求14所述的设备，其特征在于，所述重构单元包括：

第一重构子单元，用于直接利用所述接收到的视频数据中切割得到的原始左右视频数据合成立体视频；或

第二重构子单元，用于对所述接收到的视频数据中的切割得到的原始左右视频数据进行立体匹配获得深度视频数据，基于所述深度视频数据和所述原始左右视频数据进行重构，合成立体视频。

17.一种实现立体视频通讯的***，其特征在于，包括：

采集端设备，用于发送大范围场景的视频数据；

18.一种实现立体视频通讯的***，包括网守、网关、多点控制单元、第一视频通信终端以及第二视频通信终端，所述第一视频通信终端以及第二视频通信终端在所述网守、网关和多点控制单元的控制下实现视频数据的交互，其特征在于，

19.如权利要求18所述的***，其特征在于，所述***应用于基于H.323协议进行组网的分组网络中，所述网守具体为H.323网守，所述网关具体为H.323网关，所述多点控制单元具体为H.323多点控制单元。