CN104685858A

CN104685858A - 沉浸式视频会议方法和***

Info

Publication number: CN104685858A
Application number: CN201380050723.6A
Authority: CN
Inventors: G·德莱格; N·布什
Original assignee: Alcatel Optical Networks Israel Ltd
Current assignee: Alcatel Optical Networks Israel Ltd
Priority date: 2012-09-28
Filing date: 2013-09-03
Publication date: 2015-06-03
Anticipated expiration: 2033-09-03
Also published as: EP2713593B1; CN104685858B; US9432625B2; US20150244987A1; KR20150048821A; EP2713593A1; WO2014048686A1

Abstract

一种沉浸式视频会议方法，其中处于不同位置(11，12，13)的多个参与者(21，22，23，24)通过电信网络架构(8，31，38)远程地彼此交互，其中所述方法包括在给定参与者(21，22，23，24)的位置(11，12，13)处：-通过一对视频照相机(4A，4B)捕获所述参与者的视频图像；-检测、跟踪和确定所述视频图像中的所述参与者的尺寸和位置相关参数；-生成与所述参与者相关的单个基本视频流；-将房间标识符与所述基本视频流关联，所述房间标识符与所述给定参与者唯一地关联；-向集中式实体(30)发送所述基本视频流、所述尺寸和位置相关参数以及所述房间标识符(41A，42A，43A)；-针对处于所述不同位置(11，12，13)的每个参与者(21，22，23，24)重复上述步骤；其中所述方法进一步包括在所述集中式实体(30)处：-通过组合针对所有所述参与者的所述基本视频流(41A，42A，43A)来创建虚拟房间(70)；-基于所有所述参与者的所述尺寸和位置相关参数来对所述虚拟房间中的所有所述参与者的所述基本视频流进行分段并且计算与每个参与者的所述房间标识符关联的场景规格；以及-针对每个参与者，基于所述场景规格和其他参与者的所述基本视频流的组合，生成所述虚拟房间(70)的单个复合视频流(41B，42B，43B)，所述单个复合视频流(41B，42B，43B)显示所述其他参与者的2D视频，其中所述其他参与者的尺寸和位置被确定为如同所述参与者(21，22，23，24)在相同的虚拟房间(70)中一样。

Description

沉浸式视频会议方法和***

技术领域

本发明的一个方面涉及沉浸式(immersive)视频会议方法。本发明进一步涉及沉浸式视频会议***。术语视频会议被认为包括电话会议、网络会议、多媒体会议等。

背景技术

尽管非排他性的，但是此类的方法和***发现在远程视频会议中的一种具体应用，即，视频会议，其中多个参与者以实时和在线的方式远程地彼此交互(例如，在广播意义上来发布多媒体信息)。尽管他们中的一些可以被分组在一个位置，但是各个用户可以位于不同的位置。

沉浸式视频会议***旨在对于本地和远程的参与者创建一种处于相同的虚拟房间的感觉。在典型的沉浸式视频会议***中，假设参与者是静止的，即，坐在座位上。进一步，视频分段基本上是静态的，并且因此不需要对于每个参与者，根据他在虚拟房间中的位置来进行计算。需要提供一种沉浸式视频会议***，其能够构建虚拟房间并且能够向每个参与者显示视野，该视野模拟当该参与者相对于虚拟房间中的其他参与者移动时所看到的内容。

文档US 6,583,808描述了用于立体视频电话会议的***和方法，其提供一种沉浸式虚拟会议的体验。每个参与者由至少两个视频照相机围着。***感应每个参与者的位置并且使用该信息对于每个参与者选择照相机对，以捕捉其他参与者中的每个参与者的一对立体视频图像。***适于将每个参与者的图像与背景隔离。***转换立体对图像并且针对每个参与者的两眼间的间距来校正视角。经处理的立体图像对被发送给相应的参与者。对于每个参与者，***聚集虚拟会议室的立体视频显示图像，组合适当调整尺寸和位置的其他参与者的每个参与者的立体图像对。参与者也可以显示和操控三维(3D)虚拟对象。

然而，这不是令人满意的，因为该***和方法需要复杂的操作来计算参与者的立体视像。结果是，为了实施该***和方法，需要来自于处理器的重要功能。进一步，观察者并不总是期待3D渲染(需要佩戴特定的眼镜、头痛等)。向相应的参与者发送经处理的立体视频图像对需要重要的通信带宽来进行发送。

本发明的一个目的是建议一种视频会议方法和/或装置，其克服上述的缺陷，并且特别地，减小处理实体的负载和/或减小通信带宽的消耗。

发明内容

根据一个方面，提供一种沉浸式视频会议方法，其中处于不同位置的多个参与者通过电信网络架构远程地彼此交互，

其中所述方法包括在给定参与者的位置处：

-通过一对视频照相机捕获所述参与者的视频图像；

-检测、跟踪和确定所述视频图像中的所述参与者的尺寸和位置相关参数；

-生成与所述参与者相关的单个基本视频流；

-将房间标识符与所述基本视频流关联，所述房间标识符与所述给定参与者唯一地关联；

-向集中式实体发送所述基本视频流、所述尺寸和位置相关参数以及所述房间标识符；

-针对处于所述不同位置的每个参与者重复上述步骤；

其中所述方法进一步包括在所述集中式实体处：

-通过组合针对所有所述参与者的所述基本视频流来创建虚拟房间；

-基于所有所述参与者的所述尺寸和位置相关参数来对所述虚拟房间中的所有所述参与者的所述基本视频流进行分段(stage)并且计算与每个参与者的所述房间标识符关联的场景规格；以及

-针对每个参与者，基于所述场景规格和其他参与者的所述基本视频流的组合，生成所述虚拟房间的单个复合视频流，所述单个复合视频流显示所述其他参与者的2D视频，在所述2D视频中，所述其他参与者的尺寸和位置被确定为如同所述参与者在相同的虚拟房间中一样。

检测和跟踪视频图像中的参与者的步骤可以包括基于用于人体检测算法的方向梯度直方图HOG来检测和跟踪所述参与者的身体，而不包括来自于所述视频图像的背景。

所述HOG算法的结果可以进一步通过根据参与者的一对视频信号计算的深度映射矩阵来滤除，该一对视频信号从一对视频照相机获得。

该深度映射矩阵可以基于针孔照相机模型来计算。

检测和跟踪所述视频图像中的参与者的步骤可以包括基于二进制掩码图像和所述深度映射矩阵来确定参与者相对于视频照相机之一的位置的3D位置。

生成基本视频流的步骤可以包括利用纹理化的掩码来对基本视频流的图像进行编码，所述基本视频流是红绿蓝和阿尔法RGBA视频流，其中阿尔法是透明度。

场景规格可以包括基本视频流的z索引、每个视频的2D位置、以及缩放比例，基本视频流的z索引描述与一个参与者相关的基本视频流是位于与虚拟房间中的其他参与者相关的其他基本视频流之前还是之后，每个视频的2D位置描述每个参与者相对于虚拟房间中的给定视点的位置，缩放比例描述一个参与者相对于另一参与者的邻近度。

生成参与者的一个复合视频流的步骤可以包括基于场景规格来平移、缩放和叠加从其他参与者接收的基本视频流。

该方法可以进一步包括基于相应的唯一房间标识符来仅向合适的参与者发布(publish)和显示单个复合视频流。

根据另一个方面，提供一种沉浸式视频会议***，其中处于不同位置处的多个参与者通过电信网络架构彼此远程地交互，其中所述沉浸式视频会议***包括：

-一对视频照相机，其位于每个参与者的位置，并且被布置成捕获该参与者的视频信号；

-预处理模块，其位于每个参与者的位置，并且包括深度映射生成器、身***置计算器、视频流媒体器、以及房间标识符请求器，该深度映射生成器耦合到***，该***被布置成检测和跟踪视频图像中的该参与者，该身***置计算器被布置成确定该视频图像中的该参与者的尺寸和位置相关参数，该视频流媒体器被布置成生成与该参与者相关的单个基本视频流，该房间标识符请求器被布置成将房间标识符与该基本视频流关联；以及

-虚拟位置构建模块，其位于集中式位置，并且包括分段引导器和视频混合器，该分段引导器被布置成通过组合所有该参与者的该基本视频流来创建虚拟房间，对该虚拟房间中的所有该参与者的该基本视频流进行分段，并且基于所有该参与者的该尺寸和位置相关参数来计算与每个参与者的该房间标识符关联的场景规格，该视频混合器被布置成针对每个参与者，基于该场景规格和其他参与者的该基本视频流的组合来生成该虚拟房间的单个复合视频流，该单个复合视频流显示该其他参与者的2D视频，在该2D视频中，该其他参与者的尺寸和位置被确定为如同该参与者在相同的虚拟房间中一样。

虚拟位置构建模块可以进一步包括视频服务器，其布置成发布参与者的复合视频流，每个视频流与房间标识符关联，该房间标识符唯一地与给定参与者关联。

根据另外的方面，提供一种用于沉浸式视频会议***的计算机程序，该沉浸式视频会议***至少包括参与者处理单元，通过控制和处理实体在电信网络架构中彼此耦合的至少一个远程参与者处理单元，计算机程序产品包括指令集合，所述指令集合在被加载到所述沉浸式视频会议***的所述参与者处理单元以及所述控制和处理实体的程序存储器并且由所述沉浸式视频会议***的所述参与者处理单元以及所述控制和处理实体来运行时，使得该***来执行根据本发明的沉浸式视频会议方法的步骤。

根据另一方面，提供一种视频会议服务器，包括根据本发明的沉浸式视频会议***服务器的虚拟位置构建模块。

本发明使得能够针对每个参与者构建虚拟房间，该虚拟房间显示其他参与者的视频，如同参与者处于相同的房间中。本发明的方法和***使得能够提取每个视频的背景，定位参与者在视频中的3D位置，并且对于给定的参与者，仅通过确定每个远程参与者的尺寸、位置和可见部分来对场景进行分段。本发明使得能够通过管理参与者在房间中的移动来改进沉浸式视频会议***和方法。沉浸感被提供给参与者而不需要不得不为房间配备复杂的设备，并且具有低的带宽消耗和使用低功率的处理单元。利用该沉浸式视频会议***和方法，与远程参与者的交互将更为自然。参与者仅需要离另一参与者更近，以便更好的看见他和/或使得更为可见。

其他的优势将通过下面本发明的描述而变得明显。

附图说明

本发明是通过例子来说明的，并且不限于所附附图，其中类似的编号指示相似的单元：

图1是示意性和部分地示出个体(即，位于不同位置的多个远程参与者)之间的沉浸式视频会议***的框图；

图2是示意性地示出沉浸式视频会议***的模块的实施例和在图1的***中使用的具有动态分段的方法的框图；

图3是示意性地示出在虚拟房间中远程参与者相对于彼此的位置以及它们的及时修改的例子的框图；

图4是示出向图3中描绘的例子的框中的特定参与者显示的视频的图像的屏幕的例子，所述视频由具有图2的动态分段的沉浸式视频会议***的实施例在参与者处于位置P_B时所生成。

具体实施方式

图1是示意性地示出在不同位置的个体之间的沉浸式视频会议***1的框图。

第一个体，即视频会议的参与者21位于第一位置11中。第二个体，即另一参与者22位于第二位置12中。将理解的是可以存在处于相同位置中的多个参与者。例如，第三和第四个体，分别是参与者23和参与者24位于第三位置13中。所有的这些个体发起远程视频会议，其中每个参与者21、22、23、24可以与另一参与者21、22、23和24交互。例如，参与者21可以在给定时间向远程参与者22、23和24发布各种信息。

参与者21、22、23和24所处的位置11、12和13中的每个具有声音恢复装置和/或视频恢复装置2、若干个传感器3、4、5和本地处理单元6。传感器包括例如麦克风3、针对每个参与者的一对视频照相机4以及可选地附加传感器5。视频照相机可以是机动化的视频照相机。可以在一个位置具有若干对视频照相机，特别是当若干个参与者可能出现在一个位置中时。附加的传感器5可以是任意类型的传感器(例如，温度传感器、湿度传感器、环境光传感器和/或运动检测传感器等)，其用于测量与位置和/或该位置处的参与者有关的一个或多个参数。声音和/视频恢复装置2可以是与扬声器关联的显示器，例如，计算机屏幕、或膝上型计算机、或视频投影仪。处理单元6可以是本地计算机或特定的视频会议装置，其包括处理器7、调制解调器8和存储器9。调制解调器8支持到通信网络31的有线或无线连接。通信网络31可以是全球通信网络，例如因特网，或私有通信网络，例如内联网。第一模块，即如下参考图2详细描述的预处理模块50由处理单元6来运行。例如，预处理模块50可以被实现为计算机程序产品，其可以被加载进位于每个位置11、12和13处的处理单元6的存储器9中。在这种情况下，当程序由处理器7运行时，计算机程序产品实施本发明的视频会议的方法的一部分。

沉浸式视频会议***1进一步包括控制和处理实体30。控制和处理实体30可以被实现为特定的远程集中式视频会议服务器36，其包括处理器37、调制解调器38和存储器39。远程集中式视频会议服务器36通过调制解调器38和通信网络31连接到视频会议的参与者的各种本地处理单元6。第二模块，即如下参考图2详细描述的用于特定参与者的虚拟位置构建模块60，可以被实现为计算机程序产品，该计算机程序产品被加载进控制和处理实体30的服务器36的存储器39中。在这种情况下，当程序由处理器37执行时，计算机程序产品实现本发明的视频会议的方法的另一部分。

因此，各种本地处理单元6和远程集中式视频会议服务器36实现本发明的视频会议的方法。

每个本地处理单元6服务以生成数据流，该数据流具有视频信号和/或音频信号和/或由附加传感器从传感器3、4、5的输出信号所测量的其他参数。第一、第二和第三输入数据流41A、42A、43A涉及分别位于第一位置11、第二位置12和第三位置13处的相应参与者21、22、23和24。所有这些输入数据流在经过如下面所详细解释的本地预处理后被传输至远程集中式视频会议服务器。远程集中式视频会议服务器36进一步处理这些输入的数据流41A、42A、43A，并且生成如下详细解释的第一输出数据流41B、第二输出数据流42B和第三输出数据流43B。来自于远程集中式视频会议服务器36的输出数据流将通过声音和/或视觉恢复装置2来呈现给他们的相应参与者，即，视频由显示器来恢复，而音频信号由扬声器来恢复。

本地处理单元6以及控制和处理实体30执行各种功能以用于向参与者提供沉浸式视频。这些功能或这些功能的一部分可以被实现为可以由本地处理单元6的处理器7和服务器36的处理器37分别执行的计算机程序产品的模块。这些功能的一些功能可以被实现为独立的实体。

图2是示意性示出沉浸式视频会议***的模块的示例性实施例以及可以实现在图1的视频会议***中的具有动态分段的方法的框图。沉浸式视频会议***包括预处理模块50和虚拟位置构建模块60。

预处理模块50是负责如下各项的实体：捕获参与者的、具有在其位置处的背景的视频、删除该背景、确定参与者的3D位置以及生成针对于参与者的基本视频流。

预处理模块50包括深度映射生成器51、***52、身***置计算器53、视频流媒体器(streamer)54和房间标识符请求器55。

深度映射生成器51接收作为输入的一对校正的立体视频照相机4A和4B的视频信号。深度映射生成器51基于所述视频信号计算作为输出的深度映射矩阵。可以基于已知的针孔照相机模型(针孔照相机模型是从3D场景到2D图像的映射的第一级近似)来计算深度映射矩阵。也可以估计并且向***52发送每个视频照相机的内部参数(例如，焦距、主点或节点)和每个视频照相机的外部参数(例如，旋转平移矩阵)。

***52接收作为输入的两个校正的立体视频照相机4A和4B之一的视频信号，并且由深度映射生成器51来计算深度映射矩阵。***52用于检测和跟踪视频中存在的参与者。可以基于用于人体检测算法的方向梯度直方图HOG来做出跟踪。深度映射矩阵进一步用于过滤结果，改进识别率并且界定参与者的身体。该***52生成具有二进制掩码的第一类型图像、以及具有纹理化掩码的第二数据图像。这些图像用于在视频上定位参与者。

身***置计算器53接收***52所生成的具有二进制掩码的图像以及深度映射生成器51所计算的深度映射矩阵以作为输入。身***置计算器确定参与者相对于视频照相机4A、4B的3D位置。参与者的3D位置(更精确地说，参与者的重心的3D位置)被计算。

视频流媒体器54负责编码来自于***52的图像并且将相应的视频流发布至虚拟位置构建模块60的视频混合器64中。以阿尔法透明度来对视频进行编码，并且移除背景。视频流媒体器54将具有***52所生成的纹理化的掩码的图像编码到视频流中。

房间标识符请求器55生成与参与者所在的房间关联的唯一房间标识符。因此，每个视频流可以以所述唯一房间标识符来发布。该唯一房间标识符将被用于通过虚拟位置构建模块60来将参与者的视频流与其3D位置关联。

生成包括视频流、参与者的3D位置和唯一房间标识符的输入数据流41A、42A和43A，并且向虚拟位置构建模块60传送输入数据流41A、42A和43A，该虚拟位置构建模块60由集中式远程视频会议服务器36来运行。因此，对于具有参与者的每个房间，向虚拟位置构建模块60持续地发送包括单个视频流的输入数据流(一个单个视频流)。就带宽消耗而言，这是特别有效的。

虚拟位置构建模块60是负责为每个参与者创建虚拟房间的实体，每个虚拟房间可以通过根据参与者在所述房间中的位置来组合每个参与者的基本视频流来生成。

虚拟位置构建模块60包括分段引导器61、视频混合器64和视频服务器66。

分段引导器61接收从所有参与者到视频会议的输入数据流41A、42A和43A作为输入。分段引导器61负责对于每个参与者执行视频流的分段。分段引导器61基于每个远程参与者的3D位置来计算针对每个唯一房间标识符的场景规格。对于每个唯一房间标识符，场景规格包括一个列表，其包括视频的z索引、每个视频的2D位置和缩放比例。z索引是描述与一个参与者相关的视频流是位于与其他参与者相关的其他视频流之前还是之后的参数。每个视频的2D位置是用于将每个参与者的位置相对于给定视点的参数进行平移。缩放比例是用于模拟参与者相对于彼此的邻近度的参数。

如图3中所描绘的(左部)，从作为观察者的参与者(在图3中所描绘的例子中，参与者24)的虚拟房间70中的实际位置来计算虚拟房间70中的参与者(在图3中所描绘的例子，参与者21、22和23)的虚拟位置。如图3中所描绘的(右部)，当作为观察者的参与者(在图3中所描绘的例子中，参与者24)从第一位置P_A向第二位置P_B移动时，仅视野71中的参与者是可见的(在图3中所描绘的例子中，是参与者21和22的情形)，所有在他后面的其他参与者被遮蔽(在图3中所描绘的例子中，是参与者23的情形)。

图4示意性地示出根据在图3中给出和描绘的例子，模拟向在第二位置P_B中作为观察者的参与者24显示的视野71的屏幕。其示出作为观察者的参与者能够看到什么，即仅图3的例子中的参与者21和22。参与者21具有比参与者22更大的尺寸，因为作为观察者的参与者24在视觉上相对于参与者22更接近于参与者21。

视频混合器64负责使用从所有参与者到视频会议的输入数据流41A、42A和43A、并且基于从分段引导器61接收的场景规格来生成沉浸式视频。对于给定参与者的沉浸式视频是示出虚拟房间中的其他参与者并且处于所述给定参与者的视野中的复合视频。视频混合器64叠加一组视频流RGBA，即红绿蓝和阿尔法，其中阿尔法是透明度。视频混合器64从不同的位置接收一组视频流RGBA，并且针对作为观察者的每个参与者来重新计算复合视频、在作为观察者的所述参与者的视野中的其他参与者的位置和尺寸。下面提到的操作(即，图像(x,y)的平移、缩放、使用阿尔法透明度的图像融合)是仅需要来自于处理器的低功率的基本操作。

所有参与者的沉浸式视频被存储在视频服务器66上。因此，对于给定的参与者，接收相应的沉浸式视频仅需要接收单个视频流。就带宽消耗而言，这进一步是特别有效的。

视频播放器56负责准备将要向根据他的唯一房间标识符来识别的参与者显示的沉浸式视频。在所述参与者的视觉恢复装置2上显示沉浸式视频。

本发明支持向每个参与者实时地提供沉浸式视频。术语“实时”的使用也应该包括“近实时”的含义：实时意味着，例如从视频照相机向预处理模块50提供视频信号的时间起在小于1秒的时间内生成沉浸式视频，而近实时意味着例如在小于1分钟内生成沉浸式视频。

在前的附图和它们的描述是说明而非限制本发明。

尽管附图在不同的块处示出不同的功能实体，但这绝不排除这样的实现，其中单个的实体执行若干个功能，或其中若干个实体执行单个的功能。在这方面，附图是很概略地。在包括任何功能块的附图中示出的各种单元的功能可以通过专用硬件的使用来提供并且硬件能够执行与相关的软件关联的软件。当由处理器提供时，功能可以由单个专用处理器、由单个共享处理器、或由多个独立处理器来提供，而其中的一些处理器可以被共享。另外，术语“实体”的明确使用不应该被解释为排他性地指代能够执行软件的硬件，并且可以隐含地包括而非限于数字信号处理器(DSP)硬件、网络处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、用于存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储器。也可以包括其他的常规和/或传统的硬件。

本领域技术人员应该理解的是尽管说明书将由控制和处理实体30所实现的虚拟位置构建模块60描述为特定的远程视频会议服务器36，这仅是集中式实施例的一个例子。事实上，虚拟位置构建模块60也可以由参与者可以连接到特定网站来实现，或由位于参与者位置11、12、13之一处的本地处理单元6来实现。也可以以集中式/分布式方式实现虚拟位置构建模块60的各种实体，各种实体分布在本地处理单元6。进一步，基于云计算的实现可以用于基于从各种参与者所获得的视频和数据导出针对每个参与者的沉浸式视频。

本领域技术人员应该理解的是这里的任何框图代表体现本发明的原理的说明性电路装置的概念图。

权利要求中的任何参考编号不应该被解释为限制权利要求。单词“包括”并不排除存在除列在权利要求中的那些单元外的其他单元。位于一个单元前的单词“一个”或“一种”并不排除存在多个此类的单元。

Claims

1.一种沉浸式视频会议方法，其中处于不同位置(11，12，13)的多个参与者(21，22，23，24)通过电信网络架构(8，31，38)远程地彼此交互，

其中所述方法包括在给定参与者(21，22，23，24)的位置(11，12，13)处：

-通过一对视频照相机(4A，4B)捕获所述参与者的视频图像；

-生成与所述参与者相关的单个基本视频流；

-向集中式实体(30)发送所述基本视频流、所述尺寸和位置相关参数以及所述房间标识符(41A，42A，43A)；

-针对处于所述不同位置(11，12，13)的每个参与者(21，22，23，24)重复上述步骤；

其中所述方法进一步包括在所述集中式实体(30)处：

-通过组合针对所有所述参与者的所述基本视频流(41A，42A，43A)来创建虚拟房间(70)；

-基于所有所述参与者的所述尺寸和位置相关参数来对所述虚拟房间中的所有所述参与者的所述基本视频流进行分段并且计算与每个参与者的所述房间标识符关联的场景规格；以及

-针对每个参与者，基于所述场景规格和其他参与者的所述基本视频流的组合，生成所述虚拟房间(70)的单个复合视频流(41B，42B，43B)，所述单个复合视频流(41B，42B，43B)显示所述其他参与者的2D视频，其中所述其他参与者的尺寸和位置被确定为如同所述参与者(21，22，23，24)在相同的虚拟房间(70)中一样。

2.根据权利要求1所述的沉浸式视频会议方法，其中检测和跟踪所述视频图像中的所述参与者包括基于用于人体检测算法的方向梯度直方图HOG来检测和跟踪所述参与者(21，22，23，24)的身体，而不包括来自于所述视频图像的背景。

3.根据权利要求2所述的沉浸式视频会议方法，其中所述HOG算法的结果进一步通过根据所述参与者(21，22，23，24)的一对视频信号计算的深度映射矩阵来滤除，所述一对视频信号是从所述一对视频照相机(4A，4B)获得的。

4.根据权利要求3所述的沉浸式视频会议方法，其中所述深度映射矩阵基于针孔照相机模型来计算。

5.根据权利要求3或4所述的沉浸式视频会议方法，其中检测和跟踪所述视频图像中的所述参与者(21，22，23，24)包括基于二进制掩码图像和所述深度映射矩阵来确定所述参与者相对于所述视频照相机(4A，4B)之一的位置的3D位置。

6.根据权利要求1到5中的任意一项所述的沉浸式视频会议方法，其中生成所述基本视频流包括利用纹理化的掩码对所述基本视频流的图像进行编码，所述基本视频流是红绿蓝和阿尔法(RGBA)视频流，其中阿尔法是透明度。

7.根据权利要求1到6中的任意一项所述的沉浸式视频会议方法，其中所述场景规格包括所述基本视频流的z索引、每个视频的2D位置、以及缩放比例，所述基本视频流的所述z索引描述与一个参与者相关的基本视频流是位于与所述虚拟房间中的所述其他参与者相关的其他基本视频流之前还是之后，每个视频的所述2D位置描述每个参与者相对于所述虚拟房间中的给定视点的位置，所述缩放比例描述一个参与者相对于另一参与者的邻近度。

8.根据权利要求1到7中的任意一项所述的沉浸式视频会议方法，其中生成针对所述参与者(21，22，23，24)的一个复合视频流(41B，42B，43B)包括基于所述场景规格来平移、缩放和叠加从所述其他参与者接收的所述基本视频流。

9.根据权利要求1到8中的任意一项所述的沉浸式视频会议方法，其中所述方法进一步包括基于相应的唯一房间标识符来仅向合适的参与者(21，22，23，24)发布和显示所述单个复合视频流(41B，42B，43B)。

10.一种沉浸式视频会议***，其中处于不同位置(11，12，13)的多个参与者(21，22，23，24)通过电信网络架构彼此远程地交互，所述沉浸式视频会议***包括：

-位于每个参与者(21，22，23，24)的位置(11，12，13)处的一对视频照相机(4A，4B)，被布置成捕获所述参与者的视频信号；

-位于每个参与者的位置处的预处理模块(50)，包括深度映射生成器(51)、身***置计算器(53)、视频流媒体器(54)、以及房间标识符请求器(55)，所述深度映射生成器(51)耦合到***(52)，所述***(52)被布置成检测和跟踪视频图像中的所述参与者，所述身***置计算器(53)被布置成确定所述视频图像中的所述参与者的尺寸和位置相关参数，所述视频流媒体器(54)被布置成生成与所述参与者相关的单个基本视频流(41A，42A，43A)，所述房间标识符请求器(55)被布置成将房间标识符与所述基本视频流关联；以及

-位于集中式位置处的虚拟位置构建模块(60)，包括分段引导器(61)和视频混合器(64)，所述分段引导器(61)被布置成通过组合所有所述参与者的所述基本视频流(41A，42A，43A)来创建虚拟房间(70)，对所述虚拟房间(70)中的所有所述参与者的所述基本视频流进行分段，并且基于所有所述参与者的所述尺寸和位置相关参数来计算与每个参与者的所述房间标识符关联的场景规格，所述视频混合器(64)被布置成针对每个参与者，基于所述场景规格和其他参与者的所述基本视频流的组合来生成所述虚拟房间(70)的单个复合视频流(41B，42B，43B)，所述单个复合视频流(41B，42B，43B)显示所述其他参与者的2D视频，其中所述其他参与者的尺寸和位置被确定为如同所述参与者(21，22，23，24)在相同的虚拟房间(70)中一样。

11.根据权利要求10所述的沉浸式视频会议***，其中所述虚拟位置构建模块(60)进一步包括视频服务器(66)，所述视频服务器(66)被布置成发布所述参与者的所述复合视频流，每个视频流与房间标识符关联，所述房间标识符唯一地与给定参与者关联。

12.一种用于沉浸式视频会议***的计算机程序，所述沉浸式视频会议***至少包括参与者处理单元，通过控制和处理实体在电信网络架构中彼此耦合的至少一个远程参与者处理单元，计算机程序产品包括指令集合，所述指令集合在被加载到所述沉浸式视频会议***的所述参与者处理单元以及所述控制和处理实体的程序存储器并且由所述沉浸式视频会议***的所述参与者处理单元以及所述控制和处理实体来运行时，使得所述***来执行根据权利要求1到9中的任意一项所述的沉浸式视频会议方法的步骤。

13.一种集中式视频会议服务器(36)，包括根据权利要求10或11所述的沉浸式视频会议***的所述虚拟位置构建模块(60)。