CN104025572A

CN104025572A - 在虚拟会议中传达注视信息

Info

Publication number: CN104025572A
Application number: CN201280057704.1A
Authority: CN
Inventors: 刁杰
Original assignee: Individual
Current assignee: Individual
Priority date: 2011-09-23
Filing date: 2012-09-11
Publication date: 2014-09-03
Also published as: CA2849325A1; US20130076853A1; US9538133B2; WO2013043416A1

Abstract

展示了召开传达注视信息的虚拟会议的***和方法。在存在三个节点的情况下，接收指示第一参与者的注视受体的来自第一节点的输入，该注视受体与第二和第三节点之一相联系。构建按预定次序布置第一参与者、与第二节点相联系的第二参与者、和与第三节点相联系的第三参与者的表示的虚拟空间。根据虚拟空间中第一参与者的注视受体的表示的位置确定虚拟空间中第一参与者的注视角。生成包括如从虚拟空间中第二参与者的位置所看到那样，在虚拟空间中正看着他的注视受体的第一参与者的图像。

Description

在虚拟会议中传达注视信息

相关申请

本申请要求2011年9月23日提交的美国专利申请第13/244,114号的优先权，在此通过引用并入其内容。

技术领域

本发明一般涉及虚拟会议，尤其涉及能够传达注视信息的虚拟会议。

背景技术

在过去的十年里具有视频会议形式的虚拟会议已经得到广泛应用。视频会议为参与者不用真正聚到一起“开会”提供了便利的方式。除了节省与旅途有关的时间和成本之外，视频会议是环保的，因为应该有助于避免不必要的驾驶和飞行。尽管有上述优点，但视频会议目前没有得到充分利用，人们仍然需要远行去面对面开会。这是因为许多人发现视频会议是面对面开会的不太好的替代品。

视频会议不令人满意的原因之一是缺乏眼睛接触和注视信息。研究表明，眼睛接触的空间失真对视频会议中的有效沟通产生负面影响。会议参与者希望知道谁正看着他们以及是否有人正看着他们，缺乏这些信息使视频会议对于许多人来说是没有人情味的、不舒服的和低效的。此外，缺乏眼睛注视信息甚至可以导致错误沟通。例如，在有许多人的视频会议中，有时难以精确地分辨说话者究竟在同谁说话。当说话者在漫长的工作描述结束时问道“你能胜任吗？”时，许多人可能假定他们的每一个都被问到是否胜任该工作。这类错误沟通的可能性导致人们避免经由视频会议进行重要沟通，迫使他们去旅行。

需要一种能够保存精确注视信息的虚拟会议***。

发明内容

在一个方面中，本发明包括在第一节点、第二节点和第三节点之间召开虚拟会议的计算机实现方法。该方法包括从第一节点接收指示与第一节点相联系的第一参与者的注视受体的输入，其中该注视受体与第二和第三节点之一相联系；构建按预定次序布置第一参与者、与第二节点相联系的第二参与者、和与第三节点相联系的第三参与者的表示的虚拟空间；根据虚拟空间中第一参与者的注视受体的表示的位置确定虚拟空间中第一参与者的第一注视角；以及生成要发送给第二节点的图像，其中该图像包括如从虚拟空间中第二参与者的位置所看到那样，在虚拟空间中正看着他的注视受体的第一参与者。

在另一个方面中，本发明包括召开包括第一节点和第二节点的虚拟会议的计算机实现方法，其中第一节点与看着第一注视受体的第一参与者相联系，第二节点与看着第二注视受体的第二参与者相联系。该方法要求从第一节点接收指示第二参与者是第一注视受体的输入，其中将第二参与者显示在第一节点上的第一显示设备上；通过使用与显示在第一显示设备上的第二参与者的图像对准的成像设备获取第一参与者的正看着你图像；以及将第一参与者的正看着你图像发送到第二节点。

在又一个方面中，本发明是在第一节点与第二节点之间召开虚拟会议的计算机实现方法。该方法包括接收从不同角度捕获的第一参与者的图像，该第一参与者与第一节点相联系；构建按预定配置布置第一参与者和第二参与者的表示的虚拟空间，其中第二参与者与第二节点相联系；从第一节点接收有关第一参与者的注视受体的输入；选择描绘如从虚拟空间中第二参与者的视角所看到那样，在虚拟空间中正看着他的注视受体的第一参与者的图像之一；以及将所选的一个图像提供给第二节点。

在又一个方面中，本发明是在多个节点之间召开虚拟会议的计算机实现方法，其中节点之一与主参与者相联系，而其他节点分别与对等参与者相联系。该方法要求构建按预定次序布置主参与者和对等参与者的表示的虚拟空间；以及将虚拟空间的图像提供给与主参与者相联系的节点，其中动态地调整图像以便取决于主参与者的注视受体是谁而包括虚拟空间的不同部分。

在又一个方面中，本发明是包括中央服务器、主终端和对等终端的虚拟会议***。该主终端被配置成向该中央服务器报告主参与者的第一注视受体，以及发送从不同角度捕获的主参与者的图像。该对等终端被配置成向该中央服务器报告在对等终端上的各自对等参与者的注视状态，以及向该中央服务器发送从不同角度获得的对等参与者的图像。该中央服务器被配置成构建按已知配置布置主参与者和对等参与者的表示的虚拟空间，以及从主参与者的视角生成图像，其中该图像描绘在虚拟空间中沿着他们各自注视受体的方向观看的对等参与者。

附图说明

图1A和1B描绘了按照本发明的虚拟会议***的实施例；

图2描绘了可以示出在终端上的视频输入和输出设备上的例子；

图3描绘了终端上的显示设备上的视图如何随活动节点重新指定而变；

图4A和4B描绘了通过本发明的中央服务器构建的虚拟空间的例子；

图5描绘了当参与者i正看着参与者j时显示在终端i上的视图的例子；

图6描绘了当参与者i正看着参与者m时显示在终端i上的视图的例子；

图7A和7B例示了如何确定注视角；

图8描绘了参与者看着各种节点的虚拟空间的例子；

图9描绘了虚拟空间中参与者注视方向与他的肢体取向的对准；

图10A、10B和10C例示了参与者j如何能够根据虚拟空间的合成视图分辨参与者i的注视方向；

图11描绘了工作在满载模式下的终端上的摄像机布局的例子；

图12是总结在工作在满载模式下的虚拟会议***中实现ANL、EGG和EGC功能的一般过程的流程图；

图13描绘了在显示在图8中的实施例的情况下图12的虚拟会议过程的例子；

图14和15描绘了工作在半载模式下的终端上的摄像机布局的例子；

图16描绘了工作在退化模式下的终端上的摄像机布局的例子；

图17例示了图像的镜面反射；

图18和19例示了如何可以达到不同级别的复杂度；

图20描绘了工作在双摄像机模式下的终端上的显示设备；

图21描绘了在双摄像机模式下实现ANL和EGG功能的过程；

图22描绘了工作在混合模式下的终端上的显示设备；

图23A、23B和23C描绘了虚拟空间中参与者的静态和动态布局；

图24和25分别示出了用于在图23B和23C中描述的情况的参与者i和参与者j的合成视图；以及

图26A、26B和26C描绘了当工作在动态退化模式下时在虚拟空间中布置参与者的表示的示范性方式。

具体实施方式

本发明涉及在虚拟会议中精确传达注视信息的方法和***。尽管将以虚拟会议为背景描述本发明，但要明白的是，这不是限制本发明，本文所述的构思可以适用于像虚拟游戏或图像显示那样的其它应用。

可以不同程度地定义空间忠实性(spatial faithfulness)。借助于相互空间忠实性，参与者能够看到是否还有其他人正在关注他们。借助于局部空间忠实性，参与者能够分辨某人关注的一般方向。借助于整个空间忠实性，参与者能够正确地感觉到某人关注的特定对象。本发明能够通过如下步骤保存视频会议中的空间忠实性：1)引导会议参与者的注视以捕获精确反映每个参与者的预定注视角的图像；以及2)针对注视信息合成和显示给会话参与者带来真实感的视图。

如本文所使用，“会议”旨在包括任何类型的开会或交流，不局限于正式商务会议。“虚拟会议”旨在包括像视频会议那样，不要求参与者处在相同物理位置的任何类型的开会或交流。“参与者”可以是人、机器人、虚拟卡通人物、无生命物体等。“主参与者”是在他的显示设备上观看其他会议参与者的会议参与者，“对等参与者”是非主参与者的会议参与者。

图1A描绘了本发明的虚拟会议***10。虚拟会议***10包括中央服务器20和多台终端30。在每台终端30与中央服务器20之间具有双向数据传送能力，使终端30可以经由中央服务器20相互通信。在终端30之间发送视频数据和音频数据两者。终端30可以处在远程地理位置(例如，不同城市)，但这不是对本发明的限制。

每台终端30都装备了音频和视频输入和输出设备，每台终端30都可能存在虚拟会议参与者。中央服务器20收集来自每台终端30的数据，构建虚拟空间，以及生成适当定制视图以便展示在每台终端30上。显示在每台终端30上的视图模拟了如果所有参与者都坐在与虚拟空间类似安排的真实房间中，则那台终端30上的参与者将具有的视图。取决于实施例以及如下面更详细所述，虚拟视图可以保存相互、局部和甚至整个空间忠实性和非语言线索。因此，沟通的有效性可以类似于面对面开会中的有效性。终端30上的音频输入/输出设备使参与者可以听到对方。

虚拟会议***10中的终端对应于“节点”。一个“节点”是***10中的逻辑独立实体，在虚拟会议***10中存在多个节点。例如，一个节点可以与一个参与者、一个投影屏幕、一张白板、一个空座位、或甚至一个空隙相联系。一个节点也可以是来自另一个***的视频会议终端的模拟物，使使用不同***的参与者可以参加同一会议。一个节点可以对应于多个对象。例如，一个投影屏幕和一张白板可以共享同一节点。在这样的情况下，每个会议参与者可以决定在他的屏幕上显示哪一个。但是，并非每个节点都对应于终端。例如，白板节点可以是中央服务器20生成的板面。

图1B是本发明的虚拟会议***10的另一个实施例，并且例示了中央服务器20不必是一个位置上的一个物理单元。中央服务器20通过它的处理能力来定义，因此可以部分远离终端30和部分在终端30上。

图2描绘了可以显示在终端30上的视频输入和输出设备上的例子。视频输入和输出设备可以包括显示设备31。显示设备31显示图像，显示的图像的一个帧在本文中被称为“屏幕”。“图像”可以是视频或照片。由于来自每台终端的视图被构建成模拟如果一个参与者正坐在物理空间中，则他将具有的视图，所以在会议区32中参与者看不到他们自己。在显示设备31上，会议区32显示会议中的每个其他节点的图像。例如，在存在五个参与人员和一个投影屏幕，其中参与人员之一是参与者i的会议中，参与者i的终端30-i上的显示设备31显示四个参与人员和该投影屏幕。

如本文所使用，像“i”那样指定节点的字母指示某种东西属于那个节点。例如，终端i是与节点i相对应的终端，显示设备31-i是终端i上的显示设备，参与者i是在显示设备31-i前面的终端i处的参与者等。

在每台终端上，中央服务器20周期性地监视来自终端的输入，并作出参与者是否正看着节点的判断。正被看的节点在本文中被称为“注视受体”。如果参与者看着注视受体长于预定时间量阈值，则那个注视受体被锁定成“活动节点”。这种将节点指定成“活动节点”在下文中称为“活动节点锁定(ANL)功能。

将会议区32的一部分指定成“活动节点区”33。在会议区32中的所有节点当中，将一个节点指定成活动节点并显示在活动节点区33中。中央服务器20确定参与者i正看着哪个节点。一旦确定参与者i正看着参与者j以及将节点j指定成活动节点，则中央服务器20自动将参与者j的图像移动到活动节点区33-i。这样，使参与者i的注视指向或引向活动节点区33-i。在本发明的一个实施例中，活动节点区33-i包括或接近捕获正看着活动节点区33-i的参与者i的“正看着你”图像的核心摄像机34-i。将参与者i的这个“正看着你”图像发送给终端30-j上的显示设备31-j，使参与者j可以看到参与者i正看着他。如果参与者j看着参与者i，则将参与者i的图像显示在终端30-j上的活动节点区33-j中，核心摄像机34-j将捕获参与者j的“正看着你”图像，并将这个图像发送给参与者i。这样，参与者i和参与者j成功地建立起眼睛接触。

更一般地说，本发明通过确定活动节点(通常注视受体)以及主动地将活动节点的图像与包含每台终端30处的核心区(如图2的实施例中)的活动节点区对准来建立眼睛接触。“核心区”是参与者必须看着要由核心摄像机34适当地捕获的“正看着你图像”的区域。通过将注视受体显示在与核心区对准的活动节点区中，将参与者的注视引向核心摄像机，使核心摄像机可以捕获参与者的“正看着你”图像。“摄像机”是能够捕获包括实时视频流和照片的图像加以发送的任何设备。将活动节点显示在核心摄像机34可以捕获参与者的“正看着你”图像的活动节点区中在本文中称为眼睛注视引导(EGG)功能。更具体地说，将活动节点显示在活动节点区中被称为“粗略注视引导”。

当参与者i将他的注视转移到参与者k(使参与者k成为新注视受体)时，可以触发活动节点重新指定。参与者j的图像从活动节点区33-i中移走，并且参与者k的图像将移入活动节点区33-i中。核心摄像机34-i捕获参与者i的“正看着你”图像，并将这个图像发送给参与者k，参与者k然后知道参与者i正看着他。

图3描绘了活动节点转变，或显示设备31上的视图如何随活动节点重新指定而变。在上图中，节点“C”处在活动节点区33中。当观众将他的注视转移到节点“D”时，会议区32中的视图转移到使节点“D”进入活动节点区33中。如图所示，当活动节点发生变化时，屏幕上的所有节点的位置都发生变化。但是，参与者排列的次序通常保持不变。该变化可以以避免突变视觉效果的方式，例如，通过沿着一个方向连续滑动或旋转视图来实现。在屏幕转变期间，显示设备31上与不同节点相对应的区域连续地变化(显示的内容没有突然的移动)。在一个实施例中，节点“C”的图像逐渐向左移动，以便迁移到活动节点区33的左边缘，跨过该边缘，进入活动节点区33左边的显示区中，而节点“D”的图像从活动节点区33的右边缘开始进入活动节点区33中。用户的感受可能是犹如他正看着通过一个窗口的虚拟空间，并调整窗口的位置以便将不同节点放入中心区中似的。这种连续非突然迁移在本文中称为图像的“漂移”。

该***可以自动或根据参与者人工输入来跟踪注视数据，即，有关参与者正看着哪一节点的数据。在自动检测模式中，每台终端30都装备了能够确定参与者正看着的显示设备31的哪一区域的眼睛注视跟踪***。通过将这种注视状态数据与有关参与者正看着的区域中正在显示哪一节点的屏幕数据组合，该***可以自动判定参与者正看着哪一节点。在人工模式中，参与者，例如，通过触摸屏幕上的图像从显示设备31中选择一个节点的图像，将光标放在该图像上并点击等来“告诉”中央服务器20他正看着谁。尽管为了简单起见本文提供的描述假设终端30正工作在自动检测模式下，但要明白的是一些或所有终端30可以工作在人工模式下。

如下面的图5和6所例示，并非所有参与者都一直显示在显示设备31上。有时，主参与者想把他的注视转移到当前未显示的对等参与者。在跟踪主参与者的眼睛注视的自动检测模式中，主参与者可以通过看着显示设备31上的某个区域来移动“窗口”。例如，他可以看着左箭头或沿着左边缘延伸的条向左移动显示的视图。在人工模式中，主参与者可以点击箭头或条来左/右“滚动”。

中央服务器20在将节点指定给活动节点区之前作出注视状态确定。原则上，可以将屏幕转变期间的连续重新定义的屏幕区与实时注视数据一起用在作出判定注视状态的判断中。但是，实际上，如果屏幕转变可以在短时间内完成，则在屏幕转变期间可以“冻结”判断结果。换句话说，判断结果将保持与转变前相同直到转变完成。这有助于减轻眼睛不能足够迅速地移动以便在屏幕转变期间跟踪活动节点所引起的问题。

在一些实施例中，可以将核心摄像机34布置(或隐藏)在显示设备31的背面或围绕显示设备31，与活动节点区33接近。为了捕获参与者i的“正看着你”图像，该***加入了引诱参与者i将他的注视固定在活动节点区33上的眼睛注视引导功能。这种眼睛注视引导功能通过将活动节点显示在活动节点区33中以及当新节点被指定成活动节点时移动视图来服务。

在一些情况下，活动节点区33的面积可以比核心区的面积大得多。因此，可以让参与者j的眼睛落在核心区的外面。在这种状况下，即使参与者i正在看着活动节点区33中参与者j的“眼睛”，发送给参与者j的参与者i的图像也可能看起来像参与者i正看着参与者j的脸部的另一个部分，或甚至围绕参与者j的脸部的某个地方。参与者j可能感到缺乏与参与者i的眼睛接触，这种误解可能影响沟通。为了避免这种状况，可以使用计算机程序来自动调整显示的图像，以便显示在活动节点区中的参与者的眼睛保持在核心区中。显示器中的眼睛与核心区的这种自动对准被称为精细注视引导。

可能存在布置在显示设备31后面或围绕显示设备31的其它摄像机。在本文中称为非核心摄像机的这些其它摄像机捕获参与者i的“正看着别处”图像，因为这些摄像机未布置成与活动节点区33-i接近。除非参与者i直接看着非核心摄像机，否则非核心摄像机捕获的图像将是“正看着别处”图像。如下面所述，这些“正看着别处”图像与“正看着你”图像一起用于精确描绘在虚拟空间40中谁正看着谁。

在每台终端上，注视跟踪设备监视来自参与者的眼睛注视，触发中央服务器20作出关于参与者是否正看着节点的判断。可以按预置时间间隔，例如，每隔10毫秒一次地监视输入，并响应于每次输入而作出判断。如果***断定参与者未看着任何节点，则将空节点指定成活动节点。空节点可以是，例如，一个空隙。活动节点不总是对应于参与者实际看着的节点。例如，参与者i可能看了节点j一会，使***将节点j指定成活动节点。如果参与者i迅速看了一下另一个节点，则***可能仍然将节点j指定成活动节点。

中央服务器20协调图像，以便在每台终端上显示不同组的图像(例如，在终端的显示设备上未示出各自终端上的参与者，以及对等参与者的感觉注视角从不同参与者的视角来看可能不同)。此外，中央服务器20能够独立地控制显示在不同终端30上的每个节点的尺寸和位置。例如，如果活动节点对应于投影屏幕，则活动节点区的尺寸可能比活动节点是参与人员时大。

可选地，可以“降级”显示设备31-i的一些部分，以便劝阻参与者i不要看着那个区域。例如，如果参与者之一正在演讲，则可以降级非演讲者的图像，以便鼓励参与者看着演讲者和投影屏幕而不是其他参与者。取决于实施例，可以根据来自终端30的输入来完成和由中央服务器20执行降级。当图像从降级变成非降级时，“恢复”图像。

如图2所示，除了会议区32之外，显示设备31还含有支持区35。支持区35可以显示除了显示在会议区32中的节点图像之外的任何信息。例如，支持区35可以显示控制面板或***配置选项等。在一些实施例中，支持区35示出了在终端上的会议参与者的图像，使人们可以看到自己。这种“自我成像”模式可能是想知道他们在其他人看来是什么样子的参与者所希望的。

图4A和4B描绘了由中央服务器20构成的虚拟空间40的例子。描绘在图4A和4B中的未必是显示在显示设备31上的精确图像，而是如何构建虚拟空间40的例示。在该特定例子中，虚拟空间40具有八个节点：i，j，k，l，m，n，o和p。与各自节点相联系的表示按圆形配置排列着。与节点相联系的表示可以等间隔地相互隔开。节点i，j，l和m含有参与人员(分别是参与者i、参与者j、参与者l和参与者m)。在节点上存在参与者的情况下，“参与者的表示”将是“与节点相联系的表示”。节点k和n是空隙。节点o上的参与者是投影屏幕，节点p上的参与者可以是板面。为了使描述清楚和简单起见，取决于上下文，本文将与节点相联系的表示简称为“节点”或“参与者”。但是，本领域的普通技术人员应当从描述的上下文中知道主体是物理世界中的真正参与者/节点还是参与者/节点的表示。

在一个实施例中，参与者，例如，通过使用与描述在美国专利第7,681,136号中类似的方法在板面上书写。

虚拟空间40被构建成在其中指定所有相关对象的空间位置。相关对象的空间位置与用于捕获图像的摄像机的相对位置密切相关。在每台终端上有选择地显示来自摄像机的图像。使用像调整尺寸和使失真那样的图像的一些操纵，以便合成视图为每个参与者产生相对空间定位的真实感。相对空间定位的这种感觉与反映在图像中的精确感觉注视角结合，将在多方会议***中实现高度的空间忠实性。

图5描绘了当参与者i如图4B所示正看着参与者j时显示在终端30-i上的视图的例子。如前所述，终端30-i上的会议区32-i被布置为像在虚拟空间40中参与者i从他的座位获得的视图。当参与者i以触发活动节点重新指定的方式转移他的注视时，显示设备31-i上的视图发生变化(例如，以图3中所示的方式移动)。例如，如果参与者i想要把他的注视转移到参与者m身上长于片刻(图8)，则参与者m变成活动节点，显示设备31-i上的视图变成如图6所示的那样。

为了引导每个参与者的注视，以这样的方式建立每个参与者前面的视觉显示，即把每个参与者的注视引向预定核心摄像机。通过固定其他摄像机相对于核心摄像机的位置，当把参与者的注视引向核心摄像机时，来自所有摄像机的图像将反映预定感觉注视角。

为了创建描绘在图5和图6中的视图，中央服务器20组合所有参与者的注视状态确定结果，并且像在虚拟空间中从他们各自的位置所看到的那样向每个参与者展示。虽然参与者i的注视状态确定决定哪个节点被显示在活动节点区33-i中，但其他参与者的注视状态确定结果决定如何显示其他参与者(例如，肢体和头部稍转向左侧，肢体和头部转向最左侧等)。在图4B中，参与者i正看着参与者j，但参与者j未向后看着参与者i。而是，参与者j正看着参与者l。参与者i从终端30-i中看到描绘在图5中的视图，它模拟了如果参与者处在真实房间中则他将看到什么。如果参与者i将他的注视转移到参与者m(图8)，则显示在终端30-i上的视图将改变成图6中所示的那样。与人眼通常具有小于180°的水平视角的事实一致，并非所有节点都出现在显示的合成视图中。

为了精确描绘在虚拟空间40中谁正看着谁，***10包括眼睛注视协调(EGC)功能。眼睛注视协调牵涉到捕获反映预定注视角的图像以及合成视图以便精确反映虚拟空间40中不同节点的空间定位。如上所述，在每台终端40上存在非核心摄像机以及核心摄像机。非核心摄像机的位置决定图像中参与者的接收注视角。然后，使用每个节点的正确图像合成虚拟空间40的当前视图。在这个合成过程中，可以操纵不同节点的图像以构建适当传达所希望信息的视图。这样的操纵可以包括调整尺寸、使失真、翻转等。

图7A和7B例示了如何确定注视角。假设在节点k上存在参与者k(例如，产品或人员)。如图7A所示，进一步假设参与者i正看着参与者k，参与者j正看着参与者i。如图7B所示，将如参与者j所感觉到的参与者i的注视角定义成将矢量ij顺时钟旋转到与矢量ik重叠所经过的角度，其中矢量ij从i指向j，矢量ik从i指向k。点i，j和k是相应对象在相同水平面上的投影。为了保持整个空间忠实性，必须高精度地测量感觉注视角。如果只寻求局部空间忠实性，则对感觉注视方向作某种粗略估计可能就足够了。表1示出了如何将感觉注视方向与感觉注视角相关联。由于注视方向的概念本来就缺乏精确性，所以在表1中所示的关系是近似的。

表1：感觉注视角与感觉注视方向之间的关系

如果感觉注视角接近0°或360°，则参与者j将认为参与者i正看着他。如果参与者j被摄像机取代并拍摄参与者i的图像，则该图像将是“正看着你”图像，因为正看着图像的某个人将认为参与者i正看着他(即，所谓的蒙娜丽莎效应)。如果感觉注视角不接近0°或360°，则该图像被叫做“正看着别处”图像。如果感觉注视角接近180°，则该图像是所谓的“完全向后”图像。

在中央服务器20作出它的注视状态确定(谁正看着谁)之后，与注视状态确定相一致地构建虚拟空间40，并将从每个参与者的视角看过去的虚拟空间40的图像发送给各自终端30。虚拟空间40被构建成保持注视角的精确性。在图8中，参与者l和参与者m正看着投影屏幕(节点o)，参与者j正看着参与者l，参与者i正看着参与者m。参与者的肢体取向与这些注视方向一致。在物理空间中的面对面开会中，一个人可以不移动他的肢体地转移他的注视。但是，在虚拟空间40中，肢体取向将随注视方向而变。

图9描绘了如何利用***10传达参与者的注视方向。在真实世界中，可以让参与者仅仅移动他的眼睛(参见图9的左侧)而不移动他的肢体地将他的注视从一个节点转移到另一个节点。在***10中，取决于非核心摄像机的位置，从许多角度捕获参与者的图像。由于EGG功能，参与者的眼睛注视和肢体取向大部分时间是对准的，也就是说，参与者正在向前看，同时肢体朝前。因此，在***10中，参与者被描绘成他们的肢体朝着注视受体地向前看(参见图9的右侧)。

虚拟空间40被构建成参与者似乎坐在固定位置上。换句话说，参与者所坐的次序保持固定。在其他人之中，深度和距离的感觉使用包括添加虚拟对象、调整尺寸或使图像失真等的各种众所周知技术来建立。使用***10的参与者可以将空间定位的一致感觉扩展到整个虚拟会议。如果参与者i看到参与者j正沿着某个方向观看，则***10能够将参与者j与处在那个方向上的人或物体相联系。例如，在图10A、B和C中，如果在参与者j的眼睛中参与者i的感觉注视角是α，则如果合成视图精确反映虚拟空间40中参与者的相对位置，参与者j将能够断定参与者i正看着节点k。

取决于硬件和软件实现，***10可以构建成实现不同程度的空间忠实性，并向参与者传达不同类型/数量的信息。下表2列出了具有不同复杂度的几种***的特征。

表2：具有不同复杂度的***的特征

在N个节点围绕虚圆的满载模式(这里“FLM(N)”)中，如图11所示，每台终端将含有围绕中心点分布的2N台摄像机，该中心点通常是当参与者直立地坐在终端30上时通过其头部的中心的点。参照图11，如果核心摄像机相对于中心原点的角位置是0°时，则其它非核心摄像机将处在(180°/N)*x的角位置上(x是逆时钟计数的0与2N-1之间的数字)。图11中的摄像机从0编号到2N-1。在感觉注视角未达到180°的情况下，可能不需要几乎正好在参与者后面的摄像机N。摄像机可以同时或相继拍摄参与者的图像。

在图11的实施例中，当参与者看着核心区，即，摄像机(0)时，摄像机(x)捕获的图像中的感觉注视角是(180°/N)*x。因此，在N＝3，x＝2和存在六台摄像机的例子中，摄像机(2)捕获的图像中的感觉注视角是(180°/3)*2＝120°。

如上所述，每台终端30可以装备确定参与者正看着哪里的眼睛注视跟踪***。眼睛注视跟踪***还可以提供有关参与者的头部和眼睛的位置的信息，其可以用于处理来自所有摄像机的图像，以便围绕图像中的预指定区域布置参与者的眼睛(或头部)。这将使精细注视引导成为可能，以便使所显示参与者的眼睛保持在核心区域中。只要没有参与者在虚拟会议期间剧烈移动他的头部，预计这种精细注视引导就不会经常发生。

在确定参与者正看着的地方时，要作出判断。表3列出了基于来自眼睛注视跟踪***的输入的眼睛注视判断。

表3：基于来自眼睛注视跟踪***和屏幕的输入的眼睛注视判断

每当眼睛跟踪***返还注视数据时，就可以练习在表3中所示的眼睛注视判断。可以在一秒钟内获取几十个判断结果。中央服务器20将在某个时间帧内处理可用眼睛注视判断结果，以决定哪个节点是活动节点。在一个实施例中，计数在过去的一秒钟内获得特定眼睛注视判断结果的次数，并将获得最多计数的判断指定成当前注视状态。如果在计数中存在并列，则可以像节点k>屏幕之外的眼睛注视>眼睛注视丧失那样指定优先次序。

当参与者j的当前眼睛注视状态是“眼睛注视丧失”时，可以采取如下行动之一：

1.主动通知方法(“ANM”)：降级在除了参与者j之外的其他参与者的显示设备31上示出节点j的区域，以便其他参与者知道参与者j未看着显示器(即，不关注)。在参与者j的显示设备31上将降级整个会议区域，以便警告参与者j他的注视丧失了。在一种情况下，在虚拟空间中，参与者j将被视作好像他正看着正好跨过空间的中心的节点(节点N+1-j)一样。节点N+1-j将被显示在参与者j的屏幕上的活动节点区中。

2.假设节点n是空节点的空节点方法(“NNM”)：每当参与者j的注视丧失时，节点n将被显示在参与者j的活动节点区中。在虚拟空间中，参与者j将被视作好像他正看着节点n一样。对于这种方法，如果参与者盯着非核心摄像机之一，则可能损害相互空间忠实性。

当参与者j的当前眼睛注视状态在会议区之外时，可以采取如下行动之一：

1.眼睛注视不包含任何非核心摄像机。在这种情况下，参与者j的当前虚拟注视点和虚拟关注状态将保持相同。

2.眼睛注视包含一台非核心摄像机。在这种情况下，该状况将被视作眼睛注视丧失了。

在与在图4B中所示的那个类似的虚拟空间中，存在围绕圆圈布置的N个节点，所有节点顺时钟地从1编号到N。如果参与者j正看着节点k(参与者k)，则感觉注视角PGA(i-j-k)用于在虚拟空间40中表示在参与者i的眼睛中参与者j的感觉注视角。表4示出了如何计算感觉注视角以及如何选择捕获反映相应感觉注视角的图像的摄像机。

表4：感觉注视角以及相应摄像机的选择

可以从任何点开始和沿着顺时针方向前进，将数字1，2，3，...，N指定给节点i，j，k等。在表4中，“i<k”意味着围绕会议空间40指定给节点i的数字小于指定给节点k的数字。同样，“j>k”意味着指定给节点k的数字小于指定给节点j的数字。

下表5示出了ANM的一组示范性规则。

表5：决定活动节点和虚拟关注状态的规则(对于ANM)

表6示出了对于NNM的确定活动节点和虚拟关注状态的一组示范性规则。

表6：决定活动节点和虚拟关注状态的规则(对于NNM)

每台终端向中央服务器20报告注视数据，以及中央服务器20将执行规则并决定终端30上的活动节点和虚拟关注状态。

一旦中央服务器20含有活动节点和虚拟关注状态信息，它将决定来自终端的哪个摄像机输入将显示在其它终端上。可以生成表7的矩阵。

表7：摄像机选择矩阵

在表7中，Cji指的是输入将显示在终端30-i上的终端30-j的摄像机编号。如果i＝j，则不需要输入，因为参与者在虚拟空间40中看不到自己。

所有摄像机30将来自摄像机的输入发送给中央服务器20。中央服务器20使用矩阵来合成虚拟视图，并将合成图像发送给每台终端以便加以显示。

取决于使用的硬件和软件，可以在不同程度的忠实性上实现***10。满载模式(FLM)就资源而言是最苛刻的，但可以在虚拟空间中实现相互、局部、和整个空间忠实性。FLM保持所有视角中脸部表情和上身运动所传达的信息。将2N(或如果不使用完全向后图像，则2N-1)台摄像机用于每台终端30，每台终端需要大的物理空间。

图12是总结在工作在FLM下的虚拟会议***中实现ANL、EGG和EGC功能的一般过程的流程图。图12描绘了中央服务器20执行的虚拟会议过程50。该过程要求收集来自所有终端30的活动节点信息(步骤52)。中央服务器20还存取排列虚拟空间中的节点的相对位置(例如，次序)(步骤53)。中央服务器然后决定在虚拟空间中在参与者j的眼睛中其他参与者的感觉注视角(步骤54)。然后，中央服务器20选择适当反映感觉注视角的来自其它终端处的摄像机的适当图像(步骤55)。然后调整图像，例如，调整其尺寸，使其失真，加以装饰等，以便为参与者j提供更舒适视图(步骤56)。然后构建第一人视图(参与者在显示设备上看不到自己)(步骤57)。

图13给出了在图8中所示的虚拟空间40的实施例的情况下图12的虚拟会议过程50的例子。如图8所示，参与者i看着参与者m，参与者j看着参与者l，以及参与者l和m看着节点o处的投影屏幕(收集来自所有终端的活动节点信息，步骤52)。在步骤53中确定节点的相对位置，在该特定例子中，使八个节点均匀地围绕圆圈分布。节点k和节点n是空隙。然后在步骤54中确定感觉注视角。从参与者i的视角来看，参与者j的感觉注视角是247.5°，参与者l的感觉注视角是315°，以及参与者m的感觉注视角也是315°。在步骤55中选择精确反映感觉注视角的来自每台终端的适当图像。然后在步骤56中调整图像，以及在步骤57中向终端i提供图像。

根据终端30上的核心摄像机和非核心摄像机捕获的图像，可以利用计算机程序生成反映额外感觉注视角的图像。例如，如果两台摄像机分别捕获了在0°和30°感觉注视角上的图像，则可以通过计算机生成两个角度之间的感觉注视角的图像。

可以简化***以节省成本，通常通过牺牲空间忠实性和非语言线索，例如，通过实现下面所述的半载模式(HLM)、退化模式(DLM)、和镜面反射。

半载模式(HLM)

当在参与者i的眼睛中参与者j的感觉注视角在90°与270°之间(即，如参与者i所看到那样，参与者j看起来面朝后)时，参与者i看到参与者j的脸部的有限部分。参与者j的大部分上身运动也将被参与者j的背部挡住。实际上，参与者i从参与者j的脸部表情和上身运动中得不出什么信息。

在HLM中，分别如图14和15所示，使用N+1(如果N是偶数)或N(如果N是奇数)台摄像机。每个参与者对于大于90°且小于270°的任何感觉注视角拍摄照片。这可以通过请参与者面对最左边摄像机一次，并让右侧的所有摄像机捕获他的图像，然后请参与者面对最右边的摄像机以便让左侧的所有摄像机捕获图像来完成。在视频会议期间，如果感觉注视角大于90°且小于270°，则将显示相应以前捕获的图像而不是实时视频流。

与FLM相比，HLM保持了局部和整个空间忠实性，但当对等参与者的感觉注视角在90°与270°之间时丧失了脸部表情和上身运动。它需要较少的摄像机以及较小的空间。由于只发送以前捕获的图像一次，所以网络业务量也显著减小。

退化模式(DLM)

为了只保持局部空间忠实性，可以进一步减少摄像机的数量。例如，在显示在图16中的三摄像机设置中，将摄像机分别布置在0°(核心摄像机)、45°、和315°上。两个非核心摄像机在会议期间将产生“左看”和“右看”图像。45°摄像机产生的图像将取代摄像机(x)(其中0<x<N/2)生成的任何图像，315°摄像机产生的图像将取代摄像机(x)(其中3N/2<x<2N)生成的任何图像。与HLM情况类似，将要求每个参与者在会议开始之前拍摄感觉注视角为90°、135°、225°和270°的图像。

与HLM相比，DLM在多数情况下不保持整个空间忠实性。当感觉注视角大于或等于90°且小于或等于270°时也丧失了脸部表面和上身运动。但是，与HLM相比，DLM需要较少(例如，三台)摄像机，以及以显著更低的网络业务量来工作。两台非核心摄像机无需精确处在45°或315°上。也可以将它们布置在其它角度上，只要它们在参与者看着核心摄像机时生成左看和右看图像即可。

镜面反射

图17例示了图像的镜面反射。可以水平“反射”来自任何非核心摄像机的图像以创建对称的镜像。如果图像中的感觉注视角是α，则在镜像中将变成360°-α。表8示出了应该将哪个照片或视频用于显示特定感觉注视角上的视图。表8中的数值是在如下假设下获取的：如果使用镜面反射，则将非核心摄像机布置在小于180°的角位置上。如果在镜面反射模式下将所有非核心摄像机布置在大于180°的角位置上，则保持类似的结果。

表8：在不同操作模式下特定感觉注视角的来源

在表8中，P(A°，B°)指的是在参与者在角度B°上观看的时候来自处在角度A°上的摄像机的、在校准时段期间拍摄的照片。V(A°，B°)指的是在参与者在角度B°上观看的时候来自处在角度A°上的摄像机的、在会议期间拍摄的视频。如果ANL和EGG功能适当地起作用，则B在会议召开期间的大多数时间里将都是0°。P(A°，B°)M和V(A°，B°)M分别指的是水平反映照片或视频。如果N是偶数，则β＝90°，如果N是奇数，则β＝(N-1)/N*90°。

表9和10比较了工作在不同模式下的***的一些硬件和软件实现。图18和表9例示了N是偶数的情况。情况A是总共需要2N-1台摄像机的FLM；将为每个参与者捕获2N-1个视频图像。如果仅使用面朝前视图的视频，则***简化成使用N+1台摄像机的HLM(情况B)。将为每个参与者捕获N+1个视频图像。所需的空间大约是FLM模式下的空间的一半。如果只保持局部空间忠实性，则***简化成需要三台摄像机和为每个参与者捕获三个视频图像的DLM(情况C)。所需的空间显著小于HLM的空间。借助于镜面反射，可以将情况B和C进一步分别简化成情况D和情况E。镜面反射既减少了所需的摄像机的数量又减小了实现***所需的空间量(近似一半)。

图19和表10例示了N是奇数的情况。情况A是总共需要2N-1台摄像机和为每个参与者捕获2N-1个视频图像的FLM。如果使用仅面朝前视图的视频，则***简化成只使用N台摄像机和为每个参与者捕获N个视频图像的HLM(情况B)。所需的空间大约是FLM下的空间的一半。如果只保持局部空间忠实性，则***简化成只使用三台摄像机和为每个参与者捕获三个视频图像的DLM(情况C)。DLM所需的空间相对于HLM所需的空间变化很大。镜面反射既减少了使用的摄像机的数量又减小了实现***所需的空间量(近似一半)。

表9：在不同操作模式下***之间的比较(N是偶数)

表10：在不同操作模式下***之间的比较(N是奇数)

双摄像机模式(DCM)

上面所述的模式试图至少保持局部忠实性。如果希望相互忠实性，则可以进一步简化***。DCM***需要两台摄像机。与DLM(镜面反射)不同，DCM不合成反映虚拟空间的图像，因为不考虑局部或整个空间忠实性。此外，与DLM中不同，在DCM中不总是保持节点定位一致性。简而言之，DCM使用ANL和EGG功能。DCM可以，例如，利用膝上型电脑或智能电话来实现。

图20描绘了DCM下的显示设备31。在这种模式下，将核心摄像机34布置成与屏幕的可视区接近，以保证当参与者正看着核心摄像机附近的屏幕区时，核心摄像机将捕获正看着你图像。可以将非核心摄像机36布置成离屏幕预置距离。

在这种模式下，屏幕上与核心摄像机34接近的小区域是如上所述，用于显示活动节点(通常注视受体)的图像的核心区。将来自其它节点的图像显示在屏幕上的一些其它指定区(非核心区)中。非核心区应该与摄像机34和36分开，以便当参与者正看着非核心区时，他在两台摄像机中表现为正看着别处。为了能够实现使用像演示投影屏幕或白板那样的共享平台的合作，将非核心区之一指定成将显示投影屏幕或白板的共享区(图20中的节点i₈)。

在自动检测模式下，眼睛注视跟踪***可以用于检测参与者正看着哪一节点/区域。在人工干预的DCM下，屏幕上只有一个区域在任何给定时刻都不降级。在视频会议期间，在没有来自输入设备的任何主动干扰的情况下，取决于参与者的选择，不降级核心区或共享区。由于其他区域降级了，因此参与者使用输入设备来指示***恢复他想要观看的另一个区域。例如，参与者可以使用鼠标来移动屏幕上的光标。如果光标停留在某个区域中长于预定时间长度，则将相应节点指定成活动节点。如果那个活动节点是参与人员，则将该节点显示在核心区中，并恢复核心区。相应地移动其他节点。如果那个活动节点是像投影屏幕或白板那样的共享平台，则恢复共享区。

在每台终端30上，连续地监视屏幕的状态和来自人工干预的输入。根据反馈，***将选择要显示在其他参与者的屏幕上的来自摄像机之一的图像。

表11：在双摄像机模式下摄像机的选择

当***依靠ANL的人工干预时，在表11中的如下两种情形下可能损害相互忠实性：

1.在表11的A，B，C，D和H情况下的参与者j与参与者k之间，每当参与者j观看非核心摄像机时，参与者k就不正确地认为参与者j正看着他。

2.在表11的E情况下的参与者j与参与者k之间，参与者j正看着参与者i，但核心摄像机和非核心摄像机都未捕获正看着你图像。

由于通过设计使非核心摄像机远离任何有意义显示内容，所以情形1不可能经常出现。预计情形2在转变期间经常出现。但是，由于转变时段较短，所以相互忠实性的损害是短暂的。

尽管DCM未设计成提供局部和整个空间忠实性，但可以将一些改进加入***中，以便利用来自终端30的ANL信息揭示谁正看着谁。例如，每当节点被恢复时就可以显示文本，以示出相应参与者正看着哪一节点。

图21是描绘依照本发明的DCM虚拟会议过程60的流程图。在该过程中，中央服务器20收集来自所有终端的活动节点信息(步骤62)。中央服务器20判定节点之间的相互注视状态(步骤63)，然后取决于哪个输入更精确地描绘相互注视状态，选择来自其他终端处的核心摄像机或非核心摄像机的相应输入(步骤64)。然后将所选图像显示在终端j上(步骤65)。可以应用诸如降级、闪光等的图像效果。

在活动节点暗示(ANH)方法中，引入叫做“闪光”的新显示状态，以指示在“降级”模式与“恢复”模式之间的转变。当一个区域“正在闪光”时，最初以具有某种特殊效果(例如，额外照明、闪烁等)的正常显示质量显示，然后使图像逐渐衰减成降级状态。使闪光持续一段短时间，以便参与者能够把注意力放在恢复节点上。

如果预计参与者在任何特定时刻都只看着一个对象，则在每台终端上，在屏幕上应该存在不多于一个的、处在闪光状态下的区域。如果***决定开始在另一个区域中闪光，则在一个区域中的闪光将结束。

每当恢复节点是无生命节点时，或如果恢复节点中的参与者正看着参与者j，则不激活ANH。“无生命节点”可以是像投影屏幕、白板、空位等那样的对象。在ANH中，在如下状况下可能在参与者j的屏幕上发生闪光：

1.当节点i被恢复(k是参与者i的屏幕上的恢复节点)且j≠k时，节点k将闪光。

2.当前恢复的节点是i。每当参与者i的屏幕上的恢复节点切换到新节点k且j≠k时，节点k将闪光。

3.当前恢复的节点是i，k是参与者i的屏幕上的恢复节点且j≠k。每当参与者向***发出进行闪光的信号时，节点k将闪光。

每当参与者i恢复节点时，ANH使参与者j能够知道参与者i正看着谁。如果恢复区域中的对等参与者切换焦点，则通知主参与者。还允许主参与者主动地获取恢复区中有关在对等参与者的恢复区中显示着谁的信息。

ANH使参与者能够知道其他对等参与者的活动节点。参与者可能想获取的另一个有用信息是“谁正看着我”。为了实现这个目的，可以利用，例如，小标志图标、不同彩色边界等将相应对等参与者正看着参与者j的区域标记成与其他区域不同。

混合模式(MXM)

可以将上述操作模式的一些合并到单个***中。在示范性混合模式(MXM)***中，一些终端装备了运行FLM的硬件和软件，而其他终端装备了运行DCM的硬件和软件。在如下讨论中，“FLM参与者”指的是在FLM模式下操作的参与者，“DCM参与者”指的是在DCM模式下操作的参与者。

为了将两种模式合并到单个***中，对FLM终端作一些修改。具体地说，如图22所示，将FLM终端处的屏幕修改成将会议区划分成FLM和DCM区。可以在虚拟空间中为FLM预留空隙，以便为看着DCM参与者的任何FLM参与者建立注视方向。对于DCM参与者，所有FLM参与者将出现在屏幕上，就好像他们是DCM参与者一样。将来自每个FLM参与者的核心摄像机和非核心摄像机图像发送给DCM参与者。

对于任何FLM参与者，所有其他FLM参与者以与它们在纯FLM模式下相同的方式出现在屏幕上。如果任何FLM参与者看着DCM参与者，则他将被示出在其他FLM参与者的屏幕上，就好像正看着空隙一样。所有DCM参与者将出现在DCM会议区中。如果DCM参与者看着FLM参与者，则在FLM参与者的屏幕上示出DCM参与者的正看着你图像。否则，示出正看着别处图像(参见表12)。

表12：在混合模式下的感觉注视角和注视方向

多行模式(MRM)

背景提取技术可以用于提取或切取参与者的图像。这样，可以消除像家具、墙壁上的装饰物等那样的背景图像。这种技术使得有可能叠加图像来创建多行虚拟空间。由于在这种模式下不保存图4中所示的圆形会议表的几何结构，所以可能不得不调整每台终端处的摄像机的数量，以便当实现空间忠实性时达到高分辨率。

动态退化模式(DDM)

上面所述的操作模式假设了参与者保持在虚拟空间40中的相同虚拟地点上。在DDM中，这种假设不再成立。在DDM中，围绕圆圈的参与者的相对位置(例如，次序)在整个会议期间仍然保持不变。但是，动态地调整相邻参与者之间的距离。如本文所使用，“动态地”旨在表示实时(例如，每当作出判断时，当活动节点发生变化时，当注视受体发生变化时)，因为要为显示生成图像。例如，如果假设参与者j坐在参与者i与参与者k之间，则参与者j将在任何终端(除了未示出参与者j的终端j之外)处的显示器上被显示成坐在参与者i和k之间。但是，取决于特定终端和注视信息，参与者j可以坐得更远离参与者i或更接近参与者i。

在图23A的示范性实施例中，存在八个节点：节点i，j，k，l，m，n，o和p。在DDM中，该布局可以随终端而变，即使对于相同终端，该视图也可以随注视信息而变。在图23A中，参与者i正看着参与者k，参与者j正看着参与者i，参与者k正看着参与者l，参与者l正看着参与者k。参与者m正看着节点l以及参与者n正看着参与者o。在DDM中，作出动态调整，以便该布局与活动节点中的对等参与者的感觉注视角一致。反映图23B的布局的合成视图显示在终端i上，反映图23C的布局的合成视图显示在终端j上。在DDM中，使用了三台摄像机(一台核心摄像机和两台非核心摄像机)。其结果是，对于每个参与者，将捕获反映三个注视角(α、0°、和360°-α)的视频。在八个节点的情况下，可能无法利用三台摄像机实现整个注视忠实性。摄像机的定位将决定摄像机捕获的图像中参与者的感觉注视角，这些感觉注视角将支配动态布局。作为一个例子，在如下讨论中使用60°的α值。

动态调整布局的目的是保证活动节点上的对等参与者的整个注视忠实性。对于所有其他参与者来说，可以达到局部注视忠实性。如果活动节点中的对等参与者未看着主参与者，如果活动节点中的对等参与者向左看(即，感觉注视角是300°)，则将活动节点中的对等参与者正看着的节点布置在虚拟空间中假想圆上主参与者右边30°的点上。角度30°是相对于将主参与者的位置与假想圆的中心连接的假想线定义的。另一方面，如果活动节点中的对等参与者未看着主参与者，而是向右看(即，感觉注视角＝60°)，则将活动节点中的对等参与者正看着的节点布置在虚拟空间中圆上主参与者左边30°的点上。活动节点中的对等参与者的定位更加灵活。但是，在简单实施例中，可以将活动节点中的对等参与者定位成主参与者、活动节点中的对等参与者、和活动节点中的对等参与者正看着的节点在虚拟空间中形成等边三角形。然后，所有其他节点可以不改变他们的相对位置地“挤压”到其余空间中。图24和图25分别示出了对于在图23B和23C中描述的情况的参与者i和参与者j的合成视图。在图23B中，参与者i是主参与者，而在图23C中，参与者j是主参与者。在图24和图25中，为“挤压”节点保持了局部注视忠实性。

如果***确定活动节点中的对等参与者正看着主参与者，则状况将比上述的状况更简单。因为活动节点中的对等参与者的注视受体是主参与者，所以除了动态布局应该保证参与者之间的相对位置是一致的之外没有特别限制。

一般说来，如果以如图26A所示，捕获反映三个注视角(α、0°和360°-α)(0°<α<90°)的图像的方式布置摄像机，则如果活动节点中的对等参与者未看着主参与者，虚拟布局将遵循在图26B和26C中描绘的那样。如图26B所示，如果活动节点中的对等参与者向左看(即，感觉注视角＝360°-α)，则将活动节点中的对等参与者正看着的节点布置在虚拟空间中圆上主参与者右边90°-α的点上。角度90°-α是相对于将主参与者的位置与假想圆的中心连接的假想线定义的。类似地，如图26C所示，如果活动节点中的对等参与者向右看(即，感觉注视角＝α)，则将活动节点中的对等参与者正看着的节点布置在虚拟空间中圆上主参与者左边90°-α的点上。活动节点中的对等参与者的定位更加灵活，只要参与者之间的相对位置保持一致即可。然后，所有其他节点可以使参与者之间的相对位置保持一致地“挤压”到其余空间中。

本发明的实施例以及描述在本说明书中的所有功能操作可以在数字电子线路中，或在包括公开在本说明书中的结构和它们的结构等效物的计算机软件、固件、或硬件中，或在它们的一个或多个的组合体中实现。本发明的中央服务器可以实现成包括处理器和存储器的计算机硬件与一个或多个计算机程序产品，即，编码在计算机可读存储介质上供数据处理装置执行或控制数据处理装置的操作的计算机程序指令的一个或多个模块的组合体。

计算机程序(也称为程序、软件、应用软件、脚本或代码)可以用包括编译或解释语言的任何形式编程语言编写，并且可以以任何形式部署，包括部署成独立程序或部署成模块、组件、子例程、或适合用在计算环境中的其他单元。计算机程序未必对应于文件***中的文件。一个程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于所涉及的程序的单个文件中，或存储在多个协作文件(例如，存储代码的一个或多个模块、子程序、或部分的文件)中。计算机程序可以被部署成处在一台计算机上或在一个地点上或分布在多个地点上并通过通信网络互连的多台计算机上执行。

描述在本说明书中的过程和逻辑流程可以由执行一个或多个计算机程序以便通过操作输入数据和生成输出执行功能的一个或多个可编程处理器执行。过程和逻辑流程也可以由专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行，以及装置也可以实现成专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合执行计算机程序的处理器包括，举例来说，通用和专用两者的微处理器、和任何类型数字计算机的任何一个或多个处理器。一般说来，处理器接收来自只读存储器或随机访问存储器，或两者的指令和数据。计算机的基本元件是执行指令的处理器和存储指令和数据的一个或多个存储器件。一般说来，计算机还包括存储数据的一个或多个大容量存储设备，例如，磁盘、磁光盘、或光盘，或可操作地耦合成从其接收数据，向其发送数据，或两者。但是，计算机无需含有这样的设备。此外，可以将计算机内置在另一个设备，例如，移动电话、个人数字助理(PDA)、移动音频播放器、全球定位***(GPS)等中。适当存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器件，举例来说，包括半导体存储器件，例如，EPROM、EEPROM、和闪速存储器件；磁盘，例如，内部硬盘或可换式盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以通过专用逻辑电路补充，或并入专用逻辑电路中。

为了提供终端30之间的交互，本发明的实施例可以使用含有向参与者显示信息的显示设备，例如，CRT(阴极射线管)、LCD(液晶显示器)、投影屏幕、OLED显示器、3D显示器等的计算机来实现。还提供了会议参与者可以向计算机提供输入的键盘和指向设备，例如，鼠标和跟踪球。其他类型的设备也可以用于提供与参与者的交互；例如，提供给演说者的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；以及可以以任何形式接收来自演说者的输入，包括声音、语音、脑电波、其他生理输入、眼球运动、手势、肢体运动、或触觉输入。

本发明的实施例可以在计算***中实现，该计算***包括后端组件，例如，作为中央服务器20，包括中间组件，例如，应用服务器，包括前端组件，例如，含有演说者可以与本发明的实现交互的图形用户界面或万维网浏览器的终端30上的计算机，或包括一个或多个这样的后端、中间、和前端组件的任何组合体。***的组件可以通过任何形式或介质的数字数据通信，例如，通信网络互连。通信网络的例子包括局域网(“LAN”)和广域网(“WAN”)，例如，互联网。

虚拟会议***10可以包括客户机和服务器。客户机和服务器一般相互远离，通常通过通信网络交互。在上面展示的示范性实施例中，终端30可以是“客户机”类型的。客户机和服务器的关系通过运行在各自计算机上和相互具有客户机-服务器关系的计算机程序建立起来。

虽然本说明书包含许多细节，但这些细节不应该理解为限制本发明的范围或可以要求保护的范围，而是作为对本发明的特定实施例特有的特征的描述。在独立实施例的背景下描述在本说明书中的某些特征也可以在单个实施例中以组合形式实现。相反，在单个实施例的背景下描述的各种特征也可以独立地或以任何适当分组合的形式在多个实施例中实现。此外，尽管上面可能将一些特征描述成以某种组合形式起作用和甚至最初要求这样，但所要求组合当中的一种或多种特征在一些情况下可以从该组合中分割出来，以及所要求组合可以针对分组合或分组合的变种。

类似地，虽然在附图中按特定次序描绘这些操作，但不应该将此理解为要求按所示的特定次序或顺序地执行这样的操作，或执行所有例示的操作来获得所希望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，在上述的实施例中各种***部件的分开不应该理解为在所有实施例中都要求这样分开，而应该理解为所述的程序组件和***一般可以一起集成在单个软件产品中或包装成多个软件产品。

应该明白，可以在所附权利要求书的精神和范围内加以修改和变更地实施本发明。本描述无意成为穷尽的或使本发明局限于所公开的确切形式。应该明白，可以加以修改和变更地实施本发明。

Claims

1.一种在第一节点、第二节点和第三节点之间召开虚拟会议的计算机实现方法，包含：

从第一节点接收指示与第一节点相联系的第一参与者的注视受体的输入，其中该注视受体与第二和第三节点之一相联系；

构建按预定次序布置第一参与者、与第二节点相联系的第二参与者、和与第三节点相联系的第三参与者的表示的虚拟空间；

根据虚拟空间中第一参与者的注视受体的表示的位置确定虚拟空间中第一参与者的第一注视角；以及

生成要发送给第二节点的图像，其中该图像包括如从虚拟空间中第二参与者的位置所看到那样，在虚拟空间中正看着他的注视受体的第一参与者。

2.如权利要求1所述的方法，其中生成所述图像包含调整所述图像中第一参与者与第一参与者的注视受体之间的距离。

3.如权利要求2所述的方法，其中第一参与者的注视受体是第三参与者，以及其中该调整包含如果第一参与者向右看，则在虚拟空间中相差角度α地将第三参与者的表示布置在第二参与者的表示的左边，其中0°<α<90°并且α是相对于第二参与者的表示与第一、第二和第三参与者的表示所在的假想圆的中心之间的假想线测量的。

4.如权利要求2所述的方法，其中第一参与者的注视受体是第三参与者，并且其中该调整包含如果第一参与者向左看，则在虚拟空间中相差角度α地将第三参与者的表示布置在第二参与者的表示的右边，其中0°<α<90°并且α是相对于第二参与者的表示与第一、第二和第三参与者的表示所在的假想圆的中心之间的假想线测量的。

5.如权利要求2所述的方法，其中第一参与者的注视受体是第三参与者，并且其中将第一参与者、第二参与者、和第三参与者的表示布置在虚拟空间中形成等边三角形。

6.如权利要求1所述的方法，其中该生成包含：

从不同角度获取第一参与者的图像；以及

选择适当地将第一参与者描绘为在虚拟空间中看着他的注视受体的图像之一。

7.如权利要求6所述的方法，其中该获取包含利用相对于第一参与者处在预定位置上的多台摄像机捕获第一参与者的图像。

8.如权利要求7所述的方法，其中所述捕获是多台摄像机同时完成的。

9.如权利要求1所述的方法，其中该接收来自第一参与者的输入包含：

经由注视跟踪机构跟踪第一参与者的注视，以确定第一参与者正看着显示设备的哪个区域；以及

确定第二和第三参与者的哪一个正被显示在显示设备的该区域中。

10.如权利要求9所述的方法，进一步包含：

将注视受体的图像提供给显示设备以便显示在显示设备的活动节点区中；以及

从核心摄像机接收第一参与者的正看着你图像。

11.如权利要求10所述的方法，其中该核心摄像机在活动节点区中或接近活动节点区。

12.如权利要求10所述的方法，进一步包含一旦从第一参与者接收到指示注视受体发生变化的另一个输入，就将新注视受体显示在活动节点区中。

13.如权利要求12所述的方法，其中另一个注视受体在活动节点区中的显示包含移动虚拟空间的图像。

14.如权利要求1所述的方法，进一步包含通过执行调整尺寸、使失真、和将元素添加到图像的一部分中的一种或多种来调整图像。

15.如权利要求1所述的方法，其中排列第一、第二和第三参与者的表示的次序保持不变。

16.一种召开包括第一节点和第二节点的虚拟会议的计算机实现方法，其中第一节点与看着第一注视受体的第一参与者相联系，第二节点与看着第二注视受体的第二参与者相联系，包含：

从第一节点接收指示第二参与者是第一注视受体的输入，其中将第二参与者显示在第一节点处的第一显示设备上；

通过使用与显示在第一显示设备上的第二参与者的图像对准的成像设备获取第一参与者的正看着你图像；以及

将第一参与者的正看着你图像发送到第二节点。

17.如权利要求16所述的方法，进一步包含降级除了图像中的第一参与者注视受体之外的其他参与者的图像，以便鼓励第一参与者看着活动节点区。

18.如权利要求16所述的方法，进一步包含一旦从第一参与者接收到注视受体改变成第三参与者的输入，就将第三参与者的图像提供给第一显示设备与成像设备对准的部分。

19.如权利要求18所述的方法，其中该输入是从眼睛注视跟踪设备接收的。

20.如权利要求18所述的方法，进一步包含提供第一参与者的图像以便显示在第二节点处的第二显示设备上，该第一参与者沿着图像中第一参与者的注视受体的方向观看。

21.一种在第一节点与第二节点之间召开虚拟会议的计算机实现方法，包含：

接收从不同角度捕获的第一参与者的图像，该第一参与者与第一节点相联系；

构建按预定配置布置第一参与者和第二参与者的表示的虚拟空间，其中第二参与者与第二节点相联系；

从第一节点接收有关第一参与者的注视受体的输入；

选择描绘如从虚拟空间中第二参与者的视角所看到那样，在虚拟空间中正看着注视受体的第一参与者的图像之一；以及

将所选的一个图像提供给第二节点。

22.如权利要求21所述的方法，其中该图像由直接布置在第一参与者的前面的核心摄像机和相对于核心摄像机成角度α布置的非核心摄像机捕获，其中0°<α<90°。

23.一种在多个节点之间召开虚拟会议的计算机实现方法，其中节点之一与主参与者相联系，而其他节点分别与对等参与者相联系，包含：

构建按预定次序布置主参与者和对等参与者的表示的虚拟空间；以及

将虚拟空间的图像提供给与主参与者相联系的节点，其中动态地调整图像以便取决于主参与者的注视受体是谁而包括虚拟空间的不同部分。

24.如权利要求23所述的方法，其中进行该图像的动态调整以便将主参与者的注视受体显示在显示设备的活动节点区中。

25.一种虚拟会议***，包含：

中央服务器；

主终端，其被配置成向该中央服务器报告主参与者的第一注视受体，并且发送从不同角度捕获的主参与者的图像；以及

对等终端，其被配置成向该中央服务器报告在对等终端上的各自对等参与者的注视状态，并且向该中央服务器发送从不同角度获得的对等参与者的图像，

其中该中央服务器被配置成构建按已知配置布置主参与者和对等参与者的表示的虚拟空间，以及从主参与者的视角生成图像，其中该图像描绘在虚拟空间中沿着他们各自注视受体的方向观看的对等参与者。