CN113632458A

CN113632458A - 广角相机透视体验的***、算法和设计

Info

Publication number: CN113632458A
Application number: CN202080012363.0A
Authority: CN
Inventors: 周昌印
Original assignee: See Technology Hangzhou Co ltd
Current assignee: See Technology Hangzhou Co ltd
Priority date: 2019-02-05
Filing date: 2020-02-05
Publication date: 2021-11-09
Also published as: US20200252585A1; WO2020163518A1

Abstract

本公开涉及用于提供视觉传送窗的方法和***。示例***包括广角相机、显示器和控制器。控制器包括至少一个处理器和存储器。至少一个处理器执行存储在存储器中的指令以执行操作。该操作包括接收远程视口信息。视口信息指示远程用户的至少一只眼睛相对于远程显示器的相对位置。该操作还包括使广角相机捕获***的环境的图像。该操作还包括基于视口信息和关于远程显示器的信息，裁剪和投影图像以形成帧。该操作还包括传输帧以在远程显示器处显示。

Description

广角相机透视体验的***、算法和设计

对相关申请的交叉引用

本申请是要求2019年2月5日提交的美国专利申请第62/801,318号的优先权的专利申请，通过引用将该专利申请的内容并入本文。

背景技术

常规的视频会议***包括在两个物理上分开的位置的相机和麦克风。常规视频会议的参与者通常可以看到从其他位置传输的视频图像和音频。在某些情况下，一个或两个参与者可以使用水平移动(pan)、垂直移动(tilt)、变焦(zoom)(PTZ)控件来控制给定的相机。

然而，常规视频会议中的参与者并不觉得他们在物理上处于同一个房间(在另一位置)。因此，需要提供真实的视频会议体验的通信***和方法。

发明内容

本文公开的***和方法涉及视觉“传送(teleport)”窗，其可以向观看者提供观看另一位置中的地点的观看体验，就像观看者正在通过物理窗观看一样。类似地，该***和方法可以使得位于不同位置的两个房间中的两个人看到彼此并相互交互，就像通过物理窗一样。

在一个方面，提供了一种***。该***包括本地视口和控制器。本地视口包括相机和显示器。控制器包括至少一个处理器和存储器。至少一个处理器执行存储在存储器中的指令以执行操作。该操作包括接收远程视口信息。视口信息指示远程用户的至少一只眼睛相对于远程显示器的相对位置。该操作还包括使相机捕获本地视口的环境的图像。该操作还包括基于视口信息和关于远程显示器的信息裁剪和投影图像以形成帧。该操作还进一步包括传输帧以在远程显示器处显示。

在另一方面，提供了一种***。该***包括第一观看窗和第二观看窗。第一观看窗包括被配置为捕获第一用户的图像的第一相机。第一观看窗还包括第一显示器和第一控制器。第二观看窗包括被配置为捕获第二用户的图像的第二相机。第二观看窗还包括第二显示器和第二控制器。第一控制器和第二控制器通过网络通信联接。第一控制器和第二控制器各自包括至少一个处理器和存储器。至少一个处理器执行存储在存储器中的指令以执行操作。该操作包括基于第一用户相对于第一显示器的眼睛位置来确定第一视口信息。该操作还包括基于第二用户相对于第二显示器的眼睛位置来确定第二视口信息。

在另一方面，提供了一种方法。该方法包括从远程观看窗接收远程视口信息。远程视口信息指示远程用户的至少一只眼睛相对于远程显示器的相对位置。该方法包括使本地观看窗的相机捕获本地观看窗的环境的图像。该方法还包括：基于远程视口信息和关于远程显示器的信息，裁剪和投影图像以形成帧。该方法还包括传输帧以在远程显示器处显示。

在另一方面，提供了一种方法。该方法包括使第一相机捕获第一用户的图像。该方法还包括基于捕获的图像确定第一视口信息。第一视口信息指示第一用户的至少一只眼睛相对于第一显示器的相对位置。该方法还包括从第一控制器向第二控制器传输第一视口信息。该方法还进一步包括从第二控制器接收由第二相机捕获的至少一个帧。基于第一视口信息裁剪和投影由第二相机捕获的至少一个帧。该方法还包括在第一显示器上显示至少一个帧。

在另一方面，提供了一种***。该***包括用于执行本文描述的其他各个方面的操作的各种装置。

通过阅读以下详细描述并适当地参考附图，这些以及其他实施例、方面、优点和替代方案对于本领域普通技术人员将变得显而易见。此外，应当理解，本文提供的该概述以及其他描述和附图旨在仅通过示例的方式来说明实施例，并且因此，许多变化是可能的。例如，结构元件和工艺步骤可以重新排列、组合、分布、消除或以其他方式改变，同时保持在所要求保护的实施例的范围内。

附图说明

图1A示出了根据示例实施例的观看者观察以头部相关透视(head-coupledperspective，HCP)呈现的3D影像的场景。

图1B示出了根据示例实施例的具有远程存在操作员和代理机器人(surrogaterobot)的场景。

图1C示出了根据示例实施例的360°虚拟现实相机和带有虚拟现实头戴式视图器的观看者。

图1D示出了根据示例实施例的远程呈现会议。

图2示出了根据示例实施例的***。

图3A示出了根据示例实施例的***。

图3B示出了根据示例实施例的***。

图4是根据示例实施例的信息流的图。

图5A是根据示例实施例的信息流的图。

图5B是根据示例实施例的信息流的图。

图6示出了根据示例实施例的***。

图7示出了根据示例实施例的方法。

图8示出了根据示例实施例的方法。

具体实施方式

本文描述了示例方法、设备和***。应当理解，“示例”和“示例性”在本文中用于表示“作为示例、实例或说明”。在本文中被描述为“示例”或“示例性”的任何实施例或特征不必被解释为优于其他实施例或特征或比其他实施例或特征有利。在不脱离本文呈现的主题的范围的情况下，可以利用其他实施例，并且可以做出其他改变。

因此，本文描述的示例实施例并不意味着是限制性的。在本文中一般地描述且在图中示出的本公开的各方面可以以多种不同的配置进行布置、替换、组合、分离和设计，所有这些都在本文中被考虑。

此外，除非上下文另有说明，否则每个附图中所示的特征可以相互组合使用。因此，应将附图大体上视为一个或多个整体实施例的组成方面，应理解并非所有图示的特征对于每个实施例都是必需的。

一、概述

本文描述的***和方法涉及允许一个人体验(例如，观察和听到)处于另一位置中的地点的视觉传送窗(visual teleport window)，就好像通过打开的物理窗一样。一些实施例可以允许在不同位置的两个人看到彼此，就像透过这样的物理窗看到一样。通过在窗周围或近或远物理地移动，一个人可以看到在其他位置的视场中的不同角度的区域，反之亦然。传送窗***在每个物理位置包括一个常规显示器、一个广角相机和计算机***。在一些实施例中，多个相机(例如，广角相机和多个窄角/摄远(telephoto)相机)可以与各种***和方法实施例一起使用。例如，如果使用多个相机，则可以使用视图插值算法使用来自多个相机视图的图像信息和/或基于相机的相对空间布置来合成来自特定视点(例如，显示器的中心)的视图。视图插值算法可以包括立体视觉插值算法、像素分割/重建算法或其他类型的多相机插值算法。该***和方法可以利用被配置为维持实时渲染的硬件和软件算法，以使虚拟窗体验尽可能真实。本文描述了各种***和方法实施例，其可以通过模拟通过打开的窗或虚拟门户交互的体验来改善用户之间的通信和交互。

二、与常规方法的比较

A.头部相关透视(HCP)

头部相关透视是一种在2D显示设备上显示3D影像的方式。图1A示出了根据示例实施例的场景100，其中观看者观察以头部相关透视(HCP)呈现的3D影像。场景在2D屏幕上的透视基于各个用户眼睛的位置，从而模拟3D环境。当用户移动他们的头部时，3D场景的透视会发生变化，从而产生透过窗看向场景的效果，而不是看场景的平坦投影。

在本文描述的本***和方法中，不是显示3D影像，可以利用用户的眼睛注视位置和/或头部位置来控制广角相机和/或来自在其他物理位置的广角相机的图像。此外，本***将来自多个物理位置的多个显示和捕获***联接在一起以实现透视和面对面的通信体验。

B.远程存在(Telexistence)

远程存在使人类能够具有身处他或她实际存在的地方之外的地方并且能够与远程环境交互的实时感觉，该远程环境可以是真实的、虚拟的或两者的组合。远程存在还涉及一种高级型远程操作***，其使操作员能够灵巧地执行远程任务，感觉就像存在于在远程环境中工作的代理机器人中一样。图1B示出了根据示例实施例的具有远程存在操作员和代理机器人的场景102。

C.360°VR实时流式传输

360°VR实时流式传输包括在事件地点使用一个或多个360°VR相机捕获视频或静态图像。360°VR视频信号可以实时流式传输到不同位置的观看者。观看者可以佩戴VR头戴式视图器来观看事件，就像他或她身处事件地点的(一个或多个)VR相机的位置一样。图1C示出了根据示例实施例的360°虚拟现实相机和带有虚拟现实头戴式视图器的观看者。

360°VR实时流式传输方法通常使用单向信息流实现。也就是说，360°视频仅传输到观看者的位置。即使设置另一VR相机同时在相反方向上传输实时流内容，体验往往也不尽如人意，原因至少是观看者佩戴着VR头戴式视图器，其既不方便，又在传输的实时流中遮挡用户的面部。

D.远程呈现会议

在其他常规的远程呈现会议中，器具、显示器和相机的物理布置可以以会议参与者感觉所有参与者都在一个房间内的方式进行调整。然而，这样的***可能需要复杂的硬件设置以及需要不灵活的房间器具布置。图1D示出了根据示例实施例的常规远程呈现会议108。

E.基于跟踪的视频会议

在一些情况下，视频会议***可以跟踪对象(例如人)，然后应用数字(或光学)变焦(或水平移动)，使得人在对方侧被自动保持在显示的图像内。

三、示例***

图2示出了根据示例实施例的***200。***200可以被描述为视觉传送窗(VTW)。VTW***将在两个不同物理位置的人连接起来。在每个物理位置，***200的相应部分包括广角相机、显示器和计算机***。广角相机可以通过WiFi连接、USB、蓝牙、SDI、HDMI或MIPI线路连接到计算机***。广角相机和计算机***之间的有线连接也是预期和可能的。在一些实施例中，广角相机可以提供120°到180°(在方位角和/或仰角上)之间的视场。然而，其他类型的相机，包括水平移动-垂直移动-变焦(PTZ)相机和/或360°VR相机也是可能并且预期的。如本文别处所述，***200可附加地或替代地包括多个相机，其可包括广角相机和/或窄角相机(例如，具有摄远或变焦镜头)。作为示例，该多个相机可以沿着显示器的左侧/右侧、沿着显示器的顶侧/底侧、在显示器四侧中的每一个处或在显示器的四个角中的每一个处或在相对于显示器的其他位置处定位。在一些实施例中，一个或多个相机可以位于显示区域内。例如，显示器可以包括宽屏显示器并且一个或多个面向外的相机可以布置在宽屏显示器的显示区域内。具有其他视场和各种相对空间布置的相机也是预期和可能的。显示器可以通过无线播送(Wireless cast)或有线(例如，HDMI)连接到计算机***。***200的两个部分的计算***通过通信网络(例如，互联网)连接。

图2左侧和右侧的VTW***200的两个部分(例如，观看窗210和观看窗220)通过网络连接。观看窗210(在A侧)向位于B侧的观看窗220发送其视口(viewport)信息(例如，从A侧的观看者的眼睛到视觉窗的视角)。观看窗220(在B侧)可以捕获并基于从VTW***的第一部分(在A侧)接收的视口信息发回对应的帧(和/或视频流)。帧可以由在A侧的***显示，并且观看者将有一种透过窗看到B侧的环境的印象。

图3A示出了根据示例实施例的***300。***300可以与***200相似或相同。图3A示出了A侧观看窗210的观看者如何观察B侧的观看窗220的环境的信息流。VTW***300可以包括同时的、双向信息流，使得两侧的参与者实时看到彼此并彼此进行交互。

每侧的计算机***通过相机或单独的图像传感器检测并跟踪观看者的眼睛。例如，相机(例如，广角或PTZ相机)可以用于以下双重目的：1)捕获用户环境的图像帧；和2)基于捕获的图像帧，检测用户(一只或两只)眼睛的位置以进行视口估计。附加地或替代地，在示例实施例中，单独的图像传感器可以被配置为提供指示观看者眼睛的位置和/或他们从该位置的注视角的信息。基于显示器和观看者的眼睛位置的相对位置和/或从第一位置的注视角，计算机***可以确定相机应当在第二位置捕获的视口。

在每一侧，在运行时间之前，计算机***可以接收和/或确定各种内在和外在相机校准参数(例如，相机视场、相机光轴等)。计算机***还可以接收和/或确定显示器大小、取向和相对于相机的位置。在运行时间时，计算机***通过相机或另外的图像传感器检测并跟踪观看者的眼睛。基于显示器位置和眼睛位置，计算机***确定相机应当在其他位置捕获的视口。

在VTW***的每一侧，计算机***获得从对方位置接收的实时视口信息。然后，视口信息被应用到广角相机(和/或由广角相机捕获的图像)，并且来自广角图像的对应区域被投影到与在其他位置的显示器的纵横比对应的矩形中。然后，将捕获的帧传输到其他位置并显示在该侧的显示器上。这提供了一种“透视(seeing through)”显示器的体验，就好像观看者的眼睛位于另一侧的相机的位置处。

图3B示出了根据示例实施例的***320。***320包括具有多个相机的观看窗220。在接收实时视口信息时，***320可以返回来自单个广角相机的视图，如先前示例中所述。附加地或替代地，在接收实时视口信息时，***320可以基于来自多个相机的图像信息及其相应视场提供合成视图。例如，如图3B中所示，***320可以基于沿着观看窗220的远程显示器的顶侧、底侧、左侧和右侧定位的四个相机提供合成视图。在这样的场景中，观看窗210的显示器可以向观看者提供合成视图。在一些实施例中，提供给观看者的合成视图可以看上去来自位于观看窗220的中心、远程显示器的显示区域内的别处或另一位置的相机。

如本文别处所述，视图插值算法可以用于使用来自多个相机视图的图像信息和/或基于相机的相对空间布置提供来自特定虚拟视点(例如，远程显示器的中心)的合成视图。视图插值算法可以包括立体视觉插值算法、像素分割/重建算法或其他类型的多相机插值算法。

图4是根据示例实施例的信息流400的图。信息流400包括VTW***(例如，如参考图2所示出和描述的***200)，其中，***的不同部分(例如，观看窗210和观看窗220)分别位于A侧(在顶侧)和B侧(在底侧)。在示例实施例中，***200和信息流400可以反映对称结构，其中，A侧的观看窗110和B侧的观看窗120可以相似或相同。各个观看窗110和120实时传送视口信息和视频流信息。

每个VTW***包括至少三个子***，视口估计子***(VESS)、帧生成子***和流式传输子***。

视口估计子***从图像传感器接收观看者的眼睛位置(例如，一只眼睛的位置、两只眼睛的位置或平均位置)。VESS通过结合视口历史信息和显示器位置校准信息来确定当前视口。视口历史信息可以包括过去视***互的运行日志。除了其他可能性之外，该日志可以包括关于给定用户相对于观看窗和/或图像传感器的眼睛位置、用户偏好、一般的用户眼睛移动、眼睛移动范围等的信息。保留关于这样的先前交互的此类信息可以有利于减少给定用户与给定视口的交互的等待时间、图像/帧平滑度和/或更高精度的视口估计。视口确定的基本构思如图3A所示。下面描述详细的估计算法。

帧生成子***接收来自对应/对方视口处的相机的图像信息(例如，全广角帧)。接收的信息可以被裁剪并投影到目标视口帧中。在此过程中可以应用某些模板和设置。例如，当观看角非常大(例如，甚至大于相机视场)时，可以使投影以某种方式失真，以提供更舒适和/或真实的观看/交互体验。此外，可以对图像信息应用各种效果，诸如几何变形、颜色或对比度调整、对象突出显示、对象遮挡等，以提供更好的观看或交互体验。例如，可以对视频应用梯度黑帧，以提供更像窗的观看体验。也可以应用其他样式的帧。这样的修改可以通过模板或设置来限定。

流式传输子***将：1)压缩裁剪和投影的视口帧并将其传输到VTW的另一侧；和2)从VTW的另一侧接收压缩、裁剪和投影的视口帧，解压缩视口帧，并将它们显示在显示器上。在一些实施例中，在各种示例中，流式传输子***可以采用诸如Zoom、WebEx之类的第3方软件。

在一些实施例中，其他子***是预期和可能的。例如，握手子***可以控制对本文描述的***和方法的访问。在这样的场景中，握手子***可以在完成预定的握手协议后提供对***的访问。作为示例，握手协议可以包括交互请求。交互请求可以包括物理地触摸第一观看窗(例如，敲击，就像敲击玻璃窗)、指纹识别、语音命令、手示信号和/或面部识别。为了完成握手协议，在第二观看窗的用户可以通过物理地触摸第二观看窗、语音命令、指纹识别、手示信号和/或面部识别等来接受交互请求。完成握手协议之后，可以在两个或更多个观看窗之间发起通信/交互会话。在一些实施例中，握手子***可以在预定交互持续时间期间和/或在预定交互时间段期间限制对预定用户、预定观看窗位置的***访问。

在另一实施例中，不需要用于眼睛/注视检测的单独的图像传感器。而是，广角相机可以进一步用于眼睛检测。在这样的场景中，VTW***可以进一步简化，如图5所示。

图5A是根据示例实施例的信息流500的图。在信息流500中，眼睛检测不需要单独的图像传感器。在这样的场景中，***的每个观看窗除了计算机***外还包括相机和显示器。

该***还可以包括音频通道(包括麦克风和扬声器)，使得双方不仅可以看到对方，还可以谈话。在一些实施例中，***可以在每个观看窗处包括一个或多个麦克风和一个或多个扬声器。在示例实施例中，观看窗可以包括多个麦克风(例如，麦克风阵列)和/或扬声器阵列(例如，5.1或立体声扬声器阵列)。在一些实施例中，麦克风阵列可以被配置为从环境四处的定位的源捕获音频信号。

此外，类似于本文描述的图像调整方法和算法，可以在每个观看窗处进行音频调整以在交互期间增加真实感和沉浸感。例如，可以基于与观看窗交互的用户的跟踪位置来调整在每个观看窗处提供的音频。例如，如果位于A侧的用户移动他或她的头部以观看B侧环境的右侧部分，则A侧的观看窗可以加重来自B侧的环境的右侧部分的音频源(例如，增加其音量)。换句话说，可以基于视口信息动态调整通过观看窗的扬声器提供给观看者的音频。

图5B是根据示例实施例的信息流520的图。如图所示，信息流520和对应的***硬件可以通过将视频流和视口信息组合到一个传输通道中来提供进一步简化的***。例如，视口信息可以在视频流式传输期间被封装到帧包或分组中。在这样的场景中，提出的***可以作为标准USB或IP相机来操作，而无需专门的通信协议。

四、算法和设计

A.几何

图6示出了根据示例实施例的***600。显示器上观看者可观察的任何像素的强度和颜色是从不同位置(B侧)的相机捕获的。对于A侧的每个像素p，B侧的相机在与从Eye到p的视线向量相同的方向上采样像素q。这提供了一种透视体验，就好像眼睛位于B侧的相机位置一样。

在***的一侧(A侧)，令相机的光学中心为O，坐标系的原点，并且被检测眼睛的位置为(x_e,y_e,z_e)。我们可以选择显示器方向为z轴，向下方向为y轴。对于显示器上的每个像素(i,j)P，我们知道它的位置为(x_p,y_p,z_p)，因为显示器位置已经相对于相机进行了校准。所以从眼睛到像素(i,j)的向量将是：

EP＝(x_p,y_p,z_p)-(x_e,y_e,z_e), (1)

并且因此方向为：

Q＝EP/|EP| (2)

然后，从***的另一侧(B侧)，同样令相机作为B侧坐标系的原点。我们捕获在Q＝EP/|EP|方向上的像素，并将其映射到A侧***中的点p。

由于***是对称的，因此相同的几何适用于A侧和B侧之间的两个方向，其中的每一者都可以包括类似的组件和/或逻辑。显示器相对于相机的布置不必在两侧相同。而是，各个侧的视口估计可以使用不同的参数、模板或样式。例如，可以执行进一步的变换以校正相机相对于显示器的任意放置。

B.校准数据

对于显示器上的每个像素(i,j)P，为了确定其在xyz坐标系中的位置，如上所述，需要校准。

在一个实施例中，通过假设显示器在校准期间是平坦或圆柱形表面，提出如下校准方法：

1)输入显示高度H(例如，18”)和显示宽度W(例如，32”)

2)在显示器上显示全屏M x N棋盘格图案的观看区域(例如M＝32，N＝18)，使得每个观看区域的边长为EdgeLength＝H/N＝1”，并且每个矩形区域的边宽为EdgeWidth＝W/M＝1”；

3)使用相机拍摄显示器的照片。如果相机不是360°，在不改变其光学中心的情况下，将相机旋转180°，然后拍摄显示器的照片；

4)检测图案的角C_{i_j}，其中i＝1,2,...M且j＝1,2,...N。令C_{1_1}为左上角；

5)令C_{i_j}的图像坐标为(a_{i_j},b_{i_j},1)，其中，(a_{i_j},b_{i_j},1)为校正后的坐标；

由于相机经过几何校准，因此xyz坐标系中每个角的3D向量：

X＝(OC_{i_j})＝(a_{i_j},b_{i_j},1)*z_{i_j} (3)

对于角的任意第i列，令OC_{i_1}为第一角点。我们得到：

z_{i_j}＝z_{i_1}+(j-1)*Δ_i

因此，我们得到：

|OC_{i_j}-OC_{i_1}|＝|(a_{i_j},b_{i_j},1)*(z_{i_1}+(j-1)*Δ_i),(a_{i_1},b_{i_1},1)*z_{i_1})|＝L, (5)

这样我们就可以求解z_{i_1}和Δ_i。从式(4)，我们可以计算z_{i_j}。然后，从式(3)，我们获得每个网格角点的3D位置估计。

对于显示器上的任意像素，图像坐标系中的(a,b)，其3D位置可以通过上述过程或通过来自网格的插值来容易地确定。

C.学习数据

基于由给定视口获得(例如，传输、接收和/或捕获)的历史数据，回归分析和机器学习技术可用于预测或正则化将来的视口估计。

D.眼睛位置检测器

眼睛位置(x_e,y_e,z_e)可以通过广角相机或通过其他图像传感器来检测和跟踪。存在许多可能的眼睛检测技术，其可以通过相机校准提供(x_e,y_e)。为了估计z_e，可以使用单独的深度相机。附加地或替代地，可以通过捕获的用户图像中的面部和/或身体的大小来估计用户深度。

确定用户深度和/或用户位置的其他方法也是预期和可能的。例如，本文描述的***和方法可以包括深度传感器(例如，lidar、雷达、超声或其他类型的空间检测设备)以确定用户的位置。附加地或替代地，可以利用多个相机，例如关于图3B示出和描述的那些，通过立体视觉算法或类似的计算机视觉/深度确定算法来估计深度。

E.视口及其估计

一旦显示器被校准并且眼睛位置(x_e,y_e,z_e)被捕获，从眼睛到显示器上的每个点的视线向量可以被计算，如图6所示。

F.帧生成

B侧可以将整个广角相机帧传输到A侧。由于B侧的每个相机像素被映射到A侧的每个显示像素，因此可以生成帧用于显示。这样的场景在网络效率方面可能并不理想，因为只需要一小部分传输像素来显示给用户。在另一示例实施例中，如图4和图5所示，A侧可以将视口信息发送给B侧，并且B侧可以负责首先裁剪并重新映射到帧，然后将其发送回A侧进行显示。由于较低分辨率的帧，在通过网络传输之前裁剪和重新映射帧可以改善等待时间并减少网络负荷。可以将相同的技术应用于以相反方向(例如，从A侧到B侧)传输帧。

G.压缩和发送

新帧可以被编码为视频流，我们可以在视频流中组合(例如，通过多路复用)音频和其他信息。视口信息可以单独发送，或者可以与要传输给其他方的视频帧一起封装。

本文描述的***和方法可以涉及两个或更多个观看位置，每个观看位置包括观看窗***(例如，观看窗210)。每个观看窗包括至少一个广角相机(或PTZ相机)、显示器和可以通信地联接到网络的计算机***。该***允许观看者观看显示器并感觉好像他们身处另一位置中的相机的位置，从而产生透视体验。这样的***可以称为虚拟传送墙(VTW)。当观看者在显示器周围移动、靠近或远离显示器移动时，他/她将观察到来自***另一侧的环境的不同区域(例如，不同的视场)，就好像显示器是物理窗口一样。当两个观看者各自使用单独的观看窗210和220时，他们可以体验沉浸式交互，就像通过虚拟窗看到彼此并相互交谈。使用本文描述的***和方法，虚拟世界的三维图像可以显示为在另一参与者的后面或前面。这样的虚拟世界环境可以基于其他参与者的实际房间或环境。在其他实施例中，虚拟世界环境可以包括关于其他位置(例如，海滩环境、会议室环境、办公室环境、家庭环境等)的信息。在这样的场景中，视频会议参与者可以将彼此视为处于与现实环境不同的环境中。

五、示例方法

图7示出了根据示例实施例的方法700。将会理解，方法700可以包括比本文中明确示出或以其他方式公开的步骤或框更少或更多的步骤或框。此外，方法700的各个步骤或框可以以任何顺序执行并且每个步骤或框可以执行一次或多次。在一些实施例中，方法700的一些或所有框或步骤可以由分别关于图2、3A和3B示出和描述的***200、***310或***320执行。

框702包括从远程观看窗接收远程视口信息。远程视口信息指示远程用户的至少一只眼睛相对于远程显示器的相对位置。

框704包括使本地观看窗的至少一个相机捕获本地观看窗的环境的至少一个图像。例如，在一些实施例中，框704可以包括使本地观看窗的多个相机捕获本地观看窗的环境的相应图像。

框706包括基于远程视口信息和关于远程显示器的信息，裁剪和投影(一个或多个)图像以形成帧。在本地观看窗有多个相机的情况下，形成的帧可以包括合成视图。这样的合成视图可以包括与本地观看窗的任何特定相机不同的本地观看窗的环境的视场。也就是说，可以组合或以其他方式利用来自多个相机的图像以向远程用户提供“虚拟”视场。在这样的场景中，虚拟视场可以看起来源自本地观看窗的显示器的显示区域。虚拟视场的其他视点位置和视场也是可能的并且是预期的。

框708包括传输帧以在远程显示器处显示。

图8示出了根据示例实施例的方法800。将会理解，方法800可以包括比本文中明确示出或以其他方式公开的步骤或框更少或更多的步骤或框。此外，方法800的各个步骤或框可以以任何顺序执行并且每个步骤或框可以执行一次或多次。在一些实施例中，方法800的一些或所有框或步骤可由分别关于图2、3A和3B示出和描述的***200、***310或***320执行。

框802包括使至少一个第一相机捕获第一用户的图像。例如，将会理解，可以使用一个或多个相机来捕获第一用户的图像。

框804包括基于捕获的图像确定第一视口信息。第一视口信息指示第一用户的至少一只眼睛相对于第一显示器的相对位置。如本文所述，可以基于立体视觉深度算法或另外的计算机视觉算法来确定第一用户的相对位置。

框806包括从第一控制器向第二控制器传输第一视口信息。

框808包括从第二控制器接收由至少一个第二相机捕获的至少一个帧。基于第一视口信息裁剪和投影由至少一个第二相机捕获的至少一个帧。在一些实施例中，第二相机可以包括被配置为捕获相应帧的多个相机。

框810包括在第一显示器上显示至少一个帧。

图中所示的特定布置不应被视为限制性的。应当理解，其他实施例可以包括更多或更少的给定图中所示的每个要素。此外，可以组合或省略一些图示要素。此外，说明性实施例可包括图中未示出的要素。

表示对信息的处理的步骤或框可以与可以被配置为执行本文描述的方法或技术的特定逻辑功能的电路对应。替代地或附加地，表示对信息的处理的步骤或框可以与序代码的模块、段或程一部分(包括相关数据)对应。程序代码可以包括处理器可执行的一个或多个指令，用于实现方法或技术中的特定逻辑功能或动作。程序代码和/或相关数据可以存储在任何类型的计算机可读介质上，诸如包括盘、硬盘驱动器或其他存储介质的存储设备。

计算机可读介质还可以包括非暂时性计算机可读介质，诸如存储数据短时间段的计算机可读介质，比如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。计算机可读介质还可以包括存储程序代码和/或数据更长时间段的非暂时性计算机可读介质。因此，计算机可读介质可以包括二级或持久性长期存储装置，举例来说，比如只读存储器(ROM)、光盘或磁盘、光盘只读存储器(CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储***。计算机可读介质可以被认为是计算机可读存储介质，例如，或有形存储设备。

虽然已经公开了各种示例和实施例，但是其他示例和实施例对于本领域技术人员来说将是显而易见的。各种公开的示例和实施例是出于说明的目的而不是限制性的，真实范围由所附权利要求指示。

Claims

1.一种***，包括：

本地视口，所述本地视口包括：

至少一个相机；和

显示器；和

控制器，所述控制器包括至少一个处理器和存储器，其中，所述至少一个处理器执行存储在所述存储器中的指令以执行操作，所述操作包括：

接收远程视口信息，其中，所述视口信息指示远程用户的至少一只眼睛相对于远程显示器的相对位置；

使所述至少一个相机捕获本地视口的环境的至少一个图像；

基于所述视口信息和关于所述远程显示器的信息，裁剪和投影所述至少一个图像以形成帧；和

传输所述帧以在所述远程显示器处显示。

2.根据权利要求1所述的***，其中，所述操作还包括：

确定本地视口信息，其中，所述本地视口信息指示本地用户的至少一只眼睛相对于所述显示器的相对位置；

向远程控制器传输所述本地视口信息；

从所述远程控制器接收由远程相机捕获的至少一个远程帧；和

在所述显示器上显示所述至少一个远程帧。

3.根据权利要求2所述的***，其中，确定本地视口信息包括：

使所述至少一个相机捕获本地用户的至少一个图像；和

基于所述本地用户的至少一只眼睛在捕获的图像内的位置来确定所述本地视口信息。

4.根据权利要求2所述的***，还包括另外的图像传感器，确定本地视口信息包括：

使所述另外的图像传感器捕获本地用户的图像；和

5.根据权利要求2所述的***，其中，确定所述本地视口信息还基于校准数据或训练数据。

6.根据权利要求1所述的***，其中，传输所述帧以在所述远程显示器处显示包括将所述帧压缩成压缩视频流。

7.根据权利要求2所述的***，其中，传输所述帧以在所述远程显示器处显示包括将所述帧和所确定的本地视口信息压缩成压缩视频流。

8.根据权利要求1所述的***，其中，所述相机包括广角相机、窄角相机或水平移动-垂直移动-变焦(PTZ)相机。

9.一种***，包括：

第一观看窗，所述第一观看窗包括：

至少一个第一相机，所述至少一个第一相机被配置为捕获第一用户的至少一个图像，

第一显示器；和

第一控制器；以及

第二观看窗，所述第二观看窗包括：

至少一个第二相机，所述至少一个第二相机被配置为捕获第二用户的至少一个图像，

第二显示器；和

第二控制器，其中，所述第一控制器和所述第二控制器通过网络通信联接，其中，所述第一控制器和所述第二控制器各自包括至少一个处理器和存储器，其中，所述至少一个处理器执行存储在所述存储器中的指令以执行操作，其中，所述操作包括：

基于所述第一用户相对于所述第一显示器的眼睛位置确定第一视口信息；或

基于所述第二用户相对于所述第二显示器的眼睛位置确定第二视口信息。

10.根据权利要求9所述的***，其中，确定所述第一视口信息或所述第二视口信息还基于校准数据或训练数据。

11.根据权利要求9所述的***，其中，所述操作包括：

使所述至少一个第一相机捕获所述第一用户的至少一个图像，其中，确定所述第一视口信息基于捕获的图像，其中，所述第一视口信息指示所述第一用户的至少一只眼睛相对于所述第一显示器的相对位置；

向所述第二控制器传输所述第一视口信息；

从所述第二控制器接收由所述第二相机捕获的至少一个帧；和

在所述第一显示器上显示所述至少一个帧。

12.根据权利要求9所述的***，其中，所述操作包括：

在所述第一控制器处接收第二视口信息，其中，所述第二视口信息指示所述第二用户的至少一只眼睛相对于所述第二显示器的相对位置；

使所述至少一个第一相机捕获所述第一观看窗的环境的至少一个图像；

基于所述第二视口信息和关于所述第二显示器的信息，裁剪和投影所述图像以形成帧；和

向所述第二控制器传输所述帧以在所述第二显示器处显示。

13.根据权利要求12所述的***，其中，传输所述帧以在所述第二显示器处显示包括将所述帧压缩成压缩视频流。

14.根据权利要求12所述的***，其中，传输所述帧以在所述第二显示器处显示包括将所述帧和所述第一视口信息压缩成压缩视频流。

15.一种方法，包括：

从远程观看窗接收远程视口信息，其中，所述远程视口信息指示远程用户的至少一只眼睛相对于远程显示器的相对位置；

使本地观看窗的至少一个相机捕获所述本地观看窗的环境的至少一个图像；

基于所述远程视口信息和关于所述远程显示器的信息，裁剪和投影所述至少一个图像以进行帧；和

传输所述帧以在所述远程显示器处显示。

16.根据权利要求15所述的方法，其中，传输所述帧以在所述远程显示器处显示包括将所述帧压缩为压缩视频流或将所述帧和所述第一视口信息压缩为压缩视频流。

17.根据权利要求15所述的***，其中，使所述本地观看窗的所述至少一个相机捕获所述本地观看窗的环境的所述至少一个图像包括：使所述本地观看窗的多个相机捕获所述本地观看窗的环境的多个图像，并且其中，裁剪和投影所述至少一个图像以形成帧包括：使用视图插值算法以基于多个捕获的图像合成来自视点的视图。

18.一种方法，包括：

使至少一个第一相机捕获第一用户的至少一个图像；

基于捕获的图像确定第一视口信息，其中，所述第一视口信息指示所述第一用户的至少一只眼睛相对于第一显示器的相对位置；

从第一控制器向第二控制器传输所述第一视口信息；

从所述第二控制器接收由至少一个第二相机捕获的至少一个帧，其中，由所述至少一个第二相机捕获的所述至少一个帧基于所述第一视口信息被裁剪和投影；和

在第一显示器上显示所述至少一个帧。

19.根据权利要求18所述的方法，还包括：

从所述第二控制器接收第二视口信息；

向所述第二控制器传输所述帧以在所述第二显示器处显示。

20.根据权利要求19所述的***，其中，传输所述帧以在所述第二显示器处显示包括将所述帧和所述第一视口信息压缩成压缩视频流。