CN107924589A

CN107924589A - 通信***

Info

Publication number: CN107924589A
Application number: CN201680048399.8A
Authority: CN
Inventors: H·Y-T·陈; B·V·泰勒; M·R·斯威夫特; A·S·李; R·S·梅内泽斯; J·T·福尔克纳
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-08-20
Filing date: 2016-08-19
Publication date: 2018-04-17
Anticipated expiration: 2036-08-19
Also published as: EP3323111A1; US20170053446A1; CN107924589B; US10235808B2; EP3323111B1; WO2017031386A1

Abstract

用户设备包括网络接口、渲染模块和场景修改模块。网络接口被配置为经由网络从另一设备接收视频信号。渲染模块被配置为控制用户设备的显示装置以向用户设备的用户显示虚拟元素，所述虚拟元素包括从视频信号得到的视频图像。修改模块被配置为生成用于在另一设备处显示虚拟元素的修改版本的渲染数据。修改版本不包括所述视频图像。网络接口被配置为通过网络将渲染数据发送到另一设备。可替代地或另外，可以在另一设备上为了相同的目的来修改渲染数据。

Description

通信***

背景技术

显示***可以用于使用户能够看到期望的图像。可穿戴显示器***可以被体现在可佩戴式头戴式视图器中，该可佩戴式头戴式视图器被布置成在距离人眼短距离内显示图像。这种可佩戴式头戴式视图器有时被称为头戴式显示器。光学部件被布置在可佩戴的头戴式器件中，以在用户的眼睛的几厘米内显示期望的图像。

一些类型的显示***通过该光学器件提供视图，使得显示给用户的所生成的图像被覆盖到真实世界视图上。这被称为增强现实(“AR”)，或等同地称为混合现实。一个示例是微软HoloLens设备。

除了可穿戴显示器***，增强现实设备还可以包含其他组件，诸如处理单元、提供网络连接的计算机接口以及相机等。这些可以被容纳在头戴式器件中，如容纳在HoloLens中，或容纳在通过无线或有线方式连接到头戴式器件的单独的外壳中。

发明内容

提供本发明内容是为了以简化的形式引入将在以下具体实施方式中进一步描述的概念的选择。本发明内容部分不旨在确定所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护的主题的范围。

在第一方面，用户设备包括网络接口、渲染模块和场景修改模块。网络接口被配置为经由网络从另一设备接收视频信号。渲染模块被配置为控制用户设备的显示装置向用户设备的用户显示虚拟元素，所述虚拟元素包括从视频信号得到的视频图像。修改模块被配置为生成用于在另一设备处显示虚拟元素的修改版本的渲染数据。修改版本不包括所述视频图像。网络接口被配置为经由网络将渲染数据发送到其他设备。

在第二方面，本主题涉及经由第一设备的第一用户与第二设备的第二用户之间的通信网络来实现共享现实通信事件的方法。共享现实通信事件意味着这样的通信事件，其中第一设备通过显示虚拟元素使第一用户看到视觉场景，并且第二设备向第二用户显示第一用户所感知到的视觉场景的版本，(即，使得第一用户的他们感知到的“世界”的至少一部分与第二用户共享，与其中每个用户通常会看到彼此的视频的常规视频呼叫形成对比)。接收渲染数据，所述渲染数据用于在第二设备处显示视觉场景中的当前正在第一设备处显示的虚拟元素的版本。检测渲染数据何时包括在第二设备处捕获的并且经由网络传输到第一设备的视频图像。渲染数据被修改以去除所述视频图像。将修改后的渲染数据提供给第二设备的渲染模块，由此使得第二设备在其视觉场景的版本中显示不包括所述视频图像的虚拟显示元素的修改版本。

附图说明

为了更好地理解本主题并示出如何实现本主题的实施例，参考以下附图，其中：

图1A示出了增强现实设备的透视图，而图1B示出了该设备的框图；

图2A示出增强现实设备的功能模块；

图2B示出伴随设备的功能模块；

图3示出了通信***；

图4A示出了可能在共享的现实通信事件中出现的问题；

图4B示出了可以解决这个问题的第一种技术；

图4C示出了可以解决这个问题的第二种技术。

具体实施方式

图1A示出了从设备2的佩戴者22(“AR用户”)的角度来看的可穿戴增强现实(“AR”)设备2的透视图。图1B示出AR设备2的示意性框图。AR设备2是可穿戴头戴式视图器形式的计算机设备。AR用户22未在图1A或1B中示出，但是在稍后的一些附图中描绘。

增强现实设备2包括头戴式器件3，头戴式器件3是头带，被布置成佩戴在佩戴者的头上。头戴式器件3具有旨在装配在佩戴者的鼻梁上的中央部分4，并且具有内部曲率，旨在在佩戴者的耳朵上方围绕佩戴者的头部包裹。

头戴式器件3支撑标记为10L和10R的左侧和右侧光学部件，其为波导。为了在此便于参考，光学部件10将被认为是左部件或右部件，因为除了彼此互为镜像之外，部件基本相同。因此，关于左侧部件的所有描述也涉及右侧部件。中央部分4容纳至少一个光引擎17，其在图1A中未示出但在图1B中示出。

光引擎17包括微型显示器和准直透镜(未示出)形式的成像光学器件。微型显示器可以是任何类型的图像源，例如硅上液晶(LCOS)显示器，透射式液晶显示器(LCD)，LED(无论是有机还是无机)的矩阵阵列以及任何其他合适的显示器。显示器由在图1A和1B中不可见的电路驱动，电路激活显示器的各个像素以生成图像。来自每个像素的基本上准直的光落在光引擎4的出射光瞳上。在出射光瞳处，准直光束被耦合到每个光学部件10L，10R中，进入每个部件上提供的相应的耦合区12L，12R。这些入耦合区域在图1A中清楚地示出。入耦合光然后在相应的中间(折叠)区域14L，14R中通过涉及衍射和TIR的位于光学部件的侧面的机构被引导，并且还向下进入相应的出射区域16L，16R，在出射区域16L，16R处朝向用户的眼睛离开部件10。光学部件10位于光引擎13和眼睛之间，即显示***配置是所谓的透射型。

准直透镜将图像准直为多个光束，其形成所显示的图像的虚拟版本，虚拟版本是光学意义上的无限远处的虚拟图像。该光作为与输入光束相对应并形成基本上相同的虚拟图像的多个光束出射，眼睛的晶状体将光束投射到视网膜上，以形成AR用户22可见的真实图像。以这种方式，光学部件10将显示的图像投射到佩戴者的眼睛上。光学部件10L，10R和光引擎17构成AR设备2的显示装置。

区域12，14，16可以是例如适当地布置的衍射光栅或全息图。光学部件10具有这样的折射率n，即，使得发生全内反射以将来自光引擎的光束沿着中间展开区域314引导并向下朝向出射区域316。

光学部件10基本上是透明的，由此佩戴者可以透过它看到它们与投影图像同时位于的真实世界环境，由此提供增强现实体验。

为了提供立体图像，即，由用户感知为具有3D结构，可以将略微不同的2D图像的版本投射到每只眼睛上，例如从中央部分4中的不同的光引擎17(即两个微显示器)投射到每只眼睛上或从使用合适的光学器件的相同的光引擎(即，一个微型显示器)投射到每只眼睛上来分离从单个显示器输出的光。

图1A中所示的可穿戴AR设备2仅是一个示例性配置。例如，在使用两个光引擎的情况下，这些引擎可以改为位于设备的右侧和左侧(靠近佩戴者的耳朵)的不同位置。而且，尽管在这个示例中，形成虚拟图像的输入光束是通过对来自显示器的光进行准直而生成的，但是基于所谓的扫描的替代光引擎可以利用单个光束来复制该效果，该单个光束的定向被快速调制，同时调整其强度和/或颜色。可以以这种方式模拟虚拟图像，其等同于通过准直光学器件在显示器上准直(实际)图像的光而创建的虚拟图像。可替代地，可以通过将基本上透明的像素嵌入佩戴者眼睛前方的玻璃或聚合物板中来提供类似的AR体验，玻璃或聚合物板具有与光学部件10A，10L类似的配置，但不需要区域结构12，14，16。

其他头戴式器件3也在本主题的范围内。例如，显示光学器件可以同样使用框架(以常规眼镜的方式)、头盔或其他适配***附接到使用者头部。适配***的目的是支持显示器，并为显示器和如跟踪***和相机的其他头部支承***提供稳定性。适配***可以设计为满足人体测量范围和头部形态的用户群体，并为显示***提供舒适的支撑。

AR设备2还包括一个或多个相机19-立体相机10L，10R，立体相机10L，10R安装在头戴式器件3上并被配置为在该示例中分别从用户的左眼和右眼捕获近似视图(“视场”)。相机位于头戴式器件3上朝向用户头部的任一侧，因此从稍微不同的视角捕获设备的前方的场景的图像。在组合中，立体相机在设备移动通过真实世界环境时捕获真实世界环境的立体运动图像。立体运动图像是指显示相同场景的略微不同的视角的两个运动图像，每个运动图像由时间序列的帧(“视频图像”)形成，以快速连续地播出来重复移动。两幅图像结合在一起时给人以运动3D结构的印象。

如图1B所示，AR设备2还包括：一个或多个扩音器11；一个或多个麦克风13；存储器5；一个或多个处理单元3形式的处理装置(例如，CPU，GPU，和/或针对诸如AR相关功能的特定功能优化的定制处理单元)；以及用于与其他计算机设备通信的一个或多个计算机接口，诸如Wifi接口7a、蓝牙接口7b等。可穿戴设备3可以包括未示出的其它组件，诸如专用深度传感器、附加接口等。

如图1A所示，左麦克风11L和右麦克风13R位于头戴式器件的前部(从佩戴者的角度来看)，并且左右声道扬声器、听筒或其他音频输出换能器是在头带3的左侧和右侧。这些是用作为左右声道输出扬声器的一对骨传导音频换能器11L，11R的形式。

虽然在图1A中不明显，但是处理装置3、存储器5和接口7a，7b容纳在头带3中。可替代地，这些可以容纳在通过有线和/或无线装置连接到头带3的部件的单独的外壳中。例如，单独的外壳可以被设计成穿着或带子或者适合佩戴者的口袋，或者这些部件中的一个或多个可以被容纳在单独的计算机设备(智能手机、平板计算机、膝上型计算机或台式计算机等)中，其与AR头戴式视图器2中的显示器和相机装置无线通信，由此头戴式视图器和分离的设备构成增强现实装置形式的用户装置。

存储器保存处理器装置3被配置为执行的可执行代码9。在一些情况下，代码9的不同部分可以由处理装置3的不同处理单元执行。代码9包括操作***的代码以及被配置为在操作***上运行的一个或多个应用程序的代码。

图2A示出了AR设备2的功能框图。示出了AR***40，其包括以下功能模块：渲染模块42，本地增强模块44，本地建模模块46，场景修改模块48，设备跟踪模块50，编码器52和解码器54。这些功能模块中的每一个可以用软件来实现，即它们可以是代码9的代码模块，AR设备2的专用硬件，或者软件和专用硬件二者的组合。

渲染模块42控制光引擎17产生佩戴者可见的立体图像，即，基本上同时产生由光学部件10L，10R投射到不同眼睛的略微不同的2D图像，以便创建3D结构的印象。

通过渲染模块42渲染在3D空间中的真实世界位置处被AR用户感知为3D元素(即，具有感知的3D结构)的至少一个虚拟显示元素(“增强”)，来形成立体图像。

增强是由存储在存储器5中的增强数据对象来定义的。数据对象包括：定义虚拟元素的3D空间中的期望位置(例如，作为(x，y，z)笛卡尔坐标)的位置数据；定义虚拟元素的3D表面结构的结构数据，即虚拟元素的3D模型；以及图像数据，其定义将被应用到由3D模型所定义的表面的虚拟元素的2D表面纹理。数据对象可以包括附加信息，诸如增强的期望定向。

感知的3D效果是通过适当渲染增强数据对象来实现的。为了给出具有3D结构的增强的印象，基于数据对象中的2D表面和3D增强模型数据生成立体图像，其中增强被渲染为出现在立体图像中的期望位置处。

AR设备2附近的真实世界的一部分的3D模型被用于以其将是真实世界对象的方式，给予具有对增强预期的有形效果的真实世界的印象。3D模型表示真实世界中存在的表面结构，其提供的关于该表面结构的信息允许将增强显示为其好像是真实世界3D对象，由此提供沉浸式的增强现实体验。3D模型是3D网格的形式。

例如，基于真实世界的模型，从用户的角度来看，可以给出在其感知位置之前的真实世界对象遮蔽的增强的印象；动态地与真实世界对象交互，例如，通过绕对象移动；与真实世界对象静态交互，比如说坐在它上面等等。

可以基于合适的渲染标准来确定真实世界表面结构是否应该影响增强。例如，通过创建包含真实世界表面结构和任何增强的感知AR世界的3D模型，并将其投影到沿着使用姿态跟踪确定的AR用户的视线的平面上(参见下文)，确定真实世界对象是否应该被感知为部分遮蔽增强的合适标准是真实世界对象在平面中的投影是否与增强的投影重叠，这可以被进一步细化以说明透明或不透明真实世界结构。通常，标准可以取决于增强现实设备2的位置和/或定向和/或所讨论的真实世界结构。

增强还可以被映射到网格，就其相对于网格中的特定结构(多个)来定义其期望的位置和/或定向的意义而言。如果该结构移动和/或旋转导致网格中的相应变化，则在适当地渲染时，这将使得在增强的位置和/或定向上发生相应变化。例如，增强的期望位置可以在桌面结构上并且相对于桌面结构来定义；如果桌子被移动，则增强会随之移动。对象识别可以用于此目的，例如识别已知的桌子形状，从而利用其可识别的结构来检测桌子何时移动。这种对象识别技术在本领域中是已知的。

以这种方式映射到网格的增强或者以其他方式与3D模型中体现的表面结构的特定块相关联的增强被称为对表面结构的该块的“注释”。为了注释真实世界的表面结构的块，有必要具有由所讨论的3D模型表示的表面结构，否则不能注释真实世界结构。

局部建模模块46使用例如相机18的AR设备自带传感器和/或任何专用的深度传感器等来产生存储器5中的环境的局部3D模型“LM”。局部建模模块46和传感器构成AR设备2的感测装置。

设备追踪模块50使用在AR设备2处捕获的局部传感器数据来追踪AR设备2的位置和定向。可以以多种方式捕获传感器数据，例如使用相机18和/或AR设备2的其它传感器。跟踪模块例如通过输出AR设备的当前“姿态矢量”来向渲染模块42指示AR设备2的当前位置和定向。姿态矢量是六维矢量，例如(x，y，z，P，R，Y)，其中(x，y，z)是相对于合适的原点的设备的笛卡尔坐标，并且(P，R，Y)是设备相对于合适参考轴的俯仰、滚转和偏航。

渲染模块42基于跟踪调整增强以考虑设备的移动，即，维持占据真实世界的3D元素的感知，例如以确保静态增强看起来保持静态(事实上，通过缩放或旋转它们来实现，因为从AR用户的角度来看，环境正在相对于它们移动)。

简要回到图1，代码9包括通信客户端36(“AR客户端”)，用于在通信***20(参见图3)中经由通信网络26来实现通信事件。通信客户端36在AR设备2上执行时，使得AR设备2能够通过网络26与通信***20的操作他们自己的设备运行他们自己版本的通信客户端软件的另一用户建立实时视频通信事件，如实时视频通话，即时消息传递会话，屏幕共享或白板会话等。

图3示出了从AR用户22(“用户A”)角度来看是远端用户的另一个用户30(“用户B”)。远端用户30正在操作被示为连接到网络26并且正在执行其自己版本的客户端软件37(“伴随客户端”)的用户设备(“伴随设备”)32。伴随设备32可以例如是智能手机、平板计算机，膝上型计算机或台式计算机设备、智能电视或机顶盒、游戏控制台等。还连接到网络26的是由位于真实世界环境21的AR用户22佩戴的AR设备2。

在建立的通信事件期间通过网络26发送和接收呼叫音频和视频数据。从以下意义上讲，通信是“实时的”，因为在近端设备捕获以及远端设备接收和输出的音频/视频之间只有短暂的延迟，例如大约2秒或更短。客户端可以例如是在相关设备的处理器上执行并且在操作***之上运行的独立软件应用程序，或者是在处理器上执行的另一个应用程序的插件，例如Web浏览器。

通信***可以基于互联网语音或视频协议(VoIP)***。这些***对用户是有益的，因为它们通常比常规的固定线路或移动蜂窝网络的成本低得多，特别是对于长距离通信。客户端软件36，37建立VoIP连接以及基于例如诸如用户名和相关密码之类的登录凭证提供诸如注册和用户认证之类的其他功能。

返回到图2A，图3的编码器和解码器模块53，54表示通过在处理装置3上执行AR客户端36而实现的功能。编码器模块52从相机18接收图像数据，从麦克风13接收音频数据，并通过网络26将这些数据作为输出数据55流(“第一数据流”)发送给远端伴随设备32。解码器54从远端设备32接收输入数据流53(“第二数据流”)，并从中提取远端用户的通话音频和视频数据。

AR客户端36和伴随客户端37能够将AR元素合并到实时通信事件中。

在视频呼叫或其他基于视频的通信事件中，AR客户端36将通信事件的视频元素显示为3D增强。例如，可以使得3D增强可以对AR设备2的AR用户可见，AR设备2合并了远端用户的呼叫视频，或者在他们的屏幕上或在共享的白板上显示当前正在显示的内容的图像。例如，这个元素可以被渲染，以使得它被感知为投射在真实世界表面上，例如桌子或墙壁；或者可以将其渲染为AR用户可以走向、远离和围绕的特定位置处的明显独立的元素。解码器54根据从输入数据流提取的视频数据生成提供给渲染模块42的一个或多个呼叫增强数据对象“CA”。呼叫对象CA的2D表面数据包括视频数据的至少部分，使得视频数据在被渲染模块42渲染时显示为呼叫对象CD的表面纹理。

在图2A的示例中，呼叫增强数据对象CA也被提供给场景修改器48，场景修改器48根据下面详细描述的过程来选择性地修改它们。被修改的呼叫对象CA’被提供给编码器，并且在输出数据流53中被发送到伴随设备32。在其它情况下，呼叫数据对象在AR设备2处没有被修改，因为它们在伴随设备32处被修改，并且以相同的方式(见下文)被提供给编码器52而未被修改用于传输-在这种情况下，场景修改器48可以从AR设备2中被省略，或者至少未被利用。

远端用户还可以通过在伴随设备32处经由伴随客户端37的用户界面创建适当的增强数据对象“RA”来通过伴随设备32的用户界面添加他们自己的增强，诸如注释。数据对象RA在进入的视频流53中被发送到AR设备2。解码器54提取远程生成的增强数据对象RA，并将其提供给渲染模块42以用于以相同方式渲染。

为了能够以这种方式添加注释，伴随设备32还需要访问被注释的环境部分的表面结构。编码器54因此包括输出流55中的局部网格LM的版本。

AR用户还可以经由AR设备2的用户界面创建他们自己的增强。AR设备的用户界面可以例如包括“自然”用户界面(NUI)。NUI使得用户能够以自然的方式与设备交互，避免了由某些输入设备(诸如鼠标，键盘，遥控器等)施加的人为约束。NUI方法的示例包括利用语音和语言识别，意图和目标理解，使用深度相机(诸如立体或飞行时间相机***，红外相机***，RGB相机***及其组合)的运动姿势检测，使用加速度计/陀螺仪的运动姿势检测，面部识别，3D显示，头部、眼睛和视线跟踪等的那些方法。

响应于用户输入，本地增强模块44根据用户输入创建本地增强数据对象“LA”。该数据对象LA被提供给渲染模块42，以与呼叫和远程数据对象CA，RA相同的方式进行渲染。还将本地增强对象提供给编码器52，编码器52将其包括在输出数据流中。

在常规的视频通话中，每个设备通常会捕获其各自用户的视频并将其发送给其他呼叫参与者。然而，这里，AR客户端36取而代之地捕获AR用户当前可见的真实世界视图的运动图像，如利用头带3上的相机18L，18R捕获到的，并且经由网络26将运动图像发送到伴随设备32作为视频信号。伴随客户端37接收到视频信号并将其显示在伴随设备32的显示器上。伴随客户端37还渲染由远端用户30创建的当前正被AR用户感知的任何增强，以他们目前正在被感知的方式渲染，并将它们显示在覆盖在真实世界图像上的显示34上，以便提供AR用户的AR“世界”的完整表示。

在输出数据流中发送到伴随设备32的本地数据对象AR由伴随设备渲染，并覆盖在显示34上的真实世界图像上。由跟踪模块50生成的设备的姿态矢量也在输出流中被传送到伴随设备32以供伴随设备用于显示AR用户的世界。

图2B示出了伴随设备32的共享现实***70。共享现实***32包括伴随设备32的以下功能模块，它们是伴随客户端37的软件模块，即，它们表示通过执行伴随设备32上的伴随客户端37而实现的功能：渲染模块62，场景修改模块68，编码器72和解码器74。

编码器72生成从伴随设备32的视角作为输出数据流的第二数据流55。编码器从伴随设备32的相机60接收伴随用户30(即，伴随用户的呼叫视频)的运动图像，并且将其与伴随设备32的麦克风(未示出)所捕获的伴随用户的呼叫音频数据一起在第二数据流中发送到AR设备2。尽管未在图2B中示出，但伴随设备32的共享现实***70包括附加功能模块以实现上述功能，由此伴随用户30可以通过经由伴随设备32的用户界面输入合适的用户输入来创建它们自己的增强(例如，注释)RA以应用于AR用户的世界。

解码器74接收由AR设备2生成的第一数据流53，从伴随设备32的视角看其是输入数据流。解码器从第一数据流53中提取以下内容：

1.AR设备2的当前姿态矢量(x，y，z，P，R，Y)；

2.由AR用户22在AR设备2处生成的任何增强数据对象LA；

3.在AR设备2处生成的3D网格LM；

4.在AR设备2处生成的任何呼叫增强数据对象CA，其可能在此已经修改或可能未修改，如所提及的——在图2B的示例中它们在AR设备中未被修改，因此以其未修改的形式被接收；

5.在AR设备2处捕获的AR用户的呼叫视频，如上所述，显示了环境21的AR用户视图(不是AR用户22，与常规的视频呼叫形成对比)；

6.提供给伴随设备32的扩音器(未示出)的AR用户的呼叫音频。

将1至3提供给渲染模块62；在这个示例中，呼叫增强数据对象被提供给伴随设备32的场景修改器68，其选择性地修改它们并且将修改的版本CA’提供给渲染模块。可替代地，在AR设备2中修改它们的一些情况下，呼叫增强数据对象在伴随设备32处不被修改，并且被直接提供给渲染模块62(见下文)。

渲染模块62还接收在伴随设备32处生成的任何增强数据对象LA。

伴随设备的渲染模块62类似于AR设备2的渲染模块42，因为其使用姿态矢量和3D模型LM来在显示34上渲染三种类型的增强(CA’，LA，RA)。然而，重要的不同之处在于AR用户的呼叫视频也显示在显示器上，并且将对象渲染而叠加在呼叫视频上，以便重新创建AR用户2所感知的场景，如上所述。也就是说，AR用户的视频被用来模拟AR用户自然通过AR设备2的透明光学部件可见的真实世界的视图。视频在某些情况下也可以用于除了姿态矢量和局部模型之外对增强LA，CA’的渲染(尽管在某些情况下这可能是不必要的)。

而且，在伴随设备不提供立体功能的情况下，模拟的视图例如在平板电脑或智能电话显示屏幕上被渲染为常规的2D图像。

如上所述，特定类型的呼叫增强CA是视频窗口(“视频卡”)，其中在伴随设备处捕获的伴随用户的呼叫视频在AR设备22处被显示给AR用户2。

这会在伴随设备上引起问题。AR用户将看到远程伴随设备用户的传入视频出现在他们的世界中。在伴随设备中，无论何时在AR用户22的视野内，用户都将看到他们的传输视频出现在AR用户的世界中。取决于AR设备2的网络条件和处理速度，这可能不与伴随设备的用户同步，从而分散注意力。

为了有助于说明，考虑图4A，其右侧示出在其环境21中AR用户22可见的虚拟视频窗口CA。该AR用户感知视频窗口，就好像它是真实世界对象一样，这是在3D空间中具有感知位置并且AR用户22与视频窗口的感知位置之间的真实世界(即物理)对象Ob被感知为部分模糊视频窗口CA的意义上，尽管基于对象Ob的3D网格数据MD适当地渲染视频窗口CA。围绕对象Ob的注释A对于他们自己已经创建(即“LA”)或者伴随用户32可能创建并发送给他们(即“RA”)的AR用户2，也是可见的。

图4A示出了在伴随设备32处显示视频窗口CA的未修改版本的场景。

定义此呼叫增强数据对象CA的2D表面结构的图像数据包括伴随设备的呼叫视频的一个或多个视频图像(即，帧)。

如图4A的左侧所示，伴随设备30在其显示34上渲染呼叫窗口CA，正如AR用户所感知的那样。AR用户的视频也如同注释A一样显示在伴随设备34上。通过基于从AR设备2接收到的3D网格数据MD抑制其中部分，注释A和视频窗口CV显示在运动图像之上，但是以注释A被伴随用户30感知为围绕视频中的对象Ob且呼叫窗口CA被感知为位于视频中的对象后面(恰如它们对于AR用户22所出现的方式)的方式被渲染。

在伴随设备32处渲染的呼叫窗口CA包括由设备捕获的伴随用户30的视频的未修改版本。在显示该视频的任何给定帧时，其将两次遍历网络26到达AR设备2并再次返回。因此，由于网络内和AR设备2中的延迟，因此可能明显不同步，即，伴随设备用户30将看到他们几秒前显现的自己，这是分散注意力的。这种效果在伴随设备显示“自视频”SV(即，发送给AR用户2，但是直接从伴随设备32的相机33取得(直接意味着它没有经由网络26传输)并且一般显示在其显示区域的一小部分中的显示32的角落处的伴随用户30的视频)的情况下加剧。因为它是直接从相机33取得的，所以自视频SV将不会受到相同的延迟，并因此明显地位于视频窗口CV中的视频之前，即，伴随设备的呼叫视频的两个版本将是不同步的。

为了解决这个问题，通话增强数据对象CA在AR设备2上由其场景修改器48修改，或者在伴随设备上由其场景修改器68修改，或者甚至在两个设备上修改，以去除伴随用户的通话视频的视频图像。呈现代表视频的图标或替代UI组件代替相同感知位置处的呼叫窗口，使得伴随用户32在远程观看AR用户的世界时看不到自己的时间延迟视频，同时仍然为伴随设备用户提供关于AR用户的注视的信息以及他们正在感知的内容。

在图4B所示的第一示例中，呼叫增强数据对象CA在伴随设备32处被修改以将已经遍历网络两次的伴随用户的呼叫视频的每个视频图像(即，帧)替换为直接从伴随设备的相机33取得的较为最近捕获的视频图像(即，帧)，由此消除延迟。视频窗口CA’的修改版本使用从AR设备2接收到的呼叫增强数据对象CA中的位置数据，在与原始CA相同的场景中的感知位置处显示。

在一些情况下，呼叫增强数据对象CA也在AR设备处被修改，例如，伴随用户32的视频图像可以在发送之前在伴随设备处被移除，以减小其尺寸(以位为单位)，因此使用较少的带宽来进行其传输。随后在伴随设备32处执行另外的修改以***从其相机33直接取得的接收到的本地视频。

在该第一示例中，自视频SV被选择性地抑制。在伴随设备处，伴随设备用户30在其位于AR用户的视野中时将仅在3D空间中看到视频卡CA’的修改版本。当视频窗口SV对于伴随设备用户30不可见时，因为原始版本CV不在AR用户的视野中，所以期望保留自视频SV，使得伴随用户30能够看到他们自己的视频(与现有的视频通话***保持一致)。然而，当原始视频窗口CA处于AR用户22的视野中，并且因此在其中显示的场景的版本中伴随设备的显示器上可见修改版本CV’时，自视频将是多余的，因此被抑制，即不显示。

在图4C中示出的第二示例中，伴随用户30的视频图像被完全移除，并且呼叫窗口CV的修改版本呈在场景中的相同感知位置处显示在伴随设备32处的图标CA”的形式(其不包括伴随用户的呼叫视频的任何视频图像)。可以在任一设备处移除视频图像，但是通过在传输带宽可以再次被节省之前在AR设备2处将其移除。在该第二示例中，自视频不被抑制。

注意，在替代的实现方式中，修改可以在诸如中继服务器或对等节点的中间网络节点(例如，在组呼叫场景中托管组呼叫的用户设备)处执行。

虽然在上文中，呼叫增强数据对象CA在AR设备处被修改以实现主题，但是可以以其他方式来实现相同的结果，例如通过生成要发送给伴随设备的单独的呼叫增强数据对象或描述呼叫增强的其他数据(例如，在使用图标的情况下，发送到伴随设备的渲染数据可以简单地是呼叫增强CA的感知位置的标识符，因为这可能是伴随设备正确放置图标所需要的全部)。

虽然在上文中，设备使用本地生成的网格LM，但可替代地或附加地，从网络接收(例如下载)的环境21的网格可以由任一个或两个设备使用。

在第一方面中，一种用户设备包括：网络接口，其被配置为经由网络从另一设备接收视频信号；渲染模块，被配置为控制所述用户设备的显示装置向所述用户设备的用户显示虚拟元素，所述虚拟元素包括从所述视频信号得出的视频图像；以及场景修改模块，其被配置为生成用于在所述另一设备处显示所述虚拟元素的修改版本的渲染数据，其中所述修改版本不包括所述视频图像，其中所述网络接口被配置为将所述渲染数据通过网络发送到所述另一设备。

在实施例中，虚拟元素可以由渲染模块在用户可见的视觉场景中的感知位置处显示，并且渲染数据可以标识感知位置，使得另一设备可以在另一设备处显示的视觉场景的版本中的相同感知位置处显示该虚拟元素的修改版本。

例如，虚拟元素可以是虚拟视频窗口，并且虚拟元素的修改版本可以是要在相同的感知位置处显示的图标。

虚拟显示元素可以作为具有感知3D结构的立体图像元素向用户显示。

显示装置可以被布置为向用户提供其环境的真实世界视图，通过显示虚拟元素使得其与真实世界视图同时可见，使得视觉场景变得可见。

例如，显示装置可以包括基本上透明的观看部分，真实世界通过所述观看部分可见并且由此提供真实世界视图，基本上透明的观看部分被布置为将虚拟元素的图像投射到用户的眼睛上。

另外，用户设备可以包括被配置为从用户设备的至少一个相机接收用户可见的真实世界视图的运动图像的相机输入，其中网络接口可以被配置为发送运动图像到另一设备，使得另一设备可以显示运动图像和在所显示的运动图像中的感知位置处的虚拟元素的修改版本。

可替代地或附加地，用户设备可以包括建模模块，该建模模块被配置成使用用户设备的感测装置来生成用户环境的3D模型，其中网络接口可以被配置为将3D模型发送到另一设备用于在另一设备处渲染显示元素的修改版本。

用户设备可以包括位置跟踪模块，该位置跟踪模块被配置为测量用户设备的当前位置和/或定向，其中，网络接口可以被配置为发送用户设备的当前位置和/或定向的标识符到另一设备，用于在另一设备上渲染显示元素的修改版本。

第二方面涉及一种经由通信网络在第一设备的第一用户和第二设备的第二用户之间实现共享现实通信事件的方法，其中第一设备通过向所述第一用户显示虚拟元素而使得第一用户可见视觉场景，所述第二设备向第二用户显示第一用户感知到的所述视觉场景的版本，所述方法包括：接收用于在所述第二设备处显示当前在视觉场景中的第一设备处显示的虚拟元素的版本的渲染数据；检测所述渲染数据何时包括在所述第二设备处捕获并经由所述网络发送到所述第一设备的视频图像；修改所述渲染数据以去除所述视频图像；以及将修改的渲染数据提供给第二设备的渲染模块，从而使得第二设备在其视觉场景的版本中显示不包括所述视频图像的虚拟显示元素的修改版本。

在实施例中，修改步骤可以在第二设备处通过用直接从第二设备的相机接收的较近期捕获的视频图像替换所述视频图像来执行。

例如，该方法可以包括检测虚拟元素何时在第二设备处显示的视觉场景的版本中不再可见，并且作为响应，在第二设备处显示包括直接从第二设备的相机接收的视频图像的自身图像显示元素，其中，当在第二设备处显示的视觉场景的版本中虚拟元素不可见时，可以仅在第二设备处显示自身图像显示元素。

可替代地，可以通过用图标替换所述视频图像来执行修改步骤。

例如，该方法可以包括与在第二设备处的图标同时显示包括直接从第二设备的相机接收的视频图像的自我图像显示元素。

该方法可以包括：经由网络在第二设备处从第一设备接收元素位置数据，其中元素位置数据可以定义虚拟元素在视觉场景中被第一用户感知的位置，其中，虚拟显示元素的修改版本可以显示在第二设备处显示的场景的版本中的相同的感知位置处。

该方法可以包括：在第二设备处接收第一用户环境的3D模型；以及使用所接收的3D模型在第二设备处渲染虚拟元素的修改版本。

该方法可以包括：在第二设备处接收第一设备的当前位置和/或定向的标识符；以及使用所接收的3D模型在第二设备处渲染虚拟元素的修改版本。

在实施例中，这里公开的任何方法步骤可以被实现为设备的功能模块，反之亦然。

在第三方面，一种计算机程序产品包括存储在计算机可读存储介质上并且被配置成当在用户设备上执行时实现第二方面或其任何实施例的方法的代码。

通常，可以使用软件、固件、硬件(例如，固定逻辑电路)或这些实现的组合来实现本文所描述的功能中的任一个。这里使用的诸如图2A和图2B的功能模块的术语“模块”、“功能”、“组件”和“逻辑”通常表示软件、固件、硬件或其组合。在软件实现方式的情况下，模块、功能或逻辑表示在处理器(例如，一个CPU或多个CPU)上执行时执行指定任务的程序代码。程序代码可以存储在一个或多个计算机可读存储设备中。下面描述的技术的特征是独立于平台的，意味着这些技术可以在具有各种处理器的各种商业计算平台上实现。

例如，AR或伴随设备(用户终端)还可以包括使得用户终端的硬件执行操作的实体(例如软件)，例如处理器功能块等等。例如，用户终端可以包括计算机可读介质，该计算机可读介质可以被配置为维护使得用户终端，并且更具体地使用户终端的操作***和相关硬件执行操作的指令。因此，指令的作用是配置操作***和相关的硬件来执行操作，并以这种方式导致操作***和相关硬件的转换以执行功能。指令可以由计算机可读介质通过各种不同的配置提供给用户终端。

计算机可读介质的一种这样的配置是信号承载介质，并且因此被配置为将指令(例如作为载波)发送到计算设备，诸如经由网络。计算机可读介质还可以被配置为计算机可读存储介质，因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)，只读存储器(ROM)，光盘，闪速存储器，硬盘存储器以及其他存储设备，这些存储设备可以使用磁、光学和其他技术来存储指令和其他数据。

虽然已经用特定于结构特征和/或方法动作的语言描述了主题，但是应当理解的是，所附权利要求中限定的主题不一定限于上面描述的具体特征或动作。相反，上述的具体特征和行为被公开为实现权利要求的示例形式。

Claims

1.一种用户设备，包括：

网络接口，被配置为经由网络从另一设备接收视频信号；

渲染模块，被配置为控制所述用户设备的显示装置以向所述用户设备的用户显示虚拟元素，所述虚拟元素包括从所述视频信号得出的视频图像；以及

场景修改模块，被配置为生成用于在所述另一设备处显示所述虚拟元素的修改版本的渲染数据，其中，所述修改版本不包括所述视频图像，其中，所述网络接口被配置为经由网络向所述另一设备发送所述渲染数据。

2.根据权利要求1所述的用户设备，其中，所述虚拟元素是由所述渲染模块在用户可见的视觉场景中的感知位置处显示的，并且所述渲染数据标识所述感知位置，以使得所述另一设备能够在所述另一设备处显示的视觉场景的版本中在相同感知位置处显示所述虚拟元素的修改版本。

3.根据权利要求2所述的用户设备，其中，所述虚拟元素是虚拟视频窗口，并且所述虚拟元素的修改版本是要在相同感知位置处显示的图标。

4.根据权利要求2所述的用户设备，其中，所述显示装置被布置成向所述用户提供其环境的真实世界视图，通过显示所述虚拟元素使得其与所述真实世界视图同时可见而使所述视觉场景可见。

5.根据权利要求4所述的用户设备，包括：

相机输入，被配置为从所述用户设备的至少一个相机接收所述用户可见的所述真实世界视图的运动图像，其中，所述网络接口被配置为将所述运动图像发送到所述另一设备，以使得所述另一设备能够显示所述运动图像和在显示的运动图像中的所述感知位置处的所述虚拟元素的修改版本；和/或

建模模块，被配置为使用所述用户设备的感测装置来生成所述用户的环境的3D模型，其中，所述网络接口被配置为将所述3D模型发送到所述另一设备，以用于在所述另一设备处渲染所述显示元素的修改版本。

6.根据权利要求1所述的用户设备，包括位置跟踪模块，其被配置为测量所述用户设备的当前位置和/或定向，其中，所述网络接口被配置为将所述用户设备的所述当前位置和/或定向的标识符发送给所述另一设备，以用于在所述另一设备处渲染所述显示元素的修改版本。

7.一种经由通信网络在第一设备的第一用户与第二设备的第二用户之间实现共享的现实通信事件的方法，其中，所述第一设备通过向所述第一用户显示虚拟元素而使视觉场景对所述第一用户可见，并且所述第二设备向所述第二用户显示在所述视觉场景由所述第一用户感知时的所述视觉场景的版本，所述方法包括：

接收渲染数据，所述渲染数据用于在所述第二设备处显示所述视觉场景中当前正在所述第一设备处显示的虚拟元素的版本；

检测所述渲染数据何时包括在所述第二设备处捕获并经由所述网络发送到所述第一设备的视频图像；

修改所述渲染数据以去除所述视频图像；以及

将修改后的渲染数据提供给所述第二设备的渲染模块，从而使得所述第二设备在它的所述视觉场景的版本中显示不包括所述视频图像的虚拟显示元素的修改版本。

8.根据权利要求7所述的方法，其中，所述修改步骤在所述第二设备处通过以下来执行：利用直接从所述第二设备的相机接收的较近期捕获的视频图像来替换所述视频图像。

9.根据权利要求8所述的方法，包括检测何时所述虚拟元素在所述第二设备处显示的所述视觉场景的版本中不再可见，并且作为响应，在所述第二设备处显示包括直接从所述第二设备的相机接收的视频图像的自身图像显示元素，其中，当所述虚拟元素在所述第二设备处显示的视觉场景的版本中不可见时，仅在所述第二设备处显示所述自身图像显示元素。

10.根据权利要求7所述的方法，其中，所述修改步骤通过利用图标替换所述视频图像来执行。

11.根据权利要求10所述的方法，包括在所述第二设备处与所述图标同时显示包括直接从所述第二设备的相机接收的视频图像的自身图像显示元素。

12.根据权利要求7所述的方法，包括：

在所述第二设备处经由所述网络从所述第一设备接收元素位置数据，其中，所述元素位置数据定义所述第一用户在所述视觉场景中感知的所述虚拟元素的位置，其中，所述虚拟显示元素的修改版本显示在所述第二设备处显示的场景的版本中的相同感知位置处。

13.根据权利要求8所述的方法，包括：

在所述第二设备处接收所述第一用户的环境的3D模型；以及

使用所接收的3D模型在所述第二设备处渲染所述虚拟元素的修改版本。

14.根据权利要求10所述的方法，包括：

在所述第二设备处接收所述第一设备的当前位置和/或定向的标识符；以及

15.一种包括存储在计算机可读存储介质上的代码的计算机程序产品，所述代码被配置为当在用户设备上执行时实现前述权利要求中任一项所述的方法或用户设备功能。