CN111448568B - 基于环境的应用演示 - Google Patents

基于环境的应用演示 Download PDF

Info

Publication number
CN111448568B
CN111448568B CN201880063817.XA CN201880063817A CN111448568B CN 111448568 B CN111448568 B CN 111448568B CN 201880063817 A CN201880063817 A CN 201880063817A CN 111448568 B CN111448568 B CN 111448568B
Authority
CN
China
Prior art keywords
physical
scene
identified
determining
physical scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880063817.XA
Other languages
English (en)
Other versions
CN111448568A (zh
Inventor
P·梅尔
D·乌布利希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN111448568A publication Critical patent/CN111448568A/zh
Application granted granted Critical
Publication of CN111448568B publication Critical patent/CN111448568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/17Image acquisition using hand-held instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2215/00Indexing scheme for image rendering
    • G06T2215/16Using real world measurements to influence rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

在用于在增强现实环境中提供内容的示例性过程中,获得对应于物理环境的图像数据。基于所述图像数据,使用对应于预定义实体的分类器来识别所述物理环境中的所述多个预定义实体中的预定义实体。基于所述识别的预定义实体中的所述一个或多个,确定所述物理环境的几何布局。基于所述几何布局,确定对应于特定实体的区域。所述特定实体对应于一个或多个识别的预定义实体。基于对应于所述特定实体的所述区域,使用对应于所述确定的区域的分类器来识别所述物理环境中的所述特定实体。基于所述识别的特定实体,确定所述物理环境的类型。基于所述物理环境的所述类型,显示对应于所述物理环境的表示的虚拟现实对象。

Description

基于环境的应用演示
相关申请的交叉引用
本专利申请要求于2017年9月29日提交的标题为“ENVIRONMENT-BASEDAPPLICATION PRESENTATION”(基于环境的应用演示)的美国临时专利申请No.62/566,308的优先权,该专利申请的内容以引用方式并入本文,以用于所有目的。
背景技术
本公开整体涉及混合现实界面,并且更具体地,涉及用于在增强现实环境中提供基于环境的内容的技术。
发明内容
本公开描述了用于在增强现实(AR)环境中提供内容的技术。在一种示例性技术中,获得使用一个或多个相机捕获的图像数据。图像数据对应于物理环境。基于图像数据,使用对应于多个预定义实体的多个分类器来识别物理环境中的多个预定义实体中的一个或多个预定义实体。基于所述识别的预定义实体中的所述一个或多个,确定所述物理环境的几何布局。基于物理环境的几何布局,确定对应于特定实体的区域。所述特定实体对应于一个或多个识别的预定义实体。基于对应于特定实体的区域,使用对应于确定的区域的一个或多个分类器来识别物理环境中的特定实体。基于所述识别的特定实体,确定所述物理环境的类型。基于物理环境的类型,显示对应于物理环境的表示的一个或多个虚拟现实对象。
附图说明
图1A至图1B描绘了用于包括虚拟现实和混合现实的各种计算机模拟的现实技术的示例性***。
图2A描绘了获得室内物理环境的图像数据并显示室内物理环境的图像的用户设备。
图2B描绘了获得室外物理环境的图像数据并显示室外物理环境的图像的用户设备。
图3A描绘了被配置为识别室内物理环境的预定义实体的用户设备的分类器。
图3B描绘了被配置为识别室外物理环境的预定义实体的用户设备的分类器。
图4描绘了确定对应于特定实体的物理环境和区域的几何布局的几何布局估计器。
图5描绘了用于识别位于墙壁区域中的特定实体的对应于墙壁区域的分类器,以及用于识别位于桌台区域中的特定实体的对应于桌台区域的分类器。
图6A描绘了被配置为确定第一类型的物理环境的物理环境确定器。
图6B描绘了被配置为确定第二类型的物理环境的物理环境确定器。
图6C描绘了被配置为确定第三类型的物理环境的物理环境确定器。
图7A描绘了在AR界面中显示对应于第一类型的物理环境的表示的虚拟现实对象的用户设备。
图7B描绘了在AR界面中显示对应于第二类型的物理环境的表示的虚拟现实对象的用户设备。
图7C描绘了在AR界面中显示对应于第三类型的物理环境的表示的虚拟现实对象的用户设备。
图8描绘了用于在AR环境中提供内容的示例性技术的流程图。
具体实施方式
描述了与包括虚拟现实和混合现实(其结合了来自物理场景的感官输入)的各种模拟现实技术有关的电子***和使用此类***的技术的各种实施方案。
物理场景是指无需电子***帮助个体就能够感觉和/或个体能够交互的世界。物理场景(例如,物理森林)包括物理元素(例如,物理树、物理结构和物理动物)。个体可直接与物理场景相互作用和/或感觉物理场景,诸如通过触摸、视觉、嗅觉、听觉和味觉。物理场景也可称为物理环境或真实环境。物理元素也可被称为物理对象或物理物品。
相比之下,模拟现实(SR)场景是指经由电子***个体能够感觉和/或个体能够交互的完全或部分由计算机创建的场景。在SR中,监测个体移动的子集,并且响应于该子集,以符合一个或多个物理定律的方式更改SR场景中的一个或多个虚拟对象的一个或多个属性。例如,SR***可检测到个体向前走几步,并且响应于此,以类似于此类情景和声音在物理场景中会如何变化的方式来调节呈现给个体的图形和音频。也可响应于移动的表示(例如,音频指令)而进行对SR场景中一个或多个虚拟对象的一个或多个属性的修改。
个体可使用他的任何感觉(包括触觉、嗅觉、视觉、味觉和声音)与SR对象进行交互和/或感觉SR对象。例如,个体可与创建多维(例如,三维)或空间听觉场景和/或实现听觉透明性的听觉对象进行交互和/或感知。多维或空间的听觉场景为个体提供了在多维空间中对离散听觉源的感知。在具有或不具有计算机创建的音频的情况下,听觉透明选择性地结合来自物理场景的声音。在一些SR场景中,个体可仅与听觉对象进行交互和/或仅感知听觉对象。
SR的一个示例是虚拟现实(VR)。VR场景是指被设计为仅包括针对至少一种感觉的计算机创建的感官输入的模拟场景。VR场景包括个体可与之交互和/或对其进行感知的多个虚拟对象。个体可通过在计算机创建的场景内模拟个体动作的子集和/或通过对个体或其在计算机创建的场景内的存在的模拟,来与VR场景中的虚拟对象进行交互和/或感知VR场景中的虚拟对象。虚拟对象有时也称为虚拟现实对象或虚拟-现实对象。
SR的另一个示例是混合现实(MR)。MR场景是指被设计为将计算机创建的感官输入(例如,虚拟对象)与来自物理场景的感觉输入或其表示集成的模拟场景。在现实谱系上,混合现实场景介于一端的VR场景和另一端的完全物理场景之间并且不包括这些场景。
在一些MR场景中,计算机创建的感官输入可以适应于来自物理场景的感官输入的变化。另外,用于呈现MR场景的一些电子***可以监测相对于物理场景的取向和/或位置,以使虚拟对象能够与真实对象(即来自物理场景的物理元素或其表示)交互。例如,***可监测运动,使得虚拟植物相对于物理建筑物看起来是静止的。
混合现实的一个示例是增强现实(AR)。AR场景是指至少一个虚拟对象叠加在物理场景或其表示之上的模拟场景。例如,电子***可具有不透明显示器和至少一个成像传感器,成像传感器用于捕获物理场景的图像或视频,这些图像或视频是物理场景的表示。***将图像或视频与虚拟对象组合,并在不透明显示器上显示该组合。个体利用***经由物理场景的图像或视频间接地查看物理场景,并且观察叠加在物理场景之上的虚拟对象。当***使用一个或多个图像传感器捕获物理场景的图像,并且使用那些图像在不透明显示器上呈现AR场景时,所显示的图像被称为视频透传。另选地,用于显示AR场景的电子***可具有透明或半透明显示器,个体可通过该显示器直接查看物理场景。该***可在透明或半透明显示器上显示虚拟对象,使得个体利用该***观察叠加在物理场景之上的虚拟对象。又如,***可包括将虚拟对象投影到物理场景中的投影***。虚拟对象可例如在物理表面上或作为全息图被投影,使得个体利用该***观察叠加在物理场景之上的虚拟对象。
增强现实场景也可指其中物理场景的表示被计算机创建的感官信息改变的模拟场景。例如,物理场景的表示的一部分可被以图形方式改变(例如,放大),使得所改变的部分仍可代表初始捕获的图像但不是忠实再现的版本。又如,在提供视频透传时,***可改变传感器图像中的至少一者以施加不同于图像传感器捕获的视点的特定视点。再如,物理场景的表示可通过以图形方式将其部分进行模糊处理或消除其部分而被改变。
混合现实的另一个示例是增强虚拟(AV)。AV场景是指计算机创建场景或虚拟场景并入来自物理场景的至少一个感官输入的模拟场景。来自物理场景的感官输入可为物理场景的至少一个特征的表示。例如,虚拟对象可呈现由成像传感器捕获的物理元素的颜色。又如,虚拟对象可呈现出与物理场景中的实际天气条件相一致的特征,如经由天气相关的成像传感器和/或在线天气数据所识别的。在另一个示例中,增强现实森林可具有虚拟树木和结构,但动物可具有从对物理动物拍摄的图像精确再现的特征。
许多电子***使得个体能够与各种SR场景进行交互和/或感知各种SR场景。一个示例包括头戴式***。头戴式***可具有不透明显示器和一个或多个扬声器。另选地,头戴式***可以被设计为接收外部显示器(例如,智能电话)。头戴式***可具有分别用于拍摄物理场景的图像/视频和/或捕获物理场景的音频的一个或多个成像传感器和/或麦克风。头戴式***也可具有透明或半透明显示器。透明或半透明显示器可结合基板,代表图像的光通过该基板被引导到个体的眼睛。显示器可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶,或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个实施方案中,透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。又如,电子***可以是基于投影的***。基于投影的***可使用视网膜投影将图像投影到个体的视网膜上。另选地,投影***还可将虚拟对象投影到物理场景中(例如,投影到物理表面上或作为全息图)。SR***的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的镜片、耳机或耳塞、扬声器布置、输入机构(例如,具有或不具有触觉反馈的控制器)、平板电脑、智能电话,以及台式计算机或膝上型计算机。
AR环境可向用户提供用于与其物理环境进行交互的直观界面。例如,使用显示用户物理环境的图像的AR界面,用户设备可向用户提供虚拟现实对象。具体地,使用AR界面,用户可与在增强现实界面处提供的虚拟现实对象交互,以执行某些任务(例如,控制咖啡机)。实现此类应用的一个挑战是,可以不基于物理环境提供虚拟现实对象。例如,用户可站在厨房中,同时在AR界面处提供与客厅娱乐有关的虚拟现实对象。因此,这些虚拟现实对象与用户当前所在的物理环境具有有限的相关性。用于确定用户位置的常规技术,诸如全球定位***(GPS)技术,通常具有在米范围内的定位误差,使得难以确定例如房屋或建筑物内的精确物理环境(例如,客厅、厨房、卧室)。此外,用于识别物理环境中的实体的当前技术过于耗时,无法在用户四处移动时提供实时响应。例如,当前技术可能使用大量的分类器来识别物理环境中的特定实体,这减慢了整个识别过程。
根据本文描述的一些实施方案,使用用户设备的一个或多个相机获得对应于物理环境的图像数据。用户设备执行分级分类以识别物理环境中的一个或多个特定实体。例如,用户设备使用小于可用分类器的完整集合的预定义分类器的子集来执行初始分类。初始分类识别一个或多个预定义实体。基于所识别的一个或多个预定义实体来估计物理环境的几何布局。基于几何布局确定区域,并且使用与所确定的区域对应的分类器来执行第二级别分类。因此,用户设备可识别所确定的区域中的特定实体。由于并非所有可用分类器都用于所有实体,因此分级分类改善了识别物理环境中特定实体的性能,降低了功率消耗并实现了实时分类。基于所识别的特定实体,用户设备确定对应于用户设备获得的图像数据的物理环境的类型(例如,客厅、厨房、卧室等),然后显示对应于物理环境的表示的虚拟现实对象。因此,所显示的虚拟现实对象是基于环境的,因此与例如房屋或建筑物内的物理环境(例如,客厅、厨房、卧室)的类型相关。向用户提供基于环境的服务增强了用户体验并改善了***的性能。
图1A和图1B描绘了用于各种模拟现实技术的示例性***100,这些技术包括虚拟现实和混合现实。
在一些实施方案中,如图1A所示,***100包括设备100a。设备100a包括各种部件,诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件任选地通过设备100a的通信总线150进行通信。
在一些实施方案中,***100的元件在基站设备(例如,计算设备,诸如远程服务器、移动设备或膝上型计算机)中实现,并且***100的其他元件在第二设备(例如,头戴式设备)中实现。在一些示例中,设备100a在基站设备或第二设备中实现。
如图1B所示,在一些实施方案中,***100包括两个(或更多个)通信中的设备,诸如通过有线连接或无线连接。第一设备100b(例如,基站设备)包括处理器102、RF电路104和存储器106。这些部件可选地通过设备100b的通信总线150进行通信。第二设备100c(例如,头戴式设备)包括各种部件,诸如处理器102、RF电路104、存储器106、图像传感器108、取向传感器110、麦克风112、位置传感器116、扬声器118、显示器120和触敏表面122。这些部件可选地通过设备100c的通信总线150进行通信。
***100包括处理器102和存储器106。处理器102包括一个或多个通用处理器、一个或多个图形处理器、和/或一个或多个数字信号处理器。在一些实施方案中,存储器106是存储计算机可读指令的一个或多个非暂态计算机可读存储介质(例如,闪存存储器,随机存取存储器),所述计算机可读指令被配置为由处理器102执行以执行下述技术。
***100包括RF电路104。RF电路104可选地包括用于与电子设备、网络(诸如互联网、内联网)和/或无线网络(诸如蜂窝网络和无线局域网(LAN))通信的电路。RF电路104可选地包括用于使用近场通信和/或短程通信(诸如)进行通信的电路。
***100包括显示器120。显示器120可具有不透明显示器。显示器120可具有透明或半透明显示器,其可结合基板,代表图像的光通过该基板被引导到个体的眼睛。显示器120可结合LED、OLED、数字光投影仪、激光扫描光源、硅上液晶,或这些技术的任意组合。透射光的基板可以是光波导、光组合器、光反射器、全息基板或这些基板的任意组合。在一个实施方案中,透明或半透明显示器可在不透明状态与透明或半透明状态之间选择性地转换。显示器120的其他示例包括平视显示器、能够显示图形的汽车挡风玻璃、能够显示图形的窗口、能够显示图形的透镜、平板电脑、智能电话,以及台式计算机或膝上型计算机。另选地,***100可被设计为接收外部显示器(例如,智能电话)。在一些实施方案中,***100是基于投影的***,其使用视网膜投影将图像投影到个人的视网膜上,或将虚拟对象投影到物理场景中(例如,投影到物理表面上或作为全息照相)。在一些实施方案中,***100包括触敏表面122,用于接收用户输入,诸如轻击输入和滑动输入。在一些示例中,显示器120和触敏表面122形成触敏显示器。
***100包括图像传感器108。图像传感器108任选地包括可操作以从物理场景获取物理元素的图像的一个或多个可见光图像传感器,诸如电荷耦合设备(CCD)传感器和/或互补金属氧化物半导体(CMOS)传感器。图像传感器还任选地包括一个或多个红外(IR)传感器,诸如无源IR传感器或有源IR传感器,用于检测来自物理场景的红外光。例如,有源IR传感器包括IR发射器,诸如IR点发射器,用于将红外光发射到物理场景中。图像传感器108还任选地包括一个或多个事件相机,该事件相机被配置为捕获物理场景中物理元素的移动。图像传感器108还任选地包括一个或多个深度传感器,这些深度传感器被配置为检测物理元素与***100的距离。在一些示例中,***100组合使用CCD传感器、事件相机和深度传感器来检测***100周围的物理场景。在一些示例中,图像传感器108包括第一图像传感器和第二图像传感器。第一图像传感器和第二图像传感器任选地被配置为从两个不同的视角捕获物理场景中物理元素的图像。在一些示例中,***100使用图像传感器108来接收用户输入,诸如手势。在一些示例中,***100使用图像传感器108来检测***100和/或显示器120在物理场景中的位置和取向。例如,***100使用图像传感器108来跟踪显示器120相对于物理场景中的一个或多个固定元素的位置和取向。
在一些实施方案中,***100包括麦克风112。***100使用麦克风112来检测来自用户和/或用户的物理场景的声音。在一些示例中,麦克风112包括麦克风阵列(包括多个麦克风),麦克风任选地协同操作,以标识环境噪声或在物理场景的空间中定位声源。
***100包括用于检测***110和/或显示器100的取向和/或移动的取向传感器120。例如,***100使用取向传感器110来跟踪***100和/或显示器120的位置和/或取向的变化,诸如相对于物理场景中的物理元素。取向传感器110可选地包括一个或多个陀螺仪和/或一个或多个加速度计。
现在转向图2A-2B、图3A-3B、图4、图5、图6A-6C和图7A-7C,描述了根据一些实施方案用于在电子设备(例如,100a)上的AR环境中提供内容的示例性电子设备和用户界面。这些附图用于示出下文描述的包括图8中的过程的过程。
图2A描绘了根据各种实施方案的获得室内物理环境200的图像数据并显示室内物理环境的表示204(例如图像)的用户设备202。在本实施方案中,用户设备202是独立设备,诸如手持移动设备(例如,智能电话)或独立头戴式设备。应该认识到,在其他实施方案中,用户设备202可以通信地耦接到另一个设备,诸如基础设备(例如,基础设备102b)。在这些实施方案中,下面描述的用于在AR环境中提供基于环境的内容的操作可在用户设备202和其他设备之间共享。
图2A示出了用户210将用户设备202保持在用户手中的示例。在一些实施方案中,用户210将用户设备佩戴为头戴式设备。用户设备202可以使用一个或多个相机获得图像数据。示例性相机包括电荷耦合设备(CCD)型相机和事件相机。
在一些实施方案中,用户设备202使用获得的图像数据显示室内物理环境的表示204。表示204是物理环境的实时2D图像或3D图像。物理环境200例如是在用户设备所面对的方向上的或用户设备所处的真实世界物理环境。在图2A中,物理环境200是用户厨房的至少一部分,该部分在用户前面或者用户位于其中。物理环境可为室内环境或室外环境。在室内环境中,物理环境可为用户设备所处的或在用户设备所面向的方向上的特定房间或区域(例如,客厅、家庭活动室、办公室、厨房、教室、自助餐厅等)。如下文所详述,用户设备202可基于物理环境向用户提供内容(例如,虚拟现实对象)。例如,如果物理环境是厨房,则用户设备202可显示对应的虚拟现实对象,诸如食物配方、咖啡机的遥控器或用于订购食物的用户界面。如果物理环境是客厅,则用户设备202可显示对应的虚拟现实对象,诸如电视机的遥控器、用于订购电影的用户界面或用于订阅杂志的用户界面。如果物理环境是教室,则用户设备202可显示对应的虚拟现实对象,诸如虚拟现实书或笔记。
图2B描绘了根据各种实施方案的获得室外物理环境220的图像数据并显示室外物理环境的表示224(例如图像)的用户设备202。类似于上面描述的那些,在本实施方案中,物理环境220是用户前面或用户所在的公园的至少一部分。在室外环境中,物理环境可为用户所处的或在用户面对的方向上的特定区域。用户设备202可基于物理环境向用户提供内容(例如,虚拟现实对象)。例如,如果物理环境是包括湖、动物和/或建筑物的公园的一部分(如图2B所示),则用户设备202可显示虚拟现实对象,诸如用于订购娱乐设备(例如,船)、动物(例如,鹿)的标识或关于(例如,描述)建筑物的视频的用户界面。
在一些实施方案中,用户设备被配置为例如使用多个分类器基于由一个或多个相机捕获和/或记录的图像数据来识别物理环境中的多个预定义实体中的一个或多个预定义实体。分类器可被配置为执行图像分析和分类,以识别物理环境中的实体。例如,分类器被配置为分析各种图像特征的性质并将数据组织成类。在一些实施方案中,分类器被配置为执行以下两个阶段的处理:训练阶段和分析阶段。在训练阶段,典型图像特征的特征性质被隔离,并且基于特征性质生成每一类的描述。在分析阶段,分类器被配置为识别待分析图像的特征,并基于所识别的特征识别物理环境的一个或多个实体。
图3A描绘了被配置为识别室内物理环境的一个或多个预定义实体的用户设备的分类器310A-E。如图3A所描绘,表示304是由用户设备的一个或多个相机捕获或记录的图像。在一些实施方案中,当在显示器上显示表示304时,用户设备使用预定义的分类器310A-E来执行初始分类。分类器310A-E是用户设备302可用的分类器310A-N的子集。如上所述,在某些情况下(例如,存在大量可用的分类器),基于表示304使用所有可用的分类器来识别物理环境中的每个实体可能是不切实际或不期望的,因为这可能导致识别每个实体过程中的过度延迟,可能具有不准确的识别,并且可能不提供期望的用户体验。因此,在一些实施方案中,可执行初始分类,使得有限数量的预定义分类器被用于识别物理环境中的一个或多个预定义实体。
如图3A所示,在一些实施方案中,对于诸如厨房的室内环境,用于初始分类的预定义分类器包括天花板分类器310A、墙壁分类器310B、桌台分类器310C、椅子分类器310D和地板分类器310E。其他分类器(例如,咖啡机分类器、个人分类器)从用于初始分类的分类器中被排除。用于初始分类的预定义分类器因此可识别预定义的实体,诸如天花板、桌台、墙壁、椅子和地板,以便确定物理环境的几何布局。在一些示例中,用户设备可被配置为进一步确定所识别的物理对象或预定义实体是否被指示为具有低移动性(例如,相对于其他物理对象或预定义实体的低移动性)。例如,用户设备可获得与所识别的物理对象相关联的一个或多个性质,并确定所识别的物理对象是否具有低移动性(或高移动性)。例如,天花板或地板具有低移动性或没有移动性,而桌台可具有低或中等的移动性,并且椅子可具有中等或高的移动性。应当理解,可基于设备的预期用途(例如,在家庭环境中使用)以任何期望的方式来预定义用于初始分类的分类器的类型(例如,天花板分类器、地板分类器、桌台分类器、椅子分类器)。在一些实施方案中,还可使用机器学习技术来学习或训练用于初始分类的分类器的类型。例如,基于与不同物理环境相关联的训练数据,诸如过去使用过用户设备的训练数据(例如,经常使用用户设备的物理环境是客厅、厨房等),可以导出或确定用于初始分类的分类器的类型(例如,天花板分类器、地板分类器、桌台分类器)。
在一些实施方案中,为了基于表示304来识别多个预定义实体中的一个或多个实体,用于初始分类的预定义分类器(例如,分类器310A-E)被配置为针对所获得的对应于表示304的图像数据的每个单元来确定一个或多个候选类。例如,用于初始分类的预定义分类器可被配置为搜索表示304的每个像素或一组像素,以确定像素或像素组的一个或多个候选类。例如,表示304的一个像素或一组像素(例如,2D图像)被分类为对应于多个候选类,诸如墙壁、桌台和天花板。分类器可被配置为对一个像素或一组像素的候选类进行排名。例如,基于一个像素或一组像素对应于已知类的特有特征的概率,候选类可从最高概率到最低概率进行排名(例如,特定组像素有更高的概率是桌台类而不是椅子类)。
接下来,分类器可被配置为将排名后的候选类中的一个或多个类确定为对应于物理环境中的一个或多个预定义实体的类。例如,天花板分类器310A可被配置为确定天花板类是对应于表示304的天花板311A的区域中的像素组的最高排名的类;墙壁分类器310B可被配置为确定墙壁类是对应于表示304的墙壁311B的区域中的像素组的最高排名的类;桌台分类器310C可被配置为确定桌台类是对应于表示304的桌台311C的区域中的像素组的最高排名的类,等等。
图3B描绘了用户设备的分类器320A-C的另一个集合,其被配置为识别室外物理环境的预定义实体。类似于上述描述,物理环境的表示322是用户设备使用一个或多个相机捕获或记录的室外环境(例如,公园)的图像。用户设备在显示器302上显示对应于室外环境的表示322。在一些实施方案中,当在显示器上显示表示322时,用户设备可使用所有可用分类器310A-N中的有限数量的分类器320A-C来执行初始分类。用于初始分类的预定义分类器320A-C包括例如天空分类器320A、树分类器320B和地面分类器320C。分类器320A-C的类型(例如,天空分类器、树分类器、地面分类器)可由用户预定义和/或使用机器学习技术来学习/训练。在一些实施方案中,用于初始分类的预定义分类器320A-C的类型可基于上下文信息获得,诸如由全球定位***(GPS)传感器324提供的用户设备的位置。例如,如果GPS位置指示用户可能在公园或室外其他地方,则多个预定义的室外相关分类器(例如,天空分类器320A、树分类器320B、地面分类器320C)被用于初始分类,而室内相关分类器(例如,天花板分类器310A、墙壁分类器310B)被排除。
如上所述,对于初始分类,对应于多个预定义实体的预定义分类器的集合用于基于物理环境的表示(例如,捕获或记录的图像)来识别一个或多个预定义实体。用于初始分类的预定义分类器的集合是小于可用分类器的完整集合的分类器的子集。如下面更详细描述的,分类器的子集可用于以改进的速度对物理环境进行初始排序。随后,使用特定的分类器对使用初始排序识别的特定区域中的实体进行分类。因此,使用两级或更多级分类器的分级分类可以以改进的速度提供准确的分类,从而增强用户体验,以便基于物理环境提供内容(例如,虚拟现实对象)。
如图3A所示和如上所述,基于获得的图像数据,对应于多个预定义实体的多个分类器可被配置为识别物理环境中的一个或多个预定义实体(例如,天花板311A、墙壁311B、桌台311C、椅子311D、地板311E)。基于这些识别的预定义实体,用户设备的几何布局估计器可被配置为确定物理环境的几何布局。
图4描绘了几何布局估计器402,其被配置为确定对应于特定实体的物理环境和区域的几何布局。参照图4,几何布局估计器402被配置为估计例如物理环境的布局,诸如表示304中所示的厨房。在一些实施方案中,为了确定物理环境的布局,几何布局估计器402被配置为确定与一个或多个识别的预定义实体相关联的空间信息。如图4所示和如上所述,识别一个或多个预定义实体,诸如天花板、墙壁、地板、桌台和/或椅子。几何布局估计器402被配置为确定所识别的预定义实体相对于基坐标系和/或相对于彼此的空间位置。在一些示例中,如图4所示,几何布局包括表示工作台面的表面。几何布局估计器402还被配置为确定实体的相对对准。例如,使用所识别实体的绝对或相对空间位置,几何布局估计器402确定天花板411A在桌台411C上方,桌台411C又在地板411E上方;并且墙壁411B在天花板411A和地板411E之间。在一些实施方案中,在确定空间位置之前建立基坐标系。
在一些实施方案中,几何布局估计器402还被配置为确定与一个或多个识别的预定义实体相关联的深度信息。例如,使用多个相机(例如,数码相机、红外相机),确定识别的预定义实体中的每一个和用户设备之间的距离。该距离是基于由两个或更多个相机捕获的3D感知的差异来确定的。又如,深度传感器(例如,3D飞行时间传感器)用于确定识别的预定义实体中的每一个和用户设备之间的距离。深度传感器可为例如激光雷达***。
根据空间信息和深度信息,几何布局估计器402被配置为确定物理环境的几何布局。参照图4,例如,几何布局估计器402确定具有天花板411A、一个或多个墙壁411B、桌台411C、一个或多个椅子411D和地板411E的厨房的布局。厨房的布局指示实体相对于彼此的空间关系以及实体离用户设备的距离(例如,相机的视角)。
在一些实施方案中,几何布局估计可基于所识别的实体(例如,由分类器使用实体的特有特征诸如颜色、形状、纹理和边缘来识别)和一个或多个消失点的检测来执行。几何布局估计器402被配置为使用例如结构化支持向量机(SVM)和/或条件随机场(CRF)技术来执行后处理以生成一个或多个布局假设。因此,利用2D布局和消失点的知识,可获得物理环境的布局的3D重建。在一些实施方案中,几何布局估计器402被配置为使用快速卷积神经网络(R-CNN)、完全卷积网络(FCN)和/或任何其他神经网络或机器学习技术来估计物理环境的布局。
参照图4,基于物理环境的几何布局,区域识别器404被配置为确定对应于特定实体的区域。在一些实施方案中,该特定实体对应于一个或多个识别的预定义实体。如图4所示,如上所述,用于初始分类的分类器的集合被配置为识别预定义实体,诸如天花板、墙壁、桌台、椅子和地板。特定实体可为与初始分类中识别的预定义实体相关联的实体。例如,特定实体可为设置在桌台411C的顶部的咖啡机422;嵌入桌台411C中的水槽424、安装在墙壁413上的橱柜426、设置在咖啡机422中的杯子等。如上所述,几何布局估计器402被配置为确定物理环境的布局。使用物理环境的布局,区域识别器404被配置为识别物理环境的一个或多个区域。例如,参照图4,基于厨房的布局,区域识别器404标识天花板区域412、墙壁区域414、桌台区域416、地板区域418等。
在一些实施方案中,为了确定对应于特定实体的区域,区域识别器404被配置为确定特定实体(例如,咖啡机422)在物理环境(例如,厨房)内的空间位置和/或取向。注意,当区域识别器404确定区域时,特定实体可能没有被识别。例如,区域识别器404可被配置为确定特定区域对应于特定实体(例如,确定存在位于墙壁区域内的特定实体),而不识别特定实体的分类(例如,不识别特定实体是相框)。在一些实施方案中,区域识别器404被配置为使用基坐标系来确定对应于特定实体的区域。基于特定实体的空间位置和物理环境的几何布局,区域识别器404确定对应于特定实体的一个或多个候选区域。使用咖啡机422作为示例,区域识别器404可确定其空间位置落在桌台411C的区域的空间位置内,并且因此确定桌台411C的区域对应于咖啡机422。在一些实施方案中,区域识别器404可确定两个或更多个区域对应于特定实体。例如,参照图4,基于相框442的空间位置,区域识别器404可确定天花板区域412、墙壁区域414和地板区域418都对应于相框442(例如,相框442的空间位置落在天花板区域412、墙壁区域414和地板区域418的位置内)。在一些实施方案中,区域识别器404可对多个区域进行排名(例如,基于相框442和不同区域412、414和416中的每一个之间的距离),并且选择多个候选区域中的一个作为对应于相框442的区域(例如,墙壁区域414)。
参照图5,基于对应于特定实体的所确定的区域,用户设备被配置为使用对应于所确定的区域的一个或多个分类器来识别物理环境中的特定实体。图5描绘了对应于墙壁区域的分类器510和对应于桌台区域的分类器520,分类器510被配置为识别位于墙壁区域中或与墙壁区域相关联的特定实体,分类器520被配置为识别位于桌台区域中或与桌台区域相关联的特定实体。如上所述,在用于识别诸如天花板、墙壁、地板等的预定义实体的初始分类中,使用小于所有可用分类器的完整集合的分类器的子集。在一些实施方案中,在初始分类之后,在确定对应于特定实体的区域时,可执行第二级分类(例如,特定区域中的特定实体的更精准的分类)。例如,参照图5,在确定待识别的特定实***于桌台区域416内时,用户设备获得对应于桌台区域416的一个或多个分类器。一个或多个分类器可包括例如咖啡机分类器520A、水槽分类器520B、杯子分类器520C或与桌台区域相关联的任何其他分类器。
类似于初始分类,用户设备被配置为使用对应于所确定的区域的一个或多个分类器来确定与位于所确定的区域中或与所确定的区域相关联的特定实体相关联的一个或多个候选类。例如,对应于桌台区域416的分类器520A-N可被配置为单独或组合地搜索桌台区域416的图像的每个像素,以确定与特定实体相关联的一个或多个候选类。使用咖啡机422作为示例,对应于咖啡机422的图像区域的一个像素或一组像素可被分类为对应于候选类,诸如咖啡机、烤面包机、烤箱、饮水机等。分类器520A-N可被配置为对一个像素或一组像素的候选类进行排名。例如,基于一个像素或一组像素对应于已知类的特有特征的概率,候选类可从最高概率到最低概率进行排名(例如,特定组像素对应于咖啡机,而不是烤面包机)。接下来,分类器可被配置为将排名后的候选类中的一个或多个类确定为对应于物理环境中的一个或多个预定义实体的类。例如,咖啡机分类器520A可确定咖啡机类是对应于与桌台区域416中待识别的特定个体相关联的像素组的最高排名类。结果,为待识别的特定实体选择咖啡机类;并且用户设备因此将该特定实体识别为咖啡机422。
参照图5,类似地,用户设备被配置为在确定墙壁区域414对应于特定实体时获得对应于墙壁区域414的一个或多个分类器1010A-N。例如,分类器510A-N可包括相框分类器510A、橱柜分类器510B以及对应于墙壁区域的任何其他分类器。用户设备使用对应于所确定的区域的一个或多个分类器510A-N来确定与特定实体相关联的一个或多个候选类;对一个或多个候选类进行排名(例如,基于机器学习模型);并且选择一个或多个排名后的候选类中的一个作为对应于特定实体的类。如图5所示,分类器510A-N被配置为确定在墙壁区域414中待识别的特定实体的候选类包括相框、油画、地毯、壁纸等。分类器510A-N被配置为使用机器学习技术(例如,基于在训练阶段期间学习的每个类的特有特征)从最高概率到最低概率对类进行排名。用户设备选择具有最高概率的类。如图5所示,分类器510A-N因此可用于选择相框类作为相框442的类。
类似于初始分类,在第二级分类中使用的分类器可基于上下文信息获得,诸如由全球定位***(GPS)提供的用户设备的位置。例如,如果GPS位置指示用户设备可能在公园或室外其他地方,则即使所确定的区域是桌台区域,咖啡机分类器也被排除。相反,可获得室外野餐相关的分类器(例如,冷却器分类器、烧烤架分类器等)。
在识别诸如咖啡机的特定实体的上述示例中,描述了初始分类和第二级分类。应当理解,用户设备可使用任意数量的级别来执行分级分类。例如,用户设备可被配置为使用对应于所识别的特定实体的一个或多个分类器来识别物理环境中不同于所识别的特定实体的第二特定实体。参照图5,在识别出桌台区域416中的特定实体是咖啡机422时,用户设备可被配置为使用对应于所识别的咖啡机422的分类器来迭代地识别第二特定实体。对应于咖啡机422的分类器可包括例如杯子分类器520C、咖啡袋分类器等。例如,用户设备可使用杯子分类器520C识别位于咖啡机422中或与咖啡机422一起使用的杯子532。
还应当理解,用户设备可被配置为使用分级分类来识别物理环境中的多个特定实体或物理对象(例如,所有或大量特定实体)。例如,参照图6A,用户设备可被配置为识别特定实体,包括烤箱612、微波炉614、咖啡机616、水槽618等。分级分类通过避免使用所有可用的分类器对物理环境中的每个特定实体进行分类(这可能是耗时且不切实际的)来提高分类性能。
在一些实施方案中,用户设备可被配置为基于一个或多个识别的特定实体来确定物理环境的类型。例如,用户设备可存储多种预定义类型的物理环境,诸如厨房、客厅、家庭活动室、卧室、会议室、教室等。预定义类型的物理环境可由用户定义或者由用户设备使用机器学习技术来学习。参照图6A,物理环境确定器610被配置为:使用这些预定义类型的物理环境来确定对应于一个或多个识别的特定实体的一个或多个预定义类型的物理环境,并选择一个作为在用户设备所面对的方向上的或用户设备所处的物理环境的类型。
作为示例,参照图6A,基于物理环境包括烤箱612、微波炉614、咖啡机616和水槽618的识别,物理环境确定器610被配置为确定用户正面对的物理环境的类型最可能是厨房。物理环境确定器610可用于通过将所识别的特定实体612、614、616和618和与预定义的厨房类型的物理环境相关联的实体进行比较来执行这种确定。如果和与预定义类型的物理环境相关联的实体匹配的所识别的特定实体的数量或百分比大于阈值数量或百分比(例如,90%),则物理环境确定器610确定物理环境的类型例如最有可能是厨房。
在一些实施方案中,不止一种类型的物理环境可包括相同的特定实体。例如,参照图6B和图6C,关于由图像640所示的教室环境660和图像670中所示的会议环境680两者,用户设备的分类器可识别一个或多个类似的特定实体。如图6B所示,用户设备的分类器用于识别特定实体,诸如白板646、多个椅子644、一个或多个桌台642和讲台648。类似地,如图6C所示,用户设备的分类器被配置为识别特定实体,诸如白板662、多个椅子664、一个或多个桌台666和投影仪668。结果,物理环境确定器610可能不能仅基于所识别的特定实体来确定用户正面对或位于其中的物理环境的类型。在一些实施方案中,物理环境确定器610可被配置为使用除了所识别的特定实体之外的其他信息来确定物理环境的类型。这种附加信息包括例如物理环境的几何布局、神经网络模型和/或上下文信息。
作为图6B和图6C所示的示例,在一些实施方案中,物理环境确定器610用于分别使用由几何布局估计器402提供的几何布局652或672来确定物理环境的类型。例如,图6B所示的教室环境的几何布局是这样的,即桌台彼此分开设置,并且所有或大部分椅子正面对白板。相比之下,图6C所示的会议室环境的几何布局是这样的,即桌台彼此靠近设置或者彼此接触,并且椅子大多在彼此面对的两组中。结果,使用几何布局,物理环境确定器610可确定图6B中显示的物理环境对应于教室环境660,而图6C中显示的物理环境对应于会议环境680。
如上所述,物理环境(例如,室内环境或室外环境)可包括各种实体。其中一些实体是暂态物品,可能不是确定物理环境类型的可靠指标。此类暂态物品(例如,猫、车辆)相对于其他物品(例如,建筑物、树木)可具有高移动性。移动性是描述实体或物理对象可物理移动的程度的属性(例如,随时间改变位置的能力)。一些非暂态或静止的物理对象具有低移动性。例如,它们不移动或长时间不移动。在一些实施方案中,这些暂态物品不用于确定物理环境的类型。
图7A至图7C描绘了在AR界面中显示对应于各种类型的物理环境的表示的虚拟现实对象的用户设备。参照图7A至图7C,基于在用户设备面对的方向上的或用户设备所处的物理环境的类型,用户设备被配置为提供对应于该物理环境的服务(例如,显示一个或多个虚拟现实对象)。如图7A所示,在一些实施方案中,用户设备704显示厨房的表示702。表示702可为例如2D图像、视频、动画、3D图像、或厨房或厨房中的特定实体的任何类型的视觉表示。例如,用户设备704显示物理环境中所识别的特定实体的表示(例如,咖啡机616的表示)。如上所述,可使用分级分类来识别物理环境中的特定实体。
在一些实施方案中,用户设备704可以被配置为在显示厨房的表示702的同时使用与物理环境对应的一个或多个虚拟现实对象来提供一个或多个服务。一个或多个服务对应于在用户设备所面对的方向上的或用户设备所处的物理环境。参照图7A,如上所述,在该实施方案中的物理环境被确定为厨房,并且使用分级分类来识别一个或多个特定实体,诸如咖啡机。因此,用户设备704可提供例如:有时也称为虚拟对象的虚拟现实对象716(例如,虚拟现实遥控器),使用户能够远程控制咖啡机(例如,将时间设置为在上午8点开始冲泡);以及向用户提供晚餐建议的虚拟现实对象718(例如,用于食谱建议的用户界面)。在一些实施方案中,虚拟现实对象可叠加在厨房的表示702上。虚拟现实对象还可提供在用户设备704的单独显示区域或通信地耦接到用户设备704的另一设备上。在一些示例中,显示虚拟对象包括使用用户设备704的多个显示器以3D立体格式显示虚拟对象。
参照图7B,如上所述,在该示例中的物理环境被确定为教室,并且使用分级分类来识别一个或多个特定实体,诸如白板、桌台和椅子。结果,用户设备704可显示教室的表示740,并且提供例如:虚拟现实对象742(例如,用于记课堂笔记的用户界面),使得用户能够输入课堂笔记;和为班级提供教科书的虚拟现实对象744(例如,虚拟现实书)。在一些实施方案中,虚拟现实对象可叠加在教室的表示740上。虚拟现实对象还可提供在用户设备704的单独显示区域或通信地耦接到用户设备704的另一设备上。
如图7B所示和如上所述,用户设备704可使用分级分类来识别教室中的一个或多个特定实体(例如,桌台、椅子、白板、讲台)。在一些实施方案中,用户设备704进一步估计与一个或多个所识别的特定实体的位置和取向相关联的参数。例如,用户设备704可估计特定实体的六个自由度,这六个自由度是限定或指定特定实体的位置的独立坐标的数量。基于六个自由度,用户设备704可确定特定实体的位置。在一些实施方案中,用户设备704还估计特定实体的取向。基于获得的图像数据,用户设备704估计例如特定桌台是面向上还是侧向放置。在一些实施方案中,基于估计的参数(例如,位置和/或取向),用户设备704方便用户与虚拟现实对象的交互。如图7B所示,基于教室中桌台的位置和/或取向,用户设备704在正被显示的桌台的表示746的顶部上呈现虚拟现实对象744(例如,虚拟现实书)。用户设备704可进一步方便用户与虚拟现实对象744进行交互,例如,通过允许用户翻动书、高亮显示书、合上书、在书上写笔记等。
参照图7C,如上所述,在该示例中的物理环境被确定为会议室,并且使用分级分类来识别一个或多个特定实体,诸如白板、桌台和椅子。结果,用户设备704可显示会议室的表示760,并且提供虚拟现实对象762(例如,显示今天中午的会议的演示的应用),使得用户能够查看/编辑/练习该演示。在一些实施方案中,虚拟现实对象可叠加在会议室的表示760上。虚拟现实对象还可提供在用户设备704的单独显示区域或通信地耦接到用户设备704的另一设备上。
在一些实施方案中,用户设备可检测与物理环境或用户活动中的至少一个相关联的事件,并且响应于检测到该事件而使用一个或多个虚拟现实对象来提供基于环境的服务。事件可与物理环境的变化(例如,添加、移除或改变物理环境中的特定实体)相关。参照图7C,事件可与进入会议室的会议出席者(未示出)相关联。事件可与用户活动相关。例如,事件可与从另一个房间进入会议室的用户相关联,或者可与在会议室中与一个或多个特定实体(例如,投影仪或人)交互的用户相关联。
用户设备可被配置为:响应于检测到触发事件,执行上述任务中的一个或多个:获取图像数据;识别物理环境中的多个预定义实体中的一个或多个预定义实体;确定物理环境的几何布局;确定对应于特定实体的区域;识别特定实体;确定物理环境的类型;以及显示对应于物理环境的表示的一个或多个虚拟现实对象。例如,参照图7C,用户设备704监测会议室(例如,使用一个或多个传感器,诸如相机、麦克风、红外传感器等)以检测与会议室或用户活动相关联的事件。响应于检测到事件(例如,会议出席者进入房间),用户设备704识别一个或多个新添加的特定实体(例如,刚刚进入房间的会议出席者)并显示虚拟现实对象762(例如,显示今天的演示)。
在一些实施方案中,用户设备可被配置为存储与物理环境相关联的数据。例如,用户设备可存储物理环境的所获得的图像数据、所识别的特定实体、所确定的物理环境的类型等。用户设备可监测物理环境和用户活动,以获得和存储与检测事件相关联的新数据。例如,参照图7C,随着更多的会议出席者(未示出)进入会议室,用户设备只需要识别新进入房间的出席者,而不需要再次确定物理环境的类型。
在一些实施方案中,用户设备或其一个或多个部件可被配置为进入省电或低功率模式并在检测到事件时重新进入正常操作模式。例如,用户设备的一个或多个相机可被配置为在用户设备在预定时间段(例如,1分钟)内没有检测到事件时进入低功率模式或者被关闭。随后,在用户设备检测到事件(例如,会议出席者进入会议室)之后,可重新激活(例如,重新启用)或唤醒相机(例如,事件相机),以获得物理环境中新添加的特定实体的图像(例如,识别新进入会议室的会议出席者)。
现在转向图8,其示出了用于在AR环境中提供内容的示例性过程800的流程图。在以下描述中,过程800被描述为使用用户设备(例如,设备100a或202)来执行。用户设备例如是手持式移动设备或头戴式设备。应当认识到,在其他实施方案中,使用两个或更多个电子设备来执行过程800,例如通信地耦接到另一设备(诸如基础设备)的用户设备。在这些实施方案中,过程800的操作以任何方式分布在用户设备与另一设备之间。此外,应当理解,用户设备的显示器可以是透明的或不透明的。尽管在图8中以特定顺序描绘了过程800的框,但是应当理解,可以以任何顺序执行这些框。此外,过程800的一个或多个框可以是任选的和/或可以执行附加框。
在框802,获得对应于物理环境的图像数据。图像数据使用用户设备的一个或多个相机来捕获。
在框804,执行初始分类,并且使用对应于多个预定义实体的多个分类器来识别物理环境中的多个预定义实体中的一个或多个预定义实体。在一些实施方案中,对应于多个预定义实体的多个分类器是小于可用分类器的完整集合的子集。该识别基于图像数据。例如,为了识别一个或多个预定义实体,对于所获得的图像数据的每个单元,确定与多个预定义实体中的一个或多个预定义实体相关联的一个或多个候选类。接下来,对与一个或多个预定义实体相关联的一个或多个候选类进行排名;并且排名后的候选类中的一个或多个类被确定为对应于物理环境中的一个或多个预定义实体的类。
在框806,基于所识别的预定义实体中的一个或多个,确定物理环境的几何布局。例如,为了确定几何布局,确定与物理环境中的所识别的预定义实体中的一个或多个相关联的空间信息。在一些实施方案中,确定空间信息包括:使用坐标系来确定所识别的预定义实体中的一个或多个的空间位置;以及基于所识别的预定义实体中的一个或多个的所确定的空间位置来确定所识别的预定义实体中的一个或多个的对齐。进一步确定与所识别的预定义实体中的一个或多个相关联的深度信息。例如,确定深度信息可包括使用一个或多个相机中的多个相机和/或使用深度传感器来估计深度信息。因此,根据空间信息和深度信息来估计物理环境的几何布局。
在框808,基于物理环境的几何布局,确定对应于特定实体的区域。所述特定实体对应于一个或多个识别的预定义实体。在一些实施方案中,为了确定区域,确定物理环境内的特定实体的空间位置。基于特定实体的空间位置和物理环境的几何布局,确定对应于特定实体的一个或多个候选区域。并且一个或多个候选区域中的一个被选择作为对应于物理环境内的特定实体的区域。
在框810,基于对应于特定实体的区域,使用对应于确定的区域的一个或多个分类器来识别物理环境中的特定实体。在一些实施方案中,为了识别特定实体,获得对应于所确定的区域的一个或多个分类器。在一些实施方案中,获得对应于所确定的区域的一个或多个分类器包括基于与物理环境相关联的上下文信息获得一个或多个分类器。使用对应于所确定的区域的一个或多个分类器,确定与特定实体相关联的一个或多个候选类。基于机器学习模型对一个或多个候选类进行排名。并且一个或多个排名后的候选类中的一个被选择作为对应于特定实体的类。
在一些实施方案中,使用对应于特定实体的一个或多个分类器,识别物理环境中不同于特定实体的第二特定实体。
在框812,基于所识别的特定实体,确定物理环境的类型。在一些实施方案中,为了确定物理环境的类型,基于物理环境的多个预定义类型,确定对应于所识别的特定实体的一个或多个预定义类型。并且一个或多个预定义类型中的一个被选择作为物理环境的类型。
在框814,基于物理环境的类型,显示对应于物理环境的表示的一个或多个虚拟现实对象。在一些实施方案中,显示虚拟现实对象包括:显示物理环境的表示;以及使用一个或多个虚拟现实对象提供一个或多个服务。一个或多个服务对应于物理环境的类型。在一些实施方案中,提供服务包括基于所识别的特定实体来估计与所识别的特定实体的取向相关联的参数。基于与所识别的特定实体的取向相关联的估计参数,便于用户与所识别的特定实体的显示表示进行交互。
在一些实施方案中,显示物理环境的表示包括显示所识别的特定实体的表示。在一些实施方案中,显示物理环境的表示包括以3D格式显示所识别的特定实体的表示。
在一些实施方案中,可通过检测与物理环境或用户活动中的至少一个相关联的事件来触发用户设备对任务的执行。该任务可包括以下一项或多项:获得图像数据;识别物理环境中的多个预定义实体中的一个或多个预定义实体;确定物理环境的几何布局;确定对应于特定实体的区域;识别特定实体;确定物理环境的类型;以及显示对应于物理环境的表示的一个或多个虚拟现实对象。
上述技术的各方面设想了收集和使用个人信息来向用户提供基于环境的服务的可能性,这增强了用户体验并提高了***的性能。此类信息应在用户知情同意的情况下收集。
处理此类个人信息的实体将遵守既定的隐私做法和/或隐私政策(例如,由第三方认证的政策),这些政策(1)通常被认为符合或超过行业或政府要求,(2)用户可访问,(3)根据需要进行更新,并且(4)符合适用法律。处理此类个人信息的实体将把这些信息用于合理且合法的用途,而不会在那些合法用途之外进行共享或销售。
然而,用户可选择性地限制个人信息的访问/使用。例如,用户可选择参与或不参与他们的个人信息的收集。此外,尽管上述技术的各方面设想了个人信息的使用,但是这些技术的各方面可在不需要或不使用个人信息的情况下实现。例如,如果收集了位置信息、用户名和/或地址,它们可被一般化和/或屏蔽,使得它们不能唯一地识别个体。
出于例示和描述的目的呈现了具体实施方案的前述描述。它们并非旨在穷举或将权利要求的范围限制于所公开的精确形式,并且应当理解,鉴于上述教导,许多修改和变型是可能的。

Claims (34)

1.一种显示虚拟对象的方法,包括:
在具有一个或多个处理器、存储器和相机的电子设备处:
使用所述相机获得物理场景的图像数据;
基于所述图像数据,使用物理对象的分类器来识别所述物理场景中的一个或多个物理对象;
基于识别的所述物理对象中的所述一个或多个,确定所述物理场景的几何布局;以及
基于所述确定的几何布局显示与所述物理场景相关联的虚拟对象。
2.根据权利要求1所述的方法,还包括:
使用位于所述物理场景的所述几何布局的一部分中的识别的物理对象来确定所述物理场景的类型,并且
其中,显示与所述物理场景相关联的所述虚拟对象包括基于所述物理场景的所述类型来显示所述虚拟对象。
3.根据权利要求1和2中任一项所述的方法,其中,确定所述物理场景的所述几何布局包括:
确定识别的物理对象是否被指示为具有低移动性;以及响应于确定识别的所述物理对象被指示为具有低移动性,使用识别的所述物理对象来确定所述物理场景的所述几何布局。
4.根据权利要求1和2中任一项所述的方法,识别的多个物理对象包括厨房用具,其中,所述物理场景的所述确定的类型是厨房,其中,所述几何布局包括表示工作台面的表面,并且其中,所述显示的虚拟对象包括食谱。
5.根据权利要求1和2中任一项所述的方法,
其中,确定所述物理场景的所述几何布局包括:
确定与所述物理场景中的识别的所述物理对象中的一个或多个相关联的空间信息;
确定识别的所述物理对象中的所述一个或多个相对于所述电子设备的距离;以及
根据所述空间信息和所述距离信息估计所述物理场景的所述几何布局。
6.根据权利要求5所述的方法,其中,确定识别的所述物理对象中的所述一个或多个的所述距离包括使用所述电子设备的深度传感器来估计物理对象相对于所述电子设备的深度。
7.根据权利要求1和2中任一项所述的方法,其中,识别在所述物理场景中的所述一个或多个物理对象中的一个包括:
使用一个或多个对象分类器来确定与所述物理对象相关联的一个或多个候选类;
基于由所述对象分类器提供的相应置信概率对所述一个或多个候选类进行排名;以及
基于所述排名选择候选类;
将位于所述物理场景中的物理对象识别为所述选择的候选类的对象。
8.根据权利要求1和2中任一项所述的方法,还包括:
使用所述虚拟对象提供一个或多个服务,其中,所述一个或多个服务对应于所述物理场景的所识别的类型。
9.根据权利要求1和2中任一项所述的方法,还包括:
使用所述虚拟对象提供一个或多个服务,其中,所述一个或多个服务对应于所述物理场景的所述确定的几何布局。
10.根据权利要求1和2中任一项所述的方法,其中,显示所述虚拟对象包括使用所述电子设备的多个显示器以3D立体格式显示所述虚拟对象。
11.根据权利要求1和2中任一项所述的方法,其中:
使用物理对象的分类器识别所述物理场景中的所述一个或多个物理对象包括:
使用对应于所述一个或多个物理对象的多个分类器来识别所述物理场景中的所述一个或多个物理对象,所述方法还包括:
基于所述物理场景的所述确定的几何布局,确定区域;
基于所述确定的区域,使用对应于所述确定的区域的一个或多个分类器来识别所述物理场景中的物理对象,其中,所述物理对象与所述确定的区域相关联;以及
基于识别的特定物理对象,确定所述物理场景的类型,并且
基于所述确定的几何布局显示与所述物理场景相关联的所述虚拟对象包括:
基于所述物理场景的所述类型,显示与所述物理场景相关联的所述虚拟对象。
12.一种计算机可读存储介质,所述计算机可读存储介质存储计算机可执行指令,所述指令当由具有相机的电子设备的一个或多个处理器执行时,使得所述电子设备执行以下操作:
使用所述相机获得物理场景的图像数据;
基于所述图像数据,使用物理对象的分类器来识别所述物理场景中的一个或多个物理对象;
基于识别的所述物理对象中的所述一个或多个,确定所述物理场景的几何布局;以及
基于所述确定的几何布局显示与所述物理场景相关联的虚拟对象。
13.根据权利要求12所述的计算机可读存储介质,其中,所述计算机可执行指令包括进一步指令,所述指令使得所述电子设备执行以下操作:
使用位于所述物理场景的所述几何布局的一部分中的识别的物理对象,确定所述物理场景的类型;以及
其中,显示与所述物理场景相关联的所述虚拟对象包括基于所述物理场景的所述类型来显示所述虚拟对象。
14.根据权利要求12和13中任一项所述的计算机可读存储介质,其中,确定所述物理场景的所述几何布局包括:
确定识别的物理对象是否被指示为具有低移动性;
以及响应于确定识别的所述物理对象被指示为具有低移动性,使用识别的所述物理对象来确定所述物理场景的所述几何布局。
15.根据权利要求12和13中任一项所述的计算机可读存储介质,其中,识别的所述多个物理对象包括厨房用具,其中,所述物理场景的所述确定的类型是厨房,其中,所述几何布局包括表示工作台面的表面,并且其中,所述显示的虚拟对象包括食谱。
16.根据权利要求12和13中任一项所述的计算机可读存储介质,其中,确定所述物理场景的所述几何布局包括:
确定与所述物理场景中的识别的所述物理对象中的一个或多个相关联的空间信息;
确定识别的所述物理对象中的所述一个或多个相对于所述电子设备的距离;以及
根据所述空间信息和所述距离信息估计所述物理场景的所述几何布局。
17.根据权利要求16所述的计算机可读存储介质,其中,确定识别的所述物理对象中的所述一个或多个的所述距离包括使用所述电子设备的深度传感器来估计物理对象相对于所述电子设备的深度。
18.根据权利要求12和13中任一项所述的计算机可读存储介质,其中,识别在所述物理场景中的所述一个或多个物理对象中的一个包括:
使用一个或多个对象分类器来确定与所述物理对象相关联的一个或多个候选类;
基于由所述对象分类器提供的相应置信概率对所述一个或多个候选类进行排名;以及
基于所述排名选择候选类;
将位于所述物理场景中的物理对象识别为所述选择的候选类的对象。
19.根据权利要求12和13中任一项所述的计算机可读存储介质,其中,所述计算机可执行指令包括进一步指令,所述指令使得所述电子设备执行以下操作:
使用所述虚拟对象提供一个或多个服务,其中,所述一个或多个服务对应于所述物理场景的所识别的类型。
20.根据权利要求12和13中任一项所述的计算机可读存储介质,其中,所述计算机可执行指令包括进一步指令,所述指令使得所述电子设备执行以下操作:
使用所述虚拟对象提供一个或多个服务,其中,所述一个或多个服务对应于所述物理场景的所述确定的几何布局。
21.根据权利要求12和13中任一项所述的计算机可读存储介质,其中,显示所述虚拟对象包括使用所述电子设备的多个显示器以3D立体格式显示所述虚拟对象。
22.根据权利要求12和13中任一项所述的计算机可读存储介质,其中:
使用物理对象的分类器识别所述物理场景中的所述一个或多个物理对象包括:
使用对应于所述一个或多个物理对象的多个分类器来识别所述物理场景中的所述一个或多个物理对象,其中,所述计算机可执行指令包括进一步指令,所述指令使得所述电子设备执行以下操作:
基于所述物理场景的所述确定的几何布局,确定区域;
基于所述确定的区域,使用对应于所述确定的区域的一个或多个分类器来识别所述物理场景中的物理对象,其中,所述物理对象与所述确定的区域相关联;以及
基于识别的特定物理对象,确定所述物理场景的类型,并且
基于所述确定的几何布局显示与所述物理场景相关联的所述虚拟对象包括:
基于所述物理场景的所述类型,显示与所述物理场景相关联的所述虚拟对象。
23.一种电子设备,包括:
相机;
存储器;
一个或多个处理器,所述一个或多个处理器可操作地耦接到所述存储器;以及
计算机可执行指令,所述计算机可执行指令存储在所述存储器中并且被配置为由所述一个或多个处理器执行,所述计算机可执行指令包括用于执行以下操作的指令:
使用所述相机获得物理场景的图像数据;
基于所述图像数据,使用物理对象的分类器来识别所述物理场景中的一个或多个物理对象;
基于识别的所述物理对象中的所述一个或多个,确定所述物理场景的几何布局;以及
基于所述确定的几何布局显示与所述物理场景相关联的虚拟对象。
24.根据权利要求23所述的电子设备,其中,所述计算机可执行指令包括进一步指令,所述指令使得所述电子设备执行以下操作:
使用位于所述物理场景的所述几何布局的一部分中的识别的物理对象来确定所述物理场景的类型,并且
其中,显示与所述物理场景相关联的所述虚拟对象包括基于所述物理场景的所述类型来显示所述虚拟对象。
25.根据权利要求23和24中任一项所述的电子设备,其中,确定所述物理场景的所述几何布局包括:
确定识别的物理对象是否被指示为具有低移动性;
以及响应于确定识别的所述物理对象被指示为具有低移动性,使用识别的所述物理对象来确定所述物理场景的所述几何布局。
26.根据权利要求23和24中任一项所述的电子设备,其中,识别的所述多个物理对象包括厨房用具,其中,所述物理场景的所述确定的类型是厨房,其中,所述几何布局包括表示工作台面的表面,并且其中,所述显示的虚拟对象包括食谱。
27.根据权利要求23和24中任一项所述的电子设备,其中,确定所述物理场景的所述几何布局包括:
确定与所述物理场景中的识别的所述物理对象中的一个或多个相关联的空间信息;
确定识别的所述物理对象中的所述一个或多个相对于所述电子设备的距离;以及
根据所述空间信息和所述距离信息估计所述物理场景的所述几何布局。
28.根据权利要求27所述的电子设备,其中,确定识别的所述物理对象中的所述一个或多个的所述距离包括使用所述电子设备的深度传感器来估计物理对象相对于所述电子设备的深度。
29.根据权利要求23和24中任一项所述的电子设备,其中,识别在所述物理场景中的所述一个或多个物理对象中的一个包括:
使用一个或多个对象分类器来确定与所述物理对象相关联的一个或多个候选类;
基于由所述对象分类器提供的相应置信概率对所述一个或多个候选类进行排名;以及
基于所述排名选择候选类;
将位于所述物理场景中的物理对象识别为所述选择的候选类的对象。
30.根据权利要求23和24中任一项所述的电子设备,其中,所述计算机可执行指令包括进一步指令,所述指令使得所述电子设备执行以下操作:
使用所述虚拟对象提供一个或多个服务,其中,所述一个或多个服务对应于所述物理场景的所识别的类型。
31.根据权利要求23和24中任一项所述的电子设备,其中,所述计算机可执行指令包括进一步指令,所述指令使得所述电子设备执行以下操作:
使用所述虚拟对象提供一个或多个服务,其中,所述一个或多个服务对应于所述物理场景的所述确定的几何布局。
32.根据权利要求23和24中任一项所述的电子设备,其中,显示所述虚拟对象包括使用所述电子设备的多个显示器以3D立体格式显示所述虚拟对象。
33.根据权利要求23和24中任一项所述的电子设备,其中:
使用物理对象的分类器识别所述物理场景中的所述一个或多个物理对象包括:
使用对应于所述一个或多个物理对象的多个分类器来识别所述物理场景中的所述一个或多个物理对象,其中,所述计算机可执行指令包括进一步指令,所述指令使得所述电子设备执行以下操作:
基于所述物理场景的所述确定的几何布局,确定区域;
基于所述确定的区域,使用对应于所述确定的区域的一个或多个分类器来识别所述物理场景中的物理对象,其中,所述物理对象与所述确定的区域相关联;以及
基于识别的特定物理对象,确定所述物理场景的类型,并且
基于所述确定的几何布局显示与所述物理场景相关联的所述虚拟对象包括:
基于所述物理场景的所述类型,显示与所述物理场景相关联的所述虚拟对象。
34.一种电子设备,包括:
相机;和
用于执行根据权利要求1和2中任一项所述的方法的装置。
CN201880063817.XA 2017-09-29 2018-09-26 基于环境的应用演示 Active CN111448568B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762566308P 2017-09-29 2017-09-29
US62/566,308 2017-09-29
PCT/US2018/052990 WO2019067642A1 (en) 2017-09-29 2018-09-26 APPLICATION PRESENTATION BASED ON AN ENVIRONMENT

Publications (2)

Publication Number Publication Date
CN111448568A CN111448568A (zh) 2020-07-24
CN111448568B true CN111448568B (zh) 2023-11-14

Family

ID=64017439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880063817.XA Active CN111448568B (zh) 2017-09-29 2018-09-26 基于环境的应用演示

Country Status (3)

Country Link
US (1) US11074451B2 (zh)
CN (1) CN111448568B (zh)
WO (1) WO2019067642A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087136B2 (en) 2018-04-13 2021-08-10 Apple Inc. Scene classification
US11036284B2 (en) 2018-09-14 2021-06-15 Apple Inc. Tracking and drift correction
US11379033B2 (en) 2019-09-26 2022-07-05 Apple Inc. Augmented devices
US20210225044A1 (en) * 2020-01-16 2021-07-22 Trisetra, Inc. System and Method for Object Arrangement in a Scene
US11514690B2 (en) * 2020-06-30 2022-11-29 Sony Interactive Entertainment LLC Scanning of 3D objects with a second screen device for insertion into a virtual environment
CN112422812B (zh) * 2020-09-01 2022-03-29 华为技术有限公司 图像处理方法、移动终端及存储介质
CN116563495A (zh) * 2022-01-27 2023-08-08 腾讯科技(深圳)有限公司 一种数据处理方法、计算机设备以及可读存储介质
US20230394770A1 (en) * 2022-06-02 2023-12-07 Snap Inc. Input modalities for ar wearable devices

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1747559A (zh) * 2005-07-29 2006-03-15 北京大学 三维几何建模***和方法
CN101794349A (zh) * 2010-02-09 2010-08-04 北京邮电大学 机器人遥操作增强现实实验***及方法
CN102771110A (zh) * 2010-02-25 2012-11-07 想象技术有限公司 运动估计***中使用图形引擎获取的矢量的对象跟踪
CN103493106A (zh) * 2011-03-29 2014-01-01 高通股份有限公司 使用骨骼跟踪来选择性地将手遮蔽在物理表面上的虚拟投影之上
CN103761763A (zh) * 2013-12-18 2014-04-30 微软公司 使用预先计算的光照构建增强现实环境
CN105027190A (zh) * 2013-01-03 2015-11-04 美达公司 用于虚拟或增强介导视觉的射出空间成像数字眼镜
WO2016106383A2 (en) * 2014-12-22 2016-06-30 Robert Bosch Gmbh First-person camera based visual context aware system
CN106471441A (zh) * 2014-08-25 2017-03-01 X开发有限责任公司 用于显示机器人设备动作的虚拟表示的增强现实的方法和***
CN106484085A (zh) * 2015-08-31 2017-03-08 北京三星通信技术研究有限公司 在头戴式显示器中显示真实物体的方法及其头戴式显示器
CN106937531A (zh) * 2014-06-14 2017-07-07 奇跃公司 用于产生虚拟和增强现实的方法和***

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4611069B2 (ja) * 2004-03-24 2011-01-12 富士フイルム株式会社 特定シーンの画像を選別する装置、プログラムおよびプログラムを記録した記録媒体
US8086551B2 (en) * 2007-04-16 2011-12-27 Blue Oak Mountain Technologies, Inc. Electronic system with simulated sense perception and method of providing simulated sense perception
US9292085B2 (en) 2012-06-29 2016-03-22 Microsoft Technology Licensing, Llc Configuring an interaction zone within an augmented reality environment
US9996974B2 (en) * 2013-08-30 2018-06-12 Qualcomm Incorporated Method and apparatus for representing a physical scene
US20160330522A1 (en) 2015-05-06 2016-11-10 Echostar Technologies L.L.C. Apparatus, systems and methods for a content commentary community
US9898864B2 (en) 2015-05-28 2018-02-20 Microsoft Technology Licensing, Llc Shared tactile interaction and user safety in shared space multi-person immersive virtual reality
US20170186291A1 (en) * 2015-12-24 2017-06-29 Jakub Wenus Techniques for object acquisition and tracking
WO2017143224A1 (en) * 2016-02-18 2017-08-24 Meyer Intellectual Properties Limited Auxiliary button for a cooking system
US10395435B2 (en) * 2016-04-04 2019-08-27 Occipital, Inc. System for multimedia spatial annotation, visualization, and recommendation
US10445608B2 (en) 2017-10-25 2019-10-15 Motorola Mobility Llc Identifying object representations in image data
US11087136B2 (en) 2018-04-13 2021-08-10 Apple Inc. Scene classification

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1747559A (zh) * 2005-07-29 2006-03-15 北京大学 三维几何建模***和方法
CN101794349A (zh) * 2010-02-09 2010-08-04 北京邮电大学 机器人遥操作增强现实实验***及方法
CN102771110A (zh) * 2010-02-25 2012-11-07 想象技术有限公司 运动估计***中使用图形引擎获取的矢量的对象跟踪
CN103493106A (zh) * 2011-03-29 2014-01-01 高通股份有限公司 使用骨骼跟踪来选择性地将手遮蔽在物理表面上的虚拟投影之上
CN105027190A (zh) * 2013-01-03 2015-11-04 美达公司 用于虚拟或增强介导视觉的射出空间成像数字眼镜
CN103761763A (zh) * 2013-12-18 2014-04-30 微软公司 使用预先计算的光照构建增强现实环境
CN106937531A (zh) * 2014-06-14 2017-07-07 奇跃公司 用于产生虚拟和增强现实的方法和***
CN106471441A (zh) * 2014-08-25 2017-03-01 X开发有限责任公司 用于显示机器人设备动作的虚拟表示的增强现实的方法和***
WO2016106383A2 (en) * 2014-12-22 2016-06-30 Robert Bosch Gmbh First-person camera based visual context aware system
CN106484085A (zh) * 2015-08-31 2017-03-08 北京三星通信技术研究有限公司 在头戴式显示器中显示真实物体的方法及其头戴式显示器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹航程 ; 马志遂 ; 盛佳龙 ; 靳博文 ; 范少通 ; .基于虚拟现实的室内布局***及碰撞检测算法研究.无线互联科技.2016,(第10期), 63-64. *
王亮 ; 付永刚 ; 纪连恩 ; 张凤军 ; 戴国忠 ; .基于约束语义的双手交互场景布局***.计算机辅助设计与图形学学报.2005,(第08期), 161-167. *

Also Published As

Publication number Publication date
US20200226383A1 (en) 2020-07-16
WO2019067642A1 (en) 2019-04-04
US11074451B2 (en) 2021-07-27
CN111448568A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111448568B (zh) 基于环境的应用演示
US11138796B2 (en) Systems and methods for contextually augmented video creation and sharing
US20230306688A1 (en) Selecting two-dimensional imagery data for display within a three-dimensional model
US10755485B2 (en) Augmented reality product preview
US11922489B2 (en) Curated environments for augmented reality applications
US10789699B2 (en) Capturing color information from a physical environment
US10474336B2 (en) Providing a user experience with virtual reality content and user-selected, real world objects
US9661214B2 (en) Depth determination using camera focus
CN106576184B (zh) 信息处理装置、显示装置、信息处理方法、程序和信息处理***
US11756294B2 (en) Scene classification
CN110888567A (zh) 三维内容中基于位置的虚拟元件模态
US9787939B1 (en) Dynamic viewing perspective of remote scenes
US20150172634A1 (en) Dynamic POV Composite 3D Video System
CN112105983B (zh) 增强的视觉能力
US9384384B1 (en) Adjusting faces displayed in images
JP2024512040A (ja) マップのためのデバイス、方法、及びグラフィカルユーザインタフェース
US11893207B2 (en) Generating a semantic construction of a physical setting
US20200265622A1 (en) Forming seam to join images
CN112292657A (zh) 围绕计算机模拟现实布景进行移动

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant