CN107924586A

CN107924586A - 搜索图像内容

Info

Publication number: CN107924586A
Application number: CN201680047865.0A
Authority: CN
Inventors: J·勒帕南; F·克里克里; A·埃罗南; A·勒蒂涅米
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2015-08-13
Filing date: 2016-08-10
Publication date: 2018-04-17
Anticipated expiration: 2036-08-10
Also published as: WO2017025663A1; JP2018530043A; US10437874B2; EP3131064A1; PL3131064T3; US20180225290A1; JP6495538B2; CN107924586B; EP3131064B1

Abstract

提供了一种方法、装置和计算机程序代码。该方法包括：通过对第一图像内容项中的真实场景的记录做出至少一个更改来响应用户输入；确定真实场景的记录的至少一个经更改的特性；确定与第一图像内容项不同的一个或多个其他图像内容项是否具有真实场景的记录，其包括确定的至少一个经更改的特性；以及使得具有真实场景的记录的至少一个其他图像内容项被指示给用户，该真实场景的记录包括确定的至少一个经更改的特性。

Description

搜索图像内容

技术领域

本发明的实施例涉及搜索图像内容。具体地，它们涉及使用真实场景的记录的经更改的特性来搜索图像内容项。

背景技术

诸如静态图像和运动视频之类的图像内容项可以由相机捕获。这样的图像内容项可以由设备显示。该设备可以使得用户能够浏览图像内容项。

发明内容

根据本发明的各种但不一定是全部的实施例，提供了一种方法，其包括：通过对第一图像内容项中的真实场景的记录做出至少一个更改来响应用户输入；确定真实场景的记录的至少一个经更改的特性；确定与第一图像内容项不同的一个或多个其他图像内容项是否具有真实场景的记录，其包括至少一个经确定的经更改的特性；以及使得具有真实场景的记录的至少一个其他图像内容项被指示给用户，该记录包括至少一个经确定的经更改的特性。

根据本发明的各种但不一定是全部的实施例，提供了计算机程序代码，其当由至少一个处理器执行时，使得执行以下操作：通过对第一图像内容项中的真实场景的记录做出至少一个更改来响应用户输入；确定真实场景的记录的至少一个经更改的特性；确定与第一图像内容项不同的一个或多个其他图像内容项是否具有真实场景的记录，其包括至少一个经确定的经更改的特性；以及使得具有真实场景的记录的至少一个其他图像内容项被指示给用户，该记录包括至少一个经确定的经更改的特性。

一个或多个计算机程序可以包括计算机程序代码。一个或多个计算机程序可以被存储在一个或多个非暂态计算机可读介质上。

根据本发明的各种但不一定是全部的实施例，提供了一种设备，其包括：用于通过对第一图像内容项中的真实场景的记录做出至少一个更改来响应用户输入的装置；用于确定真实场景的记录的至少一个经更改的特性的装置；用于确定与第一图像内容项不同的一个或多个其他图像内容项是否具有真实场景的记录，该记录包括至少一个经确定的经更改的特性的装置；以及用于使得具有真实场景的记录的至少一个其他图像内容项被指示给用户，该记录包括至少一个经确定的经更改的特性的装置。

根据本发明的各种但不一定是全部的实施例，提供了一种装置，其包括：至少一个处理器；以及存储器，其包括计算机程序代码，该计算机程序代码被配置为与至少一个处理器一起使得至少执行以下步骤：通过对第一图像内容项中的真实场景的记录做出至少一个更改来响应用户输入；确定真实场景的记录的至少一个经更改的特性；确定与第一图像内容项不同的一个或多个另外的图像内容项是否具有真实场景的记录，其包括至少一个经确定的经更改的特性；以及使得具有真实场景的记录的至少一个另外的图像内容项被指示给用户，该记录包括至少一个经确定的经更改的特性。

根据本发明的各种但不一定是全部的实施例，提供了如所附权利要求所要求保护的本发明的实施例的示例。

附图说明

为了更好地理解对于理解具体实施方式有用的各种示例，现在将仅通过示例参考附图，其中：

图1A至图1C和图2A至2C图示了中间现实的示例，其中图1A、图1B、图1C图示了相同的虚拟空间和不同的视点，而图2A、图2B、图2C从各个视点的视角图示了虚拟场景；

图3A图示了真实空间的示例，而图3B图示了与图1B的虚拟场景部分相对应的真实场景的示例；

图4A是芯片或芯片组形式的装置的原理图；

图4B图示了一个或多个电子设备形式的装置的原理图，该一个或多个电子设备可操作以实现中间现实和/或增强现实和/或虚拟现实；

图5图示了用于实现中间现实和/或增强现实和/或虚拟现实的方法的示例；

图6图示了用于更新用于增强现实的虚拟空间的模型的方法的示例；

图7A和图7B图示了使得能够向用户显示虚拟场景的至少部分的装置的示例；

图8图示了方法的流程图；

图9图示了第一图像内容项中的真实场景的记录，其中记录包括来自真实场景的真实对象的图像；

图10图示了在显示器显示真实场景的记录时用户开始手势；

图11图示了用户完成他在图10中开始的手势；

图12图示了在基于第一图像内容项中真实场景的记录的经更改的特性来对图像内容项进行搜索之后在显示器上表示的第二图像内容项、第三图像内容项和第四图像内容项；

图13图示了第五图像内容项中真实场景的记录；

图14图示了用户将第五图像内容项中真实对象的图像移动到多个潜在位置中的一个潜在位置；以及

图15图示了在基于第五图像内容项中真实对象的图像的位置来对图像内容项进行搜索之后在显示器上表示的第六图像内容项、第七图像内容项、第八图像内容项和第九图像内容项。

描述

本发明的实施例涉及使得用户能够更改图像内容项中的真实场景的记录，然后使用经更改的记录来搜索并且标识其他图像内容项。例如，用户可以通过用真实对象的图像交换不同的真实对象的图像来更改真实对象的记录，更改真实对象的图像的位置和/或更改真实对象的图像的大小。

本发明的实施例的技术效果是对用户直观的、项改进的、更有效的搜索图像内容项的方式。

定义

在本文档中，适用以下定义：

“视野”是指在特定时间阶段用户可见的可观察世界的范围；

“虚拟空间”是指完全或部分人造环境，其可能是三维的；

“虚拟场景”是指从虚拟空间内的特定视点查看的虚拟空间的表示；

“真实空间”是指真实的有形环境，其可能是三维的；

“真实场景”是指如从真实空间内的特定视点查看的真实空间的一部分；

本文档中的“中间现实”是指用户在视觉上体验作为由计算机至少部分地向用户显示的虚拟场景的完全或部分人造环境(虚拟空间)。虚拟场景由虚拟空间和视野内的视点确定。显示虚拟场景意指以用户可以看见的形式提供虚拟场景；

“中间现实内容”是使得用户能够在视觉上体验作为虚拟场景的完全或部分人造环境(虚拟空间)的内容；

本文中的“增强现实”是指其中用户在视觉上体验作为虚拟场景的部分人造环境(虚拟空间)的中间现实形式，该部分人造环境包括通过装置向用户显示的一个或多个视觉元素补充的物理现实世界环境(真实空间)的真实场景；

“增强现实内容”是使得用户能够在视觉上体验作为虚拟场景的部分人造环境(虚拟空间)的中间现实内容形式；

本文档中的“虚拟现实”是指用户在视觉上体验通过装置向用户显示的虚拟场景的完全人造的环境(虚拟空间)的中间现实形式；

“虚拟现实内容”是中间现实内容的形式，其使得用户能够在视觉上体验作为虚拟场景的完全人造的环境(虚拟空间)；

作为应用于中间现实、增强现实或虚拟现实的“视角中间”意指用户动作确定虚拟空间内的视点，其改变虚拟场景；

作为应用于中间现实、增强现实或虚拟现实的“第一人称视角中间”意指通过用户的真实视点确定虚拟空间内的视点的附加约束中间的视角；

如应用于中间现实、增强现实或虚拟现实的“用户交互式中间”意指用户动作至少部分地确定在虚拟空间内发生了什么；以及

“显示”意指以用户在视觉上感知的形式提供。

具体实施方式

图1A至图1C和图2A至图2C图示了中间现实的示例。中间现实可能是增强现实或虚拟现实。

图1A、图1B、图1C图示了包括相同的虚拟对象21的相同的虚拟空间20，然而，每个图图示了不同的视点24。视点24的位置和方向可以独立地改变。视点24的方向而非位置从图1A改变到图1B。视点24的方向和位置从图1B改变到图1C。

图2A、图2B、图2C从相应的图1A、图1B、图1C的不同视点24的视角图示了虚拟场景22。虚拟场景22由虚拟空间20内的视点24和视野26确定。虚拟场景22至少部分地显示给用户。

所图示的虚拟场景22可以是中间现实场景、虚拟现实场景或增强现实场景。虚拟现实场景显示完全人造的虚拟空间20。增强现实场景显示部分人造部分真实的虚拟空间20。

中间现实、增强现实或虚拟现实可以是用户交互式中间的。在这种情况下，用户动作至少部分地确定在虚拟空间20内发生了什么。这可以实现与虚拟空间20内的虚拟对象21(诸如视觉元素28)的交互。

中间现实、增强现实或虚拟现实可能是视角中间的。在这种情况下，用户动作确定虚拟空间20内的视点24，其改变虚拟场景22。例如，如图1A、图1B、图1C所图示的，虚拟空间20内的视点24的位置23可以被改变和/或虚拟空间20内的视点24的方向或指向25可以被改变。如果虚拟空间20是三维的，则视点24的位置23具有三个自由度，例如，向上/向下、前进/后退、左/右；并且虚拟空间20内的视点24的方向25具有三个自由度，例如，滚动、俯仰、偏航。视点24可以在位置23和/或方向25上连续可变，然后用户动作连续地改变视点24的位置和/或方向。可替代地，视点24可以具有离散量化位置23和/或离散量化方向25，并且用户动作通过在视点24的允许位置23和/或方向25之间离散地跳转来切换。

图3A图示了包括真实对象11的真实空间10，该真实对象11至少部分地与图1A的虚拟空间20相对应。在该示例中，真实空间10中的每个真实对象11在虚拟空间20中都具有对应的虚拟对象21，然而，虚拟空间20中的每个虚拟对象21在真实空间10中并不具有对应的真实对象11。在该示例中，虚拟对象21中的一个虚拟对象(由计算机生成的视觉元素28)是人造虚拟对象21，其在真实空间10中不具有对应的真实对象11。

真实空间10与虚拟空间20之间存在线性映射，而真实空间10中的每个真实对象11与其对应的虚拟对象21之间存在相同的映射关系。真实空间10中的真实对象11的相对关系因此与虚拟空间20中的对应的虚拟对象21之间的相对关系相同。

图3B图示了部分地与图1B的虚拟场景22相对应的真实场景12，其包括真实对象11而非人造虚拟对象。真实场景来自与图1A的虚拟空间20中的视点24相对应的视角。真实场景12内容由对应的视点24和视野26确定。

图2A可以是图3B中所图示的真实场景12的增强现实版本的图示。虚拟场景22包括由装置向用户显示的一个或多个视觉元素28补充的真实空间10的真实场景12。视觉元素28可以是由计算机生成的视觉元素。在透视式布置(see-through arrangement)中，虚拟场景22包括通过一个或多个补充视觉元素28的显示看到的实际真实场景12。在视频观看式布置(see-video arrangement)中，虚拟场景22包括所显示的真实场景12以及一个或多个所显示的补充视觉元素28。所显示的真实场景12可以基于来自单个视点24的图像或基于同时来自不同视点24的多个图像进行处理，以生成来自单个视点24的图像。

图4A图示了芯片或芯片组形式的装置4。所图示的装置4包括至少一个处理器40和至少一个存储器46。一个或多个处理器40可以是或可以包括中央处理单元(CPU)和/或图形处理单元(GPU)。处理器40被配置为从存储器46读取和向存储器46写入。处理器40还可以包括输出接口，处理器40经由该输出接口输出数据和/或命令；以及输入接口，数据和/或命令经由该输入接口被输入到处理器40。

存储器46存储计算机程序148，其包括计算机程序指令(计算机程序代码)48，该计算机程序指令48当被加载到处理器40中时控制装置4/30的操作。计算机程序148的计算机程序指令48提供使得装置4/30能够执行图5、图6和图8所图示的方法的逻辑和例程。处理器40通过读取存储器46能够加载并且执行计算机程序148。

计算机程序148可以经由任何合适的递送机构到达装置4/30。递送机构可以是例如非暂态计算机可读存储介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或数字通用光盘(DVD)之类的记录介质、有形地体现计算机程序148的制品。递送机构可以是被配置为可靠地传送计算机程序148的信号。该信号可以例如按照一个或多个协议通过无线连接(诸如射频连接)或有线连接被发送。装置4/30可以使得计算机程序148作为计算机数据信号被传送。

尽管存储器46被图示为单个部件/电路，但是其可以被实现为一个或多个单独的部件/电路，其中的一些或全部可以是集成/可移除和/或可以提供永久/半永久/动态/高速缓存的存储装置。

尽管处理器40被图示为单个部件/电路，但是其可以被实现为多个处理器，诸如一个或多个单独的部件/电路，其中的一些或全部可以被集成/可移除。一个或多个处理器40可以是单核或多核。

图4B图示了可操作以实现中间现实和/或增强现实和/或虚拟现实的装置30的原理图。

在一些实施例中，装置30可以是单个电子设备，诸如头戴式查看设备。图7B中图示了这种头戴式查看设备的示例。

在其他实施例中，装置30可以跨多个设备分布，其可以由头戴式查看设备、游戏控制台/个人计算机和/或一个或多个手持式控制器的组合形成。在装置30至少部分由游戏控制台或个人计算机形成的情况下，处理器40和存储器46(或者，在多个处理器和/或多个存储器被提供的情况下，一者或两者中的一个或多个)可以在游戏控制台/个人计算机中被提供。

在所图示的示例中，装置30包括图4A中图示的装置4、一个或多个显示器32、一个或多个收发器42和用户输入电路44。

一个或多个显示器32用于以由用户在视觉上感知的形式向用户提供虚拟场景22的至少部分。这样的虚拟场景可以形成中间现实内容的一部分，诸如虚拟现实内容或增强现实内容。一个或多个显示器32可以是一个或多个视觉显示器，其提供向用户显示虚拟场景22的至少部分的光。视觉显示器的示例包括液晶显示器、有机发光显示器、发射式显示器、反射式显示器、透射式显示器和半透反射式显示器、直接视网膜投影显示器、近眼式显示器等。在该示例但不一定是所有示例中，显示器32被处理器40控制。

当用户的头部移动时头戴式查看设备移动。头戴式查看设备可以是用于增强现实的透视式布置，其使得能够查看实况真实场景12，同时由一个或多个显示器32向用户显示一个或多个视觉元素28以组合提供虚拟场景22。在这种情况下，遮光罩(如果存在)是透明的或半透明的，使得实况真实场景12可以通过遮光罩被查看。

头戴式查看设备可以作为用于增强现实的视频观看式布置来操作，其使得真实场景12的实况视频能够被一个或多个显示器32显示以供用户查看，而一个或多个视觉元素28被一个或多个显示器32同时显示以供用户查看。所显示的真实场景12和所显示的一个或多个视觉元素28的组合将虚拟场景22提供给用户。在这种情况下，遮光罩是不透明的并且可以被用作一个或多个显示器32。

一个或多个收发器42被配置为从处理器40接收输入以向处理器40提供输出。例如，一个或多个收发器42可以从处理器40接收数据并且将其传送，以及向处理器40提供所接收的数据。

一个或多个收发器42可以包括一个或多个无线收发器和/或一个或多个有线收发器。例如，这样的无线收发器可以包括一个或多个长距离蜂窝收发器或短距离无线收发器形式的射频接收器(其例如可以按照电气和电子工程师协会无线局域网802.11协议或蓝牙协议来操作)。这样的有线收发器例如可以包括通用串行总线(USB)收发器。

在所图示的示例中，用户输入电路44可以包括一个或多个触觉传感器43、一个或多个视点传感器45、用于对真实空间10成像的一个或多个图像传感器47、以及一个或多个深度传感器49。

一个或多个触觉传感器43可以包括例如一个或多个操纵杆和一个或多个按键/按钮。一个或多个操纵杆和/或一个或多个按键/一个或多个按钮可以形成物理手持式控制器的一部分。如果装置30是头戴式的，则一个或多个触觉传感器43中的至少一些可以被定位在头戴式装置上。

装置30可以实现用于中间现实和/或增强现实和/或虚拟现实的用户交互式中间。用户输入电路44使用用户输入来检测用户动作(诸如经由一个或多个触觉传感器43)。处理器40使用这些用户动作来确定在虚拟空间20内发生了什么。这可以实现与虚拟空间20内的视觉元件28的交互。

装置30可以实现用于中间现实和/或增强现实和/或虚拟现实的视角中间。用户输入电路44检测用户动作。处理器40使用这些用户动作来确定虚拟空间20内的视点24，其改变虚拟场景22。视点24可以在位置和/或方向上连续可变，并且用户动作改变视点24的位置和/或方向。可替代地，视点24可以具有离散量化位置和/或离散量化方向、以及用户动作通过跳转到视点24的下一位置和/或方向来切换。

装置30可以实现用于中间现实、增强现实或虚拟现实的第一人称视角。用户输入电路44使用用户视点传感器45来检测用户的真实视点14。处理器40使用用户的真实视点来确定虚拟空间20内的视点24，其改变虚拟场景。返回参考图3A，用户18具有真实视点14。真实视点可以由用户18改变。例如，真实视点14的真实位置13是用户18的位置并且可以通过改变用户18的物理位置13来改变。例如，真实视点14的真实方向15是用户18正在观看的方向，并且可以通过改变用户18的真实方向来改变。真实方向15例如可以通过用户18改变其头部或视点的指向和/或用户改变其注视的方向来改变。头戴式设备30可以被用于实现第一人称视角中间。

装置30可以包括用于确定真实视点的改变的作为输入电路44的一部分的视点传感器45。

例如，诸如GPS、通过向多个接收器传送和/或从多个发送器接收进行的三角测量(三边测量)、加速度检测和集成之类的定位技术可以被用于确定用户18的新物理位置13和真实视点14。

例如，加速度计、电子陀螺仪或电子罗盘可以被用于确定用户头部或视点的指向的改变以及作为结果的真实视点14的真实方向15的改变。

例如，基于例如计算机视觉的瞳孔跟踪技术可以被用于跟踪用户的一只眼睛或两只眼睛的移动，并且因此确定用户的注视的方向以及作为结果的真实视点14的真实方向15上的改变。

装置30可以包括用于对真实空间10成像的作为输入电路44的一部分的图像传感器47。

图像传感器47的示例是数字图像传感器，其被配置为作为相机操作。这样的相机可以***作来记录静态图像和/或视频图像。在一些但不一定是所有实施例中，相机可以以立体或其他空间分布布置来配置，使得从不同视角来查看真实空间10。这可以使得能够创建三维图像和/或例如经由视差效应进行处理以确认深度。

在一些但不一定是所有实施例中，输入电路44包括深度传感器49。深度传感器49可以包括发送器和接收器。发送器发射信号(例如，人类不能感觉到的信号，诸如超声波或红外光)，而接收器接收所反射的信号。使用单个发送器和单个接收器，一些深度信息可以经由测量从传输到接收的飞行时间来实现。更好的分辨率可以通过使用更多的发送器和/或更多的接收器(空间多样性)来实现。在一个示例中，发送器被配置为使用光(优选地，不可见光，诸如红外光)以依赖于空间的图案‘涂抹’真实空间10。通过接收器对特定图案的检测允许在空间上对真实空间10进行解析。到真实空间10的空间解析部分的距离可以通过飞行时间和/或立体视觉(如果接收器相对于发送器处于立***置)来确定。

装置30可以例如使用图6A中所图示的方法60或类似方法来实现中间现实和/或增强现实和/或虚拟现实。处理器40存储并且维持虚拟空间20的模型50。该模型可以被提供给处理器40或者由处理器40确定。例如，输入电路44中的传感器可以被用来创建从不同视点的虚拟空间的重叠深度图，然后可以产生三维模型。

在框62处，确定虚拟空间20的模型是否已经改变。如果虚拟空间20的模型已经改变，则该方法移动到框66。如果虚拟空间20的模型没有改变，则该方法移动到框64。

在框64处，确定虚拟空间20中的视点24是否已经改变。如果视点24已经改变，则该方法移动到框66。如果视点24没有改变，则该方法返回到框62。

在框66处，三维虚拟空间20的二维投影从当前视点24所限定的位置23和方向25获取。然后，投影受到视野26的限制以产生虚拟场景。然后，该方法返回到框62。

在装置30实现增强现实的情况下，虚拟空间20包括来自真实空间10的对象11以及不存在于真实空间10中的视觉元素28。这种视觉元素28的组合可以被称为人造虚拟空间。图5B图示了用于更新用于增强现实的虚拟空间20的模型的方法70。

在框72处，确定真实空间10是否已经改变。如果真实空间10已经改变，则该方法移动到框76。如果真实空间10没有改变，则该方法移动到框74。检测真实空间10中的改变可以使用差分在像素级上实现，以及可以使用计算机视觉在对象级上实现以在对象移动时追踪它们。

在框74处，确定人造虚拟空间是否已经改变。如果人造虚拟空间已经改变，则方法移动到框76。如果人造虚拟空间没有改变，则方法返回到框72。由于控制器42生成人造虚拟空间，所以容易检测到视觉元素28的改变。

在框76处，虚拟空间20的模型被更新。

在一些但不一定是所有实施例中，输入电路44可以包括通信电路41，作为图像传感器47和深度传感器49中的一个或多个的附加或替代。这样的通信电路41可以与真实空间10中的一个或多个远程图像传感器47和/或真实空间10中的远程深度传感器49通信。通信电路41可以形成一个或多个收发器42的一部分。

图7A和图7B图示了使得能够向用户显示虚拟场景22的至少部分的装置30的示例。可以使用使得能够向用户显示虚拟场景22的至少部分的装置30的其他示例。

图7A图示了手持式装置31，其包括作为显示器32的显示屏幕，该显示器32向用户显示图像并且用于向用户显示虚拟场景22。装置30可以被有意地以先前提及的六个自由度中的一个或多个自由度在用户的手中移动。

手持式装置31可以是或可以作为用于增强现实的视频观看式布置来操作，其使得真实场景12的实况视频能够被显示在显示器32上以供用户查看，而一个或多个视觉元素28被同时显示在显示器32上供用户查看。所显示的真实场景12和所显示的一个或多个视觉元素28的组合将虚拟场景22提供给用户。

如果手持式装置31具有安装在与显示器32相对的面上的相机，则其可以作为视频观看式布置来操作，该视频观看式布置使得能够查看实况真实场景12，同时向用户显示一个或多个视觉元素28以组合提供虚拟场景22。

图7B图示了包括向用户显示图像的显示器32的头戴式查看设备33。当用户的头部移动时，头戴式装置33可以自动移动。

头戴式查看设备33可以是用于增强现实的透视式布置，其使得能够查看实况真实场景12，同时由显示器32向用户显示一个或多个视觉元素28以组合提供虚拟场景。在这种情况下，遮光罩(visor)34(如果存在)是透明的或半透明的，使得可以通过遮光罩34查看实况真实场景12。

头戴式查看设备33可以作为用于增强现实的视频观看式布置来操作，其使得真实场景12的实况视频能够被显示器32显示以供用户查看，同时一个或多个视觉元素28同时被显示器32显示以供用户查看。所显示的真实场景12和所显示的一个或多个视觉元素28的组合将虚拟场景22提供给用户。在这种情况下，遮光罩34是不透明的并且可以被用作显示器32。

返回参考图4B，装置30可以实现用于中间现实和/或增强现实和/或虚拟现实的用户交互式中间。用户输入电路44检测来自用户输入的用户动作。处理器40使用这些用户动作来确定在虚拟空间20内发生了什么。这可以实现与虚拟空间20内的视觉元素28的交互。

所检测的用户动作可以例如是在真实空间10中执行的手势。可以以若干种方式检测手势。例如，深度传感器49可以被用于检测用户18的各部位的移动和/或图像传感器47可以用于检测用户18的各部位的移动和/或附接到用户18的肢体的位置/运动传感器可以被用于检测肢体的移动。

对象跟踪可以被用来确定对象或用户何时移动。例如，在大的宏观尺度上跟踪对象允许人们创建随对象一起移动的参考框架。然后，通过使用关于对象的时间差异，可以使用该参照框架来跟踪对象的形状的随时间演变的改变。这可以被用来检测小尺度的人体运动，诸如手势、手部移动、面部移动。这些是场景无关的用户(仅)相对于用户的移动。

装置30可以跟踪与用户身体相关的多个对象和/或点，例如，用户身体的一个或多个关节。在一些示例中，装置30可以执行用户身体的全身骨骼跟踪。

装置30可以在手势识别等中使用与用户身体相关的一个或多个对象和/或点的跟踪。

图8图示了根据本发明实施例的方法的流程图。以下参照图4A至图11对该方法进行描述。

在下文所描述的示例中，装置30包括头戴式查看设备，其使得用户能够在中间现实中查看所记录的图像内容项101至109。图像内容项101至109中的每个图像内容项是立体虚拟现实内容，其包含一个或多个真实场景的记录。图像内容项101至109中的一些或全部图像内容项可能已经由装置30的相机记录。可替代地或附加地，图像内容项101至109中的一些或全部图像内容项可能已经在别处被记录。

图像内容项101至109中的一个或多个图像内容项可能已经在从存储器46中被取回并且在一个或多个显示器32上被显示之前的某个时间被记录。可替代地或附加地，图像内容项101至109可以被记录在存储器46中并且基本上同时在一个或多个显示器32上被显示，从而提供真实场景的实况视频或当前(静态)图像。

在图4B中，图像内容项101至109被图示为被存储在装置30的存储器46中。在一些实施例中，图像内容项101至109中的一些或全部图像内容项可以被持久地存储在装置30的非易失性存储器中。在其他示例中，图像内容项101至109中的一些或全部图像内容项可以仅被瞬时存储在装置30中，诸如存储在易失性存储器中。比如，图像内容项101至109可以被永久地存储在远程位置中(在“云”中)，当用户选择从远程位置取回它们以便在装置30上查看时，暂时存储在装置30的存储器46中项。

图9图示了当处理器40控制一个或多个显示器32显示第一图像内容项101时提供的真实场景的记录161。记录161可以形成第一图像内容项101的全部或仅一部分。

在该示例中，真实场景的记录161是在虚拟现实中被呈现给用户的运动视频内容的一部分。为了显示真实场景的记录161，处理器40执行上文关于图5所描述的方法。真实场景的记录161包括多个真实对象的图像132至135，其包括电视机的图像131、第一装饰物的图像132、第二装饰物的图像133、纵向配置的第一图像帧的图像134和横向配置的第二图像帧的图像135。

真实场景的记录161是虚拟场景，如上文关于图2A、图2B和图2C所描述的虚拟场景22。真实场景的记录161已经通过使用立体中间/虚拟/增强现实相机记录真实场景(如上文关于图3B所描述的真实场景12)而形成。图像132至135是虚拟对象(如上文关于图1A至2C所描述的虚拟对象21)，这些图像通过记录真实对象(如上文关于图3A所描述的真实对象11)来形成。

在该示例中，处理器40控制一个或多个显示器32以使用图9所图示的视觉指示141至145来突出显示真实对象的图像131至135。比如，视觉指示141至145可以向用户指示图像131至135可由用户更改。没有这样的视觉指示的真实对象的图像可能不能被用户更改。

用户可以提供用户输入以使得对第一图像内容项101中的真实场景的记录161做出更改。在图8的框801中，处理器40通过对真实场景的记录161做出更改来对这样的用户输入进行响应。

图10图示了在提供用户输入以选择和更改真实场景的记录161中的电视机的图像131的过程中的用户。在这个示例中，被提供来选择和更改图像的用户输入是具有平移输入的形式的手势。平移输入是具有起始位置和结束位置的连续位移输入。用户可以通过将用户输入对象(诸如手部或数字)放置在开始位置并且将用户输入对象移动到结束位置来提供输入。

图10图示了由用户提供的平移输入的开始位置151。开始位置151在电视机的图像131处或与其对准。例如，为了将他的手与电视机的图像131对准，用户可以将他的手臂伸向电视机的图像131。处理器40从由用户输入电路44提供给它的输入来检测平移输入的开始，并且将它们解释为电视机的图像131的选择。在该示例中，当处理器40确定已经选择了图像131时，视觉指示142至145被从显示器中移除，但是不一定是这种情况。

图11图示了用户完成平移输入时的真实场景的记录161。如箭头152所图示的，用户将用户输入对象从开始位置151移动到结束位置153，其完成了平移输入。随着用户将用户输入对象从开始位置151移动到结束位置152，处理器40使得电视机的图像131随着用户输入对象的移动而在一个或多个显示器32上移动，使得对于用户而言，看起来好像电视机的图像131被用户输入对象拖动。电视机的图像131的移动揭示了从电视机的图像131下面出现的不同的图像136。然后，运动图像131可以由处理器40从显示器中移除。

在该示例中，从运动图像131下面出现的图像136也是电视机的图像。例如，它可以是电视机的图像136，其在某个时间点已经被定位在与运动图像131中表示的电视机相同的真实空间中的位置。例如，它可以是比图10所图示的图像131中描绘的电视机更旧的电视机或更新的电视机。在该示例中，替换图像136是与所移除的图像131中描绘的真实对象相同类型的真实对象(电视机)的图像。

在一些情形下，可能没有适当的替换图像136。在这样的情形下，图像131可能根本没有被替换。

替换图像136可能不必具有与所移除的图像131中描绘的真实对象类型相同的真实对象。可替代地，替换图像136可以具有不同类型的真实对象，其在某些时间点被定位在与所移除的图像131中表示的电视机相同的真实空间中的位置中。可替代地，替换图像136可能不是任何真实对象的图像，表明该位置在某个时间点是空的。

处理器40可以例如被配置为对比第一图像内容项101更旧的和/或更新的图像内容项执行图像处理(或者使得这种图像处理由与装置30不同的、诸如远程服务器之类的装置执行)，以便确定在某些时间点已经被定位在与真实场景的记录161中的对象的图像131至135相同的真实空间位置中的那些图像内容项中的对象的图像。该图像处理可以在用户输入被提供以更改如图9和图10所图示的真实场景的记录161之前发生，以避免必须执行的实时图像处理，从而当提供适当的用户输入时，使得处理器40能够快速彼此交换真实对象的图像。

在一些实施例中，位于与真实场景的记录161中的对象相同的真实空间位置中的对象的图像可以与真实场景的记录161一起被存储为第一图像内容项101的一部分。可替代地，第一图像内容项101或与其相关联的元数据可以包括到其他图像内容项102至109(其可以被存储在存储器46中或远离装置30存储)中的那些对象的图像的一个或多个链接，其响应于用户在图8的框801中提供的用户输入而被取回。

在一些实现方式中，处理器40可以使得用户能够提供用户输入以通过提供连续的用户输入来对真实场景的记录161做出连续更改。比如，如上文所描述的，如果用户提供第一用户输入，则处理器40可以使得电视机的图像131被替换为另一电视机的图像136。如果用户提供第二用户输入(例如，在相同方向)，则处理器40可以使得另一电视机的图像136被替换为另一电视机(诸如更旧的电视机)的图像。比如，第二用户输入可以是与上文关于图10和图11所描述的方向相同的方向上的平移输入，其中开始位置在另一电视机的图像136处或与其对准。

当处理特定图像内容项以确定其是否包括真实场景的包括与图10和图11所图示的真实场景的记录161中的真实对象相同的位置中的真实对象的图像的一个或多个记录时，处理器40还可以确定该图像内容项是比图像内容项更旧还是更新。这可以使得处理器40能够通过依据所提供的用户输入来交换来自真实场景的较新记录或真实场景的较旧记录的对象的图像来更改真实场景的记录161。

例如，处理器40可以通过用来自较旧的记录/图像内容项的图像替换真实对象的图像来响应第一用户输入(比如，在第一方向上)，并且通过用来自较新的记录/图像内容项的图像来替换真实对象的图像来响应于第二用户输入(比如，在可能与第一方向相反的第二方向上)。

在所图示的示例的上下文中，不同方向上的平移输入可能使得不同的图像替换真实对象的图像。如果用户提供向右平移输入(而非图10和图11所图示的向左平移输入)，则处理器40可以使得电视机的图像141被替换为与图11所图示的图像136不同的图像，诸如较新的电视机的图像。

本领域技术人员应当认识到，除了平移输入之外，可以提供不同形式的用户输入。例如，如上文所描述的，可以使用可以形成手持式控制器的一部分的一个或多个触觉传感器43来提供用户输入。

在图8的框802中，处理器40确定真实场景的记录161的经更改的特性。在该示例中，经更改的特性可以是在其间捕获包括电视机的图像136的(原始)记录的时间段。

在图8的框803中，处理器40确定与第一图像内容项101不同的一个或多个其他图像内容项102至109是否具有包括所确定的经更改的特性的真实场景的记录。如上文所解释的，在该示例中，所确定的经更改的特性是在其间捕获包括电视机的图像136的(原始)记录的时间段，所以处理器40搜索与第一图像内容项101不同的一个或多个其他图像内容项102至109，以确定它们中的任一个是否具有在该时间段期间捕获的真实场景的记录。这可以通过例如分析可以在元数据中提供的图像内容项102至109中的每个图像内容项的日期戳来完成。

在图8的框804中，在确定了包括图8的框803中的经更改的特性的一个或多个图像内容项之后，处理器40使得那些图像内容项被指示给用户。例如，它可以使得表示它们中的一个或多个的图像被一个或多个显示器32显示。图像内容项中的至少一个图像内容项可以与当更改真实场景的记录161时从中获取较旧电视机的图像136(图11中所图示的)的图像内容不同。

在一些实施例中，处理器40还可以使得没有包括经更改的特性的图像内容项(诸如创建日期在所确定的时间段之外的那些图像内容项)被一个或多个显示器32显示，但是可能导致包括经更改的特性的图像内容项被更显著地显示(例如，在列表的顶部处)。

图12图示了其中处理器40确定第二、第三和第四图像内容项102至104各自包括在所确定的时间段期间捕获的真实场景的记录的示例。处理器40使得第二、第三和第四图像内容项102至104中的每个图像内容项使用在该时间段期间捕获的真实场景的记录的缩略图图像在该示例中的一个或多个显示器32上表示。还显示提供了针对搜索的“种子”的真实对象的图像136。

在图12中所图示的示例中，处理器40还确定第二图像内容项102包括真实场景的记录，其包括图11中展现的电视机的图像136，因此，与表示第三图像内容项103和第四图像内容项104的图像163，164相比，更为显著地显示表示第二图像内容项102的图像162。可替代地，最显著的位置可能被最频繁访问/播放的图像内容项的图像占据。

如上文关于图8中的框802所描述的，经更改的特性不需要是在期间捕获包括电视机的图像136的(原始)记录的时间段。相反，比如，它可以是更旧的电视机的图像136(其替代图9和图10所图示的电视机的图像131)的存在。如果是这样，则在图8的框803中，处理器40确定与第一图像内容项101不同的一个或多个其他图像内容项102至109具有包括较旧的电视机的图像的真实场景的记录。

在一些实现方式中，为了确定这一点，处理器40可以对图像内容项102至109执行图像处理，该图像内容项102至109可以被永久地存储在装置30的存储器46中或者远程位置中。在后一种情况下，处理器40可以使得一个或多个收发器42下载图像内容项102至109并且将其存储(持久地或瞬时地)以供处理器40处理。附加地或可替代地，处理器40可以使得这样的图像处理由与装置30不同的诸如远程服务器之类的装置执行。

在图8的框804中，处理器40然后以上文所描述的方式使得一个或多个图像内容项被指示给用户，该图像内容项包括较旧的电视机的图像136。

图13图示了当处理器40控制一个或多个显示器32以显示第五图像内容项105时所提供的真实场景的记录165。记录165可以形成第一图像内容项105的整体或仅部分。

在该示例中，真实场景的记录161是在虚拟现实中被呈现给用户的运动视频内容的一部分。为了显示真实场景的记录165，处理器40执行上文关于图5所描述的方法。真实场景的记录165包括多个真实对象的图像，其包括电视机的图像137。

真实场景的记录165是虚拟场景，如上文关于图2A、图2B和图2C所描述的虚拟场景22。真实场景的记录165已经通过使用立体中间/虚拟/增强现实相机记录真实场景(如上文关于图3B所描述的真实场景12)形成。现实世界对象的图像是虚拟对象，如上文关于图1A至图2C描述的虚拟对象21，其通过记录真实对象(如上文关于图3A描述的真实对象11)形成。

如上文关于先前示例所描述的，处理器40可以控制一个或多个显示器32以突出显示由用户可更改的真实对象的任何图像。没有这样的视觉指示的真实对象的图像可能不能被用户更改。

在该示例中，处理器40再次执行图8所图示的方法。然而，在该示例中，用户可以通过将记录165中的真实对象的至少一个图像移动到记录165中的不同位置来更改真实场景的记录165的特性。

用户可以提供用户输入以选择要在真实场景的记录165中移动的真实对象的图像。在选择这样的图像之前、期间或之后，处理器40可以使得在真实场景的记录165中向用户显示一个或多个视觉指示，其指示图像可以移动到的至少一个潜在位置。

电视机/真实对象的图像137的潜在位置可以通过在用户提供任何用户输入之前、期间或之后处理图像内容项来确定，以确定电视机/真实世界对象的图像137是否存在于在那些图像内容项中真实场景的记录中，并且如果是，确定电视机/真实对象的图像的位置。

这种情况在图14中图示，其中处理器40已经使得一个或多个显示器32显示指示电视机的图像137可以被移动到的潜在位置的多个视觉指示172、173。

由视觉指示172、173指示的位置中的每个位置可以与另一个图像内容项中的真实场景的其他记录中的相同真实对象(在这种情况下，电视机)的图像的位置相对应。

在图8的框801中，处理器40通过对真实场景的记录165做出更改来响应用户输入。通过将电视机的(整个)图像137移动到记录165中的不同位置来做出更改。被提供以使得电视机的图像137移动的用户输入可以是上文所描述的形式的平移输入，其具有在图像137处的或与其对准的开始位置以及在图像137被移动到的位置处或与其对准的结束位置。

在图8的框802中，处理器40确定真实场景的记录165的经更改的特性。在该示例中，经更改的特性是电视机的图像137的新位置。

在图8的框803中，处理器40确定与第五图像内容项105不同的一个或多个其他图像内容项具有包括所确定的经更改的特性的真实场景的记录。

在框804中，处理器40然后使得一个或多个图像内容项被指示给用户，该图像内容项包括真实场景的记录中的新位置中的电视机/真实对象的图像。

图15的左上侧图示了在对真实场景的记录165做出任何更改之前，图13和图14中所图示的真实场景的记录165。在此之下，在该示例中，处理器40使得一个或多个显示器32显示在第六图像内容项106和第七图像内容项107中提供的真实场景的记录的图像166，167，其包括电视机/真实对象在原始位置中的图像137。

图15的右侧图示了在通过将电视机的图像137的位置移动到由使用附图标记172标记的视觉指示所指示的位置而更改了真实场景的记录165之后，图13和图14中所图示的真实场景的记录165。在此之下，在该示例中，处理器40使得一个或多个显示器32显示在第八图像内容项108和第九图像内容项109中提供的真实场景的记录的图像168，169，其包括电视机/真实对象在其经更改的位置中的图像137。

本发明的实施例不限于以上文所描述的方式更改真实场景的记录。例如，在本发明的一些实施例中，可以改变真实对象的图像的大小，其使得处理器40控制一个或多个显示器32向用户指示一个或多个图像内容项，其包括具有经更改的大小的真实对象的图像。

在这些实施例中，真实对象可以是人。更改人的图像的大小可以使得处理器40搜索其中包括人更小/更年轻或者更高/更年老的人的图像的图像内容项。

为了做到这一点，处理器40可以确定原始记录中所示的真实对象/人的真实大小。例如，这可以通过使用与图像内容项相关联的元数据来完成，该元数据可以指示例如用于捕获相关记录的相机的光学特性以及当捕获记录时真实对象/人物与捕获设备的距离。

然后，处理器40可以使用所确定的真实对象/人的真实大小来确定与真实对象/人的图像的经更改的大小相对应的真实大小，并且将其与其他图像内容项中真实场景的记录中的真实对象/人的图像的所确定的真实大小进行比较。

总之，本发明的实施例提供一种使得用户能够搜索图像内容项的特别有效且直观的方式，其中真实对象的图像有效地用作到其他图像内容项的内容索引/链接。

例如，用户可能能够容易地找到在与另一图像内容项相同的位置和/或相同的时间段内捕获的图像内容项，而不必精确地回忆何时捕获较早的图像内容项和/或者精确地记得它们所存储的地方。

例如，当用户拥有他的旧电视机时，用户可能能够想起特定图像内容项被记录，但是不能精确地回忆它所存储的地方。本发明的实施例可以帮助他执行搜索以直观方式找到它。

对‘计算机可读存储介质’、或‘计算机’、‘处理器’等的引用应当被理解为不仅涵盖具有不同体系架构的计算机，诸如单/多处理器体系架构和时序(冯·诺依曼)/并行体系架构，而且还涵盖专用电路，诸如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理设备和其他处理电路。无论是用于处理器的指令还是用于固定功能设备、门阵列或可编程逻辑装置等的配置设置，对计算机程序、指令、代码等的引用均应当被理解为涵盖用于可编程处理器的软件或固件，诸如例如，硬件设备的可编程内容。

如本申请中所使用的，术语“电路”是指以下全部：

(a)仅硬件电路实现方式(诸如仅在模拟和/或数字电路中的实现方式)以及

(b)电路和软件(和/或固件)的组合，诸如(如果适用)：(i)一个或多个处理器的组合或(ii)一起工作以使得诸如移动电话或服务器之类的装置执行各种功能的一个或多个处理器/软件(包括一个或多个数字信号处理器)、软件和一个或多个存储器的一部分，以及

(c)电路，诸如一个或多个微处理器或一个或多个微处理器的一部分，其需要软件或固件进行操作，即使软件或固件不是物理上存在的。

‘电路’的这个定义适用于包括在任何权利要求中在内的在本申请中的该术语的所有用途。作为进一步示例，如在本申请中所使用的，术语“电路”还将覆盖仅一个处理器(或多个处理器)或处理器的一部分及其(或它们的)伴随的软件和/或固件的实现方式。例如并且如果适用于特定权利要求要素，则术语“电路”还将覆盖用于移动电话的基带集成电路或应用处理器集成电路，或服务器、蜂窝网络设备或其他网络设备中的类似集成电路。

图5、图6和图8中所图示的框可以表示方法中的步骤和/或计算机程序148中的代码片段。对框的特定次序的图示不必然暗示框存在所需的或优选的次序并且框的次序和布置可以变化。更进一步地，有些框可能被省略。

在已经描述了结构特性的情况下，其可以被用于执行结构特性的功能中的一个或多个功能的装置来替换，无论该功能或那些功能被明确地或隐含地描述。

尽管在先前段落中已经参考各种实施例对本发明的实施例进行了描述，但是应当领会，可以对所给出的示例做出修改，而不背离所要求保护的本发明的范围。例如，虽然图像内容项在上文被描述为使用头戴式查看设备查看的立体虚拟现实内容项，但是不一定是这种情况。

在一些实现方式中，图像内容项可以代替地是立体增强现实内容项，而在其他实现方式中，图像内容项可能不是立体的。

除了上文所描述的那些之外，可能存在对真实场景的记录做出更改的不同方式。例如，可以从真实对象的图像中添加或移除细节(诸如向人添加眼镜或从人移除眼镜)或者可以改变真实对象的图像的颜色。

在一些实现方式中，可以对真实场景的记录做出多于一个的更改。

之前描述中所描述的特征可以以不同于明确描述的组合的组合来使用。

尽管已经参考某些特征对功能进行了描述，但是那些功能可以由其他特征(不论是否被描述)来执行。

尽管已经参考某些实施例对特征进行了描述，但是那些特征也可以存在于其他实施例中(不论是否被描述)。

尽管在前面的说明书中努力提请注意被认为是特别重要的本发明的那些特征，但是应当理解，申请人对于上文提到和/或在附图中示出的任何可专利特征或特征的组合，不论是否已经特别强调过，均要求保护。

Claims

1.一种方法，包括：

通过对第一图像内容项中的真实场景的记录做出至少一个更改，来响应用户输入；

确定所述真实场景的所述记录的至少一个经更改的特性；

确定与所述第一图像内容项不同的一个或多个其他图像内容项具有真实场景的记录，所述记录包括确定的所述至少一个经更改的特性；以及

使得具有真实场景的记录的至少一个其他图像内容项被指示给用户，所述记录包括确定的所述至少一个经更改的特性。

2.根据权利要求1所述的方法，其中所述第一图像内容项是立体中间现实内容，并且所述其他图像内容项是立体中间现实内容项。

3.根据权利要求1或2所述的方法，还包括：在所述用户输入被提供之前，使得视觉指示被提供给用户，所述视觉指示指示所述真实场景的所述记录中的真实对象的图像是可更改的。

4.根据权利要求1、2或3所述的方法，其中确定一个或多个其他图像内容项具有包括确定的所述至少一个经更改的特性的真实场景的记录包括：确定所述其他图像内容项的创建日期。

5.根据前述权利要求中的任一项所述的方法，其中对真实场景的所述记录做出所述更改包括：更改在所述真实场景的所述记录中的真实对象的图像的位置。

6.根据权利要求5所述的方法，其中更改所述真实场景的所述记录中的真实对象的图像的位置包括：将所述真实对象的整个所述图像从第一位置移动到第二位置。

7.根据权利要求5或6所述的方法，还包括：在所述真实场景的所述记录中，使得一个或多个视觉指示被显示给用户，所述视觉指示指示所述真实对象的所述图像可移动到的至少一个潜在位置。

8.根据权利要求7所述的方法，其中所述真实对象的所述图像可移动到的所述至少一个潜在位置与如下位置相对应，所述位置是在所述其他图像内容项中的至少一个图像内容项中的、所述真实场景的其他记录中的所述真实对象的图像的位置。

9.根据前述权利要求中的任一项所述的方法，其中对所述真实场景的所述记录做出所述更改包括：更改真实对象的图像的大小。

10.根据权利要求9所述的方法，还包括：确定所述真实对象的真实大小；基于确定的所述真实大小和被提供以更改所述真实对象的所述图像的所述大小的所述用户输入，来确定与所述真实对象的所述图像的经更改的大小相对应的真实大小，其中确定与所述第一图像内容项不同的一个或多个其他图像内容项是否具有包括确定的经更改的特性的真实场景的记录包括：将经确定的真实对象的真实大小与如下真实大小进行比较，所述真实大小与所述真实对象的所述图像的经更改的大小相对应。

11.根据权利要求10所述的方法，其中在所述第一图像内容项中的所述真实对象的所述图像是人。

12.根据前述权利要求中的任一项所述的方法，其中对所述真实场景的所述记录做出所述更改包括：将真实对象的图像与相同类型的真实对象的不同图像进行交换。

13.一种计算机程序代码，其当由至少一个处理器执行时，使得根据权利要求1至12中的任一项所述的方法被执行。

14.一种设备，其包括：

用于通过对第一图像内容项中的真实场景的记录做出至少一个更改来响应用户输入的装置；

用于确定所述真实场景的所述记录的至少一个经更改的特性的装置；

用于确定与所述第一图像内容项不同的一个或多个其他图像内容项是否具有真实场景的记录的装置，所述记录包括确定的所述至少一个经更改的特性；以及

用于使得具有真实场景的记录的至少一个其他图像内容项被指示给用户的装置，所述记录包括确定的所述至少一个经更改的特性。

15.根据权利要求14所述的设备，还包括用于执行根据权利要求2至12中的一项或多项所述的方法的装置。