CN116993949A

CN116993949A - 虚拟环境的显示方法、装置、可穿戴电子设备及存储介质

Info

Publication number: CN116993949A
Application number: CN202211649760.6A
Authority: CN
Inventors: 刘伟哲; 嵇盼; 李宏东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-11-03
Also published as: WO2024131479A9; WO2024131479A1

Abstract

本申请公开了一种虚拟环境的显示方法、装置、可穿戴电子设备及存储介质，属于计算机技术领域。本申请通过根据不同视角下对目标场所进行观察的多个环境图像，来生成将目标场所投影到虚拟环境后的全景图像，能够在全景图像的基础上机器自动识别和智能提取到目标场所的布局信息，并利用布局信息来构建用于模拟目标场所的目标虚拟环境，这样由于机器能够自动提取布局信息并构建目标虚拟环境，无需用户手动标记布局信息，整体过程耗时很短，极大提升了虚拟环境的构建速度和加载效率，并且目标虚拟环境能够高度还原目标场所，能够提高用户的沉浸式交互体验。

Description

虚拟环境的显示方法、装置、可穿戴电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种虚拟环境的显示方法、装置、可穿戴电子设备及存储介质。

背景技术

随着计算机技术的发展，XR(Extended Reality，扩展现实)技术通过视觉、听觉、触觉等方面的数字信息来生成一体化的虚拟环境，用户在佩戴可穿戴电子设备以后，通过配套的如操控手柄、操控指环等操控设备，能够控制代表自身的虚拟形象在虚拟环境中进行互动，达到身临其境的超现实的交互体验。

为了更好地改善用户的沉浸式交互体验，如何在取得用户对相机权限的充分同意和授权以后，根据相机采集到的现实环境的图像或视频流，来构建可穿戴电子设备提供的虚拟环境，是XR技术的一项研究热点。目前，需要用户使用操控设备，在虚拟环境中手动标注出现实环境的布局信息，例如，用户手动标注墙***置、天花板位置、地面位置等，操作流程较为繁琐，虚拟环境构建效率低。

发明内容

本申请实施例提供了一种虚拟环境的显示方法、装置、可穿戴电子设备及存储介质，能够在无需用户手动标注布局信息的情况下，通过现实世界中目标场所的环境图像来构建目标虚拟环境，使得目标虚拟环境高度还原目标场所，以提高虚拟环境构建效率，优化用户的沉浸式交互体验。该技术方案如下：

一方面，提供了一种虚拟环境的显示方法，所述方法包括：

获取相机以不同视角观察目标场所时采集的多个环境图像，不同的环境图像表征相机以不同视角观察所述目标场所时采集到的图像；

基于所述多个环境图像，获取将所述目标场所投影到虚拟环境中的全景图像，所述全景图像是指将所述目标场所投影到所述虚拟环境后所得的全景视角下的图像；

提取所述目标场所在所述全景图像中的布局信息，所述布局信息指示所述目标场所中的室内设施的边界信息；

显示基于所述布局信息所构建的目标虚拟环境，所述目标虚拟环境用于在虚拟环境中模拟所述目标场所。

一方面，提供了一种虚拟环境的显示装置，所述装置包括：

第一获取模块，用于获取相机以不同视角观察目标场所时采集的多个环境图像，不同的环境图像表征相机以不同视角观察所述目标场所时采集到的图像；

第二获取模块，用于基于所述多个环境图像，获取将所述目标场所投影到虚拟环境中的全景图像，所述全景图像是指将所述目标场所投影到所述虚拟环境后所得的全景视角下的图像；

提取模块，用于提取所述目标场所在所述全景图像中的布局信息，所述布局信息指示所述目标场所中的室内设施的边界信息；

显示模块，用于显示基于所述布局信息所构建的目标虚拟环境，所述目标虚拟环境用于在虚拟环境中模拟所述目标场所。

在一些实施例中，所述第二获取模块包括：

检测单元，用于对所述多个环境图像进行关键点检测，得到所述目标场所中的多个图像关键点分别在所述多个环境图像中的位置信息；

确定单元，用于基于所述位置信息，确定所述多个环境图像各自的多个相机位姿，所述相机位姿用于指示在相机在采集环境图像时的视角转动姿态；

第一投影单元，用于基于所述多个相机位姿，分别将所述多个环境图像从所述目标场所的原坐标系投影到所述虚拟环境的球坐标系，得到多个投影图像；

获取单元，用于获取基于所述多个投影图像拼接得到的所述全景图像。

在一些实施例中，所述确定单元用于：

将所述多个相机位姿的移动量设置为零；

基于所述位置信息，确定所述多个环境图像各自的所述多个相机位姿的转动量。

在一些实施例中，所述第一投影单元用于：

对所述多个相机位姿进行修正，以使所述多个相机位姿在所述球坐标系中的球心对齐；

基于修正后的多个相机位姿，分别将所述多个环境图像从所述原坐标系投影到所述球坐标系，得到所述多个投影图像。

在一些实施例中，所述获取单元用于：

对所述多个投影图像进行拼接，得到拼接图像；

对所述拼接图像进行平滑或光照补偿中的至少一项，得到所述全景图像。

在一些实施例中，所述检测单元用于：

对每个环境图像进行关键点检测，得到每个环境图像中的多个图像关键点各自的位置坐标；

将所述多个环境图像中同一图像关键点的多个位置坐标进行配对，得到每个图像关键点的位置信息，每个图像关键点的位置信息用于指示每个图像关键点在所述多个环境图像中的多个位置坐标。

在一些实施例中，所述提取模块包括：

第二投影单元，用于将所述全景图像中的竖直方向投影为重力方向，得到修正全景图像；

提取单元，用于提取所述修正全景图像的图像语义特征，所述图像语义特征用于表征所述修正全景图像中与所述目标场所的室内设施相关联的语义信息；

预测单元，用于基于所述图像语义特征，预测所述目标场所在所述全景图像中的布局信息。

在一些实施例中，所述提取单元包括：

输入子单元，用于将所述修正全景图像输入到特征提取模型中；

第一卷积子单元，用于通过所述特征提取模型中的一个或多个卷积层，对所述修正全景图像进行卷积操作，得到第一特征图；

第二卷积子单元，用于通过所述特征提取模型中的一个或多个深度可分离卷积层，对所述第一特征图进行深度可分离卷积操作，得到第二特征图；

后处理子单元，用于通过所述特征提取模型中的一个或多个后处理层，对所述第二特征图进行池化操作或者全连接操作中的至少一项，得到所述图像语义特征。

在一些实施例中，所述第二卷积子单元用于：

通过每个深度可分离卷积层，对上一深度可分离卷积层的输出特征图进行空间维度的逐通道卷积操作，得到第一中间特征，所述第一中间特征与所述上一深度可分离卷积层的输出特征图的维度相同；

对所述第一中间特征进行通道维度的逐点卷积操作，得到第二中间特征；

对所述第二中间特征进行卷积操作，得到所述深度可分离卷积层的输出特征图；

迭代执行所述逐通道卷积操作、所述逐点卷积操作和所述卷积操作，由最后一个深度可分离卷积层输出所述第二特征图。

在一些实施例中，所述预测单元包括：

分割子单元，用于对所述图像语义特征进行通道维度的分割操作，得到多个空间域语义特征；

编码子单元，用于将所述多个空间域语义特征分别输入布局信息提取模型的多个记忆单元，通过所述多个记忆单元对所述多个空间域语义特征进行编码，得到多个空间域上下文特征；

解码子单元，用于基于所述多个空间域上下文特征进行解码，得到所述布局信息。

在一些实施例中，所述编码子单元用于：

通过每个记忆单元，对所述记忆单元关联的空间域语义特征，以及上一记忆单元编码后所得的空间域上文特征进行编码，将编码后所得的空间域上文特征输入到下一记忆单元；

对所述记忆单元关联的空间域语义特征，以及下一记忆单元编码后所得的空间域下文特征进行编码，将编码后所得的空间域下文特征输入到上一记忆单元；

基于所述记忆单元编码后所得的空间域上文特征和空间域下文特征，获取所述记忆单元输出的空间域上下文特征。

在一些实施例中，所述第一获取模块用于：

获取所述相机在所述目标场所的目标范围内视角旋转一周后所拍摄到的视频流；

从所述视频流包含的多个图像帧中进行采样，得到所述多个环境图像。

在一些实施例中，所述布局信息包括第一布局向量、第二布局向量和第三布局向量，所述第一布局向量指示所述目标场所中的墙体与天花板的交界信息，所述第二布局向量指示所述目标场所中的墙体与地面的交界信息，所述第三布局向量指示所述目标场所中的墙体与墙体的交界信息。

在一些实施例中，所述相机为可穿戴电子设备上的单目相机或双目相机。

在一些实施例中，所述装置还包括：

材质识别模块，用于基于所述全景图像，对所述目标场所中的室内设施进行材质识别，得到所述室内设施的材质；

音频修正模块，用于基于所述室内设施的材质，对所述虚拟环境所关联音频的音质或音量中至少一项进行修正。

一方面，提供了一种可穿戴电子设备，该可穿戴电子设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述虚拟环境的显示方法。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现如上述虚拟环境的显示方法。

一方面，提供一种计算机程序产品，所述计算机程序产品包括一条或多条计算机程序，所述一条或多条计算机程序存储在计算机可读存储介质中。可穿戴电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条计算机程序，所述一个或多个处理器执行所述一条或多条计算机程序，使得可穿戴电子设备能够执行上述虚拟环境的显示方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过根据不同视角下对目标场所进行观察的多个环境图像，来生成将目标场所投影到虚拟环境后的全景图像，能够在全景图像的基础上机器自动识别和智能提取到目标场所的布局信息，并利用布局信息来构建用于模拟目标场所的目标虚拟环境，这样由于机器能够自动提取布局信息并构建目标虚拟环境，无需用户手动标记布局信息，整体过程耗时很短，极大提升了虚拟环境的构建速度和加载效率，并且目标虚拟环境能够高度还原目标场所，能够提高用户的沉浸式交互体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种虚拟环境的显示方法的实施环境示意图；

图2是本申请实施例提供的一种虚拟环境的显示方法的流程图；

图3是本申请实施例提供的一种环境图像的拍摄流程示意图；

图4是本申请实施例提供的一种不同视角下的环境图像的示意图；

图5是本申请实施例提供的一种环境图像投影到投影图像的示意图；

图6是本申请实施例提供的一种360度全景图像的示意图；

图7是本申请实施例提供的一种目标虚拟环境的示意图；

图8是本申请实施例提供的一种三维虚拟空间中音频传播方式的示意图；

图9是本申请实施例提供的一种虚拟环境的显示方法的流程图；

图10是本申请实施例提供的一种全景相机拍摄的初始全景图像的示意图；

图11是本申请实施例提供的一种相机中心的偏移扰动的示意图；

图12是本申请实施例提供的一种不同视角下的环境图像的示意图；

图13是本申请实施例提供的一种图像关键点的配对流程的示意图；

图14是本申请实施例提供的一种360度全景图像的展开图；

图15是本申请实施例提供的一种全景图构造算法的处理流程图；

图16是本申请实施例提供的一种BLSTM架构的双向编码示意图；

图17是本申请实施例提供的一种在360度全景图像中标注布局信息的示意图；

图18是本申请实施例提供的一种获取布局信息的处理流程图；

图19是本申请实施例提供的一种目标虚拟环境的俯视图；

图20是本申请实施例提供的一种针对目标场所的三维布局理解流程图；

图21是本申请实施例提供的一种虚拟环境的显示装置的结构示意图；

图22是本申请实施例提供的一种可穿戴电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个环境图像是指两个或两个以上的环境图像。

本申请中术语“包括A或B中至少一项”涉及如下几种情况：仅包括A，仅包括B，以及包括A和B两者。

本申请中涉及到的用户相关的信息(包括但不限于用户的设备信息、个人信息、行为信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，当以本申请实施例的方法运用到具体产品或技术中时，均为经过用户许可、同意、授权或者经过各方充分授权的，且相关信息、数据以及信号的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的环境图像都是在充分授权的情况下获取的。

人工智能(Artificial Intelligence，AI)：人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(computer vision，CV)：在AI领域内，计算机视觉技术是一个正在快速发展的分支，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和计算机等机器代替人眼对目标进行识别和测量等操作，并进一步做图形处理，使机器处理得到更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉通常包括图像分割、图像识别、图像检索、视频语义理解、视频内容/行为识别、三维物体重建、光学字符识别(Optical Character Recognition，OCR)、视频处理、3D(3Dimensions，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术。

机器学习(Machine Learning，ML)：机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例提供的技术方案涉及一种基于机器学习模型(如特征提取模型、布局信息提取模型等)的可适用于可穿戴电子设备的三维空间布局理解方式，在取得用户对相机权限的充分同意和充分授权以后，用户在佩戴可穿戴电子设备以后旋转一周，以使得可穿戴电子设备的相机采集到从不同视角下观察现实世界中目标场所的多个环境图像，从而能够自动根据该多个环境图像，在虚拟世界中构建出来与目标场所的室内设施基本一致的目标虚拟环境，使得用户达到超现实的沉浸式交互体验。

以下，对本申请实施例涉及的术语进行解释和说明。

XR(Extended Reality，扩展现实)：XR是指通过计算机将真实与虚拟相结合，打造一个可人机交互的虚拟环境，同时，XR技术也是VR(Virtual Reality，虚拟现实)、AR(Augmented Reality，增强现实)、MR(Mixed Reality，混合现实)等多种技术的统称。通过将三者的视觉交互技术相融合，为体验者带来虚拟世界与现实世界之间无缝转换的“沉浸感”。

VR(Virtual Reality，虚拟现实)：又称虚拟实境或灵境技术，是一种可以创建和体验虚拟环境的计算机仿真***。VR技术囊括计算机、电子信息、仿真技术，其基本实现方式是以计算机技术为主，利用并综合三维图形技术、多媒体技术、仿真技术、显示技术、伺服技术等多种高科技的最新发展成果，借助计算机等设备产生一个逼真的三维视觉、触觉、嗅觉等多种感官体验的虚拟环境，从而通过将虚拟和现实相互结合，使处于虚拟环境中的人产生一种身临其境的感觉。

AR(Augmented Reality，增强现实)：AR技术是一种将虚拟信息与现实世界巧妙融合的技术，广泛运用了多媒体、三维建模、实时跟随及注册、智能交互、传感等多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到现实世界中，两种信息互为补充，从而实现对现实世界的“增强”。

MR(Mixed Reality，混合现实)：MR技术是VR技术的进一步发展，MR技术通过在虚拟场景呈现现实场景信息，在现实世界、虚拟世界和用户之间搭起一个交互反馈的信息回路，以增强用户体验的真实感。

HMD(Head-Mounted Display，头戴式显示器)：简称头显，HMD可以向眼睛发送光学信号，以实现VR、AR、MR、XR等不同效果。HMD是可穿戴电子设备的一种示例性说明，例如，在VR场景下，HMD可以被实施为VR眼镜、VR眼罩、VR头盔等。HMD的显示原理是左右眼屏幕分别显示左右眼的图像，人眼获取这种带有差异的信息后在脑海中产生立体感。

操作手柄：指与可穿戴电子设备相互配套的一种输入设备，用户通过操作手柄能够控制自身在可穿戴电子设备提供的虚拟环境中具象化的虚拟形象。操作手柄可按照业务需求配置有手柄摇杆和不同功能的物理按键，例如，操作手柄包括手柄摇杆、确认键或其他功能按键。

操作指环：指与可穿戴电子设备相互配套的另一种输入设备，与操作手柄的产品形态有所不同，操作指环也称为智能指环，可以用于无线遥控可穿戴电子设备，具有很高的操作便捷性。操作指环上可以配置有OFN(Optical Finger Navigation，光学手指导航)操控板，使得用户能够基于OFN输入操控指令。

虚拟环境：指XR应用在可穿戴电子设备上运行时显示(或提供)的虚拟环境。该虚拟环境可以是对现实世界的仿真环境，也可以是半仿真半虚构的虚拟环境，还可以是纯虚构的虚拟环境。虚拟环境可以是二维虚拟环境、2.5维虚拟环境或者三维虚拟环境中的任意一种，本申请实施例对虚拟环境的维度不加以限定。用户在进入到虚拟环境时，可以创建用于代表自身的虚拟形象。

虚拟形象：是指用户在虚拟环境中控制的用于代表自身的可活动对象。可选地，用户可以从XR应用提供的多个预设形象中选择一个作为自身的虚拟形象，也可以对选择完毕的虚拟形象进行样貌、外观的调整，还可以通过捏脸等方式来创建个性化的虚拟形象，本申请实施例对虚拟形象的外形不进行具体限定。例如，虚拟形象是一个三维立体模型，该三维立体模型是基于三维人体骨骼技术构建的三维角色，虚拟形象可以通过穿戴不同的皮肤来展示出不同的外在形象。

虚拟对象：是指除了用户控制的虚拟形象以外，在虚拟环境中占据一部分空间的其他可活动对象，例如，虚拟对象包括根据目标场所的环境图像投影到虚拟场景中的室内设施，室内设施包括墙体、天花板、地面、家具、电器等虚拟物体，又比如，虚拟对象还包括***生成的其他可视化的虚拟对象，如非玩家角色(Non-Player Character，NPC)，或者受到AI行为模型控制的AI对象等。

FoV(Field of View，视场角)：指从某一视点出发，以自身视角来观察虚拟环境时所看到的场景范围(或视野范围、取景范围)。比如，对于虚拟环境中的虚拟形象来说，视点是虚拟形象的眼部，FoV是眼部在虚拟环境中所能观察到的视野范围；又比如，对于现实世界中的相机来说，视点是相机的镜头，FoV是镜头在现实世界中对目标场所进行观测的取景范围。一般来说，FoV越小，FoV观察到的场景范围越小、越集中，FoV内的物体的放大效果越高；FoV越大，FoV观察到的场景范围越大、越不集中，FoV内的物体的放大效果越低。

三维房间布局理解技术：指用户佩戴可穿戴电子设备，如佩戴VR眼镜、VR头盔等XR设备以后，在经过用户对相机权限的充分同意和充分授权以后，开启可穿戴电子设备的相机，从多个视角来采集用户在现实世界中所处的目标场所的多个环境图像，并对目标场所的布局信息进行自动地识别理解，以输出将目标场所投影到虚拟环境中的布局信息的技术。其中，环境图像中至少携带现实世界中目标场所(如房间)的图片、位置等信息，以目标场所为房间为例，目标场所的布局信息包括但不限于：天花板、墙体、地面、门、窗等室内设施的位置、大小、朝向、语义等信息。

随着社会生产力和科学技术的不断发展，各行各业对XR技术的需求日益旺盛。XR技术也取得了巨大进步，并逐步成为一个新的科学技术领域。本申请实施例提供的虚拟环境的显示方法，可以通过可穿戴电子设备上的相机，采集用户在现实世界中所处的目标场所的环境图像，来自动构造目标场所投影到虚拟环境的球坐标系以后的360度全景图像，这样能够根据全景图像，对目标场所的三维布局进行全方位的机器自动理解，例如，可以自动解析出来目标场所中天花板、墙体、地面的位置以及交界处的坐标等，进而，便于根据目标场所的三维布局，可以在构建出来目标场所在虚拟环境中的映射，提升了虚拟环境的构建效率和显示效果，达到深度的虚拟-现实交互的交互体验。

此外，可穿戴电子设备的相机可以是常规的单目相机，并不需要专门配置深度传感器或者双目相机，更不需要专门配置造价高昂的全景相机，就能够完成对目标场所的三维布局的精确理解，极大降低了设备成本，提升了设备能耗性能。当然，这种三维房间布局理解技术也能够适配于双目相机和全景相机，具有极高的可移植性和高可用性。

以下，对本申请实施例的***架构进行说明。

图1是本申请实施例提供的一种虚拟环境的显示方法的实施环境示意图。参见图1，该实施例应用于XR***，XR***中包括可穿戴电子设备110和操控设备120。下面进行说明：

可穿戴电子设备110安装和运行有支持XR技术的应用，可选地，该应用可以是支持XR技术的XR应用、VR应用、AR应用、MR应用、社交应用、游戏应用、音视频应用等，这里对应用类型不进行具体限定。

在一些实施例中，可穿戴电子设备110可以是HMD、VR眼镜、VR头盔、VR眼罩等头戴式电子设备，或者，还可以是其他配置有相机或能够接收相机所采集到的图像数据的可穿戴电子设备，或者，还可以是其他支持XR技术的电子设备，如支持XR技术的智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

用户使用可穿戴电子设备110能够观察到XR技术构建的虚拟环境，并在虚拟环境中创建用于代表自身的虚拟形象，还能够与其他用户在同一虚拟环境中创建的其他虚拟形象进行互动、对抗、社交等。

可穿戴电子设备110和操控设备120能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

操控设备120用于控制可穿戴电子设备110，在可穿戴电子设备110和操控设备120无线连接的情况下，操控设备120可以对可穿戴电子设备110进行遥控。

在一些实施例中，操控设备120可以是操控手柄、操控指环、操控手表、操控腕带、操控戒指、手套型操控设备等便携性设备或可穿戴设备。用户可通过操控设备120输入操控指令，操控设备120向可穿戴电子设备110发送该操控指令，以使可穿戴电子设备110响应于该操控指令，控制虚拟环境中的虚拟形象执行对应的动作或行为。

在一些实施例中，可穿戴电子设备110还可以与XR服务器进行有线或无线的通信连接，以使得世界各地的用户能够通过XR服务器进入到同一虚拟环境中，达到“穿越时空会面”的效果，XR服务器还可以对可穿戴电子设备110提供其他可显示的多媒体资源，这里对此不进行具体限定。

XR服务器可以是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式***，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

以下，对本申请实施例提供的虚拟环境的显示方法的基本处理流程进行介绍。

图2是本申请实施例提供的一种虚拟环境的显示方法的流程图。参见图2，该实施例由可穿戴电子设备执行，该实施例包括以下步骤：

201、可穿戴电子设备获取相机以不同视角观察目标场所时采集的多个环境图像，不同的环境图像表征相机以不同视角观察该目标场所时采集到的图像。

本申请实施例涉及的相机，可以是指单目相机或双目相机，也可以是指全景相机和非全景相机，本申请实施例对相机的类型不进行具体限定。

在一些实施例中，用户对可穿戴电子设备穿戴完毕以后，在经过用户对相机权限的充分同意和充分授权以后，可穿戴电子设备打开相机，用户可以在目标场所内自身所处的位置上原地旋转一周，或者用户在目标场所中环绕行走一周，或者用户行走到多个设定位置(如四个墙角加上房间中心)上进行拍摄，又或者XR***以引导语音、引导图像或者引导动画等方式，指引用户来调整不同的身体姿态来完成不同视角下的环境图像采集，最终采集到从不同视角观察目标场所的情况下的多个环境图像，本申请实施例对用户采集环境图像时的身体姿态不进行具体限定。

在一些实施例中，以用户原地旋转一周来采集环境图像为例进行说明，相机每间隔相等或者不相等的旋转角就拍摄一个环境图像，这样在旋转一周以后可以拍摄得到多个环境图像，在一个示例中，相机每间隔30度的旋转角就拍摄一个环境图像，用户在旋转一周即360度的过程中总计拍摄到12个环境图像。

在一些实施例中，相机实时拍摄观察目标场所的视频流，并从拍摄完毕的视频流中采样多个图像帧作为该多个环境图像，在图像帧采样时可以进行等间距采样或者不等间距采样，比如，每间隔N(N≥1)帧选择一个图像帧作为一个环境图像，或者，基于相机的SLAM(Simultaneous Localization and Mapping，即时定位与地图构建)***来确定每一个图像帧的旋转角，并在不同的旋转角度下均匀选择图像帧，本申请实施例对从视频流中采样图像帧的方式不进行具体限定。

在另一些实施例中，也可以由外置的相机来采集多个环境图像以后，将多个环境图像发送到可穿戴电子设备，以使得可穿戴电子设备获取到多个环境图像，本申请实施例对多个环境图像的来源不进行具体限定。

如图3所示，以可穿戴电子设备为VR头显为例，用户在佩戴上VR头显以后，保持平视前方，控制VR头显打开相机，并在原地按照水平方向旋转一周(即旋转360度)，旋转方向可以是顺时针旋转(即向右旋转)或者逆时针旋转(即向左旋转)，本申请实施例对用户的旋转方向不进行具体限定，VR头显的相机会在旋转过程中直接拍摄多个环境图像，或者直接拍摄一个视频流以从视频流中采样出来多个环境图像。由于用户是在原地旋转，因此旋转过程中选取的多个环境图像可视为拍摄于同一地点，并以不同视角观察目标场所时得到的一系列图像。

如图4所示，以目标场所为目标房间为例，用户在目标房间中佩戴VR头显并原地旋转一周后采集了多个环境图像，图4示出了多个环境图像中的其中两个环境图像401和402，可以看出，环境图像401和402能够近似认为是对同一地点以不同视角下进行观察的图像，能够用于VR头显来提取目标场所的布局信息。

202、可穿戴电子设备基于该多个环境图像，获取将该目标场所投影到虚拟环境中的全景图像，该全景图像是指将该目标场所投影到该虚拟环境后所得的全景视角下的图像。

在一些实施例中，可穿戴电子设备基于步骤201中获取到的多个环境图像，来构建目标场所的360度全景图像，同时消除相机扰动产生的位置变化所引入的误差。其中，360度全景图像是指将水平方向旋转360度、竖直方向旋转180度拍摄的环境图像所指示的目标场所，投影到以相机中心为球心的球面上所形成的全景图像，即，将目标场所从现实世界的原坐标系投影到虚拟环境中以相机中心为球心的球坐标系，从而实现将多个环境图像转换成360度全景图像。

在一些实施例中，对每个环境图像，基于相机的SLAM***来确定拍摄环境图像时的相机位姿，并在相机位姿确定以后，可通过相机的投影矩阵，来将该环境图像从原坐标系投影到球坐标系。对各个环境图像均执行上述投影操作以后，在球坐标系中拼接各个环境图像的投影图像，即可得到全景图像。

如图5所示，对于原坐标系中呈矩形形状的环境图像501，在确定相机拍摄环境图像501时的相机位姿以后，可以确定出来相机的投影矩阵的参数，并根据投影矩阵的参数，将环境图像501投影到以相机中心(即镜头)为球心510的球面511上，得到投影到球面511以后的投影图像502。

如图6所示，提供了一种360度全景图像，360度全景图像能够完全地呈现出来目标场所在各个视角下的陈设，由于在相机旋转一周的过程中，水平方向的观察角度为0～360度，竖直方向的俯仰角度为0～180度，由此生成的360度全景图像，其横坐标表示为水平方向从0～360度的视角，其纵坐标表示为竖直方向从0～180度的视角，因此360度全景图像的宽度与高度的比例为2:1。

203、可穿戴电子设备提取该目标场所在该全景图像中的布局信息，该布局信息指示该目标场所中的室内设施的边界信息。

在一些实施例中，可穿戴电子设备可以训练一个特征提取模型和一个布局信息提取模型，先通过特征提取模型来提取全景图像的图像语义特征，再利用该图像语义特征来提取目标场所的布局信息。关于特征提取模型和布局信息提取模型的示例性结构将在下一实施例中详细说明，这里不再赘述。

在一些实施例中，上述布局信息至少包括目标场所中墙体与墙体、墙体与天花板以及墙体与地面的交界处的位置信息，上述布局信息可以表现为3个一维的空间布局向量，通过3个一维的空间布局向量能够指示出来上述交界处的位置坐标以及必要的高度信息。

204、可穿戴电子设备显示基于该布局信息所构建的目标虚拟环境，该目标虚拟环境用于在虚拟环境中模拟该目标场所。

在一些实施例中，可穿戴电子设备基于步骤203中提取到的布局信息，来构建用于模拟目标场所的目标虚拟环境，接着，通过可穿戴电子设备来显示目标虚拟环境，使得用户能够在目标虚拟环境中仿佛进入了现实世界中的目标场所，有利于提供更加沉浸式的超现实交互体验。

如图7所示，在XR游戏开发场景下，用户在佩戴XR头显原地旋转一周以后，XR头显会根据相机拍摄的多个环境图像来提取目标场所的布局信息，并根据布局信息来构建目标虚拟环境700，最后显示目标虚拟环境700。由于布局信息至少能够提供目标场所的墙***置，这样通过在目标虚拟环境700中将墙***置所指示的虚拟墙体投影成虚拟场景(如森林、草地等)，这样能够在不增加目标场所的占地面积的情况下，扩大用户的游戏视野。进一步的，由于布局信息还能够提供目标场所的地面位置，这样可以在目标虚拟环境700的虚拟地面上放置一些虚拟对象、虚拟物品、游戏道具等，并还能够控制虚拟对象在虚拟地面上进行活动，达到更加丰富多样化的游戏效果。

如图8所示，在游戏端的空间音频技术场景下，目标场所的布局信息除了用于构建目标虚拟环境的画面以外，还可以用于调整目标虚拟环境配套的音频，例如，考虑到现实世界中声音在室内传播时，会因为目标场所的布局不同、材质不同而发生变化，比如，门距离用户的远近不同时关门的声音也会不同，又比如，木地板的脚步声与瓷砖地板的脚步声不同等。通过目标场所的布局信息，能够帮助判断用户在室内距离各个室内设施的距离，以便于调整游戏音频的音量，同时还能够获取各个室内设施的材质，这样能够在游戏开发中使用不同的空间音频，来提供不同材质的室内设施相匹配的音质，能够进一步提升用户使用的沉浸感。

上述所有可选技术方案，能够采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请实施例提供的方法，通过根据不同视角下对目标场所进行观察的多个环境图像，来生成将目标场所投影到虚拟环境后的全景图像，能够在全景图像的基础上机器自动识别和智能提取到目标场所的布局信息，并利用布局信息来构建用于模拟目标场所的目标虚拟环境，这样由于机器能够自动提取布局信息并构建目标虚拟环境，无需用户手动标记布局信息，整体过程耗时很短，极大提升了虚拟环境的构建速度和加载效率，并且目标虚拟环境能够高度还原目标场所，能够提高用户的沉浸式交互体验。

通常，机器自动对目标场所的三维布局进行理解的过程仅需要耗时数秒钟，并且不需要用户手动标注边界信息，对布局信息的提取速度提升巨大。而且，环境图像的采集可以仅依赖于普通的单目相机，而并不一定要求配置专门的全景相机或者增加深度传感器模块，因此，这一方法对可穿戴电子设备的硬件成本要求低、能耗少，能够广泛部署在各种硬件规格的可穿戴电子设备上。

以及，这一对目标场所的房间布局理解技术，可以被封装成接口，对外支持各类MR应用、XR应用、VR应用、AR应用等，例如，将虚拟物体放置在目标虚拟环境的虚拟地面上，将目标虚拟环境中的虚拟墙体、虚拟天花板投影成虚拟场景，以增加用户的视野。此外，基于房间布局理解技术以及材质的空间音频技术，使得用户在使用可穿戴电子设备的同时有更具有沉浸感的交互体验。

在上一实施例中，简单介绍了虚拟环境的显示方法的处理流程，而在本申请实施例中，将详细介绍虚拟环境的显示方法的各个步骤的具体实施方式，下面进行说明。

图9是本申请实施例提供的一种虚拟环境的显示方法的流程图。参见图9，该实施例由可穿戴电子设备执行，该实施例包括以下步骤：

901、可穿戴电子设备获取相机以不同视角观察目标场所时采集的多个环境图像，不同的环境图像表征相机以不同视角观察该目标场所时采集到的图像。

在一些实施例中，该相机为可穿戴电子设备上的单目相机或双目相机，全景相机或非全景相机，本申请实施例对可穿戴电子设备所配备的相机类型不进行具体限定。

在一些实施例中，以用户原地旋转一周来采集环境图像为例，相机每间隔相等或者不相等的旋转角就拍摄一个环境图像，这样在旋转一周以后可以拍摄得到多个环境图像，在一个示例中，相机每间隔30度的旋转角就拍摄一个环境图像，用户在旋转一周即360度的过程中总计拍摄到12个环境图像。

在一些实施例中，相机实时拍摄观察目标场所的视频流，以使可穿戴电子设备获取该相机在该目标场所的目标范围内视角旋转一周后所拍摄到的视频流，目标范围是指用户原地旋转时所处的范围，由于用户在原地旋转一周的过程中可能会发生位置变化，因此旋转时所处的并非是一个点而是一个范围。接着，可以从该视频流包含的多个图像帧中进行采样，得到该多个环境图像，例如，在图像帧采样时可以进行等间距采样或者不等间距采样，比如，每间隔N(N≥1)帧选择一个图像帧作为一个环境图像，或者，基于相机的SLAM(Simultaneous Localization and Mapping，即时定位与地图构建)***来确定每一个图像帧的旋转角，并在不同的旋转角度下均匀选择图像帧，本申请实施例对从视频流中采样图像帧的方式不进行具体限定。

在上述过程中，通过从视频流中采样图像帧作为环境图像，这样能够根据全景图像的构造需求，灵活控制采样间距，使得环境图像的选取方式更加满足多样化的业务需求，提升了获取环境图像的精准度和可控度。

在另一些实施例中，也可以由外置的相机来采集多个环境图像以后，将多个环境图像发送到可穿戴电子设备，以使得可穿戴电子设备获取到多个环境图像，本申请实施例对多个环境图像的来源不进行具体限定。如图10所示，可以利用一个外置的携带有支架的全景相机，来直接拍摄初始全景图像，只需要再将拍摄出来的初始全景图像从原坐标系投影到球坐标系，即可得到所需的全景图像，这样能够简化全景图像的获取流程，提升全景图像的获取效率，而且由于全景相机携带有支架，能够消除由于用户位置变化带来的球心坐标扰动，从而降低了一部分随机误差。

902、可穿戴电子设备对该多个环境图像进行关键点检测，得到该目标场所中的多个图像关键点分别在该多个环境图像中的位置信息。

在一些实施例中，针对步骤901中采集到的多个环境图像，由于用户在旋转过程中不可避免的会发生位置变化，因此相机中心在旋转一周的过程中并非是一个固定位置的球心，而是一个位置在目标范围内不断变化的球心，这种球心位置变化的扰动对全景图像的构造带来了一定的难度。

如图11所示，4个圆点代表了相机中心，从圆点出发的实线箭头方向代表采集图像帧时的视角，可以看出相机中心在旋转一周的过程中，其位置并不是完全重叠的，而是不可避免地在旋转中存在偏移，即，相机中心并非一个恒定的点，且相机中心的运动方向也不能始终保持水平，而是存在一定的扰动。有鉴于此，本申请实施例以单目相机拍摄的环境图像为例，提供了获取全景图像的流程，以尽量消除用户在旋转过程中由于镜头晃动所带来的扰动和误差。

在一些实施例中，可穿戴电子设备可以对每个环境图像进行关键点检测，得到每个环境图像中的多个图像关键点各自的位置坐标，其中，图像关键点是指环境图像中蕴含了较多信息量的像素点，通常是视觉上比较容易关注到的像素点，例如，图像关键点是一些室内设施的边缘点，或者一些色彩较为鲜艳的像素点。可选地，对每个环境图像都使用关键点检测算法来进行关键点检测，以输出当前环境图像所包含的多个图像关键点各自的位置坐标，这里对关键点检测算法也不进行具体限定。

在一些实施例中，可穿戴电子设备可以将该多个环境图像中同一图像关键点的多个位置坐标进行配对，得到每个图像关键点的位置信息，每个图像关键点的位置信息用于指示每个图像关键点在该多个环境图像中的多个位置坐标。由于图像关键点蕴含的信息量较为丰富，具有较高的辨识度，能够方便地针对同一图像关键点在不同环境图像中进行配对，即，在以不同视角观察目标场所时，同一图像关键点通常会出现在不同的环境图像中的不同位置，关键点配对的过程就是将同一图像关键点在不同的环境图像中各自的位置坐标都挑选出来，构成一组位置坐标，将这一组位置坐标作为该图像关键点的位置信息。

如图12所示，针对6个环境图像1201～1206，依次进行关键点检测，得到每个环境图像中包含的多个图像关键点，接着，将不同环境图像中相同的图像关键点进行配对，配对成功后的每个图像关键点将会具有一组位置坐标作为位置信息，以指示每个图像关键点在不同环境图像中各自所处的位置坐标。

如图13所示，针对环境图像1201和1202，假设电视机的两个顶点：左上角顶点和右下角顶点，均被关键点检测算法识别为图像关键点，那么在关键点检测阶段，将会识别出来电视机的左上角顶点和右下角顶点在环境图像1201中的位置坐标(x1，y1)和(x2，y2)，以及电视机的左上角顶点和右下角顶点在环境图像1202中的位置坐标(x1’，y1’)和(x2’，y2’)，在关键点配对阶段，将会将电视机的左上角顶点在环境图像1201中的位置坐标(x1，y1)与环境图像1202中的位置坐标(x1’，y1’)进行配对，同时，将电视机的右下角顶点在环境图像1201中的位置坐标(x2，y2)与环境图像1202中的位置坐标(x2’，y2’)进行配对，即，配对完毕后，电视机的左上角顶点的位置信息包括{(x1，y1)，(x1’，y1’)，…}，电视机的右下角顶点的位置信息包括{(x2，y2)，(x2’，y2’)，…}。

在上述过程中，通过对各个环境图像分别进行关键点检测，并将检测出来的同一图像关键点在不同环境图像中进行配对，以便于根据图像关键点在不同环境图像中各自的位置坐标，来反推每个环境图像下的相机位姿，这样能够提升相机位姿的识别准确度。

903、可穿戴电子设备基于该位置信息，确定该多个环境图像各自的多个相机位姿，该相机位姿用于指示在相机在采集环境图像时的视角转动姿态。

在一些实施例中，由于相机在转动过程中不可避免的存在晃动，因此可以根据步骤902中配对完毕的各个图像关键点的位置信息，重新对每个环境图像的相机位姿进行估计。

可选地，可穿戴电子设备在确定相机位姿时，将该多个环境图像各自的多个相机位姿的移动量设置为零；接着，基于该位置信息，确定该多个环境图像各自的该多个相机位姿的转动量。即，对每个环境图像都将相机位姿的移动量设置为零，再根据配对完毕的各个图像关键点的位置信息，对每个环境图像的相机位姿的转动量进行估计。由于相机位姿的移动量始终被设置为零，在调整相机位姿的转动量的过程中，相机位姿在不同环境图像间只有转动量的变化，而不存在移动量的变化，这样能够保证以后在投影环境图像的过程中，所有环境图像都被投影到同一个球心所确定的球坐标系中，从而尽量消除投影阶段的球心偏移扰动。

904、可穿戴电子设备基于该多个相机位姿，分别将该多个环境图像从该目标场所的原坐标系投影到该虚拟环境的球坐标系，得到多个投影图像。

在一些实施例中，可穿戴电子设备可以直接基于步骤903中的每个环境图像的相机位姿，将每个环境图像都从原坐标系(即垂直坐标系)投影到以相机中心为球心的球坐标系中，得到一个投影图像。对多个环境图像逐个执行上述操作，能够得到多个投影图像。

在一些实施例中，在投影环境图像以前，还可以先对该多个相机位姿进行修正，以使该多个相机位姿在该球坐标系中的球心对齐；接着，基于修正后的多个相机位姿，分别将该多个环境图像从该原坐标系投影到该球坐标系，得到该多个投影图像。即，通过先对相机位姿进行预先修正，使用修正后的相机位姿来将环境图像投影成投影图像，能够进一步提升投影图像的准确度。

在一些实施例中，可穿戴电子设备使用光束平差算法(Bundle Adjustment)对相机位姿进行修正，光束平差算法通过将相机位姿和测量点的三维坐标作为未知参数，将环境图像上探测到的用于前方交会的特征点坐标作为观测数据，从而进行平差得到最优的相机位姿和相机参数(如投影矩阵)。在利用光束平差算法，对每个相机位姿进行修正，得到修正后的相机位姿的同时，还能够对相机参数进行全局优化，得到优化后的相机参数。接着，根据优化后的相机位姿和相机参数，将每个环境图像都投影到球坐标系中，得到每个环境图像的投影图像，并且能够保证各个投影图像处于同一球心的球坐标系。

905、可穿戴电子设备获取基于该多个投影图像拼接得到的全景图像，该全景图像是指将该目标场所投影到该虚拟环境后所得的全景视角下的图像。

在一些实施例中，可穿戴电子设备直接将上述步骤904中的多个投影图像进行拼接，得到全景图像，这样能够简化全景图像的获取流程，提升全景图像的获取效率。

在另一些实施例中，可穿戴电子设备可以对该多个投影图像进行拼接，得到拼接图像；对该拼接图像进行平滑或光照补偿中的至少一项，得到该全景图像。即，可穿戴电子设备对于拼接所得的拼接图像，进行如平滑、光照补偿等后处理操作，将后处理完毕的图像作为全景图像。通过对拼接图像进行平滑，能够消除不同投影图像拼接处存在的不连续情况，通过对拼接图像进行光照补偿，能够平衡不同投影图像拼接处存在的明显光照差别。如图14所示，示出了一种全景图像的展开图，在360度全景图像中能够完整地涵盖了现实世界中目标场所内的所有室内设施的布局信息。

在上述步骤902-905中，提供了基于该多个环境图像，获取将该目标场所投影到虚拟环境中的全景图像的一种可能实施方式，即，上述步骤902-905可整体视为一个全景图构造算法，全景图构造算法的输入是目标场所的多个环境图像，输出是目标场所的360度球坐标全景图像，同时消除了相机扰动产生的位置变化所引入的随机误差。

如图15所示，示出了全景图构造算法的处理流程，针对步骤901中的环境图像即视频流中的图像帧，先逐个图像帧进行关键点检测，得到每个图像帧中的多个图像关键点，再将同一关键点在不同图像帧中进行配对，以实现每个图像帧的相机位姿估计，接着利用光束平差算法来修正相机位姿，再利用修正后的相机位姿进行图像投射，以将环境图像从原坐标系投影到球坐标系，得到投影图像，对投影图像进行拼接，得到拼接图像，对拼接图像进行平滑、光照补偿等后处理操作，得到最终的360度球坐标全景图像，这一360度球坐标全景图像可以投入到下述步骤906-908中来自动提取布局信息。

906、可穿戴电子设备将该全景图像中的竖直方向投影为重力方向，得到修正全景图像。

在一些实施例中，针对步骤905中生成的全景图像，先进行预处理，即，将全景图像的竖直方向投射为重力方向，得到修正全景图像，假设全景图像的宽度W、高度H，那么经过预处理以后的修正全景图像可以表示为I∈R^H×W。

907、可穿戴电子设备提取该修正全景图像的图像语义特征，该图像语义特征用于表征该修正全景图像中与该目标场所的室内设施相关联的语义信息。

在一些实施例中，可穿戴电子设备基于步骤906中预处理完毕后的修正全景图像，提取该修正全景图像的图像语义特征，可选地，利用一个训练完毕的特征提取模型来提取图像语义特征，该特征提取模型用于提取输入图像的图像语义特征，将修正全景图像输入到特征提取模型中，通过特征提取模型输出该图像语义特征。

在一些实施例中，以特征提取模型为深度神经网络f为例进行说明，假设深度神经网络f是一个MobileNets(移动网络)，这样能够在移动端设备上具有较好的特征提取速度，此时的特征提取模型可以表示为f_mobile，对图像语义特征的提取过程包括下述步骤A1～A4：

A1、可穿戴电子设备将该修正全景图像输入到特征提取模型中。

在一些实施例中，可穿戴电子设备将上述步骤906中预处理完毕后的修正全景图像输入到特征提取模型f_mobile中，特征提取模型f_mobile包括两类卷积层，常规卷积层和深度可分离卷积层，在常规卷积层中将对输入特征图进行卷积操作，在深度可分离卷积层中将对输入特征图进行深度可分离卷积(Depthwise Separable Convolution)操作。

A2、可穿戴电子设备通过该特征提取模型中的一个或多个卷积层，对该修正全景图像进行卷积操作，得到第一特征图。

在一些实施例中，可穿戴电子设备先将修正全景图像输入到特征提取模型f_mobile中的一个或多个串联的卷积层(指常规卷积层)中，通过第一个卷积层对修正全景图像进行卷积操作，得到第一个卷积层的输出特征图，将第一个卷积层的输出特征图输入到第二个卷积层中，通过第二个卷积层对第一个卷积层的输出特征图进行卷积操作，得到第二个卷积层的输出特征图，以此类推，直到最后一个卷积层输出上述第一特征图。

在每个卷积层内部，将配置预设尺寸的卷积核，例如，卷积核的预设尺寸可以是3×3、5×5、7×7等，可穿戴电子设备将以预设尺寸的扫描窗口，在上一个卷积层的输出特征图上按照预设步长进行扫描，每到达一个扫描位置时，扫描窗口能够在上一个卷积层的输出特征图上确定出来一组特征值，将这一组特征值分别与卷积核的一组权重值进行加权求和，得到当前卷积层的输出特征图上的一个特征值，以此类推，直到扫描窗口遍历了上一个卷积层的输出特征图中的所有特征值以后，将得到当前卷积层的新的输出特征图，后文中的卷积操作同理，将不再赘述。

A3、可穿戴电子设备通过该特征提取模型中的一个或多个深度可分离卷积层，对该第一特征图进行深度可分离卷积操作，得到第二特征图。

在一些实施例中，在特征提取模型f_mobile中除了常规卷积层以外，还配置有一个或多个深度可分离卷积层，深度可分离卷积层用于将常规卷积操作拆分为空间维度的逐通道卷积和通道维度的逐点卷积。

下面，将以特征提取模型f_mobile中的任一个深度可分离卷积层为例，对单个深度可分离卷积层内部的深度可分离卷积操作的处理流程进行说明，包括如下子步骤A31～A34：

A31、可穿戴电子设备通过每个深度可分离卷积层，对上一深度可分离卷积层的输出特征图进行空间维度的逐通道卷积操作，得到第一中间特征。

其中，该第一中间特征与该上一深度可分离卷积层的输出特征图的维度相同。

其中，逐通道卷积操作是指：对输入特征图中在空间维度上的每个通道分量都配置一个单通道卷积核，利用单通道卷积核来对输入特征图的每个通道分量分别进行卷积运算，并合并各个通道分量的卷积运算结果，得到一个通道维度不变的第一中间特征。

需要说明的是，深度可分离卷积层之间保持串联关系，即，除了第一个深度可分离卷积层以第一特征图作为输入以外，其余的每个深度可分离卷积层都以上一深度可分离卷积层的输出特征图作为输入，并由最后一个深度可分离卷积层来输出第二特征图。

以第一个深度可分离卷积层为例进行说明，第一个深度可分离卷积层的输入特征图即为上述步骤A2获取到的第一特征图，假设第一特征图的通道数为D，那么在第一个深度可分离卷积层中将配置有D个单通道卷积核，这D个单通道卷积核与第一特征图的D个通道具有一一对应的映射关系，每个单通道卷积核仅用于对第一特征图中的一个通道进行卷积运算，利用上述D个单通道卷积核可对D维的第一特征图进行逐通道卷积操作，得到一个D维的第一中间特征，因此，第一中间特征和第一特征图的维度相同。即，逐通道卷积操作不会改变特征图的通道维度，这种逐通道卷积操作能够充分考虑到第一特征图在每个通道内部的交互信息。

A32、可穿戴电子设备对该第一中间特征进行通道维度的逐点卷积操作，得到第二中间特征。

其中，逐点卷积操作是指：利用一个卷积核对输入特征图的所有通道进行卷积运算，使得输入特征图的所有通道的特征信息合并到一个通道上，通过控制逐点卷积操作的卷积核个数，就能够实现对第二中间特征的维度控制，即，第二中间特征的维度等于逐点卷积操作的卷积核个数。

在一些实施例中，可穿戴电子设备对D维的第一中间特征进行通道维度的逐点卷积操作，即，假设配置了N个卷积核，那么对每个卷积核，都需要利用该卷积核对D维第一中间特征的所有通道进行卷积运算，得到第二中间特征的其中1个通道，重复N次上述操作，分别利用N个卷积核进行通道维度的逐点卷积操作，即可得到一个N维第二中间特征。因此，通过控制卷积核个数N，即可实现对第二中间特征的维度控制，并且能够保证第二中间特征的每个通道都能够充分在通道层面上深度融合第一中间特征的所有通道间的交互信息。

A33、可穿戴电子设备对该第二中间特征进行卷积操作，得到该深度可分离卷积层的输出特征图。

在一些实施例中，针对步骤A32获取到的第二中间特征，可以先进行批量归一化(Batch Normalization，BN)操作，得到归一化后的第二中间特征，再利用一个激活函数ReLU对归一化后的第二中间特征进行激活，得到激活后的第二中间特征，接着，再对激活后的第二中间特征再进行一次常规的卷积操作，对卷积操作后得到的特征图分别进行BN操作、ReLU激活操作，得到当前深度可分离卷积层的输出特征图，将当前深度可分离卷积层的输出特征图输入到下一深度可分离卷积层中，迭代执行子步骤A31～A33。

A34、可穿戴电子设备迭代执行该逐通道卷积操作、该逐点卷积操作和该卷积操作，由最后一个深度可分离卷积层输出该第二特征图。

在一些实施例中，可穿戴电子设备中的每个深度可分离卷积层，除了第一个深度可分离卷积层对第一特征图执行子步骤A31～A33以外，其余深度可分离卷积层都针对上一深度可分离卷积层的输出特征图执行子步骤A31～A33，最终，由最后一个深度可分离卷积层输出第二特征图，进入步骤A4。

在上述步骤A31～A34中，提供了特征提取模型内部通过深度可分离卷积层来提取第二特征图的一种可能实施方式，技术人员能够灵活控制深度可分离卷积层的层数，并灵活控制每个深度可分离卷积层中卷积核的数量，从而来达到对第二特征图的维度控制，本申请实施例对此不进行具体限定。

在另一些实施例中，可穿戴电子设备也可以不采用深度可分离卷积层，而是采用如空洞卷积层、残差卷积层(即采用残差连接的常规卷积层)等方式来提取第二特征图，本申请实施例对第二特征图的提取方式不进行具体限定。

A4、可穿戴电子设备通过该特征提取模型中的一个或多个后处理层，对该第二特征图进行池化操作或者全连接操作中的至少一项，得到该图像语义特征。

在一些实施例中，可穿戴电子设备可以将上述步骤A3中获取到的第二特征图，输入到一个或多个后处理层中，通过一个或多个后处理层对第二特征图进行后处理，最终输出图像语义特征。可选地，该一个或多个后处理层包括：一个池化层和一个全连接层，这种情况下，先将第二特征图输入到池化层中进行池化操作，例如，池化层为均值池化层时，则对第二特征图进行均值池化操作，池化层为最大池化层时，则对第二特征图进行最大池化操作，本申请实施例对池化操作的类型不进行具体限定；接着，再将经过池化后的第二特征图输入到全连接层中进行全连接操作，得到图像语义特征。

在上述步骤A1～A4中，提供了提取图像语义特征的一种可能实施方式，即利用基于MobileNets架构的特征提取模型，来提取图像语义特征，这样能够在移动端设备上也取得很快的特征提取速度，在另一些实施例中，也可以采取其他架构的特征提取模型，如卷积神经网络、深度神经网络、残差网络等，本申请实施例对特征提取模型的架构不进行具体限定。

908、可穿戴电子设备基于该图像语义特征，预测该目标场所在该全景图像中的布局信息，该布局信息指示该目标场所中的室内设施的边界信息。

在一些实施例中，可穿戴电子设备可以将上述步骤907中提取到的图像语义特征，输入到一个布局信息提取模型中，来进一步自动提取目标场所的布局信息。

下面，将以BLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆网络)架构的布局信息提取模型为例，对BLSTM的布局信息提取过程进行说明，请参考下述步骤B1～B3：

B1、可穿戴电子设备对该图像语义特征进行通道维度的分割操作，得到多个空间域语义特征。

在一些实施例中，将特征提取模型f_mobile提取到的图像语义特征，输入到布局信息提取模型f_BLSTM以前，先对图像语义特征进行通道维度的分割操作，得到多个空间域语义特征，每个空间域语义特征均包含图像语义特征中的一部分通道，例如，将一个1024维的图像语义特征，分割成四个256维的空间域语义特征。

B2、可穿戴电子设备将该多个空间域语义特征分别输入布局信息提取模型的多个记忆单元，通过该多个记忆单元对该多个空间域语义特征进行编码，得到多个空间域上下文特征。

在一些实施例中，将上述步骤B1中分割得到的每个空间域语义特征，都输入到布局信息提取模型f_BLSTM中的一个记忆单元中，并在每个记忆单元中，分别将输入的空间域语义特征结合上下文信息进行双向编码，得到一个空间域上下文特征。如图16所示，图16中的每个LSTM模块即代表布局信息提取模型f_BLSTM中的一个记忆单元，每个记忆单元的输入包括：从图像语义特征中分割出来的空间域语义特征，来自上一个记忆单元的历史信息(即上文信息)，以及来自下一个记忆单元的未来信息(即下文信息)。这样的BLSTM架构，使得修正全景图像的图像语义特征中不同通道的深度特征，经过记忆单元分别在两个方向上进行传播，从而有利于对空间域语义特征进行充分编码，使得空间域上下文特征具有更好的特征表达能力。可选地，不同位置的记忆单元可以共享参数，这样能够显著降低布局信息提取模型f_BLSTM的模型参数量，也能够降低布局信息提取模型f_BLSTM的存储开销。

下面，将以单个记忆单元的编码过程为例进行说明。通过每个记忆单元，可以对该记忆单元关联的空间域语义特征，以及上一记忆单元编码后所得的空间域上文特征进行编码，将编码后所得的空间域上文特征输入到下一记忆单元；此外，还能够对该记忆单元关联的空间域语义特征，以及下一记忆单元编码后所得的空间域下文特征进行编码，将编码后所得的空间域下文特征输入到上一记忆单元；接着，基于该记忆单元编码后所得的空间域上文特征和空间域下文特征，获取该记忆单元输出的空间域上下文特征。

在上述过程中，正向编码时，将本记忆单元的空间域语义特征，结合上一记忆单元的空间域上文特征进行编码，得到本记忆单元的空间域上文特征；反向编码时，将本记忆单元的空间域语义特征，结合下一记忆单元的空间域下文特征进行编码，得到本记忆单元的空间域下文特征，再将正向编码得到的空间域上文特征和反向编码得到的空间域下文特征进行融合，即可获取到本记忆单元的空间域上下文特征。

这种BLSTM结构的布局信息提取模型f_BLSTM，能够更好地获取到整个修正全景图像的全局的布局信息，这一设计思路与生活常识也是吻合的，即，人类可以通过观察房间的一部分布局来去估计其他部分的布局信息，因此，通过布局信息提取模型f_BLSTM将全景图像中不同区域在空间域上语义信息进行融合，能够更好地从全局层面来理解房间布局，有利于提升下述步骤B3中布局信息的准确程度。

B3、可穿戴电子设备基于该多个空间域上下文特征进行解码，得到该布局信息。

在一些实施例中，可穿戴电子设备可以利用步骤B2中各个记忆单元所获取到的空间域上下文特征进行解码，以获取到一个目标场所的布局信息。可选地，该布局信息可以包括第一布局向量、第二布局向量和第三布局向量，该第一布局向量指示该目标场所中的墙体与天花板的交界信息，该第二布局向量指示该目标场所中的墙体与地面的交界信息，该第三布局向量指示该目标场所中的墙体与墙体的交界信息。这样，通过将各个记忆单元所获取到的空间域上下文特征，解码成***目标场所的空间布局情况的布局向量，从而能够将布局信息进行量化，便于计算机利用布局向量来方便地构建目标虚拟环境。

在一些实施例中，将上述三个布局向量所组成的布局信息可以表示为：f_BLSTM(f_mobile(I))∈R^3×1×W，其中，I表示修正全景图像，W表示I的宽度，f_mobile表示特征提取模型，f_mobile(I)表示修正全景图像的图像语义特征，f_BLSTM表示布局信息提取模型，f_BLSTM(f_mobile(I))表示目标场所的布局信息。f_BLSTM(f_mobile(I))包括3个1×W的布局向量，3个布局向量分别表示：墙体与天花板的交界处信息、墙体与地面的交界处信息以及墙体与墙体的交界处信息。

在另一些实施例中，除了使用上述3个布局向量作为目标场所的布局信息以外，还能够简化成1个布局向量和1个布局标量，即，使用1个布局向量和1个布局标量作为目标场所的布局信息，其中，1个布局向量表征相机中心在地平线上时360度到墙体的水平距离，1个布局标量则表示目标场所的房间高度(或者认为是墙体高度、天花板高度)。

需要说明的是，技术人员可以按照业务需求，来设置不同数据形式的布局信息，例如设置更多或者更少的布局向量和布局标量，本申请实施例对布局信息的数据形式不进行具体限定。

如图17所示，示出了一种对天花板和地面的空间布局的标注结果，利用三个布局向量，能够确定出来天花板与墙体的交界处的位置信息，以及地面与墙体的交界处的位置信息，利用这两处位置信息能够反过来在全景图像中勾勒出来天花板的边界和地面的边界，天花板的边界是上半部分的加粗线条，地面的边界是下半部分的加粗线条，而天花板与地面之间的垂直线条则是墙体与墙体的边界。

在上述步骤B1～B3中提供了利用BLSTM架构的布局信息提取模型，来提取目标场所的布局信息的一种可能实施方式，这样能够提升布局信息的准确程度，在另一些实施例中，布局信息提取模型也可以采用LSTM(Long Short-Term Memory，长短期记忆网络)架构、RNN(Recurrent Neural Network，循环神经网络)架构或者其他架构，本申请实施例对布局信息提取模型的架构不进行具体限定。

如图18所示，示出了获取三个布局向量的原理性处理流程，针对步骤905中获取到的360度全景图像，先进行预处理，以将竖直方向投影成重力方向，保证墙体垂直于地面，且墙体与墙体之间平行。接着，利用特征提取模型MobileNets来提取图像语义特征，再利用布局信息提取模型BLSTM来提取三维空间的布局向量。接着，还可以对三维空间的布局向量进行后处理，以生成用于模拟目标场所的目标虚拟环境。

在上述步骤906-908中，提供了可穿戴电子设备提取该目标场所在该全景图像中的布局信息的一种可能实施方式，分别通过特征提取模型来提取图像语义特征，再利用图像语义特征来预测目标场所的布局信息，使得布局信息的提取过程不需要用户进行人工标注，而是全程可由可穿戴电子设备机器识别，极大节约了人工成本，使得对于目标场所的三维空间布局理解可自动化、智能化实现。

909、可穿戴电子设备显示基于该布局信息所构建的目标虚拟环境，该目标虚拟环境用于在虚拟环境中模拟该目标场所。

在一些实施例中，可穿戴电子设备基于步骤908中提取到的布局信息，来构建用于模拟目标场所的目标虚拟环境，接着，通过可穿戴电子设备来显示目标虚拟环境，使得用户能够在目标虚拟环境中仿佛进入了现实世界中的目标场所，有利于提供更加沉浸式的超现实交互体验。如图19所示，示出了一种用于模拟目标场所的目标虚拟环境的俯视图，可以看出，在俯视图中基本能够还原出来目标场所的各个室内设施，并保持目标场所在虚拟环境中的空间布局高度还原了在现实世界中的布局方式，具有极高的逼真程度，不但提升了虚拟环境的构建效率，而且有利于优化沉浸式体验。

如图20所示，示出了针对目标场所的三维布局理解流程，针对可穿戴电子设备的相机所采集的视频流，输入到全景图构造算法中，构建出来360全景图像，接着，输入到房间布局理解算法中，以自动识别出来目标场所的三维布局，即，可以输出3个布局向量，便于机器自动根据3个布局向量来构建目标虚拟环境。

在另一些实施例中，可穿戴电子设备还可以基于该全景图像，对该目标场所中的室内设施进行材质识别，得到该室内设施的材质；接着，基于该室内设施的材质，对该虚拟环境所关联音频的音质或音量中至少一项进行修正。这样，考虑到现实世界中声音在室内传播时，会因为目标场所的布局不同、材质不同而发生变化，比如，门距离用户的远近不同时关门的声音也会不同，又比如，木地板的脚步声与瓷砖地板的脚步声不同等。通过目标场所的布局信息，能够帮助判断用户在室内距离各个室内设施的距离，以便于调整游戏音频的音量，同时还能够获取各个室内设施的材质，这样能够在游戏开发中使用不同的空间音频，来提供不同材质的室内设施相匹配的音质，能够进一步提升用户使用的沉浸感。

图21是本申请实施例提供的一种虚拟环境的显示装置的结构示意图，如图21所示，该装置包括：

第一获取模块2101，用于获取相机以不同视角观察目标场所时采集的多个环境图像，不同的环境图像表征相机以不同视角观察该目标场所时采集到的图像；

第二获取模块2102，用于基于该多个环境图像，获取将该目标场所投影到虚拟环境中的全景图像，该全景图像是指将该目标场所投影到该虚拟环境后所得的全景视角下的图像；

提取模块2103，用于提取该目标场所在该全景图像中的布局信息，该布局信息指示该目标场所中的室内设施的边界信息；

显示模块2104，用于显示基于该布局信息所构建的目标虚拟环境，该目标虚拟环境用于在虚拟环境中模拟该目标场所。

本申请实施例提供的装置，通过根据不同视角下对目标场所进行观察的多个环境图像，来生成将目标场所投影到虚拟环境后的全景图像，能够在全景图像的基础上机器自动识别和智能提取到目标场所的布局信息，并利用布局信息来构建用于模拟目标场所的目标虚拟环境，这样由于机器能够自动提取布局信息并构建目标虚拟环境，无需用户手动标记布局信息，整体过程耗时很短，极大提升了虚拟环境的构建速度和加载效率，并且目标虚拟环境能够高度还原目标场所，能够提高用户的沉浸式交互体验。

在一些实施例中，基于图21的装置组成，该第二获取模块2102包括：

检测单元，用于对该多个环境图像进行关键点检测，得到该目标场所中的多个图像关键点分别在该多个环境图像中的位置信息；

确定单元，用于基于该位置信息，确定该多个环境图像各自的多个相机位姿，该相机位姿用于指示在相机在采集环境图像时的视角转动姿态；

第一投影单元，用于基于该多个相机位姿，分别将该多个环境图像从该目标场所的原坐标系投影到该虚拟环境的球坐标系，得到多个投影图像；

获取单元，用于获取基于该多个投影图像拼接得到的该全景图像。

在一些实施例中，该确定单元用于：

将该多个相机位姿的移动量设置为零；

基于该位置信息，确定该多个环境图像各自的该多个相机位姿的转动量。

在一些实施例中，该第一投影单元用于：

对该多个相机位姿进行修正，以使该多个相机位姿在该球坐标系中的球心对齐；

基于修正后的多个相机位姿，分别将该多个环境图像从该原坐标系投影到该球坐标系，得到该多个投影图像。

在一些实施例中，该获取单元用于：

对该多个投影图像进行拼接，得到拼接图像；

对该拼接图像进行平滑或光照补偿中的至少一项，得到该全景图像。

在一些实施例中，该检测单元用于：

将该多个环境图像中同一图像关键点的多个位置坐标进行配对，得到每个图像关键点的位置信息，每个图像关键点的位置信息用于指示每个图像关键点在该多个环境图像中的多个位置坐标。

在一些实施例中，基于图21的装置组成，该提取模块2103包括：

第二投影单元，用于将该全景图像中的竖直方向投影为重力方向，得到修正全景图像；

提取单元，用于提取该修正全景图像的图像语义特征，该图像语义特征用于表征该修正全景图像中与该目标场所的室内设施相关联的语义信息；

预测单元，用于基于该图像语义特征，预测该目标场所在该全景图像中的布局信息。

在一些实施例中，基于图21的装置组成，该提取单元包括：

输入子单元，用于将该修正全景图像输入到特征提取模型中；

第一卷积子单元，用于通过该特征提取模型中的一个或多个卷积层，对该修正全景图像进行卷积操作，得到第一特征图；

第二卷积子单元，用于通过该特征提取模型中的一个或多个深度可分离卷积层，对该第一特征图进行深度可分离卷积操作，得到第二特征图；

后处理子单元，用于通过该特征提取模型中的一个或多个后处理层，对该第二特征图进行池化操作或者全连接操作中的至少一项，得到该图像语义特征。

在一些实施例中，该第二卷积子单元用于：

通过每个深度可分离卷积层，对上一深度可分离卷积层的输出特征图进行空间维度的逐通道卷积操作，得到第一中间特征，该第一中间特征与该上一深度可分离卷积层的输出特征图的维度相同；

对该第一中间特征进行通道维度的逐点卷积操作，得到第二中间特征；

对该第二中间特征进行卷积操作，得到该深度可分离卷积层的输出特征图；

迭代执行该逐通道卷积操作、该逐点卷积操作和该卷积操作，由最后一个深度可分离卷积层输出该第二特征图。

在一些实施例中，基于图21的装置组成，该预测单元包括：

分割子单元，用于对该图像语义特征进行通道维度的分割操作，得到多个空间域语义特征；

编码子单元，用于将该多个空间域语义特征分别输入布局信息提取模型的多个记忆单元，通过该多个记忆单元对该多个空间域语义特征进行编码，得到多个空间域上下文特征；

解码子单元，用于基于该多个空间域上下文特征进行解码，得到该布局信息。

在一些实施例中，该编码子单元用于：

通过每个记忆单元，对该记忆单元关联的空间域语义特征，以及上一记忆单元编码后所得的空间域上文特征进行编码，将编码后所得的空间域上文特征输入到下一记忆单元；

对该记忆单元关联的空间域语义特征，以及下一记忆单元编码后所得的空间域下文特征进行编码，将编码后所得的空间域下文特征输入到上一记忆单元；

基于该记忆单元编码后所得的空间域上文特征和空间域下文特征，获取该记忆单元输出的空间域上下文特征。

在一些实施例中，该第一获取模块2101用于：

获取该相机在该目标场所的目标范围内视角旋转一周后所拍摄到的视频流；

从该视频流包含的多个图像帧中进行采样，得到该多个环境图像。

在一些实施例中，该布局信息包括第一布局向量、第二布局向量和第三布局向量，该第一布局向量指示该目标场所中的墙体与天花板的交界信息，该第二布局向量指示该目标场所中的墙体与地面的交界信息，该第三布局向量指示该目标场所中的墙体与墙体的交界信息。

在一些实施例中，该相机为可穿戴电子设备上的单目相机或双目相机。

在一些实施例中，基于图21的装置组成，该装置还包括：

材质识别模块，用于基于该全景图像，对该目标场所中的室内设施进行材质识别，得到该室内设施的材质；

音频修正模块，用于基于该室内设施的材质，对该虚拟环境所关联音频的音质或音量中至少一项进行修正。

需要说明的是：上述实施例提供的虚拟环境的显示装置在显示目标虚拟环境时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将可穿戴电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的虚拟环境的显示装置与虚拟环境的显示方法实施例属于同一构思，其具体实现过程详见虚拟环境的显示方法实施例，这里不再赘述。

图22是本申请实施例提供的一种可穿戴电子设备的结构示意图。可选地，该可穿戴电子设备2200的设备类型包括：HMD、VR眼镜、VR头盔、VR眼罩等头戴式电子设备，或者其他可穿戴电子设备，或者其他支持XR技术的电子设备，如XR设备、VR设备、AR设备、MR设备等，或者还可以是支持XR技术的智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。可穿戴电子设备2200还可能被称为用户设备、便携式电子设备、可穿戴显示设备等其他名称。

通常，可穿戴电子设备2200包括有：处理器2201和存储器2202。

可选地，处理器2201包括一个或多个处理核心，比如4核心处理器、8核心处理器等。可选地，处理器2201采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable LogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器2201包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器2201集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器2201还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，存储器2202包括一个或多个计算机可读存储介质，可选地，该计算机可读存储介质是非暂态的。可选地，存储器2202还包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器2202中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器2201所执行以实现本申请中各个实施例提供的虚拟环境的显示方法。

在一些实施例中，可穿戴电子设备2200还可选包括有：***设备接口2203和至少一个***设备。处理器2201、存储器2202和***设备接口2203之间能够通过总线或信号线相连。各个***设备能够通过总线、信号线或电路板与***设备接口2203相连。具体地，***设备包括：射频电路2204、显示屏2205、摄像头组件2206、音频电路2207和电源2208中的至少一种。

***设备接口2203可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器2201和存储器2202。在一些实施例中，处理器2201、存储器2202和***设备接口2203被集成在同一芯片或电路板上；在一些其他实施例中，处理器2201、存储器2202和***设备接口2203中的任意一个或两个在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路2204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路2204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路2204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路2204包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。可选地，射频电路2204通过至少一种无线通信协议来与其它可穿戴电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路2204还包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏2205用于显示UI(User Interface，用户界面)。可选地，该UI包括图形、文本、图标、视频及其它们的任意组合。当显示屏2205是触摸显示屏时，显示屏2205还具有采集在显示屏2205的表面或表面上方的触摸信号的能力。该触摸信号能够作为控制信号输入至处理器2201进行处理。可选地，显示屏2205还用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏2205为一个，设置可穿戴电子设备2200的前面板；在另一些实施例中，显示屏2205为至少两个，分别设置在可穿戴电子设备2200的不同表面或呈折叠设计；在一些实施例中，显示屏2205是柔性显示屏，设置在可穿戴电子设备2200的弯曲表面上或折叠面上。甚至，可选地，显示屏2205设置成非矩形的不规则图形，也即异形屏。可选地，显示屏2205采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(OrganicLight-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件2206用于采集图像或视频。可选地，摄像头组件2206包括前置摄像头和后置摄像头。通常，前置摄像头设置在可穿戴电子设备的前面板，后置摄像头设置在可穿戴电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件2206还包括闪光灯。可选地，闪光灯是单色温闪光灯，或者是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，用于不同色温下的光线补偿。

在一些实施例中，音频电路2207包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器2201进行处理，或者输入至射频电路2204以实现语音通信。出于立体声采集或降噪的目的，麦克风为多个，分别设置在可穿戴电子设备2200的不同部位。可选地，麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器2201或射频电路2204的电信号转换为声波。可选地，扬声器是传统的薄膜扬声器，或者是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅能够将电信号转换为人类可听见的声波，也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路2207还包括耳机插孔。

电源2208用于为可穿戴电子设备2200中的各个组件进行供电。可选地，电源2208是交流电、直流电、一次性电池或可充电电池。当电源2208包括可充电电池时，该可充电电池支持有线充电或无线充电。该可充电电池还用于支持快充技术。

在一些实施例中，可穿戴电子设备2200还包括有一个或多个传感器2210。该一个或多个传感器2210包括但不限于：加速度传感器2211、陀螺仪传感器2212、压力传感器2213、光学传感器2214以及接近传感器2215。

在一些实施例中，加速度传感器2211检测以可穿戴电子设备2200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器2211用于检测重力加速度在三个坐标轴上的分量。可选地，处理器2201根据加速度传感器2211采集的重力加速度信号，控制显示屏2205以横向视图或纵向视图进行用户界面的显示。加速度传感器2211还用于游戏或者用户的运动数据的采集。

在一些实施例中，陀螺仪传感器2212检测可穿戴电子设备2200的机体方向及转动角度，陀螺仪传感器2212与加速度传感器2211协同采集用户对可穿戴电子设备2200的3D动作。处理器2201根据陀螺仪传感器2212采集的数据，实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

可选地，压力传感器2213设置在可穿戴电子设备2200的侧边框和/或显示屏2205的下层。当压力传感器2213设置在可穿戴电子设备2200的侧边框时，能够检测用户对可穿戴电子设备2200的握持信号，由处理器2201根据压力传感器2213采集的握持信号进行左右手识别或快捷操作。当压力传感器2213设置在显示屏2205的下层时，由处理器2201根据用户对显示屏2205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器2214用于采集环境光强度。在一个实施例中，处理器2201根据光学传感器2214采集的环境光强度，控制显示屏2205的显示亮度。具体地，当环境光强度较高时，调高显示屏2205的显示亮度；当环境光强度较低时，调低显示屏2205的显示亮度。在另一个实施例中，处理器2201还根据光学传感器2214采集的环境光强度，动态调整摄像头组件2206的拍摄参数。

接近传感器2215，也称距离传感器，通常设置在可穿戴电子设备2200的前面板。接近传感器2215用于采集用户与可穿戴电子设备2200的正面之间的距离。在一个实施例中，当接近传感器2215检测到用户与可穿戴电子设备2200的正面之间的距离逐渐变小时，由处理器2201控制显示屏2205从亮屏状态切换为息屏状态；当接近传感器2215检测到用户与可穿戴电子设备2200的正面之间的距离逐渐变大时，由处理器2201控制显示屏2205从息屏状态切换为亮屏状态。

本领域技术人员能够理解，图22中示出的结构并不构成对可穿戴电子设备2200的限定，能够包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序可由可穿戴电子设备中的处理器执行以完成上述各个实施例中的虚拟环境的显示方法。例如，该计算机可读存储介质包括ROM(Read-OnlyMemory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(CompactDisc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条计算机程序，该一条或多条计算机程序存储在计算机可读存储介质中。可穿戴电子设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条计算机程序，该一个或多个处理器执行该一条或多条计算机程序，使得可穿戴电子设备能够执行以完成上述实施例中的虚拟环境的显示方法。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，可选地，该程序存储于一种计算机可读存储介质中，可选地，上述提到的存储介质是只读存储器、磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种虚拟环境的显示方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个环境图像，获取将所述目标场所投影到虚拟环境中的全景图像包括：

对所述多个环境图像进行关键点检测，得到所述目标场所中的多个图像关键点分别在所述多个环境图像中的位置信息；

基于所述位置信息，确定所述多个环境图像各自的多个相机位姿，所述相机位姿用于指示在相机在采集环境图像时的视角转动姿态；

基于所述多个相机位姿，分别将所述多个环境图像从所述目标场所的原坐标系投影到所述虚拟环境的球坐标系，得到多个投影图像；

获取基于所述多个投影图像拼接得到的所述全景图像。

3.根据权利要求2所述的方法，其特征在于，所述基于所述位置信息，确定所述多个环境图像各自的多个相机位姿包括：

将所述多个相机位姿的移动量设置为零；

4.根据权利要求2所述的方法，其特征在于，所述基于所述多个相机位姿，分别将所述多个环境图像从所述目标场所的原坐标系投影到所述虚拟环境的球坐标系，得到多个投影图像包括：

5.根据权利要求2所述的方法，其特征在于，所述获取基于所述多个投影图像拼接得到的所述全景图像包括：

对所述多个投影图像进行拼接，得到拼接图像；

6.根据权利要求2所述的方法，其特征在于，所述对所述多个环境图像进行关键点检测，得到所述目标场所中的多个布局关键点分别在所述多个环境图像中的位置信息包括：

7.根据权利要求1所述的方法，其特征在于，所述提取所述目标场所在所述全景图像中的布局信息包括：

将所述全景图像中的竖直方向投影为重力方向，得到修正全景图像；

提取所述修正全景图像的图像语义特征，所述图像语义特征用于表征所述修正全景图像中与所述目标场所的室内设施相关联的语义信息；

基于所述图像语义特征，预测所述目标场所在所述全景图像中的布局信息。

8.根据权利要求7所述的方法，其特征在于，所述提取所述修正全景图像的图像语义特征包括：

将所述修正全景图像输入到特征提取模型中；

通过所述特征提取模型中的一个或多个卷积层，对所述修正全景图像进行卷积操作，得到第一特征图；

通过所述特征提取模型中的一个或多个深度可分离卷积层，对所述第一特征图进行深度可分离卷积操作，得到第二特征图；

通过所述特征提取模型中的一个或多个后处理层，对所述第二特征图进行池化操作或者全连接操作中的至少一项，得到所述图像语义特征。

9.根据权利要求8所述的方法，其特征在于，所述通过所述特征提取模型中的一个或多个深度可分离卷积层，对所述第一特征图进行深度可分离卷积操作，得到第二特征图包括：

10.根据权利要求7所述的方法，其特征在于，所述基于所述图像语义特征，预测所述目标场所在所述全景图像中的布局信息包括：

对所述图像语义特征进行通道维度的分割操作，得到多个空间域语义特征；

将所述多个空间域语义特征分别输入布局信息提取模型的多个记忆单元，通过所述多个记忆单元对所述多个空间域语义特征进行编码，得到多个空间域上下文特征；

基于所述多个空间域上下文特征进行解码，得到所述布局信息。

11.根据权利要求10所述的方法，其特征在于，所述将所述多个空间域语义特征分别输入布局信息提取模型的多个记忆单元，通过所述多个记忆单元对所述多个空间域语义特征进行编码，得到多个空间域上下文特征包括：

12.根据权利要求1所述的方法，其特征在于，所述获取相机以不同视角观察目标场所时采集的多个环境图像包括：

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述布局信息包括第一布局向量、第二布局向量和第三布局向量，所述第一布局向量指示所述目标场所中的墙体与天花板的交界信息，所述第二布局向量指示所述目标场所中的墙体与地面的交界信息，所述第三布局向量指示所述目标场所中的墙体与墙体的交界信息。

14.根据权利要求1至12中任一项所述的方法，其特征在于，所述相机为可穿戴电子设备上的单目相机或双目相机。

15.根据权利要求1至12中任一项所述的方法，其特征在于，所述方法还包括：

基于所述全景图像，对所述目标场所中的室内设施进行材质识别，得到所述室内设施的材质；

基于所述室内设施的材质，对所述虚拟环境所关联音频的音质或音量中至少一项进行修正。

16.一种虚拟环境的显示装置，其特征在于，所述装置包括：

17.一种可穿戴电子设备，其特征在于，所述可穿戴电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求15任一项所述的虚拟环境的显示方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求15任一项所述的虚拟环境的显示方法。

19.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求15任一项所述的虚拟环境的显示方法。