CN115527011A - 基于三维模型的导航方法及装置 - Google Patents

基于三维模型的导航方法及装置 Download PDF

Info

Publication number
CN115527011A
CN115527011A CN202211026584.0A CN202211026584A CN115527011A CN 115527011 A CN115527011 A CN 115527011A CN 202211026584 A CN202211026584 A CN 202211026584A CN 115527011 A CN115527011 A CN 115527011A
Authority
CN
China
Prior art keywords
image
spherical
target
dimensional model
panoramic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211026584.0A
Other languages
English (en)
Inventor
李蒙
王森博
盛哲
董子龙
谭平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202211026584.0A priority Critical patent/CN115527011A/zh
Publication of CN115527011A publication Critical patent/CN115527011A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本说明书实施例提供基于三维模型的导航方法及装置,其中,该方法应用于客户端,包括:响应于用户针对目标三维模型的展示请求,将所述目标三维模型通过用户交互界面展示给所述用户;接收所述用户通过所述用户交互界面输入的、所述目标三维模型中的目的地,并确定所述用户在所述目标三维模型中的虚拟对象的当前位置;根据所述当前位置以及所述目的地,确定所述虚拟对象从所述当前位置移动至所述目的地的导航地图;根据所述导航地图引导所述虚拟对象从所述当前位置移动至所述目的地,并将引导轨迹以三维视觉的方式通过所述用户交互界面展示给所述用户;结合建模技术以及三维可视化的引导方式进行导航,提高用户的导航体验。

Description

基于三维模型的导航方法及装置
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种基于三维模型的导航方法。
背景技术
随着AR(Augmented Reality,增强现实)以及VR(Virtual Reality,虚拟现实)技术的兴起,越来越多的领域开始应用AR或者VR技术来辅助生产或辅助作业。
但是现有技术中,导航领域在采用AR或VR技术时,一般进行简单的地图路线生成后便直接用AR或者VR进行呈现,没有结合建模技术以及用户引导技巧来实现更智能化的服务,造成用户的体验感较差。
发明内容
有鉴于此,本说明书实施例提供了一种基于三维模型的导航方法。本说明书一个或者多个实施例同时涉及一种基于三维模型的导航装置,一种增强现实AR设备,一种增强现实VR设备,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种基于三维模型的导航方法,应用于客户端,包括:
响应于用户针对目标三维模型的展示请求,将所述目标三维模型通过用户交互界面展示给所述用户;
接收所述用户通过所述用户交互界面输入的、所述目标三维模型中的目的地,并确定所述用户在所述目标三维模型中的虚拟对象的当前位置;
根据所述当前位置以及所述目的地,确定所述虚拟对象从所述当前位置移动至所述目的地的导航地图;
根据所述导航地图引导所述虚拟对象从所述当前位置移动至所述目的地,并将引导轨迹以三维视觉的方式通过所述用户交互界面展示给所述用户。
根据本说明书实施例的第二方面,提供了一种基于三维模型的导航装置,应用于客户端,包括:
模型展示模块,被配置为响应于用户针对目标三维模型的展示请求,将所述目标三维模型通过用户交互界面展示给所述用户;
位置确定模块,被配置为接收所述用户通过所述用户交互界面输入的、所述目标三维模型中的目的地,并确定所述用户在所述目标三维模型中的虚拟对象的当前位置;
地图确定模块,被配置为根据所述当前位置以及所述目的地,确定所述虚拟对象从所述当前位置移动至所述目的地的导航地图;
导航模块,被配置为根据所述导航地图引导所述虚拟对象从所述当前位置移动至所述目的地,并将引导轨迹以三维视觉的方式通过所述用户交互界面展示给所述用户。
根据本说明书实施例的第三方面,提供了一种增强现实AR设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于三维模型的导航方法的步骤。
根据本说明书实施例的第四方面,提供了一种增强现实VR设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于三维模型的导航方法的步骤。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于三维模型的导航方法的步骤。
根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述基于三维模型的导航方法的步骤。
根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述基于三维模型的导航方法的步骤。
本说明书一个实施例实现了一种基于三维模型的导航方法及装置,其中,该方法应用于客户端,包括:响应于用户针对目标三维模型的展示请求,将所述目标三维模型通过用户交互界面展示给所述用户;接收所述用户通过所述用户交互界面输入的、所述目标三维模型中的目的地,并确定所述用户在所述目标三维模型中的虚拟对象的当前位置;根据所述当前位置以及所述目的地,确定所述虚拟对象从所述当前位置移动至所述目的地的导航地图;根据所述导航地图引导所述虚拟对象从所述当前位置移动至所述目的地,并将引导轨迹以三维视觉的方式通过所述用户交互界面展示给所述用户。
具体的,该方法通过在目标三维模型中,根据用户在目标三维模型中虚拟对象的当前位置以及目的地,为用户进行导航地图规划,并在目标三维模型中以三维视觉呈现的方式引导用户行进,结合建模技术以及三维可视化的引导方式进行导航,提高用户的导航体验。
附图说明
图1是本说明书一个实施例提供的一种基于三维模型的导航方法的具体应用示意图;
图2是本说明书一个实施例提供的一种基于三维模型的导航方法的流程图;
图3是本说明书一个实施例提供的一种基于三维模型的导航方法中目标对象的目标三维模型构建的具体应用场景示意图;
图4是本说明书一个实施例提供的一种基于三维模型的导航方法中目标对象的目标三维模型构建的流程图;
图5是本说明书一个实施例提供的一种基于三维模型的导航方法中全景图像处理的具体处理过程流程图;
图6是本说明书一个实施例提供的一种基于三维模型的导航方法中目标对象的目标三维模型构建的具体处理流程图;
图7是本说明书一个实施例提供的一种基于三维模型的导航方法中全景图像处理时通过自注意力机制进行特征融合的示意图;
图8是本说明书一个实施例提供的一种基于三维模型的导航装置的结构示意图;
图9是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
三维模型:是物体的多边形标识,通常用计算机或者其他视频设备进行显示。显示的物体可以是现实世界的实体,也可以是虚构的物体。
全景图像:具备周边环境360度视角的图像,可以使用全景相机拍摄,也可有由一个对象的多视角的平面图像融合生成。
深度估计:输入一张图像,通过深度神经网络模型估计出每个像素点在场景中的实际位置到相机光心的距离。
图像处理模型:该图像处理模型为基于encoder-decoder框架的神经网络模型,其中,encoder为神经网络模型的编码层,用于数据压缩(降维);decoder为神经网络模型的解码层,用于参数重构(升维)。
HEALPixel算法:Hierarchical Equal Area isoLatitude Pixelation of asphere,一种像素化球的方法,这种像素化产生了球面的细分,其中每个像素都覆盖了与其他每个像素相同的表面积。
skip-connection:跳跃连接。对于深度估计任务,需要高清的图像/特征图,而网络的特征提取部分,通过不断的一层层计算,最后计算完的结果已经把特征图分辨率降得非常小,这一点不利于精确的深度估计结果;而通过skip-connection可以把较浅的层的特征图引过来,和原来的特征图直接加在一起,那些层数浅的特征图分辨率较高,会含有比较丰富的local(局部)信息,更利于深度估计结果的精确度。
ERP:Equirectangular Projection,等距投影图像。
backbone:主干网络,这个主干网络大多时候指的是预先训练好的开源的提取特征的网络。
在本说明书中,提供了一种基于三维模型的导航方法。本说明书一个或者多个实施例同时涉及一种基于三维模型的导航装置,一种增强现实AR设备,一种增强现实VR设备,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种基于三维模型的导航方法的具体应用示意图。
图1中包括终端102(如手机、平板电脑等)和服务端104,其中,该服务端104可以为物理服务器,也可以为云服务器,为了便于理解,本说明书实施例中,均以服务端104为云服务器为例进行详细介绍。
将本说明书实施例提供的基于三维模型的导航方法应用于商场购物场景为例,对该基于三维模型的导航方法进行详细说明。
具体实施时,用户通过终端102选择当前所处商场的商场名称,例如图1的a图中的商场A,终端102根据用户的选择指令,从服务端104获取该商场A的三维模型,并将该商场的三维模型发送给终端102,终端102再通过用户交互界面展示给用户,例如图1的图b部分,此时用户即可以通过该商场的三维模型对商场的每一家店铺进行浏览;并且当用户在该用户交互界面的搜索框输入某个店铺名称时,终端102即根据该商场A的三维模型,计算用户在该三维模型中的当前位置、与目的地(即用户输入的某个店铺)的导航地图,如图1的c部分所示,并在该用户向目的地行进的过程中,实时根据该用户在三维模型中的当前位置与目的地进行计算,通过在该三维模型中进行导航的方式,以三维视觉的效果将引导轨迹呈现给用户,使得用户具有身临其境的体验,同时可以根据三维模型中的店铺展示,快速且便捷的到达目的地。
实际应用中,该商场A的三维模型的构建也可以是在终端102中实现,具体可以根据实际应用进行设置,本说明书实施例对此不作任何限定。
本说明书实施例中提供的图片处理方法应用于商场购物导航场景中,可以根据终端呈现的三维模型中的导航地图,结合三维模型中的建筑以及、建筑中物品的三维视觉效果,快速且准确的达到目的地,通过此种导航与三维模型结合的方式提高用户的导航体验。
参见图2,图2示出了根据本说明书一个实施例提供的一种基于三维模型的导航方法的流程图,其中,该方法应用于客户端,具体包括以下步骤。
步骤202:响应于用户针对目标三维模型的展示请求,将所述目标三维模型通过用户交互界面展示给所述用户。
具体的,本说明书实施例提供的基于三维模型的导航方法的具体应用场景不同,该目标三维模型也不同;例如该基于三维模型的导航方法应用于商场购物场景,该目标三维模型则可以理解为商场三维模型;该基于三维模型的导航方法应用于办公区域场景,该目标三维模型则可以理解为办公楼三维模型等。
为了便于理解,本说明书实施例中,均以该基于三维模型的导航方法应用于商场购物场景,该目标三维模型为商场三维模型为例进行详细介绍。
实际应用中,客户端可以理解为手机、平板电脑等,那么在客户端理解为手机的情况下,响应于用户针对目标三维模型的展示请求,可以理解为客户端响应于用户通过点击其用户交互界面中的、目标三维模型的名称或者控件等发出的展示请求,将该目标三维模型通过该用户交互界面展示给用户,使得用户可以通过该用户交互界面,清楚的观看到该目标三维模型,以便用户后续可以通过该用户交互界面对该目标三维模型进行操作,例如放大、缩小或者点击目标三维模型内部进行浏览等。
步骤204:接收所述用户通过所述用户交互界面输入的、所述目标三维模型中的目的地,并确定所述用户在所述目标三维模型中的虚拟对象的当前位置。
具体的,客户端在将目标三维模型通过用户交互界面展示给用户之后,接收用户通过该用户交互界面输入的、该目标三维模型中的目的地,例如该目标三维模型为商场,那么该目标三维模型中的目的地就可以理解为商场中的某个店铺或者卫生间等。
而客户端在接收到用户通过用户交互界面输入的、该目标三维模型中的目的地之后,则确定该用户在该目标三维模型中的虚拟对象的当前位置,其中,该虚拟对象可以是一个代表用户的小圆点、或者是一个用户的虚拟头像、又或者是一个用户的虚拟形象等。
步骤206:根据所述当前位置以及所述目的地,确定所述虚拟对象从所述当前位置移动至所述目的地的导航地图。
具体的,客户端在确定用户在该目标三维模型的当前位置以及目的地之后,则可以确定该虚拟对象在该目标三维模型中,从当前位置移动至目的地的导航地图。
实际应用中,该导航地图可以是客户端根据用户在该目标三维模型的当前位置以及目的地,计算获得;也可以是客户端将该用户在该目标三维模型的当前位置以及目的地发送至服务端,由服务端进行计算获得导航地图后,返回至客户端。
步骤208:根据所述导航地图引导所述虚拟对象从所述当前位置移动至所述目的地,并将引导轨迹以三维视觉的方式通过所述用户交互界面展示给所述用户。
具体的,客户端在确定导航地图之后,即可根据该导航地图引导虚拟对象在该目标三维模型中,从当前位置向目的地移动,并且在该虚拟对象在该目标三维模型中,从当前位置向目的地移动的过程中,客户端会将该引导轨迹以三维视觉的方式,通过用户交互界面展示给用户。
具体的实现效果为,用户在该目标三维模型中的虚拟对象经过的区域,与用户在该商场中经过的区域的展示效果相同;通过此种实现方式引导用户快速的到达目的地。
本说明书实施例提供的基于三维模型的导航方法,通过在目标三维模型中,根据用户在目标三维模型中虚拟对象的当前位置以及目的地,为用户进行导航地图规划,并在目标三维模型中以三维视觉呈现的方式引导用户行进,结合建模技术以及三维可视化的引导方式进行导航,提高用户的导航体验。
具体实施时,由于该目标三维模型的导航展示效果,需要与用户在真实商场中的所见相同,那么就需要对该目标三维模型中的各个店铺以及商品进行一比一的还原渲染,这样就会造成极大的工作量,会导致整个导航效果变慢,出现卡顿的情况;那么为了解决该问题,客户端可以仅根据用户在目标三维模型中的虚拟对象,与该目标三维模型中待渲染的展示物品的距离进行物品渲染,仅渲染离虚拟对象距离较近,可以辅助用户快速进行方向以及目的地辨别的物品,在保证导航效果的基础上,减轻渲染工作量,提高导航效率。具体实现方式如下所述:
在根据所述导航地图,引导所述虚拟对象从所述当前位置向所述目的地移动的过程中,根据所述虚拟对象与所述目标三维模型中展示物品的距离,渲染所述展示物品。
例如,若实际应用中,当确定虚拟对象与目标三维模型中展示物品的距离为5厘米的情况下,可以确定用户在真实的商场中与真实物品的距离为3米,此种情况下,则以虚拟对象为圆心,对该目标三维模型中与该虚拟对象小于等于5厘米内的物品进行渲染并展示;而对于大于5厘米之外的物品则不进行渲染展示;又或者可以根据用户的视野范围,模拟虚拟对象在目标三维模型中的可视范围,并对该可视范围内的展示物品进行渲染。通过此种方式即可不对用户的导航效果打折扣,并且还可以极大的节省渲染量。
同时,为了进一步的提高用户的购物体验,在对目标三维模型中的展示物品进行渲染的同时,也可以在该目标三维模型中展示该展示物品对应的网页链接,通过用户交互界面展示给用户,保证用户不仅可以实体店购物,也可以在后续根据该网页链接进行线上购物,避免逛街的时候拿着物品的不便性,提升用户的购物体验。
那么当用户点击了客户端上通过用户交互界面,展示的某个展示物品的网页链接之后,则可以从该目标三维模型跳转至网页链接对应的物品展示页面进行线上物品购买。具体实现方式如下所述:
所述根据所述虚拟对象与所述目标三维模型中展示物品的距离,渲染所述展示物品之后,还包括:
将所述展示物品以及所述展示物品对应的网页链接,通过所述用户交互界面展示给所述用户;
响应于所述用户针对所述网页链接的点击指令,从所述目标三维模型跳转至所述网页链接对应的物品展示页面。
此外,在响应于用户针对目标三维模型的展示请求之前,是需要对该目标三维模型进行构建,后续才可以将导航功能应用在该目标三维模型中,通过将该目标三维模型与导航结合,为用户提供较好的导航效果。具体实现方式如下所述:
参见图3,图3示出了根据本说明书一个实施例提供的一种基于三维模型的导航方法中目标对象的目标三维模型构建的具体应用场景示意图。
图3中包括终端302(即客户端),其中,该终端302包括但不限于手机、平板电脑、台式电脑等。
以目标对象为房间,通过本说明书实施例实现房间的三维模型构建场景为例进行详细说明。
具体实施时,终端302获取或接收待进行三维建模的房间的全景图像,其中,该房间的全景图像可以是通过终端302上内嵌的全景相机拍摄的,也可以是外置的全景相机拍摄后上传至终端302的,当然也可以是用户通过其他存储设备(例如硬盘等)上传至终端302的。
终端302通过预先训练的图像处理模型,对该房间的全景图像进行处理,获得该房间的全景图像对应的全景深度图像,再根据该房间的全景图像对应的全景深度图像,对该房间进行三维建模,获得该房间的三维模型;并将构建的该房间的三维模型通过该终端302的显示界面展示给用户。
而根据该房间的全景图像对应的全景深度图像,对该房间进行三维建模存在多种实现方式,例如通过点云处理:将全景深度图像转换为点云数据,利用正态分布变换法计算点云之间的相对关系,通过所有全景图像之间的相对关系将点云拼接在一起;网格构建:对于拼接好的点云,使用泊松重建方法获得三角网格;贴图计算:计算出三角网格上的点和图像上像素存在对应关系,错误的对应关系会使得图像和三角网格之间的马尔科夫随机场能量增加,因此寻找马尔科夫随机场能量最低的三角网格点-图像像素对应关系,就能获得三角网格的贴图;最后通过人工修复的方式修补网格中的破缺和冗余,最终得到成品三维建模。
也可以通过另外一种实现方式对该房间进行三维建模,即通过点云处理:将全景深度图像转换为点云数据;拼接关系计算:在两张全景图像上寻找像素点的匹配关系,根据匹配关系找出两组匹配的3D点,利用Umeyama算法计算出两组匹配点之间的相对关系,通过所有全景图像之间的相对关系将点云拼接在一起;网格构建:对于拼接好的点云,使用迪劳内三角化方法获得三角网格;网格处理:使用林德斯特伦方法做网格简并,使用Surazhsky算法平滑三角网格,使用Liepa方法检测网格中的洞并补洞;贴图计算:计算出三角网格上的点和图像上像素存在对应关系,错误的对应关系会使得图像和三角网格之间的马尔科夫随机场能量增加,因此寻找马尔科夫随机场能量最低的三角网格点-图像像素对应关系,就能获得三角网格的贴图;最后通过人工修复的方式修补网格中的破缺和冗余,最终得到成品三维建模。
此外,对该全景图片的具体处理在终端302或服务端均可,可以根据实际应用进行设置,本说明书实施例对此不作任何限定。在终端302的计算资源足够的情况下,该房间的全景图像的全景深度图像的处理,以及该房间的三维模型的构建,也可以在终端302实现;本说明书实施例中仅以该房间的全景图像的全景深度图像的处理,以及该房间的三维模型的构建在终端302实现进行举例说明。
本说明书实施例中提供的目标对象的三维模型构建中,可以通过深度学习的图像处理模型,获得待三维建模的房间的全景图像的、精确的全景深度图像,无需额外仪器设备,节省成本;并且可以根据该全景深度图像快速的实现该房间的三维建模,提升用户体验。
参见图4,图4示出了根据本说明书一个实施例提供的一种基于三维模型的导航方法中目标对象的目标三维模型构建的流程图,具体包括以下步骤。
步骤402:将目标全景图像输入图像处理模型,通过所述图像处理模型的编码层,获得所述目标全景图像的全景图像特征。
其中,目标全景图像可以理解为独立的全景相机、或者手机、移动电脑等终端内嵌的全景相机拍摄的目标全景图像;当然也可以为多张平面图像融合生成的目标全景图像,而在目标全景图像是由多张平面图像融合生成的情况下,该多张平面图像针对的目标对象相同,例如目标对象为一个房间,那么该多张平面图像则针对的均为这个房间的平面图像。具体实现方式如下所述:
所述将目标全景图像输入图像处理模型之前,还包括:
获取通过全景拍摄设备拍摄的目标对象的目标全景图像;或者
获取所述目标对象的至少两张初始平面图像,根据预设图像融合算法将所述至少两张初始平面图像进行融合,获得所述目标对象的目标全景图像。
其中,全景拍摄设备包括独立的全景相机、或者内嵌全景相机的终端设备等;而目标对象可以为任意类型、任意大小的对象,例如目标对象为房屋建筑、售卖商品等。
为了便于理解,本说明书实施例中,均以目标对象为房屋建筑为例进行详细介绍。
以目标对象为待租赁的房屋为例,获取通过全景拍摄设备拍摄的目标对象的目标全景图像,可以理解为,获取通过手机的全景相机拍摄的待租赁的房屋的目标全景图像;或者
获取目标对象的至少两张初始平面图像,根据预设图像融合算法将至少两张初始平面图像进行融合,获得目标对象的目标全景图像,可以理解为,获取待租赁的房屋的多张初始平面图像;其中,多张初始平面图像可以是通过手机的相机实时拍摄的,也可以是从数据库中获取历史拍摄的。
而在获取待租赁房屋的多张初始平面图像之后,则可以根据预设图像融合算法将多张初始平面图像进行融合,以生成并获得该待租赁房屋的目标全景图像;其中,预设图像融合算法可以为任意图像融合算法,可以实现将多张平面图像融合为一张全景图像的任意一种图像融合算法均可,例如,用手机或者相机拍摄不同角度图像(这些图像彼此之间有一定的重叠),用SIFT(Scale Invariant Feature Transform,尺度不变特征变换)算子提取特征,通过特征匹配、图像旋转和图像融合等操作,将图像拼接在一起,形成大场景图像等;本说明书实施例对此不作任何限定。
本说明书实施例中,可以通过全景拍摄设备或者多张初始平面图像融合,快速获得的目标对象的目标全景图像,后续即可通过图像处理模型获得该目标对象的目标全景图像对应的全景深度图像。
此外,本说明书实施例中的图像处理模型,可以理解为在球面上运行专门为球面设计的图像处理模型。
以目标对象为待租赁房屋,以目标全景图像为目标对象的目标全景图像,即待租赁房屋的目标全景图像为例,将目标全景图像输入图像处理模型,通过该图像处理模型的编码层,获得目标全景图像的全景图像特征;可以理解为,将待租赁房屋的目标全景图像输入图像处理模型,通过该图像处理模型的编码层(encoder层),获得该待租赁房屋的目标全景图像的全景图像特征,其中,本说明书实施例中的特征可以理解为特征图。
步骤404:根据全景图球面转换算法,将所述全景图像特征转换为球面图像编码特征。
其中,该全景图球面转换算法可以理解为HEALPixel算法,当然本说明书实施例中也并不限定仅能使用该算法,可以实现全景图像至球面图像转换的任意算法均可。
实际应用中,在获得目标全景图像的全景图像特征之后,通过全景图球面转换算法,将该全景图像特征转换为球面图像编码特征。
步骤406:将所述球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述目标全景图像的球面深度图像。
具体的,在获得球面图像编码特征之后,则将该球面图像编码特征输入图像处理模型的解码层(decoder层),通过解码层进行解码,获得该目标全景图像的球面深度图像。
步骤408:根据所述全景图球面转换算法,将所述球面深度图像转换为所述目标全景图像的全景深度图像。
而在获得该目标全景图像的球面深度图像之后,即可根据该全景图球面转换算法,进行逆变换,将该球面深度图像转换为目标全景图像的全景深度图像,从而实现目标全景图像的全景深度图像的获取。
参见图5,图5示出了本说明书一个实施例提供的一种基于三维模型的导航方法中全景图像处理的具体处理过程流程图。
步骤502:将目标全景图像输入图像处理模型的编码层。
步骤504:获取经过编码层提取的该目标全景图像的全景图像特征图。
步骤506:将该目标全景图像的全景图像特征图通过HEALPixel算法进行转换。
步骤508:通过HEALPixel算法将该全景图像特征图转换为无畸变的球面图像编码特征图。
步骤510:将该球面图像编码特征图输入该图像处理模型的解码层。
步骤512:获取经过解码层获取的该目标全景图像的球面深度图像。
步骤514:将该目标全景图像的球面深度图像通过HEALPixel算法进行逆变换。
步骤516:通过HEALPixel算法的逆变换,将该球面深度图像转换为该目标全景图像的全景深度图像。
本说明书实施例提供的该方法,通过深度学***面图像上进行深度学习的过程拓展到球面上,在球面上运行专门为球面设计的图像处理模型,解决了全景图像由ERP投影过程产生的畸变,从而提高了全景图像的深度图像的获取准确性。
而实际应用中,由于目标全景图像会经过图像处理模型的多个encoder层,通过不断的一层层计算进行目标全景图像的特征提取,最后提取到的全景图像的特征图的分辨率降得非常小,这一点不利于精确的深度估计结果。因此,本说明书实施例中,为了避免解决该问题,则在通过解码层获得目标全景图像的球面图像解码特征之后,将通过编码层获得的球面图像编码特征、与通过解码层获得的球面图像解码特征进行叠加,获得目标全景图像的球面深度图像,以增加后续根据球面深度图像,获得目标全景图像的全景深度图像的深度估计结果的准确性。具体实现方式如下所述:
所述将所述球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述目标全景图像的球面深度图像,包括:
将所述球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述目标全景图像的球面图像解码特征;
根据所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
具体的,获得该目标全景图像的球面图像编码特征之后,将该球面图像编码特征输入图像处理模型的解码层,通过该解码层获得该目标全景图像的球面图像解码特征;然后将球面图像编码特征以及球面图像解码特征进行叠加,获得该目标全景图像的球面深度图像。
实际应用中,为了保证球面图像编码特征以及球面图像解码特征的叠加效果,可以采用跳跃连接(skip-connection)的方式进行两个特征之间的特征叠加,即通过skip-connection把较浅的encoder层的球面图像编码特征引过来,和decoder层的球面图像解码特征叠加在一起,这样由于那些层数浅的特征的特征图像的分辨率较高,会含有比较丰富的local(局部)信息,更利于深度估计结果的精确度。具体实现方式如下所述:
所述根据所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像,包括:
将所述球面图像编码特征以及所述球面图像解码特征,通过跳跃连接的方式进行特征叠加;
根据叠加后的所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
具体的,将球面图像编码特征与球面图像解码特征,通过跳跃连接的方式进行特征叠加,通过将较浅的encoder层的球面图像编码特征、与较深的decoder层的球面图像解码特征叠加在一起,基于那些较浅的encoder层的球面图像编码特征的特征图像的较高分辨率,以及丰富的local(局部)信息,以提升该目标全景图像的球面深度图像的深度估计的精确度。
具体实施时,以编码层以及解码层均为i层为例,对球面图像编码特征与球面图像解码特征的特征叠加进行具体介绍:
所述将所述球面图像编码特征以及所述球面图像解码特征,通过跳跃连接的方式进行特征叠加,包括:
S2、将通过第i个编码层获得的球面图像编码特征、与通过第j个解码层获得的球面图像解码特征,通过跳跃连接的方式进行特征叠加,
其中,所述第i个编码层的初始层为第一层,所述第j个解码层的初始层为最后一层;
S4、判断所述第i个编码层是否为最后一个编码层,以及所述第j个解码层是否为第一个解码层,
若否,则将i自增1,将j减1,继续执行步骤S2。
其中,i和j均为正整数。
以i和j均属于【1,n】,n为4为例进行介绍,具体的,将通过第1个编码层获得的球面图像编码特征与通过第4个解码层获得的球面图像解码特征,通过跳跃连接的方式进行特征叠加,然后将通过第2个编码层获得的球面图像编码特征与通过第3个解码层获得的球面图像解码特征,通过跳跃连接的方式进行特征叠加;以此类推,完成整个特征叠加过程。当然,实际应用中,i和j的层数量可以相同也可以不同,具体可以根据实际需求设置。
本说明书实施例中,通过将较浅的encoder层的球面图像编码特征、与较深的decoder层的球面图像解码特征叠加在一起,基于那些较浅的encoder层的球面图像编码特征的特征图像的较高分辨率,以及丰富的local(局部)信息,以提升该目标全景图像的球面深度图像的深度估计的精确度。
此外,本说明书实施例是对于全景图像的处理,那么为了保证获得的全景图像的全景深度图像的完整性以及准确性,需要考虑全局感受野,即上下文获取能力。因此,本说明书实施例中通过在解码层decoder中设置交叉注意力机制融合模块,通过交叉注意力机制融合模块(CAF)的自注意力机制,实现球面图像编码特征与球面图像解码特征之间的更优叠加。具体实现方式如下所述:
所述根据所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像,包括:
将所述球面图像编码特征以及所述球面图像解码特征,通过所述解码层的交叉注意力机制融合模块进行注意力计算,获得所述球面图像编码特征的修正量、以及所述球面图像解码特征的修正量;
根据所述球面图像编码特征的修正量、所述球面图像解码特征的修正量、所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
具体的,对于全局的特征(球面图像解码特征),利用全局的Q信息计算修正量Att0;对于局部的特征,利用局部的Q信息计算修正量Att1,其中,具体实现公式1如下所述:
Figure BDA0003815986080000121
Figure BDA0003815986080000122
本说明书实施例中,球面图像编码特征以及球面图像解码特征,会通过解码层中的交叉注意力机制融合模块进行自注意力计算,而自注意力计算的解释如下所述:
把图像分成很多图像块,每个图像块会和其他图像块之间通过上述公式计算关联度。Q就是query(图像块),k就是key(其他图像块),对于某一图像块(query),会使用所有其他的图像块(key)来计算两个图像块之间的关联度,关联度越高的两图像块,Q*K计算的结果会越大。V可以看做神经网络中的“特征”,相当于通过Q和K,对于每个特征V计算出了其重要程度。
而在获得球面图像编码特征的修正量、球面图像解码特征的修正量之后,即可根据球面图像编码特征的修正量、球面图像解码特征的修正量、球面图像编码特征以及球面图像解码特征,获得目标全景图像的球面深度图像;具体实现公式2如下所述:
XCA=FFN(LN(X0+Att0+X1+Att1)) 公式2
此外,根据上述实施例介绍可知,球面图像编码特征与球面图像解码特征的具体叠加方式,可以采用skip-connection。因此,本说明书实施例中采用带有skip-connection的编码层encoder-解码层decoder的图像处理模型即可获得较为精确的全景深度图像,那么通过skip-connection将球面图像编码特征与球面图像解码特征简单的叠加在一起,融合过程也较为简单,无法很好的平衡local局部(从skip-connection引过来的特征偏局部)和global全局(decoder的特征偏全局)的特征。那么本说明书实施例中,为了进行特征之间更优的叠加,则借助于CAF模块(交叉注意力机制融合模块)融合来自于decoder和skip-connection的不同维度的特征,对两个不同维度的特征各自学习一个修正量,从而弥补不同维度的特征直接加和带来的缺陷。具体实现方式如下所述:
所述根据所述球面图像编码特征的修正量、所述球面图像解码特征的修正量、所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像,包括:
根据所述球面图像编码特征的修正量、以及所述球面图像解码特征的修正量,将所述球面图像编码特征以及所述球面图像解码特征,通过跳跃连接的方式进行特征叠加;
根据叠加后的所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
具体的,在获得球面图像编码特征的修正量、以及球面图像解码特征的修正量之后,则根据球面图像编码特征的修正量、以及球面图像解码特征的修正量,将球面图像编码特征与球面图像解码特征,在CAF模块中通过跳跃连接的方式进行特征叠加,最后根据叠加后的球面图像编码特征与球面图像解码特征的特征图像,获得目标全景图像的球面深度图像;即在CAF模块中特征之间的叠加,是通过自注意力机制进行的特征叠加。
实际应用中,在获得目标全景图像的全景深度图像之后,即可根据该全景深度图像进行准确的三维建模,具体实现方式如下所述:
所述根据所述全景图球面转换算法,将所述球面深度图像转换为所述目标全景图像的全景深度图像之后,还包括:
根据所述目标全景图像的全景深度图像,对所述目标对象进行三维模型构建。
具体实施时,根据全景深度图像进行三维模型构建的方式可以参见上述实施例的介绍,在此不再赘述。
并且,在图像处理模型已经预先训练获得的情况下,在获取了目标全景图像之后,则可以直接将该目标全景图像输入图像处理模型,该图像处理模型即可在内部进行上述流程步骤的处理后,直接输出该目标全景图像的全景深度图像,实现用户无感,提升用户使用体验。
具体实现方式如下所述:
所述将目标全景图像输入图像处理模型之后,还包括:
获得所述图像处理模型输出的所述目标全景图像的全景深度图像;
相应地,所述图像处理模型的训练步骤如下所述:
确定样本全景图像,以及所述样本全景图像对应的样本全景深度图像;
将样本全景图像输入图像处理模型,通过所述图像处理模型的编码层,获得所述样本全景图像的样本全景图像特征;
根据所述全景图球面转换算法,将所述样本全景图像特征转换为样本球面图像编码特征;
将所述样本球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述样本全景图像的样本球面深度图像;
根据所述全景图球面转换算法,将所述样本球面深度图像转换为所述样本全景图像的预测全景深度图像;
根据所述样本全景深度图像、以及所述预测全景深度图像调整所述图像处理模型的损失函数,实现对所述图像处理模型的训练。
具体的,图像处理模型的训练步骤,与上述实施例中图像处理模型在对目标全景图像处理,获得目标全景图像的全景深度图像的具体实现过程相同,在图像处理模型的训练步骤中未详细描述的细节,均可以参见上述实施例中。图像处理模型在对目标全景图像处理,获得目标全景图像的全景深度图像的具体实现步骤。
本说明书实施例中,通过将在平面图像上进行的深度学习过程(特征叠加等)拓展到了球面上,在球面上运行专门为球面设计的深度学习模型(即本说明书实施例的图像处理模型),从而解决了全景图像左右两端在空间上连续在图像上不连续的问题,并且仅通过对全景图像的处理,即可获得全景深度图像,降低了整体参数量,极大的提高了图像处理模型的处理效率。
步骤410:根据所述目标全景图像的全景深度图像,构建所述目标对象的目标三维模型。
其中,所述目标三维模型通过运行在球面的所述图像处理模型构建,且所述图像处理模型为神经网络模型;而根据目标全景图像的全景深度图像,构建目标对象的目标三维模型的具体实现方式,可以参见上述实施例的详细介绍,在此不再赘述。
本说明书实施例提供的基于三维模型的导航方法,通过在目标三维模型中,根据用户在目标三维模型中虚拟对象的当前位置以及目的地,为用户进行导航地图规划,并在目标三维模型中以三维视觉呈现的方式引导用户行进,结合建模技术以及三维可视化的引导方式进行导航,提高用户的导航体验。
下述结合附图6,图6示出了本说明书一个实施例提供的一种基于三维模型的导航方法中目标对象的目标三维模型构建的具体处理流程图,具体包括以下步骤。
步骤602:将房屋的全景图像输入图像处理模型。
步骤604:在图像处理模型的第一编码层、第二编码层、第三编码层以及第四编码层进行特征提取以及下采样,分别获得第一编码层、第二编码层、第三编码层以及第四编码层输出的全景图像特征图。
步骤606:分别将第一编码层、第二编码层、第三编码层以及第四编码层输出的全景图像特征图,通过全景图球面转换模块中的HEALPixel算法,转换为无畸变的球面图像编码特征图。
步骤608:将第四编码层输出的球面图像编码特征图,输入第一解码层;在第一解码层进行上采样后获得球面图像解码特征图;并且通过第一解码层的交叉自注意力机制融合模块,将第三编码层进行下采样后输出的球面图像编码特征图、与在第一解码层进行上采样后获得的球面图像解码特征图进行特征融合,获得第一融合特征图像。
参见图7,图7示出了本说明书一个实施例提供的一种基于三维模型的导航方法中全景图像处理时通过自注意力机制进行特征融合的示意图。
图7展示的为每一层的解码层通过交叉自注意力机制融合模块进行特征融合的具体实现示意图;由图7可知,每一层的编码层输出的、通过全景图球面转换模块中的HEALPixel算法转换后的球面图像编码特征图,通过残差卷积处理、与球面位置编码结合后,通过层归一化输入到交叉注意力机制模块;同时,每一层的编码层对应的解码层输出球面图像编码特征图,也通过残差卷积处理、与球面位置编码结合后,通过层归一化输入到交叉注意力机制模块中,球面图像编码特征图和球面图像解码特征图在交叉自注意力机制融合模块中通过自注意力机制进行特征融合,获得融合特征图像后,输入前馈网络进行处理后,进行上采样继续后续处理。
步骤610:将第一融合特征图像输入第二解码层,在第二解码层进行上采样后获得球面图像解码特征图;并且通过第二解码层的交叉自注意力机制融合模块,将第二编码层进行下采样后输出的球面图像编码特征图、与在第二解码层进行上采样后获得的球面图像解码特征图进行特征融合,获得第二融合特征图像。
步骤612:将第二融合特征图像输入第三解码层,在第三解码层进行上采样后获得球面图像解码特征图;并且通过第三解码层的交叉自注意力机制融合模块,将第一编码层进行下采样后输出的球面图像编码特征图、与在第三解码层进行上采样后获得的球面图像解码特征图进行特征融合,获得第三融合特征图像。
步骤614:将第三融合特征图像通过深度回归器进行回归,获得球面深度图像,并将该球面深度图像通过HEALPixel算法进行逆变换,获得该房屋的全景图像对应的全景深度图像。
步骤616:根据该房屋的全景图像对应的全景深度图像,构建该房屋的目标三维模型。
本说明书实施例提供的基于三维模型的导航方法中,对该房屋的全景图像对应的全景深度图像获取时,采用的是单backbone的深度神经网络,在实际的图像处理过程中,参数量更小,且精度明显更高;并且采用HEALPixel算法将全景图像转换为无畸变的球面图像,在球面上进行自注意力机制计算和卷积计算,球面本身就是一个连续曲面,全景图像左右两端在球面上会被连接在一起,不会存在左右两端不一致的问题;并且,也正是由于采用HEALPixel算法将提取的来自全景图像的特征投影到无畸变的球面上,对特征中的畸变做了特殊处理,从而大大降低了畸变对深度估计任务的影响,提高该全景图像的全景深度图像的精确度;同时采用CAF模块也大大提升了解码层感知上下文的能力,有效的利用了场景信息,进一步的提高了获取的该全景图像的全景深度图像的精确度;从而使得后续可以根据精确度较高的全景深度图像,快速且准确的构建该房屋的目标三维模型。
与上述方法实施例相对应,本说明书还提供了基于三维模型的导航装置实施例,图8示出了本说明书一个实施例提供的一种基于三维模型的导航装置的结构示意图。如图8所示,该装置包括:
模型展示模块802,被配置为响应于用户针对目标三维模型的展示请求,将所述目标三维模型通过用户交互界面展示给所述用户;
位置确定模块804,被配置为接收所述用户通过所述用户交互界面输入的、所述目标三维模型中的目的地,并确定所述用户在所述目标三维模型中的虚拟对象的当前位置;
地图确定模块806,被配置为根据所述当前位置以及所述目的地,确定所述虚拟对象从所述当前位置移动至所述目的地的导航地图;
导航模块808,被配置为根据所述导航地图引导所述虚拟对象从所述当前位置移动至所述目的地,并将引导轨迹以三维视觉的方式通过所述用户交互界面展示给所述用户。
可选地,所述装置,还包括:
渲染模块,被配置为:
在根据所述导航地图,引导所述虚拟对象从所述当前位置向所述目的地移动的过程中,根据所述虚拟对象与所述目标三维模型中展示物品的距离,渲染所述展示物品。
可选地,所述装置,还包括:
跳转模块,被配置为:
将所述展示物品以及所述展示物品对应的网页链接,通过所述用户交互界面展示给所述用户;
响应于所述用户针对所述网页链接的点击指令,从所述目标三维模型跳转至所述网页链接对应的物品展示页面。
可选地,所述装置,还包括:
三维模型构建模块,被配置为:
将目标对象的目标全景图像输入图像处理模型,通过所述图像处理模型的编码层,获得所述目标全景图像的全景图像特征;
根据全景图球面转换算法,将所述全景图像特征转换为球面图像编码特征;
将所述球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述目标全景图像的球面深度图像;
根据所述全景图球面转换算法,将所述球面深度图像转换为所述目标全景图像的全景深度图像;
根据所述目标全景图像的全景深度图像,构建所述目标对象的目标三维模型,其中,所述目标三维模型通过运行在球面的所述图像处理模型构建,且所述图像处理模型为神经网络模型。
可选地,所述三维模型构建模块,进一步被配置为:
将所述球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述目标全景图像的球面图像解码特征;
根据所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
可选地,所述三维模型构建模块,进一步被配置为:
将所述球面图像编码特征以及所述球面图像解码特征,通过跳跃连接的方式进行特征叠加;
根据叠加后的所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
可选地,所述三维模型构建模块,进一步被配置为:
将所述球面图像编码特征以及所述球面图像解码特征,通过所述解码层的交叉注意力机制融合模块进行注意力计算,获得所述球面图像编码特征的修正量、以及所述球面图像解码特征的修正量;
根据所述球面图像编码特征的修正量、所述球面图像解码特征的修正量、所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
可选地,所述三维模型构建模块,进一步被配置为:
根据所述球面图像编码特征的修正量、以及所述球面图像解码特征的修正量,将所述球面图像编码特征以及所述球面图像解码特征,通过跳跃连接的方式进行特征叠加;
根据叠加后的所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
可选地,所述三维模型构建模块,进一步被配置为:
S2、将通过第i个编码层获得的球面图像编码特征、与通过第j个解码层获得的球面图像解码特征,通过跳跃连接的方式进行特征叠加,
其中,所述第i个编码层的初始层为第一层,所述第j个解码层的初始层为最后一层;
S4、判断所述第i个编码层是否为最后一个编码层,以及所述第j个解码层是否为第一个解码层,
若否,则将i自增1,将j减1,继续执行步骤S2。
可选地,所述三维模型构建模块,进一步被配置为:
获取通过全景拍摄设备拍摄的目标对象的目标全景图像;或者
获取所述目标对象的至少两张初始平面图像,根据预设图像融合算法将所述至少两张初始平面图像进行融合,获得所述目标对象的目标全景图像。
可选地,所述三维模型构建模块,进一步被配置为:
获得所述图像处理模型输出的所述目标全景图像的全景深度图像;
相应地,所述图像处理模型的训练步骤如下所述:
确定样本全景图像,以及所述样本全景图像对应的样本全景深度图像;
将样本全景图像输入图像处理模型,通过所述图像处理模型的编码层,获得所述样本全景图像的样本全景图像特征;
根据所述全景图球面转换算法,将所述样本全景图像特征转换为样本球面图像编码特征;
将所述样本球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述样本全景图像的样本球面深度图像;
根据所述全景图球面转换算法,将所述样本球面深度图像转换为所述样本全景图像的预测全景深度图像;
根据所述样本全景深度图像、以及所述预测全景深度图像调整所述图像处理模型的损失函数,实现对所述图像处理模型的训练。
本说明书实施例提供的基于三维模型的导航装置,通过在目标三维模型中,根据用户在目标三维模型中虚拟对象的当前位置以及目的地,为用户进行导航地图规划,并在目标三维模型中以三维视觉呈现的方式引导用户行进,结合建模技术以及三维可视化的引导方式进行导航,提高用户的导航体验。
上述为本实施例的一种基于三维模型的导航装置的示意性方案。需要说明的是,该基于三维模型的导航装置的技术方案与上述的基于三维模型的导航方法的技术方案属于同一构思,基于三维模型的导航装置的技术方案未详细描述的细节内容,均可以参见上述基于三维模型的导航方法的技术方案的描述。
图9示出了根据本说明书一个实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于三维模型的导航方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的基于三维模型的导航方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述基于三维模型的导航方法的技术方案的描述。
本说明书一实施例还提供一种增强现实AR设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于三维模型的导航方法的步骤。
上述为本实施例的一种增强现实AR设备的示意性方案。需要说明的是,该增强现实AR设备的技术方案与上述基于三维模型的导航方法的技术方案属于同一构思,增强现实AR设备的技术方案未详细描述的细节内容,均可以参见上述基于三维模型的导航方法的技术方案的描述。
本说明书一实施例还提供一种虚拟现实VR设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于三维模型的导航方法的步骤。
上述为本实施例的一种虚拟现实VR设备的示意性方案。需要说明的是,该虚拟现实VR设备的技术方案与上述基于三维模型的导航方法的技术方案属于同一构思,虚拟现实VR设备的技术方案未详细描述的细节内容,均可以参见上述基于三维模型的导航方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于三维模型的导航方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于三维模型的导航方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于三维模型的导航方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述基于三维模型的导航方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的基于三维模型的导航方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述基于三维模型的导航方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种基于三维模型的导航方法,应用于客户端,包括:
响应于用户针对目标三维模型的展示请求,将所述目标三维模型通过用户交互界面展示给所述用户;
接收所述用户通过所述用户交互界面输入的、所述目标三维模型中的目的地,并确定所述用户在所述目标三维模型中的虚拟对象的当前位置;
根据所述当前位置以及所述目的地,确定所述虚拟对象从所述当前位置移动至所述目的地的导航地图;
根据所述导航地图引导所述虚拟对象从所述当前位置移动至所述目的地,并将引导轨迹以三维视觉的方式通过所述用户交互界面展示给所述用户。
2.根据权利要求1所述的基于三维模型的导航方法,还包括:
在根据所述导航地图,引导所述虚拟对象从所述当前位置向所述目的地移动的过程中,根据所述虚拟对象与所述目标三维模型中展示物品的距离,渲染所述展示物品。
3.根据权利要求2所述的基于三维模型的导航方法,所述根据所述虚拟对象与所述目标三维模型中展示物品的距离,渲染所述展示物品之后,还包括:
将所述展示物品以及所述展示物品对应的网页链接,通过所述用户交互界面展示给所述用户;
响应于所述用户针对所述网页链接的点击指令,从所述目标三维模型跳转至所述网页链接对应的物品展示页面。
4.根据权利要求1所述的基于三维模型的导航方法,所述响应于用户针对目标三维模型的展示请求之前,还包括:
将目标对象的目标全景图像输入图像处理模型,通过所述图像处理模型的编码层,获得所述目标全景图像的全景图像特征;
根据全景图球面转换算法,将所述全景图像特征转换为球面图像编码特征;
将所述球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述目标全景图像的球面深度图像;
根据所述全景图球面转换算法,将所述球面深度图像转换为所述目标全景图像的全景深度图像;
根据所述目标全景图像的全景深度图像,构建所述目标对象的目标三维模型,其中,所述目标三维模型通过运行在球面的所述图像处理模型构建,且所述图像处理模型为神经网络模型。
5.根据权利要求4所述的基于三维模型的导航方法,所述将所述球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述目标全景图像的球面深度图像,包括:
将所述球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述目标全景图像的球面图像解码特征;
根据所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
6.根据权利要求5所述的基于三维模型的导航方法,所述根据所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像,包括:
将所述球面图像编码特征以及所述球面图像解码特征,通过跳跃连接的方式进行特征叠加;
根据叠加后的所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
7.根据权利要求5所述的基于三维模型的导航方法,所述根据所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像,包括:
将所述球面图像编码特征以及所述球面图像解码特征,通过所述解码层的交叉注意力机制融合模块进行注意力计算,获得所述球面图像编码特征的修正量、以及所述球面图像解码特征的修正量;
根据所述球面图像编码特征的修正量、所述球面图像解码特征的修正量、所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
8.根据权利要求7所述的基于三维模型的导航方法,所述根据所述球面图像编码特征的修正量、所述球面图像解码特征的修正量、所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像,包括:
根据所述球面图像编码特征的修正量、以及所述球面图像解码特征的修正量,将所述球面图像编码特征以及所述球面图像解码特征,通过跳跃连接的方式进行特征叠加;
根据叠加后的所述球面图像编码特征以及所述球面图像解码特征,获得所述目标全景图像的球面深度图像。
9.根据权利要求6或8所述的基于三维模型的导航方法,所述将所述球面图像编码特征以及所述球面图像解码特征,通过跳跃连接的方式进行特征叠加,包括:
S2、将通过第i个编码层获得的球面图像编码特征、与通过第j个解码层获得的球面图像解码特征,通过跳跃连接的方式进行特征叠加,
其中,所述第i个编码层的初始层为第一层,所述第j个解码层的初始层为最后一层;
S4、判断所述第i个编码层是否为最后一个编码层,以及所述第j个解码层是否为第一个解码层,
若否,则将i自增1,将j减1,继续执行步骤S2。
10.根据权利要求4所述的基于三维模型的导航方法,所述将目标全景图像输入图像处理模型之前,还包括:
获取通过全景拍摄设备拍摄的目标对象的目标全景图像;或者
获取所述目标对象的至少两张初始平面图像,根据预设图像融合算法将所述至少两张初始平面图像进行融合,获得所述目标对象的目标全景图像。
11.根据权利要求4所述的基于三维模型的导航方法,所述将目标对象的目标全景图像输入图像处理模型之后,还包括:
获得所述图像处理模型输出的所述目标全景图像的全景深度图像;
相应地,所述图像处理模型的训练步骤如下所述:
确定样本全景图像,以及所述样本全景图像对应的样本全景深度图像;
将样本全景图像输入图像处理模型,通过所述图像处理模型的编码层,获得所述样本全景图像的样本全景图像特征;
根据所述全景图球面转换算法,将所述样本全景图像特征转换为样本球面图像编码特征;
将所述样本球面图像编码特征输入所述图像处理模型的解码层,通过所述解码层获得所述样本全景图像的样本球面深度图像;
根据所述全景图球面转换算法,将所述样本球面深度图像转换为所述样本全景图像的预测全景深度图像;
根据所述样本全景深度图像、以及所述预测全景深度图像调整所述图像处理模型的损失函数,实现对所述图像处理模型的训练。
12.一种基于三维模型的导航装置,应用于客户端,包括:
模型展示模块,被配置为响应于用户针对目标三维模型的展示请求,将所述目标三维模型通过用户交互界面展示给所述用户;
位置确定模块,被配置为接收所述用户通过所述用户交互界面输入的、所述目标三维模型中的目的地,并确定所述用户在所述目标三维模型中的虚拟对象的当前位置;
地图确定模块,被配置为根据所述当前位置以及所述目的地,确定所述虚拟对象从所述当前位置移动至所述目的地的导航地图;
导航模块,被配置为根据所述导航地图引导所述虚拟对象从所述当前位置移动至所述目的地,并将引导轨迹以三维视觉的方式通过所述用户交互界面展示给所述用户。
13.一种增强现实AR设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述基于三维模型的导航方法的步骤。
14.一种虚拟现实VR设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述基于三维模型的导航方法的步骤。
CN202211026584.0A 2022-08-25 2022-08-25 基于三维模型的导航方法及装置 Pending CN115527011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211026584.0A CN115527011A (zh) 2022-08-25 2022-08-25 基于三维模型的导航方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211026584.0A CN115527011A (zh) 2022-08-25 2022-08-25 基于三维模型的导航方法及装置

Publications (1)

Publication Number Publication Date
CN115527011A true CN115527011A (zh) 2022-12-27

Family

ID=84697266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211026584.0A Pending CN115527011A (zh) 2022-08-25 2022-08-25 基于三维模型的导航方法及装置

Country Status (1)

Country Link
CN (1) CN115527011A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116858215A (zh) * 2023-09-05 2023-10-10 武汉大学 一种ar导航地图生成方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116858215A (zh) * 2023-09-05 2023-10-10 武汉大学 一种ar导航地图生成方法及装置
CN116858215B (zh) * 2023-09-05 2023-12-05 武汉大学 一种ar导航地图生成方法及装置

Similar Documents

Publication Publication Date Title
US11270460B2 (en) Method and apparatus for determining pose of image capturing device, and storage medium
CN109961507B (zh) 一种人脸图像生成方法、装置、设备及存储介质
US20200388064A1 (en) Single image-based real-time body animation
CN109754464B (zh) 用于生成信息的方法和装置
CN115690382B (zh) 深度学习模型的训练方法、生成全景图的方法和装置
US20140160122A1 (en) Creating a virtual representation based on camera data
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
EP4191538A1 (en) Large scene neural view synthesis
CN114782661B (zh) 下半身姿态预测模型的训练方法及装置
CN115272565A (zh) 一种头部三维模型的重建方法及电子设备
Li et al. MonoIndoor++: Towards better practice of self-supervised monocular depth estimation for indoor environments
CN113220251A (zh) 物体显示方法、装置、电子设备及存储介质
Chai et al. Monocular and binocular interactions oriented deformable convolutional networks for blind quality assessment of stereoscopic omnidirectional images
CN115527011A (zh) 基于三维模型的导航方法及装置
JP2024510230A (ja) 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測
CN116386087B (zh) 目标对象处理方法以及装置
Kim et al. Deep transformer based video inpainting using fast fourier tokenization
CN116912148A (zh) 图像增强方法、装置、计算机设备及计算机可读存储介质
CN115512038B (zh) 自由视点合成的实时绘制方法、电子设备及可读存储介质
CN115272575B (zh) 图像生成方法及装置、存储介质和电子设备
Guo et al. Perspective reconstruction of human faces by joint mesh and landmark regression
CN115731344A (zh) 图像处理模型训练方法以及三维对象模型构建方法
CN114419158A (zh) 六维姿态估计方法、网络训练方法、装置、设备及介质
CN115205325A (zh) 目标追踪方法及装置
Pang et al. JointMETRO: a 3D reconstruction model for human figures in works of art based on transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination