CN112365604A - 基于语义分割和slam的ar设备景深信息应用方法 - Google Patents

基于语义分割和slam的ar设备景深信息应用方法 Download PDF

Info

Publication number
CN112365604A
CN112365604A CN202011224040.6A CN202011224040A CN112365604A CN 112365604 A CN112365604 A CN 112365604A CN 202011224040 A CN202011224040 A CN 202011224040A CN 112365604 A CN112365604 A CN 112365604A
Authority
CN
China
Prior art keywords
semantic segmentation
map
image
slam
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011224040.6A
Other languages
English (en)
Inventor
瞿岩松
夏轩
陈卫兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongke Xianjian Medical Technology Co ltd
Original Assignee
Shenzhen Zhongke Xianjian Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongke Xianjian Medical Technology Co ltd filed Critical Shenzhen Zhongke Xianjian Medical Technology Co ltd
Priority to CN202011224040.6A priority Critical patent/CN112365604A/zh
Publication of CN112365604A publication Critical patent/CN112365604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于语义分割和SLAM的AR设备景深信息应用方法;包括:对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像;通过SLAM技术对用户需要注意的目标进行规划与提示增强,得到用户自身环境的深度图像;将深度图像与语义分割图像进行融合。本发明使用双目鱼眼相机实现纯视觉的SLAM,通过稠密视觉法动态构建地图以及对环境中各物体的定位与深度分割,实现虚拟信息与现实环境的耦合,通过将深度图像与语义分割图像进行融合后引导用户注视观察不同深度的物体以调节用户视力。

Description

基于语义分割和SLAM的AR设备景深信息应用方法
技术领域
本申请涉及人工智能图像处理技术领域,特别是涉及一种基于语义分割和SLAM的AR设备景深信息应用方法。
背景技术
随着信息技术的发展,生活越来越趋向于使用物联网(Internet of Things,即IoT)来实现智能生活概念的数字化生活,例如智能家居***、个人健康监控或广泛的机器对机器通信。而增强现实(Augmented reality,即AR)是促进人类集成到此类***中的一项核心技术,是一项将虚拟与现实相结合的技术,为人们提供了与智能生活的数字世界进行交互的界面。尽管AR在医疗、生产生活、工业设计等领域尚未准备好进行部署,但在其他如娱乐等领域已经使用了它。近年来,电子微型化的飞跃式发展和计算能力的***性增强使得开发具有与消费者和行业相关能力的AR***成为可能。AR***使人类能够通过位于物理世界之上的一层信息来访问数字信息。根据广泛使用的现实-虚拟性连续体,AR位于真实环境和虚拟环境之间,即现实世界环境与虚拟现实环境,通过相机与传感器的方位精准计算***在环境中的位置以及环境中各物体的位置,再通过图像分析技术让虚拟信息与现实场景进行结合与交互。一般地说,AR***的基本组件是可视化技术、传感器***、跟踪***、处理单元和用户界面。可视化技术可在真实环境中可视化数字信息,主要包括四种技术,即头戴式显示器、手持设备、静态屏幕和投影仪;传感***的功能是从环境中获取信息,对大多数***来说,其中央输入是一台及以上的相机,包括普通光学相机、红外相机、深度相机等;跟踪***则为***的关键,使数字对象可以准确地放置在物理世界中;用户界面是实现***与用户之间的双向通信,例如***输出的力反馈和声音提示以及用户输入的交互方式;处理单元负责执行软件以运行AR***。但目前的AR***一般地可以分为两种,以标记点(锚点)作为依据进行虚实结合以及通过非标记的方法进行耦合。前者早期更为普遍且成熟,但是以标记点的方式使得AR应用十分受限;而后者通过传感器与跟踪定位算法进行耦合,较为依赖硬件上的性能,同时传感器与***复杂度之间的取舍以及算法精确度与硬件性能的权衡使得***难以得到理想的效果。
因此增强现实有望成为未来通用的计算平台,而AR中的传感与追踪***是并不可少也是最为关键的一环,这一组件有硬件部分的传感器与软件算法部分的同步定位与地图构建技术(Simultaneous localization and mapping,SLAM)。SLAM是通过在***运动过程中不断观测到的环境特征再根据自身位置进行增量式的地图构建,同时除了简单的二维平面SLAM(平面地图),还有三维立体SLAM,后者可以更加精细地构建出环境的三维空间中各个物体的位置以及姿态,极大地便于AR***中虚拟数字信息与真实环境之间的耦合。但是由于AR设备的结构性以及成本等因素,***中的传感器大多是纯视觉的,也就是基于纯视觉SLAM的。与基于雷达的SLAM和混合SLAM不同,后者可以往往那通过雷达构建出进度更高的地图,而前者由于采集的数据更为丰富语义信息,但是运算成本高且性能有待提高。因此需要在基于AR的应用环境下进一步改进纯视觉的SLAM并且充分利用环境中的语义信息。
现有技术中的AR***内,算法模型体量大、所占用的算力多,不能做到轻量级,硬件算力有限且要求实时性不具有针对性,此外现有模型与数据集都是基于普遍的分类标签,不适应AR眼镜应用需求,浪费了大量的资源。激光SLAM虽然技术成熟、可靠性高,但是成本高,雷达扫描范围和安装结构都有限制。而且体积较大不适用于AR***。
发明内容
基于此,有必要针对现有算法体量大、占用算力多的问题,提供一种基于语义分割和SLAM的AR设备景深信息应用方法。
为了实现上述目的,本申请实施例提供了一种基于语义分割和SLAM的AR设备景深信息应用方法,包括:
对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像;
通过SLAM 技术对用户需要注意的目标进行规划与提示增强,得到用户自身环境的深度图像;
将深度图像与语义分割图像进行融合。
优选地,所述对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像之前还包括:
通过卷积神经网络可视化方法对卷积神经网络模型的最后一次卷积的特征图进行反向传播计算出相应的权重,再利用每张特征图乘于权重得到带有权重的特征图,计算出特征图的平均值并进行上采样即可得到由粗注释学习到的细注释,从而能够利用较粗的注释进行基于弱监督的卷积神经网络模型的训练。
优选地,所述粗注释包括边界框或标签,所述细注释包括热图或掩膜。
优选地,所述对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像与通过SLAM 技术对用户需要注意的目标进行规划与提示增强,得到用户自身环境的深度图像之间还包括:
用户根据自身环境对语义分割模型的后端部分参数进行随机解冻实现自定义。
优选地,所述对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像包括:
以包含全部类别的数据集对语义分割模型做预训练,待卷积神经网络层充分学习到各种图像的纹理后再进行迁移学习,对AR设备相关性高的数据进行针对性的训练;
采用空洞卷积和空间金字塔型空洞池化结构设计语义分割模型,其中空洞卷积部分使用多尺度区域进行对象定位,将多个具有不同膨胀度的萎缩卷积分支组合在一起利用多尺度特性进行图像分割;
在语义分割模型的后端使用全连接条件随机场对用户眼前景象中的各物体进行分隔。
优选地,所述SLAM 技术为基于双目鱼眼相机的视觉SLAM技术,通过视觉SLAM技术构建基于ORB-SLAM3的***。
优选地,所述基于ORB-SLAM3的***包括:
地图集,所述地图集用于通过由一系列离散的地图组成的混合地图集去维护一个激活地图来定位新的关键帧,并通过局部建图线程不断的优化更新激活地图;
追踪算法,所述追踪算法用于通过处理传感器的数据并实时计算当前帧和激活地图的位姿,计算出最小化匹配特征点的重投影误差及关键帧的筛选,当***跟丢之后利用混合地图集进行重定位,若重定位成功则继续追踪,若重定位失败则会重新初始化一个新的激活地图进行追踪与建图;
局部建图,所述局部建图用于通过添加关键帧、特征点到激活地图中,删除多余的帧并使用视觉或者视觉惯导的BA优化来优化地图;
循环与地图融合,所述循环与地图融合用于在动态的激活地图和混合地图集中检测相同的区域,如果相同的区域是在激活地图中则执行闭环过程,待闭环过程执行完毕后通过全局BA来优化激活地图,如果激活地图和混合地图集中没有相同的地图,则将激活地图和混合地图集融合成一个地图。
优选地,所述基于ORB-SLAM3的***在具有惯导的情况下,利用局部建图中的方法来估计初始化和优化IMU的参数。
优选地,所述BA优化的步骤包括:
针对激活地图上的第一图像、第二图像特征匹配好相应的像素坐标,计算出第一图像上的像素坐标对应的归一化的空间点坐标;
根据所述空间点坐标计算重投影到第二图像上的像素坐标,若重投影的像素坐标与匹配好的第二图像上的像素坐标不完全重合,则将每一个匹配好的像素坐标建立方程并联立方程组形成超定方程,解出最优的位姿矩阵或空间点坐标。
优选地,所述语义分割模型为在deeplab模型的基础上改进而来。
上述技术方案中的一个技术方案具有如下优点和有益效果:
本申请各实施例提供的基于语义分割和SLAM的AR设备景深信息应用方法,有效的解决了现有算法体量大、占用算力多的问题,与此同时抛弃了不适用于AR环境的分割对象,合并了一部分弱监督下的分割类别,减小了算法的体积,由SLAM主导的深度图像以及语义分割的分割图像合并而成的深度分割图,通过深度分割图像引导用户注视观察不同深度的物体以调节用户视力,增强了用户的体验。
附图说明
图1为一个实施例中基于语义分割和SLAM的AR设备景深信息应用方法的流程示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容更加透彻全面。
需要说明的是,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件并与之结合为一体,或者可能同时存在居中元件。本文所使用的术语“一端”、“另一端”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
为了解决传统技术无法验证人工视网膜产品的可靠性和可行性的问题,在一个实施例中,如图1所示,提供了一种基于语义分割和SLAM的AR设备景深信息应用方法,包括:
S100、对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像;
S200、通过SLAM 技术对用户需要注意的目标进行规划与提示增强,得到用户自身环境的深度图像;
S300、将深度图像与语义分割图像进行融合。
语义分割是对图片的每一个像素点进行分类,简而言之就是图片是由像素点组成,语义分割就是利用人工智能算法阅读图片,把属于同一个物体的像素点归类到一起。比如将拍摄到的一张图片作为输入图片,不同的色块区分为语义分割后的结果图片,通过人工智能图像处理算法,自动的把摄像头拍摄得到的图片中不同的东西就行分类,比如树木覆盖黄色、所有建筑覆盖红色、所有汽车覆盖紫色、道路为灰色、人行道为天蓝色。语义分割会把用户眼前景象中的各物体进行分割,可以帮助用户区分目标。
通过语义分割后,对用户需要注意的目标进行规划与提示增强。***前置的双目鱼眼相机通过相机间距离进行匹配计算得出比例尺度和空间模型,然后在此基础上进行地图的构建与物体的定位,并得到用户自身环境的深度图像。最后与语义分割的结果相联合,得到深度分割影像,并以此与现实场景进行耦合实现基于景深的注意力引导效果。
上述AR设备不局限于眼镜,还可以是手机等智能终端。
具体实施时,所述对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像之前还包括:
通过卷积神经网络可视化方法对卷积神经网络模型的最后一次卷积的特征图进行反向传播计算出相应的权重,再利用每张特征图乘于权重得到带有权重的特征图,计算出特征图的平均值并进行上采样即可得到由粗注释学习到的细注释,从而能够利用较粗的注释进行基于弱监督的卷积神经网络模型的训练,所述粗注释包括边界框或标签,所述细注释包括热图或掩膜。
上述方法为基于弱监督的数据增强方法,本发明创新地提出利用弱监督的方式增强数据,一般地也会存在直接基于弱监督的方式对弱注释数据进行分割,而本发明在对弱注释进行分割后继续以这个分割结果作为注释进行一下次分割,也就是自监督的形式。
Guided Grad-CAM即卷积神经网络可视化方法,上述最后一次卷积的特征图数量等同于要进行分类的数据的种类数,每一张特征图代表每一个类别的概率图。
具体实施时,所述对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像与通过SLAM 技术对用户需要注意的目标进行规划与提示增强,得到用户自身环境的深度图像之间还包括:
用户根据自身环境对语义分割模型的后端部分参数进行随机解冻实现自定义。根据用户自身环境进行自定义的模型微调,以较低的算力占用通过较长时间的使用逐渐提升用户本人的使用体验。
具体实施时,所述对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像包括:
以包含全部类别的数据集对语义分割模型做预训练,待卷积神经网络层充分学习到各种图像的纹理后再进行迁移学习,对AR设备相关性高的数据进行针对性的训练;
采用空洞卷积和空间金字塔型空洞池化结构设计语义分割模型,其中空洞卷积部分使用多尺度区域进行对象定位,将多个具有不同膨胀度的萎缩卷积分支组合在一起利用多尺度特性进行图像分割;
在语义分割模型的后端使用全连接条件随机场对用户眼前景象中的各物体进行分隔。
深度学习方法也就是卷积神经网络,深度学习最初流行的分割方法是,打补丁式的分类方法 ( patch classification ) 。逐像素地抽取周围像素对中心像素进行分类。由于当时的卷积网络末端都使用全连接层 ( full connected layers ) ,所以只能使用这种逐像素的分割方法。
具体实施时,所述SLAM 技术为基于双目鱼眼相机的视觉SLAM技术,通过视觉SLAM技术构建基于ORB-SLAM3的***。这个***基于词袋模型给***编码用于重定位、闭环检测和地图融合,可以在纯视觉或者视觉惯导的***中鲁棒的运行。
视觉SLAM技术成本低无约束,但是多适用于室外进行道路分割与地图构建,对于室内的光照变化复杂,阻碍物多样且小闭环的环境不易于得出精细的结果,而大多只有基于RGB-D相机的稠密视觉法能做出精细的室内SLAM。按照相机划分则为单目相机SLAM,双目相机SLAM,RGB-D相机SLAM等。单目相机SLAM对真实大小的轨迹和地图有一个比例尺,无法感知真实的深度,所以必须要进行初始化;而双目相机SLAM在已知两个单目相机之间基线距离的情况下,可以通过校准匹配并计算得到深度,但是一般较为浪费算力;RGB-D相机SLAM也称为深度相机SLAM,可以直接通过立体结构光和TOF技术得到深度信息,单目、双目和RGB-D利用针孔或者鱼眼模型,也可以自己定义模型。
SLAM所用方法可以是直接法,如稠密视觉法和半稠密视觉法。
具体实施时,所述基于ORB-SLAM3的***包括:
地图集,所述地图集用于通过由一系列离散的地图组成的混合地图集去维护一个激活地图来定位新的关键帧,并通过局部建图线程不断的优化更新激活地图;
追踪算法,所述追踪算法用于通过处理传感器的数据并实时计算当前帧和激活地图的位姿,计算出最小化匹配特征点的重投影误差及关键帧的筛选,当***跟丢之后利用混合地图集进行重定位,若重定位成功则继续追踪,若重定位失败则会重新初始化一个新的激活地图进行追踪与建图;
局部建图,所述局部建图用于通过添加关键帧、特征点到激活地图中,删除多余的帧并使用视觉或者视觉惯导的BA优化来优化地图;
循环与地图融合,所述循环与地图融合用于在动态的激活地图和混合地图集中检测相同的区域,如果相同的区域是在激活地图中则执行闭环过程,待闭环过程执行完毕后通过全局BA来优化激活地图,如果激活地图和混合地图集中没有相同的地图,则将激活地图和混合地图集融合成一个地图。
具体实施时,SLAM中的BA优化,先根据相机模型和A、B图像特征匹配好的像素坐标,求出A图像上的像素坐标对应的归一化的空间点坐标,然后根据该空间点的坐标计算重投影到B图像上的像素坐标,重投影的像素坐标(估计值)与匹配好的B图像上的像素坐标(测量值)不会完全重合,BA的目的就是每一个匹配好的特征点建立方程,然后联立形成超定方程,解出最优的位姿矩阵或空间点坐标(两者可以同时优化)。
具体实施时,所述基于ORB-SLAM3的***在具有惯导的情况下,利用局部建图中的方法来估计初始化和优化IMU的参数。
具体实施时,所述BA优化的步骤包括:
针对激活地图上的第一图像、第二图像特征匹配好相应的像素坐标,计算出第一图像上的像素坐标对应的归一化的空间点坐标;
根据所述空间点坐标计算重投影到第二图像上的像素坐标,若重投影的像素坐标与匹配好的第二图像上的像素坐标不完全重合,则将每一个匹配好的像素坐标建立方程并联立方程组形成超定方程,解出最优的位姿矩阵或空间点坐标。
具体实施时,所述语义分割模型为在deeplab模型的基础上改进而来,在已知开源的数据集中进行广泛的学习,然后再削减相关性低的标签再进行二次训练。其中数据集在预处理阶段进行了基于弱监督的数据增强,因此除了图像分割的数据集外,也可以适用于包含标签边界框的图像分类数据集。在使用过程中也可以是加入在线学习的机制,增强用户自身环境的分割与定位效果。
综上,本发明所提供的一种基于语义分割和SLAM的AR设备景深信息应用方法,AR应用的参数剪枝,解决了现有算法体量大、占用算力多的问题,与此同时抛弃了不适用于AR环境的分割对象,合并了一部分弱监督下的分割类别,将一部分对象物体标签统称为障碍物,减小了算法的体积;同时本发明使用双目鱼眼相机实现纯视觉的SLAM,通过稠密视觉法动态构建地图以及对环境中各物体的定位与深度分割,实现虚拟信息与现实环境的耦合,通过深度分割图像引导用户注视观察不同深度的物体以调节用户视力。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,包括:
对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像;
通过SLAM 技术对用户需要注意的目标进行规划与提示增强,得到用户自身环境的深度图像;
将深度图像与语义分割图像进行融合。
2.根据权利要求1所述的基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,所述对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像之前还包括:
通过卷积神经网络可视化方法对卷积神经网络模型的最后一次卷积的特征图进行反向传播计算出相应的权重,再利用每张特征图乘于权重得到带有权重的特征图,计算出特征图的平均值并进行上采样即可得到由粗注释学习到的细注释,从而能够利用较粗的注释进行基于弱监督的卷积神经网络模型的训练。
3.根据权利要求2所述的基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,所述粗注释包括边界框或标签,所述细注释包括热图或掩膜。
4.根据权利要求2所述的基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,所述对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像与通过SLAM 技术对用户需要注意的目标进行规划与提示增强,得到用户自身环境的深度图像之间还包括:
用户根据自身环境对语义分割模型的后端部分参数进行随机解冻实现自定义。
5.根据权利要求4所述的基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,所述对AR设备的前置相机设计语义分割模型,通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像包括:
以包含全部类别的数据集对语义分割模型做预训练,待卷积神经网络层充分学习到各种图像的纹理后再进行迁移学习,对AR设备相关性高的数据进行针对性的训练;
采用空洞卷积和空间金字塔型空洞池化结构设计语义分割模型,其中空洞卷积部分使用多尺度区域进行对象定位,将多个具有不同膨胀度的萎缩卷积分支组合在一起利用多尺度特性进行图像分割;
在语义分割模型的后端使用全连接条件随机场对用户眼前景象中的各物体进行分隔。
6.根据权利要求4所述的基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,所述SLAM 技术为基于双目鱼眼相机的视觉SLAM技术,通过视觉SLAM技术构建基于ORB-SLAM3的***。
7.根据权利要求6所述的基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,所述基于ORB-SLAM3的***包括:
地图集,所述地图集用于通过由一系列离散的地图组成的混合地图集去维护一个激活地图来定位新的关键帧,并通过局部建图线程不断的优化更新激活地图;
追踪算法,所述追踪算法用于通过处理传感器的数据并实时计算当前帧和激活地图的位姿,计算出最小化匹配特征点的重投影误差及关键帧的筛选,当***跟丢之后利用混合地图集进行重定位,若重定位成功则继续追踪,若重定位失败则会重新初始化一个新的激活地图进行追踪与建图;
局部建图,所述局部建图用于通过添加关键帧、特征点到激活地图中,删除多余的帧并使用视觉或者视觉惯导的BA优化来优化地图;
循环与地图融合,所述循环与地图融合用于在动态的激活地图和混合地图集中检测相同的区域,如果相同的区域是在激活地图中则执行闭环过程,待闭环过程执行完毕后通过全局BA来优化激活地图,如果激活地图和混合地图集中没有相同的地图,则将激活地图和混合地图集融合成一个地图。
8.根据权利要求7所述的基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,所述基于ORB-SLAM3的***在具有惯导的情况下,利用局部建图中的方法来估计初始化和优化IMU的参数。
9.根据权利要求7所述的基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,所述BA优化的步骤包括:
针对激活地图上的第一图像、第二图像特征匹配好相应的像素坐标,计算出第一图像上的像素坐标对应的归一化的空间点坐标;
根据所述空间点坐标计算重投影到第二图像上的像素坐标,若重投影的像素坐标与匹配好的第二图像上的像素坐标不完全重合,则将每一个匹配好的像素坐标建立方程并联立方程组形成超定方程,解出最优的位姿矩阵或空间点坐标。
10.根据权利要求1至9任意一项所述的基于语义分割和SLAM的AR设备景深信息应用方法,其特征在于,所述语义分割模型为在deeplab模型的基础上改进而来。
CN202011224040.6A 2020-11-05 2020-11-05 基于语义分割和slam的ar设备景深信息应用方法 Pending CN112365604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011224040.6A CN112365604A (zh) 2020-11-05 2020-11-05 基于语义分割和slam的ar设备景深信息应用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011224040.6A CN112365604A (zh) 2020-11-05 2020-11-05 基于语义分割和slam的ar设备景深信息应用方法

Publications (1)

Publication Number Publication Date
CN112365604A true CN112365604A (zh) 2021-02-12

Family

ID=74508734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011224040.6A Pending CN112365604A (zh) 2020-11-05 2020-11-05 基于语义分割和slam的ar设备景深信息应用方法

Country Status (1)

Country Link
CN (1) CN112365604A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409231A (zh) * 2021-06-10 2021-09-17 杭州易现先进科技有限公司 一种基于深度学习的ar人像拍照方法和***
CN113409331A (zh) * 2021-06-08 2021-09-17 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、终端及可读存储介质
CN113537171A (zh) * 2021-09-16 2021-10-22 北京易航远智科技有限公司 一种slam地图的划分方法
CN113643357A (zh) * 2021-07-12 2021-11-12 杭州易现先进科技有限公司 一种基于3d定位信息的ar人像拍照方法和***
CN113781363A (zh) * 2021-09-29 2021-12-10 北京航空航天大学 去雾效果可调节的图像增强方法
CN113963000A (zh) * 2021-10-21 2022-01-21 北京字节跳动网络技术有限公司 图像分割方法、装置、电子设备及程序产品
CN114863165A (zh) * 2022-04-12 2022-08-05 南通大学 一种基于影像组学与深度学习特征融合的椎体骨密度分类方法
CN115294488A (zh) * 2022-10-10 2022-11-04 江西财经大学 一种ar快速实物匹配显示方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053056A1 (en) * 2016-08-22 2018-02-22 Magic Leap, Inc. Augmented reality display device with deep learning sensors
US20190051056A1 (en) * 2017-08-11 2019-02-14 Sri International Augmenting reality using semantic segmentation
CN109583457A (zh) * 2018-12-03 2019-04-05 荆门博谦信息科技有限公司 一种机器人定位与地图构建的方法及机器人
CN110827305A (zh) * 2019-10-30 2020-02-21 中山大学 面向动态环境的语义分割与视觉slam紧耦合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053056A1 (en) * 2016-08-22 2018-02-22 Magic Leap, Inc. Augmented reality display device with deep learning sensors
US20190051056A1 (en) * 2017-08-11 2019-02-14 Sri International Augmenting reality using semantic segmentation
CN109583457A (zh) * 2018-12-03 2019-04-05 荆门博谦信息科技有限公司 一种机器人定位与地图构建的方法及机器人
CN110827305A (zh) * 2019-10-30 2020-02-21 中山大学 面向动态环境的语义分割与视觉slam紧耦合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李宾皑;李颖;郝鸣阳;顾书玉;: "弱监督学习语义分割方法综述", 数字通信世界, no. 07, 1 July 2020 (2020-07-01) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409331A (zh) * 2021-06-08 2021-09-17 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、终端及可读存储介质
CN113409331B (zh) * 2021-06-08 2024-04-12 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、终端及可读存储介质
CN113409231A (zh) * 2021-06-10 2021-09-17 杭州易现先进科技有限公司 一种基于深度学习的ar人像拍照方法和***
CN113643357A (zh) * 2021-07-12 2021-11-12 杭州易现先进科技有限公司 一种基于3d定位信息的ar人像拍照方法和***
CN113537171A (zh) * 2021-09-16 2021-10-22 北京易航远智科技有限公司 一种slam地图的划分方法
CN113781363B (zh) * 2021-09-29 2024-03-05 北京航空航天大学 去雾效果可调节的图像增强方法
CN113781363A (zh) * 2021-09-29 2021-12-10 北京航空航天大学 去雾效果可调节的图像增强方法
CN113963000A (zh) * 2021-10-21 2022-01-21 北京字节跳动网络技术有限公司 图像分割方法、装置、电子设备及程序产品
CN113963000B (zh) * 2021-10-21 2024-03-15 抖音视界有限公司 图像分割方法、装置、电子设备及程序产品
CN114863165A (zh) * 2022-04-12 2022-08-05 南通大学 一种基于影像组学与深度学习特征融合的椎体骨密度分类方法
CN114863165B (zh) * 2022-04-12 2023-06-16 南通大学 一种基于影像组学与深度学习特征融合的椎体骨密度分类方法
CN115294488B (zh) * 2022-10-10 2023-01-24 江西财经大学 一种ar快速实物匹配显示方法
CN115294488A (zh) * 2022-10-10 2022-11-04 江西财经大学 一种ar快速实物匹配显示方法

Similar Documents

Publication Publication Date Title
CN112365604A (zh) 基于语义分割和slam的ar设备景深信息应用方法
Sahu et al. Artificial intelligence (AI) in augmented reality (AR)-assisted manufacturing applications: a review
JP7151016B2 (ja) 直方体検出のための深層機械学習システム
Moreau et al. Lens: Localization enhanced by nerf synthesis
US20200302628A1 (en) Method and system for performing simultaneous localization and mapping using convolutional image transformation
US11263823B2 (en) Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications
CN112771539B (zh) 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用
US20180012411A1 (en) Augmented Reality Methods and Devices
Kumar et al. Monocular fisheye camera depth estimation using sparse lidar supervision
Won et al. Sweepnet: Wide-baseline omnidirectional depth estimation
WO2022165809A1 (zh) 一种训练深度学习模型的方法和装置
CN113674416B (zh) 三维地图的构建方法、装置、电子设备及存储介质
CN107635129A (zh) 三维三目摄像装置及深度融合方法
KR20220081261A (ko) 객체 포즈 추정 방법 및 장치
US11948310B2 (en) Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator
CN114972617A (zh) 一种基于可导渲染的场景光照与反射建模方法
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
CN116194951A (zh) 用于基于立体视觉的3d对象检测与分割的方法和装置
CN114170290A (zh) 图像的处理方法及相关设备
Jia et al. Depth measurement based on a convolutional neural network and structured light
Šlapak et al. Neural radiance fields in the industrial and robotics domain: applications, research opportunities and use cases
Bai et al. Cyber mobility mirror for enabling cooperative driving automation: A co-simulation platform
US12002227B1 (en) Deep partial point cloud registration of objects
Wang et al. Research on 3D Sampling and Monitoring of Power Supplies Based on Augmented Reality (AR) Technology
Liang et al. Semantic map construction based on LIDAR and vision fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination