CN117274351A - 一种多尺度特征金字塔的含语义三维重建方法 - Google Patents

一种多尺度特征金字塔的含语义三维重建方法 Download PDF

Info

Publication number
CN117274351A
CN117274351A CN202311448872.XA CN202311448872A CN117274351A CN 117274351 A CN117274351 A CN 117274351A CN 202311448872 A CN202311448872 A CN 202311448872A CN 117274351 A CN117274351 A CN 117274351A
Authority
CN
China
Prior art keywords
image
scale
pyramid
semantic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311448872.XA
Other languages
English (en)
Other versions
CN117274351B (zh
Inventor
谭鑫
纪宇舟
谢源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202311448872.XA priority Critical patent/CN117274351B/zh
Publication of CN117274351A publication Critical patent/CN117274351A/zh
Application granted granted Critical
Publication of CN117274351B publication Critical patent/CN117274351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多尺度特征金字塔的含语义三维重建方法,其特点是该方法包括:1)使用二维全景分割模型提取连续的二维语义特征,并对不同特征进行矩形裁分和零填充得到特征图块;2)构建基于原图均匀划分的基础多尺度图像金字塔,并进行近邻尺度的金字塔重构;3)在三维重建神经辐射场上训练语言‑图像编码神经辐射场,在训练完成的三维编码辐射场上进行广泛语义查询。本发明与现有技术相比具有解决了许多含语义三维重建方法只能基于少数固定标签词、无法理解抽象语义和难以实时交互的问题,提供了更加有效、可行的三维重建结果广泛语义交互实现方法,进一步赋能智能家用、工业机器人和自动驾驶场景的环境感知与交互。

Description

一种多尺度特征金字塔的含语义三维重建方法
技术领域
本发明涉及三维重建和跨模态技术领域,尤其是一种基于对比语言-图像预训练模型和多尺度特征金字塔的含语义三维重建方法。
背景技术
基于神经辐射场的三维重建指的是基于一系列RGB图片重建涉及到的完整三维场景内容,结合不同的后处理过程还能够直接导出表面网格或者模型等,不需要专业的采样工具就能得到场景的三维表示数据,能够在影视工业、数字孪生等领域实现快速简便的建模。一些其他类型的三维重建也广泛应用于机器人环境感知及自动路径规划中。
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。跨模态指的是将不同模态的内容映射到统一模态、利用其他模态的数据来丰富当前模态等技术,是重要的交互以及知识迁移技术。文本-图像生成、图像理解及语义查询等应用中都广泛应用了跨模态技术。由于三维重建可观的应用前景,相关技术在近年来快速发展,在重建精度和重建速度上都有个非常巨大的效果提升。
现有技术的重建方法,其结果都不包含语义信息,因此无法直接应用于交互过程。同时存在的少部分带有语义的信息的重建技术,为了追求分割效果,几乎都局限于固定的分割标签,无法进行广泛的语义查询和抽象语义理解。这导致重建结果还很难应用于机器人或自动驾驶等领域的智能环境语义感知。
发明内容
本发明的目的是针对现有技术的不足而提供的一种多尺度特征金字塔的含语义三维重建方法,采用对比语言-图像预训练模型来进行跨模态知识迁移,使用多尺度特征金字塔,实现场景中不同大小物体的准确注意力机制,在原三维重建方法基础上几乎没有增加明显开销的情况下,可以直接实现对于广泛场景的大规模语义理解,并且可以基于自定义词进行实时查询交互,方法简便,使用效果好,模块清晰便于升级优化、可部署性强,在部分笔记本上都能够直接应用,能够有效应用于机器人、自动驾驶等领域的环境智能感知中,具有良好的应用前景。
实现本发明目的的具体技术方案是:一种多尺度特征金字塔的含语义三维重建方法,其特点是该方法具体包括下述步骤:
步骤1:二维语义特征提取
1-1:对于输入的RGB图片序列,使用任一二维全景分割模型进行语义分割得到结
果图片序列Seg_Imgs。
1-2:依据每张结果图片序列Seg_Imgs中图片参数,对原图将所有连续的特征进行矩形裁分,从特征的(top,left)裁切到(bottom,right),并且长宽均零填充到max(|top-bottom|,|left-right|),最后将原特征移至填充图中心得到方形特征图块集Seg_Tiles。
步骤2:构建优化多尺度图像金字塔
2-1:对原图片序列进行多尺度裁分,设裁分比例为S,则如S=0.025表示将每张图均匀裁分为边长为原图边长的0.025倍的图块序列(边缘进行零填充),裁分比例从Smin=0.05到Smax=0.5间均匀构建7个比例,从而得到7层的多尺度图片金字塔,每一层含有不同比例均匀划分的图块。
2-2:遍历每层的图块,找到图块中心点所在Seg_Imgs中的特征,并且比对此特征划分的特征图块Seg_Tile尺度和当前层的尺度是否匹配,设当前层尺度为Si属于Smin到Smax间,上一层和下一层尺度为Si-1和Si+1,特征图块尺度为Sx,则当且仅当Si−1 ∗1.1 < Sx ≤Si+1 ∗1.1 或者Sx ≥ Smax时称之为匹配,此时用特征图块替换原金字塔中的均匀划分图块,对所有图块进行匹配和替换操作后则完成优化的多尺度图像金字塔Multiscale_Image_Pyramid构建。
步骤3:语言-图像编码神经辐射场训练和预测
3-1:对于重构得到的多尺度图像金字塔Multiscale_Image_Pyramid,将其投入CLIP或者OpenCLIP对比语言-图像预训练模型,编码图像到和文本一致的空间,得到多尺度特征编码金字塔Multiscale_Feature_Pyramid。
3-2:将多尺度特征编码金字塔Multiscale_Feature_Pyramid作为基准值(GT),利用NeRF三维重建模型,在其中增加训练一个语言-图像编码神经辐射场CLIP_Field。
3-3:训练完成后进行查询时,将查询文本投入同一对比语言-图像预训练模型得到文本编码,将编码向量和查询视图下的语言-图像编码神经辐射场CLIP_Field预测值按点做点积得到向量相似度,从而有最高相似度的一组点为场景中文本查询对应的物体的点。
本发明与现有技术相比具有以下有益的技术效果和显著的技术进步:
1)本发明对于分割的结果只利用图像连续语义信息而非分割标签信息,从而有效保证了结果的语义查询不会局限于分割标签。
2)本发明构建的优化多尺度图像金字塔,其中每层图块用匹配特征块部分重构,从而每层图块尺度并不完全一致但适应所在尺度,实现了不同大小场景物体的精准注意。
3)本发明利用常规三维重建模型,将对比语言-图像预训练模型编码得到的多尺度特征编码金字塔用于训练一个特征编码辐射场,从而最终能够在该辐射场上得到场景中和语义相似的像素点级别信息。
4)本发明解决了许多三维重建方法无法获取场景语义信息、获取语义信息单一且模糊、不能实时进行大规模语义交互和抽象语义理解的问题。
5)本发明效果良好、实现简单、模块清晰便于升级优化、可部署性强,在部分笔记本上都能够直接应用,能够有效应用于机器人、自动驾驶等领域的环境智能感知中。
附图说明
图1为本发明流程图;
图2为重构多尺度图像金字塔流程图;
图3为模型预测流程图。
实施方式
为了便于理解本发明,以下结合附图及实施例对本发明进行详细说明。
实施例
参阅图1,按下述步骤进行基于对比语言-图像预训练模型和多尺度特征金字塔的含语义三维重建的:
S100:对于输入的符合重建标准的RGB图片序列,投入到全景分割模型进行点标签预测,得到所有像素点所属特征标签信息。
S110:将输入图像进行多尺度的均匀裁分和边缘零填充,得到基础的多尺度图像金字塔。
S120:利用S100中的图像像素点标签信息,对相同标签的连续图像语义块进行裁分、零填充和中心对齐。
S130:结合步骤S110和步骤S120结果重构优化的多尺度图像金字塔,并投入对比语言-图像预训练模型得到多尺度特征编码金字塔。
参阅图2,构建优化的多尺度图像金字塔如下:
S200:遍历每层的图块,找到图块中心点所在Seg_Imgs中的特征,并且比对此特征划分的特征图块Seg_Tile尺度和当前层的尺度是否匹配,设当前层尺度为Si属于Smin到Smax间,上一层和下一层尺度为Si-1和Si+1,特征图块尺度为Sx,则当且仅当Si−1 ∗1.1 < Sx≤ Si+1∗1.1 或者Sx ≥ Smax时称之为匹配,此时用特征图块替换原金字塔中的均匀划分图块,否则不进行替换。
S210:对所有图块进行匹配和替换操作后则完成优化的多尺度图像金字塔Multiscale_Image_Pyramid构建。
S220:将多尺度图像金字塔投入CLIP或者OpenCLIP对比语言-图像预训练模型,编码图像到和文本一致的空间,得到多尺度特征编码金字塔,该金字塔作为语义内容的基准值用于步骤S140的三维重建训练。
参阅图3,本发明的模型预测,即图1中语义查询部分如下述步骤:
S300:将查询的文本投入同样的CLIP或者OpenCLIP对比语言-图像预训练模型,编码文本到和模型输出一致的向量空间。
S310:对于每个点,将文本编码向量和模型输出的图像编码向量做点积,得到每个点和查询文本的像素度。
S320:输出点对齐的相似度图作为模型预测查询结果,该图可在归一化后叠加颜色表实现可视化。
本发明的保护内容不局限于以上实施例,在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (4)

1.一种多尺度特征金字塔的含语义三维重建方法,其特征在于,该方法具体包括:
步骤1:二维语义特征提取
1-1:对输入的RGB图片序列使用二维全景分割模型进行语义分割,得到结果图片序列Seg_Imgs;
1-2:依据每张结果图片序列Seg_Imgs中图片参数,对原图将所有连续的特征进行矩形裁分,从特征的top,left裁切到bottom,right,并且长宽均零填充到max|top-
bottom|,|left-right|,将原特征移至填充图中心,得到方形特征图块集Seg_Tiles;
步骤2:构建优化多尺度图像金字塔
2-1:对原图片序列进行多尺度裁分,设裁分比例为S,将每张图的边长均匀裁分为原图边长S倍的图块序列,裁分比例从Smin=0.05到Smax=0.5间均匀构建7个比例,得到7层的多尺度图片金字塔,每一层含有不同比例均匀划分的图块;
2-2:遍历每层的图块,找到图块中心点所在Seg_Imgs中的特征,并且比对此特征划分的特征图块Seg_Tile尺度和当前层的尺度是否匹配,设当前层尺度为Si属于Smin到Smax间,上一层和下一层尺度为Si-1和Si+1,特征图块尺度为Sx,当Si−1 ∗1.1 < Sx≤ Si+1 ∗1.1 ,或Sx≥ Smax时称之为匹配,则用特征图块替换原金字塔中的划分图块,并对所有图块进行匹配和替换操作,完成优化的多尺度图像金字塔Multiscale Image Pyramid
构建;
步骤3:语言-图像编码神经辐射场训练和预测
3-1:将重构得到的多尺度图像金字塔Multiscale_Image_Pyramid投入CLIP或OpenCLIP对比语言-图像预训练模型,使编码图像和文本一致的空间,得到多尺度特征编码金字塔Multiscale_Feature_Pyramid;
3-2:将多尺度特征编码金字塔Multiscale_Feature_Pyramid作为基准值GT,利用NeRF三维重建模型,训练其中一个语言-图像编码神经辐射场CLIP_Field;
3-3:训练完成后即可进行查询,将查询文本投入同一对比语言-图像预训练模型中得到文本编码,将编码向量和查询视图下的语言-图像编码神经辐射场CLIP_Field预测值,按点做点积得到向量相似度,将向量相似度最高的一组点为场景中文本查询对应物体的点。
2.根据权利要求1所述的一种多尺度特征金字塔的含语义三维重建方法,其特征在于,所述步骤1-1:使用二维全景分割模型提取二维特征,并对特征块进行语义分割处理,得到图像连续语义信息。
3.根据权利要求1所述的多尺度特征金字塔的含语义三维重建方法,其特征在于,所述步骤2-2:构建优化多尺度图像金字塔,其中每层图块用匹配特征块部分重构,使每层图块尺度并不完全一致,但适应所在尺度,实现不同大小场景物体的精准注意。
4.根据权利要求1所述的多尺度特征金字塔的含语义三维重建方法,其特征在于,所述步骤步骤3-2:利用NeRF三维重建模型将对比语言-图像预训练模型编码,将得到的多尺度特征编码金字塔用于训练一个特征编码辐射场,得到该辐射场景中和语义相似的像素点级别信息。
CN202311448872.XA 2023-11-02 2023-11-02 一种多尺度特征金字塔的含语义三维重建方法 Active CN117274351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311448872.XA CN117274351B (zh) 2023-11-02 2023-11-02 一种多尺度特征金字塔的含语义三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311448872.XA CN117274351B (zh) 2023-11-02 2023-11-02 一种多尺度特征金字塔的含语义三维重建方法

Publications (2)

Publication Number Publication Date
CN117274351A true CN117274351A (zh) 2023-12-22
CN117274351B CN117274351B (zh) 2024-08-13

Family

ID=89208204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311448872.XA Active CN117274351B (zh) 2023-11-02 2023-11-02 一种多尺度特征金字塔的含语义三维重建方法

Country Status (1)

Country Link
CN (1) CN117274351B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
WO2019127102A1 (zh) * 2017-12-27 2019-07-04 深圳前海达闼云端智能科技有限公司 信息处理方法、装置、云处理设备以及计算机程序产品
CN113345082A (zh) * 2021-06-24 2021-09-03 云南大学 一种特征金字塔多视图三维重建方法和***
WO2022016311A1 (zh) * 2020-07-20 2022-01-27 深圳元戎启行科技有限公司 基于点云的三维重建方法、装置和计算机设备
CN114693930A (zh) * 2022-03-31 2022-07-01 福州大学 基于多尺度特征和上下文注意力的实例分割方法及***
CN115393410A (zh) * 2022-07-18 2022-11-25 华东师范大学 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN115775316A (zh) * 2022-11-23 2023-03-10 长春理工大学 基于多尺度注意力机制的图像语义分割方法
CN116310098A (zh) * 2023-03-01 2023-06-23 电子科技大学 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019127102A1 (zh) * 2017-12-27 2019-07-04 深圳前海达闼云端智能科技有限公司 信息处理方法、装置、云处理设备以及计算机程序产品
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
WO2022016311A1 (zh) * 2020-07-20 2022-01-27 深圳元戎启行科技有限公司 基于点云的三维重建方法、装置和计算机设备
CN113345082A (zh) * 2021-06-24 2021-09-03 云南大学 一种特征金字塔多视图三维重建方法和***
CN114693930A (zh) * 2022-03-31 2022-07-01 福州大学 基于多尺度特征和上下文注意力的实例分割方法及***
CN115393410A (zh) * 2022-07-18 2022-11-25 华东师范大学 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN115775316A (zh) * 2022-11-23 2023-03-10 长春理工大学 基于多尺度注意力机制的图像语义分割方法
CN116310098A (zh) * 2023-03-01 2023-06-23 电子科技大学 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
动态场景下基于实例分割和三维重建的 多物体单目 SLAM: "动态场景下基于实例分割和三维重建的 多物体单目 SLAM", 《仪 器 仪 表 学 报》, vol. 44, no. 8, 15 August 2023 (2023-08-15) *
程鸣洋;盖绍彦;达飞鹏;: "基于注意力机制的立体匹配网络研究", 光学学报, no. 14, 27 May 2020 (2020-05-27) *

Also Published As

Publication number Publication date
CN117274351B (zh) 2024-08-13

Similar Documents

Publication Publication Date Title
Li et al. Megadepth: Learning single-view depth prediction from internet photos
Kumar et al. Colorization transformer
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN111259936B (zh) 一种基于单一像素标注的图像语义分割方法及***
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及***
CN110796143A (zh) 一种基于人机协同的场景文本识别方法
CN114943876A (zh) 一种多级语义融合的云和云影检测方法、设备及存储介质
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
CN112070137B (zh) 训练数据集的生成方法、目标对象检测方法及相关设备
CN113449691A (zh) 一种基于非局部注意力机制的人形识别***及方法
CN112084859A (zh) 一种基于稠密边界块和注意力机制的建筑物分割方法
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN117274883A (zh) 基于多头注意力优化特征融合网络的目标跟踪方法与***
Pei MSFNet: Multi-scale features network for monocular depth estimation
CN117274351B (zh) 一种多尺度特征金字塔的含语义三维重建方法
CN109886996B (zh) 一种视觉追踪优化方法
CN114022371B (zh) 基于空间和通道注意力残差网络的去雾装置及其去雾方法
CN117994525A (zh) 基于混合增强和实例信息学习的点云半监督全景分割方法
CN115050010B (zh) 一种针对三维物体检测器的迁移学习方法
Lai et al. Immovable Cultural Relics Preservation Through 3D Reconstruction Using NeRF
He et al. Adaptive Voxelization Strategy for 3D Object Detection
CN118447069A (zh) 一种单目自监督深度估计方法及***
CN117557998A (zh) 一种遥感图像的变化检测标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant