CN117274351A

CN117274351A - 一种多尺度特征金字塔的含语义三维重建方法

Info

Publication number: CN117274351A
Application number: CN202311448872.XA
Authority: CN
Inventors: 谭鑫; 纪宇舟; 谢源
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2023-12-22
Anticipated expiration: 2043-11-02
Also published as: CN117274351B

Abstract

本发明公开了一种多尺度特征金字塔的含语义三维重建方法，其特点是该方法包括：1）使用二维全景分割模型提取连续的二维语义特征，并对不同特征进行矩形裁分和零填充得到特征图块；2）构建基于原图均匀划分的基础多尺度图像金字塔，并进行近邻尺度的金字塔重构；3）在三维重建神经辐射场上训练语言‑图像编码神经辐射场，在训练完成的三维编码辐射场上进行广泛语义查询。本发明与现有技术相比具有解决了许多含语义三维重建方法只能基于少数固定标签词、无法理解抽象语义和难以实时交互的问题，提供了更加有效、可行的三维重建结果广泛语义交互实现方法，进一步赋能智能家用、工业机器人和自动驾驶场景的环境感知与交互。

Description

一种多尺度特征金字塔的含语义三维重建方法

技术领域

本发明涉及三维重建和跨模态技术领域，尤其是一种基于对比语言-图像预训练模型和多尺度特征金字塔的含语义三维重建方法。

背景技术

基于神经辐射场的三维重建指的是基于一系列RGB图片重建涉及到的完整三维场景内容，结合不同的后处理过程还能够直接导出表面网格或者模型等，不需要专业的采样工具就能得到场景的三维表示数据，能够在影视工业、数字孪生等领域实现快速简便的建模。一些其他类型的三维重建也广泛应用于机器人环境感知及自动路径规划中。

模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。跨模态指的是将不同模态的内容映射到统一模态、利用其他模态的数据来丰富当前模态等技术，是重要的交互以及知识迁移技术。文本-图像生成、图像理解及语义查询等应用中都广泛应用了跨模态技术。由于三维重建可观的应用前景，相关技术在近年来快速发展，在重建精度和重建速度上都有个非常巨大的效果提升。

现有技术的重建方法，其结果都不包含语义信息，因此无法直接应用于交互过程。同时存在的少部分带有语义的信息的重建技术，为了追求分割效果，几乎都局限于固定的分割标签，无法进行广泛的语义查询和抽象语义理解。这导致重建结果还很难应用于机器人或自动驾驶等领域的智能环境语义感知。

发明内容

本发明的目的是针对现有技术的不足而提供的一种多尺度特征金字塔的含语义三维重建方法，采用对比语言-图像预训练模型来进行跨模态知识迁移，使用多尺度特征金字塔,实现场景中不同大小物体的准确注意力机制，在原三维重建方法基础上几乎没有增加明显开销的情况下，可以直接实现对于广泛场景的大规模语义理解，并且可以基于自定义词进行实时查询交互，方法简便，使用效果好，模块清晰便于升级优化、可部署性强，在部分笔记本上都能够直接应用，能够有效应用于机器人、自动驾驶等领域的环境智能感知中，具有良好的应用前景。

实现本发明目的的具体技术方案是：一种多尺度特征金字塔的含语义三维重建方法，其特点是该方法具体包括下述步骤：

步骤1：二维语义特征提取

1-1：对于输入的RGB图片序列，使用任一二维全景分割模型进行语义分割得到结

果图片序列Seg_Imgs。

1-2：依据每张结果图片序列Seg_Imgs中图片参数，对原图将所有连续的特征进行矩形裁分，从特征的(top,left)裁切到(bottom,right)，并且长宽均零填充到max（|top-bottom|，|left-right|），最后将原特征移至填充图中心得到方形特征图块集Seg_Tiles。

步骤2：构建优化多尺度图像金字塔

2-1：对原图片序列进行多尺度裁分，设裁分比例为S，则如S=0.025表示将每张图均匀裁分为边长为原图边长的0.025倍的图块序列（边缘进行零填充），裁分比例从S_min=0.05到S_max=0.5间均匀构建7个比例，从而得到7层的多尺度图片金字塔，每一层含有不同比例均匀划分的图块。

2-2：遍历每层的图块，找到图块中心点所在Seg_Imgs中的特征，并且比对此特征划分的特征图块Seg_Tile尺度和当前层的尺度是否匹配，设当前层尺度为S_i属于S_min到S_max间，上一层和下一层尺度为S_i-1和S_i+1，特征图块尺度为S_x，则当且仅当S_i−1∗1.1 < S_x ≤S_i+1 ∗1.1 或者S_x ≥ S_max时称之为匹配，此时用特征图块替换原金字塔中的均匀划分图块，对所有图块进行匹配和替换操作后则完成优化的多尺度图像金字塔Multiscale_Image_Pyramid构建。

步骤3：语言-图像编码神经辐射场训练和预测

3-1：对于重构得到的多尺度图像金字塔Multiscale_Image_Pyramid，将其投入CLIP或者OpenCLIP对比语言-图像预训练模型，编码图像到和文本一致的空间，得到多尺度特征编码金字塔Multiscale_Feature_Pyramid。

3-2：将多尺度特征编码金字塔Multiscale_Feature_Pyramid作为基准值（GT），利用NeRF三维重建模型，在其中增加训练一个语言-图像编码神经辐射场CLIP_Field。

3-3：训练完成后进行查询时，将查询文本投入同一对比语言-图像预训练模型得到文本编码，将编码向量和查询视图下的语言-图像编码神经辐射场CLIP_Field预测值按点做点积得到向量相似度，从而有最高相似度的一组点为场景中文本查询对应的物体的点。

本发明与现有技术相比具有以下有益的技术效果和显著的技术进步：

1）本发明对于分割的结果只利用图像连续语义信息而非分割标签信息，从而有效保证了结果的语义查询不会局限于分割标签。

2）本发明构建的优化多尺度图像金字塔，其中每层图块用匹配特征块部分重构，从而每层图块尺度并不完全一致但适应所在尺度，实现了不同大小场景物体的精准注意。

3）本发明利用常规三维重建模型，将对比语言-图像预训练模型编码得到的多尺度特征编码金字塔用于训练一个特征编码辐射场，从而最终能够在该辐射场上得到场景中和语义相似的像素点级别信息。

4）本发明解决了许多三维重建方法无法获取场景语义信息、获取语义信息单一且模糊、不能实时进行大规模语义交互和抽象语义理解的问题。

5）本发明效果良好、实现简单、模块清晰便于升级优化、可部署性强，在部分笔记本上都能够直接应用，能够有效应用于机器人、自动驾驶等领域的环境智能感知中。

附图说明

图1为本发明流程图；

图2为重构多尺度图像金字塔流程图；

图3为模型预测流程图。

实施方式

为了便于理解本发明，以下结合附图及实施例对本发明进行详细说明。

实施例

参阅图1，按下述步骤进行基于对比语言-图像预训练模型和多尺度特征金字塔的含语义三维重建的：

S100：对于输入的符合重建标准的RGB图片序列，投入到全景分割模型进行点标签预测，得到所有像素点所属特征标签信息。

S110：将输入图像进行多尺度的均匀裁分和边缘零填充，得到基础的多尺度图像金字塔。

S120：利用S100中的图像像素点标签信息，对相同标签的连续图像语义块进行裁分、零填充和中心对齐。

S130：结合步骤S110和步骤S120结果重构优化的多尺度图像金字塔，并投入对比语言-图像预训练模型得到多尺度特征编码金字塔。

参阅图2，构建优化的多尺度图像金字塔如下：

S200：遍历每层的图块，找到图块中心点所在Seg_Imgs中的特征，并且比对此特征划分的特征图块Seg_Tile尺度和当前层的尺度是否匹配，设当前层尺度为S_i属于S_min到S_max间，上一层和下一层尺度为S_i-1和S_i+1，特征图块尺度为S_x，则当且仅当S_i−1 ∗1.1 < S_x≤ S_i+1∗1.1 或者S_x ≥ S_max时称之为匹配，此时用特征图块替换原金字塔中的均匀划分图块，否则不进行替换。

S210：对所有图块进行匹配和替换操作后则完成优化的多尺度图像金字塔Multiscale_Image_Pyramid构建。

S220：将多尺度图像金字塔投入CLIP或者OpenCLIP对比语言-图像预训练模型，编码图像到和文本一致的空间，得到多尺度特征编码金字塔，该金字塔作为语义内容的基准值用于步骤S140的三维重建训练。

参阅图3，本发明的模型预测，即图1中语义查询部分如下述步骤：

S300：将查询的文本投入同样的CLIP或者OpenCLIP对比语言-图像预训练模型，编码文本到和模型输出一致的向量空间。

S310：对于每个点，将文本编码向量和模型输出的图像编码向量做点积，得到每个点和查询文本的像素度。

S320：输出点对齐的相似度图作为模型预测查询结果，该图可在归一化后叠加颜色表实现可视化。

本发明的保护内容不局限于以上实施例，在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种多尺度特征金字塔的含语义三维重建方法，其特征在于，该方法具体包括：

步骤1：二维语义特征提取

1-1：对输入的RGB图片序列使用二维全景分割模型进行语义分割，得到结果图片序列Seg_Imgs；

1-2：依据每张结果图片序列Seg_Imgs中图片参数，对原图将所有连续的特征进行矩形裁分，从特征的top,left裁切到bottom,right，并且长宽均零填充到max|top-

bottom|，|left-right|，将原特征移至填充图中心，得到方形特征图块集Seg_Tiles；

步骤2：构建优化多尺度图像金字塔

2-1：对原图片序列进行多尺度裁分，设裁分比例为S，将每张图的边长均匀裁分为原图边长S倍的图块序列，裁分比例从S_min=0.05到S_max=0.5间均匀构建7个比例，得到7层的多尺度图片金字塔，每一层含有不同比例均匀划分的图块；

2-2：遍历每层的图块，找到图块中心点所在Seg_Imgs中的特征，并且比对此特征划分的特征图块Seg_Tile尺度和当前层的尺度是否匹配，设当前层尺度为S_i属于S_min到S_max间，上一层和下一层尺度为S_i-1和S_i+1，特征图块尺度为S_x，当S_i−1 ∗1.1 < S_x≤ S_i+1 ∗1.1 ,或S_x≥ S_max时称之为匹配，则用特征图块替换原金字塔中的划分图块，并对所有图块进行匹配和替换操作，完成优化的多尺度图像金字塔Multiscale Image Pyramid

构建；

步骤3：语言-图像编码神经辐射场训练和预测

3-1：将重构得到的多尺度图像金字塔Multiscale_Image_Pyramid投入CLIP或OpenCLIP对比语言-图像预训练模型，使编码图像和文本一致的空间，得到多尺度特征编码金字塔Multiscale_Feature_Pyramid；

3-2：将多尺度特征编码金字塔Multiscale_Feature_Pyramid作为基准值GT，利用NeRF三维重建模型，训练其中一个语言-图像编码神经辐射场CLIP_Field；

3-3：训练完成后即可进行查询，将查询文本投入同一对比语言-图像预训练模型中得到文本编码，将编码向量和查询视图下的语言-图像编码神经辐射场CLIP_Field预测值，按点做点积得到向量相似度，将向量相似度最高的一组点为场景中文本查询对应物体的点。

2.根据权利要求1所述的一种多尺度特征金字塔的含语义三维重建方法，其特征在于，所述步骤1-1:使用二维全景分割模型提取二维特征，并对特征块进行语义分割处理，得到图像连续语义信息。

3.根据权利要求1所述的多尺度特征金字塔的含语义三维重建方法，其特征在于，所述步骤2-2：构建优化多尺度图像金字塔，其中每层图块用匹配特征块部分重构，使每层图块尺度并不完全一致，但适应所在尺度，实现不同大小场景物体的精准注意。

4.根据权利要求1所述的多尺度特征金字塔的含语义三维重建方法，其特征在于，所述步骤步骤3-2：利用NeRF三维重建模型将对比语言-图像预训练模型编码，将得到的多尺度特征编码金字塔用于训练一个特征编码辐射场，得到该辐射场景中和语义相似的像素点级别信息。