CN116977596A

CN116977596A - 一种基于多视角图像的三维建模***及方法

Info

Publication number: CN116977596A
Application number: CN202310828788.4A
Authority: CN
Inventors: 甘智高; 岳克强; 李文钧
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-31

Abstract

本发明公开了一种基于多视角图像的三维建模***及方法，通过二维的多视角图像重建真实场景的三维模型；本发明包含图像特征点检测与匹配、运动恢复结构、多视图立体、表面重建与纹理贴图，通过图像特征点匹配将不同图像上特征点进行一一配对；然后通过匹配好的特征点计算出相机位姿和稀疏点云的三维坐标；进一步根据相机位姿获取更丰富的场景信息；再将得到的场景点云通过表面重建将其网格化；最后通过纹理映射调整网格颜色，使得三维模型效果更为逼真。本发明可以部署在无人机上，能够将无人机拍摄到的图像重建出其场景的三维模型。

Description

一种基于多视角图像的三维建模***及方法

技术领域

本发明涉及计算机视觉和三维重建技术领域，尤其是涉及一种基于多视角图像的三维建模***及方法。

背景技术

近年来随着科技沿着智能化的方向发展，在智慧城市、虚拟旅游、数字遗产保护、数字地图等应用的驱动下，三维视觉得到了广泛的关注。

基于图像的三维模型重建是指用相机等传感器拍摄真实世界的物体、场景，并通过计算机视觉技术进行处理，从而得到物体的三维模型，是计算机视觉和摄影测量中基础且活跃的研究课题。随着智能手机、数码相机、无人机等的普及和互联网的高速发展，通过搜索引擎也能获取大量关于某个室外场景的互联网图像；利用这些图像进行高效准确的三维重建，可以为用户提供真实感知和沉浸式体验，同时三维重建在无人机灾后救援当中也发挥着重要作用。

如今这些应用需求已经引发了业界的广泛关注，涌现了多种三维重建方法。主要是基于视觉几何和基于深度学习的方法。其中基于视觉几何的传统方法涉及的主要技术有多视图几何、深度图估计、点云处理、网格重建和优化、纹理贴图、马尔科夫随机场等。

虽然目前基于图像的三维重建技术取得了巨大的进步，但还是存在一些问题有待解决。针对纹理重复和弱纹理的场景，建模表现不够鲁棒；同时三维重建对图像的质量也有较高的要求，在图像倾角过大时特征点的检测和匹配就会出现问题，需要对图像进行一些预处理，短期内自动建模还无法完全取代人工建模。

发明内容

为解决现有技术的不足，实现降低了匹配失败的概率，增强***鲁棒性的目的，本发明采用如下的技术方案：

一种基于多视角图像的三维建模***，包括图像特征点检测与匹配模块、运动恢复结构模块、多视图立体模块和纹理贴图模块；

所述图像特征点检测与匹配模块，对图像进行正视角矩阵变换，检测不同视角下的图像中的相同特征点，通过匹配将其关联起来；针对图像大倾角时检测到的特征点很少的问题，在检测特征点之前对图像进行正视角矩阵变换的预处理，能够有效的增加特征点数目，得到更多高质量的特征点；

所述运动恢复结构模块，根据匹配的特征点，计算相机位姿参数，通过相机位姿参数，计算特征点映射的稀疏点云的三维坐标；

所述多视图立体模块，是将所述相机位姿和所述特征点，以特征点为中心，通过三角化计算出特征点周围像素块对应的三维坐标，结合稀疏点云的三维坐标，得到稠密点云三维坐标；

所述纹理贴图模块，用于渲染原图像的颜色。

进一步地，所述正视角矩阵变换公式如下：

其中，(u,v)是原始图像像素横、纵坐标，(u^′,v^′)是变换后的图像像素横、纵坐标，a表示旋转矩阵的一个元素，旋转矩阵表示相机位姿状态，通过图像中的对应特征点可以计算得到。

进一步地，所述图像特征点检测与匹配模块包括：特征点检测单元、特征点描述单元、特征点匹配单元和误匹配过滤单元；

所述特征点检测单元，利用特征检测子定位图像上的局部特征点；特征检测子的确定，首先计算图像的梯度，然后通过图像的梯度计算各个像素位置的Harris矩阵，再通过各个像素的Harris矩阵计算出每个像素的角点响应值，角点响应值高于响应阈值则取为特征点；

所述特征点描述单元，利用特征描述子编码特征点的邻域范围，为后续匹配做准备；特征描述子是像素块唯一的一组标识，是多维(128维)的0/1向量形式，特征描述子的确定，是在图像内采样一组面片，比较面片内像素的大小，大于像素阈值则置1，小于像素阈值则置0，将得到的多维(128维)的0/1向量作为描述子；

所述特征点匹配单元，利用最近邻搜索计算两幅图像中特征描述子之间的距离，以匹配特征点的对应关系；

所述误匹配过滤单元，由于特征点匹配过程中存在光照、尺度、旋转等因素干扰，为了提高匹配成功率，会设定一个误匹配机制，通过估计相机模型的方式去除误匹配特征点，根据特征描述子之间的最小距离，设置过滤阈值，当特征描述子之间的距离大于过滤阈值时，认为匹配有误。

进一步地，所述图像梯度为：

所述Harris矩阵为：

其中(x,y)表示像素的位置，I(x,y)表示(x,y)位置的像素值，表示(x,y)位置的像素值对横坐标做偏导计算，/>表示(x,y)位置的像素值对纵坐标做偏导计算，w(x,y)表示权重系数，默认为1。

所述特征点匹配单元中，特征点的匹配是通过汉明距离比较两幅图像中特征描述子之间的距离，最近邻距离和次近邻距离比小于预设的阈值，则匹配成功，其中汉明距离公式为：

其中，a和b是待匹配图片像素点的两个特征描述子序列，表示异或运算，n表示描述子的维数。

进一步地，所述运动恢复结构模块，利用相机模型和对极几何，计算相机的位姿，相机模型用针孔相机的透视矩阵表示：

其中，R和t是相机的外参，分别为旋转矩阵和平移向量；f_a、f_b、u₀、v₀是相机的内参，f_a、f_b表示图像物理坐标系与像素坐标系转换之间的横向和纵向转换因子，u₀、v₀表示图像的中心像素坐标和图像原点像素坐标之间相差的横向和纵向像素数；(u,v)是像平面的坐标，(x_wy_w z_w)是世界坐标系下的坐标，w表示世界坐标系的缩写；

对极约束表示为：

其中，x1，x2是两个像素点的归一化平面上的坐标，表示基础矩阵，K1、K2表示两帧图像的相机内参矩阵，E＝[t]_xR表示本质矩阵，[·]_x表示将向量转换为与之对应的反对称矩阵后再与其后矩阵相乘的数学表达；

若空间中特征点位于同一平面上，用直接线性变换法求解单应矩阵H，继而算出相机的位姿，其中

求解单应矩阵H的公式如下：

其中和/>表示一对匹配点的像素坐标，H_ij表示单应矩阵的一个元素，H有8个自由度，每对点有两个约束；

H₁₁u₁+H₁₂v₁+H₁₃-H₃₁u₁u₂-H₃₂v₁u₂-H₃₃u₂＝0

H₂₁u₁+H₂₂v₁+H₂₃-H₃₁u₁v₂-H₃₂v₁v₂-H₃₃v₂＝0

令H₃₃＝1，求解单应矩阵总共需要4对特征点；

其中，求单应矩阵需要4对匹配的特征点，和/>表示特征点的像素坐标，右上角小括号表示特征点对数的序号。

进一步地，所述多视图立体模块采用深度图融合法实现，包括：参照图像选取单元、深度图估计单元和深度图提炼单元；

所述参照图像选取单元，为每张图像寻找一组能够帮助其估计深度的参照图像，使得原始图中每一个像素点与参照图像都存在对应点；

所述深度图估计单元，利用参照图像中对应像素点的光度一致性，为原图像中像素点估计一个合适的深度；

所述深度图提炼单元，用于提炼过滤深度图，去除相邻深度图深度不一致的情况。

进一步地，所述三角化，是通过匹配特征点的像素坐标与相机光心连接的射线，以重投影误差最小来估计像素深度，其中深度优化是采用光度一致性假设和捆绑调整的策略，将相对的相机参数生成全局一致的相机参数和场景结构。

进一步地，所述装置还包括表面重建模块，将所述多视图立体模块得到的三维点云进行网格化，为后续渲染提供便利；在大规模的点云输入中挖掘局部几何信息和图形结构信息，采用差值和近似的方法，将三维点云转换为三维网格；

所述纹理贴图模块，在网格信息中加上图片中对应像素点的颜色信息，得到最终的彩色三维模型。

一种基于多视角图像的三维建模方法，包括如下步骤：

步骤S101：对图像进行正视角矩阵变换，检测不同视角下的图像中的相同特征点，通过匹配将其关联起来；针对图像大倾角时检测到的特征点很少的问题，在检测特征点之前对图像进行正视角矩阵变换的预处理，能够有效的增加特征点数目，得到更多高质量的特征点；

步骤S102：根据匹配的特征点，计算相机位姿参数，通过相机位姿参数，计算特征点映射的稀疏点云的三维坐标；

步骤S103：将所述相机位姿和所述特征点，以特征点为中心，通过三角化计算出特征点周围像素块对应的三维坐标，结合稀疏点云的三维坐标，得到稠密点云三维坐标；

步骤S104：通过纹理贴图，渲染原图像的颜色。

进一步地，所述步骤S104中，基于多视角的纹理图像的创建，包括如下步骤：

步骤S201：视角选择：基于图像的尺度、图像的细节丰富程度和图像的可视性，选择视角，以使每个顶点都有唯一的视角，用于获取纹理信息；

步骤S202：纹理坐标的计算：将网格投影到可视图像上，确定投影三角形之间点的对应关系后，再将纹理坐标归一化；

步骤S203：纹理图像的创建：将网格投影到对应的图像上，截取最小包围盒范围内的图像作为纹理图像；

步骤S204：颜色调整：由于不同视角间存在相机曝光或者光照差异导致不同的纹理网格处存在明显的缝隙，需要在每个像素添加一个颜色调整量，通过插值的方式得到，以使缝隙处的颜色差异最小。

步骤S205：图像编辑：对于缝隙比较严重的区域，全局颜色调整并不能保证完全去除缝隙，需要对前景图像和背景图像进行混合，以使融合后的图像满足边界上的像素值与背景图像相同，同时前景区域内的梯度与引导梯度场相同。

本发明的优势和有益效果在于：

1、在特征点检测与匹配之前对图像进行了正视角矩阵变换的预处理，与传统的算法相比，在图像倾斜角度过大时仍然能够提取到足够多的特征点，极大的降低了匹配失败的概率，增强了***的鲁棒性。

2、在运动结构恢复和多视图立体匹配时增加了深度图提炼单元，剔除了相邻深度图深度不一致的情况，降低了多视角深度图生成的稠密点云的冗余，提高了重建效率。

3、利用边界表述法将三维物体描述成一组表面，与传统的空间划分法相比，对模型进行几何运算和操作更为便捷，有助于恢复模型的表面细节，同时稳定性强。

附图说明

图1是本发明实施例中***结构示意图。

图2是本发明实施例中改进的特征点检测与匹配过程图。

图3是本发明实施例中图像特征点匹配效果图。

图4是本发明实施例中恢复三维点云坐标示意图。

图5是本发明实施例中纹理映射的流程图。

图6是本发明实施例中重建的室内场景效果图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

一种基于多视角图像的三维建模***，是通过输入图片，然后经过一系列的视觉几何的处理，输出图片中场景的三维模型。由于传统的三维重建算法对图像的要求比较高，图像倾角过大时检测出的特征点很少，很容易匹配失败，从而后续步骤无法进行，导致重建失败。为了提高三维重建的成功率，本发明在传统的算法上做了一系列的改进。首先增加对图像进行正视角矩阵变换的预处理，有效的增加了特征点的数目，提高了重建***的鲁棒性。同时在多视图立体匹配的过程中增加了深度图提炼步骤，降低了点云的冗余，加快了运算速度。

本发明所述***包含五个模块，如图1所示。分别为图像特征点检测与匹配模块、运动恢复结构模块、多视图立体模块、表面重建模块与纹理贴图模块。

图像的特征点检测与匹配模块，检测不同视角下的图像中的相同特征点，通过匹配将其关联起来；该模块是三维重建的基础模块，本发明采用的是人工设计检测算法，针对图像大倾角时检测到的特征点很少的问题，在SIFT(Scale-invariant featuretransform，尺度不变特征转换)算法的基础上改进的新算法，在检测特征点之前对图像进行正视角矩阵变换的预处理，能够有效的增加特征点数目，得到更多高质量的特征点，为后续运动结构恢复提供更为准确的数据支撑。其中预处理的变换公式如下：

其中，(u,v)是原始图像像素坐标，(u^′,v^′)是变换后的图像像素坐标。

图像特征点匹配模块包括：特征点检测单元、特征点描述单元、特征点匹配单元和误匹配过滤单元；执行过程如图2所示，特征匹配效果如图3所示。

所述特征点检测单元，是利用检测子定位图像上的局部特征点；特征点主要满足差异性和重复性两个要求；其中差异性体现在于可检测；重复性体现在于可匹配；

特征检测子的确定，首先计算图像的梯度，然后计算各个像素位置的Harris矩阵，再计算每个像素的角点响应值，响应值高于阈值则取为特征点。

其中图像梯度为：

Harris矩阵为：

所述特征点描述单元，利用描述子编码特征点的邻域范围，为后续匹配做准备；

特征描述子的确定，描述向量由128个0或者1组成，在图像内随机采样128对大小为5x5的面片，比较面片内像素和的大小。

首先计算图像尺度空间，然后是极值点检测与定位，边缘点去除，计算主方向，生成描述子。

所述特征点匹配单元，利用最近邻搜索计算两幅图像间的汉明距离，以最近邻距离和次近邻距离比小于预设的阈值作为匹配策略，从而判断特征点之间的对应关系；

特征匹配：通过汉明距离比较两幅图像中特征描述子之间的距离，最近邻距离和次近邻距离比小于一定值则匹配成功。其中汉明距离公式为：

所述误匹配过滤单元，是由于特征点匹配过程中存在光照、尺度、旋转等因素干扰，为了提高匹配成功率，会设定一个误匹配机制，通过估计相机模型的方式去除误匹配特征点。

误匹配过滤：若描述子之间的距离大于两倍的最小距离时，即认为匹配有误。

运动恢复结构模块又称为稀疏重建模块：是恢复拍摄图像的相机的运动结构，包括相机的位置和姿态。根据图像特征点匹配模块关联好的特征点，计算得到相机姿态参数，再通过相机位姿参数，进一步计算得到特征点映射的稀疏点云的三维坐标；包括场景图构建与优化单元、运动恢复结构单元；

场景图构建与优化单元，是为了提升重建的效率；

运动恢复结构单元，是根据匹配好的特征点计算相机位姿与稀疏点云坐标。

具体地，运动恢复结构模块可以直接从影像恢复相机的位置姿态和场景的结构信息。该模块需要用到匹配好的特征点，利用相机模型和对极几何可以计算出相机的位姿。相机模型是用针孔相机的透视矩阵表示：

其中R和t是相机的外参，分别为旋转矩阵和平移向量；f_a、f_b、u₀、v₀是相机的内参数；

(u,v)是像平面的坐标，(x_w y_w z_w)是世界坐标系下的坐标。

对极约束表示为：

其中F为基础矩阵，

其中E为本质矩阵，E＝[t]_xR；

若空间中特征点位于同一平面上，用直接线性变换法求解单应矩阵H，继而算出相机的位姿。其中

求解单应矩阵H的公式如下：

其中H有8个自由度，每对点有两个约束；

H₁₁u₁+H₁₂v₁+H₁₃-H₃₁u₁u₂-H₃₂v₁u₂-H₃₃u₂＝0

H₂₁u₁+H₂₂v₁+H₂₃-H₃₁u₁v₂-H₃₂v₁v₂-H₃₃v₂＝0

令H₃₃＝1,求解单应矩阵总共需要4对特征点；

多视图立体模块又称为稠密重建模块：是在运动结构恢复模块有了相机的位姿之后，在加上图像特征点匹配模块中得到的特征点，通过三角化计算出作为特征的像素点的深度，从而确定特征点在三维空间中的对应坐标。是已知相机参数和匹配点通过三角化恢复三维点的坐标，并后续进行捆绑调整。

根据运动恢复模块中得到的相机姿态参数，基于一些合理的假设(比如场景的刚性)，进而获得三维点云信息；该模块主要功能是利用求得的相机位姿信息将特征点的三维点云坐标求出来，并对其深度进行融合优化。

具体地，该模块采用深度图融合法实现；包括参照图像选取单元、深度图估计单元和深度图提炼单元；

参照图像选取单元，是给每张图像寻找一组能帮助其估计深度的参照图像，使得原始图中每一个像素点与参照图像都存在对应点；

深度图估计单元，是利用参照图像中对应像素点的光度一致性为原图像中像素点估计一个合适的深度；

深度图提炼单元，是去除相邻深度图深度不一致的情况，提炼过滤深度图。

本发明实施例中，求点云坐标用到的是三角化，通过匹配特征点的像素坐标与相机光心连接的射线，以重投影误差最小来估计像素深度，已知相机参数和匹配点恢复三维点的坐标示意图如图4所示。其中深度优化是采用光度一致性假设和捆绑调整的策略，将相对的相机参数生成全局一致的相机参数和场景结构。

表面重建模块：是将多视图立体模块中得到的三维点云进行网格化(转换为网格信息)，为后续渲染提供便利；

该模块在大规模的点云输入中挖掘局部几何信息和图形结构信息；采用差值和近似的方法(本实施例中采用德劳内三角剖分的方案)，将三维点云转换为三维网格；根据应用需求该模块也可以省略。

纹理贴图模块：是在网格上渲染原图像的颜色，将表面重建模块得到的三维网格模型加上颜色信息，渲染得到高分辨率的彩色模型，即在表面重建模块得到的网格信息中加上图片中对应像素点的颜色信息，得到最终的彩色三维模型；纹理贴图是提升三维模型真实感的方法，旨在提高纹理质量，建立高保真、可读性强的实景三维模型。主要算法有最近邻点采样、双线性滤波等方法，通过视角选择和纹理坐标的计算来对网格模型进行全局的颜色编辑。

基于多视角的纹理图像创建流程有以下5个步骤，如图5所示。

步骤1.视角选择：视角的选择主要考虑三点；一是图像的尺度，二是图像的细节丰富程度，三是图像的可视性。每个顶点都需要有唯一的视角，用于获取纹理信息。

步骤2.纹理坐标的计算：首先把网格投影到可视图像上，确定投影三角形之间点的对应关系后，再将纹理坐标归一化。

步骤3.纹理图像的创建：将网格投影到对应的图像上，截取最小包围盒范围内的图像作为纹理图像。

步骤4.颜色调整：由于不同视角间存在相机曝光或者光照差异导致不同的纹理网格处存在明显的缝隙，需要在每个像素添加一个颜色调整量，通过插值的方式得到每个像素的调整量，使得缝隙处的颜色差异尽量小。

步骤5.图像编辑：对于缝隙比较严重的区域，全局颜色调整并不能保证完全去除缝隙，需要对前景图像和背景图像进行混合，使得融合后的图像满足边界上的像素值与背景图像相同，同时前景区域内的梯度与引导梯度场相同。

至此，整个基于多视角图像的三维建模框架结束。

如图6所示，本发明能够基于图像中的信息，重建出场景的三维模型。与传统的基于图像的三维重建算法相比，本发明增加了深度图提炼单元，降低了稠密点云的冗余，提高了重建效率。同时在图像倾斜角度过大时对图像进行了正视角矩阵变换的预处理，仍然能够提取到足够多的特征点，降低了匹配失败的概率，增强了***的鲁棒性。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于多视角图像的三维建模***，包括图像特征点检测与匹配模块、运动恢复结构模块、多视图立体模块和纹理贴图模块，其特征在于：

所述图像特征点检测与匹配模块，对图像进行正视角矩阵变换，检测不同视角下的图像中的相同特征点，通过匹配将其关联起来；

所述纹理贴图模块，用于渲染原图像的颜色。

2.根据权利要求1所述的一种基于多视角图像的三维建模***，其特征在于：所述正视角矩阵变换公式如下：

其中，(u,v)是原始图像像素横、纵坐标，(u′,v′)是变换后的图像像素横、纵坐标，a表示旋转矩阵的一个元素，旋转矩阵表示相机位姿状态，通过图像中的对应特征点可以计算得到。

3.根据权利要求1所述的一种基于多视角图像的三维建模***，其特征在于：所述图像特征点检测与匹配模块包括：特征点检测单元、特征点描述单元、特征点匹配单元和误匹配过滤单元；

所述特征点描述单元，利用特征描述子编码特征点的邻域范围；特征描述子是像素块唯一的一组标识，是多维的0/1向量形式，特征描述子的确定，是在图像内采样一组面片，比较面片内像素的大小，大于像素阈值则置1，小于像素阈值则置0，将得到的多维的0/1向量作为描述子；

所述误匹配过滤单元，根据特征描述子之间的最小距离，设置过滤阈值，当特征描述子之间的距离大于过滤阈值时，认为匹配有误。

4.根据权利要求3所述的一种基于多视角图像的三维建模***，其特征在于：

所述图像梯度为：

所述Harris矩阵为：

其中(x,y)表示像素的位置，I(x,y)表示(x,y)位置的像素值，表示(x,y)位置的像素值对横坐标做偏导计算，/>表示(x,y)位置的像素值对纵坐标做偏导计算，w(x,y)表示权重系数；

其中，a和b是待匹配图片像素点的两个特征描述子序列，⊕表示异或运算，n表示描述子的维数。

5.根据权利要求1所述的一种基于多视角图像的三维建模***，其特征在于：所述运动恢复结构模块，利用相机模型和对极几何，计算相机的位姿，相机模型用针孔相机的透视矩阵表示：

对极约束表示为：

求解单应矩阵H的公式如下：

其中和/>表示一对匹配点的像素坐标，Hij表示单应矩阵的一个元素，H有8个自由度，每对点有两个约束；

H₁₁u₁+H₁₂v₁+H₁₃-H₃₁u₁u₂-H₃₂v₁u₂-H₃₃u₂＝0

H₂₁u₁+H₂₂v₁+H₂₃-H₃₁u₁v₂-H₃₂v₁v₂-H₃₃v₂＝0

令H₃₃＝1，求解单应矩阵总共需要4对特征点；

6.根据权利要求1所述的一种基于多视角图像的三维建模***，其特征在于：所述多视图立体模块采用深度图融合法实现，包括：参照图像选取单元、深度图估计单元和深度图提炼单元；

所述深度图估计单元，利用参照图像中对应像素点的光度一致性，为原图像中像素点估计一个深度；

7.根据权利要求1所述的一种基于多视角图像的三维建模***，其特征在于：所述三角化，是通过匹配特征点的像素坐标与相机光心连接的射线，以重投影误差最小来估计像素深度，其中深度优化是采用光度一致性假设和捆绑调整的策略，将相对的相机参数生成全局一致的相机参数和场景结构。

8.根据权利要求1所述的一种基于多视角图像的三维建模***，其特征在于：所述装置还包括表面重建模块，将所述多视图立体模块得到的三维点云进行网格化；

9.一种基于多视角图像的三维建模方法，其特征在于包括如下步骤：

步骤S101：对图像进行正视角矩阵变换，检测不同视角下的图像中的相同特征点，通过匹配将其关联起来；

步骤S104：通过纹理贴图，渲染原图像的颜色。

10.根据权利要求9所述的一种基于多视角图像的三维建模方法，其特征在于：所述步骤S104中，基于多视角的纹理图像的创建，包括如下步骤：

步骤S204：颜色调整：在每个像素添加一个颜色调整量，通过插值的方式得到，以使缝隙处的颜色差异最小；

步骤S205：图像编辑：对前景图像和背景图像进行混合，以使融合后的图像满足边界上的像素值与背景图像相同，同时前景区域内的梯度与引导梯度场相同。