CN115375844A

CN115375844A - 一种融合注意力机制的单目三维重建方法

Info

Publication number: CN115375844A
Application number: CN202211004639.8A
Authority: CN
Inventors: 沙晓鹏; 肖乐; 司晓鹏; 曹加奇; 齐宁; 李文超
Original assignee: Northeastern University Qinhuangdao Branch
Current assignee: Northeastern University Qinhuangdao Branch
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-22

Abstract

本发明提供一种融合注意力机制的单目三维重建方法，涉及三维重建技术领域。本方法对输入单目图像进行透视变换，得到图片对，对其进行特征检测，得到相应的特征点，并投影回原始图像上，再将图片对输入一个单一且共享的编码器中，将原始图像映射到一个具有更小空间维度和更大通道深度的中间向量中，接着将中间向量分别输入一个特征点解码器和一个描述子解码器中，获得图像的特征点集合与对应描述子，通过MLP网络对处理后图像的特征点和描述子编码进同一个特征，通过融合注意力机制的图神经网络得到用于特征匹配的代价矩阵，利用SinkHorn算法求解，剔除误匹配点，最后得到三维重建模型。

Description

一种融合注意力机制的单目三维重建方法

技术领域

本发明涉及三维重建技术领域，尤其涉及一种融合注意力机制的单目三维重建方法。

背景技术

三维重建是计算机视觉领域的一个重要研究方向，在医学CT影像、古建筑物保护、机器人、自动驾驶等领域应用广泛。基于深度学习的三维重建技术，主要以卷积神经网络(CNN)为学习模型，通过大量数据学习图像中物体的三维信息，实现二维图像物体到三维物体模型端到端的转换。与深度学习的方法相比，利用传统技术从图像中提取信息再预测模型是一项具有挑战性的任务。一方面，单视图只能表达出有限的信息；另一方面，人工设计的特征算子并不能达到较好的泛化效果。除此以外，单视图中的遮挡现象也加大了三维重建的难度。深度学习技术的快速发展给单视图模型的重建问题提供了良好的研究基础，相比传统的三维重建方法具有很大的优势。深度学习可以利用先验经验来大致估计物体的深度，其原理类似于人类凭借经验大致估计物体的距离，具有一定的合理性。因此，将深度学习引入三维重建中，依靠其自动学习特征的能力，用神经网络代替传统的特征检测匹配与重建等流程，可以取得很好的效果，也成为目前的主流思路。近年来已涌现出一大批优秀的基于深度学习的三维重建算法。

虽然近些年来，人们已经陆续开始研究以深度学习为基础的三维重建方法，但仍然存在一些基本的问题，首先在精度方面，目前的技术虽然已经能够恢复粗略的三维物体模型，但其精度仍然不够高，在物体信息更加丰富的表面，三维重建的精度仍然面临重大的挑战。

其次，在复杂场景中，如何不受外界干扰因素的影响来获得更加准确的物体信息，从而重建出更好的三维模型也是一个亟待解决的问题，尤其是在面对有遮挡、无纹理或者低纹理物体的情况下，该如何面对该挑战，从而获得更加精细的三维重建模型。目前，基于深度学习的算法更多的是依赖于传统算法，对传统算法中的其中一部分进行改善，泛用性较差，重建效果普遍也不够理想。

发明内容

针对现有技术的不足，本发明提供一种融合注意力机制的单目三维重建方法。

一种融合注意力机制的单目三维重建方法，包括以下步骤：

步骤1：建立虚拟数据集和真实数据集；虚拟数据集中包含模拟图像，真实数据集包含相机拍摄所得的真实单目图像；

所述模拟图像为，由计算机随机生成带有边缘特征和角特征的模拟图像，包括棋盘格、立方体、椭圆、不相交的线、相交的线、单个多边形、若干多边形、条纹以及高斯噪声共9类图像，以图像自带特征点的坐标作为伪标签，图像尺寸为H×W，H代表图像的高度，W代表图像的宽度；

步骤2：基于有监督学习的训练方法，用模拟图像和伪标签训练能检测出边缘和角点的特征检测器；

所述特征检测器为，用VGG类模型对尺寸为H×W的模拟图像进行编码，缩小图片尺寸并增加通道数，得到尺寸为H/8×W/8×64的特征图，在通道维度进行softmax计算图像内各点为特征点的概率，添加一条回收通道用于存放无特征点的情况，采用softmax激活函数，去除非特征点的回收通道，将特征图尺寸还原为H×W，用非极大值抑制NMS对计算结果进行处理得到输入虚拟图像的稀疏特征点，选择概率大于设定值的点作为特征点，将处理后的特征图尺寸恢复为H×W，得到特征检测器。

步骤3：对真实单目图像进行N次透视变换，形成变形图片，将变换后得到的变形图像分别输入特征检测器中，得到N个特征点检测结果图，得到相应的特征点，将特征点投影回真实单目图像上，叠加后作为真实单目图像的稀疏特征点，得到已知位姿关系的图片对；

步骤4：将真实单目图像作为输入，分别采用步骤2中的特征检测器对图片对进行编码操作，在编码处的特征通道大小是64、64、128、128，接着通过relu激活函数和3个最大池化层将图像尺寸转化为H_c×W_c×128，其中H_c为处理后图像的高度，在数值上表示为H/8，W_c为处理后图像的高度，在数值上表示为W/8，将进行编码操作后的输出张量分别输入特征解码器与描述子解码器；

所述特征点检测器的检测流程为步骤3，检测所得的稀疏特征点集合定义为p，特征点检测器的损失函数L选用交叉熵损失，定义为：

式中，x_hw和y_hw的下标hw为像素点的坐标，x_hw为特征点的真值，y_hw为像素点是否为特征点的概率值；

所述描述子检测器，先通过一层卷积将输入维度处理为H_c×W_c×256，采用UCN网络得到半稠密的描述子，利用双三次多项式插值法得到其余描述子，结合后通过L2正则化归一化描述子得到统一的特征向量描述子d；

描述子检测器的损失函数

选用合页损失，定义为：

其中，

l_d(d,d′；s)＝λ_d*s*max(0,m_p-d^Td′)+(1-s)*max(0,d^Td′-m_n)

其中，d_hw为第一张图像

在坐标(h,w)处的描述子，d′_h′w′为第二张图像

在坐标(h′,w′)处的描述子，S为正确匹配对的集合，λ_d为定义的权重，d^Td′为相似度，s可取值0或1，s取0代表非匹配点，s取1代表匹配点，m_p为铰链损失的正边界，m_n为铰链损失的负边界，s_hwh′w′为指示函数，表示所有正确匹配的集合：

其中p_hw为图

中心像素的位置，

表示去除单应性矩阵

影响后中心像素的位置，p_h′w′为图

中心像素的位置，

和p_h′w′距离小于8个像素点则视为匹配成功；

步骤5：将真实数据集中所有真实单目图像进行如步骤4所述的处理，得到一个新的含有特征点与描述子信息的图像集。

步骤6：取图像集中相邻两幅图像，定义为图像A与图像B，输入特征匹配网络；

所述特征匹配网络中，图像A含有N个特征点，表示为一个N长度序列；图像B含有M个特征点，表示为一个M长度序列；将每张图像的特征点集合p和描述子d结合为特征向量(p,d)作为本地特征，每个特征点包含坐标x,y和可信度c，p_i＝(x,y,c)_i为第i个特征点的位置坐标和置信度，d_i∈R^d代表第i个特征点的描述子；将图A和图B输入网络，利用多层感知机MLP_enc对其特征点和描述子进行编码：

⁽⁰⁾x_i＝d_i+MLP_enc(p_i)

其中，将特征点的位置信息和描述子融为一个高维向量特征⁽⁰⁾x_i；

步骤7：将特征⁽⁰⁾x_i输入融合注意力机制的图神经网络；

所述融合注意力机制的图神经网络使用了两种无向图：(1)连接特征点i和同一张图内其他特征点的无向图δ_self，将图A中的特征点i与该图中其余各个特征点一一比对寻找关联性；(2)连接特征点i和另一张图内其他特征点的无向图δ_cross，将图A中的特征点i与图B中各个特征点一一比对寻找关联性；在两个无向图上均进行一次运算视作一次迭代，每轮迭代的结果与本轮初始特征的合成方式为直接相加；

图δ为δ_self和δ_cross的集合，其中所有特征点j:(i,j)∈δ通过图神经网络注意力聚合后得到聚合信息m_δ→i，表示为:

其中，v_j为特征点i对应的键值，α_ij为注意力权重；

得到信息m_δ→i后，进一步对特征进行更新：

其中

为第l层图像A上特征点i对应的特征，

为第l+1层图像A上特征点i对应的特征，当l为奇数时计算δ_self的信息，l为偶数时计算δ_cross的信息，反复迭代模拟用户进行匹配时反复浏览的过程；

步骤8：重复步骤7，直到特征收敛，对迭代后所有特征点的特征通过MLP网络构建出最终匹配所使用的代价矩阵，表示将特征点两两匹配所需付出的代价，特征点间的相似度越低，代价越高；

迭代完成后得到融合了位置信息以及周围其他特征点信息的描述子向量

经过一层MLP运算得到匹配描述子f_i ^A以及f_i ^B，f_i ^A与f_i ^B公式表示为：

其中，b为偏置量，从而构建最终匹配所用的代价矩阵

其中<·,·>为点乘操作。

步骤9：采用SinkHorn算法，以最小的全局代价对图像A与图像B中的特征点进行特征匹配，添加熵正则化约束以近似求解，并为代价矩阵增加额外的一行一列作为垃圾桶区域，其内代价为固定值，用于存放无有效匹配的特征点与错误的匹配；若代价矩阵内某点和额外添加层匹配，则认为该点是没有匹配成功的。根据所得到的代价矩阵，计算各特征点处是否存在匹配关系。用SinkHorn算法对其求解，得到特征匹配结果。

所述特征匹配时损失函数表示为：

其中，

为匹配点的真值，I∈A和J∈B为图像A和B中没有匹配上的特征点，

为图像有效区域的分配矩阵，

为第N+1行垃圾桶区域的分配矩阵，

为第M+1列垃圾桶区域的分配矩阵；

步骤10：步骤9计算完成后，舍弃垃圾桶区域，得到图像A与图像B之间的最终特征匹配结果；

步骤11：重复步骤6～步骤10，得到图像集中所有图像间的特征匹配结果；

步骤12：将得到的特征点、特征矩阵和特征匹配结果输入colmap中进行稀疏重建，获得相机参数、三维点云、图像间匹配对信息；

步骤13将相机参数、三维点云、图像间匹配对信息输入三维重建网络MVSNet，进行稠密重建，得到三维重建结果。

采用上述技术方案所产生的有益效果在于：

本发明提供一种融合注意力机制的单目三维重建方法，本发明采用融合注意力机制的图神经网络，模拟人类进行匹配时来回浏览的过程，进行特征匹配，充分利用了图像內部特征点的关系进行图像间匹配，最终所得的误匹配更少，匹配精度更高，有效提升三维重建精度。

附图说明

图1为本发明实例中融合注意力机制的单目三维重建流程图。

图2为本发明实例中特征点与描述子检测网络的结构示意图。

图3为本发明实例中特征匹配网络的结构示意图。

图4为本发明实例中原始单目图像与重建完成后的三维模型效果图。

图5为本发明一种融合注意力机制的单目三维重建装置的结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

目前的三维重建在复杂场景中受外界因素干扰较大，尤其是在面对有遮挡、无纹理或者低纹理物体的情况下，并且大多数方法在特征点检测与匹配方面处理较为粗糙，不能充分利用图像内的各项信息，使得三维重建模型的精度降低。基于此，如图1所示，一种融合注意力机制的单目三维重建方法，包括以下步骤：

步骤1：建立虚拟数据集和真实数据集；虚拟数据集中包含模拟图像，真实数据集包含相机拍摄所得的真实单目图像；如图2所示；

所述模拟图像为，由计算机随机生成带有边缘特征和角特征的模拟图像，包括棋盘格、立方体、椭圆、不相交的线、相交的线、单个多边形、若干多边形、条纹以及高斯噪声共9类图像，模拟图像是计算机生成的，因此以图像自带特征点的坐标作为伪标签，图像尺寸为H×W，H代表图像的高度，W代表图像的宽度；

所述特征检测器为，用VGG类模型对尺寸为H×W的模拟图像进行编码，缩小图片尺寸并增加通道数，得到尺寸为H/8×W/8×64的特征图，在通道维度进行softmax计算图像内各点为特征点的概率，为了避免无特征点会产生噪声造成异常随机的影响，添加一条回收通道用于存放无特征点的情况，采用softmax激活函数，去除非特征点的回收通道，将特征图尺寸还原为H×W，用非极大值抑制NMS对计算结果进行处理得到输入虚拟图像的稀疏特征点，防止出现特征点过于集中影响后续判断的现象，随后选择概率大于设定值的点作为特征点，将处理后的特征图尺寸恢复为H×W，得到特征检测器。

步骤3：对真实单目图像进行N次透视变换，形成变形图片，将变换后得到的变形图像分别输入特征检测器中，得到N个特征点检测结果图，得到相应的特征点，将特征点投影回真实单目图像上，叠加后作为真实单目图像的稀疏特征点，使得检测到的特征点更丰富，由此得到已知位姿关系的图片对，且具备一定的单应不变性。从而使得该检测器可以在真实图像上获得很好的检测结果。

所述描述子检测器，先通过一层卷积将输入维度处理为H_c×W_c×256，采用UCN网络得到半稠密的描述子，减少算法的内存占用与运行时间，利用双三次多项式插值法得到其余描述子，结合后通过L2正则化归一化描述子得到统一的特征向量描述子d；

描述子检测器的损失函数

选用合页损失，定义为：

其中，

l_d(d,d′；s)＝λ_d*s*max(0,m_p-dTd′)+(1-s)*max(0,d^Td′-m_n)

其中，d_hw为第一张图像

在坐标(h,w)处的描述子，d′_h′w′为第二张图像

在坐标(h′,w′)处的描述子，S为正确匹配对的集合，λ_d为定义的权重，d_Td′为相似度，s可取值0或1，s取0代表非匹配点，s取1代表匹配点，m_p为铰链损失的正边界，m_n为铰链损失的负边界，s_hwh′w′为指示函数，表示所有正确匹配的集合：

其中p_hw为图

中心像素的位置，

表示去除单应性矩阵

影响后中心像素的位置，p_h′w′为图

中心像素的位置，

和p_h′w′距离小于8个像素点则视为匹配成功，这样使得当匹配成功时，相似度就应该很大，匹配失败时，相似度就应该很小，可以显著降低误匹配出现的可能性。

所述特征匹配网络如图3所示，图像A含有N个特征点，表示为一个N长度序列；图像B含有M个特征点，表示为一个M长度序列；将每张图像的特征点集合p和描述子d结合为特征向量(p,d)作为本地特征，每个特征点包含坐标x,y和可信度c，p_i＝(x,y,c)_i为第i个特征点的位置坐标和置信度，d_i∈R^d代表第i个特征点的描述子；将图A和图B输入网络，利用多层感知机MLP_enc对其特征点和描述子进行编码：

⁽⁰⁾x_i＝d_i+MLP_enc(p_i)

其中，将特征点的位置信息和描述子融为一个高维向量特征⁽⁰⁾x_i，使得网络在进行匹配时能够同时考虑到特征描述和位置的相似性。

步骤7：将特征⁽⁰⁾x_i输入融合注意力机制的图神经网络；

其中，v_j为特征点i对应的键值，α_ij为注意力权重；

得到信息m_δ→i后，进一步对特征进行更新：

其中

为第l层图像A上特征点i对应的特征，

为第l+1层图像A上特征点i对应的特征，当l为奇数时计算δ_self的信息，l为偶数时计算δ_cross的信息，反复迭代模拟用户进行匹配时反复浏览的过程，其中δ_self使得特征更加具备匹配的特异性，δ_cross使得这些具有特异性的特征点可以在图像间进行相似度比较，得到匹配代价。

其中，b为偏置量，从而构建最终匹配所用的代价矩阵

其中<·,·>为点乘操作。

所述特征匹配时损失函数表示为：

其中，

为图像有效区域的分配矩阵，

为第N+1行垃圾桶区域的分配矩阵，

为第M+1列垃圾桶区域的分配矩阵；

步骤11：重复步骤6～步骤10，得到图像集中所有图像间的特征匹配结果。

原始单目图像与其重建后生成的三维模型如图4所示。

本实施例中单目三维重建装置如图5所示，包括至少一个存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行可执行代码时，实现上述实例中的三位重建方法。

本发明融合注意力机制的单目三维重建装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于图像的三维场景重建装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种融合注意力机制的单目三维重建方法，其特征在于，包括以下步骤：

步骤5：将真实数据集中所有真实单目图像进行如步骤4所述的处理，得到一个新的含有特征点与描述子信息的图像集；

步骤7：将特征

输入融合注意力机制的图神经网络；

其中，v_j为特征点i对应的键值，α_ij为注意力权重；

得到信息m_δ→i后，进一步对特征进行更新：

其中

为第l层图像A上特征点i对应的特征，

其中，b为偏置量，从而构建最终匹配所用的代价矩阵

其中<·,·>为点乘操作；

步骤9：采用SinkHorn算法，以最小的全局代价对图像A与图像B中的特征点进行特征匹配，添加熵正则化约束以近似求解，并为代价矩阵增加额外的一行一列作为垃圾桶区域，其内代价为固定值，用于存放无有效匹配的特征点与错误的匹配；若代价矩阵内某点和额外添加层匹配，则认为该点是没有匹配成功的；根据所得到的代价矩阵，计算各特征点处是否存在匹配关系；用SinkHorn算法对其求解，得到特征匹配结果；

2.根据权利要求1所述的一种融合注意力机制的单目三维重建方法，其特征在于，步骤2中所述特征检测器为，用VGG类模型对尺寸为H×W的模拟图像进行编码，缩小图片尺寸并增加通道数，得到尺寸为H/8×W/8×64的特征图，在通道维度进行softmax计算图像内各点为特征点的概率，添加一条回收通道用于存放无特征点的情况，采用softmax激活函数，去除非特征点的回收通道，将特征图尺寸还原为H×W，用非极大值抑制NMS对计算结果进行处理得到输入虚拟图像的稀疏特征点，选择概率大于设定值的点作为特征点，将处理后的特征图尺寸恢复为H×W，得到特征检测器。

3.根据权利要求1所述的一种融合注意力机制的单目三维重建方法，其特征在于，步骤4中所述特征点检测器的检测流程为步骤3，检测所得的稀疏特征点集合定义为p，特征点检测器的损失函数L选用交叉熵损失，定义为：

描述子检测器的损失函数

选用合页损失，定义为：

其中，

l_d(d,d′；s)＝λ_d*s*max(0,m_p-d^Td′)+(1-s)*max(0,d^Td′-m_n)

其中，d_hw为第一张图像

在坐标(h,w)处的描述子，d′_h′w′为第二张图像

其中p_hw为图

中心像素的位置，

表示去除单应性矩阵

影响后中心像素的位置，p_h′w′为图

中心像素的位置，

和p_h′w′距离小于8个像素点则视为匹配成功。

4.根据权利要求1所述的一种融合注意力机制的单目三维重建方法，其特征在于，步骤6中所述特征匹配网络中，图像A含有N个特征点，表示为一个N长度序列；图像B含有M个特征点，表示为一个M长度序列；将每张图像的特征点集合p和描述子d结合为特征向量(p，d)作为本地特征，每个特征点包含坐标x，y和可信度c，p_i＝(x，y，c)_i为第i个特征点的位置坐标和置信度，d_i∈R^d代表第i个特征点的描述子；将图A和图B输入网络，利用多层感知机MLP_enc对其特征点和描述子进行编码：

⁽⁰⁾x_i＝d_i+MLP_enc(p_i)

其中，将特征点的位置信息和描述子融为一个高维向量特征⁽⁰⁾x_i。

5.根据权利要求1所述的一种融合注意力机制的单目三维重建方法，其特征在于，步骤9中所述特征匹配时损失函数表示为：

其中，

为图像有效区域的分配矩阵，

为第N+1行垃圾桶区域的分配矩阵，

为第M+1列垃圾桶区域的分配矩阵。