CN115375844A - 一种融合注意力机制的单目三维重建方法 - Google Patents

一种融合注意力机制的单目三维重建方法 Download PDF

Info

Publication number
CN115375844A
CN115375844A CN202211004639.8A CN202211004639A CN115375844A CN 115375844 A CN115375844 A CN 115375844A CN 202211004639 A CN202211004639 A CN 202211004639A CN 115375844 A CN115375844 A CN 115375844A
Authority
CN
China
Prior art keywords
feature
image
point
matching
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211004639.8A
Other languages
English (en)
Inventor
沙晓鹏
肖乐
司晓鹏
曹加奇
齐宁
李文超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University Qinhuangdao Branch
Original Assignee
Northeastern University Qinhuangdao Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University Qinhuangdao Branch filed Critical Northeastern University Qinhuangdao Branch
Priority to CN202211004639.8A priority Critical patent/CN115375844A/zh
Publication of CN115375844A publication Critical patent/CN115375844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种融合注意力机制的单目三维重建方法,涉及三维重建技术领域。本方法对输入单目图像进行透视变换,得到图片对,对其进行特征检测,得到相应的特征点,并投影回原始图像上,再将图片对输入一个单一且共享的编码器中,将原始图像映射到一个具有更小空间维度和更大通道深度的中间向量中,接着将中间向量分别输入一个特征点解码器和一个描述子解码器中,获得图像的特征点集合与对应描述子,通过MLP网络对处理后图像的特征点和描述子编码进同一个特征,通过融合注意力机制的图神经网络得到用于特征匹配的代价矩阵,利用SinkHorn算法求解,剔除误匹配点,最后得到三维重建模型。

Description

一种融合注意力机制的单目三维重建方法
技术领域
本发明涉及三维重建技术领域,尤其涉及一种融合注意力机制的单目三维重建方法。
背景技术
三维重建是计算机视觉领域的一个重要研究方向,在医学CT影像、古建筑物保护、机器人、自动驾驶等领域应用广泛。基于深度学习的三维重建技术,主要以卷积神经网络(CNN)为学习模型,通过大量数据学习图像中物体的三维信息,实现二维图像物体到三维物体模型端到端的转换。与深度学习的方法相比,利用传统技术从图像中提取信息再预测模型是一项具有挑战性的任务。一方面,单视图只能表达出有限的信息;另一方面,人工设计的特征算子并不能达到较好的泛化效果。除此以外,单视图中的遮挡现象也加大了三维重建的难度。深度学习技术的快速发展给单视图模型的重建问题提供了良好的研究基础,相比传统的三维重建方法具有很大的优势。深度学习可以利用先验经验来大致估计物体的深度,其原理类似于人类凭借经验大致估计物体的距离,具有一定的合理性。因此,将深度学习引入三维重建中,依靠其自动学习特征的能力,用神经网络代替传统的特征检测匹配与重建等流程,可以取得很好的效果,也成为目前的主流思路。近年来已涌现出一大批优秀的基于深度学习的三维重建算法。
虽然近些年来,人们已经陆续开始研究以深度学习为基础的三维重建方法,但仍然存在一些基本的问题,首先在精度方面,目前的技术虽然已经能够恢复粗略的三维物体模型,但其精度仍然不够高,在物体信息更加丰富的表面,三维重建的精度仍然面临重大的挑战。
其次,在复杂场景中,如何不受外界干扰因素的影响来获得更加准确的物体信息,从而重建出更好的三维模型也是一个亟待解决的问题,尤其是在面对有遮挡、无纹理或者低纹理物体的情况下,该如何面对该挑战,从而获得更加精细的三维重建模型。目前,基于深度学习的算法更多的是依赖于传统算法,对传统算法中的其中一部分进行改善,泛用性较差,重建效果普遍也不够理想。
发明内容
针对现有技术的不足,本发明提供一种融合注意力机制的单目三维重建方法。
一种融合注意力机制的单目三维重建方法,包括以下步骤:
步骤1:建立虚拟数据集和真实数据集;虚拟数据集中包含模拟图像,真实数据集包含相机拍摄所得的真实单目图像;
所述模拟图像为,由计算机随机生成带有边缘特征和角特征的模拟图像,包括棋盘格、立方体、椭圆、不相交的线、相交的线、单个多边形、若干多边形、条纹以及高斯噪声共9类图像,以图像自带特征点的坐标作为伪标签,图像尺寸为H×W,H代表图像的高度,W代表图像的宽度;
步骤2:基于有监督学习的训练方法,用模拟图像和伪标签训练能检测出边缘和角点的特征检测器;
所述特征检测器为,用VGG类模型对尺寸为H×W的模拟图像进行编码,缩小图片尺寸并增加通道数,得到尺寸为H/8×W/8×64的特征图,在通道维度进行softmax计算图像内各点为特征点的概率,添加一条回收通道用于存放无特征点的情况,采用softmax激活函数,去除非特征点的回收通道,将特征图尺寸还原为H×W,用非极大值抑制NMS对计算结果进行处理得到输入虚拟图像的稀疏特征点,选择概率大于设定值的点作为特征点,将处理后的特征图尺寸恢复为H×W,得到特征检测器。
步骤3:对真实单目图像进行N次透视变换,形成变形图片,将变换后得到的变形图像分别输入特征检测器中,得到N个特征点检测结果图,得到相应的特征点,将特征点投影回真实单目图像上,叠加后作为真实单目图像的稀疏特征点,得到已知位姿关系的图片对;
步骤4:将真实单目图像作为输入,分别采用步骤2中的特征检测器对图片对进行编码操作,在编码处的特征通道大小是64、64、128、128,接着通过relu激活函数和3个最大池化层将图像尺寸转化为Hc×Wc×128,其中Hc为处理后图像的高度,在数值上表示为H/8,Wc为处理后图像的高度,在数值上表示为W/8,将进行编码操作后的输出张量分别输入特征解码器与描述子解码器;
所述特征点检测器的检测流程为步骤3,检测所得的稀疏特征点集合定义为p,特征点检测器的损失函数L选用交叉熵损失,定义为:
Figure BDA0003808590520000021
式中,xhw和yhw的下标hw为像素点的坐标,xhw为特征点的真值,yhw为像素点是否为特征点的概率值;
所述描述子检测器,先通过一层卷积将输入维度处理为Hc×Wc×256,采用UCN网络得到半稠密的描述子,利用双三次多项式插值法得到其余描述子,结合后通过L2正则化归一化描述子得到统一的特征向量描述子d;
描述子检测器的损失函数
Figure BDA0003808590520000022
选用合页损失,定义为:
Figure BDA0003808590520000031
其中,
ld(d,d′;s)=λd*s*max(0,mp-dTd′)+(1-s)*max(0,dTd′-mn)
其中,dhw为第一张图像
Figure BDA0003808590520000037
在坐标(h,w)处的描述子,d′h′w′为第二张图像
Figure BDA0003808590520000038
在坐标(h′,w′)处的描述子,S为正确匹配对的集合,λd为定义的权重,dTd′为相似度,s可取值0或1,s取0代表非匹配点,s取1代表匹配点,mp为铰链损失的正边界,mn为铰链损失的负边界,shwh′w′为指示函数,表示所有正确匹配的集合:
Figure BDA0003808590520000032
其中phw为图
Figure BDA0003808590520000033
中心像素的位置,
Figure BDA0003808590520000034
表示去除单应性矩阵
Figure BDA0003808590520000039
影响后中心像素的位置,ph′w′为图
Figure BDA0003808590520000035
中心像素的位置,
Figure BDA0003808590520000036
和ph′w′距离小于8个像素点则视为匹配成功;
步骤5:将真实数据集中所有真实单目图像进行如步骤4所述的处理,得到一个新的含有特征点与描述子信息的图像集。
步骤6:取图像集中相邻两幅图像,定义为图像A与图像B,输入特征匹配网络;
所述特征匹配网络中,图像A含有N个特征点,表示为一个N长度序列;图像B含有M个特征点,表示为一个M长度序列;将每张图像的特征点集合p和描述子d结合为特征向量(p,d)作为本地特征,每个特征点包含坐标x,y和可信度c,pi=(x,y,c)i为第i个特征点的位置坐标和置信度,di∈Rd代表第i个特征点的描述子;将图A和图B输入网络,利用多层感知机MLPenc对其特征点和描述子进行编码:
(0)xi=di+MLPenc(pi)
其中,将特征点的位置信息和描述子融为一个高维向量特征(0)xi
步骤7:将特征(0)xi输入融合注意力机制的图神经网络;
所述融合注意力机制的图神经网络使用了两种无向图:(1)连接特征点i和同一张图内其他特征点的无向图δself,将图A中的特征点i与该图中其余各个特征点一一比对寻找关联性;(2)连接特征点i和另一张图内其他特征点的无向图δcross,将图A中的特征点i与图B中各个特征点一一比对寻找关联性;在两个无向图上均进行一次运算视作一次迭代,每轮迭代的结果与本轮初始特征的合成方式为直接相加;
图δ为δself和δcross的集合,其中所有特征点j:(i,j)∈δ通过图神经网络注意力聚合后得到聚合信息mδ→i,表示为:
Figure BDA0003808590520000041
其中,vj为特征点i对应的键值,αij为注意力权重;
得到信息mδ→i后,进一步对特征进行更新:
Figure BDA0003808590520000042
其中
Figure BDA0003808590520000043
为第l层图像A上特征点i对应的特征,
Figure BDA0003808590520000044
为第l+1层图像A上特征点i对应的特征,当l为奇数时计算δself的信息,l为偶数时计算δcross的信息,反复迭代模拟用户进行匹配时反复浏览的过程;
步骤8:重复步骤7,直到特征收敛,对迭代后所有特征点的特征通过MLP网络构建出最终匹配所使用的代价矩阵,表示将特征点两两匹配所需付出的代价,特征点间的相似度越低,代价越高;
迭代完成后得到融合了位置信息以及周围其他特征点信息的描述子向量
Figure BDA0003808590520000045
经过一层MLP运算得到匹配描述子fi A以及fi B,fi A与fi B公式表示为:
Figure BDA0003808590520000046
Figure BDA0003808590520000047
其中,b为偏置量,从而构建最终匹配所用的代价矩阵
Figure BDA0003808590520000048
其中<·,·>为点乘操作。
步骤9:采用SinkHorn算法,以最小的全局代价对图像A与图像B中的特征点进行特征匹配,添加熵正则化约束以近似求解,并为代价矩阵增加额外的一行一列作为垃圾桶区域,其内代价为固定值,用于存放无有效匹配的特征点与错误的匹配;若代价矩阵内某点和额外添加层匹配,则认为该点是没有匹配成功的。根据所得到的代价矩阵,计算各特征点处是否存在匹配关系。用SinkHorn算法对其求解,得到特征匹配结果。
所述特征匹配时损失函数表示为:
Figure BDA0003808590520000049
其中,
Figure BDA00038085905200000410
为匹配点的真值,I∈A和J∈B为图像A和B中没有匹配上的特征点,
Figure BDA00038085905200000411
为图像有效区域的分配矩阵,
Figure BDA00038085905200000412
为第N+1行垃圾桶区域的分配矩阵,
Figure BDA00038085905200000413
为第M+1列垃圾桶区域的分配矩阵;
步骤10:步骤9计算完成后,舍弃垃圾桶区域,得到图像A与图像B之间的最终特征匹配结果;
步骤11:重复步骤6~步骤10,得到图像集中所有图像间的特征匹配结果;
步骤12:将得到的特征点、特征矩阵和特征匹配结果输入colmap中进行稀疏重建,获得相机参数、三维点云、图像间匹配对信息;
步骤13将相机参数、三维点云、图像间匹配对信息输入三维重建网络MVSNet,进行稠密重建,得到三维重建结果。
采用上述技术方案所产生的有益效果在于:
本发明提供一种融合注意力机制的单目三维重建方法,本发明采用融合注意力机制的图神经网络,模拟人类进行匹配时来回浏览的过程,进行特征匹配,充分利用了图像內部特征点的关系进行图像间匹配,最终所得的误匹配更少,匹配精度更高,有效提升三维重建精度。
附图说明
图1为本发明实例中融合注意力机制的单目三维重建流程图。
图2为本发明实例中特征点与描述子检测网络的结构示意图。
图3为本发明实例中特征匹配网络的结构示意图。
图4为本发明实例中原始单目图像与重建完成后的三维模型效果图。
图5为本发明一种融合注意力机制的单目三维重建装置的结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
目前的三维重建在复杂场景中受外界因素干扰较大,尤其是在面对有遮挡、无纹理或者低纹理物体的情况下,并且大多数方法在特征点检测与匹配方面处理较为粗糙,不能充分利用图像内的各项信息,使得三维重建模型的精度降低。基于此,如图1所示,一种融合注意力机制的单目三维重建方法,包括以下步骤:
步骤1:建立虚拟数据集和真实数据集;虚拟数据集中包含模拟图像,真实数据集包含相机拍摄所得的真实单目图像;如图2所示;
所述模拟图像为,由计算机随机生成带有边缘特征和角特征的模拟图像,包括棋盘格、立方体、椭圆、不相交的线、相交的线、单个多边形、若干多边形、条纹以及高斯噪声共9类图像,模拟图像是计算机生成的,因此以图像自带特征点的坐标作为伪标签,图像尺寸为H×W,H代表图像的高度,W代表图像的宽度;
步骤2:基于有监督学习的训练方法,用模拟图像和伪标签训练能检测出边缘和角点的特征检测器;
所述特征检测器为,用VGG类模型对尺寸为H×W的模拟图像进行编码,缩小图片尺寸并增加通道数,得到尺寸为H/8×W/8×64的特征图,在通道维度进行softmax计算图像内各点为特征点的概率,为了避免无特征点会产生噪声造成异常随机的影响,添加一条回收通道用于存放无特征点的情况,采用softmax激活函数,去除非特征点的回收通道,将特征图尺寸还原为H×W,用非极大值抑制NMS对计算结果进行处理得到输入虚拟图像的稀疏特征点,防止出现特征点过于集中影响后续判断的现象,随后选择概率大于设定值的点作为特征点,将处理后的特征图尺寸恢复为H×W,得到特征检测器。
步骤3:对真实单目图像进行N次透视变换,形成变形图片,将变换后得到的变形图像分别输入特征检测器中,得到N个特征点检测结果图,得到相应的特征点,将特征点投影回真实单目图像上,叠加后作为真实单目图像的稀疏特征点,使得检测到的特征点更丰富,由此得到已知位姿关系的图片对,且具备一定的单应不变性。从而使得该检测器可以在真实图像上获得很好的检测结果。
步骤4:将真实单目图像作为输入,分别采用步骤2中的特征检测器对图片对进行编码操作,在编码处的特征通道大小是64、64、128、128,接着通过relu激活函数和3个最大池化层将图像尺寸转化为Hc×Wc×128,其中Hc为处理后图像的高度,在数值上表示为H/8,Wc为处理后图像的高度,在数值上表示为W/8,将进行编码操作后的输出张量分别输入特征解码器与描述子解码器;
所述特征点检测器的检测流程为步骤3,检测所得的稀疏特征点集合定义为p,特征点检测器的损失函数L选用交叉熵损失,定义为:
Figure BDA0003808590520000061
式中,xhw和yhw的下标hw为像素点的坐标,xhw为特征点的真值,yhw为像素点是否为特征点的概率值;
所述描述子检测器,先通过一层卷积将输入维度处理为Hc×Wc×256,采用UCN网络得到半稠密的描述子,减少算法的内存占用与运行时间,利用双三次多项式插值法得到其余描述子,结合后通过L2正则化归一化描述子得到统一的特征向量描述子d;
描述子检测器的损失函数
Figure BDA0003808590520000062
选用合页损失,定义为:
Figure BDA0003808590520000071
其中,
ld(d,d′;s)=λd*s*max(0,mp-dTd′)+(1-s)*max(0,dTd′-mn)
其中,dhw为第一张图像
Figure BDA0003808590520000072
在坐标(h,w)处的描述子,d′h′w′为第二张图像
Figure BDA0003808590520000073
在坐标(h′,w′)处的描述子,S为正确匹配对的集合,λd为定义的权重,dTd′为相似度,s可取值0或1,s取0代表非匹配点,s取1代表匹配点,mp为铰链损失的正边界,mn为铰链损失的负边界,shwh′w′为指示函数,表示所有正确匹配的集合:
Figure BDA0003808590520000074
其中phw为图
Figure BDA0003808590520000075
中心像素的位置,
Figure BDA0003808590520000076
表示去除单应性矩阵
Figure BDA0003808590520000079
影响后中心像素的位置,ph′w′为图
Figure BDA0003808590520000077
中心像素的位置,
Figure BDA0003808590520000078
和ph′w′距离小于8个像素点则视为匹配成功,这样使得当匹配成功时,相似度就应该很大,匹配失败时,相似度就应该很小,可以显著降低误匹配出现的可能性。
步骤5:将真实数据集中所有真实单目图像进行如步骤4所述的处理,得到一个新的含有特征点与描述子信息的图像集。
步骤6:取图像集中相邻两幅图像,定义为图像A与图像B,输入特征匹配网络;
所述特征匹配网络如图3所示,图像A含有N个特征点,表示为一个N长度序列;图像B含有M个特征点,表示为一个M长度序列;将每张图像的特征点集合p和描述子d结合为特征向量(p,d)作为本地特征,每个特征点包含坐标x,y和可信度c,pi=(x,y,c)i为第i个特征点的位置坐标和置信度,di∈Rd代表第i个特征点的描述子;将图A和图B输入网络,利用多层感知机MLPenc对其特征点和描述子进行编码:
(0)xi=di+MLPenc(pi)
其中,将特征点的位置信息和描述子融为一个高维向量特征(0)xi,使得网络在进行匹配时能够同时考虑到特征描述和位置的相似性。
步骤7:将特征(0)xi输入融合注意力机制的图神经网络;
所述融合注意力机制的图神经网络使用了两种无向图:(1)连接特征点i和同一张图内其他特征点的无向图δself,将图A中的特征点i与该图中其余各个特征点一一比对寻找关联性;(2)连接特征点i和另一张图内其他特征点的无向图δcross,将图A中的特征点i与图B中各个特征点一一比对寻找关联性;在两个无向图上均进行一次运算视作一次迭代,每轮迭代的结果与本轮初始特征的合成方式为直接相加;
图δ为δself和δcross的集合,其中所有特征点j:(i,j)∈δ通过图神经网络注意力聚合后得到聚合信息mδ→i,表示为:
Figure BDA0003808590520000081
其中,vj为特征点i对应的键值,αij为注意力权重;
得到信息mδ→i后,进一步对特征进行更新:
Figure BDA0003808590520000082
其中
Figure BDA0003808590520000083
为第l层图像A上特征点i对应的特征,
Figure BDA0003808590520000084
为第l+1层图像A上特征点i对应的特征,当l为奇数时计算δself的信息,l为偶数时计算δcross的信息,反复迭代模拟用户进行匹配时反复浏览的过程,其中δself使得特征更加具备匹配的特异性,δcross使得这些具有特异性的特征点可以在图像间进行相似度比较,得到匹配代价。
步骤8:重复步骤7,直到特征收敛,对迭代后所有特征点的特征通过MLP网络构建出最终匹配所使用的代价矩阵,表示将特征点两两匹配所需付出的代价,特征点间的相似度越低,代价越高;
迭代完成后得到融合了位置信息以及周围其他特征点信息的描述子向量
Figure BDA0003808590520000085
经过一层MLP运算得到匹配描述子fi A以及fi B,fi A与fi B公式表示为:
Figure BDA0003808590520000086
Figure BDA0003808590520000087
其中,b为偏置量,从而构建最终匹配所用的代价矩阵
Figure BDA0003808590520000088
其中<·,·>为点乘操作。
步骤9:采用SinkHorn算法,以最小的全局代价对图像A与图像B中的特征点进行特征匹配,添加熵正则化约束以近似求解,并为代价矩阵增加额外的一行一列作为垃圾桶区域,其内代价为固定值,用于存放无有效匹配的特征点与错误的匹配;若代价矩阵内某点和额外添加层匹配,则认为该点是没有匹配成功的。根据所得到的代价矩阵,计算各特征点处是否存在匹配关系。用SinkHorn算法对其求解,得到特征匹配结果。
所述特征匹配时损失函数表示为:
Figure BDA0003808590520000091
其中,
Figure BDA0003808590520000092
为匹配点的真值,I∈A和J∈B为图像A和B中没有匹配上的特征点,
Figure BDA0003808590520000093
为图像有效区域的分配矩阵,
Figure BDA0003808590520000094
为第N+1行垃圾桶区域的分配矩阵,
Figure BDA0003808590520000095
为第M+1列垃圾桶区域的分配矩阵;
步骤10:步骤9计算完成后,舍弃垃圾桶区域,得到图像A与图像B之间的最终特征匹配结果;
步骤11:重复步骤6~步骤10,得到图像集中所有图像间的特征匹配结果。
步骤12:将得到的特征点、特征矩阵和特征匹配结果输入colmap中进行稀疏重建,获得相机参数、三维点云、图像间匹配对信息;
步骤13将相机参数、三维点云、图像间匹配对信息输入三维重建网络MVSNet,进行稠密重建,得到三维重建结果。
原始单目图像与其重建后生成的三维模型如图4所示。
本实施例中单目三维重建装置如图5所示,包括至少一个存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行可执行代码时,实现上述实例中的三位重建方法。
本发明融合注意力机制的单目三维重建装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于图像的三维场景重建装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (5)

1.一种融合注意力机制的单目三维重建方法,其特征在于,包括以下步骤:
步骤1:建立虚拟数据集和真实数据集;虚拟数据集中包含模拟图像,真实数据集包含相机拍摄所得的真实单目图像;
所述模拟图像为,由计算机随机生成带有边缘特征和角特征的模拟图像,包括棋盘格、立方体、椭圆、不相交的线、相交的线、单个多边形、若干多边形、条纹以及高斯噪声共9类图像,以图像自带特征点的坐标作为伪标签,图像尺寸为H×W,H代表图像的高度,W代表图像的宽度;
步骤2:基于有监督学习的训练方法,用模拟图像和伪标签训练能检测出边缘和角点的特征检测器;
步骤3:对真实单目图像进行N次透视变换,形成变形图片,将变换后得到的变形图像分别输入特征检测器中,得到N个特征点检测结果图,得到相应的特征点,将特征点投影回真实单目图像上,叠加后作为真实单目图像的稀疏特征点,得到已知位姿关系的图片对;
步骤4:将真实单目图像作为输入,分别采用步骤2中的特征检测器对图片对进行编码操作,在编码处的特征通道大小是64、64、128、128,接着通过relu激活函数和3个最大池化层将图像尺寸转化为Hc×Wc×128,其中Hc为处理后图像的高度,在数值上表示为H/8,Wc为处理后图像的高度,在数值上表示为W/8,将进行编码操作后的输出张量分别输入特征解码器与描述子解码器;
步骤5:将真实数据集中所有真实单目图像进行如步骤4所述的处理,得到一个新的含有特征点与描述子信息的图像集;
步骤6:取图像集中相邻两幅图像,定义为图像A与图像B,输入特征匹配网络;
步骤7:将特征
Figure FDA0003808590510000011
输入融合注意力机制的图神经网络;
所述融合注意力机制的图神经网络使用了两种无向图:(1)连接特征点i和同一张图内其他特征点的无向图δself,将图A中的特征点i与该图中其余各个特征点一一比对寻找关联性;(2)连接特征点i和另一张图内其他特征点的无向图δcross,将图A中的特征点i与图B中各个特征点一一比对寻找关联性;在两个无向图上均进行一次运算视作一次迭代,每轮迭代的结果与本轮初始特征的合成方式为直接相加;
图δ为δself和δcross的集合,其中所有特征点j:(i,j)∈δ通过图神经网络注意力聚合后得到聚合信息mδ→i,表示为:
Figure FDA0003808590510000012
其中,vj为特征点i对应的键值,αij为注意力权重;
得到信息mδ→i后,进一步对特征进行更新:
Figure FDA0003808590510000021
其中
Figure FDA0003808590510000022
为第l层图像A上特征点i对应的特征,
Figure FDA0003808590510000023
为第l+1层图像A上特征点i对应的特征,当l为奇数时计算δself的信息,l为偶数时计算δcross的信息,反复迭代模拟用户进行匹配时反复浏览的过程;
步骤8:重复步骤7,直到特征收敛,对迭代后所有特征点的特征通过MLP网络构建出最终匹配所使用的代价矩阵,表示将特征点两两匹配所需付出的代价,特征点间的相似度越低,代价越高;
迭代完成后得到融合了位置信息以及周围其他特征点信息的描述子向量
Figure FDA0003808590510000024
经过一层MLP运算得到匹配描述子fi A以及fi B,fi A与fi B公式表示为:
Figure FDA0003808590510000025
Figure FDA0003808590510000026
其中,b为偏置量,从而构建最终匹配所用的代价矩阵
Figure FDA0003808590510000027
其中<·,·>为点乘操作;
步骤9:采用SinkHorn算法,以最小的全局代价对图像A与图像B中的特征点进行特征匹配,添加熵正则化约束以近似求解,并为代价矩阵增加额外的一行一列作为垃圾桶区域,其内代价为固定值,用于存放无有效匹配的特征点与错误的匹配;若代价矩阵内某点和额外添加层匹配,则认为该点是没有匹配成功的;根据所得到的代价矩阵,计算各特征点处是否存在匹配关系;用SinkHorn算法对其求解,得到特征匹配结果;
步骤10:步骤9计算完成后,舍弃垃圾桶区域,得到图像A与图像B之间的最终特征匹配结果;
步骤11:重复步骤6~步骤10,得到图像集中所有图像间的特征匹配结果;
步骤12:将得到的特征点、特征矩阵和特征匹配结果输入colmap中进行稀疏重建,获得相机参数、三维点云、图像间匹配对信息;
步骤13将相机参数、三维点云、图像间匹配对信息输入三维重建网络MVSNet,进行稠密重建,得到三维重建结果。
2.根据权利要求1所述的一种融合注意力机制的单目三维重建方法,其特征在于,步骤2中所述特征检测器为,用VGG类模型对尺寸为H×W的模拟图像进行编码,缩小图片尺寸并增加通道数,得到尺寸为H/8×W/8×64的特征图,在通道维度进行softmax计算图像内各点为特征点的概率,添加一条回收通道用于存放无特征点的情况,采用softmax激活函数,去除非特征点的回收通道,将特征图尺寸还原为H×W,用非极大值抑制NMS对计算结果进行处理得到输入虚拟图像的稀疏特征点,选择概率大于设定值的点作为特征点,将处理后的特征图尺寸恢复为H×W,得到特征检测器。
3.根据权利要求1所述的一种融合注意力机制的单目三维重建方法,其特征在于,步骤4中所述特征点检测器的检测流程为步骤3,检测所得的稀疏特征点集合定义为p,特征点检测器的损失函数L选用交叉熵损失,定义为:
Figure FDA0003808590510000031
式中,xhw和yhw的下标hw为像素点的坐标,xhw为特征点的真值,yhw为像素点是否为特征点的概率值;
所述描述子检测器,先通过一层卷积将输入维度处理为Hc×Wc×256,采用UCN网络得到半稠密的描述子,利用双三次多项式插值法得到其余描述子,结合后通过L2正则化归一化描述子得到统一的特征向量描述子d;
描述子检测器的损失函数
Figure FDA0003808590510000032
选用合页损失,定义为:
Figure FDA0003808590510000033
其中,
ld(d,d′;s)=λd*s*max(0,mp-dTd′)+(1-s)*max(0,dTd′-mn)
其中,dhw为第一张图像
Figure FDA00038085905100000311
在坐标(h,w)处的描述子,d′h′w′为第二张图像
Figure FDA0003808590510000039
在坐标(h′,w′)处的描述子,S为正确匹配对的集合,λd为定义的权重,dTd′为相似度,s可取值0或1,s取0代表非匹配点,s取1代表匹配点,mp为铰链损失的正边界,mn为铰链损失的负边界,shwh′w′为指示函数,表示所有正确匹配的集合:
Figure FDA0003808590510000034
其中phw为图
Figure FDA00038085905100000310
中心像素的位置,
Figure FDA0003808590510000035
表示去除单应性矩阵
Figure FDA0003808590510000036
影响后中心像素的位置,ph′w′为图
Figure FDA0003808590510000038
中心像素的位置,
Figure FDA0003808590510000037
和ph′w′距离小于8个像素点则视为匹配成功。
4.根据权利要求1所述的一种融合注意力机制的单目三维重建方法,其特征在于,步骤6中所述特征匹配网络中,图像A含有N个特征点,表示为一个N长度序列;图像B含有M个特征点,表示为一个M长度序列;将每张图像的特征点集合p和描述子d结合为特征向量(p,d)作为本地特征,每个特征点包含坐标x,y和可信度c,pi=(x,y,c)i为第i个特征点的位置坐标和置信度,di∈Rd代表第i个特征点的描述子;将图A和图B输入网络,利用多层感知机MLPenc对其特征点和描述子进行编码:
(0)xi=di+MLPenc(pi)
其中,将特征点的位置信息和描述子融为一个高维向量特征(0)xi
5.根据权利要求1所述的一种融合注意力机制的单目三维重建方法,其特征在于,步骤9中所述特征匹配时损失函数表示为:
Figure FDA0003808590510000041
其中,
Figure FDA0003808590510000042
为匹配点的真值,I∈A和J∈B为图像A和B中没有匹配上的特征点,
Figure FDA0003808590510000045
为图像有效区域的分配矩阵,
Figure FDA0003808590510000043
为第N+1行垃圾桶区域的分配矩阵,
Figure FDA0003808590510000044
为第M+1列垃圾桶区域的分配矩阵。
CN202211004639.8A 2022-08-22 2022-08-22 一种融合注意力机制的单目三维重建方法 Pending CN115375844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211004639.8A CN115375844A (zh) 2022-08-22 2022-08-22 一种融合注意力机制的单目三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211004639.8A CN115375844A (zh) 2022-08-22 2022-08-22 一种融合注意力机制的单目三维重建方法

Publications (1)

Publication Number Publication Date
CN115375844A true CN115375844A (zh) 2022-11-22

Family

ID=84067103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211004639.8A Pending CN115375844A (zh) 2022-08-22 2022-08-22 一种融合注意力机制的单目三维重建方法

Country Status (1)

Country Link
CN (1) CN115375844A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965758A (zh) * 2022-12-28 2023-04-14 无锡东如科技有限公司 一种图协同单目实例三维重建方法
CN116740488A (zh) * 2023-05-16 2023-09-12 北京交通大学 一种用于视觉定位的特征提取模型的训练方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965758A (zh) * 2022-12-28 2023-04-14 无锡东如科技有限公司 一种图协同单目实例三维重建方法
CN116740488A (zh) * 2023-05-16 2023-09-12 北京交通大学 一种用于视觉定位的特征提取模型的训练方法及装置
CN116740488B (zh) * 2023-05-16 2024-01-05 北京交通大学 一种用于视觉定位的特征提取模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN114782691B (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
CN115375844A (zh) 一种融合注意力机制的单目三维重建方法
CN111161364B (zh) 一种针对单视角深度图的实时形状补全和姿态估计方法
CN112001859B (zh) 一种人脸图像的修复方法及***
Zhong et al. High-resolution depth maps imaging via attention-based hierarchical multi-modal fusion
Sormann et al. Bp-mvsnet: Belief-propagation-layers for multi-view-stereo
CN111832484A (zh) 一种基于卷积感知哈希算法的回环检测方法
CN113963117B (zh) 一种基于可变卷积深度网络的多视图三维重建方法及装置
CN115546442A (zh) 基于感知一致损失的多视图立体匹配重建方法及***
CN116843834A (zh) 一种三维人脸重建及六自由度位姿估计方法、装置及设备
CN115359191A (zh) 一种基于深度学习的物体三维重建***
Xu et al. Learning factorized weight matrix for joint filtering
Zheng et al. GCM-Net: Towards effective global context modeling for image inpainting
CN110675311A (zh) 一种素描序约束下的素描生成的方法、装置及存储介质
Hara et al. Enhancement of novel view synthesis using omnidirectional image completion
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN117132651A (zh) 一种融合彩色图像和深度图像的三维人体姿态估计方法
CN112417991A (zh) 基于沙漏胶囊网络的双注意力人脸对齐方法
CN111260706A (zh) 一种基于单目相机的稠密深度图计算方法
Pan et al. Improved Census Transform Method for Semi-Global Matching Algorithm
US20220058484A1 (en) Method for training a neural network to deliver the viewpoints of objects using unlabeled pairs of images, and the corresponding system
CN113160102A (zh) 三维场景重建的方法、装置、设备和存储介质
Lin et al. Factorization for projective and metric reconstruction via truncated nuclear norm
CN118037989A (zh) 一种基于先验驱动的多视图神经隐式表面重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination