CN113313824A - 一种三维语义地图构建方法 - Google Patents
一种三维语义地图构建方法 Download PDFInfo
- Publication number
- CN113313824A CN113313824A CN202110394816.7A CN202110394816A CN113313824A CN 113313824 A CN113313824 A CN 113313824A CN 202110394816 A CN202110394816 A CN 202110394816A CN 113313824 A CN113313824 A CN 113313824A
- Authority
- CN
- China
- Prior art keywords
- map
- image
- global
- thread
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 101000664407 Neisseria meningitidis serogroup B (strain MC58) Surface lipoprotein assembly modifier 2 Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于地图构建技术领域,更具体地,涉及一种三维语义地图构建方法,包括可基于GPU并行处理的配准图像线程、局部地图与全局地图线程、语义地图线程、融合线程、全局线程;同时对场景图像进行位姿求解、语义分割、图像融合及匹配等计算处理,使得SLAM***实时性更强、地图构建速度更快,同时,在三维图像上融合语义信息,丰富地图的表现形式,以使无人机、机器人等无人移动平台设备可通过更多的维度理解场景地图,进而更加精准地控制运动轨迹,提高无人移动平台的性能。
Description
技术领域
本发明属于地图构建技术领域,更具体地,涉及一种三维语义地图构建方法。
背景技术
SLAM(Simultaneouslocalizationand mapping,同步定位与即时构图)是通过传感器获取场景三维信息的一种技术,其能根据场景信息对自身进行定位以及环境区分。SLAM包括激光SLAM和视觉SLAM,激光SLAM中获取场景数据的传感器为激光雷达,一般用于航天及汽车工业,其精度高但成本也很高,视觉SLAM中通过相机获取场景图像数据,其成本较低,一般用于无人机、机器人自主导航领域。
在无人机、机器人领域,传统的地图不能满足其多样化的应用需求,随着深度传感器的发展,目前在无人机、机器人自主导航领域还广泛应用语义地图。语义地图通常包括空间属性信息,例如建筑物的平面结构,房间分布等,以及包括语义属性信息,如各个房间属性和功能,以及房间内的物体类别和位置信息等。语义地图构建的目标是精确地在地图上标记语义信息。
如中国专利CN111080659A公开了一种基于视觉信息的环境语义感知方法,包括:利用Kinect V1.0相机采集环境图像信息,得到配准后的彩色图及深度图;基于配准后的彩色图及深度图,通过ORB_SLAM2过程,根据每帧中提取的ORB特征点解算相机三维位姿,得到相机位姿信息;对每帧图像进行语义分割,生成语义颜色信息;同步根据输入的深度图和相机的内参矩阵生成点云;将语义颜色信息注册到点云中,得到局部语义点云结果;利用相机位姿信息与局部语义点云结果进行融合,得到新的全局语义点云信息;将融合后的全局语义点云信息用八叉树地图进行表示,得到最终的三维八叉树语义地图。但是在实施过程中发现,因其采用ORB特征提取,地图构建的速度不够快,会严重影响无人机或机器人的反应速度及运动轨迹的控制精度,使用体验不好。
发明内容
本发明为克服上述现有技术中的至少一个缺陷,提供一种三维语义地图构建方法,其基于GPU多线程处理,能够提高地图构建速度,实现实时地图构建。
为解决上述技术问题,本发明采用的技术方案是:
提供一种三维语义地图构建方法,包括:
可基于GPU(图形处理器)并行处理的配准图像线程、局部地图与全局地图线程、语义地图线程、融合线程、全局线程;
配准图像线程用于获取场景的彩色图像及深度图像,并对所述彩色图像及深度图像进行预处理,得到配准图像;
局部地图与全局地图线程用于根据配准图像与深度图像求解多帧图像之间的位姿,利用位姿、彩色图像、深度图像进行三维重建得到局部地图与全局地图;语义地图线程用于利用PSP Net(Pyramid Scene Parsing Network,金字塔场景解析网络)对多个配准图像进行语义分割,得到二维语义图像;
融合线程用于将二维语义图像分别与局部地图、全局地图融合,得到局部语义地图、全局语义地图;
全局线程用于对局部语义地图、全局语义地图进行匹配,得到全局一致性稠密语义地图。
本方案中通过基于GPU的多线程,同时对场景图像进行位姿求解、语义分割、图像融合及匹配等计算处理,使得SLAM***实时性更强、地图构建速度更快,同时,在三维图像上融合语义信息,丰富地图的表现形式,以使无人机、机器人等无人移动平台设备可通过更多的维度理解场景地图,进而更加精准地控制运动轨迹,提高无人移动平台的性能。
优选地,上述的配准图像线程具体包括:
对包括红外摄像头及彩色摄像头的深度相机进行标定,获取深度相机的内参以及外参;
分别利用深度相机中的红外摄像头、彩色摄像头获取多帧场景的深度图像与彩色图像;
根据外参与内参对深度图像与彩色图像进行配准,得到多帧配准图像。
优选地,上述的局部地图与全局地图线程包括:
对多帧配准图像进行块划分,得到多个图像块,其中相邻图像块之间存在帧堆叠;
使用基于GPU加速的SIFT(尺度不变特征变换)提取算法对每个图像块内的配准图像进行特征提取得到特征点,并选取一帧配准图像的坐标系作为世界坐标系;
根据GMS匹配算法对特征点进行匹配并滤除误匹配点,将块内关联性较好的保存为局部图像关联匹配M1,将块内关联性较差的保存为全局图像关联匹配M2;根据M1与M2利用高斯牛顿法求解各帧配准图像之间的位姿,并对当前位姿进行回环检测;
根据位姿及配准图像线程中得到的深度图像与彩色图像,对场景进行三维稠密重建,得到局部地图与全局地图。
优选地,上述的SIFT提取算法中特征点的幅值具体表示为:
方向具体表示为:
其中,A(x,y)为特征点的幅值大小,x与y为特征点在图像中的像素位置,I(x+1,y)、I(x-1,y)、I(x,y+1)、I(x,y-1)均为特征点在高斯差分金字塔中的相邻像素,θ(x,y)为特征点的指向方向。
优选地,上述的GMS匹配算法中的概率模型为:
特征点对的评估分数公式为:
其中,P为正确匹配与错误匹配的差异性,ptrue为正确匹配,pfalse为错误匹配,meantrue与meanfalse分别为匹配正确与匹配错误的平均值,stdtrue与stdfalse分别为匹配正确与匹配错误的方差;|F1i|为特征点匹配网格内的特征数量;i与j分别为两帧图像中匹配点区域,k为当前网格数,K为网格总数,为单元对{ik,jk}之间的匹配数量。
优选地,上述的根据外参与内参对深度图像与彩色图像进行配准具体包括:
将深度图像中所有像素点的坐标向红外摄像头坐标系转换;
将红外摄像头坐标系下所有点的坐标向世界坐标系转换;
将世界坐标系下所有点的坐标向彩色摄像头坐标系转换;
将彩色摄像头坐标系下所有点的坐标映射到归一化平面的彩色平面;
得到红外摄像头与彩色摄像头之间的变换矩阵。
优选地,上述的语义地图线程具体包括:
对配准图像进行特征提取得到特征层;
对特征层进行池化,生成金字塔池化特征;
对金字塔池化特征进行展平、上采样;
与特征层进行CONCAT(合并),经过卷积神经网络得到局部语义地图、全局语义地图。
优选地,上述的局部地图与全局地图线程中利用TSDF模型进行局部地图、全局地图的融合具体公式为:
去融合构建具体公式为:
优选地,上述的融合线程中采用的融合模型为:
优选地,上述的全局线程中对局部语义地图、全局语义地图进行匹配的具体公式为:
去融合:
准确度计算公式为:
其中,Wlocal与Wglobal分别为局部语义地图、全局语义地图的权重值,Map(v,Ci-1(o))local与Map(v,Ci-1(o))global分别为局部语义地图、全局语义地图;S1与S2分别为利用meshlab工具测得的三维语义模型表面面积,S为利用meshlab测得的三维重建模型表面面积,k1与k2分别为S1、S2的权重系数。
与现有技术相比,有益效果是:
本发明中通过基于GPU加速的SIFT算法特征提取,其相较于传统的ORB特征提取,提取速度更快、鲁棒性更好;另外基于GPU的多线程处理,可同时对配准图像进行语义分割及位姿计算、图像融合,且会逐一释放融合完成的图像,以使得GPU具有足够的内存对图像进行实时的融合渲染,实现实时地图构建,其融合三维图像与语义信息,提高了无人机、机器人等无人移动平台对环境的理解能力,使得无人移动平台移动更加精准、灵活,提高产品的性能。
附图说明
图1是本发明实施例三维语义地图构建方法的局部地图与全局地图线程的流程方框示意图;
图2是本发明实施例三维语义地图构建方法的局部地图与全局地图线程中块划分的流程方框示意图;
图3是本发明实施例三维语义地图构建方法的语义地图线程的流程方框示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例:
如图1所示为一种三维语义地图构建方法,包括:
可基于GPU并行处理的配准图像线程、局部地图与全局地图线程、语义地图线程、融合线程、全局线程;
配准图像线程用于获取场景的彩色图像及深度图像,并对彩色图像及深度图像进行预处理,得到配准图像;其中,配准图像带有色彩;
局部地图与全局地图线程用于根据配准图像与深度图像求解多帧图像之间的位姿,利用位姿、彩色图像、深度图像进行三维重建得到局部地图与全局地图;
语义地图线程用于利用PSP Net对多个配准图像进行语义分割,得到二维语义图像;
融合线程用于将二维语义地图分别与局部地图、全局地图融合,得到局部语义地图、全局语义地图;
全局线程用于对局部语义地图、全局语义地图进行匹配,得到全局一致性稠密语义地图。
本实施例中的配准图像线程具体包括:
对包括红外摄像头及彩色摄像头的深度相机进行标定,获取深度相机的内参以及外参;其中深度相机可采用Kinect V2,具体地,通过Kinect V2拍摄棋盘格,对相机进行标定,获得相机的内参矩阵和外参矩阵其中,R为3x3的旋转矩阵,t为3x1平移向量,fx与fy分别为图像x轴与y轴的归一化焦距,cx与cy为图像中心点坐标位置;
分别利用深度相机中的红外摄像头、彩色摄像头获取多帧场景的深度图像与彩色图像;
根据外参与内参对深度图像与彩色图像进行配准,得到多帧配准图像。
本实施例中的局部地图与全局地图线程包括:
以十五帧图像作为单位,对多帧配准图像进行块划分,得到多个图像块,其中相邻图像块之间存在三帧堆叠;当然,每个图像块以及图像块之间的堆叠数量仅为一种参考的实施方式,不能理解为对本方案的限定。
使用基于GPU加速的SIFT(尺度不变特征变换)提取算法对每个图像块内的配准图像进行特征提取得到特征点,并选取一帧配准图像的坐标系作为世界坐标系;
根据GMS匹配算法对特征点进行匹配并滤除误匹配点,将块内关联性较好的保存为局部图像关联匹配M1,将块内关联性较差的保存为全局图像关联匹配M2;根据M1与M2利用高斯牛顿法求解各帧配准图像之间的位姿,并对当前位姿进行回环检测;其中位姿包括局部位姿与全局位姿;
另外,本实施例中高斯牛顿法求解位姿具体为:
构建非线性优化目标函数:
X*=argminEalign(X),
具体计算过程为:
R=3Ncorr+|E|(|Di|+|Ii|),
F(Xk)=F(Xk-1)+JF(Xk-1)ΔX,
JF(Xk-1)TJF(Xk-1)ΔX*=-JF(Xk-1)TF(Xk-1),
其中,X为相机的位姿,X*为位姿X的最优解,Ealign(X)为系数特征和密集光度与集合约束的对齐目标函数,ri(X)为位姿表示的残差项,Ncorr为图像块中总的对应关系数量,|Di|与|Ii|分别为第i帧深度图像与彩色图像降采样后的大小,均为64x53=3392,|E|为帧对集合的数量,E是一个帧对集合,包含一个帧对(i,j),第i帧与第j帧,F(Xk-1)为上一帧图像位姿残差项的向量形式,JF为向量对应的雅可比矩阵,ΔX=Xk-Xk-1为当前帧位姿与上一帧位姿的差值,ΔX*为位姿最优解的偏差值,(Xk-1)T为矩阵(Xk-1)的转置矩阵;
再根据位姿及配准图像线程中得到的深度图像与彩色图像,对场景进行三维稠密重建,得到局部地图与全局地图。
本实施例中的SIFT提取算法中特征点的幅值具体表示为:
方向具体表示为:
其中,A(x,y)为特征点的幅值大小,x与y为特征点在图像中的像素位置,I(x+1,y)、I(x-1,y)、I(x,y+1)、I(x,y-1)均为特征点在高斯差分金字塔中的相邻像素,θ(x,y)为特征点的指向方向。
本实施例中的GMS匹配算法中的概率模型为:
特征点对的评估分数公式为:
其中,P为正确匹配与错误匹配的差异性,ptrue为正确匹配,pfalse为错误匹配,meantrue与meanfalse分别为匹配正确与匹配错误的平均值,stdtrue与stdfalse分别为匹配正确与匹配错误的方差;|F1i|为特征点匹配网格内的特征数量;i与j分别为两帧图像中匹配点区域,k为当前网格数,K为网格总数,为单元对{ik,jk}之间的匹配数量。
本实施例中的根据外参与内参对深度图像与彩色图像进行配准具体包括:将深度图像中所有像素点的坐标向红外摄像头坐标系转换,具体公式为:
将红外摄像头坐标系下所有点的坐标向世界坐标系转换,具体公式为:
将世界坐标系下所有点的坐标向彩色摄像头坐标系转换,具体公式为:
PColor_camera=TwColor_cameraPw,
其中,TwColor_camera为世界坐标系到彩色摄像头坐标系的变换矩阵,PColor_camera为深度图像中点对应的彩色摄像头坐标;
将彩色摄像头坐标系下所有点的坐标映射到归一化平面Zc=1的彩色平面,具体公式为:
令z=1,则配准图像的像素与深度图像的像素存在以下关系:
将上式展开化简后得到以下表达式:
其中,TwColor_camera为世界坐标系转换到彩色摄像头坐标系的变换矩阵,为世界坐标系转换到彩色摄像头坐标系的变换矩阵的逆矩阵,TIR2Color为红外摄像头转换到彩色摄像头的变换矩阵,Rw2Color为世界坐标转换到彩色摄像头坐标下的旋转矩阵,为世界坐标转换到红外摄像头坐标下的旋转矩阵的逆矩阵,tw2Color为世界坐标转换到彩色摄像头坐标下的平移矢量,tw2Color为世界坐标转换到彩色摄像头坐标下的平移矢量,TIR2Color表示大小为4*4的红外摄像头到彩色摄像头的变换矩阵。
本实施例中的语义地图线程具体包括:
对配准图像进行特征提取得到特征层;
对特征层进行池化,生成金字塔池化特征;池化核的大小分别为1x1,2x2,3x3,6x6;
对金字塔池化特征进行展平、上采样;
与特征层进行进行CONCAT,经过卷积神经网络得到局部语义地图、全局语义地图;
其中,采用包含21个类别信息的VOC2007数据集对网络进行训练,PSP Net主干网络为MobileNet V2,训练Epoch(训练世代数量)数量为140,训练集与验证集比例为9:1,对前50个Epoch进行冻结训练,即冻结一部分训练权重加快训练速度。BacthSize设置为4,当Epoch=51时开始解冻,训练所有权重。值得注意的是,本实施例中采用的参数均为参考的实施方式,不能理解为对本方案的限定,在具体实施过程中,可根据设备性能、训练精度等改变参数。
本实施例中的局部地图与全局地图线程中利用TSDF模型进行局部地图、全局地图的融合具体公式为:
去融合构建具体公式为:
本实施例中的融合线程中采用的融合模型为:
为了利用局部语义地图完善全局语义地图的细节,本实施例中的全局线程中对局部语义地图、全局语义地图进行匹配,具体公式为:
去融合:
准确度计算公式为:
其中,Wlocal与Wglobal分别为局部语义地图、全局语义地图的权重值,Map(v,Ci-1(o))local与Map(v,Ci-1(o))global分别为融合后的局部语义地图、全局语义地图;S1与S2分别为利用meshlab工具测得的三维语义模型表面面积,S为利用meshlab测得的三维重建模型表面面积,k1与k2分别为S1、S2的权重系数。
本发明是参照本申请实施例的方法、设备(***)、和计算机程序产品的流程图或方框图来描述的,应理解可由计算机程序指令实现流程图或方框图中的每一流程或方框、以及流程图或方框图中的流程或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种三维语义地图构建方法,其特征在于,包括:
可基于GPU并行处理的配准图像线程、局部地图与全局地图线程、语义地图线程、融合线程、全局线程;
所述配准图像线程用于获取场景的彩色图像及深度图像,并对所述彩色图像及深度图像进行预处理,得到配准图像;
所述局部地图与全局地图线程用于根据所述配准图像及深度图像求解图像之间的位姿,利用所述位姿、彩色图像、深度图像进行三维重建得到局部地图与全局地图;所述语义地图线程用于利用PSP Net对多个配准图像进行语义分割,得到二维语义图像;
所述融合线程用于将所述二维语义图像分别与所述局部地图、全局地图融合,得到局部语义地图、全局语义地图;
所述全局线程用于对所述局部语义地图、全局语义地图进行匹配,得到全局一致性稠密语义地图。
2.根据权利要求1所述的一种三维语义地图构建方法,其特征在于,所述配准图像线程具体包括:
对包括红外摄像头及彩色摄像头的深度相机进行标定,获取深度相机的内参以及外参;
分别利用深度相机中的红外摄像头、彩色摄像头连续获取多帧场景的深度图像与彩色图像;
根据所述外参与内参对深度图像与彩色图像进行配准,得到多帧配准图像。
3.根据权利要求2述的一种三维语义地图构建方法,其特征在于,所述局部地图与全局地图线程包括:
对多帧配准图像进行块划分,得到多个图像块,其中相邻图像块之间存在帧堆叠;
使用基于GPU加速的SIFT提取算法对每个图像块内的配准图像进行特征提取得到特征点,并选取一帧配准图像的坐标系作为世界坐标系;
根据GMS匹配算法对所述特征点进行匹配并滤除误匹配点,将块内关联性较好的保存为局部图像关联匹配M1,将块内关联性较差的保存为全局图像关联匹配M2;
根据所述M1与M2利用高斯牛顿法求解各帧配准图像之间的位姿,并对当前位姿进行回环检测;
根据所述位姿及配准图像线程中得到的深度图像与彩色图像,对场景进行三维稠密重建,得到局部地图与全局地图。
6.根据权利要求2所述的一种三维语义地图构建方法,其特征在于,根据所述外参与内参对深度图像与彩色图像进行配准具体包括:
将深度图像中所有像素点的坐标向红外摄像头坐标系转换;
将红外摄像头坐标系下的点转换到世界坐标系下;
将世界坐标系下的点转换到彩色摄像头坐标系下;
将彩色摄像头坐标系下的点映射到归一化平面的彩色平面;
得到红外摄像头与彩色摄像头之间的变换矩阵。
7.根据权利要求3所述的一种三维语义地图构建方法,其特征在于,所述语义地图线程具体包括:
对配准图像进行特征提取得到特征层;
对所述特征层进行池化,生成金字塔池化特征;
对所述金字塔池化特征进行展平、上采样;
与特征层进行CONCAT,经过卷积神经网络得到局部语义地图、全局语义地图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110394816.7A CN113313824B (zh) | 2021-04-13 | 2021-04-13 | 一种三维语义地图构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110394816.7A CN113313824B (zh) | 2021-04-13 | 2021-04-13 | 一种三维语义地图构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313824A true CN113313824A (zh) | 2021-08-27 |
CN113313824B CN113313824B (zh) | 2024-03-15 |
Family
ID=77372349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110394816.7A Active CN113313824B (zh) | 2021-04-13 | 2021-04-13 | 一种三维语义地图构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313824B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116817892A (zh) * | 2023-08-28 | 2023-09-29 | 之江实验室 | 基于视觉语义地图的云端一体无人机航线定位方法及*** |
CN117788306A (zh) * | 2023-12-18 | 2024-03-29 | 上海贝特威自动化科技有限公司 | 一种基于多线程的多焦距极耳图像融合方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080659A (zh) * | 2019-12-19 | 2020-04-28 | 哈尔滨工业大学 | 一种基于视觉信息的环境语义感知方法 |
-
2021
- 2021-04-13 CN CN202110394816.7A patent/CN113313824B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080659A (zh) * | 2019-12-19 | 2020-04-28 | 哈尔滨工业大学 | 一种基于视觉信息的环境语义感知方法 |
Non-Patent Citations (3)
Title |
---|
何松;孙静;郭乐江;陈梁;: "基于激光SLAM和深度学习的语义地图构建", 计算机技术与发展 * |
唐佳林;郑杰锋;李熙莹;苏秉华;: "基于特征匹配与运动补偿的视频稳像算法", 计算机应用研究 * |
宋麒;罗志宇;丛鹏;: "SSE指令集在~(60)Co集装箱CT***图像重建算法中的应用", 核电子学与探测技术 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116817892A (zh) * | 2023-08-28 | 2023-09-29 | 之江实验室 | 基于视觉语义地图的云端一体无人机航线定位方法及*** |
CN116817892B (zh) * | 2023-08-28 | 2023-12-19 | 之江实验室 | 基于视觉语义地图的云端一体无人机航线定位方法及*** |
CN117788306A (zh) * | 2023-12-18 | 2024-03-29 | 上海贝特威自动化科技有限公司 | 一种基于多线程的多焦距极耳图像融合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113313824B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109682381B (zh) | 基于全向视觉的大视场场景感知方法、***、介质及设备 | |
US11145073B2 (en) | Computer vision systems and methods for detecting and modeling features of structures in images | |
CN111429514B (zh) | 一种融合多帧时序点云的激光雷达3d实时目标检测方法 | |
CN107392964B (zh) | 基于室内特征点和结构线结合的室内slam方法 | |
CN105164726B (zh) | 用于3d重构的相机姿态估计 | |
Ding et al. | Vehicle pose and shape estimation through multiple monocular vision | |
CN108051002A (zh) | 基于惯性测量辅助视觉的运输车空间定位方法及*** | |
US20240013505A1 (en) | Method, system, medium, equipment and terminal for inland vessel identification and depth estimation for smart maritime | |
Xu et al. | A scene-adaptive descriptor for visual SLAM-based locating applications in built environments | |
CN110148177A (zh) | 用于确定相机的姿态角的方法、装置、计算设备、计算机可读存储介质以及采集实体 | |
CN113313824B (zh) | 一种三维语义地图构建方法 | |
Mseddi et al. | YOLOv5 based visual localization for autonomous vehicles | |
CN114415736B (zh) | 一种无人机多阶段视觉精准降落方法和装置 | |
CN110260866A (zh) | 一种基于视觉传感器的机器人定位与避障方法 | |
CN114219855A (zh) | 点云法向量的估计方法、装置、计算机设备和存储介质 | |
Li et al. | Aruco marker detection under occlusion using convolutional neural network | |
CN111998862A (zh) | 一种基于bnn的稠密双目slam方法 | |
Wu et al. | Vison-based auxiliary navigation method using augmented reality for unmanned aerial vehicles | |
Zhang et al. | Deep learning based object distance measurement method for binocular stereo vision blind area | |
CN115451964A (zh) | 基于多模态混合特征的船舶场景同时建图与定位方法 | |
CN114358133B (zh) | 一种基于语义辅助双目视觉slam检测回环帧的方法 | |
Crombez et al. | Using dense point clouds as environment model for visual localization of mobile robot | |
Li-Chee-Ming et al. | Determination of UAS trajectory in a known environment from FPV video | |
CN113836975A (zh) | 基于yolov3的双目视觉无人机避障方法 | |
CN110723073B (zh) | 一种汽车a柱透视方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |