CN115187959A - 一种基于双目视觉的飞行汽车山地着陆方法及*** - Google Patents

一种基于双目视觉的飞行汽车山地着陆方法及*** Download PDF

Info

Publication number
CN115187959A
CN115187959A CN202210833684.8A CN202210833684A CN115187959A CN 115187959 A CN115187959 A CN 115187959A CN 202210833684 A CN202210833684 A CN 202210833684A CN 115187959 A CN115187959 A CN 115187959A
Authority
CN
China
Prior art keywords
landing
semantic segmentation
camera
image
depth map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210833684.8A
Other languages
English (en)
Other versions
CN115187959B (zh
Inventor
张新钰
李志伟
高鑫
金宪伟
吴新刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210833684.8A priority Critical patent/CN115187959B/zh
Publication of CN115187959A publication Critical patent/CN115187959A/zh
Application granted granted Critical
Publication of CN115187959B publication Critical patent/CN115187959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/586Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of parking space
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60FVEHICLES FOR USE BOTH ON RAIL AND ON ROAD; AMPHIBIOUS OR LIKE VEHICLES; CONVERTIBLE VEHICLES
    • B60F5/00Other convertible vehicles, i.e. vehicles capable of travelling in or on different media
    • B60F5/02Other convertible vehicles, i.e. vehicles capable of travelling in or on different media convertible into aircraft
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64DEQUIPMENT FOR FITTING IN OR TO AIRCRAFT; FLIGHT SUITS; PARACHUTES; ARRANGEMENT OR MOUNTING OF POWER PLANTS OR PROPULSION TRANSMISSIONS IN AIRCRAFT
    • B64D45/00Aircraft indicators or protectors not otherwise provided for
    • B64D45/04Landing aids; Safety measures to prevent collision with earth's surface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Linguistics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双目视觉的飞行汽车着陆方法,基于部署在飞行汽车上的左右两摄像机实现,所述方法包括:步骤1)对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;步骤2)根据矫正后的平行视图利用双目视觉获得对应的深度图;步骤3)将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域;步骤5)根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;所述语义分割模型为改进后的DeepLab v3结构网络。

Description

一种基于双目视觉的飞行汽车山地着陆方法及***
技术领域
本发明属于语义分割和控制领域,尤其涉及一种基于双目视觉的飞行汽车着陆方法及***。
背景技术
对飞行汽车来说,在高低起伏的山地上平稳着陆,非常具有挑战性。很多研究方法都是基于大范围的传感器,如激光雷达、GPS等。但激光雷达获得的点云数据稀疏且无序,处理时计算量大;GPS在处于卫星信号弱的地点或移动速度过快导致无法与卫星建立连接时,会出现定位错误或偏差。相比而言,相机捕获的图像信息,能提供丰富的环境信息,而且不会受到信号强弱的影响。
现有的基于图像的着陆方法,包括:着陆区域的语义分割、立体视觉的方法、SLAM等。语义分割可以划分出能用于着陆的区域(如草地、沙地等),以及不能用于着陆的区域(如建筑物覆盖区,人群、车辆、树木等)。立体视觉的方式,利用多目相机捕获不同角度的着陆区域图片,利用两个视觉信息的差异估计着陆区域的轮廓信息,通过对连续帧之间的像素进行密集采样,计算密集光流并计算同调误差,以检测图像对应区域是否能用于着陆。SLAM是基于信息,对环境进行三维重建,然后估计能够用于着陆的位置区域。基于SLAM的方式很适合没有着陆标记信息的未知环境,但当环境中周围的障碍物很高时,为获得整体的图片,需要很高的俯视信息,此时三维建图的效果不理想。
飞行汽车的着陆过程应主要包含两个阶段:一是着陆区域的检测;二是着陆区域的测距和着陆过程。随着神经网络模型的发展,现阶段着陆区域的检测方法主要包含使用CNN在RGB图像中进行深度估计,并选择平坦的表面着陆(草地,道路等),这种方式无法在具有不同高度的同一类别上平稳着陆(如高低起伏的山地)。另一种方式是使用语义分割的方式,将图像分割为不同的类别,以预测某一区域范围内是否适合着陆。距离的测量可以通过使用其他传感器,如毫米波雷达,也可以使用基于视觉的方法,如在机器人***中常用到的基于平行视图的方法的双目测距。
当前的基于视觉的飞行汽车着陆方法的主要难题:(1)只能在某些特定种类的区域进行着陆,当同一类别的区域高度具有差异时,无法检测其不同,无法安全着陆;(2)基于其他传感器的辅助降落策略,需要处理其他的传感器数据,有些传感器信息(如点云信息)难以处理。
发明内容
本发明的目的在于克服现有技术缺陷,提出了一种基于双目视觉的飞行汽车着陆方法及***。
为了实现上述目的,本发明提出了一种基于双目视觉的飞行汽车着陆方法,基于部署在飞行汽车上的左右两摄像机实现,所述方法包括:
步骤1)对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
步骤2)根据矫正后的平行视图利用双目视觉获得对应的深度图;
步骤3)将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域;
步骤5)根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
所述语义分割模型为改进后的DeepLab v3结构网络。
作为上述方法的一种改进,所述步骤1)包括:
在左右两个摄像机同时捕获的图片上找到不少于8个匹配点,通过计算基础矩阵求解左右图像中的两个极点e′1和e′2,选择透视变换将右视图极点映射到无穷远处,
H′=T-1GR
其中,H′为右摄像机捕获的图像需要矫正的透视变换矩阵,T,G,R分别为中间矩阵,分别满足下式:
Figure BDA0003746572480000021
其中,当e′1>0时,系数α=1,否则α=-1;f为相机焦距;width和height分别为图片的宽度和高度;
H为左摄像机捕获的图像需要矫正的透视变换矩阵,寻找H使得下式最小:
Figure BDA0003746572480000031
其中,pm,p′m分别为左和右摄像机捕获的图像中的第m对像素点的坐标,d(Hpm,H′p′m)表示通过矫正后pm和p′m点之间的距离;
利用两透视变换矩阵H和H′对左右两摄像机捕获的图像进行重采样,获得左右图像平行视图。
作为上述方法的一种改进,所述步骤2)包括:
步骤2-1)利用相关法做左右两矫正图像的对应点对,对于左矫正后的图像中,任一像素点pu,确定该像素点周边4×4范围内的窗格中所有像素点,构成16×1的向量;根据平行视图的性质,遍历右矫正视图中像素点p所在行的所有像素,依次构造同样大小的16×1向量,取与pu点的余弦相似度最大的点,得到与左矫正图像中pu像素点对应的点对p′u
步骤2-2)利用每个对应点对,得到物体的真实深度z:
Figure BDA0003746572480000032
其中,B为双目相机的基线,f为相机焦距;
步骤2-3)遍历图像中的所有点对,获得物体的深度图。
作为上述方法的一种改进,所述步骤3)的语义分割模型的输入为预处理后尺寸为(480,480)左摄像机捕获的图像,输出的数据尺寸为(480,480,num_class),其中,num_class为对应每个像素的语义分割类别,所述语义分割类别包括低植物、路、背景、树、建筑物、汽车或人;所述语义分割模型包括依次连接的主干网络、ASPP层和分类模块;其中,
所述主干网络采用ResNet50网络,包括依次连接的Block1,Block2,Block3和Block 4,其中,在Block3中,将所有卷积核大小为3×3的卷积层都替换为膨胀卷积,设置膨胀系数为2,在Block4中,将所有的3×3卷积核的卷积层都替换为膨胀卷积,设置膨胀系数为4;
所述ASPP层包括五个并联的分支,第一分支为卷积核大小为1×1的卷积层;第二分支、第三分支和第四分支均为卷积核大小为3×3的膨胀卷积,第二分支膨胀系数为12,第三分支膨胀系数为24,第四分支膨胀系数为36;第五分支为全局池化分支,包括一个池化核大小为1×1的全局池化层、卷积核大小为1×1的卷积层、BN和ReLU的激活函数以及双线性插值模块;
所述分类模块包括1×1的卷积层、BN和ReLU层以及通过双线性插值进行8倍的上采样层。
作为上述方法的一种改进,所述步骤4)包括:
步骤4-1)根据深度图,获得当前图像中的最大深度,作为飞行汽车的高度z;使用比例近似公式描述飞行汽车完整降落的边界框尺寸[Ws,Hs],满足下式:
z=k|Ws,Hs|
其中,k为常数,k=1.5;
步骤4-2)对获得的语义分割结果,根据确定的边界框尺寸[Ws,Hs],获得一系列候选区域,并根据自定义的着陆质量分数对其进行排序,并从中选定满足阈值要求的候选区域作为降落区域。
作为上述方法的一种改进,所述步骤4-2)包括:
步骤4-2-1)对于边界框尺寸[Ws,Hs],选取设定的步距,以边界框尺寸大小的窗格滑动遍历语义分割结果;如果在该窗格范围内均为允许降落的像素,则认定该窗格所占区域为可以降落的区域,并将其位置信息保存在着陆候选区域中,从而得到包括若干个着陆候选区域的集合;
步骤4-2-2)根据深度图,在同等像素点位置,分别计算集合中每个着陆候选区域中的像素点深度平均差异qn
Figure BDA0003746572480000041
其中,xi,j,xi,j+1分别表示边界框尺寸[Ws,Hs]中位置(i,j)处和位置(i,j+1)处两个像素点的值;
步骤4-2-3)对集合中的每个着陆候选区域根据风险评估函数计算得到着陆质量分数,并递减排序,从递减排序的着陆质量分数中选定超过设定阈值的最大着陆质量分数,该着陆质量分数对应的候选区域即为降落区域。
作为上述方法的一种改进,所述步骤4-2-3)具体包括:
对每一个候选区域C,定义风险评估函数,得到着陆质量分数HQ:
HQ=α×Hs(C)+βHd(C)+(1-α-β)qn
其中,Hd(C)表示候选区域C到不安全类别的距离,α为平衡系数,α=0.2,β为距离系数,β=0.4,Hs(C)表示候选区域C中存在的语义分割类别,满足下式:
Figure BDA0003746572480000051
其中,maxl(sl)表示在语义分割类别l中取sl的最大值,ml表示l的像素比例,sl表示l对应的不安全系数,满足下式:
Figure BDA0003746572480000052
Hd(C)表示候选区域C的中心距离不允许降落像素的距离,满足下式:
Figure BDA0003746572480000053
其中,dmax表示设定的阈值;
对着陆质量分数HQ递减排序,从中选定满足条件的最大着陆质量分数,该着陆质量分数对应的候选区域即为降落区域。
作为上述方法的一种改进,所述步骤5)的当前时刻的飞行汽车状态为:
Zt=(Xc,Yc,Ws,Hs)T
其中,Xc,Yc表示边界框的形心坐标,由确定的降落区域的边界框[Ws,Hs]的位置计算得到,T表示转置。
一种基于双目视觉的飞行汽车着陆***,基于部署在飞行汽车上的左右两摄像机实现,所述***包括:矫正模块、深度图获取模块、语义分割输出模块、候选区域确定模块、控制输出模块和语义分割模型;其中,
所述矫正模块,用于对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
所述深度图获取模块,用于根据矫正后的平行视图利用双目视觉获得对应的深度图;
所述语义分割输出模块,用于将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
所述候选区域确定模块,用于基于语义分割结果和图像的深度图,确定用于降落的候选区域;
所述控制输出模块,用于根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
所述语义分割模型为改进后的DeepLab v3结构网络。
与现有技术相比,本发明的优势在于:
1、本发明的方法中对于候选区域的选择使用了自定义的风险评估函数,在评估过程中考虑了不同语义类别的降落危险程度;
2、本发明的方法使用基于双目视觉的深度估计过程,在整个下降过程中完全基于相机,无其他传感器的使用,设备简单,降低了成本。
附图说明
图1是本发明的基于双目视觉的飞行汽车着陆方法流程图;
图2是语义分割模型结构图;
图3是语义分类树状图。
具体实施方式
为了实现上述目的,本发明提出了一种基于双目视觉的飞行汽车着陆方法,所述方法包括:
步骤1)飞行汽车两个摄像机捕获的图像的矫正,令左右两相机的图像为平行视图;
步骤2)利用双目视觉获得图像的深度图;
步骤3)利用左相机捕获的图像做基于能否用于降落的语义分割任务;
步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域。
步骤5)根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,由PID发出控制信号进行降落。
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
如图1所示,本发明的实施例1提供了一种基于双目视觉的飞行汽车着陆方法,包括步骤:
1、飞行汽车两个摄像机捕获的图像的矫正,令左右两相机的图像为平行视图
飞行汽车在降落过程中距离地面的距离,通过双目视图生成的深度图获得,为使得计算得到得深度大致精确,需要首先保证左右相机捕获得图像为平行视图;
2、基于左相机捕获的图片的语义分割
在山地中,有时不仅有山地,还有其他植被(如森林)。在训练过程中需要充分考虑,为提高模型的鲁棒性,在训练过程中,使用类别标签更丰富的数据集。对左相机捕获的图像做多类别语义分割任务,对左相机图像,其输出为每个像素代表的类别标签,对于森林,房屋,人群等为不适合降落的标签,而草地,沙砾,道路等为适合降落的标签。
3、确定用于降落的候选区域
为保证平稳降落,需要在深度图中选择深度相差不多的区域,与此同时需要保证该区域的语义分割标签为同一类别,还要保证在当前高度下,飞行汽车自身的尺寸能够在该该区域完整降落,避免因空间不足发生磕碰。
4、PID根据当前时刻飞行汽车状态,发出控制信号。
PID控制器利用选定的候选区域边界框和深度图中的深度信息发出控制信号,控制飞行汽车的降落。
具体实施步骤如下:
步骤1)飞行汽车两个摄像机捕获的图像的矫正,令左右两相机的图像为平行视图;
在左右两个相机捕获的图片上找到不少于8个匹配点,计算基础矩阵求解左右图像中的两极点e′1和e′2,选择透视变换将右视图极点映射到无穷远处。
H′=Y-1GRT
其中:
Figure BDA0003746572480000071
式中,当e′1>0时,α=1,反之α=-1
寻找对应的透视变换矩阵H使得下式最小:
Figure BDA0003746572480000072
其中H和H′为左右摄像机捕获的图像需要矫正的透视变换矩阵,d表示通过变换后两对应点之间的距离;pm,p′m分别为左和右摄像机捕获的图像中的第m对像素点的坐标;
最后利用两变换矩阵H和H′对左右相机捕获的图像进行重采样,获得左右图像平行视图。
步骤2)利用双目视觉获得图像的深度图;
利用相关法做左右两矫正图像的对应点对,对于左矫正后的图像中,任一像素点pu,确定该像素点周边4×4范围内的窗格中所有像素点,构成16×1的向量;根据平行视图的性质,遍历右矫正视图中像素点pu所在行的所有像素,依次构造同样大小的16×1向量,取与pu点的余弦相似度最大的点,得到与左矫正图像中pu像素点对应的点对p′u
利用每个对应点对,得到图像的深度图,如下式所示:
Figure BDA0003746572480000081
其中B为双目相机的基线,f为相机焦距,z为物体的真实深度。遍历图像中的所有点对,获得物体的深度图。
步骤3)利用左相机捕获的图片做基于能否用于降落的语义分割任务,具体包括:
对矫正后的图像做基于深度学习的语义分割任务,具体过程如下:图2为模型结构。
深度学习的网络架构使用以ResNet50为骨干网络的DeepLab v3,首先将左相机捕获的图像做透视变换,以便于和深度图对应,将透视变换后的矫正RGB图像缩放到(480,480)的大小,输入到DeepLab v3,输出的数据尺寸为(480,480,num_class),对应着每个像素处有类别个数个通道数,为每种类别预测的概率分数,其中最大的概率分数所在的通道对应的类别即为该像素的预测标签。
DeepLab v3结构中的Block1,2,3,和4与ResNet50网络中的conv_2,conv_3,conv_4和conv_5的残差结构相对应。为降低网络的计算量,会对输入的图像做下采样,设定卷积核尺寸为7×7,步距大小为2的卷积层,然后使用最大池化,池化核大小为3×3,步距设置为2。下采样后的左摄像机的矫正图像会通过ResNet网络中的一系列残差结构,但为避免分辨率过低,从Block3开始,第一个残差结构不再进行下采样,通过Block2之后,输入的左摄像机的矫正图像已经被下采样8倍,所以Block3和Block4中的第一个残差结构的第一个卷积层以及捷径分支上的步距都设置为1。此外为方便网络的搭建,在Block3当中将所有卷积核大小为3×3的卷积层都替换为膨胀卷积,并设置所有膨胀卷积的膨胀系数都为2。在Block4中,所有的3×3卷积核的卷积层也都改成了膨胀卷积,设置膨胀系数为4。
在Block4输出的特征图上,连接ASPP结构(Atrous Spatial Pyramid Pooling)空洞空间金字塔池化,通过五个并联的分支,其中第一个分支为卷积核大小为1×1的普通卷积层,另外三个分支为卷积核大小为3×3的膨胀卷积,对应的膨胀系数分别设置为(12,24,36),最后一个分支为全局池化分支,在该分支上,有一个池化核大小为1×1的全局池化层,然后使用卷积核大小为1×1的卷积层调整通道数,而后通过BN和ReLU的激活函数,最后通过双线性插值的方式,还原成与输入尺寸一样的特征图。
输出特征图尺寸为(60,60,1280),为实现对原图每一个像素的分类,通过1×1的卷积层更改通道数,使用的1×1卷积核个数为语义分割的类别个数,最后通过BN和ReLU层以及双线性插值做8倍的上采样,此时的特征图通道数不变,尺寸为原左相机的矫正图像的尺寸。此时每个像素处对应有类别个数的通道数,其中数值最大的通道对应的类别信息就是该像素预测的语义分割类别。
步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域
根据深度图,获得当前图像中的最大深度,作为飞行汽车的高度z。确定飞行汽车的长度和宽度尺寸,确定当前高度下,在图像中能够保证飞行汽车完整降落的边界框尺寸记为[Ws,Hs],应当指出,在不同的高度下,在图像中,容纳飞行汽车的降落候选区边界框是不同的。使用比例近似公式描述宽度和高度对飞行汽车高度的依赖性:
z=k|Ws,Hs|
对获得的语义分割结果,根据确定的边界框尺寸,获得一系列候选区域,并根据自定义着陆质量分数对其进行排序。若着陆质量分数超过某一阈值,则可以进行降落,选择超过特定阈值的最大着陆质量分数的候选区域作为降落区域。
在当前高度z下,确定的着陆边界框尺寸为[Ws,Hs],选取的步距大小为3,以当前的边界框尺寸大小的窗格滑动遍历语义分割结果。如果在该窗格范围内没有不允许降落的像素,则该窗格所占的区域被认为是可以降落的区域,并将其位置信息保存在着陆候选区域中。
{c1,c2,...,cn}
根据深度图,在同等像素点位置,计算所有着陆候选区域中的像素点深度的平均差异qn
Figure BDA0003746572480000091
其中,xi,j,xi,j+1分别表示边界框尺寸[Ws,Hs]中位置(i,j)处和位置(i,j+1)处两个像素点的值;
在所有的深度平均差异中,选择差异最小的,意味着在该区域中,其深度变化不明显,适合飞行汽车的平稳着陆,具体实施方式如下:
对每一个候选区域边界框,定义风险评估函数:
HQ=α×Hs(C)+βHd(C)+(1-α-β)qn
其中Hs(C)表示C中存在的语义分割类别,Hd(C)表示C到不安全类别的距离,α为平衡系数,取α=0.2,β=0.4;
Figure BDA0003746572480000101
其中ml表示C中类别l的像素比例,sl表示类别l的不安全系数,可以如下定义:
Figure BDA0003746572480000102
如图3所示,在该树状图中所处位置越低表示该区域越安全。
Hd(C)表示C的中心距离不允许降落像素的距离,如果Hd(C)超过某一阈值,说明该候选区域距离不安全区域的距离很远,表明是安全的。
Figure BDA0003746572480000103
根据计算得到的风险评估函数,排列得到候选区边界框,如果该值超过某一阈值,则将该边界框信息输入到PID控制器中,执行降落阶段。
步骤5)根据确定的降落候选区边界框,确定当前时刻的飞行汽车状态,结合深度图信息,由PID发出控制信号进行降落。
输入到PID中的数据为候选区边界框的位置和尺寸,根据这些数据,确定当前时刻的飞行汽车状态为:
Zt=(Xc,Yc,Ws,Hs)T
其中Xc,Yc表示边界框的形心坐标,由边界框的位置计算得到。
实施例2
本发明的实施例2提出了一种基于双目视觉的飞行汽车着陆***,基于部署在飞行汽车上的左右两摄像机实现,所述***包括:矫正模块、深度图获取模块、语义分割输出模块、候选区域确定模块、控制输出模块和语义分割模型;基于实施例1的方法实现,其中,
矫正模块,用于对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
深度图获取模块,用于根据矫正后的平行视图利用双目视觉获得对应的深度图;
语义分割输出模块,用于将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
候选区域确定模块,用于基于语义分割结果和图像的深度图,确定用于降落的候选区域;
控制输出模块,用于根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
语义分割模型为改进后的DeepLab v3结构网络。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于双目视觉的飞行汽车着陆方法,基于部署在飞行汽车上的左右两摄像机实现,所述方法包括:
步骤1)对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
步骤2)根据矫正后的平行视图利用双目视觉获得对应的深度图;
步骤3)将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域;
步骤5)根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
所述语义分割模型为改进后的DeepLab v3结构网络。
2.根据权利要求1所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤1)包括:
在左右两个摄像机同时捕获的图片上找到不少于8个匹配点,通过计算基础矩阵求解左右图像中的两个极点e′1和e′2,选择透视变换将右视图极点映射到无穷远处,
H′=T-1GR
其中,H′为右摄像机捕获的图像需要矫正的透视变换矩阵,T,G,R分别为中间矩阵,分别满足下式:
Figure FDA0003746572470000011
其中,当e′1>0时,系数α=1,否则α=-1;f为相机焦距;width和height分别为图片的宽度和高度;
H为左摄像机捕获的图像需要矫正的透视变换矩阵,寻找H使得下式最小:
Figure FDA0003746572470000012
其中,pm,p′m分别为左和右摄像机捕获的图像中的第m对像素点的坐标,d(Hpm,H′p′m)表示通过矫正后pm和p′m点之间的距离;
利用两透视变换矩阵H和H′对左右两摄像机捕获的图像进行重采样,获得左右图像平行视图。
3.根据权利要求1所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤2)包括:
步骤2-1)利用相关法做左右两矫正图像的对应点对,对于左矫正后的图像中,任一像素点pu,确定该像素点周边4×4范围内的窗格中所有像素点,构成16×1的向量;根据平行视图的性质,遍历右矫正视图中像素点pu所在行的所有像素,依次构造同样大小的16×1向量,取与pu点的余弦相似度最大的点,得到与左矫正图像中pu像素点对应的点对p′u
步骤2-2)利用每个对应点对,得到物体的真实深度z:
Figure FDA0003746572470000021
其中,B为双目相机的基线,f为相机焦距;
步骤2-3)遍历图像中的所有点对,获得物体的深度图。
4.根据权利要求1所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤3)的语义分割模型的输入为预处理后尺寸为(480,480)左摄像机捕获的图像,输出的数据尺寸为(480,480,num_class),其中,num_class为对应每个像素的语义分割类别,所述语义分割类别包括低植物、路、背景、树、建筑物、汽车或人;所述语义分割模型包括依次连接的主干网络、ASPP层和分类模块;其中,
所述主干网络采用ResNet50网络,包括依次连接的Block1,Block2,Block3和Block 4,其中,在Block3中,将所有卷积核大小为3×3的卷积层都替换为膨胀卷积,设置膨胀系数为2,在Block4中,将所有的3×3卷积核的卷积层都替换为膨胀卷积,设置膨胀系数为4;
所述ASPP层包括五个并联的分支,第一分支为卷积核大小为1×1的卷积层;第二分支、第三分支和第四分支均为卷积核大小为3×3的膨胀卷积,第二分支膨胀系数为12,第三分支膨胀系数为24,第四分支膨胀系数为36;第五分支为全局池化分支,包括一个池化核大小为1×1的全局池化层、卷积核大小为1×1的卷积层、BN和ReLU的激活函数以及双线性插值模块;
所述分类模块包括1×1的卷积层、BN和ReLU层以及通过双线性插值进行8倍的上采样层。
5.根据权利要求1所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤4)包括:
步骤4-1)根据深度图,获得当前图像中的最大深度,作为飞行汽车的高度z;使用比例近似公式描述飞行汽车完整降落的边界框尺寸[Ws,Hs],满足下式:
z=k|Ws,Hs|
其中,k为常数,k=1.5;
步骤4-2)对获得的语义分割结果,根据确定的边界框尺寸[Ws,Hs],获得一系列候选区域,并根据自定义的着陆质量分数对其进行排序,并从中选定满足阈值要求的候选区域作为降落区域。
6.根据权利要求4所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤4-2)包括:
步骤4-2-1)对于边界框尺寸[Ws,Hs],选取设定的步距,以边界框尺寸大小的窗格滑动遍历语义分割结果;如果在该窗格范围内均为允许降落的像素,则认定该窗格所占区域为可以降落的区域,并将其位置信息保存在着陆候选区域中,从而得到包括若干个着陆候选区域的集合;
步骤4-2-2)根据深度图,在同等像素点位置,分别计算集合中每个着陆候选区域中的像素点深度平均差异qn
Figure FDA0003746572470000031
其中,xi,j,xi,j+1分别表示边界框尺寸[Ws,Hs]中位置(i,j)处和位置(i,j+1)处两个像素点的值;
步骤4-2-3)对集合中的每个着陆候选区域根据风险评估函数计算得到着陆质量分数,并递减排序,从递减排序的着陆质量分数中选定超过设定阈值的最大着陆质量分数,该着陆质量分数对应的候选区域即为降落区域。
7.根据权利要求5所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤4-2-3)具体包括:
对每一个候选区域C,定义风险评估函数,得到着陆质量分数HQ:
HQ=α×Hs(C)+βHd(C)+(1-α-β)qn
其中,Hd(C)表示候选区域C到不安全类别的距离,α为平衡系数,α=0.2,β为距离系数,β=0.4,Hs(C)表示候选区域C中存在的语义分割类别,满足下式:
Figure FDA0003746572470000041
其中,maxl(sl)表示在语义分割类别l中取sl的最大值,ml表示l的像素比例,sl表示l对应的不安全系数,满足下式:
Figure FDA0003746572470000042
Hd(C)表示候选区域C的中心距离不允许降落像素的距离,满足下式:
Figure FDA0003746572470000043
其中,dmax表示设定的阈值;
对着陆质量分数HQ递减排序,从中选定满足条件的最大着陆质量分数,该着陆质量分数对应的候选区域即为降落区域。
8.根据权利要求5所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤5)的当前时刻的飞行汽车状态为:
Zt=(Xc,Yc,Ws,Hs)T
其中,Xc,Yc表示边界框的形心坐标,由确定的降落区域的边界框[Ws,Hs]的位置计算得到,T表示转置。
9.一种基于双目视觉的飞行汽车着陆***,基于部署在飞行汽车上的左右两摄像机实现,其特征在于,所述***包括:矫正模块、深度图获取模块、语义分割输出模块、候选区域确定模块、控制输出模块和语义分割模型;其中,
所述矫正模块,用于对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
所述深度图获取模块,用于根据矫正后的平行视图利用双目视觉获得对应的深度图;
所述语义分割输出模块,用于将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
所述候选区域确定模块,用于基于语义分割结果和图像的深度图,确定用于降落的候选区域;
所述控制输出模块,用于根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
所述语义分割模型为改进后的DeepLab v3结构网络。
CN202210833684.8A 2022-07-14 2022-07-14 一种基于双目视觉的飞行汽车山地着陆方法及*** Active CN115187959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210833684.8A CN115187959B (zh) 2022-07-14 2022-07-14 一种基于双目视觉的飞行汽车山地着陆方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210833684.8A CN115187959B (zh) 2022-07-14 2022-07-14 一种基于双目视觉的飞行汽车山地着陆方法及***

Publications (2)

Publication Number Publication Date
CN115187959A true CN115187959A (zh) 2022-10-14
CN115187959B CN115187959B (zh) 2023-04-14

Family

ID=83519060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210833684.8A Active CN115187959B (zh) 2022-07-14 2022-07-14 一种基于双目视觉的飞行汽车山地着陆方法及***

Country Status (1)

Country Link
CN (1) CN115187959B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861938A (zh) * 2023-02-06 2023-03-28 北京中超伟业信息安全技术股份有限公司 一种基于无人机识别的无人机反制方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008848A (zh) * 2019-03-13 2019-07-12 华南理工大学 一种基于双目立体视觉的道路可行驶区域识别方法
US20210215481A1 (en) * 2018-11-09 2021-07-15 Wuyi University Method for measuring antenna downtilt angle based on multi-scale deep semantic segmentation network
CN113359810A (zh) * 2021-07-29 2021-09-07 东北大学 一种基于多传感器的无人机着陆区域识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210215481A1 (en) * 2018-11-09 2021-07-15 Wuyi University Method for measuring antenna downtilt angle based on multi-scale deep semantic segmentation network
CN110008848A (zh) * 2019-03-13 2019-07-12 华南理工大学 一种基于双目立体视觉的道路可行驶区域识别方法
CN113359810A (zh) * 2021-07-29 2021-09-07 东北大学 一种基于多传感器的无人机着陆区域识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861938A (zh) * 2023-02-06 2023-03-28 北京中超伟业信息安全技术股份有限公司 一种基于无人机识别的无人机反制方法及***

Also Published As

Publication number Publication date
CN115187959B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN113359810B (zh) 一种基于多传感器的无人机着陆区域识别方法
CN110796168B (zh) 一种基于改进YOLOv3的车辆检测方法
US11734918B2 (en) Object identification apparatus, moving body system, object identification method, object identification model learning method, and object identification model learning apparatus
WO2019223582A1 (en) Target detection method and system
US11315271B2 (en) Point cloud intensity completion method and system based on semantic segmentation
CN111429514A (zh) 一种融合多帧时序点云的激光雷达3d实时目标检测方法
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及***
CN112001958B (zh) 基于有监督单目深度估计的虚拟点云三维目标检测方法
CN111326023A (zh) 一种无人机航线预警方法、装置、设备及存储介质
CN111563415A (zh) 一种基于双目视觉的三维目标检测***及方法
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及***
CN116258817B (zh) 一种基于多视图三维重建的自动驾驶数字孪生场景构建方法和***
CN109726627A (zh) 一种神经网络模型训练及通用接地线的检测方法
CN113255589B (zh) 一种基于多卷积融合网络的目标检测方法及***
CN108288047A (zh) 一种行人/车辆检测方法
CN115032651A (zh) 一种基于激光雷达与机器视觉融合的目标检测方法
CN115115859A (zh) 基于无人机航拍的长线性工程施工进度智能识别与分析方法
CN115359474A (zh) 适用于移动端的轻量级三维目标检测方法、装置及介质
CN112486197A (zh) 基于多源图像自适应选权的融合定位跟踪控制方法
CN115187959B (zh) 一种基于双目视觉的飞行汽车山地着陆方法及***
Liu et al. A novel trail detection and scene understanding framework for a quadrotor UAV with monocular vision
CN114048536A (zh) 一种基于多任务神经网络的道路结构预测与目标检测方法
Shi et al. Obstacle type recognition in visual images via dilated convolutional neural network for unmanned surface vehicles
CN117115690A (zh) 一种基于深度学习和浅层特征增强的无人机交通目标检测方法及***
CN111950524A (zh) 一种基于双目视觉和rtk的果园局部稀疏建图方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant