CN110908377B - 一种机器人导航空间约简方法 - Google Patents
一种机器人导航空间约简方法 Download PDFInfo
- Publication number
- CN110908377B CN110908377B CN201911173702.9A CN201911173702A CN110908377B CN 110908377 B CN110908377 B CN 110908377B CN 201911173702 A CN201911173702 A CN 201911173702A CN 110908377 B CN110908377 B CN 110908377B
- Authority
- CN
- China
- Prior art keywords
- robot
- path
- path track
- pos
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000009467 reduction Effects 0.000 title claims abstract description 15
- 230000002787 reinforcement Effects 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000004576 sand Substances 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 4
- 239000002245 particle Substances 0.000 claims description 4
- 230000004888 barrier function Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000012634 optical imaging Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 101150077939 mapA gene Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0251—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
- G05D1/028—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using a RF signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Electromagnetism (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Manipulator (AREA)
Abstract
本申请公开了一种机器人导航空间约简方法,包括:机器人利用自身的传感器对周围环境进行扫描,获取周围环境的信息;根据周围环境信息建立二值化六边形栅格地图,地图中标注出可通行区域和不可通行区域,形成原始环境地图;根据原始环境地图中的起点和终点位置,使用沿左手、右手走的规则,获得两条从起点到终点的路径轨迹;确定优化参数K值,对两条路径轨迹进行优化,并将优化后的两条路径轨迹衔接生成约简后新的导航空间;根据机器人初始位置和新的导航空间,强化学习对Q表进行更新,获取机器人的最优运动策略,得到机器人的运动路径。本申请的方法减少了机器人在导航过程中的无效探索空间,收敛快,学习效率高。
Description
技术领域
本申请涉及机器人导航,具体涉及一种机器人导航空间约简方法。
背景技术
移动机器人的一项关键能力是能够在其环境中进行有效的导航,并且强化学习广泛用于移动机器人的路径规划。然而,现有的强化学习是机器人与空间环境进行交互,并得到反馈,这种反馈比较弱小,因此收敛较慢,导致机器学习现有机器人导航算法计算量大、收敛速度慢、学习效率低。
现有的导航地图多采用四边形栅格地图,其中四边形中正方形居多,正方形虽然能够密铺,但在自由度上适用性一般,对于一些不平整的路面,密铺时的衔接效果不理想,导致规划出的导航路径不平滑。另外,现有的强化学习中,未能对机器的导航路径根据生物的导航规律进行优化,未能有效提高学习效率。
公开号为CN106933223A的专利文件公开了一种机器人自主导航方法及***,法包括:预先为导航空间制定虚拟路径,虚拟路径由坐标点及坐标点与坐标点之间的连接关系组成;获取机器人在导航空间中的初始位置和目的地位置,并根据初始位置和目的地位置确定机器人对应在虚拟路径中的初始坐标点和目的地坐标点;采用路径规划算法计算出在虚拟路径中从初始坐标点到达目的地坐标点的最短路径;根据最短路径引导机器人到达目的地坐标点。该发明主要通过最短路线算法来提高效率,并未考虑对空间的约简。
发明内容
发明目的:本申请的目的在于提供一种机器人导航空间约简方法,在保证能学***滑、学习效率低的问题。
技术方案:本申请提供了一种机器人导航空间约简方法,包括以下步骤:
(1)启动机器人,利用机器人的传感器扫描周围环境,对周围环境数据进行数据融合,获取周围环境信息并进行动态更新;
(2)根据获取的周围环境信息利用粒子滤波方法建立六边形栅格地图,在六边形栅格地图中区分并标注出可通行区域和不可通行区域,形成原始环境地图Envpri;
(3)根据原始环境地图Envpri中起点pS和终点pG位置,先后分别令机器人按照第一路径轨迹规则和第二路径轨迹规则形成两条不同的路径轨迹,即第一路径轨迹TL和第二路径轨迹TR,其中,
TL={posL1;posL2;...;posLm},TR={posR1;posR2;...;posRn},其中posL1~posLm和posR1~posRn分别为在轨迹序列中不同的坐标位置;
(4)分别优化第一路径轨迹TL和第二路径轨迹TR,对其进行空间约简,构建较小的新导航环境Envnew;
(5)根据起点pS和终点pG位置,采用强化学习进行更新Q表Q(s,a),其中,s表示状态位置,a表示在不同状态的选取动作;
(6)根据更新后的Q表,获取机器人的运动策略π,运动策略π由多个动作依次组合,最优运动策略π*为:
其中,S为新导航环境Envnew的范围位置; 表示从状态s转移到状态s'的概率,Qπ(s',a')表示在策略π下,Q表中状态s'下选择某一动作a'的状态动作价值,r(s,a)表示在状态s下选取动作a所得回报奖励,γ为期望折扣因子;
根据最优运动策略π*,得到移动机器人的运动路径。
进一步地,传感器包括激光雷达、RGB-D相机,步骤(1)包括:
根据有RGB-D相机获取的深度图像信息和激光雷达扫描的数据进行融合,根据计算公式(1-1)和(1-2)计算得出相机的扫描局部范围信息,并进而计算出RGB-D相机的扫描范围:
其中rR,rC,rL为三维向量,分别代表RGB-D相机获取的图像最右、正中间、最左边的坐标;θmax、θmin分别表示由RGB-D相机转换成虚拟扫描最大、最小角度,θi表示虚拟扫描增量角度,w表示深度图像的宽度值,通过光学成像原理,即可计算机器人到障碍物的距离;
rj为每列图像中距离障碍物的最小值,其中i和j代表图像的行和列,N代表图像的总行数,x、f和Z分别代表光学原点到像素点的距离、相机焦距、物体到成像板的距离;rij表示虚拟扫描原点到障碍物的距离。
进一步地,步骤(2)中,通过以下步骤建立六边形栅格地图:
(21)将周围环境地图细化分隔为等面积的六边形栅格形成栅格地图,根据分辨率需求确定六边形栅格的边长b,通过公式(2-1)计算得出六边形栅格地图的行和列的数量:
其中,X为行数,Y为列数,W和l分别为周围环境的宽和长;
(22)根据周围环境中的障碍物信息,对六边形栅格进行分类;预设每个六边形栅格在Gmapping过程中占有栅格地图的面积比例阈值;
采用基于RBPF的Gmapping算法,通过机器人坐标和朝向以及与障碍物的距离rj计算出障碍物的坐标;
采用bresenham直线段扫面算法,通过概率计算判断出障碍物和可通行区域的可能性大小;
(23)根据障碍物的深度信息,利用式(2-2)进行数据融合:
其中,Mlidar表示激光雷达的信息,Drgb-d表示RGB-D相机的信息,rfusion代表两者融合结果;
若当前六边形栅格的占有率G(Drgb-d,Mlidar)<0.5,则判定为占有,即当前六边形栅格为可通行区域;若G(Drgb-d,Mlidar)>0.5,则判定为非占有,即当前六边形栅格为不可通行区域;在测距范围之外区域定义为未知,即G(Drgb-d,Mlidar)=0.5,据此形成原始环境地图Envpri。
进一步地,步骤(3)中,通过以下步骤形成第一路径轨迹和第二路径轨迹:
先后令机器人从起点开始沿原始环境边缘向第一方向和第二方向行走,第一方向和第二方向的方向相反,分别对应第一路径轨迹和第二路径轨迹;当遇到正前方为障碍物时:
若机器人处于第一路径轨迹时,以自身的第一视角选择向第一方向拐弯,保持机器人行走在原始环境地图范围内;若机器人处于第二路径轨迹时,以自身的第一视角选择向第二方向拐弯,保持机器人行走在原始环境地图范围内;
据此形成第一路径轨迹TL={posL1;posL2;...;posLm}和第二路径轨迹TR={posR1;posR2;...;posRn},其序列长度分别为m和n,posLm和posRn重合,均为终点pG所在位置。
进一步地,在步骤(4)中,通过以下方法构建新导航环境Envnew:
(41)根据传感器性能和优化需求,设置优化步距K值,分别从第一路径轨迹序列TL和第二路径轨迹序列TR中的第一个到m-K和n-K位置,进行优化检测;
(42)判定第一路径与第二路径是否需要优化:
若在第一路径轨迹和第二路径轨迹中,当前位置到目标位置所需的步数超出K步,则判定第一路径轨迹或第二路径轨迹的当前路段需要优化;否则不需要优化;
(43)将原第一路径轨迹或第二路径轨迹中需要优化的路段替换为只需K步即可到达目标位置的路径;
(44)对优化后的第一路径轨迹和第二轨迹路径进行持续优化,直至两路径的序列长度保持不变,形成新的第一路径轨迹TLnew和第二路径轨迹TRnew;
(45)将TLnew和TRnew起点和终点衔接起来,形成一个闭环路径,将闭环路径的内部空间作为新导航环境Envnew。
进一步地,步骤(5)中采用以下方法进行强化学习:
(51)在新导航环境Envnew下,初始化Q表,将Q表中存储的机器人在各种状态s下的动作a的值函数Q(s,a)设置为0;
(52)进行一个回合的强化学习:
(a)初始化状态s0=pS,pS是新导航环境Envnew中设置的起点;
(b)使用ε-greedy策略开始学习,生成的动作at,其中t代表在学习回合中的时间序列,然后执行动作at得到下一个状态st+1和回报r;在状态st+1下使用贪婪策略,在多个动作中选择使值函数Q(st+1,at+1)最大的动作作为动作at+1;更新Q表中Q(st,at)的值:
其中Q(st,at)为更新前t时刻的值函数的值,Q(st,at)m为更新后t时刻的值函数的值;α表示学习率,γ表示期望折扣因子;
(c)更新当前状态,令st=st+1,返回步骤(b),直到状态st为新导航环境Envnew中的终点位置;
(53)执行M个强化学习回合,得到更新后的Q表,M值为初始设置的学习参数,以保证得到足够的训练次数来获得最优运动策略π*。M为一般经验性的设置值,可根据学习的难度、学习率、使用的策略等情况设置。
有益效果:与现有技术相比,本申请公开的机器人导航空间约简方法,利用机器人自带传感器,获取周围环境信息,并通过粒子滤波方法,以及信息融合,建立二值化的六边形栅格地图,分别沿相反方向获得两条运动轨迹,并对运动轨迹优化,约简导航空间,最后利用强化学习训练Q表,得到训练好的Q表。根据训练好的Q表,得到最优运动策略。该方法使得机器人在训练过程中减少了无效探索空间,计算复杂度低,收敛快。
附图说明
图1为本发明的机器人导航空间约简方法的流程图;
图2为机器人建立的六边形栅格地图;
图3为二值化后的六边形栅格地图;
图4为第一路径轨迹和第二路径轨迹形成的闭环路径及约简后的导航空间示意图;
图5为本发明的导航空间约简方法与传统Q-learning方法学习回合数与每回合步数的对比图。
具体实施方式
下面结合附图和实施例对本申请做进一步描述:
本申请提供了一种机器人导航空间约简方法,如图1所示,包括以下步骤:
(1)启动机器人,利用机器人的传感器(例如激光雷达、RGB-D相机)扫描周围环境,对周围环境数据进行数据融合,获取周围环境信息并进行动态更新;包括:
根据有RGB-D相机获取的深度图像信息和激光雷达扫描的数据进行融合,根据计算公式(1-1)和(1-2)计算得出相机的扫描局部范围信息,并进而计算出RGB-D相机的“扫描范围”:
其中rR,rC,rL为三维向量,分别代表RGB-D相机获取的图像最右、正中间、最左边的坐标;θmax、θmin分别表示由RGB-D相机转换成虚拟扫描最大、最小角度,θi表示虚拟扫描增量角度,w表示深度图像的宽度值,通过光学成像原理,即可计算机器人到障碍物的距离;
rj为每列图像中距离障碍物的最小值,其中i和j代表图像的行和列,N为图像的总行数,x、f和Z分别代表光学原点到像素点的距离,相机焦距,物体到成像板的距离,rij表示虚拟扫描原点到物体的距离。
(2)根据获取的周围环境信息利用粒子滤波方法建立六边形栅格地图,如图2所示,用SLAM移动机器人扫描得到的地图,黑色的轮廓粗线就是障碍物。在六边形栅格地图中区分并标注出可通行区域和不可通行区域,并将六边形删的地图二值化,如图3所示,形成原始环境地图Envpri;建立六边形栅格地图的步骤包括:
(21)将周围环境地图细化分隔为等面积的六边形栅格形成栅格地图,根据分辨率需求确定六边形栅格的边长b,通过公式(2-1)计算得出六边形栅格地图的行和列的数量:
其中,X为行数,Y为列数,W和l分别为周围环境的宽和长;
(22)根据周围环境中的障碍物信息,对六边形栅格进行分类;预设每个六边形栅格在Gmapping过程中占有栅格地图的面积比例阈值;
采用基于RBPF的Gmapping算法,通过机器人坐标和朝向以及与障碍物的距离rj计算出障碍物的坐标;
采用bresenham直线段扫面算法,通过概率计算判断出障碍物和可通行区域的可能性大小;
(23)根据障碍物的深度信息(每个像素值表示传感器距离物体的实际距离),利用式(2-2)进行数据融合:
其中,Mlidar表示激光雷达的信息,Drgb-d表示RGB-D相机的信息,rfusion代表两者融合结果;
若当前六边形栅格占有率G(Drgb-d,Mlidar)<0.5则判定为空闲,即当前六边形栅格为可通行区域;若计算出G(Drgb-d,Mlidar)>0.5,则判定为非占有,即当前六边形栅格为不可通行区域;在测距范围之外区域定义为未知,即G(Drgb-d,Mlidar)=0.5,据此形成原始环境地图Envpri。
(3)根据原始环境地图Envpri中起点pS和终点pG位置,先令机器人从起点开始沿原始环境边缘向第一方向走,遇到正前方为障碍物时,以自身的第一视角选择向左拐弯(左手规则),保持机器人行走在原始环境地图范围内,到达终点,即形成第一路径轨迹TL={posL1;posL2;...;posLn},其序列长度为n,表示经过的六边形栅格的数量,其中posL1~posLn为第一路径轨迹中包括的六边形栅格位置;
然后令机器人从起点开始沿原始环境边缘向第二方向走,遇到正前方为障碍物时,以自身的第一视角选择向右拐弯(右手规则),保持机器人行走在原始环境地图范围内,到达终点,即形成第二路径轨迹TR={posR1;posR2;...;posRm},其序列长度为m,表示经过的六边形栅格的数量,其中posR1~posRm为第二路径轨迹中包括的六边形栅格位置。
posRm和posLn分别为第一路径轨迹和第二路径轨迹的终点,二者重合,均为终点pG所在位置。
(4)分别优化第一路径轨迹TL和第二路径轨迹TR,对其进行空间约简,构建较小的新导航环境Envnew;包括以下步骤:
(41)根据传感器性能和优化需求,设置优化参数步距K值,分别从第一路径轨迹序列TL和第二路径轨迹序列TR中的第一个到m-K和n-K位置,进行优化检测;
(42)判定第一路径轨迹与第二路径轨迹是否需要优化,以第一路径轨迹为例:设定目标位置posLj(posLj∈TL),确定当前位置posLi(posLi∈TL)到目标位置posLj的优化参数步距K值,而在路段中,当前位置到目标位置所需的步数超出K步,即j-i>K,则判定该路段需要优化;否则不需要优化;本实施例中K=3;
(43)将原第一路径轨迹中需要优化的路段替换为只需K步即可到达目标位置的路径;
(44)对优化后的第一路径轨迹进行持续优化,直至第一路径轨迹的序列长度保持不变,形成新的第一路径轨迹TLnew;同理,可形成新的第二路径轨迹TRnew;
(45)将新的第一路径轨迹TLnew和新的第二路径轨迹TRnew起点和终点衔接起来,形成一个闭环路径,将闭环路径的空间作为新导航环境Envnew,如图4所示。
(5)根据起点pS和终点pG位置,采用强化学习进行更新Q表;包括:
(51)在新导航环境Envnew下,初始化Q表,将Q表中存储的机器人在各种状态s下的动作a的值函数Q(s,a)设置为0;
(52)进行一个回合的强化学习:
(a)初始化状态s0=pS,pS是新导航环境Envnew中设置的起点;
(b)使用ε-greedy策略开始学习,生成的动作at,其中t代表在学习回合中的时间序列,然后执行动作at得到下一个状态st+1和回报r;在状态st+1下使用贪婪策略,在多个动作中选择使值函数Q(st+1,at+1)最大的动作作为动作at+1;更新Q表中Q(st,at)的值:
其中Q(st,at)为更新前Q(st,at)的值,Q(st,at)m为更新后Q(st,at)的值;α表示学习率,γ表示折扣因子;
(c)更新当前状态,令st=st+1,返回步骤(b),直到状态st为新导航环境Envnew中的终点位置;
(53)执行M个强化学习回合,得到更新后的Q表,M值一般是个初始设置学习的参数,以保证得到足够的训练次数来获得最优运动策略π*。M为经验性的设置值,可根据学习的难度、学习率、使用的策略等情况设置。
(6)根据更新后的Q表,获取机器人的运动策略π,运动策略π由多个动作依次组合,最优运动策略π*为:
其中,S为所述新导航环境的Envnew的范围位置; 表示从状态s转移到状态s'的概率,Qπ(s',a')表示在策略π下,Q表中状态s'下选择某一动作a'的状态动作价值,r(s,a)表示在状态s下选取动作a所得回报奖励。其中s表示状态位置,a表示在不同状态的选取动作,γ为期望折扣因子;
根据最优值函数策略π*,得到移动机器人的运动路径。
由图5可得,与传统强化学习相比,基于本申请提供的机器人导航空间约简方法强化学习(K=3),在使用规则后,在学习过程中每个回合的步数明显少于传统强化学习,收敛速度要明显快于比传统强化学习,由此可见,本申请提供的机器人导航空间约简方法能够有效提高学习效率。
本申请中采用的六边形栅格可以更好的在不平整地面上进行衔接,同样六边形具有更多的自由度,规划出来的路径可以更加平滑,而且许多生物对导航的神经意识也是六边形。关于把六边形栅格地图运用到机器人导航中的研究很少。在生物世界中,动物在制定路径规划时依赖于自己的经验知识。人类具有后验知识,对人们的航行有很大帮助。采用人类行为的后验知识沿墙走的规则技术,沿墙走可以保证在较短步数内找到终点。用沿墙走规则获得的路径,并将其利用起来进行优化,在一定程度上可以把原来的探索空间约简的更小,然后将基于规则的强化学习及六边形地图应用于机器人的导航学习,有效地提高学习效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (5)
1.一种机器人导航空间约简方法,其特征在于,包括以下步骤:
(1)启动机器人,利用所述机器人的传感器扫描周围环境,对周围环境数据进行数据融合,获取周围环境信息并进行动态更新;
(2)根据获取的周围环境信息利用粒子滤波方法建立六边形栅格地图,在所述六边形栅格地图中区分并标注出可通行区域和不可通行区域,形成原始环境地图Envpri;
(3)根据原始环境地图Envpri中起点pS和终点pG位置,先后分别令机器人按照第一路径轨迹规则和第二路径轨迹规则形成两条不同的路径轨迹,即第一路径轨迹TL和第二路径轨迹TR,其具体步骤如下:
先后令机器人从起点开始沿原始环境边缘向第一方向和第二方向行走,所述第一方向和第二方向的方向相反,分别对应第一路径轨迹和第二路径轨迹;当遇到正前方为障碍物时:
若机器人处于第一路径轨迹时,以自身的第一视角选择向第一方向拐弯,保持机器人行走在原始环境地图范围内;若机器人处于第二路径轨迹时,以自身的第一视角选择向第二方向拐弯,保持机器人行走在原始环境地图范围内;
据此形成第一路径轨迹TL={posL1;posL2;...;posLm}和第二路径轨迹TR={posR1;posR2;...;posRn},其序列长度分别为m和n,posLm和posRn重合,均为终点pG所在位置;
其中posL1~posLm和posR1~posRn分别为在轨迹序列中不同的坐标位置;
(4)分别优化所述第一路径轨迹TL和第二路径轨迹TR,对其进行空间约简,构建新导航环境Envnew;
(5)根据起点pS和终点pG位置,采用强化学习进行更新Q表Q(s,a),其中,s表示状态位置,a表示在不同状态的选取动作;
(6)根据更新后的Q表,获取机器人的运动策略π,所述运动策略π由多个动作依次组合,最优运动策略π*为:
其中,S为所述新导航环境Envnew的范围位置; 表示从状态s转移到状态s'的概率,Qπ(s',a')表示在策略π下,Q表中状态s'下选择某一动作a'的状态动作价值,r(s,a)表示在状态s下选取动作a所得回报奖励,γ为期望折扣因子;
根据最优运动策略π*,得到移动机器人的运动路径。
2.根据权利要求1所述的方法,其特征在于,所述传感器包括激光雷达、RGB-D相机,步骤(1)包括:
根据有RGB-D相机获取的深度图像信息和激光雷达扫描的数据进行融合,根据计算公式(1-1)和(1-2)计算得出相机的扫描局部范围信息,并进而计算出RGB-D相机的扫描范围:
其中rR,rC,rL为三维向量,分别代表RGB-D相机获取的图像最右、正中间、最左边的坐标;θmax、θmin分别表示由RGB-D相机转换成虚拟扫描最大、最小角度,θi表示虚拟扫描增量角度,w表示深度图像的宽度值,通过光学成像原理,即可计算机器人到障碍物的距离;
其中i和j代表图像的行和列,N代表图像的总行数,x、f和Z分别代表光学原点到像素点的距离、相机焦距和物体到成像板的距离;rij表示虚拟扫描原点到障碍物的距离。
3.根据权利要求2所述的方法,其特征在于,步骤(2)中,通过以下步骤建立所述六边形栅格地图:
(21)将周围环境地图细化分隔为等面积的六边形栅格形成栅格地图,根据分辨率需求确定所述六边形栅格的边长b,通过公式(2-1)计算得出六边形栅格地图的行和列的数量:
其中,X为行数,y为列数,W和l分别为周围环境的宽和长;
(22)根据周围环境中的障碍物信息,对所述六边形栅格进行分类;预设每个六边形栅格在Gmapping过程中占有栅格地图的面积比例阈值;
采用基于RBPF的Gmapping算法,通过机器人坐标和朝向以及与障碍物的距离rj计算出障碍物的坐标;
采用bresenham直线段扫面算法,通过概率计算判断出障碍物和可通行区域的可能性大小;
(23)根据障碍物的深度信息,利用式(2-2)进行数据融合:
其中,Mlidar表示激光雷达的信息,Drgb-d表示RGB-D相机的信息,rfusion代表两者融合结果;
若当前六边形栅格的占有率G(Drgb-d,Mlidar)<0.5,则判定为占有,即当前六边形栅格为可通行区域;若G(Drgb-d,Mlidar)>0.5,则判定为非占有,即当前六边形栅格为不可通行区域;在测距范围之外区域定义为未知,即G(Drgb-d,Mlidar)=0.5,据此形成原始环境地图Envpri。
4.根据权利要求1所述的方法,其特征在于,在步骤(4)中,通过以下方法构建新导航环境Envnew:
(41)根据传感器性能和优化需求,设置优化步距K值,分别从第一路径轨迹序列TL和第二路径轨迹序列TR中的第一个到m-K和n-K位置,进行优化检测;
(42)判定所述第一路径与所述第二路径是否需要优化:
若在所述第一路径轨迹和所述第二路径轨迹中,当前位置到目标位置所需的步数超出K步,则判定第一路径轨迹或第二路径轨迹的当前路段需要优化;否则不需要优化;
(43)将原第一路径轨迹或第二路径轨迹中需要优化的路段替换为只需K步即可到达目标位置的路径;
(44)对优化后的第一路径轨迹和第二轨迹路径进行持续优化,直至两路径的序列长度保持不变,形成新的第一路径轨迹TLnew和第二路径轨迹TRnew;
(45)将TLnew和TRnew起点和终点衔接起来,形成一个闭环路径,将所述闭环路径的内部空间作为新导航环境Envnew。
5.根据权利要求4所述的方法,其特征在于,步骤(5)中采用以下方法进行强化学习:
(51)在所述新导航环境Envnew下,初始化Q表,将所述Q表中存储的机器人在各种状态s下的动作a的值函数Q(s,a)设置为0;
(52)进行一个回合的强化学习:
(a)初始化状态s0=pS,pS是所述新导航环境Envnew中设置的起点;
(b)使用ε-greedy策略开始学习,生成动作at,其中t代表在学习回合中的时间序列,然后执行动作at得到下一个状态st+1和回报r;在状态st+1下使用贪婪策略,在多个动作中选择使值函数Q(st+1,at+1)最大的动作作为动作at+1;更新Q表中Q(st,at)的值:
其中Q(st,at)为更新前t时刻的值函数的值,Q(st,at)m为更新后t时刻的值函数的值;α表示学习率,γ表示期望折扣因子;
(c)更新当前状态,令st=st+1,返回步骤(b),直到状态st为所述新导航环境Envnew中的终点位置;
(53)执行M个强化学习回合,得到更新后的Q表,M值为初始设置的学习参数,以保证得到足够的训练次数来获得最优运动策略π*。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911173702.9A CN110908377B (zh) | 2019-11-26 | 2019-11-26 | 一种机器人导航空间约简方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911173702.9A CN110908377B (zh) | 2019-11-26 | 2019-11-26 | 一种机器人导航空间约简方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110908377A CN110908377A (zh) | 2020-03-24 |
CN110908377B true CN110908377B (zh) | 2021-04-27 |
Family
ID=69819592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911173702.9A Active CN110908377B (zh) | 2019-11-26 | 2019-11-26 | 一种机器人导航空间约简方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110908377B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111839926B (zh) * | 2020-06-18 | 2022-04-12 | 南京邮电大学 | 一种头姿交互控制与自主学习控制共享的轮椅控制方法及*** |
CN111856436A (zh) * | 2020-07-02 | 2020-10-30 | 大连理工大学 | 一种多线激光雷达和红外相机的联合标定装置及标定方法 |
CN111854651A (zh) * | 2020-07-20 | 2020-10-30 | 武汉科技大学 | 基于slam的室内建筑面积实时测量方法 |
CN111949032A (zh) * | 2020-08-18 | 2020-11-17 | 中国科学技术大学 | 一种基于强化学习的3d避障导航***及方法 |
CN113589821A (zh) * | 2020-08-20 | 2021-11-02 | 深圳市海柔创新科技有限公司 | 仓库机器人导航路线预约 |
CN112484718B (zh) * | 2020-11-30 | 2023-07-28 | 海之韵(苏州)科技有限公司 | 一种基于环境地图修正的边沿导航的装置和方法 |
CN112558605B (zh) * | 2020-12-06 | 2022-12-16 | 北京工业大学 | 基于纹状体结构的机器人行为学习***及其学习方法 |
CN113110482B (zh) * | 2021-04-29 | 2022-07-19 | 苏州大学 | 基于先验信息启发式的室内环境机器人探索方法及*** |
CN113721603B (zh) * | 2021-07-29 | 2023-08-08 | 云鲸智能(深圳)有限公司 | 基站探索方法、装置、机器人及可读存储介质 |
CN113804201B (zh) * | 2021-10-27 | 2024-01-09 | 南京极目机器人科技有限公司 | 对包含目标特征的作业对象的导航方法、装置及电子设备 |
CN114019977B (zh) * | 2021-11-03 | 2024-06-04 | 诺力智能装备股份有限公司 | 移动机器人的路径控制方法、装置、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001078951A1 (en) * | 2000-04-13 | 2001-10-25 | Zhimin Lin | Semi-optimal path finding in a wholly unknown environment |
CN101110100A (zh) * | 2006-07-17 | 2008-01-23 | 松下电器产业株式会社 | 检测图像的几何形状的方法和装置 |
CN106933223A (zh) * | 2015-12-30 | 2017-07-07 | 深圳市朗驰欣创科技股份有限公司 | 一种机器人自主导航方法及*** |
CN108415432A (zh) * | 2018-03-09 | 2018-08-17 | 珠海市微半导体有限公司 | 机器人基于直边的定位方法 |
CN109116854A (zh) * | 2018-09-16 | 2019-01-01 | 南京大学 | 一种基于强化学习的多组机器人协作控制方法及控制*** |
CN109146082A (zh) * | 2017-06-27 | 2019-01-04 | 发那科株式会社 | 机器学习装置、机器人控制***和机器学习方法 |
CN110307848A (zh) * | 2019-07-04 | 2019-10-08 | 南京大学 | 一种移动机器人导航方法 |
CN110389591A (zh) * | 2019-08-29 | 2019-10-29 | 哈尔滨工程大学 | 一种基于dbq算法的路径规划方法 |
-
2019
- 2019-11-26 CN CN201911173702.9A patent/CN110908377B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001078951A1 (en) * | 2000-04-13 | 2001-10-25 | Zhimin Lin | Semi-optimal path finding in a wholly unknown environment |
CN101110100A (zh) * | 2006-07-17 | 2008-01-23 | 松下电器产业株式会社 | 检测图像的几何形状的方法和装置 |
CN106933223A (zh) * | 2015-12-30 | 2017-07-07 | 深圳市朗驰欣创科技股份有限公司 | 一种机器人自主导航方法及*** |
CN109146082A (zh) * | 2017-06-27 | 2019-01-04 | 发那科株式会社 | 机器学习装置、机器人控制***和机器学习方法 |
CN108415432A (zh) * | 2018-03-09 | 2018-08-17 | 珠海市微半导体有限公司 | 机器人基于直边的定位方法 |
CN109116854A (zh) * | 2018-09-16 | 2019-01-01 | 南京大学 | 一种基于强化学习的多组机器人协作控制方法及控制*** |
CN110307848A (zh) * | 2019-07-04 | 2019-10-08 | 南京大学 | 一种移动机器人导航方法 |
CN110389591A (zh) * | 2019-08-29 | 2019-10-29 | 哈尔滨工程大学 | 一种基于dbq算法的路径规划方法 |
Non-Patent Citations (2)
Title |
---|
An event-based probabilistic Q-learning method for navigation control of mobile robots;Dongdong Xu,et al.;《Proceeding of the 11th World Congress on Intelligent Control and Automation》;20150305;第587-592页 * |
唐开强等.约束条件下基于强化学习的六足机器人步态规划.《第18届中国***仿真技术及其应用学术年会论文集(18th CCSSTA 2017) 》.2017,第18卷 * |
Also Published As
Publication number | Publication date |
---|---|
CN110908377A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110908377B (zh) | 一种机器人导航空间约简方法 | |
Chen et al. | Deep imitation learning for autonomous driving in generic urban scenarios with enhanced safety | |
CN111587408B (zh) | 机器人导航和对象跟踪 | |
Cunningham et al. | MPDM: Multipolicy decision-making in dynamic, uncertain environments for autonomous driving | |
CN111098852B (zh) | 一种基于强化学习的泊车路径规划方法 | |
CN112348846A (zh) | 图像序列上对象检测和跟踪的人工智能驱动基准真值生成 | |
EP3693944A1 (en) | Method and device for short-term path planning of autonomous driving through information fusion by using v2x communication and image processing | |
CN111610786B (zh) | 基于改进rrt算法的移动机器人路径规划方法 | |
CN112000754A (zh) | 地图构建方法、装置、存储介质及计算机设备 | |
Xu et al. | icurb: Imitation learning-based detection of road curbs using aerial images for autonomous driving | |
CN110986945B (zh) | 基于语义高度地图的局部导航方法和*** | |
JP2020123346A (ja) | 各領域において最適化された自律走行を遂行できるように位置基盤アルゴリズムの選択によってシームレスパラメータ変更を遂行する方法及び装置 | |
CN110764518A (zh) | 水下清淤机器人路径规划方法、装置、机器人和存储介质 | |
CN116540731B (zh) | 融合堆叠lstm与sac算法的路径规划方法及*** | |
JP6865342B2 (ja) | Cnn基盤車線検出のための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
Short et al. | Abio-inspiredalgorithminimage-based pathplanning and localization using visual features and maps | |
Dashora et al. | Hybrid imitative planning with geometric and predictive costs in off-road environments | |
Jin et al. | Safe-Nav: learning to prevent PointGoal navigation failure in unknown environments | |
CN112212867B (zh) | 一种机器人自定位与导航的方法及*** | |
Chen et al. | Navigable space construction from sparse noisy point clouds | |
Bellusci et al. | Semantic interpretation of raw survey vehicle sensory data for lane-level HD map generation | |
CN117029846A (zh) | 一种复杂环境下移动机器人的广义激光测距路径规划算法 | |
CN111310919A (zh) | 基于场景切分和局部路径规划的驾驶控制策略训练方法 | |
CN116203972A (zh) | 一种未知环境探索路径规划方法、***、设备及介质 | |
Ma et al. | DeepGoal: Learning to drive with driving intention from human control demonstration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |