CN110908377B

CN110908377B - 一种机器人导航空间约简方法

Info

Publication number: CN110908377B
Application number: CN201911173702.9A
Authority: CN
Inventors: 陈春林; 朱远洋; 伍雪菲; 王志; 辛博; 朱张青
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-04-27
Anticipated expiration: 2039-11-26
Also published as: CN110908377A

Abstract

本申请公开了一种机器人导航空间约简方法，包括：机器人利用自身的传感器对周围环境进行扫描，获取周围环境的信息；根据周围环境信息建立二值化六边形栅格地图，地图中标注出可通行区域和不可通行区域，形成原始环境地图；根据原始环境地图中的起点和终点位置，使用沿左手、右手走的规则，获得两条从起点到终点的路径轨迹；确定优化参数K值，对两条路径轨迹进行优化，并将优化后的两条路径轨迹衔接生成约简后新的导航空间；根据机器人初始位置和新的导航空间，强化学习对Q表进行更新，获取机器人的最优运动策略，得到机器人的运动路径。本申请的方法减少了机器人在导航过程中的无效探索空间，收敛快，学习效率高。

Description

一种机器人导航空间约简方法

技术领域

本申请涉及机器人导航，具体涉及一种机器人导航空间约简方法。

背景技术

移动机器人的一项关键能力是能够在其环境中进行有效的导航，并且强化学习广泛用于移动机器人的路径规划。然而，现有的强化学习是机器人与空间环境进行交互，并得到反馈，这种反馈比较弱小，因此收敛较慢，导致机器学习现有机器人导航算法计算量大、收敛速度慢、学习效率低。

现有的导航地图多采用四边形栅格地图，其中四边形中正方形居多，正方形虽然能够密铺，但在自由度上适用性一般，对于一些不平整的路面，密铺时的衔接效果不理想，导致规划出的导航路径不平滑。另外，现有的强化学习中，未能对机器的导航路径根据生物的导航规律进行优化，未能有效提高学习效率。

公开号为CN106933223A的专利文件公开了一种机器人自主导航方法及***，法包括：预先为导航空间制定虚拟路径，虚拟路径由坐标点及坐标点与坐标点之间的连接关系组成；获取机器人在导航空间中的初始位置和目的地位置，并根据初始位置和目的地位置确定机器人对应在虚拟路径中的初始坐标点和目的地坐标点；采用路径规划算法计算出在虚拟路径中从初始坐标点到达目的地坐标点的最短路径；根据最短路径引导机器人到达目的地坐标点。该发明主要通过最短路线算法来提高效率，并未考虑对空间的约简。

发明内容

发明目的：本申请的目的在于提供一种机器人导航空间约简方法，在保证能学***滑、学习效率低的问题。

技术方案：本申请提供了一种机器人导航空间约简方法，包括以下步骤：

(1)启动机器人，利用机器人的传感器扫描周围环境，对周围环境数据进行数据融合，获取周围环境信息并进行动态更新；

(2)根据获取的周围环境信息利用粒子滤波方法建立六边形栅格地图，在六边形栅格地图中区分并标注出可通行区域和不可通行区域，形成原始环境地图Env_pri；

(3)根据原始环境地图Env_pri中起点p_S和终点p_G位置，先后分别令机器人按照第一路径轨迹规则和第二路径轨迹规则形成两条不同的路径轨迹，即第一路径轨迹T_L和第二路径轨迹T_R，其中，

T_L＝{pos_L1；pos_L2；...；pos_Lm}，T_R＝{pos_R1；pos_R2；...；pos_Rn}，其中pos_L1～pos_Lm和pos_R1～pos_Rn分别为在轨迹序列中不同的坐标位置；

(4)分别优化第一路径轨迹T_L和第二路径轨迹T_R，对其进行空间约简，构建较小的新导航环境Env_new；

(5)根据起点p_S和终点p_G位置，采用强化学习进行更新Q表Q(s,a)，其中，s表示状态位置，a表示在不同状态的选取动作；

(6)根据更新后的Q表，获取机器人的运动策略π，运动策略π由多个动作依次组合，最优运动策略π^*为：

其中，S为新导航环境Env_new的范围位置；

表示从状态s转移到状态s'的概率，Q^π(s',a')表示在策略π下，Q表中状态s'下选择某一动作a'的状态动作价值，r(s,a)表示在状态s下选取动作a所得回报奖励，γ为期望折扣因子；

根据最优运动策略π^*，得到移动机器人的运动路径。

进一步地，传感器包括激光雷达、RGB-D相机，步骤(1)包括：

根据有RGB-D相机获取的深度图像信息和激光雷达扫描的数据进行融合，根据计算公式(1-1)和(1-2)计算得出相机的扫描局部范围信息，并进而计算出RGB-D相机的扫描范围：

其中r_R,r_C,r_L为三维向量，分别代表RGB-D相机获取的图像最右、正中间、最左边的坐标；θ_max、θ_min分别表示由RGB-D相机转换成虚拟扫描最大、最小角度，θ_i表示虚拟扫描增量角度，w表示深度图像的宽度值，通过光学成像原理，即可计算机器人到障碍物的距离；

r_j为每列图像中距离障碍物的最小值，其中i和j代表图像的行和列，N代表图像的总行数，x、f和Z分别代表光学原点到像素点的距离、相机焦距、物体到成像板的距离；r_ij表示虚拟扫描原点到障碍物的距离。

进一步地，步骤(2)中，通过以下步骤建立六边形栅格地图：

(21)将周围环境地图细化分隔为等面积的六边形栅格形成栅格地图，根据分辨率需求确定六边形栅格的边长b，通过公式(2-1)计算得出六边形栅格地图的行和列的数量：

其中，X为行数，Y为列数，W和l分别为周围环境的宽和长；

(22)根据周围环境中的障碍物信息，对六边形栅格进行分类；预设每个六边形栅格在Gmapping过程中占有栅格地图的面积比例阈值；

采用基于RBPF的Gmapping算法，通过机器人坐标和朝向以及与障碍物的距离r_j计算出障碍物的坐标；

采用bresenham直线段扫面算法，通过概率计算判断出障碍物和可通行区域的可能性大小；

(23)根据障碍物的深度信息，利用式(2-2)进行数据融合：

其中，M_lidar表示激光雷达的信息，D_rgb-d表示RGB-D相机的信息，r_fusion代表两者融合结果；

若当前六边形栅格的占有率G(D_rgb-d,M_lidar)<0.5,则判定为占有，即当前六边形栅格为可通行区域；若G(D_rgb-d,M_lidar)>0.5，则判定为非占有，即当前六边形栅格为不可通行区域；在测距范围之外区域定义为未知，即G(D_rgb-d,M_lidar)＝0.5，据此形成原始环境地图Env_pri。

进一步地，步骤(3)中，通过以下步骤形成第一路径轨迹和第二路径轨迹：

先后令机器人从起点开始沿原始环境边缘向第一方向和第二方向行走，第一方向和第二方向的方向相反，分别对应第一路径轨迹和第二路径轨迹；当遇到正前方为障碍物时：

若机器人处于第一路径轨迹时，以自身的第一视角选择向第一方向拐弯，保持机器人行走在原始环境地图范围内；若机器人处于第二路径轨迹时，以自身的第一视角选择向第二方向拐弯，保持机器人行走在原始环境地图范围内；

据此形成第一路径轨迹T_L＝{pos_L1；pos_L2；...；pos_Lm}和第二路径轨迹T_R＝{pos_R1；pos_R2；...；pos_Rn}，其序列长度分别为m和n，pos_Lm和pos_Rn重合，均为终点p_G所在位置。

进一步地，在步骤(4)中，通过以下方法构建新导航环境Env_new：

(41)根据传感器性能和优化需求，设置优化步距K值，分别从第一路径轨迹序列T_L和第二路径轨迹序列T_R中的第一个到m-K和n-K位置,进行优化检测；

(42)判定第一路径与第二路径是否需要优化：

若在第一路径轨迹和第二路径轨迹中，当前位置到目标位置所需的步数超出K步，则判定第一路径轨迹或第二路径轨迹的当前路段需要优化；否则不需要优化；

(43)将原第一路径轨迹或第二路径轨迹中需要优化的路段替换为只需K步即可到达目标位置的路径；

(44)对优化后的第一路径轨迹和第二轨迹路径进行持续优化，直至两路径的序列长度保持不变，形成新的第一路径轨迹T_Lnew和第二路径轨迹T_Rnew；

(45)将T_Lnew和T_Rnew起点和终点衔接起来，形成一个闭环路径，将闭环路径的内部空间作为新导航环境Env_new。

进一步地，步骤(5)中采用以下方法进行强化学习：

(51)在新导航环境Env_new下，初始化Q表，将Q表中存储的机器人在各种状态s下的动作a的值函数Q(s,a)设置为0；

(52)进行一个回合的强化学习：

(a)初始化状态s₀＝p_S，p_S是新导航环境Env_new中设置的起点；

(b)使用ε-greedy策略开始学习，生成的动作a_t，其中t代表在学习回合中的时间序列，然后执行动作a_t得到下一个状态s_t+1和回报r；在状态s_t+1下使用贪婪策略，在多个动作中选择使值函数Q(s_t+1,a_t+1)最大的动作作为动作a_t+1；更新Q表中Q(s_t,a_t)的值：

其中Q(s_t,a_t)为更新前t时刻的值函数的值，Q(s_t,a_t)_m为更新后t时刻的值函数的值；α表示学习率，γ表示期望折扣因子；

(c)更新当前状态，令s_t＝s_t+1，返回步骤(b)，直到状态s_t为新导航环境Env_new中的终点位置；

(53)执行M个强化学习回合，得到更新后的Q表，M值为初始设置的学习参数，以保证得到足够的训练次数来获得最优运动策略π^*。M为一般经验性的设置值，可根据学习的难度、学习率、使用的策略等情况设置。

有益效果：与现有技术相比，本申请公开的机器人导航空间约简方法，利用机器人自带传感器，获取周围环境信息，并通过粒子滤波方法，以及信息融合，建立二值化的六边形栅格地图，分别沿相反方向获得两条运动轨迹，并对运动轨迹优化，约简导航空间，最后利用强化学习训练Q表，得到训练好的Q表。根据训练好的Q表，得到最优运动策略。该方法使得机器人在训练过程中减少了无效探索空间，计算复杂度低，收敛快。

附图说明

图1为本发明的机器人导航空间约简方法的流程图；

图2为机器人建立的六边形栅格地图；

图3为二值化后的六边形栅格地图；

图4为第一路径轨迹和第二路径轨迹形成的闭环路径及约简后的导航空间示意图；

图5为本发明的导航空间约简方法与传统Q-learning方法学习回合数与每回合步数的对比图。

具体实施方式

下面结合附图和实施例对本申请做进一步描述：

本申请提供了一种机器人导航空间约简方法，如图1所示，包括以下步骤：

(1)启动机器人，利用机器人的传感器(例如激光雷达、RGB-D相机)扫描周围环境，对周围环境数据进行数据融合，获取周围环境信息并进行动态更新；包括：

根据有RGB-D相机获取的深度图像信息和激光雷达扫描的数据进行融合，根据计算公式(1-1)和(1-2)计算得出相机的扫描局部范围信息，并进而计算出RGB-D相机的“扫描范围”：

r_j为每列图像中距离障碍物的最小值，其中i和j代表图像的行和列，N为图像的总行数，x、f和Z分别代表光学原点到像素点的距离，相机焦距，物体到成像板的距离，r_ij表示虚拟扫描原点到物体的距离。

(2)根据获取的周围环境信息利用粒子滤波方法建立六边形栅格地图，如图2所示，用SLAM移动机器人扫描得到的地图，黑色的轮廓粗线就是障碍物。在六边形栅格地图中区分并标注出可通行区域和不可通行区域，并将六边形删的地图二值化，如图3所示，形成原始环境地图Env_pri；建立六边形栅格地图的步骤包括：

(21)将周围环境地图细化分隔为等面积的六边形栅格形成栅格地图，根据分辨率需求确定六边形栅格的边长b,通过公式(2-1)计算得出六边形栅格地图的行和列的数量：

其中，X为行数，Y为列数，W和l分别为周围环境的宽和长；

(23)根据障碍物的深度信息(每个像素值表示传感器距离物体的实际距离)，利用式(2-2)进行数据融合：

若当前六边形栅格占有率G(D_rgb-d,M_lidar)<0.5则判定为空闲，即当前六边形栅格为可通行区域；若计算出G(D_rgb-d,M_lidar)>0.5，则判定为非占有，即当前六边形栅格为不可通行区域；在测距范围之外区域定义为未知，即G(D_rgb-d,M_lidar)＝0.5，据此形成原始环境地图Env_pri。

(3)根据原始环境地图Env_pri中起点p_S和终点p_G位置，先令机器人从起点开始沿原始环境边缘向第一方向走，遇到正前方为障碍物时，以自身的第一视角选择向左拐弯(左手规则)，保持机器人行走在原始环境地图范围内，到达终点，即形成第一路径轨迹T_L＝{pos_L1；pos_L2；...；pos_Ln}，其序列长度为n,表示经过的六边形栅格的数量，其中pos_L1～pos_Ln为第一路径轨迹中包括的六边形栅格位置；

然后令机器人从起点开始沿原始环境边缘向第二方向走，遇到正前方为障碍物时，以自身的第一视角选择向右拐弯(右手规则)，保持机器人行走在原始环境地图范围内，到达终点，即形成第二路径轨迹T_R＝{pos_R1；pos_R2；...；pos_Rm}，其序列长度为m,表示经过的六边形栅格的数量，其中pos_R1～pos_Rm为第二路径轨迹中包括的六边形栅格位置。

pos_Rm和pos_Ln分别为第一路径轨迹和第二路径轨迹的终点，二者重合，均为终点p_G所在位置。

(4)分别优化第一路径轨迹T_L和第二路径轨迹T_R，对其进行空间约简，构建较小的新导航环境Env_new；包括以下步骤：

(41)根据传感器性能和优化需求，设置优化参数步距K值，分别从第一路径轨迹序列T_L和第二路径轨迹序列T_R中的第一个到m-K和n-K位置,进行优化检测；

(42)判定第一路径轨迹与第二路径轨迹是否需要优化，以第一路径轨迹为例：设定目标位置pos_Lj(pos_Lj∈T_L)，确定当前位置pos_Li(pos_Li∈T_L)到目标位置pos_Lj的优化参数步距K值，而在路段

中，当前位置到目标位置所需的步数超出K步，即j-i>K，则判定该路段需要优化；否则不需要优化；本实施例中K＝3；

(43)将原第一路径轨迹中需要优化的路段替换为只需K步即可到达目标位置的路径；

(44)对优化后的第一路径轨迹进行持续优化，直至第一路径轨迹的序列长度保持不变，形成新的第一路径轨迹T_Lnew；同理，可形成新的第二路径轨迹T_Rnew；

(45)将新的第一路径轨迹T_Lnew和新的第二路径轨迹T_Rnew起点和终点衔接起来，形成一个闭环路径，将闭环路径的空间作为新导航环境Env_new，如图4所示。

(5)根据起点p_S和终点p_G位置，采用强化学习进行更新Q表；包括：

(52)进行一个回合的强化学习：

其中Q(s_t,a_t)为更新前Q(s_t,a_t)的值，Q(s_t,a_t)_m为更新后Q(s_t,a_t)的值；α表示学习率，γ表示折扣因子；

(53)执行M个强化学习回合，得到更新后的Q表，M值一般是个初始设置学习的参数，以保证得到足够的训练次数来获得最优运动策略π^*。M为经验性的设置值，可根据学习的难度、学习率、使用的策略等情况设置。

其中，S为所述新导航环境的Env_new的范围位置；

表示从状态s转移到状态s'的概率，Q^π(s',a')表示在策略π下，Q表中状态s'下选择某一动作a'的状态动作价值，r(s,a)表示在状态s下选取动作a所得回报奖励。其中s表示状态位置，a表示在不同状态的选取动作，γ为期望折扣因子；

根据最优值函数策略π^*，得到移动机器人的运动路径。

由图5可得，与传统强化学习相比，基于本申请提供的机器人导航空间约简方法强化学习(K＝3)，在使用规则后，在学习过程中每个回合的步数明显少于传统强化学习，收敛速度要明显快于比传统强化学习，由此可见，本申请提供的机器人导航空间约简方法能够有效提高学习效率。

本申请中采用的六边形栅格可以更好的在不平整地面上进行衔接，同样六边形具有更多的自由度，规划出来的路径可以更加平滑，而且许多生物对导航的神经意识也是六边形。关于把六边形栅格地图运用到机器人导航中的研究很少。在生物世界中，动物在制定路径规划时依赖于自己的经验知识。人类具有后验知识，对人们的航行有很大帮助。采用人类行为的后验知识沿墙走的规则技术，沿墙走可以保证在较短步数内找到终点。用沿墙走规则获得的路径，并将其利用起来进行优化，在一定程度上可以把原来的探索空间约简的更小，然后将基于规则的强化学习及六边形地图应用于机器人的导航学习，有效地提高学习效率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种机器人导航空间约简方法，其特征在于，包括以下步骤：

(1)启动机器人，利用所述机器人的传感器扫描周围环境，对周围环境数据进行数据融合，获取周围环境信息并进行动态更新；

(2)根据获取的周围环境信息利用粒子滤波方法建立六边形栅格地图，在所述六边形栅格地图中区分并标注出可通行区域和不可通行区域，形成原始环境地图Env_pri；

(3)根据原始环境地图Env_pri中起点p_S和终点p_G位置，先后分别令机器人按照第一路径轨迹规则和第二路径轨迹规则形成两条不同的路径轨迹，即第一路径轨迹T_L和第二路径轨迹T_R，其具体步骤如下：

先后令机器人从起点开始沿原始环境边缘向第一方向和第二方向行走，所述第一方向和第二方向的方向相反，分别对应第一路径轨迹和第二路径轨迹；当遇到正前方为障碍物时：

据此形成第一路径轨迹T_L＝{pos_L1；pos_L2；...；pos_Lm}和第二路径轨迹T_R＝{pos_R1；pos_R2；...；pos_Rn}，其序列长度分别为m和n，pos_Lm和pos_Rn重合，均为终点p_G所在位置；

其中pos_L1～pos_Lm和pos_R1～pos_Rn分别为在轨迹序列中不同的坐标位置；

(4)分别优化所述第一路径轨迹T_L和第二路径轨迹T_R，对其进行空间约简，构建新导航环境Env_new；

(6)根据更新后的Q表，获取机器人的运动策略π，所述运动策略π由多个动作依次组合，最优运动策略π^*为：

其中，S为所述新导航环境Env_new的范围位置；

根据最优运动策略π^*，得到移动机器人的运动路径。

2.根据权利要求1所述的方法，其特征在于，所述传感器包括激光雷达、RGB-D相机，步骤(1)包括：

其中i和j代表图像的行和列，N代表图像的总行数，x、f和Z分别代表光学原点到像素点的距离、相机焦距和物体到成像板的距离；r_ij表示虚拟扫描原点到障碍物的距离。

3.根据权利要求2所述的方法，其特征在于，步骤(2)中，通过以下步骤建立所述六边形栅格地图：

(21)将周围环境地图细化分隔为等面积的六边形栅格形成栅格地图，根据分辨率需求确定所述六边形栅格的边长b，通过公式(2-1)计算得出六边形栅格地图的行和列的数量：

其中，X为行数，y为列数，W和l分别为周围环境的宽和长；

(22)根据周围环境中的障碍物信息，对所述六边形栅格进行分类；预设每个六边形栅格在Gmapping过程中占有栅格地图的面积比例阈值；

(23)根据障碍物的深度信息，利用式(2-2)进行数据融合：

4.根据权利要求1所述的方法，其特征在于，在步骤(4)中，通过以下方法构建新导航环境Env_new：

(42)判定所述第一路径与所述第二路径是否需要优化：

若在所述第一路径轨迹和所述第二路径轨迹中，当前位置到目标位置所需的步数超出K步，则判定第一路径轨迹或第二路径轨迹的当前路段需要优化；否则不需要优化；

(45)将T_Lnew和T_Rnew起点和终点衔接起来，形成一个闭环路径，将所述闭环路径的内部空间作为新导航环境Env_new。

5.根据权利要求4所述的方法，其特征在于，步骤(5)中采用以下方法进行强化学习：

(51)在所述新导航环境Env_new下，初始化Q表，将所述Q表中存储的机器人在各种状态s下的动作a的值函数Q(s,a)设置为0；

(52)进行一个回合的强化学习：

(a)初始化状态s₀＝p_S，p_S是所述新导航环境Env_new中设置的起点；

(b)使用ε-greedy策略开始学习，生成动作a_t，其中t代表在学习回合中的时间序列，然后执行动作a_t得到下一个状态s_t+1和回报r；在状态s_t+1下使用贪婪策略，在多个动作中选择使值函数Q(s_t+1,a_t+1)最大的动作作为动作a_t+1；更新Q表中Q(s_t,a_t)的值：

(c)更新当前状态，令s_t＝s_t+1，返回步骤(b)，直到状态s_t为所述新导航环境Env_new中的终点位置；

(53)执行M个强化学习回合，得到更新后的Q表，M值为初始设置的学习参数，以保证得到足够的训练次数来获得最优运动策略π^*。