CN114815816A

CN114815816A - 一种自主导航机器人

Info

Publication number: CN114815816A
Application number: CN202210365323.5A
Authority: CN
Inventors: 陶冶; 王浩杰
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-29

Abstract

本发明公开了一种自主导航机器人，包括传感器、控制器和行走机构；其中，传感器用于检测障碍物相对机器人的距离和角度，形成状态数据；控制器用于根据状态数据以及目标点的相对位置对机器人所处的场景进行分类，若为简单场景，则执行PID控制策略；若为复杂场景，则执行强化模仿学习控制策略；若为紧急场景，则执行约束强化模仿学习控制策略；控制器通过执行相应的控制策略控制行走机构驱动机器人行走，达到导航避障的目的。本发明面向各种具有动态和静态障碍物的复杂场景设计机器人的自主导航策略，可以弥补传统路径规划方法无法躲避动态障碍物，监督式学习方法泛化能力差，强化学习方法在简单以及紧急情况下输出策略不理想的缺陷。

Description

一种自主导航机器人

技术领域

本发明属于移动机器人技术领域，具体地说，是涉及一种可以根据环境变化合理规划行走路径并能自动避障的自主导航机器人。

背景技术

导航和避障是移动机器人完成各项任务的基本功能。移动机器人通过外部传感器进行环境感知，并获得几何空间的各维度信息。根据获得的几何空间信息并结合避障算法，机器人在行走的过程中可以对障碍物进行规避，并自主规划路径。

在移动机器人上实现自主学习避障功能，是提升机器人智能化程度的重要一步，这可以使得移动机器人具备像人类一样的行为策略，能够在未知的环境中躲避机器人前方的动态或者静态障碍物，从而使得移动机器人具有自主导航的能力。

目前，用于机器人的自主导航方法主要有路径规划方法、监督式学习方法和强化学习方法。其中，路径规划方法需要对机器人及其所处环境进行准确感知，以保证规划出的路径长度是最优的。但是，该方法需要中央服务器集中计算，难以在大规模的机器人群中以及有动态障碍物的未知环境中使用。监督式学习方法能够根据传感器数据进行决策，使得移动机器人可以躲避动态障碍物。但是，该方法所需数据的采集难度较大，若机器人所观察到的环境状态未在训练数据集中出现过，则无法做出正确的决策，因此，泛化能力较差。强化学习方法通过机器人与环境交互进行训练，不需要数据集，在环境中所采取的策略具有一定的随机性。但是，基于强化学习模型设计的自动导航机器人，在简单的场景下无法沿直线行驶，走出最短路径。并且，在接近目标点位置时，会出现机器人在目标点附近徘徊，而不是迅速接近目标点的情况。同时，在周围的障碍物非常密集以及障碍物突然出现在面前等紧急场景下，机器人对障碍物无法及时做出反应，执行紧急避障。

发明内容

本发明面向各种具有动态和静态障碍物的复杂场景设计移动机器人的自主导航策略，可以弥补传统路径规划方法无法躲避动态障碍物，监督式学习方法泛化能力差，强化学习方法在简单以及紧急情况下输出策略不理想的缺陷。

为达到上述发明目的，本发明采用以下技术方案予以实现：

一种自主导航机器人，包括传感器、控制器和行走机构；其中，所述传感器用于检测障碍物相对机器人的距离和角度，形成状态数据；所述控制器用于根据所述状态数据以及目标点相对位置对机器人所处的场景进行分类，若为简单场景，则执行PID控制策略；若为复杂场景，则执行强化模仿学习控制策略；若为紧急场景，则执行约束强化模仿学习控制策略；并且通过执行相应的控制策略计算出机器人行走的线速度和角速度；所述行走机构用于驱动机器人按照控制器计算出的线速度和角速度行走。

在本申请的一些实施例中，为了尽可能地避免机器人在行走过程中碰撞到障碍物，可以在所述控制器中配置碰撞预测模型，所述碰撞预测模型可以根据所述状态数据以及机器人的自身速度预测机器人能否发生碰撞。

在本申请的一些实施例中，所述简单场景为机器人前方没有障碍物或者机器人到达目标点周围的场景；所述紧急场景为通过所述碰撞预测模型机器预测出机器人会发生碰撞的场景；所述复杂场景为所述简单场景和紧急场景以外的场景。

在本申请的一些实施例中，所述控制器在执行PID控制策略时，可以将机器人前进正方向与目标点之间的夹角设置为偏差，代入PID计算公式，计算出机器人的角速度，并保持机器人的线速度不变。采用PID控制策略可以控制机器人以最短的路径行驶，并在接近目标点位置时，迅速达到目标点。

在本申请的一些实施例中，所述控制器所执行的强化模仿学习控制策略可以包括：

模仿学习过程，其利用专家数据集中的数据对Actor网络进行训练；

强化学习过程，其利用经模仿学习过程训练后的Actor网络以及Critic网络，结合状态数据、机器人的自身速度以及目标点相对位置计算输出动作a，并根据所述动作a控制所述行走机构调整机器人行走的线速度和角速度。

在本申请的一些实施例中，在所述自主导航机器人中还配置有存储器，用于存储控制器在执行强化模仿学习控制策略时计算输出的动作a、机器人在环境中执行了动作a后到达的状态s以及机器人执行动作a获得的奖赏r，并将所收集到的(s,a,r)数据存入经验池；所述控制器在存入经验池中的数据的数量满足设定条件时，计算强化学习模型的损失值，进而对强化学习模型中的Actor网络和Critic网络进行更新，以实现网络优化。

在本申请的一些实施例中，可以配置所述约束强化模仿学习控制策略与所述强化模仿学习控制策略中所使用的Actor网络和Critic网络相同；所述控制器在执行约束强化模仿学习控制策略时，首先判断机器人的线速度是否大于设定阈值；若大于设定阈值，则将机器人的速度设置为0，即，控制机器人停止，以实现紧急避障；若小于等于设定阈值，则缩小传感器检测到的距离数据，并将缩小后的距离数据输入强化学习模型，使通过强化学习模型计算输出动作a中表示机器人速度的数值减小。通过降低机器人的行走速度，并借助强化模仿学习控制策略进行导航，由此可以达到有效避障的设计目的。

与现有技术相比，本发明的优点和积极效果是：本发明利用基于碰撞预测的场景分类模型，随时对机器人所在的环境进行分类。针对简单场景，采用PID控制策略，控制机器人直线、快速地到达目标点，避免了机器人在目标点附近徘徊，而不是迅速接近目标点的情况出现。针对复杂场景，采用强化模仿学习控制策略进行导航，以控制机器人安全避开障碍物。针对紧急情况，采用约束强化模仿学习控制策略，控制机器人对突然出现的障碍物及时做出反应，避免发生碰撞。三种控制策略的结合应用，可以使得机器人以较短的时间和路经长度，安全到达目标点，提高效率。

结合附图阅读本发明实施方式的详细描述后，本发明的其他特点和优点将变得更加清楚。

附图说明

图1是本发明所提出的自主导航机器人的一种实施例的主要硬件架构图；

图2是本发明所提出的自主导航机器人所执行的导航策略的一种实施例的总体架构图；

图3是基于碰撞预测的场景分类流程图；

图4是导航模型的更新流程图；

图5是强化模仿学习控制策略的一种实施例的流程图；

图6是约束强化模仿学习控制策略的一种实施例的流程图；

图7是八个机器人在圆形场景下行走的轨迹示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细地描述。

如图1所示，本实施例的移动机器人为了实现自主导航功能，在硬件配置上主要配置有传感器、控制器、存储器、行走机构等功能部件。

其中，传感器用于观察机器人所处的环境状态，例如障碍物相对机器人的距离和角度等信息，以形成状态数据，提供给导航策略使用。在某些实施例中，所述传感器可以选择激光雷达传感器，以实现状态数据的快速、准确获取。

控制器用于执行导航策略，接收传感器检测到的状态数据，并结合目标点相对位置，对机器人所处的场景进行分类。然后，根据机器人所处的场景类型执行与该场景相对应的控制策略，以控制机器人安全、快速地达到目标点位置，实现自主导航。

存储器连接控制器，存储机器人在运行过程中产生的各种数据，例如控制器在执行强化模仿学习控制策略时计算输出的动作a、机器人在环境中执行了动作a后到达的状态s、机器人执行动作a获得的奖赏r等。控制器将收集到的(s,a,r)数据存入经验池(存储器中划分出来的一块存储空间)，以用于对导航策略中的数据模型进行更新、优化。

行走机构用于驱动机器人按照控制器计算出的角速度和线速度行走，最终到达目标点的位置。

本实施例的导航策略采用PID控制策略、强化模仿学习控制策略、约束强化模仿学习控制策略相结合的方式制定。其中，当机器人处于简单场景下时，可以采用PID控制策略进行导航，以控制机器人直线、快速地到达目标点位置，避免机器人在目标点附近徘徊，而不是迅速到达目标点的情况出现。当机器人处于复杂场景下时，可以采用强化模仿学习控制策略进行导航，以使机器人在安全躲避障碍物的情况下，走出比较优化的路线。当机器人处于紧急场景下时，可以采用约束强化模仿学习控制策略进行导航，以使机器人能够对突然出现的障碍物及时做出反应，避免发生碰撞。

为了使机器人能够根据其所处的环境类型自动调用相应的控制策略，本实施例在控制器中配置了基于碰撞预测的场景分类模型，结合图2、图3所示。机器人在运行过程中，实时地通过传感器观察环境状态，并将检测到的状态数据以及机器人的自身速度(包括但不限于线速度和角速度)输入到碰撞预测模型中，以预测出机器人可能发生碰撞的概率，进而控制机器人提前做出反应，实现安全避障。

这里的碰撞预测模型可以采用现有成熟的碰撞预测模型。在对碰撞预测模型进行训练时，可以使用多种以往的机器人导航算法，在多种不同的仿真模拟环境中进行测试，并收集大量类型为“传感器数据、机器人自身速度、是否发生碰撞”的数据；然后，利用收集到的上述类型的数据对碰撞预测模型进行训练；最后，将训练后的碰撞预测模型应用到实际场景。

在本实施例中，可以根据碰撞预测模型生成的预测结果，对机器人所处的环境进行分类。例如，若通过传感器检测到机器人前方没有障碍物或者机器人已经到达了目标点周围，则可以将此时的场景定义为简单场景；若通过碰撞预测模型生成的预测结果为会发生碰撞(例如，机器人周围的障碍物非常密集或者有障碍物突然出现的场景)，则可以将此时的场景定义为紧急场景；其余的场景则可定义为复杂场景。

参见图3，机器人在实际运行过程中，定时地将传感器观测到的状态数据以及自身的速度信息输入到碰撞预测模型中，进行碰撞预测。当然，也可以将历史碰撞数据输入到碰撞预测模型中，以提高预测结果的准确度。

如果通过碰撞预测模型预测会发生碰撞，则机器人执行紧急场景下的控制策略进行避障，即，执行约束强化模仿学习控制策略。如果预测不会发生碰撞，则对当前场景作进一步分类，例如，若传感器检测到机器人已经到达了目标点附近或者机器人前方没有障碍物，则执行简单场景下的PID控制策略；否则，判定机器人处于复杂场景下，执行强化模仿学习控制策略。

在PID控制策略中，可以将机器人前进正方向与目标点之间的夹角设置为偏差，代入PID计算公式，计算出机器人的角速度，并保持机器人的线速度不变。在PID计算公式中，比例、积分、微分三个参数可以分别设置为：k_P＝0.15、k_I＝0.08、k_D＝0.01。

在强化模仿学习控制策略中，采用模仿学习和强化学习相结合的方式制定控制策略。

强化学习(Reinforcement Learning，简称RL)是机器学习的一个重要分支。强化学习通常使用马尔可夫决策过程(Markov Decision Process，简称MDP)来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给机器一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数，即：

状态s：机器对环境的感知，所有可能的状态称为状态空间；

动作a：机器所采取的动作，所有能采取的动作构成动作空间；

转移概率p：当执行某个动作后，当前状态会以某种概率转移到另一个状态；

奖赏函数r：在状态转移的同时，环境反馈给机器一个奖赏。

因此，强化学习的主要任务就是通过在环境中不断地尝试，根据尝试获得的反馈信息调整策略，最终生成一个较好的策略π，机器根据这个策略便能知道在什么状态下应该执行什么动作。一个策略的优劣取决于长期执行这一策略后的累积奖赏，换句话说：可以使用累积奖赏来评估策略的好坏，最优策略则表示在初始状态下一直执行该策略后，最后的累积奖赏值最高。

模仿学习是强化学习的一个分支,能够很好地解决强化学习中的多步决策问题。

本实施例在模仿学习过程中，使用专家数据对Actor网络进行训练，在优化导航性能的同时，可以加速后续训练过程中模型的收敛速度。

参见图5，在模仿学习阶段，可以使用已经得到验证的导航算法(例如ORCA、RL、Hybrid-RL算法)，在若干种不同的仿真环境中进行测试，收集形式为(s,a)的数据作为专家数据，形成专家数据集。

使用专家数据集中的数据对Actor网络进行训练。通过训练，使Actor网络拟合专家数据，这样在后续环境交互过程中，机器人不会在环境中盲目地进行探索，继而加快模型的收敛速度。与此同时，专家数据集中的数据，都是机器人在简单以及紧急情况下有着完美表现，能够执行完美策略所对应的数据。因此，使用专家数据集训练出的Actor网络，能够在简单以及紧急情况下比传统方法表现得更好。

模仿学习的优化目标是缩小与专家数据集之间的误差，因此，本实施例可以配置模仿学习的目标优化函数为：

其中，s_i、a_i为专家数据集中的数据，且s_i表示机器人通过传感器所观察到的状态，a_i表示在状态s_i下机器人所执行的动作；π_θ表示Actor网络；N表示专家数据集中的样本数量；θ表示Actor网络的权重；

表示求结果最小值所对应的θ。

利用计算出的权重θ对Actor网络进行优化。

接下来，可以在强化学习阶段，利用机器人在实际运行过程收集到的数据对Actor网络作进一步训练。

强化学习模型的训练是通过机器人在环境中不断进行探索，收集数据，以最大化累计奖赏为目标实现的。强化学习模型不为机器人规划路径，而是针对机器人在环境中所观察到的状态，直接输出控制指令进行导航。

结合图2、图4所示，强化学习模型根据机器人自带传感器在环境中所观察到的状态、机器人的自身速度以及目标点相对位置，输出一个动作的概率分布。之后，从概率分布中随机采样，得到机器人应该执行的动作a。机器人在环境中执行动作a之后，到达了状态s。同时，执行动作a会获得一个立即回报r(即，奖赏)以及新的观测状态。机器人将于环境中所收集到的数据以(s,a,r)的形式存入经验池。当经验池中存储的数据的数量满足一定条件时，计算强化学习模型的损失值，用于对强化学习模型中的Critic网络和Actor网络进行更新，以优化导航策略。

在本实施例中，可以对强化学习模型的奖赏函数进行如下配置：

初始化奖赏函数r＝0；

根据机器人在第t-1个时间步和第t个时间步的位置p^t-1、p^t以及目标点的位置g和机器人第t-1个时间步的角速度w^t计算奖赏函数r，包括以下情况：

若|p^t-g||＜0.1，则r＝r+r_arrival；否则r＝r+w_g(||p^t-1-g||-||p^t-g||)；

若预测机器人会发生碰撞，则r＝r+r_collision；

若|w^t|＞0.7，则

其中，||||表示取模运算；r_arrival、r_collision、w_g、w_w均为超参数。超参数是在开始学习过程之前设置的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习模型选择一组最优超参数，可以提高学习的性能和效果。本实施例的超参数可以赋予经验值。

Critic网络的优化目标是最小化与经验池中累积奖赏值的误差，因此，本实施例配置Critic网络的目标优化函数为：

其中，φ为Critic网络的权重；γ为折扣因子；t为时间步；T为最大步数；s_t表示机器人在第t个时间步的状态；r_t'为机器人在第t'个时间步所获得的奖赏；V_φ为Critic函数，用于评估状态s的好坏；

表示求结果最小值所对应的φ。

Actor网络的优化目标是最大化累计奖赏的期望值，因此，本实施例配置Actor网络的目标优化函数为：

即：

其中，

λ、ε为超参数；θ为Actor网络的权重；n表示回合数；T_n表示第n回合的最大步数；a_t表示机器人在第t个时间步的动作；π_θ和π_old分别表示当前的Actor网络和更新前的Actor网络；E_t表示期望函数；

表示求结果最大值所对应的θ；clip表示限制函数，且

即，将r_t(θ)的值限制在[1-ε，1+ε]范围内。

利用计算出的Actor网络的权重θ和Critic网络的权重φ，对Actor网络和Critic网络进行更新，以进一步训练强化学习模型。

训练后的Actor网络和Critic网络，可以应用到紧急场景下的约束强化模仿学习控制策略中。

传统的深度学习模型在较为紧急的场景下，虽然也会采取一定的行为进行避障，但是往往采取的动作幅度不够，动作的执行不够及时，导致碰撞时有发生。

为了解决上述问题，本实施例配置碰撞预测模型，能够提前若干个步长预测到可能会发生的碰撞。之后，执行约束的强化模仿学习控制策略，利用该控制策略对机器人所执行的动作进行约束，进而避免碰撞的发生。

本实施例的约束强化模仿学习控制策略，是在复杂场景下的强化模仿学习控制策略的基础上增加约束条件，通过限制机器人的行走速度，达到安全避障的技术效果。

如图6所示，当机器人处于紧急环境下时，首先判断机器人的线速度是否大于设定阈值；若大于设定阈值，则说明会有极大的概率发生碰撞，此时可以将机器人的速度设置为0，即，控制机器人停止运行，以躲避突然出现的障碍物；否则，缩小传感器检测到的距离数据，并将缩小后的距离数据输入强化学习模型，使得通过强化学习模型计算输出动作a中表示机器人速度(至少包括线速度)的数值减小，即，控制机器人减速，由此便可获得一个相对安全的动作a。机器人执行此动作a，将不会发生碰撞。

在某些实施例中，当机器人在紧急环境下的线速度小于等于设定阈值时，可以将传感器检测到的距离数据缩小P倍，即，将传感器检测到的距离数据除以P，所述P优选在[1.25，1.5]之间取值。同时，对缩小后的距离数据进行约束，使其在设定的大小阈值范围[Dmin，Dmax]内，这样可以进一步保证通过强化学习模型输出的动作a将会是一个安全的动作，避免机器人与障碍物发射碰撞。

下面通过一个具体的实例，阐述本实施例的移动机器人所执行的自主导航策略。

将八个机器人部署在一个半径为3米的圆形场景中，每个机器人需要行驶到自己圆心对面的位置，即，目标点位置。八个机器人在同一时间段内均进入运行状态，彼此之间形成对方的障碍物。每一个机器人均执行本实施例的自主导航策略，形成的运动轨迹如图7所示。

每一个机器人在运行过程中，仅依靠自己所观察到的环境状态决定下一步的动作。

首先，机器人将所观察到的环境信息(状态s)输入到碰撞预测模块中。碰撞预测模块根据环境信息判断机器人当前处于哪一类型的环境中。

如果机器人当前处于简单环境下，则采用PID控制策略控制机器人朝着自己的目标点位置沿直线快速移动。

如果机器人处于复杂环境下，则采用强化模仿学习控制策略，根据环境状态s输出机器人应该执行的动作a。

如果机器人处于紧急环境下，则有极大可能发生碰撞。此时，若机器人当前速度大于设定阈值，则控制机器人立刻停止运动；否则，采用约束强化模仿学习控制策略，将约束后的环境状态输入强化学习模型，随后得到约束的动作a让机器人执行，以避免发生碰撞。

通过上述实验场景可以看到，所有机器人都能够以较短的、平滑的路径，并且在不发生碰撞的情况下，最终到达目标点位置，成功完成所有导航任务。

当然，以上所述仅是本发明的一种优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种自主导航机器人，其特征在于，包括：

传感器，其用于检测障碍物相对机器人的距离和角度，形成状态数据；

控制器，其用于根据所述状态数据以及目标点相对位置对机器人所处的场景进行分类，若为简单场景，则执行PID控制策略；若为复杂场景，则执行强化模仿学习控制策略；若为紧急场景，则执行约束强化模仿学习控制策略；并且通过执行相应的控制策略计算出机器人行走的线速度和角速度；

行走机构，其用于驱动机器人按照控制器计算出的线速度和角速度行走。

2.根据权利要求1所述的自主导航机器人，其特征在于，在所述控制器中配置有碰撞预测模型，所述碰撞预测模型根据所述状态数据以及机器人的自身速度预测机器人能否发生碰撞。

3.根据权利要求2所述的自主导航机器人，其特征在于，

所述简单场景为机器人前方没有障碍物或者机器人到达目标点周围的场景；

所述紧急场景为通过所述碰撞预测模型机器预测出机器人会发生碰撞的场景；

所述复杂场景为所述简单场景和紧急场景以外的场景。

4.根据权利要求1至3中任一项所述的自主导航机器人，其特征在于，所述控制器在执行PID控制策略时，将机器人前进正方向与目标点之间的夹角设置为偏差，代入PID计算公式，计算出机器人的角速度，并保持机器人的线速度不变。

5.根据权利要求1所述的自主导航机器人，其特征在于，所述控制器所执行的强化模仿学习控制策略包括：

6.根据权利要求5所述的自主导航机器人，其特征在于，所述控制器在模仿学习过程中，配置模仿学习的目标优化函数为：

表示求结果最小值所对应的θ；

所述控制器利用权重θ对Actor网络进行优化。

7.根据权利要求5所述的自主导航机器人，其特征在于，还包括：

存储器，其用于存储控制器在执行强化模仿学习控制策略时计算输出的动作a、机器人在环境中执行了动作a后到达的状态s以及机器人执行动作a获得的奖赏r，并将所收集到的(s,a,r)数据存入经验池；

其中，所述控制器在存入经验池中的数据的数量满足设定条件时，计算强化学习模型的损失值，进而对强化学习模型中的Actor网络和Critic网络进行更新。

8.根据权利要求7所述的自主导航机器人，其特征在于，所述控制器对强化学习的奖赏函数进行如下配置：

初始化奖赏函数r＝0；

若预测机器人会发生碰撞，则r＝r+r_collision；

若|w^t|＞0.7，则

其中，|| ||表示取模运算；r_arrival、r_collision、w_g、w_w均为超参数。

9.根据权利要求7所述的自主导航机器人，其特征在于，所述控制器在强化学习过程中，配置Critic网络的目标优化函数为：

表示求结果最小值所对应的φ；

配置Actor网络的目标优化函数为：

其中，θ为Actor网络的权重；n表示回合数；T_n表示第n回合的最大步数；a_t表示机器人在第t个时间步的动作；ε表示超参数；π_θ和π_old分别表示当前的Actor网络和更新前的Actor网络；E_t表示期望函数；

表示求结果最大值所对应的θ；clip表示限制函数，且

10.根据权利要求5至9中任一项所述的自主导航机器人，其特征在于，

所述约束强化模仿学习控制策略与所述强化模仿学习控制策略中所使用的Actor网络和Critic网络相同；

所述控制器所执行的约束强化模仿学习控制策略包括：

判断机器人的线速度是否大于设定阈值；

若大于设定阈值，则控制机器人停止行走；

若小于等于设定阈值，则缩小传感器检测到的距离数据，并将缩小后的距离数据输入强化学习模型，使通过强化学习模型计算输出动作a中表示机器人速度的数值减小。