CN114510038A

CN114510038A - 一种在移动人群环境中的机器人导航方法及***

Info

Publication number: CN114510038A
Application number: CN202210055610.6A
Authority: CN
Inventors: 周风余; 冯震; 薛秉鑫; 夏英翔; 尹磊
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-17

Abstract

本发明属于机器人导航技术领域，提供了一种在移动人群环境中的机器人导航方法及***。其中，该方法包括获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度；再基于机器人的风险区域模型，得到移动人群与机器人相邻的行人的风险区域并进行躲避，进而得到机器人的导航路径；其中，所述基于机器人的风险区域模型为：当机器人在限定时间内躲避成功时，通过对应奖励函数得到奖励；当机器人进入风险区域时，通过对应惩罚函数得到惩罚；风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。

Description

一种在移动人群环境中的机器人导航方法及***

技术领域

本发明属于机器人导航技术领域，尤其涉及一种在移动人群环境中的机器人导航方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着机器人的应用场景逐渐扩展到人机共存环境，对于社交机器人来说，在拥挤的人群环境中安全且符合社会规范的导航至关重要。近年来深度强化学习技术已经在解决人群环境下的机器人导航问题上取得了很大进展。但是发明人发现，目前的人群环境下的机器人导航技术未考虑人群移动速度的影响，从而导致机器人的性能会随着人群移动速度的增长而下降，从而使得机器人无法在快速移动的人群中准确感知环境中的危险。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种在移动人群环境中的机器人导航方法及***，其能够有效地感知环境中的风险，并在快速移动的人群中具有较高的安全性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种在移动人群环境中的机器人导航方法，其包括：

获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度；

再基于机器人的风险区域模型，得到移动人群与机器人相邻的行人的风险区域并进行躲避，进而得到机器人的导航路径；

其中，所述基于机器人的风险区域模型为：

当机器人在限定时间内躲避成功时，通过对应奖励函数得到奖励；当机器人进入风险区域时，通过对应惩罚函数得到惩罚；风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。

作为一种实施方式，机器人的导航路径是找到一个使期望收益最大化的最优策略

式中

表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子，

是最优值函数，

是从时间t到时间t_Δ＝t+Δt的状态转移概率；

是在t时刻整个***的联合状态，

是在t_Δ时刻整个***的联合状态，a_t表示在t时刻的动作；v_pref表示首选速度。

作为一种实施方式，使用时间差分学习方法来训练最优值函数。

作为一种实施方式，所述风险区域包括位置风险区域和速度风险区域。

作为一种实施方式，所述惩罚函数为基于速度的惩罚函数和基于位置的惩罚函数的总和。

本发明的第二个方面提供一种在移动人群环境中的机器人导航***，其包括：

信息获取模块，其用于获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度；

路径导航模块，其用于再基于机器人的风险区域模型，得到移动人群与机器人相邻的行人的风险区域并进行躲避，进而得到机器人的导航路径；

其中，所述基于机器人的风险区域模型为：

作为一种实施方式，在所述路径导航模块中，机器人的导航路径是找到一个使期望收益最大化的最优策略

式中

表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子，

是最优值函数，

是从时间t到时间t_Δ＝t+Δt的状态转移概率；

是在t时刻整个***的联合状态，

作为一种实施方式，在所述路径导航模块中，所述风险区域包括位置风险区域和速度风险区域。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明考虑了不同机器人和人的运动特性，提出了一种新的强化学习奖励函数形式，即机器人的风险区域(Risk-Area，RA)模型，其中，风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。该方法对于快速移动的行人更加关注，并鼓励机器人采取有效的回避行为，机器人在深度强化学习框架下经过训练，可以避开危险区域，实现了安全可靠的导航。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的一种在移动人群环境中的机器人导航方法流程图；

图2(a)是本发明实施例的机器人和行人同向行驶；

图2(b)是本发明实施例的机器人和行人相对移动；

图3(a)是本发明实施例的位置风险区域函数图；

图3(b)是本发明实施例的位置风险区域几何形式图；

图4(a)是本发明实施例的速度风险区域函数图；

图4(b)是本发明实施例的速度风险区域几何形式图；

图5(a)是本发明实施例的风险区域函数图；

图5(b)是本发明实施例的风险区域几何形式图；

图6是本发明实施例的不同位置下的机器人惩罚情况；

图7是本发明实施例的机器人在风险区域中的受惩罚情况；

图8(a)是在SARL奖励函数设置下的SARL算法训练结果；

图8(b)是在SARL-DZ奖励函数设置下的SARL算法训练结果；

图8(c)是在SARL-RA奖励函数设置下的SARL算法训练结果；

图9是机器人在实际环境中的实验示意图；

图10是本发明实施例的一种在移动人群环境中的机器人导航***结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种在移动人群环境中的机器人导航方法，其具体包括如下步骤：

S101：获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度。

本实施例的本实施例提供的在移动人群环境中的机器人导航方法，即一个机器人需要在存在n个行人的环境中移动并在没有任何碰撞的情况下达到目标。在强化学习框架中，该任务可以被表述为一个部分可观察的顺序决策问题。

对于每个智能体(行人或机器人)，状态可以分为可观察和不可观察两部分，即s＝[s_o，s_h]。智能体的位置p、速度v和半径r构成了可观测状态，即

智能体的目标位置p_g、首选速度v_pref和航向角θ构成不可观测状态，即

在每一个时间步中，每个智能体都可以观察到自己的完整状态(可观察状态及不可观察状态)以及其他智能体的可观察状态。

S102：再基于机器人的风险区域模型，得到移动人群与机器人相邻的行人的风险区域并进行躲避，进而得到机器人的导航路径。

其中，所述基于机器人的风险区域模型为：

在t时刻整个***的联合状态定义为

其中s_rt为机器人状态，

是人类的状态。目标是找到一个使期望收益最大化的最优策略π。

也就是说，机器人的导航路径是找到一个使期望收益最大化的最优策略

式中

表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子，

是最优值函数，

是从时间t到时间t_Δ＝t+Δt的状态转移概率；

是在t时刻整个***的联合状态，

是在t_Δ时刻整个***的联合状态，a_t表示在t时刻的动作；v_pref表示首选速度。其中，使用时间差分学习方法来训练值网络。

本实施例考虑了机器人和人的实时相对运动。单独通过机器人或行人的状态很难反映环境中的风险。如图2(a)和图2(b)所示，即使确定了行人的状态，在不同的相对速度条件下，机器人面临的风险仍然会有显著的变化。其中，2(a)表示机器人与行人移动方向一致，机器人可能处于低风险状态。图2(b)表示机器人与行人面对面移动，机器人可能处于高风险的情况。

因此，本实施例根据每个人的相对运动，形成每个人周围的风险区域(Risk-Area，RA)。随着相对速度的增加，风险区域(Risk-Area，RA)的范围和强度增加，使得机器人在导航时更加谨慎。如果机器人接近行人太快，将被Risk-Area惩罚。机器人在学习过程中接受躲避Risk-Area的训练，以实现安全舒适的导航。

由于传感器精度、控制误差等因素的影响，机器人在过于靠近行人时容易产生较高的风险。设计了一个基于位置的惩罚函数P_pt来表示环境中的风险，即：

式中k_p为总惩罚函数中调整位置惩罚效果的权重系数，d_m为一个时间步中内机器人与人之间的最小分离距离，D_p为惩罚函数有效阈值距离，本实施例设置为0.2m。

根据动量定理，两个物体质量一定，相互接近速度越大，碰撞产生的力就越大，损伤也会越大。为了避免机器人过快接近行人，我们将机器人与行人的相对接近速度v_rh作为惩罚项应用到惩罚函数中。设v_rt和v_ht分别表示在t时刻机器人和人的速度，其中接近速度v_r2ht为v_rt-v_ht在机器人到人的方向上的分量：

式中p_rt和p_ht表示t时刻机器人和人的位置。当t足够小时，我们可以假设在一个控制周期中机器人和人的接近速度是恒定的。那么速度罚函数的形式如下：

式中v_rmax和v_hmax分别是机器人和行人的最大速度。k_v是一个用来调整速度惩罚影响权重的系数。d_t为机器人和行人在t时刻的距离。D_p惩罚函数有效的阈值距离，形式如下：

D_v＝v_r2ht·m_v+D_p (6)

其中m_v是一个影响Risk-Area作用范围的可调参数，在本实施例中为0.25。Risk-Area惩罚函数的最终形式为速度惩罚和位置惩罚的总和，形式如下：

由于Risk-Area惩罚函数由位置惩罚和速度惩罚两部分组成，因此Risk-Area的几何形状也分为位置Risk-Area和速度Risk-Area两部分。位置Risk-Area的几何形状如图3(a)和3(b)所示，为半径为r_p＝r_h+D_p的正圆。

在讨论速度危险区域的几何形状之前，机器人应该知道相邻行人的速度。以人的中心为极点，行人相对于机器人的运动方向为极坐标轴，建立极坐标***如图4(a)和图4(b)所示。速度Risk-Area的边界点P需要满足式(5)中的条件，边界的轨迹方程如下：

其中v_hr是人相对于机器人的速度，ρ是人到机器人的距离，θ是v_hr和参考轴之间的夹角。最终的形状如图5(a)和5(b)所示。考虑到人体灵活的运动能力和环境的不确定性，我们没有随着速度的增加而缩小风险区域的范围。此外，速度惩罚区域在行人相对于机器人的方向上留下了较大的惩罚空间，使其在快速接近人体时更容易受到速度惩罚。

当机器人进入危险区域时，通过对应的惩罚函数得到惩罚。例如，在图6中，机器人1被位置风险区域处罚，机器人2和机器人3不被处罚，机器人4被速度风险区域处罚。

本实施例考虑了智能体之间的相对运动，并设计了作为安全措施的Risk-Areas。当机器人在人群中导航时，会计算出相邻行人的危险区域并进行躲避。奖励函数的惩罚形式在(7)中给出。当机器人在限定时间内完成目标后会受到奖励。最终的奖励函数形式如下：

机器人倾向于向Risk-Area中惩罚减少最快的方向移动。当机器人无碰撞进入危险区域时，使用p_ht和p_rt所表示的位置和速度罚函数形式如下：

式中c是一个值为正的常数。在对环境中的任意一个行人进行分析时，我们假设行人位置相对于世界坐标系是静态的，这样来讨论机器人的位置变化对风险的影响。P_pt和P_vt对p_rt的偏导数形式如下：

式中v_rht⊥表示垂直于v_rh的速度分量。如图7所示，位置惩罚会引导机器人转向背对行人的方向，这是一种不自然并且偏离目标的躲避行为。而我们的方法可以引导机器人从旁边绕过行人，更加有效地引导机器人学习避让动作。

仿真环境是在Python上用PyTorch库构建的。将Risk-Area奖励函数对比了现有的两种奖励函数形式：基于位置的奖励函数和DZ奖励函数。此外，为了测试不同奖励函数的性能，我们选择了三种现有的深度强化学习方法，即CADRL、LSTM_RL和SARL作为基础训练模型。

首先，使用3k episodes的ORCA演示来对模型进行模仿学习预处理。然后用RL方法对模型进行10k episodes的训练。RL参数包括0.001的学习率和0.9的折扣因子γ。ε-greedy策略的探索率ε在前5k episodes呈线性下降趋势，从0.5下降为0.1，在剩下的5kepisodes中保持为0.1。Risk-Area的参数包括速度加权系数k_v＝0.1和位置加权系数k_p＝0.24。模拟环境中设置了5个行人，并设置其状态是可见的。模拟环境中的行人遵循ORCA的策略进行导航。假设仿真中的所有的智能体均为直径0.6m的圆。为了充分评估模型的有效性，我们采用了两种仿真设置:差动驱动机器人设置和全向机器人设置。

模型是用500个随机测试用例来评估的。性能指标包括成功率、碰撞率、航行时间、危险频率和最小分离距离。成功率(Success Rate,SR)是指机器人完成目标的实验数与总实验数的比值。碰撞率(Collision Rate,CR)是机器人与人类碰撞的实验次数占总实验次数的比例。导航时间(Navigation Time,NT)是指机器人达到目标所需的平均时间。危险频率(Danger Frequency,DF)是导航过程中机器人过于接近人类(d_t＜0.2m)的时间和总导航时间之比。最小分离距离(Minimum Separation Distance,MSD)是指机器人与人过于接近时(d_t＜0.2m)的平均最小分离距离。

表1.机器人在人群环境下的导航结果

导航过程的安全性是评价机器人在拥挤环境中导航性能的最重要因素。CADRL、LSTM RL和SARL模型训练时均分别采用了三种不同的奖励函数:基于位置的奖励函数、DZ奖励函数和本实施例提出的RA奖励函数。

1)差动驱动机器人:差动驱动机器人的实验结果如表1所示。由于CADRL的maximin方法只考虑单个人机交互，因此CADRL的碰撞率最高。LSTM_RL和SRAL通过聚合多智能体信息，在安全性和成功率方面表现较好。其中，采用基于位置的奖励函数训练的模型由于忽略了机器人与人之间的速度关系，安全性和任务完成能力较差。由于考虑了行人行为，DZ方法在危险频率和碰撞率方面比基于位置的奖励函数具有更好的安全性能。与之前的方法相比，我们的方法将智能体之间的相对运动考虑在了Risk-Areas的设计中，训练得到的模型在成功率和最小分离距离方面获得了更好的结果。SARL-RA是在所有方法中取得效果最好的算法，其碰撞率小于SARL或者SARL-DZ的1/3，危险频率小于之前方法的1/4。

2)全向机器人:由于考虑了多智能体信息，LSTM_RL和SRAL在安全性和任务完成方面仍然优于CADRL。用该方法训练的三种深度强化学习模型均有较好的训练效果。CADRL-RA的成功率分别比CADRL和CADRL-DZ提高14％和24％。与之前的奖励函数相比，CADRL-RA的最小分离距离增加了50％。对于LSTM_RL，所提出的奖励函数在保持相同的导航时间的前提下也获得了更高的安全性能。LSTM_RL-RA的危险频率和最小分离距离与LSTM RL和LSTM RL-DZ相比取得了明显改善。在所有算法中，SARL-RA在安全性、任务完成度和时间效率方面达到了最高的性能。SARL-RA的成功率分别比SARL和SARL-DZ高5％和6％。导航时间分别比SARL和SARL-DZ短0.91s和1.23s。结果表明，该方法提高了导航***的整体性能。

图8(a)-图8(c)为采用三种不同的奖励函数训练的SARL算法模型对差动驱动机器人导航结果。为了公平起见，测试用例具有相同的行人轨迹和时间步长。SARL、SARL-DZ和SARL-RA的导航时间分别为15.25s、13.00s和13.50s。在图8(a)中，SARL使机器人从行人的同一方向进行躲避动作。然而行人的快速移动导致了机器人转向失败。这种被动的逃避行为导致在7.50秒时出现了危险情况。DZ方法过于关注快速移动的行人的前进方向，而忽略了周围可能存在的风险。因此，在图8(b)中，借助SARL_DZ导航的机器人在6.50s时过于靠近行人0。相比之下，SARL-RA通过选择合适的避障策略，并与迎面而来的行人0和行人3保持了安全距离，表现最佳，如图8(c)所示。实验结果表明，本文提出的RA单用SARL算法具有安全性和社会顺应性。

下面在一个人机共存的室内环境中，使用Turtlebot2平台实现了仿真环境中具有最佳性能的SARL-RA策略，如图9所示。图中虚线的点表示机器人的轨迹。短箭头表示SARL-RA算法生成的操作命令。长箭头表示二维激光雷达探测到的人的速度。右下角的点是机器人导航框架生成的局部目标。机器人配备了一个用于行人检测的SLAMTEC RPLIDAR A3，动作命令由一台安装了Ubuntu 16.04和ROS Kinetic的IRU迷你电脑生成。利用ROS软件包amcl和leg_detector分别获得机器人和行人的位置和速度。现实世界中的实验表明，机器人能够在快速移动的人群中安全高效地穿行。

实施例二

如图10所示，本实施例提供了一种在移动人群环境中的机器人导航***，其包括如下模块：

(1)信息获取模块，其用于获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度；

(2)路径导航模块，其用于再基于机器人的风险区域模型，得到移动人群与机器人相邻的行人的风险区域并进行躲避，进而得到机器人的导航路径；

其中，所述基于机器人的风险区域模型为：

在一个或多个实施例中，在所述路径导航模块中，机器人的导航路径是找到一个使期望收益最大化的最优策略

式中

表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子，

是最优值函数，

是从时间t到时间t_Δ＝t+Δt的状态转移概率；

是在t时刻整个***的联合状态，

在一个或多个实施例中，在所述路径导航模块中，所述风险区域包括位置风险区域和速度风险区域。

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。