CN114510038A - 一种在移动人群环境中的机器人导航方法及*** - Google Patents

一种在移动人群环境中的机器人导航方法及*** Download PDF

Info

Publication number
CN114510038A
CN114510038A CN202210055610.6A CN202210055610A CN114510038A CN 114510038 A CN114510038 A CN 114510038A CN 202210055610 A CN202210055610 A CN 202210055610A CN 114510038 A CN114510038 A CN 114510038A
Authority
CN
China
Prior art keywords
robot
time
real
speed
navigation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210055610.6A
Other languages
English (en)
Inventor
周风余
冯震
薛秉鑫
夏英翔
尹磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210055610.6A priority Critical patent/CN114510038A/zh
Publication of CN114510038A publication Critical patent/CN114510038A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

本发明属于机器人导航技术领域,提供了一种在移动人群环境中的机器人导航方法及***。其中,该方法包括获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;其中,所述基于机器人的风险区域模型为:当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。

Description

一种在移动人群环境中的机器人导航方法及***
技术领域
本发明属于机器人导航技术领域,尤其涉及一种在移动人群环境中的机器人导航方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着机器人的应用场景逐渐扩展到人机共存环境,对于社交机器人来说,在拥挤的人群环境中安全且符合社会规范的导航至关重要。近年来深度强化学习技术已经在解决人群环境下的机器人导航问题上取得了很大进展。但是发明人发现,目前的人群环境下的机器人导航技术未考虑人群移动速度的影响,从而导致机器人的性能会随着人群移动速度的增长而下降,从而使得机器人无法在快速移动的人群中准确感知环境中的危险。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种在移动人群环境中的机器人导航方法及***,其能够有效地感知环境中的风险,并在快速移动的人群中具有较高的安全性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种在移动人群环境中的机器人导航方法,其包括:
获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;
再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;
其中,所述基于机器人的风险区域模型为:
当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。
作为一种实施方式,机器人的导航路径是找到一个使期望收益最大化的最优策略
Figure BDA0003476075860000021
Figure BDA0003476075860000022
Figure BDA0003476075860000023
式中
Figure BDA0003476075860000024
表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子,
Figure BDA0003476075860000025
是最优值函数,
Figure BDA0003476075860000026
是从时间t到时间tΔ=t+Δt的状态转移概率;
Figure BDA0003476075860000027
是在t时刻整个***的联合状态,
Figure BDA0003476075860000028
是在tΔ时刻整个***的联合状态,at表示在t时刻的动作;vpref表示首选速度。
作为一种实施方式,使用时间差分学习方法来训练最优值函数。
作为一种实施方式,所述风险区域包括位置风险区域和速度风险区域。
作为一种实施方式,所述惩罚函数为基于速度的惩罚函数和基于位置的惩罚函数的总和。
本发明的第二个方面提供一种在移动人群环境中的机器人导航***,其包括:
信息获取模块,其用于获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;
路径导航模块,其用于再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;
其中,所述基于机器人的风险区域模型为:
当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。
作为一种实施方式,在所述路径导航模块中,机器人的导航路径是找到一个使期望收益最大化的最优策略
Figure BDA0003476075860000031
Figure BDA0003476075860000032
Figure BDA0003476075860000033
式中
Figure BDA0003476075860000034
表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子,
Figure BDA0003476075860000035
是最优值函数,
Figure BDA0003476075860000036
是从时间t到时间tΔ=t+Δt的状态转移概率;
Figure BDA0003476075860000037
是在t时刻整个***的联合状态,
Figure BDA0003476075860000038
是在tΔ时刻整个***的联合状态,at表示在t时刻的动作;vpref表示首选速度。
作为一种实施方式,在所述路径导航模块中,所述风险区域包括位置风险区域和速度风险区域。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明考虑了不同机器人和人的运动特性,提出了一种新的强化学习奖励函数形式,即机器人的风险区域(Risk-Area,RA)模型,其中,风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。该方法对于快速移动的行人更加关注,并鼓励机器人采取有效的回避行为,机器人在深度强化学习框架下经过训练,可以避开危险区域,实现了安全可靠的导航。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的一种在移动人群环境中的机器人导航方法流程图;
图2(a)是本发明实施例的机器人和行人同向行驶;
图2(b)是本发明实施例的机器人和行人相对移动;
图3(a)是本发明实施例的位置风险区域函数图;
图3(b)是本发明实施例的位置风险区域几何形式图;
图4(a)是本发明实施例的速度风险区域函数图;
图4(b)是本发明实施例的速度风险区域几何形式图;
图5(a)是本发明实施例的风险区域函数图;
图5(b)是本发明实施例的风险区域几何形式图;
图6是本发明实施例的不同位置下的机器人惩罚情况;
图7是本发明实施例的机器人在风险区域中的受惩罚情况;
图8(a)是在SARL奖励函数设置下的SARL算法训练结果;
图8(b)是在SARL-DZ奖励函数设置下的SARL算法训练结果;
图8(c)是在SARL-RA奖励函数设置下的SARL算法训练结果;
图9是机器人在实际环境中的实验示意图;
图10是本发明实施例的一种在移动人群环境中的机器人导航***结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本实施例提供了一种在移动人群环境中的机器人导航方法,其具体包括如下步骤:
S101:获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度。
本实施例的本实施例提供的在移动人群环境中的机器人导航方法,即一个机器人需要在存在n个行人的环境中移动并在没有任何碰撞的情况下达到目标。在强化学习框架中,该任务可以被表述为一个部分可观察的顺序决策问题。
对于每个智能体(行人或机器人),状态可以分为可观察和不可观察两部分,即s=[so,sh]。智能体的位置p、速度v和半径r构成了可观测状态,即
Figure BDA0003476075860000061
智能体的目标位置pg、首选速度vpref和航向角θ构成不可观测状态,即
Figure BDA0003476075860000062
在每一个时间步中,每个智能体都可以观察到自己的完整状态(可观察状态及不可观察状态)以及其他智能体的可观察状态。
S102:再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径。
其中,所述基于机器人的风险区域模型为:
当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。
在t时刻整个***的联合状态定义为
Figure BDA0003476075860000063
其中srt为机器人状态,
Figure BDA0003476075860000064
是人类的状态。目标是找到一个使期望收益最大化的最优策略π。
也就是说,机器人的导航路径是找到一个使期望收益最大化的最优策略
Figure BDA0003476075860000065
Figure BDA0003476075860000066
式中
Figure BDA0003476075860000067
表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子,
Figure BDA0003476075860000068
是最优值函数,
Figure BDA0003476075860000069
是从时间t到时间tΔ=t+Δt的状态转移概率;
Figure BDA00034760758600000610
是在t时刻整个***的联合状态,
Figure BDA0003476075860000071
是在tΔ时刻整个***的联合状态,at表示在t时刻的动作;vpref表示首选速度。其中,使用时间差分学习方法来训练值网络。
本实施例考虑了机器人和人的实时相对运动。单独通过机器人或行人的状态很难反映环境中的风险。如图2(a)和图2(b)所示,即使确定了行人的状态,在不同的相对速度条件下,机器人面临的风险仍然会有显著的变化。其中,2(a)表示机器人与行人移动方向一致,机器人可能处于低风险状态。图2(b)表示机器人与行人面对面移动,机器人可能处于高风险的情况。
因此,本实施例根据每个人的相对运动,形成每个人周围的风险区域(Risk-Area,RA)。随着相对速度的增加,风险区域(Risk-Area,RA)的范围和强度增加,使得机器人在导航时更加谨慎。如果机器人接近行人太快,将被Risk-Area惩罚。机器人在学习过程中接受躲避Risk-Area的训练,以实现安全舒适的导航。
由于传感器精度、控制误差等因素的影响,机器人在过于靠近行人时容易产生较高的风险。设计了一个基于位置的惩罚函数Ppt来表示环境中的风险,即:
Figure BDA0003476075860000072
式中kp为总惩罚函数中调整位置惩罚效果的权重系数,dm为一个时间步中内机器人与人之间的最小分离距离,Dp为惩罚函数有效阈值距离,本实施例设置为0.2m。
根据动量定理,两个物体质量一定,相互接近速度越大,碰撞产生的力就越大,损伤也会越大。为了避免机器人过快接近行人,我们将机器人与行人的相对接近速度vrh作为惩罚项应用到惩罚函数中。设vrt和vht分别表示在t时刻机器人和人的速度,其中接近速度vr2ht为vrt-vht在机器人到人的方向上的分量:
Figure BDA0003476075860000081
式中prt和pht表示t时刻机器人和人的位置。当t足够小时,我们可以假设在一个控制周期中机器人和人的接近速度是恒定的。那么速度罚函数的形式如下:
Figure BDA0003476075860000082
式中vrmax和vhmax分别是机器人和行人的最大速度。kv是一个用来调整速度惩罚影响权重的系数。dt为机器人和行人在t时刻的距离。Dp惩罚函数有效的阈值距离,形式如下:
Dv=vr2ht·mv+Dp (6)
其中mv是一个影响Risk-Area作用范围的可调参数,在本实施例中为0.25。Risk-Area惩罚函数的最终形式为速度惩罚和位置惩罚的总和,形式如下:
Figure BDA0003476075860000083
由于Risk-Area惩罚函数由位置惩罚和速度惩罚两部分组成,因此Risk-Area的几何形状也分为位置Risk-Area和速度Risk-Area两部分。位置Risk-Area的几何形状如图3(a)和3(b)所示,为半径为rp=rh+Dp的正圆。
在讨论速度危险区域的几何形状之前,机器人应该知道相邻行人的速度。以人的中心为极点,行人相对于机器人的运动方向为极坐标轴,建立极坐标***如图4(a)和图4(b)所示。速度Risk-Area的边界点P需要满足式(5)中的条件,边界的轨迹方程如下:
Figure BDA0003476075860000091
其中vhr是人相对于机器人的速度,ρ是人到机器人的距离,θ是vhr和参考轴之间的夹角。最终的形状如图5(a)和5(b)所示。考虑到人体灵活的运动能力和环境的不确定性,我们没有随着速度的增加而缩小风险区域的范围。此外,速度惩罚区域在行人相对于机器人的方向上留下了较大的惩罚空间,使其在快速接近人体时更容易受到速度惩罚。
当机器人进入危险区域时,通过对应的惩罚函数得到惩罚。例如,在图6中,机器人1被位置风险区域处罚,机器人2和机器人3不被处罚,机器人4被速度风险区域处罚。
本实施例考虑了智能体之间的相对运动,并设计了作为安全措施的Risk-Areas。当机器人在人群中导航时,会计算出相邻行人的危险区域并进行躲避。奖励函数的惩罚形式在(7)中给出。当机器人在限定时间内完成目标后会受到奖励。最终的奖励函数形式如下:
Figure BDA0003476075860000092
机器人倾向于向Risk-Area中惩罚减少最快的方向移动。当机器人无碰撞进入危险区域时,使用pht和prt所表示的位置和速度罚函数形式如下:
Figure BDA0003476075860000093
式中c是一个值为正的常数。在对环境中的任意一个行人进行分析时,我们假设行人位置相对于世界坐标系是静态的,这样来讨论机器人的位置变化对风险的影响。Ppt和Pvt对prt的偏导数形式如下:
Figure BDA0003476075860000101
式中vrht⊥表示垂直于vrh的速度分量。如图7所示,位置惩罚会引导机器人转向背对行人的方向,这是一种不自然并且偏离目标的躲避行为。而我们的方法可以引导机器人从旁边绕过行人,更加有效地引导机器人学习避让动作。
仿真环境是在Python上用PyTorch库构建的。将Risk-Area奖励函数对比了现有的两种奖励函数形式:基于位置的奖励函数和DZ奖励函数。此外,为了测试不同奖励函数的性能,我们选择了三种现有的深度强化学习方法,即CADRL、LSTM_RL和SARL作为基础训练模型。
首先,使用3k episodes的ORCA演示来对模型进行模仿学习预处理。然后用RL方法对模型进行10k episodes的训练。RL参数包括0.001的学习率和0.9的折扣因子γ。ε-greedy策略的探索率ε在前5k episodes呈线性下降趋势,从0.5下降为0.1,在剩下的5kepisodes中保持为0.1。Risk-Area的参数包括速度加权系数kv=0.1和位置加权系数kp=0.24。模拟环境中设置了5个行人,并设置其状态是可见的。模拟环境中的行人遵循ORCA的策略进行导航。假设仿真中的所有的智能体均为直径0.6m的圆。为了充分评估模型的有效性,我们采用了两种仿真设置:差动驱动机器人设置和全向机器人设置。
模型是用500个随机测试用例来评估的。性能指标包括成功率、碰撞率、航行时间、危险频率和最小分离距离。成功率(Success Rate,SR)是指机器人完成目标的实验数与总实验数的比值。碰撞率(Collision Rate,CR)是机器人与人类碰撞的实验次数占总实验次数的比例。导航时间(Navigation Time,NT)是指机器人达到目标所需的平均时间。危险频率(Danger Frequency,DF)是导航过程中机器人过于接近人类(dt<0.2m)的时间和总导航时间之比。最小分离距离(Minimum Separation Distance,MSD)是指机器人与人过于接近时(dt<0.2m)的平均最小分离距离。
表1.机器人在人群环境下的导航结果
Figure BDA0003476075860000111
导航过程的安全性是评价机器人在拥挤环境中导航性能的最重要因素。CADRL、LSTM RL和SARL模型训练时均分别采用了三种不同的奖励函数:基于位置的奖励函数、DZ奖励函数和本实施例提出的RA奖励函数。
1)差动驱动机器人:差动驱动机器人的实验结果如表1所示。由于CADRL的maximin方法只考虑单个人机交互,因此CADRL的碰撞率最高。LSTM_RL和SRAL通过聚合多智能体信息,在安全性和成功率方面表现较好。其中,采用基于位置的奖励函数训练的模型由于忽略了机器人与人之间的速度关系,安全性和任务完成能力较差。由于考虑了行人行为,DZ方法在危险频率和碰撞率方面比基于位置的奖励函数具有更好的安全性能。与之前的方法相比,我们的方法将智能体之间的相对运动考虑在了Risk-Areas的设计中,训练得到的模型在成功率和最小分离距离方面获得了更好的结果。SARL-RA是在所有方法中取得效果最好的算法,其碰撞率小于SARL或者SARL-DZ的1/3,危险频率小于之前方法的1/4。
2)全向机器人:由于考虑了多智能体信息,LSTM_RL和SRAL在安全性和任务完成方面仍然优于CADRL。用该方法训练的三种深度强化学习模型均有较好的训练效果。CADRL-RA的成功率分别比CADRL和CADRL-DZ提高14%和24%。与之前的奖励函数相比,CADRL-RA的最小分离距离增加了50%。对于LSTM_RL,所提出的奖励函数在保持相同的导航时间的前提下也获得了更高的安全性能。LSTM_RL-RA的危险频率和最小分离距离与LSTM RL和LSTM RL-DZ相比取得了明显改善。在所有算法中,SARL-RA在安全性、任务完成度和时间效率方面达到了最高的性能。SARL-RA的成功率分别比SARL和SARL-DZ高5%和6%。导航时间分别比SARL和SARL-DZ短0.91s和1.23s。结果表明,该方法提高了导航***的整体性能。
图8(a)-图8(c)为采用三种不同的奖励函数训练的SARL算法模型对差动驱动机器人导航结果。为了公平起见,测试用例具有相同的行人轨迹和时间步长。SARL、SARL-DZ和SARL-RA的导航时间分别为15.25s、13.00s和13.50s。在图8(a)中,SARL使机器人从行人的同一方向进行躲避动作。然而行人的快速移动导致了机器人转向失败。这种被动的逃避行为导致在7.50秒时出现了危险情况。DZ方法过于关注快速移动的行人的前进方向,而忽略了周围可能存在的风险。因此,在图8(b)中,借助SARL_DZ导航的机器人在6.50s时过于靠近行人0。相比之下,SARL-RA通过选择合适的避障策略,并与迎面而来的行人0和行人3保持了安全距离,表现最佳,如图8(c)所示。实验结果表明,本文提出的RA单用SARL算法具有安全性和社会顺应性。
下面在一个人机共存的室内环境中,使用Turtlebot2平台实现了仿真环境中具有最佳性能的SARL-RA策略,如图9所示。图中虚线的点表示机器人的轨迹。短箭头表示SARL-RA算法生成的操作命令。长箭头表示二维激光雷达探测到的人的速度。右下角的点是机器人导航框架生成的局部目标。机器人配备了一个用于行人检测的SLAMTEC RPLIDAR A3,动作命令由一台安装了Ubuntu 16.04和ROS Kinetic的IRU迷你电脑生成。利用ROS软件包amcl和leg_detector分别获得机器人和行人的位置和速度。现实世界中的实验表明,机器人能够在快速移动的人群中安全高效地穿行。
实施例二
如图10所示,本实施例提供了一种在移动人群环境中的机器人导航***,其包括如下模块:
(1)信息获取模块,其用于获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;
(2)路径导航模块,其用于再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;
其中,所述基于机器人的风险区域模型为:
当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。
在一个或多个实施例中,在所述路径导航模块中,机器人的导航路径是找到一个使期望收益最大化的最优策略
Figure BDA0003476075860000141
Figure BDA0003476075860000142
Figure BDA0003476075860000143
式中
Figure BDA0003476075860000144
表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子,
Figure BDA0003476075860000145
是最优值函数,
Figure BDA0003476075860000146
是从时间t到时间tΔ=t+Δt的状态转移概率;
Figure BDA0003476075860000147
是在t时刻整个***的联合状态,
Figure BDA0003476075860000148
是在tΔ时刻整个***的联合状态,at表示在t时刻的动作;vpref表示首选速度。
在一个或多个实施例中,在所述路径导航模块中,所述风险区域包括位置风险区域和速度风险区域。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的在移动人群环境中的机器人导航方法中的步骤。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种在移动人群环境中的机器人导航方法,其特征在于,包括:
获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;
再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;
其中,所述基于机器人的风险区域模型为:
当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。
2.如权利要求1所述的在移动人群环境中的机器人导航方法,其特征在于,机器人的导航路径是找到一个使期望收益最大化的最优策略
Figure FDA0003476075850000011
Figure FDA0003476075850000012
Figure FDA0003476075850000013
式中
Figure FDA0003476075850000014
表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子,
Figure FDA0003476075850000015
是最优值函数,
Figure FDA0003476075850000016
是从时间t到时间tΔ=t+Δt的状态转移概率;
Figure FDA0003476075850000017
是在t时刻整个***的联合状态,
Figure FDA0003476075850000018
是在tΔ时刻整个***的联合状态,at表示在t时刻的动作;vpref表示首选速度。
3.如权利要求2所述的在移动人群环境中的机器人导航方法,其特征在于,使用时间差分学习方法来训练最优值函数。
4.如权利要求1所述的在移动人群环境中的机器人导航方法,其特征在于,所述风险区域包括位置风险区域和速度风险区域。
5.如权利要求4所述的在移动人群环境中的机器人导航方法,其特征在于,所述惩罚函数为基于速度的惩罚函数和基于位置的惩罚函数的总和。
6.一种在移动人群环境中的机器人导航***,其特征在于,包括:
信息获取模块,其用于获取移动人群中各个行人的目标位置、首选速度、航向角、实时位置和实时速度以及机器人的实时位置和实时速度;
路径导航模块,其用于再基于机器人的风险区域模型,得到移动人群与机器人相邻的行人的风险区域并进行躲避,进而得到机器人的导航路径;
其中,所述基于机器人的风险区域模型为:
当机器人在限定时间内躲避成功时,通过对应奖励函数得到奖励;当机器人进入风险区域时,通过对应惩罚函数得到惩罚;风险区域的惩罚函数形式和生效范围取决于环境中机器人和行人的实时相对位置和速度。
7.如权利要求6所述的在移动人群环境中的机器人导航***,其特征在于,在所述路径导航模块中,机器人的导航路径是找到一个使期望收益最大化的最优策略
Figure FDA0003476075850000021
Figure FDA0003476075850000022
Figure FDA0003476075850000023
式中
Figure FDA0003476075850000024
表示在t时刻获得的奖励,γ∈(0,1)是一个折扣因子,
Figure FDA0003476075850000025
是最优值函数,
Figure FDA0003476075850000026
是从时间t到时间tΔ=t+Δt的状态转移概率;
Figure FDA0003476075850000027
是在t时刻整个***的联合状态,
Figure FDA0003476075850000028
是在tΔ时刻整个***的联合状态,at表示在t时刻的动作;vpref表示首选速度。
8.如权利要求6所述的在移动人群环境中的机器人导航***,其特征在于,在所述路径导航模块中,所述风险区域包括位置风险区域和速度风险区域。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的在移动人群环境中的机器人导航方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的在移动人群环境中的机器人导航方法中的步骤。
CN202210055610.6A 2022-01-18 2022-01-18 一种在移动人群环境中的机器人导航方法及*** Pending CN114510038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210055610.6A CN114510038A (zh) 2022-01-18 2022-01-18 一种在移动人群环境中的机器人导航方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210055610.6A CN114510038A (zh) 2022-01-18 2022-01-18 一种在移动人群环境中的机器人导航方法及***

Publications (1)

Publication Number Publication Date
CN114510038A true CN114510038A (zh) 2022-05-17

Family

ID=81550328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210055610.6A Pending CN114510038A (zh) 2022-01-18 2022-01-18 一种在移动人群环境中的机器人导航方法及***

Country Status (1)

Country Link
CN (1) CN114510038A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117490696A (zh) * 2023-10-23 2024-02-02 广州创源机器人有限公司 一种加速机器人导航效率的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414831A (zh) * 2019-07-24 2019-11-05 清华大学 基于驾驶人认知视角的人车路耦合风险评估方法及装置
US20200150672A1 (en) * 2018-11-13 2020-05-14 Qualcomm Incorporated Hybrid reinforcement learning for autonomous driving
CN112906542A (zh) * 2021-02-08 2021-06-04 北京理工大学 一种基于强化学习的无人车避障方法及装置
CN113096161A (zh) * 2021-03-31 2021-07-09 哈尔滨工业大学(深圳) 一种密集行人环境下强化学习移动机器人的导航方法及装置
CN113759901A (zh) * 2021-08-12 2021-12-07 杭州电子科技大学 一种基于深度强化学习的移动机器人自主避障方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200150672A1 (en) * 2018-11-13 2020-05-14 Qualcomm Incorporated Hybrid reinforcement learning for autonomous driving
CN110414831A (zh) * 2019-07-24 2019-11-05 清华大学 基于驾驶人认知视角的人车路耦合风险评估方法及装置
CN112906542A (zh) * 2021-02-08 2021-06-04 北京理工大学 一种基于强化学习的无人车避障方法及装置
CN113096161A (zh) * 2021-03-31 2021-07-09 哈尔滨工业大学(深圳) 一种密集行人环境下强化学习移动机器人的导航方法及装置
CN113759901A (zh) * 2021-08-12 2021-12-07 杭州电子科技大学 一种基于深度强化学习的移动机器人自主避障方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHEN FENG: "Safe and socially compliant robot navigation in crowds with fast-moving pedestrians via deep reinforcement learning", 《ROBOTIC》, 26 February 2024 (2024-02-26), pages 1 - 19 *
冯震: "面向人群场景的服务机器人感知导航方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 January 2024 (2024-01-15), pages 140 - 649 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117490696A (zh) * 2023-10-23 2024-02-02 广州创源机器人有限公司 一种加速机器人导航效率的方法

Similar Documents

Publication Publication Date Title
CN109375632B (zh) 自动驾驶车辆实时轨迹规划方法
Göhring et al. Semi-autonomous car control using brain computer interfaces
JP2022536263A (ja) 動的障害物を有する環境における動作計画を容易にする装置、方法及び物品
CN109318890A (zh) 一种基于动态窗口及障碍物势能场的无人车动态避障方法
CN109241552A (zh) 一种基于多约束目标的水下机器人运动规划方法
CN107643752A (zh) 基于行人轨迹预测的全向移动机器人路径规划算法
CN112639849A (zh) 路径选择方法和路径选择装置
CN112577506B (zh) 一种自动驾驶局部路径规划方法和***
CN115469663B (zh) 面向自动驾驶的基于深度强化学习的端到端导航避障方法
US20240043034A1 (en) Method and system for conditional operation of an autonomous agent
CN105549600A (zh) 一种基于虚拟膨化的运动障碍与uuv相向航行的规避方法
CN113190004A (zh) 一种基于算法融合的无人驾驶车辆避碰路径规划方法
CN109709944A (zh) 一种自动驾驶公交车的进站方法及其进站路径的生成方法
CN114510038A (zh) 一种在移动人群环境中的机器人导航方法及***
Zang et al. Winning the 3rd Japan automotive AI challenge-Autonomous racing with the Autoware. auto open source software stack
Thrunyz The dynamic window approach to collision avoidance
Hartmann et al. Competitive driving of autonomous vehicles
Merat et al. Towards pedestrian-av interaction: method for elucidating pedestrian preferences
CN105629975A (zh) 一种基于虚拟膨化的uuv航行过程中的运动障碍的规避方法
WO2021167670A2 (en) Autonomous sense and guide machine learning system
CN113934219B (zh) 一种机器人自动避障方法、***、设备及介质
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN115542733A (zh) 基于深度强化学习的自适应动态窗口法
CN114167856A (zh) 一种基于人工情感的服务机器人局部路径规划方法
Smith et al. Echoic flow for autonomous navigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination