CN117232522A - 基于时空交互图和危险区域的机器人人群导航方法及*** - Google Patents

基于时空交互图和危险区域的机器人人群导航方法及*** Download PDF

Info

Publication number
CN117232522A
CN117232522A CN202311173559.XA CN202311173559A CN117232522A CN 117232522 A CN117232522 A CN 117232522A CN 202311173559 A CN202311173559 A CN 202311173559A CN 117232522 A CN117232522 A CN 117232522A
Authority
CN
China
Prior art keywords
robot
pedestrian
space
time
dangerous area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311173559.XA
Other languages
English (en)
Inventor
辛景民
史佳敏
邱卓
陈仕韬
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Shun'an Artificial Intelligence Research Institute
Xian Jiaotong University
Original Assignee
Ningbo Shun'an Artificial Intelligence Research Institute
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Shun'an Artificial Intelligence Research Institute, Xian Jiaotong University filed Critical Ningbo Shun'an Artificial Intelligence Research Institute
Priority to CN202311173559.XA priority Critical patent/CN117232522A/zh
Publication of CN117232522A publication Critical patent/CN117232522A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Manipulator (AREA)

Abstract

本发明公开一种基于时空交互图和危险区域的机器人人群导航方法及***,所述方法利用时空交互图的注意力机制来捕获机器人与其它代理的协商合作交互,使用注意力机制的图神经网络,进行时空推理理解行人间的隐式交互,创建一个可以在部分可观察的人群中符合社会要求的机器人自主导航;通过考虑行人的运动学模型,构建一个实时的受约束行动空间,即潜在的危险区域,在不确定和动态的拥挤场景中,行人根据其身体状况以不可预测的速度导航,本发明构造基于行人运动特性的危险区域,显示建模机器人的受约束运动空间,没有任何专家监督的情况下使用无模型深度强化学习来训练网络,使机器人能够在人群导航中执行高效的时空推理。

Description

基于时空交互图和危险区域的机器人人群导航方法及***
技术领域
本发明属于智能移动机器人行为规划领域,具体涉及一种基于时空交互图和危险区域的机器人人群导航方法及***。
背景技术
随着移动机器人的快速发展,在不确定和动态的拥挤环境中进行高效安全的自主导航是一个重要但具有挑战性的问题。在丰富的行人环境中,静态行人和动态行人存在隐式的合作和协商交互,这导致智能体难以推断行人的策略偏好和预期目标,自主导航过于保守或不符合社会,甚至出现冻结机器人问题。
针对具有挑战性的机器人人群导航问题,多位学者已经做出成功的方法。基于反应的方法,如最优互防碰撞(ORCA)和社会力(SF),规定机器、行人和环境之间的交互规则,从而实现避碰、合理协作等行为。基于学***方米的人群中,所有邻接行人的联合影响可能会损害机器人的状态特征编码,过度保守的代理行为可能会造成冷冻机器人问题。
发明内容
为了处理现实条件,本发明提供一种基于时空交互图和危险区域的机器人人群导航方法,使用注意力机制的图神经网络,进行时空推理理解行人间的隐式交互,创建一个可以在部分可观察的人群中符合社会要求的机器人自主导航,提供一种Danger-Zone算法,通过考虑行人的运动学模型,以高实时性构建一个受约束行动空间,即潜在的危险区域(DZ),解决机器人冻结的问题。
为了实现上述目的,本发明采用的技术方案是:一种基于时空交互图和危险区域的机器人人群导航方法,导航过程为机器人与拥挤环境交互的序贯决策过程,包括以下步骤:
通过考虑行人的运动学模型,构建一个实时的受约束行动空间,即潜在危险区域;
在不确定和动态的拥挤场景中,对行人根据自身的身体状况和潜在的危险区域以不可预测的速度导航;
考虑行人的潜在危险区域,基于Actor-Critic框架的无模型深度强化学习方法优化机器人与行人的交互过程,输出动作指令,使机器人远离潜在危险区域到达终点。
进一步的,将机器人与拥挤环境交互的序贯决策过程规范化为一个由(S,A,R,P,γ)五元组组成的马尔可夫决策过程,其中,S为状态空间,A为动作空间,P为概率转移函数,R为奖励函数,γ为折扣因子,t时刻机器人和传感器范围内行人的状态定义为由策略π(a|s)=P(at=a|st=s)根据st得到动作命令at=π(st),机器人采取at过渡到t+1时刻状态st+1,同时得到奖励rt,直至到达目标点;机器人调整策略π,得到长期的收益Rt如下:
其中,∑t:0...T-1γtrt部分记录机器人在时间窗口[0,T-1)内状态轨迹的累积奖励,γTrT代表结束时刻T的奖励,其中,γ为衰减因子。
进一步的,采用蒙特卡罗算法求解贝尔曼优化方程求得最优策略,贝尔曼优化方程如下:
其中,为PPO算法的最优动作状态值函数,采取大数定理近似等价处理得到P。
进一步的,机器人采取at过渡到t+1时刻状态st+1时,在每个时间步t,构造由一组节点Vt、一组空间边和一组时间边/>组成的空间图/>空间边连接相同时间步长下移动机器人和其观测到的行人,以隐式表示在同一时间步长两者的空间交互,时间边连接相邻时间步长的机器人节点;
构造空间边注意力机制和时间边GRU机制,空间边注意力机制将分配每一对人类和机器人之间的空间边权重,使用查询Q和键K计算注意力得分,并将归一化得分应用于值V:
将注意力机制输出的隐藏状态和机器人的自身状态连接到多层感知器中,得到机器人和感受野范围内行人之间的特征编码;
时间边GRU输入机器人基于动力学的自身轨迹,将线性化的时间特征变量送入GRU模块:
其中是GRU在时间t的隐藏状态,最后,将/>输入到完全连接层,以获得值V(st)和策略π(at|st)。
进一步的,构建一个实时的受约束行动空间,即潜在危险区域时,计算机器人视野内的危险区域,潜在危险区域奖励函数基于危险区域重叠面积Aoverleap、行人到机器人之间的三维当前距离dc和未来距离df,危险区域重叠面积Aoverleap的优先级高于距离,且行人与机器人的危险重叠区域与潜在危险区域奖励函数呈负线性增加,当两者存在交叠面积时机器人会立刻进入潜在危险区域,容易发生碰撞,当不存在交叠区域时,考虑机器人和行人之间的距离,远离行人时奖励增大。
进一步的,机器人远离潜在危险区域到达终点的惩罚和碰撞奖励如下:
其中,Aoverleap为行人和机器人的危险区域重叠面积,Arobot为机器人的危险区域,Apedestrian为行人的危险区域,dc为行人到机器人之间的三维当前距离,wc是dc的权重,wf是df的权重,df为行人到机器人之间的三维未来距离。
进一步的,通过考虑行人的运动学模型时,将机器人视野内的行人位置和速度建模在机器人右手坐标系下,
初始行人扇形行动约束模型为:
r=dmax_step+v*ar
其中,r代表行人的纵向活动空间,θ代表行人的横向活动空间,ar代表r的增长速率变换,dmax_step代表性人的最大步长,v代表行人速度;将机器人的横向移动空间[-π,π]分成8部分,纵向速度空间分成4部分,其中也包括原地等待(0,0)动作,机器人一共存在33个动作(vx,vy);设定随机最大速度和曲率约束的行人由基于反应的碰撞避免控制,机器人的动作由横向速度和纵向速度组成(vx,vy),为不同的场景设置不同的随机种子,行人的起始位置和目标位置在仿真环境中随机采样,在到达目标位置后会重新移动到新随机终点。
基于同样的构思,本发明还提供基于时空交互图和危险区域的机器人人群导航***,包括潜在危险区域构建模块、导航模块以及优化输出指令模块;
潜在危险区域构建模块用于通过考虑行人的运动学模型,构建一个实时的受约束行动空间,即潜在危险区域;
导航模块用于在不确定和动态的拥挤场景中,对行人根据自身的身体状况和潜在的危险区域以不可预测的速度导航;
优化输出指令模块用于考虑行人的潜在危险区域,基于Actor-Critic框架的无模型深度强化学习方法优化机器人与行人的交互过程,输出动作指令,使机器人远离潜在危险区域到达终点。
另外提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,所述处理器执行程序时能实现本发明所述的基于时空交互图和危险区域的机器人人群导航方法。
本发明同时提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于时空交互图和危险区域的机器人人群导航方法。
与现有技术相比,本发明至少具有以下有益效果:
本发明提供一种Danger-Zone方法,基于行人运动学约束实时构造机器人的潜在冻结区(PFZ),并以安全的社会顺从方式进行导航,提供一种基于时空交互图的注意力机制,能够有效地捕捉行人的隐式交互,使机器人能够在人群导航中执行高效的时间推理和空间推理,评估危险区域与时空交互图驱动的导航方法,是能够平衡安全性和高效性的混合导航算法。实验结果证明,在各种具有挑战的导航场景中,本发明的导航方法相较于目前最先进的方法表现出更优越的性能。
附图说明
图1为增强Danger-Zone构造算法示意图。
图2为基于时空交互图的注意力机制体系结构。
图3为改编的2D行人仿真场景。
图4为中度拥挤场景下ORCA和基于增强Danger-Zone和时空交互图的注意力机制的实验对比图。
图5为严重拥挤场景下TGRL和基于增强Danger-Zone和时空交互图的注意力机制的实验对比图。
图6为针对本发明所述方法进行的消融研究结果。
图7为本发明场景示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下详细介绍基于行人运动学约束的增强Danger-Zone构造算法和基于注意力机制图神经网络的行人交互模型的实现细节。最后,将阐述本发明无模型强化学习如何通过DZ和时空交互图驱动机器人避开危险区域,解决机器人冻结问题。
参考图7,在拥挤行人环境中,行人有时会突然改变运动方向或速度,对机器人的导航能力提出了挑战。行人遵循特定的运动模式,了解行人运动模式是设计导航机器人符合社会要求的重要因素之一。行人的运动模式受生理限制,如:行人在高速运动时不能承受较大的侧向偏移,基于这一事实,行人的行动空间随着速度的增加而减少。本发明构造半径r和角度θ的初始行人扇形行动约束模型,如下:
r=dmax_step+v*ar
其中,r代表行人的纵向活动空间,θ代表行人的横向活动空间,ar代表r的增长速率变换,dmax_step代表性人的最大步长,v代表行人速度。本发明研究[-2,3.3]范围内的行人速度,随着行人行进速度v的提高,其运动约束空间r呈线性增加,θ呈对数下降,如图1所示。对于静态行人活动空间以圆形表示,对于动态行人活动空间以扇形呈现,上述初始模型以行人中心为原点,忽略动态行人和静态行人之间的隐式社交,本发明对其进行改造其求解,通过面积重叠求解不同危险区域的重要程度。
1)状态:本发明将机器人视野内的行人位置和速度建模在机器人右手坐标系下,为了对应现实,本发明仅获取显示传感器可获取的信息,并且优化了状态空间。
行人观测值:本发明设第i个行人观测值为主要包含其当前位置/>行驶速度/>行人半径Ri以及其危险区域的半径/>角度/>和危险系数/>
机器人观测值:本发明设机器人的观测值为sr,主要包含行驶速度最大速度限制vmax、半径R以及其当前位置到目标位置的距离dg
本发明导航任务研究的是作为主体的机器人与拥挤环境交互的序贯决策过程,将所述序贯决策过程规范化为由(S,A,R,P,γ)五元组组成的马尔可夫决策过程,其中,S为状态空间,A为动作空间,P为概率转移函数,R为奖励函数,γ为折扣因子。将t时刻机器人和传感器范围内行人的状态定义为由策略π(a|s)=P(at=a|st=s)根据st,得到动作命令at=π(st),机器人采取at,过渡到t+1时刻状态st+1,并得到奖励rt,直至到达目标点,而机器人必须调整策略π,得到长期的收益Rt,定义如下:
其中,∑t:0...T-1γtrt部分记录机器人在时间窗口[0,T-1)内状态轨迹的累积奖励,γTrT代表结束时刻T的奖励,其中,γ为衰减因子。
采用蒙特卡罗算法求解贝尔曼优化方程求得最优策略如下:
其中,代表PPO算法的最优动作状态值函数,由于P很难获得,本发明采取大数定理近似等价。
3)奖励:本发明计算机器人视野内的危险区域,即潜在冻结区域,并在导航时试图避开潜在冻结区域,从而避免机器人冷冻问题。DZ奖励函数基于危险区域重叠面积Aoverleap和行人到机器人之间的三维当前距离dc和未来距离df。其中,重叠面积的优先级高于距离,且行人与机器人的危险重叠区域与DZ奖励呈负线性增加,当两者存在交叠面积时,证明机器人马上进入潜在冷冻区域,容易发生碰撞。当不存在交叠区域时,本发明才考虑机器人和行人之间的距离,远离行人时奖励增大。此外,本发明还设置成功导航到目标位置和惩罚碰撞奖励,如下:
其中,Aoverleap为行人和机器人的危险区域重叠面积,Arobot为机器人的危险区域,Apedestrian为行人的危险区域,dc为行人到机器人之间的三维当前距离,wc是dc的权重,wf是df的权重,df为行人到机器人之间的三维未来距离。
4)动作:为了降低复杂性并使机器人能够平稳移动,本发明将机器人的横向移动空间[-π,π]分成8部分,纵向速度空间分成4部分,其中也包括原地等待(0,0)动作,所以机器人一共存在33个动作(vx,vy)。
本发明提出基于注意力机制图神经网络的交互模型如图2所示,包括时间推理和空间推理,在每个时间步t,本发明构造由一组节点Vt、一组空间边和一组时间边/>组成的空间图/>为了考虑现实因素,节点仅表示传感器范围内检测到的行人和机器人的状态,可以避免边缘行人对机器人的状态特征编码造成损害,导致代理做出极端的决策行为。因为机器人与行人的互动具有直接影响,空间边连接相同时间步长下移动机器人和其观测到的行人,以隐式表示在同一时间步长两者的空间交互,使机器人做出更高明的决策,时间边连接相邻时间步长的机器人节点。
参考图2,为了克服短视和梯度消失问题,本发明构造空间边注意力机制和时间边GRU机制,空间边注意力机制将分配每一对人类和机器人之间的空间边权重,空间边注意力机制更关注重要交互,使用查询Q和键K计算注意力得分,并将归一化得分应用于值V。
然后将注意力机制输出的隐藏状态和机器人的自身状态连接到多层感知器(MLP)中,最后得到机器人和感受野范围内行人之间的特征编码。
时间边GRU输入机器人基于动力学的自身轨迹,与空间边注意力机制类似,将线性化的时间特征变量送入GRU模块:
其中是GRU在时间t的隐藏状态,最后,将/>输入到完全连接层,以获得值V(st)和策略π(at|st)。
图3中显示本发明改编的2D行人仿真场景,本发明设定随机最大速度和曲率约束的行人由ORCA(Optimal Reciprocal Collision Avoidance)控制,而本发明的机器人的动作由横向速度和纵向速度组成(vx,vy)。为了更真实的模拟现实场景,本发明设行人的预期目标和规划轨迹并不受机器人影响,只对行人做出响应,使得机器人更符合社会要求,本发明假设存在完美的控制执行器,定义代理的位置更新规则如下:
其中,为不同的场景设置不同的随机种子,行人的起始位置和目标位置在仿真环境中随机采样,在到达目标位置后会重新移动到新随机终点,符合现实中的连续人流量模式。其他仿真信息如下表:
本发明使用基于Actor-Critic框架的无模型强化学习算法近端策略优化(PPO),为了加速和稳定训练,作为示例,本发明并行运行了6个环境实例,以收集机器人的经验。在每次策略更新时,将使用40个步骤,共10000集,通过识别机器人人群导航的独立分量,本发明将复杂问题分解为更小的因素,并使用GRU和空间注意力机制来有效地学习相应因素的参数。通过组合上述所有组件,设计时空交互网络执行空间和时间推理,并通过PPO算法以避开机器人的潜在冻结区域为目标来确定机器人的最优动作,以下是本发明PPO算法的参数表:
本发明将五种经典方法作为baselines,分别是基于反应的ORCA和SF、基于轨迹的GCN、基于学***比较,本发明为所有方法设置了相同的训练场景和训练次数、奖励函数、优化器和学习率,为了更好评测实验性能,本发明设置多个包含不同数量的静态行人和动态行人场景。在训练阶段,本发明设置60s的超时限制,保证agent得到充足的探索。在测试阶段,对于专家agent,本发明设置了25s的超时限制,以验证策略的高效性。本发明保证所有测试场景初始化时具有相同的场景参数和行人参数。
为了清晰的呈现本发明所提出的危险区域和时空交互网络带来的性能增益,设置一个消融实验,称为无危险区域和无时空交互网络,以突出危险区域和时空交互网络的优点;设置4个实验场景来评估所有模型的性能:机器人的FoV为360°,传感器范围为5m;对于群体环境,分别设置5~20个动态行人和不超过5个静态行人。对于5个模型,用1000个随机的未见过的测试用例测试所有的模型,并通过成功率、碰撞率和超时率,以及成功导航的平均时间来准确评估模型的性能。
通过定性实验明确展现本发明提出方法的优越性,在少数动态行人环境中,基于反应的ORCA、基于轨迹的GRL和基于学习的LSTM-RL成功导航至目标点,但随着动态行人数量增多至10人,ORCA倾向于保守的静止动作,但随着行人距离越来越近,发生碰撞;而本发明的方法可以灵活地避开危险区,安全地到达终点,如图4所示。GRL通过关系图进行空间推理,相较于ORCA有着低的碰撞率,但缺少对未来状态的关注。当环境中有20个动态行人时,GRL控制的机器人更是会在拥挤环境周围徘徊,如图5所示,从后向前移动,再从前向后移动,甚至左右徘徊,最终导致超时或者产生激进动作导致碰撞。而本发明的方法在最复杂的动静混合场景中,以最快的时间搜索除一条无碰撞的路径。这是因为本发明的模型通过预测危险区域和结合时空推理,可以快速分析密集环境中危险区域,寻找安全的可行方向,从而更好地适应密集和部分可观察的环境。
为了评估危险区域的贡献度,本发明取消了行人和机器人中涉及危险区域的特征量,并在相同的动态环境下进行训练和测试。图6中的消融研究表明,危险区域明确提示了机器人的潜在冷冻区域,加速机器人的学习,并取得了最佳性能;取消时空交互网络,将原始状态特征直接输入MLP;消融研究表明,本发明的时空交互网络优化状态输进行了时间和空间推理,并取得了最佳性能。
综上所述,本发明提供一种基于时空交互图和危险区域的机器人人群导航方法,使用注意力机制的图神经网络,进行时空推理理解行人间的隐式交互,创建一个可以在部分可观察的人群中符合社会要求的机器人自主导航。创新地提出了一种Danger-Zone算法,通过考虑行人的运动学模型,以高实时性构建一个受约束行动空间,即潜在的危险区域(DZ)。由于DZ内的行人复杂度过高,机器人无法求出最优解,导致无限期停止或振荡,在不确定和动态的拥挤场景中,行人根据其身体状况以不可预测的速度导航;本发明构造注意力机制理解行人间的隐式交互,预测行人轨迹,构建危险区域,通过无模型深度强化学习,鼓励机器人远离潜在冻结区域,提高机器人的安全性和社会意识,用于解决拥挤场景和人群中自主导航时出现的机器人冻结问题(FRP)。
另一方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于时空交互图和危险区域的机器人人群导航方法。
所述计算机设备可以采用笔记本电脑、桌面型计算机、工作站或车载计算机。
对于本发明所述处理器,可以是中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。
对于本发明所述存储器,可以是笔记本电脑、桌面型计算机、工作站或车载计算机的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算机可执行程序时能实现本发明所述的基于时空交互图和危险区域的机器人人群导航方法。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。

Claims (10)

1.一种基于时空交互图和危险区域的机器人人群导航方法,其特征在于,导航过程为机器人与拥挤环境交互的序贯决策过程,包括以下步骤:
通过考虑行人的运动学模型,构建一个实时的受约束行动空间,即潜在危险区域;
在不确定和动态的拥挤场景中,对行人根据自身的身体状况和潜在的危险区域以不可预测的速度导航;
考虑行人的潜在危险区域,基于Actor-Critic框架的无模型深度强化学习方法优化机器人与行人的交互过程,输出动作指令,使机器人远离潜在危险区域到达终点。
2.根据权利要求1所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,将机器人与拥挤环境交互的序贯决策过程规范化为一个由(S,A,R,P,γ)五元组组成的马尔可夫决策过程,其中,S为状态空间,A为动作空间,P为概率转移函数,R为奖励函数,γ为折扣因子,t时刻机器人和传感器范围内行人的状态定义为由策略π(a|s)=P(at=a|st=s)根据st得到动作命令at=π(st),机器人采取at过渡到t+1时刻状态st+1,同时得到奖励rt,直至到达目标点;机器人调整策略π,得到长期的收益Rt如下:
其中,∑t:0...T-1γtrt部分记录机器人在时间窗口[0,T-1)内状态轨迹的累积奖励,γTrT代表结束时刻T的奖励,其中,γ为衰减因子。
3.根据权利要求2所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,采用蒙特卡罗算法求解贝尔曼优化方程求得最优策略,贝尔曼优化方程如下:
其中,为PPO算法的最优动作状态值函数,采取大数定理近似等价处理得到P。
4.根据权利要求2所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,机器人采取at过渡到t+1时刻状态st+1时,在每个时间步t,构造由一组节点Vt、一组空间边和一组时间边/>组成的空间图/>空间边连接相同时间步长下移动机器人和其观测到的行人,以隐式表示在同一时间步长两者的空间交互,时间边连接相邻时间步长的机器人节点;
构造空间边注意力机制和时间边GRU机制,空间边注意力机制将分配每一对人类和机器人之间的空间边权重,使用查询Q和键K计算注意力得分,并将归一化得分应用于值V:
将注意力机制输出的隐藏状态和机器人的自身状态连接到多层感知器中,得到机器人和感受野范围内行人之间的特征编码;
时间边GRU输入机器人基于动力学的自身轨迹,将线性化的时间特征变量送入GRU模块:
其中是GRU在时间t的隐藏状态,最后,将/>输入到完全连接层,以获得值V(st)和策略π(at|st)。
5.根据权利要求1所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,构建一个实时的受约束行动空间,即潜在危险区域时,计算机器人视野内的危险区域,潜在危险区域奖励函数基于危险区域重叠面积Aoverleap、行人到机器人之间的三维当前距离dc和未来距离df,危险区域重叠面积Aoverleap的优先级高于距离,且行人与机器人的危险重叠区域与潜在危险区域奖励函数呈负线性增加,当两者存在交叠面积时机器人会立刻进入潜在危险区域,容易发生碰撞,当不存在交叠区域时,考虑机器人和行人之间的距离,远离行人时奖励增大。
6.根据权利要求1所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,机器人远离潜在危险区域到达终点的惩罚和碰撞奖励如下:
其中,Aoverleap为行人和机器人的危险区域重叠面积,Arobot为机器人的危险区域,Apedestrian为行人的危险区域,dc为行人到机器人之间的三维当前距离,wc是dc的权重,wf是df的权重,df为行人到机器人之间的三维未来距离。
7.根据权利要求1所述的基于时空交互图和危险区域的机器人人群导航方法,其特征在于,通过考虑行人的运动学模型时,将机器人视野内的行人位置和速度建模在机器人右手坐标系下,
初始行人扇形行动约束模型为:
r=dmax_step+v*ar
其中,r代表行人的纵向活动空间,θ代表行人的横向活动空间,ar代表r的增长速率变换,dmax_step代表性人的最大步长,v代表行人速度;将机器人的横向移动空间[-π,π]分成8部分,纵向速度空间分成4部分,其中也包括原地等待(0,0)动作,机器人一共存在33个动作(vx,vy);设定随机最大速度和曲率约束的行人由基于反应的碰撞避免控制,机器人的动作由横向速度和纵向速度组成(vx,vy),为不同的场景设置不同的随机种子,行人的起始位置和目标位置在仿真环境中随机采样,在到达目标位置后会重新移动到新随机终点。
8.基于时空交互图和危险区域的机器人人群导航***,其特征在于,包括潜在危险区域构建模块、导航模块以及优化输出指令模块;
潜在危险区域构建模块用于通过考虑行人的运动学模型,构建一个实时的受约束行动空间,即潜在危险区域;
导航模块用于在不确定和动态的拥挤场景中,对行人根据自身的身体状况和潜在的危险区域以不可预测的速度导航;
优化输出指令模块用于考虑行人的潜在危险区域,基于Actor-Critic框架的无模型深度强化学习方法优化机器人与行人的交互过程,输出动作指令,使机器人远离潜在危险区域到达终点。
9.一种计算机设备,其特征在于,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,所述处理器执行程序时能实现权利要求1-7任一项所述的基于时空交互图和危险区域的机器人人群导航方法。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现权利要求1-7任一项所述的基于时空交互图和危险区域的机器人人群导航方法。
CN202311173559.XA 2023-09-12 2023-09-12 基于时空交互图和危险区域的机器人人群导航方法及*** Pending CN117232522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311173559.XA CN117232522A (zh) 2023-09-12 2023-09-12 基于时空交互图和危险区域的机器人人群导航方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311173559.XA CN117232522A (zh) 2023-09-12 2023-09-12 基于时空交互图和危险区域的机器人人群导航方法及***

Publications (1)

Publication Number Publication Date
CN117232522A true CN117232522A (zh) 2023-12-15

Family

ID=89092362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311173559.XA Pending CN117232522A (zh) 2023-09-12 2023-09-12 基于时空交互图和危险区域的机器人人群导航方法及***

Country Status (1)

Country Link
CN (1) CN117232522A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118192613A (zh) * 2024-05-13 2024-06-14 天津市品茗科技有限公司 一种ai机器人动态避障方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118192613A (zh) * 2024-05-13 2024-06-14 天津市品茗科技有限公司 一种ai机器人动态避障方法及***

Similar Documents

Publication Publication Date Title
Turchetta et al. Safe reinforcement learning via curriculum induction
CN110136481B (zh) 一种基于深度强化学习的停车策略
Otte A survey of machine learning approaches to robotic path-planning
JP2022524494A (ja) 深層強化学習に基づく自律走行エージェントの学習方法およびシステム
Zhu et al. Off-road autonomous vehicles traversability analysis and trajectory planning based on deep inverse reinforcement learning
Kanezaki et al. Goselo: Goal-directed obstacle and self-location map for robot navigation using reactive neural networks
Fraichard et al. From crowd simulation to robot navigation in crowds
CN117232522A (zh) 基于时空交互图和危险区域的机器人人群导航方法及***
Rezaee et al. Motion planning for autonomous vehicles in the presence of uncertainty using reinforcement learning
Hickling et al. Explainability in deep reinforcement learning: A review into current methods and applications
Salvatore et al. A neuro-inspired approach to intelligent collision avoidance and navigation
Zhang et al. Cat: Closed-loop adversarial training for safe end-to-end driving
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
CN117553798A (zh) 复杂人群场景中移动机器人的安全导航方法、设备及介质
Liu et al. An approach for multi-objective obstacle avoidance using dynamic occupancy grid map
Ye et al. GSAN: Graph self-attention network for interaction measurement in autonomous driving
Lawniczak et al. Naïve creature learns to cross a highway in a simulated CA-like environment
Botteghi et al. Entropy-based exploration for mobile robot navigation: a learning-based approach
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
CN114706384A (zh) 一种连通性保持的多机导航方法、***及介质
Anderson et al. Autonomous navigation via a deep Q network with one-hot image encoding
Yin et al. Random Network Distillation Based Deep Reinforcement Learning for AGV Path Planning
Boborzi et al. Learning normalizing flow policies based on highway demonstrations
Yu et al. An intelligent robot motion planning method and application via lppo in unknown environment
Neuman et al. Anytime policy planning in large dynamic environments with interactive uncertainty

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination