CN109974737B - 基于安全疏散标志和强化学习结合的路径规划方法及*** - Google Patents

基于安全疏散标志和强化学习结合的路径规划方法及*** Download PDF

Info

Publication number
CN109974737B
CN109974737B CN201910289774.3A CN201910289774A CN109974737B CN 109974737 B CN109974737 B CN 109974737B CN 201910289774 A CN201910289774 A CN 201910289774A CN 109974737 B CN109974737 B CN 109974737B
Authority
CN
China
Prior art keywords
agent
intelligent agent
value table
reinforcement learning
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910289774.3A
Other languages
English (en)
Other versions
CN109974737A (zh
Inventor
吕蕾
周丽美
赵修凯
吕晨
张桂娟
刘弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Center Information Technology Ltd By Share Ltd
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201910289774.3A priority Critical patent/CN109974737B/zh
Publication of CN109974737A publication Critical patent/CN109974737A/zh
Priority to LU101606A priority patent/LU101606B1/en
Application granted granted Critical
Publication of CN109974737B publication Critical patent/CN109974737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Alarm Systems (AREA)

Abstract

本公开提供了基于安全疏散标志和强化学习结合的路径规划方法及***。该路径规划方法,包括建立并栅格化二维仿真场景模型,初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志;结合安全疏散指示标志与Q‑Learning算法进行路径规划,其具体过程为:初始化Q值表中各个智能体对应的Q值为0;获取当前时刻各个智能体的状态信息并计算对应奖励,选择相应Q值大的动作移动各个智能体;计算移动到新位置的各个智能体的即时奖励,更新Q值表,判断Q值表是否收敛,若是,得到最优路径序列;否则,接收并汇总各个智能体发送来的输入环境信息及对应的状态、做出的动作、获得的奖励和输出环境信息,再将汇总信息分发给每个智能体,继续移动各个智能体。

Description

基于安全疏散标志和强化学习结合的路径规划方法及***
技术领域
本公开属于路径规划领域,尤其涉及一种基于安全疏散标志和强化学习结合的路径规划方法及***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
近年来,随着我国城市化进程的快速发展,城市公共场所的建筑物数量、规模也不断扩大,这意味着我们所要承担的安全压力也不断加大。如何真实快速的模拟出人群在公共场所发生意外事故时的疏散路径则成为我们亟待解决的重要问题。通过模拟人群疏散路径可以帮助***门预测意外事故发生时人群的疏散过程,进而提出有效的运动规划解决方案,缩短人员疏散时间,减少伤亡人数。
发明人发现,目前比较成熟的运动规划算法有A-star算法、人工势能算法、元胞自动机、模拟退火算法、遗传算法、强化学习算法等等不能对错综复杂的环境进行快速适应及学习并做出及时响应,导致出现路径规划效率低且准确性差的问题。
发明内容
为了解决上述问题,本公开的第一个方面提供一种基于安全疏散标志和强化学习结合的路径规划方法,其将安全疏散标志和强化学习结合,不依懒于环境模型,通过强化学习的试错机制,让智能体不断学习感知环境状态,再加上安全疏散指示标志的引导作用,便可以快速找出复杂环境中的最优路径。
为了实现上述目的,本公开采用如下技术方案:
一种基于安全疏散标志和强化学习结合的路径规划方法,包括:
步骤1:建立并栅格化二维仿真场景模型,初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志;
步骤2:结合安全疏散指示标志与Q-Learning算法进行路径规划;
所述步骤2的具体过程为:
步骤2.1:初始化Q值表中各个智能体对应的Q值为0;
步骤2.2:获取当前时刻各个智能体的状态信息并计算对应奖励,选择相应Q值大的动作移动各个智能体;
步骤2.3:计算移动到新位置的各个智能体的即时奖励,更新Q值表,判断Q值表是否收敛,若是,得到最优路径序列;否则进入下一步;
步骤2.4:接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息,再将汇总信息分发给每个智能体以实现信息共享,转向步骤2.2。
为了解决上述问题,本公开的第二个方面提供一种基于安全疏散标志和强化学习结合的路径规划***,其将安全疏散标志和强化学习结合,不依懒于环境模型,通过强化学习的试错机制,让智能体不断学习感知环境状态,再加上安全疏散指示标志的引导作用,便可以快速找出复杂环境中的最优路径。
为了实现上述目的,本公开采用如下技术方案:
一种基于安全疏散标志和强化学习结合的路径规划***,包括:
二维仿真场景模型初始化模块,其用于建立并栅格化二维仿真场景模型,初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志;
路径规划模块,其用于结合安全疏散指示标志与Q-Learning算法进行路径规划;
所述路径规划模块,包括:
Q值表初始化模块,其用于初始化Q值表中各个智能体对应的Q值为0;
智能体移动模块,其用于获取当前时刻各个智能体的状态信息并计算对应奖励,选择相应Q值大的动作移动各个智能体;
Q值表收敛判断模块,其用于计算移动到新位置的各个智能体的即时奖励,更新Q值表,判断Q值表是否收敛,当Q值表收敛时,得到最优路径序列;
信息共享模块,其用于当Q值表不收敛时,接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息,再将汇总信息分发给每个智能体以实现信息共享,继续根据Q值移动各个智能体来更新Q值表并判断更新后的Q值表是否收敛。
为了解决上述问题,本公开的第三个方面提供一种计算机可读存储介质,其将安全疏散标志和强化学习结合,不依懒于环境模型,通过强化学习的试错机制,让智能体不断学习感知环境状态,再加上安全疏散指示标志的引导作用,便可以快速找出复杂环境中的最优路径。
为了实现上述目的,本公开采用如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。
为了解决上述问题,本公开的第四个方面提供一种计算机设备,其将安全疏散标志和强化学习结合,不依懒于环境模型,通过强化学习的试错机制,让智能体不断学习感知环境状态,再加上安全疏散指示标志的引导作用,便可以快速找出复杂环境中的最优路径。
为了实现上述目的,本公开采用如下技术方案:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。
本公开的有益效果是:
(1)本公开将安全疏散标志和强化学习结合,不依懒于环境模型,通过强化学习的试错机制,让智能体不断学习感知环境状态,再加上安全疏散指示标志的引导作用,便可以快速找出复杂环境中的最优路径。
(2)由于缺乏先验知识,强化学习在初始的迭代过程中寻找到的路径往往不是最优的,针对此问题,采用多智能体信息共享的方式,扩大环境信息掌握区域,提高搜索效率,减少到达目的地的时间。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开实施例提供的一种基于安全疏散标志和强化学习结合的路径规划方法流程图。
图2是本公开实施例提供的二维建模效果图。
图3是本公开实施例提供的安全疏散指示标志位置设置示意图。
图4是本公开实施例提供的结合安全疏散指示标志与Q-Learning算法进行路径规划过程图。
图5是本公开实施例提供的智能体育环境交互过程图。
图6是本公开实施例提供的智能体信息共享示意图。
图7是本公开实施例提供的一种基于安全疏散标志和强化学习结合的路径规划***结构示意图。
图8是本公开实施例提供的路径规划模块结构示意图。
图9是本公开实施例提供的信息共享模块原理图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
如图1所示,本实施例的一种基于安全疏散标志和强化学习结合的路径规划方法,包括:
步骤1:建立并栅格化二维仿真场景模型,初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志。
为提高真实性,虚拟环境基于真实的某购物商场场景数据进行建立,将虚拟环境定义为M*N大小的区域,然后对其进行栅格化处理并对每个方格进行编号。每个栅格用(xi,yi)表示,xi表示栅格所在的行数,yi表示栅格所在的列数。其中,M和N均为正整数。
在所述步骤1中,初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志的过程,包括:
定义智能体为有质量无体积的质点,并且以智能体为圆心,设置预设半径的圆形区域作为碰撞检测区域;
设置障碍物个数、位置以及所占区域大小;
设置安全疏散指示标志的个数、位置、所占区域大小以及指示内容,二维建模效果图如图2所示。
安全疏散指示标志的设置规则,包括:
安全疏散指示标志的命令设置规则,具体如下:
↑:表示直行;←:表示左行;→:表示右行;×:表示禁止通行;表示可前进或后退;
Figure BDA0002024547260000062
表示可左行或右行;
Figure BDA0002024547260000063
表示左拐;
Figure BDA0002024547260000064
表示右拐;,并将安全疏散指示标志与命令对应存储入数据库。
安全疏散指示标志位置设置规则,具体如下:
在人员密集区、商场出入口以及商场拐角处放置预设数量的安全疏散指示标志防止人流拥堵;
在偏僻区域放置预设数量的安全疏散指示标志防止人员被困;
在存在安全隐患的机房重地和禁止入内的区域放置禁止通行标志。
其他区域的放置则需符合安全标志设置通用规则即可。
例如:
在人群密集、出入口、拐角处多设置直行或左右拐安全疏散指示标志,方便人群在此处快速做出选择,避免拥挤;在偏僻区域多设置直行或左右拐安全疏散指示标志,以防人员因不熟悉路径被困而无法逃离现场;在存在安全隐患或不对人对外开放的特殊位置设置禁止通行安全疏散指示标志,以免意外事故的发生;在场景的其他各处依据真实场景情况合理设置安全疏散指示标志,要求需符合安全标志设置通用规则。位置设置如图3所示,其中,图中除了提及的基础安全疏散指示方向外,还含有基础方向的叠加方向,则不一一赘述。
其中,人员密集区和偏僻区域均是模拟实际场景的区域;人员密集区为人流量p超过预设流量pt1的区域;偏僻区域可预设为人流量P小于预设流量pt2且距离二维仿真场景模型边界不超过预设距离的区域。其中,pt2小于pt1。
步骤2:结合安全疏散指示标志与Q-Learning算法进行路径规划。
强化学习主要通过智能体在虚拟环境中不断尝试、不断出错,并用环境反馈回来的奖励值调整学习策略,使学习过程获得的累计奖励值最大,达到优化每一步的动作的目,自然最终的输出路径就是最优路径。其中,当智能体执行某动作环境所反馈的奖励值为正时,意味着此动作被执行的趋势将变大,相反,该动作的执行趋势将会变小。
初始状态时,由于智能体们对环境信息一无所知,需要进行独立学习,每个智能体的初始动作的选择都是随机的,当结合安全疏散指示标志完成强化学习的一轮迭代时,智能体有了一定的经验积累,则进行资源信息共享,然后把智能体所得的信息作为自己的经验进行学习,当在以后的迭代过程中遇到与所得信息中相同状态时,则可选择执行具有最大奖励值的动作,然后更新自身的Q值。
如图4所示,所述步骤2中,结合安全疏散指示标志与Q-Learning算法进行路径规划的具体过程为:
步骤2.1:初始化Q值表中各个智能体对应的Q值为0;
步骤2.2:获取当前时刻各个智能体的状态信息并计算对应奖励,选择相应Q值大的动作移动各个智能体;
步骤2.3:计算移动到新位置的各个智能体的即时奖励,更新Q值表,判断Q值表是否收敛,若是,得到最优路径序列;否则进入下一步;
步骤2.4:接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息,再将汇总信息分发给每个智能体以实现信息共享,转向步骤2.2。
其中,强化学习算法是一种区别于监督学习和无监督学习的在线学习方法。它利用智能体通过状态感知、选择动作和接收奖励来与环境进行交互,过程如图5所示。每走一步,智能体都会通过观察环境状态,选择并执行一个动作,来改变其状态并获得奖励。智能体每一次从起点到终点的探索称为一次迭代,在许多次迭代后意味着智能体的学习能力一次次变强,所以最终所获即为最优策略。Q-Learning算法作为强化学习算法之一,定义如下:
Figure BDA0002024547260000081
其中,公式[]中的
Figure BDA0002024547260000082
是现实的Q值,记做Qreal(st,at+1);
公式[]中的Q(st,at)是估计的Q值,记做Qest(st,at+1);γ是未来奖励的衰减值,有0<γ<1;α是学习效率,有0<α<1,它来决定这次的误差有多少是要被学习的;st为t时刻的输出状态信息、at为t时刻的做出的动作、rt为t时刻所获得奖励、st+1为t+1时刻的输出状态信息、at+1为t+1时刻的做出的动作。
上式即为:
Qnew(st,at)=Qold(st,at)+α*(Qreal(st,at+1)-Qest(st,at+1))
其中,Qold(st,at)表示旧的Q值,Qnew(st,at)表示新的Q值。
本实施例将安全疏散指示标志与强化学习算法应用到路径规划上,在此过程中,智能体的动作集A分为基本动作A1、群体动作A2和最优动作A3三部分,表示为A=(A1,A2,A3)。其中,基本动作A1为每个智能体的八个所属短动作,表示为:A1=(up、down、left、right、ul、dl、ur、dr);
其中:up、down、left、right、ul、dl、ur、dr分别指的是上行、下行、左行、右行、左上运动、左下运动、右上运动、右下运动。
群体动作A2是指智能体跟随群体长动作;最优动作A3是指智能体遵循安全疏散指示标志的八个基本指示长动作,表示为:
A3=(forward、go-l、go-r、stop、fwd or dwbk、go-l or go-r、turn-l、turn-r)状态集S则表示智能体所走的每一步。
其中,forward、go-l、go-r、stop、fwd or dwbk、go-l or go-r、turn-l、turn-r分别指的是直行、走左边、走右边、停止、直行或返回、走左边或走右边、左转、右转。
结合安全疏散指示标志与Q-learning算法进行运动规划的学习过程,如下:
1)初始化Q(s,a)为0,
2)智能体观察t时刻的状态信息st
3)根据当前状态和奖励值rt,智能体选择Q值大的动作at进行移动;
4)当智能体所选择的动作作用于环境时,环境状态改变:
即当前位置转变成下一新的位置st+1,给出即时奖励rt,此处rt有如下定义:
Figure BDA0002024547260000101
5)更新Q表:
Figure BDA0002024547260000102
这里,给定γ的值为0.8,,判断Q值表是否收敛,若是,则停止循环,得到最优路径序列;否则进入下一步;
6)接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息,再将汇总信息分发给每个智能体以实现信息共享,转向第2)步。
由于本实施例是模拟某购物广场的真实人群运动,人群即为众多智能体。智能体不能独立存在,因为在疏散场景下,个体运动不符合人的群体特征,而且单个智能体不能有效率的完成任务,其掌握的有限的场景资源会使智能体的学习进程缓慢,延长最优路径的输出时间,最坏甚至无法完成目标任务。所以在下一次强化学习迭代进行之前,智能体通过自身强化学习得到的环境信息输出到总部信息处理器,然后再由总部信息处理器将汇总的信息下发到每个智能体,以此种方式完成多智能体间的信息共享,其中共享的信息包括策略、经验、环境状态。然后每个智能体根据从总部信息处理器所获的信息更新各自的资源,同时考虑自身Q值、自身历史策略,决定下次迭代过程中的动作策略,如图6所示。
本实施例将安全疏散标志和强化学习结合,不依懒于环境模型,通过强化学习的试错机制,让智能体不断学习感知环境状态,再加上安全疏散指示标志的引导作用,便可以快速找出复杂环境中的最优路径。
本实施例还采用多智能体信息共享的方式,扩大环境信息掌握区域,提高搜索效率,减少到达目的地的时间。
实施例2
如图7所示,本实施例提供了一种基于安全疏散标志和强化学习结合的路径规划***,其特征在于,包括:
(1)二维仿真场景模型初始化模块,其用于建立并栅格化二维仿真场景模型,初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志。
为提高真实性,虚拟环境基于真实的某购物商场场景数据进行建立,将虚拟环境定义为M*N大小的区域,然后对其进行栅格化处理并对每个方格进行编号。每个栅格用(xi,yi)表示,xi表示栅格所在的行数,yi表示栅格所在的列数。其中,M和N均为正整数。
在所述步骤1中,初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志的过程,包括:
定义智能体为有质量无体积的质点,并且以智能体为圆心,设置预设半径的圆形区域作为碰撞检测区域;
设置障碍物个数、位置以及所占区域大小;
设置安全疏散指示标志的个数、位置、所占区域大小以及指示内容,二维建模效果图如图2所示。
安全疏散指示标志的设置规则,包括:
安全疏散指示标志的命令设置规则,具体如下:
↑:表示直行;←:表示左行;→:表示右行;×:表示禁止通行;表示可前进或后退;
Figure BDA0002024547260000122
表示可左行或右行;
Figure BDA0002024547260000123
表示左拐;
Figure BDA0002024547260000124
表示右拐;,并将安全疏散指示标志与命令对应存储入数据库。
安全疏散指示标志位置设置规则,具体如下:
在人员密集区、商场出入口以及商场拐角处放置预设数量的安全疏散指示标志防止人流拥堵;
在偏僻区域放置预设数量的安全疏散指示标志防止人员被困;
在存在安全隐患的机房重地和禁止入内的区域放置禁止通行标志。
其他区域的放置则需符合安全标志设置通用规则即可。
例如:
在人群密集、出入口、拐角处多设置直行或左右拐安全疏散指示标志,方便人群在此处快速做出选择,避免拥挤;在偏僻区域多设置直行或左右拐安全疏散指示标志,以防人员因不熟悉路径被困而无法逃离现场;在存在安全隐患或不对人对外开放的特殊位置设置禁止通行安全疏散指示标志,以免意外事故的发生;在场景的其他各处依据真实场景情况合理设置安全疏散指示标志,要求需符合安全标志设置通用规则。位置设置如图3所示,其中,图中除了提及的基础安全疏散指示方向外,还含有基础方向的叠加方向,则不一一赘述。
其中,人员密集区和偏僻区域均是模拟实际场景的区域;人员密集区为人流量p超过预设流量pt1的区域;偏僻区域可预设为人流量P小于预设流量pt2且距离二维仿真场景模型边界不超过预设距离的区域。其中,pt2小于pt1。
(2)路径规划模块,其用于结合安全疏散指示标志与Q-Learning算法进行路径规划。
强化学习主要通过智能体在虚拟环境中不断尝试、不断出错,并用环境反馈回来的奖励值调整学习策略,使学习过程获得的累计奖励值最大,达到优化每一步的动作的目,自然最终的输出路径就是最优路径。其中,当智能体执行某动作环境所反馈的奖励值为正时,意味着此动作被执行的趋势将变大,相反,该动作的执行趋势将会变小。
初始状态时,由于智能体们对环境信息一无所知,需要进行独立学习,每个智能体的初始动作的选择都是随机的,当结合安全疏散指示标志完成强化学习的一轮迭代时,智能体有了一定的经验积累,则进行资源信息共享,然后把智能体所得的信息作为自己的经验进行学习,当在以后的迭代过程中遇到与所得信息中相同状态时,则可选择执行具有最大奖励值的动作,然后更新自身的Q值。
如图8所示,所述路径规划模块,包括:
(2.1)Q值表初始化模块,其用于初始化Q值表中各个智能体对应的Q值为0;
(2.2)智能体移动模块,其用于获取当前时刻各个智能体的状态信息并计算对应奖励,选择相应Q值大的动作移动各个智能体;
(2.3)Q值表收敛判断模块,其用于计算移动到新位置的各个智能体的即时奖励,更新Q值表,判断Q值表是否收敛,当Q值表收敛时,得到最优路径序列;
(2.4)信息共享模块,其用于当Q值表不收敛时,接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息,再将汇总信息分发给每个智能体以实现信息共享,继续根据Q值移动各个智能体来更新Q值表并判断更新后的Q值表是否收敛。
其中,强化学习算法是一种区别于监督学习和无监督学习的在线学习方法。它利用智能体通过状态感知、选择动作和接收奖励来与环境进行交互,过程如图5所示。每走一步,智能体都会通过观察环境状态,选择并执行一个动作,来改变其状态并获得奖励。智能体每一次从起点到终点的探索称为一次迭代,在许多次迭代后意味着智能体的学习能力一次次变强,所以最终所获即为最优策略。Q-Learning算法作为强化学习算法之一,定义如下:
Figure BDA0002024547260000141
其中,公式[]中的
Figure BDA0002024547260000142
是现实的Q值,记做Qreal(st,at+1);
公式[]中的Q(st,at)是估计的Q值,记做Qest(st,at+1);γ是未来奖励的衰减值,有0<γ<1;α是学习效率,有0<α<1,它来决定这次的误差有多少是要被学习的;st为t时刻的输出状态信息、at为t时刻的做出的动作、rt为t时刻所获得奖励、st+1为t+1时刻的输出状态信息、at+1为t+1时刻的做出的动作。
上式即为:
Qnew(st,at)=Qold(st,at)+α*(Qreal(st,at+1)-Qest(st,at+1))
其中,Qold(st,at)表示旧的Q值,Qnew(st,at)表示新的Q值。
本实施例将安全疏散指示标志与强化学习算法应用到路径规划上,在此过程中,智能体的动作集A分为基本动作A1、群体动作A2和最优动作A3三部分,表示为A=(A1,A2,A3)。其中,基本动作A1为每个智能体的八个所属短动作,表示为:A1=(up、down、left、right、ul、dl、ur、dr);
其中:up、down、left、right、ul、dl、ur、dr分别指的是上行、下行、左行、右行、左上运动、左下运动、右上运动、右下运动。
群体动作A2是指智能体跟随群体长动作;最优动作A3是指智能体遵循安全疏散指示标志的八个基本指示长动作,表示为:
A3=(forward、go-l、go-r、stop、fwd or dwbk、go-l or go-r、turn-l、turn-r)状态集S则表示智能体所走的每一步。
其中,forward、go-l、go-r、stop、fwd or dwbk、go-l or go-r、turn-l、turn-r分别指的是直行、走左边、走右边、停止、直行或返回、走左边或走右边、左转、右转。
结合安全疏散指示标志与Q-learning算法进行运动规划的学习过程,如下:
1)初始化Q(s,a)为0,
Figure BDA0002024547260000151
2)智能体观察t时刻的状态信息st
3)根据当前状态和奖励值rt,智能体选择Q值大的动作at进行移动;
4)当智能体所选择的动作作用于环境时,环境状态改变:
即当前位置转变成下一新的位置st+1,给出即时奖励rt,此处rt有如下定义:
Figure BDA0002024547260000152
5)更新Q表:
Figure BDA0002024547260000153
这里,给定γ的值为0.8,,判断Q值表是否收敛,若是,则停止循环,得到最优路径序列;否则进入下一步;
6)接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息,再将汇总信息分发给每个智能体以实现信息共享,转向第2)步。
由于本实施例是模拟某购物广场的真实人群运动,人群即为众多智能体。智能体不能独立存在,因为在疏散场景下,个体运动不符合人的群体特征,而且单个智能体不能有效率的完成任务,其掌握的有限的场景资源会使智能体的学习进程缓慢,延长最优路径的输出时间,最坏甚至无法完成目标任务。所以在下一次强化学习迭代进行之前,智能体通过自身强化学习得到的环境信息输出到总部信息处理器,然后再由总部信息处理器将汇总的信息下发到每个智能体,以此种方式完成多智能体间的信息共享,其中共享的信息包括策略、经验、环境状态。然后每个智能体根据从总部信息处理器所获的信息更新各自的资源,同时考虑自身Q值、自身历史策略,决定下次迭代过程中的动作策略,如图6所示。
在具体实施中过程中,信息共享模块包括智能体的主处理器和总部信息控制器两部分。智能体的主处理器用来输入环境信息(如本状态下智能体与障碍物及安全疏散指示标志的距离与角度、安全疏散指示标志的内容信息),输出状态st、做出的动作at、所获得奖励rt以及环境信息,和管理自身所得信息;总部信息处理用来将每个智能体分享来的信息汇总,然后再分发给每个智能体,从而实现信息共享以便下次迭代的快速进行,如图9所示。
本实施例将安全疏散标志和强化学习结合,不依懒于环境模型,通过强化学习的试错机制,让智能体不断学习感知环境状态,再加上安全疏散指示标志的引导作用,便可以快速找出复杂环境中的最优路径。
本实施例还采用多智能体信息共享的方式,扩大环境信息掌握区域,提高搜索效率,减少到达目的地的时间。
实施例3
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所示的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。
本实施例将安全疏散标志和强化学习结合,不依懒于环境模型,通过强化学习的试错机制,让智能体不断学习感知环境状态,再加上安全疏散指示标志的引导作用,便可以快速找出复杂环境中的最优路径。
本实施例还采用多智能体信息共享的方式,扩大环境信息掌握区域,提高搜索效率,减少到达目的地的时间。
实施例4
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所示的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。
本实施例将安全疏散标志和强化学习结合,不依懒于环境模型,通过强化学习的试错机制,让智能体不断学习感知环境状态,再加上安全疏散指示标志的引导作用,便可以快速找出复杂环境中的最优路径。
本实施例还采用多智能体信息共享的方式,扩大环境信息掌握区域,提高搜索效率,减少到达目的地的时间。
本领域内的技术人员应明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (8)

1.一种基于安全疏散标志和强化学习结合的路径规划方法,其特征在于,包括:
步骤1:建立并栅格化二维仿真场景模型,初始化二维仿真场景模型中的障碍物、智能体和安全疏散标志;
步骤2:结合安全疏散标志与Q-Learning强化学习算法进行路径规划;
所述步骤2的具体过程为:
步骤2.1:初始化Q值表中各个智能体对应的Q值为0;
步骤2.2:获取当前时刻各个智能体的状态信息并计算对应奖励,选择相应Q值大的动作移动各个智能体;
步骤2.3:计算移动到新位置的各个智能体的即时奖励,更新Q值表,判断Q值表是否收敛,若是,得到最优路径序列;否则进入下一步;
所述步骤2.3中,移动到新位置的各个智能体的即时奖励设置为rt
其中,最优动作是指智能体遵循安全疏散标志的八个基本指示长动作,分别为直行、走左边、走右边、停止、直行或返回、走左边或走右边、左转、右转;群体动作是指智能体跟随群体长动作;基本动作是指每个智能体的八个所属短动作,分别为直行、左行、右行、禁止通行、可前进或后退、可左行或右行、左拐、右拐;为使智能体快速找到路径、不徘徊,基本动作对应的即时奖励值取负数;
步骤2.4:接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息,再将汇总信息分发给每个智能体以实现信息共享,转向步骤2.2。
2.如权利要求1所述的一种基于安全疏散标志和强化学习结合的路径规划方法,其特征在于,在所述步骤1中,栅格化二维仿真场景模型的过程为:
将二维仿真场景模型定义为M*N大小的区域,然后对其进行栅格化处理并对每个方格进行编号,其中,M和N均为正整数。
3.如权利要求1所述的一种基于安全疏散标志和强化学习结合的路径规划方法,其特征在于,在所述步骤1中,初始化二维仿真场景模型中的障碍物、智能体和安全疏散标志的过程,包括:
定义智能体为有质量无体积的质点,并且以智能体为圆心,设置预设半径的圆形区域作为碰撞检测区域;
设置障碍物个数、位置以及所占区域大小;
设置安全疏散标志的个数、位置、所占区域大小以及指示内容。
4.一种基于安全疏散标志和强化学习结合的路径规划***,其特征在于,包括:
二维仿真场景模型初始化模块,其用于建立并栅格化二维仿真场景模型,初始化二维仿真场景模型中的障碍物、智能体和安全疏散标志;
路径规划模块,其用于结合安全疏散标志与Q-Learning强化学习算法进行路径规划;
所述路径规划模块,包括:
Q值表初始化模块,其用于初始化Q值表中各个智能体对应的Q值为0;
智能体移动模块,其用于获取当前时刻各个智能体的状态信息并计算对应奖励,选择相应Q值大的动作移动各个智能体;
Q值表收敛判断模块,其用于计算移动到新位置的各个智能体的即时奖励,更新Q值表,判断Q值表是否收敛,当Q值表收敛时,得到最优路径序列;所述Q值表收敛判断模块中,移动到新位置的各个智能体的即时奖励设置为rt
Figure FDA0002266015610000031
其中,最优动作是指智能体遵循安全疏散标志的八个基本指示长动作,分别为直行、走左边、走右边、停止、直行或返回、走左边或走右边、左转、右转;群体动作是指智能体跟随群体长动作;基本动作是指每个智能体的八个所属短动作,分别为直行、左行、右行、禁止通行、可前进或后退、可左行或右行、左拐、右拐;为使智能体快速找到路径、不徘徊,基本动作对应的即时奖励值取负数;
信息共享模块,其用于当Q值表不收敛时,接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息,再将汇总信息分发给每个智能体以实现信息共享,继续根据Q值移动各个智能体来更新Q值表并判断更新后的Q值表是否收敛。
5.如权利要求4所述的一种基于安全疏散标志和强化学习结合的路径规划***,其特征在于,栅格化二维仿真场景模型的过程为:
将二维仿真场景模型定义为M*N大小的区域,然后对其进行栅格化处理并对每个方格进行编号,其中,M和N均为正整数。
6.如权利要求4所述的一种基于安全疏散标志和强化学习结合的路径规划***,其特征在于,初始化二维仿真场景模型中的障碍物、智能体和安全疏散标志的过程,包括:
定义智能体为有质量无体积的质点,并且以智能体为圆心,设置预设半径的圆形区域作为碰撞检测区域;
设置障碍物个数、位置以及所占区域大小;
设置安全疏散标志的个数、位置、所占区域大小以及指示内容。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一项所述的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3中任一项所述的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。
CN201910289774.3A 2019-04-11 2019-04-11 基于安全疏散标志和强化学习结合的路径规划方法及*** Active CN109974737B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910289774.3A CN109974737B (zh) 2019-04-11 2019-04-11 基于安全疏散标志和强化学习结合的路径规划方法及***
LU101606A LU101606B1 (en) 2019-04-11 2020-01-27 Path planning method and system based on combination of safety evacuation signs and reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910289774.3A CN109974737B (zh) 2019-04-11 2019-04-11 基于安全疏散标志和强化学习结合的路径规划方法及***

Publications (2)

Publication Number Publication Date
CN109974737A CN109974737A (zh) 2019-07-05
CN109974737B true CN109974737B (zh) 2020-01-31

Family

ID=67084173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910289774.3A Active CN109974737B (zh) 2019-04-11 2019-04-11 基于安全疏散标志和强化学习结合的路径规划方法及***

Country Status (2)

Country Link
CN (1) CN109974737B (zh)
LU (1) LU101606B1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110673637B (zh) * 2019-10-08 2022-05-13 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110726416A (zh) * 2019-10-23 2020-01-24 西安工程大学 一种基于障碍区域扩张策略的强化学习路径规划方法
CN111026272B (zh) * 2019-12-09 2023-10-31 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111353260B (zh) * 2020-03-08 2023-01-10 苏州浪潮智能科技有限公司 一种基于强化学习的计算网格并行区域划分方法和装置
CN111523731A (zh) * 2020-04-24 2020-08-11 山东师范大学 一种基于Actor-Critic算法的人群疏散运动路径规划方法及***
CN112215328B (zh) * 2020-10-29 2024-04-05 腾讯科技(深圳)有限公司 一种智能体的训练、基于智能体的动作控制方法及装置
CN112558601B (zh) * 2020-11-09 2024-04-02 广东电网有限责任公司广州供电局 一种基于Q-learning算法和水滴算法的机器人实时调度方法及***
CN112327890A (zh) * 2020-11-10 2021-02-05 中国海洋大学 一种基于whca*算法的水下多机器人路径规划
CN113050641B (zh) * 2021-03-18 2023-02-28 香港中文大学(深圳) 一种路径规划方法及相关设备
CN113218400B (zh) * 2021-05-17 2022-04-19 太原科技大学 一种基于深度强化学习的多智能体导航算法
CN113448425B (zh) * 2021-07-19 2022-09-09 哈尔滨工业大学 一种基于强化学习的动态并行应用程序能耗运行时优化方法及***
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合***
CN113946428B (zh) * 2021-11-02 2024-06-07 Oppo广东移动通信有限公司 一种处理器动态控制方法、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109540151A (zh) * 2018-03-25 2019-03-29 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
CN109543285A (zh) * 2018-11-20 2019-03-29 山东师范大学 一种融合数据驱动与强化学习的人群疏散仿真方法和***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10142909B2 (en) * 2015-10-13 2018-11-27 The Board Of Trustees Of The University Of Alabama Artificial intelligence-augmented, ripple-diamond-chain shaped rateless routing in wireless mesh networks with multi-beam directional antennas
CN107403049B (zh) * 2017-07-31 2019-03-19 山东师范大学 一种基于人工神经网络的Q-Learning行人疏散仿真方法及***
CN107464021B (zh) * 2017-08-07 2019-07-23 山东师范大学 一种基于强化学习的人群疏散仿真方法、装置
CN109101694B (zh) * 2018-07-16 2019-05-28 山东师范大学 一种安全疏散标志引导的人群行为仿真方法及***
CN109214065B (zh) * 2018-08-14 2019-05-28 山东师范大学 基于多Agent共享Q表的人群疏散仿真方法及***
CN109086550B (zh) * 2018-08-27 2019-05-28 山东师范大学 基于多Agent共享Q学习的疏散仿真方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109540151A (zh) * 2018-03-25 2019-03-29 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
CN109543285A (zh) * 2018-11-20 2019-03-29 山东师范大学 一种融合数据驱动与强化学习的人群疏散仿真方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于人工蜂群算法的疏散运动仿真";张鹏 等,;《计算机工程》;20130731;第39卷(第7期);261-264,283页 *
"强化学习在机器人路径规划中的应用研究";童亮 等,;《计算机仿真》;20131231;第30卷(第12期);351-355,364页 *

Also Published As

Publication number Publication date
LU101606B1 (en) 2020-05-27
CN109974737A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109974737B (zh) 基于安全疏散标志和强化学习结合的路径规划方法及***
CN110955242B (zh) 机器人导航方法、***、机器人及存储介质
Van Den Berg et al. Interactive navigation of multiple agents in crowded environments
CN109101694B (zh) 一种安全疏散标志引导的人群行为仿真方法及***
CN110471444A (zh) 基于自主学习的无人机智能避障方法
CN110428615A (zh) 基于深度强化学习单路***通信号控制方法、***、装置
WO2019076044A1 (zh) 移动机器人局部运动规划方法、装置及计算机存储介质
CN110795833B (zh) 基于猫群算法的人群疏散仿真方法、***、介质及设备
CN103679264A (zh) 基于人工鱼群算法的人群疏散路径规划方法
GB2610276A (en) Method for multi-agent dynamic path planning
CN104317297A (zh) 一种未知环境下机器人避障方法
CN105701314A (zh) 一种基于自适应智能体模型的复杂人群疏散行为仿真方法
CN103631261B (zh) 信息处理方法和装置
CN109752952A (zh) 一种获取多维随机分布及强化控制器的方法和装置
CN113432610A (zh) 机器人通行规划方法、装置、机器人及存储介质
Greasley Implementing reinforcement learning in simio discrete-event simulation software
Martins et al. Heuristically-accelerated reinforcement learning: A comparative analysis of performance
Ponsini et al. Analysis of soccer robot behaviors using time petri nets
CN108151742B (zh) 机器人的导航控制方法及智能装置
CN113790729B (zh) 一种基于强化学习算法的无人天车路径规划方法及装置
WO2021258847A1 (zh) 一种驾驶决策方法、装置及芯片
Sudkhot et al. A crowd simulation in large space urban
Wang et al. Object behavior simulation based on behavior tree and multi-agent model
CN115542912A (zh) 一种基于改进Q-learning算法的移动机器人路径规划方法
CN114740849A (zh) 基于行人步行决策规则的移动机器人自主导航方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220426

Address after: 250014 No. 19, ASTRI Road, Lixia District, Shandong, Ji'nan

Patentee after: Shandong center information technology Limited by Share Ltd.

Address before: 250014 No. 88, Wenhua East Road, Lixia District, Shandong, Ji'nan

Patentee before: SHANDONG NORMAL University

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Path planning method and system based on the combination of safety evacuation signs and reinforcement learning

Effective date of registration: 20230301

Granted publication date: 20200131

Pledgee: Bank of Beijing Co.,Ltd. Jinan Branch

Pledgor: Shandong center information technology Limited by Share Ltd.

Registration number: Y2023370000045

PE01 Entry into force of the registration of the contract for pledge of patent right