CN109974737B

CN109974737B - 基于安全疏散标志和强化学习结合的路径规划方法及***

Info

Publication number: CN109974737B
Application number: CN201910289774.3A
Authority: CN
Inventors: 吕蕾; 周丽美; 赵修凯; 吕晨; 张桂娟; 刘弘
Original assignee: Shandong Normal University
Current assignee: Shandong Center Information Technology Ltd By Share Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2020-01-31
Anticipated expiration: 2039-04-11
Also published as: LU101606B1; CN109974737A

Abstract

本公开提供了基于安全疏散标志和强化学习结合的路径规划方法及***。该路径规划方法，包括建立并栅格化二维仿真场景模型，初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志；结合安全疏散指示标志与Q‑Learning算法进行路径规划，其具体过程为：初始化Q值表中各个智能体对应的Q值为0；获取当前时刻各个智能体的状态信息并计算对应奖励，选择相应Q值大的动作移动各个智能体；计算移动到新位置的各个智能体的即时奖励，更新Q值表，判断Q值表是否收敛，若是，得到最优路径序列；否则，接收并汇总各个智能体发送来的输入环境信息及对应的状态、做出的动作、获得的奖励和输出环境信息，再将汇总信息分发给每个智能体，继续移动各个智能体。

Description

基于安全疏散标志和强化学习结合的路径规划方法及***

技术领域

本公开属于路径规划领域，尤其涉及一种基于安全疏散标志和强化学习结合的路径规划方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，随着我国城市化进程的快速发展，城市公共场所的建筑物数量、规模也不断扩大，这意味着我们所要承担的安全压力也不断加大。如何真实快速的模拟出人群在公共场所发生意外事故时的疏散路径则成为我们亟待解决的重要问题。通过模拟人群疏散路径可以帮助***门预测意外事故发生时人群的疏散过程，进而提出有效的运动规划解决方案，缩短人员疏散时间，减少伤亡人数。

发明人发现，目前比较成熟的运动规划算法有A-star算法、人工势能算法、元胞自动机、模拟退火算法、遗传算法、强化学习算法等等不能对错综复杂的环境进行快速适应及学习并做出及时响应，导致出现路径规划效率低且准确性差的问题。

发明内容

为了解决上述问题，本公开的第一个方面提供一种基于安全疏散标志和强化学习结合的路径规划方法，其将安全疏散标志和强化学习结合，不依懒于环境模型，通过强化学习的试错机制，让智能体不断学习感知环境状态，再加上安全疏散指示标志的引导作用，便可以快速找出复杂环境中的最优路径。

为了实现上述目的，本公开采用如下技术方案：

一种基于安全疏散标志和强化学习结合的路径规划方法，包括：

步骤1：建立并栅格化二维仿真场景模型，初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志；

步骤2：结合安全疏散指示标志与Q-Learning算法进行路径规划；

所述步骤2的具体过程为：

步骤2.1：初始化Q值表中各个智能体对应的Q值为0；

步骤2.2：获取当前时刻各个智能体的状态信息并计算对应奖励，选择相应Q值大的动作移动各个智能体；

步骤2.3：计算移动到新位置的各个智能体的即时奖励，更新Q值表，判断Q值表是否收敛，若是，得到最优路径序列；否则进入下一步；

步骤2.4：接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息，再将汇总信息分发给每个智能体以实现信息共享，转向步骤2.2。

为了解决上述问题，本公开的第二个方面提供一种基于安全疏散标志和强化学习结合的路径规划***，其将安全疏散标志和强化学习结合，不依懒于环境模型，通过强化学习的试错机制，让智能体不断学习感知环境状态，再加上安全疏散指示标志的引导作用，便可以快速找出复杂环境中的最优路径。

为了实现上述目的，本公开采用如下技术方案：

一种基于安全疏散标志和强化学习结合的路径规划***，包括：

二维仿真场景模型初始化模块，其用于建立并栅格化二维仿真场景模型，初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志；

路径规划模块，其用于结合安全疏散指示标志与Q-Learning算法进行路径规划；

所述路径规划模块，包括：

Q值表初始化模块，其用于初始化Q值表中各个智能体对应的Q值为0；

智能体移动模块，其用于获取当前时刻各个智能体的状态信息并计算对应奖励，选择相应Q值大的动作移动各个智能体；

Q值表收敛判断模块，其用于计算移动到新位置的各个智能体的即时奖励，更新Q值表，判断Q值表是否收敛，当Q值表收敛时，得到最优路径序列；

信息共享模块，其用于当Q值表不收敛时，接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息，再将汇总信息分发给每个智能体以实现信息共享，继续根据Q值移动各个智能体来更新Q值表并判断更新后的Q值表是否收敛。

为了解决上述问题，本公开的第三个方面提供一种计算机可读存储介质，其将安全疏散标志和强化学习结合，不依懒于环境模型，通过强化学习的试错机制，让智能体不断学习感知环境状态，再加上安全疏散指示标志的引导作用，便可以快速找出复杂环境中的最优路径。

为了实现上述目的，本公开采用如下技术方案：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。

为了解决上述问题，本公开的第四个方面提供一种计算机设备，其将安全疏散标志和强化学习结合，不依懒于环境模型，通过强化学习的试错机制，让智能体不断学习感知环境状态，再加上安全疏散指示标志的引导作用，便可以快速找出复杂环境中的最优路径。

为了实现上述目的，本公开采用如下技术方案：

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。

本公开的有益效果是：

(1)本公开将安全疏散标志和强化学习结合，不依懒于环境模型，通过强化学习的试错机制，让智能体不断学习感知环境状态，再加上安全疏散指示标志的引导作用，便可以快速找出复杂环境中的最优路径。

(2)由于缺乏先验知识，强化学习在初始的迭代过程中寻找到的路径往往不是最优的，针对此问题，采用多智能体信息共享的方式，扩大环境信息掌握区域，提高搜索效率，减少到达目的地的时间。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例提供的一种基于安全疏散标志和强化学习结合的路径规划方法流程图。

图2是本公开实施例提供的二维建模效果图。

图3是本公开实施例提供的安全疏散指示标志位置设置示意图。

图4是本公开实施例提供的结合安全疏散指示标志与Q-Learning算法进行路径规划过程图。

图5是本公开实施例提供的智能体育环境交互过程图。

图6是本公开实施例提供的智能体信息共享示意图。

图7是本公开实施例提供的一种基于安全疏散标志和强化学习结合的路径规划***结构示意图。

图8是本公开实施例提供的路径规划模块结构示意图。

图9是本公开实施例提供的信息共享模块原理图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

如图1所示，本实施例的一种基于安全疏散标志和强化学习结合的路径规划方法，包括：

步骤1：建立并栅格化二维仿真场景模型，初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志。

为提高真实性，虚拟环境基于真实的某购物商场场景数据进行建立,将虚拟环境定义为M*N大小的区域，然后对其进行栅格化处理并对每个方格进行编号。每个栅格用(x_i,y_i)表示，x_i表示栅格所在的行数，y_i表示栅格所在的列数。其中，M和N均为正整数。

在所述步骤1中，初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志的过程，包括：

定义智能体为有质量无体积的质点，并且以智能体为圆心，设置预设半径的圆形区域作为碰撞检测区域；

设置障碍物个数、位置以及所占区域大小；

设置安全疏散指示标志的个数、位置、所占区域大小以及指示内容，二维建模效果图如图2所示。

安全疏散指示标志的设置规则，包括：

安全疏散指示标志的命令设置规则，具体如下：

↑：表示直行；←：表示左行；→：表示右行；×：表示禁止通行；表示可前进或后退；

表示可左行或右行；

表示左拐；

表示右拐；，并将安全疏散指示标志与命令对应存储入数据库。

安全疏散指示标志位置设置规则，具体如下：

在人员密集区、商场出入口以及商场拐角处放置预设数量的安全疏散指示标志防止人流拥堵；

在偏僻区域放置预设数量的安全疏散指示标志防止人员被困；

在存在安全隐患的机房重地和禁止入内的区域放置禁止通行标志。

其他区域的放置则需符合安全标志设置通用规则即可。

例如：

在人群密集、出入口、拐角处多设置直行或左右拐安全疏散指示标志，方便人群在此处快速做出选择，避免拥挤；在偏僻区域多设置直行或左右拐安全疏散指示标志，以防人员因不熟悉路径被困而无法逃离现场；在存在安全隐患或不对人对外开放的特殊位置设置禁止通行安全疏散指示标志，以免意外事故的发生；在场景的其他各处依据真实场景情况合理设置安全疏散指示标志，要求需符合安全标志设置通用规则。位置设置如图3所示，其中，图中除了提及的基础安全疏散指示方向外，还含有基础方向的叠加方向，则不一一赘述。

其中，人员密集区和偏僻区域均是模拟实际场景的区域；人员密集区为人流量p超过预设流量pt1的区域；偏僻区域可预设为人流量P小于预设流量pt2且距离二维仿真场景模型边界不超过预设距离的区域。其中，pt2小于pt1。

步骤2：结合安全疏散指示标志与Q-Learning算法进行路径规划。

强化学习主要通过智能体在虚拟环境中不断尝试、不断出错，并用环境反馈回来的奖励值调整学习策略，使学习过程获得的累计奖励值最大，达到优化每一步的动作的目，自然最终的输出路径就是最优路径。其中，当智能体执行某动作环境所反馈的奖励值为正时，意味着此动作被执行的趋势将变大，相反，该动作的执行趋势将会变小。

初始状态时，由于智能体们对环境信息一无所知，需要进行独立学习，每个智能体的初始动作的选择都是随机的，当结合安全疏散指示标志完成强化学习的一轮迭代时，智能体有了一定的经验积累，则进行资源信息共享，然后把智能体所得的信息作为自己的经验进行学习，当在以后的迭代过程中遇到与所得信息中相同状态时，则可选择执行具有最大奖励值的动作，然后更新自身的Q值。

如图4所示，所述步骤2中，结合安全疏散指示标志与Q-Learning算法进行路径规划的具体过程为：

步骤2.1：初始化Q值表中各个智能体对应的Q值为0；

其中，强化学习算法是一种区别于监督学习和无监督学习的在线学习方法。它利用智能体通过状态感知、选择动作和接收奖励来与环境进行交互，过程如图5所示。每走一步，智能体都会通过观察环境状态，选择并执行一个动作，来改变其状态并获得奖励。智能体每一次从起点到终点的探索称为一次迭代，在许多次迭代后意味着智能体的学习能力一次次变强，所以最终所获即为最优策略。Q-Learning算法作为强化学习算法之一，定义如下：

其中，公式[]中的

是现实的Q值，记做Q_real(s_t,a_t+1)；

公式[]中的Q(s_t,a_t)是估计的Q值，记做Q_est(s_t,a_t+1)；γ是未来奖励的衰减值，有0<γ<1；α是学习效率,有0<α<1，它来决定这次的误差有多少是要被学习的；s_t为t时刻的输出状态信息、a_t为t时刻的做出的动作、r_t为t时刻所获得奖励、s_t+1为t+1时刻的输出状态信息、a_t+1为t+1时刻的做出的动作。

上式即为：

Q_new(s_t,a_t)＝Q_old(s_t,a_t)+α*(Q_real(s_t,a_t+1)-Q_est(s_t,a_t+1))

其中，Q_old(s_t,a_t)表示旧的Q值，Q_new(s_t,a_t)表示新的Q值。

本实施例将安全疏散指示标志与强化学习算法应用到路径规划上，在此过程中，智能体的动作集A分为基本动作A1、群体动作A2和最优动作A3三部分，表示为A＝(A1,A2,A3)。其中，基本动作A1为每个智能体的八个所属短动作，表示为：A1＝(up、down、left、right、ul、dl、ur、dr)；

其中：up、down、left、right、ul、dl、ur、dr分别指的是上行、下行、左行、右行、左上运动、左下运动、右上运动、右下运动。

群体动作A2是指智能体跟随群体长动作；最优动作A3是指智能体遵循安全疏散指示标志的八个基本指示长动作，表示为：

A3＝(forward、go-l、go-r、stop、fwd or dwbk、go-l or go-r、turn-l、turn-r)状态集S则表示智能体所走的每一步。

其中，forward、go-l、go-r、stop、fwd or dwbk、go-l or go-r、turn-l、turn-r分别指的是直行、走左边、走右边、停止、直行或返回、走左边或走右边、左转、右转。

结合安全疏散指示标志与Q-learning算法进行运动规划的学习过程，如下：

1)初始化Q(s,a)为0，

2)智能体观察t时刻的状态信息s_t；

3)根据当前状态和奖励值r_t,智能体选择Q值大的动作a_t进行移动；

4)当智能体所选择的动作作用于环境时，环境状态改变：

即当前位置转变成下一新的位置s_t+1，给出即时奖励r_t，此处r_t有如下定义：

5)更新Q表：

这里，给定γ的值为0.8，，判断Q值表是否收敛，若是，则停止循环，得到最优路径序列；否则进入下一步；

6)接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息，再将汇总信息分发给每个智能体以实现信息共享，转向第2)步。

由于本实施例是模拟某购物广场的真实人群运动，人群即为众多智能体。智能体不能独立存在，因为在疏散场景下，个体运动不符合人的群体特征，而且单个智能体不能有效率的完成任务，其掌握的有限的场景资源会使智能体的学习进程缓慢，延长最优路径的输出时间，最坏甚至无法完成目标任务。所以在下一次强化学习迭代进行之前，智能体通过自身强化学习得到的环境信息输出到总部信息处理器，然后再由总部信息处理器将汇总的信息下发到每个智能体，以此种方式完成多智能体间的信息共享，其中共享的信息包括策略、经验、环境状态。然后每个智能体根据从总部信息处理器所获的信息更新各自的资源，同时考虑自身Q值、自身历史策略，决定下次迭代过程中的动作策略，如图6所示。

本实施例将安全疏散标志和强化学习结合，不依懒于环境模型，通过强化学习的试错机制，让智能体不断学习感知环境状态，再加上安全疏散指示标志的引导作用，便可以快速找出复杂环境中的最优路径。

本实施例还采用多智能体信息共享的方式，扩大环境信息掌握区域，提高搜索效率，减少到达目的地的时间。

实施例2

如图7所示，本实施例提供了一种基于安全疏散标志和强化学习结合的路径规划***，其特征在于，包括：

(1)二维仿真场景模型初始化模块，其用于建立并栅格化二维仿真场景模型，初始化二维仿真场景模型中的障碍物、智能体和安全疏散指示标志。

为提高真实性，虚拟环境基于真实的某购物商场场景数据进行建立，将虚拟环境定义为M*N大小的区域，然后对其进行栅格化处理并对每个方格进行编号。每个栅格用(x_i,y_i)表示，x_i表示栅格所在的行数，y_i表示栅格所在的列数。其中，M和N均为正整数。

设置障碍物个数、位置以及所占区域大小；

安全疏散指示标志的设置规则，包括：

安全疏散指示标志的命令设置规则，具体如下：

表示可左行或右行；

表示左拐；

安全疏散指示标志位置设置规则，具体如下：

其他区域的放置则需符合安全标志设置通用规则即可。

例如：

(2)路径规划模块，其用于结合安全疏散指示标志与Q-Learning算法进行路径规划。

如图8所示，所述路径规划模块，包括：

(2.1)Q值表初始化模块，其用于初始化Q值表中各个智能体对应的Q值为0；

(2.2)智能体移动模块，其用于获取当前时刻各个智能体的状态信息并计算对应奖励，选择相应Q值大的动作移动各个智能体；

(2.3)Q值表收敛判断模块，其用于计算移动到新位置的各个智能体的即时奖励，更新Q值表，判断Q值表是否收敛，当Q值表收敛时，得到最优路径序列；

(2.4)信息共享模块，其用于当Q值表不收敛时，接收并汇总各个智能体发送来的输入环境信息及其对应的状态、做出的动作、所获得的奖励和输出环境信息，再将汇总信息分发给每个智能体以实现信息共享，继续根据Q值移动各个智能体来更新Q值表并判断更新后的Q值表是否收敛。

其中，公式[]中的

是现实的Q值，记做Q_real(s_t,a_t+1)；

上式即为：

Q_new(s_t,a_t)＝Q_old(s_t,a_t)+α*(Q_real(s_t,a_t+1)-Q_est(s_t,a_t+1))

其中，Q_old(s_t,a_t)表示旧的Q值，Q_new(s_t,a_t)表示新的Q值。

1)初始化Q(s,a)为0，

2)智能体观察t时刻的状态信息s_t；

4)当智能体所选择的动作作用于环境时，环境状态改变：

5)更新Q表：

在具体实施中过程中，信息共享模块包括智能体的主处理器和总部信息控制器两部分。智能体的主处理器用来输入环境信息(如本状态下智能体与障碍物及安全疏散指示标志的距离与角度、安全疏散指示标志的内容信息)，输出状态s_t、做出的动作a_t、所获得奖励r_t以及环境信息，和管理自身所得信息；总部信息处理用来将每个智能体分享来的信息汇总，然后再分发给每个智能体，从而实现信息共享以便下次迭代的快速进行，如图9所示。

实施例3

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所示的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。

实施例4

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如图1所示的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于安全疏散标志和强化学习结合的路径规划方法，其特征在于，包括：

步骤1：建立并栅格化二维仿真场景模型，初始化二维仿真场景模型中的障碍物、智能体和安全疏散标志；

步骤2：结合安全疏散标志与Q-Learning强化学习算法进行路径规划；

所述步骤2的具体过程为：

步骤2.1：初始化Q值表中各个智能体对应的Q值为0；

所述步骤2.3中，移动到新位置的各个智能体的即时奖励设置为r_t；

其中，最优动作是指智能体遵循安全疏散标志的八个基本指示长动作，分别为直行、走左边、走右边、停止、直行或返回、走左边或走右边、左转、右转；群体动作是指智能体跟随群体长动作；基本动作是指每个智能体的八个所属短动作，分别为直行、左行、右行、禁止通行、可前进或后退、可左行或右行、左拐、右拐；为使智能体快速找到路径、不徘徊，基本动作对应的即时奖励值取负数；

2.如权利要求1所述的一种基于安全疏散标志和强化学习结合的路径规划方法，其特征在于，在所述步骤1中，栅格化二维仿真场景模型的过程为：

将二维仿真场景模型定义为M*N大小的区域，然后对其进行栅格化处理并对每个方格进行编号，其中，M和N均为正整数。

3.如权利要求1所述的一种基于安全疏散标志和强化学习结合的路径规划方法，其特征在于，在所述步骤1中，初始化二维仿真场景模型中的障碍物、智能体和安全疏散标志的过程，包括：

设置障碍物个数、位置以及所占区域大小；

设置安全疏散标志的个数、位置、所占区域大小以及指示内容。

4.一种基于安全疏散标志和强化学习结合的路径规划***，其特征在于，包括：

二维仿真场景模型初始化模块，其用于建立并栅格化二维仿真场景模型，初始化二维仿真场景模型中的障碍物、智能体和安全疏散标志；

路径规划模块，其用于结合安全疏散标志与Q-Learning强化学习算法进行路径规划；

所述路径规划模块，包括：

Q值表收敛判断模块，其用于计算移动到新位置的各个智能体的即时奖励，更新Q值表，判断Q值表是否收敛，当Q值表收敛时，得到最优路径序列；所述Q值表收敛判断模块中，移动到新位置的各个智能体的即时奖励设置为r_t；

5.如权利要求4所述的一种基于安全疏散标志和强化学习结合的路径规划***，其特征在于，栅格化二维仿真场景模型的过程为：

6.如权利要求4所述的一种基于安全疏散标志和强化学习结合的路径规划***，其特征在于，初始化二维仿真场景模型中的障碍物、智能体和安全疏散标志的过程，包括：

设置障碍物个数、位置以及所占区域大小；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-3中任一项所述的基于安全疏散标志和强化学习结合的路径规划方法中的步骤。