CN110686695A

CN110686695A - 基于目标评价因子的自适应蚁群a星混合算法

Info

Publication number: CN110686695A
Application number: CN201911042714.8A
Authority: CN
Inventors: 陆敬怡; 梁志伟; 祝子健; 李欣昱
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-01-14

Abstract

基于目标评价因子的自适应蚁群A星混合算法，为一种在RCRSS中应用的动态路径规划算法，通过引入目标评价因子，延伸融合蚁群和A星算法的优点，旨在面对有路障的复杂实时动态环境中，规划出一条最优路径。本发明将A星启发式路径规划与群体智能算法的蚁群算法相结合，使得在智能体受到环境限制条件下，实现对智能体分工协作的局部性优化，并鉴于此进而对全局实况进行分析预测以及群体决策优化。本发明提出的自适应蚁群A星混合算法与各式各样现在流行的路径规划算法相比，不仅考虑到路径长度因素，还着重关注于路径的可达性、路况的动态性等方面，能够在动态复杂未知的环境下，达到良好的效果。

Description

基于目标评价因子的自适应蚁群A星混合算法

技术领域

本发明涉及智能体动态路径规划技术领域，具体涉及一种基于目标评价因子的自适应蚁群A星混合算法。

背景技术

自1959年工业机器人问世,经过60年发展,机器人应用广泛,尤其是灾难救援这一新兴领域。研究者们经研究开发，设计推行出机器人城市灾难救援仿真模拟平台,如RoboCup机器人世界杯救援仿真***(RCRSS).

在机器人世界杯救援模拟中,由于智能体感知受限、通信不畅与周边环境的复杂性、实时性与动态性，因此，这是一种未知环境下的协作分工问题。从工程应用上看，RCRSS能够为人类灾后救援提供可靠的决策指导，故该***具有十分深远的意义。

在RCRSS中,存在着许多动态变化的因素。RCRSS中的动态路径规划是根据智能体当前的任务序列，利用路径规划算法生成一条通往目标节点的较优路径，具体体现在：行程短，安全，通过率高等方面。传统路径规划算法只能解决全局环境已知的情况下，仅对路径长度、方向进行优化的问题。而RCRSS需要解决在动态复杂且信息不全的非理想环境下，综合考虑多指标例如：道路安全、路障大小、算法复杂度等的优化问题。

传统路径规划算法中，遗传算法、神经网络算法均有搜索效率低、数据量大等缺点。而启发式算法如A星算法，是一种成熟、应用广泛的算法，其具有搜索快、变化单调等特点，在静态环境中可以取得很好的效果，但缺乏动态性。相对地，蚁群算法对实时变化的环境有较好的支持，但也有着固有的缺点，在搜索后期易出现结果趋同，有早熟、停滞、陷于局部极值的风险。

发明内容

本发明提出在RCRSS中应用的一种动态路径规划算法，通过引入目标评价因子(TEF,Target Evaluation Factor)，延伸融合蚁群和A星算法的优点，旨在面对有路障的复杂实时动态环境中，规划出一条最优路径。与前人研究不同的是，本发明关注于如何将A星启发式路径规划与群体智能算法的蚁群算法相结合，使得在智能体受到环境限制条件下，实现对智能体分工协作的局部性优化，并鉴于此进而对全局实况进行分析预测以及群体决策优化。

基于目标评价因子的自适应蚁群A星混合算法，包括如下步骤：

步骤1，***参数初始化，信息素共享更新；

步骤2，初始化蚂蚁；

步骤3，选择下一节点，计算蚂蚁转移概率，计算各蚂蚁路径长度，记录当前最优解；

步骤4，判断是否达到终点，如达到则进入下一步，如未达到则返回上一步；

步骤5，局部信息素更新，评价蚁群；全局信息素更新；蚁群间信息素共享更新；

步骤6，判断是否达到最大迭代次数，如达到则进入下一步，如未达到则返回初始化蚂蚁；

步骤7，比较每次循环最优解的代价值；遍历候选节点，选择代价最小的边，将候选节点加入OPEN表；按代价对OPEN表进行排序；

步骤8，判断是否找到目标节点，如找到则进入下一步，如未找到则返回遍历候选节点；

步骤9，输出路径，结束算法循环。

进一步地，所述A星算法是基于Dijkstra算法基础上，引入全局信息对next结点的选择做出指导，做出当前节点对目标节点的代价估计，通用公式为：

f(x)＝g(x)+h(x) (1)

其中，g(x)表示从当前节点到目标节点x的代价，采用曼哈顿距离计算；而h(x)则表示距离目标点的启发式代价评估函数，采用自适应蚁群算法对h(x)进行评估代价。

进一步地，步骤2中，引入目标评价因子，定义目标评价因子为：

公式(2)中，

为候选节点j到目标节点target的曼哈顿距离，pass_ij表示智能体通过path(i,j)的比率；

最终蚂蚁对下一结点的状态转移概率为：

其中，alowed_k＝{0,1,...,n-1}表示蚂蚁k的next候选节点的集合，而taboo_k表示其已访问过的节点集合；η_ij为path(i,j)的启发函数，即由i到达j的期望度，d_ij为节点i.j间的距离；α,β分别表示信息素以及启发函数对节点选择的作用大小。

进一步地，信息素更新方法如公式(4)所示：

其中，t_ij表示path(i,j)上的信息素浓度，T表示蚁群完成一次搜索的所需时间；ρ为信息素持久度，1-ρ为信息素挥发度。

进一步地，步骤5中，局部信息素更新具体步骤如下：

蚁群中的所有蚂蚁均按照局部更新规则在途经的path(i,j)上释放一定量的信息素，搜索过程中，path(i,j)上的信息素增量为：

其中，N为蚂蚁总数，

表示本次搜索时蚂蚁k在path(i,j)上释放的信息素，其定义如下：

式中，q₁为局部信息素强度常量，L_k为蚂蚁k在本次搜索中得到的路径长度；信息素更新规则的局部性体现了信息素正反馈特性，即蚂蚁在快捷的道路上释放的信息素较多；

作出以下改进：

其中，s为取值较小的一个常量。Situation 1、2分别指当蚁群中有大于或小于N/s只蚂蚁选择该路径时，信息素将进行自适应更新。

进一步地，步骤5中，全局信息素更新具体步骤如下：

一次搜索结束后，根据目标函数从蚁群规划所得候选路径集合中按优劣程度进行信息素更新，path(i,j)上的全局信息素增量为：

其中，

表示第k只蚂蚁按全局更新规则在搜索结束后最终在path(i,j)上释放的信息素含量，定义为：

其中，q₂为全局信息素强度常量，L^k为蚂蚁k搜得的路径长度；引入σ_k表示蚂蚁k求得的候选路径对path(i,j)的信息素更新影响程度：

σ_k＝(1-μ_ij)·n_ij-rank[k] (10)

式中，n_ij为经过path(i,j)的蚂蚁总数，μ_ij为path(i,j)的权重，与路段信息素浓度呈正比；C_t为所有候选路径中经过path(i,j)的路段数目，C_p为蚁群搜索的候选路径总数；将所有候选路径按目标函数值降序排列后生成rank数组，rank[k]表示由蚂蚁k得到的候选路径的排名，rank[k]值越小，说明解相对越优。

进一步地，步骤5中，蚁群间信息素共享更新具体步骤如下：

为获得全局较优路径，利用通信机制，将单个蚂蚁搜索到的较优解在蚁群间进行共享，扩大智能体对全局环境的感知，从而对动态路径规划得到的候选解进行优化改善，公式为：

其中，q_comm为蚁群间共享更新的强度常量，L_comm为蚁群中在整体环境下生成的帕托累解的路长。

本发明达到的有益效果为：本发明提出的自适应蚁群A星混合算法与各式各样现在流行的路径规划算法相比，不仅考虑到路径长度因素，还着重关注于路径的可达性、路况的动态性等方面，能够在动态复杂未知的环境下，达到良好的效果。

附图说明

图1为本发明实施例中所述混合算法的流程图。

图2为本发明实施例中实验独立运行后得到的最优解平均值、最优解值和平均收敛迭代数的示意表格。

图3为本发明实施例中进行独立实验10次并取平均值的示意表格。

图4为本发明实施例中各算法路径规划成功数与阻塞次数的比较图。

图5为本发明实施例中救援仿真结果示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明RCRSS中应用的一种动态路径规划算法，通过引入目标评价因子(TEF,Target Evaluation Factor)，延伸融合蚁群和A星算法的优点，旨在面对有路障的复杂实时动态环境中，规划出一条最优路径。与前人研究不同的是，本发明关注于如何将A星启发式路径规划与群体智能算法的蚁群算法相结合，使得在智能体受到环境限制条件下，实现对智能体分工协作的局部性优化，并鉴于此进而对全局实况进行分析预测以及群体决策优化。

根据前文所述，在RCRSS中，存在着许多动态变化的因素。本发明结合二者的优点，在算法收敛前找出一个较为理想的全局较优解，经实验证明这是可行的。

RCRSS中的动态路径规划是根据智能体当前的任务序列，利用路径规划算法生成一条通往目标节点的较优路径，具体体现在：行程短，安全，通过率高等方面。传统路径规划算法只能解决全局环境已知的情况下，仅对路径长度、方向进行优化的问题。而RCRSS需要解决在动态复杂且信息不全的非理想环境下，综合考虑多指标例如：道路安全、路障大小、算法复杂度等的优化问题。

A星算法是基于Dijkstra算法基础上，引入全局信息对next结点的选择做出指导，做出当前节点对目标节点的代价估计，这样保证了优先搜索可能是最优解的路径，提高了搜索效率。A星算法的通用公式为：

f(x)＝g(x)+h(x) (1)

其中，g(x)表示从当前节点到目标节点x的代价，本发明采用曼哈顿距离计算；而h(x)则表示距离目标点的启发式代价评估函数，本发明采用自适应蚁群算法对h(x)进行评估代价，增加算法动态性的同时，保证了算法的高效性与可靠性。算法流程图如图1所示，其步骤如下：

步骤1，***参数初始化，信息素共享更新。

步骤2，初始化蚂蚁。

步骤3，选择下一节点，计算蚂蚁转移概率，计算各蚂蚁路径长度，记录当前最优解。

步骤4，判断是否达到终点，如达到则进入下一步，如未达到则返回上一步。

步骤5，局部信息素更新，评价蚁群；全局信息素更新；蚁群间信息素共享更新。

步骤6，判断是否达到最大迭代次数，如达到则进入下一步，如未达到则返回初始化蚂蚁。

步骤7，比较每次循环最优解的代价值；遍历候选节点，选择代价最小的边，将候选节点加入OPEN表；按代价对OPEN表进行排序。

步骤8，判断是否找到目标节点，如找到则进入下一步，如未找到则返回遍历候选节点。

步骤9，输出路径，结束算法循环。

蚁群算法中的蚂蚁寻径对救援智能体的救援路径搜索具有一定的指导作用，尤其对于动态环境有较强的适应性和鲁棒性。但传统蚁群算法在搜索时容易出现过早收敛、陷入局部最优、算法收敛速度慢等现象。

在RCRSS中，在城市救援环境中由于火灾、地震后路况复杂多变，可能存在受风力与建筑材质等因素影响的火势扩散、余震、路况将随着救援工作的进行而动态变化等不确定因素。除此之外,地图信息通常是带有噪声、局部未知的。因此，如何在复杂多变的环境下搜索到最优路径，减少救援时间，提高响应速度，是智能体救援工作的关键。

传统蚁群算法规划路径时，一般定义公式(1)中的启发函数为η_ij＝1/d_ij，由于其仅考虑了节点间的距离，故很容易导致陷入局部最优。为克服该现象，引入目标评价因子(TEF,Target Evaluation Factor)代替上述启发函数η_ij。

InRCRSS,智能体救援的路径规划问题不仅要考虑路径长度，还需综合考虑路障情况、实时火势对智能体健康状况(HP值)等影响，通过路径规划模型使智能体获得快捷安全的路径。定义目标评价因子为：

公式(2)中，

为候选节点j到目标节点target的曼哈顿距离。这样更能真实准确地表示在城市地图中的地点间距离。pass_ij表示智能体通过path(i,j)的比率。

目标评价因子(TEF)主要考虑两方面:候选结点与目标的距离以及当前节点到候选结点的通过率，这反映了候选节点的优劣。智能体根据算法生成候选路径后，受其自身的行动力与感受野的限制，以及建筑倒塌等因素形成的路障对通行造成一定概率的阻塞，即智能体对实时路况的把握度不够，故可能需多次搜索从而找到一条可通行的路径。每次的搜索通过对TEF的把控，都将指导智能体不断向目标逼近，最终找到一条快捷安全的可通行道路。

然而，以上两因素往往不可兼得，本发明通过智能体的类别、分工以及所处的不同行为模式选择距离度与通过率的不同配比。例如，警察智能体负责清障，故仅考虑距离度单一因素；救护智能体向伤员移动时，若经预测其HP值较高，则偏好路障少、通过率高的路段，若预测其健康状况较差，则偏好距离较短的路径。用目标评价因子(TEF)替换的启发函数η_ij，最终蚂蚁对下一结点的状态转移概率为：

其中，alowed_k＝{0,1,...,n-1}表示蚂蚁k的next候选节点的集合，而taboo_k表示其已访问过的节点集合。η_ij为path(i,j)的启发函数，即由i到达j的期望度，d_ij为节点i.j间的距离。α,β分别表示信息素以及启发函数对节点选择的作用大小。

路径搜索过程中，蚂蚁会触发信息素的更新，具有距离短、通过率高的特点的较优路径将会获得更多信息素，这体现了算法信息素更新的全局性，表现了全局搜索范围内各候选路径的优劣程度，是一种信息正反馈现象。本发明定义的信息素更新方法如公式(4)所示：

其中，t_ij表示path(i,j)上的信息素浓度，T表示蚁群完成一次搜索的所需时间。ρ为信息素持久度，1-ρ为信息素挥发度。由公式(4)易知，信息素的更新具有全局性、局部性，且蚁群间也将共享更新信息素。但值得注意的是，当路段信息素浓度较低时，信息素的正反馈现象相对不明显，路径搜索体现了较强的随机性，算法收敛速度较慢；反之，信息素浓度较高时，随机性减弱，正反馈作用变强，算法收敛速度加快，但易陷入局部最优。为避免此类问题的出现，本发明定义了信息素自适应更新规则如下：

信息素局部更新：

其中，N为蚂蚁总数，

式中，q₁为局部信息素强度常量，L_k为蚂蚁k在本次搜索中得到的路径长度。信息素更新规则的局部性体现了信息素正反馈特性，即蚂蚁在快捷的道路上释放的信息素较多。

考虑到信息素局部更新规则缺乏对全局环境的掌控，可能导致目光短浅的“短视”现象。在算法层面体现在局部规划的路径无法保证到达目标位置，也不能保证获得全局理想解，无法避免陷入局部最优、死区，算法早熟等问题，故作出以下改进：

这么做的合理性在于，搜索后期各蚂蚁生成的候选路径将逐渐逼近信息素值高的路径，导致该路段信息素值迅速提升，算法过早收敛。因此，在搜索过程中，定期削减此类路段的信息素浓度，可以增加其他路径被搜索的可能性以及可行解的多样性。

信息素全局更新：

本次搜索结束后，根据目标函数从蚁群规划所得候选路径集合中按优劣程度进行信息素更新，path(i,j)上的全局信息素增量为：

其中，

其中，q₂为全局信息素强度常量，L^k为蚂蚁k搜得的路径长度。引入σ_k表示蚂蚁k求得的候选路径对path(i,j)的信息素更新影响程度：

σ_k＝(1-μ_ij)·n_ij-rank[k] (10)

式中，n_ij为经过path(i,j)的蚂蚁总数，μ_ij为path(i,j)的权重，与路段信息素浓度呈正比。C_t为所有候选路径中经过path(i,j)的路段数目，C_p为蚁群搜索的候选路径总数。将所有候选路径按目标函数值降序排列后生成rank数组，rank[k]表示由蚂蚁k得到的候选路径的排名，rank[k]值越小，说明解相对越优。

上述公式的合理性将从以下几个角度进行阐述：

若path(i,j)的权重μ_ij较大，则该路段信息素值较大，(1-μ_kj)·n_ij的值相对小，非劣解rank[k]相对小，最终导致σ_k相对较大，体现了信息素的正反馈特性。对于次优解的rank[k]较大，σ_k相对较小，可能对路段产生负影响，导致其信息素含量减小。

若path(i,j)的权重μ_ij较小，则(1-μ_kj)·n_ij值相对较大，给予此类非优解一定的增加信息素的动力，从而保证全局信息素浓度具有一定的分散性，缓解了算法的过于早熟，达到智能体协作与决策的帕托累最优，实现信息素的动态调节。

从本次搜索过程中各蚂蚁所经过的路径来看，若第k只蚂蚁搜索到的路径较短，则rank[k]较小，信息素增强力度越大，能够有效地强化该路段的信息素。

从当前节点i来看，若其经过的路径较多，则对各路径的差异较小，对各个候选路径的影响也相对均匀。反之，当节点i经过的路径较少时，各路段信息素浓度差别较为明显，较优路径上的信息素更新强度将更大，使得在其上集中的信息素浓度值更高。从而在避免全局信息素过于集中的同时，维持较优路段的信息素浓度。

蚁群间信息素共享更新：

由于单个智能体的感受野、能力都是受限的，这就体现了信息共享机制的优越性。为了获得全局较优路径，需要充分利用通信机制，将单个蚂蚁搜索到的较优解在蚁群间进行共享，扩大智能体对全局环境的感知，从而对动态路径规划得到的候选解进行优化改善，公式为：

为了验证本发明提出的自适应信息素更新策略的可靠性以及蚁群A星混合算法(AACA&A星)的适用性，对最新的机器人世界杯救援模拟***进行实验验证。

考虑到该混合算法含有多个变量，如信息素持久度ρ、启发式因子α,β、信息素强度常量Q(q₁,q₂,q_comm)。以下实验将采用控制变量的方法对这些变量的取值做出探讨，并选用较优值再次进行救援仿真，对救援效果按照路径规划效果、成功次数、通过率(阻塞次数)、各周期得分与最终得分进行多角度比较。为了使多次实验结果更有比较性，在这里统一仿真地图为神户进行对比试验，对于公式(2)中参数ω₁,ω₂，救护队或火警智能体取(0.5,0.5)，警察智能体取(1，0)，蚂蚁数

最终仿真结果为三大智能体每次搜索周期中待比较指标的平均值。

有公式(4)易知，信息素会发快慢由ρ直接反映，且ρ越大相邻两代的信息素差距越大，正反馈作用越强，算法收敛速度越快。但反之会使得信息素无法正常地挥发与积累，反馈作用不显著。在实验1中，利用本发明提出的模型，通过仿真实验分析信息素持久度ρ对蚁群A星混合算法的影响。为保证对试验结果仅受单一变量ρ的影响，仿真中其他变量设置为：Q＝q₁＝q₂＝q_comm＝10，α＝1，β＝5,ρ∈[0.1,0.9]，每隔0.2对ρ进行一次采样，对每次的采样值ρ重复仿真10次，搜索每轮最优路径长度并取平均值作为实验结果。当相邻代的最优解差异小于0.01或达到最大迭代数(设为50)，则退出循环。

以救护队为例，每组实验独立运行后得到的最优解平均值、最优解值(路径长度,通过率)、平均收敛迭代数如图2表格所示。

从图2表格可以看出，信息素持久度ρ对算法收敛性影响很大。ρ小则削弱信息素的积累性，搜索更迅速，但多陷于局部极值；ρ大则信息素残留导致正反馈特性不明显，收敛慢。结合上表数据可得出以下结论：当ρ∈[0.5,0.7]时，算法的搜索效率与结果均较为理想。

启发式因子α反映残留信息素的作用强度，α越大则蚂蚁受历史经验的吸引就越大，随机性的减弱可能引发算法的早熟；β反映启发信息强度，与α的耦合性较大，实验中保持其一不变，通过调节另一因子对结果进行分析。取ρ＝0.6，其他变量与实验1中相同，进行独立实验10次并取平均值，结果如图3表格所示。

由于篇幅限制，此处仅列出具有代表性的实验结果，综合分析得出结论：启发式因子α,β强耦合，若二者都大，算法对经验与启发信息过分依赖，将导致陷入局部最优解。β>>α时，将退化为贪婪算法并出现早熟现象；α>>β，同样搜索效果较差。只有当α,β在合理范围内才能对搜索结果起到优化作用，由实验，α＝1,β∈[2,5]效果最佳。

蚁群算法中信息素浓度对路径规划有着重要影响，仿真实验中，在相同的环境下，分别对蚁群算法、A星算法以及本发明提出的自适应蚁群A星混合算法中的救援智能体成功搜索数进行计数。每种算法独立运行10次，每次运行间隔20周期进行采样，将最终结果取平均值。“成功次数”定义为从探索初期，到最后按照规划方案如期抵达终点，则计数一次。如图4(左)所示，显然蚁群A星混合算法路径规划成功率高于ACA和A星，随着周期数的增加，混合算法的优势逐渐明显。

此外，考虑到RCRSS中，路段边上的路障将成为智能体前行的障碍，导致救援滞后、效率降低，故比较以上各算法相应时间段的阻塞数是有必要的。如图4(右)所示，前期各算法对阻塞次数的优化差异不明显。在第60周期后，本发明提出的混合算法的阻塞数大体低于ACA与A星算法，这归功于该算法良好的动态性与自适应性。

一个较优的路径规划算法能够帮助智能体在较短时间内达到目标位置开展救援行动，减少其被阻塞的概率，因此对最终得分有着较大提升。在仿真参数不变的情况下，对不同场景开展救援仿真，每个场景独立运行10次取平均值，统计如图5(左)所示。同时，为了进一步对比，对其做出了得分曲线，如图5(右)所示。两图结合来看，混合算法有较好的分数保持性，尤其在第40～80周期。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。