CN116449864A

CN116449864A - 一种无人机集群的最优路径选择方法

Info

Publication number: CN116449864A
Application number: CN202310246886.7A
Authority: CN
Inventors: 刘韡; 马俊杰; 苏帅; 姜瀚
Original assignee: Aerospace Science And Technology Network Information Development Co ltd
Current assignee: Aerospace Science And Technology Network Information Development Co ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-07-18

Abstract

本发明提供了一种无人机集群的最优路径选择方法，该方法通过多目标函数确定单个无人机的局部最优路径，并通过获取每个无人机的局部最优路径，确定整个无人机集群的最优路径。通过这种方法在保证单个无人机与整体的无人机集群的必要的联系的同时，尽量保障单个无人机的独立运行，避免了无人机复杂的路径规划方法，加快了无人机的响应速度。

Description

一种无人机集群的最优路径选择方法

技术领域

本发明涉及无人机集群路径规划技术领域，特别是一种无人机集群的最优路径选择方法。

背景技术

单无人机任务规划，就是获取目标到任务完成的整个过程中，安排无人机在飞行过程中执行何种飞行任务以及如何实施这些飞行任务，使无人机生存概率和作业效能达到最佳。多无人机协同任务规划，除了需要考虑任务本身构成要素的要求外，还必须考虑多个无人机之间协调一致共同执行任务的约束关系，并根据任务规划指标为无人机设计出协同的飞行航路，使其整体作业效能最优或近似最优。先进的多无人机任务规划***要求能够尽可能提高任务的整体执行效率，并且要求其反应速度快、运行效率高、具备实时运行能力，且能够处理大规模的无人机集群决策需求。

现有的无人机集群在路径规划时，面临各种复杂的任务和环境，难以在较短的时延内做出合适的策略。

因此，亟需一种无人机集群的最优路径选择方法，用于提高无人机集群的响应速度。

发明内容

本发明提供一种无人机集群的最优路径选择方法，用于解决背景技术中所述的，无人机集群在路径规划时，面临各种复杂的任务和环境，难以在较短的时延内做出合适的策略的技术问题。其具体技术方案如下：

第一方面啊，本发明提供一种无人机集群的最优路径选择方法，所述方法包括：

无人机集群中的每个无人机基于多目标函数的最优值和可行路径，确定单个无人机的局部最优路径；

所述无人机集群基于所述每个无人机的局部最优路径和环境奖励，确定所述无人机集群的最优路径，所述环境奖励为当前环境信息对单个无人机的实际执行的局部最优路径的修正因素。

本发明的另一种实施例中，在第一实施例的基础上，所述无人机集群中的每个无人机基于多目标函数的最优值和可行路径，确定单个无人机的局部最优路径，包括：

所述无人机集群中的每个无人机基于所述多目标函数确定所述多目标函数的最优值；

每个所述无人机基于外部环境信息和其他无人机的位置信息确定可行路径；

每个所述无人机基于所述最优值和所述可行路径，确定所述单个无人机的局部最优路径。

本发明的另一种实施例中，在第二实施例的基础上，所述多目标函数包括通常目标函数和额外目标函数；所述通常目标函数用于限定无人机飞行路径的基本需求，所述额外目标函数用于限定无人机飞行路径的额外任务需求，所述额外目标函数基于所述单个无人机的飞行任务确定。

本发明的另一种实施例中，在第三实施例的基础上，所述通常目标函数包括：平滑度惩罚、总时间惩罚、动态可行性惩罚。

本发明的另一种实施例中，在第三实施例的基础上，所述额外目标函数包括：形成预期惩罚、多视图跟踪惩罚、距离测量误差惩罚。

本发明的另一种实施例中，在第二实施例的基础上，所述每个所述无人机基于所述最优值和所述可行路径，确定所述单个无人机的局部最优路径，包括:

每个所述无人机基于所述最优值生成对应的目标向量；

每个所述无人机基于所述可行路径生成对应的当前向量；

每个所述无人机基于所述目标向量和所述当前向量之间的距离确定Pearson相关系数函数；

每个所述无人机基于所述Pearson相关系数函数确定所述单个无人机的局部最优路径。

本发明的另一种实施例中，在第六实施例的基础上，所述每个所述无人机基于所述目标向量和所述当前向量之间的距离确定Pearson相关系数函数中，所述目标向量和所述当前向量之间的距离确定方法包括：线性加权法、chebyshev距离标量化法、mahalanobis距离标量化法、超体积度量标量化法、manhattan距离标量化法、余弦距离标量化法。

本发明的另一种实施例中，在第六实施例的基础上，所述每个所述无人机基于所述Pearson相关系数函数确定所述单个无人机的局部最优路径，包括：

基于所述目标向量和所述当前向量之间的距离、所述Pearson相关系数函数，确定Pearson相关系数P，所述Pearson相关系数P为有关所述目标向量和所述当前向量之间的距离的函数关系式；

所述局部最优路径为所述Pearson相关系数P的最小值所对应的路径。

本发明的另一种实施例中，在第一实施例的基础上，所述无人机集群基于所述每个无人机的局部最优路径和环境奖励，确定所述无人机集群的最优路径，包括：

所述无人机集群基于所述无人机集群中的环境信息和所述无人机集群外部的环境信息生成多个环境奖励；

所述无人机集群将所述环境奖励发送至对应的单个无人机中，使得对应的单个无人机的局部最优路径进行调整；

所述无人机集群基于每个所述无人机调整后的局部最优路径，确定所述无人机集群的最优路径。

第二方面，本发明还提供一种无人机，所述无人机为无人机集群中的单个无人机，所述无人机中设置有上述第一方面中任一实施例所述的一种无人机集群的最优路径选择方法。

发明效果：

本发明提供一种无人机集群的最优路径选择方法，用于解决背景技术中所述的，现有无人机路径规划选择耗时较长的问题。本发明将原有的无人机集群的整体任务规划，改为单个无人机的任务规划。通过确定单个无人机的局部最优路径后，通过奖励机制，实现单个无人机的局部最优路径到整个无人机集群的最优路径的整合。加快了无人机路径规划的效率，降低了单个无人机的反应时间。同时，有效的将局部最优路径，很好的整合到无人机集群的最优路径。避免了无人机之间的干扰。

附图说明：

图1是本发明提供的一种无人机集群的最优路径选择方法的流程示意图；

图2是本发明提供的一种无人机集群的最优路径选择方法的奖励机制示意图；

图3是本发明提供的一种无人机集群的最优路径选择方法的IQL转化图。

具体实施方法

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实施例1：

本实施例中，公开一种无人机集群的最优路径选择方法，用于解决背景技术中所述的，现有无人机路径规划选择耗时较长的问题。本发明将原有的无人机集群的整体任务规划，改为单个无人机的任务规划。通过确定单个无人机的局部最优路径后，通过奖励机制，实现单个无人机的局部最优路径到整个无人机集群的最优路径的整合。加快了无人机路径规划的效率，降低了单个无人机的反应时间。同时，有效的将局部最优路径，很好的整合到无人机集群的最优路径。避免了无人机之间的干扰。具体的，无人机集群中有多个无人机。无人机集群可以视为具有强化学习能力的多智能体，无人机集群中的单个无人机可以视为具有强化学习能力的单智能体。无人机集群最优路径的选择问题看作是多智能体强化学习最优策略的选择过程；单无人机最优路径的选择问题看作是单智能体强化学习最优策略的选择过程。根据IQL(independent Q-learning)思想，本发明将无人机集群最优路径的选择问题转化成单无人机最优路径的选择问题。

本实施例中，进一步公开通过多目标函数确定局部最优路径的具体过程。无人机在风行过程中，对路径的规划需要达到多种效果，例如时间最短、耗能少等。为了描述这些效果，本发明引用多目标函数。多目标函数即无人机在路径规划过程中需要达到的目标的函数关系。不同的路径规划对应不同的多目标函数的值。多目标函数的最优值对应理论上的最优路径。

无人机根据周围环境信息，他的无人机的位置，当前执行的任务状态等信息可以确定一条可行的路径，该可行路径可以通过之前积累的强化学习数据生成。通过该条可行路径和上述多目标函数的最优值，可以确定当前的无人机的局部最优路径。

本实施例中，进一步公开多目标函数的构成。多目标函数是本发明无人机路径规划的重要指标。多目标函数包括通常目标函数和额外目标函数。通常目标函数是无人机在路径规划中，需要达到的一般目标。这些目标与无人机的飞行状态直接相关。额外目标函数是无人机飞行过程中需要满足的额外目标要求，这些要求与无人机当前执行的任务状态相关。例如无人机执行勘测、避障等任务时，多目标函数会调用额外目标函数，并将对用的额外目标函数赋予相应的权重。通过通用目标函数和额外目标函数灵活的应对，无人机不同的任务需求。

本实施例中，进一步公开通常目标函数的内容。通常目标函数包括平滑度惩罚、总时间惩罚、动态可行性惩罚。其计算公式如下所示：

所确定的多目标函数为：

其中，J_x是各种通用惩罚项，即任务规格。下标x＝{s,t,d,o}表示平滑度(s)、总时间(t)、动态可行性(d)、避障(o)等。

其中：

①平滑惩罚J_s被定义为平方s阶导数的积分，计算方法为：

其中，t∈[t₀,t_M]是当前轨迹的域。

②在大多数情况下，较短的飞行时间是可取的，因此我们还最小化加权总飞行时间，这使得总时间损失J_t为：

J_t＝sum(T)

③对于微分平面多旋翼飞行器，通过限制轨迹导数的大小来保证动态可行性。

J_d＝J_d,v+J_d,a+J_d,j

其中，v_m,a_m和j_m分别是速度、加速度和加加速度的最大允许值。

④避障是在杂乱的现实世界中构建的无序障碍物地图上执行的。避障惩罚J_o被公式化为：

其中，d_o是p(t)的函数。

本实施例中，进一步公开额外目标函数的内容。具体计算公式如下：

所确定的多目标函数为：

其中，J_x是各种通用惩罚项，即任务规格。J包括：

形成预期惩罚

多视图跟踪惩罚其中/>

距离测量误差惩罚等。

每个所述无人机基于所述最优值生成对应的目标向量；

每个所述无人机基于所述可行路径生成对应的当前向量；

本实施例中，进一步公开通过多目标函数的最优值和可行路径确定局部最优路径的过程。其过程具体如下：

第一步：将无人机的第i个目标函数转换为如下函数表示：其中，n_i表示第i个无人机路径规划的目标数量。

第二步：求出每个函数的最优值f_i ^*,i＝1,2,…,n_i，构成理论上的Pareto最优解并作为参考点，记为：称为目标向量。

第三步：无人机选择一个可行路径后，记当前目标函数构成的向量为：该向量称为当前向量。

第四步：通过比较和/>的大小来确定无人机的局部最优路径。

本实施例中，进一步公开目标向量和当前向量之间距离确定方法的内容。

①线性加权

做向量ω与f的数量积可以得到一个数值函数：

其中，ω_i∈[0,1]i＝1,2,…,n_i作为每个目标函数的相对权重。minμ所对应的路径即为最优路径。

②Chebyshev距离标量化

做向量f与f^*的Chebyshev距离函数：

其中，ω_i∈[0,1]i＝1,2,…,n_i作为每个目标函数的相对权重。minL_∞所对应的路径即为最优路径。

③Mahalanobis距离标量化

做向量f与f^*的Mahalanobis距离函数：

其中，ω_i∈[0,1]i＝1,2,…,n_i作为每个目标函数的相对权重。minD所对应的路径即为最优路径。

④超体积度量标量化

超体积的数学表示如下：

其中，δ代表Lebesgue测度，用来测量体积。|S|表示解集的数目，v_i表示参照点f^*与解集中第i个解f构成的超立方体。minHV所对应的路径即为最优路径。

⑤Manhattan距离标量化

做向量f与f^*的Manhattan距离函数：

⑥余弦距离标量化

做向量f与f^*的余弦距离函数：

其中，θ为向量f与f^*的夹角。mincos(θ)所对应的路径即为最优路径。

本实施例中，优选的，本发明进一步公开一种利用Pearson相关系数函数确定所述单个无人机的局部最优路径的方法。该方法具体内容如下：

作为一种可能实现的方式，计算向量间距离的Pearson相关系数步骤如下：

做向量f与f^*的Pearson相关系数函数：

minp所对应的路径即为局部最优路径。

本实施例中，进一步公开无人机集群对单个无人机的局部路径的奖励机制。本发明给出了单智能体与环境交互实现强化过程从而选择最优策略的基本框架图。本发明将单个无人机最优路径的选择问题看作是单智能体强化学习最优策略的选择过程。每个无人机看作是一个智能体，每个智能体执行一个动作后会得到来自环境的奖励。单智能体强化学习遵循马尔可夫决策过程(MDP)。有限马尔可夫决策过程可表示为M＝(S,A,P,R)。其中S为状态集，s_i∈S表明第i个时刻的状态；A为动作集，a_i∈A表明第i个时刻的动作；P:S×A×S→[0,1]表明状态转移概率函数；R:S×A×S→R表明回报函数。智能体在状态s_i下采取动作a_i,再根据状态转移概率函数P(s_i,a_i,s_i+1)转移到s_i+1状态,并获得回报r_i。任何状态下,智能体选择动作的决策过程称智能体策略,用π表示。状态s下,智能体根据策略π执行后续过程,得到期望回报为:

其中，为γ折扣因子,用于刻画期望回报对回报函数的影响。强化学习旨在通过学习得到一个最优策略，使得在任一状态下期望回报最大。

其次，本发明给出了多智能体背景下，智能体与环境和其他智能体交互实现强化过程从而选择最优联合策略的过程。本发明将无人机集群最优路径的选择问题看作是多智能体强化学习最优联合策略(纳什均衡)的选择过程；每个无人机看作是一个智能体，每个智能体执行一个动作后会得到来自环境和其他智能体的联合奖励。多智能体强化学习遵循随机博弈过程(SG)。SG为多元组<S,A₁,A₂,…,A_n,R₁,R₂,,R_n,P,γ>,其中，n为环境中智能体数量；S为环境的状态空间，A_i(i＝1,2,…,n)为每个智能体的动作空间，A＝A₁×A₂×…A_N为所有智能体是联合动作空间，联合状态转移函数为P:S×A×S→R，在多智能体环境中，状态转移是所有智能体共同作用的结果。每个智能体的个体策略π_i:S×A_i→[0,1]，它们共同构成联合策略π。由于智能体的奖励r_i,k+1取决于联合动作,因此联合奖励取决于联合策略，公式如下:

本实施例中，公开一种无人机，该无人机的控制***中设置有上述任一实施例所述的一种无人机集群的最优路径选择方法。通过该方法控制的无人机具有更高的灵敏度，能够在具备单个无人机的相对独立运行的基础上，更好的配合无人机集群的整体任务规划。

具体实施例2：

图1给出了无人机集群最优路径的选择方法的流程图。需要解释的是，本发明中，无人机集群最优路径的选择问题看作是多智能体强化学习最优策略的选择过程；单无人机最优路径的选择问题看作是单智能体强化学习最优策略的选择过程。

首先，根据IQL(independent Q-learning)思想，本发明将无人机集群最优路径的选择问题转化成单无人机最优路径的选择问题。

其次，在多目标强化学习的背景下，本发明给出了无人机选择最优路径的目标函数。所确定的多目标函数为：

其中：

①平滑惩罚J_s被定义为平方s阶导数的积分，计算方法为：

其中，t∈[t₀,t_M]是当前轨迹的域。

J_t＝sum(T)

J_d＝J_d,v+J_d,a+J_d,j

其中，d_o是p(t)的函数。

J包括：

形成预期惩罚

多视图跟踪惩罚其中/>

距离测量误差惩罚等

再次，将多个目标函数值进行向量表示。包括：1)将第i个无人机的目标函数转换为如下函数表示：其中，n_i表示第i个无人机的目标数量。2)求出每个函数的最优值f_i ^*,i＝1,2,…,n_i，构成理论上的Pareto最优解并作为参考点，记为：3)无人机选择一个路径后，记当前目标函数构成的向量为：4)通过比较Pareto最优解/>和当前目标函数向量的大小来确定无人机的局部最优路径。具体方法包括：

①线性加权

做向量ω与f的数量积可以得到一个数值函数：

②Chebyshev距离标量化

做向量f与f^*的Chebyshev距离函数：

③Mahalanobis距离标量化

做向量f与f^*的Mahalanobis距离函数：

④超体积度量标量化

超体积的数学表示如下：

⑤Manhattan距离标量化

做向量f与f^*的Manhattan距离函数：

⑥余弦距离标量化

做向量f与f^*的余弦距离函数：

⑦Pearson相关系数

做向量f与f^*的Pearson相关系数函数：

minp所对应的路径即为最优路径。

最后，根据上述方法可以得到无人机的最优路径，进而可以得到无人机集群的最优路径。

图2给出了单智能体与环境交互实现强化过程从而选择最优策略的基本框架图以及多智能体背景下智能体与环境和其他智能体交互实现强化过程从而选择最优联合策略的基本框架图。

首先，本发明给出了单智能体与环境交互实现强化过程从而选择最优策略的基本框架图。本发明将单个无人机最优路径的选择问题看作是单智能体强化学习最优策略的选择过程。每个无人机看作是一个智能体，每个智能体执行一个动作后会得到来自环境的奖励。单智能体强化学习遵循马尔可夫决策过程(MDP)。有限马尔可夫决策过程可表示为M＝(S,A,P,R)。其中S为状态集，s_i∈S表明第i个时刻的状态；A为动作集，a_i∈A表明第i个时刻的动作；P:S×A×S→[0,1]表明状态转移概率函数；R:S×A×S→R表明回报函数。智能体在状态s_i下采取动作a_i,再根据状态转移概率函数P(s_i,a_i,s_i+1)转移到s_i+1状态,并获得回报r_i。任何状态下,智能体选择动作的决策过程称智能体策略,用π表示。状态s下,智能体根据策略π执行后续过程,得到期望回报为:

其次，本发明给出了多智能体背景下，智能体与环境和其他智能体交互实现强化过程从而选择最优联合策略的过程。本发明将无人机集群最优路径的选择问题看作是多智能体强化学习最优联合策略(纳什均衡)的选择过程；每个无人机看作是一个智能体，每个智能体执行一个动作后会得到来自环境和其他智能体的联合奖励。多智能体强化学习遵循随机博弈过程(SG)。SG为多元组<S,A₁,A₂,…,A_n,R₁,R₂,,R_n,P,γ>,其中，n为环境中智能体数量；S为环境的状态空间，A_i(i＝1,2,…,n)为每个智能体的动作空间，A＝A₁×A₂×…A_N为所有智能体是联合动作空间，联合状态转移函数为P:S×A×S→R，在多智能体环境中，状态转移是所有智能体共同作用的结果。每个智能体的个体策略π_i:S×A_i→[0,1]，它们共同构成联合策略π。由于智能体的奖励r_i，k+1取决于联合动作,因此联合奖励取决于联合策略，公式如下:

图3给出了多智能体强化学习到单智能体强化学习的转化图。将单智能体强化学习算法直接应用到多智能体环境之中，每个智能体之间相互独立，遵循IQL(independentQ-learning)的算法思路。根据IQL思想，给每个智能体执行一个Q-learning算法，因为共享环境，并且环境随着每个智能体策略、状态发生改变，每个智能体将其他智能体的行为当成环境的一部分并且独立地学习其自身的策略。由此，多智能体强化学习可以转化成多个单智能体强化学习过程，即无人机集群全局最优路径的规划问题转化成单个无人机局部最优路径的规划问题。

Claims

1.一种无人机集群的最优路径选择方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种无人机集群的最优路径选择方法，其特征在于，所述无人机集群中的每个无人机基于多目标函数的最优值和可行路径，确定单个无人机的局部最优路径，包括：

3.如权利要求2所述的一种无人机集群的最优路径选择方法，其特征在于，所述多目标函数包括通常目标函数和额外目标函数；所述通常目标函数用于限定无人机飞行路径的基本需求，所述额外目标函数用于限定无人机飞行路径的额外任务需求，所述额外目标函数基于所述单个无人机的飞行任务确定。

4.如权利要求3所述的一种无人机集群的最优路径选择方法，其特征在于，所述通常目标函数包括：平滑度惩罚、总时间惩罚、动态可行性惩罚。

5.如权利要求3所述的一种无人机集群的最优路径选择方法，其特征在于，所述额外目标函数包括：形成预期惩罚、多视图跟踪惩罚、距离测量误差惩罚。

6.如权利要求2所述的一种无人机集群的最优路径选择方法，其特征在于，所述每个所述无人机基于所述最优值和所述可行路径，确定所述单个无人机的局部最优路径，包括:

每个所述无人机基于所述最优值生成对应的目标向量；

每个所述无人机基于所述可行路径生成对应的当前向量；

7.如权利要求6所述的一种无人机集群的最优路径选择方法，其特征在于，所述每个所述无人机基于所述目标向量和所述当前向量之间的距离确定Pearson相关系数函数中，所述目标向量和所述当前向量之间的距离确定方法包括：线性加权法、chebyshev距离标量化法、mahalanobis距离标量化法、超体积度量标量化法、manhattan距离标量化法、余弦距离标量化法。

8.如权利要求6所述的一种无人机集群的最优路径选择方法，其特征在于，所述每个所述无人机基于所述Pearson相关系数函数确定所述单个无人机的局部最优路径，包括：

9.如权利要求1所述的一种无人机集群的最优路径选择方法，其特征在于，所述无人机集群基于所述每个无人机的局部最优路径和环境奖励，确定所述无人机集群的最优路径，包括：

10.一种无人机，所述无人机为无人机集群中的单个无人机，其特征在于，所述无人机的控制***中设置有如权利要求1～9任一权利要求所述的一种无人机集群的最优路径选择方法。