CN110989352B

CN110989352B - 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法

Info

Publication number: CN110989352B
Application number: CN201911272386.0A
Authority: CN
Inventors: 丁肇红; 吴莹莹; 温晓静
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2022-05-27
Anticipated expiration: 2039-12-06
Also published as: CN110989352A

Abstract

本发明公开了一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法，属于多智能体目标搜索技术领域。包括：根据地面移动机器人群体的目标监视区域设定目标位置；地面移动机器人轨迹规划作为二维轨迹规划问题解决，基于蒙特卡洛树搜索算法确定地面移动机器人协同搜索过程中可能的访问节点序列，利用概率下降法优化该机器人访问序列对应的概率分布；与其他地面机器人通信，更新地面机器人群体访问序列的联合概率分布，选择概率最高的访问序列中的第一个节点作为该机器人的下一个访问节点；结合地面机器人运动约束，利用分段平滑曲线实现地面移动机器人的平滑闭环轨迹规划，解决时间约束下地面移动机器人群体协同区域目标搜索的最优观测问题。

Description

一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法

技术领域

本发明属于多智能体区域监视技术领域，特别涉及一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法。

背景技术

现阶段多智能体的环境感知技术主要是被动地完成环境探测、目标识别与跟踪、实时定位与地图构建等任务，所涉及的智能体数目大部分为单个。此外，地面移动机器人群体的研究领域大多集中在机器人群体集中式编队、机器人之间的通信机制、多机器人之间的任务资源分配等方面，在移动机器人群体的协同目标搜索方面鲜有研究。随着深度学习算法的飞速发展，当下较为热门的深度学习主要关注于文本、图像、视频等数据的处理，但这一过程耗时长，运算复杂度较大，无法应用于实际的多机器人***。在复杂大规模动态环境中，机器人需要与环境交互的信息量较多，机器人不能很好地通过深度学习的方法来进行主动目标感知。

现有文献的移动机器人目标搜索集中于已知的静态环境，大多借助将环境离散化，采用传统搜索算法，得到起点和终点之间的路径，这种路径在环境地图的分辨率下是绝对的最短路径；利用改进A*算法、粒子群算法进行机器人轨迹规划，但A*算法搜索速度慢，计算量大，很难在保证在多约束条件下找到机器人群体的最优轨迹；粒子群算法规划空间划分较粗糙、难以满足运动约束条件，不能在可选路径集之外的空间搜索，且粒子群算法精确度不够高，难以在复杂环境和多约束条件下找到最优轨迹；大部分移动机器人目标搜索研究集中于单个机器人应用，很少涉及群体机器人的协同搜索和感知。

蒙特卡罗树搜索算法是一种利用蒙特卡罗方法作为评估的博弈树搜索算法，毋需引入过多的领域知识，同时具有巨大的可扩展性。上限置信区间策略是求解多臂匪徒问题的一种方法。上限置信区间策略的基于UCT的蒙特卡罗树搜索算法被证明可以极大地提升计算机博弈引擎水平。目前该算法已应用于博弈类游戏开发，少数论文将蒙特卡罗算法应用于单个机器人在线轨迹规划，且多集中在二维空间。在机器人群体目标搜索领域，尚无专利利用该算法实现目标搜索任务。

发明内容

为了克服现有技术中的不足，本发明提供一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法，针对大规模且不完全已知的非结构化复杂环境，利用蒙特卡洛树搜索算法和分段Dubins规划解决多约束下群体机器人区域性协同快速轨迹规划和目标搜索问题。它为每个地面移动机器人规划出一条最有效的轨迹，以最小代价和最快速度搜索并观测到区域内的目标，实时最大化收集区域信息以达到有效地监视大规模区域的目的。

为了达到上述发明目的，解决其技术问题所采用的技术方案如下：

一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法，包括以下步骤：

步骤1：参数设置，包括地面移动机器人群体的旅行预算时间阈值，蒙特卡洛树搜索算法的迭代次数；根据地面移动机器人群体的目标监视区域，设定该地面移动机器人群体的n个目标位置；所述地面移动机器人群体包含N个独立运动的地面移动机器人；每台地面移动机器人上搭载有视觉传感器，根据各视觉传感器的感应距离，设定各地面移动机器人的监视半径，将该监视半径作为各目标位置的邻域；

步骤2：为每个地面移动机器人在待探测环境中随机选择一个初始位置，各地面移动机器人基于蒙特卡洛树搜索算法以并行方式得到访问节点序列并进行环境探测，在观测过程中，视觉传感器和激光雷达收集的数据越多则奖励值越高，根据贪婪原则机器人群体形成满足时间约束的访问序列，经过观测后各个地面移动机器人回到各自的初始位置，分别形成相应的闭环轨迹；

步骤3：不断重复步骤2，直至地面移动机器人群体的时间预算耗尽或达到最大迭代次数，输出地面移动机器人群体的访问节点序列；

步骤4：地面移动机器人群体内的各地面移动机器人同步执行上述各步骤，以此规划出的轨迹使得多地面移动机器人在最短时间内，尽可能多访问目标物***置，实现快速协同目标搜索任务。

进一步的，所述步骤2是通过以下步骤实现：

步骤21：采用蒙特卡洛树搜索算法的改进方法——上限置信区间树搜索算法，将蒙特卡洛树搜索方法与上限置信区间公式结合，确定每个地面移动机器人个体协同搜索过程中可能的访问节点序列；

步骤22：通过随机概率下降法优化该地面移动机器人访问序列对应的概率分布，利用最大熵原理完成访问序列的概率更新，概率更新公式如下：

其中，x为该地面移动机器人可能的访问序列，q_n为访问序列x对应的概率分布，

为目标函数f对概率分布q_n的期望，H(q_n)为概率分布q_n的熵；

步骤23：与其他地面移动机器人通信，更新地面移动机器人群体访问序列的联合概率分布，选择概率最高的访问序列中的第一个节点作为该地面移动机器人的下一个访问节点；

步骤24：地面移动机器人运动受最大转弯半径和最大速度限制，结合该运动特征，利用分段Dubins曲线实现地面移动机器人的平滑闭环轨迹规划。

进一步的，所述步骤21具体包括以下步骤：

步骤211：在搜索树中选择最佳的拓展节点作为子节点，采用贪婪原则，优先选择未被探索的节点中奖励值最高，即观测信息最多的节点，若所有节点都已经被访问，则选择上限置信区间值最高的节点，上限置信区间计算公式如下：

其中，a为节点编号，t为迭代次数，N_t为该节点被访问的次数，Q_t(a)为节点a的奖励估计值；

步骤212：在步骤211选择的子节点处前进一步，随机拓展该节点处的叶节点，该新增节点既不与前面的子节点重复，也不与其他地面移动机器人的搜索树的子节点重复；

步骤213：计算步骤212得到的拓展叶节点序列的最新奖励估计值；

步骤214：在遍历所述蒙特卡罗树中的所有节点之后，采用反向传播方式，根据步骤213的奖励估计值更新搜索树上的对应节点的奖励值；

步骤215：重复步骤211-214，直至所述蒙特卡罗树中至少一个节点的奖励值达到预设阈值，将达到预设阈值的所有奖励值中选择最大奖励值对应的节点作为新的访问节点。

进一步的，所述步骤24具体包括以下步骤：

采用的各轮式地面机器人***的简单运动学模型如下：

其中，x_P、y_p和θ为机器人底盘当前位姿，V为机器人速度，μ表示转弯速度控制，最大转弯速率对应于某个最小转弯半径，初始和终端切线方向对应于初始和终端坐标。

进一步的，所述步骤3具体包括以下步骤：

设定地面移动机器人群体的航行时间总和T作为目标函数，其表达式如下：

若满足地面移动机器人群体目标函数最小，则返回各地面移动机器人的轨迹曲线，即返回地面移动机器人运行总时间最短所对应的各地面移动机器人路径，各地面移动机器人按照求得的该路径进行目标搜索；其中，χ为机器人的最终轨迹，X_i为机器人的第i条分段Dubins曲线。

本发明由于采用以上技术方案，使之与现有技术相比，具有以下的优点和积极效果：

1、本发明提供的一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法，相对于单个机器人目标搜索方法，能解决移动机器人群体的快速轨迹规划问题，实现移动机器人群体的目标搜索。移动机器人群体在满足自身运动特征的前提下，以最小代价和最快速度搜索并观测到目标，实时最大化收集区域信息；

2、本发明解决了多地面移动机器人多协同轨迹规划问题，为提高算法执行效率，将基于蒙特卡罗树搜索算法和Dubins平滑规划用于轨迹快速规划和目标搜索问题，本发明方法具有收敛速度快，收敛精度高的优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图中：

图1是本发明一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法的流程示意图；

图2是本发明一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法所涉及的地面移动机器人群体、目标位置和目标位置邻域的相对位置关系图。

具体实施方式

以下将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整的描述和讨论，显然，这里所描述的仅仅是本发明的一部分实例，并不是全部的实例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本实施例公开了一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法，包括以下步骤：

步骤1：参数设置，包括地面移动机器人群体的旅行预算时间阈值，蒙特卡洛树搜索算法的迭代次数；根据地面移动机器人群体的目标监视区域，设定该地面移动机器人群体的n个目标位置；所述地面移动机器人群体包含N个独立运动的地面移动机器人；每台地面移动机器人上搭载有视觉传感器，根据各视觉传感器的感应距离，设定各地面移动机器人的监视半径R(本实施例中，各视觉传感器相同，故每个地面移动机器人的监视半径R均相等，且设定为视觉传感器的感应距离)。为了节省目标搜寻时间，提高目标搜索的效率和适应性，将设定的监视半径作为各目标位置的邻域，机器人群体只需在监视半径内观测到目标，即可视为达到观测效果。图2为机器人群体(本实施例由5个地面移动机器人构成机器人群体)、目标位置和目标位置邻域的相对位置关系图，其中，点A，B，C，D，E为地面机器人群体的起点，黑色点为监视区域的目标位置，灰色圆形区域为目标位置的邻域；

步骤2：为每个地面移动机器人在待探测环境中随机选择一个初始位置，各地面移动机器人基于蒙特卡洛树搜索算法以并行方式得到访问节点序列并进行环境探测，在观测过程中，视觉传感器和激光雷达收集的数据越多则奖励值越高，根据贪婪原则机器人群体形成满足时间约束的访问序列，经过观测后各个地面移动机器人回到各自的初始位置，分别形成相应的闭环轨迹；具体的，该步骤是通过以下步骤实现：

步骤21：采用蒙特卡洛树搜索算法的改进方法——上限置信区间树搜索算法，将蒙特卡洛树搜索方法与上限置信区间公式结合，确定每个地面移动机器人个体协同搜索过程中可能的访问节点序列；具体的，该步骤具体包括以下步骤：

为目标函数f对概率分布q_n的期望，H(q_n)为概率分布q_n的熵；

步骤24：地面移动机器人运动受最大转弯半径和最大速度限制，结合该运动特征，利用分段Dubins曲线实现地面移动机器人的平滑闭环轨迹规划。具体的，该步骤具体包括以下内容：

采用的各轮式地面机器人***的简单运动学模型如下：

其中，x_P、y_p和θ为机器人底盘当前位姿，V为机器人速度，μ表示转弯速度控制，最大转弯速率对应于某个最小转弯半径，初始和终端切线方向对应于初始和终端坐标。Dubins曲线是在满足曲率约束和规定的始端和末端的切线方向的条件下，连接两个二维平面的最短路径，这对于地面移动机器人是可实际运行的路线。

步骤3：不断重复步骤2，直至地面移动机器人群体的时间预算耗尽或达到最大迭代次数，输出地面移动机器人群体的访问节点序列；具体的，该步骤具体包括以下内容：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。