CN113821041B

CN113821041B - 一种多机器人协同导航与避障的方法

Info

Publication number: CN113821041B
Application number: CN202111175194.5A
Authority: CN
Inventors: 彭键清; 陈诺; 陈畅
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2023-05-23
Anticipated expiration: 2041-10-09
Also published as: CN113821041A

Abstract

本发明公开了一种多机器人协同导航与避障的方法，包括根据部分可观察马尔科夫决策过程，对机器人在未知环境中的决策过程进行建模；再根据当前机器人的环境建模信息，引入深度确定性策略梯度算法，提取采样的图像样本，输入到卷积神经网络中进行特征提取；在深度确定性策略梯度算法基础上进行改进，引入长短时记忆神经网络，使网络具有记忆性，利用跳帧机制使图像数据更加准确稳定；同时修改经验池回放机制，通过给存储的每个经验样本设置优先级，让少有而重要的经验能够更多地用于学习中，提高学习效率。最后建立了多机器人导航避障的仿真***，采用课程式学习的方式让机器人由易到难学习导航和避障，加快训练速度。

Description

一种多机器人协同导航与避障的方法

技术领域

本发明涉及机器人导航领域，其中涉及一种多机器人协同导航与避障的方法。

背景技术

随着5G技术的日趋成熟，机器人技术已全方位进入人类的生活和工作中，例如自动驾驶、自动运输、搜索救援等。由于人类的制造应用需求陡增，尤其面向智能制造中出现的小批量多品种个性化生产要求增多，应对这种复杂的柔性化生产趋势，单个机器人作业功能开始显得比较单一，生产需要更加数字化、网络化、智能化，因此多机器人的理论和应用发展成为必然。多机器人协作能更精准高效完成加工减少消耗，例如加工装配应用，用多个机器人完成装配、加工都能起到效率提升的作用，多机器人在工业加工领域有很好的应用价值，也有更多的拓展空间。

实现这些智能应用的重要前提是机器人在未知动态环境中具有强大的避障能力，然而在这一环境中，移动机器人无法获取障碍物或其他机器人的位置信息，只能观察到自身传感器获取的局部信息，这时“先建图再规划路径”的传统避障算法所产生巨大的计算量已经不再能支持应用满足5G时代的高实时性需求，而且障碍物数量和位置的变化也会导致***稳定性变差。因此需要提出一种既采用“无建图”方式进行导航的同时进行避障的多机器人协同导航与避障方法及***。

发明内容

鉴于现有技术的不足，本发明旨在于提供一种多机器人协同导航与避障的方法，通过本发明的方法能够更好地提高多机器人协同导航轨迹规划的效率并提升机器人的避障表现。

为了实现上述目的，本发明采用的技术方案如下：

一种多机器人协同导航与避障的方法，具有多个用于***工作的机器人，所方法包括

基于部分可观察马尔科夫决策过程，建立了对未知环境的决策过程模型；

根据移动机器人动作空间为连续值的特点，设计深度确定性策略梯度算法的算法网络，在输入端加入卷积层，提取图像的深层特征输入到算法网络中；具有优先经验回放机制；

利用长短时记忆网络，记忆环境信息，通过跳帧机制避免机器人快速移动导致的视觉图像运动模糊；

根据长短时记忆网络具有时序记忆性，利用随机更新策略，使网络学习有前后关联的样本；还包括采用跳跃更新的策略，且只采用轨迹后半部分的损失值进行梯度更新。

需要说明的是，部分可观察马尔可夫决策过程根据环境部分观察信息来推断机器人状态的分布，用一个六元组进行描述(S,A,T,R,Z,O)，其中S表示环境部分可观测的状态空间，A表示动作空间，T:S×A→π(S)表示状态转移函数，R:S×A→π(S)表示奖励函数，Z表示观测值集合，O:S×A→π(Z)是根据状态和所做动作给出的观测函数。

需要说明的是，通过获取机器人的摄像头数据S_image以及目的地相对于机器人当前位置的距离和方向角信息S_target，作为机器人每一步观测到的数据，作为机器人的状态空间：

S＝(S_image,S_target)

其中，S_image是机器人从摄像头数据中提取出的信息，用于训练避障。S_target＝(ρ,θ)，ρ表示机器人与目的地之间的距离，表达式为

其中target.x和target.y分别代表目的地位置的横坐标与纵坐标，robot.x和robot.y分别代表机器人位置的横坐标与纵坐标。θ表示目的地与机器人的距离和方向角，表达式为

用于训练导航。目的地位置在每次导航任务重新初始化时随机选取。

需要说明的是，通过设置机器人的线速度和角速度，初始化机器人的动作空间：

A＝(a_linear,a_angular)

其中，a_linear是机器人的线速度，a_angular是机器人的角速度，可在取值范围内连续变化。

需要说明的是，通过设置机器人在不同情况下的奖励函数，分别对应发生碰撞、到达目的地、其他情况，其中其他情况由三部分组成：目的地与机器人的距离、机器人朝向与到目的地的方位角的差距、循环转圈，对好的情况设置奖励，坏的情况设置惩罚，使机器人学会正确的行驶方式，表达式为：

其中，r_c是发生碰撞时给予的惩罚，r_g是到达目的地时给予的奖励，r_d是机器人与目的地距离的负值，表达式为：

r_d＝-ρ

r_y是机器人的朝向yaw与机器人与目的地的方位角θ的差，表达式为：

r_y＝yaw-θ

r_l表示过去50次运动中，如果有95％的运动都朝同一方向移动，则判定为机器人在转圈，此时需要给机器人一个惩罚，以避免循环转圈，表达式为：

r_l＝-100,if loop。

需要说明的是，采用深度确定性策略梯度算法网络，在输入端加入卷积层，提取图像的深层特征输入到网络中。并引入优先经验回放机制。

需要说明的是，通过输入机器人当前通过部分可观测马尔科夫决策过程得到的状态向量S＝(S_image,S_target)到深度确定性策略梯度算法网络的行动者网络中，分别得到机器人线速度a_linear和角速度a_angular的概率分布，根据概率最大值最终输出预测的最佳动作策略。评判者网络在行动者网络的基础上，在长短时记忆的输入中增加动作变量，用来根据状态输入对采取的动作进行评分即价值估计，并用估计价值与实际的价值的均方误差来更新网络参数。

需要说明的是，带卷积神经网络的深度确定性策略梯度算法网络中的行动者网络采用3个线性层与一个长短时记忆层。第一个线性层的输入特征数为130，输出特征数为512；长短时记忆层的输入特征数为512，输出特征数为256；第二个线性层的输入特征数为256，输出特征数为128；第三个线性层的输入特征数为128，输出特征数为8。输出层的输入特征数为8，输出特征数为2，代表了线速度a_linear和角速度a_angular。评判者网络采用3个线性层与一个长短时记忆层。第一个线性层的输入特征数为132，输出特征数为512；长短时记忆层的输入特征数为512，输出特征数为256；第二个线性层的输入特征数为256，输出特征数为4；第三个线性层的输入特征数为4，输出特征数为32。输出层的输入特征数为32，输出特征数为1。

需要说明的是，在深度确定性策略梯度算法网络输入端引入卷积神经网络，输入图片通过两层卷积层和最大池化层进行特征提取，再将输出结果向量展开为一维向量输入到深度确定性策略梯度算法网络中。

需要说明的是，在深度确定性策略梯度算法网络中引入长短时记忆机制，利用跳帧机制使图像数据更加稳定准确。长短时记忆当前输入为x^t，上一个状态传递值为h^t-1和c^t ^-1，当前传输状态为h^t和c^t，输出值为y^t，计算方法为：

其中，z^f为遗忘控制信号，z^f＝(W^fx^t+W^fh^t-1)，zⁱ为选择控制信号，zⁱ＝σ(Wⁱx^t+Wⁱh^t ^-1)，z^o为输出控制信号，z^o＝σ(W^ox^t+W^oh^t-1)，z为结果输出值，z＝tanh(Wx^t+Wh^t-1)。其中W、W^f、Wⁱ、W^o、W'分别为对应的权重矩阵，σ为逻辑函数。

需要指出的是，基于本发明的方法，可以提供一种多机器人协同导航与避障方法的课程式学习***，目的是帮助网络找到更好的局部最小值，并且加快训练的过程。其主要方法是：将复杂的任务解耦成多层次的较简单的任务，让网络先从基础的任务训练起，随后逐步增加任务的难度，而不是直接学习高难度的任务。即首先从简单的无障碍场景开始，训练单个机器人。训练完成后将无障碍场景下训练的网络参数用于静态障碍物的场景，随后依次增加难度到动态障碍物和复杂场景下，使网络学到更加泛化的策略，且减少训练时间。

本发明有益效果在于，对于现实中连续分布空间，深度确定性策略梯度网络可很好地进行连续动作选取，解决了行动者-评判者网络难收敛的问题。但是在多机器人情境下的导航与避障方法更加复杂。基于此，本文提出了一种基于机器视觉的深度强化学习导航与避障方法，解决了在多机器人和障碍物情况下的导航与避障难题。首先，通过部分可观测马尔科夫决策过程，建立了机器人当前的状态和动作以及奖励模型。其次，对机器人摄像头的采样数据进行图像处理，输入到卷积神经网络进行特征提取。接着，将提取的特征向量与状态向量输入到改进的长短时记忆_深度确定性策略梯度算法网络中，获取动作值的概率分布。最后根据概率分布选择对应动作，获得新的奖励值，与实际的奖励值对比获得均方损失，进行网络参数更新直到收敛。

进一步的，本发明的方法能够有效解决多机器人端到端碰撞避免问题，同时还能够提高训练效率，加快收敛速度。该方法可广泛应用于无建图非通讯情况下多机器人导航与碰撞避免的情况。

附图说明

图1是本发明中的长短时记忆网络随机采样策略的示意图；

图2是本发明中的实施流程图；

图3是本发明中的优先经验回放机制中基于比例的优先化方法的示意图；

图4是本发明中的长短时记忆网络的跳跃更新示意图；

图5是本发明中的深度确定性策略梯度算法网络中行动者网络的结构示意图；

图6是本发明中的深度确定性策略梯度算法网络中评判者网络的结构示意图；

图7是本发明中深度确定性策略梯度算法网络中卷积神经网络的结构示意图；

图8是本发明的深度确定性策略梯度算法网络及训练的实现流程图。

具体实施方式

下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

本发明为一种多机器人协同导航与避障的方法，具有多个用于***工作的机器人，所方法包括

S＝(S_image,S_target)

其中target.x和target.y分别代表目的地位置的横坐标与纵坐标，robot.x和robot.y分别代表机器人位置的横坐标与纵坐标。θ表示目的地与机器人的距离和方向角，表达式为/>

A＝(a_linear,a_angular)

r_d＝-ρ

r_y＝yaw-θ

r_l＝-100,if loop。

实施例一

本实施例包括行动者网络和评判者网络，如图5和图6。其中行动者网络结构主要包括卷积层、最大池化层、线性层、激活层、长短时记忆层，激活函数选用线性修正单元激活函数，以解决梯度消失和神经元“死亡”的问题。卷积层和池化层对输入的红绿蓝三通道图像进行处理，提取特征。评判者网络是在长短时记忆的输入中增加动作变量，其他与行动者网络一致。

卷积神经网络包含两个卷积层，卷积核尺寸分别为16×3×3和32×3×3，通道数分别为16和32，步长均为3。最大池化层选取卷积核中的最大值作为输出。

其中超参数设置为：行动者网络学习率为0.0001，评判者学习率为0.0002，折扣因子为0.9，软更新率为0.01，经验池容量为1001，批尺寸为64，最大步数为200，最大回合数为1000。

本实施例通过引入长短时记忆_深度确定性策略梯度算法网络，解决机器人动态避障和部分可观测环境下导航的收敛速度慢等难题。采用该网络可对环境具有记忆能力，改善机器人路径规划的表现，使其适用于复杂环境下的导航与避障。

实施例二

本实施例目的是实现单个机器人的深度强化学习算法网络，学习环境中的障碍与奖励信息。图8为本发明实施例提供的一种多机器人导航的长短时记忆_深度确定性策略梯度算法的深度强化学习算法的实现流程图，如图所示，该方法可以包括以下步骤：

S1：建立机器人的状态模型：利用部分可观察马尔可夫决策过程根据环境部分观察信息来推断机器人状态的分布，用一个六元组进行描述(S,A,T,R,Z,O)。

S2：建立机器人摄像头数据处理的卷积神经网络：获得机器人当前的摄像头数据，进行高斯模糊和尺度变换，通过卷积神经网络获得机器人的图像观测信息的向量。

S3：建立长短时记忆_深度确定性策略梯度算法的行动者_判者神经网络：对机器人的图像信息和状态信息进行处理，获得下一步的线速度和角速度输出值，以及采取当前动作得到的价值。

S4：对行动者_评判者神经网络的训练方法进行优化：利用基于比例的优先化方法选取经验回放时的样本，并引入重要性采样权重方法，补充权值减小偏差。

下面详细描述本实施例的计算过程。

机器人的状态由(S,A,T,R,Z,O)描述，其中S表示环境部分可观测的状态空间，A表示动作空间，T:S×A→π(S)表示状态转移函数，R:S×A→π(S)表示奖励函数，Z表示观测值集合，O:S×A→π(Z)是根据状态和所做动作给出的观测函数。

通过获取机器人的摄像头数据S_image以及目的地相对于机器人当前位置的距离和方向角信息S_target，作为机器人每一步观测到的数据，作为机器人的状态空间：

其中S_image是机器人从摄像头数据中提取出的信息，用于训练避障。S_target＝[ρ,θ]，ρ表示机器人与目的地之间的距离，计算方法为：

其中target.x和target.y分别代表目的地位置的横坐标与纵坐标，robot.x和robot.y分别代表机器人位置的横坐标与纵坐标。θ表示目的地与机器人的距离和方向角，计算方法为：

目的地位置在每次导航任务重新初始化时随机选取。

通过设置机器人的线速度和角速度，机器人的动作空间可写为：

其中a_linear是机器人的线速度，a_angular是机器人的角速度，可在取值范围内连续变化。各速度的取值范围由华夫型号机器人的设定参数确定，将速度设置在以下范围：

a_linear∈[0,0.26]m/s

a_angular∈[-1.83,1.83]rad/s

通过设置机器人在不同情况下的奖励函数，分别对应发生碰撞、到达目的地、其他情况，其中其他情况由三部分组成：目的地与机器人的距离、机器人朝向与到目的地的方位角的差距、循环转圈，对好的情况设置奖励，坏的情况设置惩罚，使机器人学会正确的行驶方式，表达式为：

其中r_c是发生碰撞时给予的惩罚，r_g是到达目的地时给予的奖励，r_d是机器人与目的地距离的负值，表达式为：

r_d＝-ρ (6)

r_y＝yaw-θ (7)

r_l＝-100,if loop (8)

通过以上推导，建立起机器人的运动状态模型。进一步地，对机器人摄像头的采样数据进行处理，建立图像处理的卷积神经网络结构。

首先对机器人摄像头采样数据进行处理，进行高斯滤波，采用5×5，方差σ＝0的高斯核，窗口内中心处为原点，坐标为[x,y]的点的高斯值为：

接着将高斯滤波后得到的图像进行尺度变换，调整为32×32大小，分离为红绿蓝共3个通道，得到尺度为3×32×32的图像信息。进一步地，输入到卷积神经网络进行特征提取。

第一步输入到第一个卷积层中，采用3×3的卷积核，步长为2，共16个过滤器，生成通道数为16的特征图，使用最大池化层，设置窗口大小为2×2。将结果输入到线性修正单元激活函数激活层进行处理。第二步将第一步的输出值输入到第二个卷积层中，采用3×3的卷积核，步长为2，共32个过滤器，生成通道数为32的特征图，使用最大池化层，设置窗口大小为2×2。将结果输入到线性修正单元激活函数激活层进行处理，得到特征数为130的输出值

将x₁输入到第一个线性层，通过激活层得到特征数为512的输出值

至此，可以推导出深度确定性策略梯度算法卷积神经网络的处理方法。

进一步地，将卷积神经网络输出的特征值x₂输入到行动者网络的长短时记忆神经网络中。第一步将x₂输入到长短时记忆网络中，得到特征数为256的输出值

第二步将x₃输入到第二个线性层，得到特征数为128的输出值/>

第三步将x₄输入到第三个线性层，得到特征数为8的输出值/>

至此，可以推导出行动者网络的长短时记忆卷积神经网络的处理方法。

进一步地，将长短时记忆神经网络输出值x₅输入到行动者网络中。通过一个输出层，输入为

得到特征数为2的输出值/>

分别代表了下一步动作所采取的的线速度与角速度。

至此，可以推导出行动者网络的处理方法。

另一方面，将卷积神经网络输出的特征值x₁输入到评判者网络的第一个线性层中。第一步将x₁与当前动作值的线速度a_linear与角速度a_angular拼接为一维张量x₁'，输入到第一个线性层，通过激活层得到特征数为512的输出值

接着将卷积神经网络输出的特征值x₂输入到评判者网络的长短时记忆神经网络中。第一步将x₂输入到长短时记忆网络中，得到特征数为256的输出值/>

第二步将x₃输入到第二个线性层，得到特征数为8的输出值/>

第三步将x₄输入到第三个线性层，得到特征数为32的输出值

进一步地，将长短时记忆神经网络输出值x₅输入到评判者网络中。通过一个输出层，输入为

得到特征数为1的输出值x₆，代表了采取当前动作而得到的价值。

至此，可以推导出长短时记忆-深度确定性策略梯度算法的行动者-评判者神经网络的处理方法。

进一步地，为了合理地选择经验池中的样本进行更新，对经验采样机制进行改进，根据样本的重要程度进行选取学习样本。样本的优先级重要程度使用时序差分误差进行计算：

TD-error＝Q_real-Q_estimate (10)

其中TD-error表示了当前价值和下一步估计价值的差距程度，即时序差分误差，Q_real是当前价值，Q_estimate是估计价值。为解决样本多样性损失问题，这里采用基于比例的优先化方法，使用求和二叉树结构，如图3所示，二叉树底部每个叶子结点存储一个样本的时序差分误差值，各叶子结点的父结点的值是其左右子结点的合，依次向上相加，最终根结点的值是所有叶子结点优先级的总合。抽样时，每个叶子结点对应的数值区间，其数值越大，区间就越长，落在该区间的概率就越大，从而优先级越大的样本取到的概率也越大。

为了避免引入偏差，改变状态分布，影响收敛结果，这里引入重要性采样权重方法，经验样本j被采样的概率定义为：

其中

rank(j)表示经验样本j的优先级，根据上述的时序差分误差TD-error来计算，即rank(j)＝TD-error。则经验样本j的权重值计算方法为：

其中S是经验池的容量大小，P(j)是经验样本j被采样的概率，参数β控制校正的使用程度。

实施例三：

本发明实施例三提供一种改进的长短时记忆网络，本实施例采用长短时记忆_深度确定性策略梯度算法的网络结构，目的是引入短期记忆，加快并改善强化学习训练过程的速度与表现，适应具有长短时记忆网络的强化学习过程。改进部分主要包括了随机更新以及跳跃更新两部分。图3是本发明中多机器人协同导航与避障方法及***的一具体实施例的长短时记忆网络的随机更新示意图，如图所示，该策略在每个随机选取的整体策略中随机选取一个时刻点，从该时刻点开始进行固定步数的学习，在每次切换整体策略的时候要将长短时记忆隐藏层的状态置零，破坏长短时记忆层的记忆信息。

图4是本发明中多机器人协同导航与避障方法及***的一具体实施例的长短时记忆网络的跳跃更新示意图，如图所示，对于一个长短时记忆经验回放序列一般只用到后半个序列的损失值进行梯度更新，因此设置每次选取的一次轨迹长度为16，16次经验都输入到网络中计算损失，然后用一个前半部分为0、后半部分为1的一维向量与损失向量相乘，最后得到的只有轨迹后半部分的损失值，此方法只对后半序列进行梯度更新，学习会更加准确。

实施例四：

本发明实施例四提供一种多机器人协同导航与避障方法及***总体算法框架训练流程，用于训练和执行如例一和例二所述的方法，如图7所示，智能体依据观察到的部分环境信息做出相应的动作决策，并将动作指令发送给机器人，机器人执行动作(即线速度与角速度)后到达新的状态，再将新的观测输入网络生成新的决策，以此循环。外循环每次都重新随机生成目的地并将机器人恢复到初始位置；在内循环最大次数范围内，每一个步长的状态、动作、奖励、新状态都会存储为一小步经验，而一个外循环内的所有小步经验合并为一次经历，存储在经验池中。当外循环达到最大学习次数后，网络开始每隔一定步数就从经验池中生成一个训练集用来更新网络参数。训练集是从批尺寸个经历中分别选取一定长度的连续步长经验，生成批尺寸大小的轨迹集合，用于长短时记忆网络的记忆性学习。

本文提出了一种多机器人协同导航与避障方法及***，解决了在仅有摄像头数据的未知环境中，机器人与其他机器人和障碍物之间均互不通信情况下的导航与避障难题。首先，建立了机器人的状态与运动模型，并分析设计了机器人在不同情况下的奖励机制。其次，根据机器人的连续运动特性，设计了改进的深度确定性策略梯度算法网络框架，引入卷积神经网络分析机器人的摄像头采样数据信息。最后，基于改进的长短时记忆方法，增强机器人对环境的记忆能力。并且在机器人操作***平台上搭建仿真平台进行训练。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

1.一种多机器人协同导航与避障的方法，具有多个用于***工作的机器人，其特征在于，所方法包括

2.根据权利要求1所述的多机器人协同导航与避障的方法，其特征在于，部分可观察马尔可夫决策过程根据环境部分观察信息来推断机器人状态的分布，用一个六元组进行描述(S,A,T,R,Z,O)，其中S表示环境部分可观测的状态空间，A表示动作空间，T:S×A→π(S)表示状态转移函数，R:S×A→π(S)表示奖励函数，Z表示观测值集合，O:S×A→π(Z)是根据状态和所做动作给出的观测函数。

3.根据权利要求1所述的多机器人协同导航与避障的方法，其特征在于，通过获取机器人的摄像头数据S_image以及目的地相对于机器人当前位置的距离和方向角信息S_target，作为机器人每一步观测到的数据，作为机器人的状态空间：

S＝(S_image,S_target)

其中，S_image是机器人从摄像头数据中提取出的信息，用于训练避障；S_target＝(ρ,θ)，ρ表示机器人与目的地之间的距离，表达式为

其中target.x和target.y分别代表目的地位置的横坐标与纵坐标，robot.x和robot.y分别代表机器人位置的横坐标与纵坐标；θ表示目的地与机器人的距离和方向角，表达式为

用于训练导航；目的地位置在每次导航任务重新初始化时随机选取。

4.根据权利要求1所述的多机器人协同导航与避障的方法，其特征在于，通过设置机器人的线速度和角速度，初始化机器人的动作空间：

A＝(a_linear,a_angular)

5.根据权利要求1所述的多机器人协同导航与避障的方法，其特征在于，通过设置机器人在不同情况下的奖励函数，分别对应发生碰撞、到达目的地、其他情况，其中其他情况由三部分组成：目的地与机器人的距离、机器人朝向与到目的地的方位角的差距、循环转圈，对好的情况设置奖励，坏的情况设置惩罚，使机器人学会正确的行驶方式，表达式为：

/>

r_d＝-ρ

r_y＝yaw-θ

r_l＝-100,if loop。

6.根据权利要求1所述的多机器人协同导航与避障的方法，其特征在于，通过输入机器人当前通过部分可观测马尔科夫决策过程得到的状态向量S＝(S_image,S_target)到深度确定性策略梯度算法网络的行动者网络中，分别得到机器人线速度a_linear和角速度a_angular的概率分布，根据概率最大值最终输出预测的最佳动作策略；评判者网络在行动者网络的基础上，在长短时记忆的输入中增加动作变量，用来根据状态输入对采取的动作进行评分即价值估计，并用估计价值与实际的价值的均方误差来更新网络参数。

7.根据权利要求1所述的多机器人协同导航与避障的方法，其特征在于，带卷积神经网络的深度确定性策略梯度算法网络中的行动者网络采用3个线性层与一个长短时记忆层；第一个线性层的输入特征数为130，输出特征数为512；长短时记忆层的输入特征数为512，输出特征数为256；第二个线性层的输入特征数为256，输出特征数为128；第三个线性层的输入特征数为128，输出特征数为8；输出层的输入特征数为8，输出特征数为2，代表了线速度a_linear和角速度a_angular；评判者网络采用3个线性层与一个长短时记忆层；第一个线性层的输入特征数为132，输出特征数为512；长短时记忆层的输入特征数为512，输出特征数为256；第二个线性层的输入特征数为256，输出特征数为4；第三个线性层的输入特征数为4，输出特征数为32；输出层的输入特征数为32，输出特征数为1。

8.根据权利要求1所述的多机器人协同导航与避障的方法，其特征在于，在深度确定性策略梯度算法网络输入端引入卷积神经网络，输入图片通过两层卷积层和最大池化层进行特征提取，再将输出结果向量展开为一维向量输入到深度确定性策略梯度算法网络中。

9.根据权利要求1所述的多机器人协同导航与避障的方法，其特征在于，在深度确定性策略梯度算法网络中引入长短时记忆机制，利用跳帧机制使图像数据更加稳定准确；长短时记忆当前输入为x^t，上一个状态传递值为h^t-1和c^t-1，当前传输状态为h^t和c^t，输出值为y^t，计算方法为：

其中，z^f为遗忘控制信号，z^f＝(W^fx^t+W^fh^t-1)，zⁱ为选择控制信号，zⁱ＝σ(Wⁱx^t+Wⁱh^t-1)，z^o为输出控制信号，z^o＝σ(W^ox^t+W^oh^t-1)，z为结果输出值；z＝tanh(Wx^t+Wh^t-1)，其中W、W^f、Wⁱ、W^o、W'分别为对应的权重矩阵，σ为逻辑函数。