CN117474295B

CN117474295B - 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法

Info

Publication number: CN117474295B
Application number: CN202311805708.XA
Authority: CN
Inventors: 张秀梅; 李文松; 李慧; 刘芳; 刘方达
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-04-26
Anticipated expiration: 2043-12-26
Also published as: CN117474295A

Abstract

本发明提出一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，涉及智能车间的仓储物流自动配送领域。在车间收集生产作业数据，以数据为基础建立马尔科夫决策模型。设定训练数据样本，用Dueling DQN算法优化数据的神经网络结构，输出层动作价值函数Q为价值函数和优势函数的线性加和，将价值函数和优势函数分开建模，使智能体更好的处理与动作关联较小的状态。构建奖惩函数与路网负载的联系，将路径长度和路网负载融入奖惩函数。构建关注状态价值和动作优势值差异的任务调度匹配执行机制，可以应用于仓储车间的AGV任务调度领域。与现有技术相比，本发明可高效优化路网负载，准确匹配不同状态和动作调度策略，极大提高了生产效率。

Description

一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法

技术领域

本发明领域属于智能车间的仓储物流自动配送领域，更具体地，涉及一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法。

背景技术

在智能制造的大背景下，智能仓储车间作业调度已成为提高资源利用率、从而提高企业运行效益的关键环节之一。如何避免多个AGV在车间路网内发生冲突，提高智能车间的调度效率，使路网资源合理化运用，是研究负载均衡和任务调度问题的关键所在。

当前，从应用场景来看，AGV调度问题的研究可分为路径规划问题和任务分配问题，单AGV路径规划问题只需考虑一台AGV如何绕过障碍物寻找最优路径，对于此问题的研究比较成熟，通常采用图论算法，也有很多启发式算法对此问题的应用。但是，在实际情况下是多个AGV同时进行任务的，AGV之间会产生相互干扰和碰撞问题，物流工厂的大规模AGV集群，会产生整体路网负载的拥堵问题。对于负载均衡问题，大多数启发式算法并不具备相当的稳定性，其性能的好坏直接取决于问题的简单程度和专家经验。

AGV在调度时，存在多种调度规则，有基于到达顺序选择任务、基于行程最短选择任务和基于等待时间最长选择任务，设计者根据不同的需求选择不同的调度规则。常用的算法有A*算法、遗传算法和模拟退火算法，由于常用算法的不稳定性，可对每台AGV分别进行单一的小规模AGV调度。为了实现大规模AGV的调度，有些人使用深度强化学习进行智能车间任务调度，将多个AGV置于路网中和环境进行实时交互，智能体根据当前的任务状态随机选取一个动作，然后对此动作进行打分，可根据用户需求不同设计不同的奖励规则，依次进行迭代更新，直至任务完成。

使用深度学习DQN算法可在大规模AGV调度问题上获得较优解，但是单纯的使用此算法会导致过度估计，使得调度结果误差大，导致训练出的模型效果很差。为了提升模型的训练效果，Nature DQN通过使用两个相同的神经网络以解决数据样本和网络训练之前的相关性，用了一个新的相同结构的目标Q网络来计算目标Q值，但是目标Q值的准确性问题并没有保障。Double DQN算法通过解耦目标Q值动作的选择和目标Q值的计算，可以消除过度估计的问题，但是此算法需要大量的经验来训练，而这些经验在开始时很难得到，因此算法的初始性能较差。

发明内容

为了解决上述问题，本发明实施例提供一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，改进奖惩回报函数，将路径长度和负载系数与奖惩函数相结合，优化路网高负载区域，提高整体运行流畅度。优化输出端的神经网络结构，构建不同情况下关注状态价值和动作优势值差异的任务调度匹配执行机制，由关注状态的价值函数和关注状态—动作的优势函数线性相加输出动作价值函数Q，最后基于设计的调度花费时间T选择动作，与经验池中的数据一同构建进行任务调度。

本发明解决技术问题所采取的技术方案为：一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，包括：

步骤S1：采集智能仓储车间作业数据，并进行预处理，构建马尔科夫决策模型，随机初始化所有的状态和动作对应的价值Q，初始化所有网络参数，清空经验回放的集合D，完成数据状态建模；随机抽取状态建模后的数据，初始化状态S为当前状态序列的第一个状态，获取其特征向量；

步骤S2：在Q网络中使用作为输入，在神经网络的输出层前加两个子网络结构，输出的动作价值函数Q由基于状态的价值函数V和基于状态动作的优势函数AF线性加和得到；

步骤S3：使用ε-贪婪法在当前Q值输出中选择对应的动作A，得到基于动作A进行调度花费的时间T，并将时间T存放于集合中，分别评估时间T相同与不相同时的最优动作；

步骤S4：设计奖惩函数，将路径长度和路网负载与奖惩函数相结合，使路网负载达到均衡，在状态S执行当前动作A，得到新状态S'对应的特征向量、奖励R和是否终止状态end，将{ ，A，R，，end }五元组存入经验回放集合D；

步骤S5：从经验回放集合D中采样m个样本计算当前的目标Q值y_j，使用均方差损失函数，通过神经网络的梯度反向传播来更新Q网络的所有参数w；

步骤S6：如果S'是终止状态，则重复步骤S2~S5，直至任务完成。

本发明的有益效果是：

1、本发明采取一种深度强化学习方法中的Dueling DQN算法，将状态价值函数和优势函数分开建模，AGV在实际情况下调度时，可以更好的处理与动作关联较小的状态。在AGV周围无其他车辆时只关注状态，有其他车辆时开始关注不同动作优势值的差异，最后由关注状态的价值函数和关注状态—动作的优势函数线性相加输出动作价值函数Q。

2、本发明针对AGV调度中的路网负载拥堵问题，设计一种动态的奖惩函数，将负载因素考虑在深度强化学习迭代过程的奖惩函数中，提出路径长度和路网负载量结合作为奖惩函数，根据路网拥堵的实时变化调整奖励值，最终使路网负载均衡，规避了大量AGV因路网拥挤造成的速度过慢和路径冲突问题。

附图说明

图1是路网负载均衡与任务调度流程图；

图2是Dueling DQN算法模型图；

图3是AGV调度策略流程图；

图4是路网负载均衡流程图；

图5是基于Dueling DQN算法的任务调度结构图。

具体实施方式

为了更好的说明本实施例。附图某些地方会有省略、放大或缩小，并不代表实际的尺寸；

对于本领域技术人员来说，附图中某些公知内容的说明可能会有一定程度的省略，这是可以理解的；

本发明提出一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，涉及智能仓储车间作业调度。在智能仓储车间收集车辆轨迹和作业数据作为历史大数据，以收集的数据为基础建立马尔科夫决策模型。设定训练数据样本，用Dueling DQN算法优化数据的神经网络结构，输出层的动作价值函数Q为价值函数和优势函数的线性加和，将价值函数和优势函数分开建模，以便智能体更好的处理与动作关联较小的状态。构建奖惩函数与路网负载的联系，将路径长度和路网负载融入奖惩函数，可更好的解决路网拥堵问题。构建不同情况下关注状态价值和动作优势值差异的任务调度匹配执行机制，根据不同状态和动作进行调度匹配，可及时生成调度规则对下一步作业进行指导，迅速的实现任务调度。本算法可高效的优化路网负载，准确的匹配不同状态和动作的调度策略，极大地节约了时间成本的同时提高了生产的效率。

下面结合附图和实例对本发明做进一步详细说明。

如图1所示：路网负载均衡与任务调度流程图，本发明实施例提供的一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，包括下述步骤：

步骤S4：设计奖惩函数，将路径长度和路网负载与奖惩函数相结合，使路网负载达到均衡，在状态S执行当前动作A，得到新状态S'对应的特征向量、奖励R和是否终止状态end，将{，A，R，，end }五元组存入经验回放集合D；

在一个实施例中，上述步骤S1中包括：采集智能仓储车间作业数据，并进行预处理，构建马尔科夫决策模型，随机初始化所有的状态和动作对应的价值Q，初始化所有网络参数，清空经验回放的集合D，完成数据状态建模；随机抽取状态建模后的数据，初始化状态 S为当前状态序列的第一个状态，获取其特征向量；

步骤S11：对采集的AGV数据进行预处理并归类处理，基于建立的马尔科夫决策模型定义策略π并制定价值函数；

在智能仓储车间内采集AGV生产作业数据，并根据不同的任务要求对数据进行归类处理。对采集到的数据进行预处理，分别通过数据清洗、数据集成、数据规约和数据变换对不同类别的数据进行处理。

建立马尔科夫决策模型，马尔科夫决策过程的定义为<S, A, P, R, γ>，其中，状态S表示所有状态s的集合，动作A表示决策过程中所有与动作a有关的集合，P表示在状态S时选择动作A的条件概率，R表示累积回报，而最终的目标就是要实现奖励最大化，γ表示折扣因子。采用传输概率矩阵和奖励函数来定义，具体如下式所示：

在定义完传输概率矩阵和奖励函数后，在马尔科夫决策模型中，智能体是能根据所处状态选择行动的，最终的选择一定是让环境越来越好。策略是智能体对于环境所表达的行为，对于策略π的定义如下式所示：

策略π只与当前的状态有关，与历史无关，和时间也无关。在定义完马尔科夫模型的策略后，基于策略制定价值函数，分别为状态价值函数和动作价值函数，如下式所示：

v_π(s)表示在状态s时收益的期望，代表的是状态带来的价值；q_π(s, a)表示在状态s时，采取动作a后收益的期望，代表的是动作带来的价值；G_t表示智能体在与环境交互时，所产生的累计回报之和。

步骤S12：完成数据的状态建模并利用价值迭代求解贝尔曼方程；

对采集的生产作业数据进行分类，并按照车间作业生产的逻辑进行链接集成，对划分的不同对象分别制造节点状态。对象划分为五类，分别是：AGV正常运行状态、AGV拥堵停滞状态、单一循环结束效率值状态、同一物料再返工状态和路网拥堵级别状态。对于以上五类对象，分别基于AGV作状态划分。目标对象状态<目标对象1状态，目标对象2状态，目标对象3状态，，目标对象i状态>基于以上定义，利用贝尔曼方程转换基于策略的价值函数，通过价值迭代求解贝尔曼方程，并求出最优解。

所有的目标对象的不同状态都可以链接而成，最后组成整个车间的智能制造调度***。将每个状态的多维数据映射到经验存储单元中，根据时间序列的关系，抽取生产过程中某一时间序列AGV运行的所有数据状态，把所有的状态节点一一映射并进行编号，获取整个调度***AGV的运行状态。利用建立的马尔科夫决策模型，将路网中各个维度的状态数据信息都链接为一个整体，最后得到完整的马尔科夫状态下的AGV数据。在实际环境中，给多个AGV设置平均速度和静止速度，静止速度设为v=0m/s，平均速度设为v=1m/s。还为每个AGV安装红外传感器，以便每个AGV可以感知障碍和其他的AGV，实现更好的避障，减少负载调度时间。

在一个实施例中，上述步骤S2中包括：随机初始化所有的状态和和动作对应的价值Q，初始化所有网络的参数，清空经验回放的集合D。随机抽取状态建模后的数据，初始化状态S为当前状态序列的第一个状态，获取其特征向量；

步骤S13：随机初始化Q网络所有参数w，基于w初始化所有状态和动作对应的价值Q，清空经验回放的集合D；

准备好预训练数据集，数据集包括状态、动作、奖励和下一个状态等信息。定义一个与Q网络结构相同的神经网络，作为预训练网络，预训练网络不需要输出Q值，只需要输出特征向量（或者称为状态表示），在这里使用一个较小的输出层。在预训练网络中，将输入状态向量映射到一个低维的特征向量。具体方法使用卷积神经网络进行特征提取。将得到的特征向量作为输入，训练一个逻辑回归分类器来预测下一个状态。将预训练网络的参数作为Q网络的初始化参数w，进行强化学习训练。通过预训练方法初始化Q网络参数w，让Q网络从一个更好的起点开始训练，加快网络收敛速度，最终得到更加准确的Q值估计。

初始化神经网络的权重w，对于每个状态S和动作A，将它们的组合作为输入，经过神经网络得到对应的Q值。清空经验回放集合D是指将其初始化为空集。经验回放集合D用于存储智能体在环境中与之前的交互中收集到的数据。

步骤S14：初始化状态S为当前状态序列的第一个状态，获取其特征向量；

根据AGV与环境交互产生的状态为连续状态空间，使用神经网络来提取状态的特征向量。由于连续状态空间中状态数量太多，很难设计手动的特征，因此使用神经网络自动地学习状态的特征表示。具体地，可以使用卷积神经网络对状态进行处理，得到一个高维的特征向量作为状态的表示。同时，为了应对超出训练数据分布的情况，采用了数据增强的策略，通过对原始状态做一些变换，来扩大有效的数据集。

如图2所示：Dueling DQN算法模型图，在一个实施例中，上述步骤S2中包括：在Q网络中使用作为输入，在神经网络的输出层前加两个子网络结构，输出的动作价值函数Q 由基于状态的价值函数V和基于状态动作的优势函数AF线性加和得到；

步骤S21：建立卷积神经网络模型，由输入层将输入对数据进行深度学习训练；

导入获取的路网数据，随后开始定义模型。模型设定两个卷积层和池化层，三个Dropout层、一个平坦化层，两个全连接层。在卷积层中激活函数使用ReLU激活函数，第一和第二个Dropout层比例为0.25，第三个Dropout层比例为0.5，第一个全连接层激活函数使用ReLU函数，第二个全连接层激活函数使用softmax函数。Kernel_size表示卷积核大小，padding表示补零为相同尺寸，strides表示填充步幅。在编译模型中，损失函数为loss，评估标准为准确度，在训练模型中，验证集为训练集的20%，训练周期为30次，批次尺寸为128。卷积神经网络的公式如下式所示：

其中，Y表示输出值，f表示激活函数，w表示权重矩阵，x表示输入值，b表示偏移量。

步骤S22：分别建立子网络结构模型：价值函数V与优势函数AF；

Dueling DQN算法考虑将Q网络分成两部分，第一部分是仅仅与状态S有关，与具体要采用的动作A无关，这部分叫做价值函数部分，记做V(S; w, α)，第二部分同时与状态S和动作A有关，这部分叫做优势函数部分，记作AF(S, A; w, β)。最终价值函数重新表示如下式所示：

其中，w是公共部分的网络参数，α是价值函数独有部分的网络参数，β是优势函数独有部分的网络参数；Dueling DQN算法将卷积层提取的抽象特征先分流到两个支路中。一路代表状态值函数V，表示静态的状态环境本身具有的价值；另一路代表依赖状态的动作优势函数AF，表示选择某个动作额外带来的价值；最后两路聚合在一起得到每个动作的Q值，使AGV更好的适应于不同的环境。

步骤S23：训练数据经全连接层输出后，在输出层前加入两个子网络结构：价值函数V与优势函数AF，将价值函数V与优势函数AF进行线性加和输出；

经过卷积，池化操作后，将得到的特征图依次按行展开，连接成向量，输入全连接网络，并分别求解训练集和测试集的损失函数来评估模型，使用梯度下降和反向传播法进行训练。

在进行输出的过程中，可以通过上式来得到价值函数，但是这个式子无法辨识最终输出里面V(S; w, α)和AF(S, A; w, β)，为了体现这种可辨识性，对优势函数部分做中心化处理，实际使用的组合公式如下式所示：

如图3所示：AGV调度策略流程图，在一个实施例中，上述步骤S3中包括：使用ε-贪婪法在当前Q值输出中选择对应的动作A，得到基于动作A进行调度花费的时间T，并将时间T存放于集合中，分别评估时间T相同与不相同时的最优动作；

步骤S31：用ε-贪婪法在当前Q值输出中选择对应的动作A；

为了更好的使智能体在路网中进行探索，使用ε-贪婪法进行动作A的选择。在实际的实施中，有1-ε的概率会按照Q函数来决定动作，通常ε会设置一个很小的值，且随着时间递减，即探索越来越小。

设置探索ε为0.1，也就是90%的概率会按照Q函数来决定动作，但是有10%的机率是随机的。在实现上ε会随着时间递减，在最开始的时候，因为不确定哪个动作比较好，所以会花费较大的力气做探索。接下来随着训练的次数越来越多，会得到最优的Q值。此时会减少探索，把ε的值调小，根据Q函数来决定动作，使得智能体在路网中可得到明确指示。

步骤S32：基于步骤S31，得到动作A进行调度花费的时间T，并将时间T存放于集合中；

当新任务到达或AGV完成工作时，将触发调度。然后，***状态模块对复杂的实时信息进行处理后，提取关键状态信息，主要分为任务信息和AGV状态信息。该状态信息被发送到工作模块，该模块构成该***的计算核心。Q网络模块通过使用Dueling DQN算法对输入状态进行连续的训练和学习，将结果输出到组合动作模块。最后，将所选择的规则和AGV反馈到调度***，作为指导AGV实时调度的命令。

设置多种调度规则使AGV完成一个周期任务时间最短。分别设置为按到达顺序选择任务、按照行程距离最短选择任务、选择截止日期最早的任务、选择等待时间最长的任务和选择AGV距离负载点最近的任务。给予上述规则分别设置不同的权重系数，根据上述规则最终获得调度花费的时间T，并将所有有效数据存放于集合中。

步骤S33：基于步骤S32，对集合中AGV调度花费的时间T进行判别，当时间T不相同时，选取时间T最少时对应的调度策略动作A为最优动作；

基于步骤S32，对集合中的时间T进行判别，分为两种情况，当集合中的时间T都不相等时，将时间T最小时对应的调度策略确定为最优调度策略动作，将此作为下一步AGV执行的调度动作。只有一个最小的时间T，则说明该时间T对应的动作A作用时最小，最适合作为下一步执行的动作，无需用到Q值，可以直接执行，最后刷新集合单元。

步骤S34：基于步骤S32，对集合中AGV调度花费的时间T进行判别，当时间T相同时，选取动作评估值Q最大的时间T为最优动作；

当存在多个相等的最小时间T时，选取动作评估值Q最大的调度策略A对应的动作作为最优调度策略动作。

如图4所示：路网负载均衡流程图，在一个实施例中，上述步骤S4中包括：设计奖惩函数，将路径长度和路网负载与奖惩函数相结合，使路网负载达到均衡，在状态S执行当前动作A，得到新状态S'对应的特征向量、奖励R和是否终止状态end，将{，A，R，，end }五元组存入经验回放集合D；

步骤S41：设计奖惩机制函数，将路径长度和路网负载与奖惩函数相结合，将负载因素考虑在深度强化学习迭代过程的奖惩函数中，设置奖惩函数如下式所示：

上式r_t中，δ∈(0, 1)为路径长度系数，d_t(x)为AGV所走路径的总和，d_t(x)= d₁+d₂+···+d_t，t∈(1, n)。η∈(0, 1)为负载系数，Load(x)为路网中当前节点所经过车辆数。当δ等于0时，函数只考虑负载系数作为惩罚值。当η等于0时，函数只考虑路径长度作为惩罚值。当两者都为0时，函数不考虑负载均衡情况。把路径长度和负载设置在奖惩函数中，可以使AGV在路网中运行时，根据子区域的负载量大小或行驶长度的长短来选择最优路径，避开局部高负载区域，最终达到优化整体路网的效果。

奖励R是AGV和环境交互产生动作A后，环境状态由状态S变成新状态S'后产生的奖励。通常AGV执行完一个序列动作后所获得的累计奖励来评判这个策略的优劣，累积得到的奖励越大，则认为策略越优，状态累积奖励值之和公式如下式所示：

上式中r_t+1为AGV在t+1时刻选择并做出动作后环境反馈的奖励。γ∈(0, 1)为折扣因子，当γ的值等于0时，则AGV只考虑下一步的回报。当γ值趋近于1时，未来的奖励就会被越多的考虑在内。有时候更关心当下的奖励，有时则会更关心未来的奖励，调整γ值为0.9。

在改进奖惩函数后，将AGV运行次数设置100u (u∈N⁺)次任务量。对路网中运行的每个AGV的路径长度进行记录，并提取路网地图中每个点的路网负载量。AGV负载均衡的实质是在Dueling DQN算法的基础上，将负载因素考虑到实际路径代价中。即运行路程和路网负载相结合，奖惩函数的设置会直接影响AGV在路网中的运行效率。

步骤S42：设计奖惩函数后，使用Dueling DQN深度强化学习算法让多个AGV与路网环境进行交互，优化路网中的高负载区域，提高智能AGV整体通行效率；

在完成奖惩函数设计后，将AGV运行次数设置100t (t∈N⁺)次任务量。对路网中运行的每个AGV的路径长度进行记录，并在调度***中提取地图中每个点的路网负载量。AGV负载均衡的实质是将负载因素考虑到实际路径代价中。即运行路程和路网负载相结合，奖惩函数的设置会直接影响AGV在路网中的运行效率。

在路网中进行AGV负载均衡实验时，保持100t个AGV任务的起点和终点不变。对比负载均衡前和均衡后的路网负载情况，分别测算出均衡前后车辆调度的最短运行时间。在实验中多次测试δ和η值，求得最优值，当两者都为0时，即为负载均衡前的情况。首先让其中一台AGV在路网中运行，然后将本次运行的负载数据进行更新。后面的AGV使用相同方法，直至所有AGV更新完路网负载的情况。

步骤S43：在状态S执行当前动作A，得到新状态S'对应的特征向量、奖励R和是否终止状态end，并将{, A, R, , end}五元组存入经验回放集合D；

随机选择一个初始状态S，在当前状态S的所有行动中选取一个动作A，得到下一个状态S'，智能AGV每执行一步动作，***会对这个动作进行打分，AGV会获得一个奖励值，最后达成目标任务后，将每一步获得的奖励相加，即是最后获得的目标奖励。基于状态S'，模型会在Q网络中构建训练模块并作为生产数据输入下一步，模型会实时自适应调度，会有多个生产作业的调度策略动作A'选择，这里的调度策略动作A'是基于实时状态下所选择的最优动作，可以使AGV在调度过程中走出最优路线。

结合设计的奖惩函数，状态价值函数和优势函数分别建模完成，为了避免某些情境下AGV只会关注状态的价值，而并不关心不同动作导致的差异，此时将二者分开建模能够使智能体更好地处理与动作关联较小的状态。当运行中的AGV前面没有车辆时，车辆自身动作并没有太大差异，此时AGV更关注状态价值，而当AGV前面有车时（智能体需要超车），智能体开始关注不同动作优势值的差异。此时，在当前状态S执行动作A，并依次得到新状态S'对应的特征向量、奖励R和是否终止状态end，最终将这些数值存放于集合D中。

在本步骤中，每个AGV通过智能体产生一系列动作和环境进行交互，在当前状态采取行动后，得到下一时刻的状态和奖励，然后保存在此步的记忆库D中，当积累一定的步数记忆后，从记忆库D中随机抽取一定数量的记忆作为样本并进行学***均值里面，ε一般随着时间的进行而逐渐减小。

如图5所示：基于Dueling DQN算法的任务调度结构图，在一个实施例中，上述步骤S5中包括：从经验回放集合D中采样m个样本计算当前的目标Q值y_j，使用均方差损失函数，通过神经网络的梯度反向传播来更新Q网络的所有参数w；

步骤S51：在经验回放集合D中采样m个样本计算当前的目标Q值y_j；

计算Q（S, A, w, α, β），判断得到的Q矩阵是否收敛，不收敛则继续返回重新计算，收敛则进行下一步，完成目标Q值的学习。其中，s1、s2、s3、s4分别代表智能AGV每一次的状态，a1、a2、a3、a4分别代表每个状态产生的相应动作。最后判断获得的Q值是否为最优动作下的选择，完成目标Q值的计算。

一般在用卷积神经网络估计Q值时，会存在对Q值过高估计的情况，依据式，对状态价值函数进行变形下式所示：

对Q值过高估计的定量分析Q_w-(s, a)-V^*服从[-1, 1]之间的均匀独立同分布，设动作空间大小为h，那么对于任意状态s，有：

将估算误差记为σ=Q_w-(s, a)-max_a'Q^*(s, a')，由于估算误差对于不同的动作是独立的，因此有：

P（σ_a ≤ x）是σ_a的累积分布函数，它可以具体被写为：

因此，得到关于max_aσ_a的累积分布函数如下式所示：

最后变形可以得到：

在实际的路网环境中，基于Dueling DQN算法的AGV调度在计算当前目标Q值时，Q值会随着动作空间大小h的增加而增加，在动作选择数更多的环境中，Q值会存在过高估计的问题，基于此，重点对动作空间的选择进行了计算，以确保模型在估计Q值时可以寻找出使AGV调度时间最短的Q值。

步骤S52：使用均方差损失函数，通过神经网络的梯度反向传播来更新Q网络的所有参数w；

根据设计的状态函数和优势函数，按照下式进行训练更新：

其中

在进行梯度计算的过程中，为了不使神经网络优势函数为零，用评估的优势函数和控制的优势函数各得到一个为零的式子：

此时，针对策略评估的情形，Q值的表达式如步骤S33的公式所示，而针对最优控制情形，改进如下式所示：

改进完成后可以倒逼V(S; w, β)精确的学出最优动作，从而保证优势函数AF(S,A'; w, α)更为精确。

在一个实施例中，上述步骤S6中，如果S'是终止状态，则重复步骤S2~S5，直至任务完成，包括：

在执行完步骤S6时，状态S'是终止状态或者损失函数过大无法使模型收敛，则继续重复步骤S2~S5；若不为终止状态，则算完运行完成，最后通过不同的需求分别对比不同要求下的最短调度时间来获得最优策略。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，其特征在于，包括：

步骤S1：采集智能仓储车间作业数据，并进行预处理，构建马尔科夫决策模型，随机初始化所有的状态和动作对应的价值Q，初始化所有网络参数，清空经验回放的集合D，完成数据状态建模；随机抽取状态建模后的数据，初始化状态S为当前状态序列的第一个状态，获取其特征向量φ(s)；

步骤S2：在Q网络中使用φ(s)作为输入，在神经网络的输出层前加两个子网络结构，输出的动作价值函数Q由基于状态的价值函数V和基于状态动作的优势函数AF线性加和得到；

步骤S3：使用ε-贪婪法在当前Q值输出中选择对应的动作A，得到基于动作A进行调度花费的时间T，并将时间T存放于集合中，分别评估时间T相同与不相同时的最优动作；所述步骤S3包括：

步骤S31：用ε-贪婪法在当前Q值输出中选择对应的动作A；

当新任务到达或AGV完成工作时，将触发调度；然后，***状态模块对复杂的实时信息进行处理后，提取关键状态信息，分为任务信息和AGV状态信息；该状态信息被发送到工作模块，该工作模块构成***的计算核心；Q网络模块通过使用Dueling DQN算法对输入状态进行连续的训练和学习，将结果输出到组合动作模块；最后，将所选择的规则和AGV反馈到调度***，作为指导AGV实时调度的命令；

步骤S4：设计奖惩函数，将路径长度和路网负载与奖惩函数相结合，使路网负载达到均衡，在状态S执行当前动作A，得到新状态S'对应的特征向量φ(s′)、奖励R和是否终止状态end，将{φ(s)，A，R，φ(s′)，end}五元组存入经验回放集合D；所述步骤S4包括：

步骤S41：设计奖惩机制函数，将路径长度和路网负载与奖惩函数相结合，将负载因素考虑在深度强化学习迭代过程的奖惩函数中，设置函数如下式所示：

上式r_t中，δ∈(0,1)为路径长度系数，d_t(x)为AGV所走路径的总和，d_t(x)＝d₁+d₂+···+d_t，t∈(1,n)，η∈(0,1)为负载系数，Load(x)为路网中当前节点所经过车辆数；

步骤S43：在状态S执行当前动作A，得到新状态S'对应的特征向量φ(s′)、奖励R和是否终止状态end，并将{φ(s)，A，R，φ(s′)，end}五元组存入经验回放集合D；

随机选择一个初始状态S，在当前状态S的所有可能行动中选取一个动作A，得到下一个状态S'，智能AGV每执行一步动作，***会对这个动作进行打分，AGV会获得一个奖励值，最后达成目标任务后，将每一步获得的奖励相加，即是最后获得的目标奖励；基于状态S'，模型会在Q网络中构建训练模块并作为生产数据输入下一步，模型会实时自适应调度，会有多个生产作业的调度策略动作A'选择，这里的调度策略动作A'是基于实时状态下所选择的最优动作，使AGV在调度过程中走出最优路线；

步骤S5：从经验回放集合D中采样m个样本计算当前的目标Q值y_j，使用均方差损失函数，通过神经网络的梯度反向传播来更新Q网络的所有参数w；所述步骤S5包括：

对状态价值函数进行变形如下式所示：

对Q值过高估计的定量分析Q_w-(s,a)-V^*服从[-1,1]之间的均匀独立同分布，设动作空间大小为h，那么对于任意状态s，有：

将估算误差记为σ＝Q_w-(s,a)-max_a'Q^*(s,a')，由于估算误差对于不同的动作是独立的，因此有：

P(σ_a≤x)是σ_a的累积分布函数，它具体被写为：

因此，得到关于max_aσ_a的累积分布函数如下式所示：

最后变形得到：

在实际的路网环境中，基于Dueling DQN算法的AGV调度在计算当前目标Q值时，Q值会随着动作空间大小h的增加而增加，在动作选择数更多的环境中，Q值会存在过高估计的问题；基于此，对动作空间的选择进行了计算，以确保模型在估计Q值时寻找出使AGV调度时间最短的Q值；

步骤S52：使用均方差损失函数，通过神经网络的梯度反向传播来更新Q网络的所有网络参数w；

根据设计的状态函数和优势函数，按照下式进行训练更新：

其中

y_i＝r+γmax_a′Q(s′,a′；w^-)

Q(S,A；w,α,β)＝V(S；w,α)+(AF(S,A；w,β)-max_a′∈ΛAF(S,a′；w,β))

改进完成后倒逼V(S；w,α)精确的学出最优动作，从而保证优势函数AF(S,a′；w,β)更为精确；

步骤S6：状态S'是终止状态或者损失函数过大无法使模型收敛，则继续重复步骤S2～S5；若不为终止状态，则运算完成，最后通过不同的需求分别对比不同要求下的最短调度时间来获得最优策略。

2.根据权利要求1所述的一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，其特征在于，所述步骤S1包括：

建立马尔科夫决策模型，马尔科夫决策过程的定义为<S,A,P,R,γ>，状态S表示所有状态s的集合，动作A表示决策过程中所有与动作a有关的集合，P表示在状态S时选择动作A的条件概率，R表示累积回报；最终的目标就是要实现奖励最大化；采用传输概率矩阵和奖励函数来定义，具体如下式所示：

在定义完传输概率矩阵和奖励函数后，对于策略π的定义如下式所示：

π(a|s)＝P(A_t＝a|S_t＝s)

状态价值函数和动作价值函数，如下式所示：

v_π(s)表示在状态s时收益的期望，代表的是状态带来的价值；q_π(s,a)表示在状态s时，采取动作a后收益的期望，代表的是动作带来的价值；G_t表示智能体在与环境交互时，所产生的累计回报之和；

对采集的生产作业数据进行分类，目标对象状态<目标对象1状态，目标对象2状态，目标对象3状态，……，目标对象i状态>，利用贝尔曼方程转换基于策略的价值函数，通过价值迭代求解方程，并求出最优解；

步骤S13：随机初始化Q网络所有网络参数w，基于w初始化所有状态和动作对应的价值Q，清空经验回放的集合D；

步骤S14：初始化状态S为当前状态序列的第一个状态，获取其特征向量φ(s)。

3.根据权利要求1所述的一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，其特征在于，所述步骤S2包括：

步骤S21：建立卷积神经网络模型，由输入层将φ(s)输入对数据进行深度学习训练；

导入获取的路网数据，随后开始定义模型；模型设定两个卷积层和池化层，三个Dropout层、一个平坦化层，两个全连接层；在卷积层中激活函数使用ReLU激活函数，第一和第二个Dropout层比例为0.25，第三个Dropout层比例为0.5，第一个全连接层激活函数使用ReLU函数，第二个全连接层激活函数使用softmax函数；Kernel_size表示卷积核大小，padding表示补零为相同尺寸，strides表示填充步幅；在编译模型中，损失函数为loss，评估标准为准确度，在训练模型中，验证集为训练集的20％，训练周期为30次，批次尺寸为128；卷积神经网络的公式如下式所示：其中，Y表示输出值，f表示激活函数，w表示网络参数，x表示输入值，b表示偏移量；

Y＝f(w*x+b)

Dueling DQN算法考虑将Q网络分成两部分，第一部分是仅仅与状态S有关，与具体要采用的动作A无关，这部分叫做价值函数部分，记做V(S；w,α)，第二部分同时与状态S和动作A有关，这部分叫做优势函数部分，记作AF(S,A；w,β)，最终价值函数重新表示如下式所示：

Q(S,A；w,α,β)＝V(S；w,α)+AF(S,A；w,β)

其中，w是Q网络的网络参数，α是价值函数独有部分的网络参数，β是优势函数独有部分的网络参数；Dueling DQN算法将卷积层提取的抽象特征先分流到两个支路中；一路代表状态值函数V，表示静态的状态环境本身具有的价值；另一路代表依赖状态的动作优势函数AF，表示选择某个动作额外带来的价值；最后两路聚合在一起得到每个动作的Q值，使AGV更好的适应于不同的环境；

经过卷积，池化操作后，将得到的特征图依次按行展开，连接成向量，输入全连接网络，并分别求解训练集和测试集的损失函数来评估模型，使用梯度下降和反向传播法进行训练；

在进行输出的过程中，得到价值函数，但是这个式子无法辨识最终输出里面V(S；w,α)和AF(S,A；w,β)，为了体现这种可辨识性，对优势函数部分做中心化处理，实际使用的组合公式如下式所示：