CN114130034B

CN114130034B - 基于注意力机制与强化学习的多智能体游戏ai设计方法

Info

Publication number: CN114130034B
Application number: CN202111375819.2A
Authority: CN
Inventors: 张宁宁; 王立; 郝建业; 郑岩; 马亿; 王维埙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2023-08-18
Anticipated expiration: 2041-11-19
Also published as: CN114130034A

Abstract

本发明公开了一种基于注意力机制与强化学习的多智能体游戏AI设计方法，首先，对智能体原始观测信息进行基于实体的局部信息划分并分组；其次，基于每个分组信息表征得到当前时刻的局部策略，根据动作‑观测历史信息获得对应局部信息的注意力权重，根据注意力权重对所有局部策略进行聚合得到局部信息策略；最后，将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略。与现有技术相比，本发明解决了多智能体***中智能体观测信息冗余问题，能够有效的提高智能体的学习效率。

Description

基于注意力机制与强化学习的多智能体游戏AI设计方法

技术领域

本发明涉及多智能体深度强化学习领域，特别是涉及对战环境下的多智能体游戏AI的设计方法。

背景技术

多智能体强化学习是人工智能领域中一个十分重要的研究领域，被用于解决如大量机器人***的协作、自动驾驶等的复杂多智能体问题并取得了良好的效果。

在多智能体强化学习领域，大多数算法框架均采用集中式训练&分布式执行原则。每个智能体在执行过程中独立地采用自身的观测信息进行决策，从而缓解了大规模智能体数量导致联合观测空间指数上升对策略网络的影响；在训练过程中采用所有智能体的联合动作-观测进行集中式学习，解决了每个智能体的状态转换分布不固定的问题。基于这一原则，COMA算法通过反事实推理方法解决多智能体信度分配问题，帮助智能体在整体奖励下完成更好地协作。此外，基于值分解的方法如VDN、QMIX、QTRAN算法，通过近似多智能体***整体奖励估值函数与每个智能体局部估值函数之间的关系解决信度分配问题，从而保证帮助智能体在集中训练阶段学习到协作性策略。

目前的大多数多智能体强化学习方法聚焦于多智能体***中智能体之间的协作问题，却少有考虑到每个智能体观测信息中的无关信息对智能体协作性决策的影响。例如：

UPDET算法：考虑到观测信息中各个部分信息对智能体进行最终决策的影响不同，对每个智能体执行过程中的观测信息基于实体进行划分，对实体集合采用自注意力机制生成对应的自注意力权重并进行聚合后用于下游强化学习策略。这种自注意力机制将所有实体信息表征依据自身与其他实体信息表征之间的相似度生成权重，并将其他实体信息依据权重进行聚合，因此通过自注意力机制处理后的各个实体信息表征实际上包含了观测中的所有信息，在一定程度上加重了观测信息中的冗余，对无关信息实际上是一种增强。

AI-QMIX算法：考虑到对于每个智能体来说，它的观测信息中并不是全部都和本次决策相关，无关的信息可能会对智能体进行正确的决策产生噪声，从而导致智能体决策网络不好学到最优策略。文章中对智能体的观测信息基于实体进行划分，同时将所有实体信息通过随机方式划分为关键信息组和无关信息组，针对不同组信息采用自注意力机制根据注意力权重进行聚合最终得到关键信息组和无关信息组对应的局部动作-观测奖励估值。通过混合网络，类似于QMIX算法中聚合局部估值的方式额外构建局部信息的整体估值函数损失进行训练。采用随机方法来判断观测中各个实体信息与当前决策的关联程度，对当前各个实体信息是否为关键信息进行判定并不合理。

ASN算法：首次思考了动作语义对智能体策略的影响，并构建了动作语义网络来处理针对不同局部观测信息输出的局部动作语义，通过聚合帮助优化智能体的当前策略。对动作空间基于动作语义进行划分，这种划分方式相当于已经人为对每个局部观测的策略进行了约束，可能导致策略融合的不充分，同时，文章中划分的动作子空间规模差异导致了最终策略的融合过程复杂度上升。

目前，仅有很少一部分研究中提到智能体观测信息中的无关信息对当前决策的影响问题，如何学习判断当前观测信息中各个部分信息对最终决策的影响程度以及尽可能强化相关信息并弱化无关信息仍然是一个开放问题。

发明内容

本发明旨在解决多智能体***中智能体观测信息冗余问题，而提出了一种基于注意力机制与强化学习的多智能体游戏AI设计方法，通过对智能体观测信息进行分组聚合以及局部策略融合的方式，借助学习识别无关信息并将其弱化，帮助多智能体***中各个智能体更有效地进行协作性决策，实现了多智能体游戏AI设计综合策略。

本发明采用以下的技术方案来实现：

一种基于注意力机制与强化学习的多智能体游戏AI设计方法，该方法具体包括以下步骤：

步骤1、对智能体原始观测信息进行基于实体的局部信息划分并分组；所述步骤1进一步包括以下处理：

步骤1-1、独立执行过程，智能体i根据自身观测将所有局部的实体观测信息进行划分，所有实体观测信息作为一个共享的表征函数f输入，输出对应实体观测信息的表征向量同时智能体i自身状态信息作为一个自身信息表征函数g输入，输出对应自身状态信息表征向量/>所有的实体观测信息的表征向量分别与自身状态信息表征向量做哈达玛积得到每个实体观测信息的最终表征向量；

步骤1-2、对于每个其他实体的观测信息表征，分别与自身状态信息表征求哈达玛积得到对其他实体观测信息的embeddings，通过K-Means聚类方法，将所有实体观测表征进行分组，每个分组内进行均值聚合最终得到每个观测信息组的每个组观测信息的表征向量

步骤1-3、将原始观测信息与所有组的表征向量作为智能体局部估值函数输入，根据输出的观测-动作估值选择动作环境基于联合观测-动作反馈给每个智能体下一时刻的观测信息/>以及完成该步转换的整体即时奖励r_t；将所有智能体的观测信息/>动作/>整体奖励r_t以及下一个时刻所有智能体的观测信息/>存储在经验回放缓冲区中；

步骤1-4、构建联合动作表征函数u、观测信息预测器Φ以及即时奖励预测器Ψ，通过表征函数g、f以及u分别输出对应的各个部分观测信息表征以及联合动作表征；用于优化f，g的损失函数；

步骤2、基于注意力机制的局部策略融合算法对智能体原始观测中各个信息的表征向量进行训练，根据动作-观测历史信息获得对应局部信息的注意力权重，根据注意力权重对所有局部策略进行聚合得到当前时刻的局部信息策略，所述局部信息策略包括：根据不同的分组的信息对智能体最终选择正确的策略的影响程度不同与当前对于正确选择无关的分组信息很大程度为模糊智能体对正确策略的选择，实现了智能体识别与当前正确决策无关或者弱相关的分组信息，并通过注意力机制的方式对其进行弱化，进行智能体正确的决策；所述步骤2进一步包括以下处理：

步骤2-1、在原始估值函数网络的基础上，额外构建被所有分组表征共享的局部估值网络q_local，原始估值函数q_base以原始观测为输入，输出当前观测下每个动作对应的估值作为基准观测-动作估值，q_local分别以所有分组表征作为输入，输出对应的局部信息-动作估值作为局部观测信息-动作估值；

步骤2-2、构建注意力权重函数ω、以观测的智能体当前动作历史轨迹信息embedding为输入，输出每个分组对应的注意力权重值，用于衡量每个分组对于最终决策的影响程度；

步骤2-3、将局部估值基于注意力权重进行加权聚合，得到最终的局部估值修正Q^l，智能体最终的估值网络输出为局部估值修正与基准估值聚合的结果；

步骤2-4、新构建的估值网络训练采用端到端的训练方式，可以拓展到大多数多智能体强化学习方法中；替代每个智能体独立执行阶段的策略网络或者估值网络架构，通过多智能体强化学习算法损失函数端到端地训练局部策略融合网络；

步骤3、在智能体独立执行过程中，结合智能体的原始观测信息与分组进行局部策略融合，将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略。

与现有技术相比，本发明有效的提高了多智能体***中智能体独立策略的学习效率。

附图说明

图1为本发明的基于注意力机制与强化学习的多智能体游戏AI设计方法整体流程图；

图2为智能体观测信息分组执行架构图；

图3为针对各个实体部分信息表征方法训练架构图；

图4为智能体独立执行过程结合原始观测以及分组信息进行决策架构图；

图5为决策网络架构与基本多智能体强化学习算法QMIX结合架构图。

具体实施方式

以下结合附图和具体实施例对本发明的技术方案进行详细说明。

本发明的基于注意力机制与强化学习的多智能体游戏AI设计方法包括局部观测信息划分以及局部策略融合。如图1所示，为本发明的基于注意力机制与强化学习的多智能体游戏AI设计方法整体流程图。具体流程如下：

步骤1、对智能体原始观测信息进行基于实体的局部信息划分并分组，具体包括以下处理：

将智能体视野中的实体观测特征相近的两个实体观测特征划分在整个视野中的同一个区域，从而构成一个分组。所述实体观测特征是通过监督学习方式学习原始观测信息中对各个实体观测信息的表征、同时结合智能体自身状态信息构建出的各个实体观测信息的embeddings。通过K-Means聚合方法，对所有的实体观测信息embeddings进行分组并进行组内聚合，根据各个实体部分信息与智能体当前自身状态信息之间的联系对各个实体部分信息进行智能分组，从而完成对原始观测信息的整体划分。为之后有效弱化与当前正确决策弱相关的视野信息提供了基础。

各个不同的分组对智能体进行最终决策的影响不同，关键分组能够帮助智能体选择更有效的协作性策略，无关分组会增加额外的噪声，从而阻碍智能体选择当前时刻更有效的协作性策略。为了衡量各个分组对最终决策的影响，额外构建局部策略网络以及注意力权重生成器，针对每个分组独立输出对应的局部策略，同时根据下一时刻的动作观测历史分组，通过注意力权重生成器输出每个分组对最终决策的相关程度。

在多智能体***中，每个智能体的观测信息由对环境中各个实体的观测信息向量组成，智能体i在t时刻下的观测向量组成如下：

t时刻下，智能体i自身状态信息为智能体i对环境的观测信息为/>分别表示智能体i对当前环境中其他智能体的观测信息，对于部分可观测环境设置中，智能体i对其视野中不存在的智能体的观测信息置为零向量。

如图2所示，为智能体观测信息分组执行架构图。所述智能体观测信息分组的执行包括具体步骤如下：

步骤1-1、独立执行过程，每个智能体i根据观测到的自身状态信息以及对环境中对其他实体的观测信息/>通过对应表征函数g(·；ζ₁)以及f(·；ζ₂)分别获得智能体原始观测中各个部分信息的表征/>所有实体观测信息作为一个共享的表征函数f输入，输出对应实体观测信息的表征向量/>同时智能体i自身状态信息作为一个自身信息表征函数g输入，输出对应自身状态信息表征向量/>所有的实体观测信息的表征向量分别与自身状态信息表征向量做哈达玛积得到每个实体观测信息的最终表征向量；

步骤1-3、将原始观测信息与所有组的表征向量作为智能体局部估值函数输入，根据输出的观测-动作估值选择动作环境基于联合观测-动作反馈给每个智能体下一时刻的观测信息/>以及完成该步转换的整体即时奖励r_t。将所有智能体的观测信息/>动作/>整体奖励r_t以及下一个时刻所有智能体的观测信息/>存储在经验回放缓冲区D中。

步骤1-4、构建联合动作表征函数u(u(·；ζ₃))、观测信息预测器(Φ(·；ζ₁))Φ以及即时奖励预测器Ψ(Ψ(·；ξ₂))，通过表征函数g(g(·；ζ₁))、f(f(·；ζ₂))以及u分别输出对应的各个部分观测信息表征以及联合动作表征；采用监督学习的方式学习对局部观测实体信息的表征函数f，以及自身状态信息表征函数g，用于优化f，g的损失函数如下：

L_aux＝L₁+βL₂

其中，L_aux表示用于优化f，g的整体损失函数表示，L₁,L₂分别表示对观测信息预测器以及对即时奖励预测器的优化损失函数，β表示两种预测器优化损失在整体损失函数中的权重，表示期望计算，D表示通过与环境交互获得的数据集合，ζ₁，ζ₂，ζ₃分别表示智能体自身状态信息表征函数、对局部观测实体信息的表征函数以及联合动作表征函数的参数，ξ₁，ξ₂分别表示观测信息预测器以及即时奖励预测器的参数集合；

步骤2、基于注意力机制的局部策略融合算法对智能体原始观测中各个信息的表征向量进行训练，根据动作-观测历史信息获得对应局部信息的注意力权重，根据注意力权重对所有局部策略进行聚合得到当前时刻的局部信息策略，所述局部信息策略包括：考虑到不同的分组的信息对智能体最终选择正确的策略的影响程度不同与当前对于正确选择无关的分组信息很大程度为模糊智能体对正确策略的选择，帮助智能体识别与当前正确决策无关或者弱相关的分组信息，并通过注意力机制的方式对其进行弱化，从而保证智能体能够更容易进行正确的决策。

如图3所示，为针对各个实体部分信息表征向量训练架构图。其中，将原始观测中各个部分信息的表征向量学习看作一个回归问题。将所有实体表征以及所有智能体的联合动作表征作为输入，通过一个预测器输出的下一时刻观测信息与即时奖励与环境反馈的下一时刻的真实观测信息与即时奖励尽可能接近。步骤2的具体流程如下：

步骤2-4、新构建的估值网络训练采用端到端的训练方式，可以拓展到大多数多智能体强化学习方法中；替代每个智能体独立执行阶段的策略网络或者估值网络架构，通过多智能体强化学习算法损失函数端到端地训练局部策略融合网络。如图5所示，为决策网络架构与基本多智能体强化学习算法QMIX结合架构图。这里以多智能体强化学习算法QMIX为例，描述局部策略融合网络具体训练流程：

步骤2-4-1、独立执行阶段，每个智能体对自身原始观测信息进行分组，并结合原始观测以及分组信息进行局部策略融合得到最终的策略执行并保存经验数据至经验回放缓冲区中；

步骤2-4-2、集中训练阶段，首先固定实体信息表征函数，根据当前采样经验数据通过固定的分组方法得到分组信息，根据当前采样经验数据以及对应的分组信息集中训练每个智能体的独立估值函数；

步骤2-4-3、进行若干次估值函数训练后，根据经验回放缓冲区的数据进行一次实体表征函数的优化训练；

步骤3、在智能体独立执行过程中，结合智能体的原始观测信息与分组进行局部策略融合，将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略；

通过分组模块获得各个分组的观测表征向量后，考虑到不同的分组的信息对智能体最终选择正确的策略的影响程度不同，与当前对于正确选择无关的分组信息很大程度为模糊智能体对正确策略的选择。本发明的目的在于，通过额外的局部策略网络(或估值网络)的设计，帮助智能体识别与当前正确决策无关或者弱相关的分组信息并通过注意力机制的方式对其进行弱化，从而保证智能体能够更容易进行正确的决策。如图4所示，为智能体独立执行过程结合原始观测以及分组信息进行决策架构图。具体流程如下：

步骤3-1、为了判断每个分组信息对于智能体最终决策结果的影响，额外构建一个局部估值网络q_local。该网络以每个分组信息作为输入，输出该分组信息对应的各个动作的局部估值。例如，输出了完全弱化其他部分信息，仅仅包含索引为k的分组的信息所得到的局部观测-动作估值。

步骤3-2、为了生成对每个分组信息的注意力权重，引入一个注意力权重生成器ω，权重生成器以q_base输出的下一时刻的动作-观测历史轨迹信息作为输入，输出每个分组对应的注意力权重。所有的分组信息对应的局部观测-动作估值基于注意力权重进行加权聚合，得到最终的观测-动作估值修正

步骤3-3、智能体最终的独立策略由局部估值修正以及q_base输出的基准估值聚合得到。

Claims

1.一种基于注意力机制与强化学习的多智能体游戏AI设计方法，其特征在于，该方法具体包括以下步骤：

步骤1-3、将原始观测信息与所有组的表征向量作为智能体局部估值函数输入，根据输出的观测-动作估值选择动作环境基于联合观测-动作反馈给每个智能体下一时刻的观测信息/>以及完成转换的整体即时奖励r_t；将所有智能体的观测信息/>动作/>整体即时奖励r_t以及下一个时刻所有智能体的观测信息/>存储在经验回放缓冲区中；

步骤2、基于注意力机制的局部策略融合算法对智能体原始观测中各个信息的表征向量进行训练，根据动作-观测历史信息获得对应局部信息的注意力权重，根据注意力权重对所有局部策略进行聚合得到当前时刻的局部信息策略，所述局部信息策略包括：根据不同的分组的信息对智能体最终选择正确的策略的影响程度不同于当前对于正确选择无关的分组信息为模糊智能体对正确策略的选择，实现了智能体识别与当前正确决策无关或者弱相关的分组信息，通过注意力机制的方式对其进行弱化，进行智能体正确的决策；所述步骤2进一步包括以下处理：

步骤2-3、将局部估值基于注意力权重进行加权聚合，得到最终的局部估值修正Ql，智能体最终的估值网络输出为局部估值修正与基准估值聚合的结果；

步骤2-4、新构建的估值网络训练采用端到端的训练方式，替代每个智能体独立执行阶段的策略网络或者估值网络架构，通过多智能体强化学习算法损失函数端到端地训练局部策略融合网络；