CN110404264B - 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质 - Google Patents

一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质 Download PDF

Info

Publication number
CN110404264B
CN110404264B CN201910676407.9A CN201910676407A CN110404264B CN 110404264 B CN110404264 B CN 110404264B CN 201910676407 A CN201910676407 A CN 201910676407A CN 110404264 B CN110404264 B CN 110404264B
Authority
CN
China
Prior art keywords
strategy
game
agent
nfsp
player
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910676407.9A
Other languages
English (en)
Other versions
CN110404264A (zh
Inventor
王轩
漆舒汉
蒋琳
胡书豪
毛建博
廖清
李化乐
张加佳
刘洋
夏文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201910676407.9A priority Critical patent/CN110404264B/zh
Publication of CN110404264A publication Critical patent/CN110404264A/zh
Application granted granted Critical
Publication of CN110404264B publication Critical patent/CN110404264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6027Methods for processing data by generating or executing the game program using adaptive systems learning from user actions, e.g. for skill level adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质,该方法包括:针对二人博弈情况,使用多类别逻辑回归和蓄水池抽样实现了平均策略的生成,使用DQN和环形缓冲记忆实现了最优反应策略的生成;针对多人博弈情况,使用多智能体近端策略优化算法MAPPO实现最优反应策略,同时使用多智能体NFSP调节智能体的训练。本发明的有益效果是:本发明引入了虚拟自我对局的算法框架,将德州扑克策略优化过程分为最优反应策略学***均策略学习两个部分,并分别用模仿学习和深度强化学习来实现,设计出了更为通用的多智能体最优策略学习方法。

Description

一种基于虚拟自我对局的多人非完备信息博弈策略求解方 法、装置、***及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质。
背景技术
机器博弈和人工智能都有着密不可分的联系,是体现人工智能发展的一个重要的方面。许多计算机领域著名的学者都进行过对机器博弈的相关研究:计算机之父冯.诺依曼和数学家奥曼提出了博弈中的极小极大方法。人工智能之父阿兰.图灵为开发计算机象棋程序提供了理论基础。该理论在后来被用以在ENIAC上设计世界上第一个电脑程序的西洋棋。半个多世纪以来,机器博弈领域产生的许多重大研究成果都被认为是人工智能发展的重要里程碑。目前,机器博弈的研究成果已经被广泛的用于机器人控制、对话***、资源调度、交通信号灯控制、自动驾驶、外交谈判、金融决策等领域。
按照博弈信息完备与否,可以将博弈分为完备信息博弈和非完备信息博弈。在完备信息博弈中,局中人在进行决策的过程中可以完整、即时的获取所有与博弈决策相关的信息,很多棋类游戏博弈都属于非完备信息博弈,如:围棋,象棋,将棋。在非完备信息博弈中。局中人获取的博弈信息不完整的或滞后的,因此每个局中人都拥有对手无法获得的私有信息:如扑克游戏中的手牌,自动驾驶中的自身视野,外交谈判中对于交换筹码的认识等。
信息的不完备性对使得最优策略的求解更为复杂。迄今为止,许多更为复杂的非完备信息博弈问题如多人非零和博弈并没有求解最优解的理论方法。以围棋这种完备信息博弈的典型游戏为例,所有玩家都可以获得当前棋局的所有信息,故可以使用极小极大值算法遍历博弈树,从而找到当前最佳策略。但是对于非完备信息博弈游戏来说,博弈信息不是完全可见的。以德州扑克为例,每个人手牌对于其他局中人来说是不可见的,故博弈过程中需要智能体对对手未知信息进行推理和猜测,也可以利用对手无法获取已方的私有信息进行欺诈。这些特性使得解决非完备信息博弈难度大大增加。
现实中的很多决策问题都可以被抽象为非完备信息博弈的策略优化问题,但目前非完备信息的策略优化算法如冷扑大师,仅能解决两人的、离散动作的,状态简单的博弈问题,不能很好的应用在解决现实中的决策问题上。因此,研究多人的、支持连续动作和复杂状态的非完备信息策略优化算法具有重要的理论与现实意义。
发明内容
本发明提供了一种基于虚拟自我对局的多人非完备信息博弈策略求解方法,针对二人博弈情况,使用多类别逻辑回归和蓄水池抽样实现了平均策略的生成,使用DQN和环形缓冲记忆实现了最优反应策略的生成;针对多人博弈情况,使用多智能体近端策略优化算法MAPPO实现最优反应策略,同时使用多智能体NFSP调节智能体的训练;NFSP:神经网络虚拟自我对局,DQN:深度Q值网络。
作为本发明的进一步改进,针对二人博弈情况,智能体采取最优反应策略的记忆片段作为数据,并采用蓄水池抽样的方法训练一个全连接的浅层神经网络,浅层神经网络的输入为当前的扑克游戏局面,输出为该状态下采取各个动作的概率;且采用在线的NFSP算法,两个智能体同时的进行博弈和策略更新。
作为本发明的进一步改进,在多人博弈情况下,多智能体近端策略优化算法包括:使用中心化的优势估计,更新策略网络时,MAPPO使用裁剪的代理目标函数,在训练过程中,智能体不停地利用环境中探索得到的决策序列更新策略网络,并定时的更新目标策略网络。
作为本发明的进一步改进,在多人博弈情况下,多智能体NFSP包括:每次抽样动作后均在环境中执行并更新当前状态,以及在游戏结束后,对记忆库中所有智能体最后的记忆片段中的奖励值进行更新。
本发明还提供了一种基于虚拟自我对局的多人非完备信息博弈策略求解装置,包括:
二人博弈模块:使用多类别逻辑回归和蓄水池抽样实现了平均策略的生成,使用DQN和环形缓冲记忆实现了最优反应策略的生成;
多人博弈模块:使用多智能体近端策略优化算法MAPPO实现最优反应策略,同时使用多智能体NFSP调节智能体的训练;
NFSP:神经网络虚拟自我对局,DQN:深度Q值网络。
作为本发明的进一步改进,在二人博弈模块中,智能体采取最优反应策略的记忆片段作为数据,并采用蓄水池抽样的方法训练一个全连接的浅层神经网络,浅层神经网络的输入为当前的扑克游戏局面,输出为该状态下采取各个动作的概率;且采用在线的NFSP算法,两个智能体同时的进行博弈和策略更新。
作为本发明的进一步改进,在多人博弈模块中,多智能体近端策略优化算法包括:使用中心化的优势估计,更新策略网络时,MAPPO使用裁剪的代理目标函数,在训练过程中,智能体不停地利用环境中探索得到的决策序列更新策略网络,并定时的更新目标策略网络。
作为本发明的进一步改进,在多人博弈模块中,多智能体NFSP包括:每次抽样动作后均在环境中执行并更新当前状态,以及在游戏结束后,对记忆库中所有智能体最后的记忆片段中的奖励值进行更新。
本发明还提供了一种基于虚拟自我对局的多人非完备信息博弈策略求解***,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明的有益效果是:本发明引入了虚拟自我对局的算法框架,将德州扑克策略优化过程分为最优反应策略学***均策略学习两个部分,并分别用模仿学习和深度强化学习来实现,设计出了更为通用的多智能体最优策略学习方法。
附图说明
图1是虚拟自我对局算法流程图;
图2是NFSP算法框架图;
图3是ACPC比赛的通讯框架图;
图4是德州扑克机器博弈***数据通信流程图。
具体实施方式
1.1本发明公开了一种基于虚拟自我对局的多人非完备信息博弈策略求解方法,以多人非限制性德州扑克为例,本发明是一种多人非限制性德州扑克策略求解算法。本发明以虚拟自我对局为基础,结合深度学***台。传统方法在解决德州扑克这种非完备信息博弈问题时,需要利用卡牌抽象等领域方法缩小博弈树的规模,可迁移性差。本发明引入了虚拟自我对局的算法框架,将德州扑克策略优化过程分为最优反应策略学***均策略学习两个部分,并分别用模仿学习和深度强化学习来实现,设计出了更为通用的多智能体最优策略学习算法。
1.2方法详述
1.2.1神经网络虚拟自我对局
1.2.1.1算法框架
虚拟自我对局(Fictitious Self-Play,FSP)可以被用来解决德州扑克这种大型非完备信息博弈策略优化问题。FSP是一种被证明在二人零和博弈中可以收敛到纳什均衡的机器学***均策略和最优反应的操作。平均策略更新是一种模仿学习的过程,可以使用常用的模仿学习算法;最优反应的计算操作则由强化学习来取代。
在FSP的学***均策略pj(j)。FSP的训练过程具体分为如下几个步骤:每个玩家初始化自己的平均策略,初始化方式可以是任意的随机算法;每个玩家分别利用自己的最优反应策略以及对手的平均策略进行博弈,得到数据D;每个玩家根据数据D更新自己的强化学***均策略pj(j);当到达一定迭代次数m后,每个玩家的平均策略即为学习到的关于m的纳什均衡策略。
神经网络虚拟自我对局(Neural Fictitious Self-Play,NFSP)在FSP的基础上使用神经网络来拟合最优策略以及平均策略。每当智能体依据其行动策略(最优反应和平均策略的混合)采取动作并获得环境反馈后,将记忆片段M=(i,s,a,r,s′),存入强化学***均策略,智能体使用连续时间动态虚拟对局来预测对手的平局策略。以πN,t表示正则形式的平均策略,βN,t表示正则形式的最优反应策略,则在连续时间下:
Figure BDA0002143422280000051
ΔπN,t=πN,t+1N,t+1∝βN,tN,t (3-2)
因此有
πN,t+1≈ηβN,t+(1-η)πN,t (3-3)
其中η∈R被称为预测参数(Anticipatory Parameter)。图1为一般的虚拟自我对局算法流程。
1.2.2 NFSP解决两人非限制性德州扑克策略求解
1.2.2.1利用深度Q值网络学习最优反应策略
首先尝试使用深度Q值网络(Deep Q-Network,DQN)学习智能体的最优反应策略。DQN是一种异策略的用于寻找MDP最优策略的强化学习算法,因此我们可以将其应用在FSP框架下。
DQN可以利用回放经验中利用Q学***均策略的最优反应策略。此时,FSP智能体可以利用DQN算法根据其强化学***均策略的最优反应。神经网络的损失函数可以设置为:
Figure BDA0002143422280000052
其中θQ'是目标网络,在训练的过程中,需要周期的将网络θQ的权重值赋值到θQ'中。而最终的网络决定了智能体的近似最优反应策略。
β=ε-greedy[Q(·|θQ)] (3-5)
这意味着智能体以ε的概率随机选取动作,或者,选取预测Q值最大的动作。
1.2.2.2利用模仿学***均策略
在FSP中,平均策略
Figure BDA0002143422280000054
是玩家在过去k次迭代中采取的最优反应策略的平均。即:
Figure BDA0002143422280000053
假设玩家i希望从他自己的正则博弈策略组合
Figure BDA0002143422280000061
中学***均策略的方法是对在不同信息集上采取的动作次数进行计数。如下式所示,N(st,at)为玩家在信息集ut上采取动作a的概率的加和。ρt是某一经验片段被抽样到时智能体所使用的策略。
Figure BDA0002143422280000062
Figure BDA0002143422280000063
但是,对于德州扑克这种状态空间巨大的游戏,现有存储水平的条件下无法保存其全部的状态。因此,NFSP引入示教学***均策略。平均策略∏(s,a|θ)以式(3-9)为误差更新参数,由于需要最优反应策略提供训练数据,因此平均策略的更新过程可以视为一种模仿学习。
Figure BDA0002143422280000064
为保证∏(s,a|θ)是对最优反应策略的平均的无偏估计,必须保证Msl中所有的记忆片段均是以相同概率采样,但是Msl是由一个固定大小的列表实现的,简单的随机抽样必定会导致最后添加的记忆片段被抽取的概率很小。因此,本发明引入蓄水池抽样(Reservoir Sampling)的算法设计示教学习记忆Msl来保证所有的记忆片段均以相同概率抽取。
本发明以智能体采取最优反应策略的记忆片段作为数据,并采用蓄水池抽样的方法训练一个全连接的浅层神经网络Π(s,a|θΠ),网络的输入为当前的扑克游戏局面s,输出为该状态下采取各个动作a的概率。
1.2.2.3在线NFSP算法
如图2所示,本发明使用了在线的NFSP算法,即两个智能体同时的进行博弈和策略更新,而不是交替的更新策略。在线的算法在实际训练中更有优势:首先,同时的采样经验比交替的方式在理论上高效n倍,其中n是智能体的数目;其次,同时学习的智能体可以被应用到实际黑盒场景的环境上,例如交通指挥灯***。
Figure BDA0002143422280000065
Figure BDA0002143422280000071
1.2.2.4多智能体近端策略优化算法
本发明提出了多智能体近端策略优化算法(Multi-Agent Proximal PolicyOptimization Algorithms,MAPPO)。针对在多智能体情境下,智能体策略表现扰动被放大的情况以及学习率难以调整的问题,使用裁剪的代理目标函数替代MADDPG中Actor的优化目标函数。
一种比较常用的且适合与循环神经网络的策略梯度实现方法是运行策略T个时间步(T远小于片段长度),然后使用收集到的T个时间步的样本进行策略更新。这种实现方式需要一个能对不超过T次时间步的序列进行估值的估值函数,本发明中使用的估值函数为
Figure BDA0002143422280000072
其中t表示在[0,T]中的时间索引,更一般的,可以使用截断版本的优势估计,如式(4-11)所示,当λ为1时两式相同。
Figure BDA0002143422280000081
δt=rt+γV(st+1)-V(st) (4-3)
在中心化训练-分散化执行的多智能体强化学习训练框架下,中心化的Critic以及分散化的Actor拥有不同的观测视野,因此不能使用共享参数的神经网络结构,MAPPO中Critic与Actor误差的计算应分开进行,且使用两个独立的网络来实现策略以及状态估值。MAPPO与PPO的主要区别在于使用了中心化的优势估计,使其可以观测到所有智能体的观测以及动作,从而得到更为准确的估计,中心化的优势估计所使用TD-ERROR如式(4-13)所示。
Figure BDA0002143422280000082
Critic的误差
Figure BDA0002143422280000083
计算方式如式(4-14)所示
Figure BDA0002143422280000084
其中S为小批量的大小,i表示智能体i。MAPPO可以使用更新网络和目标网络的方式来保证Critic网络的参数在更新中不至于发散。
更新策略网络时,MAPPO使用了裁剪的代理目标函数而不是策略梯度。与PPO不同的是,MAPPO使用了中心化的优势函数
Figure BDA0002143422280000085
指导策略的更新。MAPPO的策略更新目标函数为
Figure BDA0002143422280000086
在训练过程中,智能体不停地利用环境中探索得到的决策序列更新策略网络,并定时的更新目标策略网络
Figure BDA0002143422280000087
Figure BDA0002143422280000088
Figure BDA0002143422280000091
1.2.3多智能体NFSP算法
1.2.3.1部分可观测马尔科夫游戏
多智能体的马尔科夫决策问题(Markov Decision Processes,MDP)可以被看做部分可观测马尔科夫游戏(Partially Observable Markov Games)。部分可观测马尔科夫游戏由以下三部分构成:
(1)动作的集合A1,...,AN
(2)可观测信息集O1,...,ON
(3)随机性策略πθi:
Figure BDA0002143422280000092
(4)状态转移函数Γ:
Figure BDA0002143422280000093
(5)奖励函数ri:
Figure BDA0002143422280000101
(6)私有可观测信息oi:
Figure BDA0002143422280000102
智能体i的期望回报
Figure BDA0002143422280000103
其中Υ是随时间的奖励折扣率。
1.2.3.2多智能体NFSP算法
多人德州扑克在下注时存在先后顺序,每个智能体在采取动作后,环境都会发生变化。此外,只有当一局游戏结束的时候,所有的智能体才能获得其最终的奖励值。因此,本发明对NFSP的算法进行了调整,使其适合于多人德州扑克策略的学习,具体表现为每次抽样动作后均在环境中执行并更新当前状态,以及在游戏结束后,对记忆库中所有智能体最后的记忆片段中的奖励值进行更新。
Figure BDA0002143422280000104
Figure BDA0002143422280000111
2.1实验设置
2.1.1 ACPC规则的德州扑克博弈环境
本发明基于ACPC比赛的通讯框架来实现智能体之间的对弈,如图3所示,在游戏开始时,每个智能体需要和运行发牌器的服务器通过指定的端口建立TCP/IP链接,确认各个智能体与服务器ACPC通讯协议版本是否一致。在游戏开始后,服务器将编码为字符串的游戏状态信息分别发送给各个智能体,并等待需要采取动作的智能体的信息。各个智能体接收到字符串后,将其解析为相应的游戏状态,如游戏状态显示需要自己采取动作,智能体便通过策略选择一个动作,并编码为字符串发送至服务器。服务器接收到智能体发来的字符串后,解析为合法的动作,执行该动作,并将完成动作后的游戏状态信息发送给各个智能体。循环往复,直至游戏结束。
图4为本发明博弈***的实现框架框架图,实验针对二人和多人博弈两类问题,使用了不同的方式实现了平均策略和最优反应策略的生成和训练。具体的来说,针对二人博弈问题,使用多类别逻辑回归和蓄水池抽样实现了平均策略的生成,使用DQN和环形缓冲记忆实现了最优反应策略的生成;针对多人博弈问题,使用本发明提出的多智能体近端策略优化算法实现最优反应策略,同时使用多智能体NFSP取代了NFSP调节智能体的训练。
2.1.2实验设计
在二人零和游戏中,可利用度εσ=b12)+b21)是衡量策略组距离纳什均衡距离的一个指标。在扑克游戏中,常用mbb/h(milli-big-blind per hand)来表示可利用度,即每局玩家在最坏情况下会输掉的大盲注的千分数目。本发明也采取相同的可利用度表示,在Leduc扑克上测试NFSP求解近似纳什均衡策略的收敛速度和求解精度。表5-1为实验所用参数。
表5-1二人Leduc扑克实验参数
Figure BDA0002143422280000121
2.1.3实验
2.1.3.1可利用度及误差分析
NFSP的训练过程由强化学***均。设H为所有玩家的动作序列都为空的历史h的集合,则误差为:
Figure BDA0002143422280000131
Figure BDA0002143422280000132
其中Q和Π为强化学***均策略。选择游戏最开始的节点是因为它们是离叶子节点最远的一批,因此由NFSP计算出的策略与理想的策略差别更为明显。
通过模仿学***均策略的最优反应策略,同时利用模仿学***均策略。在学***均的过程。
2.1.3.2扑克博弈网络的可视化
为了验证NFSP学到了有效的扑克特征,本发明使用t-SNE算法对策略网络的最后一个隐藏层的输出进行了可视化。特别的,通过使用NFSP最终学***均策略进行模拟对局采样,得到包含了信息集,最后一个隐藏层的输出,以及一些设计的特征(如牌力特征)组成的数据集。随后使用t-SNE算法将隐藏层输出进行降维为二维的操作,并依据设计的特征对数据点进行标记,观察其分布。
Leduc扑克策略网络的t-SNE嵌入实验,所有数据根据其牌形为高牌或者对子分别用橙色和蓝色进行染色,可以看出策略网络在网络的输入为原始卡牌表示的前提下对不同牌力的牌形进行了区分。这表明了NFSP智能体在不依赖领域知识的前提下成功的学习到了牌力的知识,证明了NFSP的学习是有效的。
2.1.3.3多人扑克实验结果
本发明实现了MAPPO并在三人Leduc扑克以及六人德州扑克上进行了实验。为了尽可能的避免使用领域知识,本发明试图采用尽可能客观的状态编码方式,即尽可能采取更少的特征工程。
状态编码:扑克游戏通常包含若干轮,在每轮都会有新的卡牌揭示给玩家。本发明使用k-of-n的形式编码每轮的卡牌。例如,德州扑克总有卡牌52张,在第二轮的时候会有3张公共牌揭示,因此这轮被编码为长度为52的向量,其中有3个位置为1,对应3张公共牌,其余位置为0。德州扑克有三种动作可供选择,分别为{弃牌,跟注,加注}。在实验中,加注动作那个经动作抽象划分为固定的几个离散动作。且限制每一轮的加注动作数(现实德州扑克牌局中少有加注动作很多的情况)。因此,下注历史可以被编码为4维的向量{玩家,轮数,下注动作数,已采取的动作}。
动作编码:扑克游戏中玩家的筹码数是一定的,因此当达到最高限额是加注是非法动作。此外,当没有玩家加注时,弃牌也是一个非法动作。本发明实现的策略网络的输出动作是固定的,为了解决可能输出非法动作的问题,将环境进行了调整,任何非法的动作都会默认为跟注。
奖励值编码:本发明直接将智能体做动作后筹码的净收支作为奖励值。例如,当智能体在自己底池400的情况下选择跟注至500,则其获得的即时奖励值为-100。由于扑克游戏中,在整个游戏结束后所有智能体才能获知自己输赢,因此终止状态的奖励值由即时奖励值和游戏终止值相加决定。例如,智能体在最后一轮自己底池19000的情形下选择全下20000,并在比牌时由于牌形最大获得胜利,游戏终止值为40000,则其终止状态奖励值为-1000+40000=39000。
实验以ACPC Random_Player以及CFR5000(即在相同游戏上利用CFR算法迭代5000后智能体)的作为对手智能体进行对局。对局结果使用mbb/g作为评价标准,mbb/g表示在一局游戏中,可以赢取多少个千分之一的大盲注筹码量。一个总是弃牌的智能体会输掉750mbb/g,职业牌手在在线大的比赛中可以获得40-60mbb/g的期望收益。实验分别选取了10000次,50000次,100000次迭代后的多人智能体进行实验,计算3000局的mbb/g,与Random_Player的对局结果如表5-3所示。
表5-3多人博弈智能体与Random_Player对局结果
Figure BDA0002143422280000151
可以看出三种智能体在与另外的两个Random_Player对局都可以取得明显的优势,但基于NFSP的两种智能体在训练初期表现均若于Pure CFR智能体,这是由于本发明所用算法是基于抽样的,每轮仅采样一个直到游戏终止的片段。训练所需迭代数多但每次迭代所需时间短。在实验中,NFSP+MAPPO进行50000次迭代与Pure CFR进行3000次迭代时间基本一致。此外,NFSP+MAPPO智能体在所有迭代次数下的表现均优于NFSP,这表明本发明通过加入改进的多智能体强化学***。
表5-4多人博弈智能体与CFR5000对局结果
Figure BDA0002143422280000152
由对局结果可以看出NFSP+MAPPO智能体在50000次迭代后与CFR5000取得相似的性能。
HITSZ_Jaysen是基于牌力特征手工设计策略的六人德州扑克智能体,在2018ACPC比赛六人非限制性德州扑克项目中获得第三名。实验设置了3个本发明所设计智能体与3个HITSZ_Jaysen智能体组成六人德州扑克对局,共对局3000局计算其平均每局所赢取的大盲注筹码量。如表5-5所示,本发明设计的多人博弈智能体在六人非限制性德州扑克实验中取得了比HITSZ_Jaysen更优的性能。这表明本发明提出的多人博弈智能体在不需要扑克的领域知识的前提下,通过端到端的学***的博弈策略。
表5-5多人博弈智能体与HITSZ_Jaysen对局结果
Figure BDA0002143422280000161
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (4)

1.一种基于虚拟自我对局的多人非完备信息博弈策略求解方法,其特征在于:
针对二人博弈情况,使用多类别逻辑回归和蓄水池抽样实现了平均策略的生成,使用DQN和环形缓冲记忆实现了最优反应策略的生成;
针对多人博弈情况,使用多智能体近端策略优化算法MAPPO实现最优反应策略,同时使用多智能体NFSP调节智能体的训练;
NFSP:神经网络虚拟自我对局,DQN:深度Q值网络;
针对二人博弈情况,智能体采取最优反应策略的记忆片段作为数据,并采用蓄水池抽样的方法训练一个全连接的浅层神经网络,浅层神经网络的输入为当前的扑克游戏局面,输出为该状态下采取各个动作的概率;且采用在线的NFSP算法,两个智能体同时的进行博弈和策略更新;
在多人博弈情况下,多智能体近端策略优化算法包括:使用中心化的优势估计,更新策略网络时,MAPPO使用裁剪的代理目标函数,在训练过程中,智能体不停地利用环境中探索得到的决策序列更新策略网络,并定时的更新目标策略网络;
在多人博弈情况下,多智能体NFSP包括:每次抽样动作后均在环境中执行并更新当前状态,以及在游戏结束后,对记忆库中所有智能体最后的记忆片段中的奖励值进行更新;
该多人非完备信息博弈策略求解方法应用于德州扑克游戏中。
2.一种基于虚拟自我对局的多人非完备信息博弈策略求解装置,其特征在于,包括:
二人博弈模块:使用多类别逻辑回归和蓄水池抽样实现了平均策略的生成,使用DQN和环形缓冲记忆实现了最优反应策略的生成;
多人博弈模块:使用多智能体近端策略优化算法MAPPO实现最优反应策略,同时使用多智能体NFSP调节智能体的训练;
NFSP:神经网络虚拟自我对局,DQN:深度Q值网络;
在二人博弈模块中,智能体采取最优反应策略的记忆片段作为数据,并采用蓄水池抽样的方法训练一个全连接的浅层神经网络,浅层神经网络的输入为当前的扑克游戏局面,输出为该状态下采取各个动作的概率;且采用在线的NFSP算法,两个智能体同时的进行博弈和策略更新;
在多人博弈模块中,多智能体近端策略优化算法包括:使用中心化的优势估计,更新策略网络时,MAPPO使用裁剪的代理目标函数,在训练过程中,智能体不停地利用环境中探索得到的决策序列更新策略网络,并定时的更新目标策略网络;
在多人博弈模块中,多智能体NFSP包括:每次抽样动作后均在环境中执行并更新当前状态,以及在游戏结束后,对记忆库中所有智能体最后的记忆片段中的奖励值进行更新;
该多人非完备信息博弈策略求解装置应用于德州扑克游戏中。
3.一种基于虚拟自我对局的多人非完备信息博弈策略求解***,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1所述的方法的步骤。
4.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1所述的方法的步骤。
CN201910676407.9A 2019-07-25 2019-07-25 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质 Active CN110404264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910676407.9A CN110404264B (zh) 2019-07-25 2019-07-25 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910676407.9A CN110404264B (zh) 2019-07-25 2019-07-25 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质

Publications (2)

Publication Number Publication Date
CN110404264A CN110404264A (zh) 2019-11-05
CN110404264B true CN110404264B (zh) 2022-11-01

Family

ID=68363135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910676407.9A Active CN110404264B (zh) 2019-07-25 2019-07-25 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质

Country Status (1)

Country Link
CN (1) CN110404264B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291890B (zh) * 2020-05-13 2021-01-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、***及存储介质
CN111667075A (zh) * 2020-06-12 2020-09-15 杭州浮云网络科技有限公司 一种业务执行方法、装置及其相关设备
CN112001071A (zh) * 2020-08-14 2020-11-27 广州市百果园信息技术有限公司 模拟竞猜数据的确定方法、装置、设备及介质
CN112329348B (zh) * 2020-11-06 2023-09-15 东北大学 一种面向非完全信息条件下军事对抗博弈的智能决策方法
CN112396180B (zh) * 2020-11-25 2021-06-29 中国科学院自动化研究所 基于动态示教数据和行为克隆的深度q学习网络优化方法
CN112507104B (zh) * 2020-12-18 2022-07-22 北京百度网讯科技有限公司 对话***获取方法、装置、存储介质及计算机程序产品
CN112870727B (zh) * 2021-01-18 2022-02-22 浙江大学 一种游戏中智能体的训练及控制方法
CN113159313B (zh) * 2021-03-02 2022-09-09 北京达佳互联信息技术有限公司 游戏模型的数据处理方法、装置、电子设备及存储介质
CN113643528B (zh) * 2021-07-01 2024-06-28 腾讯科技(深圳)有限公司 信号灯控制方法、模型训练方法、***、装置及存储介质
CN113359480B (zh) * 2021-07-16 2022-02-01 中国人民解放***箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113805568B (zh) * 2021-08-17 2024-04-09 北京理工大学 基于多智能体时空建模与决策的人机协同感知方法
CN113791634B (zh) * 2021-08-22 2024-02-02 西北工业大学 一种基于多智能体强化学习的多机空战决策方法
CN113706197A (zh) * 2021-08-26 2021-11-26 西安交通大学 基于强化和模仿学习的多微网电能交易的定价策略及***
CN113689001B (zh) * 2021-08-30 2023-12-05 浙江大学 一种基于反事实遗憾最小化的虚拟自我对弈方法和装置
CN113827946A (zh) * 2021-09-10 2021-12-24 网易(杭州)网络有限公司 博弈对局决策方法和装置、电子设备及存储介质
CN114048833B (zh) * 2021-11-05 2023-01-17 哈尔滨工业大学(深圳) 基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置
CN114053712B (zh) * 2022-01-17 2022-04-22 中国科学院自动化研究所 一种虚拟对象的动作生成方法、装置及设备
WO2023205901A1 (en) * 2022-04-29 2023-11-02 Keramati Hadi System and method for heat exchanger shape optimization
CN114839884B (zh) * 2022-07-05 2022-09-30 山东大学 一种基于深度强化学习的水下航行器底层控制方法及***
CN117151224A (zh) * 2023-07-27 2023-12-01 中国科学院自动化研究所 兵棋强随机博弈的策略演化训练方法、装置、设备及介质
CN117439794B (zh) * 2023-11-09 2024-05-14 浙江大学 一种针对不确定性攻击的cpps最优防御策略博弈方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296006A (zh) * 2016-08-10 2017-01-04 哈尔滨工业大学深圳研究生院 非完备信息博弈中风险与收益均衡的最少遗憾的评估方法
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法
CN107038477A (zh) * 2016-08-10 2017-08-11 哈尔滨工业大学深圳研究生院 一种非完备信息下的神经网络与q学习结合的估值方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7892080B1 (en) * 2006-10-24 2011-02-22 Fredrik Andreas Dahl System and method for conducting a game including a computer-controlled player

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296006A (zh) * 2016-08-10 2017-01-04 哈尔滨工业大学深圳研究生院 非完备信息博弈中风险与收益均衡的最少遗憾的评估方法
CN107038477A (zh) * 2016-08-10 2017-08-11 哈尔滨工业大学深圳研究生院 一种非完备信息下的神经网络与q学习结合的估值方法
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法

Also Published As

Publication number Publication date
CN110404264A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110404264B (zh) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、***及存储介质
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
CN111291890B (zh) 一种博弈策略优化方法、***及存储介质
Lee et al. The computational intelligence of MoGo revealed in Taiwan's computer Go tournaments
Ponsen et al. Integrating opponent models with monte-carlo tree search in poker
CN113688977B (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
Togelius How to run a successful game-based AI competition
Whitehouse Monte Carlo tree search for games with hidden information and uncertainty
CN110598853B (zh) 一种模型训练的方法、信息处理的方法以及相关装置
Buro Statistical feature combination for the evaluation of game positions
Reis et al. Vgc ai competition-a new model of meta-game balance ai competition
CN114404975A (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
Dobre et al. Online learning and mining human play in complex games
CN112870722B (zh) 对战格斗类ai游戏模型的生成方法、装置、设备及介质
PRICOPE A view on deep reinforcement learning in imperfect information games
CN114404976A (zh) 决策模型的训练方法、装置、计算机设备及存储介质
Vieira et al. Exploring Deep Reinforcement Learning for Battling in Collectible Card Games
Ring et al. Replicating deepmind starcraft ii reinforcement learning benchmark with actor-critic methods
CN117883788B (zh) 智能体训练方法、游戏对战方法、装置及电子设备
Kitchen et al. ExIt-OOS: Towards learning from planning in imperfect information games
Guan et al. Learning to Play Koi-Koi Hanafuda Card Games With Transformers
Reis et al. Automatic generation of a sub-optimal agent population with learning
Zhang et al. An enhanced searching strategy for multi-agent mobile applications
Chen et al. A Novel Reward Shaping Function for Single-Player Mahjong
Luo et al. Clicked: Curriculum Learning Connects Knowledge Distillation for Four-Player No-Limit Texas Hold’em Poker

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant