CN113599823A - 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法 - Google Patents

一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法 Download PDF

Info

Publication number
CN113599823A
CN113599823A CN202110758347.2A CN202110758347A CN113599823A CN 113599823 A CN113599823 A CN 113599823A CN 202110758347 A CN202110758347 A CN 202110758347A CN 113599823 A CN113599823 A CN 113599823A
Authority
CN
China
Prior art keywords
cnn
data
information
gru
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110758347.2A
Other languages
English (en)
Other versions
CN113599823B (zh
Inventor
郭鸿村
臧兆祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202110758347.2A priority Critical patent/CN113599823B/zh
Publication of CN113599823A publication Critical patent/CN113599823A/zh
Application granted granted Critical
Publication of CN113599823B publication Critical patent/CN113599823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/822Strategy games; Role-playing games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于CNN‑GRU模型的实时策略游戏中稀疏指令的预测方法,它包括以下步骤:步骤1:收集游戏平台产生的对战数据;步骤2:对收集到的对战数据进行清理,剔除冗余数据;步骤3:提取出数据中己方、敌方信息相关特征因素,并对获取到的数据进行数据处理;步骤4:进行CNN‑GRU网络模型的构建,并采用所构建的预测模型模型进行指令类型的预测;本发明的目的是为了使AI在RTS游戏中在状态动作对稀疏的情况下,在下达一条作战指令前较为可靠的对指令类型进行预测,而提供的一种基于CNN‑GRU模型的实时策略游戏中指令稀疏条件下的指令类型预测方法。

Description

一种基于CNN-GRU模型的实时策略游戏中稀疏指令的预测 方法
技术领域
本发明属于计算机技术领域,具体涉及一种基于CNN-GRU模型的实时策略游戏中稀疏指令的预测方法。
背景技术
RTS游戏属于一种实时进行的而非回合制游戏。其中,Agent需要完成包括侦查敌方信息、检查己方剩余资源以及与敌方进行作战等操作。由于RTS游戏中存在环境的部分可观测性、状态动作空间巨大以及需要控制大量的作战单位等特点,要使AI同时周全的考虑到上述多个方面会面临许多挑战。因此在给作战单位下达行动指令的时候会考虑将一个指令拆分成不同的组成部分,然后用基于规则的方法或者使用机器学习的方法去预测指令的不同部分。
在构成指令的组成部分当中,指令类型重要而且不可或缺的,下达一条正确的游戏指令前AI首先应该对当前的情况进行分析,并做出比较正确的预测,才能使得将要发出的指令足够有效,进而才有机会在后续的对战中赢得对手。
进一步的,在一场RTS游戏回合中,会存在需要稠密操作的情况,也会存在需要稀疏操作的情况,在指令较为稀疏的情况下,在游戏进行过程中只有在少数的时间点AI才会发出一条行动指令,而其余时间是没有指令下发的。
在现有技术中,RTS游戏中的AI往往针对稠密操作情况下进行了优化,例如针对星际争霸游戏提出的Alphastar、针对DOTA游戏提出的OpenAI five等,它们已经达到了人类顶尖选手的水平,但是它们都是在状态动作对比较稠密的情况下运行的。然而对于状态动作对稀疏的条件下,这种算法存在一定的不足。
所以,针对如何在RTS游戏中指令稀疏的条件下进行指令类型的预测的问题,本文提出了一种基于改进的GRU神经网络模型进行指令类型的预测方法。
发明内容
本发明的目的是为了使AI在RTS游戏中在状态动作对稀疏的情况下,在下达一条作战指令前较为可靠的对指令类型进行预测,而提供的一种基于CNN-GRU模型的实时策略游戏中稀疏指令的预测方法。
一种基于CNN-GRU模型的实时策略游戏中稀疏指令的预测方法,它包括以下步骤:
步骤1:收集游戏平台产生的对战数据;
步骤2:对收集到的对战数据进行清理,剔除冗余数据;
步骤3:提取出数据中己方、敌方信息相关特征因素,并对获取到的数据进行数据处理;
步骤4:进行CNN-GRU预测模型的构建,并采用所构建的模型进行指令类型的预测;
在步骤1中,所述对战数据平台是通过人工编写的硬编码策略和游戏平台内置的机器人进行对战产生的。
在步骤2中,具体包括以下步骤:
1)将从步骤1获取到的对战数据中的信息进行提取,同时提取标签信息,其中标签分为两大类一类是空白指令,一类是有效指令;
2)剔除掉不符合规范的推演数据,如推演数据不完整等;
3)删除掉不必要的特征,如游戏中明确规定无用的特征以及冗余的特征,比如本发明所用实验平台规定,飞机的坐标由(x,y,z)组成,但是平台使用说明书上明确规定了z轴坐标没有作用,以及一些特征重复出现,比如飞机的载弹量等。
在步骤3中,对获取到的数据进行min-max归一化,然后采用PCA主成分分析法对输入的特征向量进行降维处理;具体的,包括以下步骤:
步骤1)构建每一个时间步的输入,所有的时间步组成一个完整的时间序列也就是一场完整的游戏推演的过程;
步骤2)把按时间顺序提取到的信息进行补齐操作,使用手工的方式将每一个时间点的向量维度补成相同的长度,这里设置一个最大长度,不足最大长度的使用e-9一个不为0但接近于0的数进行补齐;
步骤3)进行数据进行归一化处理,归一化的公式如下:
Figure BDA0003148115510000021
x'ij为xij归一化之后的数值,xij是第i列第j维特征,xi是第i列特征,min(xi)是第i列的所有维度中的数值的最小值,max(xi)是第i列所有维度中的数值最大值;
步骤4)对上述数据使用PCA主成分分析法对数据进行降维处理。
在步骤3中的步骤2)中,每一个时间点的向量由以下几类组成:1)游戏时间,2)己方单位的信息,3)已获得的敌方单位的信息。
在步骤4中,具体包括以下步骤:
步骤4.1)提取游戏状态特征,生成特征矩阵,这里卷积神经网络使用多个卷积核,不同的卷积核关注不同的特征,其特征提取公式如下:
xt=σcnn(wcnn⊙xt+bcnn)
xt表示当前状态和动作特征,wcnn表示过滤器的权重,bcnn表示偏差参数,σcnn是激活函数;
步骤4.2)使用门控循环网络(GRU)提取时间序列的依赖特征:
GRU重置门:
rt=σ(Wrxt+Urht-1+br)
GRU更新门:
zt=σ(Wzxt+Uzht-1+bz)
σ为sigmoid函数,W、U和b为权重和偏置项,xt即为卷积神经网络的输出,ht-1为上一个状态所传递下来的信息;更新门和重置门确定历史节点信息对当前节点信息的贡献程度;
上一状态信息经过重置门后,通过权重和偏置项与当前输入进行聚合更新以形成当前时刻状态:
Figure BDA0003148115510000031
Figure BDA0003148115510000032
为当前时刻t的候选隐藏状态;W、U和b为权重和偏置项,xt为卷积神经网络的输出,rt为重置门,ht-1为上一状态的信息;tanh激活函数将数据缩放至-1到1的范围内;
最后计算出当前时刻的隐藏状态:
Figure BDA0003148115510000033
ht为当前隐藏状态信息,zt为更新门,ht-1为上一个状态所传递下来的信息;
步骤4.3)使用dropout对隐藏层节点进行随机丢弃,从而防止过拟合,其计算公式如下:
Figure BDA0003148115510000034
Figure BDA0003148115510000035
Bernoulli函数是随机生成一个概率的向量,也就是以一个概率为p的伯努利分布随机地生成与节点数相同的0、1值;
步骤4.4)将经过dropout层之后的GRU网络的输出映射到线性空间时,采用以下公式:
Figure BDA0003148115510000041
f1为多层感知机(MLP)
步骤4.5)将多层感知机的输出作为softmax函数的输入来进行标签预测;
Figure BDA0003148115510000042
W为权重,b为偏置项,hv为多层感知机的输出,
Figure BDA0003148115510000043
为预测的标签;
步骤4.6)使用带权重的交叉熵函数最小化损失;
计算公式如下:
Figure BDA0003148115510000044
Figure BDA0003148115510000045
wj是权重;M为类别的数量,yij为指示变量,取值为0或1,如果样本i的真实类别与j相同,此时yij取值为1,否则取值为0;
Figure BDA0003148115510000046
为样本i属于类别j的预测概率;
Figure BDA0003148115510000047
是第j类样本类型的样本数量;其中wj的计算公式如下:
Figure BDA0003148115510000048
wj为第j类类别的权重,nclasses是数据集中所有类型种类数量,nsamples是数据集中的样本总数。
它还包括步骤5:将数据分成多份进行交叉验证,从而选择出更好的超参数;
具体的:把收集到的数据集分成6份,每次选择其中4组作为训练集,1组作为验证集,另外1组作为测试集。用这种方法来选择更好的参数,包括batch_size的大小,GRU隐藏层的大小,学习率的大小,以及选择出合适损失函数和优化函数。
它还包括步骤6:对网络模型进行综合评价。
一种CNN-GRU网络模型的构建方法,它包括以下步骤:
步骤一:构建卷积神经网络,提取游戏状态特征,生成特征矩阵,这里卷积神经网络使用多个卷积核,不同的卷积核关注不同的特征;
步骤二:使用门控循环网络(GRU)提取时间序列的依赖特征;
步骤三:使用dropout技术防止过拟合现象;
步骤四:使用多层感知器将门控循环神经网络的输出映射到线性空间;
步骤五:使用softmax函数进行标签的预测;
步骤六:使用带权重的交叉熵函数最小化损失;
采用以上步骤建立CNN-GRU网络模型。
在步骤一中,构建卷积神经网络,提取游戏状态特征,生成特征矩阵,其计算公式如下:
xt=σcnn(wcnn⊙xt+bcnn);
xt表示当前状态和动作特征,wcnn表示过滤器的权重,bcnn表示偏差参数,σcnn是激活函数;
在步骤二中,使用门控循环网络(GRU)提取时间序列的依赖特征:
GRU重置门:
rt=σ(Wrxt+Urht-1+br)
GRU更新门:
zt=σ(Wzxt+Uzht-1+bz)
σ为sigmoid函数,W、U和b为权重和偏置项,xt即为卷积神经网络的输出,ht-1为上一个状态所传递下来的信息;更新门和重置门确定历史节点信息对当前节点信息的贡献程度;
上一状态信息经过重置后,通过权重和偏置项与当前输入进行聚合更新以形成当前时刻状态:
Figure BDA0003148115510000051
Figure BDA0003148115510000052
为当前时刻t的候选隐藏状态;W、U和b为权重和偏置项,xt为卷积神经网络的输出,rt为重置门,ht-1为上一状态的信息;tanh激活函数将数据缩放至-1到1的范围内;
Figure BDA0003148115510000053
ht为当前隐藏状态信息,zt为更新门,ht-1为上一个状态所传递下来的信息。
在步骤三中,使用dropout对隐藏层节点进行随机丢弃,从而防止过拟合时,采用以下步骤:
使用dropout防止过拟合:
Figure BDA0003148115510000061
Figure BDA0003148115510000062
Bernoulli函数是随机生成一个概率的向量,也就是以一个概率为p的伯努利分布随机地生成与节点数相同的0、1值。
在步骤四中,将经过dropout层之后的GRU网络的输出映射到线性空间时,采用以下公式:
Figure BDA0003148115510000063
f1为多层感知机(MLP)。
在步骤五中,将多层感知机的输出作为softmax函数的输入来进行标签预测时,采用以下方式:
Figure BDA0003148115510000064
W为权重,b为偏置项,hv为多层感知机的输出,
Figure BDA0003148115510000065
为预测的标签;
在步骤六中,在使用带权重的交叉熵函数最小化损失时;
计算公式如下:
Figure BDA0003148115510000066
Figure BDA0003148115510000067
wj是权重;M为类别的数量,yij为指示变量,取值为0或1,如果样本i的真实类别与j相同,此时yij取值为1,否则取值为0;
Figure BDA0003148115510000068
为样本i属于类别j的预测概率;
Figure BDA0003148115510000069
是第j类样本类型的样本数量;其中wj的计算公式如下:
Figure BDA00031481155100000610
wj为第j类类别的权重,nclasses是数据集中所有类型种类数量,nsamples是数据集中的样本总数。
与现有技术相比,本发明具有如下技术效果:
1)与传统的机器学习方法相比,如:《空中决战决策行为树建模与仿真》论文中使用的行为树模型,在大数据量的问题中,深度学习的方法具有更好的学习和泛化能力。传统的硬编码bot非常依赖开发者的领域知识和经验,不够智能,很难取得很好的预测效果;
2)人工设计特征需要花费较长的时间,且不能够在多种情况下通用,相比于人工设计特征,CNN模型可以自动提取特征;
3)GRU相比简单的循环神经网络,更易于学习长期的依赖,能够很好的解决序列相关的预测问题。通过多层的非线性转换,GRU能够很好的适应复杂任务的建模。通过足够的样本数据的训练,该模型能挖掘出混乱数据中的大量的有价值的信息。在智能体发出指令时,需要参考历史状态动作信息,有些指令影响持续时间较长有些指令影响持续时间较短,而GRU能够很好地应对长短期依赖问题,从而取得很好的预测效果;
4)本发明对CNN-GRU网络模型进行了改进,首先体现在神经网络输入特征的处理,对构建的特征进行归一化处理然后进行了PCA的主成分分析,降低了数据的维度。然后我们改进了损失函数,使该模型能够取得更好的性能,提高了模型的鲁棒性,本发明提出了适合实时策略游戏中稀疏指令预测的深度学习架构。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明所使用的N2N的GRU网络架构图。
图2是本发明所提出的CNN-GRU网络模型架构图。
具体实施方式
一种基于CNN-GRU模型的实时策略游戏中稀疏指令的预测方法,它包括以下步骤:
步骤1:收集游戏平台产生的对战数据;
步骤2:对收集到的对战数据进行清理,剔除冗余数据;
步骤3:提取出数据中己方、敌方信息相关特征因素,并对获取到的数据进行数据处理;
步骤4:进行CNN-GRU预测模型的构建,并采用所构建的预测模型模型进行指令类型的预测;
步骤5:将数据分成多份进行交叉验证,从而选择出更好的超参数;
步骤6:将训练好的智能体放入仿真平台进行对战查看效果;
采用上述步骤,进行AI的训练。
本发明重点研究在实时策略游戏中指令稀疏的条件下如何预测指令类型的问题,本专利把没有指令的时间点指定为一个空白的指令,即哑元指令,此时在实时策略游戏中会存在指令不平衡的现象,也就是大部分时间为空白指令只有少数情况下会出现有效指令。
在步骤1中,所述对战数据平台为通过人工编写的硬编码策略和游戏平台内置的机器人进行对战产生的,这里产生的对战数据是以json文件的形式保存的,其中每一个json文件包含了一场完整的推演信息。
在步骤2中,具体包括以下步骤:
1)将从步骤1获取到的对战数据中进行信息的提取,同时提取标签信息,其中标签分为两大类一类是空白指令,一类是有效指令;
2)删除不规范的数据。
在步骤3中,对获取到的数据进行min-max归一化,然后采用PCA主成分分析法对输入的特征向量进行降维处理;具体的,包括以下步骤:
步骤1)构建每一个时间步的输入,所有的时间步组成一个完整的时间序列也就是一场游戏对战的过程;
步骤2)把按时间顺序提取到的信息进行补齐操作,由于在每一个时间点提取到的己方单位的数量和敌方单位的数量可能是不相同的,所以每一个时间点的向量维度可能不相同。使用手工的方式将每一个时间点的向量维度补成相同的长度,每一个时间点的向量大致由以下几类组成:1)游戏时间,2)己方单位的信息,3)已获得的敌方单位的信息;
步骤3)对于上述数值型的特征为了消除不同特征之间的量纲影响,需要对数据进行归一化处理,归一化的公式如下:
Figure BDA0003148115510000081
x'ij为xij归一化之后的数值,xij是第i列第j维特征,xi是第i列特征,min(xi)是第i列的所有维度中的数值的最小值,max(xi)是第i列所有维度中的数值最大值;
步骤4)对上述数据使用PCA主成分分析法对数据进行降维处理,使用降维处理主要是加快计算速度,在计算资源不足的情况下,可以人为删除不必要的特征之后再进行降维操作。
在步骤4中,具体包括以下步骤:
步骤4.1),从游戏对战数据中提取出胜利一方的推演数据,用于训练胜利的一方的CNN-GRU神经网络模型,如本次推演红方胜利则本场数据只用来训练红方的AI,而不用来训练蓝方的AI;
步骤4.2),构建卷积神经网络,对当前态势信息进行卷积操作,提取游戏状态特征,生成特征矩阵,使用多个卷积核,不同的卷积核关注不同的特征,比如卷积核A关注位置坐标,卷积核B关注剩余的血量等,其特征提取公式如下:
xt=σcnn(wcnn⊙xt+bcnn)
xt表示当前状态信息,即当前各种单位信息包括己方单位以及已经识别到的敌方单位的信息,wcnn表示过滤器的权重,bcnn表示偏差参数,σcnn是激活函数;
步骤4.3),使用门控循环单元(GRU)对提取时间依赖特征,具体操作按照下式计算:
GRU重置门:
rt=σ(Wrxt+Urht-1+br)
GRU更新门:
zt=σ(Wzxt+Uzht-1+bz)
σ为sigmoid函数,W、U和b为权重和偏置项,xt即为卷积神经网络的输出,代表了当前的态势信息,ht-1为上一个状态所传递下来的信息,其中包括历史状态信息以及动作信息,在本发明中一个动作就是下达了一条作战指令;更新门和重置门确定历史节点信息对当前节点信息的贡献程度,即判断过去发出的指令以及过去作战单位的移动位置对当前时刻发出指令有多大程度的影响;
上一状态信息经过重置门后,通过权重和偏置项与当前输入进行聚合更新以形成当前时刻状态:
Figure BDA0003148115510000091
Figure BDA0003148115510000092
为当前时间点t的候选隐藏状态;W、U和b为权重和偏置项,xt为卷积神经网络的输出,rt为重置门,ht-1为上一时刻状态的信息;tanh激活函数将数据缩放至-1到1的范围内;
最后计算出当前时刻的隐藏状态:
Figure BDA0003148115510000093
ht为当前隐藏状态信息,当前时刻的隐藏状态信息ht综合考虑了历史信息以及当前读取到的状态信息,ht-1为上一个状态所传递下来的隐藏状态信息,它包含了历史信息,这些历史信息由作战单位的信息包括作战单位的移动信息、攻击信息等,以及过去已经发出的指令信息组成,在这里还可以设置考虑之前多少个时间步的信息,如果认为当前时间步下达的指令无需考虑很长的时间步,可以使用截断操作,以加快计算速度。比如只考虑前10步或者前20步的状态和动作信息,即认为,当前指令只和前10步或20步有关系,而与更远的时间步是无关的;
步骤4.4),使用dropout技术对隐藏层节点进行随机丢弃,防止过拟合,其计算公式如下:
Figure BDA0003148115510000101
Figure BDA0003148115510000102
Bernoulli函数是随机生成一个概率的向量,也就是以一个概率为p的伯努利分布随机地生成与节点数相同的0、1值;
步骤4.5),将经过dropout层之后的GRU网络的输出映射到线性空间,采用以下公式进行计算:
Figure BDA0003148115510000103
f1为多层感知机(MLP)
步骤4.6),将多层感知机的输出作为softmax函数的输入来进行指令类型的预测;
Figure BDA0003148115510000104
W为权重,b为偏置项,hv为多层感知机的输出,
Figure BDA0003148115510000105
为预测的标签,即为当前时刻预测的指令类型,确定了当前时间点应该发出一个什么类型的指令;
步骤4.7),使用带权重的交叉熵函数最小化损失;
计算公式如下:
Figure BDA0003148115510000106
Figure BDA0003148115510000107
wj是权重;M为类别的数量,yij为指示变量,取值为0或1,如果样本i的真实类别与j相同,此时yij取值为1,否则取值为0;
Figure BDA0003148115510000108
为样本i属于类j的预测概率;
Figure BDA0003148115510000109
是第j类样本类型的样本数量;其中wj的计算公式如下:
Figure BDA0003148115510000111
wj为第j类类别的权重,nclasses是数据集中所有类型种类数量,nsamples是数据集中的样本总数,在这里由于我们引入了哑元指令,即空指令,此时空指令的数量要远多于其他指令类型数量的总和,但是经过权重的计算此时空指令的权重比较小,此时神经网络模型可以更加精准的预测当前的指令类型,而不会倾向于将所有的指令类型都预测为空指令。
如果训练的数据集较大,则可以采用小批量的随机梯度下降法进行模型的训练,以节省计算资源,同时损失函数的下降会更加稳定
它还包括步骤6:对网络模型进行综合评价。
为了评价模型的性能,采用Accuracy、Precision、Recall、F1等指标进行综合评价,下面给出各种评价指标的具体计算公式。
表1混淆矩阵
Figure BDA0003148115510000112
表1中TP表示实则为正类且预测为正类的样本数目,FN表示实则为正类且预测为负类的样本数目,TN表示实则为负类且预测为负类的样本数目,FP表示实则为负类且预测为正类的样本数目。
Figure BDA0003148115510000113
Figure BDA0003148115510000114
Figure BDA0003148115510000115
Figure BDA0003148115510000116
本发明还包括一种CNN-GRU网络模型的构建方法,它包括以下步骤:
步骤一:构建卷积神经网络,提取游戏状态特征,生成特征矩阵,这里卷积神经网络使用多个卷积核,不同的卷积核关注不同的特征;
步骤二:使用门控循环网络(GRU)提取时间序列的依赖特征;
步骤三:使用dropout技术防止过拟合现象;
步骤四:使用多层感知器将门控循环神经网络的输出映射到线性空间;
步骤五:使用softmax函数进行标签的预测;
步骤六:使用带权重的交叉熵函数最小化损失;
采用以上步骤建立CNN-GRU网络模型。
在步骤一中,构建卷积神经网络,提取游戏状态特征,生成特征矩阵,其计算公式如下:
xt=σcnn(wcnn⊙xt+bcnn);
xt表示当前状态和动作特征,wcnn表示过滤器的权重,bcnn表示偏差参数,σcnn是激活函数;
在步骤二中,使用门控循环网络(GRU)提取时间序列的依赖特征:
GRU重置门:
rt=σ(Wrxt+Urht-1+br)
GRU更新门:
zt=σ(Wzxt+Uzht-1+bz)
σ为sigmoid函数,W、U和b为权重和偏置项,xt即为卷积神经网络的输出,ht-1为上一个状态所传递下来的信息;更新门和重置门确定历史节点信息对当前节点信息的贡献程度;
上一状态信息经过重置后,通过权重和偏置项与当前输入进行聚合更新以形成当前时刻状态:
Figure BDA0003148115510000121
Figure BDA0003148115510000122
为当前时刻t的候选隐藏状态;W、U和b为权重和偏置项,xt为卷积神经网络的输出,rt为重置门,ht-1为上一状态的信息;tanh激活函数将数据缩放至-1到1的范围内;
Figure BDA0003148115510000123
ht为当前隐藏状态信息,zt为更新门,ht-1为上一个状态所传递下来的信息。
在步骤三中,使用dropout对隐藏层节点进行随机丢弃,从而防止过拟合时,采用以下步骤:
使用dropout防止过拟合:
Figure BDA0003148115510000131
Figure BDA0003148115510000132
Bernoulli函数是随机生成一个概率的向量,也就是以一个概率为p的伯努利分布随机地生成与节点数相同的0、1值。
在步骤四中,将经过dropout层之后的GRU网络的输出映射到线性空间时,采用以下公式:
Figure BDA0003148115510000133
f1为多层感知机(MLP)。
在步骤五中,将多层感知机的输出作为softmax函数的输入来进行标签预测时,采用以下方式:
Figure BDA0003148115510000134
W为权重,b为偏置项,hv为多层感知机的输出,
Figure BDA0003148115510000135
为预测的标签;
在步骤六中,在使用带权重的交叉熵函数最小化损失时;
计算公式如下:
Figure BDA0003148115510000136
Figure BDA0003148115510000137
wj是权重;M为类别的数量,yij为指示变量,取值为0或1,如果样本i的真实类别与j相同,此时yij取值为1,否则取值为0;
Figure BDA0003148115510000138
为样本i属于类别j的预测概率;
Figure BDA0003148115510000139
是第j类样本类型的样本数量;其中wj的计算公式如下:
Figure BDA00031481155100001310
wj为第j类类别的权重,nclasses是数据集中所有类型种类数量,nsamples是数据集中的样本总数。
实施例:
一种基于CNN-GRU模型的实时策略游戏中稀疏指令的预测方法,包括以下步骤:收集数据、样本数据整理与预处理、构建时序输入、网络模型的预测和网络模型的评价。
步骤1:为了训练深度学***台产生大量的对战数据,这些对战数据可以是通过人工编写的硬编码策略和游戏平台内置的机器人进行对战产生的。
步骤2:对收集到的对战数据进行整理,由于这些数据可能会存在冗余,通过分析数据,可以将冗余数据删除。另外采用在游戏对战中胜利的一方的数据,来训练胜利的一方的网络模型,比如在红蓝双方对战中,当前场次红方胜利,我们用当前场次的对战数据去训练红方的模型,而不使用当前数据去训练蓝方模型。
红蓝双方的各自拥有的兵力如表2表3所示:
表2红方兵力
Figure BDA0003148115510000141
表3蓝方兵力
Figure BDA0003148115510000142
步骤3:提取出数据中己方信息、敌方信息等相关特征因素,并对获取到的数据进行min-max归一化,然后采用PCA主成分分析法对输入的特征向量进行降维处理。
以己方是红方为例,己方单位包括侦察机、轰炸机等,其特征包括坐标,剩余油量,剩余弹药等。
步骤4:构建模型进行预测
CNN-GRU模型由六部分组成:第一部分为输入层,输入观测的状态和动作信息;第二部分为归一化操作;第三部分为PCA降维处理;第四部分为CNN网络,用于提取状态动作特征;第五部分为GRU网络用于提取历史信息;第六部分为全连接层用于指令的预测。
本发明使用了CNN-GRU模型架构,其网络架构如图2所示。
CNN网络模型的特征提取公式如下:
xt=σcnn(wcnn⊙xt+bcnn)
xt表示当前的状态和动作特征,wcnn表示过滤器的权重,bcnn表示偏差参数,σcnn是激活函数。
GRU网络模型的计算公式如下:
rt=σ(Wrxt+Urht-1+br)
zt=σ(Wzxt+Uzht-1+bz)
Figure BDA0003148115510000151
Figure BDA0003148115510000152
rt为重置门,zt为更新门,σ为激活函数,W、U为权重b为偏置项,xt即为CNN的输出,ht-1为上一个状态所传递下来的历史动作状态信息,
Figure BDA0003148115510000153
是候选隐藏状态,ht是当前时刻的隐藏状态。
本问题是给定一个输入序列x1,x2,...,xt,需要学习一个模型能够生成真实结果的预测值
Figure BDA0003148115510000154
这里yt表示的是第t个时间点的指令类型。对于本发明要解决的问题(基于时序的指令选择问题),可以有很多种GRU模型的构造方式,本文选取最合适本问题的一种方式N2N的网络模型,如图1所示。N2N的网络模型在每一个时间点都可以得到一个预测值
Figure BDA0003148115510000155
然后通过改的进损失函数最小化损失。
Figure BDA0003148115510000156
Figure BDA0003148115510000157
Figure BDA0003148115510000158
在本实验中classes为15种指令,包括空白指令和其他指令,如攻击和返航等指令,wj为第j个类别的权重。在本文中j的取值为空白指令和其他指令,nsamples是对战数据中的样本的数量,
Figure BDA0003148115510000159
是第j类指令的样本数量。
为了防止模型的过拟合,本发明在CNN-GRU网络模型中采用了dropout技术。模型的过拟合会导致模型在训练集上有很好的表现效果,但是在测试集上表现会很差,使用dropout技术可以缓解该问题。
综上所述模型的训练过程如下表所示
表4模型的训练流程
Figure BDA0003148115510000161
步骤5:
为了评价模型的好坏,以及超参数的设置是否合理,需要选取适合本发明的性能评价指标,然后采用交叉验证的方法进行对比。本模型需要考虑的性能指标分别为Accuracy、Precision、Recall、F1,在数据不平衡问题中F1是很重要的评价指标。
步骤6:
将训练好的AI嵌入到仿真平台中进行对战。

Claims (10)

1.一种基于CNN-GRU模型的实时策略游戏中稀疏指令的预测方法,其特征在于,它包括以下步骤:
步骤1:收集游戏平台产生的对战数据;
步骤2:对收集到的对战数据进行清理,剔除冗余数据;
步骤3:提取出数据中己方、敌方信息相关特征因素,并对获取到的数据进行数据处理;
步骤4:进行CNN-GRU网络模型的构建,并采用所构建的网络模型进行指令类型的预测。
2.根据权利要求1所述的方法,其特征在于,在步骤2中,具体包括以下步骤:
1)将从步骤1获取到的对战数据中进行状态信息的提取,同时提取标签信息,其中标签分为两大类一类是空白指令,一类是有效指令;
2)剔除掉不符合规范的推演数据;
3)删除掉不必要的特征。
3.根据权利要求1所述的方法,其特征在于,在步骤3中,对获取到的数据进行min-max归一化,然后采用PCA主成分分析法对输入的特征向量进行降维处理;具体的,包括以下步骤:
步骤1)构建每一个时间步的输入,所有的时间步组成一个完整的时间序列也就是一场游戏对战的过程;
步骤2)把按时间顺序提取到的信息进行补齐操作,使用手工的方式将每一个时间点的向量维度补成相同的长度;
步骤3)进行数据的归一化处理,归一化的公式如下:
Figure FDA0003148115500000011
x'ij为xij归一化之后的数值,xij是第i列第j维特征,xi是第i列特征,min(xi)是第i列的所有维度中的数值的最小值,max(xi)是第i列所有维度中的数值最大值;
步骤4)对上述数据使用PCA主成分分析法对数据进行降维处理。
4.根据权利要求1所述的方法,其特征在于,在步骤4中,具体包括以下步骤:
1)构建卷积神经网络,提取游戏状态特征,生成特征矩阵,卷积神经网络模型的更新公式如下:
xt=σcnn(wcnn⊙xt+bcnn)
xt表示当前状态和动作特征,wcnn表示过滤器的权重,bcnn表示偏差参数,σcnn是激活函数;
2)使用门控循环网络(GRU)提取时间序列的依赖特征:
GRU重置门:
rt=σ(Wrxt+Urht-1+br)
GRU更新门:
zt=σ(Wzxt+Uzht-1+bz)
σ为sigmoid函数,W、U和b为权重和偏置项,xt即为卷积神经网络的输出,ht-1为上一个状态所传递下来的信息;更新门和重置门确定历史节点信息对当前节点信息的贡献程度;
上一状态信息经过重置后,通过权重和偏置项与当前输入进行聚合更新以形成当前时刻状态:
Figure FDA0003148115500000021
Figure FDA0003148115500000022
为当前时刻t的候选隐藏状态;W、U和b为权重和偏置项,xt为卷积神经网络的输出,rt为重置门,ht-1为上一状态的信息;tanh激活函数将数据缩放至-1到1的范围内;
最后计算出当前时刻的隐藏状态:
Figure FDA0003148115500000023
ht为当前隐藏状态信息,zt为更新门,ht-1为上一个状态所传递下来的信息;
3)使用dropout对隐藏层节点进行随机丢弃,从而防止过拟合,其计算公式如下:
Figure FDA0003148115500000024
Figure FDA0003148115500000025
Bernoulli函数是随机生成一个概率的向量,也就是以一个概率为p的伯努利分布随机地生成与节点数相同的0、1值;
4)将经过dropout层之后的GRU网络的输出映射到线性空间时,采用以下公式:
Figure FDA0003148115500000026
f1为多层感知机(MLP)
5)将多层感知机的输出作为softmax函数的输入来进行标签预测;
Figure FDA0003148115500000031
W为权重,b为偏置项,hv为多层感知机的输出,
Figure FDA0003148115500000032
为预测的标签;
6)使用带权重的交叉熵函数最小化损失;
计算公式如下:
Figure FDA0003148115500000033
Figure FDA0003148115500000034
wj是权重;M为类别的数量,yij为指示变量,取值为0或1,如果样本i的真实类别与j相同,此时yij取值为1,否则取值为0;
Figure FDA0003148115500000035
为样本i属于类别j的预测概率;
Figure FDA0003148115500000036
是第j类样本类型的样本数量;其中wj的计算公式如下:
Figure FDA0003148115500000037
wj为第j类类别的权重,nclasses是数据集中所有类型种类数量,nsamples是数据集中的样本总数;
由以上步骤建立CNN-GRU网络模型。
5.根据权利要求1所述的方法,其特征在于,它还包括步骤5:将数据分成多份进行交叉验证,从而选择出更好的超参数。
6.一种CNN-GRU网络模型的构建方法,其特征在于,它包括以下步骤:
步骤一:构建卷积神经网络,提取游戏状态特征,生成特征矩阵,这里卷积神经网络使用多个卷积核,不同的卷积核关注不同的特征;
步骤二:使用门控循环网络(GRU)提取时间序列的依赖特征;
步骤三:使用dropout技术防止过拟合现象;
步骤四:使用多层感知器将门控循环神经网络的输出映射到线性空间;
步骤五:使用softmax函数进行标签的预测;
步骤六:使用带权重的交叉熵函数最小化损失;
采用以上步骤建立CNN-GRU网络模型。
7.根据权利要求6所述的方法,其特征在于,在步骤一中,构建卷积神经网络,提取游戏状态特征,生成特征矩阵,其计算公式如下:
xt=σcnn(wcnn⊙xt+bcnn);
xt表示当前状态和动作特征,wcnn表示过滤器的权重,bcnn表示偏差参数,σcnn是激活函数;
在步骤二中,使用门控循环网络(6RU)提取时间序列的依赖特征:
GRU重置门:
rt=σ(Wrxt+Urht-1+br)
GRU更新门:
zt=σ(Wzxt+Uzht-1+bz)
σ为sigmoid函数,W、U和b为权重和偏置项,xt即为卷积神经网络的输出,ht-1为上一个状态所传递下来的信息;更新门和重置门确定历史节点信息对当前节点信息的贡献程度;
上一状态信息经过重置后,通过权重和偏置项与当前输入进行聚合更新以形成当前时刻状态:
Figure FDA0003148115500000041
Figure FDA0003148115500000042
为当前时刻t的候选隐藏状态;W、U和b为权重和偏置项,xt为卷积神经网络的输出,rt为重置门,ht-1为上一状态的信息;tanh激活函数将数据缩放至-1到1的范围内;
Figure FDA0003148115500000043
ht为当前隐藏状态信息,zt为更新门,ht-1为上一个状态所传递下来的信息。
8.根据权利要求6所述的方法,其特征在于,在步骤三中,使用dropout对隐藏层节点进行随机丢弃,从而防止过拟合时,采用以下步骤:
使用dropout防止过拟合:
Figure FDA0003148115500000044
Figure FDA0003148115500000045
Bernoulli函数是随机生成一个概率的向量,也就是以一个概率为p的伯努利分布随机地生成与节点数相同的0、1值。
9.根据权利要求6至8其中之一所述的方法,其特征在于,在步骤四中,将经过dropout层之后的GRU网络的输出映射到线性空间时,采用以下公式:
Figure FDA0003148115500000051
f1为多层感知机(MLP)。
10.根据权利要求9所述的方法,其特征在于,在步骤五中,将多层感知机的输出作为softmax函数的输入来进行标签预测时,采用以下方式:
Figure FDA0003148115500000052
W为权重,b为偏置项,hv为多层感知机的输出,
Figure FDA0003148115500000053
为预测的标签;
在步骤六中,在使用带权重的交叉熵函数最小化损失时;
计算公式如下:
Figure FDA0003148115500000054
Figure FDA0003148115500000055
wj是权重;M为类别的数量,yij为指示变量,取值为0或1,如果样本i的真实类别与j相同,此时yij取值为1,否则取值为0;
Figure FDA0003148115500000056
为样本i属于类别j的预测概率;
Figure FDA0003148115500000057
是第j类样本类型的样本数量;其中wj的计算公式如下:
Figure FDA0003148115500000058
wj为第j类类别的权重,nclasses是数据集中所有类型种类数量,nsamples是数据集中的样本总数。
CN202110758347.2A 2021-07-05 2021-07-05 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法 Active CN113599823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110758347.2A CN113599823B (zh) 2021-07-05 2021-07-05 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110758347.2A CN113599823B (zh) 2021-07-05 2021-07-05 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法

Publications (2)

Publication Number Publication Date
CN113599823A true CN113599823A (zh) 2021-11-05
CN113599823B CN113599823B (zh) 2023-08-25

Family

ID=78304012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110758347.2A Active CN113599823B (zh) 2021-07-05 2021-07-05 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法

Country Status (1)

Country Link
CN (1) CN113599823B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180025270A1 (en) * 2016-07-22 2018-01-25 Board Of Regents, The University Of Texas System Generating sets of training programs for machine learning models
CN109508789A (zh) * 2018-06-01 2019-03-22 北京信息科技大学 预测手牌的方法、存储介质、处理器以及设备
CN109847367A (zh) * 2019-03-06 2019-06-07 网易(杭州)网络有限公司 一种游戏胜率的预测方法、模型生成方法和装置
CN110875036A (zh) * 2019-11-11 2020-03-10 广州国音智能科技有限公司 语音分类方法、装置、设备及计算机可读存储介质
CN111701234A (zh) * 2020-06-01 2020-09-25 广州多益网络股份有限公司 一种游戏胜率预测方法
CN112395163A (zh) * 2020-11-27 2021-02-23 绍兴达道生涯教育信息咨询有限公司 基于键盘和鼠标操作的计算机是否运行游戏的监测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180025270A1 (en) * 2016-07-22 2018-01-25 Board Of Regents, The University Of Texas System Generating sets of training programs for machine learning models
CN109508789A (zh) * 2018-06-01 2019-03-22 北京信息科技大学 预测手牌的方法、存储介质、处理器以及设备
CN109847367A (zh) * 2019-03-06 2019-06-07 网易(杭州)网络有限公司 一种游戏胜率的预测方法、模型生成方法和装置
CN110875036A (zh) * 2019-11-11 2020-03-10 广州国音智能科技有限公司 语音分类方法、装置、设备及计算机可读存储介质
CN111701234A (zh) * 2020-06-01 2020-09-25 广州多益网络股份有限公司 一种游戏胜率预测方法
CN112395163A (zh) * 2020-11-27 2021-02-23 绍兴达道生涯教育信息咨询有限公司 基于键盘和鼠标操作的计算机是否运行游戏的监测方法

Also Published As

Publication number Publication date
CN113599823B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN110175619B (zh) 基于机器学习模型的出牌牌组确定方法、设备及存储介质
CN111506514B (zh) 一种应用于消除类游戏的智能测试方法及***
Zhao et al. Player behavior modeling for enhancing role-playing game engagement
CN117807894B (zh) 一种面向足球对战的数据驱动强化学习方法
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、***及存储介质
CN115033878A (zh) 快速自博弈强化学习方法、装置、计算机设备和存储介质
de Almeida Rocha et al. Simulating human behaviour in games using machine learning
CN113599823B (zh) 一种基于cnn-gru模型的实时策略游戏中稀疏指令的预测方法
Lin et al. An uncertainty-incorporated approach to predict the winner in StarCraft II using neural processes
CN114662655B (zh) 一种基于注意力机制的兵棋推演ai分层决策方法及装置
Jasni et al. Prediction of player position for talent identification in association netball: a regression-based approach.
Cho et al. Investigation of the effect of “fog of war” in the prediction of starcraft strategy using machine learning
Yücel et al. Implementation of a generic framework on crowd simulation: a new environment to model crowd behavior and design video games
Krutikov et al. Evaluation the Efficienty of Forecasting Sports Events Using a Cascade of Artificial Neural Networks Based on FPGA
Álvarez-Caballero et al. Early Prediction of the Winner in StarCraft Matches.
Belyaev Mathematical model of the player control in soccer simulation
Wan et al. Building evaluation functions for chess and shogi with uniformity regularization networks
Liang Research on prediction of the game winner based on artificial intelligence methods
Dainese et al. Reader: Model-based language-instructed reinforcement learning
Chole et al. Locust Mayfly optimization-tuned neural network for AI-based pruning in Chess game
Mai Deep Learning Based Player Identification Via Behavioral Characteristics
He A Review of the Application of Artificial Intelligence in Imperfect Information Games Represented by DouDiZhu
Xue et al. Design and Implementation of Man-Machine Playing Device for Gobang Game
Vargas et al. Active learning and case-based reasoning for the deceptive play in the card game of truco
Rumsamrong et al. CRISIS-Expert: Conflict resolution and decision support in scaled-down models of serious resource management scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant