CN117217330A - Ai模型的训练方法、装置、设备及存储介质 - Google Patents

Ai模型的训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117217330A
CN117217330A CN202311198644.1A CN202311198644A CN117217330A CN 117217330 A CN117217330 A CN 117217330A CN 202311198644 A CN202311198644 A CN 202311198644A CN 117217330 A CN117217330 A CN 117217330A
Authority
CN
China
Prior art keywords
virtual objects
stage
model
groups
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311198644.1A
Other languages
English (en)
Inventor
胡欢
廖詩颺
魏温雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Cyber Tianjin Co Ltd
Original Assignee
Tencent Cyber Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Cyber Tianjin Co Ltd filed Critical Tencent Cyber Tianjin Co Ltd
Priority to CN202311198644.1A priority Critical patent/CN117217330A/zh
Publication of CN117217330A publication Critical patent/CN117217330A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

一种AI模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群;根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群;在不满足第一条件的情况下,将N组第一虚拟对象分别对应的第t+1阶段的AI模型确定为N组第一虚拟对象分别对应的训练后AI模型。N组第一虚拟对象分别对应的AI模型互相迭代训练,无需获取大量训练样本。

Description

AI模型的训练方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种AI(ArtificialIntelligence,人工智能)模型的训练方法、装置、设备及存储介质。
背景技术
游戏对局中的虚拟对象一般分为由AI模型控制的虚拟对象和由玩家控制的虚拟对象。由AI模型控制的虚拟对象与由玩家控制的虚拟对象之间的对战,可以看作是一种零和博弈。
相关技术中提供了一种AI模型的训练方法,基于专家策略,使用行为克隆模仿玩家动作,来学习专家策略,再采用PPO(Proximal Policy Optimization,近端策略优化算法)基于专家策略来对AI模型进行训练,得到训练后的AI模型。使用训练后的AI模型控制虚拟对象与玩家控制的虚拟对象进行对局。
然而上述方法需要大量的专家策略来作为训练样本,训练样本的获取难度大。
发明内容
本申请实施例提供了一种AI模型的训练方法、装置、设备及存储介质。本申请实施例提供的技术方案如下。
根据本申请实施例的一个方面,提供了一种AI模型的训练方法,所述方法包括:
获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群;其中,所述N组第一虚拟对象中的第i组第一虚拟对象对应的AI模型用于产生所述第i组第一虚拟对象对应的策略,所述第i组第一虚拟对象对应的策略用于控制所述第i组第一虚拟对象的行为,所述第i组第一虚拟对象对应的AI模型的策略种群是指所述第i组第一虚拟对象对应的AI模型产生的策略的集合,N为大于1的整数,i为小于或等于N的正整数,t为初始值为1的正整数;
根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群;
在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群满足第一条件的情况下,令t=t+1,再次执行所述根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群的步骤;其中,所述第一条件为所述N组第一虚拟对象中存在至少一组目标第一虚拟对象,所述目标第一虚拟对象对应的第t+1阶段的AI模型的策略种群,不同于所述目标第一虚拟对象对应的第t阶段的AI模型的策略种群;
在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群不满足所述第一条件的情况下,将所述N组第一虚拟对象分别对应的第t+1阶段的AI模型确定为所述N组第一虚拟对象分别对应的训练后AI模型,所述N组第一虚拟对象分别对应的训练后AI模型用于控制所述N组第一虚拟对象进行对抗。
根据本申请实施例的一个方面,提供了一种AI模型的训练装置,所述装置包括:
获取模块,用于获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群;其中,所述N组第一虚拟对象中的第i组第一虚拟对象对应的AI模型用于产生所述第i组第一虚拟对象对应的策略,所述第i组第一虚拟对象对应的策略用于控制所述第i组第一虚拟对象的行为,所述第i组第一虚拟对象对应的AI模型的策略种群是指所述第i组第一虚拟对象对应的AI模型产生的策略的集合,N为大于1的整数,i为小于或等于N的正整数,t为初始值为1的正整数;
第一训练模块,用于根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群;
第二训练模块,用于在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群满足第一条件的情况下,令t=t+1,再次执行所述根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群的步骤;其中,所述第一条件为所述N组第一虚拟对象中存在至少一组目标第一虚拟对象,所述目标第一虚拟对象对应的第t+1阶段的AI模型的策略种群,不同于所述目标第一虚拟对象对应的第t阶段的AI模型的策略种群;
确定模块,用于在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群不满足所述第一条件的情况下,将所述N组第一虚拟对象分别对应的第t+1阶段的AI模型确定为所述N组第一虚拟对象分别对应的训练后AI模型,所述N组第一虚拟对象分别对应的训练后AI模型用于控制所述N组第一虚拟对象进行对抗。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现上述AI模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述AI模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序由处理器加载并执行以实现上述AI模型的训练方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过对N组虚拟对象分别对应的AI模型进行迭代训练,其中对第t+1阶段的AI模型的训练所采用的训练样本,是由第t阶段的AI模型获得的,仅需在训练开始时获取一次训练样本,作为第1阶段的AI模型的策略种群,无需获取大量训练样本,降低AI模型的训练样本的获取难度。
另外,本申请实施例中,采用N组虚拟对象分别对应的AI模型进行训练,而不是采用自博弈的方法进行训练,更能够适应非传递性的环境,避免出现类似剪刀-石头-布的“绕圈”现象。
附图说明
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的博弈空间的示意图;
图3是本申请一个实施例提供的AI模型的训练方法的流程图;
图4是本申请一个实施例提供的方案应用场景的示意图;
图5是本申请一个实施例提供的三种博弈方法的示意图;
图6是本申请一个实施例提供的传递性环境下双方博弈策略求解的示意图;
图7是本申请一个实施例提供的非传递性环境下双方博弈策略求解的示意图;
图8是本申请一个实施例提供的博弈***策略求解结构的示意图;
图9是本申请一个实施例提供的AI模型的训练装置的框图;
图10是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在介绍本申请技术方案之前,先对本申请涉及的一些基本概念进行介绍说明。
1、游戏智能体:在游戏场景下,我们把执行强化学习的机器叫做智能体(Agent),是基于神经网络驱动的游戏AI,与之交互的东西称为环境(Environment),游戏智能体通过分析游戏环境来做合理决策,可以与其它智能体或玩家之间合作竞争,使之表现得像人类一样智能。本申请实施例中的第一虚拟对象对应的AI模型,若应用至游戏场景中,也可以称为游戏智能体。
2、RL(Reinforcement Learning,强化学习):是机器学习的范式之一,又称为增强学习,是研究在一连串的决策序列中,智能体对环境做出决策从而获得报酬,并不断改进自身决策来获取最大报酬值,在不断迭代的过程智能体获取到一个感知到决策的最优映射。
3、SL(Supervised Learning,监督学习):是机器学习的范式之一,是一种数据分析方法,从带标签的数据集训练迭代学习算法,使得模型准确分类数据或预测结果。
4、博弈论(Game Theory):又称为赛局理论,是研究多个个体或者团队之间在特定条件制约下的对局中利用相关方的策略,而实施对应策略的研究理论。在竞争对抗博弈行为中,参加斗争的各方为了各自的利益,各方必须考虑对手的各种可能决策方案,并力图选取对自己最为有利或者最为合理的方案。
5、零和博弈(Zero-Sum Game):又称为零和游戏,是博弈论的一个概念,它是指博弈各方的利益之和为零或者是一个常数,即一方有收益,其他方必有所失,在零和博弈中,博弈各方是不合作的,属于非合作博弈。如果博弈各方在不同策略组合下使得全体参与者可得益或受损的情况就是非零和博弈,非零和博弈中博弈各方存在合作的可能性。
6、BR(Best Response,最佳响应):最佳响应是当其他玩家选择固定策略时,当前玩家采取能产生对自己最有利结果的策略。
7、NE(Nash Equilibrium,纳什均衡):又称为非合作博弈均衡,是博弈论的一个重要概念,在一个博弈过程中,对于每一个玩家来说,当其他玩家不改变策略时候,当前所有玩家的策略都是最佳响应,此时,没有玩家可以通过在其余玩家策略保持不变时仅改变自身策略来获取更大收益,则称当前联合策略达到了纳什均衡,纳什均衡并不一定是博弈各方的最优解,它表达的是当前博弈环境达到一种均衡和稳定的状态。
8、FP(Fictitious Play,虚拟博弈):是一种传统的不完美信息博弈均衡求解的方法,每个玩家保持两个策略:平均策略和BR策略,在博弈中不断采取针对对手过往平均策略的分布的BR策略,然后BR策略再去更新各自当前的博弈策略,可证明平均策略在双人零和博弈中收敛至NE,但在每次迭代时候需要遍历所有博弈状态,在复杂大规模博弈中容易出现维度灾难问题。
9、SP(Self-Play,自博弈):是一种迭代式求解BR的过程,智能体使用自己(其策略)的前副本作为对手来训练更新当前策略并持续迭代下去,通过面对不断增强的对手训练自身的方式,可以防止巨大的能力差异而导致梯度消失,从而有效增加训练效率,持续提升模型能力。这种训练方法在象棋、围棋这种零和游戏中非常有效,但是需要满足两个条件:每一轮模型能力均有所提升;游戏是一个胜负可传递博弈环境(Transitive Game)。
10、FSP(Fictitious Self-Play,虚拟自博弈):是一种通过自我博弈进行策略优化的博弈模型,在每次迭代中,智能体选择针对对手(过往自己)平均策略分布的BR作为行为策略,在双人零和博弈中,智能体的平均策略可以收敛到NE,FSP将博弈论和机器学***均策略更新。
11、CFR(Counterfactual Regret Minimization,反事实后悔值最小化):是一种可以在大规模博弈对抗中生成高效策略的迭代算法,可用于求解双人零和博弈中的NE解,CFR算法通过后悔值迭代更新生成策略,模型具有可解释性。
12、PBT(Population-Base Training,种群训练):是一种可以不断丰富策略多样性的模型调优方法。大部分博弈同时具备传递性和非传递性,当博弈具有不可传递性时候(如剪刀-石头-布),SP方法难以收敛到NE,基于FP衍生出的PBT算法在模型训练期间对智能体的探索能力做进一步泛化,除了动作探索,还对很多经验固定的超参数(往往不是最优)进行自适应调整探索,在这个过程中可以产生多样化的模型策略,丰富对手池策略多样性的同时,也解决了挑选对手和响应对手两个问题。
13、策略空间:在多智能体强化学习中,每个智能体都存在一个策略空间(Policyspace),某些人工智能如AlphaStar中将之称为league,也有论文将其称之为menagerie。一个策略空间中有许多个策略,模型训练过程中会在每个智能体的策略空间以一定概率分布取出一个混合策略(Mixed Strategy)用于控制这个智能体行为,如果每次选择执行重复单一的策略,那就是一种纯策略(Pure Strategy)。如果两个智能体具有对称性,只需要维护一个策略空间即可,通常情况下需要对每一个智能体都维护一个策略空间。
14、元博弈(Meta-Game):是一站在种群视角的更高层次博弈形式,对于可以用博弈树之类方法来在计算机中进行仿真模拟的博弈环境,如果是完美信息环境可以用蒙特卡罗搜索树方式,如果非完美信息环境,则可用CFR、FSP系列算法解决。但是当博弈环境过于复杂难以用博弈树来模拟仿真时,导致无法在每个博弈状态都能准确抽象出博弈各方的混合策略来做针对性BR,此时就需要用种群的视角来看待这种博弈环境,即给博弈方各自都设计一个策略种群,基于策略种群并以一定概率分布来模拟博弈方各自的混合策略来达到相同的效果,把博弈问题从动作层面抽象到策略层面,博弈方的每个原始状态动作对应现在种群中的不同风格策略模型,此时原始博弈状态下的混合策略对应于现在风格模型种群的概率分布,即元策略,它等价于在原始博弈环境中用元策略作为混合策略进行博弈树模拟仿真。
15、策略泛化性:针对一组缓慢变化或者不变的低多样性对手组合会导致更稳定的训练,但如果变化太慢或者对手策略空间分布与真实策略空间差异较大,就会有过度拟合的风险,使得训练出来的模型在实际部署时候策略泛化性很差。
16、序贯决策(Sequential Decision):又可以叫顺序决策、序列决策,意思就是按时间顺序进行一系列决策,是一种动态的决策方式,可用于随机性或不确定性动态***最优化。
17、传递性:令R真包含于A×A,对于A中每个x,y,z,若xRy且yRz,则xRz,称R是传递的,即A上关系R是传递的。
18、非传递性:不满足上述传递性要求的,称为非传递性。
19、虚拟环境:是目标应用程序(如游戏应用程序)的客户端在终端上运行时显示(或提供)的场景,该虚拟环境是指营造出的供虚拟对象进行活动(如游戏竞技)的场景,如虚拟房屋、虚拟岛屿、虚拟地图等。该虚拟环境可以是对真实世界的仿真环境,也可以是半仿真半虚构的环境,还可以是纯虚构的环境。虚拟环境可以是二维虚拟环境,也可以是2.5维虚拟环境,或者是三维虚拟环境,本申请实施例对此不作限定。目标应用程序的客户端在终端上运行时,不同的时间段可以显示(或提供)不同的虚拟环境,相同时间段内可以显示(或提供)一个或多个虚拟环境,本申请对此不作限定。以目标应用程序为游戏应用程序为例,游戏应用程序可以在虚拟白天和虚拟黑夜显示(或提供)不同的虚拟环境;也可以是虚拟白天提供多个虚拟环境,例如提供以春夏秋冬四季为主题的四种虚拟环境。
20、虚拟对象:是指目标应用程序中提供的虚拟对象,可以是用户帐号控制的,也可以是AI模型控制的。以目标应用程序为游戏应用程序为例,虚拟对象是指用户帐号或AI模型在游戏应用程序中控制的游戏角色。虚拟对象可以是人物形态,可以是动物、卡通或者其它形态,本申请实施例对此不作限定。虚拟对象可以三维形式展示,也可以二维形式展示,本申请实施例对此不作限定。可选地,当虚拟环境为三维虚拟环境时,虚拟对象是基于动画骨骼技术创建的三维立体模型。每个虚拟对象在三维虚拟环境中具有自身的形状和体积,占据三维虚拟环境中的一部分空间。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,简称CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT(Vision Transformers),V-MOE(Vision Mixture of Expert),MAE(Masked AutoEncoder)等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(three Dimensions,三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(Artificial Intelligence GeneratedContent,简称AIGC)、对话式交互、智能医疗、智能客服、游戏AI、虚拟现实(VirtualReality,简称VR)、增强现实(Augmented Reality,简称AR)等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,本申请实施例中通过对AI模型进行训练,采用训练后AI模型来控制虚拟对象的行为。具体通过如下实施例进行说明。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。
模型训练设备10可以是诸如手机、台式电脑、平板电脑、笔记本电脑、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备,或者是其他一些具有较强计算能力的电子设备,本申请对此不作限定。模型训练设备10用于对筛选模型30进行训练。
在本申请实施例中,AI模型30是机器学习模型。可选地,模型训练设备10可以采用机器学习的方式对该AI模型30进行训练,以使得其具备较好的性能。可选地,AI模型30的训练过程如下(此处仅为简述,具体的训练过程参见下述实施例,此时不作赘述):获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群对N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群,在N组第一虚拟对象分别对应的第t+1阶段的AI模型满足第一条件的情况下,令t=t+1,基于N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,直至N组第一虚拟对象分别对应的第t+1阶段的AI模型不满足第一条件的情况下,将N组第一虚拟对象分别对应的第t+1阶段的AI模型确定为N组第一虚拟对象分别对应的训练后AI模型。
在一些实施例中,模型使用设备20可以是诸如手机、台式电脑、平板电脑、笔记本电脑、车载终端、服务器、智能机器人、智能电视、多媒体播放设备等电子设备,或者是其他一些具有较强计算能力的电子设备,本申请对此不作限定。示例性地,训练后AI模型30可以用于控制第一虚拟对象的行动。
模型训练设备10和模型使用设备20可以是两个独立存在的设备,也可以是同一个设备。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备。其中,在该计算机设备是服务器时,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。计算机设备为图1中的模型训练设备10。
游戏对局中的虚拟对象一般分为由AI模型控制的虚拟对象和由玩家控制的虚拟对象。由AI模型控制的虚拟对象与由玩家控制的虚拟对象之间的对局,可以看作是一种双人零和博弈问题。
相关技术中,提供了两种零和博弈的求解方案,以应用到针对AI模型的训练过程中。
方法1、RL+PBT+SP
RL算法:PPO是OpenAI提出的基于PG(Policy Gradient,策略梯度)的一种在线学习算法,策略梯度的主要思想是策略πt接受状态St输出动作概率分布,依据动作概率分布采样并执行动作at,得到奖励回报rt后跳到下一个状态St+1,在这样的流程下,使用策略πt收集一批样本,再用梯度下降算法学习样本规律,但是当策略的参数更新后,这些失效样本不能继续被使用,需要使用新的策略πt+1与环境互动收集样本继续更新策略,这无疑是非常耗时且效率低下的,为了解决该问题,PPO算法使用重要性采样的技术通过在训练策略分布和执行策略分布之间做数学修正,使得历史样本依旧能被拿来训练当前学习策略,PPO算法与actor-critic框架相结合,其中actor负责与环境互动收集样本,critic负责评判actor的动作好坏,从而不断优化策略。
调优方法:针对机器学习训练过程中超参数、模型结构、损失函数以及优化器等对经验选择非常敏感的因素,PBT通过异步优化的方式,在线更新训练配置(包括但不限于网络参数、训练超参数和奖励函数等),高效利用固定计算资源完成强化学习网络训练,且模型效果超过人工调参效果,PBT在训练期间对RL中的探索能力进一步泛化,除了动作探索,还对很多以前经验固定的超参数(可能不是最优)进行自适应调整探索,在这个过程中可以产生多样性的模型策略。
求解框架:SP通过迭代的方式求解双人零和博弈的BR,其中(近似)BR可以用PPO求解得到,具体迭代流程如下:
12)→(π12,*=BR(π1))→(π1,*=BR(π2,*),π2,*)→…
其中,π1是指双人零和博弈中第1方的策略,π2是指双人零和博弈中第2方的策略,π1,*是指对π1进行更新,π2,*是指对π2进行更新,BR是指求解BR。
Self-play框架经过多轮反复迭代,配合PPO训练算法和PBT调参手段来不断求解(近似)BR,随着π1和π2的策略越来越好,最终策略可以收敛至(或逼近)NE,双人零和博弈问题就可以求解了。
方法2、RL+SL
技术方案:RL算法依旧是使用PPO,但是不使用SP博弈框架迭代式求解BR,而是基于专家策略使用行为克隆(Behavior Cloning,BC)模仿玩家动作来学习专家策略πw,再用PPO算法不断去学习新模型来打败πw,这也是一种求解双人零和博弈的方法,流程如下:
w2)→(πw2,*=BR(πw))
其中,πw是指专家策略,π2是指AI模型的策略,π2,U是指对π2进行更新。
然而,上述方法1中基于SP博弈框架,利用RL算法求解BR来解决双人零和博弈问题,这种做法在很多博弈环境中均能发挥很好的作用,但是并不适用于所有双人零和博弈问题。通常而言,大部分博弈同时具备传递性和非传递性,其几何拓扑结构类似一个陀螺的形状,如图2所示,高度表示能力的高低和技能水平,而每一个横截面则表示在此能力下策略空间打法的多样性。在能力很低的时候,横截面积小,博弈具有很好的传递性,而随着能力逐步上升,横截面积逐渐增大,意味着策略循环性逐渐增多,这也符合人类的认知,即中等水平的玩家总是互有胜负且玩法特点各有差异,此时策略学***继续增高,达到了真正的超高水平时候,循环性就会变得很小,这个时候策略也越来越趋近最优解,真正做到以不变应万变的能力。
对于具有传递性的博弈环境,方法1可以很好的解决双人零和博弈问题,但是当博弈具有不可传递性时候(比如剪刀-石头-布),随着SP博弈框架的不断迭代求解BR,博弈策略容易循环压制进而出现策略空间“绕圈”现象,例如,策略πt能打败策略πt-1,策略πt+1能打败策略πt,但是策略πt+1不能打败策略πt-1,此时基于RL算法的SP博弈框架难以收敛到NE。
上述方法2中基于专家策略使用BC来模仿人类专家的动作来学***,为后续利用RL算法求解BR提供了一个高水平对手策略。在训练数据量比较大的时候,BC能够很快学习到一个较好的行为策略,例如,某围棋人工智能首先使用16万盘棋局的3000万次落子数据,仅仅凭借行为克隆这个方法,该围棋人工智能的棋力就已经超过很多业余玩家,但是BC也有很大的局限性,这种局限性在数据量比较小的时候尤为明显。具体来说两点原因,首先由于BC学习得到的策略只是基于专家策略做训练,当专家策略的数据量越大时候,专家策略的状态分布才越可能接近于真实分布,因此在满足独立同分布(抽样内样本服从总体的分布)的条件下,BC学习得到的策略才能在真实环境里预测的更准,但是实际往往并没有如此庞大数据量的专家策略能提供做训练,这会影响BC学习得到的策略泛化性和准确性。其次当使用RL算法对BC策略求解BR时候,RL面对的是一个序贯决策问题,需要通过不断与环境交互来优化自身策略,这个过程中,RL在迭代求解BR过程中状态分布与BC学习策略遇到的状态分布并不一致,只要存在一点偏差,就有可能导致下一个遇到的状态是专家策略中没有见过的。此时,由于BC没有在此状态(或者比较相近的状态)下训练过,BC策略就可能随机选择一个动作,这会导致下一个状态进一步偏离专家策略遇到的策略分布,逐步影响和带偏RL训练过程,使得利用RL求解得到的BR与真实BR存在误差。
本申请实施例提供的技术方案中,如图2所示的博弈拓扑结构,在底部初始传递性博弈环境中,可以使用基于RL算法的SP博弈框架来求解BR进而不断提高模型能力,随着模型强度的不断提高,博弈环境会进入强非传递性阶段,此时需要将问题上升一个层次,不能只关注单独的博弈本身,而是从元博弈视角进行元策略的求解,并基于策略种群去不断扩展博弈空间来生产更加丰富的AI策略,以此来增加策略多样性和鲁棒性,随着AI模型能力的持续性提升,开始进入超高水平段位,博弈非传递性逐渐减少,然后再继续使用基于RL算法的SP博弈框架来迭代训练进一步拔高模型强度。整个训练过程根据CFR采样或者均匀采样的方式来选择博弈对手的选择比例,增加训练效率,减少策略退化。根据零和博弈本身属性设计博弈方案,在传递性强的博弈环境中使用SP方法,在循环性强的博弈环境使用元博弈方法提升模型鲁棒性和行为多样性。
请参考图3,其示出了本申请一个实施例提供的AI模型的训练方法的流程图。该方法可以由图1所示的模型训练设备10执行。该方法包括如下步骤310~340中的至少一个步骤。
步骤310,获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,N为大于1的整数,t为初始值为1的正整数。
第一虚拟对象是指虚拟环境中提供的虚拟对象,该第一虚拟对象在虚拟环境中进行对抗时,不同的第一虚拟对象所采用的策略之间具有非传递性。在一些实施例中,第一虚拟对象可以理解为虚拟环境中由AI模型控制的虚拟对象,也可以简称为AI虚拟对象。示例性地,在游戏场景中,第一虚拟对象可以是游戏应用程序提供的虚拟场景中由AI模型控制的虚拟对象,第一虚拟对象可以与玩家控制的虚拟对象进行游戏对战。
N组第一虚拟对象中的第i组第一虚拟对象对应的AI模型用于产生第i组第一虚拟对象对应的策略,第i组第一虚拟对象对应的策略用于控制第i组第一虚拟对象的行为,i为小于或等于N的正整数。策略包括至少一个动作,动作是指虚拟对象在虚拟环境中进行对抗时,针对其他虚拟对象的动作做出的反应。策略是指虚拟对象所采用的动作或者动作序列。
第i组第一虚拟对象对应的AI模型的策略种群是指第i组第一虚拟对象对应的AI模型产生的策略的集合。策略种群包括至少一个策略。
在一些实施例中,一组第一虚拟对象中包括至少一个第一虚拟对象。在一些实施例中,一组第一虚拟对象可以由一个AI模型控制,也可以由多个AI模型控制,本申请对此不作限定。
在一些实施例中,N组第一虚拟对象互为对抗关系,对抗关系是指N组第一虚拟对象之间互为对立。示例性地,N=2,第1组第一虚拟对象与第2组第一虚拟对象互为对抗关系,第1组第一虚拟对象的目标为攻击第2组第一虚拟对象,并获取第2组第一虚拟对象所守护的虚拟道具。示例性地,如图4所示,第2组第一虚拟对象的目标为守护虚拟道具(宝箱)410,直至游戏对局结束,第1组第一虚拟对象的目标为获取第2组第一虚拟对象所守护的虚拟道具410(打开宝箱并获取宝箱中的宝物),图4中还示出了虚拟对象420,该虚拟对象420可以是N组第一虚拟对象中的第i组第一虚拟对象。
在一些实施例中,N组第一虚拟对象之间可以存在互为合作关系的第一虚拟对象。示例性地,N=4,其中第1组第一虚拟对象与第2组第一虚拟对象互为合作关系,第3组第一虚拟对象和第4组第一虚拟对象互为合作关系,第1组第一虚拟对象与第3组第一虚拟对象互为对抗关系,同理,第1组第一虚拟对象与第4组第一虚拟对象也互为对抗关系,第2组第一虚拟对象分别与第3组第一虚拟对象、第4组第一虚拟对象也互为对抗关系。
在一些实施例中,N组第一虚拟对象互为合作关系。示例性地,N=2,第1组第一虚拟对象与第2组第一虚拟对象互为合作关系,2组第一虚拟对象的目标为合作收集虚拟道具,并完成虚拟房屋的搭建。
以上关于N组第一虚拟对象之间的关系的说明仅为举例,N组第一虚拟对象之间的关系可以根据第一虚拟对象所处的虚拟环境来进行设置。
步骤320,根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对N组第一虚拟对象中的第i组第一虚拟对象对应的第t阶段的AI模型进行训练,得到第i组第一虚拟对象对应的第t+1阶段的AI模型,以及第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,根据除第i组第一虚拟对象外的N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对第i组第一虚拟对象对应的第t阶段的AI模型进行训练,得到第i组第一虚拟对象对应的第t+1阶段的AI模型,以及第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,根据第i组第一虚拟对象对应的第t阶段的AI模型的策略种群,对第i组第一虚拟对象对应的第t阶段的AI模型进行训练,得到第i组第一虚拟对象对应的第t+1阶段的AI模型,以及第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,如图3所示,在步骤320之后,还包括步骤350。
步骤350,判断N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群是否满足第一条件,若是,则执行下述步骤330,若否,则执行下述步骤340。
在一些实施例中,第一条件为N组第一虚拟对象中存在至少一组目标第一虚拟对象,该目标第一虚拟对象对应的第t+1阶段的AI模型的策略种群,不同于该目标第一虚拟对象对应的第t阶段的AI模型的策略种群。
在一些实施例中,某一组第一虚拟对象对应的第t阶段的AI模型的策略种群,不同于该第一虚拟对象对应的第t阶段的AI模型的策略种群的情况下,将该组第一虚拟对象确定为目标第一虚拟对象。
第t+1阶段的AI模型的策略种群不同于第t阶段的AI模型的策略种群是指,第t+1阶段的AI模型的策略种群中包括的策略,与第t阶段的AI模型的策略种群中包括的策略,不完全相同。
上述不完全相同,包括以下几种情况中的至少一种:
情况1:策略数量不同;
情况2:策略数量相同,但存在不同的策略。
示例性地,第t阶段的AI模型的策略种群中包括策略1、策略2和策略3,第t+1阶段的AI模型的策略种群中包括策略1、策略2、策略3和策略4,此时第t+1阶段的AI模型的策略种群不同于第t阶段的AI模型的策略种群。
示例性地,第t阶段的AI模型的策略种群中包括策略1、策略2和策略3,第t+1阶段的AI模型的策略种群中包括策略1、策略2和策略4,此时第t+1阶段的AI模型的策略种群不同于第t阶段的AI模型的策略种群。
步骤330,令t=t+1,再次执行步骤320。
在一些实施例中,在N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群满足第一条件的情况下,重新从“根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群”的步骤开始执行。
步骤340,将N组第一虚拟对象分别对应的第t+1阶段的AI模型确定为N组第一虚拟对象分别对应的训练后AI模型,N组第一虚拟对象分别对应的训练后AI模型用于控制N组第一虚拟对象进行对抗。
在一些实施例中,在N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群不满足第一条件的情况下,将N组第一虚拟对象分别对应的第t+1阶段的AI模型确定为N组第一虚拟对象分别对应的训练后AI模型。
在一些实施例中,N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群不满足第一条件是指,N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群均等于N组第一虚拟对应分别对应的第t阶段的AI模型的策略种群。也就是说,第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群等于第i组第一虚拟对象对应的第t阶段的AI模型的策略种群。
在一些实施例中,第t+1阶段的AI模型的策略种群等于第t阶段的AI模型的策略种群是指,第t+1阶段的AI模型的策略种群,与第t阶段的AI模型的策略种群完全相同。示例性地,第t阶段的AI模型的策略种群中包括策略1、策略2和策略3,第t+1阶段的AI模型的策略种群中包括策略1、策略2和策略3,此时第t+1阶段的AI模型的策略种群等于第t阶段的AI模型的策略种群。
在一些实施例中,根据实际应用情况的不同,第一条件也可以不同。示例性地,第一条件可以设置为,N组第一虚拟对象中的第P组第一虚拟对象,与除第P组第一虚拟对象之外的N-1组第一虚拟对象之间进行对抗的胜率大于第二阈值,其中第P组第一虚拟对象与除第P组第一虚拟对象之外的N-1组第一虚拟对象之间互为对抗关系。
需要说明的是,此处仅是对第一条件进行示例性说明,第一条件的设置可以根据虚拟环境的设置的需要来进行调整。例如,游戏中由AI模型控制的虚拟对象的强度需要控制在一个合理的范围,若由AI模型控制的虚拟对象的强度过强,导致玩家控制的虚拟对象在与AI模型控制的虚拟对象进行对抗时无法取得胜利,则可能会影响玩家对游戏的兴趣,造成玩家的流失。在该情况下,如何设置第一条件,以使得训练后AI模型控制的虚拟对象的强度处于一个合理的范围,还需设计人员基于经验来进行设置。
本申请实施例提供的技术方案,通过对N组虚拟对象分别对应的AI模型进行迭代训练,其中对第t+1阶段的AI模型的训练所采用的训练样本,是由第t阶段的AI模型获得的,仅需在训练开始时获取一次训练样本,作为第1阶段的AI模型的策略种群,无需获取大量训练样本,降低AI模型的训练样本的获取难度。
另外,本申请实施例中,采用N组虚拟对象分别对应的AI模型进行训练,而不是采用自博弈的方法进行训练,更能够适应非传递性的环境,避免出现类似剪刀-石头-布的“绕圈”现象。
针对对N组第一虚拟对象分别对应的AI模型进行训练的方法,本申请给出了示例性实施例。
在一些实施例中,上述步骤320可以包括如下步骤321~323中的至少一个步骤(图中未示出)。
步骤321,根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,计算N组第一虚拟对象分别对应的第t阶段的AI模型的元策略,第t阶段的AI模型的元策略是指第t阶段的AI模型在博弈过程中的策略分布情况。
在一些实施例中,第t阶段的AI模型的元策略,是指第t阶段的AI模型在博弈过程中采用第t阶段的AI模型的策略种群中的各个策略的概率分布情况。示例性地,第t阶段的AI模型的策略种群中包括策略1、策略2和策略3,第t阶段的AI模型的元策略则为:策略1的概率分布为0.1,策略2的概率分布为0.5,策略3的概率分布为0.4。此处仅采用小数表示概率分布来进行示例性说明,也可以采用百分比、分数等形式来表示概率分布,本申请对此不作限定。
在一些实施例中,采用求解纳什均衡的方法,根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,计算N组第一虚拟对象分别对应的第t阶段的AI模型的元策略。
在一些实施例中,根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的各个策略的配对情况,计算N组第一虚拟对象分别对应的第t阶段的AI模型的元策略。
在一些实施例中,上述步骤321可以实现为下述步骤321a~321c中的至少一个步骤(图中未示出)。
步骤321a,对N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的策略进行配对,得到第t阶段种群配对集合。
在一些实施例中,可以根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中各个策略的胜率,对N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的策略进行配对,得到第t阶段种群配对集合。
在一些实施例中,上述步骤321a可以实现为下述步骤321a1~321a2中的至少一个步骤(图中未示出)。
步骤321a1,对于第i组第一虚拟对象对应的第t阶段的AI模型,针对第i组第一虚拟对象对应的第t阶段的AI模型的策略种群中的任一个策略,预测策略与除第i组第一虚拟对象对应的第t阶段的AI模型外的N-1组第一虚拟对象对应的第t阶段的AI模型的策略种群中的每个策略进行博弈的胜率,得到策略的胜率集合。
步骤321a2,根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的各个策略的胜率集合,对N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的策略进行配对,得到第t阶段种群配对集合。
示例性地,N=2,第1组第一虚拟对象对应的第t阶段的AI模型的策略种群包括策略1、策略2和策略3,第2组第一虚拟对象对应的第t阶段的AI模型的策略种群包括策略4、策略5和策略6,分别预测策略1针对策略4、策略5和策略6的胜率、策略2针对策略4、策略5和策略6的胜率、策略3针对策略4、策略5和策略6的胜率,得到策略1的胜率集合、策略2的胜率集合和策略3的胜率集合;分别预测策略4针对策略1、策略2和策略3的胜率、策略5针对策略1、策略2和策略3的胜率、策略6针对策略1、策略2和策略3的胜率,得到策略4的胜率集合、策略5的胜率集合和策略6的胜率集合。
根据2组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的各个策略的胜率集合,对2组第一虚拟对象分别第一的第t阶段的AI模型的策略种群中策略进行配对,得到第t阶段种群配对集合。
在一些实施例中,根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的各个策略的胜率集合,对N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的策略进行配对,得到至少一个第t阶段策略配对,将至少一个策略配对确定为第t阶段种群配对集合。一个第t阶段策略配对包括N组第一虚拟对象中每组第一虚拟对象对应的第t阶段的AI模型的策略种群中的一个策略。示例性地,N=2,第1组第一虚拟对象对应的第t阶段的AI模型的策略种群包括策略1、策略2和策略3,第2组第一虚拟对象对应的第t阶段的AI模型的策略种群包括策略4、策略5和策略6,第1个第t阶段策略配对包括策略1和策略6,第2个第t阶段策略配对包括策略2和策略5,第3个第t阶段策略配对包括策略3和策略4。
在一些实施例中,N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中包括的策略的数目均相同。在一些实施例中,不同的第t阶段策略配对中,均不存在相同的策略。
在一些实施例中,N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中包括的策略的数目可能不同。在一些实施例中,不同的第t阶段策略配对中,可以存在相同的策略。
在一些实施例中,根据N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的各个策略的胜率集合,对N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的策略进行配对,使得每个配对均达到纳什均衡,进而得到第t阶段种群配对集合。
步骤321b,根据第t阶段种群配对集合,计算N组第一虚拟对象分别对应的第t阶段的AI模型的效益矩阵。
假设N=2,第1组第一虚拟对象对应的第t阶段的AI模型的策略种群中的第i个策略,与第2组第一虚拟对象对应的第t阶段的AI模型的策略种群中的第j个策略组成一个第t阶段策略配对,该第t阶段策略配对的效益为ci,j,则(ci,j)称为第1组第一虚拟对象对应的第t阶段的AI模型的效益矩阵。
在一些实施例中,某一策略配对的效益,可以是该策略配对的胜率,如上述例子中的第t阶段策略配对的效益为ci,j,可以为该第t阶段策略配对的胜率,(第1组第一虚拟对象对应的第t阶段的AI模型的策略种群中的第i个策略,相对于第2组第一虚拟对象对应的第t阶段的AI模型的策略种群中的第j个策略的胜率)。
步骤321c,基于N组第一虚拟对象分别对应的第t阶段的AI模型的效益矩阵,计算N组第一虚拟对象分别对应的第t阶段的AI模型的元策略。
在一些实施例中,采用求解纳什均衡的方法,基于N组第一虚拟对象分别对应的第t阶段的AI模型的效益矩阵,计算N组第一虚拟对象分别对应的第t阶段的AI模型的元策略。
步骤322,根据N组第一虚拟对象分别对应的第t阶段的AI模型的元策略,对N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到N组第一虚拟对象分别对应的第t+1阶段的AI模型和N组第一虚拟对象分别对应的第t+1阶段策略,第t+1阶段策略是指第t+1阶段的AI模型在博弈过程中产生的最佳策略。
在一些实施例中,上述步骤322可以实现为下述步骤322a~322b中的至少一个步骤(图中未示出)。
步骤322a,对于第i组第一虚拟对象对应的第t阶段的AI模型,根据除第i组第一虚拟对象对应的第t阶段的AI模型外的N-1组第一虚拟对象分别对应的第t阶段的AI模型的元策略,对第i组第一虚拟对象对应的第t阶段的AI模型的策略网络参数进行调整,得到第i组第一虚拟对象对应的第t+1阶段的AI模型。
步骤322b,将第i组第一虚拟对象对应的第t+1阶段的AI模型与除第i组第一虚拟对象外的N-1组第一虚拟对象对应的第t阶段的AI模型博弈的最佳策略,确定为第i组第一虚拟对象对应的第t+1阶段策略。
在一些实施例中,对于第i组第一虚拟对象对应的第t阶段的AI模型,根据除第i组第一虚拟对象对应的第t阶段的AI模型外的N-1组第一虚拟对象分别对应的第t阶段的AI模型的元策略,采用梯度回传的方法,对第i组第一虚拟对象对应的第t阶段的AI模型的策略网络参数进行调整,得到第i组第一虚拟对象对应的第t+1阶段的AI模型。
在一些实施例中,采用求解最佳响应的方法,根据除第i组第一虚拟对象对应的第t阶段的AI模型外的N-1组第一虚拟对象分别对应的第t阶段的AI模型的元策略,对第i组第一虚拟对象对应的第t阶段的AI模型的策略网络参数进行调整,得到第i组第一虚拟对象对应的第t+1阶段的AI模型。
在一些实施例中,采用求解最佳响应的方法,根据除第i组第一虚拟对象对应的第t阶段的AI模型外的N-1组第一虚拟对象分别对应的第t阶段的AI模型的元策略,计算第i组第一虚拟对象对应的第t阶段的AI模型的梯度;采用梯度回传的方法,对第i组第一虚拟对象对应的第t阶段的AI模型的策略网络参数进行调整,得到第i组第一虚拟对象对应的第t+1阶段的AI模型。
需要说明的是,对于调整第i组第一虚拟对象对应的第t阶段的AI模型的策略网络参数的方法,本申请不作限定,上述内容仅以梯度回传的方法进行举例。示例性地,也可以采用计算损失函数的方法,来调整第i组第一虚拟对象对应的第t阶段的AI模型的策略网络参数。
步骤323,根据N组第一虚拟对象分别对应的第t+1阶段策略,和N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,得到N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,将N组第一虚拟对象分别对应的第t+1阶段策略,添加至N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中,得到N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,将N组第一虚拟对象分别对应的第t+1阶段策略,添加至N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中,并进行拟人性筛选后,得到N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,上述步骤323可以实现为下述步骤323a~323b中的至少一个步骤(图中未示出)。
步骤323a,对于第i组第一虚拟对象对应的第t+1阶段的AI模型,将第i组第一虚拟对象对应的第t+1阶段的AI模型对应的第t+1阶段策略,在第i组第一虚拟对象对应的第t阶段的AI模型的策略种群中添加第i组第一虚拟对象对应的第t+1阶段策略,得到第i组第一虚拟对象对应的第t’阶段策略种群。
步骤323b,对第i组第一虚拟对象对应的第t’阶段策略种群进行拟人性筛选,得到第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,确定至少一个拟人性指标后,根据该至少一个拟人性指标,对第i组第一虚拟对象对应的第t’阶段策略种群进行拟人性筛选,得到第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,上述步骤323b可以实现为如下步骤323b1~323b6中的至少一个步骤(图中未示出)。
步骤323b1,确定至少一个拟人性指标,以及至少一个拟人性指标分别对应的阈值。
在一些实施例中,拟人性指标用于评估虚拟对象的拟人性。对于拟人性指标的设置,本申请不作限定。示例性地,将虚拟对象的拟人性动作设置为拟人性指标。例如,将虚拟对象在游戏对局中靠墙蹲下的次数设置为一个拟人性指标,将虚拟对象在游戏对局中靠近障碍物歪头的次数设置为一个拟人性指标。
在一些实施例中,对于拟人性指标对应的阈值的设置,本申请不作限定。例如,可以由开发人员基于经验设置,也可以采集用户控制虚拟对象行动的样本,根据上述样本来计算拟人性指标对应的阈值。
在一些实施例中,拟人性指标对应的阈值可以是指虚拟人物做出拟人性动作的次数,也可以是虚拟人物是否做出拟人性动作,或者虚拟人物是否没有做出非拟人性动作(例如在没有障碍物时做蹲下、歪头等动作,或者在没有互为对抗关系的虚拟对象出现时触发进攻动作),本申请对此不作限定。
需要说明的是,上述针对拟人性指标,以及拟人性指标对应的阈值的说明,仅为示例性说明,开发人员也可以基于虚拟环境的需求,来设置拟人性指标,以及拟人性指标对应的阈值。
步骤323b2,针对第i组第一虚拟对象对应的第t’阶段策略种群中的任一个策略,获取策略的各个拟人性指标分别对应的评分。
在一些实施例中,拟人性指标对应的评分是指基于拟人性指标确定的评估参数,拟人性指标对应的评分与拟人性指标对应的阈值具有相同的衡量标准。示例性地,拟人性指标为虚拟对象在游戏对局中靠墙蹲下的次数,拟人性指标的阈值为虚拟对象在游戏对局中靠墙蹲下20次,策略1针对上述拟人性指标得到的评分为虚拟对象在游戏对局中靠墙蹲下15次。
需要说明的是,拟人性指标对应的评分并非是一个分数值,而是基于与拟人性指标的阈值相同的衡量标准所得到的评估结果,本申请实施例中,仅将其称之为拟人性指标对应的评分。基于拟人性指标的衡量标准的不同,拟人性指标对应的评分可能会表现为例如是/否的判断值,也可能会表现为例如n次的次数值,也可能会表现为例如m分的评分值,本申请对此不作限定。同理,拟人性指标的阈值与拟人性指标的评分具有相同的表现形式。
步骤323b3,根据各个拟人性指标分别对应的评分,与至少一个拟人性指标对应的阈值,确定策略的各个拟人性指标分别对应的评估结果。
在一些实施例中,拟人性指标对应的评估结果包括满足拟人性要求和不满足拟人性要求两项。
在一些实施例中,在拟人性指标对应的评分,大于或等于该拟人性指标对应的阈值的情况下,确定该拟人性指标对应的评估结果为满足拟人性要求;在拟人性指标对应的评分,小于该拟人性指标对应的阈值的情况下,确定该拟人性指标对应的评估结果为不满足拟人性要求。
在一些实施例中,在拟人性指标对应的评分,与拟人性指标对应的阈值一致的情况下,确定该拟人性指标对应的评估结果为满足拟人性要求;在拟人性指标对应的评分,与该拟人性指标对应的阈值不一致的情况下,确定该拟人性指标对应的评估结果为不满足拟人性要求。
在一些实施例中,如何根据各个拟人性指标分别对应的评分,与至少一个拟人性指标对应的阈值,确定策略的各个拟人性指标分别对应的评估结果,需要根据拟人性指标的评分以及拟人性指标对应的阈值的表现形式来确定。
示例性地,若拟人性指标的阈值为虚拟对象在游戏对局中靠近障碍物歪头次数为10次,拟人性指标对应的评分为虚拟对象在游戏对局中靠近障碍物歪头的次数为15次,此时,15>10,确定该拟人性指标对应的评估结果为满足拟人性要求。
示例性地,若拟人性指标的阈值为虚拟对象在游戏对局中存在打开瞄准镜的动作,拟人性指标对应的评分为虚拟对象在游戏对局中不存在打开瞄准镜的动作,此时拟人性指标对应的评分,与拟人性指标的阈值不一致,确定该拟人性指标对应的评估结果为不满足拟人性要求。
步骤323b4,根据策略的各个拟人性指标分别对应的评估结果,对策略进行拟人性评估,得到策略的评估结果。
在一些实施例中,策略的评估结果包括满足拟人性要求和不满足拟人性要求两项。
在一些实施例中,策略的各个拟人性指标中,评估结果为满足拟人性要求的数量超过第三阈值,确定该策略的评估结果为满足拟人性要求。对于第三阈值的取值,本申请不作限定。
在一些实施例中,策略的各个拟人性指标中,某n个特定拟人性指标为满足拟人性要求,且策略的各个拟人性指标中,评估结果为满足拟人性要求的数量超过第四阈值,确定该策略的评估结果为满足拟人性要求。在一些实施例中,第四阈值与第三阈值的取值可以相同也可以不同,本申请对此不作限定。
在一些实施中,策略的各个拟人性指标分别对应的评估结果均为满足拟人性要求,确定该策略的评估结果为满足拟人性要求。
步骤323b5,根据各个策略的评估结果,在第i组第一虚拟对象对应的第t’阶段策略种群中确定K个策略,K为正整数。
在一些实施例中,将评估结果为满足拟人性要求的策略,确定为该K个策略。
在一些实施例中,K为一个动态变化的值。
在一些实施例中,不同的策略种群中评估结果为满足拟人性要求的测量的数量可能并不相同,因此不同的策略种群中能够确定的K的取值可能不同,因此说K为一个动态变化的值。
步骤323b6,将K个策略确定为第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,除了对N组第一虚拟对象分别对应的第t’阶段策略种群进行拟人性筛选外,还可以根据各个第t’阶段策略种群中的各个策略的胜率,对第t’阶段策略种群中的策略进行筛选,得到N组第一虚拟对象分别对应的AI模型的第t+1阶段策略种群。
本申请实施例提供的技术方案,一方面采用元博弈的方法,对N组虚拟对象对应的AI模型进行训练,能够适应非传递性的环境,避免因博弈环境本身自带的策略循环(如剪刀-石头-布)导致大量的无效训练。对于N组虚拟对象中的一组虚拟对象对应的AI模型,基于策略种群,基于元博弈的方法求解元策略,并在策略种群的层次不断迭代探索扩展策略空间,并在策略种群层次上求解针对其他虚拟对象对应的AI模型的最佳响应,增加了虚拟对象对应的AI模型的鲁棒性和多样性。
另外,对迭代过程中每个阶段的AI模型的策略种群均进行拟人性筛选,使得策略种群中的策略分布尽可能覆盖并且趋近真实策略分布,避免AI模型产生投机取巧的策略,以致于污染策略学习过程,以此训练出的AI模型能够产生满足要求的拟人行为。
再次,基于拟人性指标和策略的胜率对迭代过程中每个阶段的AI模型的策略种群进行筛选,提高训练效率的同时,也能够尽可能多地获取拟人性的有效信息,避免一直与某些超强策略,或者拟人性较差的投机取巧型策略进行对抗,而引起策略偏差,有利于提高训练效率和策略稳定性,减少计算资源。
对于N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群的获取方法,本申请也给出了两个示例性地实施例。
方法一:该方法可以包括如下步骤a~c中的至少一个步骤。
步骤a,获取第i组第一虚拟对象对应的行为树,第i组第一虚拟对象对应的行为树用于初始化第i组第一虚拟对象的策略种群,i为大于0,小于等于N的整数。
在一些实施例中,可以仅获取第i组第一虚拟对象对应的行为树,也可以获取N组第一虚拟对象分别对应的行为树,本申请对此不作限定。
接下来,以仅获取第i组第一虚拟对象对应的行为树为例,进行示例性说明。
在一些实施例中,第i组第一虚拟对象对应的行为树,能够初始化得到至少一个策略。
在一些实施例中,第i组第一虚拟对象对应的行为树可以是开发人员编写的,也可以是基于现有数据获取的,或者根据用户控制的第一虚拟对象的行为采样得到的,本申请对此不作限定。
步骤b,根据第i组第一虚拟对象对应的行为树对除第i组第一虚拟对象外的N-1组第一虚拟对象对应的AI模型进行训练,得到N-1组第一虚拟对象分别对应的第t阶段的AI模型和N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群。
在一些实施例中,根据第i组第一虚拟对象对应的行为树,确定第i组第一虚拟对象对应的AI模型的策略种群,根据第i组第一虚拟对象对应的AI模型的策略转圈,对除第i组第一虚拟对象外的N-1组第一虚拟对象对应的AI模型进行训练,得到N-1组第一虚拟对象对应的第t阶段的AI模型,以及N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群。
对于N-1组第一虚拟对象分别对应的AI模型的训练过程,可以参考上述对N组第一虚拟对象分别对应的第t阶段的AI模型的训练过程,本申请在此不再一一赘述。
步骤c,采用N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群对第i组第一虚拟对象对应的AI模型进行训练,得到第i组第一虚拟对象对应的第t阶段的AI模型,和第i组第一虚拟对象对应的第t阶段的AI模型的策略种群。
在一些实施例中,采用N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群对第i组第一虚拟对象对应的AI模型进行训练,得到第i组第一虚拟对象对应的第t阶段的AI模型,和第i组第一虚拟对象对应的第0阶段的AI模型的策略种群;根据第i组第一虚拟对象对应的第0阶段的AI模型的策略种群和第i组第一虚拟对象对应的行为树,确定第i组第一虚拟对象对应的第t阶段的AI模型的策略种群。
在一些实施例中,在第i组第一虚拟对象对应的第0阶段的AI模型的策略种群中,添加基于第i组第一虚拟对象对应的行为树初始化得到的策略,得到第i组第一虚拟对象对应的第t阶段的AI模型的策略种群。
对于第i组第一虚拟对象分别对应的AI模型的训练过程,可以参考上述对N组第一虚拟对象分别对应的第t阶段的AI模型的训练过程,本申请在此不再一一赘述。
通过上述方法,可以在较为简单的步骤中,获取所需的训练数据,方案更加简单,节省计算资源。
以N组第一虚拟对象互为对抗关系为例,例如N=2,第1组第一虚拟对象中在游戏对局中的目标为守护虚拟道具,第2组第一虚拟对象在游戏对局中的目标为获取上述虚拟道具,这是一个非对称零和博弈任务,其中第1组第一虚拟对象与第2组第一虚拟对象二者之间的策略空间不对称,因此博弈双方需要各自维护自己的策略空间。参考图2可知,上述非对称零和博弈任务是一个包含传递性和非传递性的博弈环境。在训练初期阶段,博弈传递性比较强,策略强度和拟人性要求都没有太高,可以直接基于传统的自博弈框架,例如强化信息的方法求解近似最佳响应,即可使得第一虚拟对象对应的AI模型初步满足强度要求。但是处于高仿真的博弈环境中,对AI模型控制的第一虚拟对象所采用的策略的拟人性具有要求,因此即使是在初期传递性阶段,也需要确保策略的拟人性。所以我们训练时候可以人工制定一些符合拟人性要求的AI模型作为对手,让AI模型和这些对手进行对战,并互相迭代训练,这样就可以在传递性阶段训练出满足强度要求,还能兼顾初级水平的拟人性表现,来面对初级段位的用户。关于上述初级阶段的训练过程,可以参考下述方法二实施例的内容。
但是随着AI模型强度的进一步提高,由图2可见,策略会进入非传递性阶段,此时策略循环现象比较明显,不同策略之间相互克制也慢慢出现,如何在这样的非传递性阶段进一步提高模型强度的同时兼顾拟人行为,对于生产高水平拟人的AI模型具有非常重要的意义,通过离散分解博弈空间,让策略种群自行探索新策略,同时包装一层拟人性筛选机制确保策略迭代过程中始终不失拟人性,关于这一部分内容可以参考上述实施例。随着模型强度持续提高进入超高水平阶段,这个时候非传递性降低,博弈环境逐渐进入传递性阶段,至于是否需要继续往上拔高模型强度,取决于业务需求,因为在实际使用过程中,有时候并不是AI模型越强越好,训练出一个超强的AI,可能对于用户并不友好,反而是在具有一定强度和拟人性的时候,和用户彼此互有胜负,能让用户感受到游戏乐趣可能更重要。
方法二:该方法包括如下步骤1~6中的至少一个步骤。
步骤1,获取M组第二虚拟对象中的第j组第二虚拟对象对应的初始AI模型的行为树,第j组第二虚拟对象对应的初始AI模型的行为树用于初始化第j组第二虚拟对象对应的初始AI模型的策略种群,i为小于等于M的正整数,M为大于等于N的整数。
在一些实施例中,M的取值可以与N的取值相同,也可以与N的取值不同,本申请对此不作限定。
在一些实施例中,第二虚拟对象对应的初始AI模型与第一虚拟对象对应的AI模型可以是具有相同模型结构的AI模型,也可以是具有不同模型结构的AI模型,本申请对此不作限定。
在一些实施例中,M组第二虚拟对象分别对应的初始AI模型具有不同的策略风格。
在一些实施例中,不同的第二虚拟对象对应的初始AI模型的策略风格是由开发人员基于经验设置的,也可以是基于用户控制虚拟对象的策略进行采样后归纳得到的,本申请对此不做限定。
在一些实施例中,可以仅获取第i组第一虚拟对象对应的行为树,也可以获取N组第一虚拟对象分别对应的行为树,本申请对此不作限定。
接下来,以仅获取第i组第一虚拟对象对应的行为树为例,进行示例性说明。
步骤2,根据第j组第二虚拟对象对应的初始AI模型的行为树对除第j组第二虚拟对象外的M-1组第二虚拟对象对应的初始AI模型进行训练,得到M-1组第二虚拟对象分别对应的第1阶段的初始AI模型和M-1组第二虚拟对象分别对应的初始AI模型的策略种群。
在初始训练阶段,博弈环境具有比较好的传递性,可以使用基于RL算法的自博弈求解非对称双人零和博弈策略。由于是非对称性博弈,所以不能直接用Naive Self-Play(朴素自博弈)或Best-Win Self-Play(最佳胜利自博弈)这种基于自身历史副本AI模型池挑选对手的方法做训练,非对称博弈任务下博弈双方策略空间不同,所以对手池中的AI模型不能再用自己过往历史AI模型,而应该互相从各自对手历史副本AI模型池挑选对手来训练自身策略,如图5所示。
Naive Self-Play的方法如图5(a)所示,其训练过程中是采用最新的AI模型作为对手,来训练该最新的AI模型,对于M组第二虚拟对象中第j组第二虚拟对象来说,就是采用第j组第二虚拟对象对应的第k阶段的初始AI模型作为对手,来训练采用第j组第二虚拟对象对应的第k阶段的初始AI模型,然而该方法训练得到的初始AI模型容易出现循环的现象,比如第k阶段的初始AI模型能够击败第k-1阶段的初始AI模型,第k+1阶段的初始AI模型能够击败第k阶段的初始AI模型,然而第k+1阶段的初始AI模型无法击败第k-1阶段的初始AI模型。
Best-Win Self-Play的方法如图5(b)所示,其训练过程中采用历史中最新的AI模型作为对手,来训练最新的AI模型,对于M组第二虚拟对象中第j组第二虚拟对象来说,就是采用第j组第二虚拟对象对应的第k阶段的初始AI模型作为对手,来训练采用第j组第二虚拟对象对应的第k+1阶段的初始AI模型。
本申请实施例中所采用的对M组第二虚拟对象分别对应的初始AI模型的训练方法,如图5(c)所示。以M=2为例,采用第1组第二虚拟对象对应的第1至第k阶段的初始AI模型作为对手,来训练第2组第二虚拟对象对应的第k+1阶段的初始AI模型。如图5(c)所示,采用第1组第二虚拟对象对应的第1阶段的初始AI模型作为对手,来训练第2组第二虚拟对象对应的第2阶段的初始AI模型,采用第1组第二虚拟对象对应的第1和第2阶段的初始AI模型作为对手,来训练第2组第二虚拟对象对应的第3阶段的初始AI模型;采用第2组第二虚拟对象对应的第1阶段的初始AI模型作为对手,来训练第1组第二虚拟对象对应的第2阶段的初始AI模型,采用第2组第二虚拟对象对应的第1和第2阶段的初始AI模型作为对手,来训练第1组第二虚拟对象对应的第3阶段的初始AI模型。
步骤3,采用M-1组第二虚拟对象分别对应的第1阶段的初始AI模型的策略种群对第j组第二虚拟对象对应的初始AI模型进行训练,得到第j组第二虚拟对象对应的第1阶段的初始AI模型,和第j组第二虚拟对象对应的第1阶段的初始AI模型的策略种群。
在一些实施例中,M组第二虚拟对象分别对应的初始AI模型的参数可以是基于经验设置的,也可以是初始参数,本申请对此不作限定。
在一些实施例中,对第二虚拟对象对应的初始AI模型进行训练的过程中,对初始AI模型的策略网络参数的调整方法与上述对第一虚拟对象对应的AI模型的策略网络参数的调整方法可以相同,也可以不同,本申请对此不作限定。
步骤4,对于M组第二虚拟对象中的第j组第二虚拟对象对应的初始AI模型,采用除第j组第二虚拟对象对应的初始AI模型外的M-1组第二虚拟对象分别对应的初始AI模型对应的策略种群集合,对第j组第二虚拟对象对应的第k阶段的初始AI模型进行训练,得到第j组第二虚拟对象对应的第k+1阶段的初始AI模型,初始AI模型的策略种群集合是指第1至第k-1阶段的初始AI模型的策略种群的集合,k为大于1的整数,f为小于等于M的正整数。
步骤5,在M组第二虚拟对象对应的第k阶段的初始AI模型满足第二条件的情况下,根据M组第二虚拟对象分别对应的第k阶段的初始AI模型的策略种群,确定N组第一虚拟对象分别对应的AI模型的第t阶段的AI模型的策略种群,其中N组第一虚拟对象分别与M组第二虚拟对象中的一个或多个具有关联关系;其中,第二条件为M组第二虚拟对象中存在至少一组第二虚拟对象对应的第k阶段的初始AI模型的胜率超过第一阈值。
在一些实施例中,第一阈值可以是基于虚拟环境的需求来设置的。示例性地,对于游戏提供的虚拟环境,第一阈值可以依据初始AI模型所需应用的段位来设置。
在一些实施例中,在M=N,且M组第二虚拟对象对应的第k阶段的初始AI模型满足第二条件的情况下,将M组第二虚拟对象对应的第k阶段的初始AI模型确定为N组第一虚拟对象对应的第t阶段的AI模型。
在一些实施例中,根据M组第二虚拟对象与N组第一虚拟对象之间的对应关系,确定N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群。
在一些实施例中,对于第i组第一虚拟对象,将第i组第一虚拟对象对应的b组第二虚拟对象分别对应的初始AI模型的第1至第k阶段的初始AI模型的策略种群,确定为第i个策略种群,b为正整数;对第i个策略种群进行采样,得到第i组第一虚拟对象对应的第t阶段的AI模型的策略种群。
在一些实施例中,对第i个策略种群进行均匀采样。
在一些实施例中,对第i个策略种群进行CFR采样。示例性地,计算第i个策略种群中各个策略分别对应的遗憾值,根据各个策略分别对应的遗憾值进行采样。
在一些实施例中,根据各个策略分别对应的遗憾值,在第i个策略种群中选择强度最高的Q个策略,作为第i组第一虚拟对象对应的第t阶段的AI模型的策略种群,Q为正整数。
步骤6,在M组第二虚拟对象分别对应的第k阶段的初始AI模型不满足第二条件的情况下,令k=k+1,再次从采用除第j组第二虚拟对象外的M-1组第二虚拟对象分别对应的初始AI模型的策略种群集合,对第j组第二虚拟对象对应的第k阶段的初始AI模型进行训练,得到第j组第二虚拟对象对应的第k+1阶段的初始AI模型的步骤开始执行。
在一些实施例中,为了保证策略的拟人性,在训练过程中,对各个阶段的初始AI模型分别对应的策略种群进行拟人性筛选。对于拟人性筛选的内容,可以参考上述实施例中的叙述,本申请在此不再一一赘述。
通过上述方法,采用变形的虚拟博弈的方法来对初级阶段的AI模型进行训练,更贴合初级阶段博弈环境具有传递性的特点,当进入高级阶段,则可以根据业务对于AI模型的强度的要求,再决定是否继续对AI模型进行训练,若需要继续进行训练的话,也可以采用上述方法,对N组第一虚拟对象分别对应的训练后AI模型继续进行训练,以达到最终的业务需求。
在一些实施例中,N=2,N组第一虚拟对象对应的AI模型包括进攻AI模型和防守AI模型,进攻AI模型控制的虚拟对象在对抗中处于进攻方,防守AI模型控制的虚拟对象在对抗中处于防守方。
在一些实施例中,M组第二虚拟对象对应的初始AI模型包括初始防守AI模型和初始进攻AI模型,初始进攻AI模型控制的虚拟对象在对抗中处于进攻方,初始防守AI模型控制的虚拟对象在对抗中处于防守方。
在一些实施例中,M组第二虚拟对象对应的初始AI模型中包括1个初始防守AI模型,和M-1个初始进攻AI模型。
接下来,将以N=2,N组第一虚拟对象对应的AI模型包括进攻AI模型和防守AI模型,M组第二虚拟对象对应的初始AI模型中包括1个初始防守AI模型,和M-1个初始进攻AI模型为例,对本申请实施例提供的技术方案进行示例性说明。
示例性地,如图6所示,M=7,其中包括1个初始守护AI模型,和6个初始进攻AI模型,6个初始进攻AI模型分别对应偷袭风格、激进风格、冲箱风格、缠斗风格、狙击风格、猥琐风格六种风格。
首先获取初始防守AI模型对应的行为树,采用初始防守AI模型对应的行为树来训练上述6种风格的初始进攻AI模型,得到偷袭风格0、激进风格0、冲箱风格0、缠斗风格0、狙击风格0、猥琐风格0(以下实施例中以风格名称来简称具有对应风格的初始进攻AI模型)。
在训练的第一轮,如图6中圈1所示,采用偷袭风格0、激进风格0、冲箱风格0、缠斗风格0、狙击风格0、猥琐风格0的策略种群,来训练初始守护AI,得到守金AI0(以下实施例中以守金AI来简称初始守护AI模型)。
在训练的第二轮,如图6中圈2所示,首先采用守金AI0的策略种群对偷袭风格0、激进风格0、冲箱风格0、缠斗风格0、狙击风格0、猥琐风格0进行训练,得到偷袭风格1、激进风格1、冲箱风格1、缠斗风格1、狙击风格1、猥琐风格1;如图6中圈3所示,然后采用偷袭风格0&1(偷袭风格0和偷袭风格1,简称为偷袭风格0&1)、激进风格0&1、冲箱风格0&1、缠斗风格0&1、狙击风格0&1、猥琐风格0&1的策略种群,对守金AI0进行训练,得到守金AI1。
在训练的第三轮,如图6中圈4所示,首先采用守金AI1的策略种群对偷袭风格1、激进风格1、冲箱风格1、缠斗风格1、狙击风格1、猥琐风格1进行训练,得到偷袭风格2、激进风格2、冲箱风格2、缠斗风格2、狙击风格2、猥琐风格2;如图6中圈5所示,然后采用偷袭风格0&1&2(偷袭风格0和偷袭风格1和偷袭风格2,简称为偷袭风格0&1&2)、激进风格0&1&2、冲箱风格0&1&2、缠斗风格0&1&2、狙击风格0&1&2、猥琐风格0&1&2的策略种群,对守金AI1进行训练,得到守金AI2。
以此类推,在守金AI针对六种风格的初始进攻AI模型的胜率未达到设定阈值的情况下,继续进行迭代训练,直至守金AI针对六种风格的初始进攻AI模型的胜率达到设定阈值,再停止迭代训练,并将各轮迭代得到的守金AI的策略种群确定为第t阶段的守护AI模型的策略种群,将各轮迭代得到的六种风格的初始进攻AI模型的策略种群确定为第t阶段的进攻AI模型的策略种群。
在一些实施例中,可以将最后一轮迭代得到的守金AI确定为第t阶段的防守AI模型,也可以将最后一轮迭代得到的守金AI确定为第t-1阶段的防守AI模型,本申请对此不作限定。
示例性地,假设A和B分别为防守方和进攻方的两个策略种群,各自的效益矩阵为M和N,随机初始化各自的元策略π=UNIFORM(A),ρ=UNIFORM(B),其中π是指防守AI模型的元策略,ρ是指进攻AI模型的元策略。当然也可以采用求解纳什均衡的方法进行元策略的初始化,本申请对此不作限定。将原始博弈空间G分解离散化,开启循环t∈{1,2,3…}。这里的将原始博弈空间G分解离散化是指元博弈是站在更高的视角上去看待上述零和博弈的求解问题的,因此需要将原始博弈任务分解为若干个子博弈任务,在较低的维度的子博弈空间上求解博弈双方的纳什均衡,然后基于RL算法对NE求解(近似)BR,再把BR策略加入到当前各自的策略集合来扩展成更高维博弈空间,这样一轮一轮的迭代,直到子博弈空间扩展到全博弈空间,最终等价于直接在原始博弈空间求解元策略。用这种逐步迭代分解的方式去求解元策略的方法对比直接在原始博弈空间求解,好处在于可以控制求解精度,因为并非所有的博弈任务都需要求解到NE解,或者说NE策略中可能有很多策略是多余的,求解NE解也非常耗时,所以上述迭代求解的方式可以做到控制求解精度的同时提高训练效率。
具体地求解方法如图7所示,如果At≠At-1,或者Bt≠Bt-1,即任意一方的策略种群未停止扩张时,则求解子博弈空间下的元策略:
其中,At是指第t阶段的防守AI模型的策略种群,At-1是指第t-1阶段的防守AI模型的策略种群,Bt是指第t阶段的进攻AI模型的策略种群,Bt-1是指第t-1阶段的进攻AI模型的策略种群,πt是指第t阶段的防守AI模型的元策略,ρt是指第t阶段的进攻AI模型的元策略,Mt是指第t阶段的防守AI模型的效益矩阵,Nt是指第t阶段的进攻AI模型的效益矩阵,NE是指求解纳什均衡。
基于RL算法求解防守AI模型和进攻AI模型双方的元策略针对BR(防守AI模型针对进攻AI模型的元策略的BR,进攻AI模型针对防守AI模型的元策略的BR):
at=BRRLt),bt=BRRLt)
其中,at是指防守AI模型的第t+1阶段策略,bt是指进攻AI模型的第t+1阶段策略,BRRL是指基于RL的方法求解BR。
扩张防守AI模型和进攻AI模型双方的策略种群,并进行best-n筛选:
At+1=BEST_n(At∪{at}),Bt+1=BEST_n(Bt∪{bt})
其中,At+1是指第t+1阶段的防守AI模型的策略种群,Bt+1是指第t+1阶段的进攻AI模型的策略种群,BEST_n是指进行best-n筛选。
在一些实施例中,best-n筛选可以是上述拟人性筛选,也可以是上述基于胜率的筛选,也可以是拟人性筛选和基于胜率的筛选的结合。
如果At=At-1,且Bt=Bt-1,停止上述迭代过程,将最后一轮迭代得到的防守AI模型作为训练后防守AI模型,将最后一轮迭代得到的进攻AI模型作为训练后进攻AI模型。
另外需要说明的是,图7中所示的是随机初始化防守AI模型和进攻AI模型双方策略种群的方法,并非是基于上述变形的虚拟博弈方法获取的防守AI模型和进攻AI模型双方的策略种群。
上述方法统一了元博弈下的种群训练,基于RL算法的BR求解以及博弈空间逐层扩张三个部分,将复杂博弈任务下的高维博弈空间分解离散化,简化为有限低维子博弈空间博弈,具有良好的扩展性,避免了1v 1训练AI模型时,策略会过拟合到另一方的弱点针对打法上。在实际应用中,往往无需训练至迭代结束,最糟糕的情况是遍历所有子博弈空间直到最后扩张到全博弈空间,此时迭代出来的元策略等价于直接在全博弈空间下求解真实元策略,如果未探索完所有博弈空间就停止策略种群扩张,那说明原始真实策略种群集中已经没有新的策略能作为当前种群均衡解的针对BR来进一步提升收益,说明此时算法迭代已经探索到原始博弈空间的均衡点。如图7所示,元博弈求解器基于策略种群集合求解各自混合纳什均衡策略,解决了如何互相挑选训练对手的问题,利用RL算法求解针对BR来寻求新的反制策略,解决了如何响应对手的问题,所形成的新的反制策略加入策略种群池中,然后使用best-n机制做拟人性筛选形成新的策略种群,相互配对并和博弈环境交互,更新彼此效益矩阵,形成更高维的效益矩阵,反复循环迭代,直到没有新的拟人性策略产生。
为了避免一些用卡机制漏洞来获胜的种群引入到策略种群中,每轮迭代都需要对各自策略种群做拟人性筛选,基于拟人性指标评估出n个最符合人类打法的策略种群,n是一个动态变化的数,在训练前期符合拟人性要求的策略种群数量比较小,随着博弈空间的不断扩张,彼此策略鲁棒性逐渐增强,攻守双方彼此都在成长衍化出多样化的策略,拟人性策略也逐渐丰富增多,n也会逐渐变大,随着博弈空间的持续增大策略种群池集合最终趋于稳定,n最终也趋近于常数,此时取出防守方的策略种群以及元策略,作为最终的防守AI模型的策略种群,这种动态筛选并维护拟人性策略种群的方法,可以随着迭代训练的不断进行,逐渐剔除掉前面不合理打法或者卡机制漏洞的策略,避免因与这些投机取巧策略对战而引起的策略偏差,提高训练效率的同时也增强了策略拟人性和稳定性,减少了计算资源消耗。区别于传递性环境下非对称双人零和博弈,依据人类先验设定几种特定风格的进攻方策略种群,然后攻守双方基于自博弈框架互相迭代求解BR,这在简单传递性环境中可以适用,因为策略循环性较小,打法比较固定不变,可以人为引导策略出现特定几种风格化打法差异,但是模型能力提高进入到非传递性环境博弈时候,打法变得非常多样,而且互相之间存在克制关系,这时不能简单地人为制定几种风格去让策略种群做自博弈,而是需要通过分解离散化博弈空间的方式,让策略种群自己去发现和探索扩张更多可行打法策略种群,并用best-n筛选机制作为策略拟人性保障,逐轮迭代中可以防止对特定策略的响应过度拟合,并且能产生具有拟人性的反制策略,这样可以让学***模型能拥有多样化打法的要求,而不是收敛到单一的固定打法套路,这是单一的自博弈打法所不具备的能力。
其实不难发现,在上述算法流程中,如果双方的元策略分布不是去求NE,而是直接使用当前各自策略种群集合中最新的那个策略模型,双方拿彼此最新的模型作为对手互相迭代求解BR,这其实就是自博弈打法了,或者直接使用均匀分布作为元策略,各自策略种群池均匀挑选对手模型做BR,这其实就是虚拟博弈打法了,也就是前文所述的传递性环境下使用的博弈求解方案,所以上述算法流程可以统一非传递性博弈环境和传递性博弈环境中BR策略求解,成为一种通用的非对称双人零和博弈求解方案。
对于一个双人零和博弈任务,我们可以基于RL算法求解一个丰富多样的策略种群集,再依据种群的NE解去做博弈决策。基于RL求解的博弈***结构图如图8所示,在传统的分布式强化学习求解框架基础上,新增League Manager零和博弈求解模块从策略种群层次构造一个元博弈,其中双方策略种群互相匹配形成高维效益矩阵用来评估当前环境下彼此策略好坏,再进行AI模型间的种群策略交互求解BR,持续扩充彼此种群池,这种架构可以作为基于分布式强化学习框架求解双人零和博弈任务的通用方案。
在一些实施例中,上述技术方案是先固定一方的对手池再来训练另一方,找到新的克制策略加入对手池,双方重复这个过程不断迭代。也可以直接使用multi-agent(多智能体)的技术,同时训练己方和对手方,双方策略交互过程中共同衍化成长,但是也会面临策略训练不稳定的问题,因为双方策略都在变动,可能需要很长的时间才能收敛,需要进一步研究如何稳定训练过程,降低方差。而且multi-agent技术对模型训练设备也具有较高的要求,会耗费更大的训练资源。
本申请实施例提供的技术方案,深入分析传统自博弈打法的弊端,结合博弈环境本身的传递性属性,提出一种混合博弈求解方案,训练出满足策划要求的高强度守护策略的同时也兼顾了策略行为拟人性需求。训练期间使用的几种方案效果对比说明如下:
最开始使用naive self-play或者best-win self-play训练的时候,每次都是拿彼此最新的或者最好的对手模型对战,策略很容易收敛到固定套路打法上,而且很容易出现策略“绕圈”导致大量无效训练,最终策略表现很糟糕。
开始使用fictitious self-play(虚拟自博弈)+CFR采样对手,通过引入历史对手集合,依据对战胜率自适应采样对手,双方不断地对另一方的对手历史集合求解BR,然后再加入到各自策略池,增加了训练效率的同时,也避免了出现策略遗忘,策略强度出现稳步提升,但是策划体验下来,依然觉得打法怪异不像人,需要提高拟人性的前提下继续提升强度。
使用基于self-play+元博弈的混合方案,由于实际方案不止需要强度的提升,也需要有拟人性的行为,简单来说,就是打法像人的基础上有高强度,使用FSP+CFR的方式虽然能保证强度提升,但是拟人性依旧无法满足需求,因为虽然就算能训练出完全克制对手历史集合的所有模型,但是并不能保证这些对手历史集合模型是满足真实玩家的策略分布,里面可能充斥着大量怪异甚至不合理的打法,与这些对手训练,不管是CFR采样还是均匀采样,最终都会污染防守方策略的学习,从而体验的时候表现得十分怪异。而通过self-play+元博弈的方式,从策略种群的层次求解元策略,再求元策略的针对性BR,然后引入到策略池中,并引入了best-n的筛选机制对策略池进行拟人性评估,保证对手历史集合的策略分布尽可能符合真实玩家策略分布,这样不停的迭代循环,随着策略种群池的持续扩大,策略多样性和拟人性也不断提升,减少训练资源消耗的同时加速训练效率,这种训练方式下学习出来的策略有高强度的同时也兼顾了多样化拟人性打法表现,符合策划需求并达到上线效果。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,其示出了本申请一个实施例提供的AI模型的训练装置的框图。该装置具有实现上述AI模型的训练方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的终端设备,也可以设置在终端设备中。如图9所示,该装置900可以包括:获取模块910、第一训练模块920、第二训练模块930和确定模块940。
获取模块910,用于获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群;其中,所述N组第一虚拟对象中的第i组第一虚拟对象对应的AI模型用于产生所述第i组第一虚拟对象对应的策略,所述第i组第一虚拟对象对应的策略用于控制所述第i组第一虚拟对象的行为,所述第i组第一虚拟对象对应的AI模型的策略种群是指所述第i组第一虚拟对象对应的AI模型产生的策略的集合,N为大于1的整数,i为小于或等于N的正整数,t为初始值为1的正整数。
第一训练模块920,用于根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群。
第二训练模块930,用于在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群满足第一条件的情况下,令t=t+1,再次执行所述根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群的步骤;其中,所述第一条件为所述N组第一虚拟对象中存在至少一组目标第一虚拟对象,所述目标第一虚拟对象对应的第t+1阶段的AI模型的策略种群,不同于所述目标第一虚拟对象对应的第t阶段的AI模型的策略种群。
确定模块940,用于在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群不满足所述第一条件的情况下,将所述N组第一虚拟对象分别对应的第t+1阶段的AI模型确定为所述N组第一虚拟对象分别对应的训练后AI模型,所述N组第一虚拟对象分别对应的训练后AI模型用于控制所述N组第一虚拟对象进行对抗。
在一些实施例中,所述第一训练模块920,用于根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,计算所述N组第一虚拟对象分别对应的第t阶段的AI模型的元策略,所述第t阶段的AI模型的元策略是指所述第t阶段的AI模型在博弈过程中的策略分布情况;根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的元策略,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型和所述N组第一虚拟对象分别对应的第t+1阶段策略,所述第t+1阶段策略是指所述第t+1阶段的AI模型在博弈过程中产生的最佳策略;根据所述N组第一虚拟对象分别对应的第t+1阶段策略,和所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,所述第一训练模块920,用于对所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的策略进行配对,得到第t阶段种群配对集合;根据所述第t阶段种群配对集合,计算所述N组第一虚拟对象分别对应的第t阶段的AI模型的效益矩阵;基于所述N组第一虚拟对象分别对应的第t阶段的AI模型的效益矩阵,计算所述N组第一虚拟对象分别对应的第t阶段的AI模型的元策略。
在一些实施例中,所述第一训练模块920,用于对于所述第i组第一虚拟对象对应的第t阶段的AI模型,针对所述第i组第一虚拟对象对应的第t阶段的AI模型的策略种群中的任一个策略,预测所述策略与除所述第i组第一虚拟对象对应的第t阶段的AI模型外的N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的每个策略进行博弈的胜率,得到所述策略的胜率集合;根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的各个策略的胜率集合,对所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的策略进行配对,得到所述第t阶段种群配对集合。
在一些实施例中,所述第一训练模块920,用于对于所述第i组第一虚拟对象对应的第t阶段的AI模型,根据除所述第i组第一虚拟对象对应的第t阶段的AI模型外的N-1组第一虚拟对象分别对应的第t阶段的AI模型的元策略,对所述第i组第一虚拟对象对应的第t阶段的AI模型的策略网络参数进行调整,得到第i组第一虚拟对象对应的第t+1阶段的AI模型;将所述第i组第一虚拟对象对应的第t+1阶段的AI模型与除所述第i组第一虚拟对象外的N-1组第一虚拟对象对应的第t阶段的AI模型博弈的最佳策略,确定为所述第i组第一虚拟对象对应的第t+1阶段策略。
在一些实施例中,所述第一训练模块920,用于对于所述第i组第一虚拟对象对应的第t+1阶段的AI模型,将所述第i组第一虚拟对象对应的第t+1阶段的AI模型对应的第t+1阶段策略,在所述第i组第一虚拟对象对应的第t阶段的AI模型的策略种群中添加所述第i组第一虚拟对象对应的第t+1阶段策略,得到所述第i组第一虚拟对象对应的第t’阶段策略种群;对所述第i组第一虚拟对象对应的第t’阶段策略种群进行拟人性筛选,得到第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群。
在一些实施例中,所述第一训练模块920,用于确定至少一个拟人性指标,以及所述至少一个拟人性指标分别对应的阈值;针对所述第i组第一虚拟对象对应的第t’阶段策略种群中的任一个策略,获取所述策略的各个拟人性指标分别对应的评分;根据所述各个拟人性指标分别对应的评分,与所述至少一个拟人性指标对应的阈值,确定所述策略的各个拟人性指标分别对应的评估结果;根据所述策略的各个拟人性指标分别对应的评估结果,对所述策略进行拟人性评估,得到所述策略的评估结果;根据各个策略的评估结果,在所述第i组第一虚拟对象对应的第t’阶段策略种群中确定K个策略,K为正整数;将所述K个策略确定为所述第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群;其中,K为一个动态变化的值。
在一些实施例中,所述获取模块910,用于获取所述第i组第一虚拟对象对应的行为树,所述第i组第一虚拟对象对应的行为树用于初始化所述第i组第一虚拟对象的策略种群;根据所述第i组第一虚拟对象对应的行为树对除所述第i组第一虚拟对象外的N-1组第一虚拟对象对应的AI模型进行训练,得到所述N-1组第一虚拟对象分别对应的第t阶段的AI模型和所述N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群;采用所述N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群对所述第i组第一虚拟对象对应的AI模型进行训练,得到所述第i组第一虚拟对象对应的第t阶段的AI模型,和所述第i组第一虚拟对象对应的第t阶段的AI模型的策略种群。
在一些实施例中,所述获取模块910,用于获取M组第二虚拟对象中的第j组第二虚拟对象对应的初始AI模型的行为树,所述第j组第二虚拟对象对应的初始AI模型的行为树用于初始化所述第j组第二虚拟对象对应的初始AI模型的策略种群,M为大于或等于N的整数;根据所述第j组第二虚拟对象对应的初始AI模型的行为树对除所述第j组第二虚拟对象外的M-1组第二虚拟对象对应的初始AI模型进行训练,得到所述M-1组第二虚拟对象分别对应的第1阶段的初始AI模型和所述M-1组第二虚拟对象分别对应的初始AI模型的策略种群;采用所述M-1组第二虚拟对象分别对应的第1阶段的初始AI模型的策略种群对所述第j组第二虚拟对象对应的初始AI模型进行训练,得到所述第j组第二虚拟对象对应的第1阶段的初始AI模型,和所述第j组第二虚拟对象对应的第1阶段的初始AI模型的策略种群;对于所述M组第二虚拟对象中的第j组第二虚拟对象对应的初始AI模型,采用除所述第j组第二虚拟对象对应的初始AI模型外的M-1组第二虚拟对象分别对应的初始AI模型对应的策略种群集合,对所述第j组第二虚拟对象对应的第k阶段的初始AI模型进行训练,得到所述第j组第二虚拟对象对应的第k+1阶段的初始AI模型,所述初始AI模型的策略种群集合是指第1至第k-1阶段的初始AI模型的策略种群的集合,k为大于1的整数;在所述M组第二虚拟对象对应的第k阶段的初始AI模型满足第二条件的情况下,根据所述M组第二虚拟对象分别对应的第k阶段的初始AI模型的策略种群,确定所述N组第一虚拟对象分别对应的AI模型的第t阶段的AI模型的策略种群,其中所述N组第一虚拟对象分别与所述M组第二虚拟对象中的一个或多个具有关联关系;其中,所述第二条件为所述M组第二虚拟对象中存在至少一组第二虚拟对象对应的第k阶段的初始AI模型的胜率超过第一阈值;在所述M组第二虚拟对象分别对应的第k阶段的初始AI模型不满足所述第二条件的情况下,令k=k+1,再次从采用除所述第j组第二虚拟对象外的M-1组第二虚拟对象分别对应的初始AI模型的策略种群集合,对所述第j组第二虚拟对象对应的第k阶段的初始AI模型进行训练,得到所述第j组第二虚拟对象对应的第k+1阶段的初始AI模型的步骤开始执行。
在一些实施例中,所述M组第二虚拟对象分别对应的初始AI模型具有不同的策略风格。
在一些实施例中,所述获取模块910,用于对于所述第i组第一虚拟对象,将所述第i组第一虚拟对象对应的b组第二虚拟对象分别对应的初始AI模型的第1至第k阶段的初始AI模型的策略种群,确定为第i个策略种群,b为正整数;对所述第i个策略种群进行采样,得到所述第i组第一虚拟对象对应的第t阶段的AI模型的策略种群。
在一些实施例中,所述获取模块910,用于对所述第i个策略种群进行均匀采样;或者,对所述第i个策略种群进行CFR采样。
在一些实施例中,N=2,所述N组第一虚拟对象对应的AI模型包括进攻AI模型和防守AI模型,所述进攻AI模型控制的虚拟对象在对抗中处于进攻方,所述防守AI模型控制的虚拟对象在对抗中处于防守方。
本申请实施例提供的技术方案,通过对N组虚拟对象分别对应的AI模型进行迭代训练,其中对第t+1阶段的AI模型的训练所采用的训练样本,是由第t阶段的AI模型获得的,仅需在训练开始时获取一次训练样本,作为第1阶段的AI模型的策略种群,无需获取大量训练样本,降低AI模型的训练样本的获取难度。
另外,本申请实施例中,采用N组虚拟对象分别对应的AI模型进行训练,而不是采用自博弈的方法进行训练,更能够适应非传递性的环境,避免出现类似剪刀-石头-布的“绕圈”现象。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本申请一个实施例提供的计算机设备1000的结构框图。该计算机设备1000可以是任何具备数据计算、处理和存储功能的电子设备。该计算机设备1000可用于实现上述实施例中提供的AI模型的训练方法。
通常,计算机设备1000包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储计算机程序,所述计算机程序经配置以由一个或者一个以上处理器执行,以实现上述AI模型的训练方法。
本领域技术人员可以理解,图10中示出的结构并不构成对计算机设备1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示意性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被终端设备的处理器执行时实现上述AI模型的训练方法。可选地,上述计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该终端设备执行上述AI模型的训练方法。
需要说明的是,本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据(包括用户控制虚拟对象的动作),处理严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意都是在用户同意并授权的情况下进行采集的,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (17)

1.一种人工智能AI模型的训练方法,其特征在于,所述方法包括:
获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群;其中,所述N组第一虚拟对象中的第i组第一虚拟对象对应的AI模型用于产生所述第i组第一虚拟对象对应的策略,所述第i组第一虚拟对象对应的策略用于控制所述第i组第一虚拟对象的行为,所述第i组第一虚拟对象对应的AI模型的策略种群是指所述第i组第一虚拟对象对应的AI模型产生的策略的集合,N为大于1的整数,i为小于或等于N的正整数,t为初始值为1的正整数;
根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群;
在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群满足第一条件的情况下,令t=t+1,再次执行所述根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群的步骤;其中,所述第一条件为所述N组第一虚拟对象中存在至少一组目标第一虚拟对象,所述目标第一虚拟对象对应的第t+1阶段的AI模型的策略种群,不同于所述目标第一虚拟对象对应的第t阶段的AI模型的策略种群;
在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群不满足所述第一条件的情况下,将所述N组第一虚拟对象分别对应的第t+1阶段的AI模型确定为所述N组第一虚拟对象分别对应的训练后AI模型,所述N组第一虚拟对象分别对应的训练后AI模型用于控制所述N组第一虚拟对象进行对抗。
2.根据权利要求1所述的方法,其特征在于,所述根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群,包括:
根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,计算所述N组第一虚拟对象分别对应的第t阶段的AI模型的元策略,所述第t阶段的AI模型的元策略是指所述第t阶段的AI模型在博弈过程中的策略分布情况;
根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的元策略,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型和所述N组第一虚拟对象分别对应的第t+1阶段策略,所述第t+1阶段策略是指所述第t+1阶段的AI模型在博弈过程中产生的最佳策略;
根据所述N组第一虚拟对象分别对应的第t+1阶段策略,和所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群。
3.根据权利要求2所述的方法,其特征在于,所述根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,计算所述N组第一虚拟对象分别对应的第t阶段的AI模型的元策略,包括:
对所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的策略进行配对,得到第t阶段种群配对集合;
根据所述第t阶段种群配对集合,计算所述N组第一虚拟对象分别对应的第t阶段的AI模型的效益矩阵;
基于所述N组第一虚拟对象分别对应的第t阶段的AI模型的效益矩阵,计算所述N组第一虚拟对象分别对应的第t阶段的AI模型的元策略。
4.根据权利要求3所述的方法,其特征在于,所述对所述N组第一虚拟对象分别对应的第t阶段的AI模型中的的策略种群中的策略进行配对,得到第t阶段种群配对集合,包括:
对于所述第i组第一虚拟对象对应的第t阶段的AI模型,针对所述第i组第一虚拟对象对应的第t阶段的AI模型的策略种群中的任一个策略,预测所述策略与除所述第i组第一虚拟对象对应的第t阶段的AI模型外的N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的每个策略进行博弈的胜率,得到所述策略的胜率集合;
根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的各个策略的胜率集合,对所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群中的策略进行配对,得到所述第t阶段种群配对集合。
5.根据权利要求2所述的方法,其特征在于,所述根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的元策略,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型和所述N组第一虚拟对象分别对应的第t+1阶段策略,包括:
对于所述第i组第一虚拟对象对应的第t阶段的AI模型,根据除所述第i组第一虚拟对象对应的第t阶段的AI模型外的N-1组第一虚拟对象分别对应的第t阶段的AI模型的元策略,对所述第i组第一虚拟对象对应的第t阶段的AI模型的策略网络参数进行调整,得到第i组第一虚拟对象对应的第t+1阶段的AI模型;
将所述第i组第一虚拟对象对应的第t+1阶段的AI模型与除所述第i组第一虚拟对象外的N-1组第一虚拟对象对应的第t阶段的AI模型博弈的最佳策略,确定为所述第i组第一虚拟对象对应的第t+1阶段策略。
6.根据权利要求2所述的方法,其特征在于,所述根据所述N组第一虚拟对象分别对应的第t+1阶段策略,和所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群,包括:
对于所述i组第一虚拟对象对应的第t+1阶段的AI模型,将所述第i组第一虚拟对象对应的第t+1阶段的AI模型对应的第t+1阶段策略,在所述第i组第一虚拟对象对应的第t阶段的AI模型的策略种群中添加所述第i组第一虚拟对象对应的第t+1阶段策略,得到所述第m组第一虚拟对象对应的第t’阶段策略种群;
对所述第i组第一虚拟对象对应的第t’阶段策略种群进行拟人性筛选,得到所述第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群。
7.根据权利要求6所述的方法,其特征在于,所述对所述第i组第一虚拟对象对应的第t’阶段策略种群进行拟人性筛选,得到所述第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群,包括:
确定至少一个拟人性指标,以及所述至少一个拟人性指标分别对应的阈值;
针对所述第i组第一虚拟对象对应的第t’阶段策略种群中的任一个策略,获取所述策略的各个拟人性指标分别对应的评分;
根据所述各个拟人性指标分别对应的评分,与所述至少一个拟人性指标对应的阈值,确定所述策略的各个拟人性指标分别对应的评估结果;
根据所述策略的各个拟人性指标分别对应的评估结果,对所述策略进行拟人性评估,得到所述策略的评估结果;
根据各个策略的评估结果,在所述第i组第一虚拟对象对应的第t’阶段策略种群中确定K个策略,K为正整数;
将所述K个策略确定为所述第i组第一虚拟对象对应的第t+1阶段的AI模型的策略种群;
其中,K为一个动态变化的值。
8.根据权利要求1所述的方法,其特征在于,所述获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,包括:
获取所述第i组第一虚拟对象对应的行为树,所述第i组第一虚拟对象对应的行为树用于初始化所述第i组第一虚拟对象的策略种群;
根据所述第i组第一虚拟对象对应的行为树,对除所述第i组第一虚拟对象外的N-1组第一虚拟对象对应的AI模型进行训练,得到所述N-1组第一虚拟对象分别对应的第t阶段的AI模型和所述N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群;
采用所述N-1组第一虚拟对象分别对应的第t阶段的AI模型的策略种群对所述第i组第一虚拟对象对应的AI模型进行训练,得到所述第i组第一虚拟对象对应的第t阶段的AI模型,和所述第i组第一虚拟对象对应的第t阶段的AI模型的策略种群。
9.根据权利要求1所述的方法,其特征在于,所述获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,包括:
获取M组第二虚拟对象中的第j组第二虚拟对象对应的初始AI模型的行为树,所述第j组第二虚拟对象对应的初始AI模型的行为树用于初始化所述第j组第二虚拟对象对应的初始AI模型的策略种群,j为小于或等于M的正整数,M为大于或等于N的整数;
根据所述第j组第二虚拟对象对应的初始AI模型的行为树,对除所述第j组第二虚拟对象外的M-1组第二虚拟对象对应的初始AI模型进行训练,得到所述M-1组第二虚拟对象分别对应的第1阶段的初始AI模型和所述M-1组第二虚拟对象分别对应的初始AI模型的策略种群;
采用所述M-1组第二虚拟对象分别对应的第1阶段的初始AI模型的策略种群,对所述第j组第二虚拟对象对应的初始AI模型进行训练,得到所述第j组第二虚拟对象对应的第1阶段的初始AI模型,和所述第j组第二虚拟对象对应的第1阶段的初始AI模型的策略种群;
对于所述第j组第二虚拟对象对应的初始AI模型,采用除所述第j组第二虚拟对象对应的初始AI模型外的M-1组第二虚拟对象分别对应的初始AI模型对应的策略种群集合,对所述第j组第二虚拟对象对应的第k阶段的初始AI模型进行训练,得到所述第j组第二虚拟对象对应的第k+1阶段的初始AI模型,所述初始AI模型的策略种群集合是指第1至第k-1阶段的初始AI模型的策略种群的集合,k为大于1的整数;
在所述M组第二虚拟对象对应的第k阶段的初始AI模型满足第二条件的情况下,根据所述M组第二虚拟对象分别对应的第k阶段的初始AI模型的策略种群,确定所述N组第一虚拟对象分别对应的AI模型的第t阶段的AI模型的策略种群,所述N组第一虚拟对象分别与所述M组第二虚拟对象中的一个或多个具有关联关系;其中,所述第二条件为所述M组第二虚拟对象中存在至少一组第二虚拟对象对应的第k阶段的初始AI模型的胜率超过第一阈值;
在所述M组第二虚拟对象分别对应的第k阶段的初始AI模型不满足所述第二条件的情况下,令k=k+1,再次从采用除所述第j组第二虚拟对象外的M-1组第二虚拟对象分别对应的初始AI模型的策略种群集合,对所述第j组第二虚拟对象对应的第k阶段的初始AI模型进行训练,得到所述第j组第二虚拟对象对应的第k+1阶段的初始AI模型的步骤开始执行。
10.根据权利要求9所述的方法,其特征在于,所述M组第二虚拟对象分别对应的初始AI模型具有不同的策略风格。
11.根据权利要求9所述的方法,其特征在于,所述根据所述M组第二虚拟对象分别对应的第k阶段的初始AI模型的策略种群,确定所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,包括:
对于所述第i组第一虚拟对象,将所述第i组第一虚拟对象对应的b组第二虚拟对象分别对应的初始AI模型的第1至第k阶段的初始AI模型的策略种群,确定为第i个策略种群,b为正整数;
对所述第i个策略种群进行采样,得到所述第i组第一虚拟对象对应的第t阶段的AI模型的策略种群。
12.根据权利要求11所述的方法,其特征在于,所述对所述第i个策略种群进行采样,包括:
对所述第i个策略种群进行均匀采样;
或者,
对所述第i个策略种群进行反事实后悔值最小化CFR采样。
13.根据权利要求1所述的方法,其特征在于,N=2,所述N组第一虚拟对象对应的AI模型包括进攻AI模型和防守AI模型,所述进攻AI模型控制的虚拟对象在对抗中处于进攻方,所述防守AI模型控制的虚拟对象在对抗中处于防守方。
14.一种人工智能AI模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群;其中,所述N组第一虚拟对象中的第i组第一虚拟对象对应的AI模型用于产生所述第i组第一虚拟对象对应的策略,所述第i组第一虚拟对象对应的策略用于控制所述第i组第一虚拟对象的行为,所述第i组第一虚拟对象对应的AI模型的策略种群是指所述第i组第一虚拟对象对应的AI模型产生的策略的集合,N为大于1的整数,i为小于或等于N的正整数,t为初始值为1的正整数;
第一训练模块,用于根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群;
第二训练模块,用于在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群满足第一条件的情况下,令t=t+1,再次执行所述根据所述N组第一虚拟对象分别对应的第t阶段的AI模型的策略种群,对所述N组第一虚拟对象分别对应的第t阶段的AI模型进行训练,得到所述N组第一虚拟对象分别对应的第t+1阶段的AI模型,以及所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群的步骤;其中,所述第一条件为所述N组第一虚拟对象中存在至少一组目标第一虚拟对象,所述目标第一虚拟对象对应的第t+1阶段的AI模型的策略种群,不同于所述目标第一虚拟对象对应的第t阶段的AI模型的策略种群;
确定模块,用于在所述N组第一虚拟对象分别对应的第t+1阶段的AI模型的策略种群不满足所述第一条件的情况下,将所述N组第一虚拟对象分别对应的第t+1阶段的AI模型确定为所述N组第一虚拟对象分别对应的训练后AI模型,所述N组第一虚拟对象分别对应的训练后AI模型用于控制所述N组第一虚拟对象进行对抗。
15.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求1至13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至13任一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至13任一项所述的方法。
CN202311198644.1A 2023-09-15 2023-09-15 Ai模型的训练方法、装置、设备及存储介质 Pending CN117217330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311198644.1A CN117217330A (zh) 2023-09-15 2023-09-15 Ai模型的训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311198644.1A CN117217330A (zh) 2023-09-15 2023-09-15 Ai模型的训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117217330A true CN117217330A (zh) 2023-12-12

Family

ID=89042129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311198644.1A Pending CN117217330A (zh) 2023-09-15 2023-09-15 Ai模型的训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117217330A (zh)

Similar Documents

Publication Publication Date Title
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
CN111632379B (zh) 游戏角色行为控制方法、装置、存储介质及电子设备
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN111111204A (zh) 交互模型训练方法、装置、计算机设备和存储介质
CN111282272B (zh) 信息处理方法、计算机可读介质及电子设备
Zhang et al. Overview of deep reinforcement learning improvements and applications
CN116128060A (zh) 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法
Merrick et al. A shape grammar approach to computational creativity and procedural content generation in massively multiplayer online role playing games
Youssef et al. Building your kingdom imitation learning for a custom gameplay using unity ml-agents
CN116943220A (zh) 一种游戏人工智能控制方法、装置、设备及存储介质
Gaina et al. Project Thyia: A forever gameplayer
CN117217330A (zh) Ai模型的训练方法、装置、设备及存储介质
Faria et al. Improving fifa player agents decision-making architectures based on convolutional neural networks through evolutionary techniques
Suarez et al. Neural MMO v1. 3: A massively multiagent game environment for training and evaluating neural networks
Chole et al. Locust Mayfly optimization-tuned neural network for AI-based pruning in Chess game
Khan et al. Playing doom with anticipator-A3C based agents using deep reinforcement learning and the ViZDoom game-AI research platform
Kang et al. Self-organizing agents for reinforcement learning in virtual worlds
Yang et al. A Modified multi-size convolution neural network for winner prediction based on time serial datasets
Iqbal et al. A goal-based movement model for continuous multi-agent tasks
Ring et al. Replicating deepmind starcraft ii reinforcement learning benchmark with actor-critic methods
CN117883788B (zh) 智能体训练方法、游戏对战方法、装置及电子设备
Bontrager Learning to Generate Form and Function
Rodriguez Learning Simulation-Based Policies
Mohaghegh et al. PCGPT: Procedural Content Generation via Transformers
Merrick et al. Computational creativity and procedural content generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40099437

Country of ref document: HK