CN118228758A

CN118228758A - 智能体训练方法、装置、电子设备和存储介质

Info

Publication number: CN118228758A
Application number: CN202410309168.4A
Authority: CN
Inventors: 于鑫
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Filing date: 2024-03-18
Publication date: 2024-06-21

Abstract

本发明提供一种智能体训练方法、装置、电子设备和存储介质，涉及人工智能技术领域，该方法包括：获取专家玩家的游戏回放数据，并基于游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；确定对弈智能体，并进行基础智能体与对弈智能体之间的对弈；获取基础智能体与对弈智能体之间进行对弈的对弈数据，并基于对弈数据对基础智能体进行强化学习，得到目标智能体。本发明提供的技术方案可以使用少量的专家玩家游戏回放数据即可实现智能体的训练，节省了计算资源，而且可以有效避免人类的战术针对。

Description

智能体训练方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能体训练方法、装置、电子设备和存储介质。

背景技术

随着网络技术的发展，计算机游戏等人机交互应用可以为用户提供虚拟场景，用户可以在虚拟场景中操控虚拟对象执行操作，以达到娱乐的目的。

智能体(Agent)是具有智能的实体，是指驻留在某一环境下，能持续自主地发挥作用，具备驻留性、反应性、社会性、主动性等特征的计算实体。在计算机游戏等人机交互应用中，可以使用训练的智能体模拟真人玩家来操控虚拟对象，在计算机游戏等人机交互应用中发挥着重要的作用。因此，如何进行智能体的训练，是目前亟待解决的技术问题。

发明内容

针对现有技术存在的技术问题，本发明提供一种智能体训练方法、装置、电子设备和存储介质。

本发明提供一种智能体训练方法，包括：

获取专家玩家的游戏回放数据，并基于所述游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；

确定对弈智能体，并进行所述基础智能体与所述对弈智能体之间的对弈；

获取所述基础智能体与所述对弈智能体之间进行对弈的对弈数据，并基于所述对弈数据对所述基础智能体进行强化学习，得到目标智能体。

根据本发明提供的一种智能体训练方法，所述确定对弈智能体，包括：

在检测到第一选择指令的情况下，将内置智能体确定为所述对弈智能体；

在检测到第二选择指令的情况下，从多智能体联盟中确定所述对弈智能体；其中，所述多智能体联盟中保存有至少一个智能体。

根据本发明提供的一种智能体训练方法，所述从多智能体联盟中确定所述对弈智能体，包括：

获取所述多智能体联盟中保存的各所述智能体的战况信息；

基于所述战况信息，对所有所述智能体按照战胜概率从大到小的顺序进行排序，得到排序结果；

将所述排序结果的前预设数量个智能体确定为所述对弈智能体。

获取目标训练战术的目标战术标签；

基于所述目标战术标签，从所述多智能体联盟中查找战术标签与所述目标战术标签相匹配的智能体，得到匹配智能体；

基于所述匹配智能体确定所述对弈智能体。

根据本发明提供的一种智能体训练方法，在得到所述目标智能体之后，所述方法还包括：

基于所述目标智能体对所述多智能体联盟中的智能体进行更新。

根据本发明提供的一种智能体训练方法，所述基于所述目标智能体对所述多智能体联盟中的智能体进行更新，包括：

将所述目标智能体添加至所述多智能体联盟中，以对所述多智能体联盟中的智能体进行更新；

或者，确定所述多智能体联盟中战胜概率最小的智能体，并使用所述目标智能体替换所述战胜概率最小的智能体，以对所述多智能体联盟中的智能体进行更新。

根据本发明提供的一种智能体训练方法，所述基于所述对弈数据对所述基础智能体进行强化学习，包括：

基于所述游戏回放数据确定对弈奖励；

基于所述对弈奖励和所述对弈数据对所述基础智能体进行强化学习。

本发明还提供一种智能体训练装置，包括：

第一学习模块，用于获取专家玩家的游戏回放数据，并基于所述游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；

对弈模块，用于确定对弈智能体，并进行所述基础智能体与所述对弈智能体之间的对弈；

第二学习模块，用于获取所述基础智能体与所述对弈智能体之间进行对弈的对弈数据，并基于所述对弈数据对所述基础智能体进行强化学习，得到目标智能体。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述的智能体训练方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的智能体训练方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的智能体训练方法。

本发明提供的智能体训练方法、装置、电子设备和存储介质，先获取专家玩家的游戏回放数据，并基于所述游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；接着确定对弈智能体，并进行所述基础智能体与所述对弈智能体之间的对弈；然后获取所述基础智能体与所述对弈智能体之间进行对弈的对弈数据，并基于所述对弈数据对所述基础智能体进行强化学习，得到目标智能体，从而实现了智能体的训练。这样，使用少量的专家玩家的游戏回放数据即可实现智能体的训练，节省了计算资源；而且，通过利用对弈智能体与基础智能体的对弈来对基础智能体进行进一步的强化学习，可以有效避免人类的战术针对。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的智能体训练方法的流程示意图之一；

图2是本发明实施例提供的智能体训练方法的流程示意图之二；

图3是本发明实施例提供的智能体训练方法的原理示意图；

图4是本发明实施例提供的智能体训练装置的结构示意图；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明中为描述的对象所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

人工智能体(AI Agent)，是合作游戏或合作事件中由计算机人工智能操控的决策者。在本文中，人工智能体可以简称为智能体。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能的感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以真人智能相似的方式做出反应的智能机器。例如，对于本发明实施例的人工智能体而言，其能够以类似于真人玩家操控虚拟对象的方式，与真人玩家协作或对战。基于各种智能机器的设计原理与实现方法，本发明实施例的人工智能体能够理解不同的游戏策略，并能够与不同策略的真人玩家协作和对战。

其中，真人是与计算机控制的角色相区分的，由真人玩家操控的决策者。例如，其可以是合作游戏中由真人玩家控制的角色或虚拟对象。相比于人工智能体，真人玩家操控的虚拟对象往往随机性更高，也更容易采用未知的策略，或偏好未知的策略。

在计算机游戏等人机交互应用中，可以使用训练的智能体模拟真人玩家来操控虚拟对象，因此，智能体在计算机游戏等人机交互应用中发挥着重要的作用。

相关技术中，通过使用大量的人类知识来构建游戏的智能体，例如，使用大量的人类游戏回放来进行监督学习(Supervised Learning，SL)，并使用游戏回放作为奖励来指导智能体在强化学习(Reinforcement Learning，RL)训练中的探索。在此基础上，对于计算机游戏，除了游戏社区最初设想的人类战术之外，没有创造出任何新的战术，这会使得训练出的智能体很容易被战术针对，人类如果采用一些常用的战术，则很容易战胜智能体，影响用户的游戏体验。

再者，和围棋的训练一样，游戏智能体的训练也需要大量的计算资源和更多的训练资源，对计算资源的要求较高，这对于小型公司或研究机构来说成本较高。

基于此，本发明实施例提供了一种新的智能体训练方法，先利用专家玩家的游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体，然后利用基础智能体与对弈智能体之间进行对弈的对弈数据对基础智能体进行强化学习，得到目标智能体。这样，使用少量的游戏回放数据即可实现智能体的训练，节省了计算资源；而且，通过利用对弈智能体与基础智能体的对弈来对基础智能体进行进一步的强化学习，可以有效避免人类的战术针对。

下面结合图1-图3对本发明的智能体训练方法进行描述。该智能体训练方法可以应用于终端设备或服务器等电子设备。其中，终端设备可以包括手机、电脑、平板电脑等；服务器可以包括独立服务器、集群服务器或云服务器等。该智能体训练方法也可以应用于设置在终端设备或服务器等电子设备中的智能体训练装置中，该智能体训练装置可以通过软件、硬件或两者的结合来实现。

图1示例性示出了本发明实施例提供的智能体训练方法的流程示意图之一，参照图1所示，该智能体训练方法可以包括如下的步骤110～步骤130。

步骤110：获取专家玩家的游戏回放数据，并基于游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体。

对于一款计算机游戏，可以收集人类专家玩家使用该计算机游戏时的全局游戏数据，这些全局游戏数据可以进行回放。在进行智能体训练时，可以获取人类专家玩家的游戏回放数据。

其中，计算机游戏可以为角色扮演类的竞技游戏，例如可以为人机对战游戏或多人对战游戏等对战游戏，或者也可以为人机协作游戏或多人协作游戏等协作游戏。人机协作游戏是指用户账号的游戏角色与游戏设置的模拟游戏角色在同一场景中进行协作的游戏。人机对战游戏是指用户账号的游戏角色与游戏设置的模拟游戏角色在同一场景中进行竞技的游戏。多人对战游戏是指多个用户账号在同一场景内进行协作或竞技的游戏。

示例地，该计算机游戏可以为客户端游戏或网页游戏，可以为需要网络支持的在线游戏，也可以为不需要网络支持的离线游戏。

获取到专家玩家的游戏回放数据之后，可以基于该游戏回放数据对初始神经网络模型进行监督学习，得到训练好的模型，并将该训练好的模型确定为基础智能体。

其中，初始神经网络模型可以采用深度神经网络(Deep Neural Networks，DNN)架构的神经网络模型。深度神经网络DNN是一种多层无监督神经网络，并且将上一层的输出特征作为下一层的输入进行特征学习，通过逐层特征映射后，将现有空间样本的特征映射到另一个特征空间，以此来学习对现有输入具有更好的特征表达。深度神经网络具有多个非线性映射的特征变换，可以对高度复杂的函数进行拟合。

监督学习是利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中，每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。

步骤120：确定对弈智能体，并进行基础智能体与对弈智能体之间的对弈。

对弈智能体是能够理解不同的游戏策略，并能够与不同策略的真人玩家或智能体进行协作和对战的智能体，能够用于与其他智能体进行对弈。示例地，不同的对弈智能体可以具有不同的战术策略。

在本发明实施例中，对弈智能体可以是计算机游戏内置的内置智能体，也可以是从多智能体联盟中保存的智能体中选择的一个或多个智能体。

具体的，步骤120确定对弈智能体的方法可以包括：在检测到第一选择指令的情况下，将内置智能体确定为对弈智能体；在检测到第二选择指令的情况下，从多智能体联盟中确定对弈智能体；其中，多智能体联盟中保存有至少一个智能体。

示例地，多智能体联盟可以包括多智能体联盟机制，该多智能体联盟机制定义了多智能体联盟中智能体的管理机制和对弈智能体的选择机制。在训练过程中，多智能体联盟机制可以根据对弈智能体的选择机制定期或在每一次训练前确定一次对弈智能体。例如，每间隔预设时间段，触发一次对弈智能体的选择指令，该选择指令可以是第一选择指令或第二选择指令。若为第一选择指令，则将计算机游戏的内置智能体确定为对弈智能体；若为第二选择指令，则从多智能体联盟中根据预设的选择策略选择出对弈智能体。

示例地，在每一次训练前，可以由用户触发对弈智能体的选择指令。比如，可以显示选择指令操作界面，该选择指令操作界面中提供第一选择指令对应的第一选择控件和第二选择指令对应的第二选择控件；电子设备响应于针对第一选择控件的选择操作，触发第一选择指令；响应于针对第二选择控件的选择操作，触发第二选择指令。

在一种示例实施例中，从多智能体联盟中确定对弈智能体可以包括：获取多智能体联盟中保存的各智能体的战况信息；基于战况信息，对所有智能体按照战胜概率从大到小的顺序进行排序，得到排序结果；将排序结果的前预设数量个智能体确定为对弈智能体。

其中，智能体的战况信息可以包括战胜概率和战败概率中的至少一个；预设数量可以根据经验或实际需要进行预先配置。

示例地，在战况信息为战败概率的情况下，可以基于该战败概率确定出对应的战胜概率，然后对所有智能体按照战胜概率从大到小的顺序进行排序。

这样，通过将多智能体联盟中战胜概率较高的智能体确定为对弈智能体，以与基础智能体进行对弈，进而利用对弈数据对基础智能体进行强化学习，可以有效提高所训练智能体的战胜概率，提高智能体的训练效果。

在另一种示例实施例中，从多智能体联盟中确定对弈智能体可以包括：获取目标训练战术的目标战术标签；基于目标战术标签，从多智能体联盟中查找战术标签与目标战术标签相匹配的智能体，得到匹配智能体；基于匹配智能体确定对弈智能体。

多智能体联盟中保存的智能体中可以包括具有特定训练战术的不同战术种类的智能体，这些智能体可以标记各自对应战术的战术标签。

在智能体的训练过程中，可以针对某一战术进行训练，此时，可以获取目标训练战术的战术标签，得到目标战术标签。得到目标战术标签之后，可以根据该目标战术标签，在多智能体联盟中查找相匹配的智能体，得到匹配智能体。可以将查找出的匹配智能体确定为对弈智能体，或者，可以将查找出的匹配智能体中战胜概率最高的智能体确定为对弈智能体。

其中，目标训练战术可以进行预先设置。例如，电子设备响应于训练战术设置指令，显示训练战术配置界面，在该训练战术配置界面中包括训练战术选择控件；响应于针对训练战术选择控件的选择操作，确定目标训练战术。示例地，训练战术选择控件可以是下拉菜单，该下拉菜单中提供了可选择的训练战术，电子设备响应于针对该下来菜单中的训练战术的选择操作，将选定的训练战术确定为目标训练战术。

这样，通过目标训练战术的目标战术标签，基于目标战术标签，从多智能体联盟中查找战术标签与目标战术标签相匹配的智能体，得到匹配智能体，然后基于匹配智能体确定对弈智能体，以与基础智能体进行对弈，进而利用对弈数据对基础智能体进行强化学习，可以实现针对某一战术的训练，改善训练过程，提高智能体的训练效果，进而能够有效提高所训练智能体的战胜概率，使得训练出的智能体能够很好地应对常用的战术针对，比如应对RUSH战术、炮台战术等。

步骤130：获取基础智能体与对弈智能体之间进行对弈的对弈数据，并基于对弈数据对基础智能体进行强化学习，得到目标智能体。

强化学习是设计奖励函数或惩罚函数，接着通过决策者与环境的不断交互，得到状态、动作和奖励(或惩罚)的样本集合，然后通过最大化奖励的期望和/或最小化游戏的惩罚的期望来确定该人工智能体对应的神经网络模型中的各个参数的学习过程。

在一种示例实施例中，基于对弈数据对基础智能体进行强化学习可以包括：基于游戏回放数据确定对弈奖励；基于对弈奖励和对弈数据对基础智能体进行强化学习。

示例地，可以将游戏回放数据确定为对弈奖励，或者，可以将游戏回放数据中的目标战术数据确定为对弈奖励。

这样，通过将游戏回放数据或游戏回放数据中的目标战术数据作为强化学习的奖励，可以提高训练出的智能体的战胜概率和与其他智能体之间的协作效果，进而提高计算机游戏的体验效果。

本发明提供的智能体训练方法，先获取专家玩家的游戏回放数据，并基于游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；接着确定对弈智能体，并进行基础智能体与对弈智能体之间的对弈；然后获取基础智能体与对弈智能体之间进行对弈的对弈数据，并基于对弈数据对基础智能体进行强化学习，得到目标智能体，从而实现了智能体的训练。这样，使用少量的游戏回放数据即可实现智能体的训练，节省了计算资源；而且，通过利用对弈智能体与基础智能体的对弈来对基础智能体进行进一步的强化学习，可以有效避免人类的战术针对。

在本发明的一种示例实施例中，图2示例性示出了本发明实施例提供的智能体训练方法的流程示意图之二，参照图2所示，该智能体训练方法可以包括如下的步骤210～步骤250。

步骤210：获取专家玩家的游戏回放数据，并基于游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体。

步骤220：在检测到第二选择指令的情况下，从多智能体联盟中确定对弈智能体。

步骤230：进行基础智能体与对弈智能体之间的对弈。

步骤240：获取基础智能体与对弈智能体之间进行对弈的对弈数据，并基于对弈数据对基础智能体进行强化学习，得到目标智能体。

步骤250：基于目标智能体对多智能体联盟中的智能体进行更新。

具体的，在步骤210中，对于一款计算机游戏，可以收集人类专家玩家使用该计算机游戏时的全局游戏数据，这些全局游戏数据可以进行回放。在进行智能体训练时，可以获取专家玩家的游戏回放数据。获取到专家玩家的游戏回放数据之后，可以基于该游戏回放数据对初始神经网络模型进行监督学习，得到训练好的模型，并将该训练好的模型确定为基础智能体。

在步骤220中，示例地，多智能体联盟可以包括多智能体联盟机制，该多智能体联盟机制定义了多智能体联盟中智能体的管理机制和对弈智能体的选择机制。在训练过程中，多智能体联盟机制可以根据对弈智能体的选择机制定期或在每一次训练前确定一次对弈智能体。例如，每间隔预设时间段，触发一次对弈智能体的选择指令，该选择指令可以是第一选择指令或第二选择指令。若为第二选择指令，则从多智能体联盟中根据预设的选择策略选择出对弈智能体。

示例地，在每一次训练前，可以由用户触发对弈智能体的选择指令。比如，可以显示选择指令操作界面，该选择指令操作界面中提供第一选择指令对应的第一选择控件和第二选择指令对应的第二选择控件；电子设备响应于针对第一选择控件的选择操作，触发第一选择指令；响应于针对第二选择控件的选择操作，触发第二选择指令。若为第二选择指令，则从多智能体联盟中根据预设的选择策略选择出对弈智能体。

示例地，从多智能体联盟中确定对弈智能体可以包括：获取多智能体联盟中保存的各智能体的战况信息；基于战况信息，对所有智能体按照战胜概率从大到小的顺序进行排序，得到排序结果；将排序结果的前预设数量个智能体确定为对弈智能体。

其中，智能体的战况信息可以包括战胜概率和战败概率中的至少一个。在战况信息为战败概率的情况下，可以基于该战败概率确定出对应的战胜概率，然后对所有智能体按照战胜概率从大到小的顺序进行排序。

这样，通过将多智能体联盟中战胜概率较高的智能体确定为对弈智能体，以与基础智能体进行对弈，进而利用对弈数据对基础智能体进行强化学习，可以有效提高所训练智能体的战胜概率，提高智能体的训练效果

示例地，在智能体的训练过程中，可以针对某一战术进行训练。具体的，从多智能体联盟中确定对弈智能体可以包括：获取目标训练战术的目标战术标签；基于目标战术标签，从多智能体联盟中查找战术标签与目标战术标签相匹配的智能体，得到匹配智能体；基于匹配智能体确定对弈智能体。

在步骤240中，基于对弈数据对基础智能体进行强化学习可以包括：基于游戏回放数据确定对弈奖励；基于对弈奖励和对弈数据对基础智能体进行强化学习。

在步骤250中，基于目标智能体对多智能体联盟中的智能体进行更新可以包括：

将目标智能体添加至多智能体联盟中，以对多智能体联盟中的智能体进行更新；或者，确定多智能体联盟中战胜概率最小的智能体，并使用目标智能体替换战胜概率最小的智能体，以对多智能体联盟中的智能体进行更新。

具体的，多智能体联盟可以收集不同的训练过的智能体，并根据对弈智能体的选择机制来安排智能体之间的对弈。获取到目标智能体之后，可以将目标智能体添加至多智能体联盟中；或者替换多智能体联盟中战胜概率最小的智能体，使多智能体联盟中的智能体保持在一定的数量。

本发明实施例提供的智能体训练方法，在得到目标智能体之后，基于目标智能体对多智能体联盟中的智能体进行更新，可以使多智能体联盟能够保存较优的智能体。

基于上述各实施例的智能体训练方法，图3示例性示出了智能体训练方法的原理示意图，参照图3所示，DNN网络架构为监督学习和强化学习的基础模型架构。在智能体训练过程中，首先使用人类专家玩家的游戏回放数据对DNN网络进行监督学习训练，以获得一个可以模仿人类玩家的基础智能体。然后，通过一系列的对弈对预训练的基础智能体进行强化学习训练，使用强化学习不断调整基础智能体的策略网络。其中，为了提高强化学习的性能，可以使用一个多智能体联盟来收集不同的训练过的智能体，并根据智能体选择机制(如输赢概率等)来选择作为对手的对弈智能体，并安排智能体之间的比赛。多智能体联盟还定义了具有特定训练战术的不同战术种类的智能体，通过它们可以改善训练过程，提高智能体的训练效果，使得训练出的智能体能够很好地应对常用的战术针对。

在强化学习阶段，可以将专家玩家的游戏回放数据作为奖励，基于该奖励和基础智能体与对弈智能体之间进行对弈的对弈数据对基础智能体进行强化学习。强化学习可以有两种方式，第一种为基础智能体与内置人工智能体的对弈；第二种为基础智能体与对弈智能体或本身之间的对弈。在与对弈智能体或自身的对弈比赛中，训练程序可以根据多智能体联盟的智能体选择机制定期选择一个合适的对弈智能体作为对手进行强化学习。

本发明实施例提供的智能体训练方法，使用少量的人类专家玩家的游戏回放数据即可实现智能体的训练，节省了计算资源；而且，通过利用对弈智能体与基础智能体的对弈来对基础智能体进行进一步的强化学习，可以有效避免人类的战术针对。

下面对本发明提供的智能体训练装置进行描述，下文描述的智能体训练装置与上文描述的智能体训练方法可相互对应参照。

图4示例性示出了本发明实施例提供的智能体训练装置的结构示意图，参照图4所示，该智能体训练装置可以包括：

第一学习模块410，用于获取专家玩家的游戏回放数据，并基于游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；

对弈模块420，用于确定对弈智能体，并进行基础智能体与对弈智能体之间的对弈；

第二学习模块430，用于获取基础智能体与对弈智能体之间进行对弈的对弈数据，并基于对弈数据对基础智能体进行强化学习，得到目标智能体。

本发明实施例提供的智能体训练装置，先通过第一学习模块获取专家玩家的游戏回放数据，并基于游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；接着利用对弈模块确定对弈智能体，并进行基础智能体与对弈智能体之间的对弈；然后通过第二学习模块获取基础智能体与对弈智能体之间进行对弈的对弈数据，并基于对弈数据对基础智能体进行强化学习，得到目标智能体，从而实现了智能体的训练。这样，使用少量的游戏回放数据即可实现智能体的训练，节省了计算资源；而且，通过利用对弈智能体与基础智能体的对弈来对基础智能体进行进一步的强化学习，可以有效避免人类的战术针对。

基于图4对应实施例的智能体训练装置，在一种示例实施例中，对弈模块420可以包括：第一确定单元，用于在检测到第一选择指令的情况下，将内置智能体确定为对弈智能体；第二确定单元，用于在检测到第二选择指令的情况下，从多智能体联盟中确定对弈智能体；其中，多智能体联盟中保存有至少一个智能体。

在一种示例实施例中，第二确定单元在从多智能体联盟中确定对弈智能体时具体用于：获取多智能体联盟中保存的各智能体的战况信息；基于战况信息，对所有智能体按照战胜概率从大到小的顺序进行排序，得到排序结果；将排序结果的前预设数量个智能体确定为对弈智能体。

在一种示例实施例中，第二确定单元在从多智能体联盟中确定对弈智能体时具体用于：获取目标训练战术的目标战术标签；基于目标战术标签，从多智能体联盟中查找战术标签与目标战术标签相匹配的智能体，得到匹配智能体；基于匹配智能体确定对弈智能体。

在一种示例实施例中，智能体训练装置还包括更新模块，该更新模块用于在得到目标智能体之后，基于目标智能体对多智能体联盟中的智能体进行更新。

在一种示例实施例中，更新模块具体用于：将目标智能体添加至多智能体联盟中，以对多智能体联盟中的智能体进行更新；或者，确定多智能体联盟中战胜概率最小的智能体，并使用目标智能体替换战胜概率最小的智能体，以对多智能体联盟中的智能体进行更新。

在一种示例实施例中，第二学习模块430在基于对弈数据对基础智能体进行强化学习时具体用于：基于游戏回放数据确定对弈奖励；基于对弈奖励和对弈数据对基础智能体进行强化学习。

图5示例了一种电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communication Interface)520、存储器(memory)530和通信总线540，其中，处理器510、通信接口520和存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行上述任一方法实施例提供的智能体训练方法，该方法比如可以包括：获取专家玩家的游戏回放数据，并基于游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；确定对弈智能体，并进行基础智能体与对弈智能体之间的对弈；获取基础智能体与对弈智能体之间进行对弈的对弈数据，并基于对弈数据对基础智能体进行强化学习，得到目标智能体。

示例地，确定对弈智能体可以包括：在检测到第一选择指令的情况下，将内置智能体确定为对弈智能体；在检测到第二选择指令的情况下，从多智能体联盟中确定对弈智能体；其中，多智能体联盟中保存有至少一个智能体。

示例地，从多智能体联盟中确定对弈智能体可以包括：获取目标训练战术的目标战术标签；基于目标战术标签，从多智能体联盟中查找战术标签与目标战术标签相匹配的智能体，得到匹配智能体；基于匹配智能体确定对弈智能体。

示例地，在得到目标智能体之后，该智能体训练方法还包括：基于目标智能体对多智能体联盟中的智能体进行更新。

示例地，基于目标智能体对多智能体联盟中的智能体进行更新可以包括：将目标智能体添加至多智能体联盟中，以对多智能体联盟中的智能体进行更新；或者，确定多智能体联盟中战胜概率最小的智能体，并使用目标智能体替换战胜概率最小的智能体，以对多智能体联盟中的智能体进行更新。

示例地，基于对弈数据对基础智能体进行强化学习可以包括：基于游戏回放数据确定对弈奖励；基于对弈奖励和对弈数据对基础智能体进行强化学习。

示例地，处理器510可以包括中央处理器(Central Processing Unit，CPU)、微处理器、网络处理器(Network Processor，NP)、数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

示例地，通过至少一个通信接口520(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

示例地，通信总线540可以是工业标准体系结构(Industry StandardArchitecture，ISA)总线、***器件互联(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法实施例所提供的智能体训练方法，该方法比如可以包括：获取专家玩家的游戏回放数据，并基于游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；确定对弈智能体，并进行基础智能体与对弈智能体之间的对弈；获取基础智能体与对弈智能体之间进行对弈的对弈数据，并基于对弈数据对基础智能体进行强化学习，得到目标智能体。

又一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法实施例所提供的智能体训练方法，该方法比如可以包括：获取专家玩家的游戏回放数据，并基于游戏回放数据对初始神经网络模型进行监督学习，得到基础智能体；确定对弈智能体，并进行基础智能体与对弈智能体之间的对弈；获取基础智能体与对弈智能体之间进行对弈的对弈数据，并基于对弈数据对基础智能体进行强化学习，得到目标智能体。

示例地，计算机可读存储介质包括非暂态计算机可读存储介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种智能体训练方法，其特征在于，包括：

2.根据权利要求1所述的智能体训练方法，其特征在于，所述确定对弈智能体，包括：

3.根据权利要求2所述的智能体训练方法，其特征在于，所述从多智能体联盟中确定所述对弈智能体，包括：

获取所述多智能体联盟中保存的各所述智能体的战况信息；

4.根据权利要求2所述的智能体训练方法，其特征在于，所述从多智能体联盟中确定所述对弈智能体，包括：

获取目标训练战术的目标战术标签；

基于所述匹配智能体确定所述对弈智能体。

5.根据权利要求2所述的智能体训练方法，其特征在于，在得到所述目标智能体之后，所述方法还包括：

6.根据权利要求5所述的智能体训练方法，其特征在于，所述基于所述目标智能体对所述多智能体联盟中的智能体进行更新，包括：

7.根据权利要求1至6任一项所述的智能体训练方法，其特征在于，所述基于所述对弈数据对所述基础智能体进行强化学习，包括：

基于所述游戏回放数据确定对弈奖励；

8.一种智能体训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的智能体训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的智能体训练方法。