CN118036694A

CN118036694A - 一种训练智能体的方法、装置和设备及计算机存储介质

Info

Publication number: CN118036694A
Application number: CN202410275839.XA
Authority: CN
Inventors: 杨汶锦; 高一鸣; 刘飞宇; 王亮; 付强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-03-12
Filing date: 2024-03-12
Publication date: 2024-05-14

Abstract

本申请公开了一种训练智能体的方法、装置和设备及计算机存储介质，应用于计算机技术领域，该方法包括：获取预先设置的至少一种角色行为风格，其中，角色行为风格用于指示智能体在制定执行动作决策时的策略倾向；基于至少一种角色行为风格，为待训练智能体配置相应的行为风格信息，行为风格信息包含：待训练智能体在不同环境条件下针对各预设动作的执行倾向概率；基于行为风格信息，从预设的至少一种奖励信息中，获取与行为风格信息对应的目标奖励信息，目标奖励信息表征：具有行为风格信息的待训练智能体在不同环境条件下，执行各预设动作时对应的奖励权重；基于目标奖励信息，对待训练智能体进行多轮迭代训练，获取相应的目标智能体。

Description

一种训练智能体的方法、装置和设备及计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能（Artificial Intelligence，AI）领域，提供一种训练智能体的方法、装置和设备及计算机存储介质。

背景技术

在电子游戏对局中，有时会在游戏中配置一些能够模仿人类游戏行为的游戏AI（以下简称为智能体），这些智能体可以作为虚拟玩家参与到游戏进程中，与真实的游戏玩家进行游戏互动。

为了使得智能体能够顺利的完成游戏对局，一般会采用强化学习方式使得智能体具备完成游戏对局的能力，即：通过环境针对智能体行为反馈的奖励信号，来训练出智能体能够顺利完成游戏对局的能力。例如，当智能体产生需求行为时，环境可以给予其正奖励，反之，当智能体产生不需要的行为时，则可以给予其负奖励。

而在目前的强化学习框架下，训练后得到的智能体倾向于采用单一的行为风格来面对所有的对局与玩家。这会导致玩家的游戏体验变得枯燥单一，从而降低了玩家的乐趣。

所以，为了丰富游戏玩家的游戏体验，智能体需要尽量表现出游戏风格多样、决策能力多变的游戏水准。为此，在训练智能体时，可以采用联盟训练（AlphaStar League）这一方式，通过引入具有不同游戏风格的“陪练”智能体作为“联盟”，对待训练的智能体进行迭代训练，进而得到多种具有不同游戏风格的智能体。

然而，这样的训练方式需要采用大量的旧模型作为“陪练”智能体，对待训练智能体进行迭代训练，这就使得这一训练过程需要消耗较多的模型成本。同时，采用“陪练”智能体训练得到的目标智能体，其行为风格是通过“陪练”智能体确定的，换言之，一种风格类型的“陪练”智能体只能训练出具有对应行为风格的目标智能体，而想要获得不同行为风格的目标智能体，就需要更多风格类型的“陪练”智能体们，这进一步地增加了获取目标智能体的模型成本。

因此，如何以较低的训练成本，获取多种具有不同行为风格的智能体，是一个亟待解决的问题。

发明内容

本申请实施例提供一种训练智能体的方法、装置和设备及计算机存储介质，用以在多样性智能体的训练过程中降低训练成本。

一方面，提供一种训练智能体的方法，该方法包括：

获取预先设置的至少一种角色行为风格，其中，所述角色行为风格用于指示智能体在制定执行动作决策时的策略倾向；

基于所述至少一种角色行为风格，为待训练智能体配置相应的行为风格信息，所述行为风格信息包含：所述待训练智能体在不同环境条件下针对各预设动作的执行倾向概率；

基于所述行为风格信息，从预设的至少一种奖励信息中，获取与所述行为风格信息对应的目标奖励信息，所述目标奖励信息表征：具有所述行为风格信息的待训练智能体在不同环境条件下，执行所述各预设动作时对应的奖励权重；

基于所述目标奖励信息，对所述待训练智能体进行多轮迭代训练，获取相应的目标智能体。

一方面，提供一种训练智能体的装置，该装置包括：

风格确定模块，用于获取预先设置的至少一种角色行为风格，其中，所述角色行为风格用于指示智能体在制定执行动作决策时的策略倾向；基于所述至少一种角色行为风格，为待训练智能体配置相应的行为风格信息，所述行为风格信息包含：所述待训练智能体在不同环境条件下针对各预设动作的执行倾向概率；

奖励配置模块，用于基于所述行为风格信息，从预设的至少一种奖励信息中，获取与所述行为风格信息对应的目标奖励信息，所述目标奖励信息表征：具有所述行为风格信息的待训练智能体在不同环境条件下，执行所述各预设动作时对应的奖励权重；

迭代训练模块，用于基于所述目标奖励信息，对所述待训练智能体进行多轮迭代训练，获取相应的目标智能体。

可选的，所述迭代训练模块用于基于所述目标奖励信息，对所述待训练智能体进行多轮迭代训练，获取相应的目标智能体时，具体用于：

基于所述目标奖励信息中的各奖励权重，对所述待训练智能体进行多轮迭代训练，获取相应的目标智能体；其中，在一轮迭代训练过程中执行以下操作：

获取所述待训练智能体在预设帧中，执行至少一个预设动作时的第一模型数据；其中，所述第一模型数据包括：所述待训练智能体对应的角色状态信息以及所述待训练智能体与环境的交互信息；

基于所述第一模型数据，获取所述待训练智能体在所述预设帧执行的至少一个预设动作对应的状态奖励值；

基于所述待训练智能体对应的目标奖励信息中的奖励权重，对获得的各状态奖励值分别进行加权处理，并将加权后的状态奖励值反馈至所述待训练智能体进行参数调整。

可选的，所述迭代训练模块用于将加权后的状态奖励值反馈至所述待训练智能体进行参数调整时，具体用于：

将所述加权后的状态奖励值反馈至所述待训练智能体；

当所述待训练智能体触发预设任务时，获取所述待训练智能体在预设的任务时间范围内的第二模型数据，所述第二模型数据表征：所述待训练智能体在所述任务时间范围内执行所述预设动作后对应的整体评价信息；

基于所述整体评价信息，以及所述待训练智能体对应的角色行为风格，获取相应的评价奖励值，并将所述评价奖励值反馈至所述待训练智能体；

基于反馈至所述待训练智能体的所述加权后的状态奖励值以及所述评价奖励值，对所述待训练智能体进行参数调整。

可选的，所述目标奖励信息还表征：具有所述行为风格信息的待训练智能体在不同环境条件下，持有预设道具时对应的奖励权重。

可选的，所述角色行为风格还用于指示智能体在执行各预设动作时的能力等级。

可选的，所述行为风格信息还包含：所述待训练智能体在不同环境条件下，针对各预设动作的执行命中概率，执行延迟时间以及执行时间间隔中的一种或多种。

可选的，所述风格确定模块用于基于所述至少一种角色行为风格，为待训练智能体配置相应的行为风格信息时，具体用于：

获取预设的行为类型集合，所述行为类型集合包括：具有不同角色行为风格的待训练智能体在执行所述各预设动作时，对应的多种执行倾向概率；

针对各角色行为风格，基于预设的抽取规则，从所述行为类型集合中，获取所述待训练智能体的角色行为风格对应的各预设动作各自对应的执行倾向概率，并为所述待训练智能体配置相应的行为风格信息。

可选的，所述风格确定模块用于基于预设的抽取规则，从所述行为类型集合中，获取所述待训练智能体的角色行为风格对应的各预设动作各自对应的执行倾向概率时，具体用于：

基于所述待训练智能体对应的角色行为风格，从所述行为类型集合中，所述角色行为风格对应的多种执行倾向概率中，随机获取至少一个预设动作对应的执行倾向概率；

则所述奖励配置模块用于基于所述行为风格信息，从预设的至少一种奖励信息中，获取与所述行为风格信息对应的目标奖励信息时，具体用于：

基于所述行为风格信息包括的至少一个预设动作，从预设的至少一个奖励信息中，获取包含所述至少一个预设动作中每个预设动作的奖励权重的奖励信息，作为所述目标奖励信息。

一方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种方法的步骤。

一方面，提供一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种方法的步骤。

一方面，提出一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

本申请有益效果如下：

在本方案中，通过预先设置不同的角色行为风格、行为风格信息以及奖励信息，为智能体的训练过程提供数据基础，利用角色行为风格，为待训练智能体标定对应的训练后的目标智能体的行为风格，利用行为风格信息，确定待训练智能体在执行不同预设动作时的执行倾向概率，利用奖励信息，确定反馈至待训练智能体的奖励的多寡，如此，利用强化学习的训练方式，使得待训练智能体通过自身与环境的不断互动与反馈，利用试错的方式，训练得到具有某种行为风格的目标智能体。在该方式中，仅通过待训练智能体与环境的互动，以及互动后给予待训练智能体的奖励反馈，即可训练得到具有不同行为风格的目标智能体，降低了训练不同行为风格的智能体所需的训练模型成本。

并且，本方案预先配置了多种角色行为风格、多种行为风格信息、多种奖励信息，服务器可以直接根据这些多种配置信息，训练得到具有不同行为风格的目标智能体，如此，服务器可以快速便捷的对各个待训练智能体进行训练，进而直接得到多种具有不同行为风格的目标智能体，同样减少了训练多种目标智能体的训练成本以及计算资源。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的应用场景示意图；

图2A为本申请实施例提供的一种训练智能体的方法的流程图；

图2B为本申请实施例提供的不同行为风格对应的执行动作倾向的示意图；

图3A和图3B为本申请实施例提供的角色行为风格和行为风格信息的对应关系的示意图；

图4为本申请实施例提供的一种获取行为风格信息的方法的流程图；

图5为本申请实施例提供的角色行为风格、预设动作以及执行倾向概率之间的对应关系的示意图；

图6为本申请实施例提供的一种获取执行倾向概率的逻辑示意图；

图7为本申请实施例提供的另一种获取执行倾向概率的逻辑示意图；

图8A为本申请实施例提供的一种一轮迭代训练的方法的流程图；

图8B为本申请实施例提供的一种实时反馈奖励值的示意图；

图9A为本申请实施例提供的另一种一轮训练方法的流程图；

图9B为本申请实施例提供的一种阶段性反馈奖励值的示意图；

图10为本申请实施例提供的一种***架构示意图；

图11为本申请实施例提供训练智能体的装置的一种结构示意图；

图12为本申请实施例提供的计算机设备的组成结构示意图；

图13为应用本申请实施例的另一种计算机设备的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

可以理解的是，在本申请的下述具体实施方式中，涉及到游戏玩家相关的数据，当本申请的各实施例运用到具体产品或技术中时，需要获得相关许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

强化学习：又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。

具体来讲，强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价，由于外部环境提供的信息很少，强化学习***必须靠自身的经历进行学习。通过这种方式，强化学习***在行动-评价的环境中获得知识，改进行动方案以适应环境。其基本原理是：

如果智能体的某个行为策略导致环境正的奖赏（强化信号），那么智能体以后产生这个行为策略的趋势便会加强，智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习的目标是动态地调整参数，以达到强化信号最大。

虚拟角色：是指虚拟对局场景中可被控制用于完成虚拟对局场景相关过程的角色，以虚拟对局场景为游戏对应的游戏场景为例，则虚拟角色是指可唯一确定一个游戏对象的对象，一个游戏账号下可以创建多个虚拟角色，当然，除了正式玩家账号中创建的虚拟角色之外，本申请实施例还涉及到辅助完成游戏对局的虚拟角色。在一些游戏客户端中，需要创建虚拟角色在虚拟对局场景中进行游戏对局，则该虚拟角色可以是指在虚拟对局场景中的可活动对象。

智能体：或称为AI角色，AI是开发用于模拟和扩展人的智能和方法，在游戏中实现AI角色模拟真实玩家的技术，即AI角色除了不由真实玩家控制之外，其在虚拟对局场景中的行为是模拟真实玩家的虚拟角色来实现的。

行为风格：是指在进行虚拟对局时呈现出的策略风格，表达了当需要进行决策时，针对所需决策的可选项的倾向性，对应于游戏中，则呈现出对于游戏打法的一种风格表现。示例的，对于游戏中存在多种分路选择时，则一个游戏角色的对局风格的表现即为该游戏角色倾向走哪个分路，或者，当游戏中需要从出生点前往目标点执行任务时，则游戏角色的对局风格的表现即为该游戏角色的开局路径选择，当然，除了这些表现之外，还可以包含其他游戏中的倾向性决策，例如在一局游戏中是倾向于击败敌对角色还是完成游戏中的任务等等。

本申请实施例涉及人工智能和机器学习（Machine Learning，ML）技术，主要基于人工智能中的机器学习而设计。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

人工神经网络（Artificial Neural Network，ANN），从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成，每个节点代表一种特定的输出函数，称为激励函数（activation function），每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及采用机器学习的方式，来对待训练智能体进行相应的迭代训练，进而在实际的游戏对局场景中，采用训练后的目标智能体，模拟风格不同的玩家，操纵虚拟角色，与真实的游戏玩家进行游戏互动。其中，待训练智能体为基于强化学习的人工神经网络模型，即本申请实施例采用机器学习的方法获得能够以不同行为风格对虚拟角色进行操作的目标智能体，目标智能体基于机器学习的实现在虚拟对局场景中控制虚拟角色的动向以及对局动作的能力。

下面，针对本申请实施例的技术方案的技术思想进行简述。

在相关技术中，因为强化学***的上限也不高，容易被玩家采用极端策略针对，无法满足实际对局的需求。

因此，为了训练多种行为风格的智能体，且能够面对不同风格的玩家，相关技术中还会采用联盟训练法，采用多个“陪练”智能体对待训练智能体进行训练。然而，在这种方式中，首先需要多个已然训练完成的“陪练”智能体，通过待训练智能体与“陪练”智能体之间的互动操作的反馈，来对待训练智能体进行相应的训练，以此获取与“陪练”智能体的风格对应的目标智能体（通常而言会获得能够克制“陪练”智能体的行为风格的目标智能体）。而这就导致在训练不同的行为风格的智能体时，需要采用多批具有不同风格的“陪练”智能体进行互动训练，进而使得训练出多种行为风格的智能体所需要消耗的训练成本较高，且训练过程也较为复杂，难以快速便捷地得到更多的具有不同行为风格的目标智能体。

有鉴于此，本申请实施例提供了一种训练智能体的方法，在该方法中，通过预先设置多种不同的角色行为风格，设定期望的目标智能体在指定执行动作角色时的策略倾向，并根据对应的倾向，设置相应的行为风格信息，规范目标智能体在训练过程中，在不同环境条件下针对各预设动作的执行倾向概率，如此，首先确定了目标智能体可以对应的不同角色行为风格，为后续的训练过程设定了多种训练目标。

同时，设置至少一种奖励信息，用于指示待训练智能体在不同环境条件下，执行各预设动作时对应的奖励权重，并且，设置的不同种类的奖励信息分别对应不同的行为风格信息。这样，在后续进行对待训练智能体的迭代训练时，即可根据对待训练智能体的期望角色行为风格以及行为风格信息，从设置的至少一种奖励信息中，获取相应的目标奖励信息，进行对该待训练智能体进行针对性地训练。

完成上述基础信息的配置后，在对待训练智能体进行迭代训练以期获取目标智能体的过程中，可以从上述设置的角色行为风格中，获取至少一种角色行为风格，并基于获取到的角色行为风格，为相应的待训练智能体配置行为风格信息，进而基于待训练智能体各自的行为风格信息，设置与行为风格信息对应的目标奖励信息，如此，最后即可基于各待训练智能体各自对应的目标奖励信息，对待训练智能体进行多轮迭代训练，继而获得相应的目标智能体。

这样，在对待训练智能体进行训练时，就可以直接根据不同的奖励权重，为不同的待训练智能体各自执行的预设动作反馈不同的奖励，使得具有不同角色行为风格的待训练智能体通过不同的行为策略获取最大奖励值，进而获得自身的行为风格。

下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例提供的方案可以适用于大多数虚拟场景应用中，比如适用于包含智能体在内的多个虚拟角色参与对局的游戏应用场景中。如图1所示，为本申请实施例提供的一种应用场景示意图，在该场景中，可以包括多个终端设备101和服务器102，每个终端设备101可以安装有与服务器102对应的客户端，比如支持三维虚拟场景的游戏应用程序。该游戏应用程序可以是虚拟现实（Virtual Reality，VR）游戏程序、第三人称射击游戏（Third-Personal Shooting Game，TPS）、第一人称射击游戏（First-person shooting game，FPS）、多人在线战术竞技游戏（Multiplayer Online Battle Arena，MOBA）、大型多人在线角色扮演游戏（Massive Multiplayer Online Role-playing game，MMORPG）、多人枪战类生存游戏、多人派对类游戏中的任意一种。可选地，该应用程序可以是单机版的应用程序，比如单机版的3D游戏程序，也可以是网络联机版的应用程序。本申请实施例涉及的客户端可以是软件客户端，也可以是网页、小程序等客户端，服务器102则是与软件或是网页、小程序等相对应的服务器，不限制客户端的具体类型。

终端设备101可以为任意具备虚拟景应用（例如游戏应用）运行功能的设备，例如可以为手机、膝上型便携计算机、平板电脑（PAD）、笔记本电脑、台式电脑、智能电视、智能车载设备、智能可穿戴设备、电子书阅读器等。服务器102为用于为该客户端提供后台服务，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、即内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云端服务器，但并不局限于此。

需要说明的是，本申请实施例中控制智能体进行对局的方法可以由终端设备101或者服务器102单独执行，也可以由服务器102和终端设备101共同执行。换句话说，各终端设备101上运行游戏客户端的过程中，服务器102承担主要计算工作，各终端设备101承担次要计算工作；或者，服务器102承担次要计算工作，各终端设备101承担主要计算工作；或者，服务器102与各终端设备101之间采用分布式计算架构进行协同计算。

服务器102和终端设备101均可以包括一个或多个处理器、存储器以及与用于进行交互的I/O接口等。此外，服务器102还可以配置数据库，可以用于存储虚拟对局场景中涉及到的数据，如智能体数据、对局数据等。其中，服务器102和终端设备101的存储器中还可以存储本申请实施例提供的训练智能体方法中各自所需执行的程序指令，这些程序指令被处理器执行时能够用以实现本申请实施例提供的训练智能体的过程。

当虚拟场景为游戏场景时，在实际应用过程中，不同的游戏玩家可以通过各自的终端设备101运行游戏客户端，其中，不同终端设备101上运行的应用程序可以是相同的，或者为不同操作***平台的同一类型应用程序。当终端设备101运行游戏客户端时，呈现包含虚拟角色的游戏界面。此外，本申请实施例中针对的智能体是不存在真实玩家的，因而其不存在相应的游戏界面，但从智能体的角度，也可以包含对应的假想游戏画面。

在一种可能的实施方式中，终端设备101本地安装有游戏客户端并用于呈现游戏画面。终端设备101用于通过图形用户界面与玩家进行交互，即，通过终端设备101下载安装游戏客户端并运行，当然，游戏客户端的成功运行也需要服务器102提供后台服务。该终端设备101将图形用户界面提供给玩家的方式可以包括多种，例如，可以渲染显示在终端的显示屏上，或者，通过全息投影提供给玩家。

在一种可能的实施方式中，本申请实施例中的游戏应用还可以基于云交互***来实现，云交互***下可以运行各种云应用，例如：云游戏。以云游戏为例，云游戏是指以云计算为基础的游戏方式。在云游戏的运行模式下，游戏客户端的运行主体和游戏画面呈现主体是分离的，虚拟场景中的AI角色控制方法的储存与运行是在云服务器上完成的，终端设备101的作用为用于数据的接收、发送以及游戏画面的呈现，举例而言，终端设备101可以是靠近用户侧的具有数据传输功能的显示设备，但是进行虚拟场景中的AI角色控制方法的为云端的云服务器。在进行游戏时，玩家操作客户端设备向云服务器发送操作指令，云服务器根据操作指令运行游戏，将游戏画面等数据进行编码压缩，通过网络返回客户端设备，最后，通过客户端设备进行解码并输出游戏画面。

本申请实施例中，各终端设备101和服务器102之间可以通过一个或者多个网络103进行直接或间接的通信连接。该网络103可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真（Wireless-Fidelity，WIFI）网络，当然还可以是其他可能的网络，本申请实施例对此不做限制。

需要说明的是，图1所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的训练智能体的方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参见图2A，为本申请实施例提供的一种训练智能体的方法的流程图，执行该训练方法的主体可以是如图1所示的服务器102中的独立的物理服务器或者分布式***或者是云服务器等，也可以是如图1所示的终端设备101中的计算机等，本申请对此不做限制。为了便于后续的说明，本申请实施例将以服务器为训练智能体的方法的执行主体为例，对后续实施细节进行具体介绍。

如图2A所示，训练智能体的方法的具体步骤如下：

步骤S201：获取预先设置的至少一种角色行为风格，其中，该角色行为风格用于指示智能体在制定执行动作决策时的策略倾向。

在对待训练智能体进行多轮迭代训练之前，首先需要对待训练智能体中的部分参数进行确定。其中，首先确定的即为期望待训练智能体所能实现的行为风格。

因此，在步骤S201中，需要获取预先设置的至少一种角色行为风格，该角色行为风格可以指示待训练智能体在指定执行动作决策时的策略倾向。

为了明确角色行为风格中，策略倾向的含义，以下将通过两个示例对该内容进行说明。

以多人派对游戏为例，在游戏提供的虚拟对局中，多名玩家会共同闯关，并不停地淘汰其他玩家，直至最后一名玩家胜出。其中，闯关过程可以包括：玩家需要在前进的路途中，不断的穿过障碍物或者避开干扰物体，加以偶尔出现的增益道具，与其他玩家竞速，直到到达目标终点；或者，玩家需要与同场玩家进行对抗淘汰赛，玩家分为两队，通过提高本队分数，降低对方分数，以实现最终的胜利等等。在这些过程中，不同的行为风格的玩家，面对相同的游戏环境，会选择不同的动作进行执行，例如，如图2B所示，风格偏向进攻类型的玩家，会选择路线1，主动拾取道具，并利用道具给同场玩家造成障碍以使其他玩家降低速度或被淘汰，而风格偏向保守类型的玩家，则会选择路线2提高自身速度或者分数，以使自身能够满足过关要求。

需要说明的是，上述两种风格仅是粗略分类，在不同的风格类型下，还可以存在更多的行为风格类型的划分，例如，较为保守类型，或者较为激进类型，或者十分激进类型等等，本申请对具体包含的角色行为风格类型以及其对应的数量不做限制。

以多人在线战术竞技游戏为例，在游戏提供的虚拟场景中，会存在两个对立的团队，两方的目标都是击破敌方守护目标，因此在各自完成自身目标的过程中，会针对敌对团队中的玩家进行战术操作。而不同行为风格的玩家同样会采用不同的行为逻辑，例如，偏向对抗的玩家会主动与敌对玩家进行对抗操作，而偏向保守的玩家则会避开与敌对玩家对抗，而是倾向于与虚拟对局中的环境内容进行互动。

从上述内容中可以看出，在游戏对局中，玩家的行为风格多样，不同行为风格的玩家在对局中的表现也不尽相同，因此，如果投入至游戏提供的虚拟对局中的智能体仅为具有一种行为逻辑的智能体，那么玩家不仅很容易发现智能体的存在，也比较容易找到针对这种智能体的克制操作，进而完成多次对局胜利的复现。这不仅无法给予玩家多样化的游戏体验，还很容易使得玩家厌烦。

因此，本申请提出预先设置多种角色行为风格，这些角色行为风格表征了使用者期望获得的模拟多种行为风格的目标智能体的行为风格类型，例如保守型、激进型、中庸型等等。

基于上述设置的角色风格信息，在对待训练智能体进行训练时，服务器即可从这些预先设置的角色行为风格中，获取至少一种角色行为风格，作为相应的待训练智能体的训练目标。

完成角色行为风格的获取后，服务器即可继续以下操作：

步骤S202：基于至少一种角色行为风格，为待训练智能体配置相应的行为风格信息，该行为风格信息包括：待训练智能体在不同环境条件下，针对各预设行为动作的执行倾向概率。

在上述步骤S201中，服务器获取到了针对待训练智能体的至少一种角色行为风格，为了使得待训练服务器能够训练成为期望的目标智能体，服务器还需要基于获取到的角色行为风格，为待训练智能体配置相应的行为风格信息，该行为风格信息包括了待训练智能体在不同环境条件下，针对各预设行为动作的执行倾向概率。

例如，在多人派对类游戏的竞速模式中，待训练智能体可能会面对是直接向前冲刺还是转弯获取给其他玩家增加减益状态的道具的选择，此时，具有不同角色行为风格的目标智能体会有不同的选择，举例来说，保守性的角色行为风格的目标智能体会选择继续向前冲刺，而对抗性强的角色行为风格的目标智能体则会选择获取减益道具，以期为其他玩家提供障碍。

需要说明的是，行为风格信息中包括的执行倾向概率是针对预设动作的各种概率，而预设动作的数量以及具体动作则可以在实际应用中，由使用者具体确定。例如，可以从智能体可能做出的动作中，选取出部分关键动作作为上述预设动作，例如，拾取道具、干扰其他玩家、使用道具等等，也可以从智能体可能面对的环境条件出发，将不同的环境条件下可能出现的动作作为上述预设动作，例如，在面对只剩下两个玩家的环境下，向前冲刺、干扰其他玩家、使用道具等等这些特殊环境条件下的动作，或者，在面对多个道具可以选择的环境下，选取不同道具的动作等等。

在明确行为风格信息中包括的执行倾向概率后，以下将对如何为智能体配置相应的行为风格信息进行介绍。

一种可能的实施方式中，如图3A所示，可以预先为不同的角色行为风格设置相应的一一对应的行为风格信息，而对应的行为风格信息中包括了在不同环境条件下预设动作对应的执行倾向概率。如此，每当服务器为待训练智能体获取到相应的角色行为风格后，即可根据预设的角色行为风格对应的行为风格信息，为待训练智能体配置相应的行为风格信息。

一种可能的实施方式中，如图3B所示，可以预先设置不同的行为动作对应的执行倾向概率，当为待训练智能体获取到角色行为风格后，可以从预先设置的执行倾向概率中，抽取部分概率信息作为行为风格信息，并将其配置到待训练智能体中。

具体的，参见图4，为本申请实施例提供的一种获取行为风格信息的方法的流程图，如图4所示，该方法具体实施步骤如下：

步骤S401：获取预设的行为类型集合，该行为类型集合包括：具有不同角色行为风格的待训练智能体在执行各预设动作时，对应的多种执行倾向概率。

首先，可以预先在服务器中设置行为类型集合，该行为类型集合用于包含不同的角色行为风格对应的各预设动作对应的多种执行倾向概率。

如图5所示，角色行为风格、预设动作以及执行倾向概率之间的对应关系可以为多对多的形式，即不同的角色行为风格对应的预设动作是多种的，而预设动作所对应的执行倾向概率也可以是多种的。为了增加智能体行为风格的多样性，本申请实施提出，即便是同一角色行为风格下，针对某一预设动作的执行倾向概率也可以是多种的。其中，多种的执行倾向概率在某一个概率范围之内，例如，激进型的角色行为风格，在执行干扰其他玩家的预设动作时，其对应的执行倾向概率则可以是70%-90%的范围内的任意概率。

需要说明的是，行为类型集合的设置，既可以是开发人员根据自身实际经验进行的人工设置，也可以是采用机器学习的方法，从现有的玩家数据中，学习得出，本申请对此不做限制。

行为类型集合设置完成后，服务器即可在执行上述方法的过程中，获取到预设的行为类型集合，然后继续执行如下操作：

步骤S402：针对各角色行为风格，基于预设的抽取规则，从行为类型集合中，获取待训练智能体的角色行为风格对应的各预设动作各自对应的执行倾向概率，并为待训练智能体配置相应的行为风格信息。

从前述内容可知，服务器获取到的行为类型集合中包含了多种执行倾向概率，因此，要为待训练智能体配置相应的行为风格信息，就需要从该行为类型集合中，获取与待训练智能体对应的角色行为风格匹配的，各预设动作的执行倾向概率。然后，即可将这些获取到的信息作为待训练智能体对应的行为风格信息。

从多种执行倾向概率中获取到期望的执行倾向概率，同样需要依据一定的抽取规则进行。而该抽取规则也可以如行为类型集合的设置一样，通过人员进行配置或者通过机器学习得到，本申请不做限制。

一种可能的实施方式中，从行为类型集合中获取执行倾向概率的抽取规则可以是：直接从行为类型集合中，获取某种角色行为风格下，各预设动作各自对应的执行倾向概率中的满足预设数值条件的执行倾向概率，例如，如图6所示获得各预设动作对应的最大执行倾向概率或者最小执行倾向概率。

如此，服务器可以快速的从行为类型集合中，获取到合适的行为风格信息，用以配置至待训练智能体。

一种可能的实施方式中，从行为类型集合中获取执行倾向概率的抽取规则可以是：基于待训练智能体对应的角色行为风格，从行为类型集合中，角色行为风格下个预设动作对应的多种执行倾向概率中，随机获取执行倾向概率。例如，如图7所示，由于行为类型集合中，即便是同一角色行为风格下，同一个预设动作对应的执行倾向概率也对应了多种执行倾向概率（如上述举例的70%-90%），因此，在该实施例中，服务器可以从行为类型集合中，随机获取各个预设动作的执行倾向概率，如此，不同的训练过程下，即便是规定的某个相同的角色行为风格，服务器仍旧可以得到具备不同行为特性的目标智能体，因此可以大大增加智能体所能模拟的行为风格的多样性，进而提高玩家体验的丰富性。

如此，在完成行为风格信息的获取与配置后，服务器还可以继续为待训练智能体配置响应的目标奖励信息。

步骤S203：基于待训练智能体对应的行为风格信息，从预设的至少一种奖励信息中，获取与行为风格信息对应的目标奖励信息，该目标奖励信息表征：具有该行为风格信息的待训练智能体，在不同环境条件下，执行各预设动作时对应的奖励权重。

需要说明的是，在人工智能的强化学习过程中，被训练的智能体每个动作所得到的反馈一般被称为奖励，该奖励分为正奖励与负奖励，当智能体做出期望其做出的动作后，即可得到正奖励（例如+1、+2等），而智能体做出不期望其做出的动作时，就会得到负奖励（例如-1、-2等），由于智能体的训练目标是得到最大的奖励值，因此，在多轮迭代中，智能体会不断修正自身的动作，以期得到更高的奖励值。因此，通过为不同的动作设置不同的反馈奖励，即可训练智能体实现目标动作。

而在本申请实施例中，一个训练目标是获取具有不同行为风格的智能体，而不同的行为风格即为面对同一种情况，会做出的动作不同，因此，为了实现该训练目标，本申请实施例提出：针对不同的角色行为风格，可以设置不同的奖励信息与其对应，其中，奖励信息包括了：智能体执行各预设动作时对应的奖励权重。如此，在后续训练待训练智能体的过程，服务器可以将反馈至待训练智能体的奖励值赋予对应的权重，由于不同的行为能够得到的奖励值不同，待训练智能体就会更多的执行能够获取更大奖励的动作，如此，训练后得到的目标智能体即可按照为其配置的角色行为风格，执行相应的动作。

因此，为了得到多种具有不同角色行为风格的目标智能体，可以预先在服务器中设置相应的至少一种奖励信息。这些奖励信息对应了多种奖励权重的组合，而这些组合则对应不同的角色行为风格。

例如，对于激进型的角色行为风格，其对应的奖励权重中，智能体执行干扰其他玩家的动作后对应的奖励权重就可以偏大，该智能体在血量损失后得到的负奖励的奖励权重就可以偏小，如此，训练后的智能体就会朝着不在意血量损失，且偏向于干扰其他玩家的风格执行各预设动作。而对于保守型的角色行为风格，其对应的奖励权重中，智能体执行干扰其他玩家的动作所对应的奖励权重就可以偏小，其在血量损失后得到的负奖励的奖励权重就可以偏大，如此训练后的智能体就会朝着在意自身血量，且尽量不会特意干扰其他玩家的风格执行各预设动作。

一种可能的实施方式中，为了更加细化训练待训练智能体的行为风格，服务器还可以针对待训练智能体在持有不同的游戏道具时对应的奖励权重，以此针对待训练智能体进行更为细化的训练。示例性的，目标奖励信息还可以表征：具有相应行为风格信息的待训练智能体在不同环境条件下，持有预设道具时对应的奖励权重。例如，对于激进型的待训练智能体而言，持有对其他玩家具有干扰效果的道具时，其对应的奖励权重可以大于，持有对其自身有增益效果的道具的奖励权重。如此，激进型的待训练智能体会被进一步的鼓励去做更加符合激进型行为风格的操作。

在本申请实施例中，服务器在为待训练智能体配置相应的行为风格信息后，还需要为其配置对应的目标奖励信息，该目标奖励信息是从预设的至少一种奖励信息中，基于待训练智能体的行为风格信息，选择出的一种对应的奖励信息。

如此，在完成目标奖励信息的获取后，服务器即可继续执行如下操作：

步骤S204：基于目标奖励信息，对待训练智能体进行多轮迭代训练，获得相应的目标智能体。

在完成了目标奖励信息以及行为风格信息的获取后，服务器即可基于这些获取到的信息，对待训练智能体进行多轮迭代训练，如此，在每轮训练过程中，服务器会控制待训练智能体按照行为风格信息，执行各预设动作，并在一轮训练过程的奖励反馈之后，在下一轮训练中，调整其执行各种预设动作的策略，进而获得更多的奖励值，这样，多轮迭代之后，待训练智能体获得的奖励值将会趋于稳定，此时，服务器即可获得相应的目标智能体。

以上介绍了服务器在对待训练智能体进行训练前的配置信息获取的过程，当服务器已然获取到待训练智能体对应的行为风格信息以及目标奖励信息后，即可基于这些信息，执行相应的训练操作。

一种可能的实施方式中，服务器基于目标奖励信息中的各奖励权重，对待训练智能体进行多轮迭代训练，直到满足迭代终止条件时，获得目标智能体。

其中，由于每一轮迭代训练的过程是类似的，因此下面主要以一轮迭代训练为例，来对本申请实施例的训练过程进行介绍，在每一轮迭代训练，包括如下过程：

参见图8A，为本申请实施例提供的一种一轮迭代训练的方法的流程图，如图8A所示，该方法具体实施步骤如下：

步骤S801：获取待训练智能体在预设帧中，执行至少一个预设动作时的第一模型数据；其中，第一模型数据包括：待训练智能体对应的角色状态信息以及待训练智能体与环境的交互信息。

本申请实施例中，当本轮为初次迭代时，则本轮使用的待训练智能体为原始的待训练智能体，其中包括的网络参数可以通过随机初始化的方式进行赋值，也可以是一个训练至收敛的智能体，然后通过本次训练进行微调，本申请对此不做限制；当本轮为非初次迭代时，则本轮使用的待训练智能体为上一次调参之后的待训练智能体。而在训练过程中使用的训练样本，则来自于智能体与游戏提供的虚拟环境交互生成的对局数据。而该训练过程中，服务器可以控制一个待训练智能体在虚拟的游戏场景中进行训练，也可以控制多个待训练智能体在多个虚拟的游戏场景中进行训练，还可以控制多个待训练智能体在一个虚拟的游戏场景中同时进行训练，本申请对此不做限制。

一种可能的实施方式中，待训练智能体可以被投入至虚拟的游戏场景中进行训练，此时，待训练智能体在游戏场景中的各动作都会被服务器拆分计算到每帧游戏帧中，因此，在每个游戏帧中，服务器都会获取到与待训练智能体相关的第一模型数据，该第一模型数据包括了：待训练智能体对应的角色状态信息以及待训练智能体与环境的交互信息。

对于一个待训练智能体而言，其包含的数据除了上述提出的角色行为风格、行为风格信息外，还会包含有一些用于感知游戏提供的虚拟环境的信息，明晰自身对局任务的信息，以及虚拟环境中提供的物体的信息等信息中的一种或多种，以下将分别对其进行介绍。

（1）环境感知信息，用于为智能体提供环境信息。该信息的获取通过智能体对应的高度图的射线以及环形射线。其中，高度图的射线的长度为500cm，射线之间的间隔为150cm，射线数量为17x17。环形射线为在智能体对应的虚拟角色的头的位置(例如高度为240cm)和脚的位置(例如高度为0cm)发射出17x17条射线。通过这些射线与环境的交互反馈，智能体能够感知周围的环境变化，更好地理解周围的环境。

（2）任务信息，用于为智能体提供虚拟场景中各关卡之间存在的任务的信息。包括任务属性信息和任务目标信息。例如智能体对应的虚拟角色需要靠近某个坐标点进行增益，那么该任务就会被描述为靠近这个坐标。如果角色需要远离某个坐标进行避险，那么该任务就会被描述为远离这个坐标。

（3）物体信息，用于为智能体提供环境中存在物体的信息，包括道具、障碍物、机关等。该信息包括环境中，物体的实时状态信息，例如物体的形状和大小、物体的移动规律与移动信息等、与虚拟角色的关联信息等，还包括物体当前的位置信息等等。

（4）角色信息，用于为智能体提供当前控制的虚拟角色的相关信息，包括虚拟角色自身的状态信息，例如虚拟角色的移动状态和当前状态，是否持有道具，虚拟角色的技能状态等。另外还有每个虚拟角色之间的关联信息，例如角色之间的距离等。

因此，在训练过程中，每一个游戏帧中，待训练智能体对应的第一模型数据中，都包含了该训练智能体对应的角色状态信息以及与环境的交互信息，其中，角色状态信息中可以包括上述提出的虚拟角色的血量信息、移动状态、技能状态等等，而与环境的互动信息，则可以包括虚拟角色的位置信息、虚拟角色与其他角色之间的距离、虚拟角色与物体之间的距离等信息。

在步骤S801中提出，在预设帧获取到执行一个预设动作时的第一模型数据，其中，预设帧可以是预先设置的固定游戏帧，例如第一帧、第五帧、第十帧等等，也可以是待训练智能体在执行每个预设动作时的第一帧或者最后一帧等等，具体由使用者确定，本申请对此不做限制。

在完成第一模型数据的获取后，服务器即可继续执行如下操作：

步骤S802：基于第一模型数据，获取待训练智能体在预设帧执行的至少一个预设动作对应的状态奖励值。

通过第一模型数据，服务器可以获取到待训练智能体执行预设动作时对应的角色状态信息以及环境反馈的信息，继而可以根据这些信息，为待训练智能体分配对应的状态奖励值。

例如，待训练智能体控制的虚拟角色拾取了环境中的道具，则可以为其分配对应状态奖励值，由于道具通常都有一定的增益效果，因此可以通过正奖励鼓励待训练智能体学到一些道具拾取的策略。

又例如，当虚拟角色的血量下降到某一个阈值，则可以给予该待训练智能体负奖励，可以让待训练智能体学习到一些规避伤害的策略。

还例如，当虚拟角色对其他角色造成了伤害（包括道具造成的伤害或者通过技能造成的伤害）时，同样可以给予待训练智能体一定的奖励，鼓励待训练智能体学习到使用自身技能或者使用道具主动攻击其他虚拟角色的策略。

也例如，当虚拟角色受到伤害时（来自环境中的道具伤害或者来自其他角色的技能伤害、道具伤害等），可以给予待训练智能体相应的负奖励，鼓励待训练智能体学习规避自身伤害的策略。

通过上述奖励方式，服务器能够引导待训练智能体快速学习到某一游戏的核心玩法，以此获取到基本能够完成游戏对局的智能体。

步骤S803：基于待训练智能体对应的目标奖励信息中的奖励权重，对获得的各状态奖励值分别进行加权处理，并将加权后的状态奖励值反馈至待训练智能体进行参数调整。

在训练待训练智能体的过程中，如步骤S802所述，会为不同的预设动作分配基础的奖励值，这一套奖励值即可激励待训练智能体学习到基础的完成游戏的核心操作。而本申请期望获取到具有不同行为风格的目标智能体，因此，在这一套奖励值上，额外增加了对应的奖励权重，用于指导待训练智能体向着不同的行为风格训练。

因此，当服务器获取到了状态奖励值后，即可基于目标奖励信息中的奖励权重，为状态奖励值分别进行加权处理，并将加权后的状态奖励值反馈至待训练智能体进行参数调整。

如图8B所示，上述提出的奖励值反馈的方式，是在待训练智能体每次执行预设动作后，就及时给予其对应的奖励值，例如，图8B所示，虚拟角色每次获取到增益道具后，都会实时获取到相应的奖励值的反馈，以此叠加本轮训练中得到的奖励值。

如此，待训练智能体为了获取更多的奖励值，就会倾向于选择能够得到更多奖励值的动作，而当训练至收敛状态后，目标智能体对执行动作的选择就趋于稳定，如此，表现在游戏对局中，就是该目标智能体控制的虚拟角色会有一个较为固定的行为风格。

以上介绍了不断地为待训练智能体提供稠密奖励，来对待训练智能体进行训练的过程。

一种可能的实施方式中，服务器还可以增加新的针对待训练智能体的奖励值种类，以此对待训练智能体的游戏能力进行相应的训练。

具体的，参见图9A，为本申请实施例提供的另一种一轮训练方法的流程图，该方法具体实施步骤如下：

步骤S901：将加权后的状态奖励值反馈至待训练智能体。

在服务器实时地将针对待训练智能体执行的各预设动作对应的加权后的状态奖励值反馈至待训练智能体后，服务器还需要继续执行如下操作：

步骤S902：当待训练智能体触发预设任务时，获取待训练智能体在预设任务时间范围内的第二模型数据。

其中，第二模型数据用于表征：待训练智能体在任务时间范围内执行预设动作后对应的整体评价信息。

预设任务可以是虚拟游戏中一场对局的结算任务。例如，在多人派对类游戏中，由于其游戏结构是多个竞技闯关关卡的结合，因此，在每个关卡结束时，都会存在结算任务，计算在该关卡中，各个参与角色的排名信息。又例如，在多人竞技类游戏中，一局虚拟对局结束时，同样会触发结算任务，计算在本局游戏对局中，各个玩家的游戏信息，例如造成伤害量、承受伤害量或者提供治疗量等等。

因此，当待训练智能体触发预设任务时，服务器可以获取该待训练智能体在预设任务时间范围内的第二模型数据。其中，该预设任务时间范围可以是两次触发预设任务之间的时间间隔，也可以是某个固定时间长度，例如，本轮关卡的固定时长。

第二模型数据用于表征该待训练智能体在任务时间范围内执行预设动作后对应的整体评价信息，该整体评价信息的实际表现可以是某个关卡中，待训练智能体控制的虚拟角色的排名，也可以是某个对局中，智能体控制的虚拟角色的游戏战绩等等。

步骤S903：基于整体评价信息，以及待训练智能体对应的角色行为风格，获取相应的评价奖励值，并将该评价奖励值反馈至待训练智能体。

在完成整体评价信息的获取后，服务器可以根据待训练智能体对应的角色行为风格，为待训练智能体分配对应的评价奖励值。

一种可能的实施方式中，服务器可以根据整体评价信息中，对待训练智能体的整体操作的评价，以及该评价与角色行为风格的匹配度，为待训练智能体分配对应的奖励评价值。例如，假设整体评价信息中包括了待训练智能体控制的虚拟角色的在本局对局中的战绩信息，那么服务器可以根据其中的击败敌方玩家的个数、己方被击败次数等信息，为不同角色行为风格的待训练智能体分配相应的评价奖励值。例如，当待训练智能***激进型的角色行为风格，那么若其击败敌方玩家的个数大于己方被击败次数，则可以为该待训练智能体分配正奖励，且正奖励的值可以和击败敌方玩家的个数与己方被击败次数的差值呈正相关。

一种可能的实施方式中，角色行为风格除了用于对待训练智能体行为风格的限定外，还可以用于对待训练智能体的游戏能力的限定。表现在不同的游戏中，可以理解为，智能体控制虚拟角色在游戏中对决时，其在整体玩家中的排名。

如此，服务器可以根据整体评价信息中，待训练智能体操作的虚拟角色的排名信息，以及该排名信息与角色行为风格中，对待训练智能体游戏能力限制的匹配度，为待训练智能体分配对应的奖励评价值。例如，如图9B所示，在排名结算信息中，服务器可以获取待训练智能体操作的虚拟角色的当前排名信息，并基于该当前排名与目标排名之间的差距，为待训练智能体反馈相应的奖励值。又例如，在多人派对游戏的竞速关卡中，假设角色行为风格中规定了对应的智能体的游戏能力为中等，那么对于一个20人的游戏中，待训练智能体操作的虚拟角色在排名为10时，可以获得最高的评价奖励值，而当排名出现偏差时，其得到的评价奖励值即可与偏差值呈负相关。

相应的，当角色行为风格限定了待训练智能体的游戏能力时，与该角色行为风格对应的行为风格信息中还包括了待训练智能体在不同环境条件下，针对各预设动作的执行命中概率、执行延迟时间以及执行时间间隔中的一种或多种。

对于智能体而言，其技能的命中率、释放时机的把握等，相较于一般的真实玩家而言，会存在较大的优势。而当待训练智能体需要模拟较低水平的玩家时，较高的技能命中率显然与现实情况会产生冲突，因此，在训练过程中，当角色行为风格中限定了待训练智能体的游戏能力时，待训练智能体在释放技能时，对应的执行命中率也需要进行相应的限定。与之类似，执行延迟时间、执行时间间隔等，同样是对待训练智能体的游戏能力的限制。

如此，通过上述行为风格信息的限制，训练得到的目标智能体能够更加真实的模拟真实玩家的操作，为游戏玩家提供更加丰富的游戏体验。

步骤S904：基于反馈至待训练智能体的加权后的状态奖励值以及评价奖励值，对待训练智能体进行参数调整。

在完成本轮训练后，服务器即可根据反馈至待训练智能体的加权后的状态奖励值以及评价奖励值，调整待训练智能体的模型参数，以使待训练智能体在下一轮训练中，能够获得更高的奖励值。

在以上述方式完成多轮的迭代训练后，直到待训练智能体操控的虚拟角色能够得到较为稳定的奖励值后，即可判断该待训练智能体已经达到收敛状态，此时，可以停止对待训练智能体的迭代训练，从而获得相应的目标智能体。

以上介绍了本申请实施例提供的训练智能体的方法以及其各种可能的实施方式，下面，将对上述方法进行总体介绍。

参见图10，为本申请实施例提供的一种***架构示意图，该***架构中包括信息输入单元、奖励计算单元、动作解码单元以及神经网络单元。

信息输入单元用于为待训练智能体提供相应的角色行为风格、行为风格信息以及游戏提供的虚拟场景中的环境信息等信息，其包括了风格限制子单元、能力限制子单元以及环境信息子单元。其中，风格限制子单元用于为待训练智能体提供期望的行为风格的相关信息，能力限制子单元则用于为待训练智能体提供期望的游戏能力的相关信息，环境信息子单元则用于为待训练智能体提供游戏提供的虚拟对局中的环境信息。输入信息单元可以将上述子单元中提供的各种信息转换为特征信号，输入至待训练智能体。

奖励计算单元用于确定待训练智能体在不同环境条件下执行预设动作时带来的收益（或奖励），并基于预设的奖励信息中的各种奖励权重的组合，为不同的预设动作对应的奖励值进行加权处理，得到最终反馈至待训练智能体的奖励值，并将其转换为相应的特征信号，输入至待训练智能体。

神经网络单元用于为待训练智能体提供学习三维环境感知以及多样性动作执行策略的能力。该神经网络单元中包括了相应的神经网络模型，该网络由编码子网络、时序子网络组成。编码子网络用于提取输入特征的隐层编码向量，由多层全连接网络和多尺度的卷积神经网络组成，相同类型的单位，例如虚拟角色的速度、方向、角色状态等都属于角色的属性，共享一套编码网络权重。对于图像特征，由多尺度的卷积神经网络来处理空间信息。时序子网络由长短期记忆递归神经网络（Long Short-Term Memory，LSTM）构成，利用相邻的游戏帧数据，为待训练智能体提供时序决策信息。在时序子网络完成其对每个预设动作标签的逻辑值（logits）的输出后，神经网络单元可以采用近端策略优化（ProximalPolicy Optimization，PPO）的方式，也可以采用其他不同的强化学习算法进行训练，例如深度确定性策略梯度算法（Deep Deterministic Policy Gradient，DDPG）、SAC算法（SoftActor Critic算法）、A3C算法（Asynchronous Advantage Actor-Critic算法）等算法，本申请对此不做限制。

动作编解码单元用于将不同的游戏应用中，虚拟角色可能执行的预设动作编码成为一些列标签，以供神经网络单元进行学习，在实际的应用过程中，动作编解码单元也可以将神经网络单元输出的结果编码成具体的动作指令，以实现对虚拟角色的控制。

以上介绍了智能体的训练过程以及训练过程的***架构。在完成对待训练智能体的迭代训练后，即可将得到的目标智能体部署至游戏服务器中，并在游戏对局开启时，将具有不同游戏风格的目标智能体投入至游戏对局，与真实玩家进行互动。该流程可以通过服务器或者终端设备来实现，例如对于游戏而言，当玩家参与包含智能体的在线游戏对局时，则可以通过服务器实现智能体的对局控制，当玩家参与包含智能体的离线游戏对局时，则可以通过终端设备实现智能体的对局控制。

本申请实施例中，在实际应用过程中，虚拟对局场景中可以为任意的虚拟场景，如1V1游戏场景、2V2游戏场景、5V5游戏场景或者百人在线的闯关场景等，当需要智能体参与虚拟对局时，例如目前游戏中参与的真实玩家数量过少，长时间无法匹配到合适的对局，或者真实玩家选择了人机对战模式，或则启动了游戏测试模式时，则会在虚拟对局场景中加载这些参与对局的至少一个目标智能体，这些目标智能体通过上述训练智能体的方式进行训练后可以模拟多种不同的游戏风格与能力。

服务器在控制目标智能体进行游戏操作时，可以从每帧的游戏数据中，获取上述提出的环境信息、角色信息、物体信息、任务信息等数据输入至目标智能体，使得目标智能体基于这些信息对下一帧游戏数据进行前向预测，服务器即可从目标智能体的前向预测结果中，选取概率最大的动作，解码成帧指令执行，从而使得目标智能体控制的虚拟角色能够像真实玩家控制的虚拟角色一样在游戏中进行互动。

参见图11，基于同一发明构思，本申请实施例还提供了一种训练智能体的装置1100，该装置包括：

风格确定模块1101，用于获取预先设置的至少一种角色行为风格，其中，所述角色行为风格用于指示智能体在制定执行动作决策时的策略倾向；基于所述至少一种角色行为风格，为待训练智能体配置相应的行为风格信息，所述行为风格信息包含：所述待训练智能体在不同环境条件下针对各预设动作的执行倾向概率；

奖励配置模块1102，用于基于所述行为风格信息，从预设的至少一种奖励信息中，获取与所述行为风格信息对应的目标奖励信息，所述目标奖励信息表征：具有所述行为风格信息的待训练智能体在不同环境条件下，执行所述各预设动作时对应的奖励权重；

迭代训练模块1103，用于基于所述目标奖励信息，对所述待训练智能体进行多轮迭代训练，获取相应的目标智能体。

可选的，所述迭代训练模块1103用于基于所述目标奖励信息，对所述待训练智能体进行多轮迭代训练，获取相应的目标智能体时，具体用于：

可选的，所述迭代训练模块1103用于将加权后的状态奖励值反馈至所述待训练智能体进行参数调整时，具体用于：

将所述加权后的状态奖励值反馈至所述待训练智能体；

可选的，所述风格确定模块1101用于基于所述至少一种角色行为风格，为待训练智能体配置相应的行为风格信息时，具体用于：

可选的，所述风格确定模块1101用于基于预设的抽取规则，从所述行为类型集合中，获取所述待训练智能体的角色行为风格对应的各预设动作各自对应的执行倾向概率时，具体用于：

则所述奖励配置模块1102用于基于所述行为风格信息，从预设的至少一种奖励信息中，获取与所述行为风格信息对应的目标奖励信息时，具体用于：

该装置可以用于执行本申请各实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述，不多赘述。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

请参见图12，基于同一技术构思，本申请实施例还提供了一种计算机设备。在一种实施例中，该计算机设备可以为图1所示的服务器，该计算机设备如图12所示，包括存储器1201，通讯模块1203以及一个或多个处理器1202。

存储器1201，用于存储处理器1202执行的计算机程序。存储器1201可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***，以及运行本申请实施例的功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1201可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器1201也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）；或者存储器1201是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1201可以是上述存储器的组合。

处理器1202，可以包括一个或多个中央处理单元（central processing unit，CPU）或者为数字处理单元等等。处理器1202，用于调用存储器1201中存储的计算机程序时实现上述训练智能体的方法。

通讯模块1203用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1201、通讯模块1203和处理器1202之间的具体连接介质。本申请实施例在图12中以存储器1201和处理器1202之间通过总线1204连接，总线1204在图12中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1204可以分为地址总线、数据总线、控制总线等。为便于描述，图12中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1201中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的训练智能体的方法，处理器1202用于执行上述各实施例的训练智能体的方法。

在另一种实施例中，计算机设备也可以是终端设备，如图1所示的终端设备。在该实施例中，计算机设备的结构可以如图13所示，包括：通信组件1310、存储器1320、显示单元1330、摄像头1340、传感器1350、音频电路1360、蓝牙模块1370、处理器1380等部件。

通信组件1310用于与服务器进行通信。在一些实施例中，可以包括电路无线保真（Wireless Fidelity，WiFi）模块，WiFi模块属于短距离无线传输技术，计算机设备通过WiFi模块可以帮助用户收发信息。

存储器1320可用于存储软件程序及数据。处理器1380通过运行存储在存储器1320的软件程序或数据，从而执行终端设备的各种功能以及数据处理。存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1320存储有使得终端设备能运行的操作***。本申请中存储器1320可以存储操作***及各种应用程序，还可以存储执行本申请实施例训练智能体的方法的代码。

显示单元1330还可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种菜单的图形用户界面（graphical user interface，GUI）。具体地，显示单元1330可以包括设置在终端设备正面的显示屏1332。其中，显示屏1332可以采用液晶显示器、发光二极管等形式来配置。显示单元1330可以用于显示本申请实施例中的虚拟对局场景界面。

显示单元1330还可用于接收输入的数字或字符信息，产生与终端设备的用户设置以及功能控制有关的信号输入，具体地，显示单元1330可以包括设置在终端设备正面的触摸屏1331，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触摸屏1331可以覆盖在显示屏1332之上，也可以将触摸屏1331与显示屏1332集成而实现终端设备的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1330可以显示应用程序以及对应的操作步骤。

摄像头1340可用于捕获静态图像，用户可以将摄像头1340拍摄的图像通过应用发布评论。摄像头1340可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1380转换成数字图像信号。

终端设备还可以包括至少一种传感器1350，比如加速度传感器1351、距离传感器1352、指纹传感器1353、温度传感器1354。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1360、扬声器1361、传声器1362可提供用户与终端设备之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出。终端设备还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出至通信组件1310以发送给比如另一终端设备，或者将音频数据输出至存储器1320以便进一步处理。

蓝牙模块1370用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1370与同样具备蓝牙模块的可穿戴计算机设备（例如智能手表）建立蓝牙连接，从而进行数据交互。

处理器1380是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1320内的软件程序，以及调用存储在存储器1320内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1380可包括一个或多个处理单元；处理器1380还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1380中。本申请中处理器1380可以运行操作***、应用程序、用户界面显示及触控响应，以及本申请实施例的训练智能体的方法。另外，处理器1380与显示单元1330耦接。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行本说明书上述描述的根据本申请各种示例性实施方式的训练智能体的方法中的步骤。

在一些可能的实施方式中，本申请提供的训练智能体的方法的各个方面还可以实现为一种计算机程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的训练智能体的方法中的步骤，例如，计算机设备可以执行各实施例的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器（CD-ROM）并包括计算机程序，并可以在计算机设备上运行。然而，本申请的程序产品不限于此，在本申请件中，可读存储介质可以是任何包含或存储程序的有形介质，其包括的计算机程序可以被命令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种训练智能体的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述目标奖励信息，对所述待训练智能体进行多轮迭代训练，获取相应的目标智能体，包括：

3.如权利要求2所述的方法，其特征在于，所述将加权后的状态奖励值反馈至所述待训练智能体进行参数调整，包括：

将所述加权后的状态奖励值反馈至所述待训练智能体；

4.如权利要求1-3任一项所述的方法，其特征在于，所述目标奖励信息还表征：具有所述行为风格信息的待训练智能体在不同环境条件下，持有预设道具时对应的奖励权重。

5.如权利要求1-3任一项所述的方法，其特征在于，所述角色行为风格还用于指示智能体在执行各预设动作时的能力等级。

6.如权利要求5所述的方法，其特征在于，所述行为风格信息还包含：所述待训练智能体在不同环境条件下，针对各预设动作的执行命中概率，执行延迟时间以及执行时间间隔中的一种或多种。

7.如权利要求1-3任一项所述的方法，其特征在于，所述基于所述至少一种角色行为风格，为待训练智能体配置相应的行为风格信息，包括：

8.如权利要求7所述的方法，其特征在于，所述基于预设的抽取规则，从所述行为类型集合中，获取所述待训练智能体的角色行为风格对应的各预设动作各自对应的执行倾向概率，包括：

则所述基于所述行为风格信息，从预设的至少一种奖励信息中，获取与所述行为风格信息对应的目标奖励信息，包括：

9.一种训练智能体的装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法的步骤。