CN111111204A

CN111111204A - 交互模型训练方法、装置、计算机设备和存储介质

Info

Publication number: CN111111204A
Application number: CN202010247990.4A
Authority: CN
Inventors: 邱福浩; 韩国安; 李晓倩; 王亮; 付强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-05-08
Anticipated expiration: 2040-04-01
Also published as: CN111111204B

Abstract

本申请涉及一种交互模型训练方法、装置、计算机设备和存储介质，涉及人工智能，交互模型训练方法包括：获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，第一交互动作是通过将第一交互状态特征，输入到待训练的第一交互模型中确定的；获取目标虚拟对象执行第一交互动作得到的收益，作为第一收益；将第一交互状态特征以及第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；根据第一策略判别值计算得到第二收益；根据第一收益以及第二收益计算得到目标收益；根据目标收益对待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。采用本方法能够提高模型训练效果。

Description

交互模型训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种交互模型训练方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的不断发展，游戏逐渐成为人们热衷的娱乐节目，例如，用户可以通过多人在线战斗竞技场游戏(Multiplayer Online Battle Arena，MOBA）与其他游戏玩家进行竞技。

目前，可以利用人工智能模型进行游戏，例如在游戏玩家掉线时可以暂时托管，利用人工智能模型代替掉线的真实玩家与另一游戏真实玩家进行游戏对抗。人工智能模型需要预先利用训练数据进行训练，目前的人工智能模型的训练大多是依赖于不断的对战训练从而得到进化，然而，经常存在训练得到的模型不能满足现实需要，模型训练效果差的问题。

发明内容

基于此，有必要针对上述模型训练效果差的技术问题，提供一种交互模型训练方法、装置、计算机设备和存储介质。

一种交互模型训练方法，所述方法包括：获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，所述第一交互动作是通过将所述第一交互状态特征，输入到待训练的第一交互模型中确定的；获取目标虚拟对象执行所述第一交互动作得到的收益，作为第一收益；将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；根据所述第一策略判别值计算得到第二收益，所述第一策略判别值与所述第二收益成正相关关系；根据所述第一收益以及所述第二收益计算得到目标收益；根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

一种交互模型训练装置，所述装置包括：第一交互数据获取模块，用于获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，所述第一交互动作是通过将所述第一交互状态特征，输入到待训练的第一交互模型中确定的；第一收益获取模块，用于获取目标虚拟对象执行所述第一交互动作得到的收益，作为第一收益；第一策略判别值得到模块，用于将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；第二收益得到模块，用于根据所述第一策略判别值计算得到第二收益，所述第一策略判别值与所述第二收益成正相关关系；目标收益得到模块，用于根据所述第一收益以及所述第二收益计算得到目标收益；第一交互模型参数调整模块，用于根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

在一些实施例中，所述目标交互策略为预设交互用户级别对应的交互策略，所述目标交互数据获取模块用于：获取根据所述预设交互用户级别的用户操作得到的交互动作，作为目标交互动作；获取所述目标交互动作对应的交互状态特征，作为目标交互状态特征。

在一些实施例中，所述第一交互数据获取模块用于：获取待训练的第一交互模型对应的对战模型，作为第二交互模型；控制所述待训练的第一交互模型与所述第二交互模型在虚拟交互环境中进行交互，得到所述第一交互模型对应的交互记录数据；根据所述交互记录数据获取得到第一交互状态特征以及第一交互动作。

在一些实施例中，所述装置还包括：进入模块，用于将更新后的第一交互模型作为待训练的第一交互模型，进入控制所述待训练的第一交互模型与所述第二交互模型在虚拟交互环境中进行交互，得到所述第一交互模型对应的交互记录数据的步骤，直至更新后的第一交互模型收敛或者模型训练次数达到预设次数。

在一些实施例中，所述第一收益获取模块用于：获取所述目标虚拟对象执行所述第一交互动作前后，所述虚拟交互环境对应的状态变化；根据所述状态变化得到对应的收益，作为第一收益。

在一些实施例中，所述第一交互数据获取模块用于：获取虚拟交互环境对应的交互相关数据，所述交互相关数据包括对象属性数据以及对象位置数据；根据所述对象属性数据得到属性特征，根据对象位置数据得到位置特征；将所述属性特征与所述位置特征进行组合，得到第一交互状态特征。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，所述第一交互动作是通过将所述第一交互状态特征，输入到待训练的第一交互模型中确定的；获取目标虚拟对象执行所述第一交互动作得到的收益，作为第一收益；将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；根据所述第一策略判别值计算得到第二收益，所述第一策略判别值与所述第二收益成正相关关系；根据所述第一收益以及所述第二收益计算得到目标收益；根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，所述第一交互动作是通过将所述第一交互状态特征，输入到待训练的第一交互模型中确定的；获取目标虚拟对象执行所述第一交互动作得到的收益，作为第一收益；将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；根据所述第一策略判别值计算得到第二收益，所述第一策略判别值与所述第二收益成正相关关系；根据所述第一收益以及所述第二收益计算得到目标收益；根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

上述交互模型训练方法、装置、计算机设备和存储介质，获取虚拟交互环境对应的第一交互状态特征以及第一交互动作，第一交互动作是通过将第一交互状态特征，输入到待训练的第一交互模型中确定的；获取目标虚拟对象执行第一交互动作得到的收益，作为第一收益；将第一交互状态特征以及第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；根据第一策略判别值计算得到第二收益，第一策略判别值与第二收益成正相关关系；根据第一收益以及第二收益计算得到目标收益；根据目标收益对待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。由于第一收益是目标虚拟对象执行第一交互动作得到的收益，能够反映目标虚拟对象执行第一交互动作所带来的回报。而第二收益是根据第一策略判别值计算得到的，且与第一策略判别值成正相关关系，第一策略判别值能够反映在第一交互状态特征对应的状态下，执行第一交互动作是否符合目标交互策略，因此综合第一收益和第二收益得到目标收益，根据目标收益调整模型参数，能够使模型参数的调整朝着既符合目标交互策略又能够权衡执行动作的回报收益的方向进行调整，因此提高了模型训练的效果。

附图说明

图1为一些实施例中训练得到的第一交互模型的应用环境图；

图2为一些实施例中交互模型训练方法的流程示意图；

图3为一些实施例中游戏图像帧的界面示意图；

图4为一些实施例中交互状态特征的示意图；

图5为一些实施例中交互模型训练方法的原理示意图；

图6为一些实施例中第一交互模型以及第二交互模型进行对战的原理示意图的流程示意图；

图7为一些实施例中训练得到目标策略判别模型的流程示意图；

图8为一些实施例中策略判别模型的训练原理示意图；

图9为一些实施例中交互模型训练装置的结构框图；

图10为一些实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明:

本申请实施例提供的交互模型训练方法训练得到的模型，可以应用于如图1所示的应用环境中进行交互。其中，终端102与服务器104通过网络进行通信。服务器104可以利用本申请实施例提供的交互模型训练方法训练得到已训练完毕的第一交互模型，已训练完毕的第一交互模型可以部署于服务器104中，服务器104可以利用部署的第一交互模型控制目标虚拟对象进行交互。例如，用户可以通过操作终端102控制位于虚拟交互环境中的虚拟对象执行交互动作。当用户不便控制虚拟对象时，例如需要临时离开时，可以开启利用人工智能模型进行交互的功能（也可以称为游戏托管功能），服务器104检测到利用人工智能模型进行交互的功能开启后，可以利用部署的第一交互模型控制用户对应的虚拟对象进行交互。例如，服务器104可以获取虚拟对象对应的当前状态特征，将当前状态特征输入到已训练完毕的第一交互模型中，已训练完毕的第一交互模型输出当前交互动作，服务器控制用户对应的虚拟对象执行当前交互动作。可以理解，已训练完毕的第一交互模型也可以是部署于任意的计算机设备，例如终端102中。

在一些实施例中，服务器104还可以接收终端102发送的与交互模型进行对战的请求，该请求中可以携带目标交互策略对应的策略选择信息例如策略标识，服务器可以获取策略选择信息对应的第一交互模型，通过第一交互模型控制目标虚拟对象与终端102对应的虚拟对象进行交互。例如，当游戏玩家想与游戏AI进行对战时，可以通过终端102选择菜鸟级别的打法策略，通过终端102向服务器104发送与菜鸟级别的游戏AI进行对战的请求，服务器104获取菜鸟级别打法策略的游戏模型，与用户所控制的英雄人物进行交互。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一些实施例中，如图2所示，提供了一种交互模型训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，第一交互动作是通过将第一交互状态特征，输入到待训练的第一交互模型中确定的。

其中，虚拟交互环境是虚拟对象进行交互的环境，可以是二维交互环境或者三维交互环境。例如应用程序运行时，可以通过屏幕显示虚拟交互环境，虚拟对象在该虚拟交互环境中进行交互。举个实际例子，游戏应用在运行时，可以显示图像帧，利用该图像帧表示英雄人物所处的环境，以便游戏玩家了解英雄人物当前所处的状态。

虚拟对象为虚拟交互环境中的活动实体，可以由智能***或者人通过计算机设备进行控制。例如虚拟对象可以是游戏应用中虚拟出来的角色，虚拟对象可以是三维的也可以是二维的，可以是人物虚拟对象或者动物虚拟对象。例如，虚拟对象可是MOBA游戏中的英雄人物或者士兵等。其中虚拟对象可以根据所属的群体划分为多个类型，“多个”是指至少两个。例如英雄人物的类型可以包括我方英雄以及敌方英雄两种类型。我方英雄是指与待训练的第一交互模型控制的英雄人物协同作战的英雄，作战目标相同。敌方英雄是指与待训练的第一交互模型控制的英雄人物进行对抗的英雄，作战目标相反。例如我方英雄的作战目标为摧毁敌方英雄的水晶，敌方英雄的作战目标为摧毁我方英雄的水晶。在本申请实施例中，目标虚拟对象为第一交互模型所控制的虚拟对象，即执行第一交互模型输出的交互动作的虚拟对象。

状态特征可以用于表征对应的状态。状态特征可以是根据交互相关数据进行特征提取得到。交互相关数据例如可以包括虚拟对象对应的属性数据或者位置数据的至少一种。例如，虚拟对象的属性数据可以包括虚拟对象的等级、虚拟对象生命值属性例如游戏中英雄的血量、虚拟对象的技能信息或者虚拟对象的攻击力中的一种或多种。位置数据可以包括目标虚拟对象所在的图像帧中各个虚拟对象的位置数据，或者虚拟交互环境对应的全局地图中（也称为小地图），各个虚拟对象对应的位置数据。目标虚拟对象是指待训练的第一交互模型所需要控制的虚拟对象。

例如，对于游戏，如图3所示为一些实施例中游戏图像帧的界面示意图。一个游戏图像帧可以包括小地图显示区域302、当前环境显示区域304以及属性信息显示区域306。小地图显示区域302显示全局的局面状况，当前环境显示区域304显示的是目标虚拟对象的视野范围内的局面状况，属性信息显示区域306则可以显示各个虚拟对象的属性，例如血量以及攻击力等。该游戏图像帧对应的交互相关数据即局面状况以及属性信息存储在服务器中，服务器可以对该图像帧对应的交互相关数据进行特征提取，得到状态特征。通过对交互相关数据进行特征提取，可以有效提取得到复杂性高的虚拟交互环境的游戏状态空间，降低了状态特征的复杂度。小地图显示区域302以及当前环境显示区域304显示虚拟对象的所在的环境以及位置，因此服务器可以根据图像帧对应的位置相关数据得到位置特征，位置特征类似于图像特征，因此也可以称为类图像特征，类图的大小可以根据服务器的计算资源和模型要求精度设置，例如可以是12*12像素的尺寸。对于属性信息显示区域306显示的属性信息，服务器可以可用one-hot（独热）编码的向量形式表示。

举个实际的例子，假设游戏图像帧表示的虚拟交互环境包括兵、野怪、防御塔、英雄、障碍物和子弹等。英雄又分为敌方英雄和我方英雄。假设敌方英雄和我方英雄均为5个，则可以分别获取兵、野怪、防御塔、5个敌方英雄、5个我方英雄、障碍物和子弹分别对应的位置，得到位置特征。其中敌方英雄对应的位置特征可以进行组合，我方英雄对应的位置的特征可以进行组合，通过将同一方的位置特征进行组合，组合得到的特征可以表示双方英雄的分布情况。对于属性，根据各个虚拟对象的属性得到的向量特征可以进行拼接。得到的交互状态特征可以如图4所示，包括根据小地图显示区域302对应的交互相关数据提取得到的小地图类图像特征、当前环境显示区域304对应的交互相关数据提取得到的当前视野类图像特征。属性信息显示区域306对应的交互相关数据提取得到的向量特征。全局信息表示根据英雄人物之外对应的活动体或者障碍物等物体的属性数据得到的向量。

交互模型是指用于确定虚拟对象的交互动作的机器学习模型。待训练的第一交互模型是指需要进行模型训练，以调整模型参数的模型，待训练的第一交互模型中的初始模型参数可以是随机选取的，也可以是采用本申请实施例提供的模型训练方法或者其他模型方法已经调整过一次或者多次的模型参数。第一交互模型可以用于确定一个或者多个虚拟对象的交互动作。第一交互模型例如可以为强化学习模型，例如可以是状态价值模型或者动作价值模型的至少一种，状态价值模型采用状态价值函数（state-value function）。动作价值模型采用动作价值函数（action-value function）。对于动作价值模型，将交互状态特征输入到动作价值模型中，可以得到各个动作被选择的概率，可以选取概率最大的动作作为被控制的虚拟对象所要执行的动作，即最佳动作。将交互状态特征输入到状态价值模型中，可以得到各个动作作为被选择的动作时，交互状态特征对应的状态的价值，可以选取状态价值最大的动作作为被控制的虚拟对象所要执行的动作。其中，强化学习以“试错”的方式进行学习，通过与环境进行交互获得的奖励值指导模型参数的更新，目标是使执行动作之后，可以获得最佳的收益，即目标是最大化所控制的虚拟对象的奖励值。强化学习模型可以是DQN（Deep Q Network）模型、A3C（Asynchronous Advantage Actor-Critic，异步的优势行动者评论家算法）模型或者UNREAL（Unsupervised Reinforcement and AuxiliaryLearning，非监督辅助任务中的强化学习）模型等，可以根据需要设置。

交互动作指虚拟对象在进行交互时，所执行的动作，该交互动作可以作用于发出动作的虚拟对象本身或者其他虚拟对象，例如可以作用于敌方英雄。交互动作可以包括移动、攻击动作或者躲避动作等。例如交互动作可以为释放防技能。

服务器可以是利用待训练的第一交互模型与人或者其他交互模型进行交互，以得到虚拟交互环境对应的第一交互状态特征以及第一交互动作。例如，在进行交互前，获取表示当前交互状态的交互状态特征，输入到待训练的第一交互模型中，根据第一交互模型输出的动作的概率值，可以选取概率最大的动作作为当前要执行的动作，服务器控制目标虚拟对象执行该动作，服务器可以生成交互记录数据，交互记录数据中记录交互相关状态与交互动作之间的对应关系。可以每完成一局数据，获取交互记录数据中的交互相关数据以及对应的交互动作，根据交互相关数据得到交互状态特征，作为第一状态特征。获取交互相关数据对应的交互动作，作为第一交互动作。

在一些实施例中，获取第一交互状态特征可以包括：获取虚拟交互环境对应的交互相关数据，交互相关数据包括对象属性数据以及对象位置数据；根据对象属性数据得到属性特征，根据对象位置数据得到位置特征；将属性特征与位置特征进行组合，得到第一交互状态特征。

具体地，第一交互状态特征包括属性特征与位置特征组合得到的特征，例如可以将属性特征与位置特征的组合得到一个组合特征，一个组合特征为一个独立的特征。属性特征是根据属性得到的特征。位置特征是根据位置得到的特征。在进行组合时，可以是将不同虚拟对象的属性特征与位置特征进行组合，也可以是将同一个虚拟对象的属性特征与位置特征进行组合。通过将属性特征与位置特征进行组合得到的组合特征训练第一交互模型，使得训练得到的第一交互模型，可以综合特定的位置以及属性的组合，输出交互动作，提高模型的智能化程度。例如，位置特征可以是我方英雄的位置分布特征，属性特征为我方英雄的属性特征，对于真实的专业级游戏玩家，需要综合考虑全局局面状态中我方英雄的位置分布以及我方英雄的血量以及攻击力，再确定自己控制的英雄所要执行的动作，因此，通过属性特征与位置特征进行组合，模拟了真实的游戏玩家确定动作的思路，使得训练得到的模型更加智能。

步骤S204，获取目标虚拟对象执行第一交互动作得到的收益，作为第一收益。

具体地，收益（reward）用于反馈在交互状态特征对应的状态下，执行交互动作的奖励，奖励可以是正的，也可以是负的。因此收益可以用于评价动作的效果，即执行该动作的优劣性，为环境对于动作的反馈。第一收益可以根据即时收益得到，即时收益为执行动作后就可以即时得到的奖励。即时收益可以是正的也可以是负的，具体如何计算即时收益可以根据实际需要设置，例如可以根据游戏的得分逻辑或者升级逻辑的至少一种进行设置。例如设置状态变化与即时收益的对应关系，可以获取目标虚拟对象执行第一交互动作前后，虚拟交互环境对应的状态变化；根据状态变化得到对应的收益，作为第一收益。状态变化是指执行动作前以及执行动作后，虚拟交互环境中状态的变化，即是指由于第一交互动作的执行，所导致环境的状态变化。状态变化例如可以包括英雄经验值变化、金钱的变化、血量变化、生命状态的变化或者建筑物的血量变化中的至少一种。各种状态变化对应的收益权重可以根据需要设置。举些实际的例子，例如，目标虚拟对象在执行第一交互动作前的血量为12，执行第一交互动作之后的血量变为20，则状态变化为血量增加了8，对应的即时收益为12。又例如，目标虚拟对象在执行第一交互动作前的血量为12，执行第一交互动作之后的血量为6，则状态变化为血量减少了8，对应的即时收益可以为-6。又例如，第一交互动作为进攻，假设执行第一交互动作前，敌方英雄处于我方英雄视野内，执行第一交互动作后，敌方英雄未处于我方英雄视野内，即敌方英雄已经逃跑，则对应的即时收益可以为30。

在一些实施例中，执行第一交互动作得到的收益是根据所有未来时刻的即时收益得到的，如公式（1）所示，其中，G_t表示第t时刻的状态下，执行交互动作所得的回报，可以作为第一收益值。R_t+1表示第t+1时刻的状态下，执行交互动作所得到的即时收益，k表示未来时刻与当前时刻的距离，例如当未来时刻为当前时刻的下一时刻，则k=1，λ是折现因子，一般小于1，具体可以根据需要设置，λ表示一般而言，当前时刻的反馈是比较重要的，距离当前时刻越远的时刻的即时收益，对当前时刻执行交互动作所得到的回报的影响越小。

（1）

在一些实施例中，由于一般情况下，除非整个游戏到达结束状态，否则是无法获取得到所有未来时刻的即时收益，来计算当前时刻的状态下，执行交互动作所得的回报的。因此可以根据Bellman（贝尔曼）方程计算得到第一收益，第一收益与利用价值函数计算得到的下一时刻的状态的回报收益（价值），以及当前执行第一交互动作所得到的即时收益相关。价值函数可以是状态价值函数。贝尔曼方程如公式（2）所示，公式（2）中，

表示价值函数，s 表示状态，E表示期望，t表示t时刻，S_t表示t时刻的状态。通过结合贝尔曼方程，可以在不需要依赖于利用游戏内核推演到游戏结束的情况下，计算得到相应局面状态下对应的回报收益。

（2）

步骤S206，将第一交互状态特征以及第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值。

具体地，交互策略是用于指导交互的策略，不同的策略可以具有不同的特性。交互策略可以根据交互用户的级别或者交互倾向的一种或多种进行划分。“多种”是指至少两种。交互策略可以是一个抽象的概念。例如，A游戏玩家在玩游戏时，并没有制定方案，但是A游戏玩家打法却具有一定的特性，可以认为该游戏玩家的打法是在一定的策略指导下进行的。又例如，专业级别的游戏玩家与新手级别的游戏玩家的打法一般而言是不同的，可以认为专业级别的玩家的交互策略为一种策略，认为新手级别的游戏玩家的交互策略为另一种策略。又例如，好战型的游戏玩家与躲避型的游戏玩家的打法一般而言是不同的，好战型的玩家倾向于进行攻击。而躲避型的玩家更倾向于进行躲避。因此可以认为好战型的游戏玩家的交互策略为一种策略，认为躲避型的游戏玩家的交互策略为另一种策略。目标交互策略可以是指任意的策略。例如，可以是专家级玩家的策略。

判别模型用于判别输入的信息与预定条件的符合程度，可以是深度神经网络模型。判别模型的输出可以是概率，概率值的范围可是0至1。概率越大，则表示输入的信息与预定条件越符合。在第一交互状态特征表示的状态下，执行第一交互动作可以看成是在第一交互策略的指导下确定的。目标交互策略对应的目标策略判别模型用于：判别在第一交互状态特征表示的状态下，执行第一交互动作所对应的第一交互策略是否与目标交互策略的符合。即第一策略判别值表示在第一交互状态特征表示的状态下，执行第一交互动作与目标交互策略的符合程度，可以用概率表示。第一策略判别值与符合程度成正相关关系。

目标策略判别模型可以根据目标交互策略对应的目标交互数据训练得到，目标交互数据包括目标交互动作以及对应的目标交互状态，目标交互动作为目标交互状态特征对应（表示）的状态下，符合目标交互策略的交互动作。例如，假设判别模型的目标为可以判断输入的数据是否符合专家级别的玩家的游戏打法策略，则可以获取专家级别玩家在玩游戏时输入的动作以及输入该动作时，游戏环境对应的状态特征，作为训练数据训练策略判别模型。其中，在利用符合目标交互策略的训练数据训练策略判别模型时，朝着使策略判别模型输出的判别值变大的方向调整模型参数。

在一些实施例中，策略判别模型可以是预先已经训练得到的，也可以是与第一交互模型交替进行训练。

本申请实施例中，负相关关系是指：两个变量变动方向不同，一个变量由大到小变化时，另一个变量由小到大变化。正相关关系是指：两个变量变动方向相同，一个变量由大到小变化时，另一个变量也由大到小变化。可以理解的是，这里的正相关关系是指变化的方向是一致的，但并不是要求当一个变量有一点变化，另一个变量就必须也变化。例如，可以设置当变量a为10至20时，变量b为100，当变量a为20至30时，变量b为120。这样，a与b的变化方向都是当a变大时，b也变大。但在a为10至20的范围内时，b可以是没有变化的。

步骤S208，根据第一策略判别值计算得到第二收益。

具体地，第二收益是根据第一策略判别值得到的，可以预先设置策略判别值与收益的关系，其中第二收益与第一策略判别值成正相关关系。第一策略判别值与第二收益的对应关系可以根据需要预先设置。例如，设置第一策略判别值为0.9时，第二收益为10。第一策略判别值为0.8时，第二收益为6。

在一些实施例中，当第一策略判别值小于第一预设阈值时，第二收益为负收益，即负值。或者当第一策略判别值大于第二预设阈值时，第二收益为正收益。第一预设阈值与第二预设阈值可以根据需要设置，第二预设阈值大于等于第一预设阈值。例如，第一预设阈值可以为0.6。第二预设阈值为0.8。对于强化学习模型，由于强化学习模型的训练目标是最大化收益，而第一策略判别值小，说明在第一交互状态特征对应的状态下，执行第一交互动作符合目标交互策略的可能性小，因此通过设置当第一策略判别值小于第一预设阈值时，第二收益为负收益，可以使得训练得到的强化学习模型在第一交互状态特征对应的状态下，输出第一交互动作为需要执行的动作的可能性变小。

步骤S210，根据第一收益以及第二收益计算得到目标收益。

具体地，可以是将第一收益与第二收益相加，得到目标收益。也可以是获取第一收益以及第二收益分别对应的权重，进行加权求和，得到目标收益。当然也可以再结合其他收益值得到目标收益。

在一些实施例中，对第一交互模型训练时，一次训练可以是采用一批训练样本进行训练的，例如可以获取多个第一交互状态以及分别对应的第一交互动作。计算这一批训练样本对应的目标收益的平均值，作为最终的目标收益。

步骤S212，根据目标收益对待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

具体地，目标收益对于模型参数的调整可以是是正反馈也可以是负反馈。如果为正反馈，那么可以调整模型参数，使得第一交互特征对应的状态下，选择第一交互动作的趋势加强。如果为负反馈，那么可以调整模型参数，使得第一交互特征对应的状态下，选择第一交互动作的趋势减弱。调整模型参数的方法可以根据需要设置，例如可以是可以采用近端策略优化 (Proximal Policy Optimization，PPO)算法、A3C或者DDPG（DeepDeterministic Policy Gradient，深度确定性策略梯度）等。

如图5所示，为一些实施例中交互模型训练方法的原理示意图。第一交互模型可以为神经网络模型，服务器可以获取游戏图像对应的游戏状态数据，得到第一交互状态特征，输入到第一交互模型502中，第一交互模型502包括输入层、隐层以及输出层，输出层输出第一交互动作。该第一交互动作作用于游戏环境506中，会导致游戏环境506的状态变化，服务器可以根据状态变化得到第一收益值。服务器还可以获取第一交互状态特征以及第一交互动作，输入到策略判别模型504中，策略判别模型504输出第一策略判别值，服务器根据该第一策略判别值可以返回第二收益值。服务器根据第一收益值以及第二收益值得到目标收益值，利用该目标收益值对第一交互模型502的模型参数进行调整。

在一些实施例中，获取虚拟交互环境对应的第一交互状态特征以及第一交互动作包括：获取待训练的第一交互模型对应的对战模型，作为第二交互模型；控制待训练的第一交互模型与第二交互模型在虚拟交互环境中进行交互，得到第一交互模型对应的交互记录数据；根据交互记录数据获取得到第一交互状态特征以及第一交互动作。

具体地，第二交互模型是与第一交互模型通过分别控制的虚拟对象相互进行交互的模型。例如，第一交互模型是输出我方英雄的动作的模型，第二交互模型是输出敌方英雄的动作的模型。第二交互模型可以有一个或多个。举个实际的例子，待训练的第一交互模型输出攻击动作，服务器控制我方英雄执行该交互动作，攻击敌方英雄。第二交互模型也可以输出对应的反击动作，控制敌方英雄进行反击。第一交互模型对应的交互记录数据中记录待训练的第一交互模型输出的交互动作（称为第一交互动作），以及确定第一交互动作时所参考的交互状态特征（第一交互状态特征），因此可以从交互记录数据中获取得到第一交互状态特征以及第一交互动作。待训练的第一交互模型以及第二交互模型在虚拟交互环境中可以进行多次交互，例如可以完成一局游戏。本申请实施例中，由于可以选择对战模型与待训练的第一交互模型进行交互，即利用模型进行自对弈，因此可以自动获取得到第一交互状态特征以及第一交互动作，可以提高获取得到训练数据的效率，可以生成不依赖人类玩家的训练数据，进行第一交互模型的训练，使得神经网络模型可以从零开始快速高效地提升对战能力。

在一些实施例中，可以将待训练的第一交互模型对应的历史版本作为第二交互模型。例如可以随机选取第一交互模型的历史版本作为第二交互模型。例如，在对第一交互模型进行第三轮训练时，可以将第一轮训练得到的第一交互模型作为第二交互模型。这样，无需额外训练第二交互模型。

在一些实施例中，可以创建通过多容器（docker）镜像的方式，将交互模型之间的对战快速地并行扩充到多个机器上，以提高交互记录数据生成的效率，获取足够的对战数据对第一交互模型进行训练。例如可以生成多个docker镜像，每个docker镜像中利用第一交互模型以及第二交互模型进行对战，如图6所示，为一些实施例中第一交互模型以及第二交互模型进行对战的原理示意图。可以建立对战模型池，对战模型池中包括待训练的第一交互模型对应的多个历史版本模型。每个docker镜像可以从对战模型池选择其中的一个或者多个模型作为第二交互模型。第一交互模型根据虚拟交互环境中的交互状态特征输出第一交互动作，第二交互模型根据虚拟交互环境中的交互状态特征输出第二交互动作。随着虚拟交互环境状态的改变，第一交互模型与第二交互模型不断的输出动作，服务器控制虚拟对象执行对应的动作，以进行对战。

在一些实施例中，可以将更新后的第一交互模型作为待训练的第一交互模型。进入控制第一交互模型以及第二交互模型在虚拟交互环境中进行多次对战，得到第一交互模型对应的对战记录数据的步骤，直至更新后的第一交互模型收敛或者模型训练次数达到预设次数。

具体地，模型收敛条件可以是模型损失值小于预设损失值或者当模型参数的变化小于预设参数变化值的至少一种。可以对第一交互模型进行多次训练，以提高第一交互模型输出的动作准确度。例如，可以将更新后的第一交互模型作为新的待训练的第一交互模型。利用待训练的第一交互模型与第二交互模型进行交互，以获取得到新的训练数据，即新的第一交互状态特征以及第二交互动作，以继续对第一交互模型的模型参数进行调整，直至更新后的第一交互模型收敛或者已经迭代了预设次数，停止训练。预设次数可以根据需要设置，例如可以是1万次。

在一些实施例中，还可以对策略判别模型进行训练，策略判别模型的训练与第一交互模型的训练可以是交替进行或者同时进行的，例如可以是先迭代训练第一交互模型第一预设次数，再迭代训练策略判别模型第二预设次数。然后再进入迭代训练第一交互模型第一预设次数的步骤……如此训练，直至第一交互模型收敛。

在一些实施例中，如图7所示，训练得到目标策略判别模型的步骤包括：

步骤S702，获取目标交互动作以及目标交互动作对应的目标交互状态特征，目标交互动作为目标交互状态特征对应的状态下，符合目标交互策略的交互动作。

具体地，目标交互动作对应的目标交互状态特征是指：在目标交互状态特征所表示的状态下，执行了目标交互动作。目标交互动作为目标交互状态特征对应的状态下，符合目标交互策略的交互动作是指：目标交互状态特征所表示的状态下，采用目标交互策略进行指导，所执行的动作为目标交互动作。

目标交互动作以及目标交互状态特征用于作为训练数据，对策略判别模型进行训练。服务器中可以预先存储符合目标交互策略的训练数据。如前所述，目标交互策略可以是一个抽象的概念，因此训练数据是否满足目标交互策略可以是由人工进行确定的，例如可以是一类真实用户或者一个真实用户对应的打法策略，也可以是多类真实用户的打法策略混合得到的打法策略。例如，假设第一交互模型的训练目标为可以学习到某个游戏玩家A用户的打法，则可以设置获取A用户的游戏操作数据以及对应的状态特征，作为训练数据，则目标交互策略为A用户的打法策略。假设第一交互模型的训练目标为可以学习到好战型的游戏玩家的打法，则可以设置获取多个好战型的游戏玩家的游戏操作数据以及对应的状态特征，作为训练数据，则目标交互策略为好战型打法策略。

在一些实施例中，可以从服务器上游戏玩家的正常对局中所产生的历史对战数据中提取对应的状态特征和动作，作为目标交互动作以及目标交互动作对应的目标交互状态特征。该游戏玩家可以是预设类型的玩家，预设类型可以是多个类型。当有多个类型时，可以预先设置每个类型对应的训练数据的比例，可以根据该比例获取得到训练数据。例如，好战型玩家与躲避型玩家的比例为6:4。假设需要获取10000份训练数据，则获取6000份好战型玩家的对战数据，获取4000份躲避型玩家的对战数据。

在一些实施例中，目标交互策略为预设交互用户级别对应的交互策略，获取目标交互动作以及目标交互动作对应的目标交互状态特征包括：获取目标虚拟对象执行的交互动作，作为目标交互动作，目标虚拟对象执行的交互动作预设交互用户级别的用户操作确定；获取目标交互动作对应的交互状态特征，作为目标交互状态特征。

具体地，交互用户级别是指交互用户的级别。例如游戏用户的游戏等级可以为一级、二级或者三级。游戏等级具体根据不同游戏的游戏升级策略确定，例如，一个用户所能够达到的级别可以是根据玩游戏的时间长度以及胜负的比例确定。玩游戏时间越长，胜的比例越高，则游戏等级越高。预设交互用户级别可以根据需要设置，可以是一个也可以是多个。例如可以是一级，也可以是一级和二级。目标交互动作是根据预设交互用户级别的用户操作得到的，即是由用户通过人工操作控制的，用户操作可以是语音操作、鼠标操作、键盘操作或者通过控制游戏遥控杆输入中的一种或多种。

目标交互动作对应的目标交互状态特征可以是根据执行目标交互动作的当前时刻，虚拟交互环境的交互相关数据得到的。例如可以是该当前时刻的各个虚拟对象的属性数据或者位置数据的至少一个。具体可以参考获取第一交互状态特征的步骤。

本申请实施例中，由于目标虚拟对象执行的交互动作是预设交互用户级别的用户操作控制的，因此获取该预设交互用户级别的玩家的交互数据进行模型的训练，可以使得训练得到的模型能够模仿预设交互用户级别的玩家的交互策略。例如，对于游戏，假设预设交互用户级别是专业级，则可以获取专业级游戏玩家的游戏对战动作，并获取该专业级游戏玩家在输出游戏对战动作时，游戏中的游戏状态特征，作为该游戏对战动作对应的状态特征。将对战动作与状态特征组成状态特征对，作为训练数据输入到策略判别模型中，进行训练。通过多轮的训练，可以获取得到游戏打法策略与专业级游戏玩家的打法策略相似的游戏AI。

在一些实施例中，目标交互特征也可以包括属性特征与位置特征进行组合得到的特征。通过将属性特征与位置特征进行组合，得到组合特征进行训练。可以更好的挖掘得到在特定的位置以及属性组合得到的组合状态下，与符合目标交互策略的交互动作的对应关系，即第一交互模型。

步骤S704，根据目标交互状态特征以及目标交互动作进行模型训练，得到目标策略判别模型。

具体地，在进行训练时，由于目标交互状态特征以及目标交互动作是符合目标交互策略的，因此模型训练的目标为期望策略判别模型输出的判别值越高越好，例如越接近1越好。在进行模型训练时，可以获取模型损失值，朝着使模型损失值下降的方向调整策略判别模型的模型参数，例如可以采用随机梯度下降方法调整模型参数。

在一些实施例中，可以将目标交互状态特征以及目标交互动作输入到待训练的策略判别模型中，得到第二策略判别值；根据第二策略判别值得到第二模型损失值，根据第二模型损失值调整待训练的策略判别模型的模型参数，得到目标策略判别模型，第二策略判别值与第二模型损失值成负相关关系。

具体地，第二策略判别值用于确定输入的数据确定符合目标交互策略的符合程度，是待训练的策略判别模型输出的。例如策略判别值可以是策略判别模型判别目标交互状态特征以及目标交互动作的组合，满足目标交互策略的概率。模型损失值是根据损失函数得到的。损失函数（loss function）是用于表示事件的“风险”或“损失”的函数。由于策略判别模型是为了判别输入的数据是否满足目标交互策略的，因此第二策略判别值与第二模型损失值成负相关关系。即第二策略判别值越大，说明预测的越准确，模型损失值小。第二策略判别值越小，说明预测的越不准确，模型损失值大。在调整策略判别模型的模型参数时，朝着使损失值下降的方向进行调整，从而使得策略判别模型对真实的符合目标交互策略的训练数据的判别准确度越来越高。

在一些实施例中，还可以采用不符合目标交互策略的训练数据对策略判别模型进行训练。对于不符合目标交互策略的训练数据，模型训练的目标为期望策略判别模型输出的判别值越低越好，例如越接近0越好。

在一些实施例中，还可以根据第一策略判别值得到第一模型损失值，第一策略判别值与第一模型损失值成正相关关系；根据第一模型损失值调整目标策略判别模型的模型参数。

具体地，由于第一策略判别值对应的第一交互动作是第一交互模型输出的，因此可以认为并不符合目标交互策略。故第一策略判别值与第一模型损失值成正相关关系。即第一策略判别值越大，说明判别的越不准确，模型损失值大。第一策略判别值越小，说明判别的越准确，模型损失值小。调整策略判别模型的模型参数时，朝着使损失值下降的方向进行调整，从而使得策略判别模型对不符合目标交互策略的训练数据的判别准确度越来越高。

在进一步调整目标策略判别模型的模型参数后，更新后的目标策略判别模型可以作为下一轮模型训练时，第一交互模型的对应的判别模型，即用于判别下一轮训练中，在第一交互状态特征对应的状态下，待训练的第一交互模型输出的第一交互动作是否满足目标交互策略，进一步提高了模型训练的效率。

在一些实施例中，策略判别模型对应的损失函数可以如公式（3）所示。公式（3）中，L_d1表示模型损失值。y表示符合目标交互策略的目标交互动作以及目标交互状态特征。y'表示第一交互模型对应的第一交互状态特征以及第一交互动作。D_y（y）表示将y输入到策略判别模型D中，输出的第二策略判别值。

D_y（y'）表示将y'输入到策略判别模型D中，输出的第一策略判别值。

L_d1=log(D_y（y）)+log(1-D_y（y'）) (3)

如图8所示，为一些实施例中策略判别模型的训练原理示意图。假设目标交互策略为专家级别的游戏用户的打法策略，则可以获取专家级别玩家对应的目标交互状态特征与目标交互动作组成的序列（y1，y2，……yn）以及第一交互模型对应的第一交互状态特征与第一交互动作（y'1，y'2，……y't）组成的序列。其中，yn指第n时刻的目标交互状态特征与目标交互动作组成的状态动作对。y't指第t时刻的第一交互状态特征与第一交互动作组成的状态动作对。可以是将每个时刻的状态动作对分别输入到策略判别模型中，即每次输入一个状态动作对，也可以是将一个序列输入到策略判别模型。对于（y1，y2，……yn）状态动作对序列或者其中的每个状态动作对，期望策略判别模型输出的概率为1，即判别结果为真（true），符合目标交互策略。对于（y'1，y'2，……y't）状态动作对序列或者其中的每个状态动作对，期望策略判别模型输出的概率为0，即判别结果为真（false），不符合目标交互策略。这种近似二分类的训练，相当于利用判别模型判断第一交互模型输出的动作序列与符合目标交互策略的动作序列的相似程度，使得策略判别模型可以用于鼓励第一交互模型输出的动作更符合目标交互策略。

第一交互模型与策略判别模型相互对抗学习的训练原理如下：在第一交互模型的训练过程中，利用第一交互模型输出的第一交互动作可以认为是不符合目标交互策略的。因此策略判别模型的目标是将第一交互状态特征与第一交互动作判别为是不符合目标交互策略的。即从真实的符合目标交互策略的目标交互状态特征与目标交互动作中，尽可能的分辨出第一交互状态特征以及第一交互动作。而第一交互模型又可以根据第一策略判别值确定第二收益，第二收益是对第一交互模型在第一交互状态特征对应的状态下，输出的动作是否符合目标交互策略的反馈，因此，根据第二收益值调整第一交互模型的参数，可以使得第一交互模型输出的动作，能够尽可能的欺骗策略判别模型，这样，这两个模型相互对抗学习、不断调整参数，最终目的是第一交互模型要尽可能地欺骗策略判别模型，使策略判别模型无法判断第一交互模型在第一交互状态特征对应的状态下，所输出的第一交互动作是否是符合目标交互策略的。

本申请实施例提供的交互模型训练方法训练得到的第一交互模型可以应用于游戏场景中，可以利用第一交互模型作为游戏AI进行对战。例如，游戏AI可以应用于MOBA游戏的对战中。在多人在线战术竞技游戏（Multiplayer Online Battle Arena， MOBA）类游戏中，其玩法是将玩家分成两个敌对阵营，通过分散在地图中互相竞争，以摧毁敌方水晶为最终目的。玩家在游戏中主要进行两个层面上的思考和操作：一个是宏观调度，即英雄单位在宏观策略战术层面上的调度和配合；一个是微观操作，即英雄单位在具体场景下的操作。对于MOBA的游戏AI来说，微观操作主要是英雄在当前场景下的具体操作，如移动、攻击或者技能施放。而宏观策略主要是英雄及友军配合，进行大范围的转移调度等，形成一定的战略战术，以期更好地获取资源，或在局部战斗中获得人数优势。本申请实施例提供的游戏AI可以用于输出微观的操作。

相关技术中，通过强化学***对战微操能力的前提下，学***的对抗性策略。因此大大提高了交互模型的鲁棒性和适应能力，提高游戏AI的综合能力。

以下以训练游戏AI为例，对本申请实施例提供的交互模型训练方法进行说明，包括以下步骤：

1、获取目标交互动作以及目标交互动作对应的目标交互状态特征，目标交互动作为目标交互状态特征对应的状态下，符合目标交互策略的交互动作。

2、根据目标交互状态特征以及目标交互动作进行模型训练，得到目标策略判别模型。

具体地，可以获取高水平玩家例如专家级别的游戏玩家的历史对战数据，或指定打法特色的玩家的对战数据，对每局游戏进行状态特征以及动作抽样处理。这里的抽样处理可以是每个预设时间段内选取一定数量的图像帧对应的交互相关数据进行状态特征的提取，以及获取该图像帧对应的状态下英雄人物所执行的动作，例如，1s内可以有30张图像，则可以提取其中的5帧图像对应的交互相关数据。提取得到该玩家在输出某个动作时，游戏环境中当前时刻所对应的状态特征。从而得到目标交互动作以及目标交互动作对应的目标交互状态特征，组成训练样本集。利用该训练样本集进行模型训练，得到目标策略判别模型。

3、获取虚拟交互环境对应的第一交互状态特征以及第一交互动作，第一交互动作是通过将第一交互状态特征，输入到待训练的第一交互模型中确定的。

具体地，第一次对第一交互模型进行训练时，可以加载神经网络模型，随机初始化网络模型参数，并加载游戏环境。

服务器中可以部署自对弈训练模块，自对弈训练模块可以在对手模型池中选择对手模型，在多机器并行启动自对弈脚本，得到<状态特征，动作>样本数据，作为第一交互状态特征以及第一交互动作。

4、获取目标虚拟对象执行第一交互动作得到的收益，作为第一收益。

具体地，服务器可以计算得到第一交互状态特征对应的状态下，执行第一交互动作对应的游戏回报收益。例如该游戏回报收益可以是执行第一交互动作所得的即时收益以及利用状态价值函数计算得到的下一时刻状态对应的价值（收益）之和。

5、将第一交互状态特征以及第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；根据第一策略判别值计算得到第二收益。

具体地，可以将步骤3得到的<状态特征，动作>数据输入到目标交互策略判别模型中，得到输出的概率，根据输出的概率得到对应的第二收益。

6、根据第一收益以及第二收益计算得到目标收益。

可以结合步骤4以及步骤5的收益进行求和计算，得到最终收益，即目标收益。

7、根据目标收益对待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

具体地，可以根据PPO算法对第一交互模型进行参数更新。可以迭代执行步骤2~7。其中，自对弈训练模块在对手模型池中选择对手模型，在多机器并行启动自对弈脚本，得到<状态特征，动作>样本数据的步骤可以是每隔预设训练次数执行一次。模型的训练迭代预设次数或者经过预设时长后，可以评估第一交互模型的模型参数，如果模型收敛，则可以停止训练，保存最终的第一交互模型。

在一些实施例中，服务器中可以部署自对弈训练模块以及专家数据辅助模块。自对弈训练模块可以是核心模块，负责第一交互模型所需自对弈数据的生成以及第一交互模型的迭代训练。自对弈训练模块可以包括以下子模块：自对弈特征提取模块、回报收益提取模块、游戏自对弈模块。神经网络训练模块。专家数据辅助模块可以包括以下子模块：专家特征提取模块、判别器模块。

特征提取模块用于进行特征提取，在MOBA游戏中，局面状态不再是简单的盘面信息，其大地图、多虚拟对象以及非完全信息等使得局面状态特征具有更高的复杂性，参考真实玩家在游戏过程中考虑的主要状态信息，可以利用特征提取模块提取得到状态特征。

收益计算模块用于计算回报收益。在对第一交互模型的训练过程中，第一交互模型的动作预测值需要一个特定的值来评估虚拟对象例如英雄执行该动作的优劣性。回报收益表示某个时刻t的状态将具备的回报收益，可以是接下来时刻所有即时收益的累加。

神经网络训练模块用于训练第一交互模型。通过获取自对弈得到的数据样本，根据游戏环境给予的回报奖励以及判别器输出的判别值得到目标收益。可以利用PPO强化学习算法，以最大化回报奖励（收益）期望为目标，通过多次训练第一交互模型，提高游戏AI根据状态环境输出动作的准确度。

专家特征提取模块可以用于提取专家的动作轨迹数据以及对应的状态特征数据。例如可从游戏服务器上大量玩家的正常对局中，提取对应的特征和动作，形成专家操作轨迹样本池，用于对策略判别模型进行训练。

判别器模块可以用于进行策略的判别。可以用深度神经网络模型构建判别器模型，对输入的状态-动作对，得到符合目标交互策略的概率值。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一些实施例中，如图9所示，提供了一种交互模型训练装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：第一交互数据获取模块902、第一收益获取模块904、第一策略判别值得到模块906、第二收益得到模块908、目标收益得到模块910和第一交互模型参数调整模块912，其中：

第一交互数据获取模块902，用于获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，第一交互动作是通过将第一交互状态特征，输入到待训练的第一交互模型中确定的。

第一收益获取模块904，用于获取目标虚拟对象执行第一交互动作得到的收益，作为第一收益。

第一策略判别值得到模块906，用于将第一交互状态特征以及第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值。

第二收益得到模块908，用于根据第一策略判别值计算得到第二收益，第一策略判别值与第二收益成正相关关系。

目标收益得到模块910，用于根据第一收益以及第二收益计算得到目标收益。

第一交互模型参数调整模块912，用于根据目标收益对待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

在一些实施例中，交互模型训练装置还包括：目标交互数据获取模块，用于获取目标交互动作以及目标交互动作对应的目标交互状态特征，目标交互动作为目标交互状态特征对应的状态下，符合目标交互策略的交互动作；策略判别模型训练模块，用于根据目标交互状态特征以及目标交互动作进行模型训练，得到目标策略判别模型。

在一些实施例中，策略判别模型训练模块包括：第二策略判别值得到单元，用于将目标交互状态特征以及目标交互动作输入到待训练的策略判别模型中，得到第二策略判别值；第二模型损失值得到单元，用于根据第二策略判别值得到第二模型损失值，根据第二模型损失值调整待训练的策略判别模型的模型参数，得到目标策略判别模型，第二策略判别值与第二模型损失值成负相关关系。

在一些实施例中，目标交互策略为预设交互用户级别对应的交互策略，目标交互数据获取模块用于：获取根据预设交互用户级别的用户操作得到的交互动作，作为目标交互动作；获取目标交互动作对应的交互状态特征，作为目标交互状态特征。

在一些实施例中，交互模型训练装置还包括：第一模型损失值得到模块，用于根据第一策略判别值得到第一模型损失值，第一策略判别值与第一模型损失值成正相关关系；目标策略判别模型参数调整模块，用于根据第一模型损失值调整目标策略判别模型的模型参数。

在一些实施例中，第一交互数据获取模块902用于：获取待训练的第一交互模型对应的对战模型，作为第二交互模型；控制待训练的第一交互模型与第二交互模型在虚拟交互环境中进行交互，得到第一交互模型对应的交互记录数据；根据交互记录数据获取得到第一交互状态特征以及第一交互动作。

在一些实施例中，交互模型训练装置还包括：进入模块，用于将更新后的第一交互模型作为待训练的第一交互模型，进入控制待训练的第一交互模型与第二交互模型在虚拟交互环境中进行交互，得到第一交互模型对应的交互记录数据的步骤，直至更新后的第一交互模型收敛或者模型训练次数达到预设次数。

在一些实施例中，第一收益获取模块904用于：获取目标虚拟对象执行第一交互动作，虚拟交互环境对应的状态变化；根据状态变化得到对应的收益，作为第一收益。

在一些实施例中，第一交互数据获取模块902用于：获取虚拟交互环境对应的交互相关数据，交互相关数据包括对象属性数据以及对象位置数据；根据对象属性数据得到属性特征，根据对象位置数据得到位置特征；将属性特征与位置特征进行组合，得到第一交互状态特征。

关于交互模型训练装置的具体限定可以参见上文中对于交互模型训练方法的限定，在此不再赘述。上述交互模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储交互模型训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种交互模型训练方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种交互模型训练方法，所述方法包括：

获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，所述第一交互动作是通过将所述第一交互状态特征，输入到待训练的第一交互模型中确定的；

获取目标虚拟对象执行所述第一交互动作得到的收益，作为第一收益；

将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；

根据所述第一策略判别值计算得到第二收益，所述第一策略判别值与所述第二收益成正相关关系；

根据所述第一收益以及所述第二收益计算得到目标收益；

根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标交互动作以及所述目标交互动作对应的目标交互状态特征，所述目标交互动作为所述目标交互状态特征对应的状态下，符合所述目标交互策略的交互动作；

根据所述目标交互状态特征以及所述目标交互动作进行模型训练，得到所述目标策略判别模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标交互状态特征以及所述目标交互动作进行模型训练，得到所述目标策略判别模型包括：

将所述目标交互状态特征以及所述目标交互动作输入到待训练的策略判别模型中，得到第二策略判别值；

根据所述第二策略判别值得到第二模型损失值，根据所述第二模型损失值调整待训练的策略判别模型的模型参数，得到所述目标策略判别模型，所述第二策略判别值与所述第二模型损失值成负相关关系。

4.根据权利要求2所述的方法，其特征在于，所述目标交互策略为预设交互用户级别对应的交互策略，所述获取目标交互动作以及所述目标交互动作对应的目标交互状态特征包括：

获取根据所述预设交互用户级别的用户操作得到的交互动作，作为目标交互动作；

获取所述目标交互动作对应的交互状态特征，作为目标交互状态特征。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一策略判别值得到第一模型损失值，所述第一策略判别值与所述第一模型损失值成正相关关系；

根据所述第一模型损失值调整所述目标策略判别模型的模型参数。

6.根据权利要求1所述的方法，其特征在于，所述获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作包括：

获取待训练的第一交互模型对应的对战模型，作为第二交互模型；

控制所述待训练的第一交互模型与所述第二交互模型在虚拟交互环境中进行交互，得到所述第一交互模型对应的交互记录数据；

根据所述交互记录数据获取得到第一交互状态特征以及第一交互动作。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将更新后的第一交互模型作为待训练的第一交互模型，进入控制所述待训练的第一交互模型与所述第二交互模型在虚拟交互环境中进行交互，得到所述第一交互模型对应的交互记录数据的步骤，直至更新后的第一交互模型收敛或者模型训练次数达到预设次数。

8.根据权利要求1所述的方法，其特征在于，所述获取目标虚拟对象执行所述第一交互动作得到的收益，作为第一收益包括：

获取所述目标虚拟对象执行所述第一交互动作前后，所述虚拟交互环境对应的状态变化；

根据所述状态变化得到对应的收益，作为第一收益。

9.根据权利要求1所述的方法，其特征在于，所述获取虚拟交互环境对应的第一交互状态特征包括：

获取虚拟交互环境对应的交互相关数据，所述交互相关数据包括对象属性数据以及对象位置数据；

根据所述对象属性数据得到属性特征，根据对象位置数据得到位置特征；

将所述属性特征与所述位置特征进行组合，得到第一交互状态特征。

10.一种交互模型训练装置，所述装置包括：

第一交互数据获取模块，用于获取虚拟交互环境对应的第一交互状态特征，以及获取第一交互动作，所述第一交互动作是通过将所述第一交互状态特征，输入到待训练的第一交互模型中确定的；

第一收益获取模块，用于获取目标虚拟对象执行所述第一交互动作得到的收益，作为第一收益；

第一策略判别值得到模块，用于将所述第一交互状态特征以及所述第一交互动作输入到目标交互策略对应的目标策略判别模型中，得到第一策略判别值；

第二收益得到模块，用于根据所述第一策略判别值计算得到第二收益，所述第一策略判别值与所述第二收益成正相关关系；

目标收益得到模块，用于根据所述第一收益以及所述第二收益计算得到目标收益；

第一交互模型参数调整模块，用于根据所述目标收益对所述待训练的第一交互模型的模型参数进行调整，得到更新后的第一交互模型。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

目标交互数据获取模块，用于获取目标交互动作以及所述目标交互动作对应的目标交互状态特征，所述目标交互动作为所述目标交互状态特征对应的状态下，符合所述目标交互策略的交互动作；

策略判别模型训练模块，用于根据所述目标交互状态特征以及所述目标交互动作进行模型训练，得到所述目标策略判别模型。

12.根据权利要求11所述的装置，其特征在于，所述策略判别模型训练模块包括：

第二策略判别值得到单元，用于将所述目标交互状态特征以及所述目标交互动作输入到待训练的策略判别模型中，得到第二策略判别值；

第二模型损失值得到单元，用于根据所述第二策略判别值得到第二模型损失值，根据所述第二模型损失值调整待训练的策略判别模型的模型参数，得到所述目标策略判别模型，所述第二策略判别值与所述第二模型损失值成负相关关系。

13.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一模型损失值得到模块，用于根据所述第一策略判别值得到第一模型损失值，所述第一策略判别值与所述第一模型损失值成正相关关系；

目标策略判别模型参数调整模块，用于根据所述第一模型损失值调整所述目标策略判别模型的模型参数。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。