CN116920411B

CN116920411B - 一种数据处理方法及相关装置

Info

Publication number: CN116920411B
Application number: CN202311201804.3A
Authority: CN
Inventors: 李旭冬; 张兴斌; 罗章龙; 严明; 魏学峰; 黄斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-08
Anticipated expiration: 2043-09-18
Also published as: CN116920411A

Abstract

本申请公开一种数据处理方法及相关装置，用于人工智能领域。方法包括：通过第一样本阵容对局第二样本阵容的多个样本游戏状态和对应的多个正负奖励训练强化学习模型得到输出概率模型；从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率，M×N个目标游戏状态对应预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态。通过调整M×N个目标输出概率得到调整后的M×N个目标输出概率；通过调整后的M×N个目标输出概率与预设概率之间的大小关系，确定在预设时间的输出策略。

Description

一种数据处理方法及相关装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据处理方法及相关装置。

背景技术

随着实时策略游戏的智能化发展，在阵容对局过程中应用智能对局功能，可智能化地控制对局阵容中游戏对象进行阵容对局。

相关技术中，通常是按照预设输出策略控制对局阵容中游戏对象进行输出，以智能化地进行阵容对局。

然而，上述方法中预设输出策略是固定游戏情况下的固定输出策略，并不一定是阵容对局的游戏状态下奖励较高的输出策略，导致智能对局效果较差。

发明内容

为了解决上述技术问题，本申请提供了一种数据处理方法及相关装置，能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率，以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略，从而智能化地进行阵容对局，提升智能对局效果。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种数据处理方法，所述方法包括：

从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率；所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励，训练强化学习模型获得的；所述多个预设游戏状态包括所述M×N个目标游戏状态，所述M×N个目标游戏状态对应所述预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及所述预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，M为正整数，N为正整数；

对所述M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率；

根据所述调整后的M×N个目标输出概率与预设概率之间的大小关系，确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略。

另一方面，本申请实施例提供一种数据处理装置，所述装置包括：获取单元、调整单元和确定单元；

所述获取单元，用于从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率；所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励，训练强化学习模型获得的；所述多个预设游戏状态包括所述M×N个目标游戏状态，所述M×N个目标游戏状态对应所述预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及所述预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，M为正整数，N为正整数；

所述调整单元，用于对所述M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率；

所述确定单元，用于根据所述调整后的M×N个目标输出概率与预设概率之间的大小关系，确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略。

另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行前述任一方面所述的方法。

另一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行前述任一方面所述的方法。

由上述技术方案可以看出，在通过第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型得到输出概率模型的基础上；首先，从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率，其中，多个预设游戏状态包括M×N个目标游戏状态，该M×N个目标游戏状态对应预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，M为正整数，N为正整数；该方式在通过训练强化学习模型得到的输出概率模型，预测出多个预设游戏状态下奖励较高的多个预设输出概率的基础上，能够快速有效地匹配到第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率。

然后，先调整M×N个目标输出概率得到调整后的M×N个目标输出概率；再通过调整后的M×N个目标输出概率与预设概率之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略；该方式进一步调整在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，以得到更准确的调整后的M×N个目标输出概率，与预设概率进行大小比较，以更准确地确定第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的输出策略。基于此，该方法能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率，以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略，从而智能化地进行阵容对局，提升智能对局效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术成员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一种阵容对局的流程图；

图2为本申请实施例提供的一种数据处理方法的***架构示意图；

图3为本申请实施例提供的一种数据处理方法的流程图；

图4为本申请实施例提供的一种确定第一目标阵容对局第二目标阵容在预设时间的输出策略的流程图；

图5为本申请实施例提供的一种预测多个预设游戏状态对应的多个预设输出概率的流程图；

图6为本申请实施例提供的一种通过量子粒子群算法对概率调整策略中预设参数集进行优化得到目标最优参数的流程图；

图7为本申请实施例提供的一种应用第一目标阵容对局第二目标阵容在预设时间的输出策略的示意图；

图8为本申请实施例提供的一种数据处理装置的结构图；

图9为本申请实施例提供的一种服务器的结构图；

图10为本申请实施例提供的一种终端的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

现阶段，参见图1，图1为相关技术提供的一种阵容对局的流程图；流程开始游戏用户登录游戏账号，在开启阵容对局后获取对局阵容信息，检测阵容对局信息以判断阵容对局是否结束，若未结束，处理对局阵容信息，在该过程中可以应用智能对局功能，按照预设输出策略控制对局阵容中游戏对象进行输出，以智能化地进行阵容对局，返回检测阵容对局信息步骤；若结束，判断阵容对局数量是否为最大对局数量，若否，返回在开启阵容对局后获取对局阵容信息步骤，若是，结束流程。

但是，上述智能对局中预设输出策略是固定游戏情况下的固定输出策略，并不一定是阵容对局的游戏状态下奖励较高的输出策略，导致智能对局效果较差。

本申请实施例提供一种数据处理方法，能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率，以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略，从而智能化地进行阵容对局，提升智能对局效果。

接下来，将对数据处理方法的***架构进行介绍。参见图2，图2为本申请实施例提供的一种数据处理方法的***架构示意图，该***架构中包括服务器200，该服务器200用于执行数据处理方法。

服务器200从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率；输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型获得的；多个预设游戏状态包括M×N个目标游戏状态，M×N个目标游戏状态对应预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，M为正整数，N为正整数。

作为一种示例，第一目标阵容中M个第一目标对象的M个对象游戏状态为第一目标对象i的生命值、技能属性和技能状态，i为正整数，i=1、2、…、M，第二目标阵容中N个第二目标对象的N个对象游戏状态为第二目标对象j的生命值、技能属性和技能状态，j为正整数，j=1、2、…、N，则在预设时间M×N个目标游戏状态为在预设时间第一目标对象i的生命值、技能属性和技能状态、以及在预设时间第二目标对象j的生命值、技能属性和技能状态拼接成得到的S_ij，即，S_ij（在预设时间第一目标对象i的生命值、技能属性和技能状态，在预设时间第二目标对象j的生命值、技能属性和技能状态）；服务器200从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取S_ij对应的M×N个目标输出概率为P_ij，i=1、2、…、M，j=1、2、…、N。

服务器200对M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率。

作为一种示例，在上述示例的基础上，服务器200通过调整P_ij得到调整后的P_ij，i=1、2、…、M，j=1、2、…、N。

服务器200根据调整后的M×N个目标输出概率与预设概率之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略。

作为一种示例，预设概率为0.5，在上述示例的基础上，服务器200通过调整后的P_ij与0.5之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略，i=1、2、…、M，j=1、2、…、N。

也就是说，在通过训练强化学习模型得到的输出概率模型，预测出多个预设游戏状态下奖励较高的多个预设输出概率的基础上，能够快速有效地匹配到第一目标阵容对局第二目标阵容的预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率。进一步调整预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，以得到更准确的调整后的M×N个目标输出概率，与预设概率进行大小比较，以更准确地确定第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的输出策略。基于此，该方法能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率，以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略，从而智能化地进行阵容对局，提升智能对局效果。

需要说明的是，在本申请实施例数据处理方法涉及到人工智能。而人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。在本申请实施例中，人工智能技术主要涉及到自然语言处理技术以及机器学习/深度学习等技术。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。在本申请实施例中，自然语言处理技术主要涉及到文本处理、语义理解和机器人问答等技术。

机器学习/深度学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习/深度学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习/深度学习技术通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

需要说明的是，在本申请实施例中，计算机设备可以是服务器或终端，本申请实施例提供的方法可以由终端或服务器单独执行，也可以由终端和服务器配合执行。其中，图2对应的实施例主要以服务器执行本申请实施例提供的方法为例进行介绍。

此外，当本申请实施例提供的方法由终端单独执行时，其执行方法与图2对应的实施例类似，主要是将服务器换成终端。另外，当由终端和服务器配合执行本申请实施例提供的方法时，需要体现在前端界面上的步骤可以由终端执行，而一些需要后台计算、无需体现在前端界面上的步骤可以由服务器执行。

其中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、车载终端或飞行器等，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器，但并不局限于此。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。例如终端和服务器可以通过网络连接，该网络可以是有线或无线网络。

此外，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、音视频、辅助驾驶等。

接下来，将以服务器执行本申请实施例提供的方法为例、结合附图对本申请实施例提供的数据处理方法进行详细介绍。参见图3，图3为本申请实施例提供的一种数据处理方法的流程图，方法包括：

S301：从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率；输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型获得的；多个预设游戏状态包括M×N个目标游戏状态，M×N个目标游戏状态对应预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，M为正整数，N为正整数。

由于相关技术中，在阵容对局过程中应用智能对局功能是指按照预设输出策略控制对局阵容中游戏对象进行输出，以智能化地进行阵容对局。但是，预设输出策略是固定游戏情况下的固定输出策略，并不一定是阵容对局的游戏状态下奖励较高的输出策略，导致智能对局效果较差。

因此，本申请实施例中，为了解决上述问题，考虑到强化学习是智能体通过感知所处环境的状态对动作的反应，来指导更好的动作，从而获得最大的收益；即，强化学习是一种无标签学习，通过奖励函数来判断在确定状态下执行某一动作的好坏，学习过程就是通过奖励信号以改变执行动作的策略，最终结果就是形成一个使奖励最大的策略；可以预先通过大量的第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型得到输出概率模型，使得输出概率模型可以有效地预测任意游戏状态下奖励较高的输出概率。其中，多个样本游戏状态对应样本时间第一样本阵容中多个第一样本对象的多个对象游戏状态、以及样本时间第二样本阵容中多个第二样本对象的多个对象游戏状态；对象游戏状态是指影响游戏对象输出的关键特征状态；多个正负奖励是指第一样本阵容对局第二样本阵容的多个样本游戏状态下多个游戏奖励，包括多个正奖励和多个负奖励，正奖励表示第一样本阵容对局第二样本阵容具有优势，负奖励表示第一样本阵容对局第二样本阵容具有劣势。

实际应用中，本申请实施例中多个是指两个以及两个以上，后续不再赘述。

在此基础上，为了后续快速地获取特定阵容对局在特定时间特定游戏状态下奖励较高的输出概率，还可以预先通过输出概率模型对多个预设游戏状态对应的多个输出概率进行预测，得到多个预设游戏状态下奖励较高的多个预设输出概率；其中，多个预设游戏状态可以包括所有阵容对局的所有游戏状态，或者，多个预设游戏状态可以包括特定阵容对局的所有游戏状态。

在第一目标阵容中M个第一目标对象对局第二目标阵容中N个第二目标对象过程中，在预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及在预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，表示在预设时间M×N个目标游戏状态；由于多个预设游戏状态包括M×N个目标游戏状态；因此，查找多个预设游戏状态下奖励较高的多个预设输出概率，即可获取在预设时间M×N个目标游戏状态下奖励较高的输出概率作为M×N个目标输出概率；其中，M为正整数，N为正整数。

需要注意的是，不同阵容中游戏对象数量相同；即，第一目标阵容中第一目标对象的对象数量与第二目标阵容中第二目标对象的对象数量相同，M＝N。当然，不同阵容中游戏对象数量也可以不同；即，第一目标阵容中第一目标对象的对象数量与第二目标阵容中第二目标对象的对象数量不同，M≠N。

上述S301在通过训练强化学习模型得到的输出概率模型，预测出多个预设游戏状态下奖励较高的多个预设输出概率的基础上，能够快速有效地匹配到第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，为后续快速有效地确定阵容对局的游戏状态下奖励较高的输出策略提供输出概率数据。

作为上述S301的一种示例，第一目标阵容中M个第一目标对象的M个对象游戏状态为第一目标对象i的生命值、技能属性和技能状态，i为正整数，i=1、2、…、M，第二目标阵容中N个第二目标对象的N个对象游戏状态为第二目标对象j的生命值、技能属性和技能状态，j为正整数，j=1、2、…、N，则在预设时间M×N个目标游戏状态为在预设时间第一目标对象i的生命值、技能属性和技能状态、以及在预设时间第二目标对象j的生命值、技能属性和技能状态拼接得到的S_ij，即，S_ij（在预设时间第一目标对象i的生命值、技能属性和技能状态，在预设时间第二目标对象j的生命值、技能属性和技能状态）；服务器从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取S_ij对应的M×N个目标输出概率为P_ij，i=1、2、…、M，j=1、2、…、N，具体如下述表1所示：

表1 M×N个目标输出概率

S302：对M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率。

本申请实施例中，执行S301获取第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态对应的M×N个目标输出概率之后，为了得到更准确预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，还需要调整M×N个目标输出概率得到调整后的M×N个目标输出概率。

上述S302进一步调整在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，以得到更准确的调整后的M×N个目标输出概率，为后续在快速有效地基础上，进一步更准确地确定阵容对局的游戏状态下奖励较高的输出策略提供输出概率数据。

作为上述S302的一种示例，在上述S301示例的基础上，服务器通过调整P_ij得到调整后的P_ij，i=1、2、…、M，j=1、2、…、N。

S303：根据调整后的M×N个目标输出概率与预设概率之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略。

本申请实施例中，在执行S302得到调整后的M×N个目标输出概率之后，由于调整后的M×N个目标输出概率表示更准确的预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率；因此，通过调整后的M×N个目标输出概率与预设概率之间的大小关系，即可确定第一目标阵容对局第二目标阵容在预设时间的输出策略。其中，预设概率是指第一目标阵容对局第二目标阵容具有优势的下限概率。

上述S303在速有效地、更准确地获取第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率基础上，与预设概率进行大小比较，即可快速有效地、更准确地确定第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的输出策略。

作为上述S303的一种示例，预设概率为0.5，在上述S302示例的基础上，服务器通过调整后的P_ij与0.5之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略，i=1、2、…、M，j=1、2、…、N。

综上S301-S303，参见图4，图4为本申请实施例提供的一种确定第一目标阵容对局第二目标阵容在预设时间的输出策略的流程图；具体流程是指：基于第一目标阵容对局第二目标阵容在预设时间的M×N个目标游戏状态，查找输出概率模型预测的多个预设游戏状态对应的多个预设输出概率，得到在预设时间M×N个目标游戏状态对应的M×N个目标输出概率；调整M×N个目标输出概率，得到调整后的M×N个目标输出概率；通过调整后的M×N个目标输出概率与预设概率之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略。

然后，先调整M×N个目标输出概率得到调整后的M×N个目标输出概率；再通过调整后的M×N个目标输出概率与预设概率之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略；该方式进一步调整在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，以得到更准确的调整后的M×N个目标输出概率，与预设概率进行大小比较，以更准确地确定第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的输出策略。基于此，该方法能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率，以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略，从而智能化地进行阵容对局，提升智能对局效果。此外，该方法进一步提高阵容对局过程中智能对局的智能程度，实现更加合理的决策，从而能够更好地体现出阵容对局中不同游戏对象的实际强度。

上述实施例中，S301中多个预设游戏状态对应的多个预设输出概率的预测步骤，可以包括以下多种实现方式：

一种实现方式是指：多个预设游戏状态可以包括所有阵容对局的所有游戏状态，即，多个预设游戏状态覆盖所有阵容对局的所有游戏状态，以便通过输出概率模型预测得到多个预设游戏状态对应的多个预设输出概率之后，能够快速获取任意阵容对局在任意时间任意游戏状态下奖励较高的输出概率。基于此，首先，需要遍历多个已有游戏对象的多个对象游戏状态，将多个对象游戏状态作为多个第一游戏状态，并遍历多个第一游戏状态，将多个第一游戏状态作为多个第二游戏状态；然后，拼接多个第一游戏状态和多个第二游戏状态，即可得到覆盖所有阵容对局的所有游戏状态的多个预设游戏状态，一个预设游戏状态包括一个第一游戏状态和一个第二游戏状态；最后，将多个预设游戏状态经过输出概率模型进行输出概率预测，即可得到多个预设游戏状态下奖励较高的多个预设输出概率。因此，本申请提供了一种可能的实现方式，S301中多个预设输出概率的预测步骤包括S1-S3（图中未示出）：

S1：将遍历得到的多个已有游戏对象的多个对象游戏状态作为多个第一游戏状态；将遍历得到的多个第一游戏状态作为多个第二游戏状态。

其中，已有游戏对象的对象游戏状态是指影响已有游戏对象输出的关键特征状态，即，已有游戏对象的生命值、技能属性和技能状态。生命值是指已有游戏对象所能承受的伤害量，例如可以为空血、1/5血量、2/5血量、3/5血量、4/5血量或满血等；技能属性是指已有游戏对象所拥有的游戏技能的类别属性，例如可以为打断、群体攻击、单体攻击、控制、治疗、辅助或复活等，技能状态是指已有游戏对象所拥有的游戏技能的使用状态，例如可以为可以释放、不能释放或正在释放等。基于此，第一游戏状态是拼接已有游戏对象的生命值、技能属性和技能状态得到的；第二游戏状态与第一游戏状态相同。

S2：对多个第一游戏状态和多个第二游戏状态进行拼接，获得多个预设游戏状态；一个预设游戏状态包括一个第一游戏状态和一个第二游戏状态。

S3：根据输出概率模型对多个预设游戏状态对应的多个输出概率进行预测，获得多个预设输出概率。

上述S1-S3遍历多个已有游戏对象的多个对象游戏状态，得到多个第一游戏状态和多个第二游戏状态，并拼接为多个预设游戏状态，一个预设游戏状态包括一个第一游戏状态和一个第二游戏状态，能够覆盖所有阵容对局的所有游戏状态；且通过输出概率模型预测得到多个预设游戏状态对应的多个预设输出概率，使得多个预设游戏状态对应的多个预设输出概率适用于查找任意阵容对局在任意时间任意游戏状态下奖励较高的输出概率，为后续快速获取任意阵容对局在任意时间任意游戏状态下奖励较高的输出概率提供输出概率数据。

作为上述S1-S3的一种示例，在上述S301示例的基础上，多个已有游戏对象的多个对象游戏状态包括z个对象游戏状态，z为正整数；服务器遍历z个对象游戏状态得到z个第一游戏状态，并遍历z个对象游戏状态得到z个第二游戏状态；拼接z个第一游戏状态和z个第二游戏状态，得到z×z个预设游戏状态为s_ab，a为正整数，a=1、2、…、z，b为正整数，b=1、2、…、z，即，s_ab（第a个第一游戏状态，第b个第二游戏状态）；将s_ab经过输出概率模型进行输出概率预测，得到s_ab对应的z×z个预设输出概率为p_ab，a=1、2、…、z，b=1、2、…、z，具体如下表2所示：

表2 z×z个预设游戏状态对应的z×z个预设输出概率

对应地，服务器从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取S_ij对应的P_ij，i=1、2、…、M，j=1、2、…、N，实际上是：服务器从s_ab对应的p_ab，a=1、2、…、z，b=1、2、…、z中，获取S_ij对应的P_ij，i=1、2、…、M，j=1、2、…、N。

另一种实现方式是指：多个预设游戏状态可以包括特定阵容对局的所有游戏状态，即，多个预设游戏状态无需覆盖所有阵容对局的所有游戏状态，覆盖特定阵容对局的所有游戏状态即可，以便通过输出概率模型预测得到多个预设游戏状态对应的多个预设输出概率之后，能够快速获取特定阵容对局的任意时间任意游戏状态下奖励较高的输出概率。基于此，针对第一目标阵容对局第二目标阵容的特定阵容对局，首先，需要获取第一目标阵容的多个对象游戏状态，并获取第二目标阵容的多个对象游戏状态；然后，拼接第一目标阵容的多个对象游戏状态和第二目标阵容的多个对象游戏状态，即可得到覆盖该特定阵容对局的所有游戏状态的多个预设游戏状态，一个预设游戏状态包括第一目标阵容的一个对象游戏状态和第二目标阵容的一个对象游戏状态；最后，将多个预设游戏状态经过输出概率模型进行输出概率预测，即可得到多个预设游戏状态下奖励较高的多个预设输出概率。因此，本申请提供了一种可能的实现方式，S301中多个预设输出概率的预测步骤包括S4-S6（图中未示出）：

S4：获取第一目标阵容的多个对象游戏状态和第二目标阵容的多个对象游戏状态。

其中，第一目标阵容的多个对象游戏状态是指第一目标阵容中各个第一游戏对象的多个对象游戏状态，第一游戏对象的对象游戏状态是指影响第一游戏对象输出的关键特征状态，即，第一游戏对象的生命值、技能属性和技能状态。第二目标阵容的多个对象游戏状态是指第二目标阵容中各个第二游戏对象的多个对象游戏状态，第二游戏对象的对象游戏状态是指影响第二游戏对象输出的关键特征状态，即，第二游戏对象的生命值、技能属性和技能状态。

S5：对第一目标阵容的多个对象游戏状态和第二目标阵容的多个对象游戏状态进行拼接，获得多个预设游戏状态；一个预设游戏状态包括第一目标阵容的一个对象游戏状态和第二目标阵容的一个对象游戏状态。

S6：根据输出概率模型对多个预设游戏状态对应的多个输出概率进行预测，获得多个预设输出概率。

上述S4-S6获取第一目标阵容的多个对象游戏状态和第二目标阵容的多个对象游戏状态，并拼接为多个预设游戏状态，一个预设游戏状态包括第一目标阵容的一个对象游戏状态和第二目标阵容的一个对象游戏状态，能够精准覆盖第一目标阵容对局第二目标阵容的特定阵容对局的所有游戏状态；且通过输出概率模型预测得到多个预设游戏状态对应的多个预设输出概率，使得多个预设游戏状态对应的多个预设输出概率更精准地适用于查找该特定阵容对局在任意时间任意游戏状态下奖励较高的输出概率，为后续更快速地获取该特定阵容对局在任意时间任意游戏状态下奖励较高的输出概率提供更精准的数据基础。

作为上述S4-S6的一种示例，在上述S301示例的基础上，第一目标阵容的多个对象游戏状态包括x个对象游戏状态，x为正整数，第二目标阵容的多个对象游戏状态包括y个对象游戏状态，y为正整数；服务器获取第一目标阵容的x个对象游戏状态和第二目标阵容的y个对象游戏状态；拼接第一目标阵容的x个对象游戏状态和第二目标阵容的y个对象游戏状态，得到x×y个预设游戏状态为s_cd，c为正整数，c=1、2、…、x，d为正整数，d=1、2、…、y，即，s_cd（第一目标阵容的第c个对象游戏状态，第二目标阵容的第d个对象游戏状态）；将s_cd经过输出概率模型进行输出概率预测，得到s_cd对应的x×y个预设输出概率为p_cd，c=1、2、…、x，d=1、2、…、y，具体如下表3所示：

表3 x×y个预设游戏状态对应的x×y个预设输出概率

对应地，服务器从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取S_ij对应的P_ij，i=1、2、…、M，j=1、2、…、N，实际上是：服务器从s_cd对应的p_cd，c=1、2、…、x，d=1、2、…、y中，获取S_ij对应的P_ij，i=1、2、…、M，j=1、2、…、N。

上述实施例中，通过第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型得到输出概率模型，实际上是指：将第一样本阵容对局第二样本阵容的多个样本游戏状态经过强化学习模型进行输出概率预测，得到多个样本游戏状态对应的多个预测输出概率；结合多个样本游戏状态对应的多个正负奖励，调整强化学习模型的模型参数实现训练，最终使得多个样本游戏状态经过强化学习模型进行输出概率预测，得到多个样本游戏状态下奖励最大的多个输出概率完成训练，从而将训练完成的强化学习模型作为输出概率模型。因此，本申请提供了一种可能的实现方式，S301中输出概率模型的训练步骤包括S7-S8（图中未示出）：

S7：通过强化学习模型对多个样本游戏状态对应的多个输出概率进行预测，获得多个预测输出概率。

S8：根据多个预测输出概率和多个样本游戏状态对应的多个正负奖励，对强化学习模型的模型参数进行调整，获得输出概率模型。

其中，在多个正负奖励中正奖励表示第一样本阵容对局第二样本阵容具有优势基础上，正奖励例如可以为第一样本阵容对局第二样本阵容赢了、第二样本阵容中第二样本对象的生命值减少或第一样本阵容中第一样本对象打断第二样本阵容中第二样本对象的游戏技能等；在多个正负奖励中负奖励表示第一样本阵容对局第二样本阵容具有劣势基础上，负奖励例如可以为第一样本阵容对局第二样本阵容输了、第一样本阵容中第一样本对象的生命值减少或第一样本阵容中第一样本对象的游戏技能被第二样本阵容中第二样本对象打断等。

上述S7-S8通过强化学习模型预测第一样本阵容对局第二样本阵容的多个样本游戏状态对应的多个预测输出概率，并以多个样本游戏状态对应的多个正负奖励调整强化学习模型的模型参数，使得强化学习模型能够预测多个样本游戏状态下奖励最大的多个输出概率，完成训练得到输出概率模型，为后续有效地预测任意游戏状态下奖励较高的输出概率提供模型。

综上S1-S8，参见图5，图5为本申请实施例提供的一种预测多个预设游戏状态对应的多个预设输出概率的流程图；具体流程是指：基于第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型得到输出概率模型；将遍历得到的多个已有游戏对象的多个对象游戏状态作为多个第一游戏状态，将遍历得到的多个第一游戏状态作为多个第二游戏状态，并拼接多个第一游戏状态和多个第二游戏状态，一个预设游戏状态包括一个第一游戏状态和一个第二游戏状态；或者，获取第一目标阵容的多个对象游戏状态和第二目标阵容的多个对象游戏状态，并拼接第一目标阵容的多个对象游戏状态和第二目标阵容的多个对象游戏状态，得到多个预设游戏状态，一个预设游戏状态包括第一目标阵容的一个对象游戏状态和第二目标阵容的一个对象游戏状态；通过输出概率模型对多个预设游戏状态对应的多个输出概率进行预测，得到多个预设游戏状态对应的多个预设输出概率。

上述实施例中，在S302具体实现方式时，调整M×N个目标输出概率实际上是：按照考虑到概率调整策略对目标输出概率的影响，调整M×N个目标输出概率。其中，在概率调整策略的策略数量为一个或多个，概率调整策略是指目标对局状态下按照预设参数调整目标输出概率的基础上，考虑到概率调整策略中预设参数在其取值范围内是可调整的，为了更准确地学习在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率对应的优化参数；还需要通过量子粒子群算法对概率调整策略中预设参数集进行优化得到目标最优参数，通过目标最优参数下概率调整策略，更准确地调整在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，以得到更准确的调整后的M×N个目标输出概率。

基于此，在预设粒子群中每个预设粒子的粒子参数对应概率调整策略中预设参数集中预设参数基础上，先通过预设粒子群优化概率调整策略中预设参数集，得到目标最优粒子的目标最优参数；再通过目标最优参数下概率调整策略，调整在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，即可得到调整后的M×N个目标输出概率。因此，本申请提供了一种可能的实现方式，S302例如可以包括S3021-S3022（图中未示出）：

S3021：根据预设粒子群对概率调整策略中预设参数集进行优化，获得目标最优粒子的目标最优参数；预设粒子群中每个预设粒子的粒子参数对应预设参数集中预设参数。

其中，量子粒子群算法是一种基于量子计算思想的优化算法，它结合了粒子群算法和量子计算的优点，能够在解决复杂问题时取得更好的效果。粒子群算法是一种基于群体智能的优化算法，它通过模拟鸟群或鱼群等自然现象来寻找最优解；在粒子群算法中，每个粒子代表一个解，它们通过不断地迭代和更新自己的位置和速度来寻找最优解。而量子计算则是一种基于量子力学的计算方式，它利用量子比特的叠加和纠缠等特性来进行高效的计算。

概率调整策略可以为一个或多个，多个概率调整策略例如可以如下所示：

策略1：当某个目标游戏状态对应的对方阵营中游戏对象处于可以释放状态的打断技能，比我方阵营中游戏对象处于可以释放状态的打断技能优先级高时，该目标游戏状态对应的目标输出概率减β₁；β₁取值范围为0~0.5。

策略2：我方阵营中打断技能处于可以释放状态的游戏对象的对象数量为α₂个时，目标输出概率加β₂；α₂取值范围为0~M-1，β₂取值范围为0~0.5。

……

策略Q：当某个目标游戏状态对应的对方阵营中游戏对象的生命值的剩余比例为α_Q以下时，该目标游戏状态对应的目标输出概率加β_Q ；α_Q取值范围为0~1，β_Q取值范围为0~0.5。

其中，β₁、α₂、β₂、…、α_Q、β_Q为概率调整策略中预设参数形成预设参数集。

基于此，在S3021具体实现方式时，首先，需要通过预设参数集初始化预设粒子群，得到预设粒子群中多个预设粒子对应的多个粒子参数；其中，每个预设粒子的粒子参数对应预设参数集中预设参数，不同预设粒子的粒子参数不同。

然后，通过每个预设粒子的粒子参数下概率调整策略，调整在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，以便计算每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励；并记录每个预设粒子的粒子参数、以及预设粒子的粒子参数下目标奖励；以便通过每个预设粒子记录的多次粒子参数、以及多次粒子参数下多次目标奖励，确定每个预设粒子对应的局部最优粒子的局部最优参数、以及多个预设粒子对应的全局最优粒子的全局最优参数。

最后，通过每个预设粒子对应的局部最优参数和全局最优参数，更新每个预设粒子的粒子参数，返回上一段步骤直至符合迭代次数为最大迭代次数或全局最优粒子的全局最优参数符合最优取值范围等收敛条件，将符合收敛条件时全局最优粒子的全局最优参数确定为目标最优粒子的目标最优参数。因此，本申请提供了一种可能的实现方式，S3021例如可以包括S9-S14（图中未示出）：

S9：根据预设参数集对预设粒子群进行初始化，获得预设粒子群中多个预设粒子对应的多个粒子参数。

其中，在S9具体实现方式时，通过预设参数集初始化预设粒子群实际上是指：初始化预设粒子群中多个预设粒子的粒子数量和预设粒子群的最大迭代次数，重点是随机初始化每个预设粒子的参数维度为预设参数集中预设参数的参数数量，以及随机初始化每个预设粒子的粒子参数符合预设参数集中预设参数的取值范围，从而得到多个预设粒子对应的多个粒子参数。因此，本申请提供了一种可能的实现方式，S9包括S91-S92（图中未示出）：

S91：初始化预设粒子群中多个预设粒子的粒子数量和预设粒子群的最大迭代次数。

S92：根据预设参数集中预设参数的参数数量和取值范围，对每个预设粒子进行随机初始化，获得多个预设粒子对应的多个粒子参数。

上述S91-S92初始化预设粒子群中多个预设粒子的粒子数量为后续迭代和更新提供粒子，按照预设参数集中预设参数的参数数量和取值范围随机初始化每个预设粒子为后续迭代和更新提供初始解，初始化预设粒子群的最大迭代次数为后续迭代和更新提供收敛判定数据。

作为上述S91- S92的一种示例，预设粒子的粒子参数为preset particles，简称pp，预设参数集中预设参数的参数数量为20，初始化预设粒子群中多个预设粒子的粒子数量为100，以及初始化预设粒子群的最大迭代次数为100，则预设粒子群包括100个预设粒子，预设粒子群每更新100个预设粒子一次表示预设粒子群迭代1次，预设粒子群最大迭代100次。随机初始化每个预设粒子的参数维度为20，以及随机初始化每个预设粒子的pp符合预设参数集中预设参数的取值范围，从而得到100个预设粒子对应的100个pp。

S10：根据每个预设粒子的粒子参数下概率调整策略和M×N个目标输出概率，获得每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励。

其中，在S10具体实现方式时，在每个预设粒子的粒子参数下概率调整策略，用于调整在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率基础上；首先，通过每个预设粒子的粒子参数下概率调整策略，调整M×N个目标输出概率得到M×N个调整输出概率；然后，基于M×N个调整输出概率实现多次第一目标阵容对局第二目标阵容，得到每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的多次对局奖励；最后，每个预设粒子的粒子参数下多次对局奖励求平均，作为每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励。因此，本申请提供了一种可能的实现方式，S10包括S10a-S10c（图中未示出）：

S10a：根据每个预设粒子的粒子参数下概率调整策略，对M×N个目标输出概率进行调整，获得M×N个调整输出概率。

S10b：根据M×N个调整输出概率进行多次第一目标阵容对局第二目标阵容，获得每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的多次对局奖励。

S10c：对多次对局奖励进行均值计算，获得每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励。

上述S10a-S10c通过每个预设粒子的粒子参数下概率调整策略调整M×N个目标输出概率，进行多次第一目标阵容对局第二目标阵容，计算每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励，相当于计算每个预设粒子的粒子参数下优化函数，为后续迭代和更新以寻找最优解提供依据。

作为上述S10a-S10c的一种示例，在上述S302示例和上述S91-S92示例的基础上，通过100个预设粒子中每个预设粒子的pp下概率调整策略，调整P_ij得到M×N个调整输出概率为P＇_ij；基于P＇_ij实现100次第一目标阵容对局第二目标阵容，得到每个预设粒子的pp下第一目标阵容对局第二目标阵容的100次对局奖励；每个预设粒子的pp下100次对局奖励求平均，作为每个预设粒子的pp下第一目标阵容对局第二目标阵容的目标奖励。最终，得到100个预设粒子的pp下第一目标阵容对局第二目标阵容的100个目标奖励。

S11：记录每个预设粒子的粒子参数、以及预设粒子的粒子参数下目标奖励。

作为S11的一种示例，上述S10a-S10c示例的基础上，记录100个预设粒子中每个预设粒子的pp、以及该预设粒子的pp下目标奖励。

S12：根据每个预设粒子记录的多次粒子参数、以及多次粒子参数下多次目标奖励，确定每个预设粒子对应的局部最优粒子的局部最优参数、以及多个预设粒子对应的全局最优粒子的全局最优参数。

其中，在S12具体实现方式时，在每个预设粒子记录的多次粒子参数、以及多次粒子参数下多次目标奖励基础上，针对每个预设粒子，从该预设粒子记录的多次粒子参数下多次目标奖励中确定最大奖励，该最大奖励对应的该预设粒子记录的粒子参数，作为该预设粒子对应的局部最优粒子的局部最优参数。基于此，在确定多个预设粒子对应的多个局部最优粒子的多个局部最优参数之后，从多个预设粒子对应的多个局部最优粒子的局部最优参数下多次目标奖励中进一步确定最大奖励，该最大奖励对应的预设粒子记录的粒子参数，作为全局最优粒子的全局最优参数。因此，本申请提供了一种可能的实现方式，S12包括S12a-S12b（图中未示出）：

S12a：根据每个预设粒子记录的多次粒子参数、以及多次粒子参数下多次目标奖励中最大奖励，确定每个预设粒子对应的局部最优粒子的局部最优参数。

S12b：根据多个预设粒子对应的多个局部最优粒子的局部最优参数下多次目标奖励中最大奖励，确定全局最优粒子的全局最优参数。

上述S12a-S12b将每个预设粒子记录的多次粒子参数下多次目标奖励作为优化函数，通过最大化优化函数寻找每个预设粒子对应的局部最优粒子的局部最优参数，能够实现寻找每个预设粒子的局部最优解；通过多个预设粒子对应的多个局部最优粒子的局部最优参数下多次目标奖励，进一步最大化优化函数寻找全局最优粒子的全局最优参数，能够实现寻找多个预设粒子的全局最优解。

作为上述S12a-S12b的一种示例，在上述S11示例的基础上，针对每个预设粒子，从预设粒子记录的多次pp下多次目标奖励中确定最大奖励，该最大奖励对应的预设粒子记录的pp，作为预设粒子对应的局部最优粒子的局部最优参数，即，locally optimalparticle，简称lop。从100个预设粒子对应的100个局部最优粒子的lop下100次目标奖励中进一步确定最大奖励，该最大奖励对应的局部最优粒子的1op，作为全局最优粒子的全局最优参数，即，global optimal particle，简称gop。

S13：根据每个预设粒子对应的局部最优参数和全局最优参数，对每个预设粒子的粒子参数进行更新。

其中，在S13具体实现方式时，考虑到每个预设粒子的粒子参数通过每个预设粒子的最优状态参数进行更新，而每个预设粒子的最优状态参数是由每个预设粒子对应的局部最优参数和全局最优参数决定的；基于此，先通过每个预设粒子对应的局部最优参数和全局最优参数，可以计算每个预设粒子的最优状态参数；再通过每个预设粒子的最优状态参数，更新每个预设粒子的粒子参数。因此，本申请提供了一种可能的实现方式，S13包括S13a-S13b（图中未示出）：

S13a：根据每个预设粒子对应的局部最优参数和全局最优参数进行预设计算，获得每个预设粒子的最优状态参数。

S13b：根据每个预设粒子的最优状态参数，对每个预设粒子的粒子参数进行更新。

上述S13a-S13b先计算每个预设粒子的最优状态参数，能够明确每个预设粒子的最优状态，再以此更新每个预设粒子的粒子参数，能够更准确地更新每个预设粒子的粒子参数。

作为上述S13a-S13b的一种示例，在上述S12a-S12b示例的基础上，每个预设粒子的pp的更新公式如下所示：

/>

其中，lop为每个预设粒子对应的局部最优粒子的局部最优参数，gop为全局最优粒子的全局最优参数，osp为每个预设粒子的最优状态参数，r₁和r₂均为0~1之间的随机数；pp为每个预设粒子的粒子参数，g为超参数，一般设置为0.96，sign(·)为符号函数，r₃为-1~1之间的随机数，r₄为0~1之间的随机数。

S14：返回获得每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励，直至符合收敛条件，将符合收敛条件时全局最优粒子的全局最优参数确定为目标最优粒子的目标最优参数；收敛条件包括迭代次数为最大迭代次数，或，收敛条件包括全局最优粒子的全局最优参数符合最优取值范围。

其中，最优取值范围可是根据概率调整策略中预设参数的取值范围预先确定的。

上述S14通过收敛条件判定收敛，寻找符合收敛条件时全局最优粒子的全局最优参数作为目标最优粒子的目标最优参数，能够实现寻找多个预设粒子的最终最优解。

作为上述S14的一种示例，在上述S13a-S13b示例的基础上，返回S10a- S13b，直至预设粒子群的迭代次数为100次，或，全局最优粒子的gob符合最优取值范围，表示符合收敛条件；将符合收敛条件时全局最优粒子的gob作为目标最优粒子的目标最优参数。

参见图6，图6为本申请实施例提供的一种通过量子粒子群算法对概率调整策略中预设参数集进行优化得到目标最优参数的流程图；具体流程是指：基于概率调整策略中预设参数集初始化预设粒子群，得到预设粒子群中多个预设粒子对应的多个粒子参数；通过每个预设粒子的粒子参数下概率调整策略，以及第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态对应的M×N个目标输出概率，计算每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励；通过每个预设粒子记录的多次粒子参数、以及多次粒子参数下多次目标奖励，确定每个预设粒子对应的局部最优粒子的局部最优参数、以及多个预设粒子对应的全局最优粒子的全局最优参数；判断是否符合收敛条件，若否，通过每个预设粒子对应的局部最优参数和全局最优参数，更新每个预设粒子的粒子参数；返回计算每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励的步骤；若是，将符合收敛条件时全局最优粒子的全局最优参数确定为目标最优粒子的目标最优参数。

S3022：根据目标最优参数下概率调整策略，对M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率。

上述S3021-S3022通过预设粒子群优化概率调整策略中预设参数集，寻找目标最优粒子的目标最优参数；并通过目标最优参数下概率调整策略，调整在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率；考虑到概率调整策略中预设参数在其取值范围内是可调整的，能够再一步更准确地学习在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率对应的优化参数，以再一步更准确地调整预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，为后续再一步更准确地确定第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的输出策略提供数据。

上述实施例中，在S303具体实现方式时，由于预设概率是指第一目标阵容对局第二目标阵容具有优势的下限概率，为了进一步快速有效地确定第一目标阵容对局第二目标阵容在预设时间的输出策略，可以从调整后的M×N个目标输出概率中确定最大输出概率，若该最大输出概率大于或等于预设概率，表示最大输出概率对应的第一目标对象向第二目标对象输出技能具有最大优势；为了使得第一目标阵容对局第二目标阵容具有最大优势，则确定输出策略为最大输出概率对应的第一目标对象向第二目标对象输出技能。因此，本申请提供了一种可能的实现方式，S303例如可以包括S3030（图中未示出）：若大小关系表示调整后的M×N个目标输出概率中最大输出概率大于或等于预设概率，确定输出策略为最大输出概率对应的第一目标对象向第二目标对象输出技能。

上述S3030在预设概率是指第一目标阵容对局第二目标阵容具有优势的下限概率基础上，通过比较调整后的M×N个目标输出概率中最大输出概率与预设概率的大小，能够进一步快速有效地明确最大输出概率对应的第一目标对象向第二目标对象输出技能是否具有优势，从而能够进一步快速有效地确定第一目标阵容对局第二目标阵容在预设时间的输出策略。

作为上述S3030的一种示例，在上述S303示例的基础上，从调整后的P_ij中确定最大输出概率，若该最大输出概率大于或等于0.5，确定第一目标阵容对局第二目标阵容在预设时间的输出策略为：该最大输出概率对应的第一目标对象向第二目标对象输出技能。

此外，若该最大输出概率小于预设概率，表示任意第一目标对象向任意第二目标对象输出技能具有劣势，则确定输出策略为：任意第一目标对象无需输出技能。

综上所述，参见图7，图7为本申请实施例提供的一种应用第一目标阵容对局第二目标阵容在预设时间的输出策略的示意图；其中，第一目标阵容包括第一目标对象1、第一目标对象2、第一目标对象3和第一目标对象4，第二目标阵容包括第二目标对象1、第二目标对象2、第二目标对象3和第二目标对象4；在通过第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型得到输出概率模型的基础上，从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间4×4个目标游戏状态对应的4×4个目标输出概率，通过概率调整策略调整4×4个目标输出概率得到调整后的4×4个目标输出概率；通过调整后的4×4个目标输出概率中最大输出概率（拼接第一目标对象1和第二目标对象2的目标游戏状态对应的目标输出概率）大于预设概率，确定第一目标阵容对局第二目标阵容在预设时间的输出策略为：第一目标对象1和第二目标对象2释放技能，具体为第一目标对象1打断第二目标对象2的游戏技能。

需要说明的是，本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

基于图3对应实施例提供的数据处理方法，本申请实施例还提供一种数据处理装置，参见图8，图8为本申请实施例提供的一种数据处理装置的结构图，该数据处理装置800包括：获取单元801、调整单元802和确定单元803；

获取单元801，用于从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率；输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型获得的；多个预设游戏状态包括M×N个目标游戏状态，M×N个目标游戏状态对应预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，M为正整数，N为正整数；

调整单元802，用于对M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率；

确定单元803，用于根据调整后的M×N个目标输出概率与预设概率之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略。

在一种可能的实现方式中，装置还包括：第一预测单元；

第一预测单元，用于：

将遍历得到的多个已有游戏对象的多个对象游戏状态作为多个第一游戏状态；将遍历得到的多个第一游戏状态作为多个第二游戏状态；

对多个第一游戏状态和多个第二游戏状态进行拼接，获得多个预设游戏状态；一个预设游戏状态包括一个第一游戏状态和一个第二游戏状态；

根据输出概率模型对多个预设游戏状态对应的多个输出概率进行预测，获得多个预设输出概率。

在一种可能的实现方式中，装置还包括：第二预测单元；

第二预测单元，用于：

获取第一目标阵容的多个对象游戏状态和第二目标阵容的多个对象游戏状态；

对第一目标阵容的多个对象游戏状态和第二目标阵容的多个对象游戏状态进行拼接，获得多个预设游戏状态；一个预设游戏状态包括第一目标阵容的一个对象游戏状态和第二目标阵容的一个对象游戏状态；

在一种可能的实现方式中，装置还包括：训练单元；

训练单元，用于：

通过强化学习模型对多个样本游戏状态对应的多个输出概率进行预测，获得多个预测输出概率；

根据多个预测输出概率和多个样本游戏状态对应的多个正负奖励，对强化学习模型的模型参数进行调整，获得输出概率模型。

在一种可能的实现方式中，调整单元802，用于：

根据预设粒子群对概率调整策略中预设参数集进行优化，获得目标最优粒子的目标最优参数；预设粒子群中每个预设粒子的粒子参数对应预设参数集中预设参数；

根据目标最优参数下概率调整策略，对M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率。

在一种可能的实现方式中，调整单元802，用于：

根据预设参数集对预设粒子群进行初始化，获得预设粒子群中多个预设粒子对应的多个粒子参数；

根据每个预设粒子的粒子参数下概率调整策略和M×N个目标输出概率，获得每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励；

记录每个预设粒子的粒子参数、以及预设粒子的粒子参数下目标奖励；

根据每个预设粒子记录的多次粒子参数、以及多次粒子参数下多次目标奖励，确定每个预设粒子对应的局部最优粒子的局部最优参数、以及多个预设粒子对应的全局最优粒子的全局最优参数；

根据每个预设粒子对应的局部最优参数和全局最优参数，对每个预设粒子的粒子参数进行更新；

返回获得每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励，直至符合收敛条件，将符合收敛条件时全局最优粒子的全局最优参数确定为目标最优粒子的目标最优参数；收敛条件包括迭代次数为最大迭代次数，或，收敛条件包括全局最优粒子的全局最优参数符合最优取值范围。

在一种可能的实现方式中，调整单元802，用于：

初始化预设粒子群中多个预设粒子的粒子数量和预设粒子群的最大迭代次数；

根据预设参数集中预设参数的参数数量和取值范围，对每个预设粒子进行随机初始化，获得多个预设粒子对应的多个粒子参数。

在一种可能的实现方式中，调整单元802，用于：

根据每个预设粒子的粒子参数下概率调整策略，对M×N个目标输出概率进行调整，获得M×N个调整输出概率；

根据M×N个调整输出概率进行多次第一目标阵容对局第二目标阵容，获得每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的多次对局奖励；

对多次对局奖励进行均值计算，获得每个预设粒子的粒子参数下第一目标阵容对局第二目标阵容的目标奖励。

在一种可能的实现方式中，调整单元802，用于：

根据每个预设粒子记录的多次粒子参数、以及多次粒子参数下多次目标奖励中最大奖励，确定每个预设粒子对应的局部最优粒子的局部最优参数；

根据多个预设粒子对应的多个局部最优粒子的局部最优参数下多次目标奖励中最大奖励，确定全局最优粒子的全局最优参数。

在一种可能的实现方式中，调整单元802，用于：

根据每个预设粒子对应的局部最优参数和全局最优参数进行预设计算，获得每个预设粒子的最优状态参数；

根据每个预设粒子的最优状态参数，对每个预设粒子的粒子参数进行更新。

在一种可能的实现方式中，确定单元803，用于：

若大小关系表示调整后的M×N个目标输出概率中最大输出概率大于或等于预设概率，确定输出策略为最大输出概率对应的第一目标对象向第二目标对象输出技能。

由上述技术方案可以看出，数据处理装置包括获取单元、调整单元和确定单元。获取单元在通过第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型得到输出概率模型的基础上；从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率，其中，多个预设游戏状态包括M×N个目标游戏状态，该M×N个目标游戏状态对应预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，M为正整数，N为正整数；在通过训练强化学习模型得到的输出概率模型，预测出多个预设游戏状态下奖励较高的多个预设输出概率的基础上，能够快速有效地匹配到第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率。

调整单元和确定单元先调整M×N个目标输出概率得到调整后的M×N个目标输出概率；再通过调整后的M×N个目标输出概率与预设概率之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略；该方式进一步调整在预设时间M×N个目标游戏状态下奖励较高的M×N个目标输出概率，以得到更准确的调整后的M×N个目标输出概率，与预设概率进行大小比较，以更准确地确定第一目标阵容对局第二目标阵容在预设时间M×N个目标游戏状态下奖励较高的输出策略。基于此，该装置能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率，以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略，从而智能化地进行阵容对局，提升智能对局效果。

本申请实施例还提供了一种计算机设备，该计算机设备可以是服务器，参见图9，图9为本申请实施例提供的一种服务器的结构图，服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器，例如CPU922，以及存储器932，一个或一个以上存储应用程序942或数据944的存储介质930（例如一个或一个以上海量存储设备）。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作***941，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM等等。

在本实施例中，由服务器900中的中央处理器922可以执行上述实施例各种可选实现方式中提供的方法。

本申请实施例提供的计算机设备还可以是终端，参见图10，图10为本申请实施例提供的一种终端的结构图。以终端为智能手机为例，智能手机包括：射频（RadioFrequency，RF）电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真（Wireless Fidelity，WiFi）模块1070、处理器1080、以及电源10120等部件。输入单元1030可包括触控面板1031以及其他输入设备1032，显示单元1040可包括显示面板1041，音频电路1060可以包括扬声器1061和传声器1062。本领域技术人员可以理解，图10中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据智能手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1080是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行智能手机的各种功能和处理数据。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

在本实施例中，智能手机中的处理器1080可以执行上述实施例各种可选实现方式中提供的方法。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行上述实施例各种可选实现方式中提供的方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

本申请的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率；所述目标游戏状态为在预设时间的目标对象的生命值、技能属性和技能状态，所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励，训练强化学习模型获得的；所述多个预设游戏状态包括所述M×N个目标游戏状态，所述M×N个目标游戏状态对应所述预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及所述预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，M为正整数，N为正整数；

根据概率调整策略对所述M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率；

根据所述调整后的M×N个目标输出概率与预设概率之间的大小关系，确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略，所述预设概率是指第一目标阵容对局第二目标阵容具有优势的下限概率。

2.根据权利要求1所述的方法，其特征在于，所述多个预设游戏状态对应的多个预设输出概率的预测步骤，包括：

将遍历得到的多个已有游戏对象的多个对象游戏状态作为多个第一游戏状态；将遍历得到的所述多个第一游戏状态作为多个第二游戏状态；

对所述多个第一游戏状态和所述多个第二游戏状态进行拼接，获得所述多个预设游戏状态；一个预设游戏状态包括一个第一游戏状态和一个第二游戏状态；

根据所述输出概率模型对所述多个预设游戏状态对应的多个输出概率进行预测，获得所述多个预设输出概率。

3.根据权利要求1所述的方法，其特征在于，所述多个预设游戏状态对应的多个预设输出概率的预测步骤，包括：

获取所述第一目标阵容的多个对象游戏状态和所述第二目标阵容的多个对象游戏状态；

对所述第一目标阵容的多个对象游戏状态和所述第二目标阵容的多个对象游戏状态进行拼接，获得所述多个预设游戏状态；一个预设游戏状态包括所述第一目标阵容的一个对象游戏状态和所述第二目标阵容的一个对象游戏状态；

4.根据权利要求1所述的方法，其特征在于，所述输出概率模型的训练步骤，包括：

通过所述强化学习模型对所述多个样本游戏状态对应的多个输出概率进行预测，获得多个预测输出概率；

根据所述多个预测输出概率和所述多个样本游戏状态对应的多个正负奖励，对所述强化学习模型的模型参数进行调整，获得输出概率模型。

5.根据权利要求1所述的方法，其特征在于，所述根据概率调整策略对所述M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率，包括：

根据预设粒子群对概率调整策略中预设参数集进行优化，获得目标最优粒子的目标最优参数；所述预设粒子群中每个预设粒子的粒子参数对应所述预设参数集中预设参数；

根据所述目标最优参数下概率调整策略，对所述M×N个目标输出概率进行调整，获得所述调整后的M×N个目标输出概率。

6.根据权利要求5所述的方法，其特征在于，所述根据预设粒子群对概率调整策略中预设参数集进行优化，获得目标最优粒子的目标最优参数，包括：

根据所述预设参数集对所述预设粒子群进行初始化，获得所述预设粒子群中多个预设粒子对应的多个粒子参数；

根据每个预设粒子的粒子参数下概率调整策略和所述M×N个目标输出概率，获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的目标奖励；

记录所述每个预设粒子的粒子参数、以及所述预设粒子的粒子参数下目标奖励；

根据所述每个预设粒子记录的多次粒子参数、以及所述多次粒子参数下多次目标奖励，确定所述每个预设粒子对应的局部最优粒子的局部最优参数、以及所述多个预设粒子对应的全局最优粒子的全局最优参数；

根据所述每个预设粒子对应的局部最优参数和所述全局最优参数，对所述每个预设粒子的粒子参数进行更新；

返回获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的目标奖励，直至符合收敛条件，将符合所述收敛条件时全局最优粒子的全局最优参数确定为所述目标最优粒子的目标最优参数；所述收敛条件包括迭代次数为最大迭代次数，或，所述收敛条件包括所述全局最优粒子的全局最优参数符合最优取值范围。

7.根据权利要求6所述的方法，其特征在于，所述根据所述预设参数集对所述预设粒子群进行初始化，获得所述预设粒子群中多个预设粒子对应的多个粒子参数，包括：

初始化所述预设粒子群中多个预设粒子的粒子数量和所述预设粒子群的所述最大迭代次数；

根据所述预设参数集中预设参数的参数数量和取值范围，对所述每个预设粒子进行随机初始化，获得所述多个预设粒子对应的多个粒子参数。

8.根据权利要求6所述的方法，其特征在于，所述根据每个预设粒子的粒子参数下概率调整策略和所述M×N个目标输出概率，获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的目标奖励，包括：

根据所述每个预设粒子的粒子参数下概率调整策略，对所述M×N个目标输出概率进行调整，获得M×N个调整输出概率；

根据所述M×N个调整输出概率进行多次所述第一目标阵容对局所述第二目标阵容，获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的多次对局奖励；

对所述多次对局奖励进行均值计算，获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的目标奖励。

9.根据权利要求6所述的方法，其特征在于，所述根据所述每个预设粒子记录的多次粒子参数、以及所述多次粒子参数下多次目标奖励，确定所述每个预设粒子对应的局部最优粒子的局部最优参数、以及所述多个预设粒子对应的全局最优粒子的全局最优参数，包括：

根据所述每个预设粒子记录的多次粒子参数、以及所述多次粒子参数下多次目标奖励中最大奖励，确定所述每个预设粒子对应的局部最优粒子的局部最优参数；

根据所述多个预设粒子对应的多个局部最优粒子的局部最优参数下多次目标奖励中最大奖励，确定所述全局最优粒子的全局最优参数。

10.根据权利要求6所述的方法，其特征在于，所述根据所述每个预设粒子对应的局部最优参数和所述全局最优参数，对所述每个预设粒子的粒子参数进行更新，包括：

根据所述每个预设粒子对应的局部最优参数和所述全局最优参数进行预设计算，获得所述每个预设粒子的最优状态参数；

根据每个预设粒子的最优状态参数，对所述每个预设粒子的粒子参数进行更新。

11.根据权利要求1所述的方法，其特征在于，所述根据所述调整后的M×N个目标输出概率与预设概率之间的大小关系，确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略，包括：

若所述大小关系表示所述调整后的M×N个目标输出概率中最大输出概率大于或等于所述预设概率，确定所述输出策略为所述最大输出概率对应的第一目标对象向第二目标对象输出技能。

12.一种数据处理装置，其特征在于，所述装置包括：获取单元、调整单元和确定单元；

所述获取单元，用于从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率；所述目标游戏状态为在预设时间的目标对象的生命值、技能属性和技能状态，所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励，训练强化学习模型获得的；所述多个预设游戏状态包括所述M×N个目标游戏状态，所述M×N个目标游戏状态对应所述预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及所述预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态，M为正整数，N为正整数；

所述调整单元，用于根据概率调整策略对所述M×N个目标输出概率进行调整，获得调整后的M×N个目标输出概率；

所述确定单元，用于根据所述调整后的M×N个目标输出概率与预设概率之间的大小关系，确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略，所述预设概率是指第一目标阵容对局第二目标阵容具有优势的下限概率。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括第一预测单元；

所述第一预测单元，用于：

14.根据权利要求12所述的装置，其特征在于，所述装置还包括第二预测单元；

所述第二预测单元，用于：

15.根据权利要求12所述的装置，其特征在于，所述装置还包括训练单元；

所述训练单元，用于：

16.根据权利要求12所述的装置，其特征在于，所述调整单元，用于：

17.根据权利要求16所述的装置，其特征在于，所述调整单元，用于：

18.根据权利要求17所述的装置，其特征在于，所述调整单元，用于：

19.根据权利要求17所述的装置，其特征在于，所述调整单元，用于：

20.根据权利要求17所述的装置，其特征在于，所述调整单元，用于：

21.根据权利要求17所述的装置，其特征在于，所述调整单元，用于：

22.根据权利要求12所述的装置，其特征在于，所述确定单元，用于：

23.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序中的指令执行权利要求1-11任一项所述的方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行权利要求1-11任一项所述的方法。