CN106445701B

CN106445701B - 数据处理方法和装置

Info

Publication number: CN106445701B
Application number: CN201610838804.8A
Authority: CN
Inventors: 李英杰; 万乐; 邓大付; 殷俊; 程序; 杜家春
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2018-01-09
Anticipated expiration: 2036-09-21
Also published as: EP3518105B1; US11135514B2; CN106445701A; US20190118085A1; WO2018054330A1; EP3518105A4; EP3518105A1

Abstract

本发明公开了一种数据处理方法和装置。该方法包括：获取游戏应用客户端执行事件的样本数据；对样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，所述目标事件对象为在所述游戏应用客户端上待同时执行的事件对象；按照预设处理算法对每层数据组合执行处理，得到每层数据组合的处理结果；对每层数据组合的处理结果进行整合处理，得到目标指令。本发明解决了相关技术的数据处理效率低的技术问题。

Description

数据处理方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据处理方法和装置。

背景技术

目前，对回合制事件的数据处理规则相对简单，用于对事件执行的对象对事件拥有全局事件信息，并且轮流行动，对事件有较长的决策时间，事件行为立刻实行，通过反馈确定，例如，回合制事件为回合制游戏，其规则相对简单，游戏玩家拥有全局信息，轮流行动，有较长的决策时间，行为可以立刻实行，也可以反馈确定，例如，围棋。

而对实时事件的数据处理规则复杂，用于对事件执行的对象只有部分事件信息，同时行动，对事件的决策时间较短，事件行为需要时间执行并且具有一定的成功概率，因此，对实时事件的数据处理与对回合制事件的数据处理存在差异。

在回合制事件中，围棋智能程序阿尔法狗(AlphaGo)是利用深度学***围棋走子的算法。图1是根据相关技术中的一种AlphaGo算法的决策网络和价值网络的结构示意图。如图1所示，AlphaGo算法采用深度学习训练策略网络和价值网络。人类专家侧(Human expert positions)通过分类(Classification)推出策略(Rollout Policy)，将人类专家侧的策略网络(SL Network)通过策略算法(Policy Gradient)传输至人工智能侧(Self-play Positions)。在人工智能侧，通过人工智能侧的策略网络(RL Network)和价值网络(Value Network)进行训练，得到数据(Data)，其中，人类专家一侧的策略网络和人工智能侧的策略网络为策略网络(PolicyNetwork)，策略网络和价值网络通过一定的算法公式进行训练，通过蒙地卡洛树搜索(Monte Carlo Tree Search，简称为MCTS)算法进行实现。

图2是根据相关技术中的一种蒙地卡洛树搜索算法的示意图。如图2所示，通过策略网络选择落子概率、对落子样本进行扩展、通过价值网络评估当前走子收益、反馈当前走子收益的结果，通过蒙地卡洛树搜索算法对策略网络选择的落子概率和价值网络评估的当前走子的收益进行整合仿真，并最终根据当前盘面选择最佳落子位置。

实时事件的数据处理复杂度远高于上述回合制事件的数据处理复杂度，由于回合制事件的数据处理和实时事件的数据处理存在较多的差异，使得AlphaGo的算法的两层网络的结合方式无法满足实时事件宏观决策需求满足，更无法满足微观操作层次，无法满足实时事件智能***的需要，数据处理效率低。

针对上述的数据处理效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法和装置，以至少解决相关技术的数据处理效率低的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法。该数据处理方法包括：获取游戏应用客户端执行事件的样本数据；对样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象；按照预设处理算法对每层数据组合执行处理，得到每层数据组合的处理结果；对每层数据组合的处理结果进行整合处理，得到目标指令，其中，目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象。

根据本发明实施例的另一方面，还提供了一种数据处理装置。该数据处理装置包括：第一获取单元，用于获取游戏应用客户端执行事件的样本数据；第一处理单元，用于对样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，目标事件对象为在游戏应用客户端上待同时执行的事件对象；第二处理单元，用于按照预设处理算法对每层数据组合执行处理，得到每层数据组合的处理结果；第三处理单元，用于对每层数据组合的处理结果进行整合处理，得到目标指令，其中，目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象。

在本发明实施例中，通过获取游戏应用客户端执行事件的样本数据；对样本数据执行预处理，得到多层数据组合，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，目标事件对象为在游戏应用客户端上待同时执行的事件对象；按照预设处理算法对每层数据组合执行处理，得到每层数据组合的处理结果；对每层数据组合的处理结果进行整合处理，得到目标指令，达到了对多层数据组合中的每层数据组合的处理结果进行整合处理，得到目标指令的目的，从而实现了提高数据处理效率的技术效果，进而解决了相关技术的数据处理效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据相关技术中的一种AlphaGo算法的决策网络和价值网络的结构示意图；

图2是根据相关技术中的一种蒙地卡洛树搜索算法的示意图；

图3是根据本发明实施例的一种数据处理方法的硬件环境的示意图；

图4是根据本发明实施例的一种数据处理方法的流程图；

图5是根据本发明实施例的一种根据样本数据的多个样本序列对样本数据进行标记的方法的流程图；

图6是根据本发明实施例的一种对标记样本数据执行预处理的方法的流程图；

图7是根据本发明实施例的另一种数据处理方法的流程图；

图8是根据本发明实施例的另一种数据处理方法的流程图；

图9是根据本发明实施例的一种按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理的方法的流程图；

图10是根据本发明实施例的另一种数据处理方法的流程图；

图11是根据本发明实施例的另一种数据处理方法的流程图；

图12是根据本发明实施例的一种游戏过程中的交互过程的示意图；

图13是根据本发明实施例的另一种根据样本数据的多个样本序列对样本数据进行标记的方法的流程图；

图14是根据本发明实施例的另一种数据处理方法的流程图；

图15是根据本发明实施例的一种游戏交互的方法的流程示意图；

图16是根据本发明实施例的一种数据处理装置的示意图；

图17是根据本发明实施例的另一种数据处理装置的示意图；

图18是根据本发明实施例的另一种数据处理装置的示意图；

图19是根据本发明实施例的另一种数据处理装置的示意图；

图20是根据本发明实施例的另一种数据处理装置的示意图；

图21是根据本发明实施例的另一种数据处理装置的示意图；

图22是根据本发明实施例的另一种数据处理装置的示意图；

图23是根据本发明实施例的另一种数据处理装置的示意图；以及

图24是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种数据处理方法的实施例。

可选地，在本实施例中，上述数据处理方法可以应用于如图3所示的由服务器302和终端304所构成的硬件环境中。图3是根据本发明实施例的一种数据处理方法的硬件环境的示意图。如图3所示，服务器302通过网络与终端304进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端304并不限定于PC、手机、平板电脑等。本发明实施例的数据处理方法可以由服务器302来执行，也可以由终端304来执行，还可以是由服务器302和终端304共同执行。其中，终端304执行本发明实施例的数据处理方法也可以是由安装在其上的客户端来执行。

图4是根据本发明实施例的一种数据处理方法的流程图。如图4所示，该数据处理方法可以包括以下步骤：

步骤S402，获取游戏应用客户端执行事件的样本数据。

在本申请上述步骤S402提供的技术方案中，获取游戏应用客户端执行事件的样本数据。

游戏应用客户端用于执行事件，比如，执行实时游戏中的人机对战模式中的事件，该实时游戏区别于回合制游戏。获取游戏应用客户端执行事件的样本数据，该样本数据也即输入样本，可以为游戏样本，该游戏样本包括多个样本序列，多个样本序列具有不同的优先级，不同的样本序列可以包括相同数据帧。

步骤S404，对样本数据执行预处理，得到多层数据组合。

在本申请上述步骤S404提供的技术方案中，对样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，目标事件对象为在游戏应用客户端上待同时执行的事件对象。

由于游戏数据的设计维度众多，无法直接用作训练数据，在获取游戏应用客户端执行事件的样本数据之后，获取样本数据的多个样本序列，根据多个样本序列对样本数据进行标记，得到标记样本数据，可以通过预设标记逻辑对样本数据进行标记。可选地，根据输入样本的一个特征序列，根据预设的逻辑配置标记整个样本，进而得到标记样本数据。

由于规则复杂，会出现多个样本序列包括相同数据帧的情况，也即，同一数据帧属于多个样本序列的情况，可以根据事件的特性分出多个样本序列的优先级。按照样本序列的优先级顺序标记不同的样本序列，可以使用预设规则或者预设样本分割算法对样本序列进行标记，得到标记帧。遍历所有的标记帧，将相邻相同的标记帧标记为一个样本序列，标记各样本序列的起始帧和结束帧，得到标记样本序数据。

在根据样本数据的多个样本序列对样本数据进行标记，得到标记样本数据之后，对标记样本数据执行预处理。可以使用通用的状态函数在标记样本数据中提取当前盘面的状态信息，将状态信息组装成多层数据组合。目标事件对象为在游戏应用客户端上待同时执行的事件对象，比如，存储本方角色状态、友方角色状态、敌方伤害力、地图信息和非玩家控制角色(Non Player Controlled Character，简称为NPC)信息等。

多层数据组合中的每层数据组合与同一目标事件中的目标事件对象具有一一对应关系，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，比如，本方角色状态作为第一层，友方角色状态按照实力排名放在第二层至第五层，敌方按照伤害力排名放在第六层至第十层，最外层为地图信息和NPC信息，其它数据组装原则也适用。将每层数据组合中的样本数据的状态信息，每个角色数据根据游戏规则状态映射至某一个合法的动作空间中，获得事件数据。将每层数据组合中的状态信息，每个角色数据、每个事件数据组成每层数据组合中的样本信息。对对样本数据执行旋转处理以扩展样本数据对应的样本数量，其它用户信息也可以加入样本信息中，比如，将之行事件的失误率、操作频次加入样本信息中，从而便于训练，实现了对标记样本数据执行预处理，得到多层数据组合的目的。

步骤S406，按照预设处理算法对每层数据组合执行处理，得到每层数据组合的处理结果。

在本申请上述步骤S406提供的技术方案中，按照预设处理算法对每层数据组合执行处理，得到每层数据组合的处理结果。

多层数据组合中的每层数据组合具有对应的处理算法，在每层数据组合中，按照样本信息学习当前状态信息下的事件执行概率的概率模型和事件的执行价值的价值模型，具体算法可以为AlphaGo整合策略网络和价值网络的蒙特卡洛树搜索算法，蒙特卡洛树搜索算法是一种用于决策的启发式搜索算法，通过扩展搜索树和仿真来选择受益最大的行为从而做出最优决策，得到每层数据组合的处理结果。

步骤S408，对每层数据组合的处理结果进行整合处理，得到目标指令。

在本申请上述步骤S408提供的技术方案中，对每层数据组合的处理结果进行整合处理，得到目标指令，其中，目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象。

在按照与对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果之后，对每层数据组合的处理结果进行加权整合，得到目标指令，该目标指令也即最终策略，用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象。该目标指令可以加入状态评估函数，以确定当前盘面下是否需要改变目标指令，从而满足多变的事件执行环境。

通过上述步骤S402至步骤S408，通过获取游戏应用客户端执行事件的样本数据；对样本数据执行预处理，得到多层数据组合，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，目标事件对象为在游戏应用客户端上待同时执行的事件对象；按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果；对每层数据组合的处理结果进行整合处理，得到目标指令，其中，目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象，可以解决相关技术的数据处理效率低的技术问题，进而达到提高数据处理效率的技术效果。

作为一种可选的实施方式，步骤S404，对样本数据执行预处理，得到多层数据组合包括：根据样本数据的多个样本序列对样本数据进行标记，得到标记样本数据；对标记样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的不同层数据组合对应不同的处理算法和不同的样本信息。这样多层数据组合各自使用不同的算法，可以在决策时长和仿真深度上做折衷，以满足多变的游戏场景，可以应对不同决策时长的要求，决策执行使用简单高效，可以保证行为的快速执行。

步骤S406，按照预设处理算法对每层数据组合执行处理，得到每层数据组合的处理结果包括：按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果。

作为一种可选的实施方式，在步骤S404中，根据样本数据的多个样本序列对样本数据进行标记，得到标记样本数据包括：按照多个样本序列中每个样本序列的优先级依次通过标记帧对每个样本序列进行标记，得到多个标记样本序列，再将多个标记样本序列中相邻的标记样本序列按照相同的标记帧进行合并得到的合并标记样本序列中的起始帧和结束帧进行标记，得到标记样本数据。

图5是根据本发明实施例的一种根据样本数据的多个样本序列对样本数据进行标记的方法的流程图。如图5所示，该根据样本数据的多个样本序列对样本数据进行标记的方法包括以下步骤：

步骤S501，确定多个样本序列中每个样本序列的优先级。

在本申请上述步骤S501提供的技术方案中，确定多个样本序列中每个样本序列的优先级。样本数据包括多个样本序列，多个样本序列中每个样本序列具有优先级，由于事件执行规则复杂，会出现同一数据帧属于多个样本序列的情况，在获取游戏应用客户端执行事件的样本数据之后，确定多个样本序列中每个样本序列的优先级，进而根据每个样本序列的优先级得出多个样本序列的排列顺序。

步骤S502，按照优先级依次通过标记帧对每个样本序列进行标记，得到多个标记样本序列。

在本申请上述步骤S502提供的技术方案中，按照优先级依次通过标记帧对每个样本序列进行标记，得到多个标记样本序列。在确定多个样本序列中每个样本序列的优先级之后，按照多个样本序列的排列顺序通过标记帧标记不同的样本序列。可选地，通过预设规则或者预设样本分割算法来通过标记帧按照多个样本序列的排列顺序标记不同的样本序列，得到多个标记样本序列。

步骤S503，将多个标记样本序列中相邻的标记样本序列按照相同的标记帧进行合并，得到合并标记样本序列。

在本申请上述步骤S503提供的技术方案中，将多个标记样本序列中相邻的标记样本序列按照相同的标记帧进行合并，得到合并标记样本序列。

遍历多个标记样本序列的标记帧。将相邻相同标记帧的样本序列标记为同一个序列，得到合并标记样本序列。

步骤S504，对合并标记样本序列的起始帧和结束帧进行标记，得到标记样本数据。

在本申请上述步骤S504提供的技术方案中，对合并标记样本序列的起始帧和结束帧进行标记，得到标记样本数据。

在将多个标记样本序列中相邻的标记样本序列按照相同的标记帧进行合并，得到合并标记样本序列之后，标记各合并标记样本序列的起始帧和结束帧，得到标记样本数据。

该实施例通过确定多个样本序列中每个样本序列的优先级；按照优先级依次通过标记帧对每个样本序列进行标记，得到多个标记样本序列；将多个标记样本序列中相邻的标记样本序列按照相同的标记帧进行合并，得到合并标记样本序列；对合并标记样本序列的起始帧和结束帧进行标记，得到标记样本数据，实现了根据样本数据的多个样本序列对样本数据进行标记，得到标记样本数据的目的。

作为一种可选的实施方式，在步骤S404中，对标记样本数据执行预处理，得到多层数据组合包括：对游戏应用客户端执行当前事件对象的不同的状态信息执行组装，得到多层数据组合。

图6是根据本发明实施例的一种对标记样本数据执行预处理的方法的流程图。如图6所示，该对标记样本数据执行预处理的方法包括以下步骤：

步骤S601，通过预设状态函数在标记样本数据中提取游戏应用客户端执行当前事件对象的不同的状态信息。

在本申请上述步骤S601提供的技术方案中，通过预设状态函数在标记样本数据中提取游戏应用客户端执行当前事件对象的不同的状态信息。

在根据样本数据的多个样本序列对样本数据进行标记，得到标记样本数据之后，通过通用的状态函数在标记样本数据中提取当前盘面的不同的状态信息，该不同的状态信息可以为游戏应用客户端在实时游戏过程中的本方角色状态、友方角色状态、敌方角色状态等状态信息，当前事件对象为游戏应用客户端当前执行的事件对象。

步骤S602，对不同的状态信息执行组装，得到多层数据组合。

在本申请上述步骤S602提供的技术方案中，对不同的状态信息执行组装，得到多层数据组合。

在通过预设状态函数在标记样本数据中提取游戏应用客户端执行当前事件对象的不同的状态信息之后，将不同的状态信息执行组装，比如，将本方角色状态、友方角色状态、敌方角色状态等状态信息执行组装，得到多层数据组合，该多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，目标事件对象为在游戏应用客户端上待同时执行的事件对象，比如，在一个双方各五人的实时游戏中，本方角色状态作为第一层，友方角色状态按照实力排名放在第二层至第五层，敌方角色状态按照伤害力排名放在第六层至第十层，最外层为地图信息和NPC信息，其它的数据组装方法也可以适用。

该实施例通过预设状态函数在标记样本数据中提取游戏应用客户端执行当前事件对象的不同的状态信息，当前事件对象为游戏应用客户端当前执行的事件对象；对不同的状态信息执行组装，得到多层数据组合，实现了对标记样本数据执行预处理，得到多层数据组合的目的，进而提高了数据处理效率。

作为一种可选的实施方式，在按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果之前，将状态信息、游戏应用客户端上的角色数据和目标事件的事件数据生成样本信息。

图7是根据本发明实施例的另一种数据处理方法的流程图。如图7所示，该数据处理方法包括以下步骤：

步骤S701，获取游戏应用客户端上的角色数据。

在本申请上述步骤S701提供的技术方案中，获取游戏应用客户端上的角色数据。

游戏应用客户端在执行目标事件时，具有角色数据，该角色数据用于表示执行目标事件的虚拟应用主体的数据。该角色数据包括多个角色数据，每个角色数据对应一个虚拟应用主体的数据，获取游戏应用客户端上的每个角色数据。

步骤S702，将状态信息和角色数据按照预设映射系映射至预设处理模型，得到目标事件的事件数据。

在本申请上述步骤S702提供的技术方案中，状态信息和角色数据可以通过游戏规则状态映射到合法的动作空间中，该动作空间中具有和状态信息、角色数据相对应的目标事件的事件数据，可以为动作数据，从而通过状态信息和角色数据以及合法的动作空间得到目标事件的事件数据。

步骤S703，根据状态信息、角色数据和事件数据生成样本信息。

在本申请上述步骤S703提供的技术方案中，根据状态信息、角色数据和事件数据生成样本信息。

在将状态信息和角色数据按照预设映射系映射至预设处理模型，得到目标事件的事件数据之后，根据状态信息、角色数据和事件数据生成样本信息，该样本信息为帧信息。每个事件数据对应一个样本信息。比如，将状态信息、角色数据和事件数据以<S，u，a>表示，其中，S为状态信息、u为角色数据，a为事件数据。

该实施例通过在按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果之前，获取游戏应用客户端上的角色数据；将状态信息和角色数据按照预设映射系映射至预设处理模型，得到目标事件的事件数据；根据状态信息、角色数据和事件数据生成样本信息，进而提高了数据处理的效率。

作为一种可选的实施方式，在根据状态信息、角色数据和事件数据生成样本信息之后，添加预设信息至样本数量的样本信息中。

图8是根据本发明实施例的另一种数据处理方法的流程图。如图8所示，该数据处理方法还包括以下步骤：

步骤S801，对样本数据执行旋转处理以扩展样本数据对应的样本数量。

在本申请上述步骤S801提供的技术方案中，在根据状态信息、角色数据和事件数据生成样本信息之后，对样本数据执行旋转处理以扩展样本数据对应的样本数量。

步骤S802，添加预设信息至样本数量的样本信息中。

在本申请上述步骤S802提供的技术方案中，添加预设信息至样本数量的样本信息中。

在对样本数据执行旋转处理以扩展样本数据对应的样本数量之后，添加预设信息至样本数量的样本信息中。该预设信息可以为其他用户的信息，比如，失误率，操作频次等信息，将失误率，操作频次等信息加入帧信息中，以便于训练个性化的策略。

作为一种可选的实施方式，在步骤S406中，按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果包括：按照与每层数据组合对应的预设概率模型、预设价值模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行概率和执行价值，并通过与每层数据组合对应的执行概率和与每层数据组合对应的执行价值得到目标指令。

图9是根据本发明实施例的一种按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理的方法的流程图。如图9所示，该方法包括以下步骤：

步骤S901，按照与每层数据组合对应的预设概率模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行概率。

在本申请上述步骤S901提供的技术方案中，每层数据组合对应预设概率模型，每层数据组合根据每层数据组合的样本信息学习当前状态下动作执行的预设概率模型，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行概率。

步骤S902，按照与每层数据组合对应的预设价值模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行价值。

在本申请上述步骤S902提供的技术方案中，每层数据组合对应预设价值模型，每层数据组合根据每层数据组合的样本信息学习当前状态下动作执行的预设价值模型，得到与每层数据组合对应的游戏应用客户端执行目标事件的价值概率。

步骤S903，对与每层数据组合对应的执行概率和与每层数据组合对应的执行价值进行整合处理，得到目标指令。

在本申请上述步骤S903提供的技术方案中输出最终策略，在策略进行中，加入状态评估函数，从而确定当前盘面下是否需要改变策略，应对多变的事件执行环境。

该实施例通过按照与每层数据组合对应的预设概率模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行概率；按照与每层数据组合对应的预设价值模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行价值，实现了按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果，对与每层数据组合对应的执行概率和与每层数据组合对应的执行价值进行整合处理，得到目标指令，提高了数据处理效率。

作为一种可选的实施方式，在对每层数据组合的处理结果进行整合处理，得到目标指令之后，在需要更新目标指令的情况下，对目标指令进行更新。

图10是根据本发明实施例的另一种数据处理方法的流程图。如图10所示，该数据处理方法包括以下步骤：

步骤S1001，根据预设状态评估函数判断是否需要更新目标指令。

在本申请上述步骤S1001提供的技术方案中，根据预设状态评估函数判断是否需要更新目标指令。

在获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令之后，根据目标指令执行目标事件，返回对应的盘面信息，根据预设状态评估函数判断是否需要更新目标指令，可以通过行为树(Behavior Tree)判断是否需要更新目标指令，该行为树为一种图形化的模型语言，在游戏中用来描述不同行为的执行条件和方式。

步骤S1002，如果判断出需要更新目标指令，对目标指令进行更新。

在本申请上述步骤S1002提供的技术方案中，如果判断出需要更新目标指令，对目标指令进行更新。

在根据预设状态评估函数判断是否需要更新目标指令之后，如果判断出需要更新目标指令，对目标指令进行更新，从而应对多变的事件处理环境。

该实施例通过在对每层数据组合的处理结果进行整合处理，得到目标指令之后，根据预设状态评估函数判断是否需要更新目标指令；如果判断出需要更新目标指令，对目标指令进行更新，提高了数据处理效率。

作为一种可选的实施方式，在对每层数据组合的处理结果进行整合处理，得到目标指令之后，根据目标指令执行不同的目标事件对象时的不同的目标状态信息更新每层数据组合的处理结果，得到每层数据组合的更新处理结果，通过对多层数据组合的更新处理结果进行整合处理，得到更新目标指令。

图11是根据本发明实施例的另一种数据处理方法的流程图。如图11所示，该数据处理方法包括以下步骤：

步骤S1101，获取在游戏应用客户端根据目标指令执行不同的目标事件对象时的不同的目标状态信息。

在本申请上述步骤S1101提供的技术方案中，在获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令之后，游戏应用客户端根据目标指令执行不同的目标事件对象，获取在游戏应用客户端根据目标指令执行不同的目标事件对象时的不同的目标状态信息。

步骤S1102，根据不同的目标状态信息更新每层数据组合的处理结果，得到每层数据组合的更新处理结果。

在本申请上述步骤S1102提供的技术方案中，获取在游戏应用客户端根据目标指令执行不同的目标事件对象时的不同的目标状态信息之后，根据不同的目标状态信息更新每层数据组合的处理结果，得到每层数据组合的更新处理结果。获取每层数据组合的更新处理结果，并对多层数据组合的更新处理结果进行整合处理，得到更新目标指令。

该实施例通过获取在游戏应用客户端根据目标指令执行不同的目标事件对象时的不同的目标状态信息；根据不同的目标状态信息更新每层数据组合的处理结果，得到每层数据组合的更新处理结果，提高了数据处理的效率。

实施例2

下面结合优选的实施例对本发明的技术方案进行说明。

该实施例应用于游戏智能***中。实时游戏一般都有复杂的游戏规则、多变的动态场景、行为达成不确定、信息不完全、决策时间短等特点。面对如此巨大的决策空间和决策的实时需求，如何制定、选择和执行策略是游戏智能***面对的最主要问题。在回合制游戏上，利用多个深度学***化数据能够被分散学习，进而降低了状态空间的纬度，并能各自使用不同算法。该实施例可以在决策时长和仿真深度上做折衷，以满足多变的游戏场景。

实时游戏的规则复杂，玩家只有部分信息，同时行动，决策时长较短，行为需要时间执行并且概率成功。

该实施例模拟人类玩家的决策过程，将整个智能***分为决策选择、决策实行、反馈调优三个模块，使得***能够应对实时游戏复杂多变的场景。在宏观层面，考虑了游戏玩家的决策深度问题，将根据自上而下的抽象层次不同，选取合适的数据样本和算法进行决策学习，从而降低运算的复杂度。在微观层面，决策的执行使用某些快速简单的算法执行，能够反馈结果，不需进行过多的决策考量。

该实施例可以应用在实时游戏的人机对战模式中，可以提供更加拟人化的人工智能角色，优化玩家的体验。

图12是根据本发明实施例的一种游戏过程中的交互过程的示意图。如图12所示，该实施例将策略选择和策略执行分离，决策层包括策略层1、策略层2至策略层n，具有较大的深度，能够模拟玩家游戏决策路径，策略执行关注执行效率，不作过多决策，通过反馈调优。

游戏数据设计纬度众多，无法直接用作训练数据，需要根据预定规则进行标记。主要方法是根据输入样本为的一个特征序列，根据预设的逻辑配置标记整个样本。图13是根据本发明实施例的另一种根据样本数据的多个样本序列对样本数据进行标记的方法的流程图。如图13所示，该根据样本数据的多个样本序列对样本数据进行标记的方法包括以下步骤：

步骤S1301，按照游戏特性分出样本序列的优先级，得到样本序列顺序。

因为游戏规则复杂，会出现同一帧属于多种序列的情况，所以第一步需要根据游戏特性分出样本序列的优先级。

步骤S1302，按照样本序列顺序标记不同序列。

按照样本序列顺序标记不同序列，方法可以使用预设规则或者某些样本分割算法。

步骤S1303，遍历所有标记帧。

遍历所有标记帧，标记为后向第一个已标记帧的序列。

步骤S1304，将相邻相同帧标记为同一个序列。

遍历所有帧，将相邻相同帧标记为同一个序列。

步骤S1305，标记各序列的起始结束帧。

标记各序列的起始帧和结束帧。

该实施例通过按照游戏特性分出样本序列的优先级，得到样本序列顺序，按照样本序列顺序标记不同序列，遍历所有标记帧，将相邻相同帧标记为同一个序列，标记各序列的起始结束帧，从而实现了根据样本数据的多个样本序列对样本数据进行标记的目的。

图14是根据本发明实施例的另一种数据处理方法的流程图。如图14所示，该对标记样本数据执行预处理方法包括以下步骤：

步骤S1401，通过通用状态函数在样本中提取当前盘面的状态信息。

通过通用状态函数在样本中提取当前盘面的状态信息，称为S状态。

步骤S1402，将状态信息组装成多层数据组合。

假设一个双方各5人的实时游戏，本方角色状态作为第一层，友方角色状态按照实力排名放在2-5层，敌方按伤害力排名放在6-10层，最外层为地图信息和NPC信息。其他数据组装原则也可使用。

步骤S1403，在每层数据组合将样本的状态信息，每个角色数据根据游戏规则状态映射到合法的动作空间中，从而获取事件数据。

步骤S1404，根据每个动作样本生成<S，u，a>，对样本进行旋转以扩充样本数量。

步骤S1405，添加预设信息至样本数量的样本信息中。

添加信息其他用户信息例如失误率，操作频次也可加入帧信息中，以便于训练个性化人工智能(Artificial Intelligence，简称为AI)。

在每个决策层根据样本的<S，u，a>信息，学习当前状态下动作执行概率模型和动作的价值模型，算法可以参照AlphaGo用蒙地卡洛树算法整合策略网络和价值网络。加权整合各个决策层的输出，得出最终策略。策略进行中可加入状态评估函数，以确定当前盘面下是否需要改变策略，应对多变的游戏环境。

在策略执行时，返回对应的盘面信息以共策略选择模块更新学习，算法可以使用行为树。

该实施例提出了一种多层的智能***架构，将智能***分成多个决策层的构建思路，模拟玩家在实际游戏中的多层抽象决策行为，将决策选择和决策执行分离，以应对实时游戏的需求。决策层应用多层深度学习框架，合理构建样本，进行样本策略序列的标记与处理，并且可以应对不同决策时长的要求。决策执行使用简单高效，可以保证行为的快速执行，提高了数据处理效率。整个***模拟玩家的思考过程，能够有效地提升A的能力，从而提升了游戏玩家的用户体验。

实施例3

本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境，本实施例中对此不再赘述。本发明实施例提供了用于实施上述数据处理方法的一种可选的具体应用。

本发明的技术方案可以应用在实时游戏的人机对战中，可以提供更加拟人化的人工智能角色，从而优化游戏玩家的体验。

图15是根据本发明实施例的一种游戏交互的方法的流程示意图。如图15所示，游戏客户端获取当前游戏的状态，将当前游戏的状态通过网络发送到策略选择服务器上。策略选择服务器为多个服务器，通过模型进行策略选择，选择最佳的动作并返回给游戏客户端，游戏客户端根据最佳的动作执行策略，并进行盘面信息、策略反馈。

该实施例模拟游戏玩家的决策过程，将整个智能***分为决策选择、决策实行、反馈调优三个模块，使得***能够应对实时游戏复杂多变的场景。在宏观层面，该实施例考虑了玩家决策深度问题，根据自上而下的抽象层次不同，选取合适的数据样本和算法进行决策学习，从而降低运算的复杂度。在微观层面，决策的执行使用某些快速简单的算法执行，能够反馈结果，不需进行过多的决策。实现了游戏交互方法将策略选择和策略执行分开，决策层具有较大的深度，能够模拟游戏玩家决策路径，执行层侧重于执行效率，不做过多决策，提高了数据处理效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例4

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置。图16是根据本发明实施例的一种数据处理装置的示意图。如图16所示，该数据处理装置可以包括：第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40。

第一获取单元10，用于获取游戏应用客户端执行事件的样本数据。

第一处理单元20，用于对样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，目标事件对象为在游戏应用客户端上待同时执行的事件对象。

第二处理单元30，用于按照预设处理算法对每层数据组合执行处理，得到每层数据组合的处理结果。

第三处理单元40，用于对每层数据组合的处理结果进行整合处理，得到目标指令，其中，目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象。

需要说明的是，该实施例中的第一获取单元10可以用于执行本申请实施例1中的步骤S402，该实施例中的第一处理单元20可以用于执行本申请实施例1中的步骤S404，该实施例中的第二处理单元30可以用于执行本申请实施例1中的步骤S406，该实施例中的第三处理单元40可以用于执行本申请实施例1中的步骤S408。

图17是根据本发明实施例的另一种数据处理装置的示意图。如图17所示，该数据处理装置可以包括：第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40。其中，第一处理单元20包括：标记模块21和处理模块22。

需要说明的是，该实施例的第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40与图16所示实施例的数据处理装置中的作用相同，此处不再赘述。

标记模块21，用于根据样本数据的多个样本序列对样本数据进行标记，得到标记样本数据。

处理模块22，用于对标记样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的不同层数据组合对应不同的处理算法和不同的样本信息。

第二处理单元30用于按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果。

图18是根据本发明实施例的另一种数据处理装置的示意图。如图18所示，该数据处理装置可以包括：第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40。其中，第一处理单元20包括：标记模块21和处理模块22，标记模块21包括：确定子模块211，第一标记子模块212，合并子模块213和第二标记子模块214。

需要说明的是，该实施例的第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40，标记模块21和处理模块22与图17所示实施例的数据处理装置中的作用相同，此处不再赘述。

确定子模块211，用于确定多个样本序列中每个样本序列的优先级。

第一标记子模块212，用于按照优先级依次通过标记帧对每个样本序列进行标记，得到多个标记样本序列。

合并子模块213，用于将多个标记样本序列中相邻的标记样本序列按照相同的标记帧进行合并，得到合并标记样本序列。

第二标记子模块214，用于对合并标记样本序列的起始帧和结束帧进行标记，得到标记样本数据。

图19是根据本发明实施例的另一种数据处理装置的示意图。如图19所示，该数据处理装置可以包括：第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40。其中，第一处理单元20包括：标记模块21和处理模块22，处理模块22包括：提取子模块221和组装子模块222。

需要说明的是，该实施例的第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40，标记模块21和处理模块22与图17所示实施例的数据处理装置中的作用相同。

提取子模块221，用于通过预设状态函数在标记样本数据中提取游戏应用客户端执行当前事件对象的不同的状态信息，当前事件对象为游戏应用客户端当前执行的事件对象。

组装子模块222，用于对不同的状态信息执行组装，得到多层数据组合。

图20是根据本发明实施例的另一种数据处理装置的示意图。如图20所示，该数据处理装置可以包括：第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40。其中，第一处理单元20包括：标记模块21和处理模块22，处理模块22包括：提取子模块221和组装子模块222，该数据处理装置还包括：第二获取单元50，映射单元60和生成单元70。

需要说明的是，该实施例的第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40，提取子模块221和组装子模块222与图19所示实施例的数据处理装置中的作用相同，此处不再赘述。

第二获取单元50，用于在按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果之前，获取游戏应用客户端上的角色数据。

映射单元60，用于将状态信息和角色数据按照预设映射系映射至预设处理模型，得到目标事件的事件数据。

生成单元70，用于根据状态信息、角色数据和事件数据生成样本信息。

图21是根据本发明实施例的另一种数据处理装置的示意图。如图21所示，该数据处理装置可以包括：第一获取单元10，第一处理单元20，第二处理单元30，第三处理单元40，第二获取单元50，映射单元60和生成单元70。其中，第一处理单元20包括：标记模块21和处理模块22，处理模块22包括：提取子模块221和组装子模块222。该数据处理装置还包括：第四处理单元80和添加单元90。

需要说明的是，该实施例的第一获取单元10，第一处理单元20，第二处理单元30，第三处理单元40，第二获取单元50，映射单元60和生成单元70，标记模块21和处理模块22，提取子模块221和组装子模块222与图20所示实施例的数据处理装置中的作用相同，此处不再赘述。

第四处理单元80，用于在根据状态信息、角色数据和事件数据生成样本信息之后，对样本数据执行旋转处理以扩展样本数据对应的样本数量。

添加单元90，用于添加预设信息至样本数量的样本信息中。

图22是根据本发明实施例的另一种数据处理装置的示意图。如图22所示，该数据处理装置可以包括：第一获取单元10，第一处理单元20，第二处理单元30和第三处理单元40。其中，第二处理单元30包括：第一处理模块31和第二处理模块32。

需要说明的是，该实施例的第一获取单元10，第一处理单元20，第二处理单元30第三处理单元40与图17所示实施例的数据处理装置中的作用相同，此处不再赘述。

第一处理模块31，用于按照与每层数据组合对应的预设概率模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行概率。

第二处理模块32，用于按照与每层数据组合对应的预设价值模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行价值。

第三处理单元40用于对与每层数据组合对应的执行概率和与每层数据组合对应的执行价值进行整合处理，得到目标指令。

图23是根据本发明实施例的另一种数据处理装置的示意图。如图23所示，该数据处理装置可以包括：第一获取单元10，第一处理单元20，第二处理单元30，第二处理单元30和第三处理单元40。该数据处理装置还包括：判断单元100和更新单元110。

判断单元100，用于在获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令之后，根据预设状态评估函数判断是否需要更新目标指令。

更新单元110，用于在判断出需要更新目标指令，对目标指令进行更新。

本发明实施例通过第一获取单元10获取游戏应用客户端执行事件的样本数据，通过第一处理单元20对样本数据执行预处理，得到多层数据组合，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，目标事件对象为在游戏应用客户端上待同时执行的事件对象，通过第二处理单元30按照预设处理算法对每层数据组合执行处理，得到每层数据组合的处理结果，通过第三处理单元40对每层数据组合的处理结果进行整合处理，得到目标指令，目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象，解决了相关技术的数据处理效率低的技术问题，进而达到提高数据处理效果的技术效果。

此处需要说明的是，上述单元和模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图3所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

实施例5

根据本发明实施例，还提供了一种用于实施上述数据处理方法的服务器或终端。

图24是根据本发明实施例的一种终端的结构框图。如图24所示，该终端可以包括：一个或多个(图中仅示出一个)处理器241、存储器243、以及传输装置245，如图24所示，该终端还可以包括输入输出设备247。

其中，存储器243可用于存储软件程序以及模块，如本发明实施例中的数据处理方法和装置对应的程序指令/模块，处理器241通过运行存储在存储器243内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器243可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器243可进一步包括相对于处理器241远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置245用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置245包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置245为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器243用于存储应用程序。

处理器241可以通过传输装置245调用存储器243存储的应用程序，以执行下述步骤：

获取游戏应用客户端执行事件的样本数据；

对样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，目标事件对象为在游戏应用客户端上待同时执行的事件对象；

按照预设处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果；

对每层数据组合的处理结果进行整合处理，得到目标指令，其中，目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象。

处理器241还用于执行下述步骤：根据样本数据的多个样本序列对样本数据进行标记，得到标记样本数据；对标记样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的不同层数据组合对应不同的处理算法和不同的样本信息；按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果。

处理器241还用于执行下述步骤：确定多个样本序列中每个样本序列的优先级；按照优先级依次通过标记帧对每个样本序列进行标记，得到多个标记样本序列；将多个标记样本序列中相邻的标记样本序列按照相同的标记帧进行合并，得到合并标记样本序列；对合并标记样本序列的起始帧和结束帧进行标记，得到标记样本数据。

处理器241还用于执行下述步骤：通过预设状态函数在标记样本数据中提取游戏应用客户端执行当前事件对象的不同的状态信息，当前事件对象为游戏应用客户端当前执行的事件对象；对不同的状态信息执行组装，得到多层数据组合。

处理器241还用于执行下述步骤：在按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果之前，获取游戏应用客户端上的角色数据；将状态信息和角色数据按照预设映射系映射至预设处理模型，得到目标事件的事件数据；根据状态信息、角色数据和事件数据生成样本信息。

处理器241还用于执行下述步骤：在根据状态信息、角色数据和事件数据生成样本信息之后，对样本数据执行旋转处理以扩展样本数据对应的样本数量；添加预设信息至样本数量的样本信息中。

处理器241还用于执行下述步骤：按照与每层数据组合对应的预设概率模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行概率；按照与每层数据组合对应的预设价值模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行价值；其中，获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令包括：对与每层数据组合对应的执行概率和与每层数据组合对应的执行价值进行整合处理，得到目标指令。

处理器241还用于执行下述步骤：在获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令之后，根据预设状态评估函数判断是否需要更新目标指令；如果判断出需要更新目标指令，对目标指令进行更新。

处理器241还用于执行下述步骤：在获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令之后，获取在游戏应用客户端根据目标指令执行不同的目标事件对象时的不同的目标状态信息；根据不同的目标状态信息更新每层数据组合的处理结果，得到每层数据组合的更新处理结果；其中，获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令包括：获取每层数据组合的更新处理结果，并对多层数据组合的更新处理结果进行整合处理，得到更新目标指令。

采用本发明实施例，提供了一种数据处理方法的方案。通过获取游戏应用客户端执行事件的样本数据；根据样本数据的多个样本序列对样本数据进行标记，得到标记样本数据；对标记样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，目标事件对象为在游戏应用客户端上待同时执行的事件对象，不同层数据组合对应不同的处理算法和不同的样本信息；按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果；获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令，其中，目标指令用于指示游戏应用客户端同时执行不同层数据组合对应的不同的目标事件对象，达到了对多层数据组合中的每层数据组合的处理结果进行整合处理，得到目标指令的目的，从而实现了提高数据处理效率的技术效果，进而解决了相关技术的数据处理效率低的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图24所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图24其并不对上述电子装置的结构造成限定。例如，终端还可包括比图24中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图24所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例6

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行数据处理方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

获取游戏应用客户端执行事件的样本数据；

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：根据样本数据的多个样本序列对样本数据进行标记，得到标记样本数据；对标记样本数据执行预处理，得到多层数据组合，其中，多层数据组合中的不同层数据组合对应不同的处理算法和不同的样本信息；按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：确定多个样本序列中每个样本序列的优先级；按照优先级依次通过标记帧对每个样本序列进行标记，得到多个标记样本序列；将多个标记样本序列中相邻的标记样本序列按照相同的标记帧进行合并，得到合并标记样本序列；对合并标记样本序列的起始帧和结束帧进行标记，得到标记样本数据。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：通过预设状态函数在标记样本数据中提取游戏应用客户端执行当前事件对象的不同的状态信息，当前事件对象为游戏应用客户端当前执行的事件对象；对不同的状态信息执行组装，得到多层数据组合。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在按照与多层数据组合中的每层数据组合对应的处理算法对每层数据组合中的样本信息执行处理，得到每层数据组合的处理结果之前，获取游戏应用客户端上的角色数据；将状态信息和角色数据按照预设映射系映射至预设处理模型，得到目标事件的事件数据；根据状态信息、角色数据和事件数据生成样本信息。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在根据状态信息、角色数据和事件数据生成样本信息之后，对样本数据执行旋转处理以扩展样本数据对应的样本数量；添加预设信息至样本数量的样本信息中。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：按照与每层数据组合对应的预设概率模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行概率；按照与每层数据组合对应的预设价值模型对每层数据组合中的样本信息执行处理，得到与每层数据组合对应的游戏应用客户端执行目标事件的执行价值；其中，获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令包括：对与每层数据组合对应的执行概率和与每层数据组合对应的执行价值进行整合处理，得到目标指令。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令之后，根据预设状态评估函数判断是否需要更新目标指令；如果判断出需要更新目标指令，对目标指令进行更新。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令之后，获取在游戏应用客户端根据目标指令执行不同的目标事件对象时的不同的目标状态信息；根据不同的目标状态信息更新每层数据组合的处理结果，得到每层数据组合的更新处理结果；其中，获取每层数据组合的处理结果，并对每层数据组合的处理结果进行整合处理，得到目标指令包括：获取每层数据组合的更新处理结果，并对多层数据组合的更新处理结果进行整合处理，得到更新目标指令。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取游戏应用客户端执行事件的样本数据；

对所述样本数据执行预处理，得到多层数据组合，其中，所述多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，所述多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，所述目标事件对象为在所述游戏应用客户端上待同时执行的事件对象；

按照预设处理算法对所述每层数据组合执行处理，得到所述每层数据组合的处理结果；

对所述每层数据组合的处理结果进行整合处理，得到目标指令，其中，所述目标指令用于指示所述游戏应用客户端同时执行所述不同层数据组合对应的不同的目标事件对象；

其中，按照所述预设处理算法对所述每层数据组合执行处理，得到所述每层数据组合的处理结果包括：按照与所述多层数据组合中的每层数据组合对应的处理算法对所述每层数据组合中的样本信息执行处理，得到所述每层数据组合的处理结果；

按照与所述多层数据组合中的每层数据组合对应的处理算法对所述每层数据组合中的样本信息执行处理，得到所述每层数据组合的处理结果包括：按照与所述每层数据组合对应的预设概率模型对所述每层数据组合中的样本信息执行处理，得到与所述每层数据组合对应的所述游戏应用客户端执行所述目标事件的执行概率；按照与所述每层数据组合对应的预设价值模型对所述每层数据组合中的样本信息执行处理，得到与所述每层数据组合对应的所述游戏应用客户端执行所述目标事件的执行价值；其中，对所述每层数据组合的处理结果进行整合处理，得到所述目标指令包括：对与所述每层数据组合对应的所述执行概率和与所述每层数据组合对应的所述执行价值进行整合处理，得到所述目标指令。

2.根据权利要求1所述的方法，其特征在于，

对所述样本数据执行预处理，得到所述多层数据组合包括：根据所述样本数据的多个样本序列对所述样本数据进行标记，得到标记样本数据；对所述标记样本数据执行预处理，得到所述多层数据组合，其中，所述多层数据组合中的不同层数据组合对应不同的处理算法和不同的样本信息。

3.根据权利要求2所述的方法，其特征在于，根据所述样本数据的多个样本序列对所述样本数据进行标记，得到所述标记样本数据包括：

确定所述多个样本序列中每个样本序列的优先级；

按照所述优先级依次通过标记帧对所述每个样本序列进行标记，得到多个标记样本序列；

将所述多个标记样本序列中相邻的标记样本序列按照相同的所述标记帧进行合并，得到合并标记样本序列；

对所述合并标记样本序列的起始帧和结束帧进行标记，得到所述标记样本数据。

4.根据权利要求2所述的方法，其特征在于，对所述标记样本数据执行预处理，得到所述多层数据组合包括：

通过预设状态函数在所述标记样本数据中提取所述游戏应用客户端执行当前事件对象的不同的状态信息，其中，所述当前事件对象为所述游戏应用客户端当前执行的事件对象；

对所述不同的状态信息执行组装，得到所述多层数据组合。

5.根据权利要求4所述的方法，其特征在于，在按照与所述多层数据组合中的每层数据组合对应的处理算法对所述每层数据组合中的样本信息执行处理，得到所述每层数据组合的处理结果之前，所述方法还包括：

获取所述游戏应用客户端上的角色数据；

将所述状态信息和所述角色数据按照预设映射系映射至预设处理模型，得到所述目标事件的事件数据；

根据所述状态信息、所述角色数据和所述事件数据生成所述样本信息。

6.根据权利要求5所述的方法，其特征在于，在根据所述状态信息、所述角色数据和所述事件数据生成所述样本信息之后，所述方法还包括：

对所述样本数据执行旋转处理以扩展所述样本数据对应的样本数量；

添加预设信息至所述样本数量的样本信息中。

7.根据权利要求1所述的方法，其特征在于，在对所述每层数据组合的处理结果进行整合处理，得到所述目标指令之后，所述方法还包括：

根据预设状态评估函数判断是否需要更新所述目标指令；

如果判断出需要更新所述目标指令，对所述目标指令进行更新。

8.根据权利要求1所述的方法，其特征在于，在对所述每层数据组合的处理结果进行整合处理，得到所述目标指令之后，所述方法还包括：

获取在所述游戏应用客户端根据所述目标指令执行所述不同的目标事件对象时的不同的目标状态信息；

根据所述不同的目标状态信息更新所述每层数据组合的处理结果，得到所述每层数据组合的更新处理结果；

其中，对所述每层数据组合的处理结果进行整合处理，得到所述目标指令包括：获取所述每层数据组合的所述更新处理结果，并对所述多层数据组合的更新处理结果进行整合处理，得到更新目标指令。

9.一种数据处理装置，其特征在于，包括：

第一获取单元，用于获取游戏应用客户端执行事件的样本数据；

第一处理单元，用于对所述样本数据执行预处理，得到多层数据组合，其中，所述多层数据组合中的每层数据组合对应同一目标事件中的一种目标事件对象，所述多层数据组合中的不同层数据组合对应同一目标事件中不同的目标事件对象，所述目标事件对象为在所述游戏应用客户端上待同时执行的事件对象；

第二处理单元，用于按照预设处理算法对所述每层数据组合执行处理，得到所述每层数据组合的处理结果；

第三处理单元，用于对所述每层数据组合的处理结果进行整合处理，得到目标指令，其中，所述目标指令用于指示所述游戏应用客户端同时执行所述不同层数据组合对应的不同的目标事件对象；

其中，所述第二处理单元用于按照与所述多层数据组合中的每层数据组合对应的处理算法对所述每层数据组合中的样本信息执行处理，得到所述每层数据组合的处理结果；

所述第二处理单元包括：第一处理模块，用于按照与所述每层数据组合对应的预设概率模型对所述每层数据组合中的样本信息执行处理，得到与所述每层数据组合对应的所述游戏应用客户端执行所述目标事件的执行概率；第二处理模块，用于按照与所述每层数据组合对应的预设价值模型对所述每层数据组合中的样本信息执行处理，得到与所述每层数据组合对应的所述游戏应用客户端执行所述目标事件的执行价值；其中，所述第三处理单元用于对与所述每层数据组合对应的所述执行概率和与所述每层数据组合对应的所述执行价值进行整合处理，得到所述目标指令。

10.根据权利要求9所述的装置，其特征在于，

所述第一处理单元包括：

标记模块，用于根据所述样本数据的多个样本序列对所述样本数据进行标记，得到标记样本数据；

处理模块，用于对所述标记样本数据执行预处理，得到所述多层数据组合，其中，所述多层数据组合中的不同层数据组合对应不同的处理算法和不同的样本信息。

11.根据权利要求10所述的装置，其特征在于，所述标记模块包括：

确定子模块，用于确定所述多个样本序列中每个样本序列的优先级；

第一标记子模块，用于按照所述优先级依次通过标记帧对所述每个样本序列进行标记，得到多个标记样本序列；

合并子模块，用于将所述多个标记样本序列中相邻的标记样本序列按照相同的所述标记帧进行合并，得到合并标记样本序列；

第二标记子模块，用于对所述合并标记样本序列的起始帧和结束帧进行标记，得到所述标记样本数据。

12.根据权利要求10所述的装置，其特征在于，所述处理模块包括：

提取子模块，用于通过预设状态函数在所述标记样本数据中提取所述游戏应用客户端执行当前事件对象的不同的状态信息，其中，所述当前事件对象为所述游戏应用客户端当前执行的事件对象；

组装子模块，用于对所述不同的状态信息执行组装，得到所述多层数据组合。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于在按照与所述多层数据组合中的每层数据组合对应的处理算法对所述每层数据组合中的样本信息执行处理，得到所述每层数据组合的处理结果之前，获取所述游戏应用客户端上的角色数据；

映射单元，用于将所述状态信息和所述角色数据按照预设映射系映射至预设处理模型，得到所述目标事件的事件数据；

生成单元，用于根据所述状态信息、所述角色数据和所述事件数据生成所述样本信息。

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

第四处理单元，用于在根据所述状态信息、所述角色数据和所述事件数据生成所述样本信息之后，对所述样本数据执行旋转处理以扩展所述样本数据对应的样本数量；

添加单元，用于添加预设信息至所述样本数量的样本信息中。

15.根据权利要求9所述的装置，其特征在于，所述装置还包括：

判断单元，用于在获取所述每层数据组合的所述处理结果，并对所述每层数据组合的处理结果进行整合处理，得到所述目标指令之后，根据预设状态评估函数判断是否需要更新所述目标指令；

更新单元，用于在判断出需要更新所述目标指令，对所述目标指令进行更新。