CN117899483B

CN117899483B - 一种数据处理方法、装置、设备及存储介质

Info

Publication number: CN117899483B
Application number: CN202410311420.5A
Authority: CN
Inventors: 文荟俨; 刘一锋; 林上奥; 刘戈; 邱福浩; 付强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-05-28
Anticipated expiration: 2044-03-19
Also published as: CN117899483A

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及存储介质，本申请实施例可应用于人工智能、智慧交通、辅助驾驶等各种场景。其中，数据处理方法包括：对每个游戏地图关联的绝对位置信息进行位置重构，得到相对位置信息；根据M个游戏地图分别对应的地图资源文件，确定M个游戏地图分别对应的地图环境感知信息；控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务；根据M个游戏地图分别对应的任务执行结果，对初始智能体模型进行参数调整，得到通用智能体模型。采用本申请，可以提高智能体模型的训练效率和训练成本。

Description

一种数据处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，游戏逐渐成为了日常娱乐的常见方式，目前在很多游戏中经常添加一些智能体模型，或称之为AI角色，用于陪伴玩家角色完成游戏对局。通常而言，为了使得智能体模型能够顺利的完成游戏对局，需要通过机器学习的方式使得智能体模型具备完成游戏对局的能力。

目前是基于游戏中的一个游戏地图设计和训练一个智能体模型，游戏中的游戏地图数量较多，需要逐个设计和训练每个游戏地图对应的智能体模型，导致多个游戏地图的智能体模型的训练成本较高以及训练效率较低。

发明内容

本申请实施例提供一种数据处理方法、装置、设备及存储介质，可以提高智能体模型的训练效率以及降低智能体模型的训练成本。

本申请实施例一方面提供一种数据处理方法，包括：

根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个游戏地图关联的绝对位置信息进行位置重构，得到每个游戏地图关联的相对位置信息；

根据M个游戏地图分别关联的地图关键信息，确定M个游戏地图分别对应的地图环境感知信息；

控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务，得到初始智能体模型在M个游戏地图中分别对应的任务执行结果；

根据M个游戏地图分别对应的任务执行结果，对初始智能体模型中的模型参数进行参数调整，得到通用智能体模型。

本申请实施例一方面提供一种数据处理装置，包括：

第一重构模块，用于根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个游戏地图关联的绝对位置信息进行位置重构，得到每个游戏地图关联的相对位置信息；

第一确定模块，用于根据M个游戏地图分别关联的地图关键信息，确定M个游戏地图分别对应的地图环境感知信息；

第一执行模块，用于控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务，得到初始智能体模型在M个游戏地图中分别对应的任务执行结果；

第一调整模块，用于根据M个游戏地图分别对应的任务执行结果，对初始智能体模型中的模型参数进行参数调整，得到通用智能体模型。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例提出一种通用智能体模型训练方法，通过根据M个游戏地图融合训练得到一个通用智能体模型，M为大于1的整数，该通用智能体模型具有较高的通用性和适应性，可以适应多个游戏地图，而不用针对不同游戏地图训练一个智能体模型，降低智能体模型的训练成本和提高智能体模型的训练效率。具体的，通过将M个游戏地图中每个游戏地图关联的绝对位置信息转化为相对位置信息，便于初始智能体模型更好地捕捉不同游戏地图间的共性，避免出现初始智能体模型在M个游戏地图中出现学习歧义和学习困难的问题。同时，通过每个游戏地图对应的地图环境感知信息，增强初始智能体模型在不同游戏地图上的寻路能力，弥补游戏地图迁移时导致游戏环境感知损失的问题。控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务，对初始智能体模型进行训练，得到通用智能体模型。这样，可以使初始智能体模型在M个游戏地图中学习通用对局知识和通用对局策略，实现训练得到的通用智能体模型应用于任意游戏地图，而不用针对不同游戏地图训练一个智能体模型，可以极大地降低智能体模型训练成本和提高智能体模型的训练效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理***的结构示意图；

图2是本申请实施例提供的一种通用智能体模型训练方式的示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4a是本申请实施例提供的一种地图资源文件的示意图；

图4b是本申请实施例提供的一种可行走区域的示意图；

图4c是本申请实施例提供的一种初始路径结构图的示意图；

图4d是本申请实施例提供的一种目标路径结构图的示意图；

图5是本申请实施例提供的一种多地图融合训练通用智能体模型的示意图；

图6是本申请实施例提供的一种通用智能体模型训练的示意图；

图7是本申请实施例提供的一种数据处理方法的流程示意图；

图8是本申请实施例提供的一种数据处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请涉及人工智能技术领域，本申请实施例具体可以通过训练得到一个适用于虚拟游戏环境中的多个游戏地图的通用智能体模型，可以提高智能体模型的训练效率和训练成本，同时可以提高通用智能体模型在多个游戏地图中的对局准确性，提高通用智能体模型在多个游戏地图中的对局表现。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

具体的，本申请具体涉及人工智能技术下属的机器学习。机器学习(MachineLearning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

强化学习：又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）模型在与环境的交互过程中通过学习策略，以达成游戏回报收益最大化或实现特定目标的问题。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。具体来讲，强化学习是智能体模型以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体模型获得最大的奖赏。强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价，在行动-评价的环境中获得知识，改进行动方案以适应环境。

其基本原理是：如果智能体模型的某个行为策略导致环境正的奖赏（强化信号），那么智能体模型以后产生这个行为策略的趋势便会加强，智能体模型的目标是发现最优策略以使期望的折扣奖赏和最大。强化学习的目标是动态地调整模型参数，以达到强化信号最大。

智能体模型：或称为AI角色，AI是开发用于模拟和扩展人的智能和方法，在游戏中实现角色模拟真实玩家的技术，是指虚拟游戏环境中可被控制用于完成虚拟游戏环境相关过程的虚拟角色，玩家账号中创建的虚拟角色是受玩家控制的，而智能体模型是不受玩家控制的，而是根据自主学习到的知识和策略在虚拟游戏环境中进行自主行动。该智能体模型是指在虚拟游戏环境中的可活动对象，该可活动对象可以是虚拟人物、虚拟动物、动漫人物中的至少一种。可选地，当虚拟游戏环境为三维虚拟对局场景时，智能体模型可以是基于动画骨骼技术创建的三维立体模型。每个智能体模型在三维虚拟对局场景中具有自身的形状和体积，占据三维虚拟对局场景中的一部分空间。其中，本申请中的初始智能体模型可以是基于强化学习的智能体模型。

虚拟游戏环境：是虚拟角色所处于的虚拟环境，即虚拟游戏环境是一种提供游戏对局所需的虚拟环境，即游戏客户端在终端设备上运行时显示（或提供）的虚拟环境，该虚拟环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的三维环境，还可以是纯虚构的三维环境，例如可以是二维虚拟对局场景、2.5维虚拟对局场景和三维虚拟对局场景中的任意一种，下述实施例以虚拟环境是三维虚拟对局场景来举例说明，但对此不加以限定。可选地，该虚拟环境还用于至少两个虚拟角色之间的虚拟对局场景对战。可选地，该虚拟环境还用于至少两个虚拟角色之间使用游戏道具进行对战。

对局任务：是指虚拟游戏环境中对局需要完成的任务，来决定本场对局的对局结果，例如对于游戏而言，通常存在决定游戏胜负的方式，则对局任务则是指完成游戏胜出或者完成游戏胜出需要达成的条件。在不同的游戏以及不同的游戏场景中，则对局任务可以是不同的，例如在一些场景中对局任务可以为攻破敌方阵营的水晶，在另一些场景中对局任务可以为模拟安装***道具并成功***等，在此不再一一例举。

神经网络（Artificial Neural Network，ANN）：从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成，每个节点代表一种特定的输出函数，称为激励函数（activation function），每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

请参见图1，图1是本申请实施例提供的一种数据处理***的结构示意图。如图1所示，该数据处理***可以包括服务器10和终端设备集群。该终端设备集群可以包括一个或者多个终端设备，这里将不对终端设备的数量进行限制。如图1所示，具体可以包括终端设备100a、终端设备100b、终端设备100c、…、终端设备100n。如图1所示，终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与上述服务器10进行网络连接，以便于每个终端设备可以通过该网络连接与服务器10进行数据交互。当然，终端设备100a、终端设备100b、终端设备100c、…、终端设备100n之间可以通过网络直连的方式进行通信，即各个终端设备之间可实现点对点的通信；也就是说，每两个终端设备之间需要进行数据交互时，一个终端设备（即发送终端设备）可将数据直接发送至另一个终端设备（即接收终端）。

其中，终端设备集群中的每个终端设备均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电（例如，智能电视）、可穿戴设备、车载终端等具有数据处理功能的智能终端。应当理解，如图1所示的终端设备集群中的每个终端设备均可以安装有具备数据处理功能的应用，当应用运行于各终端设备中时，可以分别与上述图1所示的服务器10之间进行数据交互，如应用具体可以包括游戏应用、娱乐应用等。为便于理解，本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备。例如，本申请实施例可以将图1所示的终端设备100a作为目标终端设备，目标终端设备中可以安装有具备数据处理功能的应用，此时，目标终端设备可以通过目标终端设备中的应用与服务器10之间实现数据交互。

其中，如图1所示，该服务器10可以为终端设备中的应用提供后台服务的设备。该服务器10是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。

应当理解，基于图1中的一种数据处理***可以适用于虚拟游戏环境中的智能体模型的训练，可以理解的是，为了增加游戏的娱乐性，在很多游戏中经常添加一些智能体模型，或称之为AI角色，该智能体模型可以用于陪伴游戏用户控制的玩家角色完成游戏对局，以增加游戏的娱乐性和趣味性。由于游戏应用中的游戏地图的数量较多，若针对每个游戏地图均设计和训练一个智能体模型，则会需要大量训练资源和调整模型参数工作，这无疑会产生消耗大量的时间、计算资源和人力成本等问题。

为了解决这些问题，本申请实施例提出了一种基于强化学习的通用智能体模型学习方法，通过将M个游戏地图的模型融合成一个统一的模型，在不降低性能的前提下，实现一次训练即可在任意游戏地图上使用，M为正整数。可以理解的是，本申请实施例中训练得到的通用智能体模型可以适用于M个游戏地图（如在M个游戏地图中进行对局任务），甚至也可以适用于除M个游戏地图之外的其他游戏地图（如在其他游戏地图中进行对局任务）。可以理解的是，在遇到新的新增游戏地图时，无需再训练通用智能体模型也能有较拟人的表现，这将极大地提高研发效率，降低开发和运营成本，同时为玩家提供更加稳定和高效的游戏体验。

具体的，本申请实施例可以对虚拟游戏环境中的M个游戏地图进行融合训练，即使用在M个游戏地图上的样本对局数据对初始智能体模型进行训练，赋予初始智能体模型覆盖M个游戏地图的能力，可以让初始智能体模型学习到在不同游戏地图上的通用策略，以实现训练得到的通用智能体模型适用于M个游戏地图。这样，便可以实现通过一个通用智能体模型在M个游戏地图中进行对局任务，甚至可以实现在新增游戏地图（新增游戏地图与M个游戏地图不同）中进行对局任务，可以提高通用智能体模型的适应性。

在对M个游戏地图进行融合训练时，由于不同游戏地图具有对应关联的绝对位置信息，该绝对位置信息可以是指地图特异特征，该地图特异特征可以包括游戏地图中的游戏元素的实际位置等。其中，游戏地图中的游戏元素可以包括游戏地图中的虚拟植物、虚拟建筑、虚拟交通工具、虚拟动物、虚拟物品、虚拟河流、虚拟地面等。可以理解的是，由于每个游戏地图中的游戏元素在构建时，所采用的位置构建方式以及所参考的参考点不同，导致每个游戏地图中的游戏元素的实际位置是特异（即绝对）的，因而导致初始智能体模型难以学习到M个游戏地图中的通用对局知识和通用对局策略。

为了避免M个游戏地图中的地图特异特征导致初始智能体模型的学习歧义和学习困难，本申请实施例可以根据M个游戏地图中每个游戏地图的参考位置，将对应游戏地图关联的绝对位置信息进行位置重构。这样，使初始智能体模型在任意两点（即初始智能体模型的当前位置点与参考位置）之间进行寻路和对局，可以更好地捕捉不同游戏地图间的共性，防止过拟合到单张游戏地图。

具体的，通过根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个游戏地图关联的绝对位置信息进行位置重构，消除每个游戏地图中的地图特异特征，将绝对位置信息转化为相对特征信息，得到每个游戏地图关联的相对位置信息。这样，可以增强初始智能体模型在不同游戏地图上的泛化能力，从而使训练得到的通用智能体模型能够更好地适应各种游戏地图环境。其中，每个游戏地图可以均具有对应的参考位置，该参考位置可以是指游戏地图中的虚拟角色出生地等，可以将M个游戏地图中均具有的位置作为参考位置。这样，可以实现使初始智能体模型，根据初始智能体模型的当前位置点与参考位置进行寻路和对局，更好地捕捉不同游戏地图之间的共性。

同时，可以根据M个游戏地图分别关联的地图关键信息，确定M个游戏地图分别对应的地图环境感知信息，该地图环境感知信息可以用于表征游戏地图的深度图和高度图，从而增强初始智能体模型在不同游戏地图上的寻路能力。其中，以M个游戏地图中的第i个游戏地图为例，i为小于或者等于M的正整数，第i个游戏地图的地图关键信息可以包括第i个游戏地图的地图资源文件、第i个游戏地图的参考位置以及初始智能体模型在第i个游戏地图的实际位置等。其中，第i个游戏地图的地图资源文件可以用于还原第i个游戏地图，如还原第i个游戏地图中的游戏元素、空间布局等。

进一步地，控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务，得到初始智能体模型在M个游戏地图中分别对应的执行结果。其中，以M个游戏地图中的第i个游戏地图为例，第i个游戏地图对应的游戏参数可以包括第i个游戏地图的地图标识、地图资源文件，以及初始智能体模型在第i个游戏地图中的对局状态参数。初始智能体模型在第i个游戏地图中的对局状态参数可以包括初始智能体模型的自身角色信息、队友角色信息以及敌对角色信息等。其中，初始智能体模型的自身角色信息可以包括在第i个游戏地图中的当前动作、当前可用技能、当前战斗力等。其中，队友角色信息可以包括队友位置信息、队友状态信息等，敌对角色信息可以包括敌对位置信息、敌对状态信息等。

进一步地，可以根据初始智能体模型在M个游戏地图中分别对应的任务执行结果，对初始智能体模型中的模型参数进行参数调整，评估参数调整后的初始智能体模型的模型能力，如果达到能力上限，或者，初始智能体模型的迭代时间步达到最大迭代时间步，则停止训练保存最终的初始智能体模型，得到通用智能体模型。可以理解的是，本申请实施例提出一种多游戏地图模型统一方案，通过多个游戏地图融合训练得到一个通用智能体模型，该单一通用智能体模型可以适应多个游戏地图，通用智能体模型具有较高的通用性和适应性，降低智能体模型的训练成本和提高智能体模型的训练效率。这样，便可以不用针对每个游戏地图训练一个智能体模型，可以降低智能体模型的训练成本和训练效率，降低开发和运营成本。可以理解的是，训练出的通用智能体模型，能够在各个游戏地图上有不输于单个游戏地图专门训练的智能体模型的表现，具有较高的模型效果。

另外，由于通用智能体模型在M个游戏地图中学习到了通用对局知识和通用对局策略，在出现新增游戏地图时，可以实现通过不需要或仅需少量训练，便可以直接将通用智能体模型在新增游戏地图中执行对局任务。可以理解的是，本申请实施例不需要基于新增游戏地图对通用智能体模型进行训练，便可以将在M个游戏地图中学习到了通用对局知识和通用对局策略，应用在新增游戏地图上，实现基于通用智能体模型在新增游戏地图中执行对局任务。当然，为进一步提高通用智能体模型在新增游戏地图中的性能，也仅需要基于新增游戏地图的样本对局数据对通用智能体模型进行少量训练，便可以得到一个具有更高性能的通用智能模型。另外，对通用智能体模型进行训练，相对于对一个零基础的智能体模型，可以极大地提高训练效率。可以理解的是，通用智能体模型具有较高的适用性，通过通用智能体模型便可以实现在新增游戏地图上的寻路能力和交战能力，提高了扩图效率。

如图2所示，图2是本申请实施例提供的一种通用智能体模型训练方式的示意图，如图2所示，终端设备集群20a中的终端设备201a、终端设备202a、终端设备203a等可以为上述图1所对应实施例中终端设备集群的终端设备，如图2所示的服务器20b可以为上述图1所对应实施例中的服务器10。如图2所示，终端设备集群20a中的终端设备201a、终端设备202a、终端设备203a可以获取初始智能体模型在M个游戏地图中的样本对局数据。该样本对局数据可以包括M个游戏地图中每个游戏地图的地图关键信息、绝对位置信息以及游戏参数等。以M个游戏地图中的第i个游戏地图为例，第i个游戏地图的地图关键信息可以包括第i个游戏地图的地图资源文件、第i个游戏地图的参考位置以及初始智能体模型在第i个游戏地图中的实际位置。其中，第i个游戏地图的地图资源文件可以用于还原第i个游戏地图的游戏场景，如还原第i个游戏地图的游戏场景中的游戏元素、空间布局等。第i个游戏地图的参考位置可以为第i个游戏地图中虚拟角色的出生地，也可以是M个游戏地图或者每个游戏地图共同具有的位置，可以根据具体情况具体设置。

其中，第i个游戏地图的绝对位置信息可以包括第i个游戏地图中的游戏元素的实际位置，以及初始智能体模型在第i个游戏地图中的实际位置。第i个游戏地图的游戏参数可以包括初始智能体模型在第i个游戏地图中的第i个游戏地图的地图标识、地图资源文件，以及初始智能体模型在第i个游戏地图中的对局状态参数。初始智能体模型在第i个游戏地图中的对局状态参数可以包括初始智能体模型的自身角色信息、队友角色信息以及敌对角色信息等。其中，初始智能体模型的自身角色信息可以包括在第i个游戏地图中的当前动作、当前可用技能、当前战斗力等。其中，队友角色信息可以包括队友位置信息、队友状态信息等，敌对角色信息可以包括敌对位置信息、敌对状态信息等。

服务器20b可以根据M个游戏地图中每个游戏地图的参考位置，对每个游戏地图的绝对位置信息进行位置重构，得到每个游戏地图的相对位置信息。可以理解的是，每个游戏地图的绝对位置信息是游戏地图的地图特异特征，当游戏地图中存在地图特异特征时，初始智能体模型在M个游戏地图中学习时会存在学习歧义和学习困难的问题，即难以学习到不同游戏地图之间的通用知识和通用策略。可以理解的是，由于不同游戏地图中的游戏元素的实际位置是基于不同位置构建方式确定，即不同游戏地图中的游戏元素的实际位置是绝对的，初始智能体模型通过不同游戏地图中的游戏元素的实际位置确定对局策略和对局动作时，会产生学习歧义。

例如，初始智能体模型在M个游戏地图中的第一个游戏地图中的目标位置所学习到的对局策略和对局动作，与在M个游戏地图中的第二个游戏地图中的目标位置所学习到的对局策略和对局动作不相同时，初始智能体模型就会产生歧义。其中，在M个游戏地图中的第一个游戏地图中的目标位置与在M个游戏地图中的第二个游戏地图中的目标位置相同（即位置坐标信息相同）。

因此，服务器20b基于每个游戏地图的参考位置，对每个游戏地图的绝对位置信息进行位置重构，得到每个游戏地图的相对位置信息。例如，以参考位置为虚拟角色出生地为例，服务器20b可以将每个游戏地图的绝对位置信息，基于每个游戏地图中的虚拟角色出生地，转化为每个游戏地图的绝对位置信息到虚拟角色出生地之间的相对位置信息。这样，初始智能体模型在每个游戏地图中都是基于初始智能体模型当前所处位置与参考位置之间的位置信息学习对局策略和对局动作。这样，将每个游戏地图的地图特异特征转换为地图通用特征，可以使初始智能体模型更好地捕捉不同游戏地图之间的共性，可以避免M个游戏地图的地图特异特征导致初始智能体模型出现学习歧义或者学习困难的问题，进而可以防止过拟合到单张游戏地图中，可以提高训练得到的通用智能体模型的训练准确性。

服务器20b可以根据样本对局数据中包括的每个游戏地图的地图关键信息，生成M个游戏地图分别对应的地图环境感知信息，该地图环境感知信息可以包括路径结构图和初始智能体在M个游戏地图中分别对应的映射位置信息。其中，路径结构图可以是指graph图结构，graph图结构是一种多对多的非线性结构，由顶点（Vertex）和边（Edge）组成。顶点表示图中的元素，而边表示顶点之间的连接关系。根据边的方向性，graph图结构可以分为有向图结构和无向图结构。有向图结构中的边有方向，表示从一个顶点到另一个顶点的单向连接；而无向图结构中的边没有方向，表示两个顶点之间的双向连接。

其中，服务器20b可以将每个游戏地图转换为graph图结构，以便于初始智能体模型能够更好地理解和操作游戏环境，即更好的理解每个游戏地图对应的游戏环境，有助于弥补游戏地图迁移时导致游戏环境感知损失的问题，可以提高训练得到的通用智能体模型在M个游戏地图以及新增游戏地图（不同于M个游戏地图）上的泛化能力。即可以使训练得到的通用智能体模型应用在M个游戏地图以及新增游戏地图上，而不需要针对每个游戏地图均训练对应的智能体模型，可以提高智能体模型的训练效率和降低智能体模型的训练成本。

进一步地，服务器20b可以控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中，执行M个游戏地图分别对应的对局任务，得到初始智能体模型在M个游戏地图中分别对应的任务执行结果。具体的，通过初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，确定初始智能体模型在M个游戏地图中分别对应的对局策略和对局动作，执行该对局动作以及对局策略，以执行在M个游戏地图中的对局任务，得到初始智能体模型在M个游戏地图中分别对应的任务执行结果。

服务器20b可以根据初始智能体模型在M个游戏地图中分别对应的任务执行结果，检测初始智能体模型是否完成对局任务，以及完成对局任务的质量等，进而根据检测初始智能体模型是否完成对局任务，以及完成对局任务的质量等，对初始智能体模型中的模型参数进行参数调整，直到初始智能体模型的性能达到性能阈值，或者，初始智能体模型的迭代时间步达到目标迭代时间步（如目标迭代时间步为设置的最大迭代时间步），得到通用智能体模型。可以理解的是，本申请实施例提出一种多游戏地图模型统一方案，通过多个游戏地图的样本对局数据融合训练得到一个通用智能体模型，该一个通用智能体模型可以适应多个游戏地图，通用智能体模型具有较高的通用性和适应性，可以降低智能体模型的训练成本和提高智能体模型的训练效率。这样，便可以不用针对每个游戏地图训练一个智能体模型，可以降低智能体模型的训练成本和提高智能体模型的训练效率，降低开发和运营成本。可以理解的是，训练出的通用智能体模型，能够在各个游戏地图上有不输于单个游戏图专门训练的智能体模型的表现，具有较高的模型效果。

可见，本申请实施例通过M个游戏地图的样本对局数据，对一个初始智能体模型进行训练，同时移除了每个游戏地图中的地图特异特征，将每个游戏地图的地图特异特征转换为地图通用特征，可以使初始智能体模型更好地捕捉不同游戏地图之间的共性，可以避免M个游戏地图的地图特异特征导致初始智能体模型出现学习歧义或者学习困难的问题，进而可以防止过拟合到单张游戏地图中，可以提高训练得到的通用智能体模型的训练准确性。同时，生成每个游戏地图的地图环境感知信息，以便于初始智能体模型能够更好地理解和操作游戏环境，即更好的理解每个游戏地图对应的游戏环境，有助于弥补游戏地图迁移时导致游戏环境感知损失的问题，可以提高训练得到的通用智能体模型在M个游戏地图以及新增游戏地图（不同于M个游戏地图）上的泛化能力。即可以使训练得到的通用智能体模型应用在M个游戏地图以及新增游戏地图上，而不需要针对每个游戏地图均训练对应的智能体模型，可以提高智能体模型的训练效率和降低智能体模型的训练成本。进而通过M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，以及M个游戏地图分别对应的对局任务，对初始智能体模型进行训练，得到一个通用智能体模型。这样，可以提高智能体模型的训练效率和降低智能体模型的训练成本。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示，该方法可由图1中的任意终端设备来执行，也可以由图1中的服务器10来执行，还可以由图1中的终端设备和服务器共同执行，本申请中用于执行该数据处理方法的设备可以统称为计算机设备。其中，该数据处理方法可以包括但不限于如下步骤：

S101，根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个游戏地图关联的绝对位置信息进行位置重构，得到每个游戏地图关联的相对位置信息。

具体的，本申请实施例提供一种多游戏地图模型统一方案，通过多个游戏地图的样本对局数据融合训练得到一个通用智能体模型，该一个通用智能体模型可以适应多个游戏地图，通用智能体模型具有较高的通用性和适应性，可以降低智能体模型的训练成本和提高智能体模型的训练效率。这样，便可以不用针对每个游戏地图训练一个智能体模型，可以降低智能体模型的训练成本和提高智能体模型的训练效率，降低开发和运营成本。可以理解的是，训练出的通用智能体模型，能够在各个游戏地图上有不输于单个游戏地图专门训练的智能体模型的表现，具有较高的模型效果。具体的，由于虚拟游戏环境中的M个游戏地图在搭建时所采用的位置构建方式，导致M个游戏地图中每个游戏地图的游戏元素的实际位置为绝对位置信息，是每个游戏地图的地图特异特征的。当游戏地图中存在地图特异特征时，初始智能体模型在M个游戏地图中学习时会存在学习歧义和学习困难的问题，即难以学习到不同游戏地图之间的通用知识和通用策略。

因此，计算机设备可以确定M个游戏地图中每个游戏地图的参考位置，该参考位置可以为每个游戏地图中的虚拟角色出生点，或者，每个游戏地图中的游戏结束点，或者，每个游戏地图中均有的位置点等，可以根据具体情况具体确定。

进一步地，计算机设备可以根据每个游戏地图的参考位置，对每个游戏地图关联的绝对位置信息进行位置重构，得到每个游戏地图关联的相对位置信息。可以理解的是，以第i个游戏地图为例，计算机设备可以获取第i个游戏地图关联的绝对位置信息，与第i个游戏地图的参考位置之间的位置差值，得到每个游戏地图的相对位置信息。这样，使初始智能体模型在任意两点（即初始智能体模型的当前位置点与参考位置）之间的寻路和对局，可以更好地捕捉不同游戏地图间的共性，防止过拟合到单张游戏地图。可以理解的是，通过每个游戏地图的相对位置信息可以帮助初始智能体模型学习到不同游戏地图间的通用信息，帮助初始智能体模型更好地理解不同游戏地图间的相似性和差异性，提高训练得到的通用智能体模型在多游戏地图环境下的泛化能力。

可选的，以M个游戏地图中的第i个游戏地图为例，i为小于或者等于M的正整数，第i个游戏地图关联的绝对位置信息包括第一绝对位置信息和第二绝对位置信息，第一绝对位置信息反映第i个游戏地图中的游戏元素在虚拟游戏环境中的实际位置，第二绝对位置信息反映初始智能体模型在第i个游戏地图中的实际位置。计算机设备根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个游戏地图关联的绝对位置信息进行位置重构，得到每个游戏地图关联的相对位置信息的具体方式可以包括：根据第i个游戏地图的参考位置，对第一绝对位置信息进行位置重构，得到第i个游戏地图中的游戏元素的相对位置信息。根据第i个游戏地图的参考位置，对第二绝对位置信息进行位置重构，得到初始智能体模型在第i个游戏地图中的相对位置信息。将第i个游戏地图中的游戏元素的相对位置信息，以及初始智能体模型在第i个游戏地图中的相对位置信息，确定为第i个游戏地图关联的相对位置信息。

具体的，计算机设备可以获取第i个游戏地图的参考位置，与第一绝对位置信息之间的位置差值，作为第i个游戏地图中的游戏元素的相对位置信息，即将第一绝对位置信息转化为相对位置信息。同样的，计算机设备可以获取第i个游戏地图的参考位置与第二绝对位置信息之间的位置，得到初始智能体模型在第i个游戏地图中的相对位置信息，即将第二绝对位置信息转化为相对位置信息。将第i个游戏地图中的游戏元素的相对位置信息，以及初始智能体模型在第i个游戏地图中的相对位置信息，确定为第i个游戏地图关联的相对位置信息。这样，可以便于初始智能体模型在M个游戏地图中，均是学习游戏地图中的任意当前点到参考位置之间的相对位置信息，进而基于相对位置信息学习通用知识和通用策略。使初始智能体模型在任意两点（即初始智能体模型的当前位置点与参考位置）之间的寻路和对局，可以更好地捕捉不同游戏地图间的共性，防止过拟合到单张游戏地图。这样，可以增强初始智能体模型在不同游戏地图上的泛化能力，从而使训练得到的通用智能体模型能够更好地适应各种游戏地图环境。

可选的，计算机设备根据第i个游戏地图的参考位置，对第一绝对位置信息进行位置重构，得到第i个游戏地图中的游戏元素的相对位置信息的具体方式可以包括：获取第i个游戏地图的参考位置，与第i个游戏地图中的游戏元素在虚拟游戏环境中的实际位置之间的位置差值。将位置差值，确定为第i个游戏地图中的游戏元素的相对位置信息。

具体的，计算机设备可以将第i个游戏地图的参考位置作为参考点，获取第i个游戏地图的参考位置，与第i个游戏地图中的游戏元素在虚拟游戏环境中的实际位置之间的位置差值，将位置差值，确定为第i个游戏地图中的游戏元素的相对位置信息。具体的，计算机设备可以将第i个游戏地图的参考位置的坐标，与第i个游戏地图中的游戏元素在虚拟游戏环境中的实际位置的坐标之间的坐标差值，确定为第i个游戏地图中的游戏元素的相对位置信息。

例如，以第i个游戏地图的参考位置为虚拟角色出生地为例，可以将第i个游戏地图中的虚拟角色出生地的坐标为（2,3,1），若第i个游戏地图中的某个虚拟植物的实际位置的坐标为（6,9,4），则计算机设备可以获取坐标（6,9,5）与坐标（2,3,1）之间的坐标差值，即（4,6,3），将该坐标差值（4,6,3）确定为第i个游戏地图中的某个虚拟植物的相对位置信息。当然，第i个游戏地图中的虚拟角色出生地的相对位置信息为（0,0,0）。

同样的，计算机设备根据第i个游戏地图的参考位置，对第二绝对位置信息进行位置重构，得到初始智能体模型在第i个游戏地图中的相对位置信息的具体方式可以包括：计算机设备可以获取第i个游戏地图的参考位置，与初始智能体模型在第i个游戏地图中的实际位置之间的模型位置差值，将模型位置差值，确定为初始智能体模型在第i个游戏地图中的相对位置信息。具体的，计算机设备可以将第i个游戏地图的参考位置的坐标，与初始智能体模型在第i个游戏地图中的实际位置的坐标之间的坐标差值，确定为初始智能体模型在第i个游戏地图中的相对位置信息。

S102，根据M个游戏地图分别关联的地图关键信息，确定M个游戏地图分别对应的地图环境感知信息。

具体的，为了增强初始智能体模型在不同游戏地图上的寻路能力，弥补游戏地图迁移时导致游戏环境感知损失的问题，计算机设备可以根据M个游戏地图分别关联的地图关键信息，确定M个游戏地图分别对应的地图环境感知信息。通过地图环境感知信息，可以便于初始智能体模型更好的了解自己在游戏地图中的位置信息，以及周围环境信息，有助于初始智能体模型从各个游戏地图中学习游戏玩法共性，能够获得比单张游戏地图更多的信息，提高初始智能体模型的游戏对局能力。

可选的，M个游戏地图中的第i个游戏地图关联的地图关键信息包括第i个游戏地图的地图资源文件、第i个游戏地图的参考位置，以及初始智能体模型在第i个游戏地图中的实际位置。计算机设备根据M个游戏地图分别关联的地图关键信息，确定M个游戏地图分别对应的地图环境感知信息的具体方式可以包括：从第i个游戏地图对应的地图资源文件中，提取出第i个游戏地图对应的可行走区域。根据第i个游戏地图对应的可行走区域，生成第i个游戏地图对应的目标路径结构图。根据第i个游戏地图的参考位置以及初始智能体模型在第i个游戏地图中的实际位置，确定初始智能体模型在目标路径结构图中的映射位置信息。将目标路径结构图以及初始智能体模型在目标路径结构图中的映射位置信息，确定为第i个游戏地图对应的地图环境感知信息。

具体的，计算机设备可以从第i个游戏地图的地图资源文件中，提取出第i个游戏地图对应的可行走区域。该可行走区域为游戏应用中的虚拟角色可以行走的区域，即智能体可达区域，如该可行走区域可以包括地面、楼梯、平台等可以行走的表面，在游戏地图创建时会设置哪些区域是可行走区域。进一步地，计算机设备可以根据第i个游戏地图对应的可行走区域，生成第i个游戏地图对应的目标路径结构图。该目标路径结构图为第i个游戏地图的路径结构图，以此方式也可以生成M个游戏地图中每个游戏地图的路径结构图。其中，路径结构图可以是指graph结构图，用于反映智能体模型在游戏地图上可以行走的路径。

计算机设备可以将初始智能体模型在第i个游戏地图中的实际位置，映射到目标路径结构图中，根据第i个游戏地图的参考位置，确定初始智能体模型在目标路径结构图中的映射位置信息。计算机设备可以将目标路径结构图以及初始智能体模型在目标路径结构图中的映射位置信息，确定为第i个游戏地图对应的地图环境感知信息。这样，可以便于初始智能体模型知道自己在游戏地图中的位置，提高在游戏地图中的寻路能力。同时，通过地图环境感知信息，可以实现将传统技术中智能体模型在单张游戏地图中的学习寻路和对战的任务，转化为在路径结构图中任意两个位置进行寻路和对局的任务，可以大大简化了游戏地图之间的差异性，提升了训练得到的通用智能体模型在不同游戏地图和新增游戏地图上的泛化能力。

可选的，计算机设备根据第i个游戏地图对应的可行走区域，生成第i个游戏地图对应的目标路径结构图的具体方式可以包括：根据第i个游戏地图中的可行走区域，确定初始智能体模型在第i个游戏地图中的可行走路径。获取可行走路径的行走方向，根据可行走路径以及可行走路径的行走方向，生成第i个游戏地图对应的有向路径结构图。对第i个游戏地图对应的有向路径结构图进行裁剪操作，得到第i个游戏地图对应的目标路径结构图。

具体的，计算机设备可以对第i个游戏地图中的可行走区域进行分析，确定初始智能体在第i个游戏地图中的可行走路径，进一步地可以基于该第i个游戏地图中的可行走路径，生成初始路径结构图，该初始路径结构图可以为有向路径结果图或者无向结构图。在初始路径结构图为有向路径结果图时由于有些路径只能单向行走，初始路径结构图可以为有向路径结果图，计算机设备可以获取第i个游戏地图中的可行走路径的行走方向，以及确定第i个游戏地图中的关键点，如拐角、交叉点。计算机设备可以基于第i个游戏地图中的可行走路径、该可行走路径的行走方向以及第i个游戏地图中的关键点，设生成第i个游戏地图对应的有向路径结构图。

进一步地，计算机设备可以提取第i个游戏地图对应的有向路径结构图中的关键路径，基于提取到的关键路径，对第i个游戏地图对应的有向路径结构图进行裁剪操作，得到第i个游戏地图对应的目标路径结构图。对第i个游戏地图对应的有向路径结构图进行裁剪和剪枝操作，从而简化地图表示并减少计算复杂度。

其中，计算机设备可以使用导航网格（NavMesh）生成算法，根据第i个游戏地图的地图资源文件，生成第i个游戏地图对应的目标路径结构图。具体的，计算机设备可以根据第i个游戏地图的地图资源文件对应的游戏场景划分为一系列的三角形网格（或称为“多边形”）。进一步对这些三角形网格进行简化，移除那些对导航不重要的细节，得到精简后的三角形网格，将精简后的三角形网格转换为一个连续的、无碰撞的导航网格。计算机设备可以使用导航网格（NavMesh）生成算法会检测初始智能体模型是否能够导航网格中的三角形，将初始智能体模型不能通过的三角形被标记为不可通过（例如，不可通过的三角形是一个墙壁或障碍物所在区域），将不可通过的三角形被从导航网格中移除，得到处理后的导航网格。计算机设备可以对处理后的导航网格进行优化，以提高处置智能体模型在处理后的导航网格上的移动效率。如可以调整处理后的导航网格中三角形的形状和大小，或者添加额外的连接点，以便智能体模型可以更平滑地从一个地方移动到另一个地方，进而优化后的导航网格得到第i个游戏地图的目标路径结构图。

可选的，计算机设备根据第i个游戏地图的参考位置以及初始智能体模型在第i个游戏地图中的实际位置，确定初始智能体模型在目标路径结构图中的映射位置信息的具体方式可以包括：将初始智能体模型在第i个游戏地图中的实际位置映射至目标路径结构图中，得到初始智能体模型在目标路径结构图中的第一映射位置。将第i个游戏地图的参考位置映射至目标路径结构图中，得到第i个游戏地图的参考位置在目标路径结构图中的第二映射位置。获取目标路径结构图中的第一映射位置与第二映射位置之间的映射位置距离。将映射位置距离，确定为初始智能体模型在目标路径结构图中的映射位置信息。

具体的，计算机设备可以将初始智能体模型在第i个游戏地图中的实际位置映射至目标路径结构图中，得到初始智能体模型在目标路径结构图中的第一映射位置。可以理解的是，由于目标路径结构图是基于第i个游戏地图的地图资源文件生成的，如目标路径结构图的尺寸可以为第i个游戏地图的缩小尺寸，可以基于将初始智能体模型在第i个游戏地图中的实际位置，在目标路径结构图中确定对应的位置，得到初始智能体模型在目标路径结构图中的第一映射位置。

同样的，计算机设备可以将第i个游戏地图的参考位置映射至目标路径结构图中，得到第i个游戏地图的参考位置在目标路径结构图中的第二映射位置。这样，第一映射位置与第二映射位置均为目标路径结构图中的两个位置，计算机设备可以获取目标路径结构图中的第一映射位置与第二映射位置之间的映射位置距离，将映射位置距离，确定为初始智能体模型在目标路径结构图中的映射位置信息。这样便可以实现初始智能体模型在任意路径结构图中的任意两点之间寻路和对局，大大简化不同游戏地图间的差异性，提升了初始智能体模型在不同游戏地图和新增游戏地图的能力。

当然，计算机设备可以根据第i个游戏地图的地图资源文件，确定第i个游戏地图的深度信息、高度信息以及光线投射信息，将深度信息、高度信息、光线投射信息、目标路径结构图以及初始智能体模型在目标路径结构图中的映射位置信息，确定为第i个游戏地图对应的地图环境感知信息。这样，进一步地，提高初始智能体模型的寻路能力。

如图4a所示，图4a是本申请实施例提供的一种地图资源文件的示意图，如图4a所示，图4a展示了第i个游戏地图的地图资源文件，可见，图4a所示的第i个游戏地图的地图资源文件可以还原第i个游戏地图的游戏场景，如展示了第i个游戏地图中的游戏元素（如虚拟建筑、虚拟物品、虚拟植物）的空间结构、实际位置等信息。如图4b所示，图4b是本申请实施例提供的一种可行走区域的示意图，图4b展示了第i个游戏地图中的可行走区域。具体的，第i个游戏地图在构建时会设置哪些区域为可行走区域，哪些区域为不可行走区域，计算机设备可以根据在第i个游戏地图的地图资源文件中记录的可行走信息，生成第i个游戏地图中的可行走区域。如图4c所示，图4c是本申请实施例提供的一种初始路径结构图的示意图，图4c展示了第i个游戏地图的初始路径结构图，该第i个游戏地图的初始路径结构图可以为无向结构图，当然也可以为有向路径结构图。其中，计算机设备可以通过导航网格生成算法，根据第i个游戏地图中的可行走区域确定第i个游戏地图的初始路径结构图。如图4d所示，图4d是本申请实施例提供的一种目标路径结构图的示意图，如图4d所示，图4d展示了第i个游戏地图的目标路径结构图，该目标路径结构图展示了第i个游戏地图中的关键路径，以及关键路径中的节点编号，相对于初始路径结构图而言，可以降低初始智能体模型的计算复杂度。

S103，控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务，得到初始智能体模型在M个游戏地图中分别对应的任务执行结果。

具体的，计算机设备可以将M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，以及M个游戏地图分别对应的对局任务，输入至初始智能体模型。控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，以及M个游戏地图分别对应的对局任务，确定在M个游戏地图中的预测对局动作和预测对局策略，根据预测对局动作和预测对局策略，在M个游戏地图中执行对局任务，得到初始智能体模型在M个游戏地图中分别对应的任务执行结果。可以理解的是，初始智能体模型可以根据输入的信息，自动确定当前需要执行的动作和策略，以执行对应的对局任务。

可选的，以M个游戏地图中的第i个游戏地图为例，M个游戏地图中第i个游戏地图的游戏参数包括第i个游戏地图的地图标识、地图资源文件，以及初始智能体模型在第i个游戏地图中的对局状态参数。计算机设备控制初始智能体模型，在M个游戏地图中执行对局任务的具体方式可以包括：移除第i个游戏地图的地图资源文件中包括的游戏元素在虚拟游戏环境中的实际位置，得到第i个游戏地图的通用地图资源文件。通过初始智能体模型，对第i个游戏地图对应的通用地图资源文件、相对位置信息、地图标识和地图环境感知信息，以及初始智能体模型在第i个游戏地图中的对局状态参数进行特征预处理，得到第i个游戏地图对应的游戏对局特征。根据游戏对局特征，在第i个游戏地图中执行对局任务，得到初始智能体模型在第i个游戏地图对应的任务执行结果。

具体的，为避免M个游戏地图中每个游戏地图的绝对位置信息特征，导致初始智能体模型产生学习歧义和学习困难的问题，计算机设备可以移除第i个游戏地图的地图资源文件中包括的游戏元素在虚拟游戏环境中的实际位置，得到第i个游戏地图的通用地图资源文件。这样，可以使初始智能体模型更好地捕捉不同游戏地图间的共性，防止过拟合到单张游戏地图。进一步地，计算机设备可以通过初始智能体模型，对第i个游戏地图对应的通用地图资源文件、相对位置信息、地图标识和地图环境感知信息，以及初始智能体模型在第i个游戏地图中的对局状态参数进行特征预处理，得到第i个游戏地图对应的游戏对局特征。

其中，初始智能体模型在第i个游戏地图中的对局状态参数可以包括初始智能体模型的自身角色信息、队友角色信息以及敌对角色信息等。其中，初始智能体模型的自身角色信息可以包括在第i个游戏地图中的当前动作、当前可用技能、当前战斗力等。其中，队友角色信息可以包括队友位置信息、队友状态信息等，敌对角色信息可以包括敌对位置信息、敌对状态信息等。进一步地，计算机设备可以通过初始智能体模型，对游戏对局特征进行分析，以在第i个游戏地图中执行对局任务，得到初始智能体模型在第i个游戏地图对应的任务执行结果。

可选的，计算机设备进行特征预处理的具体方式可以包括：通过初始智能体模型中的感知层，将第i个游戏地图的地图标识嵌入至第i个游戏地图关联的相对位置信息中，得到第i个游戏地图对应的嵌入相对位置特征。对第i个游戏地图对应的通用地图资源文件和地图环境感知信息，以及初始智能体模型在第i个游戏地图中的对局状态参数进行特征转换，得到第i个游戏地图对应的初始对局特征。对嵌入相对位置特征和初始对局特征进行拼接，得到第i个游戏地图对应的游戏对局特征。

具体的，初始智能体模型包括感知层，该感知层可以为MLP（即多层感知器，Multilayer Perceptron），MLP是一种常见的前馈神经网络（Feedforward NeuralNetwork）。MLP由多个全连接层（也称为密集连接层或线性层）组成，这些层之间通常使用非线性激活函数来增加模型的复杂性，从而能够逼近更复杂的函数。MLP的基本结构如下：输入层（Input Layer）：接收原始数据作为输入。隐藏层（Hidden Layers）：位于输入层和输出层之间的层，用于学习数据的表示，MLP可以有一个或多个隐藏层。输出层（Output Layer）：产生模型的最终输出。在训练过程中，MLP使用反向传播算法（Backpropagation）和梯度下降（Gradient Descent）来更新权重和偏差，以最小化损失函数（如均方误差、交叉熵等）。

具体的，初始智能体模型包括的感知层包括第一感知层、第二感知层以及第三感知层，计算机设备可以通过初始智能体模型中的第一感知层，对第i个游戏地图的地图标识进行特征转换，得到第i个游戏地图的地图标识特征。同时，计算机设备可以通过初始智能体模型中的第二感知层，对第i个游戏地图关联的相对位置信息进行特征转换，得到第i个游戏地图关联的相对位置特征。进一步地，计算机设备可以通过初始智能体模型中的第三感知层，将第i个游戏地图的地图标识特征嵌入至第i个游戏地图关联的相对位置特征中，得到第i个游戏地图对应的嵌入相对位置特征。这样，便于初始智能体模型更好地分辨处于哪个游戏地图中。

同时，计算机设备可以通过初始智能体模型中的卷积层，对第i个游戏地图对应的通用地图资源文件和地图环境感知信息进行卷积处理，得到第i个游戏地图中的地图环境特征。计算机设备可以通过初始智能体模型中的注意力层，初始智能体模型在第i个游戏地图中的对局状态参数进行注意力特征提取，得到第i个游戏地图中的角色感知特征。进一步地，计算机设备可以对第i个游戏地图中的地图环境特征以及第i个游戏地图中的角色感知特征等特征进行拼接，得到第i个游戏地图对应的初始对局特征。计算机设备可以对嵌入相对位置特征和初始对局特征进行拼接，得到第i个游戏地图对应的游戏对局特征。

可选的，计算机设备根据游戏对局特征，在第i个游戏地图中执行对局任务的具体方式可以包括：通过初始智能体模型中的神经网络层，移除游戏对局特征中的无效特征，得到有效游戏对局特征。从有效游戏对局特征中筛选出重要对局特征，根据重要对局特征生成状态更新参数。根据状态更新参数，对神经网络中的记忆单元状态进行更新，得到更新后的记忆单元状态。根据更新后的记忆单元状态以及有效游戏对局特征，确定初始智能体模型在第i个游戏地图中的预测对局动作和预测对局策略。根据预测对局动作和预测对局策略，在第i个游戏地图执行对局任务，得到第i个游戏地图对应的任务执行结果。

其中，初始智能体模型包括神经网络层，该神经网络层可以为LSTM网络（即长短期记忆网络，Long Short-Term Memory），LSTM网络是一种特殊的循环神经网络（RNN）架构，设计用来解决传统RNN在处理序列数据时遇到的长期依赖问题。LSTM通过引入“门”的概念来控制信息的流动，从而能够学习长期依赖关系。这些门包括：输入门（Input Gate）：决定哪些新信息将被存储在单元状态中；遗忘门（Forget Gate）：决定哪些信息将从单元状态中被遗忘或丢弃；输出门（Output Gate）：控制单元状态中的信息如何被输出到LSTM的当前输出。

具体的，计算机设备可以通过初始智能体模型中的神经网络层包括的遗忘门，除游戏对局特征中的无效特征，得到有效游戏对局特征。通过神经网络层包括的输入门，从有效游戏对局特征中筛选出重要对局特征，根据重要对局特征生成状态更新参数。通过神经网络层包括的输出门，根据状态更新参数，对神经网络中的记忆单元状态进行更新，得到更新后的记忆单元状态。进而根据更新后的记忆单元状态以及有效游戏对局特征，确定初始智能体模型在第i个游戏地图中的预测对局动作和预测对局策略。具体的，计算机设备可以通过初始智能体模型，预测初始智能体模型在M个游戏地图中的每一帧游戏帧中的对局动作，和下一帧游戏帧的对局策略，直到对局结束。可以理解的是，通过初始智能体模型，自动在M个游戏地图中预测每一游戏帧的对局动作，以及执行该每一游戏帧的对局动作，直到对局结束，得到M个游戏地图分别对应的任务执行结果。

可以理解的是，以第i个游戏地图为例，控制初始智能体模型在第i个游戏地图中执行对局任务时，初始智能体模型可以根据在第一时刻的相对位置信息、地图环境感知信息、游戏参数以及对局任务，确定第二时刻的对局动作和对局策略，第二时刻为第一时刻的下一时刻。在第i个游戏地图中执行第二时刻的对局动作，得到游戏环境反馈信息，此时，环境反馈信息指示初始智能体模型在第二时刻的相对位置信息、地图环境感知信息、游戏参数，与初始智能体模型在第一时刻的相对位置信息、地图环境感知信息、游戏参数会发生变化。初始智能体模型可以根据初始智能体模型在第二时刻的相对位置信息、地图环境感知信息、游戏参数以及对局策略，预测第三时刻的对局动作和对局策略。在第i个游戏地图中执行第三时刻的对局动作和对局策略，继续得到游戏环境反馈信息，继续进行对局，直到对局结束，得到初始智能体模型的轨迹信息以及任务执行结果。

S104，根据M个游戏地图分别对应的任务执行结果，对初始智能体模型中的模型参数进行参数调整，得到通用智能体模型。

具体的，计算机设备可以根据M个游戏地图分别对应的任务执行结果，检测初始智能体模型在M个游戏地图中的对局能力，通过强化学习算法，对初始智能体模型中的模型参数进行参数调整，得到通用智能体模型。该强化学习算法可以为PPO算法、A3C算法、DDPG算法等。其中，PPO（即Proximal Policy Optimization）是一种策略梯度方法，它在每次更新时限制新策略和旧策略之间的差异，从而避免过大的策略更新导致的不稳定性。A3C算法（Asynchronous Advantage Actor-Critic）是一种基于Actor-Critic架构的异步强化学习算法，它使用多个并行的环境来同时收集经验，并通过异步的方式更新网络参数。A3C结合了值函数估计（Critic）和策略函数估计（Actor），其中值函数用于评估状态的价值，而策略函数用于选择动作。DDPG算法（Deep Deterministic Policy Gradient）是一种基于深度学习的确定性策略梯度方法，使用深度神经网络来逼近值函数和策略函数，通过在策略网络中引入确定性策略来选择动作，从而避免了在连续动作空间中进行采样的问题。

这样，通过多个游戏地图的样本对局数据融合训练得到一个通用智能体模型，该一个通用智能体模型可以适应多个游戏地图，通用智能体模型具有较高的通用性和适应性，可以降低智能体模型的训练成本和提高智能体模型的训练效率。可以理解的是，本申请实施例中训练得到的通用智能体模型可以适用于与M个游戏地图的游戏模式相同的其他任意游戏地图，在遇到与M个游戏地图的游戏模式相同的新增游戏地图时，无需训练通用智能体模型也能有较拟人的表现，这将极大地提高研发效率，降低开发和运营成本，同时为玩家提供更加稳定和高效的游戏体验。

可选的，计算机设备对初始智能体模型中的模型参数进行参数调整的具体方式可以包括：根据M个游戏地图中的第i个游戏地图对应的任务执行结果，生成用于反映初始智能体模型在第i个游戏地图中的任务执行质量的游戏回报收益；i为小于或者等于M的正整数。根据M个游戏地图分别对应的游戏回报收益以及初始智能体模型对应的强化学习函数，确定初始智能体模型的参数更新梯度。根据参数更新梯度，对初始智能体模型中的模型参数进行参数调整，得到参数调整后的初始智能体模型。若参数调整后的初始智能体模型满足训练停止条件，则将参数调整后的初始智能体模型确定为智能体模型。

具体的，以M个游戏地图中的第i个游戏地图为例，第i个游戏地图对应的任务执行结果可以包括任务执行情况、任务执行时长以及初始智能体模型的最终状态等，第i个游戏地图对应的任务执行情况可以用于反映第i个游戏地图的对局任务执行成功或者执行失败。计算机设备可以根据第i个游戏地图对应的任务执行情况、任务执行时长以及初始智能体模型的最终状态等，生成用于反映初始智能体模型在第i个游戏地图中的任务执行质量的游戏回报收益。可以理解的是，初始智能体模型在第i个游戏地图中执行任务成功、任务执行时长短于时长阈值以及初始智能体模型的最终状态优于目标状态，则游戏回报收益越高。

进一步地，计算机设备可以基于M个游戏地图分别对应的游戏回报收益，以及初始智能体模型对应的强化学习函数，综合确定初始智能体模型的参数更新梯度。根据参数更新梯度，对初始智能体模型中的模型参数进行参数调整，得到参数调整后的初始智能体模型，若参数调整后的初始智能体模型满足训练停止条件，则将参数调整后的初始智能体模型确定为智能体模型。其中，训练停止条件可以是指初始智能体模型的性能达到性能阈值，或者，初始智能体模型的迭代时间步达到目标迭代时间步（如目标迭代时间步为设置的最大迭代时间步）。

当然，计算机设备可以根据M个游戏地图中每个游戏地图对应的游戏回报收益以及初始智能体模型对应的强化学习函数，确定每个游戏地图对应的参数更新梯度，进而根据每个游戏地图对应的参数更新梯度，对初始智能体模型中的模型参数进行参数调整，即分别根据M个游戏地图对初始智能体模型进行参数更新。

如图5所示，图5是本申请实施例提供的一种多地图融合训练通用智能体模型的示意图，如图5所示，计算机设备可以复制初始智能体模型的运行脚本，得到多个初始智能体模型的运行脚本，通过计算机设备的CPUs（即CPU1、CPU2、…、CPUn），在M个游戏地图中每个游戏地图中运行初始智能体模型的运行脚本。以第i个游戏地图为例，在第i个游戏地图中运行初始智能体模型的运行脚本，其中，计算机设备可以为初始智能体模型设置游戏参数（如设置位于第i个游戏地图的目标位置上，以及设置初始智能体模型的对局状态参数等），在第i个游戏地图中，控制初始智能体模型进行自对弈，进而得到初始智能体模型在第i个游戏地图上的对局数据，作为游戏地图数据i。游戏地图数据i包括第i个游戏地图关联的绝对位置信息、第i个游戏地图的地图资源文件、第i个游戏地图的地图标识、N个智能体在第i个游戏地图中分别的对局状态参数等。

进一步地，计算机设备可以通过数据传输工具，将M个游戏地图的游戏地图数据，即游戏地图数据1（即初始智能体模型在第一个游戏地图中的对局数据）、游戏地图数据2（即初始智能体模型在第二个游戏地图中的对局数据）、…、游戏地图数据M（即初始智能体模型在第M个游戏地图中的对局数据）进行打包，得到样本对局数据，即地图样本数据1、游戏地图样本数据2、…、游戏地图样本数据M。将样本对局数据发送至计算机设备的GPUs，通过计算机设备的GPUs，根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个游戏地图关联的绝对位置信息进行位置重构，得到每个游戏地图关联的相对位置信息。其中，数据传输工具可以为mempool，该mempool是"内存池"（Memory Pool）的缩写，是一种内存管理技术。在内核中，内存池通常用作后备缓存，以确保在内存紧张时关键应用仍然能够成功申请内存。可以将样本对局数据存储在mempool，由计算机设备的GPUs从mempool中获取。可以理解的是，相比于针对一个游戏地图训练一个智能体模型而言，本申请实施例是在M个游戏地图中产生样本对局数据。其中，需要将不同游戏地图的数据，按对应的地图标注分开，以帮助模型更好地学习不同游戏地图，以及便于让初始智能体模型更好地分辨处于哪张地图。

根据M个游戏地图分别关联的地图关键信息，确定M个游戏地图分别对应的地图环境感知信息。控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数进行特征预处理，得到每个游戏地图对应的游戏对局特征。进而根据每个游戏地图对应的游戏对局特征，在M个游戏地图中执行对局任务，得到初始智能体模型在M个游戏地图中分别对应的任务执行结果。根据M个游戏地图分别对应的任务执行结果，对初始智能体模型中的模型参数进行参数调整，得到通用智能体模型。

可以理解的是，计算机设备可以通过初始智能体模型，对每个游戏地图的数据进行特征预处理，以第i个游戏地图为例，计算机设备可以通过初始智能体模型中的第一感知层，对第i个游戏地图的地图标识进行特征转换，得到第i个游戏地图的地图标识特征。同时，计算机设备可以通过初始智能体模型中的第二感知层，对第i个游戏地图关联的相对位置信息进行特征转换，得到第i个游戏地图关联的相对位置特征。进一步地，计算机设备可以通过初始智能体模型中的第三感知层，将第i个游戏地图的地图标识特征嵌入至第i个游戏地图关联的相对位置特征中，得到第i个游戏地图对应的嵌入相对位置特征。这样，便于初始智能体模型更好地分辨处于哪个游戏地图中。

进一步地，计算机设备可以对第i个游戏地图对应的通用地图资源文件和地图环境感知信息，以及初始智能体模型在第i个游戏地图中的对局状态参数进行特征转换，得到第i个游戏地图对应的初始对局特征。通过初始智能体模型中的拼接层，对嵌入相对位置特征和初始对局特征进行拼接，得到第i个游戏地图对应的游戏对局特征。进而可以根据第i个游戏地图对应的游戏对局特征，确定初始智能体模型分别对应的对局动作和对局策略，即根据初始智能体模型在第i个游戏地图中的对局数据，确定初始智能体模型对应的对局动作和对局策略。根据处理后的数据和特征，训练出一个能够适应多个地图的通用智能体模型。在训练过程中，通用智能体模型会学习到在不同游戏地图上的通用对局策略和通用对局知识，从而提高在多游戏地图环境下的表现。

如图6所示，图6是本申请实施例提供的一种通用智能体模型训练的示意图，如图6所示，计算机设备可以获取初始智能体模型在M个游戏地图中的样本对局数据，即游戏地图数据1（即初始智能体模型在第一个游戏地图中的对局数据）、游戏地图数据2（即初始智能体模型在第二个游戏地图中的对局数据）、…、游戏地图数据M（即初始智能体模型在第M个游戏地图中的对局数据）。计算机设备可以移除每个游戏地图数据包括的地图资源文件中的游戏元素在虚拟游戏环境中的实际位置，以及生成每个游戏地图的地图环境感知信息，得到每个游戏地图的地图通用特征。

同时，计算机设备可以根据每个游戏地图的参考位置，对每个游戏地图数据关联的绝对位置信息（即地图特异特征）进行位置重构，将每个游戏地图数据关联的绝对位置信息转化为相对位置信息，得到每个游戏地图数据关联的相对位置信息。通过初始智能体模型中的感知层（即多层感知器），对每个游戏地图的地图通用特征进行特征提取，得到每个游戏地图的初始对局特征。进一步根据初始智能体模型中的长短期记忆网络，对每个游戏地图的初始对局特征以及每个游戏地图数据关联的相对位置信息进行特征学习，输出初始智能体模型在M个游戏地图中的对局动作和对局策略。

计算机设备可以控制初始智能体模型在M个游戏地图分别对应的游戏环境中，即游戏地图环境1（即第一个游戏地图对应的游戏地图环境）、游戏地图环境2（即第二个游戏地图对应的游戏地图环境）、…、游戏地图环境M（即第M个游戏地图对应的游戏地图环境），执行对应的对局动作和对局策略，以执行M个游戏地图分别对应的对局任务，根据在M个游戏地图中的游戏回报收益对初始智能体模型进行训练，得到通过智能体模型。

具体的，本申请实施例的通用智能体模型的训练过程可以包括但不限于以下步骤：步骤一，计算机设备可以根据M个游戏地图分别对应的地图资源文件生成提取目标路径图结构，用于后续初始智能体模型的路径规划和策略学习。步骤二，计算机设备可以将每个游戏地图关联的绝对位置信息转化为相对位置信息，即将每个游戏地图中的游戏元素的绝对位置信息转化为相对位置信息，将初始智能体模型在每个游戏地图中的绝对位置信息转化为相对位置信息（即初始智能体模型在每个游戏地图中的实际位置，与对应游戏地图的虚拟角色出生点之间的坐标差值）。同时，计算机设备可以获取初始智能体模型在目标路径结构图中的第一映射位置，与第i个游戏地图的参考位置在目标路径结构图中的第二映射位置之间的映射位置距离，加上对应游戏地图的地图id（即地图标识），嵌入到通用地图资源文件、游戏参数等特征中，以辅助初始智能体模型区分不同游戏地图。

步骤三，计算机设备可以加载初始智能体模型（该初始智能体模型可以为神经网络模型），随机初始化初始智能体模型，即准备初始智能体模型，为训练过程做好准备。步骤四，加载M个游戏地图分别对应的游戏环境，在多机器并行启动初始智能体模型的运行脚本，按比例均匀进行多张不同游戏地图的自对弈，得到<状态，目标，动作>样本对局数据，并计算得到对应的游戏回报收益，分地图发送给计算机设备中的GPUs。其中，<状态，目标，动作>中的状态是指初始智能体模型在游戏地图中的对局状态参数，目标是指初始智能体模型在游戏地图中的对局任务，动作是指初始智能体模型在游戏地图中的需要执行的动作。步骤五，计算机设备中的GPUs可以根据样本对局数据，根据PPO算法（也可以是指其他强化学习算法）对初始智能体模型进行参数更新，以优化初始智能体模型的策略。步骤六，计算机设备可以评估初始智能体模型的模型能力，如果达到能力上限或最大迭代时间步，则停止训练保存最终模型，得到通用智能体模型。否则，回到步骤4继续训练，直至满足停止条件。步骤七，如果需要通用智能体模型投放到新增游戏地图，可以通过步骤一和步骤二得到新增游戏地图的相对位置信息和地图环境感知信息。此时可直接使用通用智能体模型，根据新增游戏地图的相对位置信息和地图环境感知信息，以及其他游戏参数，在新增游戏地图中执行对局任务，也可进行根据在新增游戏地图中的对局结果对通用智能体模型进行恢复训练或蒸馏，得到更佳的模型表现，提高通用智能体模型的性能。

进一步地，请参见图7，图7是本申请实施例提供的一种数据处理方法的流程示意图。如图7所示，该方法可由图1中的任意终端设备来执行，也可以由图1中的服务器10来执行，还可以由图1中的终端设备和服务器共同执行，本申请中用于执行该数据处理方法的设备可以统称为计算机设备。其中，该数据处理方法可以包括但不限于如下步骤：

S201，根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个游戏地图关联的绝对位置信息进行位置重构，得到每个游戏地图关联的相对位置信息。

S202，根据M个游戏地图分别关联的地图关键信息，确定M个游戏地图分别对应的地图环境感知信息。

S203，控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务，得到初始智能体模型在M个游戏地图中分别对应的任务执行结果。

S204，根据M个游戏地图分别对应的任务执行结果，对初始智能体模型中的模型参数进行参数调整，得到通用智能体模型。

具体的，本申请实施例中步骤S201-步骤S204的内容可以参见上述步骤S101-步骤S104的内容，本申请实施例在此不再赘述。

S205，根据虚拟游戏环境中的新增游戏地图的参考位置，对新增游戏地图关联的绝对位置信息进行位置重构，得到新增游戏地图关联的相对位置信息。

具体的，在训练得到通用智能体模型后，通用智能体模型具有较高的适用性和泛化性，在虚拟游戏环境中新增游戏地图时，可以直接应用于新增游戏地图。可以理解的是，计算机设备可以将通用智能体模型应用于新增游戏地图中，实现通过通用智能体模型在新增游戏地图中执行对局任务，而不用另外训练新增游戏地图对应的智能体模型，可以提高智能体模型的训练效率和降低智能体模型的训练成本。具体的，计算机设备可以将新增游戏地图的绝对位置信息转换为相对位置信息，以去除新增游戏地图中的地图特异特征。计算机设备可以新增游戏地图的参考位置，对新增游戏地图关联的绝对位置信息进行位置重构，得到新增游戏地图关联的相对位置信息，将新增游戏地图转换为通用游戏地图。这样，通用智能体模型可以将在M个游戏地图中学习到的对局知识和对局策略，应用在新增游戏地图，以实现通用智能体模型可以直接应用于新增游戏地图。

其中，对新增游戏地图关联的绝对位置信息进行位置重构的内容，可以参考上述对第i个游戏地图关联的绝对位置信息进行位置重构的内容，本申请实施例在此不在赘述。

S206，根据新增游戏地图对应的地图关键信息，确定新增游戏地图对应的地图环境感知信息。

具体的，计算机设备可以根据新增游戏地图对应的地图资源文件，确定新增游戏地图对应的地图环境感知信息。这样，有助于弥补不同游戏地图迁移导致的环境感知损失，提高通用智能体模型在新增游戏地图上的泛化能力，提高通用智能体模型在新增游戏地图上的寻路能力。其中，确定新增游戏地图分别对应的地图环境感知信息的具体内容，可以参见上述确定第i个游戏地图对应的地图环境感知信息的内容，本申请实施例在此不再赘述。

S207，控制通用智能体模型，根据新增游戏地图对应的相对位置信息和地图环境感知信息，以及新增游戏地图对应的游戏参数，在新增游戏地图中与游戏玩家角色进行对局，得到通用智能体模型在新增游戏地图中对应的对局结果。

具体的，计算机设备可以控制通用智能体模型，根据新增游戏地图对应的相对位置信息和地图环境感知信息，以及通用智能体模型在新增游戏地图中对应的游戏参数，在新增游戏地图中与游戏玩家角色进行对局，得到通用智能体模型在新增游戏地图中对应的对局结果。可以理解的是，通用智能体模型可以利用在M个游戏地图上学习到的通用策略和通用知识，在新增游戏地图中执行对局任务。由此可见，本申请实施例中的通用智能体模型可以应用在与M个游戏地图的游戏模式相同的任意游戏地图中，而不用针对每个游戏地图训练得到一个智能体模型，可以提高智能体模型的训练效率和降低智能体模型的训练成本。

可选的，计算机设备也可以基于新增游戏地图上的对局结果，对通用智能体模型进行恢复训练和蒸馏，使通用智能体模型能在新增游戏地图中学习新的对局知识和对局策略，进一步提高通用智能体模型的性能。具体的，计算机设备可以根据新增游戏地图对应的对局结果，生成用于反映通用智能体模型在新增游戏地图的对局质量的游戏回报收益。根据新增游戏地图对应的游戏回报收益，对通用智能体模型中的模型参数进行调整，得到调整后的通用智能体模型。

可见，相比于从零训练一个新增游戏地图对应的智能体模型，本申请实施例根据新增游戏地图对应的对局结果，对通用智能体模型进行训练，仅需少量训练即可得到在新增游戏地图中表现优异的通用智能体模型，可以降低智能体模型的训练成本和提高智能体模型的训练效率。可以理解的是，本申请实施例借助训练完成的通用智能体模型，可以在通用智能体模型中的已有模型参数的基础上，进行恢复训练和蒸馏，快速得到调整后的通用智能体模型，该调整后的通用智能体模型可以在新增游戏地图进行优秀的对局表现。这样，调整后的通用智能体模型学习到在新增游戏地图上的寻路能力和对局能力，进一步提高调整后的通用智能体模型在其他新增游戏地图中的对局能力，提高调整后的通用智能体模型的性能。

本申请实施例提出一种通用智能体模型训练方法，通过根据M个游戏地图融合训练得到一个通用智能体模型，M为大于1的整数，该通用智能体模型具有较高的通用性和适应性，可以适应多个游戏地图，而不用针对不同游戏地图训练一个智能体模型，降低智能体模型的训练成本和提高智能体模型的训练效率。具体的，通过将M个游戏地图中每个游戏地图关联的绝对位置信息转化为相对位置信息，便于初始智能体模型更好地捕捉不同游戏地图间的共性，避免出现初始智能体模型在M个游戏地图中出现学习歧义和学习困难的问题。同时，通过每个游戏地图对应的地图环境感知信息，增强初始智能体模型在不同游戏地图上的寻路能力，弥补游戏地图迁移时导致游戏环境感知损失的问题。控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务，对初始智能体模型进行训练，得到通用智能体模型。这样，可以使初始智能体模型在M个游戏地图中学习通用对局知识和通用对局策略，实现训练得到的通用智能体模型应用于任意游戏地图，而不用针对不同游戏地图训练一个智能体模型，可以极大地降低智能体模型训练成本和提高智能体模型的训练效率。本申请实施例还可以借助训练完成的通用智能体模型，可以在通用智能体模型中的已有模型参数的基础上，进行恢复训练和蒸馏，快速得到调整后的通用智能体模型，该调整后的通用智能体模型可以在新增游戏地图进行优秀的对局表现。这样，调整后的通用智能体模型学习到在新增游戏地图上的寻路能力和对局能力，进一步提高调整后的通用智能体模型在其他新增游戏地图中的对局能力，提高调整后的通用智能体模型的性能。

进一步地，请参见图8，图8是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如，该数据处理装置为一个应用软件；该数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示，该数据处理装置可以为区块链网络中的任意区块链节点。该数据处理装置可以包括：第一重构模块11、第一确定模块12、第一执行模块13、第一调整模块14、第二重构模块15、第二确定模块16、第二执行模块17、生成模块18以及第二调整模块19。

第一重构模块11，用于根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个游戏地图关联的绝对位置信息进行位置重构，得到每个游戏地图关联的相对位置信息；

第一确定模块12，用于根据M个游戏地图分别关联的地图关键信息，确定M个游戏地图分别对应的地图环境感知信息；

第一执行模块13，用于控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务，得到初始智能体模型在M个游戏地图中分别对应的任务执行结果；

第一调整模块14，用于根据M个游戏地图分别对应的任务执行结果，对初始智能体模型中的模型参数进行参数调整，得到通用智能体模型。

其中，M个游戏地图中的第i个游戏地图关联的绝对位置信息包括第一绝对位置信息和第二绝对位置信息，第一绝对位置信息反映第i个游戏地图中的游戏元素在虚拟游戏环境中的实际位置，第二绝对位置信息反映初始智能体模型在第i个游戏地图中的实际位置；i为小于或者等于M的正整数；

第一重构模块11具体用于：

根据第i个游戏地图的参考位置，对第一绝对位置信息进行位置重构，得到第i个游戏地图中的游戏元素的相对位置信息；

根据第i个游戏地图的参考位置，对第二绝对位置信息进行位置重构，得到初始智能体模型在第i个游戏地图中的相对位置信息；

将第i个游戏地图中的游戏元素的相对位置信息，以及初始智能体模型在第i个游戏地图中的相对位置信息，确定为第i个游戏地图关联的相对位置信息。

其中，第一重构模块11还具体用于：

获取第i个游戏地图的参考位置，与第i个游戏地图中的游戏元素在虚拟游戏环境中的实际位置之间的位置差值；

将位置差值，确定为第i个游戏地图中的游戏元素的相对位置信息。

其中，M个游戏地图中的第i个游戏地图关联的地图关键信息包括第i个游戏地图的地图资源文件、第i个游戏地图的参考位置，以及初始智能体模型在第i个游戏地图中的实际位置；i为小于或者等于M的正整数；

第一确定模块12具体用于：

从第i个游戏地图对应的地图资源文件中，提取出第i个游戏地图对应的可行走区域；

根据第i个游戏地图对应的可行走区域，生成第i个游戏地图对应的目标路径结构图；

根据第i个游戏地图的参考位置以及初始智能体模型在第i个游戏地图中的实际位置，确定初始智能体模型在目标路径结构图中的映射位置信息；

将目标路径结构图以及初始智能体模型在目标路径结构图中的映射位置信息，确定为第i个游戏地图对应的地图环境感知信息。

第一确定模块12还具体用于：

根据第i个游戏地图中的可行走区域，确定初始智能体模型在第i个游戏地图中的可行走路径；

获取可行走路径的行走方向，根据可行走路径以及可行走路径的行走方向，生成第i个游戏地图对应的有向路径结构图；

对第i个游戏地图对应的有向路径结构图进行裁剪操作，得到第i个游戏地图对应的目标路径结构图。

第一确定模块12还具体用于：

将初始智能体模型在第i个游戏地图中的实际位置映射至目标路径结构图中，得到初始智能体模型在目标路径结构图中的第一映射位置；

将第i个游戏地图的参考位置映射至目标路径结构图中，得到第i个游戏地图的参考位置在目标路径结构图中的第二映射位置；

获取目标路径结构图中的第一映射位置与第二映射位置之间的映射位置距离；

将映射位置距离，确定为初始智能体模型在目标路径结构图中的映射位置信息。

其中，M个游戏地图中第i个游戏地图的游戏参数包括第i个游戏地图的地图标识和地图资源文件，以及初始智能体模型在第i个游戏地图中的对局状态参数；i为小于或者等于M的正整数；

第一执行模块13具体用于：

移除第i个游戏地图的地图资源文件中包括的游戏元素在虚拟游戏环境中的实际位置，得到第i个游戏地图的通用地图资源文件；

通过初始智能体模型，对第i个游戏地图对应的通用地图资源文件、相对位置信息、地图标识和地图环境感知信息，以及初始智能体模型在第i个游戏地图中的对局状态参数进行特征预处理，得到第i个游戏地图对应的游戏对局特征；

根据游戏对局特征，在第i个游戏地图中执行对局任务，得到初始智能体模型在第i个游戏地图对应的任务执行结果。

第一执行模块13还具体用于：

通过初始智能体模型中的感知层，将第i个游戏地图的地图标识嵌入至第i个游戏地图关联的相对位置信息中，得到第i个游戏地图对应的嵌入相对位置特征；

对第i个游戏地图对应的通用地图资源文件和地图环境感知信息，以及初始智能体模型在第i个游戏地图中的对局状态参数进行特征转换，得到第i个游戏地图对应的初始对局特征；

对嵌入相对位置特征和初始对局特征进行拼接，得到第i个游戏地图对应的游戏对局特征。

第一执行模块13还具体用于：

通过初始智能体模型中的神经网络层，移除游戏对局特征中的无效特征，得到有效游戏对局特征；

从有效游戏对局特征中筛选出重要对局特征，根据重要对局特征生成状态更新参数；

根据状态更新参数，对神经网络中的记忆单元状态进行更新，得到更新后的记忆单元状态；

根据更新后的记忆单元状态以及有效游戏对局特征，确定初始智能体模型在第i个游戏地图中的预测对局动作和预测对局策略；

根据预测对局动作和预测对局策略，在第i个游戏地图执行对局任务，得到第i个游戏地图对应的任务执行结果。

其中，第一调整模块14具体用于：

根据M个游戏地图中的第i个游戏地图对应的任务执行结果，生成用于反映初始智能体模型在第i个游戏地图中的任务执行质量的游戏回报收益；i为小于或者等于M的正整数；

根据M个游戏地图分别对应的游戏回报收益以及初始智能体模型对应的强化学习函数，确定初始智能体模型的参数更新梯度；

根据参数更新梯度，对初始智能体模型中的模型参数进行参数调整，得到参数调整后的初始智能体模型；

若参数调整后的初始智能体模型满足训练停止条件，则将参数调整后的初始智能体模型确定为智能体模型。

其中，数据处理装置还包括：

第二重构模块15，用于根据虚拟游戏环境中的新增游戏地图的参考位置，对新增游戏地图关联的绝对位置信息进行位置重构，得到新增游戏地图关联的相对位置信息；

第二确定模块16，用于根据新增游戏地图对应的地图资源文件，确定新增游戏地图对应的地图环境感知信息；

第二执行模块17，用于控制通用智能体模型，根据新增游戏地图对应的相对位置信息和地图环境感知信息，以及通用智能体模型在新增游戏地图中对应的游戏参数，在新增游戏地图中与游戏玩家角色进行对局，得到通用智能体模型在新增游戏地图中对应的对局结果。

其中，数据处理装置还包括：

生成模块18，用于根据新增游戏地图对应的对局结果，生成用于反映通用智能体模型在新增游戏地图的对局质量的游戏回报收益；

第二调整模块19，用于根据新增游戏地图对应的游戏回报收益，对通用智能体模型中的模型参数进行调整，得到调整后的通用智能体模型。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。根据本申请的一个实施例，图8所示的数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的至少两个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由至少两个单元来实现，或者至少两个模块的功能由一个单元实现。在本申请的其它实施例中，数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由至少两个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图8中所示的数据处理装置，以及来实现本申请实施例的一种数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算机设备中，并在其中运行。

本申请实施例提出一种通用智能体模型训练方法，通过根据M个游戏地图融合训练得到一个通用智能体模型，M为大于1的整数，该通用智能体模型具有较高的通用性和适应性，可以适应多个游戏地图，而不用针对不同游戏地图训练一个智能体模型，降低智能体模型的训练成本和提高智能体模型的训练效率。具体的，通过将M个游戏地图中每个游戏地图关联的绝对位置信息转化为相对位置信息，便于初始智能体模型更好地捕捉不同游戏地图间的共性，避免出现初始智能体模型在M个游戏地图中出现学习歧义和学习困难的问题。同时，通过每个游戏地图对应的地图环境感知信息，增强初始智能体模型在不同游戏地图上的寻路能力，弥补游戏地图迁移时导致游戏环境感知损失的问题。控制初始智能体模型，根据M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及M个游戏地图分别对应的游戏参数，在M个游戏地图中执行对局任务，对初始智能体模型进行训练，得到通用智能体模型。这样，可以使初始智能体模型在M个游戏地图中学习通用对局知识和通用对局策略，实现训练得到的通用智能体模型应用于任意游戏地图，而不用针对不同游戏地图训练一个智能体模型，可以极大地降低智能体模型训练成本和提高智能体模型的训练效率。本申请实施例还可以借助训练完成的通用智能体模型，在通用智能体模型中的已有模型参数的基础上，进行恢复训练和蒸馏，快速得到调整后的通用智能体模型，该调整后的通用智能体模型可以在新增游戏地图进行优秀的对局表现。这样，调整后的通用智能体模型学习到在新增游戏地图上的寻路能力和对局能力，进一步提高调整后的通用智能体模型在其他新增游戏地图中的对局能力，提高调整后的通用智能体模型的性能。

进一步地，请参见图9，图9是本申请实施例提供的一种计算机设备的示意图。如图7所示，该计算机设备3000可以为上述图2对应实施例中的终端设备或者服务器，该计算机设备3000可以包括：至少一个处理器3001，例如CPU，至少一个网络接口3004，用户接口3003，存储器3005，至少一个通信总线3002。其中，通信总线3002用于实现这些组件之间的连接通信。其中，用户接口3003可以包括显示屏（Display）、键盘（Keyboard），网络接口3004可选地可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器3005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储3005可选地还可以是至少一个位于远离前述处理器3001的存储装置。如图9所示，作为一种计算机存储介质的存储器3005可以包括操作***、网络通信模块、用户接口模块以及计算机程序控制应用程序。

在图9所示的计算机设备3000中，网络接口3004主要用于第二节点设备与目标中继服务器以及目标预言机服务器进行网络通信；而用户接口3003主要用于为用户提供输入的接口；而处理器3001可以用于调用存储器3005中存储的计算机程序控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备3000也可执行前文图7对应实施例中对一种数据处理方法的描述，本申请实施例中所描述的计算机设备3000也可执行前文图8分别对应实施例中对数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且该计算机可读存储介质中存储有前文提及的数据处理装置所执行的计算机程序，且该计算机程序包括程序指令，当该处理器执行该程序指令时，能够执行前文图3或者图7所对应实施例中对该一种数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链***。

本申请一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可执行前文图3或者图7所对应实施例中对一种数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

需要说明的是，本申请书中相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求，获取个人信息主体的知情同意或单独同意（或具备合法性基础），并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理行为。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个所述游戏地图关联的绝对位置信息进行位置重构，得到每个所述游戏地图关联的相对位置信息；

根据所述M个游戏地图分别关联的地图关键信息，确定所述M个游戏地图分别对应的地图环境感知信息；

控制初始智能体模型，根据所述M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及所述M个游戏地图分别对应的游戏参数，在所述M个游戏地图中执行对局任务，得到所述初始智能体模型在所述M个游戏地图中分别对应的任务执行结果；

根据所述M个游戏地图中的第i个游戏地图对应的任务执行结果，生成用于反映所述初始智能体模型在所述第i个游戏地图中的任务执行质量的游戏回报收益，根据所述M个游戏地图分别对应的游戏回报收益以及所述初始智能体模型对应的强化学习函数，确定所述初始智能体模型的参数更新梯度，根据所述参数更新梯度，对所述初始智能体模型中的模型参数进行参数调整，得到参数调整后的初始智能体模型，若所述参数调整后的初始智能体模型满足训练停止条件，则将所述参数调整后的初始智能体模型确定为通用智能体模型；i为小于或者等于M的正整数。

2.根据权利要求1所述的方法，其特征在于，所述M个游戏地图中的第i个游戏地图关联的绝对位置信息包括第一绝对位置信息和第二绝对位置信息，所述第一绝对位置信息反映所述第i个游戏地图中的游戏元素在所述虚拟游戏环境中的实际位置，所述第二绝对位置信息反映所述初始智能体模型在所述第i个游戏地图中的实际位置；

所述根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个所述游戏地图关联的绝对位置信息进行位置重构，得到每个所述游戏地图关联的相对位置信息，包括：

根据所述第i个游戏地图的参考位置，对所述第一绝对位置信息进行位置重构，得到所述第i个游戏地图中的游戏元素的相对位置信息；

根据所述第i个游戏地图的参考位置，对所述第二绝对位置信息进行位置重构，得到所述初始智能体模型在所述第i个游戏地图中的相对位置信息；

将所述第i个游戏地图中的游戏元素的相对位置信息，以及所述初始智能体模型在所述第i个游戏地图中的相对位置信息，确定为所述第i个游戏地图关联的相对位置信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第i个游戏地图的参考位置，对所述第一绝对位置信息进行位置重构，得到所述第i个游戏地图中的游戏元素的相对位置信息，包括：

获取所述第i个游戏地图的参考位置，与所述第i个游戏地图中的游戏元素在所述虚拟游戏环境中的实际位置之间的位置差值；

将所述位置差值，确定为所述第i个游戏地图中的游戏元素的相对位置信息。

4.根据权利要求1所述的方法，其特征在于，所述M个游戏地图中的第i个游戏地图关联的地图关键信息包括所述第i个游戏地图的地图资源文件、所述第i个游戏地图的参考位置，以及所述初始智能体模型在所述第i个游戏地图中的实际位置；

所述根据所述M个游戏地图分别关联的地图关键信息，确定所述M个游戏地图分别对应的地图环境感知信息，包括：

从所述第i个游戏地图对应的地图资源文件中，提取出所述第i个游戏地图对应的可行走区域；

根据所述第i个游戏地图对应的可行走区域，生成所述第i个游戏地图对应的目标路径结构图；

根据所述第i个游戏地图的参考位置以及所述初始智能体模型在所述第i个游戏地图中的实际位置，确定所述初始智能体模型在所述目标路径结构图中的映射位置信息；

将所述目标路径结构图以及所述初始智能体模型在所述目标路径结构图中的映射位置信息，确定为所述第i个游戏地图对应的地图环境感知信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第i个游戏地图对应的可行走区域，生成所述第i个游戏地图对应的目标路径结构图，包括：

根据所述第i个游戏地图中的可行走区域，确定所述初始智能体模型在所述第i个游戏地图中的可行走路径；

获取所述可行走路径的行走方向，根据所述可行走路径以及所述可行走路径的行走方向，生成所述第i个游戏地图对应的有向路径结构图；

对所述第i个游戏地图对应的有向路径结构图进行裁剪操作，得到所述第i个游戏地图对应的目标路径结构图。

6.根据权利要求4所述的方法，其特征在于，所述根据所述第i个游戏地图的参考位置以及所述初始智能体模型在所述第i个游戏地图中的实际位置，确定所述初始智能体模型在所述目标路径结构图中的映射位置信息，包括：

将所述初始智能体模型在所述第i个游戏地图中的实际位置映射至所述目标路径结构图中，得到所述初始智能体模型在所述目标路径结构图中的第一映射位置；

将所述第i个游戏地图的参考位置映射至所述目标路径结构图中，得到所述第i个游戏地图的参考位置在所述目标路径结构图中的第二映射位置；

获取所述目标路径结构图中的所述第一映射位置与所述第二映射位置之间的映射位置距离；

将所述映射位置距离，确定为所述初始智能体模型在所述目标路径结构图中的映射位置信息。

7.根据权利要求1所述的方法，其特征在于，所述M个游戏地图中第i个游戏地图的游戏参数包括所述第i个游戏地图的地图标识和地图资源文件，以及所述初始智能体模型在所述第i个游戏地图中的对局状态参数；

所述控制初始智能体模型，根据所述M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及所述M个游戏地图分别对应的游戏参数，在所述M个游戏地图中执行对局任务，得到所述初始智能体模型在所述M个游戏地图中分别对应的任务执行结果，包括：

移除所述第i个游戏地图的地图资源文件中包括的游戏元素在所述虚拟游戏环境中的实际位置，得到所述第i个游戏地图的通用地图资源文件；

通过初始智能体模型，对所述第i个游戏地图对应的通用地图资源文件、相对位置信息、地图标识和地图环境感知信息，以及所述初始智能体模型在所述第i个游戏地图中的对局状态参数进行特征预处理，得到所述第i个游戏地图对应的游戏对局特征；

根据所述游戏对局特征，在所述第i个游戏地图中执行对局任务，得到所述初始智能体模型在所述第i个游戏地图对应的任务执行结果。

8.根据权利要求7所述的方法，其特征在于，所述通过初始智能体模型，对所述第i个游戏地图对应的通用地图资源文件、相对位置信息、地图标识和地图环境感知信息，以及所述初始智能体模型在所述第i个游戏地图中的对局状态参数进行特征预处理，得到所述第i个游戏地图对应的游戏对局特征，包括：

通过初始智能体模型中的感知层，将所述第i个游戏地图的地图标识嵌入至所述第i个游戏地图关联的相对位置信息中，得到所述第i个游戏地图对应的嵌入相对位置特征；

对所述第i个游戏地图对应的通用地图资源文件和地图环境感知信息，以及所述初始智能体模型在所述第i个游戏地图中的对局状态参数进行特征转换，得到所述第i个游戏地图对应的初始对局特征；

对所述嵌入相对位置特征和所述初始对局特征进行拼接，得到所述第i个游戏地图对应的游戏对局特征。

9.根据权利要求7所述的方法，其特征在于，所述根据所述游戏对局特征，在所述第i个游戏地图中执行对局任务，得到所述初始智能体模型在所述第i个游戏地图对应的任务执行结果，包括：

通过所述初始智能体模型中的神经网络层，移除所述游戏对局特征中的无效特征，得到有效游戏对局特征；

从所述有效游戏对局特征中筛选出重要对局特征，根据所述重要对局特征生成状态更新参数；

根据所述状态更新参数，对所述神经网络中的记忆单元状态进行更新，得到更新后的记忆单元状态；

根据所述更新后的记忆单元状态以及所述有效游戏对局特征，确定所述初始智能体模型在所述第i个游戏地图中的预测对局动作和预测对局策略；

根据所述预测对局动作和所述预测对局策略，在所述第i个游戏地图执行对局任务，得到所述第i个游戏地图对应的任务执行结果。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述虚拟游戏环境中的新增游戏地图的参考位置，对所述新增游戏地图关联的绝对位置信息进行位置重构，得到所述新增游戏地图关联的相对位置信息；

根据所述新增游戏地图对应的地图关键信息，确定所述新增游戏地图对应的地图环境感知信息；

控制所述通用智能体模型，根据所述新增游戏地图对应的相对位置信息和地图环境感知信息，以及所述新增游戏地图对应的游戏参数，在所述新增游戏地图中与游戏玩家角色进行对局，得到所述通用智能体模型在所述新增游戏地图中对应的对局结果。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

根据所述新增游戏地图对应的对局结果，生成用于反映所述通用智能体模型在所述新增游戏地图的对局质量的游戏回报收益；

根据所述新增游戏地图对应的游戏回报收益，对所述通用智能体模型中的模型参数进行调整，得到调整后的通用智能体模型。

12.一种数据处理装置，其中在于，包括：

第一重构模块，用于根据虚拟游戏环境的M个游戏地图中每个游戏地图的参考位置，对每个所述游戏地图关联的绝对位置信息进行位置重构，得到每个所述游戏地图关联的相对位置信息；

第一确定模块，用于根据所述M个游戏地图分别关联的地图关键信息，确定所述M个游戏地图分别对应的地图环境感知信息；

第一执行模块，用于控制初始智能体模型，根据所述M个游戏地图分别对应的相对位置信息和地图环境感知信息，以及所述M个游戏地图分别对应的游戏参数，在所述M个游戏地图中执行对局任务，得到所述初始智能体模型在所述M个游戏地图中分别对应的任务执行结果；

第一调整模块，用于根据所述M个游戏地图中的第i个游戏地图对应的任务执行结果，生成用于反映所述初始智能体模型在所述第i个游戏地图中的任务执行质量的游戏回报收益，根据所述M个游戏地图分别对应的游戏回报收益以及所述初始智能体模型对应的强化学习函数，确定所述初始智能体模型的参数更新梯度，根据所述参数更新梯度，对所述初始智能体模型中的模型参数进行参数调整，得到参数调整后的初始智能体模型，若所述参数调整后的初始智能体模型满足训练停止条件，则将所述参数调整后的初始智能体模型确定为通用智能体模型；i为小于或者等于M的正整数。

13.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-11任一项所述的方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，所述计算机指令适于由处理器读取并执行，以使得具有所述处理器的计算机设备执行权利要求1-11任一项所述的方法。