CN112494949B

CN112494949B - 智能体行动策略制定方法、服务器及存储介质

Info

Publication number: CN112494949B
Application number: CN202011312201.7A
Authority: CN
Inventors: 杨木; 张弛; 武建芳; 王宇舟; 郭仁杰; 杨正云; 杨少杰; 李宏亮; 刘永升
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2023-10-31
Anticipated expiration: 2040-11-20
Also published as: CN112494949A

Abstract

本申请公开了一种智能体行动策略制定方法、服务器及存储介质，其中，所示方法包括获取3D虚拟环境中智能体当前帧状态信息、及智能体与所述3D虚拟环境的当前帧交互信息；通过AI模型基于所述当前帧状态信息和所述当前帧交互信息，输出所述智能体对应的当前帧并行任务信息和当前帧非并行任务信息；根据所述当前帧并行任务信息和当前帧所述非并行任务信息，输出所述智能体对应的当前帧动作输出信息；根据所述当前帧动作输出信息与控制所述智能体与所述3D虚拟环境交互，以获取所述智能体下一帧状态信息及下一帧交互信息；根据所述下一帧状态信息和所述下一帧交互信息，输出所述智能体对应的下一帧动作输出信息。本申请可以实现高度拟人化的AI仿真。

Description

智能体行动策略制定方法、服务器及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种智能体行动策略制定方法、服务器及存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的快速发展，人工智能技术被广泛应用于3D游戏、虚拟交通、自动驾驶仿真、机器人轨迹规划等各个领域，在3D虚拟空间中进行AI仿真具有非常大的商业价值，如通过人工智能技术可以实现各类游戏中智能体与真人之间的对局。

目前，在部分3D虚拟空间的AI仿真中，智能体需要在3D虚拟空间中收集各种资源，并在不断缩小的安全区域内对抗其他智能体玩家，让自己生存到最后，在这个AI仿真过程中，智能体需要在不同的环境中做出正确行动决策，以使自己以相对安全区域为目标点进行转移与探索，并可以与敌方智能体战斗从而使自己生存到最后。

因此，为了增强用户的游戏体验，在AI仿真中我们希望智能体高度拟人化，故，如何实现高度拟人化的AI仿真成为了亟需解决的问题。

发明内容

本申请实施例提供一种智能体行动策略制定方法、服务器及存储介质，旨在实现高度拟人化的AI仿真。

第一方面，本申请实施例提供了一种智能体行动策略制定方法，所述方法包括：

获取3D虚拟环境中智能体当前帧状态信息、及智能体与所述3D虚拟环境的当前帧交互信息；

通过AI模型基于所述当前帧状态信息和所述当前帧交互信息，输出所述智能体对应的当前帧并行任务信息和当前帧非并行任务信息；

根据所述当前帧并行任务信息和当前帧所述非并行任务信息，输出所述智能体对应的当前帧动作输出信息；

根据所述当前帧动作输出信息与控制所述智能体与所述3D虚拟环境交互，以获取所述智能体下一帧状态信息及下一帧交互信息；

根据所述下一帧状态信息和所述下一帧交互信息，输出所述智能体对应的下一帧动作输出信息。

第二方面，本申请实施例还提供了一种服务器，所述服务器包括处理器、存储器；所述存储器存储有可以被所述处理器调用并执行的计算机程序及AI模型，其中，所述计算机程序被所述处理器执行时，实现上述的智能体行动策略制定方法。

第三方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时使所述处理器实现上述的智能体行动策略制定方法。

本申请实施例提供了一种智能体行动策略制定方法、服务器及存储介质，其中，智能体行动策略制定方法，通过获取3D虚拟环境中智能体当前帧状态信息、及智能体与所述3D虚拟环境的当前帧交互信息；通过AI模型基于所述当前帧状态信息和所述当前帧交互信息，输出所述智能体对应的当前帧并行任务信息和当前帧非并行任务信息；根据所述当前帧并行任务信息和当前帧所述非并行任务信息，输出所述智能体对应的当前帧动作输出信息；根据所述当前帧动作输出信息与控制所述智能体与所述3D虚拟环境交互，以获取所述智能体下一帧状态信息及下一帧交互信息；根据所述下一帧状态信息和所述下一帧交互信息，输出所述智能体对应的下一帧动作输出信息。通过解析出智能体的当前状态下可执行的并行任务信息和非并行任务信息，根据并行任务信息和非并行任务信息获知当前智能体可以同步执行的动作及互斥执行的动作，并根据并行任务信息和非并行任务信息控制智能体输出对应的输出动作，从而使得智能体所输出的动作更为合理、更具人性化。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种智能体行动策略制定方法的步骤流程图；

图2是本申请一实施例提供智能体行动策略制定方法的应用场景示意图；

图3是图2对应的应用场景中智能体根据并行任务信息和非并行任务信息可选择输出的对应动作示意图；

图4是本申请一实施例提供的基于AI模型的智能体动作输出的示意图；

图5是本申请一实施例提供的基于AI模型的智能体动作输出的另一示意图；

图6是本申请实施例提供的一种服务器的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

为了解决上述问题，本申请的实施例提供了一种智能体行动策略制定方法、服务器及计算机可读存储介质，用于实现高度拟人化的AI仿真。其中，该智能体行动策略制定方法可以应用于服务器中，该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。

请参阅图1，图1是本申请一实施例提供的一种智能体行动策略制定方法的流程示意图。

如图1所示，该行动决策制定方法具体包括步骤S101至步骤S105。

步骤S101：获取3D虚拟环境中智能体当前帧状态信息、及智能体与所述3D虚拟环境的当前帧交互信息。

比如在人工智能(Artificial Intelligence，AI)、3D虚拟环境下的机器人仿真、机械臂、无人驾驶、虚拟交通仿真等各种应用场景，或者是3D类型游戏中的游戏AI，为了实现高度拟人化的仿真，对3D虚拟环境中智能体(Agent)做出高度拟人化的行动决策，获取3D虚拟环境中智能体当前帧状态信息及及智能体与所述3D虚拟环境的当前帧交互信息，以根据当前帧状态信息和当前帧交互信息做出对应的行动决策。其中，智能体是指宿主于复杂动态环境中，自治地感知环境信息，自主采取行动，并实现一系列预先设定的目标或任务的智能体。

智能体当前帧状态信息是用于表征当前帧智能体的自身相关状态数据信息，包括智能体自身数据信息和智能体所穿戴的装备信息。其中，智能体自身数据信息包括位置信息、运动信息、血量信息、装备信息、所属阵营信息等。

智能体与3D虚拟环境交互信息是用于表征当前帧智能体的与3D虚拟环境之间的相对数据信息，如，全局信息、毒圈信息、物资信息、声音信息。

本实施例中，以在3D游戏对局的AI仿真为例进行说明，包括但不局限于3DFPS(3DFirst Person Shooter)游戏，也可以是其他类的3D游戏对局的AI仿真，在此不做限制。

如图2所示，在该3D游戏对局中，智能体可以与预设数量的其他玩家同场竞技，其中，该其他玩家可以是其他智能体或由人类玩家操控的游戏角色，本实施例中，以其他玩家为其他智能体为例进行说明，但不限于其他玩家仅可以为其他智能体。

智能体可以与其他智能体组队或单个组队的形式参与游戏，使得游戏中存在不同阵营的智能体。参与该局游戏的智能体可以选择3D虚拟环境中的任意区域作为目标区域，并通过跳伞降落在该目标区域，智能体需要在3D虚拟环境中搜集不同的武器、防具、道具等资源从而增加自身战斗力，同时，随着游戏的进行，3D虚拟环境上的安全区域将逐渐缩小，毒圈区域逐渐扩大，参与游戏的智能体为了到达安全区域，不同阵营的智能体之间也会发生更多的战斗，智能体通过各种策略，击杀属于其他阵营的智能体敌方智能体，从而最终获得胜利。

通过获取智能体当前帧的位置信息、运动信息、血量信息、装备信息、所属阵营信息，从而可以对智能体自身相关信息做出较为准确的评估。

其中，位置信息包括智能体在3D虚拟环境中的空间位置，可以通过用空间坐标系来表示；运动信息包括智能体的当前的朝向及移动速度；血量信息包括智能体的总血量、剩余血量等；装备信息包括智能体身上的护甲、头盔以及每个武器槽拥有的武器的信息，其中，武器信息包括武器类型、武器的状态，如武器装弹量、剩余弹量等。

通过获取智能体与3D虚拟环境交互后生成的全局信息、毒圈信息、物资信息及声音信息，从而可以对智能体当前所处环境信息做出较为准确的评估。

其中，全局信息主要包括当前游戏的进度时间、队友存活人数、我方队伍击杀总人数等。毒圈信息包括对局中毒圈的记录信息，如当前毒圈中心、当前毒圈半径、当前毒圈所处的阶段、当前毒圈剩余时间、下一个毒圈的中心、下一个毒圈的半径、下一个毒圈的总时间。物资信息包括智能体视野范围内可见物资的位置、种类、属性、数量，其中物资种类包括但不限于***、刀具、护甲、头盔、药品、投掷物等。声音信息主要包括声源的位置、相对朝向、声源的种类等。

步骤S102：通过AI模型基于所述当前帧状态信息和所述当前帧交互信息，输出所述智能体对应的当前帧并行任务信息和当前帧非并行任务信息。

并行任务信息是用于表征智能体在同一时间内可以同步执行的相关动作所对应的信息，并行任务信息包括但不限于移动任务信息、第一方向瞄准任务信息、第二方向瞄准任务信息及非并行任务选择信息。其中，移动任务信息包括移动方向、移动速度、移动时的姿态等。瞄准任务信息是用于表征智能体的瞄准方向。

即，在同一时间内，智能体可以同步输出用于执行移动任务所对应的动作、输出用于执行第一方向瞄准任务所对应的动作、输出用于执行第二方向瞄准任务所对应的动作、及非并行任务选择所对应的动作中的至少任一者。

如图3所示，移动方向包括但不限于前、后、左、右、左前、左后、右前及右后等八个方向。

瞄准方向包括但不限于上瞄准、下瞄准、左瞄准及右瞄准等四个方向，其中，上瞄准、下瞄准在第一方向上，左瞄准及右瞄准在第二方向上，第一方向和第二方向互为垂直。

非并行任务信息是用于表征智能体在同一时间内输出动作互斥的任务所对应的信息，包括但不限于攻击任务信息、物资捡取任务信息、姿态控制任务信息及血量补充任务信息中至少一者。

即，在同一时间内，智能体仅能输出用于执行攻击任务所对应的动作、输出用于执行物资捡取任务所对应的动作、输出用于执行姿态控制任务所对应的动作、或输出用于执行血量补充任务所对应的动作中的任一者。其中，攻击任务信息是用于控制智能体与其他阵营智能体战斗时武器的选择和切换，如，开枪、切换近战武器、切换远战武器、收起武器，扔投掷物等。

物资捡取任务信息是用于控制智能体捡取预设范围内对应物品的相关信息，如、捡取预设范围内的武器、血包等。

姿态控制任务信息是用于控制智能体进行姿态切换的相关信息，如跳、蹲、趴、站立、跑动、行走，如图3所示。

血量补充任务信息是用于控制智能体选择合理的药品对自身进行治疗，以恢复状态的相关信息。利用预设的AI模型根据当前帧状态信息和当前帧交互信息，筛选出智能体对应的当前帧并行任务信息和当前帧非并行任务信息。根据所获取的并行任务信息和并行任务信息可以获知智能体在当前帧状态下可以输出并行任务信息中一个或多个子任务信息对应的动作，仅可以输出非并行任务信息中一个子任务信息对应的动作，防止智能体在当前状态下同步输出互斥动作，使得AI仿真的拟人效果更优。

请参阅图4，AI模型包括第一全连接网络和第二全连接网络，其中，全连接网络也称全连接网络层(fully connected layer，FC)，在部分实施例中，所述通过AI模型基于所述当前帧状态信息和所述当前帧交互信息，输出所述智能体对应的当前帧并行任务信息和当前帧非并行任务信息，包括：分别对所述当前帧状态信息和所述当前帧交互信息进行特征提取，以获取对应的当前帧状态特征信息和当前帧交互特征信息；通过所述AI模型的时序特征提取模块基于当前帧状态特征信息和当前帧交互特征信息，获取对应的当前帧并行任务信息和当前帧非并行任务信息。

其中，所述通过所述AI模型的时序特征提取模块基于当前帧状态特征信息和当前帧交互特征信息，获取对应的当前帧并行任务信息和当前帧非并行任务信息，包括：将所述当前帧状态特征信息和所述当前帧交互特征信息输入到所述AI模型对应的第一全连接网络，以获取对应的当前帧第一输出信息；通过所述AI模型的时序特征提取模块基于所述当前帧第一输出信息，获取所述智能体对应的当前帧融合状态向量信息；将所述当前帧融合状态向量信息输入所述AI模型对应的第二全连接网络，以获取对应的当前帧并行任务信息和当前帧非并行任务信息。

请参阅图5，在部分实施例中，所述当前帧交互特征信息包括当前帧全局特征信息、当前帧毒圈特征信息、当前帧物资特征信息、当前帧声音特征信息。当前帧全局特征信息通过当前帧全局信息提取获得，当前帧毒圈特征信息通过当前帧毒圈信息提取获得，当前帧物资特征信息通过当前帧物资信息提取获得，当前帧声音特征信息通过当前帧声音信息提取获得。

分别对智能体当前帧状态信息和当前帧交互信息进行特征提取，以获取对应的当前帧状态特征信息和当前帧交互特征信息，包括：

分别将当前帧全局特征信息、当前帧毒圈特征信息、当前帧物资特征信息、当前帧声音特征信息作为AI模型对应的第一全连接网络的输入，以输出对应的当前帧第一输出信息。

基于AI模型的时序特征提取模块对当前帧第一输出信息进行时序特征融合，获取所述智能体对应的当前帧融合状态向量信息。

将当前帧融合状态向量信息输入到对应的第二全连接网络从而获取对应的当前帧并行任务信息和当前帧非并行任务信息。

在部分实施例中，所述当前帧并行任务信息包括所述智能体在当前帧的移动任务信息、第一方向瞄准任务信息、第二方向瞄准任务信息及非并行任务选择信息；所述当前帧非并行任务信息包括所述智能体在当前帧的攻击任务信息、物资捡取任务信息、姿态控制任务信息及血量补充任务信息；所述将所述当前帧融合状态向量信息输入所述AI模型对应的第二全连接网络，以获取对应的当前帧并行任务信息和当前帧非并行任务信息，包括：

分别将所述当前帧融合状态向量信息输入至所述AI模型对应的第二全连接网络，以输出对应的当前帧移动任务信息、当前帧第一方向瞄准任务信息、当前帧第二方向瞄准任务信息及当前帧非并行任务选择信息、当前帧攻击任务信息、当前帧物资捡取任务信息、当前帧姿态控制任务信息及当前帧血量补充任务信息。

将相同的当前帧融合状态向量信息作为第二全连接网络的输入，输出多个多任务学习结果，使得学习泛化效果更优，仿真拟人效果更强。

本实施例中，AI模型设有相应的全连接神经网络及时序特征提取模块，其中，时序特征提取模块包括但不限于LSTM(Long Short-Term Memory，长短期记忆网络)模块、GRU(Gated Recurrent Unit，门控单元网络)模块，Transformer模块等。

以所述时序特征提取模块为LSTM模块为例进行说明，所述通过所述AI模型的时序特征提取模块基于所述当前帧第一输出信息，获取所述智能体对应的当前帧融合状态向量信息，包括：获取LSTM模块对应的上一帧隐藏状态信息；通过所述LSTM模块基于所述当前帧第一输出信息、以及所述上一帧隐藏状态信息，输出所述LSTM模块对应的当前帧隐藏状态信息；根据所述当前帧隐藏状态信息，获取所述智能体对应的当前帧融合状态向量信息。

LSTM模块作为一个独立的特征提取单元，可以接受上一帧隐藏状态信息与当前帧第一输出信息作为LSTM模块的输入，输出对应的当前帧隐藏状态信息，其中，隐藏状态信息包括隐藏信息(hidden state)和单元状态信息(cell state)，并将当前帧隐藏状态信息作为下一帧的输入。

S103：根据所述当前帧动作输出信息与控制所述智能体与所述3D虚拟环境交互，以获取所述智能体下一帧状态信息及下一帧交互信息。

基于输出的当前帧动作输出信息控制智能体执行相应的动作输出，使得智能体与3D虚拟环境进行交互，更新智能体的状态信息及交互信息，获得智能体下一帧状态信息及下一帧交互信息。

在部分实施例中，所述根据所述当前帧并行任务信息和当前帧所述非并行任务信息，输出所述智能体对应的当前帧动作输出信息，包括：基于预设的策略梯度优化函数根据所述当前帧并行任务信息和所述当前帧所述非并行任务信息，输出所述智能体对应的当前帧动作输出信息。

示例性地，预设的策略梯度优化函数表示为：

其中，A_t表示t时刻的优势函数(Advantage function)，N表示学习轨迹的个数。表示并行任务的梯度，F(a_t|s_t)表示所有非并行任务的操作空间的梯度，T表示一个学习序列中的所有时刻，t表示这个序列中的某一个时刻。

具体的，并行任务的梯度可以表示为：

其中，W表示并行任务的个数，m代表每一个任务的操作空间大小，表示每个并行任务中的任何一个操作被选中的概率，且W个可并行任务并不服从类别分布(categorical distribution)，即W个任务彼此之间是独立的。

a_t表示t时刻选择的动作，s_t表示t时刻的状态，包括t时刻智能体状态、及智能体与3D虚拟环境的交互状态，如t时刻的物资信息、声音信息、全局信息、装备信息，a_jq,t表示在t时刻选择的第q个动作，是的某一个任务信息。

非并行任务的操作空间的梯度F(a_t|s_t)可以表示为：

其中，M代表非并行任务的个数，m代表每一个任务的操作空间大小，即可预测的动作个数。对每一个非并行任务而言，其所有动作是不可以同时预测执行的，在任一时刻只能选择非并行任务中的一个操作执行。

S104：根据所述下一帧状态信息和所述下一帧交互信息，输出所述智能体对应的下一帧动作输出信息。

在获得智能体的下一帧状态信息和下一帧交互信息后，按照上述步骤S102中的操作，通过AI模型基于下一帧状态信息和下一帧交互信息，输出所述智能体对应的下一帧动作输出信息。具体操作过程可参考步骤S102-S105中所述，在此不再赘述。

上述实施例提供的智能体行动策略制定方法，通过获取3D虚拟环境中智能体当前帧状态信息、及智能体与所述3D虚拟环境的当前帧交互信息；通过AI模型基于所述当前帧状态信息和所述当前帧交互信息，输出所述智能体对应的当前帧并行任务信息和当前帧非并行任务信息；根据所述当前帧并行任务信息和当前帧所述非并行任务信息，输出所述智能体对应的当前帧动作输出信息；根据所述当前帧动作输出信息与控制所述智能体与所述3D虚拟环境交互，以获取所述智能体下一帧状态信息及下一帧交互信息；根据所述下一帧状态信息和所述下一帧交互信息，输出所述智能体对应的下一帧动作输出信息。通过解析出智能体的当前状态下可执行的并行任务信息和非并行任务信息，根据并行任务信息和非并行任务信息获知当前智能体可以同步执行的动作及互斥执行的动作，并根据并行任务信息和非并行任务信息控制智能体输出对应的输出动作，从而使得智能体所输出的动作更为合理、更具人性化。

请参阅图6，图6为本申请实施例提供的一种服务器的示意性框图。

如图6所示，该服务器30可以包括处理器301、存储器302和网络接口303。处理器301、存储器302和网络接口303通过***总线连接，该***总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器301可以是微控制单元(Micro-controller Unit，MCU)、中央处理单元(Central Processing Unit，CPU)或数字信号处理器(Digital Signal Processor，DSP)等。

具体地，存储器302可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

该网络接口303用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器301用于运行存储在存储器302中的计算机程序，并在执行所述计算机程序时实现如下步骤：

在部分实施例中，处理器301通过AI模型基于所述当前帧状态信息和所述当前帧交互信息，输出所述智能体对应的当前帧并行任务信息和当前帧非并行任务信息，包括：

分别对所述当前帧状态信息和所述当前帧交互信息进行特征提取，以获取对应的当前帧状态特征信息和当前帧交互特征信息；

通过所述AI模型的时序特征提取模块基于当前帧状态特征信息和当前帧交互特征信息，获取对应的当前帧并行任务信息和当前帧非并行任务信息。

在部分实施例中，处理器301通过所述AI模型的时序特征提取模块基于当前帧状态特征信息和当前帧交互特征信息，获取对应的当前帧并行任务信息和当前帧非并行任务信息，包括：

将所述当前帧状态特征信息和所述当前帧交互特征信息输入到所述AI模型对应的第一全连接网络，以获取对应的当前帧第一输出信息；

通过所述AI模型的时序特征提取模块基于所述当前帧第一输出信息，获取所述智能体对应的当前帧融合状态向量信息；

将所述当前帧融合状态向量信息输入所述AI模型对应的第二全连接网络，以获取对应的当前帧并行任务信息和当前帧非并行任务信息。

在部分实施例中，所述当前帧交互特征信息包括当前帧全局特征信息、当前帧毒圈特征信息、当前帧物资特征信息、当前帧声音特征信息，处理器301将所述当前帧状态特征信息和所述当前帧交互特征信息输入到所述AI模型对应的第一全连接网络，以获取对应的当前帧第一输出信息，包括：

分别将所述当前帧状态特征信息、所述当前帧全局特征信息、所述当前帧毒圈特征信息、所述当前帧物资特征信息及所述当前帧声音特征信息输入至对应的第一全连接网络，以获取对应的当前帧第一输出信息。

在部分实施例中，所述当前帧并行任务信息包括所述智能体在当前帧的移动任务信息、瞄准任务信息及非并行任务选择信息；所述当前帧非并行任务信息包括所述智能体在当前帧的攻击任务信息、物资捡取任务信息、姿态控制任务信息及血量补充任务信息；处理器301将所述当前帧融合状态向量信息输入所述AI模型对应的第二全连接网络，以获取对应的当前帧并行任务信息和当前帧非并行任务信息，包括：

分别将所述当前帧融合状态向量信息输入至所述AI模型对应的第二全连接网络，以获取对应的当前帧移动任务信息、当前帧瞄准任务信息及当前帧非并行任务选择信息、当前帧攻击任务信息、当前帧物资捡取任务信息、当前帧姿态控制任务信息及当前帧血量补充任务信息。

在部分实施例中，所述时序特征提取模块包括LSTM模块，处理器301通过所述AI模型的时序特征提取模块基于所述当前帧第一输出信息，获取所述智能体对应的当前帧融合状态向量信息，包括：

获取LSTM模块对应的上一帧隐藏状态信息；

通过所述LSTM模块基于所述当前帧第一输出信息、以及所述上一帧隐藏状态信息，输出所述LSTM模块对应的当前帧隐藏状态信息；

根据所述当前帧隐藏状态信息，获取所述智能体对应的当前帧融合状态向量信息。

在部分实施例中，处理器301根据所述当前帧并行任务信息和当前帧所述非并行任务信息，输出所述智能体对应的当前帧动作输出信息，包括：

基于预设的策略梯度优化函数根据所述当前帧并行任务信息和所述当前帧所述非并行任务信息，输出所述智能体对应的当前帧动作输出信息。

在部分实施例中，所述策略梯度优化函数为：

其中，A_t表示t时刻的优势函数，N表示学习轨迹的个数，表示并行任务的梯度，F(a_t|s_t)表示非并行任务的操作空间的梯度，T表示一个学习序列中的所有时刻，t表示这个序列中的某一个时刻。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，计算机可读存储介质可以是前述实施例的服务器的内部存储单元，例如服务器的硬盘或内存。计算机可读存储介质也可以是服务器的外部存储设备，例如服务器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种智能体行动策略制定方法，因此，可以实现本申请实施例所提供的任一种智能体行动策略制定方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种智能体行动策略制定方法，其特征在于，所述方法包括：

根据所述当前帧动作输出信息控制所述智能体与所述3D虚拟环境交互，以获取所述智能体下一帧状态信息及下一帧交互信息；

根据所述下一帧状态信息和所述下一帧交互信息，输出所述智能体对应的下一帧动作输出信息；

其中，所述通过AI模型基于所述当前帧状态信息和所述当前帧交互信息，输出所述智能体对应的当前帧并行任务信息和当前帧非并行任务信息，包括：

通过所述AI模型的时序特征提取模块基于当前帧状态特征信息和当前帧交互特征信息，获取对应的当前帧并行任务信息和当前帧非并行任务信息；

其中，所述通过所述AI模型的时序特征提取模块基于当前帧状态特征信息和当前帧交互特征信息，获取对应的当前帧并行任务信息和当前帧非并行任务信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述当前帧交互特征信息包括当前帧全局特征信息、当前帧毒圈特征信息、当前帧物资特征信息、当前帧声音特征信息，所述将所述当前帧状态特征信息和所述当前帧交互特征信息输入到所述AI模型对应的第一全连接网络，以获取对应的当前帧第一输出信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述当前帧并行任务信息包括所述智能体在当前帧的移动任务信息、瞄准任务信息及非并行任务选择信息；所述当前帧非并行任务信息包括所述智能体在当前帧的攻击任务信息、物资捡取任务信息、姿态控制任务信息及血量补充任务信息；所述将所述当前帧融合状态向量信息输入所述AI模型对应的第二全连接网络，以获取对应的当前帧并行任务信息和当前帧非并行任务信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述时序特征提取模块包括LSTM模块，所述通过所述AI模型的时序特征提取模块基于所述当前帧第一输出信息，获取所述智能体对应的当前帧融合状态向量信息，包括：

获取LSTM模块对应的上一帧隐藏状态信息；

5.根据权利要求1所述的方法，其特征在于，所述根据所述当前帧并行任务信息和当前帧所述非并行任务信息，输出所述智能体对应的当前帧动作输出信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述策略梯度优化函数为：

7.一种服务器，其特征在于，所述服务器包括处理器、存储器；

所述存储器存储有可以被所述处理器调用并执行的计算机程序及AI模型，其中，所述计算机程序被所述处理器执行时，实现如权利要求1至6中任一项所述的智能体行动策略制定方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至6中任一项所述的智能体行动策略制定方法。