CN113033805A

CN113033805A - 一种多复合任务执行的控制方法、装置、设备及存储介质

Info

Publication number: CN113033805A
Application number: CN202110341047.4A
Authority: CN
Inventors: 赵栋杨; 黄悦; 肖昌南; 李悦; 邓诗弘
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-25

Abstract

本公开提供了一种多复合任务执行的控制方法、装置、设备及存储介质，所述方法包括：在获取到待决策任务的当前环境信息后，将当前环境信息输入至决策模型中，经过决策模型的处理后，输出待决策任务对应的多个子策略以及各个子策略分别对应的权重系数。其中，待决策任务属于包括多个子任务的多复合任务，各个子任务具有对应的子策略。然后，基于多个子策略分别对应的权重系数，对子策略进行加权求和，得到待决策任务的决策信息，用于控制待决策任务的执行。可见，本公开能够利用决策模型解决多复合任务环境下的决策问题，通过对决策模型输出的子策略进行动态的加权求和，能够得到适应各种复杂多复合任务环境的决策信息，提高了决策模型的泛化能力。

Description

一种多复合任务执行的控制方法、装置、设备及存储介质

技术领域

本公开涉及数据处理领域，尤其涉及一种多复合任务执行的控制方法、装置、设备及存储介质。

背景技术

强化学习是一种通过经验进行策略自主学习的数学框架，针对强化学习模型的训练过程，通常是通过智能体与环境进行持续的交互实现的。也就是说，通过智能体与环境进行持续的交互实现对强化学习模型的训练过程。

实际应用中，强化学习模型可以用于解决多复合任务环境下的决策问题，即当环境中存在多个相互影响的子任务需要同时被决策时，可以利用强化学习模型进行决策。

目前，面对多复合任务环境下的决策问题时，通常是针对每个独立的子任务预先手动设置子策略，在多复合任务环境下的决策阶段，从预先设置的子策略中分别选择一个用于构成决策信息。可见，手动设置子策略解决多复合任务环境下的决策问题的方式，依赖具体任务内容，如果任务内容存在变化，则需要重新设置子策略，泛化能力较弱。

因此，如何解决多复合任务环境下的任务执行问题，能够保证方法的泛化能力，是目前亟需解决的技术问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种多复合任务执行的控制方法、装置、设备及存储介质，能够通过对决策模型输出的子策略进行动态的加权求和，能够得到适应各种复杂多复合任务环境的决策信息，提高了决策模型的泛化能力。

第一方面，本公开提供了一种多复合任务执行的控制方法，所述方法包括：

将待决策任务的当前环境信息输入至决策模型中，经过所述决策模型的处理后，输出所述待决策任务对应的多个子策略以及所述多个子策略分别对应的权重系数；其中，所述待决策任务属于包含多个子任务的多复合任务，所述子任务与所述子策略具有对应关系；

基于所述多个子策略分别对应的权重系数，对所述多个子策略进行加权求和，得到所述待决策任务的决策信息；其中，所述决策信息用于控制所述待决策任务的执行。

一种可选的实施方式中，所述方法还包括：

在将所述决策信息作用于所述待决策任务的所述当前环境信息对应的环境后，获取来自所述环境的反馈奖励；其中，所述反馈奖励包括多个子奖励，所述子奖励与所述子策略具有对应关系；

基于所述多个子策略分别对应的权重系数，对所述多个子奖励进行加权求和，得到所述决策信息对应的总奖励；

基于所述总奖励，对所述决策模型中的参数进行优化。

一种可选的实施方式中，所述方法应用于CPU，所述方法还包括：

建立所述待决策任务的所述当前环境信息、所述决策信息和所述决策信息对应的总奖励之间的对应关系；

相应的，所述基于所述总奖励，对所述决策模型中的参数进行优化，包括：

将所述对应关系发送至模型优化微型处理器GPU；其中，所述模型优化GPU上部署有待优化决策模型，所述模型优化GPU用于基于所述对应关系对所述待优化决策模型中的参数进行优化，得到优化后参数，所述待优化决策模型与所述决策模型具有对应关系；

接收来自所述模型优化GPU的所述优化后参数，并基于所述优化后参数，对所述CPU上的所述决策模型中的参数进行更新。

一种可选的实施方式中，所述决策模型包括多个子策略模型和权重模型；

所述将待决策任务的当前环境信息输入至决策模型中，经过所述决策模型的处理后，输出所述待决策任务对应的多个子策略以及所述多个子策略分别对应的权重系数，包括：

将待决策任务的当前环境信息输入至所述多个子策略模型和所述权重模型；

经过所述多个子策略模型处理后，输出所述待决策任务对应的多个子策略；

以及，经过所述权重模型处理后，输出所述多个子策略分别对应的权重系数。

一种可选的实施方式中，所述方法还包括：

利用元梯度算法对所述权重模型中的参数进行优化。

一种可选的实施方式中，所述将待决策任务的当前环境信息输入至决策模型中之前，还包括：

从待决策任务所处的环境中，获取所述待决策任务的当前环境信息。

利用信息编码网络对所述当前环境信息进行精炼处理。

一种可选的实施方式中，所述方法应用于网络游戏中，所述待决策任务为所述网络游戏中的下一步动作，所述决策模型包括导航策略网络、战斗策略网络和高层策略网络；

将当前摄像机信息输入至所述决策模型中，经过所述决策模型中的所述导航策略网络、所述战斗策略网络和所述高层策略网络的处理后，由所述导航策略网络输出导航子策略，由所述战斗策略网络输出战斗子策略，以及由所述高层策略网络输出所述导航子策略和所述战斗子策略分别对应的权重系数；

相应的，所述基于所述多个子策略分别对应的权重系数，对所述多个子策略进行加权求和，得到所述待决策任务的决策信息，包括：

基于所述导航子策略和所述战斗子策略分别对应的权重系数，对所述导航子策略和所述战斗子策略进行加权求和，得到所述下一步动作的决策信息。

一种可选的实施方式中，所述基于所述导航子策略和所述战斗子策略分别对应的权重系数，对所述导航子策略和所述战斗子策略进行加权求和，得到所述下一步动作的决策信息之后，还包括：

基于所述下一步动作的决策信息控制所述下一步动作的执行后，获取来自所述网络游戏的奖励模块的反馈奖励；其中，所述反馈奖励包括走路奖励和战斗奖励；

基于所述导航子策略和所述战斗子策略分别对应的权重系数，对所述走路奖励和所述战斗奖励进行加权求和，得到总奖励；

基于所述总奖励对所述高层策略网络、所述导航策略网络和所述战斗策略网络中的参数进行优化。

第二方面，本公开提供了一种多复合任务执行的控制装置，所述装置包括：

决策模块，用于将待决策任务的当前环境信息输入至决策模型中，经过所述决策模型的处理后，输出所述待决策任务对应的多个子策略以及所述多个子策略分别对应的权重系数；其中，所述待决策任务属于包含多个子任务的多复合任务，所述子任务与所述子策略具有对应关系；

第一加权求和模块，用于基于所述多个子策略分别对应的权重系数，对所述多个子策略进行加权求和，得到所述待决策任务的决策信息；其中，所述决策信息用于控制所述待决策任务的执行。

第三方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现上述的方法。

第四方面，本公开提供了一种设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的方法。

第五方面，本公开提供了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供了一种多复合任务执行的控制方法，在获取到待决策任务的当前环境信息后，将当前环境信息输入至决策模型中，经过决策模型的处理后，输出待决策任务对应的多个子策略以及各个子策略分别对应的权重系数。其中，待决策任务属于包含多个子任务的多复合任务，各个子任务具有对应的子策略。然后，基于多个子策略分别对应的权重系数，对子策略进行加权求和，得到待决策任务的决策信息，用于控制待决策任务的执行。

可见，本公开能够利用决策模型解决多复合任务环境下的决策问题，通过对决策模型输出的子策略进行动态的加权求和，能够得到适应各种复杂多复合任务环境的决策信息，提高了决策模型的泛化能力。

另外，本公开实施例对决策模型进行训练以对模型中的参数进行优化的方法，是基于整体的端到端的训练模式实现的，无需子策略模型的训练与权重模型的训练割裂开。也就是说，对决策模型的每一次的模型参数优化，同时也对权重模型中的模型参数进行优化，从整体上提高决策模型输出的决策信息的准确性，最终提高了对任务执行控制的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种多复合任务执行的控制方法的流程图；

图2为本公开实施例提供的一种决策模型的示意图；

图3为本公开实施例提供的另一种多复合任务执行的控制方法流程图；

图4为本公开实施例提供的一种决策模型的参数优化示意图；

图5为本公开实施例提供的一种随机地形第一人称射击游戏中多复合任务执行的控制方法流程图；

图6为本公开实施例提供的一种新闻推荐方法流程图；

图7为本公开实施例提供的一种多复合任务执行的控制装置结构示意图；

图8为本公开实施例提供的一种多复合任务执行的控制设备结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度强化学习等几大方向。

其中，强化学习是一种通过经验进行策略自主学习的数学框架，近年来，无模型深度强化学习算法被广泛应用于各种极具挑战性的领域，如阿尔法围棋、医学制药领域、消息推荐***等。

通常，对于强化学习模型的训练过程，为了训练得到一个较好的决策模型，是通过智能体与环境进行持续的交互实现的。

随着科学技术的发展，强化学习模型可以用于解决多复合任务环境下的决策问题，其中，多复合任务通常包括彼此高度耦合、相互影响的多个子任务。当外界环境中存在彼此高度耦合、相互影响的多个子任务需要同时被决策时，可以利用强化学习模型进行决策。如大型智能游戏机器人行为决策、智能家居协同、智慧农业中的复合型服务问题等多复合任务环境下的决策问题，可以利用强化学习模型进行决策。

为此，本公开提供了一种多复合任务执行的控制方法，在获取到待决策任务的当前环境信息后，将当前环境信息输入至决策模型中，经过决策模型的处理后，输出待决策任务对应的多个子策略以及各个子策略分别对应的权重系数。其中，待决策任务属于包含多个子任务的多复合任务，各个子任务具有对应的子策略。然后，基于多个子策略分别对应的权重系数，对子策略进行加权求和，得到待决策任务的决策信息；其中，所述决策信息用于控制所述待决策任务的执行。

基于此，本公开实施例提供了一种多复合任务执行的控制方法，参考图1，为本公开实施例提供的一种多复合任务执行的控制方法的流程图，该方法包括：

S101：将待决策任务的当前环境信息输入至决策模型中，经过所述决策模型的处理后，输出所述待决策任务对应的多个子策略以及所述多个子策略分别对应的权重系数。

其中，所述待决策任务属于包含多个子任务的多复合任务，所述子任务与所述子策略具有对应关系。

本公开实施例中，在确定待决策任务之后，从待决策任务所处的环境中，获取待决策任务的当前环境信息。其中，当前环境信息是指待决策任务所处的环境中的信息。例如，当前环境信息可以为随机地形第一人称射击游戏中的当前游戏界面中的信息，具体可以为游戏摄像机拍摄到的第一人称视角的信息。

本公开实施例中，在获取到待决策任务的当前环境信息之后，将当前环境信息输入至决策模型中，由决策模型对当前环境信息进行处理后，输出待决策任务包含的各个子任务分别对应的子策略，以及各个子任务分别对应的权重系数。其中，权重系数用于表征对应的子任务在待决策任务中所占的比重。

由于输入至决策模型的当前环境信息中包含有冗余信息，其中，冗余信息是指当前环境信息中与待决策任务无关的信息，因此，在决策模型接收到当前环境信息之后，首先利用信息编码网络Encoder对当前环境信息进行精炼处理，以去除与待决策任务无关的信息。

另外，由于最近一段时间的历史环境信息对本次的待决策任务往往存在影响，为此，本公开实施例还可以利用循环神经网络RNN调取最近一段时间内的历史环境信息，与待决策任务的当前环境信息共同用于对该待决策任务的决策中。

一种可选的实施方式中，决策模型可以包括多个子策略模型和权重模型。如图2所示，为本公开实施例提供的一种决策模型的示意图，其中，首先获取待决策任务对应的环境信息，其中包括预设时间内的历史环境信息和当前环境信息，可以利用(x_1,x_2…x_40)表示，其中，x_40是指当前环境信息，其他元素是指历史环境信息，然后，将待决策任务对应的当前环境信息和历史环境信息同时输入至决策模型200中的Encoder之后，由Encoder对(x_1,x_2…x_40)分别进行精炼处理后得到(s_1,s_2,…,s_40)，并将其传输至RNN中，由RNN提取其中时间序列信息之后得到S，将S传输至各个子策略模型PolicyNet_1～PolicyNet_N以及权重模型MetaNet中，经过PolicyNet_1～PolicyNet_N的处理后，分别输出对应的子策略Policy_1～Policy_N。另外，经过MetaNet的处理后，输出各个子策略分别对应的权重系数ALPHAS，包括α₁～α_N。其中，对环境信息进行精炼处理是指去除环境信息中的冗余信息等操作。

S102：基于所述多个子策略分别对应的权重系数，对所述多个子策略进行加权求和，得到所述待决策任务的决策信息；其中，所述决策信息用于控制所述待决策任务的执行。

本公开实施例中，在获取到决策模型输出的多个子策略，以及各个子策略分别对应的权重系数之后，基于各个权重系数，对子策略进行加权求和，得到待决策任务的决策信息。

其中，待决策任务的决策信息Policy，简记为π，具体表示为：

本公开实施例中，在通过对子策略进行加权求和，得到待决策任务的决策信息之后，基于决策信息控制所述待决策任务的执行。具体的，可以将该决策信息作用于待决策任务所处的环境，实现多复合任务复杂环境下的决策过程。

本公开实施例提供的多复合任务执行的控制方法中，在获取到待决策任务的当前环境信息后，将当前环境信息输入至决策模型中，经过决策模型的处理后，输出待决策任务对应的多个子策略以及各个子策略分别对应的权重系数。其中，待决策任务属于包含多个子任务的多复合任务，各个子任务具有对应的子策略。然后，基于多个子策略分别对应的权重系数，对子策略进行加权求和，得到待决策任务的决策信息；其中，所述决策信息用于控制所述待决策任务的执行。

可见，本公开实施例能够利用决策模型解决多复合任务环境下的决策问题，通过对决策模型输出的子策略进行动态的加权求和，能够得到适应各种复杂多复合任务环境的决策信息，提高了决策模型的泛化能力。

本公开实施例中的决策模型可以基于强化学习模型实现，即智能体基于输入的待决策任务的当前环境信息，输出待决策任务的决策信息，然后将决策信息对应的动作Action作用于待决策任务所处的环境，进而由环境接受该动作后发生状态变化，同时产生与各个子任务分别对应的奖励值反馈给智能体，智能体根据反馈的奖励值进行参数调整和优化，参数调整和优化的方向是使受到正向奖励值的概率增大。智能体输出的决策信息不仅影响环境反馈的奖励值，而且影响环境下一时刻的状态以及智能体本身的参数调整等，从而实现循环的响应过程。

为此，在上述实施例的基础上，本公开实施例还提供了一种多复合任务执行的控制方法，通过将待决策任务的决策信息作用于待决策任务所处的环境中，基于环境产生的反馈奖励，对决策模型的参数进行优化，循环实现多复合任务环境下的决策过程。

具体的，参考图3，为本公开实施例提供的另一种多复合任务执行的控制方法流程图，该方法包括：

S301：将待决策任务的当前环境信息输入至决策模型中，经过所述决策模型的处理后，输出所述待决策任务对应的多个子策略以及所述多个子策略分别对应的权重系数。

S302：基于所述多个子策略分别对应的权重系数，对所述多个子策略进行加权求和，得到所述待决策任务的决策信息；其中，所述决策信息用于控制所述待决策任务的执行。

本公开实施例中的S301和S302可参考上述实施例中的S101和S102的内容进行理解，在此不再赘述。

S303：在将所述决策信息作用于所述待决策任务的所述当前环境信息对应的环境后，获取来自所述环境的反馈奖励。

其中，所述反馈奖励包括多个子奖励，所述子奖励与所述子策略具有对应关系。

参考图4，为本公开实施例提供的一种决策模型的参数优化示意图，其中，待决策任务的决策信息Policy作用于待决策任务所处的环境Environment之后，Environment针对Policy产生反馈奖励Reward_1～Reward_N。具体的，Reward_1～Reward_N可以是基于待决策任务包含的多个子任务划分得到的，其中，Reward_1～Reward_N中每一个具有对应的子任务，Reward用于表征决策信息作用于Environment之后，Environment的表现。

S304：基于所述多个子策略分别对应的权重系数，对所述多个子奖励进行加权求和，得到所述决策信息对应的总奖励。

如图4所示，本公开实施例利用决策模型中的MetaNet输出的权重系数α₁～α_N，对Reward_1～Reward_N加权求和，得到总奖励Reward，简记为R：

本公开实施例中，基于权重系数α₁～α_N对各个反馈奖励加权求和得到的总奖励，能够倾向于表现出权重系数较大的子任务的反馈奖励。例如，假设权重系数较大的子任务A的反馈奖励较低，则最终加权求和得到总奖励较低，能够说明作用于Environment的决策信息对于权重系数较大的子任务A的表现较差，需要进一步对决策模型的参数进行优化，以提高子任务A对应的反馈奖励或者降低子任务A的权重系数。

S305：基于所述总奖励，对所述决策模型中的参数进行优化。

本公开实施例中，经过加权求和得到总奖励之后，基于总奖励对决策模型中的参数进行优化，优化目标是使得待决策任务所处的环境产生的总奖励最大化。

一种可选的实施方式中，本公开实施例提供的上述多复合任务执行的控制方法能够应用于中央处理器CPU中，实现决策信息的输出以及决策模型中参数的优化。

另一种可选的实施方式中，本公开实施例提供的上述多复合任务执行的控制方法中的决策信息的输出过程可以在CPU中完成，而对决策模型中参数的优化过程可以在GPU中完成，以提高决策模型的参数优化过程中的计算效率，同时也节省了CPU的计算资源成本。

具体的，在CPU中完成决策信息的输出之后，建立待决策任务的当前环境信息、待决策任务的决策信息和决策信息对应的总奖励之间的对应关系。然后将该对应关系发送至模型优化GPU中，由模型优化GPU基于该对应关系得到优化后参数。

实际应用中，模型优化GPU中预先部署有待优化决策模型，该待优化决策模型中的参数与部署于CPU中用于决策信息输出的决策模型中的参数是同步的。模型优化GPU基于待决策任务的当前环境信息、待决策任务的决策信息和决策信息对应的总奖励之间的对应关系，对待优化决策模型中的参数进行优化，得到优化后参数，然后将该优化后参数发送至上述CPU中，该CPU能够基于该优化后参数对该CPU上部署的决策模型中的参数进行更新，从而间接的实现了CPU上部署的决策模型中的参数优化。

具体的，决策模型中的参数优化过程是以在数学上求解误差函数Loss最小值的方式进行，如下：

Loss＝PolicyLoss+ValueLoss+EntropyLoss；

其中，PolicyLoss表示策略误差，ValueLoss表示对未来价值估计的误差，EntropyLoss表示熵误差，以提高智能体(即决策模型)行为的多样性。

本公开实施例中，针对图4中的权重模型，可以利用元梯度算法对权重模型中的参数进行优化，从而提高决策模型的表现力，使得决策模型能够输出较佳的决策信息，作用到环境后产生较高的反馈奖励。

本公开实施例可以根据待决策任务所处的环境的变化，动态调整权重模型每次输出的各个子任务分别对应的权重系数，优化最终输出的决策信息，从而不断的提高决策模型的决策准确信。

另外，针对图4中的各个信息编码网络Encoder、循环神经网络CNN和各个子策略网络PolicyNet_1～PolicyNet_N，可以通过随机梯度下降方法进行参数优化，具体方式本公开实施例不再赘述。

本公开实施例中对决策模型进行训练以对模型中的参数进行优化的方法，是基于整体的端到端的训练模式实现的，无需子策略模型的训练与权重模型的训练割裂开。也就是说，对决策模型的每一次的模型参数优化，同时也对权重模型中的模型参数进行优化，从整体上提高决策模型输出的决策信息的准确性。

本公开实施例提供的多复合任务执行的控制方法中，通过对决策模型输出的子策略进行动态加权求和，能够得到适应各种复杂多复合任务环境的决策信息，提高了决策模型的泛化能力。

另外，通过对环境输出的反馈奖励进行动态加权求和，能够得到倾向于表现出权重系数较大的子任务的反馈奖励的总奖励，用于对决策模型进行训练，提高决策模型对权重系数较大的子任务的决策能力，还可以动态调整各个子任务分别对应的权重系数，最终提高决策模型的整体表现力。

基于上述实施例，本公开可以应用于网络游戏中，具体的，本公开提供了一种随机地形第一人称射击游戏中的多复合任务执行的控制方法，参考图5，为本公开实施例提供的一种随机地形第一人称射击游戏中多复合任务执行的控制方法流程图，该方法包括：

S501：将摄像机信息输入至决策模型中，经过处理后，由决策模型中的导航策略网络输出导航子策略，以及由决策模型中的战斗策略网络输出战斗子策略，以及由高层策略网络输出导航子策略和战斗子策略分别对应的权重系数。

S502：基于导航子策略和战斗子策略分别对应的权重系数，对导航子策略和战斗子策略进行加权求和，得到决策信息。

S503：基于决策信息生成走路和战斗的动作，将走路和战斗的动作作用于随机地形第一人称射击游戏的当前环境后，获取来自当前环境的反馈奖励，其中，反馈奖励包括走路奖励和战斗奖励。

S504：基于导航子策略和战斗子策略分别对应的权重系数，对走路奖励和战斗奖励加权求和，得到总奖励。

S505：基于总奖励对高层策略网络、导航策略网络和战斗策略网络中的参数进行优化。

本公开实施例提供的随机地形第一人称射击游戏中的决策方法中，通过对导航子策略和战斗子策略的动态加权求和，得到能够适用于各种复杂随机地形的射击场景中的决策信息，提高决策模型的泛化力。

另外，本公开实施例能够自动训练出具有不同功能特点的子策略，如导航子策略和战斗子策略，通过对环境输出的反馈奖励进行动态加权求和，能够得到倾向于表现出权重系数较大的子任务的反馈奖励的总奖励，用于对决策模型进行训练，最终能够提高决策模型对权重系数较大的子任务的决策能力，提高决策模型的整体表现力。

另外，本公开实施例基于整体的端到端的训练模式对高层策略网络、导航策略网络和战斗策略网络进行训练的。也就是说，对决策模型的每一次的模型参数优化，同时也对高层策略网络中的模型参数进行优化，从整体上提高决策模型输出的决策信息的准确性，提高了对多复合任务执行的控制准确性。

基于上述实施例，本公开还提供了一种新闻推荐方法，参考图6，为本公开实施例提供的一种新闻推荐方法流程图，该方法包括：

S601：将用户信息输入至决策模型中，经过处理后，由决策模型中的广告策略网络输出广告推送子策略，以及由决策模型中的新闻策略网络输出新闻推送子策略，以及由高层策略网络输出广告推送子策略和新闻推送子策略分别对应的权重系数。

S602：基于广告推送子策略和新闻推送子策略分别对应的权重系数，对广告推送子策略和新闻推送子策略进行加权求和，得到决策信息。

S603：基于决策信息生成广告推送和新闻推送的动作，将广告和新闻推送给用户后，获取用户点赞、转发、分享等新闻反馈奖励，以及广告点击等广告反馈奖励。

S604：基于广告推送子策略和新闻推送子策略分别对应的权重系数，对新闻反馈奖励和广告反馈奖励进行加权求和，得到总奖励。

S605：基于总奖励对高层策略网络、广告推送策略网络和新闻推送策略网络中的参数进行优化。

本公开实施例提供的新闻推荐方法中，通过对新闻推送子策略和广告推送子策略的加权求和，得到能够满足用户需求的决策信息，提高决策模型的泛化力。

另外，本公开实施例能够自动训练出具有不同功能特点的子策略，如广告推送子策略和新闻推送子策略，通过对环境输出的反馈奖励进行动态加权求和，能够得到倾向于表现出权重系数较大的子任务的反馈奖励的总奖励，用于对决策模型进行训练，最终能够提高决策模型对权重系数较大的子任务的决策能力，提高决策模型的整体表现力。

另外，本公开实施例基于整体的端到端的训练模式对高层策略网络、广告推送策略网络和新闻推送策略网络进行训练的。也就是说，对决策模型的每一次的模型参数优化，同时也对高层策略网络中的模型参数进行优化，从整体上提高决策模型输出的决策信息的准确性。

与上述方法实施例基于同一个发明构思，本公开还提供了一种多复合任务执行的控制装置，参考图7，为本公开实施例提供的一种多复合任务执行的控制装置的结构示意图，所述装置包括：

决策模块701，用于将待决策任务的当前环境信息输入至决策模型中，经过所述决策模型的处理后，输出所述待决策任务对应的多个子策略以及所述多个子策略分别对应的权重系数；其中，所述待决策任务属于包含多个子任务的多复合任务，所述子任务与所述子策略具有对应关系；

第一加权求和模块702，用于基于所述多个子策略分别对应的权重系数，对所述多个子策略进行加权求和，得到所述待决策任务的决策信息；其中，所述决策信息用于控制所述待决策任务的执行。

一种可选的实施方式中，在上述图7的基础上，所述装置还可以包括：

第一获取模块，用于在将所述决策信息作用于所述待决策任务的所述当前环境信息对应的环境后，获取来自所述环境的反馈奖励；其中，所述反馈奖励包括多个子奖励，所述子奖励与所述子策略具有对应关系；

第二加权求和模块，用于基于所述多个子策略分别对应的权重系数，对所述多个子奖励进行加权求和，得到所述决策信息对应的总奖励；

第一优化模块，用于基于所述总奖励，对所述决策模型中的参数进行优化。

一种可选的实施方式中，所述装置应用于CPU，所述装置还包括：

建立模块，用于建立所述待决策任务的所述当前环境信息、所述待决策任务的决策信息和所述决策信息对应的总奖励之间的对应关系；

相应的，所述第一优化模块，包括：

发送子模块，用于将所述对应关系发送至模型优化GPU；其中，所述模型优化GPU上部署有待优化决策模型，所述模型优化GPU用于基于所述对应关系对所述待优化决策模型中的参数进行优化，得到优化后参数，所述待优化决策模型与所述决策模型具有对应关系；

更新子模块，用于接收来自所述模型优化GPU的所述优化后参数，并基于所述优化后参数，对所述CPU上的所述决策模型中的参数进行更新。

所述决策模块，包括：

输入子模块，用于将待决策任务的当前环境信息输入至所述多个子策略模型和所述权重模型；

第一输出子模块，用于经过所述多个子策略模型处理后，输出所述待决策任务对应的多个子策略；

第二输出子模块，用于经过所述权重模型处理后，输出所述多个子策略分别对应的权重系数。

一种可选的实施方式中，所述装置还包括：

第二优化模块，用于利用元梯度算法对所述权重模型中的参数进行优化。

一种可选的实施方式中，所述装置还包括：

第二获取模块，用于从待决策任务所处的环境中，获取所述待决策任务的当前环境信息。

一种可选的实施方式中，所述装置还包括：

精炼模块，用于利用信息编码网络对所述当前环境信息进行精炼处理。

一种可选的实施方式中，所述装置应用于网络游戏中，所述待决策任务为所述网络游戏中的下一步动作，所述决策模型包括导航策略网络、战斗策略网络和高层策略网络；

所述决策模块，具体用于：

相应的，所述第一加权求和模块，具体用于：

一种可选的实施方式中，所述装置还包括：

第三获取模块，用于基于所述下一步动作的决策信息控制所述下一步动作的执行后，获取来自所述网络游戏的奖励模块的反馈奖励；其中，所述反馈奖励包括走路奖励和战斗奖励；

第三加权求和模块，用于基于所述导航子策略和所述战斗子策略分别对应的权重系数，对所述走路奖励和所述战斗奖励进行加权求和，得到总奖励；

第三优化模块，用于基于所述总奖励对所述高层策略网络、所述导航策略网络和所述战斗策略网络中的参数进行优化。

本公开实施例提供的多复合任务执行的控制装置中，在获取到待决策任务的当前环境信息后，将当前环境信息输入至决策模型中，经过决策模型的处理后，输出待决策任务对应的多个子策略以及各个子策略分别对应的权重系数。其中，待决策任务属于包括多个子任务的多复合任务，各个子任务具有对应的子策略。然后，基于多个子策略分别对应的权重系数，对子策略进行加权求和，得到待决策任务的决策信息。可见，本公开实施例能够利用决策模型解决多复合任务环境下的决策问题，通过对决策模型输出的子策略进行动态的加权求和，能够得到适应各种复杂多复合任务环境的决策信息，提高了决策模型的泛化能力。

另外，通过对环境输出的反馈奖励进行动态加权求和，能够得到倾向于表现出权重系数较大的子任务的反馈奖励的总奖励，用于对决策模型进行训练，最终能够提高决策模型对权重系数较大的子任务的决策能力，提高决策模型的整体表现力。

除了上述方法和装置以外，本公开实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现本公开实施例所述的多复合任务执行的控制方法。

本公开实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开实施例所述的多复合任务执行的控制方法。

另外，本公开实施例还提供了一种多复合任务执行的控制设备，参见图8所示，可以包括：

处理器801、存储器802、输入装置803和输出装置804。多复合任务执行的控制设备中的处理器801的数量可以一个或多个，图8中以一个处理器为例。在本公开的一些实施例中，处理器801、存储器802、输入装置803和输出装置804可通过总线或其它方式连接，其中，图8中以通过总线连接为例。

存储器802可用于存储软件程序以及模块，处理器801通过运行存储在存储器802的软件程序以及模块，从而执行多复合任务执行的控制设备的各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置803可用于接收输入的数字或字符信息，以及产生与多复合任务执行的控制设备的用户设置以及功能控制有关的信号输入。

具体在本实施例中，处理器801会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现上述多复合任务执行的控制设备的各种功能。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多复合任务执行的控制方法，其特征在于，所述方法包括：

将待决策任务的当前环境信息输入至决策模型中，经过所述决策模型的处理后，输出所述待决策任务对应的多个子策略以及所述多个子策略分别对应的权重系数；其中，所述待决策任务属于包含多个子任务的多复合任务，所述子任务与所述子策略具有一一对应关系；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述总奖励，对所述决策模型中的参数进行优化。

3.根据权利要求2所述的方法，其特征在于，所述方法应用于中央处理器CPU，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述决策模型包括多个子策略模型和权重模型；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

利用元梯度算法对所述权重模型中的参数进行优化。

6.根据权利要求1所述的方法，其特征在于，所述将待决策任务的当前环境信息输入至决策模型中之前，还包括：

从待决策任务所处的当前环境中，获取所述待决策任务的当前环境信息。

7.根据权利要求1所述的方法，其特征在于，所述将待决策任务的当前环境信息输入至决策模型中之前，还包括：

利用信息编码网络对所述当前环境信息进行精炼处理。

8.根据权利要求1所述的方法，其特征在于，所述方法应用于网络游戏中，所述待决策任务为所述网络游戏中的下一步动作，所述决策模型包括导航策略网络、战斗策略网络和高层策略网络；

9.根据权利要求8所述的方法，其特征在于，所述基于所述导航子策略和所述战斗子策略分别对应的权重系数，对所述导航子策略和所述战斗子策略进行加权求和，得到所述下一步动作的决策信息之后，还包括：

10.一种多复合任务执行的控制装置，其特征在于，所述装置包括：

决策模块，用于将待决策任务的当前环境信息输入至决策模型中，经过所述决策模型的处理后，输出所述待决策任务对应的多个子策略以及所述多个子策略分别对应的权重系数；其中，所述待决策任务属于包含多个子任务的多复合任务，所述子任务与所述子策略具有一一对应关系；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现如权利要求1-9任一项所述的方法。

12.一种设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-9任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如权利要求1-9任一项所述的方法。