CN113254200A

CN113254200A - 资源编排方法及智能体

Info

Publication number: CN113254200A
Application number: CN202110520783.6A
Authority: CN
Inventors: 刘晶; 徐雷; 毋涛
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-13
Anticipated expiration: 2041-05-13
Also published as: CN113254200B

Abstract

本发明公开一种资源编排方法及智能体，涉及计算机技术领域。具体方案包括：获取全局奖励信息和局部环境状态信息，其中，全局奖励信息是基于预设的全局环境获得的信息，全局环境对应一个或多个智能体，局部环境状态信息是根据当前智能体对应的局部环境获取的信息；根据全局奖励信息和局部环境状态信息，更新编排策略；在接收到第一资源编排请求的情况下，基于第一资源编排请求、局部环境状态信息和更新的编排策略编排局部环境中的资源。基于全局奖励信息和局部环境状态信息更新编排策略，不仅可以降低智能体之间编排策略的相关性，还可以依据环境变化及时更新编排策略，从而获得更加合理准确的编排策略，提升了资源的利用率。

Description

资源编排方法及智能体

技术领域

本发明涉及计算机技术领域，具体涉及一种资源编排方法及智能体。

背景技术

智能体是人工智能领域中的重要概念之一，它是指驻留在某一环境下，能持续自主地发挥作用，具备驻留性、反应性、社会性、主动性等特征的计算实体。在实际应用中，可以为智能体预设策略，智能体基于预设策略执行相应动作。但是，通常情况下，预设策略为相对固定的策略，且多个智能体基于相同的环境和相同的奖励更新策略时存在相关性，从而导致智能体无法依据环境变化合理准确地更新策略。

发明内容

为此，本发明提供一种资源编排方法及智能体，以解决智能体无法依据环境变化合理准确地更新策略的问题。

为了实现上述目的，本发明第一方面提供一种资源编排方法，该资源编排方法包括：

获取全局奖励信息和局部环境状态信息，其中，所述全局奖励信息是基于预设的全局环境获得的信息，所述全局环境对应一个或多个智能体，所述局部环境状态信息是根据当前智能体对应的局部环境获取的信息；

根据所述全局奖励信息和所述局部环境状态信息，更新编排策略；

在接收到第一资源编排请求的情况下，基于所述第一资源编排请求、所述局部环境状态信息和更新的编排策略编排所述局部环境中的资源。

进一步地，所述获取全局奖励信息和局部环境状态信息之前，还包括：

接收用户终端发送的第二资源编排请求；

根据所述第二资源编排请求、所述第二资源编排请求对应的历史局部环境状态信息和所述第二资源编排请求对应的历史编排策略，编排所述第二资源编排请求对应的历史局部环境中的资源。

进一步地，所述获取全局奖励信息和局部环境状态信息，包括：

根据编排之后的所述第二资源编排请求对应的历史局部环境中的资源，获取所述全局奖励信息和所述局部环境状态信息。

进一步地，所述第一资源编排请求和所述第二资源编排请求包括资源编排类型和资源需求量。

进一步地，所述全局奖励信息是对所述全局环境中所有智能体的所述第二资源编排请求对应的历史局部环境状态信息和所述局部环境状态信息进行批处理，获得所述全局环境的资源均衡率与请求接受率，并根据预设的奖励机制、所述资源均衡率和所述请求接受率生成的信息。

进一步地，所述编排策略包括动作策略；

所述根据所述全局奖励信息和所述局部环境状态信息，更新编排策略，包括：

将所述全局奖励信息和所述局部环境状态信息输入预设的动作策略预测模型，以供所述动作策略预测模型执行动作策略预测操作，并输出更新的动作策略。

进一步地，所述动作策略包括路径部署子策略和路由子策略中的一个或多个。

进一步地，所述在接收到第一资源编排请求的情况下，基于所述第一资源编排请求、所述局部环境状态信息和更新的编排策略编排所述局部环境中的资源，包括：

将所述第一资源编排请求、所述局部环境状态信息和所述更新的编排策略发送至资源管理器，由所述资源管理器编排所述局部环境中的资源。

进一步地，所述资源管理器用于配置和编排所述局部环境中的各类资源。

为了实现上述目的，本发明第二方面提供一种智能体，该智能体包括：

第一获取模块，用于获取全局奖励信息和局部环境状态信息，其中，所述全局奖励信息是基于预设的全局环境获得的信息，所述全局环境对应一个或多个智能体；

第二获取模块，用于局部环境状态信息，其中，所述局部环境状态信息是根据当前智能体对应的局部环境获取的信息；

更新模块，用于根据所述全局奖励信息和所述局部环境状态信息，更新编排策略；

编排模块，用于在接收到第一资源编排请求的情况下，基于所述第一资源编排请求、所述局部环境状态信息和更新的编排策略编排所述局部环境中的资源。

本发明具有如下优点：

本发明提供的资源编排方法，每个智能体根据全局奖励信息和局部环境状态信息更新编排策略，不仅可以降低智能体之间编排策略的相关性，还可以依据环境变化及时更新编排策略，从而获得更加合理准确的编排策略，在接收到资源编排请求时，根据资源编排请求、局部环境状态信息和更新后的编排策略编排每个智能体对应的局部环境中的资源，提升了资源的利用率。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。

图1为本发明实施例一提供的一种资源编排方法的流程图；

图2为本发明实施例二提供的一种资源编排方法的流程图；

图3为本发明实施例三提供的一种智能体的组成方框图；

图4为本发明实施例四提供的一种资源编排***的组成方框图；

图5为本发明实施例五提供的一种资源编排***的组成方框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本申请第一方面提供一种资源编排方法。图1是本申请实施例一提供的一种资源编排方法的流程图。如图1所示，该资源编排方法包括如下步骤：

步骤S101，获取全局奖励信息和局部环境状态信息。

其中，全局奖励信息是基于预设的全局环境获得的信息，全局环境对应一个或多个智能体，局部环境状态信息是根据当前智能体对应的局部环境获取的信息。

在一些实施例中，全局奖励信息是对全局环境中所有智能体的局部环境状态进行批处理，获得全局环境的资源均衡率与请求接受率，并根据预设的奖励机制、资源均衡率和请求接受率生成的信息。其中，批处理可以是在达到预设时间周期后执行，也可以是在处理的资源编排请求的数量达到预设数量阈值之后执行，本领域技术人员可根据实际需求灵活设置，本申请对此不作限定。

例如，在智能体执行资源编排之后，根据全局环境计算获得的资源均衡率和请求接受率均得到提升，则全局奖励信息应是正向的反馈信息。其中，全局奖励信息可以是带有符号的数值，符号的正反表示奖励信息是正向反馈还是负向反馈，数值的大小表示正向或负向的程度。

在一些实施例中，智能体通过具有信息采集功能的装置获取局部环境状态信息，局部环境状态信息包括局部环境中的资源类型、资源占用量、资源空闲量等信息。

需要说明的是，以上对于局部环境状态信息仅是举例说明，可根据实际需要进行具体设定，其他未说明的局部环境状态信息也在本申请的保护范围之内，在此不再赘述。

还需要说明的是，预设的奖励机制本身也是迭代更新的机制，以便可以获得更加合理准确的全局奖励信息，从而使得编排策略的更新也相应地更加合理准确。

步骤S102，根据全局奖励信息和局部环境状态信息，更新编排策略。

其中，编排策略是指编排局部环境中各类资源的策略。

在一些实施例中，编排策略包括动作策略，动作策略包括路径部署子策略和路由子策略中的一个或多个。相应的，智能体的动作包括路径部署和路由配置。

在一些实施例中，将全局奖励信息和局部环境状态信息输入预设的动作策略预测模型，以供动作策略预测模型执行动作策略预测操作，并输出更新的动作策略。其中，动作策略预测模型是基于Actor-Critic(演员评论家)算法构建的模型。Actor-Critic算法合并了以策略为基础的Policy Gradient(策略梯度)和以值为基础的Q-Learning(Q学习)两类强化学习算法，将前者当作Actor(演员)，用来基于概率选择行为，将后者当作Critic(评论家)，用来评判Actor的行为得分，然后Actor又会根据Critic的评分修改行为的概率。基于此，Actor-Critic算法既可以在有效的处理连续动作的选取，又可以进行单步更新。

步骤S103，在接收到第一资源编排请求的情况下，基于第一资源编排请求、局部环境状态信息和更新的编排策略编排局部环境中的资源。

在一些实施例中，全局环境中包括各类服务器、存储设备、网络设备等设备，这些设备的资源被虚拟化成各类虚拟资源。全局环境对应若干个智能体，每个智能体的动作包括VNF(Virtual Network Feature，虚拟网络功能)多路径部署和业务流路由，对应的动作策略包括路径策略和路由策略。

假设第一资源编排请求包括资源编排类型和资源需求量。在接收到第一资源编排请求之后，智能体根据第一资源编排请求对应的资源编排类型、资源需求量以及智能体当前的局部环境状态信息、更新的编排策略，编排当前智能体对应的局部环境中的各类虚拟资源。

在一些具体实现中，将第一资源编排请求、局部环境状态信息和更新的编排策略发送至资源管理器，由资源管理器编排局部环境中的资源。其中，资源管理器用于配置和编排局部环境中的各类资源。例如，资源管理器包括SFC(Service Function Chaining，服务链)编排器、SDN(Software Defined Network，软件定义网络)控制器、边缘计算编排器、NFV(Network Functions Virtualization，网络功能虚拟化)编排器等。

需要说明的是，在接收第一资源编排请求之后，智能体还可能接收其他资源编排请求，在接收到其他资源编排请求的情况下，智能体按照当前的资源编排方法迭代地编排资源并更新编排策略。

本实施例提供的资源编排方法，每个智能体根据全局奖励信息和局部环境状态信息更新编排策略，不仅可以降低智能体之间编排策略的相关性，还可以依据环境变化及时更新编排策略，从而获得更加合理准确的编排策略，在接收到资源编排请求时，根据资源编排请求、局部环境状态信息和更新后的编排策略编排每个智能体对应的局部环境中的资源，提升了资源的利用率。

图2是本申请实施例二提供的一种资源编排方法的流程图。如图2所示，该资源编排方法包括如下步骤：

步骤S201，接收用户终端发送的第二资源编排请求。

智能体更新编排策略是一个迭代更新的过程。每次接收资源编排请求，智能体按照当前的编排策略执行资源编排之后，局部环境状态信息会发生变化，相应的会生成新的全局奖励信息，基于此，智能体根据新的全局奖励信息和变化后的局部环境状态信息更新编排策略，从而获得新的编排策略，并重复上述过程，直到满足预设的停止条件。其中，停止条件可以是迭代次数满足预设迭代阈值等条件，在实际应用中，停止条件可根据需求灵活设置，本申请对此不作限定。

在一些实施例中，智能体在获取第一资源编排请求对应的全局奖励信息和局部环境状态信息之前，接收第二资源编排请求，其中，第二资源编排请求包括资源编排类型和资源需求量。

步骤S202，根据第二资源编排请求、第二资源编排请求对应的历史局部环境状态信息和第二资源编排请求对应的历史编排策略，编排第二资源编排请求对应的历史局部环境中的资源。

其中，第二资源编排请求对应的历史局部环境状态信息是指当前智能体执行第一资源编排请求之前，其所对应的局部环境状态信息(第二资源编排请求对应的局部环境状态信息在第一资源编排请求对应时间点之前，因此，第二资源编排请求对应的局部环境状态信息相对于第一资源编排请求而言属于历史局部环境状态信息)。与此类似，第二资源编排请求对应的历史编排策略是指执行第一资源编排请求之前，当前智能体对应的编排策略。

智能体根据第二资源编排请求、第二资源编排请求对应的历史局部环境状态信息和第二资源编排请求对应的历史编排策略，编排第二资源编排请求对应的历史局部环境中的资源的方法与本申请实施例一中步骤S103的内容类似，在此不再赘述。

步骤S203，获取全局奖励信息和局部环境状态信息。

步骤S204，根据全局奖励信息和局部环境状态信息，更新编排策略。

步骤S205，在接收到第一资源编排请求的情况下，基于第一资源编排请求、局部环境状态信息和更新的编排策略编排局部环境中的资源。

本实施例中的步骤S203～步骤S205与本申请实施例一中步骤S101～步骤S103的内容相同，在此不再赘述。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请第二方面提供一种智能体。图3是本申请实施例三提供的一种智能体的组成方框图。如图3所示，该智能体包括：第一获取模块301、第二获取模块302、更新模块303和编排模块304。

第一获取模块301，用于获取全局奖励信息和局部环境状态信息。

需要说明的是，预设的奖励机制本身也是迭代更新的机制，以便可以获得更加合理准确的全局奖励信息，从而使得编排策略的更新也相应地更加合理准确。

第二获取模块302，用于局部环境状态信息。

在一些实施例中，智能体通过具有信息采集功能的第二获取模块302获取局部环境状态信息，局部环境状态信息包括局部环境中的资源类型、资源占用量、资源空闲量等信息。

更新模块303，用于根据全局奖励信息和局部环境状态信息，更新编排策略。

其中，编排策略是指编排局部环境中各类资源的策略。

在一些实施例中，更新模块303根据全局奖励信息和局部环境状态信息，更新编排策略，包括：

将全局奖励信息和局部环境状态信息输入预设的动作策略预测模型，以供动作策略预测模型执行动作策略预测操作，并输出更新的动作策略。其中，动作策略预测模型是基于Actor-Critic算法构建的模型。

编排模块304，用于在接收到第一资源编排请求的情况下，基于第一资源编排请求、局部环境状态信息和更新的编排策略编排局部环境中的资源。

在一些实施例中，全局环境中包括各类服务器、存储设备、网络设备等设备，这些设备的资源被虚拟化成各类虚拟资源。全局环境对应若干个智能体，每个智能体的动作包括VNF多路径部署和业务流路由，对应的动作策略包括路径策略和路由策略。

在一些具体实现中，将第一资源编排请求、局部环境状态信息和更新的编排策略发送至资源管理器，由资源管理器编排局部环境中的资源。其中，资源管理器用于配置和编排局部环境中的各类资源。例如，资源管理器包括SFC编排器、SDN控制器、边缘计算编排器、NFV编排器等。

本实施例提供的智能体，其根据全局奖励信息和局部环境状态信息更新编排策略，不仅可以降低智能体之间编排策略的相关性，还可以依据环境变化及时更新编排策略，从而获得更加合理准确的编排策略，在接收到资源编排请求时，根据资源编排请求、局部环境状态信息和更新后的编排策略编排每个智能体对应的局部环境中的资源，提升了资源的利用率。

本申请第三方面提供一种资源编排***。图4是本申请实施例四提供的一种资源编排***的组成方框图。如图4所示，该资源编排***400包括：智能体410、奖励模块420、环境430和资源管理器440。

其中，环境410中包括第一资源431至第n资源43n共n个资源，n为大于或等于1的整数；智能体410内包括预设的、且可更新的编排策略411，以及预设的可执行的动作412；奖励模块420用于根据从环境410获取的环境状态信息以及预设的奖励机制确定请求接受率421和资源均衡率422，并根据请求接受率421和资源均衡率422确定全局奖励信息，以供智能体410在更新编排策略时参考全局奖励信息；资源管理器440用于在接收到资源编排请求后，根据智能体410的编排策略411、局部环境状态信息以及资源编排请求中的具体请求内容执行环境410中的各个资源的编排工作。

需要说明的是，第一资源431至第n资源43n可以是相同类型的资源，也可以是不同类型的资源，在本实施例中仅是示例性说明，其他类型的资源分布情况也在本申请保护范围内，本申请对此不作限制。

还需要说明的是，奖励模块420输出的奖励信息是全局性质的奖励信息，即该全局奖励信息是根据全局环境内所有智能体(图4中只示例性示出一个智能体，其他智能体未示出)对应的局部环境状态信息进行批处理，获得全局环境的资源均衡率与请求接受率，并根据预设的奖励机制、资源均衡率和请求接受率生成的信息。

图5是本申请实施例五提供的一种资源编排***的组成方框图。如图5所示，该资源编排***主要包括：演员评论家网络模型500，第一智能体511、第二智能体521至第m智能体5m1等m个智能体，m为大于或等于1的整数，这些智能体对应的第一局部环境512、第二局部环境522至第m局部环境5m2，以及由第一经验513、第二经验523至第m经验5m3构成的经验池。其中，演员评论家网络模型500是基于演员评论家算法构建的网络模型，该网络模型可以根据每个智能体的局部环境状态信息的集合，获得全局奖励信息，以供智能体在进行编排策略的更新时参考全局奖励信息。

其中，每个智能体对应自身的局部环境，并基于自身的局部环境异步运行，所有智能体的局部环境的集合构成全局环境。具体到第一智能体511，第一智能体511从第一局部环境512中获得第一局部环境状态信息S1_t，并在接收到资源编排请求后，根据第一局部环境状态信息S1_t和全局奖励信息r_i以及当前的编排策略向第一局部环境512输出动作a1_t。其中，i表示全局奖励信息的更新次数，t表示第一智能体511的局部环境状态信息的变更次数，t与第一智能体511接收的资源编排请求的数量相关。第二智能体521、第m智能体5m1与第一智能体511具有相同的功能，资源编排方法也相同，在此不再赘述(j表示第二智能体521的第二局部环境状态信息的变更次数，k表示第m智能体5m1的第m局部环境状态信息的变更次数)。

例如，在初始状态时，第一智能体511的第一局部环境状态信息为S1₀，在接收到一个资源编排请求之后，第一智能体511根据资源编排请求中的内容(如资源类型、资源数量等信息)、S1₀以及初始的编排策略执行动作a1₀，其中初始的编排策略可以是预先设置的策略。执行完本次资源编排操作之后，第一智能体511当前的局部环境状态从S1₀变更为S1₁，第一智能体511根据S1₁、当前的全局奖励信息r₁进行编排策略的更新。在接收到新的资源编排请求之后，第一智能体511按照上述方法迭代执行资源编排和编排策略的更新操作。

需要说明的是，全局奖励信息r_i是根据全局环境中所有智能体的经验获得的信息。具体地，在每个智能体执行分别若干次资源编排之后，每个智能体局部环境状态信息、动作信息以及全局奖励信息构成每个智能体的对应的经验信息。例如，第一智能体511对应第一经验513，第二智能体对应第二经验523，第m智能体对应第m经验5m3，以上m组经验构成一个经验池。在达到预设的批处理条件时，演员评论家网络模型500对经验池中的经验进行批处理，获取新的全局奖励信息，并将新的全局奖励信息下发至每个智能体。每个智能体根据新的全局奖励信息更新当前编排策略，并基于更新后的编排策略执行资源编排。

在本实施例中，多个智能体异步运行，演员评论家网络模型基于全局环境信息生成全局奖励信息，每个智能体在与环境进行局部交互期间根据共享的全局奖励信息更新其局部编排策略，减弱了智能体之间编排策略的相关性，可以获得更加合理准确的编排策略。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种资源编排方法，其特征在于，包括：

2.根据权利要求1所述的资源编排方法，其特征在于，所述获取全局奖励信息和局部环境状态信息之前，还包括：

接收用户终端发送的第二资源编排请求；

3.根据权利要求2所述的资源编排方法，其特征在于，所述获取全局奖励信息和局部环境状态信息，包括：

4.根据权利要求2所述的资源编排方法，其特征在于，所述第一资源编排请求和所述第二资源编排请求包括资源编排类型和资源需求量。

5.根据权利要求2或3所述的资源编排方法，其特征在于，所述全局奖励信息是对所述全局环境中所有智能体的所述第二资源编排请求对应的历史局部环境状态信息和所述局部环境状态信息进行批处理，获得所述全局环境的资源均衡率与请求接受率，并根据预设的奖励机制、所述资源均衡率和所述请求接受率生成的信息。

6.根据权利要求1所述的资源编排方法，其特征在于，所述编排策略包括动作策略；

7.根据权利要求6所述的资源编排方法，其特征在于，所述动作策略包括路径部署子策略和路由子策略中的一个或多个。

8.根据权利要求1所述的资源编排方法，其特征在于，所述在接收到第一资源编排请求的情况下，基于所述第一资源编排请求、所述局部环境状态信息和更新的编排策略编排所述局部环境中的资源，包括：

9.根据权利要求8所述的资源编排方法，其特征在于，所述资源管理器用于配置和编排所述局部环境中的各类资源。

10.一种智能体，其特征在于，包括：