CN116506863A

CN116506863A - 决策优化方法、装置、电子设备及可读存储介质

Info

Publication number: CN116506863A
Application number: CN202210053765.6A
Authority: CN
Inventors: 邓娟; 刘光毅
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2023-07-28

Abstract

本申请提供一种决策优化方法、装置、电子设备及可读存储介质，其中，应用于基站的决策优化方法包括：获取目标网络状态信息，并向网络节点发送所述目标网络状态信息；接收所述网络节点发送的网络状态信息集合，所述网络状态集合包括所述目标网络状态信息和至少一个派生网络状态信息，所述派生网络状态信息基于所述目标网络状态信息确定；根据所述网络状态信息集合确定动作决策集合，并向所述网络节点发送所述动作决策集合所述动作决策集合包括至少一个动作决策；接收所述网络节点发送的目标动作决策，并执行所述目标动作决策，所述目标动作决策基于所述动作决策集合确定。本申请能够提高***决策的可靠性。

Description

决策优化方法、装置、电子设备及可读存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种决策优化方法、装置、电子设备及可读存储介质。

背景技术

智能体是一种具有感知、交互和自主决策能力的实体，可以被应用于无线通信中。实际的物理网络与智能体进行交互，智能体可以获取网络状态，并根据一定的策略确定一个动作来执行，再根据网络对动作执行的反馈调整策略，从而不断更新优化，最终确定最优策略。

然而，在智能体与网络交互的过程中，通常存在一定的时延，例如，网络状态的获取存在时延，动作决策的确定和下发存在时延。这将导致智能体执行的决策对于执行当时的网络状态来说已经不是最优，***的可靠性降低。

发明内容

本申请实施例的目的在于提供一种决策优化方法、装置、电子设备及可读存储介质，解决了现有技术中***决策可靠性较低的问题。

第一方面，本申请实施例提供一种决策优化方法，应用于基站，包括：

获取目标网络状态信息，并向网络节点发送所述目标网络状态信息；

接收所述网络节点发送的网络状态信息集合，所述网络状态集合包括所述目标网络状态信息和至少一个派生网络状态信息，所述派生网络状态信息基于所述目标网络状态信息确定；

根据所述网络状态信息集合确定动作决策集合，并向所述网络节点发送所述动作决策集合所述动作决策集合包括至少一个动作决策；

接收所述网络节点发送的目标动作决策，并执行所述目标动作决策，所述目标动作决策基于所述动作决策集合确定。

可选地，所述获取目标网络状态信息，并向网络节点发送所述目标网络状态信息之前，所述方法还包括：

接收所述网络节点发送的网络状态参数的需求信息，所述网络状态参数的需求信息基于目标评估指标确定，所述目标评估指标基于网络优化意图确定；

根据所述网络状态参数的需求信息，确定目标网络状态参数；

所述获取目标网络状态信息，包括：

采集所述目标网络状态参数的参数值，得到目标网络状态信息。

可选地，所述根据所述网络状态信息集合确定动作决策集合，包括：

将第一网络状态信息输入强化学习算法模型，得到第一动作决策，所述第一网络状态为所述网络状态集合中的任一网络状态，所述动作决策集合包括所述第一动作决策。

可选地，所述执行所述目标动作决策之后，所述方法还包括：

获取执行所述目标动作决策后的目标网络性能信息；

根据所述目标网络性能信息，确定目标反馈信息；

基于所述目标网络状态、所述目标动作决策和所述目标反馈信息，生成训练样本；

基于所述训练样本，对所述强化学习算法模型的模型参数进行更新。

第二方面，本申请实施例提供一种决策优化方法，应用于网络节点，包括：

接收基站发送的目标网络状态信息；

根据所述目标网络状态信息，确定至少一个派生网络状态信息，并向所述基站发送网络状态信息集合，所述网络状态信息集合包括所述目标网络状态信息和所述至少一个派生网络状态信息；

接收所述基站发送的动作决策集合，所述动作决策集合基于所述网络状态信息集合确定；

根据所述动作决策集合，确定目标动作决策，并向所述基站发送所述目标动作决策。

可选地，所述接收基站发送的目标网络状态信息之前，所述方法还包括：

确定目标评估指标，所述目标评估指标基于网络优化意图确定；

根据所述目标评估指标，确定网络状态参数的需求信息；

向所述基站发送所述网络状态参数的需求信息；

其中，所述目标网络状态基于所述网络状态参数的需求信息获取。

可选地，所述根据所述目标评估指标，确定网络状态参数的需求信息，包括：

基于预先配置的知识图谱，确定所述目标评估指标对应的网络状态参数的需求信息，所述知识图谱存储有评估指标与网络状态参数之间的关联关系。

可选地，所述根据所述目标网络状态信息，确定至少一个派生网络状态信息，包括：

基于所述目标网络状态信息，确定物理网络对应的虚拟孪生网络；

基于所述虚拟孪生网络，预测目标时间窗口内的至少一个派生网络状态信息。

可选地，所述根据所述动作决策集合，确定目标动作决策，包括：

基于所述虚拟孪生网络，对所述动作决策集合中的每个动作决策进行仿真模拟，得到对应于每个所述动作决策的模拟结果；

对所述模拟结果进行评估，得到所述模拟结果对应的评估信息；

根据所述评估信息，确定目标动作决策。

可选地，所述基于所述虚拟孪生网络，对所述动作决策集合中的每个动作决策进行仿真模拟，得到对应于每个所述动作决策的模拟结果，包括：

基于所述虚拟孪生网络，对第二动作决策与所述网络状态信息集合中的每个网络状态信息进行仿真模拟，得到对应于所述第二动作决策和每个所述网络状态信息的模拟结果；

其中，所述第二动作决策为所述动作决策集合中的任一动作决策。

第三方面，本申请实施例提供一种决策优化装置，包括：

第一获取模块，用于获取目标网络状态信息，并向网络节点发送所述目标网络状态信息；

第一接收模块，用于接收所述网络节点发送的网络状态信息集合，所述网络状态集合包括所述目标网络状态信息和至少一个派生网络状态信息，所述派生网络状态信息基于所述目标网络状态信息确定；

第一确定模块，用于根据所述网络状态信息集合确定动作决策集合，并向所述网络节点发送所述动作决策集合所述动作决策集合包括至少一个动作决策；

第二接收模块，用于接收所述网络节点发送的目标动作决策，并执行所述目标动作决策，所述目标动作决策基于所述动作决策集合确定。

可选地，所述装置还包括：

第三接收模块，用于接收所述网络节点发送的网络状态参数的需求信息，所述网络状态参数的需求信息基于目标评估指标确定，所述目标评估指标基于网络优化意图确定；

第二确定模块，用于根据所述网络状态参数的需求信息，确定目标网络状态参数；

所述第一获取模块用于：

可选地，所述第一确定模块用于：

可选地，所述装置还包括：

第二获取模块，用于获取执行所述目标动作决策后的目标网络性能信息；

第三确定模块，用于根据所述目标网络性能信息，确定目标反馈信息；

生成模块，用于基于所述目标网络状态、所述目标动作决策和所述目标反馈信息，生成训练样本；

优化模块，用于基于所述训练样本，对所述强化学习算法模型的模型参数进行更新。

第四方面，本申请实施例提供一种决策优化装置，包括：

第四接收模块，用于接收基站发送的目标网络状态信息；

第四确定模块，用于根据所述目标网络状态信息，确定至少一个派生网络状态信息，并向所述基站发送网络状态信息集合，所述网络状态信息集合包括所述目标网络状态信息和所述至少一个派生网络状态信息；

第五接收模块，用于接收所述基站发送的动作决策集合，所述动作决策集合基于所述网络状态信息集合确定；

第五确定模块，用于根据所述动作决策集合，确定目标动作决策，并向所述基站发送所述目标动作决策。

可选地，所述装置还包括：

第六确定模块，用于确定目标评估指标，所述目标评估指标基于网络优化意图确定；

第七确定模块，用于根据所述目标评估指标，确定网络状态参数的需求信息；

第一发送模块，用于向所述基站发送所述网络状态参数的需求信息；

可选地，所述第七确定模块用于：

可选地，所述第四确定模块包括：

第一确定单元，用于基于所述目标网络状态信息，确定物理网络对应的虚拟孪生网络；

第二确定单元，用于基于所述虚拟孪生网络，预测目标时间窗口内的至少一个派生网络状态信息。

可选地，所述第五确定模块包括：

模拟单元，用于基于所述虚拟孪生网络，对所述动作决策集合中的每个动作决策进行仿真模拟，得到对应于每个所述动作决策的模拟结果；

评估单元，用于对所述模拟结果进行评估，得到所述模拟结果对应的评估信息；

第三确定单元，用于根据所述评估信息，确定目标动作决策。

可选地，所述模拟单元用于：

第五方面，本申请实施例提供了一种电子设备，包括收发机、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面提供的决策优化方法的步骤；或者，所述计算机程序被所述处理器执行时实现如第二方面提供的决策优化方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面提供的决策优化方法的步骤；或者，所述计算机程序被所述处理器执行时实现如第二方面提供的决策优化方法的步骤。

本申请实施例中，基站从物理网络获取目标网络状态信息后，可以将目标网络状态信息发送给网络节点，由网络节点基于目标网络状态信息进行整合，对未来一段时间内的网络状态进行派生，使得基站智能体可以综合考虑目标网络状态信息和派生网络状态信息确定动作决策集合，再由网络节点综合确定目标动作决策交由基站执行。智能体确定动作决策的时间粒度更细，目标动作决策相比基于目标网络状态信息确定的动作决策，更贴合真实的物理网络状态，优化了***决策的方式，提高了***决策的可靠性和安全性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例可应用的一种网络***的结构图；

图2是本申请实施例提供的一种决策优化方法的流程图之一；

图3是本申请实施例提供的一种决策优化方法的流程图之二；

图4是本申请实施例提供的一种决策优化方法的交互示意图之一；

图5是本申请实施例提供的一种决策优化方法的交互示意图之二；

图6是本申请实施例提供的一种Massive MIMO天线码本空间设计示意图；

图7是本申请实施例提供的一种决策优化装置的结构图之一；

图8是本申请实施例提供的一种决策优化装置的结构图之二；

图9是本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，本申请中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B和/或C，表示包含单独A，单独B，单独C，以及A和B都存在，B和C都存在，A和C都存在，以及A、B和C都存在的7种情况。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

相关技术中，无线通信中的智能体可以获取物理网络的实时网络状态，并根据一定的策略确定一个动作来执行，再根据物理网络对动作执行的反馈调整策略，从而不断更新优化。具体的，智能体可以学习不同网络状态下采用不同动作决策的动作价值函数，确定执行的动作决策。在执行动作决策后，可以通过奖励函数计算奖励，得到一个<状态,动作,奖励>组合，并基于该<状态,动作,奖励>组合对模型参数进行优化。

然而，智能体是按照一定时间周期进行动作决策，智能体在采集网络状态参数和生成动作决策时的时间粒度受限于智能体与物理网络的交互和传输，当前确定的动作决策对两次动作决策之间的一个或多个网络状态不能达到最优，这将导致动作决策的可靠性降低，安全风险增高。

本申请实施例提供了一种决策优化方法。请参见图1，图1是本申请实施例可应用的一种网络***的结构图。如图1所示，上述网络***包括基站11和网络节点12，基站11和网络节点12之间可以进行通信。其中，基站11可以为物理网络中的任一基站，基站11中部署有智能体。

网络节点12可以是物理网络中的集中网络节点，也可以称为集中管理网络节点或核心网络节点，具体可以为无线网管设备或其他集中网络节点。网络节点12可以与一个或者多个基站11交互，对基站11传输的信息进行整合、处理，来协助基站智能体优化决策，以提高***决策执行的可靠性和安全性。

下面将分别从基站和网络节点的角度来介绍本申请实施例。

请参见图2，图2是本申请实施例提供的一种决策优化方法的流程图之一，该决策优化方法可以应用于基站。

如图2所示，决策优化方法可以包括以下步骤：

步骤201、获取目标网络状态信息，并向网络节点发送目标网络状态信息。

需要说明的是，本申请实施例以目标区域内的物理网络为例进行决策优化，针对全域物理网络的决策优化也可以参照本申请实施例进行。

目标网络状态信息可以包括物理网络中一个或多个网络状态参数的参数值。上述网络状态参数可以包括静态参数，如基站站址和数量、小区数量、频段、载频带宽、场景信道类型、场景地理信息等，也可以包括动态参数，如基站开关情况，基站天线配置，用户位置分布等，在此不作具体限定。

具体实现时，基站可以预设用于描述网络状态的一个或多个网络状态参数，并通过采集上述预设的网络状态参数的参数值，得到目标网络状态信息。基站也可以基于网络节点发送的需求信息确定需要采集的网络状态参数，并通过采集上述需求的网络状态参数的参数值，得到目标网络状态信息。可以理解的是，具体确定网络状态参数的实施方式可以根据实际情况决定，在此不作具体限定。

基站在获取目标网络状态信息后，可以即时向网络节点发送目标网络状态信息，也可以周期性地向网络节点发送目标网络状态信息。

步骤202、接收网络节点发送的网络状态信息集合。

其中，网络状态集合包括目标网络状态信息和至少一个派生网络状态信息，派生网络状态信息基于目标网络状态信息确定。

网络节点在接收到基站发送的目标网络状态信息后，可以基于目标网络状态信息，确定至少一个派生网络状态信息，并生成网络状态信息集合。

上述派生网络状态信息可以表示：在基站执行上一次动作决策之后、执行下一次动作决策之前的时间段内，物理网络可能出现的网络状态的信息。为方便描述，将上述时间段记为目标时间窗口。具体实现时，网络节点可以基于目标网络状态信息和存储的历史网络状态信息，预测目标时间窗口内的网络状态，并确定各网络状态的信息。

需要说明的是，在网络节点与多个基站进行交互的情况下，网络节点可以获取多个基站发送的目标网络状态信息，并基于多个目标网络状态信息和各基站的实际情况，综合确定全量状态信息集合。针对目标基站，网络节点可以发送全量状态信息集合，也可以仅发送全量状态信息集合中与目标基站相关的网络状态信息集合，还可以仅发送全量状态信息集合中与目标基站、目标基站的相邻基站相关的网络状态信息集合，具体可根据实际情况决定，例如，基于目标基站内智能体的算法设计决定，在此不作具体限定。

步骤203、根据网络状态信息集合确定动作决策集合，并向网络节点发送动作决策集合。

其中，动作决策集合包括至少一个动作决策。

具体实现时，基站可以根据网络状态信息集合中的一个网络状态信息确定一个动作决策，最后得到动作决策集合。

在一可选实施方式中，基站可以将网络状态信息集合中的每个网络状态信息基于强化学习算法，确定动作决策。具体的，基站智能体部署有强化学习算法模型，以第一网络状态信息为例，通过将第一网络状态信息输入到强化学习算法模型中，强化学习算法模型可以基于算法策略确定不同候选动作决策的动作价值，并基于动作价值选择最优的动作决策输出，也就是第一动作决策。

步骤204、接收网络节点发送的目标动作决策，并执行目标动作决策。

其中，目标动作决策基于动作决策集合确定。

网络节点在接收到基站发送的动作决策集合后，综合动作决策集合中的至少一个动作决策，选出最终的动作决策，也就是目标动作决策发送给基站。

下面对本申请实施例的具体实施方式作进一步说明：

一)目标网络状态信息

目标网络状态信息可以基于预设网络状态参数的参数值确定。然而，在一些场景中，预先确定的网络状态参数可能不能准确、完整地描述物理网络实际运行过程中的所有状态。在一可选实施方式中，目标网络状态信息可以基于网络节点确定的需求信息确定，这样目标网络状态信息可以更准确、完整地描述物理网络的运行状态，基于此确定的动作决策的可靠性和安全性更高。

在一可选实施方式中，步骤201之前，所述决策优化方法还包括：

接收网络节点发送的网络状态参数的需求信息，网络状态参数的需求信息基于目标评估指标确定，目标评估指标基于网络优化意图确定；

根据网络状态参数的需求信息，确定目标网络状态参数；

步骤201包括：

采集目标网络状态参数的参数值，得到目标网络状态信息。

本实施方式中，网络节点可以基于网络优化意图确定目标评估指标，并根据目标评估指标确定网络状态参数的需求信息。

具体实现时，网络优化意图可以表征目标区域内的物理网络中待优化的评估指标，也就是目标评估指标。目标评估指标可以包括目标区域内物理网络的性能指标(关键绩效指标(Key Performance Indicator，KPI))，还可以包括目标区域基站编号列表、目标区域需优化的性能指标、性能指标的达标值等。其中，物理网络的性能指标可以包括但不限于基站覆盖信号强度、用户掉话率、用户切换成功率、***吞吐量、***能耗等，具体可根据实际情况决定，在此不作具体限定。

网络节点可以接收运营人员的输入分析网络优化意图，并确定目标评估指标，也可以基于一个或多个基站上报的信息自行分析网络优化意图，并确定目标评估指标。之后，网络节点根据目标评估指标确定网络状态参数的需求信息，网络状态参数的需求信息可以包括网络状态参数的参数类型(包括静态参数、动态参数或静态参数加动态参数)，还可以包括对应参数类型下具体所需的网络状态参数。

在一可选实施方式中，网络节点可以基于知识图谱确定网络状态参数的需求信息。具体地，网络节点可以预先配置一知识图谱，该知识图谱存储有评估指标与网络状态参数之间的关联关系。网络节点在确定目标评估指标后，可以基于知识图谱确定与目标评估指标相关联的网络状态参数。

具体实现时，网络节点可以通过无线网络设备获取建立知识图谱的相关信息，并通过算法分析等方式确定初期的评估指标与网络状态参数之间的关联关系、影响关系，依此建立知识图谱。知识图谱运营过程中，网络节点可以基于周期性采集的信息对知识图谱中的关联关系、影响关系进行更新。

二)派生网络状态信息

派生网络状态信息基于目标网络状态信息确定。

网络节点可以先确定目标时间窗口。目标时间窗口可以基于预设规则确定，例如，目标时间窗口为基站上一次执行动作决策之后，时长为T的时间窗口，T为预设值。目标时间窗口也可以由网络节点根据实际情况具体确定。

网络节点可以基于目标网络状态信息和存储的历史网络状态信息，预测目标时间窗口内的网络状态，并确定各网络状态的信息。

在一可选实施方式中，网络节点可以通过建立虚拟孪生网络对派生网络状态信息进行预测。具体的，网络节点可以基于目标网络状态信息，确定物理网络对应的虚拟孪生网络，再基于虚拟孪生网络，预测目标时间窗口内的至少一个派生网络状态信息。

本实施方式中，虚拟孪生网络也可以称为孪生数字网络、数字孪生网络，其是物理网络的一种虚拟数字模型，是物理网络的一种仿真映射，能反映物理网络的网络状态。虚拟孪生网络可以包括多种天线、信道模型，也可以包括机器学习算法模型，用于预测无线网络状态。虚拟孪生网络可以存储历史网络状态信息和历史网络配置信息。

具体实现时，网络节点可以在初次接收到目标网络状态信息时，基于目标网络状态信息建立虚拟孪生网络，在后续接收到目标网络状态信息时，基于目标网络状态信息更新虚拟孪生网络。由于虚拟孪生网络是对物理网络的映射，网络节点可以基于虚拟孪生网络对目标网络状态信息和存储的历史网络状态信息进行仿真模拟，得到目标时间窗口内的至少一个派生网络状态信息。

三)目标动作决策

网络节点可以从基站确定的动作决策集合中确定目标动作决策。

在网络节点建立虚拟孪生网络的情况下，在一可选实施方式中，网络节点可以基于虚拟孪生网络，对动作决策集合中的每个动作决策进行仿真模拟，得到对应于每个动作决策的模拟结果，再对模拟结果进行评估，得到模拟结果对应的评估信息，再根据评估信息，确定目标动作决策。

具体实现时，网络节点可以基于网络状态信息集合和动作决策集合，确定<网络状态信息,动作决策>对，针对网络状态信息集合中的每一网络状态信息，均可以与动作决策集合中的任一动作决策组合得到一个<网络状态信息,动作决策>对，或者说，针对动作决策集合中的每一动作决策，均可以与网络状态信息集合中的任一网络状态信息组合得到一个<网络状态信息,动作决策>对，相当于对网络状态信息集合和动作决策集合进行排列组合。

以动作决策集合中的第二动作决策为例，基于虚拟孪生网络，可以对第二动作决策与网络状态信息集合中的每个网络状态信息进行仿真模拟，得到对应于第二动作决策和每个网络状态信息的模拟结果。网络节点可以对多个模拟结果进行评估，确定目标动作决策。

需要说明的是，在网络节点与多个基站进行交互的情况下，网络节点可以获取多个基站发送的动作决策集合，并基于多个网络状态信息集合、多个动作决策集合和多个基站的实际情况，确定<网络状态信息,动作决策,基站>对，针对网络状态信息集合中的每一网络状态信息，均可以与动作决策集合中的任一动作决策和任一基站组合得到一个<网络状态信息,动作决策,基站>对，或者说，针对动作决策集合中的每一动作决策，均可以与网络状态信息集合中的任一网络状态信息和任一基站组合得到一个<网络状态信息,动作决策,基站>对，相当于对网络状态信息集合、动作决策集合、多个基站进行排列组合。

这样，网络节点可以基于虚拟孪生网络对各动作决策进行预验证，进一步提高***决策的可靠性和安全性。

四)基站智能体的自优化

基站在执行目标动作决策后，可以从物理网络中获取执行目标动作决策之后的网络性能信息，也就是各网络性能指标的值，来计算目标动作决策对应的目标奖励。此外，基站还可以获取执行目标动作决策之后的更新网络状态信息，确定训练样本<目标网络状态信息，目标动作决策，目标奖励>，或者<目标网络状态信息，目标动作决策，目标奖励，更新网络状态信息>。基站可以基于该训练样本优化强化学习算法模型参数，实现自优化。

请参见图3，图3是本申请实施例提供的一种决策优化方法的流程图之二，该决策优化方法可以应用于网络节点。

如图3所示，决策优化方法可以包括以下步骤：

步骤301、接收基站发送的目标网络状态信息。

步骤302、根据目标网络状态信息，确定至少一个派生网络状态信息，并向基站发送网络状态信息集合。

其中，网络状态信息集合包括目标网络状态信息和至少一个派生网络状态信息；

步骤303、接收基站发送的动作决策集合。

其中，动作决策集合基于网络状态信息集合确定；

步骤304、根据动作决策集合，确定目标动作决策，并向基站发送目标动作决策。

可选地，接收基站发送的目标网络状态信息之前，方法还包括：

确定目标评估指标，目标评估指标基于网络优化意图确定；

根据目标评估指标，确定网络状态参数的需求信息；

向基站发送网络状态参数的需求信息；

其中，目标网络状态基于网络状态参数的需求信息获取。

可选地，根据目标评估指标，确定网络状态参数的需求信息，包括：

基于预先配置的知识图谱，确定目标评估指标对应的网络状态参数的需求信息，知识图谱存储有评估指标与网络状态参数之间的关联关系。

可选地，根据目标网络状态信息，确定至少一个派生网络状态信息，包括：

基于目标网络状态信息，确定物理网络对应的虚拟孪生网络；

基于虚拟孪生网络，预测目标时间窗口内的至少一个派生网络状态信息。

可选地，根据动作决策集合，确定目标动作决策，包括：

基于虚拟孪生网络，对动作决策集合中的每个动作决策进行仿真模拟，得到对应于每个动作决策的模拟结果；

对模拟结果进行评估，得到模拟结果对应的评估信息；

根据评估信息，确定目标动作决策。

可选地，基于动作决策集合中的每个动作决策，对虚拟孪生网络进行仿真模拟，得到每个动作决策对应的模拟结果，包括：

基于虚拟孪生网络，对第二动作决策与网络状态信息集合中的每个网络状态信息进行仿真模拟，得到对应于第二动作决策和每个网络状态信息的模拟结果；

其中，第二动作决策为动作决策集合中的任一动作决策。

需要说明的是，本实施例作为与上述方法实施例对应的网络节点的实施方式，因此，可以参见上述方法实施例中的相关说明，且可以达到相同的有益效果。为了避免重复说明，在此不再赘述。

为方便理解，下面介绍本申请实施例的一种具体实施方式：

本实施方式中，如图4所示，执行决策优化方法的网络***包括两个功能实体：基站与网络节点。基站与网络节点之间可以进行交互。

基站中部署有基站智能体，具体包括样本采集模块、强化学习模块两部分。其中，强化学习模块基于强化学习算法模型运算，强化学习算法模型所需的状态变量可以包括但不限于用户的分布、用户的业务模型、基站为用户分配的资源分布、基站发射天线参数等，所需的动作变量可以包括但不限于用户的切换/接入、基站资源的重分配、基站的开关选择、基站天线参数的重配置等，所需的奖励变量可以包括但不限于用户掉话率、用户切换成功率、基站覆盖信号强度、***吞吐量、***能耗等。

网络节点为物理网络内的集中网络节点，可以是无线网管设备或其他集中网络节点，网络节点部署有虚拟孪生网络。网络节点具体可以包括优化意图模块、孪生配置模块和物理模拟模块。

需要说明的是，本申请实施例对基站与网络节点中模块的划分并不作限定，本实施方式仅作示例说明，基站与网络节点之间的信息交互也可以如图5所示。

如图4和图5所示，本实施方式中的决策优化方法的流程如下：

1)优化意图模块接收用户输入的网络优化意图，并向孪生配置模块发送优化意图请求消息，优化意图请求消息中携带待优化的评估指标，即本申请实施例所述的目标评估指标。

2)孪生配置模块接收优化意图请求消息后，可以基于预先配置的知识图谱，对消息中携带的目标评估指标进行分析，确定与目标评估指标相关联的网络状态参数的需求信息，在本实施方式中，网络状态参数的需求信息也可以称为孪生配置参数需求，该孪生配置参数需求可以用于孪生配置模块建立虚拟孪生网络。孪生配置模块可以向目标区域内的一个或多个基站智能体的样本采集模块发送孪生配置参数采集请求消息，孪生配置参数采集请求消息携带孪生配置参数的参数类型、对应参数类型下的孪生配置参数需求。

3)样本采集模块接收孪生配置参数请求消息后，可以从物理网络中采集孪生配置参数需求相关的参数值，形成目标网络状态信息S_t，并将目标网络状态信息通过孪生配置参数采集响应消息发送给孪生配置模块。目标网络状态信息可以包括孪生静态参数的信息，如基站站址和数量、小区数量、频段、载频带宽、场景信道类型、场景地理信息等，也可以包括孪生动态参数的信息，如基站开关情况，基站天线配置，用户位置分布等。

需要说明的是，样本采集模块在初次接收到孪生配置参数请求消息后，可以采集物理网络当前的网络状态信息并通过孪生配置参数采集响应消息回传。网络状态信息可以用于建立虚拟孪生网络。之后，样本采集模块可以周期性地采集物理网络的网络状态信息/>并通过孪生配置参数采集更新消息回传。网络状态信息/>可以用于更新虚拟孪生网络。其中，不同孪生配置参数的采集周期可以不同，样本采集模块可以自行决定，例如，孪生静态参数的采集周期通常长于孪生动态参数。

4)孪生配置模块接收到孪生配置参数采集响应消息或孪生配置参数采集更新消息后，可以向物理模拟模块发送孪生网络更新消息，孪生网络更新消息中可以携带每一次样本采集模块发送的网络状态信息，用于建立或更新虚拟孪生网络。

5)在虚拟孪生网络的初始化阶段，物理模拟模块接收孪生配置模块传递的孪生网络更新消息，按照与物理网络相同的节点、环境生成虚拟孪生网络。

6)在基站智能体自优化阶段，物理模拟模块可以基于接收到的一个或多个基站的目标网络状态信息S_t和存储的历史网络状态信息，预测在目标时间窗口T内，目标区域内物理网络的n种派生网络状态信息S'₁、S'₂、···、S'_n，将S_t、S'₁、S'₂、···、S'_n共n+1网络状态信息记为集合S。

7)物理模拟模块向目标区域内的一个或多个基站智能体的强化学习模块发送决策推理请求消息，决策推理请求消息携带网络状态信息集合S。

8)强化学习模块接收到决策推理请求消息后，可以将网络状态信息集合S输入强化学习算法模型中对应生成动作决策集合A，其中包括相对应的动作决策a_t、a'₁、a'₂、···、a'_n共n+1动作决策。强化学习模块通过决策推理响应消息向物理模拟模块发送动作决策集合A。

9)物理模拟模块接收到决策推理响应消息后，可以基于虚拟孪生网络对状态-决策对<s,a>，进行仿真模拟，以对其性能进行评估、预验证，最终综合选出的最优动作决策a_t，也就是本申请实施例所述的目标动作决策。物理模拟模块向基站智能体的强化学习模块发送决策择优反馈消息，决策择优反馈消息携带最优动作决策a_t。

10)强化学习模块接收到决策择优反馈消息后，可以控制基站执行最优动作决策a_t，并在执行a_t后，向样本采集模块发送网络反馈请求消息，以请求样本采集模块采集执行a_t后物理网络的反馈信息，以计算奖励r_t。此外，强化学习模块还可以通过网络反馈请求消息请求样本采集模块采集执行a_t后物理网络的网络状态信息S_t+1。

11)样本采集模块可以向强化学习模块发送训练样本更新消息，携带更新的训练样本<S_t,a_t,r_t>或<S_t,a_t,r_t,S_t+1>。

12)强化学习模块接收训练样本更新消息后，基于训练样本<S_t,a_t,r_t>或<S_t,a_t,r_t,S_t+1>优化强化学习算法模型参数，实现自优化。

为方便理解，以移动通信***大规模多输入多输出(Massive Multiple InputMultiple Output，Massive MIMO)天线权值自优化的场景为例进行说明。

本示例中，移动通信***包括基站与终端，基站包括天线阵子，基站通过天线向终端传递信号。基站可以为天线阵子分配天线权值，即每一天线阵子上的权重，例如发射信号的权重、相位等，具体可以设置权值配置模块确定天线权值。天线阵子发射的波瓣的方向和形状是由权值确定的。示例性地，图6为Massive MIMO的27种波瓣方向示意图。

目标网络状态信息S_t为某时刻t的用户位置分布信息，表示基站覆盖范围内所有用户的位置，可以包括用户的全球定位***(Global Positioning System，GPS)的位置坐标，或者包括将基站覆盖范围进行栅格化后，每个栅格内的用户数量。

基站执行动作决策为：Massive MIMO天线的权值分配，具体为该基站负责的天线权值配置值矩阵，奖励为：以该决策配置天线权值并发射信号后，该基站覆盖区域内的的覆盖性能，具体奖励可由该基站覆盖范围内，每个终端的参考信号接收信号功率(ReferenceSignal Receiving Power，RSRP)计算出的整个区域的统计RSRP表示，或者由所有终端的RSRP的统计平均或累积分布函数(Cumulative Distribution Function，CDF)的95％来表示。

本示例中，虚拟孪生网络部署于物理网络中的南向网管设备中。若仅需优化某单个基站下的覆盖性能，则只需该基站与南向网管设备按照上述方案进行交互。若需优化较大区域内多个基站下的覆盖性能，则该区域内多有基站均需与虚拟孪生网络进行交互。

智能体部署于移动通信基站中，图4中优化意图模块确定的目标评估指标可以为待优化区域内的RSRP统计值。图4中孪生配置模块需要的网络配置参数，或称为孪生配置参数包括区域基站数量、每基站扇区数量、区域用户数量、基站发射功率、基站天线增益方向图、区域环境场景等。

基站采集上述网络配置参数生成目标网络状态信息S_t后，发送给南向网管设备。图4中的物理模拟模块可建立物理网络的虚拟孪生网络。物理模拟模块根据当前用户位置分布信息S_t，预测并扩充派生网络状态信息集合S，图4中的强化学习模块一一生成的权值配置构成集合A，也就是动作决策集合A，再由物理模拟模块评估得到最优权值配a_t。

基站执行a_t，调整其天线权值。执行a_t后，终端向基站上报其在新的天线波束朝向下接收到的RSRP。基站随之计算奖励r_t,，并根据<用户分布,天线权值,终端RSRP>调整模型参数，完成基站侧智能体的自优化。

本实施方式中，利用虚拟孪生网络对未来一段时间的网络状态进行派生，令强化学习算法综合考虑当前网络状态和派生网络状态，以确定最优动作决策，有利于提高***性能。此外，利用虚拟孪生网络可以对动作决策带来的结果进行预验证，进一步提高***决策的可靠性和安全性。此外，强化学习算法可以利用物理网络反馈的训练样本实现自优化。

参见图7，图7是本申请实施例提供的决策优化装置的结构图之一。

如图7所示，决策优化装置700包括：

第一获取模块701，用于获取目标网络状态信息，并向网络节点发送所述目标网络状态信息；

第一接收模块702，用于接收所述网络节点发送的网络状态信息集合，所述网络状态集合包括所述目标网络状态信息和至少一个派生网络状态信息，所述派生网络状态信息基于所述目标网络状态信息确定；

第一确定模块703，用于根据所述网络状态信息集合确定动作决策集合，并向所述网络节点发送所述动作决策集合所述动作决策集合包括至少一个动作决策；

第二接收模块704，用于接收所述网络节点发送的目标动作决策，并执行所述目标动作决策，所述目标动作决策基于所述动作决策集合确定。

可选地，决策优化装置700还包括：

第一获取模块701用于：

可选地，第一确定模块703用于：

可选地，决策优化装置700还包括：

决策优化装置700能够实现本申请方法实施例中基站能够实现的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

参见图8，图8是本申请实施例提供的决策优化装置的结构图之二。

如图8所示，决策优化装置800包括：

第四接收模块801，用于接收基站发送的目标网络状态信息；

第四确定模块802，用于根据所述目标网络状态信息，确定至少一个派生网络状态信息，并向所述基站发送网络状态信息集合，所述网络状态信息集合包括所述目标网络状态信息和所述至少一个派生网络状态信息；

第五接收模块803，用于接收所述基站发送的动作决策集合，所述动作决策集合基于所述网络状态信息集合确定；

第五确定模块804，用于根据所述动作决策集合，确定目标动作决策，并向所述基站发送所述目标动作决策。

可选地，决策优化装置800还包括：

可选地，所述第七确定模块用于：

可选地，第四确定模块802包括：

可选地，第五确定模块804包括：

可选地，所述模拟单元用于：

决策优化装置800能够实现本申请方法实施例中网络节点能够实现的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

本申请实施例还提供了一种电子设备。由于电子设备解决问题的原理与本申请实施例中提供的决策优化方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。如图9所示，本申请实施例的终端，包括处理器900、收发机910和存储器920。

一种实施方式中，所述电子设备为基站，处理器900用于读取存储器920中的程序，执行下列过程：

收发机910，用于在处理器900的控制下接收和发送数据。

其中，在图9中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器900代表的一个或多个处理器和存储器920代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机910可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器900负责管理总线架构和通常的处理，存储器920可以存储处理器900在执行操作时所使用的数据。

可选地，处理器900还用于读取存储器920中的程序，执行如下步骤：

获取执行所述目标动作决策后的目标网络性能信息；

根据所述目标网络性能信息，确定目标反馈信息；

另一种实施方式中，所述电子设备为网络节点，处理器900用于读取存储器920中的程序，执行下列过程：

接收基站发送的目标网络状态信息；

根据所述目标评估指标，确定网络状态参数的需求信息；

向所述基站发送所述网络状态参数的需求信息；

根据所述评估信息，确定目标动作决策。

本申请实施例提供的电子设备，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成，所述的程序可以存储于一可读取介质中。本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时可实现上述图2或图3对应的方法实施例中的任意步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

所述的存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种决策优化方法，应用于基站，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取目标网络状态信息，并向网络节点发送所述目标网络状态信息之前，所述方法还包括：

所述获取目标网络状态信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述网络状态信息集合确定动作决策集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述执行所述目标动作决策之后，所述方法还包括：

获取执行所述目标动作决策后的目标网络性能信息；

根据所述目标网络性能信息，确定目标反馈信息；

5.一种决策优化方法，应用于网络节点，其特征在于，所述方法包括：

接收基站发送的目标网络状态信息；

6.根据权利要求5所述的方法，其特征在于，所述接收基站发送的目标网络状态信息之前，所述方法还包括：

根据所述目标评估指标，确定网络状态参数的需求信息；

向所述基站发送所述网络状态参数的需求信息；

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标评估指标，确定网络状态参数的需求信息，包括：

8.根据权利要求5所述的方法，其特征在于，所述根据所述目标网络状态信息，确定至少一个派生网络状态信息，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述动作决策集合，确定目标动作决策，包括：

根据所述评估信息，确定目标动作决策。

10.根据权利要求9所述的方法，其特征在于，所述基于所述虚拟孪生网络，对所述动作决策集合中的每个动作决策进行仿真模拟，得到对应于每个所述动作决策的模拟结果，包括：

11.一种决策优化装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

所述第一获取模块用于：

13.根据权利要求11所述的装置，其特征在于，所述第一确定模块用于：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

15.一种决策优化装置，其特征在于，包括：

第四接收模块，用于接收基站发送的目标网络状态信息；

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

17.根据权利要求16所述的装置，其特征在于，所述第七确定模块用于：

18.根据权利要求15所述的装置，其特征在于，所述第四确定模块包括：

19.根据权利要求18所述的装置，其特征在于，所述第五确定模块包括：

20.根据权利要求19所述的装置，其特征在于，所述模拟单元用于：

21.一种电子设备，其特征在于，包括收发机、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的方法的步骤；或者，所述计算机程序被所述处理器执行时实现如权利要求5至10所述的方法的步骤。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的方法的步骤；或者，所述计算机程序被所述处理器执行时实现如权利要求5至10所述的方法的步骤。