CN110139325B

CN110139325B - 一种网络参数调优方法及装置

Info

Publication number: CN110139325B
Application number: CN201810135977.2A
Authority: CN
Inventors: 池清华; 王园园; 王岩; 周伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2021-08-13
Anticipated expiration: 2038-02-09
Also published as: US20200366557A1; CN110139325A; EP3739929A1; EP3739929A4; US11240103B2; WO2019154075A1

Abstract

一种网络参数调优方法及装置，用以实现在线的网络参数调优。该方法为：第一功能实体向第二功能实体发送评估模型，该评估模型用于第二功能实体确定网元在第一网络环境状态下执行的第一网络参数调整动作；第一功能实体接收第一网络参数调整动作的信息；第一功能实体根据第一网络环境状态的信息、第一网络参数调整动作的信息、网元在执行第一网络参数调整动作之后获得回报的信息、以及网元在执行第一网络参数调整动作之后的第二网络环境状态的信息，更新评估模型；第一功能实体向第二功能实体发送更新后的评估模型，所述更新后的评估模型用于第二功能实体确定网元在第二网络环境状态执行的第二网络参数调整动作。

Description

一种网络参数调优方法及装置

技术领域

本申请实施例涉及通信技术领域，尤其涉及一种网络参数调优方法及装置。

背景技术

无线资源管理(radio resource management，RRM)是对移动通信***中有限的无线资源进行合理分配和有效管理，使***性能和容量达到联合最佳状态。其基本出发点是在网络话务量分布不均匀、信道特性因信道衰落和干扰而起伏变化等情况下，灵活分配和动态调整无线传输网络的可用资源，目标是在保证网络服务质量(Quality of Service，QoS)的前提下，最大限度地提高频谱利用率和***容量。无线资源主要包括时间、频率、功率等。RRM所具有的功能都是以无线资源的分配和调整为基础来展开的，主要包括资源分配、接纳控制、负荷均衡等几个方面。

移动通信***在RRM中很多参数使用默认的配置，例如，上述参数可以是：导频功率、参考信号(reference signal，RS)功率、天线下倾角、长期演进(long term evolution，LTE)可复用电平差门限、测量报告(measurement report，MR)干扰判决门限。但是默认配置的参数不能适应终端的移动和流量模式的变化，并且默认配置的参数往往不是对每个小区来说都是最优的，这样不能最大化网络效率。以导频功率为例，导频功率是下行功率的一部分，与其他下行信道共享下行功率。在一定的发射机功率下，默认配置的导频功率的占比较大，其他下行信道的功率占比就会较小，其他下行信道所支持的业务量就会减少；默认配置的导频功率占比较小，导频信号服务的小区范围就会减小。因此默认配置的导频功率不能最大化网络效率。

发明内容

本申请实施例提供一种网络参数调优的方法及装置，用以实现在线的网络参数调优。

本申请实施例提供的具体技术方案如下：

第一方面，提供一种网络参数调优方法，第一功能实体通过与其他功能实体的交互，采用增强学习(reinforcement learning，RL)的方法实现网络参数调优，将网络参数调整动作发送给执行动作的网元，并根据网元执行网络参数调整动作后网络环境状态的改变和获得的回报，来迭代更新评估模型，利用更新后的评估模型确定下一次的网络参数调整动作。

在一个可能的设计中，第一功能实体向第二功能实体发送评估模型，所述评估模型用于所述第二功能实体确定网元在第一网络环境状态下执行的第一网络参数调整动作，所述第一功能实体接收所述第一网络参数调整动作的信息，所述第一功能实体根据所述第一网络环境状态的信息、所述第一网络参数调整动作的信息、所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述第一网络参数调整动作之后的第二网络环境状态的信息，更新所述评估模型，所述第一功能实体向所述第二功能实体发送更新后的评估模型，所述更新后的评估模型用于所述第二功能实体确定所述网元在所述第二网络环境状态执行的第二网络参数调整动作。从而达到将增强学习的方法应用到网络参数调优过程中的目的。

在一个可能的设计中，所述第一功能实体更新所述评估模型之前，接收规则的配置信息，所述规则包括以下至少一种：网络环境状态的种类和/或计算方法、网络参数调整动作的范围和步长、回报的种类和/或计算方法；所述第一功能实体根据所述规则，从第三功能实体获取与所述网络环境状态的种类一致并和所述回报的种类一致的网络数据；所述第一功能实体根据所述网络数据，确定所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述第二网络环境状态的信息。这样，通过在第一功能实体设置接口接收规则的配置信息，实现了灵活编排RL的参数定义或算法，使得训练或更新评估模型的数据更加丰富和具有多样性和适用性，能够根据网络需求来编排规则。其中，规则即RL的参数定义或算法。

在一个可能的设计中，所述第一功能实体为分析和建模功能AMF实体，所述第二功能实体为模型执行功能MEF实体，则：所述第一功能实体向第二功能实体发送评估模型，可以理解为：AMF实体向MEF实体发送评估模型，用于所述MEF实体根据所述评估模型确定并向自适应策略功能APF实体下发调整前的第一网络参数调整动作，所述调整前的第一网络参数调整动作为所述MEF实体根据所述评估模型确定的，APF实体根据策略确定是否需要对接收到的MEF实体发送的第一网络参数调整动作进行调整，若不需要调整，则由所述APF实体向所述网元下发从所述MEF实体接收到的第一网络参数调整动作，若需要调整，则由所述APF实体向所述网元下发调整后的第一网络参数调整动作；所述第一功能实体接收所述第一网络参数调整动作的信息，可以理解为：所述AMF实体接收所述APF实体发送的所述调整后的第一网络参数调整动作的信息，该调整后的第一网络参数调整动作实际上为APF实体根据策略确定的第一网络参数调整动作，调整后的第一网络参数调整动作包括实际调整过的与原来接收MEF实体发送的不同的动作，也有可能并没有调整，与原来接收MEF实体发送的相同的动作。这样，通过AMF实体与MEF实体的交互，进一步通过MEF实体与APF实体、以及APF实体与网元的交互，能够将增强学习的方法应用到网络参数调优的过程中去。

在一个可能的设计中，所述第一功能实体为分析和建模功能AMF实体，所述第二功能实体为模型执行功能MEF实体，则所述第一功能实体根据所述第一网络环境状态的信息、所述调整后的第一网络参数调整动作的信息、所述网元在执行所述调整后的第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述调整后的第一网络参数调整动作之后的第二网络环境状态的信息，更新所述评估模型。

在一个可能的设计中，AMF实体还向MEF实体发送关键性能指标KPI的种类和每个KPI种类的KPI保障阈值，所述KPI种类和每个KPI种类的KPI保障阈值用于：所述MEF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并向APF实体发送判断结果，由所述APF实体在任一KPI种类的KPI的具体值违反所述KPI保障规则时采取回退操作，所述回退操作后的动作作为所述调整后的第一网络参数调整动作，所述KPI保障规则为不高于或者不低于所述KPI保障阈值。这样，能够保证了在使用增强学习方法实现网络参数调优的过程中KPI不恶化。

在一个可能的设计中，所述第一功能实体为AMF实体，所述第二功能实体为APF实体，则所述第一功能实体向第二功能实体发送评估模型，所述第一功能实体接收所述第一网络参数调整动作的信息，可以理解为：AMF实体向APF实体发送评估模型，用于所述APF实体根据所述评估模型确定所述第一网络参数调整动作；所述AMF实体接收所述APF实体发送的所述第一网络参数调整动作的信息。这样，通过AMF实体与与APF实体、以及APF实体与网元的交互，能够将增强学习的方法应用到网络参数调优的过程中去。

在一个可能的设计中，所述AMF实体还向所述APF实体发送KPI的种类和每个KPI种类的KPI保障阈值，所述KPI的种类和每个KPI种类的KPI保障阈值用于：所述APF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并在任意一种KPI的具体值违反所述KPI保障规则时采取回退操作，所述回退操作后的动作作为所述第一网络参数调整动作。这样，能够保证了在使用增强学习方法实现网络参数调优的过程中KPI不恶化。

在一个可能的设计中，所述AMF实体发送KPI的种类和每个KPI种类的KPI保障阈值之前，所述AMF实体接收KPI保障规则的信息，所述KPI保障规则的信息包括：KPI的种类、每个KPI种类的KPI保障阈值、和回退操作的内容。

综上所述，将增强学习的方法应用于接入网的各个数据分析功能实体，实现了实时在线的无线网络参数调优，优化了网络性能。通过APF实体向AMF实体反馈实际下发给NE的网络参数调优动作，使得AMF实体能够在线更新评估模型，使得各个数据分析功能实体能够实现在线调优网络参数。引入本申请实施例提供的方法，使得机器学习能够应用于无线网络参数的在线调优，扩大了机器学习在无线网络中的应用范围。通过向AMF实体编排规则的配置，使得AMF可以根据灵活配置的用于增强学习方法中的参数来实现网络参数调优，解决了现网因为网络参数配置固定带来的数据不足导致不能进行调优的缺陷，实现了可灵活配置和部署的参数调优策略，避免了现有的RL应用于参数调优时新增和修改case需要通过软硬件版本升级实现。

第二方面，提供一种网络参数调优方法，通过模型执行功能MEF实体与其他功能实体的交互，采用RL的方法实现网络参数调优，将网络参数调整动作发送给执行动作的网元，并根据网元执行网络参数调整动作后网络环境状态的改变和获得的回报，来迭代更新评估模型，利用更新后的评估模型确定下一次的网络参数调整动作。

在一个可能的设计中，模型执行功能MEF实体接收分析和建模功能AMF实体发送的评估模型；所述MEF实体根据所述评估模型确定网元在第一网络环境状态下执行的第一网络参数调整动作，并将所述第一网络参数调整动作的信息发送给自适应策略功能APF实体，由所述APF实体将调整后的第一网络参数调整动作发送给所述网元，所述调整后的第一网络参数调整动作包括所述MEF实体发送的所述第一网络参数调整动作以及所述APF实体根据策略对所述第一网络参数调整动作进行调整后的网络参数调整动作，所述MEF实体接收所述AMF实体发送的更新后的评估模型，所述更新后的评估模型是AMF实体根据所述第一网络环境状态的信息、所述调整后的第一网络参数调整动作的信息、所述网元在执行所述调整后的第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述调整后的第一网络参数调整动作之后的第二网络环境状态的信息进行更新的；所述MEF实体根据更新后的评估模型确定所述网元在所述第二网络环境状态执行的第二网络参数调整动作。这样，通过MEF实体与AMF实体的交互，进一步通过MEF实体与APF实体、以及APF实体与网元的交互，能够将增强学习的方法应用到网络参数调优的过程中去。

在一个可能的设计中，所述MEF实体接收所述AMF实体发送的关键性能指标KPI的种类和每个KPI种类的KPI保障阈值；所述MEF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并向所述APF实体发送判断结果，由所述APF实体在任意一种KPI的具体值违反所述KPI保障规则时采取回退操作，所述回退操作后的动作作为所述调整后的第一网络参数调整动作，所述KPI保障规则为不高于或者不低于所述KPI保障阈值。这样，能够保证了在使用增强学习方法实现网络参数调优的过程中KPI不恶化。

第三方面，提供一种网络参数调优方法，自适应策略功能APF实体通过与其他功能实体的交互，采用RL的方法实现网络参数调优，将网络参数调整动作发送给执行动作的网元，并根据网元执行网络参数调整动作后网络环境状态的改变和获得的回报，来迭代更新评估模型，利用更新后的评估模型确定下一次的网络参数调整动作。

在一个可能的设计中，APF实体接收模型执行功能MEF实体发送的第一网络参数调整动作，所述第一网络参数调整动作是MEF实体根据评估模型确定的，所述APF实体将调整后的第一网络参数调整动作下发给网元，用于所述网元在第一网络环境状态下执行调整后的第一网络参数调整动作，所述调整后的第一网络参数调整动作包括所述MEF实体发送的所述第一网络参数调整动作以及根据策略对所述第一网络参数调整动作进行调整后的网络参数调整动作；所述APF实体将调整后的第一网络参数调整动作的信息发送给分析和建模功能AMF实体，用于AMF实体根据所述第一网络环境状态的信息、所述调整后的第一网络参数调整动作的信息、所述网元在执行所述调整后的第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述调整后的第一网络参数调整动作之后的第二网络环境状态的信息，来更新所述评估模型。这样，通过APF实体与AMF实体的交互，进一步通过APF实体与MEF实体、以及APF实体与网元的交互，能够将增强学习的方法应用到网络参数调优的过程中去。

在一个可能的设计中，所述APF实体还接收所述MEF实体发送的KPI的具体值是否违反KPI保障规则的信息；所述APF实体在KPI的具体值违反所述KPI保障规则时采取回退操作，将所述回退操作后的动作作为所述调整后的第一网络参数调整动作。这样，能够保证了在使用增强学习方法实现网络参数调优的过程中KPI不恶化。

第四方面，提供一种网络参数调优方法，自适应策略功能APF实体通过与其他功能实体的交互，采用RL的方法实现网络参数调优，将网络参数调整动作发送给执行动作的网元，并根据网元执行网络参数调整动作后网络环境状态的改变和获得的回报，来迭代更新评估模型，利用更新后的评估模型确定下一次的网络参数调整动作。

在一个可能的设计中，APF实体接收分析和建模功能AMF实体发送的评估模型，所述APF实体根据所述评估模型确定网元在第一网络环境状态下执行的第一网络参数调整动作，并将所述第一网络参数调整动作发送给所述网元，用于所述网元在第一网络环境状态下执行第一网络参数调整动作；所述APF实体将第一网络参数调整动作的信息发送给所述AMF实体，用于AMF实体根据所述第一网络环境状态的信息、所述第一网络参数调整动作的信息、所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述第一网络参数调整动作之后的第二网络环境状态的信息，来更新所述评估模型。从而达到将增强学习的方法应用到网络参数调优过程中的目的。

在一个可能的设计中，APF实体接收AMF实体发送的KPI的种类和每个KPI种类的KPI保障阈值，根据所述KPI的种类和每个KPI种类的KPI保障阈值，判断每个KPI种类的KPI的具体值是否违反KPI保障规则，在任意一种KPI的具体值违反所述KPI保障规则时采取回退操作，将所述回退操作后的动作作为所述第一网络参数调整动作。这样，能够保证了在使用增强学习方法实现网络参数调优的过程中KPI不恶化。

第五方面，提供一种网络参数调优装置，该装置具有实现上述第一方面和第一方面的任一种可能的设计的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，该装置可以是芯片或者集成电路。

在一个可能的设计中，该装置包括收发器和处理器，该收发器用于该装置与其他功能实体或网元之间进行通信，处理器用于执行一组程序，当程序被执行时，所述装置可以执行上述第一方面和第一方面的任一种可能的设计中所述的方法。

在一个可能的设计中，该装置还包括存储器，该存储器存储有所述处理器执行的所述程序。

在一个可能的设计中，该装置为分析和建模功能AMF实体。

第六方面，提供一种网络参数调优装置，该装置具有实现上述第二方面和第二方面的任一种可能的设计的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，该装置可以是芯片或者集成电路。

在一个可能的设计中，该装置包括收发器和处理器，该收发器用于该装置与其他功能实体或网元之间进行通信，处理器用于执行一组程序，当程序被执行时，所述装置可以执行上述第二方面和第二方面的任一种可能的设计中所述的方法。

在一个可能的设计中，该装置为模型执行功能MEF实体。

第七方面，提供一种网络参数调优装置，该装置具有实现上述第三方面和第三方面的任一种可能的设计的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，该装置可以是芯片或者集成电路。

在一个可能的设计中，该装置包括收发器和处理器，该收发器用于该装置与其他功能实体或网元之间进行通信，处理器用于执行一组程序，当程序被执行时，所述装置可以执行上述第三方面和第三方面的任一种可能的设计中所述的方法。

在一个可能的设计中，该装置为自适应策略功能APF实体。

第八方面，提供一种网络参数调优装置，该装置具有实现上述第四方面和第四方面的任一种可能的设计的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，该装置可以是芯片或者集成电路。

在一个可能的设计中，该装置包括收发器和处理器，该收发器用于该装置与其他功能实体或网元之间进行通信，处理器用于执行一组程序，当程序被执行时，所述装置可以执行上述第四方面和第四方面的任一种可能的设计中所述的方法。

在一个可能的设计中，该装置为自适应策略功能APF实体。

第九方面，提供一种芯片，该芯片与存储器相连或者该芯片包括存储器，用于读取并执行所述存储器中存储的软件程序，以实现如上述第一方面和第一方面的任一种可能的设计中所述的方法。

第十方面，提供一种芯片，该芯片与存储器相连或者该芯片包括存储器，用于读取并执行所述存储器中存储的软件程序，以实现如上述第二方面和第二方面的任一种可能的设计中所述的方法。

第十一方面，提供一种芯片，该芯片与存储器相连或者该芯片包括存储器，用于读取并执行所述存储器中存储的软件程序，以实现如上述第三方面和第三方面的任一种可能的设计中所述的方法。

第十二方面，提供一种芯片，该芯片与存储器相连或者该芯片包括存储器，用于读取并执行所述存储器中存储的软件程序，以实现如上述第四方面和第四方面的任一种可能的设计中所述的方法。

第十三方面，提供了一种通信***，该通信***包括第五方面、第六方面、第七方面和第八方面中至少两方面所述的装置。

第十四方面，提供一种计算机存储介质，存储有计算机程序，该计算机程序包括用于执行上述各方面和各方面的任一可能的设计中方法的指令。

第十五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面和各方面的任一可能的设计中所述的方法。

附图说明

图1为本申请实施例中***架构示意图；

图2为本申请实施例中RL的方法示意图；

图3为本申请实施例中网络参数调优的方法流程示意图之一；

图4为本申请实施例中网络参数调优的方法流程示意图之二；

图5为本申请实施例中网络参数调优的方法流程示意图之三；

图6为本申请实施例中历史统计的CS掉话率分布；

图7为本申请实施例中网络参数调优的方法流程示意图之四；

图8为本申请实施例中网络参数调优装置的结构示意图之一；

图9为本申请实施例中网络参数调优装置的结构示意图之二；

图10为本申请实施例中网络参数调优装置的结构示意图之三；

图11为本申请实施例中网络参数调优装置的结构示意图之四；

图12为本申请实施例中网络参数调优装置的结构示意图之五；

图13为本申请实施例中网络参数调优装置的结构示意图之六；

图14为本申请实施例中网络参数调优装置的结构示意图之七；

图15为本申请实施例中网络参数调优装置的结构示意图之八。

具体实施方式

本申请提供一种网络参数调优方法及装置，用以实现对网络参数进行在线的调优。其中，方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

下面将结合附图，对本申请实施例进行详细描述。

本申请实施例提供的网络参数调优方法适用于不同的无线接入技术的通信***中，例如第三代(3rd Generation，3G)通信***、长期演进(long term evolution，LTE)***、第五代(5th generation，5G)通信***等更多可能的通信***中。

接入网负责终端的无线侧接入，接入网(access network，AN)设备可能的部署形态包括：集中式单元(centralized unit，CU)和分布式单元(distributed unit，DU)分离场景；以及单站点的场景。单站点包括gNB/NR-NB、传输接收点(transmission receptionpoint，TRP)、演进型节点B(evolved Node B，eNB)、无线网络控制器(radio networkcontroller，RNC)、节点B(Node B，NB)、基站控制器(base station controller，BSC)、基站收发台(base transceiver station,BTS)、家庭基站(例如，home evolved NodeB，或homeNode B，HNB)、基带单元(base band unit，BBU)，或无线保真(wireless fidelity，Wifi)接入点(access point，AP)等。在5G通信***中，单站点为gNB/NR-NB。其中，CU支持无线资源控制(radio resource control，RRC)、分组数据汇聚协议(packet data convergenceprotocol，PDCP)、业务数据适配协议(service data adaptation protocol，SDAP)等协议。CU一般会部署在中心局点，具有较为丰富的计算资源。DU主要支持无线链路控制层(radiolink control，RLC)、媒体接入控制层(media access control，MAC)和物理层(PHY)协议。DU一般采用分布式部署方式，在通常情况下一个CU要连接一个以上的DU。gNB具有CU和DU的功能，并且通常作为单站点的形态部署。DU和gNB受限于设备的体积、功耗等因素，通常计算资源较为有限。

接入网的运营支持***(operation support system，OSS)主要用于配置终端设备的参数、收集终端设备的告警、性能统计、运行状态和日志等信息数据。终端设备，又称之为用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端(mobileterminal，MT)等，是一种向用户提供语音和/或数据连通性的设备。例如，终端设备包括具有无线连接功能的手持式设备、车载设备等。目前，终端设备可以是：手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备，虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端，或智慧家庭(smart home)中的无线终端等。

如图1所示，本申请实施例提供的网络参数调优方法通过四个功能实体之间的交互来实现，四个功能实体包括：数据服务功能(data service function，DSF)实体、分析和建模功能(analyzing and modeling function，AMF)实体、模型执行功能(modelexecution function，MEF)实体、和自适应策略功能(adaptive policy function，APF)实体。本申请实施例中，通过上述四个功能实体之间进行信令交互，采用增强学习(reinforcement learning，RL)的方法实现网络参数调优，将网络参数调整动作发送给执行动作的网元，并根据网元执行网络参数调整动作后网络环境状态的改变和获得的回报，来迭代更新评估模型，利用更新后的评估模型确定下一次的网络参数调整动作。

以下介绍在实现网络参数调优时上述四个功能实体所执行的功能。

DSF，用于采集数据，并对采集的数据进行预处理，向AMF提供训练或更新评估模型所需的数据，并向MEF提供执行评估模型时所需的网络数据。以下描述中，网络数据也可以简称为数据。

AMF，用于从DSF订阅训练或更新评估模型所需的数据，根据订阅的数据训练或更新评估模型，将评估模型发送给MEF。以及，用于在接收到APF反馈的网络参数调整动作后，根据网络参数调整动作进行迭代更新评估模型，并将更新的评估模型发送给MEF或APF。

MEF，用于从AMF获取评估模型，并从DSF获取网络数据，采用评估模型对网络数据进行在线预测，获得网络参数调整动作，将网络参数调整动作发送给APF。

APF，用于根据分析或预测的结果来触发策略(如冲突处理策略)，以改变网络状态，如调参、流量工程、资源调度等。具体用于从MEF获取网络参数调整动作，将网络参数调整动作发送给实际执行网络参数调整的网元，从而改善网元的容量或者性能。以及，用于将网络参数调整动作反馈给AMF。

上述四个功能实体可以部署在接入网的网元上，例如，可以部署在接入网的CU、DU、gNB和OSS上。具体的，四个功能实体可以部署在同一个网元中，也可以分散的部署在不同的网元中。或者说，在一些应用场景下，同一个网元中的四个功能实体进行信令交互来完成本申请实施例的网络参数调优方法；在另一些应用场景下，部署在不同网元的功能实体通过网元之间的接口进行信令交互来完成本申请实施例的网络参数调优方法。例如，对于一些实时性要求高的参数，DU的计算资源受限，可以通过CU中的AMF实体来训练或更新评估模型，通过DU中的MEF实体来执行训练或更新后的评估模型。

需要说明的是，上述四个功能实体的名称本申请中不作限定，本领域技术人员将上述功能实体的名称更换为其它名称而执行相同的功能，均属于本申请保护的范围。

本申请实施例涉及的网络参数可以是指RRM中的各种参数，或无线传输技术(radio transmission technology，RTT)中的各种参数，或运维***中的各种参数。例如网络参数可以是：导频功率、RS功率、天线下倾角、LTE可复用电平差门限、MR干扰判决门限等。

以下将结合附图对本申请实施例提供的网络参数调优方法做详细说明。

为方便对本申请实施例的理解，首先介绍一下RL的方法。

图2示出了RL的方法示意图。RL是指智能体(agent)如何在环境中采取一系列行为获得最大的累积回报的过程。智能体要不断与环境进行交互，通过试错的方式来获得最佳策略。通过增强学习，智能体能够知道在什么状态下应该采取什么行为。

RL的过程可以表示成一个马尔科夫决策过程。用s表示状态，a表示动作，Q(s，a)表示对状态s下动作a得到的总体回报的一个估计，r为此动作的立即回报。Q(s，a)可以是一个表格，也可以是一种函数关系，也可以是一个神经网络模型。

环境的初始状态为s_t，智能体在初始状态下选择A中的一个动作a_t，并执行该动作a_t，其中该动作a_t为使Q(s，a)最大的动作。智能体在执行动作a_t后，会获得回报r_t，且环境的状态会发生改变，变为下一个状态s_t+1。智能体根据[s_t+1,s_t,a_t,r_t]来更新Q(s，a)。智能体在下一个状态s_t+1下选择下一个动作a_t+1，并执行动作a_t+1，并执行该动作a_t+1，该动作a_t+1为使得更新后的Q(s，a)最大的动作。智能体在执行动作a_t+1后，会获得回报r_t+1，且环境的状态会发生改变，变为下一个状态s_t+2。智能体继续迭代更新Q(s，a)。以此类推。

以下叙述中，结合RL的方法来说，评估模型可以相当于Q(s，a)，网络环境状态相当于s，网络参数调整动作相当于a。

如图3所示，本申请实施例的网络参数调优的方法流程具体如下所述。

步骤301、AMF实体接收RL的规则的配置信息。

RL的规则可以简称为规则。该规则包括网络环境状态的种类和/或网络环境状态的计算方法、网络参数调整动作的范围和网络参数调整动作的步长、回报的种类和/或回报的计算方法。

以网络参数为导频功率为例，网络环境状态的种类包括：本小区负载、用户数、当前导频功率、本小区和邻区的负载差、参考信号接收功率(reference signal receivedpower，RSRP)分布/RSRP均值方差。网络环境状态的计算方法包括：当网络环境状态的种类为RSRP分布/RSRP均值方差时，网络环境状态的计算方法为RSRP分布/RSRP均值方差的计算方式；当网络环境状态的种类为本小区和邻区的负载差时，网络环境状态的计算方法为本小区和邻区的负载差的计算方式。网络参数调整动作的范围为导频功率的最小值～导频功率的最大值。例如，导频功率的范围为[MaxTxPower/10-13，MaxTxPower/10-7]，其中，MaxTxPower为最大输出功率。或者，导频功率的最小值为最大输出功率的5％，最大值为最大输出功率的20％。网络参数调整步长可以为1dB。例如，在当前导频功率的基础上增加1dB或减少1dB。假设增加1dB后的值超过导频功率的最大值，则将本次网络参数调整动作设定为调整到导频功率的最大值；假设减少1dB后的值低于导频功率的最小值，则将本次网络参数调整动作设定为调整到导频功率的最小值。回报的种类可以为流量(traffic)、用户感知速率、频谱效率。回报的计算方法可包括：流量/负载(traffic/load)；或者，流量(traffic)*关键性能指标(key performance indicator，KPI)，KPI可以是电路交换(circuit switching，CS)掉话率；或者，流量或负载的计算方式，如流量或负载为多个小区的加权和。

AMF实体向MEF实体发送评估模型，MEF实体接收AMF实体发送的评估模型。

其中，评估模型可以包括网络环境状态与网络参数调整动作的对应关系，即根据评估模型，在已知网络环境状态时，可以确定最优的网络参数调整动作。

由于现有技术中将RL应用于参数调优的方法只能是按照软硬件版本，只有在每次发行新版本时才可以改进RL的参数定义或算法，发行的版本在周期内不能更改，需要等到下次发行新版本才能再次改进RL的参数定义或算法。本步骤通过在AMF实体设置接口接收规则的配置信息，实现了灵活编排RL的参数定义或算法，使得训练或更新评估模型的数据更加丰富和具有多样性和适用性，能够根据网络需求来编排规则。其中，规则即RL的参数定义或算法。

步骤301为可选的步骤。

步骤302、AMF实体从DSF实体获取训练评估模型所需要的网络数据。

可选的，AMF实体向DSF实体订阅训练评估模型所需要的网络数据，DSF实体接收AMF实体的订阅消息。

具体的，AMF实体根据步骤301接收到的规则的配置信息，确定网络环境状态的种类以及回报的种类。AMF实体向DSF实体订阅该种类的网络环境状态的网络数据，该网络数据可以是该种类的网络环境状态的具体值，也可以是该种类的网络环境状态的源数据，AMF根据网络环境状态的计算方法，通过该源数据计算出该种类的网络环境状态的具体值。例如网络环境状态的种类为导频参数，AMF实体向DSF实体订阅导频参数的数据。又例如，网络环境状态的种类为本小区和邻区的负载差，AMF实体向DSF实体订阅本小区的负载以及邻区的负载，再根据本小区和邻区的负载差的计算方法，通过订阅得到的本小区的负载和邻区的负载计算出负载差。同样的，AMF实体向DSF实体订阅该种类的回报的网络数据，该网络数据可以是该种类的回报的具体值，也可以是该种类的回报的源数据，AMF根据回报的计算方法，通过该源数据计算出该种类的回报的具体值。例如，回报的种类为流量，AMF实体向DSF实体订阅流量的数据。又例如回报的计算方式为流量/负载，AMF实体向DSF实体订阅流量和负载的数据。

步骤303、DSF实体向AMF实体发送订阅的网络数据，AMF实体接收DSF实体发送的网络数据。

步骤304、AMF实体根据订阅的网络数据训练评估模型。

步骤305、AMF实体向MEF实体发送评估模型，MEF实体接收AMF实体发送的评估模型。

具体的，AMF实体发送的评估模型中可以包括：网络环境状态的种类和/或网络环境状态的计算方法、网络参数调整动作的范围和网络参数调整动作的步长、以及网络环境状态与网络参数调整动作的对应关系。可选的，AMF实体在本步骤中还可以一并下发步骤302中获得的该种类的网络环境状态的具体值。

步骤306、MEF实体向DSF实体订阅执行评估模型所需要的网络数据，DSF实体接收MEF实体的订阅消息。

具体地，MEF实体根据步骤305中接收到的AMF实体发送的网络环境状态的种类和/或网络环境状态的计算方法，向DSF实体订阅该种类的网络环境的网络数据。

步骤307、DSF实体向MEF实体发送订阅的网络数据，MEF实体接收DSF实体发送的网络数据。

需要说明的是，若在步骤305中AMF实体向MEF实体已经发送了步骤302中获得的该种类的网络环境状态的具体值，则可省略步骤306和步骤307。

步骤308、MEF实体根据AMF实体发送的评估模型，确定NE在第一网络环境状态下执行的第一网络参数调整动作。

具体的，MEF实体根据步骤307获得的网络数据，确定当前的网络环境状态的具体值，记为第一网络环境状态。或者将AMF实体发送的当前的网络环境状态的具体值记为第一网络环境状态。MEF实体根据AMF实体发送的评估模型，确定第一网络环境状态对应的网络参数调整动作，记为第一网络参数调整动作。第一网络参数调整动作为使得回报最大的一个动作，由评估模型来确定，可选的，在上一个网络参数的基础上按照网络参数调整动作的步长来调整。

步骤309、MEF实体将调整前的第一网络参数调整动作下发给APF实体，APF实体接收MEF实体下发的调整前第一网络参数调整动作。

步骤310、APF实体将调整后的第一网络参数调整动作下发给NE，NE接收并执行APF实体发送的调整后的第一网络参数调整动作。

具体的，上述调整前的第一网络参数调整动作为MEF实体根据评估模型确定的，APF实体根据策略确定是否需要对接收到的MEF实体发送的第一网络参数调整动作进行调整，若不需要调整，则APF实体向网元下发从MEF实体接收到的第一网络参数调整动作，若需要调整，则APF实体向网元下发调整后的第一网络参数调整动作。该调整后的第一网络参数调整动作实际上为APF实体根据策略确定的第一网络参数调整动作，调整后的第一网络参数调整动作包括实际调整过的与原来接收MEF实体发送的不同的动作，也有可能并没有调整，与原来接收MEF实体发送的相同的动作。

于此，需要说明的是，本申请实施例中，APF向其他功能实体或网元发送的第一网络参数调整动作，实际上是根据策略调整后的第一网络参数调整动作，当然，若根据策略确定第一网络参数不用调整，则APF发送的是从MEF接收到的第一网络参数调整动作。该说明适用于整个实施例。

在NE执行APF实体发送的调整后的第一网络参数调整动作之后，网络环境状态会发生改变，假设变为第二网络环境状态。并且在NE执行APF实体发送的调整后的第一网络参数调整动作之后，会产生回报，假设记为第一回报。DSF可以从NE处获取第二网络环境状态的网络数据以及产生的第一回报的数据，也可以通过其他方式来获取。

步骤311、APF实体将调整后的第一网络参数调整动作发送给AMF实体，AMF实体接收APF实体发送的调整后的第一网络参数调整动作。

需要说明的是，步骤310和步骤311之间的执行没有严格的先后顺序，可以交换执行顺序。

返回执行步骤302～步骤311。

具体的，在返回执行步骤302的过程中，AMF实体从DSF实体获取第二网络环境状态的数据，以及从DSF实体获取在NE执行APF实体发送的调整后的第一网络参数调整动作之后所产生的第一回报的数据。

在返回执行步骤304的过程中，AMF实体根据第二网络环境状态、第一回报、第一网络环境状态、和第一网络参数调整动作，来更新评估模型。第一回报是NE在第一网络环境状态下执行第一网络参数调整动作获得的立即回报，AMF实体能够根据第一回报确定NE所执行的第一网络参数调整动作是否给网络环境带来正向或者负向的影响，根据带来的正向或者负向的影响来迭代更新评估模型，使得更新后的评估模型能够获得最大的总体回报，也就是能够使得NE的行为性能达到最大，使得NE执行的网络参数调整动作能够获得更好的网络效率。

在返回执行步骤305的过程中，AMF实体向MEF实体发送更新后的评估模型，MEF实体接收AMF实体发送的更新后的评估模型。

在返回执行步骤308的过程中，MEF实体根据AMF实体发送的更新后的评估模型，确定在第二网络环境状态下执行的第二网络参数调整动作。

在返回执行步骤309的过程中，MEF实体将第二网络参数调整动作下发给APF实体，APF实体接收MEF实体下发的第二网络参数调整动作。

在返回执行步骤310的过程中，APF实体将第二网络参数调整动作下发给NE，NE接收并执行APF实体发送的第二网络参数调整动作。

在NE执行APF实体发送的第二网络参数调整动作之后，网络环境状态会发生改变，假设变为第三网络环境状态。并且在NE执行APF实体发送的第二网络参数调整动作之后，会产生回报，假设记为第二回报。DSF可以从NE处获取第三网络环境状态的网络数据以及产生的第二回报的数据，也可以通过其他方式来获取。

在返回执行步骤311的过程中，APF实体将第二网络参数调整动作发送给AMF实体，AMF实体接收APF实体发送的第二网络参数调整动作。

接下来继续重复执行步骤302～步骤311的操作。AMF实体在每一次重复执行的过程中，迭代更新评估模型，并发送给MEF实体执行，MEF根据更新的评估模型确定NE需要执行的网络参数调整动作，MEF实体通过APF实体下发给NE，并且MEF实体将本次执行的网络参数调整动作反馈给AMF实体，以使得AMF实体迭代更新评估模型。

基于图3所示的网络参数调优的方法同一发明构思，本申请实施例通过部分步骤的调整或改动，提出了几种其它可能的网络参数调优的实现方式。以下具体介绍一下其它几种可能的实现方式。

如图4所示，本申请实施例的另一种网络参数调优的方法流程具体如下所述。

步骤401～步骤404与步骤301～步骤304相同，重复之处不再赘述。

步骤405、AMF实体向MEF实体发送网络环境状态的种类和/或网络环境状态的计算方法，MEF实体接收AMF实体发送的网络环境状态的种类和/或网络环境状态的计算方法。可选的，AMF实体在本步骤中还可以一并下发步骤402中获得的该种类的网络环境状态的具体值。

步骤406、AMF实体向APF实体发送评估模型，APF实体接收AMF实体发送的评估模型。

具体的，AMF实体发送的评估模型中可以包括：网络参数调整动作的范围和网络参数调整动作的步长、以及网络环境状态与网络参数调整动作的对应关系。

步骤407、MEF实体向DSF实体订阅执行评估模型所需要的网络数据，DSF实体接收MEF实体的订阅消息。

具体地，MEF实体根据步骤405中接收到的AMF实体发送的网络环境状态的种类和/或网络环境状态的计算方法，向DSF实体订阅该种类的网络环境的网络数据。

步骤408、DSF实体向MEF实体发送订阅的网络数据，MEF实体接收DSF实体发送的网络数据。

步骤409、MEF实体根据DSF实体发送的网络数据，确定网络环境状态的具体值。

需要说明的是，若在步骤405中AMF实体向MEF实体已经发送了网络环境状态的具体值，则可省略步骤407～步骤409。

这里MEF实体确定的网络环境状态的具体值，可以记为第一网络环境状态。

步骤410、MEF实体向APF实体发送网络环境状态的具体值。或者将AMF实体发送的当前的网络环境状态的具体值记为第一网络环境状态。

步骤411、APF实体根据网络环境状态的具体值、和AMF实体发送的评估模型，确定NE在第一网络环境状态下执行的第一网络参数调整动作。

APF实体根据AMF实体发送的评估模型，确定第一网络环境状态对应的网络参数调整动作，记为第一网络参数调整动作。第一网络参数调整动作为使得回报最大的一个动作，由评估模型来确定，可选的，在上一个网络参数的基础上按照网络参数调整动作的步长来调整。

步骤412、APF实体将第一网络参数调整动作下发给NE，NE接收并执行APF实体发送的第一网络参数调整动作。

在NE执行APF实体发送的第一网络参数调整动作之后，网络环境状态会发生改变，假设变为第二网络环境状态。并且在NE执行APF实体发送的第一网络参数调整动作之后，会产生回报，假设记为第一回报。DSF可以从NE处获取第二网络环境状态的网络数据以及产生的第一回报的数据，也可以通过其他方式来获取。

步骤413、APF实体将第一网络参数调整动作发送给AMF实体，AMF实体接收APF实体发送的第一网络参数调整动作。

需要说明的是，步骤412和步骤413之间的执行没有严格的先后顺序，可以交换执行顺序。

返回执行步骤402～步骤413。

具体的，在返回执行步骤402的过程中，AMF实体向DSF实体订阅第二网络环境状态的数据，以及订阅在NE执行APF实体发送的第一网络参数调整动作之后所产生的第一回报的数据。

在返回执行步骤404的过程中，AMF实体根据第二网络环境状态、第一回报、第一网络环境状态、和第一网络参数调整动作，来更新评估模型。第一回报是NE在第一网络环境状态下执行第一网络参数调整动作获得的立即回报，AMF实体能够根据第一回报确定NE所执行的第一网络参数调整动作是否给网络环境带来正向或者负向的影响，根据带来的正向或者负向的影响来迭代更新评估模型，使得更新后的评估模型能够获得最大的总体回报，也就是能够使得NE的行为性能达到最大，使得NE执行的网络参数调整动作能够获得更好的网络效率。

在返回执行步骤405的过程中，AMF实体向MEF实体发送第二网络环境状态的信息。

在返回执行步骤406的过程中，AMF实体向APF实体发送更新后的评估模型，APF实体接收AMF实体发送的更新后的评估模型。

在返回执行步骤411的过程中，APF实体根据AMF实体发送的更新后的评估模型，确定在第二网络环境状态下执行的第二网络参数调整动作。

在返回执行步骤412的过程中，APF实体将第二网络参数调整动作下发给NE，NE接收并执行APF实体发送的第二网络参数调整动作。

在返回执行步骤413的过程中，APF实体将第二网络参数调整动作发送给AMF实体，AMF实体接收APF实体发送的第二网络参数调整动作。

接下来继续重复执行步骤402～步骤413的操作。AMF实体在每一次重复执行的过程中，迭代更新评估模型，并发送给APF实体执行，APF实体根据更新的评估模型确定NE需要执行的网络参数调整动作，APF实体将网络参数调整动作下发给NE，并且APF实体将本次执行的网络参数调整动作反馈给AMF实体，以使得AMF实体迭代更新评估模型。

综上所述，上述实现方式将网络环境状态的计算和确定网络参数调整动作这两个过程分离开来。将增强学习的方法应用于接入网的各个数据分析功能实体，实现了实时在线的无线网络参数调优，优化了网络性能。通过APF实体向AMF实体反馈实际下发给NE的网络参数调优动作，使得AMF实体能够在线更新评估模型，使得各个数据分析功能实体能够实现在线调优网络参数。引入本申请实施例提供的方法，使得机器学习能够应用于无线网络参数的在线调优，扩大了机器学习在无线网络中的应用范围。通过向AMF实体编排规则的配置，使得AMF可以根据灵活配置的用于增强学习方法中的参数来实现网络参数调优，解决了现网因为网络参数配置固定带来的数据不足导致不能进行调优的缺陷，实现了可灵活配置和部署的参数调优策略，避免了现有的RL应用于参数调优时新增和修改case需要通过软硬件版本升级实现。

如图5所示，本申请实施例的另一种网络参数调优的方法流程具体如下所述。

步骤501、AMF实体接收规则的配置信息以及KPI保障规则的信息。

其中，规则的配置信息的具体步骤和内容如步骤301所述，在此不再赘述。

KPI保障规则的信息包括：KPI的种类、每一种类的KPI保障阈值、KPI保障规则、回退操作的内容、冲突处理策略。KPI保障规则为KPI的值不高于或者不低于KPI保障阈值。回退操作的规则为当任意一种KPI的具体值违反KPI保障规则时，采取的回退操作。回退操作的内容为：若KPI的具体值违反KPI保障规则，则将网络参数调整为默认值，或者执行与上次根据评估模型确定的网络参数调整动作相反方向的一个动作。KPI的种类包括但不限于无线资源控制(radio resource control，RRC)建立成功率、分组交换(packet switched，PS)无线接入承载(radio access bearer，RAB)、CS RAB、CS掉话率、PS掉话率、自适应多速率(adaptive multi rate，AMR)语音业务话务量。

以KPI的种类为CS掉话率为例，该类KPI的保障阈值可以为历史统计值的110％或90％或者3σ。例如KPI保障规则为：CS掉话率不高于过去一个月分布的3σ，或者CS掉话率不高于过去一周平均值的110％，或者RRC建立成功率不低于过去两周的平均值的90％。回退操作的内容可以为当CS掉话率高于过去一个月分布的3σ时，采取回退操作，即，将网络参数调整为默认值，或者，执行与上次根据评估模型确定的网络参数调整动作相反方向的一个动作。冲突处理策略是指，当根据评估模型确定的网络参数调整动作违反KPI保障规则时，优先执行哪个结果。例如，将冲突处理策略定义为根据评估模型确定的网络参数调整动作与根据KPI保障规则确定的网络参数调整动作不一致时，以根据KPI保障规则确定的网络参数调整动作优先，即，根据评估模型确定的网络参数调整动作违反KPI保障规则时，忽略或不执行根据评估模型确定的网络参数调整动作。

步骤502、AMF实体向DSF实体订阅训练评估模型和计算KPI阈值所需要的网络数据，DSF实体接收AMF实体的订阅消息。

步骤503、DSF实体向AMF实体发送订阅的网络数据，AMF实体接收DSF实体发送的网络数据。

步骤504、AMF实体根据订阅的网络数据训练评估模型，并计算KPI阈值。

例如，以图6为例，是过去一个月的CS掉话率分布。若KPI的保障阈值为过去一个月CS掉话率分布的3σ，则AMF统计CS掉话率的均值和方差，计算出3σ的值，假设为0.12％。即得到CS掉话率的KPI阈值为0.12％。

步骤505、AMF实体向MEF实体发送评估模型，MEF实体接收AMF实体发送的评估模型。

具体的，AMF实体发送的评估模型中可以包括：网络环境状态的种类和/或网络环境状态的计算方法、网络参数调整动作的范围和网络参数调整动作的步长、网络环境状态与网络参数调整动作的对应关系、以及KPI的种类和每个KPI种类的KPI保障阈值。可选的，AMF实体在本步骤中还可以一并下发步骤502中获得的每个KPI种类的网络环境状态的具体值和每个KPI种类的KPI的具体值。

步骤506、AMF实体向APF实体下发冲突处理策略，APF实体接收AMF实体发送的冲突处理策略。

步骤507、MEF实体向DSF实体订阅执行评估模型所需要的网络数据，DSF实体接收MEF实体的订阅消息。

具体地，MEF实体根据步骤505中接收到的AMF实体发送的网络环境状态的种类和/或网络环境状态的计算方法，向DSF实体订阅该种类的网络环境的网络数据；以及，MEF实体根据步骤505中接收到AMF实体发送的KPI的种类和每个KPI种类的KPI保障阈值，向DSF实体订阅每个KPI种类的KPI数据，例如，订阅的KPI数据为当前网络CS掉话率、AMR语音业务话务量。

步骤508、DSF实体向MEF实体发送订阅的网络数据，MEF实体接收DSF实体发送的网络数据。

需要说明的是，若在步骤505中AMF实体向MEF实体已经发送了每个KPI种类的网络环境状态的具体值、以及发送了每个KPI种类的KPI的具体值，则可省略步骤507和步骤508。

步骤509、MEF实体根据AMF实体发送的评估模型确定网络参数调整动作，并判断当前KPI的具体值是否违反了KPI保障规则。

具体的，MEF实体根据DSF实体发送的网络数据，确定当前的网络环境状态的具体值，记为第一网络环境状态。或者将AMF实体在步骤505中发送的当前的网络环境状态的具体值记为第一网络环境状态。MEF实体根据DSF实体在步骤508中发送的网络数据，确定每个KPI种类的KPI的具体值，或者MEF实体接收AMF实体发送的每个KPI种类的KPI的具体值。MEF实体根据AMF实体发送的评估模型，确定第一网络环境状态对应的网络参数调整动作。MEF实体还针对任一种类的KPI，判断KPI的具体值是否违反了KPI保障规则，即KPI的具体值是否高于或低于KPI阈值。可选的，MEF实体可以根据违反标识来指示KPI的具体值是否违反KPI保障规则。例如，若任一种类的KPI的具体值违反了KPI保障规则，则记录KPI违反标识为1，若KPI的具体值不违反KPI保障规则，则记录KPI违反标识为0。

步骤510、MEF实体将根据评估模型确定的网络参数调整动作、和KPI的具体值是否违反KPI保障规则的判断结果，下发给APF实体，APF实体接收MEF实体下发的网络参数调整动作和该判断结果。

具体的，该判断结果可以是KPI违反标识。

步骤511、APF实体根据接收到的AMF发送的冲突处理策略确定NE在第一网络环境状态下执行的第一网络参数调整动作。

具体的，若任一种类的KPI的具体值违反了KPI保障规则，则APF实体采取回退操作，例如，将网络参数调整为默认值，或者执行与上一次网络参数调整动作相反的动作。将回退操作后的动作作为第一网络参数调整动作。若任一种类的KPI的具体值均不违反KPI保障规则，则将根据评估模型确定的网络参数调整动作作为第一网络参数调整动作。

步骤512、APF实体将第一网络参数调整动作下发给NE，NE接收并执行APF实体发送的第一网络参数调整动作。

步骤513、APF实体将第一网络参数调整动作发送给AMF实体，AMF实体接收APF实体发送的第一网络参数调整动作。

需要说明的是，步骤512和步骤513之间的执行没有严格的先后顺序，可以交换执行顺序。

返回执行步骤502～步骤513。

具体的，在返回执行步骤502的过程中，AMF实体向DSF实体订阅第二网络环境状态的数据，以及订阅在NE执行APF实体发送的第一网络参数调整动作之后所产生的第一回报的数据，以及订阅NE执行第一网络参数调整动作之后的KPI数据。

在返回执行步骤504的过程中，AMF实体根据第二网络环境状态、第一回报、第一网络环境状态、和第一网络参数调整动作，来更新评估模型。并且AMF实体针对任一种类的KPI，根据订阅的KPI数据计算KPI阈值和KPI的具体值。第一回报是NE在第一网络环境状态下执行第一网络参数调整动作获得的立即回报，AMF实体能够根据第一回报确定NE所执行的第一网络参数调整动作是否给网络环境带来正向或者负向的影响，根据带来的正向或者负向的影响来迭代更新评估模型，使得更新后的评估模型能够获得最大的总体回报，也就是能够使得NE的行为性能达到最大，使得NE执行的网络参数调整动作能够获得更好的网络效率。

在返回执行步骤505的过程中，AMF实体向MEF实体发送更新后的评估模型和重新计算的KPI阈值，MEF实体接收AMF实体发送的更新后的评估模型和重新计算的KPI阈值。

在返回执行步骤507和步骤508的过程中，针对任一种类的KPI，MEF实体从DSF实体获取第一网络参数调整动作之后的KPI数据。

在返回执行步骤509的过程中，MEF实体根据AMF实体发送的更新后的评估模型，确定在第二网络环境状态下执行的网络参数调整动作。并针对任一种类的KPI，判断第一网络参数调整动作之后的KPI的具体值是否违反了KPI保障规则，其中，这里的KPI保障规则中包括重新计算的KPI阈值。MEF实体获得的第一网络参数调整动作之后的KPI的具体值可以来自于返回执行步骤505的过程中接收AMF发送的信息，也可以MEF实体通过返回执行步骤507和步骤508获取的新的KPI数据来确定。

在返回执行步骤510的过程中，MEF实体将根据更新后的评估模型确定的网络参数调整动作、以及第一网络参数调整动作之后的KPI的具体值是否违反KPI保障规则的判断结果下发给APF实体，APF实体接收MEF实体下发的该网络参数调整动作以及判断结果。该判断结果是针对任一种类的KPI的判断结果。

在返回执行步骤511的过程中，APF实体根据冲突处理策略，针对任一种类的KPI，在第一网络参数调整动作之后的KPI的具体值违反KPI保障规则时，采取回退操作，将回退操作后的动作作为第二网络参数调整动作；若针对任一种类的KPI，第一网络参数调整动作之后的KPI的具体值均不违反KPI保障规则，则将根据更新后的评估模型确定的网络参数调整动作作为第二网络参数调整动作。

在返回执行步骤512的过程中，APF实体将第二网络参数调整动作下发给NE，NE接收并执行APF实体发送的第二网络参数调整动作。

在返回执行步骤513的过程中，APF实体将第二网络参数调整动作发送给AMF实体，AMF实体接收APF实体发送的第二网络参数调整动作。

接下来继续重复执行步骤502～步骤513的操作。AMF实体在每一次重复执行的过程中，迭代更新评估模型，并发送给MEF实体执行，MEF根据更新的评估模型确定NE需要执行的网络参数调整动作，MEF实体通过APF实体下发给NE，并且MEF实体将本次执行的网络参数调整动作反馈给AMF实体，以使得AMF实体迭代更新评估模型。综上所述，将增强学习的方法应用于接入网的各个数据分析功能实体，实现了实时在线的无线网络参数调优，优化了网络性能。通过APF实体向AMF实体反馈实际下发给NE的网络参数调优动作，使得AMF实体能够在线更新评估模型，使得各个数据分析功能实体能够实现在线调优网络参数。引入本申请实施例提供的方法，使得机器学习能够应用于无线网络参数的在线调优，扩大了机器学习在无线网络中的应用范围。通过向AMF实体编排规则的配置，使得AMF可以根据灵活配置的用于增强学习方法中的参数来实现网络参数调优，解决了现网因为网络参数配置固定带来的数据不足导致不能进行调优的缺陷，实现了可灵活配置和部署的参数调优策略，避免了现有的RL应用于参数调优时新增和修改case需要通过软硬件版本升级实现。进一步的，通过KPI保障策略，使得无线网络参数调优过程中KPI不会恶化，保证了无线网络环境对KPI的要求。

基于图5所示的实现方式的构思，在图4所述的实现方式中的步骤401中，也可以进一步的优化为AMF实体接收KPI保障规则的信息；在步骤404中，AMF实体还计算KPI阈值。在步骤405中，AMF实体还会向APF实体下发冲突处理策略；在步骤411中，APF实体根据接收到的AMF发送的冲突处理策略确定NE在第一网络环境状态下执行的第一网络参数调整动作。这几个步骤的实现过程可参见图5中步骤501、步骤504、步骤506、步骤511，重复之处在此不再赘述。

如图7所示，本申请实施例的另一种网络参数调优的方法流程具体如下所述。

步骤701～步骤704与步骤301～步骤304相同，在此不再赘述。

步骤705、AMF实体确定NE在第一网络环境状态下执行的第一网络参数调整动作。

步骤706、AMF实体将第一网络参数调整动作下发给NE，NE接收并执行AMF实体发送的第一网络参数调整动作。

返回执行步骤701～步骤706。

在返回执行步骤702的过程中，AMF实体向DSF实体订阅第二网络环境状态的数据，以及订阅在NE执行APF实体发送的第一网络参数调整动作之后所产生的第一回报的数据。

在返回执行步骤704的过程中，AMF实体根据第二网络环境状态、第一回报、第一网络环境状态、和第一网络参数调整动作，来更新评估模型。第一回报是NE在第一网络环境状态下执行第一网络参数调整动作获得的立即回报，AMF实体能够根据第一回报确定NE所执行的第一网络参数调整动作是否给网络环境带来正向或者负向的影响，根据带来的正向或者负向的影响来迭代更新评估模型，使得更新后的评估模型能够获得最大的总体回报，也就是能够使得NE的行为性能达到最大，使得NE执行的网络参数调整动作能够获得更好的网络效率。

在返回执行步骤705的过程中，AMF实体根据更新后的评估模型，确定在第二网络环境状态下执行的第二网络参数调整动作。

在返回执行步骤706的过程中，AMF实体向NE发送第二网络参数调整动作，NE接收并执行AMF实体发送的第二网络参数调整动作。

在NE执行AMF实体发送的第二网络参数调整动作之后，网络环境状态会发生改变，假设变为第三网络环境状态。并且在NE执行AMF实体发送的第二网络参数调整动作之后，会产生回报，假设记为第二回报。DSF可以从NE处获取第三网络环境状态的网络数据以及产生的第二回报的数据，也可以通过其他方式来获取。

接下来继续重复执行步骤702～步骤706的操作。AMF实体在每一次重复执行的过程中，迭代更新评估模型，并根据更新的评估模型确定NE需要执行的网络参数调整动作。

在循环结束后，AMF获得最后一次更新的评估模型。接下来继续执行步骤707以及后面的步骤。

具体的，AMF可以根据环境的反馈来确定评估模型是否成熟，即是否能够根据该评估模型得到最优的网络参数。从而决定上述循环步骤的结束。

步骤707、AMF实体向MEF实体发送最后一次更新的评估模型，MEF实体接收AMF实体发送的最后一次更新的评估模型。

步骤708、MEF实体向DSF实体订阅执行最后一次更新的评估模型所需要的网络数据，DSF实体接收MEF实体的订阅消息。

步骤709、DSF实体向MEF实体发送订阅的网络数据，MEF实体接收DSF实体发送的网络数据。

步骤710、MEF实体根据DSF实体发送的网络数据，确定网络环境状态的具体值，MEF实体根据AMF实体发送的最后一次更新的评估模型，确定NE在当前网络环境状态下执行的网络参数调整动作。

该网络参数调整动作由最后一次更新的评估模型来确定。

步骤711、MEF实体将确定的网络参数调整动作下发给APF实体，APF实体接收MEF实体下发的网络参数调整动作。

步骤712、APF实体将网络参数调整动作下发给NE，NE接收并执行APF实体发送的网络参数调整动作。

重复执行上述步骤707～步骤712。

综上所述，将增强学习的方法应用于接入网的各个数据分析功能实体，实现了实时在线的无线网络参数调优，优化了网络性能。引入本申请实施例提供的方法，使得机器学习能够应用于无线网络参数的在线调优，扩大了机器学习在无线网络中的应用范围。通过向AMF实体编排规则的配置，使得AMF可以根据灵活配置的用于增强学习方法中的参数来实现网络参数调优，解决了现网因为网络参数配置固定带来的数据不足导致不能进行调优的缺陷，实现了可灵活配置和部署的参数调优策略，避免了现有的RL应用于参数调优时新增和修改case需要通过软硬件版本升级实现。进一步的，步骤702～步骤706的循环过程可以看做是评估模型训练的过程，得到最优的评估模型，步骤707～步骤711的过程可以看做是执行评估模型的过程，或者说是预测的过程。该实现方式实现了评估模型训练和预测的分离，该实现方式中增加了AMF实体与NE之间的接口，使得在评估模型训练和预测的分离时，仍然可以下发网络参数调整动作，实现在线网络参数调优。

另外，在上述图3～图7所示的各方法中，所涉及的MEF实体通过APF实体下发网络参数调整动作给NE的过程，在简单场景下，也可以更改为MEF实体不经过APF实体直接下发网络参数调整动作给NE。上述简单场景可以是不需要APF决策的场景，如调制编码方案(modulation and coding scheme，MCS)阶数选择。在上述图3～图7所示的各方法中，DSF实体存有各种类的网络环境状态的数据、各种类的回报的数据、各种类的KPI的数据，AMF实体和MEF实体通过向DSF实体订阅训练或者执行评估模型所需要的数据来完成功能。为了节省各功能实体间数据通信的消息长度以节约信令消耗，本申请实施例中，可以采用不同的标识或者索引值来区别上述不同参数的种类，AMF实体和MEF实体只需向DSF实体发送所需种类数据的标识，就可以订阅所需的数据，DSF实体可以根据接收到的标识来确定AMF实体和MEF实体订阅的数据并反馈该数据。例如，对于网络环境状态来说，用状态索引1来标识{导频功率，小区专用信道UE数，切换数}等种类的网络环境状态。

基于与上述网络参数调优方法的同一发明构思，如图8所示，本申请实施例还提供了一种网络参数调优装置800，该网络参数调优装置800用于执行本申请实施例提供的上述网络参数调优方法，该网络参数调优装置800包括：

发送单元801，用于向第二功能实体发送评估模型，评估模型用于第二功能实体确定网元在第一网络环境状态下执行的第一网络参数调整动作；

接收单元802，用于接收第一网络参数调整动作的信息；

模型训练单元803，用于根据第一网络环境状态的信息、第一网络参数调整动作的信息、网元在执行第一网络参数调整动作之后获得回报的信息、以及网元在执行第一网络参数调整动作之后的第二网络环境状态的信息，更新评估模型；

发送单元801，还用于向第二功能实体发送更新后的评估模型，更新后的评估模型用于第二功能实体确定网元在第二网络环境状态执行的第二网络参数调整动作。

可选的，接收单元802还用于：

在模型训练单元803更新评估模型之前，接收规则的配置信息，规则包括以下至少一种：网络环境状态的种类和/或计算装置、网络参数调整动作的范围和步长、回报的种类和/或计算装置；

模型训练单元803还用于，根据接收单元802接收的规则，从第三功能实体获取与网络环境状态的种类一致并和回报的种类一致的网络数据；以及，用于根据网络数据，确定网元在执行第一网络参数调整动作之后获得回报的信息、以及第二网络环境状态的信息。

可选的，若装置800为分析和建模功能AMF实体，第二功能实体为模型执行功能MEF实体，则：

发送单元801具体用于，向MEF实体发送评估模型，用于MEF实体根据评估模型确定并向自适应策略功能APF实体下发调整前的第一网络参数调整动作，由APF实体向网元下发调整后的第一网络参数调整动作；

接收单元802具体用于，接收APF实体发送的调整后的第一网络参数调整动作的信息；

模型训练单元803具体用于，根据第一网络环境状态的信息、调整后的第一网络参数调整动作的信息、网元在执行调整后的第一网络参数调整动作之后获得回报的信息、以及网元在执行调整后的第一网络参数调整动作之后的第二网络环境状态的信息，更新评估模型。

可选的，发送单元801还用于：

向MEF实体发送关键性能指标KPI的种类和每个KPI种类的KPI保障阈值，KPI种类和每个KPI种类的KPI保障阈值用于：MEF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并向APF实体发送判断结果，由APF实体在任一KPI种类的KPI的具体值违反KPI保障规则时采取回退操作，回退操作后的动作作为调整后的第一网络参数调整动作，KPI保障规则为不高于或者不低于KPI保障阈值。

可选的，若装置800为AMF实体，第二功能实体为APF实体，则：

发送单元801具体用于，向APF实体发送评估模型，用于APF实体根据评估模型确定第一网络参数调整动作；

接收单元802具体用于，接收APF实体发送的第一网络参数调整动作的信息。

可选的，发送单元801还用于：

向APF实体发送KPI的种类和每个KPI种类的KPI保障阈值，KPI的种类和每个KPI种类的KPI保障阈值用于：APF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并在任意一种KPI的具体值违反KPI保障规则时采取回退操作，回退操作后的动作作为第一网络参数调整动作。

可选的，接收单元802还用于：

在发送单元801发送KPI的种类和每个KPI种类的KPI保障阈值之前，还接收KPI保障规则的信息，KPI保障规则的信息包括：KPI的种类、每个KPI种类的KPI保障阈值、和回退操作的内容。

基于与上述网络参数调优方法的同一发明构思，如图9所示，本申请实施例还提供了一种网络参数调优装置900，该网络参数调优装置900用于执行本申请实施例提供的上述网络参数调优方法，该网络参数调优装置900包括：

接收单元901，用于接收分析和建模功能AMF实体发送的评估模型；

确定单元902，用于根据接收单元901接收的评估模型确定网元在第一网络环境状态下执行的第一网络参数调整动作，并将第一网络参数调整动作的信息发送给自适应策略功能APF实体，由APF实体将调整后的第一网络参数调整动作发送给网元，调整后的第一网络参数调整动作包括MEF实体发送的第一网络参数调整动作以及APF实体根据策略对第一网络参数调整动作进行调整后的网络参数调整动作；

接收单元901，还用于接收AMF实体发送的更新后的评估模型，更新后的评估模型是AMF实体根据第一网络环境状态的信息、调整后的第一网络参数调整动作的信息、网元在执行调整后的第一网络参数调整动作之后获得回报的信息、以及网元在执行调整后的第一网络参数调整动作之后的第二网络环境状态的信息进行更新的；

确定单元902，还用于根据接收单元901接收到的更新后的评估模型确定网元在第二网络环境状态执行的第二网络参数调整动作。

可选的，接收单元901还用于，接收AMF实体发送的关键性能指标KPI的种类和每个KPI种类的KPI保障阈值；

确定单元902还用于，判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并向APF实体发送判断结果，由APF实体在任意一种KPI的具体值违反KPI保障规则时采取回退操作，回退操作后的动作作为调整后的第一网络参数调整动作，KPI保障规则为不高于或者不低于KPI保障阈值。

基于与上述网络参数调优方法的同一发明构思，如图10所示，本申请实施例还提供了一种网络参数调优装置1000，该网络参数调优装置1000用于执行本申请实施例提供的上述网络参数调优方法，该网络参数调优装置1000包括：

接收单元1001，用于接收模型执行功能MEF实体发送的第一网络参数调整动作，第一网络参数调整动作是MEF实体根据评估模型确定的；

发送单元1002，用于将调整后的第一网络参数调整动作下发给网元，用于网元在第一网络环境状态下执行调整后的第一网络参数调整动作，调整后的第一网络参数调整动作包括MEF实体发送的第一网络参数调整动作以及根据策略对第一网络参数调整动作进行调整后的网络参数调整动作；

发送单元1002，还用于将调整后的第一网络参数调整动作的信息发送给分析和建模功能AMF实体，用于AMF实体根据第一网络环境状态的信息、调整后的第一网络参数调整动作的信息、网元在执行调整后的第一网络参数调整动作之后获得回报的信息、以及网元在执行调整后的第一网络参数调整动作之后的第二网络环境状态的信息，来更新评估模型。

可选的，接收单元1001还用于，接收MEF实体发送的KPI的具体值是否违反KPI保障规则的信息；

装置1000还包括处理单元1003，处理单元1003用于在KPI的具体值违反KPI保障规则时采取回退操作，将回退操作后的动作作为调整后的第一网络参数调整动作。

基于与上述网络参数调优方法的同一发明构思，如图11所示，本申请实施例还提供了一种网络参数调优装置1100，该网络参数调优装置1100用于执行本申请实施例提供的上述网络参数调优方法，该网络参数调优装置1100包括：

接收单元1101，用于接收分析和建模功能AMF实体发送的评估模型；

确定单元1102，用于根据接收单元1101接收的评估模型确定网元在第一网络环境状态下执行的第一网络参数调整动作，并将第一网络参数调整动作发送给网元，用于网元在第一网络环境状态下执行第一网络参数调整动作；

发送单元1103，用于将确定单元1102确定的第一网络参数调整动作的信息发送给AMF实体，用于AMF实体根据第一网络环境状态的信息、第一网络参数调整动作的信息、网元在执行第一网络参数调整动作之后获得回报的信息、以及网元在执行第一网络参数调整动作之后的第二网络环境状态的信息，来更新评估模型。

可选的，接收单元1101还用于：接收AMF实体发送的KPI的种类和每个KPI种类的KPI保障阈值；

确定单元1102还用于，根据接收单元1101接收的KPI的种类和每个KPI种类的KPI保障阈值，判断每个KPI种类的KPI的具体值是否违反KPI保障规则，在任意一种KPI的具体值违反KPI保障规则时采取回退操作，将回退操作后的动作作为第一网络参数调整动作。

基于上述方法实施例的同一发明构思，如图12所示，本申请实施例还提供了一种网络参数调优装置1200，该网络参数调优装置1200用于执行上述网络参数调优方法，该网络参数装置1200包括：收发器1201、处理器1202和存储器1203。存储器1203为可选的。处理器1202用于调用一组程序，当程序被执行时，使得处理器1202执行上述网络参数调优方法。存储器1203用于存储处理器1202执行的程序。图8中的功能模块发送单元801、接收单元802可以通过收发器1201来实现，模型训练单元803可以通过处理器1202来实现。

处理器1202可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

处理器1202还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

存储器1203可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1203也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器1203还可以包括上述种类的存储器的组合。

基于上述方法实施例的同一发明构思，如图13所示，本申请实施例还提供了一种网络参数调优装置1300，该网络参数调优装置1300用于执行上述网络参数调优方法，该网络参数装置1300包括：收发器1301、处理器1302和存储器1303。存储器1303为可选的。处理器1302用于调用一组程序，当程序被执行时，使得处理器1302执行上述网络参数调优方法。存储器1303用于存储处理器1302执行的程序。图9中的功能模块接收单元901、发送单元902可以通过收发器1301来实现。

处理器1302可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

处理器1302还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

存储器1303可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1303也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器1303还可以包括上述种类的存储器的组合。

基于上述方法实施例的同一发明构思，如图14所示，本申请实施例还提供了一种网络参数调优装置1400，该网络参数调优装置1400用于执行上述网络参数调优方法，该网络参数装置1400包括：收发器1401、处理器1402和存储器1403。存储器1403为可选的。处理器1402用于调用一组程序，当程序被执行时，使得处理器1402执行上述网络参数调优方法。存储器1403用于存储处理器1402执行的程序。图10中的功能模块发送单元1001、接收单元1002可以通过收发器1401来实现，处理单元1003可以通过处理器1402来实现。

处理器1402可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

处理器1402还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

存储器1403可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1403也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器1403还可以包括上述种类的存储器的组合。

基于上述方法实施例的同一发明构思，如图15所示，本申请实施例还提供了一种网络参数调优装置1500，该网络参数调优装置1500用于执行上述网络参数调优方法，该网络参数装置1500包括：收发器1501、处理器1502和存储器1503。存储器1503为可选的。处理器1502用于调用一组程序，当程序被执行时，使得处理器1502执行上述网络参数调优方法。存储器1503用于存储处理器1502执行的程序。图11中的功能模块接收单元1101、发送单元1103可以通过收发器1501来实现，确定单元1102可以通过处理器1502来实现。

处理器1502可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

处理器1502还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

存储器1503可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1503也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器1503还可以包括上述种类的存储器的组合。

为了实现上述图8或图12所述的装置的功能，本申请实施例还提供一种芯片，包括处理器，用于支持该装置实现上述网络参数调优方法中第一功能实体所涉及的功能。在一种可能的设计中，该芯片与存储器连接或者该芯片包括存储器，该存储器用于保存该装置必要的程序指令和数据。

为了实现上述图9或图13所述的装置的功能，本申请实施例还提供一种芯片，包括处理器，用于支持该装置实现上述网络参数调优方法中MEF所涉及的功能。在一种可能的设计中，该芯片与存储器连接或者该芯片包括存储器，该存储器用于保存该装置必要的程序指令和数据。

为了实现上述图10或图14所述的装置的功能，本申请实施例还提供一种芯片，包括处理器，用于支持该装置实现上述网络参数调优方法中APF实体所涉及的功能。在一种可能的设计中，该芯片与存储器连接或者该芯片包括存储器，该存储器用于保存该装置必要的程序指令和数据。

为了实现上述图11或图15所述的装置的功能，本申请实施例还提供一种芯片，包括处理器，用于支持该装置实现上述网络参数调优方法中APF实体所涉及的功能。在一种可能的设计中，该芯片与存储器连接或者该芯片包括存储器，该存储器用于保存该装置必要的程序指令和数据。

本申请实施例提供了一种计算机存储介质，存储有计算机程序，该计算机程序包括用于执行上述网络参数调优方法。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述网络参数调优方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种网络参数调优方法，其特征在于，包括：

第一功能实体向第二功能实体发送评估模型，所述评估模型用于所述第二功能实体确定网元在第一网络环境状态下执行的第一网络参数调整动作；

所述第一功能实体接收所述第一网络参数调整动作的信息；

所述第一功能实体根据所述第一网络环境状态的信息、所述第一网络参数调整动作的信息、所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述第一网络参数调整动作之后的第二网络环境状态的信息，更新所述评估模型；

所述第一功能实体向所述第二功能实体发送更新后的评估模型，所述更新后的评估模型用于所述第二功能实体确定所述网元在所述第二网络环境状态执行的第二网络参数调整动作；

若所述第一功能实体为分析和建模功能AMF实体，所述第二功能实体为模型执行功能MEF实体，所述方法还包括：AMF实体还向MEF实体发送关键性能指标KPI的种类和每个KPI种类的KPI保障阈值，所述KPI种类和每个KPI种类的KPI保障阈值用于：所述MEF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并向自适应策略功能 APF实体发送判断结果，由所述APF实体在任一KPI种类的KPI的具体值违反所述KPI保障规则时采取回退操作，所述回退操作后的动作作为所述调整后的第一网络参数调整动作，所述KPI保障规则为不高于或者不低于所述KPI保障阈值；

或者，

若所述第一功能实体为AMF实体，所述第二功能实体为APF实体，则：所述方法还包括：

所述AMF实体还向所述APF实体发送KPI的种类和每个KPI种类的KPI保障阈值，所述KPI的种类和每个KPI种类的KPI保障阈值用于：所述APF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并在任意一种KPI的具体值违反所述KPI保障规则时采取回退操作，所述回退操作后的动作作为所述第一网络参数调整动作。

2.如权利要求1所述的方法，其特征在于，所述第一功能实体更新所述评估模型之前，还包括：

所述第一功能实体接收规则的配置信息，所述规则包括以下至少一种：网络环境状态的种类和/或计算方法、网络参数调整动作的范围和步长、回报的种类和/或计算方法；

所述第一功能实体根据所述规则，从第三功能实体获取与所述网络环境状态的种类一致并和所述回报的种类一致的网络数据；

所述第一功能实体根据所述网络数据，确定所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述第二网络环境状态的信息。

3.如权利要求1或2所述的方法，其特征在于，若所述第一功能实体为分析和建模功能AMF实体，所述第二功能实体为模型执行功能MEF实体，则：

所述第一功能实体向第二功能实体发送评估模型，包括：

AMF实体向MEF实体发送评估模型，用于所述MEF实体根据所述评估模型确定并向自适应策略功能APF实体下发调整前的第一网络参数调整动作，由所述APF实体向所述网元下发调整后的第一网络参数调整动作；

所述第一功能实体接收所述第一网络参数调整动作的信息，包括：

所述AMF实体接收所述APF实体发送的所述调整后的第一网络参数调整动作的信息；

所述第一功能实体根据所述第一网络环境状态的信息、所述第一网络参数调整动作的信息、所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述第一网络参数调整动作之后的第二网络环境状态的信息，更新所述评估模型，包括：

所述第一功能实体根据所述第一网络环境状态的信息、所述调整后的第一网络参数调整动作的信息、所述网元在执行所述调整后的第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述调整后的第一网络参数调整动作之后的第二网络环境状态的信息，更新所述评估模型。

4.如权利要求1或2所述的方法，其特征在于，若所述第一功能实体为AMF实体，所述第二功能实体为APF实体，则：

所述第一功能实体向第二功能实体发送评估模型，所述第一功能实体接收所述第一网络参数调整动作的信息，包括：

AMF实体向APF实体发送评估模型，用于所述APF实体根据所述评估模型确定所述第一网络参数调整动作；所述AMF实体接收所述APF实体发送的所述第一网络参数调整动作的信息。

5.如权利要求4所述的方法，其特征在于，所述AMF实体发送KPI的种类和每个KPI种类的KPI保障阈值之前，还包括：

所述AMF实体接收KPI保障规则的信息，所述KPI保障规则的信息包括：KPI的种类、每个KPI种类的KPI保障阈值、和回退操作的内容。

6.一种网络参数调优方法，其特征在于，包括：

模型执行功能MEF实体接收分析和建模功能AMF实体发送的评估模型；

所述MEF实体根据所述评估模型确定网元在第一网络环境状态下执行的第一网络参数调整动作，并将所述第一网络参数调整动作的信息发送给自适应策略功能APF实体，由所述APF实体将调整后的第一网络参数调整动作发送给所述网元，所述调整后的第一网络参数调整动作包括所述MEF实体发送的所述第一网络参数调整动作以及所述APF实体根据策略对所述第一网络参数调整动作进行调整后的网络参数调整动作；

所述MEF实体接收所述AMF实体发送的更新后的评估模型，所述更新后的评估模型是AMF实体根据所述第一网络环境状态的信息、所述调整后的第一网络参数调整动作的信息、所述网元在执行所述调整后的第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述调整后的第一网络参数调整动作之后的第二网络环境状态的信息进行更新的；

所述MEF实体根据更新后的评估模型确定所述网元在所述第二网络环境状态执行的第二网络参数调整动作；

所述方法还包括：

所述MEF实体接收所述AMF实体发送的关键性能指标KPI的种类和每个KPI种类的KPI保障阈值；

所述MEF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并向所述APF实体发送判断结果，由所述APF实体在任意一种KPI的具体值违反所述KPI保障规则时采取回退操作，所述回退操作后的动作作为所述调整后的第一网络参数调整动作，所述KPI保障规则为不高于或者不低于所述KPI保障阈值。

7.一种网络参数调优方法，其特征在于，包括：

自适应策略功能APF实体接收模型执行功能MEF实体发送的第一网络参数调整动作，所述第一网络参数调整动作是MEF实体根据评估模型确定的；

所述APF实体将调整后的第一网络参数调整动作下发给网元，用于所述网元在第一网络环境状态下执行调整后的第一网络参数调整动作，所述调整后的第一网络参数调整动作包括所述MEF实体发送的所述第一网络参数调整动作以及根据策略对所述第一网络参数调整动作进行调整后的网络参数调整动作；

所述APF实体将调整后的第一网络参数调整动作的信息发送给分析和建模功能AMF实体，用于AMF实体根据所述第一网络环境状态的信息、所述调整后的第一网络参数调整动作的信息、所述网元在执行所述调整后的第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述调整后的第一网络参数调整动作之后的第二网络环境状态的信息，来更新所述评估模型；

所述方法还包括：

所述APF实体还接收所述MEF实体发送的KPI的具体值是否违反KPI保障规则的信息；

所述APF实体在KPI的具体值违反所述KPI保障规则时采取回退操作，将所述回退操作后的动作作为所述调整后的第一网络参数调整动作。

8.一种网络参数调优方法，其特征在于，包括：

自适应策略功能APF实体接收分析和建模功能AMF实体发送的评估模型；

所述APF实体根据所述评估模型确定网元在第一网络环境状态下执行的第一网络参数调整动作，并将所述第一网络参数调整动作发送给所述网元，用于所述网元在第一网络环境状态下执行第一网络参数调整动作；

所述APF实体将第一网络参数调整动作的信息发送给所述AMF实体，用于AMF实体根据所述第一网络环境状态的信息、所述第一网络参数调整动作的信息、所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述第一网络参数调整动作之后的第二网络环境状态的信息，来更新所述评估模型；

所述方法还包括：

APF实体接收AMF实体发送的KPI的种类和每个KPI种类的KPI保障阈值，根据所述KPI的种类和每个KPI种类的KPI保障阈值，判断每个KPI种类的KPI的具体值是否违反KPI保障规则，在任意一种KPI的具体值违反所述KPI保障规则时采取回退操作，将所述回退操作后的动作作为所述第一网络参数调整动作。

9.一种网络参数调优装置，其特征在于，包括：

发送单元，用于向第二功能实体发送评估模型，所述评估模型用于所述第二功能实体确定网元在第一网络环境状态下执行的第一网络参数调整动作；

接收单元，用于接收所述第一网络参数调整动作的信息；

模型训练单元，用于根据所述第一网络环境状态的信息、所述第一网络参数调整动作的信息、所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述第一网络参数调整动作之后的第二网络环境状态的信息，更新所述评估模型；

所述发送单元，还用于向所述第二功能实体发送更新后的评估模型，所述更新后的评估模型用于所述第二功能实体确定所述网元在所述第二网络环境状态执行的第二网络参数调整动作；

若所述装置为分析和建模功能AMF实体，所述第二功能实体为模型执行功能MEF实体，则：所述发送单元还用于：

向MEF实体发送关键性能指标KPI的种类和每个KPI种类的KPI保障阈值，所述KPI种类和每个KPI种类的KPI保障阈值用于：所述MEF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并向自适应策略功能 APF实体发送判断结果，由所述APF实体在任一KPI种类的KPI的具体值违反所述KPI保障规则时采取回退操作，所述回退操作后的动作作为所述调整后的第一网络参数调整动作，所述KPI保障规则为不高于或者不低于所述KPI保障阈值；

或者，

若所述装置为AMF实体，所述第二功能实体为APF实体，则：所述发送单元还用于：

向所述APF实体发送KPI的种类和每个KPI种类的KPI保障阈值，所述KPI的种类和每个KPI种类的KPI保障阈值用于：所述APF实体判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并在任意一种KPI的具体值违反所述KPI保障规则时采取回退操作，所述回退操作后的动作作为所述第一网络参数调整动作。

10.如权利要求9所述的装置，其特征在于，所述接收单元还用于：

在所述模型训练单元更新所述评估模型之前，接收规则的配置信息，所述规则包括以下至少一种：网络环境状态的种类和/或计算方法、网络参数调整动作的范围和步长、回报的种类和/或计算方法；

所述模型训练单元还用于，根据所述接收单元接收的规则，从第三功能实体获取与所述网络环境状态的种类一致并和所述回报的种类一致的网络数据；以及，用于根据所述网络数据，确定所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述第二网络环境状态的信息。

11.如权利要求9或10所述的装置，其特征在于，若所述装置为分析和建模功能AMF实体，所述第二功能实体为模型执行功能MEF实体，则：

所述发送单元具体用于，向MEF实体发送评估模型，用于所述MEF实体根据所述评估模型确定并向自适应策略功能APF实体下发调整前的第一网络参数调整动作，由所述APF实体向所述网元下发调整后的第一网络参数调整动作；

所述接收单元具体用于，接收所述APF实体发送的所述调整后的第一网络参数调整动作的信息；

所述模型训练单元具体用于，根据所述第一网络环境状态的信息、所述调整后的第一网络参数调整动作的信息、所述网元在执行所述调整后的第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述调整后的第一网络参数调整动作之后的第二网络环境状态的信息，更新所述评估模型。

12.如权利要求9或10所述的装置，其特征在于，若所述装置为AMF实体，所述第二功能实体为APF实体，则：

所述发送单元具体用于，向APF实体发送评估模型，用于所述APF实体根据所述评估模型确定所述第一网络参数调整动作；

所述接收单元具体用于，接收所述APF实体发送的所述第一网络参数调整动作的信息。

13.如权利要求9所述的装置，其特征在于，所述接收单元还用于：

在所述发送单元发送KPI的种类和每个KPI种类的KPI保障阈值之前，还接收KPI保障规则的信息，所述KPI保障规则的信息包括：KPI的种类、每个KPI种类的KPI保障阈值、和回退操作的内容。

14.一种网络参数调优装置，其特征在于，包括：

接收单元，用于接收分析和建模功能AMF实体发送的评估模型；

确定单元，用于根据所述接收单元接收的评估模型确定网元在第一网络环境状态下执行的第一网络参数调整动作，并将所述第一网络参数调整动作的信息发送给自适应策略功能APF实体，由所述APF实体将调整后的第一网络参数调整动作发送给所述网元，所述调整后的第一网络参数调整动作包括模型执行功能MEF实体发送的所述第一网络参数调整动作以及所述APF实体根据策略对所述第一网络参数调整动作进行调整后的网络参数调整动作；

所述接收单元，还用于接收所述AMF实体发送的更新后的评估模型，所述更新后的评估模型是AMF实体根据所述第一网络环境状态的信息、所述调整后的第一网络参数调整动作的信息、所述网元在执行所述调整后的第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述调整后的第一网络参数调整动作之后的第二网络环境状态的信息进行更新的；

所述确定单元，还用于根据所述接收单元接收到的更新后的评估模型确定所述网元在所述第二网络环境状态执行的第二网络参数调整动作；

所述接收单元还用于，接收所述AMF实体发送的关键性能指标KPI的种类和每个KPI种类的KPI保障阈值；

所述确定单元还用于，判断每个KPI种类的KPI的具体值是否违反KPI保障规则，并向所述APF实体发送判断结果，由所述APF实体在任意一种KPI的具体值违反所述KPI保障规则时采取回退操作，所述回退操作后的动作作为所述调整后的第一网络参数调整动作，所述KPI保障规则为不高于或者不低于所述KPI保障阈值。

15.一种网络参数调优装置，其特征在于，包括：

接收单元，用于接收模型执行功能MEF实体发送的第一网络参数调整动作，所述第一网络参数调整动作是MEF实体根据评估模型确定的；

发送单元，用于将调整后的第一网络参数调整动作下发给网元，用于所述网元在第一网络环境状态下执行调整后的第一网络参数调整动作，所述调整后的第一网络参数调整动作包括所述MEF实体发送的所述第一网络参数调整动作以及根据策略对所述第一网络参数调整动作进行调整后的网络参数调整动作；

所述发送单元，还用于将调整后的第一网络参数调整动作的信息发送给分析和建模功能AMF实体，用于AMF实体根据所述第一网络环境状态的信息、所述调整后的第一网络参数调整动作的信息、所述网元在执行所述调整后的第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述调整后的第一网络参数调整动作之后的第二网络环境状态的信息，来更新所述评估模型；

所述接收单元还用于，接收所述MEF实体发送的KPI的具体值是否违反KPI保障规则的信息；

所述装置还包括处理单元，所述处理单元用于在KPI的具体值违反所述KPI保障规则时采取回退操作，将所述回退操作后的动作作为所述调整后的第一网络参数调整动作。

16.一种网络参数调优装置，其特征在于，包括：

确定单元，用于根据所述接收单元接收的评估模型确定网元在第一网络环境状态下执行的第一网络参数调整动作，并将所述第一网络参数调整动作发送给所述网元，用于所述网元在第一网络环境状态下执行第一网络参数调整动作；

发送单元，用于将所述确定单元确定的第一网络参数调整动作的信息发送给所述AMF实体，用于AMF实体根据所述第一网络环境状态的信息、所述第一网络参数调整动作的信息、所述网元在执行所述第一网络参数调整动作之后获得回报的信息、以及所述网元在执行所述第一网络参数调整动作之后的第二网络环境状态的信息，来更新所述评估模型；

所述接收单元还用于：接收AMF实体发送的KPI的种类和每个KPI种类的KPI保障阈值；

所述确定单元还用于，根据所述接收单元接收的所述KPI的种类和每个KPI种类的KPI保障阈值，判断每个KPI种类的KPI的具体值是否违反KPI保障规则，在任意一种KPI的具体值违反所述KPI保障规则时采取回退操作，将所述回退操作后的动作作为所述第一网络参数调整动作。

17.一种计算机可读存储介质，其特征在于，所述计算机存储介质中存储有计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1-8任意一项所述的方法。

18.一种芯片，其特征在于，所述芯片与存储器相连或者所述芯片包括所述存储器，用于读取并执行所述存储器中存储的软件程序，以实现如权利要求1-8任意一项所述的方法。