CN117545085A

CN117545085A - 多用户下行调度方法、装置、设备及存储介质

Info

Publication number: CN117545085A
Application number: CN202311526532.4A
Authority: CN
Inventors: 戴静; 陆宇涛; 鞠震宇; 郑康; 漆雨菂; 盛锋; 王坚
Original assignee: China Mobile Zijin Jiangsu Innovation Research Institute Co ltd; China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Zijin Jiangsu Innovation Research Institute Co ltd; China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-09

Abstract

本发明公开了一种多用户下行调度方法、装置、设备及存储介质，属于无线传输技术领域。本发明通过获取逻辑信道的优先级因子；基于所述优先级因子确定优先级因子的权重系数；使用预设强化学习策略对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果；通过所述评估结果确定目标逻辑信道，并通过所述目标逻辑信道进行多用户下行调度，可动态调整各用户调度优先级的资源分配方案，以尽可能降低用户时延，提高无线网络的性能和用户体验。

Description

多用户下行调度方法、装置、设备及存储介质

技术领域

本发明涉及无线传输技术领域，尤其涉及一种多用户下行调度方法、装置、设备及存储介质。

背景技术

在5G中，MAC(Medium Access Control，媒体接入)层起着至关重要的作用，它负责管理和分配无线信道资源，优化资源利用率，满足不同用户和服务类型的需求，以提供高速率、低延迟的无线数据传输。其中，MAC层的调度策略是为了优化无线信道资源的使用和满足不同用户和服务类型的需求而制定的，旨在提高***容量、带宽利用率和用户体验，同时保证公平性和服务质量。

5G MAC层采用多种调度策略来优化无线资源的分配和管理。调度策略是在整个网络范围内确定资源分配的一般原则，需考虑网络中不同用户和服务类型的需求，并通过合理的资源分配来提高***容量、覆盖范围和用户体验。

现有的多用户下行调度中调度策略一旦确定，则按照固定模式进行调度，无法根据用户需求、网络拥塞情况进行灵活动态调整。

发明内容

本发明的主要目的在于提供一种多用户下行调度方法、装置、设备及存储介质，旨在解决现有技术多用户下行调度不够灵活导致调度效果差的技术问题。

为实现上述目的，本发明提供了一种多用户下行调度方法，所述方法包括以下步骤：

获取逻辑信道的优先级因子；

基于所述优先级因子确定优先级因子的权重系数；

使用预设强化学习策略对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果；

通过所述评估结果确定目标逻辑信道，并通过所述目标逻辑信道进行多用户下行调度。

可选地，所述获取逻辑信道的优先级因子，包括：

获取在进行多用户下行调度的影响因素；

根据所述影响因素确定逻辑信道的调度优先级；

通过所述调度优先级设置逻辑信道的优先级因子。

可选地，所述使用预设强化学习策略对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果，包括：

基于预设强化学习策略设置学习次数上限阈值，并初始化奖励值、初始化时间以及初始化存储奖励值的奖励值表；

基于所述预设强化学习策略将所述优先级因子的权重系数作为智能体；

基于所述智能体使用预设贪婪策略选择动作，并计算立即回报；

基于所述立即回报计算目标奖励值；

通过所述目标奖励值对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果。

可选地，所述基于所述智能体使用预设贪婪策略选择动作，并计算立即回报，包括：

基于所述智能体使用预设贪婪策略选择动作，统计预设时间段内各逻辑信道的平均时延；

根据所述平均时延计算立即回报。

可选地，所述基于所述立即回报计算目标奖励值，包括：

获取预设强化学习策略设置的学习率以及折扣因子；

根据奖励值与立即回报、学习率以及折扣因子之间的关系、所述立即回报、所述学习率以及所述折扣因子计算目标奖励值。

可选地，所述通过所述目标奖励值对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果，包括：

通过所述目标奖励值得到优先级因子的目标权重系数；

通过所述目标权重系数对所述权重系数进行调整，计算出逻辑信道的目标调度优先级；

通过所述目标调度优先级计算逻辑信道的目标优先级；

基于所述目标优先级得到表征逻辑信道优先级的评估结果。

可选地，所述基于所述目标优先级得到表征逻辑信道优先级的评估结果，包括：

对所述目标优先级进行排序，得到排序结果；

通过所述排序结果选择对应的逻辑信道，得到表征逻辑信道优先级的评估结果。

此外，为实现上述目的，本发明还提出一种多用户下行调度装置，所述多用户下行调度装置包括：

获取模块，用于获取逻辑信道的优先级因子；

确定模块，用于基于所述优先级因子确定优先级因子的权重系数；

调整模块，用于使用预设强化学习策略对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果；

所述确定模块，还用于通过所述评估结果确定目标逻辑信道，并通过所述目标逻辑信道进行多用户下行调度。

此外，为实现上述目的，本发明还提出一种多用户下行调度设备，所述多用户下行调度设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多用户下行调度程序，所述多用户下行调度程序配置为实现如上文所述的多用户下行调度方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有多用户下行调度程序，所述多用户下行调度程序被处理器执行时实现如上文所述的多用户下行调度方法的步骤。

本发明通过获取逻辑信道的优先级因子；基于所述优先级因子确定优先级因子的权重系数；使用预设强化学习策略对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果；通过所述评估结果确定目标逻辑信道，并通过所述目标逻辑信道进行多用户下行调度，可动态调整各用户调度优先级的资源分配方案，以尽可能降低用户时延，提高无线网络的性能和用户体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的多用户下行调度设备的结构示意图；

图2为本发明多用户下行调度方法第一实施例的流程示意图；

图3为本发明多用户下行调度方法第二实施例的流程示意图；

图4为本发明多用户下行调度方法第三实施例的流程示意图；

图5为本发明多用户下行调度方法第四实施例的流程示意图；

图6为本发明多用户下行调度方法一实施例中使用预设强化学习策略进行权重系数优化的流程示意图；

图7为本发明多用户下行调度装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的多用户下行调度设备结构示意图。

如图1所示，该多用户下行调度设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对多用户下行调度设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及多用户下行调度程序。

在图1所示的多用户下行调度设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明多用户下行调度设备中的处理器1001、存储器1005可以设置在多用户下行调度设备中，所述多用户下行调度设备通过处理器1001调用存储器1005中存储的多用户下行调度程序，并执行本发明实施例提供的多用户下行调度方法。

本发明实施例提供了一种多用户下行调度方法，参照图2，图2为本发明多用户下行调度方法第一实施例的流程示意图。

本实施例中，所述多用户下行调度方法包括以下步骤：

步骤S10：获取逻辑信道的优先级因子。

需要说明的是，本实施例的执行主体可为多用户下行调度设备，还可为其它可实现相同或相似功能的设备，本实施例对此不作限制，本实施例以多用户下行调度设备为例进行说明。

目前常见的调度策略包括静态调度、基于协作的调度、基于队列的调度、基于功率控制的调度和基于反馈的调度。目前这些调度策略的典型实现方式包括RR调度、Max C/I调度及PF调度。

RR轮询首先确定用户的轮询顺序，可以按照用户的优先级、队列长度或其他要求来排序；接着在每个调度周期开始时，基站按照预定的顺序依次选择下一个用户，并为其分配资源。可以根据用户队列中所需的资源数量和可用资源的情况进行分配。

Max C/I策略则首先进行信道测量，通过接收到的功率或信号质量指标等信息来评估用户的信道条件；接着从当前所有用户中选择具有最大载干比(C/I)的用户作为下一个分配资源的对象；最后基站为被选中的用户分配资源，以提高其传输速率和***容量。

PF策略则首先为每个用户计算调度指标，通常使用用户的历史传输速率和当前信道质量的综合评估，比如使用平均传输速率和信道质量参数的乘积；接着选择最大调度指标用户，从所有用户中选择具有最大调度指标的用户作为下一个分配资源的对象；最后为被选中的用户分配资源，以实现对***容量和用户体验的平衡。

这些策略在5G MAC层中可根据不同的场景和目标进行选择和优化。它们旨在提高资源利用率、覆盖范围和用户体验，并在公平性和***吞吐量之间寻找平衡。轮询策略决定了资源分配的顺序，而调度优先级决定了每个用户或设备在轮询中的优先级。通过合理设置调度优先级，可以实现对不同用户需求的灵活调配，提高***性能和用户体验。

然而，RR策略提供的是一种无差异化服务，没有考虑用户的不同需求和信道条件，对于具有不同优先级或信道质量的用户没有进行明确区分，因此可能会出现资源浪费的情况，因为即使某些用户的信道条件较差，也会获得相同数量的资源。Max C/I策略可能会偏向优质信道的用户，导致其他用户的体验下降，并且，该策略没有考虑到用户的不同业务需求，只关注信道质量，可能无法满足对延迟、带宽等特定要求较高的应用。PF策略调度复杂度较高，需要对每个用户进行指标计算和比较，且各指标一旦确定后，无法根据用户需求、网络拥塞情况进行灵活动态调整。由于综合考虑了各个用户的需求，对于高优先级用户的响应可能相对较慢。因此，采用目前的调度策略会存在信息不完整、不平衡性以及缺乏灵活性等问题，例如仅依赖于某些有限的信息确定调度优先级，然而，这些信息仅代表了一部分网络状态，无法全面考虑其他因素如用户类型、业务需求、网络拥塞情况等。因此可能无法准确反映用户的实际需求和网络状况，或预先设定影响调度优先级各因子权重会导致某些因素被过度关注，而其他因素被忽略。这将导致某些用户或服务始终占据优势地位，而其他用户或服务则得不到公平的资源分配。又或调度策略一旦确定，则按照固定模式进行调度，无法根据用户需求、网络拥塞情况进行灵活动态调整。

因此，本实施例主要针对uRLLC场景，基于Q-Learning理论，提出了一种动态调整各用户调度优先级的资源分配方案，以尽可能降低用户时延。相较于传统方案具有自适应性、学习能力、***效率、个性化服务和强化学习特性等优势。这些优势使得基于Q-Learning的方案能够更好地满足用户的QoS指标要求，并提高无线网络的性能和用户体验。

在具体实施中，在进行多用户下行调度时，综合考虑5QI类型、时延、速率、信道质量及调度时长五个因素，因此，可设计计算对应的非零缓存的用户终端列表的逻辑信道的调度优先级，因此可获取逻辑信道的优先级因子，逻辑信道的优先级因子表征各逻辑信道的调度优先级。

可选地，获取逻辑信道的优先级因子的步骤包括：获取在进行多用户下行调度的影响因素；根据所述影响因素确定逻辑信道的调度优先级；通过所述调度优先级设置逻辑信道的优先级因子。

需要说明的是，由于综合考虑了5QI类型、时延、速率、信道质量及调度时长五个因素，因此可获取在进行多用户下行调度的影响因素，影响因素包括5QI类型、时延、速率、信道质量及调度时长，在确定了影响因素后，如下式1所示，下式1为逻辑信道的调度优先级计算过程：

P_DL(t)＝P₁+P₂+P₃+P₄+P₅ (式1)

上式1中，P_DL为逻辑信道的调度优先级，P₁表示逻辑信道的5QI优先级，P₂表示逻辑信道的时延优先级，P₃表示逻辑信道的速率优先级，P₄表示逻辑信道的信道质量优先级，P₅表示逻辑信道的调度间隔优先级，逻辑信道的5QI优先级的计算如下式2：

P₁＝(100-DefaultPriorityLevel₁)*f₁ (式2)

上式2中，DefaultPriorityLevel₁表示逻辑信道的5QI对应的默认优先级，可参考协议表得到，5QI业务类型优先级越高，该值越小，最大不超过100，设计100与该值的差作为5QI优先级的因子，以符合计算值越大，优先级越高的设计，f₁为5QI优先级因子的权重系数。

逻辑信道的时延优先级的计算如下式3：

上式3中，τ表示逻辑信道在RLC队列中的包头时延，RLC队列中任何时候有一个新的来包时，需维护其到达时间。每当排序时，更新包头时延，即用当前时间减去RLC队列头包的来包时间，PDB表示逻辑信道的5QI对应的包时延预算，可参考协议表得到。当τ与PDB比值越大，该LC包头时延越长，优先级越高。f₂为时延优先级因子的权重系数。

逻辑信道的速率优先级计算如下式4：

上式4中，如果本逻辑信道承载的是GBR业务，则表示对应的保证比特速率；如果承载的是Non-GBR业务，则配置一个参考值，R表示本逻辑信道到当前时刻为止的平均速率。GBR为配置的固定值，当GBR与R比值越大，说明当前LC平均速率越低，优先级越高，f₃为速率优先级因子的权重系数。

逻辑信道的信道质量优先级计算如下式5：

P₄＝CQI*f₄ (式5)

上式5中，CQI表示本UE最近一次上报的CQI。该值越大，信道质量越好，优先级越高。f₄为信道质量优先级因子的权重系数。

逻辑信道的调度间隔优先级的计算如下式6：

P₅＝SchT*f₅ (式6)

上式6中，SchT表示上一次调度到当前时刻的间隔。该值越大，调度间隔越久，优先级越高，f₅为调度间隔优先级因子的权重系数。

步骤S20：基于所述优先级因子确定优先级因子的权重系数。

在具体实施中，在得到优先级因子后，可通过上式1至式6得到优先级因子的权重系数。

步骤S30：使用预设强化学习策略对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果。

预设强化学***均时延目标，可通过预设强化学***，且不丢失其表征的对结果的影响力，得到表征逻辑信道优先级的评估结果。

需要说明的是，逻辑信道优先级的评估结果即为各逻辑信道最终优先级。

步骤S40：通过所述评估结果确定目标逻辑信道，并通过所述目标逻辑信道进行多用户下行调度。

在具体实施中，在得到表征逻辑信道优先级的评估结果后，可确定每个逻辑信道的优先级，从而选择优先级最高的逻辑信道作为目标逻辑信道，并通过目标逻辑信道进行多用户下行调度，可以针对不同用户和服务类型提供个性化的服务。通过学习每个用户的特定需求和行为模式，Q-Learning可以根据其QoS指标要求和优先级进行动态分配，以满足不同用户的特定需求。可以在综合考虑多种因素(如信道质量、拥塞情况、用户需求等)的基础上做出最优的分配决策。

本实施例通过获取逻辑信道的优先级因子；基于所述优先级因子确定优先级因子的权重系数；使用预设强化学习策略对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果；通过所述评估结果确定目标逻辑信道，并通过所述目标逻辑信道进行多用户下行调度，可动态调整各用户调度优先级的资源分配方案，以尽可能降低用户时延，提高无线网络的性能和用户体验。

参考图3，图3为本发明多用户下行调度方法第二实施例的流程示意图。

基于上述第一实施例，本实施例多用户下行调度方法所述步骤S30，包括：

步骤S301：基于预设强化学习策略设置学习次数上限阈值，并初始化奖励值、初始化时间以及初始化存储奖励值的奖励值表。

需要说明的是，在进行Q-Learning算法训练时，可设置学习次数上限阈值Tmax，并将逻辑信道优先级因子初始化为1，初始化奖励值，初始化时间t＝0，奖励值即为Q值，并初始化用于存储智能体对于每个状态和动作组合Q值的Q表。

步骤S302：基于所述预设强化学习策略将所述优先级因子的权重系数作为智能体。

需要说明的是，在开始学习时，可设计智能体、动作以及立即回报，将优先级因子的权重系数设置为智能体，并用表示可选择的动作，为保证最终计算出的数据的稳定性与可靠性，将步长设置为1，/>其中f为上述智能体中的任意一个。

在Q-Learning算法中，智能体(或代理)是执行学习任务的实体。智能体是一个学习者，它通过与环境互动，从经验中学习并制定最佳策略来最大化其长期奖励。智能体的主要任务包括：选择行动：在每个时间步骤，智能体需要选择一个行动来执行。

步骤S303：基于所述智能体使用预设贪婪策略选择动作，并计算立即回报。

通过更新时间t＝t+1，根据预设贪婪策略选择动作从而计算立即回报，若该次立即回报增加，则下次学习时保持该动作。

需要说明的是，上述f的学习顺序可不限定的，Q-learning算法中是通过智能体与环境的交互来学习最优策略，并通过更新Q值函数来指导智能体的行动选择。在Q-learning中，智能体是无法直接获取环境的状态，而是通过选择动作并观察立即回报来获得关于环境的信息。如果我们可以事先确定优先级因子f的调整顺序，那么固定的调整顺序可能会导致局部最优解：Q-learning的目标是找到全局最优策略，但由于环境的复杂性和不确定性，我们无法事先确定正确的调整顺序。如果我们固定了调整顺序，智能体可能会陷入局部最优解，并无法找到最优策略。

可选地，计算立即回报的过程具体包括：基于所述智能体使用预设贪婪策略选择动作，统计预设时间段内各逻辑信道的平均时延；根据所述平均时延计算立即回报。

在具体实施中，t时刻，当智能体f选择动作时，可统计预设时间段内各逻辑信道的平均时延，/>其中，/>PD_i为各数据包从UPF至UE的时延。预设时间段可为100ms、120ms等，本实施例对此不作限制。

若该时间段内集合T中各逻辑信道平均时延发生变化，设计如下立即回报函数：

上式7中，w_t为立即回报。

步骤S304：基于所述立即回报计算目标奖励值。

在具体实施中，可通过立即回报计算目标奖励值，目标奖励值为最优Q值。

示例性的，可通过折扣因子、学习率以及立即回报等参数计算目标奖励值。

步骤S305：通过所述目标奖励值对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果。

可以理解的是，可通过该目标奖励值确定分配给各项优先级的系数，从而对优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果。

通过不断更新值，并将其存入Q表，并判断是否达到最大学习上限T_max，若达到学习上限T_max，则结束本次学习，若未达到学习上限T_max，则更新时间t＝t+1，继续计算立即回报。

本实施例基于预设强化学习策略设置学习次数上限阈值，并初始化奖励值、初始化时间以及初始化存储奖励值的奖励值表；基于所述预设强化学习策略将所述优先级因子的权重系数作为智能体；基于所述智能体使用预设贪婪策略选择动作，并计算立即回报；基于所述立即回报计算目标奖励值；通过所述目标奖励值对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果，可以针对不同用户和服务类型提供个性化的服务，优化子信道分配策略。

参考图4，图4为本发明多用户下行调度方法第三实施例的流程示意图。

基于上述第一和第二实施例，本实施例多用户下行调度方法所述步骤S304，包括：

步骤S3041：获取预设强化学习策略设置的学习率以及折扣因子。

可以理解的是，由于Q函数Q(a，s)的定义为：从状态s开始，执行第一个动作a的最大折算累积回报，即Q值是在状态s下执行动作a后得到的立即回报与后续遵循最优策略得到的折算值的和。

根据Q值的定义，在状态s_n下的Q值是长期累积回报的和，因此，Q值的定义如下式8：

上式8中，p是由状态s_t转移到下一状态s_t+1的状态转移概率，γ是折扣因子，在状态转移概率未知的情况下，Q值的具体迭代更新公式如下式9：

上式9中，a为学习率。为保证Q-Learning算法的收敛性，学习率a需满足：

当t→∞，将以概率1收敛与最优Q值/>

因此，可获取预设强化学习策略设置的学习率a以及折扣因子γ。

步骤S3042：根据奖励值与立即回报、学习率以及折扣因子之间的关系、所述立即回报、所述学习率以及所述折扣因子计算目标奖励值。

在本实施例中，如上式8和式9，可得到奖励值与立即回报、学习率以及折扣因子之间的关系，因此，可通过奖励值与立即回报、学习率以及折扣因子之间的关系、立即回报、学习率以及折扣因子计算目标奖励值。

本实施例通过获取预设强化学习策略设置的学习率以及折扣因子；根据奖励值与立即回报、学习率以及折扣因子之间的关系、所述立即回报、所述学习率以及所述折扣因子计算目标奖励值，可快速根据学习率、折扣因子以及立即回报得到最优的奖励值。

参考图5，图5为本发明多用户下行调度方法第四实施例的流程示意图。

基于上述第一和第二实施例，本实施例多用户下行调度方法所述步骤S305，包括：

步骤S3051：通过所述目标奖励值得到优先级因子的目标权重系数。

需要说明的是，在计算得到目标奖励值Q后，可确定优先级因子的目标权重系数，当得到最优Q值，则可获得逻辑信道各优先级因子对应权重的最优解，得到优先级因子的目标权重系数。

步骤S3052：通过所述目标权重系数对所述权重系数进行调整，计算出逻辑信道的目标调度优先级。

在具体实施中，可将目标权重系数带入上述式2至式6中，从而计算出逻辑信道的各项优先级P，即目标调度优先级。

步骤S3053：通过所述目标调度优先级计算逻辑信道的目标优先级。

在具体实施中，可通过目标调度优先级以及上式1计算逻辑信道的目标优先级。

步骤S3054：基于所述目标优先级得到表征逻辑信道优先级的评估结果。

可以理解的是，可将各逻辑信道的目标优先级进行排序，从而筛选出最终的逻辑信道优先级，从而得到表征逻辑信道优先级的评估结果。

可选地，基于所述目标优先级得到表征逻辑信道优先级的评估结果的步骤具体包括：对所述目标优先级进行排序，得到排序结果；通过所述排序结果选择对应的逻辑信道，得到表征逻辑信道优先级的评估结果。

需要说明的是，在得到各逻辑信道的目标优先级后，可对目标优先级进行降序排序，从而得到排序结果，从而根据排序结果选择对应的逻辑信道，从而将排序结果中的最大的目标优先级对应的逻辑信道作为最终的评估结果。

如图6所示，图6为使用预设强化学习策略进行权重系数优化的流程示意图，先确定逻辑信道合集，设定学习次数上限Tmax，初始化Q值，初始化学习时间t＝0，并更新学习时间t＝t+1，根据贪婪算法选择动作，计算立即回报，并更新Q值，确定是否达到最大学习次数，若达到，则确定分配给各项优先级的系数，并得到计算结果，若未达到，则更新学习时间t＝t+1，并继续根据贪婪算法选择动作，确定是否达到目标，若达到，则完成优化，若未达到，则返回确定逻辑信道合集的步骤。

本实施例通过所述目标奖励值得到优先级因子的目标权重系数；通过所述目标权重系数对所述权重系数进行调整，计算出逻辑信道的目标调度优先级；通过所述目标调度优先级计算逻辑信道的目标优先级；基于所述目标优先级得到表征逻辑信道优先级的评估结果，通过智能决策优化分配，提高***效率和资源利用率。

参照图7，图7为本发明多用户下行调度装置第一实施例的结构框图。

如图7所示，本发明实施例提出的多用户下行调度装置包括：

获取模块10，用于获取逻辑信道的优先级因子。

确定模块20，用于基于所述优先级因子确定优先级因子的权重系数。

调整模块30，用于使用预设强化学习策略对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果。

所述确定模块20，还用于通过所述评估结果确定目标逻辑信道，并通过所述目标逻辑信道进行多用户下行调度。

在一实施例中，所述获取模块10，还用于获取在进行多用户下行调度的影响因素；根据所述影响因素确定逻辑信道的调度优先级；通过所述调度优先级设置逻辑信道的优先级因子。

在一实施例中，所述调整模块30，还用于基于预设强化学习策略设置学习次数上限阈值，并初始化奖励值、初始化时间以及初始化存储奖励值的奖励值表；基于所述预设强化学习策略将所述优先级因子的权重系数作为智能体；基于所述智能体使用预设贪婪策略选择动作，并计算立即回报；基于所述立即回报计算目标奖励值；通过所述目标奖励值对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果。

在一实施例中，所述调整模块30，还用于基于所述智能体使用预设贪婪策略选择动作，统计预设时间段内各逻辑信道的平均时延；根据所述平均时延计算立即回报。

在一实施例中，所述调整模块30，还用于获取预设强化学习策略设置的学习率以及折扣因子；根据奖励值与立即回报、学习率以及折扣因子之间的关系、所述立即回报、所述学习率以及所述折扣因子计算目标奖励值。

在一实施例中，所述调整模块30，还用于通过所述目标奖励值得到优先级因子的目标权重系数；通过所述目标权重系数对所述权重系数进行调整，计算出逻辑信道的目标调度优先级；通过所述目标调度优先级计算逻辑信道的目标优先级；基于所述目标优先级得到表征逻辑信道优先级的评估结果。

在一实施例中，所述调整模块30，还用于对所述目标优先级进行排序，得到排序结果；通过所述排序结果选择对应的逻辑信道，得到表征逻辑信道优先级的评估结果。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有多用户下行调度程序，所述多用户下行调度程序被处理器执行时实现如上文所述的多用户下行调度方法的步骤。

由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的多用户下行调度方法，此处不再赘述。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多用户下行调度方法，其特征在于，所述多用户下行调度方法包括：

获取逻辑信道的优先级因子；

基于所述优先级因子确定优先级因子的权重系数；

2.如权利要求1所述的多用户下行调度方法，其特征在于，所述获取逻辑信道的优先级因子，包括：

获取在进行多用户下行调度的影响因素；

根据所述影响因素确定逻辑信道的调度优先级；

通过所述调度优先级设置逻辑信道的优先级因子。

3.如权利要求1所述的多用户下行调度方法，其特征在于，所述使用预设强化学习策略对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果，包括：

基于所述立即回报计算目标奖励值；

4.如权利要求3所述的多用户下行调度方法，其特征在于，所述基于所述智能体使用预设贪婪策略选择动作，并计算立即回报，包括：

根据所述平均时延计算立即回报。

5.如权利要求3所述的多用户下行调度方法，其特征在于，所述基于所述立即回报计算目标奖励值，包括：

获取预设强化学习策略设置的学习率以及折扣因子；

6.如权利要求3所述的多用户下行调度方法，其特征在于，所述通过所述目标奖励值对所述优先级因子的权重系数进行调整，得到表征逻辑信道优先级的评估结果，包括：

通过所述目标奖励值得到优先级因子的目标权重系数；

通过所述目标调度优先级计算逻辑信道的目标优先级；

基于所述目标优先级得到表征逻辑信道优先级的评估结果。

7.如权利要求6所述的多用户下行调度方法，其特征在于，所述基于所述目标优先级得到表征逻辑信道优先级的评估结果，包括：

对所述目标优先级进行排序，得到排序结果；

8.一种多用户下行调度装置，其特征在于，所述多用户下行调度装置包括：

获取模块，用于获取逻辑信道的优先级因子；

9.一种多用户下行调度设备，其特征在于，所述多用户下行调度设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多用户下行调度程序，所述多用户下行调度程序配置为实现如权利要求1至7中任一项所述的多用户下行调度方法。

10.一种存储介质，其特征在于，所述存储介质上存储有多用户下行调度程序，所述多用户下行调度程序被处理器执行时实现如权利要求1至7中任一项所述的多用户下行调度方法。