CN114980156B

CN114980156B - 一种无蜂窝毫米波大规模mimo***的ap开关切换方法

Info

Publication number: CN114980156B
Application number: CN202210369904.6A
Authority: CN
Inventors: 何云; 申敏; 周渝陇; 毛翔宇; 李春霖
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2024-04-19
Anticipated expiration: 2042-04-08
Also published as: CN114980156A

Abstract

本发明涉及一种无蜂窝毫米波大规模MIMO***的AP开关切换方法，属于无线通信领域。该方法包括：S1：构建无蜂窝毫米波大规模MIMO***基于总能效的优化问题模型；S2：采用SINR感知技术构建效用函数，以实现QoS约束下总能效最大化为优化目标；S3：构建强化学习模型，包括以下步骤：S31：构建状态空间分级算法：首先对效用函数离散化分级处理，将状态空间划分为多个状态子空间；然后采用哈希检索法对状态进行哈希编码；最后根据状态空间分级算法更新状态；S32：深度决斗算法：使用步骤S31更新的状态信息在深度决斗DQN框架下学习，更新网络参数。本发明实现了满足QoS要求和最大化***总能效要求。

Description

一种无蜂窝毫米波大规模MIMO***的AP开关切换方法

技术领域

本发明属于无线通信领域，涉及一种无蜂窝毫米波大规模MIMO***的AP开关切换方法。

背景技术

研究无蜂窝毫米波大规模MIMO网络接入点(Access Point,AP)开关策略，旨在提供最大能效的AP激活集合。然而，这是一个NP难问题，它需要评估所有M个AP的各种可能组合。AP组合的选择应适应用户位置变化或阴影衰落地理分布变化等原因引起的场景变化，而在大多数现实环境中，这些变化发生得太快以至于无法实施相应的策略。强化学习技术起源于大数据分析，是一种非常有前途的数据驱动资源管理方案，可用于在未知动态变化的网络条件下(例如：可变的信道状态信息和QoS要求)为每个状态和交互做出最佳决策。

基于深度强化学习模型，人们提出了一些新的有效节能资源管理策略。***总能效最大化只有在满足QoS要求时才有意义，否则会降低用户体验。QoS的目标是以更有效的方式将当前流量负载映射到可用传输资源上。QoS保证的增益是以增加AP的功耗为代价的。因此***除了需要满足每个用户的QoS要求外，还必须考虑ASO策略来控制活动AP的发射功率和硬件功耗。传统的研究采用的效用函数主要用来表征可达速率和总能效之间的权衡，但在时变环境中很难识别两者的权重边界，传统的基于强化学习框架解决能效优化问题的效用函数往往具有一组松散的QoS约束，而非严格的QoS约束。因此AP开关切换策略需要关注两者的权重设计，且需要以更严格的方式满足QoS约束。同时，由于样本是从无线网络的不同时期收集到的，在学习过程中会出现样本偏差。

因此，亟需一种能够提升无蜂窝毫米波大规模MIMO***总能效的时变信道环境中的AP睡眠节能机制。

发明内容

有鉴于此，本发明的目的在于提供一种无蜂窝毫米波大规模MIMO***的AP开关切换方法，以满足QoS要求和最大化***总能效要求。

为达到上述目的，本发明提供如下技术方案：

一种无蜂窝毫米波大规模MIMO***的AP开关切换方法，具体包括以下步骤：

S1：构建无蜂窝毫米波大规模MIMO***基于总能效的优化问题模型；

S2：采用SINR感知技术构建效用函数，以实现QoS约束下总能效最大化为优化目标；

S3：构建强化学习模型，包括以下步骤：

S31：构建状态空间分级算法：首先对效用函数离散化分级处理，将状态空间划分为多个状态子空间；然后采用哈希检索法对状态进行哈希编码；最后根据状态空间分级算法更新状态；

S32：深度决斗算法：使用步骤S31更新的状态信息在深度决斗DQN框架下有效地学习，更新网络参数。

进一步，步骤S1中，无蜂窝毫米波大规模MIMO***中，许多AP协同为用户服务，AP通过前传链路连接到CPU。假设***配置有M个AP和K个用户，每个AP有N_t根天线和个射频链；每个用户有N_r,k根天线，数据流数为N_s,k；每个用户的带宽为B₀，假设***工作在TDD模式，根据信道互易性，仅需通过上行训练实现信道估计；在无蜂窝毫米波大规模MIMO***中，以用户为中心的方法能够降低***前传链路的功耗，该方法允许每个用户由特定的AP集群提供最好的服务；定义/>为第m个AP提供服务的用户集群，集群中的最大用户数为N_UE,max，/>表示为第k个用户提供服务的AP集群，集群中的最大AP数为N_AP,max；第k个用户和第m个AP之间的信道为/>该信道采用基于簇的大规模MIMO信道；

构建无蜂窝毫米波大规模MIMO***基于总能效的优化问题模型，具体包括：针对无蜂窝毫米波大规模MIMO***基于总能效的AP开关切换策略，定义M个AP的开关映射关系为状态s＝[o₁,...,o_m,...,o_M]，o_m＝1表示第m个AP打开，o_m＝0表示第m个AP关闭，AP激活集合为以状态s为目标变量，第k个用户的干扰协方差矩阵加上有效噪声为R_k，则第k个用户的下行可达速率/>总能效/>分别表示为：

其中，I表示单位矩阵，P_T(s)表示总功率，L_k表示第k个用户的合并器，k表示第k个用户，l表示第l个用户，为噪声功率，p_m,k为第m个AP分配给第k个用户的功率，H_m,k表示第m个AP和第k个用户之间的信道矩阵，F_m,l表示第m个AP对第l个用户的预编码矩阵。

以状态s作为目标变量的优化问题表示为：

其中，P_max表示每个AP的传输功率限制，R_min表示每个用户的最小频谱效率限制。

进一步，步骤S2中，构建效用函数具体包括：定义效用函数为：

其中，表示对下行可达速率的满意度，/>表示对***总能效的满意度；μ为加权系数，取值在0和1之间，最优μ值的选择需要基于最小化/>和R_min间的差值来最大化***总能效，即解决

其中，ε_r表示误差容忍度。

传统的效用函数很难确定最优加权系数μ，为了使效用函数能更紧地满足QoS要求，采用性质1设计效用函数的参数变量；假设为在无QoS约束下的最大总能效；R_max为***最大可达速率，对应的总能效为/>定义可达速率满意函数/>能效满意函数/>和加权系数μ分别为：

其中，表示总能效，ω表示满意度加权系数。

性质1：式(8)、式(9)和式(10)定义的参数变量能最大化效用函数即满足式(7)。

进一步，步骤S2中，SINR感知技术具体包括：第k个用户的信干噪比为

其中，g_k(s)为有用信号功率，I_k(s)为信道干扰功率，σ²为噪声功率，则下行可达速率可表示为：

在AP与CPU代理的交互过程中，假设在时刻t-ΔT与时刻t之间，所有AP的激活状态s^(t)保持不变，CPU代理通过多次与环境交互收集所有用户的干扰功率和有用信号功率，该时间间隔内用户k的干扰功率和有用信号功率样本集合分别为I_k＝{I_k,nΔt}，g_k＝{g_k,nΔt},Δt＝ΔT/M_t，n＝1,...,M_t，则用户k在ΔT间隔内M_t个样本的平均干扰功率为和平均有用信号功率为/>在时刻t，用户k的平均信干噪比和平均可达速率分别为：

在时刻t，平均总能效和效用函数分别为：

进一步，步骤S31中，构建状态空间分级算法具体包括：将权衡后的效用函数进行离散化分级，将连续的效用函数从小到大划分为P个不同等级的离散效用函数值则离散效用函数值序列为/>

其中，为最小效用函数值，/>为最大效用函数值；基于效用函数的离散化，状态空间被划分为多个状态子空间；假设状态s对应的效用函数值为/>状态s对应的离散效用函数等级p为：

假设第t次马尔科夫过程收集到M_t个样本，根据式(14)得到平均可达速率根据式(15)得到平均总能效/>再根据式(16)计算得到/>则时刻t的样本为/>马尔科夫链样本集为/>由于样本/>是从无线网络中的不同时期收集到的，因此在学习过程中会出现样本偏差。即，对于相同的s＝s^(t)＝s^(t'),/>如果/>则存在样本偏差，该样本偏差导致学习过程不易收敛。为了解决该问题，将不同时刻的样本/>存储到缓存空间，如果出现样本偏差的情况，则使用历史状态对应的样本；为了避免/>长期使用历史信息而无法实时适应环境变化，以T为周期初始化样本集/>的缓存空间；状态空间的大小为2^M，当M取值很大时，样本集的索引维度非常大，为了加快缓存空间的检索速度，本发明采用哈希检索方法，对状态s^(t)进行哈希编码h_b(s^(t))，根据哈希码索引存取信息/>

通过式(18)能找到与对应的等级p和分级效用函数/>接下来将确定/>对应的分级状态/>定义/>为效用函数/>的邻近状态集合：

在中，最大总能效对应的状态定义为分级状态/>其中t^＊满足

值得注意的是，不能靠提前离线训练获取，而是CPU代理在与环境交互过程中实时更新；在确定/>对应的等级p及其分级样本/>之后，p个等级的分级样本集更新为：

以上操作将实时样本映射到分级样本/>该分级操作能避免依靠单一评价准则带来的弊端，基于性能权衡的等级划分能更合理的反映状态子空间的性能差异。在实现过程中，/>需要与/>内最优状态进行比较更新，从而避免传统分类算法离线训练的非实时不准确性。

进一步，步骤S32具体包括：在深度决斗训练阶段通过使用SINR感知技术、哈希检索法和状态空间分级算法获取经验信息(s^(t),a^(t),r^(t),s^(t+1))，然后在深度决斗DQN框架下有效地学习。

本发明的有益效果在于：本发明将AP开关切换策略看作一个马尔可夫决策过程，使用深度强化学习算法框架解决AP激活问题，提升了无蜂窝毫米波大规模MIMO***总能效。本发明引入SINR感知技术和局部敏感哈希方法来减少代理与复杂环境间的交互以及样本偏差。本发明构造了一个新的效用函数，使其在严格满足QoS要求下实现可达速率和总能效间的性能权衡。通过对效用函数的离散化处理，将状态空间划分为一些较小的状态子空间，以加快深度决斗Q网络的收敛速度。本发明具有良好的稳定性和收敛性，且能实现可达速率和总能效性能的权衡。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明无蜂窝毫米波大规模MIMO***的AP开关切换策略示意图；

图2为本发明无蜂窝毫米波大规模MIMO***的AP开关切换方法流程图；

图3为非强化学习与强化学习算法性能对比图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图3，如图1所示，在无蜂窝毫米波大规模MIMO***中，许多AP协同为用户服务，AP通过前传链路连接到CPU。假设***配置有M个AP和K个用户，每个AP有N_t根天线和个射频链；每个用户有N_r,k根天线，数据流数为N_s,k。每个用户的带宽为B₀，假设***工作在TDD模式，根据信道互易性，仅需通过上行训练实现信道估计。在无蜂窝毫米波大规模MIMO***中，以用户为中心的方法能够降低***前传链路的功耗,该方法允许每个用户由特定的AP集群提供最好的服务。定义/>为第m个AP提供服务的用户集群，集群中的最大用户数为N_UE,max，/>表示为第k个用户提供服务的AP集群，集群中的最大AP数为N_AP,max；第k个用户和第m个AP之间的信道为/>该信道采用基于簇的大规模MIMO信道。

1、问题模型

针对无蜂窝毫米波大规模MIMO***基于总能效的AP开关切换策略，定义M个AP的开关映射关系为状态s＝[o₁,...,o_m,...,o_M]，o_m＝1表示第m个AP打开，o_m＝0表示第m个AP关闭，AP激活集合为以状态s为目标变量，第k个用户的干扰协方差矩阵加上有效噪声为R_k，则第k个用户的下行可达速率/>总能效/>分别表示为：

以状态s作为目标变量的优化问题表示为：

2、效应函数

由于***总能效的提升是以降低用户的QoS需求为代价的，本发明旨在设计一种能实现总能效和QoS要求权衡的效用函数来实现AP开关策略。该效用函数以实现QoS约束下总能效最大化为优化目标，因此它以总能效为基础，在给定状态s^(t)下执行动作a^(t)之后，如果用户的可达速率不满足QoS要求，则给与效用函数以负值作为惩罚。定义效用函数为：

其中，表示对下行可达速率的满意度，/>表示对***总能效的满意度。μ为加权系数，取值在0和1之间，最优μ值的选择需要基于最小化/>和R_min间的差值来最大化***总能效，即解决

其中，ε_r表示误差容忍度。

传统的效用函数很难确定最优加权系数μ，为了使效用函数能更紧地满足QoS要求，采用性质1设计效用函数的参数变量。假设为在无QoS约束下的最大总能效；R_max为***最大可达速率，对应的总能效为/>定义可达速率满意函数/>能效满意函数/>和加权系数μ分别为：

其中，表示总能效，ω表示满意度加权系数。

证明：性质1的考虑两种极限情况：

(a)在无QoS约束能够达到的最大总能效定义为该情况的效用函数/>为：

(b)***的最大可达速率表示为R_max，对应的总能效定义为则效用函数/>为：

在满足QoS约束时，最优总能效表示为对应的效用函数为/>

为了找到最接近R_min时最大总能效，即找到最优μ使得满足式(7)，则需要满足且/>

即需要满足

因为是凸函数，则式(15)很自然能够满足。为了保证最优能效点附近的效用函数连续，则效用函数也需要满足/> 取两个边界的中值，即

μ可通过式(10)获取。

证毕。

3、SINR感知技术

为了减少高维度CSI信息的交互对前传链路的压力，本发明引入SINR感知技术，使得由CPU实现的DRL代理从对***一无所知，通过学习用户反馈的测量SINR值，最终得到AP的最优激活状态。第k个用户的信干噪比为

其中，A_k,k的定义参见式(4)，g_k(s)为有用信号功率，I_k(s)为信道干扰功率，σ²为噪声功率，则下行可达速率可表示为：

在时刻t，平均总能效和效用函数分别为：

4、算法设计

深度决斗算法采用强化学习的框架，其实现要素的设计如下：

(1)动作：动作a^(t)取值为0～M，0表示维持当前状态不变，其它取值表示第a^(t)个AP采取与之前状态相反的动作。例如，假设在时刻t第i个AP处于开启状态，a^(t)＝i表示第i个AP在下一时刻将关闭。

(2)奖励：基于效用函数设计奖励机制，效用函数能权衡用户在强化学习过程中的总能效和QoS需求，强化学习的奖励机制是在特定状态下执行动作后从环境收到的反馈，用于反映/>学习算法的目的，即最大化效用函数/>因此，奖励函数定义为两个时间间隔内效用函数的增量，即

(3)状态空间

强化学习中的状态空间可以表示为离散变量或连续变量。在离散状态空间中，当状态空间很小时，强化学习算法可以很快收敛到最佳策略。在本案例中，状态空间的大小为2^M。随着无线网络密度增加，AP个数M增加，状态空间的大小呈指数递增，这使得算法收敛缓慢。为了解决这个问题，传统的优化方法算法通常通过聚类的方式将整个状态空间划分为更小的子空间，但是不论是按照总能效最大划分还是按照可达速率最大划分，都不能准确地反馈***性能的权衡，而且这些方法需要提前收集大量样本进行离线训练。为了解决该问题，本发明将权衡后的效用函数进行离散化分级，将连续的效用函数从小到大划分为P个不同等级的离散效用函数值/>则离散效用函数值序列为/>

其中，为最小效用函数值，/>为最大效用函数值。基于效用函数的离散化，状态空间被划分为多个状态子空间。假设状态s对应的效用函数值为/>状态s对应的离散效用函数等级p为：

假设第t次马尔科夫过程收集到M_t个样本，根据式(20)得到平均可达速率根据式(21)得到平均总能效/>再根据式(22)计算得到/>则时刻t的样本为/>马尔科夫链样本集为/>由于样本/>是从无线网络中的不同时期收集到的，因此在学习过程中会出现样本偏差。即，对于相同的s＝s^(t)＝s^(t'),/>如果/>则存在样本偏差，该样本偏差导致学习过程不易收敛。为了解决该问题，将不同时刻的样本/>存储到缓存空间，如果出现样本偏差的情况，则使用历史状态对应的样本。为了避免/>长期使用历史信息而无法实时适应环境变化，以T为周期初始化样本集/>的缓存空间。状态空间的大小为2^M，当M取值很大时，样本集的索引维度非常大，为了加快缓存空间的检索速度，本发明采用前述的哈希函数检索方法。对状态s^(t)进行哈希编码h_b(s^(t))，根据哈希码索引存取信息/>

通过式(25)能找到与对应的等级p和分级效用函数/>接下来将确定/>对应的分级状态/>定义/>为效用函数/>的邻近状态集合：

在中，最大总能效对应的状态定义为分级状态/>其中t^＊满足

值得注意的是，不能靠提前离线训练获取，而是CPU代理在与环境交互过程中实时更新。在确定/>对应的等级p及其分级样本/>之后，p个等级的分级样本集更新为：

状态空间分级算法实现流程如算法1所示，首先从样本中取出s^(t)的效用函数然后基于效用函数的离散处理得到分级样本集/>最后利用以上信息在第8行输出(s^(t),a^(t),r^(t),s^(t+1))。

深度决斗算法如算法2所示，在数据收集阶段获得投影基向量集，如第9行所示；在深度决斗训练阶段通过使用SINR感知技术、哈希检索法和状态空间分级算法1获取经验信息(s^(t),a^(t),r^(t),s^(t+1))，然后在深度决斗DQN框架下有效地学习。相对于其他深度强化学习算法，算法2具有以下优点：首先SINR感知技术可以避免通过前传链路传递高维度毫米波信道CSI信息；其次将状态空间的大小从2^M降低到P，提高了算法收敛性；最后，当状态s^(t)对应的样本集已存储于缓存空间时，无需重复地与环境交互来获取该样本集。该方法既能降低由于时变环境变化带来的样本偏差，又能减少与复杂环境不必要的交互对前传链路带来的压力，因此适合于无蜂窝毫米波大规模MIMO***。/>

鉴于无线通信是不断与变化的外界环境交互的过程，本发明利用无线通信领域知识和优化模型，为无蜂窝毫米波大规模MIM0***设计以总能效最大化为优化目标的智能AP开关模型，主要包括两个模块，即通信模块和强化学习模块。通信模块充分利用现有的通信协议收集数据，强化学习模块用于提取AP激活信息，这两个模块通过CPU代理交互工作。实现框图如图1所示，流程图如图2所示。在通信模块中，CPU代理在前传链路上传递SINR测量信息，而非高维CSI信息。基于大规模MIMO天线阵列结构，CSI的获取需要复杂的矩阵运算，因而基于SINR感知的方法能够减轻前传链路的负担。基于用户测量的SINR值，通信模块引入了哈希函数算法来快速检索缓存空间中的样本以避免样本偏差，并通过对效用函数的分级处理为强化学习模块提供分级状态输入。

深度神经网络需要较高的计算资源，适合解决在大规模通信***的优化问题。最初的深度决斗网络是为视频游戏开发的，因此这种架构包含了卷积层来处理输入层的图像。本发明旨在解决移动通信***中的资源优化问题，因此强化学习模块中，使用的深度决斗神经网络结构更简单，它只包含两个全连接结构的隐藏层，以捕获本发明当前工作的特定状态。其中值函数和优势函数都由有两个具有800和800个神经元的隐藏层全连接网络构成。该网络实现了两个隐藏层H₁和H₂,一个值函数输出层L_v,一个优势函数输出层L_a来分别估计值函数和优势函数/>得到深度决斗网络的输出/>假设|H_i|表示网络层的神经元的个数，则深度决斗神经网络的复杂度为|H₁||H₂|+|H₂||L_v|+|H₂||L_a|，内存池大小为|D|＝2000，少量样本大小为64。

在图3中，分别仿真比较了基于SINR的深度决斗算法2(Dueling-DQN-SINR算法)、基于CSI的深度决斗算法(Dueling-DQN-CSI算法)、贪婪算法和随机算法的总能效和平均频谱效率。其中，Dueling-DQN-CSI算法未采用分级操作，且仅需学习三种动作：打开、关闭或者不变。AP的选择不是通过学习获取的，而是在已知CSI信息的情况下选择打开或者关闭能最大化总能效的AP。贪婪算法是一种基于Gauss-Seidel的迭代算法，其算法收敛性与算法初值选取有很大关系，因此是一种次优算法。而随机算法则在每次迭代中随机选择打开或者关闭的AP。

图3(a)显示由于没有能效优化策略，随机算法的总能效最差。同样基于提前获知CSI信息和贪婪策略，Dueling-DQN-CSI算法和Dueling-DQN-SINR算法比贪婪算法能获得更高和更稳定的总能效性能，这也证明了强化学习算法的优势。虽然Dueling-DQN-SINR算法的总能效性能略低于Dueling-DQN-CSI算法，但是由于CPU很难提前获知下一时刻的CSI，而Dueling-DQN-SINR能不依靠提前获取的CSI信息，仅通过SINR感知技术，并采用学习的方式选择AP，因此是一种更实用的方法。图3(b)显示在5000次仿真之后，这四种算法都满足QoS要求，即R_min＝1bit/s/Hz。其中Dueling-DQN-SINR的频谱效率性能更接近QoS要求，这也证明了其效用函数能更紧地满足QoS约束。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种无蜂窝毫米波大规模MIMO***的AP开关切换方法，其特征在于，该方法具体包括以下步骤：

步骤S1中，无蜂窝毫米波大规模MIMO***中，假设***配置有M个AP和K个用户，每个AP有N_t根天线和个射频链；每个用户有N_r,k根天线，数据流数为N_s,k；每个用户的带宽为B₀，假设***工作在TDD模式，通过上行训练实现信道估计；每个用户由特定的AP集群提供最好的服务；定义/>为第m个AP提供服务的用户集群，集群中的最大用户数为N_UE,max，表示为第k个用户提供服务的AP集群，集群中的最大AP数为N_AP,max；第k个用户和第m个AP之间的信道为/>该信道采用基于簇的大规模MIMO信道；

构建无蜂窝毫米波大规模MIMO***基于总能效的优化问题模型，具体包括：针对无蜂窝毫米波大规模MIMO***基于总能效的AP开关切换策略，定义M个AP的开关映射关系为状态s＝[o₁,...,o_m,...,o_M]，o_m＝1表示第m个AP打开，o_m＝0表示第m个AP关闭，AP激活集合为以状态s为目标变量，第k个用户的干扰协方差矩阵加上有效噪声为R_k，则第k个用户的下行可达速率/>，总能效/>分别表示为：

其中，I表示单位矩阵，P_T(s)表示总功率，L_k表示第k个用户的合并器，k表示第k个用户，l表示第l个用户，为噪声功率，p_m,k为第m个AP分配给第k个用户的功率，H_m,k表示第m个AP和第k个用户之间的信道矩阵，F_m,l表示第m个AP对第l个用户的预编码矩阵；

以状态s作为目标变量的优化问题表示为：

其中，P_max表示每个AP的传输功率限制，R_min表示每个用户的最小频谱效率限制；

步骤S2中，构建效用函数具体包括：定义效用函数为：

其中，ε_r表示误差容忍度；

确定最优加权系数μ：假设为在无QoS约束下的最大总能效；R_max为***最大可达速率，对应的总能效为/>定义可达速率满意函数/>能效满意函数/>和加权系数μ分别为：

其中，表示总能效，ω表示满意度加权系数；

SINR感知技术具体包括：第k个用户的信干噪比为

在时刻t，平均总能效和效用函数分别为：

S3：构建强化学习模型，包括以下步骤：

步骤S31中，构建状态空间分级算法具体包括：将权衡后的效用函数进行离散化分级，将连续的效用函数从小到大划分为P个不同等级的离散效用函数值/>则离散效用函数值序列为/>

假设第t次马尔科夫过程收集到M_t个样本，根据式(14)得到平均可达速率根据式(15)得到平均总能效/>再根据式(16)计算得到/>则时刻t的样本为/>马尔科夫链样本集为/>将不同时刻的样本/>存储到缓存空间，如果出现样本偏差的情况，则使用历史状态对应的样本；为了避免/>长期使用历史信息而无法实时适应环境变化，以T为周期初始化样本集/>的缓存空间；状态空间的大小为2^M，当M取值很大时，采用哈希检索方法，对状态s^(t)进行哈希编码h_b(s^(t))，根据哈希码索引存取信息/>

在中，最大总能效对应的状态定义为分级状态/>其中t^＊满足

不能靠提前离线训练获取，而是CPU代理在与环境交互过程中实时更新；在确定/>对应的等级p及其分级样本/>之后，p个等级的分级样本集更新为：

在实现过程中，需要与/>内最优状态进行比较更新；

S32：深度决斗算法：使用步骤S31更新的状态信息在深度决斗DQN框架下学习，更新网络参数。

2.根据权利要求1所述的AP开关切换方法，其特征在于，步骤S32具体包括：在深度决斗训练阶段通过使用SINR感知技术、哈希检索法和状态空间分级算法获取经验信息(s^(t),a^(t),r^(t),s^(t+1))，然后在深度决斗DQN框架下有效地学习；其中，a^(t)表示动作，r^(t)表示奖励。