CN107995034B

CN107995034B - 一种密集蜂窝网络能量与业务协作方法

Info

Publication number: CN107995034B
Application number: CN201711236163.XA
Authority: CN
Inventors: 李保罡; 吕亚波; 赵伟; 刘涛
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2020-12-08
Anticipated expiration: 2037-11-30
Also published as: CN107995034A

Abstract

本发明实施例公开了一种密集蜂窝网络能量与业务协作方法，能够应用于在线的多基站的资源分配，首先利用匹配理论，实现用户和相应基站的分组。即利用匹配理论实现以用户为中心的分簇，以簇为单位从而减小基站群的规模，然后使用多代理强化学习算法实现基站功率的分配和基站间能量合作。

Description

一种密集蜂窝网络能量与业务协作方法

技术领域

本发明涉及无线通信领域，尤其涉及一种密集蜂窝网络能量与业务协作方法。

背景技术

超密集网络被认为是5G中最有前景的技术之一，小的蜂窝覆盖半径可以实现较小的干扰，高的频谱重用，高的数据速率，与此同时，大量的蜂窝基站也带来了前所未有的能量开销，针对基站节能问题的研究已成为近些年的研究热点。

目前，现有技术中只是针对基于能量捕获的单蜂窝和两个蜂窝下的资源分配，而对于密集网络场景下的多基站能量合作情况的研究较少，如何进行密集蜂窝网络能量与业务的协作是本领域技术人员亟待解决的技术问题。

发明内容

为解决上述技术问题，本发明实施例提供了一种密集蜂窝网络能量与业务协作方法。

本发明实施例提供了如下技术方案：

一种密集蜂窝网络能量与业务协作方法，所述方法包括：

根据效用函数，生成关于用户终端和基站的偏好列表；

根据偏好列表，利用多对多匹配算法，得到用户基站簇；

在用户基站簇中，使用强化学习算法，得到基站功率分配和基站间能量的合作策略。

其中，所述根据效用函数，生成关于用户终端和基站的偏好列表，具体包括：定义效用函数

表示第n个基站在第k个信道上到终端m能发送的数据量,依据发送数据速率

和信道增益

生成基站和用户的偏好列表。

其中，所述在用户基站簇中，使用多代理强化学习算法，得到基站功率分配和基站间能量的合作策略，具体包括：

第一步，确定动作集，即代理输出的所有可能的行为值，从环境中抽取状态表示，作为代理对环境的观察；

第二步，每个代理观察当前环境的状态，进入探索阶段；

第三步，代理以最大化***平均和速率为目标，根据自己的观察进行理性的行为选择，其中，行为包括基站的发送功率和能量协作，本部分可用来决策的策略有两个，随机性的实验策略和确定性的基准策略；

第四步，所有基站都决策完成后，计算环境的奖励信息，每个代理更新其对应的状态行为值；

第五步，重复执行第三、四步，直至探索阶段结束，比较新学习到的策略和基准策略的优劣，将较优的策略作为本状态的输出策略。

与现有技术相比，上述技术方案具有以下优点：

本发明所述的方法，能够应用于在线的多基站的资源分配，首先利用匹配理论，实现用户和相应基站的分组。即利用匹配理论实现以用户为中心的分簇，优于与传统匹配算法的是，本发明中针对用户，信道，基站三者的匹配，将基站和其对应的信道用一个效用函数表示，使用一个匹配过程就可以实现上述三者的配对，从而避免了传统方法中的二级匹配，保证最优的前提下减小了计算的复杂度。在功率分配阶段，以簇为单位从而减小基站群的规模，然后使用在线的强化学习方法实现基站功率的分配和基站间能量的合作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的密集蜂窝网络能量与业务协作方法的流程示意图。

具体实施方式

正如背景技术部分所述，提供一种密集蜂窝网络能量与业务协作方法为本领域人员亟待解决的问题。

有鉴于此，本发明提出了一种密集蜂窝网络能量与业务协作方法，本发明的核心思想是：现有技术中在线的资源分配算法只是针对单蜂窝或者两个蜂窝。而针对密集蜂窝网络，当存在大量基站时，传统的强化学习的方法在多代理情况下并不保证收敛，另外当基站数量特别多时，如果直接利用已有的保证的收敛性的多代理强化学习的方法进行资源分配，其收敛速度也特别慢，需要相当长的学习时间。由于上述缺点的存在，直接利用传统的强化学习方法不适合密集网络中的资源分配，为了克服上述缺点，发明人创造性地提出，首先利用匹配理论，将基站、用户、资源块配对，实现用户和相应基站的分组。即利用匹配理论实现以用户为中心的分簇，以簇为单位从而减小基站群的规模，然后使用强化学习方法实现基站功率分配和基站间能量的合作。

也就是说，密集网络中海量的接入点使得功率分配和能量协作的全局优化面临着巨大的难度，为此，本发明专利提出了分布式的解决办法，通过分簇减少功率分配过程中所涉及到的基站数量，有效降低了强化学习算法的难度，保证了在算法有限的学习周期中收敛到最优策略。

参见图1，本发明实施例提供了一种密集蜂窝网络能量与业务协作方法，应用于密集蜂窝网络，所述方法包括：

步骤101：根据效用函数，生成关于用户终端和基站的偏好列表。

其中，根据效用函数，生成关于用户终端和基站的偏好列表，具体包括：

定义效用函数

和信道增益

生成基站和用户的偏好列表。

步骤102：根据偏好列表，利用多对多匹配算法，得到用户基站簇。

具体的，根据偏好列表，按照多对多匹配理论模型将用户终端和基站进行匹配，得到用户基站簇。

步骤103：在用户基站簇中，使用强化学习算法，得到基站功率分配和基站间能量的合作策略。

在用户基站簇中，多代理的出现造成环境的不稳定，使得算法无法收敛，为解决此问题，提出探索阶段的概念，将多代理的行为学习模型化为阶段博弈，允许代理在一个状态下进行有限次的探索，以不同的概率使用随机性的实验策略和确定性的基准策略产生行为，计算其累积奖励，探索阶段结束后，比较实验策略和基准策略，输出最终策略。

具体的，在用户基站簇中，获取簇内所有基站的电池电量、信道状态信息、能量捕获和数据包等信息，开始探索阶段步骤，簇内基站尝试进行功率分配，以概率p按实验策略进行决策，以概率1-p使用基准策略决策记录下所采取的动作和获得的奖励，每个代理根据获得的奖励更新自己的策略，并将此信息记录到本地的知识库中，重复探索阶段的步骤，直至探索阶段结束，比较学习到的策略和基准策略，输出最终的策略。

由上述实施例可知，本发明所述的方法，能够应用于在线的多基站的资源分配，首先利用匹配理论，实现用户和相应基站的分组。即利用匹配理论实现以用户为中心的分簇，以簇为单位从而减小基站群的规模，然后使用强化学习方法实现基站功率的分配和基站间能量的合作。

而且，本发明所的方法，将终端，基站，资源块三个变量的匹配过程简化，通过一次匹配过程实现上述三个量的配对。将资源块和基站进行统一的排列，以第i个基站的第k个信道为一个匹配量与终端匹配，终端的偏好列表为基站和信道的综合。而且，上述过程实现了基站的分簇，并且实现了分簇后的功率分配和能量协作，但是，由于业务量和能量捕获的不均匀，上述形成的簇模型在一段时间后将不再是最优的分簇模型，即需要重新启动匹配算法分簇，我们主要考虑基站的能量剩余情况，当簇中有基站的剩余电量不足以支撑本时隙内数据的发射时，便再次启动匹配算法形成新的簇。由于本发明中多代理算法是策略的学习，加之每个代理都是理性的，当簇内成员变化时，之前学习的策略同样适用，不需再次迭代式的学习。

其中，所述在用户基站簇中，使用强化学习算法，得出基站功率分配和基站间能量的合作的策略，具体包括：

第一步，确定动作集A，即代理输出的所有可能的行为值；从环境中抽取状态表示S，作为代理对环境的观察。

第二步，每个代理观察当前环境的状态s^t，进入探索阶段。

第三步，代理以最大化***平均和速率为目标，根据自己的观察进行理性的行为选择，其中，行为包括基站的发送功率和能量协作，本部分可用来决策的策略有两个，随机性的实验策略和确定性的基准策略。

第四步，所有基站都决策完成后，计算环境的奖励信息，每个代理更新其对应的状态行为值Q(s,a)。

第五步，重复执行第三、四步，直至探索阶段结束。比较新学习到的策略和基准策略的优劣，将较优的策略作为本状态的输出策略。

下面对上述方法中涉及到的关键步骤进行详见说明：

1.偏好列表的生成

匹配目的是实现用户，基站，资源块的配对，由于同一个资源块同一时间只能被一个基站和用户使用，所以在用户端将基站和资源块统一的进行排序，在匹配过程中避免了3个量的匹配，使算法更加简洁明了。考虑到终端频繁的切换接入点造成的不稳性，终端优先考虑接入能量多而且信道质量好的基站，综合两个因素，我们定义效用函数

表示第n个基站在第k个信道上到终端m能发送的数据量，

其中B_n为基站电池电量，

为第n个基站用于连接终端m的第k个信道的信道增益，

为基站的发射功率，σ²为加性高斯白噪声，

为其他基站对基站n的同频干扰，为第i个基站在第k个信道上的发射功率。

每个终端据此将基站和信道排序，生成终端对基站的偏好列表。基站对终端的偏好列表由基站到终端的信道增益决定。考虑到模型中有N个基站，每个基站有K个相互正交的子信道，M个用户，则偏好列表表示为

其中，SBS_i为基站和其信道展开后的排列，表示第i个基站信道的编号，UE_i为第i个用户。

2.匹配过程

由于每个基站有K个正交的子信道，因此可以同时服务K个终端，又考虑终端的多连接工作方式，假设每个用户最多可以连接L个不同子信道，故基站，终端，信道的匹配属于多对多匹配。具体过程如下。

1)当存在未匹配的终端时，任选一个终端，执行下面操作，

2)请求匹配：选中的终端m向基站n发送配对请求，请求中包含了要配对的第k个信道信息，且基站n对终端来说优先级是最高的，而且没有拒绝过终端m。

回应：如果基站m被请求的信道是空闲的，则接受请求，否则，基站把信道K上已经配对的终端i和当前请求配对的终端m比较，根据基站对终端的偏好列表，接受优先级高的终端配对请求，拒绝另一个终端并将其添加到未匹配的终端列表中。

3)直到未匹配的终端列表为空时停止，否则，返回1)。

4)匹配结束，返回配对的集合。

3.动作离散化和状态特征抽取

假设一个簇内有m个终端，则对应有m个信道为其服务，收集这m个信道所在基站的电池电量，能量捕获情况，要发送的数据包和信道增益信息，组成本簇内的状态信息，表示为

其中，

分别代表第i个基站的数据包大小，能量捕获，电池电量和信道增益信息。代理的动作定义为

其中

为发送功率，

为两基站合作的能量。为了简化动作集的选择，本发明专利采用有限的发送功率值和合作能量值，表示为

和

其中，δ_p,δ_E为步长分别表示最小的发送功率和合作能量单元。

4.值函数逼近

利用线性函数逼近动作值函数

即将

表示为有限个特征函数φ_i,m(s^t,a),m＝1,...,M和权重向量θ_i的乘积和的形式

其中，Φ(s^t,a)＝(φ_i,1(s^t,a),...,φ_i,n(s^t,a))是状态动作对的特征函数集，φ_i,l(s^t,a)为特征函数，θ为权重向量，本发明专利中特征函数采用平铺编码(tilingcode)。当特征函数确定后，对动作值函数

的更新转化为对权重向量的调整，采用最小均方误差为权值调整的目标，权值的调整目的是最小化Q_i(s,a)和

的差值，其更新过程为

5.***平均和速率

考虑到密集网络场景下，每个蜂窝具有不均匀的能量捕获和有限存储容量的蓄电池的特点，在相邻两个时隙中基站电池电量的变化表示为

其中，

为t时隙基站发送数据消耗的能量，

为t时隙基站n共享给基站i的能量，η为能量传输效率。显然，基站当前使用的能量不能超过电池中存储的电量。

考虑到能量捕获的因果性，即当前时隙捕获的能量只能在下一个及以后的时隙中使用，因此，发送数据所需要的能量应满足

下行链路中信噪比为

计算出第t个时隙基站n通过第k个信道像终端m发送数据的速率为

则***内所有的基站的速率为

本发明专利的目的是最大化有限时间里的***平均和速率

s.t.(3)(4)(5)

6.功率分配算法

本部分详细介绍簇内多基站的功率分配算法。本算法以马尔科夫博弈为理论模型，利用多代理强化学习来完成基站在下行信道上的功率分配和基站间的能量合作，实现在能量受限情况下最大化***吞吐量的目的。

传统的多代理强化学习算法存在无法收敛的问题，分析其原因在于多个学习主体同时存在导致了非稳定的外部环境，学习主体在动态的环境中无法学习到一个稳定的决策策略。针对这一问题，本发明提出了在每一个状态下进行多次探索的方法，将此过程建模为阶段博弈，在此阶段，代理可以使用基准策略决策，并以一个小的概率使用随机性的实验策略探索新的策略，多个学习主体在稳定的环境下学习最优策略响应，经过有限次的探索后，比较学习到的新的策略和原来的基准策略，选取较优的策略输出作为当前状态的最优策略。具体流程如下。

1)设置参数：第i个代理的实验概率p_i，学习率α，惯性值λ_i。

2)初始化第i个代理的策略π_i，该策略为代理i针对其他代理策略的最佳响应。

3)感测到环境的状态s，开始探索阶段。

4)以1-p_i的概率使用初始策略(基准策略)决策，以p_i概率使用随机策略进行探索，表示为

5)代理接收到环境的奖励信息r_i(s^t,a₁,...,a_i,...,a_m)，观察下一状态s^t+1。

6)根据下面的公式更新值函数

对于所有的

7)对于所有的状态，最优反应集

如果探索阶段的策略属于最优反应集，则下一探索阶段的策略为

否则，下一探索阶段的策略为

由上述内容可知，本发明提出针对密集网络场景下，在基站可用能量受限时，基站，终端，资源块的分簇和在线的功率分配以及基站能量合作的方法。

本发明针对密集网络大量基站的管理问题，利用分布式的匹配算法实现了以用户为中心的分簇，以簇为单位从而减小基站群的规模，进而简化功率分配的复杂度。

本发明中一个终端同时可以连接多个基站，一个基站可服务多个终端，故匹配后簇之间有重叠，从用户角度看，服务同一个终端的基站为一个簇，簇内的基站间能量合作通过直接传输电能实现，从基站的角度来看，每个基站连接多个用户相当于处在多个簇中，簇间的能量合作可以通过基站调节不同终端的发射功率实现。从整个***的角度看，上述两个过程可以调节能量在基站间的流动，实现基站功能的平衡。

本发明将终端，基站，资源块三个变量的匹配过程简化，通过一次匹配过程实现上述三个量的配对。将资源块和基站进行统一的排列，以第i个基站的第k个信道为一个匹配量与终端匹配，终端的偏好列表为基站和信道的综合。

本发明在多代理强化学习算法中，引入探索阶段的概念，在探索阶段代理使用固定策略π，以一个小的概率进行试验以探索其他的策略，由此创造出一个稳定的环境供代理学习最佳的全局决策策略，保证了算法的收敛性。

本发明考虑到模型中基站的数据速率受本地能量的限制，在生成偏好列表时，本发明专利将基站电池现有的电量B作为一个影响因素，联合信道增益g，定义效用函数为基站在每条信道上能发送数据量的估计值

本发明考虑基站间能量传递的效率，同一簇内基站可通过传递能量或是调整对同一终端的发射功率两种方式实现合作，本发明专利中在线的强化学习算法实现了两者的均衡。

本发明基站的状态信息s为连续量，为此，引入线性值函数逼近法，用线性函数逼近来存储和预测每个状态的Q值，结合tiling coding算法，实现了对模型中连续状态空间的处理。

而且，传统的匹配算法针对三个量的匹配的解决方法是使用二级匹配，即先让其中两个量匹配，再让其中一个中间量与第三个量匹配，过程较本发明复杂。

本发明专利中针对超密集网络提出了一种在能量受限情况下，基站通过采用适当的发射功率和能量协作策略来最大化***长期平均和速率的目的。本发明中首先对利用匹配算法对大规模的基站进行分簇，和现有文献中的方法不同，本发明将基站和其资源块作为一个匹配量，生成一个偏好列表，利用多对多匹配算法实现基站，用户和资源块进行匹配。用户作为匹配过程的发起者，更多的考虑到了用户的满意度，实际上形成了以用户为中心的重叠簇模型。相比于传统的二级匹配，和三个量的匹配，本发明专利中方法简化了匹配过程，使之更加简洁易懂。针对匹配后重叠簇，本发明提出了在线的多代理强化学习算法进行功率分配。对于多个学习主体的出现造成动态的环境使得代理无法收敛以问题，提出了在每一个状态下多次探索的方法，此过程建模为阶段博弈，在此阶段，代理可以使用基准策略决策，并以一个小的概率使用随机性的实验策略探索新的策略，多个学习主体在稳定的环境下学习最优策略响应，经过有限次的探索后，比较学习到的新的策略和原来的基准策略，选取较优的策略输出作为当前状态的最优策略。本发明中的多代理算法保证了收敛性，同时由于基站规模的减小，代理观察的环境变得简单，算法可以更快的收敛到最优的策略。

现有技术中，从环境中捕获的可再生能源(例如太阳能，风能等)是不均匀的，具有波定性和间断性，针对这样的电源供能的下基站的最大化吞吐量的问题提出了理论框架和具体实现的方法。

本发明提出的基站能量捕获和多个基站能量合作的方法在保证服务质量的前提下有助于节能减排，减少运营商经营成本，实现更高的经济效益。

本发明专利实现了基站的分布式自维持运行，单个基站通过能量捕获获得电能，通过有限容量的蓄电池蓄能减小捕获能量的波定性，同时，基站间的能量合作实现了大规模基站能源的组网共享，进一步提高基站运行的稳定性。

本说明书中各个部分采用递进的方式描述，每个部分重点说明的都是与其他部分的不同之处，各个部分之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。