CN116506918A - 一种基于缓存区预测的中继选择方法 - Google Patents
一种基于缓存区预测的中继选择方法 Download PDFInfo
- Publication number
- CN116506918A CN116506918A CN202310505985.2A CN202310505985A CN116506918A CN 116506918 A CN116506918 A CN 116506918A CN 202310505985 A CN202310505985 A CN 202310505985A CN 116506918 A CN116506918 A CN 116506918A
- Authority
- CN
- China
- Prior art keywords
- relay
- node
- buffer
- state
- data packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 12
- 230000006854 communication Effects 0.000 claims abstract description 29
- 238000004891 communication Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 24
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 16
- 230000005540 biological transmission Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 230000002787 reinforcement Effects 0.000 claims description 11
- 230000003139 buffering effect Effects 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims 1
- 210000004027 cell Anatomy 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000023402 cell communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/22—Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/04—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
- H04W40/08—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on transmission power
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/12—Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/20—Communication route or path selection, e.g. power-based or shortest path routing based on geographic position or location
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于缓存区预测的中继选择方法,包括:进行通信环境即缓冲辅助中继转发***的参数设置;构建LSTM‑DQN网络,确定状态空间、动作空间和奖励函数;智能体根据状态空间中初始状态在动作空间中选择动作,即对通信环境中中继节点的选择以及该中继节点的接收或者发送进行决策,得到下一个状态,不断重复上述过程,最终得到最大的奖励值,即链路容量最大。本发明建立了终端用户自身对缓冲区要求导致用于协作通信的可用缓冲区有限且变化的应用场景,当中继用户自身缓冲区需求较小时,中继能划出更多的缓冲区协助中继转发,并实现中继节点收发数据包的选择,与现有技术相比,用户的平均可用缓冲区提升,丢包率下降,提升***容量。
Description
技术领域
本发明涉及协作通信技术领域,尤其是一种基于缓存区预测的中继选择方法。
背景技术
传统蜂窝网络通过划分小区通信,加之通信过程中会发生大、小衰落,使得在小区边缘的用户的信号较差,而且相邻近的小区之间进行通信会产生干扰,用户的信号恶劣,对于基站来说,能耗也大大增加。对于上述问题,中继技术可以有效缓解,中继技术是指起始节点和目的节点中间设置一个或多个中继节点,这些中继节点可以接收信号并且经过一些处理发送信号,将信号的传输距离缩短,从而有效缓解通信过程的各种衰落问题和路径损耗,保证了通信质量,扩大了信号的通信范围,无线网络的整体性能也得到了改善,网络的吞吐量增加了,降低了***能量消耗。
协作通信提高了无线网络的吞吐量,扩大了信号的可通信范围。然而,在传统协作网络的半双工工作模式下,中继节点无法同时获得最优的接收和发送信道,在此前提下,最终的信号的质量得不到保证。此时,带有缓冲区的中继被提出,可以有效解决上述问题。与传统中继方案相比,带有缓冲区的中继协助通信方案在提高***吞吐量、降低***中断概率和信噪比等方面有者显著的表现。
移动终端指的是可以在移动中使用的计算机设备,在通信领域,绝大多数情况下指的是智能设备。但是终端作为中继时缓存有限,其用户也会有自身的缓存需求。而现在大多基于缓冲区的协作通信中继选择只考虑到了中继全心全意协作转发,也就是中继所有缓冲区协助通信。并未考虑到中继用户自身缓存需求。中继划分固定缓冲区协助转发,也就意味着中继用户用于自身的缓冲区也是固定的,当中继用户自身需求较大而中继的转发任务较小时,中继用户的需求得不到满足而用于转发的缓冲区存在空闲,中继用户的体验会变得很差,缓冲区的资源也变得浪费,所以考虑如何先满足用户的需求,再使缓冲区的使用效率提高是中继协作通信中需要解决的关键问题。
发明内容
为解决中继有限缓存固定划分的缺陷,本发明的目的在于提供一种综合考虑丢包率和终端用户自身对缓冲区需求,在无线网络中可以在满足用户的需求的前提下使缓冲区的使用效率提高的基于缓存区预测的中继选择方法。
为实现上述目的,本发明采用了以下技术方案:一种基于缓存区预测的中继选择方法,该方法包括下列顺序的步骤:
(1)进行通信环境即缓冲辅助中继转发***的参数设置:确定中继节点个数、中继节点的位置坐标、源节点的位置坐标、目的节点的位置坐标,总缓冲区的大小、信道系数、发送功率、噪声功率和目标数据速率;
(2)构建LSTM-DQN网络,确定状态空间、动作空间和奖励函数;
(3)智能体根据状态空间中初始状态在动作空间中选择动作,即对通信环境中中继节点的选择以及该中继节点的接收或者发送进行决策,得到下一个状态,不断重复上述过程,最终得到最大的奖励值,即链路容量最大。
所述步骤(1)具体是指:所述缓冲辅助中继转发***由一个源节点S、一个目的节点D和中继节点Rk组成,1≤k≤K,其中k为中继节点的个数,中继节点、源节点和目的节点位于100m×100m的区域内,所述中继节点由终端用户构成,假设所有节点各有一根天线,以半双工模式工作,源节点和目的节点之间没有直连链路,需要通过中继转发完成通信;假设时间被划分为等时长的时隙,在每个时隙中,源节点S以固定的功率P发送一个数据包,每个中继节点的缓存大小有限,总缓冲区的大小为L+1,包括中继用户自身的缓存需求和协助转发的缓存大小,L为用作协助转发的缓存区大小,设中继用户自身的缓存需求最少要占用一个数据包的大小,因此在每个时隙中,用作协助转发的缓存区大小最多为L;
假设每个用户的缓冲需求为Lu,此时用作协助转发的缓存大小即为L+1-Lu;用Lk表示中继节点Rk的缓冲区中存储的数据包数量,0≤Lk≤L,在每个时隙中,对于不同的Lk值,中继节点Rk的可用链路数也不同:
(1a)Lk=0:没有数据包发送,只有源节点-中继节点链路即S-R链路可用;
(1b)0<Lk<L+1-Lu:源节点-中继节点链路即S-R链路和中继节点-目的节点链路即R-D链路都可使用;
(1c)Lk=L+1-Lu:只有中继节点-目的节点链路即R-D链路可用,没有缓冲区用于存储新的数据包;
首先根据以往中继信道状态和终端中继用户历史缓存需求判断,如果该中继的缓冲区可以存储数据包,则选择该中继发送数据包;当第k个中继节点接收到源节点S发送的数据包时,对应缓冲区就被占用一个数据包的大小,当第k个中继节点向目的节点D成功发送数据包时,对应缓存区就减少一个数据包的大小;只有当中继节点在成功接收到数据包之后该中继才能向目的节点D发送数据包;假设源节点S一直有向目的节点D发送数据包的任务,信道系数服从瑞利分布,在一个时隙内信道系数保持不变,在不同时隙内独立变化,假设目的节点D最终接收到的信号受均值为零、方差为δ2的加性高斯白噪声影响;
在某个时隙,当选择的是源节点S到中继节点R链路时,从源节点向S相应的中继Rk发送单个数据包并存储在缓冲区中,在Rk处的接收信号为:
其中,xS是来自S的数据信号,是方差为δ2的加性高斯白噪声,P是发送功率,是源节点到中继节点的信道系数,/>是源节点到中继节点的距离,α是路径损耗指数;如果选择中继到目的链路,则从中继缓冲区中向目的发送一个数据包,并在目的处给出接收到的信号/>为:
其中,是来自Rk的数据信号,nD表示目的节点D处方差δ2的加性高斯白噪声,是中继节点到目的节点的信道系数,/>是中继节点到目的节点的距离;节点m与节点n之间的链路容量Cm,n为:
式中,hm,n为节点m到节点n的信道系数,dm,n为节点m到节点n的距离,δ2为加性高斯白噪声功率;
当Cm,n≤η时,对应的链路为中断,其中η为目标数据速率。
所述步骤(2)具体是指:在深度强化学习网络DQN中加入LSTM网络,构成LSTM-DQN网络,将L个连续时间步长的数据输入到LSTM网络,该网络由多个LSTM单元组成,LSTM包含三个门,分别为输入门、遗忘门和输出门;
LSTM-DQN网络的状态空间、动作空间和奖赏值分别为:
状态空间:在时间为t时,观测状态为其中Rt-1表示时间为t-1时的用户缓冲区使用情况,/>是源节点到中继节点的信道系数,/>是中继节点到目的节点的信道系数,状态空间定义为S=[ot+l-N,...,ot],其中,N表示要捕获的过去观测状态数;
动作空间:基于当前有限且变化的缓冲区辅助中继转发***状态st,需要对中继的选择和该中继的接收或者发送进行决策,环境为缓冲辅助中继选择网络,动作是选择一个链路进行数据传输,相当于确定mk,j,j∈{0,1},
其中,k代表中继节点的个数,0代表中继接收数据包,1代表中继发送数据包;如果一个中继网络有k个中继节点,则有2k个传输链路,在一个时隙内,选择一条链路进行传输,或不选择任何链路,因此,动作总数为2k+1;
奖励函数:奖赏和最优化目标函数相关,将吞吐量作为奖励函数。
所述步骤(3)具体包括以下步骤:
(3a)在深度强化学习网络DQN中,学习与决策者被称为智能体,与智能体交互的部分则称为环境,假设在时隙t,环境状态为st,根据当前状态,智能体决定下一步行动:即选择哪条链路或者不选择链路进行数据传输,采用ε-greedy策略确定状态st的动作,其中ε∈(0,1)是贪婪系数,n为训练迭代次数,ε最初设置为1以获得良好的探索效果,并随着迭代的次数逐渐减小;
(3b)一旦智能体选择了行动at,即选择某个中继节点且确定该中继节点接收还是发送,从而获得奖励值和下一状态,如果at导致S→R或R→D链路选择,则对应的缓存长度分别增加1或减少1,否则保持缓存长度不变;另一方面,信道状态从一个时隙到另一个时隙独立变化,然后根据新的缓存长度和信道状态将状态转换到st+1;
(3c)当前状态、执行的动作、执行动作后获得的奖赏值和下一刻的状态合成一个元组,即为(st,at,rt,st+1),存储在经验池里;
(3d)回到步骤(3a),用状态st+1重复该过程,并生成另一组元组,直至状态值达到终止状态,所获得的奖励值达到最大值。
由上述技术方案可知,本发明的有益效果为:第一,当中继用户自身缓冲区需求较小时,中继能划出更多的缓冲区协助中继转发,可以降低丢包率,当中继用户自身缓冲区需求较大时,中继能划出的协助中继转发缓冲区相当有限,强化学***均可用缓冲区提升,丢包率下降,提升***容量。
附图说明
图1为本发明的方法流程图;
图2为本发明中缓冲辅助中继转发***的示意图;
图3为LSTM网络的示意图;
图4为LSTM单元的结构示意图;
图5为LSTM-DQN网络的处理流程图;
图6为LSTM-DQN网络中主网络和目的网络的结构图。
具体实施方式
如图1所示,一种基于缓存区预测的中继选择方法,该方法包括下列顺序的步骤:
(1)进行通信环境即缓冲辅助中继转发***的参数设置:确定中继节点个数、中继节点的位置坐标、源节点的位置坐标、目的节点的位置坐标,总缓冲区的大小、信道系数、发送功率、噪声功率和目标数据速率;
(2)构建LSTM-DQN网络,确定状态空间、动作空间和奖励函数;
(3)智能体根据状态空间中初始状态在动作空间中选择动作,即对通信环境中中继节点的选择以及该中继节点的接收或者发送进行决策,得到下一个状态,不断重复上述过程,最终得到最大的奖励值,即链路容量最大。
所述步骤(1)具体是指:所述缓冲辅助中继转发***由一个源节点S、一个目的节点D和中继节点Rk组成,1≤k≤K,其中k为中继节点的个数,中继节点、源节点和目的节点位于100m×100m的区域内,所述中继节点由终端用户构成,假设所有节点各有一根天线,以半双工模式工作,源节点和目的节点之间没有直连链路,需要通过中继转发完成通信;假设时间被划分为等时长的时隙,在每个时隙中,源节点S以固定的功率P发送一个数据包,每个中继节点的缓存大小有限,总缓冲区的大小为L+1,包括中继用户自身的缓存需求和协助转发的缓存大小,L为用作协助转发的缓存区大小,设中继用户自身的缓存需求最少要占用一个数据包的大小,因此在每个时隙中,用作协助转发的缓存区大小最多为L;
假设每个用户的缓冲需求为Lu,此时用作协助转发的缓存大小即为L+1-Lu;用Lk表示中继节点Rk的缓冲区中存储的数据包数量,0≤Lk≤L,在每个时隙中,对于不同的Lk值,中继节点Rk的可用链路数也不同:
(1a)Lk=0:没有数据包发送,只有源节点-中继节点链路即S-R链路可用;
(1b)0<Lk<L+1-Lu:源节点-中继节点链路即S-R链路和中继节点-目的节点链路即R-D链路都可使用;
(1c)Lk=L+1-Lu:只有中继节点-目的节点链路即R-D链路可用,没有缓冲区用于存储新的数据包;
首先根据以往中继信道状态和终端中继用户历史缓存需求判断,如果该中继的缓冲区可以存储数据包,则选择该中继发送数据包;当第k个中继节点接收到源节点S发送的数据包时,对应缓冲区就被占用一个数据包的大小,当第k个中继节点向目的节点D成功发送数据包时,对应缓存区就减少一个数据包的大小;只有当中继节点在成功接收到数据包之后该中继才能向目的节点D发送数据包;假设源节点S一直有向目的节点D发送数据包的任务,信道系数服从瑞利分布,在一个时隙内信道系数保持不变,在不同时隙内独立变化,假设目的节点D最终接收到的信号受均值为零、方差为δ2的加性高斯白噪声影响;
在某个时隙,当选择的是源节点S到中继节点R链路时,从源节点向S相应的中继Rk发送单个数据包并存储在缓冲区中,在Rk处的接收信号为:
其中,xS是来自S的数据信号,是方差为δ2的加性高斯白噪声,P是发送功率,是源节点到中继节点的信道系数,/>是源节点到中继节点的距离,α是路径损耗指数;如果选择中继到目的链路,则从中继缓冲区中向目的发送一个数据包,并在目的处给出接收到的信号/>为:
其中,是来自Rk的数据信号,nD表示目的节点D处方差δ2的加性高斯白噪声,是中继节点到目的节点的信道系数,/>是中继节点到目的节点的距离;节点m与节点n之间的链路容量Cm,n为:
式中,hm,n为节点m到节点n的信道系数,am,n为节点m到节点n的距离,δ2为加性高斯白噪声功率;
当Cm,n≤η时,对应的链路为中断,其中η为目标数据速率。
所述步骤(2)具体是指:在深度强化学习网络DQN中加入LSTM网络,构成LSTM-DQN网络,将L个连续时间步长的数据输入到LSTM网络,该网络由多个LSTM单元组成,LSTM包含三个门,分别为输入门、遗忘门和输出门;
LSTM-DQN网络的状态空间、动作空间和奖赏值分别为:
状态空间:在时间为t时,观测状态为其中Rt-1表示时间为t-1时的用户缓冲区使用情况,/>是源节点到中继节点的信道系数,/>是中继节点到目的节点的信道系数,状态空间定义为S=[ot+l-N,...,ot],其中,N表示要捕获的过去观测状态数;
动作空间:基于当前有限且变化的缓冲区辅助中继转发***状态st,需要对中继的选择和该中继的接收或者发送进行决策,环境为缓冲辅助中继选择网络,动作是选择一个链路进行数据传输,相当于确定mk,j,j∈{0,1},
其中,k代表中继节点的个数,0代表中继接收数据包,1代表中继发送数据包;如果一个中继网络有k个中继节点,则有2k个传输链路,在一个时隙内,选择一条链路进行传输,或不选择任何链路,因此,动作总数为2k+1;
奖励函数:奖赏和最优化目标函数相关,将吞吐量作为奖励函数。
所述步骤(3)具体包括以下步骤:
(3a)在深度强化学习网络DQN中,学习与决策者被称为智能体,与智能体交互的部分则称为环境,假设在时隙t,环境状态为st,根据当前状态,智能体决定下一步行动:即选择哪条链路或者不选择链路进行数据传输,采用ε-greedy策略确定状态st的动作,其中ε∈(0,1)是贪婪系数,n为训练迭代次数,ε最初设置为1以获得良好的探索效果,并随着迭代的次数逐渐减小;
(3b)一旦智能体选择了行动at,即选择某个中继节点且确定该中继节点接收还是发送,从而获得奖励值和下一状态,如果at导致S→R或R→D链路选择,则对应的缓存长度分别增加1或减少1,否则保持缓存长度不变;另一方面,信道状态从一个时隙到另一个时隙独立变化,然后根据新的缓存长度和信道状态将状态转换到st+1;
(3c)当前状态、执行的动作、执行动作后获得的奖赏值和下一刻的状态合成一个元组,即为(st,at,rt,st+1),存储在经验池里;
(3d)回到步骤(3a),用状态st+1重复该过程,并生成另一组元组,直至状态值达到终止状态,所获得的奖励值达到最大值。
本发明提出的LSTM-DQN框架的关键思想是在保证中继用户在保证自身缓存需求等引起的部分状态观测下进行有效的中继转发。为了实现这一愿景,将LSTM网络加入DQN,不仅能够保持内部状态,还能够随着时间的推移聚合状态观测值,这使中继协助通信网络具有通过处理历史来推断将来状态的能力。具体来说,将L个连续时间步长的数据输入到LSTM网络,该网络由多个LSTM单元组成。一般来说,LSTM包含三个门,分别为输入门、遗忘门和输出门。LSTM能够从RNN中脱颖而出的关键就在于上图中从单元中贯穿而过的线——神经元的隐藏态(单元状态),可以将神经元的隐藏态简单的理解成递归神经网络对于输入数据的“记忆”,用ct表示神经元在t时刻过后的“记忆”,这个向量涵盖了在t+1时刻前神经网络对于所有输入信息的“概括总结”。遗忘门的任务是决定要保留和遗忘一个长期记忆ct-1的哪个部分。记忆门的作用是确定什么样的新信息被存放在单元状态。最终,根据单元状态,确定输出值。
如图2所示,所提的缓冲辅助中继转发***由一个源节点S、一个目的节点D和k个中继节点Rk组成,1≤k≤K。此处考虑的中继节点由终端用户构成,终端的缓存有限,还会有自身的缓存需求。
图3展示了展开的LSTM网络,具体来说,将L个连续时间步长的数据输入到LSTM网络,该网络由多个LSTM单元组成,如图4所示。
图5和图6显示了有限且变化缓冲区辅助转发的中继选择环境的LSTM-DQN框架。提出的LSTM-DQN框架的关键思想是在保证中继用户在保证自身缓存需求等引起的部分状态观测下进行有效的中继转发。
综上所述,当中继用户自身缓冲区需求较小时,中继能划出更多的缓冲区协助中继转发,可以降低丢包率,当中继用户自身缓冲区需求较大时,中继能划出的协助中继转发缓冲区相当有限,强化学***均可用缓冲区提升,丢包率下降,提升***容量。
Claims (4)
1.一种基于缓存区预测的中继选择方法,其特征在于:该方法包括下列顺序的步骤:
(1)进行通信环境即缓冲辅助中继转发***的参数设置:确定中继节点个数、中继节点的位置坐标、源节点的位置坐标、目的节点的位置坐标,总缓冲区的大小、信道系数、发送功率、噪声功率和目标数据速率;
(2)构建LSTM-DQN网络,确定状态空间、动作空间和奖励函数;
(3)智能体根据状态空间中初始状态在动作空间中选择动作,即对通信环境中中继节点的选择以及该中继节点的接收或者发送进行决策,得到下一个状态,不断重复上述过程,最终得到最大的奖励值,即链路容量最大。
2.根据权利要求1所述的基于缓存区预测的中继选择方法,其特征在于:所述步骤(1)具体是指:所述缓冲辅助中继转发***由一个源节点S、一个目的节点D和中继节点Rk组成,1≤k≤K,其中k为中继节点的个数,中继节点、源节点和目的节点位于100m×100m的区域内,所述中继节点由终端用户构成,假设所有节点各有一根天线,以半双工模式工作,源节点和目的节点之间没有直连链路,需要通过中继转发完成通信;假设时间被划分为等时长的时隙,在每个时隙中,源节点S以固定的功率P发送一个数据包,每个中继节点的缓存大小有限,总缓冲区的大小为L+1,包括中继用户自身的缓存需求和协助转发的缓存大小,L为用作协助转发的缓存区大小,设中继用户自身的缓存需求最少要占用一个数据包的大小,因此在每个时隙中,用作协助转发的缓存区大小最多为L;
假设每个用户的缓冲需求为Lu,此时用作协助转发的缓存大小即为L+1-Lu;用Lk表示中继节点Rk的缓冲区中存储的数据包数量,0≤Lk≤L,在每个时隙中,对于不同的Lk值,中继节点Rk的可用链路数也不同:
(1a)Lk=0:没有数据包发送,只有源节点-中继节点链路即S-R链路可用;
(1b)0<Lk<L+1-Lu:源节点-中继节点链路即S-R链路和中继节点-目的节点链路即R-D链路都可使用;
(1c)Lk=L+1-Lu:只有中继节点-目的节点链路即R-D链路可用,没有缓冲区用于存储新的数据包;
首先根据以往中继信道状态和终端中继用户历史缓存需求判断,如果该中继的缓冲区可以存储数据包,则选择该中继发送数据包;当第k个中继节点接收到源节点S发送的数据包时,对应缓冲区就被占用一个数据包的大小,当第k个中继节点向目的节点D成功发送数据包时,对应缓存区就减少一个数据包的大小;只有当中继节点在成功接收到数据包之后该中继才能向目的节点D发送数据包;假设源节点S一直有向目的节点D发送数据包的任务,信道系数服从瑞利分布,在一个时隙内信道系数保持不变,在不同时隙内独立变化,假设目的节点D最终接收到的信号受均值为零、方差为δ2的加性高斯白噪声影响;
在某个时隙,当选择的是源节点S到中继节点R链路时,从源节点向S相应的中继Rk发送单个数据包并存储在缓冲区中,在Rk处的接收信号yS,Rk为:
其中,xS是来自S的数据信号,是方差为δ2的加性高斯白噪声,P是发送功率,/>是源节点到中继节点的信道系数,/>是源节点到中继节点的距离,α是路径损耗指数;如果选择中继到目的链路,则从中继缓冲区中向目的发送一个数据包,并在目的处给出接收到的信号/>为:
其中,是来自Rk的数据信号,nD表示目的节点D处方差δ2的加性高斯白噪声,/>是中继节点到目的节点的信道系数,/>是中继节点到目的的节点的距离;节点m与节点n之间的链路容量Cm,n为:/>
式中,hm,n为节点m到节点n的信道系数,dm,n为节点m到节点n的距离,δ2为加性高斯白噪声功率;
当Cm,n≤η时,对应的链路为中断,其中η为目标数据速率。
3.根据权利要求1所述的基于缓存区预测的中继选择方法,其特征在于:所述步骤(2)具体是指:在深度强化学习网络DQN中加入LSTM网络,构成LSTM-DQN网络,将L个连续时间步长的数据输入到LSTM网络,该网络由多个LSTM单元组成,LSTM包含三个门,分别为输入门、遗忘门和输出门;
LSTM-DQN网络的状态空间、动作空间和奖赏值分别为:
状态空间:在时间为t时,观测状态为其中Rt-1表示时间为t-1时的用户缓冲区使用情况,/>是源节点到中继节点的信道系数,/>是中继节点到目的节点的信道系数,状态空间定义为S=[ot+l-N,...,ot],其中,N表示要捕获的过去观测状态数;
动作空间:基于当前有限且变化的缓冲区辅助中继转发***状态st,需要对中继的选择和该中继的接收或者发送进行决策,环境为缓冲辅助中继选择网络,动作是选择一个链路进行数据传输,相当于确定mk,j,j∈{0,1},其中,k代表中继节点的个数,0代表中继接收数据包,1代表中继发送数据包;如果一个中继网络有k个中继节点,则有2k个传输链路,在一个时隙内,选择一条链路进行传输,或不选择任何链路,因此,动作总数为2k+1;
奖励函数:奖赏和最优化目标函数相关,将吞吐量作为奖励函数。
4.根据权利要求1所述的基于缓存区预测的中继选择方法,其特征在于:所述步骤(3)具体包括以下步骤:
(3a)在深度强化学习网络DQN中,学习与决策者被称为智能体,与智能体交互的部分则称为环境,假设在时隙t,环境状态为st,根据当前状态,智能体决定下一步行动:即选择哪条链路或者不选择链路进行数据传输,采用ε-greedy策略确定状态st的动作,其中ε∈(0,1)是贪婪系数,n为训练迭代次数,ε最初设置为1以获得良好的探索效果,并随着迭代的次数逐渐减小;
(3b)一旦智能体选择了行动at,即选择某个中继节点且确定该中继节点接收还是发送,从而获得奖励值和下一状态,如果at导致S→R或R→D链路选择,则对应的缓存长度分别增加1或减少1,否则保持缓存长度不变;另一方面,信道状态从一个时隙到另一个时隙独立变化,然后根据新的缓存长度和信道状态将状态转换到st+1;
(3c)当前状态、执行的动作、执行动作后获得的奖赏值和下一刻的状态合成一个元组,即为(st,at,rt,st+1),存储在经验池里;
(3d)回到步骤(3a),用状态st+1重复该过程,并生成另一组元组,直至状态值达到终止状态,所获得的奖励值达到最大值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505985.2A CN116506918A (zh) | 2023-05-08 | 2023-05-08 | 一种基于缓存区预测的中继选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505985.2A CN116506918A (zh) | 2023-05-08 | 2023-05-08 | 一种基于缓存区预测的中继选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116506918A true CN116506918A (zh) | 2023-07-28 |
Family
ID=87321389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310505985.2A Pending CN116506918A (zh) | 2023-05-08 | 2023-05-08 | 一种基于缓存区预测的中继选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116506918A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117914378A (zh) * | 2023-12-12 | 2024-04-19 | 深圳市物联微电子有限公司 | 一种5g直放站信号处理方法及*** |
-
2023
- 2023-05-08 CN CN202310505985.2A patent/CN116506918A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117914378A (zh) * | 2023-12-12 | 2024-04-19 | 深圳市物联微电子有限公司 | 一种5g直放站信号处理方法及*** |
CN117914378B (zh) * | 2023-12-12 | 2024-06-18 | 深圳市物联微电子有限公司 | 一种5g直放站信号处理方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109862610B (zh) | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
Li et al. | Multi-agent deep reinforcement learning based spectrum allocation for D2D underlay communications | |
CN110769514B (zh) | 一种异构蜂窝网络d2d通信资源分配方法及*** | |
CN114867030B (zh) | 双时间尺度智能无线接入网切片方法 | |
CN113453358B (zh) | 一种无线携能d2d网络的联合资源分配方法 | |
CN116506918A (zh) | 一种基于缓存区预测的中继选择方法 | |
CN114205791A (zh) | 一种基于深度q学习的社交感知d2d协同缓存方法 | |
CN105636062A (zh) | 一种面向业务适度服务的认知无线网络传输学习方法 | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
CN110932969B (zh) | 一种智能电网高级量测***ami网络抗干扰攻击路由算法 | |
CN106686567A (zh) | 基于概率优化的定向自组织网络邻节点发现方法 | |
CN117042050A (zh) | 一种基于分布式混合异质决策的多用户智能数据卸载方法 | |
CN115412936A (zh) | 一种基于多智能体dqn的irs辅助d2d***资源分配方法 | |
Dai et al. | Multi-objective intelligent handover in satellite-terrestrial integrated networks | |
CN111741520B (zh) | 一种基于粒子群的认知水声通信***功率分配方法 | |
CN113453197B (zh) | 一种联合移动预测和动态功率的用户配对方法 | |
CN113595609A (zh) | 一种基于强化学习的蜂窝移动通信***协作式信号发送方法 | |
Chen et al. | Adaptive relay strategy selection based on Q-learning for power line and wireless dual-media communication with hybrid duplex | |
Ma et al. | Deep Reinforcement Learning-based Edge Caching and Multi-link Cooperative Communication in Internet-of-Vehicles | |
CN116614826B (zh) | 一种同时传输和反射表面网络的覆盖和容量优化方法 | |
Kaneko et al. | A greedy stable time via LEACH-based 2-hop trees in wireless sensor networks | |
CN113852972B (zh) | 一种基于波束共享的高速移动终端波束调度方法 | |
CN118102386B (zh) | D2d辅助mec网络中的服务缓存和任务卸载联合优化方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |