CN113596138B - 一种基于深度强化学习的异构信息中心网络缓存分配方法 - Google Patents

一种基于深度强化学习的异构信息中心网络缓存分配方法 Download PDF

Info

Publication number
CN113596138B
CN113596138B CN202110843043.6A CN202110843043A CN113596138B CN 113596138 B CN113596138 B CN 113596138B CN 202110843043 A CN202110843043 A CN 202110843043A CN 113596138 B CN113596138 B CN 113596138B
Authority
CN
China
Prior art keywords
content
network
heterogeneous
cache
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110843043.6A
Other languages
English (en)
Other versions
CN113596138A (zh
Inventor
马连博
周萍
王兴伟
黄敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202110843043.6A priority Critical patent/CN113596138B/zh
Publication of CN113596138A publication Critical patent/CN113596138A/zh
Application granted granted Critical
Publication of CN113596138B publication Critical patent/CN113596138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度强化学习的异构信息中心网络缓存分配方法,涉及网络缓存空间分配技术领域。具体为:将异构ICN抽象为拓扑模型;对异构ICN中动态变化的内容请求进行定义;将异构ICN的缓存空间分配问题转换为网络性能优化问题,构建网络性能优化模型,包括优化目标函数和相应的约束;对每一次内容请求应用Q学习算法,获得每个时刻的内容请求对应的网络性能最优的缓存分配方案:步将深度神经网络与Q学习算法进行接合,利用Q学习算法求解的每个时刻的内容请求对应的网络性能最优的缓存分配方案,训练出适应异构ICN动态变化的内容请求的最优缓存分配方案。可以自适应地求解出网络性能最优的缓存分配方案,更能适应动态变化的网络请求。

Description

一种基于深度强化学习的异构信息中心网络缓存分配方法
技术领域
本发明涉及异构信息中心网络技术领域,主要涉及一种基于深度强化学习的异构信息中心网络缓存分配方法。
背景技术
随着互联网技术的发展,网络用户越来越多,对网络内容的请求也越来越多。信息中心网络(Information Centric Network,ICN)是一种新型的网络架构,它将服务器提供的内容缓存在路由器上以服务于用户。与传统的网络架构相比,ICN的突出优势在于网络缓存,每个路由器都可以存储内容。由于ICN中的内容路由器(Content Router)缓存了来自服务器的不同内容,用户请求的内容由存储了请求内容的路由器响应,这避免了从客户端到服务器的长距离传输开销,大大提高了响应速度。针对ICN中的网络缓存,缓存分配(将缓存容量分配给每个内容路由器)是缓存内容的基础。在异构ICN中,每个内容路由器可以被分配不同大小的缓存容量,与同构ICN相比,缓存分配变得更加复杂。另外,由于为内容路由器配置缓存空间的花费是昂贵的,而且会消耗能量,如果对内容路由器分配的缓存空间过大,则会造成不必要的浪费;而如果分配的缓存空间过小,不能满足缓存用户的请求需要,则会影响用户体验和网络性能。因此,为每个内容路由器分配适当的缓存空间对于优化异构ICN网络性能具有重要意义。
对于异构ICN的缓存分配,主要需要考虑两个方面:一是路由器在网络拓扑中的中心性,中心性越高表示该节点在拓扑结构中的重要程度越高,需要分配越大的缓存容量;二是节点的请求频率,请求越频繁的节点需要分配越多的缓存空间。目前已有的异构ICN的缓存分配方法整体分为两种:一种是基于节点在网络拓扑中的重要性进行缓存分配;另一种是将缓存分配问题转换为网络性能优化问题,通过求解使网络性能最优的最优解获得最优缓存分配方案。但是,这些方法都是针对静态网络进行的,而现实中网络请求是动态变化的,已有的方法不能满足网络请求的动态性要求。
发明内容
为了解决上述问题,本发明提供一种基于深度强化学习的异构信息中心网络缓存分配方法,旨在针对网络请求的动态性,为每个路由节点分配合适的缓存空间。
本发明的技术方案是:
一种基于深度强化学习的异构信息中心网络缓存分配方法,包括以下步骤:
步骤1:将异构ICN抽象为拓扑模型;
步骤2:对异构ICN中动态变化的内容请求进行定义;
步骤3:将异构ICN的缓存空间分配问题转换为异构ICN的网络性能优化问题,构建网络性能优化模型,包括优化目标函数和相应的约束;
步骤4:对异构ICN中的每一次内容请求应用Q学习算法,获得每个时刻的内容请求对应的网络性能最优的缓存分配方案:
步骤5:将深度神经网络与Q学习算法进行接合,利用步骤4中利用Q学习算法求解的每个时刻的内容请求对应的网络性能最优的缓存分配方案,训练出适应异构ICN动态变化的内容请求的最优缓存分配方案。
进一步地,根据所述的基于深度强化学习的异构信息中心网络缓存分配方法,将带有n个内容路由器的异构ICN抽象为拓扑模型G(V,E,C,Long,Lati):
Figure BDA0003179578870000021
其中,V表示由所述n个内容路由器构成的内容路由器集合;E表示内容路由器之间边的集合;C表示各内容路由器被分配的缓存容量的集合;Long表示内容路由器在拓扑模型G中所在位置的经度;Lati表示内容路由器在拓扑模型G中所在位置的纬度;CRi表示第i个内容路由器;eij表示内容路由器CRi与第j个内容路由器CRj之间的路径;ci表示内容路由器CRi被分配的缓存容量;longi表示内容路由器CRi在拓扑模型G中所在位置的经度;latii表示内容路由器CRi在拓扑模型G中所在位置的纬度;CRi,eij又可以进一步表示如下:
Figure BDA0003179578870000022
其中,
Figure BDA0003179578870000023
表示被分配缓存容量ci的第i个内容路由器,
Figure BDA0003179578870000024
表示内容路由器
Figure BDA0003179578870000025
与被分配缓存容量cj的第j个内容路由器
Figure BDA0003179578870000026
之间的路径,Cmax表示内容路由器能够被分配的最大缓存容量。
进一步地,根据所述的基于深度强化学习的异构信息中心网络缓存分配方法,将内容请求的命中率和能耗作为异构ICN网络性能的评价指标,建立公式(12)所示的优化目标函数:
Figure BDA0003179578870000031
其中,NetPtotal为异构ICN的整体网络性能;
Figure BDA0003179578870000032
表示缓存成功命中CRi的次数,
Figure BDA0003179578870000033
表示CRi接收的全部请求数,
Figure BDA0003179578870000034
表示内容路由器CRi的请求命中率;
Figure BDA0003179578870000035
表示路由节点CRi的能耗;Pi为CRi缓存内容时路由器硬件的固定能耗;
Figure BDA0003179578870000036
为经过CRi传输单位字节内容对应的能耗;trai为经过CRi的数据流的大小;
Figure BDA0003179578870000037
表示内容请求节点CRj与服务节点CRi的距离;ω和μ分别为请求命中率和能耗对于内容路由器CRi缓存单位大小的内容对应的网络性能的权重值。
进一步地,根据所述的基于深度强化学习的异构信息中心网络缓存分配方法,其特征在于,所述约束包括式(13)所示的每个内容路由器的缓存空间约束和整体网络拓扑中的缓存空间约束:
Figure BDA0003179578870000038
其中,Cmax代表异构ICN中的内容路由器能够被分配的最大缓存容量;Ctotal代表异构ICN中所有内容路由器整体的最大缓存空间。
进一步地,根据所述的基于深度强化学习的异构信息中心网络缓存分配方法,对异构ICN中的每一次内容请求应用Q学习算法的方法为:将每一时刻的内容请求表示为Q学习的状态Status={s1,s2,…,st},其中st为t时刻的内容请求qt对应的Q学习的状态;将异构信息中心网络的拓扑模型G(V,E,C,Long,Lati)表示为Q学习的环境Environment={e1,e2,…,et},其中et为t时刻的内容请求qt对应的Q学习的环境;将对内容路由器的缓存分配方案表示为Q学习的动作Action={a1,a2,…,at},其中at为t时刻的内容请求qt对应的Q学习的动作;对于网络内容请求执行缓存分配方案会返回一个网络性能值,表示为Q学习的奖励值Reword={r1,r2,…,rt},其中rt为t时刻的内容请求qt对应的Q学习的奖励值;在Q学习过程中,每个状态选择对应的奖励值最大的动作执行,Q学习过程结束后,得到的Q学习的策略
Figure BDA0003179578870000041
会为每个输入的状态选择对应的奖励值最大的动作执行。
进一步地,根据所述的基于深度强化学习的异构信息中心网络缓存分配方法,所述深度神经网络是BP神经网络。
进一步地,根据所述的基于深度强化学习的异构信息中心网络缓存分配方法,所述步骤5包括如下具体步骤:
步骤5.1:随机初始化BP神经网络的权值θ;
步骤5.2:将T时间段内t时刻的Q学习的状态和动作(st,at)作为神经网络的输入值,相应地将通过Q学习算法得到的最大的奖励值R(st,at,θ)和对应的动作at作为深度神经网络的输出值youtput
步骤5.3:根据贝尔曼方程,计算BP神经网络的输出值的估计值;
步骤5.4:根据BP神经网络的输出值和输出值的估计值,计算对应的损失值;
步骤5.5:根据损失值,采用梯度下降法更新BP神经网络的权值;
步骤5.6:按照步骤5.2-5.5的方法,重复执行步骤5.2-5.5,迭代更新θ的过程,直到满足停止迭代的条件t=T,得到神经网络最终的权值θ,该权值θ作为适应T时间段的动态变化的内容请求的最优缓存分配方案。
与现有技术相比,本发明的基于深度强化学习的异构信息中心网络缓存分配方法具有如下有益效果:对异构信息中心网络建模后,分析了网络请求的动态性,与现有的异构信息中心网络的拓扑模型相比,动态的网络模型更符合实际情况。将深度学习和Q学习结合应用于动态的异构信息中心网络缓存分配问题,与现有的缓存分配方法相比,可以自适应地求解出网络性能最优的缓存分配方案,更能适应动态变化的网络请求。
附图说明
图1是信息中心网络架构示意图;
图2是本实施方式基于深度强化学习的异构信息中心网络缓存分配方法流程示意图;
图3是本实施方式的深度Q学习算法的结构示意图;
图4是本实施方式利用深度学习求解网络缓存分配方案的流程示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
本发明针对异构信息中心网络中节点的缓存空间分配问题提出了一种动态的缓存空间分配方案,具体是指为网络中节点提供缓存分配策略以适应网络的动态性。在针对缓存分配问题建模时,将网络请求命中率和能耗作为性能评价指标,并将命中率和能耗整合为综合性能评价缓存分配方案,将缓存分配问题建模为最大化网络性能的问题。为了获得每个内容请求的最优缓存分配,应用强化学习方法将缓存分配作为智能体选择的动作,获得针对每个请求的最优性能对应的缓存分配方案。为了适应网络请求的动态性,将已有的内容请求作为输入,强化学习获得的缓存分配方案作为输出,通过训练,以获得适应不同时刻动态请求的最优缓存分配方案。
图1是信息中心网络架构示意图,信息中心网络由节点及节点间的路径构成,其中,节点包括请求节点,路由节点和服务节点。其中,请求节点负责接收用户的内容请求,并将请求传递给路由节点;路由节点负责传递请求或内容,并可以缓存内容;服务节点中存储着内容,负责将请求内容返回给用户。路径间的节点负责传递请求或内容。当用户向请求节点发出内容请求时,请求节点将请求通过路径传递给路由节点,路由节点判断自己是否缓存请求内容,如果缓存了,则将内容返回给请求节点,若未缓存,则将请求根据转发信息库递给下一路由节点或服务节点;最终请求被传递到缓存了请求内容的路由节点或服务节点,该节点将内容按请求路径返回给请求节点,完成一次请求。一次请求完成的过程的效率与网络性能成正比,并且与每个路由节点的缓存空间及相应的缓存内容有关。通过恰当的缓存分配,将频繁请求的内容缓存到相应的频繁请求该内容的节点中,可以提高网络性能,提高内容请求的效率。本发明提出的基于深度强化学习的异构信息中心网络缓存分配方法,目的在于为每个路由节点分配合适的缓存空间。
图2是本发明提出的基于深度强化学习的异构信息中心网络缓存分配方法的流程示意图,所述基于深度强化学习的异构信息中心网络缓存分配方法包括以下步骤:
步骤1:将异构信息中心网络抽象为拓扑模型;
在本实施方式中,将带有n个内容路由器的异构信息中心网络抽象为拓扑模型G(V,E,C,Long,Lati),其中,V表示由所述n个内容路由器构成的内容路由器集合;E表示内容路由器之间边的集合;C表示各内容路由器被分配的缓存容量的集合;Long表示内容路由器在拓扑模型中所在位置的经度;Lati表示内容路由器在拓扑模型中所在位置的纬度;异构信息中心网络拓扑模型的各个组成部分具体表示为:
Figure BDA0003179578870000061
其中,CRi表示第i个内容路由器;eij表示内容路由器CRi与第j个内容路由器CRj之间的路径;ci表示内容路由器CRi被分配的缓存容量;longi表示内容路由器CRi在拓扑模型中所在位置的经度;latii表示内容路由器CRi在拓扑模型中所在位置的纬度。CRi,eij又可以进一步表示如下:
Figure BDA0003179578870000062
其中,
Figure BDA0003179578870000063
表示被分配缓存容量ci的第i个内容路由器,
Figure BDA0003179578870000064
表示内容路由器
Figure BDA0003179578870000065
与被分配缓存容量cj的第j个内容路由器
Figure BDA0003179578870000066
之间的路径,Cmax表示内容路由器能够被分配的最大缓存容量。
步骤2:在异构信息中心网络的拓扑模型的基础上,对动态变化的内容请求进行定义;
每个时刻的内容请求是动态变化的,定义T时段内的内容请求Qr为:
Qr={qt|1≤t≤T} (3)
其中,qt是指网络在t时刻发生的内容请求,包括:内容请求节点、内容请求节点在拓扑模型中所在位置的经纬度、请求内容、提供请求内容的内容服务器节点、以及请求时间。
为了详细表示不同时刻动态变化的网络请求,qt可进一步表示为:
Figure BDA0003179578870000067
其中,
Figure BDA0003179578870000068
分别表示qt中第k个内容请求的内容请求节点、请求内容、内容请求节点在网络拓扑模型中所在位置的经度、内容请求节点在网络拓扑模型中所在位置的纬度、提供请求内容的内容服务器节点及请求时间。
在静态的网络拓扑模型的基础上,增加网络请求的动态性分析,可以满足动态变化的网络请求对于不同缓存空间的需求。
步骤3:将缓存分配问题转换为网络性能优化问题,构建网络性能优化模型,包括优化目标函数和相应的约束;
在本实施方式中,将缓存分配问题转换为网络性能的优化问题,针对网络内容请求,将内容请求的命中率和能耗作为网络性能的评价指标。用Etotal、Htotal分别表示网络整体的能耗和命中率,用eci、hri分别表示每个内容路由器CRi的单位能耗和单位命中率,网络整体的能耗和命中率分别是每个路由器的能耗之和及命中率之和,具体表示如下:
Figure BDA0003179578870000071
其中,ci={0,1,2,...,Cmax},Cmax为每个路由器能被分配的最大缓存容量,ci=0表示CRi未被分配缓存,ci=1表示CRi被分配1个预设单位的缓存,ci=2表示CRi被分配2个预设单位的缓存;hri表示内容路由器CRi的请求命中率,如式(6)所示,由内容路由器CRi接收并成功命中的请求数与内容路由器CRi接收的所有请求数之比计算得到,其中所述内容路由器CRi接收并成功命中的请求数为实际中请求发生在内容路由器CRi且节点CRi缓存了该请求内容的请求数,所述内容路由器CRi接收的所有请求数为实际中请求发生在节点CRi上的请求数;eci表示路由节点CRi的能耗,按照公式(7)进行计算,包括缓存能耗和传输能耗两部分,反映了ICN内容缓存的开销大小。缓存能耗是指路由器缓存内容而消耗的能量,与路由器本身的缓存性能及缓存内容的大小有关,计算缓存能耗时,首先根据实际情况设定节点在单位时间内缓存单位大小内容的能耗值,再根据节点的缓存内容的大小及缓存的时间计算缓存能耗。传输能耗是指路由器传递请求而消耗的能量,与传输的内容大小有关,计算传输能耗时,首先根据实际情况设定节点传输单位大小内容的能耗值,再根据传输的内容的大小计算传输能耗;
Figure BDA0003179578870000072
其中,
Figure BDA0003179578870000073
表示缓存成功命中CRi的次数,
Figure BDA0003179578870000074
表示CRi接收的全部请求数。
Figure BDA0003179578870000075
其中,Pi为CRi缓存内容时路由器硬件的固定能耗;
Figure BDA0003179578870000076
为经过CRi传输单位字节内容对应的能耗,ti为CRi的运行时间,trai为经过CRi的数据流的大小。
运行时间包括节点处理缓存请求的时间和将请求内容返回请求节点的传输时间,假设处理时间忽略不计,CRj为内容请求节点,那么ti按照公式(8)进行计算。
Figure BDA0003179578870000081
其中,distancei,j表示内容请求节点CRj与服务节点CRi的距离,通过节点在异构信息中心网络拓扑模型中的位置进行计算,参照公式(9):
Figure BDA0003179578870000082
NetPi表示内容路由器CRi缓存单位大小的内容对应的网络性能,与命中率成正比,且与能耗成反比,NetPi计算参照公式(10):
NetPi=ωhri+μeci (10)
其中,ω和μ分别为命中率和能耗对于内容路由器CRi缓存单位大小的内容对应的网络性能的权重值。
在整个异构信息中心网络拓扑中,整体网络性能NetPtotal表示如下:
Figure BDA0003179578870000083
针对ICN节点的缓存空间分配问题,目标是找到一种缓存分配方案,使得对于动态的内容请求网络性能最优,即最大化整体网络性能,建立公式(12)所示的优化目标函数:
Figure BDA0003179578870000084
在最大化网络性能的同时,单个节点缓存空间以及全部网络缓存空间需要满足一定约束条件,如式(13)所示,包括每个内容路由器的缓存空间约束和整体网络拓扑中的缓存空间约束:
Figure BDA0003179578870000085
最终的网络性能优化模型,如公式(14)所示:
Figure BDA0003179578870000091
上式中,ci表示第i个内容路由器CRi被分配的缓存容量;Ctotal代表网络中所有内容路由器整体的最大缓存空间;
步骤4:将Q学习算法应用于异构信息中心网络缓存分配中,对网络的每一次内容请求应用Q学习算法,获得每个时刻的内容请求对应的网络性能最优的缓存分配方案:
由于网络结构在实际中不会随时间变化而改变,因此网络的动态性主要体现在网络请求的动态性,不同时刻网络会发生不同的内容请求,造成了网络的动态性,因此将Q学习应用于异构信息中心网络缓存分配时,将每一时刻的内容请求表示为Q学习的状态Status,对于不同时刻的内容请求,Q学习的状态具体表示为Status={s1,s2,…,st},其中st为t时刻的内容请求qt对应的Q学习的状态;将异构信息中心网络的拓扑模型G(V,E,C,Long,Lati)表示为Q学习的环境Environment;将对内容路由器的缓存分配方案表示为Q学习的动作Action,对于网络内容请求执行缓存分配方案会返回一个网络性能值,表示为Q学习的奖励值Reword。在Q学习过程中,每个状态选择对应的奖励值最大的动作执行。Q学习过程结束后,得到的Q学习的策略Policy会为每个输入的状态选择对应的奖励值最大的动作执行。
Q学习的动作是指对网络分配的不同缓存分配方案,具体指对每个路由节点分配一定的缓存空间,并满足对路由节点缓存空间大小的约束条件。在异构信息中心网络中,每个节点的缓存空间大小可以是不等的。在现实的网络中,节点数量往往是巨大的,每个节点的缓存空间又可以有很多选择,因此网络可选择的缓存分配方案有很多种,即Q学习有很多可选择的动作。对于不同时刻的网络内容请求qt,Q学习的动作具体表示为Action={a1,a2,…,at},其中at为t时刻的内容请求qt对应的Q学习的动作。
Q学习的环境由整体网络组成,可以通过动作与状态进行交互,并返回给状态相应的奖励值,来评价动作的好坏。对于不同时刻的网络内容请求,Q学习的环境具体表示为Environment={e1,e2,…,et},其中et为t时刻的内容请求qt对应的Q学习的环境。
Q学习的奖励值是指某一状态执行了一个动作与环境交互,环境返回给状态的值,由网络性能表示。对于不同的缓存分配方案,网络在处理请求时会有不同的性能,性能越高对应的缓存分配方案越好,即选择奖励值高的动作执行。通过网络性能计算得到奖励值,在已知的网络拓扑模型中,对于同一网络内容请求,不同的缓存分配方案会得到不同的网络性能,Q学习算法会选择最优的网络性能对应的缓存分配方案,即Q学习选择奖励值最大的动作。对于不同时刻的网络内容请求qt,Q学习的奖励值具体表示为Reword={r1,r2,…,rt},其中rt为t时刻的内容请求qt对应的Q学习的奖励值。
Q学习的策略指导某一状态选择某一动作。根据策略,可以确定对于某一网络内容请求的缓存分配方案。策略表示为
Figure BDA0003179578870000101
步骤5:将深度神经网络与Q学习进行接合应用到异构信息中心网络的缓存分配方案求解中,根据步骤4中利用Q学习求解的每个时刻的网络内容请求对应的网络性能最优的缓存分配方案,训练出适应网络动态变化的内容请求的最优缓存分配方案。
在深度神经网络部分,本实施方式中利用的是BP(back propagation)神经网络,包括前向传播和反向传播两个过程。前向传播过程用于构建神经网络结构,如图3所示,将Q学习的状态和动作视作神经网络的输入,奖励值视作神经网络的输出,策略视作神经网络的权值,神经网络可以训练出拟合不同时刻输入、输出的最优权值。反向传播过程用于调整神经网络结构,通过最小化每次训练的损失值优化权值,其中损失值与神经网络的输出值和神经网络的输出值的估计值有关。深度Q学习算法解决动态请求的信息中心网络缓存分配过程具体如下:
如图3所示,Q学习的状态和动作作为神经网络的输入。神经网络的输入层接收输入的数据,输入Q学习的状态和动作,表示为(Status,Action)。神经网络的输出层接收Q学习输出的网络的性能值,将Q学习的奖励值作为神经网络的输出。在状态st时,根据策略policy(st,at)执行动作at,得到对应的奖励值rt,表示为rt(st,at;policy(st,at))。神经网络的权值θ对应Q学习的策略Policy。
奖励值rt的计算参照公式(15):
Figure BDA0003179578870000102
如图4所示,所述步骤5包括如下具体步骤:
步骤5.1:随机初始化BP神经网络的权值θ;
步骤5.2:将T时间段内t时刻的Q学习的状态和动作(st,at)作为神经网络的输入值xinput,相应地将Q学习的最大的奖励值R(st,at,θ)和对应的动作at作为深度神经网络的输出值youtput
步骤5.3:根据贝尔曼方程,计算BP神经网络的输出值的估计值。
BP神经网络通过式(16)计算输出值的估计值
Figure BDA0003179578870000111
Figure BDA0003179578870000112
其中,α和γ分别为贝尔曼方程的学习率和折扣率,a为状态st+1对应的可选择的动作。
步骤5.4:根据BP神经网络的输出值和输出值的估计值,计算对应的损失值;
在BP神经网络反向传播过程中,BP神经网络根据损失值调整权值。损失值由神经网络的输出值和输出值的估计值计算得到。
损失值的计算参照公式(17):
Figure BDA0003179578870000113
其中,m为预设的输出层的神经元的数量。
步骤5.5:根据损失值,采用梯度下降法更新BP神经网络的权值。
为了使权值不断接近最优,权值应朝着损失值减小的方向进行更新。权值的更新方式参照公式(18),在反向传播过程中,采用梯度下降法根据损失值调整神经网络的权值,即根据loss(xinput,youtput,θ)更新权值θ,表示如下:
Figure BDA0003179578870000114
其中,η为梯度下降法的学习率。由于算法的目标是找到最小损失值对应的权值,因此η<0。
步骤5.6:重复上述步骤5.2-5.5,迭代更新θ的过程,直到满足停止迭代的条件即直到t=T,得到的θ即为最终神经网络的权值,得到最终的权值,即为适应T时间段动态请求的最优的缓存分配策略。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (4)

1.一种基于深度强化学习的异构信息中心网络缓存分配方法,其特征在于,该方法包括如下步骤:
步骤1:将异构ICN抽象为拓扑模型;
将带有n个内容路由器的异构ICN抽象为拓扑模型G(V,E,C,Long,Lati):
Figure FDA0003581647550000011
其中,V表示由所述n个内容路由器构成的内容路由器集合;E表示内容路由器之间边的集合;C表示各内容路由器被分配的缓存容量的集合;Long表示内容路由器在拓扑模型G中所在位置的经度;Lati表示内容路由器在拓扑模型G中所在位置的纬度;CRi表示第i个内容路由器;eij表示内容路由器CRi与第j个内容路由器CRj之间的路径;ci表示内容路由器CRi被分配的缓存容量;longi表示内容路由器CRi在拓扑模型G中所在位置的经度;latii表示内容路由器CRi在拓扑模型G中所在位置的纬度;CRi,eij又可以进一步表示如下:
Figure FDA0003581647550000012
其中,
Figure FDA0003581647550000013
表示被分配缓存容量ci的第i个内容路由器,
Figure FDA0003581647550000014
表示内容路由器
Figure FDA0003581647550000015
与被分配缓存容量cj的第j个内容路由器
Figure FDA0003581647550000016
之间的路径,Cmax表示内容路由器能够被分配的最大缓存容量;
步骤2:对异构ICN中动态变化的内容请求进行定义;
步骤3:将异构ICN的缓存空间分配问题转换为异构ICN的网络性能优化问题,构建网络性能优化模型,包括优化目标函数和相应的约束;
将内容请求的命中率和能耗作为异构ICN网络性能的评价指标,建立公式(12)所示的优化目标函数:
Figure FDA0003581647550000017
其中,NetPtotal为异构ICN的整体网络性能;
Figure FDA0003581647550000018
表示缓存成功命中CRi的次数,Ni res表示CRi接收的全部请求数,
Figure FDA0003581647550000021
表示内容路由器CRi的请求命中率;
Figure FDA0003581647550000022
表示路由节点CRi的能耗;Pi为CRi缓存内容时路由器硬件的固定能耗;
Figure FDA0003581647550000023
为经过CRi传输单位字节内容对应的能耗;trai为经过CRi的数据流的大小;
Figure FDA0003581647550000024
表示内容请求节点CRj与服务节点CRi的距离;ω和μ分别为请求命中率和能耗对于内容路由器CRi缓存单位大小的内容对应的网络性能的权重值;
所述约束包括式(13)所示的每个内容路由器的缓存空间约束和整体网络拓扑中的缓存空间约束:
Figure FDA0003581647550000025
其中,Cmax代表异构ICN中的内容路由器能够被分配的最大缓存容量;Ctotal代表异构ICN中所有内容路由器整体的最大缓存空间;
步骤4:对异构ICN中的每一次内容请求应用Q学习算法,获得每个时刻的内容请求对应的网络性能最优的缓存分配方案:
步骤5:将深度神经网络与Q学习算法进行接合,利用步骤4中利用Q学习算法求解的每个时刻的内容请求对应的网络性能最优的缓存分配方案,训练出适应异构ICN动态变化的内容请求的最优缓存分配方案。
2.根据权利要求1所述的基于深度强化学习的异构信息中心网络缓存分配方法,其特征在于,对异构ICN中的每一次内容请求应用Q学习算法的方法为:将每一时刻的内容请求表示为Q学习的状态Status={s1,s2,…,st},其中st为t时刻的内容请求qt对应的Q学习的状态;将异构信息中心网络的拓扑模型G(V,E,C,Long,Lati)表示为Q学习的环境Environment={e1,e2,…,et},其中et为t时刻的内容请求qt对应的Q学习的环境;将对内容路由器的缓存分配方案表示为Q学习的动作Action={a1,a2,…,at},其中at为t时刻的内容请求qt对应的Q学习的动作;对于网络内容请求执行缓存分配方案会返回一个网络性能值,表示为Q学习的奖励值Reword={r1,r2,…,rt},其中rt为t时刻的内容请求qt对应的Q学习的奖励值;在Q学习过程中,每个状态选择对应的奖励值最大的动作执行,Q学习过程结束后,得到的Q学习的策略
Figure FDA0003581647550000031
会为每个输入的状态选择对应的奖励值最大的动作执行。
3.根据权利要求2所述的基于深度强化学习的异构信息中心网络缓存分配方法,其特征在于,所述深度神经网络是BP神经网络。
4.根据权利要求3所述的基于深度强化学习的异构信息中心网络缓存分配方法,其特征在于,所述步骤5包括如下具体步骤:
步骤5.1:随机初始化BP神经网络的权值θ;
步骤5.2:将T时间段内t时刻的Q学习的状态和动作(st,at)作为神经网络的输入值,相应地将通过Q学习算法得到的最大的奖励值R(st,at,θ)和对应的动作at作为深度神经网络的输出值youtput
步骤5.3:根据贝尔曼方程,计算BP神经网络的输出值的估计值;
步骤5.4:根据BP神经网络的输出值和输出值的估计值,计算对应的损失值;
步骤5.5:根据损失值,采用梯度下降法更新BP神经网络的权值;
步骤5.6:按照步骤5.2-5.5的方法,重复执行步骤5.2-5.5,迭代更新θ的过程,直到满足停止迭代的条件t=T,得到神经网络最终的权值θ,该权值θ作为适应T时间段的动态变化的内容请求的最优缓存分配方案。
CN202110843043.6A 2021-07-26 2021-07-26 一种基于深度强化学习的异构信息中心网络缓存分配方法 Active CN113596138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110843043.6A CN113596138B (zh) 2021-07-26 2021-07-26 一种基于深度强化学习的异构信息中心网络缓存分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110843043.6A CN113596138B (zh) 2021-07-26 2021-07-26 一种基于深度强化学习的异构信息中心网络缓存分配方法

Publications (2)

Publication Number Publication Date
CN113596138A CN113596138A (zh) 2021-11-02
CN113596138B true CN113596138B (zh) 2022-06-21

Family

ID=78250075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110843043.6A Active CN113596138B (zh) 2021-07-26 2021-07-26 一种基于深度强化学习的异构信息中心网络缓存分配方法

Country Status (1)

Country Link
CN (1) CN113596138B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116996921B (zh) * 2023-09-27 2024-01-02 香港中文大学(深圳) 一种基于元强化学习的全网多业务联合优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108322352A (zh) * 2018-03-19 2018-07-24 北京工业大学 一种基于组间协作的蜂窝异构缓存方法
CN110138748A (zh) * 2019-04-23 2019-08-16 北京交通大学 一种网络融合通信方法、网关设备和***
CN111586439A (zh) * 2020-05-25 2020-08-25 河南科技大学 一种认知内容中心网络的视频绿色缓存方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3206348B1 (en) * 2016-02-15 2019-07-31 Tata Consultancy Services Limited Method and system for co-operative on-path and off-path caching policy for information centric networks
CN106131202B (zh) * 2016-07-20 2017-03-29 中南大学 面向信息中心网络中基于流体动力学理论的缓存放置决策评分方法
US11258879B2 (en) * 2017-06-19 2022-02-22 Northeastern University Joint routing and caching method for content delivery with optimality guarantees for arbitrary networks
CN110049039B (zh) * 2019-04-15 2021-09-10 哈尔滨工程大学 一种基于gbdt的信息中心网络缓存污染检测方法
CN111885648A (zh) * 2020-07-22 2020-11-03 北京工业大学 基于边缘缓存的能量有效的网络内容分发机制构建方法
CN112995950B (zh) * 2021-02-07 2022-03-29 华南理工大学 一种车联网中基于深度强化学习的资源联合分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108322352A (zh) * 2018-03-19 2018-07-24 北京工业大学 一种基于组间协作的蜂窝异构缓存方法
CN110138748A (zh) * 2019-04-23 2019-08-16 北京交通大学 一种网络融合通信方法、网关设备和***
CN111586439A (zh) * 2020-05-25 2020-08-25 河南科技大学 一种认知内容中心网络的视频绿色缓存方法

Also Published As

Publication number Publication date
CN113596138A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
Qi et al. Knowledge-driven service offloading decision for vehicular edge computing: A deep reinforcement learning approach
CN110365514B (zh) 基于强化学习的sdn多级虚拟网络映射方法和装置
He et al. Qoe-based task offloading with deep reinforcement learning in edge-enabled internet of vehicles
CN111400001B (zh) 一种面向边缘计算环境的在线计算任务卸载调度方法
CN113434212B (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN111556461A (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN111711666B (zh) 一种基于强化学习的车联网云计算资源优化方法
CN110247795B (zh) 一种基于意图的云网资源服务链编排方法及***
CN110601973A (zh) 一种路由规划方法、***、服务器及存储介质
CN113822456A (zh) 一种云雾混构环境下基于深度强化学习的服务组合优化部署方法
CN113411826B (zh) 一种基于注意力机制强化学习的边缘网络设备缓存方法
CN113596138B (zh) 一种基于深度强化学习的异构信息中心网络缓存分配方法
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
CN116566838A (zh) 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法
ABDULKAREEM et al. OPTIMIZATION OF LOAD BALANCING ALGORITHMS TO DEAL WITH DDOS ATTACKS USING WHALE‎ OPTIMIZATION ALGORITHM
CN115941790A (zh) 边缘协同内容缓存方法、装置、设备及存储介质
Chen et al. Joint caching and computing service placement for edge-enabled IoT based on deep reinforcement learning
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
Li et al. Optimal service selection and placement based on popularity and server load in multi-access edge computing
CN113543160B (zh) 5g切片资源配置方法、装置、计算设备及计算机存储介质
CN116684291A (zh) 一种适用通用化平台的服务功能链映射资源智能分配方法
CN116566891A (zh) 时延敏感的服务功能链并行路由优化方法、装置及介质
Bensalem et al. Towards optimal serverless function scaling in edge computing network
CN113766540B (zh) 低时延的网络内容传输方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant