CN113596138B

CN113596138B - 一种基于深度强化学习的异构信息中心网络缓存分配方法

Info

Publication number: CN113596138B
Application number: CN202110843043.6A
Authority: CN
Inventors: 马连博; 周萍; 王兴伟; 黄敏
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2022-06-21
Anticipated expiration: 2041-07-26
Also published as: CN113596138A

Abstract

本发明公开了一种基于深度强化学习的异构信息中心网络缓存分配方法，涉及网络缓存空间分配技术领域。具体为：将异构ICN抽象为拓扑模型；对异构ICN中动态变化的内容请求进行定义；将异构ICN的缓存空间分配问题转换为网络性能优化问题，构建网络性能优化模型，包括优化目标函数和相应的约束；对每一次内容请求应用Q学习算法，获得每个时刻的内容请求对应的网络性能最优的缓存分配方案：步将深度神经网络与Q学习算法进行接合，利用Q学习算法求解的每个时刻的内容请求对应的网络性能最优的缓存分配方案，训练出适应异构ICN动态变化的内容请求的最优缓存分配方案。可以自适应地求解出网络性能最优的缓存分配方案，更能适应动态变化的网络请求。

Description

一种基于深度强化学习的异构信息中心网络缓存分配方法

技术领域

本发明涉及异构信息中心网络技术领域，主要涉及一种基于深度强化学习的异构信息中心网络缓存分配方法。

背景技术

随着互联网技术的发展，网络用户越来越多，对网络内容的请求也越来越多。信息中心网络(Information Centric Network，ICN)是一种新型的网络架构，它将服务器提供的内容缓存在路由器上以服务于用户。与传统的网络架构相比，ICN的突出优势在于网络缓存，每个路由器都可以存储内容。由于ICN中的内容路由器(Content Router)缓存了来自服务器的不同内容，用户请求的内容由存储了请求内容的路由器响应，这避免了从客户端到服务器的长距离传输开销，大大提高了响应速度。针对ICN中的网络缓存，缓存分配(将缓存容量分配给每个内容路由器)是缓存内容的基础。在异构ICN中，每个内容路由器可以被分配不同大小的缓存容量，与同构ICN相比，缓存分配变得更加复杂。另外，由于为内容路由器配置缓存空间的花费是昂贵的，而且会消耗能量，如果对内容路由器分配的缓存空间过大，则会造成不必要的浪费；而如果分配的缓存空间过小，不能满足缓存用户的请求需要，则会影响用户体验和网络性能。因此，为每个内容路由器分配适当的缓存空间对于优化异构ICN网络性能具有重要意义。

对于异构ICN的缓存分配，主要需要考虑两个方面：一是路由器在网络拓扑中的中心性，中心性越高表示该节点在拓扑结构中的重要程度越高，需要分配越大的缓存容量；二是节点的请求频率，请求越频繁的节点需要分配越多的缓存空间。目前已有的异构ICN的缓存分配方法整体分为两种：一种是基于节点在网络拓扑中的重要性进行缓存分配；另一种是将缓存分配问题转换为网络性能优化问题，通过求解使网络性能最优的最优解获得最优缓存分配方案。但是，这些方法都是针对静态网络进行的，而现实中网络请求是动态变化的，已有的方法不能满足网络请求的动态性要求。

发明内容

为了解决上述问题，本发明提供一种基于深度强化学习的异构信息中心网络缓存分配方法，旨在针对网络请求的动态性，为每个路由节点分配合适的缓存空间。

本发明的技术方案是：

一种基于深度强化学习的异构信息中心网络缓存分配方法，包括以下步骤：

步骤1：将异构ICN抽象为拓扑模型；

步骤2：对异构ICN中动态变化的内容请求进行定义；

步骤3：将异构ICN的缓存空间分配问题转换为异构ICN的网络性能优化问题，构建网络性能优化模型，包括优化目标函数和相应的约束；

步骤4：对异构ICN中的每一次内容请求应用Q学习算法，获得每个时刻的内容请求对应的网络性能最优的缓存分配方案：

步骤5：将深度神经网络与Q学习算法进行接合，利用步骤4中利用Q学习算法求解的每个时刻的内容请求对应的网络性能最优的缓存分配方案，训练出适应异构ICN动态变化的内容请求的最优缓存分配方案。

进一步地，根据所述的基于深度强化学习的异构信息中心网络缓存分配方法，将带有n个内容路由器的异构ICN抽象为拓扑模型G(V，E，C，Long，Lati)：

其中，V表示由所述n个内容路由器构成的内容路由器集合；E表示内容路由器之间边的集合；C表示各内容路由器被分配的缓存容量的集合；Long表示内容路由器在拓扑模型G中所在位置的经度；Lati表示内容路由器在拓扑模型G中所在位置的纬度；CR_i表示第i个内容路由器；e_ij表示内容路由器CR_i与第j个内容路由器CR_j之间的路径；c_i表示内容路由器CR_i被分配的缓存容量；long_i表示内容路由器CR_i在拓扑模型G中所在位置的经度；lati_i表示内容路由器CR_i在拓扑模型G中所在位置的纬度；CR_i，e_ij又可以进一步表示如下：

其中，

表示被分配缓存容量c_i的第i个内容路由器，

表示内容路由器

与被分配缓存容量c_j的第j个内容路由器

之间的路径，C_max表示内容路由器能够被分配的最大缓存容量。

进一步地，根据所述的基于深度强化学习的异构信息中心网络缓存分配方法，将内容请求的命中率和能耗作为异构ICN网络性能的评价指标，建立公式(12)所示的优化目标函数：

其中，NetP_total为异构ICN的整体网络性能；

表示缓存成功命中CR_i的次数，

表示CR_i接收的全部请求数，

表示内容路由器CR_i的请求命中率；

表示路由节点CR_i的能耗；P_i为CR_i缓存内容时路由器硬件的固定能耗；

为经过CR_i传输单位字节内容对应的能耗；tra_i为经过CR_i的数据流的大小；

表示内容请求节点CR_j与服务节点CR_i的距离；ω和μ分别为请求命中率和能耗对于内容路由器CR_i缓存单位大小的内容对应的网络性能的权重值。

进一步地，根据所述的基于深度强化学习的异构信息中心网络缓存分配方法，其特征在于，所述约束包括式(13)所示的每个内容路由器的缓存空间约束和整体网络拓扑中的缓存空间约束：

其中，C_max代表异构ICN中的内容路由器能够被分配的最大缓存容量；C_total代表异构ICN中所有内容路由器整体的最大缓存空间。

进一步地，根据所述的基于深度强化学习的异构信息中心网络缓存分配方法，对异构ICN中的每一次内容请求应用Q学习算法的方法为：将每一时刻的内容请求表示为Q学习的状态Status＝{s₁,s₂,…,s_t}，其中s_t为t时刻的内容请求q_t对应的Q学习的状态；将异构信息中心网络的拓扑模型G(V，E，C，Long，Lati)表示为Q学习的环境Environment＝{e₁,e₂,…,e_t}，其中e_t为t时刻的内容请求q_t对应的Q学习的环境；将对内容路由器的缓存分配方案表示为Q学习的动作Action＝{a₁,a₂,…,a_t}，其中a_t为t时刻的内容请求q_t对应的Q学习的动作；对于网络内容请求执行缓存分配方案会返回一个网络性能值，表示为Q学习的奖励值Reword＝{r₁,r₂,…,r_t}，其中r_t为t时刻的内容请求q_t对应的Q学习的奖励值；在Q学习过程中，每个状态选择对应的奖励值最大的动作执行，Q学习过程结束后，得到的Q学习的策略

会为每个输入的状态选择对应的奖励值最大的动作执行。

进一步地，根据所述的基于深度强化学习的异构信息中心网络缓存分配方法，所述深度神经网络是BP神经网络。

进一步地，根据所述的基于深度强化学习的异构信息中心网络缓存分配方法，所述步骤5包括如下具体步骤：

步骤5.1：随机初始化BP神经网络的权值θ；

步骤5.2：将T时间段内t时刻的Q学习的状态和动作(s_t,a_t)作为神经网络的输入值，相应地将通过Q学习算法得到的最大的奖励值R(s_t,a_t,θ)和对应的动作a_t作为深度神经网络的输出值y_output；

步骤5.3：根据贝尔曼方程，计算BP神经网络的输出值的估计值；

步骤5.4：根据BP神经网络的输出值和输出值的估计值，计算对应的损失值；

步骤5.5：根据损失值，采用梯度下降法更新BP神经网络的权值；

步骤5.6：按照步骤5.2-5.5的方法，重复执行步骤5.2-5.5，迭代更新θ的过程，直到满足停止迭代的条件t＝T，得到神经网络最终的权值θ，该权值θ作为适应T时间段的动态变化的内容请求的最优缓存分配方案。

与现有技术相比，本发明的基于深度强化学习的异构信息中心网络缓存分配方法具有如下有益效果：对异构信息中心网络建模后，分析了网络请求的动态性，与现有的异构信息中心网络的拓扑模型相比，动态的网络模型更符合实际情况。将深度学习和Q学习结合应用于动态的异构信息中心网络缓存分配问题，与现有的缓存分配方法相比，可以自适应地求解出网络性能最优的缓存分配方案，更能适应动态变化的网络请求。

附图说明

图1是信息中心网络架构示意图；

图2是本实施方式基于深度强化学习的异构信息中心网络缓存分配方法流程示意图；

图3是本实施方式的深度Q学习算法的结构示意图；

图4是本实施方式利用深度学习求解网络缓存分配方案的流程示意图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。

本发明针对异构信息中心网络中节点的缓存空间分配问题提出了一种动态的缓存空间分配方案，具体是指为网络中节点提供缓存分配策略以适应网络的动态性。在针对缓存分配问题建模时，将网络请求命中率和能耗作为性能评价指标，并将命中率和能耗整合为综合性能评价缓存分配方案，将缓存分配问题建模为最大化网络性能的问题。为了获得每个内容请求的最优缓存分配，应用强化学习方法将缓存分配作为智能体选择的动作，获得针对每个请求的最优性能对应的缓存分配方案。为了适应网络请求的动态性，将已有的内容请求作为输入，强化学习获得的缓存分配方案作为输出，通过训练，以获得适应不同时刻动态请求的最优缓存分配方案。

图1是信息中心网络架构示意图，信息中心网络由节点及节点间的路径构成，其中，节点包括请求节点，路由节点和服务节点。其中，请求节点负责接收用户的内容请求，并将请求传递给路由节点；路由节点负责传递请求或内容，并可以缓存内容；服务节点中存储着内容，负责将请求内容返回给用户。路径间的节点负责传递请求或内容。当用户向请求节点发出内容请求时，请求节点将请求通过路径传递给路由节点，路由节点判断自己是否缓存请求内容，如果缓存了，则将内容返回给请求节点，若未缓存，则将请求根据转发信息库递给下一路由节点或服务节点；最终请求被传递到缓存了请求内容的路由节点或服务节点，该节点将内容按请求路径返回给请求节点，完成一次请求。一次请求完成的过程的效率与网络性能成正比，并且与每个路由节点的缓存空间及相应的缓存内容有关。通过恰当的缓存分配，将频繁请求的内容缓存到相应的频繁请求该内容的节点中，可以提高网络性能，提高内容请求的效率。本发明提出的基于深度强化学习的异构信息中心网络缓存分配方法，目的在于为每个路由节点分配合适的缓存空间。

图2是本发明提出的基于深度强化学习的异构信息中心网络缓存分配方法的流程示意图，所述基于深度强化学习的异构信息中心网络缓存分配方法包括以下步骤：

步骤1：将异构信息中心网络抽象为拓扑模型；

在本实施方式中，将带有n个内容路由器的异构信息中心网络抽象为拓扑模型G(V，E，C，Long，Lati)，其中，V表示由所述n个内容路由器构成的内容路由器集合；E表示内容路由器之间边的集合；C表示各内容路由器被分配的缓存容量的集合；Long表示内容路由器在拓扑模型中所在位置的经度；Lati表示内容路由器在拓扑模型中所在位置的纬度；异构信息中心网络拓扑模型的各个组成部分具体表示为：

其中，CR_i表示第i个内容路由器；e_ij表示内容路由器CR_i与第j个内容路由器CR_j之间的路径；c_i表示内容路由器CR_i被分配的缓存容量；long_i表示内容路由器CR_i在拓扑模型中所在位置的经度；lati_i表示内容路由器CR_i在拓扑模型中所在位置的纬度。CR_i，e_ij又可以进一步表示如下：

其中，

表示被分配缓存容量c_i的第i个内容路由器，

表示内容路由器

与被分配缓存容量c_j的第j个内容路由器

步骤2：在异构信息中心网络的拓扑模型的基础上，对动态变化的内容请求进行定义；

每个时刻的内容请求是动态变化的，定义T时段内的内容请求Qr为：

Qr＝{q_t|1≤t≤T} (3)

其中，q_t是指网络在t时刻发生的内容请求，包括：内容请求节点、内容请求节点在拓扑模型中所在位置的经纬度、请求内容、提供请求内容的内容服务器节点、以及请求时间。

为了详细表示不同时刻动态变化的网络请求，q_t可进一步表示为：

其中，

分别表示q_t中第k个内容请求的内容请求节点、请求内容、内容请求节点在网络拓扑模型中所在位置的经度、内容请求节点在网络拓扑模型中所在位置的纬度、提供请求内容的内容服务器节点及请求时间。

在静态的网络拓扑模型的基础上，增加网络请求的动态性分析，可以满足动态变化的网络请求对于不同缓存空间的需求。

步骤3：将缓存分配问题转换为网络性能优化问题，构建网络性能优化模型，包括优化目标函数和相应的约束；

在本实施方式中，将缓存分配问题转换为网络性能的优化问题，针对网络内容请求，将内容请求的命中率和能耗作为网络性能的评价指标。用E_total、H_total分别表示网络整体的能耗和命中率，用ec_i、hr_i分别表示每个内容路由器CR_i的单位能耗和单位命中率，网络整体的能耗和命中率分别是每个路由器的能耗之和及命中率之和，具体表示如下：

其中，c_i＝{0,1,2,...,C_max}，C_max为每个路由器能被分配的最大缓存容量，c_i＝0表示CR_i未被分配缓存，c_i＝1表示CR_i被分配1个预设单位的缓存，c_i＝2表示CR_i被分配2个预设单位的缓存；hr_i表示内容路由器CR_i的请求命中率，如式(6)所示，由内容路由器CR_i接收并成功命中的请求数与内容路由器CR_i接收的所有请求数之比计算得到，其中所述内容路由器CR_i接收并成功命中的请求数为实际中请求发生在内容路由器CR_i且节点CR_i缓存了该请求内容的请求数，所述内容路由器CR_i接收的所有请求数为实际中请求发生在节点CR_i上的请求数；ec_i表示路由节点CR_i的能耗，按照公式(7)进行计算，包括缓存能耗和传输能耗两部分，反映了ICN内容缓存的开销大小。缓存能耗是指路由器缓存内容而消耗的能量，与路由器本身的缓存性能及缓存内容的大小有关，计算缓存能耗时，首先根据实际情况设定节点在单位时间内缓存单位大小内容的能耗值，再根据节点的缓存内容的大小及缓存的时间计算缓存能耗。传输能耗是指路由器传递请求而消耗的能量，与传输的内容大小有关，计算传输能耗时，首先根据实际情况设定节点传输单位大小内容的能耗值，再根据传输的内容的大小计算传输能耗；

其中，

表示缓存成功命中CR_i的次数，

表示CR_i接收的全部请求数。

其中，P_i为CR_i缓存内容时路由器硬件的固定能耗；

为经过CR_i传输单位字节内容对应的能耗，t_i为CR_i的运行时间，tra_i为经过CR_i的数据流的大小。

运行时间包括节点处理缓存请求的时间和将请求内容返回请求节点的传输时间，假设处理时间忽略不计，CR_j为内容请求节点，那么t_i按照公式(8)进行计算。

其中，distance_i,j表示内容请求节点CR_j与服务节点CR_i的距离，通过节点在异构信息中心网络拓扑模型中的位置进行计算，参照公式(9)：

NetP_i表示内容路由器CR_i缓存单位大小的内容对应的网络性能，与命中率成正比，且与能耗成反比，NetP_i计算参照公式(10)：

NetP_i＝ωhr_i+μec_i (10)

其中，ω和μ分别为命中率和能耗对于内容路由器CR_i缓存单位大小的内容对应的网络性能的权重值。

在整个异构信息中心网络拓扑中，整体网络性能NetP_total表示如下：

针对ICN节点的缓存空间分配问题，目标是找到一种缓存分配方案，使得对于动态的内容请求网络性能最优，即最大化整体网络性能，建立公式(12)所示的优化目标函数：

在最大化网络性能的同时，单个节点缓存空间以及全部网络缓存空间需要满足一定约束条件，如式(13)所示，包括每个内容路由器的缓存空间约束和整体网络拓扑中的缓存空间约束：

最终的网络性能优化模型，如公式(14)所示：

上式中，c_i表示第i个内容路由器CR_i被分配的缓存容量；C_total代表网络中所有内容路由器整体的最大缓存空间；

步骤4：将Q学习算法应用于异构信息中心网络缓存分配中，对网络的每一次内容请求应用Q学习算法，获得每个时刻的内容请求对应的网络性能最优的缓存分配方案：

由于网络结构在实际中不会随时间变化而改变，因此网络的动态性主要体现在网络请求的动态性，不同时刻网络会发生不同的内容请求，造成了网络的动态性，因此将Q学习应用于异构信息中心网络缓存分配时，将每一时刻的内容请求表示为Q学习的状态Status，对于不同时刻的内容请求，Q学习的状态具体表示为Status＝{s₁,s₂,…,s_t}，其中s_t为t时刻的内容请求q_t对应的Q学习的状态；将异构信息中心网络的拓扑模型G(V，E，C，Long，Lati)表示为Q学习的环境Environment；将对内容路由器的缓存分配方案表示为Q学习的动作Action，对于网络内容请求执行缓存分配方案会返回一个网络性能值，表示为Q学习的奖励值Reword。在Q学习过程中，每个状态选择对应的奖励值最大的动作执行。Q学习过程结束后，得到的Q学习的策略Policy会为每个输入的状态选择对应的奖励值最大的动作执行。

Q学习的动作是指对网络分配的不同缓存分配方案，具体指对每个路由节点分配一定的缓存空间，并满足对路由节点缓存空间大小的约束条件。在异构信息中心网络中，每个节点的缓存空间大小可以是不等的。在现实的网络中，节点数量往往是巨大的，每个节点的缓存空间又可以有很多选择，因此网络可选择的缓存分配方案有很多种，即Q学习有很多可选择的动作。对于不同时刻的网络内容请求q_t，Q学习的动作具体表示为Action＝{a₁,a₂,…,a_t}，其中a_t为t时刻的内容请求q_t对应的Q学习的动作。

Q学习的环境由整体网络组成，可以通过动作与状态进行交互，并返回给状态相应的奖励值，来评价动作的好坏。对于不同时刻的网络内容请求，Q学习的环境具体表示为Environment＝{e₁,e₂,…,e_t}，其中e_t为t时刻的内容请求q_t对应的Q学习的环境。

Q学习的奖励值是指某一状态执行了一个动作与环境交互，环境返回给状态的值，由网络性能表示。对于不同的缓存分配方案，网络在处理请求时会有不同的性能，性能越高对应的缓存分配方案越好，即选择奖励值高的动作执行。通过网络性能计算得到奖励值，在已知的网络拓扑模型中，对于同一网络内容请求，不同的缓存分配方案会得到不同的网络性能，Q学习算法会选择最优的网络性能对应的缓存分配方案，即Q学习选择奖励值最大的动作。对于不同时刻的网络内容请求q_t，Q学习的奖励值具体表示为Reword＝{r₁,r₂,…,r_t}，其中r_t为t时刻的内容请求q_t对应的Q学习的奖励值。

Q学习的策略指导某一状态选择某一动作。根据策略，可以确定对于某一网络内容请求的缓存分配方案。策略表示为

步骤5：将深度神经网络与Q学习进行接合应用到异构信息中心网络的缓存分配方案求解中，根据步骤4中利用Q学习求解的每个时刻的网络内容请求对应的网络性能最优的缓存分配方案，训练出适应网络动态变化的内容请求的最优缓存分配方案。

在深度神经网络部分，本实施方式中利用的是BP(back propagation)神经网络，包括前向传播和反向传播两个过程。前向传播过程用于构建神经网络结构，如图3所示，将Q学习的状态和动作视作神经网络的输入，奖励值视作神经网络的输出，策略视作神经网络的权值，神经网络可以训练出拟合不同时刻输入、输出的最优权值。反向传播过程用于调整神经网络结构，通过最小化每次训练的损失值优化权值，其中损失值与神经网络的输出值和神经网络的输出值的估计值有关。深度Q学习算法解决动态请求的信息中心网络缓存分配过程具体如下：

如图3所示，Q学习的状态和动作作为神经网络的输入。神经网络的输入层接收输入的数据，输入Q学习的状态和动作，表示为(Status,Action)。神经网络的输出层接收Q学习输出的网络的性能值，将Q学习的奖励值作为神经网络的输出。在状态s_t时，根据策略policy(s_t,a_t)执行动作a_t，得到对应的奖励值r_t，表示为r_t(s_t,a_t；policy(s_t,a_t))。神经网络的权值θ对应Q学习的策略Policy。

奖励值r_t的计算参照公式(15)：

如图4所示，所述步骤5包括如下具体步骤：

步骤5.1：随机初始化BP神经网络的权值θ；

步骤5.2：将T时间段内t时刻的Q学习的状态和动作(s_t,a_t)作为神经网络的输入值x_input，相应地将Q学习的最大的奖励值R(s_t,a_t,θ)和对应的动作a_t作为深度神经网络的输出值y_output。

步骤5.3：根据贝尔曼方程，计算BP神经网络的输出值的估计值。

BP神经网络通过式(16)计算输出值的估计值

其中，α和γ分别为贝尔曼方程的学习率和折扣率，a为状态s_t+1对应的可选择的动作。

在BP神经网络反向传播过程中，BP神经网络根据损失值调整权值。损失值由神经网络的输出值和输出值的估计值计算得到。

损失值的计算参照公式(17)：

其中，m为预设的输出层的神经元的数量。

步骤5.5：根据损失值，采用梯度下降法更新BP神经网络的权值。

为了使权值不断接近最优，权值应朝着损失值减小的方向进行更新。权值的更新方式参照公式(18)，在反向传播过程中，采用梯度下降法根据损失值调整神经网络的权值，即根据loss(x_input,y_output,θ)更新权值θ，表示如下：

其中，η为梯度下降法的学习率。由于算法的目标是找到最小损失值对应的权值，因此η<0。

步骤5.6：重复上述步骤5.2-5.5，迭代更新θ的过程，直到满足停止迭代的条件即直到t＝T，得到的θ即为最终神经网络的权值，得到最终的权值，即为适应T时间段动态请求的最优的缓存分配策略。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于深度强化学习的异构信息中心网络缓存分配方法，其特征在于，该方法包括如下步骤：

步骤1：将异构ICN抽象为拓扑模型；

将带有n个内容路由器的异构ICN抽象为拓扑模型G(V，E，C，Long，Lati)：

其中，

表示被分配缓存容量c_i的第i个内容路由器，

表示内容路由器

与被分配缓存容量c_j的第j个内容路由器

之间的路径，C_max表示内容路由器能够被分配的最大缓存容量；

步骤2：对异构ICN中动态变化的内容请求进行定义；

将内容请求的命中率和能耗作为异构ICN网络性能的评价指标，建立公式(12)所示的优化目标函数：

其中，NetP_total为异构ICN的整体网络性能；

表示缓存成功命中CR_i的次数，N_i ^res表示CR_i接收的全部请求数，

表示内容路由器CR_i的请求命中率；

表示内容请求节点CR_j与服务节点CR_i的距离；ω和μ分别为请求命中率和能耗对于内容路由器CR_i缓存单位大小的内容对应的网络性能的权重值；

所述约束包括式(13)所示的每个内容路由器的缓存空间约束和整体网络拓扑中的缓存空间约束：

其中，C_max代表异构ICN中的内容路由器能够被分配的最大缓存容量；C_total代表异构ICN中所有内容路由器整体的最大缓存空间；

2.根据权利要求1所述的基于深度强化学习的异构信息中心网络缓存分配方法，其特征在于，对异构ICN中的每一次内容请求应用Q学习算法的方法为：将每一时刻的内容请求表示为Q学习的状态Status＝{s₁,s₂,…,s_t}，其中s_t为t时刻的内容请求q_t对应的Q学习的状态；将异构信息中心网络的拓扑模型G(V，E，C，Long，Lati)表示为Q学习的环境Environment＝{e₁,e₂,…,e_t}，其中e_t为t时刻的内容请求q_t对应的Q学习的环境；将对内容路由器的缓存分配方案表示为Q学习的动作Action＝{a₁,a₂,…,a_t}，其中a_t为t时刻的内容请求q_t对应的Q学习的动作；对于网络内容请求执行缓存分配方案会返回一个网络性能值，表示为Q学习的奖励值Reword＝{r₁,r₂,…,r_t}，其中r_t为t时刻的内容请求q_t对应的Q学习的奖励值；在Q学习过程中，每个状态选择对应的奖励值最大的动作执行，Q学习过程结束后，得到的Q学习的策略

会为每个输入的状态选择对应的奖励值最大的动作执行。

3.根据权利要求2所述的基于深度强化学习的异构信息中心网络缓存分配方法，其特征在于，所述深度神经网络是BP神经网络。

4.根据权利要求3所述的基于深度强化学习的异构信息中心网络缓存分配方法，其特征在于，所述步骤5包括如下具体步骤：

步骤5.1：随机初始化BP神经网络的权值θ；