CN112752308B

CN112752308B - 一种基于深度强化学习的移动预测无线边缘缓存方法

Info

Publication number: CN112752308B
Application number: CN202011620501.1A
Authority: CN
Inventors: 吴长汶; 辛基梁; 郑建武
Original assignee: Xiamen Yueren Health Technology Research And Development Co ltd
Current assignee: Xiamen Yueren Health Technology Research And Development Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-08-05
Anticipated expiration: 2040-12-31
Also published as: CN112752308A

Abstract

本发明涉及一种基于深度强化学习的移动预测无线边缘缓存方法，包括以下步骤：构建无线智能缓存网络模型，包括用户集、服务节点集、用户请求内容集、缓存内容集、源内容库、用户历史轨迹向量和用户分类组；构建长短期记忆网络模型，根据用户历史轨迹向量作为预测用户在下一时隙的预测位置并进行分类，获取用户分类组；建立替换缓存策略，根据用户分类组，获取每一个服务节点的预测用户集，并根对当前服务节点的缓存内容进行替换；构建结合Q学习和DQN强化学习的神经网络，对神经网络进行训练，得到训练好的动态缓存替换模型，将动态缓存替换模型利用于替换缓存策略中。

Description

一种基于深度强化学习的移动预测无线边缘缓存方法

技术领域

本发明涉及一种基于深度强化学习的移动预测无线边缘缓存方法，属于无线通信和计算机技术领域。

背景技术

随着移动无线通信、数据需求的指数级增长以及设备存储和计算能力的不断提高，实时多媒体服务在5G通信网络中逐渐成为主要业务，人类生活与工作逐渐向移动互联网全面的迁徙，将各种网络功能推向网络的边缘，如边缘计算和边缘缓存。通过预存储用户请求的流行内容，边缘缓存旨在减少回程网络中的流量负载和重复传输，从而显著降低延迟，因此，准确预测用户的未来需求是边缘缓存替代的关键。为了捕捉内容流行度和时变无线环境的动态特性，策略控制框架被引入无线缓存领域。深度强化学习结合了深度神经网络和Q学习，在解决复杂控制问题方面表现出了优异的性能，在无线边缘缓存的研究中得到了越来越多的关注。

发明内容

为了解决上述现有技术中存在的问题，本发明提出了一种基于深度强化学习的移动预测无线边缘缓存方法，利用长短期记忆网络对移动用户的位置进行预测，可克服用户的移动性对缓存命中率的影响，同时利用结合Q学习和强化学习的神经网络框架进行服务节点的缓存替换策略，解决在无线网络中的缓存问题，从而提高了移动预测无线边缘缓存的能力。

本发明的技术方案如下：

一种基于深度强化学习的移动预测无线边缘缓存方法，包括以下步骤：

构建无线智能缓存网络模型，包括服务节点模型和服务节点控制模型，所述服务节点模型包括用户集、服务节点集、用户请求内容集、缓存内容集和源内容库；所述服务节点控制模型包括用户历史轨迹向量和用户分类组；

移动预测，构建长短期记忆网络模型，将所述用户历史轨迹向量作为输入，输出用户在下一时隙的预测位置；并根据用户集中每个用户在下一时隙的预测位置进行分类，获取所述用户分类组；

建立替换缓存策略，根据用户分类组，获取服务节点集中每一个服务节点在下一时隙的预测用户集，并根据所述预测用户集中用户的历史请求内容和当前服务节点的缓存内容从源内容库中获取替换内容对当前服务节点的缓存内容进行替换；

优化模型，构建结合Q学习的深度学习神经网络，以预测用户集、用户请求内容集和缓存内容集组成的状态空间中的样本状态作为输入，以替换内容组成的动作空间中的某一各动作作为输出，对神经网络进行训练，得到训练好的动态缓存替换模型，将动态缓存替换模型利用于替换缓存策略中。

进一步的，所述无线智能缓存网络模型以时间离散的方式运行，在每个时隙中，用户请求内容和用户历史轨迹均进行更新。

进一步的，所述用户历史轨迹向量为一个位置序列，表示一段时间内用户的移动轨迹，将每个用户的历史轨迹向量存入服务节点控制模型中；

将所述用户的历史轨迹向量输入所述构建长短期记忆网络模型中，并引入权重矩阵，输出各用户在下一时隙的预测位置。

进一步的，在对神经网络进行训练的过程中，基于缓存命中率构建奖励函数对神经网络进行训练，具体步骤为：

构建奖励函数，所述奖励函数通过输入的样本状态和输出的动作计算一瞬时奖赏值，并将所述瞬时奖赏值提供给神经网络；

构建缓存命中率计算公式，所述缓存命中率指的是一服务节点对应的用户集中的每个用户的请求内容能够在对应服务节点的缓存内容中找到的概率；

预设一阈值，该阈值∈(0,1)，根据输入的样本状态和输出的动作获取样本在下一时隙的状态，根据所述缓存命中率计算公式计算该样本在下一时隙的状态时的缓存命中率，并与阈值比较，当该样本在下一时隙的状态时的缓存命中率大于阈值时，获得正的瞬时奖赏值。

进一步的，所述神经网络中设置有经验回放机制，将输入的样本状态、输出的动作、瞬时奖赏值以及样本在下一时隙的状态合成一组合并存入一经验回放库中作为神经网络的训练样本。

进一步的，所述构建结合Q学习和DQN强化学习的神经网络的步骤具体为：

通过Q学习定义一通过经验回放库中的训练样本计算q值的动作价值函数；

DQN强化学习采用神经网络来预估q值，对于经验回放库中的每个训练样本，先通过样本状态和动作预估当前采取动作的q值，再通过样本在下一时隙的状态和动作预估下一状态采取动作的q值；

构造以下一状态采取动作的q值与当前采取动作的q值之间的差值为基准的损失函数，并利用梯度下降法迭代更新神经网络的权重参数，使神经网络达到收敛。

本发明具有如下有益效果：

1、本发明一种基于深度强化学习的移动预测无线边缘缓存方法，利用长短期记忆网络对移动用户的位置进行预测，可克服用户的移动性对缓存命中率的影响，同时利用结合Q学习和强化学习的神经网络框架进行服务节点的缓存替换策略，解决在无线网络中的缓存问题，从而提高了移动预测无线边缘缓存的能力。

2、本发明一种基于深度强化学习的移动预测无线边缘缓存方法，建立基于缓存命中率的奖励函数，当进行替换缓存内容后缓存命中率大于阈值时才给与正的瞬时奖赏值，提高神经网络输出结果的精准度。

3、本发明一种基于深度强化学习的移动预测无线边缘缓存方法，根据用户的预测位置获取每一个节点的预测用户集，尽可能地让用户能够在服务节点中获取缓存资源，减少时延。

4、本发明一种基于深度强化学习的移动预测无线边缘缓存方法，用神经网络近似Q值的计算，通过迭代产生每个状态下能够获得最大Q值的动作，从而得出最优缓存替换策略，神经网络通过梯度下降不断更新迭代参数，让损失函数趋于稳定的最小值，使整个网络达到收敛。

附图说明

图1为本发明实施例的整体流程图；

图2为本发明实施例中无线智能缓存网络模型的示例图；

图3为本发明实施例中缓存策略的流程图；

图4为本发明实施例中不同移动模式的场景示例图；

图5为对于不同移动模式采用本实施例方案后的计算结果对比示例图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一：

参见图1，一种基于深度强化学习的移动预测无线边缘缓存方法，包括以下步骤：

构建无线智能缓存网络模型，包括服务节点模型和服务节点控制模型，所述服务节点模型包括用户集U＝{U₁,U₂,...,U_I}、服务节点集B＝{B₁,B₂,...,B_J}、用户请求内容集

缓存内容集

和源内容库O＝{O₁,O₂,...,O_K}；

表示第i个用户在第t个时隙中的请求内容，同时

表示第j个服务节点在第t个时隙中的缓存内容；

所述服务节点控制模型包括用户历史轨迹向量和用户分类组；

建立替换缓存策略，根据用户分类组，获取服务节点集中每一个服务节点在下一时隙的预测用户集

并根据所述预测用户集

中的用户，从用户请求集

和缓存内容集

中获取该用户的历史请求内容和当前服务节点的缓存内容，当用户的历史请求内容在当前服务节点的缓存内容中不存在时，从源内容库O＝{O₁,O₂,...,O_K}中获取替换内容对当前服务节点的缓存内容进行替换，即

中存储的一些内容将被O＝{O₁,O₂,...,O_K}提供的新内容所取代；

优化模型，构建结合Q学习和DQN强化学习的深度学习神经网络，状态空间定义为

以状态空间中的样本状态作为输入，动作空间定义为a^(t)＝{x₁,x₂,…,x_K}，x1～xk表示替换内容的动作空间中的某一各动作作为输出，对神经网络进行训练，得到训练好的动态缓存替换模型，将动态缓存替换模型利用于替换缓存策略中。

本实施利用长短期记忆网络对移动用户的位置进行预测，可克服用户的移动性对缓存命中率的影响，同时利用结合Q学习和强化学习的神经网络框架进行服务节点的缓存替换策略，解决在无线网络中的缓存问题，从而提高了移动预测无线边缘缓存的能力。

实施例二：

进一步的，所述无线智能缓存网络模型以时间离散方式运行t＝{1,2，…，T}。在每个时隙中，用户的位置信息和请求都会被更新，即

和

被更新，如果请求的内容缓存在集合

中，它将直接传输给用户；否则，需要通过回程从远程服务器发送内容请求和传递。为了更新缓存内容，从服务节点控制器发送的预测用户集

将

和

用作神经网络的输入，以确定下一个时隙的缓存内容，即

存储中的一些内容将被远程服务器提供的新内容所取代。

进一步的，所述用户历史轨迹向量为一个位置序列，表示一段时间内用户的移动轨迹，将每个用户的历史轨迹向量存入服务节点控制模型中；定义为位置序列为

一共包含β个历史访问记录。

将位置序列用来当做长短时记忆网络的输入，实现该用户在下一个时隙中的预测位置，即：

其中

这里的W是不同的权重矩阵。

构建奖励函数，在每个时隙，服务节点接受到用户的请求内容和服务节点控制器模型的预测用户集之后，会结合当前用户服务节点的缓存，即产生状态s^(t)之后，当做神经网络的输入，神经网络会根据状态s^(t)选择动作空间里的某一个动作a^(t)当做输出，执行该动作后，根据奖励函数

得到一个瞬时奖励值

构建缓存命中率计算公式：

其中，

表示当用户的请求

在当前服务节点的缓存

中能找到的时候，该指示函数的值为1，反之则为0，然后缓存第j个服务节点的缓存命中率即对所有当前处在该服务节点的用户

都进行一次指示函数的求值，最后归一化求百分比命中率。

预设一阈值ζ，阈值ζ∈(0,1)时，如果缓存命中率大于阈值

则获得正的奖赏

实验表明其中ζ＝0.6的缓存命中率优于其他值的缓存命中率，***的目的是为了让每个服务节点的缓存命中率达到最大。

进一步的，所述神经网络中设置有经验回放机制，在每个时隙，服务节点接受到用户的请求内容和预测用户集之后，会结合当前用户服务节点的缓存内容，即产生状态s^(t)之后，当做神经网络的输入，神经网络会根据状态s^(t)选择动作空间里的某一个动作a^(t)当做输出，执行该动作后，***会根据奖励函数

得到一个瞬时奖励值

并且进入下一个状态s^(t+1)。然后会将该四个元素合成一个组合

存入一经验回放库中当做神经网络的训练样本。

通过Q学习(Q-learning)定义一通过经验回放库中的训练样本计算q值的动作价值函数：

其中γ∈(0,1)表示折扣因子。

由于动作空间的大维数会消耗大量的内存，DQN强化学***方

并用梯度下降法更新神经网络的权重参数ω；

使得训练出来的权重参数ω达到稳定，让整个神经网络达到收敛状态。

为了让本领域技术人员进一步了解本实施例所提出的方案，下面结合具体实施例作详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程。

如图2所示，为无线智能缓存网络模型。

该模型主要有服务节点、控制器、源服务器、缓存模板等组成，介绍了服务节点下的用户缓存模型，每个服务节点都可以通过回程链路在源服务器上下载用户请求的内容，并在本地缓存用户请求的内容，直接为小区内的用户服务。

如图3所示，是缓存策略流程图。

在时隙t中，用户产生的请求和位置。请求端：如果缓存在服务节点上，就直接发送用户请求的内容给用户，如果没有则从远程服务器(源内容库)中下载。位置端：更新用户的历史轨迹向量，通过长短期记忆网络预测用户的移动性，然后通过分类函数得到对应服务节点的预测用户集，最后进行神经网络来更新缓存内容。

如图4所示，为不同的移动场景示例图。

为了研究在各种移动场景下提出的基于DRL的缓存方案，对三种不同的移动模式进行了测试和比较，图4中(a)为线性移动：用于模拟用户在街道或道路上的直线移动。图4中(b)为圆周运动：这是一种典型的确定性运动模式，用于模拟固定路径轨迹。图4中(c)为随机移动：用于模拟用户在开放区域的不规则移动。

计算结果如图5所示，结果表明采用移动性预测的算法优于没有移动预测的算法，在线性、圆形和随机运动情况下，缓存命中率的性能增益分别为14.5％、19.3％和10.0％，这说明准确预测用户在内容替换中起着关键作用，以适应用户的数据请求。

上述分析说明，本发明所提出方案，能获得比现有方法更好的缓存能力，可以很好地改善用户的缓存问题。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度强化学习的移动预测无线边缘缓存方法，其特征在于，包括以下步骤：

优化模型，构建结合Q学习和DQN强化学习的神经网络，以预测用户集、用户请求内容集和缓存内容集组成的状态空间中的样本状态作为输入，以替换内容组成的动作空间中的某一各动作作为输出，对神经网络进行训练，得到训练好的动态缓存替换模型，将动态缓存替换模型利用于替换缓存策略中；所述无线智能缓存网络模型以时间离散的方式运行，在每个时隙中，用户请求内容和用户历史轨迹均进行更新。

2.根据权利要求1所述的一种基于深度强化学习的移动预测无线边缘缓存方法，其特征在于：所述用户历史轨迹向量为一个位置序列，表示一段时间内用户的移动轨迹，将每个用户的历史轨迹向量存入服务节点控制模型中；

3.根据权利要求1所述的一种基于深度强化学习的移动预测无线边缘缓存方法，其特征在于，在对神经网络进行训练的过程中，基于缓存命中率构建奖励函数对神经网络进行训练，具体步骤为：

4.根据权利要求3所述的一种基于深度强化学习的移动预测无线边缘缓存方法，其特征在于：所述神经网络中设置有经验回放机制，将输入的样本状态、输出的动作、瞬时奖赏值以及样本在下一时隙的状态合成一组合并存入一经验回放库中作为神经网络的训练样本。

5.根据权利要求4所述的一种基于深度强化学习的移动预测无线边缘缓存方法，其特征在于，所述构建结合Q学习和DQN强化学习的神经网络的步骤具体为：

DQN强化学习采用神经网络来预估q值，对于经验回放库中的每个训练样本，先通过样本状态和动作预估当前采取动作的q值，再通过样本在下一时隙的状态和动作预估下一状态采取动作的q值；构造以下一状态采取动作的q值与当前采取动作的q值之间的差值为基准的损失函数，并利用梯度下降法迭代更新神经网络的权重参数，使神经网络达到收敛。