CN107592656B

CN107592656B - 基于基站聚类的缓存方法

Info

Publication number: CN107592656B
Application number: CN201710704882.3A
Authority: CN
Inventors: 刘楠; 牛岩; 潘志文; 尤肖虎
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2020-12-11
Anticipated expiration: 2037-08-17
Also published as: CN107592656A

Abstract

本发明公开了一种基于基站聚类的缓存方法，首先收集并分析密集基站网络下各个基站服务用户的历史请求，基于这些历史请求，对基站进行聚类处理，每个类内各个基站服务的用户有相似的兴趣；同时结合推荐***领域当中的协作滤波对各个基站的缓存内容进行决策；采用基于聚类的协作滤波能有效改善算法的可扩展性和数据稀疏性。本发明将内容的局部流行度和TOP N协作滤波***进行组合，有效的提高了基站的缓存命中率，能有效解决基站有限的缓存容量和不断增长的海量数据之间的矛盾，从而改善用户满意度和网络回程负载。

Description

基于基站聚类的缓存方法

技术领域

本发明涉及移动通信***技术领域，尤其是一种基于基站聚类的缓存方法。

背景技术

为了应对海量数据增长带来的对***容量的挑战，一种有效的方案是在基站上部署缓存，若用户请求内容在缓存中，基站直接通过无线链路传输该内容；否则需经由回程链路从核心网中获取。基站主动存储是在请求未到达之前将内容存储在基站中，可以减小回传链路的流量，进而缓解蜂窝***中的流量负载，改善***的性能。本发明通过对历史请求进行分析，给出一种基于基站聚类的缓存策略。

发明内容

本发明所要解决的技术问题在于，提供一种基于基站聚类的缓存方法，能够大大提高缓存命中率，有效缓解回程链路负载，提高用户满意度。

为解决上述技术问题，本发明提供一种基于基站聚类的缓存方法，包括如下步骤：(1)首先考虑基站聚类的问题；统计过去一段时间每个基站服务用户关于内容的请求频数，对于每个基站，将其服务用户对每个内容的请求频数作为这个基站的特征，采用k-means聚类对基站进行聚类，每个类的基站所服务的用户有相似的兴趣爱好，也就是请求的内容有很多相似的地方；

(2)基于基站的Top N协作滤波推荐***利用基站间的相似性预测基站覆盖用户未请求的内容；

(3)给定第一步中的每个类，根据类中内容流行度的分布，同时结合对每个类进行协作滤波对基站进行有针对性的缓存，确定每个基站所缓存的内容。

优选的，步骤(1)中具体的基站聚类包括如下步骤：

(11)根据过去一段时间的历史请求信息，通过核心网对数据的分析，得到内容流行度矩阵

其中矩阵中的每个元素p_m,f代表基站m所服务的用户对内容f的请求频数，将内容的请求频数作为基站的特征，矩阵P的每一行p_m表示一个F维的向量，代表了一个基站的特征向量；

(12)随机选择k基站作为基站聚类的初始中心点，其特征向量表示为

这里

上标(1)表示第一轮也就是初始值，下标表示第i个中心点；

(13)根据每个类的中心点，为使类内平方和最小，按照如下的方式确定基站属于哪一类：

这里

表示第t轮属于第i类的基站集合；

(14)根据步骤(13)划分的类，计算新的中心点：

(15)重复(13)，(14)直到c_i的变化小于给定阈值，最终得到k类，H₁，...,H_k，每个基站属于其中的一个类。

优选的，步骤(2)中，类内基于基站协作滤波具体包括如下步骤：

(21)计算类内基站间的相似度

类内基站间的相似度通过如下相似度公式计算：

基站m_i和基站m_j属于同一个类，T(m_i)和T(m_j)分别表示基站m_i和基站m_j所服务的用户访问内容的集合；T(f)表示访问过内容f的基站的集合；

(22)根据(21)可以得到与基站m_i最相近的基站的集合S(m_i,G)，则基站m_i所服务的用户对过去一段时间从未请求过的内容f的感兴趣程度为

其中T(f)为对内容f产生过请求的基站的集合，

为基站m_j对内容的f的感兴趣程度，此处为内容流行度矩阵P的元素。

优选的，步骤(3)中具体缓存方式包括如下步骤：

(31)首先对每个类中的内容流行度进行分析，也就是对类中所有基站服务的用户的请求内容进行统计，按内容访问次数从高到低进行排序；

(32)每个基站m的缓存容量为S_m；η为通过类内流行度缓存的内容所占缓存容量S_m的百分比，首先对内容根据类内流行度从高到低对基站进行缓存，每次缓存内容前，检查缓存内容的总大小是否超过η*S_m，若超过，则放弃缓存；

(33)对于基站剩余的缓存容量，通过类内基于基站协作滤波的步骤(22)进行缓存，对于内容按照p(m,f)由高到低进行缓存，直至缓存内容的总量大于缓存容量。

本发明的有益效果为：本发明通过对基站进行聚类分析，提出一种基于基站聚类的缓存策略，一方面对基站服务用户的兴趣爱好能够有很好的判断，另一方面，大大减少了基站协作滤波的复杂度，提升了算法性能；本发明将内容的局部流行度和TOP N协作滤波***进行组合，有效的提高了基站的缓存命中率，能有效解决基站有限的缓存容量和不断增长的海量数据之间的矛盾，从而改善用户满意度和网络回程负载；与现有技术相比，本发明通过对基站进行聚类，将机器学习算法引入到对缓存内容的预测中，大大提高了缓存命中率，有效缓解回程链路负载，提高用户满意度。

具体实施方式

一种基于基站聚类的缓存方法，包括如下步骤：

(1)首先考虑基站聚类的问题；统计过去一段时间每个基站服务用户关于内容的请求频数，对于每个基站，将其服务用户对每个内容的请求频数作为这个基站的特征，采用k-means聚类对基站进行聚类，每个类的基站所服务的用户有相似的兴趣爱好，也就是请求的内容有很多相似的地方；

优选的，步骤(1)中具体的基站聚类包括如下步骤：

这里

上标(1)表示第一轮也就是初始值，下标表示第i个中心点；

这里

表示第t轮属于第i类的基站集合；

(14)根据步骤(13)划分的类，计算新的中心点：

(21)计算类内基站间的相似度

类内基站间的相似度通过如下相似度公式计算：

其中T(f)为对内容f产生过请求的基站的集合，

优选的，步骤(3)中具体缓存方式包括如下步骤：

实施例：

考虑M基站的网络部署

每个基站通过回程链路连接到核心网，缓存容量为S_m，内容请求集合为

每个内容的大小为L(f)。R(m)为基站m服务用户请求内容的集合，C(m)为基站m缓存内容的集合。我们定义缓存命中率如下：

我们采用如下的方式进行缓存，包括以下步骤：

(1)首先考虑基站聚类的问题，具体得是，统计过去一段时间每个基站服务用户关于内容的请求频数。对于每个基站，本专利将其服务用户对每个内容的请求频数作为这个基站的特征，采用k-means聚类对基站进行聚类，每个类的基站所服务的用户有相似的兴趣爱好，也就是请求的内容有很多相似的地方。

(2)基于基站的Top N协作滤波推荐***利用基站间的相似性预测基站覆盖用户未请求的内容。

(3)给定第一步中的每个类，本专利根据类中内容流行度的分布，同时结合对每个类进行协作滤波对基站进行有针对性的缓存，确定每个基站所缓存的内容。

步骤(1)中具体的基站聚类步骤包括

(11)根据过去一段时间的历史请求信息，通过核心网对数据的分析。我们能够得到内容流行度矩阵

其中矩阵中的每个元素p_m,f代表基站m所服务的用户对内容f的请求频数。将内容的请求频数作为基站的特征，矩阵P的每一行p_m表示一个F维的向量，代表了一个基站的特征向量。

(12)随机选择k个基站作为基站聚类的初始中心点，其特征向量表示为

(14)根据步骤(3)划分的类，计算新的中心点：

(15)(15)重复(13)，(14)直到c_i的变化小于给定阈值。最终得到k类，H₁，...,H_k，每个基站属于其中的一个类。

步骤(2)基于类内基站协作滤波的具体步骤如下：

(21)计算类内基站间的相似度

类内基站间的相似度通过如下相似度公式计算：

基站m_i和基站m_j属于同一个类，T(m_i)和T(m_j)分别表示基站m_i基站m_j所服务的用户访问内容的集合。其中T(f)表示访问过内容f的基站的集合。

其中T(f)为对内容f产生过请求的基站的集合。

步骤(3)中具体缓存方式如下：

(31)首先对每个类中的内容流行度(类内流行度)进行分析，也就是对类中所有基站服务的用户的请求内容进行统计。按内容访问次数从高到低进行排序。

(32)每个基站m的缓存容量为S_m。η为通过类内流行度缓存的内容所占缓存容量S_m的百分比。首先对内容根据类内流行度从高到低对基站进行缓存，每次缓存内容前，检查缓存内容的总大小是否超过η*S_m。若超过，则放弃缓存。

尽管本发明就优选实施方式进行了示意和描述，但本领域的技术人员应当理解，只要不超出本发明的权利要求所限定的范围，可以对本发明进行各种变化和修改。