CN107370807B

CN107370807B - 基于透明服务平台数据访问的服务端及其缓存优化方法

Info

Publication number: CN107370807B
Application number: CN201710567988.3A
Authority: CN
Inventors: 盛津芳; 李伟民; 陈琳; 侯翔宇
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-07-12
Filing date: 2017-07-12
Publication date: 2020-05-08
Anticipated expiration: 2037-07-12
Also published as: CN107370807A

Abstract

本发明涉及计算机网络技术，公开一种基于透明服务平台数据访问的服务端及其缓存优化方法，以提高缓存的命中率，提升透明计算服务质量。本发明方法包括：分时间区间对大量终端用户对透明计算服务端数据块访问行为进行频数统计，并利用信息熵对用户的数据块访问行为进行量化，判断当前用户访问行为是否具有集中性；当判断用户访问行为具有集中性时，筛选出当前被访问的频数高的各数据块，并利用指数平滑预测算法预测将来一段时间内，所筛选出的各数据块的访问频数分布；根据预测的频数分布结果对服务端的缓存进行优化。

Description

基于透明服务平台数据访问的服务端及其缓存优化方法

技术领域

本发明涉及计算机网络技术，尤其涉及一种基于透明服务平台数据访问的服务端及其缓存优化方法。

背景技术

近年来，云计算作为网络计算模式的典型代表，使计算由软硬件为中心转变为了面向服务的模式，能够根据终端用户的需求把服务端的存储和计算资源传输到客户端。透明计算是云计算的一个特例，是一种以用户为中心的新型服务模式，旨在为用户提供无处不在的透明服务。透明服务平台由搭载轻量级微内核操作***的透明客户端、透明网络以及提供数据服务的服务端管理平台组成。服务端的主要功能为提供透明计算数据访问服务和透明资源管理服务。因此，透明计算用户自主可控地按需使用服务的过程，其本质是对透明服务平台数据访问的行为。

在透明服务平台中，未配备硬盘的透明终端借助虚拟磁盘技术访问存储于服务端的数据，实现终端操作***的远程加载与运行。其采用的虚拟磁盘模型具有以下特点：

(1)、三层链式数据存储机制。虚拟磁盘中数据资源按资源共享程度及性质划分成3类：共享程度最高的***资源、具有相同的应用属性的应用群组资源、用户自身才能访问私有数据资源。

(2)、采用写时重定向机制。将共享程度高的***虚拟磁盘镜像S_VDI和群组虚拟磁盘镜像G_VDI以只读的方式存储于服务端，共享给多个终端用户；采用ROW写时重定向机制将终端用户对S_VDI和G_VDI的改写块保存于与用户对应的用户虚拟磁盘镜像U_VDI中，并采用Bitmap来标记各个改写块的位置。

基于透明计算存储与计算分类的思想，在当前网络带宽相对有限，面对大规模各类型的透明终端时，服务端的性能就成为了透明计算***的性能瓶颈。缓存的命中率是透明计算服务端性能表现最关键的因素，因此，在服务端设计高效的缓存机制，提高缓存的命中率是改善透明计算服务质量的一个极为重要途径。目前针对透明计算的缓存优化思想主要有：

(1)、结合FIFO、LRU、LFU等缓存替换策略，从单个数据块的访问时间、频数上进行策略调整；

(2)、对终端缓存数据进行分区，结合索引等技术提高数据查询速率；

(3)、通过将本地缓存与虚拟磁盘数据同步，为终端构建实时更新的本地磁盘缓存。

透明服务平台中的虚拟磁盘采用的三层存储模型解决了大量数据冗余的问题，而结合现有透明计算及其缓存优化的研究现状，在服务性能方面仍存在以下问题：

(1)、透明计算是强调以用户为中心的网络计算服务模式，并且用户的所有资源均存储在服务端。在服务多客户端的情况下，当大量用户对透明服务端进行访问时，会对网络等服务资源产生严重负载；

(2)、透明服务平台的三层链式存储的特点，决定了其数据访问的特殊性，因此，其用户数据访问行为模型也会不同于其它虚拟磁盘存储模型。使用传统的缓存策略效果并不显著；

(3)、用户的当前行为一定程度上决定了其下一步的访问行为，用户作为数据访问的源头，对缓存预取策略有着重要的影响，而目前缺乏对透明计算用户访问行为的研究工作。

发明内容

本发明目的在于公开一种基于透明服务平台数据访问的服务端及其缓存优化方法，以提高缓存的命中率，提升透明计算服务质量。

为达上述目的，本发明公开一种基于透明服务平台数据访问的服务端的缓存优化方法，包括：

分时间区间对大量终端用户对透明计算服务端数据块访问行为进行频数统计，并利用信息熵对用户的数据块访问行为进行量化，判断当前用户访问行为是否具有集中性；

当判断用户访问行为具有集中性时，筛选出当前被访问的频数高的各数据块，并利用指数平滑预测算法预测将来一段时间内，所筛选出的各数据块的访问频数分布；

根据预测的频数分布结果对服务端的缓存进行优化。

可选的，上述分时间区间对大量终端用户对透明计算服务端数据块访问行为进行频数统计包括：

用BS表示服务端供用户访问的所有数据块的集合，用户行为UB表示为二元组<B，T>，其中B表示一个数据块，且B∈BS，T表示用户发起请求的时间，<B_i，T_m>表示用户在T_m时刻访问了B_i数据块；

在一段时间内，服务端接收到众多的用户请求，在T_α内，所有用户的行为集合为UBS，可以用下式表示用户在时间段T_α内访问了数据块B_i的次数：

F_Bi＝∑(B_i，T_m)，(B_i，T_m)∈UBS，T_m∈T_α

所有在T_α内被访问到的数据块的频数集合，表示为

针对上述二元组模型，本发明可利用信息熵对用户的数据块访问行为进行量化，判断当前用户访问行为是否具有集中性，具体包括：

以B_i被访问的频数除以该时间段内所有被访问的数据块的频数，来计算在T_α时间区间内数据块B_i被访问的概率P：

数据块的访问概率集合，表示为P＝{P(B₁)，P(B₂)，…，P(B_n)}；

每个数据块被访问的信息量表示为-log₂P(B_i)，为了对用户行为的整体信息进行度量，定义了自信息量的数学期望为用户行为的平均信息量，也称为信息熵，计算公式为：

用HT_α表示T_α时间段内的熵值，如果HT_α及T_α以后的连续两个周期的熵值都小于预定的阈值，判断当前用户访问行为具有集中性。

本发明中，透明计算服务端缓存设计为三个分区，分别存储操作***、应用程序和用户私有数据的缓存数据块；而且每一个缓存分区均由三个LRU队列构成，所述三个LRU队列分别为Q_L、Q_H和Q-history队列，且Q-history队列存储并按LRU规则淘汰从Q_L、Q_H中替换出去的缓存块；其中，访问优先级的排序为：Q_H＞Q_L＞Q-history；所述访问优先级与访问频数关联；

当服务端收到终端用户发来的数据块请求时，首先去相应缓存区的Q_H查询，若存在，则做读或写操作；若不存在，则依次往Q_L和Q-history中做相同的查询和处理，如果在Q-history队列中命中，将对应数据块的访问次数置为1并移入Q_L队首。

基于上述分区，可选地，本发明根据预测的频数分布结果对服务端的缓存进行优化包括：将预测出的访问频数满足一定条件的数据块预取放入相应的缓存分区，具体可包括：

确定被预测的数据块的所属分区，并放置到相应缓存分区中；

根据被预测数据块的访问频数预测值，评估其应被放入相应缓存分区中的Q_L或是Q_H；

若数据块已存在相应的队列，则将其访问计数置为评估值；若数据块不存在相应队列，且该队列未满，则将其放置到相应队列的队首，同时将其访问计数置为评估值；

若Q_H满时，则将队尾数据块移入到Q_L头部；若Q_L满时，则将队尾数据块移入Q-history队列头部；以及

数据块进入相应队列后，若被访问一次，则其访问计数加一；当Q_L中数据块访问计数达到给定值时，则应被移入到Q_H的队首。

进一步地，上述评估被预测数据块是否存入Q_L或是Q_H的具体方法为：

为数据块每个预测周期设定不同的权重，权重值由Adaboost算法中的权重计算方法得到；然后将数据块的各个预测周期的访问频数加权得到其最终的访问频数评估值。

优选地，本发明利用三次指数平滑预测算法预测将来一段时间内，所筛选出的各数据块的访问频数分布。具体可包括：

(1)、用{y₁，y₂，...，y_n}表示单个数据块在前n个历史周期中被访问的频数，首先用公式

依次计算FBS中所有数据块这n个周期的一次指数平滑值；然后用公式

依次计算FBS中所有数据块这n个周期的二次指数平滑值；最后用公式

依次计算FBS中所有数据块这n个周期的三次指数平滑值；

其中，FBS表示被筛选出的数据块集合，y_t是t时间段内的真实值，α是平滑系数，

是t时间段内的一次、二次、三次平滑值；

(2)、三次平滑指数预测模型为

其中参数a_t、b_t、c_t使用一次、二次、三次指数平滑值进行计算：

其中，

表示t时刻之后T个周期的预测值；

(3)、使用公式

预测未来1、2、3个周期内，FBS中各数据块将被访问的频数f₁，f₂，f₃，即f₁＝a_t+b_t+c_t，f₂＝a_t+b_t*2+c_t*4，f₃＝a_t+b_t*3+c_t*9；

(4)、根据每个周期的误差率，使用公式

得到预测值f₁，f₂，f₃的权重。其中

代表t周期的权重，e_t代表t周期预测结果的平均误差率；计算出数据块将会被访问到的次数

并以W作为数据块将会被访问到的次数作为对缓存策略中进行预取和置换的重要依据。

与上述方法相对应的，本发明还公开一种用于执行上述方法的服务端。

综上，本发明具有以下有益效果：

由于透明计算本身是一种以用户为中心的网络计算服务模式，其核心任务就是处理来自大量用户发送的数据访问请求。本发明从用户对服务端数据块访问行为的特征分析作为切入点，抓住透明计算需求的源头，采用信息熵策略以及指数平滑预测模型对其进行分析和预测，同时，根据透明计算大量用户的数据块请求特征，设计合理的服务端缓存结构和模型，最终尽量使即将被大量用户访问的数据块得以保存在缓存区，且不容易被替换出去。以此有效提高了缓存命中率，优化服务端缓存机制，最终提升了透明计算服务性能。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例公开的服务管理平台与透明客户端交互过程示意图；

图2是本发明实施例公开的用户行为预测模型架构示意图；

图3是本发明实施例公开的缓存结构示意图；

图4是本发明实施例公开的为中短周期预测精确度效果示意图；

图5是本发明实施例公开的为用户访问命中率的对比图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

本实施例公开一种基于透明服务平台数据访问的服务端的缓存优化方法。

在透明服务平台中，未配备硬盘的透明终端借助虚拟磁盘技术访问存储于服务端的数据，实现终端操作***的远程加载与运行，图1是服务管理平台与透明客户端交互过程。客户端向服务端发送的请求数据包中包含了用户行为的原始数据集，从中提取出表示用户行为的特征值：TYPE、IP、OFFSET、DATA LENGTH、TIME。TYPE为数据包的操作码，描述建立会话、断开会话、读、写等请求，其中包含了6种操作码。IP为发送数据包的客户端IP，用来标示客户端。OFFSET为描述了用户访问的数据块起始位置的偏移量，是一个相对的数值，在对用户访问行为进行分析的时候，使用OFFSET来代表用户访问的数据块。DATA LENGTH是从起始位置起请求的数据长度。TIME表示发起请求的时间。

本实施例是从宏观的角度对用户的请求行为进行预测，通过对所有用户行为的集合进行分析，可以得到用户行为整体的特征，图2为用户行为预测的模型架构。因为透明服务平台采用的是三层链式存储结构，资源的共享程度是比较高的，这些共享主要体现在操作***镜像的共享以及用户使用的应用程序的共享。在这种资源共享的存储模式下，不同用户对数据块的访问具有非常高的相似性。也就是说，透明服务平台下的用户行为也具有集中和相似的特征。我们使用信息熵来判别用户访问行为的集中性与分散性。基于此，本实施例提出了以用户访问行为预测为基础的缓存策略TCSC(Transparent Computing ServerCache)。

根据实际应用场景，确定信息统计周期为T_α，在T_α时间段内，对用户访问行为分析和预测的步骤为：

(1)用BS(Block Set)表示服务端供用户访问的所有数据块的集合，用户行为UB(User Behavior)表示为二元组<B，T>。其中B表示一个数据块，且B∈BS，T表示用户发起请求的时间。因此，<B_i，T_m>表示用户在T_m时刻访问了B_i数据块。在一段时间内，服务端接收到众多的用户请求，在T_α内，所有用户的行为集合为UBS(User Behavior Set)。为了分析用户行为的特点，可以用下式表示用户在时间段T_α内访问了数据块B_i的次数：

F_Bi＝∑(B_i，T_m)，(B_i，T_m)∈UBS，T_m∈T_α

所有在T_α内被访问到的数据块的频数集合，表示为

(2)以B_i被访问的频数除以该时间段内所有被访问的数据块的频数，来计算在T_α时间区间内数据块B_i被访问的概率P：

数据块的访问概率集合，表示为P＝{P(B₁)，P(B₂)，…，P(B_n)}

(3)每个数据块被访问的信息量表示为-log₂P(B_i)，为了对用户行为的整体信息进行度量，定义了自信息量的数学期望为用户行为的平均信息量，也称为信息熵，计算公式为：

用HT_α表示T_α时间段内的熵值，如果HT_α及T_α以后的连续两个周期的熵值都小于预定的阈值，说明当前用户访问行为具有集中性。用FBS(frequent block set)表示当前被访问的频数比较高的数据块集合，那么需要对FBS中的数据块将被访问的次数进行预测。

在透明服务端的操作***、应用程序和用户私有数据三层链式存储模型中，***资源以及应用程序资源得到了极大程度的共享。因此，客户端对这两层块访问的重复性大，集中性强，且对相同的块进行访问时只有很小的概率进行修改。基本上为只读的请求。这三个层次的共享程度、访问的集中性等特点各不相同，在设计缓存时将三层的数据进行区分，把***的缓存设计为三个部分Co，Ca，Cu，分别表示***资源缓存、应用程序缓存以及用户数据缓存。

Co，Ca，Cu每一个缓存区均由三个LRU队列构成。其中，Q_L存放的是访问优先级较低的数据块、Q_H存放了访问优先级较高的数据块，而访问优先级是和访问频数相关的。Q-history队列存放的是从Q_L中替换出去的记录，这些块并没有彻底被移除，而是暂时保存在此队列中。缓存中每个数据块都具有count、lastTime、bData几个属性，count代表被访问的次数，lastTime上一次被访问的时间，bData表示该块真正存储的内容。详细实现如图3所示。

(1)从缓存区中查找块时从访问优先级较高队列的队首开始查找。如果缓存队列中存在相应的数据块，将其count计数加1，并记录访问时间赋给lastTime；如果在缓存队列中没有找到该数据块，从磁盘中取出相应的数据块放入Q_L队首。

(2)如果在Q_H队列中命中，判断其访问时间与上一次被访问时间间隔是否达到时间阈值，如果达到了，将其count置为1并放入Q_L队首；否则按照LRU规则把数据块移到队首。Q_H队列满时，将队尾的数据降级到Q_L队首。

(3)如果在Q_L队列中命中，判断其count计数是否达到频数阈值，如果达到了，把数据块放到Q_H队首，否则移到Q_L队首。Q_L队列满时，将队尾的数据淘汰到Q-history队首。

(4)如果在Q-history队列中命中，将其count置为1并放入Q_L队首。Q-history队列的长度是固定的，当队列超出长度时，根据LRU自身的策略从队尾将数据块移出，此时该块彻底移出缓存。

当通过HT_α监测到用户访问行为处于连续集中状态时，以FBS中的数据块作为分析对象，采用指数平滑的方法对其将来时间段被访问的情况进行预测，作为缓存预取策略的依据。

采用指数平滑方法进行预测，需要以若干个周期的历史数据作为观测值，对相应数据块进行预取。假设是采用前n个周期的历史数据来预测未来的访问行为，那么对用户访问行为预测和数据块预取的具体步骤是：

(1)、用{y₁，y₂，...，y_n}表示单个数据块在前n个历史周期中被访问的频数。首先用公式

依次计算FBS中所有数据块这n个周期的三次指数平滑值。

其中，y_t是t时间段内的真实值，α是平滑系数，

是t时间段内的一次、二次、三次平滑值。

(2)、三次平滑指数预测模型为

其中，

表示t时刻之后T个周期的预测值。

(3)、使用公式

预测未来1、2、3个周期内，FBS中各数据块将被访问的频数f₁，f₂，f₃，即f₁＝a_t+b_t+c_t，f₂＝a_t+b_t*2+c_t*4，f₃＝a_t+b_t*3+c_t*9。

(4)、根据每个周期的误差率，使用公式

得到预测值f₁，f₂，f₃的权重。其中

代表t周期的权重，e_t代表t周期预测结果的平均误差率。计算出数据块将会被访问到的次数

以W作为数据块将会被访问到的次数，是对缓存策略中进行预取和置换的重要依据。

(5)根据预测到的访问频数和缓存的频数阈值，对FBS中的数据块进行划分，预测值达到阈值的放入Q_H，否则放入Q_L。

为测试本实施例中预测方法的有效性，通过比较预测值和观测值的误差衡量预测算法在中短周期的准确度。随机抽取透明服务平台一段时间内访问比较集中的数据块，以前10个周期作为观测值，对所有数据块进行第11-18周期的预测，图4是未来周期分别为1-8，以平均误差作为衡量指标的测试结果。测试结果表明，在预测1-3个周期时，平均误差分别为：0.07、0.12、0.19，从第四个周期开始，误差急剧增加。因此，使用三次指数平滑预测法可以对数据块在三个周期内给与较为准确的预测。

为进一步测试本发明中缓存策略的效果，使用JAVA实现了TCSC、LRU、LFU和LFRU四个缓存策略的算法，并对比不同策略下的缓存命中率差异。在测试过程中，首先采集了35个用户在90分钟内自由操作透明计算终端的访问日志，然后通过模拟用户的访问来记录相应的缓存命中率。

本次测试共涉及到2134258次的访问记录，图5是缓存大小分别为4M、8M、16M、32M、64M时不同缓存替换策略的命中率对比图。由图可知，使用TCSC方法后，命中率有明显提高，并且当缓存容量较小时，其优势更明显。

实施例2

与上述方法实施例相对应的，本实施例公开一种于执行上述方法的服务端。

参照实施例1，本实施例服务端所执行的基于透明服务平台数据访问的服务端的缓存优化方法包括：

根据预测的频数分布结果对服务端的缓存进行优化。

F_Bi＝∑(B_i，T_m)，(B_i，T_m)∈UBS，T_m∈T_α

所有在T_α内被访问到的数据块的频数集合，表示为

(₁)、用{y₁，y₂，...，y_n}表示单个数据块在前n个历史周期中被访问的频数，首先用公式

依次计算FBS中所有数据块这n个周期的三次指数平滑值；

是t时间段内的一次、二次、三次平滑值；

(2)、三次平滑指数预测模型为

其中，

表示t时刻之后T个周期的预测值；

(3)、使用公式

(4)、根据每个周期的误差率，使用公式

得到预测值f₁，f₂，f₃的权重。其中

综上，本发明实施例公开的基于透明服务平台数据访问的服务端及其缓存优化方法，由于透明计算本身是一种以用户为中心的网络计算服务模式，其核心任务就是处理来自大量用户发送的数据访问请求。本发明从用户对服务端数据块访问行为的特征分析作为切入点，抓住透明计算需求的源头，采用信息熵策略以及指数平滑预测模型对其进行分析和预测，同时，根据透明计算大量用户的数据块请求特征，设计合理的服务端缓存结构和模型，最终尽量使即将被大量用户访问的数据块得以保存在缓存区，且不容易被替换出去。以此有效提高了缓存命中率，优化服务端缓存机制，最终提升了透明计算服务性能。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于透明服务平台数据访问的服务端的缓存优化方法，其特征在于，包括：

根据预测的频数分布结果对服务端的缓存进行优化，包括：将预测出的访问频数满足一定条件的数据块预取放入相应的缓存分区；

透明计算服务端缓存设计为三个分区，分别存储操作***、应用程序和用户私有数据的缓存数据块；而且每一个缓存分区均由三个LRU队列构成，所述三个LRU队列分别为Q_L、Q_H和Q-history队列，且Q-history队列存储并按LRU规则淘汰从Q_L、Q_H中替换出去的缓存块；其中，访问优先级的排序为：Q_H>Q_L>Q-history；所述访问优先级与访问频数关联；

2.根据权利要求1所述的基于透明服务平台数据访问的服务端的缓存优化方法，其特征在于，所述分时间区间对大量终端用户对透明计算服务端数据块访问行为进行频数统计包括：

用BS表示服务端供用户访问的所有数据块的集合，用户行为UB表示为二元组<B,T>，其中B表示一个数据块，且B∈BS，T表示用户发起请求的时间，<B_i,T_m>表示用户在T_m时刻访问了B_i数据块；

在一段时间内，服务端接收到众多的用户请求，在T_α内，所有用户的行为集合为UBS，用下式表示用户在时间段T_α内访问了数据块B_i的次数：

F_Bi＝∑(B_i,T_m),(B_i,T_m)∈UBS，T_m∈T_α

所有在T_α内被访问到的数据块的频数集合，表示为