CN112637273B

CN112637273B - 一种智能热点数据预测及缓存方法

Info

Publication number: CN112637273B
Application number: CN202011412624.6A
Authority: CN
Inventors: 吴大鹏; 李学芳; 张普宁; 王汝言
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2022-08-02
Anticipated expiration: 2040-12-04
Also published as: CN112637273A

Abstract

本发明涉及一种智能热点数据预测及缓存方法，属于物联网领域，包括以下步骤：S1：各传感器感知智慧实体状态数据，并将采集的智慧实体状态数据周期性地上传至本地服务器；S2：搜索***以固定时间区间为单位记录本地用户提交的搜索请求，以及记录不同智慧实体被搜索的次数；S3：本地服务器根据用户历史搜索记录挖掘智慧实体数据中隐藏的时域相关性并建立相应的热点智慧实体预测模型；S4：本地服务器通过所设计的动态缓存策略实现对热点智慧实体状态数据的主动缓存；S5：本地服务器快速搜索是否有搜索请求匹配的智慧实体状态内容，若无，则本地服务器将搜索请求下发至传感器，传感器采集数据后通过本地服务器返回至用户。

Description

一种智能热点数据预测及缓存方法

技术领域

本发明属于物联网领域，涉及一种智能热点数据预测及缓存方法。

背景技术

随着物联网(IoT)在智能交通、智慧家居、远程医疗和环境监测等领域的深入应用，越来越多的具有感知功能的海量传感器、RFID等感知设备联入物联网。在未来20年，将会有万亿台物联网感知设备出现在我们的生活中，实现信息共享，万物互联的场景。物联网是新一代信息技术的重要组成部分，也是“信息化”时代的重要发展阶段，被称为继计算机、互联网之后世界信息产业发展的第三次浪潮。当下，物联网应用已经普及到了物流管理、仓库储存、智慧交通、智能家居、环境监测、公共安全等各个领域。随着物联网应用的逐步深入及人们对生活品质要求的逐渐提高，人们对获取物理世界实体信息的实时性、有效性、可靠性需求越来越强烈。例如搜索附近空余的停车位、安静的咖啡厅、空闲的会议室、空气质量较好的公园等。

近年来，物联网搜索的应用受到了越来越多的关注，物联网搜索技术的研究对实现物联网感知资源的共享，推动物联网应用的深入，促进物理空间与信息空间的融合具有至关重要的作用。物联网搜索能够减少收集的数据大小和范围，而用户也可通过搜索引擎获取物理世界的智慧实体信息，在智慧城市等物联网典型应用中存在智能化的搜索需求。目前，国内外研究人员已在物联网搜索方面进行了深入的研究。Xie L,Wang Z,Wang Y在“New Multi-Keyword Ciphertext Search Method for Sensor Network CloudPlatforms”【in IEEE Sensors,pp.3047-3058,2018】中提出了面向私有云平台的多关键字搜索机制，将加密传感器数据存储在云端进行集中缓存，并采用层次聚类方法实现加密传感器数据的高效、安全搜索。M.Shen,B.Ma,L.Zhu,X.Du and K.Xu在“Secure PhraseSearch for Intelligent Processing of Encrypted Data in Cloud-Based IoT”【inIEEE Internet of Things Journal,pp.1998-2008,2019】中提出了一种基于云的物联网搜索方案，通过将数据信息集中上传至云端缓存，用户发出实体搜索请求后，需通过本地服务器将请求信息发送至云端进行搜索匹配，然后将搜索结果通过本地服务器返回给用户。

发明内容

有鉴于此，本发明的目的在于针对物理智慧实体数量众多，本地服务器缓存资源有限，难以缓存全部智慧实体的观测内容的问题，提出了一种智能热点数据预测及缓存方法。首先，设计了热点智慧实体预测方法，基于LSTM模型，预测用户群体关注度比较高的热点智慧实体集合；然后，设计了热点智慧实体动态缓存策略，实现热点智慧实体的实时缓存与更新；最后，将热点智慧实体数据缓存至靠近用户的本地服务器。

为达到上述目的，本发明提供如下技术方案：

一种智能热点数据预测及缓存方法，包括以下步骤：

S1：数据采集：各种类型的传感器感知智慧实体状态数据，并将采集的智慧实体状态数据周期性地上传至覆盖其感知范围的本地服务器；

S2：搜索记录整理：搜索***以固定时间区间为单位记录本地用户提交的搜索请求，以及记录不同智慧实体被搜索的次数；

S3：热点智慧实体预测：本地服务器基于长短期记忆网络(Long Short-TermMemory，LSTM)模型，根据用户历史搜索记录挖掘智慧实体数据中隐藏的时域相关性并建立相应的热点智慧实体预测模型；

S4：热点智慧实体缓存：根据步骤S3完成热点智慧实体预测后，本地服务器通过所设计的动态缓存策略实现对热点智慧实体状态数据的主动缓存；

S5：用户搜索：当用户发出搜索请求后，本地服务器快速搜索是否有搜索请求匹配的智慧实体状态内容，若有该内容，则表明用户搜索的是热点智慧实体，直接将结果返回，若无，则本地服务器将搜索请求下发至与智慧实体关联的传感器，传感器采集数据后通过本地服务器返回至用户。

进一步，步骤S3具体包括以下步骤：

S31：LSTM模型的输入是各个智慧实体在上一时刻t-1被搜索数的向量x(t-1)＝{x₁(t-1),x₂(t-1),...,x_q(t-1),...,x_Q(t-1)}，其中，q表示被搜索的某一个智慧实体，x_q(t-1)表示智慧实体q在上一时刻t-1被用户搜索的次数，Q表示t-1时刻被搜索智慧实体的总数量；

S32：LSTM网络包括遗忘门f_t、输入门i_t、更新门C_t和输出门o_t四种门结构，用以保持和更新细胞状态，其中t表示当前时刻，f、i、C和o表示四种不同的门结构对应向量；

S33：遗忘门层读取上一层的输出h_t-1和当前时刻的输入x_t，输出一个数值f_t，并赋值给当前细胞的状态C_t-1；其中f_t计算方式为：f_t＝σ(W_fx_t+U_fh_t-1+b_f)，h表示隐藏的状态结构，x_t表示当前时刻LSTM的输入向量，C表示细胞状态向量，f_t表示遗忘门的激活向量，W_f、U_f和b_f分别是遗忘门的输入权重、循环权重和偏置；

S34：输入门层包含两个部分；第一部分，通过sigmoid函数决定需要输入什么值；另一部分，通过tanh函数创建一个新的候选值向量，该向量会被加入到状态C_t中；新的候选值向量计算为：

其中W_C、U_C和b_C分别是更新门的输入权重、循环权重和偏置；

S35：更新门层更新旧细胞状态，将C_t-1更新为C_t，更新方式为：

其中i_t表示+当前时刻t所对应的输入向量；

S36：输出门层基于细胞的状态输出数值；首先运行一个sigmoid层来确定细胞状态的哪个部分将输出；接着把细胞状态通过tanh进行处理并将它和sigmoid门的输出相乘；最后输出确定要输出的部分；其中W、U和b分别是各个门结构的输入权重、循环权重和偏置，σ(·)和tanh(·)为激活函数；

S37：采用按时间展开的反向误差传播算法(BPTT)进行训练，依据预定义的损失函数迭代修正网络中的权重参数，以最小化智慧实体的预测搜索次数与实际搜索次数的误差；输出是预测出的在时刻t各个智慧实体被搜索次数的向量

其中

表示在时刻t预测智慧实体q被用户搜索的次数；

S38：将x^*(t)中的元素进行排序并得到其排序索引o＝{o₁,o₂,...,o_q,...,o_Q}；

S39：将o＝{o₁,o₂,...,o_q,...,o_Q}作为Zipf(齐夫定律)模型的输入，计算出各个智慧实体在时刻t被搜索的概率：p＝[p₁,p₂,...,p_q,...,p_Q]，其中p_q表示智慧实体q在时刻t被搜索概率。

进一步，步骤S4具体包括以下步骤：

S41：本地服务器根据p＝[p₁,p₂,...,p_q,...,p_Q]创建缓存热点智慧实体的流行度列表，流行度表示智慧实体被搜索的概率；

S42：当数据到达本地服务器时，缓存空间未满就直接按照流行度列表依次缓存，如果缓存空间已满，本地服务器就对缓存空间中缓存的智慧实体数据与到达智慧实体数据进行名称匹配，如果能匹配到，则直接用到达的智慧实体数据替换缓存数据；

S43：如果未匹配到，则计算到达智慧实体流行度，如若到达智慧实体的流行度大于流行度表中最小的流行度时，就用到达智慧实体数据替换最小流行度所对应的缓存数据；若小于则不缓存此到达智慧实体数据；

S44：缓存***在后台开启一个监控缓存数据过期的任务，定期检测过期缓存数据，一旦检测到有缓存过期，则通知本地服务器进行数据的更新。

进一步，步骤S5具体包括以下步骤：

S51：热点智慧实体状态数据主动缓存在靠近用户的本地服务器，以满足用户搜索需求；

S52：当用户提交给定状态搜索智慧实体的命令时，搜索***将搜索请求发出至本地服务器，本地服务器收到请求消息后，快速搜索是否有与搜索请求匹配的智慧实体状态数据，以判别所搜索的智慧实体类型；

S53：若本地服务器匹配到与搜索请求相关的智慧实体状态数据信息，则说明用户搜索的是热点智慧实体，直接将搜索结果返回给用户，以降低搜索时延和提高搜索精度；

S54：若用户搜索的智慧实体状态数据不在本地服务器，则判断用户搜索的实体为普通智慧实体，本地服务器将搜索请求下发至与智慧实体关联的传感器，传感器采集数据后通过本地服务器返回至用户。

本发明的有益效果在于：本发明提出的热点智慧实体预测及缓存方法能够有效地减少用户与数据源之间的频繁通信，降低面向远端中心响应本地用户搜索请求，从而大幅度降低获取智慧实体状态数据的成本和时延，提高搜索准确性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明中一种智能热点数据预测及缓存方法***架构图；

图2为本发明中一种智能热点数据预测及缓存方法流程图；

图3为本发明中热点智慧实体预测模型图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如附图1和图2所示的一种智能热点数据预测及缓存方法，优选的具体包含以下步骤：

步骤一、数据采集：各种类型的传感器感知智慧实体状态数据，并将采集的智慧实体状态数据周期性地上传至覆盖其感知范围的本地服务器。

步骤二、搜索记录整理：搜索***以固定时间区间为单位记录本地用户提交的搜索请求，以及记录不同智慧实体被搜索的次数，以便本地服务器预测热点智慧实体集合。

步骤三、热点智慧实体预测：本地服务器根据用户历史搜索记录挖掘智慧实体数据中隐藏的时域相关性并建立相应的热点智慧实体预测模型。优选的具体包括以下步骤：

步骤三(一)、LSTM模型输入是各个智慧实体在上一时刻t-1被搜索数的向量x(t-1)＝{x₁(t-1),x₂(t-1),...,x_q(t-1),...,x_Q(t-1)}，其中，q表示被搜索的某一个智慧实体，x_q(t-1)表示智慧实体q在上一时刻t-1被用户搜索的次数，Q表示t-1时刻被搜索智慧实体的总数量；

步骤三(二)、LSTM网络具有遗忘门f_t、输入门i_t、更新门C_t和输出门o_t四种门结构，用以保持和更新细胞状态，其中f、i、C和o表示四种不同的门结构对应向量，t表示当前时刻。

步骤三(三)、遗忘门层读取上一层的输出h_t-1和当前时刻的输入x_t，输出一个数值f_t，并赋值给当前细胞的状态C_t-1。其中f_t计算方式为：f_t＝σ(W_fx_t+U_fh_t-1+b_f)，h表示隐藏的状态结构，x_t表示当前t时刻LSTM的输入向量，C表示细胞状态向量，f_t表示当前t时刻遗忘门的激活向量，W_f、U_f和b_f分别是遗忘门的输入权重、循环权重和偏置，σ(·)；

步骤三(四)、输入门层包含两个部分。第一部分，通过sigmoid函数决定需要输入什么值。另一部分，通过tanh函数创建一个新的候选值向量，该向量会被加入到状态C_t中。输入门i_t计算公式为：i_t＝σ(W_ix_t+U_ih_t-1+b_i)，新的候选值向量计算为：

，其中W_i、U_i和b_i分别是输入门的输入权重、循环权重和偏置，W_C、U_C和b_C分别是更新门的输入权重、循环权重和偏置，tanh(·)为激活函数；

步骤三(五)、更新门层更新旧细胞状态，将C_t-1更新为C_t，更新方式如：

其中i_t表示当前时刻t所对应的输入向量；

步骤三(六)、输出门层基于细胞的状态输出数值。首先运行一个sigmoid层来确定细胞状态的哪个部分将输出。接着，把细胞状态通过tanh进行处理并将它和sigmoid门的输出相乘。最终会输出确定要输出的部分。该层输出门的输出向量计算方法为：o_t＝σ(W_ox_t+U_oh_t-1+b_o)，隐藏状态向量h_t＝o_t·tanh(C_t)，其中W_o、U_o和b_o分别是输出门层的输入权重、循环权重和偏置，σ(·)和tanh(·)为激活函数，如附图3所示；

步骤三(七)、由于四种门结构的存在，LSTM的能够实现“智能记忆”的功能，因此擅于处理时间序列上的数据。利用LSTM这一优点，将LSTM用于预测各个智慧实体在下一时刻被搜索的次数，以更准确地缓存用户搜索的智慧实体；

步骤三(八)、采用按时间展开的反向误差传播算法(BPTT)进行训练，依据预定义的损失函数迭代修正网络中的权重参数，以最小化智慧实体的预测搜索次数与实际搜索次数的误差。输出是预测出的在时刻t各个智慧实体被搜索次数的向量

其中

表示在时刻t预测智慧实体q被用户搜索的次数；

步骤三(九)、将x^*(t)中的元素进行排序并得到其排序索引o＝{o₁,o₂,...,o_q,...,o_Q}；

步骤三(十)、将o＝{o₁,o₂,...,o_q,...,o_Q}作为Zipf(齐夫定律)模型

的输入，其中i_q是智慧实体q在整个本地服务器中的请求搜索次数的排序索引，

是全部智慧实体所有搜索请求次数的排序索引总和，

是Zipf模型中表征智慧实体流行度分布的参数。当

增加时，就表明搜索请求会更集中在一些热点智慧实体上。由此，即可计算出各个智慧实体在时刻t被搜索的概率：p＝[p₁,p₂,...,p_q,...,p_Q]，其中p_q表示智慧实体q在时刻t被搜索概率。

步骤四、热点智慧实体缓存：根据前述步骤预测本地用户群体关注度比较高的热点智慧实体集合后，本地服务器通过所设计的动态缓存策略实现对热点智慧实体状态数据的主动缓存。优选的具体包括以下步骤：

步骤四(一)、本地服务器根据p＝[p₁,p₂,...,p_q,...,p_Q]创建缓存热点智慧实体的流行度列表，流行度表示智慧实体被搜索的概率；

步骤四(二)、当数据到达本地服务器时，缓存空间未满就直接按照流行度列表依次缓存，如果缓存空间已满，本地服务器就对缓存空间中缓存的智慧实体数据与到达智慧实体数据进行名称匹配，如果能匹配到，由于物联网数据具有时效性，将直接用到达的智慧实体数据替换缓存数据；

步骤四(三)、如果未匹配到，则计算到达智慧实体流行度，到达智慧实体流行度计算为

其中，N表示本地服务器覆盖范围内所有智慧实体数量，k表示到达智慧实体名称，n_k表示在单位周期内本地服务器收到所有名为k的智慧实体被搜索的次数总和，

表示在单位周期内本地服务器收到总的搜索请求次数。每个周期结束时，本地服务器就对n_k的总和进行清零，然后重新计数。

步骤四(四)、如若到达智慧实体的流行度大于流行度表中最小的流行度时，就用到达智慧实体数据替换最小流行度所对应的缓存数据。若小于则不缓存此到达智慧实体数据。

步骤四(五)、由于物联网数据具有新鲜度和生命周期特性，缓存***还会在后台开启一个监控缓存数据过期的任务，定期检测过期缓存数据，一旦检测到有缓存过期，则通知本地服务器进行数据的更新，以保证数据的有效性。

步骤五、用户搜索：当用户发出搜索请求后，本地服务器快速搜索是否有搜索请求匹配的智慧实体状态内容，若有该内容，则表明用户搜索的是热点智慧实体，直接将结果返回即可，若无，则用户搜索的为普通智慧实体，本地服务器将搜索请求下发至与智慧实体关联的传感器，传感器采集数据后通过本地服务器返回至用户，完成整个搜索过程。优选的具体包括以下步骤：

步骤五(一)、热点智慧实体状态数据主动缓存在靠近用户的本地服务器，以满足用户搜索需求；

步骤五(二)、与传统搜索模式不同，当用户提交给定状态搜索智慧实体的命令时，搜索***将搜索请求发出至本地服务器，本地服务器收到请求消息后，快速搜索是否有与搜索请求匹配的智慧实体状态数据，以判别所搜索的智慧实体类型；

步骤五(三)、若本地服务器匹配到与搜索请求相关的智慧实体状态数据信息，则说明用户搜索的是热点智慧实体，直接将搜索结果返回给用户，以降低搜索时延和提高搜索精度；

步骤五(四)、若用户搜索的智慧实体状态数据不在本地服务器，则判断用户搜索的智慧实体为普通智慧实体，本地服务器将搜索请求下发至与智慧实体关联的传感器，传感器采集数据后通过本地服务器返回至用户。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种智能热点数据预测及缓存方法，其特征在于：包括以下步骤：

S3：热点智慧实体预测：本地服务器基于长短期记忆网络LSTM模型，根据用户历史搜索记录挖掘智慧实体数据中隐藏的时域相关性并建立相应的热点智慧实体预测模型；具体包括以下步骤：

其中i_t表示+当前时刻t所对应的输入向量；

其中

表示在时刻t预测智慧实体q被用户搜索的次数；

S39：将o＝{o₁,o₂,...,o_q,...,o_Q}作为Zipf(齐夫定律)模型的输入，计算出各个智慧实体在时刻t被搜索的概率：p＝[p₁,p₂,...,p_q,...,p_Q]，其中p_q表示智慧实体q在时刻t被搜索概率；

S4：热点智慧实体缓存：本地服务器通过所设计的动态缓存策略实现对热点智慧实体状态数据的主动缓存；具体包括以下步骤：

S44：缓存***在后台开启一个监控缓存数据过期的任务，定期检测过期缓存数据，一旦检测到有缓存过期，则通知本地服务器进行数据的更新；

2.根据权利要求1所述的智能热点数据预测及缓存方法，其特征在于：步骤S5具体包括以下步骤：