CN110472004A - 一种科技情报数据多级缓存管理的方法及*** - Google Patents

一种科技情报数据多级缓存管理的方法及*** Download PDF

Info

Publication number
CN110472004A
CN110472004A CN201910782682.9A CN201910782682A CN110472004A CN 110472004 A CN110472004 A CN 110472004A CN 201910782682 A CN201910782682 A CN 201910782682A CN 110472004 A CN110472004 A CN 110472004A
Authority
CN
China
Prior art keywords
scientific
data
keyword
technological information
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910782682.9A
Other languages
English (en)
Other versions
CN110472004B (zh
Inventor
马艳
邹立达
齐达立
陈玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910782682.9A priority Critical patent/CN110472004B/zh
Publication of CN110472004A publication Critical patent/CN110472004A/zh
Application granted granted Critical
Publication of CN110472004B publication Critical patent/CN110472004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种科技情报数据多级缓存管理的方法及***,方法包括以下步骤:收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;预测下一个周期的科技情报用户搜索热点关键词及其访问量;管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。本发明首先基于机器学习的方法预测未来周期的访问量;其次,根据访问量、数据的大小与用户体验函数估算各关键词所需缓存数据的价值;最后,根据价值的大小依次放入各级缓存中,通过多级缓存的管理不仅提高了用户科技情报搜索的速度,而且提高了用户的查询访问效率。

Description

一种科技情报数据多级缓存管理的方法及***
技术领域
本发明涉及一种科技情报数据多级缓存管理的方法及***,属于通信技术领域。
背景技术
科技情报对国家、社会、企业的战略、计划的制定以及实施都发挥了重要作用。随着科学技术日新月异的发展,社会各行业、各单位部门对情报信息的需求更加迫切,科技情报被认为是经济建设、科研、设计、生产、经营管理、市场营销中的关键环节。
科技情报数据库是科研相关工作者获取科技信息的重要来源,用户在使用科技情报数据库时,希望能够快速获得所搜索数据。然而,科技信息检索时,返回的数据会以条目、文档、图片、音视频等形式传送,其结果数据往往会较大,特别是在批量搜索时。这就造成了一些查询访问时间过长,用户体验变差。
将一些频繁查询访问的结果数据放置于缓存中,可以有效加快数据的访问速度。然而,缓存管理是复杂困难的,主要体现在两方面:1)缓存介质多样化。目前,常见的缓存有内存、网络缓存、固态硬盘、磁盘等。每种缓存介质的访问速率不同。2)缓存空间有限。每种磁盘由于成本的原因,可提供的存储空间是有限的。因此,亟需一种多级缓存管理方法,可以有效提高用户的查询访问效率。
发明内容
针对以上方法存在的不足,本发明提出了一种科技情报数据多级缓存管理的方法及***,其能够提高用户科技情报搜索的速度。
本发明解决其技术问题采取的技术方案是:
一方面,本发明实施例提供的一种科技情报数据多级缓存管理的方法,包括以下步骤:
收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
预测下一个周期的科技情报用户搜索热点关键词及其访问量;
管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
作为本实施例一种可能的实现方式,所述收集科技情报数据的步骤包括:
获取科技情报数据库中近期一段时间内的科技信息文章;
设从一个文献库获取科技信息文章集合为Ti,i∈I,I为文献库的标识集合;
利用TF-IDF算法获得Ti|i∈I的各关键词词频权重;
获取各关键词的查询访问量,用S表示近n个周期关键词查询访问量信息的集合;
将各关键词词频权重集合与集合S作为预测数据,并发送到预测数据库作为训练数据。
作为本实施例一种可能的实现方式,所述利用TF-IDF算法获得Ti|i∈I的各关键词词频权重的具体过程为:执行TF-IDF算法进行后,可获得每个Ti的关键词词频权重,用Ai表示Ti关键词词频权重集合,即Ai|i∈I={bi,j|i∈I,j∈Q},其中bi,j为Ti中第j个关键词词频权重,Q为科技词库中词的标识集合。
作为本实施例一种可能的实现方式,所述预测下一个周期的科技情报用户搜索热点关键词及其访问量的步骤包括:
整理训练数据:首先剔除搜索量较小的关键词,其次从预测数据库整理出训练数据;
训练预测模型:选择循环神经网络作为模型,输入输入数据与访问量的真实值对循环神经网络模型进行训练;
使用训练好的模型预测下一周期的查询访问量:设为关键词j预测出下一周期的访问量,Q′为Q剔除搜索量较小的关键词的集合,Q为科技词库中词的标识集合;
将搜索量较答的关键词集合进行多级缓存管理。
作为本实施例一种可能的实现方式,所述管理多级缓存所存储的数据的步骤包括:
获得每个关键词所需缓存数据的大小,设置dj为关键词j所需缓存数据的大小,其中j∈Q′;
设置用户体验函数f(t),其中t为一个查询返回时间;
根据放置策略生成每个缓存所需缓存的数据。
作为本实施例一种可能的实现方式,所述根据放置策略生成每个缓存所需缓存的数据的过程为:
基于用户体验函数、数据大小、访问频率估算待缓存的价值;
优先将价值高的数据放置于访问速率高的缓存中。
作为本实施例一种可能的实现方式,所述根据放置策略生成每个缓存所需缓存的数据的过程包括以下步骤:
根据读写速率对各缓存设备进行排序,由高到低依次设置为c1,c2,…,ci,…,cn,其中,ci代表某一缓存设备,n为缓存设备的数量,所有缓存设备的集合设置为 C,即C={c1,c2,L,ci,L,cn};
设ei为ci的缓存容量;
在集合C中取出一个缓存设备,设为ci
对应的数据价值为xj,用以下公式求得xj
其中,tj,ci表示把所需缓存的数据只放置于ci内所用的查询时间;
对xj|j∈Q′进行排序,依次将所需缓存的数据放置于ci,直到ei耗尽,并更新Q′,即剔除Q′中已经缓存的关键词数据;
重新在集合C中取出一个缓存设备并进行处理,直到所有缓存设备的缓存放置完毕。
作为本实施例一种可能的实现方式,所述方法在收集科技情报数据之前包括周期性发起缓存管理事件的步骤。
另一方面,本发明实施例提供的一种科技情报数据多级缓存管理的***,包括:
科技情报访问数据获取模块,用于收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
查询访问量预测模块,用于预测下一个周期的科技情报用户搜索热点关键词及其访问量;
多级缓存放置模块,用于管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
作为本实施例一种可能的实现方式,所述***还包括:
周期事件模块,用于负责缓存管理的周期,每间隔一段时间向科技情报数据获取模块周期地发送指令发起一次缓存管理事件。
本发明实施例的技术方案可以具有的有益效果如下:
本发明实施例的技术方案的一种科技情报数据多级缓存管理的方法,包括以下步骤:收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;预测下一个周期的科技情报用户搜索热点关键词及其访问量;管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。本发明首先基于机器学习的方法预测未来周期的访问量;其次,根据访问量、数据的大小与用户体验函数估算各关键词所需缓存数据的价值;最后,根据价值的大小依次放入各级缓存中,通过多级缓存的管理不仅提高了用户科技情报搜索的速度,而且提高了用户的查询访问效率。
本发明实施例的技术方案的一种科技情报数据多级缓存管理的***,包括:科技情报访问数据获取模块,用于收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;查询访问量预测模块,用于预测下一个周期的科技情报用户搜索热点关键词及其访问量;多级缓存放置模块,用于管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。本发明通过多级缓存的管理,有效提高了科技情报的访问速率;通过机器学习的方法,较为准确地预测各科技关键词下一周期的访问量。
附图说明:
图1是根据一示例性实施例示出的一种科技情报数据多级缓存管理的方法流程图;
图2是根据一示例性实施例示出的另一种科技情报数据多级缓存管理的方法流程图;
图3是根据一示例性实施例示出的一种科技情报数据多级缓存管理的***结构图;
图4(a)-图4(c)是用户体验函数的举例示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
在设计管理缓存之前,有一个重要前提是需要知晓未来哪些数据会被频繁访问。如此可以将最有价值的数据放置于有限的缓存中,以提高缓存的利用效率。科技情报数据库的用户常以关键词进行搜索。比如,基于主题名、作者、期刊等关键词搜索。因此,还需要一种可以准确预测未来一个周期内,每个关键词的访问频率的方法。
图1是根据一示例性实施例示出的一种科技情报数据多级缓存管理的方法的流程图。如图1所述,本发明实施例提供的一种科技情报数据多级缓存管理的方法,包括以下步骤:
收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
预测下一个周期的科技情报用户搜索热点关键词及其访问量;
管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
作为本实施例一种可能的实现方式,所述收集科技情报数据的步骤包括:
获取科技情报数据库中近期一段时间内的科技信息文章;
设从一个文献库获取科技信息文章集合为Ti,i∈I,I为文献库的标识集合;
利用TF-IDF算法获得Ti|i∈I的各关键词词频权重;
获取各关键词的查询访问量,用S表示近n个周期关键词查询访问量信息的集合;
将各关键词词频权重集合与集合S作为预测数据,并发送到预测数据库作为训练数据。
作为本实施例一种可能的实现方式,所述利用TF-IDF算法获得Ti|i∈I的各关键词词频权重的具体过程为:执行TF-IDF算法进行后,可获得每个Ti的关键词词频权重,用Ai表示Ti关键词词频权重集合,即Ai|i∈I={bi,j|i∈I,j∈Q},其中bi,j为Ti中第j个关键词词频权重,Q为科技词库中词的标识集合。
作为本实施例一种可能的实现方式,所述预测下一个周期的科技情报用户搜索热点关键词及其访问量的步骤包括:
整理训练数据:首先剔除搜索量较小的关键词,其次从预测数据库整理出训练数据;
训练预测模型:选择循环神经网络作为模型,输入输入数据与访问量的真实值对循环神经网络模型进行训练;
使用训练好的模型预测下一周期的查询访问量:设为关键词j预测出下一周期的访问量,Q′为Q剔除搜索量较小的关键词的集合,Q为科技词库中词的标识集合;
将搜索量较答的关键词集合进行多级缓存管理。
作为本实施例一种可能的实现方式,所述管理多级缓存所存储的数据的步骤包括:
获得每个关键词所需缓存数据的大小,设置dj为关键词j所需缓存数据的大小,其中j∈Q′;
设置用户体验函数f(t),其中t为一个查询返回时间;
根据放置策略生成每个缓存所需缓存的数据。
作为本实施例一种可能的实现方式,所述根据放置策略生成每个缓存所需缓存的数据的过程为:
基于用户体验函数、数据大小、访问频率估算待缓存的价值;
优先将价值高的数据放置于访问速率高的缓存中。
作为本实施例一种可能的实现方式,所述根据放置策略生成每个缓存所需缓存的数据的过程包括以下步骤:
根据读写速率对各缓存设备进行排序,由高到低依次设置为c1,c2,…,ci,…,cn,其中,ci代表某一缓存设备,n为缓存设备的数量,所有缓存设备的集合设置为C,即C={c1,c2,L,ci,L,cn};
设ei为ci的缓存容量;
在集合C中取出一个缓存设备,设为ci
对应的数据价值为xj,用以下公式求得xj
其中,tj,ci表示把所需缓存的数据只放置于ci内所用的查询时间;
对xj|j∈Q′进行排序,依次将所需缓存的数据放置于ci,直到ei耗尽,并更新Q′,即剔除Q′中已经缓存的关键词数据;
重新在集合C中取出一个缓存设备并进行处理,直到所有缓存设备的缓存放置完毕。
本发明首先基于机器学习的方法预测未来周期的访问量;其次,根据访问量、数据的大小与用户体验函数估算各关键词所需缓存数据的价值;最后,根据价值的大小依次放入各级缓存中,通过多级缓存的管理不仅提高了用户科技情报搜索的速度,而且提高了用户的查询访问效率。
作为本实施例一种可能的实现方式,在图1所示方法基础上,增加了周期性发起缓存管理事件的步骤,如图2所示,所述方法在收集科技情报数据之前包括周期性发起缓存管理事件的步骤。
图3是根据一示例性实施例示出的一种科技情报数据多级缓存管理的***结构图;如图3所述,本发明实施例提供的一种科技情报数据多级缓存管理的***,包括:
科技情报访问数据获取模块,用于收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
查询访问量预测模块,用于预测下一个周期的科技情报用户搜索热点关键词及其访问量;
多级缓存放置模块,用于管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
作为本实施例一种可能的实现方式,所述***还包括:
周期事件模块,用于负责缓存管理的周期,每间隔一段时间向科技情报数据获取模块周期地发送指令发起一次缓存管理事件。
如图3所示,本发明所述的***分为四个模块:周期事件模块、科技情报访问数据获取模块、查询访问量预测模块和多级缓存放置模块。
一、周期事件模块
负责缓存管理的周期,每间隔一段时间发起一次缓存管理事件。其向科技情报数据获取模块周期地发送指令。
二、科技情报访问数据获取模块
负责收集科技情报数据。主要目的是获得近期一段时间内,各关键词的真实查询访问量、各关键词在近期科技文献中所占权重。该模块将这些数据发送到查询访问量预测模块以预测下一周期的访问量。
科技情报访问数据获取模块收集科技情报数据的具体步骤如下:
1)获取科技情报数据库中近期一段时间内的科技信息文章。近期一段时间的时长可以设置为一个预测周期时间跨度的n倍,如一个周期的时间跨度为一周,设置为n=10,即获取近10周新发布的科技文章。
2)设从一个文献库获取科技信息文章集合为Ti,i∈I,I为文献库的标识集合。如从期刊文献库文章获取科技文献集合为T1,从会议文献库获取的文献集合为T2,从学位论文文献库获取的文献集合为T3,等等。
3)基于TF-IDF算法获得Ti|i∈I的各关键词词频权重。执行TF-IDF算法后,可获得每个Ti的关键词词频权重。用Ai表示Ti关键词词频权重集合,即 Ai|i∈I={bi,j|i∈I,j∈Q}。其中bi,j为Ti中第j个关键词词频权重,Q为科技词库中词的标识集合。
4)获取各关键词的查询访问量,用S表示近n个周期关键词查询访问量信息的集合,即S={sk,j|k∈[1,n],k为整数,j∈Q}。其中,sk,j表示Q中第j个关键词在之前第k个周期中的访问量,n为S记录访问数据的最早周期数。
5)将Ai|i∈I与S数据发送到查询访问量预测模块作为预测数据,并且发送到预测数据库存储以提供训练数据。
三、查询访问量预测模块
负责预测下一个周期的科技情报用户搜索热点关键词及其访问量。该模块针对科技情报数据库的访问特点,整理训练数据、训练时序模型,而后预测下一周期的访问量。该模块将搜索热点关键词及其访问量数据发送到多级缓存放置模块。
查询访问量预测模块预测下一个周期的科技情报用户搜索热点关键词及其访问量的具体步骤如下:
1)数据准备。首先,剔除搜索量较小的关键词。其次,从预测数据库整理出用于训练的数据。用X与Y分别表示训练的输入数据与访问量的真实值。 X={xi|i<n,i为整数},Y={yi|i<n,i为整数},其中xi与yi是一条输入数据及其对应的真实值,n为训练数据的数量。xi=<{ba,j|a∈I,j为Q的一个标识},{sk,j|k∈[1,n],k为整数,j为Q的一个标识}>,yi=s0,j,s0,j为下一周期标识为j关键词的真实访问量。
2)训练预测模型。选择一种循环神经网络作为模型,如LSTM、RNN或者 GRU。输入X与Y对模型进行训练。
3)使用训练好的模型,预测下一周期的查询访问量。设为关键词j预测出下一周期的访问量。Q′为Q剔除搜索量较小的关键词的集合。
4)将发送到多级缓存放置模块。
四、多级缓存放置模块
负责管理多级缓存所存储的数据。多级缓存包括内存、网络内存、固态硬盘、磁盘等介质,其特点是读写速率越快缓存容量越小。多级缓存放置模块管理各级缓存数据,使得总体访问效率较高、用户访问体验好。
多级缓存放置模块管理多级缓存所存储的数据的具体步骤如下:
1)获得每个关键词所需缓存数据的大小,即当用户查询访问某一个关键词时,***返回数据的大小。若把这些数据提前放置到缓存中,可以有效提高访问效率。设置dj为关键词j所需缓存数据的大小,其中j∈Q′。
2)设置用户体验函数f(t),其中t为一个查询返回时间。该函数表达了一个用户体验指数随t的变化,规定指数越高体验越差,指数越低体验越好。如可以设定f(t)=t,如图4(a);也可以设置非连续的分段函数,如图4(b)和图 4(c)。
3)根据放置策略生成每个缓存所需缓存的数据。该策略首先基于用户体验函数、数据大小、访问频率估算待缓存的价值;其次,优先将价值高的数据放置于访问速率高的缓存中。
根据放置策略生成每个缓存所需缓存的数据的具体步骤如下:
i.根据读写速率对各缓存设备排序,由高到低依次设置为c1,c2,L,ci,L,cn。其中,ci代表某一缓存设备,n为缓存设备的数量。所有缓存设备的集合设置为C,即C={c1,c2,L,ci,L,cn}
ii.设ei为ci的缓存容量。
iii.在C中依次取出一个缓存设备,设为ci
iv.设对应的数据价值为xj,则可用以下公式求得:
vi.其中tj,ci表示:若把所需缓存的数据只放置于ci内,所用的查询时间。
vii.对xj|j∈Q′排序,依次将所需缓存的数据放置于ci,直到ei耗尽。更新Q′,即剔除Q′中已经缓存的关键词数据。
viii.重复执行iii,直到所有缓存设备的缓存放置完毕。
本发明通过多级缓存的管理,有效提高了科技情报的访问速率;通过机器学习的方法,较为准确地预测各科技关键词下一周期的访问量。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视作为本发明的保护范围。

Claims (10)

1.一种科技情报数据多级缓存管理的方法,其特征是,包括以下步骤:
收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
预测下一个周期的科技情报用户搜索热点关键词及其访问量;
管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
2.根据权利要求1所述的一种科技情报数据多级缓存管理的方法,其特征是,所述收集科技情报数据的步骤包括:
获取科技情报数据库中近期一段时间内的科技信息文章;
设从一个文献库获取科技信息文章集合为Ti,i∈I,I为文献库的标识集合;
利用TF-IDF算法获得Ti|i∈I的各关键词词频权重;
获取各关键词的查询访问量,用S表示近n个周期关键词查询访问量信息的集合;
将各关键词词频权重集合与集合S作为预测数据,并发送到预测数据库作为训练数据。
3.根据权利要求2所述的一种科技情报数据多级缓存管理的方法,其特征是,所述利用TF-IDF算法获得Ti|i∈I的各关键词词频权重的具体过程为:执行TF-IDF算法进行后,可获得每个Ti的关键词词频权重,用Ai表示Ti关键词词频权重集合,即Ai|i∈I={bi,j|i∈I,j∈Q},其中bi,j为Ti中第j个关键词词频权重,Q为科技词库中词的标识集合。
4.根据权利要求2或3所述的一种科技情报数据多级缓存管理的方法,其特征是,所述预测下一个周期的科技情报用户搜索热点关键词及其访问量的步骤包括:
整理训练数据:首先剔除搜索量较小的关键词,其次从预测数据库整理出训练数据;
训练预测模型:选择循环神经网络作为模型,输入输入数据与访问量的真实值对循环神经网络模型进行训练;
使用训练好的模型预测下一周期的查询访问量:设为关键词j预测出下一周期的访问量,Q′为Q剔除搜索量较小的关键词的集合,Q为科技词库中词的标识集合;
将搜索量较答的关键词集合进行多级缓存管理。
5.根据权利要求4所述的一种科技情报数据多级缓存管理的方法,其特征是,所述管理多级缓存所存储的数据的步骤包括:
获得每个关键词所需缓存数据的大小,设置dj为关键词j所需缓存数据的大小,其中j∈Q′;
设置用户体验函数f(t),其中t为一个查询返回时间;
根据放置策略生成每个缓存所需缓存的数据。
6.根据权利要求5所述的一种科技情报数据多级缓存管理的方法,其特征是,所述根据放置策略生成每个缓存所需缓存的数据的过程为:
基于用户体验函数、数据大小、访问频率估算待缓存的价值;
优先将价值高的数据放置于访问速率高的缓存中。
7.根据权利要求5或6所述的一种科技情报数据多级缓存管理的方法,其特征是,所述根据放置策略生成每个缓存所需缓存的数据的过程包括以下步骤:
根据读写速率对各缓存设备进行排序,由高到低依次设置为c1,c2,…,ci,…,cn,其中,ci代表某一缓存设备,n为缓存设备的数量,所有缓存设备的集合设置为C,即C={c1,c2,L,ci,L,cn};
设ei为ci的缓存容量;
在集合C中取出一个缓存设备,设为ci
对应的数据价值为xj,用以下公式求得xj
其中,表示把所需缓存的数据只放置于ci内所用的查询时间;
对xj|j∈Q′进行排序,依次将所需缓存的数据放置于ci,直到ei耗尽,并更新Q′,即剔除Q′中已经缓存的关键词数据;
重新在集合C中取出一个缓存设备并进行处理,直到所有缓存设备的缓存放置完毕。
8.根据权利要求1至7任意一项所述的一种科技情报数据多级缓存管理的方法,其特征是,在收集科技情报数据之前包括周期性发起缓存管理事件的步骤。
9.一种科技情报数据多级缓存管理的***,其特征是,包括:
科技情报访问数据获取模块,用于收集科技情报数据,所述科技情报数据包括关键词的真实查询访问量、关键词在近期科技文献中所占权重;
查询访问量预测模块,用于预测下一个周期的科技情报用户搜索热点关键词及其访问量;
多级缓存放置模块,用于管理多级缓存所存储的数据,所述多级缓存包括内存、网络内存、固态硬盘和磁盘。
10.根据权利要求9所述的一种科技情报数据多级缓存管理的***,其特征是,还包括:
周期事件模块,用于负责缓存管理的周期,每间隔一段时间向科技情报数据获取模块周期地发送指令发起一次缓存管理事件。
CN201910782682.9A 2019-08-23 2019-08-23 一种科技情报数据多级缓存管理的方法及*** Active CN110472004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910782682.9A CN110472004B (zh) 2019-08-23 2019-08-23 一种科技情报数据多级缓存管理的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910782682.9A CN110472004B (zh) 2019-08-23 2019-08-23 一种科技情报数据多级缓存管理的方法及***

Publications (2)

Publication Number Publication Date
CN110472004A true CN110472004A (zh) 2019-11-19
CN110472004B CN110472004B (zh) 2022-07-08

Family

ID=68513622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910782682.9A Active CN110472004B (zh) 2019-08-23 2019-08-23 一种科技情报数据多级缓存管理的方法及***

Country Status (1)

Country Link
CN (1) CN110472004B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090674A (zh) * 2019-12-28 2020-05-01 安徽微沃信息科技股份有限公司 一种基于热词和缓存的搜索引擎***
CN111832815A (zh) * 2020-07-02 2020-10-27 山东电力研究院 科研热点预测方法及***
CN112948289A (zh) * 2021-03-03 2021-06-11 上海天旦网络科技发展有限公司 一种基于机器学习的缓存预测调度方法、***及介质
CN113590795A (zh) * 2021-08-03 2021-11-02 中国银行股份有限公司 知识点处理方法、装置、服务器、介质及产品
CN113703688A (zh) * 2021-09-20 2021-11-26 河南锦誉网络科技有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN113867646A (zh) * 2021-09-30 2021-12-31 福建极存数据科技有限公司 一种磁盘性能提升方法及终端

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027864A1 (en) * 2005-07-29 2007-02-01 Collins Robert J System and method for determining semantically related terms
US20070239703A1 (en) * 2006-03-31 2007-10-11 Microsoft Corporation Keyword search volume seasonality forecasting engine
CN103034660A (zh) * 2011-10-10 2013-04-10 阿里巴巴集团控股有限公司 信息提供方法、装置及***
US20140143271A1 (en) * 2012-11-21 2014-05-22 General Electric Company Multi-level medical image viewer memory management
CN104217019A (zh) * 2014-09-25 2014-12-17 中国人民解放军信息工程大学 基于多级缓存模块的内容查询方法和装置
CN104794228A (zh) * 2015-04-30 2015-07-22 北京奇艺世纪科技有限公司 一种搜索结果提供方法及装置
CN104965893A (zh) * 2015-06-18 2015-10-07 山东师范大学 一种大数据广告投放方法
CN105573669A (zh) * 2015-12-11 2016-05-11 上海爱数信息技术股份有限公司 一种存储***的io读加速缓存方法和***
US20160147666A1 (en) * 2013-07-31 2016-05-26 Huawei Technologies Co., Ltd. Multilevel Cache-Based Data Read/Write Method and Apparatus, and Computer System
CN106528761A (zh) * 2016-11-04 2017-03-22 郑州云海信息技术有限公司 一种文件缓存方法及装置
CN107301215A (zh) * 2017-06-09 2017-10-27 北京奇艺世纪科技有限公司 一种搜索结果缓存方法及装置、搜索方法及装置
CN108132958A (zh) * 2016-12-01 2018-06-08 阿里巴巴集团控股有限公司 一种多级缓存数据存储、查询、调度以及处理方法及装置
CN109214562A (zh) * 2018-08-24 2019-01-15 国网山东省电力公司电力科学研究院 一种基于rnn的电网科研热点预测与推送方法
CN109918448A (zh) * 2019-03-06 2019-06-21 电子科技大学 一种基于用户行为的云存储数据分级方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027864A1 (en) * 2005-07-29 2007-02-01 Collins Robert J System and method for determining semantically related terms
US20070239703A1 (en) * 2006-03-31 2007-10-11 Microsoft Corporation Keyword search volume seasonality forecasting engine
CN103034660A (zh) * 2011-10-10 2013-04-10 阿里巴巴集团控股有限公司 信息提供方法、装置及***
US20140143271A1 (en) * 2012-11-21 2014-05-22 General Electric Company Multi-level medical image viewer memory management
US20160147666A1 (en) * 2013-07-31 2016-05-26 Huawei Technologies Co., Ltd. Multilevel Cache-Based Data Read/Write Method and Apparatus, and Computer System
CN104217019A (zh) * 2014-09-25 2014-12-17 中国人民解放军信息工程大学 基于多级缓存模块的内容查询方法和装置
CN104794228A (zh) * 2015-04-30 2015-07-22 北京奇艺世纪科技有限公司 一种搜索结果提供方法及装置
CN104965893A (zh) * 2015-06-18 2015-10-07 山东师范大学 一种大数据广告投放方法
CN105573669A (zh) * 2015-12-11 2016-05-11 上海爱数信息技术股份有限公司 一种存储***的io读加速缓存方法和***
CN106528761A (zh) * 2016-11-04 2017-03-22 郑州云海信息技术有限公司 一种文件缓存方法及装置
CN108132958A (zh) * 2016-12-01 2018-06-08 阿里巴巴集团控股有限公司 一种多级缓存数据存储、查询、调度以及处理方法及装置
CN107301215A (zh) * 2017-06-09 2017-10-27 北京奇艺世纪科技有限公司 一种搜索结果缓存方法及装置、搜索方法及装置
CN109214562A (zh) * 2018-08-24 2019-01-15 国网山东省电力公司电力科学研究院 一种基于rnn的电网科研热点预测与推送方法
CN109918448A (zh) * 2019-03-06 2019-06-21 电子科技大学 一种基于用户行为的云存储数据分级方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MA, YAN等: "Cache Management of Big Data in Equipment Condition Assessment", 《MATEC WEB OF CONFERENCES》, 7 December 2016 (2016-12-07) *
吕帅等: "海量信息分级存储数据迁移策略研究", 《计算机工程与科学》 *
吕帅等: "海量信息分级存储数据迁移策略研究", 《计算机工程与科学》, vol. 31, no. 1, 15 October 2009 (2009-10-15) *
赵晓南等: "分级存储管理技术研究", 《计算机研究与发展》 *
赵晓南等: "分级存储管理技术研究", 《计算机研究与发展》, no. 48, 15 February 2011 (2011-02-15) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090674A (zh) * 2019-12-28 2020-05-01 安徽微沃信息科技股份有限公司 一种基于热词和缓存的搜索引擎***
CN111090674B (zh) * 2019-12-28 2022-11-29 安徽微沃信息科技股份有限公司 一种基于热词和缓存的搜索引擎***
CN111832815A (zh) * 2020-07-02 2020-10-27 山东电力研究院 科研热点预测方法及***
CN111832815B (zh) * 2020-07-02 2023-12-05 国网山东省电力公司电力科学研究院 科研热点预测方法及***
CN112948289A (zh) * 2021-03-03 2021-06-11 上海天旦网络科技发展有限公司 一种基于机器学习的缓存预测调度方法、***及介质
CN113590795A (zh) * 2021-08-03 2021-11-02 中国银行股份有限公司 知识点处理方法、装置、服务器、介质及产品
CN113590795B (zh) * 2021-08-03 2024-02-20 中国银行股份有限公司 知识点处理方法、装置、服务器、介质及产品
CN113703688A (zh) * 2021-09-20 2021-11-26 河南锦誉网络科技有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN113703688B (zh) * 2021-09-20 2024-03-15 安徽丰合佳行信息技术有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN113867646A (zh) * 2021-09-30 2021-12-31 福建极存数据科技有限公司 一种磁盘性能提升方法及终端
CN113867646B (zh) * 2021-09-30 2022-03-18 福建极存数据科技有限公司 一种磁盘性能提升方法及终端
WO2023050488A1 (zh) * 2021-09-30 2023-04-06 福建极存数据科技有限公司 一种磁盘性能提升方法及终端

Also Published As

Publication number Publication date
CN110472004B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN110472004A (zh) 一种科技情报数据多级缓存管理的方法及***
Papenbrock et al. Progressive duplicate detection
CN110968272B (zh) 基于时间序列预测的海量小文件存储性能优化方法及***
CN101140588A (zh) 一种关联关系搜索结果的排序方法及装置
CN103310012A (zh) 一种分布式网络爬虫***
CN100354863C (zh) 大规模关键词匹配的方法和***
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及***
Kolobov et al. Optimal freshness crawl under politeness constraints
CN103995828B (zh) 一种云存储日志数据分析方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN107426315A (zh) 一种基于BP神经网络的分布式缓存***Memcached的改进方法
CN109471971A (zh) 一种面向教育领域资源云存储的语义预取***及方法
CN107133321B (zh) 页面的搜索特性的分析方法和分析装置
CN103186650A (zh) 一种搜索方法和装置
CN117648302A (zh) 一种计算数据温度并进行分层存储管理的方法
CN113268458B (zh) 一种基于代价敏感分类算法的缓存方法及***
CN108280176A (zh) 基于MapReduce的数据挖掘优化方法
CN108256086A (zh) 数据特征统计分析方法
Caverlee et al. Distributed query sampling: A quality-conscious approach
Bansal et al. Ad-hoc aggregations of ranked lists in the presence of hierarchies
Henrique et al. A new approach for verifying url uniqueness in web crawlers
Maratea et al. An heuristic approach to page recommendation in web usage mining
CN102651014B (zh) 基于概念关系的领域数据语义的检索方法
Rekatsinas et al. CRUX: Adaptive Querying for Efficient Crowdsourced Data Extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant