CN101882155B - 一种文件预测准确度的统计方法及装置 - Google Patents

一种文件预测准确度的统计方法及装置 Download PDF

Info

Publication number
CN101882155B
CN101882155B CN2010102058032A CN201010205803A CN101882155B CN 101882155 B CN101882155 B CN 101882155B CN 2010102058032 A CN2010102058032 A CN 2010102058032A CN 201010205803 A CN201010205803 A CN 201010205803A CN 101882155 B CN101882155 B CN 101882155B
Authority
CN
China
Prior art keywords
prediction
statistic
statistic chain
chain
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010102058032A
Other languages
English (en)
Other versions
CN101882155A (zh
Inventor
程旭
何俊
管雪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongzhi Core Technology Co Ltd
Original Assignee
BEIDA ZHONGZHI MICROSYSTEM SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA ZHONGZHI MICROSYSTEM SCIENCE AND TECHNOLOGY Co Ltd BEIJING filed Critical BEIDA ZHONGZHI MICROSYSTEM SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority to CN2010102058032A priority Critical patent/CN101882155B/zh
Publication of CN101882155A publication Critical patent/CN101882155A/zh
Application granted granted Critical
Publication of CN101882155B publication Critical patent/CN101882155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种文件预测准确度的统计方法及装置,该方法包括:配置一第一统计链和一第二统计链,所述第一统计链和所述第二统计链具有相同的统计周期,所述第一统计链和所述第二统计链的启动时间相差半个所述统计周期;控制所述第一统计链和所述第二统计链从各自的启动时间开始,在所述统计周期的前半个周期内统计候选预测的结果;在后半个统计周期内继续统计候选预测的结果,并根据该周期内当前统计到的候选预测的结果来计算并输出候选预测的正确率。该方法不但能够将预测的偶然波动性降到最低,而且能够确保性能评估输出的连续性。

Description

一种文件预测准确度的统计方法及装置
技术领域
本发明涉及文件***、文件预取算法以及文件访问行为建模与定量分析方法。 
背景技术
由于计算机存储***中,磁带、磁盘等大数据量存储设备由于自身机械特性的限制,数据传输速率的提升空间有限。因此高速访问设备(如内存)与低速访问设备(如磁盘、磁带)访问速度差距越来越大。 
一般来说磁盘的访问速度在很大的程度上限制了计算机整体性能的提高。但随着缓存技术的出现,这一状况得到改观。当***所需的数据从磁盘加载到内存中后,可以长期驻留在内存中。后续对相同数据的访问可以不用再访问磁盘而直接从内存中获取。 
但缓存技术是一种被动加速磁盘文件访问速度的方法。无论是什么样的缓存技术,第一次数据访问总需要等待磁盘的操作完成才可以进行。如果访问的文件比较多并且对每个文件访问的时间比较少,那么缓存技术几乎无法提高***的数据访问速度。 
正因为如此,文件预取作为一种主动加速文件访问速度的方法被广泛使用。由于数据访问的时间以及空间局部性,一个文件的后继访问文件在一定程度上具有可预测性。但预取本身具有一定的代价,文件预取会加重***数据处理负载。如果预取失败次数较多,会使严重影响***性能。 
在这种情况下,预取准确度成为是否实施预取行为的一个重要评价指标。只有当预取准确度达到一定阈值时,才认为预取行为的实施会对性能带来提升。预取准确度的评估主要使用文件预测的最近历史统计。 
参见图1,该图示出了一种文件预读统计周期的划分,其中,一个文件预取算法会给出多个候选预测,对于一个候选预测PAB来说,候选预测序列中PAB的预测结果被划分为若干个统计周期(statistical cycles),每一个统计周期中含有2N个PAB的候选预测。每个统计周期进一步被划分为预热(warm-up)和使用(in-use)两个阶段(各占半个统计周期):其中预热阶段只统计PAB预测的结果,并不给出PAB预测准确度;使用阶段在继续完成预热阶段中涉及到的统计工作外还会给出PAB正确的概率。 
申请人通过深入的研究,注意到按照图1所示文件预读统计周期的划分及处理方式,在一个周期中的前半个周期将无法给出PAB正确的概率统计值,而且,在后半个周期给出的PAB正确的概率统计值是一个周期内的统计值,由于文件访问具有时间局部性,因此长时间的统计信息并不能有效地反映和估计某一预测当前的精确度。当然,时间过短的统计信息也无法有效地反映一个预测的稳定精度。因此,如何设计一种有效的统计方法正是本发明所需要解决的问题。 
发明内容
本发明要解决的技术问题是,提供一种文件预测准确度的统计方法及装置,不但能够将预测的偶然波动性降到最低,而且能够确保性能评估输出的连续性。 
为了解决上述技术问题,本发明提出一种文件预测准确度的统计方法,包括: 
配置一第一统计链和一第二统计链,所述第一统计链和所述第二统计链具有相同的统计周期,所述第一统计链和所述第二统计链的启动时间相差半个所述统计周期; 
控制所述第一统计链和所述第二统计链从各自的启动时间开始,在所述统计周期的前半个周期内统计候选预测的结果;在后半个统计周期内继续统计候选预测的结果,并根据该后半个统计周期内当前统计到的候选预测的结果来计算并输出候选预测的正确率。 
进一步地,上述统计方法还可具有以下特点: 
在所述统计周期中,前半个周期为预热阶段,后半个周期为使用阶段; 
所述第一统计链在预热阶段时,所述第二统计链在使用阶段;或者所述第一统计链在使用阶段时,所述第二统计链在预热阶段。 
进一步地,上述统计方法还可具有以下特点: 
所述候选预测是根据预设的文件预测算法计算出的关于一个文件的后继访问文件的预测。 
为了解决上述技术问题,本发明还提出一种文件预测准确度的统计处理装置,包括配置模块和统计处理模块,其中: 
所述配置模块,用以配置一第一统计链和一第二统计链,所述第一统计链和所述第二统计链具有相同的统计周期,所述第一统计链和所述第二统计链的启动时间相差半个所述统计周期; 
所述统计处理模块,用以控制所述配置模块中配置的所述第一统计链和所述第二统计链从各自的启动时间开始,在所述统计周期的前半个周期内统计候选预测的结果;在后半个统计周期内继续统计候选预测的结果,并根据该后半个统计周期内当前统计到的候选预测的结果来计算并输出候选预测的正确率。 
进一步地,上述装置还可具有以下特点: 
所述配置模块配置的统计周期中,前半个周期为预热阶段,后半个周期为使用阶段; 
所述统计处理模块,控制所述第一统计链在预热阶段时,所述第二统计链在使用阶段;或者控制所述第一统计链在使用阶段时,所述第二统计链在预热阶段。 
进一步地,上述装置还可具有以下特点: 
所述候选预测是根据预设的文件预测算法计算出的关于一个文件的后继访问文件的预测。 
本发明提供的一种文件预测准确度的统计方法及装置,相对于现有技术, 具有如下优点: 
第一,所有关于候选预测的统计结果都是经过一段历史积累的,能够将预测的偶然波动性降到最低; 
第二,关于候选预测的预测精度的估计都是使用最近历史的M(N<=M<=2N)个预测结果,保证了对“当前”性能的估计; 
第三,任意时刻都能输出候选预测的正确率,保证了性能评估输出的连续性。 
基于上述三点,采用本发明技术方案能够充分发掘当前***的文件访问行为和模式。 
附图说明
图1是现有技术中文件预读统计周期的划分及处理示意图; 
图2是本发明实施例一种文件预测精度统计方法流程图; 
图3A和图3B是本发明实施例一种文件预测精度统计方法具体实施的示意图; 
图4是本发明实施例一种文件预测精度统计装置方框图。 
具体实施方式
参见图2,该图示出了本发明实施例一种文件预测精度统计方法,包括如下步骤: 
步骤S201:配置一第一统计链和一第二统计链,所述第一统计链和所述第二统计链具有相同的统计周期,所述第一统计链和所述第二统计链的启动时间相差半个所述统计周期; 
步骤S202:控制所述第一统计链和所述第二统计链从各自的启动时间开始,在所述统计周期的前半个周期内统计候选预测的结果;在后半个统计周期内继续统计候选预测的结果,并根据该周期内当前统计到的候选预测的结 果来计算并输出候选预测的正确率。 
候选预测的结果包括候选预测正确和候选预测错误;候选预测的正确率是指某文件预测在一段时间内预测正确的次数占所有预测次数的百分比。 
所述统计周期的前半个周期为预热阶段,后半个周期为使用阶段。 
所述第一统计链和所述第二统计链均从各自的起始时间开始,在前半个统计周期执行预热阶段处理,在后半个统计周期内执行使用阶段处理。由于本发明实施例巧妙地设计2个统计链,且2个统计链的启动时间相差半个所述统计周期,因此,所述第一统计链在预热阶段时,所述第二统计链在使用阶段;或者,所述第一统计链在使用阶段时,所述第二统计链在预热阶段,如图3所示。采用本发明实施例技术方案,可以有效地确保任意时刻都有一条统计链能够输出候选预测的正确率,进而能够实时输出当前候选预测的正确率。 
执行预热阶段处理包括:统计候选预测的结果。预热阶段的统计是经过一段历史积累的(半个统计周期),因此能够将预测的偶然波动性降到最低,其主要被用于消除统计结果中可能出现的波动性。 
执行使用阶段处理包括:在统计候选预测的结果的同时还计算候选预测准确度。使用阶段是在预热基础上还负责输出的统计半周期,使用阶段能够输出稳定并且最新的统计结果,因为一个使用阶段与预热持续相同的时间,这保证了数据的稳定,同时还能反映最近的历史状况。 
由于所述第一统计链和所述第二统计链在一个统计周期内均执行预热阶段处理和使用阶段处理,因此,其输出的候选预测的正确率不但已经消除了可能出现的波动性,很稳定;而且具有实时输出统计结果的特点,保证了对“当前”性能的估计,保证了性能评估输出的连续性。 
所述候选预测(Candidate Prediction)是指某个特定的文件预测算法(如Last Successor、Static Successor、Recent Popularity等)给出的关于一个文件的后继访问文件的预测。通常使用PAB来表示一个候选预测,该候选预测指出文件A的后继访问文件为B的概率。 
由于每一个统计周期中含有2N个PAB的候选预测,而所述第一统计链 和所述第二统计链的启动时间相差半个所述统计周期,因此,所述第一统计链和所述第二统计链之间相差N个PAB的结果。 
本发明实施例提供的上述方法,充分考虑了数据访问的时间局部性以及统计中可能出现的“颠簸”,巧妙的使用交替统计的方法高效地估计了预取算法实施过程中某候选预测的精度。本发明的应用不限于文件预取算法精确度的估计,也使用于其他有类似需求的统计建模过程。 
为了实现上述方法,本发明实施例还提供了一种文件预测准确度的统计装置,包括配置模块和统计处理模块,其中: 
所述配置模块,用以配置一第一统计链和一第二统计链,所述第一统计链和所述第二统计链具有相同的统计周期,所述第一统计链和所述第二统计链的启动时间相差半个所述统计周期。 
所述统计处理模块,用以控制所述配置模块中配置的所述第一统计链和所述第二统计链从各自的启动时间开始,在所述统计周期的前半个周期内统计候选预测的结果;在后半个统计周期内继续统计候选预测的结果,并根据该周期内当前统计到的候选预测的结果来计算并输出候选预测的正确率。 
进一步地,所述配置模块配置的统计周期中,前半个周期为预热阶段,后半个周期为使用阶段。所述统计处理模块,控制所述第一统计链在预热阶段时,所述第二统计链在使用阶段;或者控制所述第一统计链在使用阶段时,所述第二统计链在预热阶段。 
进一步地,所述候选预测是根据预设的文件预测算法计算出的关于一个文件的后继访问文件的预测。 
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。 

Claims (4)

1.一种文件预测准确度的统计方法,包括:
配置一第一统计链和一第二统计链,所述第一统计链和所述第二统计链具有相同的统计周期,所述第一统计链和所述第二统计链的启动时间相差半个所述统计周期;
控制所述第一统计链和所述第二统计链从各自的启动时间开始,在所述统计周期的前半个周期内统计候选预测的结果;在后半个统计周期内继续统计候选预测的结果,并根据该后半个统计周期内当前统计到的候选预测的结果来计算并输出候选预测的正确率;其中:
在所述统计周期中,前半个周期为预热阶段,后半个周期为使用阶段;
所述第一统计链在预热阶段时,所述第二统计链在使用阶段;或者所述第一统计链在使用阶段时,所述第二统计链在预热阶段。
2.如权利要求1所述的方法,其特征在于:
所述候选预测是根据预设的文件预测算法计算出的关于一个文件的后继访问文件的预测。
3.一种文件预测准确度的统计装置,其特征在于,包括配置模块和统计处理模块,其中:
所述配置模块,用以配置一第一统计链和一第二统计链,所述第一统计链和所述第二统计链具有相同的统计周期,所述第一统计链和所述第二统计链的启动时间相差半个所述统计周期;
所述统计处理模块,用以控制所述配置模块中配置的所述第一统计链和所述第二统计链从各自的启动时间开始,在所述统计周期的前半个周期内统计候选预测的结果;在后半个统计周期内继续统计候选预测的结果,并根据该后半个统计周期内当前统计到的候选预测的结果来计算并输出候选预测的正确率;其中:
所述配置模块配置的统计周期中,前半个周期为预热阶段,后半个周期为使用阶段;
所述统计处理模块,控制所述第一统计链在预热阶段时,所述第二统计链在使用阶段;或者控制所述第一统计链在使用阶段时,所述第二统计链在预热阶段。
4.如权利要求3所述的装置,其特征在于:
所述候选预测是根据预设的文件预测算法计算出的关于一个文件的后继访问文件的预测。
CN2010102058032A 2010-06-22 2010-06-22 一种文件预测准确度的统计方法及装置 Active CN101882155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102058032A CN101882155B (zh) 2010-06-22 2010-06-22 一种文件预测准确度的统计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102058032A CN101882155B (zh) 2010-06-22 2010-06-22 一种文件预测准确度的统计方法及装置

Publications (2)

Publication Number Publication Date
CN101882155A CN101882155A (zh) 2010-11-10
CN101882155B true CN101882155B (zh) 2012-07-25

Family

ID=43054169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102058032A Active CN101882155B (zh) 2010-06-22 2010-06-22 一种文件预测准确度的统计方法及装置

Country Status (1)

Country Link
CN (1) CN101882155B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103795781B (zh) * 2013-12-10 2017-03-08 西安邮电大学 一种基于文件预测的分布式缓存方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7441110B1 (en) * 1999-12-10 2008-10-21 International Business Machines Corporation Prefetching using future branch path information derived from branch prediction
US7689804B2 (en) * 2006-12-20 2010-03-30 Intel Corporation Selectively protecting a register file
CN101290668B (zh) * 2008-06-16 2011-08-17 ***通信集团湖北有限公司 一种分时作业动态调度方法和装置

Also Published As

Publication number Publication date
CN101882155A (zh) 2010-11-10

Similar Documents

Publication Publication Date Title
Al‐Salim et al. Greening big data networks: Velocity impact
Gao et al. On exploiting dynamic execution patterns for workload offloading in mobile cloud applications
CN103902335A (zh) 一种后台程序清理的方法及其***
CN104182801A (zh) 一种预测网站访问量的方法及设备
Yi et al. Efficient compute-intensive job allocation in data centers via deep reinforcement learning
CN108596652A (zh) 活跃用户数预测方法及装置
CN104268040B (zh) 一种磁盘性能检测方法及装置
AlDurgam et al. Optimal joint maintenance and operation policies to maximise overall systems effectiveness
CN104636406A (zh) 一种根据用户行为推送信息的方法和装置
CN109144658B (zh) 有限资源的负载均衡方法、装置及电子设备
CN107391341A (zh) 一种故障预警方法及装置
US20210342959A1 (en) Paying for parking with electrical power from an electric vehicle
CN109327334A (zh) 一种针对于设备性能的告警方法、装置及设备
Jokar et al. Intrusion detection in advanced metering infrastructure based on consumption pattern
CN103852633A (zh) 需量反应判断装置及其需量反应判断方法
CN115269108A (zh) 一种数据处理方法、装置及设备
CN113837383A (zh) 模型训练方法、装置、电子设备及存储介质
CN103500143A (zh) 硬盘参数调整方法及装置
CN104424294A (zh) 一种信息处理方法及装置
CN101882155B (zh) 一种文件预测准确度的统计方法及装置
CN102591621A (zh) 使用计算历史进行预测
CN110490595A (zh) 一种风险控制方法和装置
Stricker et al. Robustness of predictive energy harvesting systems: Analysis and adaptive prediction scaling
CN108038050A (zh) 性能调整方法、装置、存储介质及电子设备
Fouad et al. Machine learning and iot for smart grid

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160408

Address after: 100080 Beijing City, Haidian District Zhongguancun No. 151 North Street Yanyuan resources building room 1107

Patentee after: Beijing Zhongzhi core technology Co. Ltd.

Address before: 100080, Beijing Haidian District Zhongguancun 151 North Street, building 11, resources

Patentee before: Beida Zhongzhi Microsystem Science and Technology Co., Ltd., Beijing