CN117370272B

CN117370272B - 基于档案热度的档案管理方法、装置、设备及存储介质

Info

Publication number: CN117370272B
Application number: CN202311389337.1A
Authority: CN
Inventors: 梁尔真; 袁学群; 夏磊; 陈平刚; 郑望献; 蔡利华; 周蕾; 曹军
Original assignee: Zhejiang Xinghan Information Technology Ltd By Share Ltd
Current assignee: Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-06-11
Anticipated expiration: 2043-10-25
Also published as: CN117370272A

Abstract

本发明公开了一种基于档案热度的档案管理方法、装置、设备及存储介质。其中，方法包括获取待管理档案在预设的过去时间段内的访问记录数据；将访问记录数据输入到预先训练的LSTM模型中进行访问频率预测，获得访问频率预测结果；基于访问频率预测结果和预设的访问热度等级确定待管理档案的预测热度等级；基于预测热度等级将待管理档案移动至对应的固态硬盘、机械硬盘或磁带中，实现了存储资源的合理分配，提高访问频率高的档案的访问效率，以及降低档案整体存储成本。

Description

基于档案热度的档案管理方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术，尤其涉及一种基于档案热度的档案管理方法、装置、设备及存储介质。

背景技术

在信息时代，数据的快速增长已经成为了一种常态。企业、组织和个人都面临着处理大量电子档案的挑战。这些档案可能包括文本文档、图像、音频、视频和其他多种格式的数据。在处理如此庞大的数据量时，有效的档案管理变得至关重要。

在大多数情况下，档案不是均匀地被访问的。一些档案可能会频繁被访问，而其他档案则很少或几乎不被访问。传统的存储方法通常是静态的，容易造成(1)资源浪费：将所有档案存储在相同的位置上会导致高热度档案和低热度档案占用相同的存储资源，从而浪费了宝贵的存储空间。(2)访问效率低下：高热度档案与低热度档案存储在同一位置，这可能会导致高热度档案的访问速度变慢，因为它们与大量低热度档案竞争存取资源。(3)数据管理复杂：当需要进行备份、迁移或删除时，传统方法可能需要手动干预，增加了管理的复杂性和成本。

发明内容

本发明提供一种基于档案热度的档案管理方法、装置、设备及存储介质，以实现对档案的动态管理，使得档案具有更高的访问效率和资源利用率。

第一方面，本发明实施例提供了一种基于档案热度的档案管理方法，包括：

获取待管理档案在预设的过去时间段内的访问记录数据；

将所述访问记录数据输入到预先训练的LSTM模型中进行访问频率预测，获得访问频率预测结果；

基于所述访问频率预测结果和预设的访问热度等级确定所述待管理档案的预测热度等级；

基于所述预测热度等级将所述待管理档案移动至对应的固态硬盘、机械硬盘或磁带中。

可选的，在所述获取待管理档案在预设的过去时间段内的访问记录数据之后，包括：

基于预设的数据结构对所述访问记录数据进行结构化处理，获得统一数据结构的过程访问记录数据；

对所述过程访问记录进行量化获得基于one-hot编码的目标访问记录数据。

可选的，所述预先训练的LSTM模型，包括：

对用于训练获得访问频率的LSTM模型的样本档案进行处理获得样本集；

对预先设置的LSTM模型基于随机化种子进行权重和偏差的初始化；

利用所述样本集对LSTM模型进行训练和测试，获得满足一致性要求的以档案的访问频率为输出目标的目标LSTM模型。

可选的，所述对用于训练访问频率的LSTM模型的样本档案进行处理获得训练集和测试集，包括：

将档案的在第一预设时间长度内的历史访问记录数据作为样本数据，并将在所述第一预设时间长度后的第二预设时间长度的档案访问频率作为所述样本数据的样本标签，获得由所述样本数据和样本标签组成的训练集和测试集。

可选的，在所述对用于训练获得访问频率的LSTM模型的样本档案进行处理获得样本集，还包括：

采用标准的z-score标准化方法将所述样本集随机划分为训练集和测试集。

可选的，在所述LSTM模型中选用交叉熵损失函数作为训练过程中的损失函数。

可选的，在所述利用所述样本集对LSTM模型进行训练和测试，获得满足一致性要求的以档案的访问频率为输出目标的目标LSTM模型之后，还包括：

计算所述目标LSTM模型的Kappa系数和模型准确率；

基于预设的Kappa阈值和准确率阈值对所述目标LSTM模型进行更新。

第二方面，本发明实施例还提供了一种基于档案热度的档案管理装置，包括：

获取模块，用于获取待管理档案在预设的过去时间段内的访问记录数据；

预测模块，用于将所述访问记录数据输入到预先训练的LSTM模型中进行访问频率预测，获得访问频率预测结果；

确定模块，用于基于所述访问频率预测结果和预设的访问热度等级确定所述待管理档案的预测热度等级；

执行模块，用于基于所述预测热度等级将所述待管理档案移动至对应的固态硬盘、机械硬盘或磁带中。

第三方面，本发明实施例还提供了一种基于档案热度的档案管理设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的基于档案热度的档案管理方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的基于档案热度的档案管理方法。

本发明通过获取待管理档案在预设的过去时间段内的访问记录数据，利用预先训练的LSTM模型中进行访问频率预测，获得访问频率预测结果和待管理档案的预测热度等级，并基于预测热度等级将待管理档案移动至对应的固态硬盘、机械硬盘或磁带中，实现了存储资源的合理分配，提高访问频率高的档案的访问效率，以及降低档案整体存储成本。

附图说明

图1为本发明实施例提供的基于档案热度的档案管理方法的流程图；

图2为本发明实施例提供的基于档案热度的档案管理装置的结构示意图；

图3为本发明实施例提供的基于档案热度的档案管理设备的结构示意。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的基于档案热度的档案管理方法的流程图，本实施例可适用于对档案进行动态管理方法情况，该方法可以由基于档案热度的档案管理装置来执行，具体包括如下步骤：

步骤110、获取待管理档案在预设的过去时间段内的访问记录数据。

随着信息化时代的发展，企业、组织和个人都在每日的工作生活中存在大量的电子档案生成、访问和处理，这些档案可能包括文本文档、图像、音频、视频和其他多种格式的数据。在处理如此庞大的数据量时，有效的档案管理变得至关重要。

档案的热度(或访问热度)是一个关键概念。它指的是档案被访问或使用的频率。在大多数情况下，档案不是均匀地被访问的。一些档案可能会频繁被访问，而其他档案则很少或几乎不被访问。传统的存储方法通常是静态的，它们没有考虑到档案的热度差异，而是将所有档案存储在同一位置或设备上，在用户进行档案访问时访问热度低的档案将严重的影响用户对高访问热度的文件的访问效率。高访问热度档案可能被保存在访问效率低下的设备中，而低访问热度档案被保存在访问效率高的设备中，在此情况下用户访问高访问热度的文件时将会受到访问效率低下的设备影响，严重降低用户获取和访问目标档案的效率。

在具体实现中，在每个档案进行访问操作时都会产生对应的方案记录数据，该数据可记录对档案信息、用户信息、档案的创建、打开与关闭操作以及每一次文件指针移动和数据读写等数据。

步骤120、将访问记录数据输入到预先训练的LSTM模型中进行访问频率预测，获得访问频率预测结果。

在本发明实施例中，采用预先训练的LSTM模型基于档案的访问记录数据进行访问频率的预测，从而获得访问频率预测结果。

在本发明实施例中，使用LSTM模型进行预测，更契合档案访问具有一定的时间特性有助于提高档案热度的预测效果，增强档案迁移和分类存储的科学性和实用性。

步骤130、基于访问频率预测结果和预设的访问热度等级确定待管理档案的预测热度等级。

在本发明实施例中，针对不同的访问频率预测结果划分为不同的访问热度等级，并针对不同的访问热度等级的档案采用不同的存储策略进行存储，以匹配用户对档案的访问需求，使得访问频率更高的文件能够更高效的被访问到。

步骤140、基于预测热度等级将待管理档案移动至对应的固态硬盘、机械硬盘或磁带中。

示例性的，将预测热度等级划分为冷档案、温档案和热档案，将冷档案周期性地迁移存储至磁带。为进一步区分温文件和热文件，定义访问频率阈值γ，频率小于等于阈值γ的文件定义为温文件，迁移***周期性地将此类文件迁移至机械硬盘，频率大于γ的文件定义为热文件，迁移***周期性地将此类文件迁移至固态硬盘。

本实施例的技术方案，通过获取待管理档案在预设的过去时间段内的访问记录数据，利用预先训练的LSTM模型中进行访问频率预测，获得访问频率预测结果和待管理档案的预测热度等级，并基于预测热度等级将待管理档案移动至对应的固态硬盘、机械硬盘或磁带中，实现了存储资源的合理分配，提高访问频率高的档案的访问效率，以及降低档案整体存储成本。

在本发明实施例中，示例性的，可定义n个档案存储类别，每个存储类的访问性能和资源分配不同。定义n个档案的访问热度级别(0,1,...,n-1)。一个档案的热度标签分别使用one-hot编码转换为一个稀疏向量Y＝{0,0,...,1,...,0}。

取档案存储服务器过去30天的档案访问记录，设定前27天从文件访问日志中提取的访问特征作为预测模型的输入。基于前述的访问热度级别划分方法将文件后3天的访问频率Q划分为多个区间。Q中取0的档案定义该档案为冷档案。档案迁移***周期性地将此类文件存储至磁带。为进一步区分温文件和热文件，定义访问频率阈值γ，频率小于等于阈值γ的文件定义为温文件，迁移***周期性地将此类文件迁移至机械硬盘，频率大于γ的文件定义为热文件，迁移***周期性地将此类文件迁移至固态硬盘。

档案存储***为各条档案提供以档案名为单位的历史访问日志，并持久存储。记录文件创建、打开与关闭操作以及每一次文件指针移动和数据读写等。计算各类文件操作的均值和方差，以衡量在时间轴上的离散趋势变化，挖掘文件访问的时间特性，并按照合适的时间窗口整理成文件的时序访问特征序列。

定义档案I/O访问记录数据结构为24字节的字符串。其中，第0字节为档案操作类型字段，例如档案打开、关闭、读写等；第1字节～第16字节为文件名散列值字段，散列后的档案名具有统一的长度，以提高查询效率；第17字节～第20字节为档案操作时间字段；第21字节～第23字节为扩展字段，记录档案所属用户名、档案操作权限等。准备模型训练数据时，设定采集档案访问I/O记录起始时间分别为t_s和t_e，时间跨度为：Δt＝t_e-t_s。

设定损失函数最小为模型的训练目标，给定随机化种子对LSTM网络中的权重和偏差进行随机化。模型训练使用梯度反向传播算法，并使用Adam随机优化算法更新网络中的参数。

定义原始档案访问特征时序序列为F_o＝{f₁,...,f_n}，其中n为档案总数，f_t为第t个档案的时序，t∈[1,n]。

随机划分训练集和测试集，采用标准的z-score标准化方法，标准化后的训练集可以表示为：

F'_train＝{f'₁,...,f'_n}

其中，1≤t≤L，t为档案序号，L为模型展开步长，即隐藏层包含L个连接的LSTM神经元。分割后的模型输入为：X＝{X₁,X₂,...,X_L}，其中X为步骤二中提取的档案访问I/O记录，对应的输出Y为步骤二中定义的文件访问热度标签。

模型输入层将档案访问I/O记录X传递至隐藏层，经过隐藏层后的输出为：

O＝{O₁,O₂,...,O_L}

O_p＝LSTM_forward(X_p,C_p-1,H_p-1)

其中C_p-1和H_p-1分别对应前一时刻，即上一LSTM神经元的状态和输出，函数LSTM_forward代表LSTM神经元中的信息前向传递方法。这里假设神经元状态向量大小为S，可知C_p-1和H_p-1向量大小也均为S。

在LSTM隐藏层输出后接一个softmax层，以输出各类访问热度的概率。预测时输出最大概率值对应的类标签，即：

模型训练选用交叉熵损失函数作为训练过程中的损失函数，定义为：

模型的输出为预测档案的访问热度，即访问频率落在哪个区间范围内，预测准确率为模型性能的重要评价指标。本发明要求尽量减少频繁档案类别迁移，以减少资源消耗。通常，一个档案的访问频率略微波动，并不会改变的存储类别，即无需迁移。

使用Kappa系数来评估模型的一致性。设置Kappa系数取值范围为[0,1]，取值越高则说明在每个档案类别上的预测置信度越高。相反，若接近0，则说明模型分类结果接近于随机分类。Kappa系数的计算公式如下：

其中，p_o是总体精度，p_e是偶然一致性误差。

以模型准确率和Kappa系数为指标(例如模型准确率大于80％，Kappa系数大于0.75)，继续训练模型，直至满足指标。

调用步骤一对需要分类存储的档案进行预处理，并在此基础上调用步骤二生成满足模型需求的模型输入。

使用前述步骤中训练好的模型进行热度预测，根据热度预测结果和档案存储的规范对档案进行存储迁移，进而实现基于热度的分类存储。

图2为本发明实施例提供的一种基于档案热度的档案管理装置的结构示意图，如图2所示，基于档案热度的档案管理装置包括获取模块21、预测模块22、确定模块23和执行模块24。其中：

获取模块21，用于获取待管理档案在预设的过去时间段内的访问记录数据；

预测模块22，用于将访问记录数据输入到预先训练的LSTM模型中进行访问频率预测，获得访问频率预测结果；

确定模块23，用于基于访问频率预测结果和预设的访问热度等级确定待管理档案的预测热度等级；

执行模块24，用于基于预测热度等级将待管理档案移动至对应的固态硬盘、机械硬盘或磁带中。

可选的，在获取待管理档案在预设的过去时间段内的访问记录数据之后，包括：

基于预设的数据结构对访问记录数据进行结构化处理，获得统一数据结构的过程访问记录数据；

对过程访问记录进行量化获得基于one-hot编码的目标访问记录数据。

可选的，预先训练的LSTM模型，包括：

利用样本集对LSTM模型进行训练和测试，获得满足一致性要求的以档案的访问频率为输出目标的目标LSTM模型。

可选的，对用于训练访问频率的LSTM模型的样本档案进行处理获得训练集和测试集，包括：

将档案的在第一预设时间长度内的历史访问记录数据作为样本数据，并将在第一预设时间长度后的第二预设时间长度的档案访问频率作为样本数据的样本标签，获得由样本数据和样本标签组成的训练集和测试集。

可选的，在对用于训练获得访问频率的LSTM模型的样本档案进行处理获得样本集，还包括：

采用标准的z-score标准化方法将样本集随机划分为训练集和测试集。

可选的，在LSTM模型中选用交叉熵损失函数作为训练过程中的损失函数。

可选的，在利用样本集对LSTM模型进行训练和测试，获得满足一致性要求的以档案的访问频率为输出目标的目标LSTM模型之后，还包括：

计算目标LSTM模型的Kappa系数和模型准确率；

基于预设的Kappa阈值和准确率阈值对目标LSTM模型进行更新。

本发明实施例所提供的基于档案热度的档案管理装置可执行本发明任意实施例所提供的基于档案热度的档案管理方法，具备执行方法相应的功能模块和有益效果。

图3为本发明实施例提供的一种基于档案热度的档案管理设备的结构示意图，如图3所示，该设备包括处理器30、存储器31、通信模块32、输入装置33和输出装置34；设备中处理器30的数量可以是一个或多个，图3中以一个处理器30为例；设备中的处理器30、存储器31、通信模块32、输入装置33和输出装置34可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器31作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于档案热度的档案管理方法对应的程序指令/模块(例如，基于档案热度的档案管理装置中的获取模块21、预测模块22、确定模块23和执行模块24)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于档案热度的档案管理方法。

存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可进一步包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块32，用于与显示屏建立连接，并实现与显示屏的数据交互。输入装置33可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，输出装置34可包括显示屏等显示设备。

本实施例提供的一种基于档案热度的档案管理设备，可执行本发明任一实施例提供的基于档案热度的档案管理方法，具体相应的功能和有益效果。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种基于档案热度的档案管理方法，该方法包括：

获取待管理档案在预设的过去时间段内的访问记录数据；

将访问记录数据输入到预先训练的LSTM模型中进行访问频率预测，获得访问频率预测结果；

基于访问频率预测结果和预设的访问热度等级确定待管理档案的预测热度等级；

基于预测热度等级将待管理档案移动至对应的固态硬盘、机械硬盘或磁带中。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于档案热度的档案管理方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于档案热度的档案管理装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于档案热度的档案管理方法，其特征在于，包括：

获取待管理档案在预设的过去时间段内的访问记录数据；

其中，所述LSTM模型的训练过程包括：

设定损失函数最小化作为LSTM模型的训练目标；

为LSTM网络中的权重和偏差设置随机化种子，进行随机初始化；

定义原始档案访问特征时序序列为Fo＝{f1,...,fn}，其中n为档案总数，ft为第t个档案的时序，t∈[1,n]；

将访问记录数据划分为训练集和测试集；

对训练集进行预处理，采用标准的z-score标准化方法，

标准化后的训练集可以表示为：

F'train＝{f'1,...,f'n}，

，

其中，1≤t≤L，t为档案序号，L为模型展开步长；

将档案访问I/O记录作为模型的输入数据，传递至模型输入层；

在模型输入层，将档案访问I/O记录传递至隐藏层，经过LSTM神经元的信息前向传递处理；

在LSTM隐藏层输出后，连接一个softmax层，以输出各类访问热度的概率分布；

根据softmax层的输出，选择最大概率值对应的类标签作为档案的访问热度等级预测结果；

使用交叉熵损失函数作为训练过程中的损失函数，以衡量模型预测结果与真实标签之间的差异；

训练完成后，使用测试集对模型进行评估；

2.根据权利要求1所述的基于档案热度的档案管理方法，其特征在于，在所述获取待管理档案在预设的过去时间段内的访问记录数据之后，包括：

3.根据权利要求1所述的基于档案热度的档案管理方法，其特征在于，所述预先训练的LSTM模型，包括：

4.根据权利要求3所述的基于档案热度的档案管理方法，其特征在于，所述对用于训练访问频率的LSTM模型的样本档案进行处理获得训练集和测试集，包括：

5.根据权利要求3所述的基于档案热度的档案管理方法，其特征在于，在所述对用于训练获得访问频率的LSTM模型的样本档案进行处理获得样本集，还包括：

6.根据权利要求3所述的基于档案热度的档案管理方法，其特征在于，在所述LSTM模型中选用交叉熵损失函数作为训练过程中的损失函数。

7.根据权利要求3所述的基于档案热度的档案管理方法，其特征在于，在所述利用所述样本集对LSTM模型进行训练和测试，获得满足一致性要求的以档案的访问频率为输出目标的目标LSTM模型之后，还包括：

计算所述目标LSTM模型的Kappa系数和模型准确率；

8.一种基于档案热度的档案管理装置，应用如权利要求1中所述的基于档案热度的档案管理方法，其特征在于，包括：

9.一种基于档案热度的档案管理设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于档案热度的档案管理方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的基于档案热度的档案管理方法。