CN110807009B

CN110807009B - 文件处理方法及装置

Info

Publication number: CN110807009B
Application number: CN201911075790.9A
Authority: CN
Inventors: 盛骥斌; 唐文滔; 曾迅迅; 曹问; 刘维; 李兴平
Original assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Current assignee: Hunan MgtvCom Interactive Entertainment Media Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2022-04-26
Anticipated expiration: 2039-11-06
Also published as: CN110807009A

Abstract

本发明涉及互联网技术领域，特别是涉及一种文件处理方法及装置，该方法包括：对访问日志进行监控，获取当前访问信息；将当前访问信息发送至数据库并更新至与其对应的资源集合的路径条目中，获得总访问信息，总访问信息中包含多个访问参数；将各个访问参数输入机器学习模型中，以输出该资源集合对应的热度权值；依据目标磁盘当前利用率及热度权值，确定文件处理策略；依据文件处理策略，对该资源集合中的各个资源文件进行文件处理。应用本发明提供的方法，根据各种访问参数获得资源集合对应的热度权值，并根据利用率和热度权值确定资源集合中各个资源文件的文件处理策略，保证了对各个资源文件处理的可靠性和准确性，提高目标磁盘的利用率。

Description

文件处理方法及装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种文件处理方法及装置。

背景技术

随着互联网技术的快速发展，用户对各种各样的资源需求越来越高，当用户需要观看视频、听音乐或查看图片时，可以通过内容分发网络(Content Delivery Network，CDN)***，获取所需的资源文件，以满足用户对各种资源的需求。

目前，CDN***中的各个资源文件存储于***磁盘当中，对于同一个资源，可能存在着多种资源文件，例如：同一个视频，可能包含各种分辨率的视频文件；同一个音乐，可能包含各种音质的音频文件等，导致***磁盘中的存储量非常庞大，当对***磁盘中的资源文件进行处理时。需要对该***磁盘进行扫描，并根据扫描结果中的访问时间和访问频率对资源文件进行增加或清除。但对于一些访问频率抖动过大的资源文件来说，仅根据访问时间和访问频率处理资源文件并不能准确地增加或清除该资源文件。例如资源A在第一段访问时间内的访问频率极高，其他访问时间几乎没有访问频率时，可能会根据第一段访问时间的访问频率对该资源A的资源文件进行增加，但实际上应当删除该资源A的各个资源文件。因此，仅根据访问时间及访问频率对***磁盘中的各个资源文件进行处理并不准确，使得在***磁盘中对各个资源文件的处理并不可靠，无法正确地增加该增加的资源文件或清除该清除的资源文件，影响***磁盘的利用率。

发明内容

有鉴于此，本发明提供了一种文件处理方法，该方法中，不仅仅只根据访问时间和访问频率对各个资源文件进行处理，而是根据各个访问参数获得每个资源集合的热度权值后，再根据热度权值和目标磁盘的利用率确定每个资源集合对应的文件处理策略，并根据文件处理策略对资源集合中各个资源文件进行文件处理，保证了对各个资源文件处理的可靠性和准确性，提高目标磁盘的利用率。

本发明还提供了一种文件处理装置，用以保证上述方法在实际中的实现及应用。

一种文件处理方法，包括：

实时对预先设置的访问日志进行监控，并获取所述访问日志中记录的每个目标资源文件的当前访问信息；

依据各个所述当前访问信息，确定每个所述目标资源文件所属的资源集合，每个所述资源集合包括在预先设置的目标磁盘中属于同一资源内容的所有资源文件；

将每个所述目标资源文件的当前访问信息发送至预先设置的数据库中，并在所述数据库中将每个所述当前访问信息，更新至与其对应的资源集合的路径条目中，获得每个所述路径条目对应的总访问信息，所述总访问信息中包含与其对应的资源集合的各个访问参数，各个所述访问参数分别为访问时间、访问频率、访问次数、文件生成时间及文件优先级；

获取每个所述路径条目中的各个访问参数，并将各个所述访问参数输入预先设置的机器学习模型中，触发所述机器学习模型对每个所述路径条目中的各个访问参数进行训练，输出每个所述资源集合对应的热度权值；

计算所述目标磁盘的当前利用率，并依据所述当前利用率及每所述资源集合对应的热度权值，确定与每个资源集合对应的文件处理策略；

依据与每个所述资源集合对应的文件处理策略，对每个所述资源集合中的各个资源文件进行文件处理。

上述的方法，可选的，实时对预先设置的访问日志进行监控前，还包括：

调用预先设置的正则表达式对所述目标磁盘进行扫描，获得与每个所述资源集合对应的路径条目，并将各个所述路径条目保存至所述数据库。

上述的方法，可选的，所述调用预先设置的正则表达式对所述目标磁盘进行扫描，获得与每个资源文件对应的路径条目，包括：

确定所述目标磁盘中属于同一资源内容的各个资源文件，并将属于同一资源内容的各个所述资源文件保存至与其对应的资源集合；

获取每个所述资源集合中各个资源文件的文件信息，并依据各个所述文件信息，生成与每个所述资源集合对应的扫描路径，所述扫描路径包含多级目录，每级目录对应一种文件分类；

调用预先设置的正则表达式对各个所述扫描路径进行扫描，获得与每个所述资源集合对应的初始访问信息，每个所述初始访问信息为与其对应资源集合中各个资源文件的历史访问信息；

依据与每个所述资源集合对应的扫描路径及初始访问信息，生成与每个所述资源集合对应的路径条目。

上述的方法，可选的，所述将各个所述访问参数输入预先设置的机器学习模型中，触发所述机器学习模型依据每个所述路径条目中的各个访问参数，输出每个所述资源集合对应的热度权值，包括：

将各个所述访问参数输入所述机器学习模型的第一模块中，触发所述第一模块依据各个所述访问参数，输出每个所述资源集合对应的第一特征权重；

将各个所述第一特征权重输入所述机器学习模型的第二模块中，触发所述第二模块调用预先设置的时序算法，剔除每个所述第一特征权重中的时间影响因子，获得每个所述资源集合对应的第二特征权重；

将各个所述第二特征权重输入所述机器学习模型的第三模块，触发所述第三模块调用预先设置的热度算法，对每个所述第二特征权重进行热度计算，获得每个所述资源集合对应的热度权值。

上述的方法，可选的，所述依据所述当前利用率及每所述资源集合对应的热度权值，确定与每个资源集合对应的处理策略，包括：

依据所述当前利用率，设置与所述目标磁盘对应的高热度阈值和低热度阈值；

对于每个所述资源集合，判断所述资源集合对应的热度权值是否大于所述高热度阈值；

若所述资源集合对应的热度权值大于所述高热度阈值，则设置与所述资源集合对应的资源补全策略；

若所述资源集合对应的热度权值不大于所述高热度阈值，则判断所述资源集合对应的热度权值是否小于所述低热度阈值；

若所述资源集合对应的热度权值小于所述低热度阈值，则设置与所述资源集合对应的资源清理策略。

一种文件处理装置，包括：

监控单元，用于实时对预先设置的访问日志进行监控，并获取所述访问日志中记录的每个目标资源文件的当前访问信息；

第一确定单元，用于依据各个所述当前访问信息，确定每个所述目标资源文件所属的资源集合，每个所述资源集合包括在预先设置的目标磁盘中属于同一资源内容的所有资源文件；

更新单元，用于将每个所述目标资源文件的当前访问信息发送至预先设置的数据库中，并在所述数据库中将每个所述当前访问信息，更新至与其对应的资源集合的路径条目中，获得每个所述路径条目对应的总访问信息，所述总访问信息中包含与其对应的资源集合的各个访问参数，各个所述访问参数分别为访问时间、访问频率、访问次数、文件生成时间及文件优先级；

触发单元，用于获取每个所述路径条目中的各个访问参数，并将各个所述访问参数输入预先设置的机器学习模型中，触发所述机器学习模型对每个所述路径条目中的各个访问参数进行训练，输出每个所述资源集合对应的热度权值；

第二确定单元，用于计算所述目标磁盘的当前利用率，并依据所述当前利用率及每所述资源集合对应的热度权值，确定与每个资源集合对应的文件处理策略；

处理单元，用于依据与每个所述资源集合对应的文件处理策略，对每个所述资源集合中的各个资源文件进行文件处理。

上述的装置，可选的，还包括：

扫描单元，用于调用预先设置的正则表达式对所述目标磁盘进行扫描，获得与每个所述资源集合对应的路径条目，并将各个所述路径条目保存至所述数据库。

上述的装置，可选的，所述扫描单元，包括：

第一生成子单元，用于确定所述目标磁盘中属于同一资源内容的各个资源文件，并将属于同一资源内容的各个所述资源文件保存至与其对应的资源集合；

第二生成单元，用于获取每个所述资源集合中各个资源文件的文件信息，并依据各个所述文件信息，生成与每个所述资源集合对应的扫描路径，所述扫描路径包含多级目录，每级目录对应一种文件分类；

扫描子单元，用于调用预先设置的正则表达式对各个所述扫描路径进行扫描，获得与每个所述资源集合对应的初始访问信息，每个所述初始访问信息为与其对应资源集合中各个资源文件的历史访问信息；

第三生成单元，用于依据与每个所述资源集合对应的扫描路径及初始访问信息，生成与每个所述资源集合对应的路径条目。

上述的装置，可选的，所述触发单元，包括：

第一触发子单元，用于将各个所述访问参数输入所述机器学习模型的第一模块中，触发所述第一模块依据各个所述访问参数，输出每个所述资源集合对应的第一特征权重；

第二触发子单元，用于将各个所述第一特征权重输入所述机器学习模型的第二模块中，触发所述第二模块调用预先设置的时序算法，剔除每个所述第一特征权重中的时间影响因子，获得每个所述资源集合对应的第二特征权重；

第三触发子单元，用于将各个所述第二特征权重输入所述机器学习模型的第三模块，触发所述第三模块调用预先设置的热度算法，对每个所述第二特征权重进行热度计算，获得每个所述资源集合对应的热度权值。

上述的装置，可选的，所述第二确定单元，包括：

第一设置子单元，用于依据所述当前利用率，设置与所述目标磁盘对应的高热度阈值和低热度阈值；

第一判断子单元，用于对于每个所述资源集合，判断所述资源集合对应的热度权值是否大于所述高热度阈值；

第二设置子单元，用于若所述资源集合对应的热度权值大于所述高热度阈值，则设置与所述资源集合对应的资源补全策略；

第二判断子单元，用于若所述资源集合对应的热度权值不大于所述高热度阈值，则判断所述资源集合对应的热度权值是否小于所述低热度阈值；

第三设置子单元，用于若所述资源集合对应的热度权值小于所述低热度阈值，则设置与所述资源集合对应的资源清理策略。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的文件处理方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行上述的文件处理方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种文件处理方法，包括：实时对预先设置的访问日志进行监控，并获取访问日志中记录的每个目标资源文件的当前访问信息；依据各个当前访问信息，确定每个目标资源文件所属的资源集合；将每个目标资源文件的当前访问信息发送至数据库中，并在数据库中将每个当前访问信息，更新至与其对应的资源集合的路径条目中，获得每个路径条目对应的总访问信息，总访问信息中包含与其对应的资源集合的各个访问参数，各个访问参数分别为访问时间、访问频率、访问次数、文件生成时间及文件优先级；将各个访问参数输入机器学习模型中，触发机器学习模型输出每个资源集合对应的热度权值；计算目标磁盘的当前利用率，并依据当前利用率及每资源集合对应的热度权值，确定与每个资源集合对应的文件处理策略；依据与每个资源集合对应的文件处理策略，对每个资源集合中的各个资源文件进行文件处理。应用本发明提供的方法，除了访问时间和访问频率之外，还要根据各种访问参数获得每个资源集合对应的热度权值，并根据目标磁盘的利用率和热度权值确定每个资源集合中各个资源文件的文件处理策略，保证了对各个资源文件处理的可靠性和准确性，提高目标磁盘的利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种文件处理方法的方法流程图；

图2为本发明实施例提供的一种文件处理方法的又一方法流程图；

图3为本发明实施例提供的一种文件处理方法的又一方法流程图；

图4为本发明实施例提供的一种文件处理装置的装置结构图；

图5为本发明实施例提供的一电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种文件处理方法，该方法可以应用在多种***平台，其执行主体可以为计算机终端或各种移动设备的处理器，所述方法的方法流程图如图1所示，具体包括：

S101：实时对预先设置的访问日志进行监控，并获取所述访问日志中记录的每个目标资源文件的当前访问信息；

在本发明实施例中，在对访问日志进行监控之前，可以先设置监控时间段或监控周期，并按照预先设置的监控时间段或监控周期实时对访问日志进行监控，获取该访问日志中记录的每个目标资源文件的当前访问信息。其中，该访问日志用于记录CDN***中各个资源文件被访问的访问情况。

需要说明的是，该当前访问信息可以包括访问的文件类型、访问时间、访问次数、是否访问成功等信息。

S102：依据各个所述当前访问信息，确定每个所述目标资源文件所属的资源集合，每个所述资源集合包括在预先设置的目标磁盘中属于同一资源内容的所有资源文件；

在本发明实施例中，依据每个目标资源文件的当前访问信息，确定每个资源文件所属的资源集合。其中每个资源集合中包括所有属于同一个资源内容的资源文件。具体的，资源集合中的各个资源内容虽然一致，但资源类型或资源名称不一致。例如资源文件为某一视频文件A，则视频文件A可能是视频清晰度为高清的视频文件A、标清的视频文件A，或视频格式为MP4的视频文件A等，或同一部电视剧的资源可能分成DVD版本、TV版本、删减版和未删减版等。

S103：将每个所述目标资源文件的当前访问信息发送至预先设置的数据库中，并在所述数据库中将每个所述当前访问信息，更新至与其对应的资源集合的路径条目中，获得每个所述路径条目对应的总访问信息，所述总访问信息中包含与其对应的资源集合的各个访问参数，各个所述访问参数分别为访问时间、访问频率、访问次数、文件生成时间及文件优先级；

在本发明实施例中，将每个目标资源文件的当前访问信息发送到数据当中，该数据库中存储了目标磁盘中的各个资源集合的访问信息。其中，各个访问信息对应存储在每个资源集合的路径条目下。将各个目标资源更新至数据库中后，获得每个路径条目对应的总访问信息。其中，每个总访问信息中包含多个访问参数，该访问参数可以是访问时间、访问频率、访问次数、文件生成时间及文件优先级。

需要说明的是，该访问参数可以包括但不仅限于访问时间、访问频率、访问次数、文件生成时间及文件优先级，具体还可以包括，最近访问时间、访问成功次数等参数。

S104：获取每个所述路径条目中的各个访问参数，并将各个所述访问参数输入预先设置的机器学习模型中，触发所述机器学习模型对每个所述路径条目中的各个访问参数进行训练，输出每个所述资源集合对应的热度权值；

在本发明实施例中，获取每个路径条目当中的各个访问参数，并把各个访问参数输入机器学习模型当中，以使该机器学习模型对各个访问参数进行训练，为保证各个资源集合中的资源文件的真实访问情况，采用多个访问参数输入机器学习模型，以获得每个资源集合对应的热度权值。其中，该热度权值是经过对多个访问参数训练学习获得的。

需要说明的是，需要将各个访问参数输入机器学习模型进行训练时，可以是输入上述步骤S103中的访问时间、访问频率、访问次数、文件生成时间及文件优先级的访问参数，也可以再输入最近访问时间、访问成功次数等参数，输入的访问参数越多，获得的热度权值越精准。

还需要说明的是，由于同一个资源集合中的所有资源文件在文件热度上均是共享的，因此该热度权值用于确定每个资源集合中所有资源文件的文件热度，即，同一个资源集合中的所有资源文件的文件热度一致。

S105：计算所述目标磁盘的当前利用率，并依据所述当前利用率及每所述资源集合对应的热度权值，确定与每个资源集合对应的文件处理策略；

在本发明实施例中，计算目标磁盘当前利用率，即确定该目标磁盘当前存储资源文件的状况，计算剩余存储空间的大小和资源文件占用空间的大小。并按照该目标磁盘的当前利用率及每个资源集合对应的热度权值，确定与每个资源集合对应的文件处理策略。其中，该文件处理策略具体可以是对各个文件集合中的各个资源文件进行删减或增加。

S106：依据与每个所述资源集合对应的文件处理策略，对每个所述资源集合中的各个资源文件进行文件处理。

在本发明实施例中，根据每个资源集合对应的文件处理策略，每个资源集合中的所有资源文件都按照该策略进行文件处理，即，若该文件处理策略为文件删除策略，则将该资源集合中的所有资源文件进行删除操作。若为文件增加策略，则将该资源集合中所有格式或类型的资源文件进行补全。

本发明实施例提供的文件处理方法中，实时对访问日志进行监控，该访问日志中记录了在一段时间内，CDN***中各个资源文件被用户访问的访问记录，以及访问信息。获取该访问日志中当前记录的每个目标资源文件被访问的当前访问信息，并确定每个目标资源文件所属的资源集合。其中，每个资源集合中包含多个资源文件，同一个资源集合中的各个资源文件的资源内容可以是一致的，但每个资源文件的资源格式、资源类型和资源文件名称可以是不同的。将每个目标资源文件的当前访问信息更新到数据库中，该数据库中存储了各个资源集合的路径条目，每个路径条目中包括每个资源集合对应的访问信息，将各个目标资源文件的当前访问信息发送到数据库后，在数据库中按照每个目标资源文件对应资源集合，将每个目标资源文件的当前访问信息更新至与其对应的资源集合的路径条目当中，获得每个路径条目对应的总访问信息。其中，每个总访问信息中包含多个访问参数，各个访问参数分别为访问时间、访问频率、访问次数、文件生成时间及文件优先级。获取每个路径条目中的各个访问参数，并把各个访问参数输入已完成训练的机器学习模型。当把各个访问参数输入机器学习模型后，该机器学习模型将依据各个访问参数进行训练，并输出与每个资源集合对应的热度权值。该热度权值用于确定每个资源集合中所有资源文件的文件热度。并根据目标磁盘中当前的利用率，即目标磁盘的占用空间，结合每个资源集合的热度权值，确定与每个资源集合对应的文件处理策略。根据每个资源文件对应的文件处理策略，对各个资源集合中的各个资源文件进行文件处理，文件处理的过程包括：文件补全、文件增加或文件删除等处理。

需要说明的是，本发明实施例中，该数据库中存储的是每个资源合集对应的路径条目，每个路径条目中包含与其对应资源集合的访问信息，并未保存真实的资源文件。而各个资源文件则保存在CDN***的目标磁盘当中，目标磁盘中的各个资源文件可以以资源集合的形式进行保存，或独立保存在该目标磁盘当中。

基于上述实施例提供的内容，对上述步骤S101～S105的内容进行举例说明，例如：当前监控访问日志后，获得视频文件A和视频文件B1、视频文件B2的当前访问信息，其中，视频文件B1和视频文件B2为同一资源内容不同文件类型的视频文件，并确定视频文件A属于集合A，视频文件B1和视频文件B2属于集合B，将视频文件A的当前访问信息发送至数据库，并在数据库中更新与集合A对应的路径条目，获得集合A对应的总访问信息，视频文件B1的当前访问信息和视频文件B2的当前访问文件也同样更新至集合B对应的路径条目，获得集合B对应的总访问信息。若该数据库中只存储了集合A、集合B和集合C的路径条目，则分别将集合A、集合B和集合C的各个访问参数输入机器学习模型中，获得集合A热度权值为130、集合B热度权值为150和集合C热度权值为20。并根据目标磁盘中的利用率设置每个集合对应的文件处理策略，例如对集合A和集合B中的各个资源文件进行补全操作，对集合C中各个资源文件进行删除操作。

应用本发明实施例提供的方法，由于同一资源内容对应的多个不同资源文件的热度都是共享的，因此可根据资源集合的各个访问参数经由机器学习模型训练输出每个资源集合对应的热度权值，并按照目标磁盘利用率和每个资源集合对应的热度权值确定每个资源集合对应的文件处理策略，本发明中不仅仅是根据访问时间和访问频率确定文件处理策略，而是通过多个访问参数：访问时间、访问频率、访问次数、文件生成时间及文件优先级获得热度权值后，才根据热度权值和利用率确定如何对各个资源文件进行处理，保证对各个资源文件处理的可靠性和准确性，提高目标磁盘的利用率。

本发明实施例提供的方法中，在对访问日志进行监控之前，具体还包括：

具体的，本发明实施例提供的方法中，所述调用预先设置的正则表达式对所述目标磁盘进行扫描，获得与每个资源文件对应的路径条目的过程如图2所示，具体包括：

S201：确定所述目标磁盘中属于同一资源内容的各个资源文件，并将属于同一资源内容的各个所述资源文件保存至与其对应的资源集合；

在本发明实施例中，确定各个属于同一资源内容的资源文件，例如文件A1和文件A2都为同一个资源内容，但文件A1和文件A2的文件类型或文件格式可能不同。根据每个资源内容生成与其对应的资源集合，并把各个资源文件保存到同一个资源内容的资源集合当中件。

S202：获取每个所述资源集合中各个资源文件的文件信息，并依据各个所述文件信息，生成与每个所述资源集合对应的扫描路径，所述扫描路径包含多级目录，每级目录对应一种文件分类；

在本发明实施例中，获取该资源集合中各个资源文件的文件信息，并根据各个文件信息生成与每个资源集合对应的扫描路径，其中，文件信息包括文件的创建时间、内容类别、来源、出品方、风格、种类及集合ID等。并根据文件信息生成扫描路径，如上述文件信息包括创建时间、内容类别、来源、出品方、风格、种类及资源集合ID，则扫描路径可以为2018/10/1/1/2/3/4/5/6/7。该扫描路径中包含多级目录，每级目录对应一种文件分类，即上述的创建时间、内容类别、来源、出品方、风格、种类及资源集合ID。例如2018/10/1表示文件分类中的创建时间、1为内容类别、2为来源、3为出品方……以此类推，此处不复赘述。

S203：调用预先设置的正则表达式对各个所述扫描路径进行扫描，获得与每个所述资源集合对应的初始访问信息，每个所述初始访问信息为与其对应资源集合中各个资源文件的历史访问信息；

在本发明实施例中，在生成扫描路径后，调用预先设置的正则表达式对各个资源集合的扫描路径进行扫描，并对各个资源集合进行扫描以后，由于属于同一个资源内容的所有资源文件的热度是共享的，因此，可获得整个资源集合的初始访问信息。

S204：依据与每个所述资源集合对应的扫描路径及初始访问信息，生成与每个所述资源集合对应的路径条目。

在本发明实施例中，根据扫描路径和初始访问信息，生成与每个资源集合对应的路径条目。在生成路径条目后，将每个资源集合对应的路径条目保存在数据库当中。

需要说明的是，该路径条目具体可以是以表格的形式表格的形式保存在数据库当中。

本发明实施例提供的文件处理方法中，在对访问日志进行实时监控之前，需要对目标磁盘中的各个资源文件进行扫描后获得路径条目保存至数据库当中。其中，将各个属于同一个资源名称的资源文件保存在同一个资源集合中，获得与每个资源名称对应的资源集合，并获取每个资源集合中各个资源文件的文件信息，以获得需要对各个资源文件进行扫描的扫描路径。通过调用预先设置的正则表达式对各个扫描路径进行扫描，扫描路径中包含多级目录，每一级目录对应着一种文件分类，该扫描路径的表现形式如下表1所示：

表1

其中，该表格中时间可以是各个资源文件的创建时间，也可以是该资源集合的创建时间，类别表征该资源集合中包含的各个资源文件的各个类别，出品方表示各个资源文件对应的出品方、风格表示各个资源文件对应的风格、种类表示各个资源文件的文件种类，集合ID为该资源集合的ID号，其中，该集合ID可以为32位字母与数值的组合。

本发明实施例中，利用正则表达式对各个扫描路径进行扫描后，可以获得每个资源集合对应的初始访问信息，并结合每个资源集合对应的扫描路径和初始访问信息，生成与每个资源集合对应的路径条目，该路径条目中包含扫描路径及访问信息终端各个访问参数，具体表现形式如下表2所示：

表2

其中，路径为扫描路径的多级目录表现形式，生产时间、最后访问时间最后访问频率、最近更新时间、预置优先级等均为访问参数，其中，预置优先级为对特定文件的强制设定，可以人工干预某些资源集合常驻或者快速过期。该热度权值为各个访问参数输入机器学习模型后获得的热度权值。

需要说明的是，CDN***中有自身的特殊性，许多资源文件均以资源集合的方式存在，例如，视频文件经常以视频集的形式存在，同一个视频内容有不同的视频格式，不同的分辨率，以及各种拆条。而这些视频文件从热度上经常是共享的，也就是说一个视频成为热点时，它对应的各种格式都会被经常访问。例如：视频集A，可能有多种格式：mp4、hls等，多种分辨率：4K、1080、720等，这些属于同一个视频集的不同视频文件文件，保存在同一个目录下。对目标磁盘进行扫描时，扫描的对象就是视频集而不是文件，那么消耗的资源、计算和扫描的速度就会提升。

还需要说明的是，上述表1中的扫描路径以及路径条目均是可扩展的。即，该扫描路径中除了时间、类别、来源、出品方、风格、种类及集合ID之外，还可以包括分辨率、拆条等。表2中的访问信息中除了生产时间、最后访问时间、最后访问频率、最近更新时间、预置优先级之外，还可以包括访问是否成功、预设时间段内的访问次数、平均访问次数及总访问次数等。

可选的，本发明实施例中的扫描路径以及路径条目都可以根据各个资源集合的实际情况进行扩展，且扩展后的扫描路径及路径条目均适用于各种文档的表格中。

应用本发明实施例提供的方法中，将属于同一资源内容的各个资源文件保存到同一个资源集合中，并生成每个资源集合对应扫描路径。对各个扫描路径进行扫描，以实现对目标磁盘中的各个资源文件进行扫描，加快了对目标磁盘的扫描过程，缩短了对目标磁盘进行扫描的扫描时间。

本发明实施例提供的方法中，路径条目中的热度权值时将各个访问参数输入机器学习模型后，触发机器学习模型依据每个所述路径条目中的各个访问参数，输出的每个资源集合对应的热度权值，具体包括：

本发明实施例提供的文件处理方法中，该机器学习模型包含三个模块，分别为第一模块、第二模块和第三模块。现将各个访问参数输入该机器第一模块，该第一对各个访问参数进行训练，并依据各个访问参数输出与每个资源集合对应的第一特征权重，并把各个第二特征权重输入到机器学习模型的第二模块当中，其中，该第二模块为季节模块，用于剔除各个第一特征权重中因时间周期性变化带来的影响的因子。例如，某视频文件A是关于新闻类的视频文件，由于新闻具有时效性，用户只会在某段时间段内访问该视频文件A，因此在该时间段内访问该视频文件A的访问频率很高，但在其他时间段内访问频率极低，若仅因为访问频率高的时间段内确定该视频文件A为高热度文件，则导致对该视频文件的文件热度判断不准确，因此通过第二模块剔除各个第一特征权重中因时间周期性变化带来的影响的因子。在剔除各个第一特征权重中因时间周期性变化带来的影响的因子后，获得与每个第一特征权重对应的第二特征权重，并将各个第二特征权重输入该机器学习模型的第三模块中，触发该第三模块应用预先设置的热度算法对每个第二特征权重进行热度计算，获得每个资源集合对应的热度权值。

可选的，在每日的日终操作时间时，可以将当日的各个路径条目中各个访问参数输入该机器学习模型当中，对该机器学习模型进行训练。其中，该日终操作时间为用户访问各个资源文件访问率最低的时间段，例如每日的23:00-0:00等用户访问资源文件最少的时间段。

应用本发明实施例提供的方法，利用机器学习模型的第一模块、第二模块和第三模块对各个访问参数进行训练，以剔除因时间周期性变化带来的影响的因子，合理地确定每个资源集合对应的热度权值，以该热度权值来确定各个资源文件的热度，因此可以根据每个资源文件对应的热度权值，合理地对各个资源文件进行处理。

需要说明的是，在本发明实施例中，机器学习模型的训练过程可以为如下过程：

在每日的日终时刻，获取数据库中每个资源集合当日的访问信息，每个访问信息中包含各个访问参数，并将访问参数中的访问频率作为该访问信息的标签。将各个访问参数输入该机器学习模型中，以使该机器学习模型中的第一模块、第二模块和第三模块依据各个访问参数进行训练，直至满足该机器学习模型中各个模块的参数满足预设条件，以获得完成训练的机器学习模型。其中，若在训练过程中各个模块不满足预设条件，则对该机器学习模型中的各个模块进行参数调整，以使各个模块满足预设条件。

本发明提供的实施例中，所述依据所述当前利用率及每所述资源集合对应的热度权值，确定与每个资源集合对应的处理策略的过程如图3所示，具体包括：

S301：依据所述当前利用率，设置与所述目标磁盘对应的高热度阈值和低热度阈值；

在本发明实施例中，在确定该目标磁盘中的利用率后，可根据该目标磁盘的利用率设置高热度阈值和低热度阈值。例如，若该目标磁盘的利用率已经达到了90％，那么，高热度阈值和低热度阈值就会偏高。

S302：对于每个所述资源集合，判断所述资源集合对应的热度权值是否大于所述高热度阈值；

在本发明实施例中，针对于每个资源集合，都对每个资源集合对应的热度权值进行判断，确定资源集合对应的热度权值是否大于高热度阈值，即，判断资源集合中的各个资源文件是否为高热度文件。

S303：若所述资源集合对应的热度权值大于所述高热度阈值，则设置与所述资源集合对应的资源补全策略；

在本发明实施例中，若该热度权值大于高热度阈值，则确定该资源集合中的各个资源文件为高热度文件，并设置与该资源集合对应的资源补全策略。

需要说明的是，该资源补全策略为，将该资源集合中缺少的资源类型的资源文件进行补全，例如，该资源集合中只有分辨率为4k和1080的则将其他分辨率的资源文件也补齐。

S304：若所述资源集合对应的热度权值不大于所述高热度阈值，则判断所述资源集合对应的热度权值是否小于所述低热度阈值；

在本发明实施例中，若该热度权值不大于高热度阈值，则确定该资源集合中的各个资源文件并非高热度文件，并判断资源集合对应的热度权值是否小于低热度阈值，即，判断资源集合中的各个资源文件是否为低热度文件。

S305：若所述资源集合对应的热度权值小于所述低热度阈值，则设置与所述资源集合对应的资源清理策略。

在本发明实施例中，若该热度权值小于低热度阈值，则确定该资源集合中的各个资源文件为低热度文件，并设置与该资源集合对应的资源删除策略。

需要说明的是，该资源删除策略可以是将该资源集合中的各个资源文件进行删除，或选择删除部分资源文件。

本发明实施例提供的方法中，根据目标磁盘的利用率，设置高热度阈值和低热度阈值，并对每个资源集合对应的热度权值进行判断，确定各个资源集合中的资源文件时高热度文件还是低热度文件，若为高热度文件，则将高热度文件对应资源集合设置资源补全策略，以补全该资源集合中各个格式或类型的资源文件，若为低热度文件，则将低热度文件对应的资源集合设置资源删除策略，已删除该资源集合中的所有资源文件或部分资源文件，以减小目标磁盘的利用率。

可选的，当资源集合的热度权值既不大于高热度阈值又不小于低热度阈值时，可以不用对该资源文件设置资源处理策略。若高热度文件对应资源集合中，各个类型和格式的资源文件已经是补全的，则无需再对该资源集合中的各个资源文件进行补齐。

应用本发明实施例提供的方法，通过目标磁盘的利用率和各个资源集合对应的热度权值设置高热度阈值和低热度阈值，以确定哪个资源集合应该进行资源补全，哪个资源集合中的资源文件应当进行删除，合理地处理目标磁盘中的各个资源文件，以使该目标磁盘中的资源文件合理进行存储。

基于上述实施例提供的方法，可以设定第一时间周期或第一时间点，以资源集合对应的扫描路径的方式对目标磁盘中各个资源文件进行扫描，并将扫描后获得的路径条目存储在数据库中，再按照预先设置的第二时间周期或第二时间点对访问日志实时进行监控，以获得目标磁盘中各个资源情况在一段时间内被用户访问的访问情况，并将路径条目中各个访问参数输入机器学习模型，得到每个资源集合的热度权值，再根据热度权值和目标磁盘的利用率以确定需要进行资源补全的资源集合，以及需要进行资源删除的资源集合。可选的，在对各个资源集合中的各个资源文件进行文件处理后，对数据库中的各个路径条目进行更新。上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

与图1所述的方法相对应，本发明实施例还提供了一种文件处理装置，用于对图1中方法的具体实现，本发明实施例提供的文件处理装置可以应用计算机终端或各种移动设备中，其结构示意图如图4所示，具体包括：

监控单元401，用于实时对预先设置的访问日志进行监控，并获取所述访问日志中记录的每个目标资源文件的当前访问信息；

第一确定单元402，用于依据各个所述当前访问信息，确定每个所述目标资源文件所属的资源集合，每个所述资源集合包括在预先设置的目标磁盘中属于同一资源内容的所有资源文件；

更新单元403，用于将每个所述目标资源文件的当前访问信息发送至预先设置的数据库中，并在所述数据库中将每个所述当前访问信息，更新至与其对应的资源集合的路径条目中，获得每个所述路径条目对应的总访问信息，所述总访问信息中包含与其对应的资源集合的各个访问参数，各个所述访问参数分别为访问时间、访问频率、访问次数、文件生成时间及文件优先级；

触发单元404，用于获取每个所述路径条目中的各个访问参数，并将各个所述访问参数输入预先设置的机器学习模型中，触发所述机器学习模型对每个所述路径条目中的各个访问参数进行训练，输出每个所述资源集合对应的热度权值；

第二确定单元405，用于计算所述目标磁盘的当前利用率，并依据所述当前利用率及每所述资源集合对应的热度权值，确定与每个资源集合对应的文件处理策略；

处理单元406，用于依据与每个所述资源集合对应的文件处理策略，对每个所述资源集合中的各个资源文件进行文件处理。

本发明实施例提供的装置中，还包括：

本发明实施例提供的装置中，所述扫描单元，包括：

本发明实施例提供的装置中，所述触发单元，包括：

本发明实施例提供的装置中，所述第二确定单元，包括：

以上本发明实施例公开的文件处理装置中的监控单元401、第一确定单元402、更新单元403、触发单元404、第二确定单元405及处理单元406的具体工作过程，可参见本发明上述实施例公开的文件处理方法中的对应内容，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述文件处理方法。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，

为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文件处理方法，其特征在于，包括：

计算所述目标磁盘的当前利用率，并依据所述当前利用率及每一所述资源集合对应的热度权值，确定与每个资源集合对应的文件处理策略；所述文件处理策略为资源补全策略或资源清理策略；

2.根据权利要求1所述的方法，其特征在于，实时对预先设置的访问日志进行监控前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述调用预先设置的正则表达式对所述目标磁盘进行扫描，获得与每个资源文件对应的路径条目，包括：

4.根据权利要求1所述的方法，其特征在于，所述将各个所述访问参数输入预先设置的机器学习模型中，触发所述机器学习模型依据每个所述路径条目中的各个访问参数，输出每个所述资源集合对应的热度权值，包括：

5.根据权利要求1所述的方法，其特征在于，所述依据所述当前利用率及每一所述资源集合对应的热度权值，确定与每个资源集合对应的处理策略，包括：

6.一种文件处理装置，其特征在于，包括：

第二确定单元，用于计算所述目标磁盘的当前利用率，并依据所述当前利用率及每一所述资源集合对应的热度权值，确定与每个资源集合对应的文件处理策略；所述文件处理策略为资源补全策略或资源清理策略；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，所述扫描单元，包括：

9.根据权利要求6所述的装置，其特征在于，所述触发单元，包括：

10.根据权利要求6所述的装置，其特征在于，所述第二确定单元，包括：