CN114860663A - 一种数据存储方法、装置、设备和计算机可读存储介质 - Google Patents

一种数据存储方法、装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN114860663A
CN114860663A CN202210589221.1A CN202210589221A CN114860663A CN 114860663 A CN114860663 A CN 114860663A CN 202210589221 A CN202210589221 A CN 202210589221A CN 114860663 A CN114860663 A CN 114860663A
Authority
CN
China
Prior art keywords
access
attribute
storage
target storage
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210589221.1A
Other languages
English (en)
Inventor
邹杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chuangyou Digital Technology Guangdong Co Ltd
Original Assignee
Chuangyou Digital Technology Guangdong Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chuangyou Digital Technology Guangdong Co Ltd filed Critical Chuangyou Digital Technology Guangdong Co Ltd
Priority to CN202210589221.1A priority Critical patent/CN114860663A/zh
Publication of CN114860663A publication Critical patent/CN114860663A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据存储方法、装置、设备和计算机可读存储介质,可适用于以Hadoop为核心的文件存储***,能够克服现有Hadoop所提供的存储方式的缺陷,满足文件存储***中数据的高可用性、避免数据存储空间的大量消耗、并保证数据的读写速度。其中,该存储方法包括:确定文件存储***中目标存储文件的访问属性,所述访问属性包括:冷属性和热属性;对所述目标存储文件生成与所述访问属性相适配的目标存储策略;查询所述目标存储文件在所述文件存储***中的历史存储策略;根据所述目标存储策略与所述历史存储策略的比对结果,对所述目标存储文件执行存储操作。

Description

一种数据存储方法、装置、设备和计算机可读存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据存储方法、装置、设备和计算机可读存储介质。
背景技术
随着科技技术的发展,在大数据领域中,产生了以Hadoop为核心的众多大数据组件,如Hive、Spark、Presto、Impala等。
所谓Hadoop,即一个分布式***基础架构,通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,以充分利用集群进行高速运算和存储。
在Hadoop中,为了实现集群存储的高可用,Hadoop的HDFS文件存储***提供了Block replication(即文件块多副本)和Erasure coding(即纠删码技术)两种存储方式,但Block replication存储方式在提高数据可用性的同时也造成了存储空间200%的额外开销,且写数据时也会造成额外的带宽消耗;而Erasure coding存储方式虽然较Blockreplication存储方式在存储空间使用和数据写入速度上有了较大提升,但并没有提升数据的读取速度。因此,在以Hadoop为核心的文件存储***中,既要满足数据的高可用性、又要避免数据存储空间的大量消耗、还得保证数据的读写速度,是一个艰难的抉择。
发明内容
本申请提供了一种数据存储方法、装置、设备和计算机可读存储介质,可适用于以Hadoop为核心的文件存储***,能够克服现有Hadoop所提供的存储方式的缺陷,满足文件存储***中数据的高可用性、避免数据存储空间的大量消耗、并保证数据的读写速度。
有鉴于此,本申请第一方面提供了一种数据存储方法,包括:
确定文件存储***中目标存储文件的访问属性,所述访问属性包括:冷属性和热属性;
对所述目标存储文件生成与所述访问属性相适配的目标存储策略;
查询所述目标存储文件在所述文件存储***中的历史存储策略;
根据所述目标存储策略与所述历史存储策略的比对结果,对所述目标存储文件执行存储操作。
可选地,所述确定文件存储***中目标存储文件的访问属性,具体包括:
获取文件存储***中的目标存储文件和日志文件;
从所述日志文件中,过滤出所述目标存储文件对应的访问数据;
根据所述访问数据,确定所述目标存储文件的访问属性。
可选地,所述冷属性包括:预冷属性;所述热属性包括:潜在热点属性;
所述根据所述访问数据,确定所述目标存储文件的访问属性,具体包括:
根据所述访问数据,计算访问增长数据;
获取所述预冷属性和所述潜在热点属性各自对应的参考访问数据和参考访问增长数据;
将所述访问数据分别与所述预冷属性、所述潜在热点属性各自对应的参考访问数据进行比较,得到第一比较结果;
将所述访问增长数据分别与所述预冷属性、所述潜在热点属性各自对应的参考访问增长数据进行比较,得到第二比较结果;
结合所述第一比较结果和所述第二比较结果,确定所述目标存储文件的访问属性为冷属性或热属性。
可选地,所述结合所述第一比较结果和所述第二比较结果,确定所述目标存储文件的访问属性为冷属性或热属性,具体包括:
当所述第一比较结果为所述访问数据大于0且小于预冷属性对应的参考访问数据,所述第二比较结果为所述访问增长数据小于预冷属性对应的参考访问增长数据时,将预冷属性确定为所述目标存储文件的访问属性;
当所述第一比较结果为所述访问数据大于0且小于潜在热点属性对应的参考访问数据,所述第二比较结果为所述访问增长数据大于潜在热点属性对应的参考访问增长数据时,将潜在热点属性确定为所述目标存储文件的访问属性。
可选地,所述访问数据包括:访问人数和访问次数;
所述根据所述访问数据,计算访问增长数据,具体包括:
基于所述访问人数,计算所述访问增长数据中的访问人数增长率;
基于所述访问次数,计算所述访问增长数据中的访问次数增长率。
可选地,所述冷属性包括:冷冻属性;所述热属性包括:当前热点属性、解冻属性和局部热点属性;
所述根据所述访问数据,确定所述目标存储文件的访问属性,具体包括:
当最近N天的所述访问数据为0时,将冷冻属性确定为所述目标存储文件的访问属性,其中,N为自然数;
当所述访问数据大于当前热点属性对应的参考访问数据时,将当前热点属性确定为所述目标存储文件的访问属性;
当最近N天的所述访问数据不为0,且前N天的所述访问数据为0时,将解冻属性确定为所述目标存储文件的访问属性;
当所述访问数据中的访问人数大于0小于局部热点属性对应的参考访问人数,且所述访问数据中的访问次数大于局部热点属性对应的参考访问次数时,将局部热点属性确定为所述目标存储文件的访问属性。
可选地,所述对所述目标存储文件生成与所述访问属性相适配的目标存储策略,具体包括:
当所述访问属性为冷属性时,将对象存储策略确定为所述目标存储文件的目标存储策略;
当所述访问属性为热属性时,将副本存储策略确定为所述目标存储文件的目标存储策略。
可选地,所述副本存储策略包括:高副本和正常副本;
所述当所述访问属性为热属性时,将副本存储策略确定为所述目标存储文件的目标存储策略,具体包括:
当所述访问属性为热属性中的当前热点属性或潜在热点属性时,将高副本确定为所述目标存储文件的目标存储策略;
当所述访问属性为热属性中的解冻属性或局部热点属性时,将正常副本确定为所述目标存储文件的目标存储策略。
可选地,所述根据所述目标存储策略与所述历史存储策略的比对结果,对所述目标存储文件执行存储操作,具体包括:
将所述目标存储策略和所述历史存储策略进行比对,得到比对结果;
当所述比对结果为所述目标存储策略与所述历史存储策略不一致时,更新历史存储策略为目标存储策略,并按照所述目标存储策略对所述目标存储文件执行存储操作;
当所述比对结果为所述目标存储策略与所述历史存储策略一致时,继续按照所述历史存储策略对所述目标存储文件执行存储操作。
本申请第二方面提供了一种数据存储装置,包括:
确定单元,用于确定文件存储***中目标存储文件的访问属性,所述访问属性包括:冷属性和热属性;
生成单元,用于对所述目标存储文件生成与所述访问属性相适配的目标存储策略;
查询单元,用于查询所述目标存储文件在所述文件存储***中的历史存储策略;
存储单元,用于根据所述目标存储策略与所述历史存储策略的比对结果,对所述目标存储文件执行存储操作。
本申请第三方面提供了一种数据存储设备,所述存储设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述任一种第一方面所述的数据存储方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述任一种第一方面所述的数据存储方法。
从以上技术方案可以看出,本申请具有以下优点:
申请人对现有HDFS文件存储***的存储方式进行研究后发现,造成存储资源浪费、存储成本高的根本原因在于,对所有的存储文件采用“一视同仁”的存储策略,即将各存储文件复制3份。这样虽然提高了数据可用性,但也造成存储空间200%的额外开销,与此同时存储成本也较高。
本申请提供的数据存储方法,为了避免文件存储***中数据存储空间的大量消耗,优先确定文件存储***中目标存储文件的访问属性,访问属性包括:冷属性和热属性;对目标存储文件生成与其访问属性相适配的目标存储策略,该目标存储策略是在确定目标存储文件的访问属性为冷属性或热属性后生成的,当访问属性发生变化时,该目标存储策略也会随之变化;在为目标存储文件制定当前适配的目标存储策略后,查询该目标存储文件在文件存储***中的历史存储策略,将目标存储策略与历史存储策略进行比对,根据目标存储策略与历史存储策略的比对结果,对目标存储文件执行存储操作,该存储操作由于是依据目标存储文件的当前目标存储策略与历史存储策略的比对结果而执行的操作,该比对结果会随着目标存储策略的不同而发生变化,因此针对目标存储文件所执行的存储操作也是会随之变化的,即针对同一目标存储文件在其访问属性不同的情况下对其在文件存储***中所对应匹配的存储策略和存储操作均不同,这样有利于保证目标存储文件在***服务的任何时刻的数据高可用性,且能够在维持数据读写速度的同时减少对目标存储文件进行访问时的额外带宽消耗。
附图说明
为了更清楚地说明本申请实施例中的技术方法,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种数据存储方法的实施例一的流程示意图;
图2为本申请实施例中一种数据存储方法的实施例二的流程示意图;
图3为本申请实施例中一种数据存储装置的实施例的结构示意图;
图4为本申请实施例中一种数据存储装置的一种具体实现结构图。
具体实施方式
本申请设计了一种数据存储方法、装置、设备和计算机可读存储介质,可适用于以Hadoop为核心的文件存储***,能够克服现有Hadoop所提供的存储方式的缺陷,满足文件存储***中数据的高可用性、避免数据存储空间的大量消耗、并保证数据的读写速度。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,图1为本申请实施例中一种数据存储方法的实施例一的流程示意图。
如图1所示,本实施例中的一种数据存储方法具体包括:
步骤101、确定文件存储***中目标存储文件的访问属性,访问属性包括:冷属性和热属性。
本实施例中,目标存储文件的存储操作是基于该文件的访问属性进行的。如此,当目标存储文件的访问属性变化时,目标存储文件在文件存储***中的存储操作也可能会发生变化。因此,本实施例中优先确定文件存储***中目标存储文件的访问属性。
可以理解的是,访问属性是依据用户对目标存储文件的访问行为确定的,故访问属性可以代表用户对目标存储文件的访问热度,访问热度越高说明用户对目标存储文件的访问行为越频繁,反之亦然。本实施例中将访问属性定义为冷属性和热属性,以此将不同的访问热度进行区分。当目标存储文件为热属性时,说明用户经常访问目标存储文件,目标存储文件频繁地被读写;当目标存储文件为冷属性时,说明用户比较少访问目标存储文件,目标存储文件也比较少地被读写。
需要理解的是,目标存储文件可以为文件存储***中的任一存储文件,本实施例中对此不做限定和赘述。
步骤102、对目标存储文件生成与访问属性相适配的目标存储策略。
不同的访问属性可能对应不同的目标存储策略,因此在确定目标存储文件对应的访问属性后,可以对目标存储文件生成与该访问属性相适配的目标存储策略。例如:当目标存储文件的访问属性为冷属性时,对该文件生成与冷属性相适配的目标存储策略;当目标存储文件的访问属性为热属性时,对该文件生成与热属性相适配的目标存储策略。进而当访问属性发生变化时,目标存储策略可能也会发生变化。例如:当访问属性由历史的冷属性变化到当前的热属性时,目标存储策略也由与冷属性相适配的目标存储策略变化为与热属性相适配的目标存储策略。
步骤103、查询目标存储文件在文件存储***中的历史存储策略。
目标存储文件在文件存储***中的存储操作,是基于与当前适配的目标存储策略和与历史适配的历史存储策略的比对结果进行的,因此在为目标存储文件制定当前适配的目标存储策略后,查询目标存储文件在文件存储***中的历史存储策略。
可以理解的是,在一种可选实施方式中,对于历史存储策略的查询可以是:文件存储***中记录有目标存储文件中的历史存储策略,查询时将目标存储文件的文件信息(例如文件名称或文件编号)作为查询索引,进行历史存储策略的查询。
步骤104、根据目标存储策略与历史存储策略的比对结果,对目标存储文件执行存储操作。
目标存储文件的存储操作是依据当前的目标存储策略和历史存储策略的比对结果而执行的操作。该比对结果会随着目标存储策略的不同而发生变化,因此针对目标存储文件所执行的存储操作也可能随之变化的,而目标存储策略也会随访问属性的不同发生变化,也就是说即同一目标存储文件在不同访问属性的情况下,对其在文件存储***中所对应匹配的目标存储策略和存储操作也可能是不同的。
可以理解的是,对于目标存储策略和历史存储策略的比对可以通过多种方式实现,本实施例中对此不做限定和赘述。
本实施例中数据存储方法,为了避免文件存储***中数据存储空间的大量消耗,优先确定文件存储***中目标存储文件的访问属性,访问属性包括:冷属性和热属性;对目标存储文件生成与其访问属性相适配的目标存储策略,该目标存储策略是在确定目标存储文件的访问属性为冷属性或热属性后生成的,当访问属性发生变化时,该目标存储策略也会随之变化;在为目标存储文件制定当前适配的目标存储策略后,查询该目标存储文件在文件存储***中的历史存储策略,将目标存储策略与历史存储策略进行比对,根据目标存储策略与历史存储策略的比对结果,对目标存储文件执行存储操作,该存储操作由于是依据目标存储文件的当前目标存储策略与历史存储策略的比对结果而执行的操作,该比对结果会随着目标存储策略的不同而发生变化,因此针对目标存储文件所执行的存储操作也是会随之变化的,即针对同一目标存储文件在其访问属性不同的情况下对其在文件存储***中所对应匹配的存储策略和存储操作均不同,这样有利于保证目标存储文件在***服务的任何时刻的数据高可用性,且能够在维持数据读写速度的同时减少对目标存储文件进行访问时的额外带宽消耗。
以上为本申请实施例提供的一种数据存储方法的实施例一,以下为本申请实施例提供的一种数据存储方法的实施例二。
请参阅图2,图2为本申请实施例中一种数据存储方法的实施例二的流程示意图。
如图2所示,本实施例中的一种数据存储方法具体包括:
步骤201、获取文件存储***中的目标存储文件和日志文件。
在本实施例中,目标存储文件的访问数据可以从日志文件中获取,因此需要首先获取文件存储***中的目标存储文件和日志文件。在文件存储***中,日志文件是独立于存储文件的一种文件类型,其里面记录的日志数据包括一些访问数据、bug信息、下载数据、存储数据、***对已完成的某种处理操作的记录数据,等等。可以理解的是,日志文件可以以天为单位进行记录更新,可以以天为单位定时进行内容存储。
对于日志文件的获取,可以是实时进行的,即当需要对目标存储文件进行存储操作的配置时从文件存储***中获取该日志文件;也可以是预先获取的,即预先从文件存储***中获取该日志文件,在对目标存储文件进行存储操作的配置时,可以直接使用。当需要较为准确的存储操作时,可以选用前者的获取方式,这样获取到的日志文件是最新的、最适用于当下的,进而进行的存储操作也是适用当下的。当需要较短的计算时间和较快的计算效率时,可以选用后者,且为了进一步规范日志文件的获取,可以设定定时获取,例如每天0点、6点等。
步骤202、从日志文件中,过滤出目标存储文件对应的访问数据。
本实施例中,访问属性是依据用户对目标存储文件的访问行为确定的,而用户对目标存储文件的访问行为以访问数据的形式体现并记录在日志文件中,因此需要从日志文件中过滤出目标存储文件对应的访问数据。
日志文件中记录的数据较为多样化,访问数据仅仅是其中的一种数据,且日志文件中记录的访问数据是文件存储***中所有存储文件的访问数据,还需要在所有的访问数据中筛选出目标存储文件对应的访问数据。
在一种具体实施方式中,从日志文件中过滤出目标存储文件对应的访问数据可以是:先从日志文件中过滤出目标存储文件对应的全部日志数据,然后从全部日志数据中过滤出访问数据,对应的实施步骤可以包括:
步骤2021、以目标存储文件的文件信息为索引,从日志文件中,过滤出目标存储文件对应的全部日志数据。
步骤2022、以访问请求为索引,从全部日志数据中,查询出目标存储文件对应的访问数据。
在一种具体实施方式中,从日志文件中过滤出目标存储文件对应的访问数据可以是:先从日志文件中过滤出全部访问数据,然后从全部访问数据中过滤出目标存储文件对应的访问数据,对应的实施步骤可以包括:
步骤2021、以访问请求为索引,从日志数据中,查询出全部访问数据。
步骤2022、以目标存储文件的文件信息为索引,从全部访问数据中,过滤出目标存储文件对应的日志数据。
可以理解的是,上述的访问请求可以是访问请求名称或访问请求命令等。只要可以实现访问请求/访问行为的辨别即可,本实施例中对此不做限定和赘述。目标存储文件的文件信息,可以是文件名称或文件编号等,本实施例中同样对此不做限定。
具体地,访问数据可以包括:访问人数和访问次数,其中,访问人数表示目标存储文件的访问用户数;访问次数表示,不考虑访问用户的不同,目标存储文件的访问次数。当1个用户对目标存储文件访问3次时,访问数据中的访问人数为1,访问次数为3;当3个用户对目标存储文件分别访问了1次时,访问数据中的访问人数为3,访问次数为3。
为了便于理解,本实施例中结合具体的举例说明对步骤的实现进行说明,例如,目标存储文件A对应的访问人数为30人,访问次数为100次。
步骤203、根据访问数据,确定目标存储文件的访问属性。
可以理解的是,文件存储***中预设有多种属性,例如:当前热点属性、潜在热点属性、解冻属性、局部热点属性、预冷属性和冷冻属性。本实施例中可以根据访问数据,从当前热点属性、潜在热点属性、解冻属性、局部热点属性、预冷属性和冷冻属性中,确定目标存储文件对应的访问属性。
其中,当前热点属性是指,当前有多个用户频繁地访问目标存储文件;潜在热点属性是指:当前虽有少量用户访问目标存储文件,但是相较于历史访问有大幅增长;解冻属性是指:在前一段时间内没有用户访问目标存储文件,而在最近的一段时间内,有用户访问目标存储文件;局部热点属性是指,仅有少数用户频繁访问目标存储文件;预冷属性是指:历史和当前都几乎没有用户访问目标存储文件;冷冻属性是指:最近一段时间内没有用户访问目标存储文件。通过上述的描述可知,当前热点属性、潜在热点属性、解冻属性、局部热点属性、预冷属性和冷冻属性的访问行为特性如下表1所示:
表1
Figure BDA0003666844440000101
Figure BDA0003666844440000111
可以理解的是,上述表1中的访问行为特性通过各属性对应的参考访问数据和参考访问增长数据具体表现,而对于各属性对应的参考访问数据和参考访问增长数据的具体数值可以根据需要进行设置,在本实施例中对此不做具体限定。
在一种具体的实施方式中,确定目标存储文件的访问属性具体为冷属性还是热属性时,可以结合目标存储文件的访问数据和该访问数据对应的访问增长数据进行判定。在该实施方式中,冷属性可以包括:预冷属性;热属性可以包括:潜在热点属性;根据访问数据,确定目标存储文件的访问属性,具体包括:
步骤2031、根据访问数据,计算访问增长数据。
具体地,在一种可选实施方式中,访问数据包括:访问人数和访问次数时,访问增长数据可以包括:访问人数增长率和访问次数增长率。此时,根据访问数据,计算访问增长数据,具体包括:
基于访问人数,计算访问增长数据中的访问人数增长率;
基于访问次数,计算访问增长数据中的访问次数增长率。
可以理解的是,访问人数增长率表示的是访问人数的增长速度,通过步骤202获取到的访问人数和访问次数是与目标存储文件当前适配的访问数据,还需要获取与目标存储文件历史适配的访问人数和访问次数,然后将历史的访问人数和当前的访问人数对比,便可得到访问人数增长率。同理可以得到访问次数增长率。
步骤2032、获取预冷属性和潜在热点属性各自对应的参考访问数据和参考访问增长数据。
本实施例中通过将目标存储文件的访问数据、访问增长数据和预冷属性、潜在热点属性各自对应的参考访问数据、参考访问增长数据进行对比,确定目标存储文件的访问属性,故在获取到目标存储文件的访问数据、访问增长数据后,获取预冷属性和潜在热点属性各自对应的参考访问数据和参考访问增长数据。
可以理解的是,当访问数据为访问人数和访问次数时,参考访问数据可以为参考访问人数和参考访问次数。当访问增长数据为访问人数增长率和访问次数增长率时,参考访问增长数据可以为参考访问人数增长率和参考访问次数增长率。
步骤2033、将访问数据分别与预冷属性、潜在热点属性各自对应的参考访问数据进行比较,得到第一比较结果。
具体在比较时,将访问数据与参考访问数据进行比较,且将访问数据分别与预冷属性、潜在热点属性各自对应的参考访问数据进行比较。而当访问数据为访问人数和访问次数,参考访问数据为参考访问人数和参考访问次数时,将访问人数和参考访问人数比较、访问次数和参考访问次数比较,即:将访问人数分别与预冷属性、潜在热点属性各自对应的参考访问人数进行比较;将访问次数分别与预冷属性、潜在热点属性各自对应的参考访问次数进行比较。
步骤2034、将访问增长数据分别与预冷属性、潜在热点属性各自对应的参考访问增长数据进行比较,得到第二比较结果。
具体在比较时,将访问增长数据与参考访问增长数据进行比较,且将访问增长数据分别与预冷属性、潜在热点属性各自对应的参考访问增长数据进行比较。而当访问增长数据为访问人数增长率和访问次数增长率,参考访问增长数据为参考访问人数增长率和参考访问次数增长率时,将访问人数增长率和参考访问人数增长率比较、访问次数增长率和参考访问次数增长率比较,即:将访问人数增长率分别与预冷属性、潜在热点属性各自对应的参考访问人数增长率进行比较;将访问次数增长率分别与预冷属性、潜在热点属性各自对应的参考访问次数增长率进行比较。
步骤2035、结合第一比较结果和第二比较结果,确定目标存储文件的访问属性为冷属性或热属性。
具体地,在得到访问数据对应的第一比较结果和访问增长数据对应的第二比较结果后,可以结合第一比较结果和第二比较结果,确定目标存储文件的访问属性为冷属性或热属性。
在一种可选实施方式中,结合第一比较结果和第二比较结果,确定目标存储文件的访问属性为冷属性或热属性,具体包括:
当第一比较结果为访问数据大于0且小于预冷属性对应的参考访问数据,第二比较结果为访问增长数据小于预冷属性对应的参考访问增长数据时,将预冷属性确定为目标存储文件的访问属性;
当第一比较结果为访问数据大于0且小于潜在热点属性对应的参考访问数据,第二比较结果为访问增长数据大于潜在热点属性对应的参考访问增长数据时,将潜在热点属性确定为目标存储文件的访问属性。
在一种具体的实施方式中,确定目标存储文件的访问属性具体为冷属性还是热属性时,可以单独利用目标存储文件的访问数据进行判定。在该实施方式中,冷属性可以包括:冷冻属性;热属性可以包括:当前热点属性、解冻属性和局部热点属性;
根据访问数据,确定目标存储文件的访问属性,具体可以包括:
当最近N天的访问数据为0时,将冷冻属性确定为目标存储文件的访问属性,其中,N为自然数;
当访问数据大于当前热点属性对应的参考访问数据时,将当前热点属性确定为目标存储文件的访问属性;
当最近N天的访问数据不为0,且前N天的访问数据为0时,将解冻属性确定为目标存储文件的访问属性;
当访问数据中的访问人数大于0且小于局部热点属性对应的参考访问人数,同时访问数据中的访问次数大于局部热点属性对应的参考访问次数时,将局部热点属性确定为目标存储文件的访问属性。
可以理解的是,最近N天和前N天分别是指由N天组成的一个时间段。最近N天是指以当前为基准,向前数N天的一个时间段,前N天是最近N天的前一个N天时间段。例如,当前为15日,且N为3时,最近N天为:由15日、14日和13日组成的一个时间段;前N天是指:由12日、11日和10日组成的一个时间段。
可以理解的是,上述的访问数据在进行比较时,小于、大于或小于等关系是指访问人数、访问次数均满足上述的关系。例如,访问数据大于0是指:访问人数和访问次数都大于0,访问数据小于预冷属性对应的参考访问数据是指:访问人数小于预冷属性对应的参考访问人数,同时访问次数也小于预冷属性对应的参考访问次数。
同理,访问增长数据在比较时,小于、大于或小于等关系是指访问人数增长率、访问次数增长率均满足上述的关系。例如:访问增长数据小于预冷属性对应的参考访问增长数据是指:访问人数增长率小于预冷属性对应的参考访问人数增长率,同时访问次数增长率也小于预冷属性对应的参考访问次数增长率。
与此同时,上述描述中所指的访问数据为0或不为0,是指访问数据中的访问人数和访问次数均为0或均不为0。
例如,当目标存储文件A的访问人数为30人,访问次数为100次时,其访问人数30大于当前热点属性对应的参考访问人数25,访问次数100大于当前热点属性对应的参考访问次数80,此时可以将当前热点属性作为目标存储文件的访问属性。
步骤204、当访问属性为冷属性时,将对象存储策略确定为目标存储文件的目标存储策略。
本实施例中不同的访问属性可能对应不同的存储策略,当目标存储文件的访问属性为冷属性时,说明该目标存储文件在近期时间段内极少被用户进行访问。针对冷属性的目标存储文件,由于用户的访问需求不高,出于节省存储空间、减少存储成本的存储考量,可以将该目标存储文件当前的目标存储策略设置为对象存储策略,即目标存储文件可以使用Object Storage Service(OSS)进行存储,该存储方式的存储成本较低。
步骤205、当访问属性为热属性时,将副本存储策略确定为目标存储文件的目标存储策略。
当目标存储文件的访问属性为热属性时,说明该目标存储文件在近期时间段内会被用户进行较为频繁地访问。针对热属性的目标存储文件,由于用户的访问需求较高,为了提高对该目标存储文件的访问效率,满足用户对文件读写速度的需求,并保证该目标存储文件的数据高可用性,可以将该目标存储文件当前的目标存储策略设置为副本存储策略,例如,该目标存储文件可以使用Block replication存储方式进行存储。
本实施例中的副本存储策略包括:高副本和正常副本;其中高副本对应的副本数量大于正常副本对应的副本数量,副本数量越多则数据的读取性能和效率也更高,但其存储成本也就越高。
在一种实施方式中,当访问属性为热属性时,将副本存储策略确定为目标存储文件的目标存储策略,具体包括:
当访问属性为热属性中的当前热点属性或潜在热点属性时,将高副本确定为目标存储文件的目标存储策略;
当访问属性为热属性中的解冻属性或局部热点属性时,将正常副本确定为目标存储文件的目标存储策略。
可以理解的是,由前述访问属性的定义可知,当前热点属性和潜在热点属性比解冻属性和局部热点属性的访问热度要高,故当访问属性为当前热点属性或潜在热点属性时,说明目标存储文件被频繁访问,为确保此时的目标存储文件的读取性能和效率,将读取性能和效率更高的高副本确定为目标存储文件的目标存储策略。当访问属性为解冻属性或局部热点属性时,说明目标存储文件的访问并不是特别频繁,出于对存储成本、文件读写性能、读写效率等因素的综合考虑,将副本存储策略中存储成本相对较低、存储性能和效率相对平衡、可保证用户访问需求的正常副本确定为目标存储文件的目标存储策略。
综上可知,不同访问属性对应的目标存储策略如下表2所示:
表2
访问属性 目标存储策略
当前热点属性 高副本
潜在热点属性 高副本
解冻属性 正常副本
局部热点属性 正常副本
预冷属性 对象存储
冷冻属性 对象存储
在一个具体示例中:当目标存储文件A的访问属性为当前热点属性时,其对应的目标存储策略为:高副本。
步骤206、查询目标存储文件在文件存储***中的历史存储策略。
可以理解的是,步骤206的描述与实施例一中步骤103的描述相同,具体可以参见上述的描述,在本实施例中不再赘述。
步骤207、将目标存储策略和历史存储策略进行比对,得到比对结果。
在得到目标存储文件的历史存储策略和与目标存储文件当前适配的目标存储策略后,将二者进行一致性对比,得到二者是否一致的比对结果。
例如:目标存储文件A的目标存储策略为:高副本,历史存储策略为正常副本,显然二者不一致,此时比对结果为目标存储策略与历史存储策略不一致。
步骤208、当比对结果为目标存储策略与历史存储策略不一致时,更新历史存储策略为目标存储策略,并按照目标存储策略对目标存储文件执行存储操作。
当比对结果为目标存储策略与历史存储策略不一致时,需要将历史存储策略变更为与当下适配的目标存储策略,并按照目标存储策略对目标存储文件执行存储操作,以确保文件存储***中目标存储文件的存储策略适用于当下用户对目标存储文件的访问需求,以保证目标存储文件在文件存储***中的数据高可用性。
可以理解的是,存储操作可以是对存储文件增加副本,也可以是对存储文件减少副本,还可以是对存储文件改变存储策略。例如:当目标存储文件的目标存储策略为高副本,历史存储策略为正常副本时,对当前目标存储文件执行的存储操作则为增加副本。当目标存储文件的目标存储策略为正常副本,历史存储策略为高副本时,对当前目标存储文件执行的存储操作则为减少副本。当目标存储文件的目标存储策略为正常副本或高副本时,历史存储策略为对象存储时,对当前目标存储文件执行的存储操作则为将对象存储策略变更为正常副本或高副本。当目标存储文件的目标存储策略为对象存储策略,历史存储策略为高副本或正常副本时,对当前目标存储文件执行的存储操作则为将高副本或正常副本变更为对象存储策略。
例如,当目标存储文件A的目标存储策略为:高副本,历史存储策略为高副本时,此时对应的存储操作为增加副本。
步骤209、当比对结果为目标存储策略与历史存储策略一致时,继续按照历史存储策略对目标存储文件执行存储操作。
当比对结果为目标存储策略与历史存储策略一致时,说明目标存储文件的历史存储策略也适用于当下的用户需求,故无需调动额外的计算资源对该历史存储策略进行更新,可以继续按照历史存储策略对目标存储文件执行存储操作。
本实施例中根据用户对目标存储文件的访问情况区分目标存储文件的访问属性为冷属性还是热属性,对冷属性的目标存储文件,使用低成本的对象存储策略进行存储,大大降低了存储成本;对热属性的目标存储文件,使用例如Block replication存储方式的副本存储策略进行存储,并针对访问热度较高的热属性文件调高了存储的副本数,提高了对目标存储文件的数据访问性能及访问效率,缩短了数据查询时间,且存储空间优化更为明显,可以保证数据高可用性,提高用户的使用体验。
本实施例中数据存储方法,为了避免文件存储***中数据存储空间的大量消耗,优先确定文件存储***中目标存储文件的访问属性,访问属性包括:冷属性和热属性;对目标存储文件生成与其访问属性相适配的目标存储策略,该目标存储策略是在确定目标存储文件的访问属性为冷属性或热属性后生成的,当访问属性发生变化时,该目标存储策略也会随之变化;在为目标存储文件制定当前适配的目标存储策略后,查询该目标存储文件在文件存储***中的历史存储策略,将目标存储策略与历史存储策略进行比对,根据目标存储策略与历史存储策略的比对结果,对目标存储文件执行存储操作,该存储操作由于是依据目标存储文件的当前目标存储策略与历史存储策略的比对结果而执行的操作,该比对结果会随着目标存储策略的不同而发生变化,因此针对目标存储文件所执行的存储操作也是会随之变化的,即针对同一目标存储文件在其访问属性不同的情况下对其在文件存储***中所对应匹配的存储策略和存储操作均不同,这样有利于保证目标存储文件在***服务的任何时刻的数据高可用性,且能够在维持数据读写速度的同时减少对目标存储文件进行访问时的额外带宽消耗。
以上为本申请实施例提供的一种数据存储方法的实施例二,以下为本申请实施例提供的一种数据存储装置的实施例。
请参阅图3,图3为本申请实施例中一种数据存储装置的实施例的结构示意图。
本实施例中数据存储装置,包括:
确定单元,用于确定文件存储***中目标存储文件的访问属性,访问属性包括:冷属性和热属性;
生成单元,用于对目标存储文件生成与访问属性相适配的目标存储策略;
查询单元,用于查询目标存储文件在文件存储***中的历史存储策略;
存储单元,用于根据目标存储策略与历史存储策略的比对结果,对目标存储文件执行存储操作。
可选地,确定单元具体包括:
第一确定子单元,用于获取文件存储***中的目标存储文件和日志文件;
过滤子单元,用于从日志文件中,过滤出目标存储文件对应的访问数据;
第二确定子单元,用于根据访问数据,确定目标存储文件的访问属性。
可选地,冷属性包括:预冷属性;热属性包括:潜在热点属性;第二确定子单元具体包括:
计算子子单元,用于根据访问数据,计算访问增长数据;
获取子子单元,用于获取预冷属性和潜在热点属性各自对应的参考访问数据和参考访问增长数据;
第一比较子子单元,用于将访问数据分别与预冷属性、潜在热点属性各自对应的参考访问数据进行比较,得到第一比较结果;
第二比较子子单元,用于将访问增长数据分别与预冷属性、潜在热点属性各自对应的参考访问增长数据进行比较,得到第二比较结果;
第一确定子子单元,用于结合第一比较结果和第二比较结果,确定目标存储文件的访问属性为冷属性或热属性。
可选地,结合第一比较结果和第二比较结果,确定目标存储文件的访问属性为冷属性或热属性,具体包括:
当第一比较结果为访问数据大于0且小于预冷属性对应的参考访问数据,第二比较结果为访问增长数据小于预冷属性对应的参考访问增长数据时,将预冷属性确定为目标存储文件的访问属性;
当第一比较结果为访问数据大于0且小于潜在热点属性对应的参考访问数据,第二比较结果为访问增长数据大于潜在热点属性对应的参考访问增长数据时,将潜在热点属性确定为目标存储文件的访问属性。
可选地,访问数据包括:访问人数和访问次数;
根据访问数据,计算访问增长数据,具体包括:
基于访问人数,计算访问增长数据中的访问人数增长率;
基于访问次数,计算访问增长数据中的访问次数增长率。
可选地,冷属性包括:冷冻属性;热属性包括:当前热点属性、解冻属性和局部热点属性;第二确定子单元具体包括:具体包括:
第二确定子子单元,用于当最近N天的访问数据为0时,将冷冻属性确定为目标存储文件的访问属性,其中,N为自然数;
第三确定子子单元,用于当访问数据大于当前热点属性对应的参考访问数据时,将当前热点属性确定为目标存储文件的访问属性;
第四确定子子单元,用于当最近N天的访问数据不为0,且前N天的访问数据为0时,将解冻属性确定为目标存储文件的访问属性;
第五确定子子单元,用于当访问数据中的访问人数大于0小于局部热点属性对应的参考访问人数,且访问数据中的访问次数大于局部热点属性对应的参考访问次数时,将局部热点属性确定为目标存储文件的访问属性。
具体地,生成单元具体包括:
第一生成子单元,用于当访问属性为冷属性时,将对象存储策略确定为目标存储文件的目标存储策略;
第二生成子单元,用于当访问属性为热属性时,将副本存储策略确定为目标存储文件的目标存储策略。
可选地,副本存储策略包括:高副本和正常副本;
第二生成子单元具体包括:
第一生成子子单元,用于当访问属性为热属性中的当前热点属性或潜在热点属性时,将高副本确定为目标存储文件的目标存储策略;
第二生成子子单元,用于当访问属性为热属性中的解冻属性或局部热点属性时,将正常副本确定为目标存储文件的目标存储策略。
可选地,存储单元具体包括:
比对子单元,用于将目标存储策略和历史存储策略进行比对,得到比对结果;
第一存储子单元,用于当比对结果为目标存储策略与历史存储策略不一致时,更新历史存储策略为目标存储策略,并按照目标存储策略对目标存储文件执行存储操作;
第二存储子单元,用于当比对结果为目标存储策略与历史存储策略一致时,继续按照历史存储策略对目标存储文件执行存储操作。
可以理解的是,图4为本实施例中的一种数据存储装置的一种具体实现结构图。
该数据存储装置包括:管理服务器、控制器、日志采集模块、日志存储模块、日志分析模块、分析结果模块、策略生成模块、策略执行模块。对于该***的工作流程进行如下介绍:
1、用户通过使用客户端,连接HDFS管理服务器(即NameNode),发起对目标存储文件的访问请求。
2、NameNode在响应用户请求的同时,将用户的访问行为,保存在日志文件中。
3、日志采集模块实时抽取日志文件,写入到日志存储模块,在成功写入日志文件后,将写入结果上报给控制器。
4、控制器在收到日志写入结果后,控制日志分析模块执行日志分析任务。日志分析模块从日志存储模块处获取日志文件,过滤并统计出用户对目标存储文件的访问数据的访问人数、访问次数,将统计结果写入分析结果模块,并将写入结果上报给控制器。
5、控制器在收到分析结果写入后,控制策略生成模块执行策略生成任务。策略生成模块从分析结果模块获取最近N天的分析结果,从访问人数、访问次数、访问人数增长率、访问次数增长率四个维度对分析结果进行分析,确定目标存储文件的访问属性和目标存储策略,并将生成的目标存储策略上报给控制器。
6、控制器在收到目标存储策略后,控制在预定时间点控制策略执行模块执行策略。策略执行模块从策略生成模块获取目标存储策略和历史存储策略并进行对比,得到比对结果。
7、通过NameNode执行存储操作,变更完成后,将变更结果上报控制器。
本实施例中的数据存储装置,为了避免文件存储***中数据存储空间的大量消耗,优先确定文件存储***中目标存储文件的访问属性,访问属性包括:冷属性和热属性;对目标存储文件生成与其访问属性相适配的目标存储策略,该目标存储策略是在确定目标存储文件的访问属性为冷属性或热属性后生成的,当访问属性发生变化时,该目标存储策略也会随之变化;在为目标存储文件制定当前适配的目标存储策略后,查询该目标存储文件在文件存储***中的历史存储策略,将目标存储策略与历史存储策略进行比对,根据目标存储策略与历史存储策略的比对结果,对目标存储文件执行存储操作,该存储操作由于是依据目标存储文件的当前目标存储策略与历史存储策略的比对结果而执行的操作,该比对结果会随着目标存储策略的不同而发生变化,因此针对目标存储文件所执行的存储操作也是会随之变化的,即针对同一目标存储文件在其访问属性不同的情况下对其在文件存储***中所对应匹配的存储策略和存储操作均不同,这样有利于保证目标存储文件在***服务的任何时刻的数据高可用性,且能够在维持数据读写速度的同时减少对目标存储文件进行访问时的额外带宽消耗。
本申请实施例还提供了一种数据存储设备的实施例,本实施例中的存储设备包括处理器以及存储器:存储器用于存储程序代码,并将程序代码传输给处理器;处理器用于根据程序代码中的指令执行上述实施例中的数据存储方法。
本申请实施例还提供了一种计算机可读存储介质的实施例,该计算机可读存储介质用于存储程序代码,程序代码用于执行上述实施例中的数据存储方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:RandomAccessMemory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (12)

1.一种数据存储方法,其特征在于,包括:
确定文件存储***中目标存储文件的访问属性,所述访问属性包括:冷属性和热属性;
对所述目标存储文件生成与所述访问属性相适配的目标存储策略;
查询所述目标存储文件在所述文件存储***中的历史存储策略;
根据所述目标存储策略与所述历史存储策略的比对结果,对所述目标存储文件执行存储操作。
2.根据权利要求1所述的数据存储方法,其特征在于,所述确定文件存储***中目标存储文件的访问属性,具体包括:
获取文件存储***中的目标存储文件和日志文件;
从所述日志文件中,过滤出所述目标存储文件对应的访问数据;
根据所述访问数据,确定所述目标存储文件的访问属性。
3.根据权利要求2所述的数据存储方法,其特征在于,所述冷属性包括:预冷属性;所述热属性包括:潜在热点属性;
所述根据所述访问数据,确定所述目标存储文件的访问属性,具体包括:
根据所述访问数据,计算访问增长数据;
获取所述预冷属性和所述潜在热点属性各自对应的参考访问数据和参考访问增长数据;
将所述访问数据分别与所述预冷属性、所述潜在热点属性各自对应的参考访问数据进行比较,得到第一比较结果;
将所述访问增长数据分别与所述预冷属性、所述潜在热点属性各自对应的参考访问增长数据进行比较,得到第二比较结果;
结合所述第一比较结果和所述第二比较结果,确定所述目标存储文件的访问属性为冷属性或热属性。
4.根据权利要求3所述的数据存储方法,其特征在于,所述结合所述第一比较结果和所述第二比较结果,确定所述目标存储文件的访问属性为冷属性或热属性,具体包括:
当所述第一比较结果为所述访问数据大于0且小于预冷属性对应的参考访问数据,所述第二比较结果为所述访问增长数据小于预冷属性对应的参考访问增长数据时,将预冷属性确定为所述目标存储文件的访问属性;
当所述第一比较结果为所述访问数据大于0且小于潜在热点属性对应的参考访问数据,所述第二比较结果为所述访问增长数据大于潜在热点属性对应的参考访问增长数据时,将潜在热点属性确定为所述目标存储文件的访问属性。
5.根据权利要求3所述的数据存储方法,其特征在于,所述访问数据包括:访问人数和访问次数;
所述根据所述访问数据,计算访问增长数据,具体包括:
基于所述访问人数,计算所述访问增长数据中的访问人数增长率;
基于所述访问次数,计算所述访问增长数据中的访问次数增长率。
6.根据权利要求2所述的数据存储方法,其特征在于,所述冷属性包括:冷冻属性;所述热属性包括:当前热点属性、解冻属性和局部热点属性;
所述根据所述访问数据,确定所述目标存储文件的访问属性,具体包括:
当最近N天的所述访问数据为0时,将冷冻属性确定为所述目标存储文件的访问属性,其中,N为自然数;
当所述访问数据大于当前热点属性对应的参考访问数据时,将当前热点属性确定为所述目标存储文件的访问属性;
当最近N天的所述访问数据不为0,且前N天的所述访问数据为0时,将解冻属性确定为所述目标存储文件的访问属性;
当所述访问数据中的访问人数大于0小于局部热点属性对应的参考访问人数,且所述访问数据中的访问次数大于局部热点属性对应的参考访问次数时,将局部热点属性确定为所述目标存储文件的访问属性。
7.根据权利要求1至6中任一项所述的数据存储方法,其特征在于,所述对所述目标存储文件生成与所述访问属性相适配的目标存储策略,具体包括:
当所述访问属性为冷属性时,将对象存储策略确定为所述目标存储文件的目标存储策略;
当所述访问属性为热属性时,将副本存储策略确定为所述目标存储文件的目标存储策略。
8.根据权利要求7中所述的数据存储方法,其特征在于,所述副本存储策略包括:高副本和正常副本;
所述当所述访问属性为热属性时,将副本存储策略确定为所述目标存储文件的目标存储策略,具体包括:
当所述访问属性为热属性中的当前热点属性或潜在热点属性时,将高副本确定为所述目标存储文件的目标存储策略;
当所述访问属性为热属性中的解冻属性或局部热点属性时,将正常副本确定为所述目标存储文件的目标存储策略。
9.根据权利要求1至6中任一项所述的数据存储方法,其特征在于,所述根据所述目标存储策略与所述历史存储策略的比对结果,对所述目标存储文件执行存储操作,具体包括:
将所述目标存储策略和所述历史存储策略进行比对,得到比对结果;
当所述比对结果为所述目标存储策略与所述历史存储策略不一致时,更新历史存储策略为目标存储策略,并按照所述目标存储策略对所述目标存储文件执行存储操作;
当所述比对结果为所述目标存储策略与所述历史存储策略一致时,继续按照所述历史存储策略对所述目标存储文件执行存储操作。
10.一种数据存储装置,其特征在于,包括:
确定单元,用于确定文件存储***中目标存储文件的访问属性,所述访问属性包括:冷属性和热属性;
生成单元,用于对所述目标存储文件生成与所述访问属性相适配的目标存储策略;
查询单元,用于查询所述目标存储文件在所述文件存储***中的历史存储策略;
存储单元,用于根据所述目标存储策略与所述历史存储策略的比对结果,对所述目标存储文件执行存储操作。
11.一种数据存储设备,其特征在于,所述存储设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至9中任一项所述的数据存储方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1至9中任一项所述的数据存储方法。
CN202210589221.1A 2022-05-27 2022-05-27 一种数据存储方法、装置、设备和计算机可读存储介质 Pending CN114860663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210589221.1A CN114860663A (zh) 2022-05-27 2022-05-27 一种数据存储方法、装置、设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210589221.1A CN114860663A (zh) 2022-05-27 2022-05-27 一种数据存储方法、装置、设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114860663A true CN114860663A (zh) 2022-08-05

Family

ID=82641903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210589221.1A Pending CN114860663A (zh) 2022-05-27 2022-05-27 一种数据存储方法、装置、设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114860663A (zh)

Similar Documents

Publication Publication Date Title
US9355112B1 (en) Optimizing compression based on data activity
CN102667772B (zh) 文件级分级存储管理***、方法和设备
US8521986B2 (en) Allocating storage memory based on future file size or use estimates
US20090307329A1 (en) Adaptive file placement in a distributed file system
CN101673192B (zh) 时序化的数据处理方法、装置及***
CN107888687B (zh) 一种基于分布式存储***的代理客户端存储加速方法及***
JP2019204473A (ja) Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法
CN110287152B (zh) 一种数据管理的方法以及相关装置
CN103812934B (zh) 基于云存储***的遥感数据发布方法
CN111159176A (zh) 一种海量流数据的存储和读取的方法和***
Herodotou AutoCache: Employing machine learning to automate caching in distributed file systems
US10789234B2 (en) Method and apparatus for storing data
US20050097130A1 (en) Tracking space usage in a database
CN111930305A (zh) 数据的存储方法和装置、存储介质、电子装置
CN107506466A (zh) 一种小文件存储方法及***
CN103841168B (zh) 数据副本更新方法及元数据服务器
CN116339643B (zh) 一种磁盘阵列的格式化方法、装置、设备和介质
US20110093688A1 (en) Configuration management apparatus, configuration management program, and configuration management method
CN105892938A (zh) 一种磁盘缓存***的优化方法及***
CN111913913A (zh) 访问请求的处理方法和装置
CN109189696B (zh) 一种ssd缓存***及缓存方法
CN114625695A (zh) 数据处理方法以及装置
CN114860663A (zh) 一种数据存储方法、装置、设备和计算机可读存储介质
CN105610921A (zh) 一种集群下基于数据缓存的纠删码归档方法
CN115858510A (zh) 一种评测数据温度并进行动态存储管理的方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination