CN111694505A - 数据存储管理方法、装置和计算机可读存储介质 - Google Patents

数据存储管理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111694505A
CN111694505A CN201910197865.4A CN201910197865A CN111694505A CN 111694505 A CN111694505 A CN 111694505A CN 201910197865 A CN201910197865 A CN 201910197865A CN 111694505 A CN111694505 A CN 111694505A
Authority
CN
China
Prior art keywords
storage unit
data storage
data
access times
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910197865.4A
Other languages
English (en)
Other versions
CN111694505B (zh
Inventor
吕苏娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910197865.4A priority Critical patent/CN111694505B/zh
Priority to PCT/CN2020/074191 priority patent/WO2020186931A1/zh
Priority to US17/432,815 priority patent/US11822788B2/en
Publication of CN111694505A publication Critical patent/CN111694505A/zh
Application granted granted Critical
Publication of CN111694505B publication Critical patent/CN111694505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • G06F16/125File system administration, e.g. details of archiving or snapshots using management policies characterised by the use of retention policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据存储管理方法、装置和计算机可读存储介质,涉及数据存储技术领域。本公开的方法包括:获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数;根据数据存储单元在对应的预设时间区间内的访问次数,确定数据存储单元是否属于待销毁存储单元;在数据存储单元属于待销毁存储单元的情况下,发出待销毁提醒。本公开的方法能够自动对大数据集群中的数据存储进行有效管理,及时将不再需要的数据存储单元进行销毁,释放存储空间,提高数据的查询效率和数据存储管理的效率。

Description

数据存储管理方法、装置和计算机可读存储介质
技术领域
本公开涉及数据存储技术领域,特别涉及一种数据存储管理方法、装置和计算机可读存储介质。
背景技术
随着互联网技术的发展,数据呈现***式增长。数据可以存储于大数据集群或者数据仓库中,用户可以进行查询、添加、删除等操作。
目前,随着数据量不断增加,工作人员可能根据实际需求对数据进行筛查,将一些不需要的数据存储单元进行删除。
发明内容
发明人发现:由工作人员进行数据筛查费时费力,可能造成误删除,当数据开发人员利用某一历史数据进行开发时,该数据有可能因为空间问题会删除,给开发人员开发带来困难。如果不进行存储管理和数据的删除,数据存储单元随着时间的推移越来越胖,数据的查询速度缓慢。
本公开所要解决的一个技术问题是:如何对数据存储进行有效管理,提高数据存储管理的效率。
根据本公开的一些实施例,提供的一种数据存储管理方法,包括:获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数;根据数据存储单元在对应的预设时间区间内的访问次数,确定数据存储单元是否属于待销毁存储单元;在数据存储单元属于待销毁存储单元的情况下,发出待销毁提醒。
在一些实施例中,获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数包括:周期性查询数据存储单元的最后一次访问时间;根据数据存储单元的最后一次访问时间的变化,更新访问次数的记录;根据访问次数的记录确定在对应的预设时间区间内的访问次数。
在一些实施例中,获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数包括:在数据存储单元为数据表的情况下,根据数据表所处的时间阶段,获取数据表在时间阶段对应的预设时间区间内的访问次数;其中,数据表被设置生命周期,生命周期被划分为多个时间阶段。
在一些实施例中,获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数包括:在数据存储单元为分区文件的情况下,每隔预设时间段获取分区文件在对应的预设时间区间内的访问次数。
在一些实施例中,根据数据存储单元在对应的预设时间区间内的访问次数,确定数据存储单元是否属于待销毁存储单元包括:在数据存储单元为数据表的情况下,根据数据表所处的时间阶段获取时间阶段对应的第一访问次数阈值;在数据表在对应的预设时间区间内的访问次数小于或等于第一访问次数阈值的情况下,确定数据表属于待销毁存储单元;其中,不同时间阶段对应的第一访问次数阈值相同或不同。
在一些实施例中,根据数据存储单元在对应的预设时间区间内的访问次数,确定数据存储单元是否属于待销毁存储单元包括:在数据存储单元为分区文件的情况下,在分区文件在对应的预设时间区间内的访问次数小于或等于第二访问次数阈值的情况下,确定分区文件属于待销毁存储单元。
在一些实施例中,该方法还包括:根据数据表在时间阶段对应的预设时间区间内的访问次数,将数据表分配至不同的存储设备进行存储。
在一些实施例中,将数据存储单元分配至不同的存储设备进行存储包括:将数据表在时间阶段对应的预设时间区间内的访问次数与时间阶段对应的多个访问次数阈值进行比对,确定数据表的数据热度等级;根据数据表的数据热度等级,将数据表分配至对应性能的存储设备进行存储。
在一些实施例中,该方法还包括:在数据存储单元不属于待销毁存储单元,且数据存储单元的生命周期达到的情况下,重新配置数据存储单元的生命周期。
根据本公开的另一些实施例,提供的一种数据存储管理装置,包括:访问次数获取模块,用于获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数;状态确定模块,用于根据数据存储单元在对应的预设时间区间内的访问次数,确定数据存储单元是否属于待销毁存储单元;提醒模块,用于在数据存储单元属于待销毁存储单元的情况下,发出待销毁提醒。
在一些实施例中,访问次数获取模块用于周期性查询数据存储单元的最后一次访问时间;根据数据存储单元的最后一次访问时间的变化,更新访问次数的记录;根据访问次数的记录确定在对应的预设时间区间内的访问次数。
在一些实施例中,访问次数获取模块用于在数据存储单元为数据表的情况下,根据数据表所处的时间阶段,获取数据表在时间阶段对应的预设时间区间内的访问次数;其中,数据表被设置生命周期,生命周期被划分为多个时间阶段。
在一些实施例中,访问次数获取模块用于在数据存储单元为分区文件的情况下,每隔预设时间段获取分区文件在对应的预设时间区间内的访问次数。
在一些实施例中,状态确定模块用于在数据存储单元为数据表的情况下,根据数据表所处的时间阶段获取时间阶段对应的第一访问次数阈值;在数据表在对应的预设时间区间内的访问次数小于或等于第一访问次数阈值的情况下,确定数据表属于待销毁存储单元;其中,不同时间阶段对应的第一访问次数阈值相同或不同。
在一些实施例中,状态确定模块用于在数据存储单元为分区文件的情况下,在分区文件在对应的预设时间区间内的访问次数小于或等于第二访问次数阈值的情况下,确定分区文件属于待销毁存储单元。
在一些实施例中,该装置还包括:存储迁移模块,用于根据数据表在时间阶段对应的预设时间区间内的访问次数,将数据表分配至不同的存储设备进行存储。
在一些实施例中,存储迁移模块用于将数据表在时间阶段对应的预设时间区间内的访问次数与时间阶段对应的多个访问次数阈值进行比对,确定数据表的数据热度等级;根据数据表的数据热度等级,将数据表分配至对应性能的存储设备进行存储。
在一些实施例中,该装置还包括:重配置模块,用于在数据存储单元不属于待销毁存储单元,且数据存储单元的生命周期达到的情况下,重新配置数据存储单元的生命周期。
根据本公开的又一些实施例,提供的一种数据存储管理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行如前述任意实施例的数据存储管理方法。
根据本公开的再一些实施例,提供的一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的数据存储管理方法。
本公开中自动检测大数据集群内数据存储单元在对应的预设时间区间内的访问次数,根据访问次数判断是否可以被销毁,如果数据存储单元可以被销毁,则发出待销毁提醒。本公开的方法能够自动对大数据集群中的数据存储进行有效管理,及时将不再需要的数据存储单元进行销毁,释放存储空间,提高数据的查询效率和数据存储管理的效率。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的数据存储管理方法的流程示意图。
图2示出本公开的另一些实施例的数据存储管理方法的流程示意图。
图3示出本公开的一些实施例的数据存储管理装置的结构示意图。
图4示出本公开的另一些实施例的数据存储管理装置的结构示意图。
图5示出本公开的又一些实施例的数据存储管理装置的结构示意图。
图6示出本公开的再一些实施例的数据存储管理装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提供一种数据存储管理方法,下面结合图1进行描述。
图1为本公开数据存储管理方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S106。
在步骤S102中,获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数。
在一些实施例中,周期性查询数据存储单元的最后一次访问时间;根据数据存储单元的最后一次访问时间的变化,更新访问次数的记录;根据访问次数的记录确定在对应的预设时间区间内的访问次数。例如,在数据存储于Hive数据仓中的情况下,可以每隔预设周期轮询一次Hive metastore(元数据存储)的数据库(例如数据库为Mysql),若TBLS表中的LAST_ACCESS_TIME(最后一次访问时间),根据LAST_ACCESS_TIME的改变记录访问次数。访问次数可以每隔一定时间进行清零,重新计算。可用Hive中的命令desc extendedtable_name进行查看,并可根据dfs.namenode.accesstime.precision参数设置查看的粒度。
在一些实施例中,大数据集群或数据仓库中的数据存储单元为数据表,可以对数据表设置生命周期。生命周期的设置可以在数据表创建时进行设置。数据表的生命周期可以表示该数据表的由创建到销毁的时间段,生命周期的时间长度可以根据实际业务的需求进行设置,不同数据表的生命周期可以不同,例如,生命周期设置为3年、2个月等。
生命周期可以划分为多个第一时间阶段,例如,生命周期划分为第一时间阶段、第二时间阶段、第三时间阶段、第四时间阶段等。不同时间阶段对应的预设时间区间的时间长度可以相同或不同,不同时间阶段对应的预设时间区间可以不重叠。不同时间阶段可以根据数据表的数据热度的变化阶段而设置,例如,可以将数据表的数据热度划分为不同的数据热度等级,例如,数据热度等级包括:在线热数据、在线温数据、离线冷数据和待销毁数据等。
可以统计业务对应的预设数量的历史数据表的数据热度情况,根据这些历史数据表处于在线热数据的状态持续的时间长度和时间范围,可以设置第一时间阶段(例如,第一时间阶段为数据表建立开始到第三个月);根据这些历史数据表处于在线温数据的状态持续的时间长度和时间范围,可以设置第二时间阶段(例如,第二时间阶段为数据表建立第四个月到一年);以此类推,第三时间阶段对应离线冷数据(例如,第三时间阶段为数据表建立第二年开始到第二年结束),第四时间阶段对应待销毁数据(例如,第三时间阶段为数据表建立第三年开始到生命周期结束)。不是每个数据表都会经历不同的数据热度等级,时间阶段可以是基于多数数据表的统计结果而设置。
在一些实施例中,在数据存储单元为数据表的情况下,根据数据表所处的时间阶段,获取数据表在时间阶段对应的预设时间区间内的访问次数。例如,数据表当前处于第三时间阶段,则获取数据表建立第二年开始到第二年结束这一时间段内的访问次数。
在一些实施例中,数据表可以划分为分区文件进行存储,即数据存储单元可以是分区文件。在数据存储单元为分区文件的情况下,每隔预设时间段获取分区文件在对应的预设时间区间内的访问次数。例如,每隔1个月获取分区文件在最近两年内的访问次数。分区文件也可以参考数据表的划分时间阶段的,不同时间阶段对应不同预设时间区间的方式,统计访问次数。
在步骤S104中,根据数据存储单元在对应的预设时间区间内的访问次数,确定数据存储单元是否属于待销毁存储单元。
不同数据存储单元统计访问次数的时间区间不同,确定是否属于待销毁存储单元的方式也可能不同。在一些实施例中,在数据存储单元为数据表的情况下,根据数据表所处的时间阶段获取时间阶段对应的第一访问次数阈值;在数据表在对应的预设时间区间内的访问次数小于或等于第一访问次数阈值的情况下,确定数据表属于待销毁存储单元。不同时间阶段对应的第一访问次数阈值相同或不同。例如,第一时间阶段对应的第一访问次数阈值设置为负数,这样数据表在第一时间阶段中则不会被确定为待销毁存储单元,在第三时间阶段或第四时间阶段可以将第一访问次数阈值设置为0,当数据表在第三时间阶段或第四时间阶段访问次数为0的情况下,则会被确定为待销毁存储单元。
在一些实施例中,在数据存储单元为分区文件的情况下,在分区文件在对应的预设时间区间内的访问次数小于或等于第二访问次数阈值的情况下,确定分区文件属于待销毁存储单元。例如,分区文件在两年访问次数等于0,则分区文件属于待销毁存储单元。
在一些实施例中,除了上述对数据存储单元设置生命周期划分时间阶段的方案,数据存储单元还可以被设置不同的统计访问次数的时间阶段,不同的时间阶段对应不同的预设时间区间,例如,第五时间阶段为从当前时间开始的最近三个月,第六时间阶段为最近一年间的时间段除去第一时间阶段,第七时间阶段为最近两年等。不同访问次数统计阶段对应的预设时间区间可以重叠。不同的访问次数统计阶段可以对应不同的第三访问次数阈值,在数据存储单元在对应的预设时间区间内的访问次数小于或等于第三访问次数阈值的情况下,确定数据表属于待销毁存储单元。
在一些实施例中,数据存储单元在对应的预设时间区间内的访问次数小于或等于第四访问次数阈值的情况下,确定数据存储单元属于待销毁存储单元。无论数据存储单元属于哪个阶段,只要数据存储单元在一定的预设时间区间内(例如最近两年)的访问次数小于或等于第四访问次数阈值,则确定数据存储单元属于待销毁存储单元。
在步骤S106中,在数据存储单元属于待销毁存储单元的情况下,发出待销毁提醒。
发出待销毁提醒以便工作人员获知有待销毁存储单元,并且工作人员可以根据业务需求再次确认是否将待销毁存储单元进行销毁。可以在操作界面中显示待销毁存储单元,或者以邮件、短信等形式向工作人员发出待销毁提醒。
在一些实施例中,在数据存储单元不属于待销毁存储单元,且数据存储单元的生命周期达到的情况下,重新配置数据存储单元的生命周期。如果工作人员确定不对待销毁存储单元进行销毁,则重新配置数据存储单元的生命周期。重新配置的生命周期可以与原来的生命周期不同。例如,对于上述数据存储单元每次前一生命周期结束后可以按照一定步长缩短生命周期作为下一次的生命周期。
上述实施例的方法中自动检测大数据集群内数据存储单元在对应的预设时间区间内的访问次数,根据访问次数判断是否可以被销毁,如果数据存储单元可以被销毁,则发出待销毁提醒。上述实施例的方法能够自动对大数据集群中的数据存储进行有效管理,及时将不再需要的数据存储单元进行销毁,释放存储空间,提高数据的查询效率和数据存储管理的效率。
为了进一步提高数据查询的效率,可以针对不同数据热度的数据存储单元进行分别存储,下面结合图2进行描述。
图2为本公开数据存储管理方法另一些实施例的流程图。如图2所示,该实施例的方法包括:步骤S202~S204。
在步骤S202中,根据数据表所处的时间阶段,获取数据表在时间阶段对应的预设时间区间内的访问次数。
在步骤S204中,根据数据表在时间阶段对应的预设时间区间内的访问次数,将数据表分配至不同的存储设备进行存储。
例如,参考前述实施例,数据表被设置生命周期并划分不同的时间阶段。在一些实施例中,将数据表在时间阶段对应的预设时间区间内的访问次数与时间阶段对应的多个访问次数阈值进行比对,确定数据表的数据热度等级;根据数据表的数据热度等级,将数据表分配至对应性能的存储设备进行存储。
一个时间阶段对应多个访问次数阈值,不同的访问次数阈值对应不同的数据热度等级。例如,第一时间阶段对应的阈值包括100,50,30等,如果数据表在第一时间阶段的访问次数超过100,确定数据表的数据热度等级为最高等级,为在线热数据。如果数据表在第一时间阶段的访问次数小于100大于50,确定数据表的数据热度等级为第二热度等级,为在线温数据,以此类推。不同时间阶段的访问次数阈值设置可以不同。
数据表的数据热度等级越高,被分配的存储设备(例如,机架)的性能越好(例如,处理效率高,存储空间大)。将不同的数据表根据访问情况分配至不同的存储设备,可以使访问次数多的数据表的查询和访问效率提高,提升用户体验。
例如,参考前述实施例,数据存储单元还可以被设置不同的统计访问次数的时间阶段。分别统计不同时间阶段的访问次数,将数据存储单元在各个时间阶段对应的预设时间区间内的访问次数与该时间阶段对应的多个访问次数阈值进行比对,确定数据存储单元的数据热度等级;根据数据存储单元的数据热度等级,将数据表分配至对应性能的存储设备进行存储。
上述实施例的方法中根据数据存储单元的数据热度等级将数据存储单元分配至不同性能的存储设备进行存储,随着数据生命周期数据在不同的存储设备间流转,使得访问次数高的数据存储单元能够被高性能的存储设备进行处理,提高数据访问和查询的效率,提升用户体验。
本公开还提供一种数据存储管理装置,下面结合图3进行描述。
图3为本公开数据存储管理装置的一些实施例的结构图。如图3所示,该实施例的装置30包括:访问次数获取模块302,状态确定模块304,提醒模块306。
访问次数获取模块302,用于获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数。
在一些实施例中,访问次数获取模块302用于周期性查询数据存储单元的最后一次访问时间;根据数据存储单元的最后一次访问时间的变化,更新访问次数的记录;根据访问次数的记录确定在对应的预设时间区间内的访问次数。
在一些实施例中,访问次数获取模块302用于在数据存储单元为数据表的情况下,根据数据表所处的时间阶段,获取数据表在时间阶段对应的预设时间区间内的访问次数;其中,数据表被设置生命周期,生命周期被划分为多个时间阶段。
在一些实施例中,访问次数获取模块302用于在数据存储单元为分区文件的情况下,每隔预设时间段获取分区文件在对应的预设时间区间内的访问次数。
状态确定模块304,用于根据数据存储单元在对应的预设时间区间内的访问次数,确定数据存储单元是否属于待销毁存储单元。
在一些实施例中,状态确定模块304用于在数据存储单元为数据表的情况下,根据数据表所处的时间阶段获取时间阶段对应的第一访问次数阈值;在数据表在对应的预设时间区间内的访问次数小于或等于第一访问次数阈值的情况下,确定数据表属于待销毁存储单元;其中,不同时间阶段对应的第一访问次数阈值相同或不同。
在一些实施例中,状态确定模块304用于在数据存储单元为分区文件的情况下,在分区文件在对应的预设时间区间内的访问次数小于或等于第二访问次数阈值的情况下,确定分区文件属于待销毁存储单元。
提醒模块306,用于在数据存储单元属于待销毁存储单元的情况下,发出待销毁提醒。
下面结合图4描述本公开数据存储管理装置的另一些实施例。
图4为本公开数据存储管理装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:访问次数获取模块402,状态确定模块404,提醒模块406分别与访问次数获取模块302,状态确定模块304,提醒模块306的功能相同或相似;装置40还包括:存储迁移模块408。
存储迁移模块408用于根据数据表在时间阶段对应的预设时间区间内的访问次数,将数据表分配至不同的存储设备进行存储。
在一些实施例中,存储迁移模块408用于将数据表在时间阶段对应的预设时间区间内的访问次数与时间阶段对应的多个访问次数阈值进行比对,确定数据表的数据热度等级;根据数据表的数据热度等级,将数据表分配至对应性能的存储设备进行存储。
在一些实施例中,装置40还包括:重配置模块410,用于在数据存储单元不属于待销毁存储单元,且数据存储单元的生命周期达到的情况下,重新配置数据存储单元的生命周期。
本公开的实施例中的数据存储管理装置可各由各种计算设备或计算机***来实现,下面结合图5以及图6进行描述。
图5为本公开数据存储管理装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行本公开中任意一些实施例中的数据存储管理方法。
其中,存储器510例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6为本公开数据存储管理装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及处理器620,分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (20)

1.一种数据存储管理方法,包括:
获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数;
根据所述数据存储单元在对应的预设时间区间内的访问次数,确定所述数据存储单元是否属于待销毁存储单元;
在所述数据存储单元属于待销毁存储单元的情况下,发出待销毁提醒。
2.根据权利要求1所述的数据存储管理方法,其中,
所述获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数包括:
周期性查询所述数据存储单元的最后一次访问时间;
根据所述数据存储单元的最后一次访问时间的变化,更新访问次数的记录;
根据访问次数的记录确定在对应的预设时间区间内的访问次数。
3.根据权利要求1所述的数据存储管理方法,其中,
所述获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数包括:
在所述数据存储单元为数据表的情况下,根据所述数据表所处的时间阶段,获取所述数据表在所述时间阶段对应的预设时间区间内的访问次数;
其中,所述数据表被设置生命周期,所述生命周期被划分为多个时间阶段。
4.根据权利要求1所述的数据存储管理方法,其中,
所述获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数包括:
在所述数据存储单元为分区文件的情况下,每隔预设时间段获取分区文件在对应的预设时间区间内的访问次数。
5.根据权利要求3所述的数据存储管理方法,其中,
所述根据所述数据存储单元在对应的预设时间区间内的访问次数,确定所述数据存储单元是否属于待销毁存储单元包括:
在所述数据存储单元为数据表的情况下,根据所述数据表所处的时间阶段获取所述时间阶段对应的第一访问次数阈值;在所述数据表在对应的预设时间区间内的访问次数小于或等于所述第一访问次数阈值的情况下,确定所述数据表属于待销毁存储单元;其中,不同时间阶段对应的第一访问次数阈值相同或不同。
6.根据权利要求3所述的数据存储管理方法,其中,
所述根据所述数据存储单元在对应的预设时间区间内的访问次数,确定所述数据存储单元是否属于待销毁存储单元包括:
在所述数据存储单元为分区文件的情况下,在所述分区文件在对应的预设时间区间内的访问次数小于或等于所述第二访问次数阈值的情况下,确定所述分区文件属于待销毁存储单元。
7.根据权利要求3所述的数据存储管理方法,还包括:
根据所述数据表在所述时间阶段对应的预设时间区间内的访问次数,将所述数据表分配至不同的存储设备进行存储。
8.根据权利要求7所述的数据存储管理方法,其中,
所述将所述数据存储单元分配至不同的存储设备进行存储包括:
将所述数据表在所述时间阶段对应的预设时间区间内的访问次数与所述时间阶段对应的多个访问次数阈值进行比对,确定所述数据表的数据热度等级;
根据所述数据表的数据热度等级,将所述数据表分配至对应性能的存储设备进行存储。
9.根据权利要求1-8任一项所述的数据存储管理方法,还包括:
在所述数据存储单元不属于待销毁存储单元,且所述数据存储单元的生命周期达到的情况下,重新配置所述数据存储单元的生命周期。
10.一种数据存储管理装置,包括:
访问次数获取模块,用于获取大数据集群内数据存储单元在对应的预设时间区间内的访问次数;
状态确定模块,用于根据所述数据存储单元在对应的预设时间区间内的访问次数,确定所述数据存储单元是否属于待销毁存储单元;
提醒模块,用于在所述数据存储单元属于待销毁存储单元的情况下,发出待销毁提醒。
11.根据权利要求10所述的数据存储管理装置,其中,
所述访问次数获取模块用于周期性查询所述数据存储单元的最后一次访问时间;根据所述数据存储单元的最后一次访问时间的变化,更新访问次数的记录;根据访问次数的记录确定在对应的预设时间区间内的访问次数。
12.根据权利要求10所述的数据存储管理装置,其中,
所述访问次数获取模块用于在所述数据存储单元为数据表的情况下,根据所述数据表所处的时间阶段,获取所述数据表在所述时间阶段对应的预设时间区间内的访问次数;
其中,所述数据表被设置生命周期,所述生命周期被划分为多个时间阶段。
13.根据权利要求10所述的数据存储管理装置,其中,
所述访问次数获取模块用于在所述数据存储单元为分区文件的情况下,每隔预设时间段获取分区文件在对应的预设时间区间内的访问次数。
14.根据权利要求12所述的数据存储管理装置,其中,
所述状态确定模块用于在所述数据存储单元为数据表的情况下,根据所述数据表所处的时间阶段获取所述时间阶段对应的第一访问次数阈值;在所述数据表在对应的预设时间区间内的访问次数小于或等于所述第一访问次数阈值的情况下,确定所述数据表属于待销毁存储单元;其中,不同时间阶段对应的第一访问次数阈值相同或不同。
15.根据权利要求12所述的数据存储管理装置,其中,
所述状态确定模块用于在所述数据存储单元为分区文件的情况下,在所述分区文件在对应的预设时间区间内的访问次数小于或等于所述第二访问次数阈值的情况下,确定所述分区文件属于待销毁存储单元。
16.根据权利要求12所述的数据存储管理装置,还包括:
存储迁移模块,用于根据所述数据表在所述时间阶段对应的预设时间区间内的访问次数,将所述数据表分配至不同的存储设备进行存储。
17.根据权利要求16所述的数据存储管理装置,其中,
所述存储迁移模块用于将所述数据表在所述时间阶段对应的预设时间区间内的访问次数与所述时间阶段对应的多个访问次数阈值进行比对,确定所述数据表的数据热度等级;根据所述数据表的数据热度等级,将所述数据表分配至对应性能的存储设备进行存储。
18.根据权利要求10-17任一项所述的数据存储管理装置,还包括:
重配置模块,用于在所述数据存储单元不属于待销毁存储单元,且所述数据存储单元的生命周期达到的情况下,重新配置所述数据存储单元的生命周期。
19.一种数据存储管理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-9任一项所述的数据存储管理方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-9任一项所述方法的步骤。
CN201910197865.4A 2019-03-15 2019-03-15 数据存储管理方法、装置和计算机可读存储介质 Active CN111694505B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910197865.4A CN111694505B (zh) 2019-03-15 2019-03-15 数据存储管理方法、装置和计算机可读存储介质
PCT/CN2020/074191 WO2020186931A1 (zh) 2019-03-15 2020-02-03 数据存储管理方法、装置和计算机可读存储介质
US17/432,815 US11822788B2 (en) 2019-03-15 2020-02-03 Data storage management method and apparatus, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910197865.4A CN111694505B (zh) 2019-03-15 2019-03-15 数据存储管理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111694505A true CN111694505A (zh) 2020-09-22
CN111694505B CN111694505B (zh) 2021-11-02

Family

ID=72475911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910197865.4A Active CN111694505B (zh) 2019-03-15 2019-03-15 数据存储管理方法、装置和计算机可读存储介质

Country Status (3)

Country Link
US (1) US11822788B2 (zh)
CN (1) CN111694505B (zh)
WO (1) WO2020186931A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965665A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种基于sas和ssd的gp数据库数据存储方法
CN114722243A (zh) * 2022-04-15 2022-07-08 北京科杰科技有限公司 一种数据表排序方法及装置、电子设备、存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115113827B (zh) * 2022-08-24 2023-02-03 苏州浪潮智能科技有限公司 一种数据销毁方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100072770A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 데이터 서버로 분산 수집된 접근 횟수 기반의 핫 데이터 관리 방법
CN103607312A (zh) * 2013-11-29 2014-02-26 广州华多网络科技有限公司 用于服务器***的数据请求处理方法及***
CN104715020A (zh) * 2015-02-13 2015-06-17 腾讯科技(深圳)有限公司 缓存数据的删除方法及服务器
CN104778420A (zh) * 2015-04-24 2015-07-15 广东电网有限责任公司信息中心 非结构化数据全生命周期的安全管理视图建立方法
CN107168654A (zh) * 2017-05-26 2017-09-15 华中科技大学 一种基于数据对象热度的异构内存分配方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777028A (zh) * 2010-01-21 2010-07-14 北京北大众志微***科技有限责任公司 一种混合型二级存储***的实现方法及装置
US9754005B2 (en) * 2012-06-18 2017-09-05 Actifio, Inc. System and method for incrementally backing up out-of-band data
CN107346321A (zh) 2016-05-06 2017-11-14 阿里巴巴集团控股有限公司 数据仓库管理方法及装置
JP2019053415A (ja) * 2017-09-13 2019-04-04 東芝メモリ株式会社 メモリシステム、その制御方法及びプログラム
TW201926081A (zh) * 2017-11-27 2019-07-01 財團法人資訊工業策進會 資料轉移系統及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100072770A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 데이터 서버로 분산 수집된 접근 횟수 기반의 핫 데이터 관리 방법
CN103607312A (zh) * 2013-11-29 2014-02-26 广州华多网络科技有限公司 用于服务器***的数据请求处理方法及***
CN104715020A (zh) * 2015-02-13 2015-06-17 腾讯科技(深圳)有限公司 缓存数据的删除方法及服务器
CN104778420A (zh) * 2015-04-24 2015-07-15 广东电网有限责任公司信息中心 非结构化数据全生命周期的安全管理视图建立方法
CN107168654A (zh) * 2017-05-26 2017-09-15 华中科技大学 一种基于数据对象热度的异构内存分配方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965665A (zh) * 2021-03-09 2021-06-15 华泰证券股份有限公司 一种基于sas和ssd的gp数据库数据存储方法
CN112965665B (zh) * 2021-03-09 2023-09-26 华泰证券股份有限公司 一种基于sas和ssd的gp数据库数据存储方法
CN114722243A (zh) * 2022-04-15 2022-07-08 北京科杰科技有限公司 一种数据表排序方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
WO2020186931A1 (zh) 2020-09-24
CN111694505B (zh) 2021-11-02
US11822788B2 (en) 2023-11-21
US20220121372A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
US10740308B2 (en) Key_Value data storage system
CN111694505B (zh) 数据存储管理方法、装置和计算机可读存储介质
CN107870981B (zh) 电子装置、数据表归档处理的方法及存储介质
JP2021500649A (ja) シャード・データベースのシャード・テーブルにレコードを記憶するためのコンピュータ実装方法、コンピュータ・プログラム製品、およびシステム、シャード・データベースのシャード・テーブルからレコードを検索するためのコンピュータ実装方法、コンピュータ・プログラム製品、およびシステム、ならびにシャード・データベースを記憶するためのシステム
CN112395293B (zh) 分库分表方法、分库分表装置、分库分表设备及存储介质
CN107656807B (zh) 一种虚拟资源的自动弹性伸缩方法及装置
CN108196787B (zh) 集群存储***的配额管理方法以及集群存储***
CN108052526B (zh) 监控区域权限管理方法、装置及存储介质
CN111324606B (zh) 数据分片的方法及装置
CN103246549B (zh) 一种数据转存的方法及***
CN110347651A (zh) 基于云存储的数据同步方法、装置、设备及存储介质
CN111782134A (zh) 数据处理方法、装置、***和计算机可读存储介质
CN110955704A (zh) 一种数据管理方法、装置、设备及存储介质
JP6269140B2 (ja) アクセス制御プログラム、アクセス制御方法、およびアクセス制御装置
CN111930716A (zh) 一种数据库扩容方法、装置及***
CN111240890B (zh) 数据处理方法、快照处理方法、装置及计算设备
CN109634524A (zh) 一种数据处理守护进程的数据分区配置方法、装置及设备
CN111414422B (zh) 一种数据分布方法、装置、设备和存储介质
CN112486664A (zh) 一种节点扩容方法、***、终端及存储介质
CN113779426A (zh) 数据存储方法、装置、终端设备及存储介质
CN113449042B (zh) 数据自动分库方法及装置
CN110727674A (zh) 一种电网gis云平台的性能优化***及方法
CN116661677A (zh) 一种计算设备的扩容方法和计算设备
CN113703678A (zh) 一种存储桶索引重***的方法、装置、设备和介质
CN109753320B (zh) 一种应用参数的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant