CN113760854A - Hdfs内存中数据的识别方法及相关设备 - Google Patents

Hdfs内存中数据的识别方法及相关设备 Download PDF

Info

Publication number
CN113760854A
CN113760854A CN202111063577.3A CN202111063577A CN113760854A CN 113760854 A CN113760854 A CN 113760854A CN 202111063577 A CN202111063577 A CN 202111063577A CN 113760854 A CN113760854 A CN 113760854A
Authority
CN
China
Prior art keywords
memory
metadata
data
hdfs
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111063577.3A
Other languages
English (en)
Inventor
梁海昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202111063577.3A priority Critical patent/CN113760854A/zh
Publication of CN113760854A publication Critical patent/CN113760854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种HDFS内存中数据的识别方法及相关设备,应用于数据处理技术领域,其中,方法包括:获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;获取名字节点的内存运行的当前时间;计算访问时间与当前时间的时间差值;确定时间差值大于第一预设值的访问时间对应的元数据为冷数据。以解决现有技术中,由于NN的内存往往容量有限,随着HDFS中目录和文件的增加,NN的内存也会被消耗的越来越多,导致NN的可用内存容量变小,从而使***的运行速率变慢的问题。

Description

HDFS内存中数据的识别方法及相关设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种HDFS内存中数据的识别方法及相关设备。
背景技术
Hadoop是由Apache基金主导的集群分布式项目,主要包含两个核心模块:Map/Reduce编程模式和HDFS(Hadoop Distributed File System,Hadoop分布式文件***)。其中,HDFS主要通过文件数据块的多备份机制、心跳机制等来实现数据的高可用性、集群扩展性和数据的高速读写等特性。由于HDFS的上述特性,目前,大多数企业选择以HDFS为基础构建云存储。
HDFS集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。NameNode(以下简称NN)主要负责管理HDFS文件***,DataNode(以下简称DN)主要是用来存储数据文件。
相关技术中,常常使用HDFS作为数据存储***,同时这些数据的元数据信息会在NN内存中进行索引,NN的内存中会记录。由于NN的内存往往容量有限,随着HDFS中目录和文件的增加,NN的内存也会被消耗的越来越多,导致NN的可用内存容量变小,从而使***的运行速率变慢。
发明内容
本申请提供了一种HDFS内存中数据的识别方法及相关设备,用以解决现有技术中,由于NN的内存往往容量有限,随着HDFS中目录和文件的增加,NN的内存也会被消耗的越来越多,导致NN的可用内存容量变小,从而使***的运行速率变慢的问题。
第一方面,本申请实施例提供了一种HDFS内存中数据的识别方法,包括:
获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;
获取所述名字节点的内存运行的当前时间;
计算所述访问时间与所述当前时间的时间差值;
确定所述时间差值大于第一预设值的所述访问时间对应的元数据为冷数据。
可选的,所述确定所述时间差值大于第一预设值的元数据为冷数据之后,还包括:
获取所述冷数据的数据要素,所述数据要素中包括所述时间差值;
确定所述数据要素对应的所述冷数据的目标处理单元;
将所述冷数据发送至所述目标处理单元,以通过所述目标处理单元对所述冷数据进行处理。
可选的,所述数据要素中还包括再次访问倾向度,所述再次访问倾向度指示所述冷数据被再次访问的可能性;
所述确定所述数据要素对应的所述冷数据的目标处理单元,包括:
若所述时间差值大于第二预设值,或,所述再次访问倾向度小于预设倾向度,确定所述目标处理单元为回收站,所述第二预设值大于所述第一预设值。
可选的,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间,包括:
获取所述名字节点的内存中存入时间大于预设时间的每个元数据各自的访问时间。
可选的,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间,包括:
获取所述名字节点的内存中未携带特定标识的每个元数据各自的访问时间,所述特定标识为指示所述元数据满足预设条件的标识。
可选的,所述确定所述时间差值大于第一预设值的元数据为冷数据,包括:
记录每次数据的识别过程中,携带所述特定标识的元数据的访问时间与当前识别过程的当前时间的时间差大于所述第一预设值的次数,所述当前识别过程为所述数据的识别过程中的任一识别过程;
在所述次数大于预设次数时,确定所述携带所述特定标识的元数据为冷数据。
可选的,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间之前,还包括:
监测所述名字节点的空闲内存空间量;
在所述空闲内存空间量小于预设空间存储量时,执行所述每间隔预设时长,获取所述名字节点的内存中每个元数据的访问参数值。
可选的,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间,包括:
扫描元数据访问记录表,所述元数据访问记录表中元数据的数据标识和元数据的访问时间对应存储;
从所述元数据访问记录表中,提取得到所述访问时间。
第二方面,本申请实施例提供了一种HDFS内存中数据的识别装置,其特征在于,包括:
第一获取模块,用于获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;
第二获取模块,用于获取所述名字节点的内存运行的当前时间;
计算模块,用于计算所述访问时间与所述当前时间的时间差值;
确定模块,用于确定所述时间差值大于第一预设值的所述访问时间对应的元数据为冷数据。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的HDFS内存中数据的识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的HDFS内存中数据的识别方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,通过获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;获取名字节点的内存运行的当前时间;计算访问时间与当前时间的时间差值;确定时间差值大于第一预设值的访问时间对应的元数据为冷数据。如此,对HDFS中NameNode名字节点的内存中的元数据进行区分,将访问时间距离当前时间较长的元数据识别出来,将其作为冷数据,实现了NameNode内存中元数据的识别。后续可以将识别到的冷数据进行移除,从而增大可用内存容量,提升运行速率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的HDFS内存中数据的识别方法的架构图;
图2为本申请一实施例提供的HDFS内存中数据的识别方法的流程图;
图3为本申请一实施例提供的HDFS内存中数据的识别方法中数据传输图;
图4为本申请一实施例提供的HDFS内存中数据的识别装置的结构图;
图5为本申请一实施例提供的电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
(1)HDFS:Hadoop Distribute File System,Hadoop分布式文件***,大数据常用的存储***,一种多台服务器组成的集群;
(2)热数据:经常被用户访问,查看的数据;
(3)冷数据:不经常访问的数据;
(4)NameNode:简称NN,HDFS中的一种主机角色,主要负责HDFS集群的管理,接收客户端请求,分配存储节点;
(5)DataNode:简称DN,HDFS中的一种主机角色,主要负责数据存储,接收NameNode指令;
(6)HDFS元数据:NameNode维护,记录当前HDFS中存储的文件的基本信息,类似HDFS的目录索引,每一个目录或文件都是一条元数据,按类型分,主要包括以下3个部分:
1.文件、目录自身的属性信息,例如文件名、目录名、修改信息等;
2.文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等;
3.记录HDFS的DataNode的信息,用于DataNode的管理。
根据本申请一实施例提供了一种HDFS内存中数据的识别方法。可选地,在本申请实施例中,上述HDFS内存中数据的识别方法可以应用于如图1所示的由终端101和服务器102所构成的硬件环境中。如图1所示,服务器102通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如视频服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器102提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101并不限定于PC、手机、平板电脑等。
本申请实施例的HDFS内存中数据的识别方法可以由服务器102来执行,也可以由终端101来执行,还可以是由服务器102和终端101共同执行。其中,终端101执行本申请实施例的HDFS内存中数据的识别方法,也可以是由安装在其上的客户端来执行。
以终端执行本申请实施例的HDFS内存中数据的识别方法为例,该方法可以应用于终端,图2是根据本申请实施例的一种可选的HDFS内存中数据的识别方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤201、获取HDFS中名字节点的内存中至少一个元数据各自的访问时间。
一些实施例中,HDFS启动时,NN和DN分别启动,DN启动后,向NN进行注册,并且,在NameNode启动后,HDFS将元数据加载至NameNode,从而在NN的内存中存储元数据。
在NN的内存中元数据的访问时间可以是与元数据对应存储的,每访问一次,对元数据更新一次;也可以是将访问时间单独设置在一个文件内,在获取访问时间时,从该文件中获取。
在一个可选实施例中,获取HDFS中名字节点的内存中至少一个元数据各自的访问时间,具体包括:
扫描元数据访问记录表,元数据访问记录表中元数据的数据标识和元数据的访问时间对应存储;从元数据访问记录表中,提取得到访问时间。
一些实施例中,数据标识是用于表示元数据身份信息的唯一标识,将访问时间与数据标识对应存储,在获取元数据的访问时间时,可以通过该元数据的数据标识在元数据访问记录表中进行查找,从而得到访问时间。
其中,为及时发现元数据中的冷数据,上述的获取元数据访问时间时,可以是每间隔预设时长获取一次,并在获取访问时间后进一步对元数据进行识别。示例性的,预设时长可以根据实际情况进行选择设置,例如预设时长为1小时、一天、一周或一个月。
在一个可选实施例中,由于内存中的数据变化比较快,对于NN内存中的元数据是不断更新的,在判断元数据是否为冷数据时,对于新存储的元数据可能还未来得及再次访问,若将此类元数据确定为冷数据,可能造成元数据不必要的处理。
因此,在获取NN的内存中的元数据时,获取NameNode的内存中存入时间大于预设时间的每个元数据的访问时间,如此,可以将存入NN的内存中时间较短的元数据过滤掉,不加入冷数据的识别,以降低数据处理量,提高冷数据识别效率。其中,临界值可以根据实际情况进行设置,例如,临界值为12或24小时。
在另一个可选实施例中,在NN的内存的元数据中部分元数据携带了特定标识,该特定标识为指示元数据满足预设条件的标识,例如携带特定标识的元数据需保留在NN的内存中,以满足特定需求。
因此,获取的至少一个元数据的访问时间可以是获取NameNode的内存中未携带特定标识的每个元数据的访问时间。
其中,特定标识还可以是元数据被访问多次后生成的高频标识,在元数据携带了高频标识后,将该元数据保留在NN的内存中,避免将其识别为冷数据。其中,高频标识即为元数据的访问次数大于预设次数后,配置的标识。
进一步的,为提高冷数据的识别精度,通过记录每次数据的识别过程中,携带特定标识的元数据的访问时间与当前识别过程的当前时间的时间差大于第一预设值的次数,当前识别过程为数据的识别过程中的任一识别过程;在次数大于预设次数时,确定携带特定标识的元数据为冷数据。
如此,在元数据具有特定标识(例如高频标识)时,若其多次检测到未被访问,在次数大于预设次数后,将其识别为冷数据。如此,可以避免将携带有特定标识的元数据由于在前的访问频率,对后续的冷数据识别造成影响,通过多次判断其多次未被调用,将其确定为冷数据,能够提高元数据的识别精度。
步骤202、获取名字节点的内存运行的当前时间。
一些实施例中,当前时间为识别冷数据时的所处的时间。在实际应用中,名字节点的内存在实时运行,实时有元数据被访问,名字节点的内存运行的当前时间,可以从运行的终端的时间***中得到。
步骤203、计算访问时间与当前时间的时间差值。
一些实施例中,在获取到元数据的访问时间和当前时间后,可以将当前时间减去访问时间,得到时间差值。该时间差值表示元数据未被访问的时长。
步骤204、确定时间差值大于第一预设值的访问时间对应的元数据为冷数据。
一些实施例中,在元数据访问时间与当前时间的时间差值大于第一预设值时,表示该元数据已经较长时间未被访问到,故,将此类元数据识别为冷数据。
进一步的,在一个可选实施例中,在确定时间差值大于第一预设值的元数据为冷数据之后,还包括:
获取冷数据的数据要素,数据要素中包括时间差值;确定数据要素对应的冷数据的目标处理单元;将冷数据发送至目标处理单元。
一些实施例中,为增加内存中的空间容量,在识别到NN的内存中的冷数据后,可以根据数据要素确定不同冷数据对应的目标处理单元,从而由目标处理单元对冷数据进行处理。
其中,目标处理单元可以为删除冷数据并将冷数据存储到外部存储单元的处理单元。
一些实施例中,通过删除NameNode中的冷数据,一方面能够清理NameNode中的部分内存,在启动时,不必将冷数据装载到内存,提高了NameNode的启动速度,减少了冷数据的占用,提高了NameNode的响应速度,并且,将冷数据冷数据对应的元数据信息从NN内存中动态移除,减轻了NN的内存压力。另外,通过将NameNode中的冷数据存储到外部存储单元,避免了该部分冷数据的由于从内存中删除而导致的数据丢失。
其中,外部存储单元可以但不限于外部文件或外部数据库。
在一个可选实施例中,数据要素中还包括再次访问倾向度,再次访问倾向度指示冷数据被再次访问的可能性;确定数据要素对应的冷数据的目标处理单元,包括:
若时间差值大于第二预设值,或,再次访问倾向度小于预设倾向度,确定目标处理单元为回收站,第二预设值大于第一预设值。
一些实施例中,若元数据较长时间未被访问,而超过第二预设值,则该元数据被访问的概率较小,因此,将其发送至回收站删除,避免占用其他位置的内存。另外,在元数据的再次访问倾向度小于预设倾向度时,则该元数据被再次访问或访问的概率较小,
其中,第二预设值可以但不限于为6个月,预设倾向度可以为小于10%的任一值。
其中,再次访问倾向度与元数据的访问次数正相关,访问次数越少,再次访问倾向度越低。
在一个可选实施例中,将冷数据存储到预设的外部存储单元中,并删除NameNode中的冷数据之后,还包括:
获取数据查询请求;判断NameNode中是否存在与数据查询请求对应的目标元数据;若存在,返回目标元数据对应的存储数据;若不存在,基于预设的外部存储单元,得到目标元数据对应的存储数据,以通过目标处理单元对冷数据进行处理。
一些实施例中,由于在上述实施例中,将冷数据从NN中删除并存储到外部存储单元,因此,在获取到数据查询请求后,若未冷数据的查询请求,可能无法从NN中查询到。因此,在获取到数据查询请求后,先判断NameNode中是否存在与数据查询请求对应的目标元数据,若NN中存在该目标元数据,直接将该目标元数据对应的存储数据返回;若不存在,则表示该目标元数据为冷数据,存储到了外部存储单元,因此,可以基于预设的外部存储单元,得到目标元数据对应的存储数据。
具体的,在目标元数据存储在NN中时,NN向DN发送查询命令,以使DN在其数据存储单元中,查询与目标元数据对应的目标原始数据,从而将该目标原始数据返回。
进一步的,基于预设的外部存储单元,得到目标元数据对应的存储数据,包括:
判断预设的外部存储单元是否存在与数据查询请求对应的目标元数据;若预设的外部存储单元中包括目标元数据,将目标元数据加载至NameNode中,并返回目标元数据对应的存储数据。
一些实施例中,目标元数据未在NN中时,可以由NN将数据查询请求发送到预设的外部存储单元,通过在预设的外部存储单元中查询,是否存在与该数据查询请求对应的目标元数据,并将预设的外部存储单元中的目标元数据加载到NN中,进而,NN中又可以查询到目标元数据,从而,可以返回该目标元数据对应的存储数据。如此,在有查询冷数据的需求时,将这部分元数据重新自动补充回NN中,保证了元数据不会丢失。
图3是本申请实施例提供了存储数据获取的具体过程,参见图3,在HDFS中包括多个DataNode节点以及一个NameNode,DataNode对HDFS中的数据进行存储,NameNode用于存储元数据。DataNode向NN进行注册,由NN将元数据中的冷数据存储到预设的外部存储单元中,并删除冷数据。在获取到数据查询请求后,向NN中查询对应的目标元数据,若NN中不存在,向预设的外部存储单元中获取,并重新加载到NN,若NN存在,基于该目标元数据从DN中获取对应的存储数据。
在一个可选的实施例中,获取HDFS中名字节点的内存中至少一个元数据各自的访问时间之前,还包括:
监测NameNode的空闲内存空间量;在空闲内存空间量小于预设空间存储量时,执行获取HDFS中名字节点的内存中至少一个元数据各自的访问时间。
一些实施例中,在NN的内存中内存空间较大时,内存的运行速率降低的影响较小,为降低NN的内存的计算量,在NN的空闲内存空间量小于预设空间存储量时,再识别元数据中的冷数据。从而,降低了内存中的计算量。
本申请中,通过对HDFS中NameNode的内存中的元数据进行区分,将访问时间距离当前时间较长的元数据识别出来,将其作为冷数据,实现了NameNode内存中元数据的识别。后续可以将识别到的冷数据进行移除,从而增大可用内存容量,提升运行速率。并且,自动将HDFS中的冷数据在NN内存中对应的元数据信息自动移除,释放NN内存,提高NN内存的利用率,同时当用户确实要访问冷数据时,NN能够将元数据重新加载回内存,实现内存动态优化。
基于同一构思,本申请实施例中提供了一种HDFS内存中数据的识别装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图4所示,该装置主要包括:
第一获取模块401,用于获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;
第二获取模块402,用于获取名字节点的内存运行的当前时间;
计算模块403,用于计算访问时间与当前时间的时间差值;
确定模块404,用于确定时间差值大于第一预设值的访问时间对应的元数据为冷数据。
基于同一构思,本申请实施例中还提供了一种电子设备,如图5所示,该电子设备主要包括:处理器501、存储器502和通信总线503,其中,处理器501和存储器502通过通信总线503完成相互间的通信。其中,存储器502中存储有可被至处理器501执行的程序,处理器501执行存储器502中存储的程序,实现如下步骤:
获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;
获取名字节点的内存运行的当前时间;
计算访问时间与当前时间的时间差值;
确定时间差值大于第一预设值的访问时间对应的元数据为冷数据。
上述电子设备中提到的通信总线503可以时外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线503可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器502可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器501的存储装置。
上述的处理器501可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等,还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的HDFS内存中数据的识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种HDFS内存中数据的识别方法,其特征在于,包括:
获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;
获取所述名字节点的内存运行的当前时间;
计算所述访问时间与所述当前时间的时间差值;
确定所述时间差值大于第一预设值的所述访问时间对应的元数据为冷数据。
2.根据权利要求1所述的HDFS内存中数据的识别方法,其特征在于,所述确定所述时间差值大于第一预设值的元数据为冷数据之后,还包括:
获取所述冷数据的数据要素,所述数据要素中包括所述时间差值;
确定所述数据要素对应的所述冷数据的目标处理单元;
将所述冷数据发送至所述目标处理单元,以通过所述目标处理单元对所述冷数据进行处理。
3.根据权利要求2所述的HDFS内存中数据的识别方法,其特征在于,所述数据要素中还包括再次访问倾向度,所述再次访问倾向度指示所述冷数据被再次访问的可能性;
所述确定所述数据要素对应的所述冷数据的目标处理单元,包括:
若所述时间差值大于第二预设值,或,所述再次访问倾向度小于预设倾向度,确定所述目标处理单元为回收站,所述第二预设值大于所述第一预设值。
4.根据权利要求1-3任一项所述的HDFS内存中数据的识别方法,其特征在于,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间,包括:
获取所述名字节点的内存中存入时间大于预设时间的每个元数据各自的访问时间。
5.根据权利要求1-3任一项所述的HDFS内存中数据的识别方法,其特征在于,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间,包括:
获取所述名字节点的内存中未携带特定标识的每个元数据各自的访问时间,所述特定标识为指示所述元数据满足预设条件的标识。
6.根据权利要求5所述的HDFS内存中数据的识别方法,其特征在于,所述确定所述时间差值大于第一预设值的元数据为冷数据,包括:
记录每次数据的识别过程中,携带所述特定标识的元数据的访问时间与当前识别过程的当前时间的时间差大于所述第一预设值的次数,所述当前识别过程为所述数据的识别过程中的任一识别过程;
在所述次数大于预设次数时,确定所述携带所述特定标识的元数据为冷数据。
7.根据权利要求1-3任一项所述的HDFS内存中数据的识别方法,其特征在于,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间之前,还包括:
监测所述名字节点的空闲内存空间量;
在所述空闲内存空间量小于预设空间存储量时,执行所述每间隔预设时长,获取所述名字节点的内存中每个元数据的访问参数值。
8.根据权利要求1-3任一项所述的HDFS内存中数据的识别方法,其特征在于,所述获取HDFS中名字节点的内存中至少一个元数据各自的访问时间,包括:
扫描元数据访问记录表,所述元数据访问记录表中元数据的数据标识和元数据的访问时间对应存储;
从所述元数据访问记录表中,提取得到所述访问时间。
9.一种HDFS内存中数据的识别装置,其特征在于,包括:
第一获取模块,用于获取HDFS中名字节点的内存中至少一个元数据各自的访问时间;
第二获取模块,用于获取所述名字节点的内存运行的当前时间;
计算模块,用于计算所述访问时间与所述当前时间的时间差值;
确定模块,用于确定所述时间差值大于第一预设值的所述访问时间对应的元数据为冷数据。
10.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1-8任一项所述的HDFS内存中数据的识别方法。
11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的HDFS内存中数据的识别方法。
CN202111063577.3A 2021-09-10 2021-09-10 Hdfs内存中数据的识别方法及相关设备 Pending CN113760854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111063577.3A CN113760854A (zh) 2021-09-10 2021-09-10 Hdfs内存中数据的识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111063577.3A CN113760854A (zh) 2021-09-10 2021-09-10 Hdfs内存中数据的识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN113760854A true CN113760854A (zh) 2021-12-07

Family

ID=78794832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111063577.3A Pending CN113760854A (zh) 2021-09-10 2021-09-10 Hdfs内存中数据的识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN113760854A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760855A (zh) * 2021-09-10 2021-12-07 北京金山云网络技术有限公司 数据的存储方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013561A1 (en) * 2011-07-08 2013-01-10 Microsoft Corporation Efficient metadata storage
CN107169056A (zh) * 2017-04-27 2017-09-15 四川长虹电器股份有限公司 分布式文件***及节省分布式文件***存储空间的方法
CN107665224A (zh) * 2016-07-29 2018-02-06 北京京东尚科信息技术有限公司 扫描hdfs冷数据的方法、***和装置
CN108021585A (zh) * 2016-10-28 2018-05-11 腾讯科技(深圳)有限公司 分布式数据存储方法和装置
CN112286459A (zh) * 2020-10-29 2021-01-29 苏州浪潮智能科技有限公司 一种数据处理方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013561A1 (en) * 2011-07-08 2013-01-10 Microsoft Corporation Efficient metadata storage
CN107665224A (zh) * 2016-07-29 2018-02-06 北京京东尚科信息技术有限公司 扫描hdfs冷数据的方法、***和装置
CN108021585A (zh) * 2016-10-28 2018-05-11 腾讯科技(深圳)有限公司 分布式数据存储方法和装置
CN107169056A (zh) * 2017-04-27 2017-09-15 四川长虹电器股份有限公司 分布式文件***及节省分布式文件***存储空间的方法
CN112286459A (zh) * 2020-10-29 2021-01-29 苏州浪潮智能科技有限公司 一种数据处理方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
詹玲等: "基于Ceph 文件***的元数据缓存备份", 《计算机工程》, vol. 43, no. 4, 30 April 2017 (2017-04-30), pages 67 - 72 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760855A (zh) * 2021-09-10 2021-12-07 北京金山云网络技术有限公司 数据的存储方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109947668B (zh) 存储数据的方法和装置
CN110888889B (zh) 一种数据信息更新方法、装置及设备
CN110109868B (zh) 用于索引文件的方法、装置和计算机程序产品
CN110958300B (zh) 一种数据的上传方法、***、装置、电子设备和计算机可读介质
US9514170B1 (en) Priority queue using two differently-indexed single-index tables
CN110750211B (zh) 一种存储空间的管理方法及装置
CN111488377A (zh) 数据查询方法、装置、电子设备及存储介质
CN113760854A (zh) Hdfs内存中数据的识别方法及相关设备
CN110427394B (zh) 数据操作方法及装置
CN113779426A (zh) 数据存储方法、装置、终端设备及存储介质
CN112579633A (zh) 一种数据检索方法、装置、设备及存储介质
CN113779412B (zh) 一种基于区块链网络的消息触达方法、节点和***
CN113849482A (zh) 一种数据迁移方法、装置及电子设备
CN116820323A (zh) 数据存储方法、装置、电子设备及计算机可读存储介质
CN111400327B (zh) 一种数据同步方法、装置、电子设备及存储介质
CN113760855A (zh) 数据的存储方法、装置、电子设备和存储介质
CN111078643B (zh) 一种批量删除文件的方法、装置及电子设备
CN113821166A (zh) 一种聚合多版本小对象的方法、装置及设备
CN111399754B (zh) 存储空间的释放方法、装置及分布式***
CN110083509B (zh) 一种日志数据的规整方法及装置
CN114036121A (zh) 一种日志文件处理方法、装置、***、设备及存储介质
CN111291127A (zh) 一种数据同步方法、装置、服务器及存储介质
CN112543213B (zh) 一种数据处理方法及装置
CN115718571B (zh) 一种基于多维度特征的数据管理方法和装置
US11816088B2 (en) Method and system for managing cross data source data access requests

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination