CN117112492A - 一种自适应的时空大数据分布式存储方法及智能文件*** - Google Patents

一种自适应的时空大数据分布式存储方法及智能文件*** Download PDF

Info

Publication number
CN117112492A
CN117112492A CN202311079515.0A CN202311079515A CN117112492A CN 117112492 A CN117112492 A CN 117112492A CN 202311079515 A CN202311079515 A CN 202311079515A CN 117112492 A CN117112492 A CN 117112492A
Authority
CN
China
Prior art keywords
space
time
data
virtual pool
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311079515.0A
Other languages
English (en)
Other versions
CN117112492B (zh
Inventor
蒋湘涛
李建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University of Forestry and Technology
Original Assignee
Central South University of Forestry and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University of Forestry and Technology filed Critical Central South University of Forestry and Technology
Priority to CN202311079515.0A priority Critical patent/CN117112492B/zh
Publication of CN117112492A publication Critical patent/CN117112492A/zh
Application granted granted Critical
Publication of CN117112492B publication Critical patent/CN117112492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自适应的时空大数据分布式存储方法及智能文件***,方法包括:建立时空大数据管理框架;获取待存储的时空数据的时间特征和空间特征;按照时空数据的时间特征,将时空数据至于时间窗口对应的目标虚拟池;根据时空数据的空间特征,将时空数据按照目标虚拟池管理的存储节点数量切分成若干子数据;将切分得到的每一子数据分配至目标虚拟池管理的不同存储节点进行分布式存储;学习用户对存储后的时空数据的访问特征;根据访问特征,自适应地对时空大数据管理框架进行演化,以提高演化后的时空大数据管理框架对用户访问请求的响应效率。本发明有利于自适应地对时空数据存储规则进行进化,以提高用户访问时空数据的效率。

Description

一种自适应的时空大数据分布式存储方法及智能文件***
技术领域
本发明涉及时空大数据存储技术领域,尤其涉及一种智能文件***和一种自适应的时空大数据分布式存储方法。
背景技术
时空数据是同时具有时间和空间维度的数据,时空数据包括时间、空间、专题属性三维信息,具有多源、海量、更新快速的综合特点。因此,时空数据的存储呈现大数据存储的特性,且具有时空数据的独特属性。
时空数据存储过程中,需要通过文件***来管理数据和存储数据。现有的文件***在存储时空数据的过程中,将接收到的时空数据无差别地存储至存储空间,随着存储空间中存储的时空数据越来越多,文件***存储和管理时空数据的压力会逐渐提升。现有技术中的文件***由于在存储时空数据时采用无差别存储,以及随着时空数据存储量的提升而形成的数据管理和存储压力,会导致用户端需要访问文件***中的数据时,访问效率低下。
发明内容
本发明的主要目的在于提供一种智能文件***,以及一种自适应的时空大数据分布式存储方法,旨在解决现有的文件***中,用户访问时空数据的效率低下的问题。
为实现上述目的,本发明提供的一种自适应的时空大数据分布式存储方法,包括如下步骤:
建立时空大数据管理框架,其中,时空大数据管理框架根据设定的时间窗口粒度大小,随着时间的推移依次生成各个虚拟池,将每个虚拟池对应至不同时间窗口,将每个虚拟池对应管理若干存储节点;
获取待存储的时空数据的时间特征和空间特征;
按照时空数据的时间特征,将时空数据至于时间窗口对应的目标虚拟池;
根据时空数据的空间特征,将时空数据按照目标虚拟池管理的存储节点数量切分成若干子数据;
将切分得到的每一子数据分配至目标虚拟池管理的不同存储节点进行分布式存储;
学习用户对存储后的时空数据的访问特征;
根据访问特征,自适应地对时空大数据管理框架进行演化,以提高演化后的时空大数据管理框架对用户访问请求的响应效率。
优选地,所述学习用户对存储后的时空数据的访问特征的步骤,包括:
获取用户发出的访问请求,访问请求包括请求访问的时空数据的时间特征、空间特征和数据类型;
根据访问请求,确定用户对每个虚拟池中管理的时空数据的访问频次。
优选地,所述根据访问特征,自适应地对时空大数据管理框架进行演化的步骤,包括下述步骤中的至少一项:
根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的时间窗口粒度进行演化;
根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池对应管理的存储节点数量进行演化;
根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池与存储节点的对应关系进行演化。
优选地,所述根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的时间窗口粒度进行演化的步骤,包括:
根据虚拟池中管理的时空数据的访问频次,判断是否触发虚拟池融合指令或虚拟池切分指令;
若触发虚拟池融合指令,判断触发虚拟池融合指令的虚拟池的相邻虚拟池是否也触发虚拟池融合指令;
当相邻虚拟池的访问频次也触发虚拟池融合指令时,执行虚拟池融合操作,以使融合后的虚拟池的时间窗口尺度为融合前的各个连续的虚拟池的时间窗口尺度之和;
若触发虚拟池切分指令,将触发虚拟池切分指令的虚拟池切分成多个虚拟池,将对应的时间窗口按照虚拟池切分数量切分成多个依次连续的时间窗口,将切分后的每个虚拟池对应至切分后的不同的时间窗口。
优选地,所述根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池对应管理的存储节点数量进行演化的步骤,包括:
根据虚拟池中管理的时空数据的访问频次,判断是否触发存储节点数量调整指令;
若是,根据存储节点数量调整指令,调整对应的虚拟池管理的存储节点数量。
优选地,所述根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池与存储节点的对应关系进行演化的步骤,包括:
根据虚拟池中管理的时空数据的访问频次,判断是否触发存储节点调整指令;
若是,根据每个存储节点的性能参数,调整触发存储节点调整指令的虚拟池管理的存储节点。
优选地,所述方法,还包括:
根据用户发出的访问请求确定用户请求访问的目标时空数据;
根据目标时空数据的时间特征和空间特征,确定用于管理请求访问的时空数据的访问虚拟池;
获取访问虚拟池管理的各个访问存储节点;
从所有访问存储节点中并行提取所述目标时空数据切分成的目标子数据;
将全部目标子数据按照切分方式拼接成完整时空数据;
将完整时空数据作为反馈数据返回至用户。
优选地,所述方法,还包括:
获取用户从目标时空数据中确定的指定子数据;
根据指定子数据,从访问虚拟池管理的访问存储节点中查找用于存储指定子数据的访问存储节点;
将返回的指定子数据作为反馈数据返回至用户。
优选地,所述方法,还包括:
获取各个空闲存储节点的性能参数,并形成存储节点的性能参数排序结果;
将性能参数排序结果中的性能参数高的存储节点,对应至新生成的虚拟池。
为实现上述目的,本发明还提出一种智能文件***,应用所述的自适应的时空大数据分布式存储方法;所述智能文件***包括通讯连接的数据管理接口模块和存储模块;所述数据管理接口模块用于向用户提供时空数据的访问接口,以通过访问接口接收用户的访问请求;存储模块包括多个存储节点;
所述数据管理接口模块用于:建立时空大数据管理框架;获取待存储的时空数据的时间特征和空间特征;按照时空数据的时间特征,将时空数据至于时间窗口对应的目标虚拟池;根据时空数据的空间特征,将时空数据按照目标虚拟池管理的存储节点数量切分成若干子数据;将切分得到的每一子数据分配至目标虚拟池管理的不同存储节点;学习用户对存储后的时空数据的访问特征;根据访问特征,自适应地对时空大数据管理框架进行演化,以提高演化后的时空大数据管理框架对用户访问请求的响应效率;
所述存储模块用于:将每一子数据采用分配的存储节点进行分布式存储。
本发明的技术方案中,建立时空大数据管理框架,时空大数据管理框架中,随着时间的推移会依次生成时间窗口不同的虚拟池,每个虚拟池的时间窗口粒度根据预设方式确定,且可以演化;每个虚拟池对应管理有若干存储节点以实现分布式存储,且存储节点的数量、以及虚拟池与存储节点的对应关系,都可以演化。待存储的时空数据按照时间特征至于对应的目标虚拟池,目标虚拟池按照待存储的时空数据的空间特征,将待存储的时空数据进行切分,切分后,每一子数据通过目标虚拟池的其中一存储节点存储,从而,待存储的时空数据按照分布式存储的方式分布存储到目标虚拟池管理的各个存储节点中。在本发明中的时空大数据管理框架下,各个虚拟池对应管理有不同时间特征的时空数据,而每个时空数据分布式切分存储到虚拟池管理的每个存储节点后,当用户访问时空数据时,根据时空数据的时间特征可以确定目标虚拟池,再由目标虚拟池分布式管理的各个存储节点并行反馈各个子数据,从而由子数据拼接而成完整的请求访问时空数据。容易理解,分布式存储时,一个时空数据分布式存储的存储节点数量越多,在用户访问时,并行反馈子数据的存储节点就越多,从而,反馈形成完整的时空数据的速率就越快。本发明通过学习用户对存储后的时空数据的访问特征,根据访问特征,自适应地对时空大数据管理框架进行演化,以使演化后的时空大数据管理框架符合用户对时空数据的访问特征,从而提高演化后的时空大数据管理框架对用户访问请求的响应效率。
附图说明
图1为本发明中自适应的时空大数据分布式存储方法在第一实施例中的流程示意图;
图2为本发明中智能文件***的框架示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“单元”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“单元”、“部件”或“单元”可以混合地使用。
请参阅图1至图2,本发明的第一实施例中提供一种自适应的时空大数据分布式存储方法,所述方法包括如下步骤:
步骤S10,建立时空大数据管理框架,其中,时空大数据管理框架根据设定的时间窗口粒度大小,随着时间的推移依次生成各个虚拟池,将每个虚拟池对应至不同时间窗口,将每个虚拟池对应管理若干存储节点;
步骤S20,获取待存储的时空数据的时间特征和空间特征;
步骤S30,按照时空数据的时间特征,将时空数据至于时间窗口对应的目标虚拟池;
步骤S40,根据时空数据的空间特征,将时空数据按照目标虚拟池管理的存储节点数量切分成若干子数据;
步骤S50,将切分得到的每一子数据分配至目标虚拟池管理的不同存储节点进行分布式存储;
步骤S60,学习用户对存储后的时空数据的访问特征;
步骤S70,根据访问特征,自适应地对时空大数据管理框架进行演化,以提高演化后的时空大数据管理框架对用户访问请求的响应效率。
本发明的技术方案中,建立时空大数据管理框架,时空大数据管理框架中,随着时间的推移会依次生成时间窗口不同的虚拟池,每个虚拟池的时间窗口粒度根据预设方式确定,且可以演化;每个虚拟池对应管理有若干存储节点以实现分布式存储,且存储节点的数量、以及虚拟池与存储节点的对应关系,都可以演化。待存储的时空数据按照时间特征至于对应的目标虚拟池,目标虚拟池按照待存储的时空数据的空间特征,将待存储的时空数据进行切分,切分后,每一子数据通过目标虚拟池的其中一存储节点存储,从而,待存储的时空数据按照分布式存储的方式分布存储到目标虚拟池管理的各个存储节点中。在本发明中的时空大数据管理框架下,各个虚拟池对应管理有不同时间特征的时空数据,而每个时空数据分布式切分存储到虚拟池管理的每个存储节点后,当用户访问时空数据时,根据时空数据的时间特征可以确定目标虚拟池,再由目标虚拟池分布式管理的各个存储节点并行反馈各个子数据,从而由子数据拼接而成完整的请求访问时空数据。容易理解,分布式存储时,一个时空数据分布式存储的存储节点数量越多,在用户访问时,并行反馈子数据的存储节点就越多,从而,反馈形成完整的时空数据的速率就越快。本发明通过学习用户对存储后的时空数据的访问特征,根据访问特征,自适应地对时空大数据管理框架进行演化,以使演化后的时空大数据管理框架符合用户对时空数据的访问特征,从而提高演化后的时空大数据管理框架对用户访问请求的响应效率。
具体的,时间窗口粒度指的是每个虚拟池的时间窗口跨度大小,例如,时间窗口粒度大小可以为10分钟、30分钟、1小时、2小时等。每个虚拟池的时间窗口粒度可以相等,也可以不相等。本发明中预设时间窗口粒度大小,按照预设时间窗口粒度大小,随着时间的推移依次生成各个虚拟池。每个虚拟池根据设置的时间窗口粒度大小,对应形成时间窗口。例如,当预设时间窗口粒度大小为30分钟时,随着时间的推移依次生成的各个虚拟池对应的默认时间窗口分别为:xxxx年xx月xx日的00:01-00:30、00:31-01:00、01:01-01:30、01:31-02:00......
本发明中的时空数据可以具体为卫星遥感数据,卫星遥感数据的时间特征为时空数据的采集时间,卫星遥感数据的空间特征为时空数据覆盖的地理区域。
每个虚拟池对应管理有若干存储节点,以通过管理的全部存储节点进行分布式存储。
例如,将xxxx年xx月xx日的00:08采集的时空数据至于时间窗口为xxxx年xx月xx日的00:01-00:30的虚拟池后,若该虚拟池管理了8个存储节点,则将该时空数据按照空间特征切分为8个子数据,然后每个存储节点存储其中1个子数据,以使完整的时空数据并行存储到8个存储节点中。当用户需要访问该时空数据时,8个存储节点并行读出对应存储的子数据,从而,用户获得查询结果的速率更快。容易理解,每个虚拟池管理的存储节点数量越多,每个存储节点需要读出的子数据就越小,从而,对用户的访问请求的响应速率越快;反之,每个虚拟池管理的存储节点数量越少,每个存储节点需要读出的子数据就越大,从而,对用户的访问请求的响应速率越慢。
基于本发明的自适应的时空大数据分布式存储方法的第一实施例,本发明的自适应的时空大数据分布式存储方法的第二实施例中,所述步骤S60,包括:
步骤S61,获取用户发出的访问请求,访问请求包括请求访问的时空数据的时间特征、空间特征和数据类型;
步骤S62,根据访问请求,确定用户对每个虚拟池中管理的时空数据的访问频次(可以认为是用户对每个虚拟池的访问频次)。
本实施例中,通过访问请求确定用户请求访问的时空数据的时间特征、空间特征和数据类型,从而确定管理该时空数据的虚拟池,并从虚拟池中定位到准确的时空数据。
通过对用户发出的访问请求进行分析,能够确定用户对存储后的时空数据的访问偏好,例如,用户对哪个时间窗口的时空数据访问频次高,对哪个时间窗口的时空数据访问频次低。
从而,通过学习用户对存储后的时空数据的访问特征,能够确定用户对每个虚拟池的访问频次。
具体的,在本实施例中可以划定访问频次区间。分析每个虚拟池的访问频次落入哪个具体的访问频次区间。从而,本发明中可以进一步根据每个虚拟池的访问频次对时空大数据管理框架进行演化。
基于本发明的自适应的时空大数据分布式存储方法的第二实施例,本发明的自适应的时空大数据分布式存储方法的第三实施例中,所述步骤S70,包括下述步骤中的至少一项:
步骤S71,根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的时间窗口粒度进行演化;
步骤S72,根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池对应管理的存储节点数量进行演化;
步骤S73,根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池与存储节点的对应关系进行演化。
本发明中,可以根据访问特征,自适应地对时空大数据管理框架进行演化。所以本发明最重要的技术改进就体现在建立时空大数据管理框架后,根据访问特征来持续对时空大数据管理框架进行演化,从而时空大数据管理框架体现出根据用户访问特征来进化的独特适应性。
并且,这种演化过程不需要人工参与,***内部智能对访问特征进行计算,并根据计算结果自适应地对时空大数据管理框架进行演化。所以,本发明的自适应的时空大数据分布式存储方法,是一种持续进行、持续调整,以适应用户访问规律的分布式存储方法。
而用户不参与这种演化过程,也不会知晓***内部根据什么样的逻辑对***进行了演化,用户唯一能感知的就是在本发明的自适应的时空大数据分布式存储方法下,访问时空数据的速率相比一般的访问速率而言,具有更快的响应速度,且***响应速率会呈现出越来越快的特性。
本实施例中的步骤S71至步骤S73,都能实现***的进化,在具体应用中,可以选择步骤S71至步骤S73中的其中一者或多者(本发明中的“多”,指的是“二以上”,包含“二”)来实现时空大数据管理框架的演化过程,当然,每一个步骤对时空大数据管理框架的演化过程都具有一定的演化效果,当采用步骤S71至步骤S73来共同演化时空大数据管理框架时,能获得最大化的访问速率提升效果。
具体的,本发明中的对时空大数据管理框架进行演化的过程,可以在***空闲时进行。
基于本发明的自适应的时空大数据分布式存储方法的第三实施例,本发明的自适应的时空大数据分布式存储方法的第四实施例中,所述步骤S71,包括:
步骤S711,根据虚拟池中管理的时空数据的访问频次,判断是否触发虚拟池融合指令或虚拟池切分指令;
步骤S712,若触发虚拟池融合指令,判断触发虚拟池融合指令的虚拟池的相邻虚拟池是否也触发虚拟池融合指令;
步骤S713,当相邻虚拟池的访问频次也触发虚拟池融合指令时,执行虚拟池融合操作,以使融合后的虚拟池的时间窗口尺度为融合前的各个连续的虚拟池的时间窗口尺度之和;
步骤S714,若触发虚拟池切分指令,将触发虚拟池切分指令的虚拟池切分成多个虚拟池,将对应的时间窗口按照虚拟池切分数量切分成多个依次连续的时间窗口,将切分后的每个虚拟池对应至切分后的不同的时间窗口。
对时空大数据管理框架内的时间窗口粒度进行演化,有助于将访问频次低的虚拟池(例如,1个月访问一次或2个月访问一次)的时间窗口粒度调大,或将访问频次高(例如,1天访问一次,5天访问一次)的虚拟池的时间窗口粒度调小。
本发明中,可以设置时间窗口粒度与访问频次区间的映射关系表,根据虚拟池实际的访问频次,确定对应的访问频次区间,并根据对应的访问频次区间,确定对应的时间窗口粒度。当虚拟池的实际访问频次区间与时间窗口粒度不符合该映射关系表时,则触发虚拟池融合指令或虚拟池切分指令。例如,根据映射关系表,确定虚拟池的实际访问频次区间是否符合映射关系表中的时间窗口粒度;当小于映射关系表中的时间窗口粒度时,需要将时间窗口调大,也就触发了虚拟池融合指令;当大于映射关系表中的时间窗口粒度时,需要将时间窗口调小,也就触发了虚拟池切分指令;当等于映射关系表中的时间窗口粒度时,不触发虚拟池融合指令和虚拟池切分指令。
将访问频次低的虚拟池的时间窗口粒度调大时,若相邻虚拟池也需要对应调大时间窗口粒度,则按照时间窗口粒度调大的需求(例如可以根据上述映射关系表确定融合后的时间窗口粒度),将相邻虚拟池(也就是时间窗口具有连续性的虚拟池)融合成一个虚拟池,此时,融合形成的虚拟池的时间窗口为融合前的各个虚拟池的时间窗口之和。
因此,一个虚拟池可以管理更多的时空数据,有利于自适应缩减时空大数据管理框架内的历史生成的虚拟池数量。
进一步的,每个虚拟池对应设置有元信息单元,元信息单元可以存储至虚拟池对应的管理节点,也可以存储至时空大数据管理框架。当虚拟池数量减小时,对应的元信息单元数量也减小,从而,有利于自动合并不常用元信息数据,实现元信息数据的自动整合。
将访问频次高的虚拟池根据需要的时间窗口粒度(例如根据上述映射关系表)切分成多个依次连续的虚拟池,且依次连续的虚拟池的时间窗口也依次连续,以使访问频次高的虚拟池的时间窗口粒度调小,此时,每个虚拟池管理的数据更少,虚拟池对应的存储节点存储的数据更少,访问的响应速率更快。
进一步的,本发明中设定每一虚拟池对应的存储节点数量,当相邻的多个虚拟池融合为一个虚拟池后,可以自动将融合之前分别对应至相邻的多个虚拟池的存储节点数量,通过融合过程减少为融合之后所需的对应至一个虚拟池的存储节点数量(例如,每个虚拟池生成时,分别对应管理8个存储节点,相邻的3个虚拟池融合前一共采用24个存储节点。在将这3个虚拟池融合为1个虚拟池后,融合形成的虚拟池也可以采用8个存储节点来存储数据,从而,释放出了另外16个存储节点),从而,针对访问频次低的时空数据能够释放出多余的存储节点,以作为新增的虚拟池对应的存储节点(可以对每个存储节点的性能进行排序,根据访问需要,释放出性能位于前列或者位于末尾的存储节点)。从而,存储节点与虚拟池的对应关系也是自适应调整。
容易理解,刚存储的时空数据的访问频次较高,而随着时间的推移,用户对陈旧数据的访问频次会逐渐下降,普通的存储***中,需要人工来删除或者迁移访问频次低的数据。而本发明中,***的演化会自动将久不访问的数据对应的存储节点释放出来存储新的数据,实现了一种自适应的数据迁移和存储节点释放,不需要人工参与,智能化程度更高。
基于本发明的自适应的时空大数据分布式存储方法的第三实施例或第四实施例,本发明的自适应的时空大数据分布式存储方法的第五实施例中,所述步骤S72,包括:
步骤S721,根据虚拟池中管理的时空数据的访问频次,判断是否触发存储节点数量调整指令;
若是,执行步骤S722:根据存储节点数量调整指令,调整对应的虚拟池管理的存储节点数量。
具体的,在前述映射关系表中,可以将每个访问频次区间对应设置有不同的存储节点数量。若根据映射关系表,用户对虚拟池的实际访问频次区间所对应的存储节点数量,与虚拟池当前管理的存储节点数量不同,则需要对虚拟池管理的存储节点数量进行演化。
具体的,步骤S72可以针对融合形成的虚拟池、切分形成的虚拟池,或者未融合过的虚拟池进行存储节点数量演化。
具体的,存储节点数量调整指令包括存储节点数量调高指令和存储节点数量调低指令。
当虚拟池的实际存储节点数量未达到访问频次对应的存储节点数量时,可以触发存储节点数量调高指令。例如,原本虚拟池管理的存储节点数量为8个,可以调整为10个。
当虚拟池的实际存储节点数量超过访问频次对应的存储节点数量时,可以触发存储节点数量调低指令。例如,原本虚拟池管理的存储节点数量为8个,可以调整为6个。
具体的,存储节点数量调整指令可以触发多次,例如,当随着时间的推移,虚拟池的访问频次逐渐降低时,可以将存储节点数量逐次递减,直至虚拟池对应的存储节点数量为1。同时,当相邻的虚拟池的存储节点数量都下降为1后,还可以通过虚拟池融合的方式,将相邻多个虚拟池融合为1个,并且将融合后的虚拟池仅采用1个存储节点来存储。从而,通过这种动态的存储节点缩减过程,节约了大量的存储节点,也释放出了更多的存储资源。
基于本发明的自适应的时空大数据分布式存储方法的第三实施例至第五实施例,本发明的自适应的时空大数据分布式存储方法的第六实施例中,所述步骤S73,包括:
步骤S731,根据虚拟池中管理的时空数据的访问频次,判断是否触发存储节点调整指令;
若是,执行步骤S732:根据每个存储节点的性能参数,调整触发存储节点调整指令的虚拟池管理的存储节点。
具体的,在本实施例中,每个存储节点可以为一个计算机终端,或者为多个计算机终端的组合。存储节点的性能参数可以具体为CPU负载率。
进一步的,当虚拟池的访问频次较高时,提供更高的响应速率会有效提高用户访问体验。本发明中,在提高访问速率方面,不仅考虑了提高分布存储的存储节点数量,还考虑了每个存储节点的性能参数。具体的,侦测每个存储节点读出存储的子数据的速率,以确定存储节点的性能参数,该性能参数可以优选为CPU负载率,根据CPU负载率的大小,评价每个存储节点的响应性能优劣。
从而,可以将访问频次低的虚拟池管理的性能参数良好的存储节点替换为性能参数相对更低的存储节点,以根据用户的访问特征,将访问频次高的时空数据自适应地迁移至响应速率快的存储节点存储,并将访问频次低的时空数据自适应地迁移至响应速率低的存储节点存储,完成了时空数据的自适应迁移,提高了用户的访问体验。
更进一步地,在本实施例中,可以获取各个存储节点的性能参数,根据各个存储节点的性能参数对存储节点进行排序;进一步的,可以将每个虚拟池所管理的时空数据的访问频次均值排序,按照存储节点的性能参数的排序,和虚拟池管理的时空数据的访问频次均值排序,将性能参数优越的存储节点对应至访问频次均值高的虚拟池,将性能参数靠后的存储节点对应至访问频次均值低的虚拟池,以完成时空大数据管理框架内,每个虚拟池与存储节点的对应关系进行演化。
基于本发明的自适应的时空大数据分布式存储方法的第二实施例,本发明的自适应的时空大数据分布式存储方法的第七实施例中,所述方法,还包括:
步骤S80,根据用户发出的访问请求确定用户请求访问的目标时空数据;
步骤S90,根据目标时空数据的时间特征和空间特征,确定用于管理请求访问的时空数据的访问虚拟池;
步骤S100,获取访问虚拟池管理的各个访问存储节点;
步骤S110,从所有访问存储节点中并行提取所述目标时空数据切分成的目标子数据;
步骤S120,将全部目标子数据按照切分方式拼接成完整时空数据;
步骤S130,将完整时空数据作为反馈数据返回至用户。
具体的,时空数据在存储时,按照空间特征切分成若干子数据。按照空间特征切分时空数据的方法可以采用多种:
例如,可以按照时空数据覆盖的地理区域均分为与存储节点数量相等的子数据,例如,网格化切分。
又如,可以按照地理区域所属的生态区域类型来切分时空数据,生态区域类型包括:森林、湿地、流域、农田、城市,当然还可以包括其他的生态区域类型。
或者,还可以按照地理区域对应的城市或经纬度区域来切分时空数据。
在时空数据切分且分布式存储至对应的存储节点后,若用户需要访问该时空数据,则从各个分布式存储节点读出对应的子数据,读出的子数据按照切分方式拼接至原来的数据位置,以形成完整的时空数据,最后将完整的时空数据反馈至用户。
基于本发明的自适应的时空大数据分布式存储方法的第七实施例,本发明的自适应的时空大数据分布式存储方法的第八实施例中,所述方法,还包括:
步骤S140,获取用户从目标时空数据中确定的指定子数据;
步骤S150,根据指定子数据,从访问虚拟池管理的访问存储节点中查找用于存储指定子数据的访问存储节点;
步骤S160,将返回的指定子数据作为反馈数据返回至用户。
进一步的,本实施例还提供了一种访问数据的细粒度反馈方法。具体的,由于本发明中的时空数据是按照空间特征切分存储至不同存储节点,从而,当用户不需要查询完整的时空数据时,可以按照空间特征切分方式,从完整的时空数据中确定其中至少一指定子数据(例如,森林数据)作为查询目标。从而,从访问虚拟池管理的访问存储节点中查找用于存储指定子数据的访问存储节点,并将返回的指定子数据作为反馈数据返回至用户,以实现了时空数据的细粒度查询。
基于本发明的自适应的时空大数据分布式存储方法的第一实施例至第八实施例,本发明的自适应的时空大数据分布式存储方法的第九实施例中,所述方法,还包括:
步骤S170,获取各个空闲存储节点的性能参数,并形成存储节点的性能参数排序结果;
步骤S180,将性能参数排序结果中的性能参数高的存储节点,对应至新生成的虚拟池。
对于数据存储而言,一般呈现出新数据访问频次高,老数据访问频次低的特点。本发明中,将空闲的存储节点按照性能参数排序,并将性能参数高的存储节点对应至新的虚拟池,因此,新生成的虚拟池总是采用性能参数优越的存储节点来存储,以使新数据在访问频次高的情况下,都能表现出良好的访问速率,并且在新数据逐渐成为老数据的过程中,采用时空大数据管理框架的不断演化,逐渐又将性能参数优越的存储节点从访问频次低的时空数据存储任务中释放出来,以及将访问频次低的时空数据汇总、迁移到性能低的存储节点进行存储,将访问频次高的时空数据拆分、迁移至性能优秀的存储节点进行存储,以随着用户访问特征的变化,不断地对时空大数据管理框架进行演化,以始终维持一种无需人工参与的、自适应的、时空数据存储的进化过程。
为实现上述目的,本发明还提出一种智能文件***,应用所述的自适应的时空大数据分布式存储方法;所述智能文件***包括通讯连接的数据管理接口模块和存储模块;所述数据管理接口模块用于向用户提供时空数据的访问接口,以通过访问接口接收用户的访问请求;存储模块包括多个存储节点;
所述数据管理接口模块用于:建立时空大数据管理框架;获取待存储的时空数据的时间特征和空间特征;按照时空数据的时间特征,将时空数据至于时间窗口对应的目标虚拟池;根据时空数据的空间特征,将时空数据按照目标虚拟池管理的存储节点数量切分成若干子数据;将切分得到的每一子数据分配至目标虚拟池管理的不同存储节点;学习用户对存储后的时空数据的访问特征;根据访问特征,自适应地对时空大数据管理框架进行演化,以提高演化后的时空大数据管理框架对用户访问请求的响应效率;
所述存储模块用于:将每一子数据采用分配的存储节点进行分布式存储。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备进入本发明各个实施例所述的方法。
在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种自适应的时空大数据分布式存储方法,其特征在于,包括如下步骤:
建立时空大数据管理框架,其中,时空大数据管理框架根据设定的时间窗口粒度大小,随着时间的推移依次生成各个虚拟池,将每个虚拟池对应至不同时间窗口,将每个虚拟池对应管理若干存储节点;
获取待存储的时空数据的时间特征和空间特征;
按照时空数据的时间特征,将时空数据至于时间窗口对应的目标虚拟池;
根据时空数据的空间特征,将时空数据按照目标虚拟池管理的存储节点数量切分成若干子数据;
将切分得到的每一子数据分配至目标虚拟池管理的不同存储节点进行分布式存储;
学习用户对存储后的时空数据的访问特征;
根据访问特征,自适应地对时空大数据管理框架进行演化,以提高演化后的时空大数据管理框架对用户访问请求的响应效率。
2.根据权利要求1所述的自适应的时空大数据分布式存储方法,其特征在于,所述学习用户对存储后的时空数据的访问特征的步骤,包括:
获取用户发出的访问请求,访问请求包括请求访问的时空数据的时间特征、空间特征和数据类型;
根据访问请求,确定用户对每个虚拟池中管理的时空数据的访问频次。
3.根据权利要求2所述的自适应的时空大数据分布式存储方法,其特征在于,所述根据访问特征,自适应地对时空大数据管理框架进行演化的步骤,包括下述步骤中的至少一项:
根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的时间窗口粒度进行演化;
根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池对应管理的存储节点数量进行演化;
根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池与存储节点的对应关系进行演化。
4.根据权利要求3所述的自适应的时空大数据分布式存储方法,其特征在于,所述根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的时间窗口粒度进行演化的步骤,包括:
根据虚拟池中管理的时空数据的访问频次,判断是否触发虚拟池融合指令或虚拟池切分指令;
若触发虚拟池融合指令,判断触发虚拟池融合指令的虚拟池的相邻虚拟池是否也触发虚拟池融合指令;
当相邻虚拟池的访问频次也触发虚拟池融合指令时,执行虚拟池融合操作,以使融合后的虚拟池的时间窗口尺度为融合前的各个连续的虚拟池的时间窗口尺度之和;
若触发虚拟池切分指令,将触发虚拟池切分指令的虚拟池切分成多个虚拟池,将对应的时间窗口按照虚拟池切分数量切分成多个依次连续的时间窗口,将切分后的每个虚拟池对应至切分后的不同的时间窗口。
5.根据权利要求3所述的自适应的时空大数据分布式存储方法,其特征在于,所述根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池对应管理的存储节点数量进行演化的步骤,包括:
根据虚拟池中管理的时空数据的访问频次,判断是否触发存储节点数量调整指令;
若是,根据存储节点数量调整指令,调整对应的虚拟池管理的存储节点数量。
6.根据权利要求3所述的自适应的时空大数据分布式存储方法,其特征在于,所述根据虚拟池中管理的时空数据的访问频次,对时空大数据管理框架内的每个虚拟池与存储节点的对应关系进行演化的步骤,包括:
根据虚拟池中管理的时空数据的访问频次,判断是否触发存储节点调整指令;
若是,根据每个存储节点的性能参数,调整触发存储节点调整指令的虚拟池管理的存储节点。
7.根据权利要求2所述的自适应的时空大数据分布式存储方法,其特征在于,所述方法,还包括:
根据用户发出的访问请求确定用户请求访问的目标时空数据;
根据目标时空数据的时间特征和空间特征,确定用于管理请求访问的时空数据的访问虚拟池;
获取访问虚拟池管理的各个访问存储节点;
从所有访问存储节点中并行提取所述目标时空数据切分成的目标子数据;
将全部目标子数据按照切分方式拼接成完整时空数据;
将完整时空数据作为反馈数据返回至用户。
8.根据权利要求7所述的自适应的时空大数据分布式存储方法,其特征在于,所述方法,还包括:
获取用户从目标时空数据中确定的指定子数据;
根据指定子数据,从访问虚拟池管理的访问存储节点中查找用于存储指定子数据的访问存储节点;
将返回的指定子数据作为反馈数据返回至用户。
9.根据权利要求1至8中任一项所述的自适应的时空大数据分布式存储方法,其特征在于,所述方法,还包括:
获取各个空闲存储节点的性能参数,并形成存储节点的性能参数排序结果;
将性能参数排序结果中的性能参数高的存储节点,对应至新生成的虚拟池。
10.一种智能文件***,其特征在于,应用如权利要求1至9中任一项所述的自适应的时空大数据分布式存储方法;所述智能文件***包括通讯连接的数据管理接口模块和存储模块;所述数据管理接口模块用于向用户提供时空数据的访问接口,以通过访问接口接收用户的访问请求;存储模块包括多个存储节点;
所述数据管理接口模块用于:建立时空大数据管理框架;获取待存储的时空数据的时间特征和空间特征;按照时空数据的时间特征,将时空数据至于时间窗口对应的目标虚拟池;根据时空数据的空间特征,将时空数据按照目标虚拟池管理的存储节点数量切分成若干子数据;将切分得到的每一子数据分配至目标虚拟池管理的不同存储节点;学习用户对存储后的时空数据的访问特征;根据访问特征,自适应地对时空大数据管理框架进行演化,以提高演化后的时空大数据管理框架对用户访问请求的响应效率;
所述存储模块用于:将每一子数据采用分配的存储节点进行分布式存储。
CN202311079515.0A 2023-08-25 2023-08-25 一种自适应的时空大数据分布式存储方法及智能文件*** Active CN117112492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311079515.0A CN117112492B (zh) 2023-08-25 2023-08-25 一种自适应的时空大数据分布式存储方法及智能文件***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311079515.0A CN117112492B (zh) 2023-08-25 2023-08-25 一种自适应的时空大数据分布式存储方法及智能文件***

Publications (2)

Publication Number Publication Date
CN117112492A true CN117112492A (zh) 2023-11-24
CN117112492B CN117112492B (zh) 2024-03-12

Family

ID=88797829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311079515.0A Active CN117112492B (zh) 2023-08-25 2023-08-25 一种自适应的时空大数据分布式存储方法及智能文件***

Country Status (1)

Country Link
CN (1) CN117112492B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118132A (zh) * 2013-02-28 2013-05-22 浙江大学 一种面向时空数据的分布式缓存***及方法
WO2015096582A1 (zh) * 2013-12-27 2015-07-02 华为技术有限公司 一种时空数据的索引建立方法、查询方法、装置及设备
KR101852597B1 (ko) * 2017-09-14 2018-04-27 주식회사 포스웨이브 이동객체 빅데이터 정보저장 시스템 및 이를 이용한 이동객체 빅데이터 저장 및 색인 처리 방법
CN109871418A (zh) * 2019-01-04 2019-06-11 广州市城市规划勘测设计研究院 一种时空数据的空间索引方法和***
CN110347680A (zh) * 2019-06-21 2019-10-18 北京航空航天大学 一种面向云际环境的时空数据索引方法
CN112328583A (zh) * 2020-10-29 2021-02-05 北京东方耀阳信息技术有限公司 一种时空数据管理方法
CN115827907A (zh) * 2023-02-22 2023-03-21 中国科学院空天信息创新研究院 基于分布式内存的跨云多源数据立方体发现与集成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118132A (zh) * 2013-02-28 2013-05-22 浙江大学 一种面向时空数据的分布式缓存***及方法
WO2015096582A1 (zh) * 2013-12-27 2015-07-02 华为技术有限公司 一种时空数据的索引建立方法、查询方法、装置及设备
KR101852597B1 (ko) * 2017-09-14 2018-04-27 주식회사 포스웨이브 이동객체 빅데이터 정보저장 시스템 및 이를 이용한 이동객체 빅데이터 저장 및 색인 처리 방법
CN109871418A (zh) * 2019-01-04 2019-06-11 广州市城市规划勘测设计研究院 一种时空数据的空间索引方法和***
CN110347680A (zh) * 2019-06-21 2019-10-18 北京航空航天大学 一种面向云际环境的时空数据索引方法
CN112328583A (zh) * 2020-10-29 2021-02-05 北京东方耀阳信息技术有限公司 一种时空数据管理方法
CN115827907A (zh) * 2023-02-22 2023-03-21 中国科学院空天信息创新研究院 基于分布式内存的跨云多源数据立方体发现与集成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIAO, XF ET AL.: "A new distributed storage scheme for cluster video server", JOURNAL OF SYSTEMS ARCHITECTURE, 28 February 2005 (2005-02-28), pages 79 - 94, XP004722079, DOI: 10.1016/j.sysarc.2004.09.001 *
钟运琴;方金云;赵晓芳;: "大规模时空数据分布式存储方法研究", 高技术通讯, no. 12, 15 December 2013 (2013-12-15), pages 1219 - 1229 *

Also Published As

Publication number Publication date
CN117112492B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
US8738593B2 (en) Method and apparatus for reducing index sizes and increasing performance of non-relational databases
US9479468B2 (en) Presenting instant messages
US8452733B2 (en) Data decay management
CN105279163A (zh) 一种缓存数据的更新及存储方法及其***
JP2003506777A (ja) 多次元記憶モデル及び方法
CN1271130A (zh) 计算机***的空间/时间网窗
CN107590083B (zh) 一种基于owga内存缓存的海量遥感瓦片数据快速发布方法
CN114415965A (zh) 一种数据迁移方法、装置、设备及存储介质
CN117112492B (zh) 一种自适应的时空大数据分布式存储方法及智能文件***
CN112966832A (zh) 基于多服务器的联邦学习***
CN109145225B (zh) 一种数据处理方法及装置
CN102480502B (zh) 一种i/o负载均衡方法及i/o服务器
CN112840334A (zh) 管理分区表的数据的方法、装置、管理节点及存储介质
CN114385627A (zh) 一种基于gis地图的数据分析方法、装置及存储介质
CN113590027A (zh) 数据存储方法、数据获取方法、***、设备和介质
CN115809360B (zh) 一种大规模时空流数据实时空间连接查询方法及相关设备
CN109976885B (zh) 基于多任务操作***的事件处理方法、装置及存储介质
CN117271536A (zh) 基于行政区划的空间数据处理方法、装置、设备及介质
CN110971647A (zh) 一种大数据***的节点迁移方法
CN114840539A (zh) 数据处理方法、装置、设备和存储介质
US11221782B1 (en) Customizable progressive data-tiering service
CN114253938A (zh) 数据管理方法、数据管理装置及存储介质
WO2002015054A2 (en) Database systems, methods and computer program products including reconfigurable dynamic time window management
CN110049501B (zh) 数据获取方法、装置和计算机可读存储介质
CN110750608A (zh) 一种基于规则库的空间数据分析自动调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant