CN114637749A - 一种基于片键策略的遥感数据分片存储方法 - Google Patents

一种基于片键策略的遥感数据分片存储方法 Download PDF

Info

Publication number
CN114637749A
CN114637749A CN202210265365.1A CN202210265365A CN114637749A CN 114637749 A CN114637749 A CN 114637749A CN 202210265365 A CN202210265365 A CN 202210265365A CN 114637749 A CN114637749 A CN 114637749A
Authority
CN
China
Prior art keywords
remote sensing
sensing data
data
key
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210265365.1A
Other languages
English (en)
Inventor
程寅益
王金林
周可法
闫继宁
王珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Institute of Ecology and Geography of CAS
Original Assignee
Xinjiang Institute of Ecology and Geography of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Institute of Ecology and Geography of CAS filed Critical Xinjiang Institute of Ecology and Geography of CAS
Priority to CN202210265365.1A priority Critical patent/CN114637749A/zh
Publication of CN114637749A publication Critical patent/CN114637749A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于片键策略的遥感数据分片存储方法,包括以下步骤:S1、收集遥感数据,得到遥感数据及其对应属性数据集合;S2、根据遥感数据及其对应属性数据集合匹配片键类型;S3、将遥感数据分成若干数据块进行分片存放;S4、根据查询条件查询遥感数据,利用并行运算的方法计算分片的遥感数据查询结果,完成遥感数据的存储;本发明提出针对遥感数据优化地片键策略,能够适应遥感数据这类具有大规模空间数据存储地扩展性和均匀性,而这种方法适用于大多数空间数据的应用场景,在分布式数据库环境下更具有较高效的并行分析性能。

Description

一种基于片键策略的遥感数据分片存储方法
技术领域
本发明属于遥感数据技术领域,具体涉及一种基于片键策略的遥感数据分片存储方法。
背景技术
大数据时代,数据密集型科研已成为一种新的科研范式,作为大数据时代最基本、最活跃的科技资源,科学数据在科研过程中日益突出。科学研究的水平取决于科学数据的积累和将其转化为知识的能力。地球科学大数据作为大数据的重要组成部分,促进了地球科学研究方法的创新。地球科学研究包括大气、陆地圈和海洋圈的研究,通过地球观测生成大量的地球科学大数据。包括地球***和人类在内的这些数据被称为对地观测大数据。许多国家建立了对地观测***,发射了多颗卫星,对大气、海洋、陆地等学科进行综合研究,同时强调对地观测数据的协调和利用。随着高分辨率卫星的出现,为了实现对地观测数据的数据共享和高质量服务,利用大数据技术提供新的解决方案。由于对地观测传感器采集遥感数据的采样周期是固定的,长时间积累的数据尺度非常大。另一方面,这些不同质量、不同格式、不同内容的数据构成了真正的多源异构遥感大数据。遥感大数据的存储是***的核心部分,其性能决定了***的服务能力。为了有效挖掘遥感大数据的潜在价值,必须不断提高数据存储和检索的性能。
目前,一些学者尝试使用非结构化数据库技术来管理遥感大数据。提出了一种面向地理信息服务的分布式计算框架。基于遥感大数据云计算平台,为精准农业提供高效的数据共享服务能力。有一些学者通过一个可扩展的遥感数据存储模型比较了不同非结构化数据库技术的性能,并提出了一种新的远程管理框架。并且讨论了传统方法和集群环境对遥感数据存储性能和访问能力的影响。此外,有人提出了一种基于大数据技术的分布式遥感数据管理框架,并讨论了其性能优势。框架中的水平扩展策略可以帮助用户高效地访问数据,对提高集群性能具有重要意义。上述研究工作为遥感大数据的存储提供了良好的框架基础,但对遥感数据存储集群的水平尺度策略的探讨还不够详细。
根据前人工作基础,详细论述了横向扩展的策略的影响遥感数据对***性能在集群模下。该方法的目的是聚集和分类的遥感数据框架根据合理的规则。将数据块大小维持在合理范围内,以达到集群内遥感数据负载均衡的目的。在分布式环境中,数据排列的无序性不能充分利用局部性原理,甚至阻碍了数据块的水平扩展。因此,水平尺度策略的优化是提高遥感数据在聚类中的检索性能和数据分布的关键。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于片键策略的遥感数据分片存储方法解决了遥感数据分布存储方式复杂的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于片键策略的遥感数据分片存储方法,包括以下步骤:
S1、收集遥感数据,得到遥感数据及其对应属性数据集合;
S2、根据遥感数据及其对应属性数据集合匹配片键类型;
S3、将遥感数据分成若干数据块进行分片存放;
S4、根据查询条件查询遥感数据,利用并行运算的方法计算分片的遥感数据查询结果,完成遥感数据的存储。
进一步地:所述步骤S1包括以下分步骤:
S11、根据遥感数据建立遥感数据对应属性数据集合;
其中,所述遥感数据对应属性数据集合的字段包括唯一标识码序号字段、传感器类型字段、搭载平台字段、获取日期字段、条带号字段、波段个数字段;
S12、设置遥感数据格式为标准的Tiff或者Img;
S13、将遥感数据及其对应属性数据集合发送至分布式数据库。
进一步地:所述步骤S2包括以下分步骤:
S21、分布式数据库将遥感数据对应属性数据集合进行拆分;
其中,所述拆分的方法具体为:选择遥感数据对应属性数据集合的字段作为片键进行拆分;
S22、根据遥感数据的数据属性匹配片键类型;若未匹配到片键类型,则将遥感数据的字段序号作为片键类型;
其中,所述片键类型包括升序类型、散列类型、粗粒度和细粒度类型。
上述进一步方案的有益效果为:升序类型用于数据量非常大的情况下,单调递增规则的分片键会影响***的吞吐量。
进一步地:所述步骤S22中,匹配片键的方法具体为:对遥感数据按照规则进行描述,所述规则包括升序分片键和随机分片。
进一步地:所述步骤S3包括以下分步骤:
S31、将遥感数据分成若干数据块;
S32、将相同片键类型的数据块合并为同一数据块;
S33、将数据块传递请求传递给分片,获得响应之后,将数据块分配到符合片键类型的分片中;
其中,在数据块分配过程中,当分片中的数据块超出了默认大小时,则对数据块进行拆分后再对数据块进行迁移,将拆分后大小相同的数据块迁移至符合片键类型的分片中。
上述进一步方案的有益效果为:通过设置的片键类型可以将数据块以高效的规则进行排列归类。
进一步地:所述步骤S4包括以下分步骤:
S41、将分布式数据库查询请求存储在路由进程中,并根据查询条件发送查询请求至分布式数据库每一个数据节点管理进程来获取存放遥感数据的分片位置信息;
S42、获取查询的分片位置信息后,向所在分片发送请求;
S43、将被请求的数据节点要求映射和化简进程对遥感数据进行处理,并将处理后的数据块返回至路由进程;
S44、通过路由进程将最终的查询结果返回,实现遥感数据的存储。
上述进一步方案的有益效果为:根据片键的查询条件,可以通过并行化的模式对目标数据进行统计分析,并返回查询结果
进一步地:所述步骤S41中的查询过程中,若使用到片键时,则路由进程将查询请求发送到每个分片;否则含有片键查询的请求会被直接送至目标分片中。
本发明的有益效果为:
(1)本发明提出的利用优化的片键策略能够有效地改善遥感数据在分片中产生大块数据而无法实现负载均衡的问题,为了进一步精细集成管理遥感大数据并提高其存储效率,在分布式环境中能够将读和写的尽量地平均分配给集群中的各个节点,这样对每个数据节点的存储资源可以充分地利用。
(2)本发明提出针对遥感数据优化地片键策略,能够适应遥感数据这类具有大规模空间数据存储地扩展性和均匀性,而这种方法适用于大多数空间数据的应用场景,在分布式数据库环境下更具有较高效的并行分析性能。
附图说明
图1为本发明的流程图。
图2为本发明分片存储数据块的示意图。
图3为本发明调度分片中数据块的示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,在本发明的一个实施例中,一种基于片键策略的遥感数据分片存储方法,包括以下步骤:
S1、收集遥感数据,得到遥感数据及其对应属性数据集合;
S2、根据遥感数据及其对应属性数据集合匹配片键类型;
S3、将遥感数据分成若干数据块进行分片存放;
S4、根据查询条件查询遥感数据,利用并行运算的方法计算分片的遥感数据查询结果,完成遥感数据的存储。
所述步骤S1包括以下分步骤:
S11、根据遥感数据建立遥感数据对应属性数据集合;
其中,所述遥感数据对应属性数据集合的字段包括唯一标识码序号字段、传感器类型字段、搭载平台字段、获取日期字段、条带号字段、波段个数字段;
S12、设置遥感数据格式为标准的Tiff或者Img;
S13、得到遥感数据及其对应属性数据集合,并将遥感数据及其对应属性数据集合发送至分布式数据库。
在本实施例中,选用一种分布式数据库技术作为分布式集群环境的搭建基础。首先配置环境的服务器,保存着集群中的元数据、分片的索引信息以及真个集群的日志数据;当配置服务器运行成功后,激活一个主进程作为不同程序间的联系;其次建立多个副本集作为数据分片的物理基础,再将副本集配置为不同的数据分片,此时就可以使得主进程连接建立的分片;最后建立映射文件组,用来追踪数据集的行为。
所述步骤S2包括以下分步骤:
S21、分布式数据库将遥感数据对应属性数据集合进行拆分;
其中,所述拆分的方法具体为:选择遥感数据对应属性数据集合的字段作为片键进行拆分;
S22、根据遥感数据的数据属性匹配片键类型;若未匹配到片键类型,则将遥感数据的字段序号作为片键类型;
其中,所述片键类型包括升序类型、散列类型、粗粒度和细粒度类型。
所述步骤S22中,匹配片键的方法具体为:对遥感数据按照规则进行描述,所述规则包括升序分片键和随机分片。
在本实施例中,匹配片键的方法为:选择唯一标识码字段序号或者获取日期字段日期作为升序类型的片键,利用数据不断地写入数据库增加值的特性,得到一个符合时间增长规则特性的片键;此外,将感器类型字段传感器和搭载平台字段平台预设为散列类型的片键,根据此特性,可以将传感器或者平台类型作为遥感数据分片归类原则,则对指定的结点增加数据负载;优选地,将{获取日期字段“日期”;条带号字段“条带号”}或者{唯一标识码字段“序号”;传感器类型字段“传感器”}具有复合特性地片键组合作为数据分片的规则,用于将数据中的粗粒度和细粒度特性的数据块在片键规则下分布保存。
如图2所示,在本实施例中,所述步骤S3包括以下分步骤:
S31、将遥感数据分成若干数据块;
S32、将相同片键类型的数据块合并为同一数据块;
S33、将数据块传递请求传递给分片,获得响应之后,将数据块分配到符合片键类型的分片中;
其中,在数据块分配过程中,当分片中的数据块超出了默认大小时,则对数据块进行拆分后再对数据块进行迁移,将拆分后大小相同的数据块迁移至符合片键类型的分片中。
如图2所示,在本实施例中,查询遥感数据的方法通过路由的方式调度分片中数据块,映射和化简进程进行并行传输
所述步骤S4包括以下分步骤:
S41、将分布式数据库查询请求存储在路由进程中,并根据查询条件发送查询请求至分布式数据库每一个数据节点管理进程来获取存放遥感数据的分片位置信息;
S42、获取查询的分片位置信息后,向所在分片发送请求;
S43、将被请求的数据节点要求映射和化简进程对遥感数据进行处理,并将处理后的数据块返回至路由进程;
S44、通过路由进程将最终的查询结果返回,实现遥感数据的存储。
所述步骤S41中的查询过程中,若使用到片键时,则路由进程将查询请求发送到每个分片;否则含有片键查询的请求会被直接送至目标分片中。
本发明的有益效果为:本发明提出的利用优化的片键策略能够有效地改善遥感数据在分片中产生大块数据而无法实现负载均衡的问题,为了进一步精细集成管理遥感大数据并提高其存储效率,在分布式环境中能够将读和写的尽量地平均分配给集群中的各个节点,这样对每个数据节点的存储资源可以充分地利用。
本发明提出针对遥感数据优化地片键策略,能够适应遥感数据这类具有大规模空间数据存储地扩展性和均匀性,而这种方法适用于大多数空间数据的应用场景,在分布式数据库环境下更具有较高效的并行分析性能。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims (7)

1.一种基于片键策略的遥感数据分片存储方法,其特征在于,包括以下步骤:
S1、收集遥感数据,得到遥感数据及其对应属性数据集合;
S2、根据遥感数据及其对应属性数据集合匹配片键类型;
S3、将遥感数据分成若干数据块进行分片存放;
S4、根据查询条件查询遥感数据,利用并行运算的方法计算分片的遥感数据查询结果,完成遥感数据的存储。
2.根据权利要求1所述的基于片键策略的遥感数据分片存储方法,其特征在于,所述步骤S1包括以下分步骤:
S11、根据遥感数据建立遥感数据对应属性数据集合;
其中,所述遥感数据对应属性数据集合的字段包括唯一标识码序号字段、传感器类型字段、搭载平台字段、获取日期字段、条带号字段、波段个数字段;
S12、设置遥感数据格式为标准的Tiff或者Img;
S13、将遥感数据及其对应属性数据集合发送至分布式数据库。
3.根据权利要求2所述的基于片键策略的遥感数据分片存储方法,其特征在于,所述步骤S2包括以下分步骤:
S21、分布式数据库将遥感数据对应属性数据集合进行拆分;
其中,所述拆分的方法具体为:选择遥感数据对应属性数据集合的字段作为片键进行拆分;
S22、根据遥感数据的数据属性匹配片键类型;若未匹配到片键类型,则将遥感数据的字段序号作为片键类型;
其中,所述片键类型包括升序类型、散列类型、粗粒度和细粒度类型。
4.根据权利要求3所述的基于片键策略的遥感数据分片存储方法,其特征在于,所述步骤S22中,匹配片键的方法具体为:对遥感数据按照规则进行描述,所述规则包括升序分片键和随机分片。
5.根据权利要求3所述的基于片键策略的遥感数据分片存储方法,其特征在于,所述步骤S3包括以下分步骤:
S31、将遥感数据分成若干数据块;
S32、将相同片键类型的数据块合并为同一数据块;
S33、将数据块传递请求传递给分片,获得响应之后,将数据块分配到符合片键类型的分片中;
其中,在数据块分配过程中,当分片中的数据块超出了默认大小时,则对数据块进行拆分后再对数据块进行迁移,将拆分后大小相同的数据块迁移至符合片键类型的分片中。
6.根据权利要求5所述的基于片键策略的遥感数据分片存储方法,其特征在于,所述步骤S4包括以下分步骤:
S41、将分布式数据库查询请求存储在路由进程中,并根据查询条件发送查询请求至分布式数据库每一个数据节点管理进程来获取存放遥感数据的分片位置信息;
S42、获取查询的分片位置信息后,向所在分片发送请求;
S43、将被请求的数据节点要求映射和化简进程对遥感数据进行处理,并将处理后的数据块返回至路由进程;
S44、通过路由进程将最终的查询结果返回,实现遥感数据的存储。
7.根据权利要求6所述的基于片键策略的遥感数据分片存储方法,其特征在于,所述步骤S41中的查询过程中,若使用到片键时,则路由进程将查询请求发送到每个分片;否则含有片键查询的请求会被直接送至目标分片中。
CN202210265365.1A 2022-03-17 2022-03-17 一种基于片键策略的遥感数据分片存储方法 Pending CN114637749A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210265365.1A CN114637749A (zh) 2022-03-17 2022-03-17 一种基于片键策略的遥感数据分片存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210265365.1A CN114637749A (zh) 2022-03-17 2022-03-17 一种基于片键策略的遥感数据分片存储方法

Publications (1)

Publication Number Publication Date
CN114637749A true CN114637749A (zh) 2022-06-17

Family

ID=81949062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210265365.1A Pending CN114637749A (zh) 2022-03-17 2022-03-17 一种基于片键策略的遥感数据分片存储方法

Country Status (1)

Country Link
CN (1) CN114637749A (zh)

Similar Documents

Publication Publication Date Title
US20220121688A1 (en) Parallel data access method and system for massive remote-sensing images
US9223801B2 (en) Information management method and information management apparatus
CN109726225B (zh) 一种基于Storm的分布式流数据存储与查询方法
CN113515367B (zh) 基于大数据和边缘计算的数据整合方法及存储介质
CN110046183A (zh) 一种时序数据聚合检索方法、设备及介质
CN104765876A (zh) 海量gnss小文件云存储方法
CN102880854B (zh) 基于分布式和哈希映射的室外海量物体识别方法和***
CN108009265B (zh) 一种云计算环境下的空间数据索引方法
CN105117497A (zh) 基于Spark云网络的海洋大数据主从索引***及方法
CN108733781B (zh) 基于内存计算的集群时态数据索引方法
AU2020101071A4 (en) A Parallel Association Mining Algorithm for Analyzing Passenger Travel Characteristics
CN115269893A (zh) 基于湖仓一体的遥感影像存储***及方法
CN113946572A (zh) 气象数据存储、查询方法及装置
CN112817545A (zh) 在线即分析影像与格网立方体数据存储管理方法及***
KR101773910B1 (ko) 위치 기반 빅데이터 시스템
US8849844B1 (en) Image reacquisition
CN114637749A (zh) 一种基于片键策略的遥感数据分片存储方法
CN112540987A (zh) 一种基于数据集市的配用电大数据管理***
CN115205699B (zh) 一种基于cfsfdp改进算法的地图图斑聚类融合处理方法
CN112632058A (zh) 轨迹确定方法、装置及设备、存储介质
CN110059148A (zh) 应用于电子地图的空间关键字查询的准确搜索方法
CN116340278A (zh) 一种面向移动物联网的区块链上空间数据可认证共享方法
Huang et al. A spatial indexing approach for high performance location based services
CN116126901A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN110738453A (zh) 一种基于云计算的气象综合业务***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination