CN116126973A

CN116126973A - 气象格点数据管理方法和装置

Info

Publication number: CN116126973A
Application number: CN202211725278.6A
Authority: CN
Inventors: 王舒; 徐拥军; 刘媛媛; 王�琦; 杨明; 倪学磊
Original assignee: National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Current assignee: National Meteorological Information Center Meteorological Data Center Of China Meteorological Administration
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-05-16

Abstract

本发明公开了一种气象格点数据管理方法和装置，属于气象信息处理领域。本发明提供基于MPP分布式数据库的气象格点数据存储管理方案，同时针对常见分析算法实现了分布式并行优化，有效提升了格点数据的访问性能。通过PostGrid数据库插件的形式，在数据库内部原生支持格点数据的存储；通过SQL实现对格点数据的操作，包括数据写入、简单查询和复杂分析；充分利用并行处理的优势，针对部分聚合函数实现分布式执行优化；将格点数据以关系模型的方式管理,继承了关系型数据库相比于文件***的诸多优点，如事务支持，SQL支持，多用户共享等。

Description

气象格点数据管理方法和装置

技术领域

本发明涉及气象信息处理领域，特别是指一种气象格点数据管理方法和装置。

背景技术

气象数据就空间分布方式分为两种：站点数据和格点数据。站点数据就是在观测站点实测到的数据。格点数据就是将空间上分布不均匀的站点数据，按一定的几何形态格子归并，求出各格子中数据的平均值，置于格子的中心位置，这种处理所形成的数据，特点就是时空分辨率比较高。

在实际应用中，目前已经积累了大量的站点观测数据，但是受气象观测站点空间分布的不均一、时间序列长短不一、观测台站环境变迁等影响，在具体的气候分析和数值模拟等研究中，离散的站点数据不利于可视化与分析，不能完全真实代表区域气候变化的特征，气象预测面临着诸多的限制，所以在某些场景下，需要把站点数据转化成规则的、连续的格点数据。格点数据利用了空间插值技术将离散的站点资料转化为空间连续的、规则的网格点序列，可以有效的反映气候要素的空间信息，大大提高了气候数据序列在对应网格范围的气候代表性。

在现有方案中，气象格点数据以NetCDF文件的方式存储在文件***中，并通过文件接口读取所需数据。由于文件***自身的效率瓶颈，这种服务方式的用户体验较差，检索困难，用户请求响应时间较长，并且无法获取指定区域的数据。

发明内容

为解决现有技术的缺陷，本发明提供一种气象格点数据管理方法和装置，实现了基于MPP分布式数据库的气象格点数据存储管理方案，同时针对常见分析算法实现了分布式并行优化，有效提升了格点数据的访问性能。

本发明提供技术方案如下：

一种气象格点数据管理方法，所述方法包括：

S100：将气象格点数据进行分片；

S200：通过数据库插件将分片后的气象格点数据以二进制的形式存储到分布式数据库集群中，并以SQL函数的方式注册到所述分布式数据库集群中；

其中，所述分布式数据库集群包括若干节点，每个节点均包括各自的处理器、内存和磁盘，各个节点的处理器均通过互连网络通信，每个节点上均运行各自单独的数据库服务，分片后的气象格点数据存储到各个节点的数据库中，并以SQL函数的方式注册到各个节点的数据库中。

进一步的，所述气象格点数据分为常年值数据和全年值数据；所述全年值数据采用水平分片的方式分片后分布存储到各个节点的数据库中，所述常年值数据存储在每个节点的数据库中的复制表内。

进一步的，根据所述常年值数据中的主键列对所述常年值数据进行hash分片，将单个数据源的常年值数据存储到一个分区表中，并增加一列用于区分不同的要素类型。

进一步的，所述气象格点数据包括文件头和数据内容，所述文件头存储气象格点数据的元数据信息，所述数据内容存储气象格点数据的数据信息。

进一步的，所述节点分为协调节点和工作节点，所述协调节点负责请求的解析和分发，并提供集群管理，所述工作节点负责本地分片数据的存储和计算，所述协调节点保存所述分布式数据库集群的所有元数据信息，所述工作节点保存本地分片的元数据信息。

进一步的，所述方法还包括：

通过查询下推的方式进行查询优化，其中：

各个工作节点执行查询操作，并将结果返回给所述协调节点，保存在所述协调节点的本地临时文件中；

在所有工作节点查询执行结束后，所述协调节点将本地临时文件中的数据进行合并，返回最终的结果。

一种气象格点数据管理装置，所述装置包括：

分片模块，用于将气象格点数据进行分片；

存储模块，用于通过数据库插件将分片后的气象格点数据以二进制的形式存储到分布式数据库集群中，并以SQL函数的方式注册到所述分布式数据库集群中；

进一步的，所述气象格点数据分为常年值数据和全年值数据；所述全年值数据采用水平分片的方式分片后分布存储到各个节点的数据库中，所述常年值数据存储在每个节点的数据库中的复制表内；

进一步的，所述装置还包括：

查询优化模块，用于通过查询下推的方式进行查询优化，其中：各个工作节点执行查询操作，并将结果返回给所述协调节点，保存在所述协调节点的本地临时文件中；在所有工作节点查询执行结束后，所述协调节点将本地临时文件中的数据进行合并，返回最终的结果。

本发明具有以下有益效果：

本发明提供基于MPP分布式数据库的气象格点数据存储管理方案，同时针对常见分析算法实现了分布式并行优化，有效提升了格点数据的访问性能。通过PostGrid数据库插件的形式，在数据库内部原生支持格点数据的存储；通过SQL实现对格点数据的操作，包括数据写入、简单查询和复杂分析；充分利用并行处理的优势，针对部分聚合函数实现分布式执行优化；将格点数据以关系模型的方式管理,继承了关系型数据库相比于文件***的诸多优点，如事务支持，SQL支持，多用户共享等。

附图说明

图1为本发明的气象格点数据管理方法的流程图；

图2为大规模并行数据库的***架构示意图；

图3为气象格点数据的示意图；

图4为气象格点数据的数据模型示意图；

图5为本发明的气象格点数据管理装置的示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种气象格点数据管理方法，将气象格点数据存储到分布式数据库中，具体的，如图1所示，本发明的方法包括：

S100：将气象格点数据进行分片。

S200：通过数据库插件将分片后的气象格点数据以二进制的形式存储到分布式数据库集群中，并以SQL函数的方式注册到分布式数据库集群中。

本发明的分布式数据库集群可以为大规模并行数据库(MPP,Massively ParallelProcessing Database)，是并行计算和数据库技术相结合的产物。本发明的MPP分布式数据库集群由一组PostgreSQL实例组成，根据功能定位不同，集群内的节点可以分成协调节点(Coordinator Node)和工作节点(Worker Node)。其中，协调节点负责请求的解析和分发，并提供基本的集群管理，工作节点负责本地分片数据的存储和计算，协调节点保存分布式数据库集群的所有元数据信息，工作节点保存本地分片的元数据信息。其***架构图如图2所示。

本发明的分布式数据库集群为无共享(Shared-Nothing)的体系结构，每个节点均包括各自的一个处理器、一个内存和一块或多块磁盘，各个节点的处理器均可以通过高速互连网络互相通信，同时每个节点上均运行各自单独的数据库服务。由于每个节点均包括各自的处理器、内存和磁盘，不互相共享内存和磁盘，各个处理器访问的数据均由本地磁盘提供，克服了所有的I/O操作都需要通过同一个互连网络的缺点，只有访问非本地磁盘的数据时才需要通过网络传输。同时，无共享(Shared-Nothing)的***中，互连网络的方式通常设计成可扩展的，使得当更多节点加入集群时，集群的整体性能也随之提升。因此，本发明的无共享(Shared-Nothing)的体系结构具有更好的可扩展性，而且可以很容易地支持相对较多的节点。

本发明通过数据库插件的方式，在数据库内部原生支持格点数据的存储，其中数据库插件为PostGrid格点插件，基于PostgreSQL以及C语言的插件开发，其扩展了现有技术的PostgreSQL的存储类型，以SQL函数的方式提供核心功能；将分片后的气象格点数据以二进制的形式存储到分布式数据库集群的各个节点的数据库中，并以SQL函数的方式注册到各个节点的数据库中，提供对格点数据的操作、查询和分析。格点数据无需下载后进行客户端计算，使得数据靠近计算端，改变传统数据下载，客户端计算的流程，实现了格点数据数算一体化。对格点数据按照Grid模型进行时间切分和格点切分，并建立空间索引，并提供并行计算能力，能够大大提成查询、聚合效率，最终实现高效、灵活的对外提供基于格点数据的空间服务。

具体的，PostGrid格点数据“数算一体”是针对气象格点服务定制开发的扩展模型，提供算子对Grid进行运算，支持加、减、乘、除、最大值、最小值、平均值、求和、过滤、插值、距平、距平百分率等，以OLR数据聚合服务为例，旬，侯，月，季，年等数据聚合服务均可毫米级响应。PostGrid格点数据“数算一体”技术将传统的聚合计算服务从分钟及提升至毫秒级，大大提升气象格点数据服务的性能，具有非常高的推广价值。针对不同格点产品，形成气候专题产品服务，如海表面温度，海温指数等。支持WKB，HEXWKB，NetCDF，PNG，JPG，TIFF等格式的输出。

Grid数据模型是针对格点数据设计的一种存储模型，如图3所示，并在此模型基础上提供格点数据的导入、导出、矩阵计算、空间计算、统计、聚合、降维、过滤等功能。Grid的数据模型主要包括两部分，文件头和数据内容，如图4所示。其中，文件头存储Grid的元数据信息，包括起始坐标、行列值、分辨率、无效值等信息等，数据内容存储Grid的数据信息，其数据类型包括整形和浮点型，数据存储以行优先方式存储。

格点数据通常涉及多种数据源，不同的数据源具有不同的空间分辨率，并且对应的要素数存在一定差异，在数据库存储中表现为单行物理大小相差较大。对于所有数据源的格点数据，均可以分为常年值数据和全年值数据。常年值数据为该数据源对应某一年全年的数据，更新频率相对较低；全年值数据为该数据源的全量数据，保存了从过去某一时间点至今的所有数据，同时，每天定时写入当天的最新数据。

目前格点数据的访问模式是基于单个数据源,主要有以下两种:1)查询全年值数据，2)全年值和常年值数据的关联查询。第一种访问模式只针对全年值数据，包括基于时间范围以及其他条件的筛选，以及基本的计算分析；第二种访问模式涉及到全年值和常年值的关联查询，关联条件主要是时间范围，在关联后的结果集上完成多种计算分析，并且不同的计算分析之间存在多层嵌套关系。

在分布式数据库中，每个存储节点最小粒度的存储单元成为分片(shard)，在分片时，对于全年值数据，采用水平分片作为存储方式，通过将关系表中的每个元组按照某种规则分给特定的分片。具体的，可以使用数据中的主键列进行hash分片，由于主键具有随机性，hash分片后可以较好的将数据分布到个各存储节点。同时，由于全年值数据和时间相关，采用分区表可以进一步利用分布式数据库提供的分区裁剪优化：当筛选条件包含分区字段时，根据筛选条件扫描指定的分区。考虑到未来不断接入新的数据源，对于单个数据源,将对应的所有要素保存到一个分区表中，并增加一列用于区分不同的要素类型，同时在查询时指定需要访问的要素类型名。不同的数据源对应存储到不同的分区表，并根据日期范围设置不同的分区条件。

对于常年值数据，由于需要和全年值数据做关联，同时关联条件不是简单的等值关联，为了保证关联查询的性能，本发明通过复制表实现。复制表的数据在每个节点均完整的冗余一份。将常年值数据存储为复制表，在每个节点保存一份常年值数据。对于关联查询，由于相关节点均可以参与全年值数据和常年值数据的关联计算，可以有效提高关联查询的执行效率。

作为本发明实施例的一种改进，该方法还包括：

S300：通过查询下推的方式进行查询优化。

查询下推是分布式数据库查询优化的一个手段，从逻辑优化的角度来看，查询下推将逻辑查询树中的一些节点下推到叶子结点或接近叶子结点，即更接近数据源的地方，从而使得上层节点的操作所涉及到的数据量大大减少，提高数据处理效率。从物理计划执行的角度来看，查询下推将查询的条件下推到Scan节点，让Scan节点直接过滤掉与查询结果无关的数据，从而提高数据的传输和处理效率。

本发明的数据库主要能进行下推的操作包括：1)投影下推。投影下推即列裁剪，通过将需要的列下推到存储引擎，这样可以使存储引擎只返回所需要的列数据给查询引擎，这样可以大大减小数据的传输IO，尤其是对于列存方式的存储引擎，可以极大的提高查询效率。2)条件下推。条件下推即将过滤条件下推到存储引擎，数据源先进行预过滤，将复合条件的数据返回给查询引擎。3)聚合下推：聚合下推是将聚合函数min/max/count/sum/avg下推给存储引擎，利用存储引擎自己本身的聚合功能进行聚合求值，将求值结果返回给查询引擎，可以极大的减小数据传输开销，同时可以大大节省内存的使用。4)Order By/Limit下推。这两个下推的意义与上述类似，对于这两个谓词下推到存储引擎，在进行数据返回的时候，返回一系列有序的元组或者是所要求的前几条元组，这样便可以节省查询引擎进行复杂的排序开销以及获取不必要的数据量。

为了支持原生气象格点数据的存储，postgrid插件定义了新的格点数据类型:grid。针对新增的grid类型，postgrid还提供了丰富的函数，用来支持格点数据的计算，包括普通函数和聚合函数。其中聚合函数和标准数值类型的计算语义基本一致，也提供了count/sum/avg等计算，只是参数类型是基于grid。下面以针对grid类型的avg函数(avg_grid)介绍分布式数据库对自定义类型聚合下推的支持。

针对基本类型的avg函数，本发明的分布式数据库支持基本的下推优化。假设表test_table的包含一个类型为integer的数值列c1，对于查询select avg(c1)from test_table：

S310：各个工作节点执行查询操作，并将结果返回给协调节点，保存在协调节点的本地临时文件中。

具体的，各个Worker节点会执行```select sum(c1)as sum_0,count(c1)ascount_0from test_table_0```，其中test_table_0表示当前Worker所包含的shard。Worker节点的查询执行结束后，Worker节点会将结果返回给Coordinator节点，保存在Coordinator节点的本地临时文件中。这一步称为partial aggregate。

S320：在所有工作节点查询执行结束后，协调节点将本地临时文件中的数据进行合并，返回最终的结果。

具体的，在所有Worker节点的查询执行结束后,Coordinator节点根据所有Worker节点返回的结果，执行```select sum(sum_0)/sum(count_0)from test_table_tmp```，其中test_table_tmp逻辑上表示了所有Worker节点返回的结果，sum_0表示了各个Worker节点返回根据本地分片计算得到的sum列，相应的count_0表示了各个count列。这一步称为final aggregate。

自定义聚合函数的下推执行流程，和标准类型的聚合函数类似，区别于具体执行的函数，这个是由各个不同聚合函数的语义保证的。postgrid插件针对avg_grid函数同样提供了适配下推执行流程的sum和count语义的函数；由于格点数据的业务含义，Coordinator节点执行的sum/count不同于Worker节点的sum/count。在查询优化阶段，当优化器发现表达式中包含avg_grid函数时，会根据avg_grid的计算语义，对应生成Worker节点和Coordinator节点执行的不同SQL。

本发明实施例提供一种气象格点数据管理装置，如图5所示，该装置包括：

分片模块1，用于将气象格点数据进行分片。

存储模块2，用于通过数据库插件将分片后的气象格点数据以二进制的形式存储到分布式数据库集群中，并以SQL函数的方式注册到分布式数据库集群中。

其中，分布式数据库集群包括若干节点，每个节点均包括各自的处理器、内存和磁盘，各个节点的处理器均通过互连网络通信，每个节点上均运行各自单独的数据库服务，分片后的气象格点数据存储到各个节点的数据库中，并以SQL函数的方式注册到各个节点的数据库中。

本发明中，气象格点数据分为常年值数据和全年值数据；全年值数据采用水平分片的方式分片后分布存储到各个节点的数据库中，常年值数据存储在每个节点的数据库中的复制表内；

其中，根据常年值数据中的主键列对常年值数据进行hash分片，将单个数据源的常年值数据存储到一个分区表中，并增加一列用于区分不同的要素类型。

前述的节点分为协调节点和工作节点，协调节点负责请求的解析和分发，并提供集群管理，工作节点负责本地分片数据的存储和计算，协调节点保存分布式数据库集群的所有元数据信息，工作节点保存本地分片的元数据信息。

作为本发明实施例的一种改进，该装置还包括：

查询优化模块，用于通过查询下推的方式进行查询优化，其中：各个工作节点执行查询操作，并将结果返回给协调节点，保存在协调节点的本地临时文件中；在所有工作节点查询执行结束后，协调节点将本地临时文件中的数据进行合并，返回最终的结果。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，该装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种气象格点数据管理方法，其特征在于，所述方法包括：

S100：将气象格点数据进行分片；

2.根据权利要求1所述的气象格点数据管理方法，其特征在于，所述气象格点数据分为常年值数据和全年值数据；所述全年值数据采用水平分片的方式分片后分布存储到各个节点的数据库中，所述常年值数据存储在每个节点的数据库中的复制表内。

3.根据权利要求2所述的气象格点数据管理方法，其特征在于，根据所述常年值数据中的主键列对所述常年值数据进行hash分片，将单个数据源的常年值数据存储到一个分区表中，并增加一列用于区分不同的要素类型。

4.根据权利要求2所述的气象格点数据管理方法，其特征在于，所述气象格点数据包括文件头和数据内容，所述文件头存储气象格点数据的元数据信息，所述数据内容存储气象格点数据的数据信息。

5.根据权利要求1-4任一所述的气象格点数据管理方法，其特征在于，所述节点分为协调节点和工作节点，所述协调节点负责请求的解析和分发，并提供集群管理，所述工作节点负责本地分片数据的存储和计算，所述协调节点保存所述分布式数据库集群的所有元数据信息，所述工作节点保存本地分片的元数据信息。

6.根据权利要求5所述的气象格点数据管理方法，其特征在于，所述方法还包括：

通过查询下推的方式进行查询优化，其中：

7.一种气象格点数据管理装置，其特征在于，所述装置包括：

分片模块，用于将气象格点数据进行分片；

8.根据权利要求7所述的气象格点数据管理装置，其特征在于，所述气象格点数据分为常年值数据和全年值数据；所述全年值数据采用水平分片的方式分片后分布存储到各个节点的数据库中，所述常年值数据存储在每个节点的数据库中的复制表内；

以及/或者；

根据所述常年值数据中的主键列对所述常年值数据进行hash分片，将单个数据源的常年值数据存储到一个分区表中，并增加一列用于区分不同的要素类型。

9.根据权利要求7或8所述的气象格点数据管理装置，其特征在于，所述节点分为协调节点和工作节点，所述协调节点负责请求的解析和分发，并提供集群管理，所述工作节点负责本地分片数据的存储和计算，所述协调节点保存所述分布式数据库集群的所有元数据信息，所述工作节点保存本地分片的元数据信息。

10.根据权利要求9所述的气象格点数据管理装置，其特征在于，所述装置还包括：