CN112231301A

CN112231301A - 黄河水沙变化数据仓库

Info

Publication number: CN112231301A
Application number: CN202011134223.9A
Authority: CN
Inventors: 夏润亮; 李涛; 王敏; 金锦; 朱敏; 刘启兴; 李斌; 俞彦; 杨无双; 冯兴凯; 李冰; 吴丹; 郝臻; 薛阳茹; 焦莉华
Original assignee: Yellow River Institute of Hydraulic Research
Current assignee: Yellow River Institute of Hydraulic Research
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-01-15

Abstract

本发明涉及一种黄河水沙变化数据仓库，包括由下至上依次连接的数据源、汇聚层、存储层以及应用层，其中，数据源位于最底层，由结构化数据、半结构化数据以及非结构化数据组成，用于实现源数据向汇聚层聚集；汇聚层用于在数据源中抽取所需要的数据，并对数据进行处理后传输至存储层；存储层用于存储汇聚层处理后的数据；应用层为用户访问数据的工具，用于对数据进行数据分析。本申请提供的数据仓库能完整、统一地刻画各个分析对象所涉及的各项数据以及数据之间的联系，应用数据分析是多角度的、多视图模式的、可旋转的。根据分析要求，迅速、灵活地对大量数据进行处理，并以直观的、容易理解的形式将查询结果提供给各种决策人员。

Description

黄河水沙变化数据仓库

技术领域

本发明属于软件架构技术领域，具体涉及一种黄河水沙变化数据仓库。

背景技术

任何重大问题的决策都需要拥有大量的相关数据作为支撑，然后帮助用户从中快速获取足够的决策信息，而对于流域水资源管理中涉及的多种数据，需要对各类数据以及各类数据之间的相互关系进行分析后才能做出科学有效的决策。

相关技术中，随着通信技术的发展，流水域资源对于数据获取的快速性、准确性等有了更高的要求。但是还没有更好的方式对数据进行存储和管理。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种黄河水沙变化数据仓库，以解决现有技术中没有更好的方式对数据进行存储和管理的问题。

为实现以上目的，本发明采用如下技术方案：一种黄河水沙变化数据仓库，包括：由下至上依次连接的数据源、汇聚层、存储层以及应用层，其中，

所述数据源位于最底层，由结构化数据、半结构化数据以及非结构化数据组成，用于实现源数据向所述汇聚层聚集；

所述汇聚层用于在所述数据源中抽取所需要的数据，并对数据进行处理后传输至存储层；

所述存储层用于存储汇聚层处理后的数据；

所述应用层为用户访问数据的工具，用于对数据进行数据分析。

进一步的，所述数据源还用于对数据进行数据管理，按照不同数据层次排序显示数据源信息，包括数据名称、数据描述、数据层次、资源地址、数据类型、数据所在单位、是否接入数据以及最新同步日期；所述数据管理包括同步和更新；

所述汇聚层采用数据批量抽取或准实时数据抽取的方式对数据源中所需的数据进行抽取。

进一步的，所述对数据进行处理，包括：

对数据进行抽取、转换、清洗、加载、流数据处理。

进一步的，通过事实表、维、度量和层构建多维数据模型；其中，数据仓库设有主题，所述数据围绕主题进行为数据执行，所述数据以事实表为中心，关联多个维表，其中事实表包含多个维和度量，维代表决策用户分析数据的特定视角，度量是数据的实际意义和测量指标，各个维表描述了多个维及其取值，每一个维又划分了不同的层次；

所述多维数据模型用于定义ETL过程和映射，以对数据进行抽取、转换、清洗、加载、流数据处理。

进一步的，所述ETL过程包括：

创建维度、创建数据立方体、创建映射、创建ETL流程。

进一步的，所述在所述数据源中抽取所需要的数据，包括：

建立***、修改、删除三个触发器；当源表中的数据发生变化时，相应的触发器将变化的数据写入一个临时表，抽取线程从临时表中抽取数据，临时表中抽取过的数据被标记或删除；

在源表上增加一个时间戳字段，***中更新修改表数据的时候，同时修改时间戳字段的值，当进行数据抽取时，通过比较***时间与时间戳字段的值来决定抽取的数据；

采用数据抽取工具为要抽取的表建立一个MD5临时表，该临时表记录源表主键以及根据所有字段的数据计算出来的MD5校验码，在进行数据抽取时，对源表和MD5临时表进行MD5校验码的比对，从而确定决定源表中的数据是新增、修改还是删除，同时更新MD5校验码；

通过日志对比来判断变化的数据，对文件数据的抽取一般是进行全量抽取，一次抽取前可保存文件的时间戳字段或计算文件的MD5校验码，下次抽取时进行比对，如果相同则忽略本次抽取。

进一步的，所述存储层，包括：

结构化数据的数据仓库、半结构化数据的数据仓库、非结构化数据的数据仓库；

其中，结构化数据被保存至结构化数据的数据仓库；

半结构化数据被处理成结构化数据保存至结构化数据的数据仓库或者保持半结构化数据保存至半结构化数据的数据仓库；

非结构化数据被处理成结构化数据保存至结构化数据的数据仓库或保持非结构化数据保存至非结构化数据的数据仓库

进一步的，所述结构化数据包括关系数据库、结构化报表；半结构化数据包括文件；非结构数据包括WEB页面、平文本数据。

进一步的，所述数据源中的数据包括：

河流水系、水文站、降雨及历史降雨数据、土地利用、植被覆盖、下游洪水风险图、基础地理信息的数据

进一步的，当数据源中数据为水利业务数据时，所述数据源包括：

基础类数据仓库，用于存储历史数据；

实时类数据仓库，用于存储实时数据。

本发明采用以上技术方案，能够达到的有益效果包括：

数据仓库的特征决定其存在的优势，数据仓库存在的两个显著优势是：

(1)数据组织与分析的主题性。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述，能完整、统一地刻画各个分析对象所涉及的各项数据以及数据之间的联系。其有效地集成不同数据源的数据，为某一主题进行服务，实现应用与数据的分离。从而适应业务活动特点和企业数据的动态特征，从根本上实现数据与应用的分离。

(2)决策支持功能。数据仓库组织的根本目的在于对决策的支持，可以使用各种方法对数据仓库进行操作，其中应用较多的是一些复杂的数据分析，这些分析应该是多角度的、多视图模式的、可旋转的。根据分析要求，迅速、灵活地对大量数据进行处理，并以直观的、容易理解的形式将查询结果提供给各种决策人员。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种黄河水沙变化数据仓库的结构示意图；

图2本发明一种黄河水沙变化数据仓库的数据处理流程示意图；

图3为本发明一种黄河水沙变化数据仓库的数据结构示意图；

图4为本发明水利业务数据仓库为实时或准实时决策支持的处理流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的黄河水沙变化数据仓库。

如图1所示，本申请实施例中提供的黄河水沙变化数据仓库，包括：由下至上依次连接的数据源、汇聚层、存储层以及应用层，其中，

所述存储层用于存储汇聚层处理后的数据；

本申请提供的黄河水沙变化数据库对黄河主要产沙区逐年逐月降雨和水文泥沙数据、典型支流场次降雨和洪水泥沙数据、典型年份土地利用和林草盖度数据、典型年梯田数据，水利水土保持工程数据，社会经济以及有关试验观测数据进行分析，针对数据海量异构特性，提出面向不同需求的水沙变化元数据集和数据模型，开展各类数据的抽取、清洗、转换、重构，并利用数据集市、存储分区、索引等技术完成数据仓库构建。

其中，数据源：数据源是数据仓库的基础，位于数据仓库构架的最底层，是数据仓库的数据源泉，由结构化、半结构化和非结构数据构成，按照元数据驱动机制，通过ETL等技术实现源数据向汇聚层的聚集。

汇聚层：从数据源中抽取出所需要的数据，经过数据抽取、转换、加载，流数据处理，爬虫等技术，从数据源中抽取出所需要的数据，经过清洗后，传输至存储层进行存储。

存储层：完成按照主题管理数据，存储于空间数据仓库中。从数据源中抽取出所需要的数据，经过清洗后，最终按照预先定义好的多维数据模型将数据加载到数据仓库中，完成数据从数据源向目标数据仓库转化的过程。非结构化数据采用Hadoop***，即底层HDFS提供可靠的分布式文件存储，Hbase用于存储半结构化数据，MapReduce为***提供了高性能的编程模型和计算能力。结构化数据仓库在最上层，为整个生态***提供了SQL语言支持，Hadoop***的数据经过非结构化数据转化进入主体结构化数据仓库中。

应用层：用户访问空间数据仓库中数据的工具，并利用空间数据挖掘、空间分析、报表分析和可视化等技术进行数据分析，最终实现向用户提供数据挖掘服务。

具体的，本申请以黄河主要产沙区为重点，***采集研究区约600余个雨量站的逐月降雨数据及典型支流逐时降雨数据：以及典型支流以“小时”为时间步长的降雨数据。获取研究区人口、土壤、水系、高程、用水和水沙试验等数据。获取潼关以上约150余座干支流水文站设站以来的逐月实测径流量、输沙量、含沙量和悬移质泥沙粒径数据：获取支流1966年或1977年以来场次降雨的洪水泥沙数据。提取土地利用和植被盖度数据，补充全区2016年前后的土地利用和植被盖度数据：采用遥感地面实验方法，反演林草灌层与林草植被枯落层数据。采集主要产沙区梯田信息，以区内的甘肃省黄河流域为重点，获取典型支流2017年梯田遥感信息，并结合统计数据，对黄河主要产沙区2017年梯田信息进行更新性修正，预测梯田面积和质量的未来发展趋势。

优选的，所述数据源还用于对数据进行数据管理，按照不同数据层次排序显示数据源信息，包括数据名称、数据描述、数据层次、资源地址、数据类型、数据所在单位、是否接入数据以及最新同步日期；所述数据管理包括同步和更新；

具体的，数据来源对数据源信息进行管理，按照不同数据层次排序显示数据源信息，包括数据名称、数据描述、数据层次、资源地址、数据类型、数据所在单位、是否接入数据以及最新同步日期。通过简洁的布局展示出数据源的重要信息，使用户能够快速全面的了解数据源的基本情况。同时，支持通过数据层次或按照数据源描述的关键字快速检索想要的数据源信息。

除此之外，可对数据源进行修改和同步两项操作。可进行修改的项目包括数据源的数据名称、数据描述、数据层次、数据类型、数据地址、文件地址、是否接入、数据库连接的用户名和密码。当数据表结构发生变化时，对于非HTTP来源的数据还可进行数据同步操作，通过同步数据库获取最新的表结构，保证数据准确性和监控实时性。

数据仓库设计的过程可以看作是从现实环境到抽象模型，从抽象模型到具体实现的过程。完成这一个过程，必须依靠各种不同的数据模型。数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中逐步实现的。如图所示，从现实到抽象的过程需要依靠概念模型的支持，然后将概念模型逻辑化。最后，再将逻辑模型向数据仓库物理模型进行转化，一旦完成数据仓库的物理模型，数据仓库的具体实现就有了可靠的设计方案。

在数据仓库的设计过程中，所有数据都是围绕主题进行的，是一些数据集合，这些数据集合对分析对象进行了比较完全一致的数据描述，即以事实表为中心，关联多个维表，其中事实表包含多个维和度量，维代表决策用户分析数据的特定视角，度量是数据的实际意义和测量指标，各个维表描述了多个维及其取值，每一个维又划分了不同的层次。

优选的，所述对数据进行处理，包括：

对数据进行抽取、转换、清洗、加载、流数据处理。

优选的，通过事实表、维、度量和层构建多维数据模型；其中，数据仓库设有主题，所述数据围绕主题进行为数据执行，所述数据以事实表为中心，关联多个维表，其中事实表包含多个维和度量，维代表决策用户分析数据的特定视角，度量是数据的实际意义和测量指标，各个维表描述了多个维及其取值，每一个维又划分了不同的层次；

优选的，所述ETL过程包括：

创建维度、创建数据立方体、创建映射、创建ETL流程。

具体的，本申请中空间数据ETL实现是利用ARCTOOLBOXS工具提供的支持数据格式之间的提取、转换功能。因为空间数据源数据库的数据已做标准化处理，使用ARCTOOLBOXS工具实现空间数据的ETL过程。空间数据的提取和转换的流程化作业使用ModelBuilder工具的模型生成器实现。例如要选取黄河某河段的等高线，生成DEM后，再衍生出坡度图层，然后进行重分类。如图所示，首先由select工具通过河段名称属性完成各河段范围区域的提取，然后由CLIP工具根据各河段范围区域裁剪等高线数据，接着由TIN生成工具完成不规则格网表面的生成，并转换为RASTER格式，得到DEM数据。根据DEM数据可以由SLOPE工具生成坡度，并由RECLASSIFY工具执行重分类。

文本文件是通过对文本文件的解析，并通过文本文件数据与关系数据目标字段的映射关系，实现文本数据的关系化。在ETL过程中，通过设置过滤条件等，把不满足要求的文本数据过滤掉，同时，通过对文本数据中数据更新时间戳的解析，并与关系化的数据的写入时间的对比，实现文本数据的实时增量更新。

数据库的ETL实现具体为：数据仓库要将己有的操作型数据库数据源通过ETL过程导入目标数据库，首先就要明确数据源和数据目标，在ETL工具软件中，提供了不同源数据库的连接方法，具体如下：

(1)创建维度；

创建维表也称为查找表或参考表，包含数据仓库中相对静态的数据，通常存储用于查询的信息。维表是星型模式中常用的两种对象之一，维包含级别、层次和属性。维属性用于描述维值，通常是描述性或文字性的。维通常收集低级别的详细数据，然后在较高的级别进行数据汇总或聚集，为分析服务,这种简单的汇总或聚集称为层次。

(2)创建数据立方体；

创建立方体事实表用于存储业务度量，通常包括事实度量和连接维表的外键。事实表是以维表为基础，对详细数据进行记录。创建事实表的过程中，主要是确定主键和定义度量。数值型度量通常是数字的或可加的，用于分析研究事实表中的主键是由所有的外关键字组成的组合键，用于和相关维表的主键连接。

(3)创建映射；

映射的建立在数据仓库的建立过程中是较为复杂的一步，映射完成的主要工作是将数据从数据源模块中抽取出来，将经过转换后的数据加载到目标数据仓库中。

(4)创建ETL流程；

根据上述分析，定义ETL流程，流程描述了映射和外部活动之间的关联性。在中通过设计并执行进程流，用于实现源数据库到目标数据仓库的最终上载。

优选的，所述在所述数据源中抽取所需要的数据，包括：

具体的，为实现数据的应用，从实现从数据仓库的提取，目前增量数据抽取中常用的捕获变化数据的方法有：

触发器：在要抽取的表上建立需要的触发器，一般要建立***、修改、删除三个触发器，每当源表中的数据发生变化，就被相应的触发器将变化的数据写入一个临时表，抽取线程从临时表中抽取数据，临时表中抽取过的数据被标记或删除。触发器方式的优点是数据抽取的性能较高，缺点是要求业务表建立触发器，对业务***有一定的影响。

时间戳：是一种基于快照比较的变化数据捕获方式，在源表上增加一个时间戳字段，***中更新修改表数据的时候，同时修改时间戳字段的值。当进行数据抽取时，通过比较***时间与时间戳字段的值来决定抽取哪些数据。

全表比对：典型的全表比对的方式是采用MD5校验码。数据抽取工具事先为要抽取的表建立一个结构类似的MD5临时表，该临时表记录源表主键以及根据所有字段的数据计算出来的MD5校验码。每次进行数据抽取时，对源表和MD5临时表进行MD5校验码的比对，从而决定源表中的数据是新增、修改还是删除，同时更新MD5校验码。

日志对比：通过分析数据库自身的日志来判断变化的数据。数据抽取处理的数据源除了关系数据库外，还可能是文件，例如txt文件、excel文件、xml文件等.对文件数据的抽取一般是进行全量抽取，一次抽取前可保存文件的时间戳或计算文件的MD5校验码，下次抽取时进行比对，如果相同则可忽略本次抽取。

一些实施例中，如图2所示，所述存储层，包括：

其中，结构化数据保存至结构化数据的数据仓库；

非结构化数据被处理成结构化数据保存至结构化数据的数据仓库或保持非结构化数据的数据保存至非结构化数据的数据仓库。

优选的，所述结构化数据包括关系数据库、结构化报表；半结构化数据包括文件；非结构数据包括WEB页面、平文本数据。

优选的，如图3所示，所述数据源中的数据包括：

河流水系、水文站、降雨及历史降雨数据、土地利用、植被覆盖、下游洪水风险图、基础地理信息的数据。

具体的，河流水系数据保存黄河流域不同级别的河流，分为一级、二级、三级和四级，并保存河流水系的名称。水文站数据保存了黄河中下游主要水文站的地理位置、名称等信息。降雨站及历史降雨数据保存了黄河中游地区主要降雨站的地理位置、名称。按时间序列顺序保存了降雨站不同年份在不同时刻的降雨量信息。土地利用数据包括1978年、1980年、1998年、2000年汾河、2010年、2016年黄河中游地区的土地利用类型，主要类型包括水田、旱地、果园、茶园、林地、灌木、天然牧草地、人工牧草地、商务、工业存储用地、住宅、公共服务用地、特殊用地、铁路、公路、街巷、农村道路、机场、港口码头、管道运输、水工建筑、空闲地、河流水面等。黄河中游地区植被覆盖数据的时间包括1978年、1980年、1998年、2000年、2010年和2016年。下游洪水风险图，根据需要设计相应数据库表并将风险图入库。洪水风险图必须以矢量图层或服务形式存储，图层属性至少有水文特性条件和相应的风险信息。基础地理信息数据包括黄河下游地区的大堤、生产堤、控导工程、断面等信息。

一些实施例中，当数据源中数据为水利业务数据时，所述数据源包括：

基础类数据仓库，用于存储历史数据；

实时类数据仓库，用于存储实时数据。

如图4所示，流域管理及相关业务处理过程中，实时性数据处理和应用具有非常重要的地位，无论是防汛抗旱、水资源管理等日常业务处理，还是这些业务对应的例会、决策会议、专题会商讨论会等等，对于基于实时性数据而来的各类统计数据都有各种需要，例如过去24小时累计降雨量、过去3日洪量，等等。就处理入库及更新的时效性而言，这些数据的统计分析与历史数据的统计分析或其统计成果的直接使用都有显著差别，因此这类数据在处理上有特定要求，同时，由于传统的历史性统计数据在形成时，经过了严格程序和方式、方法的“整编”过程和融入人工智慧的“判断”与校核、修正，所以，两类统计数据在生成处理、保存要有区别。图4显示了处理的具体技术方案。

综上所述，本发明提供一种黄河水沙变化数据仓库，物理结构设计阶段执行数据仓库架构，实现ETL过程，根据设计的逻辑模型、ETL等开发良好的物理模型和执行ETL过程及优化调度，有助于改善数据访问、查询执行、数据仓库维护和数据上载过程等。另外，在数据仓库物理实现中，注重从数据仓库存储结构、分区、索引和实体化视图设计等方面对数据仓库性能进行优化，以实现快速的决策信息获取、展现。

可以理解的是，上述提供的方法实施例与上述的方法实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种黄河水沙变化数据仓库，其特征在于，包括：由下至上依次连接的数据源、汇聚层、存储层以及应用层，其中，

所述存储层用于存储汇聚层处理后的数据；

2.根据权利要求1所述的黄河水沙变化数据仓库，其特征在于，

所述数据源还用于对数据进行数据管理，按照不同数据层次排序显示数据源信息，包括数据名称、数据描述、数据层次、资源地址、数据类型、数据所在单位、是否接入数据以及最新同步日期；所述数据管理包括同步和更新；

3.根据权利要求1所述的黄河水沙变化数据仓库，其特征在于，所述对数据进行处理，包括：

对数据进行抽取、转换、清洗、加载、流数据处理。

4.根据权利要求3所述的黄河水沙变化数据仓库，其特征在于，

通过事实表、维、度量和层构建多维数据模型；其中，数据仓库设有主题，所述数据围绕主题进行为数据执行，所述数据以事实表为中心，关联多个维表，其中事实表包含多个维和度量，维代表决策用户分析数据的特定视角，度量是数据的实际意义和测量指标，各个维表描述了多个维及其取值，每一个维又划分了不同的层次；

5.根据权利要求4所述的黄河水沙变化数据仓库，其特征在于，所述ETL过程包括：

创建维度、创建数据立方体、创建映射、创建ETL流程。

6.根据权利要求1所述的黄河水沙变化数据仓库，其特征在于，在所述数据源中抽取所需要的数据，包括：

7.根据权利要求1所述的黄河水沙变化数据仓库，其特征在于，所述存储层，包括：

其中，结构化数据保存至结构化数据的数据仓库；

非结构化数据被处理成结构化数据保存至结构化数据的数据仓库或保持非结构化数据保存至非结构化数据的数据仓库。

8.根据权利要求1所述的黄河水沙变化数据仓库，其特征在于，

所述结构化数据包括关系数据库、结构化报表；半结构化数据包括文件；非结构数据包括WEB页面、平文本数据。

9.根据权利要求1至8任一项所述的黄河水沙变化数据仓库，其特征在于，所述数据源中的数据包括：

10.根据权利要求1所述的黄河水沙变化数据仓库，其特征在于，当数据源中数据为水利业务数据时，所述数据源包括：

基础类数据仓库，用于存储历史数据；

实时类数据仓库，用于存储实时数据。