CN116737846A

CN116737846A - 一种基于Hive的资产管理数据安全保护仓库***

Info

Publication number: CN116737846A
Application number: CN202310630283.7A
Authority: CN
Inventors: 刘晓琳
Original assignee: Shenzhen Huaxia Kaici Wealth Management Co ltd
Current assignee: Shenzhen Huaxia Kaici Wealth Management Co ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-09-12

Abstract

本发明公开了一种基于Hive的资产管理数据安全保护仓库***。本发明中，数据处理模块内部的模块将用户所需的数据从数据源抽取之后，对杂乱无章的数据进行清洗，和转换，让它们变成可以被企业所利用的有价值数据并加载到我们事先已经定义好的数据仓库模型中去，为之后的数据挖掘和数据分析工作做支持，从而提高了后续数据处理过程中的便利性与快捷性；数据管理模块内部的元数据管理模块通过元数据评审功能对发生变更操作的元数据进行评审，判断数据是否存在重复开发和数据模型设计是否合理，从而对这些标准进行统一管理和维护，来促进数据仓库的数据标准化，保障数据分析应用的准确性和一致性，提高了整体***的安全性和便捷性。

Description

一种基于Hive的资产管理数据安全保护仓库***

技术领域

本发明属于资产管理数据技术领域，具体为一种基于Hive的资产管理数据安全保护仓库***。

背景技术

近年来伴随着我国经济和科技的迅速发展，各行各业行业的发展环境与过去相比发生了巨大的变化，为了提高企业的经济效益和市场竞争力，国内的各大保险企业都在加快信息化建设的步伐，逐渐建立了资产管理数据服务***、代理人管理***和客户管理***等一系列辅助保险业务开展的信息管理***，并通过这些信息管理***积累了大量的业务历史数据。目前，企业的信息化建设已经进入到深水区，而且市场竞争也变得越发的激烈。在这个大数据时代，数据的重要性已经不言而喻，通过数据安全保护仓库***来对资产数据进行管理。

但是常见的***不能对数据是否存在重复开发和数据模型设计是否合理进行判断，从而使得使用时较为不便。

发明内容

本发明的目的在于：为了解决上述提出的问题，提供一种基于Hive的资产管理数据安全保护仓库***。

本发明采用的技术方案如下：一种基于Hive的资产管理数据安全保护仓库***，包括电源供电模块、数据源模块、数据处理模块、数据传输模块、数据仓库模块、数据管理模块、开发环境构建模块、数据采集模块、数据转换装载模块、元数据管理模块和数据质量管理模块，所述电源供电模块的输出端连接有所述数据源模块的输入端，所述数据源模块的输出端连接有所述数据处理模块的输入端，所述数据处理模块的输出端连接有所述数据传输模块的输入端，所述数据传输模块的输出端连接有所述数据仓库模块的输入端，所述数据仓库模块的输出端连接有所述数据管理模块的输入端。

在一优选的实施方式中，所述数据处理模块的内部设置有开发环境构建模块、数据采集模块和数据转换装载模块，所述开发环境构建模块、数据采集模块、数据转换装载模块的整体输出端连接有所述数据处理模块的输入端；

所述数据管理模块的内部设置有元数据管理模块和数据质量管理模块，所述元数据管理模块和数据质量管理模块的整体输出端连接有所述数据管理模块的输入端。

在一优选的实施方式中，所述数据源模块使用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输工作，该层主要应用Sqoop脚本在特定的时间将线上Oracle中的数据传输到分布式文件***HDFS中，使用Flume将服务器日志产生的日志数据传输到HDFS中；这两部分共同构成了数据仓库的源数据层。

在一优选的实施方式中，所述开发环境构建模块使用Hive来进行数据的处理和开发工作，利用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输和采集工作；所述开发环境构建模块的步骤包括：(1)Hadoop集群搭建；首先，该Hadoop集群是在虚拟机VirtualBox中，通过CDH下载Cloudera-VM镜像，使用VirtualBox启动虚拟机，最后测试和使用；(2)Hive环境部署：删除Hive自带的Mysql数据库是Hive环境部署的第一步，在卸载完成之后我们安装新版本的Mysql作为Hive数据仓库的元数据库，第三步安装Hive的同时我们需要配置相关文件，第四步对Hive是否成功安装进行验证；(3)Sqoop环境部署第一、二步是解压Sqoop安装包并配置好环境变量，第三步是使用Sqoop命令测试连接远程数据源，第四步测试从远程数据源导入数据至Hive是否成功。

在一优选的实施方式中，所述数据采集模块对业务数据采集和日志数据采集，业务数据采集模块采用Sqoop来采集业务数据；首先Sqoop与业务数据库创建联系，获取业务数据表的Schema，然后通过Import导入功能直接从业务数据库Mysql中抽取数据并传输到Hive数据仓库ODS表中。

在一优选的实施方式中，所述数据转换装载模块首先是把ODS层数据装载到DIM层和DWD层中，然后再把DIM层数据和DWD层数据装载到DWS层中，数据转换主要包括统一数据编码、清除重复数据、空值填充、统一日期格式和异常值处理；统一数据编码是指不同业务***中同样的数据采用不同的编码，在数据仓库中需要进行统一编码处理，例如性别属性，有些***采用的是M和F，有些***采用的是1和0，有些***采用的是男和女，在数据仓库中统一转换为M和F；清除重复数据是指在业务数据重复录入或者重复采集一些特殊情况下会出现数据重复的问题，数据重复会影响数据统计分析的准确性，所以需要识别并清除重复的数据；空值填充是指在业务***数据表发生调整或者业务数据缺失情况下有的列中会存在空值，对于存在数据缺失的列，字符类型列中的空值通过设置为‘unknown’来进行标识，数值类型列的空值设置为‘-1’。

在一优选的实施方式中，所述数据传输模块利用Apache的Sqoop工具，结合Linux平台下的Shell编程以及crontab命令来定时执行脚本，使数据的ETL自动化，所述数据传输模块在使用Sqoop的import命令导入数据之前，需要先确定Sqoop调用的SQL语句，根据上一章提出的数据模型设计，采用将维度表和事实表作join操作的方法去编写SQL，具体的SQL语句比较长，这里不再贴出来，以下用CONCRETE_SQL来代替代码中出现的SQL语句。。

在一优选的实施方式中，所述数据仓库模块的整体架构主要包括Client、Driver、Matestore、Hadoop四个部分；Client是Hive提供的用户接口，主要包括CLI、WebUI、JDBC、ODBC方式，CLI是Hive提供的命令行接口，WebUI是Hive提供的浏览器访问界面，JDBC和OBDC是Hive通过Java实现的类似数据库的JDBC功能。

在一优选的实施方式中，所述元数据管理模块包括元数据目录和元数据评审；数据开发人员通过元数据目录功能以图形界面的方式对元数据进行展示、搜索、新增、修改和删除操作，并对发生变更的元数据提交评审；数据管理员通过元数据评审功能对发生变更操作的元数据进行评审，判断数据是否存在重复开发和数据模型设计是否合理，只有评审通过后才元数据才会对数据仓库执行更。

在一优选的实施方式中，所述数据质量管理模块包括数据质量检查任务配置和质量检查记录两个功能；在数据质量检查任务配置功能中，***首先会调用getRuleTaskAll()方法把所有的质量检查任务以清单的形式进行展示，当用户点击新增任务后，***会以卡片的形式对空值检查、枚举检查、重复性检查、值域检查、正则检查、码值检查、时效性检查和自定义SQL检查八个数据检查规则进行展示，为方便用户理解规则的应用。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，数据处理模块内部的模块将用户所需的数据从数据源抽取之后，对杂乱无章的数据进行清洗，和转换，让它们变成可以被企业所利用的有价值数据并加载到我们事先已经定义好的数据仓库模型中去，为之后的数据挖掘和数据分析工作做支持，从而提高了后续数据处理过程中的便利性与快捷性。

2、本发明中，数据管理模块内部的元数据管理模块通过元数据评审功能对发生变更操作的元数据进行评审，判断数据是否存在重复开发和数据模型设计是否合理，只有评审通过后才元数据才会对数据仓库执行更新，从而对这些标准进行统一管理和维护，来促进数据仓库的数据标准化，保障数据分析应用的准确性和一致性，提高了整体***的安全性和便捷性，同时数据质量管理模块在用户使用时***首先会调用getRuleTaskAll()方法把所有的质量检查任务以清单的形式进行展示，当用户点击新增任务后，***会以卡片的形式对空值检查、枚举检查、重复性检查、值域检查、正则检查、码值检查、时效性检查和自定义SQL检查八个数据检查规则进行展示，为方便用户理解规则的应用，从而提高了使用时的便利性，提高了人们的工作效率。

附图说明

图1为本发明的整体***框图；

图2为本发明中数据处理模块***框图；

图3为本发明中数据管理模块***框图。

图中标记：1-电源供电模块、2-数据源模块、3-数据处理模块、4-数据传输模块、5-数据仓库模块、6-数据管理模块、7-开发环境构建模块、8-数据采集模块、9-数据转换装载模块、10-元数据管理模块、11-数据质量管理模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1-3，

一种基于Hive的资产管理数据安全保护仓库***，包括电源供电模块1、数据源模块2、数据处理模块3、数据传输模块4、数据仓库模块5、数据管理模块6、开发环境构建模块7、数据采集模块8、数据转换装载模块9、元数据管理模块10和数据质量管理模块11，电源供电模块1的输出端连接有数据源模块2的输入端，数据源模块2的输出端连接有数据处理模块3的输入端，数据处理模块3的输出端连接有数据传输模块4的输入端，数据传输模块4的输出端连接有数据仓库模块5的输入端，数据仓库模块5的输出端连接有数据管理模块6的输入端。

数据处理模块3的内部设置有开发环境构建模块7、数据采集模块8和数据转换装载模块9，开发环境构建模块7、数据采集模块8、数据转换装载模块9的整体输出端连接有数据处理模块3的输入端；

数据管理模块6的内部设置有元数据管理模块10和数据质量管理模块11，元数据管理模块10和数据质量管理模块11的整体输出端连接有数据管理模块6的输入端。

数据源模块2使用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输工作，该层主要应用Sqoop脚本在特定的时间将线上Oracle中的数据传输到分布式文件***HDFS中，使用Flume将服务器日志产生的日志数据传输到HDFS中；这两部分共同构成了数据仓库的源数据层。

开发环境构建模块7使用Hive来进行数据的处理和开发工作，利用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输和采集工作；开发环境构建模块7的步骤包括：(1)Hadoop集群搭建；首先，该Hadoop集群是在虚拟机VirtualBox中，通过CDH下载Cloudera-VM镜像，使用VirtualBox启动虚拟机，最后测试和使用；(2)Hive环境部署：删除Hive自带的Mysql数据库是Hive环境部署的第一步，在卸载完成之后我们安装新版本的Mysql作为Hive数据仓库的元数据库，第三步安装Hive的同时我们需要配置相关文件，第四步对Hive是否成功安装进行验证；(3)Sqoop环境部署第一、二步是解压Sqoop安装包并配置好环境变量，第三步是使用Sqoop命令测试连接远程数据源，第四步测试从远程数据源导入数据至Hive是否成功。

数据采集模块8对业务数据采集和日志数据采集，业务数据采集模块采用Sqoop来采集业务数据；首先Sqoop与业务数据库创建联系，获取业务数据表的Schema，然后通过Import导入功能直接从业务数据库Mysql中抽取数据并传输到Hive数据仓库ODS表中。

数据转换装载模块9首先是把ODS层数据装载到DIM层和DWD层中，然后再把DIM层数据和DWD层数据装载到DWS层中，数据转换主要包括统一数据编码、清除重复数据、空值填充、统一日期格式和异常值处理；统一数据编码是指不同业务***中同样的数据采用不同的编码，在数据仓库中需要进行统一编码处理，例如性别属性，有些***采用的是M和F，有些***采用的是1和0，有些***采用的是男和女，在数据仓库中统一转换为M和F；清除重复数据是指在业务数据重复录入或者重复采集一些特殊情况下会出现数据重复的问题，数据重复会影响数据统计分析的准确性，所以需要识别并清除重复的数据；空值填充是指在业务***数据表发生调整或者业务数据缺失情况下有的列中会存在空值，对于存在数据缺失的列，字符类型列中的空值通过设置为‘unknown’来进行标识，数值类型列的空值设置为‘-1’。

数据传输模块4利用Apache的Sqoop工具，结合Linux平台下的Shell编程以及crontab命令来定时执行脚本，使数据的ETL自动化，数据传输模块4在使用Sqoop的import命令导入数据之前，需要先确定Sqoop调用的SQL语句，根据上一章提出的数据模型设计，采用将维度表和事实表作join操作的方法去编写SQL，具体的SQL语句比较长，这里不再贴出来，以下用CONCRETE_SQL来代替代码中出现的SQL语句。

数据仓库模块5的整体架构主要包括Client、Driver、Matestore、Hadoop四个部分；Client是Hive提供的用户接口，主要包括CLI、WebUI、JDBC、ODBC方式，CLI是Hive提供的命令行接口，WebUI是Hive提供的浏览器访问界面，JDBC和OBDC是Hive通过Java实现的类似数据库的JDBC功能；Driver作为Hive的驱动器，主要包括解析器SQLParser、编译器PhysicalPlan、优化器QueryOptimizer、执行器Execution这几个核心工具；首先解析器将HiveSQL解析成语法树AST，其次编译器对语法树AST进行编译并产生逻辑执行计划，然后通过优化器优化，最后通过执行器把经过优化的逻辑执行计划翻译为MapReduce应用程序；Matestore是Hive的元数据存储，Hive的元数据主要是表的名称和类型、字段名称和类型、数据位置、分区信息，这些元数据通常存储在Mysql和PG关系型数据库中。

元数据管理模块10包括元数据目录和元数据评审；数据开发人员通过元数据目录功能以图形界面的方式对元数据进行展示、搜索、新增、修改和删除操作，并对发生变更的元数据提交评审；数据管理员通过元数据评审功能对发生变更操作的元数据进行评审，判断数据是否存在重复开发和数据模型设计是否合理，只有评审通过后才元数据才会对数据仓库执行更新，元数据管理模块10针对数据仓库中多种来源数据，数据开发人员需要制定词根标准、码值标准和设计开发规范。

数据质量管理模块11包括数据质量检查任务配置和质量检查记录两个功能；在数据质量检查任务配置功能中，***首先会调用getRuleTaskAll()方法把所有的质量检查任务以清单的形式进行展示，当用户点击新增任务后，***会以卡片的形式对空值检查、枚举检查、重复性检查、值域检查、正则检查、码值检查、时效性检查和自定义SQL检查八个数据检查规则进行展示，为方便用户理解规则的应用，在卡片中对每个规则进行了详细描述和举例说明，点击某个检查规则卡片后，***就会跳转到对应的规则任务配置表单页面；质量检查任务在配置完成并启用后,会通过TaskSchedulerUtil类的scheduler()方法定期调度执行，任务执行完成后会生成对应的质量检查记录并存储到质量检查表中，数据管理人员通过数据质量检查记录功能检索关注的数据质量任务运行记录来查看数据质量结果，在质量检查记录中，选择某次运行记录点击查看结果后，***会调用getRecordDetail()方法并传递任务记录ID作为参数进行查询和展示数据质量任务执行结果，展示的信息包含任务名称、规则类型、检查状态、Hive库、检查SQL、检查字段、检查时长、质检总数据量、质量异常数据量、质量分数以及异常数据前五条。

本发明中，数据处理模块3内部的模块将用户所需的数据从数据源抽取之后，对杂乱无章的数据进行清洗，和转换，让它们变成可以被企业所利用的有价值数据并加载到我们事先已经定义好的数据仓库模型中去，为之后的数据挖掘和数据分析工作做支持，从而提高了后续数据处理过程中的便利性与快捷性。

本发明中，数据管理模块6内部的元数据管理模块10通过元数据评审功能对发生变更操作的元数据进行评审，判断数据是否存在重复开发和数据模型设计是否合理，只有评审通过后才元数据才会对数据仓库执行更新，从而对这些标准进行统一管理和维护，来促进数据仓库的数据标准化，保障数据分析应用的准确性和一致性，提高了整体***的安全性和便捷性，同时数据质量管理模块11在用户使用时***首先会调用getRuleTaskAll()方法把所有的质量检查任务以清单的形式进行展示，当用户点击新增任务后，***会以卡片的形式对空值检查、枚举检查、重复性检查、值域检查、正则检查、码值检查、时效性检查和自定义SQL检查八个数据检查规则进行展示，为方便用户理解规则的应用，从而提高了使用时的便利性，提高了人们的工作效率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于Hive的资产管理数据安全保护仓库***，包括电源供电模块(1)、数据源模块(2)、数据处理模块(3)、数据传输模块(4)、数据仓库模块(5)、数据管理模块(6)、开发环境构建模块(7)、数据采集模块(8)、数据转换装载模块(9)、元数据管理模块(10)和数据质量管理模块(11)，其特征在于：所述电源供电模块(1)的输出端连接有所述数据源模块(2)的输入端，所述数据源模块(2)的输出端连接有所述数据处理模块(3)的输入端，所述数据处理模块(3)的输出端连接有所述数据传输模块(4)的输入端，所述数据传输模块(4)的输出端连接有所述数据仓库模块(5)的输入端，所述数据仓库模块(5)的输出端连接有所述数据管理模块(6)的输入端。

2.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库***，其特征在于：所述数据处理模块(3)的内部设置有开发环境构建模块(7)、数据采集模块(8)和数据转换装载模块(9)，所述开发环境构建模块(7)、数据采集模块(8)、数据转换装载模块(9)的整体输出端连接有所述数据处理模块(3)的输入端；

所述数据管理模块(6)的内部设置有元数据管理模块(10)和数据质量管理模块(11)，所述元数据管理模块(10)和数据质量管理模块(11)的整体输出端连接有所述数据管理模块(6)的输入端。

3.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库***，其特征在于：所述数据源模块(2)使用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输工作，该层主要应用Sqoop脚本在特定的时间将线上Oracle中的数据传输到分布式文件***HDFS中，使用Flume将服务器日志产生的日志数据传输到HDFS中；这两部分共同构成了数据仓库的源数据层。

4.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库***，其特征在于：所述开发环境构建模块(7)使用Hive来进行数据的处理和开发工作，利用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输和采集工作；所述开发环境构建模块(7)的步骤包括：(1)Hadoop集群搭建；首先，该Hadoop集群是在虚拟机VirtualBox中，通过CDH下载Cloudera-VM镜像，使用VirtualBox启动虚拟机，最后测试和使用。

5.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库***，其特征在于：所述数据采集模块(8)对业务数据采集和日志数据采集，业务数据采集模块采用Sqoop来采集业务数据；首先Sqoop与业务数据库创建联系，获取业务数据表的Schema，然后通过Import导入功能直接从业务数据库Mysql中抽取数据并传输到Hive数据仓库ODS表中。

6.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库***，其特征在于：所述数据转换装载模块(9)首先是把ODS层数据装载到DIM层和DWD层中，然后再把DIM层数据和DWD层数据装载到DWS层中，数据转换主要包括统一数据编码、清除重复数据、空值填充、统一日期格式和异常值处理；统一数据编码是指不同业务***中同样的数据采用不同的编码，在数据仓库中需要进行统一编码处理，例如性别属性，有些***采用的是M和F，有些***采用的是1和0，有些***采用的是男和女，在数据仓库中统一转换为M和F；清除重复数据是指在业务数据重复录入或者重复采集一些特殊情况下会出现数据重复的问题，数据重复会影响数据统计分析的准确性，所以需要识别并清除重复的数据；空值填充是指在业务***数据表发生调整或者业务数据缺失情况下有的列中会存在空值，对于存在数据缺失的列，字符类型列中的空值通过设置为‘unknown’来进行标识，数值类型列的空值设置为‘-1’。

7.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库***，其特征在于：所述数据传输模块(4)利用Apache的Sqoop工具，结合Linux平台下的Shell编程以及crontab命令来定时执行脚本，使数据的ETL自动化，所述数据传输模块(4)在使用Sqoop的import命令导入数据之前，需要先确定Sqoop调用的SQL语句，根据上一章提出的数据模型设计，采用将维度表和事实表作join操作的方法去编写SQL，具体的SQL语句比较长，这里不再贴出来，以下用CONCRETE_SQL来代替代码中出现的SQL语句。

8.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库***，其特征在于：所述数据仓库模块(5)的整体架构主要包括Client、Driver、Matestore、Hadoop四个部分；Client是Hive提供的用户接口，主要包括CLI、WebUI、JDBC、ODBC方式，CLI是Hive提供的命令行接口，WebUI是Hive提供的浏览器访问界面，JDBC和OBDC是Hive通过Java实现的类似数据库的JDBC功能；Driver作为Hive的驱动器，主要包括解析器SQLParser、编译器PhysicalPlan、优化器QueryOptimizer、执行器Execution这几个核心工具；首先解析器将HiveSQL解析成语法树AST，其次编译器对语法树AST进行编译并产生逻辑执行计划，然后通过优化器优化，最后通过执行器把经过优化的逻辑执行计划翻译为MapReduce应用程序。

9.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库***，其特征在于：所述元数据管理模块(10)包括元数据目录和元数据评审；数据开发人员通过元数据目录功能以图形界面的方式对元数据进行展示、搜索、新增、修改和删除操作，并对发生变更的元数据提交评审；数据管理员通过元数据评审功能对发生变更操作的元数据进行评审，判断数据是否存在重复开发和数据模型设计是否合理，只有评审通过后才元数据才会对数据仓库执行更新，所述元数据管理模块(10)针对数据仓库中多种来源数据，数据开发人员需要制定词根标准、码值标准和设计开发规范。

10.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库***，其特征在于：所述数据质量管理模块(11)包括数据质量检查任务配置和质量检查记录两个功能；在数据质量检查任务配置功能中，***首先会调用getRuleTaskAll()方法把所有的质量检查任务以清单的形式进行展示，当用户点击新增任务后，***会以卡片的形式对空值检查、枚举检查、重复性检查、值域检查、正则检查、码值检查、时效性检查和自定义SQL检查八个数据检查规则进行展示，为方便用户理解规则的应用，在卡片中对每个规则进行了详细描述和举例说明，点击某个检查规则卡片后，***就会跳转到对应的规则任务配置表单页面。