CN109189764A - 一种基于Hive的高校数据仓库分层设计方法 - Google Patents
一种基于Hive的高校数据仓库分层设计方法 Download PDFInfo
- Publication number
- CN109189764A CN109189764A CN201811098136.5A CN201811098136A CN109189764A CN 109189764 A CN109189764 A CN 109189764A CN 201811098136 A CN201811098136 A CN 201811098136A CN 109189764 A CN109189764 A CN 109189764A
- Authority
- CN
- China
- Prior art keywords
- data
- theme
- student
- analysis
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于Hive的高校数据仓库分层设计方法,包括:获取数据,使用ETL工具进行数据抽取,将获取的结构化、非结构化数据同步到Hive平台上;使用Hive构建数据仓库,将数据仓库分为ODS数据存储层、DWD数据明细层、DW数据汇总层、DWA数据应用层;数据仓库建模,确定分析主题,使用维度建模法,使用最小粒度设计维表,设计事实表;设计事实表,分为事实表‑非分区表,和分区事实表。本发明提出的数据仓库分层设计相比其他大数据仓库设计三层分析处理更灵活,可扩展性强,后期可根据业务需求增加相应的分析主题,将Hive大数据平台优点和数据仓库星型模型设计方法高效地结合起来。
Description
技术领域
本发明属于数据库技术领域,具体涉及一种基于Hive的高校数据仓库分层设计方法。
背景技术
随着高校信息***建设的日趋成熟以及管理要求的不断提升,可以引入数据仓库技术对高校信息***数据进行结构重组,针对高校的特点和发展需求,按更有利于决策分析的角度去设计,在数据仓库之上进行数据挖掘等分析,让这些宝贵的数据资源实现真正的信息价值,提高对管理信息数据的利用率,进而提升高校管理水平。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hadoop是一个由Apache基金会所开发的分布式***基础架构。数据仓库(DW,DataWarehouse)是一个面向主题的、集成的、随时间变化的、相对稳定的数据集合,用于支持管理决策。通过构建数据仓库,职能部门可对现有***的数据进行有效的集成并加以重组,建立面向联机分析处理的***,以满足学校对数据的准确掌握、统计分析上报需求,并为数据挖掘和决策支持提供基础。
传统数据仓库主要分为ODS数据存储层(基本上保存全量数据)—DW数据仓库层—DM(Data Market)数据集市层,传统的三层设计构架无法实现增量+全量数据同步方式,是将数据复杂逻辑都放在DW层,灵活性较差。
发明内容
本发明的目的就在于为了背景技术中的缺陷而提出的一种基于Hive的高校数据仓库分层设计方法。
数据仓库是一个面向主题的、集成的、随时间变化的、相对稳定的数据集合,用于支持管理决策。通过构建数据仓库(Data Warehouse),职能部门可对现有***的数据进行有效的集成并加以重组,建立面向联机分析处理的***,以满足学校对数据的准确掌握、统计分析上报需求,并为数据挖掘和决策支持提供基础。一个完整的数据仓库***的定义是:数据仓库***(DWS(Data Warehouse System)=抽取/转换/加载(ETL)+数据仓库(DW)+联机分析处理(OLAP)+数据挖掘(DM)+决策支持(DS)。
随着大数据平台hadoop不断发展,在hadoop平台之上的Hive数据仓库提供了一系列的工具,可以用来进行数据提取转化加载(ETL),其中,ETL是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。基于Hive的高校数据仓库分层设计,能很好地满足高校信息化快速发展和业务数据量的快速增大,并具有很好地的扩展性,既满足当前高校业务管理需求,也为后续业务管理需求提供扩展功能,因此,Hive是最适合数据仓库应用程序的,它可以维护海量数据,而且可以对数据进行挖掘,然后形成意见和报告等。
本发明通过以下技术方案来实现上述目的:
一种基于Hive的高校数据仓库分层设计方法,包括以下步骤:
步骤1,获取数据,从学工***、教务***、一卡通***、资助***、上网行为管理***、校园无线***、人事***、考勤***、门禁***、宿舍管理***、财务***,获取结构化与非结构化的数据;
步骤2,使用ETL(Extract-Transform-Load据提取转化加载)工具进行数据抽取,将获取的结构化、非结构化数据同步到Hive平台上;
步骤3,使用Hive构造数据仓库,将数据仓库分为ODS数据存储层、DWD数据明细层、DW数据汇总层、DWA(Data Warehouse Application)数据应用层;
其中ODS(Operational Data Store操作型数据仓库)数据存储层为数据缓存层,用于存放获取的原始数据,保留一个固定长度时间,不对数据做任何处理;
其中DWD(Data Warehouse Detail)数据明细层用于对ODS数据存储层的数据进行清洗、转码、增量转全量,对表名字与字段名进行统一规范后存储;该层数据粒度与ODS一致,可做为取数、分析、挖掘的基础数据。DWD层转码需要与源***一一对应,禁止维度收敛;
其中DW数据汇总层用于面向主题组织数据,按业务需要构造多维模型数据,进行相关主题域内的数据整合、相关业务的拆分、汇总;从数据粒度来说,这层的数据是汇总级的数据与纵宽表数据,从数据的广度来说,仍然覆盖了所有业务数据;此层还包括维度表,以DIM开头,维度表包括公共维度和业务维度,其中公共维度时间维、区域维等,如学校的专业、班级、院系、学生、商户等维度;
其中DWA数据应用层用于根据业务应用需要构造多维模型数据,所得数据直接用于分析展现,该层也承担专题类数据模型的建设;同时该层也承担专题类数据模型的建设。
步骤4,数据仓库建模,确定分析主题,使用维度建模法,使用最小粒度设计维表,设计事实表;
目前较为流行的数据仓库的建模方法较多,常用的有Inmon所提倡的范式建模法和Kimball所提倡的维度建模法。维度建模法针对各个维做了大量的预处理,通过这些预处理能够极大地提升数据仓库的处理能力,相对于范式建模法来说,在性能上占据了明显的优势;同时维度建模非常直观,紧紧围绕着业务模型,可以直观地反映出业务模型中的业务问题。不需要经过特别的抽象处理即可以完成维度建模。因此高校数据统计服务平台的数据仓库采取维度建模的方式构建。维度建模法采用事实表-维表的方式来构建数据仓库,数据集市、事实表存储实际的数据,维表存储事实表中对象的属性,事实表和维表的关联关系有“星型模型”、“雪花模型”和“混合模型”3种,常用的是“星型模型”,所以采用星型模型来建模。
设计事实表,分为事实表-非分区表,和分区事实表。
本发明进一步改进在于,步骤2具体包括以下步骤:
步骤2.1,ETL工具选择开源Kettle或者Sqoop;
步骤2.2,抽取方式的选择,针对数据量少,改动量大的数据源采用全量同步抽取,对数据量大,改动小的数据源采取增量同步抽取;
基于源表日期时间戳或者更新时间作为分区字段,按照时间分区进行增量抽取,若没有时间类型字段则采用全量抽取;增量+全量同步抽取,充分利用Hive数据仓库分区表的优势;
步骤2.3,对数据进行规范化、验证、清洗;
步骤2.4,记录ETL抽取的日志;
步骤2.5,ETL工具发出异常通知时,使用ETL内置工具捕捉后发送邮件给维护人员。
本发明进一步改进在于,步骤4包括以下分步骤:
步骤4.1,确定分析主题,所述分析主题包括一个公共维度主题,还包括学生主题、学业主题、宿舍主题、消费主题、资助主题、门禁主题、考勤主题、无线主题、上网主题;
公共维度主题包括时间维度、区域维度、国标及校标维度;在不同的应用场景可以使用视图形式转换为具体的分析维度,国标和校标主要用来解决在数据集成过程中的一致性问题;
步骤4.2,使用最小粒度来设计维表,选取维度时将实体作为一个对象,把与该对象相关的重要属性提取,作为独立维度;确定分析粒度,通俗地说就是分析对象的详细程度。为了满足分析的可扩展性及需求的多样性,以最小粒度来设计数据模型总是能达到最好的析效果,如:记录每个学生的明细情况、消费明细数据精确到具体消费时分秒最新粒度数据。
步骤4.3,设计事实表,分区事实表内存放改动小,数据量大的数据;事实表-非分区表存放学生基础信息。
分区事实表中高校大部分***数据改动较小但数据量大,诸如一卡通消费和上网行为日志等,按照时间分区存储,包含日期day_id,月份month_id和年份year_id,此部分充分地利用Hive数据仓库平台的分区表优势实现对数据的增量抽取;
事实表-非分区表:针对例如学生基本信息等基础信息,采用全量抽取的方式进行,从而很好地针对高校业务场景实现全量+增量的混合同步抽取模式。
本发明进一步改进在于,学生主题核心内容是学生的基本情况,具体分析学生所在生源地、性别、民族、政治面貌、健康状况、班级、专业、院系、学年、学制、学历;
其中学业主题核心内容是学生成绩学习信息,具体分析学生课程信息、成绩、学分、绩点、学习时长和图书借阅信息;
其中宿舍主题核心内容是学生住宿信息,具体分析包括学生所在宿舍楼、房间号、床位和宿舍用电情况;
其中消费主题核心内容是学生一卡通消费情况,具体分析学生在食堂、超市、图书馆、水果店、开水房、机房、医院、浴室消费类型的整体情况;
其中资助主题核心内容是学生获得奖助信息情况,具体分析包括奖学金、助学金、助学贷款、勤工助学、学费减免类型的资助情况;
其中门禁主题核心内容是学生的出入通行情况,具体分析模块包括宿舍进出门禁数据、图书馆进出门禁数据;
其中考勤主题核心内容为学生上课情况,具体分析包括是否按时上课,出勤率、迟到、早退,旷课情况;
其中无线主题核心内容为学生行为轨迹,通过学生连接上网终端的时间和位置,分析学生一天中的行为轨迹,例如宿舍-食堂-教学楼-图书馆-食堂—开水房—浴室类似的行为轨迹;
其中上网主题核心为学生上网行为情况,具体分析包括上网时长、上网类型、上网偏好、搜索关键词。
本方案制定数据仓库标准,基于数据仓库元数据管理,依据高校业务制定相应的数据规范与标准,并描述到数据仓库分层表设计中,从规范数据源入口,到数据应用层对外接口出口,实现数据的规范性、一致性和有效性。
本发明有益效果在于,相比传统的数据仓库结构,传统数据仓库主要分为ODS数据存储层-DW数据仓库层-DM数据集市层,传统的三层设计构架无法实现增量+全量数据同步方式,是将数据复杂逻辑都放在DW层,灵活性较差。本发明采用四层设计方案,较其他大数据仓库设计三层分析处理更灵活,可扩展性强,后期可根据业务需求增加相应的分析主题,将Hive大数据平台优点和数据仓库星型模型设计方法高效地结合起来。
附图说明
图1是本发明的整体结构示意图。
具体实施方式
下面结合附图对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。
实施例1
如图1,为一种高校数据仓库框架,整个框架分为四层,分别是数据源、数据存储层、数据分析层与数据应用层。
其中数据源包括来自学校各***的数据,格式包括结构化的表格和非结构化的日志数据;
ETL工具如Sqoop工具或开源kettle,将数据源中数据清洗、转换、加载到Hadoop分布式平台上,使用Hdfs(分布式文件***)分布式存储,Hive分布式处理;
通过Hive工具将数据存储层的数据建立数据仓库即数据分析层,其中数据仓库分为ODS数据存储层、DWD数据明细层、DW数据汇总层、DWA数据应用层;
其中ODS数据存储层为数据缓存层,用于存放获取的原始数据,保留一个固定长度时间,不对数据做任何处理;
其中DWD(detail)数据明细层用于对ODS数据存储层的数据进行清洗、转码、增量转全量,对表名字与字段名进行统一规范后存储;
其中DW数据汇总层用于面向主题组织数据,按业务需要构造多维模型数据,进行相关主题域内的数据整合、相关业务的拆分、汇总;包括DW主题表和DIM维度表;
其中DWA数据应用层用于根据业务应用需要构造多维模型数据,所得数据直接用于分析展现,该层也承担专题类数据模型的建设;
其中DWD层的运作具体包括以下步骤:
步骤S2.1,ETL工具选择开源Kettle或者Sqoop;
步骤S2.2,抽取方式的选择,针对数据量少,改动量大的数据源采用全量同步抽取,对数据量大,改动小的数据源采取增量同步抽取;
基于源表日期时间戳或者更新时间作为分区字段,按照时间分区进行增量抽取,若没有时间类型字段则采用全量抽取;增量+全量同步抽取,充分利用Hive数据仓库分区表的优势;
步骤S2.3,对数据进行规范化、验证、清洗;
步骤S2.4,记录ETL抽取的日志;
步骤S2.5,ETL工具发出异常通知时,使用ETL内置工具捕捉后发送邮件给维护人员。
完成数据分析层设计后,使用Hive工具对数据仓库进行建模,包括以下分步骤:
步骤S4.1,确定分析主题,所述分析主题包括一个公共维度主题,还包括学生主题、学业主题、宿舍主题、消费主题、资助主题、门禁主题、考勤主题、无线主题、上网主题;
公共维度主题包括时间维度、区域维度、国标及校标维度;
步骤S4.2,使用最小粒度来设计维表,选取维度时将实体作为一个对象,把与该对象相关的重要属性提取,作为独立维度;
步骤S4.3,设计事实表,分区事实表内存放改动小,数据量大的数据;事实表-非分区表存放学生基础信息。
建模后的数据,可以通过ETL工具提交给联机分析处理OLAP、数据挖掘DM、决策支持DS使用,根据主题不同,得出合理的结论。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (4)
1.一种基于Hive的高校数据仓库分层设计方法,其特征在于,包括以下步骤:
步骤1,获取数据,从学工***、教务***、一卡通***、资助***、上网行为管理***、校园无线***、人事***、考勤***、门禁***、宿舍管理***、财务***,获取结构化与非结构化的数据;
步骤2,使用ETL工具进行数据抽取,将获取的结构化、非结构化数据同步到Hive平台上;
步骤3,使用Hive构造数据仓库,将数据仓库分为ODS数据存储层、DWD数据明细层、DW数据汇总层、DWA数据应用层;
其中ODS数据存储层为数据缓存层,用于存放获取的原始数据,保留一个固定长度时间,不对数据做任何处理;
其中DWD数据明细层用于对ODS数据存储层的数据进行清洗、转码、增量转全量,对表名字与字段名进行统一规范后存储;
其中DW数据汇总层用于面向主题组织数据,按业务需要构造多维模型数据,进行相关主题域内的数据整合、相关业务的拆分、汇总;
其中DWA数据应用层用于根据业务应用需要构造多维模型数据,所得数据直接用于分析展现,该层也承担专题类数据模型的建设;
步骤4,数据仓库建模,确定分析主题,使用维度建模法,使用最小粒度设计维表,设计事实表;
设计事实表,分为事实表-非分区表,和分区事实表。
2.根据权利要求1所述的一种基于Hive的高校数据仓库分层设计方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1,ETL工具选择开源Kettle或者Sqoop;
步骤2.2,抽取方式的选择,针对数据量少,改动量大的数据源采用全量同步抽取,对数据量大,改动小的数据源采取增量同步抽取;
基于源表日期时间戳或者更新时间作为分区字段,按照时间分区进行增量抽取,若没有时间类型字段则采用全量抽取;
步骤2.3,对数据进行规范化、验证、清洗;
步骤2.4,记录ETL抽取的日志;
步骤2.5,ETL工具发出异常通知时,使用ETL内置工具捕捉后发送邮件给维护人员。
3.根据权利要求1所述的一种基于Hive的高校数据仓库分层设计方法,其特征在于,步骤4包括以下分步骤:
步骤4.1,确定分析主题,所述分析主题包括一个公共维度主题,还包括学生主题、学业主题、宿舍主题、消费主题、资助主题、门禁主题、考勤主题、无线主题、上网主题;
公共维度主题包括时间维度、区域维度、国标及校标维度;
步骤4.2,使用最小粒度来设计维表,选取维度时将实体作为一个对象,把与该对象相关的重要属性提取,作为独立维度;
步骤4.3,设计事实表,分区事实表内存放改动小,数据量大的数据;事实表-非分区表存放学生基础信息。
4.根据权利要求3所述的一种基于Hive的高校数据仓库分层设计方法,其特征在于,学生主题核心内容是学生的基本情况,具体分析学生所在生源地、性别、民族、政治面貌、健康状况、班级、专业、院系、学年、学制、学历;
其中学业主题核心内容是学生成绩学习信息,具体分析学生课程信息、成绩、学分、绩点、学习时长和图书借阅信息;
其中宿舍主题核心内容是学生住宿信息,具体分析包括学生所在宿舍楼、房间号、床位和宿舍用电情况;
其中消费主题核心内容是学生一卡通消费情况,具体分析学生在食堂、超市、图书馆、水果店、开水房、机房、医院、浴室消费类型的整体情况;
其中资助主题核心内容是学生获得奖助信息情况,具体分析包括奖学金、助学金、助学贷款、勤工助学、学费减免类型的资助情况;
其中门禁主题核心内容是学生的出入通行情况,具体分析模块包括宿舍进出门禁数据、图书馆进出门禁数据;
其中考勤主题核心内容为学生上课情况,具体分析包括是否按时上课,出勤率、迟到、早退,旷课情况;
其中无线主题核心内容为学生行为轨迹,通过学生连接上网终端的时间和位置,分析学生一天中的行为轨迹,例如宿舍-食堂-教学楼-图书馆-食堂—开水房—浴室类似的行为轨迹;
其中上网主题核心为学生上网行为情况,具体分析包括上网时长、上网类型、上网偏好、搜索关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811098136.5A CN109189764A (zh) | 2018-09-20 | 2018-09-20 | 一种基于Hive的高校数据仓库分层设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811098136.5A CN109189764A (zh) | 2018-09-20 | 2018-09-20 | 一种基于Hive的高校数据仓库分层设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109189764A true CN109189764A (zh) | 2019-01-11 |
Family
ID=64908571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811098136.5A Pending CN109189764A (zh) | 2018-09-20 | 2018-09-20 | 一种基于Hive的高校数据仓库分层设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189764A (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119391A (zh) * | 2019-05-14 | 2019-08-13 | 重庆八戒传媒有限公司 | 一种基于服务数据的数据仓库创建方法及数据仓库 |
CN110222123A (zh) * | 2019-04-24 | 2019-09-10 | 深圳点猫科技有限公司 | 用于教育平台的Hive动态分区加载的方法及电子设备 |
CN110263052A (zh) * | 2019-06-25 | 2019-09-20 | 苏宁消费金融有限公司 | 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 |
CN110334088A (zh) * | 2019-07-11 | 2019-10-15 | 江苏曲速教育科技有限公司 | 教育数据管理*** |
CN110850824A (zh) * | 2019-11-12 | 2020-02-28 | 北京矿冶科技集团有限公司 | 一种将分布式控制***数据采集至Hadoop平台的实现方法 |
CN111008234A (zh) * | 2019-11-27 | 2020-04-14 | 杭州安恒信息技术股份有限公司 | 基于网络安全数据治理的数仓处理方法 |
CN111143465A (zh) * | 2019-12-11 | 2020-05-12 | 深圳市中电数通智慧安全科技股份有限公司 | 一种数据中台的实现方法、装置以及电子设备 |
CN111259068A (zh) * | 2020-04-28 | 2020-06-09 | 成都四方伟业软件股份有限公司 | 一种基于数据仓库的数据开发方法及*** |
CN111460045A (zh) * | 2020-03-02 | 2020-07-28 | 心医国际数字医疗***(大连)有限公司 | 数据仓库建设的建模方法、模型、计算机设备和存储介质 |
CN111461621A (zh) * | 2020-04-13 | 2020-07-28 | 郑州工程技术学院 | 基于分布式的学校财务管理***、方法、设备及存储介质 |
CN111475528A (zh) * | 2020-03-23 | 2020-07-31 | 深圳市酷开网络科技有限公司 | 一种基于ott的数据仓储构建方法、设备及存储介质 |
CN111639121A (zh) * | 2020-04-07 | 2020-09-08 | 国网新疆电力有限公司 | 一种构建客户画像的大数据平台及构建方法 |
CN111680108A (zh) * | 2019-03-11 | 2020-09-18 | 杭州海康威视数字技术股份有限公司 | 一种数据存储方法、装置及一种数据获取方法、装置 |
CN111694810A (zh) * | 2019-03-12 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 数据仓库的创建方法、装置、电子设备及可读存储介质 |
CN112084182A (zh) * | 2020-09-10 | 2020-12-15 | 重庆富民银行股份有限公司 | 一种用于数据集市和数据仓库的数据建模方法 |
CN112148807A (zh) * | 2020-09-28 | 2020-12-29 | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) | 一种电磁环境领域数据仓库构建方法 |
CN112231301A (zh) * | 2020-10-21 | 2021-01-15 | 黄河水利委员会黄河水利科学研究院 | 黄河水沙变化数据仓库 |
CN112380218A (zh) * | 2020-11-18 | 2021-02-19 | 浪潮天元通信信息***有限公司 | 一种基于etl进行数据仓库各层数据表汇总的自动触发方法 |
CN112687097A (zh) * | 2020-11-16 | 2021-04-20 | 招商新智科技有限公司 | 一种高速公路路段级数据中台*** |
CN112699118A (zh) * | 2020-12-25 | 2021-04-23 | 京东方科技集团股份有限公司 | 数据同步方法及相应的装置、***、存储介质 |
CN112860659A (zh) * | 2021-01-18 | 2021-05-28 | 北京奇艺世纪科技有限公司 | 数据仓库的构建方法、装置、设备及存储介质 |
CN112966024A (zh) * | 2021-03-12 | 2021-06-15 | 江苏苏伦大数据科技研究院有限公司 | 一种基于大数据的金融风控数据分析*** |
CN112988919A (zh) * | 2021-04-30 | 2021-06-18 | 广东电网有限责任公司 | 一种电网数据集市构建方法、***、终端设备及存储介质 |
CN113486096A (zh) * | 2021-06-21 | 2021-10-08 | 上海百秋电子商务有限公司 | 一种多库定时执行报表数据预处理及查询方法、*** |
CN113515362A (zh) * | 2021-07-12 | 2021-10-19 | 广州云从洪荒智能科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN114385121A (zh) * | 2022-01-13 | 2022-04-22 | 浙江工企信息技术股份有限公司 | 一种基于业务分层的软件设计建模方法及*** |
CN114546415A (zh) * | 2022-02-22 | 2022-05-27 | 华能招标有限公司 | 一种用于云平台大数据储存优化分析*** |
CN114595294A (zh) * | 2022-03-11 | 2022-06-07 | 北京梦诚科技有限公司 | 一种数据仓库建模和抽取方法及*** |
CN114880405A (zh) * | 2022-03-31 | 2022-08-09 | 华能信息技术有限公司 | 一种基于数据湖的数据处理方法及*** |
CN115618842A (zh) * | 2022-12-15 | 2023-01-17 | 浙江蓝鸽科技有限公司 | 一体化智慧校园数据中台*** |
CN116737846A (zh) * | 2023-05-31 | 2023-09-12 | 深圳华夏凯词财富管理有限公司 | 一种基于Hive的资产管理数据安全保护仓库*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101197876A (zh) * | 2006-12-06 | 2008-06-11 | 中兴通讯股份有限公司 | 一种对消息类业务数据进行多维分析的方法和*** |
US8417715B1 (en) * | 2007-12-19 | 2013-04-09 | Tilmann Bruckhaus | Platform independent plug-in methods and systems for data mining and analytics |
CN104915456A (zh) * | 2015-07-03 | 2015-09-16 | 宁夏隆基宁光仪表有限公司 | 一种基于数据分析***下的海量用电数据挖掘方法 |
CN105184642A (zh) * | 2015-09-02 | 2015-12-23 | 浪潮软件集团有限公司 | 一种综合治税平台 |
WO2017040209A1 (en) * | 2015-08-31 | 2017-03-09 | BloomReach, Inc. | Data preparation for data mining |
CN108280084A (zh) * | 2017-01-06 | 2018-07-13 | 上海前隆信息科技有限公司 | 一种数据仓库的构建方法、***及服务器 |
-
2018
- 2018-09-20 CN CN201811098136.5A patent/CN109189764A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101197876A (zh) * | 2006-12-06 | 2008-06-11 | 中兴通讯股份有限公司 | 一种对消息类业务数据进行多维分析的方法和*** |
US8417715B1 (en) * | 2007-12-19 | 2013-04-09 | Tilmann Bruckhaus | Platform independent plug-in methods and systems for data mining and analytics |
CN104915456A (zh) * | 2015-07-03 | 2015-09-16 | 宁夏隆基宁光仪表有限公司 | 一种基于数据分析***下的海量用电数据挖掘方法 |
WO2017040209A1 (en) * | 2015-08-31 | 2017-03-09 | BloomReach, Inc. | Data preparation for data mining |
CN105184642A (zh) * | 2015-09-02 | 2015-12-23 | 浪潮软件集团有限公司 | 一种综合治税平台 |
CN108280084A (zh) * | 2017-01-06 | 2018-07-13 | 上海前隆信息科技有限公司 | 一种数据仓库的构建方法、***及服务器 |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680108A (zh) * | 2019-03-11 | 2020-09-18 | 杭州海康威视数字技术股份有限公司 | 一种数据存储方法、装置及一种数据获取方法、装置 |
CN111680108B (zh) * | 2019-03-11 | 2023-11-03 | 杭州海康威视数字技术股份有限公司 | 一种数据存储方法、装置及一种数据获取方法、装置 |
CN111694810A (zh) * | 2019-03-12 | 2020-09-22 | 阿里巴巴集团控股有限公司 | 数据仓库的创建方法、装置、电子设备及可读存储介质 |
CN111694810B (zh) * | 2019-03-12 | 2024-04-05 | 阿里巴巴集团控股有限公司 | 数据仓库的创建方法、装置、电子设备及可读存储介质 |
CN110222123A (zh) * | 2019-04-24 | 2019-09-10 | 深圳点猫科技有限公司 | 用于教育平台的Hive动态分区加载的方法及电子设备 |
CN110119391A (zh) * | 2019-05-14 | 2019-08-13 | 重庆八戒传媒有限公司 | 一种基于服务数据的数据仓库创建方法及数据仓库 |
CN110263052A (zh) * | 2019-06-25 | 2019-09-20 | 苏宁消费金融有限公司 | 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 |
CN110263052B (zh) * | 2019-06-25 | 2021-07-20 | 苏宁消费金融有限公司 | 一种基于大数据Hadoop平台ODS自动化同步技术创新方法 |
CN110334088A (zh) * | 2019-07-11 | 2019-10-15 | 江苏曲速教育科技有限公司 | 教育数据管理*** |
CN110850824A (zh) * | 2019-11-12 | 2020-02-28 | 北京矿冶科技集团有限公司 | 一种将分布式控制***数据采集至Hadoop平台的实现方法 |
CN111008234A (zh) * | 2019-11-27 | 2020-04-14 | 杭州安恒信息技术股份有限公司 | 基于网络安全数据治理的数仓处理方法 |
CN111143465A (zh) * | 2019-12-11 | 2020-05-12 | 深圳市中电数通智慧安全科技股份有限公司 | 一种数据中台的实现方法、装置以及电子设备 |
CN111460045A (zh) * | 2020-03-02 | 2020-07-28 | 心医国际数字医疗***(大连)有限公司 | 数据仓库建设的建模方法、模型、计算机设备和存储介质 |
CN111475528A (zh) * | 2020-03-23 | 2020-07-31 | 深圳市酷开网络科技有限公司 | 一种基于ott的数据仓储构建方法、设备及存储介质 |
CN111639121A (zh) * | 2020-04-07 | 2020-09-08 | 国网新疆电力有限公司 | 一种构建客户画像的大数据平台及构建方法 |
CN111461621A (zh) * | 2020-04-13 | 2020-07-28 | 郑州工程技术学院 | 基于分布式的学校财务管理***、方法、设备及存储介质 |
CN111259068A (zh) * | 2020-04-28 | 2020-06-09 | 成都四方伟业软件股份有限公司 | 一种基于数据仓库的数据开发方法及*** |
CN112084182A (zh) * | 2020-09-10 | 2020-12-15 | 重庆富民银行股份有限公司 | 一种用于数据集市和数据仓库的数据建模方法 |
CN112148807A (zh) * | 2020-09-28 | 2020-12-29 | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) | 一种电磁环境领域数据仓库构建方法 |
CN112231301A (zh) * | 2020-10-21 | 2021-01-15 | 黄河水利委员会黄河水利科学研究院 | 黄河水沙变化数据仓库 |
CN112687097A (zh) * | 2020-11-16 | 2021-04-20 | 招商新智科技有限公司 | 一种高速公路路段级数据中台*** |
CN112380218B (zh) * | 2020-11-18 | 2023-03-28 | 浪潮通信信息***有限公司 | 一种基于etl进行数据仓库各层数据表汇总的自动触发方法 |
CN112380218A (zh) * | 2020-11-18 | 2021-02-19 | 浪潮天元通信信息***有限公司 | 一种基于etl进行数据仓库各层数据表汇总的自动触发方法 |
CN112699118A (zh) * | 2020-12-25 | 2021-04-23 | 京东方科技集团股份有限公司 | 数据同步方法及相应的装置、***、存储介质 |
CN112860659A (zh) * | 2021-01-18 | 2021-05-28 | 北京奇艺世纪科技有限公司 | 数据仓库的构建方法、装置、设备及存储介质 |
CN112860659B (zh) * | 2021-01-18 | 2023-09-01 | 北京奇艺世纪科技有限公司 | 数据仓库的构建方法、装置、设备及存储介质 |
CN112966024A (zh) * | 2021-03-12 | 2021-06-15 | 江苏苏伦大数据科技研究院有限公司 | 一种基于大数据的金融风控数据分析*** |
CN112988919A (zh) * | 2021-04-30 | 2021-06-18 | 广东电网有限责任公司 | 一种电网数据集市构建方法、***、终端设备及存储介质 |
CN113486096A (zh) * | 2021-06-21 | 2021-10-08 | 上海百秋电子商务有限公司 | 一种多库定时执行报表数据预处理及查询方法、*** |
CN113515362A (zh) * | 2021-07-12 | 2021-10-19 | 广州云从洪荒智能科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN113515362B (zh) * | 2021-07-12 | 2023-10-20 | 广州云从洪荒智能科技有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN114385121A (zh) * | 2022-01-13 | 2022-04-22 | 浙江工企信息技术股份有限公司 | 一种基于业务分层的软件设计建模方法及*** |
CN114546415A (zh) * | 2022-02-22 | 2022-05-27 | 华能招标有限公司 | 一种用于云平台大数据储存优化分析*** |
CN114595294A (zh) * | 2022-03-11 | 2022-06-07 | 北京梦诚科技有限公司 | 一种数据仓库建模和抽取方法及*** |
CN114880405A (zh) * | 2022-03-31 | 2022-08-09 | 华能信息技术有限公司 | 一种基于数据湖的数据处理方法及*** |
CN115618842A (zh) * | 2022-12-15 | 2023-01-17 | 浙江蓝鸽科技有限公司 | 一体化智慧校园数据中台*** |
CN116737846A (zh) * | 2023-05-31 | 2023-09-12 | 深圳华夏凯词财富管理有限公司 | 一种基于Hive的资产管理数据安全保护仓库*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189764A (zh) | 一种基于Hive的高校数据仓库分层设计方法 | |
Sun et al. | Urban spatial structure and commute duration: An empirical study of China | |
Zhong et al. | Research on China's tourism: A 35‐year review and authorship analysis | |
Mađer et al. | Analysis of possibilities for linking land registers and other official registers in the Republic of Croatia based on LADM | |
CN106294888A (zh) | 一种基于时空数据库的对象数据的订阅方法 | |
CN109189863A (zh) | 一种描述事物时间属性并基于所述描述进行查找的方法 | |
CN103617585A (zh) | 一种基于共享数据平台的数据处理方法 | |
Brock | Regional growth in Russia during the 1990s—what role did FDI play? | |
Bai et al. | Intelligent platform for real-time page view statistics using educational big data digital resource sharing | |
CN105956177A (zh) | 数据处理平台及方法 | |
Li | [Retracted] Innovation and Development of University Education Management Informationization in the Environment of Wireless Communication and Big Data | |
Zhuang et al. | [Retracted] Digital Management and Optimization of Tourism Information Resources Based on Machine Learning | |
Arnaboldi et al. | Studying multicultural diversity of cities and neighborhoods through social media language detection | |
Meng | College Student Management System Design Using Computer Aided System | |
CN107944845A (zh) | 一种通过文化云平台进行团体管理的方法及装置 | |
CN114385369A (zh) | 基于大数据分析和云计算的交通运输从业人员教育平台 | |
Zhang | A campus big-data platform architecture for data mining and business intelligence in education institutes | |
Hu et al. | Research on smart education service platform based on big data | |
Mohammed et al. | Metadata technique with E-government for Malaysian Universities | |
Fadahunsi | A perspective view on the development and applications of Geographical Information System (GIS) in Nigeria | |
Ye et al. | Geography of social media in public response to policy-based topics | |
Otcheskiy et al. | Developing tourist destination potential under influence of internal and external factors | |
Alquier et al. | knowIT, a semantic informatics knowledge management system | |
Pham et al. | Data warehousing for lifelong learning analytics | |
Wenkai | A study of labor mobility in China |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 1218, 12th floor, building 8, East District, yard 9, Linglong Road, Haidian District, Beijing 100089 Applicant after: BEIJING TAOHUADAO INFORMATION TECHNOLOGY Co.,Ltd. Address before: Room 1503, Yanshan Hotel, No. 38 Guancun Avenue, Haidian District, Beijing Applicant before: BEIJING TAOHUADAO INFORMATION TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |
|
RJ01 | Rejection of invention patent application after publication |