CN111881126A - 一种大数据管理*** - Google Patents

一种大数据管理*** Download PDF

Info

Publication number
CN111881126A
CN111881126A CN202010774634.8A CN202010774634A CN111881126A CN 111881126 A CN111881126 A CN 111881126A CN 202010774634 A CN202010774634 A CN 202010774634A CN 111881126 A CN111881126 A CN 111881126A
Authority
CN
China
Prior art keywords
data
module
metadata
submodule
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010774634.8A
Other languages
English (en)
Inventor
林立磐
潘仲毅
彭子非
陈朝晖
刘智国
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Information & Engineering Co ltd
Original Assignee
Guangdong Information & Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Information & Engineering Co ltd filed Critical Guangdong Information & Engineering Co ltd
Priority to CN202010774634.8A priority Critical patent/CN111881126A/zh
Publication of CN111881126A publication Critical patent/CN111881126A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据管理***,包括:数据连接模块以及数据融合模块;所述数据连接模块包括数据库连接子模块和文件数据源连接子模块;所述数据库连接子模块,用于与各不同类型的数据库进行连接,并从各所述数据库中提取数据;所述文件数据连接子模块,用于接收各不同文件格式的数据文件,并从各所述数据文件中提取数据;所述数据融合模块,用于根据标准数据规则对从各数据源提取的数据进行数据标准化处理。通过实施本发明实施例能够提高数据利用率。

Description

一种大数据管理***
技术领域
本发明涉及数据处理技术领域,尤其涉及一种大数据管理***。
背景技术
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大量消费者提供产品或服务的企业可以利用大数据进行精准营销。
但大数据的各个数据源分散,而且存在数据异构问题,导致在实际对数据应用的过程中数据利用率低。
发明内容
本发明实施例提供一种大数据管理***,能对各数据源的数据进行归集,并对异构数据进行数据标准化处理,提高数据利用率。
本发明一实施例提供一种大数据管理***,包括:数据连接模块以及数据融合模块;所述数据连接模块包括数据库连接子模块和文件数据源连接子模块;
所述数据库连接子模块,用于与各不同类型的数据库进行连接,并从各所述数据库中提取数据;
所述文件数据连接子模块,用于接收各不同文件格式的数据文件,并从各所述数据文件中提取数据;
所述数据融合模块,用于根据所述标准数据规则对从各数据源提取的数据进行数据标准化处理。
进一步的,还包括数据建模模块;所述数据建模模块,用于建立不同类型的数据模型。
进一步的,还包括更新策略配置模块、数据更新模块以及更新进度监测模块;
所述更新策略配置模块,用于响应用户的数据更新配置操作,生成数据更新策略;所述数据更新模块,用于根据所述数据更新策略,对数据进行数据更新。所述更新进度监测模块,用于实时监测数据更新的执行进度。
进一步的,还包括业务包管理模块及业务包权限管理模块;
所述业务包管理模块,用于响应用户的数据分类操作,将各数据分类存储在不同名称的文件夹中,并在用户界面将各文件夹的名称及图案标识进行显示;
所述业务包权限管理模块,用于配置各不同用户对各所述文件夹及各所述文件夹内的数据的操作权限。
进一步的,还包括元数据管理模块;所述元数据管理模块包括元数据设置子模块、元数据校验子模块以及元数据查看子模块;
所述元数据设置子模块,用于设置元数据的名称、元数据描述信息以及元数据绑定数据标准;
所述元数据校验子模块,用于根据元数据的数据规则对元数据进行校验;
所述元数据查看子模块,用于响应用户的元数据查询操作,对选定元数据的数据详情进行展示。
进一步的,还包括数据溯源模块;所述数据溯源模块,用于响应用户的数据溯源操作,以图形化的方式对选定数据的数据来源进行展示。
进一步的,还包括数据质量检测模块,所述数据质量监测模块,用于在预设的时间节点根据所述标准数据规则对数据进行校验。
通过实施本发明的实施例具有如下有益效果:
本发明实施例提供了一种大数据管理***,所述***包括了数据连接模块以及数据融合模块;通过数据连接模块对各数据源的数据进行提取,实现多源数据的汇集,其次通过数据融合模块,对多源数据进行数据标准化处理解决数据异构问题,从而提高了后期数据的利用效率。
附图说明
图1是本发明一实施例提供的一种大数据管理***的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供了一种大数据管理***,包括数据连接模块以及数据融合模块;所述数据连接模块包括数据库连接子模块和文件数据源连接子模块;
所述数据库连接子模块,用于与各不同类型的数据库进行连接,并从各所述数据库中提取数据;
所述文件数据连接子模块,用于接收各不同文件格式的数据文件,并从各所述数据文件中提取数据;
所述数据融合模块,用于根据所述标准数据规则对从各数据源提取的数据进行数据标准化处理。
具体的,上述不同类型的数据库包括但不限于以下几种数据库的任意组合:Oracle、DB2、MySQL、SQLServer、金仓KingbaseES、达梦等主流关系数据库;HadoopHive、SPARK、华为FusionSight等大数据平台;MongoDB、Redis等NOSQL数据库;Greenplum、TeraData等MPP数据库;BW、IntersystemsCache等多维数据库。在本发明中数据库连接子模块,设置有类型的数据库接口,当用户执行某一数据库连接操作时,通过对应的数据库接口进行数据库的连接,从数据库中提取数据。
不同文件格式的数据文件包括但不限于以下几种文件格式的数据文件的任意组合:EXCEL文件、TXT文件以及CSV文件等;在本发明中文件数据连接子模块,接收用户导入的各种格式的数据文件,对文件的后缀名进行提取,识别所导入的文件类型,然后根据文件的类型进行文件数据的提取;
在一个优选的实施例中,数据连接模块还包括服务数据源连接子模块;服务数据源连接子模块用于连接Webservice、JSON等服务数据源,从而提取数据。
对于数据融合模块,在本发明所公开的大数据管理***中设置有,标准数据规则配置界面,用户可以在该界面上通过手动输入或点选的方式进行标准数据规则的配置,所配置的标准数据规则可以包括以下任意一项或多项组合:数据格式、表达式、数据范围(数据精度范围)、数据一致性、数据完整性以及数据的唯一性。
用户完成标准数据规则的配置之后,由数据融合模块按标准数据规则对多源数据进行数据格式转换,数据清洗等操作,解决多源数据的数据异构问题。
在一个优选的实施例中,所述大数据管理***还包括数据建模模块;所述数据建模模块,用于建立不同类型的数据模型。
具体的,不同类型的数据模型包括以下多个数据集模型的任意组合:库表数据集模型,文件数据集模型,SQL数据集模型和自定义数据集模型;
对于库表数据集模型,数据建模模块将多源数据进行数据归集,按各不同数据库的数据库表结构要求,生成数据库表;例如在关系数据库中,数据库表的结构是一系列二维数组的集合,用来代表和储存数据对象之间的关系。它由纵向的列和横向的行组成,例如一个有关作者信息的名为authors的表中,每个列包含的是所有作者的某个特定类型的信息,比如“姓氏”,而每行则包含了某个特定作者的所有信息:姓、名、住址等。那么在构建库表数据集模型时,数据建模模块会按照关系数据库的库表结构要求,将数据归集成与关系库的库表结构一致的库表数据。多张库表数据可形成上述库表数据集,从而完成库表数据模型的构建,且在构建过程中,数据建模模块并可响应用户的数据复制操作,对单张或多张库表数据进行复制。
对于文件数据集模型,数据建模模块将各数据按预设的文件格式,生成数据文件,多个数据文件形成文件数据集,从而完成文件数据集模型的构建。在构建文件数据模型的过程中,数据建模模块可响应用户的数据导入与数据追加操作,对形成所形成的文件数据记性数据添加。
对于SQL数据集模型,数据建模模块通过响应用户输入的SQL语句对存储的数据进行提取,形成对应的数据表,从而完成SQL数据集模型的构建。
对于自定义数据集模型,数据建模模块会生成一个自定义数据模型创建界面,所述自定义数据模型创建界面中包括若干图形化组件以及编辑界面,每个图形化组件都用于标识对应的一种数据处理操作,用户将图形化组件拖放至编辑界面后,数据建模模块,会根据图形化组件所标识的数据操作,对数据处理,然后输出,从而完成自定义数据的生成,进而完成自定义数据集模型的构建。优选的图像化组件包括以下任意一种或多种组合:字段选择组件、数据过滤组件、剪切字符串组件、行列互转组件、去除重复记录组件、值映射组件、计算器组件、字符串替换组件以及合并记录。
在一个优选的实施例中,上述大数据管理***还包括更新策略配置模块、数据更新模块以及更新进度监测模块;
在本发明中更新策略配置模块会生成一个策略配置界面,用户在该界面配置数据更新的策略,更新策略中包括数据的更新时间以及更新范围:具体的更新时间支持定时、手动随时、延时更新三种,定时支持月、周、日、时/分/秒;更新范围支持全量、增量更新,增量默认新增,并可设置是否同步修改、删除。用于可以在策略配置界面手动输入或点选更新的时间和更新范围,然后更新策略配置模块根据用户所输入或点选的更新的时间和更新范围生成数据更新策略;
数据更新模块根据更新策略内的更新时间和更新范围,在更新时间到来时对更新范围内的数据进行数据更新。
在更新过程中,更新进度监测模型对每条更新策略的执行进度进行监测,一旦出现更新出错,则进行告警提示。
在一个优选的实施例中,上述大数据管理***还包括业务包管理模块及业务包权限管理模块;
所述业务包管理模块,用于响应用户的数据分类操作,将各数据分类存储在不同名称的文件夹中,并在用户界面将各文件夹的名称及图案标识进行显示;
所述业务包权限管理模块,用于配置各不同用户对各所述文件夹及各所述文件夹内的数据的操作权限。
在本发明中用于可以将各种数据集基于业务分析需求进行分组、分类管理。业务包管理模块响应用户创建业务文件夹的操作,在显示界面创建包含各类业务名称的文件夹,然后响应用户将各数据分成各业务类型的操作,将各数据存储在对应业务名称的文件夹中。
业务包权限管理模块,对各文件夹以及文件夹内的数据的操作权限,针对用户角色进行配置,从而保障数据安全。例如配置主管级的用户可对名称为A的文件夹进行删除,可对A文件夹内的数据进行增删改查。
在一个优选的实施例中,还包括元数据管理模块;所述元数据管理模块包括元数据设置子模块、元数据校验子模块以及元数据查看子模块;
所述元数据设置子模块,用于设置元数据的名称、元数据描述信息以及元数据绑定数据标准;
所述元数据校验子模块,用于根据元数据的数据规则对元数据进行校验;
所述元数据查看子模块,用于响应用户的元数据查询操作,对选定元数据的数据详情进行展示。
元数据又称中介数据、中继数据,为描述数据的数据。
元数据设置子模块会生成一个元数据信息创建界面,用户在该界面中可以输入元数据的名称,元数据描述信息,并设定元数据与数据之间的绑定标准。然后元数据设置子模块会对上述信息进行保存,完成元数据的基本设置。
对于元数据校验子模块,对元数据的校验可以包括:数据格式校验、、数据一致性校验、数据完整性校验等。
对于元数据查看子模,上述元数据的数据详情包括以下任意一项或其组合:元数据描述信息、所属表、数据类型、元数据绑定数据标准、数据质量等。
在一个优选的实施例中,所述的大数据管理***,还包括数据溯源模块;所述数据溯源模块,用于响应用户的数据溯源操作,以图形化的方式对选定数据的数据来源进行展示。
数据溯源模块,响应用户的数据溯源操作后,会从字段、表、业务包三个层以图形化的方式对数据的数据来源进展示,第一层面是显示数据所在的字段,第二层面是显示字段所在的数据表,第三层面展示数据表所在的业务包(即上文中的数据所在的文件夹);从而完成数据的溯源定位。
在一个优选的实施例中,所述的大数据管理***还包括数据质量检测模块,所述数据质量监测模块,用于在预设的时间节点根据所述标准数据规则对数据进行校验。
数据质量检测模块在预设的时间节点到来时会根据标准数据规则对数据表的质量进行监测,找出问题数据。监测项包括数据格式校验、数据范围校验、表达式校验、完整性校验、唯一性校验、一致性校验等。
在一个优选的实施例中,大数据管理***还包括数据共享模块;数据共享模块可实现服务、数据库推送和文件推送三种数据共享方式。
数据共享模块提供建立自定义配置、表复制、SQL三种数据库推送方式共享数据;可实现灵活设置数据共享的策略;可实现实时监控数据共享任务的执行进度,可实现历史任务查询和出错情况告警。WebService、JSON服务方式共享数据,可实现可视化配置共享数据范围,可实现主/被动两种共享机制,可实现对服务接口访问用户的注册和授权管理功能。可实现以Excel、TXT、XML等文件形式推送共享数据。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种大数据管理***,其特征在于,包括:数据连接模块以及数据融合模块;所述数据连接模块包括数据库连接子模块和文件数据源连接子模块;
所述数据库连接子模块,用于与各不同类型的数据库进行连接,并从各所述数据库中提取数据;
所述文件数据连接子模块,用于接收各不同文件格式的数据文件,并从各所述数据文件中提取数据;
所述数据融合模块,用于根据标准数据规则对从各数据源提取的数据进行数据标准化处理。
2.如权利要求1所述的大数据管理***,其特征在于,还包括数据建模模块;所述数据建模模块,用于建立不同类型的数据模型。
3.如权利要求1所述的大数据管理***,其特征在于,还包括更新策略配置模块、数据更新模块以及更新进度监测模块;
所述更新策略配置模块,用于响应用户的数据更新配置操作,生成数据更新策略;
所述数据更新模块,用于根据所述数据更新策略,对数据进行数据更新;
所述更新进度监测模块,用于实时监测数据更新的执行进度。
4.如权利要求1所述的大数据管理***,其特征在于,还包括业务包管理模块及业务包权限管理模块;
所述业务包管理模块,用于响应用户的数据分类操作,将各数据分类存储在不同名称的文件夹中,并在用户界面将各文件夹的名称及图案标识进行显示;
所述业务包权限管理模块,用于配置各不同用户对各所述文件夹及各所述文件夹内的数据的操作权限。
5.如权利要求1所述的大数据管理***,其特征在于,还包括元数据管理模块;所述元数据管理模块包括元数据设置子模块、元数据校验子模块以及元数据查看子模块;
所述元数据设置子模块,用于设置元数据的名称、元数据描述信息以及元数据绑定数据标准;
所述元数据校验子模块,用于根据元数据的数据规则对元数据进行校验;
所述元数据查看子模块,用于响应用户的元数据查询操作,对选定元数据的数据详情进行展示。
6.如权利要求1所述的大数据管理***,其特征在于,还包括数据溯源模块;所述数据溯源模块,用于响应用户的数据溯源操作,以图形化的方式对选定数据的数据来源进行展示。
7.如权利要求1所述的大数据管理***,其特征在于,还包括数据质量检测模块,所述数据质量监测模块,用于在预设的时间节点根据所述标准数据规则对数据进行校验。
CN202010774634.8A 2020-08-04 2020-08-04 一种大数据管理*** Pending CN111881126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010774634.8A CN111881126A (zh) 2020-08-04 2020-08-04 一种大数据管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010774634.8A CN111881126A (zh) 2020-08-04 2020-08-04 一种大数据管理***

Publications (1)

Publication Number Publication Date
CN111881126A true CN111881126A (zh) 2020-11-03

Family

ID=73210174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010774634.8A Pending CN111881126A (zh) 2020-08-04 2020-08-04 一种大数据管理***

Country Status (1)

Country Link
CN (1) CN111881126A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112596851A (zh) * 2020-12-02 2021-04-02 中国人民解放军63921部队 仿真平台的多源异构数据批量抽取方法和分析方法
CN112650850A (zh) * 2020-12-25 2021-04-13 胡友彬 风云卫星遥感测绘数据管理***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832392A (zh) * 2017-10-31 2018-03-23 链家网(北京)科技有限公司 一种元数据管理***
CN108090205A (zh) * 2017-12-27 2018-05-29 南京熊猫电子股份有限公司 一种基于j2ee的部队后勤数据统一管理***
CN109241194A (zh) * 2018-09-29 2019-01-18 广东省信息工程有限公司 基于高性能集群分布的数据库***的负载均衡方法及装置
CN109766378A (zh) * 2018-12-26 2019-05-17 吕杨 一种多源异构水利水文数据共享***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832392A (zh) * 2017-10-31 2018-03-23 链家网(北京)科技有限公司 一种元数据管理***
CN108090205A (zh) * 2017-12-27 2018-05-29 南京熊猫电子股份有限公司 一种基于j2ee的部队后勤数据统一管理***
CN109241194A (zh) * 2018-09-29 2019-01-18 广东省信息工程有限公司 基于高性能集群分布的数据库***的负载均衡方法及装置
CN109766378A (zh) * 2018-12-26 2019-05-17 吕杨 一种多源异构水利水文数据共享***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112596851A (zh) * 2020-12-02 2021-04-02 中国人民解放军63921部队 仿真平台的多源异构数据批量抽取方法和分析方法
CN112650850A (zh) * 2020-12-25 2021-04-13 胡友彬 风云卫星遥感测绘数据管理***

Similar Documents

Publication Publication Date Title
CN111159191B (zh) 一种数据处理方法、装置和界面
CN110781236A (zh) 一种构建政务大数据治理体系的方法
US10339038B1 (en) Method and system for generating production data pattern driven test data
CN105373469A (zh) 一种基于接口的软件自动化测试方法
CN102917009B (zh) 一种基于云计算技术的股票数据采集和存储方法和***
CN103631969A (zh) 一种报表数据的生成方法及装置
CN104200402A (zh) 一种电网多个数据源的源数据发布方法及***
CN102722584B (zh) 数据存储***及方法
CN104298779A (zh) 海量数据加工的处理方法和***
CN111881126A (zh) 一种大数据管理***
CN112163017B (zh) 一种知识挖掘***及方法
CN104036034A (zh) 用于数据仓库的日志分析方法和装置
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
US20230289331A1 (en) Model generation service for data retrieval
CN112579578A (zh) 基于元数据的数据质量管理方法、装置、***及服务器
CN114661832A (zh) 一种基于数据质量的多模态异构数据存储方法及***
CN112988919A (zh) 一种电网数据集市构建方法、***、终端设备及存储介质
CN113742325A (zh) 数据仓库建设方法、装置、***、电子设备及存储介质
CN115544183A (zh) 数据可视化方法、装置、计算机设备和存储介质
KR101829198B1 (ko) 보고서의 중요도를 분석하는 메타 데이터 기반 온라인 분석 프로세싱 시스템
EP2506162A1 (en) Finding a data item of a plurality of data items stored in a digital data storage
Ali et al. A state of art survey for big data processing and nosql database architecture
CN111125045B (zh) 一种轻量级etl处理平台
CN110633267A (zh) 一种可支持多业务行使报表功能的方法及***
Haug Bad big data science

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination