CN110765173A - 一种大数据环境下的数据管理方法及*** - Google Patents
一种大数据环境下的数据管理方法及*** Download PDFInfo
- Publication number
- CN110765173A CN110765173A CN201910811160.7A CN201910811160A CN110765173A CN 110765173 A CN110765173 A CN 110765173A CN 201910811160 A CN201910811160 A CN 201910811160A CN 110765173 A CN110765173 A CN 110765173A
- Authority
- CN
- China
- Prior art keywords
- data
- big data
- big
- environment
- management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013523 data management Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000007726 management method Methods 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000007418 data mining Methods 0.000 claims abstract description 13
- 238000013500 data storage Methods 0.000 claims abstract description 13
- 238000013079 data visualisation Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 230000005055 memory storage Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 239000002360 explosive Substances 0.000 abstract description 5
- 238000005065 mining Methods 0.000 abstract description 5
- 230000004927 fusion Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种大数据环境下的数据管理方法及***,其方法包括以下步骤,利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。本发明提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力。
Description
技术领域
本发明涉及大数据领域,具体涉及一种大数据环境下的数据管理方法及***。
背景技术
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在获得了大数据资源以后,如何对获取的大数据资源进行管理是当前面临一个重要问题,也是当前急需解决的课题。
发明内容
本发明所要解决的技术问题是提供一种大数据环境下的数据管理方法及***,可以有效的对大数据进行管理。
本发明解决上述技术问题的技术方案如下:一种大数据环境下的数据管理方法,包括以下步骤,
S1,利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
S2,根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
S3,通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
本发明的有益效果是:本发明一种大数据环境下的数据管理方法提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力,并支持多语言融合;从而可以有效管理大数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
进一步,所述预处理包括抽取处理、清洗处理和转换处理。
进一步,所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
进一步,所述数据可视化服务包括数据管理、平台管理和安全管理。
基于上述一种大数据环境下的数据管理方法,本发明还提供一种大数据环境下的数据管理***。
一种大数据环境下的数据管理***,包括以下模块,
采集预处理模块,其用于利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
大数据基础环境建设模块,其用于根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
服务提供模块,其用于通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
本发明的有益效果是:本发明一种大数据环境下的数据管理***提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力,并支持多语言融合;从而可以有效管理大数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
进一步,所述预处理包括抽取处理、清洗处理和转换处理。
进一步,所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
进一步,所述数据可视化服务包括数据管理、平台管理和安全管理。
附图说明
图1为本发明一种大数据环境下的数据管理方法的流程图;
图2为本发明一种大数据环境下的数据管理***的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种大数据环境下的数据管理方法,包括以下步骤,
S1,利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
S2,根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
S3,通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
在本具体实施例中:所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
在本具体实施例中:所述预处理包括抽取处理、清洗处理和转换处理。
在本具体实施例中:所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
在本具体实施例中:所述数据可视化服务包括数据管理、平台管理和安全管理。其中,数据管理包括元数据管理、数据接入管理、数据抽取管理和数据表管理;平台管理包括集群管理、集群监控和任务调度管理;安全管理包括认证中心管理和用户管理。
本发明一种大数据环境下的数据管理方法提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力,并支持多语言融合;从而可以有效管理大数据。
基于上述一种大数据环境下的数据管理方法,本发明还提供一种大数据环境下的数据管理***。
一种大数据环境下的数据管理***,包括以下模块,
采集预处理模块,其用于利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
大数据基础环境建设模块,其用于根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
服务提供模块,其用于通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
在本具体实施例中:所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
在本具体实施例中:所述预处理包括抽取处理、清洗处理和转换处理。
在本具体实施例中:所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
在本具体实施例中:所述数据可视化服务包括数据管理、平台管理和安全管理。其中,数据管理包括元数据管理、数据接入管理、数据抽取管理和数据表管理;平台管理包括集群管理、集群监控和任务调度管理;安全管理包括认证中心管理和用户管理。
本发明一种大数据环境下的数据管理***提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力,并支持多语言融合;从而可以有效管理大数据。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种大数据环境下的数据管理方法,其特征在于:包括以下步骤,
S1,利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
S2,根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
S3,通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
2.根据权利要求1所述的一种大数据环境下的数据管理方法,其特征在于:所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
3.根据权利要求1或2所述的一种大数据环境下的数据管理方法,其特征在于:所述预处理包括抽取处理、清洗处理和转换处理。
4.根据权利要求1或2所述的一种大数据环境下的数据管理方法,其特征在于:所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
5.根据权利要求1或2所述的一种大数据环境下的数据管理方法,其特征在于:所述数据可视化服务包括数据管理、平台管理和安全管理。
6.一种大数据环境下的数据管理***,其特征在于:包括以下模块,
采集预处理模块,其用于利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
大数据基础环境建设模块,其用于根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
服务提供模块,其用于通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
7.根据权利要求6所述的一种大数据环境下的数据管理***,其特征在于:所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
8.根据权利要求6或7所述的一种大数据环境下的数据管理***,其特征在于:所述预处理包括抽取处理、清洗处理和转换处理。
9.根据权利要求6或7所述的一种大数据环境下的数据管理***,其特征在于:所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
10.根据权利要求6或7所述的一种大数据环境下的数据管理***,其特征在于:所述数据可视化服务包括数据管理、平台管理和安全管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910811160.7A CN110765173A (zh) | 2019-08-30 | 2019-08-30 | 一种大数据环境下的数据管理方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910811160.7A CN110765173A (zh) | 2019-08-30 | 2019-08-30 | 一种大数据环境下的数据管理方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110765173A true CN110765173A (zh) | 2020-02-07 |
Family
ID=69329261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910811160.7A Pending CN110765173A (zh) | 2019-08-30 | 2019-08-30 | 一种大数据环境下的数据管理方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765173A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597342A (zh) * | 2020-12-15 | 2021-04-02 | 福建省星云大数据应用服务有限公司 | 一种环保数据管理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9092502B1 (en) * | 2013-02-25 | 2015-07-28 | Leidos, Inc. | System and method for correlating cloud-based big data in real-time for intelligent analytics and multiple end uses |
CN105095653A (zh) * | 2015-07-13 | 2015-11-25 | 湖南互动传媒有限公司 | 医疗大数据应用基础服务*** |
CN107361396A (zh) * | 2017-07-10 | 2017-11-21 | 红云红河烟草(集团)有限责任公司 | 基于大数据的烟草烘丝水分预测与控制*** |
CN107920126A (zh) * | 2017-11-30 | 2018-04-17 | 河南云保遥感科技有限公司 | 一种云环境下的分布式空间大数据管理方法 |
-
2019
- 2019-08-30 CN CN201910811160.7A patent/CN110765173A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9092502B1 (en) * | 2013-02-25 | 2015-07-28 | Leidos, Inc. | System and method for correlating cloud-based big data in real-time for intelligent analytics and multiple end uses |
CN105095653A (zh) * | 2015-07-13 | 2015-11-25 | 湖南互动传媒有限公司 | 医疗大数据应用基础服务*** |
CN107361396A (zh) * | 2017-07-10 | 2017-11-21 | 红云红河烟草(集团)有限责任公司 | 基于大数据的烟草烘丝水分预测与控制*** |
CN107920126A (zh) * | 2017-11-30 | 2018-04-17 | 河南云保遥感科技有限公司 | 一种云环境下的分布式空间大数据管理方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597342A (zh) * | 2020-12-15 | 2021-04-02 | 福建省星云大数据应用服务有限公司 | 一种环保数据管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | A system architecture for manufacturing process analysis based on big data and process mining techniques | |
CN110750650A (zh) | 企业知识图谱的构建方法及装置 | |
CN106709012A (zh) | 一种大数据分析方法及装置 | |
CN105608758A (zh) | 一种基于算法组态和分布式流计算的大数据分析平台装置及方法 | |
CN106126601A (zh) | 一种社保大数据分布式预处理方法及*** | |
CN110990664A (zh) | 一种大数据运营管理*** | |
CN103186541A (zh) | 一种映射关系生成方法及装置 | |
CN105556517A (zh) | 智能搜索精细化 | |
CN104317970A (zh) | 一种基于数据加工中心的数据流式处理方法 | |
CN106777142A (zh) | 基于移动互联网海量数据的服务层***及其方法 | |
CN104216966A (zh) | 一种支持多种方式创建索引的方法 | |
CN103970891A (zh) | 一种基于情境的用户兴趣信息查询方法 | |
CN114238388A (zh) | 一种基于多协议的异构数据收集及检索*** | |
Kun et al. | Application of big data technology in scientific research data management of military enterprises | |
CN115237857A (zh) | 日志处理方法、装置、计算机设备及存储介质 | |
Sundarakumar et al. | A heuristic approach to improve the data processing in big data using enhanced Salp Swarm algorithm (ESSA) and MK-means algorithm | |
CN104573074A (zh) | 基于医院数据的高速计算分析方法 | |
CN111159152A (zh) | 基于大数据处理技术的二次运维数据融合方法 | |
CN110765173A (zh) | 一种大数据环境下的数据管理方法及*** | |
CN112288317B (zh) | 一种基于多源异构数据治理的工业大数据分析平台和方法 | |
CN111737490B (zh) | 基于银行渠道的知识图谱本体模型生成方法及装置 | |
CN107423035B (zh) | 一种软件开发过程产品数据管理*** | |
CN113254517A (zh) | 一种基于互联网大数据的服务提供方法 | |
CN112650739A (zh) | 煤矿数据中台的数据存储处理方法和装置 | |
CN107992590B (zh) | 一种有利于信息比对的大数据*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |
|
RJ01 | Rejection of invention patent application after publication |