CN110765173A - 一种大数据环境下的数据管理方法及*** - Google Patents

一种大数据环境下的数据管理方法及*** Download PDF

Info

Publication number
CN110765173A
CN110765173A CN201910811160.7A CN201910811160A CN110765173A CN 110765173 A CN110765173 A CN 110765173A CN 201910811160 A CN201910811160 A CN 201910811160A CN 110765173 A CN110765173 A CN 110765173A
Authority
CN
China
Prior art keywords
data
big data
big
environment
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910811160.7A
Other languages
English (en)
Inventor
李卫群
张涛
陆苇
雷厚宇
兰海翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Li Chuang Technology Development Co Ltd
Original Assignee
Guizhou Li Chuang Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Li Chuang Technology Development Co Ltd filed Critical Guizhou Li Chuang Technology Development Co Ltd
Priority to CN201910811160.7A priority Critical patent/CN110765173A/zh
Publication of CN110765173A publication Critical patent/CN110765173A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种大数据环境下的数据管理方法及***,其方法包括以下步骤,利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。本发明提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力。

Description

一种大数据环境下的数据管理方法及***
技术领域
本发明涉及大数据领域,具体涉及一种大数据环境下的数据管理方法及***。
背景技术
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在获得了大数据资源以后,如何对获取的大数据资源进行管理是当前面临一个重要问题,也是当前急需解决的课题。
发明内容
本发明所要解决的技术问题是提供一种大数据环境下的数据管理方法及***,可以有效的对大数据进行管理。
本发明解决上述技术问题的技术方案如下:一种大数据环境下的数据管理方法,包括以下步骤,
S1,利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
S2,根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
S3,通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
本发明的有益效果是:本发明一种大数据环境下的数据管理方法提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力,并支持多语言融合;从而可以有效管理大数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
进一步,所述预处理包括抽取处理、清洗处理和转换处理。
进一步,所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
进一步,所述数据可视化服务包括数据管理、平台管理和安全管理。
基于上述一种大数据环境下的数据管理方法,本发明还提供一种大数据环境下的数据管理***。
一种大数据环境下的数据管理***,包括以下模块,
采集预处理模块,其用于利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
大数据基础环境建设模块,其用于根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
服务提供模块,其用于通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
本发明的有益效果是:本发明一种大数据环境下的数据管理***提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力,并支持多语言融合;从而可以有效管理大数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
进一步,所述预处理包括抽取处理、清洗处理和转换处理。
进一步,所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
进一步,所述数据可视化服务包括数据管理、平台管理和安全管理。
附图说明
图1为本发明一种大数据环境下的数据管理方法的流程图;
图2为本发明一种大数据环境下的数据管理***的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种大数据环境下的数据管理方法,包括以下步骤,
S1,利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
S2,根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
S3,通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
在本具体实施例中:所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
在本具体实施例中:所述预处理包括抽取处理、清洗处理和转换处理。
在本具体实施例中:所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
在本具体实施例中:所述数据可视化服务包括数据管理、平台管理和安全管理。其中,数据管理包括元数据管理、数据接入管理、数据抽取管理和数据表管理;平台管理包括集群管理、集群监控和任务调度管理;安全管理包括认证中心管理和用户管理。
本发明一种大数据环境下的数据管理方法提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力,并支持多语言融合;从而可以有效管理大数据。
基于上述一种大数据环境下的数据管理方法,本发明还提供一种大数据环境下的数据管理***。
一种大数据环境下的数据管理***,包括以下模块,
采集预处理模块,其用于利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
大数据基础环境建设模块,其用于根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
服务提供模块,其用于通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
在本具体实施例中:所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
在本具体实施例中:所述预处理包括抽取处理、清洗处理和转换处理。
在本具体实施例中:所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
在本具体实施例中:所述数据可视化服务包括数据管理、平台管理和安全管理。其中,数据管理包括元数据管理、数据接入管理、数据抽取管理和数据表管理;平台管理包括集群管理、集群监控和任务调度管理;安全管理包括认证中心管理和用户管理。
本发明一种大数据环境下的数据管理***提供大数据运行基础技术环境,实现多数据源接入、数据采集处理、数据表管理、文件管理、数据探索和模型建立;能够支持存储TB级数据,很好的支持数据量的***式增长存储需求;提供ETL工具接入数据、分布式计算、流计算、内存计算的应用框架,具备提供大数据技术挖掘能力,具备算法建模能力,并支持多语言融合;从而可以有效管理大数据。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种大数据环境下的数据管理方法,其特征在于:包括以下步骤,
S1,利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
S2,根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
S3,通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
2.根据权利要求1所述的一种大数据环境下的数据管理方法,其特征在于:所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
3.根据权利要求1或2所述的一种大数据环境下的数据管理方法,其特征在于:所述预处理包括抽取处理、清洗处理和转换处理。
4.根据权利要求1或2所述的一种大数据环境下的数据管理方法,其特征在于:所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
5.根据权利要求1或2所述的一种大数据环境下的数据管理方法,其特征在于:所述数据可视化服务包括数据管理、平台管理和安全管理。
6.一种大数据环境下的数据管理***,其特征在于:包括以下模块,
采集预处理模块,其用于利用ETL工具采集多种数据源的大数据,并进行预处理形成预处理大数据;
大数据基础环境建设模块,其用于根据预设需求对所述预处理大数据进行算法分析或/和数据挖掘或/和数据计算或/和数据存储处理,形成基础环境大数据;
服务提供模块,其用于通过资源调度接口,将所述基础环境大数据对外提供数据可视化服务。
7.根据权利要求6所述的一种大数据环境下的数据管理***,其特征在于:所述数据源包括数据库、NoSql数据库、文本文件和非结构化数据库。
8.根据权利要求6或7所述的一种大数据环境下的数据管理***,其特征在于:所述预处理包括抽取处理、清洗处理和转换处理。
9.根据权利要求6或7所述的一种大数据环境下的数据管理***,其特征在于:所述算法分析包括机器学习、算法建模和深度学习;所述数据挖掘包括Sql查询、交互查询和搜索查询;所述数据计算包括内存计算、流计算和批量计算;所述数据存储的类型包括内存存储、列存储、数据仓库和分布式文件***。
10.根据权利要求6或7所述的一种大数据环境下的数据管理***,其特征在于:所述数据可视化服务包括数据管理、平台管理和安全管理。
CN201910811160.7A 2019-08-30 2019-08-30 一种大数据环境下的数据管理方法及*** Pending CN110765173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910811160.7A CN110765173A (zh) 2019-08-30 2019-08-30 一种大数据环境下的数据管理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910811160.7A CN110765173A (zh) 2019-08-30 2019-08-30 一种大数据环境下的数据管理方法及***

Publications (1)

Publication Number Publication Date
CN110765173A true CN110765173A (zh) 2020-02-07

Family

ID=69329261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910811160.7A Pending CN110765173A (zh) 2019-08-30 2019-08-30 一种大数据环境下的数据管理方法及***

Country Status (1)

Country Link
CN (1) CN110765173A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597342A (zh) * 2020-12-15 2021-04-02 福建省星云大数据应用服务有限公司 一种环保数据管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9092502B1 (en) * 2013-02-25 2015-07-28 Leidos, Inc. System and method for correlating cloud-based big data in real-time for intelligent analytics and multiple end uses
CN105095653A (zh) * 2015-07-13 2015-11-25 湖南互动传媒有限公司 医疗大数据应用基础服务***
CN107361396A (zh) * 2017-07-10 2017-11-21 红云红河烟草(集团)有限责任公司 基于大数据的烟草烘丝水分预测与控制***
CN107920126A (zh) * 2017-11-30 2018-04-17 河南云保遥感科技有限公司 一种云环境下的分布式空间大数据管理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9092502B1 (en) * 2013-02-25 2015-07-28 Leidos, Inc. System and method for correlating cloud-based big data in real-time for intelligent analytics and multiple end uses
CN105095653A (zh) * 2015-07-13 2015-11-25 湖南互动传媒有限公司 医疗大数据应用基础服务***
CN107361396A (zh) * 2017-07-10 2017-11-21 红云红河烟草(集团)有限责任公司 基于大数据的烟草烘丝水分预测与控制***
CN107920126A (zh) * 2017-11-30 2018-04-17 河南云保遥感科技有限公司 一种云环境下的分布式空间大数据管理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597342A (zh) * 2020-12-15 2021-04-02 福建省星云大数据应用服务有限公司 一种环保数据管理方法

Similar Documents

Publication Publication Date Title
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
CN110750650A (zh) 企业知识图谱的构建方法及装置
CN106709012A (zh) 一种大数据分析方法及装置
CN105608758A (zh) 一种基于算法组态和分布式流计算的大数据分析平台装置及方法
CN106126601A (zh) 一种社保大数据分布式预处理方法及***
CN110990664A (zh) 一种大数据运营管理***
CN103186541A (zh) 一种映射关系生成方法及装置
CN105556517A (zh) 智能搜索精细化
CN104317970A (zh) 一种基于数据加工中心的数据流式处理方法
CN106777142A (zh) 基于移动互联网海量数据的服务层***及其方法
CN104216966A (zh) 一种支持多种方式创建索引的方法
CN103970891A (zh) 一种基于情境的用户兴趣信息查询方法
CN114238388A (zh) 一种基于多协议的异构数据收集及检索***
Kun et al. Application of big data technology in scientific research data management of military enterprises
CN115237857A (zh) 日志处理方法、装置、计算机设备及存储介质
Sundarakumar et al. A heuristic approach to improve the data processing in big data using enhanced Salp Swarm algorithm (ESSA) and MK-means algorithm
CN104573074A (zh) 基于医院数据的高速计算分析方法
CN111159152A (zh) 基于大数据处理技术的二次运维数据融合方法
CN110765173A (zh) 一种大数据环境下的数据管理方法及***
CN112288317B (zh) 一种基于多源异构数据治理的工业大数据分析平台和方法
CN111737490B (zh) 基于银行渠道的知识图谱本体模型生成方法及装置
CN107423035B (zh) 一种软件开发过程产品数据管理***
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
CN112650739A (zh) 煤矿数据中台的数据存储处理方法和装置
CN107992590B (zh) 一种有利于信息比对的大数据***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207

RJ01 Rejection of invention patent application after publication