CN107707659A - 一种大数据分析方法和*** - Google Patents
一种大数据分析方法和*** Download PDFInfo
- Publication number
- CN107707659A CN107707659A CN201710943438.7A CN201710943438A CN107707659A CN 107707659 A CN107707659 A CN 107707659A CN 201710943438 A CN201710943438 A CN 201710943438A CN 107707659 A CN107707659 A CN 107707659A
- Authority
- CN
- China
- Prior art keywords
- data
- storage
- distributed
- center
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大数据分析方法和***。涉及大数据处理技术;解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。该方法包括:多个存储服务器使用分布式架构存储采集得到的数据;多个分布式计算中心使用分布式计算对采集得到的数据进行分析;所述多个分布式计算中心将数据分析结果汇总至数据展示中心。本发明提供的技术方案适用于海量数据处理,实现了基于分布式架构的大数据采集分析。
Description
技术领域
本发明涉及大数据处理技术,尤指一种大数据分析方法和***。
背景技术
近年来,随着计算科学、信息技术以及计算机等的高速发展和迅速应用,相关行业是用的应用***急速扩展,随之而来产生的数据呈现几何指数增长。这种数据被定义为大数据。大数据已经不能以常规论,无法使用传统和常用的软件技术和工具在特定时间内完成获取、管理和处理的数据集合。传统模式已经无法满足多种类型的海量数据的处理需求。
发明内容
为了解决上述技术问题,本发明提供了一种大数据分析方法和***。采用并行分布式存储数据,经过对数据结构的深度分析,精确定位、建立模型算法,采用分布式计算对数据进行快速处理,通过结果反作用于厂商。实现了基于分布式架构的大数据采集分析,解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。
为了达到本发明目的,本发明提供了一种大数据分析方法,包括:
多个存储服务器使用分布式架构存储采集得到的数据;
多个分布式计算中心使用分布式计算对采集得到的数据进行分析;
所述多个分布式计算中心将数据分析结果汇总至数据展示中心。
优选的,使多个存储服务器使用分布式架构存储采集得到的数据的步骤包括:
多个存储服务器覆盖全部用户范围,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
优选的,多个分布式计算中心使用分布式计算对采集得到的数据进行分析的步骤包括:
各个计算中心对各自对应的存储服务器采集得到的数据建立模型;
对建立模型后的数据进行分析。
优选的,每个计算中心至少一个存储服务器,一个存储服务器对应至少一个计算中心。
本发明还提供了一种大数据分析***,包括分布式存储架构和分布式计算架构,所述分布式存储架构包含多个存储服务器,所述分布式计算架构包含多个计算中心,每个存储服务器与至少一个计算中心存在映射关系,每个计算中心与至少一个存储服务器存在映射关系;
所述分布式存储架构中的存储服务器,用于将存储采集得到的数据;
所述分布式计算架构中的计算中心,用于对采集得到的数据进行分析。
优选的,该***还包括数据展示中心;
所述分布式计算架构中的计算中心,还用于将数据分析结果汇总至所述数据展示中心。
优选的,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
优选的,所述计算中心,具体用于对各自存在映射关系的存储服务器采集得到的数据建立模型,对建立模型后的数据进行分析。
本发明的实施例提供了一种大数据分析方法和***,多个存储服务器使用分布式架构存储采集得到的数据,多个分布式计算中心使用分布式计算对采集得到的数据进行分析,所述多个分布式计算中心将数据分析结果汇总至数据展示中心。实现了基于分布式架构的大数据采集分析,解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明的实施例一提供的一种大数据分析***的架构示意图;
图2为本发明的实施例二提供的一种大数据分析方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
近年来,随着计算科学、信息技术以及计算机等的高速发展和迅速应用,相关行业是用的应用***急速扩展,随之而来产生的数据呈现几何指数增长。这种数据被定义为大数据。大数据已经不能以常规论,无法使用传统和常用的软件技术和工具在特定时间内完成获取、管理和处理的数据集合。传统模式已经无法满足多种类型的海量数据。
与此同时,在处理具体问题时,需要从定量的角度分析和研究用户行为的问题时,就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上,用模型来简化问题。低效的传统关系型数据库已经不能满足大数据不断发展的规模。
为了解决上述问题,本发明的实施例提供了一种大数据分析方法和***,采用并行分布式存储数据,经过对数据结构的深度分析,精确定位、建立模型算法,采用分布式计算对数据进行快速处理,通过结果反作用于厂商。实现了基于分布式架构的大数据采集分析,解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。
首先结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种大数据分析***,该***架构如图1所示,包括:
分布式存储架构和分布式计算架构,所述分布式存储架构包含多个存储服务器,所述分布式计算架构包含多个计算中心,每个存储服务器与至少一个计算中心存在映射(map)关系,每个计算中心与至少一个存储服务器存在映射关系;
所述分布式存储架构中的存储服务器,用于将存储采集得到的数据;
所述分布式计算架构中的计算中心,用于对采集得到的数据进行分析。
优选的,该***还包括数据展示中心;
所述分布式计算架构中的计算中心,还用于将数据分析结果汇总至所述数据展示中心。
优选的,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
优选的,所述计算中心,具体用于对各自存在映射关系的存储服务器采集得到的数据建立模型,对建立模型后的数据进行分析。
下面结合附图,对本发明的实施例二进行说明。
本发明实施例提供了一种大数据分析方法,基于本发明的实施例一提供的大数据分析***,实现了分布式的数据收集与分析处理,具体流程如图2所示,包括:
步骤201、多个存储服务器使用分布式架构存储采集得到的数据;
本步骤具体包括:
1、多个存储服务器覆盖全部用户范围,两个存储服务器覆盖的用户范围不完全相同;
2、每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
步骤202、多个分布式计算中心使用分布式计算对采集得到的数据进行分析;
本步骤具体包括:
1、各个计算中心对各自对应的存储服务器采集得到的数据建立模型;
2、对建立模型后的数据进行分析。
每个计算中心至少一个存储服务器,一个存储服务器对应至少一个计算中心。
步骤203、所述多个分布式计算中心将数据分析结果汇总至数据展示中心。
本发明的实施例提供了一种大数据分析方法和***,多个存储服务器使用分布式架构存储采集得到的数据,多个分布式计算中心使用分布式计算对采集得到的数据进行分析,所述多个分布式计算中心将数据分析结果汇总至数据展示中心。实现了基于分布式架构的大数据采集分析,解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。本发明的实施例提供的技术方案考虑到大数据时代获取数据的杂乱非结构化,数据量在TB和PB级别,传统方法通常已经无法处理此类数据。面对业务数据不能适合行列的数据库结构,数据可能来源于多种格式,分布式存储和计算可以存放和分析各种原始数据格式;新的分布式架构使用低成本的常规服务器存储和处理海量数据;在分析海量复杂数据时需要使用新的方法,分布式架构可以更方便高效的使用新的算法(包括自然语言分析、模式识别等)来处理和分析海量数据。采取新的分析手段、建立模型,采用分布式架构(分布式计算、存储),优化结果,并具实际指导意义。从诸如电商、网店、搜索引擎等手机数据,接着应用分布式存储、分布式计算处理,最终得到数据共性。在数据时代的今天,性能优良的单台计算机也已经不能满足庞大数据处理的需求,由此引出了分布式架构的发展。对于庞大的数据集采用分布式计算,可以动态增加、消减计算节点,实现真正弹性计算;实现任务自动迁移、预测和重试,不受节点故障影响;兼顾长、短任务,任务抢占以及优先级响应,有效支持交互式任务;为了降低带宽,就近调度节点;动态灵活的负载均衡;可以实现大集群规模满足要求。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (8)
1.一种大数据分析方法,其特征在于,包括:
多个存储服务器使用分布式架构存储采集得到的数据;
多个分布式计算中心使用分布式计算对采集得到的数据进行分析;
所述多个分布式计算中心将数据分析结果汇总至数据展示中心。
2.根据权利要求1所述的大数据分析方法,其特征在于,使多个存储服务器使用分布式架构存储采集得到的数据的步骤包括:
多个存储服务器覆盖全部用户范围,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
3.根据权利要求1所述的大数据分析方法,其特征在于,多个分布式计算中心使用分布式计算对采集得到的数据进行分析的步骤包括:
各个计算中心对各自对应的存储服务器采集得到的数据建立模型;
对建立模型后的数据进行分析。
4.根据权利要求3所述的大数据分析方法,其特征在于,每个计算中心至少一个存储服务器,一个存储服务器对应至少一个计算中心。
5.一种大数据分析***,其特征在于,包括分布式存储架构和分布式计算架构,所述分布式存储架构包含多个存储服务器,所述分布式计算架构包含多个计算中心,每个存储服务器与至少一个计算中心存在映射关系,每个计算中心与至少一个存储服务器存在映射关系;
所述分布式存储架构中的存储服务器,用于将存储采集得到的数据;
所述分布式计算架构中的计算中心,用于对采集得到的数据进行分析。
6.根据权利要求5所述的大数据分析***,其特征在于,该***还包括数据展示中心;
所述分布式计算架构中的计算中心,还用于将数据分析结果汇总至所述数据展示中心。
7.根据权利要求5所述的大数据分析***,其特征在于,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
8.根据权利要求5所述的大数据分析***,其特征在于,
所述计算中心,具体用于对各自存在映射关系的存储服务器采集得到的数据建立模型,对建立模型后的数据进行分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710943438.7A CN107707659A (zh) | 2017-10-11 | 2017-10-11 | 一种大数据分析方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710943438.7A CN107707659A (zh) | 2017-10-11 | 2017-10-11 | 一种大数据分析方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107707659A true CN107707659A (zh) | 2018-02-16 |
Family
ID=61184993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710943438.7A Pending CN107707659A (zh) | 2017-10-11 | 2017-10-11 | 一种大数据分析方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107707659A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109327516A (zh) * | 2018-10-08 | 2019-02-12 | 马鞍山沐及信息科技有限公司 | 一种基于大数据的能效分析*** |
CN109408567A (zh) * | 2018-09-11 | 2019-03-01 | 广东布田电子商务有限公司 | 一种大数据处理平台网络架构 |
CN114638553A (zh) * | 2022-05-17 | 2022-06-17 | 四川观想科技股份有限公司 | 一种基于大数据的维修质量分析方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103338261A (zh) * | 2013-07-04 | 2013-10-02 | 北京泰乐德信息技术有限公司 | 一种轨道交通监测数据的存储和处理方法及*** |
CN103761685A (zh) * | 2014-01-23 | 2014-04-30 | 国家电网公司 | 基于MapReduce的电力数据并行化异常检测方法 |
US20160198522A1 (en) * | 2012-12-06 | 2016-07-07 | At&T Intellectual Property I, L.P. | Collecting and Analyzing Data in a Distributed Sensor Network |
CN106202192A (zh) * | 2016-06-28 | 2016-12-07 | 浪潮软件集团有限公司 | 一种基于工作流的大数据分析方法 |
CN106202399A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮软件集团有限公司 | 一种大数据的数据管理***实现方法 |
CN106354876A (zh) * | 2016-09-22 | 2017-01-25 | 珠海格力电器股份有限公司 | 一种数据处理***和方法 |
CN106682206A (zh) * | 2016-12-30 | 2017-05-17 | 郑州云海信息技术有限公司 | 一种大数据处理方法及*** |
CN106709012A (zh) * | 2016-12-26 | 2017-05-24 | 北京锐安科技有限公司 | 一种大数据分析方法及装置 |
CN107220310A (zh) * | 2017-05-11 | 2017-09-29 | 中国联合网络通信集团有限公司 | 一种数据库数据管理***、方法及装置 |
-
2017
- 2017-10-11 CN CN201710943438.7A patent/CN107707659A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160198522A1 (en) * | 2012-12-06 | 2016-07-07 | At&T Intellectual Property I, L.P. | Collecting and Analyzing Data in a Distributed Sensor Network |
CN103338261A (zh) * | 2013-07-04 | 2013-10-02 | 北京泰乐德信息技术有限公司 | 一种轨道交通监测数据的存储和处理方法及*** |
CN103761685A (zh) * | 2014-01-23 | 2014-04-30 | 国家电网公司 | 基于MapReduce的电力数据并行化异常检测方法 |
CN106202192A (zh) * | 2016-06-28 | 2016-12-07 | 浪潮软件集团有限公司 | 一种基于工作流的大数据分析方法 |
CN106202399A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮软件集团有限公司 | 一种大数据的数据管理***实现方法 |
CN106354876A (zh) * | 2016-09-22 | 2017-01-25 | 珠海格力电器股份有限公司 | 一种数据处理***和方法 |
CN106709012A (zh) * | 2016-12-26 | 2017-05-24 | 北京锐安科技有限公司 | 一种大数据分析方法及装置 |
CN106682206A (zh) * | 2016-12-30 | 2017-05-17 | 郑州云海信息技术有限公司 | 一种大数据处理方法及*** |
CN107220310A (zh) * | 2017-05-11 | 2017-09-29 | 中国联合网络通信集团有限公司 | 一种数据库数据管理***、方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408567A (zh) * | 2018-09-11 | 2019-03-01 | 广东布田电子商务有限公司 | 一种大数据处理平台网络架构 |
CN109327516A (zh) * | 2018-10-08 | 2019-02-12 | 马鞍山沐及信息科技有限公司 | 一种基于大数据的能效分析*** |
CN114638553A (zh) * | 2022-05-17 | 2022-06-17 | 四川观想科技股份有限公司 | 一种基于大数据的维修质量分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106326457B (zh) | 基于大数据的人社人员档案袋数据库的构建方法及*** | |
CN106095391B (zh) | 基于大数据平台和算法模型的计算方法及*** | |
CN107707659A (zh) | 一种大数据分析方法和*** | |
CN104462738A (zh) | 一种标注医学图像的方法、装置和*** | |
CN106354616B (zh) | 监测应用执行性能的方法、装置及高性能计算*** | |
CN106708989A (zh) | 基于空间时序数据流应用的Skyline查询方法 | |
WO2022184124A1 (zh) | 生理电信号分类处理方法、装置、计算机设备和存储介质 | |
CN107133323A (zh) | 数据模型构建方法、政务服务业务的实现方法及装置 | |
CN113724847A (zh) | 基于人工智能的医疗资源分配方法、装置、终端设备及介质 | |
CN110070076A (zh) | 用于选取训练用样本的方法和装置 | |
CN104993958A (zh) | 一种用户主数据的生成方法及*** | |
CN106599189A (zh) | 基于云计算的动态Skyline查询装置 | |
CN104573074A (zh) | 基于医院数据的高速计算分析方法 | |
CN108922632A (zh) | 一种数据管理方法及*** | |
CN103927560B (zh) | 一种特征选择方法及装置 | |
CN106339956A (zh) | 一种旅游服务集成*** | |
Zhang et al. | On the cost of interactions in interactive visual machine learning | |
CN109543512A (zh) | 图文摘要的评价方法 | |
Bai | RETRACTED ARTICLE: Data cleansing method of talent management data in wireless sensor network based on data mining technology | |
Yang et al. | Application of cloud computing in biomedicine big data analysis cloud computing in big data | |
CN107203561A (zh) | 一种数据处理方法和设备 | |
CN108280230A (zh) | 一种分析数据的方法、装置、设备及存储介质 | |
CN108255807A (zh) | 一种识别研发方向的方法 | |
CN110084298A (zh) | 用于检测图像相似度的方法及装置 | |
CN110413778A (zh) | 专家影响力的生成方法、专家推荐方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180216 |