CN107707659A - 一种大数据分析方法和*** - Google Patents

一种大数据分析方法和*** Download PDF

Info

Publication number
CN107707659A
CN107707659A CN201710943438.7A CN201710943438A CN107707659A CN 107707659 A CN107707659 A CN 107707659A CN 201710943438 A CN201710943438 A CN 201710943438A CN 107707659 A CN107707659 A CN 107707659A
Authority
CN
China
Prior art keywords
data
storage
distributed
center
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710943438.7A
Other languages
English (en)
Inventor
杨吉东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710943438.7A priority Critical patent/CN107707659A/zh
Publication of CN107707659A publication Critical patent/CN107707659A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种大数据分析方法和***。涉及大数据处理技术;解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。该方法包括:多个存储服务器使用分布式架构存储采集得到的数据;多个分布式计算中心使用分布式计算对采集得到的数据进行分析;所述多个分布式计算中心将数据分析结果汇总至数据展示中心。本发明提供的技术方案适用于海量数据处理,实现了基于分布式架构的大数据采集分析。

Description

一种大数据分析方法和***
技术领域
本发明涉及大数据处理技术,尤指一种大数据分析方法和***。
背景技术
近年来,随着计算科学、信息技术以及计算机等的高速发展和迅速应用,相关行业是用的应用***急速扩展,随之而来产生的数据呈现几何指数增长。这种数据被定义为大数据。大数据已经不能以常规论,无法使用传统和常用的软件技术和工具在特定时间内完成获取、管理和处理的数据集合。传统模式已经无法满足多种类型的海量数据的处理需求。
发明内容
为了解决上述技术问题,本发明提供了一种大数据分析方法和***。采用并行分布式存储数据,经过对数据结构的深度分析,精确定位、建立模型算法,采用分布式计算对数据进行快速处理,通过结果反作用于厂商。实现了基于分布式架构的大数据采集分析,解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。
为了达到本发明目的,本发明提供了一种大数据分析方法,包括:
多个存储服务器使用分布式架构存储采集得到的数据;
多个分布式计算中心使用分布式计算对采集得到的数据进行分析;
所述多个分布式计算中心将数据分析结果汇总至数据展示中心。
优选的,使多个存储服务器使用分布式架构存储采集得到的数据的步骤包括:
多个存储服务器覆盖全部用户范围,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
优选的,多个分布式计算中心使用分布式计算对采集得到的数据进行分析的步骤包括:
各个计算中心对各自对应的存储服务器采集得到的数据建立模型;
对建立模型后的数据进行分析。
优选的,每个计算中心至少一个存储服务器,一个存储服务器对应至少一个计算中心。
本发明还提供了一种大数据分析***,包括分布式存储架构和分布式计算架构,所述分布式存储架构包含多个存储服务器,所述分布式计算架构包含多个计算中心,每个存储服务器与至少一个计算中心存在映射关系,每个计算中心与至少一个存储服务器存在映射关系;
所述分布式存储架构中的存储服务器,用于将存储采集得到的数据;
所述分布式计算架构中的计算中心,用于对采集得到的数据进行分析。
优选的,该***还包括数据展示中心;
所述分布式计算架构中的计算中心,还用于将数据分析结果汇总至所述数据展示中心。
优选的,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
优选的,所述计算中心,具体用于对各自存在映射关系的存储服务器采集得到的数据建立模型,对建立模型后的数据进行分析。
本发明的实施例提供了一种大数据分析方法和***,多个存储服务器使用分布式架构存储采集得到的数据,多个分布式计算中心使用分布式计算对采集得到的数据进行分析,所述多个分布式计算中心将数据分析结果汇总至数据展示中心。实现了基于分布式架构的大数据采集分析,解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明的实施例一提供的一种大数据分析***的架构示意图;
图2为本发明的实施例二提供的一种大数据分析方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
近年来,随着计算科学、信息技术以及计算机等的高速发展和迅速应用,相关行业是用的应用***急速扩展,随之而来产生的数据呈现几何指数增长。这种数据被定义为大数据。大数据已经不能以常规论,无法使用传统和常用的软件技术和工具在特定时间内完成获取、管理和处理的数据集合。传统模式已经无法满足多种类型的海量数据。
与此同时,在处理具体问题时,需要从定量的角度分析和研究用户行为的问题时,就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上,用模型来简化问题。低效的传统关系型数据库已经不能满足大数据不断发展的规模。
为了解决上述问题,本发明的实施例提供了一种大数据分析方法和***,采用并行分布式存储数据,经过对数据结构的深度分析,精确定位、建立模型算法,采用分布式计算对数据进行快速处理,通过结果反作用于厂商。实现了基于分布式架构的大数据采集分析,解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。
首先结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种大数据分析***,该***架构如图1所示,包括:
分布式存储架构和分布式计算架构,所述分布式存储架构包含多个存储服务器,所述分布式计算架构包含多个计算中心,每个存储服务器与至少一个计算中心存在映射(map)关系,每个计算中心与至少一个存储服务器存在映射关系;
所述分布式存储架构中的存储服务器,用于将存储采集得到的数据;
所述分布式计算架构中的计算中心,用于对采集得到的数据进行分析。
优选的,该***还包括数据展示中心;
所述分布式计算架构中的计算中心,还用于将数据分析结果汇总至所述数据展示中心。
优选的,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
优选的,所述计算中心,具体用于对各自存在映射关系的存储服务器采集得到的数据建立模型,对建立模型后的数据进行分析。
下面结合附图,对本发明的实施例二进行说明。
本发明实施例提供了一种大数据分析方法,基于本发明的实施例一提供的大数据分析***,实现了分布式的数据收集与分析处理,具体流程如图2所示,包括:
步骤201、多个存储服务器使用分布式架构存储采集得到的数据;
本步骤具体包括:
1、多个存储服务器覆盖全部用户范围,两个存储服务器覆盖的用户范围不完全相同;
2、每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
步骤202、多个分布式计算中心使用分布式计算对采集得到的数据进行分析;
本步骤具体包括:
1、各个计算中心对各自对应的存储服务器采集得到的数据建立模型;
2、对建立模型后的数据进行分析。
每个计算中心至少一个存储服务器,一个存储服务器对应至少一个计算中心。
步骤203、所述多个分布式计算中心将数据分析结果汇总至数据展示中心。
本发明的实施例提供了一种大数据分析方法和***,多个存储服务器使用分布式架构存储采集得到的数据,多个分布式计算中心使用分布式计算对采集得到的数据进行分析,所述多个分布式计算中心将数据分析结果汇总至数据展示中心。实现了基于分布式架构的大数据采集分析,解决了传统数据处理模式无法满足多种类型的海量数据的处理需求的问题。本发明的实施例提供的技术方案考虑到大数据时代获取数据的杂乱非结构化,数据量在TB和PB级别,传统方法通常已经无法处理此类数据。面对业务数据不能适合行列的数据库结构,数据可能来源于多种格式,分布式存储和计算可以存放和分析各种原始数据格式;新的分布式架构使用低成本的常规服务器存储和处理海量数据;在分析海量复杂数据时需要使用新的方法,分布式架构可以更方便高效的使用新的算法(包括自然语言分析、模式识别等)来处理和分析海量数据。采取新的分析手段、建立模型,采用分布式架构(分布式计算、存储),优化结果,并具实际指导意义。从诸如电商、网店、搜索引擎等手机数据,接着应用分布式存储、分布式计算处理,最终得到数据共性。在数据时代的今天,性能优良的单台计算机也已经不能满足庞大数据处理的需求,由此引出了分布式架构的发展。对于庞大的数据集采用分布式计算,可以动态增加、消减计算节点,实现真正弹性计算;实现任务自动迁移、预测和重试,不受节点故障影响;兼顾长、短任务,任务抢占以及优先级响应,有效支持交互式任务;为了降低带宽,就近调度节点;动态灵活的负载均衡;可以实现大集群规模满足要求。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (8)

1.一种大数据分析方法,其特征在于,包括:
多个存储服务器使用分布式架构存储采集得到的数据;
多个分布式计算中心使用分布式计算对采集得到的数据进行分析;
所述多个分布式计算中心将数据分析结果汇总至数据展示中心。
2.根据权利要求1所述的大数据分析方法,其特征在于,使多个存储服务器使用分布式架构存储采集得到的数据的步骤包括:
多个存储服务器覆盖全部用户范围,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
3.根据权利要求1所述的大数据分析方法,其特征在于,多个分布式计算中心使用分布式计算对采集得到的数据进行分析的步骤包括:
各个计算中心对各自对应的存储服务器采集得到的数据建立模型;
对建立模型后的数据进行分析。
4.根据权利要求3所述的大数据分析方法,其特征在于,每个计算中心至少一个存储服务器,一个存储服务器对应至少一个计算中心。
5.一种大数据分析***,其特征在于,包括分布式存储架构和分布式计算架构,所述分布式存储架构包含多个存储服务器,所述分布式计算架构包含多个计算中心,每个存储服务器与至少一个计算中心存在映射关系,每个计算中心与至少一个存储服务器存在映射关系;
所述分布式存储架构中的存储服务器,用于将存储采集得到的数据;
所述分布式计算架构中的计算中心,用于对采集得到的数据进行分析。
6.根据权利要求5所述的大数据分析***,其特征在于,该***还包括数据展示中心;
所述分布式计算架构中的计算中心,还用于将数据分析结果汇总至所述数据展示中心。
7.根据权利要求5所述的大数据分析***,其特征在于,两个存储服务器覆盖的用户范围不完全相同;
每个存储服务器对自己覆盖下的用户范围内的用户数据进行采集存储。
8.根据权利要求5所述的大数据分析***,其特征在于,
所述计算中心,具体用于对各自存在映射关系的存储服务器采集得到的数据建立模型,对建立模型后的数据进行分析。
CN201710943438.7A 2017-10-11 2017-10-11 一种大数据分析方法和*** Pending CN107707659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710943438.7A CN107707659A (zh) 2017-10-11 2017-10-11 一种大数据分析方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710943438.7A CN107707659A (zh) 2017-10-11 2017-10-11 一种大数据分析方法和***

Publications (1)

Publication Number Publication Date
CN107707659A true CN107707659A (zh) 2018-02-16

Family

ID=61184993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710943438.7A Pending CN107707659A (zh) 2017-10-11 2017-10-11 一种大数据分析方法和***

Country Status (1)

Country Link
CN (1) CN107707659A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109327516A (zh) * 2018-10-08 2019-02-12 马鞍山沐及信息科技有限公司 一种基于大数据的能效分析***
CN109408567A (zh) * 2018-09-11 2019-03-01 广东布田电子商务有限公司 一种大数据处理平台网络架构
CN114638553A (zh) * 2022-05-17 2022-06-17 四川观想科技股份有限公司 一种基于大数据的维修质量分析方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及***
CN103761685A (zh) * 2014-01-23 2014-04-30 国家电网公司 基于MapReduce的电力数据并行化异常检测方法
US20160198522A1 (en) * 2012-12-06 2016-07-07 At&T Intellectual Property I, L.P. Collecting and Analyzing Data in a Distributed Sensor Network
CN106202192A (zh) * 2016-06-28 2016-12-07 浪潮软件集团有限公司 一种基于工作流的大数据分析方法
CN106202399A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种大数据的数据管理***实现方法
CN106354876A (zh) * 2016-09-22 2017-01-25 珠海格力电器股份有限公司 一种数据处理***和方法
CN106682206A (zh) * 2016-12-30 2017-05-17 郑州云海信息技术有限公司 一种大数据处理方法及***
CN106709012A (zh) * 2016-12-26 2017-05-24 北京锐安科技有限公司 一种大数据分析方法及装置
CN107220310A (zh) * 2017-05-11 2017-09-29 中国联合网络通信集团有限公司 一种数据库数据管理***、方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160198522A1 (en) * 2012-12-06 2016-07-07 At&T Intellectual Property I, L.P. Collecting and Analyzing Data in a Distributed Sensor Network
CN103338261A (zh) * 2013-07-04 2013-10-02 北京泰乐德信息技术有限公司 一种轨道交通监测数据的存储和处理方法及***
CN103761685A (zh) * 2014-01-23 2014-04-30 国家电网公司 基于MapReduce的电力数据并行化异常检测方法
CN106202192A (zh) * 2016-06-28 2016-12-07 浪潮软件集团有限公司 一种基于工作流的大数据分析方法
CN106202399A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种大数据的数据管理***实现方法
CN106354876A (zh) * 2016-09-22 2017-01-25 珠海格力电器股份有限公司 一种数据处理***和方法
CN106709012A (zh) * 2016-12-26 2017-05-24 北京锐安科技有限公司 一种大数据分析方法及装置
CN106682206A (zh) * 2016-12-30 2017-05-17 郑州云海信息技术有限公司 一种大数据处理方法及***
CN107220310A (zh) * 2017-05-11 2017-09-29 中国联合网络通信集团有限公司 一种数据库数据管理***、方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408567A (zh) * 2018-09-11 2019-03-01 广东布田电子商务有限公司 一种大数据处理平台网络架构
CN109327516A (zh) * 2018-10-08 2019-02-12 马鞍山沐及信息科技有限公司 一种基于大数据的能效分析***
CN114638553A (zh) * 2022-05-17 2022-06-17 四川观想科技股份有限公司 一种基于大数据的维修质量分析方法

Similar Documents

Publication Publication Date Title
CN106326457B (zh) 基于大数据的人社人员档案袋数据库的构建方法及***
CN106095391B (zh) 基于大数据平台和算法模型的计算方法及***
CN107707659A (zh) 一种大数据分析方法和***
CN104462738A (zh) 一种标注医学图像的方法、装置和***
CN106354616B (zh) 监测应用执行性能的方法、装置及高性能计算***
CN106708989A (zh) 基于空间时序数据流应用的Skyline查询方法
WO2022184124A1 (zh) 生理电信号分类处理方法、装置、计算机设备和存储介质
CN107133323A (zh) 数据模型构建方法、政务服务业务的实现方法及装置
CN113724847A (zh) 基于人工智能的医疗资源分配方法、装置、终端设备及介质
CN110070076A (zh) 用于选取训练用样本的方法和装置
CN104993958A (zh) 一种用户主数据的生成方法及***
CN106599189A (zh) 基于云计算的动态Skyline查询装置
CN104573074A (zh) 基于医院数据的高速计算分析方法
CN108922632A (zh) 一种数据管理方法及***
CN103927560B (zh) 一种特征选择方法及装置
CN106339956A (zh) 一种旅游服务集成***
Zhang et al. On the cost of interactions in interactive visual machine learning
CN109543512A (zh) 图文摘要的评价方法
Bai RETRACTED ARTICLE: Data cleansing method of talent management data in wireless sensor network based on data mining technology
Yang et al. Application of cloud computing in biomedicine big data analysis cloud computing in big data
CN107203561A (zh) 一种数据处理方法和设备
CN108280230A (zh) 一种分析数据的方法、装置、设备及存储介质
CN108255807A (zh) 一种识别研发方向的方法
CN110084298A (zh) 用于检测图像相似度的方法及装置
CN110413778A (zh) 专家影响力的生成方法、专家推荐方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180216