CN106339439A - 一种大数据分析方法 - Google Patents

一种大数据分析方法 Download PDF

Info

Publication number
CN106339439A
CN106339439A CN201610699389.2A CN201610699389A CN106339439A CN 106339439 A CN106339439 A CN 106339439A CN 201610699389 A CN201610699389 A CN 201610699389A CN 106339439 A CN106339439 A CN 106339439A
Authority
CN
China
Prior art keywords
data
subsystem
analysis method
acquisition module
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610699389.2A
Other languages
English (en)
Inventor
陈晓琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Coneton Science and Technology Co Ltd
Original Assignee
Chengdu Coneton Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Coneton Science and Technology Co Ltd filed Critical Chengdu Coneton Science and Technology Co Ltd
Priority to CN201610699389.2A priority Critical patent/CN106339439A/zh
Publication of CN106339439A publication Critical patent/CN106339439A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了大数据分析方法,其特征在于,包括以下步骤:步骤一:利用数据采集子***进行数据采集;步骤二:将采集到的数据导入数据存储子***中;步骤三:利用数据处理子***对数据存储子***中的数据进行清洗、转化、提取和计算;步骤四:利用数据分析子***对步骤三处理后的数据进行统计分析和深度挖掘;步骤五:利用数据呈现子***对步骤四处理后的数据以表格、图片和文字的形式进行呈现。本发明通过对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。

Description

一种大数据分析方法
本发明涉及一种分析方法,更详细地,涉及一种大数据分析方法。
背景技术
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
数据多样化的形成主要有两方面的原因:一是数据来源多,有搜索引擎、社交网络、通话记录、传感器等等;二是数据格式多,有结构数据、半结构数据和非结构数据。据相关数据统计,每秒钟人们发送290封电子邮件;亚马逊处理72.9笔订单;每分钟人们在YouTube上传20小时的视频;每月人们总共在facebook上浏览7000亿分钟。
目前的数据分析面临的问题是数据量大、多种结构形式和实时性等多样化要求,这些问题增加了数据采集和整合困难,传统的基于块和文件的存储***的架构设计已无法满足数据分析的需要。
发明内容
本发明的目的是克服现有技术的不足,提供一种大数据分析方法,该方法可以对数据进行采集、存储、分析、处理和呈现,达到数据整合的目的。
一种大数据分析方法,其特征在于,包括以下步骤:步骤一:利用数据采集子***进行数据采集;步骤二:将采集到的数据导入数据存储子***中;步骤三:利用数据处理子***对数据存储子***中的数据进行清洗、转化、提取和计算;步骤四:利用数据分析子***对步骤三处理后的数据进行统计分析和深度挖掘;步骤五:利用数据呈现子***对步骤四处理后的数据以表格、图片和文字的形式进行呈现。本发明步骤三中对数据的清理包括数据双录入对比、数据合并、查找重复值、查找缺失值和查找异常值。
进一步地,所述数据采集子***包括日志采集模块、网络数据采集模块和其他数据采集模块;所述日志采集模块为基于插件的模式,构建适应业务场景的采集插件,***会根据不同的日志源调用不同的采集服务对数据进行采集,并统一格式处理,持久到日志库;所述网络数据采集模块通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件。所述其他数据采集模块通过与企业或研究机构合作,使用特定***接口的方式采集数据。
进一步地,所述数据存储子***为一个集中的大型分布式数据库。
进一步地,所述数据处理子***对数据的提取包括数据抽取、数据转换、数据加工和数据装载。
本发明的有益效果在于:
1、本发明通过对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。
2、本发明的日志采集模块采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求;网络数据采集模块支持图片、音频和视频等文件或附件的采集,附件与正文可以自动关联;其他数据采集模块主要是针对企业生产经营数据或学科研究数据等保密性要求较高的数据,使用特定***接口提高数据安全性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为实施本发明的***结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
本实施例提供一种大数据分析方法,包括以下步骤:步骤一:利用数据采集子***进行数据采集;步骤二:将采集到的数据导入数据存储子***中;步骤三:利用数据处理子***对数据存储子***中的数据进行清洗、转化、提取和计算;步骤四:利用数据分析子***对步骤三处理后的数据进行统计分析和深度挖掘;步骤五:利用数据呈现子***对步骤四处理后的数据以表格、图片和文字的形式进行呈现。数据存储子***为一个集中的大型分布式数据库。
本实施例是基于一种数据分析***来实现的,该数据分析***包括包括数据采集子***、数据存储子***、数据处理子***、数据分析子***和数据呈现子***;数据采集子***用于采集数据并将数据传送到数据存储子***;数据存储子***用于存储数据采集子***采集的数据;数据处理子***用于清洗、转化、提取和计算数据存储子***中的数据;数据分析子***用于对数据处理子***处理后的数据进行统计分析和深度挖掘;数据呈现子***用于以表格、图片和文字的形式呈现数据分析子***处理后的数据。
本实施例中,数据采集子***包括日志采集模块、网络数据采集模块和其他数据采集模块;日志采集模块为基于插件的模式,构建适应业务场景的采集插件,***会根据不同的日志源调用不同的采集服务对数据进行采集,并统一格式处理,持久到日志库;网络数据采集模块通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件;其他数据采集模块通过与企业或研究机构合作,使用特定***接口的方式采集数据。
本实施例中数据处理子***对数据的清理包括数据双录入对比、数据合并、查找重复值、查找缺失值和查找异常值;数据处理子***对数据的提取包括数据抽取、数据转换、数据加工和数据装载。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种大数据分析方法,其特征在于,包括以下步骤:
步骤一:利用数据采集子***进行数据采集;
步骤二:将采集到的数据导入数据存储子***中;
步骤三:利用数据处理子***对数据存储子***中的数据进行清洗、转化、提取和计算;所述数据清洗包括数据双录入对比、数据合并、查找重复值、查找缺失值和查找异常值;
步骤四:利用数据分析子***对步骤三处理后的数据进行统计分析和深度挖掘;
步骤五:利用数据呈现子***对步骤四处理后的数据以表格、图片和文字的形式进行呈现。
2.根据权利要求1所述的一种大数据分析方法,其特征在于,所述数据采集子***包括日志采集模块、网络数据采集模块和其他数据采集模块;
所述日志采集模块为基于插件的模式,构建适应业务场景的采集插件,***会根据不同的日志源调用不同的采集服务对数据进行采集,并统一格式处理,持久到日志库;
所述网络数据采集模块通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件;
所述其他数据采集模块通过与企业或研究机构合作,使用特定***接口的方式采集数据。
3.根据权利要求1所述的一种大数据分析方法,其特征在于,所述数据存储子***为一个集中的大型分布式数据库。
4.根据权利要求1所述的一种大数据分析方法,其特征在于,所述数据处理子***对数据的提取包括数据抽取、数据转换、数据加工和数据装载。
CN201610699389.2A 2016-08-22 2016-08-22 一种大数据分析方法 Pending CN106339439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610699389.2A CN106339439A (zh) 2016-08-22 2016-08-22 一种大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610699389.2A CN106339439A (zh) 2016-08-22 2016-08-22 一种大数据分析方法

Publications (1)

Publication Number Publication Date
CN106339439A true CN106339439A (zh) 2017-01-18

Family

ID=57824237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610699389.2A Pending CN106339439A (zh) 2016-08-22 2016-08-22 一种大数据分析方法

Country Status (1)

Country Link
CN (1) CN106339439A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971011A (zh) * 2017-05-19 2017-07-21 肇庆市智高电机有限公司 一种基于云平台的大数据分析方法
CN107515920A (zh) * 2017-08-22 2017-12-26 湖北大学 一种基于动态航测的图像大数据分析方法
CN107656974A (zh) * 2017-09-05 2018-02-02 北京天平检验行有限公司 一种大数据分析***
CN107679086A (zh) * 2017-09-04 2018-02-09 北京天平检验行有限公司 一种大数据处理***
CN107909462A (zh) * 2017-10-19 2018-04-13 南京金鼎嘉崎信息科技有限公司 一种银行账单分析***
CN108304551A (zh) * 2018-02-01 2018-07-20 山东汇贸电子口岸有限公司 一种企业大数据分析***和方法
CN108510213A (zh) * 2018-05-11 2018-09-07 苏州华兴源创电子科技有限公司 将任务依次分配至任务组的方法、装置、设备及介质
CN108846034A (zh) * 2018-05-28 2018-11-20 贵州中科恒运软件科技有限公司 一种关于用户行为分析的方法
CN108989336A (zh) * 2018-08-19 2018-12-11 杭州安恒信息技术股份有限公司 一种用于网络安全事件的应急处置***及应急处置方法
CN109189842A (zh) * 2018-08-02 2019-01-11 莆田学院 大数据分析方法
CN110309232A (zh) * 2018-02-07 2019-10-08 北京第一视角科技有限公司 可视化的医学数据分析方法及***
CN111190972A (zh) * 2019-12-31 2020-05-22 武汉俊楚信息科技有限公司 一种实验数据管理***
CN112633102A (zh) * 2020-12-15 2021-04-09 西安电子科技大学 一种基于图像处理的大数据分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110314001A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Performing query expansion based upon statistical analysis of structured data
CN104008437A (zh) * 2013-02-25 2014-08-27 陈国祥 智能电网的可视化展示***及其方法
CN104112207A (zh) * 2014-07-29 2014-10-22 浪潮软件集团有限公司 一种基于互联网数据的电子商务交易监测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110314001A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Performing query expansion based upon statistical analysis of structured data
CN104008437A (zh) * 2013-02-25 2014-08-27 陈国祥 智能电网的可视化展示***及其方法
CN104112207A (zh) * 2014-07-29 2014-10-22 浪潮软件集团有限公司 一种基于互联网数据的电子商务交易监测方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971011A (zh) * 2017-05-19 2017-07-21 肇庆市智高电机有限公司 一种基于云平台的大数据分析方法
CN107515920A (zh) * 2017-08-22 2017-12-26 湖北大学 一种基于动态航测的图像大数据分析方法
CN107679086A (zh) * 2017-09-04 2018-02-09 北京天平检验行有限公司 一种大数据处理***
CN107656974A (zh) * 2017-09-05 2018-02-02 北京天平检验行有限公司 一种大数据分析***
CN107656974B (zh) * 2017-09-05 2020-02-21 北京天平检验行有限公司 一种大数据分析***
CN107909462A (zh) * 2017-10-19 2018-04-13 南京金鼎嘉崎信息科技有限公司 一种银行账单分析***
CN108304551A (zh) * 2018-02-01 2018-07-20 山东汇贸电子口岸有限公司 一种企业大数据分析***和方法
CN110309232A (zh) * 2018-02-07 2019-10-08 北京第一视角科技有限公司 可视化的医学数据分析方法及***
CN108510213A (zh) * 2018-05-11 2018-09-07 苏州华兴源创电子科技有限公司 将任务依次分配至任务组的方法、装置、设备及介质
CN108846034A (zh) * 2018-05-28 2018-11-20 贵州中科恒运软件科技有限公司 一种关于用户行为分析的方法
CN109189842A (zh) * 2018-08-02 2019-01-11 莆田学院 大数据分析方法
CN108989336A (zh) * 2018-08-19 2018-12-11 杭州安恒信息技术股份有限公司 一种用于网络安全事件的应急处置***及应急处置方法
CN108989336B (zh) * 2018-08-19 2021-09-28 杭州安恒信息技术股份有限公司 一种用于网络安全事件的应急处置***及应急处置方法
CN111190972A (zh) * 2019-12-31 2020-05-22 武汉俊楚信息科技有限公司 一种实验数据管理***
CN112633102A (zh) * 2020-12-15 2021-04-09 西安电子科技大学 一种基于图像处理的大数据分析方法

Similar Documents

Publication Publication Date Title
CN106339439A (zh) 一种大数据分析方法
CN108304551A (zh) 一种企业大数据分析***和方法
CN105426502A (zh) 基于社交网络的人物信息搜索与关系网绘制的方法
CN101334784B (zh) 计算机辅助报告与知识库产生的方法
CN104778210B (zh) 一种微博转发树和转发森林构建方法
CN104835014A (zh) 一种企业科研信息服务平台
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及***
Al-Taie et al. Online data preprocessing: A case study approach
CN103390244A (zh) 一种具有运营商特色的用户好友关系聚合方法及聚合平台
CN103885993A (zh) 用于微博的舆情监控方法和装置
CN104615698A (zh) 一种人脉网络***及其数据整合方法
Wang et al. An empirical study on the relationship between the followers' number and influence of microblogging
Gomes et al. Towards an infrastructure to support big data for a smart city project
CN106649578A (zh) 一种基于社交网络平台的舆情分析方法及***
CN103970891A (zh) 一种基于情境的用户兴趣信息查询方法
CN104077386A (zh) 一种族谱数据关系表的创建及查询方法
CN106339451A (zh) 基于大数据的数据挖掘***
CN106354770A (zh) 一种数据分析***
CN109189842A (zh) 大数据分析方法
CN104199947A (zh) 一种对重点人员言论监督与关联关系挖掘的方法
CN104965932A (zh) 一种在日志集中管理平台中对日志进行实时推送的方法
CN108830735B (zh) 一种线上人际关系分析方法与***
CN104317880A (zh) 一种专门针对微博数据采集方式的方法
US20140028683A1 (en) Methods and software of interactively and dynamically investigating data
CN102982011A (zh) 一种用于识别失序文本的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170118

RJ01 Rejection of invention patent application after publication