CN106227896A - 一种大数据可视化分析方法 - Google Patents

一种大数据可视化分析方法 Download PDF

Info

Publication number
CN106227896A
CN106227896A CN201610755600.8A CN201610755600A CN106227896A CN 106227896 A CN106227896 A CN 106227896A CN 201610755600 A CN201610755600 A CN 201610755600A CN 106227896 A CN106227896 A CN 106227896A
Authority
CN
China
Prior art keywords
data
analysis method
fractional analysis
big data
data visualization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610755600.8A
Other languages
English (en)
Inventor
郜军伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hezhong Data Technology Co Ltd
Original Assignee
Hangzhou Hezhong Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hezhong Data Technology Co Ltd filed Critical Hangzhou Hezhong Data Technology Co Ltd
Priority to CN201610755600.8A priority Critical patent/CN106227896A/zh
Publication of CN106227896A publication Critical patent/CN106227896A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大数据可视化分析方法,包括:整合大规模数据源,存储后,从中抽取用于分析的样例数据,进行去燥操作,得到分析样本,进行排序、分组统计,找出数据的内在规律,生成数据模型,以DF表的形式保存。最后,以可视化图形方式将数据模型进行输出。本方法可处理海量数据,以更友好的方式查询大量数据,支持函数,数据处理速度快,可视化呈现方式多样。

Description

一种大数据可视化分析方法
技术领域
本发明涉及数据分析技术领域,尤其涉及一种大数据可视化分析方法。
背景技术
随着IT***的蓬勃发展,各行各业积聚了大量的数据,对大量数据进行分析,挖掘有价值的信息来促进生产和销售已越来越重要。而承担具体分析工作的行业专家或最终用户,虽然具备丰富的业务知识和一定的IT技能,使用EXCEL数据透视表进行分析,也能处理大量规范数据。但是,用EXCEL数据***进行数据分析,却存在如下缺点:
1、只能处理*.xls、*.xlsx格式的数据,对其它格式的数据无能为力;
2、处理的数据量有限(*.xls格式只能处理65536行、256列,*.xlsx格式只能处理1048576行、16384列);
3、当数据量较多时,运行速度十分慢。
发明内容
本发明为克服上述的不足之处,目的在于提供一种大数据可视化分析方法,本方法可处理海量数据,以更友好的方式查询大量数据,支持函数,数据处理速度快,可视化呈现方式多样。
本发明是通过以下技术方案达到上述目的:一种大数据可视化分析方法,包括如下步骤:
(1)整合大规模数据源,并将大规模数据源存储到分布式数据库;
(2)通过配置引擎界面配置参数,从大规模数据源中抽取用于分析的样例数据;
(3)对样例数据进行去燥操作,消除无关数据,得到分析样本;
(4)对分析样本进行排序、分组统计,找出数据的内在规律,生成数据模型,以DF表的形式保存;
(5)将数据模型以可视化图形方式进行输出。
作为优选,所述的大规模数据源包括EXCEL、CSV、PKL、ESQL、UDB、JDBC、SQLITE、WEBSERVICE、NOSQL数据源中的任意一种或组合。
作为优选,所述的去燥操作通过调用UDF公式和lambda公式实现。
作为优选,所述的去燥操作为增加、选择、更改类型、字符串处理中的任意一种操作或组合操作。
作为优选,所述的UDF公式为:
DF2=@udf DF1by udf0.UDF0
其中,DF2为运算后的返回结果、DF1为原始数据、UDF0为包函数。
作为优选,所述的包函数包括new_empty_df、clone_df、df_agg_count、df_T、df_types、df_desc、df_fillna、df_set_index、df_drop_col、df_drop_icol、df_drop_row、df_limit、df_append、df_reset_index、df_unstack、df_min_max、df_mean_std、df_10k、df_worktime、df_kmeans中的任意一种。
作为优选,所述的lambda公式为:
DF=lambda x:fn(x)
其中,DF为运算后的返回结果、x为传入值。
作为优选,所述的可视化图形包括折线图、柱状图、排名表、循环滚动播放图、信息块、散点图、堆积图、饼图、地图热力图、地图散点图、地图联动图、热力图、气泡图、玫瑰图、柱线图、面积区域图、横向柱状图、桑基图、迁徙图、关系图中的一种或组合。
本发明的有益效果在于:(1)可处理海量数据。(2)以更友好的方式查询大量数据。通过简单的拖拽、伸拉,就可以随意查看任何数据,查看粒度细化到列。(3)支持函数。通过不断积累,形成一个函数库,需要时直接调用或直接定义,不用费神去命名,不用每次分析都写新程序;(4)数据处理速度快。采用基于内存的多引擎计算架构,所有的数据装载入内存进行快速实时计算,每个引擎相互独立隔离,可以根据需要进行并行计算;(5)可视化呈现方式多样。可以将数据以易于观察的可视化图形方式表现出来,更好的帮助分析师处理和比较数据。
附图说明
图1是本发明的一种大数据可视化分析方法的流程图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,本发明的一种大数据可视化分析方法,整合大规模数据源,存储后,从中抽取用于分析的样例数据,进行去燥操作,得到符合分析样本,进行排序、分组统计,找出数据的内在规律,生成数据模型,以DF表的形式保存。最后,以可视化图形方式将数据模型进行图形化输出。
具体地,包括以下步骤:
步骤1:将存储于不同地理位置的EXCEL、CSV、PKL、ESQL、UDB、JDBC、SQLITE、WEBSERVICE、NOSQL数据源,通过网络连接进行物理通信。
步骤2:在配置引擎界面,通过配置数据源IP地址及端口号,将数据源整合到分布式数据库UDB,存储为二维表结构的DF表,每个表格由一个索引列(可以用来竖向取值)和多个数据列组成;
步骤3:选择任意一个或多个数据源,并在引擎界面显示选择后的数据源的库、表及字段信息;已选择的数据载入内存进行处理。
步骤4:调用UDF公式和lambda公式,修正、清洗不合适数据,检查错误数据,为分析提供必要的基础数据,去除燥音数据。
UDF公式十分简洁,只需通过DF表设定原始数据,通过包函数设置参数,进行运算后即可返回结果DF2。
DF2=@udf DF1by udf0.UDF0包函数
例如:
1、增加:在空表df0中添加行,该行包含“中国、浙江、杭州”,最终数据存储在df表a中。
a=@udf df0@sys by udf0.df_append with(中国,浙江,杭州)
2、选择:取log表的前三行
c=@udf log by udf0.df_limit with(0,3)
lambda函数,是一个匿名函数,即没有函数名的函数,可以当作对象传来传去并且随时调用。当用户在需要使用一个函数,但是又不想费神去命名时使用。语法结构更加接近人的思维,以更加自然的方式来实现。用法则更为简洁、方便:
DF=lambda x:fn(x)
其中,DF为运算后的返回结果、x为传入值。
例如:
1、更改类型:原始格式是12-01-2014 12:12:12,对其进行处理,在未尾新增“000”变换日期格式为2014-12-01 12:12:12.000
rsj1=lambda lrsj by(x:"%s-%s%s.000"%(x[6:10],x[0:5],x[11:20]))
2、字符串处理:将变量值的0-10位和11-23位,通过字母T拼接起来,将结果保存到day2
day2=@sdf sys_lambda with($date,x:"%sT%s"%(x[0:10],x[11:23]))
步骤5:通过步骤4,得到分析样本数据,对分析样本进行排序、分组统计,找出数据的内在规律。
例如,对数据进行排序,按字段age升序排列
log2=order log by age
按字段age降序排列
将df表按hour字段进行分组
gt=group df by hour
对d字段求和,d2字段求最小值,d3字段求标准差
df2=agg gt by(d:sum,d2:min,d3:std)
步骤6:生成数据模型,以DF表的形式保存;
将以上数据处理过程封装,作为数据模型,以<key,value>的格式存储于SSDB数据库。
步骤7:以可视化图形展示DF表。
通过折线图、柱状图、排名表、循环滚动播放图、信息块、散点图、堆积图、饼图、地图热力图、地图散点图、地图联动图、热力图、气泡图、玫瑰图中的一种或组合,将DF表的数据进行可视化输出。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (8)

1.一种大数据可视化分析方法,其特征在于,包括如下步骤:
(1)整合大规模数据源,并将大规模数据源存储到分布式数据库;
(2)通过配置引擎界面配置参数,从大规模数据源中抽取用于分析的样例数据;
(3)对样例数据进行去燥操作,消除无关数据,得到分析样本;
(4)对分析样本进行排序、分组统计,找出数据的内在规律,生成数据模型,以DF表的形式保存;
(5)将数据模型以可视化图形方式进行输出。
2.根据权利要求1所述的一种大数据可视化分析方法,其特征在于:所述的大规模数据源包括EXCEL、CSV、PKL、ESQL、UDB、JDBC、SQLITE、WEBSERVICE、NOSQL数据源中的任意一种或组合。
3.根据权利要求1所述的一种大数据可视化分析方法,其特征在于:所述的去燥操作通过调用UDF公式和lambda公式实现。
4.根据权利要求3所述的一种大数据可视化分析方法,其特征在于:所述的去燥操作为增加、选择、更改类型、字符串处理中的任意一种操作或组合操作。
5.根据权利要求3所述的一种大数据可视化分析方法,其特征在于:所述的UDF公式为:
DF2=@udf DF1 by udf0.UDF0
其中,DF2为运算后的返回结果、DF1为原始数据、UDF0为包函数。
6.根据权利要求5所述的一种大数据可视化分析方法,其特征在于:所述的包函数包括new_empty_df、clone_df、df_agg_count、df_T、df_types、df_desc、df_fillna、df_set_index、df_drop_col、df_drop_icol、df_drop_row、df_limit、df_append、df_reset_index、df_unstack、df_min_max、df_mean_std、df_10k、df_worktime、df_kmeans中的任意一种。
7.根据权利要求3所述的一种大数据可视化分析方法,其特征在于:所述的lambda公式为:
DF=lambda x:fn(x)
其中,DF为运算后的返回结果、x为传入值。
8.根据权利要求1所述的一种大数据可视化分析方法,其特征在于:所述的可视化图形包括折线图、柱状图、排名表、循环滚动播放图、信息块、散点图、堆积图、饼图、地图热力图、地图散点图、地图联动图、热力图、气泡图、玫瑰图、柱线图、面积区域图、横向柱状图、桑基图、迁徙图、关系图中的一种或组合。
CN201610755600.8A 2016-08-28 2016-08-28 一种大数据可视化分析方法 Pending CN106227896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610755600.8A CN106227896A (zh) 2016-08-28 2016-08-28 一种大数据可视化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610755600.8A CN106227896A (zh) 2016-08-28 2016-08-28 一种大数据可视化分析方法

Publications (1)

Publication Number Publication Date
CN106227896A true CN106227896A (zh) 2016-12-14

Family

ID=58072609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610755600.8A Pending CN106227896A (zh) 2016-08-28 2016-08-28 一种大数据可视化分析方法

Country Status (1)

Country Link
CN (1) CN106227896A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268648A (zh) * 2018-01-25 2018-07-10 成都明途科技有限公司 一种基于管理***的数据可视化方法
CN110737709A (zh) * 2019-09-23 2020-01-31 紫光云(南京)数字技术有限公司 基于可视化编辑***的公式模型方法
CN113312375A (zh) * 2021-05-18 2021-08-27 南京中科水治理股份有限公司 一种水生态修复工程数据可视化的挖掘与实现方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117280A1 (en) * 2011-11-04 2013-05-09 BigML, Inc. Method and apparatus for visualizing and interacting with decision trees
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取***及方法
CN104461531A (zh) * 2014-12-02 2015-03-25 福建工程学院 一种报表***自定义函数的实现方法
CN104679827A (zh) * 2015-01-14 2015-06-03 北京得大信息技术有限公司 一种基于大数据的***息关联方法及挖掘引擎
US20150154269A1 (en) * 2012-09-07 2015-06-04 Splunk Inc. Advanced field extractor with modification of an extracted field
CN105260835A (zh) * 2015-10-13 2016-01-20 北京凯行同创科技有限公司 多来源业务大数据的建模、分析、自我优化的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117280A1 (en) * 2011-11-04 2013-05-09 BigML, Inc. Method and apparatus for visualizing and interacting with decision trees
US20150154269A1 (en) * 2012-09-07 2015-06-04 Splunk Inc. Advanced field extractor with modification of an extracted field
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取***及方法
CN104461531A (zh) * 2014-12-02 2015-03-25 福建工程学院 一种报表***自定义函数的实现方法
CN104679827A (zh) * 2015-01-14 2015-06-03 北京得大信息技术有限公司 一种基于大数据的***息关联方法及挖掘引擎
CN105260835A (zh) * 2015-10-13 2016-01-20 北京凯行同创科技有限公司 多来源业务大数据的建模、分析、自我优化的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268648A (zh) * 2018-01-25 2018-07-10 成都明途科技有限公司 一种基于管理***的数据可视化方法
CN110737709A (zh) * 2019-09-23 2020-01-31 紫光云(南京)数字技术有限公司 基于可视化编辑***的公式模型方法
CN110737709B (zh) * 2019-09-23 2022-10-28 紫光云(南京)数字技术有限公司 基于可视化编辑***的公式模型生成方法
CN113312375A (zh) * 2021-05-18 2021-08-27 南京中科水治理股份有限公司 一种水生态修复工程数据可视化的挖掘与实现方法

Similar Documents

Publication Publication Date Title
US11670021B1 (en) Enhanced graphical user interface for representing events
CN105631003B (zh) 支持海量数据分组统计的智能索引构建、查询及维护方法
Pagès Links between root developmental traits and foraging performance
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
CN103617576B (zh) 一种通用设备故障检测维修方法
CN105653507B (zh) 图表生成方法及装置
CN106156350A (zh) 一种可视化大数据分析方法及***
CN104778540A (zh) 一种建材装备制造bom管理方法及管理***
CN106776995B (zh) 一种基于模型驱动架构的结构化数据树形采集方法
CN107451149A (zh) 流量数据查询任务的监控方法及其装置
CN106227896A (zh) 一种大数据可视化分析方法
CN106897285B (zh) 数据要素抽取分析***及数据要素抽取分析方法
CN109871418A (zh) 一种时空数据的空间索引方法和***
CN108182063A (zh) 一种大数据分析可视化配置的实现方法
CN108139965A (zh) 管理服务器以及使用该管理服务器的管理方法
CN104111836A (zh) 一种网络采集处理异步加载数据的方法
CN103019811A (zh) 多任务资源冲突分段检测方法
CN108256032A (zh) 一种对时空数据的共现模式进行可视化的方法及装置
CN107239539A (zh) 一种基于关系型数据库的自定义建模方法
CN110968624A (zh) 一种动物疫病监测数据统计分析地理信息***及实现方法
CN107153702A (zh) 一种数据处理方法及装置
Keyvanpour A survey on community detection methods based on the nature of social networks
CN114238360A (zh) 一种用户行为分析***
CN113947468A (zh) 一种数据管理方法及平台
CN104408057B (zh) 一种数据汇总的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161214