CN104834730A - 数据分析***和方法 - Google Patents

数据分析***和方法 Download PDF

Info

Publication number
CN104834730A
CN104834730A CN201510249589.3A CN201510249589A CN104834730A CN 104834730 A CN104834730 A CN 104834730A CN 201510249589 A CN201510249589 A CN 201510249589A CN 104834730 A CN104834730 A CN 104834730A
Authority
CN
China
Prior art keywords
data
data analysis
grammer
metadata
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510249589.3A
Other languages
English (en)
Other versions
CN104834730B (zh
Inventor
孙明
苏建倬
朱晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510249589.3A priority Critical patent/CN104834730B/zh
Publication of CN104834730A publication Critical patent/CN104834730A/zh
Application granted granted Critical
Publication of CN104834730B publication Critical patent/CN104834730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据分析***,包括:调度器,用于分配以数据库查询语言描述的任务信息;数据分析引擎,用于将任务信息转换为分布式语法,以对数据建立索引;数据仓库,用于存储具有所建立的索引的数据;分析数据库,与数据仓库同步具有所建立的索引的数据;查询模块,用于接收与针对所述数据的至少一部分的查询相关联的元数据;以及配置模块,用于将元数据转换为数据分析引擎能够识别的第一语法。所述数据分析引擎被配置为将以第一语法描述的元数据转换为分析数据库能够识别的第二语法,述分析数据库被配置为基于以第二语法描述的元数据来执行所述查询。

Description

数据分析***和方法
技术领域
本发明涉及数据处理,更具体地,涉及一种数据分析***和方法。
背景技术
随着信息技术的发展,企业信息***产生了大量的数据。如何从这些海量数据中提取对企业决策分析有用的信息成为企业决策管理人员所面临的重要难题。如何在企业数据仓库的基础上解决可视化灵活分析查询的问题随之而来。
传统上,所有的数据分析需求都须提交给数据部门,数据部门通过执行hadoop的map/reduce程序,快则1小时,慢则几天,才能将结果提供给业务部门。业务部门在获取数据后需要借助于办公软件或其他第三方软件进行数据分析,最终形成分析结果。随着需求的不断变化,往往业务部门需要多次这样反复这样的工作,时效性很差,很难满足业务需要。
这种传统的数据分析方案时间周期长且不可控,缺乏有效的***化管理。针对需求变化,这种方案需有较长的响应时间。此外,缺乏可视化的数据分析***,用户体验不佳。
因此,需要一种改进的数据分析方案。
发明内容
本发明的目的是提供一种数据分析***和方法,能够在企业级数据架构(例如hadoop)的基础上,提供用户高效的(例如,秒级)的灵活可拖拽、可钻取的企业级数据分析方案。
根据本发明的第一方面,提供了一种数据分析***,包括:调度器,用于分发以数据库查询语言描述的任务信息;数据分析引擎,用于将任务信息转换为分布式语法,以对数据建立索引;数据仓库,用于存储具有所建立的索引的数据;分析数据库,与数据仓库同步具有所建立的索引的数据;查询模块,用于接收与针对所述数据的至少一部分的查询相关联的元数据;以及配置模块,用于将元数据转换为数据分析引擎能够识别的第一语法。所述数据分析引擎被配置为将以第一语法描述的元数据转换为分析数据库能够识别的第二语法,所述分析数据库被配置为基于以第二语法描述的元数据来执行所述查询。
在一实施例中,所述数据库查询语言是HQL查询语言。
在一实施例中,所述分布式语法基于Map/Reduce模型,所述索引是lucence索引。
在一实施例中,所述第一语法基于HQL查询语言,所述第二语法基于solr应用服务器。
在一实施例中,所述查询模块包括用户接口,用于从用户接收元数据。
在一实施例中,所述数据分析引擎还被配置为从分析数据库接收查询结果,并将查询结果发送给配置模块,所述配置模块还被配置为将查询结果发送给查询模块,以及所述查询模块还被配置为向用户呈现查询结果。
根据本发明的第二方面,提供了一种数据分析方法,包括:向数据分析引擎分发以数据库查询语言描述的任务信息;数据分析引擎将任务信息转换为分布式语法,以对数据建立索引;将具有所建立的索引的数据存储在数据仓库中;将数据仓库中存储的具有所建立的索引的数据同步至分析数据库;接收与针对所述数据的至少一部分的查询相关联的元数据;将元数据转换为数据分析引擎能够识别的第一语法;数据分析引擎将以第一语法描述的元数据转换为分析数据库能够识别的第二语法;以及分析数据库基于以第二语法描述的元数据来执行所述查询。
上述第一方面的实施例也适用于第二方面。
根据本发明的实施例,能够能够在企业级数据架构的基础上,提供用户高效的的灵活可拖拽、可钻取的企业级数据分析方案。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1是根据本发明实施例的数据分析***的框图;
图2是根据本发明实施例的数据分析方法的流程图。
具体实施方式
以下将结合附图和具体实施例,对本发明的实施例进行详细阐述。应当注意,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了对与本发明没有直接关联的公知技术的详细描述,以防止对本发明的理解造成混淆。
图1是根据本发明实施例的数据分析***100的框图。如图所示,数据分析***100包括调度器110,数据分析引擎120,数据仓库130,分析数据库140,查询模块150和配置模块160。
调度器110用于分发以数据库查询语言(例如HQL查询语言)描述的任务信息。在一个示例中,调度器110基于Hadoop,可以实时监控任务并进行任务的调度。如果任务周期及时间满足预定调度条件,调度器110将以HQL查询语言描述的任务信息发给数据分析引擎120。任务信息可以指示对特定数据进行抽取,抽取的范围可以通过HQL进行描述,降低用户使用门槛。
数据分析引擎120用于将任务信息转换为分布式语法,以对数据建立索引。具体地,这里分布式语法可以基于Map/Reduce模型,索引可以是lucence索引。在一个示例中,数据分析引擎120管理基于Hadoop的数据存储优化、抽取及外部服务,并作为数据仓库130和分析数据库140对外的接口。
数据仓库130用于存储具有所建立的索引的数据。在一个示例中,数据仓库130可以是企业数据仓库,包括企业原始数据存储,并且存储具有所建立的索引的数据。
分析数据库140与数据仓库130同步具有所建立的索引的数据。在一个示例中,分析数据库140负责数据的调度与服务。
查询模块150用于接收与针对具有所建立的索引的数据的至少一部分的查询相关联的元数据。查询模块150包括用户接口,用于从用户接收元数据。这里,元数据可以包括与查询相关的信息,如查询的条目,并且可以是以与用户接口向适应的格式或语言来描述的。在一个示例中,查询模块150基于海量数据的联机分析处理(OLAP)***,提供所见即所得的数据分析界面,支持用户灵活拖拽、钻取等功能,并支持最终用户进行动态多维分析,其中包括跨维、在不同层次之间跨成员的计算。既满足了常用的OLAP需求,又基于数据分析引擎120解决了海量数据的性能问题,对应亿级别数据达到秒级响应速度。
配置模块160用于将元数据转换为数据分析引擎120能够识别的第一语法。这里,第一语法可以基于HQL查询语言。
然后,数据分析引擎120将以第一语法描述的元数据转换为分析数据库140能够识别的第二语法。这里,第二语法可以基于solr应用服务器。然后,分析数据库140基于以第二语法描述的元数据来执行查询。
例如,数据分析引擎120可以实现分布式计算。具体地,数据分析引擎120将元数据转化为solr请求。数据被均匀分散在solr的各个节点。数据分析引擎120将分配solr节点,各个节点均分担了一部分计算任务,并最终将各个节点的结算结果汇总。
在分析数据库140执行查询之后,数据分析引擎120从分析数据库120接收查询结果,并将查询结果发送给配置模块160。配置模块160将查询结果发送给查询模块150。在一个示例中,针对不同的业务场景,配置模块160结合数据分析引擎120对外提供的数据服务对要呈现的内容进行初始化设置,包括权限、样式信息等。最后,查询模块150向用户呈现查询结果。
根据本发明实施例的数据分析***100解决了传统数据分析工具无法有效支撑海量数据的问题,屏蔽了全部技术细节使数据分析人员可以简单便捷的应用数据。此外,数据分析***100自动形成调度任务,数据自动更新、自动优化查询速度,使得能够容易地对海量级数据进行分析。实现了基于hadoop的大数据分析***,使企业数据集成更简单。
与上述数据分析***100相对应,还提供了一种数据分析方法200。方法200可以由上述数据分析***100来执行,包括以下步骤。
在步骤S210,向数据分析引擎分发以数据库查询语言描述的任务信息。这里,数据库查询语言可以是HQL查询语言。
在步骤S220,数据分析引擎将任务信息转换为分布式语法,以对数据建立索引。这里,分布式语法可以基于Map/Reduce模型,索引可以是lucence索引。
在步骤S230,将具有所建立的索引的数据存储在数据仓库中。
在步骤S240,将数据仓库中存储的具有所建立的索引的数据同步至分析数据库。
在步骤S250,接收与针对所述数据的至少一部分的查询相关联的元数据。这里,元数据可以是经由用户接口从用户接收的。
在步骤S260,将元数据转换为数据分析引擎能够识别的第一语法。这里,第一语法可以基于HQL查询语言。
在步骤S270,数据分析引擎将以第一语法描述的元数据转换为分析数据库能够识别的第二语法。这里,第二语法可以基于solr应用服务器。
在步骤S280,分析数据库基于以第二语法描述的元数据来执行所述查询。
方法200还可以包括:数据分析引擎从分析数据库接收查询结果,以便向用户呈现查询结果。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。

Claims (12)

1.一种数据分析***,包括:
调度器,用于分发以数据库查询语言描述的任务信息;
数据分析引擎,用于将任务信息转换为分布式语法,以对数据建立索引;
数据仓库,用于存储具有所建立的索引的数据;
分析数据库,与数据仓库同步具有所建立的索引的数据;
查询模块,用于接收与针对所述数据的至少一部分的查询相关联的元数据;以及
配置模块,用于将元数据转换为数据分析引擎能够识别的第一语法,
其中,所述数据分析引擎被配置为将以第一语法描述的元数据转换为分析数据库能够识别的第二语法,
所述分析数据库被配置为基于以第二语法描述的元数据来执行所述查询。
2.根据权利要求1所述的数据分析***,其中,所述数据库查询语言是HQL查询语言。
3.根据权利要求1所述的数据分析***,其中,所述分布式语法基于Map/Reduce模型,所述索引是lucence索引。
4.根据权利要求1所述的数据分析***,其中,所述第一语法基于HQL查询语言,所述第二语法基于solr应用服务器。
5.根据权利要求1所述的数据分析***,其中,所述查询模块包括用户接口,用于从用户接收元数据。
6.根据权利要求1所述的数据分析***,其中
所述数据分析引擎还被配置为从分析数据库接收查询结果,并将查询结果发送给配置模块,
所述配置模块还被配置为将查询结果发送给查询模块,以及
所述查询模块还被配置为向用户呈现查询结果。
7.一种数据分析方法,包括:
向数据分析引擎分发以数据库查询语言描述的任务信息;
数据分析引擎将任务信息转换为分布式语法,以对数据建立索引;
将具有所建立的索引的数据存储在数据仓库中;
将数据仓库中存储的具有所建立的索引的数据同步至分析数据库;
接收与针对所述数据的至少一部分的查询相关联的元数据;
将元数据转换为数据分析引擎能够识别的第一语法;
数据分析引擎将以第一语法描述的元数据转换为分析数据库能够识别的第二语法;以及
分析数据库基于以第二语法描述的元数据来执行所述查询。
8.根据权利要求7所述的数据分析方法,其中,所述数据库查询语言是HQL查询语言。
9.根据权利要求7所述的数据分析方法,其中,所述分布式语法基于Map/Reduce模型,所述索引是lucence索引。
10.根据权利要求7所述的数据分析方法,其中,所述第一语法基于HQL查询语言,所述第二语法基于solr应用服务器。
11.根据权利要求7所述的数据分析方法,其中,所述元数据是经由用户接口从用户接收的。
12.根据权利要求7所述的数据分析方法,还包括:
数据分析引擎从分析数据库接收查询结果,以便向用户呈现查询结果。
CN201510249589.3A 2015-05-15 2015-05-15 数据分析***和方法 Active CN104834730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510249589.3A CN104834730B (zh) 2015-05-15 2015-05-15 数据分析***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510249589.3A CN104834730B (zh) 2015-05-15 2015-05-15 数据分析***和方法

Publications (2)

Publication Number Publication Date
CN104834730A true CN104834730A (zh) 2015-08-12
CN104834730B CN104834730B (zh) 2018-06-01

Family

ID=53812616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510249589.3A Active CN104834730B (zh) 2015-05-15 2015-05-15 数据分析***和方法

Country Status (1)

Country Link
CN (1) CN104834730B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022483A (zh) * 2016-05-11 2016-10-12 星环信息科技(上海)有限公司 机器学习模型之间进行转换的方法与设备
CN106547807A (zh) * 2015-09-23 2017-03-29 财团法人工业技术研究院 数据分析方法与装置
CN107330607A (zh) * 2017-06-27 2017-11-07 太仓市华安企业管理有限公司 一种企业数据分析***
CN108427689A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 信息获取方法和装置
CN109684352A (zh) * 2018-12-29 2019-04-26 江苏满运软件科技有限公司 数据分析***、方法、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426609A (zh) * 2011-12-28 2012-04-25 厦门市美亚柏科信息股份有限公司 一种基于MapReduce编程架构的索引生成方法和装置
CN102682036A (zh) * 2011-03-18 2012-09-19 新奥特(北京)视频技术有限公司 一种基于非编***的媒资检索方法和***
CN104102710A (zh) * 2014-07-15 2014-10-15 浪潮(北京)电子信息产业有限公司 一种海量数据查询方法
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和***
US20150120695A1 (en) * 2013-10-31 2015-04-30 Tata Consultancy Services Limited Indexing of file in a hadoop cluster

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682036A (zh) * 2011-03-18 2012-09-19 新奥特(北京)视频技术有限公司 一种基于非编***的媒资检索方法和***
CN102426609A (zh) * 2011-12-28 2012-04-25 厦门市美亚柏科信息股份有限公司 一种基于MapReduce编程架构的索引生成方法和装置
US20150120695A1 (en) * 2013-10-31 2015-04-30 Tata Consultancy Services Limited Indexing of file in a hadoop cluster
CN104102710A (zh) * 2014-07-15 2014-10-15 浪潮(北京)电子信息产业有限公司 一种海量数据查询方法
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547807A (zh) * 2015-09-23 2017-03-29 财团法人工业技术研究院 数据分析方法与装置
CN106547807B (zh) * 2015-09-23 2021-01-22 财团法人工业技术研究院 数据分析方法与装置
US11086881B2 (en) 2015-09-23 2021-08-10 Industrial Technology Research Institute Method and device for analyzing data
CN106022483A (zh) * 2016-05-11 2016-10-12 星环信息科技(上海)有限公司 机器学习模型之间进行转换的方法与设备
CN106022483B (zh) * 2016-05-11 2019-06-14 星环信息科技(上海)有限公司 机器学习模型之间进行转换的方法与设备
CN108427689A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 信息获取方法和装置
CN107330607A (zh) * 2017-06-27 2017-11-07 太仓市华安企业管理有限公司 一种企业数据分析***
CN109684352A (zh) * 2018-12-29 2019-04-26 江苏满运软件科技有限公司 数据分析***、方法、存储介质及电子设备
CN109684352B (zh) * 2018-12-29 2020-12-01 江苏满运软件科技有限公司 数据分析***、方法、存储介质及电子设备

Also Published As

Publication number Publication date
CN104834730B (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
US10055426B2 (en) System and method transforming source data into output data in big data environments
CN109446274B (zh) 大数据平台bi元数据管理的方法和装置
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
EP2577507B1 (en) Data mart automation
CN108073625B (zh) 用于元数据信息管理的***及方法
CN104834730A (zh) 数据分析***和方法
CN103646073A (zh) 一种基于HBase表的条件查询优化方法
CN103430144A (zh) 数据源分析
CN109656963B (zh) 元数据获取方法、装置、设备及计算机可读存储介质
Saltz et al. Exploring the process of doing data science via an ethnographic study of a media advertising company
CN106126601A (zh) 一种社保大数据分布式预处理方法及***
CN115335821B (zh) 卸载统计收集
CN111046059B (zh) 基于分布式数据库集群的低效sql语句分析方法及***
CN105786941B (zh) 一种信息挖掘方法和装置
CN105550351B (zh) 旅客行程数据即席查询***及方法
CN113157978B (zh) 数据的标签建立方法和装置
US20160378830A1 (en) Data processing system and data processing method
CN104376021A (zh) 文件推荐***及方法
Hibino et al. A synchronization mechanism with shared storage model for distributed manufacturing simulation systems
Shen et al. Vehicle scheduling based on variable trip times with expected on‐time performance
CN116541578A (zh) 资产数字化多维度管理方法及***
CN105630997A (zh) 一种数据并行处理方法、装置及设备
CN116010380A (zh) 一种基于可视化建模的数据仓库自动化管理方法
CN113220530B (zh) 数据质量监控方法及平台
CN109446263A (zh) 一种数据关系关联方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant