CN106657099A - 一种Spark数据分析服务发布*** - Google Patents

一种Spark数据分析服务发布*** Download PDF

Info

Publication number
CN106657099A
CN106657099A CN201611248761.4A CN201611248761A CN106657099A CN 106657099 A CN106657099 A CN 106657099A CN 201611248761 A CN201611248761 A CN 201611248761A CN 106657099 A CN106657099 A CN 106657099A
Authority
CN
China
Prior art keywords
service
data analysis
spark
data
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611248761.4A
Other languages
English (en)
Other versions
CN106657099B (zh
Inventor
王莹
张立军
孙丙聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tianyuan Creative Technology Ltd
Original Assignee
Beijing Tianyuan Creative Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tianyuan Creative Technology Ltd filed Critical Beijing Tianyuan Creative Technology Ltd
Priority to CN201611248761.4A priority Critical patent/CN106657099B/zh
Publication of CN106657099A publication Critical patent/CN106657099A/zh
Application granted granted Critical
Publication of CN106657099B publication Critical patent/CN106657099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据分析服务分配***,包括Spark数据分析模块、服务调度模块、服务标准制定模块;所述服务标准制定模块用于制定统一的服务发布标准;所述服务调度模块用于接收服务请求并将服务请求发送到空闲服务;所述Spark数据分析模块用于构建服务容器,根据服务发布标准对服务请求进行分析处理。通过制定统一的服务标准,第三方客户或者业务***通过调用数据分析服务进行大数据分析,能够有效的隔离业务***与大数据分析,降低业务***的开发成本;服务的运行环境采用Spark分布式计算***,大幅度提高数据分析的速度与效率。

Description

一种Spark数据分析服务发布***
技术领域
本发明涉及数据分析挖掘技术领域,更具体地,涉及一种Spark数据分析服务发布***。
背景技术
随着信息时代的到来,数据的积累成几何倍增长。为了从已有的海量数据中挖掘有效信息,出现了各种不同的数据分析算法。在数据分析的实际操作过程中,无法立即确定最合适的算法,需要通过不断的尝试不同的算法,或者算法组合来获得不同的计算结果。根据对不同的计算结果进行对比,从而获得最佳的算法方案、以及最优的分析结果,以获得最效的数据反馈信息。
数据分析人员需要既懂算法的原理,又要懂算法的具体代码实现。对技术人员要求较高,同时实现不同的算法组合分析数据时候,需要不断调整编码,较为繁琐。当前的互联网已经进入信息数据时代,随着数据的快速增长,公司、科研机构越来越重视从已有的数据中挖掘有效信息,出现了各种不同的数据挖掘体系架构。
在传统业务***中很少涉及数据挖掘,为了适应大数据的发展,传统的软件公司需要花费很大的时间和代价去构建分析挖掘平台。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的数据分析服务分配***,将服务形式统一,合理利用集群资源,通过Spark分布式架构设计,构建便宜使用的大数据分析服务。
根据本发明的一个方面,提供包括Spark数据分析模块、服务调度模块、服务标准制定模块;所述服务标准制定模块用于制定统一的服务发布标准;所述服务调度模块用于接收服务请求并将服务请求发送到空闲服务;所述Spark数据分析模块用于构建服务容器,根据服务发布标准对服务请求进行分析处理。
作为优选的,用户采用B/S架构通过浏览器查看服务信息、调整服务状态,并设置服务执行形式、服务规模。
作为优选的,所述服务标准制定模块将不同的算法指定统一的服务标准,具体包括服务参数、服务结果组合方式、服务调用模式。
作为优选的,所述服务调度模块还用于将数据分析功能制成开放API的HTTP接口。
作为优选的,所述Spark数据分析模块包括Spark数据分析单元和分布式集群;
所述Spark数据分析单元用于通过Spark分布式计算***,对分配的服务请求进行分析计算;
所述分布式集群用于为Spark数据分析单元提供分布式计算的运行环境。
作为优选的,所述分布式集群包括Spark集群和Hadoop集群。
作为优选的,所述Spark数据分析单元包括业务子单元和流程发布子单元;
所述业务子单元用于根据服务发布标准,将实现服务请求的算法随机组合绘制成流程图;
所述流程发布子单元用于将流程图的各个节点进行组合,生成任务,并将任务制作成服务,对服务请求进行分析处理。
作为优选的,所述服务调度模块用于通过分布式集群提供的集群资料数据,根据负载均衡-随机算法将服务请求发送到空闲的服务。
作为优选的,所述服务调度模块通过socket与服务进行通信,通信内容包括服务请求数据、服务结果数据、服务状态数据、服务计算进程数据。
本发明提供的一种数据分析服务分配***,通过制定统一的服务标准,第三方客户或者业务***通过调用数据分析服务进行大数据分析,能够有效的隔离业务***与大数据分析,降低业务***的开发成本;服务的运行环境采用Spark分布式计算***,大幅度提高数据分析的速度与效率。
附图说明
图1为本发明实施例的数据分析服务分配***结构框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了一种数据分析服务分配***,包括Spark数据分析模块、服务调度模块、服务标准制定模块;所述服务标准制定模块用于制定统一的服务发布标准,具体的包括服务生产标准、参数传递标准、结果返回标准,通过这个标准,能够保证服务的统一性,方便用户使用;所述服务调度模块用于接收服务请求将服务请求发送到空闲服务,分配数据分析任务、均衡集群资源、任务周期执行、服务启动与关闭;所述Spark数据分析模块用于构建服务容器,根据服务发布标准对服务请求进行分析处理。服务的运行环境采用Spark分布式计算***。Spark分布式计算***是主流的云计算框架之一。采用云计算的方式,大幅度提高数据分析的速度与效率。服务的运行环境采用Spark分布式计算***,能够实现对算法的不同顺序组合来分析处理数据,分析流程多样化。
在本实施例中,用户采用B/S架构通过浏览器查看服务信息,如服务参数、服务返回值组合形式、服务状态、流程图、服务调用日志等;调整服务状态,并设置服务执行形式,如定时执行、周期执行等;服务规模,如并发数目等。
作为优选的,所述服务标准制定模块将不同的算法指定统一的服务标准,具体包括服务参数、服务结果组合方式、服务调用模式;通过这个标准,能够保证服务的统一性,能够降低用户使用难度,方便用户使用,提高服务的可用性和业务***代码重用性。
作为优选的,所述Spark数据分析模块包括Spark数据分析单元和分布式集群;
所述Spark数据分析单元用于通过Spark分布式计算***,对分配的服务请求进行分析计算;
所述分布式集群用于为Spark数据分析单元提供分布式计算的运行环境。
作为优选的,所述分布式集群包括Spark集群和Hadoop集群。
作为优选的,所述Spark数据分析单元还包括业务子单元和流程发布子单元;
所述业务子单元用于根据服务标准,将实现服务请求的算法随机组合绘制成流程图;流程图中包含算法实例节点、以及算法实例节点的关系,算法实例节点的关系通过算法之间的连线来确定。
所述流程发布子单元用于将流程图的各个节点进行组合,生成任务,并将任务制作成服务。
当有服务请求时,服务调度模块通过分布式数据集提供的集群资源数据,根据负载均衡-随机算法将服务请求发送到空闲的服务;服务调度模块记录每一个服务的当前状态,采用随机算法,随机调用后台空闲服务。因为在执行环境相同的情况下,从概率学上面讲,随着请求的增多,每个服务被调用次数大体相同。
作为优选的,所述服务调度模块通过socket与服务进行通信,通信内容包括服务请求数据、服务结果数据、服务状态数据、服务计算进程数据。
本发明提供了一种Spark数据分析服务发布***,通过将指定统一的服务发布标准,增加服务的广泛应用,减少错误的产生以及服务使用的复杂度,并通过Spark数据分析架构构建数据分析平台以实现分析计算和分析流程,采用云计算的方式,大幅度的提高数据分析的速度与效率;有效隔离业务***与大数据分析,降低业务***的开发成本,将数据分析功能制作成开放API的HTTP接口,方便第三方调用。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种数据分析服务分配***,其特征在于,包括Spark数据分析模块、服务调度模块、服务标准制定模块;所述服务标准制定模块用于制定统一的服务发布标准;所述服务调度模块用于接收服务请求并将服务请求发送到空闲服务;所述Spark数据分析模块用于构建服务容器,根据服务发布标准对服务请求进行分析处理。
2.根据权利要求1所述的数据分析服务分配***,其特征在于,还包括B/S构架,用户采用B/S架构通过浏览器查看服务信息、调整服务状态,并设置服务执行形式、服务规模。
3.根据权利要求1所述的数据分析服务分配***,其特征在于,所述服务标准制定模块将不同的算法指定统一的服务标准,具体包括服务参数、服务结果组合方式、服务调用模式。
4.根据权利要求1所述的数据分析服务分配***,其特征在于,所述服务调度模块还用于将数据分析功能制成开放API的HTTP接口。
5.根据权利要求2所述的数据分析服务分配***,其特征在于,所述Spark数据分析模块包括Spark数据分析单元和分布式集群;
所述Spark数据分析单元用于通过Spark分布式计算***,对分配的服务请求进行分析计算;
所述分布式集群用于为Spark数据分析单元提供分布式计算的运行环境。
6.根据权利要求5所述的数据分析服务分配***,其特征在于,所述分布式集群包括Spark集群和Hadoop集群。
7.根据权利要求5所述的数据分析服务分配***,其特征在于,所述Spark数据分析单元还包括业务子和流程发布子单元;
所述业务子单元用于根据服务发布标准,将实现服务请求的算法随机组合绘制成流程图;
所述流程发布子单元用于将流程图的各个节点进行组合,生成任务,并将任务制作成服务,对服务请求进行分析处理。
8.根据权利要求5所述的数据分析服务分配***,其特征在于,所述服务调度模块用于通过分布式集群提供的集群资料数据,根据负载均衡-随机算法将服务请求发送到空闲的服务。
9.根据权利要求1所述的数据分析服务分配***,其特征在于,所述服务调度模块通过socket与服务进行通信,通信内容包括服务请求数据、服务结果数据、服务状态数据、服务计算进程数据。
CN201611248761.4A 2016-12-29 2016-12-29 一种Spark数据分析服务发布*** Active CN106657099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611248761.4A CN106657099B (zh) 2016-12-29 2016-12-29 一种Spark数据分析服务发布***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611248761.4A CN106657099B (zh) 2016-12-29 2016-12-29 一种Spark数据分析服务发布***

Publications (2)

Publication Number Publication Date
CN106657099A true CN106657099A (zh) 2017-05-10
CN106657099B CN106657099B (zh) 2020-06-16

Family

ID=58836389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611248761.4A Active CN106657099B (zh) 2016-12-29 2016-12-29 一种Spark数据分析服务发布***

Country Status (1)

Country Link
CN (1) CN106657099B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427992A (zh) * 2018-03-16 2018-08-21 济南飞象信息科技有限公司 一种基于边缘云计算的机器学习训练***及方法
CN109729086A (zh) * 2018-12-28 2019-05-07 北京奇安信科技有限公司 策略管理方法、***、设备及介质
CN110288104A (zh) * 2019-07-04 2019-09-27 北京百佑科技有限公司 运维流程***、运维流程管理的方法及装置
CN111031123A (zh) * 2019-12-10 2020-04-17 中盈优创资讯科技有限公司 Spark任务的提交方法、***、客户端及服务端
CN112115202A (zh) * 2020-09-18 2020-12-22 北京人大金仓信息技术股份有限公司 集群环境下的任务分发方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120173476A1 (en) * 2011-01-04 2012-07-05 Nasir Rizvi System and Method for Rule-Based Asymmetric Data Reporting
CN105608160A (zh) * 2015-12-21 2016-05-25 浪潮软件股份有限公司 一种分布式大数据分析方法
CN105930460A (zh) * 2016-04-21 2016-09-07 重庆邮电大学 一种集成多算法的大数据分析中间件平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120173476A1 (en) * 2011-01-04 2012-07-05 Nasir Rizvi System and Method for Rule-Based Asymmetric Data Reporting
CN105608160A (zh) * 2015-12-21 2016-05-25 浪潮软件股份有限公司 一种分布式大数据分析方法
CN105930460A (zh) * 2016-04-21 2016-09-07 重庆邮电大学 一种集成多算法的大数据分析中间件平台

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427992A (zh) * 2018-03-16 2018-08-21 济南飞象信息科技有限公司 一种基于边缘云计算的机器学习训练***及方法
CN109729086A (zh) * 2018-12-28 2019-05-07 北京奇安信科技有限公司 策略管理方法、***、设备及介质
CN109729086B (zh) * 2018-12-28 2021-02-23 奇安信科技集团股份有限公司 策略管理方法、***、设备及介质
CN110288104A (zh) * 2019-07-04 2019-09-27 北京百佑科技有限公司 运维流程***、运维流程管理的方法及装置
CN111031123A (zh) * 2019-12-10 2020-04-17 中盈优创资讯科技有限公司 Spark任务的提交方法、***、客户端及服务端
CN112115202A (zh) * 2020-09-18 2020-12-22 北京人大金仓信息技术股份有限公司 集群环境下的任务分发方法和装置

Also Published As

Publication number Publication date
CN106657099B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN106657099A (zh) 一种Spark数据分析服务发布***
CN106850788B (zh) 面向多源异构地理信息资源的集成框架及集成方法
CN105809356A (zh) 一种基于应用集成云平台的信息***资源管理方法
CN109831478A (zh) 基于规则及模型的分布式实时处理智能决策***及方法
CN108932588B (zh) 一种前后端分离的水电站群优化调度***及方法
CN105049218B (zh) PhiCloud云计费方法及***
CN106777227A (zh) 基于云平台的多维数据融合分析***及方法
CN103023980B (zh) 一种云平台处理用户服务请求的方法和***
CN102300011A (zh) 在无队列呼叫中心中用于填充及维护数据结构的自动机制
CN106375480A (zh) 一种基于分布式***的电能数据实时采集***及方法
CN103198099A (zh) 基于云计算的面向电信业务的数据挖掘应用方法
CN103544060A (zh) 一种基于webservice的服务调度***及方法
CN109361737A (zh) 基于物联网的农业监管***
CN103744880B (zh) 一种基于云计算的dna数据管理方法及***
CN106408490A (zh) 一种激活工单处理方法和激活工单处理装置
CN110505301A (zh) 一种航空制造车间工业大数据处理框架
CN103152428A (zh) 云平台上节点间进行服务通信的方法
CN106131186A (zh) 一种基于Redis分布式缓存的用电信息采集接口调试方法
CN115858672A (zh) 电力终端管理方法、装置、电子设备及存储介质
CN109857965A (zh) 基于soa的气象服务产品发布服务器控制***及方法
Xie et al. Research on Information Sharing System of Digital Library in Cloud Computing Environment
CN109359146A (zh) 一种自动化etl数据处理工具及其使用方法
CN109150938A (zh) 基于云服务的卫星应用公共服务平台
CN114596046A (zh) 一种基于业务中台及数据中台的统一数字模型的集成平台
Gargees et al. Multi-stage distributed computing for big data: Evaluating connective topologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant