CN110515967A - 基于spark计算框架的数据分析方法及电子设备 - Google Patents

基于spark计算框架的数据分析方法及电子设备 Download PDF

Info

Publication number
CN110515967A
CN110515967A CN201910817122.2A CN201910817122A CN110515967A CN 110515967 A CN110515967 A CN 110515967A CN 201910817122 A CN201910817122 A CN 201910817122A CN 110515967 A CN110515967 A CN 110515967A
Authority
CN
China
Prior art keywords
business datum
database
configuration information
data
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910817122.2A
Other languages
English (en)
Other versions
CN110515967B (zh
Inventor
张兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Neusoft Wang Hai Technology Co Ltd
Original Assignee
Beijing Neusoft Wang Hai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Neusoft Wang Hai Technology Co Ltd filed Critical Beijing Neusoft Wang Hai Technology Co Ltd
Priority to CN201910817122.2A priority Critical patent/CN110515967B/zh
Publication of CN110515967A publication Critical patent/CN110515967A/zh
Application granted granted Critical
Publication of CN110515967B publication Critical patent/CN110515967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及数据处理技术领域,公开了一种基于spark计算框架的数据分析方法及电子设备,其中,基于spark计算框架的数据分析方法包括:基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息;接着根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据;对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,以使得业务报表***通过查询报表数据库获取所述各个处理结果。本申请实施例的方法,极大提高了查询效率,降低了分析服务器与查询终端之间的耦合性。

Description

基于spark计算框架的数据分析方法及电子设备
技术领域
本申请实施例涉及数据处理技术领域,具体而言,本申请涉及一种基于spark计算框架的数据分析方法及电子设备。
背景技术
随着信息时代的到来,数据的积累成指数级增长,例如医院的账务数据(比如固定资产的购入与消耗、医务人员的工资与福利、药品与器械的采购与消耗、门诊收入、预算与报销等)、互联网数据等,往往来自于不同的业务***,这些业务***的数据有可能来自于多个数据库。其中,在每个数据库中有多张数据表,单张数据表的数据量有可能达千万级、亿级,每张数据表的数据结构也各不相同。
目前,在查询数据的过程中,通常是通过开发JDBC(Java DataBaseConnectivity,Java数据库连接)执行多条SQL(Structured Query Language,结构化查询语言)语句的方法,来分别查询不同的数据库,以及开发诸多前端的公式(类似于EXCEL公式),来加载、计算查询数据,并将得到的数据结果将展示在WEB页面中。虽然通过这样方式能够在一定程度上达到业务需要,但是查询效率低下,而且在面对海量数据及复杂SQL的时候,页面加载速度极慢;尤其当出现多用户、多数据同时查询时,极有可能出现经过长时间等待后,依然无法查询到相应数据的情况,或者出现数据库、应用服务器崩溃的情况,造成极差的用户体验。
发明内容
本申请实施例的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
一方面,提供了一种基于spark计算框架的数据分析方法,包括:
基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息;
根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据;
对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,以使得业务报表***通过查询报表数据库获取各个处理结果。
在一种实现方式中,业务报表***所需的至少一个业务数据的配置信息,包括以下至少一项:
至少一个业务数据分别对应的业务数据库;
至少一个业务数据分别对应的查询语句;
至少一个业务数据分别对应的业务报表。
在一种实现方式中,根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据,包括:
根据各个业务数据分别对应的查询语句,从各个业务数据分别对应的业务数据库中,获取相应的业务数据。
在一种实现方式中,对获取到的各个业务数据分别进行相应的数据处理,包括以下至少一项:
对获取到的各个业务数据进行数据清洗,以滤除冗余的业务数据;
对获取到的各个业务数据进行交集运算与并集运算中的至少一项的集合运算;
对获取到的各个业务数据进行加法、减法、乘法及除法中的至少一项的数学运算;
对获取到的各个业务数据依据数据类别进行汇总。
在一种实现方式中,根据配置信息,将各个处理结果分别存储至报表数据库中,包括:
根据配置信息确定各个业务数据分别对应的业务报表;
将各个业务数据各自对应的各个处理结果,分别存储至相应的业务报表中,业务报表位于报表数据库中。
一方面,提供了一种基于spark计算框架的数据分析装置,包括:
获取模块,用于基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息;
第一处理模块,用于根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据;
第二处理模块,用于对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,以使得业务报表***通过查询报表数据库获取各个处理结果。
在一种实现方式中,业务报表***所需的至少一个业务数据的配置信息,包括以下至少一项:
至少一个业务数据分别对应的业务数据库;
至少一个业务数据分别对应的查询语句;
至少一个业务数据分别对应的业务报表。
在一种实现方式中,第一处理模块具体用于根据各个业务数据分别对应的查询语句,从各个业务数据分别对应的业务数据库中,获取相应的业务数据。
在一种实现方式中,第二处理模块具体用于执行以下至少一项:
对获取到的各个业务数据进行数据清洗,以滤除冗余的业务数据;
对获取到的各个业务数据进行交集运算与并集运算中的至少一项的集合运算;
对获取到的各个业务数据进行加法、减法、乘法及除法中的至少一项的数学运算;
对获取到的各个业务数据依据数据类别进行汇总。
在一种实现方式中,第二处理模块包括确定子模块与存储子模块;
确定子模块,用于根据配置信息确定各个业务数据分别对应的业务报表;
存储子模块,用于将各个业务数据各自对应的各个处理结果,分别存储至相应的业务报表中,业务报表位于报表数据库中。
一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的基于spark计算框架的数据分析方法。
一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的基于spark计算框架的数据分析方法。
本申请实施例提供的基于spark计算框架的数据分析方法,基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息,以及根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据,使得基于spark计算框架的分析服务器可以根据报表数据库中的配置信息,并行查询各个业务数据分别对应的业务数据库,来同时获取各个业务数据,不仅极大提高了查询效率,而且通过引入业务数据库,极大降低了分析服务器与查询终端之间的耦合性,当分析服务器出现异常时,可以有效避免影响查询终端的其他功能的正常使用;通过对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,使得查询终端通过查询报表数据库即可获取对应的分析数据,从而高效地为查询终端提供对应的分析数据,而且基于spark计算框架的分析服务器可以支持分布式部署、集群式部署等,具有良好的可扩展性。
本申请实施例附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请实施例上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的基于spark计算框架的数据分析方法的流程示意图;
图2为本申请实施例的基于spark计算框架的数据查询过程示意图;
图3为本申请实施例的基于spark计算框架的数据分析装置的基本结构示意图;
图4为本申请实施例的基于spark计算框架的数据分析装置的详细结构示意图;
图5为本申请实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的基于spark计算框架的数据分析方法及电子设备,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请一个实施例提供了一种基于spark计算框架的数据分析方法,该方法由服务器设备执行。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。如图1所示,该方法包括:
步骤S110,基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息。
具体地,用户可以在预先存储有或预先安装有业务报表***的终端设备(例如台式电脑、笔记本电脑等)中启动该业务报表***,并在业务报表***中输入相应的查询条件,来查询所需的一个或多个业务数据。在查询到所需的一个或多个业务数据后,业务报表***将该查询到的一个或多个业务数据显示出来。
具体地,用户在该业务报表***中输入的查询条件,即为用户为所需的一个或多个业务数据配置的配置信息。其中,用户在业务报表***中配置所需的一个或多个业务数据的配置信息,相当于业务报表***接收到用户配置的一个或多个业务数据的配置信息。业务报表***在接收到该配置信息后,将该配置信息存储到报表数据库中。
具体地,业务数据是存储于基于spark计算框架的分析服务器中的,用户通过业务报表***查询所需的一个或多个业务数据,实际上是通过业务报表***与基于spark计算框架的分析服务器进行交互,来完成数据的查询的。在实际应用中,可以是基于spark计算框架的分析服务器查询报表数据库,来获取配置信息,并根据配置信息查询所需的业务数据,即基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息。
步骤S120,根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据。
具体地,基于spark计算框架的分析服务器在获取到配置信息后,可以根据该配置信息确定出该一个或多个业务数据分别对应的业务数据库,假如业务数据分别为数据A、数据B及数据C,并且数据A对应的业务数据库为业务数据库1,数据B对应的业务数据库为业务数据库2,数据C对应的业务数据库为业务数据库3,则基于spark计算框架的分析服务器在获取到配置信息后,可以根据该配置信息确定出数据A对应的业务数据库为业务数据库1,数据B对应的业务数据库为业务数据库2,数据C对应的业务数据库为业务数据库3。
具体地,在根据配置信息确定各个业务数据分别对应的业务数据库之后,可以从业务数据库1中获取数据A,从业务数据库2中获取数据B,从业务数据库3中获取数据C,即从各个业务数据库中分别获取相应的业务数据。其中,上述数据A、数据B及数据C的获取过程可以同时进行,即从各个业务数据分别对应的业务数据库中并行查询各个业务数据,从而极大提高了查询效率。此外,通过引入业务数据库,极大降低了分析服务器与终端设备之间的耦合性,当分析服务器出现异常时,有效避免影响终端设备的其他功能的正常使用。
步骤S130,对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,以使得业务报表***通过查询报表数据库获取各个处理结果。
具体地,在从各个业务数据库中分别获取相应的业务数据之后,可以先对获取到的各个业务数据分别进行相应的数据处理,得到相应的各个处理结果,再根据配置信息,将各个处理结果分别存储至报表数据库中,从而业务报表***可以通过查询报表数据库来获取各个处理结果。其中,业务报表***在获取到各个处理结果后,可以将该各个处理结果展示给用户。
本申请实施例提供的基于spark计算框架的数据分析方法,基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息,以及根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据,使得基于spark计算框架的分析服务器可以根据报表数据库中的配置信息,并行查询各个业务数据分别对应的业务数据库,来同时获取各个业务数据,不仅极大提高了查询效率,而且通过引入业务数据库,极大降低了分析服务器与查询终端之间的耦合性,当分析服务器出现异常时,有效避免影响查询终端的其他功能的正常使用;通过对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,使得查询终端通过查询报表数据库即可获取对应的分析数据,从而高效地为查询终端提供对应的分析数据,而且基于spark计算框架的分析服务器可以支持分布式部署、集群式部署等,具有良好的可扩展性。
在一种可能的实现方式中,业务报表***所需的至少一个业务数据的配置信息,包括但不限于:至少一个业务数据分别对应的业务数据库;至少一个业务数据分别对应的查询语句;至少一个业务数据分别对应的业务报表。
具体地,当配置信息包括至少一个业务数据分别对应的业务数据库时,例如,数据A对应的业务数据库为业务数据库1,数据B对应的业务数据库为业务数据库2,数据C对应的业务数据库为业务数据库3,则:基于spark计算框架的分析服务器可以直接根据该配置信息,从业务数据库1中获取数据A,从业务数据库2中获取数据B,从业务数据库3中获取数据C。
具体地,当配置信息包括至少一个业务数据分别对应的查询语句时,例如数据A对应的查询语句为SQL1,数据B对应的查询语句为SQL2,数据C对应的查询语句为SQL3,则:基于spark计算框架的分析服务器可以直接根据该配置信息,根据SQL1从业务数据库1中获取数据A,根据SQL2从业务数据库2中获取数据B,根据SQL3从业务数据库3中获取数据C。换言之,在根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据的过程中,可以根据各个业务数据分别对应的查询语句,从各个业务数据分别对应的业务数据库中,获取相应的业务数据。
具体地,当配置信息包括至少一个业务数据分别对应的业务报表时,数据A对应业务报表1,数据B对应业务报表2,数据C对应业务报表3,则:基于spark计算框架的分析服务器在获取到数据A、数据B及数据C后,可以分别将数据A存储到业务报表1,可以数据B存储到业务报表2,可以数据C存储到业务报表3中。
具体地,在根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据之后,可以对获取到的各个业务数据分别进行相应的数据处理,例如对获取到的各个业务数据进行数据清洗,以滤除冗余的业务数据,又例如对获取到的各个业务数据进行交集运算与并集运算中的至少一项的集合运算,又例如对获取到的各个业务数据进行加法、减法、乘法及除法中的至少一项的数学运算,再例如对获取到的各个业务数据依据数据类别进行汇总。
具体地,在对获取到的各个业务数据分别进行相应的数据处理之后,可以先根据配置信息确定各个业务数据分别对应的业务报表,再将各个业务数据各自对应的各个处理结果,分别存储至相应的业务报表中,其中,业务报表位于报表数据库中,从而业务报表***通过查询报表数据库,来获取各个处理结果。
具体地,图2给出本申请实施的基于spark计算框架的数据分析方法的应用过程,具体包括如下过程:
步骤A1,用户在业务报表***中配置所需的一个或多个业务数据分别对应的业务数据库、查询语句及业务报表等配置信息,并通过业务报表系数将该配置信息存储至报表数据库中,即在业务报表***中配置数据库、报表信息、查询语句等信息到报表数据库中。
步骤A2,基于spark计算框架的分析服务器通过调用内部预先设定的分析程序,来根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据。其中,基于spark计算框架的分析服务器,可以是单个的服务器,也可以是集群式的服务器。
步骤A3,基于spark计算框架的分析服务器通过查询报表数据库,来调取配置信息,调取的内容有:(1)需要分析的业务报表;(2)业务报表对应的数据库及对应的查询语句SQL。
步骤A4,基于spark计算框架的分析服务器的分析程序,通过查询报表数据库,在报表数据库中各个业务报表的各个业务数据分别对应的业务数据库,执行对应的查询语句SQL获取相应的业务数据,业务数据库可以是一个,也可以是多个,有多个就执行多次数据查询并得到相应的查询结果。
步骤A5,基于spark计算框架的分析服务器的分析程序,根据业务需要对获取到的各个业务数据分别进行数据分析,得到相应的分析结果,并将得到的各个分析结果存入到报表数据库中。
步骤A6,业务报表***通过查询报表数据库中的各个分析结果,来将各个分析结果展示到业务报表***对应的报表页面中。
其中,分析程序的主要处理过程包括如下几个具体步骤:
步骤B1:调取配置信息;通过查询报表数据库,获取业务数据的配置信息,该配置信息中包括需要分析的报表,其中,报表数据的字段包括业务数据对应的业务数据库、业务数据对应的查询语句SQL、分析结果报表等。
步骤B2:根据配置信息访问相应的业务数据库,并在业务数据库中执行配置的查询语句SQL,获取相应的业务数据。
步骤B3:根据业务需要,对获取到的业务数据进行数据的交、并、组合、计算、按组汇总等逻辑,得到分析后的数据结果。
步骤B4:把分析后的数据结果存储到报表数据库的分析结果报表中,为业务报表***提供数据查询依据。
图3为本申请又一实施例提供的一种基于spark计算框架的数据分析装置的结构示意图,如图3所示,该装置30可以包括获取模块31、第一处理模块32与第二处理模块33,其中:
获取模块31,用于基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息;
第一处理模块32,用于根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据;
第二处理模块33,用于对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,以使得业务报表***通过查询报表数据库获取各个处理结果。
本申请实施例提供的装置,基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息,以及根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据,使得基于spark计算框架的分析服务器可以根据报表数据库中的配置信息,并行查询各个业务数据分别对应的业务数据库,来同时获取各个业务数据,不仅极大提高了查询效率,而且通过引入业务数据库,极大降低了分析服务器与查询终端之间的耦合性,当分析服务器出现异常时,有效避免影响查询终端的其他功能的正常使用;通过对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,使得查询终端通过查询报表数据库即可获取对应的分析数据,从而高效地为查询终端提供对应的分析数据,而且基于spark计算框架的分析服务器可以支持分布式部署、集群式部署等,具有良好的可扩展性。
具体地,业务报表***所需的至少一个业务数据的配置信息,包括以下至少一项:
至少一个业务数据分别对应的业务数据库;
至少一个业务数据分别对应的查询语句;
至少一个业务数据分别对应的业务报表。
具体地,第一处理模块32具体用于根据各个业务数据分别对应的查询语句,从各个业务数据分别对应的业务数据库中,获取相应的业务数据。
具体地,第二处理模块33具体用于执行以下至少一项:
对获取到的各个业务数据进行数据清洗,以滤除冗余的业务数据;
对获取到的各个业务数据进行交集运算与并集运算中的至少一项的集合运算;
对获取到的各个业务数据进行加法、减法、乘法及除法中的至少一项的数学运算;
对获取到的各个业务数据依据数据类别进行汇总。
具体地,第二处理模块33包括确定子模块331与存储子模块332,其中:
确定子模块331,用于根据配置信息确定各个业务数据分别对应的业务报表;
存储子模块332,用于将各个业务数据各自对应的各个处理结果,分别存储至相应的业务报表中,业务报表位于报表数据库中。
需要说明的是,本实施例为与上述的方法项实施例相对应的装置项实施例,本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在上述方法项实施例中。
本申请另一实施例提供了一种电子设备,如图5所示,图5所示的电子设备500包括:处理器501和存储器503。其中,处理器501和存储器503相连,如通过总线502相连。进一步地,电子设备500还可以包括收发器504。需要说明的是,实际应用中收发器504不限于一个,该电子设备500的结构并不构成对本申请实施例的限定。
其中,处理器501应用于本申请实施例中,用于实现图3与图4所示的获取模块、第一处理模块与第二处理模块的功能。
处理器501可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器501也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线502可包括一通路,在上述组件之间传送信息。总线502可以是PCI总线或EISA总线等。总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器503可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器503用于存储执行本申请方案的应用程序代码,并由处理器501来控制执行。处理器501用于执行存储器503中存储的应用程序代码,以实现图3或图4所示实施例提供的基于spark计算框架的数据分析装置的动作。
本申请实施例提供的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,可实现:基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息,以及根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据,使得基于spark计算框架的分析服务器可以根据报表数据库中的配置信息,并行查询各个业务数据分别对应的业务数据库,来同时获取各个业务数据,不仅极大提高了查询效率,而且通过引入业务数据库,极大降低了分析服务器与查询终端之间的耦合性,当分析服务器出现异常时,有效避免影响查询终端的其他功能的正常使用;通过对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,使得查询终端通过查询报表数据库即可获取对应的分析数据,从而高效地为查询终端提供对应的分析数据,而且基于spark计算框架的分析服务器可以支持分布式部署、集群式部署等,具有良好的可扩展性。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例所示的方法。具体地,基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息,以及根据配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据,使得基于spark计算框架的分析服务器可以根据报表数据库中的配置信息,并行查询各个业务数据分别对应的业务数据库,来同时获取各个业务数据,不仅极大提高了查询效率,而且通过引入业务数据库,极大降低了分析服务器与查询终端之间的耦合性,当分析服务器出现异常时,有效避免影响查询终端的其他功能的正常使用;通过对获取到的各个业务数据分别进行相应的数据处理,并根据配置信息,将各个处理结果分别存储至报表数据库中,使得查询终端通过查询报表数据库即可获取对应的分析数据,从而高效地为查询终端提供对应的分析数据,而且基于spark计算框架的分析服务器可以支持分布式部署、集群式部署等,具有良好的可扩展性。
本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种基于spark计算框架的数据分析方法,其特征在于,包括:
基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息;
根据所述配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据;
对获取到的各个业务数据分别进行相应的数据处理,并根据所述配置信息,将各个处理结果分别存储至所述报表数据库中,以使得所述业务报表***通过查询所述报表数据库获取所述各个处理结果。
2.根据权利要求1所述的方法,其特征在于,所述业务报表***所需的至少一个业务数据的配置信息,包括以下至少一项:
所述至少一个业务数据分别对应的业务数据库;
所述至少一个业务数据分别对应的查询语句;
所述至少一个业务数据分别对应的业务报表。
3.根据权利要求2所述的方法,其特征在于,所述根据所述配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据,包括:
根据各个业务数据分别对应的查询语句,从各个业务数据分别对应的业务数据库中,获取相应的业务数据。
4.根据权利要求1所述的方法,其特征在于,所述对获取到的各个业务数据分别进行相应的数据处理,包括以下至少一项:
对获取到的各个业务数据进行数据清洗,以滤除冗余的业务数据;
对获取到的各个业务数据进行交集运算与并集运算中的至少一项的集合运算;
对获取到的各个业务数据进行加法、减法、乘法及除法中的至少一项的数学运算;
对获取到的各个业务数据依据数据类别进行汇总。
5.根据权利要求2所述的方法,其特征在于,所述根据所述配置信息,将各个处理结果分别存储至所述报表数据库中,包括:
根据所述配置信息确定各个业务数据分别对应的业务报表;
将各个业务数据各自对应的各个处理结果,分别存储至相应的业务报表中,所述业务报表位于所述报表数据库中。
6.一种基于spark计算框架的数据分析装置,其特征在于,包括:
获取模块,用于基于spark计算框架的分析服务器通过查询报表数据库,获取业务报表***所需的至少一个业务数据的配置信息;
第一处理模块,用于根据所述配置信息确定各个业务数据分别对应的业务数据库,并从各个业务数据库中分别获取相应的业务数据;
第二处理模块,用于对获取到的各个业务数据分别进行相应的数据处理,并根据所述配置信息,将各个处理结果分别存储至所述报表数据库中,以使得所述业务报表***通过查询所述报表数据库获取所述各个处理结果。
7.根据权利要求6所述的装置,其特征在于,所述业务报表***所需的至少一个业务数据的配置信息,包括以下至少一项:
所述至少一个业务数据分别对应的业务数据库;
所述至少一个业务数据分别对应的查询语句;
所述至少一个业务数据分别对应的业务报表。
8.根据权利要求7所述的装置,其特征在于,第一处理模块具体用于根据各个业务数据分别对应的查询语句,从各个业务数据分别对应的业务数据库中,获取相应的业务数据。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一项所述的基于spark计算框架的数据分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-5任一项所述的基于spark计算框架的数据分析方法。
CN201910817122.2A 2019-08-30 2019-08-30 基于spark计算框架的数据分析方法及电子设备 Active CN110515967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910817122.2A CN110515967B (zh) 2019-08-30 2019-08-30 基于spark计算框架的数据分析方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910817122.2A CN110515967B (zh) 2019-08-30 2019-08-30 基于spark计算框架的数据分析方法及电子设备

Publications (2)

Publication Number Publication Date
CN110515967A true CN110515967A (zh) 2019-11-29
CN110515967B CN110515967B (zh) 2020-09-08

Family

ID=68629003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910817122.2A Active CN110515967B (zh) 2019-08-30 2019-08-30 基于spark计算框架的数据分析方法及电子设备

Country Status (1)

Country Link
CN (1) CN110515967B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111273966A (zh) * 2020-02-20 2020-06-12 山东浪潮通软信息科技有限公司 福利数据处理方法、装置及计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075963A (zh) * 2009-11-25 2011-05-25 ***通信集团贵州有限公司 一种移动业务数据采集分析方法及***
CN102118446A (zh) * 2011-03-09 2011-07-06 成都四方信息技术有限公司 基于web的高性能智能报表***
CN105574643A (zh) * 2015-11-23 2016-05-11 江苏瑞中数据股份有限公司 一种电网实时数据中心与大数据平台融合方法
US20160253679A1 (en) * 2015-02-24 2016-09-01 Thomson Reuters Global Resources Brand abuse monitoring system with infringement deteciton engine and graphical user interface
CN107798037A (zh) * 2017-04-26 2018-03-13 平安科技(深圳)有限公司 用户特征数据的获取方法及服务器
CN108536778A (zh) * 2018-03-29 2018-09-14 客如云科技(成都)有限责任公司 一种数据应用共享平台及方法
CN110413610A (zh) * 2019-06-19 2019-11-05 中国平安财产保险股份有限公司 提高业务数据报表导出效率的方法及***、数据库服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075963A (zh) * 2009-11-25 2011-05-25 ***通信集团贵州有限公司 一种移动业务数据采集分析方法及***
CN102118446A (zh) * 2011-03-09 2011-07-06 成都四方信息技术有限公司 基于web的高性能智能报表***
US20160253679A1 (en) * 2015-02-24 2016-09-01 Thomson Reuters Global Resources Brand abuse monitoring system with infringement deteciton engine and graphical user interface
CN105574643A (zh) * 2015-11-23 2016-05-11 江苏瑞中数据股份有限公司 一种电网实时数据中心与大数据平台融合方法
CN107798037A (zh) * 2017-04-26 2018-03-13 平安科技(深圳)有限公司 用户特征数据的获取方法及服务器
CN108536778A (zh) * 2018-03-29 2018-09-14 客如云科技(成都)有限责任公司 一种数据应用共享平台及方法
CN110413610A (zh) * 2019-06-19 2019-11-05 中国平安财产保险股份有限公司 提高业务数据报表导出效率的方法及***、数据库服务器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111273966A (zh) * 2020-02-20 2020-06-12 山东浪潮通软信息科技有限公司 福利数据处理方法、装置及计算机可读介质
CN111273966B (zh) * 2020-02-20 2023-08-15 浪潮通用软件有限公司 福利数据处理方法、装置及计算机可读介质

Also Published As

Publication number Publication date
CN110515967B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
WO2021068549A1 (zh) 一种数据处理方法、平台及***
US10831648B2 (en) Intermittent failure metrics in technological processes
US20130318034A1 (en) Distributed processing of streaming data records
CN109597842A (zh) 数据实时计算方法、装置、设备及计算机可读存储介质
CN106557486A (zh) 一种数据的存储方法和装置
WO2002019148A2 (en) Automated system and method for designing model based architectures of information systems
CN109254854A (zh) 异步调用方法、计算机装置及存储介质
CN109033206A (zh) 一种规则匹配方法、云服务器及规则匹配***
CN113268500B (zh) 业务处理方法、装置及电子设备
EP3502990A1 (en) Method and device for detecting fund transaction route in electronic payment process
CN109684319A (zh) 数据清洗***、方法、装置及存储介质
CN112860730A (zh) Sql语句的处理方法、装置、电子设备及可读存储介质
CN113835692A (zh) 字典的数据处理方法、装置、电子设备及计算机存储介质
CN110442647B (zh) 数据一致性同步方法、装置及计算机可读存储介质
CN110515967A (zh) 基于spark计算框架的数据分析方法及电子设备
CN110032574A (zh) Sql语句的处理方法及装置
CN110011845A (zh) 日志采集方法及***
US20230035551A1 (en) Multiple source audit log generation
CN107515916A (zh) 数据查询的性能优化方法及装置
CN113392125A (zh) 一种数据处理方法和装置
CN108763586B (zh) 一种基于sap字段搜索帮助的通用数据字典接口装置
US11616744B2 (en) Context-dependent message extraction and transformation
CN114036174B (zh) 数据更新方法、装置、设备及存储介质
CN110647518A (zh) 一种数据源融合计算方法、组件及装置
CN116756460B (zh) 组合数据获取方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant