CN109558403B - 数据聚合方法及装置、计算机装置及计算机可读存储介质 - Google Patents
数据聚合方法及装置、计算机装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109558403B CN109558403B CN201811143535.9A CN201811143535A CN109558403B CN 109558403 B CN109558403 B CN 109558403B CN 201811143535 A CN201811143535 A CN 201811143535A CN 109558403 B CN109558403 B CN 109558403B
- Authority
- CN
- China
- Prior art keywords
- data
- information
- aggregation
- script
- sorting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 255
- 238000004220 aggregation Methods 0.000 title claims abstract description 254
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013515 script Methods 0.000 claims abstract description 140
- 238000004364 calculation method Methods 0.000 claims abstract description 75
- 238000004590 computer program Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000011161 development Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 238000006116 polymerization reaction Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013497 data interchange Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Stored Programmes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种数据聚合方法,包括:获取数据聚合脚本;加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;根据所述数据获取信息,从指定的数据源获取原始数据;根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;根据所述数据输出信息,输出所述聚合结果。本发明还提供一种数据聚合装置、计算机装置及计算机可读存储介质。本发明实现了高效率的数据聚合。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据聚合方法及装置、计算机装置和计算机可读存储介质。
背景技术
在应用***监控中,采集端上报的原始数据非常的庞大,不适合直接使用和存储。数据后台在处理原始数据时需要对数据做聚合处理,生成聚合后的数据。然而,现有的数据聚合方法效率较低,有新的聚合需求或者需求有调整后,数据后台需要再次开发。
发明内容
鉴于以上内容,有必要提出一种数据聚合方法及装置、计算机装置和计算机可读存储介质,其可以实现高效率的数据聚合。
本申请的第一方面提供一种数据聚合方法,所述方法包括:
获取数据聚合脚本;
加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;
根据所述数据获取信息,从指定的数据源获取原始数据;
根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;
根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;
根据所述数据输出信息,输出所述聚合结果。
另一种可能的实现方式中,所述数据聚合脚本包括JSON格式的数据,通过所述JSON格式的数据描述数据聚合需求。
另一种可能的实现方式中,所述数据聚合脚本包括ES脚本。
另一种可能的实现方式中,所述从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息包括:
根据预设关键字从所述数据聚合脚本中解析出所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息;或者
根据所述数据聚合脚本的结构从数据聚合脚本中解析出所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息。
另一种可能的实现方式中,所述从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息包括:
从所述数据聚合脚本中解析出query部分、agg部分、index部分、type部分;
从所述query部分中解析出原始数据获取字段、原始数据分拣字段、原始数据计算字段;
将所述原始数据获取字段、index部分、type部分作为所述数据获取信息,将所述原始数据分拣字段作为所述数据分拣信息,将所述原始数据计算字段作为所述数据计算信息,将所述agg部分作为所述数据输出信息。
另一种可能的实现方式中,所述方法还包括:
在对分拣后的数据进行计算之前,对分拣后的数据进行过滤。
另一种可能的实现方式中,所述方法还包括:
在输出所述聚合结果之后,删除所述原始数据。
本申请的第二方面提供一种数据聚合装置,所述装置包括:
脚本获取单元,用于获取数据聚合脚本;
解析单元,用于加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;
数据获取单元,用于根据所述数据获取信息,从指定的数据源获取原始数据;
分拣单元,用于根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;
计算单元,用于根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;
输出单元,用于根据所述数据输出信息,输出所述聚合结果。
本申请的第三方面提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述数据聚合方法。
本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述数据聚合方法。
本发明获取数据聚合脚本;加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;根据所述数据获取信息,从指定的数据源获取原始数据;根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;根据所述数据输出信息,输出所述聚合结果。本发明根据聚合脚本进行数据聚合,聚合需求有新增或者修改时,只需要修改脚本中的配置,无需做代码开发,无需更新服务器,节省开发人力和成本,实现了高效率的数据聚合。
附图说明
图1是本发明实施例提供的数据聚合方法的流程图。
图2是本发明实施例提供的数据聚合装置的结构图。
图3是本发明实施例提供的计算机装置的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的数据聚合方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例一提供的数据聚合方法的流程图。所述数据聚合方法应用于计算机装置。所述数据聚合方法根据数据聚合脚本对指定的数据源的数据进行聚合。
如图1所示,所述数据聚合方法具体包括以下步骤:
步骤101,获取数据聚合脚本。
可以读取预先存储的数据聚合脚本。例如,可以预先编写好针对不同数据聚合需求的数据聚合脚本,并将数据聚合脚本存储在计算装置的存储器中,根据需要从所述存储器中读取所需的数据聚合脚本。
或者,可以接收用户编辑的数据聚合脚本。例如,可以提供脚本编辑界面,从所述脚本编辑界面接收用户输入的数据聚合脚本。
所述数据聚合脚本描述数据聚合需求。
所述数据聚合脚本可以是一个,也可以是多个。每个数据聚合脚本描述一个单独的数据聚合需求。不同的数据聚合需求对应不同的数据聚合脚本。
举例来说,在一应用场景中,所述数据聚合方法用于对各个应用程序的监控数据进行聚合。所述监控数据包括应用程序的内存占用量、帧率、崩溃次数、启动次数等。
所述应用场景中,一个数据聚合脚本可以描述应用程序的内存占用量的数据聚合需求,对某段时间内所有应用程序的内存占用量计算平均值,得到这段时间内的平均内存占用量,作为内存占用的指标数据,所述平均内存占用量就是聚合的结果。
所述应用场景中,另一数据聚合脚本可以描述应用程序的帧率(FPS)的数据聚合需求,对某段时间内的所有应用程序的帧率计算平均值,得到这段时间内的平均帧率,作为帧率的指标数据,所述平均帧率就是聚合的结果。
所述应用场景中,另一数据聚合脚本可以描述应用程序的崩溃率的数据聚合需求,将某段时间内的应用程序的崩溃次数除以这段时间内的启动次数,得到这段时间的崩溃率,所述崩溃率就是聚合的结果。
所述数据聚合脚本可以包括JSON(JavaScript Object Notation,JS对象简谱)格式的数据,通过该JSON格式的数据描述数据聚合需求。JSON是一种轻量级的数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据,任何JavaScript支持的类型都可以通过JSON来表示,例如字符串、数字、对象、数组等。
所述数据聚合脚本可以包括ES(ElasticSearch)脚本。所述数据聚合脚本将ES脚本作为其中一部分,同时对ES脚本进行扩展,加入其他的字段,用于控制数据聚合操作。
ES是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,能够达到实时搜索,具有稳定、可靠、快速、安装使用方便的优点。
所述数据聚合需求包括数据源(即原始数据的来源)、原始数据的类型、聚合后的数据的类型、数据聚合方式(即如何对原始数据进行聚合)等数据。
步骤102,加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息。
可以将所述数据聚合脚本加载到计算装置的内存中,从数据聚合脚本中解析出控制数据聚合的各种信息/数据。
在一个具体实施例中,数据聚合脚本中包括query、agg、index、type几个部分,其中:
query部分表示ES脚本,ES服务器可以直接执行该ES脚本,这部分定义聚合的需求,包括原始数据获取字段、原始数据分拣字段、原始数据计算字段;
agg部分定义聚合后的数据保存的类型;
index部分定义原始数据从哪个索引获取,用于获取原始数据;
type部分定义原始数据在索引中的类型,用于获取原始数据。
在该具体实施例中,可以从数据聚合脚本中解析出query、agg、index、type各个部分;从query部分中解析出原始数据获取字段、原始数据分拣字段、原始数据计算字段,将原始数据获取字段、index部分、type部分作为数据获取信息,将原始数据分拣字段作为数据分拣信息,将原始数据计算字段作为数据计算信息,将agg部分作为数据输出信息。
可以根据预设关键字(例如query、agg、index、type)从数据聚合脚本中解析出所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息。
或者,可以根据所述数据聚合脚本的结构从数据聚合脚本中解析出所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息。例如,所述数据聚合脚本按照预设结构编写(例如数据聚合脚本中数据获取信息为第一代码段、数据分拣信息为第二代码段、数据计算信息为第三代码段、数据输出信息为***码段),根据所述预设结构确定所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息。
所述数据获取信息用于从指定的数据源获得指定的原始数据。
所述数据分拣信息用于对原始数据进行分拣,得到分拣后的原始数据。分拣是指按照指定条件对所述原始数据进行分类。
所述数据计算信息用于对分拣后的原始数据进行计算,得到聚合结果。所述计算可以包括求平均值、求和、求比值等。
所述数据输出信息用于将聚合结果进行输出。所述数据输出信息可以指定聚合结果的输出地址、输出类型等。
可以周期性加载所述数据聚合脚本,以控制数据聚合的周期。例如,以10分钟为周期进行加载。因此,当数据聚合脚本有修改和增加时,在下一个数据聚合的周期即可生效。
步骤103,根据所述数据获取信息,从指定的数据源获取原始数据。
例如,在对各个应用程序的监控数据进行聚合的应用场景中,所述监控数据由应用程序性能监控***采集得到,若要对应用程序的帧率进行数据聚合,则步骤103,根据所述数据获取信息,从所述应用程序性能监控***采集的监控数据中获取帧率。
所述数据获取信息可以包括原始数据的索引(index)和类型(type),可以根据所述索引和类型从所述数据源获取原始数据。例如,定义原始数据的索引为ubsa_event_info,类型为event.fps(表示帧率),则从索引ubsa_event_info提取类型为event.fps的数据(即帧率)。所述索引表示原始数据的来源。
步骤104,根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据。
分拣可以有很多轮,每一轮都是在前一轮的基础上继续细分。在本实施例中,对所述原始数据进行分拣可以包括按照应用平台分拣、按照版本分拣、按照界面名分拣。例如,可以对帧率做三轮分拣,先按照应用平台分拣,接着按照版本分拣,最后按照界面名来分拣。假如有两个应用平台,每个平台有10个版本,每个应用程序有10个界面,三轮分拣将数据分成了2*10*10共200份。
步骤105,根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果。
所述计算可以包括求平均值、求和、求比值等。例如,将帧率分成了200份,对每一份帧率数据,求该份帧率数据的平均值。
在对分拣后的数据进行计算之前,可以对分拣后的数据进行过滤,过滤掉异常数据。例如,对于分拣后的帧率,过滤掉帧率小于15或大于60的数据,得到帧率在15到60之间的数据,然后对过滤后的帧率(即帧率在15到60之间的数据)进行计算。
又如,对内存占用量进行数据聚合时,可以对分拣得到的内存占用量进行过滤,过滤掉内存占用量大于800MB的数据,对过滤后的内存占用量(即内存占用小于或等于800MB的数据)进行计算。
步骤106,根据所述数据输出信息,输出所述聚合结果。
所述数据输出信息可以包括聚合结果的输出地址、输出类型等。
在对帧率进行数据聚合的例子中,聚合结果的输出可以包括agg.dataSource、agg.appVer、agg.fps.avg、agg.url、agg.tag等字段,其中:
agg.dataSource表示数据来源;
agg.appVer表示版本号;
agg.fps.avg表示帧率的平均值;
agg.url表示界面名;
agg.tag表示数据的类型。
在一个实施例中,每个聚合结果的输出可以都包括agg.time、ag.count两个字段,其中:
agg.time表示聚合的时间;
ag.count表示聚合结果是由多少条数据聚合而成。
实施例一的数据聚合方法获取数据聚合脚本;加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;根据所述数据获取信息,从指定的数据源获取原始数据;根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;根据所述数据输出信息,输出所述聚合结果。实施例一的数据聚合方法根据聚合脚本进行数据聚合,聚合需求有新增或者修改时,只需要修改脚本中的配置,无需做代码开发,无需更新服务器,节省开发人力和成本,实现了高效率的数据聚合。
在另一实施例中,所述数据聚合方法还可以包括:在输出所述聚合结果之后,删除所述原始数据。
对于帧率的聚合,假如每10分钟做一次聚合,那么24小时内会执行24*6=144次。假如每次聚合生产200条数据,24小时内的聚合将会生成28800条数据。而24小时内的原始数据可能有上百万条。在聚合完成后删除原始数据,可以大大降低存储成本。同时在做帧率的图表时,查询28800条数据所需要的时间和查询上百万条数据需要的时间少得多,大大提高查询速度。
实施例二
图2为本发明实施例二提供的数据聚合装置的结构图。如图2所示,所述数据聚合装置10可以包括:脚本获取单元201、解析单元202、数据获取单元203、分拣单元204、计算单元205、输出单元206。
脚本获取单元201,用于获取数据聚合脚本。
可以读取预先存储的数据聚合脚本。例如,可以预先编写好针对不同数据聚合需求的数据聚合脚本,并将数据聚合脚本存储在计算装置的存储器中,根据需要从所述存储器中读取所需的数据聚合脚本。
或者,可以接收用户编辑的数据聚合脚本。例如,可以提供脚本编辑界面,从所述脚本编辑界面接收用户输入的数据聚合脚本。
所述数据聚合脚本描述数据聚合需求。
所述数据聚合脚本可以是一个,也可以是多个。每个数据聚合脚本描述一个单独的数据聚合需求。不同的数据聚合需求对应不同的数据聚合脚本。
举例来说,在一应用场景中,所述数据聚合方法用于对各个应用程序的监控数据进行聚合。所述监控数据包括应用程序的内存占用量、帧率、崩溃次数、启动次数等。
所述应用场景中,一个数据聚合脚本可以描述应用程序的内存占用量的数据聚合需求,对某段时间内所有应用程序的内存占用量计算平均值,得到这段时间内的平均内存占用量,作为内存占用的指标数据,所述平均内存占用量就是聚合的结果。
所述应用场景中,另一数据聚合脚本可以描述应用程序的帧率(FPS)的数据聚合需求,对某段时间内的所有应用程序的帧率计算平均值,得到这段时间内的平均帧率,作为帧率的指标数据,所述平均帧率就是聚合的结果。
所述应用场景中,另一数据聚合脚本可以描述应用程序的崩溃率的数据聚合需求,将某段时间内的应用程序的崩溃次数除以这段时间内的启动次数,得到这段时间的崩溃率,所述崩溃率就是聚合的结果。
所述数据聚合脚本可以包括JSON(JavaScript Object Notation,JS对象简谱)格式的数据,通过该JSON格式的数据描述数据聚合需求。JSON是一种轻量级的数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据,任何JavaScript支持的类型都可以通过JSON来表示,例如字符串、数字、对象、数组等。
所述数据聚合脚本可以包括ES(ElasticSearch)脚本。所述数据聚合脚本将ES脚本作为其中一部分,同时对ES脚本进行扩展,加入其他的字段,用于控制数据聚合操作。
ES是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,能够达到实时搜索,具有稳定、可靠、快速、安装使用方便的优点。
所述数据聚合需求包括数据源(即原始数据的来源)、原始数据的类型、聚合后的数据的类型、数据聚合方式(即如何对原始数据进行聚合)等数据。
解析单元202,用于加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息。
可以将所述数据聚合脚本加载到计算装置的内存中,从数据聚合脚本中解析出控制数据聚合的各种信息/数据。
在一个具体实施例中,数据聚合脚本中包括query、agg、index、type几个部分,其中:
query部分表示ES脚本,ES服务器可以直接执行该ES脚本,这部分定义聚合的需求,包括原始数据获取字段、原始数据分拣字段、原始数据计算字段;
agg部分定义聚合后的数据保存的类型;
index部分定义原始数据从哪个索引获取,用于获取原始数据;
type部分定义原始数据在索引中的类型,用于获取原始数据。
在该具体实施例中,可以从数据聚合脚本中解析出query、agg、index、type各个部分;从query部分中解析出原始数据获取字段、原始数据分拣字段、原始数据计算字段,将原始数据获取字段、index部分、type部分作为数据获取信息,将原始数据分拣字段作为数据分拣信息,将原始数据计算字段作为数据计算信息,将agg部分作为数据输出信息。
可以根据预设关键字(例如query、agg、index、type)从数据聚合脚本中解析出所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息。
或者,可以根据所述数据聚合脚本的结构从数据聚合脚本中解析出所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息。例如,所述数据聚合脚本按照预设结构编写(例如数据聚合脚本中数据获取信息为第一代码段、数据分拣信息为第二代码段、数据计算信息为第三代码段、数据输出信息为***码段),根据所述预设结构确定所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息。
所述数据获取信息用于从指定的数据源获得指定的原始数据。
所述数据分拣信息用于对原始数据进行分拣,得到分拣后的原始数据。分拣是指按照指定条件对所述原始数据进行分类。
所述数据计算信息用于对分拣后的原始数据进行计算,得到聚合结果。所述计算可以包括求平均值、求和、求比值等。
所述数据输出信息用于将聚合结果进行输出。所述数据输出信息可以指定聚合结果的输出地址、输出类型等。
可以周期性加载所述数据聚合脚本,以控制数据聚合的周期。例如,以10分钟为周期进行加载。因此,当数据聚合脚本有修改和增加时,在下一个数据聚合的周期即可生效。
数据获取单元203,用于根据所述数据获取信息,从指定的数据源获取原始数据。
例如,在对各个应用程序的监控数据进行聚合的应用场景中,所述监控数据由应用程序性能监控***采集得到,若要对应用程序的帧率进行数据聚合,则数据获取单元203根据所述数据获取信息,从所述应用程序性能监控***采集的监控数据中获取帧率。
所述数据获取信息可以包括原始数据的索引(index)和类型(type),可以根据所述索引和类型从所述数据源获取原始数据。例如,定义原始数据的索引为ubsa_event_info,类型为event.fps(表示帧率),则从索引ubsa_event_info提取类型为event.fps的数据(即帧率)。所述索引表示原始数据的来源。
分拣单元204,用于根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据。
分拣可以有很多轮,每一轮都是在前一轮的基础上继续细分。在本实施例中,对所述原始数据进行分拣可以包括按照应用平台分拣、按照版本分拣、按照界面名分拣。例如,可以对帧率做三轮分拣,先按照应用平台分拣,接着按照版本分拣,最后按照界面名来分拣。假如有两个应用平台,每个平台有10个版本,每个应用程序有10个界面,三轮分拣将数据分成了2*10*10共200份。
计算单元205,用于根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果。
所述计算可以包括求平均值、求和、求比值等。例如,将帧率分成了200份,对每一份帧率数据,求该份帧率数据的平均值。
在对分拣后的数据进行计算之前,可以对分拣后的数据进行过滤,过滤掉异常数据。例如,对于分拣后的帧率,过滤掉帧率小于15或大于60的数据,得到帧率在15到60之间的数据,然后对过滤后的帧率(即帧率在15到60之间的数据)进行计算。
又如,对内存占用量进行数据聚合时,可以对分拣得到的内存占用量进行过滤,过滤掉内存占用量大于800MB的数据,对过滤后的内存占用量(即内存占用小于或等于800MB的数据)进行计算。
输出单元206,用于根据所述数据输出信息,输出所述聚合结果。
所述数据输出信息可以包括聚合结果的输出地址、输出类型等。
在对帧率进行数据聚合的例子中,聚合结果的输出可以包括agg.dataSource、agg.appVer、agg.fps.avg、agg.url、agg.tag等字段,其中:
agg.dataSource表示数据来源;
agg.appVer表示版本号;
agg.fps.avg表示帧率的平均值;
agg.url表示界面名;
agg.tag表示数据的类型。
在一个实施例中,每个聚合结果的输出可以都包括agg.time、ag.count两个字段,其中:
agg.time表示聚合的时间;
ag.count表示聚合结果是由多少条数据聚合而成。
实施例二的数据聚合装置10获取数据聚合脚本;加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;根据所述数据获取信息,从指定的数据源获取原始数据;根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;根据所述数据输出信息,输出所述聚合结果。实施例二的数据聚合装置10根据聚合脚本进行数据聚合,聚合需求有新增或者修改时,只需要修改脚本中的配置,无需做代码开发,无需更新服务器,节省开发人力和成本,实现了高效率的数据聚合。
在另一实施例中,所述数据聚合装置10还可以包括:删除单元,用于在输出所述聚合结果之后,删除所述原始数据。
对于帧率的聚合,假如每10分钟做一次聚合,那么24小时内会执行24*6=144次。假如每次聚合生产200条数据,24小时内的聚合将会生成28800条数据。而24小时内的原始数据可能有上百万条。在聚合完成后删除原始数据,可以大大降低存储成本。同时在做帧率的图表时,查询28800条数据所需要的时间和查询上百万条数据需要的时间少得多,大大提高查询速度。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据聚合方法实施例中的步骤,例如图1所示的步骤101-106:
步骤101,获取数据聚合脚本;
步骤102,加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;
步骤103,根据所述数据获取信息,从指定的数据源获取原始数据;
步骤104,根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;
步骤105,根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;
步骤106,根据所述数据输出信息,输出所述聚合结果。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的单元201-206:
脚本获取单元201,用于获取数据聚合脚本;
解析单元202,用于加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;
数据获取单元203,用于根据所述数据获取信息,从指定的数据源获取原始数据;
分拣单元204,用于根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;
计算单元205,用于根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;
输出单元206,用于根据所述数据输出信息,输出所述聚合结果。
实施例四
图3为本发明实施例四提供的计算机装置的示意图。所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40,例如数据聚合程序。所述处理器30执行所述计算机程序40时实现上述数据聚合方法实施例中的步骤,例如图1所示的步骤101-106:
步骤101,获取数据聚合脚本;
步骤102,加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;
步骤103,根据所述数据获取信息,从指定的数据源获取原始数据;
步骤104,根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;
步骤105,根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;
步骤106,根据所述数据输出信息,输出所述聚合结果。
或者,所述处理器30执行所述计算机程序40时实现上述装置实施例中各模块/单元的功能,例如图2中的单元201-206:
脚本获取单元201,用于获取数据聚合脚本;
解析单元202,用于加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息;
数据获取单元203,用于根据所述数据获取信息,从指定的数据源获取原始数据;
分拣单元204,用于根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;
计算单元205,用于根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;
输出单元206,用于根据所述数据输出信息,输出所述聚合结果。
示例性的,所述计算机程序40可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如,所述计算机程序40可以被分割成图2中的脚本获取单元201、解析单元202、数据获取单元203、分拣单元204、计算单元205、输出单元206,各单元具体功能参见实施例二。
所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图3仅仅是计算机装置1的示例,并不构成对计算机装置1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等,所述处理器30是所述计算机装置1的控制中心,利用各种接口和线路连接整个计算机装置1的各个部分。
所述存储器20可用于存储所述计算机程序40和/或模块/单元,所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本发明所提供的几个实施例中,应该理解到,所揭露的计算机装置和方法,可以通过其它的方式实现。例如,以上所描述的计算机装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种数据聚合方法,其特征在于,所述方法包括:
获取数据聚合脚本;
加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息包括:
从所述数据聚合脚本中解析出query部分、agg部分、index部分、type部分;
从所述query部分中解析出原始数据获取字段、原始数据分拣字段、原始数据计算字段;
将所述原始数据获取字段、index部分、type部分作为所述数据获取信息,将所述原始数据分拣字段作为所述数据分拣信息,将所述原始数据计算字段作为所述数据计算信息,将所述agg部分作为所述数据输出信息;
根据所述数据获取信息,从指定的数据源获取原始数据;
根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;
根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;
根据所述数据输出信息,输出所述聚合结果。
2.如权利要求1所述的方法,其特征在于,所述数据聚合脚本包括JSON格式的数据,通过所述JSON格式的数据描述数据聚合需求。
3.如权利要求1所述的方法,其特征在于,所述数据聚合脚本包括ES脚本。
4.如权利要求1所述的方法,其特征在于,所述从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息包括:
根据预设关键字从所述数据聚合脚本中解析出所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息;或者
根据所述数据聚合脚本的结构从数据聚合脚本中解析出所述数据获取信息、数据分拣信息、数据计算信息、数据输出信息。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
在对分拣后的数据进行计算之前,对分拣后的数据进行过滤。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
在输出所述聚合结果之后,删除所述原始数据。
7.一种数据聚合装置,其特征在于,所述装置包括:
脚本获取单元,用于获取数据聚合脚本;
解析单元,用于加载所述数据聚合脚本,从所述数据聚合脚本中解析出数据获取信息、数据分拣信息、数据计算信息、数据输出信息包括:
用于从所述数据聚合脚本中解析出query部分、agg部分、index部分、type部分;
用于从所述query部分中解析出原始数据获取字段、原始数据分拣字段、原始数据计算字段;
用于将所述原始数据获取字段、index部分、type部分作为所述数据获取信息,将所述原始数据分拣字段作为所述数据分拣信息,将所述原始数据计算字段作为所述数据计算信息,将所述agg部分作为所述数据输出信息;
数据获取单元,用于根据所述数据获取信息,从指定的数据源获取原始数据;
分拣单元,用于根据所述数据分拣信息,对所述原始数据进行分拣,得到分拣后的数据;
计算单元,用于根据所述数据计算信息,对所述分拣后的数据进行计算,得到聚合结果;
输出单元,用于根据所述数据输出信息,输出所述聚合结果。
8.一种计算机装置,其特征在于:所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1-6中任一项所述数据聚合方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述数据聚合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811143535.9A CN109558403B (zh) | 2018-09-28 | 2018-09-28 | 数据聚合方法及装置、计算机装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811143535.9A CN109558403B (zh) | 2018-09-28 | 2018-09-28 | 数据聚合方法及装置、计算机装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109558403A CN109558403A (zh) | 2019-04-02 |
CN109558403B true CN109558403B (zh) | 2024-02-02 |
Family
ID=65864722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811143535.9A Active CN109558403B (zh) | 2018-09-28 | 2018-09-28 | 数据聚合方法及装置、计算机装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558403B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813905B (zh) * | 2020-06-17 | 2024-05-10 | 平安科技(深圳)有限公司 | 语料生成方法、装置、计算机设备及存储介质 |
CN112328708B (zh) * | 2020-11-13 | 2024-07-19 | 深圳市般若大数据技术有限公司 | 一种多数据源实时聚合查询方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273519A (zh) * | 2017-06-22 | 2017-10-20 | 睿视智联科技(香港)有限公司 | 数据分析方法、装置、终端及存储介质 |
CN107480260A (zh) * | 2017-08-16 | 2017-12-15 | 北京奇虎科技有限公司 | 大数据实时分析方法、装置、计算设备及计算机存储介质 |
CN108427725A (zh) * | 2018-02-11 | 2018-08-21 | 华为技术有限公司 | 数据处理方法、装置和*** |
-
2018
- 2018-09-28 CN CN201811143535.9A patent/CN109558403B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273519A (zh) * | 2017-06-22 | 2017-10-20 | 睿视智联科技(香港)有限公司 | 数据分析方法、装置、终端及存储介质 |
CN107480260A (zh) * | 2017-08-16 | 2017-12-15 | 北京奇虎科技有限公司 | 大数据实时分析方法、装置、计算设备及计算机存储介质 |
CN108427725A (zh) * | 2018-02-11 | 2018-08-21 | 华为技术有限公司 | 数据处理方法、装置和*** |
Also Published As
Publication number | Publication date |
---|---|
CN109558403A (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442341B (zh) | 应用程序的界面配置方法、装置及终端设备 | |
CN111209352B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN113360554B (zh) | 一种数据抽取、转换和加载etl的方法和设备 | |
CN106557307B (zh) | 业务数据的处理方法及处理*** | |
CN110647562B (zh) | 一种数据查询方法和装置、电子设备、存储介质 | |
CN107391622B (zh) | 一种数据访问方法及设备 | |
CN109558403B (zh) | 数据聚合方法及装置、计算机装置及计算机可读存储介质 | |
CN109359027B (zh) | Monkey测试方法、装置、电子设备及计算机可读存储介质 | |
CN110955438A (zh) | 一种小程序的性能监控方法、装置、设备及存储介质 | |
CN112506950A (zh) | 数据聚合处理方法、计算节点、计算集群及存储介质 | |
CN111611276A (zh) | 数据查询方法、装置及存储介质 | |
CN112667631B (zh) | 业务字段自动编辑方法、装置、设备及存储介质 | |
CN109240998B (zh) | 可配置的文件解析方法 | |
CN111857781B (zh) | 资源更新方法及相关设备 | |
CN107256167B (zh) | 应用于应用***迁移的升级控制方法及升级控制设备 | |
CN111200744A (zh) | 一种多媒体播放控制方法、装置及智能设备 | |
CN112671878A (zh) | 一种区块链的信息订阅方法、装置、服务器和存储介质 | |
CN116775599A (zh) | 数据迁移方法、装置、电子设备、存储介质 | |
CN115757174A (zh) | 一种数据库的差异检测方法及装置 | |
CN112148470B (zh) | 参数同步方法、计算机装置及可读存储介质 | |
CN112712610A (zh) | 车辆诊断日志处理方法、装置、终端设备及可读存储介质 | |
CN113326237A (zh) | 日志数据的加工方法、装置、终端设备以及存储介质 | |
CN111782479A (zh) | 日志处理方法、装置、电子设备及计算机可读存储介质 | |
CN114371866A (zh) | 业务***的版本重构测试方法、装置和设备 | |
CN110765327A (zh) | 数据分析方法、装置、计算机装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |