CN108540439B - 数据解析方法及***、设备和存储介质 - Google Patents

数据解析方法及***、设备和存储介质 Download PDF

Info

Publication number
CN108540439B
CN108540439B CN201810100691.0A CN201810100691A CN108540439B CN 108540439 B CN108540439 B CN 108540439B CN 201810100691 A CN201810100691 A CN 201810100691A CN 108540439 B CN108540439 B CN 108540439B
Authority
CN
China
Prior art keywords
data
message
ganglia
big data
acquisition tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810100691.0A
Other languages
English (en)
Other versions
CN108540439A (zh
Inventor
黄昌明
童晨曦
蔡适择
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201810100691.0A priority Critical patent/CN108540439B/zh
Publication of CN108540439A publication Critical patent/CN108540439A/zh
Application granted granted Critical
Publication of CN108540439B publication Critical patent/CN108540439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种数据解析方法及***、设备和存储介质,该方法包括:通过自定义的udp服务接收若干大数据组件发送的报文数据并进行解析,得到性能指标数据并推送至自定义的消息中间件;通过该消息中间件为应用程序提供性能指标数据。本发明通过配置自定义的udp服务对若干不同大数据组件发送的报文数据进行解析,并通过自定义的消息中间件将解析得到的性能指标数据提供给后端的应用程序,从而实现了为***提供适配于多样化大数据组件的统一数据采集入口。

Description

数据解析方法及***、设备和存储介质
技术领域
本申请涉及数据解析技术领域,具体涉及一种数据解析方法及***、设备和存储介质。
背景技术
随着计算机和信息技术的迅猛发展和普及应用,科学技术发展日新月异,由此产生的数据量呈现爆发式增长。为应对处理大数据催生出了各式各样的大数据组件,包含分布式存储,分布式计算、分布式调度等组件。各大数据组件是存储和处理数据的利器,只有组件正常健康的运行才能从数据中挖掘更大的价值,因此对大数据组件的性能指标采集就极为重要。通过性能指标采集,构建监控数据底盘,对及时了解分析大数据组件的运行健康状况极有裨益。
目前,大数据组件种类繁多,如何采集多样化大数据组件的性能指标,当前的***通常不具备适配于多样化大数据组件的统一数据采集入口,导致无法充分利用来源于不同大数据组件的数据。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种提供适配于多样化大数据组件的统一数据采集入口的数据解析方法及***、设备和存储介质。
第一方面,本发明提供一种数据解析方法,包括:
通过自定义的udp服务接收若干大数据组件发送的报文数据并进行解析,得到性能指标数据并推送至自定义的消息中间件;
通过该消息中间件为应用程序提供性能指标数据。
第二方面,本发明提供一种数据解析***,包括解析单元和中间件单元。
解析单元配置用于通过自定义的udp服务接收若干大数据组件发送的报文数据并进行解析,得到性能指标数据并推送至自定义的消息中间件;
中间件单元配置用于通过该消息中间件为应用程序提供性能指标数据。
第三方面,本发明还提供一种设备,包括一个或多个处理器和存储器,其中存储器包含可由该一个或多个处理器执行的指令以使得该一个或多个处理器执行根据本发明各实施例提供的数据解析方法。
第四方面,本发明还提供一种存储有计算机程序的存储介质,该计算机程序使计算机执行根据本发明各实施例提供的数据解析方法。
本发明诸多实施例提供的数据解析方法及***、设备和存储介质通过配置自定义的udp服务对若干不同大数据组件发送的报文数据进行解析,并通过自定义的消息中间件将解析得到的性能指标数据提供给后端的应用程序,从而实现了为***提供适配于多样化大数据组件的统一数据采集入口;
本发明一些实施例提供的数据解析方法及***、设备和存储介质进一步通过为自身未配置ganglia插件的大数据组件提供Jvmtrans采集工具的下载信息,实现了可通过任意大数据组件获取ganglia报文数据,从而进一步保障了数据解析的成功率;
本发明一些实施例提供的数据解析方法及***、设备和存储介质进一步通过netty自定义udp服务,通过kafka自定义消息中间件,进一步提高了统一数据采集入口的数据吞吐量。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例提供的一种数据解析方法的流程图。
图2为图1所示方法的一种优选实施方式的流程图。
图3为本发明一实施例提供的一种数据解析***的结构示意图。
图4为图3所示***的一种优选实施方式的结构示意图。
图5为本发明一实施例提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为本发明一实施例提供的一种数据解析方法的流程图。
如图1所示,在本实施例中,本发明提供一种数据解析方法,包括:
S30:通过自定义的udp服务接收若干大数据组件发送的报文数据并进行解析,得到性能指标数据并推送至自定义的消息中间件;
S50:通过该消息中间件为应用程序提供性能指标数据。
具体地,在本实施例中,报文数据配置为ganglia报文数据。Ganglia是UCBerkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端,主要是用于监控***性能,如:cpu、mem、硬盘利用率,I/O负载、网络流量情况等,可通过曲线便捷地反映每个节点的工作状态。当前大多数的大数据组件中均自带有ganglia采集插件。
相对应地,在步骤S30中预配置有ganglia报文数据的解析方法,各大数据组件可以根据自身是否配置有ganglia插件选择以下的一种方式来采集生成ganglia报文数据:
对于自身配置有ganglia插件的大数据组件,可以通过自带的ganglia插件采集生成ganglia报文数据;
对于自身未配置有ganglia插件的大数据组件,可以通过配置带有ganglia插件的Jvmtrans采集工具,或其它任意一种带有ganglia插件的采集工具,再利用该采集工具中的ganglia插件采集生成ganglia报文数据。
在更多实施例中,还可以根据实际需求将报文数据配置为其它不同类型的报文数据,并在步骤S30中配置该类型的报文数据的解析方法,以及,在各大数据组件中配置相对应的插件或采集工具以采集该类型的报文数据。
更进一步地,还可根据实际需求将报文数据配置为多种类型的报文数据的组合,并在步骤S30中配置各类型的报文数据的解析方法,以及,在各大数据组件中配置各类型的报文数据中至少一类报文数据所对应的插件或采集工具。
在步骤S30中,各大数据组件通过负载均衡将各自采集的ganglia报文数据发送至解析单元,该解析单元配置有基于netty自定义的udp服务,通过udp服务对接收的各ganglia报文数据进行解析,得到性能指标数据,并将性能指标数据推送至基于kafka自定义的消息中间件。
其中,netty是基于Java NIO client-server的网络应用框架,使用netty可以快速开发网络应用,例如服务器和客户端协议。Netty提供了一种新的方式来开发网络应用程序,这种新的方式使它很容易使用和具有很强的扩展性。由于netty是一种开源架构,本领域技术人员可以通过开源的技术资料获知基于netty自定义udp服务的技术原理,具体在此不再赘述。
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息***,它可以处理消费者规模的网站中的所有动作流数据。本领域技术人员同样可以通过开源的技术资料获知基于kafka自定义消息中间件的技术原理,具体在此不再赘述。
在步骤S50中,通过该消息中间件为后端的应用程序提供性能指标数据。
本实施例选用了基于netty自定义udp服务、基于kafka自定义消息中间件的方式,利用netty和kafka吞吐量高的特性,可以实现提高统一数据采集入口的数据吞吐量的效果。
在更多实施例中,还可采用不同的技术框架来实现udp服务和消息中间件,例如基于Akka、ZMQ、smart-socket等任一框架自定义udp服务,基于RabbitMQ、RocketMQ自定义消息中间件,等等,可实现相似的技术效果。
上述各实施例通过配置自定义的udp服务对若干不同大数据组件发送的报文数据进行解析,并通过自定义的消息中间件将解析得到的性能指标数据提供给后端的应用程序,从而实现了为***提供适配于多样化大数据组件的统一数据采集入口。
图2为图1所示方法的一种优选实施方式的流程图。
如图2所示,在一优选实施例中,该方法还包括:
S10:接收大数据组件发送的采集工具下载请求,返回Jvmtrans采集工具的下载信息以供下载并配置Jvmtrans采集工具。
具体地,通过提供采集工具的下载信息,可以保障大数据组件成功配置采集工具及其带有的插件,从而保障成功采集到ganglia报文数据,进而保障了数据解析的成功率。
图3为本发明一实施例提供的一种数据解析***的结构示意图。图3所示的***可对应执行图1所示的方法。
如图3所示,在本实施例中,本发明提供一种数据解析***10,包括解析单元13和中间件单元15。
其中,解析单元13配置用于通过自定义的udp服务接收若干大数据组件发送的报文数据并进行解析,得到性能指标数据并推送至自定义的消息中间件;
中间件单元15配置用于通过该消息中间件为应用程序提供性能指标数据。
图3所示***的数据解析原理可参照图1所示的方法,此处不再赘述。
图4为图3所示***的一种优选实施方式的结构示意图。图4所示***可对应执行图2所示的方法。
如图4所示,在一优选实施例中,该数据解析***10还包括配置单元11。
配置单元11配置用于接收大数据组件发送的采集工具下载请求,返回Jvmtrans采集工具的下载信息以供下载并配置Jvmtrans采集工具。
图4所示***的数据解析原理可参照图2所示的方法,此处不再赘述。
图5为本发明一实施例提供的一种设备的结构示意图。
如图5所示,作为另一方面,本申请还提供了一种设备500,包括一个或多个中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有设备500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上述任一实施例描述的数据解析方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行数据解析方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
作为又一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例的***中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,该程序被一个或者一个以上的处理器用来执行描述于本申请的数据解析方法。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的***来实现,或者可以通过专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,各所述单元可以是设置在计算机或移动智能设备中的软件程序,也可以是单独配置的硬件装置。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离本申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种数据解析方法,其特征在于,包括:
通过自定义的udp服务接收若干大数据组件发送的报文数据并进行解析,得到性能指标数据并推送至自定义的消息中间件,所述大数据组件用于存储和处理数据;
通过所述消息中间件为应用程序提供所述性能指标数据。
2.根据权利要求1所述的方法,其特征在于,所述报文数据为ganglia报文数据,所述ganglia报文数据通过以下任一种方式生成:
由所述大数据组件通过自带的ganglia插件采集生成;
由所述大数据组件配置Jvmtrans采集工具,并利用所述Jvmtrans采集工具中的ganglia插件采集生成。
3.根据权利要求2所述的方法,其特征在于,还包括:
接收所述大数据组件发送的采集工具下载请求,返回Jvmtrans采集工具的下载信息以供下载并配置Jvmtrans采集工具。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述udp服务基于netty自定义。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述消息中间件基于kafka自定义。
6.一种数据解析***,其特征在于,包括:
解析单元,配置用于通过自定义的udp服务接收若干大数据组件发送的报文数据并进行解析,得到性能指标数据并推送至自定义的消息中间件,所述大数据组件用于存储和处理数据;
中间件单元,配置用于通过所述消息中间件为应用程序提供所述性能指标数据。
7.根据权利要求6所述的***,其特征在于,所述报文数据为ganglia报文数据,所述ganglia报文数据通过以下任一种方式生成:
由所述大数据组件通过自带的ganglia插件采集生成;
由所述大数据组件配置Jvmtrans采集工具,并利用所述Jvmtrans采集工具中的ganglia插件采集生成。
8.根据权利要求7所述的***,其特征在于,还包括:
配置单元,配置用于接收所述大数据组件发送的采集工具下载请求,返回Jvmtrans采集工具的下载信息以供下载并配置Jvmtrans采集工具。
9.根据权利要求6-8任一项所述的***,其特征在于,所述udp服务基于netty自定义。
10.根据权利要求6-8任一项所述的***,其特征在于,所述消息中间件基于kafka自定义。
11.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-5中任一项所述的方法。
12.一种存储有计算机程序的存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201810100691.0A 2018-02-01 2018-02-01 数据解析方法及***、设备和存储介质 Active CN108540439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810100691.0A CN108540439B (zh) 2018-02-01 2018-02-01 数据解析方法及***、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810100691.0A CN108540439B (zh) 2018-02-01 2018-02-01 数据解析方法及***、设备和存储介质

Publications (2)

Publication Number Publication Date
CN108540439A CN108540439A (zh) 2018-09-14
CN108540439B true CN108540439B (zh) 2021-10-29

Family

ID=63486238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810100691.0A Active CN108540439B (zh) 2018-02-01 2018-02-01 数据解析方法及***、设备和存储介质

Country Status (1)

Country Link
CN (1) CN108540439B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698159A (zh) * 2019-03-15 2020-09-22 顺丰科技有限公司 业务数据处理方法、装置及存储介质
CN114168405A (zh) * 2021-11-17 2022-03-11 深圳市梦网科技发展有限公司 一种数据监控方法、装置、终端设备及存储介质
CN114785808A (zh) * 2022-03-28 2022-07-22 深圳开源互联网安全技术有限公司 一种数据同步解析方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102520785A (zh) * 2011-12-27 2012-06-27 东软集团股份有限公司 一种云数据中心能耗管理方法及***
CN104268739A (zh) * 2014-08-29 2015-01-07 蓝信工场(北京)科技有限公司 一种将企业信息***快速转化为移动应用的方法和***
CN104345717A (zh) * 2014-10-17 2015-02-11 武汉华大优能信息有限公司 一种基于物联网的智能远程数据采集***
CN104407910A (zh) * 2014-10-29 2015-03-11 华南理工大学 一种虚拟化服务器性能的监测方法及***
CN106161143A (zh) * 2016-07-22 2016-11-23 浪潮电子信息产业股份有限公司 一种基于arm服务器的网络性能测试方法及装置
CN106294091A (zh) * 2016-08-11 2017-01-04 福建富士通信息软件有限公司 一种无侵入式日志拦截性能分析方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7650317B2 (en) * 2006-12-06 2010-01-19 Microsoft Corporation Active learning framework for automatic field extraction from network traffic

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102520785A (zh) * 2011-12-27 2012-06-27 东软集团股份有限公司 一种云数据中心能耗管理方法及***
CN104268739A (zh) * 2014-08-29 2015-01-07 蓝信工场(北京)科技有限公司 一种将企业信息***快速转化为移动应用的方法和***
CN104345717A (zh) * 2014-10-17 2015-02-11 武汉华大优能信息有限公司 一种基于物联网的智能远程数据采集***
CN104407910A (zh) * 2014-10-29 2015-03-11 华南理工大学 一种虚拟化服务器性能的监测方法及***
CN106161143A (zh) * 2016-07-22 2016-11-23 浪潮电子信息产业股份有限公司 一种基于arm服务器的网络性能测试方法及装置
CN106294091A (zh) * 2016-08-11 2017-01-04 福建富士通信息软件有限公司 一种无侵入式日志拦截性能分析方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHMA:一种云平台的监控框架;陈林 等;《计算机科学》;20170410;第44卷(第1期);第7-12页 *

Also Published As

Publication number Publication date
CN108540439A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN107809331B (zh) 识别异常流量的方法和装置
US10187461B2 (en) Configuring a system to collect and aggregate datasets
CN109710615B (zh) 数据库的访问管理方法、***、电子设备和存储介质
US20110246826A1 (en) Collecting and aggregating log data with fault tolerance
CN108540439B (zh) 数据解析方法及***、设备和存储介质
US20150019557A1 (en) Dynamically processing an event using an extensible data model
Kotenko et al. Aggregation of elastic stack instruments for collecting, storing and processing of security information and events
CN111190888A (zh) 一种管理图数据库集群的方法和装置
CN113157545A (zh) 业务日志的处理方法、装置、设备及存储介质
CN110858192A (zh) 一种日志查询方法和***、日志排查***和查询终端
CN114416685B (zh) 日志处理方法、***和存储介质
CN110546615B (zh) 超动态java管理扩展
CN110928934A (zh) 一种用于业务分析的数据处理方法和装置
CN114971714A (zh) 一种基于大数据标签的精准客户运营方法和计算机设备
CN113850408A (zh) 电力物联网数据分析方法、***及装置
CN112579406B (zh) 一种日志调用链生成方法和装置
CN109597702B (zh) 消息总线异常的根因分析方法、装置、设备及存储介质
CN116668331A (zh) 分布式性能监控***以及方法
CN107682432B (zh) 基于Spark的数据处理***和方法
WO2023154854A1 (en) Edge-based data collection system for an observability pipeline system
CN111159142A (zh) 一种数据处理方法及装置
CN114265866A (zh) 流式数据处理方法、规则插件、流式数据处理模块及***
CN111611131A (zh) 基于Saltstack的运维方法、装置、***及存储介质
CN112363774A (zh) Storm实时任务的配置方法及装置
CN111078975A (zh) 一种多节点增量式数据采集***及采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant