CN105897503A - 基于资源信息增益的Hadoop集群瓶颈检测算法 - Google Patents

基于资源信息增益的Hadoop集群瓶颈检测算法 Download PDF

Info

Publication number
CN105897503A
CN105897503A CN201610192350.1A CN201610192350A CN105897503A CN 105897503 A CN105897503 A CN 105897503A CN 201610192350 A CN201610192350 A CN 201610192350A CN 105897503 A CN105897503 A CN 105897503A
Authority
CN
China
Prior art keywords
bottleneck
node
resource
information gain
satisfaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610192350.1A
Other languages
English (en)
Other versions
CN105897503B (zh
Inventor
郝志峰
谭造乐
蔡瑞初
温雯
陈炳丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201610192350.1A priority Critical patent/CN105897503B/zh
Publication of CN105897503A publication Critical patent/CN105897503A/zh
Application granted granted Critical
Publication of CN105897503B publication Critical patent/CN105897503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公布了基于资源信息增益的Hadoop集群瓶颈检测算法。该算法包括三部分:监测集群中每个节点的响应满意度RS,当RS下降到一定阀值时,则判断该节点出现瓶颈;针对出现瓶颈的节点采集样本,并对样本进行离散化处理;根据样本,计算出各资源的在样本中的信息增益,将信息增益较大的作为瓶颈资源。本发明方法可清楚地了解各个组件运行情况,优化资源利用率,提高Hadoop***的可扩展性。

Description

基于资源信息增益的Hadoop集群瓶颈检测算法
技术领域
本发明涉及大数据架构优化领域,主要涉及一种基于资源信息增益的Hadoop集群瓶颈检测算法。
背景技术
当今正处于大数据时代,传统的数据处理架构已经难以应对当今海量数据的处理。而Hadoop的出现很好地解决海量数据分析处理的难题。Hadoop集群基于主从模式,不同类型节点在集群中扮演着不同角色。其通过分布式存储机制将数据集分散的保存在集群的各个节点当中,并通过MapReduce编程模型使得作业能在分布式集群里高度并行地执行。由于Hadoop具有强的容错性、高可靠性和高可扩展性,其已经成为当今大数据处理的主流框架。
近几年来,学者们针对Hadoop的研究重点主要集中在对Hadoop优化方法上。如董新华,曾婉琳等通过MapReduce参数调整优化了提高Hadoop性能。而张呈在2014提出一种基于小文件的Hadoop优化算法,该方法通过mapFile,Hbase等Hadoop生态***的相关组件,对小文件处理进行优化;随后,唐霞则在2015年针对底层的调度器方面对Hadoop进行优化。这些学者对Hadoop的研究局限于优化方法上,而忽略了对Hadoop瓶颈检测的研究。而在瓶颈检测方面,国外的Villela等人用机器学***台进行检测。
发明内容
本发明的目的在于解决海量数据分析处理的难题,优化资源利用率,提高Hadoop***的可扩展性。
为实现上述目的,本发明采用以下技术方案:
本发明公开了基于资源信息增益的Hadoop集群瓶颈检测算法。在Hadoop平台内设有瓶颈监控模块,该模块按以下步骤进行检测:
(1)检测并记录集群中各节点的资源使用率情况和响应满意度RS,响应满意度RS用于评价各个节点的性能,当响应满意度RS低于阈值60%时,则判断该节点出现瓶颈;
(2)对检测到出现瓶颈的节点,采集各种资源的使用率及响应满意度RS的样本数据,并对样本进行离散化处理;
(3)通过样本数据计算节点中各个资源的信息增益,通过比较,将信息增益较大的作为节点的瓶颈资源。
其中,步骤(1)中记Tm为期待最小响应时间,Ts为实际响应时间;当Tm大于Ts时,节点的响应满意度RS为100%;当Tm小于等于Ts时,节点的响应满意度RS为Tm/Ts×100%。步骤(2)中通过划分等级的方法对样本进行离散化,其中资源使用率分5类:veryLow(0-20%),low(20%-40%),middle(40%-60%),high(60%-80%),veryHigh(80%-100%),而响应满意度分3类:low(0-60%),middle(60%-80%)和high(80%-100%)。步骤(3)中所述的信息增益为样本划分前后信息熵的差值,即样本中A资源的信息增益=整个样本集所含的信息熵-按资源A划分后的样本子集的信息熵。
本发明针对Hadoop分布式处理平台,充分利用资源信息增益的性质,将之切实地运用到对集群的瓶颈检测当中。此方法不仅能检测出瓶颈出现的节点位置,还能在出现瓶颈的节点上检测出造成瓶颈的资源,优化资源利用率,提高Hadoop***的可扩展性。将瓶颈结果进行分析,可以清楚地了解各个组件运行情况,同时将异常组件的运行状态反映给用户,在改进Hadoop平台性能、提高服务质量方面为用户提供依据和合理的建议。
附图说明
图1为本发明的算法流程架构图。
具体实施方案
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
如图1所示,本发明公开了一种基于资源信息增益的Hadoop集群瓶颈检测算法,在Hadoop平台内设有瓶颈监控模块,该模块按以下步骤进行检测:
(1).检测并记录集群中各节点的资源使用率情况和响应满意度RS,并通过响应满意度RS的值来判断节点是否出现瓶颈。其中响应满意度RS用于评价各个节点的性能,其值为:
其中,Tm为期待最小响应时间,Ts为实际响应时间。当响应满意度RS低于一定阈值(设为60%)时,则判断该节点出现瓶颈。
(2).对检测到出现瓶颈的节点,采集(各种资源的使用率;响应满意度RS)样本数据,并对样本进行离散化处理。由于影响集群***性能的资源有很多,且检测初期并不知道可能成为瓶颈的资源有哪些,故将可能导致***瓶颈的资源都考虑进去。如CPU,内存,硬盘IO,网络带宽等。通过划分等级的方法对样本集进行离散化。
其中资源使用率分5类:
veryLow(0-20%),low(20%-40%),middle(40%-60%),high(60%-80%),veryHigh(80%-100%)。
响应满意度分3类:low(0-60%)、middle(60%-80%)和high(80%-100%)。
例如有样本
s={CPU:45%,Mem:25%,IO:13%,Network:66%;RS:85%}
则其经过离散化后样本变为
s’={CPU:middle,Mem:low,IO:veryLow,Network:high;RS:high}。
(3).通过样本数据计算节点中各个资源的信息增益,通过比较,将信息增益较大的作为节点的瓶颈资源。首先需要计算样本集的信息熵。这里的信息熵可以理解用于衡量***复杂性的信息量。由上已经知道的目标属性响应满意度RS有3种可能等级,这里记为RSi(i=1,2,3)。假设在整个数据集S中,RSi出现的概率为Pi,则数据集S所含的信息熵为:
然后计算根据资源划分后样本子集的信息熵。假定资源A有在数据集中存在k个不同的值,那么可以根据资源A将S划分为k个样本子集{S1,S2,…,Sk},则按资源A划分后的样本子集信息熵为
其中,|Si|(i=1,2,…,k)为子集Si的样本数,|S|为总样本数。而信息增益则是样本划分前后信息熵的差值,则按资源A划分总数据集S的信息增益为:
Gain(S,A)=Entropy(S)-EntropyA(S)
信息增益越大,则说明该资源对***响应满意度RS的影响就越大。故将信息增益最大的资源作为瓶颈资源。
根据以上方法,一实施例中,Hadoop集群中4个节点,1个Master节点,3个Slave节点(Slave1,Slave2,Slave3)。根据步骤(1)通过增加集群负载检测各节点的响应满意度,如下表1所示:
表1集群各节点随负载增加的响应满意度RS(单位:%)
由表1易知集群在Master节点阈值低于60%,即判断在Master节点发生瓶颈。根据步骤(2),通过采集其各个资源使用率,响应满意度样本得到表2。然后根据步骤(3)通过算法计算得到IO的信息增益最大(0.2275)。故磁盘IO是瓶颈资源。
表2 Master节点各资源使用率和响应满意度数据样本(单位:%)
IO CPU Mem Network RS
17.5 94.5 31.5 20.4 98.4
31.6 93.2 38.7 20.7 97.1
45.7 94.7 44.6 21.3 97.4
62.6 95.2 49.3 20.6 98.0
70.4 94.5 55.8 19.5 98.6
79.3 95.7 59.4 20.3 98.3
87.4 95.1 63.5 20.7 97.9
95.8 94.8 68.3 21.5 98.3
96.6 78.6 71.1 19.3 59.4
96.8 87.3 73.7 20.6 45.5
97.1 89.4 76.9 20.2 30.6
97.4 90.6 79.4 19.8 15.8
97.3 90.2 82.6 20.4 8.7
97.5 89.6 86.1 21.1 7.9
97.6 90.7 88.9 20.4 7.4
综上,本发明算法通过实时监控Hadoop集群中各个节点的响应满意度RS,来判断集群瓶颈的出现。然后针对出现瓶颈的节点来进行资源使用率和响应满意度RS相对应的样本集合。在进行算法前通过利用划分等级的方法对样本集进行离散化处理。离散化处理完后,首先计算整个样本集所含的信息熵Entropy(S),然后根据资源对样本集进行划分子样本值,计算按资源划分后的样本子集信息熵Entropy资源(S)。由此计算出各个资源的信息增益Gain(S,资源)=Entropy(S)-Entropy资源(S)。通过比较,选择信息增益最大的作为瓶颈资源。将瓶颈结果进行分析,可以清楚地了解各个组件运行情况,同时将异常组件的运行状态反映给用户,便于进一步打破瓶颈以提高Hadoop平台性能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (4)

1.基于资源信息增益的Hadoop集群瓶颈检测算法,其特征在于,在Hadoop平台内设有瓶颈监控模块,该模块按以下步骤进行检测:
(1)检测并记录集群中各节点的资源使用率情况和响应满意度RS,响应满意度RS用于评价各个节点的性能,当响应满意度RS低于阈值60%时,则判断该节点出现瓶颈;
(2)对检测到出现瓶颈的节点,采集各种资源的使用率及响应满意度RS的样本数据,并对样本进行离散化处理;
(3)通过样本数据计算节点中各个资源的信息增益,通过比较,将信息增益较大的作为节点的瓶颈资源。
2.根据权利要求1所述的基于资源信息增益的Hadoop集群瓶颈检测算法,其特征在于:步骤(1)中记Tm为期待最小响应时间,Ts为实际响应时间;当Tm大于Ts时,节点的响应满意度RS为100%;当Tm小于等于Ts时,节点的响应满意度RS为Tm/Ts×100%。
3.根据权利要求1所述的基于资源信息增益的Hadoop集群瓶颈检测算法,其特征在于:步骤(2)中通过划分等级的方法对样本进行离散化,其中资源使用率分5类:veryLow(0-20%),low(20%-40%),middle(40%-60%),high(60%-80%),veryHigh(80%-100%),而响应满意度分3类:low(0-60%),middle(60%-80%)和high(80%-100%)。
4.根据权利要求1所述的基于资源信息增益的Hadoop集群瓶颈检测算法,其特征在于:步骤(3)中所述的信息增益为样本划分前后信息熵的差值,即样本中A资源的信息增益=整个样本集所含的信息熵-按资源A划分后的样本子集的信息熵。
CN201610192350.1A 2016-03-30 2016-03-30 基于资源信息增益的Hadoop集群瓶颈检测方法 Active CN105897503B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610192350.1A CN105897503B (zh) 2016-03-30 2016-03-30 基于资源信息增益的Hadoop集群瓶颈检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610192350.1A CN105897503B (zh) 2016-03-30 2016-03-30 基于资源信息增益的Hadoop集群瓶颈检测方法

Publications (2)

Publication Number Publication Date
CN105897503A true CN105897503A (zh) 2016-08-24
CN105897503B CN105897503B (zh) 2019-02-19

Family

ID=57014709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610192350.1A Active CN105897503B (zh) 2016-03-30 2016-03-30 基于资源信息增益的Hadoop集群瓶颈检测方法

Country Status (1)

Country Link
CN (1) CN105897503B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911762A (zh) * 2017-11-15 2018-04-13 国网安徽省电力公司宿州供电公司 一种基于决策树的onu故障诊断方法
CN113495840A (zh) * 2021-06-22 2021-10-12 北京交通大学 基于瓶颈资源定位及参数调优的大数据平台测试方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929667A (zh) * 2012-10-24 2013-02-13 曙光信息产业(北京)有限公司 一种hadoop集群性能的优化方法
US20150215405A1 (en) * 2014-01-24 2015-07-30 Electronics And Telecommunications Research Institute Methods of managing and storing distributed files based on information-centric network
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪***
CN105245617A (zh) * 2015-10-27 2016-01-13 江苏电力信息技术有限公司 一种基于容器的服务器资源供给方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929667A (zh) * 2012-10-24 2013-02-13 曙光信息产业(北京)有限公司 一种hadoop集群性能的优化方法
US20150215405A1 (en) * 2014-01-24 2015-07-30 Electronics And Telecommunications Research Institute Methods of managing and storing distributed files based on information-centric network
CN105245617A (zh) * 2015-10-27 2016-01-13 江苏电力信息技术有限公司 一种基于容器的服务器资源供给方法
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨远洋: "《带估计的分割点采样的并行决策树》", 31 May 2015 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911762A (zh) * 2017-11-15 2018-04-13 国网安徽省电力公司宿州供电公司 一种基于决策树的onu故障诊断方法
CN113495840A (zh) * 2021-06-22 2021-10-12 北京交通大学 基于瓶颈资源定位及参数调优的大数据平台测试方法

Also Published As

Publication number Publication date
CN105897503B (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
US10832087B1 (en) Advanced training of machine-learning models usable in control systems and other systems
KR102522005B1 (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
CN105325023B (zh) 用于小区异常检测的方法和网络设备
US7778715B2 (en) Methods and systems for a prediction model
US20210126931A1 (en) System and a method for detecting anomalous patterns in a network
CN112114986B (zh) 数据异常识别方法、装置、服务器和存储介质
US11275643B2 (en) Dynamic configuration of anomaly detection
WO2021145984A1 (en) Systems and methods for distributed incident classification and routing
KR102087959B1 (ko) 통신망의 인공지능 운용 시스템 및 이의 동작 방법
US20210400516A1 (en) Systems and methods for client device roaming in a wireless network to provide lossless video transmission services
TWI684139B (zh) 基於自動學習的基地台異常之預測的系統與方法
CN102929613A (zh) 操作***的调优装置和方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN112051771B (zh) 多云数据采集方法、装置、计算机设备和存储介质
CN111769974B (zh) 一种云***故障诊断方法
CN117527479B (zh) 软总线组网连接方法、装置、设备及存储介质
CN105897503B (zh) 基于资源信息增益的Hadoop集群瓶颈检测方法
CN108989083B (zh) 云环境下基于混合策略的故障检测性能优化方法
CN111708672B (zh) 数据传输方法、装置、设备及存储介质
CN113966515A (zh) 用于动作指示确定的***
CN117172093A (zh) 基于机器学习的Linux***内核配置的策略优化方法及装置
CN116662127A (zh) 一种设备告警信息分类并预警的方法、***、设备和介质
JP7339321B2 (ja) 機械学習モデル更新方法、コンピュータプログラムおよび管理装置
CN114676420A (zh) 结合ai和大数据的云办公信息处理方法及服务器
JP2019502969A (ja) スーパーコンピュータの保守および最適化を支援するための方法およびシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant