CN103188103A - 一种网管***自监控方法 - Google Patents

一种网管***自监控方法 Download PDF

Info

Publication number
CN103188103A
CN103188103A CN 201110458362 CN201110458362A CN103188103A CN 103188103 A CN103188103 A CN 103188103A CN 201110458362 CN201110458362 CN 201110458362 CN 201110458362 A CN201110458362 A CN 201110458362A CN 103188103 A CN103188103 A CN 103188103A
Authority
CN
China
Prior art keywords
thread
network management
management system
monitoring
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110458362
Other languages
English (en)
Inventor
周关力
廖昕
杨涛
陈松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Qinzhi Digital Technology Co Ltd
Original Assignee
Chengdu Qinzhi Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Qinzhi Digital Technology Co Ltd filed Critical Chengdu Qinzhi Digital Technology Co Ltd
Priority to CN 201110458362 priority Critical patent/CN103188103A/zh
Publication of CN103188103A publication Critical patent/CN103188103A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网管***自监控方法,该方法包括以下步骤:A、网管***对***内部线程进行监控;B、监控网管***所在服务器内存;C、监控网管***所在服务器CPU;D、监控网络***所在服务器网络接口;E、监控网管***所在磁盘;F、监控网管***所使用的数据库;G、网管***进行自告警,在网管***保证监控网络环境其他设备正常运行的同时,通过本发明公开的一种通用的网管***自监控方法,保证网管***自身的正常运行。

Description

一种网管***自监控方法
技术领域
本发明涉及网络技术领域,尤其涉及一种网管***自监控方法。
背景技术
随着通信技术的迅猛发展、网络环境日益复杂,为了实时掌握整个网络的运行状况,及时发现网络问题,优化网络性能和服务,网管***顺势而生。网管***及运维管理在多年的行业运作中有了自己一套完善理论基础及最佳实践方法,但作为网管自身的性能监控却没有一套可以支持的理论及方法,本发明公布了一种通用的网络管理***自监控方法。
目前多数网管***需要定期对网管***进行重启,以释放由于长时间运行出现的***占用较大内存、cup使用率过高等问题或者避免由于线程数过高或内存过高造成主程序卡死现象,无法满足7x24持续运行的客户需求。因为缺乏一套完善的自监控方法及措施,在网管***发生异常时,很难进行故障排查及问题定位。
为了解决上述问题,保证网管***的正常运行,就需要知道如下问题:***内部具体的内存是如何分配?是否为合理占用?***线程数是否过高?线程数过高是否合理?线程数是否一直持续上升?都哪些线程在启动?这其中哪些线程是应该关闭而未关?***所在服务器是否存在网络问题?网管***所监控的网络接口状态是否正常?是否可以正常接收网管信息?***所在磁盘是否拥有充足的使用空间?所使用数据库是否正常可用。
只有掌握了这些问题的答案,当***发生故障时我们才能快速定位问题所在:1、网管***自身的问题;2、网管***所在服务器性能无法满足***正常运行;3、网管***内部是否存在内存溢出;4、网管***所在服务器的剩余空间是否足以存储***运行所产生的信息;5、网管***所在服务器是否存在网络问题造成网管***无法进行正常网络管理等问题。
发明内容
本发明的目的在于提供一种网管***自监控方法,通过监控网管***运行中所产生的各种资源占用情况,监控网管***所在服务器性能,不仅使得网管***本身具有了自监控功能,能及时准确的监控网管***的运行状态、详细告警故障信息,而且监控负载小、监控效率高,采用这种方法的***可以帮助运维工程师更快的解决问题和对服务器进行优化。
本方法建议对自监控功能进行可配置操作,在***试运行阶段进行全面自监控,在正式运行时采用部分自监控模式,避免由于全面自监控的资源消耗而影响网管***的正常性能。
为了实现上述目的,本方法采用如下方案:一种网管***自监控方法,该方法包括以下步骤。
A、网管***对***内部线程进行监控。
步骤A具体可以是,内部线程监控主要为三类:主线程监控、依存线程监控、临时线程监控。
主线程监控,监控网管***中各模块主线程是否持续运行没有中断、卡死、重启等现象,监控方式采用心跳模式,连续3次未收到心跳信息,发送中级故障告警;连续15次未收到心跳信息,发送重大故障告警;线程心跳时断时续,但连续中断次数都不足3次,当此现象持续一定次数或时间后发送中级故障告警,说明该线程存在性能问题,具体次数可配。
依存线程监控,监控网管***中各线程依附情况,记录各临时线程的上级线程及其与上级类依附状态;当某一线程关闭时,查看所有由该线程调用或开启并与其存在依附关系的下级线程,是否随线程的关闭而在规定的延迟时间内正常关闭。
临时线程监控,监控网管***中所有临时开启的线程,记录并监控临时线程是否在规定的存活时间内正常关闭。
内部线程监控应记录并监控线程创建时间、关闭时间、上级线程、调用方法及其已存活时间,并记录网管***线程总数。
线程类型:永久线程;临时线程。各模块主线程属于永久线程;临时线程可以设置线程存活时间阀值。
对线程监控应按照***模块、线程类型进行分类,以便在发现问题是迅速定位及方便实际工作中监控权限设置。
B、监控网管***所在服务器内存。
步骤B具体可以是,监控网管***所在服务器内存;对监控网管***所在服务器的内存利用率进行监控,并设置内存利用率阀值,监控内存利用率超过阀值发送告警,当内存利用率持续超过阀值一段时间后仍未处理,自动提升告警级别并发送新告警;根据实际情况对网管***进行优化或者对设备内存进行扩容。
C、监控网管***所在服务器CPU;
步骤C具体可以是,监控网管***所在服务器CPU;对监控网管***所在服务器CPU利用率进行监控,并设置CPU利用率阀值,监控CPU利用率超过阀值发送告警,当CPU利用率持续超过阀值一段时间后仍未处理,自动提升告警级别并发送新告警;根据实际情况对网管***进行优化或者更换具有较高处理能力的宿主机器。
D、监控网络***所在服务器网络接口。
步骤D具体可以是,监控网络***所在服务器网络接口;主要监控接口管理状态和操作状态,出入流量数,丢包数,错包数,出入流量利用率,丢包率,错包率等信息。避免由于接口网络或物理问题影响网管***正常的网络管理信息通讯。
E、监控网管***磁盘占用情况。
步骤E具体可以是,磁盘占用情况;监控***日志所在磁盘、***运行目录所在磁盘占用及数据存储所在磁盘的磁盘利用率、剩余空间和磁盘总大小。
对***所在磁盘分区中的磁盘使用率进行监控,时刻了解磁盘运行状况,避免由于物理磁盘分区不足而造成日志、临时文件、数据等信息无法存入或无法创建的情况。
根据监控情况进行自告警,建议用户修改日志清理策略、临时文件删除策略及数据归并策略等;或者添加物理磁盘对原设备进行扩容。
F、监控网管***所使用的数据库。
步骤F具体可以是,监控网管***所使用的数据库;监控数据库数据库读写次数、数据库会话数,数据库回滚次数,内存写命中率、死锁数、存储失效数、当前连接数、日志大小等进行监控。实时了解数据库动态,避免由于数据库异常影响网管***正常运行。
G、网管***进行自告警。
步骤G具体可以是,网管***进行自告警;根据步骤A、B、C、D、E、F各步骤的监控数据,是否存在异常及超出阀值发布告警事件,网管***采用自身已用的告警方式如:声光、短信、邮件等方式进行自告警。
采用本方法的网管***,可保证监控网络环境其他设备正常运行的同时,保证网管***自身的正常运行,网管***本身具有了自监控功能,能及时准确的监控网管***的运行状态、详细告警故障信息,而且监控负载小、监控效率高,可广泛使用在各种网管***中。
附图说明
图1:本发明方法工作流程总图。
图2:线程自监控方法示意图。
图3:磁盘自监控方法示意图。
具体实施方式
本说明书中公开的所有特征、所有方法或过程中的步骤,除了互相排斥的特征或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
下面将结合附图对本发明做进一步的说明
如图1、本发明方法基本流程如下:网管***在对外管理的同时进行自监控,监控内部线程运行状况、内存、CPU占用情况、网络接口运行状况、所访问数据库的运行状况以及***所做磁盘的可用空间的监控,保证网管***自身的正常运行。
关于内部线程监控如图2所示:
1、监控网管***内部各模块中主线程,此类线程相对于网管***永久性存活,对此类线程采用心跳式进行监控;一般采取5秒钟一次心跳脉冲反应,若连续3个周期即15秒未收到线程心跳脉冲,应及时发送中级故障告警,表明该模块主线程可能存在异常问题造成线程卡住或可能存在线程已异常关闭;若连续15个周期即75秒仍未收到心跳脉冲,应立刻发送重大故障告警,表明线程内部遇到重大问题卡死线程或线程已异常关闭;若线程心跳脉冲时断时续,但连续中断都不满3次,应发送故障告警,说明该模块存在性能问题。
2、监控网管***中临时线程间的依存线程:此类线程都属于***临时线程,为某一业务而临时开启的线程;在多线程的环境下,一般都会由一个上级线程开启多个下级子线程,成树状结构。其中有可能存在这样的几种依存关系:a、当上级线程被通知关闭后,下级线程应随之关闭;b、当下级子线程全部正常关闭后,上级线程应关闭。本步骤主要对这两种依存线程进行监控,当上级线程被通知关闭后,下级应随之关闭线程是否收到关闭指令;当上级线程被通知关闭,下级线程收到关闭指令后是否都在规定延迟时间内关闭;当下级线程全部正常关闭,应随之关闭的上级线程是否正常关闭。
3、监控网管***中临时线程关闭情况:首先根据***业务对内部临时线程进行分级,不同级别的线程的存活时间阀值可配,当临时线程在阀值规定时间内未关闭,发送故障告警。
关于服务器内存、CPU监控如下:
网管***监控所在服务器的内存及CPU利用率进行监控,并设置各级别告警阀值,当服务器内存或CPU利用率超过阀值发送相应告警;同时允许设置持续高峰时间阀值,当***内存或CPU利用率超过阀值的持续时间超过所设持续高峰时间,自动提升告警级别发送新告警。
关于磁盘自监控如图3
网管***对自身所使用的磁盘进行监控,主要监控:***运行目录所在磁盘,***日志所在磁盘、***数据存储所在磁盘,当磁盘剩余空间无法满足***产生数据的持续增长,发送告警,运维人员可以及时的修改数据存储压缩及清理策略或对硬件进行扩容。
 对于网络接口运行状况、所访问数据库的运行状况的监控,建议采用网管***通用的数据库监控方案及网络接口监控方案,进行自身监控。

Claims (9)

1.一种网管***自监控方法,该方法包括以下步骤: 
A、网管***对***内部线程进行监控;
B、监控网管***所在服务器内存;
C、监控网管***所在服务器CPU;
D、监控网络***所在服务器网络接口;
E、监控网管***所在磁盘;
F、监控网管***所使用的数据库;
G、网管***进行自告警。
2.根据权利要求1所述的一种网管***自监控方法,其特征在于:所述步骤A网管***对***内部线程进行监控,内部线程主要为三类:主线程监控、依存线程监控、临时线程监控;内部线程监控应记录并监控线程创建时间、关闭时间、上级线程、调用方法及其已存活时间,并记录网管***线程总数。
3.根据权利要求2中所述的一种网管***自监控方法,其特征在于:主线程监控,监控网管***中各模块主线程是否持续运行没有中断、卡死、重启等现象,监控方式采用心跳模式,连续3次未收到心跳信息,发送中级故障告警;连续15次未收到心跳信息,发送重大故障告警;线程心跳时断时续,但连续中断次数都不足3次,当此现象持续一定次数或时间后发送中级故障告警,说明该线程存在性能问题,具体次数可配。
4.根据权利要求2或3所述的一种网管***自监控方法,其特征在于:依存线程监控,监控网管***中各线程依附情况,记录各临时线程的上级线程及其与上级类依附状态;当某一线程关闭时,查看所有由该线程调用或开启并与其存在依附关系的下级线程,是否随线程的关闭而在规定的延迟时间内正常关闭。
5.根据权利要求4所述的一种网管***自监控方法,其特征在于:临时线程监控,监控网管***中所有临时开启的线程,记录并监控临时线程是否在规定的存活时间内正常关闭。
6. 根据权利要求1所述的一种网管***自监控方法,其特征在于:步骤D监控网络***所在服务器网络接口;主要监控接口管理状态和操作状态,出入流量,丢包数,错包数,出入流量利用率,丢包率,错包率等信息。
7.根据权利要求1所述的一种网管***自监控方法,其特征在于:所述步骤E监控网管***所在磁盘,监控***日志所在磁盘、***运行目录所在磁盘占用及数据存储所在磁盘的磁盘利用率、剩余空间和磁盘总大小。
8.根据权利要求1所述的一种网管***自监控方法,其特征在于:所述步骤F监控网管***所使用的数据库,监控数据库数据库读写次数、数据库会话数,数据库回滚次数,内存写命中率、死锁数、存储失效数、当前连接数、日志大小等进行监控。
9.根据权利要求1所述的一种网管***自监控方法,其特征在于:所述步骤G网管***进行自告警,网管***采用自身已用的告警方式如:声光、短信、邮件等方式进行自告警。
CN 201110458362 2011-12-31 2011-12-31 一种网管***自监控方法 Pending CN103188103A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110458362 CN103188103A (zh) 2011-12-31 2011-12-31 一种网管***自监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110458362 CN103188103A (zh) 2011-12-31 2011-12-31 一种网管***自监控方法

Publications (1)

Publication Number Publication Date
CN103188103A true CN103188103A (zh) 2013-07-03

Family

ID=48679075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110458362 Pending CN103188103A (zh) 2011-12-31 2011-12-31 一种网管***自监控方法

Country Status (1)

Country Link
CN (1) CN103188103A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410550A (zh) * 2014-12-10 2015-03-11 深圳中兴网信科技有限公司 Web服务监控方法和Web服务监控装置
CN104991855A (zh) * 2015-06-16 2015-10-21 广州华多网络科技有限公司 界面卡顿处理方法及装置
CN105119767A (zh) * 2015-06-29 2015-12-02 北京宇航时代科技发展有限公司 一种数据自检及自清理的软件运行状态监测方法及***
CN107193642A (zh) * 2016-03-14 2017-09-22 阿里巴巴集团控股有限公司 任务数据压缩切换方法、宜压缩程度评价方法及相关装置
CN107294786A (zh) * 2017-07-13 2017-10-24 郑州云海信息技术有限公司 一种故障信息处理方法及装置
CN108647123A (zh) * 2018-03-29 2018-10-12 浙江慧优科技有限公司 一种提高数据库监控软件数据采集性能的方法
CN111092996A (zh) * 2019-10-31 2020-05-01 国网山东省电力公司信息通信公司 一种集中式调度录音***及控制方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410550A (zh) * 2014-12-10 2015-03-11 深圳中兴网信科技有限公司 Web服务监控方法和Web服务监控装置
CN104410550B (zh) * 2014-12-10 2018-05-01 深圳中兴网信科技有限公司 Web服务监控方法和Web服务监控装置
CN104991855A (zh) * 2015-06-16 2015-10-21 广州华多网络科技有限公司 界面卡顿处理方法及装置
CN104991855B (zh) * 2015-06-16 2018-09-11 广州华多网络科技有限公司 界面卡顿处理方法及装置
CN105119767A (zh) * 2015-06-29 2015-12-02 北京宇航时代科技发展有限公司 一种数据自检及自清理的软件运行状态监测方法及***
CN107193642A (zh) * 2016-03-14 2017-09-22 阿里巴巴集团控股有限公司 任务数据压缩切换方法、宜压缩程度评价方法及相关装置
CN107294786A (zh) * 2017-07-13 2017-10-24 郑州云海信息技术有限公司 一种故障信息处理方法及装置
CN108647123A (zh) * 2018-03-29 2018-10-12 浙江慧优科技有限公司 一种提高数据库监控软件数据采集性能的方法
CN111092996A (zh) * 2019-10-31 2020-05-01 国网山东省电力公司信息通信公司 一种集中式调度录音***及控制方法

Similar Documents

Publication Publication Date Title
CN103188103A (zh) 一种网管***自监控方法
CN106817243A (zh) 服务器资源的管理***及其管理方法
AU2019201687B2 (en) Network device vulnerability prediction
CN104699807B (zh) 一种oracle数据表空间的自动监控扩容方法
CN102624554B (zh) 一种结合了设备管理和业务管理的综合网络管理方法
CN105224888B (zh) 一种基于安全预警技术的磁盘阵列数据保护***
CN110166290A (zh) 基于日志文件的告警方法及装置
CN109861878A (zh) kafka集群的topic数据的监控方法及相关设备
CN105939225A (zh) 一种业务执行的方法及装置
CN102917010A (zh) 多计算机***中的自动抢占
CN110245053A (zh) 故障预测诊断方法及***
CN102855319A (zh) Oracle数据库操作监控***
CN109783311A (zh) 断点行为的监控处理方法、装置、设备及可读存储介质
CN102571413B (zh) 一种集群环境下资源管理的方法
CN105512788A (zh) 一种智能运维管理方法及***
CN101827120A (zh) 一种集群存储方法及***
CN102981939B (zh) 磁盘监控方法
CN101102217B (zh) 电信网管***中告警重复和闪断上报及监视的处理方法
CN106789158A (zh) 一种云服务保险定损方法和***
JP6223594B2 (ja) 遠隔統合監視操作システム
CN103902401B (zh) 基于监控的虚拟机容错方法及装置
CN105119765B (zh) 一种智能处理故障体系架构
CN114610567A (zh) 容器监控方法、网络设备及存储介质
CN112231107B (zh) 防火墙的报文限速***、方法、设备及介质
CN109783310A (zh) It设备的多维动态安全监控方法及其监控装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C05 Deemed withdrawal (patent law before 1993)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130703