CN106371975A - 一种运维自动化预警方法和*** - Google Patents

一种运维自动化预警方法和*** Download PDF

Info

Publication number
CN106371975A
CN106371975A CN201610791904.XA CN201610791904A CN106371975A CN 106371975 A CN106371975 A CN 106371975A CN 201610791904 A CN201610791904 A CN 201610791904A CN 106371975 A CN106371975 A CN 106371975A
Authority
CN
China
Prior art keywords
data
operation management
early warning
module
management data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610791904.XA
Other languages
English (en)
Other versions
CN106371975B (zh
Inventor
武洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin Youe Data Co Ltd
Original Assignee
Guoxin Youe Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoxin Youe Data Co Ltd filed Critical Guoxin Youe Data Co Ltd
Priority to CN201610791904.XA priority Critical patent/CN106371975B/zh
Publication of CN106371975A publication Critical patent/CN106371975A/zh
Application granted granted Critical
Publication of CN106371975B publication Critical patent/CN106371975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种运维自动化预警方法,包括以下步骤:采集和存储运维管理网络中的运维管理数据,并将采集后的运维管理数据进行抽取;对采集的运维管理数据进行预处理,包括清洗、关联和分类;对预处理后的运维管理数据进行加工处理,包括脱敏保护、分级处理和封装存储;对预处理后的运维管理数据和加工处理后的运维管理数据进行预警分析;将预警分析后的结果按照预设形式进行输出展示。本发明还提供一种运维自动化预警***。本发明提供的方法和***能够减少对核心人员的依赖程度、减少管理人员的工作压力、提高运维管理者的工作效率并且能够提前预判预警计算机或网络中出现的问题。

Description

一种运维自动化预警方法和***
技术领域
本发明涉及云计算***维护领域,具体涉及一种计算机运维自动化预警方法与***。
背景技术
云计算是网格计算分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机技术和网络技术发展融合的产物。云计算的基本原理是将计算分布在大量的分布式计算机上而非本地计算机或远程服务器中企业数据中心的运行与互联网更相似。企业能够将资源切换到需要的应用上根据需求访问计算机和存储***。通过云计算 企业可以统一IT资源 根据用户需求提供可量化的计算和存储服务提高IT资源的利用率降低***的成本。由于云计算集合了大量繁杂的数据,所以对云计算的运维管理变得尤为重要。
然而,目前企业的云计算运维管理中存在以下弊端:
(1)运维管理过度依赖核心人员
在现有的计算机运维管理中,管理者层次有高有底,在实际工作中积累的、有价值的经验仅存在于头脑中,未能作为书面的知识记录规范地保存下来,经验始终仅能在小范围内得到传播和继承,无法在更大的范围内体现其价值。这样导致了无论是事件性质的识别、优先级的界定,还是疑难问题的分析诊断,均汇总至少数核心人员进行处理。这样不仅增加了少数核心人员的工作量,也容易产生工作流程的“瓶颈”,降低运维团队整体的事件及问题处理效率。
(2)运维管理工作效率低
随着企业业务等越来越广泛的开展,企业IT网络上运行的应用***不断增多,各项业务***对信息网络的依赖性越来越高,计算机运维管理工作量也逐渐增多,由于人手和经验的限制,使得运维管理工作效率下降。
因此,亟待需要开发一种能够减少对核心人员的依赖程度、减少管理人员的工作压力、提高运维管理者的工作效率并且能够提前预判预警计算机或网络中出现的问题的运维管理方法。
发明内容
针对上述技术问题,本发明提供一种运维自动化预警方法与***,能够减少对核心人员的依赖程度、减少管理人员的工作压力、提高运维管理者的工作效率并且能够提前预判预警计算机或网络中出现的问题。
本发明采用的技术方案为:
本发明的实施例提供一种运维自动化预警方法,包括以下步骤:(1)采集和存储运维管理网络中的运维管理数据,并将采集后的运维管理数据进行抽取;(2)对采集的运维管理数据进行预处理,包括清洗、关联和分类;(3)对预处理后的运维管理数据进行加工处理,包括脱敏保护、分级处理和封装存储;(4)对步骤(2)预处理后的运维管理数据和步骤(3)加工处理后的运维管理数据进行预警分析;(5)将预警分析后的结果按照预设形式进行输出展示。
可选地,所述步骤(2)和所述步骤(3)处理后的运维管理数据分别通过数据传输总线进行传输,并且在传输过程中,对敏感数据通过加密进行传输。
可选地,步骤(1)包括:通过数据采集接口将关于运维管理网络内的计算机服务器的数据和网络数据进行采集和统一存储,针对不同的服务器和网络内容,将采集的运维管理数据按类型进行分类抽取。
可选地,所述步骤(2)包括:对采集的运维管理数据进行包括去除无效性、删除重复性、纠正错误性的操作;对清洗后的运维管理数据进行相关性分析,发现数据属性之间的规律;利用Simhash算法针对相同数据属性之间的规律进行数据分类。
可选地,所述步骤(3)包括:对于运维管理数据中特定内容的敏感信息,通过预设的脱敏规则对相关运维管理数据进行变形;通过分级界限的标定的分级方式,将运维管理数据进行分级处理,最终将运维管理数据聚类;将分级后的运维管理数据存储于***指定的数据库中。
可选地,步骤(4)包括:通过大数据相关算法计算数据库中整理分级好的数据,得到运维管理网络中的计算机服务器或网络中有可能遇到的问题,并能指定到某个服务器、某个网络接口、预计会出现什么问题,并运用定序变量结合机器学习算法来预测问题出现几率。
可选地,通过下述公式(1)和公式(2)来预测问题出现几率:
y = N s - N d N s + N d - - - ( 1 )
公式(1)中Ns为数据库中发送广播包数目,Nd为数据库中接收广播包数目,γ系数的值范围在[-1,+1]之间,γ的绝对值愈大,变量间的等级相关程度愈大;
μ j : = Σ i = 1 m 1 { c ( i ) = j } x ( i ) Σ i = 1 m 1 { c ( i ) = j } . - - - ( 2 )
其中公式(2)中:
m为上述公式(1)中的γ系数;
χ值使用的是数据库中内存占有率,即计算机目前的内存占有率的百分比;
f值为数据库中发送的丢包数目,d值为数据库中接收的丢包数目;
j值为数据库中的CPU响应时间;
c值为数据库中的CPU平均利用率;
i=d/f*10,表示十分钟内接收的丢包数目除以发送的丢包数目,乘以10分钟的时间。
可选地,如果μj的百分比率小于80%,则表示计算机服务器不会出现宕机;如果小于85%,则表示可能会出现宕机;如果在80~85%之间,则表示出现宕机的几率是65%左右;如果达到85%以上,则表示将在大约30分钟内出现宕机或者其他服务停止运行的情况。
本发明的另一实施例提供一种运维自动化预警***,包括数据采集服务单元、数据汇集服务单元、数据处理封装存储服务单元、数据模型服务单元和前端展示接口单元,其中,所述数据采集服务单元采集和存储运维管理网络中的运维管理数据,并将采集后的运维管理数据进行抽取;所述数据汇集服务单元对采集的运维管理数据进行预处理,包括清洗、关联和分类;所述数据处理封装存储服务单元对预处理后的运维管理数据进行加工处理,包括脱敏保护、分级处理和封装存储;所述数据模型服务单元对所述数据汇集服务单元预处理后的运维管理数据和所述数据处理封装存储服务单元加工处理后的运维管理数据进行预警分析;所述前端展示接口单元将预警分析后的结果按照预设形式进行输出展示。
可选地,所述数据采集服务单元和所述数据汇集服务单元处理后的运维管理数据分别通过数据传输总线传输给所述数据模型服务单元,并且在传输过程中,对敏感数据通过加密进行传输。
可选地,所述数据采集服务单元包括数据采集模块和数据抽取模块,所述数据采集模块通过数据采集接口将关于运维管理网络内的计算机服务器的数据和网络数据进行采集和统一存储;所述数据抽取模块针对不同的服务器和网络内容,将采集的运维管理数据按类型进行分类抽取。
可选地,所述数据汇集服务单元包括数据清洗模块、数据关联模块和数据分类模块,所述数据清洗模块对采集的运维管理数据进行包括去除无效性、删除重复性、纠正错误性的操作;所述数据关联模块对清洗后的运维管理数据进行向关性分析,发现数据属性之间的规律;所述数据分类模块利用Simhash算法来针对相同数据属性之间的规律进行数据分类。
可选地,数据处理封装存储服务单元包括数据脱敏模块、数据分级模块和分布式数据存储管理模块,所述数据脱敏模块对于运维管理数据中特定内容的敏感信息,通过预设的脱敏规则对相关运维管理数据进行变形;所述数据分级模块通过分级界限的标定的分级方式,将运维管理数据进行分级处理,最终将运维管理数据聚类;所述分布式数据存储管理模块将分级后的运维管理数据存储于***指定的数据库中。
可选地,数据模型服务单元包括预测预警计算模块,所述预测预警计算模块通过大数据相关算法计算数据库中整理分级好的数据,得到运维管理网络中的计算机服务器或网络中有可能遇到的问题,并能指定到某个服务器、某个网络接口、预计会出现什么问题,并运用定序变量结合机器学习算法来预测问题出现几率。
可选地,通过下述公式(1)和公式(2)来预测问题出现几率:
y = N s - N d N s + N d - - - ( 1 )
公式(1)中Ns为数据库中发送广播包数目,Nd为数据库中接收广播包数目,γ系数的值范围在[-1,+1]之间,γ的绝对值愈大,变量间的等级相关程度愈大;
μ j : = Σ i = 1 m 1 { c ( i ) = j } x ( i ) Σ i = 1 m 1 { c ( i ) = j } . - - - ( 2 )
其中公式(2)中:
m为上述公式(1)中的γ系数;
χ值使用的是数据库中内存占有率,即计算机目前的内存占有率的百分比;
f值为数据库中发送的丢包数目,d值为数据库中接收的丢包数目;
j值为数据库中的CPU响应时间;
c值为数据库中的CPU平均利用率;
i=d/f*10,表示十分钟内接收的丢包数目除以发送的丢包数目,乘以10分钟的时间。
可选地,如果μj的百分比率小于80%,则表示计算机服务器不会出现宕机;如果小于85%,则表示可能会出现宕机;如果在80~85%之间,则表示出现宕机的几率是65%左右;如果达到85%以上,则表示将在大约30分钟内出现宕机或者其他服务停止运行的情况。
本发明提供的运维自动化预警方法与***,所述方法能够获得以下优点:
(1)经过对计算机服务器数据的统一汇集,并通过大数据算法的分析,可预测即将出现的服务器问题,并作出预警功能。帮助计算机运维管理者对突发事件做好提前预防工作,尽量减少工作中的损失。同时,也避免了因为计算机运维管理者由于工作经验少导致未能发现即将出现的问题,也减少了少数核心人员的工作量。
(2)通过展示平台的统一展示,可对计算机服务器中的相关重要数据进行展示,使所有服务器的数据一目了然,避免了运维管理者逐个登录服务器,使用代码查看服务器性能及各项指标的重复工作,并且提高了运维管理的工作效率。
(3)从公司运营层面讲,由于工作量的减少和运维管理效率的提高,公司可适当的减少运维管理团队的人员数目,将以前5个人做的工作,交付给2-3个人来承担,为公司节省将近一半的人力,减少公司的运营成本。
附图说明
图1为本发明实施例提供的运维自动化预警***的结构示意图。
图2为本发明实施例提供运维自动化预警方法的流程示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行描述。
图1为本发明实施例提供的运维自动化预警***的结构示意图。图2为本发明实施例提供运维自动化预警方法的流程示意图。
首先,参考图1,对本发明的运维自动化预警***进行介绍。
如图1所示,本发明一实施例提供的运维自动化预警***的整体架构包括数据采集服务单元、数据汇集服务单元(数据预处理单元)、数据处理封装存储服务单元(数据加工处理单元)、数据模型服务单元和前端展示接口单元,其中,数据采集服务单元包括数据采集模块1、数据抽取模块2,数据汇集服务单元包括数据清洗模块4、数据关联模块5和数据分类模块6,数据处理封装存储服务单元包括数据脱敏模块7、数据分级模块8和分布式数据存储管理模块9,数据模型服务单元包括预测预警计算模块10,前端展示接口单元包括展示输出接口11,可包括整体数据信息展示接口和预测预警信息展示接口。其中,数据汇集服务单元对汇集的数据进行处理后得到预测预警信息,然后通过数据传输总线3输入到数据模型服务单元中进行处理,数据处理封装存储服务单元处理后的数据也经由数据传输总线3输入到数据模型服务单元中进行处理。
本发明通过专门用于计算机服务器及网络数据的数据采集模块,对企业内部服务器应用***及网络的数据进行采集,例如数据采集模块中通过自定义的shell脚本,从计算机服务器中定时获取计算机服务器和网路状态数据,包括内存占有率、CPU响应时间、CPU平均利用率、发送丢包数目等,为之后的数据清洗、关联、分类等工作打下基础。以下对本发明的运维自动化预警***的各模块进行介绍。
(1)数据采集模块:可通过数据采集模块内shell脚本编写的数据采集接口将计算机服务器中的计算机运行等各项数据进行采集,将数据进行统一存储在***的指定数据可中,为后续数据处理服务提供数据来源。
(2)数据抽取模块:针对不同服务器和网络内容对数据采集模块采集的数据按类型进行分类抽取,以得到Var、int、txt不同类型的数据,网络内容可包括服务器网路状态,例如发送广播包数目、接收广播包数目等。
(3)数据传输总线:支持HTTP、FTP、TCP/IP等多种传输协议进行数据传输,同时针对敏感数据支持加密传输,例如MD5加密。
(4)数据清洗模块:使用多重插补、单重插补、随机森林和多元回归算法,针对汇集的计算机服务器相关数据及网络的数据进行去除无效性、删除重复性、纠正错误性等工作。
(5)数据关联模块:针对数据清洗模块清洗后的数据进行相关性分析,可利用Simhash算法来发现数据属性之间的规律,数据属性一般为,例如,同一时间段的所有数据就具有相同属性,规律一般为,例如,如果服务器CUP响应变慢,则会有宕机的可能性。
(6)数据分类模块:针对相同数据属性之间的规律进行数据分类,为随后数据脱敏、分级及存储工作打下基础。
(7)数据脱敏模块:针对计算机服务器及网路数据中特定内容的敏感信息,通过不同的脱敏规则将数据进行变形,实现对敏感隐私数据的可靠保护,特定内容可为,服务器访问者操作权限不同,访问者建立的脚本运行的内容。***管理者会在定点时间操作清空缓存,但是一般用户不能操作。在本发明中,可随机利用脱敏原则来将数据进行变形,以随机数代替真实值。
(8)数据分级模块:***通过分级界限的标定的分级方式,将变形后的数据进行分级处理,最终将数据聚类。可按照服务器的访问权限进行分级,例如,分级为超级管理员、普通访问者等。
(9)分布式数据存储管理模块:为了提高海量数据和文件的存储、检索和管理效率,***通过分布式数据存储管理模块将分级后的海量数据和文件进行存储于***指定的数据库中,如存储在数据封装存储***中,为之后的预测和预警计算做好准备。
(10)预测预警计算模块:将数据库中整理分级好的数据加载到预测预警计算模块中,通过大数据相关算法计算,例如通过定序变量、机器学习算法等,得到计算机服务器或网络中有可能遇到的问题,并能指定到某个服务器、某个网络接口、预计会出现什么问题。可运用定序变量结合机器学习算法来预测可能遇到的问题出现几率。
运用定序变量的公式来得到实际情况下发送广播包数目与接收广播包数目之间的关联程度,该公式如下所示:
y = N s - N d N s + N d
公式中Ns为数据库中发送广播包数目,Nd为数据库中接收广播包数目。γ系数的值范围在[-1,+1]之间,γ的绝对值愈大,表示变量间的等级相关程度愈大,对后面的影响越大。
利用机器学习中的K-means算法将样本聚类成μj个簇,具体算法描述如下:
①将γ系数放入机器学习中的K-means算法中,变为m值,即在机器学习中,m值为γ系数。
②使用如下算法公式:
μ j : = Σ i = 1 m 1 { c ( i ) = j } x ( i ) Σ i = 1 m 1 { c ( i ) = j } .
其中:
μj为计算结果,为百分率;
χ值使用的是数据库中内存占有率,即计算机目前的内存占有率的百分比;
f值为数据库中发送的丢包数目,d值为数据库中接收的丢包数目;
j值为数据库中的CPU响应时间;
c值为数据库中的CPU平均利用率;
i=d/f*10,表示十分钟内接收的丢包数目除以发送的丢包数目,乘以10分钟的时间。
在本发明中,通过训练样本得到的μj的百分比率,如果小于80%,则表示不出现宕机;如果小于85%,则表示可能会出现宕机;如果在80~85%之间,则表示出现宕机的几率是65%左右;如果达到85%以上,则表示将在大约30分钟内出现宕机或者其他服务停止运行的情况。
(11)展示输出接口模块:以预设形式通过展示接口输出到展示平台中,将预警分析后的结果通过展示接口输出到展示平台中,即将计算机服务器中的关于计算机全面的数据作为重点数据以及通过大数据算法算出的结果作为提醒预警信息显示在运维管理者面前,例如,显示重点数据为图形或者曲线形式,预警信息将出现红色提示语言,比如服务器将在30分钟后宕机,以提醒计算机运维管理人员实现预警效果。
本发明的另一实施例提供一种运用上述运维自动化预警***进行自动化预警的方法,参考图2对其进行描述。
如图2所示,本发明的运维自动化预警的方法,包括以下步骤:
S101:采集和存储运维管理网络中的运维管理数据,并将采集后的运维管理数据 进行抽取
具体地,可通过l脚本编写的数据采集接口将计算机服务器中的计算机运行等各项数据进行采集,将数据进行统一存储在***的指定数据可中,为后续数据处理服务提供数据来源。然后针对不同服务器和网络内容对数据采集模块采集的数据按类型进行分类抽取,以得到Var、int、txt不同类型的数据,网络内容可包括服务器网路状态,例如发送广播包数目、接收广播包数目等。
S102:对采集的运维管理数据进行预处理,包括清洗、关联和分类
具体地,可使用多重插补、单重插补、随机森林和多元回归算法,针对汇集的计算机服务器相关数据及网络的数据进行去除无效性、删除重复性、纠正错误性等工作。针对数据清洗模块清洗后的数据进行相关性分析,可利用Simhash算法来发现数据属性之间的规律,数据属性一般为,例如,同一时间段的所有数据就具有相同属性,规律一般为,例如,如果服务器CUP响应变慢,则会有宕机的可能性。针对相同数据属性之间的规律进行数据分类,为随后数据脱敏、分级及存储工作打下基础。
S103:对预处理后的运维管理数据进行加工处理,包括脱敏保护、分级处理和封装 存储
具体地,针对计算机服务器及网路数据中特定内容的敏感信息,通过不同的脱敏规则将数据进行变形,实现对敏感隐私数据的可靠保护,特定内容可为,服务器访问者操作权限不同,访问者建立的脚本运行的内容。***管理者会在定点时间操作清空缓存,但是一般用户不能操作。在本发明中,可随机利用脱敏原则来将数据进行变形,以随机数代替真实值。***通过分级界限的标定的分级方式,将变形后的数据进行分级处理,最终将数据聚类。可按照服务器的访问权限进行分级,例如,分级为超级管理员、普通访问者等。为了提高海量数据和文件的存储、检索和管理效率,***通过分布式数据存储管理模块将分级后的海量数据和文件进行存储于***指定的数据库中,如存储在数据封装存储***中,为之后的预测和预警计算做好准备。
S104:对封装存储的分级好的运维管理数据进行预警分析
将数据库中整理分级好的数据加载到预测预警计算模块中,通过大数据相关算法计算,例如通过定序变量、机器学习算法等,得到计算机服务器或网络中有可能遇到的问题,并能指定到某个服务器、某个网络接口、预计会出现什么问题。可运用定序变量结合机器学习算法来预测可能遇到的问题出现几率。
S105:将预警分析后的结果进行输出展示
可通过展示接口将预警分析后的结果以预设形式通过展示接口输出到展示平台中,即将计算机服务器中的关于计算机全面的数据作为重点数据以及通过大数据算法算出的结果作为提醒预警信息显示在运维管理者面前,例如,显示重点数据为图形或者曲线形式,预警信息将出现红色提示语言,比如服务器将在30分钟后宕机,以提醒计算机运维管理人员实现预警效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

1.一种运维自动化预警方法,其特征在于,包括以下步骤:
(1)采集和存储运维管理网络中的运维管理数据,并将采集后的运维管理数据进行抽取;
(2)对采集的运维管理数据进行预处理,包括清洗、关联和分类;
(3)对预处理后的运维管理数据进行加工处理,包括脱敏保护、分级处理和封装存储;
(4)对步骤(2)预处理后的运维管理数据和步骤(3)加工处理后的运维管理数据进行预警分析;
(5)将预警分析后的结果按照预设形式进行输出展示。
2.根据权利要求1所述的运维自动化预警方法,其特征在于,所述步骤(2)和所述步骤(3)处理后的运维管理数据分别通过数据传输总线进行传输,并且在传输过程中,对敏感数据通过加密进行传输。
3.根据权利要求1所述的运维自动化预警方法,其特征在于,步骤(1)包括:通过数据采集接口将关于运维管理网络内的计算机服务器的数据和网络数据进行采集和统一存储,针对不同的服务器和网络内容,将采集的运维管理数据按类型进行分类抽取。
4.根据权利要求1所述的运维自动化预警方法,其特征在于,所述步骤(2)包括:
对采集的运维管理数据进行包括去除无效性、删除重复性、纠正错误性的操作;
对清洗后的运维管理数据进行相关性分析,发现数据属性之间的规律;
利用Simhash算法针对相同数据属性之间的规律进行数据分类。
5.根据权利要求1所述的运维自动化预警方法,其特征在于,所述步骤(3)包括:
对于运维管理数据中特定内容的敏感信息,通过预设的脱敏规则对相关运维管理数据进行变形;
通过分级界限的标定的分级方式,将运维管理数据进行分级处理,最终将运维管理数据聚类;
将分级后的运维管理数据存储于***指定的数据库中。
6.根据权利要求1所述的运维自动化预警方法,其特征在于,步骤(4)包括:
通过大数据相关算法计算数据库中整理分级好的数据,得到运维管理网络中的计算机服务器或网络中有可能遇到的问题,并能指定到某个服务器、某个网络接口、预计会出现什么问题,并运用定序变量结合机器学习算法来预测问题出现几率。
7.根据权利要求6所述的运维自动化预警方法,其特征在于,通过下述公式(1)和公式(2)来预测问题出现几率:
γ = N s - N d N s + N d - - - ( 1 )
公式(1)中Ns为数据库中发送广播包数目,Nd为数据库中接收广播包数目,γ系数的值范围在[-1,+1]之间,γ的绝对值愈大,变量间的等级相关程度愈大;
μ j : = Σ i = 1 m 1 { c ( i ) = j } x ( i ) Σ i = 1 m 1 { c ( i ) = j } . - - - ( 2 )
其中公式(2)中:
m为上述公式(1)中的γ系数;
χ值使用的是数据库中内存占有率,即计算机目前的内存占有率的百分比;
f值为数据库中发送的丢包数目,d值为数据库中接收的丢包数目;
j值为数据库中的CPU响应时间;
c值为数据库中的CPU平均利用率;
i=d/f*10,表示十分钟内接收的丢包数目除以发送的丢包数目,乘以10分钟的时间。
8.根据权利要求7所述的运维自动化预警方法,其特征在于,如果μj的百分比率小于80%,则表示计算机服务器不会出现宕机;如果小于85%,则表示可能会出现宕机;如果在80~85%之间,则表示出现宕机的几率是65%左右;如果达到85%以上,则表示将在大约30分钟内出现宕机或者其他服务停止运行的情况。
9.一种运维自动化预警***,其特征在于,包括数据采集服务单元、数据汇集服务单元、数据处理封装存储服务单元、数据模型服务单元和前端展示接口单元,
其中,所述数据采集服务单元采集和存储运维管理网络中的运维管理数据,并将采集后的运维管理数据进行抽取;
所述数据汇集服务单元对采集的运维管理数据进行预处理,包括清洗、关联和分类;
所述数据处理封装存储服务单元对预处理后的运维管理数据进行加工处理,包括脱敏保护、分级处理和封装存储;
所述数据模型服务单元对所述数据汇集服务单元预处理后的运维管理数据和所述数据处理封装存储服务单元加工处理后的运维管理数据进行预警分析;
所述前端展示接口单元将预警分析后的结果按照预设形式进行输出展示。
10.根据权利要求9所述的运维自动化预警***,其特征在于,所述数据采集服务单元和所述数据汇集服务单元处理后的运维管理数据分别通过数据传输总线传输给所述数据模型服务单元,并且在传输过程中,对敏感数据通过加密进行传输。
11.根据权利要求9所述的运维自动化预警***,其特征在于,所述数据采集服务单元包括数据采集模块和数据抽取模块,
所述数据采集模块通过数据采集接口将关于运维管理网络内的计算机服务器的数据和网络数据进行采集和统一存储;
所述数据抽取模块针对不同的服务器和网络内容,将采集的运维管理数据按类型进行分类抽取。
12.根据权利要求9所述的运维自动化预警***,其特征在于,所述数据汇集服务单元包括数据清洗模块、数据关联模块和数据分类模块,
所述数据清洗模块对采集的运维管理数据进行包括去除无效性、删除重复性、纠正错误性的操作;
所述数据关联模块对清洗后的运维管理数据进行向关性分析,发现数据属性之间的规律;
所述数据分类模块利用Simhash算法来针对相同数据属性之间的规律进行数据分类。
13.根据权利要求9所述的运维自动化预警***,其特征在于,数据处理封装存储服务单元包括数据脱敏模块、数据分级模块和分布式数据存储管理模块,
所述数据脱敏模块对于运维管理数据中特定内容的敏感信息,通过预设的脱敏规则对相关运维管理数据进行变形;
所述数据分级模块通过分级界限的标定的分级方式,将运维管理数据进行分级处理,最终将运维管理数据聚类;
所述分布式数据存储管理模块将分级后的运维管理数据存储于***指定的数据库中。
14.根据权利要求9所述的运维自动化预警***,其特征在于,数据模型服务单元包括预测预警计算模块,
所述预测预警计算模块通过大数据相关算法计算数据库中整理分级好的数据,得到运维管理网络中的计算机服务器或网络中有可能遇到的问题,并能指定到某个服务器、某个网络接口、预计会出现什么问题,并运用定序变量结合机器学习算法来预测问题出现几率。
15.根据权利要求14所述的运维自动化预警***,其特征在于,通过下述公式(1)和公式(2)来预测问题出现几率:
γ = N s - N d N s + N d - - - ( 1 )
公式(1)中Ns为数据库中发送广播包数目,Nd为数据库中接收广播包数目,γ系数的值范围在[-1,+1]之间,γ的绝对值愈大,变量间的等级相关程度愈大;
μ j : = Σ i = 1 m 1 { c ( i ) = j } x ( i ) Σ i = 1 m 1 { c ( i ) = j } . - - - ( 2 )
其中公式(2)中:
m为上述公式(1)中的γ系数;
χ值使用的是数据库中内存占有率,即计算机目前的内存占有率的百分比;
f值为数据库中发送的丢包数目,d值为数据库中接收的丢包数目;
j值为数据库中的CPU响应时间;
c值为数据库中的CPU平均利用率;
i=d/f*10,表示十分钟内接收的丢包数目除以发送的丢包数目,乘以10分钟的时间。
16.根据权利要求15所述的运维自动化预警方法,其特征在于,如果μj的百分比率小于80%,则表示计算机服务器不会出现宕机;如果小于85%,则表示可能会出现宕机;如果在80~85%之间,则表示出现宕机的几率是65%左右;如果达到85%以上,则表示将在大约30分钟内出现宕机或者其他服务停止运行的情况。
CN201610791904.XA 2016-08-31 2016-08-31 一种运维自动化预警方法和*** Active CN106371975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610791904.XA CN106371975B (zh) 2016-08-31 2016-08-31 一种运维自动化预警方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610791904.XA CN106371975B (zh) 2016-08-31 2016-08-31 一种运维自动化预警方法和***

Publications (2)

Publication Number Publication Date
CN106371975A true CN106371975A (zh) 2017-02-01
CN106371975B CN106371975B (zh) 2019-03-01

Family

ID=57899909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610791904.XA Active CN106371975B (zh) 2016-08-31 2016-08-31 一种运维自动化预警方法和***

Country Status (1)

Country Link
CN (1) CN106371975B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066369A (zh) * 2017-04-25 2017-08-18 上海德衡数据科技有限公司 一种基于多核处理器的运维预警防范***原型
CN107066368A (zh) * 2017-04-25 2017-08-18 上海德衡数据科技有限公司 一种基于多传感器信息融合的运维预警防范***
CN108009435A (zh) * 2017-12-18 2018-05-08 网智天元科技集团股份有限公司 数据脱敏方法、装置及存储介质
CN108197251A (zh) * 2017-12-29 2018-06-22 百度在线网络技术(北京)有限公司 一种大数据运行维护分析方法、装置及服务器
CN109460498A (zh) * 2018-11-07 2019-03-12 广州小天软件有限公司 一种数据核对方法及装置
CN109634836A (zh) * 2018-10-23 2019-04-16 平安科技(深圳)有限公司 测试数据封装方法、装置、设备及存储介质
CN109753499A (zh) * 2018-12-17 2019-05-14 云南电网有限责任公司信息中心 一种运维监控数据治理方法
CN111429640A (zh) * 2020-03-16 2020-07-17 北京安迅伟业科技有限公司 云平台管理下道闸的控制方法及***
CN112256752A (zh) * 2020-10-13 2021-01-22 山东三木众合信息科技股份有限公司 一种基于数据挖掘的数据预测处理方法
CN112348653A (zh) * 2020-12-03 2021-02-09 四川长虹电器股份有限公司 一种财务云平台的自动测试运维***
CN112434082A (zh) * 2020-11-25 2021-03-02 平安普惠企业管理有限公司 运维资源管理方法、装置、设备及介质
CN112748995A (zh) * 2021-01-07 2021-05-04 卓望数码技术(深圳)有限公司 服务器自动化运维方法、***、装置及可读存储介质
CN113190408A (zh) * 2021-05-07 2021-07-30 北京金融资产交易所有限公司 数据运维***
CN114448902A (zh) * 2022-01-26 2022-05-06 江苏徐工工程机械研究院有限公司 一种分级响应接口的运维方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924328B1 (en) * 2012-06-29 2014-12-30 Emc Corporation Predictive models for configuration management of data storage systems
CN104699777A (zh) * 2015-03-10 2015-06-10 中国联合网络通信集团有限公司 大数据分析挖掘管理面与业务面的关联方法及***
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化***及方法
CN105515963A (zh) * 2015-12-03 2016-04-20 中国联合网络通信集团有限公司 数据网关装置和大数据***
CN105553957A (zh) * 2015-12-09 2016-05-04 国家电网公司 基于大数据的网络安全态势感知预警方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924328B1 (en) * 2012-06-29 2014-12-30 Emc Corporation Predictive models for configuration management of data storage systems
CN104699777A (zh) * 2015-03-10 2015-06-10 中国联合网络通信集团有限公司 大数据分析挖掘管理面与业务面的关联方法及***
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化***及方法
CN105515963A (zh) * 2015-12-03 2016-04-20 中国联合网络通信集团有限公司 数据网关装置和大数据***
CN105553957A (zh) * 2015-12-09 2016-05-04 国家电网公司 基于大数据的网络安全态势感知预警方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周实奇: "移动互联时代电信运营商大数据管理平台研究", 《海峡科技与产业》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066369A (zh) * 2017-04-25 2017-08-18 上海德衡数据科技有限公司 一种基于多核处理器的运维预警防范***原型
CN107066368A (zh) * 2017-04-25 2017-08-18 上海德衡数据科技有限公司 一种基于多传感器信息融合的运维预警防范***
CN108009435A (zh) * 2017-12-18 2018-05-08 网智天元科技集团股份有限公司 数据脱敏方法、装置及存储介质
CN108197251A (zh) * 2017-12-29 2018-06-22 百度在线网络技术(北京)有限公司 一种大数据运行维护分析方法、装置及服务器
CN109634836A (zh) * 2018-10-23 2019-04-16 平安科技(深圳)有限公司 测试数据封装方法、装置、设备及存储介质
CN109460498A (zh) * 2018-11-07 2019-03-12 广州小天软件有限公司 一种数据核对方法及装置
CN109753499A (zh) * 2018-12-17 2019-05-14 云南电网有限责任公司信息中心 一种运维监控数据治理方法
CN111429640A (zh) * 2020-03-16 2020-07-17 北京安迅伟业科技有限公司 云平台管理下道闸的控制方法及***
CN112256752A (zh) * 2020-10-13 2021-01-22 山东三木众合信息科技股份有限公司 一种基于数据挖掘的数据预测处理方法
CN112256752B (zh) * 2020-10-13 2021-05-14 山东三木众合信息科技股份有限公司 一种基于数据挖掘的数据预测处理方法
CN112434082A (zh) * 2020-11-25 2021-03-02 平安普惠企业管理有限公司 运维资源管理方法、装置、设备及介质
CN112348653A (zh) * 2020-12-03 2021-02-09 四川长虹电器股份有限公司 一种财务云平台的自动测试运维***
CN112748995A (zh) * 2021-01-07 2021-05-04 卓望数码技术(深圳)有限公司 服务器自动化运维方法、***、装置及可读存储介质
CN113190408A (zh) * 2021-05-07 2021-07-30 北京金融资产交易所有限公司 数据运维***
CN113190408B (zh) * 2021-05-07 2024-03-26 北京金融资产交易所有限公司 数据运维***
CN114448902A (zh) * 2022-01-26 2022-05-06 江苏徐工工程机械研究院有限公司 一种分级响应接口的运维方法及***
CN114448902B (zh) * 2022-01-26 2023-07-04 江苏徐工工程机械研究院有限公司 一种分级响应接口的运维方法及***

Also Published As

Publication number Publication date
CN106371975B (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN106371975A (zh) 一种运维自动化预警方法和***
CN105989155B (zh) 识别风险行为的方法及装置
US11562304B2 (en) Preventative diagnosis prediction and solution determination of future event using internet of things and artificial intelligence
EP3121738A1 (en) Data storage extract, transform and load operations for entity and time-based record generation
CN107871166B (zh) 针对机器学习的特征处理方法及特征处理***
CN104123592B (zh) 银行后台tps交易事件趋势预测方法及***
US20210092160A1 (en) Data set creation with crowd-based reinforcement
CN103699541B (zh) 用于提高分类精度的交互式可视数据挖掘
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
JP2007503034A (ja) データストリーム中の異常オブジェクトを自動的にオンラインで検出及びクラス分類するための方法及び装置
CN113190599B (zh) 应用用户行为数据的处理方法、装置、设备及存储介质
CN108021651A (zh) 一种网络舆情风险评估方法及装置
CN110457193A (zh) 基于电力信息***运维数据的健康画像展示方法及其***
US20170109638A1 (en) Ensemble-Based Identification of Executions of a Business Process
CN109753408A (zh) 一种基于机器学习的流程异常预测方法
CN113762973A (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN116541782A (zh) 一种电力营销数据异常识别方法
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN112217908B (zh) 基于迁移学习的信息推送方法、装置及计算机设备
US20170109637A1 (en) Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process
Lee et al. Detecting anomaly teletraffic using stochastic self-similarity based on Hadoop
CN113837481B (zh) 一种基于区块链的金融大数据管理***
GB2602553A (en) Locating picking points of anomalies
CN113569879A (zh) 异常识别模型的训练方法、异常账号识别方法及相关装置
CN110895564A (zh) 一种潜在客户数据处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100070, No. 101-8, building 1, 31, zone 188, South Fourth Ring Road, Beijing, Fengtai District

Patentee after: Guoxin Youyi Data Co., Ltd

Address before: 100070 Beijing city Fengtai District South Fourth Ring Road No. 188 (ABP) B headquarters mansion 9 floor

Patentee before: SIC YOUE DATA Co.,Ltd.