CN109327076A - 一种提高自动化***运维效率的*** - Google Patents

一种提高自动化***运维效率的*** Download PDF

Info

Publication number
CN109327076A
CN109327076A CN201810955416.7A CN201810955416A CN109327076A CN 109327076 A CN109327076 A CN 109327076A CN 201810955416 A CN201810955416 A CN 201810955416A CN 109327076 A CN109327076 A CN 109327076A
Authority
CN
China
Prior art keywords
unit
case
message
script
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810955416.7A
Other languages
English (en)
Inventor
朱明增
李旭横
冀北振
刘小兰
梁兆庭
杨芳
谢海
龙玫
陈极万
卢君
庞敏
黄金
卢迎
罗腾鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810955416.7A priority Critical patent/CN109327076A/zh
Publication of CN109327076A publication Critical patent/CN109327076A/zh
Pending legal-status Critical Current

Links

Classifications

    • H02J13/0079
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S40/00Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
    • Y04S40/12Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them characterised by data transport means between the monitoring, controlling or managing units and monitored, controlled or operated electrical equipment
    • Y04S40/124Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them characterised by data transport means between the monitoring, controlling or managing units and monitored, controlled or operated electrical equipment using wired telecommunication networks or data transmission busses
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S40/00Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
    • Y04S40/12Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them characterised by data transport means between the monitoring, controlling or managing units and monitored, controlled or operated electrical equipment
    • Y04S40/126Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them characterised by data transport means between the monitoring, controlling or managing units and monitored, controlled or operated electrical equipment using wireless data transmission

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明属于变电站控制技术领域,特别涉及一种提高自动化***运维效率的***。一种提高自动化***运维效率的***,其特征在于,包括主站***01,变电站***02,变电站链路通信03,运维***04,监控***05,PDA终端06,短信模块07;监控***05设置有综合信息关联单元1,所述的运维***04设置有通道故障诊断单元2、故障在线处理单元3、模型库7、数据库8、知识库9、***故障诊断单元10、报警技术的识别单元4、远程命令执行单元5、案例知识库处理单元6;本发明有益效果是:对***故障、通道故障事故处理有重大改善,并且兼容性强,可复制性强,复制成本低(短信模块500元左右、移动PDA终端2000元左右),创造了很好的经济效益和社会效益。

Description

一种提高自动化***运维效率的***
技术领域
本发明属于变电站控制技术领域,特别涉及一种提高自动化***运维效率的***。
背景技术
随着电力EMS***应用规模爆发式增长,大型分布式***监控的复杂性也日益显现,子***在运行过程中,会出现进程中断、内存越线、CPU超负荷等故障,需要自动化人员现场及时恰当处理,而传统人工维护方案的实时性很难保证,非值班时间故障处理更加难以把控,导致监控遗漏引发宕机的黑天鹅现象时有发生。此外,当***出现故障时,运维人员很难从海量监控指标中迅速找到故障根因,报警风暴极大地降低了定位问题的速度,故障恢复速度基本依赖于运维人员的经验以及操作响应速度。当通道通讯出现故障时,原始的方法是监控班值班员电话通知自动化值班员,值班员接到电话通知后就立马从家里赶往机房,登陆前置服务器ping故障链路的网络设备,确认故障点后,通道故障就通知通信班处理,变电站远动机故障就通知保护班处理,此方法处理时间要一两个小时,费时费力,效率低。
目前地级市网区自动化主站***故障在非上班时间平均每周三四次,一年就有一两百次故障,变电站备用网络通道中断次数平均每年达五百余次,中断频率高,备用通道中断时间每年总计一千多小时,中断时间长,影响大,存在很大的安全隐患,可靠性降低,仅仅依赖人力运维,存在局限性,人力运维是目前调度自动化***业务维护的主要手段,效率低、成本高。本项目包括两大内容,一是通道故障诊断技术,二是故障在线处理技术。
传统的运维依靠值班人员现场操作,故这种人力运维存在较多的弊端:
■故障原因可能无法快速确定,延长故障处理时间
■非坐班时间监控不到位,无法及时掌握设备故障信息,影响***安全稳定运行
■非坐班时间故障处理不及时,运维人员接收到故障信息赶到现场处理需要一定时间,大大延长了故障处理时间
■没有手段根据设备参数变化情况及时预判设备故障,不能提前发现问题
■值班员技术水平存在差异,存在不能准确判断故障原因并消除故障的可能,将延长故障处理时间
目前在变电站的自动化运维领域已有相应的一些技术,如:
中国发明专利201710558402.7,申请日2017.07.10,无人值守变电站二次***远程运维的巡视方法和***,公开了一种变电站运维的技术。
中国发明专利201710126825.1,申请日2017.03.06,一种变电站自动化设备广域运维架构的设计方法,公开了对变电站自动化设备的远程唤醒、应急管理、历史数据、图形、自动化设备参数管理、点表数据监视与维护和模型诊断等方面的技术方案。
如何提高运维***故障诊断处理技术和通道故障诊断处理技术的及时性和准确性并能够高效的处理,是当前变电站自动化运维***的攻关难点,对电力事业的发展具有重要意义。
发明内容
为了解决现有技术中存在的缺点和不足,本发明提供了一种提高自动化***运维效率的***。
本发明采用的技术方案是:
一种提高自动化***运维效率的***,其特征在于,包括主站***01,变电站***02,变电站链路通信03,运维***04,监控***05,PDA终端06,短信模块07;所述的监控***05 和所述的主站***01、变电站***02及变电站链路通信03相连以便监控,所述的运维*** 04和所述的监控***05相连以便数据交互,所述的短信模块07和所述的运维***04相连并交互通讯,所述的PDA终端06和所述的短信模块07相连并交互通讯;所述的监控***05设置有综合信息关联单元1,所述的运维***04设置有通道故障诊断单元2、故障在线处理单元3、模型库7、数据库8、知识库9、***故障诊断单元10;所述的故障在线处理单元3 还包括报警技术的识别单元4、远程命令执行单元5、案例知识库处理单元6;故障信息经所述的监控***05获取后传送给所述的运维***04识别处理,***故障信息由***故障诊断单元10来诊断后进入模型库7,通道故障信息由通道故障诊断单元2来诊断后进入模型库7,进入模型库7内的故障信息经由所述的报警技术的识别单元4进行匹配和评分并提存数据库 8,所述的案例知识库处理单元6利用特定的案例特征将数据库8中的故障信息形成案例并存放在知识库9中;提存数据库8中的故障信息由远程命令执行单元5执行处理,运维*** 04的远程命令执行单元5经短信模块07发送故障信息报文至所述的PDA终端06以供分析处理,值班人员再由PDA终端06发回在线处理短信至短信模块07,所述的运维***04接收短信模块07请求,所述的远程命令执行单元5解析在线处理短信,对通道故障则由远程命令执行单元5从数据库8中调用发送心跳数据包,对***故障则由远程命令执行单元5从知识库 9中匹配调用对应的脚本,完成故障处理后将处理报文发送到值班手机,结束处理。
所述的综合信息关联单元1配置基础的关联关系到所述的监控***05,故所述的监控*** 05可辨识通道故障诊断单元2和***故障诊断单元10中的部分已常态化的运维指标与有待采集信息上的指标是否存在关联;所述的综合信息关联单元1的关联关系包括关联挖掘、关联可视化、服务透视定位,具体如下:
(1)关联挖掘,具体包括:
(a)事件和事件间的关联:频繁项集挖掘,针对所有运维事件;
(b)事件和时序间的关联:指标异常经常与部署升级事件相伴发生,问题诊断&故障定位;
(c)多时序间的关联;
(2)关联可视化,具体包括:
通过关联变动,帮助运维人员分析重点数据的变动情况:
(a)事件&事件关联;
(b)事件&时序关联;
(3)服务透视定位,具体包括:以时间轴演进顺序来展示运维事件,通过模块关联、时间关联、数据流关联等技术把离散的运维数据联系起来,构成一个完整的服务透视图,如果异常发生在关系透视图中的某个部分,就可以按照周边关系的通路来快速定位问题,包括:
(a)模块调用关系;(b)事件和模块关联。
所述的通道故障诊断单元2实时监视变电站链路通信03状态并实时监测诊断;所述的通道故障诊断单元2的工作步骤如下:
在联接变电站链路通信03的网络设备中全部设置有链路地址,所述的通道故障诊断单元2这样来进行检测诊断:比如有主机A,主机B
(1)、主机A核查自己的MAC地址表;
(2)、若主机A核查到有主机B的MAC地址,则返回给主机A;
(3)、若主机A没有核查到有主机B的MAC地址,则向外发送一个有固定格式的ARP广播包来寻找主机B的MAC地址;
(4)、所有主机都接收到主机A的报文,其他由于不对应故丢弃了该报文;主机B收到了报文后立即相应,核查本身的MAC地址,同时学到主机A的MAC地址,并把本身的MAC地址按同样的ARP报文格式返回给主机A;所述的报文包括UDP报文、ICMP报文。
所述的报文为IP报文,所述的IP报文由首部和数据组成,首部设置有选项,所述的选项可以用来存储IP时间戳或者IP记录路由选项。
所述的ICMP的由帧的首部、帧的数据、尾部组成,所述的帧的数据包含首部和数据。
所述的ARP报文格式中以太网目的MAC为FF-FF-FF-FF-FF-FF,以太网源MAC为 00-50-56-C0-00-01。
所述的故障在线处理单元3包括报警技术的识别单元4、远程命令执行单元5、案例知识库处理单元6;
所述的报警技术的识别单元4识别故障信息并采集特征数据提交至知识库9,以便***的案例归档;所述的远程命令执行单元5执行心跳数据包的发送步骤、脚本的调用与执行步骤、与短信模块07的交互通讯步骤;所述的案例知识库处理单元6依据特定的案例特征来形成可靠的且全面的案例并存放在知识库9内,并定期地维护更新;
所述的故障在线处理单元3的工作步骤如下:
(1)、所述的故障在线处理单元3经过报警技术的识别单元4在知识库9中实现对监控*** 4所采集的日常故障信息识别并进行初次匹配,并寻找相似度较高且达到管理员要求的相似度的案例;
(2)、***调用日志采集脚本对相关服务器、相应时间点的日志信息进行采集;
(3)、采集到的日志在经过过滤规则过滤后,与知识库9中预存的案例特征日志进行再次匹配即计算案例相似度,通过智能算法选择综合相似度最高的案例识别为故障案例;
(3)、由远程命令执行单元5按照故障案例的处理方法及流程来完成在线处理。
所述的初次匹配的工作步骤如下:
(1)、报警技术的识别单元4识别接入的模型库7的故障信息,因模型库7已根据故障信息的特点并参考已有模式后进行信息采集,故报警技术的识别单元4收到的故障信息会出现与知识库9中的案例匹配评分低的情况;
(2)、报警技术的识别单元4识别采用BP算法;KMP算法;Boyer-Moore算法;Sunday算法;Suffix Tree算法等五种算法来进行测试评估选取,以细化案例并能准确的挑选,并支持专业人员挑选案例特征的录入,脚本的选取;
(2)、当出现评分低的情况时,触发报警技术的识别单元4中的业务与功能验证脚本的执行,对业务进行持续一段时间的验证与观察;
(3)、如果持续一段时间内,业务与功能都正常,则认为此报警为虚警,同时提存数据库 8;以便下次可以提取比较;
(4)、报警技术的识别单元4具有自修复的功能,在自修复以后,进行业务验证与评估,如自修复没有通过验证,则执行回退脚本以便人为干预修复。
所述的脚本的调用与执行步骤的工作步骤如下:
(1)、调用存放在知识库9中的脚本,所述的脚本已将日常运维工作中的命令通用化;
(2)、将知识库9中存储的脚本ftp下载到目标服务器;
(3)、再通过telnet/ssh等方式登录到目标服务器来触发脚本的执行。
所述的案例特征日志包括案例特征日志段、案例特征报警、案例应急脚本、案例应急回退脚本、案例业务验证脚本,案例修复脚本等特征。
本发明提供的技术方案带来的有益效果是:本发明的技术实施难度不大,对***故障、网络通道故障事故处理有重大改善,并且本成果兼容性强,可复制性强,复制成本低(短信模块500元左右、移动PDA终端2000元左右),半天可在其他网区的自动化***调试完成并投入使用,基于上述关键技术,可以保证对***故障和通道突发事件进行快速准确响应,实现***持续正常运行,减轻自动化人员工作强度和压力,增强了电网安全性与稳定性,明显提高自动化***运维效率,缩短网络通道故障处理时间,缩短***故障处理时间,创造了很好的经济效益和社会效益。
附图说明
图1为本发明的运维***04各单元工作流程图
图2为本发明的***示意图
图3为通道故障诊断与快速恢复机制算法的流程图
图4为IP报文结构
图5为存储IP时间戳示意图
图6为IP记录路由选项图
图7为ICMP的封装方式图
图8为ICMP报文的结构图
图9为ICMP回显请求和回显应答报文格式示意图
图10为主机发送ARP图
图11为ARP报文格式图
具体实施方式
实施例1:以下结合图1—图11对本发明进行详细的说明。
本***的部件或者单元有:
主站***01,变电站***02,变电站链路通信03,运维***04,监控***05,PDA终端06,短信模块07;
综合信息关联单元1,通道故障诊断单元2、故障在线处理单元3、报警技术的识别单元4、远程命令执行单元5、案例知识库处理单元6、模型库7、数据库8、知识库9、***故障诊断单元10;
监控***05和主站***01、变电站***02及变电站链路通信03相连以便监控,运维*** 04和监控***05相连以便数据交互,短信模块07和运维***04相连并交互通讯,PDA终端 06和短信模块07相连并交互通讯(见图2);监控***05设置有综合信息关联单元1,运维***04设置有通道故障诊断单元2、故障在线处理单元3、模型库7、数据库8、知识库9、***故障诊断单元10;故障在线处理单元3还包括报警技术的识别单元4、远程命令执行单元5、案例知识库处理单元6;运维***04中的远程命令执行单元5与短信模块07可以交互通讯;故障信息经监控***05获取后传送给运维***04识别处理,***故障信息由***故障诊断单元10来诊断后进入模型库7,通道故障信息由通道故障诊断单元2来诊断后进入模型库7,进入模型库7内的故障信息经由报警技术的识别单元4进行匹配和评分并提存数据库8(如何进行初次匹配和再次匹配后面详述),案例知识库处理单元6利用特定的案例特征将数据库8中的故障信息形成案例并存放在知识库9中(特定的案例特征需要按照严格的规则来选择,以便最大限度的减小错漏);提存数据库8中的故障信息由远程命令执行单元5来及时执行处理,运维***04的远程命令执行单元5负责和短信模块07进行短信通讯互联,远程命令执行单元5经短信模块07发送故障信息报文至PDA终端06以供分析处理,值班人员再由PDA终端06发回在线处理短信至短信模块07,运维***04的远程命令执行单元5接收短信模块07请求,远程命令执行单元5解析在线处理短信,对通道故障则由远程命令执行单元5从数据库8中调用发送心跳数据包,对***故障则由远程命令执行单元5从知识库9 中匹配调用对应的脚本,完成故障处理后将处理报文发送到值班手机,结束处理,如图1为本发明的运维***04各单元工作流程图。
综合信息关联单元1相当于升级了原有的监控***,使其在捕捉指标的范围更广、细节更小,从而覆盖的数据更大。综合信息关联单元1配置基础的关联关系到监控***05,故监控*** 05可辨识通道故障诊断单元2和***故障诊断单元10中的部分已常态化的运维指标与有待采集信息上的指标是否存在关联;综合信息关联单元1的关联关系包括关联挖掘、关联可视化、服务透视定位,具体如下:
(1)关联挖掘,具体包括:
(a)事件和事件间的关联:频繁项集挖掘,针对所有运维事件;
(b)事件和时序间的关联:指标异常经常与部署升级事件相伴发生,问题诊断&故障定位;
(c)多时序间的关联;
(2)关联可视化,具体包括:
通过关联变动,帮助运维人员分析重点数据的变动情况:
(a)事件&事件关联;
(b)事件&时序关联;
(3)服务透视定位,具体包括:以时间轴演进顺序来展示运维事件,通过模块关联、时间关联、数据流关联等技术把离散的运维数据联系起来,构成一个完整的服务透视图,如果异常发生在关系透视图中的某个部分,就可以按照周边关系的通路来快速定位问题,包括:(a) 模块调用关系;(b)事件和模块关联。
通道故障诊断单元2实时监视变电站链路通信03状态并实时监测诊断;通道故障诊断单元2 的工作步骤如下:
在联接变电站链路通信03的网络设备中全部设置有链路地址,通道故障诊断单元2这样来进行检测诊断:比如有主机A,主机B
(1)、主机A核查自己的MAC地址表;
(2)、若主机A核查到有主机B的MAC地址,则返回给主机A;
(3)、若主机A没有核查到有主机B的MAC地址,则向外发送一个有固定格式的ARP广播包来寻找主机B的MAC地址;
(4)、所有主机都接收到主机A的报文,其他由于不对应故丢弃了该报文;主机B收到了报文后立即相应,核查本身的MAC地址,同时学到主机A的MAC地址,并把本身的MAC地址按同样的ARP报文格式返回给主机A。
如图3所示为通道故障诊断与快速恢复机制算法的流程图,所述的报文包括UDP报文、ICMP 报文,如下:
取得链路地址——根据选项设置参数——设置UDP报文——连接UDP报文——取得必要信息——设置ICMP报文选项——退出中断发生——打印统计信息——程序终止退出中断发生——发送报文——时间片耗尽——处理接受报文——发布信息——回到退出中断发生;主要由主机来完成相关工作。
图4所示为IP报文结构,IP报文的长度为20-65536字节,分为首部和数据,其中首部为32 位字长,源IP地址,目的IP,选项。IP数据报文的首部中有选项部分,这个部分可以用来存储IP时间戳或者IP记录路由选项。
如图5为存储IP时间戳示意图,长度为40字节,包括了多个时间戳,单个时间戳为4字节
如图6为IP记录路由选项图,长度为39字节,包含多个IP地址,单个IP地址的长度为4 字节
如图7为ICMP的封装方式图,ICMP报文——IP首部、IP数据——帧的首部、帧的数据——尾部(如果有)
如图8为ICMP报文的结构图,共32位,类型8位,代码8位,检验和16位,首部的其余部分,数据部分
如图9为ICMP回显请求和回显应答报文格式示意图,字长共32位,其中类型8位,代码8 位,检验和16位,标识符,序号,选项数据。
如图10为主机发送ARP图,首先,如果主机A,要走通主机B,那么主机A,就要封装二层报文,他会先查自己的MAC地址表,如果没有B的MAC地址,就会向外发送一个ARP广播包,如图9,交换机会第一个收到这个报文,交换机设置有有学习MAC地址的功能,所以会检索本身有没有保存主机B有MAC,如果有,就返回给主机A,如果没有,就会向所有端口发送 ARP广播,其它主机收到后,发现不是在找自己,就纷纷丢弃了该报文。直到主机B收到了报文后,就立即相应,我的MAC地址是多少,同时学到主机A的MAC地址,并按同样的ARP报文格式返回给主机A。
如图11为ARP报文格式图,以太网目的MAC,以太网源MAC,帧类型,硬件类型,发送端以太网MAC,发送端IP地址,目的MAC,目的IP。
本发明在改进工作方面取得了很好的效果,***故障维护由原来的57分钟下降为3分钟,通道故障维护由原来的90分钟下降为3分钟。
故障在线处理单元3包括报警技术的识别单元4、远程命令执行单元5、案例知识库处理单元 6(即分为识别、执行、归档);报警技术的识别单元4识别故障信息并采集特征数据提交至知识库9,以便***的案例归档;远程命令执行单元5执行心跳数据包的发送步骤、脚本的调用与执行步骤、与短信模块07的交互通讯步骤(见前文详述);案例知识库处理单元6依据特定的案例特征来形成可靠的且全面的案例并存放在知识库9内,并定期地维护更新;
故障在线处理单元3的工作步骤如下:
(1)、故障在线处理单元3经过报警技术的识别单元4在知识库9中实现对监控***4所采集的日常故障信息识别并进行初次匹配,并寻找相似度较高且达到管理员要求的相似度的案例;而初次匹配由规定的标准(见后文)。
(2)、***调用日志采集脚本对相关服务器、相应时间点的日志信息进行采集;
(3)、采集到的日志在经过过滤规则过滤后,与知识库9中预存的案例特征日志进行再次匹配即计算案例相似度,通过智能算法选择综合相似度最高的案例识别为故障案例;
(3)、由远程命令执行单元5按照故障案例的处理方法及流程来完成在线处理;
而初次匹配的工作步骤如下:
(1)、报警技术的识别单元4识别接入的模型库7的故障信息,因模型库7已根据故障信息的特点并参考已有模式后进行信息采集,故报警技术的识别单元4收到的故障信息会出现与知识库9中的案例匹配评分低的情况;
(2)、报警技术的识别单元4识别采用BP算法;KMP算法;Boyer-Moore算法;Sunday算法;Suffix Tree算法等五种算法来进行测试评估选取,以细化案例并能准确的挑选,并支持专业人员挑选案例特征的录入,脚本的选取;
(2)、当出现评分低的情况时,触发报警技术的识别单元4中的业务与功能验证脚本的执行,对业务进行持续一段时间的验证与观察;
(3)、如果持续一段时间内,业务与功能都正常,则认为此报警为虚警,同时提存数据库 8;以便下次可以提取比较;
(4)、报警技术的识别单元4具有自修复的功能,在自修复以后,进行业务验证与评估,如自修复没有通过验证,则执行回退脚本以便人为干预修复。
脚本的调用与执行步骤的工作步骤如下:
(1)、调用存放在知识库9中的脚本,脚本已将日常运维工作中的命令通用化;
(2)、将知识库9中存储的脚本ftp下载到目标服务器;
(3)、再通过telnet/ssh等方式登录到目标服务器来触发脚本的执行。
案例特征日志包括案例特征日志段、案例特征报警、案例应急脚本、案例应急回退脚本、案例业务验证脚本,案例修复脚本等特征。案例知识库向识别功能提供特征日志、特征报警,在自修复执行时提供修复脚本,在业务验证和评估时提供验脚本和回退脚本。为保证知识库的有效性,降低风险,案例知识库需在各应用组专业运维人员的配合下完成,并定期对各案例进行维护更新。
在***工作时,设置了综合信息关联单元1的监控***05对主站***01,变电站***02,变电站链路通信03实施监控,故障信息通过通道故障诊断单元2和***故障诊断单元10的处理后进入模型库7,经过报警技术的识别单元4的处理后再进入数据库8,进入数据库8的故障信息需要进行处理和需要进行归档,需要进行处理的则由远程命令执行单元5来进行,需要进行归档的则经过案例知识库处理单元6的处理后提存至知识库9,所以故障在线处理单元3包括报警技术的识别单元4、远程命令执行单元5、案例知识库处理单元6共三个单元 (即识别、执行、归档)。远程命令执行单元5与短信模块07之间可以进行短信交互通讯,远程命令执行单元5和PDA终端06之间也可以进行短信交互通讯。故运维***04可以经短信模块07发送信息至PDA终端06,PDA终端06也可以回发信息通过短信模块07指示运维***04,从而完成了自动化运维的效率的极大提升。
实际的应用:
以某地级市的110kV江南站104主通道链路通道故障举例:
ggfes4-1->加密装置1->通信光纤->网关->加密装置2->远动装置
当110kV江南站104主通道中通信光纤故障时,***会检测到110kV江南站104主通道通信中断,并自动启动进程ping链路上的所有网络设备,得到如下报文:
(1)ggfes4-1(10.68.60.4)上ping加密装置1(10.68.60.58),通信正常;
(2)ggfes4-1(10.68.60.4)上ping网关(10.68.60.52),通信不正常;
(3)ggfes4-1(10.68.60.4)上ping加密装置2(10.68.60.60),通信不正常;
(4)ggfes4-1(10.68.60.4)上ping远动装置(10.68.60.33),通信不正常;
***会将以上报文发送到PDA终端06上,值班员可以根据报文信息判断出故障点是通信班的通信光纤后,即可通过***调用相关程序完成故障的处理,在非上班时间无需返回机房再做事故处理,提高工作效率,大大降低人力劳动。

Claims (10)

1.一种提高自动化***运维效率的***,其特征在于,包括主站***(01),变电站***(02),变电站链路通信(03),运维***(04),监控***(05),PDA终端(06),短信模块(07);所述的监控***(05)和所述的主站***(01)、变电站***(02)及变电站链路通信(03)相连以便监控,所述的运维***(04)和所述的监控***(05)相连以便数据交互,所述的短信模块(07)和所述的运维***(04)相连并交互通讯,所述的PDA终端(06)和所述的短信模块(07)相连并交互通讯;所述的监控***(05)设置有综合信息关联单元(1),所述的运维***(04)设置有通道故障诊断单元(2)、故障在线处理单元(3)、模型库(7)、数据库(8)、知识库(9)、***故障诊断单元(10);所述的故障在线处理单元(3)还包括报警技术的识别单元(4)、远程命令执行单元(5)、案例知识库处理单元(6);故障信息经所述的监控***(05)获取后传送给所述的运维***(04)识别处理,***故障信息由***故障诊断单元(10)来诊断后进入模型库(7),通道故障信息由通道故障诊断单元(2)来诊断后进入模型库(7),进入模型库(7)内的故障信息经由所述的报警技术的识别单元(4)进行匹配和评分并提存数据库(8),所述的案例知识库处理单元(6)利用特定的案例特征将数据库(8)中的故障信息形成案例并存放在知识库(9)中;提存数据库(8)中的故障信息由远程命令执行单元(5)执行处理,运维***(04)的远程命令执行单元(5)经短信模块(07)发送故障信息报文至所述的PDA终端(06)以供分析处理,值班人员再由PDA终端(06)发回在线处理短信至短信模块(07),所述的运维***(04)接收短信模块(07)请求,所述的远程命令执行单元(5)解析在线处理短信,对通道故障则由远程命令执行单元(5)从数据库(8)中调用发送心跳数据包,对***故障则由远程命令执行单元(5)从知识库(9)中匹配调用对应的脚本,完成故障处理后将处理报文发送到值班手机,结束处理。
2.根据权利要求1所述的一种提高自动化***运维效率的***,其特征在于,所述的综合信息关联单元(1)配置基础的关联关系到所述的监控***(05),故所述的监控***(05)可辨识通道故障诊断单元(2)和***故障诊断单元(10)中的部分已常态化的运维指标与有待采集信息上的指标是否存在关联;所述的综合信息关联单元(1)的关联关系包括关联挖掘、关联可视化、服务透视定位,具体如下:
(1) 关联挖掘,具体包括:
(a)事件和事件间的关联:频繁项集挖掘,针对所有运维事件;
(b)事件和时序间的关联:指标异常经常与部署升级事件相伴发生,问题诊断&故障定位;
(c)多时序间的关联;
(2) 关联可视化,具体包括:
通过关联变动,帮助运维人员分析重点数据的变动情况:
(a)事件&事件关联;
(b)事件&时序关联;
(3) 服务透视定位,具体包括:以时间轴演进顺序来展示运维事件,通过模块关联、时间关联、数据流关联等技术把离散的运维数据联系起来,构成一个完整的服务透视图,如果异常发生在关系透视图中的某个部分,就可以按照周边关系的通路来快速定位问题,包括:(a)模块调用关系;(b)事件和模块关联。
3.根据权利要求1所述的一种提高自动化***运维效率的***,其特征在于,所述的通道故障诊断单元(2)实时监视变电站链路通信(03)状态并实时监测诊断;所述的通道故障诊断单元(2)的工作步骤如下:
在联接变电站链路通信(03)的网络设备中全部设置有链路地址,所述的通道故障诊断单元(2)这样来进行检测诊断:比如有主机A,主机B
(1)、主机A核查自己的MAC地址表;
(2)、若主机A核查到有主机B的MAC地址,则返回给主机A;
(3)、若主机A没有核查到有主机B的MAC地址,则向外发送一个有固定格式的ARP广播包来寻找主机B的MAC地址;
(4)、所有主机都接收到主机A的报文,其他由于不对应故丢弃了该报文;主机B收到了报文后立即相应,核查本身的MAC地址,同时学到主机A的MAC地址,并把本身的MAC地址按同样的ARP报文格式返回给主机A;所述的报文包括UDP报文、ICMP报文。
4.根据权利要求3所述的一种提高自动化***运维效率的***,其特征在于,所述的报文为IP报文,所述的IP报文由首部和数据组成,首部设置有选项,所述的选项可以用来存储IP时间戳或者IP记录路由选项。
5.根据权利要求3所述的一种提高自动化***运维效率的***,其特征在于,所述的ICMP的由帧的首部、帧的数据、尾部组成,所述的帧的数据包含首部和数据。
6.根据权利要求3所述的一种提高自动化***运维效率的***,其特征在于,所述的ARP报文格式中以太网目的MAC为FF-FF-FF-FF-FF-FF,以太网源MAC为00-50-56-C0-00-01。
7.根据权利要求1所述的一种提高自动化***运维效率的***,其特征在于,所述的故障在线处理单元(3)包括报警技术的识别单元(4)、远程命令执行单元(5)、案例知识库处理单元(6);
所述的报警技术的识别单元(4)识别故障信息并采集特征数据提交至知识库(9),以便***的案例归档;所述的远程命令执行单元(5)执行心跳数据包的发送步骤、脚本的调用与执行步骤、与短信模块(07)的交互通讯步骤;所述的案例知识库处理单元(6)依据特定的案例特征来形成可靠的且全面的案例并存放在知识库(9)内,并定期地维护更新;
所述的故障在线处理单元(3)的工作步骤如下:
(1)、所述的故障在线处理单元(3)经过报警技术的识别单元(4)在知识库(9)中实现对监控***4所采集的日常故障信息识别并进行初次匹配,并寻找相似度较高且达到管理员要求的相似度的案例;
(2)、***调用日志采集脚本对相关服务器、相应时间点的日志信息进行采集;
(3)、采集到的日志在经过过滤规则过滤后,与知识库(9)中预存的案例特征日志进行再次匹配即计算案例相似度,通过智能算法选择综合相似度最高的案例识别为故障案例;
(3)、由远程命令执行单元(5)按照故障案例的处理方法及流程来完成在线处理。
8.根据权利要求7所述的一种提高自动化***运维效率的***,其特征在于,所述的初次匹配的工作步骤如下:
(1)、报警技术的识别单元(4)识别接入的模型库(7)的故障信息,因模型库(7)已根据故障信息的特点并参考已有模式后进行信息采集,故报警技术的识别单元(4)收到的故障信息会出现与知识库(9)中的案例匹配评分低的情况;
(2)、报警技术的识别单元(4)识别采用BP算法;KMP算法;Boyer-Moore算法;Sunday算法;Suffix Tree算法等五种算法来进行测试评估选取,以细化案例并能准确的挑选,并支持专业人员挑选案例特征的录入,脚本的选取;
(2)、当出现评分低的情况时,触发报警技术的识别单元(4)中的业务与功能验证脚本的执行,对业务进行持续一段时间的验证与观察;
(3)、如果持续一段时间内,业务与功能都正常,则认为此报警为虚警,同时提存数据库(8);以便下次可以提取比较;
(4)、报警技术的识别单元(4)具有自修复的功能,在自修复以后,进行业务验证与评估,如自修复没有通过验证,则执行回退脚本以便人为干预修复。
9.根据权利要求7所述的一种提高自动化***运维效率的***,其特征在于,所述的脚本的调用与执行步骤的工作步骤如下:
(1)、调用存放在知识库(9)中的脚本,所述的脚本已将日常运维工作中的命令通用化;
(2)、将知识库(9)中存储的脚本ftp下载到目标服务器;
(3)、再通过telnet/ssh等方式登录到目标服务器来触发脚本的执行。
10.根据权利要求7所述的一种提高自动化***运维效率的***,其特征在于,所述的案例特征日志包括案例特征日志段、案例特征报警、案例应急脚本、案例应急回退脚本、案例业务验证脚本,案例修复脚本等特征。
CN201810955416.7A 2018-08-21 2018-08-21 一种提高自动化***运维效率的*** Pending CN109327076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810955416.7A CN109327076A (zh) 2018-08-21 2018-08-21 一种提高自动化***运维效率的***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810955416.7A CN109327076A (zh) 2018-08-21 2018-08-21 一种提高自动化***运维效率的***

Publications (1)

Publication Number Publication Date
CN109327076A true CN109327076A (zh) 2019-02-12

Family

ID=65264661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810955416.7A Pending CN109327076A (zh) 2018-08-21 2018-08-21 一种提高自动化***运维效率的***

Country Status (1)

Country Link
CN (1) CN109327076A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009525A (zh) * 2019-04-02 2019-07-12 国网新疆电力有限公司电力科学研究院 用电信息采集***及使用方法
CN110336373A (zh) * 2019-04-30 2019-10-15 苏州易助能源管理有限公司 分布式光伏电站信息化管理***及方法
CN111600740A (zh) * 2020-04-02 2020-08-28 深圳市国电科技通信有限公司 远程运维管理***及方法
CN112506670A (zh) * 2021-02-02 2021-03-16 上海有孚智数云创数字科技有限公司 一种多节点自动化运维任务处理方法、***及存储介质
CN112836989A (zh) * 2021-03-02 2021-05-25 东方电子股份有限公司 一种变电站远动通信装置参数在线初始化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04168506A (ja) * 1990-11-01 1992-06-16 Toshiba Corp 設備監視診断システム
CN103455563A (zh) * 2013-08-15 2013-12-18 国家电网公司 一种适用于智能变电站一体化监控***的数据挖掘方法
CN104242465A (zh) * 2014-10-11 2014-12-24 重庆邮电大学 一种基于b/s的变电站远程监控***及方法
CN104578414A (zh) * 2014-12-30 2015-04-29 国家电网公司 一种基于svg实现智能站保护动作可视化的方法
CN106709580A (zh) * 2017-01-13 2017-05-24 国家电网公司 一种变电站二次***运维云平台
CN106850271A (zh) * 2016-12-30 2017-06-13 国网天津市电力公司 一种配电主站与终端通信网络故障研判方法
CN107316086A (zh) * 2017-06-15 2017-11-03 国网安徽省电力公司芜湖供电公司 变电站设备主人制管理***和运维方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04168506A (ja) * 1990-11-01 1992-06-16 Toshiba Corp 設備監視診断システム
CN103455563A (zh) * 2013-08-15 2013-12-18 国家电网公司 一种适用于智能变电站一体化监控***的数据挖掘方法
CN104242465A (zh) * 2014-10-11 2014-12-24 重庆邮电大学 一种基于b/s的变电站远程监控***及方法
CN104578414A (zh) * 2014-12-30 2015-04-29 国家电网公司 一种基于svg实现智能站保护动作可视化的方法
CN106850271A (zh) * 2016-12-30 2017-06-13 国网天津市电力公司 一种配电主站与终端通信网络故障研判方法
CN106709580A (zh) * 2017-01-13 2017-05-24 国家电网公司 一种变电站二次***运维云平台
CN107316086A (zh) * 2017-06-15 2017-11-03 国网安徽省电力公司芜湖供电公司 变电站设备主人制管理***和运维方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蓝鹏昊: "基于变电站运行信息的智能数据挖掘", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009525A (zh) * 2019-04-02 2019-07-12 国网新疆电力有限公司电力科学研究院 用电信息采集***及使用方法
CN110336373A (zh) * 2019-04-30 2019-10-15 苏州易助能源管理有限公司 分布式光伏电站信息化管理***及方法
CN111600740A (zh) * 2020-04-02 2020-08-28 深圳市国电科技通信有限公司 远程运维管理***及方法
CN112506670A (zh) * 2021-02-02 2021-03-16 上海有孚智数云创数字科技有限公司 一种多节点自动化运维任务处理方法、***及存储介质
CN112836989A (zh) * 2021-03-02 2021-05-25 东方电子股份有限公司 一种变电站远动通信装置参数在线初始化方法
CN112836989B (zh) * 2021-03-02 2023-02-10 东方电子股份有限公司 一种变电站远动通信装置参数在线初始化方法

Similar Documents

Publication Publication Date Title
CN109327076A (zh) 一种提高自动化***运维效率的***
CN108600049B (zh) 数据中心网络tcp连接的性能测量方法、装置及存储介质
CN108055148B (zh) 一种自动化可溯源的电力无线专网网管诊断方法
CN108896868A (zh) 一种即用式在线监测实现***及方法
US20080181099A1 (en) Methods, systems, and computer program products for using alarm data correlation to automatically analyze a network outage
CN105049223B (zh) 一种电力通信网缺陷故障处理决策辅助分析方法
CN109743191B (zh) 一种设备告警的精确定位集中处理***、方法及装置
CN106407030A (zh) 一种存储集群***故障处理方法及***
CN106787169A (zh) 一种多数据源比较技术诊断变电站遥测故障的方法
CN112468592B (zh) 一种基于电力信息采集的终端在线状态侦测方法及***
CN110086260A (zh) 一种配电网智能感知管控装置
CN109245308A (zh) 一种基于变电站综合监控***的联动告警方法
CN108879956A (zh) 基于设备运行状态对***故障进行主动判断并修复的方法
US20240056463A1 (en) Method and system to detect abnormal message transactions on a network
CN104639386B (zh) 故障定位***和方法
CN110597130A (zh) 一种无人值班变电站远程信息采集***
CN115208059A (zh) 一种变电站动力与环境监控告警处理***及方法
CN108933780B (zh) 一种基于业务链的多协议网络报文关联分析展示方法
CN106532938A (zh) 中低压配电网监控***
CN109361267A (zh) 故障录波联网***
CN206470391U (zh) 电能表故障诊断***结构
CN109639529A (zh) 智能变电站遥控命令异常的诊断方法
CN109100116A (zh) 一种光模块故障诊断***及方法
CN109713791B (zh) 智能电网遥控命令异常的诊断方法
CN117354337A (zh) 一种基于云端的储能***智能运维架构

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190212