CN113467407B - 一种分散控制***故障信息收集方法、***及设备 - Google Patents

一种分散控制***故障信息收集方法、***及设备 Download PDF

Info

Publication number
CN113467407B
CN113467407B CN202111037730.5A CN202111037730A CN113467407B CN 113467407 B CN113467407 B CN 113467407B CN 202111037730 A CN202111037730 A CN 202111037730A CN 113467407 B CN113467407 B CN 113467407B
Authority
CN
China
Prior art keywords
information
upper computer
fault
software
computer software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111037730.5A
Other languages
English (en)
Other versions
CN113467407A (zh
Inventor
薛建中
孙超
杨渊
贾泽冰
程国栋
艾文凯
蔡丹
潘乐
李卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NR Electric Co Ltd
Xian Thermal Power Research Institute Co Ltd
Original Assignee
NR Electric Co Ltd
Xian Thermal Power Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NR Electric Co Ltd, Xian Thermal Power Research Institute Co Ltd filed Critical NR Electric Co Ltd
Priority to CN202111037730.5A priority Critical patent/CN113467407B/zh
Publication of CN113467407A publication Critical patent/CN113467407A/zh
Application granted granted Critical
Publication of CN113467407B publication Critical patent/CN113467407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4185Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the network communication
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4183Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by data acquisition, e.g. workpiece identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分散控制***故障信息收集方法、***及设备,包括,在上位机的每个主机节点配置core文件;采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;对故障时刻的上位机软件及上位机操作***的日志信息压缩,得到分散控制***故障信息收集结果;通过crontab命令调用coredump程序,查询软件异常时的程序调用栈,收集上位机软件的故障信息;避免故障信息被覆盖,获取有效的故障定位信息。

Description

一种分散控制***故障信息收集方法、***及设备
技术领域
本发明属于分散控制***故障告警技术领域,涉及分散控制***传输数据的处理,特别涉及一种分散控制***故障信息收集方法、***及设备。
背景技术
分散控制***(Distributed Control System,DCS)是利用计算机技术对生产过程进行集中监视、操作、管理和分散控制的一种新型控制设备,其广泛的应用于电力、冶金、化工等工业生产领域;分散控制***中包括数以千计的各类型测控传感器、通讯设备及计算机***,是电力等生产企业的核心监控***,实时上传电厂所有生产数据,并控制***全部运行参数,在电厂生产过程中发挥着关键作用。
分散控制***的上位机软件在使用过程中,可能会遇到异常退出等故障信息;现有电厂的分散控制***的自身运行状态全部记录在***的运维日志中,目前大多通过***运维人员人工收集日志和故障数据文件的方式,利用日志和故障数据文件进行故障信息定位;由于***故障信息分散性及隐蔽性强,收集难度较大,且故障信息收集不及时,将被后续信息覆盖,无法实时获取故障信息。
发明内容
针对现有技术中存在的技术问题,本发明提供了一种分散控制***故障信息收集方法、***及设备,以解决现有的故障信息大多采用人工收集,收集难度大,时效性差的技术问题。
为达到上述目的,本发明采用的技术方案为:
本发明提供了一种分散控制***故障信息收集方法,包括以下步骤:
在上位机的每个主机节点配置core文件;
采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;
解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;
根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;
对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到所述分散控制***故障信息收集结果。
进一步的,core文件在上位机的每个主机节点的路径为/home/core路径。
进一步的,采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中的过程,具体如下:
采用Linux的crontab命令,定时调用Linux的coredump程序,将上位机软件的异常信息保存在core文件中;所述上位机软件的异常信息包括故障时刻的上位机软件的内存状态、寄存器状态及程序调用栈信息。
进一步的,采用Linux下的GDB工具对存储有上位机软件的异常信息的core文件进行解析,得到上位机软件故障时刻的程序调用栈;所述上位机软件故障时刻的程序调用栈保存在soft_time_core_bt.log文件中。
进一步的,故障时刻的上位机软件的日志信息包括软件版本信息、运行日志、软件实时数据库文件及软件操作信息;
所述软件版本信息包括软件版本号、更新日期及MD5校验值;所述软件操作信息包括操作记录、***告警及软件维护信息。
进一步的,所述软件版本信息存储在soft_info.log文件中;所述运行日志存储在soft_time.log文件中;所述软件实时数据库文件存储在soft_time_db.tar.gz文件中;所述软件操作信息存储在alarm.log文件中。
进一步的,故障时刻的上位机操作***的日志信息存储在sys.log文件中;所述故障时刻的上位机操作***的日志信息包括CPU信息、网络负载信息、磁盘负载信息及***操作日志。
进一步的,对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到blackbox.tar.gz文件,即得到所述分散控制***故障收集结果。
本发明还提供了一种分散控制***故障信息收集***,包括core文件模块、信息收集模块、解析模块、日志信息模块及结果输出模块;
core文件模块,用于在上位机的每个主机节点配置core文件;
信息收集模块,用于采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;
解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;
日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;
结果输出模块,用于对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到所述分散控制***故障信息收集结果。
本发明还提供了一种分散控制***故障信息收集设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现所述一种分散控制***故障信息收集方法的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供了一种分散控制***故障信息收集方法及***,采用Linux的crontab命令定时查询上位机软件异常时的程序调用栈;根据上位机软件故障时刻的程序调用栈,收集上位机软件的故障信息,收集难度小,能够实现对故障信息的实时收集,避免了因不及时收集导致故障信息被覆盖,实现了获取有效的故障定位信息。
进一步的,利用Linux的GDB工具解析core文件,分析上位机软件故障时刻的程序调用栈,查看具体的故障问题,实现对软件故障问题的定位,定位收集方式简单,效率较高。
附图说明
图1为本发明所述的一种分散控制***故障信息收集方法的流程图;
图2为本发明所述的一种分散控制***故障信息收集***的结构框图;
图3为本发明所述的一种分散控制***故障信息收集设备的结构框图。
具体实施方式
为了使本发明所解决的技术问题,技术方案及有益效果更加清楚明白,以下具体实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如附图1所示,本发明提供了一种分散控制***故障信息收集方法,包括以下步骤:
步骤1、在上位机的每个主机节点处设置core文件。所述core文件的路径为/home/core路径,用于存储上位机软件的异常信息。
步骤2、采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中。
具体的,采用Linux的crontab命令,定时调用Linux的coredump程序,将上位机软件的异常信息保存在core文件中;所述上位机软件的异常信息包括故障时刻的上位机软件的内存状态、寄存器状态及程序调用栈信息。
本发明中,通过crontab命令,可以在固定的间隔时间执行指定的***指令或shell script脚本;所述间隔时间的单位可以是分钟、小时、日、月、周及以上的任意组合,对周期性的日志分析或数据备份等适应性较好。
步骤3、解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈。采用Linux下的GDB工具对存储有上位机软件的异常信息的core文件进行解析,得到上位机软件故障时刻的程序调用栈;所述上位机软件故障时刻的程序调用栈保存在soft_time_core_bt.log文件中;本发明中,GDB工具是一个由GNU开源组织发布的、UNIX/LINUX操作***下基于命令行的程序调试工具。
步骤4、根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息。
故障时刻的上位机软件的日志信息包括软件版本信息、运行日志、软件实时数据库文件及软件操作信息。
所述软件版本信息存储在soft_info.log文件中,所述软件版本信息包括软件版本号、更新日期及MD5校验值;所述运行日志存储在soft_time.log文件中;所述软件实时数据库文件存储在soft_time_db.tar.gz文件中;所述软件操作信息存储在alarm.log文件中;所述软件操作信息包括操作记录、***告警及软件维护信息。
故障时刻的上位机操作***的日志信息存储在sys.log文件中;所述故障时刻的上位机操作***的日志信息包括CPU信息、网络负载信息、磁盘负载信息及***操作日志。
步骤5、对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到blackbox.tar.gz文件,即得到所述分散控制***故障信息收集结果。
如附图2所示,本发明还提供了一种分散控制***故障信息收集***,包括core文件模块、信息收集模块、解析模块、日志信息模块及结果输出模块。
core文件模块,用于在上位机的每个主机节点配置core文件;信息收集模块,用于采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;结果输出模块,用于对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到所述分散控制***故障信息收集结果。
如附图3所示,本发明还提供了一种分散控制***故障信息收集设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现所述一种分散控制***故障信息收集方法的步骤;所述附图3中的通讯接口,用于接入外部设备,以获取数据。
所述处理器执行所述计算机程序时实现上述分散控制***故障信息收集方法中的步骤,例如:在上位机的每个主机节点配置core文件;采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到所述分散控制***故障信息收集结果。
或者,所述处理器执行所述计算机程序时实现上述分散控制***故障信息收集***中各模块的功能,例如:core文件模块,用于在上位机的每个主机节点配置core文件;信息收集模块,用于采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;结果输出模块,用于对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到所述分散控制***故障信息收集结果。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序在所述分散控制***故障信息收集方法设备中的执行过程。
例如,所述计算机程序可以被分割成core文件模块、信息收集模块、解析模块、日志信息模块及结果输出模块,各模块具体功能如下:core文件模块,用于在上位机的每个主机节点处设置core文件;信息收集模块,用于采用crontab程序的定时任务,收集上位机软件的异常信息,并存储在core文件中;解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;结果输出模块,用于对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到所述分散控制***故障信息收集结果。
所述分散控制***故障信息收集设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述分散控制***故障信息收集设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述附图3仅仅是分散控制***故障信息收集设备的示例,并不构成对分散控制***故障信息收集设备的限定,可以包括比图示更多的部件,或者组合某些部件,或者不同的部件,例如所述分散控制***故障信息收集设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器也可以是任何常规的处理器等,所述处理器是所述分散控制***故障信息收集设备的控制中心,利用各种接口和线路连接整个分散控制***故障信息收集设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述分散控制***故障信息收集设备的各种功能。
所述存储器可主要包括存储程序区和存储数据区,所述存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。
此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明所述的分散控制***故障信息收集方法、***及设备,采用Linux的crontab命令定时调用Linux的coredump程序,查询上位机软件异常时的程序调用栈;根据上位机软件故障时刻的程序调用栈,收集上位机软件的故障信息,收集难度小,能够实现对故障信息的实时收集,避免了因不及时收集导致故障信息被覆盖,实现了获取有效的故障定位信息。
实施例
以某电厂的分散控制***为例,本实施例提供了一种分散控制***故障信息收集方法,具体包括以下步骤:
步骤1、对分散控制***中,在上位机的每个主机节点处配置core文件,并设置core文件的最大存储空间;所述core文件的路径为/home/core路径;通过配置core文件的最大存储空间,避免了占用大量的磁盘空间。
步骤2、采用Linux的crontab命令,定时调用Linux的coredump程序,收集上位机软件的异常信息;将上位机软件的异常信息保存在core文件中;所述上位机软件的异常信息包括上位机软件异常退出的***告警;上位机软件的异常信息包括故障时刻的上位机软件的内存状态、寄存器状态及程序调用栈信息;本实施例中,采用Linux的crontab命令,按照预设周期执行调用一次Linux的coredump程序;优选的,本实施例中,采用每分钟定时调用Linux的coredump程序。
步骤3、解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈。具体过程如下:
步骤31、查询告警数据库上个周期内是否有上位机软件异常退出的***告警;若有,则转至步骤32;
步骤32、查询core文件目录下是否产生了新的core文件;若有,则转至步骤33;
步骤33、采用Linux下的GDB工具对新的core文件进行解析,得到上位机软件故障时刻的程序调用栈,并将上位机软件故障时刻的程序调用栈保存至soft_time_core_bt.log文件中。
步骤4、根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;故障时刻的上位机软件的日志信息包括软件版本信息、运行日志、软件实时数据库文件及软件操作信息;所述软件版本信息包括软件版本号、更新日期及MD5校验值,所述软件操作信息包括操作记录、***告警及软件维护信息;故障时刻的上位机操作***的日志信息包括CPU信息、网络负载信息、磁盘负载信息及***操作日志。
具体过程如下:
步骤41、根据上位机软件故障时刻的程序调用栈,查询上位机异常退出软件的版本号、更新日期及MD5校验值;并将上位机异常退出软件的版本号、更新日期及MD5校验值保存至soft_info.log文件中;采用软件名+-V查询软件的版本号;采用1s+软件名查询更新日期,例如1s-lrt alarm;采用MD5sum软件名查询软件的MD5校验值;
步骤42、根据上位机软件故障时刻的程序调用栈,在故障软件的日志保存路径中以故障时间为关键字,在故障软件的日志中进行匹配,得到上位机异常退出软件的运行日志;并将上位机异常退出软件的运行日志保存至soft_time.log文件中;
步骤43、根据上位机软件故障时刻的程序调用栈,在数据库路径中,查找上位机异常退出软件对应的实时数据库文件,保存所示实时数据库文件至soft_time_db.tar.gz文件中;每个上位机软件有固定归属的应用,每个应用有固定的数据库,直接通过上位机软件归属的应用能够查找数据库的日志;
步骤44、根据上位机软件故障时刻的程序调用栈,在告警数据库中,查询故障时段前后预设时间段内的***操作记录、***告警、维护记录及维护结果;并将***操作记录、***告警、维护记录及维护结果保存至alarm.log中;本实施例中,查询故障时段前后1个小时内的***操作记录、***告警、维护记录及维护结果;
步骤45、根据上位机软件故障时刻的程序调用栈,在上位机操作***/var/log路径中,查询故障时段操作***的CPU信息、网络负载信息、磁盘负载信息及***操作日志,并将故障时段操作***的CPU信息、网络负载信息、磁盘负载信息及***操作日志保存至sys.log文件中。
步骤5、对步骤4中获取的故障时刻的上位机软件及上位机操作***的日志信息进行打包,并压缩至blackbox.tar.gz文件,即得到所述分散控制***故障信息收集结果;上位机***通过弹窗告警运维人员上位机软件故障信息收集完成;所述告警内容为:“**程序异常退出信息收集完成,请将文件返回至厂家定位”。
本实施例提供的一种分散控制***故障信息收集***及设备中相关部分的说明可以参见本实施例所述的分散控制***故障信息收集方法中对应部分的详细说明,在此不再赘述。
本发明中,采用Linux的crontab命令定时调用Linux的coredump程序,查询上位机软件异常时的程序调用栈;根据上位机软件故障时刻的程序调用栈,收集上位机软件的故障信息,收集难度小,能够实现对故障信息的实时收集,避免了因不及时收集导致故障信息被覆盖,实现了获取有效的故障定位信息。
上述实施例仅仅是能够实现本发明技术方案的实施方式之一,本发明所要求保护的范围并不仅仅受本实施例的限制,还包括在本发明所公开的技术范围内,任何熟悉本技术领域的技术人员所容易想到的变化、替换及其他实施方式。

Claims (10)

1.一种分散控制***故障信息收集方法,其特征在于,包括以下步骤:
在上位机的每个主机节点配置core文件;
采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;所述上位机软件的异常信息包括故障时刻的上位机软件的内存状态、寄存器状态及程序调用栈信息;
解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;
根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;所述故障时刻的上位机软件的日志信息包括软件版本信息、运行日志、软件实时数据库文件及软件操作信息;所述故障时刻的上位机操作***的日志信息包括CPU信息、网络负载信息、磁盘负载信息及***操作日志;
对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到所述分散控制***故障信息收集结果。
2.根据权利要求1所述的一种分散控制***故障信息收集方法,其特征在于,core文件在上位机的每个主机节点的路径为/home/core路径。
3.根据权利要求1所述的一种分散控制***故障信息收集方法,其特征在于,采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中的过程,具体如下:
采用Linux的crontab命令,定时调用Linux的coredump程序,将上位机软件的异常信息保存在core文件中。
4.根据权利要求1所述的一种分散控制***故障信息收集方法,其特征在于,采用Linux下的GDB工具对存储有上位机软件的异常信息的core文件进行解析,得到上位机软件故障时刻的程序调用栈;所述上位机软件故障时刻的程序调用栈保存在soft_time_core_bt.log文件中。
5.根据权利要求1所述的一种分散控制***故障信息收集方法,其特征在于,所述软件版本信息包括软件版本号、更新日期及MD5校验值;所述软件操作信息包括操作记录、***告警及软件维护信息。
6.根据权利要求5所述的一种分散控制***故障信息收集方法,其特征在于,所述软件版本信息存储在soft_info.log文件中;所述运行日志存储在soft_time.log文件中;所述软件实时数据库文件存储在soft_time_db.tar.gz文件中;所述软件操作信息存储在alarm.log文件中。
7.根据权利要求1所述的一种分散控制***故障信息收集方法,其特征在于,故障时刻的上位机操作***的日志信息存储在sys.log文件中。
8.根据权利要求1所述的一种分散控制***故障信息收集方法,其特征在于,对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到blackbox.tar.gz文件,即得到所述分散控制***故障收集结果。
9.一种分散控制***故障信息收集***,其特征在于,包括:
core文件模块,用于在上位机的每个主机节点配置core文件;
信息收集模块,用于采用Linux的crontab命令,收集上位机软件的异常信息,并存储在core文件中;所述上位机软件的异常信息包括故障时刻的上位机软件的内存状态、寄存器状态及程序调用栈信息;
解析模块,用于解析存储有上位机软件的异常信息的core文件,得到上位机软件故障时刻的程序调用栈;
日志信息模块,用于根据上位机软件故障时刻的程序调用栈,获取故障时刻的上位机软件及上位机操作***的日志信息;所述故障时刻的上位机软件的日志信息包括软件版本信息、运行日志、软件实时数据库文件及软件操作信息;所述故障时刻的上位机操作***的日志信息包括CPU信息、网络负载信息、磁盘负载信息及***操作日志;
结果输出模块,用于对故障时刻的上位机软件及上位机操作***的日志信息进行压缩,得到所述分散控制***故障信息收集结果。
10.一种分散控制***故障信息收集设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-8任一项所述一种分散控制***故障信息收集方法的步骤。
CN202111037730.5A 2021-09-06 2021-09-06 一种分散控制***故障信息收集方法、***及设备 Active CN113467407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111037730.5A CN113467407B (zh) 2021-09-06 2021-09-06 一种分散控制***故障信息收集方法、***及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111037730.5A CN113467407B (zh) 2021-09-06 2021-09-06 一种分散控制***故障信息收集方法、***及设备

Publications (2)

Publication Number Publication Date
CN113467407A CN113467407A (zh) 2021-10-01
CN113467407B true CN113467407B (zh) 2021-11-16

Family

ID=77864670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111037730.5A Active CN113467407B (zh) 2021-09-06 2021-09-06 一种分散控制***故障信息收集方法、***及设备

Country Status (1)

Country Link
CN (1) CN113467407B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6032172A (en) * 1997-05-29 2000-02-29 Sun Microsystems, Inc. Distributed computer process scheduling mechanism
CN101719090A (zh) * 2009-12-25 2010-06-02 珠海市君天电子科技有限公司 对计算机软件***崩溃原因进行自动分析的方法
CN103678131A (zh) * 2013-12-18 2014-03-26 哈尔滨工业大学 多核处理器的软件故障注入与分析***
CN104331362A (zh) * 2014-10-17 2015-02-04 宝鸡文理学院 一种软件故障预测方法
CN104636242A (zh) * 2015-02-06 2015-05-20 浪潮电子信息产业股份有限公司 一种基于Linux操作***的***日志自动删除重复内容的方法
CN106708734A (zh) * 2016-12-13 2017-05-24 腾讯科技(深圳)有限公司 软件异常检测方法及装置
CN107370808A (zh) * 2017-07-13 2017-11-21 盐城工学院 一种用于对大数据任务进行分布式处理的方法
CN110515820A (zh) * 2019-08-29 2019-11-29 北京浪潮数据技术有限公司 一种服务器故障维护方法、装置、服务器及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6032172A (en) * 1997-05-29 2000-02-29 Sun Microsystems, Inc. Distributed computer process scheduling mechanism
CN101719090A (zh) * 2009-12-25 2010-06-02 珠海市君天电子科技有限公司 对计算机软件***崩溃原因进行自动分析的方法
CN103678131A (zh) * 2013-12-18 2014-03-26 哈尔滨工业大学 多核处理器的软件故障注入与分析***
CN104331362A (zh) * 2014-10-17 2015-02-04 宝鸡文理学院 一种软件故障预测方法
CN104636242A (zh) * 2015-02-06 2015-05-20 浪潮电子信息产业股份有限公司 一种基于Linux操作***的***日志自动删除重复内容的方法
CN106708734A (zh) * 2016-12-13 2017-05-24 腾讯科技(深圳)有限公司 软件异常检测方法及装置
CN107370808A (zh) * 2017-07-13 2017-11-21 盐城工学院 一种用于对大数据任务进行分布式处理的方法
CN110515820A (zh) * 2019-08-29 2019-11-29 北京浪潮数据技术有限公司 一种服务器故障维护方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN113467407A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN110069572B (zh) 基于大数据平台的hive任务调度方法、装置、设备及存储介质
CN107832196B (zh) 一种用于实时日志异常内容的监测装置及监测方法
CN106528372B (zh) 一种程序运行监视***和方法
CN103577310A (zh) 记录软件调试日志的方法以及装置
CN110737594A (zh) 自动生成测试用例的数据库标准符合性测试方法及装置
CN107357731A (zh) 进程产生core dump问题的监控、分析和处理方法
CN110515799B (zh) 基于python语言的MySQL监控***及实现方法
CN113835921A (zh) 接口服务异常的处理方法、装置、设备和存储介质
CN111782431A (zh) 一种异常的处理方法、装置、终端及存储介质
CN113467407B (zh) 一种分散控制***故障信息收集方法、***及设备
CN108228417A (zh) 车联网日志处理方法及处理装置
CN115469594A (zh) 一种数字孪生监控***
CN202736049U (zh) 一种基于soa模式的档案管理***
CN113472881B (zh) 在线终端设备的统计方法和装置
CN115840656A (zh) 一种基于故障自愈的应用程序自动化运维方法和***
CN115525392A (zh) 容器监控方法、装置、电子设备及存储介质
CN114911578A (zh) 存储***监控及故障收集方法、装置、终端及存储介质
CN112650613A (zh) 一种错误信息处理方法、装置、电子设备及存储介质
CN113176973A (zh) Psu电源黑盒日志时间戳记录方法、装置、设备及介质
CN112241152A (zh) 一种基于mes的数据采集与分析***
CN111309790A (zh) 基于maxcomputer数据库的自动ETL配置方法及装置、控制***
CN111177116B (zh) 一种数据库智能管理平台及其管理方法
CN116032021B (zh) 新能源场站一体化监控方法、***、设备及存储介质
CN106991038A (zh) 基于java采集器的服务监控方法及装置
CN113986698A (zh) 通信日志量诊断方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant