CN107357731A - 进程产生core dump问题的监控、分析和处理方法 - Google Patents

进程产生core dump问题的监控、分析和处理方法 Download PDF

Info

Publication number
CN107357731A
CN107357731A CN201710581153.3A CN201710581153A CN107357731A CN 107357731 A CN107357731 A CN 107357731A CN 201710581153 A CN201710581153 A CN 201710581153A CN 107357731 A CN107357731 A CN 107357731A
Authority
CN
China
Prior art keywords
core dump
monitoring
analysis
files
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710581153.3A
Other languages
English (en)
Other versions
CN107357731B (zh
Inventor
张扬嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Star Software Co Ltd
Original Assignee
Fujian Star Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Star Software Co Ltd filed Critical Fujian Star Software Co Ltd
Priority to CN201710581153.3A priority Critical patent/CN107357731B/zh
Publication of CN107357731A publication Critical patent/CN107357731A/zh
Application granted granted Critical
Publication of CN107357731B publication Critical patent/CN107357731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/366Software debugging using diagnostics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种进程产生core dump问题的监控、分析和处理方法,第一服务端对运行中每个进程产生core dump文件分别进行监控、分析、进程重启和提取程序源代码错误信息、存储数据库表保存到监控服务***,然后进入第二服务端实现告警。本发明能够适用于linux、hp‑ux或aix等多服务器操作***,主要方法是通过第一服务端的监听路径方法来实时监控路径,再由第二服务端进行告警。

Description

进程产生core dump问题的监控、分析和处理方法
技术领域
本发明涉及一种计算机程序信息处理方法,特别是对计算机程序运行过程中产生core dump问题的处理方法。
背景技术
目前检索core dump文件监控处理的专利有一些,但只局限于linux平台且基本上分析和处理的过程是不完整的,因为core dump是二进制文件,并且从文件名无法知道是哪个进程产生的core dump,如果不知道是哪个进程的程序产生的core dump,就无法分析,并且要监控的一般是生产环境,而运行在生产环境的进程一般是经过优化编译的,这样的进程产生的core dump,如果分析出来直接用,有时没有太多的价值和意义。
发明内容
本发明要解决的技术问题,在于提供一种进程产生core dump问题的监控、分析、和处理方法,该方法对运行中进程产生core dump进行监控、分析、进程重启和提取程序源代码错误信息并保存到监控服务数据库表,对监控服务数据库表进行分析,然后实时告警。
本发明是这样实现的:一种进程产生core dump问题的监控、分析和处理方法,对运行中进程产生的core dump文件进行监控、分析、进程重启和提取程序源代码错误信息并保存到监控服务数据库表,然后对监控服务数据库表进行分析并实时告警。
进一步的,所述监控、分析、进程重启和提取程序源代码错误信息并保存到监控服务数据库表的具体过程如下:
步骤10、监听路径:在程序方法里监听配置好的会产生core dump文件的linux、hp-ux或aix等服务器操作***的应用生产环境的路径,当有新生成core dump文件时,触发对core dump文件的处理方法具体可以用c、c++、java、shell等编程来实现;
步骤20、备份core dump文件:在core dump文件处理方法中先把core dump上当前时间戳后移到指定的备份路径;
步骤30、在core dump文件内容中对应的程序名称读取出来,获取core dump文件对应的程序名称;
步骤40、在获取到core dump对应程序名称后,判断该程序名称对应的进程是否存在,如不存在,要重启该进程;
步骤50、根据core dump文件和产生core dump文件的程序名称,调用操作***编译器的调试工具进行分析,并提取程序代码出错原因和出错的位置;
步骤60、根据已经配置好的监控服务数据库表把字段数据保存到监控服务数据库表中。
步骤70、在备份路径中删除处理好的core dump文件,释放存储空间。
进一步地,本发明对监控服务数据库表进行分析并实时告警的过程如下:
按产生core dump服务器IP地址统计时间段内core dump产生的次数;
按产生core dump的程序统计时间段内core dump产生的次数;
按产生core dump服务器IP地址和产生core dump的程序统计时间段内core dump产生的次数;
分析产生core dump的程序时间段内core dump产生的趋势;
分析产生core dump服务器IP地址时间段内core dump产生的趋势;自动把某段时间内产生的core dump次数发送到配置的手机号进行告警;
统计和跟踪产生core dump问题的程序是否已经处理和处理情况。
本发明具有如下优点:
1、本发明在core dump文件内容中获取core dump文件对应的程序名称,可知道是哪个进程产生的core dump从而高效准确的进行core dump问题处理。
2、因为core dump文件比较大,很占用存储空间,本发明可以及时从备份路径中删除处理好的core dump释放空间从而可节约存储空间,减少硬件开销;
3、本发明通过重启进程这一步骤保证了生产环境的提供服务的正常和稳定;
4、本发明能准确提取和定位程序产生core dump的问题,帮助开发人员快速修复问题以及时更新生产环境;
5、本发明通过统计分析程序产生core dump原因,可以帮助研发管理人员持续的改进软件开发过程和软件质量。
具体实施方式
本发明的进程产生core dump问题的监控、分析和处理方法,方法分为两个服务端,通过第一服务端对运行中进程产生core dump进行监控、分析、进程重启和提取程序源代码错误信息,并保存到监控服务数据库表,然后进入第二服务端,实时实现的程序化的监控、分析、处理流程。
本发明方法主要是通过第一服务端和第二服务端进行运作,本方法包括实时监控路径文件、分析、重启进程、提取程序源代码出错信息、存储数据库表、及时发送告警信号。
所述第一服务端为所述监控、分析、重启进程、提取并保存的服务端执行步骤如下:
步骤10、监听路径:在程序方法里监听配置好的会产生core dump文件的linux、hp-ux或aix等服务器操作***的应用生产环境的路径,当有新生成core dump文件时,触发对core dump文件的处理方法;
步骤20、备份core dump文件:当新生成core dump文件时,先把core dump文件名加上当前时间戳后移到指定的备份路径,以防止被新的同样的core dump文件覆盖同时也用于后续备份;
步骤30、获取core dump文件对应的程序名称:用二进制的方式打开core dump文件,文件指针移动到配置的位置读取配置的字节数,把core dump文件内容中对应的程序名称读取出来,获取core dump文件对应的程序名称;
步骤40、重启进程:在获取到core dump对应程序名称后,判断该程序名称对应的进程是否存在,如不存在,要重启该进程;
步骤50、分析产生core dump的程序的错误信息;根据core dump文件和产生coredump文件的程序名称,调用操作***编译器的调试工具(如linux和hp-ux操作***是gdb、aix操作***的是dbx)进行分析,并提取程序代码出错原因和出错的位置;
步骤60、分析结果保存到监控服务数据库表:把字段数据(产生core的服务器IP,程序名称,程序代码出错原因和出错位置,分析时间等)保存到监控服务数据库表中,该监控服务数据库表应先事先进行配置,如设定其服务器的IP地址、端口、用户名和密码、数据存储格式、数据存储方式等,如本发明的监控、分析和处理方法所针对的是多个服务器,则在该多个服务器中选取其中一个服务器作为监控服务数据库表的所在位置(也可另外单独设置一个监控服务数据库表的服务器),所有的多个服务器的core dump问题的字段数据,均保存在该监控服务数据库表中进行统一管理和分析。
步骤70、在备份路径中删除处理好的core dump文件,释放存储空间。
所述第二服务端为统计分析告警服务端,从监控服务数据库表中获取字段数据并进行分析,在一段时间内统计产生coredump的次数,可以在折线图上横坐标表示时间(小时、天、周等为单位),纵坐标表示对应时间区间(每小时、每天、每周等)产生的core dump文件数量,也可以用柱状图或者表格形式来分析产生core dump的程序时间段内core dump产生的趋势,自动将产生core dump的机器IP地址、core dump的程序名称、当前时间自动发送到配置好的手机号(多个手机号码用分号分隔)进行告警,统计和跟踪产生core dump问题的程序未处理和已处理情况。初始保存在监控服务数据库表中的core dump问题状态是未处理,当core dump的问题已经修复后,要修改问题状态为已处理。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (4)

1.进程产生core dump问题的监控、分析和处理方法,其特征在于:对运行中每个进程产生的core dump文件分别进行监控、分析、进程重启和提取程序源代码错误信息并保存到监控服务数据库表,然后对监控服务数据库表进行分析并实时告警。
2.根据权利要求1所述进程产生core dump问题的监控、分析和处理方法,其特征在于:所述监控、分析、进程重启和提取程序源代码错误信息并保存到监控服务数据库表的具体过程如下:
步骤10、监听配置好的会产生core dump文件的linux、hp-ux或aix服务器操作***的运行进程的路径,当新的core dump文件产生时实时的处理新产生的core dump文件;
步骤20、当新生成core dump文件时,先把core dump文件名加上当前时间戳后移到指定的备份路径;
步骤30、在core dump文件内容中对应的程序名称读取出来,获取core dump文件对应的程序名称;
步骤40、在获取到core dump文件对应程序名称后,判断该程序名称对应的进程是否存在,如不存在,要重启该进程;
步骤50、根据core dump文件和产生core dump文件的程序名称,调用操作***编译器的调试工具进行分析,并提取程序代码出错原因和出错的位置;
步骤60、根据已经配置好的监控服务数据库表把字段数据保存到监控服务数据库表中;
步骤70、从备份路径中删除处理好的core dump文件,释放存储空间。
3.根据权利要求2所述的进程产生core dump问题的监控、分析和处理方法,其特征在于:所述字段数据为产生core dump的服务器IP、程序名称、程序代码出错位置和分析时间。
4.根据权利要求1所述进程产生core dump问题的监控、分析和处理方法,其特征在于:所述对监控服务数据库表进行分析并实时告警的过程如下:
按产生core dump服务器IP地址统计时间段内core dump文件产生的次数;
按产生core dump的程序统计时间段内core dump产生的次数;
按产生core dump服务器IP地址和产生core dump的程序统计时间段内core dump产生的次数;
分析产生core dump的程序时间段内core dump产生的趋势,自动把产生的core dump的计算机IP、进程名发送到配置的手机号进行告警;
统计和跟踪产生core dump问题的程序未处理和已处理情况。
CN201710581153.3A 2017-07-17 2017-07-17 进程产生core dump问题的监控、分析和处理方法 Active CN107357731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710581153.3A CN107357731B (zh) 2017-07-17 2017-07-17 进程产生core dump问题的监控、分析和处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710581153.3A CN107357731B (zh) 2017-07-17 2017-07-17 进程产生core dump问题的监控、分析和处理方法

Publications (2)

Publication Number Publication Date
CN107357731A true CN107357731A (zh) 2017-11-17
CN107357731B CN107357731B (zh) 2020-09-29

Family

ID=60293287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710581153.3A Active CN107357731B (zh) 2017-07-17 2017-07-17 进程产生core dump问题的监控、分析和处理方法

Country Status (1)

Country Link
CN (1) CN107357731B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656743A (zh) * 2018-12-28 2019-04-19 杭州迪普科技股份有限公司 一种core文件管理方法及装置、设备、介质
CN110262918A (zh) * 2019-06-19 2019-09-20 深圳市网心科技有限公司 进程崩溃分析方法及装置、分布式设备及存储介质
CN111324423A (zh) * 2020-03-03 2020-06-23 腾讯科技(深圳)有限公司 容器内进程的监控方法、装置、存储介质和计算机设备
CN111563000A (zh) * 2020-04-28 2020-08-21 深圳震有科技股份有限公司 一种文件生成方法、智能终端及存储介质
CN113535249A (zh) * 2021-08-02 2021-10-22 京东数科海益信息科技有限公司 数据处理方法、装置、设备、存储介质及程序产品
CN113791925A (zh) * 2021-08-24 2021-12-14 杭州迪普科技股份有限公司 内存映象文件的存储方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829231B2 (en) 2020-12-01 2023-11-28 Samsung Electronics Co., Ltd. Methods and systems for generating core dump in a user equipment

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521099A (zh) * 2011-11-24 2012-06-27 深圳市同洲视讯传媒有限公司 一种进程监控方法及进程监控***
US8756461B1 (en) * 2011-07-22 2014-06-17 Juniper Networks, Inc. Dynamic tracing of thread execution within an operating system kernel
CN106294071A (zh) * 2016-08-11 2017-01-04 宁波舜宇光电信息有限公司 一种软件崩溃信息收集方法及其***
CN106445787A (zh) * 2016-09-30 2017-02-22 北京金山安全软件有限公司 一种监控服务器核心转储文件的方法、装置及电子设备
CN106560796A (zh) * 2015-12-31 2017-04-12 哈尔滨安天科技股份有限公司 内网终端应用程序内存堆栈异常预警方法及***
US20170147422A1 (en) * 2015-11-23 2017-05-25 Alcatel-Lucent Canada, Inc. External software fault detection system for distributed multi-cpu architecture

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756461B1 (en) * 2011-07-22 2014-06-17 Juniper Networks, Inc. Dynamic tracing of thread execution within an operating system kernel
CN102521099A (zh) * 2011-11-24 2012-06-27 深圳市同洲视讯传媒有限公司 一种进程监控方法及进程监控***
US20170147422A1 (en) * 2015-11-23 2017-05-25 Alcatel-Lucent Canada, Inc. External software fault detection system for distributed multi-cpu architecture
CN106560796A (zh) * 2015-12-31 2017-04-12 哈尔滨安天科技股份有限公司 内网终端应用程序内存堆栈异常预警方法及***
CN106294071A (zh) * 2016-08-11 2017-01-04 宁波舜宇光电信息有限公司 一种软件崩溃信息收集方法及其***
CN106445787A (zh) * 2016-09-30 2017-02-22 北京金山安全软件有限公司 一种监控服务器核心转储文件的方法、装置及电子设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656743A (zh) * 2018-12-28 2019-04-19 杭州迪普科技股份有限公司 一种core文件管理方法及装置、设备、介质
CN109656743B (zh) * 2018-12-28 2022-04-26 杭州迪普科技股份有限公司 一种core文件管理方法及装置、设备、介质
CN110262918A (zh) * 2019-06-19 2019-09-20 深圳市网心科技有限公司 进程崩溃分析方法及装置、分布式设备及存储介质
CN110262918B (zh) * 2019-06-19 2023-07-18 深圳市网心科技有限公司 进程崩溃分析方法及装置、分布式设备及存储介质
CN111324423A (zh) * 2020-03-03 2020-06-23 腾讯科技(深圳)有限公司 容器内进程的监控方法、装置、存储介质和计算机设备
CN111324423B (zh) * 2020-03-03 2022-03-04 腾讯科技(深圳)有限公司 容器内进程的监控方法、装置、存储介质和计算机设备
CN111563000A (zh) * 2020-04-28 2020-08-21 深圳震有科技股份有限公司 一种文件生成方法、智能终端及存储介质
CN111563000B (zh) * 2020-04-28 2023-08-18 深圳市震有软件科技有限公司 一种文件生成方法、智能终端及存储介质
CN113535249A (zh) * 2021-08-02 2021-10-22 京东数科海益信息科技有限公司 数据处理方法、装置、设备、存储介质及程序产品
CN113791925A (zh) * 2021-08-24 2021-12-14 杭州迪普科技股份有限公司 内存映象文件的存储方法及装置
CN113791925B (zh) * 2021-08-24 2023-06-27 杭州迪普科技股份有限公司 内存映象文件的存储方法及装置

Also Published As

Publication number Publication date
CN107357731B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN107357731A (zh) 进程产生core dump问题的监控、分析和处理方法
CN109039740B (zh) 一种处理运维监控告警的方法及设备
CN109240886B (zh) 异常处理方法、装置、计算机设备以及存储介质
WO2018196559A1 (zh) 应用程序异常处理方法、装置及存储介质
US20160274997A1 (en) End user monitoring to automate issue tracking
US7913233B2 (en) Performance analyzer
US20150006961A1 (en) Capturing trace information using annotated trace output
US10474565B2 (en) Root cause analysis of non-deterministic tests
CN108038039B (zh) 记录日志的方法及微服务***
US10528456B2 (en) Determining idle testing periods
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN111930472B (zh) 一种代码调试方法、装置、电子设备及存储介质
CN112650688B (zh) 自动化回归测试方法、关联设备以及计算机程序产品
CN107168844B (zh) 一种性能监控的方法及装置
CN108446224B (zh) 移动端上应用程序的性能分析方法、存储介质
CN111859399A (zh) 一种基于oval的漏洞检测方法及装置
US10915510B2 (en) Method and apparatus of collecting and reporting database application incompatibilities
EP3514680B1 (en) Identification of changes in functional behavior and runtime behavior of a system during maintenance cycles
US11263072B2 (en) Recovery of application from error
CN113609230A (zh) 数据同步异常告警方法、装置、计算机设备和存储介质
CN113377719B (zh) 一种***异常关机时间获取方法及***
CN112650613B (zh) 一种错误信息处理方法、装置、电子设备及存储介质
CN115098378A (zh) 基于异常断点分类聚合日志片段的方法、装置
JP2008015596A (ja) 管理サーバ及び修復プログラム送信方法
KR102256894B1 (ko) 크래시 리포트 그룹핑 방법, 서버 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 350000 21 / F, building 5, f District, Fuzhou Software Park, 89 software Avenue, Gulou District, Fuzhou City, Fujian Province

Applicant after: FUJIAN SINOREGAL SOFTWARE Co.,Ltd.

Address before: 350000, No. 5, building F, zone 20-21, Fuzhou Software Park, 89 software Avenue, Gulou District, Fujian, Fuzhou

Applicant before: FUJIAN SINOREGAL SOFTWARE Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant