CN105320585A - 一种实现应用故障诊断的方法及装置 - Google Patents

一种实现应用故障诊断的方法及装置 Download PDF

Info

Publication number
CN105320585A
CN105320585A CN201410324069.XA CN201410324069A CN105320585A CN 105320585 A CN105320585 A CN 105320585A CN 201410324069 A CN201410324069 A CN 201410324069A CN 105320585 A CN105320585 A CN 105320585A
Authority
CN
China
Prior art keywords
data
application
service
diagnosis
relevant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410324069.XA
Other languages
English (en)
Other versions
CN105320585B (zh
Inventor
谌颐
胡盛华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Venus Information Security Technology Co Ltd
Venus Info Tech Inc
Beijing Venus Information Technology Co Ltd
Original Assignee
Beijing Venus Information Security Technology Co Ltd
Beijing Venus Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Venus Information Security Technology Co Ltd, Beijing Venus Information Technology Co Ltd filed Critical Beijing Venus Information Security Technology Co Ltd
Priority to CN201410324069.XA priority Critical patent/CN105320585B/zh
Publication of CN105320585A publication Critical patent/CN105320585A/zh
Application granted granted Critical
Publication of CN105320585B publication Critical patent/CN105320585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种实现应用故障诊断的方法及装置,包括:采集多维应用数据;当业务应用发生异常时,对采集到的多维应用数据从业务异常的时间和空间关联关系中、根据业务异常类型获取业务异常涉及到的关联诊断数据;将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型。本发明通过多维应用数据对业务应用异常进行故障诊断,避免了采用单一的数据对故障进行诊断造成的终端单一的问题,更全面地对业务故障进行确定,解决业务异常问题。

Description

一种实现应用故障诊断的方法及装置
技术领域
本发明涉及计算机应用领域,尤指一种实现应用故障诊断的方法及装置。
背景技术
随着IT技术应用的不断发展,企业的各种业务进行过程已经越来越紧密地与互联网技术结合在一起,由服务器、数据库、中间件等组成的应用信息***也变得越来越复杂。即使对技术人员的水平要求逐步提高,却依旧存在进行故障排除越来越困难的问题。业务应用的运行质量(完成业务的能力、速度和稳定性)直接关系企业可以提供给用户的业务水平。对关键业务应用的性能进行监控管理,及时有效的针对性能监管中存在的问题进行分析和诊断,是提高用户业务应用可用性的迫切要求。
目前,对业务应用的性能进行监控管理主要包含以下几个方面:1、对应用的访问情况进行监控;2、当业务应用发生性能异常时,判断是否由于网络***性能出现异常造成;3、当业务应用发生访问异常时,判断是否由于网络或应用遭受到攻击造成。通过对业务应用故障的诊断,可以有效的帮助技术人员进行业务应用的即时恢复。
现有的业务应用的故障诊断主要从流量数据或监控数据(例如,应用日志)等单一的数据进行故障分析;由于进行故障诊断分析的数据单一,容易导致获得的故障诊断结果存在片面或不足,这就需要借助更多人工参与来完成故障诊断。
发明内容
为了解决上述技术问题,本发明提供一种实现应用故障诊断的方法及装置,能够根据多维的数据,对业务故障进行全面诊断,减少人为参与。
为了达到上述发明目的,本发明公开了一种实现应用故障诊断的方法,包括:
采集多维应用数据;
当业务应用发生异常时,对采集到的多维应用数据从业务异常的时间和空间关联关系中、根据业务异常类型获取业务异常涉及到的关联诊断数据;
将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型。
进一步地,多维应用数据包括:根据业务应用服务器IP提取的监控数据、业务应用服务器IP和目的地址提取的流量数据、和业务应用服务器IP和目的地址提取的应用性能数据。
进一步地,监控数据至少包括:IP地址、和/或监控时间、和/或CPU利用率、和/或磁盘利用率、和/或磁盘输入输出io、和/或内存相关信息、和/或交换空间相关信息、和/或网络接口相关信息、和/或数据库响应时间、和/或从磁盘调入内存的交换内存使用si、和/或从内存调入磁盘的交换内存使用so、和/或从内存写入磁盘的大小bo、和/或从磁盘写入内存的大小bi、和/或服务状态。
进一步地,流量数据为由相同五元组所唯一标识的一个会话,至少包括:采集时间、和/或源/目的地址、和/或源/目的端口、和/或协议、和/或发送TCP/IP建立连接时使用的握手信号SYN包数、和/或发送TCP报头的码位字段FIN包数、和/或TCP相关信息、和/或发送RST次数、和/或单位时间内访问指定服务的总流量异常。
进一步地,应用性能数据至少包括:源/目的地址、和/或目的端口、和/或请求时间、和/或服务器响应时间、和/或载入时间、和/或页面相关信息、和/或Http相关信息、和/或tomcat全局访问速度异常、和/或单位时间内数据库访问量异常、和/或Weblogic当前会话数异常;
所述应用性能数据采集于HTTP协议的性能数据、和/或ORACLE数据库服务的性能数据、和/或MYSQL数据库服务器的性能数据。
进一步地,将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型具体包括:
将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据通过周期性基线或移动窗口基线进行比较,根据预先设定的各关联诊断数据的阈值范围,确定应用故障类型。
进一步地,所述历史诊断数据为:第一预设时长内的监控数据;第二预设时长内的流量数据、及实时的应用性能数据。
进一步地,当故障诊断未分析出结果时,该方法还包括:将涉及异常的多维数据进行存储,在历史数据更新后再进一步确定应用故障类型。
进一步地,该方法还包括:根据确定应用故障类型,从历史诊断数据中提供故障恢复建议。
另一方面,本申请还提供一种实现应用故障诊断的装置,包括:采集单元、获取单元和故障诊断单元;其中,
采集单元,用于采集多维应用数据;
获取单元,用于当业务应用发生异常时,对采集到的多维应用数据从业务异常的时间和空间关联关系中、根据业务异常类型获取业务异常涉及到的关联诊断数据;
故障诊断单元,用于将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型。
进一步地,多维应用数据包括:根据业务应用服务器IP提取的监控数据、业务应用服务器IP和目的地址提取的流量数据、和业务应用服务器IP和目的地址提取的应用性能数据。
进一步地,监控数据至少包括:IP地址、和/或监控时间、和/或CPU利用率、和/或磁盘利用率、和/或磁盘输入输出io、和/或内存相关信息、和/或交换空间相关信息、和/或网络接口相关信息、和/或数据库响应时间、和/或从磁盘调入内存的交换内存使用si、和/或从内存调入磁盘的交换内存使用so、和/或从内存写入磁盘的大小bo、和/或从磁盘写入内存的大小bi、和/或服务状态。
进一步地,流量数据为由相同五元组所唯一标识的一个会话,至少包括:采集时间、和/或源/目的地址、和/或源/目的端口、和/或协议、和/或发送TCP/IP建立连接时使用的握手信号SYN包数、和/或发送TCP报头的码位字段FIN包数、和/或TCP相关信息、和/或发送RST次数、和/或单位时间内访问指定服务的总流量异常。
进一步地,应用性能数据至少包括:源/目的地址、和/或目的端口、和/或请求时间、和/或服务器响应时间、和/或载入时间、和/或页面相关信息、和/或Http相关信息、和/或tomcat全局访问速度异常、和/或单位时间内数据库访问量异常、和/或Weblogic当前会话数异常;
所述应用性能数据采集于HTTP协议的性能数据、和/或ORACLE数据库服务的性能数据、和/或MYSQL数据库服务器的性能数据。
进一步地,故障诊断单元具体用于,将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据通过周期性基线或移动窗口基线进行比较,根据预先设定的各关联诊断数据的阈值范围,确定应用故障类型。
进一步地,历史诊断数据为:第一预设时长内的监控数据;第二预设时长内的流量数据、及实时的应用性能数据。
进一步地,该装置还包括后续诊断单元,用于当故障诊断未分析出结果时将涉及异常的多维数据进行存储,在历史数据更新后再进一步确定应用故障类型。
进一步地,该装置还包括恢复建议单元,用于根据确定应用故障类型,从历史诊断数据中提供故障恢复建议。
本申请技术方案包括:采集多维应用数据;当业务应用发生异常时,对采集到的多维应用数据从业务异常的时间和空间关联关系中、根据业务异常类型获取业务异常涉及到的关联诊断数据;将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型,并分析故障原因。本发明通过多维应用数据对业务应用异常进行故障诊断,避免了采用单一的数据对故障进行诊断造成的终端单一的问题,更全面地对业务故障进行确定,解决业务异常问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实现应用故障诊断的方法的流程图;
图2为本发明实现应用故障诊断的装置的结构框图。
具体实施方式
图1为一种实现应用故障诊断的方法的流程图,如图1所示,包括:
步骤100、采集多维应用数据;
本步骤中,采集的多维应用数据包括:根据业务应用服务器IP提取的监控数据、业务应用服务器IP和目的地址提取的流量数据、和业务应用服务器IP和目的地址提取的应用性能数据。
进一步地,监控数据至少包括:IP地址、和/或监控时间、和/或CPU利用率、和/或磁盘利用率、和/或磁盘输入输出(io)、和/或内存相关信息、和/或交换空间相关信息、和/或网络接口相关信息、和/或数据库响应时间、和/或从磁盘调入内存的交换内存使用(si)、和/或从内存调入磁盘的交换内存使用(so)、和/或从内存写入磁盘的大小(bo)、和/或从磁盘写入内存的大小(bi)、和/或服务状态。
流量数据为由相同五元组所唯一标识的一个会话,至少包括:流量数据为由相同五元组所唯一标识的一个会话,至少包括:采集时间、和/或源/目的地址、和/或源/目的端口、和/或协议、和/或发送SYN(TCP/IP建立连接时使用的握手信号)包数、和/或发送FIN(TCP报头的码位字段)包数、和/或TCP相关信息、和/或发送RST次数、和/或单位时间内访问指定服务的总流量异常。这里,TCP相关信息包括:TCP重传次数、TCP校验和错误次数、TCP连接异常关闭次数等。
应用性能数据至少包括:源/目的地址、和/或目的端口、和/或请求时间、和/或服务器响应时间、和/或载入时间、和/或页面相关信息、和/或Http相关信息、和/或tomcat全局访问速度异常、和/或单位时间内数据库访问量异常、和/或Weblogic当前会话数异常;
这里,tomcat是现有的一种WEB应用服务器,Weblogic是JAVA编程应用中的WEB中间件。
应用性能数据采集于HTTP协议的性能数据、和/或ORACLE数据库服务的性能数据、和/或MYSQL数据库服务器的性能数据。
这里,页面相关信息包括:页面下载时间、页面变慢比例等
Http相关信息包括:Http访问速率、Http错误率、单位时间内http访问数量异常等。
步骤101、当业务应用发生异常时,对采集到的多维应用数据从业务异常的时间和空间关联关系中、根据业务异常类型获取业务异常涉及到的关联诊断数据。
需要说明的是,业务异常的时间和空间关联关系,是指通过业务异常发生的时间,按照异常发生的时间,对多维数据中可以确定的时间信息中得到关联诊断数据,从涉及到的协议层的信息中,获取相关的关联诊断数据。
由于业务应用异常情况复杂,本领域技术人员应当了解无法进行全面例举;为了清楚地对本发明进行说明,这里对集中常见的业务应用异常进行举例,并简要给出部分涉及到的关联诊断数据。
需要说明的是,业务异常类型为本领域技术人员根据经验分析得出的业务异常种类的总结,以下为常见的业务异常类型的种类及涉及到的关联诊断数据:
1、业务应用服务可用性异常,包括:主机、数据库、中间件、服务访问等可用性的异常诊断,主要涉及到的关联诊断数据包括:服务状态(启动/停止)、CPU利用率、磁盘利用率、内存利用相关参数等,该部分异常情况主要来自监控数据。
2、业务应用服务器响应异常,主要涉及到的关联诊断数据包括:应用请求时间、应用页面下载时间、页面变慢比例、Http访问速率、Http错误率(s)、服务器响应时间、数据库响应时间、从磁盘调入内存的交换内存使用(si)、从内存调入磁盘交换内存使用(so)、空闲内存、从内存写入磁盘的大小(bo)、从磁盘写入内存的大小(bi)、cpu利用率等,这些指标数据中前6个为应用性能数据,后6个为监控数据。
3、业务应用服务访问异常,主要涉及到的关联诊断数据包括:单位时间内访问指定服务的总流量异常,单位时间内http访问数量异常,tomcat全局访问速度异常,单位时间内数据库访问量异常,Weblogic当前会话数异常等,这些诊断指标中,第一个指标数据来自流量采集器,其他指标数据来自应用采集器。
4、业务应用流量异常,主要涉及到的关联诊断数据包括:协议比例异常事件(Tcp/Udp/Icmp/Igmp)比例异常,流量超常(bps,pps,session),这些指标数据主要来自流量采集器。
5、业务应用的服务性能异常,主要涉及到的关联诊断数据包括:服务性能监控异常。
6、业务应用的服务状态异常,主要涉及到的关联诊断数据包括:服务状态(启动/停止),服务状态监控异常。
7、业务应用由于网络攻击造成的异常,主要涉及到的关联诊断数据包括:单位时间内的发送SYN包数异常,平均包长异常,线路出现蠕虫事件告警:CodeRed,硬盘杀手,SqlSlammer,冲击波,冲击波杀手,震荡波,邮件蠕虫,WinNuke攻击,UdpFragmentFlood。指标数据主要来自流量采集器。
8、业务应用线路异常,主要涉及到的关联诊断数据包括:二层数据流量异常,TCP数据包重传率、TCP检验和错误率,TCP连接异常关闭次数等。指标数据来自流量采集器和应用采集器。
步骤102、将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型。
具体的,将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据通过周期性基线或移动窗口基线进行比较,根据预先设定的各关联诊断数据的阈值范围,确定应用故障类型。
本步骤中,历史诊断数据为:第一预设时长内的监控数据;第二预设时长内的流量数据、及实时的应用性能数据。
这里,对于监控数据,由于采用的主要是包括日志在内的与日志性质相同的数据,所以第一预设时长,一般是指产生的若干个周期的监控数据,监控数据的周期根据实际故障异常情况设计的监控数据类型有关,一般以分钟作为最小单元进行获取;
流量数据是指通过短期的流量参数进行比较,以确定异常,因此,第二预设时长一般是指20S左右的时长。
当然,根据实际情况,第一预设时长和第二预设时长是可以根据实际应用情况和需求进行调整的。
当故障诊断未分析出结果时,本发明方法还包括:将涉及异常的多维数据进行存储,在历史数据更新后再进一步确定应用故障类型。
本发明方法还包括:根据确定应用故障类型和原因,从历史诊断数据中提供故障恢复建议。
图2为本发明实现应用故障诊断的装置的结构框图,如图2所示,包括:
采集单元、获取单元和故障诊断单元;其中,
采集单元,用于采集多维应用数据;
这里,多维应用数据包括:根据业务应用服务器IP提取的监控数据、业务应用服务器IP和目的地址提取的流量数据、和业务应用服务器IP和目的地址提取的应用性能数据。
监控数据至少包括:IP地址、和/或监控时间、和/或CPU利用率、和/或磁盘利用率、和/或磁盘输入输出io、和/或内存相关信息、和/或交换空间相关信息、和/或网络接口相关信息、和/或数据库响应时间、和/或从磁盘调入内存的交换内存使用si、和/或从内存调入磁盘的交换内存使用so、和/或从内存写入磁盘的大小bo、和/或从磁盘写入内存的大小bi、和/或服务状态。
流量数据为由相同五元组所唯一标识的一个会话,至少包括:采集时间、和/或源/目的地址、和/或源/目的端口、和/或协议、和/或发送TCP/IP建立连接时使用的握手信号SYN包数、和/或发送TCP报头的码位字段FIN包数、和/或TCP相关信息、和/或发送RST次数、和/或单位时间内访问指定服务的总流量异常。
应用性能数据至少包括:源/目的地址、和/或目的端口、和/或请求时间、和/或服务器响应时间、和/或载入时间、和/或页面(URL)相关信息、和/或Http相关信息、和/或tomcat全局访问速度异常、和/或单位时间内数据库访问量异常、和/或Weblogic当前会话数异常;
应用性能数据采集于HTTP协议的性能数据、和/或ORACLE数据库服务的性能数据、和/或MYSQL数据库服务器的性能数据。
获取单元,用于当业务应用发生异常时,对采集到的多维应用数据从业务异常的时间和空间关联关系中、根据业务异常类型获取业务异常涉及到的关联诊断数据;
故障诊断单元,用于将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型。
故障诊断单元具体用于,将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据通过周期性基线或移动窗口基线进行比较,根据预先设定的各关联诊断数据的阈值范围,确定应用故障类型。
历史诊断数据为:第一预设时长内的监控数据;第二预设时长内的流量数据、及实时的应用性能数据。
本发明装置还包括后续诊断单元,用于当故障诊断未分析出结果时将涉及异常的多维数据进行存储,在历史数据更新后再进一步确定应用故障类型。
本发明装置还包括恢复建议单元,用于根据确定应用故障类型,从历史诊断数据中提供故障恢复建议。
下面通过具体实施例,以对本发明进行清楚详细的说明,实施例只用于清楚的说明本发明的内容,并不用于显示本发明所保护范围。
实施例1
某业务应用***长期在线稳定运行,在一段时期逐渐发现某业务数据模块数据操作展示偶发性变慢,并逐步扩大到其他模块也开始出现变慢的情况(但是变慢的程度相对较小)的业务异常,异常的故障原因不明。
以下为传统的应用故障诊断的方法,主要通过应用日志,对***应用故障进行逐步诊断:
首先、通过查看应用日志,检查应用中交换机和路由器状态和配置,并查看设备丢包率,错包率等数据,发现网络设备表现正常;同时检查发现其他应用未出现明显缓慢情况,排除网络出现问题的可能。
由于采用上述单一的应用日志,无法诊断应用故障类型,因此现有方法需要采用以下人工参与的方式进行故障诊断:
通过使用命令行查看应用所在主机的***cpu,内存、***缓存、磁盘io情况,发现以上参数表现正常。由于未检查出异常,
进一步的,运维人员使用命令行检查问题应用数据库所在主机的***cpu、内存、***缓存、磁盘io情况,经多次查看并比较发现***缓慢期间磁盘io频繁,明显高于***正常的时刻,此问题列为可疑项。
运维人员检查应用与数据库设备间通讯,通过包分析工具持续抓取数据包并分析,发现***发生缓慢的前20-40分钟左右,通讯数据量有所提高,此项列为故障异常的可疑项。
运维人员检查出以上两个可疑项,怀疑***变慢与应用有关,通知应用研发人员到场研究。
为确定故障异常问题,进行应用操作日志走读和代码走读,并持续监测应用主机,数据库主机,数据库运行参数。在代码走读中发现可能存在运行长时间间隔报表数据时读取原始数据的问题,以解决应用故障问题。
以上过程采用单一数据无法进行有效的故障诊断,在故障诊断过程中通过大量的认为参与才实现了故障诊断。
使用本发明的应用故障诊断***,在***变慢后的前5分钟的诊断关联数据进行分析;这里,假设根据本领域技术人员的工作经验,监控数据的采集周期为1分钟,则获取连续5个周期的监控数据进行分析,一般的,在设定该周期的同时,还可以通过该周期设定***故障异常的告警周期。
以响应缓慢故障发生的时间和业务***IP分别作为时间和空间关联,提取监控数据,包括内存相关等如下指标:
其中,监控数据包括:内存相关信息中的虚拟内存使用率大于70%,虚拟内存使用率的历史关联数据为小于10%。
从磁盘调入内存的交换内存使用的工作数值大于800,磁盘调入内存的交换内存使用的历史关联数据为0-120左右。
从内存调入磁盘的交换内存使用的工作数值大于900,从内存调入磁盘的交换内存使用的历史关联数据为0-100左右。
空闲的物理内存为80-140M左右,而历史关联数据为400-500M。
从内存写入磁盘的大小经常大于600,而历史关联数据为20-100。
从磁盘写入内存的大小经常超过600,而历史关联数据为40-70。
在***变慢阶段,单位时间内数据库访问量明显上升。而Http相关信息中的访问速率则无明显变化。
***开始变慢时,Http相关信息中显著变慢的url是与某业务相关(经过查询***URL列表,即可知道该URL为报表操作页面)的操作页面,这些页面的服务器响应时响应时间由历史关联数据的50-200ms逐渐变化到随后的3500ms以上;
本实施例以上各历史关联数据都是周期性窗口基线的数值。
移动窗口基线是最近一段较短时间的响应时间平均值,周期性基线是指上一个单位时间周期(工作日、一周、一月)的同一时刻的数据响应值;
从以上数据确定***变慢后,从应用性能数据中获取其他业务的页面的响应时间,其页面响应时间变化到1500ms左右。
确定应用故障原因包括:
1、对大量磁盘数据频繁操作。
2、磁盘缓存偏小或碎片过多。
3、物理内存过小,导致物理内存占用过高,影响数据读取。
4、业务***关联的URL页面偶发异常,运维人员不合理使用导致的异常。(***进行过URL的梳理,可以从应用的URL访问对应到应用的操作,如报表操作)
故障诊断建议:
1、减少磁盘数据的操作频率。
2、扩大磁盘缓存或进行碎片整理。
3、增加物理内存过小,降低物理内存占用率。
4、确定操作干扰是否与具体类型操作相关,对造成干扰的事项进行调整。
由上述诊断结果可知,如果按照现有方法进行故障诊断,通过监控数据只能对内存、磁盘的异常进行诊断;如果采用性能数据,只能对URL及关联页面的偶发异常进行诊断,采用现有的方法,诊断结果片面,影响业务应用从异常中及时恢复。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (18)

1.一种实现应用故障诊断的方法,其特征在于,包括:
采集多维应用数据;
当业务应用发生异常时,对采集到的多维应用数据从业务异常的时间和空间关联关系中、根据业务异常类型获取业务异常涉及到的关联诊断数据;
将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型。
2.根据权利要求1所述的方法,其特征在于,所述多维应用数据包括:根据业务应用服务器IP提取的监控数据、业务应用服务器IP和目的地址提取的流量数据、和业务应用服务器IP和目的地址提取的应用性能数据。
3.根据权利要求2所述的方法,其特征在于,所述监控数据至少包括:IP地址、和/或监控时间、和/或CPU利用率、和/或磁盘利用率、和/或磁盘输入输出io、和/或内存相关信息、和/或交换空间相关信息、和/或网络接口相关信息、和/或数据库响应时间、和/或从磁盘调入内存的交换内存使用si、和/或从内存调入磁盘的交换内存使用so、和/或从内存写入磁盘的大小bo、和/或从磁盘写入内存的大小bi、和/或服务状态。
4.根据权利要求2所述的方法,其特征在于,所述流量数据为由相同五元组所唯一标识的一个会话,至少包括:采集时间、和/或源/目的地址、和/或源/目的端口、和/或协议、和/或发送TCP/IP建立连接时使用的握手信号SYN包数、和/或发送TCP报头的码位字段FIN包数、和/或TCP相关信息、和/或发送RST次数、和/或单位时间内访问指定服务的总流量异常。
5.根据权利要求2所述的方法,其特征在于,所述应用性能数据至少包括:源/目的地址、和/或目的端口、和/或请求时间、和/或服务器响应时间、和/或载入时间、和/或页面相关信息、和/或Http相关信息、和/或tomcat全局访问速度异常、和/或单位时间内数据库访问量异常、和/或Weblogic当前会话数异常;
所述应用性能数据采集于HTTP协议的性能数据、和/或ORACLE数据库服务的性能数据、和/或MYSQL数据库服务器的性能数据。
6.根据权利要求1所述的方法,其特征在于,所述将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型具体包括:
将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据通过周期性基线或移动窗口基线进行比较,根据预先设定的各关联诊断数据的阈值范围,确定应用故障类型。
7.根据权利要求1~6所述的方法,其特征在于,所述历史诊断数据为:第一预设时长内的监控数据;第二预设时长内的流量数据、及实时的应用性能数据。
8.根据权利要求1所述的方法,其特征在于,当故障诊断未分析出结果时,该方法还包括:将涉及异常的多维数据进行存储,在历史数据更新后再进一步确定应用故障类型。
9.根据权利要求1~8所述的方法,其特征在于,该方法还包括:根据确定应用故障类型,从历史诊断数据中提供故障恢复建议。
10.一种实现应用故障诊断的装置,其特征在于,包括:采集单元、获取单元和故障诊断单元;其中,
采集单元,用于采集多维应用数据;
获取单元,用于当业务应用发生异常时,对采集到的多维应用数据从业务异常的时间和空间关联关系中、根据业务异常类型获取业务异常涉及到的关联诊断数据;
故障诊断单元,用于将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据进行比较,确定应用故障类型。
11.根据权利要求10所述的装置,其特征在于,所述多维应用数据包括:根据业务应用服务器IP提取的监控数据、业务应用服务器IP和目的地址提取的流量数据、和业务应用服务器IP和目的地址提取的应用性能数据。
12.根据权利要求10所述的装置,其特征在于,所述监控数据至少包括:IP地址、和/或监控时间、和/或CPU利用率、和/或磁盘利用率、和/或磁盘输入输出io、和/或内存相关信息、和/或交换空间相关信息、和/或网络接口相关信息、和/或数据库响应时间、和/或从磁盘调入内存的交换内存使用si、和/或从内存调入磁盘的交换内存使用so、和/或从内存写入磁盘的大小bo、和/或从磁盘写入内存的大小bi、和/或服务状态。
13.根据权利要求10所述的装置,其特征在于,所述流量数据为由相同五元组所唯一标识的一个会话,至少包括:采集时间、和/或源/目的地址、和/或源/目的端口、和/或协议、和/或发送TCP/IP建立连接时使用的握手信号SYN包数、和/或发送TCP报头的码位字段FIN包数、和/或TCP相关信息、和/或发送RST次数、和/或单位时间内访问指定服务的总流量异常。
14.根据权利要求10所述的装置,其特征在于,所述应用性能数据至少包括:源/目的地址、和/或目的端口、和/或请求时间、和/或服务器响应时间、和/或载入时间、和/或页面相关信息、和/或Http相关信息、和/或tomcat全局访问速度异常、和/或单位时间内数据库访问量异常、和/或Weblogic当前会话数异常;
所述应用性能数据采集于HTTP协议的性能数据、和/或ORACLE数据库服务的性能数据、和/或MYSQL数据库服务器的性能数据。
15.根据权利要求10所述的装置,其特征在于,故障诊断单元具体用于,将获取的业务异常涉及到的关联诊断数据,分别与各关联诊断数据的历史诊断数据通过周期性基线或移动窗口基线进行比较,根据预先设定的各关联诊断数据的阈值范围,确定应用故障类型。
16.根据权利要求10~15所述的装置,其特征在于,所述历史诊断数据为:第一预设时长内的监控数据;第二预设时长内的流量数据、及实时的应用性能数据。
17.根据权利要求10所述的装置,其特征在于,该装置还包括后续诊断单元,用于当故障诊断未分析出结果时将涉及异常的多维数据进行存储,在历史数据更新后再进一步确定应用故障类型。
18.根据权利要求10~17所述的装置,其特征在于,该装置还包括恢复建议单元,用于根据确定应用故障类型,从历史诊断数据中提供故障恢复建议。
CN201410324069.XA 2014-07-08 2014-07-08 一种实现应用故障诊断的方法及装置 Active CN105320585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410324069.XA CN105320585B (zh) 2014-07-08 2014-07-08 一种实现应用故障诊断的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410324069.XA CN105320585B (zh) 2014-07-08 2014-07-08 一种实现应用故障诊断的方法及装置

Publications (2)

Publication Number Publication Date
CN105320585A true CN105320585A (zh) 2016-02-10
CN105320585B CN105320585B (zh) 2019-04-02

Family

ID=55248005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410324069.XA Active CN105320585B (zh) 2014-07-08 2014-07-08 一种实现应用故障诊断的方法及装置

Country Status (1)

Country Link
CN (1) CN105320585B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105871638A (zh) * 2016-06-03 2016-08-17 北京启明星辰信息安全技术有限公司 一种网络安全控制方法及装置
CN106130786A (zh) * 2016-07-26 2016-11-16 腾讯科技(深圳)有限公司 一种网络故障的检测方法及装置
CN106452941A (zh) * 2016-08-24 2017-02-22 重庆大学 网络异常的检测方法及装置
CN106484555A (zh) * 2016-09-29 2017-03-08 广东欧珀移动通信有限公司 异常检测与恢复的方法及移动终端
CN107342891A (zh) * 2017-06-07 2017-11-10 厦门金龙旅行车有限公司 一种远程采集车辆故障数据的方法
CN107995056A (zh) * 2016-10-27 2018-05-04 ***通信集团公司 防火墙隐性nat故障判断的方法及装置
CN108183821A (zh) * 2017-12-26 2018-06-19 国网山东省电力公司信息通信公司 一种面向电网业务的应用性能获取方法及装置
CN108508874A (zh) * 2018-05-08 2018-09-07 网宿科技股份有限公司 一种监控设备故障的方法和装置
CN108920326A (zh) * 2018-06-14 2018-11-30 阿里巴巴集团控股有限公司 确定***耗时异常的方法、装置及电子设备
CN108923952A (zh) * 2018-05-31 2018-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
CN109002261A (zh) * 2018-07-11 2018-12-14 佛山市云端容灾信息技术有限公司 差异区块大数据分析方法、装置、存储介质及服务器
CN109491844A (zh) * 2018-09-21 2019-03-19 国网技术学院 一种识别异常信息的计算机***
CN109787816A (zh) * 2018-12-28 2019-05-21 北京奇安信科技有限公司 业务故障定位方法、装置、设备及介质
CN109828863A (zh) * 2019-01-10 2019-05-31 网联清算有限公司 数据容灾方法、装置、存储介质及计算机设备
CN109857431A (zh) * 2019-01-11 2019-06-07 平安科技(深圳)有限公司 代码修改方法及装置、计算机可读介质及电子设备
CN110362442A (zh) * 2018-04-09 2019-10-22 阿里巴巴集团控股有限公司 一种数据监控方法、装置及设备
CN110602021A (zh) * 2018-06-12 2019-12-20 蓝盾信息安全技术有限公司 一种基于http请求行为与业务流程相结合的安全风险值评估方法
CN111193609A (zh) * 2019-11-20 2020-05-22 腾讯科技(深圳)有限公司 应用异常的反馈方法、装置及应用异常的监控***
CN111371623A (zh) * 2020-03-13 2020-07-03 杨磊 业务性能和安全的监测方法、装置、存储介质及电子设备
CN112783718A (zh) * 2020-12-31 2021-05-11 航天信息股份有限公司 一种用于***异常的管理***及方法
CN112887354A (zh) * 2019-11-29 2021-06-01 贵州白山云科技股份有限公司 一种性能信息的获取方法和装置
CN113064762A (zh) * 2021-04-09 2021-07-02 上海新炬网络信息技术股份有限公司 基于多样探测的服务自恢复方法
CN113691405A (zh) * 2021-08-25 2021-11-23 北京知道创宇信息技术股份有限公司 一种访问异常诊断方法、装置、存储介质及电子设备
CN113722142A (zh) * 2021-09-02 2021-11-30 北京天融信网络安全技术有限公司 内存不足的原因分析方法、装置、电子设备及存储介质
WO2022063242A1 (zh) * 2020-09-27 2022-03-31 中兴通讯股份有限公司 二层业务状态检测方法、通讯设备和存储介质
CN115225462A (zh) * 2022-07-21 2022-10-21 北京天融信网络安全技术有限公司 网络故障诊断方法及装置
CN115696444A (zh) * 2022-09-23 2023-02-03 中兴通讯股份有限公司 时延检测方法、装置、数据分析平台及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101848477A (zh) * 2009-03-24 2010-09-29 亚信科技(中国)有限公司 一种故障诊断方法及***
CN102081623A (zh) * 2009-11-30 2011-06-01 ***通信集团浙江有限公司 一种数据库异常检测方法和***
CN102340415A (zh) * 2011-06-23 2012-02-01 北京新媒传信科技有限公司 一种服务器集群***的监控方法和一种服务器集群***
CN102761448A (zh) * 2012-08-07 2012-10-31 中国石油大学(华东) 机群监控与预警方法
WO2013086996A1 (zh) * 2011-12-13 2013-06-20 华为技术有限公司 故障处理方法、设备和***
CN103412805A (zh) * 2013-07-31 2013-11-27 交通银行股份有限公司 一种it故障源诊断方法及***
CN103532940A (zh) * 2013-09-30 2014-01-22 广东电网公司电力调度控制中心 网络安全检测方法及装置
CN103532776A (zh) * 2013-09-30 2014-01-22 广东电网公司电力调度控制中心 业务流量检测方法及***
CN103595584A (zh) * 2013-11-13 2014-02-19 德科仕通信(上海)有限公司 Web应用性能问题的诊断方法及***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101848477A (zh) * 2009-03-24 2010-09-29 亚信科技(中国)有限公司 一种故障诊断方法及***
CN102081623A (zh) * 2009-11-30 2011-06-01 ***通信集团浙江有限公司 一种数据库异常检测方法和***
CN102340415A (zh) * 2011-06-23 2012-02-01 北京新媒传信科技有限公司 一种服务器集群***的监控方法和一种服务器集群***
WO2013086996A1 (zh) * 2011-12-13 2013-06-20 华为技术有限公司 故障处理方法、设备和***
CN102761448A (zh) * 2012-08-07 2012-10-31 中国石油大学(华东) 机群监控与预警方法
CN103412805A (zh) * 2013-07-31 2013-11-27 交通银行股份有限公司 一种it故障源诊断方法及***
CN103532940A (zh) * 2013-09-30 2014-01-22 广东电网公司电力调度控制中心 网络安全检测方法及装置
CN103532776A (zh) * 2013-09-30 2014-01-22 广东电网公司电力调度控制中心 业务流量检测方法及***
CN103595584A (zh) * 2013-11-13 2014-02-19 德科仕通信(上海)有限公司 Web应用性能问题的诊断方法及***

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105871638A (zh) * 2016-06-03 2016-08-17 北京启明星辰信息安全技术有限公司 一种网络安全控制方法及装置
CN106130786A (zh) * 2016-07-26 2016-11-16 腾讯科技(深圳)有限公司 一种网络故障的检测方法及装置
CN106130786B (zh) * 2016-07-26 2019-05-07 腾讯科技(深圳)有限公司 一种网络故障的检测方法及装置
CN106452941A (zh) * 2016-08-24 2017-02-22 重庆大学 网络异常的检测方法及装置
CN106484555A (zh) * 2016-09-29 2017-03-08 广东欧珀移动通信有限公司 异常检测与恢复的方法及移动终端
CN106484555B (zh) * 2016-09-29 2019-05-17 Oppo广东移动通信有限公司 异常检测与恢复的方法及移动终端
CN107995056B (zh) * 2016-10-27 2021-04-13 ***通信集团公司 防火墙隐性nat故障判断的方法及装置
CN107995056A (zh) * 2016-10-27 2018-05-04 ***通信集团公司 防火墙隐性nat故障判断的方法及装置
CN107342891A (zh) * 2017-06-07 2017-11-10 厦门金龙旅行车有限公司 一种远程采集车辆故障数据的方法
CN108183821B (zh) * 2017-12-26 2021-03-30 国网山东省电力公司信息通信公司 一种面向电网业务的应用性能获取方法及装置
CN108183821A (zh) * 2017-12-26 2018-06-19 国网山东省电力公司信息通信公司 一种面向电网业务的应用性能获取方法及装置
CN110362442B (zh) * 2018-04-09 2023-09-22 创新先进技术有限公司 一种数据监控方法、装置及设备
CN110362442A (zh) * 2018-04-09 2019-10-22 阿里巴巴集团控股有限公司 一种数据监控方法、装置及设备
CN108508874A (zh) * 2018-05-08 2018-09-07 网宿科技股份有限公司 一种监控设备故障的方法和装置
EP3591485A4 (en) * 2018-05-08 2020-04-29 Wangsu Science & Technology Co., Ltd. METHOD AND DEVICE FOR MONITORING EQUIPMENT FAILURE
CN108923952A (zh) * 2018-05-31 2018-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
CN108923952B (zh) * 2018-05-31 2021-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
CN110602021A (zh) * 2018-06-12 2019-12-20 蓝盾信息安全技术有限公司 一种基于http请求行为与业务流程相结合的安全风险值评估方法
CN108920326A (zh) * 2018-06-14 2018-11-30 阿里巴巴集团控股有限公司 确定***耗时异常的方法、装置及电子设备
CN109002261A (zh) * 2018-07-11 2018-12-14 佛山市云端容灾信息技术有限公司 差异区块大数据分析方法、装置、存储介质及服务器
CN109002261B (zh) * 2018-07-11 2022-03-22 佛山市云端容灾信息技术有限公司 差异区块大数据分析方法、装置、存储介质及服务器
CN109491844A (zh) * 2018-09-21 2019-03-19 国网技术学院 一种识别异常信息的计算机***
CN109491844B (zh) * 2018-09-21 2022-03-04 国网技术学院 一种识别异常信息的计算机***
CN109787816A (zh) * 2018-12-28 2019-05-21 北京奇安信科技有限公司 业务故障定位方法、装置、设备及介质
CN109828863A (zh) * 2019-01-10 2019-05-31 网联清算有限公司 数据容灾方法、装置、存储介质及计算机设备
CN109857431A (zh) * 2019-01-11 2019-06-07 平安科技(深圳)有限公司 代码修改方法及装置、计算机可读介质及电子设备
CN109857431B (zh) * 2019-01-11 2022-06-03 平安科技(深圳)有限公司 代码修改方法及装置、计算机可读介质及电子设备
CN111193609B (zh) * 2019-11-20 2021-09-28 腾讯科技(深圳)有限公司 应用异常的反馈方法、装置及应用异常的监控***
CN111193609A (zh) * 2019-11-20 2020-05-22 腾讯科技(深圳)有限公司 应用异常的反馈方法、装置及应用异常的监控***
CN112887354A (zh) * 2019-11-29 2021-06-01 贵州白山云科技股份有限公司 一种性能信息的获取方法和装置
CN111371623A (zh) * 2020-03-13 2020-07-03 杨磊 业务性能和安全的监测方法、装置、存储介质及电子设备
CN111371623B (zh) * 2020-03-13 2023-02-28 杨磊 业务性能和安全的监测方法、装置、存储介质及电子设备
WO2022063242A1 (zh) * 2020-09-27 2022-03-31 中兴通讯股份有限公司 二层业务状态检测方法、通讯设备和存储介质
CN112783718A (zh) * 2020-12-31 2021-05-11 航天信息股份有限公司 一种用于***异常的管理***及方法
CN113064762A (zh) * 2021-04-09 2021-07-02 上海新炬网络信息技术股份有限公司 基于多样探测的服务自恢复方法
CN113064762B (zh) * 2021-04-09 2024-02-23 上海新炬网络信息技术股份有限公司 基于多样探测的服务自恢复方法
CN113691405A (zh) * 2021-08-25 2021-11-23 北京知道创宇信息技术股份有限公司 一种访问异常诊断方法、装置、存储介质及电子设备
CN113691405B (zh) * 2021-08-25 2023-12-01 北京知道创宇信息技术股份有限公司 一种访问异常诊断方法、装置、存储介质及电子设备
CN113722142B (zh) * 2021-09-02 2023-08-25 北京天融信网络安全技术有限公司 内存不足的原因分析方法、装置、电子设备及存储介质
CN113722142A (zh) * 2021-09-02 2021-11-30 北京天融信网络安全技术有限公司 内存不足的原因分析方法、装置、电子设备及存储介质
CN115225462A (zh) * 2022-07-21 2022-10-21 北京天融信网络安全技术有限公司 网络故障诊断方法及装置
CN115225462B (zh) * 2022-07-21 2024-02-02 北京天融信网络安全技术有限公司 网络故障诊断方法及装置
CN115696444A (zh) * 2022-09-23 2023-02-03 中兴通讯股份有限公司 时延检测方法、装置、数据分析平台及可读存储介质
CN115696444B (zh) * 2022-09-23 2023-09-12 中兴通讯股份有限公司 时延检测方法、装置、数据分析平台及可读存储介质

Also Published As

Publication number Publication date
CN105320585B (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN105320585A (zh) 一种实现应用故障诊断的方法及装置
US20210042270A1 (en) Alarm log compression method, apparatus, and system, and storage medium
US11921610B2 (en) Correlation key used to correlate flow and context data
EP3304397B1 (en) Detecting anomalous accounts using event logs
CN108039957B (zh) 复杂网络流量包智能分析***
Lee et al. An internet traffic analysis method with mapreduce
US9158649B2 (en) Methods and computer program products for generating a model of network application health
US10187400B1 (en) Packet filters in security appliances with modes and intervals
US20220343168A1 (en) Multi-domain service assurance using real-time adaptive thresholds
CN103152352A (zh) 一种基于云计算环境的全信息安全取证监听方法和***
US20190007292A1 (en) Apparatus and method for monitoring network performance of virtualized resources
WO2021102077A1 (en) Centralized analytical monitoring of ip connected devices
CN107066370A (zh) 一种自动监控并收集故障硬盘日志的工具及方法
JP7079721B2 (ja) ネットワーク異常検知装置、ネットワーク異常検知システム及びネットワーク異常検知方法
CN107911387A (zh) 用电信息采集***账号异常登陆和异常操作的监控方法
US20190007285A1 (en) Apparatus and Method for Defining Baseline Network Behavior and Producing Analytics and Alerts Therefrom
CN105119767A (zh) 一种数据自检及自清理的软件运行状态监测方法及***
CN114039900A (zh) 一种高效网络数据包协议分析方法和***
US20230179572A1 (en) Automated security policy modification
CN117792872A (zh) 基于5g网络的智能电能表数据采集与分析***
US9645877B2 (en) Monitoring apparatus, monitoring method, and recording medium
CN103957128A (zh) 云计算环境下监控数据流向的方法及***
US10038603B1 (en) Packet capture collection tasking system
US11556120B2 (en) Systems and methods for monitoring performance of a building management system via log streams
CN108400905B (zh) 一种处理分布式存储端到端流量分析的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant