CN107423156A - 基于分类聚类的故障预警算法 - Google Patents

基于分类聚类的故障预警算法 Download PDF

Info

Publication number
CN107423156A
CN107423156A CN201710634209.7A CN201710634209A CN107423156A CN 107423156 A CN107423156 A CN 107423156A CN 201710634209 A CN201710634209 A CN 201710634209A CN 107423156 A CN107423156 A CN 107423156A
Authority
CN
China
Prior art keywords
data
alarming
fault
fault pre
abnormality detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710634209.7A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Thousand Slave Mdt Infotech Ltd
Original Assignee
Hefei Thousand Slave Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Thousand Slave Mdt Infotech Ltd filed Critical Hefei Thousand Slave Mdt Infotech Ltd
Priority to CN201710634209.7A priority Critical patent/CN107423156A/zh
Publication of CN107423156A publication Critical patent/CN107423156A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于分类聚类的故障预警算法,包括以下步骤:S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。本发明使用分类与聚类的方法进行挖掘,充分考虑了异常点的数据对象内部的联系,试图训练出异常数据的特征模型,引入了不均衡数据的挖掘方法,强化故障数据的特征,以达到较好的分类与聚类的效果,方法简单,效率高。

Description

基于分类聚类的故障预警算法
技术领域
本发明涉及故障预警算法技术领域,尤其涉及一种基于分类聚类的故障预警算法。
背景技术
网站故障数据是面向的网站数据,这些数据包括文本信息(用户提问与反馈信息)、网站的链接信息(场景id)、访问记录(PV,UV等);网站故障的事件数据是相对罕见的,但是这并不表示它们是绝对没有规律的,某个数据对象不同于其他数据对象(即异常),可能是因为它属于一个不同的类型或类;异常往往是源于某种我们考虑到的或者我们没有考虑到的异常源,而数据集中可能有多种异常源,他们底层的原因常常是未知的,故障预警技术对于这些异常源的原因是透明的,致力于发现显著不同于其他对象的对象。
现有的故障预警技术大多是进行异常点检测,但异常点检测不考虑异常点之间的联系,将异常点数据作为离群点或者突变点进行检测,认为密度低的、变化显著的数据对象即为异常对象,这类算法并不需要事先进行统计的数据模型的训练,挖掘的方法相对简单、粗糙,虽然效率较高但是预警效果差强人意。
发明内容
基于背景技术存在的技术问题,本发明提出了基于分类聚类的故障预警算法。
本发明提出的基于分类聚类的故障预警算法,包括以下步骤:
S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;
S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;
S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;
S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。
优选地,所述S1中,用支持向量机算法得到最优的分类效果。
优选地,所述S2中,用X-Means方法将故障数据聚为多个数据集,进行故障的分析与检测。
优选地,所述S4中,用KRNN数据清理和SMOTE抽样方法进行抽样处理,将数据集进行均衡化,显著异常数据的特征,完成故障预警。
本发明中,所述基于分类聚类的故障预警算法能够不需要事先了解用户数据的统计模型,不需要考虑异常点的建模,数据变化的敏感度高,并且能够指出是哪个属性出现了问题;故障预警覆盖率高,充分考虑了网站业务的逻辑的复杂性与故障数据的模型特征;试图对故障数据进行建模预测;适合用于对文本数据的处理,展示故障原因,提高客户体验;降低预警的误报率,提高准确度,对不均衡数据进行抽样处理,对样本特征优化,进行特征放大,可以更好的获得少数类的挖掘效果,在保证准确度的前提下,提高故障预警的覆盖率,本发明使用分类与聚类的方法进行挖掘,充分考虑了异常点的数据对象内部的联系,试图训练出异常数据的特征模型,引入了不均衡数据的挖掘方法,强化故障数据的特征,以达到较好的分类与聚类的效果,方法简单,效率高。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
实施例
本实施例提出了基于分类聚类的故障预警算法,包括以下步骤:
S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;
S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;
S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;
S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。
本实施例中,S1中,用支持向量机算法得到最优的分类效果,S2中,用X-Means方法将故障数据聚为多个数据集,进行故障的分析与检测,S4中,用KRNN数据清理和SMOTE抽样方法进行抽样处理,将数据集进行均衡化,显著异常数据的特征,完成故障预警,基于分类聚类的故障预警算法能够不需要事先了解用户数据的统计模型,不需要考虑异常点的建模,数据变化的敏感度高,并且能够指出是哪个属性出现了问题;故障预警覆盖率高,充分考虑了网站业务的逻辑的复杂性与故障数据的模型特征;试图对故障数据进行建模预测;适合用于对文本数据的处理,展示故障原因,提高客户体验;降低预警的误报率,提高准确度,对不均衡数据进行抽样处理,对样本特征优化,进行特征放大,可以更好的获得少数类的挖掘效果,在保证准确度的前提下,提高故障预警的覆盖率,本发明使用分类与聚类的方法进行挖掘,充分考虑了异常点的数据对象内部的联系,试图训练出异常数据的特征模型,引入了不均衡数据的挖掘方法,强化故障数据的特征,以达到较好的分类与聚类的效果,方法简单,效率高。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.基于分类聚类的故障预警算法,其特征在于,包括以下步骤:
S1:监督的异常检测,用分类模型将网站数据训练出有故障数据和无故障数据两类;
S2:非监督的异常检测,将故障数据聚为多个数据集,进行故障的分析与检测;
S3:半监督的异常检测,用部分的置信度高的标识样本来处理其余为标记样本的信息;
S4:不均衡数据集的处理,采用抽样方法将数据集进行均衡化,显著异常数据的特征,完成故障预警。
2.根据权利要求1所述的基于分类聚类的故障预警算法,其特征在于,所述S1中,用支持向量机算法得到最优的分类效果。
3.根据权利要求1所述的基于分类聚类的故障预警算法,其特征在于,所述S2中,用X-Means方法将故障数据聚为多个数据集,进行故障的分析与检测。
4.根据权利要求1所述的基于分类聚类的故障预警算法,其特征在于,所述S4中,用KRNN数据清理和SMOTE抽样方法进行抽样处理,将数据集进行均衡化,显著异常数据的特征,完成故障预警。
CN201710634209.7A 2017-07-29 2017-07-29 基于分类聚类的故障预警算法 Withdrawn CN107423156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710634209.7A CN107423156A (zh) 2017-07-29 2017-07-29 基于分类聚类的故障预警算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710634209.7A CN107423156A (zh) 2017-07-29 2017-07-29 基于分类聚类的故障预警算法

Publications (1)

Publication Number Publication Date
CN107423156A true CN107423156A (zh) 2017-12-01

Family

ID=60431544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710634209.7A Withdrawn CN107423156A (zh) 2017-07-29 2017-07-29 基于分类聚类的故障预警算法

Country Status (1)

Country Link
CN (1) CN107423156A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109167753A (zh) * 2018-07-23 2019-01-08 中国科学院计算机网络信息中心 一种网络入侵流量的检测方法及装置
CN110647117A (zh) * 2019-09-06 2020-01-03 青岛科技大学 一种化工过程故障识别方法及***
CN116520817A (zh) * 2023-07-05 2023-08-01 贵州宏信达高新科技有限责任公司 基于高速公路的etc***运行状态实时监控***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593470A (zh) * 2013-11-29 2014-02-19 河南大学 一种双度集成的不均衡数据流分类算法
CN104462802A (zh) * 2014-11-26 2015-03-25 浪潮电子信息产业股份有限公司 一种大规模数据中离群数据的分析方法
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
CN106203519A (zh) * 2016-07-17 2016-12-07 合肥赑歌数据科技有限公司 基于分类聚类的故障预警算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593470A (zh) * 2013-11-29 2014-02-19 河南大学 一种双度集成的不均衡数据流分类算法
CN104462802A (zh) * 2014-11-26 2015-03-25 浪潮电子信息产业股份有限公司 一种大规模数据中离群数据的分析方法
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
CN106203519A (zh) * 2016-07-17 2016-12-07 合肥赑歌数据科技有限公司 基于分类聚类的故障预警算法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109167753A (zh) * 2018-07-23 2019-01-08 中国科学院计算机网络信息中心 一种网络入侵流量的检测方法及装置
CN110647117A (zh) * 2019-09-06 2020-01-03 青岛科技大学 一种化工过程故障识别方法及***
CN116520817A (zh) * 2023-07-05 2023-08-01 贵州宏信达高新科技有限责任公司 基于高速公路的etc***运行状态实时监控***及方法
CN116520817B (zh) * 2023-07-05 2023-08-29 贵州宏信达高新科技有限责任公司 基于高速公路的etc***运行状态实时监控***及方法

Similar Documents

Publication Publication Date Title
CN106203519A (zh) 基于分类聚类的故障预警算法
CN106888205B (zh) 一种非侵入式基于功耗分析的plc异常检测方法
CN105279365B (zh) 用于学习异常检测的样本的方法
CN108809745A (zh) 一种用户异常行为检测方法、装置及***
CN103581186B (zh) 一种网络安全态势感知方法及***
CN111475804A (zh) 一种告警预测方法及***
Shirazi et al. Evaluation of anomaly detection techniques for scada communication resilience
CN107276805A (zh) 一种基于入侵检测模型的样本预测方法、装置及电子设备
CN105471882A (zh) 一种基于行为特征的网络攻击检测方法及装置
CN107222472A (zh) 一种Hadoop集群下的用户行为异常检测方法
US20130101221A1 (en) Anomaly detection in images and videos
CN107423156A (zh) 基于分类聚类的故障预警算法
KR20160095856A (ko) 새로운 공격 유형의 자동 탐지 및 공격 유형 모델 갱신을 통한 지능형 침입 탐지 시스템 및 방법
US20120054866A1 (en) System, method, and computer software code for detecting a computer network intrusion in an infrastructure element of a high value target
Chang et al. Anomaly detection for industrial control systems using k-means and convolutional autoencoder
Qiu et al. Multi-view convolutional neural network for data spoofing cyber-attack detection in distribution synchrophasors
CN107016298B (zh) 一种网页篡改监测方法及装置
CN107241358A (zh) 一种基于深度学习的智能家居入侵检测方法
CN106998326A (zh) 工业控制网络行为监测方法、装置、以及***
CN108197575A (zh) 一种基于目标检测和骨点检测的异常行为识别方法及装置
Wagh et al. Effective intrusion detection system using semi-supervised learning
CN104618175A (zh) 网络异常检测方法
CN115277113A (zh) 一种基于集成学习的电网网络入侵事件检测识别方法
CN104318435A (zh) 电子交易过程用户行为模式检测的免疫方法
Na et al. Fake data injection attack detection in AMI system using a hybrid method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171201