CN115576981A - 一种基于有监督算法与无监督算法相结合的异常检测方法 - Google Patents

一种基于有监督算法与无监督算法相结合的异常检测方法 Download PDF

Info

Publication number
CN115576981A
CN115576981A CN202211322917.4A CN202211322917A CN115576981A CN 115576981 A CN115576981 A CN 115576981A CN 202211322917 A CN202211322917 A CN 202211322917A CN 115576981 A CN115576981 A CN 115576981A
Authority
CN
China
Prior art keywords
data
algorithm
unsupervised
abnormal
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211322917.4A
Other languages
English (en)
Inventor
华绍广
季云云
李香梅
李书钦
姚俊
裴德健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinosteel Maanshan General Institute of Mining Research Co Ltd
Original Assignee
Sinosteel Maanshan General Institute of Mining Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinosteel Maanshan General Institute of Mining Research Co Ltd filed Critical Sinosteel Maanshan General Institute of Mining Research Co Ltd
Priority to CN202211322917.4A priority Critical patent/CN115576981A/zh
Publication of CN115576981A publication Critical patent/CN115576981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种基于有监督算法与无监督算法相结合的异常检测方法,属于异常检测技术领域。本发明的步骤为:S1:数据处理;S2:进行初步数据探索,查看数据类型和分布,确定特征处理、特征选择及特征构建方案;S3:多种无监督算法进行数据训练及异常判断;S4:对数据集D中每条记录在M个无监督算法中至少有一个异常标签,则判定为异常记录;S5:进过伪标签标注后,查看正负样本比例;S6:采用随机搜索的方式进行XGBoost超参数的调整;S7:用户指定异常比例c,根据评分进行排序,评分超过阈值的数据即为异常点。本发明针对尾矿库在线监测***的异常检测,提升了无监督算法的检测性能、模型效果和稳定性。

Description

一种基于有监督算法与无监督算法相结合的异常检测方法
技术领域
本发明涉及异常检测技术领域,具体为一种基于有监督算法与无监督算法相结合的异常检测方法。
背景技术
尾矿库在线监测项目包含浸润线、电导率、表面位移、干滩长度、库水位等,单指标异常检测容易受数据波动影响,会丢失指标间的关联性信息,难以表征其整体状况。
监测项目中无事故标签数据,这是一个无监督学习过程。要解决这种情况,目前比较常用的手段是,将无监督学习方法和专家经验相结合,基于无监督学习得到检测结果,并让领域专家基于检测结果给出反馈,以便于我们及时调整模型,反复进行迭代,最终得到一个越来越准确的模型。实际应用中,该方法存在以下问题:人工进行分析、筛选、定位,再打标签,效率低;不同专家在经验积累的程度上参差不齐,对相同数据的认知不同,凭借他们自身的经验所标注出的异常数据即有可靠的异常标签,也可能有嘈杂的正常标签(即虚警);同一专家,在不同时间对相同数据的认知也会不同,会进一步影响标签的可靠性。
发明内容
本发明的目的在于提供一种基于有监督算法与无监督算法相结合的异常检测方法,针对尾矿库在线监测***的异常检测,以解决现有技术难以表征整体状况,提升无监督算法的检测性能、模型效果和稳定性。
为实现上述目的,本发明提供如下技术方案:
一种基于有监督算法与无监督算法相结合的异常检测方法,包括以下步骤:
S1:从数据库中提取数据集D={X1,X2,...,Xi,...,Xd},其中Xi={xi1,xi2,...,xij,...,xin}T表示数据集里的第i个特征,xij表示第i个特征的第j个观测值;
S2:进行初步数据探索,查看数据类型和分布,确定特征处理、特征选择及特征构建方案;
S3:多种无监督算法进行数据训练及异常判断,确定可信度较高的M种算法,最终得到M个无监督算法的异常标签;
S4:对数据集D中每条记录在M个无监督算法中至少有一个异常标签,则判定为异常记录;数据中并未有真正的标签,而是通过集成的方法生成了可信度较高的标签,从而转换为了一种监督算法;
S5:进过伪标签标注后,查看正负样本比例,采用上采样SMOTE算法,使得正负样本比例趋近1:1;
S6:采用随机搜索的方式进行XGBoost超参数的调整,精度评价方式为“ROC AUC”,获得最优参数;
S7:用户指定异常比例c,根据评分进行排序,第N*c条数据对应的异常分值作为异常判定的阈值,评分超过该阈值的数据即为异常点。
更进一步地,所述S2中特征处理:为了解决数据的差异性,使用最小最大标准化规范方式对观测值进行如下处理:
Figure BDA0003911129840000021
更进一步地,所述S2中特征选择:对原始特征两列之间进行相关性计算,结果筛选出相关性系数大于0.7的特征进行删除。
更进一步地,所述S2中特征构建:对保留下来的特征,进行STL分解和卡尔曼滤波操作,每个特征进行STL分解获得趋势、季节性、随机残差;STL分解是为了滤除周期性成分;构建新特征时使用了卡尔曼滤波器,起到平滑时序数据的作用,具有一定的降噪功能。
更进一步地,根据数据探索结果,制定相应数据处理方法:删除缺失率大于80%、方差为0等数据质量不佳的特征;剩余特征数据进行归一化处理。
与现有技术相比,本发明的有益效果是:
本发明提供的一种基于有监督算法与无监督算法相结合的异常检测方法,操作简便,相比于传统的多指标时间序列异常检测方法,本发明构建的基于有监督算法和无监督算法相结合的异常检测模型不依赖于数据的分布,适用于所有尾矿库在线监测***考察多指标整体异常情况,解决了现有技术难以表征整体状况,提升了无监督算法的检测性能、模型效果和稳定性。
附图说明
图1为本发明的模型设计图;
图2为本发明的数据概览图;
图3为本发明的数据统计图;
图4为本发明的监测项目图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,本发明实施例中提供一种基于有监督算法与无监督算法相结合的异常检测方法,包括以下步骤:
S1:数据处理:从数据库中提取数据集D,数据集D为多指标数据集;包含N条数据,每条数据包含f个指标/特征;
不同尾矿库监测项目不同,以最大集构建模型特征,以此适应所有尾矿库;
删除数据质量差的数据,比如缺失率大于80%、空列、方差为0的特征;
缺失值使用线性插值进行填补,删除填补后依然为空的记录;
S2:特征工程:
特征处理:为了解决数据的差异性,本实施例使用最小最大标准化规范方式对观测值进行如下处理:
Figure BDA0003911129840000041
特征选择:对原始特征两列之间进行相关性计算,结果筛选出相关性系数大于0.7的特征进行删除;
特征构建:对保留下来的特征,进行STL分解,构建趋势、季节性和残差、滤除季节性成分等新特征;进行卡尔曼滤波操作,构建卡尔曼一阶差分,间隔1至4时刻,共4个新特征;构建原数据与卡尔曼差值、原数据一阶差分、原数据的滞后特征,比如在过去一天、一周内的最大值、最小值、均值、众数、求和、方差、标准差、百分位数等统计信息;
构建伪标签:异常检测领域最经典的算法有KNN、LOF、LoOP、LDOF、KDEOS、COF、iForest、PCA、OCSVM等,通过训练计算各无监督算法的异常标签;然后计算标签向量的相似度,选取5种差异较大的算法,任意一种算法检测出异常则判定其为异常;
S3:模型训练:如上操作获得标注数据进行有监督算法的训练,找出其中的重要特征,用于监督模型的训练;
数据划分:进过伪标签标注后,查看正负样本比例;本实施例的正负样本比例接近1:10,采用上采样SMOTE算法,使得正负样本比例趋近1:1;
超参优化:采用随机搜索的方式进行超参数的调整,精度评价方式为“ROC AUC”;
特征筛选:XGBoost算法内置的特征重要性计算方式有权重、增益和覆盖,每种计算方式获得的重要特征不完全一致,所以本实施例采用并集的方式,获得三种重要特征集的并集;
模型训练:选用XGBoost算法,获得异常概率,作为异常分值。
模型保存:使用Pickle序列化方法持久化保存每个尾矿库数据处理、特征工程、模型等Python对象,供实时数据使用。
在线检测:模型运行频率同数据采集,但执行时间晚于数据采集时间1分钟;提取实时数据,进行数据处理、特征工程、模型应用,获得异常分值。
本实施例中,时序数据来源于尾矿库在线监测***通过数据采集设备获取的时间和指标值。根据《尾矿库安全监测技术规范》(AQ2030-2010)规定,尾矿库的安全监测应根据尾矿库等级、筑坝方式、地质、地理等条件设置相应的监测项目和设施,如图4所示。数据采集设备实时获取监测项目数据,采集频率为分钟级,经过数据融合,以小时级数据粒度存入关系型数据库中。
综上所述:本发明提供的一种基于有监督算法与无监督算法相结合的异常检测方法,相比于传统的多指标时间序列异常检测方法,本发明构建的基于有监督算法和无监督算法相结合的异常检测模型不依赖于数据的分布,适用于所有尾矿库在线监测***考察多指标整体异常情况。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于有监督算法与无监督算法相结合的异常检测方法,其特征在于:包括以下步骤:
S1:从数据库中提取数据集D={X1,X2,...,Xi,...,Xd},其中Xi={xi1,xi2,...,xij,...,xin}}T表示数据集里的第i个特征,xij表示第i个特征的第j个观测值;
S2:进行初步数据探索,查看数据类型和分布,确定特征处理、特征选择及特征构建方案;
S3:多种无监督算法进行数据训练及异常判断,确定可信度较高的M种算法,最终得到M个无监督算法的异常标签;
S4:对数据集D中每条记录在M个无监督算法中至少有一个异常标签,则判定为异常记录;数据中并未有真正的标签,而是通过集成的方法生成了可信度较高的标签,从而转换为了一种监督算法;
S5:进过伪标签标注后,查看正负样本比例,采用上采样SMOTE算法,使得正负样本比例趋近1:1;
S6:采用随机搜索的方式进行XGBoost超参数的调整,精度评价方式为“ROC AUC”,获得最优参数;
S7:用户指定异常比例c,根据评分进行排序,第N*c条数据对应的异常分值作为异常判定的阈值,评分超过该阈值的数据即为异常点。
2.如权利要求1所述的一种基于有监督算法与无监督算法相结合的异常检测方法,其特征在于:所述S2中特征处理:为了解决数据的差异性,使用最小最大标准化规范方式对观测值进行如下处理:
Figure FDA0003911129830000011
3.如权利要求1所述的一种基于有监督算法与无监督算法相结合的异常检测方法,其特征在于:所述S2中特征选择:对原始特征两列之间进行相关性计算,结果筛选出相关性系数大于0.7的特征进行删除。
4.如权利要求1所述的一种基于有监督算法与无监督算法相结合的异常检测方法,其特征在于:所述S2中特征构建:对保留下来的特征,进行STL分解和卡尔曼滤波操作,每个特征进行STL分解获得趋势、季节性、随机残差;STL分解是为了滤除周期性成分;构建新特征时使用了卡尔曼滤波器,起到平滑时序数据的作用,具有一定的降噪功能。
5.如权利要求1所述的一种基于有监督算法与无监督算法相结合的异常检测方法,其特征在于:根据数据探索结果,制定相应数据处理方法:删除缺失率大于80%、方差为0等数据质量不佳的特征;剩余特征数据进行归一化处理。
CN202211322917.4A 2022-10-27 2022-10-27 一种基于有监督算法与无监督算法相结合的异常检测方法 Pending CN115576981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211322917.4A CN115576981A (zh) 2022-10-27 2022-10-27 一种基于有监督算法与无监督算法相结合的异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211322917.4A CN115576981A (zh) 2022-10-27 2022-10-27 一种基于有监督算法与无监督算法相结合的异常检测方法

Publications (1)

Publication Number Publication Date
CN115576981A true CN115576981A (zh) 2023-01-06

Family

ID=84586344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211322917.4A Pending CN115576981A (zh) 2022-10-27 2022-10-27 一种基于有监督算法与无监督算法相结合的异常检测方法

Country Status (1)

Country Link
CN (1) CN115576981A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956282A (zh) * 2023-06-07 2023-10-27 广州天懋信息***股份有限公司 基于网络资产内存时间序列多特征数据的异常检测***
CN117726475A (zh) * 2024-02-05 2024-03-19 煤炭科学研究总院有限公司 尾矿溃坝监控方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116956282A (zh) * 2023-06-07 2023-10-27 广州天懋信息***股份有限公司 基于网络资产内存时间序列多特征数据的异常检测***
CN116956282B (zh) * 2023-06-07 2024-02-06 广州天懋信息***股份有限公司 基于网络资产内存时间序列多特征数据的异常检测***
CN117726475A (zh) * 2024-02-05 2024-03-19 煤炭科学研究总院有限公司 尾矿溃坝监控方法、装置、电子设备及存储介质
CN117726475B (zh) * 2024-02-05 2024-05-14 煤炭科学研究总院有限公司 尾矿溃坝监控方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
CN115576981A (zh) 一种基于有监督算法与无监督算法相结合的异常检测方法
CN113887616B (zh) 一种epg连接数的实时异常检测方法
CN110297469B (zh) 基于重采样的集成特征选择算法的生产线故障判断方法
CN112686286A (zh) 建筑运行能耗异常识别方法、***、计算机可读存储介质
CN115062272A (zh) 一种水质监测数据异常识别及预警方法
CN116451142A (zh) 一种基于机器学习算法的水质传感器故障检测方法
CN111275198A (zh) 一种轴承异常检测方法及***
CN115409131A (zh) 基于spc过程管控***的生产线异常检测方法
CN112132321A (zh) 一种基于机器学习对森林火灾预测分析的方法
CN115021679A (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN114443338A (zh) 面向稀疏负样本的异常检测方法、模型构建方法及装置
CN113127464B (zh) 农业大数据环境特征处理方法、装置及电子设备
CN114398891A (zh) 基于日志关键词生成kpi曲线并标记波段特征的方法
CN112882898A (zh) 基于大数据日志分析的异常检测方法、***、设备及介质
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
CN115035966B (zh) 基于主动学习和符号回归的超导体筛选方法、装置及设备
CN113657726B (zh) 基于随机森林的人员的危险性分析方法
Kim et al. Anomaly pattern detection in streaming data based on the transformation to multiple binary-valued data streams
CN115460061A (zh) 基于智能运维场景的健康度评价方法及装置
CN116167004A (zh) 电力数据的无监督最优异常检测模型选择方法及***
CN116956089A (zh) 电器设备温度异常检测模型训练方法以及检测方法
CN113261975A (zh) 一种基于深度学习的心电分类方法
CN114896479B (zh) 一种在线学习方法、***及计算机可读存储介质
CN117593101B (zh) 基于多维数据的金融风险数据处理分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination