CN112215307A - 一种应用机器学习自动检测地震仪器信号异常的方法 - Google Patents

一种应用机器学习自动检测地震仪器信号异常的方法 Download PDF

Info

Publication number
CN112215307A
CN112215307A CN202011300744.7A CN202011300744A CN112215307A CN 112215307 A CN112215307 A CN 112215307A CN 202011300744 A CN202011300744 A CN 202011300744A CN 112215307 A CN112215307 A CN 112215307A
Authority
CN
China
Prior art keywords
data
value
sample
probability density
density function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011300744.7A
Other languages
English (en)
Other versions
CN112215307B (zh
Inventor
薛蕾
周蓝捷
李文惠
方伟华
王遹其
方一成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011300744.7A priority Critical patent/CN112215307B/zh
Publication of CN112215307A publication Critical patent/CN112215307A/zh
Application granted granted Critical
Publication of CN112215307B publication Critical patent/CN112215307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

本发明公开了一种应用机器学习自动检测地震仪器信号异常的方法,包括以下步骤:S1、搜集以往同类型的数据集;S2、把数据集中每个台站每个通道固定时间段的连续记录作为一个样本;S3、从每个样本中抽取能代表信号状态的各项特征值;S4、对各项特征值进行归一化处理;S5、制作训练集、交叉验证集、测试集;S6、构建概率密度函数模型;选出判定边界的阈值ε;S7采用测试集中的数据对概率密度函数模型进行检验;S8、针对计算判定错误的样本进行查看和分析,增加该样本异常特性的新特征值;然后重新进行步骤S4~S7,训练出优化模型;S9、将地震台站的实时数据按第S2~S4进行处理,然后使用优化模型对实时数据进行检测即可。

Description

一种应用机器学习自动检测地震仪器信号异常的方法
技术领域
本发明涉及地震监测领域,尤其涉及一种应用机器学习自动检测地震仪器信号异常的方法。
背景技术
目前在地震监测领域,在台网***内的测震仪器设备,均能实时获取和查看数据,从实时传回数据波形中可人工分辨出某些台站信号有异常。但随着地震台站建设加快,一个省的总台站数量从几十个几百个增加到上千个,台站数据传回***后,仅凭人力难以在数量巨大的波形数据中分辨出有异常信号,给地震监测工作带来了不便。
发明内容
本发明目的是针对上述问题,提供一种操作简单、提高效率的应用机器学习自动检测地震仪器信号异常的方法。
为了实现上述目的,本发明的技术方案是:
一种应用机器学习自动检测地震仪器信号异常的方法,包括以下步骤:
S1、搜集以往同类型的数据集;
S2、查看及分析数据集,把数据集中每个台站每个通道固定时间段的连续记录作为一个样本,对样本进行人工筛选,删除有明显错误或空缺的样本,并进行人工识别,把数据集分成“正常”和“异常”两个子集;
S3、从每个样本中抽取能代表信号状态的各项特征值;
S4、对各项特征值进行归一化处理;
S5、从“正常”子集中选择60%的数据作为训练集;再从“正常”子集中选择20%的数据、从“异常”子集中选择50%的数据作为交叉验证集,剩余数据作为测试集;
S6、根据训练集的数据中各项特征值的平均值和方差构建概率密度函数模型;通过交叉验证集中的数据选出判定边界的阈值ε;
S7、针对选出的判定边界的阈值ε,采用测试集中的数据对概率密度函数模型进行检验;
S8、在检验概率密度函数模型后,针对计算判定错误的样本进行查看和分析,增加该样本异常特性的新特征值;然后重新进行步骤S4~S7,训练出优化模型;
S9、将地震台站的实时数据按第S2~S4进行处理,然后使用优化模型对实时数据进行检测即可。
进一步的,所述步骤S3中的特征值包括平均值、中间值、最大值、最小值、幅值。
进一步的,所述步骤S3中在样本中抽取特征值时,首先设置滑动时间窗,然后对相邻时间窗的最大值、最小值、中间值、平均值及幅值的差值作为特征值。
进一步的,所述步骤S6中构建概率密度函数模型包括以下步骤:
S1、对于给定训练集x(1),x(1),...,x(m)中的各项特征值,针对每一个特征值计算平均值和方差值,其计算公式为:
Figure BDA0002786827030000021
Figure BDA0002786827030000022
其中,m为样本数量,μj为训练集中特征值j的平均值,
Figure BDA0002786827030000031
为训练集中特征值j的方差;
S2、通过平均值和方差值建立概率密度函数模型,其计算公式为:
Figure BDA0002786827030000032
其中,p(x)为概率密度函数,n为特征值数量,
Figure BDA0002786827030000033
为特征值j的概率密度函数,μj为训练集中特征值j的平均值,
Figure BDA0002786827030000034
为训练集中特征值j的方差;
S3、设定判定边界的阈值ε,将p(x)=ε做为判定边界来预测数据的异常情况,当p(x)>ε时为正常情况,否则为异常情况;
S4、将交叉验证集中的数据代入概率密度函数模型中,根据正确率与召回率对判定边界的阈值ε进行选择。
与现有技术相比,本发明具有的优点和积极效果是:
本发明通过搜集以往的数据制作样本,通过对样本中的特征值进行抽取,从而建立了概率密度函数模型,使得在进行地震数据监测时,只需要将地震台站的实时数据输入到概率密度函数模型中即可对海量台站的实时数据进行识别,在人工不参与的状态下,自动分辨出正常波形和异常波形,从而筛选出信号异常的地震台站,减少人工成本的同时提高了监测效率,给地震监测工作带来了便利。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为异常监测原理示意图;
图2为本发明的框架结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
如图1、图2所示,本发明可以利用机器学习的方法,对地震台站的实时数据进行检验和判断,可快速识别出地震信号异常的台站。
原理:实时数据可以看作一个集合,“正常”的数据通常具有相似性,而“异常”数据是与其他数据点显著不同的数据点,因此被称为离群值。机器学习中的异常检测技术是找出数据中离群值(和大多数数据点显著不同的数据点)的过程。
如图1所示,假设数据集有x1和x2两个特征,由于离群值与其他的数据表现完全不同,因此图中偏离距离过大的点可认为是“异常”。
对于给定数据集x(1),x(2),...,x(m),假定其各项特征都满足高斯分布,可针对每一个特征计算μ和σ2的值:
Figure BDA0002786827030000051
Figure BDA0002786827030000052
其中,m为样本数量,μj为训练集中特征值j的平均值,
Figure BDA0002786827030000053
为训练集中特征值j的方差;
获得了μ和σ2的估计值,当给定一个新的训练实例,则可根据模型计算p(x):
Figure BDA0002786827030000054
其中,p(x)为概率密度函数,n为特征值数量,
Figure BDA0002786827030000055
为特征值j的概率密度函数,μj为训练集中特征值j的平均值,
Figure BDA0002786827030000056
为训练集中特征值j的方差;
当p(x)小于阈值ε时,判定为异常。
如图2所示,本发明的实施步骤如下:
1、搜集数据:搜集以往同类型的数据集(包含有信号异常的数据);
2、数据清洗与整理:查看及分析数据集,把数据集中每个台站每个通道一段时间的连续记录作为一个样本,对样本进行人工筛选,删除格式、内容等有明显错误或空缺的样本。对数据集进行人工鉴别和整理,对每个样本做时程图,并进行人工识别,把数据集分成“正常”和“异常”两个子集;
3、特征工程:从每个样本中抽取能代表信号状态的各种特征。如抽取整段数据的统计特征(如平均值、中值、最大值、最小值、幅值等);由于地震数据是随时间变化的,为体现时间特性,需设置滑动时间窗,如设置10s时间窗,每次滑动1s,提取时间窗内的统计特征,滑动一次提取一次,直到数据尾端。为体现数据的变化特性,对相邻时间窗的最大值、最小值、中值、平均值,及幅值的差值做统计,取出这些差值的统计特征。
4、特征处理:为使算法更有效,先要对各项特征值进行归一化处理;查看各个特征的分布情况,可对特征做函数变换,使其近似于正态分布。
5、数据分配:从正常数据集中选择60%的正常数据作为训练集;20%正常数据和50%异常数据作为交叉验证集,剩余数据作为测试集,并做好标签。
6、构建模型:根据训练集的数据,估计特征的平均值和方差并构建概率密度函数p(x);对交叉验证集,我们尝试使用不同的阈值ε,将p(x)=ε做为判定边界来预测数据的异常情况,当p(x)>ε时为正常,否则为异常。最后根据正确率与召回率(或F1值:F1值=正确率*召回率*2/(正确率+召回率))来选择阈值ε;
7、检验模型:针对选出的阈值ε,采用测试集来进行检测,计算异常检验***的正确率与召回率(F1值);
8、优化模型:观察模型检验的结果,如果有异常样本被算法误认为是正常时,意味着该样本有较高的p(x)值。这时需要对该样本进行查看和分析,增加可以表现该样本异常特性的新特征。然后重新进行第4~7步,训练出最优模型,直到测试集中所有的异常样本都被识别出来为止;
9、实际应用:对地震台站的实时数据按第2~4步进行处理,即可按第8步得到的最优模型对实时地震波形进行异常检测。
本发明通过搜集以往的数据制作样本,通过对样本中的特征值进行抽取,从而建立了概率密度函数模型,使得在进行地震数据监测时,只需要将地震台站的实时数据输入到概率密度函数模型中即可对海量台站的实时数据进行识别,在人工不参与的状态下,自动分辨出正常波形和异常波形,从而筛选出信号异常的地震台站,减少人工成本的同时提高了监测效率,给地震监测工作带来了便利。

Claims (4)

1.一种应用机器学习自动检测地震仪器信号异常的方法,其特征在于:包括以下步骤:
S1、搜集以往同类型的数据集;
S2、查看及分析数据集,把数据集中每个台站每个通道固定时间段的连续记录作为一个样本,对样本进行人工筛选,删除有明显错误或空缺的样本,并进行人工识别,把数据集分成“正常”和“异常”两个子集;
S3、从每个样本中抽取能代表信号状态的各项特征值;
S4、对各项特征值进行归一化处理;
S5、从“正常”子集中选择60%的数据作为训练集;再从“正常”子集中选择20%的数据、从“异常”子集中选择50%的数据作为交叉验证集,剩余数据作为测试集;
S6、根据训练集的数据中各项特征值的平均值和方差构建概率密度函数模型;通过交叉验证集中的数据选出判定边界的阈值ε;
S7、针对选出的判定边界的阈值ε,采用测试集中的数据对概率密度函数模型进行检验;
S8、在检验概率密度函数模型后,针对计算判定错误的样本进行查看和分析,增加该样本异常特性的新特征值;然后重新进行步骤S4~S7,训练出优化模型;
S9、将地震台站的实时数据按第S2~S4进行处理,然后使用优化模型对实时数据进行检测即可。
2.如权利要求1所述的应用机器学***均值、中间值、最大值、最小值、幅值。
3.如权利要求2所述的应用机器学***均值及幅值的差值作为特征值。
4.如权利要求3所述的应用机器学习自动检测地震仪器信号异常的方法,其特征在于:所述步骤S6中构建概率密度函数模型包括以下步骤:
S1、对于给定训练集x(1),x(2),...,x(m)中的各项特征值,针对每一个特征值计算平均值和方差值,其计算公式为:
Figure FDA0002786827020000021
Figure FDA0002786827020000022
其中,m为样本数量,μj为训练集中特征值j的平均值,
Figure FDA0002786827020000023
为训练集中特征值j的方差;
S2、通过平均值和方差值建立概率密度函数模型,其计算公式为:
Figure FDA0002786827020000024
其中,p(x)为概率密度函数,n为特征值数量,
Figure FDA0002786827020000025
为特征值j的概率密度函数,μj为训练集中特征值j的平均值,
Figure FDA0002786827020000026
为训练集中特征值j的方差;
S3、设定判定边界的阈值ε,将p(×)=ε做为判定边界来预测数据的异常情况,当p(×)>ε时为正常情况,否则为异常情况;
S4、将交叉验证集中的数据代入概率密度函数模型中,根据正确率与召回率对判定边界的阈值ε进行选择。
CN202011300744.7A 2020-11-19 2020-11-19 一种应用机器学习自动检测地震仪器信号异常的方法 Active CN112215307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011300744.7A CN112215307B (zh) 2020-11-19 2020-11-19 一种应用机器学习自动检测地震仪器信号异常的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011300744.7A CN112215307B (zh) 2020-11-19 2020-11-19 一种应用机器学习自动检测地震仪器信号异常的方法

Publications (2)

Publication Number Publication Date
CN112215307A true CN112215307A (zh) 2021-01-12
CN112215307B CN112215307B (zh) 2024-03-19

Family

ID=74067857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011300744.7A Active CN112215307B (zh) 2020-11-19 2020-11-19 一种应用机器学习自动检测地震仪器信号异常的方法

Country Status (1)

Country Link
CN (1) CN112215307B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113325824A (zh) * 2021-06-02 2021-08-31 三门核电有限公司 一种基于阈值监测的调节阀异常识别方法及***
CN115240428A (zh) * 2022-07-29 2022-10-25 浙江数智交院科技股份有限公司 隧道运营异常的检测方法、装置、电子设备与存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647891A (zh) * 2018-05-14 2018-10-12 口口相传(北京)网络技术有限公司 数据异常归因分析方法及装置
CN109311478A (zh) * 2016-12-30 2019-02-05 同济大学 一种基于舒适度的自动驾驶车速控制方法
CN109738939A (zh) * 2019-03-21 2019-05-10 蔡寅 一种地震前兆数据异常检测方法
CN110389264A (zh) * 2019-07-01 2019-10-29 浙江大学 一种异常用电计量的检测方法
CN111666187A (zh) * 2020-05-20 2020-09-15 北京百度网讯科技有限公司 用于检测异常响应时间的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109311478A (zh) * 2016-12-30 2019-02-05 同济大学 一种基于舒适度的自动驾驶车速控制方法
CN108647891A (zh) * 2018-05-14 2018-10-12 口口相传(北京)网络技术有限公司 数据异常归因分析方法及装置
CN109738939A (zh) * 2019-03-21 2019-05-10 蔡寅 一种地震前兆数据异常检测方法
CN110389264A (zh) * 2019-07-01 2019-10-29 浙江大学 一种异常用电计量的检测方法
CN111666187A (zh) * 2020-05-20 2020-09-15 北京百度网讯科技有限公司 用于检测异常响应时间的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANQIN AN 等: "Anomaly recognition of ultra low frequency electric data based on artificial neutral network", 《2016 9TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING,BIOMEDICAL ENGINEERING AND INFORMATICS》, pages 1 - 2 *
刘子维 等: "地震前兆数据异常识别关键技术研究", 《中国博士学位论文全文数据库基础科学辑》, pages 133 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113325824A (zh) * 2021-06-02 2021-08-31 三门核电有限公司 一种基于阈值监测的调节阀异常识别方法及***
CN115240428A (zh) * 2022-07-29 2022-10-25 浙江数智交院科技股份有限公司 隧道运营异常的检测方法、装置、电子设备与存储介质
CN115240428B (zh) * 2022-07-29 2024-05-14 浙江数智交院科技股份有限公司 隧道运营异常的检测方法、装置、电子设备与存储介质

Also Published As

Publication number Publication date
CN112215307B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
US6192317B1 (en) Statistical pattern analysis methods of partial discharge measurements in high voltage insulation
CN109489977B (zh) 基于KNN-AdaBoost的轴承故障诊断方法
CN105956526B (zh) 基于多尺度排列熵的低信噪比微震事件辨识方法
CN113838054B (zh) 基于人工智能的机械零件表面损伤检测方法
CN108802535B (zh) 筛选方法、主干扰源识别方法及装置、服务器及存储介质
CN112215307B (zh) 一种应用机器学习自动检测地震仪器信号异常的方法
CN113344134A (zh) 一种低压配电监控终端数据采集异常检测方法及***
CN113805018A (zh) 一种配电网10kV电缆局部放电故障类型智能识别方法
CN118051863B (zh) 一种基于数字计量技术的健康数据采集***及方法
CN114118219A (zh) 基于数据驱动的长期加电设备健康状态实时异常检测方法
CN109409216B (zh) 基于子载波动态选择的速度自适应室内人体检测方法
CN117368651B (zh) 一种配电网故障综合分析***及方法
CN116520236B (zh) 一种智能电表的异常检测方法和***
CN112600659B (zh) 基于神经网络的安全芯片侧信道泄漏检测方法及***
CN114244594A (zh) 网络流量异常检测方法及检测***
CN113837591A (zh) 一种面向多工况运行条件的装备健康评估方法
CN116482526A (zh) 一种用于非故障相阻抗继电器的分析***
CN111737993A (zh) 一种配电网设备的故障缺陷文本提取设备健康状态方法
CN116773961A (zh) 基于振动信号高频特征分析的输电线路腐蚀检测方法
CN108536777B (zh) 一种数据处理方法、服务器集群及数据处理装置
CN116466408A (zh) 一种基于航磁数据的人工神经网络超基性岩识别方法
CN112699609B (zh) 一种基于振动数据的柴油机可靠性模型构建方法
CN115659271A (zh) 传感器异常检测方法、模型训练方法、***、设备及介质
Deuschle et al. Robust sensor spike detection method based on dynamic time warping
CN112732773B (zh) 一种继电保护缺陷数据的唯一性校核方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant