CN104715160A - 基于kmdb的软测量建模数据异常点检测方法 - Google Patents
基于kmdb的软测量建模数据异常点检测方法 Download PDFInfo
- Publication number
- CN104715160A CN104715160A CN201510157690.6A CN201510157690A CN104715160A CN 104715160 A CN104715160 A CN 104715160A CN 201510157690 A CN201510157690 A CN 201510157690A CN 104715160 A CN104715160 A CN 104715160A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- modeling
- kmdb
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明是一种基于KMDB(K-means与DBSCAN相结合的算法)的软测量建模数据异常点检测方法,其特征在于包括下列步骤:(1)设定异常点比例p0与误差比较系数t。(2)对确定的样本数据集进行软测量建模,计算建模测试误差e0(选取相对误差)。(3)用建模误差指导K值的选择,将数据集划分为K类。(4)对每一类用DBSCAN算法进行异常点检测。(5)用异常数据样本占总样本的比例p调整DBSCAN算法中Eps和MinPts的选择。(6)将删除异常点的数据进行软测量建模,得到误差e。比较e与te0判断算法是否有效。(7)判断在迭代次数范围内算法是否达到设定条件,若未达到需返回(1)重新选择p0与t;否则,算法结束。KMDB算法有效地提高了聚类算法的精度及软测量模型的稳定性。
Description
技术领域
本发明——基于KMDB(K-means与DBSCAN聚类算法相结合的算法)的软测量建模数据异常点检测方法,是针对复杂工业过程中建模数据异常点检测的特殊性提出的,本发明属于软测量建模领域。
背景技术
随着人工智能的发展,软测量技术在复杂工业过程中已经得到了广泛的应用。软测量技术的核心是建立工业对象的精确可靠的模型。无论采用何种方法建立软测量模型,都需要一定的建模数据,并且软测量模型的性能在很大程度上依赖于所获建模数据的准确性和有效性。然而,由于各种原因在现场采集的数据中不可避免地有异常点的存在。为了保障软测量模型的测量精度,必须在建立软测量模型之前将真实信号从含异常点的混合信号中分离出来,才能用于软测量建模。这个过程被称为复杂工业过程中异常点检测。长期以来,人们十分关注复杂工业过程中的异常数据,发现异常点并减少异常点对数据分析的影响是一项很有意义的研究。
聚类是数据挖掘中的一种重要技术,是分析数据并从中发现有用信息的一种有效手段。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。其中基于密度的算法由于可以发现任意形状的簇且能够较好地处理噪声数据,受到越来越广泛的关注。DBSCAN(Density-based spatial clustering ofapplications with noise)算法是应用最为广泛的密度聚类算法之一。该算法利用基于密度的聚类概念,即要求聚类空间中的一定区域内所包含对象(点或其它空间对象)的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快,且能够有效处理异常点和发现任意形状的空间聚类。但是,由于它直接对整个数据库进行操作,且进行聚类时使用了一个全局性的表征密度的参数,因此也具有一个比较明显的弱点:当空间聚类的密度不均匀,聚类间距离相差很大时,聚类质量较差。虽然已经有一些改进的DBSCAN算法被提出,但是对于复杂工业过程建模数据异常点检测的特殊性,这些算法都具有一定的不足。
针对上述问题和复杂工业过程中建模数据异常点检测的特殊性,同时考虑到单纯使用聚类思想的不足,本文提出了一种改进的基于K-means算法的DBSCAN聚类分析方法,即KMDB算法。K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。首先,该方法用K-means算法对DBSCAN算法改进,弥补了传统DBSCAN算法的不足。再次,该方法将异常点检测与软测量建模相结合,用建模误差对异常点检测过程进行指导,这样既保证了异常点检测的质量,同时完成了软测量模型的建立。用该方法进行异常点检测时能更有效的检测出异常点。
发明内容
针对上述问题和复杂工业过程中建模数据异常点检测的特殊性,同时考虑到单纯使用聚类思想的不足,本文提出了一种改进的基于K-means算法的DBSCAN聚类分析方法,即KMDB算法。首先,该方法用K-means算法对DBSCAN算法改进,弥补了传统DBSCAN算法的不足。再次,该方法将异常点检测与软测量建模相结合,用建模误差对异常点检测过程进行指导,这样既保证了异常点检测的质量,同时完成了软测量模型的建立。用该方法进行异常点检测时能更有效的检测出异常点。
本发明的基于KMDB的软测量建模数据异常点检测的方法具体步骤如下:
(1)设定异常点比例p0与误差比较系数t。
(2)确定样本数据集,计算用该数据集进行软测量建模的建模测试误差e0。
(3)根据误差使用公式(1)计算K值并对数据集聚类,将数据集划分为K类。
式中:K0=1,为向上取整符号,为向下取整符号,e为相对误差。
(4)调节Eps和MinPts,用DBSCAN算法进行局部聚类,不属于任何簇的点即为异常点。这里MinPts和Eps的初值根据不同的数据集依赖经验设定。
(5)合并各局部聚类结果,判断异常样本占总样本的比例p是否小于设定值p0。
若p<p0,进行下一步;
若p≥p0,依据异常样本占总样本的比例值p,调整MinPts和Eps的大小:
返回步骤(4)。
(6)将删除异常点以后的数据划为正确数据,将正确数据作为建模数据进行软测量建模,得到建模测试误差e。比较e与te0的大小。
若e≤te0,则认为此次异常点检测是有效的,将去除异常点后的数据作为样本数据;
若e>te0,则此次检测为无效,返回步骤(3)。
(7)设定算法迭代次数为5000次,若在迭代次数范围内设定条件未达到,需重新选择p0与t。若在迭代次数范围内能达到设定条件,异常点检测结束。
附图说明
图1KMDB算法流程图
图2KMDB算法的异常点检测结果图
图3使用KMDB算法前后建模测试误差对比图
具体实施方案:
取宝钢300吨LF炉2012年6-11月249炉生产数据进行试验,采用KMDB聚类算法对此249组建模数据进行异常点检测,同时建立软测量模型。
算法开始设定p0取20%,t取0.6。取宝钢数据进行异常点检测,检测结果为异常数据的个数是44个,即检测出的异常点比例为17.67%。图2为KMDB算法的异常点检测结果,其中红色的圆点为检测出的异常点,蓝色的圆点为正确数据样本。结果表明KMDB算法能有效准确的检测出数据样本中的异常点。
对比原数据样本和检测后的数据样本的建模测试误差大小,从图3可知使用该方法后的建模误差有明显减小,有效地验证了KMDB算法异常点检测的有效性和实用性。
Claims (5)
1.一种基于KMDB的软测量建模数据异常点检测方法,其特征在于包含有以下步骤:
(1)设定异常点比例p0与误差比较系数t。
(2)确定样本数据集,计算用该数据集进行软测量建模的建模测试误差e0。
(3)根据误差使用公式(1)计算K值并对数据集聚类,将数据集划分为K类。
式中:K0=1,为向上取整符号,为向下取整符号,e为相对误差。
(4)调节Eps和MinPts,用DBSCAN算法进行局部聚类,不属于任何簇的点即为异常点。这里MinPts和Eps的初值根据不同的数据集依赖经验设定。
(5)合并各局部聚类结果,判断异常样本占总样本的比例p是否小于设定值p0。
若p<p0,进行下一步;
若p≥p0,依据异常样本占总样本的比例值p,调整MinPts和Eps的大小:
返回步骤(4)。
(6)将删除异常点以后的数据划为正确数据,将正确数据作为建模数据进行软测量建模,得到建模测试误差e。比较e与te0的大小。
若e≤te0,则认为此次异常点检测是有效的,将去除异常点后的数据作为样本数据;
若e>te0,则此次检测为无效,返回步骤(3)。
(7)设定算法迭代次数为5000次,若在迭代次数范围内设定条件未达到,需重新选择p0与t。若在迭代次数范围内能达到设定条件,异常点检测结束。
2.权利要求1所述的基于KMDB的软测量建模数据异常点检测方法,其特征还在于:算法在对数据集运用DBSCAN算法检测异常点之前,首先用K-means算法对数据进行初步划分,再使用密度聚类实现数据的异常点检测。
3.权利要求1所述的基于KMDB的软测量建模数据异常点检测方法,其特征还在于:使用K-means算法时,为了减少随机性的初始中心选择K对聚类产生的影响,提出用软测量建模误差来指导K值的选择,如公式(1)所示。
4.权利要求1所述的基于KMDB的软测量建模数据异常点检测方法,其特征还在于:使用DBSCAN算法时,用异常数据样本占总样本的比例p调整参数Eps和MinPts的选择,见公式(2)和(3),弥补了传统DBSCAN算法的不足。
5.权利要求1所述的基于KMDB的软测量建模数据异常点检测方法,其特征还在于:将异常点检测与软测量建模相结合,这样既保证了异常点检测的质量,同时完成了软测量模型的建立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510157690.6A CN104715160B (zh) | 2015-04-03 | 2015-04-03 | 基于kmdb的软测量建模数据异常点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510157690.6A CN104715160B (zh) | 2015-04-03 | 2015-04-03 | 基于kmdb的软测量建模数据异常点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104715160A true CN104715160A (zh) | 2015-06-17 |
CN104715160B CN104715160B (zh) | 2017-12-12 |
Family
ID=53414483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510157690.6A Expired - Fee Related CN104715160B (zh) | 2015-04-03 | 2015-04-03 | 基于kmdb的软测量建模数据异常点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104715160B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709503A (zh) * | 2016-11-23 | 2017-05-24 | 广西中烟工业有限责任公司 | 一种基于密度的大型空间数据聚类算法k‑dbscan |
CN107977531A (zh) * | 2017-12-20 | 2018-05-01 | 云南电网有限责任公司文山供电局 | 一种基于图像处理和领域数学模型进行接地电阻软测量的方法 |
CN110046419A (zh) * | 2019-04-11 | 2019-07-23 | 天津工业大学 | 一种基于ctma-dl算法的动设备故障类型在线诊断方法 |
WO2020155754A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 异常点比例优化方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030059837A1 (en) * | 2000-01-07 | 2003-03-27 | Levinson Douglas A. | Method and system for planning, performing, and assessing high-throughput screening of multicomponent chemical compositions and solid forms of compounds |
CN103034783A (zh) * | 2012-12-10 | 2013-04-10 | 天津工业大学 | 一种与软测量建模相结合的过失误差侦破 |
CN104462850A (zh) * | 2014-12-25 | 2015-03-25 | 江南大学 | 基于模糊高斯混合模型的多阶段间歇过程软测量方法 |
-
2015
- 2015-04-03 CN CN201510157690.6A patent/CN104715160B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030059837A1 (en) * | 2000-01-07 | 2003-03-27 | Levinson Douglas A. | Method and system for planning, performing, and assessing high-throughput screening of multicomponent chemical compositions and solid forms of compounds |
CN103034783A (zh) * | 2012-12-10 | 2013-04-10 | 天津工业大学 | 一种与软测量建模相结合的过失误差侦破 |
CN104462850A (zh) * | 2014-12-25 | 2015-03-25 | 江南大学 | 基于模糊高斯混合模型的多阶段间歇过程软测量方法 |
Non-Patent Citations (4)
Title |
---|
K.MUMTAZ ET AL: "A Novel Density based improved k-means Clustering Algorithm–Dbkmeans", 《INTERNATIONAL JOURNAL ON COMPUTER SCIENCE AND ENGINEERING》 * |
RAJENDRA PAMULA ET AL: "An Outlier Detection Method based on Clustering", 《2011 SECOND INTERNATIONAL CONFERENCE ON EMERGING APPLICATIONS OF INFORMATION TECHNOLOGY》 * |
周红芳等: "DBSCAN 算法中参数自适应确定方法的研究", 《西安理工大学学报》 * |
赵文等: "一种改进的DBSCAN算法", 《四川师范大学学报(自然科学版)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709503A (zh) * | 2016-11-23 | 2017-05-24 | 广西中烟工业有限责任公司 | 一种基于密度的大型空间数据聚类算法k‑dbscan |
CN106709503B (zh) * | 2016-11-23 | 2020-07-07 | 广西中烟工业有限责任公司 | 一种基于密度的大型空间数据聚类算法k-dbscan |
CN107977531A (zh) * | 2017-12-20 | 2018-05-01 | 云南电网有限责任公司文山供电局 | 一种基于图像处理和领域数学模型进行接地电阻软测量的方法 |
CN107977531B (zh) * | 2017-12-20 | 2019-11-22 | 云南电网有限责任公司文山供电局 | 一种基于图像处理和数学模型的接地电阻软测量方法 |
WO2020155754A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 异常点比例优化方法、装置、计算机设备及存储介质 |
CN110046419A (zh) * | 2019-04-11 | 2019-07-23 | 天津工业大学 | 一种基于ctma-dl算法的动设备故障类型在线诊断方法 |
CN110046419B (zh) * | 2019-04-11 | 2023-04-18 | 天津工业大学 | 一种基于ctma-dl算法的动设备故障类型在线诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104715160B (zh) | 2017-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019233189A1 (zh) | 一种传感网络异常数据检测方法 | |
WO2018076571A1 (zh) | Lte网络中的异常值检测方法及*** | |
CN102750703B (zh) | 一种基于直线分割的遥感图像机场自动检测方法 | |
CN104715160A (zh) | 基于kmdb的软测量建模数据异常点检测方法 | |
CN105120433A (zh) | 基于连续采样及模糊聚类处理的wlan室内定位方法 | |
CN102163333B (zh) | 谱聚类的sar图像变化检测方法 | |
CN102254095A (zh) | 基于多维分形克里格方法的成矿异常提取方法 | |
CN104008399A (zh) | 一种仪表检测中基于支持向量机的仪表指针抖动的识别方法 | |
CN105574265B (zh) | 面向模型检索的装配体模型定量描述方法 | |
CN107330469A (zh) | 一种基于gps轨迹数据的出行方式识别方法 | |
CN105512206A (zh) | 一种基于聚类的离群点检测方法 | |
CN106066470A (zh) | 一种移动目标rssi定位的粗大误差识别方法 | |
CN102411711A (zh) | 一种基于个性化权重的手指静脉识别方法 | |
CN103743435A (zh) | 一种多传感器数据融合方法 | |
CN110852243A (zh) | 一种基于改进YOLOv3的道路交叉口检测方法及装置 | |
CN108667684A (zh) | 一种基于局部向量点积密度的数据流异常检测方法 | |
CN106156852A (zh) | 一种高斯重叠核脉冲估计方法 | |
CN106326923A (zh) | 一种顾及位置重复和密度峰值点的签到位置数据聚类方法 | |
CN103218837B (zh) | 一种基于经验分布函数的不等组距直方图的绘制方法 | |
CN107193782A (zh) | 一种基于多项式拟和的野值剔除方法 | |
Tian et al. | An outliers detection method of time series data for soft sensor modeling | |
CN108319902B (zh) | 一种河曲自动提取方法 | |
CN112231775B (zh) | 一种基于Adaboost算法的硬件木马检测方法 | |
CN102982345B (zh) | 基于连续小波变换的时序遥感影像半自动分类方法 | |
CN103117823B (zh) | 一种短波信道模型建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171212 Termination date: 20200403 |
|
CF01 | Termination of patent right due to non-payment of annual fee |