CN108229592A - 基于gmdh神经元网络的离群点检测方法及装置 - Google Patents

基于gmdh神经元网络的离群点检测方法及装置 Download PDF

Info

Publication number
CN108229592A
CN108229592A CN201810257847.6A CN201810257847A CN108229592A CN 108229592 A CN108229592 A CN 108229592A CN 201810257847 A CN201810257847 A CN 201810257847A CN 108229592 A CN108229592 A CN 108229592A
Authority
CN
China
Prior art keywords
model
lrm
gmdh
linear regression
neuroids
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810257847.6A
Other languages
English (en)
Inventor
肖进
雷琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201810257847.6A priority Critical patent/CN108229592A/zh
Publication of CN108229592A publication Critical patent/CN108229592A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于GMDH神经元网络的离群点检测方法及装置,其中方法包括:用n个样本构建第一训练集L;利用GMDH神经元网络找出第一训练集L的关键特征子集;根据所述关键特征子集映射得到第二训练集L',并根据第二训练集L'建立第一线性回归模型;将第二训练集L'中的样本i剔除后建立第二线性回归模型,并根据第一线性回归模型和第二线性回归模型计算样本i的库克距离Di;重复步骤S4直到训练集L'中每个样本的库克距离Di都计算得出,然后确定离群点:若Di>4/n,(i=1,2,…,n),则样本i为离群点。本发明通过使用GMDH神经元网络自适应建模,自组织地选择一部分关键特征,从而很好地消除了不相关或冗余的特征,减少数据维度,克服了库克距离检测方法的不足。

Description

基于GMDH神经元网络的离群点检测方法及装置
技术领域
本发明涉及离群点检测技术领域,特别是涉及一种基于GMDH神经元网络的离群点检测方法及装置。
背景技术
近年来,分类问题一直是数据挖掘领域的重要研究问题之一。它通过已知类别训练集的建模分析,从中发现分类规则,以此预测新的样本数据的类别。分类算法的应用领域非常广泛,现实中的很多问题,如网络文本分类、人脸识别、语音识别、医疗疾病诊断、信用风险评估以及客户流失预测等都属于分类问题。在现实社会中,用于分类的数据集中通常含有一部分与其他数据有着显著区别的数据,即离群数据。到目前为止,离群点还没有一个被普遍采纳的定义,Hawkins对离群点的定义在一定意义上揭示了离群点的本质:离群点与其他点如此不同,以至于让人怀疑它们是由另外一个不同的机制产生的。这些背离正常的数据如果不剔除,在进行分类训练的时候,可能会严重影响训练出的模型的分类性能。因此,在分类问题中进行离群点检测有着重要的意义。
对于离群点的检测,国内外学者提出了许多方法。这些方法大致可以分为以下五类:
(1)基于统计的方法。这种方法的主要思想时假定数据集服从某种分布或概率模型,通过不一致检验把哪些严重偏离分布曲线的记录视为离群点;其中最具代表性的方法是Cook’s distance值。
(2)基于距离的方法。这类方法最早由Knorr等提出,该方法对离群点的定义为:如果数据集中至少有pct个对象与对象o的距离大于D,则对象o是一个基于距离的关于参数pct和D的离群点,即DB(pct,D)离群点。
(3)基于密度的方法。Breunig等提出了局部离群点概念和基于密度的离群点定义,用局部离群系数(Local Outlier Factor,LOF)来表示一个对象的局部离群程度。
(4)基于聚类的方法。该类方法将离群点定义为不属于任何簇的对象。王欣提出了基于聚类和距离的离群点检测算法,该算法采用了剪枝,减少了离群点检测时数据点之间距离计算的次数。
(5)基于分类的方法。Hawkins等提出了一个基于神经网络的离群点检测方法,根据训练好的神经网络,每个样本可得到一个重建误差,从而以此来度量样本的离群程度。
上述几种离群点的检测方法各有优劣:基于距离或密度的离群点检测方法的时间复杂度较高;基于聚类的方法的主要目标是发现簇,而不是离群点,因此对离群点的挖掘效率较低;基于分类的离群点检测方法的有效性严重依赖于所使用的分类算法;基于统计的方法因为其检测性能稳定、时间复杂度较低且容易实现成为学术界最常用的方法,Cook’sdistance是统计方法中普遍使用的评价离群点的指标。然而,Cook’s distance方法也有不足,如在低维的数据集上,应用Cook’s distance检测离群点有很好的检测性能,但是在高维数据集上往往不能取得令人满意的效果,而且过多的数据特征不仅会使检测的计算时间大大增加,还会降低检测效果。然而,在现实的分类问题中,数据集往往为高维数据,因此Cook’s distance方法面临挑战。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于GMDH神经元网络的离群点检测方法及装置,通过使用GMDH神经元网络自适应建模,自组织地选择一部分关键特征,从而很好地消除了不相关或冗余的特征,减少数据维度,克服了使用库克距离检测方法的不足。
本发明的目的是通过以下技术方案来实现的:基于GMDH神经元网络的离群点检测方法,包括:
S1.用n个样本构建第一训练集L;
S2.利用GMDH神经元网络找出第一训练集L的关键特征子集;
S3.根据所述关键特征子集映射得到第二训练集L',并根据第二训练集L'建立第一线性回归模型;
S4.将第二训练集L'中的样本i剔除后建立第二线性回归模型,并根据第一线性回归模型和第二线性回归模型计算样本i的库克距离Di
S5.重复步骤S4直到训练集L'中每个样本的库克距离Di都计算得出,然后确定离群点:若Di>4/n,(i=1,2,…,n),则样本i为离群点。
优选的,所述步骤S2包括:
S21.将第一训练集L分为模型学习集A和模型选择集B;
S22.利用模型学习集A和模型选择集B构建GMDH神经元网络,在模型学习集A上估计中间候选模型的参数,在模型选择集B上评价并选择中间候选模型,然后根据最优复杂度原理找到最优复杂度模型;
S23.记录所述最优复杂度模型中的关键特征子集。
优选的,所述步骤S22包括:
S221.构建外准则,建立输出和输入变量之间的一般关系:f(x1,x2,…,xp)=a1x1+a2x2+…+apxp,f(x1,x2,…,xp)为输出,ap为系数或权值向量,xp为输入向量,并把它的所有子项作为构建GMDH神经元网络的p个初始模型:v1=a1x1,v2=a2x2,…,vp=apxp
S222.将p个初始模型两两组合生成个第一层中间候选模型,传递函数为w=f(vi,vj);i,j=1,2,…,p,i≠j,其中模型f(vi,vj)中的参数是在模型学习集A上使用最小二乘法估计得到,w是模型f(vi,vj)的估计输出;
S223.在模型选择集B上计算所有第一层中间候选模型的外准则值,根据外准则值由小到大排序,选择最优的Q1个第一层中间候选模型,将选出的第一层中间候选模型进行两两组合生成个第二层中间候选模型,传递函数为z=f(wi,wj);i,j=1,2,…,Q1,i≠j,其中模型f(wi,wj)中的参数是在模型学习集A上使用最小二乘法估计得到,z是模型f(wi,wj)的估计输出;
S224.按照上述方法计算得到第l层中间候选模型,根据最优复杂度原理找到最优复杂度模型,进入最优复杂度模型的自变量就是选出的关键特征,最终选出的关键特征的数量为m。
优选的,建立第一线性回归模型和第二线性回归模型的方法为最小二乘法。
优选的,库克距离Di的计算公式为:n为第一训练集L中的样本个数,为第一线性回归模型的预测值,为第二线性回归模型的预测值,m-最终选出的关键特征的数量,-第一线性回归模型的均方误差。
基于GMDH神经元网络的离群点检测装置,包括:
样本获取模块,用于获取数据样本集,并将数据样本集划分为第一训练集L和检测集;以及用于根据所述关键特征子集映射得到第二训练集L';
关键特征子集获取模块,用于利用GMDH神经元网络找出训练集L的关键特征子集;
回归模型构建模块,用于根据第二训练集L'建立第一线性回归模型,以及用于将训练集L'中的样本i剔除后建立第二线性回归模型;
库克距离计算模块,用于根据第一线性回归模型和第二线性回归模型计算样本i的库克距离D;
离群点确定模块,判断样本i的库克距离Di,若Di>4/n,(i=1,2,…,n),则样本i为离群点。
优选的,所述关键特征子集获取模块包括:
分类子模块,用于将第一训练集L分为模型学习集A和模型选择集B;
最优复杂度模型获取子模块,用于利用模型学习集A和模型选择集B构建GMDH神经元网络,在模型学习集A上估计中间候选模型的参数,在模型选择集B上评价并选择中间候选模型,然后根据最优复杂度原理找到最优复杂度模型;
关键特征子集获取子模块,用于记录所述最优复杂度模型中的关键特征子集。
优选的,所述最优复杂度模型获取子模块的工作过程为:构建外准则,建立输出和输入变量之间的一般关系:f(x1,x2,…,xp)=a1x1+a2x2+…+apxp,f(x1,x2,…,xp)为输出,ap为系数或权值向量,xp为输入向量,并把它的所有子项作为构建GMDH神经元网络的p个初始模型:v1=a1x1,v2=a2x2,…,vp=apxp;将p个初始模型两两组合生成个第一层中间候选模型,传递函数为w=f(vi,vj);i,j=1,2,…,p,i≠j,其中模型f(vi,vj)中的参数是在模型学习集A上使用最小二乘法估计得到,w是模型f(vi,vj)的估计输出;在模型选择集B上计算所有第一层中间候选模型的外准则值,根据外准则值由小到大排序,选择最优的Q1个第一层中间候选模型,将选出的第一层中间候选模型进行两两组合生成个第二层中间候选模型,传递函数为z=f(wi,wj);i,j=1,2,…,Q1,i≠j,其中模型f(wi,wj)中的参数是在模型学习集A上使用最小二乘法估计得到,z是模型f(wi,wj)的估计输出;按照上述方法计算得到第l层中间候选模型,根据最优复杂度原理找到最优复杂度模型,进入最优复杂度模型的自变量就是选出的关键特征,最终选出的关键特征的数量为m。
优选的,库克距离Di的计算公式为:n为第一训练集L中的样本个数,为第一线性回归模型的预测值,为第二线性回归模型的预测值,m-最终选出的关键特征的数量,-第一线性回归模型的均方误差。
优选的,建立第一线性回归模型和第二线性回归模型的方法为最小二乘法。
本发明的有益效果是:本发明通过使用GMDH神经元网络自适应建模,自组织地选择一部分关键特征,从而很好地消除了不相关或冗余的特征,减少数据维度,克服了使用库克距离(Cook’s distance)检测方法的不足。
附图说明
图1为本发明中基于GMDH神经元网络的离群点检测方法的流程图;
图2为本发明中基于GMDH神经元网络的离群点检测装置的示意图。
具体实施方式
下面将结合实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1-2,本发明提供一种基于GMDH神经元网络的离群点检测方法及装置:
实施例一
如图1所示,基于GMDH神经元网络的离群点检测方法,包括:
S1.用n个样本构建第一训练集L。
S2.利用GMDH神经元网络找出第一训练集L的关键特征子集。
所述步骤S2包括:
S21.将第一训练集L分为模型学习集A和模型选择集B。
S22.利用模型学习集A和模型选择集B构建GMDH神经元网络,在模型学习集A上估计中间候选模型的参数,在模型选择集B上评价并选择中间候选模型,然后根据最优复杂度原理找到最优复杂度模型。
优选的,所述步骤S22包括:
S221.构建外准则,建立输出和输入变量之间的一般关系:f(x1,x2,…,xp)=a1x1+a2x2+…+apxp,f(x1,x2,…,xp)为输出,ap为系数或权值向量,xp为输入向量,并把它的所有子项作为构建GMDH神经元网络的p个初始模型:v1=a1x1,v2=a2x2,…,vp=apxp
GMDH有一个外准则体系(参见:贺昌政,自组织数据挖掘与经济预测.2005,北京:科学出版社),可以根据不同的建模目的从中选择不同的外准则,还可以根据需要构造新的外准则。
S222.将p个初始模型两两组合生成个第一层中间候选模型,传递函数为w=f(vi,vj);i,j=1,2,…,p,i≠j,其中模型f(vi,vj)中的参数是在模型学习集A上使用最小二乘法估计得到,w是模型f(vi,vj)的估计输出。
S223.在模型选择集B上计算所有第一层中间候选模型的外准则值,根据外准则值由小到大排序,选择最优的Q1个第一层中间候选模型,将选出的第一层中间候选模型进行两两组合生成个第二层中间候选模型,传递函数为z=f(wi,wj);i,j=1,2,…,Q1,i≠j,其中模型f(wi,wj)中的参数是在模型学习集A上使用最小二乘法估计得到,z是模型f(wi,wj)的估计输出。
S224.按照上述方法计算得到第l层中间候选模型,根据最优复杂度原理找到最优复杂度模型。当找到最优复杂度模型后就终止后续中间候选模型的计算。最优复杂度原理为:随着中间候选模型复杂度的增加,外准则值会呈现先减小后增大的变化趋势,因此当外准则值达到最小时,相应的模型即为最优复杂度模型进入最优复杂度模型的自变量就是选出的关键特征,最终选出的关键特征的数量为m。
S23.记录所述最优复杂度模型中的关键特征子集。
S3.根据所述关键特征子集映射得到第二训练集L',并根据第二训练集L'用最小二乘法建立第一线性回归模型。
S4.将第二训练集L'中的样本i剔除后用最小二乘法建立第二线性回归模型,并根据第一线性回归模型和第二线性回归模型计算样本i的库克距离Di
库克距离Di的计算公式为:n为第一训练集L中的样本个数,为第一线性回归模型的预测值,为第二线性回归模型的预测值,m-最终选出的关键特征的数量,-第一线性回归模型的均方误差。
S5.重复步骤S4直到第二训练集L'中每个样本的库克距离Di都计算得出,然后确定离群点:若Di>4/n,(i=1,2,…,n),则样本i为离群点。
实施例二
如图2所示,基于GMDH神经元网络的离群点检测装置,包括样本获取模块、关键特征子集获取模块、回归模型构建模块、库克距离计算模块和离群点确定模块。
所述样本获取模块用于获取数据样本集,并将数据样本集划分为第一训练集L和检测集;以及用于根据所述关键特征子集映射得到第二训练集L'。
所述关键特征子集获取模块包括分类子模块、最优复杂度模型获取子模块和关键特征子集获取子模块。分类子模块用于将第一训练集L分为模型学习集A和模型选择集B。最优复杂度模型获取子模块用于利用模型学习集A和模型选择集B构建GMDH神经元网络,在模型学习集A上估计中间候选模型的参数,在模型选择集B上评价并选择中间候选模型,然后根据最优复杂度原理找到最优复杂度模型。关键特征子集获取子模块用于记录所述最优复杂度模型中的关键特征子集。
所述最优复杂度模型获取子模块的工作过程为:构建外准则,建立输出和输入变量之间的一般关系:f(x1,x2,…,xp)=a1x1+a2x2+…+apxp,f(x1,x2,…,xp)为输出,ap为系数或权值向量,xp为输入向量,并把它的所有子项作为构建GMDH神经元网络的p个初始模型:v1=a1x1,v2=a2x2,…,vp=apxp;将p个初始模型两两组合生成个第一层中间候选模型,传递函数为w=f(vi,vj);i,j=1,2,…,p,i≠j,其中模型f(vi,vj)中的参数是在模型学习集A上使用最小二乘法估计得到,w是模型f(vi,vj)的估计输出;在模型选择集B上计算所有第一层中间候选模型的外准则值,根据外准则值由小到大排序,选择最优的Q1个第一层中间候选模型,将选出的第一层中间候选模型进行两两组合生成个第二层中间候选模型,传递函数为z=f(wi,wj);i,j=1,2,…,Q1,i≠j,其中模型f(wi,wj)中的参数是在模型学习集A上使用最小二乘法估计得到,z是模型f(wi,wj)的估计输出;按照上述方法计算得到第l层中间候选模型,根据最优复杂度原理找到最优复杂度模型进入最优复杂度模型的自变量就是选出的关键特征,最终选出的关键特征的数量为m。
所述回归模型构建模块用于根据第二训练集L'用最小二乘法建立第一线性回归模型,以及用于将第二训练集L'中的样本i剔除后用最小二乘法建立第二线性回归模型。
所述库克距离计算模块用于根据第一线性回归模型和第二线性回归模型计算样本i的库克距离Di。库克距离Di的计算公式为:n为第一训练集L中的样本个数,为第一线性回归模型的预测值,为第二线性回归模型的预测值,m-最终选出的关键特征的数量,-第一线性回归模型的均方误差。
所述离群点确定模块判断样本i的库克距离Di,若Di>4/n,(i=1,2,…,n),则样本i为离群点。
下面将本发明的方法与现有的离群点检测方法(Cook’s distance离群点检测法、局部离群因子检测模型LOF、基于聚类的离群点检测模型ODC、基于距离的离群点检测模型PLDOF和单类支持向量机检测模型OCS)进行比较,其中GOD模型(GMDH Based OutlierDetection)表示本发明所提出的方法。
表1中,german数据集描述了德国客户信用评估问题,该数据集包含1000个客户样本,每个客户样本包含20个属性和一个类别标签,其中定量属性7个,定性属性13个;australia数据集描述了澳大利亚客户信用评估问题,该数据集共有690个客户样本,每个客户样本包含14个属性和一个类别标签,定量属性6个,定性属性8个;churn数据集为客户流失预测数据集,该数据集共包含3333个客户样本,每个客户样本包含18个属性变量和一个类别标签;以上三个数据集均来自于UCI国际公用数据库。电信数据集来自于四川省某地电信公司客户数据记录,经处理后的数据集共包含3424个客户样本,每个客户样本包含9个属性变量和一个类别标签。四个数据集虽然包含的属性个数不同,但是均包含一个类别标签,类别标签分为两类,相应地将信用好的客户或者未流失的客户划分为正类,信用差的客户或者流失客户划分为负类。上述四个数据集的类别分布均不平衡,正负类样本比例见表1最后一列。
表1数据集介绍
对于本实验中所使用的数据集,我们将其随机划分为两个子集:训练集L和测试集T。为了保证训练集L和测试集T中正负类样本的比例跟原始数据集相同,本实验按以下方式进行划分:首先根据样本的类别将数据集分成正类和负类两个部分;然后分别将这两个部分按7:3的比例随机分成2个子集;最后,将两部分的第1个子集合并得到训练集L,将两部分的第2个子集合并得到测试集T。
在本实验中,我们采用各离群点检测模型在训练集L上检测离群点,剔除离群点后再进行分类模型的训练;最后用训练好的分类模型对测试集T中的样本进行分类,通过剔除离群点前后评价指标的变化程度,来对离群点检测模型性能进行评估。本实验选择BP神经网络作为最后的分类算法,BP神经网络具有很好的非线性映射能力、自学***性,对于本实验所比较的其他五种离群点检测模型,都选择BP神经网络作为基本分类算法。最后,每一种方法的分类结果均是取10次实验结果的平均值,所有实验均是在MATLAB R2014a软件平台上编程实现。
为了评价本发明所涉及的离群点检测模型的性能,首先我们引入混淆矩阵,如表2所示。其中,TP表示实际为正类且预测为正类的样本个数,FN代表实际为正类但预测为负类的样本个数,FP指实际为负类但预测为正类的样本个数,TN则表示实际为负类且预测为负类的样本个数。
表2分类问题混淆矩阵
ACC是指分类模型对数据集中样本类别预测的准确率,即数据集中被正确预测类别标签的样本在整个数据集中所占的比率,其定义如下:
类别分布不平衡的分类问题,除了使用ACC准则以外,还常用ROC曲线来评价学习模型的整体分类性能,ROC曲线是一个真正率-伪正率图,横坐标表示伪正率=FP/(FP+TN)×100%,纵坐标表示真正率=TP/(TP+FN)×100%。但是在很多情况下直接比较不同模型的ROC曲线不方便,因此使用ROC曲线下方的面积,即AUC(area under the ROC curve)值来评价模型的整体性能。
表3给出了GOD模型与其它五种离群点检测模型在四个客户分类数据集上得到的具体ACC值。表中斜体表示在相应的数据集上取得的最大ACC值,表中最后一行还给出了未采用离群点检测算法,直接训练分类模型得到的结果。括号内数值表示与未经过离群点检测训练的分类模型相比,经过离群点检测后分类结果ACC值的变化情况,正数代表ACC值增加,分类模型性能提升,负数代表ACC值降低,分类模型性能下降。分析表3的实验结果,我们可以得到以下结论:
(1)从四个数据集上的ACC提升值来看,大多数数据集在使用了离群点检测模型剔除了离群点后,训练得到的分类模型的总精度都有所提高。分析其原因,可能是因为原始数据集中包含一部分噪声和离群点,从而降低了分类模型的性能。而在离群点检测以后,剔除了一部分噪声样本和离群点,使得分类性能明显提高。
(2)GOD模型在australia、german和churn三个数据集上取得了最大的ACC值,在电信数据集上取得的ACC值仅低于PLDOF模型。这表明,本发明提出的离群点检测方法的性能在整体上要优于其它五种离群点检测模型。
表3不同模型的ACC值比较分析
表4给出了GOD模型以及其它五种离群点检测模型的AUC值。表4与表3类似,根据表4,可以得出以下结论:
(1)GOD模型在四个数据集上都取得了最大的AUC值。这表明,本发明提出的离群点检测方法的性能在整体上要优于其它五种离群点检测模型。
(2)在churn和电信两个数据集上,出现了使用ODC模型、OCS模型和PLDOF模型剔除离群点后,训练得到的分类模型的性能并没有提升,反而出现一定程度下降的情况。这可能是因为这些离群点检测模型在检测离群点时,错误的将一些正常类样本剔除,从而导致剩下的数据集有用样本信息减少,分类算法的分类性能下降。这一结果也进一步表明,本发明提出的离群点检测方法的性能要优于其他模型性能。
表4不同模型的AUC值比较分析
将GOD模型和其他五种离群点检测模型以及未使用离群点检测模型的ACC值和AUC值分别进行配对T检验,以此来判断GOD离群点检测模型与其他离群点检测模型有无统计显著性差异,检验结果见表3和表4。其中,“**”表示在95%的置信度水平上,GOD模型与对应的模型的性能存在统计显著性差异,“*”表示在90%的置信度水平上,GOD模型与对应的模型的性能存在显著性差异。从表3和表4可以看出,只有少数情况,包括在german数据集上,GOD模型和PLDOF模型的ACC值,GOD模型和LOF模型的AUC值,以及在电信数据集上,GOD模型和ODC模型的ACC值之间不存在统计显著性差异。同时,在电信数据集上,PLDOF模型的ACC值在95%的置信度水平上显著优于GOD模型。除此以外的绝大多数情况下,GOD模型的ACC值和AUC都在95%或者90%的置信度水平上显著优于其它模型。这也进一步表明,本发明提出的离群点检测方法的检测效果更好。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.基于GMDH神经元网络的离群点检测方法,其特征在于,包括:
S1.用n个样本构建第一训练集L;
S2.利用GMDH神经元网络找出第一训练集L的关键特征子集;
S3.根据所述关键特征子集映射得到第二训练集L',并根据第二训练集L'建立第一线性回归模型;
S4.将第二训练集L'中的样本i剔除后建立第二线性回归模型,并根据第一线性回归模型和第二线性回归模型计算样本i的库克距离Di
S5.重复步骤S4直到训练集L'中每个样本的库克距离Di都计算得出,然后确定离群点:若Di>4/n,(i=1,2,…,n),则样本i为离群点。
2.根据权利要求1所述的基于GMDH神经元网络的离群点检测方法,其特征在于,所述步骤S2包括:
S21.将第一训练集L分为模型学习集A和模型选择集B;
S22.利用模型学习集A和模型选择集B构建GMDH神经元网络,在模型学习集A上估计中间候选模型的参数,在模型选择集B上评价并选择中间候选模型,然后根据最优复杂度原理找到最优复杂度模型;
S23.记录所述最优复杂度模型中的关键特征子集。
3.根据权利要求2所述的基于GMDH神经元网络的离群点检测方法,其特征在于,所述步骤S22包括:
S221.构建外准则,建立输出和输入变量之间的一般关系:f(x1,x2,…,xp)=a1x1+a2x2+…+apxp,f(x1,x2,…,xp)为输出,ap为系数或权值向量,xp为输入向量,并把它的所有子项作为构建GMDH神经元网络的p个初始模型:v1=a1x1,v2=a2x2,…,vp=apxp
S222.将p个初始模型两两组合生成个第一层中间候选模型,传递函数为w=f(vi,vj);i,j=1,2,…,p,i≠j,其中模型f(vi,vj)中的参数是在模型学习集A上使用最小二乘法估计得到,w是模型f(vi,vj)的估计输出;
S223.在模型选择集B上计算所有第一层中间候选模型的外准则值,根据外准则值由小到大排序,选择最优的Q1个第一层中间候选模型,将选出的第一层中间候选模型进行两两组合生成个第二层中间候选模型,传递函数为z=f(wi,wj);i,j=1,2,…,Q1,i≠j,其中模型f(wi,wj)中的参数是在模型学习集A上使用最小二乘法估计得到,z是模型f(wi,wj)的估计输出;
S224.按照上述方法计算得到第l层中间候选模型,根据最优复杂度原理找到最优复杂度模型,进入最优复杂度模型的自变量就是选出的关键特征,最终选出的关键特征的数量为m。
4.根据权利要求3所述的基于GMDH神经元网络的离群点检测方法,其特征在于,建立第一线性回归模型和第二线性回归模型的方法为最小二乘法。
5.根据权利要求1所述的基于GMDH神经元网络的离群点检测方法,其特征在于,库克距离Di的计算公式为:n为第一训练集L中的样本个数,为第一线性回归模型的预测值,为第二线性回归模型的预测值,m-最终选出的关键特征的数量,-第一线性回归模型的均方误差。
6.基于GMDH神经元网络的离群点检测装置,其特征在于,包括:
样本获取模块,用于获取数据样本集,并将数据样本集划分为第一训练集L和检测集;以及用于根据所述关键特征子集映射得到第二训练集L';
关键特征子集获取模块,用于利用GMDH神经元网络找出训练集L的关键特征子集;
回归模型构建模块,用于根据第二训练集L'建立第一线性回归模型,以及用于将训练集L'中的样本i剔除后建立第二线性回归模型;
库克距离计算模块,用于根据第一线性回归模型和第二线性回归模型计算样本i的库克距离D;
离群点确定模块,判断样本i的库克距离Di,若Di>4/n,(i=1,2,…,n),则样本i为离群点。
7.根据权利要求6所述的基于GMDH神经元网络的离群点检测装置,其特征在于,所述关键特征子集获取模块包括:
分类子模块,用于将第一训练集L分为模型学习集A和模型选择集B;
最优复杂度模型获取子模块,用于利用模型学习集A和模型选择集B构建GMDH神经元网络,在模型学习集A上估计中间候选模型的参数,在模型选择集B上评价并选择中间候选模型,然后根据最优复杂度原理找到最优复杂度模型;
关键特征子集获取子模块,用于记录所述最优复杂度模型中的关键特征子集。
8.根据权利要求7所述的基于GMDH神经元网络的离群点检测装置,其特征在于,所述最优复杂度模型获取子模块的工作过程为:构建外准则,建立输出和输入变量之间的一般关系:f(x1,x2,…,xp)=a1x1+a2x2+…+apxp,f(x1,x2,…,xp)为输出,ap为系数或权值向量,xp为输入向量,并把它的所有子项作为构建GMDH神经元网络的p个初始模型:v1=a1x1,v2=a2x2,…,vp=apxp;将p个初始模型两两组合生成个第一层中间候选模型,传递函数为w=f(vi,vj);i,j=1,2,…,p,i≠j,其中模型f(vi,vj)中的参数是在模型学习集A上使用最小二乘法估计得到,w是模型f(vi,vj)的估计输出;在模型选择集B上计算所有第一层中间候选模型的外准则值,根据外准则值由小到大排序,选择最优的Q1个第一层中间候选模型,将选出的第一层中间候选模型进行两两组合生成个第二层中间候选模型,传递函数为z=f(wi,wj);i,j=1,2,…,Q1,i≠j,其中模型f(wi,wj)中的参数是在模型学习集A上使用最小二乘法估计得到,z是模型f(wi,wj)的估计输出;按照上述方法计算得到第l层中间候选模型,根据最优复杂度原理找到最优复杂度模型,进入最优复杂度模型的自变量就是选出的关键特征,最终选出的关键特征的数量为m。
9.根据权利要求8所述的基于GMDH神经元网络的离群点检测装置,其特征在于,库克距离Di的计算公式为:n为第一训练集L中的样本个数,为第一线性回归模型的预测值,为第二线性回归模型的预测值,m-最终选出的关键特征的数量,-第一线性回归模型的均方误差。
10.根据权利要求6所述的基于GMDH神经元网络的离群点检测装置,其特征在于,建立第一线性回归模型和第二线性回归模型的方法为最小二乘法。
CN201810257847.6A 2018-03-27 2018-03-27 基于gmdh神经元网络的离群点检测方法及装置 Pending CN108229592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810257847.6A CN108229592A (zh) 2018-03-27 2018-03-27 基于gmdh神经元网络的离群点检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810257847.6A CN108229592A (zh) 2018-03-27 2018-03-27 基于gmdh神经元网络的离群点检测方法及装置

Publications (1)

Publication Number Publication Date
CN108229592A true CN108229592A (zh) 2018-06-29

Family

ID=62660035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810257847.6A Pending CN108229592A (zh) 2018-03-27 2018-03-27 基于gmdh神经元网络的离群点检测方法及装置

Country Status (1)

Country Link
CN (1) CN108229592A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299560A (zh) * 2018-10-09 2019-02-01 西安交通大学 一种基于gmdh算法的跨临界co2***最优排气压力特征变量的确定方法
CN111062516A (zh) * 2019-11-20 2020-04-24 广西电网有限责任公司 一种基于gmdh多变量处理的风机出力预测的方法
CN111724203A (zh) * 2020-06-15 2020-09-29 中山世达模型制造有限公司 基于多重回归模型的产品加工价格预估方法及***
CN112419711A (zh) * 2020-10-22 2021-02-26 桂林电子科技大学 基于改进gmdh算法的封闭式停车场停车需求预测方法
CN112434260A (zh) * 2020-10-21 2021-03-02 北京千方科技股份有限公司 一种公路的交通状态检测方法、装置、存储介质及终端
CN112766503A (zh) * 2021-03-10 2021-05-07 电子科技大学 基于关键层回滚机制的卷积神经网络模型容错方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299560A (zh) * 2018-10-09 2019-02-01 西安交通大学 一种基于gmdh算法的跨临界co2***最优排气压力特征变量的确定方法
CN109299560B (zh) * 2018-10-09 2020-10-27 西安交通大学 一种co2***最优排气压力特征变量的确定方法
CN111062516A (zh) * 2019-11-20 2020-04-24 广西电网有限责任公司 一种基于gmdh多变量处理的风机出力预测的方法
CN111724203A (zh) * 2020-06-15 2020-09-29 中山世达模型制造有限公司 基于多重回归模型的产品加工价格预估方法及***
CN111724203B (zh) * 2020-06-15 2024-02-27 中山世达模型制造有限公司 基于多重回归模型的产品加工价格预估方法及***
CN112434260A (zh) * 2020-10-21 2021-03-02 北京千方科技股份有限公司 一种公路的交通状态检测方法、装置、存储介质及终端
CN112419711A (zh) * 2020-10-22 2021-02-26 桂林电子科技大学 基于改进gmdh算法的封闭式停车场停车需求预测方法
CN112766503A (zh) * 2021-03-10 2021-05-07 电子科技大学 基于关键层回滚机制的卷积神经网络模型容错方法
CN112766503B (zh) * 2021-03-10 2022-09-20 电子科技大学 基于关键层回滚机制的卷积神经网络模型容错方法

Similar Documents

Publication Publication Date Title
CN108229592A (zh) 基于gmdh神经元网络的离群点检测方法及装置
CN110287180B (zh) 一种基于深度学习的风控建模方法
CN107424070A (zh) 一种基于机器学习的贷款用户信用评级方法及***
CN111161814A (zh) 一种基于卷积神经网络的DRGs自动分组方法
CN112735097A (zh) 一种区域滑坡预警方法及***
CN109447698A (zh) 一种基于神经网络的推荐算法
CN108647730A (zh) 一种基于历史行为共现的数据划分方法及***
CN116186594B (zh) 基于决策网络结合大数据实现环境变化趋势智能检测方法
CN111104975B (zh) 一种基于广度学习的信用评估方法
CN115983981B (zh) 一种基于金融数据分析的信用风险评估***
CN108154256A (zh) 预测风险值的确定方法及装置、存储介质
CN111709668A (zh) 基于数据挖掘技术的电网设备参数风险识别方法及装置
CN108241867A (zh) 一种分类方法及装置
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定***及方法
CN109858832A (zh) 一种多属性绿色指标分级协调评价方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN107133722A (zh) 基于电力企业大数据技术的配电网差异特征诊断分析方法
CN117235608B (zh) 风险检测方法、装置、电子设备及存储介质
CN113591947A (zh) 基于用电行为的电力数据聚类方法、装置和存储介质
CN109685133A (zh) 基于构建的预测模型低成本、高区分度的数据分类方法
WO2024027487A1 (zh) 基于智能运维场景的健康度评价方法及装置
CN108564009A (zh) 一种基于互信息量的改进特征评价方法
CN116089801A (zh) 一种基于多重置信度的医疗数据缺失值修复的方法
CN108629506A (zh) 风控模型的建模方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629