CN111275288B - 基于XGBoost的多维数据异常检测方法与装置 - Google Patents

基于XGBoost的多维数据异常检测方法与装置 Download PDF

Info

Publication number
CN111275288B
CN111275288B CN201911423436.0A CN201911423436A CN111275288B CN 111275288 B CN111275288 B CN 111275288B CN 201911423436 A CN201911423436 A CN 201911423436A CN 111275288 B CN111275288 B CN 111275288B
Authority
CN
China
Prior art keywords
data
value
xgboost
model
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911423436.0A
Other languages
English (en)
Other versions
CN111275288A (zh
Inventor
葛凌峰
杜彬
田锐
庄浩君
王宝鑫
刘茂明
宋峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huadian International Power Co ltd Technical Service Branch
Huadian Power International Co ltd Shiliquan Power Plant
Original Assignee
Huadian International Power Co ltd Technical Service Branch
Huadian Power International Co ltd Shiliquan Power Plant
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huadian International Power Co ltd Technical Service Branch, Huadian Power International Co ltd Shiliquan Power Plant filed Critical Huadian International Power Co ltd Technical Service Branch
Priority to CN201911423436.0A priority Critical patent/CN111275288B/zh
Publication of CN111275288A publication Critical patent/CN111275288A/zh
Application granted granted Critical
Publication of CN111275288B publication Critical patent/CN111275288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Game Theory and Decision Science (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明属于电厂安全控制***领域,尤其涉及一种基于XGBoost的多维数据异常检测方法与装置。其特征在于:步骤一:数据采集清洗,步骤二:对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;步骤三:特征抽取及降维,步骤四:异常检测模型训练,用XGBoost方法对降维数据进行训练,建立设备异常的预测模型;步骤五:异常在线检测,若超过了给定阀值,那么判定发生异常。本发明适合于处理和预测设备的重要异常事件,充分利用集成学习的思想和技术,有效利用设备传感器检测的多维数据信息中的重要特征,进而实现基于电厂实时测点数据的在线异常检测。本发明采集数据量大,分析误差小,预警结果准确率高。

Description

基于XGBoost的多维数据异常检测方法与装置
技术领域
本发明属于火力发电领域,涉及一种源自传感器测点的多维数据的异常检测方法及装置,具体是一种基于XGBoost的多维数据异常检测方法与装置。
背景技术
随着火电厂信息化建设的快速发展,设备的故障诊断和预测性维护越来越得到人们的重视。火电厂存在了大量大型设备,设备结构复杂且工作环境恶劣,容易引发各类故障,如果不能及时发现并维修,会严重影响到其运行的安全性和可靠性。并且,一旦电厂的关键设备发生故障停机,将影响火电厂***运行稳定,造成巨大的经济损失,甚至影响国民经济的稳定发展,所以对于电厂运行设备的故障研究和预测性维护也就提上了日程。
在当前的异常检测方法中,对于大型电厂设备的异常检测方法通常可以分为两类:机理模型和数理模型。机理模型是指通过基于物理学原理,运用数学方法,建立异常检测诊断的物理学模型,并用该模型计算设备运行过程中的各项指标,并与实测结果进行比对。如果两者之间的差距过大,则认为设备存在异常。机理模型的主要问题在于运用物理学原理建立分析模型时,存在大量的前提假设和简化条件,不适合真实情况下的复杂***。
另一类异常检测技术尝试运用数据分析和机器学习的方法来建立数理模型,自动化、智能化的寻找数据特征与异常模式之间的映射关系,提升异常检测方法的准确性。数理模型的优势在于方法充分挖掘信息本身的数据,最大程度的实现数据驱动,减少人为干预,提升异常预测的准确率。然而,火电厂在运行过程中,设备种类多、结构复杂,随之产生的数据也具有维度高、数量大的特点。对于此,无论是对于机理模型也好还是数理模型也好,均提出了巨大的挑战。
中国专利201410745943.7公开了一种自适应量子神经网络汽轮机故障趋势预测方法。所述方法对传统的三层BP神经网络模型进行改进,引入量子神经网络,在输入层中对不同历史数据进行趋势贡献力分析,加强最新数据对趋势的影响力,增加输入层至输出层的直接连接权,在输出层根据信号特征自适应调整激励函数,以提高收敛速度和预测精度;引入自适应学习效率的方法,以提高收敛速度。该方法具有很好的可靠性和稳健性,是解决汽轮机故障趋势预测的关键技术研究,可以广泛应用在汽轮机故障趋势预测中。其存在的不足是预测误差较大,对后续控制有较大影响。
发明内容
针对现有技术存在的问题,本发明基于火电厂设备的真实多维测点数据,针对当前的设备异常检测方法在应对多维数据时速度慢、准确率低的问题,提出了一种基于XGBoost的多维时序数据异常检测方法与装置。
本发明是这样实现的,一种基于XGBoost的多维数据异常检测方法,其特征在于:包括以下步骤:
步骤一:数据采集清洗,从电厂设备监测软件中获取实时测点数据,随后对原始多维数据进行清洗,去除缺失值和异常值;
步骤二:对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;
步骤三:特征抽取及降维,对标准化处理之后的数据进行特征抽取及降维;主要是计算原始数据的相关性,同时基于主成分分析的方法,对原始数据的特征进行线性变化,将数据从多维度空间映射到低维度空间,减少数据维数;
步骤四:异常检测模型训练,用XGBoost方法对降维数据进行训练,建立设备异常的预测模型;
步骤五:异常在线检测,将需要预测的数据输入到训练后的检测模型,获取模型预测值,将预测值和传感器实测值做差求取绝对值,若绝对值超过了给定阀值,那么判定发生异常。
XGBoost算法是在GBDT的基础上对boosting算法的改进,解决GBDT算法模型难以并行计算问题,实现对模型过拟合问题的有效控制。GBDT是一种迭代的决策树算法,为便于求解目标函数,GBDT常用回归树生长过程错误分类产生的残差平方作为损失函数,即通过拟合残差平方构造损失函数。
XGBoost算法对GBDT的不足进行了改进。XGBoost增加了对树模型复杂度的衡量,在回归树生成过程***节点的选取考虑了损失和模型复杂度两个因素,在权衡模型低损失高复杂和模型低复杂高损失后,求取最优解,防止一味追求降低损失函数产生过拟合现象,且速度快,准确性高,是有效的集成学习算法。
相比于LSTM算法,XGBoost算法并不严格要求数据集在时间戳上有较为完整的连续性。在实际生产运行过程中,工业设备并不总是持续运转的,会根据实际情况有不连续的启停阶段,这就导致传感器测点获取的数据是不连续的(在较长的一段时间内缺失数据或数据值为0)。对于这类数据,训练一个完整的LSTM预测模型是困难的,然而若是分段训练LSTM模型会造成模型较多、管理复杂。然而,XGBoost算法并不要求训练数据在时间戳上是连续的,并且XGBoost算法训练速度更快也更加轻量。
具体优选方案是:
所述的对原始多维数据进行清洗,具体步骤是:
步骤1-1:确定所述原始多维数据中的干扰值,所述干扰值记为xt,并将所述干扰值xt去除;所述干扰值xt去除后,所述原始多维数据的数据序列中存在因所述干扰值xt去除而产生的空白位;
步骤1-2:将所述干扰值xt前一个非干扰值xt-1及所述干扰值后一个非干扰值xt+1加和平均以得到***值x't,并将所述***值x't***至所述空白位;
具体的,所述***值x't的公式为:
所述的统一不同维度数据之间量纲是指,将填充后的数据中的数值统一置于0到1的范围之内,填充后的数据进行归一化处理进行归一化处理的公式为:
其中,x为填充后的数据中需要进行归一化处理的数值,min为填充后的数据中的最小值,max为填充后的数据中的最大值,x*为归一化后的数值。
所述的步骤三,基于主成分分析的特征抽取方法的步骤如下:
步骤3-1:计算相关系数矩阵。输入N个测点的数据{X1,X2,...,XN},依据公式(3)计算每两个测点之间的皮尔逊相关系数,形成相关系数矩阵。其中rij(i,j=1,2,...,n)表示原始向量Xi,Xj关联程度的相关系数;
其中,rij为一维向量Xi和Xj的相关系数,Xik表示一维向量Xi中的第k个元素,Xjk表示一维向量Xj中的第k个元素,表示一维向量Xi的平均值,表示一维向量Xj的平均值,计算公式为:
步骤3-2:计算特征值和特征向量,首先解特征方程|λE-R|=0(其中E是单位向量,R表示相关系数矩阵)求出特征值,并按大小排序,然后分别求出对应特征值λi(1,2,...,n)的特征向量Ui(i=1,2,...,n),依据下面公式计算主成分矩阵Y,
步骤3-3:计算每个特征向量的信息贡献率,计算特征值λi(1,2,...,n)的累计方差贡献率CPV,其公式如下:
所述的步骤四包括以下步骤:
步骤4-1:基于XGBoost算法建立测点值回归模型,基于步骤3的特征抽取结果,使用有监督学习进行模型训练,给定特征抽取后的数据集合:其中/>为一组输入的传感器数据向量,yi为训练时的预测传感器数值标签,训练XGBoost回归模型使得:
其中表示测点预测值,wj表示模型的权重,xij表示输入的样本;
步骤4-2:定义损失函数,XGBoost算法需要对传感器数据进行学习之后进行数值预测进而辅助判断设备的运行状态,其损失函数定义如下所示:
步骤4-3:确定XGBoost集成算法的训练模型,其形式化定义如下:
在公式(9)中,fk代表一棵决策树。
所述的步骤五:异常在线预测,是指基于步骤四训练的XGBoost回归模型M,给定一组输入数据根据模型M输出预测值/>计算出预测值和真实值之间的差值d:
设定一个阈值ε用于判断设备状态,如果d≤ε则认为设备处于正常运行状态,反之则认为设备出现异常,进行预警。
所述的测点数据包括一次风机轴承振动、一次风机电流、磨煤机电流、分离器出口压差、炉膛负压,汽机轴承振动和温度、凝汽器真空度、凝结水泵电流、滤网压差和振动、循环水泵出口压力、主给水出口压力、主给水出口温度、除氧器水位和除氧器温度。
一种安装基于XGBoost的多维数据异常检测方法的装置,其特征在于,包括电气连接的存储有以上方法实现程序的存储器、处理器、I/O设备和报警装置,I/O设备连接安装电厂监测软件的计算机和/或网络,访问并且取得实时测点数据。
所述的处理器通过无线传输连接手持用户端。
本发明的优点及积极效果为:
相比于LSTM等机器学习方法,本发明适合于处理和预测时间序列中时间不连续的、或是中间间隔和延迟相对较长的时间序列数据,适用于通过对时间序列的分析拟合来进行异常的检测和判定。本发明充分利用集成学习的思想和技术,有效利用设备传感器检测的多维数据信息中的重要特征,进而实现基于电厂实时测点数据的在线异常检测。本发明采集数据量大,训练速度快,分析误差小,预警结果准确率高。
附图说明
图1是本发明的流程方框图;
图2是本发明实施例的某大型设备排气温度测点的异常检测效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
实施例1:
如图1所示,基于XGBoost的多维数据异常检测方法,包括:
步骤1:数据采集清洗。原始多维数据多源自火电厂设备传感器的实时采集数据,由于传感器长期使用的劣化问题或是数据在传输过程中噪声的影响,有可能在所述原始数据中可能存在一些明显处于所述传感器测量范围之外的数值或者是直接实现为0或者空值。这样的数据(本实施例中称为干扰值)并不能说明设备的运行处于异常状态,而将这样的数据输入到异常检测***进行异常检测时,往往会带来错报的结果。所以,在得到所述原始数据之后,需要对所述原始数据进行预处理以去除这些干扰值。
1-1:确定所述原始多维数据中的干扰值,所述干扰值记为xt,并将所述干扰值xt去除;所述干扰值xt去除后,所述原始多维数据的数据序列中存在因所述干扰值xt去除而产生的空白位;
1-2:将所述干扰值xt前一个非干扰值xt-1及所述干扰值后一个非干扰值xt+1加和平均以得到***值x't,并将所述***值x't***至所述空白位。
具体的,所述***值x't的公式为:
测点数据包括一次风机轴承振动、一次风机电流、磨煤机电流、分离器出口压差、炉膛负压,汽机轴承振动和温度、凝汽器真空度、凝结水泵电流、滤网压差和振动、循环水泵出口压力、主给水出口压力、主给水出口温度、除氧器水位和除氧器温度。
步骤2:标准化处理。将所述原始多维数据中的所述干扰值去除后,所述原始数据中的数值之间的差距会非常大,所以需要对填充后的数据进行归一化处理,以使得填充后的数据中所有数值的值域处于相同的范围;优选地,本实施例中,选择将填充后的数据中的数值统一置于0到1的范围之内。
作为示例,对填充后的数据进行归一化处理进行归一化处理的公式为:
其中,x为填充后的数据中需要进行归一化处理的数值,min为填充后的数据中的最小值,max为填充后的数据中的最大值,x*为归一化后的数值。
步骤3:特征抽取与降维。计算原始数据的相关性,同时基于主成分分析的方法,对原始数据的特征进行线性变化,从原始数据中抽取出主要特征。在研究面向多变量的统计分析问题时,变量越多,计算量和增加分析问题的复杂性就越大。因此,人们希望在进行定量分析的过程中,发现并抽取出关键变量。涉及的变量较少,但是包含的信息量足够多。主成分分析利用降维的思想,通过构造原始指标的适当线性组合,产生一系列互不线性相关的综合性指标,从中选出少数几个新的综合指标,并且使它们尽可能多地含有原始指标所含有的信息,即用较少的指标去解释原来资料的信息。具体实现方法是通过一系列的数学变换,将给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。基于主成分分析的特征抽取方法的步骤如下:
步骤3-1:计算相关系数矩阵。输入N个测点的数据{X1,X2,...,XN},依据公式(3)计算每两个测点之间的皮尔逊相关系数,形成相关系数矩阵。其中rij(i,j=1,2,...,n)表示原始向量Xi,Xj关联程度的相关系数。
其中,rij为一维向量Xi和Xj的相关系数,Xik表示一维向量Xi中的第k个元素,Xjk表示一维向量Xj中的第k个元素,表示一维向量Xi的平均值,表示一维向量Xj的平均值,计算公式为:
步骤3-2:计算特征值和特征向量。首先解特征方程|λE-R|=0(其中E是单位向量,R表示相关系数矩阵)求出特征值,并按大小排序,然后分别求出对应特征值λi(1,2,...,n)的特征向量Ui(i=1,2,...,n)。依据下面公式计算主成分矩阵Y。
步骤3-3:计算每个特征向量的信息贡献率,计算特征值λi(1,2,...,n)的累计方差贡献率CPV(cumulative percent variance),其公式如下:
步骤4:基训练于XGBoost算法训练异常检测模型。基于前面步骤抽取的特征,训练基于XGBoost算法的异常检测模型。
步骤4-1:基于XGBoost算法建立测点值回归模型。基于步骤3的特征抽取结果,使用有监督学习进行模型训练。给定特征抽取后的数据集合:其中/>为一组输入的传感器数据向量,yi为训练时的预测传感器数值标签。训练XGBoost回归模型使得:
其中表示测点预测值,wj表示模型的权重,xij表示输入的样本。
步骤4-2:定义损失函数。XGBoost算法需要对传感器数据进行学习之后进行数值预测进而辅助判断设备的运行状态,其损失函数定义如下所示:
步骤4-3:确定XGBoost集成算法的训练模型,其形式化定义如下:
在公式(9)中,fk代表一棵决策树。在基于XGBoost算法的模型训练过程中,每棵决策树是一个一个往里面加的,每加一个都希望能够带来效果的提升。回归模型的训练过程就是树不断添加的过程。一开始树是0,然后往里面加树,相当于多了一个函数,再加第二棵树,相当于又多了一个函数...等等,这里需要保证加入新的函数能够提升整体对表达效果。提升表达效果的意思就是说加上新的树之后,目标函数(就是损失)的值会下降。
步骤5:异常在线预测。基于第4步训练的XGBoost回归模型M,给定一组输入数据根据模型M输出预测值/>计算出预测值和真实值之间的差值d:
设定一个阈值ε用于判断设备状态,如果d≤ε则认为设备处于正常运行状态,反之则认为设备出现异常,进行预警。
如图2展示了某大型设备排气温度测点的异常检测效果。纵轴单位为摄氏度,横轴为采样点。如圆圈标记所示,实线线条代表模型预测值,虚线线条代表实测值。从图中可以看出,模型预测值和实测值之间存在着比较大的偏差,可认为设备在此处发生异常,从而进行预警。
实施例2:
一种安装上述方法的检测装置,包括电气连接的存储有以上方法实现程序的存储器、处理器、I/O设备和报警装置,I/O设备连接安装电厂的监测软件的计算机和/或网络,访问并且取得实时测点数据。
处理器通过无线传输连接手持用户端。通过手持设备远距离监控预警。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于XGBoost的多维数据异常检测方法,其特征在于:包括以下步骤:
步骤一:数据采集清洗,从电厂设备监测软件中获取实时测点数据,随后对原始多维数据进行清洗,去除缺失值和异常值;对原始多维数据进行清洗,具体步骤是:
步骤1-1:确定所述原始多维数据中的干扰值,所述干扰值记为xt,并将所述干扰值xt去除;所述干扰值xt去除后,所述原始多维数据的数据序列中存在因所述干扰值xt去除而产生的空白位;
步骤1-2:将所述干扰值xt前一个非干扰值xt-1及所述干扰值后一个非干扰值xt+1加和平均以得到***值x't,并将所述***值x't***至所述空白位;
具体的,所述***值x't的公式为:
步骤二:对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;所述的统一不同维度数据之间量纲是指,将填充后的数据中的数值统一置于0到1的范围之内,填充后的数据进行归一化处理进行归一化处理的公式为:
其中,x为填充后的数据中需要进行归一化处理的数值,min为填充后的数据中的最小值,max为填充后的数据中的最大值,x*为归一化后的数值;
步骤三:特征抽取及降维,对标准化处理之后的数据进行特征抽取及降维;主要是计算原始数据的相关性,同时基于主成分分析的方法,对原始数据的特征进行线性变化,将数据从多维度空间映射到低维度空间,减少数据维数;
所述的步骤三,基于主成分分析的特征抽取方法的步骤如下:
步骤3-1:计算相关系数矩阵;输入N个测点的数据{X1,X2,...,XN},依据公式(3)计算每两个测点之间的皮尔逊相关系数,形成相关系数矩阵,其中rij(i,j=1,2,...,n)表示原始向量Xi,Xj关联程度的相关系数;
其中,rij为一维向量Xi和Xj的相关系数,Xik表示一维向量Xi中的第k个元素,Xjk表示一维向量Xj中的第k个元素,表示一维向量Xi的平均值,表示一维向量Xj的平均值,计算公式为:
步骤3-2:计算特征值和特征向量,首先解特征方程|λE-R|=0(其中E是单位向量,R表示相关系数矩阵)求出特征值,并按大小排序,然后分别求出对应特征值λi(i=1,2,...,n)的特征向量Ui(i=1,2,...,n),依据下面公式计算主成分矩阵Y,
步骤3-3:计算每个特征向量的信息贡献率,计算特征值λi(i=1,2,...,n)的累计方差贡献率CPV,其公式如下:
步骤四:异常检测模型训练,用XGBoost方法对降维数据进行训练,建立设备异常的预测模型;所述的步骤四包括以下步骤:
步骤4-1:基于XGBoost算法建立测点值回归模型,基于步骤3的特征抽取结果,使用有监督学习进行模型训练,给定特征抽取后的数据集合:其中/>为一组输入的传感器数据向量,yi为训练时的预测传感器数值标签,训练XGBoost回归模型使得:
其中表示测点预测值,wj表示模型的权重,xij表示输入的样本;
步骤4-2:定义损失函数,XGBoost算法需要对传感器数据进行学习之后进行数值预测进而辅助判断设备的运行状态,其损失函数定义如下所示:
步骤4-3:确定XGBoost集成算法的训练模型,其形式化定义如下:
在公式(9)中,fk代表一棵决策树;
步骤五:异常在线检测,将需要预测的数据输入到训练后的检测模型,获取模型预测值,将预测值和传感器实测值做差求取绝对值,若绝对值超过了给定阀值,那么判定发生异常。
2.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的步骤五:异常在线预测,是指基于步骤四训练的XGBoost回归模型M,给定一组输入数据根据模型M输出预测值/>计算出预测值和真实值之间的差值d:
设定一个阈值ε用于判断设备状态,如果d≤ε则认为设备处于正常运行状态,反之则认为设备出现异常,进行预警。
3.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的测点数据包括一次风机轴承振动、一次风机电流、磨煤机电流、分离器出口压差、炉膛负压,汽机轴承振动和温度、凝汽器真空度、凝结水泵电流、滤网压差和振动、循环水泵出口压力、主给水出口压力、主给水出口温度、除氧器水位和除氧器温度。
4.一种安装有权利要求1-3任一所述基于XGBoost的多维数据异常检测方法的装置,其特征在于,包括电气连接的存储有以上方法实现程序的存储器、处理器、I/O设备和报警装置,I/O设备连接安装电厂监测软件的计算机和/或网络,访问并且取得实时测点数据。
5.根据权利要求4所述的基于XGBoost的多维数据异常检测装置,其特征在于,所述的处理器通过无线传输连接手持用户端。
CN201911423436.0A 2019-12-31 2019-12-31 基于XGBoost的多维数据异常检测方法与装置 Active CN111275288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911423436.0A CN111275288B (zh) 2019-12-31 2019-12-31 基于XGBoost的多维数据异常检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911423436.0A CN111275288B (zh) 2019-12-31 2019-12-31 基于XGBoost的多维数据异常检测方法与装置

Publications (2)

Publication Number Publication Date
CN111275288A CN111275288A (zh) 2020-06-12
CN111275288B true CN111275288B (zh) 2023-12-26

Family

ID=70998788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911423436.0A Active CN111275288B (zh) 2019-12-31 2019-12-31 基于XGBoost的多维数据异常检测方法与装置

Country Status (1)

Country Link
CN (1) CN111275288B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111780910A (zh) * 2020-06-28 2020-10-16 缪新建 一种风力涡轮机螺栓紧固件压力检测装置及异常检测方法
CN112559803A (zh) * 2020-07-08 2021-03-26 北京德风新征程科技有限公司 一种基于迭代的数据异常检测方法和检测***
CN111708678A (zh) * 2020-08-18 2020-09-25 北京志翔科技股份有限公司 一种异常监测方法及装置
CN112148723B (zh) * 2020-10-15 2022-02-18 珠海大横琴科技发展有限公司 一种基于电子围网的异常数据优化方法、装置及电子设备
CN112485597A (zh) * 2020-12-01 2021-03-12 国家电网公司华中分部 基于多源数据的电力***输电线路故障诊断方法及***
US20220198264A1 (en) * 2020-12-23 2022-06-23 Microsoft Technology Licensing, Llc Time series anomaly ranking
CN112668200B (zh) * 2021-01-06 2023-08-29 西安理工大学 一种特种设备安全性分析的方法及***
CN112633781B (zh) * 2021-03-08 2021-06-08 江苏海平面数据科技有限公司 一种基于车联网大数据的车辆能耗评价方法
CN113221453A (zh) * 2021-04-30 2021-08-06 华风数据(深圳)有限公司 风电机组齿轮箱输出轴故障监测预警方法
CN113806351B (zh) * 2021-11-19 2022-04-19 国能信控互联技术有限公司 一种火电机组发电数据异常值处理方法及装置
CN114253242B (zh) * 2021-12-21 2023-12-26 上海纽酷信息科技有限公司 一种基于vpn的物联网云端设备数据采集***
CN114754973A (zh) * 2022-05-23 2022-07-15 中国航空工业集团公司哈尔滨空气动力研究所 基于机器学习的风洞测力试验数据智能诊断与分析方法
CN114692515B (zh) * 2022-06-01 2022-09-02 中材邦业(杭州)智能技术有限公司 一种基于时间滞后xgboost模型的熟料游离钙含量软测量方法
CN115438035B (zh) * 2022-10-27 2023-04-07 江西师范大学 一种基于kpca和混合相似度的数据异常处理方法
CN115825755B (zh) * 2022-12-30 2023-09-19 哈尔滨昆宇新能源有限公司 一种储能电池电芯电压一致性评估方法
CN117911009B (zh) * 2024-03-19 2024-06-11 江苏金恒信息科技股份有限公司 一种基于XGBoost算法的设备故障预警方法及***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334380A (ja) * 2003-05-02 2004-11-25 Yasuhiro Tanaka 著作物管理方法。
JP2011059015A (ja) * 2009-09-11 2011-03-24 Toshiba Corp 干渉波検出装置及び干渉波検出方法
WO2015176565A1 (zh) * 2014-05-22 2015-11-26 袁志贤 一种基于多维时间序列的电气设备故障预测方法
CN106127546A (zh) * 2016-06-20 2016-11-16 重庆房慧科技有限公司 一种基于智慧社区大数据的商品推荐方法
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
CN108564286A (zh) * 2018-04-19 2018-09-21 天合泽泰(厦门)征信服务有限公司 一种基于大数据征信的人工智能金融风控授信评定方法和***
CN109239021A (zh) * 2018-11-07 2019-01-18 河南农业大学 一种非扫描聚焦式光学表面等离子共振检测装置
CN109299156A (zh) * 2018-08-21 2019-02-01 平安科技(深圳)有限公司 电子装置、基于XGBoost的电力数据异常预测方法及存储介质
CN110324316A (zh) * 2019-05-31 2019-10-11 河南恩湃高科集团有限公司 一种基于多种机器学习算法的工控异常行为检测方法
CN110399935A (zh) * 2019-08-02 2019-11-01 哈工大机器人(合肥)国际创新研究院 基于孤立森林机器学习的机器人实时异常监测方法及***
CN110441065A (zh) * 2019-07-04 2019-11-12 杭州华电江东热电有限公司 基于lstm的燃气轮机在线检测方法与装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334380A (ja) * 2003-05-02 2004-11-25 Yasuhiro Tanaka 著作物管理方法。
JP2011059015A (ja) * 2009-09-11 2011-03-24 Toshiba Corp 干渉波検出装置及び干渉波検出方法
WO2015176565A1 (zh) * 2014-05-22 2015-11-26 袁志贤 一种基于多维时间序列的电气设备故障预测方法
CN106127546A (zh) * 2016-06-20 2016-11-16 重庆房慧科技有限公司 一种基于智慧社区大数据的商品推荐方法
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
CN108564286A (zh) * 2018-04-19 2018-09-21 天合泽泰(厦门)征信服务有限公司 一种基于大数据征信的人工智能金融风控授信评定方法和***
CN109299156A (zh) * 2018-08-21 2019-02-01 平安科技(深圳)有限公司 电子装置、基于XGBoost的电力数据异常预测方法及存储介质
CN109239021A (zh) * 2018-11-07 2019-01-18 河南农业大学 一种非扫描聚焦式光学表面等离子共振检测装置
CN110324316A (zh) * 2019-05-31 2019-10-11 河南恩湃高科集团有限公司 一种基于多种机器学习算法的工控异常行为检测方法
CN110441065A (zh) * 2019-07-04 2019-11-12 杭州华电江东热电有限公司 基于lstm的燃气轮机在线检测方法与装置
CN110399935A (zh) * 2019-08-02 2019-11-01 哈工大机器人(合肥)国际创新研究院 基于孤立森林机器学习的机器人实时异常监测方法及***

Also Published As

Publication number Publication date
CN111275288A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111275288B (zh) 基于XGBoost的多维数据异常检测方法与装置
CN106682814B (zh) 一种基于故障知识库的风电机组故障智能诊断方法
CN110441065B (zh) 基于lstm的燃气轮机在线检测方法与装置
CN109146246B (zh) 一种基于自动编码器和贝叶斯网络的故障检测方法
CN113255848B (zh) 基于大数据学习的水轮机空化声信号辨识方法
CN110685868A (zh) 一种基于改进梯度提升机的风电机组故障检测方法及装置
CN111080074B (zh) 基于网络多特征关联的***服役安全态势要素获取方法
CN113107626B (zh) 一种基于多变量lstm的联合循环发电机组负荷预测方法
Xu et al. Quantile regression neural network‐based fault detection scheme for wind turbines with application to monitoring a bearing
CN112784920B (zh) 云边端协同的旋转部件对抗域自适应故障诊断方法
CN111103137A (zh) 基于深度神经网络的风力涡轮机齿轮箱故障诊断方法
CN117290800A (zh) 一种基于超图注意力网络的时序异常检测方法及***
Li et al. A novel adaptive STFT-SFA based fault detection method for nonstationary processes
CN112696481A (zh) 风电机组齿轮箱轴温异常智能诊断方法及装置
CN115717590B (zh) 一种压缩机智能异常检测方法及相关装置
CN116664098A (zh) 一种光伏电站的异常检测方法及***
Jia et al. Bearing fault diagnosis method based on CNN-LightGBM
CN112598057B (zh) 一种基于feknn策略的燃煤电厂锅炉故障诊断方法
CN112269778B (zh) 一种设备故障诊断方法
Liu et al. Bearing fault diagnosis analysis based on improved adaptive search algorithms and SVMs
Zhao et al. Fault Diagnosis of Rolling Bearings based on GA-SVM model
Xiong et al. Gas data anomaly detection based on time-series ARIMA model
CN118016202B (zh) 一种基于汽水质量的化学设备运行分析方法及***
CN114004360B (zh) 基于模糊专家模型的智能装备诊断设备和方法
CN113792610B (zh) 一种谐波减速器健康评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant