CN111144472A

CN111144472A - 基于gbdt算法的攻击识别方法及光伏并网接口装置

Info

Publication number: CN111144472A
Application number: CN201911342894.1A
Authority: CN
Inventors: 吴海涛; 徐成斌; 贺生国; 代尚林; 陈锐; 乔中伟; 李伟华; 梁洪浩; 陈远生; 占捷文; 王乾刚; 朱小帆; 丁凯; 黄植炜; 肖声远; 何鸿雁; 习伟; 匡晓云; 于杨; 姚浩
Original assignee: CSG Electric Power Research Institute; Shenzhen Power Supply Bureau Co Ltd; CYG Sunri Co Ltd
Current assignee: CSG Electric Power Research Institute; Shenzhen Power Supply Bureau Co Ltd; CYG Sunri Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-12

Abstract

本发明提供了一种基于GBDT算法的攻击识别方法，包括获取光伏并网接口装置的信息数据流；对信息数据流进行预处理；将进行预处理后的信息数据流采用GBDT模型进行分类，输出分类结果，所述分类包括正常类以及恶意攻击类；当分类结果中存在攻击类时，则根据攻击类中数据的归类发出相应的报警提示以及生成日志记录进行保存同时还对信息数据流进行拦截；当分类结果均为正常类时，则对信息数据流进行转发。本发明还公开了一种光伏并网接口装置。与现有技术相比，保证光伏发电***的安全可靠运行。

Description

基于GBDT算法的攻击识别方法及光伏并网接口装置

技术领域

本发明涉及一种电网***，特别涉及一种基于GBDT算法的攻击识别方法及光伏并网接口装置。

背景技术

分布式发电***能够满足人们对电力***供电可靠性、安全性以及高容量的需求。在分布式发电***中，光伏发电因其可再生、无污染、利用灵活以及安全可靠等特点，在近些年来得到了快速的发展，许多国家已将光伏发电技术作为可持续发展战略中的重要研究内容。

光伏发电单元具有规模小、数量多、光照不稳定性以及间歇性等特点，其对于供电***而言是一个不可控因素。光伏并网接口装置作为光伏发电中的重要设备，其能实现对光伏发电单元的切入切出控制、对光伏发电单元的运行状态信息采集以及构成光伏发电单元与站内运行监测***等上层控制器之间的通信桥梁。

光伏并网接口装置内集成了测量、保护、监测等基础功能模块。然而，这些基础功能并未体现光伏并网接口装置的通信中心的地位。光伏并网接口装置对下需要与各光伏发电单元交互信息，对上需要与本地光伏监测***以及上层调控主站通信。这些交互的信息关系到光伏发电站甚至整个电网的安全稳定运行。然而，现阶段光伏并网接口装置的信息安全管理机制不够完善，也不具备容侵容错的功能，因此，及时检测光伏并网接口装置的运行状态，以使得其接收和发送的数据正常，从而保证光伏发电站以及整个电网的稳定运行。

然而，站内光伏监控***容易受到光伏并网接口装置输出状态的威胁，***管理员根据站内光伏监测***中获得的光伏发电***的各项实时数据，通过采集到的值进行光伏发电***的运行状态估计以及根据估计值来评估***当前状态，并做出相应的决策和下达相应的指令来控制整个光伏发电***的稳定运行。然而，如果光伏并网接口装置受到了恶意数据攻击，或者攻击者成功篡改了光伏并网接口装置的输出状态值，使得站内光伏监控***得到一个错误的光伏发电***状态估计，进而导致管理员做出错误的决策，危及整个光伏发电***的安全稳定运行。

因此，传统光伏并网接口装置存在安全漏洞：1、传统光伏并网接口装置内置的状态监控模块局限于对并网开关跳合位情况、PT(电压互感器)或CT(电流互感器)断线情况、功率和电流越限等情况进行监视，并未考虑对恶意数据攻击情况进行监视；2、传统光伏并网接口装置缺少主动攻击识别模块，不能应对信息入侵的快速性，以及通信的延时性。因而，当光伏并网接口装置的异常状态信息上传至站内光伏监控***时，攻击者已对光伏并网接口装置进行更深层的攻击，或已经逐步入侵上层***，危及整个光伏发电***的安全稳定运行。。

发明内容

本发明的目的在于提供一种基于GBDT算法的攻击识别方法及光伏并网接口装置，要解决的技术问题是提高光伏发电***的信息安全性以及运行可靠性。

为解决上述问题，本发明采用以下技术方案实现：一种基于GBDT算法的攻击识别方法，包括如下步骤：

步骤一、获取光伏并网接口装置的信息数据流；

步骤二、对信息数据流进行预处理；

步骤三、将进行预处理后的信息数据流采用GBDT模型进行分类，输出分类结果，所述分类包括正常类以及恶意攻击类；

步骤四、当分类结果中存在攻击类时，则根据攻击类中数据的归类发出相应的报警提示以及生成日志记录进行保存同时还对信息数据流进行拦截；当分类结果均为正常类时，则对信息数据流进行转发。

进一步地，所述步骤四还包括将分类结果、报警提示和/或日志记录发送至上层。

进一步地，所述预处理包括特征提取、数值化以及归一化处理。

进一步地，所述步骤三将进行预处理后的信息数据流采用GBDT模型进行检测前，先对GBDT模型进行分类训练，得到已训练好的GBDT分类模型，模型训练包括如下步骤：

一、建立样本集，所述样本集包括正样本以及负样本，所以正样本为正常的信息数据流，负样本为受到恶意攻击的信息数据流，所述恶意攻击包括Dos攻击，未授权访问攻击、接口端非正常探测、木马病毒攻击，运行状态、气象等消息伪造或篡改等攻击类型的数据流；

二、输入给定的训练集T＝{(x₁,y₁)，(x₂,y₂)，…，(x_n,y_n)}；迭代次数M；一个可微的损失函数

表示样本x是否属于第k类，1代表是，0代表否；p_k(x)表示样本x属于第k类的概率；x_i(i＝1，2，…，n)为输入样本，y_i(i＝1，2，…，n)为输入样本x_i对应的输出值，也即分类标签(表明该样本是正常或何种攻击类型的标签)；f_k(x)为弱学习器，k＝1,2,...,K，K表示共有分类的类别的总数：正常类，Dos攻击，未授权访问攻击，接口端非正常探测，木马病毒攻击，消息篡改攻击；

(1)根据样本集(含正负样本)中设定的标签值y_i，对弱学习器模型进行初始化：f_k(x)＝0，k＝1,2,...,K(K为分类数，K＝6)；

(2)设置迭代次数m＝1,2，…，M：

(2.1)计算样本点属于每个类别的概率：

其中，exp(f_k(x))表示对f_k(x)求指数；K为分类数目；

(2.2)对于每一个分类类型k＝1,2,...,K：

(2.2.1)计算残差：

r_ki＝y_ki-P_k(x_i)，

其中，i＝1，2，…，n为样本数；y_ki为第i个样本对应的第k类取值；P_k(x_i)为样本x_i属于k类的概率；

(2.2.2)以概率伪残差{(x₁,r_k1)，……，(x_n,r_kn)}重新训练拟合一个分类树；

(2.2.3)计算乘子：

其中，K为类别数；c_mkj为m次迭代、第k类生成的树的叶子节点乘子；R_mkj为m次迭代、第k类生成的树的叶子节点区域，j＝1,2，…，J为叶子节点数；m＝1,2，…，M为迭代次数；x_i(i＝1，2，…，n)为输入样本；r_ki为第i个样本第k类伪残差；

(2.2.4)通过以下计算公式更新学习器：

其中，f_k,m(x)为样本x的m次迭代、第k类得到的学习器；f_k,m-1(x)为样本x的m-1次迭代、第k类得到的学习器；I为叶子特征的集合；R_mkj为m次迭代、第k类生成的树的叶子节点区域，j＝1,2，…，J为叶子节点数；

(3)输出强分类器F_Mk(x)：

其中，F_Mk(x)为样本x的M次迭代、第k类得到的强分类器；c_mkj为m次迭代、第k类生成的树的叶子节点乘子；R_mkj为m次迭代、第k类生成的树的叶子节点区域，j＝1,2，…，J为叶子节点数；m＝1,2，…，M为迭代次数；I为叶子特征的集合；

最后得到的F_Mk(x)用来得到第k类的相应的概率P_Mk(x)：

将概率转换为类别：

其中

为最终的输出类别，c(k,k')表示当真实值为k'时，预测为第k类时的联合代价，即概率最大的类别即为预测的类别，最终得到已训练好的GBDT模型。

本发明还提供了一种光伏并网接口装置，包括主控制模块、显示模块、输入输出模块、交流采集模块、通信模块、电源模块以及攻击检测模块，所述主控制模块分别与显示模块、输出模块、通信模块、存储模块、电源模块以及攻击检测模块连接，攻击检测模块还与通信模块、电源模块、交流采集模块以及输入模块连接，其中：

主控制模块用于经通信模块与上层以及下层连接通信，并接收攻击检测模块发送的信息数据流、分类结果、报警提示后发送至显示模块进行显示；同时还接收攻击检测模块发送的报警提示、日志记录、分类结果，并通过通信模块向上层发送攻击报警信息；

显示模块用于显示信息以及报警提示并输出显示；

存储模块用于存储；

输出模块用于输出控制公共连接点开关、光伏发电***内负载投切开关、断路器开关等指令信号；

输入模块用于接收公共连接点开关、微网内负载投切开关、断路器开关等的分合闸状态信息；

交流采集模块用于用于采集公共连接点的电压、电流等模拟量，以及微网内的微源、负载模拟量，并将采集的模拟量转换成能直接参与计算的数字量；

通信模块用于和下层以及上层交互数据；

电源模块用于为各模块提供工作电源；

攻击检测模块用于对开入模块、交流采集模块以及来、主控制模块以及通信模块发送来的信息数据所构成的信息数据流进行预处理后，采用GBDT模型进行分类，输出分类结果，所述分类包括正常类以及恶意攻击类，并判断分类结果是否存在网络攻击类，当分类结果中存在攻击类时，则根据恶意攻击类中数据的归类向主控制器发出相应的报警提示同时生成日志记录后联通分类结果发送至主控制器，攻击检测模块还对该信息数据流进行拦截；当分类结果均为正常类时，则将信息数据流发送至主控制模块，主控制模块对信息数据流通过通信模块发送至上层。

进一步地，所述主控制器还用于将分类结果、报警提示和/或日志记录通过通信模块上送至上层。

进一步地，所述主控制器还将分类结果、报警提示、日志记录发送至存储模块进行存储。

进一步地，所述攻击检测模块采用GBDT模型进行分类前，先对GBDT模型进行分类训练，得到已训练好的GBDT分类模型，模型训练包括如下步骤：

(2)设置迭代次数m＝1,2，…，M：

(2.1)计算样本点属于每个类别的概率：

其中，exp(f_k(x))表示对f_k(x)求指数；K为分类数目；

(2.2)对于每一个分类类型k＝1,2,...,K：

(2.2.1)计算残差：

r_ki＝y_ki-P_k(x_i)，

(2.2.3)计算乘子：

(2.2.4)通过以下计算公式更新学习器：

(3)输出强分类器F_Mk(x)：

最后得到的F_Mk(x)用来得到第k类的相应的概率P_Mk(x)：

将概率转换为类别：

其中

本发明与现有技术相比，采用基于GBDT算法对光伏并网接口装置获取的数据流进行实时检测分类，对数据流中受到恶意攻击的异常数据进行攻击分类，得到分类结果，根据分类结果发出报警提示以及生成相依的日志记录；对数据流中未受到网络攻击的正常数据向上层或下层进行转发，避免攻击者通过光伏并网接口装置存在的安全漏洞进一步入侵上层，从而保证光伏发电***的安全可靠运行。

附图说明

图1是现有技术中光伏发电***结构图。

图2是本发明的流程图。

图3是本发明中GBDT算法模型的原理图。

图4是本发明光伏并网接口装置的结构框图。

图5是本发明具体示例示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

如图1所示，为现有技术光伏发电***的结构图，图中虚线为通信线，实现为电力线，带箭头的实线为信息采集，圆环和双环分别标示电流、电压互感器，从图中可以看出光伏并网接口装置通过通讯线分别于站内光伏监控***、其他智能设备、环境检测仪表、负荷、逆变器进行连接，逆变器分别与380V电力线连接以及与光伏阵列连接，光伏并网接口装置还与公共连接点连接以及经调度数据网与调控主站连接，光伏并网接口装置采集公共连接点的电压、电流电气量，接收来自各个逆变器的控制器、负荷功率等信息，接收来自环境监测仪的环境气象数据以及其他智能设备的其他数据，并与站内光伏监控***、远程与调度主站通信。传统光伏并网接口装置的状态以及***内各逆变器和其他智能设备的运行状态，通过站内光伏监控***进行统一监视。

如图2所示，本发明公开了一种基于梯度提升树(GBDT)算法的攻击识别方法，包括如下步骤：

步骤一、获取光伏并网接口装置的信息数据流，所述信息数据流包括公共连接点的电压、电流、频率、有功功率、无功功率以及功率因素数据，遥信、遥测、用电量等数据，遥控分合闸、遥调、启停等命令，光伏发电单元的输出功率、负荷功率、环境气象(温度、光强、)数据等；

步骤二、对信息数据流进行预处理，所述预处理包括特征提取、数值化以及归一化处理；

所述特征提取即提取出最能表征光伏并网接口装置运行状态的特征，比如某一智能设备发送到光伏并网接口装置的请求、指令的次数，或者某一设备发送到光伏并网接口装置的数据错误次数，某一设备在不同通信协议下给光伏并网接口装置发送数据的次数等。通过提取最能表征光伏并网接口装置运行状态的特征，可以降低神经网络模型训练的复杂度、提高模型检测的准确性。

实际获取的数据中既有数值型的变量又有字符型(比如通信协议类型)的变量，因此需要对字符型变量进行数值化处理。

数值化处理之后的数据，各特征之间的数值存在很大的差异，使得容易出现大的特征掩盖小的特征的现象，不利于神经网络训练的快速性和准确性，因而需要对特征进行归一化处理，将其映射至[0，1]区间内，其归一化公式为：

y＝(x-min)/(max-min)；

其中x、y分别为归一化前后的特征数值，max、min分别为每一个特征的最大值、最小值；

步骤三、将进行预处理后的信息数据流采用GBDT模型进行分类，输出分类结果，所述分类包括正常类以及恶意攻击类，所述恶意攻击类包括Dos攻击，未授权访问攻击、接口端非正常探测、木马病毒攻击，运行状态、气象等消息伪造或篡改等攻击类型，所述分类结果为信息数据流中各数据的归类情况。

所述报警提示为通过显示器显示恶意攻击的类型或通过指示灯显示，当为指示灯则不同颜色的光源对应不同的恶意攻击类型。

所述日志记录包括攻击时间、攻击持续时间、攻击方式、攻击对应的传输协议类型、错误数据分段、错误数据的起止地址信息(即源设备和目标设备地址信息)等。

所述步骤四还包括将分类结果、报警提示和/或日志记录发送至上层(站内光伏监控***、调控主站)，以让上层控制器知道光伏并网接口装置的运行状态，便于下发正确的指令以及让***管理员(通过指示灯或显示器)收到报警信息之后首先要做的就是处理攻击。

在步骤三将进行预处理后的信息数据流采用GBDT模型进行检测前，先对GBDT模型进行分类训练，得到已训练好的GBDT分类模型，如图3所示，模型训练包括如下步骤：

表示样本x是否属于第k类，1代表是，0代表否；p_k(x)表示样本x属于第k类的概率；x_i(i＝1，2，…，n)为输入样本，y_i(i＝1，2，…，n)为输入样本x_i对应的输出值，也即分类标签(表明该样本是正常或何种攻击类型的标签)；f_k(x)为弱学习器，k＝1,2,...,K，k表示分类的类别，K表示分类的类别的总数：K＝6，包括正常类，Dos攻击，未授权访问攻击，接口端非正常探测，木马病毒攻击，消息篡改攻击；具体步骤如下：

(2)设置迭代次数m＝1,2，…，M：

(2.1)计算样本点属于每个类别的概率：

其中，exp(f_k(x))表示对f_k(x)求指数；K为分类数目；

(2.2)对于每一个分类类型k＝1,2,...,K：

(2.2.1)计算残差：

r_ki＝y_ki-P_k(x_i)，

(2.2.3)计算乘子：

(2.2.4)通过以下计算公式更新学习器：

(3)输出强分类器F_Mk(x)：

最后得到的F_Mk(x)用来得到第k类的相应的概率P_Mk(x)：

将概率转换为类别：

其中

为最终的输出类别，c(k,k')表示当真实值为k'时，预测为第k类时的联合代价，即概率最大的类别即为预测的类别。

最终得到已训练好的GBDT模型，即能够更可能分类出这些样本集的类型的模型，训练好了之后，模型已经对输入、需要检测的实时数据有了预测能力，即能够判断该输入数据为正常类型，还是含有Dos攻击，未授权访问攻击、接口端非正常探测、木马病毒攻击，运行状态、气象等消息伪造或篡改等攻击类型。

GBDT(Gradient Boosting Decision Tree，全名叫梯度提升决策树)算法是一种集成学习算法，由决策树和梯度提升组合而成，因此其集成方式为梯度提升，采用Boosting思想，是由一系列集成的弱分类器组成，各弱分类器给定一个预测值，按照一定的权重将它们组合起来形成最终的预测值，从而得到一个强分类器。GBDT算法在调参时间、分类准确性、应对异常值的鲁棒性具有明显的优势。

GBDT的学习过程中，首先利用叶子较少、简单的决策树弱分类器进行迭代学习，每一次的迭代均放大上一次的学习误差，使得当前的迭代步骤的误差比上次迭代的误差更小，而且每一次的迭代均会保留之前迭代步骤的全部弱分类器，增加一个误差更小的弱分类器，直至学习完整个样本或达到最终迭代次数，最后得到由若干个弱分类器组成的强分类器模型(GBDT模型)。

如图4所示，本发明还公开了一种光伏并网接口装置，包括主控制模块、显示模块、输入输出模块、交流采集模块、通信模块、电源模块以及攻击检测模块，所述主控制模块分别与显示模块、输出模块、通信模块、存储模块、电源模块以及攻击检测模块连接，攻击检测模块还与通信模块、电源模块、交流采集模块以及输入模块连接，其中：

主控制模块用于经通信模块与上层(站内光伏监控***和调控主站)以及下层(逆变器控制器、环境气象监测装置等智能设备)连接通信，并接收攻击检测模块发送的信息数据流、分类结果、报警提示后发送至显示模块进行显示；所述信息数据流包括包括公共连接点的电压、电流、频率、有功功率、无功功率以及功率因素数据，遥信、遥测、用电量等数据，遥控分合闸、遥调、启停等命令，光伏发电单元的输出功率、负荷功率、环境气象(温度、光强、)数据等，以及其他能够表征光伏并网接口装置是否受攻击的数据或因子；主控制模块同时还接收攻击检测模块发送的报警提示、日志记录、分类结果，并通过通信模块向上层(站内光伏监控***、调控主站)发送攻击报警信息；

所述主控制器还用于将分类结果、报警提示和/或日志记录通过通信模块上送至上层；以及将分类结果、报警提示、日志记录发送至存储模块进行存储；

显示模块用于显示来自光伏并网接口装置的供显示用的信息以及报警提示并输出显示，显示模块可以是显示器或指示灯，或两者的结合以显示、提供更多的信息，实现更好的人机交互体验；所述报警提示为通过显示器显示恶意攻击的类型或通过指示灯显示，当为指示灯则不同颜色的光源对应不同的恶意攻击类型；

存储模块用于存储报警提示、日志记录，控制程序，公共连接点的电压、电流等电参量信息，公共连接点开关、光伏发电***负载投切开关、断路器开关等状态信息以及用户信息等；所述日志记录包括攻击时间、攻击持续时间、攻击方式、攻击对应的传输协议类型、错误数据分段、错误数据的起止地址信息(即源设备和目标设备地址信息)等；

通信模块用于和光伏发电***内的下层逆变器控制器、环境气象监测装置等智能设备以及上层站内光伏监控***和调控主站交互数据，主要用于接收或转发来自下层智能设备的状态信息以及上层站内光伏监控***和调控主站的指令信息，遥信、遥测、用电量等数据，遥控分合闸、遥调、启停等命令，光伏发电单元(图1中的光伏阵列)的输出功率、负荷功率、环境气象(温度、光强)等数据并将光伏发电单元(图1中的光伏阵列)的输出功率、负荷功率、环境气象(温度、光强)等数据发送至攻击检测模块；

电源模块用于为各模块提供工作电源；

所述分类包括正常类以及恶意攻击类，所述恶意攻击类包括Dos攻击，未授权访问攻击、接口端非正常探测、木马病毒攻击，运行状态、气象等消息伪造或篡改等攻击类型，所述分类结果为信息数据流中各数据的归类情况。

所述预处理包括特征提取、数值化以及归一化处理；

y＝(x-min)/(max-min)；

所述攻击检测模块采用GBDT模型进行分类前，先对GBDT模型进行分类训练，得到已训练好的GBDT分类模型，如图3所示，模型训练包括如下步骤：

表示样本x是否属于第k类，1代表是，0代表否；p_k(x)表示样本x属于第k类的概率；x_i(i＝1，2，…，n)为输入样本，y_i(i＝1，2，…，n)为输入样本x_i对应的输出值，也即分类标签(表明该样本是正常或何种攻击类型的标签)；f_k(x)为弱学习器，k＝1,2,...,K，k为分类的类别；K为分类类别的总数，K＝6，表示共有6种分类的类别：正常类，Dos攻击，未授权访问攻击，接口端非正常探测，木马病毒攻击，消息篡改攻击；

(2)设置迭代次数m＝1,2，…，M：

(2.1)计算样本点属于每个类别的概率：

其中，exp(f_k(x))表示对f_k(x)求指数；K为分类数目；

(2.2)对于每一个分类类型k＝1,2,...,K：

(2.2.1)计算残差：

r_ki＝y_ki-P_k(x_i)，

(2.2.3)计算乘子：

(2.2.4)通过以下计算公式更新学习器：

(3)输出强分类器F_Mk(x)：

最后得到的F_Mk(x)用来得到第k类的相应的概率P_Mk(x)：

将概率转换为类别：

其中

如图5所示，如果攻击者对光伏发***中的光照强度信息进行了恶意数据攻击，使得数据异常于正常值，则光伏并网接口装置中的攻击检测模块就会从主控制模块所发送的信息数据流的光照强度数据中识别出该异常行为，并将该光照强度数据归入恶意数据攻击的类别中，攻击检测模块则向主控制模块发送含有攻击类型为恶意数据攻击信息的报警提示以及生成日志记录，主控制模块则通过显示模块输出恶意数据攻击的报警提示。

本发明通过采集光伏发电单元功率、上层指令值、用电量、环境温度等数据通过GBDT算法进行实时检测，挖掘和识别这些数据流中隐藏的攻击行为，避免攻击者通过光伏并网接口装置存在的安全漏洞进一步入侵上层***，提高光伏并网接口装置的信息安全性以及运行可靠性。

Claims

1.一种基于GBDT算法的攻击识别方法，其特征在于：包括如下步骤：

步骤一、获取光伏并网接口装置的信息数据流；

步骤二、对信息数据流进行预处理；

2.根据权利要求1所述的基于GBDT算法的攻击识别方法，其特征在于：所述步骤四还包括将分类结果、报警提示和/或日志记录发送至上层。

3.根据权利要求1所述的基于GBDT算法的攻击识别方法，其特征在于：所述预处理包括特征提取、数值化以及归一化处理。

4.根据权利要求1所述的基于GBDT算法的攻击识别方法，其特征在于：所述步骤三将进行预处理后的信息数据流采用GBDT模型进行检测前，先对GBDT模型进行分类训练，得到已训练好的GBDT分类模型，模型训练包括如下步骤：

y_k＝{0，1}，表示样本x是否属于第k类，1代表是，0代表否；p_k(x)表示样本x属于第k类的概率；x_i(i＝1，2，…，n)为输入样本，y_i(i＝1，2，…，n)为输入样本x_i对应的输出值，也即分类标签(表明该样本是正常或何种攻击类型的标签)；f_k(x)为弱学习器，k＝1,2,...,K，K表示共有分类的类别的总数：正常类，Dos攻击，未授权访问攻击，接口端非正常探测，木马病毒攻击，消息篡改攻击；

(2)设置迭代次数m＝1,2，…，M：

(2.1)计算样本点属于每个类别的概率：