CN109784668A - 一种用于电力监控***异常行为检测的样本特征降维处理方法 - Google Patents
一种用于电力监控***异常行为检测的样本特征降维处理方法 Download PDFInfo
- Publication number
- CN109784668A CN109784668A CN201811574671.3A CN201811574671A CN109784668A CN 109784668 A CN109784668 A CN 109784668A CN 201811574671 A CN201811574671 A CN 201811574671A CN 109784668 A CN109784668 A CN 109784668A
- Authority
- CN
- China
- Prior art keywords
- electric power
- monitoring system
- characteristic index
- power monitoring
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S40/00—Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
- Y04S40/20—Information technology specific aspects, e.g. CAD, simulation, modelling, system security
Landscapes
- Supply And Distribution Of Alternating Current (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Remote Monitoring And Control Of Power-Distribution Networks (AREA)
Abstract
一种用于电力监控***异常行为检测的样本特征降维处理方法,从类别相关性和特征间冗余性两方面入手对特征指标进行选取。首先,对历史数据进行人工标注,构造训练样本数据集。然后,分析样本数据集中每个***行为特征指标与***是否产生异常行为的相关性,确定各个特征指标对异常行为判断影响的相关性优先级。接着,从相关性优先级最高的特征指标开始,依次检查每两个特征指标之间的冗余性,去除对***异常行为判断影响小且特征冗余度高的特征指标,最终达到特征降维处理的效果。本发明通过对对电力监控***行为特征指标集进行降维处理,可用于减小训练样本规模,为后续异常检测的行为识别分类训练提供更好的服务。
Description
技术领域
本发明属于电力信息安全技术领域,具体涉及一种用于电力监控***异常行为检测的样本特征降维处理方法。
背景技术
近年来随着各类网络化应用的不断拓展和深化,计算机病毒、木马、黑客攻击等恶意网络攻击行为日益猖獗,网络安全事件进入了高发、频发时期,网络信息战和网络恐怖行动等国家、集团性网络攻击行为对全社会的生产和生活都造成严重影响。电力***作为关乎国计民生的重要基础设施,由于结构复杂多样、分布广泛、重要性高,一旦瘫痪影响巨大,极易成为敌对势力攻击目标。进入二十一世纪以来,国内外已发生多起针对电力***的网络攻击行为,使相关国家蒙受重大损失,国内也相继出现类似事故,给人民群众的生产生活造成了极大损失。
随着能源互联网的全面推进,作为电网调度控制中枢的电力监控***的智能化、网络化和互动化水平不断提升,同时以高级持续性网络攻击(APT)为代表的新型攻击手段也不断演进,都将给电力监控***安全防护工作带来严峻挑战。为此,需要高度重视电力监控***的安全工作,要求建立电力监控***网络安全事件快速反应机制。早期人们通常采用端口扫描、报文特征字段匹配等方法对异常行为进行深入分析以获取特征,从而实现网络异常行为的检测。然而,随着网络异常行为不断变化,依靠人工对异常行为进行分析以获取特征的代价越来越高昂甚至不可行。随着人工智能技术的发展,机器学习技术更多地被用于从网络数据中自动计算异常行为模式、提取其特征,从而自动产生检测规则,大大降低了开发代价。目前,特征选取方法分成Filter特征选取方法和Wrapper特征选取方法两种方式。
对于Filter特征选取方法而言,评价标准不依赖于具体的机器学习成员分类器,通过流量数据特征本身所附带的数据信息进行评价。其评价方法通常有互信息度量、一致性度量和相关性度量等。由于Filter特征选取方法计算简单有效,得到了广泛的研究,但处理高维特征选取问题时,Filter特征选取方法容易忽视特征之间冗余性问题。
对于Wrapper方法而言,该种方法通常与具体机器学习进行结合,其特征性能的评价依赖于具体的分类器。由于受到所选机器学习算法的限制,算法效率低。现有特征选取方法针对单一度量评估流量特征,多样本集时稳定性不高,存在一定局限性。也有研究人员通过将多种特征选取方法混合对特征进行选取,该方法虽然取得较高准确率,但对样本数据要求较高,有很强的假设性,适用范围较小。
在面对高维特征的数据集时,现有特征选取方法未考虑特征间冗余性,导致在面对大规模数据集时,分类训练时间开销大。因此,现有的特征选取方法一方面针对某一种特征度量方式进行改进,在特定数据集下保持较高的准确率,却很难在多个数据集中保持较高的稳定性;另一方面有特征选取方法通过使用多种度量特征方式混合的特征选择方法得出特征集,这类方法忽视了流量特征间的冗余性,并未解决特征维数灾难,导致电力监控***异常行为识别的训练开销较大。
发明内容
本发明要解决的问题是:现有的采用机器学习技术进行电力监控***异常行为检测的技术中,在对样本数据进行分类训练以获取异常行为特征时,存在着样本数据维数灾难和分类训练时间开销大的问题,需要进行改进。
本发明的技术方案为:一种用于电力监控***异常行为检测的样本特征降维处理方法,用于电力监控***异常行为检测的特征指标选取,从类别相关性和特征间冗余性两方面对特征指标进行选取。
首先,选取电力监控***已经采集到的反映电力监控***行为的部分历史数据构造样本数据集,根据监管经验和是否已造成危害等事实进行人工标注,注明每一条样本数据对应的电力监控***行为状态,其构成的样本数据集T表示如下:
其中Ti(i∈[1,m])为已采集到的反映电力监控***行为的第i条历史行为记录,即电力监控***行为特征数据,xij表示该条记录第j(j∈[1,n])个特征指标具体的数值。yi表示该条历史行为记录对应的电力监控***行为状态,取值1表示正常行为,取值0表示异常行为。
然后,根据完成标注的样本数据集T分析每一个行为特征指标对电力监控***是否产生异常行为的相关性影响,确定各个特征指标对异常行为判断影响的相关性优先级。电力监控***行为特征指标r与***是否产生异常行为相关性影响Fr的计算公式如下所示:
其中,n1表示样本数据集T中标注为正常行为的记录个数,表示标注为正常行为记录中特征指标r的平均值,表示标注为正常行为记录中特征指标r的方差,n0表示样本数据集T中标注为异常行为的记录个数,表示标注为异常行为记录中特征指标r的平均值,表示标注为异常行为记录中特征指标r的方差,表示样本数据集T中所有记录的电力监控***行为特征r的平均值。Fr的值越大,说明特征指标r对判断电力监控***行为是否异常的相关性越大。
接着,从对判断电力监控***行为是否异常的相关性影响最大的特征指标开始,采用Pearson相关系数依次检查该特征指标与其他特征指标之间的冗余性。冗余性值域为[-1,1],越靠近1说明两特征指标越正相关,越靠近-1说明两特征指标越负相关,以r和o分别表示两种电力监控***行为特征指标,其冗余性计算公式如下所示:
其中,m为样本数据集T中的记录个数,与分别表示样本数据集T中所有记录的电力监控***行为特征指标r与行为特征指标o的平均值,fri和foi分别表示样本数据集的第i条样本数据中行为特征指标r与行为特征指标o的具体数值。
进一步的,设定相关性阈值和冗余度阈值,用于控制降维程度,最终达到所需的特征降维处理效果。
与现有的技术相比,本发明提出的一种用于电力监控***异常行为检测的样本特征降维处理方法具有如下特点:为了解决在高维***行为特征下样本数据训练开销大的问题,从类别相关性和特征间冗余性两方面入手,提出一种用于刻画电力监控***行为特征指标与***是否产生异常行为相关性影响的方法,并采用Pearson相关系数计算行为特征指标间的线性相关性,用于刻画行为特征指标之间的冗余程度,通过设置特征指标相关性阈值和冗余度阈值,去除对电力监控***异常行为判断影响小且特征冗余度高的特征指标,对训练样本数据集进行行为特征指标降维处理,减小训练样本规模,为后续异常行为检测的识别分类训练提供更好的服务。
具体实施方式
本发明提出了一种用于电力监控***异常行为检测的样本特征降维处理方法。该方法从类别相关性和特征间冗余性两方面入手对特征指标进行选取。首先,对已经采集到的反映电力监控***行为的部分历史数据进行人工标注,注明每一条样本数据是否对应电力监控***的异常行为,构造训练样本数据集。其次,分析样本数据中每个***行为特征指标与电力监控***是否产生异常行为的相关性,确定各个特征指标对异常行为判断影响的相关性优先级。由于不同的行为特征指标可能反映相同的***行为,仅从相关性角度对行为特征指标进行选取,其样本数据集规模依然很大,对于***异常行为分类训练而言时间开销长。因此在特征指标与***是否产生异常行为的相关性分析的基础上,从相关性优先级最高的特征指标开始,依次检查每两个特征指标之间的冗余性,去除对***异常行为判断影响小且特征冗余度高的特征指标,最终达到特征降维处理的效果。具体实施过程如下:
第一步:构造训练样本数据集。选取电力监控***已经采集到的反映电力监控***行为的部分历史数据,根据监管经验和是否已造成危害等事实进行人工标注,注明每一条样本数据对应的电力监控***行为状态,其构成的样本数据集T表示如下:
其中Ti(i∈[1,m])为已采集到的反映电力监控***行为的第i条历史行为记录,即电力监控***行为特征数据,xij表示该条记录第j(j∈[1,n])个特征指标具体的数值。yi表示该条历史行为记录对应的电力监控***行为状态,取值1表示正常行为,取值0表示异常行为。
第二步:计算样本数据集T中所有记录的电力监控***行为特征r的平均值
第三步:计算样本数据集T中标注为正常行为记录的每一个特征指标r的平均值和方差
第四步:计算样本数据集T中标注为异常行为记录的每一个特征指标r的平均值和方差
第五步:计算电力监控***行为特征指标r对***是否产生异常行为判断影响的相关性Fr,计算公式如下所示:
其中,n1表示样本数据集T中标注为正常行为的记录个数,n0表示样本数据集T中标注为异常行为的记录个数。
第六步:根据对***是否产生异常行为判断影响的相关性大小,筛选电力监控***行为特征指标。按照Fr值从大到小的顺序,对所有的电力监控***行为指标r进行排序,并删除Fr值小于设定的***行为特征指标相关性阈值的***行为特征指标。
第七步:计算经过初次筛选的电力监控***行为特征指标两两之间的冗余程度。从Fr值最大的特征指标开始,采用Pearson相关系数依次计算该特征指标与其他特征指标之间的冗余性。以r和o分别表示两种电力监控***行为特征指标,其冗余度计算公式如下所示:
其中,m为样本数据集T中的记录个数,与分别表示样本数据集T中所有记录的电力监控***行为特征指标r与行为特征指标o的平均值,fri和foi分别表示样本数据集的第i条样本数据中行为特征指标r与行为特征指标o的具体数值。
第八步:根据***行为特征指标之间的冗余程度,进一步筛选电力监控***行为特征指标。在基于类别相关性初次筛选得到的行为特征指标集的基础上,对于两两冗余度大于设定冗余度阈值的***行为特征指标,删除对***是否产生异常行为判断影响相关性小的特征指标。
最终,得到经过两次降维处理后的电力监控***行为特征指标集,可用于减小训练样本规模,为后续异常行为识别分类训练提供服务。
Claims (5)
1.一种用于电力监控***异常行为检测的样本特征降维处理方法,用于电力监控***异常行为检测的特征指标选取,其特征是从类别相关性和特征间冗余性两方面对特征指标进行选取,首先,选取电力监控***已经采集到的反映电力监控***行为的部分历史数据构造样本数据集,根据监管经验和是否已造成危害等事实进行人工标注,注明每一条样本数据是否对应电力监控***的异常行为;然后,分析完成标注的样本数据中各***行为特征指标与***是否产生异常行为的相关性,确定各个特征指标对异常行为判断影响的相关性优先级;接着,从相关性优先级最高的特征指标开始,依次检查每两个特征指标之间的冗余性,去除对***异常行为判断影响小且特征冗余度高的特征指标,最终达到特征降维处理的效果。
2.根据权利要求1所述的一种用于电力监控***异常行为检测的样本特征降维处理方法,其特征是对样本数据集进行人工标注,注明每一条样本数据对应的电力监控***行为状态,构成的样本数据集T表示如下:
其中Ti,i∈[1,m],为已采集到的m条反映电力监控***行为的第i条历史行为记录,即电力监控***行为特征数据,xij表示该条记录第j,j∈[1,n]个特征指标具体的数值,yi表示该条历史行为记录对应的电力监控***行为状态,取值1表示正常行为,取值0表示异常行为。
3.根据权利要求2所述的一种用于电力监控***异常行为检测的样本特征降维处理方法,其特征是根据完成标注的样本数据集T分析每一个行为特征指标对电力监控***是否产生异常行为的相关性影响,电力监控***行为特征指标r与***是否产生异常行为相关性影响Fr的计算公式如下所示:
其中,n1表示样本数据集T中标注为正常行为的记录个数,表示标注为正常行为记录中特征指标r的平均值,表示标注为正常行为记录中特征指标r的方差,n0表示样本数据集T中标注为异常行为的记录个数,表示标注为异常行为记录中特征指标r的平均值,表示标注为异常行为记录中特征指标r的方差,表示样本数据集T中所有记录的电力监控***行为特征指标r的平均值,Fr的值越大,说明特征指标r对判断电力监控***行为是否异常的相关性越大。
4.根据权利要求3所述的一种用于电力监控***异常行为检测的样本特征降维处理方法,其特征是从对判断电力监控***行为是否异常的相关性影响最大的特征指标开始,采用Pearson相关系数依次检查该特征指标与其他特征指标之间的冗余性,冗余性值域为[-1,1],越靠近1说明两特征指标越正相关,越靠近-1说明两特征指标越负相关,以r和o分别表示两种电力监控***行为特征指标,其冗余性计算公式如下所示:
其中,m为样本数据集T中的记录个数,与分别表示样本数据集T中所有记录的电力监控***行为特征指标r与行为特征指标o的平均值,fri和foi分别表示样本数据集的第i条样本数据中行为特征指标r与行为特征指标o的具体数值。
5.根据权利要求1或3或4所述的一种用于电力监控***异常行为检测的样本特征降维处理方法,其特征是设定相关性阈值和冗余度阈值,用于控制降维程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811574671.3A CN109784668B (zh) | 2018-12-21 | 2018-12-21 | 一种用于电力监控***异常行为检测的样本特征降维处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811574671.3A CN109784668B (zh) | 2018-12-21 | 2018-12-21 | 一种用于电力监控***异常行为检测的样本特征降维处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109784668A true CN109784668A (zh) | 2019-05-21 |
CN109784668B CN109784668B (zh) | 2022-08-23 |
Family
ID=66498065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811574671.3A Active CN109784668B (zh) | 2018-12-21 | 2018-12-21 | 一种用于电力监控***异常行为检测的样本特征降维处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109784668B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476100A (zh) * | 2020-03-09 | 2020-07-31 | 咪咕文化科技有限公司 | 基于主成分分析的数据处理方法、装置及存储介质 |
CN112348644A (zh) * | 2020-11-16 | 2021-02-09 | 上海品见智能科技有限公司 | 一种通过建立单调正相关过滤网的异常物流订单检测方法 |
CN114091320A (zh) * | 2021-09-24 | 2022-02-25 | 北京市煤气热力工程设计院有限公司 | 一种天然气管道腐蚀失效时间预测方法及装置 |
CN114553681A (zh) * | 2022-03-08 | 2022-05-27 | 中国人民解放军国防科技大学 | 设备状态异常检测方法、装置和计算机设备 |
CN117196413A (zh) * | 2023-11-06 | 2023-12-08 | 国网山东省电力公司青岛市黄岛区供电公司 | 配电网电缆接地故障预警特征指标模型构建和优化方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509112A (zh) * | 2011-11-02 | 2012-06-20 | 珠海逸迩科技有限公司 | 车牌识别方法及其识别*** |
CN104463229A (zh) * | 2014-12-30 | 2015-03-25 | 哈尔滨工业大学 | 基于相关系数冗余度的高光谱数据有监督分类方法 |
CN106203482A (zh) * | 2016-06-30 | 2016-12-07 | 东南大学 | 基于mRMR和KPCA的遥感图像特征降维方法 |
CN106951778A (zh) * | 2017-03-13 | 2017-07-14 | 步步高电子商务有限责任公司 | 一种面向复杂流数据事件分析的入侵检测方法 |
CN106991447A (zh) * | 2017-04-06 | 2017-07-28 | 哈尔滨理工大学 | 一种嵌入式多类别属性标签动态特征选择算法 |
US20180248905A1 (en) * | 2017-02-24 | 2018-08-30 | Ciena Corporation | Systems and methods to detect abnormal behavior in networks |
-
2018
- 2018-12-21 CN CN201811574671.3A patent/CN109784668B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509112A (zh) * | 2011-11-02 | 2012-06-20 | 珠海逸迩科技有限公司 | 车牌识别方法及其识别*** |
CN104463229A (zh) * | 2014-12-30 | 2015-03-25 | 哈尔滨工业大学 | 基于相关系数冗余度的高光谱数据有监督分类方法 |
CN106203482A (zh) * | 2016-06-30 | 2016-12-07 | 东南大学 | 基于mRMR和KPCA的遥感图像特征降维方法 |
US20180248905A1 (en) * | 2017-02-24 | 2018-08-30 | Ciena Corporation | Systems and methods to detect abnormal behavior in networks |
CN106951778A (zh) * | 2017-03-13 | 2017-07-14 | 步步高电子商务有限责任公司 | 一种面向复杂流数据事件分析的入侵检测方法 |
CN106991447A (zh) * | 2017-04-06 | 2017-07-28 | 哈尔滨理工大学 | 一种嵌入式多类别属性标签动态特征选择算法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476100A (zh) * | 2020-03-09 | 2020-07-31 | 咪咕文化科技有限公司 | 基于主成分分析的数据处理方法、装置及存储介质 |
CN111476100B (zh) * | 2020-03-09 | 2023-11-14 | 咪咕文化科技有限公司 | 基于主成分分析的数据处理方法、装置及存储介质 |
CN112348644A (zh) * | 2020-11-16 | 2021-02-09 | 上海品见智能科技有限公司 | 一种通过建立单调正相关过滤网的异常物流订单检测方法 |
CN112348644B (zh) * | 2020-11-16 | 2024-04-02 | 上海品见智能科技有限公司 | 一种通过建立单调正相关过滤网的异常物流订单检测方法 |
CN114091320A (zh) * | 2021-09-24 | 2022-02-25 | 北京市煤气热力工程设计院有限公司 | 一种天然气管道腐蚀失效时间预测方法及装置 |
CN114553681A (zh) * | 2022-03-08 | 2022-05-27 | 中国人民解放军国防科技大学 | 设备状态异常检测方法、装置和计算机设备 |
CN114553681B (zh) * | 2022-03-08 | 2024-02-02 | 中国人民解放军国防科技大学 | 设备状态异常检测方法、装置和计算机设备 |
CN117196413A (zh) * | 2023-11-06 | 2023-12-08 | 国网山东省电力公司青岛市黄岛区供电公司 | 配电网电缆接地故障预警特征指标模型构建和优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109784668B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784668A (zh) | 一种用于电力监控***异常行为检测的样本特征降维处理方法 | |
CN108881194B (zh) | 企业内部用户异常行为检测方法和装置 | |
CN106888205B (zh) | 一种非侵入式基于功耗分析的plc异常检测方法 | |
CN111901340B (zh) | 一种面向能源互联网的入侵检测***及其方法 | |
CN111538741B (zh) | 一种面向警情大数据的深度学习分析方法及*** | |
CN107895008B (zh) | 基于大数据平台的情报信息热点发现方法 | |
CN103761173A (zh) | 一种基于日志的计算机***故障诊断方法及装置 | |
CN112685459A (zh) | 一种基于K-means集群算法的攻击源特征识别方法 | |
CN112738014A (zh) | 一种基于卷积时序网络的工控流量异常检测方法及*** | |
CN111598179A (zh) | 电力监控***用户异常行为分析方法、存储介质和设备 | |
CN112070180B (zh) | 基于信息物理双侧数据的电网设备状态判断方法及装置 | |
Luktarhan et al. | Multi-stage attack detection algorithm based on hidden markov model | |
Wang et al. | Research on microblog rumor events detection via dynamic time series based GRU model | |
CN111209955A (zh) | 基于深度神经网络和随机森林的飞机电源***故障识别方法 | |
CN116545679A (zh) | 一种工业情境安全基础框架及网络攻击行为特征分析方法 | |
Tang et al. | Association Analysis of Abnormal Behavior of Electronic Invoice Based on K-Means and Skip-Gram | |
CN115659189A (zh) | 基于生成对抗网络的大规模软件***的异常检测方法 | |
Chen et al. | Feature selection based on BP neural network and adaptive particle swarm algorithm | |
CN114398887A (zh) | 一种文本分类方法、装置及电子设备 | |
CN112860648A (zh) | 一种基于日志平台的智能分析方法 | |
CN112434955A (zh) | 一种基于多数据融合的配网线路运行风险感知方法 | |
Liu | Artificial Intelligence and Machine Learning based Financial Risk Network Assessment Model | |
Ling et al. | Graph Attention Mechanism-Based Method for Tracing APT Attacks in Power Systems | |
Bo et al. | The research of intrusion detection model based on clustering analysis | |
Wang et al. | User Behavior Analysis Based on Big Data and Artificial Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |