CN114048870A - 一种基于日志特征智能挖掘的电力***异常监测方法 - Google Patents

一种基于日志特征智能挖掘的电力***异常监测方法 Download PDF

Info

Publication number
CN114048870A
CN114048870A CN202111297960.5A CN202111297960A CN114048870A CN 114048870 A CN114048870 A CN 114048870A CN 202111297960 A CN202111297960 A CN 202111297960A CN 114048870 A CN114048870 A CN 114048870A
Authority
CN
China
Prior art keywords
log
data
abnormal
text
log data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111297960.5A
Other languages
English (en)
Inventor
马培龙
孙坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiayuan Technology Co Ltd
Original Assignee
Jiayuan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiayuan Technology Co Ltd filed Critical Jiayuan Technology Co Ltd
Priority to CN202111297960.5A priority Critical patent/CN114048870A/zh
Publication of CN114048870A publication Critical patent/CN114048870A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Fuzzy Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于日志特征智能挖掘的电力***异常监测方法,包括如下步骤:采集多时间跨度多场景下的日志数据并进行预处理后,形成日志数据样本;基于DBSCAN聚类算法对日志数据样本进行聚类分析,获取聚类结果,并采用Pearson相关系数对聚类结果进行筛选,得到日志数据样本中的异常日志;利用自然语言处理技术对异常日志文本进行解析,将解析后的内容反馈至相关工作人员。本发明将基于机器学习聚类算法和自然语言处理技术,针对业务场景特点与原算法缺陷对算法进行改进,使得全流程无需人工干预,自动化分析日志信息,提升异常检测性能,能够有效实现异常电力检测,提升电力稽查自动化程度和稽查效率并节省人力物力。

Description

一种基于日志特征智能挖掘的电力***异常监测方法
技术领域
本发明涉及数据信息处理技术领域,尤其涉及一种基于日志特征智能挖掘的电力***异常监测方法。
背景技术
随着智能电网的建设与发展,电力***自动化应用日趋广泛。目前,电力自动化功能主要应用于电力企业生产检查和调节、***和元器件保护以及信息传输自动化,这些环节在运行时会在电力***中生成海量的日志数据,日志数据通常会记录设备运行时各元件状态的实时或阶段性数据,同时在电力***发生故障时记录下当时设备的错误信息。由于电力***设备器械繁多,可能出现的问题复杂多样,同时由于电力***对于稳定性及快速响应的要求,使其对处理的实时性有着严苛的要求,因此如何能够从海量的电力日志中及时发现问题并且排查出问题发生的原因,成为电力企业颇为头疼的一个难题。
目前,电力***异常监测主要是依靠人工筛查的方式,通过有相关经验的电力专家团队及时有效的排查问题原因,确保电力***正常运行。但这种方式费时费力,效率低下,人工无法保证在24小时中随时发现异常,有时因疏忽可能会导致一些严重后果,因此传统电力***人工查看日志来发现问题的低效方式注定将会被淘汰。近年来随着人工智能技术的发展,越来越多企业将人工智能技术应用于企业真实业务场景中,基于此背景,我们可以考虑将人工智能技术应用在电力***的异常监测中。
发明内容
针对电力大数据非线性、高维度、时间强耦合的特点,本发明通过对电力***日志特征进行智能挖掘分析,提取出体现电力运维质量的相关指标,来监测平台在运行过程中是否异常并总结分析异常日志信息文本,为电力***运维人员提供依据。本发明提出一种基于日志特征智能挖掘的电力***异常监测方法,并针对业务场景特点与原算法缺陷对算法进行改进,使得全流程无需人工干预,自动化分析日志信息,提升异常检测性能,所提方法能够有效实现异常电力检测,提升电力稽查自动化程度和稽查效率,节省人力物力,具有较高应用前景。
为了达到上述目的,本发明的技术方案如下:
一种基于日志特征智能挖掘的电力***异常监测方法,包括如下步骤:
步骤S1,采集多时间跨度多场景下的日志数据并进行预处理后,形成日志数据样本;
步骤S2,基于DBSCAN聚类算法对日志数据样本进行聚类分析,获取聚类结果,并采用Pearson相关系数对聚类结果进行筛选,得到日志数据样本中的异常日志;
步骤S3,利用自然语言处理技术对异常日志文本进行解析,将解析后的异常日志概要反馈至相关工作人员。
优选地,所述步骤S1,具体包括如下步骤:
步骤S101,从平台中选取近T年的电力日志数据,其中,T为不小于1的整数;
步骤S102,基于季节筛选数据,按照春、夏、秋、冬四季划分,采集每个季节中选出两个月的电力日志数据;基于时间段筛选数据,采集早、晚不同时间段的电力日志数据;基于节假日筛选数据,采集节假日和大型活动时期的电力日志数据;基于市县间的地区差异筛选数据,采集城区和乡镇农村的电力日志数据;基于地区功能特点筛选数据,采集工业区、居民区和商业区的电力日志数据;
步骤S103,将步骤S102中采集到的日志数据打乱并整合,创建最终的日志数据样本。
优选地,所述步骤S2,具体包括如下步骤:
步骤S201,计算日志数据样本中各数据点间的欧氏距离;
步骤S202,将获取的欧式距离结果按照升序进行排序,构建距离矩阵;
步骤S203,以列为单位计算矩阵平均值,得到平均距离向量,随机选取簇中一个未标记的日志样本点,将所述未标记的日志样本点的平均距离向量内的值作为ε-近邻的候选值;利用生成的每一个候选值计算出在ε-近邻内包含的数据点个数,对各个邻域内的数据点个数取均值,建立ε-近邻与密度阈值Minpts的候选集;
步骤S204,使用候选集参数进行DBSCAN聚类,并计算聚类结果的轮廓系数;
步骤S205,重复步骤S201~步骤S204,评估不同候选参数下聚类结果的轮廓系数,确定最优聚类结果;
步骤S206,采用Pearson相关系数对聚类结果进行筛选,获取日志数据样本中的异常日志。
优选地,所述预处理包括噪声数据剔除、重复数据处理、数值型缺失值处理、类别型特征编码、数值标准化和日志文本类数据处理。
优选地,所述类别型特征编码包括one-hot编码方式或频率编码方式;所述标准化采用min-max标准化方式。
优选地,所述步骤S3,具体包括如下步骤:
步骤S301,提取日志数据样本内的错误日志中的所有词,构建异常关键词特征集合;
步骤S302,计算异常关键词的信息增益值IG,具体计算公式为:
Figure BDA0003337081570000031
其中,
Figure BDA0003337081570000035
表示yi类别文本在数据集中出现的概率,即yi类别文本数除以总的文本数,yi类别文本为信息日志文本或错误日志文本;
Figure BDA0003337081570000036
表示数据集中包含关键词特征项xi的文本的概率,即包含特征项xi的文本数除以总的文本数;xi表示不包含关键词特征项xi的文本;p(yi|xi)表示文本包含关键词特征项xi时属于yi类别的条件概率,即包含关键词特征项xi且属于类别yi的文本数除以包含关键词特征xi的文本数;
步骤S303,将计算得到的异常关键词的信息增益值结合到TF-IDF算法中,得到改进后的TF-IDF计算公式:
Figure BDA0003337081570000032
Figure BDA0003337081570000033
若异常关键词存在日志中,则使用改进的权重计算公式ωnew,计算特征项权重值,否则按传统权重计算公式ω计算,其中,t表示文本中特征项,A表示错误日志关键词集合,B表示电力日志文本,ω表示特征项t在文本d中的权重值,
Figure BDA0003337081570000034
表示异常关键词的信息增益值;
步骤S304,根据步骤S303中计算出的特征项权重值对所有的异常关键词进行排序,选取权重值最高的若干个异常关键词集合构成异常日志概要,并发送至相关工作人员。
基于上述技术方案,本发明的有益效果是:
1)本发明基于电力***业务场景特点,在多时间跨度多情况下采集日志样本,创建数据量适中、场景覆盖全、特征明显的数据集,使得数据样本更加贴合实际场景,基于此特征样本,模型泛化性能更强;
2)本发明基于电力日志数据特点,利用机器学习聚类分析发现离群点来检测异常状况的发生,且进一步改进原算法,使得算法自动挖掘最优参数,根据评价反馈机制优化模型,计算相关性判定异常日志,实现数据的全自动分析;
3)本发明除了实时监测异常情况,平台利用自然语言处理技术智能反馈异常日志结果的关键信息(异常日志概要),并改进原算法,通过引入错误日志信息增益的方式调整词频权重,这些信息能够帮助电力运维人员及时了解当前设备运行的基本情况,更快锁定错误点,提高检修效率;
4)本发明基于数据挖掘的异常监测分析方法识别准确率较高,计算复杂度低,采用无监督的人工智能算法,无需人工标注数据,可移植性强,能够广泛应用于医疗、物流管理和工业生产等多个领域。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1是一个实施例中一种基于日志特征智能挖掘的电力***异常监测方法流程图;
图2是一个实施例中一种基于日志特征智能挖掘的电力***异常监测方法中日志数据样本创建流程图;
图3是一个实施例中一种基于日志特征智能挖掘的电力***异常监测方法中DBSCAN算法基本概念示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,本实施例提出了一种基于日志特征智能挖掘的电力***异常监测方法,能够及时有效地检测***事件中的异常行为,为可能的异常情况提前预警并反馈异常日志概要。该方法可以基于不同日志数据源,自动进行日志解析,并通过统计机器学习的异常检测方法发现***运行过程中的日志所反映出的异常行为,实现智能化监测。下面基于电力***业务场景,对本技术方案进行具体说明如下:
(一)日志数据样本采集
基于实际场景,根据已有的电力日志数据从电力***数据仓库中采集数据,生成数据样本。电力***的日志主要分为错误日志和信息日志。错误日志主要记录了设备运行过程中的错误信息,信息日志则通过设定触发器或时间间隔,定时记录设备状态。但在实际应用中,错误日志数据往往很少,只有极个别几条数据,有时甚至一条错误信息都没有,这样可能导致在异常分析时缺乏负样本。同时,电力平台所记录的数据量较大,如何收集到能够反映***运行特征的数据也显得至关重要。
典型的电力***日志一般包括以下属性:日志发生日期、事件发生时间点、日志源***、事件持续时间、操作者、业务对象等等信息。从中可以筛选出部分和***故障数据有关联的属性,进行重点的关联分析。具体属性见下表:
序号 属性名称
1 日志唯一标识ID
2 IP地址
3 设备名称
4 日志级别
5 日志内容
6 用电负荷
7 用电量
8 状态名称
9 转变原因
10 异常信息
11 日志创建时间
12 操作人员
13
通常的数据集构建方法为使用最近一月或多月的数据作为样本数据,但这样的构建方法取得的样本数据关注点单一,无法涵盖整个电力***运行周期。如果收集时间跨度更长的数据,此时的样本量则过大,后续的分析将极为耗时,效率低下。鉴于以上情况,本发明设计出一种适合于电力平台场景的日志数据采集方法,在多时间跨度多场景下采集样本,具体方法为:(1)首先从平台中选取近一年的日志数据;(2)基于季节筛选数据,因为不同季节的用电量会有所区别,往往夏季为用电高峰期,所以在春、夏、秋、冬四季中各选取两月数据;(3)基于时间段筛选数据,由于晚间用电量往往多于白天,所以在不同时间段选取数据,如上午9点-12点,下午14点-17点,夜间18点-21点,凌晨0点-3点;(4)基于节假日筛选数据,采集节假日、大型活动时期的电力日志,如春节、国庆假期、中秋节等;(5)基于市县区差异筛选数据,城区与乡镇农村的用电情况存在差异,可分区域来采集数据;(6)基于地区筛选数据,工业区和居民区、中心商业区的用电情况会有所不同,所以采集工业区、居民区和商业区的日志数据;(7)将以上步骤中采集到的数据打乱并整合,创建最终的数据集。样本生成的流程见附图2。
(二)日志预处理
电力平台中保存的原始样本数据内容复杂,特征较多,不适用于直接作为后面的模型训练数据,部分数据可能与后续的分析操作无关联或包含干扰项,因此很有必要在模型构建前对数据进行预处理操作。预处理主要包括:
(1)噪声数据剔除
在样本数据中,电力***保存在数据库中的数据可能会关联其他信息,因此往往会包括日志ID、创建时间、IP地址、设备名称、特殊符号、所属部门、维护人员等特征数据,这些特征项与异常监测无关,这些属性并不能刻画样本自身的分布规律,如果保留这些特征不仅会大大增加文本处理的工作量,还会对后期的一系列操作造成直接影响,从而降低文本处理的效率。因此,去除这些噪声数据是异常分析前的首要任务。
(2)重复数据处理
在数据采集的过程中会存在重复值的情况,出现重复值可能是平台程序重复启动或在入库阶段出现问题导致。采用合并法,通过判断记录间的属性值是否相等,将相等的记录合并为一条记录。
(3)数值型缺失值处理
对数据记录中出现空值数据进行处理,出现缺省值可能是由平台没有正常采集到性能数据导致的。如果样本属性的距离是可度量的,则使用该属性有效值的平均值来插补缺失的值;如果的距离是不可度量的,则使用该属性有效值的众数来插补缺失的值。也可采用多重插补,多重插补认为待插补的值是随机的,实践上通常是估计出待插补的值,再加上不同的噪声,形成多组可选插补值,根据某种选择依据,选取最合适的插补值。
(4)类别型特征编码
输入特征中部分特征为无序类别变量,应通过One-HotEncoding将其转化为矩阵。如当前状态这一特征共有3种状态,因此利用One-HotEncoding进行编码。
对类别数量少于10,采用one-hot编码方式;对类别超过10的采用频率编码方式。
(5)数值标准化
特征数值化后再对其进行归一化操作,本方案采用min-max标准化方式,对原始数据x1,x2...xn进行线性变换,使结果yi落到[0,1]区间,转换函数如下:
Figure BDA0003337081570000061
(6)日志文本类数据处理
电力日志中除了数值型数据外,往往还会记录文本型数据,如***在当前运行时段各设备的基本情况或配置信息,或者当平台出现故障时记录当前状态等内容,这些信息的加入能够帮助电力维修人员更迅速的查明问题原因,因此需要对这类数据进行单独处理,具体处理步骤为:首先对文本进行中文分词,然后载入停用词表,去除分词结果中不重要的词条,保留重要词条,与通常删除停用词时需要去除英文内容不同的是,由于***平台日志中英文信息往往包含一些重要信息,因此只删除中文停用词、标点符号或特殊符号。
(三)日志聚类挖掘
在完成电力日志的预处理操作后就可以得到一个包含数值型与文本型的数据样本集,现在开始利用数值型数据进行聚类挖掘,利用聚类算法预测出可能的异常信息。数据集中大部分为信息日志,还会有少量的错误日志,这些真实的错误日志还需要重点关注。
(1)DBSCAN算法及其改进
鉴于电力日志数据集维度相对较低且聚类簇无法确定,本方案采用DBSCAN聚类算法挖掘电力日志中的异常数据,DBSCAN算法是一种经典的基于密度的聚类算法,可以在含有噪声的数据集中识别任意数量和形状的簇,算法优势在于不需要指定簇的数量,可以对任意形状的稠密数据集进行聚类且聚类结果不依赖于样本点的遍历顺序。算法主要基于以下几个概念:
1.ε-近邻:一个对象p的ε半径内的区域称为对象p的ε-近邻;
2.密度:在ε-近邻内包含的数据点的个数;
3.核心点:设Xi为集合中的任意点,则当其ε-近邻内点的个数超过密度阈值Minpts,该点Xi为核心点;
4.直接密度可达:可判定两个点之间是否是属于同一个簇的。如果满足以下两个条件则称从点p1出发直接密度可达点p2。(a)两个点之间足够近,满足distance(pi,p2)<ε;(b)p1的ε-近邻内有足够多的点,满足,也即p1为核心点;
5.密度可达:在集合D中,如果存在一个对象链p1,p2,…,pn,令p1=q,pi是从p(i-1)关于ε和Minpts直接密度可达的,则对象p是从对象q关于ε和Minpts密度可达的;
6.密度可连接:假设样本集D中存在点O、点A和点B,当点O、点A满足密度可达性,点O、点B也满足密度可达性,则点A、点B满足密度可连接。
基于以上几个概念,DBSCAN算法基本思想是对整个聚类的数据集的每一个点,按照阈值半径ε之内的样本点的个数是否大于密度阈值Minpts来判定是否属于同一个类,若当前点p为核心点,则将其ε近邻内的其他点也加入到该集合中,通过不断扩展当前数据点所在的簇,直至遍历所有符合当前簇的数据点,形成一个完整的簇结束。如果点p是一个边界点,即其ε近邻中其他点的个数小于阈值Minpts,则跳过该点,继续任选数据集的下一个点来处理,数据集最后剩下的点则被选为噪声(异常)点。二维数据集下的查询过程如图3所示。
然而,本算法的缺陷在于需要用户基于经验手工设定ε-近邻和密度阈值Minpts这两个参数,导致聚类效果取决于用户的经验。通常情况下,用户需要不断试凑才能获得合适的ε-近邻和Minpts参数值,大大加大了操作的难度。此外,由于需要定期对不同时段跨度的电力日志数据进行聚类分析,其参数值也不尽相同,进一步增加了实际应用的难度。另外,本场景业务目的是检测出可能的异常日志,原算法未能有效判断数据是否异常,可能会造成数据的误判。
为改善聚类效果和提高异常监测效率,结合电力日志数据的特点并在原算法的基础上进行了三点改进,改进内容包括:参数自适应调整、引入新的评价机制作为聚类评价指标和异常数据检测,具体说明如下:
1.参数自适应调整
算法通过计算日志特征向量的距离来实现参数的更新,具体改进方法为,首先计算数据集中每条电力日志i与其他日志数据的欧氏距离LDis,组成距离向量。欧氏距离反映了各日志间的紧密联系程度,距离越大,联系越紧密。
Li=[LDis(i,1),LDis(i,2),…,LDis(i,N)]
对该向量Li按照紧密程度进行升序排列,得到向量Ls,i。然后按照上述步骤创建数据集中所有日志的距离矩阵:
L=[Ls,1,Ls,2,…,Ls,N]T
以列为单位计算矩阵平均值,得到平均距离向量
Figure BDA0003337081570000081
该向量反映某条日志与数据集中任意数据的紧密程度,将平均向量内的N个值作为ε-近邻的候选值,组成参数ε-近邻的候选集Xε,如下所示:
Figure BDA0003337081570000082
利用Xε中生成的每一个候选值计算出在其ε-近邻域内包含的数据点个数,每个日志样本点的邻域内所包含的数据量各不相同,因此对各个邻域内的数据点个数取均值,建立参数密度阈值Minpts的候选集XMinpts
最终将候选集Xε,XMinpts的N组参数输入进DBSCAN算法内,即可得到每组参数对应的聚类簇数,再结合新引入的聚类结果评价指标,确定电力日志数据集的最优簇数。本方法无需人为调参,通过计算得到的日志间距离向量,能够很好反映数据集自身分布特性,使聚类过程更注重数据本身。采用该方法确定算法参数后,聚类结果与数据的分布特性更相近,识别结果更符合真实业务场景。
2.聚类评价指标
本申请以轮廓系数作为聚类结果评价指标,所有样本点的轮廓系数SC的计算公式如下:
Figure BDA0003337081570000091
其中,N为样本点个数;ai为i向量到同一簇内其他点不相似程度的平均值;bi为i向量到其他簇的平均不相似程度的最小值。SC的值处于-1~1之间,其值越大表示聚类效果越好。
3.异常数据检测
通过上述的改进方法,虽然最优的聚类簇数目已经确定,但最优参数所对应的聚类结果中的噪声数据未必每一条都为电力异常数据,可能会出现误判情况。因此,对噪声日志数据的判定方法做进一步改进,通过对数据相关性的检验来确定最终的异常数据。具体步骤如下:
1)在得到最优参数后利用DBSCAN进行聚类,此时聚类结果中有噪声日志数据集合DNoise和各簇的日志集合D1,D2,…,DK
2)计算聚类结果中各簇的聚类中心点,将距离聚类中心最近的日志数据作为核心数据。
3)计算DNoise中各噪声日志与各核心日志数据之间的Pearson相关系数。Pearson相关系数用来度量两个变量之间的相关程度,相关系数越大,两变量的相关性越强,反之相关性越弱。对于两个样本X={x1,x2,…,xn},Y={y1,y2,…,yn},Pearson相关系数公式如下:
Figure BDA0003337081570000092
其中,
Figure BDA0003337081570000093
分别是X,Y的均值,ρ(X,Y)∈[-1,1]。
4)比较各Pearson系数大小,如果该噪声点与聚类中心数据的相关性都较低,则判定其为异常日志数据;否则,将该噪声划分为相关系数最大的簇内。
5)通过步骤4)遍历DNoise,最终得到异常日志数据集Doutlier
(2)错误日志分析
数据集中有电力设备正常运行时的信息日志,也会有少量设备故障时的错误日志,在聚类分析时对于错误日志的聚类簇需要特殊处理。由于DBSCAN算法是基于密度分布的聚类,会将特征相似的数据点划分在同一个簇下,所以错误日志附近的数据点具有相似性,可能为异常值的情况较高。
基于这种情况,本方案从聚类结果中检索所有错误日志的分布情况,取距离错误日志数据点欧氏距离最近的K个点,且这K个数据点与错误日志点属于同一簇内,K取值为数据集中错误日志数量与样本总数的比值,但这样取值可能会导致出现过多异常点,因此只检索错误日志数据点分布较广的样本。
综上所述,改进后的DBSCAN算法流程如下:
输入:数据集D
输出:ε-近邻与Minpts最优参数,异常日志数据Doutlier
1.计算数据样本中各数据点间的欧氏距离;
2.距离结果升序排序并建立距离矩阵;
3.计算每列均值,得到ε-近邻与Minpts的参数候选集;
4.使用候选集参数进行DBSCAN聚类,并计算结果的轮廓系数;
5.重复上述步骤,评估不同候选参数下聚类结果的轮廓系数,确定最优聚类效果;
6.根据最优聚类分析结果,判断可能的异常日志。
(四)异常日志智能解析与反馈
通过训练最终得到的日志聚类模型,当输入最新的日志数据时,电力平台能够预测出本条日志是否可能存在异常状况。然而,仅仅是反馈预测结果还无法让设备管理人员清晰了解到当前平台的运行概况,相关工作人员依然对异常情况一头雾水,不知从何处着手,可能还需花费大量时间查询日志明细。为了解决这一情况,设计了异常日志解析模块,利用自然语言处理技术提取出日志文本中的关键信息,帮助设备维护人员精准定位出异常源头。
(1)TF-IDF算法及其改进
利用TF-IDF算法提取异常日志中的关键信息,TF-IDF是常用的权重值的计算方法,在文本挖掘、信息提取领域应用广泛,用以评估某一词条对于整个文件集或语料库中的某一份文档的重要程度。词频TF表示该词项在文档中出现的频率;逆向文件频率IDF反映该词项在文档数据集中的重要程度,主要计算公式下所示:
Figure BDA0003337081570000101
Figure BDA0003337081570000102
ω=TF×IDF
TF值通常需要被归一化,一般是特征项t在文本d中出现的频次mdt除以文本d中总词数Md,以防止它偏向长的文件。IDF由总文件数N除以包含特征项t的文件数nt(加0.1是为了避免分母为0的情况),再将得到的商取对数得到。ω表示特征项t在文本d中的权重值。
TF-IDF算法的不足之处在于不能很好表征特征词在类别之间的分布情况,计算时仅考虑词频方面的因素,提取到的信息多为出现频率较高的内容。然而在电力日志中绝大多数日志都是设备平稳运行时输出的信息,错误日志却非常少,但错误日志的内容却非常重要,所以利用传统的TF-IDF算法只会提取出设备正常时的关键信息,错误信息因出现较少而被忽略。
鉴于这种情况,对传统TF-IDF算法进行改进,将数据样本中错误日志内容作为重要的文本特征项并将这一特征项融入到原来的权重计算公式中,以增强算法对错误数据的区分能力,具体流程如下:
针对预处理后数据集内所有的错误日志,提取其中的所有词,这些词包含大量文本特有内容,具备很好的异常区分能力,因此将其构建成异常关键词特征集合。
针对预处理后数据集内所有的信息日志,通过统计上一步骤中获取的关键词在日志中出现与否,来计算信息增益值,信息增益值用来衡量该特征能够为类别区分带有多少信息,信息增益值越大,说明特征项对异常信息类别的区分能力越强。具体计算公式为:
Figure BDA0003337081570000111
其中,
Figure BDA0003337081570000112
表示yi类别文本在数据集中出现的概率,即yi类别文本数除以总的文本数,yi类别文本为信息日志文本或错误日志文本;
Figure BDA0003337081570000113
表示数据集中包含关键词特征项xi的文本的概率,即包含特征项xi的文本数除以总的文本数;xi表示不包含关键词特征项xi的文本;p(yi|xi)表示文本包含关键词特征项xi时属于yi类别的条件概率,即包含关键词特征项xi且属于类别yi的文本数除以包含关键词特征xi的文本数。
在进行TF-IDF计算时,将其与上一步的结果融合来改进词频的权重计算方式,得到改进后的TF-IDF计算公式:
Figure BDA0003337081570000114
Figure BDA0003337081570000115
识别日志中与错误信息的关键词,如关键词存在日志中,则使用改进的权重计算公式ωnew,计算特征项权重值,否则按传统权重计算公式ω计算。文本特征项权重赋值如下所示t表示文本中特征项,A表示错误日志关键词集合,B表示电力日志文本,ω表示特征项t在文本d中的权重值,
Figure BDA0003337081570000121
表示异常关键词的信息增益值。
综上所述,利用改进后的TF-IDF算法就可以获取到异常日志中每个词的重要性权重,最后取TF-IDF值较高的Top-K个词作为结果反馈给电力***运维人员,K的取值可由用户确定,最终顺利得到聚类异常结果中的关键信息。
以上所述仅为本实施例所公开的一种基于日志特征智能挖掘的电力***异常监测方法的优选实施方式,并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。

Claims (6)

1.一种基于日志特征智能挖掘的电力***异常监测方法,其特征在于,包括如下步骤:
步骤S1,采集多时间跨度多场景下的日志数据并进行预处理后,形成日志数据样本;
步骤S2,基于DBSCAN聚类算法对日志数据样本进行聚类分析,获取聚类结果,并采用Pearson相关系数对聚类结果进行筛选,得到日志数据样本中的异常日志;
步骤S3,利用自然语言处理技术对异常日志文本进行解析,将解析后的异常日志概要反馈至相关工作人员。
2.根据权利要求1所述的一种基于日志特征智能挖掘的电力***异常监测方法,其特征在于,所述步骤S1,具体包括如下步骤:
步骤S101,从平台中选取近T年的电力日志数据,其中,T为不小于1的整数;
步骤S102,基于季节筛选数据,按照春、夏、秋、冬四季划分,采集每个季节中选出两个月的电力日志数据;基于时间段筛选数据,采集早、晚不同时间段的电力日志数据;基于节假日筛选数据,采集节假日和大型活动时期的电力日志数据;基于市县间的地区差异筛选数据,采集城区和乡镇农村的电力日志数据;基于地区功能特点筛选数据,采集工业区、居民区和商业区的电力日志数据;
步骤S103,将步骤S102中采集到的日志数据打乱并整合,创建最终的日志数据样本。
3.根据权利要求1所述的一种基于日志特征智能挖掘的电力***异常监测方法,其特征在于,所述步骤S2,具体包括如下步骤:
步骤S201,计算日志数据样本中各数据点间的欧氏距离;
步骤S202,将获取的欧式距离结果按照升序进行排序,构建距离矩阵;
步骤S203,以列为单位计算矩阵平均值,得到平均距离向量,随机选取簇中一个未标记的日志样本点,将所述未标记的日志样本点的平均距离向量内的值作为ε-近邻的候选值;利用生成的每一个候选值计算出在ε-近邻内包含的数据点个数,对各个邻域内的数据点个数取均值,建立ε-近邻与密度阈值Minpts的候选集;
步骤S204,使用候选集参数进行DBSCAN聚类,并计算聚类结果的轮廓系数;
步骤S205,重复步骤S201~步骤S204,评估不同候选参数下聚类结果的轮廓系数,确定最优聚类结果;
步骤S206,采用Pearson相关系数对聚类结果进行筛选,获取日志数据样本中的异常日志。
4.根据权利要求1或3所述的一种基于日志特征智能挖掘的电力***异常监测方法,其特征在于,所述预处理包括噪声数据剔除、重复数据处理、数值型缺失值处理、类别型特征编码、数值标准化和日志文本类数据处理。
5.根据权利要求4所述的一种基于日志特征智能挖掘的电力***异常监测方法,其特征在于,所述类别型特征编码包括one-hot编码方式或频率编码方式;所述标准化采用min-max标准化方式。
6.根据权利要求1所述的一种基于日志特征智能挖掘的电力***异常监测方法,其特征在于,所述步骤S3,具体包括如下步骤:
步骤S301,提取日志数据样本内的错误日志中的所有词,构建异常关键词特征集合;
步骤S302,计算异常关键词的信息增益值IG,具体计算公式为:
Figure FDA0003337081560000021
其中,
Figure FDA0003337081560000022
表示yi类别文本在数据集中出现的概率,即yi类别文本数除以总的文本数,yi类别文本为信息日志文本或错误日志文本;
Figure FDA0003337081560000023
表示数据集中包含关键词特征项xi的文本的概率,即包含特征项xi的文本数除以总的文本数;xi表示不包含关键词特征项xi的文本;p(yi|xi)表示文本包含关键词特征项xi时属于yi类别的条件概率,即包含关键词特征项xi且属于类别yi的文本数除以包含关键词特征xi的文本数;
步骤S303,将计算得到的异常关键词的信息增益值结合到TF-IDF算法中,得到改进后的TF-IDF计算公式:
Figure FDA0003337081560000024
Figure FDA0003337081560000025
若异常关键词存在日志中,则使用改进的权重计算公式ωnew,计算特征项权重值,否则按传统权重计算公式ω计算,其中,t表示文本中特征项,A表示错误日志关键词集合,B表示电力日志文本,ω表示特征项t在文本d中的权重值,
Figure FDA0003337081560000026
表示异常关键词的信息增益值;
步骤S304,根据步骤S303中计算出的特征项权重值对所有的异常关键词进行排序,选取权重值最高的若干个异常关键词集合构成异常日志概要,并发送至相关工作人员。
CN202111297960.5A 2021-11-04 2021-11-04 一种基于日志特征智能挖掘的电力***异常监测方法 Pending CN114048870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111297960.5A CN114048870A (zh) 2021-11-04 2021-11-04 一种基于日志特征智能挖掘的电力***异常监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111297960.5A CN114048870A (zh) 2021-11-04 2021-11-04 一种基于日志特征智能挖掘的电力***异常监测方法

Publications (1)

Publication Number Publication Date
CN114048870A true CN114048870A (zh) 2022-02-15

Family

ID=80207075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111297960.5A Pending CN114048870A (zh) 2021-11-04 2021-11-04 一种基于日志特征智能挖掘的电力***异常监测方法

Country Status (1)

Country Link
CN (1) CN114048870A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741673A (zh) * 2022-06-13 2022-07-12 深圳竹云科技股份有限公司 行为风险检测方法、聚类模型构建方法、装置
CN114970546A (zh) * 2022-05-30 2022-08-30 北京声智科技有限公司 信息输出方法、装置及电子设备
CN116243675A (zh) * 2023-05-08 2023-06-09 北京众驰伟业科技发展有限公司 一种血凝仪清洗液生产异常监控方法
JP7302908B1 (ja) 2022-02-21 2023-07-04 Necプラットフォームズ株式会社 運用管理システム、運用管理方法及び運用管理のためのコンピュータプログラム
CN116596292A (zh) * 2023-07-17 2023-08-15 知微行易(上海)智能科技有限公司 产生动态ocap异常行动计划的方法
CN116629709A (zh) * 2023-07-21 2023-08-22 国网山东省电力公司青岛市即墨区供电公司 一种供电指标的智能化分析报警***
CN116860977A (zh) * 2023-08-21 2023-10-10 之江实验室 一种面向矛盾纠纷调解的异常检测***及方法
CN116953488A (zh) * 2023-09-19 2023-10-27 深圳市东陆科技有限公司 一种用于集成光电芯片的监测方法
CN117272198A (zh) * 2023-09-08 2023-12-22 广东美亚商旅科技有限公司 一种基于商旅行程业务数据的异常用户生成内容识别方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023121230A (ja) * 2022-02-21 2023-08-31 Necプラットフォームズ株式会社 運用管理システム、運用管理方法及び運用管理のためのコンピュータプログラム
JP7302908B1 (ja) 2022-02-21 2023-07-04 Necプラットフォームズ株式会社 運用管理システム、運用管理方法及び運用管理のためのコンピュータプログラム
CN114970546A (zh) * 2022-05-30 2022-08-30 北京声智科技有限公司 信息输出方法、装置及电子设备
CN114741673B (zh) * 2022-06-13 2022-08-26 深圳竹云科技股份有限公司 行为风险检测方法、聚类模型构建方法、装置
CN114741673A (zh) * 2022-06-13 2022-07-12 深圳竹云科技股份有限公司 行为风险检测方法、聚类模型构建方法、装置
CN116243675B (zh) * 2023-05-08 2023-07-21 北京众驰伟业科技发展有限公司 一种血凝仪清洗液生产异常监控方法
CN116243675A (zh) * 2023-05-08 2023-06-09 北京众驰伟业科技发展有限公司 一种血凝仪清洗液生产异常监控方法
CN116596292A (zh) * 2023-07-17 2023-08-15 知微行易(上海)智能科技有限公司 产生动态ocap异常行动计划的方法
CN116596292B (zh) * 2023-07-17 2023-09-12 知微行易(上海)智能科技有限公司 产生动态ocap异常行动计划的方法
CN116629709A (zh) * 2023-07-21 2023-08-22 国网山东省电力公司青岛市即墨区供电公司 一种供电指标的智能化分析报警***
CN116629709B (zh) * 2023-07-21 2023-10-20 国网山东省电力公司青岛市即墨区供电公司 一种供电指标的智能化分析报警***
CN116860977A (zh) * 2023-08-21 2023-10-10 之江实验室 一种面向矛盾纠纷调解的异常检测***及方法
CN116860977B (zh) * 2023-08-21 2023-12-08 之江实验室 一种面向矛盾纠纷调解的异常检测***及方法
CN117272198A (zh) * 2023-09-08 2023-12-22 广东美亚商旅科技有限公司 一种基于商旅行程业务数据的异常用户生成内容识别方法
CN117272198B (zh) * 2023-09-08 2024-05-28 广东美亚商旅科技有限公司 一种基于商旅行程业务数据的异常用户生成内容识别方法
CN116953488A (zh) * 2023-09-19 2023-10-27 深圳市东陆科技有限公司 一种用于集成光电芯片的监测方法
CN116953488B (zh) * 2023-09-19 2023-12-12 深圳市东陆科技有限公司 一种用于集成光电芯片的监测方法

Similar Documents

Publication Publication Date Title
CN114048870A (zh) 一种基于日志特征智能挖掘的电力***异常监测方法
WO2021184630A1 (zh) 基于知识图谱定位排污对象的方法及相关设备
CN108417033B (zh) 基于多维因素的高速路交通事故分析预测方法
CN110750524A (zh) 一种有源配电网故障特征的确定方法及***
CN111027615B (zh) 基于机器学习的中间件故障预警方法和***
CN111259947A (zh) 一种基于多模态学习的电力***故障预警方法和***
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN112100149B (zh) 日志自动化分析***
CN115794803B (zh) 一种基于大数据ai技术的工程审计问题监测方法与***
CN113849542A (zh) 基于人工智能的区域温室气体排放清单核算***与方法
CN113590396A (zh) 一次设备的缺陷诊断方法、***、电子设备及存储介质
CN112183656A (zh) 一种电网故障中scada数据频繁项集挖掘方法
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及***
CN115544519A (zh) 对计量自动化***威胁情报进行安全性关联分析的方法
CN111078512A (zh) 告警记录生成方法、装置、告警设备及存储介质
CN115358481A (zh) 一种企业外迁预警识别的方法、***及装置
CN116128544A (zh) 一种电力营销异常营业数据的主动稽核方法和***
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
Malik et al. A comprehensive approach towards data preprocessing techniques & association rules
CN110852621A (zh) 电力客户负荷特性分析及分类方法、装置及可读存储介质
CN116260866A (zh) 基于机器学习的政务信息推送方法、装置和计算机设备
CN115794798A (zh) 一种市场监管信息化标准管理与动态维护***及方法
CN115544112A (zh) 一种基于大数据人工智能的双创成果高价值专利筛选方法
CN112308338A (zh) 电力数据处理方法及装置
CN112800219A (zh) 客服日志反馈回流数据库的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination