CN109902731A - 一种基于支持向量机的性能故障的检测方法及装置 - Google Patents
一种基于支持向量机的性能故障的检测方法及装置 Download PDFInfo
- Publication number
- CN109902731A CN109902731A CN201910129256.5A CN201910129256A CN109902731A CN 109902731 A CN109902731 A CN 109902731A CN 201910129256 A CN201910129256 A CN 201910129256A CN 109902731 A CN109902731 A CN 109902731A
- Authority
- CN
- China
- Prior art keywords
- daily record
- kernel function
- data
- kernel
- record data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于支持向量机的性能故障的检测方法,主要包括日志数据的预处理和预测模型的构建与训练,其中,日志数据的预处理包括对***产生的性能日志数据进行向量化处理;对进行向量化处理后的日志数据加标签,获得训练数据集;预测模型的构建与训练具体包括:通过高斯核和线性核直积混合的方式选取核函数,基于双线性模式搜索法选择核函数的参数和惩罚因子;根据所述核函数、核函数的参数以及惩罚因子,构建基于支持向量机的预测模型,并利用所述训练数据集对所述预测模型进行训练;最后,采用训练后的预测模型对待测日志数据进行检测。本发明实现了提高预测的效率以及预测准确性的技术效果。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于支持向量机的性能故障的检测方法及装置。
背景技术
随着近几年云计算在***开发中的广泛应用,计算机***也因此愈发复杂,运行在其上的软件***在逻辑上越来越复杂,软件的功能越来越丰富,从而导致***的性能故障种类繁多和难以分辨。但是在现代生活中,人们与计算机的联系愈发紧密,特别是在军事,金融,商业,航空等环境下,一旦计算机***出现性能故障,就必须要尽快且准确的进行故障的定位从而进行故障的修复。否则将会影响正常的社会生活并造成巨大的经济损失,严重的情况下还可能影响到社会安定。
在大规模的计算机***中,日志一直是进行故障定位和检测的重要依据。当软件***出现问题时候,往往需要依靠对***的日志进行分析,从而进行故障定位和故障分类。最理想的情况下,***维护人员希望用最少的输入得到最快速且准确的诊断信息。但是在目前的条件下,通过日志对故障进行检测的效率并不是太高,原因是现在的大型计算机***日志数据集庞大,而且这些海量日志没有结构化的输出,很难通过自动化的方法获取信息。
现有技术中,通过日志数据进行故障检测的方法大体可以分为两类,一种是对文本日志数据的处理进行自然语言处理,然后进行日志的分类和故障检测。另一种是将***日志抽象成向量形式,通过机器学习的方法训练出分类模型,从而进行日志分类或则定位出故障日志。两种方法能处理不同的日志类型,但都是对日志进行标准化规则化,从而通过对批量的日志分类进行故障日志的定位和检测。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
现有的通过日志数据进行故障检测的方法,无法提取出与故障相关的日志数据,从而存在预测效率和准确性不高的技术问题。
发明内容
有鉴于此,本发明提供了一种基于支持向量机的性能故障的检测方法及装置,用以解决或者至少部分解决现有技术存在的预测效率和准确性不高,以及忽略离群点的技术问题。
本发明第一方面提供了一种基于支持向量机的性能故障的检测方法,包括:
对***产生的性能日志数据进行向量化处理;
对进行向量化处理后的日志数据加标签,获得训练数据集;
通过高斯核和线性核直积混合的方式选取核函数;
基于双线性模式搜索法选择核函数的参数和惩罚因子;
根据所述核函数、核函数的参数以及惩罚因子,构建基于支持向量机的预测模型,并利用所述训练数据集对所述预测模型进行训练;
采用训练后的预测模型对待测日志数据进行检测。
在一种实施方式中,在对***产生的性能日志数据进行向量化处理之后,所述方法还包括:
剔除冗余日志数据。
在一种实施方式中,在剔除冗余日志数据之后,所述方法还包括:
对日志数据进行标准化。
在一种实施方式中,对日志数据进行标准化具体为采用Z-score方法对日志数据进行标准化,具体公式为:
其中,Vi表示每一个向量的属性项,μi表示待处理日志数据的均值,σi表示待处理日志数据的方差,Vi *表示标准化后的属性项。
在一种实施方式中,性能日志数据进行向量化处理后,获得日志向量,日志向量包括k个属性值,对进行向量化处理后的日志数据加标签,获得训练数据集,包括:
采用结合属性值的方式对加标签阈值进行设置;
基于设置的加标签阈值和预设标签函数进行加标签。
在一种实施方式中,选取的核函数具体为:
其中,xi,xj表示两个样本点,σ表示高斯核带宽。
在一种实施方式中,基于双线性模式搜索法选择核函数的参数和惩罚因子,包括:
采用线性核去除混合核中的高斯核带宽,获得惩罚因子的最优值;
通过对直线采用基于混合核搜索获得一个参数组合(σ0,C0);
在参数组合(σ0,C0)附近进行高精度搜索,其中,高精度搜索的参数包括:C的范围为[2-10,27],σ的范围为[2-10,23],步距为0.1。
基于同样的发明构思,本发明第二方面提供了一种基于支持向量机的性能故障的检测装置,包括:
日志向量化模块,用于对***产生的性能日志数据进行向量化处理;
日志标签化模块,用于对进行向量化处理后的日志数据加标签,获得训练数据集;
核函数选取模块,用于通过高斯核和线性核直积混合的方式选取核函数;
参数和惩罚因子选择模块,用于基于双线性模式搜索法选择核函数的参数和惩罚因子;
模型构建模块,用于根据所述核函数、核函数的参数以及惩罚因子,构建基于支持向量机的预测模型,并利用所述训练数据集对所述预测模型进行训练;
检测模块,用于采用训练后的预测模型对待测日志数据进行检测。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于支持向量机的性能故障的检测方法,主要包括日志数据的预处理和预测模型的构建与训练,其中,日志数据的预处理包括对***产生的性能日志数据进行向量化处理;对进行向量化处理后的日志数据加标签,获得训练数据集;预测模型的构建与训练具体包括:通过高斯核和线性核直积混合的方式选取核函数,基于双线性模式搜索法选择核函数的参数和惩罚因子;根据所述核函数、核函数的参数以及惩罚因子,构建基于支持向量机的预测模型,并利用所述训练数据集对所述预测模型进行训练;最后,采用训练后的预测模型对待测日志数据进行检测。
相对于现有技术而言,本发明选取了通过高斯核和线性核直积混合的方式进行核函数混合处理方式,既可以保留局部核函数全局核函数的特点,且混合之后的需要调节的参数较少使得模型的计算复杂度较低,并基于双线性模式搜索法选择核函数的参数和惩罚因子,整个方法大大减少了参数的选择时间,而且结合了支持向量机自身参数空间分布的特点,相对于网格搜索法对参数的选择范围更具有针对性,减少了搜索空间。同时结合了全局核函数和局部核函数各自特点,能更好的适应本发明中的数据结构,得到分类效果最佳的基于支持向量机的预测模型。从而可以提高预测效率以及预测准确性,并且,本发明核函数的选取方法还可以解决忽略离群点的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于支持向量机的性能故障的检测方法的流程图;
图2为本发明实施例中的方法的实施框架图;
图3为本发明实施例中日志向量化的示意图;
图4为本发明实施例中数据标准化的示意图;
图5为本发明实施例中核参数和惩罚因子搜索图;
图6为本发明实施例中基于支持向量机的性能故障的检测装置的结构框图;
图7为本发明实施例中一种计算机可读存储介质的结构框图;
图8为本发明实施例中计算机设备的结构图。
具体实施方式
本发明的目的在于提供一种基于支持向量机的性能故障的检测方法及装置,用以改善现有技术存在的预测效率和准确性不高,以及忽略离群点的技术问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于支持向量机的性能故障的检测方法,请参见图1,该方法包括:
步骤S1:对***产生的性能日志数据进行向量化处理。
具体来说,对于一条原始的性能日志数据来说,其包含了诸多日志项,例如包含了***的大量的运行信息,能反映出***的运行状态是否健康,同时也包含一些与***性能无关的项,这些项目混淆在日志的记录项中,有文本的也有数值的。总体来说,原始日志中包含三类日志属性项:文本型日志数据项,数值型***性能相关日志属性项,数值型***性能无关属性项。日志的向量化的主要作用是将每条日志记录项文本型日志数据项以及数值型与***性能相关日志属性项剔除,仅仅保留与***性能强相关的数值型日志记录项。
在具体的实施方式中,向量化可以通过下述方式来实现:
请参见在图3中,展示了向量化的详细过程。每条日志记录用record标记,其中的日志项用param n标识,日志的种类分为log 1,log 2和log 3。可以看出总共有k+1日志记录,由于本实施方式只选取***性能相关的***日志,所以处理之后的日志记录只包含了record 1,record 3...record k-1,record k+1这些日志类型为log 1的日志。在日志属性项目param n中去除了SVM无法处理的text的文本型日志项,但是仅仅去掉text的文本日志项还是不够的,因为即使是numeric的日志属性项,也会有很多是与***性能无关的日志属性,所以同样去除了param k-1的日志属性项。
通过上述方式,可以得到日志向量形式表示,这些进行向量化的日志数据不仅去除了只和***性能无关的日志,同时还去除了原始***日志中与***性能无关的属性项目和文本项,只保留下来与***性能强相关的纯数值型的向量表示的日志记录,这些经过处理的日志记录将会保存下来做后续的处理。
在一种实施方式中,在对***产生的性能日志数据进行向量化处理之后,所述方法还包括:
剔除冗余日志数据。
具体来说,在海量的日志数据中,一方面是由重复的日志产生的,另一方面“潜在”的重复日志也充斥着这些日志数据,这些潜在的重复日志是指与本发明研究问题强相关的日志属性项相同,而与本发明研究问题非强相关的日志数据属性项不同。正是因为这些重复的日志数据的存在,使得要处理得数据规模庞大,增加了问题的计算复杂性。但是本发明经过向量化处理的日志数据能够摒弃大量与***性能无关的属性项,保留下来了那些与***性能强相关的日志属性项目,从而大量的冗余重复的日志数据将会包含在日志数据中,无论是本身的重复的日志数据还是“潜在”的重复冗余日志数据,都变成了数值型向量化日志数据集中重复且没有意义的数据。这些重复的冗余日志数据不仅仅存在于***出现故障***性能出现的持续维高的状态,在***正常运行的情况下,也会因为***的性能不规则不稳定跳动产生较少的重复冗余日志。这些即使是表征***运行正常的性能日志,也需要将其在向量化后日志数据集中剔除出去。
经过冗余日志数据的向量化日志数据集将会展现出每条日志数据的独特性,每条日志数据都不完全相同。即使存在某些日志的部分属性项部分相同,但是由于会有其他的属性项的不同也会影响日志数据后续的标签化判断。剔除冗余日志不但会减少后续的处理的复杂度,还会减少大量的无效处理,增加数据处理的准确性。
在一种实施方式中,在剔除冗余日志数据之后,所述方法还包括:
对日志数据进行标准化。
具体来说,在后续的数据处理中,需要为这些日志属性项进行加权处理,这些量纲和范围相差较大的数据一方面会导致阈值参数的大小和范围难以选择。另一方面在各个属性项的权值的大小上也会差生较大的倍率差,因此,为了方便后续的处理过程,还需要选择一个合适的方法进行这些向量化数据的在每一个维度上的量纲统一,即对日志数据进行标准化处理。
在一种实施方式中,对日志数据进行标准化具体为采用Z-score方法对日志数据进行标准化,具体公式为:
其中,Vi表示每一个向量的属性项,μi表示待处理日志数据的均值,σi表示待处理日志数据的方差,Vi *表示标准化后的属性项。
具体来说,本发明采用了Z-score标准化的方法进行数据的标准化处理方法,通过Z-score方法处理后的数据不仅仅使得数据在各个维度上表现了量纲上的统一,另外处理后的数据在各个维度上会显示自然分布的规律,会使得数据的分布更加自然和便于分析。
在图4中展示了数据标准化的过程,需要说明的是,该图中只是选取了经过向量化处理之后的日志数据的某一属性项进行数据的标准化,在实际的操作中要对这些日志数据的某些属性项进行标准化处理,而不是单单只对一个属性进行标准化。有单位的数据Vi2经过标准化处理之后,变成没有量纲单位的将一整列的数据Vi2作为一个数据集进行数据的处理,这些有限的数据的平均值用μ来表示,标准差用σ来表示。
score的方法适用于数据的上下限未知的情况,但是在本发明需要处理的数据中虽然部分属性数据项满足数据的上限未知,比如***的吞吐量,但是所有的数据属性项下限总不会低于0,即所有的数据的大小都不可能出现负数。但是经过Z-score方法处理之后的数据会大约一半的数据排列在坐标系的Y轴左侧,会出现接近一半的数据为负的情况,这对后续的数据处理造成了诸多不便,因此,本发明采用了改进型的Z-score的方法。Z-score方法处理之后的数据之所以会出现接近一半的负数,是因为在数据的处理变化中与数据集的平均值进行了求差的操作。这个求差的操作只是令处理之后的数据的平均值为0,但这对于多类数据的平均值为0意义并不大,相反因为使原来的数据出现大量的负数形式,增加了数据类型的复杂性为后续的操作带来了不便。
本发明在原来的Z-score数据处理方法下,改变了原来的变化公式。使之更加符合本发明的数据处理要求,具体公式如下:
其中,max(μ/σ)各组数据中的均值与方差的最大值,所有的数据在Z-score处理之后的基础上与max(μ/σ)求和,虽然数据相比原来扩大了,但是保证了数据的非负性,方便了数据的后续处理过程。
步骤S2:对进行向量化处理后的日志数据加标签,获得训练数据集。
具体来说,支持向量机SVM是一种典型的监督学习的机器学习算法,经过向量化处理的日志数据是不带标签的数据类型,仅仅是一堆经过简化的排列整齐的向量数据,这些数据目前还无法满足SVM的处理要求。因此,在日志的向量化之后,需要对这些没有标签的数据选择合适的方法加标签。
在一种实施方式中,步骤S2可以通过下述方式来实现:
采用结合属性值的方式对加标签阈值进行设置;
基于设置的加标签阈值和预设标签函数进行加标签。
具体来说,考虑到单一阈值作为参考得加标签的方法虽然简单,但是标签的准确性会大大降低,所以,本发明采用的是多个性能参数结合的方法来设置加标签阈值。将k维的向量日志数据提取与***性能最为相关的m条属性项通过加权的求和方式结合起来,找到一个合适的阈值R进行日志向量数据的标签化,标签化处理之后的K维向量日志数据将会扩展到k+1维,因为在最后一维会有一个-1,1标识的标识维。
每条处理后,日志向量的k个属性值,如k维的向量中,每一个维度用相应的Vi,来代表属性值,通过标签函数f(V1,V2,...Vk)的加标签处理之后,在每一条日志记录的末位会相应的增加一个标签项进行日志的标签化。标签项为-1表示该条日志记录为正常的日志记录,***的性能表现为正常。若标签项为1表示该条日志记录为非正常的日志记录,***的性能表现为异常可能会出现***性能故障。函数f(V1,V2,...Vk)的具体表示如下:
∑kiVi=r
其中,ki是每个日志记录属性项的系数,若系数为0则表示不将该日志属相项作为加标签处理的阈值参考,否则将该日志属性项作为阈值参考进行处理。R是一个具体日志加标签阈值,Vi表示每一个向量的属性项,f(V1,V2,...Vk)是标签函数,每一条日志记录对进行标签化。标签项为-1表示该条日志记录为正常的日志记录,***的性能表现为正常。若标签项为1表示该条日志记录为非正常的日志记录,***的性能表现为异常可能会出现***性能故障。
具体的实施时,r为一个中间值,∑kiVi=r,然后与R对比大小。R是一个具体日志加标签阈值,由人工选择一个合适值作为R。当r小于或则等于R时候,表示这条日志是表示***性能正常的正常日志,标记为-1,加的标签也是-1。当r大于R时候,表示这是一条可能出现***性能故障的非正常日志,标记为1,加的标签也是1。
步骤S3:通过高斯核和线性核直积混合的方式选取核函数。
具体来说,本发明通过支持向量机处理的日志数据因为数据间的交叉联系使其很难在本身的特征空间线性可分,同时针对性能日志数据的数据量大和故障日志稀有的特点,本发明需要选择一个合适的支持向量机的核函数对原始数据的高维度扩展。基于线性组合的核函数混合方式因为高斯核的离群点和近群点的倍数相差较大,而线性核离群点和近群点没有高斯核差距那么大,很难对高斯核的系数进行选择。换句话说,局部核函数和全局核函数进行混合时,如果进行线性混合那么局部核函数的系数参数将无法选择,所以本发明并不能用线性组合的方式进行核函数的混合处理。基于函数变换核函数适合于核函数变形,所以也不适合本发明的混合核函数的模式。
针对以上,本发明选取了通过高斯核和线性核直积混合的方式进行核函数混合处理方式,一方面保留了局部核函数全局核函数的特点,另一方面混合之后的需要调节的参数较少使得模型的计算复杂度较低。
具体地,选取的核函数具体为:
其中,xi,xj表示两个样本点,σ表示高斯核带宽。
具体来说,本发明要处理的日志数据因为故障日志是这些数据中的稀有类,同时还会有很多故障日志是作为所有日志数据中的离群点存在的,但是这些离群点并不能作为日志数据的“噪声”弱化处理掉。同时在数量众多的日志数据中,如果选用全局核函数那么会因为确实存在离群的“噪声”点将会对整个预测模型的准确性产生较大的影响。因此针对本发明的数据特点,不管是学习能力弱泛化能力强的全局核函数还是学习能力强泛化能力弱的局部核函数都不能完全符合,但是核函数的选取会影响到后面预测模型的准确性。
针对以上问题本发明选取了一种混合模式的核函数,即将局部核函数和全局核函数综合起来,从而能满足本发明的实际问题需求。
局部核函数本发明选取了应用比较广泛的高斯核函数即RBF函核,公式表达如下:
从上面的高斯核可以看出,两个样本点间的距离平方和σ的比一起对超平面产生影响。高斯核中的σ决定了这个局部核函数的局部性的大小,当样本间距离远大于时,核函数取值趋近0。因此高斯核善于提取样本间的局部性质,它的外推能力相对与全局函数就较弱。但是在本发明的数据中会因为环境原因等,***的性能日志会确实存在一些无效的离群点,这些离群点如果不对它们进行局部的泛化处理将会造成整个支持向量机的过拟合,这对日志的性能故障检测是不利的。
全局核函数本发明选取了最为简单,参数最少了线性核,它是多项式核的次数为1的特例,在处理线性可分的样本上表现出其独特的优势,同时计算复杂度低,公式表达如下:
线性核是最简单的核函数之一,它被广泛应用于线性可分的样本数据中。它的特征空间到输入空间维度是一样的,并且参数很少计算复杂度较低。在进行线性可分的数据处理上,它的分类效果显著,因此在平时的基于支持向量机的问题研究时一般优先尝试线性核函数,查看其超平面划分的效果。
基于线性组合的核函数混合方式因为高斯核的离群点和近群点的倍数相差较大,而线性核离群点和近群点没有高斯核差距那么大,很难对高斯核的系数进行选择。换句话说局部核函数和全局核函数进行混合时,如果进行线性混合那么局部核函数的系数参数将无法选择,所以本发明并不能用线性组合的方式进行核函数的混合处理。基于函数变换核函数适合于核函数变形,所以也不适合本发明的混合核函数的模式。
针对以上,本发明选取了通过高斯核和线性核直积混合的方式进行核函数混合处理方式,一方面保留了局部核函数全局核函数的特点,另一方面混合之后的需要调节的参数较少使得模型的计算复杂度较低。因此本发明的核函数最终采用以下形式的混合核函数:
核函数选取完成相当于采用了何种映射方式将训练样本映射到高维度的特征空间,选择保留数据间的何种特征。针对本发明的数据特点,采用高斯核和线性核混合模式,一方面减少了“噪声”对预测模型的影响另一方面加强了预测模型的泛化能力。
步骤S4:基于双线性模式搜索法选择核函数的参数和惩罚因子。
具体来说,在前面针对本发明的日志数据特点,已经选择了高斯核和线性核结合的直积混合核函数作为本发明的支持向量机的核函数。选好一个适用于本发明数据的核函数只是用支持向量机做故障检测的第一步,因为核函数选择之后还需要选取合适的核函数参数和惩罚因子,它们也同样会影响支持向量机分类器分类的优劣性。本发明选取的基于线性核和高斯核的混合核,由于线性核没有多余参数,所以该核函数的参数主要为高斯核的参数σ。高斯核是在实际问题中应用最为广泛的核函数,因为它在模式识别等问题上都能表现出很强的适用性。对于本发明给定的样本,核函数以及确定,那么模型的参数就是C和σ。它们会对支持向量机模型的精度造成巨大影响,同时还会影响分类器的泛化能力。
其中,误差惩罚因子C可以通过调节对划分错误的样本数据增加一个偏离值惩罚,来调节支持向量机的置信范围和经验风险,通过误差惩罚因子就能使支持向量机有更好的性能。支持向量机的原理并不是让被错分的样本减少,而是在保证错分样本率(经验风险)最低的情况尽量使本发明的分类间隔最大(置信范围)。如果误差惩罚因子较小,那么支持向量机的模型对误差的惩罚就相对较小,支持向量机的复杂度也会降低,这时候置信范围较小经验风险较大。如果误差惩罚因子较大,那么支持向量机的模型对误差的惩罚就相对较大,支持向量机的复杂度也会增加,这时候置信范围较大经验风险较小。本发明通过使用双线性模式搜索的方法减少了参数搜索的盲目性,结合了数据特点。
请参见图5,在一种实施方式中,步骤S4可以通过下述方式来实现:
采用线性核去除混合核中的高斯核带宽,获得惩罚因子的最优值;
通过对直线采用基于混合核搜索获得一个参数组合(σ0,C0);
在参数组合(σ0,C0)附近进行高精度搜索,其中,高精度搜索的参数包括:C的范围为[2-10,27],σ的范围为[2-10,23],步距为0.1。
具体来说,首先对于已经预处理好的日志数据集,通过使用线性核去除了混合核中的高斯核带宽σ,会得到一个误差惩罚因子的最优质,再通过对直线基于混合核的SVM快速搜索得到一个较优的参数组合(σ0,C0),然后在(σ0,C0)附近进行高精度搜索,C的范围为[2-10,27],σ的范围为[2-10,23],步距为0.1,从而参数搜索范围将会大大减小,这样来时间复杂度便会大大降低。
该方法直接在线性核的基础上进行粗颗粒的惩罚系数确定,找到了相对较优混合和函数参数组合(σ0,C0),然后在这基础上进行高精度的模式搜索。整个方法大大减少了参数的选择时间,而且结合了支持向量机自身参数空间分布的特点,相对于网格搜索法对参数的选择范围更具有针对性,减少了搜索空间。同时该方法结合了全局核函数和局部核函数各自特点,能更好的适应本发明的数据结构,得到分类效果最佳的基于支持向量机的预测模型。
步骤S5:根据所述核函数、核函数的参数以及惩罚因子,构建基于支持向量机的预测模型,并利用所述训练数据集对所述预测模型进行训练。
具体来说,在确定核函数、核函数的参数以及惩罚因子后,则可以构建基于支持向量机的预测模型。请参见图2,通过前述步骤可以到预处理后的日志数据,然后可以根据预设比例将这些日志数据划分为训练数据集和测试数据集,其中,训练数据集是对预处理后的日志数据进行加标签后的数据,利用训练数据集可以对所述预测模型进行训练,从而得到更为准确的预测模型,同时可以通过测试数据集来测试预测的准确性。
步骤S6:采用训练后的预测模型对待测日志数据进行检测。
在具体的实施过程汇总,将待测日志数据作为输入训练后的预测模型中,得到的结果就是本发明模型的检测结果。
待测日志数据也需要进行向量化处理,它是一组没有标签的标准化的向量集,被存储在一个二维数组中,行数代表了备检测日志的条数,列数代表需要选取的性能强相关的资源层属性数,每一列代表一个资源层属性。将这二维数组作为输入,通过前面得到的支持向量机模型(即预测模型)可以得到一个一维数组,数组的列数对应原备检测日志向量机的条数。每个列上只有数值-1和1,若第i列为1,表示第i条日志为故障日志,为-1则表示第i条日志为正常日志。到这里就完成了基于支持向量机的故障检测的全部流程。
基于同一发明构思,本申请还提供了与实施例一中一种基于支持向量机的性能故障的检测方法对应的装置,详见实施例二。
实施例二
本实施例提供了一种基于支持向量机的性能故障的检测装置,请参见图6,该装置包括:
日志向量化模块201,用于对***产生的性能日志数据进行向量化处理;
日志标签化模块202,用于对进行向量化处理后的日志数据加标签,获得训练数据集;
核函数选取模块203,用于通过高斯核和线性核直积混合的方式选取核函数;
参数和惩罚因子选择模块204,用于基于双线性模式搜索法选择核函数的参数和惩罚因子;
模型构建模块205,用于根据所述核函数、核函数的参数以及惩罚因子,构建基于支持向量机的预测模型,并利用所述训练数据集对所述预测模型进行训练;
检测模块206,用于采用训练后的预测模型对待测日志数据进行检测。
在一种实施方式中,本发明的装置还包括冗余日志数据剔除模块,用于在对***产生的性能日志数据进行向量化处理之后:
剔除冗余日志数据。
在一种实施方式中,本发明的装置还包括日志数据标准化模块,用于在剔除冗余日志数据之后:
对日志数据进行标准化。
在一种实施方式中,数据标准化模块采用的具体公式为:
其中,Vi表示每一个向量的属性项,μi表示待处理日志数据的均值,σi表示待处理日志数据的方差,Vi *表示标准化后的属性项。
在一种实施方式中,性能日志数据进行向量化处理后,获得日志向量,日志向量包括k个属性值,模型构建模块205具体用于:
采用结合属性值的方式对加标签阈值进行设置;
基于设置的加标签阈值和预设标签函数进行加标签。
在一种实施方式中,核函数选取模块203选取的核函数具体为:
其中,xi,xj表示两个样本点,σ表示高斯核带宽。
在一种实施方式中,参数和惩罚因子选择模块204具体用于:
采用线性核去除混合核中的高斯核带宽,获得惩罚因子的最优值;
通过对直线采用基于混合核搜索获得一个参数组合(σ0,C0);
在参数组合(σ0,C0)附近进行高精度搜索,其中,高精度搜索的参数包括:C的范围为[2-10,27],σ的范围为[2-10,23],步距为0.1。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于支持向量机的性能故障的检测方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例三
请参见图7,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于支持向量机的性能故障的检测方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,请参见图8,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于支持向量机的性能故障的检测方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于支持向量机的性能故障的检测方法,其特征在于,包括:
对***产生的性能日志数据进行向量化处理;
对进行向量化处理后的日志数据加标签,获得训练数据集;
通过高斯核和线性核直积混合的方式选取核函数;
基于双线性模式搜索法选择核函数的参数和惩罚因子;
根据所述核函数、核函数的参数以及惩罚因子,构建基于支持向量机的预测模型,并利用所述训练数据集对所述预测模型进行训练;
采用训练后的预测模型对待测日志数据进行检测。
2.如权利要求1所述的方法,其特征在于,在对***产生的性能日志数据进行向量化处理之后,所述方法还包括:
剔除冗余日志数据。
3.如权利要求2所述的方法,其特征在于,在剔除冗余日志数据之后,所述方法还包括:
对日志数据进行标准化。
4.如权利要求3所述的方法,其特征在于,对日志数据进行标准化具体为采用Z-score方法对日志数据进行标准化,具体公式为:
其中,Vi表示每一个向量的属性项,μi表示待处理日志数据的均值,σi表示待处理日志数据的方差,Vi *表示标准化后的属性项。
5.如权利要求1所述的方法,其特征在于,性能日志数据进行向量化处理后,获得日志向量,日志向量包括k个属性值,对进行向量化处理后的日志数据加标签,获得训练数据集,包括:
采用结合属性值的方式对加标签阈值进行设置;
基于设置的加标签阈值和预设标签函数进行加标签。
6.如权利要求1所述的方法,其特征在于,选取的核函数具体为:
其中,xi,xj表示两个样本点,σ表示高斯核带宽。
7.如权利要求1所述的方法,其特征在于,基于双线性模式搜索法选择核函数的参数和惩罚因子,包括:
采用线性核去除混合核中的高斯核带宽,获得惩罚因子的最优值;
通过对直线采用基于混合核搜索获得一个参数组合(σ0,C0);
在参数组合(σ0,C0)附近进行高精度搜索,其中,高精度搜索的参数包括:C的范围为[2-10,27],σ的范围为[2-10,23],步距为0.1。
8.一种基于支持向量机的性能故障的检测装置,其特征在于,包括:
日志向量化模块,用于对***产生的性能日志数据进行向量化处理;
日志标签化模块,用于对进行向量化处理后的日志数据加标签,获得训练数据集;
核函数选取模块,用于通过高斯核和线性核直积混合的方式选取核函数;
参数和惩罚因子选择模块,用于基于双线性模式搜索法选择核函数的参数和惩罚因子;
模型构建模块,用于根据所述核函数、核函数的参数以及惩罚因子,构建基于支持向量机的预测模型,并利用所述训练数据集对所述预测模型进行训练;
检测模块,用于采用训练后的预测模型对待测日志数据进行检测。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910129256.5A CN109902731B (zh) | 2019-02-21 | 2019-02-21 | 一种基于支持向量机的性能故障的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910129256.5A CN109902731B (zh) | 2019-02-21 | 2019-02-21 | 一种基于支持向量机的性能故障的检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902731A true CN109902731A (zh) | 2019-06-18 |
CN109902731B CN109902731B (zh) | 2020-12-18 |
Family
ID=66945131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910129256.5A Expired - Fee Related CN109902731B (zh) | 2019-02-21 | 2019-02-21 | 一种基于支持向量机的性能故障的检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902731B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220147711A1 (en) * | 2019-01-30 | 2022-05-12 | Hewlett-Packard Development Company, L.P. | Processing service notes |
CN116184930A (zh) * | 2023-03-22 | 2023-05-30 | 中科航迈数控软件(深圳)有限公司 | 数控机床故障预测方法、装置、设备及存储介质 |
CN116628584A (zh) * | 2023-07-21 | 2023-08-22 | 国网智能电网研究院有限公司 | 电力敏感数据处理方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103995907A (zh) * | 2014-06-13 | 2014-08-20 | 北京奇艺世纪科技有限公司 | 一种访问用户的确定方法 |
CN104008399A (zh) * | 2014-06-12 | 2014-08-27 | 哈尔滨工业大学 | 一种仪表检测中基于支持向量机的仪表指针抖动的识别方法 |
CN105468677A (zh) * | 2015-11-13 | 2016-04-06 | 国家计算机网络与信息安全管理中心 | 一种基于图结构的日志聚类方法 |
CN105653444A (zh) * | 2015-12-23 | 2016-06-08 | 北京大学 | 基于互联网日志数据的软件缺陷故障识别方法和*** |
CN105912729A (zh) * | 2016-05-19 | 2016-08-31 | 华南理工大学 | 基于三维时序动态模型的***推荐*** |
CN107391583A (zh) * | 2017-06-23 | 2017-11-24 | 微梦创科网络科技(中国)有限公司 | 网站登陆日志信息转换为向量化数据的方法及*** |
CN107577588A (zh) * | 2017-09-26 | 2018-01-12 | 北京中安智达科技有限公司 | 一种海量日志数据智能运维*** |
CN108229564A (zh) * | 2018-01-05 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种数据的处理方法、装置及设备 |
CN108268905A (zh) * | 2018-03-21 | 2018-07-10 | 广东电网有限责任公司电力科学研究院 | 一种基于支持向量机的变压器故障诊断方法及*** |
-
2019
- 2019-02-21 CN CN201910129256.5A patent/CN109902731B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008399A (zh) * | 2014-06-12 | 2014-08-27 | 哈尔滨工业大学 | 一种仪表检测中基于支持向量机的仪表指针抖动的识别方法 |
CN103995907A (zh) * | 2014-06-13 | 2014-08-20 | 北京奇艺世纪科技有限公司 | 一种访问用户的确定方法 |
CN105468677A (zh) * | 2015-11-13 | 2016-04-06 | 国家计算机网络与信息安全管理中心 | 一种基于图结构的日志聚类方法 |
CN105653444A (zh) * | 2015-12-23 | 2016-06-08 | 北京大学 | 基于互联网日志数据的软件缺陷故障识别方法和*** |
CN105912729A (zh) * | 2016-05-19 | 2016-08-31 | 华南理工大学 | 基于三维时序动态模型的***推荐*** |
CN107391583A (zh) * | 2017-06-23 | 2017-11-24 | 微梦创科网络科技(中国)有限公司 | 网站登陆日志信息转换为向量化数据的方法及*** |
CN107577588A (zh) * | 2017-09-26 | 2018-01-12 | 北京中安智达科技有限公司 | 一种海量日志数据智能运维*** |
CN108229564A (zh) * | 2018-01-05 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种数据的处理方法、装置及设备 |
CN108268905A (zh) * | 2018-03-21 | 2018-07-10 | 广东电网有限责任公司电力科学研究院 | 一种基于支持向量机的变压器故障诊断方法及*** |
Non-Patent Citations (3)
Title |
---|
刘妙阁: "基于嵌入式***的改进SVM手势识别算法研究", 《算法分析》 * |
王梅: "一种改进的核函数参数选择方法", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
胡福威: "基于Labeled-LDA的列控车载设备故障特征提取与诊断方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220147711A1 (en) * | 2019-01-30 | 2022-05-12 | Hewlett-Packard Development Company, L.P. | Processing service notes |
CN116184930A (zh) * | 2023-03-22 | 2023-05-30 | 中科航迈数控软件(深圳)有限公司 | 数控机床故障预测方法、装置、设备及存储介质 |
CN116628584A (zh) * | 2023-07-21 | 2023-08-22 | 国网智能电网研究院有限公司 | 电力敏感数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109902731B (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240185130A1 (en) | Normalizing text attributes for machine learning models | |
CN111444247A (zh) | 一种基于kpi指标的根因定位方法、装置及存储介质 | |
CN109902731A (zh) | 一种基于支持向量机的性能故障的检测方法及装置 | |
Papenbrock et al. | Handling risk-on/risk-off dynamics with correlation regimes and correlation networks | |
CN111369003A (zh) | 一种量子比特读取信号保真度的确定方法、装置 | |
CN108241867B (zh) | 一种分类方法及装置 | |
CN113626607B (zh) | 异常工单识别方法、装置、电子设备及可读存储介质 | |
CN105320764A (zh) | 一种基于增量慢特征的3d模型检索方法及其检索装置 | |
CN113742488A (zh) | 基于多任务学习的嵌入式知识图谱补全方法和装置 | |
CN114266289A (zh) | 一种复杂装备健康状态评估方法 | |
CN114609994A (zh) | 基于多粒度正则化重平衡增量学习的故障诊断方法及装置 | |
AbdulSattar et al. | Fraudulent transaction detection in FinTech using machine learning algorithms | |
CN107305565A (zh) | 信息处理装置、信息处理方法以及信息处理设备 | |
Sundareswaran | Egomotion from global flow field data | |
CN117155771B (zh) | 一种基于工业物联网的设备集群故障溯源方法及装置 | |
CN114064459A (zh) | 基于生成对抗网络和集成学习的软件缺陷预测方法 | |
CN106339354B (zh) | 基于改进pca的云计算网络中高维数据可视化方法 | |
CN111863135A (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
de Andrés et al. | Bankruptcy prediction and credit scoring: A review of recent developments based on hybrid systems and some related patents | |
EP3444759B1 (en) | Synthetic rare class generation by preserving morphological identity | |
US11875250B1 (en) | Deep neural networks with semantically weighted loss functions | |
CN115936003A (zh) | 基于神经网络的软件功能点查重方法、装置、设备及介质 | |
CN113706019A (zh) | 基于多维数据的业务能力分析方法、装置、设备及介质 | |
CN113780351A (zh) | 一种基于随机森林的卫星接收机故障诊断方法 | |
Chairi et al. | Sample selection based active learning for imbalanced data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201218 |
|
CF01 | Termination of patent right due to non-payment of annual fee |