CN114118295A - 一种异常检测模型训练方法、异常检测方法、装置及介质 - Google Patents
一种异常检测模型训练方法、异常检测方法、装置及介质 Download PDFInfo
- Publication number
- CN114118295A CN114118295A CN202111485895.9A CN202111485895A CN114118295A CN 114118295 A CN114118295 A CN 114118295A CN 202111485895 A CN202111485895 A CN 202111485895A CN 114118295 A CN114118295 A CN 114118295A
- Authority
- CN
- China
- Prior art keywords
- data
- log data
- detected
- anomaly detection
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 207
- 238000012549 training Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 100
- 230000002159 abnormal effect Effects 0.000 claims abstract description 70
- 238000007637 random forest analysis Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 25
- 230000005856 abnormality Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012916 structural analysis Methods 0.000 claims description 9
- 238000012706 support-vector machine Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000002547 anomalous effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007847 structural defect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种异常检测模型训练方法、异常检测方法、装置及介质。异常检测模型训练方法,包括:获取用于训练的日志数据,在日志数据中提取非结构数据,非结构数据包括文本数据和数值型数据。将文本数据转化为词向量,把数据型数据转化为向量。将词向量和向量输入随机森林模型进行训练,调整随机森林模型的参数,得到异常检测模型。通过上述方法,将用于训练的日志数据中属于服务器***运行信息的非结构数据进行提取训练随机森林模型,使得到的异常检测模型,能够快速区分正常数据和异常数据,减少无效信息的干扰,从而提高训练效率。
Description
技术领域
本发明涉及网络安全技术领域,具体涉及一种异常检测模型训练方法、异常检测方法、装置及介质。
背景技术
异常检测是一个发现“少数派”的过程,由于异常数据与大多数数据不一样而引起我们的注意。通过获取异常数据,有助于发现与服务器***有关的结构缺陷、设备故障等潜在的问题。及时的异常检测帮助***开发人员(或操作人员)及时定位问题并立即解决它们,从而减少***停机时间。
在***运行过程中,通常采用生成日志的方式,记录***在运行期间的详细运行信息,因此,日志可以作为用于对***进行异常检测的主要数据源。
相关技术中,针对***的日志数据进行异常检测时,主要包括两类检测方式。一类是监督类异常检测,主要以支持向量机、Logistic回归为主进行检测。其中,支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器。回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济检测等领域。但采用该类方式进行检测时,Logistic回归不能解决线性不可分离的问题,但支持向量机虽然可以解决该问题,但自身参数难以调整,导致建模的时需要消耗大量的人工成本。
另一类是非监督类的异常检测,主要以主成分分析(Principal ComponentAnalysis,PCA)、不变量挖掘和一些聚类方法为主。但采用该种方式进行检测,耗时长,且容易发生误检测的情况,导致检测准确度低。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中针对***日志进行异常检测效率低且准确度低的缺陷,从而提供一种异常检测模型训练方法、异常检测方法、装置及介质。
根据第一方面,本发明提供一种异常检测模型训练方法,所述方法包括:
获取用于训练的日志数据,在所述日志数据中提取非结构数据,所述非结构数据包括文本数据和数值型数据;
将所述文本数据转化为词向量,把所述数据型数据转化为向量;
将所述词向量和所述向量输入随机森林模型进行训练,调整所述随机森林模型的参数,得到异常检测模型。
在该方式中,将用于训练的日志数据中属于服务器***运行信息的非结构数据进行提取训练随机森林模型,使得到的异常检测模型,能够快速区分正常数据和异常数据,减少无效信息的干扰,从而提高训练效率。
结合第一方面,在第一方面的第一实施例中,所述在所述日志数据中提取非结构数据,包括:
将所述日志数据通过Drain算法进行结构解析,提取所述日志数据中的非结构数据。
结合第一方面或者第一方面的第一实施例,在第一方面的第二实施例中,所述将所述文本数据转化为词向量,包括:
通过Word2vec算法,将所述文本数据转化为词向量。
在该方式中,能够将自然语言处理的技术应用于日志数据的检测,使得到的异常检测模型能够识别日志数据内容或者日志数据的编写规则,从而进行针对性的检测。
根据第二方面,本发明还提供一种异常检测方法,所述方法包括:
获取服务器***的待测日志数据;
对所述待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量;
将所述待测词向量和所述待测向量输入至异常检测模型,得到所述日志数据的异常检测结果,所述异常检测模型采用上述第一方面及其可选实施方式中任一项的所述的异常检测模型训练方法训练得到。
在该方式中,能够基于训练好的异常检测模型对获取到的待测日志数据进行自动检测,无需通过人为监测确定需要待进行检测的日志数据领域,从而当服务器***存在异常时,可以快速定位问题,以便能够及时解决。
结合第二方面,在第二方面的第一实施例中,所述对所述日志数据进行预处理,得到待进行检测的待测词向量和待测向量,包括:
将所述待测日志数据通过Drain算法进行结构解析,提取所述待测日志数据中的非结构数据,所述非结构数据包括文本数据和数值型数据;
将所述文本数据通过Word2vec算法转化为待测词向量;
将所述数值型数据转化为待测向量。
在该方式中,能够基于训练好的异常检测模型对获取到的待测日志数据进行自动检测,无需通过人为监测确定需要待进行检测的日志数据领域,从而当服务器***存在异常时,可以快速定位问题,以便能够及时解决。
结合第二方面或者第二方面的第一实施例,在第二方面的第二实施例中,若所述待测日志数据包括多条日志数据,则所述方法还包括:
若出现异常检测结果为数据异常的日志数据,则向用户发送告警信息,所述告警信息包括所述待测日志数据中异常检测结果为异常数据的日志数据。
在该方式中,使用户能够根据接收到的告警信息,明确待测日志数据中异常检测结果为数据异常的日志数据,进而快速定位故障,及时解决问题,从而减少服务器***停机时间。
根据第三方面,本发明提供一种异常检测模型训练装置,所述装置包括:
获取单元,用于获取训练用日志数据,在所述日志数据中提取非结构数据,所述非结构数据包括文本数据和数值型数据;
转换单元,用于将所述文本数据转化为词向量,把所述数据型数据转化为向量;
训练单元,用于将所述词向量和所述向量输入随机森林模型进行训练,调整所述随机森林模型的参数,得到异常检测模型。
结合第三方面,在第三方面的第一实施例中,所述获取单元,包括:
提取单元,用于将所述日志数据通过Drain算法进行结构解析,提取所述日志数据中的非结构数据。
结合第三方面或者第三方面的第一实施例,在第三方面的第二实施例中,所述转换单元,包括:
转换子单元,用于通过Word2vec算法,将所述文本数据转化为词向量。
根据第四方面,本发明还提供一种异常检测装置,其特征在于,所述装置包括:
日志获取单元,用于获取服务器***的待测日志数据;
预处理单元,用于对所述待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量;
检测单元,用于将所述待测词向量和所述待测向量输入至异常检测模型,得到所述日志数据的异常检测结果,所述异常检测模型采用上述第一方面及其可选实施方式中任一项的所述的异常检测模型训练方法训练得到。
结合第四方面,在第四方面的第一实施例中,所述预处理单元,包括:
解析单元,用于将所述待测日志数据通过Drain算法进行结构解析,提取所述待测日志数据中的非结构数据,所述非结构数据包括文本数据和数值型数据;
第一转换单元,用于将所述文本数据通过Word2vec算法转化为待测词向量;
第二转换单元,用于将所述数值型数据转化为待测向量。
结合第四方面或者第四方面的第一实施例,在第四方面的第二实施例中,若所述待测日志数据包括多条日志数据,则所述装置还包括:
告警单元,用于若出现异常检测结果为数据异常的日志数据,则向用户发送告警信息,所述告警信息包括所述待测日志数据中异常检测结果为异常数据的日志数据。
根据第五方面,本发明实施方式还提供一种计算机设备,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面及其可选实施方式中任一项的异常检测模型训练方法或者执行第二方面及其可选实施方式中任一项的异常检测方法。
根据第六方面,本发明实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面及其可选实施方式中任一项的异常检测模型训练方法或者执行第二方面及其可选实施方式中任一项的异常检测方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例提出的一种异常检测模型训练方法的流程图。
图2是根据一示例性实施例提出的一种异常检测方法的流程图。
图3是根据一示例性实施例提出的另一种异常检测方法的流程图。
图4是根据一示例性实施例提出的一种异常检测模型训练装置的结构框图。
图5是根据一示例性实施例提出的一种异常检测装置的结构框图。
图6是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
异常检测是用于及时发现***异常行为,在大型***的事件管理中发挥着重要作用。及时进行异常检测有助于***开发人员(或操作人员)及时发现、并定位问题,进而及时解决问题,从而减少服务器的停机时间。日志是用于记录服务器***在运行期间具体运行情况的信息。因此,在对***运行状态进行异常检测时,可以根据在***运行期间生成的日志进行检测。
相关技术中,针对***的日志数据进行异常检测时,主要包括两类检测方式。一类是监督类异常检测,主要以支持向量机、Logistic回归为主进行检测。其中,支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器。回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济检测等领域。但采用该类方式进行检测时,Logistic回归不能解决线性不可分离的问题,但支持向量机虽然可以解决该问题,但自身参数难以调整,导致建模的时需要消耗大量的人工成本。
另一类是非监督类的异常检测,主要以主成分分析(Principal ComponentAnalysis,PCA)、不变量挖掘和一些聚类方法为主。但采用该种方式进行检测,耗时长,且容易发生误检测的情况,导致检测准确度低。
本发明实施例中提供一种异常检测模型训练方法,用于计算机设备中,需要说明的是,其执行主体可以是异常检测模型训练装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,其中,该存储设备可以是终端或客户端或服务器,服务器可以是一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。
本实施例中的计算机设备,是用于训练异常检测模型,以便将训练好的异常检测模型部署至服务器中,根据服务器***运行生成的日志数据,检测服务器***在运行期间是否存在异常。本发明提供的异常检测模型训练方法,在对异常检测模型进行训练时,是将用于训练的日志数据中的非结构数据转换为词向量和向量后输入至随机森林模型中进行训练,以使得到的异常检测模型能够对获取到的日志数据进行自动检测,进而避免人为主观因素干扰,从而提高检测效率。
图1是根据一示例性实施例提出的一种异常检测模型训练方法的流程图。如图1所示,异常检测模型训练方法包括如下步骤S101至步骤S103。
在步骤S101中,获取用于训练的日志数据,在日志数据中提取非结构数据。
在本发明实施例中,用于训练的日志数据可以为服务器***运行时的历史日志数据,其中,日志数据的数量类型可以包括正常数据和异常数据。其中,异常数据可以是服务器***发生故障时,在故障时间段截取的日志数据。在一例中,为使训练好的异常检测模型在应用时,输出的异常检测结果能够明确异常数据对应的故障类别,则还可以将异常数据划分为服务器***死机、远程访问连接超限等具体故障。
在服务器***的日志数据中,包括结构数据和非结构数据,其中,非结构数据可以包括文本数据和数值型数据。在日志数据中,服务器***的运行信息是通过非结构数据体现的,而结构数据可以理解为是用于报告服务器***日志信息的模板数据,例如:XX在XX时间登录,并不包括服务器***的具体运行信息。因此,为提高训练效率,减少无用信息的干扰,则将日志数据中的非结构数据进行提取,以便后续针对非结构数据进行训练。
在步骤S102中,将文本数据转化为词向量,把数据型数据转化为向量。
在本发明实施例中,非结构数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。在训练随机森林模型时,需要利用结构型数据进行训练。因此,为使随机森林模型的训练能够顺利进行,则将提取的非结构数据进行向量化处理,将非结构数据中的文本数据转化为词向量,数据型数据转化为向量,进而根据词向量和向量训练随机森林模型。
在步骤S103中,将词向量和向量输入随机森林模型进行训练,调整随机森林模型的参数,得到异常检测模型。
在本发明实施例中,随机森林指的是利用多棵树对样本进行训练并检测的一种分类器。在对随机森林模型进行训练时,将用于训练的日志数据的词向量和向量输入至随机森林模型中,通过随机森林算法对日志数据中非线性关系的挖掘,得到对应的异常检测结果,其中,异常检测结果包括数据正常或者数据异常。通过不断调整随机森林模型的参数,提高随机森林模型针对异常数据进行检测的准确度,进而当检测的准确率达到指定阈值时,则完成对随机森林模型的训练,得到异常检测模型。
在一实施场景中,为验证异常检测模型的准确度,获取用于测试的日志数据,其中,用于测试的日志数据的数据类型可以包括正常数据或者异常数据。将测试的日志数据采用与用于训练的日志数据相同的数据处理方式得到输入至异常检测模型的词向量和向量,进而根据输出结果验证异常检测模型的准确度。若验证结果符合需求,则固定异常检测模型的参数,以便后续在服务器中,采用异常检测模型对获取到的待测日志数据进行异常检测时,可以基于该固定好的参数进行检测。若验证结果不符合需求,则重新调整异常检测模型的参数,直至验证结果符合需求。
通过上述实施例,将用于训练的日志数据中属于服务器***运行信息的非结构数据进行提取训练随机森林模型,使得到的异常检测模型,能够快速区分正常数据和异常数据,减少无效信息的干扰,从而提高训练效率。
在一实施例中,得到的异常检测模型在对日志数据进行检测时,可以对日志数据进行单条检测,也可以对日志数据进行批量检测。若对日志数据进行单条检测,则得到的异常检测结果为该日志数据对应的异常检测结果。若对日志数据进行批量检测,则在异常检测模型中判断属于异常数据的日志数据,进而输出异常检测结果时,针对各日志数据进行针对性的输出。
在另一实施例中,提取日志数据中的非结构数据时,可以采用Drain算法对日志数据进行结构解析,将日志数据拆分为结构部分和非结构部分,进而根据非结构部分,得到非结构数据。
在又一实施例中,将非结构数据中的文本数据进行向量化处理时,可以采用Word2vec算法进行向量化处理,将文本数据转化为词向量,进而在训练随机森林模型时,能够将自然语言处理的技术应用于日志数据的检测,使得到的异常检测模型能够识别日志数据内容或者日志数据的编写规则,从而进行针对性的检测。其中,Word2Vec算法是一种语言模型,可以从大量文本语料中以无监督方式学习语义知识。
在一实施场景中,将用于训练的日志数据采用Drain算法进行结构解析,得到包括服务器***运行信息的非结构数据。针对非结构数据中的文本数据采用Word2Vec算法进行向量化处理,得到文本数据对应词向量。将非结构数据中的数据型数据进行向量化处理,得到数值型数据对应的向量。将词向量和向量输入至随机森林模型中进行训练,得到异常检测模型。通过用于测试的日志数据验证异常检测模型的准确率,若验证结果符合需求,则固定异常检测模型的参数,以便后续在服务器***中,采用异常检测模型对获取到的待测日志数据进行异常检测时,可以基于该固定好的参数进行检测。
通过上述方法,通过提取日志数据中的非结构化数据训练随机森林模型,有助于减少无效数据的干扰,加速训练进程,提高训练效率。并且,通过Word2Vec算法文本数据进行向量化处理,有助于将自然语言处理的技术应用于日志数据的异常检测中,进而使的得到的异常检测模型能够对日志数据进行自动检测,无需人为干扰,从而提高异常检测模型的适用性。
基于相同构思,本发明还提供一种异常检测方法。在该异常检测方法中,所采用的异常检测模型是采用本发明提供的任意一种异常检测模型训练方法训练得到的。通过本方法,能够基于训练好的异常检测模型对获取到的待测日志数据进行自动检测,无需通过人为监测确定需要待进行检测的日志数据领域,从而当服务器***存在异常时,可以快速定位问题,以便能够及时解决。
图2是根据一示例性实施例提出的一种异常检测方法的流程图。如图2所示,异常检测方法包括如下步骤S201至步骤S203。
在步骤S201中,获取服务器***的待测日志数据。
在本发明实施例中,待测日志数据可以是在指定时间内获取到的历史日志数据或者实时监测得到的日志数据。若是在指定时间内获取到的历史日志数据,则待测日志数据为批量日志数据。若是实时监测得到的日志数据,则待测日志数据为单条日志数据。在一例中,获取批量日志数据进行检测或者获取单条日志数据进行检查,可以根据服务器***的数据量大小或者服务器***检测需求进行确定。
在步骤S202中,对待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量。
在本发明实施例中,由于待测日志数据中包括非结构数据,因此,为使异常检测模型能够对待测日志数据进行检测,则将待测日志数据进行预处理,将待测日志数据转换成能够用于检测的待测词向量和待测向量。
在步骤S203中,将待测词向量和待测向量输入至异常检测模型,得到日志数据的异常检测结果。
在本发明实施例中,异常检测结果可以包括数据正常或者数据异常。
若获取的待测日志数据为单条日志数据,则异常检测模型根据输入的待测词向量和待测向量进行检测,得到该待测日志数据对应的异常检测结果。
若获取的待测日志数据为批量日志数据,则异常检测模型根据输入的待测词向量和待测向量进行检测时,先判断待测日志数据中属于异常数据的日志数据,进而输出异常检测结果时,根据各日志数据进行针对性输出。
通过上述实施例,能够基于训练好的异常检测模型对获取到的待测日志数据进行自动检测,无需通过人为监测确定需要待进行检测的日志数据领域,从而当服务器***存在异常时,可以快速定位问题,以便能够及时解决。
在一实施例中,为提高异常检测结果的准确度,减少无效信息的干扰,则对待测日志数据进行预处理时,先将待测日志数据通过Drain算法进行结构解析,提取待测日志数据中的非结构数据。其中,非结构数据包括文本数据和数值型数据。将文本数据Word2vec算法转化为待测词向量,将数值型数据算法转化为待测向量,进而将非结构数据转换成结构数据,以使异常检测模型能够自动检测待测日志数据,实现日志数据自动化检测,从而提高检测效率,节省人工成本。
在一示例中,为使提取的非结构数据仅包括文本数据和数值型数据,则在提取非结构数据之前,将待测日志数据进行清洗,去除待测日志数据中的标点符号等无关数据,从而提高提取清洁度。
在另一实施例中,当异常检测结果为数据异常时,则表征服务器***在运行过程中出现异常,因此,为便于用户及时发现服务器***的***存在故障,则向用户发送告警信息,以提示用户当前服务器***存在故障。在一例中,可以将告警信息发送至用户所使用的客户端,以便用户通过客户端接收到的告警信息明确服务器***存在故障。在另一例中,若服务器***包括可用于显示告警信息的显示器,则将告警信息发送至显示器中进行显示,进而达到提示用户的目的。
在又一实施例中,若待测日志数据中包括多条日志数据,则检测到待测日志数据中存在异常检测结果为数据异常的日志数据,则可以采用图3所示的异常检测方法提示用户。图3是根据一示例性实施例提出的另一种异常检测方法的流程图。如图3所示,异常检测方法包括如下步骤。
在步骤S301中,获取服务器***的待测日志数据。
在步骤S302中,对待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量。
在步骤S303中,将待测词向量和待测向量输入至异常检测模型,得到日志数据的异常检测结果。
在步骤S304中,若出现异常检测结果为数据异常的日志数据,则向用户发送告警信息。
在本发明实施例中,由于待测日志数据包括多条日志数据,因此,各条日志数据对应的异常检测结果可能不同。当出现异常检测结果为数据异常的日志数据时,则表征服务器***的***在运行过程中存在的故障。因此,为使用户明确当前服务器***出现故障,且明确异常检测结果为数据异常的日志数据,则向用户发送告警信息。其中,告警信息包括待测日志数据中异常检测结果为异常数据的日志数据。进而用户根据接收到的告警信息便可以明确服务器***的***在运行过程中出现的故障,根据接收到的异常检测结果为异常数据的日志数据快速定位故障,进而及时解决问题,减少服务器***停机时间。
通过上述实施例,使用户能够根据接收到的告警信息,明确待测日志数据中异常检测结果为数据异常的日志数据,进而快速定位故障,及时解决问题,从而减少服务器***停机时间。
在一实施场景中,实现异常检测方法可以涉及意以下多个模块:日志数据拆分、非结构数据向量化处理、机器学习模型训练、模型部署、模型应用等。其中,日志数据拆分模块,用于将日志数据拆分成结构数据和非结构数据,进而提取非结构数据。非结构数据向量化处理模块,用于将文本数据转化为词向量,将数据型数据转化为向量。机器学习模型训练模块,用于根据词向量和向量训练随机森林模型,得到异常检测模型。模型部署模块,用于将训练好的异常检测模型部署在对应的服务器中。模型应用模块,用于自动获取服务器***的待测日志数据,并通过异常检测模型进行检测,得到异常检测结果。
通过本发明提供的异常检测方法,能够通过在服务器中部署异常检测模型,对记录服务器***运行的日志数据进行自动检测,进而根据异常检测结果及时发现服务器***中存在的故障,以便用户能够及时定位并排除故障,从而有效地提高服务器***运行的安全性和可靠性,避免企业因为服务器***故障而产生的高额损失。
基于相同发明构思,本发明还提供一种异常检测模型训练装置。
图4是根据一示例性实施例提出的一种异常检测模型训练装置的结构框图。如图4所示,异常检测模型训练装置包括:获取单元401、转换单元402和训练单元403。
获取单元401,用于获取训练用日志数据,在日志数据中提取非结构数据,非结构数据包括文本数据和数值型数据;
转换单元402,用于将文本数据转化为词向量,把数据型数据转化为向量;
训练单元403,用于将词向量和向量输入随机森林模型进行训练,调整随机森林模型的参数,得到异常检测模型。
在一实施例中,获取单元,包括:提取单元,用于将日志数据通过Drain算法进行结构解析,提取日志数据中的非结构数据。
在另一实施例中,转换单元,包括:转换子单元,用于通过Word2vec算法,将文本数据转化为词向量。
上述异常检测模型训练装置的具体限定以及有益效果可以参见上文中对于异常检测模型训练方法的限定,在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于相同发明构思,本发明还提供一种异常检测装置。
图5是根据一示例性实施例提出的一种异常检测装置的结构框图。如图5所示,异常检测装置包括:日志获取单元501、预处理单元502和检测单元503。
日志获取单元501,用于获取服务器***的待测日志数据;
预处理单元502,用于对所述待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量;
检测单元503,用于将所述待测词向量和所述待测向量输入至异常检测模型,得到所述日志数据的异常检测结果,所述异常检测模型采用上述任意一种异常检测模型训练方法训练得到。
在一实施例中,预处理单元502,包括:解析单元,用于将待测日志数据通过Drain算法进行结构解析,提取待测日志数据中的非结构数据,非结构数据包括文本数据和数值型数据。第一转换单元,用于将文本数据通过Word2vec算法转化为待测词向量。第二转换单元,用于将数值型数据转化为待测向量。
在另一实施例中,若待测日志数据包括多条日志数据,则装置还包括:告警单元,用于若出现异常检测结果为数据异常的日志数据,则向用户发送告警信息,告警信息包括待测日志数据中异常检测结果为异常数据的日志数据。
上述异常检测装置的具体限定以及有益效果可以参见上文中对于异常检测方法的限定,在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图6是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图6所示,该设备包括一个或多个处理器610以及存储器620,存储器620包括持久内存、易失内存和硬盘,图6中以一个处理器610为例。该设备还可以包括:输入装置630和输出装置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。
处理器610可以为中央处理器(Central Processing Unit,CPU)。处理器610还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器620作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的业务管理方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非暂态软件程序、指令以及模块,从而执行服务器***的各种功能应用以及数据处理,即实现上述任意一种分布式集群扩容方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
一个或者多个模块存储在存储器620中,当被一个或者多个处理器610执行时,执行如图1-3所示的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1-3所示的实施例中的相关描述。
本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的认证方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种异常检测模型训练方法,其特征在于,所述方法包括:
获取用于训练的日志数据,在所述日志数据中提取非结构数据,所述非结构数据包括文本数据和数值型数据;
将所述文本数据转化为词向量,把所述数据型数据转化为向量;
将所述词向量和所述向量输入随机森林模型进行训练,调整所述随机森林模型的参数,得到异常检测模型。
2.根据权利要求1所述的方法,其特征在于,所述在所述日志数据中提取非结构数据,包括:
将所述日志数据通过Drain算法进行结构解析,提取所述日志数据中的非结构数据。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述文本数据转化为词向量,包括:
通过Word2vec算法,将所述文本数据转化为词向量。
4.一种异常检测方法,其特征在于,所述方法包括:
获取服务器***的待测日志数据;
对所述待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量;
将所述待测词向量和所述待测向量输入至异常检测模型,得到所述日志数据的异常检测结果,所述异常检测模型采用上述权利要求1-3中任一项所述的异常检测模型训练方法训练得到。
5.根据权利要求4所述的方法,其特征在于,所述对所述日志数据进行预处理,得到待进行检测的待测词向量和待测向量,包括:
将所述待测日志数据通过Drain算法进行结构解析,提取所述待测日志数据中的非结构数据,所述非结构数据包括文本数据和数值型数据;
将所述文本数据通过Word2vec算法转化为待测词向量;
将所述数值型数据转化为待测向量。
6.根据权利要求4或5所述的方法,其特征在于,若所述待测日志数据包括多条日志数据,则所述方法还包括:
若出现异常检测结果为数据异常的日志数据,则向用户发送告警信息,所述告警信息包括所述待测日志数据中异常检测结果为异常数据的日志数据。
7.一种异常检测模型训练装置,其特征在于,所述装置包括:
获取单元,用于获取训练用日志数据,在所述日志数据中提取非结构数据,所述非结构数据包括文本数据和数值型数据;
转换单元,用于将所述文本数据转化为词向量,把所述数据型数据转化为向量;
训练单元,用于将所述词向量和所述向量输入随机森林模型进行训练,调整所述随机森林模型的参数,得到异常检测模型。
8.一种异常检测装置,其特征在于,所述装置包括:
日志获取单元,用于获取服务器***的待测日志数据;
预处理单元,用于对所述待测日志数据进行预处理,得到待进行检测的待测词向量和待测向量;
检测单元,用于将所述待测词向量和所述待测向量输入至异常检测模型,得到所述日志数据的异常检测结果,所述异常检测模型采用上述权利要求1-3中任一项所述的异常检测模型训练方法训练得到。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-3中任一项所述的异常检测模型训练方法或者4-6中任一项所述的异常检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的异常检测模型训练方法或者4-6中任一项所述的异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485895.9A CN114118295A (zh) | 2021-12-07 | 2021-12-07 | 一种异常检测模型训练方法、异常检测方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485895.9A CN114118295A (zh) | 2021-12-07 | 2021-12-07 | 一种异常检测模型训练方法、异常检测方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114118295A true CN114118295A (zh) | 2022-03-01 |
Family
ID=80367320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111485895.9A Pending CN114118295A (zh) | 2021-12-07 | 2021-12-07 | 一种异常检测模型训练方法、异常检测方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114118295A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881112A (zh) * | 2022-03-31 | 2022-08-09 | 北京优特捷信息技术有限公司 | 一种***异常检测方法、装置、设备及介质 |
CN115333973A (zh) * | 2022-08-05 | 2022-11-11 | 武汉联影医疗科技有限公司 | 设备异常检测方法、装置、计算机设备和存储介质 |
EP4290383A1 (en) * | 2022-06-10 | 2023-12-13 | Nokia Solutions and Networks Oy | Method and apparatus for anomaly detection |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339052A (zh) * | 2020-02-28 | 2020-06-26 | ***股份有限公司 | 一种非结构化日志数据处理方法及装置 |
CN111344721A (zh) * | 2017-11-13 | 2020-06-26 | 国际商业机器公司 | 使用认知计算的异常检测 |
CN113239006A (zh) * | 2021-05-12 | 2021-08-10 | 中国联合网络通信集团有限公司 | 日志检测模型的生成方法和装置、日志检测方法和装置 |
CN113656254A (zh) * | 2021-08-25 | 2021-11-16 | 上海明略人工智能(集团)有限公司 | 基于日志信息的异常检测方法、***和计算机设备 |
-
2021
- 2021-12-07 CN CN202111485895.9A patent/CN114118295A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111344721A (zh) * | 2017-11-13 | 2020-06-26 | 国际商业机器公司 | 使用认知计算的异常检测 |
CN111339052A (zh) * | 2020-02-28 | 2020-06-26 | ***股份有限公司 | 一种非结构化日志数据处理方法及装置 |
CN113239006A (zh) * | 2021-05-12 | 2021-08-10 | 中国联合网络通信集团有限公司 | 日志检测模型的生成方法和装置、日志检测方法和装置 |
CN113656254A (zh) * | 2021-08-25 | 2021-11-16 | 上海明略人工智能(集团)有限公司 | 基于日志信息的异常检测方法、***和计算机设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881112A (zh) * | 2022-03-31 | 2022-08-09 | 北京优特捷信息技术有限公司 | 一种***异常检测方法、装置、设备及介质 |
EP4290383A1 (en) * | 2022-06-10 | 2023-12-13 | Nokia Solutions and Networks Oy | Method and apparatus for anomaly detection |
CN115333973A (zh) * | 2022-08-05 | 2022-11-11 | 武汉联影医疗科技有限公司 | 设备异常检测方法、装置、计算机设备和存储介质 |
CN115333973B (zh) * | 2022-08-05 | 2024-07-23 | 武汉联影医疗科技有限公司 | 设备异常检测方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10795753B2 (en) | Log-based computer failure diagnosis | |
CN114118295A (zh) | 一种异常检测模型训练方法、异常检测方法、装置及介质 | |
CN113282461B (zh) | 传输网的告警识别方法和装置 | |
US20210035022A1 (en) | Method for updating service system electronic device, and readable storage medium | |
CN111435366A (zh) | 设备故障诊断方法、装置和电子设备 | |
US11294754B2 (en) | System and method for contextual event sequence analysis | |
JP2018045403A (ja) | 異常検知システム及び異常検知方法 | |
CN105577440A (zh) | 一种网络故障时间定位方法和分析设备 | |
US20200166921A1 (en) | System and method for proactive repair of suboptimal operation of a machine | |
CN105630682A (zh) | 移动终端自动收集及分析崩溃的***和方法 | |
CN109145030B (zh) | 一种异常数据访问的检测方法和装置 | |
CN116089231B (zh) | 一种故障告警方法、装置、电子设备及存储介质 | |
CN112540905A (zh) | 一种微服务架构下***风险评估方法、装置、设备及介质 | |
CN113313280B (zh) | 云平台的巡检方法、电子设备及非易失性存储介质 | |
CN114647558A (zh) | 一种日志异常检测的方法和装置 | |
CN116361147A (zh) | 测试用例根因定位方法及其装置、设备、介质、产品 | |
CN111143191A (zh) | 网站测试方法、装置、计算机设备和存储介质 | |
CN113282920A (zh) | 日志异常检测方法、装置、计算机设备和存储介质 | |
CN117669484A (zh) | 一种芯片仿真日志检查方法、装置及可读介质 | |
CN115834195A (zh) | 一种日志异常检测方法、装置、***及介质 | |
CN115062144A (zh) | 一种基于知识库和集成学习的日志异常检测方法与*** | |
CN114756850A (zh) | 数据的获取方法、装置、设备及存储介质 | |
CN115186001A (zh) | 一种补丁处理方法和装置 | |
CN115130112A (zh) | 一种快速启停方法、装置、设备及存储介质 | |
CN114881112A (zh) | 一种***异常检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |