CN115242457A

CN115242457A - 一种日志数据的检测方法、装置、电子设备和存储介质

Info

Publication number: CN115242457A
Application number: CN202210745376.XA
Authority: CN
Inventors: 姚俊; 陆平; 戴美
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-10-25

Abstract

本发明实施例提供了一种日志数据的检测方法、装置、电子设备和存储介质，方法包括：可以先从待检测日志数据中，提取目标特征数据，目标特征数据包括目标时间特征数据和目标行为特征数据；然后将目标特征数据输入预设的日志异常检测模型中，得到针对待检测日志数据的异常检测结果；所述异常检测结果用于表示与所述待检测日志数据对应的目标设备是否在预设时长内遭受多次存在关联性的攻击，预设的日志异常检测模型是基于包括有时间特征数据和行为特征数据的训练用特征数据训练得到。通过本发明实施例，可以实现对目标设备在预设时长内所遭受的多次存在关联性的攻击进行有效的检测，从而保证了目标设备的安全。

Description

一种日志数据的检测方法、装置、电子设备和存储介质

技术领域

本发明涉及数据检测的技术领域，特别是涉及一种日志数据的检测方法、装置、电子设备和存储介质。

背景技术

随着信息技术的不断发展，网络规模的不断扩大，安全问题日益突出，网络攻击变的越来越复杂化、多样化，各种病毒、漏洞、攻击层出不穷。网络安全问题不仅严重影响了人民的生活，还对社会的安全和经济发展产生了严重威胁。

现有的安全事件中，存在一些有预谋的长周期的恶意的攻击行为；当单独分析某一个行为数据时，其与正常行为可能会没有区别，进而导致这些周期长而又擅长潜藏的异常行为无法被有效地检测出来。

发明内容

鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种日志数据的检测方法、装置、电子设备和存储介质，包括：

一种日志数据的检测方法，所述方法包括：

从待检测日志数据中，提取目标特征数据，所述目标特征数据包括目标时间特征数据和目标行为特征数据；

将所述目标特征数据输入预设的日志异常检测模型中，得到针对所述待检测日志数据的异常检测结果；所述异常检测结果用于表示与所述待检测日志数据对应的目标设备是否在预设时长内遭受多次存在关联性的攻击，所述预设的日志异常检测模型是基于包括有时间特征数据和行为特征数据的训练用特征数据训练得到。

可选地，所述从待检测日志数据中，提取目标特征数据，包括：

对所述待检测日志数据进行预处理；所述预处理包括以下至少一项：数据清洗，归一化；

从预处理后的待检测日志数据中，提取目标特征数据。

可选地，所述从预处理后的待检测日志数据中，提取目标特征数据，包括：

从预处理后的日志数据中，提取至少一个特征数据；

分别确定每个特征数据的权重；

根据所述权重，从所述至少一个特征数据中，确定目标特征数据。

可选地，所述预设的日志异常检测模型中设有正常行为规则库和异常行为规则库，所述方法还包括：

获取训练用日志数据，并对所述训练用日志数据进行预处理；

从预处理后的训练用日志数据中，提取至少一个训练用特征数据；

对所述至少一个训练用特征数据进行聚类，得到正常特征数据类和异常特征数据类；

根据所述正常特征数据，生成所述正常行为规则库；以及，根据所述异常特征数据，生成所述异常行为规则库。

可选地，所述将所述目标特征数据输入预设的日志异常检测模型中，得到针对所述待检测日志数据的异常检测结果，包括：

确定所述目标特征数据与所述正常行为规则库的第一距离，和与所述异常行为规则库的第二距离；

当所述第一距离小于第一距离阈值，且所述第二距离小于第二距离阈值时，生成未知异常行为的异常检测结果；

当所述第一距离大于所述第二距离时，生成已知异常行为的异常检测结果；

当所述第一距离小于第二距离，且第二距离大于第二距离阈值时，生成正常行为的异常检测结果。

可选地，所述对所述至少一个训练用特征数据进行聚类，包括：

确定一训练用特征数据与另一训练用特征数据的第三距离值；

当所述第三距离值低于第三距离阈值时，将所述一训练用特征数据和所述另一训练用特征数据聚为一类。

可选地，在根据所述正常特征数据，生成所述正常行为规则库；以及，根据所述异常特征数据，生成所述异常行为规则库时，以多线程来迭代计算支持度。

本发明实施例还提供了一种日志数据的检测装置，所述装置包括：

特征提取模块，用于从待检测日志数据中，提取目标特征数据，所述目标特征数据包括目标时间特征数据和目标行为特征数据；

检测模块，用于将所述目标特征数据输入预设的日志异常检测模型中，得到针对所述待检测日志数据的异常检测结果；所述异常检测结果用于表示与所述待检测日志数据对应的目标设备是否在预设时长内遭受多次存在关联性的攻击，所述预设的日志异常检测模型是基于包括有时间特征数据和行为特征数据的训练用特征数据训练得到。

可选地，所述特征提取模块，包括：

预处理子模块，用于对所述待检测日志数据进行预处理；所述预处理包括以下至少一项：数据清洗，归一化；

目标特征数据提取子模块，用于从预处理后的待检测日志数据中，提取目标特征数据。

可选地，所述目标特征数据提取子模块，用于从预处理后的日志数据中，提取至少一个特征数据；分别确定每个特征数据的权重；根据所述权重，从所述至少一个特征数据中，确定目标特征数据。

可选地，所述预设的日志异常检测模型中设有正常行为规则库和异常行为规则库，所述装置还包括：

训练模块，用于获取训练用日志数据，并对所述训练用日志数据进行预处理；从预处理后的训练用日志数据中，提取至少一个训练用特征数据；对所述至少一个训练用特征数据进行聚类，得到正常特征数据类和异常特征数据类；根据所述正常特征数据，生成所述正常行为规则库；以及，根据所述异常特征数据，生成所述异常行为规则库。

可选地，所述检测模块，包括：

距离计算子模块，用于确定所述目标特征数据与所述正常行为规则库的第一距离，和与所述异常行为规则库的第二距离；

第一异常检测结果生成子模块，用于当所述第一距离小于第一距离阈值，且所述第二距离小于第二距离阈值时，生成未知异常行为的异常检测结果；

第二异常检测结果生成子模块，用于当所述第一距离大于所述第二距离时，生成已知异常行为的异常检测结果；

第三异常检测结果生成子模块，用于当所述第一距离小于第二距离，且第二距离大于第二距离阈值时，生成正常行为的异常检测结果。

可选地，所述训练模块，包括：

聚类子模块，用于确定一训练用特征数据与另一训练用特征数据的第三距离值；当所述第三距离值低于第三距离阈值时，将所述一训练用特征数据和所述另一训练用特征数据聚为一类。

本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上的日志数据的检测方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上的日志数据的检测方法。

本发明实施例具有以下优点：

本发明实施例中，可以先从待检测日志数据中，提取目标特征数据，目标特征数据包括目标时间特征数据和目标行为特征数据；然后将目标特征数据输入预设的日志异常检测模型中，得到针对待检测日志数据的异常检测结果；所述异常检测结果用于表示与所述待检测日志数据对应的目标设备是否在预设时长内遭受多次存在关联性的攻击，预设的日志异常检测模型是基于包括有时间特征数据和行为特征数据的训练用特征数据训练得到。通过本发明实施例，可以实现对目标设备在预设时长内所遭受的多次存在关联性的攻击进行有效的检测，从而保证了目标设备的安全。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种日志数据的检测方法的步骤流程图；

图2是本发明实施例的另一种日志数据的检测方法的步骤流程图；

图3是本发明实施例的一种日志数据检测的流程示意图；

图4是本发明实施例的一种日志异常检测***的结构示意图；

图5是本发明实施例的一种日志异常检测的应用场景示意图；

图6是本发明实施例的一种日志数据的检测装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目标设备在运行的过程中，可以生成针对运行状态的日志数据，并保存在目标设备的存储设备中；当需要分析目标设备是否遭受攻击时，可以从存储设备中获取日志数据，并基于针对日志数据的分析来判断目标设备是否遭受攻击。

当目标设备在预设时长内遭受到多次存在关联的攻击时，可能会持续记录下对应的多个日志数据；如果直接针对其中的一个日志数据进行分析的话，可能会发现这一日志数据是正常的，进而判定目标设备未出现异常；其中，预设时长可以根据实际情况设定，例如：一天、一周、一个月，本发明实施例对此不作限制。

但是这种攻击对目标设备所造成的影响是滞后的，需要经过一段时间才会显现；如果未能及时发现的话，可能导致目标设备在一段时间后出现无法正常工作的异常。

为了针对这类攻击进行检测，本发明实施可以预先采用包括有时间特征的特征数据对日志异常检测模型训练，以使日志异常检测模型训练能够对目标设备所遭受的这类攻击进行检测。

进而，在对需要检测的目标设备的日志数据进行分析时，可以从日志数据中提取包括有时间特征的特征数据，然后将其输入到预先训练好的日志异常检测模型中进行识别。由于预先训练好的日志异常检测模型是基于包括有时间特征的特征数据训练得到的，其可以在时间的维度来对目标设备的日志数据进行识别，从而判断目标设备是否正遭受这类攻击。

参照图1，示出了本发明实施例的一种日志数据的检测方法的步骤流程图，可以包括如下步骤：

步骤101、从待检测日志数据中，提取目标特征数据，目标特征数据包括目标时间特征数据和目标行为特征数据。

其中，待检测日志数据可以指从需要检测的目标设备中获取的日志数据，其可以包括目标设备在一段时间内记录的至少一个日志数据；该“一段时间”可以根据实际情况设定，例如：一个月、一周等，本发明实施例对此不作限制。

当需要检测一目标设备是否在预设时长内遭受到多次存在关联性的攻击时，可以获取目标设备在一段时间内所记录的日志数据，并将其作为待检测日志数据。

然后，可以在时间维度和行为维度上，从待检测日志数据中提取包括目标时间特征数据和目标行为特征数据的目标特征数据。

其中，目标时间特征数据可以指从时间维度上对待检测日志数据进行特征提取所得到的特征数据，其可以指目标行为特征数据对应行为发生的时间。

目标行为特征数据可以指从行为维度上对待检测日志数据进行特征提取所得到的特征数据，其可以指待检测日志数据所记录的行为；目标行为特征数据可以以一序列的方式表示，本发明实施例对此不作限制。

作为一示例：目标特征数据可以记为M(T，K)；其中，T可以代表目标时间特征数据，K可以代表目标行为特征数据。

步骤102、将目标特征数据输入预设的日志异常检测模型中，得到针对待检测日志数据的异常检测结果；异常检测结果用于表示与待检测日志数据对应的目标设备是否在预设时长内遭受多次存在关联性的攻击，预设的日志异常检测模型是基于包括有时间特征数据和行为特征数据的训练用特征数据训练得到。

其中，训练用特征数据可以指预先收集的、包括有时间特征数据和行为特征数据的特征数据；其中的时间特征数据可以指行为特征数据对应行为发生的时间。

在实际应用中，可以预先采用训练用特征数据对模型进行训练，以得到能够基于时间特征数据，对预设时长内的多次存在关联性的攻击进行识别的预设的日志异常检测模型；例如：可以将预设时长内，发生次数超过预设次数的行为，作为预设时长内的多次存在关联性的攻击；也可以将预设时长内发生次数超过预设次数，且危害低的攻击，作为预设时长内的多次存在关联性的攻击，本发明对此不作限制。

从而，在得到包括有目标时间特征数据的目标特征数据后，可以将目标特征数据输入预设的日志异常检测模型；预设的日志异常检测模型基于包括有目标时间特征数据和目标行为特征数据的目标特征数据，可以对待检测日志数据进行识别，并输出针对待检测日志数据的异常检测结果；其中，异常检测结果可以包括异常行为的异常检测结果和正常行为的异常检测结果。

当预设的日志异常检测模型基于目标时间特征数据和目标行为特征数据判定待检测日志数据中存在异常时，可以生成异常行为的异常检测结果；当预设的日志异常检测模型基于目标时间特征数据和目标行为特征数据判定待检测日志数据为正常时，可以生成正常行为的异常检测结果。

参照图2，示出了本发明实施例的另一种日志数据的检测方法的步骤流程图，可以包括如下步骤：

步骤201、预设的日志异常检测模型中可以设有正常行为规则库和异常行为规则库；获取训练用日志数据，并对训练用日志数据进行预处理。

其中，正常行为规则库中可以记录有与正常行为对应的关联规则，异常行为规则库中可以记录有与异常行为对应的关联规则。

在实际应用中，可以先从不同的设备中获取各自在同一时间段内产生的日志数据。

作为一示例，不同设备的厂商、所针对的业务、监控内容及范围可能是不同的，进而导致各自的日志数据结构是不同的；因此，本发明实施例在获取到训练用日志数据后，可以先对训练用日志数据进行预处理，以将日志数据处理为统一、完整、格式化的事件。

具体的，可以对训练用日志数据进行数据清洗的预处理，例如：填写缺失值，删除冗余的日志记录，光滑噪声数据，识别或删除离群点，并解决不一致性。还可以对训练用日志数据进行归一化的预处理，以将数据中绝对值的关系，变为相对值的关系，从而简化计算、缩小量值。

步骤202、从预处理后的训练用日志数据中，提取至少一个训练用特征数据。

然后，可以对预处理后的训练用日志数据进行特征提取，以得到至少一个训练用特征数据；训练用特征数据可以包括对应的时间特征数据和对应的行为特征数据。

步骤203、对至少一个训练用特征数据进行聚类，得到正常特征数据类和异常特征数据类。

在得到至少一个训练用特征数据后，可以对至少一个训练用特征数据进行聚类，以将相似度高的特征数据聚合在一起，从而得到正常特征数据类型和异常特征数据类型。

在本发明一实施例中，可以通过如下子步骤对训练用特征数据进行聚类：

子步骤11、确定一训练用特征数据与另一训练用特征数据的第三距离。

具体的，可以先从至少一个训练用特征数据中任选一训练用特征数据，以及除该一训练用特征数据之外的另一训练用特征数据。然后，计算该一训练用特征数据与该另一训练用特征数据之间的第三距离；该第三距离可以的度量可以采用欧式距离。

子步骤12、当第三距离值低于第三距离阈值时，将一训练用特征数据和另一训练用特征数据聚为一类。

然后，可以根据第三距离来对所有的训练用特征数据进行聚类，例如：可以采用K邻近算法进行聚类分析。

具体的，如果第三距离低于预先设定的第三距离阈值的话，则将该一训练用特征数据和该另一训练用特征数据聚为一类；其中，第三距离阈值可以根据实际情况设定，本发明实施例对此不作限制。

如果第三距离不低于预先设定的第三距离阈值的话，则将该一训练用特征数据和该另一训练用特征数据分别作为一类。

作为一示例，在进行聚类时，可以先将至少一个训练用特征数据按照时间进行排序，以组成训练用原始日志序列；然后，可以按照预设时间间隔对训练用原始日志序列进行分割，以及根据其中的训练用特征数据的权重进行整理，从而得到多组训练用日志序列；再然后，可以分别计算不同训练用日志序列之间的第三距离。

例如：

1)将每个训练用日志序列视为一类，计算两类之间的距离。

2)计算两类之间所有元素(即训练用特征数据)对应的最大距离，将第三距离阈值L作为聚类的条件。

具体的，两个训练用日志序列M_i和M_j之间的第三距离D(M_i，M_j)可以通过如下公式计算：

其中，M_iK_m代表第i个训练用日志序列中的第m个训练用特征数据。

上式中，代表第i个日志序列中第m个事件。

3)如果D(M_i，M_j)小于L，则可以将M_i和M_j聚为一类。

4)多次聚类后，给定某一训练用日志序列，计算其与现有类的代表向量之间的距离，如果与最近类的距离小于L，则将该某一训练用日志序列的特征向量划分到对应的最近的一个类，否则为一个新的类。

在对训练用日志序列全部进行聚类后，可以判断所有类与先验知识的距离，并基于与先验知识的距离来确定各类是属于正常特征数据还是异常特征数据。

步骤204、根据正常特征数据，生成正常行为规则库；以及，根据异常特征数据，生成异常行为规则库。

再然后，可以根据正常特征数据生成对应的正常行为规则库，以及根据异常特征数据生成对应的异常行为规则库。

例如：可以采用Apriori算法来建立正常行为规则库和异常行为规则库；具体的：

1)将正常特征数据或者异常特征数据作为输入数据集X＝(x₁₁，x_12……x_nk)，设定k个变量的示性规则(项集)，得到如下的矩阵形式：

其中，x_ij是第i个数据点关于第j个变量的示性值(i＝1，2...n；j＝1，2……k)，用0和1来表示；0表示不满足这个变量的条件，1表示满足这个标量的条件。

2)根据上述项集情况，生成候选项集，并根据实际情况设定最小支持度为a；对所有项集中的所有项进行扫描，单独统计，形成如表1的列表形式；其中，支持度指数据集中规则应验的次数。

表1：

项	项1	……	项s
				有多少数据点包括了该项	n<sub>1</sub>	……	n<sub>s</sub>
支持度support	n<sub>1</sub>/n	……	n<sub>s</sub>/n

其中，最小支持度可以根据实际情况设定，本发明实施例对此不作限制。

3)根据最小支持度a，进行过滤，并合并过滤后的各项，得到候选项集，候选项集需满足“任意真子集的支持度≥最小支持度”。

4)保持最小支持度不变，重复上一步骤3)的操作，一直采用这种方式合并，直到无法进一步合并(即再合并后的项集中的所有元素都不能满足生成条件“任意真子集的支持度≥最小支持度”)。

5)输出上一步骤4)中最终得到的项集，并将其作为频繁项集。

6)从频繁项集中挖掘关联规则，具体的：

i、对于每个频繁项集f，产生其所有的非空子集；

ii、对f的每个非空子集a，按照规则判别，输出关联规则“a→(f-a)”。

7)循环上一步骤6)，直到挖掘出所有需要的关联规则，并输出最终的结果，以建立正常行为规则库或异常行为规则库。

在实际应用中，传统Aprior算法是一个迭代挖掘频繁模式的过程，挖掘过程中会不断地产生候选频繁集，然后计算候选集的支持度，由候选集产生频繁集，再由频繁集经过连接、剪枝步骤，生成新的候选集，如此重复，直到无法产生新的频繁集则算法终止。Apriori算法是一种经典的关联规则算法：

第一步、通过检索的方式找出数据库中所有的频繁项集。

第二步、根据频繁项集产生所期望的强关联规则。关联规则需用到两个重要指标：支持度support、置信度confidence，支持度指在全部事务中，项集中(X，Y)同时出现的概率，如下式(1)所示，该指标通过设置最小支持度阈值min sup剔除出现频率较低的无意义项集；置信度指在先验条件X已发生的情况下，后验项Y发生的概率。即在含有X的事务中，同时含有Y的概率，如下式(2)所示，通过设置最小置信度阈值min con进一步筛选掉不符合要求的规则。

其中，N可以指所有事务；置信度衡量的是规则准确率如何，即符合给定条件(即规则的“如果”语句所表示的前提条件)的所有规则里，跟当前规则结论一致的比例有多大。计算方法为首先统计当前规则的出现次数，再用它来除以条件(“如果”语句)相同的规则数量。

传统Apriori算法每次计算候选频繁集的支持度，都需要遍历一次事务数据库，存在扫描数据库频繁、产生候选项集多、耗时较长等不足，当频繁模式长度较短和数据集较稀疏、规模较小时，Apriori算法的性能不错。但是，对于存在长模式、密集型或海量数据集，Apriori算法的时间效率和空间可伸缩性都面临挑战。为提高Apriori算法的有效性，针对Apriori的缺陷，现有技术中提出了许多Apriori算法的优化方法，主要在于控制候选集的规模和减少数据扫描次数等方面提高算法的效率，但依旧无法实现长周期的行为的数据挖掘。

因此，在本发明一实施例中，可以在根据正常特征数据，生成正常行为规则库；以及，根据异常特征数据，生成异常行为规则库时，以多线程来迭代计算支持度。

具体的，每次迭代计算支持度时，可以开启多个线程来并发计算，从而使硬件设备的性能得到充分发挥，从而提升了运算效率。

步骤205、对待检测日志数据进行预处理。

其中，预处理可以包括以下至少一项：数据清洗，归一化。

在获取到待检测日志数据后，可以先对待检测日志数据进行数据清洗的预处理，以发现并纠正数据中可识别的错误；同时，可以检查数据的一致性，处理无效值和缺失值等。

例如：填写缺失值，删除冗余的数据，光滑噪声数据，识别或删除离群点，并解决不一致性。

当然，还可以对数据进行归一化的预处理，以将数据中绝对值的关系，变为相对值的关系，从而简化计算、缩小量值。

步骤206、从预处理后的待检测日志数据中，提取目标特征数据。

在对待检测日志数据进行预处理后，可以对预处理后的待检测日志数据进行特征提取，以从与处理后的待检测日志数据中提取包括有目标时间特征数据和目标行为特征数据的目标特征数据。

在本发明一实施例中，可以通过子步骤来提取目标特征数据：

子步骤21、从预处理后的日志数据中，提取至少一个特征数据。

首先，可以先对预处理后的待检测日志数据进行特征的提取，以提取出至少一个包括时间特征数据和行为特征数据的特征数据。

作为一示例，可以将至少一个特征数据按照时间进行排序，以组成原始日志序列。

然后，可以按照预设时间间隔将原始日志序列分割成多组日志序列；其中，预设时间间隔可以根据实际情况设定，本发明实施例对此不作限制。

子步骤22、分别确定每个特征数据的权重。

在提取到至少一个特征数据后，可以分别确定每个特征数据的权重；具体的，可以采用TF-IDF(Term Frequency–Inverse Document Frequency，词频逆向文件频率)来计算权重；权重可以用于表征各个特征数据的重要程度，权重越大，则相应的特征数据的重要程度越高。

子步骤23、根据权重，从至少一个特征数据中，确定目标特征数据。

在得到每个特征数据的权重后，可以根据权重从至少一个特征数据中，确定目标特征数据；目标特征数据可以包括多个。

作为一示例，可以根据权重，将多组日志序列整理为至少一组目标日志序列；目标日志序列中可以包括有至少一个目标特征数据。

例如：目标日志序列为M₁(T₁，K₁)、M₂(T₂，K₂)、M₃(T₃，K₃)……M_n(T_n，K_n)；其中，T₁......T_n可以代表目标时间特征数据，K₁......K_n可以代表目标行为特征数据。

步骤207、将目标特征数据输入预设的日志异常检测模型中，得到针对待检测日志数据的异常检测结果。

得到包括有目标时间特征数据的目标特征数据后，可以将目标特征数据输入预设的日志异常检测模型；预设的日志异常检测模型基于包括有目标时间特征数据和目标行为特征数据的目标特征数据，可以对待检测日志数据进行识别，并输出针对待检测日志数据的异常检测结果。

作为一示例，可以将目标日志序列输入预设的日志异常检测模型；预设的日志异常检测模型基于目标日志序列中的、包括有目标时间特征数据和目标行为特征数据的目标特征数据，可以对待检测日志数据进行识别，并输出针对待检测日志数据的异常检测结果。

基于上述的预设的日志异常检测模型，步骤207可以包括如下子步骤：

子步骤31、确定目标特征数据与正常行为规则库的第一距离，和与异常行为规则库的第二距离。

首先，可以先计算目标特征数据与正常行为规则库的第一距离G₁，以及计算目标特征数据与异常行为规则库的第二距离G₂。

第一距离G₁与第二距离G₂的计算方式与上述第三距离的计算方式类似，在此不再赘述。

子步骤32、当第一距离小于第一距离阈值，且第二距离小于第二距离阈值时，生成未知异常行为的异常检测结果。

然后，可以确定第一距离G₁与第一距离阈值G_Z的关系、第二距离G₂与第二距离阈值G_Y的关系，以及第一距离G₁与第二距离G₂的关系；其中，第一距离阈值G_Z和第二距离阈值G_Y可以根据实际情况设定，本发明实施例对此不作限制。

如果第一距离G₁小于第一距离阈值G_Z，且第二距离G₂小于第二距离阈值G_Y，可以表示目标特征数据对应的行为既可能是正常行为，也可能是异常行为；为了避免将异常行为判定为正常行为，而导致目标设备受损，可以在此种情况下生成未知异常行为的异常检测结果，以提醒管理员对目标设备进行检查。

子步骤33、当第一距离大于第二距离时，生成已知异常行为的异常检测结果。

如果第一距离G₁大于第二距离G₂，可以表示目标特征数据对应的行为是异常行为的可能性，比是正常行为的可能性更大；此时，可以生成已知异常行为的异常检测结果，以提醒管理员对目标设备进行检查。

子步骤34、当第一距离小于第二距离，且第二距离大于第二距离阈值时，生成正常行为的异常检测结果。

如果第一距离G₁小于第二距离G₂，可以表示目标特征数据对应的行为是正常行为的可能性，比是异常行为的可能性更大；此时，可以进一步判断第二距离G₂与第二距离阈值G_Y之间的关系。

如果第二距离G₂是大于第二距离阈值G_Y的话，则可以表示目标特征数据对应的行为是异常行为的可能性较小；此时，可以生成正常行为的异常检测结果。

如图3，为本发明实施例的一种日志数据检测的流程示意图：

S1：获取日志数据并进行预处理；

可以先获取各设备在一段时间内产生的日志数据，并将其作为训练用日志数据；

在获取到训练用日志数据后，可以先对训练用日志数据进行预处理；例如：数据清洗、归一化等。

S2：提取数据特征；

然后，可以对预处理后的训练用日志数据进行特征提取，以提取到至少一个训练用特征数据。

S3：对数据进行聚类分析；

再然后，可以对至少一个训练用特征数据进行聚类，将相似度高的训练用特征数据聚合在一起，以划分出正常特征数据类和异常特征数据类。

S4：建立模型；

基于正常特征数据类和异常特征数据类，可以采用Apriori算法建立正常行为规则库和异常行为规则库，以建立预设的日志异常检测模型。

S5：异常数据判断；

之后，可以将待检测日志数据输入预设的日志异常检测模型中；预设的日志异常检测模型可以计算从待检测日志数据中得到的目标特征数据包括与正常行为规则库和异常行为规则库之间的第一距离和第二距离，并基于该距离和该距离与第一距离阈值、第二距离阈值的关系，生成异常检测结果。

如图4，为本发明实施例的一种日志异常检测***的结构示意图；其可以包括日志数据获取及预处理模块、数据特征提取模块、聚类分析模块、日志异常检测模型建立模块以及异常数据判断模块。

其中，日志数据获取及预处理模块可以用于获取各设备在一段时间内产生的日志数据，并将其作为训练用日志数据；在获取到训练用日志数据后，可以先对训练用日志数据进行预处理；例如：数据清洗、归一化等。

数据特征提取模块可以用于对预处理后的训练用日志数据进行特征提取，以提取到至少一个训练用特征数据。

聚类分析模块可以用于对至少一个训练用特征数据进行聚类，将相似度高的训练用特征数据聚合在一起，以划分出正常特征数据类和异常特征数据类。

日志异常检测模型建立模块可以用于基于正常特征数据类和异常特征数据类，可以采用Apriori算法建立正常行为规则库和异常行为规则库，以建立预设的日志异常检测模型。

异常数据判断模块可以用于将待检测日志数据输入预设的日志异常检测模型中；预设的日志异常检测模型可以计算从待检测日志数据中得到的目标特征数据包括与正常行为规则库和异常行为规则库之间的第一距离和第二距离，并基于该距离和该距离与第一距离阈值、第二距离阈值的关系，生成异常检测结果。

如图5，日志异常检测***可以从目标设备获取待检测日志数据，以检测目标设备是否在预设时长内遭受多次存在关联性的攻击；日志异常检测***生成针对待检测日志数据的异常检测结果后，可以将异常检测结果发送至管理员设备，以提醒管理员对目标设备进行检查。

本发明实施例中，可以先对待检测日志数据进行预处理；然后从预处理后的待检测日志数据中，提取目标特征数据；再将目标特征数据输入预设的日志异常检测模型中，得到针对待检测日志数据的异常检测结果。通过本发明实施例，可以实现对目标设备在预设时长内所遭受的多次存在关联性的攻击进行有效的检测，从而保证了目标设备的安全。

且在对训练用的数据进行聚类时，直接基于现有的数据之间的距离进行聚类，而无需依靠先验知识进行聚类，从而减少了聚类对先验知识的依赖，进而提高了模型对未知数据的检测效率和准确率。

且在生成异常检测结果时，基于与正常规则库之间的距离关系，与异常规则库之间的距离关系，以及与距离阈值的关系来判断，使得既可以检测已知异常行为，又可以检测未知的异常行为。

另外，在每次迭代计算支持度时，开启多个线程，并发计算，使硬件设备的性能得到充分发挥，从而提升了运算效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明实施例的一种日志数据的检测装置的结构示意图，可以包括如下模块：

特征提取模块601，用于从待检测日志数据中，提取目标特征数据，目标特征数据包括目标时间特征数据和目标行为特征数据；

检测模块602，用于将目标特征数据输入预设的日志异常检测模型中，得到针对待检测日志数据的异常检测结果；异常检测结果用于表示与待检测日志数据对应的目标设备是否在预设时长内遭受多次存在关联性的攻击，预设的日志异常检测模型是基于包括有时间特征数据和行为特征数据的训练用特征数据训练得到

本发明的一个可选实施例中，特征提取模块601，包括：

预处理子模块，用于对待检测日志数据进行预处理；预处理包括以下至少一项：数据清洗，归一化；

本发明的一个可选实施例中，目标特征数据提取子模块，用于从预处理后的日志数据中，提取至少一个特征数据；分别确定每个特征数据的权重；根据权重，从至少一个特征数据中，确定目标特征数据。

本发明的一个可选实施例中，预设的日志异常检测模型中设有正常行为规则库和异常行为规则库，装置还包括：

训练模块，用于获取训练用日志数据，并对训练用日志数据进行预处理；从预处理后的训练用日志数据中，提取至少一个训练用特征数据；对至少一个训练用特征数据进行聚类，得到正常特征数据类和异常特征数据类；根据正常特征数据，生成正常行为规则库；以及，根据异常特征数据，生成异常行为规则库。

本发明的一个可选实施例中，检测模块602，包括：

距离计算子模块，用于确定目标特征数据与正常行为规则库的第一距离，和与异常行为规则库的第二距离；

第一异常检测结果生成子模块，用于当第一距离小于第一距离阈值，且第二距离小于第二距离阈值时，生成未知异常行为的异常检测结果；

第二异常检测结果生成子模块，用于当第一距离大于第二距离时，生成已知异常行为的异常检测结果；

第三异常检测结果生成子模块，用于当第一距离小于第二距离，且第二距离大于第二距离阈值时，生成正常行为的异常检测结果。

本发明的一个可选实施例中，训练模块，包括：

聚类子模块，用于确定一训练用特征数据与另一训练用特征数据的第三距离值；当第三距离值低于第三距离阈值时，将一训练用特征数据和另一训练用特征数据聚为一类。

本发明的一个可选实施例中，训练模块，用于在根据正常特征数据，生成正常行为规则库；以及，根据异常特征数据，生成异常行为规则库时，以多线程来迭代计算支持度。

本发明实施例中，可以先从待检测日志数据中，提取目标特征数据，目标特征数据包括目标时间特征数据和目标行为特征数据；然后将目标特征数据输入预设的日志异常检测模型中，得到针对待检测日志数据的异常检测结果；异常检测结果用于表示与待检测日志数据对应的目标设备是否在预设时长内遭受多次存在关联性的攻击，预设的日志异常检测模型是基于包括有时间特征数据和行为特征数据的训练用特征数据训练得到。通过本发明实施例，可以实现对目标设备在预设时长内所遭受的多次存在关联性的攻击进行有效的检测，从而保证了目标设备的安全。

本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上的日志数据的检测方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上的日志数据的检测方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对所提供的一种日志数据的检测方法、装置、电子设备和存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种日志数据的检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从待检测日志数据中，提取目标特征数据，包括：

从预处理后的待检测日志数据中，提取目标特征数据。

3.根据权利要求2所述的方法，其特征在于，所述从预处理后的待检测日志数据中，提取目标特征数据，包括：

从预处理后的日志数据中，提取至少一个特征数据；

分别确定每个特征数据的权重；

4.根据权利要求1所述的方法，其特征在于，所述预设的日志异常检测模型中设有正常行为规则库和异常行为规则库，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述目标特征数据输入预设的日志异常检测模型中，得到针对所述待检测日志数据的异常检测结果，包括：

6.根据权利要求4所述的方法，其特征在于，所述对所述至少一个训练用特征数据进行聚类，包括：

7.根据权利要求4所述的方法，其特征在于，在根据所述正常特征数据，生成所述正常行为规则库；以及，根据所述异常特征数据，生成所述异常行为规则库时，以多线程来迭代计算支持度。

8.一种日志数据的检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述日志数据的检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述日志数据的检测方法。