CN117436073B

CN117436073B - 一种基于智能标签的安全日志告警方法、介质和设备

Info

Publication number: CN117436073B
Application number: CN202311767950.2A
Authority: CN
Inventors: 黄铧焕; 丁法景; 罗发强; 陈忠银; 黄志勇; 郑建英; 施日文
Original assignee: Fujian Jishu Network Technology Co ltd
Current assignee: Fujian Jishu Network Technology Co ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-04-16
Anticipated expiration: 2043-12-21
Also published as: CN117436073A

Abstract

本发明公开了一种基于智能标签的安全日志告警方法、介质和设备，所述方法先根据安全日志数据的关键特征信息生成对应的智能标签，而后基于所述智能标签对安全日志数据进一步分类，每一类别中都包含多个安全日志数据对应的智能标签，再按时间戳信息对同类别内的智能标签进行排列，并将排列后的智能标签按时间戳顺序划分为多个组，而后再基于组别来计算该组内安全日志数据的智能标签对于预警事件权重的影响，只有在组得分高于第二预设阈值时才会保留该组内的智能标签参与算得分阈值的计算，进而基于该得分阈值输出需不需要针对当下的攻击类别输出告警信息。上述方案可以剔除掉安全事件预警时引入正常日志噪声的影响，使得告警信息的提示更加准确。

Description

一种基于智能标签的安全日志告警方法、介质和设备

技术领域

本申请涉及计算机网络安全技术领域，具体涉及一种基于智能标签的安全日志告警方法、介质和设备。

背景技术

深度学习是一种数据驱动的算法，其无需建立***的准确物理模型，只需收集***运行的历史数据即可获得***的最优特征表示，从而完成问题风险诊断预测、问题风险分类溯源、问题风险告警响应等任务。通过机器学习Mini-Batch SGD（随机梯度下降）算法、自然语言处理等多个领域的探索研究和不断改进和优化的形成的数据智能标签的技术方案，可以大幅度提高安全日志多源多维数据的采集、解析、融合与深度挖掘分析的效率和准确性，增强网络安全响应处置的数字化能力与创新应用。

安全威胁是网络安全领域关注的重点，针对当下各种错综复杂及多样的网络威胁，安全管理部门会采用多种网络威胁检测***设备，这些安全威胁检测***设备会产生大量的安全告警，这些大量的告警需要安全管理人员进行人工审核确认，从中找到真实有效的威胁告警，导致这样的状况的原因一方面是因为威胁检测***设备存在错误告警甚至遗漏告警的情况，因此需要人工者审核确认，不同审核人员的专业性和工作经验对审核确认存在较大的差异性；另一方面因为在告警信息中可能存在信息价值低的告警，例如可疑扫描等威胁，因此在人工审核告警的过程中可能会面临大量价值低的告警。

因此，当前安全管理在面对海量的告警时，为了能够快速的找到有效的安全威胁，达到有效的安全告警，解决办法是对告警威胁等级进行分级，这样安全管理人员可以优先处理高级别的告警威胁，然后再处理低级别的告警威胁，这样以便在有限的时间内更快的找到有效的安全威胁，实现有效安全告警。

公开号为CN110958136A的中国发明专利公开了一种基于深度学习的日志分析预警方法，包括以下步骤：对获取的目标***内的不同类型的日志进行预处理；对预处理后的日志使用基于聚类的方法进行日志解析；将解析后日志事件编码成数字特征向量；使用基于LSTM的神经网络和基于LogCollect的聚类方法对编码后的日志进行学习，形成预警信息；对预警信息溯源至负载对应组件服务器，判断故障点。实现对应用***可能出现的故障进行预警，定位，提供相应的解决方案，进而提前解除***风险，提高***的安全状况。

公开号为CN110347547A的中国发明专利公开了一种基于深度学习的日志异常检测方法，利用历史日志文件进行深度学习，得到日志文件检测模型；在预设时间窗口内，接收待检测的日志文件；对待检测的日志文件进行预处理得到日志文件测试样本；对日志文件测试样本进行聚类分析，得到多类日志文件及每类日志文件对应的日志关键字序列；将日志关键字序列输入至日志文件检测模型进行异常检测；若存在异常时，发送预设告警提示至预设应用负责人。

然而，由于安全日志数据量庞大，中间混入了很多噪声数据，因而上述两种方案在针对日志进行处理解析时，往往存在处理时间长、输出预警结论的精度不高等问题。

发明内容

鉴于上述问题，本申请提供了一种基于智能标签的安全日志告警的技术方案，以解决现有的安全日志预警方法存在着计算量大、计算结果不准确等技术问题。

为实现上述目的，在第一方面，本申请提供了一种基于智能标签的安全日志告警方法，所述方法包括：

采集安全日志数据，并对所述安全日志数据进行预处理，提取所述安全日志数据中的关键特征信息，所述关键特征信息包括时间戳信息；

利用训练完成的神经网络模型对所述关键特征信息进行分析，生成智能标签，所述智能标签用于表征安全事件类型或攻击类型；

将安全日志数据根据智能标签进行聚类分析，根据聚类分析结果将相似的安全事件类型或攻击类型归为一类，得到多个类别的智能标签；

根据智能标签的类别为每一类智能标签计算一得分阈值，当计算得分阈值大于对应的第一预设阈值时，发出告警提示；

所述得分阈值根据以下方式进行计算：按照智能标签中的时间戳顺序对同一类别的多个智能标签进行排列，并以同一类别的若干智能标签为一组依次计算各智能标签组对应的组得分，剔除掉组得分低于第二预设阈值的智能标签组，根据剩下的智能标签组的组得分和相应的组权重值计算当前类别的智能标签对应的得分阈值，所述组权重值根据该组内智能标签对应的时间戳信息进行确定。

进一步的，所述神经网络模型根据以下方式进行训练：

获取训练集，从训练集中随机选择一部分样本数据作为每次迭代的输入数据；

将选定的部分批量数据传递给标签分类器，并计算神经网络模型的输出数据；

根据所述神经网络模型的输出数据和实际标签之间的差距计算损失函数；

根据所述损失函数的梯度，对标签分类器中的训练参数进行调整；

重复上述步骤，直到所述训练集被完整遍历，完成训练。

进一步的，所述安全日志数据包括文本数据，所述对所述安全日志数据进行预处理，提取所述安全日志数据中的关键特征信息包括：

将所述文本数据转换为神经网络模型能够处理的数值格式，并对所述文本数据进行词汇划分后转换为词嵌入向量；

根据所述词嵌入向量生成输入序列，并对所述输入序列进行位置编码；

采用注意力机制对所述输入序列的不同位置编码部分独立计算注意力分数，并对计算得到的注意力分数进行加权平均，得到所述注意力机制的最终输出结果；

将所述注意力机制的输出结果、前馈神经网络的输出结果与原始的输入数据相加，并进行层归一化处理，得到所述安全日志数据中的关键特征信息。

进一步的，所述方法包括：

为每一类智能标签设定对应的告警规则以及对应的处理策略；

所述发出告警提示包括：根据当前类别的智能标签对应的告警规则发出告警提示，以及采用对应的处理策略进行处理。

进一步的，所述告警提示包括告警标识、告警时间、告警类型、告警级别、与告警相关的安全日志数据片段、建议处理策略、附加信息中的任一项或多项。

进一步的，对所述安全日志数据进行预处理包括：

对所述安全日志数据进行数据清洗，移除所述安全日志数据中不符合预设规范的部分数据；以及将所述安全日志数据中的非结构化数据转化为结构化数据；

对所述安全日志数据中的数值型数据进行归一化处理，确保各数值型数据在相同的数值范围内，对于所述安全日志数据中的类别型数据进行编码转换，以使其转换为所述神经网络模型能够处理的格式。进一步的，所述按照智能标签中的时间戳顺序对同一类别的多个智能标签进行排列包括：

选取所述时间戳信息距离当前时刻的时间戳最近的若干个同一类别的智能标签进行排列。

进一步的，所述关键特征信息包括静态特征和动态特征，所述静态特征包括设备标识名称、IP地址、设备端口信息中的任一项或多项，所述动态特征包括所述时间戳信息，还包括以及日志级别或事件描述。

在第二方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如本申请第一方面所述的基于智能标签的安全日志告警方法。

在第三方面，本申请提供了一种电子设备，其上存储有计算机程序，包括处理器和存储介质，所述存储介质上存储有计算机程序，所述计算机程序被所述处理器执行时实现如本申请第一方面所述的基于智能标签的安全日志告警方法。

区别于现有技术，上述技术方案中基于智能标签的安全日志告警方法、介质和设备，所述方法包括：采集安全日志数据，并提取安全日志数据中的关键特征信息；利用训练完成的神经网络模型对关键特征信息进行分析，生成智能标签；将安全日志数据根据智能标签进行聚类分析，根据聚类分析结果将相似的安全事件类型或攻击类型归为一类，得到多个类别的智能标签；根据智能标签的类别为每一类智能标签计算一得分阈值，当计算得分阈值大于对应的第一预设阈值时，发出告警提示；所述得分阈值根据以下方式进行计算：按照智能标签中的时间戳顺序对同一类别的多个智能标签进行排列，并以同一类别的若干智能标签为一组依次计算各智能标签组对应的组得分，剔除掉组得分低于第二预设阈值的智能标签组，根据剩下的智能标签组的组得分和相应的组权重值计算当前类别的智能标签对应的得分阈值，组权重值根据该组内智能标签对应的时间戳信息进行确定。

本申请先根据安全日志数据的关键特征信息生成对应的智能标签，而后基于所述智能标签对安全日志数据进一步分类，每一类别中安全日志数据按时间戳排列被对应的智能标签被划分为多个组，而后再基于组别来计算该组内安全日志数据对于预警事件权重的影响，只有在组得分高于第二预设阈值时才会保留该组内的智能标签参与算得分阈值的计算，进而基于该得分阈值输出需不需要针对当下的攻击类别输出告警信息，可以使得告警信息的提示更加准确。

上述发明内容相关记载仅是本申请技术方案的概述，为了让本领域普通技术人员能够更清楚地了解本申请的技术方案，进而可以依据说明书的文字及附图记载的内容予以实施，并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解，以下结合本申请的具体实施方式及附图进行说明。

附图说明

附图仅用于示出本发明具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等，并不能认为是对本申请的限制。

在说明书附图中：

图1为本申请第一示例性实施例所述基于智能标签的安全日志告警方法的流程图；

图2为本申请第二示例性实施例所述基于智能标签的安全日志告警方法的流程图；

图3为本申请第三示例性实施例所述基于智能标签的安全日志告警方法的流程图；

图4为本申请第四示例性实施例所述基于智能标签的安全日志告警方法的流程图；

图5为本申请第五示例性实施例所述基于智能标签的安全日志告警方法的流程图；

图6为实现本申请所述的基于智能标签的安全日志告警方法的***架构图；

图7为本申请第一示例性实施例所述的电子设备的示意图；

上述各附图中涉及的附图标记说明如下：

10、电子设备；

101、处理器；

102、存储介质。

具体实施方式

为详细说明本申请可能的应用场景，技术原理，可实施的具体方案，能实现目的与效果等，以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例，亦不特别限定其与其它实施例之间的独立性或关联性。原则上，在本申请中，只要不存在技术矛盾或冲突，各实施例中所提到的各项技术特征均可以以任意方式进行组合，以形成相应的可实施的技术方案。

除非另有定义，本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同；本文中对相关术语的使用只是为了描述具体的实施例，而不是旨在限制本申请。

在本申请的描述中，用语“和/或”是一种用于描述对象之间逻辑关系的表述，表示可以存在三种关系，例如A和/或B，表示：存在A，存在B，以及同时存在A和B这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。

在本申请中，诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。

在没有更多限制的情况下，在本申请中，语句中所使用的“包括”、“包含”、“具有”或者其他类似的开放式表述，意在涵盖非排他性的包含，这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素，从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素，而且还可以包括没有明确列出的其他要素，或者还包括为这种过程、方法或者产品所固有的要素。

与《审查指南》中的理解相同，在本申请中，“大于”、“小于”、“超过”等表述理解为不包括本数；“以上”、“以下”、“以内”等表述理解为包括本数。此外，在本申请实施例的描述中“多个”的含义是两个以上（包括两个），与之类似的与“多”相关的表述亦做此类理解，例如“多组”、“多次”等，除非另有明确具体的限定。

在本申请实施例的描述中，所使用的与空间相关的表述，诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等，所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系，仅是为了便于描述本申请的具体实施例或便于读者理解，而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作，因此不能理解为对本申请实施例的限制。

除非另有明确的规定或限定，在本申请实施例的描述中，所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如，所述“连接”可以是固定连接，也可以是可拆卸连接，或成一体设置；其可以是机械连接，也可以是电连接，也可以是通信连接；其可以是直接相连，也可以通过中间媒介间接相连；其可以是两个元件内部的连通或两个元件的相互作用关系。对于本申请所属技术领域的技术人员而言，可以根据具体情况理解上述用语在本申请实施例中的具体含义。

如图1所示，在第一方面，本申请公开了一种基于智能标签的安全日志告警方法，所述方法包括：

首先进入步骤S101采集安全日志数据，并对所述安全日志数据进行预处理，提取所述安全日志数据中的关键特征信息，所述关键特征信息包括时间戳信息；

而后进入步骤S102利用训练完成的神经网络模型对所述关键特征信息进行分析，生成智能标签，所述智能标签用于表征安全事件类型或攻击类型；

而后进入步骤S103将安全日志数据根据智能标签进行聚类分析，根据聚类分析结果将相似的安全事件类型或攻击类型归为一类，得到多个类别的智能标签；

而后进入步骤S104根据智能标签的类别为每一类智能标签计算一得分阈值，当计算得分阈值大于对应的第一预设阈值时，发出告警提示。

在步骤S101，所述安全日志数据可以由网络设备、***及服务程序等在运作时产生，所述安全日志数据可以包括时间戳信息（即日志生成时间）、主机名（产生当前日志数据的主机名称）、事件描述等。

所述预处理是用于将所述安全日志数据进行标准化处理的步骤，所述预处理包括去除重复数据、填补缺失值、将数据转换为统一格式等操作中的任一项或多项。

优选的，所述关键特征信息包括静态特征和动态特征，所述静态特征包括设备标识名称、IP地址、设备端口信息中的任一项或多项，所述动态特征包括所述时间戳信息，还包括以及日志级别或事件描述。

在步骤S102中，所述神经网络模型可以包括前馈神经网络（Feedforward NeuralNetwork）、卷积神经网络（Convolutional Neural Network，CNN）、循环神经网络（Recurrent Neural Network，RNN）、支持向量机（Support Vector Machine，SVM）、生成对抗网络（Generative Adversarial Network，GAN）、自编码器（Autoencoder）中的任一项。

在步骤S103中，聚类分析是一种无监督学习方法，用于将一组数据样本分成若干个有意义的类别或簇。聚类分析可以通过聚类分析算法来实现，聚类分析算法可以包括K均值聚类（K-means Clustering）、层次聚类（Hierarchical Clustering）、DBSCAN（Density-Based Spatial Clustering of Applications with Noise）、密度聚类（Density-basedClustering）、谱聚类（Spectral Clustering）、局部离群点因子（Local Outlier Factor，LOF）、高斯混合模型（Gaussian Mixture Model，GMM）、BIRCH（Balanced IterativeReducing and Clustering using Hierarchies）中的任一项。

在步骤S104中，第一预设阈值的数值大小可以根据实际需要进行设定。所述告警提示可以是声音提示、发光提示、震动提示、或是在显示界面上的文字、图形提示等。

如图2所示，所述得分阈值根据以下方式进行计算：

首先进入步骤S201按照智能标签中的时间戳顺序对同一类别的多个智能标签进行排列；

而后进入步骤S202以同一类别的若干智能标签为一组依次计算各智能标签组对应的组得分，剔除掉组得分低于第二预设阈值的智能标签组；

而后进入步骤S203根据剩下的智能标签组的组得分和相应的组权重值计算当前类别的智能标签对应的得分阈值，所述组权重值根据该组内智能标签对应的时间戳信息进行确定。

在步骤S201中，例如经过聚类分析后获知在A攻击类型下有100个智能标签，则可以根据这100个智能标签中记录的时间戳信息（即安全日志数据的生成时间）按照距离当前时间戳的远近进行排序。具体的，所述按照智能标签中的时间戳顺序对同一类别的多个智能标签进行排列包括：选取所述时间戳信息距离当前时刻的时间戳最近的若干个同一类别的智能标签进行排列。

在步骤S202中，分组的方式优选为每组所包含的智能标签数量相同，这样便于后续计算组得分进行横向比较，对于每一智能标签组对应的组得分的计算，可以是该组内各个智能标签得分取平均值，各个智能标签的得分可以输入预设的神经网络模型进行计算，该神经网络模型的输入为智能标签中的特征数据，输出为各个智能标签的得分，该得分用于表征某个智能标签对应的安全日志数据能够被作为告警事件的概率程度。第二预设阈值的数值大小可以根据实际需要进行设定。

在步骤S203中，所述组权重值根据该组内智能标签对应的时间戳信息进行确定是指依照距离当前时间戳信息的远近各个分组的权重值依次增大，即距离当前时间戳越近的（这一点可以通过获取各个分组内智能标签对应的时间戳得出）分组的权重值越大。

上述方案通过以组为单位剔除掉了组得分低于第二预设阈值的智能标签组，当某一安全日志数据距离当前时间戳过远或者被判定为需要告警的概率过低时就不会进行预警，保证参与得分阈值计算的都是满足一定条件要求的智能标签组，从而使得告警信息的提示更加准确。

如图3所示，在一些实施例中，所述神经网络模型根据以下方式进行训练：

首先进入步骤S301获取训练集，从训练集中随机选择一部分样本数据作为每次迭代的输入数据；

而后进入步骤S302将选定的部分批量数据传递给标签分类器，并计算神经网络模型的输出数据；

而后进入步骤S303根据所述神经网络模型的输出数据和实际标签之间的差距计算损失函数；

而后进入步骤S304根据所述损失函数的梯度，对标签分类器中的训练参数进行调整；

而后进入步骤S305重复上述步骤，直到所述训练集被完整遍历，完成训练。

通过上述方案，能够实现对神经网络模型的训练，进而使得智能标签的生成更加准确。

在某些实施例中，如图4所示，所述安全日志数据包括文本数据，所述对所述安全日志数据进行预处理，提取所述安全日志数据中的关键特征信息包括：

首先进入步骤S401将所述文本数据转换为神经网络模型能够处理的数值格式，并对所述文本数据进行词汇划分后转换为词嵌入向量；

而后进入步骤S402根据所述词嵌入向量生成输入序列，并对所述输入序列进行位置编码；

而后进入步骤S403采用注意力机制对所述输入序列的不同位置编码部分独立计算注意力分数，并对计算得到的注意力分数进行加权平均，得到所述注意力机制的最终输出结果；

而后进入步骤S404将所述注意力机制的输出结果、前馈神经网络的输出结果与原始的输入数据相加，并进行层归一化处理，得到所述安全日志数据中的关键特征信息。

在一些实施例中，所述方法包括：为每一类智能标签设定对应的告警规则以及对应的处理策略；所述发出告警提示包括：根据当前类别的智能标签对应的告警规则发出告警提示，以及采用对应的处理策略进行处理。

在一些实施例中，所述告警提示包括告警标识、告警时间、告警类型、告警级别、与告警相关的安全日志数据片段、建议处理策略、附加信息中的任一项或多项。

在一些实施例中，对所述安全日志数据进行预处理包括：

对所述安全日志数据进行数据清洗，移除所述安全日志数据中不符合预设规范的部分数据；以及将所述安全日志数据中的非结构化数据转化为结构化数据；对所述安全日志数据中的数值型数据进行归一化处理，确保各数值型数据在相同的数值范围内，对于所述安全日志数据中的类别型数据进行编码转换，以使其转换为所述神经网络模型能够处理的格式。

通过上述方案，能够有效提取所述安全日志数据中的关键特征信息，为后续操作步骤提供支持。如图5所示，以下结合具体的应用场景，对本申请涉及的方法进一步说明：在这一实施例中，本申请涉及的基于智能标签的安全日志告警方法主要包括以下几个步骤：

（11）数据采集。具体是将网络设备、***及服务程序等在运作时产生的安全日志数据收集起来。

（21）数据预处理。具体是收集并整理安全日志数据，进行数据清洗和格式化，提取出关键特征信息，如时间戳、主机名、日志级别、事件描述等。

（31）特征提取（即关键特征信息提取）。具体是从预处理后的数据中提取特征，包括静态特征（如主机名、IP地址、端口号等）和动态特征（如日志级别、事件描述、时间戳等）。

（41）智能标签生成。具体是利用机器学习分类算法对提取的特征进行学习和分析，生成智能标签，智能标签能够代表相似的安全事件或攻击类型。

（51）聚类分析。今天是将安全日志数据根据智能标签中的特征进行聚类分析，将相似的安全事件或攻击类型归为一类。

（61）告警规则制定。具体是根据聚类分析的结果，制定告警规则。例如，如果某个智能标签代表了一种恶意攻击类型，且该标签的频率或严重程度超过预设阈值，则触发告警。

（71）告警输出。具体是将触发的告警信息进行输出，告警信息中可以包括告警时间、告警级别、告警描述等信息。结合可视化技术，将告警信息以图表等形式呈现，方便用户快速了解安全状况。

（81）反馈优化：根据实际运行情况和用户反馈，不断优化智能标签的生成和聚类分析算法，提高告警准确率和实用性。

通过上述方案，能够有效地对安全日志数据进行处理和分析，及时发现并预警潜在的安全威胁，为网络安全防护提供有力支持。

如图6所示，为实现本申请所述的基于智能标签的安全日志告警方法的***架构图，该***架构包括以下几个功能模块组件：

（12）数据采集模块：该模块负责从各种安全设备中收集安全日志数据。这些数据可能包括各种不同的信息，如时间戳、主机名、日志级别、事件描述等。

（22）数据预处理模块：该模块负责对收集到的安全日志数据进行清洗、格式化和标准化处理。这可能包括去除重复数据、填补缺失值、将数据转换为统一格式等操作。

（32）特征提取模块：该模块负责从预处理后的数据中提取有用的特征。这些特征可以包括静态特征（如主机名、IP地址、端口号等）和动态特征（如日志级别、事件描述、时间戳等）。

（42）智能标签生成模块：该模块利用机器学习分类算法对提取出的特征进行学习和分析，生成智能标签。每个智能标签可以代表一个特定的安全事件或攻击类型。

（52）聚类分析模块：该模块将生成智能标签的数据进行聚类分析，将相似的安全事件或攻击类型归为一类。

（62）告警规则制定模块：该模块根据聚类分析的结果，制定告警规则。例如，如果某个智能标签代表了一种恶意攻击类型，且该标签的频率或严重程度超过预设阈值，则触发告警。

（72）告警输出模块：该模块将触发的告警信息进行输出，可以包括告警时间、告警级别、告警描述等信息。结合可视化技术，将告警信息以图表等形式呈现，方便用户快速了解安全状况。

（82）反馈优化模块：该模块根据实际运行情况和用户反馈，不断优化智能标签的生成和聚类分析算法，提高告警准确率和实用性。

（92）***管理模块：该模块负责整个***的配置、监控和管理。它可以允许用户设置各种参数，监控***的运行状态，以及根据需要调整***配置。

基于智能标签的安全日志聚类分析告警***能够有效地对大量安全日志数据进行处理和分析，及时发现并预警潜在的安全威胁，为网络安全防护提供有力支持。同时，该***还可以根据实际情况进行定制和扩展，以满足不同用户的需求。

智能标签生成的目标是为每一条安全日志数据自动打上相关标签，这些标签能够准确反映日志中所包含的安全事件类型、威胁级别等信息，为后续聚类分析和告警提供关键依据。在本实施例中，智能标签生成的具体步骤如下：

（13）标签编码：为每一条日志数据提供一个标签。对这些标签进行编码，使用one-hot编码，以便于模型训练。

（23）基于Mini-Batch SGD的训练：使用Mini-Batch SGD算法来训练标签分类器。具体步骤如下：

（33）从训练集中随机选择一小批数据作为每次迭代的输入。

（43）将选定的小批量数据传递给标签分类器，并计算网络的输出。

（53）根据网络输出和实际标签计算损失函数。常用的损失函数包括交叉熵损失、均方误差等。

（63）使用Mini-Batch SGD算法更新分类器的参数。根据损失函数的梯度，对分类器中的参数进行小幅度的调整。

（73）重复上述步骤，直到训练集被完整遍历一遍，完成一轮（epoch）的训练。

（83）智能标签生成：在训练过程中，通过标签分类器预测每个数据实例的标签概率。根据实际需求，可以选择概率阈值来确定最终的标签。对于每个数据实例，将概率最高的标签作为智能标签生成的结果。

在步骤（23）中，Mini-Batch SGD（随机梯度下降）算法是深度学习中的常用优化算法。相比于标准的SGD，它每次更新模型参数时使用一小批数据，而不是一个数据点或整个数据集。这样可以减小梯度更新的方差，并利用矩阵运算的并行性，加速模型的训练。

步骤（53）中，为了生成智能标签，需要定义一个合适的损失函数，这个函数能够衡量模型生成的标签与真实标签之间的差距。根据具体任务的不同，可以选择不同的损失函数，如交叉熵损失、均方误差损失等。

相对应的，智能标签的生成可以通过智能标签生成模块来实现，智能标签模块可以具体包括以下几个模块：

（14）标签编码模块：包括标签预处理、选择适当的编码方式、构建标签编码表、实现编码转换函数以及引入编码缓存机制等步骤。通过这一模块的设计和实现，可以将原始标签转换为模型可处理的数值形式，为后续的智能标签生成提供有效的输入特征。

（24）训练与优化模块：这个模块基于Mini-Batch SGD算法对模型进行训练和优化。按照算法原理，实现Mini-Batch SGD的梯度计算和参数更新逻辑。根据选择的损失函数，计算模型生成的标签与真实标签之间的损失值。组织训练过程，包括迭代次数控制、批次数据抽取、梯度更新等操作。在每个迭代或周期结束后，评估模型在验证集上的性能，并保存最优模型参数。

（34）标签生成模块：这个模块负责利用训练好的模型进行智能标签生成。接收待生成标签的原始数据。对待生成标签的数据进行与训练数据相同的预处理和特征提取操作。将处理后的数据输入到训练好的模型中，生成相应的智能标签。对生成的标签进行必要的后处理操作，如标签映射、格式转换等。

以上记载的内容提供了一种***化、全面的方法，能够充分利用深度学习模型的表示能力和优化算法的优势，实现智能标签生成的任务。

在本实施例中，特征提取的目标是从预处理后的安全日志数据中提取出有意义、可量化的特征，用于智能标签生成和聚类分析。这些特征能够刻画安全事件的性质、行为和模式，为后续的分析和告警提供关键信息。使用Transformer模型对预处理后的日志数据进行特征提取，Transformer可以有效地捕获序列数据中的长期依赖关系。

在本实施例中，特征提取可以具体包括以下几个步骤：

（15）输入嵌入：首先，将输入数据转换为模型可以处理的数值格式，将单词转换为词嵌入向量。

（25）位置编码：由于Transformer模型不包含任何关于元素顺序的信息，因此需要添加位置编码来提供这类信息，位置编码通常添加到输入嵌入中。

（35）自注意力机制：这是Transformer模型的核心部分。自注意力机制使模型能够关注到输入序列中的不同部分，为理解全局上下文信息提供了可能。

（45）特征提取：通过Transformer的多层结构，每一层都进行自注意力计算和前馈神经网络计算，这样可以提取到输入数据的不同抽象层次的特征。

（55）输出处理：最后，根据任务的不同，可能需要在特征提取之后添加一些额外的处理步骤。例如，在分类任务中，可能需要在特征之上添加一个全连接层和一个softmax函数以生成最终的预测。

在步骤（25）中，由于Transformer模型本身不包含序列顺序信息，位置编码被用于注入序列中元素的位置信息。位置编码可以是固定的或学习的，并通常与输入嵌入相加。

在步骤（35）中，自注意力机制是Transformer模型的核心组成部分。它为序列中的每个元素计算一个权重，以决定在编码过程中应该关注哪些元素。这样，模型可以更好地捕获元素之间的关系和依赖。

多头注意力机制允许模型在同一时间关注输入序列的不同方面。通过线性变换将输入映射到多个不同的头（head），每个头独立计算自注意力，并将结果拼接或平均作为最终输出。

在步骤（55）中，在Transformer中，残差连接和层归一化被用于加深网络并增强训练的稳定性。残差连接将输入直接加到输出，有助于缓解梯度消失问题。层归一化则对每一层的输出进行归一化，加速收敛并提高模型泛化能力。

相应的，特征提取功能可以通过特征提取模块实现，特征提取模块通常包括以下几个模块：

（16）输入模块：负责接收和预处理输入数据。对于文本数据，这可能包括分词、转换为嵌入向量等步骤。

（26）位置编码模块：该模块负责为输入序列生成位置编码。可以使用预定义的正弦/余弦函数或其他方法来实现。位置编码应与输入嵌入具有相同的维度，并可以相加。

（36）多头自注意力模块：这个模块实现多头自注意力机制。它包括多个自注意力头的计算，每个头独立地计算注意力分数并生成加权输出。这些输出随后被合并，形成多头自注意力的最终输出。

（46）残差连接与层归一化模块：这个模块负责应用残差连接和层归一化操作。它接收自注意力模块和前馈神经网络模块的输出，将它们与原始输入相加，并进行层归一化。这种设计有助于稳定训练过程并加速收敛。

（56）输出模块：输出模块提取并处理模型的最终输出特征。这些特征向量可以用于后续的聚类、分类等任务。

以上是基于Transformer的安全日志数据特征提取的设计。通过输入嵌入层、Transformer编码器和特征输出步骤的处理，可以有效地提取安全日志数据的关键特征，为后续的安全分析和告警提供有力的支持。

在本实施例中，告警规则制定的目标是基于聚类分析的结果和智能标签，定义一套灵活且高效的规则，用于判断是否触发安全告警。这些规则应该能够准确地识别出潜在的安全威胁，并减少误报和漏报。在本实施例中，告警规则制定流程如下：

（17）分析聚类结果：深入研究聚类分析的结果，了解每个聚类的特点、包含的标签。

（27）确定告警指标：根据安全需求和业务影响，选择合适的告警指标，如聚类的多少、增长速率，以及标签的组合等。

（37）设定阈值：为每个告警指标设定合适的阈值。这些阈值可以根据历史数据、业务需求和风险评估来确定。

（47）定义告警动作：设计在触发告警时应执行的动作，如发送通知、激活防御机制、记录日志等。

（57）告警规则验证与调优：在真实环境或模拟环境中验证告警规则的准确性。根据验证结果，调整阈值和告警动作，优化规则的效能。

（67）规则存储与更新：安全地存储告警规则，并设计一套机制，允许在必要时动态地更新规则。

告警规则在设计时还应当考虑以下几个因素的影响：

a、灵活性与可配置性：告警规则应足够灵活，以适应不断变化的安全环境。同时，应提供一套用户界面或API，允许安全专家根据需要配置或调整规则。

b、误报与漏报的平衡：在制定告警规则时，需要权衡误报和漏报的风险，确保告警***既能在发现真正威胁时及时响应，又不会频繁误报导致资源浪费和用户疲劳。

相应的，告警规则的指令可以通过告警规则模块来实现，告警规则模块设计如下：

a.规则定义与存储子模块：允许用户或***定义新的告警规则，并安全地存储这些规则。

b.告警判断与触发子模块：实时监控聚类结果，根据告警规则和设定的阈值，判断是否触发告警。

c.告警动作执行子模块：在触发告警时，执行预定义的告警动作，如发送通知、记录日志等。

d.规则验证与优化子模块：提供工具或界面，帮助用户验证告警规则的准确性，并提供优化建议。

通过以上设计，我们能够制定一套基于智能标签和聚类分析结果的安全日志告警规则。这些规则将增强告警***的准确性和效能，帮助组织更好地应对潜在的安全威胁，确保业务连续性和数据安全。

在本实施例中，告警输出的目标是将告警信息清晰、准确地传达给相关的人员或***。告警输出应确保关键信息不被遗漏，并在必要时触发相应的响应动作。因此，在本实施例中，告警输出内容具体如下：

a.告警标识：每个告警应有一个独特的标识，以便于跟踪和管理。

b.告警时间：记录告警生成的具体时间，便于时序分析和历史回顾。

c.告警类型：根据智能标签和聚类分析结果，标识出告警的类型，如入侵尝试、异常行为等。

d.告警级别：根据威胁的严重程度和影响，为告警设定级别，如低、中、高。

e.相关日志数据：与告警相关的关键日志数据片段，用于支持分析和诊断。

f.建议行动：提供针对该告警的建议行动，如阻止某个IP地址、更新某软件版本等。

g.附加信息：其他有助于理解和响应告警的信息，如相关图表、链接等。

在本实施例中，告警提示的输出方式可以通过以下几种方式来实现：

a.***输出：直接在分析***的上显示告警，适用于实时监控和即时响应。

b.电子邮件通知：将告警信息通过电子邮件发送给相关人员，确保即使他们不在控制台前也能收到通知。

c. API推送：通过API将告警信息推送给其他***或服务，实现集成和自动化响应。

d.日志文件记录：将告警信息写入日志文件，供后续分析和审计。

优选的，本申请还提供了告警输出的优化机制，具体如下：

a.输出格式定制：允许用户根据需求定制告警输出的格式，如JSON、XML或其他格式。

b.输出频率控制：防止告警泛滥，设置适当的输出频率，如合并相似告警、限制每小时的最大告警数等。

c.告警升级机制：如果某个告警在一段时间内频繁出现或持续不被处理，应有一套机制提升其级别，以引起更多关注。

d.告警反馈循环：提供渠道收集用户对告警的反馈，不断优化告警的准确性和有效性。

相应的，告警输出的优化机制可以通过告警输出模块来实现，告警输出模块主要包括以下几个模块：

a.告警格式化子模块：负责将告警信息格式化为所需的输出格式。

b.告警传输子模块：根据不同的输出方式，将格式化后的告警信息发送给相应的目标。

c.输出记录与日志子模块：记录所有告警的输出情况，包括成功、失败、时间等，确保可追踪性。

d.输出配置与管理子模块：允许管理员配置和管理告警输出的方式、目标、频率等。

一个设计良好的告警输出机制能够确保关键的安全信息在正确的时间被正确的人员捕获并采取行动。通过以上设计，我们希望能够提供一个清晰、准确且高效的告警输出方法，从而提升整体的安全防御和响应能力。

在本实施例中，数据预处理的目的是对原始的安全日志数据进行清洗、转化和标准化操作，以便于后续的智能标签生成和聚类分析。预处理后的数据应具备一致性、准确性和可用性。在本实施例中，数据预处理流程具体包括以下几个步骤：

（18）数据清洗：移除日志中的无关信息、重复记录和不完整数据。

（28）数据转化：将日志中的非结构化数据转化为结构化数据，此外，还需对日志中的时间戳进行统一处理，便于后续的时序分析。

（38）数据标准化：对于数值型数据，进行归一化处理，如最小-最大归一化或Z-score归一化，以确保各特征在相同的数值范围内。对于类别型数据，进行编码转换。

具体的，对数据进行标准化还可以通过以下几个方式来实现：

a.模板匹配：使用日志模板，定义提取信息参数，使用模板对日志进行参数前后信息进行匹配，提取参数位置的信息。

b.正则表达式匹配：在数据清洗阶段，利用正则表达式匹配和替换特定模式，以移除无关信息和统一数据格式。

c.时间戳处理：解析和转换日志中的时间戳字段，将其统一为标准的时间格式，便于后续分析和可视化。

相应的，预处理功能可以通过预处理模块来实现，预处理模块设计如下：

a.输入接口：接收原始的安全日志数据，支持多种数据格式和输入方式。

b.预处理规则管理：允许用户自定义预处理规则，如正则表达式模式、模板匹配方法等，以适应不同来源和格式的安全日志。

c.预处理引擎：根据预定义的规则，执行数据清洗、转化和标准化操作。引擎应具备高效、稳定和可扩展的特性。

d.输出接口：将预处理后的数据安全地传输到后续的特征提取模块，确保数据的完整性和可用性。

通过以上的设计，可以为基于智能标签的安全日志聚类分析告警方法提供一个有效且高效的数据预处理流程。这不仅提高了后续分析的准确性，同时也为整体***的稳定性和可靠性打下了坚实基础。

在本实施例中，数据采集的目标是从各个安全设备和***中实时、准确地收集安全日志数据。这些数据是后续智能标签生成、聚类分析以及告警的基础。数据采集主要可以包括以下几种：

a.实时数据采集：建立与各种安全设备和***的实时连接，基于标准协议的采集，包括HTTP/HTTPS、SNMP、SSH、TELNET、JDBC、ODBC、S3、NTP、SNMPTrap、Syslog等，实时获取日志数据。

b.历史数据采集：对于无法实时获取的历史数据，可以通过批量导入、日志文件解析等方式进行采集。

数据采集的流程具体如下：

a.确定数据源：首先确定需要采集日志的安全设备和***范围，了解它们的数据输出方式及格式。

b.建立连接与配置：根据数据源的类型和特性，建立相应的连接，配置必要的参数，如数据过滤规则、数据传输频率等。

c.实时/历史数据获取：根据数据源支持的方式，实时获取数据或导入历史数据。在此过程中，要确保数据的完整性、连续性和准确性。

d.数据初步处理：在数据采集阶段，进行数据的初步处理，数据解密、压缩、初步格式化，以降低网络传输压力和提高后续处理效率。

e.数据传输与存储：将采集的数据安全地传输到服务器，并进行高效、可靠的存储，确保数据不丢失，为后续处理提供稳定的数据源。

在数据采集的过程中，主要还需要考虑以下几个因素：

a.数据源的多样性：考虑到安全设备和***的多样性，需要设计和实现多种数据采集方式，以适应不同的数据源。

b.数据的实时性：为了及时发现和响应安全威胁，需要确保数据的实时采集和传输。

c.数据的完整性和准确性：在数据采集过程中，需要采取一系列措施，如数据传输校验、日志完整性检查等，确保数据的完整性和准确性。

d.数据传输的安全性：在数据传输过程中，应采用加密、压缩等技术，确保数据不被泄露和篡改。

在本实施例中，数据采集可以通过数据采集模块来实现，数据采集模块具体如下：

a.数据源管理子模块：负责管理所有数据源的信息，包括类型、地址、认证信息等。

b.数据采集子模块：根据数据源的类型和配置，执行实时或历史数据采集任务。

c.数据传输与存储子模块：负责将采集的数据安全地传输到服务器，并进行高效、可靠的存储。

d.数据监控子模块：监控数据采集过程，对于出现的异常或故障，及时采取相应的处理措施。

通过以上的设计，我们可以建立一个高效、稳定、安全的数据采集***，为后续的智能标签生成、聚类分析及告警提供实时、准确的数据支持，奠定坚实的基础。

本申请具有以下优点：

（1）通过深度学习算法模型，实现数据自动标注标签，达到数据自动分类分级；通过深度学习特征提取算法模型，实现告警降噪，达到精准告警。

告警疲劳是目前安全管理面临的巨大挑战，大规模告警、7*24小时安全管理响应要求，通过堆人的方式来应对，人力资源的低质量转化、投入产出比低，在工作效能和工作成本都是不可持续的，无法普遍推广。

基于Transformer的安全日志数据特征提取的设计。通过输入嵌入层、Transformer编码器和特征输出步骤的处理，可以有效地提取安全日志数据的关键特征，形成告警分级分类的标识标签特征库。

基于Mini-Batch SGD算法（随机梯度下降）的智能标签数据自动标注的设计，可以为每一条安全日志数据自动打上相关分级分类的标签，这些标签能够准确反映日志中所包含的安全事件类型、威胁级别等信息，达到告警有效降噪，实现精准告警。

（2）通过深度学习DBSCAN聚类算法，实现安全日志数据进行精确的聚类分析，达到深度挖掘安全事件的内在关联和模式。聚类分析的目标是对已经打上智能标签的安全日志数据进一步进行分组分类分级，使得同一组内的日志数据尽可能相似，同一级数据的相似度达到99.99%，不同组之间的数据尽可能不同。通过聚类分析，可以进一步发现安全事件的内在模式和关联，为告警提供更精确的依据。

（3）设置了高效的告警规则，告警规则是基于聚类分析的结果和智能标签，定义一套灵活且高效的规则，用于判断是否触发安全告警。这些规则能够自动准确地识别出潜在的安全威胁，实现告警输出，自动连接安全设备及安全人员进行安全威胁的响应处置。

在第二方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述的基于智能标签的安全日志告警方法。

其中，所述计算机可读存储介质可以是易失性存储器或非易失性存储器，也可以包括易失性和非易失性存储器两者。

所述非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、电可擦除可编程只读存储器 (EEPROM，Electrically Erasable Programmable Read Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD ROM，Compact Disc Read Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。

所述易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器 (SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，DynamicRandom Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic RandomAccess Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的计算机可读存储介质旨在包括这些和任意其它适合类型的存储器。

如图7所示，在第三方面，本发明提供了一种电子设备10，包括处理器101和存储介质102，所述存储介质上存储有计算机程序，所述计算机程序被所述处理器执行时实现如本发明第一方面所述的基于智能标签的安全日志告警方法。

在一些实施例中，所述处理器可以通过软件、硬件、固件或者其组合实现，可以使用电路、单个或多个为特定用途集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(DigitalSignal Processing Device，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、中央处理器 (CentralProcessing Unit，CPU)、控制器、微控制器、微处理器中的至少一种，从而使得该处理器可以执行本申请的各个实施例中的所述的基于智能标签的安全日志告警方法中的部分步骤或全部步骤或其中步骤的任意组合。

最后需要说明的是，尽管在本申请的说明书文字及附图中已经对上述各实施例进行了描述，但并不能因此限制本申请的专利保护范围。凡是基于本申请的实质理念，利用本申请说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案，以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等，均包括在本申请的专利保护范围之内。

Claims

1.一种基于智能标签的安全日志告警方法，其特征在于，所述方法包括：

所述得分阈值根据以下方式进行计算：按照智能标签中的时间戳顺序对同一类别的多个智能标签进行排列，并以同一类别的若干智能标签为一组依次计算各智能标签组对应的组得分，剔除掉组得分低于第二预设阈值的智能标签组，根据剩下的智能标签组的组得分和相应的组权重值计算当前类别的智能标签对应的得分阈值，所述组权重值根据该组内智能标签对应的时间戳信息进行确定，所述智能标签对应的得分阈值用于表征该智能标签对应的安全日志数据能够被列为某一安全事件类型或攻击类型的概率程度；

所述安全日志数据包括文本数据，所述对所述安全日志数据进行预处理，提取所述安全日志数据中的关键特征信息包括：

将所述注意力机制的输出结果、前馈神经网络的输出结果与原始的输入数据相加，并进行层归一化处理，得到所述安全日志数据中的关键特征信息；

所述按照智能标签中的时间戳顺序对同一类别的多个智能标签进行排列包括：选取所述时间戳信息距离当前时刻的时间戳最近的若干个同一类别的智能标签按照距离当前时间戳的远近进行排列。

2.如权利要求1所述的基于智能标签的安全日志告警方法，其特征在于，所述神经网络模型根据以下方式进行训练：

重复上述步骤，直到所述训练集被完整遍历，完成训练。

3.如权利要求1所述的基于智能标签的安全日志告警方法，其特征在于，所述方法包括：

4.如权利要求1所述的基于智能标签的安全日志告警方法，其特征在于，所述告警提示包括告警标识、告警时间、告警类型、告警级别、与告警相关的安全日志数据片段、建议处理策略、附加信息中的任一项或多项。

5.如权利要求1所述的基于智能标签的安全日志告警方法，其特征在于，对所述安全日志数据进行预处理包括：

对所述安全日志数据进行数据清洗，移除所述安全日志数据中不符合预设规范的部分数据；以及

将所述安全日志数据中的非结构化数据转化为结构化数据；

对所述安全日志数据中的数值型数据进行归一化处理，确保各数值型数据在相同的数值范围内，对于所述安全日志数据中的类别型数据进行编码转换，以使其转换为所述神经网络模型能够处理的格式。

6.如权利要求1所述的基于智能标签的安全日志告警方法，其特征在于，所述关键特征信息包括静态特征和动态特征，所述静态特征包括设备标识名称、IP地址、设备端口信息中的任一项或多项，所述动态特征包括所述时间戳信息，还包括以及日志级别或事件描述。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至6任一项所述的基于智能标签的安全日志告警方法。

8.一种电子设备，其上存储有计算机程序，其特征在于，包括处理器和存储介质，所述存储介质上存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求 1至 6 任意一项所述的基于智能标签的安全日志告警方法。