CN115759092A

CN115759092A - 一种基于albert的网络威胁情报命名实体识别方法

Info

Publication number: CN115759092A
Application number: CN202211251727.8A
Authority: CN
Inventors: 周景贤; 王曾琪; 王双
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-03-07

Abstract

本发明涉及一种基于ALBERT的网络威胁情报命名实体识别方法，针对传统词嵌入不能很好的表示单词多义性以及领域特征提取不足难以有效识别威胁实体信息问题，融合ALBERT和BiLSTM‑CRF现有方法，提出一种面向网络威胁情报的命名实体识别模型；同时结合实际情况，人工标注了一个网络威胁情报实体数据集(CTI‑E)用于模型的特征学习及训练，解决了模型训练词向量不足的问题。通过对比实验验证相比较已有的技术模型和方法，在识别准确率相同的情况下，提出模型的时间和资源成本具有极大优势，适用于网络威胁情报领域海量高效的实体识别任务。

Description

一种基于ALBERT的网络威胁情报命名实体识别方法

技术领域

本发明属于网络安全技术领域，尤其是一种基于ALBERT的网络威胁情报命名实体识别方法。

背景技术

随着网络威胁情报数量的***式增长，人工分析这些威胁情报费时费力，且大多数以非结构化文本的形式发布。如果将网络威胁情报转换为结构化和机器可读的格式，就可以提高利用网络威胁情报应对网络攻击的效率。在此过程中，最关键的一步是使用专业领域知识识别与网络威胁相关的实体及其关系，如用户、恶意程序、黑客组织和漏洞等。近年来自然语言处理的发展令人瞩目，其中命名实体识别(Named Entity Recognition,NER)用于对文本中具有特殊含义的词汇进行识别，将网络威胁情报分析与命名实体识别结合能够极大提升威胁情报分析工作的效率。但是，将自然语言处理技术，特别是命名实体识别方法直接应用于威胁情报领域仍然面临诸多挑战：

首先，通用领域的命名实体识别一般针对文本中人名、地名和组织进行识别，而网络威胁情报需要识别多种威胁实体(例如黑客组织、恶意工具、攻击目的等)才能够得到完整的攻击链，对数据集和识别方法都提出了较高的要求。其次，当前专业领域实体识别一般通过大量人工标注领域数据集，成本高，且识别精度低难度大。在网络安全研究中虽然已有部分研究文献构建与网络安全领域相关的数据集，但都无法应用于网络威胁情报实体识别。最后，目前主流的基于规则和字典模板方法，主要依赖于专家手动编写的规则，只能用于指定规则的特定领域，识别精度低，耗费人工和时间成本。

因此，当前的命名实体识别方法无法为威胁情报提供高效、准确的识别，难以满足海量威胁情报数据识别和处理的需求。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于ALBERT的网络威胁情报命名实体识别方法，能够提高威胁情报命名实体识别效率和准确性、丰富模型训练词向量。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于ALBERT的网络威胁情报命名实体识别方法，包括以下步骤：

步骤1、采集网络威胁情报数据并进行预处理，构建数据集；

步骤2、构建ALBERT-BiLSTM-CRF模型；

步骤3、对ALBERT-BiLSTM-CRF模型进行训练，从威胁情报领域语料库中提取上下文句法和语义的特征信息，对网络威胁情报命名实体进行识别。

而且，所述步骤1包括以下步骤：

步骤1.1、数据收集：采用爬虫工具从开源威胁情报网站收集和分析威胁情报报告，清洗和删除不可用的部分报告实体；

步骤1.2、数据标注：使用Brat Rapid Annotation Tool(Brat)来标注胁情报报告中的威胁情报，同时选择文本标注领域的行业标准标注形式BIO进行标注；

步骤1.3、数据集统计：根据网络威胁情报的特点和领域专家的经验知识，结合威胁情报标准STIX，在数据集中选择并标注了9个类别进行分类，其中，类别包括黑客组织、攻击、网络安全团队、恶意工具、目的、行业、攻击方式、漏洞和特征；

步骤1.4、数据集评估：将标注分类后的威胁情报数据集作为原始数据，选择原始数据文本的70％作为训练集，15％作为验证集，15％作为测试集，并采用准确率(P)、召回率(R)和F1分数作为ALBERT-BiLSTM-CRF模型衡量识别性能的指标。

而且，所述步骤2中ALBERT-BiLSTM-CRF模型包括ALBERT层、BiLSTM层、Attention层和CRF层，其构建方法包括以下步骤：

步骤2.1、构建ALBERT层；

步骤2.2、构造ALBERT-BiLSTM层；

步骤2.3、将构建的ALBERT-BiLSTM层与注意力机制结合，引入注意矩阵A来计算当前目标向量与序列中所有向量之间的关系；

步骤2.4、构造CRF网络，并将其作为注意力机制结合的ALBERT-BiLSTM层的序列标记层，考虑句子上下文的相关性，保证序列标注的准确性，同时得到ALBERT-BiLSTM-CRF模型。

而且，所述步骤2.1包括以下步骤：

步骤2.1.1、在预语言处理模型BERT模型中，将词嵌入参数矩阵因式分解为两个小矩阵；

步骤2.2、用SOP(Sentence-order prediction)损失替换NSP(Next-sentenceprediction)损失；

步骤2.3、跨层参数共享，采用Transformer共享全连接层和Attention层，共享隐藏层的所有参数。

而且，所述步骤2.2的具体实现方法为：使用双向LSTM网络进行构建，其中使用双向LSTM网络包含两个单向网络：LSTM前向传播网络，用于计算正向隐藏特征；LSTM反向传播网络，用于计算反向隐藏特征。

而且，所述步骤3包括以下步骤：

步骤3.1、将原始未标注的威胁情报领域语料库的句子中的词作为ALBERT-BiLSTM-CRF模型输入，通过ALBERT层在未进行BIO标注的威胁情报语料数据上进行训练，提取上下文句法和语义的特征信息，得到动态词向量；

步骤3.2、将词向量输入到BiLSTM层对序列特征信息学习，得到学习后的文本向量；

步骤3.3、通过Attention层对经过BiLSTM层得到的词向量和BiLSTM层得到的学习后的文本向量加权，获得结合了注意权重的词向量；

步骤3.4、通过CRF层进行校正，以得到概率最大的序列标签并输出。

而且，所述步骤3.1包括以下步骤：

步骤3.1.1、将ALBERT-BiLSTM-CRF模型输入表示为三个部分：词向量、段向量和位置向量，其中，词向量是指根据维度生成一个词向量矩阵表示输入的单词，随模型维度而改变；段向量用于下一句预测任务，两句之间需要区分，开头用[CLS]符标记，在句尾加[SEP]；位置向量标记位置信息，解决Transformer模型无法记住时序的问题；

步骤3.1.2、得到字符向量表示后经过多个Transformer编码得到最后ALBERT层的输出向量Xn。

而且，所述步骤3.2的具体实现方法为：将BiLSTM层计算出的特征信息融合，形成最终的隐藏状态，同时考虑上下文信息，得到学习后的文本。

而且，所述步骤3.3的具体实现方法为：

步骤3.3.1、将当前处理的词向量线性变换后映射到对应的子空间中的所有词对齐；

步骤3.3.2、对结果进行归一化得到每个词的权重，突出威胁情报相关的关键词在文本中的作用；

步骤3.3.3、引入注意矩阵A计算当前目标向量与序列中所有向量之间的关系；

步骤3.3.4、将当前目标向量x_t与序列中第j个向量x_j进行比较，得到注意矩阵中的结合了注意权重的词向量r_t,j。

本发明的优点和积极效果是：

本发明针对传统词嵌入不能很好的表示单词多义性以及领域特征提取不足难以有效识别威胁实体信息问题，融合ALBERT和BiLSTM-CRF现有方法，提出一种面向网络威胁情报的命名实体识别模型；同时结合实际情况，人工标注了一个网络威胁情报实体数据集(CTI-E)用于模型的特征学习及训练，解决了模型训练词向量不足的问题。通过对比实验验证相比较已有的技术模型和方法，在识别准确率相同的情况下，提出模型的时间和资源成本具有极大优势，适用于网络威胁情报领域海量高效的实体识别任务。

附图说明

图1是本发明ALBERT-BiLSTM-CRF(CTI-ALBC)模型结构图；

图2是本发明ALBERT预训练语言模型结构图；

图3是本发明Transformer编码单元图。

具体实施方式

以下结合附图对本发明做进一步详述。

步骤1、采集网络威胁情报数据并进行预处理，构建数据集。从开源威胁情报网站收集和分析了多份威胁情报报告，对数据清洗和挖掘之后进行标注，构建了威胁情报领域数据集。

步骤1.1、数据收集：采用爬虫工具从开源威胁情报网站收集和分析威胁情报报告，清洗和删除不可用的部分报告实体。

步骤1.2、数据标注：使用Brat Rapid Annotation Tool(Brat)来标注胁情报报告中的威胁情报，Brat Rapid Annotation Tool(Brat)为基于Web的文本标注工具，同时选择文本标注领域的行业标准标注形式BIO进行标注。

步骤1.3、数据集统计：根据网络威胁情报的特点和领域专家的经验知识，结合威胁情报标准STIX，在数据集中选择并标注了9个类别进行分类，其中，类别包括黑客组织、攻击、网络安全团队、恶意工具、目的、行业、攻击方式、漏洞和特征。

步骤1.4、数据集评估机制：将标注分类后的威胁情报数据集作为原始数据，选择原始数据文本的70％作为训练集，15％作为验证集，15％作为测试集，并采用准确率(P)、召回率(R)和F1分数作为ALBERT-BiLSTM-CRF模型衡量识别性能的指标。

步骤2、构建ALBERT-BiLSTM-CRF模型。如图1所示，ALBERT-BiLSTM-CRF模型包括ALBERT层、BiLSTM层、Attention层和CRF层

步骤2.1、构建ALBERT层。如图2所示，本发明引入预训练语言模型ALBERT来有效减少单词表达歧义。它是使用多层的Transformer结构并加入注意力机制，对输入的语料进行无监督学习，得到蕴含大量威胁情报领域文本信息的特征向量。该向量能够更好地理解单词的含义以及句子丰富的句法和语义信息。

步骤2.1.1、在预语言处理模型BERT模型中，将词嵌入参数矩阵因式分解为两个小矩阵。先将单词向量V映射到低维空间E，再映射到高维隐藏空间H。BERT中E与H始终相等，但词向量不需要这么高的维度。通过因式分解能够将词嵌入参数从O(V×H)降低到O(V×E+E×H)，当H＞＞E时，参数急剧减小，更高效的提升模型效率。

步骤2.2、用SOP(Sentence-orderprediction)损失替换NSP(Next-sentenceprediction)损失。ALBERT通过Transformer共享全连接层和Attention层，参数共享后能够有效减少模型参数量在不显著影响模型性能的情况下提高了模型效率。参数量计算如下述公式所示，其中L为参数层数量。

O(12×L×H×H)→O(12×H×H)

其中，Transformer共享全连接层，如图3所示，其具体实现方法为：

步骤2.3.1、基于Self-Attention对输入的文本信息编码以提取向量特征，采取如下计算公式：

其中：Q、K、V分别是查询向量、键向量和值向量，用于计算Q在V上的注意力权重，最后对所有单词值向量进行加权求和。

步骤2.3.2、增加“Multi-Head”注意力机制。

步骤2.3.3、在Transformer中加入了残差网络和归一化层，采取参数计算公式如下：

FNN＝max(0,xW₁+b₁)W₂+b₂

其中，α和β是要学习的参数，μ是均值，σ是输入层的方差。

步骤2.3.4、将Transformer模型输入表示为三个部分：词向量、段向量和位置向量。词向量是指根据维度生成一个词向量矩阵表示输入的单词，随模型维度而改变；段向量用于下一句预测任务，两句之间需要区分，因此开头用[CLS]符标记，在句尾加[SEP]；位置向量标记位置信息，解决Transformer模型无法记住时序的问题。

步骤2.3.5、得到字符向量表示后，经过多个Transformer编码，最后得到ALBERT的输出向量Xn。

步骤2.2、构造ALBERT-BiLSTM层。

使用双向LSTM网络进行构建，其中使用双向LSTM网络包含两个单向网络：LSTM前向传播网络，用于计算正向隐藏特征；LSTM反向传播网络，用于计算反向隐藏特征。

步骤2.3、将构建的ALBERT-BiLSTM层与注意力机制结合，引入注意矩阵A来计算当前目标向量与序列中所有向量之间的关系。

步骤3.1、将原始未标注的威胁情报领域语料库的句子中的词作为ALBERT-BiLSTM-CRF模型输入，通过ALBERT层在未进行BIO标注的威胁情报语料数据上进行训练，提取上下文句法和语义的特征信息，得到动态词向量。

步骤3.2、将词向量输入到BiLSTM层对序列特征信息学习，得到学习后的文本。将BiLSTM层计算出的特征信息融合，形成最终的隐藏状态，同时考虑上下文信息，得到学习后的文本。

步骤3.3、通过Attention层对经过BiLSTM层得到的词向量和学习后的文本向量加权，获得结合了注意权重的词向量。

其中Attacks、began为输入的单词序列，X₁，X₂，…，Xn为ALBERT层输出向量，h₁，h₂，…，hn为BiLSTM层上下文表示向量，S_t为h_t的向量加权值，a₁，a₂，…，a_n为注意力层的输出，0.3、0.9、0.6、0.1为模型的预测标签概率值，B-HackGro、B和O为模型预测结果的标签。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于ALBERT的网络威胁情报命名实体识别方法，其特征在于：包括以下步骤：

步骤1、采集网络威胁情报数据并进行预处理，构建数据集；

步骤2、构建ALBERT-BiLSTM-CRF模型；

2.根据权利要求1所述的一种基于ALBERT的网络威胁情报命名实体识别方法，其特征在于：所述步骤1包括以下步骤：

步骤1.1、数据收集：采用爬虫工具从开源威胁情报网站收集和分析威胁情报报告，清洗和删除不可用的部分报告实体，构建原始未标注的威胁情报领域语料库数据集；

步骤1.2、数据标注：使用Brat RapidAnnotation Tool来标注胁情报报告中的威胁情报，同时选择文本标注领域的行业标准标注形式BIO进行标注，构建BIO标注的威胁情报语料库数据集；

步骤1.3、数据集统计：根据网络威胁情报的特点和领域专家的经验知识，结合威胁情报标准STIX，在BIO标注的威胁情报语料库数据集中选择并标注了9个类别进行分类，其中，类别包括黑客组织、攻击、网络安全团队、恶意工具、目的、行业、攻击方式、漏洞和特征；

步骤1.4、数据集评估：将标注分类后的威胁情报数据集作为原始数据，选择原始数据文本的70％作为训练集，15％作为验证集，15％作为测试集，并采用准确率P、召回率R和F1分数作为ALBERT-BiLSTM-CRF模型衡量识别性能的指标。

3.根据权利要求1所述的一种基于ALBERT的网络威胁情报命名实体识别方法，其特征在于：所述步骤2中ALBERT-BiLSTM-CRF模型包括ALBERT层、BiLSTM层、Attention层和CRF层，其构建方法包括以下步骤：

步骤2.1、构建ALBERT层；

步骤2.2、构造ALBERT-BiLSTM层；

4.根据权利要求3所述的一种基于ALBERT的网络威胁情报命名实体识别方法，其特征在于：所述步骤2.1包括以下步骤：

步骤2.2、用SOP损失替换NSP损失；

5.根据权利要求3所述的一种基于ALBERT的网络威胁情报命名实体识别方法，其特征在于：所述步骤2.2的具体实现方法为：使用双向LSTM网络进行构建，其中使用双向LSTM网络包含两个单向网络：LSTM前向传播网络，用于计算正向隐藏特征；LSTM反向传播网络，用于计算反向隐藏特征。

6.根据权利要求1所述的一种基于ALBERT的网络威胁情报命名实体识别方法，其特征在于：所述步骤3包括以下步骤：

步骤3.1、将原始未标注的威胁情报领域语料库的数据作为ALBERT-BiLSTM-CRF模型输入，通过ALBERT层在未进行BIO标注的威胁情报领域语料库的数据上进行训练，提取上下文句法和语义的特征信息，得到动态词向量；

步骤3.3、通过Attention层对ALBERT层得到的词向量和经过BiLSTM层得到的学习后的文本向量加权获得结合了注意权重的词向量；

7.根据权利要求6所述的一种基于ALBERT的网络威胁情报命名实体识别方法，其特征在于：所述步骤3.1包括以下步骤：

8.根据权利要求6所述的一种基于ALBERT的网络威胁情报命名实体识别方法，其特征在于：所述步骤3.2的具体实现方法为：将BiLSTM层计算出的特征信息融合，形成最终的隐藏状态，同时考虑上下文信息，得到学习后的文本。

9.根据权利要求6所述的一种基于ALBERT的网络威胁情报命名实体识别方法，其特征在于：所述步骤3.3的具体实现方法为：