CN111931935A

CN111931935A - 基于One-shot学习的网络安全知识抽取方法和装置

Info

Publication number: CN111931935A
Application number: CN202011028720.0A
Authority: CN
Inventors: 丁兆云; 刘凯; 潘永琪; 张维明; 周鋆; 黄松平; 朱先强; 汤罗浩; 刘斌; 刘毅
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2020-11-13
Anticipated expiration: 2040-09-27
Also published as: CN111931935B

Abstract

本申请涉及一种基于One‑shot学习的网络安全知识抽取方法和装置。所述方法包括：从互联网中获取目标文本，以及得到分段集合，对分段集合中的段落进行位置编码，采用注意力机制，计算分段集合中每一段落的注意力权重；将每一段落输入预先训练的领域分类模型，得到段落的领域标签；采用攻击指示器提取的方式，提取威胁类型集合和威胁类型的触发词集合；根据领域标签、威胁类型集合以及触发词集合，确定段落的域标记；根据域标记，在知识库中提取候选安全知识集合；根据候选安全知识集合和注意力权重，采用One‑shot学习的方式，得到目标文本的网络安全知识。本方法能够提取安全知识的可靠性。

Description

基于One-shot学习的网络安全知识抽取方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于One-shot 学习的网络安全知识抽取方法和装置。

背景技术

目前，大量的漏洞或者攻击模式的标准数据库中是由“一个ID”、“一个名称”与“一段文本描述”组合构成的，形成典型的one-shot问题。从文档级角度看，整篇文章可能涵盖到多个主题内容，需要进一步明确文章中的哪一章在描述相关知识。

在已有的网络安全非结构化文本数据中，漏洞、攻击模式以及技战术等核心元素并非以标准化ID或者名称出现，这给多源异构的文本数据中自动化的精确抽取相关知识带来了困难。当前知识抽取方法，只能够基于统计对文本的主题进行统计，或者简单地抽取文中出现的实体，不能够将相关知识关联到具体的知识上。

发明内容

基于此，有必要针对上述技术问题，提供一种能够目前知识抽取方式无法较好的提取出安全知识问题的基于One-shot 学习的网络安全知识抽取方法和装置。

一种基于One-shot 学习的网络安全知识抽取方法，所述方法包括：

从互联网中获取目标文本，对所述文本进行分段处理，得到分段集合，对所述分段集合中的段落进行位置编码，得到位置标记，采用注意力机制，计算所述分段集合中每一段落的注意力权重；

将所述分段集合中的每一段落输入预先训练的领域分类模型，得到所述段落的领域标签；

采用攻击指示器提取的方式，提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合；

根据所述领域标签、所述威胁类型集合以及所述触发词集合，确定所述段落的域标记；

根据所述域标记，在预先构建的知识库中提取候选安全知识集合；

根据所述候选安全知识集合和所述注意力权重，采用One-shot 学习的方式，得到目标文本的网络安全知识。

在其中一个实施例中，还包括：对所述分段集合中的段落进行位置编码，得到位置标记；对段落进行句、词级别的向量化，得到段落特征；根据所述段落特征和所述位置标记，采用注意力机制，计算得到所述分段集合中每一段落的注意力权重。

在其中一个实施例中，还包括：对所述分段集合中的每一段落进行预处理，并对预处理结果进行词嵌入，得到段落中各个分词对应的段落向量；将所述段落向量输入预先训练的领域分类模型，得到所述段落的领域标签。

在其中一个实施例中，所述领域分类模型为卷积神经网络模型；所述卷积神经网络模型的输出层：

其中，

表示段落向量，

表示第i个分词对应的词向量，

表示分词的权重，

表示第i个分词的权重，b表示偏置，

表示激活函数；

所述卷积神经网络模型的损失函数为：

表示段落向量对应的实际领域标签；还包括：将所述段落向量输入预先训练的卷积神经网络模型，得到所述段落的领域标签。

在其中一个实施例中，还包括：根据预先设置的正则化规则，提取各个段落中的正则化威胁类型；根据预先设置的基于深度学习的命名实体识别模型，确定所述段落中所述正则化规则无法识别的非正则化威胁类型；根据所述正则化威胁类型和所述非正则化威胁类型，确定所述段落的威胁类型集合。

在其中一个实施例中，还包括：根据预先设置的触发动词集，对所述段落进行筛选，提取描述所述段落的威胁类型的触发词集合。

在其中一个实施例中，采用One-shot 学习的方式，将段落的表示矩阵转化为所述候选安全知识集合中安全知识的形式，得到样本表示；根据所述样本表示与所述候选安全知识集合进行比对，得到段落对应的安全知识；根据段落对应的安全知识和所述注意力权值，得到目标文本的安全知识以及所述安全知识出现的位置。

一种基于One-shot 学习的网络安全知识抽取装置，所述装置包括：

注意力模块，用于从互联网中获取目标文本，对所述文本进行分段处理，得到分段集合，对所述分段集合中的段落进行位置编码，得到位置标记，采用注意力机制，计算所述分段集合中每一段落的注意力权重；

领域分类模块，用于将所述分段集合中的每一段落输入预先训练的领域分类模型，得到所述段落的领域标签；

威胁提取模块，用于采用攻击指示器提取的方式，提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合；

标记生成模块，用于根据所述领域标签、所述威胁类型集合以及所述触发词集合，确定所述段落的域标记；

知识抽取模块，用于根据所述域标记，在预先构建的知识库中提取候选安全知识集合；根据所述候选安全知识集合和所述注意力权重，采用One-shot 学习的方式，得到目标文本的网络安全知识。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于One-shot 学习的网络安全知识抽取方法、装置、计算机设备和存储介质，通过注意力确定目标文本中每个分段的位置，然后采用预先训练的领域分类模型，对每个分段进行领域识别，确定分段的所属领域，然后采用攻击指示器提取的方式，结合分段的所属领域标签，就可以提取出段落对应的威胁类型集合和描述所述段落的威胁类型的触发词集合，根据领域标签、威胁类型集合以及触发词集合，确定所述段落的域标记，利用域标记，在预先构建的知识库中提取候选安全知识集合，候选安全知识集合中可能包含各种安全知识，然后通过候选安全知识集合和注意力权重，采用One-shot 学习的方式，得到目标文本的网络安全知识，One-shot 学习的方式即将段落对应的文本与候选安全知识集合中的候选安全知识进行匹配，从而提取出段落的安全知识，根据注意力权重同事可以确定安全知识的位置，从而实现目标文本的安全知识提取。

附图说明

图1为一个实施例中基于One-shot 学习的网络安全知识抽取方法的流程示意图；

图2为一个实施例中基于注意力机制的知识定位框架图；

图3为一个实施例基于CNN的领域识别的框架图；

图4为一个实施例中基于one-shot学习的框架图；

图5为一个实施例中基于One-shot 学习的网络安全知识抽取装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于One-shot 学习的网络安全知识抽取方法，包括以下步骤：

步骤102，从互联网中获取目标文本，对文本进行分段处理，得到分段集合，对分段集合中的段落进行位置编码，得到位置标记，采用注意力机制，计算分段集合中每一段落的注意力权重。

获取目标文本的来源可以是从官方网站、安全公司、社交网络提取，提取方式可以是通过爬虫的方式，针对性的获取目标文本。

具体的，在安全描述数据基础上，基于TI_spider和PiFlow等自动化数据收集***，从不同的社交媒体（包括博客、黑客论坛帖子、安全新闻、安全供应商公告等）收集与威胁相关的数据。具体来说，自动化数据收集***由几十个独立的分布式爬虫组成，每个爬虫监测和收集特定的数据源。每个爬虫程序都利用广度优先搜索来收集威胁描述，这将从一个描述威胁事件的主页开始收集，直到无法调用新链接。对于每个链接，首先对HTML源代码进行爬网，然后利用Xpath（XML路径语言）提取威胁事件数据，基于威胁事件数据，得到目标文本。

注意力机制具体为关注每个段落的段落特性，注意力机制既可以确定目标文本中有价值的段落，又可以对段落进行定位。

步骤104，将分段集合中的每一段落输入预先训练的领域分类模型，得到段落的领域标签。

领域分类模型可以是基于卷积的神经网络模型，也可以是SVM、贝叶斯等模型。领域指的是金融（finance）、政府（government）、教育（education）、物联网（IoT）和工业控制***（ICS）等，不同领域的网络攻击模式不同，因此安全知识不同，预先对分段进行领域提取，可以提高安全知识抽取的准确性。

步骤106，采用攻击指示器提取的方式，提取段落的威胁类型集合和描述段落的威胁类型的触发词集合。

一般网络威胁情报中包含大量的攻击指示器（Indicator of Compromise,IOCs），IOCs抽取工具大多遵循OpenIOC标准来抽取特定类型的IOCs（如恶意IP、恶意软件、文件哈希等），如CleanMX、PhishTank、IOC Finder和Gartner peer insight等。

威胁类型集合中包含不同类型的攻击指示器，触发词集合指的是触发动词的集合，网络安全威胁文本中存在许多具有特殊含义的动词（如attack, permeate, invade,block等），这些动词经常出现在对入侵进行描述的文本中，并且攻击指示器多数在语法上都依赖他们，因此本方法将这些动词称为触发动词。由此可以，获取触发集合，可以更加准确的描述分段包含的攻击指示器。

步骤108，根据领域标签、威胁类型集合以及触发词集合，确定段落的域标记。

域标记可以用于查询，其包含了领域标签、威胁类型集合以及触发词集合的信息，因此在查询候选安全知识集合时，结果更加准确。

步骤110，根据域标记，在预先构建的知识库中提取候选安全知识集合。

步骤112，根据候选安全知识集合和注意力权重，采用One-shot 学习的方式，得到目标文本的网络安全知识。

上述基于One-shot 学习的网络安全知识抽取方法中，通过注意力确定目标文本中每个分段的位置，然后采用预先训练的领域分类模型，对每个分段进行领域识别，确定分段的所属领域，然后采用攻击指示器提取的方式，结合分段的所属领域标签，就可以提取出段落对应的威胁类型集合和描述所述段落的威胁类型的触发词集合，根据领域标签、威胁类型集合以及触发词集合，确定所述段落的域标记，利用域标记，在预先构建的知识库中提取候选安全知识集合，候选安全知识集合中可能包含各种安全知识，然后通过候选安全知识集合和注意力权重，采用One-shot 学习的方式，得到目标文本的网络安全知识，One-shot 学习的方式即将段落对应的文本与候选安全知识集合中的候选安全知识进行匹配，从而提取出段落的安全知识，根据注意力权重同事可以确定安全知识的位置，从而实现目标文本的安全知识提取。

在其中一个实施例中，对分段集合中的段落进行位置编码，得到位置标记；对段落进行句、词级别的向量化，得到段落特征；根据段落特征和位置标记，采用注意力机制，计算得到分段集合中每一段落的注意力权重。

具体的，针对每一个目标文本，为能够使模型满足处理文档级的目标文本，在对文本

的每个段落的位置信息进行编码，段落位置编码可以表示为

，然后使用attention机制关注每个段落的段落特性（比如位置编码、标题、正文以及其他）。本方法在对词、句级别的数据进行向量化表示的基础上，使用CNN及最大池化获取针对段落的段落特征向量，然后结合向量的位置编码形成新的篇章特征，使用注意力机制通过计算已抽取的知识与段落特征的匹配程度输出对每段的权重

进行优化。通过为有效信息较多的段落分批较高的权重，为包含信息极少的段落分批较低的权重，来选择关注的段落，如此就可以定位出一个篇章中更有价值的段落。基于注意力机制的知识定位框架如图2所示。

在其中一个实施例中，对分段集合中的每一段落进行预处理，并对预处理结果进行词嵌入，得到段落中各个分词对应的段落向量；将段落向量输入预先训练的领域分类模型，得到段落的领域标签。

在另一实施例中，领域分类模型为卷积神经网络模型；卷积神经网络模型的输出层：

其中，

表示段落向量，

表示第i个分词对应的词向量，

表示分词的权重，

表示第i个分词的权重，b表示偏置，

表示激活函数；

卷积神经网络模型的损失函数为：

表示段落向量对应的实际领域标签。

具体的，领域识别具体包括如下过程：

一、数据预处理：使用Stanford CoreNLP删除所有标点符号、停止词和无意义词。数据预处理不仅降低了文本的维数，而且减轻了词嵌入中的噪声特征。

二、词嵌入：将自然语言的目标文本转化为潜在的向量空间。本步骤训练了一个专门表示威胁描述的word2vec模型，该模型能够有效地捕捉词与词之间的依赖关系。例如，嵌入维数为200，在威胁描述中的每个单词都由200维向量表示。将词嵌入的过程E表示为：

,将自然语言转化到潜在的向量空间。例如，单词“attacker”转换到向量空间表示为：

。

三、领域的识别：卷积计算将滤波器

应用到由h个词构成的窗口上产生新的特征标记为f。对新产生的特征进行最大池化计算:

以捕获每个特征图中的最重要的特征。word2vec对向量空间进行了重新排列，使得语料库中上下文相似的词彼此靠近，从而使模型能够捕捉词之间相互依赖的关系。通过词嵌入，可以进行卷积运算来学习不同领域的文本特征。

，其中

是对每个威胁文本的词嵌入；

是指词的权重来判断目标文本的分段的所属领域；

是指偏差向量用以捕捉影响

除

以外的其他可能的因素；

是指激活函数，例如ReLU。该框架以交叉熵作为损失函数

，以梯度下降法作为优化方法，其中

是指文本

的预测领域标签，

是指文本

的实际领域标签。

具体的，基于CNN的领域识别的框架如图3所示，其中利用256个内核为5的滤波器来学习每个威胁描述的局部特征，然后将汇集的特征向量拼接到一个完全连接的层中。最后，利用激活函数SoftMax计算输入段落对应文本的每个领域标记的概率，获得输入文本的领域标签。

在其中一个实施例中，根据预先设置的正则化规则，提取各个段落中的正则化威胁类型；根据预先设置的基于深度学习的命名实体识别模型，确定段落中正则化规则无法识别的非正则化威胁类型；根据正则化威胁类型和非正则化威胁类型，确定段落的威胁类型集合。

具体的，正则化匹配指的是构建每个威胁类型的正则化表达式，从而基于正则化表达式，匹配分段中的正则化威胁类型，一部分威胁类型的正则化表达式如表1所示：

表1一部分IOC的正则表达式

通过正则化方式，可以解决传统的基于自然语言处理的方法（如NLTK、LTP）都难以识别哈希码、恶意DNS等无语义的编码的问题。

另一方面，上述正则化方法只提取出正则化的威胁类型，对于未知类型的威胁类型无法准确匹配，因此基于深度学习的方式，通过命名实体识别的方式记性非正则化威胁类型提取。

具体的，命名实体识别（Named Entity Recognition，NER）在自然语言处理领域得到了广泛的研究。然而，现有的NER工具（如CoreNLP、NLTK、PyLTP）不能直接用于识别IOCs，因为它们被认为是独立的、高度领域相关的，而且为一个领域设计的模型很难在另一个领域工作。另一方面，“BiLSTM+CRF”模型可以利用双向LSTM组件来利用数据的前后特性，从而在文本分块和NER方面产生更高的精度。因此，本方法实现了一个基于“BiLSTM+CRF”的有效工具来识别使用正则表达式无法匹配的IOCs。

在另一个实施例中，还需要对得到的威胁类型集合进行拓展，具体的，结合正则表达式匹配和基于深度学习的IOC抽取方法，能够抽取OpenIOC中登记的所有类型的IOCs。这一步的重点是识别未知的IOCs，如，对于“Maze”、“AnteFrigus”和“PureLocker”这样的词，很难与“WannaCry”（一种破坏性勒索软件）紧密联系在一起。因此，需要一种词的嵌入方法，当在嵌入向量空间中搜索一个词时，该方法允许相似的词彼此更接近，并找到具有相似含义的未知词。

为了解决上述问题，提出了一种用于识别未知IOCs的威胁智能嵌入模型。单词嵌入模型将单词转换成潜在的向量空间来比较单词之间的相似性。首先，经过去除停止词、标点符号等预处理程序，获得预处理后的威胁文本形成一个词集，并转化为一个潜在的向量空间。然后，选择与威胁类型集合中的每个IOC最相似的前5个单词作为IOC扩展，这大大增加了IOC的覆盖范围。如“Maze”，“AnteFrigus”，“Buran”，“PureLocker”和“Dharma”等词汇的向量和“WannaCry”的向量最为相似，因此这些词可以可视为“WannaCry”的扩展。最终，对于每个威胁描述，可以获得一个候选威胁类型集合，该集合由所有可疑威胁类型组成。

在其中一个实施例中，根据预先设置的触发动词集，对段落进行筛选，提取描述段落的威胁类型的触发词集合。

具体的，在网络安全威胁文本中存在许多具有特殊含义的动词（如attack,permeate, invade, block等），这些动词经常出现在对入侵进行描述的文本中，并且IOC多数在语法上都依赖他们，因此将这些动词称为触发动词。例如，以下文本描述“WannaCryattacked Korea’s telecommunication system in May 2017”，其中动词“attacked”可以看作是描述一种威胁行为的触发动词，与“WannaCry”形成主谓关系。为了提取与攻击事件最相关的实体，我们只需检测到与触发动词有明确语法依赖关系(如主谓、动宾等)的可疑IOCs，这是减少IOC提取假阳性的最有效、最直接的方法。将描述威胁事件的最直观的动词都整合到是一个触发词集（VerbSet）中。然后使用候选威胁类型集合的动词进行分布式向量化表示，对比词汇之间的是相似性，实现对VerbSet的补充。下表是描述多种威胁行为的原始触发词集，见表2。

表2多种威胁对应的原始触发词

最终，生成具有域标记的域专用CTI。给定一个威胁描述集

，获得针对文本

的触发动词集

，以及候选IOC实体集

，针对每一个具体领域的威胁情报文本

，可以抽取与触发词

有明确语义关系的

，将所有文本

的

和领域标签合并起来形成一个的具体域的CTI。

在其中一个实施例中，采用One-shot 学习的方式，将段落的表示矩阵转化为候选安全知识集合中安全知识的形式，得到样本表示；根据样本表示与候选安全知识集合进行比对，得到段落对应的安全知识；根据段落对应的安全知识和注意力权值，得到目标文本的安全知识以及安全知识出现的位置。

具体的，在已知的目标文本中存在多个可能包含不同安全知识的段落。然后，结合CTI标签在已有的知识库中抽出可能的候选网络安全知识候选集

，这个候选集可能包含CVE、CAPEC或者CWE等由一个名称或者ID编码、一段文本描述组成的安全知识。如图4所示，假设以上的知识抽取方法获得了包含三个元素的安全知识候选集，这三个元素分别用

表示，然后第i个目标文本中的某一段或者某几段作为查询。

第一，编码模块就是使用Bi-LSTM模型对候选集的文本进行编码形成向量表示的样本。然后通过归纳模块将每个样本的表示矩阵抽象成类别的向量表示，比如样本矩阵为

其维度为

则抽象的过程为：

具体来说，首先通过matrix transformation,

将样本的向量表示进行变形，这样能让不同类别的样本区分得更好。同时，由于矩阵对于所有样本向量都是共用的，不管什么样的样本大小都可以支持了，将

乘以

矩阵

得到

，为：

其次，为了确保类别（class）的表示已经囊括了这个样本特征向量，还会动态地去调整系数

，来确保这个样本的类别所属。同时，对耦合系数

进行SoftMax操作(在大于一定值后，随着输入的增加，SoftMax的得分的值增加得越大)，耦合系数

的初始值为0，然后通过学习来更新。然后，再通过加权聚合来得到类别的表示

，其维度是

。之后，通过squashing函数将

的表示进行压缩，这种压缩不会改变正负，但可以减少区间得到

其维度是

：

最后，回到刚才提到的

的更新，其实就是动态规划，如果这个样本是属于这个类别的话，这个样本的向量就应该得到更大的值，而且在不同的类别的话，这个值就应该更小；总的来说，通过多次迭代后，不但可以让不同类别之间的表示得到区分，同时，同同一个类别下的样本贡献程度也会通过学习后变得不一样。同时，这里的

也会给予后面预测去使用。

采用神经张量层计算

与查询集（query set）的相关性分数。首先，从其中一个类别开始，假设是

，先做一次矩阵转换，将

转置得到

，然后乘以

,其维度

, 得到中间结果的维度为

，然后乘以查询集（query set）,

得到结果的维度为

，然后再过一个EeLU函数。然后,将

的结果经过全联接，再经过一个sigmoid函数，得到一个第

个类别与查询的相似度。

最后，对比

的值和

形成目标函数，如果匹配输出1，否则输出0。其查询集（query set）的损失函数为：

通过以上方法，获得候选安全知识集合与目标文本各段落之间的相似性，来最终确定该段落包含的具体网络安全知识及其编码。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于One-shot 学习的网络安全知识抽取装置，包括：注意力模块502、领域分类模块504、威胁提取模块506、标记生成模块508和知识抽取模块510，其中：

注意力模块502，用于从互联网中获取目标文本，对所述文本进行分段处理，得到分段集合，对所述分段集合中的段落进行位置编码，得到位置标记，采用注意力机制，计算所述分段集合中每一段落的注意力权重；

领域分类模块504，用于将所述分段集合中的每一段落输入预先训练的领域分类模型，得到所述段落的领域标签；

威胁提取模块506，用于采用攻击指示器提取的方式，提取所述段落的威胁类型集合和描述所述段落的威胁类型的触发词集合；

标记生成模块508，用于根据所述领域标签、所述威胁类型集合以及所述触发词集合，确定所述段落的域标记；

知识抽取模块510，用于根据所述域标记，在预先构建的知识库中提取候选安全知识集合；根据所述候选安全知识集合和所述注意力权重，采用One-shot 学习的方式，得到目标文本的网络安全知识。

在其中一个实施例中，注意力模块502还用于对所述分段集合中的段落进行位置编码，得到位置标记；对段落进行句、词级别的向量化，得到段落特征；根据所述段落特征和所述位置标记，采用注意力机制，计算得到所述分段集合中每一段落的注意力权重。

在其中一个实施例中，领域分类模块504还用于对所述分段集合中的每一段落进行预处理，并对预处理结果进行词嵌入，得到段落中各个分词对应的段落向量；将所述段落向量输入预先训练的领域分类模型，得到所述段落的领域标签。

其中，

表示段落向量，

表示第i个分词对应的词向量，

表示分词的权重，

表示第i个分词的权重，b表示偏置，

表示激活函数；

所述卷积神经网络模型的损失函数为：

表示段落向量对应的实际领域标签；领域分类模块504还用于将所述段落向量输入预先训练的卷积神经网络模型，得到所述段落的领域标签。

在其中一个实施例中，威胁提取模块506还用于根据预先设置的正则化规则，提取各个段落中的正则化威胁类型；根据预先设置的基于深度学习的命名实体识别模型，确定所述段落中所述正则化规则无法识别的非正则化威胁类型；根据所述正则化威胁类型和所述非正则化威胁类型，确定所述段落的威胁类型集合。

在其中一个实施例中，威胁提取模块506还用于根据预先设置的触发动词集，对所述段落进行筛选，提取描述所述段落的威胁类型的触发词集合。

在其中一个实施例中，知识抽取模块510还用于采用One-shot 学习的方式，将段落的表示矩阵转化为所述候选安全知识集合中安全知识的形式，得到样本表示；根据所述样本表示与所述候选安全知识集合进行比对，得到段落对应的安全知识；根据段落对应的安全知识和所述注意力权值，得到目标文本的安全知识以及所述安全知识出现的位置。

关于基于One-shot 学习的网络安全知识抽取装置的具体限定可以参见上文中对于基于One-shot 学习的网络安全知识抽取方法的限定，在此不再赘述。上述基于One-shot 学习的网络安全知识抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于One-shot 学习的网络安全知识抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。