CN109543089A

CN109543089A - 一种网络安全情报数据的分类方法、***及相关装置

Info

Publication number: CN109543089A
Application number: CN201811457574.6A
Authority: CN
Inventors: 陈霖; 明哲; 许爱东; 陈华军; 杨航; 黄文琦; 邓子杰
Original assignee: China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd; Research Institute of Southern Power Grid Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-03-29

Abstract

本申请所提供的一种网络安全情报数据的分类方法，包括：利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据；其中，网络爬虫为具有抗反爬虫能力的网络爬虫；利用人工规则关键句提取方法从网络安全情报数据中提取出目标关键句；利用图模型关键词提取方法从网络安全情报数据中提取出目标关键词；将目标关键信息输入文本分类模型，确定目标关键信息的类别；其中，目标关键信息包括目标关键句和目标关键词。该方法不仅提取出目标关键句，还利用图模型关键词提取方法提取出目标关键词，能够提高关键信息分类的准确性。本申请还提供一种网络安全情报数据的分类***、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种网络安全情报数据的分类方法、***及相关装置

技术领域

本申请涉及网络安全情报分类技术领域，特别涉及一种网络安全情报数据的分类方法、***、设备及计算机可读存储介质。

背景技术

目前，网络安全情报数据的分类方法主要是利用人工规则关键句提取方法，从网络爬虫爬取的网络安全情报数据中提取出关键句，将关键句作为关键信息，进而确定该关键信息对应的类别。但是，该方法无法提取出网络安全情报数据中的关键词，而关键词也是确定关键信息的类别的重要因素，故会导致关键信息分类的准确性不高。

因此，如何提高关键信息分类的准确性是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的是提供一种网络安全情报数据的分类方法、***、设备及计算机可读存储介质，能够提高关键信息分类的准确性。

为解决上述技术问题，本申请提供一种网络安全情报数据的分类方法，包括：

利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据；其中，所述网络爬虫为具有抗反爬虫能力的网络爬虫；

利用人工规则关键句提取方法从所述网络安全情报数据中提取出目标关键句；

利用图模型关键词提取方法从所述网络安全情报数据中提取出目标关键词；

将目标关键信息输入文本分类模型，确定所述目标关键信息的类别；其中，所述目标关键信息包括所述目标关键句和所述目标关键词。

优选地，所述利用图模型关键词提取方法从所述网络安全情报数据中提取出目标关键词，包括：

将所述网络安全情报数据按照完整句子进行分割，得到各个句子；

从各个所述句子中筛选出预设词性的词语；

在利用各个所述词语构建关键词图后，利用共现关系确定所述关键词图中每个节点与其他节点的关联程度；其中，每个所述节点对应一个所述词语；

在根据所述关联程度计算各个所述节点的权重后，对各个所述权重进行倒序排序，得到权重顺序表；

将所述权重顺序表中前面预设数量的权重对应的词语确定为所述目标关键词。

优选地，确定所述目标关键信息的类别之后，还包括：

根据所述目标关键信息的所述类别，将所述目标关键信息存储至分布式文件存储***中。

优选地，所述将目标关键信息输入文本分类模型，确定所述目标关键信息的类别，包括：

利用历史数据进行模型训练，得到所述文本分类模型；

将所述目标关键信息输入所述文本分类模型，确定所述目标关键信息的所述类别。

本申请还提供一种网络安全情报数据的分类***，包括：

爬取模块，用于利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据；其中，所述网络爬虫为具有抗反爬虫能力的网络爬虫；

目标关键句提取模块，用于利用人工规则关键句提取方法从所述网络安全情报数据中提取出目标关键句；

目标关键词提取模块，用于利用图模型关键词提取方法从所述网络安全情报数据中提取出目标关键词；

类别确定模块，用于将目标关键信息输入文本分类模型，确定所述目标关键信息的类别；其中，所述目标关键信息包括所述目标关键句和所述目标关键词。

优选地，所述目标关键词提取模块，包括：

分割单元，用于将所述网络安全情报数据按照完整句子进行分割，得到各个句子；

筛选单元，用于从各个所述句子中筛选出预设词性的词语；

关联程度确定单元，用于在利用各个所述词语构建关键词图后，利用共现关系确定所述关键词图中每个节点与其他节点的关联程度；其中，每个所述节点对应一个所述词语；

权重排序单元，用于在根据所述关联程度计算各个所述节点的权重后，对各个所述权重进行倒序排序，得到权重顺序表；

目标关键词确定单元，用于将所述权重顺序表中前面预设数量的权重对应的词语确定为所述目标关键词。

优选地，该网络安全情报数据的分类***，还包括：

存储模块，用于根据所述目标关键信息的所述类别，将所述目标关键信息存储至分布式文件存储***中。

优选地，所述类别确定模块，包括：

模型训练单元，用于利用历史数据进行模型训练，得到所述文本分类模型；

类别确定单元，用于将所述目标关键信息输入所述文本分类模型，确定所述目标关键信息的所述类别。

本申请还提供一种设备，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的网络安全情报数据的分类方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的网络安全情报数据的分类方法的步骤。

本申请所提供的一种网络安全情报数据的分类方法，包括：利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据；其中，所述网络爬虫为具有抗反爬虫能力的网络爬虫；利用人工规则关键句提取方法从所述网络安全情报数据中提取出目标关键句；利用图模型关键词提取方法从所述网络安全情报数据中提取出目标关键词；将目标关键信息输入文本分类模型，确定所述目标关键信息的类别；其中，所述目标关键信息包括所述目标关键句和所述目标关键词。

该方法先是利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据，再利用人工规则关键句提取方法和图模型关键词提取方法分别从网络安全情报数据中提取出目标关键句和目标关键词，也即提取出关键信息，最后将目标关键信息输入文本分类模型，确定所述目标关键信息的类别。可见，该方法不仅利用人工规则关键句提取方法提取出目标关键句，还用图模型关键词提取方法提取出目标关键词，能够提高关键信息分类的准确性。本申请还提供一种网络安全情报数据的分类***、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种网络安全情报数据的分类方法的流程图；

图2为本申请实施例所提供的一种具有抗反爬虫能力的网络爬虫的原理示意图；

图3为本申请实施例所提供的一种网络安全情报数据的分类***的结构框图。

具体实施方式

本申请的核心是提供一种网络安全情报数据的分类方法，能够提高关键信息分类的准确性。本申请的另一核心是提供一种网络安全情报数据的分类***、设备及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，网络安全情报数据的分类方法主要是利用人工规则关键句提取方法，从网络爬虫爬取的网络安全情报数据中提取出关键句，将关键句作为关键信息，进而确定该关键信息对应的类别。但是，该方法无法提取出网络安全情报数据中的关键词，而关键词也是确定关键信息的类别的重要因素，故会导致关键信息分类的准确性不高。本申请实施例能够提高关键信息分类的准确性，具体请参考图1，图1为本申请实施例所提供的一种网络安全情报数据的分类方法的流程图，该网络安全情报数据的分类方法具体包括：

S101、利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据；其中，网络爬虫为具有抗反爬虫能力的网络爬虫；

本申请实施例先是利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据；其中，网络爬虫为具有抗反爬虫能力的网络爬虫。本申请实施例的网络爬虫在面对具有反爬虫能力的网站时，通过伪装user agent和采用多代理的方式，突破网站的反爬虫屏障，原理如图2所示，图2为本申请实施例所提供的一种具有抗反爬虫能力的网络爬虫的原理示意图。其中，user agent是HTTP协议中的一个字段，其作用是描述发出HTTP请求的终端的一些信息，服务器通过这个字段就可以知道要访问网站的是哪种类型的用户。而任何用户都可以通过浏览器访问网站，知名浏览器为用户提供的user agent对于大多数网站都是合法。因此，可以通过伪装浏览器的user agent来绕过网站的反爬虫屏障。本申请实施例采用若干个浏览器的user agent，然后每次发送请求的时候就从这预备的user agents中随机选一个使用，其原理与动态更换IP地址一致。

如果对方用某段时间内某IP的访问次数来判定爬虫，然后将这些爬虫的IP都封掉的话，以上基于user agent的伪装就失效了。然而这种防御方法存在前提条件为爬虫的访问量必然比正常用户的大很多，因而只要使这个假设不成立即可。本申请实施例采用多代理的方式：先将请求发到代理，然后代理再将请求发到服务器。这样会使网站认为是代理在请求相关数据，而且同时用多个代理向网站发出请求，则能使单个IP的访问量下降，从而避免访问被反爬虫策略封杀。本申请实施例采用了具有抗反爬虫能力的爬虫程序，能够使网络安全情报收集避免被反爬虫策略干扰，使情报数据收集过程更加顺利。

本申请实施例是从预设数量的网络安全网站中爬取出网络安全情报数据，在此对于网络安全网站的数量不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。在此对于网络安全情报数据的内容也不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，该网络安全情报数据通常包括每天最新的漏洞资讯、病毒和攻击资讯以及应对措施。

S102、利用人工规则关键句提取方法从网络安全情报数据中提取出目标关键句；

本申请实施例在利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据后，利用人工规则关键句提取方法从网络安全情报数据中提取出目标关键句。对于利用人工规则关键句提取方法从网络安全情报数据中提取出目标关键句的过程，在此不作具体限定，通常先设置人工规则，再根据人工规则从网络安全情报数据中提取出目标关键句。在此对人工规则也不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。例如，对网络安全情报数据进行整体搜索，将网络安全情报数据中出现“漏洞”、“病毒”、“攻击”、“措施”、“方法”、“途径”词语所在的句子完整提取出来，得到各个目标关键句。在此对目标关键句的数量不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。

S103、利用图模型关键词提取方法从网络安全情报数据中提取出目标关键词；

本申请实施例不仅利用人工规则关键句提取方法从网络安全情报数据中提取出目标关键句，而且还利用图模型关键词提取方法从网络安全情报数据中提取出目标关键词。在此对目标关键词的数量不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。对于利用图模型关键词提取方法从网络安全情报数据中提取出目标关键词的过程，在此也不作具体限定，通常包括：将网络安全情报数据按照完整句子进行分割，得到各个句子；从各个句子中筛选出预设词性的词语；在利用各个词语构建关键词图后，利用共现关系确定关键词图中每个节点与其他节点的关联程度；其中，每个节点对应一个词语；在根据关联程度计算各个节点的权重后，对各个权重进行倒序排序，得到权重顺序表；将权重顺序表中前面预设数量的权重对应的词语确定为目标关键词。具体的，先将网络安全情报数据T按照完整句子进行分割得到各个句子，即T＝[S₁,S₂,S₃...S_m]；对于每个句子S_i∈T，进行分词和词性标注处理，并过滤掉介词，筛选出预设词性的词语，如名词、动词、形容词，即S_i＝[t_i1,t_i2,t_i3...t_im]，其中t_im是筛选出的预设词性的词语；利用筛选出的预设词性的词语构建关键词图G＝(V,E)，其中V为节点集，由上述筛选出的预设词性的词语组成，然后采用共现关系构造任两节点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个词语；根据每个节点与其他节点的关联程度迭代计算出各个节点的权重，直至收敛，再对各个节点的权重进行倒序排序，得到权重顺序表，最后将权重顺序表中前面预设数量的权重对应的词语确定为目标关键词。进一步地，将相邻的目标关键词组合成目标多词关键词。

S104、将目标关键信息输入文本分类模型，确定目标关键信息的类别；其中，目标关键信息包括目标关键句和目标关键词。

本申请实施例在步骤S102和步骤S103分别提取出目标关键句和目标关键词后，将目标关键句和目标关键词确定为目标关键信息，再将目标关键信息输入文本分类模型，确定目标关键信息的类别。对于将目标关键信息输入文本分类模型，确定目标关键信息的类别的过程，在此不作具体限定，该过程通常包括：利用历史数据进行模型训练，得到文本分类模型；将目标关键信息输入文本分类模型，确定目标关键信息的类别。进一步地，对于文本分类模型的类型不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常为TextCNN文本分类模型。进一步地，当文本分类模型为TextCNN文本分类模型时，则上述过程具体为：(1)运用标记的历史数据对基于TextCNN的深度学习文本分类模型进行训练，得到具有较强分类能力的TextCNN文本分类模型；(2)根据分词库，对句子进行分词；(3)用多个卷积核对原词向量矩阵进行卷积；(4)进行池化，对相同卷积核产生的特征图进行连接；(5)再进行softmax输出每个类别的概率；(6)将每个类别对应的概率从高到低进行排序，将概率最高的类别作为上述目标关键信息的类别。

本申请实施例先是利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据，再利用人工规则关键句提取方法和图模型关键词提取方法分别从网络安全情报数据中提取出目标关键句和目标关键词，也即提取出关键信息，最后将目标关键信息输入文本分类模型，确定目标关键信息的类别。可见，该方法不仅利用人工规则关键句提取方法提取出目标关键句，还用图模型关键词提取方法提取出目标关键词，能够提高关键信息分类的准确性。

基于上述实施例，本申请实施例中在确定目标关键信息的类别之后，通常还包括：根据目标关键信息的类别，将目标关键信息存储至分布式文件存储***(HadoopDistribute File System，HDFS)中。

在存储的过程中，文本被切分成块(默认大小128M)，以块为单位，每个块有多个副本存储在不同的机器上。具体原理：NameNode是主节点，存储文件的元数据，包括文件名、文件目录结构、文件属性(生成时间，副本数，文件权限)、每个文件的块列表以及块所在的DataNode等。DataNode存储文件块数据，以及块数据的校验和，可以创建、删除、移动或重命名文件，当文件创建、写入和关闭之后不能修改文件内容。

NameNode是一个中心服务器，负责管理文件***的名字空间以及客户端对文件的访问，NameNode负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟哪个DataNode联系，否则NameNode会成为***的瓶颈。副本存放在哪些DataNode上由NameNode来控制，根据全局情况做出块放置决定，读取文件时NameNode尽量让用户先读取最近的副本，降低带块消耗和读取时延。NameNode全权管理数据块的复制，它周期性地从集群中的每个DataNode接收心跳信号和块状态报告。接收到心跳信号意味着该DataNode节点工作正常。块状态报告包含了一个该DataNode上所有数据块的列表。NameNode支持对HDFS中的目录、文件和块做类似文件***的创建、修改、删除、列表文件和目录等基本操作。

下面对本申请实施例提供的一种网络安全情报数据的分类***、设备及计算机可读存储介质进行介绍，下文描述的网络安全情报数据的分类***、设备及计算机可读存储介质与上文描述的网络安全情报数据的分类方法可相互对应参照。

请参考图3，图3为本申请实施例所提供的一种网络安全情报数据的分类***的结构框图；该网络安全情报数据的分类***包括：

爬取模块301，用于利用网络爬虫从预设数量的网络安全网站中爬取出网络安全情报数据；其中，网络爬虫为具有抗反爬虫能力的网络爬虫；

目标关键句提取模块302，用于利用人工规则关键句提取方法从网络安全情报数据中提取出目标关键句；

目标关键词提取模块303，用于利用图模型关键词提取方法从网络安全情报数据中提取出目标关键词；

类别确定模块304，用于将目标关键信息输入文本分类模型，确定目标关键信息的类别；其中，目标关键信息包括目标关键句和目标关键词。

基于上述实施例，本实施例中目标关键词提取模块302，通常包括：

分割单元，用于将网络安全情报数据按照完整句子进行分割，得到各个句子；

筛选单元，用于从各个句子中筛选出预设词性的词语；

关联程度确定单元，用于在利用各个词语构建关键词图后，利用共现关系确定关键词图中每个节点与其他节点的关联程度；其中，每个节点对应一个词语；

权重排序单元，用于在根据关联程度计算各个节点的权重后，对各个权重进行倒序排序，得到权重顺序表；

目标关键词确定单元，用于将权重顺序表中前面预设数量的权重对应的词语确定为目标关键词。

基于上述实施例，本实施例中网络安全情报数据的分类***通常还包括：

存储模块，用于根据目标关键信息的类别，将目标关键信息存储至分布式文件存储***中。

基于上述实施例，本实施例中类别确定模块304，通常包括：

模型训练单元，用于利用历史数据进行模型训练，得到文本分类模型；

类别确定单元，用于将目标关键信息输入文本分类模型，确定目标关键信息的类别。

本申请还提供一种设备，包括：

存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的网络安全情报数据的分类方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的网络安全情报数据的分类方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的***而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种网络安全情报数据的分类方法、***、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种网络安全情报数据的分类方法，其特征在于，包括：

2.根据权利要求1所述的网络安全情报数据的分类方法，其特征在于，所述利用图模型关键词提取方法从所述网络安全情报数据中提取出目标关键词，包括：

从各个所述句子中筛选出预设词性的词语；

3.根据权利要求1所述的网络安全情报数据的分类方法，其特征在于，确定所述目标关键信息的类别之后，还包括：

4.根据权利要求1所述的网络安全情报数据的分类方法，其特征在于，所述将目标关键信息输入文本分类模型，确定所述目标关键信息的类别，包括：

利用历史数据进行模型训练，得到所述文本分类模型；

5.一种网络安全情报数据的分类***，其特征在于，包括：

6.根据权利要求5所述的网络安全情报数据的分类***，其特征在于，所述目标关键词提取模块，包括：

筛选单元，用于从各个所述句子中筛选出预设词性的词语；

7.根据权利要求5所述的网络安全情报数据的分类***，其特征在于，还包括：

8.根据权利要求5所述的网络安全情报数据的分类***，其特征在于，所述类别确定模块，包括：

9.一种设备，其特征在于，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至4任一项所述的网络安全情报数据的分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的网络安全情报数据的分类方法的步骤。