CN113268647A

CN113268647A - 一种网络安全情报数据的分类方法、***及装置

Info

Publication number: CN113268647A
Application number: CN202110810936.0A
Authority: CN
Inventors: 雷晓荣; 孙和通; 温道明; 许冠源; 童亮斌
Original assignee: Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Current assignee: Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-08-17
Anticipated expiration: 2041-07-19
Also published as: CN113268647B

Abstract

本发明涉及网络安全情报的分类技术领域，公开了一种网络安全情报数据的分类方法、***及装置，通过内容关键词与内容关键句双重检索的方式确定安全情报数据的分类，实现了以少量特征信息确定类别范围再以多量特征信息进行类别判定的方式，既可以避免检索特征内容过多造成的查找遗漏，也可以避免检索特征内容过少造成的分类错误，同时也可以有效的提高检索的效率，进一步而言，内容关键句的检索为方法提供了迭代更新的功能，使得方法可以不断的增加自身的分类库，提高工作效率。

Description

一种网络安全情报数据的分类方法、***及装置

技术领域

本发明涉及网络安全情报的分类技术领域，具体是一种网络安全情报数据的分类方法、***及装置。

背景技术

网络安全是当前环境下一个十分重要的社会话题，其所涵盖的内容也是十分广阔的，针对不同的部门而言，网络安全具有着对他们而言不同的工作含义，例如对网络运行和管理者的角度来说，网络安全是指信息网能够正常运行不受外界攻击和破坏，而对于***门以及信息部门等，网络安全则是指在网络中传播的数据和内容是合法安全无害的，不会对国家安全或是商业产生威胁，能够积极向上传播的，因此对网络进行监测以获取能够表征网络安全的情报数据并对其进行分类处理对于网络安全而言是十分重要的。

现有技术中所采取的网络安全情报数据的分类方法多是利用人工设定安全检索的特征内容，然后通过网络爬取情报数据进行关键内容提取并与特征内容进行比对分类来完成的，基本上可以解决对情报数据进行分类的目的。

但现有技术的分类方法依然存在影响其使用的问题，在使用中，存在单一安全情报数据包括多个关键内容导致关键内容提取判断错误最终影响分类的情况发生，而采取增加关键内容包含的内容以缩小检索范围精确分类的方式，又会使得对情报数据中影响到网络安全的内容检索遗漏的情况发生。

发明内容

本发明的目的在于提供一种网络安全情报数据的分类方法、***及装置，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

第一方面

一种网络安全情报数据的分类方法，包含以下步骤：

检索待安全分析的网站，获取该所述网站中的安全情报数据；

对所述安全情报数据进行数据形式判定，并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理，生成可读化情报数据，所述可读化数据处理为将所述安全情报数据进行类别统一化；

根据关键信息提取规则对所述可读化情报数据进行关键信息提取，所述关键信息包括内容关键词以及内容关键句；

根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定，并判断是否进行分类检索库迭代，根据所述分类判定结果对所述安全情报数据进行分类。

作为本发明的进一步方案：所述分类检索库包括：

数据类别，用于表征所述安全情报数据的类别；

模型关键词，用于表征所述数据类别的特征信息，每个所述数据类别对应至少一个模型关键词；以及

模型关键句，用于表征所述数据类别的特征信息，每个所述数据类别对应单一的模型关键句。

作为本发明的再进一步方案：每个所述关键信息的内容关键词数量至少为两个，每个所述关键信息的内容关键句为一个，所述根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定，并判断是否进行分类检索库迭代，根据所述分类判定结果对所述安全情报数据进行分类的步骤具体包括：

逐一获取所述可读化情报数据及与其相对应的关键信息；

读取所述关键信息中的数个内容关键词；

根据所述内容关键词对所述分类检索库中的所述模型关键词进行检索比对，生成检索比对结果，所述检索比对结果包含与所述内容关键词相符的所述模型关键词以及与所述模型关键词相对应的所述数据类别和所述模型关键句；

读取所述检索比对结果中的模型关键句；

根据多个所述模型关键句对所述内容关键句依次进行比对判定，若所述内容关键句与所述模型关键句的重合度达到预设百分比，则

所述可读化情报数据的分类为与所述模型关键句对应的数据类别；

若所述内容关键句与所述模型关键句的重合度未到预设百分比，则

对所述分类检索库进行人工判断迭代。

作为本发明的再进一步方案：所述对所述分类检索库进行人工判断迭代的步骤具体包括：

输出与所述可读化情报数据相对应的安全情报数据；

接收反馈信息，所述反馈信息包括数据类别信息；

根据所述数据类别信息以及与所述可读化情报数据相对应的内容关键词与所述内容关键句对所述分类检索库进行增量迭代，其中所述内容关键词用于生成所述数据类别的模型关键词，所述内容关键句用于生成所述数据类别的模型关键句。

作为本发明的再进一步方案：所述安全情报数据的类型包括文字数据、音频数据和图片数据，所述对所述安全情报数据进行数据形式判定，并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理，生成可读化情报数据的步骤包括：

对所述安全情报数据的数据形式进行判定；

若所述安全情报数据为文字数据时，则所述安全情报数据是可读化情报数据；

若所述安全情报数据为音频数据，对所述安全情报数据执行智能语音转化程序，将所述音频数据转化为文字数据，生成可读化情报数据；

若所述安全情报数据为图片数据，则对所述安全情报数据执行特征提取程序，将所述图片数据转化为文字数据，生成可读化情报数据。

作为本发明的再进一步方案：所述将所述图片数据转化为文字数据的步骤具体包括：

对所述安全情报数据进行图像文字识别，读取所述图片数据中图片表面的文字数据；

对所述安全情报数据进行缩放并转化为灰度图像，并进行灰度值特征点标记；

根据所述灰度值特征点标记的灰度值数值生成图片文字数据生成图片文字数据，所述图片文字数据用于对图像进行特征检索；

根据所述文字数据与所述图片文字数据生成可读化情报数据。

第二方面

本发明实施例旨在提供一种网络安全情报数据的分类***，包括：

情报数据获取模块，用于检索待安全分析的网站，获取该所述网站中的安全情报数据；

数据类型转化模块，用于对所述安全情报数据进行数据形式判定，并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理，生成可读化情报数据；

关键信息提取模块，用于根据关键信息提取规则对所述可读化情报数据进行关键信息提取；

分类判定迭代模块，用于根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定，并判断是否进行分类检索库迭代，根据所述分类判定结果对所述安全情报数据进行分类。

作为本发明的再进一步方案：所述数据类型转化模块包括：

数据类型判断单元，用于对所述安全情报数据的数据形式进行判定；

文字数据转换单元，用于根据所述安全情报数据内容生成可读化情报数据；

音频数据转换单元，用于对所述安全情报数据执行智能语音转化程序，将所述音频数据转化为文字数据，生成可读化情报数据；以及

图片数据转换单元，用于对所述安全情报数据执行特征提取程序，将所述图片数据转化为文字数据，生成可读化情报数据。

第三方面，本发明实施例旨在提供一种网络安全情报数据的分类装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述网络安全情报数据的分类方法的任一步骤。

与现有技术相比，本发明的有益效果是：通过内容关键词与内容关键句双重检索的方式确定安全情报数据的分类，实现了以少量特征信息确定类别范围再以多量特征信息进行类别判定的方式，即可以避免检索特征内容过多造成的查找遗漏，也可以避免检索特征内容过少造成的分类错误，同时也可以有效的提高检索的效率，进一步而言，内容关键句的检索为方法提供了迭代更新的功能，使得方法可以不断的增加自身的分类库，提高工作效率。

附图说明

图1为一种网络安全情报数据的分类方法中数据类别与关键信息的关系示意图。

图2为一种网络安全情报数据的分类方法的流程图。

图3为一种网络安全情报数据的分类方法中判定步骤的流程图。

图4为一种网络安全情报数据的分类方法中迭代步骤的流程图。

图5为一种网络安全情报数据的分类方法中生成可读化情报数据的流程图。

图6为一种网络安全情报数据的分类方法中图片数据的安全情报数据的处理流程图。

图7为一种网络安全情报数据的分类***的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现方式进行详细描述。

如图1和图2所述，为本发明一个实施例提供的一种网络安全情报数据的分类方法，包含以下步骤：

S200，检索待安全分析的网站，获取该所述网站中的安全情报数据。

这一步骤可以通过网络爬虫来实现，通过网络爬虫对目标网站进行爬取相关重要的信息，以获取安全情报数据，这些安全情报数据的类型及内容均可以是多种多样的，当然这里的网络爬虫一般老说具有反监测功能，以避免留下检索的痕迹。

S400，对所述安全情报数据进行数据形式判定，并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理，生成可读化情报数据，所述可读化数据处理为将所述安全情报数据进行类别统一化。

这一步骤是针对类别不同的安全情报数据进行转化处理而设置的，因安全情报数据的种类繁多，因此难以直接采用相同的分类处理方式进行识别分类，因此将安全情报数据进行转化，将不同类别的安全情报数据转化为相同的表达形式，例如可以将语音类信息转化为文字类信息，转化为相同类别的信息之后，便能够使用相同的判断标准对其进行判断和分类。

S600，根据关键信息提取规则对所述可读化情报数据进行关键信息提取，所述关键信息包括内容关键词以及内容关键句。

在这一步骤中，程序将对安全情报数据进行内容关键词和内容关键句进行提取，这里的关键词和关键句指的是能够直接或间接提现这一安全情报数据内容的词句，也是用来对安全情报数据进行分类的依据。

S800，根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定，并判断是否进行分类检索库迭代，根据所述分类判定结果对所述安全情报数据进行分类。

在这一步骤中，通过根据关键词和关键句对分类检索库进行比对分析，确定该条安全情报数据的类别，然后根据判断的过程，可能会得到额外不在分类检索库中的关键词和关键句且对于类别判断十分重要，此时便对分类检索库进行增量内容更新，以涵盖全新的安全情报数据类别及其相关的关键信息。

如图1所示，作为本发明一种优选的实施例，所述分类检索库包括：

901，数据类别，用于表征所述安全情报数据的类别。

这里，数据类别指的就是安全情报数据的分类。

902，模型关键词，用于表征所述数据类别的特征信息，每个所述数据类别对应至少一个模型关键词。

模型关键词是用于和内容关键词进行比对筛选数据类别的重要依据之一。

903，模型关键句，用于表征所述数据类别的特征信息，每个所述数据类别对应单一的模型关键句。

这里的模型关键句是用于和内容关键句进行比对筛选类别的重要依据之一，也是用来最终确定数据类别的主要依据，它可以是由多个字词组合而成的。

如图1和图3所述，作为本发明另一种优选的实施例，每个所述关键信息的内容关键词数量至少为两个，每个所述关键信息的内容关键句为一个，所述根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定，并判断是否进行分类检索库迭代，根据所述分类判定结果对所述安全情报数据进行分类的步骤具体包括：

S801，逐一获取所述可读化情报数据及与其相对应的关键信息。

S802，读取所述关键信息中的数个内容关键词。

S803，根据所述内容关键词对所述分类检索库中的所述模型关键词进行检索比对，生成检索比对结果，所述检索比对结果包含与所述内容关键词相符的所述模型关键词以及与所述模型关键词相对应的所述数据类别和所述模型关键句。

S804，读取所述检索比对结果中的模型关键句。

S805，根据多个所述模型关键句对所述内容关键句依次进行比对判定，若所述内容关键句与所述模型关键句的重合度达到预设百分比。

S806，所述可读化情报数据的分类为与所述模型关键句对应的数据类别。

以上步骤所执行的是对分类也就是数据类别进行初步筛选的步骤，可以参考图1所示，这一执行步骤就是检索符合条件的模型关键词902，以此指向该条安全情报数据可能属于的分类也就是数据类别901，因为在检索筛选的过程中可能会出现多项符合的模型关键词902，因此经由这多项模型关键词就会获得多个匹配的数据类别901，这多个数据类别901均可能会是符合该条安全情报数据的分类，也有可能均不符合该条安全情报数据的分类，因此，仍然需要对其进行进一步的确定，此时包含更多类别关键内容的模型关键句便起到了最终判定的作用，逐一根据这些数据类别对应的模型关键句对内容关键句进行判定，从而最终确定该条安全情报数据的分类，进一步来说，通过数据量较小的内容关键词进行快速检索，然后再对检索结构进行进一步筛选判定的方式，对于检索的效率和速度也是具有良好的提升的。

S807，若所述内容关键句与所述模型关键句的重合度未到预设百分比，则对所述分类检索库进行人工判断迭代。

在前述步骤执行时，还存在多个模型关键句均达不到符合要求也就是重合度未达到预设百分比，此时可以认为该条安全情数据息是未曾检索到的，且未曾检索到相似内容的全新安全情报数据，需要通过人工操作，以对分类检索库进行更新，增加新的安全情报数据的类别，也能够让相关人员第一时间了解到最新发现的安全情报数据，避免错过重要内容。

如图4所述，作为本发明另一种优选的实施例，所述对所述分类检索库进行人工判断迭代的步骤具体包括：

S8071，输出与所述可读化情报数据相对应的安全情报数据。

S8072，接收反馈信息，所述反馈信息包括数据类别信息。

S8073，根据所述数据类别信息以及与所述可读化情报数据相对应的内容关键词与所述内容关键句对所述分类检索库进行增量迭代，其中所述内容关键词用于生成所述数据类别的模型关键词，所述内容关键句用于生成所述数据类别的模型关键句。

这里，人工迭代的方式较为简单，只是将该条分类检索库无法分类的安全情报数据通过显示装置展示给相关人员，再由相关人员进行讨论设定全新的分类（甚至安全级别等），也就是反馈信息中的内容，然后再由设备对其进行存储记忆，达到更新迭代的目的。

如图5所述，作为本发明另一种优选的实施例，所述安全情报数据的类型包括文字数据、音频数据和图片数据，所述对所述安全情报数据进行数据形式判定，并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理，生成可读化情报数据的步骤包括：

S401，对所述安全情报数据的数据形式进行判定。

S402，若所述安全情报数据为文字数据时，则安全情报数据是可读化情报数据。

S403，若所述安全情报数据为音频数据，对所述安全情报数据执行智能语音转化程序，将所述音频数据转化为文字数据，生成可读化情报数据。

S404，若所述安全情报数据为图片数据，则对所述安全情报数据执行特征提取程序，将所述图片数据转化为文字数据，生成可读化情报数据。

在这一步骤中是对数据形式转化步骤的说明，这里举例说明了语音、图片类别的安全情报数据，且均以转化为文字类识别方式的可读化情报数据，其中语音类的最为方便，现有技术中拥有较多较为成熟的语音转文字的识别方法程序，直接对内容进行识别转换便可。

如图6所述，作为本发明另一种优选的实施例，所述将所述图片数据转化为文字数据的步骤具体包括：

S4041，对所述安全情报数据进行图像文字识别，读取所述图片数据中图片表面的文字数据。

S4042，对所述安全情报数据进行缩放并转化为灰度图像，并进行灰度值特征点标记。

S4043，根据所述灰度值特征点标记的灰度值数值生成图片文字数据，所述图片文字数据用于对图像进行特征检索。

S4044，根据所述文字数据与所述图片文字数据生成可读化情报数据。

这一步骤是对图片类安全情报数据进行转化的方式介绍，首先对图片上的文字进行内容识别，这也是十分重要的内容之一，然后便是对图片本身进行处理，转化为特征数据，可以理解为通过图片特征检索图片相类似的内容处理方式，这些携带了图片特征信息的特征数据即可以理解为用于检索比对的文字数据（对计算机而言），然后提取其特征作为可读化情报数据。

如图7所述，本发明还提供了一种网络安全情报数据的分类***，包括：

100，情报数据获取模块，用于检索待安全分析的网站，获取该所述网站中的安全情报数据。

300，数据类型转化模块，用于对所述安全情报数据进行数据形式判定，并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理，生成可读化情报数据。

500，关键信息提取模块，用于根据关键信息提取规则对所述可读化情报数据进行关键信息提取。

700，分类判定迭代模块，用于根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定，并判断是否进行分类检索库迭代，根据所述分类判定结果对所述安全情报数据进行分类。

具体的来说，所述数据类型转化模块包括：

301，数据类型判断单元，用于对所述安全情报数据的数据形式进行判定。

302，文字数据转换单元，用于根据所述安全情报数据内容生成可读化情报数据。

303，音频数据转换单元，用于对所述安全情报数据执行智能语音转化程序，将所述音频数据转化为文字数据，生成可读化情报数据。

304，图片数据转换单元，用于对所述安全情报数据执行特征提取程序，将所述图片数据转化为文字数据，生成可读化情报数据。

本发明还提供了一种网络安全情报数据的分类装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述网络安全情报数据的分类方法中的任一步骤。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种网络安全情报数据的分类方法，其特征在于，包含以下步骤：

2.根据权利要求1所述的网络安全情报数据的分类方法，其特征在于，所述分类检索库包括：

数据类别，用于表征所述安全情报数据的类别；

3.根据权利要求2所述的网络安全情报数据的分类方法，其特征在于，每个所述关键信息的内容关键词数量至少为两个，每个所述关键信息的内容关键句为一个，所述根据所述关键信息通过分类检索库对所述可读化情报数据进行分类判定，并判断是否进行分类检索库迭代，根据所述分类判定结果对所述安全情报数据进行分类的步骤具体包括：

逐一获取所述可读化情报数据及与其相对应的关键信息；

读取所述关键信息中的数个内容关键词；

读取所述检索比对结果中的模型关键句；

对所述分类检索库进行人工判断迭代。

4.根据权利要求3所述的网络安全情报数据的分类方法，其特征在于，所述对所述分类检索库进行人工判断迭代的步骤具体包括：

输出与所述可读化情报数据相对应的安全情报数据；

接收反馈信息，所述反馈信息包括数据类别信息；

5.根据权利要求1所述的网络安全情报数据的分类方法，其特征在于，所述安全情报数据的类型包括文字数据、音频数据和图片数据，所述对所述安全情报数据进行数据形式判定，并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理，生成可读化情报数据的步骤包括：

对所述安全情报数据的数据形式进行判定；

6.根据权利要求5所述的网络安全情报数据的分类方法，其特征在于，所述将所述图片数据转化为文字数据，生成可读化情报数据的步骤具体包括：

对所述安全情报数据进行图像文字识别，读取所述安全情报数据中图片数据的文字数据；

根据所述灰度值特征点标记的灰度值数值生成图片文字数据，所述图片文字数据用于对图像进行特征检索；

7.一种网络安全情报数据的分类***，其特征在于，包括：

数据类型转化模块，用于对所述安全情报数据进行数据形式判定，并根据所述数据形式判定结果对所述安全情报数据进行可读化数据处理，生成可读化情报数据，所述可读化数据处理为将所述安全情报数据进行类别统一化；

8.根据权利要求7所述的网络安全情报数据的分类***，其特征在于，所述安全情报数据的类型包括文字数据、音频数据和图片数据，所述数据类型转化模块包括：

9.一种网络安全情报数据的分类装置，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至6中任一项所述网络安全情报数据的分类方法的步骤。