CN110808947A

CN110808947A - 一种自动化的脆弱性量化评估方法及***

Info

Publication number: CN110808947A
Application number: CN201910898367.2A
Authority: CN
Inventors: 张颖君; 杨维永; 黄克振; 唐云善; 廖鹏; 连一峰
Original assignee: State Grid Corp of China SGCC; Institute of Software of CAS; State Grid Jiangsu Electric Power Co Ltd; NARI Group Corp; Nari Information and Communication Technology Co
Current assignee: State Grid Corp of China SGCC; Institute of Software of CAS; State Grid Jiangsu Electric Power Co Ltd; NARI Group Corp; Nari Information and Communication Technology Co
Priority date: 2019-05-23
Filing date: 2019-09-23
Publication date: 2020-02-18
Anticipated expiration: 2039-09-23
Also published as: CN110808947B

Abstract

本发明提供了一种自动化的脆弱性量化评估方法及***，通过对现有风险评估的信息进行研究，提取关键特征，并结合人工智能相关算法进行自动化的风险量化分析，客观反映脆弱性的影响大小，简化打分因素，并解决随着时间变化对风险评估产生的影响。本发明的优点在于，通过对CVSS打分进行学习，与网络搜索的客观结果相结合，自动化的得到脆弱性评估值，简化了打分步骤，降低了主观因素对评估结果的影响。

Description

一种自动化的脆弱性量化评估方法及***

技术领域

本发明主要涉及信息安全技术领域，更确切地是涉及一种自动化的脆弱性量化评估方法及***。

背景技术

当前，信息***需要进行风险评估来识别和分析潜在的安全威胁。风险评估是对信息***相关资产所面临的威胁、存在的弱点、造成的影响，以及三者综合作用所带来风险的可能性的评估。风险评估主要包括资产、威胁和脆弱性三方面。

脆弱性是网络或***中资产能被威胁所利用的弱点，脆弱性也称为漏洞，脆弱性的种类和数量繁多。风险评估很大程度上依据***相关脆弱点(即漏洞)带来的威胁进行打分。目前，对脆弱性评分有多种标准，如NVD漏洞评价标准、FrSIRT漏洞评价标准、X-Force漏洞评价标准等，各个标准对漏洞的打分也不相同。通用漏洞评分***(CommonVulnerability Scoring System，CVSS)，是由NIAC发布、FITST维护的开放式行业标准，其被设计用来评测脆弱性的严重程度，并帮助确定所需反应的紧急度和重要度。

CVSS是一个开放并且能够被产品厂商免费采用的标准，主要基于一系列维度上进行测量的结果。CVSS***包括三种类型的分数：基本分、暂时分和环境分。基本分和暂时分通常由安全产品卖主、供应商给出，因为他们能够更加清楚的了解漏洞的详细信息；环境得分通常由用户给出，因为他们能够在自己的使用环境下更好的评价该漏洞存在的潜在影响。

由于CVSS中一些指标具有不确定性和复杂性，会导致完全的定量分析困难，往往需要有经验的专家配合参与，因此，打分情况会受到专家经验的影响。而且暂时分通常是针对新型漏洞(如0day漏洞)，缺乏对漏洞全生命周期的监控。当漏洞被利用等信息发生变化时，不能及时对打分情况进行更新。例如，一个漏洞刚刚公布，则漏洞利用较难实现。但是随着时间的推移，网上越来越多的漏洞细节被进行讨论和分析，对漏洞利用的步骤也进行了详细说明，则漏洞利用会变得容易很多，而利用此漏洞进行攻击的可能性也会提高，风险值加大。因此，随着时间的变化，***的风险情况也会发生变化，而CVSS打分很难及时更新。

发明内容

针对上述问题，本发明的目的在于提供一种自动化的脆弱性量化评估方法及***，通过对现有风险评估的信息进行研究，提取关键特征，并结合人工智能相关算法进行自动化的风险量化分析，客观反映脆弱性的影响大小，简化打分因素，并解决随着时间变化对风险评估产生的影响。

根据以上目的，实现本发明的技术方案是：

一种自动化的脆弱性量化评估方法，包括以下步骤：

收集待评估的脆弱性信息，对该信息预处理后输入到脆弱性量化评估模型，输出结果即为该脆弱性的风险值；其中，

所述脆弱性量化评估模型的训练方法包括：

(1)将用于模型训练的脆弱性通过通用漏洞评分***(CVSS)进行标记，并收集该脆弱性的全部相关Web网页信息；

(2)从上述收集的网页信息中提取与该脆弱性相关的多个特征；

(3)基于所提取的特征，选取合适的机器学习算法训练模型。

进一步地，步骤(1)中还包括对收集到的Web网页信息进行聚类：

(1-1)基于N-Gram相似性比较方法，使用n个单词对每个Web网页内容进行分解，计算n个单词的哈希值，得到每个Web网页一系列哈希值；

(1-2)比较两个网页的哈希值判断其是否为相似网页：定义两个网页中相同的哈希值个数为n_s,哈希值个数较多的一个为n_all，相似性为s＝n_s/n_all；为s设置一个阈值，当大于该阈值时，即定义为两个网页相似；

(1-3)将相似网页合并为一组。

进一步地，步骤(2)中所述特征包括脆弱性名称、脆弱性类型、脆弱性影响范围、脆弱性公开时间、搜索返回的Web页面的个数、网页分组的个数、包含脆弱性利用的组的个数、包含脆弱性如何利用指令的组的个数和组中Web页面的平均长度。

进一步地，步骤(3)中采用朴素贝叶斯模型。

一种自动化的脆弱性量化评估***，包括：

信息收集模块：用于收集一个***脆弱性的全部相关Web网页信息；

特征提取模块：用于从收集的网页信息中提取与待评估脆弱性相关的多个特征；

脆弱性评估模块：将脆弱性相关特征向量输入到脆弱性量化评估模型，输出该脆弱性的风险值；其中，所述脆弱性量化评估模型基于机器学习算法，通过对CVSS标记的训练数据进行训练完成。

本发明的优点在于，通过对CVSS打分进行学习，与网络搜索的客观结果相结合，自动化的得到脆弱性评估值，简化了打分步骤，降低了主观因素对评估结果的影响。

附图说明

图1为***流程图。

具体实施方式

如图1所示，该技术为对***脆弱性自动化进行风险量化的方法。具体的实现方式如下：

1)数据预处理

首先对一个***脆弱性进行在线搜索，并收集相关的结果。通常情况下，结果包含很多网页，需要对相似的网络也进行聚类。例如搜索脆弱性CVE-2019-9601的信息，返回结果包含120个网页信息，而其中有一部分只是简单的转发，因此需要将重复的结果进行删减，得到不同网页的个数。

为了删减重复的网页，需要比较其相似性。使用N-Gram相似性比较方法。对于每个Web网页，使用n个单词将内容进行分解。然后计算n个单词的哈希值。因此，对于每个网页，可以得到一系列哈希值。因此，通过计算比较两个网页的哈希值就可以判断其是否为相似网页。具体而言，定义相同的哈希值个数为n_s，两个网页中哈希值个数较多的一个为n_all，因此相似性为s＝n_s/n_all。为s设置一个阈值，当大于阈值时，定义为两个网页相似，将相似的网页放在一个组中，避免后续重复计算。

例如，搜索“CVE-2017-8759”，返回的网页信息如下：

然后使用n单词进行划分，这里选择n＝5。因此，第一组单词为“This repocontains sample exploits”。然后，计算这5个单词的哈希值。使用MD5计算，得到“bd105d538aa2931bd711f3fd5ac81929”。然后，再获取5个单词作为一组“repo contains sampleexploits for”，使用类似方法计算哈希值。因此，这个网页可以得到一系列哈希值。然后，找到如下另外一个网页，也计算得到一系列哈希值，然后计算两组哈希值的相似性。从结果可知，这两个哈希值不同。

2)数据特征提取

通过对脆弱性提取特征(如表1所示)用来对风险值进行评估。其中，ID表示脆弱性名称，通常使用CVE号进行标识。Type表示脆弱性类型，如***脆弱性、数据库脆弱性、Web脆弱性等。Imp表示脆弱性影响范围，如***脆弱性中影响的***类型等，该信息可以从CVE相关信息中自动提取。Time表示脆弱性公开时间。np标识搜索脆弱性信息返回的Web网页的个数。例如，使用谷歌作为搜索引擎，返回的Web网页为22200个，证明该脆弱性很受关注，攻击者可以从中获取很多信息。Nup是Web网页组别的个数，即使用N-Gram对相似网页进行分组，所得的不同组别的个数。这个特征也能显示出脆弱性的关注程度。Nexp显示了包含可被利用脆弱性的组数。可被利用的脆弱性即攻击者有很大可能能够利用此脆弱性攻击成功。通过检查一个网页中是否包含一个链接添加附件(如.c,.zip,.rar等类型)。即使也存在一些错误，但是很大程度上可以简单直接用来判断脆弱性是否可以被利用。有些情况下，虽然Web页面中没有直接给出利用的方法，但是作者给出一些指令用来说明利用的具体方法，因此，Nins是用来标识包含指令来进行脆弱性利用的组的个数。如果一个Web页面中包含一些指令(如“eip”，“execution flow”，“exploits”等)，并且包含一些图片，认为是包含如何利用脆弱性的指令。Avelen用来标识组中页面的平均长度。因为包含攻击者如何利用脆弱性攻击细节的网页往往页面长度更长。通过这些特征，来进行风险计算。

表1用于脆弱性风险评估的特征

3)模型构建

主要采用一个训练模型用于预测，训练数据通过CVSS进行标记。在训练过程中，给一些脆弱性(CVEs)通过CVSS进行打分(采用CVSS 2.0标准)。CVSS对脆弱性评估的打分范围为0-10，分值越高代表脆弱性的威胁程度越大。本发明据此将其划分为5个严重等级：极低(0.0～1.9)、低(2.0～3.9)、中(4.0～5.9)、高(6.0～7.9)、紧急(8.0～10.0)。然后对每个脆弱性在线搜索，产生一系列特征T＝(ID,Type,Imp,Time,n_p，n_up，n_exp，n_ins，ave_len)。然后对特征进行预处理后，使用机器学习模型(如朴素贝叶斯模型)来训练。最后，对于一个新的脆弱性，可以利用模型对其风险值进行打分。数据量越大，模型的准确性越高。如果模型并不太准确，可以使用更多的数据进行训练，直到结果令专家满意。

在具体训练过程中，定义样本数据集D＝{d₁,d₂,…,d_n}，对应的特征属性集合为X＝{x₁,x₂,…,x_d}，类变量为Y＝{y₁,y₂,…,y_m}，即将D可以分为y_m个类别。对应本发明X为特征集合，对ID采用哈希算法x₁＝Η(ID)，可以将ID进行量化，映射到一个值；x₂＝H(Type)，对Type类型进行量化；x₃＝H(Imp)，对影响范围进行量化；x₄＝H(Time)，对时间进行量化；x₅＝n_p，x₆＝n_up，x₇＝n_exp，x₈＝n_ins，x₉＝ave_len。Y对应CVSS划分的5个严重等级，即y₁＝1,y₂＝2,…,y₅＝5。先通过训练集中的样本求得测试集中样本各特征的先验概率，再根据先验概率求得后验概率。其中x₁,x₂,…,x_d相互独立且随机，则Y的先验概率为P_prior＝P(Y)，Y的后验概率为P_post＝P(Y|X)，由朴素贝叶斯算法可得：

朴素贝叶斯基于各特征之间相互独立，在给定类别为y的情况下，可知，

则，

4)风险值计算

当利用模型对收集到的训练数据进行学习后，将待评估的脆弱性进行信息收集，并对相关信息预处理后，输入到该模型进行检测，得到的结果即为该脆弱性的风险值。之后，可以请专家对此风险值进行审核，并将结果进一步输入到训练集中进行学习，不断提高该模型的准确性。

5)应用

根据上述得到的最终评估结果可以作为风险评估的基础，此外，通过判断出该脆弱性威胁的优先等级，可以确定出脆弱性的修复顺序。

Claims

1.一种自动化的脆弱性量化评估方法，包括以下步骤：

收集待评估***脆弱性的全部相关Web网页信息；

从上述收集的网页信息中提取与脆弱性量化评估模型相对应的与该脆弱性相关的多个特征；

将上述特征输入脆弱性量化评估模型，得到量化的***脆弱性；其中，

所述脆弱性量化评估模型通过下述训练方法得到：

(1)将用于模型训练的已知***脆弱性进行标记，并收集该脆弱性的全部相关Web网页信息；

(3)基于所提取的特征通过机器学习算法进行训练，得到脆弱性量化评估模型。

2.如权利要求1所述的一种自动化的脆弱性量化评估方法，其特征在于，步骤(1)中还包括对收集到的Web网页信息进行聚类：

(1-2)比较两个网页的哈希值，判断其是否为相似网页：定义两个网页中相同的哈希值个数为ns，哈希值个数较多的一个为nall，相似性为s＝ns/nall；为s设置一个阈值，当大于该阈值时，即定义为两个网页相似；

(1-3)将相似网页合并为一组。

3.如权利要求1所述的一种自动化的脆弱性量化评估方法，其特征在于，将用于模型训练的脆弱性通过CVSS进行标记，CVSS对脆弱性的打分范围为0～10，划分为5个严重等级：分值0.0～1.9表示脆弱性威胁程度极低、2.0～3.9表示脆弱性威胁程度低、4.0～5.9表示脆弱性威胁程度中、6.0～7.9表示脆弱性威胁程度高、8.0～10.0表示脆弱性威胁程度紧急。

4.如权利要求1所述的一种自动化的脆弱性量化评估方法，其特征在于，步骤(2)中所述特征包括脆弱性名称、脆弱性类型、脆弱性影响范围、脆弱性公开时间、搜索返回的Web页面的个数、网页分组的个数、包含脆弱性利用的组的个数、包含脆弱性如何利用指令的组的个数和组中Web页面的平均长度。

5.如权利要求1所述的一种自动化的脆弱性量化评估方法，其特征在于，步骤(3)中采用朴素贝叶斯算法进行训练。

6.如权利要求1～5任一所述一种自动化的脆弱性量化评估方法在判断脆弱性威胁的优先等级以及确定脆弱性的修复顺序中的应用。

7.一种自动化的脆弱性量化评估***，包括：

脆弱性评估模块：将脆弱性相关特征向量输入到脆弱性量化评估模型，输出该脆弱性的风险值；其中，所述脆弱性量化评估模型基于机器学习算法，通过对标记的训练数据进行训练完成。

8.如权利要求7所述的一种自动化的脆弱性量化评估***，其特征在于，所述信息收集模块还包括对收集到的Web网页信息进行聚类。

9.如权利要求7所述的一种自动化的脆弱性量化评估***，其特征在于，所述特征提取模块提取的特征包括脆弱性名称、脆弱性类型、脆弱性影响范围、脆弱性公开时间、搜索返回的Web页面的个数、网页分组的个数、包含脆弱性利用的组的个数、包含脆弱性如何利用指令的组的个数和组中Web页面的平均长度。

10.如权利要求7所述的一种自动化的脆弱性量化评估***，其特征在于，所述脆弱性评估模块采用朴素贝叶斯算法进行训练。