CN109257369A

CN109257369A - 一种基于机器学习的扫描ip分类方法及装置

Info

Publication number: CN109257369A
Application number: CN201811227201.XA
Authority: CN
Inventors: 莫凡; 范渊; 李铭晖
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: DBAPPSecurity Co Ltd; Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2019-01-22
Anticipated expiration: 2038-10-22
Also published as: CN109257369B

Abstract

本发明提供了一种基于机器学习的扫描IP分类方法及装置，该方法包括：获取待分类扫描IP，并获取预设时间内待分类扫描IP的告警日志；按照预设特征提取规则对告警日志进行特征提取，得到待分类扫描IP的特征向量；将特征向量输入至扫描IP分类模型中进行分类，得到待分类扫描IP的分类结果。在本实施例中，通过提取待分类扫描IP的特征向量，并将特征向量输入至扫描IP分类模型确定待分类扫描IP的分类结果的方式不需要依赖IP库，时效性好，并且能够对新扫描IP进行分类，提高了对未知扫描IP的分类能力，缓解了现有的扫描IP分类方法时效性差，无法新扫描IP进行分类的技术问题。

Description

一种基于机器学习的扫描IP分类方法及装置

技术领域

本发明涉及网络安全的技术领域，尤其是涉及一种基于机器学习的扫描IP分类方法及装置。

背景技术

黑客通常通过扫描来获取要攻击目标的相关信息，如服务器版本，存在漏洞，可能的注入点等，然后根据这些信息再集中力量进行渗透，获取服务器权限或者影响服务器对外服务的质量等。扫描作为渗透攻击的前置步骤，不仅黑客常用，一些政府组织如监测单位等，也会利用扫描来提前发现威胁，从而指导用户进行针对性的安全预防措施。

对于用户来说，政府组织的扫描行为是备案的，合法的；而黑客组织的扫描行为是非备案的，非法的。所以，区分扫描IP的分类是政府组织还是黑客组织，能帮助用户判断真正的威胁，从而做出及时正确的响应。

传统的方法主要是通过黑客组织的IP情报库以及政府组织的备案IP库来进行匹配，这种方法虽然简单，但是时效性比较差，需要实时更新IP库，并且不能对不在IP库的新扫描IP进行分类。传统的方法面对日益增多的网络安全威胁，已经开始展现出疲态。

发明内容

有鉴于此，本发明的目的在于提供一种基于机器学习的扫描IP分类方法及装置，以缓解现有的扫描IP分类方法时效性差，无法对不在IP库的新扫描IP进行分类的技术问题。

第一方面，本发明实施例提供了一种基于机器学习的扫描IP分类方法，包括：

获取待分类扫描IP，并获取预设时间内所述待分类扫描IP的告警日志；

按照预设特征提取规则对所述告警日志进行特征提取，得到所述待分类扫描IP的特征向量，其中，所述特征向量中至少包括：攻击地域特征向量，触发规则ID特征向量，攻击次数特征向量，用户代理UA特征向量；

将所述特征向量输入至扫描IP分类模型中进行分类，得到所述待分类扫描IP的分类结果，其中，所述扫描IP分类模型为预先通过机器学习算法对样本进行训练得到的模型。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，按照预设特征提取规则对所述告警日志进行特征提取包括：

在所述告警日志中提取所述预设时间内的攻击地域数；

将所述攻击地域数与预设攻击地域数表进行匹配，得到所述攻击地域特征向量；

在所述告警日志中提取所述预设时间内的触发规则ID数；

将所述触发规则ID数与预设触发规则ID数表进行匹配，得到所述触发规则ID特征向量；

在所述告警日志中提取所述预设时间内的攻击次数；

将所述攻击次数与预设攻击次数表进行匹配，得到所述攻击次数特征向量；

在所述告警日志中提取用户代理UA；

将所述用户代理UA与预设用户代理UA表中的用户代理UA进行匹配，得到所述用户代理UA特征向量；

将所述攻击地域特征向量，所述触发规则ID特征向量，所述攻击次数特征向量和所述用户代理UA特征向量作为所述待分类扫描IP的特征向量。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，将所述特征向量输入至扫描IP分类模型中进行分类包括：

将所述特征向量输入所述扫描IP分类模型中，得到分类值；

如果所述分类值为1，则确定所述待分类扫描IP为政府组织扫描IP；

如果所述分类值为0，则确定所述待分类扫描IP为黑客组织扫描IP。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述方法还包括：

获取所述扫描IP分类模型的原始扫描IP分类模型；

获取政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合，其中，所述政府组织扫描IP训练样本集合中包括：多个政府组织扫描IP，每个所述政府组织扫描IP所对应的告警日志，所述黑客组织扫描IP训练样本集合中包括：多个黑客组织扫描IP，每个所述黑客组织扫描IP所对应的告警日志；

利用所述政府组织扫描IP训练样本集合和所述黑客组织扫描IP训练样本集合对所述原始扫描IP分类模型进行训练，得到所述扫描IP分类模型。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，利用所述政府组织扫描IP训练样本集合和所述黑客组织扫描IP训练样本集合对所述原始扫描IP分类模型进行训练包括：

按照所述预设特征提取规则分别对所述政府组织扫描IP所对应的告警日志和所述黑客组织扫描IP所对应的告警日志进行特征提取，得到每个所述政府组织扫描IP所对应的第一特征向量，以及每个所述黑客组织扫描IP所对应的第二特征向量；

为每个所述第一特征向量和每个所述第二特征向量分别添加特征标签，其中，所述特征标签用于表示其所对应的特征向量所属的分类；

将带有特征标签的第一特征向量和带有特征标签的第二特征向量输入至所述原始扫描IP分类模型中对所述原始扫描IP分类模型进行训练，得到所述扫描IP分类模型。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述原始扫描IP分类模型至少包括：支持向量机分类模型。

第二方面，本发明实施例还提供了一种基于机器学习的扫描IP分类装置，包括：

第一获取模块，用于获取待分类扫描IP，并获取预设时间内所述待分类扫描IP的告警日志；

特征提取模块，用于按照预设特征提取规则对所述告警日志进行特征提取，得到所述待分类扫描IP的特征向量，其中，所述特征向量中至少包括：攻击地域特征向量，触发规则ID特征向量，攻击次数特征向量，用户代理UA特征向量；

分类模块，用于将所述特征向量输入至扫描IP分类模型中进行分类，得到所述待分类扫描IP的分类结果，其中，所述扫描IP分类模型为预先通过机器学习算法对样本进行训练得到的模型。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述特征提取模块包括：

第一提取单元，用于在所述告警日志中提取所述预设时间内的攻击地域数；

第一匹配单元，用于将所述攻击地域数与预设攻击地域数表进行匹配，得到所述攻击地域特征向量；

第二提取单元，用于在所述告警日志中提取所述预设时间内的触发规则ID数；

第二匹配单元，用于将所述触发规则ID数与预设触发规则ID数表进行匹配，得到所述触发规则ID特征向量；

第三提取单元，用于在所述告警日志中提取所述预设时间内的攻击次数；

第三匹配单元，用于将所述攻击次数与预设攻击次数表进行匹配，得到所述攻击次数特征向量；

第四提取单元，用于在所述告警日志中提取用户代理UA；

第四匹配单元，用于将所述用户代理UA与预设用户代理UA表中的用户代理UA进行匹配，得到所述用户代理UA特征向量；

设定单元，用于将所述攻击地域特征向量，所述触发规则ID特征向量，所述攻击次数特征向量和所述用户代理UA特征向量作为所述待分类扫描IP的特征向量。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述分类模块包括：

输入单元，用于将所述特征向量输入所述扫描IP分类模型中，得到分类值；

第一确定单元，如果所述分类值为1，则确定所述待分类扫描IP为政府组织扫描IP；

第二确定单元，如果所述分类值为0，则确定所述待分类扫描IP为黑客组织扫描IP。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述装置还包括：

第二获取模块，用于获取所述扫描IP分类模型的原始扫描IP分类模型；

第三获取模块，用于获取政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合，其中，所述政府组织扫描IP训练样本集合中包括：多个政府组织扫描IP，每个所述政府组织扫描IP所对应的告警日志，所述黑客组织扫描IP训练样本集合中包括：多个黑客组织扫描IP，每个所述黑客组织扫描IP所对应的告警日志；

训练模块，用于利用所述政府组织扫描IP训练样本集合和所述黑客组织扫描IP训练样本集合对所述原始扫描IP分类模型进行训练，得到所述扫描IP分类模型。

本发明实施例带来了以下有益效果：

在本发明实施例中，首先获取待分类扫描IP，并获取预设时间内待分类扫描IP的告警日志；然后，按照预设特征提取规则对告警日志进行特征提取，得到待分类扫描IP的特征向量；最后，将特征向量输入至预先通过机器学习算法训练得到的扫描IP分类模型中进行分类，得到待分类扫描IP的分类结果。通过上述描述可知，在本实施例中，通过提取待分类扫描IP的特征向量，并将特征向量输入至扫描IP分类模型确定待分类扫描IP的分类结果的方式不需要依赖IP库，时效性好，并且能够对新扫描IP进行分类，提高了对未知扫描IP的分类能力，缓解了现有的扫描IP分类方法时效性差，无法新扫描IP进行分类的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于机器学习的扫描IP分类方法的流程图；

图2为本发明实施例提供的按照预设特征提取规则对告警日志进行特征提取的方法流程图；

图3为本发明实施例提供的将特征向量输入至扫描IP分类模型中进行分类的方法流程图；

图4为本发明实施例提供的训练扫描IP分类模型的方法流程图；

图5为本发明实施例提供的利用政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合对原始扫描IP分类模型进行训练的方法流程图；

图6为本发明实施例提供的一种基于机器学习的扫描IP分类装置。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于机器学习的扫描IP分类方法进行详细介绍。

实施例一：

根据本发明实施例，提供了一种基于机器学习的扫描IP分类方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种基于机器学习的扫描IP分类方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待分类扫描IP，并获取预设时间内待分类扫描IP的告警日志；

在本发明实施例中，该基于机器学习的扫描IP分类方法可应用于扫描IP分类***中，当获取到待分类扫描IP后，进一步从防火墙上获取预设时间内待扫描IP的告警日志。具体的，防火墙是指向提供商购买的防火墙服务或产品，预设时间内可以为当前时刻之前的一个月时间内，也可以为其它是时长，本发明实施例对其不进行具体限制。

需要说明的是：告警日志中至少包括：攻击地域的信息、触发规则ID的信息、攻击次数的信息和用户代理UA的信息。

步骤S104，按照预设特征提取规则对告警日志进行特征提取，得到待分类扫描IP的特征向量，其中，特征向量中至少包括：攻击地域特征向量，触发规则ID特征向量，攻击次数特征向量，用户代理UA特征向量；

在得到待分类扫描IP的告警日志后，进一步按照预设提取规则对告警日志进行特征提取，得到至少包含有攻击地域特征向量，触发规则ID特征向量，攻击次数特征向量，用户代理UA特征向量的特征向量。该特征向量能够反映待分类扫描IP的攻击地域特征，触发规则ID特征，攻击次数特征和用户代理UA特征，且上述特征与待分类扫描IP的类别强相关，所以基于该特征向量对待分类扫描IP进行后续分类的准确性好。

下文中再对特征提取的过程进行详细介绍。

步骤S106，将特征向量输入至扫描IP分类模型中进行分类，得到待分类扫描IP的分类结果，其中，扫描IP分类模型为预先通过机器学习算法对样本进行训练得到的模型。

在得到待分类扫描IP的特征向量后，将该特征向量输入至扫描IP分类模型中进行分类，扫描IP分类模型就能够根据该特征向量确定出待分类扫描IP的分类结果。

上述内容对本发明的基于机器学习的扫描IP分类方法进行了整体介绍，下面对其中涉及到的具体内容进行详细介绍。

下面先对特征提取的过程进行详细介绍，参考图2，在一个可选地实施方式中，按照预设特征提取规则对告警日志进行特征提取包括如下步骤：

步骤S201，在告警日志中提取预设时间内的攻击地域数；

在本发明实施例中，以预设时间为当前时刻之前的一个月时间为例进行说明。在一个月时间内的告警日志中提取待分类扫描IP在一个月时间内的攻击地域数。

步骤S202，将攻击地域数与预设攻击地域数表进行匹配，得到攻击地域特征向量；

在得到攻击地域数后，将攻击地域数与预设攻击地域数表进行匹配，就能得到攻击地域特征向量。

发明人通过对大量政府组织扫描IP和黑客组织扫描IP的研究发现，政府组织的扫描任务中，攻击地域数在短时间内一般不会超出省内范围，或跨越少数几个省。而黑客组织扫描任务中，攻击地域数在短时间内数量较多，即同一个时间跨度内跨越多个省。基于该特征，发明人预先定义了攻击地域数表(即预设攻击地域数表)，如表一所示：

表一

为了对攻击地域特征向量的确定过程有更好的理解，下面进行举例说明：比如，在告警日志中提取得到待分类扫描IP在一个月时间内的攻击地域数为2，那么将攻击地域数2与上述预设攻击地域数表进行匹配，确定得到2属于[1，2]，则其对应的维度(即第一维度)为1，而其它维度的值为0。这样，最终确定得到的该待分类扫描IP的攻击地域特征向量：V₁＝(1，0，0，0)。

步骤S203，在告警日志中提取预设时间内的触发规则ID数；

该过程与步骤S201中的过程相似，在此不再赘述。

步骤S204，将触发规则ID数与预设触发规则ID数表进行匹配，得到触发规则ID特征向量；

具体的，发明人通过对大量政府组织扫描IP和黑客组织扫描IP的研究发现，政府组织的扫描任务一般大而全，会触发较多的规则ID。而黑客组织的扫描任务则针对少数危害有比较大的漏洞，在同样的时间跨度内触发的规则ID相对少于政府组织触发的规则ID。基于该特征，发明人预先定义了触发规则ID数表(即预设触发规则ID数表)，如表二所示：

触发规则ID特征向量(V<sub>2</sub>)	触发规则ID数(个/月)	取值范围
			第1维	[1，20)	0/1
第2维	[20，40)	0/1
			第3维	40及以上	0/1

表二

关于触发规则ID特征向量的确定过程与步骤S202中攻击地域特征向量的确定过程相似，在此不再赘述。

步骤S205，在告警日志中提取预设时间内的攻击次数；

该过程与步骤S201中的过程相似，在此不再赘述。

步骤S206，将攻击次数与预设攻击次数表进行匹配，得到攻击次数特征向量；

具体的，发明人通过对大量政府组织扫描IP和黑客组织扫描IP的研究发现，政府组织的扫描任务经过报备，一般大而全，短时间内产生的攻击次数相对很多。而黑客组织的扫描任务则比较隐蔽，但是从一个较大的时间跨度来看其总攻击次数会高于政府组织。基于该特征，发明人预先定义了攻击次数表(即预设攻击次数表)，如表三所示：

攻击次数特征向量(V<sub>3</sub>)	攻击次数(次/月)	取值范围
			第1维	[1，10000)	0/1
第2维	[10000，100000)	0/1
			第3维	[100000，1000000)	0/1
第4维	100万及以上	0/1

表三

关于攻击次数特征向量的确定过程与步骤S202中攻击地域特征向量的确定过程相似，在此不再赘述。

步骤S207，在告警日志中提取用户代理UA；

该过程与步骤S201中的过程相似，在此不再赘述。

步骤S208，将用户代理UA与预设用户代理UA表中的用户代理UA进行匹配，得到用户代理UA特征向量；

具体的，发明人通过对大量政府组织扫描IP和黑客组织扫描IP的研究发现，政府组织的扫描任务中使用的用户代理UA与黑客组织的扫描任务中使用的用户代理UA有明显的差异，其中，黑客组织的用户代理UA有比较明显的人造特征及随机性，而政府组织的用户代理UA则比较正常，或带有某些安全扫描的标识。发明人通过对比，挑选出一些最具有差异的用户代理UA特征，定义了用户代理UA表(即预设用户代理UA表)，如表四所示：

表四

如果待分类扫描IP使用了相应的用户代理UA，则相应维度上的特征标记为1，否则记为0。这样，就得到了用户代理UA特征向量。

步骤S209，将攻击地域特征向量，触发规则ID特征向量，攻击次数特征向量和用户代理UA特征向量作为待分类扫描IP的特征向量。

在得到攻击地域特征向量，触发规则ID特征向量，攻击次数特征向量和用户代理UA特征向量后，将其上述所有向量组合作为待分类扫描IP的特征向量。具体的，待分类扫描IP的特征向量：V＝(V₁，V₂，V₃，V₄)，由前述描述可知，得到的待分类扫描IP的特征向量共计：4+3+4+17＝28维。

上述内容对特征提取的过程进行了详细介绍，下面对分类的过程进行具体描述。

在本发明的一个可选实施方式中，参考图3，将特征向量输入至扫描IP分类模型中进行分类包括如下步骤：

步骤S301，将特征向量输入扫描IP分类模型中，得到分类值；

步骤S302，如果分类值为1，则确定待分类扫描IP为政府组织扫描IP；

步骤S303，如果分类值为0，则确定待分类扫描IP为黑客组织扫描IP。

上述内容对基于机器学习的扫描IP分类方法进行了具体介绍，下面对训练扫描IP分类模型的过程进行具体描述。

在本发明的一个可选实施方式中，参考图4，该方法还包括如下步骤：

步骤S401，获取扫描IP分类模型的原始扫描IP分类模型；

在本发明实施例中，原始扫描IP分类模型至少包括：支持向量机分类模型。需要说明的是，本发明对上述原始扫描IP分类模型不进行具体限制，还可以为其它机器学习模型，比如，神经网络模型，朴素贝叶斯分类模型等。

步骤S402，获取政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合，其中，政府组织扫描IP训练样本集合中包括：多个政府组织扫描IP，每个政府组织扫描IP所对应的告警日志，黑客组织扫描IP训练样本集合中包括：多个黑客组织扫描IP，每个黑客组织扫描IP所对应的告警日志；

具体的，政府组织扫描IP可以从政府组织的备案IP中获得，黑客组织扫描IP可以从开源的黑客IP情报库中获得。同时获取每个政府组织扫描IP所对应的告警日志以及每个黑客组织扫描IP所对应的告警日志，对于告警日志可以从防火墙上获得，根据需求可以获取预设时间范围内的每个政府组织扫描IP所对应的告警日志和每个黑客组织扫描IP所对应的告警日志。这样，就得到了政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合。

步骤S403，利用政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合对原始扫描IP分类模型进行训练，得到扫描IP分类模型。

在得到政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合后，利用政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合对原始扫描IP分类模型进行训练，得到扫描IP分类模型。

在本发明的一个可选实施方式中，参考图5，利用政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合对原始扫描IP分类模型进行训练包括如下步骤：

步骤S501，按照预设特征提取规则分别对政府组织扫描IP所对应的告警日志和黑客组织扫描IP所对应的告警日志进行特征提取，得到每个政府组织扫描IP所对应的第一特征向量，以及每个黑客组织扫描IP所对应的第二特征向量；

具体的，特征提取的过程与上述步骤S201至步骤S209的过程相同，在此不再赘述。另外，得到的第一特征向量和第二特征向量中也都包含攻击地域特征向量，触发规则ID特征向量，攻击次数特征向量，用户代理UA特征向量，其也是一个28维的向量。

步骤S502，为每个第一特征向量和每个第二特征向量分别添加特征标签，其中，特征标签用于表示其所对应的特征向量所属的分类；

在得到多个第一特性向量和多个第二特征向量后，为每一个第一特征向量和每一个第二特征向量分别添加特征标签，该特征标签用于表示其所对应的特征向量所属的分类，也就是为每一个第一特征向量和每一个第二特征向量添加上政府组织的标签或黑客组织的标签。

步骤S503，将带有特征标签的第一特征向量和带有特征标签的第二特征向量输入至原始扫描IP分类模型中对原始扫描IP分类模型进行训练，得到扫描IP分类模型。

在得到带有特征标签的第一特征向量和带有特征标签的第二特征向量后，将带有特征标签的第一特征向量和带有特征标签的第二特征向量输入至原始扫描IP分类模型中，原始扫描IP分类模型中会根据上述带有特征标签的第一特征向量和带有特征标签的第二特征向量对其参数进行自动适应调整，最终得到精准的扫描IP分类模型。

在本发明的基于机器学习的扫描IP分类方法中，首先，通过对不同类别扫描IP的对比分析和特征探索，选取了一些比较有价值的特征，分别为攻击地域，触发规则ID，攻击次数，用户代理UA等，然后用机器学习算法进行训练，得到扫描IP分类模型，进而通过扫描IP分类模型对新的扫描IP进行分类，准确性好，同时提升了泛化能力，大大提高对未知扫描IP的分类能力。

实施例二：

本发明实施例还提供了一种基于机器学习的扫描IP分类装置，该基于机器学习的扫描IP分类装置主要用于执行本发明实施例上述内容所提供的基于机器学习的扫描IP分类方法，以下对本发明实施例提供的基于机器学习的扫描IP分类装置做具体介绍。

图6是根据本发明实施例的一种基于机器学习的扫描IP分类装置的示意图，如图6所示，该基于机器学习的扫描IP分类装置主要包括第一获取模块10，特征提取模块20和分类模块30，其中：

第一获取模块，用于获取待分类扫描IP，并获取预设时间内待分类扫描IP的告警日志；

特征提取模块，用于按照预设特征提取规则对告警日志进行特征提取，得到待分类扫描IP的特征向量，其中，特征向量中至少包括：攻击地域特征向量，触发规则ID特征向量，攻击次数特征向量，用户代理UA特征向量；

分类模块，用于将特征向量输入至扫描IP分类模型中进行分类，得到待分类扫描IP的分类结果，其中，扫描IP分类模型为预先通过机器学习算法对样本进行训练得到的模型。

可选地，特征提取模块包括：

第一提取单元，用于在告警日志中提取预设时间内的攻击地域数；

第一匹配单元，用于将攻击地域数与预设攻击地域数表进行匹配，得到攻击地域特征向量；

第二提取单元，用于在告警日志中提取预设时间内的触发规则ID数；

第二匹配单元，用于将触发规则ID数与预设触发规则ID数表进行匹配，得到触发规则ID特征向量；

第三提取单元，用于在告警日志中提取预设时间内的攻击次数；

第三匹配单元，用于将攻击次数与预设攻击次数表进行匹配，得到攻击次数特征向量；

第四提取单元，用于在告警日志中提取用户代理UA；

第四匹配单元，用于将用户代理UA与预设用户代理UA表中的用户代理UA进行匹配，得到用户代理UA特征向量；

设定单元，用于将攻击地域特征向量，触发规则ID特征向量，攻击次数特征向量和用户代理UA特征向量作为待分类扫描IP的特征向量。

可选地，分类模块包括：

输入单元，用于将特征向量输入扫描IP分类模型中，得到分类值；

第一确定单元，如果分类值为1，则确定待分类扫描IP为政府组织扫描IP；

第二确定单元，如果分类值为0，则确定待分类扫描IP为黑客组织扫描IP。

可选地，装置还包括：

第二获取模块，用于获取扫描IP分类模型的原始扫描IP分类模型；

第三获取模块，用于获取政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合，其中，政府组织扫描IP训练样本集合中包括：多个政府组织扫描IP，每个政府组织扫描IP所对应的告警日志，黑客组织扫描IP训练样本集合中包括：多个黑客组织扫描IP，每个黑客组织扫描IP所对应的告警日志；

训练模块，用于利用政府组织扫描IP训练样本集合和黑客组织扫描IP训练样本集合对原始扫描IP分类模型进行训练，得到扫描IP分类模型。

可选地，训练模块包括：

特征提取单元，用于按照预设特征提取规则分别对政府组织扫描IP所对应的告警日志和黑客组织扫描IP所对应的告警日志进行特征提取，得到每个政府组织扫描IP所对应的第一特征向量，以及每个黑客组织扫描IP所对应的第二特征向量；

添加单元，用于为每个第一特征向量和每个第二特征向量分别添加特征标签，其中，特征标签用于表示其所对应的特征向量所属的分类；

训练单元，用于将带有特征标签的第一特征向量和带有特征标签的第二特征向量输入至原始扫描IP分类模型中对原始扫描IP分类模型进行训练，得到扫描IP分类模型。

可选地，原始扫描IP分类模型至少包括：支持向量机分类模型。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例所提供的基于机器学习的扫描IP分类方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于机器学习的扫描IP分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，按照预设特征提取规则对所述告警日志进行特征提取包括：

在所述告警日志中提取所述预设时间内的攻击地域数；

在所述告警日志中提取所述预设时间内的触发规则ID数；

在所述告警日志中提取所述预设时间内的攻击次数；

在所述告警日志中提取用户代理UA；

3.根据权利要求1所述的方法，其特征在于，将所述特征向量输入至扫描IP分类模型中进行分类包括：

将所述特征向量输入所述扫描IP分类模型中，得到分类值；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述扫描IP分类模型的原始扫描IP分类模型；

5.根据权利要求4所述的方法，其特征在于，利用所述政府组织扫描IP训练样本集合和所述黑客组织扫描IP训练样本集合对所述原始扫描IP分类模型进行训练包括：

6.根据权利要求4所述的方法，其特征在于，所述原始扫描IP分类模型至少包括：支持向量机分类模型。

7.一种基于机器学习的扫描IP分类装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述特征提取模块包括：

第四提取单元，用于在所述告警日志中提取用户代理UA；

9.根据权利要求7所述的装置，其特征在于，所述分类模块包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：