CN116015800A

CN116015800A - 一种扫描器识别方法、装置、电子设备及存储介质

Info

Publication number: CN116015800A
Application number: CN202211616688.7A
Authority: CN
Inventors: 龙阳雨; 邓金城
Original assignee: Chengdu Knownsec Information Technology Co ltd
Current assignee: Chengdu Knownsec Information Technology Co ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-25

Abstract

本发明的实施例提供了一种涉及网络安全技术领域的扫描器识别方法、装置、电子设备及存储介质，所述方法包括：获取多个原始访问日志数据，并从多个所述原始访问日志数据中筛选出攻击日志数据。基于文本相似度判断所述攻击日志数据是否存在扫描行为。若是，则基于所述攻击日志数据构建访问特征信息。基于扫描器识别模型对所述访问特征信息进行识别，并将识别为扫描器的访问特征信息所对应的访问源地址进行屏蔽。本发明提供的扫描器识别方法，可以有效地增强扫描器识别能力，且提高扫描器识别的精准度。

Description

一种扫描器识别方法、装置、电子设备及存储介质

技术领域

本发明涉及网络安全技术领域，具体而言，涉及一种扫描器识别方法、装置、电子设备及存储介质。

背景技术

随着简单易用的网络扫描器的普及，采用扫描器进行网络攻击也变得容易起来。例如黑客可以利用扫描器对企业、政府等网站进行扫描，发现网站漏洞。因此，如何在网络访问过程中识别出访问源是否为恶意扫描器，以保护网站安全十分重要。

经发明人研究发现，现有的扫描器识别方式大多是基于特征关键字进行规则匹配，进而识别扫描器，识别能力弱，且准确率不高。

发明内容

本发明的目的包括，例如，提供了一种扫描器识别方法、装置、电子设备及存储介质，其能够至少部分解决上述技术问题。

本发明的实施例可以这样实现：

第一方面，本发明实施例提供了一种扫描器识别方法，所述方法包括：

获取多个原始访问日志数据，并从多个所述原始访问日志数据中筛选出攻击日志数据；

基于文本相似度判断所述攻击日志数据是否存在扫描行为；

若是，则基于所述攻击日志数据构建访问特征信息；

基于扫描器识别模型对所述访问特征信息进行识别，并将识别为扫描器的访问特征信息所对应的访问源地址进行屏蔽。

可选地，所述攻击日志数据中包括第一扫描数据包，所述基于文本相似度判断所述攻击日志数据是否存在扫描行为，包括：

获取所述第一扫描数据包；

基于文本相似度，将所述第一扫描数据包与预设扫描数据库中的第二扫描数据包进行匹配，将匹配成功的第一扫描数据包标记为相似扫描数据包；

判断所述相似扫描数据包占所述第一扫描数据包的比例是否大于预设阈值；

若是，则判定所述攻击日志数据存在所述扫描行为。

可选地，所述方法还包括：

基于所述识别为扫描器的访问特征信息所对应的相似扫描数据包，对所述预设扫描数据库进行更新。

可选地，所述基于所述识别为扫描器的访问特征信息所对应的相似扫描数据包，对所述预设扫描数据库进行更新，包括：

获取所述识别为扫描器的访问特征信息所对应的相似扫描数据包；

计算所述相似扫描数据包与所述第二扫描数据包的相似度系数；

将所述相似度系数低于预设相似度系数阈值的相似扫描数据包标记为潜在第二扫描数据包；

对所述潜在第二扫描数据包进行文本聚类，得到聚类簇；

判断所述聚类簇中的日志数据是否满足预设更新条件；

若是，则将满足所述预设更新条件的聚类簇所对应的相似扫描数据包添加至所述预设扫描数据库中，完成对所述预设扫描数据库的更新。

可选地，所述基于所述攻击日志数据构建访问特征信息，包括：

获取判定为存在所述扫描行为的攻击日志数据的访问日志；

基于所述访问日志，构建访问特征信息。

可选地，所述访问特征信息包括所述访问特征信息包括网站访问次数、网站访问个数、错误状态码占比、所述相似扫描数据包的个数以及访问时长中的一个或多个。

可选地，所述方法还包括构建所述扫描器识别模型的步骤，包括：

获取样本扫描器以及正常访问日志数据；

基于样本扫描器的指纹，筛选出所述样本扫描器的样本访问源地址；

将所述正常访问日志数据中的访问源地址标记为正常访问源地址；

基于二分类模型，采用所述样本访问源地址以及所述正常访问源地址进行模型训练，得到所述扫描器识别模型。

第二方面，本发明实施例提供了一种扫描器识别装置，所述扫描器识别装置包括：

原始访问日志数据筛选单元，用于获取多个原始访问日志数据，并从多个所述原始访问日志数据中筛选出攻击日志数据；

扫描行为判断单元，用于基于文本相似度判断所述攻击日志数据是否存在扫描行为；

访问特征信息构建单元，用于在所述攻击日志数据存在所述扫描行为时，基于所述攻击日志数据构建访问特征信息；

扫描器识别单元，用于基于扫描器识别模型对所述访问特征信息进行识别，并将识别为扫描器的访问特征信息所对应的访问源地址进行屏蔽。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在服务器实现上述任一项所述方法的步骤。

本发明实施例的有益效果包括，例如：

通过对原始访问日志数据进行筛选，得到攻击日志数据。然后判断筛选出的攻击日志数据是否存在扫描行为，对存在扫描行为的攻击日志数据构建访问特征信息，再将访问特征信息输入扫描器识别模型，最终识别出是否为扫描器。由于结合了多种筛选以及判断方式，并采用训练模型来识别，因此得到的识别结果更加准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种电子设备的架构图；

图2为本发明实施例提供的一种扫描器识别方法的步骤流程图；

图3为本发明实施例提供的一种扫描器识别模型训练的步骤流程图；

图4为本发明实施例提供的一种扫描器识别装置的架构图。

图标：100-电子设备；110-存储器；120-处理器；130-通信模块；300-扫描器识别装置；301-原始访问日志数据筛选单元；302-扫描行为判断单元；303-访问特征信息构建单元；304-扫描器识别单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

现有技术中，对于扫描器的识别一般有以下几种方式：

1、将非业务端口的进行标记，当IP(Internet Protocol Address，互联网协议地址)访问该类端口时候则将IP标记为可疑IP，当可疑IP访问非业务端口的量超过设定阈值时，则认为该IP为扫描器。

上述方式采用对网站端口标记的方法对扫描器进行识别，有较好的识别作用，但是其需要前期对网站足够熟悉及端口的标注工作，当一个新网站出现或者网站较多时候，需要较多的人力成本。

2、将扫描器行为特征抽象为条件转移过程，再基于有限状态机来识别扫描器。

上述方案基于抽象的转移矩阵进行扫描器识别，需要提前对已知扫描器行为有较好的理解，且可较好的识别出已知信息的扫描器，但其对新扫描器的识别能力弱。

3、将从用户访问网站的历史URL信息中抽取访问关键词，对访问关键词计算其异常得分，再基于异常得分来进行扫描器识别。

上述方式构建网站关键词进行的扫描器识别，但随着网站访问量增加，网站关键词也会出现一定增长，其对于关键词的存储及计算效率则会出现困难。

基于以上情况，本说明书实施例提供了一种扫描器识别方法、装置、电子设备以及存储介质，可有效缓解上述技术问题。

请参考图1，是本申请提供的一种电子设备100的方框示意图，电子设备100包括存储器110、处理器120及通信模块130。所述存储器110、处理器120以及通信模块130。各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器110用于存储程序或者数据。所述存储器110可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory，EEPROM)等。

处理器120用于读/写存储器中存储的数据或程序，并执行相应地功能。

通信模块130用于通过所述网络建立所述服务器与其它通信终端之间的通信连接，并用于通过所述网络收发数据。

应当理解的是，图1所示的结构仅为电子设备100的结构示意图，所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

对应地，本说明书实施例提供了一种扫描器识别方法，可以应用于电子设备100，所述方法包括如图2所示的以下步骤：

步骤S110：获取多个原始访问日志数据，并从多个所述原始访问日志数据中筛选出攻击日志数据。

步骤S120：基于文本相似度判断所述攻击日志数据是否存在扫描行为。

步骤S130：若是，则基于所述攻击日志数据构建访问特征信息。

步骤S140：基于扫描器识别模型对所述访问特征信息进行识别，并将识别为扫描器的访问特征信息所对应的访问源地址进行屏蔽。

首先执行步骤S110，获取多个原始访问日志数据，并从多个所述原始访问日志数据中筛选出攻击日志数据。

原始访问日志数据可以是对网站进行访问的初始的访问日志，当获取到原始访问日志数据后，可以通过防火墙等对原始访问日志数据进行筛选，将原始访问日志数据中存在异常访问行为的筛选出来，作为攻击日志数据。

由于防火墙是基于规则等方式对用户访问的流量数据进行识别、过滤的装置。其可以让正常访问行为通过，对异常访问行为则进行拦截。因此，可以将原始访问日志数据中存在异常访问行为的日志数据作为攻击日志数据。

执行步骤S120：基于文本相似度判断所述攻击日志数据是否存在扫描行为。

筛选出攻击日志数据后，可以将攻击日志数据进行解析，得到攻击日志数据中的各种文本信息，然后通过预设的对照文本信息与攻击日志数据中的文本信息进行比对，判断攻击日志数据中的文本信息与对照文本信息的文本相似度，将文本相似度高于一定阈值的文本信息所对应的攻击日志数据判定为存在扫描行为。

获取所述第一扫描数据包。

基于文本相似度，将所述第一扫描数据包与预设扫描数据库中的第二扫描数据包进行匹配，将匹配成功的第一扫描数据包标记为相似扫描数据包。

判断所述相似扫描数据包占所述第一扫描数据包的比例是否大于预设阈值。

若是，则判定所述攻击日志数据存在所述扫描行为。

扫描数据包为扫描器在对网站进行漏洞扫描时候，对网站发送的数据包(如在URL后面添加“/cache/backup/”来检测TxExam敏感信息泄漏的漏洞)。

第一扫描数据包可以是攻击日志数据中的扫描数据包，第二扫描数据包可以是预设扫描数据库中的扫描数据包，预设扫描数据库可以是存储有已经识别的扫描数据包的数据库。

获取到攻击日志数据中的第一扫描数据包后，可以将其与预设扫描数据库中的第二数据包进行文本相似度匹配。例如匹配访问URL、Cookie、User_Agent等数据的文本相似度，大于一定相似度阈值的则为匹配成功。将匹配成功的第一扫描数据包标记为相似扫描数据包。再判断相似扫描数据包的数量占所有第一扫描数据包的比例是否大于预设阈值，如果是，则判定攻击日志数据存在扫描行为。

执行步骤S130，若是，则基于所述攻击日志数据构建访问特征信息。

将步骤S120中判定为存在扫描行为的攻击日志数据进行行为特征向量(即访问特征信息)的构建，为步骤S140中模型识别提供输入数据。

获取判定为存在所述扫描行为的攻击日志数据的访问日志。基于所述访问日志，构建访问特征信息。

攻击日志数据的访问日志可以是IP、用户代理、访问网站域名、访问URL链接、访问URL状态码等数据，根据这些数据可以构建多个访问特征信息，例如根据访问网站域名构建网站访问个数的访问特征信息等。

作为一种可选的实施例，所述访问特征信息包括所述访问特征信息包括网站访问次数、网站访问个数、错误状态码占比、所述相似扫描数据包的个数以及访问时长中的一个或多个。

其中，网站访问次数可以是访问源当天访问网站总次数；网站访问个数可以是访问源访问域名个数去重；错误状态码占比可以是错误状态码(状态码400及以上)个数/总访问PV；相似扫描数据包的个数可以是日志数据中与扫描数据特征库相似数据量；访问时长可以是当天访问网站结束时间-访问网站开始时间的时长。

执行步骤S140，基于扫描器识别模型对所述访问特征信息进行识别，并将识别为扫描器的访问特征信息所对应的访问源地址进行屏蔽。

将步骤S130构建好的访问特征信息输入训练好的扫描器识别模型中进行扫描器识别，将识别结果为扫描器的访问特征信息对应的访问源地址进行屏蔽，以达到网站防护的效果。

可选地，所述方法还包括构建所述扫描器识别模型的步骤，包括如图3所示的以下子步骤：

子步骤S210：获取样本扫描器以及正常访问日志数据。

子步骤S220：基于样本扫描器的指纹，筛选出所述样本扫描器的样本访问源地址。

子步骤S230：将所述正常访问日志数据中的访问源地址标记为正常访问源地址。

子步骤S240：基于二分类模型，采用所述样本访问源地址以及所述正常访问源地址进行模型训练，得到所述扫描器识别模型。

样本扫描器可以是***中已经存储的扫描器，正常访问日志数据可以是正常的网站访问用户的访问数据。由于部分开源扫描器是有对应的特征信息的，如sqlmap扫描器，其访问URL或者User_Agent中就含有“sqlmap”。因此，可以将样本扫描器的相关识别特征也可以作为该样本扫描器的样本扫描器指纹。同时，对正常访问日志数据中的访问源地址进行标记，标记为正常访问源地址。然后采用样本访问源地址和正常访问源地址输入一个二分类模型中进行模型训练，将训练完成后得到的模型作为扫描器识别模型。

可选地，所述方法还包括：基于所述识别为扫描器的访问特征信息所对应的相似扫描数据包，对所述预设扫描数据库进行更新。

在扫描器识别模型识别出扫描器后，可以将识别结果作为新的扫描器数据对预设扫描数据库进行更新，从而对预设扫描数据库进行丰富，进一步提升新的扫描器的识别能力。

作为一种可选的实施例，所述基于所述识别为扫描器的访问特征信息所对应的相似扫描数据包，对所述预设扫描数据库进行更新，包括：

对所述潜在第二扫描数据包进行文本聚类，得到聚类簇；

判断所述聚类簇中的日志数据是否满足预设更新条件；

首先获取被扫描器识别模型识别为扫描器的访问特征信息所对应的相似扫描数据包，计算所述相似扫描数据包与第二扫描数据包的相似度系数，例如夹角余弦相似度。再将相似度系数低于预设相似度系数阈值的相似扫描数据包标记为潜在第二扫描数据包，潜在第二扫描数据包即可能被添加到预设扫描数据库中的第一扫描数据包。

然后对潜在第二扫描数据包进行文本聚类(例如DBSACAN)，得到聚类簇，判断聚类簇中的日志数据是否满足预设更新条件；若是，则将满足预设更新条件的聚类簇所对应的相似扫描数据包添加至所述预设扫描数据库中，完成对所述预设扫描数据库的更新。其中，预设更新条件可以人工设置的针对不同扫描包数据条件。

基于同一发明构思，如图4所示，本发明说明书实施例提供了一种扫描器识别装置300，包括：

原始访问日志数据筛选单元301，用于获取多个原始访问日志数据，并从多个所述原始访问日志数据中筛选出攻击日志数据。

扫描行为判断单元302，用于基于文本相似度判断所述攻击日志数据是否存在扫描行为。

访问特征信息构建单元303，用于在所述攻击日志数据存在所述扫描行为时，基于所述攻击日志数据构建访问特征信息。

扫描器识别单元304，用于基于扫描器识别模型对所述访问特征信息进行识别，并将识别为扫描器的访问特征信息所对应的访问源地址进行屏蔽。

关于上述扫描器识别装置300，其中各个单元的具体功能已经在本说明书提供的扫描器识别方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本发明说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文扫描器识别方法的任一方法的步骤。

本发明至少包括以下有益效果：

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种扫描器识别方法，其特征在于，所述方法包括：

基于文本相似度判断所述攻击日志数据是否存在扫描行为；

若是，则基于所述攻击日志数据构建访问特征信息；

2.如权利要求1所述的扫描器识别方法，其特征在于，所述攻击日志数据中包括第一扫描数据包，所述基于文本相似度判断所述攻击日志数据是否存在扫描行为，包括：

获取所述第一扫描数据包；

若是，则判定所述攻击日志数据存在所述扫描行为。

3.如权利要求2所述的扫描器识别方法，其特征在于，所述方法还包括：

4.如权利要求3所述的扫描器识别方法，其特征在于，所述基于所述识别为扫描器的访问特征信息所对应的相似扫描数据包，对所述预设扫描数据库进行更新，包括：

对所述潜在第二扫描数据包进行文本聚类，得到聚类簇；

判断所述聚类簇中的日志数据是否满足预设更新条件；

若是，则将满足所述预设更新条件的聚类簇所对应的的相似扫描数据包添加至所述预设扫描数据库中，完成对所述预设扫描数据库的更新。

5.如权利要求2所述的扫描器识别方法，其特征在于，所述基于所述攻击日志数据构建访问特征信息，包括：

获取判定为存在所述扫描行为的攻击日志数据的访问日志；

基于所述访问日志，构建访问特征信息。

6.如权利要求5所述的扫描器识别方法，其特征在于，所述访问特征信息包括所述访问特征信息包括网站访问次数、网站访问个数、错误状态码占比、所述相似扫描数据包的个数以及访问时长中的一个或多个。

7.如权利要求1所述的扫描器识别方法，其特征在于，所述方法还包括构建所述扫描器识别模型的步骤，包括：

获取样本扫描器以及正常访问日志数据；

8.一种扫描器识别装置，其特征在于，所述扫描器识别装置包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1～7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在服务器实现权利要求1～7任一项所述方法的步骤。