CN112380406B

CN112380406B - 一种基于爬虫技术的实时网络流量分类方法

Info

Publication number: CN112380406B
Application number: CN202011274274.1A
Authority: CN
Inventors: 童瀛; 周宇; 梁剑
Original assignee: Hangzhou Guangxin Technology Co ltd
Current assignee: Hangzhou Guangxin Technology Co ltd
Priority date: 2020-11-15
Filing date: 2020-11-15
Publication date: 2022-11-18
Anticipated expiration: 2040-11-15
Also published as: CN112380406A

Abstract

本发明公开了一种基于爬虫技术的实时网络流量分类方法，包括获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值，根据因子加权求和计算法对所述特征向量进行计算，获得权重和，当所述权重和大于所述阈值时，获取所述数据源中的所述一般特征值，基于所述一般特征值对实时网络流量进行分类，本发明通过精心设计的爬虫算法针对互联网特定类型的数据进行的过滤和筛选，提取出所需要分类的对象的特征信息，并实时更新入数据库中，并在简单分析报文的基础上对特征进行匹配即可快速的对网络流量进行分类，即提高了网络流量的分类的实时性，也保证了网络流量的精准度。

Description

一种基于爬虫技术的实时网络流量分类方法

技术领域

本发明涉及数据识别领域，尤其涉及一种基于爬虫技术的实时网络流量分类方法。

背景技术

随着网络技术发展,网络在社会日常生产生活的权重越来越高。同时,维护网络空间安全与网络恶意攻击活动之间一直处于相互博弈的过程,木马、计算机蠕虫、拒绝服务等网络攻击越来越频繁,严重影响到人们对网络的正常使用。网络流量识别技术作为网络安全的基础,对保障网络合理运行、维护信息安全具有重要作用。一方面,通过对流量的精准识别可以减少不必要的网络连接,规避网络攻击风险。另一方面,网络管理者通过流量识别能够合理有效地分配网络资源,

提供更好的网络服务。网络流量识别技术从互联网诞生开始,伴随着人们网络安全意识的提高,经历了由简到繁的发展过程。

目前广泛使用的基于模式匹配的DPI技术,以及基于流统计特征和机器学***衡,采用单一的识别技术已经难以满足当前高速复杂网络的需求。

发明内容

本发明提供的一种基于爬虫技术的实时网络流量分类方法，旨在解决现有技术中采用单一的识别技术已经难以精准识别实时网络流量并能够准确分类的问题。

为实现上述目的，本发明采用以下技术方案：

获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值；

根据因子加权求和计算法对所述特征向量进行计算，获得权重和，具体包括以下步骤：

a、获取所述关键字特征库，所述关键字特征库还包括关键字和权重；

b、将所述数据源与所述关键字遍历匹配，获得匹配相符的所述特征向量；

c、将所述特征向量输入至计算公式∑(aw+b)>θ，得到所述权重和θ₁, 其中,w为权重,θ为阈值,a为特征向量对应比例系数，b为初始预估值；

当所述权重和大于所述阈值时，获取所述数据源中的所述一般特征值，基于所述一般特征值对实时网络流量进行分类，具体包括以下步骤：

d、当所述权重和大于所述阈值时，将所述数据源进行分类；

e、获取所述数据源中的所述一般特征值，并根据所述一般特征值建立特征数据库；

f、基于所述特征数据库对所述实时网络流量进行分类；

g、当所述权重和小于或等于所述阈值时,返回至所述关键字特征库再次匹配。

获取数据源中的所有特征向量，从数据库中获取关键字，并将所有特征向量与关键字匹配，匹配符合得到匹配成功的特征向量，从数据库中获取与所述特征向量匹配上的关键字对应的权重、阈值，根据因子加权求和计算法对所述特征向量进行计算，得到权重和，将所述权重和与阈值相比较，若权重和大于阈值，则认为该数据源属于某一分类，再获取数据源中的一般特征值，用以建立特征数据库，用特征数据库参与流量网络的分类。

作为优选，获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值，包括：

根据爬虫技术获取所述数据源中的所述特征向量。

一种基于爬虫技术的实时网络流量分类装置，包括：

获取模块：用于获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值；

处理模块：用于根据因子加权求和计算法对所述特征向量进行计算，获得权重和；

分类模块：用于当所述权重和大于所述阈值时，获取所述数据源中的所述一般特征值，基于所述一般特征值对实时网络流量进行分类；

其中，所述处理模块具体包括：

第三获取单元：用于获取所述关键字特征库，所述关键字特征库还包括关键字和权重；

匹配单元：用于将所述数据源与所述关键字遍历匹配，获得匹配相符的所述特征向量；

计算单元：用于将所述特征向量输入至计算公式∑(aw+b)>θ，得到所述权重和θ₁,其中,w为权重,θ为阈值,a为特征向量，b为预估初始值；

所述分类模块具体包括：

第一分类单元：用于当所述权重和大于所述阈值时，将所述数据源进行分类；

建立单元：用于获取所述数据源中的所述一般特征值，并根据所述一般特征值建立特征数据库；

第二分类单元：用于基于所述特征数据库对所述实时网络流量进行分类；

匹配子单元：用于当所述权重和小于或等于所述阈值时,返回至所述关键字特征库再次匹配。

作为优选，所述获取模块具体包括：

第一获取单元：用于根据爬虫技术获取所述数据源中的所述特征向量。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种基于爬虫技术的实时网络流量分类方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述中任一项所述的一种基于爬虫技术的实时网络流量分类方法。

本发明具有如下有益效果：

通过精心设计的爬虫算法针对互联网特定类型的数据进行的过滤和筛选，提取出所需要分类的对象的特征信息，并实时更新入数据库中，并在简单分析报文的基础上对特征进行匹配即可快速的对网络流量进行分类，即提高了网络流量的分类的实时性，也保证了网络流量的精准度。

附图说明

图1是本发明实施例实现一种基于爬虫技术的实时网络流量分类方法第一流程图；

图2是本发明实施例实现一种基于爬虫技术的实时网络流量分类方法第二流程图；

图3是本发明实施例实现一种基于爬虫技术的实时网络流量分类方法第三流程图；

图4是本发明实施例实现一种基于爬虫技术的实时网络流量分类方法第四流程图；

图5是本发明实施例实现一种基于爬虫技术的实时网络流量分类方法具体实施流程图。

图6是本发明实施例实现一种基于爬虫技术的实时网络流量分类装置示意图；

图7是本发明实施例实现一种基于爬虫技术的实时网络流量分类装置的获取模块示意图；

图8是本发明实施例实现一种基于爬虫技术的实时网络流量分类装置的处理模块示意图；

图9是本发明实施例实现一种基于爬虫技术的实时网络流量分类装置的输出模块示意图；

图10是本发明实施例实现一种基于爬虫技术的实时网络流量分类装置的具体实施流程图；

图11是本发明实施例实现一种基于爬虫技术的实时网络流量分类装置的一种电子设备示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合具体实施例举一个实际的例子：

以赌博网站为例，由于网站的特殊性，往往大多数的赌博网站为https的加密报文，因此整个流程分为两个部分，第一部分为主动学习部分，通过爬虫爬取赌网站获取网站的关键字(如"金沙","太阳城","威尼斯","乐游","龙城", "亚星"等)，并根据关键字从关键字数据库获取相对应的w，a，b并进行加权求和之后与θ进行对比，大于θ则认为该网站为赌博网站，并将网站所对应的一般特征值(ip、mac、port、域名)写入特征数据库，用于进行分类。

第二部分为分类过程，在建立起了特征数据库之后，便可以对网络流量中的报文进行分类，通过提取报文中的ip、mac、port、域名等信息与特征数据库中对应的特征进行对比，在全部符合要求后就可以直接进行的流量分类。

实施例1

如图1所示，一种基于爬虫技术的实时网络流量分类方法，包括以下步骤：

S110、获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值；

S120、根据因子加权求和计算法对所述特征向量进行计算，获得权重和；

S130、当所述权重和大于所述阈值时，获取所述数据源中的所述一般特征值，基于所述一般特征值对实时网络流量进行分类。

通过精心设计的爬虫算法针对互联网特定类型的数据进行的过滤和筛选，提取出所需要分类的对象的特征信息，并实时更新入数据库中，并在简单分析报文的基础上对特征进行匹配即可快速的对网络流量进行分类，即提高了网络流量的分类的实时性，也保证了网络流量的精准度，只需提取少部分关键字段就可以获得较好的分类结果，显著的提高了网络流量分类功能的吞吐量，可以较好的满足流量分类的实时性。

实施例2

如图2所示，一种基于爬虫技术的实时网络流量分类方法，包括：

S210、获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值；

S220、根据爬虫技术获取所述数据源中的所述特征向量；

S230、根据因子加权求和计算法对所述特征向量进行计算，获得权重和；

S240、当所述权重和大于所述阈值时，获取所述数据源中的所述一般特征值，基于所述一般特征值对实时网络流量进行分类。

由实施例2可知，根据爬虫技术获取特征数据，这样获取的关键字更全面，爬虫技术的主动学习算法，主要是通过在爬虫爬取数据的过程中获取数据源中得关键字并与数据库中的预设关键字进行对比，并通过关键字得权重值总得分来对爬取的网络特征数据进行的识别和分类。

实施例3

如图3所示，一种基于爬虫技术的实时网络流量分类方法，包括：

S310、获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值；

S320、获取所述关键字特征库，所述关键字特征库还包括关键字和权重；

S330、将所述数据源与所述关键字遍历匹配，获得匹配相符的所述特征向量；

S340、将所述特征向量输入至计算公式∑(aw+b)>θ，得到所述权重和θ₁,其中,w为权重,θ为阈值,a为特征向量对应比例系数，b为初始预估值；

S350、当所述权重和大于所述阈值时，获取所述数据源中的所述一般特征值，基于所述一般特征值对实时网络流量进行分类。

实施例3中，爬虫算法采用了因子加权求和计算法，即∑(aw+b)>θ, 通过历史经验预先存储好关键字、权值和阈值，经爬虫爬取数据源获取的数据与关键字进行对比，当有关键字匹配上之后则进行加权计算，最终对所有的关键字权值进行求和，并判断其是否大于某个分类的阈值，一个关键字对应某一种分类有对应的权重和阈值(每个关键字的权值设置不一定相同)，即多个分类对应的一个关键字会有多个权重和阈值，在确定某一数据源是归为某一分类时，则提取该数据源的明文部分(加密数据包和非加密的数据包都有明文的字段)，如ip、 mac、port、http域名等特征值。

如图4所示，一种基于爬虫技术的实时网络流量分类方法，包括：

S410、当所述权重和大于所述阈值时，将所述数据源进行分类；

S420、获取所述数据源中的所述一般特征值，并根据所述一般特征值建立特征数据库；

S430、基于所述特征数据库对所述实时网络流量进行分类；

S440、当所述权重和小于或等于所述阈值时,返回至所述关键字特征库再次匹配。

实施例4中，判断其是否大于某个分类的阈值，一个关键字对应某一种分类有对应的权重和阈值(每个关键字的权值设置不一定相同)，即多个分类对应的一个关键字会有多个权重和阈值，在确定某一数据源是归为某一分类时，则提取该数据源的明文部分(加密数据包和非加密的数据包都有明文的字段)，如ip、 mac、port、http域名等特征值，当判断小于某个分类的阈值时，则返回至关键字数据库重新匹配。

实施例5

如图5所示，一种具体的实施方式可为：

S510、获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值；

通过精心设计的爬虫算法针对互联网特定类型的数据进行的过滤和筛选，提取出所需要分类的对象的特征信息，并实时更新入数据库中，并在简单分析报文的基础上对特征进行匹配即可快速的对网络流量进行分类。

S520、根据因子加权求和计算法对所述特征向量进行计算，获得权重和；

爬虫算法采用了因子加权求和计算法，即∑(aw+b)>θ,通过历史经验预先存储好关键字、权值和阈值，经爬虫爬取数据源获取的数据与关键字进行对比，当有关键字匹配上之后则进行加权计算，其中a表示特征向量对应比例系数，如a为0表示没有匹配上，a为0.1表示配上但相关性弱，a为1表示匹配上相关性强，最终对所有的关键字权值进行求和，并判断其是否大于某个分类的阈值，一个关键字对应某一种分类有对应的权重和阈值(每个关键字的权值设置不一定相同)，即多个分类对应的一个关键字会有多个权重和阈值，在确定某一数据源是归为某一分类时，则提取该数据源的明文部分(加密数据包和非加密的数据包都有明文的字段)，如ip、mac、port、http域名等特征值。

S530、当所述权重和大于所述阈值时，获取所述数据源中的所述一般特征值，基于所述一般特征值对实时网络流量进行分类。

判断其是否大于某个分类的阈值，一个关键字对应某一种分类有对应的权重和阈值(每个关键字的权值设置不一定相同)，即多个分类对应的一个关键字会有多个权重和阈值，在确定某一数据源是归为某一分类时，则提取该数据源的明文部分(加密数据包和非加密的数据包都有明文的字段)，如ip、mac、port、 http域名等特征值，当判断小于某个分类的阈值时，则返回至关键字数据库重新匹配。

实施例6

如图6所示，一种基于爬虫技术的实时网络流量分类装置，包括：

获取模块10：用于获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值；

处理模块20：用于根据因子加权求和计算法对所述特征向量进行计算，获得权重和；

分类模块30：用于当所述权重和大于所述阈值时，获取所述数据源中的所述一般特征值，基于所述一般特征值对实时网络流量进行分类。

上述装置的一种实施方式可为：获取模块10获取数据源和关键字特征库，处理模块20根据获取模块10获取的关键字特征库中的阈值、权重和关键字以及数据源中的特征向量，根据因子加权求和计算法对特征向量进行计算，获得权重和，分类模块30将权重和和阈值比较，进行分类。

实施例7

如图7所示，一种基于爬虫技术的实时网络流量分类装置的获取模块10 包括：

第一获取单元12：用于根据爬虫技术获取所述数据源中的所述特征向量。上述装置的获取模块10的一种实施方式可为：第一获取单元12获取特征源中的特征向量。

实施例8

如图8所示，一种基于爬虫技术的实时网络流量分类装置的处理模块20 包括：

第三获取单元22：用于获取所述关键字特征库，所述关键字特征库还包括关键字和权重；

匹配单元24：用于将所述数据源与所述关键字遍历匹配，获得匹配相符的所述特征向量；

计算单元26：用于将所述特征向量输入至计算公式∑(aw+b)>θ，得到所述权重和θ₁,其中,w为权重,θ为阈值,a为特征向量，b为预估初始值。

上述装置的处理模块20的一种实施方式可为：第三获取单元22获取关键字特征库中的关键字、权重、阈值，匹配单元24将所述数据源与所述关键字遍历匹配，获得匹配相符的所述特征向量，计算单元26基于获取的关键字、权重、阈值，进行计算。

实施例9

如图9所示，一种基于爬虫技术的实时网络流量分类装置的分类模块30 包括：

第一分类单元32：用于当所述权重和大于所述阈值时，将所述数据源进行分类；

建立单元34：用于获取所述数据源中的所述一般特征值，并根据所述一般特征值建立特征数据库；

第二分类单元36：用于基于所述特征数据库对所述实时网络流量进行分类；匹配子单元38：用于当所述权重和小于或等于所述阈值时,返回至所述关键字特征库再次匹配。

上述装置的分类模块30的一种实施方式可为：第一分类单元32对数据源的分类，建立单元34当数据源分类完成后获取数据源中的一般特征值，用以建立特征数据库，第二分类单元36用特征数据库对网络流量进行分类，匹配子单元38当匹配未成功再返回关键字特征库再次进行匹配。

实施例10

如图10所示，一种具体的实施装置可为：

S1010、获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值；

通过精心设计的爬虫算法针对互联网特定类型的数据进行的过滤和筛选，提取出所需要分类的对象的特征信息，并实时更新入数据库中，并在简单分析报文的基础上对特征进行匹配即可快速的对网络流量进行分类；

S1020、根据因子加权求和计算法对所述特征向量进行计算，获得权重和；

S1030、当所述权重和大于所述阈值时，获取所述数据源中的所述一般特征值，基于所述一般特征值对实时网络流量进行分类。

实施例11

如图11所示，一种电子设备，包括存储器1101和处理器1102，所述存储器1101用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1102执行以实现上述的一种基于爬虫技术的实时网络流量分类方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述的一种基于爬虫技术的实时网络流量分类方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器1101中，并由处理器1102执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，存储器1101、处理器1102。本领域技术人员可以理解，本实施例仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器1102可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器1102、数字信号处理器1102(DigitalSignalProcessor， DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器1102可以是微处理器1102或者该处理器1102也可以是任何常规的处理器1102等。

存储器1101可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器1101也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器1101

还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器 1101用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器1101 还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims

1.一种基于爬虫技术的实时网络流量分类方法，其特征在于，包括：

c、将所述特征向量输入至计算公式∑(aw+b)>θ，得到所述权重和θ₁,其中,w为权重,θ为阈值,a为特征向量对应比例系数，b为初始预估值；

d、当所述权重和大于所述阈值时，将所述数据源进行分类；

f、基于所述特征数据库对所述实时网络流量进行分类；

2.根据权利要求1所述的一种基于爬虫技术的实时网络流量分类方法，其特征在于，获取数据源和关键字特征库，所述关键字特征库包含阈值，所述数据源包含特征向量和一般特征值，进一步包括：

根据爬虫技术获取所述数据源中的所述特征向量。

3.一种基于爬虫技术的实时网络流量分类装置，其特征在于，包括：

其中，所述处理模块具体包括：

所述分类模块具体包括：

4.根据权利要求3所述的一种基于爬虫技术的实时网络流量分类装置，其特征在于，所述获取模块具体包括：

5.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1～2中任一项所述的一种基于爬虫技术的实时网络流量分类方法。

6.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现如权利要求1～2中任一项所述的一种基于爬虫技术的实时网络流量分类方法。