CN112235254B

CN112235254B - 一种高速主干网中Tor网桥的快速识别方法

Info

Publication number: CN112235254B
Application number: CN202011003470.5A
Authority: CN
Inventors: 吴桦; 郭树一; 程光
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2023-03-24
Anticipated expiration: 2040-09-22
Also published as: CN112235254A

Abstract

本发明提供了一种高速主干网中Tor网桥的快速识别方法，具体步骤包括：选择能够用于高速主干网中Tor网桥识别的相关特征，构建小规模的流量数据训练集进行模型训练；在高速主干网中进行数据包的采样，并使用多重Count Bloom Filter算法进行数据包记录的统计和特征值的提取；使用训练完成的模型对采样后数据包的记录进行识别分类，获得网桥列表。本发明能够快速精确地识别出主干网中存在的Tor网桥，为网络管理者提供一份网桥名单，有效提高网络管理的效率；由于所选择的特征多为比例特征，在采样后的不完整流量数据中也可以提取，用于进行识别分类，减少了特征的存储消耗。

Description

一种高速主干网中Tor网桥的快速识别方法

技术领域

本发明属于网络空间安全技术领域，涉及一种高速主干网中Tor网桥的快速识别方法。

背景技术

随着网络空间安全形势的日益严峻，对于网络空间的监管也更加严格。为了逃避监管，越来越多的不法分子选择通过暗网进行违法行为。作为使用最广泛的暗网技术——第二代洋葱路由Tor，由于其高度的隐蔽性和易操作性，成为大多数不法分子的首要选择。因此，为了维护网络空间的安全，对暗网的使用进行识别成为网络安全领域的研究热点之一。

与其他暗网技术相比，Tor的使用最为广泛。为了确保匿名性和抵御追踪，在使用Tor进行网络访问时，首先由主机端向目录服务器请求三个公开地址的洋葱路由，用以建立通信链路，并且使用TLS加密传输。在此基础上，Tor还引入了网桥和混淆协议，主机端首先与不公开地址的网桥路由连接，接下来从网桥路由开始建立通信链路。据此，主机端源地址也无法被链路中的洋葱路由获取，给网络监管造成了进一步的困难。

国内外近年来针对暗网的使用进行识别研究主要集中在流量识别方面，并且以机器学习方法为主。这些研究基本上都围绕特征选择和机器学习算法的改进展开，选择的特征可以在完整的流数据中获得很好的识别效果。但现有的方法存在如下主要问题：(1)目前的方法都基于完整流量数据集进行研究，选取的特征只适用于完整的流量数据；(2)为了提高识别的准确率等指标，现有研究中选择的特征数量较多，在提取和存储时需要消耗大量资源；(3)对完整的流量数据进行识别研究，在高速主干网的大规模流量下是难以实现的。上述问题导致现有的方法无法实现高速主干网环境下的Tor网桥快速识别。

因此，为了实现在高速主干网环境下Tor网桥的快速识别，本发明在高速主干网路由处进行了采样操作，并对特征进行了选择，选择在采样后的数据包记录中依然适用的识别特征；为了提升特征的计算和存储效率，使用了多重Count Bloom Filter算法进行了数据包记录的统计和特征的处理。

发明内容

为了加强对暗网的监管，实现在高速主干网环境下Tor网桥的快速识别，本发明提出了一种高速主干网中Tor网桥的快速识别方法，针对高速主干网中可能存在的Tor网桥，首先对主机端和网桥之间的流量进行特征选择，选择在采样后的数据包记录中依然适用的识别特征，在高速主干网路由处进行了采样操作，在对高速主干网中的流量进行采样后，为了提升特征的计算和存储效率，利用多重Count Bloom Filter算法进行数据包的统计和特征值的计算，最后使用随机森林算法进行网桥的识别。

为了达到上述目的，本发明提供如下技术方案：

一种高速主干网中Tor网桥的快速识别方法，包括如下步骤：

(1)采集用于模型训练的Tor流量数据和普通流量数据并保存；

(2)从原始数据中提取能够用于完整流量数据识别分类的特征，并进行特征选择，保留能够用于记录识别分类的特征后，从原始数据中提取训练数据，进行机器学习的模型训练；

(3)在高速主干网路由处进行流量数据的采样，然后使用多重Count BloomFilter算法对采样获得的数据包进行处理，获得记录；

(4)将步骤(3)中获得的采样统计结果输入步骤(2)中训练完成的模型处理记录，进行网桥的识别。

进一步，所述步骤(1)具体包括如下子步骤：

(1.1)在主机端安装Tor Browser软件，选择使用网桥建立通信链路；

(1.2)启动应用开始进行Tor流量数据采集；

(1.3)使用Tor Browser进行网络访问；

(1.4)网页加载完毕后停止采集，存储当前采集的主机端与网桥之间的Tor流量数据文件；

(1.5)启动应用开始进行普通流量数据采集；

(1.6)使用常见应用进行操作；

(1.7)在操作完成后停止采集，存储当前采集的普通流量数据文件；

(1.8)重复(1.2)～(1.7)操作，直到采集到足够多数量的流量数据。

进一步，所述步骤(2)具体包括如下子步骤：

(2.1)首先使用步骤(1)中采集的完整的流量数据进行特征的提取和模型的训练，选择使用准确率高的随机森林算法；

(2.2)在进行特征选择时使用随机森林算法中基于基尼指数的方法进行特征重要性的评估，基尼指数的计算方法如下：

其中k代表k个类别，p_k代表类别k的样本权重；

那么特征X_j在节点m上的重要性，即节点m分枝前后的基尼指数变化量为：

其中其中GI_m表示分枝前节点的基尼指数，GI_l和GI_r分别表示分枝后两个新节点的基尼指数；

(2.3)综合考虑特征重要性和在记录中的可用性，选择合适的可用特征；

(2.4)将步骤(1)中采集的流量数据作为原始数据，经过之前的特征工程从中提取训练数据，使用随机森林算法进行模型训练。

进一步的，所述步骤(2.3)中合适的可用特征如下表所示：

特征	含义
		F1	是否多于一半的数据包具有时间戳
F2	客户端发出的非空包与包总数的比值
		F3	服务器端发出的非空包与包总数的比值
F4	客户端发出的空包与服务器端发出的非空包的比值
		F5	服务器端发出的空包与客户端发出的非空包的比值
F6	客户端发出的非空包与数据包总数的比值
		F7	服务器端发出的非空包与数据包总数的比值
F8	客户端发出的PSH包占数据包总数的比例
		F9	服务器端发出的PSH包占数据包总数的比例
F10	客户端发出的长度为0～50的包占数据包总数的比例
		F11	客户端发出的长度为50～200的包占数据包总数的比例
F12	客户端发出的长度大于1200的包占数据包总数的比例
		F13	服务器端发出的长度为50～200的包占数据包总数的比例
F14	服务器端发出的长度大于1200的包占数据包总数的比例

进一步，所述步骤(3)具体包括如下子步骤：

(3.1)在高速主干网路由处设置数据包采样比例进行流量采样；

(3.2)使用MCBF算法处理采样后的数据包，得到统计结果。

进一步的，所述步骤(3.2)具体包括如下子步骤：

(3.2.1)对于采样后的每个数据包，将数据包的{源IP地址，端口号}和{目的IP地址，端口号}分别作为哈希函数的输入，两次输入分别得到多个输出映射到MCBF对应的位置中；

(3.2.2)在每个映射到的位置中都存在一个12字节的数据结构，用于存储该数据包中与特征相关的信息，如果该数据包满足对应的信息，则在数据结构对应的位置上增加1，否则不变；

(3.2.3)当到达设定的阈值θ时，提取存储的信息，然后进行特征值的计算；

(3.2.4)对提取的信息进行计算，得到记录的特征统计结果。

所述步骤(3.2.2)中，所需存储的信息如下表所示：

进一步的，所述步骤(3.2.3)中，将客户端发出的数据包数量记录最少的位置所存储的信息作为被提取的信息。

所述步骤(3.2.4)中，每个位置存储的信息与特征的计算对应关系如下表所示：

特征	计算方法
		F1	如果Counter 12中的值大于1/2θ，则F1标记为1，否则为0
F2	Counter 2/Counter 1
		F3	Counter 4/Counter 3
F4	(Counter 1-Counter 2)/Counter 4
		F5	(Counter 3-Counter 4)/Counter 2
F6	Counter 2/(Counter 1+Counter 3)
		F7	Counter 4/(Counter 1+Counter 3)
F8	Counter 5/(Counter 1+Counter 3)
		F9	Counter 6/(Counter 1+Counter 3)
F10	Counter 7/(Counter11+Counter 3)
		F11	Counter 8/(Counter 1+Counter 3)
F12	Counter 9/(Counter 1+Counter 3)
		F13	Counter 10/(Counter 1+Counter 3)
F14	Counter 11/(Counter 1+Counter 3)

其中F1的值由Counter 12与阈值θ决定，如果Counter 12中的值大于1/2θ，则将该条记录的F1标记为1。

与现有技术相比，本发明具有如下优点和有益效果：

(1)本发明能够快速精确地识别出主干网中存在的Tor网桥，为网络管理者提供一份网桥名单，能够有效提高网络管理的效率。

(2)本发明中所选择的特征多为比例特征，在采样后的不完整流量数据中也可以提取，用于进行识别分类，减少了特征的存储消耗。

(3)本发明使用了多重Count Bloom Filter算法，用于对高速主干网中采样后的数据包进行统计处理，提高了数据包处理的效率。

附图说明

图1为本发明提供的在高速主干网中快速识别Tor网桥的方法框架。

图2为进行完整流量数据识别分类时，不同机器学习算法模型的准确率。

图3为训练完成的模型准确率。

图4为多重Count Bloom Filter算法结构图。

图5为采样比固定为64：1时不同阈值情况下的预测结果参数。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提出了一种在高速主干网中快速识别Tor网桥的方法，识别框架如图1所示，包括三个部分，第一部分为训练数据集的构建，具体内容为提取能够用于高速主干网中Tor网桥识别的相关特征，构建小规模的流量数据训练集，在训练集中进行机器学习模型的训练；第二部分为高速主干网中的操作，具体内容为在高速主干网中进行数据包的采样，使用多重Count Bloom Filter算法进行采样后数据包的记录统计和特征值的计算；第三部分为网桥的识别操作，并输出网桥列表，具体为使用训练完成的机器学习模型对采样后数据包的记录进行识别分类，进行网桥的预测，并记录网桥列表。在第二部分中，将经过了采样以及多重Count Bloom Filter算法处理的数据结果称为记录，每条记录中含有服务器IP、端口以及相关特征值。

具体地说，本发明方法有以下步骤：

(1)采集用于模型训练的Tor流量数据和普通流量数据并保存。

本步骤的具体过程如下：

(1.2)启动Wireshark流量采集应用开始进行Tor流量数据采集；

(1.3)使用Tor Browser进行网络访问；

(1.4)网页加载完毕后停止采集，存储当前采集的主机端与网桥之间的Tor流量数据文件(.pcap)；

(1.5)启动Wireshark流量采集应用开始进行普通流量数据采集；

(1.6)使用常见应用进行包括但不限于网页访问、聊天等操作；

(1.7)在操作完成后停止采集，存储当前采集的普通流量数据文件(.pcap)；

(1.8)重复(1.2)～(1.7)操作，直到采集到总共将近10000条流量数据。

(2)从原始数据中提取能够用于完整流量数据识别分类的特征，并进行特征选择，保留能够用于记录识别分类的特征后，从原始数据中提取训练数据，进行机器学习的模型训练。

本步骤中具体过程如下：

(2.1)首先使用步骤(1)中采集的完整流量数据进行特征的提取和模型的训练，通过对比随机森林、K近邻、朴素贝叶斯等算法模型的准确率等参数，如图2所示，选择使用准确率最高的随机森林算法。

(2.2)在进行特征选择时使用随机森林算法中基于基尼指数的方法进行特征重要性的评估。基尼指数的计算方法如下：

其中k代表k个类别，p_k代表类别k的样本权重。

其中GI_m表示分枝前节点的基尼指数，GI_l和GI_r分别表示分枝后两个新节点的基尼指数。

(2.3)将特征的重要性评分与特征在记录中的可用性进行综合考虑后，最终选择的特征如表1所示：

表1可用特征

(2.4)将步骤(1)中采集的流量数据作为原始数据，经过之前的(2.1)与(2.2)两步完成了特征的提取与选择，最终确定了(2.3)中的可用特征，根据可用特征从原始数据中提取训练数据，使用随机森林算法进行模型训练，模型准确率如图3所示，其中类别1表示普通流量，类别0表示Tor流量。

(3)在高速主干网路由处进行流量数据的采样，根据采样比保存数据包，然后使用多重Count Bloom Filter算法对采样获得的数据包进行处理，获得记录；

本步骤具体包括以下过程：

(3.1)获取验证数据集，包括两部分，一部分为使用申请的相同网桥进行Tor网络访问的流量，另一部分为日本MAWI工作组2019年4月9日凌晨零点到零点十五分采集的流量数据。对该验证数据集进行采样，采样比设定为128：1；

(3.2)使用多重Count Bloom Filter算法(以下简称MCBF)处理采样后的数据包，得到统计结果，算法结构如图4所示，具体过程如下：

(3.2.2)在每个映射到的位置中都存在一个12字节的数据结构，用于存储该数据包中与特征相关的信息，所需存储的信息如表2所示；

表2存储信息

如果该数据包满足对应的信息，则在数据结构对应的位置上增加1，否则不变；

(3.2.3)当到达设定的阈值时，即当客户端发出的数据包数量到达100，则将存储的信息进行提取，然后进行特征值的计算。考虑到数据包的数量过多时，哈希的结果可能存在误差，因此将客户端发出的数据包数量记录最少的位置所存储的信息作为被提取的信息；

(3.2.4)对提取的信息进行计算，得到记录的特征统计结果，每个位置存储的信息与特征的计算对应关系如表3所示，

表3特征与信息的对应关系

特征	计算方法
		F1	如果Counter 12中的值大于1/2θ，则F1标记为1，否则为0
F2	Counter 2/Counter 1
		F3	Counter 4/Counter 3
F4	(Counter 1-Counter 2)/Counter 4
		F5	(Counter 3-Counter 4)/Counter 2
F6	Counter 2/(Counter 1+Counter 3)
		F7	Counter 4/(Counter 1+Counter 3)
F8	Counter 5/(Counter 1+Counter 3)
		F9	Counter 6/(Counter 1+Counter 3)
F10	Counter 7/(Counter 1+Counter 3)
		F11	Counter 8/(Counter 1+Counter 3)
F12	Counter 9/(Counter 1+Counter 3)
		F13	Counter 10/(Counter 1+Counter 3)
F14	Counter 11/(Counter 1+Counter 3)

部分统计结果如表4所示，当Counter 12中的值大于阈值的一半即50时，则将F1标记为1；

表4部分统计结果

/>

(4)使用步骤(2)中训练完成的模型对记录进行网桥的识别分类，进行网桥的识别，并输出网桥列表。部分识别结果如表5所示，类别0表示该服务器被识别为Tor网桥，类别1表示该服务器被识别为普通服务器。

表5部分识别结果

/>

为验证在不同采样比和阈值情况下本发明的准确性，当采样比固定为64：1时，取不同阈值的实验结果如图5所示。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种高速主干网中Tor网桥的快速识别方法，其特征在于，包括如下步骤：

(1)采集用于模型训练的Tor流量数据和普通流量数据并保存，具体包括如下子步骤：

(1.2)启动应用开始进行Tor流量数据采集；

(1.3)使用Tor Browser进行网络访问；

(1.5)启动应用开始进行普通流量数据采集；

(1.6)使用常见应用进行操作；

(1.8)重复(1.2)～(1.7)操作，直到采集到足够多数量的流量数据；

(2)从原始数据中提取能够用于完整流量数据识别分类的特征，并进行特征选择，保留能够用于记录识别分类的特征后，从原始数据中提取训练数据，进行机器学习的模型训练，具体包括如下子步骤：

其中k代表k个类别，p_k代表类别k的样本权重；

其中GI_m表示分枝前节点的基尼指数，GI_l和GI_r分别表示分枝后两个新节点的基尼指数；

(2.3)综合考虑特征重要性和在记录中的可用性，选择合适的可用特征；所述步骤(2.3)中合适的可用特征如下表所示：

特征含义 F1 是否多于一半的数据包具有时间戳 F2 客户端发出的非空包与包总数的比值 F3 服务器端发出的非空包与包总数的比值 F4 客户端发出的空包与服务器端发出的非空包的比值 F5 服务器端发出的空包与客户端发出的非空包的比值 F6 客户端发出的非空包与数据包总数的比值 F7 服务器端发出的非空包与数据包总数的比值 F8 客户端发出的PSH包占数据包总数的比例 F9 服务器端发出的PSH包占数据包总数的比例 F10 客户端发出的长度为0～50的包占数据包总数的比例 F11 客户端发出的长度为50～200的包占数据包总数的比例 F12 客户端发出的长度大于1200的包占数据包总数的比例 F13 服务器端发出的长度为50～200的包占数据包总数的比例 F14 服务器端发出的长度大于1200的包占数据包总数的比例

；

(2.4)将步骤(1)中采集的流量数据作为原始数据，经过之前的特征工程从中提取训练数据，使用随机森林算法进行模型训练

(3)在高速主干网路由处进行流量数据的采样，然后使用多重Count Bloom Filter算法对采样获得的数据包进行处理，获得记录，具体包括如下子步骤：

(3.2)使用MCBF算法处理采样后的数据包，得到统计结果；所述MCBF算法为多重CountBloom Filter算法；步骤(3.2)具体包括如下子步骤：

(3.2.2)在每个映射到的位置中都存在一个12字节的数据结构，用于存储该数据包中与特征相关的信息，如果该数据包满足对应的信息，则在数据结构对应的位置上增加1，否则不变；步骤(3.2.2)中，所需存储的信息如下表所示：

(3.2.3)当到达设定的阈值θ时，提取存储的信息，然后进行特征值的计算；本步骤中将客户端发出的数据包数量记录最少的位置所存储的信息作为被提取的信息；

(3.2.4)对提取的信息进行计算，得到记录的特征统计结果；每个位置存储的信息与特征的计算对应关系如下表所示：

特征计算方法 F1 如果Counter12中的值大于1/2θ，则F1标记为1，否则为0 F2 Counter2/Counter1 F3 Counter4/Counter3 F4 (Counter1-Counter2)/Counter4 F5 (Counter3-Counter4)/Counter2 F6 Counter2/(Counter1+Counter3) F7 Counter4/(Counter1+Counter3) F8 Counter5/(Counter1+Counter3) F9 Counter6/(Counter1+Counter3) F10 Counter7/(Counter1+Counter3) F11 Counter8/(Counter1+Counter3) F12 Counter9/(Counter1+Counter3) F13 Counter10/(Counter1+Counter3) F14 Counter11/(Counter1+Counter3)

其中F1的值由Counter12与阈值θ决定，如果Counter12中的值大于1/2θ，则将该条记录的F1标记为1