CN112235254B - 一种高速主干网中Tor网桥的快速识别方法 - Google Patents

一种高速主干网中Tor网桥的快速识别方法 Download PDF

Info

Publication number
CN112235254B
CN112235254B CN202011003470.5A CN202011003470A CN112235254B CN 112235254 B CN112235254 B CN 112235254B CN 202011003470 A CN202011003470 A CN 202011003470A CN 112235254 B CN112235254 B CN 112235254B
Authority
CN
China
Prior art keywords
data
packets
sent
network
tor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011003470.5A
Other languages
English (en)
Other versions
CN112235254A (zh
Inventor
吴桦
郭树一
程光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011003470.5A priority Critical patent/CN112235254B/zh
Publication of CN112235254A publication Critical patent/CN112235254A/zh
Application granted granted Critical
Publication of CN112235254B publication Critical patent/CN112235254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computer Security & Cryptography (AREA)
  • Pure & Applied Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种高速主干网中Tor网桥的快速识别方法,具体步骤包括:选择能够用于高速主干网中Tor网桥识别的相关特征,构建小规模的流量数据训练集进行模型训练;在高速主干网中进行数据包的采样,并使用多重Count Bloom Filter算法进行数据包记录的统计和特征值的提取;使用训练完成的模型对采样后数据包的记录进行识别分类,获得网桥列表。本发明能够快速精确地识别出主干网中存在的Tor网桥,为网络管理者提供一份网桥名单,有效提高网络管理的效率;由于所选择的特征多为比例特征,在采样后的不完整流量数据中也可以提取,用于进行识别分类,减少了特征的存储消耗。

Description

一种高速主干网中Tor网桥的快速识别方法
技术领域
本发明属于网络空间安全技术领域,涉及一种高速主干网中Tor网桥的快速识别方法。
背景技术
随着网络空间安全形势的日益严峻,对于网络空间的监管也更加严格。为了逃避监管,越来越多的不法分子选择通过暗网进行违法行为。作为使用最广泛的暗网技术——第二代洋葱路由Tor,由于其高度的隐蔽性和易操作性,成为大多数不法分子的首要选择。因此,为了维护网络空间的安全,对暗网的使用进行识别成为网络安全领域的研究热点之一。
与其他暗网技术相比,Tor的使用最为广泛。为了确保匿名性和抵御追踪,在使用Tor进行网络访问时,首先由主机端向目录服务器请求三个公开地址的洋葱路由,用以建立通信链路,并且使用TLS加密传输。在此基础上,Tor还引入了网桥和混淆协议,主机端首先与不公开地址的网桥路由连接,接下来从网桥路由开始建立通信链路。据此,主机端源地址也无法被链路中的洋葱路由获取,给网络监管造成了进一步的困难。
国内外近年来针对暗网的使用进行识别研究主要集中在流量识别方面,并且以机器学习方法为主。这些研究基本上都围绕特征选择和机器学习算法的改进展开,选择的特征可以在完整的流数据中获得很好的识别效果。但现有的方法存在如下主要问题:(1)目前的方法都基于完整流量数据集进行研究,选取的特征只适用于完整的流量数据;(2)为了提高识别的准确率等指标,现有研究中选择的特征数量较多,在提取和存储时需要消耗大量资源;(3)对完整的流量数据进行识别研究,在高速主干网的大规模流量下是难以实现的。上述问题导致现有的方法无法实现高速主干网环境下的Tor网桥快速识别。
因此,为了实现在高速主干网环境下Tor网桥的快速识别,本发明在高速主干网路由处进行了采样操作,并对特征进行了选择,选择在采样后的数据包记录中依然适用的识别特征;为了提升特征的计算和存储效率,使用了多重Count Bloom Filter算法进行了数据包记录的统计和特征的处理。
发明内容
为了加强对暗网的监管,实现在高速主干网环境下Tor网桥的快速识别,本发明提出了一种高速主干网中Tor网桥的快速识别方法,针对高速主干网中可能存在的Tor网桥,首先对主机端和网桥之间的流量进行特征选择,选择在采样后的数据包记录中依然适用的识别特征,在高速主干网路由处进行了采样操作,在对高速主干网中的流量进行采样后,为了提升特征的计算和存储效率,利用多重Count Bloom Filter算法进行数据包的统计和特征值的计算,最后使用随机森林算法进行网桥的识别。
为了达到上述目的,本发明提供如下技术方案:
一种高速主干网中Tor网桥的快速识别方法,包括如下步骤:
(1)采集用于模型训练的Tor流量数据和普通流量数据并保存;
(2)从原始数据中提取能够用于完整流量数据识别分类的特征,并进行特征选择,保留能够用于记录识别分类的特征后,从原始数据中提取训练数据,进行机器学习的模型训练;
(3)在高速主干网路由处进行流量数据的采样,然后使用多重Count BloomFilter算法对采样获得的数据包进行处理,获得记录;
(4)将步骤(3)中获得的采样统计结果输入步骤(2)中训练完成的模型处理记录,进行网桥的识别。
进一步,所述步骤(1)具体包括如下子步骤:
(1.1)在主机端安装Tor Browser软件,选择使用网桥建立通信链路;
(1.2)启动应用开始进行Tor流量数据采集;
(1.3)使用Tor Browser进行网络访问;
(1.4)网页加载完毕后停止采集,存储当前采集的主机端与网桥之间的Tor流量数据文件;
(1.5)启动应用开始进行普通流量数据采集;
(1.6)使用常见应用进行操作;
(1.7)在操作完成后停止采集,存储当前采集的普通流量数据文件;
(1.8)重复(1.2)~(1.7)操作,直到采集到足够多数量的流量数据。
进一步,所述步骤(2)具体包括如下子步骤:
(2.1)首先使用步骤(1)中采集的完整的流量数据进行特征的提取和模型的训练,选择使用准确率高的随机森林算法;
(2.2)在进行特征选择时使用随机森林算法中基于基尼指数的方法进行特征重要性的评估,基尼指数的计算方法如下:
Figure BDA0002695109630000021
其中k代表k个类别,pk代表类别k的样本权重;
那么特征Xj在节点m上的重要性,即节点m分枝前后的基尼指数变化量为:
Figure BDA0002695109630000031
其中其中GIm表示分枝前节点的基尼指数,GIl和GIr分别表示分枝后两个新节点的基尼指数;
(2.3)综合考虑特征重要性和在记录中的可用性,选择合适的可用特征;
(2.4)将步骤(1)中采集的流量数据作为原始数据,经过之前的特征工程从中提取训练数据,使用随机森林算法进行模型训练。
进一步的,所述步骤(2.3)中合适的可用特征如下表所示:
特征 含义
F1 是否多于一半的数据包具有时间戳
F2 客户端发出的非空包与包总数的比值
F3 服务器端发出的非空包与包总数的比值
F4 客户端发出的空包与服务器端发出的非空包的比值
F5 服务器端发出的空包与客户端发出的非空包的比值
F6 客户端发出的非空包与数据包总数的比值
F7 服务器端发出的非空包与数据包总数的比值
F8 客户端发出的PSH包占数据包总数的比例
F9 服务器端发出的PSH包占数据包总数的比例
F10 客户端发出的长度为0~50的包占数据包总数的比例
F11 客户端发出的长度为50~200的包占数据包总数的比例
F12 客户端发出的长度大于1200的包占数据包总数的比例
F13 服务器端发出的长度为50~200的包占数据包总数的比例
F14 服务器端发出的长度大于1200的包占数据包总数的比例
进一步,所述步骤(3)具体包括如下子步骤:
(3.1)在高速主干网路由处设置数据包采样比例进行流量采样;
(3.2)使用MCBF算法处理采样后的数据包,得到统计结果。
进一步的,所述步骤(3.2)具体包括如下子步骤:
(3.2.1)对于采样后的每个数据包,将数据包的{源IP地址,端口号}和{目的IP地址,端口号}分别作为哈希函数的输入,两次输入分别得到多个输出映射到MCBF对应的位置中;
(3.2.2)在每个映射到的位置中都存在一个12字节的数据结构,用于存储该数据包中与特征相关的信息,如果该数据包满足对应的信息,则在数据结构对应的位置上增加1,否则不变;
(3.2.3)当到达设定的阈值θ时,提取存储的信息,然后进行特征值的计算;
(3.2.4)对提取的信息进行计算,得到记录的特征统计结果。
所述步骤(3.2.2)中,所需存储的信息如下表所示:
Figure BDA0002695109630000041
进一步的,所述步骤(3.2.3)中,将客户端发出的数据包数量记录最少的位置所存储的信息作为被提取的信息。
所述步骤(3.2.4)中,每个位置存储的信息与特征的计算对应关系如下表所示:
特征 计算方法
F1 如果Counter 12中的值大于1/2θ,则F1标记为1,否则为0
F2 Counter 2/Counter 1
F3 Counter 4/Counter 3
F4 (Counter 1-Counter 2)/Counter 4
F5 (Counter 3-Counter 4)/Counter 2
F6 Counter 2/(Counter 1+Counter 3)
F7 Counter 4/(Counter 1+Counter 3)
F8 Counter 5/(Counter 1+Counter 3)
F9 Counter 6/(Counter 1+Counter 3)
F10 Counter 7/(Counter11+Counter 3)
F11 Counter 8/(Counter 1+Counter 3)
F12 Counter 9/(Counter 1+Counter 3)
F13 Counter 10/(Counter 1+Counter 3)
F14 Counter 11/(Counter 1+Counter 3)
其中F1的值由Counter 12与阈值θ决定,如果Counter 12中的值大于1/2θ,则将该条记录的F1标记为1。
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明能够快速精确地识别出主干网中存在的Tor网桥,为网络管理者提供一份网桥名单,能够有效提高网络管理的效率。
(2)本发明中所选择的特征多为比例特征,在采样后的不完整流量数据中也可以提取,用于进行识别分类,减少了特征的存储消耗。
(3)本发明使用了多重Count Bloom Filter算法,用于对高速主干网中采样后的数据包进行统计处理,提高了数据包处理的效率。
附图说明
图1为本发明提供的在高速主干网中快速识别Tor网桥的方法框架。
图2为进行完整流量数据识别分类时,不同机器学习算法模型的准确率。
图3为训练完成的模型准确率。
图4为多重Count Bloom Filter算法结构图。
图5为采样比固定为64:1时不同阈值情况下的预测结果参数。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提出了一种在高速主干网中快速识别Tor网桥的方法,识别框架如图1所示,包括三个部分,第一部分为训练数据集的构建,具体内容为提取能够用于高速主干网中Tor网桥识别的相关特征,构建小规模的流量数据训练集,在训练集中进行机器学习模型的训练;第二部分为高速主干网中的操作,具体内容为在高速主干网中进行数据包的采样,使用多重Count Bloom Filter算法进行采样后数据包的记录统计和特征值的计算;第三部分为网桥的识别操作,并输出网桥列表,具体为使用训练完成的机器学习模型对采样后数据包的记录进行识别分类,进行网桥的预测,并记录网桥列表。在第二部分中,将经过了采样以及多重Count Bloom Filter算法处理的数据结果称为记录,每条记录中含有服务器IP、端口以及相关特征值。
具体地说,本发明方法有以下步骤:
(1)采集用于模型训练的Tor流量数据和普通流量数据并保存。
本步骤的具体过程如下:
(1.1)在主机端安装Tor Browser软件,选择使用网桥建立通信链路;
(1.2)启动Wireshark流量采集应用开始进行Tor流量数据采集;
(1.3)使用Tor Browser进行网络访问;
(1.4)网页加载完毕后停止采集,存储当前采集的主机端与网桥之间的Tor流量数据文件(.pcap);
(1.5)启动Wireshark流量采集应用开始进行普通流量数据采集;
(1.6)使用常见应用进行包括但不限于网页访问、聊天等操作;
(1.7)在操作完成后停止采集,存储当前采集的普通流量数据文件(.pcap);
(1.8)重复(1.2)~(1.7)操作,直到采集到总共将近10000条流量数据。
(2)从原始数据中提取能够用于完整流量数据识别分类的特征,并进行特征选择,保留能够用于记录识别分类的特征后,从原始数据中提取训练数据,进行机器学习的模型训练。
本步骤中具体过程如下:
(2.1)首先使用步骤(1)中采集的完整流量数据进行特征的提取和模型的训练,通过对比随机森林、K近邻、朴素贝叶斯等算法模型的准确率等参数,如图2所示,选择使用准确率最高的随机森林算法。
(2.2)在进行特征选择时使用随机森林算法中基于基尼指数的方法进行特征重要性的评估。基尼指数的计算方法如下:
Figure BDA0002695109630000061
其中k代表k个类别,pk代表类别k的样本权重。
那么特征Xj在节点m上的重要性,即节点m分枝前后的基尼指数变化量为:
Figure BDA0002695109630000062
其中GIm表示分枝前节点的基尼指数,GIl和GIr分别表示分枝后两个新节点的基尼指数。
(2.3)将特征的重要性评分与特征在记录中的可用性进行综合考虑后,最终选择的特征如表1所示:
表1可用特征
Figure BDA0002695109630000063
Figure BDA0002695109630000071
(2.4)将步骤(1)中采集的流量数据作为原始数据,经过之前的(2.1)与(2.2)两步完成了特征的提取与选择,最终确定了(2.3)中的可用特征,根据可用特征从原始数据中提取训练数据,使用随机森林算法进行模型训练,模型准确率如图3所示,其中类别1表示普通流量,类别0表示Tor流量。
(3)在高速主干网路由处进行流量数据的采样,根据采样比保存数据包,然后使用多重Count Bloom Filter算法对采样获得的数据包进行处理,获得记录;
本步骤具体包括以下过程:
(3.1)获取验证数据集,包括两部分,一部分为使用申请的相同网桥进行Tor网络访问的流量,另一部分为日本MAWI工作组2019年4月9日凌晨零点到零点十五分采集的流量数据。对该验证数据集进行采样,采样比设定为128:1;
(3.2)使用多重Count Bloom Filter算法(以下简称MCBF)处理采样后的数据包,得到统计结果,算法结构如图4所示,具体过程如下:
(3.2.1)对于采样后的每个数据包,将数据包的{源IP地址,端口号}和{目的IP地址,端口号}分别作为哈希函数的输入,两次输入分别得到多个输出映射到MCBF对应的位置中;
(3.2.2)在每个映射到的位置中都存在一个12字节的数据结构,用于存储该数据包中与特征相关的信息,所需存储的信息如表2所示;
表2存储信息
Figure BDA0002695109630000072
Figure BDA0002695109630000081
如果该数据包满足对应的信息,则在数据结构对应的位置上增加1,否则不变;
(3.2.3)当到达设定的阈值时,即当客户端发出的数据包数量到达100,则将存储的信息进行提取,然后进行特征值的计算。考虑到数据包的数量过多时,哈希的结果可能存在误差,因此将客户端发出的数据包数量记录最少的位置所存储的信息作为被提取的信息;
(3.2.4)对提取的信息进行计算,得到记录的特征统计结果,每个位置存储的信息与特征的计算对应关系如表3所示,
表3特征与信息的对应关系
特征 计算方法
F1 如果Counter 12中的值大于1/2θ,则F1标记为1,否则为0
F2 Counter 2/Counter 1
F3 Counter 4/Counter 3
F4 (Counter 1-Counter 2)/Counter 4
F5 (Counter 3-Counter 4)/Counter 2
F6 Counter 2/(Counter 1+Counter 3)
F7 Counter 4/(Counter 1+Counter 3)
F8 Counter 5/(Counter 1+Counter 3)
F9 Counter 6/(Counter 1+Counter 3)
F10 Counter 7/(Counter 1+Counter 3)
F11 Counter 8/(Counter 1+Counter 3)
F12 Counter 9/(Counter 1+Counter 3)
F13 Counter 10/(Counter 1+Counter 3)
F14 Counter 11/(Counter 1+Counter 3)
部分统计结果如表4所示,当Counter 12中的值大于阈值的一半即50时,则将F1标记为1;
表4部分统计结果
Figure BDA0002695109630000082
/>
Figure BDA0002695109630000091
(4)使用步骤(2)中训练完成的模型对记录进行网桥的识别分类,进行网桥的识别,并输出网桥列表。部分识别结果如表5所示,类别0表示该服务器被识别为Tor网桥,类别1表示该服务器被识别为普通服务器。
表5部分识别结果
Figure BDA0002695109630000092
/>
Figure BDA0002695109630000101
为验证在不同采样比和阈值情况下本发明的准确性,当采样比固定为64:1时,取不同阈值的实验结果如图5所示。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (1)

1.一种高速主干网中Tor网桥的快速识别方法,其特征在于,包括如下步骤:
(1)采集用于模型训练的Tor流量数据和普通流量数据并保存,具体包括如下子步骤:
(1.1)在主机端安装Tor Browser软件,选择使用网桥建立通信链路;
(1.2)启动应用开始进行Tor流量数据采集;
(1.3)使用Tor Browser进行网络访问;
(1.4)网页加载完毕后停止采集,存储当前采集的主机端与网桥之间的Tor流量数据文件;
(1.5)启动应用开始进行普通流量数据采集;
(1.6)使用常见应用进行操作;
(1.7)在操作完成后停止采集,存储当前采集的普通流量数据文件;
(1.8)重复(1.2)~(1.7)操作,直到采集到足够多数量的流量数据;
(2)从原始数据中提取能够用于完整流量数据识别分类的特征,并进行特征选择,保留能够用于记录识别分类的特征后,从原始数据中提取训练数据,进行机器学习的模型训练,具体包括如下子步骤:
(2.1)首先使用步骤(1)中采集的完整的流量数据进行特征的提取和模型的训练,选择使用准确率高的随机森林算法;
(2.2)在进行特征选择时使用随机森林算法中基于基尼指数的方法进行特征重要性的评估,基尼指数的计算方法如下:
Figure FDA0003869842470000011
其中k代表k个类别,pk代表类别k的样本权重;
那么特征Xj在节点m上的重要性,即节点m分枝前后的基尼指数变化量为:
Figure FDA0003869842470000012
其中GIm表示分枝前节点的基尼指数,GIl和GIr分别表示分枝后两个新节点的基尼指数;
(2.3)综合考虑特征重要性和在记录中的可用性,选择合适的可用特征;所述步骤(2.3)中合适的可用特征如下表所示:
特征 含义 F1 是否多于一半的数据包具有时间戳 F2 客户端发出的非空包与包总数的比值 F3 服务器端发出的非空包与包总数的比值 F4 客户端发出的空包与服务器端发出的非空包的比值 F5 服务器端发出的空包与客户端发出的非空包的比值 F6 客户端发出的非空包与数据包总数的比值 F7 服务器端发出的非空包与数据包总数的比值 F8 客户端发出的PSH包占数据包总数的比例 F9 服务器端发出的PSH包占数据包总数的比例 F10 客户端发出的长度为0~50的包占数据包总数的比例 F11 客户端发出的长度为50~200的包占数据包总数的比例 F12 客户端发出的长度大于1200的包占数据包总数的比例 F13 服务器端发出的长度为50~200的包占数据包总数的比例 F14 服务器端发出的长度大于1200的包占数据包总数的比例
(2.4)将步骤(1)中采集的流量数据作为原始数据,经过之前的特征工程从中提取训练数据,使用随机森林算法进行模型训练
(3)在高速主干网路由处进行流量数据的采样,然后使用多重Count Bloom Filter算法对采样获得的数据包进行处理,获得记录,具体包括如下子步骤:
(3.1)在高速主干网路由处设置数据包采样比例进行流量采样;
(3.2)使用MCBF算法处理采样后的数据包,得到统计结果;所述MCBF算法为多重CountBloom Filter算法;步骤(3.2)具体包括如下子步骤:
(3.2.1)对于采样后的每个数据包,将数据包的{源IP地址,端口号}和{目的IP地址,端口号}分别作为哈希函数的输入,两次输入分别得到多个输出映射到MCBF对应的位置中;
(3.2.2)在每个映射到的位置中都存在一个12字节的数据结构,用于存储该数据包中与特征相关的信息,如果该数据包满足对应的信息,则在数据结构对应的位置上增加1,否则不变;步骤(3.2.2)中,所需存储的信息如下表所示:
Figure FDA0003869842470000031
(3.2.3)当到达设定的阈值θ时,提取存储的信息,然后进行特征值的计算;本步骤中将客户端发出的数据包数量记录最少的位置所存储的信息作为被提取的信息;
(3.2.4)对提取的信息进行计算,得到记录的特征统计结果;每个位置存储的信息与特征的计算对应关系如下表所示:
特征 计算方法 F1 如果Counter12中的值大于1/2θ,则F1标记为1,否则为0 F2 Counter2/Counter1 F3 Counter4/Counter3 F4 (Counter1-Counter2)/Counter4 F5 (Counter3-Counter4)/Counter2 F6 Counter2/(Counter1+Counter3) F7 Counter4/(Counter1+Counter3) F8 Counter5/(Counter1+Counter3) F9 Counter6/(Counter1+Counter3) F10 Counter7/(Counter1+Counter3) F11 Counter8/(Counter1+Counter3) F12 Counter9/(Counter1+Counter3) F13 Counter10/(Counter1+Counter3) F14 Counter11/(Counter1+Counter3)
其中F1的值由Counter12与阈值θ决定,如果Counter12中的值大于1/2θ,则将该条记录的F1标记为1
(4)将步骤(3)中获得的采样统计结果输入步骤(2)中训练完成的模型处理记录,进行网桥的识别。
CN202011003470.5A 2020-09-22 2020-09-22 一种高速主干网中Tor网桥的快速识别方法 Active CN112235254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011003470.5A CN112235254B (zh) 2020-09-22 2020-09-22 一种高速主干网中Tor网桥的快速识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011003470.5A CN112235254B (zh) 2020-09-22 2020-09-22 一种高速主干网中Tor网桥的快速识别方法

Publications (2)

Publication Number Publication Date
CN112235254A CN112235254A (zh) 2021-01-15
CN112235254B true CN112235254B (zh) 2023-03-24

Family

ID=74107316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011003470.5A Active CN112235254B (zh) 2020-09-22 2020-09-22 一种高速主干网中Tor网桥的快速识别方法

Country Status (1)

Country Link
CN (1) CN112235254B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283498A (zh) * 2021-05-21 2021-08-20 东南大学 一种面向高速网络的vpn流量快速识别方法
CN115002045B (zh) * 2022-07-19 2022-12-09 中国电子科技集团公司第三十研究所 一种基于孪生网络的暗网站点会话识别方法及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109873793A (zh) * 2017-12-04 2019-06-11 北京明朝万达科技股份有限公司 一种基于样本流量分析的暗网发现、溯源方法及***
CN108768883B (zh) * 2018-05-18 2022-04-22 新华三信息安全技术有限公司 一种网络流量识别方法及装置
CN109951444B (zh) * 2019-01-29 2020-05-22 中国科学院信息工程研究所 一种加密匿名网络流量识别方法
CN109936578A (zh) * 2019-03-21 2019-06-25 西安电子科技大学 一种面向网络中https隧道流量的检测方法
CN110460502B (zh) * 2019-09-10 2022-03-04 西安电子科技大学 基于分布特征随机森林的vpn下应用程序流量识别方法
CN110519298B (zh) * 2019-09-19 2021-11-12 北京丁牛科技有限公司 一种基于机器学习的Tor流量识别方法及装置

Also Published As

Publication number Publication date
CN112235254A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN107665191B (zh) 一种基于扩展前缀树的私有协议报文格式推断方法
CN111565205B (zh) 网络攻击识别方法、装置、计算机设备和存储介质
CN109951444B (zh) 一种加密匿名网络流量识别方法
US8494985B1 (en) System and method for using network application signatures based on modified term transition state machine
US8577817B1 (en) System and method for using network application signatures based on term transition state machine
CN113489619B (zh) 一种基于时间序列分析的网络拓扑推断方法及装置
Zhang et al. Proword: An unsupervised approach to protocol feature word extraction
CN112235254B (zh) 一种高速主干网中Tor网桥的快速识别方法
CN114143037B (zh) 一种基于进程行为分析的恶意加密信道检测方法
CN113821793B (zh) 基于图卷积神经网络的多阶段攻击场景构建方法及***
CN107222511A (zh) 恶意软件的检测方法及装置、计算机装置及可读存储介质
CN110166344A (zh) 一种身份标识识别方法、装置以及相关设备
Feng et al. BotFlowMon: Learning-based, content-agnostic identification of social bot traffic flows
CN113938290B (zh) 一种用户侧流量数据分析的网站去匿名方法和***
CN113518073B (zh) 一种比特币挖矿僵尸网络流量的快速识别方法
CN108199878B (zh) 高性能ip网络中个人标识信息识别***及方法
Oudah et al. A novel features set for internet traffic classification using burstiness
CN114024748B (zh) 一种结合活跃节点库和机器学习的高效以太坊流量识别方法
Zhou et al. Classification of botnet families based on features self-learning under network traffic censorship
Yuan et al. A Multi‐Granularity Backbone Network Extraction Method Based on the Topology Potential
CN110032596B (zh) 流量异常用户识别方法及***
CN111654479A (zh) 一种基于随机森林与XGBoost的洪泛攻击检测方法
Ma et al. Study of information network traffic identification based on C4. 5 algorithm
CN110689074A (zh) 一种基于模糊集特征熵值计算的特征选择方法
Arevalo-Herrera et al. Network anomaly detection with machine learning techniques for sdn networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant