CN106953854B - 一种基于svm机器学习的暗网流量识别模型的建立方法 - Google Patents

一种基于svm机器学习的暗网流量识别模型的建立方法 Download PDF

Info

Publication number
CN106953854B
CN106953854B CN201710156258.4A CN201710156258A CN106953854B CN 106953854 B CN106953854 B CN 106953854B CN 201710156258 A CN201710156258 A CN 201710156258A CN 106953854 B CN106953854 B CN 106953854B
Authority
CN
China
Prior art keywords
flow
machine learning
detection model
anonymous
building
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710156258.4A
Other languages
English (en)
Other versions
CN106953854A (zh
Inventor
苏宏
陈周国
丁建伟
赵越
郭宇斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Publication of CN106953854A publication Critical patent/CN106953854A/zh
Application granted granted Critical
Publication of CN106953854B publication Critical patent/CN106953854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于SVM机器学习的暗网流量识别模型的建立方法,包括如下步骤:构建基于SVM的机器学习的流量检测模型;对流量检测模型中的参数进行机器学习,得到纯净匿名流量和纯净非匿名流量的四个特征值;将纯净匿名流量和纯净非匿名流量的四个特征值带入到流量检测模型中进行运算,得到流量检测模型的参数。与现有技术相比,本发明的积极效果是:通过本发明方法,可以非常准确地刻画出匿名网络数据流量识别的数学模型,应用于匿名网络数据流量检测中,检测准确率高,运算简单高效,并且当匿名网络升级之后,由于该方法采用的是基于机器学习的算法,因此只要针对升级后的匿名网络重新进行学习,便可以检测出新的匿名网络数据流量。

Description

一种基于SVM机器学习的暗网流量识别模型的建立方法
技术领域
本发明涉及一种基于SVM机器学习的暗网流量识别模型的建立方法。
背景技术
匿名网络(暗网)流量的分析与控制,特别是流量检测当前正处于探索研究阶段,目前并没有一种方法能够有效检测所有的匿名网络流量,有的方法可能仅对某种匿名网络有效,甚至仅对于某个版本有效,因此匿名网络流量的检测是一个永恒的研究课题,需要不断的跟进研究,以应对匿名网络的不断升级变化,而提高匿名网络流量检测的准确率,关键在于流量识别模型建立的准确性上。本方法采用机器学习的方法,尽量准确的建立一个匿名网络流量识别的数学模型,试图将由于匿名网络的升级变化给检测带来的影响降到最低,可以较准确的检测出匿名网络的流量。
发明内容
为了克服现有技术的上述缺点,本发明提供了一种基于SVM机器学习的暗网流量识别模型的建立方法,旨在为匿名网络的流量识别建立一个动态变化而准确的数学模型。
本发明解决其技术问题所采用的技术方案是:一种基于SVM机器学习的暗网流量识别模型的建立方法,包括如下步骤:
步骤一、构建基于SVM的机器学习的流量检测模型;
步骤二、对流量检测模型中的参数进行机器学习,得到纯净匿名流量和纯净非匿名流量的四个特征值;
步骤三、将纯净匿名流量和纯净非匿名流量的四个特征值带入到流量检测模型中进行运算,得到流量检测模型的参数。
与现有技术相比,本发明的积极效果是:
通过本发明方法,可以非常准确地刻画出匿名网络数据流量识别的数学模型,应用于匿名网络数据流量检测中,检测准确率高,运算简单高效,并且当匿名网络升级之后,由于该方法采用的是基于机器学习的算法,因此只要针对升级后的匿名网络重新进行学习,便可以检测出新的匿名网络数据流量。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为基于SVM的流量检测模型原理图。
具体实施方式
一种基于SVM机器学习的暗网流量识别模型的建立方法,包括如下步骤:
步骤一、模型建立
匿名网络流量的检测均是在建立数学模型的基础上实施的,但目前大多数的检测模型可能仅对某种匿名网络有效,甚至仅对于某个版本有效,为了解决这一难题,有效应对匿名网络的不断升级变化,提高匿名网络流量检测的准确率,需要建立一种新型的匿名网络流量检测模型。
本方法中,检测模型采用基于SVM的机器学习的流量检测模型,匿名网络流量检测模型如图1所示:图中x为输入的特征向量,特征的数量为d;xn为采集的样本,是d维向量;yn为期望输出的值(1,-1),对应是或不是相应的匿名流量。该模型用数学表达式可以等价表示为:
y=kx+b
其中,k、b为匿名网络流量识别模型的参数,k为d维的权值向量,b为偏置量,在机器学习阶段需要通过大量的x和y的输入计算出该k和b的值,一旦完成匿名网络流量识别模型建立即可对待测流量进行检测,当y>0时,可判断待测流量为对应的匿名流量,当y<0时,可判断待测流量不是匿名流量。
步骤二、参数确定
流量检测模型选定后,需要对模型中的参数进行机器学习以确定其参数值。机器学习的全过程中将分别学习对应匿名网络纯净的匿名网络流量和纯净的非匿名网络流量(背景流量)的四个特征,针对收集到的所有流量按host profile格式重新进行分类,一个主机一个pacp文件,并以下述四个特征值进行匿名网络流量识别的数学模型参数的自学习,这四个特征分别是:UDP连接数、翻墙权值、UDP流信息熵、流量中Ping-pong相似报文出现频数。它们的定义和计算方法如下:
(一)UDP连接数:单位时间内每个Pcap文件不同UDP连接数:
计算每个Hostprofie(pcap)文件中总共的不同IP地址数量K,然后使用K除以Hostprofile时间T,得到该特征值;
(二)翻墙权值:对亚马逊服务器、动态网等敏感域名解析的次数乘以权值:
维护一个敏感DNS查询列表,不同的域名分配不同的权值,如果Hostprofile中存在访问敏感DNS的查询,则增加相应的翻墙权值;
(三)UDP流信息熵:平均每个Host profile中UDP流信息熵大小:
对Hostprofile中的每个UDP流进行信息熵计算并求和,然后除以UDP流的总数,信息熵的定义为
(四)相似报文出现频数:Ping-pong相似报文出现次数:
统计Hostprofile中连续数据包相似个数,如果相似则次数加1。
机器学习完毕,将学习到的纯净匿名流量和纯净非匿名流量的四个特征值反复带入到匿名网络流量识别模型中进行运算,最后得到匿名网络流量识别模型中的参数k和b,模型建立完成。
步骤三、模型验证
构建一个Freegate的匿名网络,在该匿名网络环境中分别抓取足够多的Freegate匿名流量和非Freegate的背景流量,针对某一台主机分别计算出每个流量的四个特征:UDP连接数、翻墙权值、UDP流信息熵、流量中Ping-pong相似报文出现频数,然后带入到流量检测的数学模型中进行运算,计算出模型中的参数k和b,该匿名网络环境的流量检测模型即构建完成。
利用已构建的匿名网络流量检测模型在该Freegate匿名网络环境中即可实时检测到匿名网络的流量数据。在机器学习过程中,学习的时间越长,获取的流量数据越多,构建的流量检测模型越精确,后续的流量检测也就越准确。

Claims (3)

1.一种基于SVM机器学习的暗网流量识别模型的建立方法,其特征在于:包括如下步骤:
步骤一、构建基于SVM的机器学习的流量检测模型;
步骤二、对流量检测模型中的参数进行机器学习,得到纯净匿名流量和纯净非匿名流量的四个特征值:
(1)UDP连接数:每个Hostprofie文件中总共的不同IP地址数量除以Hostprofile时间得到;
(2)翻墙权值:敏感域名解析的次数乘以分配给该域名的权值得到;
(3)UDP流信息熵:对Hostprofile中的每个UDP流进行信息熵计算并求和,然后除以UDP流的总数得到;
(4)相似报文出现频数:Hostprofile中连续数据包相似个数的统计值;
步骤三、将纯净匿名流量和纯净非匿名流量的四个特征值带入到流量检测模型中进行运算,得到流量检测模型的参数。
2.根据权利要求1所述的一种基于SVM机器学习的暗网流量识别模型的建立方法,其特征在于:所述流量检测模型的等价数学表达式为:y=kx+b,其中:k、b为流量检测模型的参数,k为权值向量,b为偏置量。
3.根据权利要求2所述的一种基于SVM机器学习的暗网流量识别模型的建立方法,其特征在于:利用流量检测模型对待测流量进行检测时,若y>0,则判断待测流量为对应的匿名流量,若y<0,则判断待测流量不是匿名流量。
CN201710156258.4A 2016-12-15 2017-03-16 一种基于svm机器学习的暗网流量识别模型的建立方法 Active CN106953854B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201611157218 2016-12-15
CN2016111572183 2016-12-15

Publications (2)

Publication Number Publication Date
CN106953854A CN106953854A (zh) 2017-07-14
CN106953854B true CN106953854B (zh) 2019-10-18

Family

ID=59473479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710156258.4A Active CN106953854B (zh) 2016-12-15 2017-03-16 一种基于svm机器学习的暗网流量识别模型的建立方法

Country Status (1)

Country Link
CN (1) CN106953854B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108933846B (zh) * 2018-06-21 2021-08-27 北京谷安天下科技有限公司 一种泛解析域名的识别方法、装置及电子设备
KR102129375B1 (ko) * 2019-11-01 2020-07-02 (주)에이아이딥 딥러닝 모델 기반 토르 사이트 액티브 핑거프린팅 시스템 및 방법
CN111224940B (zh) * 2019-11-15 2021-03-09 中国科学院信息工程研究所 一种嵌套在加密隧道中的匿名服务流量关联识别方法及***
CN112887291A (zh) * 2021-01-20 2021-06-01 中国科学院计算技术研究所 基于深度学习的i2p流量识别方法及***
CN113938290B (zh) * 2021-09-03 2022-11-11 华中科技大学 一种用户侧流量数据分析的网站去匿名方法和***
CN115001861B (zh) * 2022-07-20 2022-12-09 中国电子科技集团公司第三十研究所 一种基于混合指纹特征的暗网服务异常检测方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510841A (zh) * 2008-12-31 2009-08-19 成都市华为赛门铁克科技有限公司 端到端流量识别方法和***
CN101695035A (zh) * 2009-10-21 2010-04-14 成都市华为赛门铁克科技有限公司 流量识别方法及装置
CN102984131A (zh) * 2012-11-09 2013-03-20 华为技术有限公司 一种信息识别方法和装置
CN104052639A (zh) * 2014-07-02 2014-09-17 山东大学 基于支持向量机的实时多应用网络流量识别方法
CN105471883A (zh) * 2015-12-10 2016-04-06 中国电子科技集团公司第三十研究所 基于web注入的Tor网络溯源***、溯源方法
CN105721242A (zh) * 2016-01-26 2016-06-29 国家信息技术安全研究中心 一种基于信息熵的加密流量识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007100916A2 (en) * 2006-02-28 2007-09-07 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for outputting a dataset based upon anomaly detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510841A (zh) * 2008-12-31 2009-08-19 成都市华为赛门铁克科技有限公司 端到端流量识别方法和***
CN101695035A (zh) * 2009-10-21 2010-04-14 成都市华为赛门铁克科技有限公司 流量识别方法及装置
CN102984131A (zh) * 2012-11-09 2013-03-20 华为技术有限公司 一种信息识别方法和装置
CN104052639A (zh) * 2014-07-02 2014-09-17 山东大学 基于支持向量机的实时多应用网络流量识别方法
CN105471883A (zh) * 2015-12-10 2016-04-06 中国电子科技集团公司第三十研究所 基于web注入的Tor网络溯源***、溯源方法
CN105721242A (zh) * 2016-01-26 2016-06-29 国家信息技术安全研究中心 一种基于信息熵的加密流量识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
("A multi-granularity heuristic-combining approach for censorship circumvention activity identification";Zhongliu Zhou等;《Security and communication networks》;20160704;第3178-3189页 *
"僵尸网络分析及其防御";陈周国等;《信息安全与通信保密》;20110610;全文 *
"匿名网络追踪溯源综述";陈周国等;《计算机研究与发展》;20121015;全文 *
"网络加密流量识别研究综述及展望";潘吴斌等;《通信学报》;20160925;全文 *
"网络攻击追踪溯源层次分析";陈周国等;《计算机***应用》;20140115;全文 *

Also Published As

Publication number Publication date
CN106953854A (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
CN106953854B (zh) 一种基于svm机器学习的暗网流量识别模型的建立方法
CN108564460A (zh) 互联网信贷场景下的实时欺诈检测方法及装置
Subramani et al. Stochastic time-optimal path-planning in uncertain, strong, and dynamic flows
CN105678248B (zh) 基于深度学习的人脸关键点对齐算法
CN107293115B (zh) 一种用于微观仿真的交通流量预测方法
Demirci et al. Prediction of suspended sediment in river using fuzzy logic and multilinear regression approaches
CN110232471B (zh) 一种降水传感网节点布局优化方法及装置
CN101480143B (zh) 一种预测灌区作物单产量的方法
CN110210621A (zh) 一种基于残差网络改进的目标检测方法
CN107590565A (zh) 一种构建建筑能耗预测模型的方法及装置
CN109145516B (zh) 一种基于改进型极限学习机的模拟电路故障识别方法
CN107506938A (zh) 一种基于机器学习的物料质量评估方法
CN106840163A (zh) 一种室内定位方法及***
Abudu et al. Modeling of daily pan evaporation using partial least squares regression
Demirci et al. Suspended sediment estimation using an artificial intelligence approach
CN104933418B (zh) 一种双像机的人群人数统计方法
CN115270239A (zh) 基于动力特性和智能算法响应面法的桥梁可靠性预测方法
CN108390775A (zh) 一种基于spice的用户体验质量评价方法及***
CN114022035A (zh) 一种城市热岛效应内建筑物碳排放评估方法
CN115688288A (zh) 飞行器气动参数辨识方法、装置、计算机设备及存储介质
Gui et al. Comparative study of different types of hydrological models applied to hydrological simulation
CN108459997A (zh) 基于深度学习和神经网络的高偏态数据价值概率预测方法
CN110186533A (zh) 一种高精度的河口短期潮位预报方法
CN113392851B (zh) 一种红茶发酵程度的智能判别方法及装置
CN106972968A (zh) 一种基于交叉熵联合马氏距离的网络异常流量检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant