CN111526141A - 基于Word2vec和TF-IDF的Web异常检测方法与*** - Google Patents

基于Word2vec和TF-IDF的Web异常检测方法与*** Download PDF

Info

Publication number
CN111526141A
CN111526141A CN202010302697.3A CN202010302697A CN111526141A CN 111526141 A CN111526141 A CN 111526141A CN 202010302697 A CN202010302697 A CN 202010302697A CN 111526141 A CN111526141 A CN 111526141A
Authority
CN
China
Prior art keywords
anomaly detection
idf
flow
word2vec
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010302697.3A
Other languages
English (en)
Inventor
张�浩
魏志强
连鸿飞
李杰铃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010302697.3A priority Critical patent/CN111526141A/zh
Publication of CN111526141A publication Critical patent/CN111526141A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及基于Word2vec和TF‑IDF的Web异常检测方法与***,首先从交换机设备上采集镜像流量PCAP包,解析出HTTP请求流量,其次对HTTP请求流量数据进行预处理,然后将处理后的请求流量用向量表示,采用LightGBM算法训练流量异常检测模型,采用训练好的流量异常检测模型对实时流量进行异常检测。本发明解决了HTTP流量异常检测过程中模型训练数据长短不一问题,解决大HTTP流量文本特征有效向量化问题,并且提高了检测率和检测精度。

Description

基于Word2vec和TF-IDF的Web异常检测方法与***
技术领域
本发明涉及网络安全技术领域,特别是一种基于Word2vec和TF-IDF的Web异常检测方法与***。
背景技术
随着网络技术的迅速发展,Web服务在网络服务中得到了广泛的应用,因此也成为了不法分子的主要攻击对象。根据OWASP(Open WebApplications Security Project)显示,注入攻击(例如XSS或SQL)在世界范围的Web攻击中高居榜首。通常提取HTTP流量中有效的网络特征来检测注入攻击,但是往往HTTP流量提取出来的文本特征长短不一,需要有效转化为向量表示。
而当前的处理方法存在以下几点不足:1)词向量提取出现冗余且向量维度过于臃肿导致效率不高;2)忽略完整的HTTP请求上下文(请求方式、主机地址、路径和参数等信息)的关联性降低检测精度;3)提取的文本特征并不能很有效的区分流量样本之间的差异。
发明内容
有鉴于此,本发明的目的是提出基于Word2vec和TF-IDF的Web异常检测方法与***,解决了HTTP流量异常检测过程中模型训练数据长短不一问题,解决大HTTP流量文本特征有效向量化问题,并且提高了检测率和检测精度。
本发明采用以下方案实现:一种基于Word2vec和TF-IDF的Web异常检测方法,首先从交换机设备上采集镜像流量PCAP包,解析出HTTP请求流量,其次对HTTP请求流量数据进行预处理,然后将处理后的请求流量用向量表示,采用LightGBM算法训练流量异常检测模型,采用训练好的流量异常检测模型对实时流量进行异常检测。
进一步地,所述对HTTP流量数据进行预处理具体为:提取HTTP请求流量中的包括方法、主机、请求路径、请求参数在内的字段,并形成标准的数据格式。
进一步地,所述将处理后的请求流量用向量表示具体为:
步骤S1:使用Word2vec算法训练提取HTTP请求流量中的每个单词,并将单词转化为固定维度大小的向量;
步骤S2:将每一条请求视为一个段落,计算每个单词在该请求中的重要性,把每个单词基于重要性加权后取平均,生成该HTTP请求流量的向量。
进一步地,步骤S1中,所述的固定维度大小为50维。
进一步地,步骤S2具体包括以下步骤:
步骤S21:对每个词条,首先计算该词条在其HTTP请求中的TF值,并计算该词条在整个文档中的IDF值,最终计算该词条的TF-IDF值,并将其作为该词条的权值;
步骤S22:将得到的词条的TF-IDF值,加权到该词条的向量中,通过将HTTP请求中的每个词条的向量加权相加后取平均,生成该HTTP请求对应的向量。
本发明提供了一种Word2vec和TF-IDF的Web异常检测***,包括处理器、存储器以及存储于存储器中并能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的方法步骤。
本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的方法步骤。
与现有技术相比,本发明有以下有益效果:本发明解决了大HTTP流量文本特征有效向量化问题,并且提高了检测率和检测精度,实现了对几种经典Web攻击手段的检测。算法扩展性能好,效率高,可适应网络流量剧增所带来的检测压力,具有很强的实用性和广阔的应用前景。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明实施例的最终数据格式。
图3为本发明实施例的采用Word2vec算法训练词向量示意图。
图4为本发明实施例的HTTP流量加权向量生成算法示意图。
图5为本发明实施例的段落流量生成示意图。
图6为本发明实施例的分类混淆矩阵。
图7为本发明实施例的验证结果性能分析。
图8为本发明实施例的不同处理方法的结果。
图9为本发明实施例的对比试验结果一(10%测试数据)。
图10为本发明实施例的对比试验结果二(30%测试数据)。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于Word2vec和TF-IDF的Web异常检测方法,首先从交换机设备上采集镜像流量PCAP包,解析出HTTP请求流量,其次对HTTP请求流量数据进行预处理,然后将处理后的请求流量用向量表示,采用LightGBM算法训练流量异常检测模型,采用训练好的流量异常检测模型对实时流量进行异常检测。
在本实施例中,所述对HTTP流量数据进行预处理具体为:提取HTTP请求流量中的包括方法(Method:GET,POST,PUT等)、主机(Host)、请求路径(Path)、请求参数(Parameter)在内的字段,并形成标准的数据格式。
较佳的,在本实施例中,所述形成标准的数据格式具体包括以下几个步骤:
1)清洗数据:去除冗余数据,缺失值处理;
2)特殊字符处理:独立<、>、*、%、--、&、@等特殊字符为一个单词表示;
3)数据格式化:把处理后的数据以每个单词用英文空格符隔开,方法、请求路径和请求参数之间用英文字符‘,’隔开,组成完整的请求流量,如图2所示。
在本实施例中,所述将处理后的请求流量用向量表示具体为:
步骤S1:使用Word2vec算法训练提取HTTP请求流量中的每个单词,并将单词转化为固定维度大小的向量;
步骤S2:将每一条请求视为一个段落,计算每个单词在该请求中的重要性,把每个单词基于重要性加权后取平均,生成该HTTP请求流量的向量。
在本实施例中,步骤S1中,所述的固定维度大小为50维,具体采用Word2vec算法,生成向量大小为N=50的词条向量,如图3所示。
在本实施例中,步骤S2具体包括以下步骤:
步骤S21:对每个词条,首先计算该词条在其HTTP请求中的TF值,并计算该词条在整个文档中的IDF值,最终计算该词条的TF-IDF值,并将其作为该词条的权值,TF-IDF可视为每个单词对请求段落的贡献度;其中,TF-IDF=TF*IDF;具体的HTTP流量加权向量生成算法如图4所示。
步骤S22:将得到的词条的TF-IDF值,加权到该词条的向量中,通过将HTTP请求中的每个词条的向量加权相加后取平均,生成该HTTP请求对应的向量,如图5所示。
较佳的,本实施例中利用min-max算法,归一化HTTP向量,并采用LightGBM算法,训练流量异常检测模型。在实时监测时,将实时数据依次经过解析出HTTP请求流量、对HTTP请求流量数据进行预处理、将处理后的请求流量用向量表示等上述步骤,然后送入训练好的流量异常检测模型,得到检测结果。本实施例取单位时间戳来定义实时性(如30秒,1分钟,5分钟的时间作为实时性考量)由于计算复杂度低,计算速度比较快,所以可以在规定的时间段内对数据进行分析检测。
特别的,这里的流量异常检测模型包括但不限于二分类模型以及攻击多分类模型。
本实施例提供了一种Word2vec和TF-IDF的Web异常检测***,包括处理器、存储器以及存储于存储器中并能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的方法步骤。
较佳的,本实施例进行仿真实验过程中,训练集由70%,80%,90%等不同比例的样本组成,其余30%,20%,10%用于构建测试集,图6是二分类检测的混淆矩阵,图7是二分类的准确率、召回率和F1-score等,图8是不用处理方法的对比结果,图9是与[参考文献:(1)Ito M,Iyatomi H.Web application firewall using character-levelconvolutional neural network[C]//2018IEEE 14th International Colloquium onSignal Processing&Its Applications(CSPA).Batu Feringghi:IEEE,2018:103-106.(2)
Figure BDA0002454605700000062
Kozik,
Figure BDA0002454605700000063
Renk.AProposal ofAlgorithm for WebApplications Cyber Attack Detection[C]//Ifip International Conference onComputer Information Systems&Industrial Management.Berlin,Heidelberg:Springer,2014,8838:680-687.(3)Zhang M,Xu B,Bai S.A Deep Learning Method toDetect Web Attacks Using a Specially Designed CNN[C]//InternationalConference on Neural Information Processing.Guangzhou,China:Springer,2017:828-836.(4)Choras M,Kozik R.Machine learning techniques applied to detectcyber attacks on Web applications[J].Logic Journal ofIGPL,2015,23(1):45-56.]等方法同取10%的测试样例的对比结果,图10是与[参考文献:Smitha,R and Hareesha,KS and Poornima.P K(2018)A Machine Learning Approach for Web IntrusionDetection:MAMLS Perspective[J].International Conference on Soft Computing andSignal Processing,2018,3:89-94.]等方法同取30%的测试样例的对比结果。
通过图8中的对比实验可以看出,相比One-hot和N-gram,本实施例采用的Word2vec算法在各个指标上都具有明显的优势。通过图9可以看出,同样采用10%的测试集,本实施例提出的方法相比于CLCNN方法,Accurary提升了0.60%。相比于J48、SDCNN、Graph-base等方法,在Recall指标上提升了超过3.3%。在FPR方面,比最低的SDCNN方法下降近1.0%。如图10所示,跟LR方法同时采用30%的测试数据,各个指标都能够全线超越,而且提升的效果十分明显。从以上数据可以得出结论,本发明是一种更加有效的基于HTTP流量的Web异常检测***。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (7)

1.一种基于Word2vec和TF-IDF的Web异常检测方法,其特征在于,首先从交换机设备上采集镜像流量PCAP包,解析出HTTP请求流量,其次对HTTP请求流量数据进行预处理,然后将处理后的请求流量用向量表示,采用LightGBM算法训练流量异常检测模型,采用训练好的流量异常检测模型对实时流量进行异常检测。
2.根据权利要求1所述的基于Word2vec和TF-IDF的Web异常检测方法,其特征在于,所述对HTTP流量数据进行预处理具体为:提取HTTP请求流量中的包括方法、主机、请求路径、请求参数在内的字段,并形成标准的数据格式。
3.根据权利要求1所述的基于Word2vec和TF-IDF的Web异常检测方法,其特征在于,所述将处理后的请求流量用向量表示具体为:
步骤S1:使用Word2vec算法训练提取HTTP请求流量中的每个单词,并将单词转化为固定维度大小的向量;
步骤S2:将每一条请求视为一个段落,计算每个单词在该请求中的重要性,把每个单词基于重要性加权后取平均,生成该HTTP请求流量的向量。
4.根据权利要求3所述的基于Word2vec和TF-IDF的Web异常检测方法,其特征在于,步骤S1中,所述的固定维度大小为50维。
5.根据权利要求3所述的基于Word2vec和TF-IDF的Web异常检测方法,其特征在于,步骤S2具体包括以下步骤:
步骤S21:对每个词条,首先计算该词条在其HTTP请求中的TF值,并计算该词条在整个文档中的IDF值,最终计算该词条的TF-IDF值,并将其作为该词条的权值;
步骤S22:将得到的词条的TF-IDF值,加权到该词条的向量中,通过将HTTP请求中的每个词条的向量加权相加后取平均,生成该HTTP请求对应的向量。
6.一种Word2vec和TF-IDF的Web异常检测***,其特征在于,包括处理器、存储器以及存储于存储器中并能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如权利要求1-5任一项所述的方法步骤。
7.一种计算机可读存储介质,其特征在于,其上存储有能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如权利要求1-5任一项所述的方法步骤。
CN202010302697.3A 2020-04-17 2020-04-17 基于Word2vec和TF-IDF的Web异常检测方法与*** Pending CN111526141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010302697.3A CN111526141A (zh) 2020-04-17 2020-04-17 基于Word2vec和TF-IDF的Web异常检测方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302697.3A CN111526141A (zh) 2020-04-17 2020-04-17 基于Word2vec和TF-IDF的Web异常检测方法与***

Publications (1)

Publication Number Publication Date
CN111526141A true CN111526141A (zh) 2020-08-11

Family

ID=71902741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302697.3A Pending CN111526141A (zh) 2020-04-17 2020-04-17 基于Word2vec和TF-IDF的Web异常检测方法与***

Country Status (1)

Country Link
CN (1) CN111526141A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139189A (zh) * 2021-04-29 2021-07-20 广州大学 一种挖矿恶意软件的识别方法、***和存储介质
CN113612657A (zh) * 2021-07-31 2021-11-05 南京云利来软件科技有限公司 一种异常http连接的检测方法
CN113645222A (zh) * 2021-08-09 2021-11-12 杭州安恒信息技术股份有限公司 报文流量检测方法、***、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
US20190199741A1 (en) * 2017-12-22 2019-06-27 Paypal, Inc. System and method for creating and analyzing a low-dimensional representation of webpage sequences
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及***
CN110138786A (zh) * 2019-05-20 2019-08-16 福州大学 基于SMOTETomek和LightGBM的Web异常检测方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190199741A1 (en) * 2017-12-22 2019-06-27 Paypal, Inc. System and method for creating and analyzing a low-dimensional representation of webpage sequences
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及***
CN110138786A (zh) * 2019-05-20 2019-08-16 福州大学 基于SMOTETomek和LightGBM的Web异常检测方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139189A (zh) * 2021-04-29 2021-07-20 广州大学 一种挖矿恶意软件的识别方法、***和存储介质
CN113612657A (zh) * 2021-07-31 2021-11-05 南京云利来软件科技有限公司 一种异常http连接的检测方法
CN113645222A (zh) * 2021-08-09 2021-11-12 杭州安恒信息技术股份有限公司 报文流量检测方法、***、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及***
Tang et al. Zerowall: Detecting zero-day web attacks through encoder-decoder recurrent neural networks
CN111526141A (zh) 基于Word2vec和TF-IDF的Web异常检测方法与***
CN108616498A (zh) 一种web访问异常检测方法和装置
CN107231382B (zh) 一种网络威胁态势评估方法及设备
CN103152222B (zh) 一种基于主机群特征检测速变攻击域名的方法
CN112333128B (zh) 一种基于自编码器的Web攻击行为检测***
CN111464510B (zh) 基于快速梯度提升树分类模型的网络实时入侵检测方法
CN111526144A (zh) 基于DVAE-Catboost的异常流量检测方法与***
CN115865483A (zh) 一种基于机器学习的异常行为分析方法和装置
Purnama et al. Features extraction on IoT intrusion detection system using principal components analysis (PCA)
CN111600878A (zh) 一种基于maf-adm的低速率拒绝服务攻击检测方法
Díaz-Verdejo et al. A methodology for conducting efficient sanitization of HTTP training datasets
CN114338195A (zh) 基于改进孤立森林算法的web流量异常检测方法及装置
Chen et al. A high accuracy DNS tunnel detection method without feature engineering
CN116827656A (zh) 网络信息安全防护***及其方法
CN113918936A (zh) Sql注入攻击检测的方法以及装置
CN116405261A (zh) 基于深度学习的恶意流量检测方法、***及存储介质
CN116991743A (zh) 一种基于协议逆向的工控设备黑盒模糊测试方法
CN115767546A (zh) 量化节点风险的5g网络安全态势评估方法
KR20230046182A (ko) 네트워크에 대한 침해 공격을 탐지하는 장치, 방법 및 컴퓨터 프로그램
Çoşkun et al. A comparative evaluation of the boosting algorithms for network attack classification
CN113645222A (zh) 报文流量检测方法、***、装置及计算机可读存储介质
TWI816579B (zh) 網路入侵偵測系統及網路入侵偵測方法
CN114615056B (zh) 一种基于对抗鲁棒性学习的Tor恶意流量检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811

RJ01 Rejection of invention patent application after publication