CN107294993A - 一种基于集成学习的web异常流量监测方法 - Google Patents

一种基于集成学习的web异常流量监测方法 Download PDF

Info

Publication number
CN107294993A
CN107294993A CN201710543858.6A CN201710543858A CN107294993A CN 107294993 A CN107294993 A CN 107294993A CN 201710543858 A CN201710543858 A CN 201710543858A CN 107294993 A CN107294993 A CN 107294993A
Authority
CN
China
Prior art keywords
url
data
character string
length
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710543858.6A
Other languages
English (en)
Other versions
CN107294993B (zh
Inventor
李智星
沈柯
于洪
张冠群
代南瑶
胡聪
胡峰
王进
雷大江
欧阳卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710543858.6A priority Critical patent/CN107294993B/zh
Publication of CN107294993A publication Critical patent/CN107294993A/zh
Application granted granted Critical
Publication of CN107294993B publication Critical patent/CN107294993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于集成学习的WEB异常流量监测方法,包括数据预处理,构建特征工程,数据集重构,模型的建立与融合和模型测试五个过程。数据预处理是对URL数据进行有效信息抽取。特征工程的构建是采用信息熵、互信息等统计学方法进行URL特征的提取与构建。特征工程构建完成后,针对不同的访问性质,对数据集进行调整,输入XGBoost、LightGBM等四种机器学习算法中进行有监督学习。学习器构造完成后,采用Bagging框架集成学习器。在原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,检验模型准确率。在使用模型过程中,将URL输入模型,模型中的五个子模型会分别给出各自的标签概率,概率最高的标签作为最终标签给出。

Description

一种基于集成学习的WEB异常流量监测方法
技术领域
本发明属于机器学习技术领域,具体涉及多种统计学算法与机器学习算法,本算法采用了新的特征提取方式,对统计学与机器学习算法进行创新性融合,实现对WEB异常流量的监测。
背景技术
1、信息时代的网络安全问题
在信息大***的今天,计算机网络的规模与互联网使用人数都达到了空前规模,而接踵而至的,是网络安全问题的愈加凸显。作为抵御网络攻击的最主要手段,异常流量监测的研发与升级迫在眉睫。经过二十多年的发展,流量监测的研究进化出了多个分支,然而在实际应用中,效果却并不尽如人意,其难点主要集中在下面几个方面:
1)将违规行为模式用固定规则进行实时监测导致误报率过高;
2)运用特征匹配时,特征库需要手动更新,无法检测未知攻击方式;
3)庞大的规则数量使得***检测性能受到了很大的影响,规则库的维护变得难以维护;
4)具有阻断功能的异常流量检测***在误检正常通信行为时,正常通信会被阻断;
5)在监测***数据存储能力存在瓶颈时,易遭受拒绝服务攻击,通信将被阻断。
基于异常流量检测***存在以上问题,当前关于该***的研究主要集中在三个方向上:特征匹配、规则推理与机器学习。
2、机器学习
近年来,机器学习的方法越来越多的应用到异常流量检测的算法设计中来。不需要太多人工干预解决了特征匹配中特征库的更新与规则库的人力维护问题,大大提高了自动化程度;对不同的输入数据的适应性强,打破了规则推理的高误报率僵局,面对未知攻击能得到较高的准确率。
然而,单一的机器学习并不能完美的解决问题。其中的统计方法认为所有事件皆由统计模型产生,这种方法忽略了参数方法中事先设定的分布模型可能与真实数据不符的风险,从而与预期结果产生很大偏差。另外统计模型构成的***大多在离线状态下工作,无法满足实时监测的要求,因而要到达高准确率需要非常高效的性能;且统计方法对于阈值的确定非常困难,阈值过高、过低都会引起会引起漏报率的上升。
而机器学习算法尽管能将先验后验知识无缝结合,克服框架不够直观的缺点,然而单纯的分类、聚类算法由于噪声数据干扰、抽样方法错误、建模变量过多等问题会导致过拟合,并不能达到很好的监测效果。且模型的精确性需依赖一定的假设,这些假设是体现在目标***、网络的行为模式上的,与假设违背将会造成准确率的大幅度下降。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种有效提升了原机器学习方法对异常流量监测的准确率的基于集成学习的WEB异常流量监测方法方法。本发明的技术方案如下:
一种基于集成学习的WEB异常流量监测方法,其包括以下步骤:
1)数据预处理:获取统一资源定位符URL记录,并对统一资源定位符URL记录进行切割分离,提取有效信息;
2)构建特征工程:运用统计学方法对常见的指令攻击、数据库攻击、跨站脚本攻击与本地文件包含攻击以及正常网络访问的统一资源定位符URL分别进行特征的提取;
3)数据集重构:针对五种访问性质,分别根据各自特征对总数据集进行整理,将标签调整为该访问性质及其他;
4)模型建立:对五种访问性质所对应的数据集,分别运用XGBoost(极端梯度提升)、Light GBM(轻量级梯度提升机)、RF(随机森林)、LR(逻辑回归)四种机器学习算法对数据进行有监督学习,运用bagging框架集成学习器,得到针对这五种访问性质各自的识别模型;
5)模型测试:对步骤4中提前预留的部分数据集进行测试,检验模型准确率。
进一步的,所述步骤1)URL有效信息的抽取包括步骤:对于一条未处理的URL:首先去除“#”后的无效数据;将剩余片段按“?”进行切割;分理出文件路径片段,以“/”与“=”划分;查询部分以“&”与“=”划分;划分所得的参数与值分别放入处理函数中进行正则匹配。
进一步的,所述处理函数会将数字用日期与时间代替,乱符更换为“$0”,长度小于10的小写字母组成的字符串改为“s”,长度大于2的“Ox”开头的字符串改为“Ox1234”,多个空格缩为一个空格,处理完毕后的片段即为模型需要的URL信息片段。
进一步的,所述步骤2)构建特征工程具体包括:URL参数值的长度,利用统计学中的切比雪夫不等式,以及长度的均值与方差计算出长度的异常值P:字符分布,利用统计学中的卡方检验计算字符分布的异常值α;枚举类型,计算属性值的输入所属枚举异常类型中的情况;关键词抽取,寻找相同访问性质的URL共同特征,在扫描所有URL数据后,对所有物理位置相邻的字符串进行频次记录,筛除频次过低的字符串后对剩余字符串做互信息计算。
进一步的,所述URL参数值的长度异常值,利用统计学中的切比雪夫不等式以及长度的均值与方差可以计算出长度的异常值P,计算公式包括:
其中X表示URL参数值的长度,μ为长度均值,σ2为长度方差,k表示标准差个数;
进一步的,所述字符分布利用统计学中的卡方检验计算字符分布的异常值α具体包括:对于字符串{s1,s2,…,sn},CD(s)i表示CD(s)中的第i个概率值,ICDi表示ICD中的第i个概率值,则其中i=1,2,…,n,即ICD中的第i个概率值是样本集中所有样本分布的第i个概率值的均值;
进一步的,所述枚举类型,计算属性值的输入所属枚举异常类型中的情况,所述定义函数f和g,函数f是线性递增函数,g(x)表示样本函数,当依次输入训练样本时,倘若遇到新样本则g加1,否则g减1,
f(x)=x
当所有样本都学习结束后得到的函数f和g的相关系数ρ可由下面的公式定义:
其中Var(f)和Var(g)分别是函数f和g的方差,Covar(f,g)是函数f和g的协方差。
进一步的,所述关键词抽取互信息体现了字符串内部结合方式是否紧密,其计算公式如下:
其中,P(s1s2s3)表示字符串s1s2s3出现的概率,P(s1s2)、P(s2s3)含义相仿。
进一步的,还包括计算字符串邻字的左右邻字丰富程度的步骤,其左右邻字的丰富程度可以使用信息熵获得其中P(i)表示该字符串的邻字i出现的概率。
进一步的,所述Bagging是从训练集中进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果的集成学习框架,在学习器的基础上,从原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,同时,检验模型准确率。
本发明的优点及有益效果如下:
本发明运用统计学方法,对URL进行切片、特征提取,保证了特征提取的完整性与可靠性。同时集成多种机器学习算法,包括准确率极高的XGBoost(极端梯度提升)、RF(随机森林)等,保证了模型进行流量异常监测时的高精度,在监测过程中将来访URL输入五个模型中进行预测来鉴定是否为已知异常,同时还能对未知异常进行识别。
附图说明
图1是本发明提供优选实施例的方法整体流程图;
图2为本方法中对URL的切割提取示例图;
图3为本方法bagging框架集成过程图;
图4为本模型下异常流量监测流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明提出了一个用于解决异常流量监测的模型。图1所示为整个模型的流程图。对数据集进行预处理,如对“&”、“=”等符号进行分割,提取URL中的有效信息,来提高处理效率。图2为URL切割示例。处理后的数据通过互信息、信息熵等统计学方法进行特征提取。特征工程构造完毕后,根据访问性质的不同,分别构造不同特征的数据集,更换标签为两类:当前访问性质及其他。与此同时,抽取部分数据作为测试集。对重构后的五个数据集分别进行机器学习。引入eXtreme Gradient Boosting、Light Gradient Boosting Machine、Random Forest、Logistic Regression四种机器学习算法对数据集进行有监督学习,并通过bagging框架集成学习器,得到针对不同访问性质的相互独立的识别模型。图3为bagging框架集成过程。将预留的测试集分别带入识别模型中进行测试,检验模型准确性。
整个改进的异常流量监测模型的重要过程包括:URL的信息抽取,特征工程的构造,多算法学习器的训练,bagging框架集成。
一、URL的信息抽取
为了提高模型的处理效率,对URL的有效信息抽取至关重要。对于一条未处理的URL:
1)首先需去除“#”后的无效数据;
2)将剩余片段按“?”进行切割
3)分理出文件路径片段,以“/”与“=”划分;
4)查询部分以“&”与“=”划分;
将3)、4)划分所得的参数与值分别放入处理函数中进行正则匹配。处理函数会将数字用日期与时间代替,乱符更换为“$0”,长度小于10的小写字母组成的字符串改为“s”,长度大于2的“Ox”开头的字符串改为“Ox1234”,多个空格缩为一个空格。处理完毕后的片段即为模型需要的URL信息片段。
二、特征工程的构造
众所周知,特征工程的构造严重影响着模型的有效性与准确率。
1)URL参数值的长度:利用统计学中的切比雪夫不等式以及长度的均值与方差可以计算出长度的异常值P,
其中μ为长度均值,σ2为长度方差,k表示标准差个数;
2)字符分布:利用统计学中的卡方检验计算字符分布的异常值α。对于字符串{s1,s2,…,sn},CD(s)i表示CD(s)中的第i个概率值,ICDi表示ICD中的第i个概率值,则其中i=1,2,…,n。即ICD中的第i个概率值是样本集中所有样本分布的第i个概率值的均值;
3)枚举类型:某个属性值的合法输入属于枚举类型的情况非常普遍,例如“gender”属性的合法参数是“{male,female}”,任何不属于这两种情况的输入都应该属于异常情况。定义函数f和g,函数f是线性递增函数,当依次输入训练样本时,倘若遇到新样本则g加1,否则g减1。
f(x)=x
当所有样本都学习结束后得到的函数f和g的相关系数ρ可由下面的公式定义:
其中Var(f)和Var(g)分别是函数f和g的方差,Co var(f,g)是函数f和g的协方差;
4)关键词抽取:为了寻找相同访问性质的URL共同特征,对同访问类型的URL做关键词抽取显得尤为重要。在扫描所有URL数据后,对所有物理位置相邻的字符串进行频次记录。筛除频次过低的字符串后对剩余字符串做互信息计算。互信息体现了字符串内部结合方式是否紧密,其计算公式如下:
其中,P(s1s2s3)表示字符串s1s2s3出现的概率,P(s1s2)、P(s2s3)含义相仿。
此外,还需要计算字符串邻字的左右邻字丰富程度,左右邻字越丰富,该字符串在数据集中就越灵活,是该种URL关键词的可能性就越大。其左右邻字的丰富程度可以使用信息熵获得其中P(i)表示该字符串的邻字i出现的概率。
三、多算法学习器的训练
在训练数据前,需要对数据做少许改动。针对每种访问性质的URL特征扩展到整个数据集中,形成五个不同的数据集。同时改变原标签,仅保留该访问性质的标签,剩余访问性质的URL数据的标签皆用其他代替。
算法上所选取上的XGBoost、LightGBM、RF、LR,经过测试,是准确率较高、与问题贴合性最强的机器学习算法。
1)XGBoost:XGBoost是在AdaBoost和GBDT等提升算法基础上进行了优化的算法,可用于线性分类,可看做带有L1和L2正则化的线性回归算法;相比于传统GBDT多了正则化函数所以在防止过拟合方面提升很多、在分布式算法方面,XGBoost会把每一维度的特征在一台机器内进行排序,并保存在Block结构内。所以多个特征计算可以分布在不同机器内执行,最后结果汇总。这样使得XGBoost具有了分布计算的能力;因为特征值最后只是用在了排序,所以异常特征值对XGBoost模型学习影响较少;每次的计算只是选择梯度减少最大的特征所以特征相关性选择问题也解决了;
2)LightGBM:LightGBM是一个实现GBDT算法的框架,支持高效率的并行训练,并且拥有更快的速度、更低的内存消耗、更好的准确率、更好的分布式支持,可以快速处理海量数据。
3)Random Forest:Random Forest尤为适合做多分类问题,训练和预测速度快,在数据集上表现良好;对训练数据的容错能力强;能够处理很高维度的数据,并且不用做特征选择,即:可以处理没有删减的成千上万的变量,在处理用关键提取出的大量特征时发挥了很好的效用;能够在分类的过程中可以生成一个泛化误差的内部无偏估计;能够在训练过程中检测到特征之间的相互影响以及特征的重要性程度;不会出现过度拟合;
4)Logistic Regression:逻辑回归的思想是用一个超平面将数据集分为两部分,这两部分分别位于超平面的两边,且属于两个不同类别,刚好切合在处理数据集时将每种访问性质的URL数据集重新打标签的数据。图4为Logistic Regression两分类原理示意图。此外,其分类时计算量非常小,速度很快,存储资源极低,且便于观测样本概率分数。
四、Bagging框架集成
Bagging是一种从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果的集成学习框架。在学习器的基础上,从原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,同时,检验模型准确率。由于该框架的整体模型期望近似于基模型的期望,这也就意味着整体模型的偏差与基模型的偏差近似,同时整体模型的方差会随着基模型数的增多而减少,防止了过拟合能力的增强,模型准确率会显著提高。表1为各机器学习算法与Bagging集成后实验准确率对照表;
表1 模型准确率对照表
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于集成学习的WEB异常流量监测方法,其特征在于,包括以下步骤:
1)数据预处理:获取统一资源定位符URL记录,并对统一资源定位符URL记录进行切割分离,提取有效信息;
2)构建特征工程:运用统计学方法对常见的指令攻击、数据库攻击、跨站脚本攻击与本地文件包含攻击以及正常网络访问的统一资源定位符URL分别进行特征的提取;
3)数据集重构:针对五种访问性质,分别根据各自特征对总数据集进行整理,将标签调整为该访问性质及其他;
4)模型建立:对五种访问性质所对应的数据集,分别运用XGBoost极端梯度提升、LightGBM轻量级梯度提升机、RF随机森林、LR逻辑回归四种机器学习算法对数据进行有监督学习,运用bagging框架集成学习器,得到针对这五种访问性质各自的识别模型;
5)模型测试:对步骤4)中提前预留的部分数据集进行测试,检验模型准确率。
2.根据权利要求1所述的基于集成学习的WEB异常流量监测方法,其特征在于,所述步骤1)URL有效信息的抽取包括步骤:对于一条未处理的URL:首先去除“#”后的无效数据;将剩余片段按“?”进行切割;分理出文件路径片段,以“/”与“=”划分;查询部分以“&”与“=”划分;划分所得的参数与值分别放入处理函数中进行正则匹配。
3.根据权利要求2所述的基于集成学习的WEB异常流量监测方法,其特征在于,所述处理函数会将数字用日期与时间代替,乱符更换为“$0”,长度小于10的小写字母组成的字符串改为“s”,长度大于2的“Ox”开头的字符串改为“Ox1234”,多个空格缩为一个空格,处理完毕后的片段即为模型需要的URL信息片段。
4.根据权利要求2所述的基于集成学习的WEB异常流量监测方法,其特征在于,所述步骤2)构建特征工程具体包括:URL参数值的长度,利用统计学中的切比雪夫不等式,以及长度的均值与方差计算出长度的异常值P:字符分布,利用统计学中的卡方检验计算字符分布的异常值α;枚举类型,计算属性值的输入属于所枚举的类型异常中的具体情况;关键词抽取,寻找相同访问性质的URL共同特征,在扫描所有URL数据后,对所有物理位置相邻的字符串进行频次记录,筛除频次过低的字符串后对剩余字符串做互信息计算。
5.根据权利要求4所述的基于大数据的网络流量异常实时监测***,其特征在于,所述URL参数值的长度异常值,利用统计学中的切比雪夫不等式以及长度的均值与方差可以计算出长度的异常值P,计算公式包括:
其中X为URL参数值的长度,μ为长度均值,σ2为长度方差,k表示标准差个数。
6.根据权利要求4所述的基于大数据的网络流量异常实时监测***,其特征在于,所述字符分布利用统计学中的卡方检验计算字符分布的异常值α具体包括:对于字符串{s1,s2,…,sn},CD(s)i表示CD(s)中的第i个概率值,ICDi表示ICD中的第i个概率值,则其中i=1,2,…,n,即ICD中的第i个概率值是样本集中所有样本分布的第i个概率值的均值;
7.根据权利要求4所述的基于大数据的网络流量异常实时监测***,其特征在于,所述枚举类型,计算属性值的输入属于枚举类型异常的哪种情况,所述定义函数f和g,函数f是线性递增函数,g(x)表示样本函数,当依次输入训练样本时,倘若遇到新样本则g加1,否则g减1,
f(x)=x
当所有样本都学习结束后得到的函数f和g的相关系数ρ可由下面的公式定义:
其中Var(f)和Var(g)分别是函数f和g的方差,Covar(f,g)是函数f和g的协方差。
8.根据权利要求4所述的基于大数据的网络流量异常实时监测***,其特征在于,所述关键词抽取互信息体现了字符串内部结合方式是否紧密,其计算公式如下:
其中,P(s1s2s3)表示字符串s1s2s3出现的概率,P(s1s2)表示字符串s1s2出现的概率,P(s2s3)表示字符串s2s3出现的概率。
9.根据权利要求4所述的基于大数据的网络流量异常实时监测***,其特征在于,还包括计算字符串邻字的左右邻字丰富程度的步骤,其左右邻字的丰富程度可以使用信息熵获得其中P(i)表示该字符串的邻字i出现的概率。
10.根据权利要求1-9之一所述的基于大数据的网络流量异常实时监测***,其特征在于,所述Bagging是从训练集中进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果的集成学习框架,在学习器的基础上,从原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,同时,检验模型准确率。
CN201710543858.6A 2017-07-05 2017-07-05 一种基于集成学习的web异常流量监测方法 Active CN107294993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710543858.6A CN107294993B (zh) 2017-07-05 2017-07-05 一种基于集成学习的web异常流量监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710543858.6A CN107294993B (zh) 2017-07-05 2017-07-05 一种基于集成学习的web异常流量监测方法

Publications (2)

Publication Number Publication Date
CN107294993A true CN107294993A (zh) 2017-10-24
CN107294993B CN107294993B (zh) 2021-02-09

Family

ID=60100438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710543858.6A Active CN107294993B (zh) 2017-07-05 2017-07-05 一种基于集成学习的web异常流量监测方法

Country Status (1)

Country Link
CN (1) CN107294993B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944986A (zh) * 2017-12-28 2018-04-20 广东工业大学 一种o2o商品推荐方法、***及设备
CN108038155A (zh) * 2017-12-02 2018-05-15 宝牧科技(天津)有限公司 一种网络url异常的检测方法
CN108491717A (zh) * 2018-03-28 2018-09-04 四川长虹电器股份有限公司 一种基于机器学习的xss防御***及其实现方法
CN108764568A (zh) * 2018-05-28 2018-11-06 哈尔滨工业大学 一种基于lstm网络的数据预测模型调优方法及装置
CN109167753A (zh) * 2018-07-23 2019-01-08 中国科学院计算机网络信息中心 一种网络入侵流量的检测方法及装置
CN109325193A (zh) * 2018-10-16 2019-02-12 杭州安恒信息技术股份有限公司 基于机器学习的waf正常流量建模方法以及装置
CN109408591A (zh) * 2018-10-12 2019-03-01 北京聚云位智信息科技有限公司 支持sql驱动的ai与特征工程的决策型分布式数据库***
CN109951484A (zh) * 2019-03-20 2019-06-28 四川长虹电器股份有限公司 针对机器学习产品进行攻击的测试方法及***
CN110046757A (zh) * 2019-04-08 2019-07-23 中国人民解放军第四军医大学 基于LightGBM算法的门诊量预测***及预测方法
CN110086749A (zh) * 2018-01-25 2019-08-02 阿里巴巴集团控股有限公司 数据处理方法及装置
CN110175635A (zh) * 2019-05-07 2019-08-27 南京邮电大学 基于Bagging算法的OTT应用程序用户分类方法
CN110263539A (zh) * 2019-05-15 2019-09-20 湖南警察学院 一种基于并行集成学习的安卓恶意应用检测方法及***
CN110363223A (zh) * 2019-06-20 2019-10-22 华南理工大学 工业流量数据处理方法、检测方法、***、装置和介质
CN110415462A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 Atm设备加钞优化方法及装置
CN110443274A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN110598774A (zh) * 2019-09-03 2019-12-20 中电长城网际安全技术研究院(北京)有限公司 加密流量检测方法及装置、计算机可读存储介质、电子设备
CN111104466A (zh) * 2019-12-25 2020-05-05 航天科工网络信息发展有限公司 一种海量数据库表快速分类的方法
CN111371794A (zh) * 2020-03-09 2020-07-03 北京金睛云华科技有限公司 阴影域检测模型、检测模型建立方法、检测方法及***
CN111444931A (zh) * 2019-01-17 2020-07-24 北京京东尚科信息技术有限公司 异常访问数据的检测方法和装置
CN111582879A (zh) * 2019-01-30 2020-08-25 浙江远图互联科技股份有限公司 一种基于遗传算法的医疗保险反欺诈识别方法
CN111600919A (zh) * 2019-02-21 2020-08-28 北京金睛云华科技有限公司 基于人工智能的web检测方法和装置
CN111767275A (zh) * 2020-06-28 2020-10-13 北京林克富华技术开发有限公司 数据的处理方法及装置、数据处理***
CN113361597A (zh) * 2021-06-04 2021-09-07 北京天融信网络安全技术有限公司 一种url检测模型的训练方法、装置、电子设备和存储介质
CN113469730A (zh) * 2021-06-08 2021-10-01 北京化工大学 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN113936765A (zh) * 2021-12-17 2022-01-14 北京因数健康科技有限公司 周期行为报告的生成方法及装置、存储介质、电子设备
CN114169440A (zh) * 2021-12-08 2022-03-11 北京百度网讯科技有限公司 模型训练方法、数据处理方法、装置、电子设备及介质
CN114513341A (zh) * 2022-01-21 2022-05-17 上海斗象信息科技有限公司 恶意流量检测方法、装置、终端及计算机可读存储介质
CN114915563A (zh) * 2021-12-07 2022-08-16 天翼数字生活科技有限公司 一种网络流量预测方法和***
CN116127236A (zh) * 2023-04-19 2023-05-16 远江盛邦(北京)网络安全科技股份有限公司 基于并行结构的网页web组件识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130091128A1 (en) * 2011-10-11 2013-04-11 Microsoft Corporation Time-Aware Ranking Adapted to a Search Engine Application
US20140105488A1 (en) * 2012-10-17 2014-04-17 Microsoft Corporation Learning-based image page index selection
CN104735074A (zh) * 2015-03-31 2015-06-24 江苏通付盾信息科技有限公司 一种恶意url检测方法及其实现***
CN105024989A (zh) * 2014-11-26 2015-11-04 哈尔滨安天科技股份有限公司 一种基于异常端口的恶意url启发式检测方法及***
CN106131071A (zh) * 2016-08-26 2016-11-16 北京奇虎科技有限公司 一种Web异常检测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130091128A1 (en) * 2011-10-11 2013-04-11 Microsoft Corporation Time-Aware Ranking Adapted to a Search Engine Application
US20140105488A1 (en) * 2012-10-17 2014-04-17 Microsoft Corporation Learning-based image page index selection
CN105024989A (zh) * 2014-11-26 2015-11-04 哈尔滨安天科技股份有限公司 一种基于异常端口的恶意url启发式检测方法及***
CN104735074A (zh) * 2015-03-31 2015-06-24 江苏通付盾信息科技有限公司 一种恶意url检测方法及其实现***
CN106131071A (zh) * 2016-08-26 2016-11-16 北京奇虎科技有限公司 一种Web异常检测方法和装置

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038155A (zh) * 2017-12-02 2018-05-15 宝牧科技(天津)有限公司 一种网络url异常的检测方法
CN107944986B (zh) * 2017-12-28 2022-02-15 广东工业大学 一种o2o商品推荐方法、***及设备
CN107944986A (zh) * 2017-12-28 2018-04-20 广东工业大学 一种o2o商品推荐方法、***及设备
CN110086749A (zh) * 2018-01-25 2019-08-02 阿里巴巴集团控股有限公司 数据处理方法及装置
CN108491717A (zh) * 2018-03-28 2018-09-04 四川长虹电器股份有限公司 一种基于机器学习的xss防御***及其实现方法
CN108764568A (zh) * 2018-05-28 2018-11-06 哈尔滨工业大学 一种基于lstm网络的数据预测模型调优方法及装置
CN108764568B (zh) * 2018-05-28 2020-10-23 哈尔滨工业大学 一种基于lstm网络的数据预测模型调优方法及装置
CN109167753A (zh) * 2018-07-23 2019-01-08 中国科学院计算机网络信息中心 一种网络入侵流量的检测方法及装置
CN109408591A (zh) * 2018-10-12 2019-03-01 北京聚云位智信息科技有限公司 支持sql驱动的ai与特征工程的决策型分布式数据库***
CN109408591B (zh) * 2018-10-12 2021-11-09 北京聚云位智信息科技有限公司 支持sql驱动的ai与特征工程的决策型分布式数据库***
CN109325193A (zh) * 2018-10-16 2019-02-12 杭州安恒信息技术股份有限公司 基于机器学习的waf正常流量建模方法以及装置
CN111444931A (zh) * 2019-01-17 2020-07-24 北京京东尚科信息技术有限公司 异常访问数据的检测方法和装置
CN111582879A (zh) * 2019-01-30 2020-08-25 浙江远图互联科技股份有限公司 一种基于遗传算法的医疗保险反欺诈识别方法
CN111600919B (zh) * 2019-02-21 2023-04-07 北京金睛云华科技有限公司 智能网络应用防护***模型的构建方法和装置
CN111600919A (zh) * 2019-02-21 2020-08-28 北京金睛云华科技有限公司 基于人工智能的web检测方法和装置
CN109951484A (zh) * 2019-03-20 2019-06-28 四川长虹电器股份有限公司 针对机器学习产品进行攻击的测试方法及***
CN110046757A (zh) * 2019-04-08 2019-07-23 中国人民解放军第四军医大学 基于LightGBM算法的门诊量预测***及预测方法
CN110175635A (zh) * 2019-05-07 2019-08-27 南京邮电大学 基于Bagging算法的OTT应用程序用户分类方法
CN110175635B (zh) * 2019-05-07 2022-08-30 南京邮电大学 基于Bagging算法的OTT应用程序用户分类方法
CN110263539A (zh) * 2019-05-15 2019-09-20 湖南警察学院 一种基于并行集成学习的安卓恶意应用检测方法及***
CN110363223A (zh) * 2019-06-20 2019-10-22 华南理工大学 工业流量数据处理方法、检测方法、***、装置和介质
CN110443274A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN110443274B (zh) * 2019-06-28 2024-05-07 平安科技(深圳)有限公司 异常检测方法、装置、计算机设备及存储介质
CN110415462A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 Atm设备加钞优化方法及装置
CN110598774A (zh) * 2019-09-03 2019-12-20 中电长城网际安全技术研究院(北京)有限公司 加密流量检测方法及装置、计算机可读存储介质、电子设备
CN111104466A (zh) * 2019-12-25 2020-05-05 航天科工网络信息发展有限公司 一种海量数据库表快速分类的方法
CN111104466B (zh) * 2019-12-25 2023-07-28 中国长峰机电技术研究设计院 一种海量数据库表快速分类的方法
CN111371794B (zh) * 2020-03-09 2022-01-18 北京金睛云华科技有限公司 阴影域检测模型、检测模型建立方法、检测方法及***
CN111371794A (zh) * 2020-03-09 2020-07-03 北京金睛云华科技有限公司 阴影域检测模型、检测模型建立方法、检测方法及***
CN111767275A (zh) * 2020-06-28 2020-10-13 北京林克富华技术开发有限公司 数据的处理方法及装置、数据处理***
CN111767275B (zh) * 2020-06-28 2024-04-19 北京林克富华技术开发有限公司 数据的处理方法及装置、数据处理***
CN113361597A (zh) * 2021-06-04 2021-09-07 北京天融信网络安全技术有限公司 一种url检测模型的训练方法、装置、电子设备和存储介质
CN113361597B (zh) * 2021-06-04 2023-07-21 北京天融信网络安全技术有限公司 一种url检测模型的训练方法、装置、电子设备和存储介质
CN113469730A (zh) * 2021-06-08 2021-10-01 北京化工大学 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN114915563A (zh) * 2021-12-07 2022-08-16 天翼数字生活科技有限公司 一种网络流量预测方法和***
CN114169440A (zh) * 2021-12-08 2022-03-11 北京百度网讯科技有限公司 模型训练方法、数据处理方法、装置、电子设备及介质
CN113936765A (zh) * 2021-12-17 2022-01-14 北京因数健康科技有限公司 周期行为报告的生成方法及装置、存储介质、电子设备
CN114513341B (zh) * 2022-01-21 2023-09-12 上海斗象信息科技有限公司 恶意流量检测方法、装置、终端及计算机可读存储介质
CN114513341A (zh) * 2022-01-21 2022-05-17 上海斗象信息科技有限公司 恶意流量检测方法、装置、终端及计算机可读存储介质
CN116127236A (zh) * 2023-04-19 2023-05-16 远江盛邦(北京)网络安全科技股份有限公司 基于并行结构的网页web组件识别方法及装置

Also Published As

Publication number Publication date
CN107294993B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN107294993A (zh) 一种基于集成学习的web异常流量监测方法
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN107766883A (zh) 一种基于加权决策树的优化随机森林分类方法及***
CN111881983B (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
CN106469181B (zh) 一种用户行为模式分析方法及装置
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及***
CN107203467A (zh) 一种分布式环境下监督学习算法的基准测试方法和装置
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN113609770B (zh) 基于分段线性拟合hi及lstm的滚动轴承rul预测方法
CN112001788A (zh) 一种基于rf-dbscan算法的***违约欺诈识别方法
Maakoul et al. Towards evaluating the COVID’19 related fake news problem: case of morocco
CN107368516A (zh) 一种基于层次聚类的日志审计方法及装置
CN106156179A (zh) 一种信息检索方法及装置
CN113837266A (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
Jha et al. Criminal behaviour analysis and segmentation using k-means clustering
Ismaili et al. A supervised methodology to measure the variables contribution to a clustering
CN117272204A (zh) 异常数据检测方法、装置、存储介质和电子设备
Carvalho et al. Using political party affiliation data to measure civil servants' risk of corruption
CN116865994A (zh) 一种基于大数据的网络数据安全预测方法
CN104200222B (zh) 一种基于因子图模型的图片中对象识别方法
Yu et al. An automatic recognition method of journal impact factor manipulation
CN115204475A (zh) 一种戒毒场所安全事件风险评估方法
Shi A method of predicting crime of theft based on bagging ensemble feature selection
Woods A Metamodel Recommendation System Using Meta-Learning
Du et al. Unstructured log oriented fault diagnosis for operation and maintenance management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant