CN105306296B - 一种基于lte信令的数据过滤处理方法 - Google Patents

一种基于lte信令的数据过滤处理方法 Download PDF

Info

Publication number
CN105306296B
CN105306296B CN201510694999.9A CN201510694999A CN105306296B CN 105306296 B CN105306296 B CN 105306296B CN 201510694999 A CN201510694999 A CN 201510694999A CN 105306296 B CN105306296 B CN 105306296B
Authority
CN
China
Prior art keywords
data
text
classification
training
adaboost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510694999.9A
Other languages
English (en)
Other versions
CN105306296A (zh
Inventor
窦慧晶
卞婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201510694999.9A priority Critical patent/CN105306296B/zh
Publication of CN105306296A publication Critical patent/CN105306296A/zh
Application granted granted Critical
Publication of CN105306296B publication Critical patent/CN105306296B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于LTE信令的数据过滤处理方法。具体为对LTE移动核心高速网络***进行大数据的过滤处理,采用简单过滤和内容深层过滤相结合的四级混合过滤模式。首先通过五元组进行简单数据预处理,然后根据KNN文本分类法确定数据源性质,再采用优化的AdaBoost算法实现基于内容的三级信息过滤,最终实现一个完整的数据过滤处理。与传统的过滤方法相比,本方法解决了传统的LTE***对数据过滤方面遗失和筛选错误的问题,具有较好的稳定性和准确率,对于数据的过滤有很好鲁棒性。本发明可直接应用于网络安全、网络信息数据处理、大数据分析等领域。

Description

一种基于LTE信令的数据过滤处理方法
技术领域
本发明涉及一种基于LTE信令的数据过滤处理方法,属于数据过滤处理技术领域。
背景技术
五元组简单数据过滤,是指首先定义变量SIP、DIP、SP、DP、PT分别为五元组过滤中的源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型,它们构成了五元组的基本元素。在一次会话中,根据过滤策略确定掩码SIP_MASK、DIP_MASK、SP_MASK、DP_MASK和PT_MASK的值,组成PCL(Policy Control List,策略控制列表),根据需求进行信息一级过滤。
KNN(KeyNearestNeighbor)算法是一种基于统计的模式识别算法,主要被用在文本分类中,其基本思想是:在新文本给定后,考虑在训练文本集中与该文本距离最近(即为最相似)的一篇文本,根据这篇文本所属的类别来判断新文本所属的类别。也就是说,把每一篇文本都看作是一个N维向量,计算新文本与训练文本集中文本的距离,通过距离来确定新文本的类别。
优化的AdaBoost算法是基于AdaBoost算法的最小风险贝叶斯深层过滤算法。以AdaBoost算法作为分类器的训练框架,用最小风险贝叶斯分类算法代替AdaBoost算法中的弱分类器,作为AdaBoost的分类器,最终达成两个算法的结合。最小风险贝叶斯分类算法就是以贝叶斯和朴素贝叶斯为基础来解决错误率问题,是最小错误率意义上的最优化。贝叶斯分类算法是通过某对象的先验概率模型,利用贝叶斯公式计算出其后验概率。从而得到对象源的主题(选择具有最大后验概率的类作为对象源所属的主题)。通过训练源数据集合,由贝叶斯分类算法得到每个数据信息在不同类的概率大小,构造出贝叶斯分类模型,朴素贝叶斯就是贝叶斯分类模型中误差率最小的,并且其所需估计参数很少,实现算法十分简单。AdaBoost算法是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后将这些弱分类器集合起来,最终构成一个最强的最终分类器(强分类器)。算法的主要特点有:
1.采用五元组简单过滤算法、KNN文本分类方法和改进的AdaBoost方法进行三级深层内容的信息过滤,有效的保证了***的过滤性能与鲁棒性;
2.高速性,准确性。KNN文本分类算法可以根据用户自身的需要来选择适合的文档,过滤掉无用的文档,对大量的网络数据进行快速、有效地自动分类,适用于在海量数据中进行信息筛选;
3.经优化的AdaBoost算法可以排除一些不必要的训练数据特征,关注于关键的训练数据,并且按照不同的主题过滤策略对数据进行过滤,把所有分类错误的可能性都考虑进去,很大程度上降低误判的风险;
4.降低***负荷,提高***运行效率。采用聚类分析方法对样本库进行自动组织与分类。
5.稳定性,通过三级过滤,可以极大提升过滤功能处理能力。
但是对于KNN文本分类算法,该算法也存在缺陷,当样本数量不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数,因为该算法只计算“最近的”邻居样本,所以当某一类的样本数量很大时,会导致新样本无法匹配到正确的样本,可以采用改变权值的方法(增大与该样本距离小的邻居的权值)来进行改进,但会带来算法的复杂度。
发明内容
针对以上问题,本发明的目的在于提供一种高效的,稳定的基于LTE信令的数据过滤处理方法,其采用五元组简单过滤方法进行数据预处理,然后采用KNN文本分类方法确定源信息的性质,最后通过优化的AdaBoost方法得到数据与根据聚类分析得到的样本进行特征匹配,最终实现深层内容过滤。
其具体步骤包括:
1.五元组简单过滤。
首先对网络数据进行简单的一级过滤———五元组过滤。定义变量SIP、DIP、SP、DP、PT分别表示五元组过滤中的源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型,它们构成了五元组的基本元素。在一次会话中,根据过滤策略确定掩码SIP_MASK、DIP_MASK、SP_MASK、DP_MASK和PT_MASK的值,组成PCL(Policy Control List,策略控制列表),从而进行信息一级过滤。
2.KNN文本分类方法确定源性质。
将经过五元组过滤处理后的数据称为新文本,将其与给定的训练文本集中的文本进行KNN文本分类计算,对新的输入实例即新文本,在训练文本集中找到与该实例最邻近的K个实例,则这K个实例的多数所属于的那个类,就是新文本的类。也就是说,把新文本和训练文本都看作是一个N维向量,计算新文本与训练文本集中每个文本的相似度,找出K个最相似的样本,通过加权距离和训练文本所属的类别来确定新文本的类别。
KNN算法过程描述如下:
1)对于新文本及训练文本,根据特征词形成新文本向量和训练文本向量。
根据传统的向量空间模型,文本信息被形式化为特征空间中的加权特征向量。即D=D(T1,W1;T2,W2;···;Tn,Wn),根据特征词确定新文本及训练文本的向量表示,T1,W1;T2,W2;···;Tn,Wn分别为每个文本信息形式化后的横纵特征向量。
2)计算新文本与训练文本集中每个文本的文本相似度.计算公式为:
其中di为新文本的特征向量,dj为第j类的中心向量,M为特征向量的维数,Wk为向量的第k维。
对于k值,因为KNN方法被看作是一种从样本中估计后验概率P(wi|x)的方法,所以为了得到可靠的估计,k值需越大越好,这样才可以提高估计的准确性,但另一方面,又希望这k个邻近点距离新文本越近越好,记新文本后验概率为P(wi|x1),只有当这k个邻近点距离新文本越近时,P(wi|x1)才会尽可能的逼近P(wi|x),以往都是根据人们的个人经验来确定k值,所以经常出现估计不准确的情况,若k值选择的过小,得到的邻近数会过小,则降低分类精度,若k值选择的过大,则容易增加噪声数据降低分类准确性,故现通过大量的实验证明,当k值取数据库中的所有文本个数时,新文本的分类结果为全局最优解。
3)在新文本的k个邻居中,依次计算每类的权重,
其中为新文本的特征向量,为相似度计算公式,为数据源性质;Cj为文本的类别,为文本之间的距离向量。
4)比较类的权重,将文本分到权重最大的那个类别中去。
综上所述,数据通过KNN文本分类的方法对数据信息进行二级过滤,确定数据源的性质。
3.优化的AdaBoost方法进行深层内容过滤。
本发明提出基于AdaBoost算法的最小风险贝叶斯深层过滤算法是以AdaBoost算法作为分类器的训练框架,用最小风险贝叶斯分类算法代替AdaBoost算法中的弱分类器,作为AdaBoost的分类器,达成两个算法的结合,即基于AdaBoost的最小风险贝叶斯深层过滤算法。
AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后将这些弱分类器集合起来,最终构成一个最强的最终分类器(强分类器)。其算法是根据改变数据分布来实现的,根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确性来确定每个样本的权值,将修改过的最新权值送到下层分类器中进行训练,最后将每次训练后得到的分类器进行融合,输出最终的最强分类器。
假定训练样本集为:S={(x1,y1),(x2,y2),……,(xi,yi),xi∈X,yi∈Y},X,Y分别对应于正例样本和负例样本,M为训练的最大循环次数,分类器的错误率记为εm,最小错误率记为
在AdaBoost原算法中,通过一个加权的多数表决方法来整合全部决策以产生最终的决策:
其中Pm(x)为分类器决策函数,AdaBoost算法可以对学***均。
贝叶斯分类算法是通过某对象的先验概率模型,利用贝叶斯公式计算出其后验概率。即对象源属于哪一类的主题,选择具有最大后验概率的类作为对象源所属的主题。通过训练源数据集合,由贝叶斯理论得到每个数据信息在不同类的概率大小,构造出贝叶斯模型。朴素贝叶斯是贝叶斯分类模型中误差率最小的,并且其所需估计参数很少,实现算法简单。最小风险贝叶斯分类算法就是以贝叶斯和朴素贝叶斯为基础来解决错误率问题,是最小错误率意义上的最优化。在本发明中,若数据被***判定为“敏感数据”当作垃圾数据过滤掉,但其恰恰又是用户所需要的内容,则会给用户造成很大的损失。通过最小风险贝叶斯分类方法确定数据源的主题,按照不同的主题过滤策略进行过滤,把所有分类错误都考虑进去,会很大程度上降低误判的风险。
已知P(ωi),P(X|ωi),i=1,2,……,c,及待识别的X(待过滤的网络数据包)的情况下,根据贝叶斯公式来计算出后验概率,
其中P(ωi)是先验概率,是由以往用户对网络数据的需求分析所得到的;P(ωj|X)是后验概率,是在得到信息X之后再重新加以更正的概率,P(X|ωi)是根据以往用户对网络数据的需求经验来判断收到的待识别X是否为垃圾网络数据的概率。
记数据损失为α,将决策判定规则定义为:
1)当网络数据是垃圾数据时,将其判断为垃圾数据不会造成任何损失,α=0;
2)当把垃圾网络数据判定为合法数据时,则损失α=0;
3)当把用户所需网络数据判定为垃圾数据时,则造成的损失是不可估量的,0<α<∞。
根据计算后得出的后验概率和设定的决策规则,按以下公式计算出采取di,i=1,2,……a的条件风险:
考虑到数据被误判后,要将损失α→0降到最小,故对之前得到的d个条件风险值R(di|X),i=1,2,……,d进行比较,从中找出使条件风险最小的决策,记为dk,dk就是最小风险贝叶斯分类决策。
本发明优化的AdaBoost方法如下:
以矩阵的形式输入网络数据,初始化权重执行循环m=1,2,……,M,将ωi的值代入AdaBoost框架中,通过最小风险贝叶斯分类器进行训练,得到假设P:X∈yi,将分类器对整个数据集进行遍历,并标记P分类正确的样本和分类错误的样本,根据总体样本的数量来判断错误样例个数,计算P的分类错误率αm,将分类错误率αm更新,得到训练样本的权值为继续开始下一轮的循环,直至M次循环结束。通过多次循环,基于AdaBoost的最小风险贝叶斯分类算法可归结出M个分类器Pm,经过算法得到:
最终P(x)就是基于内容的深层过滤算法中经过M次学习后所得到的最终分类器。
本发明可以取得如下有益效果:
本发明针对以上问题,本发明的目的在于提供一种高效的,稳定的基于LTE信令的数据过滤处理方法,其采用五元组简单过滤方法进行数据预处理,然后采用KNN文本分类方法确定源信息的性质,最后通过优化的AdaBoost方法得到数据与根据聚类分析得到的样本进行特征匹配,最终实现一套完整的基于LTE信令的数据过滤处理方法。数据过滤处理方法应用场景图如图1所示。数据处理分为三个过程,对LTE信令数据进行五元组简单数据过滤、通过KNN文本分类方法确定数据源性质、优化的AdaBoost方法对信令数据进行深层内容过滤,完成对所述LTE数据报文的数据处理,过程如图2所示。本发明比原有的信息过滤方法具有更高的过滤精确度与***鲁棒性,本发明可直接应用于网络安全、网络信息数据处理、大数据分析等领域。
附图说明
图1 LTE信令的数据过滤处理方法应用场景图。
图2数据过滤处理方法流程图。
图3过滤处理方法单元示意图示意。
图4 HASH规则设置。
图5 KNN文本分类方法说明图。
具体实施方式
为了更好地理解本发明,下面结合附图和具体实施方式对本发明作详细说明。本发明提出了一种新的基于LTE信令的三级数据过滤处理方法。下面对主要步骤进行具体说明。
1.五元组简单过滤
首先定义变量SIP、DIP、SP、DP、PT分别表示五元组中的源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型,根据过滤策略确定掩码SIP_MASK、DIP_MASK、SP_MASK、DP_MASK和PT_MASK的值,组成PCL(Policy Control List,策略控制列表),PCL是交换芯片比较高级的功能,它是在交换芯片上实现的过滤规则列表。
数据报文首先经过PCL(Ingress PCL)Engine的处理,根据报文的类型和PCL-ID生成一张IPCLTable,拿此表在TCAM中进行查找匹配,匹配成功的条件是:首先PCL-ID要相同,然后定义一个数据结构用来作为函数参数,并传递用户层的PCL指定过则,有多少规则就需要执行对少次匹配,本发明五元组过滤使用掩码,分别基于源IP地址+掩码SIP_MASK、目的IP地址+掩码DIP_MASK、源端口号+掩码SP_MASK、目的端口号+掩码DP_MASK、传输协议类型+掩码PT_MASK分别作为过滤条件,命中规则则保存输出,未命中规则,则进行丢弃处理。
2.KNN文本分类方法
1)根据特征词形成新文本向量和训练文本向量。
即D=D(T1,W1;T2,W2;···;Tn,Wn),根据特征词确定新文本及训练文本的向量表示。
2)计算新文本与训练文本集中每个文本的文本相似度.计算公式为:
其中di为新文本的特征向量,dj为第j类的中心向量,M为特征向量的维数,Wk为向量的第k维。
3)选取k值为数据库中的所有文本的个数,然后根据Sim的值按照从高到低排序,k等于几,就取前几个进行排序。
4)在新文本的k个邻居中,依次计算每类的权重,
其中为新文本的特征向量,为相似度计算公式,为数据源性质。
5)比较类的权重,也就是在k个邻居中,属于哪个类别的多,新文本就属于哪个类别。将信文本分到权重最大的那个类别中去。
以上为数据通过KNN文本分类方法进行的二级过滤,确定了数据源的性质。
3.优化的AdaBoost方法进行深层内容过滤。
本发明优化的AdaBoost方法是基于AdaBoost算法的最小风险贝叶斯深层过滤算法。它以AdaBoost算法作为分类器的训练框架,用最小风险贝叶斯分类算法代替AdaBoost算法中的弱分类器,作为AdaBoost的分类器,达成两个算法的结合,即基于AdaBoost的最小风险贝叶斯深层过滤算法。
1)将通过前两级过滤后的网络数据转换为矩阵的形式输入,在给定的矩形特征原型下,计算并获得矩形特征集,
2)初始化权重执行循环m=1,2,……,M,将ωi的值代入AdaBoost框架中,
3)以特征集为输入,通过最小风险贝叶斯分类器进行训练,得到假设P:X∈yi,将分类器对整个数据集进行遍历,并标记P分类正确的样本和分类错误的样本,根据总体样本的数量来判断错误样例个数,计算P的分类错误率αm
4)将分类错误率αm更新,得到训练样本的权值为继续开始下一轮的循环,直至M次循环结束。
5)通过多次循环,基于AdaBoost的最小风险贝叶斯分类算法可归结出M个分类器Pm,经过算法得到:
最终P(x)就是基于内容的深层过滤算法中经过M次学习后所得到的最终分类器。

Claims (1)

1.一种基于LTE信令的数据过滤处理方法,其特征在于:
本方法采用五元组简单过滤方法进行数据预处理,然后采用KNN文本分类方法确定源信息的性质,最后通过优化的AdaBoost方法得到数据与根据聚类分析得到的样本进行特征匹配,最终实现深层内容过滤;
其具体步骤包括:
1.五元组简单过滤;
首先对网络数据进行简单的一级过滤———五元组过滤;定义变量SIP、DIP、SP、DP、PT分别表示五元组过滤中的源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型,它们构成了五元组的基本元素;在一次会话中,根据过滤策略确定掩码SIP_MASK、DIP_MASK、SP_MASK、DP_MASK和PT_MASK的值,这些值组成策略控制列表PCL,从而进行信息一级过滤;
2.KNN文本分类方法确定源性质;
将经过五元组过滤处理后的数据称为新文本,将其与给定的训练文本集中的文本进行KNN文本分类计算,对新的输入实例即新文本,在训练文本集中找到与该实例最邻近的K个实例,则这K个实例的多数所属于的那个类,就是新文本的类;也就是说,把新文本和训练文本都看作是一个N维向量,计算新文本与训练文本集中每个文本的相似度,找出K个最相似的样本,通过加权距离和训练文本所属的类别来确定新文本的类别;
KNN算法过程描述如下:
1)对于新文本及训练文本,根据特征词形成新文本向量和训练文本向量;
根据传统的向量空间模型,文本信息被形式化为特征空间中的加权特征向量;即D=D(T1,W1;T2,W2;…;Tn,Wn),根据特征词确定新文本及训练文本的向量表示,T1,W1;T2,W2;…;Tn,Wn分别为每个文本信息形式化后的横纵特征向量;
2)计算新文本与训练文本集中每个文本的文本相似度.计算公式为:
其中di为新文本的特征向量,dj为第j类的中心向量,M为特征向量的维数,Wk为向量的第k维;
对于k值,因为KNN方法被看作是一种从样本中估计后验概率P(wi|x)的方法,所以为了得到可靠的估计,k值需越大越好,这样才可以提高估计的准确性,但另一方面,又希望这k个邻近点距离新文本越近越好,记新文本后验概率为P(wi|x1),只有当这k个邻近点距离新文本越近时,P(wi|x1)才会尽可能的逼近P(wi|x),以往都是根据人们的个人经验来确定k值,所以经常出现估计不准确的情况,若k值选择的过小,得到的邻近数会过小,则降低分类精度,若k值选择的过大,则容易增加噪声数据降低分类准确性,故现通过大量的实验证明,当k值取数据库中的所有文本个数时,新文本的分类结果为全局最优解;
3)在新文本的k个邻居中,依次计算每类的权重,
其中为新文本的特征向量,为相似度计算公式,为数据源性质;Cj为文本的类别,为文本之间的距离向量;
4)比较类的权重,将文本分到权重最大的那个类别中去;
综上所述,数据通过KNN文本分类的方法对数据信息进行二级过滤,确定数据源的性质;
3.优化的AdaBoost方法进行深层内容过滤;
本方法提出基于AdaBoost算法的最小风险贝叶斯深层过滤算法是以AdaBoost算法作为分类器的训练框架,用最小风险贝叶斯分类算法代替AdaBoost算法中的弱分类器,作为AdaBoost的分类器,达成两个算法的结合,即基于AdaBoost的最小风险贝叶斯深层过滤算法;
AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器即弱分类器,然后将这些弱分类器集合起来,最终构成一个最强的最终分类器即强分类器;其算法是根据改变数据分布来实现的,根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确性来确定每个样本的权值,将修改过的最新权值送到下层分类器中进行训练,最后将每次训练后得到的分类器进行融合,输出最终的最强分类器;
若训练样本集为:S={(x1,y1),(x2,y2),……,(xi,yi),xi∈X,yi∈Y},X,Y分别对应于正例样本和负例样本,M为训练的最大循环次数,分类器的错误率记为εm,最小错误率记为
在AdaBoost原算法中,通过一个加权的多数表决方法来整合全部决策以产生最终的决策:
其中Pm(x)为分类器决策函数,AdaBoost算法可以对学***均;
贝叶斯分类算法是通过某对象的先验概率模型,利用贝叶斯公式计算出其后验概率;即对象源属于哪一类的主题,选择具有最大后验概率的类作为对象源所属的主题;通过训练源数据集合,由贝叶斯理论得到每个数据信息在不同类的概率大小,构造出贝叶斯模型;朴素贝叶斯是贝叶斯分类模型中误差率最小的,并且其所需估计参数很少,实现算法简单;最小风险贝叶斯分类算法就是以贝叶斯和朴素贝叶斯为基础来解决错误率问题,是最小错误率意义上的最优化;在本方法中,若数据被***判定为“敏感数据”当作垃圾数据过滤掉,但其恰恰又是用户所需要的内容,则会给用户造成很大的损失;通过最小风险贝叶斯分类方法确定数据源的主题,按照不同的主题过滤策略进行过滤,把所有分类错误都考虑进去,会很大程度上降低误判的风险;
已知P(ωi),P(X|ωi),i=1,2,……,c,及待识别的X即待过滤的网络数据包的情况下,根据贝叶斯公式来计算出后验概率,
其中P(ωi)是先验概率,是由以往用户对网络数据的需求分析所得到的;P(ωj|X)是后验概率,是在得到信息X之后再重新加以更正的概率,P(X|ωi)是根据以往用户对网络数据的需求经验来判断收到的待识别X是否为垃圾网络数据的概率;
记数据损失为α,将决策判定规则定义为:
1)当网络数据是垃圾数据时,将其判断为垃圾数据不会造成任何损失,α=0;
2)当把垃圾网络数据判定为合法数据时,则损失α=0;
3)当把用户所需网络数据判定为垃圾数据时,则造成的损失是不可估量的,0<α<∞;
根据计算后得出的后验概率和设定的决策规则,按以下公式计算出采取di,i=1,2,……a的条件风险:
考虑到数据被误判后,要将损失α→0降到最小,故对之前得到的d个条件风险值R(di|X),i=1,2,……,d进行比较,从中找出使条件风险最小的决策,记为dk,dk就是最小风险贝叶斯分类决策;
本方法优化的AdaBoost方法如下:
以矩阵的形式输入网络数据,初始化权重执行循环m=1,2,……,M,将ωi的值代入AdaBoost框架中,通过最小风险贝叶斯分类器进行训练,得到假设P:X∈yi,将分类器对整个数据集进行遍历,并标记P分类正确的样本和分类错误的样本,根据总体样本的数量来判断错误样例个数,计算P的分类错误率αm,将分类错误率αm更新,得到训练样本的权值为继续开始下一轮的循环,直至M次循环结束;通过多次循环,基于AdaBoost的最小风险贝叶斯分类算法可归结出M个分类器Pm,经过算法得到:
最终P(x)就是基于内容的深层过滤算法中经过M次学习后所得到的最终分类器。
CN201510694999.9A 2015-10-21 2015-10-21 一种基于lte信令的数据过滤处理方法 Expired - Fee Related CN105306296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510694999.9A CN105306296B (zh) 2015-10-21 2015-10-21 一种基于lte信令的数据过滤处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510694999.9A CN105306296B (zh) 2015-10-21 2015-10-21 一种基于lte信令的数据过滤处理方法

Publications (2)

Publication Number Publication Date
CN105306296A CN105306296A (zh) 2016-02-03
CN105306296B true CN105306296B (zh) 2018-10-12

Family

ID=55203076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510694999.9A Expired - Fee Related CN105306296B (zh) 2015-10-21 2015-10-21 一种基于lte信令的数据过滤处理方法

Country Status (1)

Country Link
CN (1) CN105306296B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107332704A (zh) * 2017-07-03 2017-11-07 南京华苏科技有限公司 评估高速铁路移动用户使用lte服务质量的方法和***
CN107908720A (zh) * 2017-11-14 2018-04-13 河北工程大学 一种基于AdaBoost算法的专利数据清洗方法及***
CN108009249B (zh) * 2017-12-01 2020-08-18 北京中视广信科技有限公司 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法
CN108091134B (zh) * 2017-12-08 2020-09-25 北京市交通运行监测调度中心 一种基于手机信令位置轨迹数据的通用数据集生成方法
GB201805293D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Attention filtering for multiple instance learning
CN116508036A (zh) * 2020-10-27 2023-07-28 贝宝公司 使用加权训练数据的机器学习模型的多阶段训练技术
CN112784910A (zh) * 2021-01-28 2021-05-11 武汉市博畅软件开发有限公司 一种垃圾数据深度过滤方法及***
CN117640794A (zh) * 2023-02-21 2024-03-01 兴容(上海)信息技术股份有限公司 一种网络流划分方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050556A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 一种垃圾邮件的特征选择方法及其检测方法
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN104750850A (zh) * 2015-04-14 2015-07-01 中国地质大学(武汉) 一种基于信息增益率的属性选择方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050556A (zh) * 2014-05-27 2014-09-17 哈尔滨理工大学 一种垃圾邮件的特征选择方法及其检测方法
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN104750850A (zh) * 2015-04-14 2015-07-01 中国地质大学(武汉) 一种基于信息增益率的属性选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
垃圾邮件过滤的贝叶斯方法综述;张铭锋;《计算机应用与研究》;20051231(第8期);第14页到第18页 *

Also Published As

Publication number Publication date
CN105306296A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
CN105306296B (zh) 一种基于lte信令的数据过滤处理方法
Zhang et al. Autonomous unknown-application filtering and labeling for dl-based traffic classifier update
CN109889436B (zh) 一种社交网络中垃圾邮件发送者的发现方法
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN109299741B (zh) 一种基于多层检测的网络攻击类型识别方法
CN102420723A (zh) 一种面向多类入侵的异常检测方法
Zhang et al. POSTER: A PU learning based system for potential malicious URL detection
CN110443352B (zh) 基于迁移学习的半自动神经网络调优方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN102346829A (zh) 基于集成分类的病毒检测方法
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及***
CN101996241A (zh) 一种基于贝叶斯算法的内容过滤方法
Dawoud et al. Deep learning for network anomalies detection
CN110442568A (zh) 字段标签的获取方法及装置、存储介质、电子装置
CN110460605A (zh) 一种基于自动编码的异常网络流量检测方法
CN108199863A (zh) 一种基于两阶段序列特征学习的网络流量分类方法及***
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN107483451B (zh) 基于串并行结构网络安全数据处理方法及***、社交网络
Kang et al. Learning imbalanced datasets with maximum margin loss
CN105184486A (zh) 一种基于有向无环图支持向量机的电网业务分类方法
CN106975617B (zh) 一种基于色选机的物料分类方法
CN112990371B (zh) 一种基于特征扩增的无监督夜间图像分类方法
CN105224954B (zh) 一种基于Single-pass去除小话题影响的话题发现方法
Zhao et al. Mdcs: More diverse experts with consistency self-distillation for long-tailed recognition
CN106557983B (zh) 一种基于模糊多类svm的微博垃圾用户检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181012

Termination date: 20211021