CN104050556B - 一种垃圾邮件的特征选择方法及其检测方法 - Google Patents

一种垃圾邮件的特征选择方法及其检测方法 Download PDF

Info

Publication number
CN104050556B
CN104050556B CN201410228073.6A CN201410228073A CN104050556B CN 104050556 B CN104050556 B CN 104050556B CN 201410228073 A CN201410228073 A CN 201410228073A CN 104050556 B CN104050556 B CN 104050556B
Authority
CN
China
Prior art keywords
feature
subset
classification
spam
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410228073.6A
Other languages
English (en)
Other versions
CN104050556A (zh
Inventor
孙广路
何勇军
刘广明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daqing Lehen Information Technology Co.,Ltd.
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201410228073.6A priority Critical patent/CN104050556B/zh
Publication of CN104050556A publication Critical patent/CN104050556A/zh
Application granted granted Critical
Publication of CN104050556B publication Critical patent/CN104050556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种垃圾邮件的特征选择方法及其检测方法,包括:基于字节的N‑grams方法进行邮件的特征提取;根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集;根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集;通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集;根据所述最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测。采用本发明提出的垃圾邮件的特征选择方法及其检测方法,使得垃圾邮件的特征选择及垃圾邮件检测的计算过程简单,时间复杂度低,而且使得垃圾邮件检测的准确率大大提高。

Description

一种垃圾邮件的特征选择方法及其检测方法
技术领域
本发明涉及计算机网络安全技术领域,尤其涉及一种垃圾邮件的特征选择方法及其检测方法。
背景技术
随着互联网的快速发展,电子邮件成为了新型的信息传递工具,凭借其价格低廉、方便快捷等优点,广泛的应用于各个领域。然后广泛的使用也带来了一些负面的影响,大量的垃圾邮件充斥在人们的邮箱中,不仅影响了用户的正常使用,而且对运营商的形象产生了损害。许多垃圾邮件***应运而生,但是面临着数据量大、运行效率低等问题。
传统的垃圾邮件过滤方法,包括Flexible Bayes、决策树、SVM、Boosting在内的很多机器学习方法都被应用到垃圾邮件过滤中。从目前的研究结果看,Flexible Bayes、SVM、Boosting、Winnow 等这些机器学习方法在一些小规模数据上似乎可以达到实用化的程度。但是对于大规模数据来说,训练分类器会花费大量时间,而且由于数据繁杂,难以得到最优的训练模型。
在目前的特征方法当中,针对高维二值数据的特征选择方法研究甚少,目前还没有有效的解决办法。传统的方法可以处理二值数据的特征选择,但是对于高维的数据来说,那些方法往往复杂度很高,难以在实际应用中取得良好的效果。
发明内容
(一)要解决的技术问题
本发明的目的是提供一种垃圾邮件的特征选择方法及其检测方法,以解决现有特征选择方法以及传垃圾邮件检测方法中存在的计算复杂度高,花费时间多,且难以在实际应用中取得良好的效果的问题。
(二)技术方案
为了达到上述目的,本发明提出了一种垃圾邮件的特征选择方法,包括:
基于字节的N-grams方法进行邮件的特征提取;
根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集;
根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集;
通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集。
本发明还提出了一种基于上述垃圾邮件的特征选择方法的垃圾邮件检测方法,包括:
根据所述最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测。
优选地,所述基于字节的N-grams方法进行邮件的特征提取具体包括:
将邮件按照字节流进行预设长度的字节切分得到所述邮件的hash字典;
将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集。
优选地,所述将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集具体为:
当所述hash字典中的特征在所述预设样本中出现则所述hash字典对应位置的特征值设为1,若未出现,则所述hash字典对应位置的特征值设为0,得到一个稀疏的二值特征数据集。
优选地,所述根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集具体包括:
计算提取的特征与预设邮件类别的相对密度,具体如下:
其中,F为特征集,Fi为特征集中的第i个特征,C为预设邮件类别集,Cl为类别集中的第l个类别,为类别Cl所含样本数,L为类别总数,M为特征总数,表示第i个特征数值为1时相对于类别Cl的相对密度,且
根据所述相对密度判断所述提取的特征与预设邮件类别的相关度;
根据所述相关度进行特征排序生成初始特征子集。
优选地,所述根据相对密度判断所述提取的特征与预设邮件类别的相关度具体包括:
根据所述相对密度进行相关度计算,公式如下:
其中,W(Fi)diff的范围为[0,1],表示第i个特征数值为1时相对于类别C1的相对密度,表示第i个特征数值为1时相对于类别C0的相对密度,且当W(Fi)diff=0时,表示特征Fi与类别最不相关,当W(Fi)diff=1,表示特征Fi与类别最相关;
以W(Fi)diff作为评价准则,将所述W(Fi)diff与预设阈值ω进行比较,判断所述特征Fi与预设邮件类别的相关度。
优选地,所述根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集具体包括:
初始化特征子集,对于所述初始特征子集中的特征Fi依据相关系数从所述初始特征子集中选取和所述Fi最相关的K个特征,所述相关系数的计算公式如下:
其中,fi和ci分别是特征Fi和类别Ci的分量,n为样本的个数,是特征Fi和类别Ci均值,计算公式如下:
将这K个特征组成集合Mi,并将所述Mi作为特征Fi的近似马尔科夫毯计算所述特征Fi的分值δG(Fi|Mi),计算公式如下:
其中,DKL表示相对熵,是衡量变量之间相似度的指标,计算公式如下:
根据所述分值δG(Fi|Mi)删除所述初始特征子集中的冗余特征得到候选特征子集。
优选地,所述根据分值δG(Fi|Mi)删除所述初始特征子集中的冗余特征得到候选特征子集具体包括:
根据所述分值δG(Fi|Mi)对所述初始特征子集中的特征进行排序,删除值最小的δG(Fi|Mi)所对应的特征;
循环上述步骤,根据预设特征个数得到候选特征子集。
优选地,所述通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评级选择最优特征子集具体包括:
所述在线逻辑回归分类器利用预测函数对所述候选特征子集进行预测,所述预测函数为:
其中,w为权重,b为偏置,x为输入,P(Y|x)为预测结果且范围为[0,1];
对于所述候选特征子集中的特征输入,获取所述预测函数的预测结果,当预测结果P>0.5时,则为垃圾邮件,当预测结果P≤0.5时,则为正常邮件;
根据所述预测结果对所述候选特征子集中的特征进行评价提取出预定数量的在所述在线逻辑回归分类器上预测效果最优的最优特征子集。
优选地,所述根据最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测具体为:
当有邮件需要检测时,所述在线逻辑回归分类器对所述最优特征子集进行预测;
根据预测结果检测出垃圾邮件。
(三)有益效果
本发明提出的一种垃圾邮件的特征选择方法及其检测方法,基于封装式特征选择算法进行垃圾邮件的特征选取,大幅度降低特征维数,并采用在线逻辑回归模型去除邮件数据中大量的不相关和冗余特征,生成最优的特征子集,并利用所述最优特征子集进行垃圾邮件检测,从根本上提高检测准确率并减少分类算法消耗的时间,可以广泛应用在垃圾邮件检测中。
附图说明
图1为本发明一种垃圾邮件的特征选择方法流程图;
图2为本发明一种基于垃圾邮件的特征选择方法的垃圾邮件检测方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提出了一种垃圾邮件的特征选择方法,如图1所示,包括以下步骤:
S101基于字节的N-grams方法进行邮件的特征提取,具体包括:将邮件按照字节流进行预设长度的字节切分得到所述邮件的hash字典;将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集;
其中,将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集具体为:当所述hash字典中的特征在所述预设样本中出现则所述hash字典对应位置的特征值设为1,若未出现,则所述hash字典对应位置的特征值设为0,得到一个稀疏的二值特征数据集。
S102根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集,具体包括:计算提取的特征与预设邮件类别的相对密度,具体如下:
其中,F为特征集,Fi为特征集中的第i个特征,C为预设邮件类别集,Cl为类别集中的第l个类别,为类别Cl所含样本数,L为类别总数,M为特征总数,表示第i个特征数值为1时相对于类别Cl的相对密度,且根据所述相对密度判断所述提取的特征与预设邮件类别的相关度;根据所述相关度进行特征排序生成初始特征子集。
其中,根据相对密度判断所述提取的特征与预设邮件类别的相关度具体包括:根据所述相对密度进行相关度计算,公式如下:
其中,W(Fi)diff的范围为[0,1],表示第i个特征数值为1时相对于类别C1的相对密度,表示第i个特征数值为1时相对于类别C0的相对密度,且当W(Fi)diff=0时,表示特征Fi与类别最不相关,当W(Fi)diff=1,表示特征Fi与类别最相关;以W(Fi)diff作为评价准则,将所述W(Fi)diff与预设阈值ω进行比较,判断所述特征Fi与预设邮件类别的相关度。本发明根据二值特征的特点,采用基于密度的方法,尤其对于二值的稀疏数据,计算方法简单,时间复杂度低,而且准确率大大提高。
S103根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集,具体包括:
初始化特征子集,对于所述初始特征子集中的特征Fi依据相关系数从所述初始特征子集中选取和所述Fi最相关的K个特征,所述相关系数的计算公式如下:
其中,fi和ci分别是特征Fi和类别Ci的分量,n为样本的个数,是特征Fi和类别Ci均值,计算公式如下:
将这K个特征组成集合Mi,并将所述Mi作为特征Fi的近似马尔科夫毯计算所述特征Fi的分值δG(Fi|Mi),计算公式如下:
其中,DKL表示相对熵,是衡量变量之间相似度的指标,计算公式如下:
根据所述分值δG(Fi|Mi)删除所述初始特征子集中的冗余特征得到候选特征子集,具体包括以下步骤:根据所述分值δG(Fi|Mi)对所述初始特征子集中的特征进行排序,删除值最小的δG(Fi|Mi)所对应的特征;循环上述步骤,根据预设特征个数得到候选特征子集。
S104通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集,具体包括:所述在线逻辑回归分类器利用预测函数对所述候选特征子集进行预测,所述预测函数为:
其中,w为权重,b为偏置,x为输入,P(Y|x)为预测结果且范围为[0,1];
对于所述候选特征子集中的特征输入,获取所述预测函数的预测结果,当预测结果P>0.5时,则为垃圾邮件,当预测结果P≤0.5时,则为正常邮件;
根据所述预测结果对所述候选特征子集中的特征进行评价提取出预定数量的在所述在线逻辑回归分类器上预测效果最优的最优特征子集。
下面以具体实施例对本发明进行详细说明。
随着反垃圾邮件技术的发展,发送垃圾邮件技术也在提高,垃圾邮件发送者通过故意拼写错误、字符替换和***空白等形式对垃圾邮件特征的单词进行变体,从而逃避检测***的检测。为了克服这些问题,本发明采用基于字节的N-grams方法进行邮件的特征提取。基于字节级n-grams特征提取方法使用非常方便,不需要任何词典的支持,不要需要对句子进行分词;在使用之前也不需要对语料库进行训练。在对邮件提取特征时,无须对邮件进行预处理,也不用考虑邮件编码问题,而是直接将邮件转化为无差别的字节流。
基于n-grams的特征提取方法是将邮件按照字节流进行大小为n字节进行切分(其中,n取值为1,2,3,4…),得到长度为n个字节的若干个串,每个串称为1个gram。如:information,按照n=4时进行滑动窗口切分为:info、nfor、form、orma、rmat、mati、atio和tion这8个4-grams的特征。
对所有的训练数据进行特征提取后,将得到一个高维的hash字典,字典中的每一个位置,都是一个特征。将预设样本与hash字典进行对比,字典中的特征在样本中出现则相应位置的特征值为1,若未出现,则对应位置的特征值为0。最后得到一个高维的稀疏的二值特征数据集。
通过n-grams方法提取出的特征只有0和1两种数值,而且数据相当稀疏,采用经典的方法可以处理这样的数据,但是会带来相当高的时间消耗。本发明采用特征和类别间的相对密度来衡量特征与类别之间的相关度,不需要复杂的运算与迭代。相对密度的公式,具体如下:
其中,F为特征集,Fi为特征集中的第i个特征,C为预设邮件类别集,Cl为类别集中的第l个类别,为类别Cl所含样本数,L为类别总数,M为特征总数,表示第i个特征数值为1时相对于类别Cl的相对密度,且
本发明采用特征排序的方法作为特征选择的第一阶段。首先需要通过评价准则对每一维特征进行打分,通过分数进行排序。本发明针对二值特征的特点,采用衡量特征与类别相关程度的公式作为评价准则,具体如下:
因为所以W(Fi)diff的范围为[0,1]。且当W(Fi)diff=0时,表示特征Fi与类别最不相关,当W(Fi)diff=1,表示特征Fi与类别最相关。W(Fi)diff分数越高,表示特征与类别相关程度越高。因此可以将W(Fi)diff作为评价准则。
根据实际的需求预设一个阈值ω,对于W(Fi)diff≥ω的特征,认为与类别相关程度较高,保留下来并生成初始的特征子集F,其它不相关的特征即被删除。
通过相关性的检测,数据中还存在大量的冗余特征,这种特征会带来不必要的时间消耗,甚至影响分类器的准确度,因此删除冗余特征是必要的。
在初始的特征子集基础上,根据马尔科夫毯理论,删除子集中的冗余特征,选出最优的特征子集。马尔科夫毯理论认为:假设特征集合为F,存在一个子集M且不包含有特征Fi,如果在子集M的条件下,特征Fi与集合F-M-{Fi}相互独立,那么说M为Fi的马尔科夫毯。具体公式可以表示如下:
P(F-Mi-{Fi},C|Fi,Mi)=P(F-Mi-{Fi},C|Mi)
如果满足上式,可以认为子集M包含有特征Fi的所有信息,因此Fi为冗余的特征,可以将其删除。但是实际应用中,搜索最优的马尔科夫毯是NP难问题,因此本发明采用启发式的算法,提出一种近似马尔科夫毯模型。
本发明实施例采用向后删除的策略,逐个删除冗余的特征。首先,初始化特征子集G=F,对于每一维特征Fi,依据相关系数从子集G-{Fi}中选取和Fi最相关的K个特征,所述相关系数的计算公式如下:
其中,fi和ci分别是特征Fi和类别Ci的分量,n为样本的个数,是特征Fi和类别Ci均值,计算公式如下:
将这K个特征组成集合Mi,并将所述Mi作为特征Fi的近似马尔科夫毯计算所述特征Fi的分值δG(Fi|Mi),计算公式如下:
其中DKL表示KL距离,也称为相对熵,是衡量变量之间相似度的指标,DKL值越小,表示相似度越高。由于需要计算概率值,但是很难得到特征的真正分布,因此这里采用原始的概率定义计算联合概率分布的值。KL距离公式如下:
通过δG(Fi|Mi)的计算,容易知道δG(Fi|Mi)分数越小,表示Mi与Fi的相似度越高,Mi包含有Fi的信息越多,可以将Mi近似看成Fi的马尔科夫毯。因此按照δG(Fi|Mi)的分数大小进行排序,删除分数最小的δG(Fi|Mi)所对应的特征Fi。如此循环下去,可以根据需要自行设置剩余特征个数,但是为了能够得到较优的特征自己,我们会得到候选的n个特征子集G1,G2,...,Gn,从中选择最优的子集。
本发明实施例中提出的特征子集的评价方法。相比于其它方法更具有针对性,处理某一特定的数据可以有很好的效果。将特征选择方法与分类器封装到一起,通过分类器对特征子集进行评价。经过两阶段的特征选择后,选出的特征都是显著的特征,包含着相应类别的主要信息,因此可分能力更强。本发明采用的过滤器为在线逻辑回归(LR)分类器,其时间复杂度低,分类效率高,处理高维数据有很大优势。
逻辑回归模型的思想是存在一个超平面f(x)=w·x+b=0,预测函数为:
其中w为权重,b为偏置,x为输入,P(Y|x)为输出且范围是[0,1]的一个连续值。对于给定的输入实例x,通过式的计算会得倒一个[0,1]的一个数值P,当P>0.5时,取Y=1,即预测结果为垃圾邮件,反之当P≤0.5时,取Y=0,预测结果为正常邮件。
本发明实施例采用的是随机梯度下降的更新方式,传统的梯度下降虽然可以得到全局最优解,但是每一次迭代都需要遍历所有的数据,处理大量数据时,效率极低。随机梯度下降的思想是只对本次的实例进行训练,不需要遍历所有的样本,效率高,可以得到次优解。随机梯度下降的更新方式如下:
wi←wi-α(f(xi)-Yi)xi
通过在线逻辑回归模型的训练与分类,通过式的计算将会给每一个样本一个分数,当分数大于0.5,预测器类别为垃圾邮件,反之则预测为正常邮件,下面将通过预测类别与实际类比对子集进行评价。
对于n个候选子集G1,G2,...,Gn,我们想要得到分类效果最好的那一个特征子集作为,根据上一步骤得到的预测结果,我们将对每一个子集进行评价。通过上一步的分类,可以得到一些相关数据,表1列出了计算评价函数需要的统计量:
表1评价函数统计表
根据这些数据可以得到计算下面的统计量:
其中BER被称为均衡错误率,当正常邮件与垃圾邮件数量差异较大时,通过BER可以更好的评价特征集在分类器上的效果。具体地,通过在线逻辑回归分类器特征集合进行分类,其中正常邮件数为P,垃圾邮件数为N,并统计分类器正确分类的正常邮件数TP和垃圾邮件数TN,通过公式TP=P-FN,TN=N-FP可以得到TP和TN。
最后将会得到一系列的BER值BER1,BER2......BERn,选择最小BER值对应的特征子集Gopt作为最终的特征子集即最优特征子集,说明在在线逻辑回归模型上,最优特征子集Gopt有着最好的分类效果。
此外,本发明还提出了一种基于垃圾邮件的特征选择方法的垃圾邮件检测方法,如图2所示,包括以下步骤:
S201基于字节的N-grams方法进行邮件的特征提取,具体包括:将邮件按照字节流进行预设长度的字节切分得到所述邮件的hash字典;将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集。
其中,将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集具体为:当所述hash字典中的特征在所述预设样本中出现则所述hash字典对应位置的特征值设为1,若未出现,则所述hash字典对应位置的特征值设为0,得到一个稀疏的二值特征数据集。
S202根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集,具体包括:计算提取的特征与预设邮件类别的相对密度,具体如下:
其中,F为特征集,Fi为特征集中的第i个特征,C为预设邮件类别集,Cl为类别集中的第l个类别,为类别Cl所含样本数,L为类别总数,M为特征总数,表示第i个特征数值为1时相对于类别Cl的相对密度,且根据所述相对密度判断所述提取的特征与预设邮件类别的相关度;根据所述相关度进行特征排序生成初始特征子集。
其中,根据相对密度判断所述提取的特征与预设邮件类别的相关度具体包括:根据所述相对密度进行相关度计算,公式如下:
其中,W(Fi)diff的范围为[0,1],表示第i个特征数值为1时相对于类别C1的相对密度,表示第i个特征数值为1时相对于类别C0的相对密度,且当W(Fi)diff=0时,表示特征Fi与类别最不相关,当W(Fi)diff=1,表示特征Fi与类别最相关;以W(Fi)diff作为评价准则,将所述W(Fi)diff与预设阈值ω进行比较,判断所述特征Fi与预设邮件类别的相关度。
S203根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集,具体包括:初始化特征子集,对于所述初始特征子集中的特征Fi依据相关系数从所述初始特征子集中选取和所述Fi最相关的K个特征,所述相关系数的计算公式如下:
其中,fi和ci分别是特征Fi和类别Ci的分量,n为样本的个数,是特征Fi和类别Ci均值,计算公式如下:
将这K个特征组成集合Mi,并将所述Mi作为特征Fi的近似马尔科夫毯计算所述特征Fi的分值δG(Fi|Mi),计算公式如下:
其中,DKL表示相对熵,是衡量变量之间相似度的指标,计算公式如下:
根据所述分值δG(Fi|Mi)删除所述初始特征子集中的冗余特征得到候选特征子集,具体包括以下步骤:根据所述分值δG(Fi|Mi)对所述初始特征子集中的特征进行排序,删除值最小的δG(Fi|Mi)所对应的特征;循环上述步骤,根据预设特征个数得到候选特征子集。
S204通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集,具体包括:所述在线逻辑回归分类器利用预测函数对所述候选特征子集进行预测,所述预测函数为:
其中,w为权重,b为偏置,x为输入,P(Y|x)为预测结果且范围为[0,1];对于所述候选特征子集中的特征输入,获取所述预测函数的预测结果,当预测结果P>0.5时,则为垃圾邮件,当预测结果P≤0.5时,则为正常邮件;根据所述预测结果对所述候选特征子集中的特征进行评价提取出预定数量的在所述在线逻辑回归分类器上预测效果最优的最优特征子集。
S205根据所述最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测,具体为:当有邮件需要检测时,所述在线逻辑回归分类器对所述最优特征子集进行预测;根据预测结果检测出垃圾邮件。
由于垃圾邮件检测***需要实时更新与检测,因此选择在线逻辑回归模型作为分类器,不仅能提高识别准确率,而且能减小训练与识别的时间复杂度。与传统的垃圾邮件检测方法相比,本发明旨在通过基于垃圾邮件的特征选择方法,大幅度降低特征维数,通过逻辑回归模型得到最优的特征子集,在分类阶段,使用在线逻辑回归模型对垃圾邮件进行检测。
通过封装式的特征选择方法,得到了最终的最优特征子集Gopt,其中包含的都是与类别相关性高,且冗余性小的特征,有着较强的分类性能。通过在线逻辑回归模型的评测,使得最优子集Gopt在在线逻辑回归模型上有着最好的表现,因此检测阶段使用逻辑回归模型,可以得到最优的预测效果。
每当有邮件需要检测时,逻辑回归分类器将通过计算的值给每一封邮件一个分值,当这个分值对于0.5时,给出判断为垃圾邮件,反之这个分值小于等于0.5时,给出判断为正常邮件。
本发明提出的一种垃圾邮件的特征选择方法及其检测方法,基于封装式特征选择算法进行垃圾邮件的特征选取,大幅度降低特征维数,并采用在线逻辑回归模型去除邮件数据中大量的不相关和冗余特征,生成最优的特征子集,并利用所述最优特征子集进行垃圾邮件检测,从根本上提高检测准确率并减少分类算法消耗的时间,可以广泛应用在垃圾邮件检测中。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (7)

1.一种垃圾邮件的特征选择方法,其特征在于,包括:
基于字节的N-grams方法进行邮件的特征提取;
根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集;
根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集;
通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集;
所述基于字节的N-grams方法进行邮件的特征提取具体包括:
将邮件按照字节流进行预设长度的字节切分得到所述邮件的hash字典;
将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集;
所述将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集具体为:
所述hash字典中的特征在所述预设样本中出现则所述hash字典对应位置的特征值设为1,若未出现,则所述hash字典对应位置的特征值设为0,得到一个稀疏的二值特征数据集;
所述根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集具体包括:
计算提取的特征与预设邮件类别的相对密度,具体如下:
其中,F为特征集,Fi为特征集中的第i个特征,C为预设邮件类别集,Cl为类别集中的第l个类别,为类别Cl所含样本数,L为 类别总数,M为特征总数,表示第i个特征数值为1时相对于类别Cl的相对密度,且
根据所述相对密度判断所述提取的特征与预设邮件类别的相关度;
根据所述相关度进行特征排序生成初始特征子集。
2.如权利要求1所述的方法,其特征在于,所述根据相对密度判断所述提取的特征与预设邮件类别的相关度具体包括:
根据所述相对密度进行相关度计算,公式如下:
其中,W(Fi)diff的范围为[0,1],表示第i个特征数值为1时相对于类别C1的相对密度,表示第i个特征数值为1时相对于类别C0的相对密度,且当W(Fi)diff=0时,表示特征Fi与类别最不相关,当W(Fi)diff=1,表示特征Fi与类别最相关;
将W(Fi)diff作为评价准则,对所述W(Fi)diff与预设阈值ω进行比较,判断所述特征Fi与预设邮件类别的相关度。
3.如权利要求1所述的方法,其特征在于,所述根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集具体包括:
初始化特征子集,对于所述初始特征子集中的特征Fi依据相关系数从所述初始特征子集中选取和所述Fi最相关的K个特征,所述相关系数的计算公式如下:
其中,fi和ci分别是特征Fi和类别Ci的分量,n为样本的个数,是特征Fi和类别Ci均值,计算公式如下:
将这K个特征组成集合Mi,并将所述Mi作为特征Fi的近似马尔科夫毯计算所述特征Fi的分值δG(Fi|Mi),计算公式如下:
其中,DKL表示相对熵,是衡量变量之间相似度的指标,计算公式如下:
根据所述分值δG(Fi|Mi)删除所述初始特征子集中的冗余特征得到候选特征子集。
4.如权利要求3所述的方法,其特征在于,所述根据分值δG(Fi|Mi)删除所述初始特征子集中的冗余特征得到候选特征子集具体包括:
根据所述分值δG(Fi|Mi)对所述初始特征子集中的特征进行排序,删除值最小的δG(Fi|Mi)所对应的特征;
循环上述权利要求3的各个步骤,根据预设特征个数得到候选特征子集。
5.如权利要求1所述的方法,其特征在于,所述通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评级选择最优特征子集具体包括:
所述在线逻辑回归分类器利用预测函数对所述候选特征子集进 行预测,所述预测函数为:
其中,w为权重,b为偏置,x为输入,P(Y|x)为预测结果且范围为[0,1];
对于所述候选特征子集中的特征输入,获取所述预测函数的预测结果,当预测结果P>0.5时,则为垃圾邮件,当预测结果P≤0.5时,则为正常邮件;
根据所述预测结果对所述候选特征子集中的特征进行评价提取出预定数量的在所述在线逻辑回归分类器上预测效果最优的最优特征子集。
6.一种基于权利要求1所述的特征选择方法的垃圾邮件检测方法,其特征在于,包括:
根据所述最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测。
7.如权利要求6所述的方法,其特征在于,所述根据最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测具体为:
当有邮件需要检测时,所述在线逻辑回归分类器对所述最优特征子集进行预测;
根据预测结果检测出垃圾邮件。
CN201410228073.6A 2014-05-27 2014-05-27 一种垃圾邮件的特征选择方法及其检测方法 Active CN104050556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410228073.6A CN104050556B (zh) 2014-05-27 2014-05-27 一种垃圾邮件的特征选择方法及其检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410228073.6A CN104050556B (zh) 2014-05-27 2014-05-27 一种垃圾邮件的特征选择方法及其检测方法

Publications (2)

Publication Number Publication Date
CN104050556A CN104050556A (zh) 2014-09-17
CN104050556B true CN104050556B (zh) 2017-06-16

Family

ID=51503365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410228073.6A Active CN104050556B (zh) 2014-05-27 2014-05-27 一种垃圾邮件的特征选择方法及其检测方法

Country Status (1)

Country Link
CN (1) CN104050556B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205349B (zh) * 2015-08-25 2018-08-03 合肥工业大学 马尔科夫毯嵌入式的基于封装的基因选择方法
CN105306296B (zh) * 2015-10-21 2018-10-12 北京工业大学 一种基于lte信令的数据过滤处理方法
CN106570178B (zh) * 2016-11-10 2020-09-29 重庆邮电大学 一种基于图聚类的高维文本数据特征选择方法
CN107193804B (zh) * 2017-06-02 2019-03-29 河海大学 一种面向词和组合词的垃圾短信文本特征选择方法
CN107239447B (zh) * 2017-06-05 2020-12-18 厦门美柚股份有限公司 垃圾信息识别方法及装置、***
CN109241523B (zh) * 2018-08-10 2020-12-11 北京百度网讯科技有限公司 变体作弊字段的识别方法、装置及设备
CN110119756B (zh) * 2019-03-25 2021-08-10 北京天泽智云科技有限公司 一种基于投票法的趋势性数据特征自动选择方法
CN110174106A (zh) * 2019-04-01 2019-08-27 香港理工大学深圳研究院 一种基于pm2.5的健康步行路径规划方法及终端设备
CN111312403A (zh) * 2020-01-21 2020-06-19 山东师范大学 基于实例和特征共享级联的疾病预测***、设备及介质
CN112561082A (zh) * 2020-12-22 2021-03-26 北京百度网讯科技有限公司 生成模型的方法、装置、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置
US8417783B1 (en) * 2006-05-31 2013-04-09 Proofpoint, Inc. System and method for improving feature selection for a spam filtering model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8417783B1 (en) * 2006-05-31 2013-04-09 Proofpoint, Inc. System and method for improving feature selection for a spam filtering model
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于贝叶斯分类的垃圾邮件过滤***研究与实现";林伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100215;第I139-96页 *

Also Published As

Publication number Publication date
CN104050556A (zh) 2014-09-17

Similar Documents

Publication Publication Date Title
CN104050556B (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN104933183B (zh) 一种融合词向量模型和朴素贝叶斯的查询词改写方法
Barrón-Cedeno et al. Proppy: A system to unmask propaganda in online news
CN106599054B (zh) 一种题目分类及推送的方法及***
CN102411563B (zh) 一种识别目标词的方法、装置及***
CN102929937B (zh) 基于文本主题模型的商品分类的数据处理方法
TWI438637B (zh) 用於擷取及管理社群智慧資訊的系統及方法
CN104199965B (zh) 一种语义信息检索方法
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和***
CN105335352A (zh) 基于微博情感的实体识别方法
CN105824922A (zh) 一种融合深层特征和浅层特征的情感分类方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN101540017B (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
CN105279252A (zh) 挖掘相关词的方法、搜索方法、搜索***
CN106682208B (zh) 基于融合特征筛选与随机森林的微博转发行为预测方法
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN105574544A (zh) 一种数据处理方法和装置
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
BaygIn Classification of text documents based on Naive Bayes using N-Gram features
CN103955547A (zh) 发现论坛热帖的方法和***
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
Singh et al. Sentiment analysis of Twitter data using TF-IDF and machine learning techniques
Doan et al. Sentiment analysis of restaurant reviews on yelp with incremental learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221214

Address after: Room 1035 and Room 1036, Block C1, C2 and C3, Daqing Service Outsourcing Industrial Park, No. 6-1, Xinfeng Road, High tech Zone, Daqing City, Heilongjiang Province, 163711

Patentee after: Daqing Lehen Information Technology Co.,Ltd.

Address before: 150080 No. 52, Xuefu Road, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right