CN104050556B

CN104050556B - 一种垃圾邮件的特征选择方法及其检测方法

Info

Publication number: CN104050556B
Application number: CN201410228073.6A
Authority: CN
Inventors: 孙广路; 何勇军; 刘广明
Original assignee: Harbin University of Science and Technology
Current assignee: Daqing Lehen Information Technology Co.,Ltd.
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2017-06-16
Anticipated expiration: 2034-05-27
Also published as: CN104050556A

Abstract

本发明涉及一种垃圾邮件的特征选择方法及其检测方法，包括：基于字节的N‑grams方法进行邮件的特征提取；根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集；根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集；通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集；根据所述最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测。采用本发明提出的垃圾邮件的特征选择方法及其检测方法，使得垃圾邮件的特征选择及垃圾邮件检测的计算过程简单，时间复杂度低，而且使得垃圾邮件检测的准确率大大提高。

Description

一种垃圾邮件的特征选择方法及其检测方法

技术领域

本发明涉及计算机网络安全技术领域，尤其涉及一种垃圾邮件的特征选择方法及其检测方法。

背景技术

随着互联网的快速发展，电子邮件成为了新型的信息传递工具，凭借其价格低廉、方便快捷等优点，广泛的应用于各个领域。然后广泛的使用也带来了一些负面的影响，大量的垃圾邮件充斥在人们的邮箱中，不仅影响了用户的正常使用，而且对运营商的形象产生了损害。许多垃圾邮件***应运而生，但是面临着数据量大、运行效率低等问题。

传统的垃圾邮件过滤方法，包括Flexible Bayes、决策树、SVM、Boosting在内的很多机器学习方法都被应用到垃圾邮件过滤中。从目前的研究结果看，Flexible Bayes、SVM、Boosting、Winnow 等这些机器学习方法在一些小规模数据上似乎可以达到实用化的程度。但是对于大规模数据来说，训练分类器会花费大量时间，而且由于数据繁杂，难以得到最优的训练模型。

在目前的特征方法当中，针对高维二值数据的特征选择方法研究甚少，目前还没有有效的解决办法。传统的方法可以处理二值数据的特征选择，但是对于高维的数据来说，那些方法往往复杂度很高，难以在实际应用中取得良好的效果。

发明内容

(一)要解决的技术问题

本发明的目的是提供一种垃圾邮件的特征选择方法及其检测方法，以解决现有特征选择方法以及传垃圾邮件检测方法中存在的计算复杂度高，花费时间多，且难以在实际应用中取得良好的效果的问题。

(二)技术方案

为了达到上述目的，本发明提出了一种垃圾邮件的特征选择方法，包括：

基于字节的N-grams方法进行邮件的特征提取；

根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集；

根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集；

通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集。

本发明还提出了一种基于上述垃圾邮件的特征选择方法的垃圾邮件检测方法，包括：

根据所述最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测。

优选地，所述基于字节的N-grams方法进行邮件的特征提取具体包括：

将邮件按照字节流进行预设长度的字节切分得到所述邮件的hash字典；

将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集。

优选地，所述将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集具体为：

当所述hash字典中的特征在所述预设样本中出现则所述hash字典对应位置的特征值设为1，若未出现，则所述hash字典对应位置的特征值设为0，得到一个稀疏的二值特征数据集。

优选地，所述根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集具体包括：

计算提取的特征与预设邮件类别的相对密度，具体如下：

其中，F为特征集，F_i为特征集中的第i个特征，C为预设邮件类别集，C_l为类别集中的第l个类别，为类别C_l所含样本数，L为类别总数，M为特征总数，表示第i个特征数值为1时相对于类别C_l的相对密度，且

根据所述相对密度判断所述提取的特征与预设邮件类别的相关度；

根据所述相关度进行特征排序生成初始特征子集。

优选地，所述根据相对密度判断所述提取的特征与预设邮件类别的相关度具体包括：

根据所述相对密度进行相关度计算，公式如下：

其中，W(F_i)_diff的范围为[0,1]，表示第i个特征数值为1时相对于类别C₁的相对密度，表示第i个特征数值为1时相对于类别C₀的相对密度，且当W(F_i)_diff＝0时，表示特征F_i与类别最不相关，当W(F_i)_diff＝1，表示特征F_i与类别最相关；

以W(F_i)_diff作为评价准则，将所述W(F_i)_diff与预设阈值ω进行比较，判断所述特征F_i与预设邮件类别的相关度。

优选地，所述根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集具体包括：

初始化特征子集，对于所述初始特征子集中的特征F_i依据相关系数从所述初始特征子集中选取和所述F_i最相关的K个特征，所述相关系数的计算公式如下：

其中，f_i和c_i分别是特征F_i和类别C_i的分量，n为样本的个数，和是特征F_i和类别C_i均值，计算公式如下：

将这K个特征组成集合M_i，并将所述M_i作为特征F_i的近似马尔科夫毯计算所述特征F_i的分值δ_G(F_i|M_i)，计算公式如下：

其中，D_KL表示相对熵，是衡量变量之间相似度的指标，计算公式如下：

根据所述分值δ_G(F_i|M_i)删除所述初始特征子集中的冗余特征得到候选特征子集。

优选地，所述根据分值δ_G(F_i|M_i)删除所述初始特征子集中的冗余特征得到候选特征子集具体包括：

根据所述分值δ_G(F_i|M_i)对所述初始特征子集中的特征进行排序，删除值最小的δ_G(F_i|M_i)所对应的特征；

循环上述步骤，根据预设特征个数得到候选特征子集。

优选地，所述通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评级选择最优特征子集具体包括：

所述在线逻辑回归分类器利用预测函数对所述候选特征子集进行预测，所述预测函数为：

其中，w为权重，b为偏置，x为输入，P(Y|x)为预测结果且范围为[0，1]；

对于所述候选特征子集中的特征输入，获取所述预测函数的预测结果，当预测结果P>0.5时，则为垃圾邮件，当预测结果P≤0.5时，则为正常邮件；

根据所述预测结果对所述候选特征子集中的特征进行评价提取出预定数量的在所述在线逻辑回归分类器上预测效果最优的最优特征子集。

优选地，所述根据最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测具体为：

当有邮件需要检测时，所述在线逻辑回归分类器对所述最优特征子集进行预测；

根据预测结果检测出垃圾邮件。

(三)有益效果

本发明提出的一种垃圾邮件的特征选择方法及其检测方法，基于封装式特征选择算法进行垃圾邮件的特征选取，大幅度降低特征维数，并采用在线逻辑回归模型去除邮件数据中大量的不相关和冗余特征，生成最优的特征子集，并利用所述最优特征子集进行垃圾邮件检测，从根本上提高检测准确率并减少分类算法消耗的时间，可以广泛应用在垃圾邮件检测中。

附图说明

图1为本发明一种垃圾邮件的特征选择方法流程图；

图2为本发明一种基于垃圾邮件的特征选择方法的垃圾邮件检测方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明提出了一种垃圾邮件的特征选择方法，如图1所示，包括以下步骤：

S101基于字节的N-grams方法进行邮件的特征提取，具体包括：将邮件按照字节流进行预设长度的字节切分得到所述邮件的hash字典；将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集；

其中，将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集具体为：当所述hash字典中的特征在所述预设样本中出现则所述hash字典对应位置的特征值设为1，若未出现，则所述hash字典对应位置的特征值设为0，得到一个稀疏的二值特征数据集。

S102根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集，具体包括：计算提取的特征与预设邮件类别的相对密度，具体如下：

其中，F为特征集，F_i为特征集中的第i个特征，C为预设邮件类别集，C_l为类别集中的第l个类别，为类别C_l所含样本数，L为类别总数，M为特征总数，表示第i个特征数值为1时相对于类别C_l的相对密度，且根据所述相对密度判断所述提取的特征与预设邮件类别的相关度；根据所述相关度进行特征排序生成初始特征子集。

其中，根据相对密度判断所述提取的特征与预设邮件类别的相关度具体包括：根据所述相对密度进行相关度计算，公式如下：

其中，W(F_i)_diff的范围为[0,1]，表示第i个特征数值为1时相对于类别C₁的相对密度，表示第i个特征数值为1时相对于类别C₀的相对密度，且当W(F_i)_diff＝0时，表示特征F_i与类别最不相关，当W(F_i)_diff＝1，表示特征F_i与类别最相关；以W(F_i)_diff作为评价准则，将所述W(F_i)_diff与预设阈值ω进行比较，判断所述特征F_i与预设邮件类别的相关度。本发明根据二值特征的特点，采用基于密度的方法，尤其对于二值的稀疏数据，计算方法简单，时间复杂度低，而且准确率大大提高。

S103根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集，具体包括：

根据所述分值δ_G(F_i|M_i)删除所述初始特征子集中的冗余特征得到候选特征子集，具体包括以下步骤：根据所述分值δ_G(F_i|M_i)对所述初始特征子集中的特征进行排序，删除值最小的δ_G(F_i|M_i)所对应的特征；循环上述步骤，根据预设特征个数得到候选特征子集。

S104通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集，具体包括：所述在线逻辑回归分类器利用预测函数对所述候选特征子集进行预测，所述预测函数为：

下面以具体实施例对本发明进行详细说明。

随着反垃圾邮件技术的发展，发送垃圾邮件技术也在提高，垃圾邮件发送者通过故意拼写错误、字符替换和***空白等形式对垃圾邮件特征的单词进行变体，从而逃避检测***的检测。为了克服这些问题，本发明采用基于字节的N-grams方法进行邮件的特征提取。基于字节级n-grams特征提取方法使用非常方便，不需要任何词典的支持，不要需要对句子进行分词；在使用之前也不需要对语料库进行训练。在对邮件提取特征时，无须对邮件进行预处理，也不用考虑邮件编码问题，而是直接将邮件转化为无差别的字节流。

基于n-grams的特征提取方法是将邮件按照字节流进行大小为n字节进行切分(其中，n取值为1，2，3，4…)，得到长度为n个字节的若干个串，每个串称为1个gram。如：information，按照n＝4时进行滑动窗口切分为：info、nfor、form、orma、rmat、mati、atio和tion这8个4-grams的特征。

对所有的训练数据进行特征提取后，将得到一个高维的hash字典，字典中的每一个位置，都是一个特征。将预设样本与hash字典进行对比，字典中的特征在样本中出现则相应位置的特征值为1，若未出现，则对应位置的特征值为0。最后得到一个高维的稀疏的二值特征数据集。

通过n-grams方法提取出的特征只有0和1两种数值，而且数据相当稀疏，采用经典的方法可以处理这样的数据，但是会带来相当高的时间消耗。本发明采用特征和类别间的相对密度来衡量特征与类别之间的相关度，不需要复杂的运算与迭代。相对密度的公式，具体如下：

本发明采用特征排序的方法作为特征选择的第一阶段。首先需要通过评价准则对每一维特征进行打分，通过分数进行排序。本发明针对二值特征的特点，采用衡量特征与类别相关程度的公式作为评价准则，具体如下：

因为所以W(F_i)_diff的范围为[0,1]。且当W(F_i)_diff＝0时，表示特征F_i与类别最不相关，当W(F_i)_diff＝1，表示特征F_i与类别最相关。W(F_i)_diff分数越高，表示特征与类别相关程度越高。因此可以将W(F_i)_diff作为评价准则。

根据实际的需求预设一个阈值ω，对于W(F_i)_diff≥ω的特征，认为与类别相关程度较高，保留下来并生成初始的特征子集F，其它不相关的特征即被删除。

通过相关性的检测，数据中还存在大量的冗余特征，这种特征会带来不必要的时间消耗，甚至影响分类器的准确度，因此删除冗余特征是必要的。

在初始的特征子集基础上，根据马尔科夫毯理论，删除子集中的冗余特征,选出最优的特征子集。马尔科夫毯理论认为：假设特征集合为F,存在一个子集M且不包含有特征F_i，如果在子集M的条件下，特征F_i与集合F-M-{F_i}相互独立，那么说M为F_i的马尔科夫毯。具体公式可以表示如下：

P(F-M_i-{F_i},C|F_i,M_i)＝P(F-M_i-{F_i},C|M_i)

如果满足上式，可以认为子集M包含有特征F_i的所有信息，因此F_i为冗余的特征，可以将其删除。但是实际应用中，搜索最优的马尔科夫毯是NP难问题，因此本发明采用启发式的算法，提出一种近似马尔科夫毯模型。

本发明实施例采用向后删除的策略，逐个删除冗余的特征。首先，初始化特征子集G＝F，对于每一维特征F_i，依据相关系数从子集G-{F_i}中选取和F_i最相关的K个特征，所述相关系数的计算公式如下：

其中D_KL表示KL距离，也称为相对熵，是衡量变量之间相似度的指标，D_KL值越小，表示相似度越高。由于需要计算概率值，但是很难得到特征的真正分布，因此这里采用原始的概率定义计算联合概率分布的值。KL距离公式如下：

通过δ_G(F_i|M_i)的计算，容易知道δ_G(F_i|M_i)分数越小，表示M_i与F_i的相似度越高，M_i包含有F_i的信息越多，可以将M_i近似看成F_i的马尔科夫毯。因此按照δ_G(F_i|M_i)的分数大小进行排序，删除分数最小的δ_G(F_i|M_i)所对应的特征F_i。如此循环下去，可以根据需要自行设置剩余特征个数，但是为了能够得到较优的特征自己，我们会得到候选的n个特征子集G₁,G₂,...,G_n，从中选择最优的子集。

本发明实施例中提出的特征子集的评价方法。相比于其它方法更具有针对性，处理某一特定的数据可以有很好的效果。将特征选择方法与分类器封装到一起，通过分类器对特征子集进行评价。经过两阶段的特征选择后，选出的特征都是显著的特征，包含着相应类别的主要信息，因此可分能力更强。本发明采用的过滤器为在线逻辑回归(LR)分类器，其时间复杂度低，分类效率高，处理高维数据有很大优势。

逻辑回归模型的思想是存在一个超平面f(x)＝w·x+b＝0，预测函数为：

其中w为权重，b为偏置，x为输入，P(Y|x)为输出且范围是[0,1]的一个连续值。对于给定的输入实例x，通过式的计算会得倒一个[0,1]的一个数值P，当P>0.5时，取Y＝1，即预测结果为垃圾邮件，反之当P≤0.5时，取Y＝0，预测结果为正常邮件。

本发明实施例采用的是随机梯度下降的更新方式，传统的梯度下降虽然可以得到全局最优解，但是每一次迭代都需要遍历所有的数据，处理大量数据时，效率极低。随机梯度下降的思想是只对本次的实例进行训练，不需要遍历所有的样本，效率高，可以得到次优解。随机梯度下降的更新方式如下：

w_i←w_i-α(f(x_i)-Y_i)x_i

通过在线逻辑回归模型的训练与分类，通过式的计算将会给每一个样本一个分数，当分数大于0.5，预测器类别为垃圾邮件，反之则预测为正常邮件，下面将通过预测类别与实际类比对子集进行评价。

对于n个候选子集G₁,G₂,...,G_n，我们想要得到分类效果最好的那一个特征子集作为，根据上一步骤得到的预测结果，我们将对每一个子集进行评价。通过上一步的分类，可以得到一些相关数据，表1列出了计算评价函数需要的统计量：

表1评价函数统计表

根据这些数据可以得到计算下面的统计量：

其中BER被称为均衡错误率，当正常邮件与垃圾邮件数量差异较大时，通过BER可以更好的评价特征集在分类器上的效果。具体地，通过在线逻辑回归分类器特征集合进行分类，其中正常邮件数为P，垃圾邮件数为N，并统计分类器正确分类的正常邮件数TP和垃圾邮件数TN，通过公式TP＝P-FN，TN＝N-FP可以得到TP和TN。

最后将会得到一系列的BER值BER₁,BER₂......BER_n，选择最小BER值对应的特征子集G_opt作为最终的特征子集即最优特征子集，说明在在线逻辑回归模型上，最优特征子集G_opt有着最好的分类效果。

此外，本发明还提出了一种基于垃圾邮件的特征选择方法的垃圾邮件检测方法，如图2所示，包括以下步骤：

S201基于字节的N-grams方法进行邮件的特征提取，具体包括：将邮件按照字节流进行预设长度的字节切分得到所述邮件的hash字典；将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集。

S202根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集，具体包括：计算提取的特征与预设邮件类别的相对密度，具体如下：

其中，W(F_i)_diff的范围为[0,1]，表示第i个特征数值为1时相对于类别C₁的相对密度，表示第i个特征数值为1时相对于类别C₀的相对密度，且当W(F_i)_diff＝0时，表示特征F_i与类别最不相关，当W(F_i)_diff＝1，表示特征F_i与类别最相关；以W(F_i)_diff作为评价准则，将所述W(F_i)_diff与预设阈值ω进行比较，判断所述特征F_i与预设邮件类别的相关度。

S203根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集，具体包括：初始化特征子集，对于所述初始特征子集中的特征F_i依据相关系数从所述初始特征子集中选取和所述F_i最相关的K个特征，所述相关系数的计算公式如下：

S204通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集，具体包括：所述在线逻辑回归分类器利用预测函数对所述候选特征子集进行预测，所述预测函数为：

其中，w为权重，b为偏置，x为输入，P(Y|x)为预测结果且范围为[0，1]；对于所述候选特征子集中的特征输入，获取所述预测函数的预测结果，当预测结果P>0.5时，则为垃圾邮件，当预测结果P≤0.5时，则为正常邮件；根据所述预测结果对所述候选特征子集中的特征进行评价提取出预定数量的在所述在线逻辑回归分类器上预测效果最优的最优特征子集。

S205根据所述最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测，具体为：当有邮件需要检测时，所述在线逻辑回归分类器对所述最优特征子集进行预测；根据预测结果检测出垃圾邮件。

由于垃圾邮件检测***需要实时更新与检测，因此选择在线逻辑回归模型作为分类器，不仅能提高识别准确率，而且能减小训练与识别的时间复杂度。与传统的垃圾邮件检测方法相比，本发明旨在通过基于垃圾邮件的特征选择方法，大幅度降低特征维数，通过逻辑回归模型得到最优的特征子集，在分类阶段，使用在线逻辑回归模型对垃圾邮件进行检测。

通过封装式的特征选择方法，得到了最终的最优特征子集G_opt，其中包含的都是与类别相关性高，且冗余性小的特征，有着较强的分类性能。通过在线逻辑回归模型的评测，使得最优子集G_opt在在线逻辑回归模型上有着最好的表现，因此检测阶段使用逻辑回归模型，可以得到最优的预测效果。

每当有邮件需要检测时，逻辑回归分类器将通过计算的值给每一封邮件一个分值，当这个分值对于0.5时，给出判断为垃圾邮件，反之这个分值小于等于0.5时，给出判断为正常邮件。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种垃圾邮件的特征选择方法，其特征在于，包括：

基于字节的N-grams方法进行邮件的特征提取；

通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评价选择最优特征子集；

所述基于字节的N-grams方法进行邮件的特征提取具体包括：

将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集；

所述将预设样本与所述hash字典进行特征对比得到与所述hash字典对应的特征集具体为：

所述hash字典中的特征在所述预设样本中出现则所述hash字典对应位置的特征值设为1，若未出现，则所述hash字典对应位置的特征值设为0，得到一个稀疏的二值特征数据集；

所述根据提取的特征与预设邮件类别的相关度进行特征排序生成初始特征子集具体包括：

计算提取的特征与预设邮件类别的相对密度，具体如下：

根据所述相关度进行特征排序生成初始特征子集。

2.如权利要求1所述的方法，其特征在于，所述根据相对密度判断所述提取的特征与预设邮件类别的相关度具体包括：

根据所述相对密度进行相关度计算，公式如下：

将W(F_i)_diff作为评价准则，对所述W(F_i)_diff与预设阈值ω进行比较，判断所述特征F_i与预设邮件类别的相关度。

3.如权利要求1所述的方法，其特征在于，所述根据近似马尔科夫毯算法删除所述初始特征子集中的冗余特征得到候选特征子集具体包括：

4.如权利要求3所述的方法，其特征在于，所述根据分值δ_G(F_i|M_i)删除所述初始特征子集中的冗余特征得到候选特征子集具体包括：

循环上述权利要求3的各个步骤，根据预设特征个数得到候选特征子集。

5.如权利要求1所述的方法，其特征在于，所述通过在线逻辑回归分类器对所述候选特征子集进行预测并根据预测结果对所述候选特征子集进行评级选择最优特征子集具体包括：

对于所述候选特征子集中的特征输入，获取所述预测函数的预测结果，当预测结果P＞0.5时，则为垃圾邮件，当预测结果P≤0.5时，则为正常邮件；

6.一种基于权利要求1所述的特征选择方法的垃圾邮件检测方法，其特征在于，包括：

7.如权利要求6所述的方法，其特征在于，所述根据最优特征子集利用在线逻辑回归分类器对垃圾邮件进行检测具体为：

根据预测结果检测出垃圾邮件。