CN111553388A

CN111553388A - 一种基于在线AdaBoost的垃圾邮件检测方法

Info

Publication number: CN111553388A
Application number: CN202010265704.7A
Authority: CN
Inventors: 李静梅; 王洪涛; 茹晨广
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-18

Abstract

本发明属于网络安全技术领域，具体涉及一种基于在线AdaBoost的垃圾邮件检测方法。本发明将在线学习的思想应用到AdaBoost中用于训练强分类器。传统的垃圾邮件分类器存在分类性能不稳定、不能应用于动态环境和训练成本高的问题。针对以上问题，本发明在AdaBoost基础上引入了在线学习的思想，提高了分类效果，大大降低了训练模型的开销，使模型在垃圾邮件检测中可以适应大数据场景和动态变化的环境，从而获得更好的泛化性能。

Description

一种基于在线AdaBoost的垃圾邮件检测方法

技术领域

本发明属于网络安全技术领域，具体涉及一种基于在线AdaBoost的垃圾邮件检测方法。

背景技术

随着信息时代的发展，人与人之间的通信越来越便捷。电子邮件已经成为社交中非常重要的交流工具，然而邮件给人带来有效交流信息的同时，也会带来大量的垃圾信息。经统计，用户每天收到数百封电子邮件是很常见的。这些邮件中近90％是垃圾邮件，其中包括各种产品和服务的广告。垃圾邮件不仅强制用户识别不需要的邮件而消耗用户的时间，而且还会浪费存储空间和网络带宽。垃圾邮件检测已经成为信息安全领域所面临的巨大的挑战之一，机器学习在垃圾邮件检测等领域已经得到了广泛的应用。但是，传统的垃圾邮件检测算法存在诸多不足，比如单一的机器学习算法的检测准确率低，批量学习算法在动态环境中无法对模型作出及时的调整，训练成本高等问题。针对以上问题，本发明方法使用AdaBoost算法将训练好的弱分类器组合成一个强分类器，以提高分类效果；在此基础上引入在线学习的思想，不仅了降低了训练开销，而且能适应动态环境下网络中的变化。本发明方法有效地解决了传统的邮件分类方法分类性能不稳定的问题，而且可以很好地在动态环境下工作，降低了训练成本。因此，本发明方法相较于之前的垃圾邮件检测方法准确率更高，对环境的适应性更强，更高效且更易于拓展。

发明内容

本发明的目的在于提供提高垃圾邮件检测准确率、训练模型效率并适应于动态环境的一种基于在线AdaBoost的垃圾邮件检测方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：输入待检测的邮件样本；取部分邮件样本数据构建训练集，对于每一个邮件样本(X,Y)，X为邮件样本(X,Y)的特征集合；Y为邮件样本(X,Y)的标签，用于标记其是否为垃圾邮件的特征集合，训练集中Y由人工标注；

步骤2：使用训练集训练D个弱分类器，初始化弱分类器的权重计数器λ_t ^sc和λ_t ^sw，t＝1,2,...,D，其中λ_t ^sc和λ_t ^sw分别代表正确分类样本和错误分类样本的计数器；具体过程为：

步骤2.1：从训练集中提取一个样本(X,Y)输入弱分类器h_t中；初始化样本(X,Y)的权重λ为1；从泊松分布Possion(λ)中随机选择一个正整数k，弱分类器h_t使用基于伯努利的多变量朴素贝叶斯模型学习样本k次；

步骤2.2：设X＝(t₁,...,t_m)，其中每个t_i是一个二元变量，表示该特征是否出现在该样本中；m为样本(X,Y)特征的数量，计算中间条件概率P(X|Y＝C_k)：

其中，C_k代表邮件的类别，即正常邮件或者垃圾邮件；

步骤2.3：计算C_k在训练集里面出现的概率P(Y＝C_k)：

其中，n(C_i)表示类别为C_i的样本在训练集中出现的频数；

步骤2.4：计算邮件样本(X,Y)是垃圾邮件的概率P(Y＝C_k|X)：

同理可求得这个样本是正常邮件的概率，通过比较这两个概率的大小，预测样本(X,Y)的类别；

步骤2.5：比较样本的预测结果与实际结果；

如果弱分类器h_t对这个样本正确分类，即h_t(X)＝sign(Y)；计算λ_t ^sc←λ_t ^sc+λ，更新正确分类加权计数器，其中λ为样本权重；计算

更新近似加权错误分类率ε_t；计算：

更新样本(X,Y)的权重；

如果弱分类器h_t对这个样本错误分类；计算λ_t ^sw←λ_t ^sw+λ，更新错误分类加权计数器，同理计算公式

更新近似加权错误分类率；计算

更新样本(X,Y)的权重；

步骤2.6：计算弱分类器h_t的权重α_t，完成对弱分类器h_t的更新；

步骤2.7：将更新后的样本输入到下一个弱分类器中，重复执行步骤2.2至步骤2.6，直至完成对所有弱分类器的更新，完成一次循环并挑选出权重最高的弱分类器；

步骤2.8：判断是否完成所有区训练集中邮件样本的训练；若未完成，则返回步骤2.1；若训练集中所有邮件样本训练完毕，使用所有挑选出的弱分类器集成强分类器H(X)；

步骤3：将其余待检测的邮件样本输入到强分类器H(X)中，完成对于垃圾邮件的检测。

本发明的有益效果在于：

本发明提供的是一种基于在线Adaboost的垃圾邮件检测方法，该方法将在线学习的思想应用到AdaBoost中用于训练强分类器。传统的垃圾邮件分类器存在分类性能不稳定、不能应用于动态环境和训练成本高的问题。针对以上问题，本发明在AdaBoost基础上引入了在线学习的思想，提高了分类效果，大大降低了训练模型的开销，使模型在垃圾邮件检测中可以适应大数据场景和动态变化的环境，从而获得更好的泛化性能。

附图说明

图1是在线AdaBoost训练以及挑选弱分类器的步骤图。

图2是组合强分类器的过程图。

图3是本发明方法实施与应用的流程图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明提供的是一种基于在线Adaboost的垃圾邮件检测方法，该方法将在线学习的思想应用到AdaBoost中用于训练强分类器。传统的垃圾邮件分类器存在分类性能不稳定、不能应用于动态环境和训练成本高的问题。针对以上问题，本发明方法在AdaBoost基础上引入了在线学习的思想，提高了分类效果，大大降低了训练模型的开销，使模型在垃圾邮件检测中可以适应大数据场景和动态变化的环境，从而获得更好的泛化性能。

一种基于在线AdaBoost的垃圾邮件检测方法，包括以下内容：

OAdaboostNBC以朴素贝叶斯分类器为基分类器进行构造，同时结合了在线学习的思想。其利用在线AdaBoost和朴素贝叶斯算法训练多个弱分类器，从中挑选几个效果最好的弱分类器组成一个强分类器，对邮件样本进行分类。

利用在线AdaBoost和朴素贝叶斯算法训练一个强分类器的步骤如下:

(1)使用部分邮件样本数据集训练多个弱分类器，初始化每个弱分类器正确和错误结果的加权计数器。

(2)对于新输入的样本，弱分类器通过基于伯努利的多变量朴素贝叶斯模型进行训练，根据对新样本的分类结果更新弱分类器的正确和错误分类的加权计数器，计算并更新当前样本的权重和弱分类器的权重，之后将更新权重后的样本按序输入到其他弱分类器中，直至完成对所有弱分类器的更新，从中挑选出权重最高的弱分类器，从而完成一次循环。

将每次循环挑选出的弱分类器组合成一个强分类器。

本发明提出一种提高垃圾邮件检测准确率、训练模型效率并适应于动态环境的方法，是一种基于在线AdaBoost的高效垃圾邮件检测方法。本发明方法包括以下5个步骤：

1.使用部分邮件样本数据集训练多个弱分类器，初始化弱分类器的权重计数器λ_t ^sc和λ_t ^sw(t＝1,2,...,D)。其中λ_t ^sc和λ_t ^sw分别代表正确分类样本和错误分类样本的计数器。

2.定义h_t为新样本(X,Y)首次输入的弱分类器，其中X为邮件样本(X,Y)的特征集合，Y为邮件样本(X,Y)的标签，标记其是否为垃圾邮件。初始化样本(X,Y)的权重λ为1,从泊松分布Possion(λ)中随机选择一个正整数k，弱分类器h_t使用基于伯努利的多变量朴素贝叶斯模型学习样本(X,Y)k次。具体学习过程如下：

(1)设X＝(t₁,...,t_m),其中每个t_i是一个二元变量，表示该特征是否出现在该样本中(0表示特征t_i没有出现在样本中，1表示该特征出现在样本中),m为样本(X,Y)特征的数量。

计算公式(6)：

得到的P(X|Y＝C_k)为求解垃圾邮件概率过程中的中间条件概率，其中C_k代表邮件的类别(正常邮件或者垃圾邮件)。计算公式(7)：

得到的P(Y＝C_k)为C_k在训练集里面出现的概率，n(C_i)表示类别为C_i的样本在训练集中出现的频数。计算贝叶斯公式(8)：

得到的P(Y＝C_k|X)为邮件样本(X,Y)是垃圾邮件的概率，同理可求得这个样本是正常邮件的概率，通过比较这两个概率的大小，预测样本(X,Y)的类别。

3.比较样本的预测结果与实际结果，如果弱分类器h_t对这个样本正确分类，即h_t(X)＝sign(Y)，计算公式(1)：

λ_t ^sc←λ_t ^sc+λ (1)

更新正确分类加权计数器，其中λ为样本权重，设ε_t为加权错误分类率，计算公式(2)：

更新近似加权错误分类率，计算公式(3)：

更新样本(X,Y)的权重。

如果弱分类器h_t对这个样本错误分类，计算公式λ_t ^sw←λ_t ^sw+λ，更新错误分类加权计数器，同理计算公式(2)，更新近似加权错误分类率。计算公式

更新样本(X,Y)的权重。

4.计算公式(4)：

完成对弱分类器h_t的更新，其中α_t为弱分类器h_t的权重。

5.将更新后的样本输入到下一个弱分类器中，继续执行样本和弱分类器的更新步骤，直至完成对所有弱分类器的更新，从而完成一次循环。每新输入一个样本则进行一次循环，每次循环选出一个权重最高的弱分类器。循环结束即所有邮件样本训练完毕后，使用所有挑选出的弱分类器集成强分类器，如公式(5)：

H为训练完成后最终的强分类器。

经过上述5个步骤之后，形成了基于在线AdaBoost的垃圾邮件检测方法。本方法增强了垃圾邮件分类的稳定性，降低了训练开销，而且能更好的适应动态变化的环境。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。