CN113269258A

CN113269258A - 一种基于AdaBoost的半监督学习标签噪声防御算法

Info

Publication number: CN113269258A
Application number: CN202110587195.4A
Authority: CN
Inventors: 张宏坡; 程宁; 张洋; 张博
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-17

Abstract

针对数据中存在的标签噪声问题，本发明提出一种标签校正框架来检测数据中存在的标签噪声。基于五个真实的UCI数据集和TREC 2007垃圾邮件数据集，本发明技术方案首先人为地向数据集中注入标签噪声；然后利用标签噪声检测框架来标记可疑的样本标签并重新标注噪声样本的标签；最后使用机器学习算法评估了该检测框架的有效性。本发明的关键技术是一种基于AdaBoost的半监督学习标签噪声防御算法(AdaSSL)。该AdaSSL算法首先使用AdaBoost算法将数据集划分为权重较大的样本集和权重较小的样本集；然后使用半监督学习算法重新标记权重较大的样本集合的标签；最后汇总两个集合的样本。AdaSSL防御算法结合了AdaBoost和半监督学习技术的优点，有效地改善了数据集中样本的标签质量，提高了机器学习分类性能。

Description

一种基于AdaBoost的半监督学习标签噪声防御算法

技术领域

本发明属于网络安全应用中的垃圾邮件过滤领域，具体涉及一种基于 AdaBoost的半监督学习标签噪声防御算法来提高机器学习算法对噪声数据的分类鲁棒性。

背景技术

近年来随着各种应用程序的推广与流行，垃圾邮件发送者借助这些应用平台来发送各种包含广告邮件、恶意软件链接等内容的邮件。根据Kaspersky Lab的报告中指出，在2020年第三季度垃圾邮件最大占比高达80.00％，在全球邮件流量中的平均占比为48.91％。机器学习技术已成功地应用于垃圾邮件过滤***中，对于过滤垃圾邮件起到了关键的作用。然而，用于训练机器学习模型的数据需要人为的进行收集和标记，缺点就是无法保证标签的质量，进而导致数据中存在着一些不可避免的标签噪声影响分类器的学习过程。

在机器学习算法中，朴素贝叶斯被认为是监督学习中的一种抗噪声的机器学习技术，但是面对垃圾邮件发送者精心设计的攻击策略，仍然存在不能正确过滤的情况。为此，我们拟设计一种标签噪声防御框架，通过校正原始数据中存在的标签噪声，提高机器学习分类模型对噪声的鲁棒性，希望能为设计更鲁棒的垃圾邮件过滤器提供一定的思路。

发明内容

本发明旨在提高机器学习算法对噪声数据的分类鲁棒性。

本发明的具体方案如下：

一种基于AdaBoost的半监督学习标签噪声防御算法，包括以下步骤：

1)根据AdaBoost算法对噪声数据的敏感性来捕获带标签噪声的样本集合；

2)然后将步骤1)中捕获的权重较大的一组带噪声的样本集合输入到半监督学习模型(SSL)中进行标签校正，提高原始数据的标签质量；

3)最后，使用机器学习算法对上述校正的数据集合进行分类。

基于AdaBoost的半监督学习标签噪声防御算法的具体检测方法是：

初始化训练样本权重

基于步骤1)中的样本权重，使用弱分类器C训练模型并计算训练误差：

迭代更新分类器C分类错误的样本权重值：

T次迭代后，得到最终的分类器

由C(x)得到一组权重较大的样本集U；

使用半监督学习算法校正样本集U中的样本标签。

然后，使用所述步骤2)中的半监督学习算法校正步骤1)中的带噪声的样本集合。

基于上述，我们从数据级的角度向原始数据集中添加精心设计的标签噪声，并使用基于AdaBoost的半监督学习标签噪声防御算法来提高机器学习算法对噪声的分类鲁棒性。

与现有噪声防御算法相比，本发明的应用领域更为广泛。具体地说，本发明提出了一种基于AdaBoost的半监督学习标签噪声防御策略，它利用AdaBoost算法来捕获带噪声的样本集合，并使用半监督学习算法来校正这些样本的标签。通过这种方法来校正带噪声的样本标签，验证了AdaSSL防御算法对提高机器学习算法的分类鲁棒性的有效性。

附图说明

图1为标签噪声检测框架。

图2为机器学习算法在UCI数据集上的准确性结果

图3为机器学习算法在UCI数据集上的F₁-score结果

图4为机器学习算法在UCI数据集上的AUC结果

图5为机器学习算法在TREC 2007数据集上的Accuracy结果

图6为机器学习算法在TREC 2007数据集上的F₁-score结果

具体实施方式

下面通过具体实施方式，对本发明的技术方案做进一步的详细描述。

基于AdaBoost的半监督学习标签噪声防御框架如图1所示。

初始化训练样本权重

迭代更新分类器C分类错误的样本权重值：

T次迭代后，得到最终的分类器

由C(x)得到一组权重较大的样本集U；

使用半监督学习算法校正样本集U中的样本标签。

验证实验

实验使用了Spambase、Breast-w、Kr-vs-kp、Diabetes和Biodeg等5个UCI 数据集验证了AdaSSL防御算法的有效性。这些数据集具有不同的特征分布、实例数量和特征类型。

本发明方法的目的是评估AdaSSL防御算法对标签噪声攻击的防御性能。基于五个UCI数据集，图2给出了机器学***均分类准确性分别提高了3.92％，6.51％，7.74％， 0.98％和3.22％。

图3和图4分别显示了在这些UCI数据集上F₁-score度量和AUC值在标签噪声污染和防御策略下的变化情况。F₁-score度量是召回率和查全率的综合评价指标。从图中可以看出，对于标签污染攻击造成的F₁-score值的下降，本研究中提出的AdaSSL标签校正方法明显改善了受污染样本的标签质量。例如，在Biodeg数据集上，SVM模型在20％的噪声比例下的F₁-score下降为0，这是因为受熵值法标签噪声的影响，测试集中所有的正类样本被模型分类错误。通过我们提出的AdaSSL方法来改善训练数据的标签，从实验结果来看，该数据集的F₁-score有了明显的提高。AUC值可以用来衡量分类模型对噪声的鲁棒性。从图4可以看出，在这些二分类数据集上，AdaSSL防御方法明显提高了受标签污染攻击的数据的标签质量。基于本研究的AdaSSL算法对污染数据的消毒处理，提高了机器学习算法对噪声数据的鲁棒性能。

为了验证提出的AdaSSL防御算法在垃圾邮件过滤领域中对标签翻转的有效性，以TREC 2007垃圾邮件语料库为例，本文对比了在0～20％的标签翻转水平下，六种机器学习分类器在两种翻转攻击(基于熵值法的标签翻转攻击和基于k-medoids标签翻转攻击)和在AdaSSL防御机制下的分类性能。

图5是六种机器学***下，SVM分类器的分类精度会变高是因为SVM是通过决策边界来对样本进行分类的，而这两种攻击方法的核心思想在于根据权重大小寻找最优的翻转集合。基于本发明中的AdaSSL标签噪声防御算法，该方法明显提高了攻击造成的机器学*** 下，分类器的分类性能趋于平稳。

本文还使用F1-score指标综合评估了机器学习算法在标签翻转攻击及防御算法下的性能。如图6所示是使用F1-score指标的综合评价结果。从图中可以看出，基于k-medoids的攻击策略比基于熵值法的攻击策略的攻击效果要好。而在AdaSSL标签噪声检测算法下，机器学习算法对攻击表现出较好的鲁棒性。

最后应当说明的是：以上实例仅用于说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于AdaBoost的半监督学习标签噪声防御算法(AdaSSL)，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于AdaBoost的半监督学习标签噪声防御算法(AdaSSL)，其特征在于：所述步骤1)中使用AdaBoost算法捕获噪声样本的具体检测方法是：

初始化训练样本权重

使用弱分类器C训练模型并计算训练误差：

迭代更新分类器C分类错误的样本权重值：

T次迭代后，得到最终的分类器

由C(x)得到一组权重较大的样本集U。

3.如权利要求1和2中所述的基于AdaBoost的半监督学习标签噪声防御算法，其特征在于：将带正确标签的样本集合与AdaSSL算法校正后的噪声样本进行合并，得到新的校正后的样本集合。