CN113269258A - 一种基于AdaBoost的半监督学习标签噪声防御算法 - Google Patents
一种基于AdaBoost的半监督学习标签噪声防御算法 Download PDFInfo
- Publication number
- CN113269258A CN113269258A CN202110587195.4A CN202110587195A CN113269258A CN 113269258 A CN113269258 A CN 113269258A CN 202110587195 A CN202110587195 A CN 202110587195A CN 113269258 A CN113269258 A CN 113269258A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- label
- noise
- adaboost
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
针对数据中存在的标签噪声问题,本发明提出一种标签校正框架来检测数据中存在的标签噪声。基于五个真实的UCI数据集和TREC 2007垃圾邮件数据集,本发明技术方案首先人为地向数据集中注入标签噪声;然后利用标签噪声检测框架来标记可疑的样本标签并重新标注噪声样本的标签;最后使用机器学习算法评估了该检测框架的有效性。本发明的关键技术是一种基于AdaBoost的半监督学习标签噪声防御算法(AdaSSL)。该AdaSSL算法首先使用AdaBoost算法将数据集划分为权重较大的样本集和权重较小的样本集;然后使用半监督学习算法重新标记权重较大的样本集合的标签;最后汇总两个集合的样本。AdaSSL防御算法结合了AdaBoost和半监督学习技术的优点,有效地改善了数据集中样本的标签质量,提高了机器学习分类性能。
Description
技术领域
本发明属于网络安全应用中的垃圾邮件过滤领域,具体涉及一种基于 AdaBoost的半监督学习标签噪声防御算法来提高机器学习算法对噪声数据的分 类鲁棒性。
背景技术
近年来随着各种应用程序的推广与流行,垃圾邮件发送者借助这些应用平台 来发送各种包含广告邮件、恶意软件链接等内容的邮件。根据Kaspersky Lab的 报告中指出,在2020年第三季度垃圾邮件最大占比高达80.00%,在全球邮件流 量中的平均占比为48.91%。机器学习技术已成功地应用于垃圾邮件过滤***中, 对于过滤垃圾邮件起到了关键的作用。然而,用于训练机器学习模型的数据需要 人为的进行收集和标记,缺点就是无法保证标签的质量,进而导致数据中存在着 一些不可避免的标签噪声影响分类器的学习过程。
在机器学习算法中,朴素贝叶斯被认为是监督学习中的一种抗噪声的机器学 习技术,但是面对垃圾邮件发送者精心设计的攻击策略,仍然存在不能正确过滤 的情况。为此,我们拟设计一种标签噪声防御框架,通过校正原始数据中存在的 标签噪声,提高机器学习分类模型对噪声的鲁棒性,希望能为设计更鲁棒的垃圾 邮件过滤器提供一定的思路。
发明内容
本发明旨在提高机器学习算法对噪声数据的分类鲁棒性。
本发明的具体方案如下:
一种基于AdaBoost的半监督学习标签噪声防御算法,包括以下步骤:
1)根据AdaBoost算法对噪声数据的敏感性来捕获带标签噪声的样本集合;
2)然后将步骤1)中捕获的权重较大的一组带噪声的样本集合输入到半监 督学习模型(SSL)中进行标签校正,提高原始数据的标签质量;
3)最后,使用机器学习算法对上述校正的数据集合进行分类。
基于AdaBoost的半监督学习标签噪声防御算法的具体检测方法是:
迭代更新分类器C分类错误的样本权重值:
由C(x)得到一组权重较大的样本集U;
使用半监督学习算法校正样本集U中的样本标签。
然后,使用所述步骤2)中的半监督学习算法校正步骤1)中的带噪声的样本 集合。
基于上述,我们从数据级的角度向原始数据集中添加精心设计的标签噪声, 并使用基于AdaBoost的半监督学习标签噪声防御算法来提高机器学习算法对噪 声的分类鲁棒性。
与现有噪声防御算法相比,本发明的应用领域更为广泛。具体地说,本发明 提出了一种基于AdaBoost的半监督学习标签噪声防御策略,它利用AdaBoost算 法来捕获带噪声的样本集合,并使用半监督学习算法来校正这些样本的标签。通 过这种方法来校正带噪声的样本标签,验证了AdaSSL防御算法对提高机器学习 算法的分类鲁棒性的有效性。
附图说明
图1为标签噪声检测框架。
图2为机器学习算法在UCI数据集上的准确性结果
图3为机器学习算法在UCI数据集上的F1-score结果
图4为机器学习算法在UCI数据集上的AUC结果
图5为机器学习算法在TREC 2007数据集上的Accuracy结果
图6为机器学习算法在TREC 2007数据集上的F1-score结果
具体实施方式
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
基于AdaBoost的半监督学习标签噪声防御框架如图1所示。
1)根据AdaBoost算法对噪声数据的敏感性来捕获带标签噪声的样本集合;
2)然后将步骤1)中捕获的权重较大的一组带噪声的样本集合输入到半监 督学习模型(SSL)中进行标签校正,提高原始数据的标签质量;
3)最后,使用机器学习算法对上述校正的数据集合进行分类。
基于AdaBoost的半监督学习标签噪声防御算法的具体检测方法是:
迭代更新分类器C分类错误的样本权重值:
由C(x)得到一组权重较大的样本集U;
使用半监督学习算法校正样本集U中的样本标签。
然后,使用所述步骤2)中的半监督学习算法校正步骤1)中的带噪声的样本 集合。
验证实验
实验使用了Spambase、Breast-w、Kr-vs-kp、Diabetes和Biodeg等5个UCI 数据集验证了AdaSSL防御算法的有效性。这些数据集具有不同的特征分布、实 例数量和特征类型。
本发明方法的目的是评估AdaSSL防御算法对标签噪声攻击的防御性能。基 于五个UCI数据集,图2给出了机器学***均分类准确性分别提高了3.92%,6.51%,7.74%, 0.98%和3.22%。
图3和图4分别显示了在这些UCI数据集上F1-score度量和AUC值在 标签噪声污染和防御策略下的变化情况。F1-score度量是召回率和查全率的综合 评价指标。从图中可以看出,对于标签污染攻击造成的F1-score值的下降,本研 究中提出的AdaSSL标签校正方法明显改善了受污染样本的标签质量。例如, 在Biodeg数据集上,SVM模型在20%的噪声比例下的F1-score下降为0, 这是因为受熵值法标签噪声的影响,测试集中所有的正类样本被模型分类错误。 通过我们提出的AdaSSL方法来改善训练数据的标签,从实验结果来看,该数 据集的F1-score有了明显的提高。AUC值可以用来衡量分类模型对噪声的鲁棒 性。从图4可以看出,在这些二分类数据集上,AdaSSL防御方法明显提高了受 标签污染攻击的数据的标签质量。基于本研究的AdaSSL算法对污染数据的消 毒处理,提高了机器学习算法对噪声数据的鲁棒性能。
为了验证提出的AdaSSL防御算法在垃圾邮件过滤领域中对标签翻转的有 效性,以TREC 2007垃圾邮件语料库为例,本文对比了在0~20%的标签翻转 水平下,六种机器学习分类器在两种翻转攻击(基于熵值法的标签翻转攻击和基 于k-medoids标签翻转攻击)和在AdaSSL防御机制下的分类性能。
图5是六种机器学***下,SVM分类器的分类精度会变高是因为SVM是通过决 策边界来对样本进行分类的,而这两种攻击方法的核心思想在于根据权重大小寻 找最优的翻转集合。基于本发明中的AdaSSL标签噪声防御算法,该方法明显 提高了攻击造成的机器学*** 下,分类器的分类性能趋于平稳。
本文还使用F1-score指标综合评估了机器学习算法在标签翻转攻击及防御 算法下的性能。如图6所示是使用F1-score指标的综合评价结果。从图中可以 看出,基于k-medoids的攻击策略比基于熵值法的攻击策略的攻击效果要好。而 在AdaSSL标签噪声检测算法下,机器学习算法对攻击表现出较好的鲁棒性。
最后应当说明的是:以上实例仅用于说明本发明的技术方案而非对其限制; 尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当 理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同 替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方 案范围当中。
Claims (3)
1.一种基于AdaBoost的半监督学习标签噪声防御算法(AdaSSL),其特征在于,包括以下步骤:
1)根据AdaBoost算法对噪声数据的敏感性来捕获带标签噪声的样本集合;
2)然后将步骤1)中捕获的权重较大的一组带噪声的样本集合输入到半监督学习模型(SSL)中进行标签校正,提高原始数据的标签质量;
3)最后,使用机器学习算法对上述校正的数据集合进行分类。
3.如权利要求1和2中所述的基于AdaBoost的半监督学习标签噪声防御算法,其特征在于:将带正确标签的样本集合与AdaSSL算法校正后的噪声样本进行合并,得到新的校正后的样本集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587195.4A CN113269258A (zh) | 2021-05-27 | 2021-05-27 | 一种基于AdaBoost的半监督学习标签噪声防御算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587195.4A CN113269258A (zh) | 2021-05-27 | 2021-05-27 | 一种基于AdaBoost的半监督学习标签噪声防御算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113269258A true CN113269258A (zh) | 2021-08-17 |
Family
ID=77233206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110587195.4A Withdrawn CN113269258A (zh) | 2021-05-27 | 2021-05-27 | 一种基于AdaBoost的半监督学习标签噪声防御算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269258A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140283052A1 (en) * | 2013-03-14 | 2014-09-18 | Eamon Hirata Jordan | Heterogeneous sensors for network defense |
CN107292330A (zh) * | 2017-05-02 | 2017-10-24 | 南京航空航天大学 | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 |
CN112115467A (zh) * | 2020-09-04 | 2020-12-22 | 长沙理工大学 | 一种基于集成学习的半监督分类的入侵检测方法 |
CN112700081A (zh) * | 2020-11-26 | 2021-04-23 | 郑州大学 | 一种基于熵值法的标签翻转攻击方法 |
-
2021
- 2021-05-27 CN CN202110587195.4A patent/CN113269258A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140283052A1 (en) * | 2013-03-14 | 2014-09-18 | Eamon Hirata Jordan | Heterogeneous sensors for network defense |
CN107292330A (zh) * | 2017-05-02 | 2017-10-24 | 南京航空航天大学 | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 |
CN112115467A (zh) * | 2020-09-04 | 2020-12-22 | 长沙理工大学 | 一种基于集成学习的半监督分类的入侵检测方法 |
CN112700081A (zh) * | 2020-11-26 | 2021-04-23 | 郑州大学 | 一种基于熵值法的标签翻转攻击方法 |
Non-Patent Citations (2)
Title |
---|
NING CHENG 等: "Label Noise Detection System Against Label Flipping Attack", 《SEMANTIC SCHOLAR》 * |
万建武等: "代价敏感的半监督Laplacian支持向量机", 《电子学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Detecting adversarial image examples in deep neural networks with adaptive noise reduction | |
US8489689B1 (en) | Apparatus and method for obfuscation detection within a spam filtering model | |
JP5183483B2 (ja) | データ列の自動比較に用いられる方法およびその装置 | |
US8112484B1 (en) | Apparatus and method for auxiliary classification for generating features for a spam filtering model | |
US11509689B2 (en) | Systems and methods for intelligent phishing threat detection and phishing threat remediation in a cyber security threat detection and mitigation platform | |
CN110351291B (zh) | 基于多尺度卷积神经网络的DDoS攻击检测方法及装置 | |
CN115037543B (zh) | 一种基于双向时间卷积神经网络的异常网络流量检测方法 | |
WO2024051183A1 (zh) | 一种基于决策捷径搜索的后门检测方法 | |
Idris et al. | An improved AIS based e-mail classification technique for spam detection | |
Swetha et al. | Spam email and malware elimination employing various classification techniques | |
Ning et al. | Improving model robustness by adaptively correcting perturbation levels with active queries | |
US20220294751A1 (en) | System and method for clustering emails identified as spam | |
US20230342482A9 (en) | System and method for identifying spam email | |
CN112907431B (zh) | 一种对对抗隐写鲁棒的隐写分析方法 | |
Liu et al. | A high performance image-spam filtering system | |
Walling et al. | Performance Evaluation of Supervised Machine Learning Based Intrusion Detection with Univariate Feature Selection on NSL KDD Dataset | |
Salcedo-Campos et al. | Segmental parameterisation and statistical modelling of e-mail headers for spam detection | |
CN113269258A (zh) | 一种基于AdaBoost的半监督学习标签噪声防御算法 | |
Zhan et al. | Phishing detection using stochastic learning-based weak estimators | |
CN113887633B (zh) | 基于il的闭源电力工控***恶意行为识别方法及*** | |
Gong et al. | AGRAMPLIFIER: Defending federated learning against poisoning attacks through local update amplification | |
CN112700081A (zh) | 一种基于熵值法的标签翻转攻击方法 | |
Gao et al. | Semi supervised image spam hunter: A regularized discriminant em approach | |
Chachuła et al. | Combating noisy labels in object detection datasets | |
Grimmer et al. | Intrusion detection on system call graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210817 |
|
WW01 | Invention patent application withdrawn after publication |