CN114499980A - 一种钓鱼邮件检测方法、装置、设备及存储介质 - Google Patents
一种钓鱼邮件检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114499980A CN114499980A CN202111632166.1A CN202111632166A CN114499980A CN 114499980 A CN114499980 A CN 114499980A CN 202111632166 A CN202111632166 A CN 202111632166A CN 114499980 A CN114499980 A CN 114499980A
- Authority
- CN
- China
- Prior art keywords
- training
- classifier
- data set
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 153
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012360 testing method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000002790 cross-validation Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 8
- 238000012795 verification Methods 0.000 description 6
- 238000007636 ensemble learning method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000001939 inductive effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 101001094649 Homo sapiens Popeye domain-containing protein 3 Proteins 0.000 description 1
- 101000608234 Homo sapiens Pyrin domain-containing protein 5 Proteins 0.000 description 1
- 101000578693 Homo sapiens Target of rapamycin complex subunit LST8 Proteins 0.000 description 1
- 244000035744 Hura crepitans Species 0.000 description 1
- 102100027802 Target of rapamycin complex subunit LST8 Human genes 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/08—Annexed information, e.g. attachments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种钓鱼邮件检测方法、装置、设备及存储介质,该方法包括:获取邮件数据集,提取邮件数据集中各邮件的多维度特征得到特征数据集,获取特征数据集中部分多维度特征为训练集;采用交叉训练预测的方式利用训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在训练集上预测得到的预测结果,并基于预测结果训练分类器得到元分类器;将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至元分类器得到待检测邮件是否为钓鱼邮件的总检测结果。本申请能够提高邮件检测的鲁棒性和泛化性,进而有效提高邮件检测的准确性。
Description
技术领域
本发明涉及信息检测技术领域,更具体地说,涉及一种钓鱼邮件检测方法、装置、设备及存储介质。
背景技术
邮件***作为互联网的重要基础设施之一,在早期设计SMTP(Simple MailTransfer Protocol,简单邮件传输协议)、POP3(Post Office Protocol-Version 3,邮局协议版本3)和IMAP(Internet Message Access Protocol,因特网消息访问协议)等协议时,协议和服务的安全性考虑不足,导致垃圾邮件泛滥成灾。DKIM(Domain KeysIdentified Mail,域名密钥识别邮件标准)和SPF(Sender Policy Framework,发送方策略框架)被设计用于解决邮件授权和认证的问题,缓解了垃圾邮件泛滥的问题。随着安全检测技术和安全设备的发展,大大地增强了企业的服务和应用的防御能力;因此钓鱼邮件作为一种基于社会工程学原理的攻击手段,开始逐渐被越来越多的恶意攻击者所采用,用于入侵计算机***、窃取敏感数据等行为。
钓鱼邮件通常是黑客精心构造的邮件,其目的在于诱骗收件人去点击邮件的恶意链接或者下载恶意附件;因此,钓鱼邮件通常具有良好的伪装,让收件人难辨真伪,同时也具有强烈的诱导性,而如何提供一种能够实现钓鱼邮件检测的技术方案,是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种钓鱼邮件检测方法、装置、设备及存储介质,能够提高邮件检测的鲁棒性和泛化性,进而有效提高邮件检测的准确性。
为了实现上述目的,本发明提供如下技术方案:
一种钓鱼邮件检测方法,包括:
获取邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;
采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;
将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。
优选的,提取所述邮件数据集中各邮件的多维度特征,包括:
对所述邮件数据集中的各邮件分别进行解析,以提取所述邮件数据集中各邮件包含的字段数据,并从所述字段数据中提取各邮件的域名特征、链接特征、邮件文本特征及邮件附件特征作为相应的多维度特征。
优选的,提取所述邮件数据集中各邮件的多维度特征之后,还包括:
对提取的所述邮件数据集中各邮件的多维度特征进行缺失值填充处理,并对完成缺失值填充处理的多维度特征进行标准化处理。
优选的,训练得到每个所述基分类器及所述元分类器之后,还包括:
通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优。
优选的,通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优之后,还包括:
在所述训练集上对每个所述基分类器进行训练,并基于在所述训练集上对每个所述基分类器进行训练时的预测结果对所述元分类器进行训练。
优选的,基于所述特征数据集中得到训练集,包括:
将所述特征数据集分为训练集及测试集;
相应的,基于在所述训练集上对每个所述基分类器进行训练时的预测结果对所述元分类器进行训练之后,还包括:
利用每个所述基分类器在所述测试集上进行测试,并基于利用每个所述基分类器在所述测试集上进行测试时的预测结果对所述元分类器进行测试,得到相应的准确率及误报率,如果所述准确率及所述误报率符合要求,则确定完成分类器的训练,否则,输出相应的错误提示。
优选的,所述域名特征包括相应邮件中发件人、收件人和所有链接中的域名信息,所述链接特征包括相应邮件中所有链接的字符串,所述邮件文本特征包括相应邮件中邮件标题及邮件正文的内容,所述邮件附件特征包括相应邮件的附件在运行时的网络行为信息。
一种钓鱼邮件检测装置,包括:
提取模块,用于:获取邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;
训练模块,用于:采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;
检测模块,用于:将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。
一种钓鱼邮件检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述钓鱼邮件检测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述钓鱼邮件检测方法的步骤。
本发明提供了一种钓鱼邮件检测方法、装置、设备及存储介质,该方法包括:获取邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。本申请获取邮件数据集,提取邮件数据集中各邮件的多维度特征得到特征数据集,获取特征数据集中包含的训练集,采用交叉训练预测的方式利用训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器以及每个基分类器在训练集上预测得到的预测结果,利用上述预测结果训练分类器得到元分类器,进而在实现任意邮件是否为钓鱼邮件的检测时,将该任意邮件的多维度特征中每个维度的特征分别输入相应的基分类器得到多个子预测结果,再利用该多个子预测结果输入元分类器得到该任意邮件是否为钓鱼邮件的总检测结果。可见,本申请为不同维度的特征分别进行建模,采用集成学习的方法结合各个基分类器的结果,提高了邮件检测的鲁棒性和泛化性,进而有效提高邮件检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种钓鱼邮件检测方法的流程图;
图2为本发明实施例提供的一种钓鱼邮件检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前钓鱼邮件的伪装主要体现在以下四个方面:1.盗用官方的图文信息,甚至盗用整个官方网站来仿冒可信邮件,并以虚假的理由来诱导收件人提交自己的账号信息、个人隐私等,或者诱导支付;2.邮件的标题会具有强烈的吸引力,通常是一些非常诱人或者可怕的事情,从而引起收件人的关注;3.电子邮件中的发件人和链接地址也是不可信的,黑客常以伪造可信地址的方式让收件人以为该邮件来自可信用户或网站的官方信件;4.诱导点击恶意图片和附件,攻击者通过伪装无法显示的图片,或者采用诱导性语言来欺骗收件人点击图片或者下载附件,从而达到盗取敏感信息或者控制邮箱的目的。
精心伪装的钓鱼邮件难以通过单一维度的特征进行表示,其向量化后的结果存在部分的信息缺失。针对此,本申请提出基于集成学习的检测模型,通过多维度提取特征信息,利用不同的机器学习模型(包括集分类器及元分类器)的融合结果来提升检测模型的泛化性能与鲁棒性,进而提升钓鱼邮件检测的准确性;以下对本申请提供的钓鱼邮件检测方案进行具体说明。
请参阅图1,其示出了本发明实施例提供的一种钓鱼邮件检测方法的流程图,可以包括:
S11:获取邮件数据集,提取邮件数据集中各邮件的多维度特征,得到包含有邮件数据集中各邮件的多维度特征的特征数据集,并获取特征数据集中包含的部分多维度特征为训练集。
本申请实施例先准备邮件数据集,邮件数据集中包含有带有标签的多个邮件,任意邮件的标签为表示该任意邮件是否为钓鱼邮件的信息,且这多个邮件的数据形式包括但不限于EML文件、JSON文件或TXT文件等;然后对邮件数据集中存储邮件的文件进行解析,提取出邮件数据集中各邮件包含的各字段的数据,并处理各类字符编码和字符串中空格以及换行问题;再然后将提取到的各邮件分别包含的数据内容按照不同特征维度进行格式化存储输出,并从中提取多维度特征作为用于实现模型处理的数据,得到包含有各邮件对应多维度特征及各邮件的标签的特征数据集,从特征数据集中获取部分多维度特征及多维度特征所属邮件的标签组成训练集。其中,多维度特征可以根据实际需要进行设定,包括但不限于域名特征、链接特征、邮件文本特征及邮件附件特征。
S12:采用交叉训练预测的方式利用训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在训练集上预测得到的预测结果,并基于预测结果训练分类器得到元分类器。
本申请实施例在得到训练集后,采用交叉训练预测的方式利用训练集中每个维度的特征及相应标签分别训练预测分类器,得到分别与每个维度的特征对应的基分类器及每个基分类器在训练集上预测得到的预测结果,进而利用这些预测结果及预测结果对应邮件的标签训练分类器,得到能够结合各个基分类器的预测结果得到最终预测结果的元分类器。具体来说,本申请实施例可以将训练集分为K份子集,通过迭代循环进行K次训练预测过程,得到基分类器及基分类器在训练集上的所有预测结果,单次训练预测过程可以包括:将训练集中的K-1份子集作为训练子集,剩余1份子集作为预测子集,利用训练子集中每个维度的特征及相应标签分别训练分类器,得到与每个维度的特征分别对应的基分类器,然后利用每个基分类器在预测子集上进行预测,得到预测子集中每个多维度特征对应的预测结果。并且在迭代循环进行的K次训练预测过程中,第1份子集至第K份子集均作为过预测子集,以得到每个基分类器在训练集的全部多维度特征上预测所得的预测结果。
S13:将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至元分类器得到待检测邮件是否为钓鱼邮件的总检测结果。
在需要检测任意邮件是否为钓鱼邮件时,将该任意邮件作为待检测邮件,提取待检测邮件的多维度特征(获取待检测邮件的多维度特征与获取邮件数据集中任意邮件的多维度特征的实现原理是相同的),将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器,得到每个基分类器输出的结果分别为子预测结果,然后利用每个分类器输出的子预测结果组合成新的特征向量后,将利用子预测结果组合成的新的特征向量输入至元分类器,得到元分类器输出的待检测邮件是否为钓鱼邮件的结果作为总检测结果。
本申请获取邮件数据集,提取邮件数据集中各邮件的多维度特征得到特征数据集,获取特征数据集中包含的训练集,采用交叉训练预测的方式利用训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器以及每个基分类器在训练集上预测得到的预测结果,利用上述预测结果训练分类器得到元分类器,进而在实现任意邮件是否为钓鱼邮件的检测时,将该任意邮件的多维度特征中每个维度的特征分别输入相应的基分类器得到多个子预测结果,再利用该多个子预测结果输入元分类器得到该任意邮件是否为钓鱼邮件的总检测结果。可见,本申请为不同维度的特征分别进行建模,采用集成学习的方法结合各个基分类器的结果,提高了邮件检测的鲁棒性和泛化性,进而有效提高邮件检测的准确性。
本发明实施例提供的一种钓鱼邮件检测方法,提取邮件数据集中各邮件的多维度特征,可以包括:
对邮件数据集中的各邮件分别进行解析,以提取邮件数据集中各邮件包含的字段数据,并从字段数据中提取各邮件的域名特征、链接特征、邮件文本特征及邮件附件特征作为相应的多维度特征;其中,域名特征包括相应邮件中发件人、收件人和所有链接中的域名信息,链接特征包括相应邮件中所有链接的字符串,邮件文本特征包括相应邮件中邮件标题及邮件正文的内容,邮件附件特征包括相应邮件的附件在运行时的网络行为信息。
本申请实施例在实现邮件的多维度特征提取时,具体可以提取以下四个维度的特征:
C1、提取邮件中的域名特征:提取邮件中发件人、收件人和所有链接中的域名信息,并进行矢量化;域名特征包括但不限于:统计邮件中出现的域名数量、统计域名命中IoC(Indicators of Compromise,失陷标识)的数量、计算域名与常见域名的汉明距离的最小值、统计域名命中Alexa白名单的数量、统计域名没有命中Alexa白名单的数量等;
C2、提取邮件中的链接特征:提取邮件中所有链接的字符串,并将所有字符串向量化;链接特征包括但不限于:统计链接中所表示的资源类型数量和各类资源链接数量、查询VirusTotal网站URL对应资源的得分和与之关联的IP数量等;其中,VirusTotal是众所周知的威胁情报查询网站;
C3、提取邮件文本特征(邮件标题和正文特征):提取邮件中标题和正文的内容,并利用Jieba对中文内容进行分词,利用空格分隔符对英文内容进行分词,从分词的结果提取邮件中标题和正文的特征,转换成向量表示;邮件文本特征包括但不限于:利用TF-IDF(term frequency-inverse document frequency)算法统计每个词的重要性、统计诱导性关键词数量、统计威胁性关键词数量等;其中,Jieba为众所周知中文分词工具,诱导性关键词和威胁性关键词是基于专家知识预定义的关键词集合;
C4、提取邮件附件特征:通过将邮件的附件在沙箱中运行,获得附件运行时的网络行为特征,并将其行为矢量化;邮件附件特征包括但不限于:附件运行时请求域名命中IoC的数量、附件运行时请求URL命中IoC的数量、附件运行时请求URL在VirusTotal上的得分等。
可见,本申请提取多维度特征的过程,从多个方面对邮件进行表征,获取了尽可能全面的信息,从而能够解决单一维度的检测模型因为特征信息提取不全,在线上部署后表现出鲁棒性和泛化性不足的问题。
在多维度特征包括域名特征、链接特征、邮件文本特征及邮件附件特征这四个维度的特征时,实现相应四个基分类器及一元分类器的过程可以包括:
1.基分类器训练-对每个维度的特征利用不同的机器学习模型进行学习:
为C1中的域名特征,构建基于域名特征的机器学习模型;
为C2中的链接特征,构建基于链接特征的机器学习模型;
为C3中的邮件文本特征,构建基于邮件文本特征的机器学习模型;
为C4中的邮件附件特征,构建基于邮件附件特征的机器学习模型。
其中,基于不同维度的特征训练基分类器的方法实现原理相同,首先将训练集分成K份,每一轮基分类器的训练和预测过程具体分为以下步骤:初始化基分类器的权重参数;选择训练集中的K-1份作为基分类器的训练子集,剩余一份作为预测子集,在此数据上训练基分类器;将训练好的基分类器在预测子集上进行训练预测。迭代循环进行K次训练预测过程,得到基分类器在训练集上的所有预测结果;将各基分类器在训练集上预测得到的结果分别记为E1_Pred,E2_Pred,E3_Pred,E4_Pred。
需要指出的是,本申请实施例的模型训练中为不同维度的特征构建了各自的机器学习模型,每个机器学习模型能学习到不同的数据内在模式,并在后续需要时基于各自的数据内在模式预测待检测邮件是否为钓鱼邮件,相比基于单一维度的分类器,具有更好的泛化性能,也提高了检测的准确率。
2.基分类器结果融合和元分类器训练-将四个不同的基分类器的预测结果E1_Pred,E2_Pred,E3_Pred,E4_Pred组合成新的特征向量,基于该新的特征向量构建机器学***均值的方式等。
本发明实施例提供的一种钓鱼邮件检测方法,提取邮件数据集中各邮件的多维度特征之后,还可以包括:
对提取的邮件数据集中各邮件的多维度特征进行缺失值填充处理,并对完成缺失值填充处理的多维度特征进行标准化处理。
为了进一步保证模型更加充分准确的学***均值填充等缺失值处理方法;由于不同特征的量纲不同,因此还可以对不维度的特征进行标准化处理。
本发明实施例提供的一种钓鱼邮件检测方法,训练得到每个基分类器及元分类器之后,还可以包括:
通过交叉验证方式对每个基分类器及元分类器进行参数调优。
需要说明的是,本申请在训练得到基分类器及元分类器后,还可以通过留一验证法,K折交叉验证法和重复K折交叉验证法等方式对各个基分类器及元分类器进行模型参数调优,本申请实施例优选选取交叉验证的方式实现模型参数调优,具体可以包括:分别对训练得到的四个基分类器应用K折交叉验证法实现模型参数调优,以为四个基分类器选择检测性能最好的一组参数作为相应基分类器最终的参数;为元分类器应用K折交叉验证法实现模型参数调优,以选择检测性能最好的一组参数作为元分类器最终的参数。
本发明实施例提供的一种钓鱼邮件检测方法,通过交叉验证方式对每个基分类器及元分类器进行参数调优之后,还可以包括:在训练集上对每个基分类器进行训练,并基于在训练集上对每个基分类器进行训练时的预测结果对元分类器进行训练。
基于特征数据集中得到训练集,可以包括:将特征数据集分为训练集及测试集。
基于在训练集上对每个基分类器进行训练时的预测结果对元分类器进行训练之后,还可以包括:利用每个基分类器在测试集上进行测试,并基于利用每个基分类器在测试集上进行测试时的预测结果对元分类器进行测试,得到相应的准确率及误报率,如果准确率及误报率符合要求,则确定完成分类器的训练,否则,输出相应的错误提示。
本申请实施例在得到特征数据集后,先将特征数据集分为训练集及测试集,从而在训练集上实现四个基分类器及元分类器的训练,进而在测试集上实现四个基分类器及元分类器的测试。具体来说,在实现对四个基分类器及元分类器的参数调优后,将各基分类器在训练集包含的全部数据上进行训练预测,基于各基分类器在训练集上训练预测的结果训练元分类器;然后使用各基分类器在测试集上进行测试预测,使用元分类器在该测试预测的结果上进行再次预测,从而得到最后的邮件检测准确率和误报率;并且在准确率和误报率符合要求时确定各基分类器及元分类器成功获得,否则输出相应的错误提示,以指示手动触发重新实现模型训练或者自动触发重新实现模型训练。从而通过上述步骤实现最优模型训练与验证,进一步保证模型性能符合要求。为克服现有钓鱼邮件检测技术中鲁棒性和泛化性不足的问题,本申请提供基于集成学习的钓鱼邮件检测的技术方案;在一种具体实现方式中,本申请提供的技术方案具体可以包括:
A)准备数据集:准备好带有标签的邮件数据集,数据形式包括但不限于EML文件、JSON文件或TXT文件等,并将数据集分成训练集和测试集。
B)解析数据:
B1、对存储邮件的文件进行解析,提取出各个字段的数据,并处理各类字符编码和字符串中空格以及换行问题;
B2、将邮件中的内容按照域名、链接、标题、正文、附件文件路径维度进行分类存储。
C)提取多维度特征:
C1、提取邮件中的域名特征;
C2、提取邮件中的链接特征;
C3、提取邮件中的邮件文本特征;
C4、提取邮件中的邮件附件特征。
D)数据预处理:
D1、对于提取的多维度特征中的缺失值进行处理;
D2、对不同维度的特征进行标准化处理。
E)基分类器训练-对每个维度的特征利用不同的机器学习模型进行学习:
E1、为C1中的域名特征,构建基于域名特征的感知机模型;
E2、为C2中的链接特征,构建基于链接特征的支持向量机模型;
E3、为C3中的邮件文本特征,构建基于邮件文本特征的随机森林模型模型;
E4、为C4中的邮件附件特征,构建基于邮件附件特征的AdaBoost模型;
E5、E1-E4中训练基分类器的方法相同,将训练集分成五份,每一轮的训练和预测过程具体分为以下步骤:
E5.1、初始化基分类器的权重参数;
E5.2、选择其中四份作为基分类器的训练子集,在此数据上训练基分类器;
E5.3、将训练好的基分类器在剩余一份的训练集上进行预测;
E5.4、迭代循环进行五次训练预测过程,得到基分类器在训练集上的所有预测结果;
E6、E1-E4中各基分类器在训练集上预测得到的结果分别记为E1_Pred,E2_Pred,E3_Pred,E4_Pred。
F)基分类器结果融合和元分类器训练:将四个不同的基分类器的预测结果E1_Pred,E2_Pred,E3_Pred,E4_Pred组合成新的特征向量;基于该新的特征向量构建神经网络模型,称为元分类器。
G)参数调优:通过交叉验证的方式,对各个基分类器和元分类器进行模型参数调优。
H)最优模型训练与验证:将所有最优的基分类器,在所有的训练数据上进行训练,并在测试集上进行性能测试,从而得到最后的模型检测的准确率和误报率。
综上,本申请通过特征工程提取邮件的多维度特征,将每个维度的特征分别用于训练一个基分类器,每个基分类器仅使用一个维度的特征训练,并以五折交叉的方式在训练集上进行预测;将四个基分类器在训练集上预测得到的结果作为新的特征,训练元分类器并最终预测邮件是否为钓鱼邮件;最后通过K折交叉验证的方法选择具备最佳检测性能的分类器参数。其中,在统计学和机器学习中集成学习方法使用多种学习算法来获得比单独使用任何单独的学习算法更好的预测性能;特征工程是利用数据领域的相关知识将原始数据转化成更好地表达问题本质的特征的过程;钓鱼邮件是指利用伪装的电子邮件,欺骗收件人将账号、口令等信息回复给指定的接受者,或引导收件人访问恶意网站、下载恶意附件导致入侵用户计算机***的恶意邮件。本申请能够融合邮件多维度的信息,更加全面地提取钓鱼邮件的特征信息,从而提高了检测模型的鲁棒性、泛化性和准确率,即本申请实施例提供的基于集成学习的钓鱼邮件检测的技术方案具有以下特点:
1、解决现有基于单一维度特征的钓鱼邮件检测方案存在表示信息缺失以及鲁棒性、泛化性较差的问题;
2、多维度特征从不同的角度考虑,较全面地表示钓鱼邮件的原始信息,解决了基于单一维度特征检测方法信息缺失的问题;
3、为不同维度的特征分别进行建模,采用集成学习的方法结合各个基分类器的结果,提高了检测方法及***的鲁棒性和泛化性。
本发明实施例还提供了一种钓鱼邮件检测装置,如图2所示,可以包括:
提取模块11,用于:获取邮件数据集,提取邮件数据集中各邮件的多维度特征,得到包含有邮件数据集中各邮件的多维度特征的特征数据集,并获取特征数据集中包含的部分多维度特征为训练集;
训练模块12,用于:采用交叉训练预测的方式利用训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在训练集上预测得到的预测结果,并基于预测结果训练分类器得到元分类器;
检测模块13,用于:将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至元分类器得到待检测邮件是否为钓鱼邮件的总检测结果。
本发明实施例还提供了一种钓鱼邮件检测设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项钓鱼邮件检测方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项钓鱼邮件检测方法的步骤。
需要说明的是,本发明实施例提供的一种钓鱼邮件检测装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种钓鱼邮件检测方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种钓鱼邮件检测方法,其特征在于,包括:
获取邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;
采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;
将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。
2.根据权利要求1所述的方法,其特征在于,提取所述邮件数据集中各邮件的多维度特征,包括:
对所述邮件数据集中的各邮件分别进行解析,以提取所述邮件数据集中各邮件包含的字段数据,并从所述字段数据中提取各邮件的域名特征、链接特征、邮件文本特征及邮件附件特征作为相应的多维度特征。
3.根据权利要求2所述的方法,其特征在于,提取所述邮件数据集中各邮件的多维度特征之后,还包括:
对提取的所述邮件数据集中各邮件的多维度特征进行缺失值填充处理,并对完成缺失值填充处理的多维度特征进行标准化处理。
4.根据权利要求3所述的方法,其特征在于,训练得到每个所述基分类器及所述元分类器之后,还包括:
通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优。
5.根据权利要求4所述的方法,其特征在于,通过交叉验证方式对每个所述基分类器及所述元分类器进行参数调优之后,还包括:
在所述训练集上对每个所述基分类器进行训练,并基于在所述训练集上对每个所述基分类器进行训练时的预测结果对所述元分类器进行训练。
6.根据权利要求5所述的方法,其特征在于,基于所述特征数据集中得到训练集,包括:
将所述特征数据集分为训练集及测试集;
相应的,基于在所述训练集上对每个所述基分类器进行训练时的预测结果对所述元分类器进行训练之后,还包括:
利用每个所述基分类器在所述测试集上进行测试,并基于利用每个所述基分类器在所述测试集上进行测试时的预测结果对所述元分类器进行测试,得到相应的准确率及误报率,如果所述准确率及所述误报率符合要求,则确定完成分类器的训练,否则,输出相应的错误提示。
7.根据权利要求6所述的方法,其特征在于,所述域名特征包括相应邮件中发件人、收件人和所有链接中的域名信息,所述链接特征包括相应邮件中所有链接的字符串,所述邮件文本特征包括相应邮件中邮件标题及邮件正文的内容,所述邮件附件特征包括相应邮件的附件在运行时的网络行为信息。
8.一种钓鱼邮件检测装置,其特征在于,包括:
提取模块,用于:获取邮件数据集,提取所述邮件数据集中各邮件的多维度特征,得到包含有所述邮件数据集中各邮件的多维度特征的特征数据集,并获取所述特征数据集中包含的部分多维度特征为训练集;
训练模块,用于:采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器,得到与每个维度的特征一一对应的多个基分类器,以及每个基分类器在所述训练集上预测得到的预测结果,并基于所述预测结果训练分类器得到元分类器;
检测模块,用于:将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个子预测结果,将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮件的总检测结果。
9.一种钓鱼邮件检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述钓鱼邮件检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述钓鱼邮件检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111632166.1A CN114499980A (zh) | 2021-12-28 | 2021-12-28 | 一种钓鱼邮件检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111632166.1A CN114499980A (zh) | 2021-12-28 | 2021-12-28 | 一种钓鱼邮件检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114499980A true CN114499980A (zh) | 2022-05-13 |
Family
ID=81496641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111632166.1A Withdrawn CN114499980A (zh) | 2021-12-28 | 2021-12-28 | 一种钓鱼邮件检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114499980A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116223962A (zh) * | 2023-05-08 | 2023-06-06 | 中科航迈数控软件(深圳)有限公司 | 线束电磁兼容性预测方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138913A (zh) * | 2015-07-24 | 2015-12-09 | 四川大学 | 一种基于多视集成学习的恶意软件检测方法 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和*** |
-
2021
- 2021-12-28 CN CN202111632166.1A patent/CN114499980A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138913A (zh) * | 2015-07-24 | 2015-12-09 | 四川大学 | 一种基于多视集成学习的恶意软件检测方法 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和*** |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116223962A (zh) * | 2023-05-08 | 2023-06-06 | 中科航迈数控软件(深圳)有限公司 | 线束电磁兼容性预测方法、装置、设备及介质 |
CN116223962B (zh) * | 2023-05-08 | 2023-07-07 | 中科航迈数控软件(深圳)有限公司 | 线束电磁兼容性预测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11516223B2 (en) | Secure personalized trust-based messages classification system and method | |
US11997115B1 (en) | Message platform for automated threat simulation, reporting, detection, and remediation | |
Karim et al. | A comprehensive survey for intelligent spam email detection | |
JP7391110B2 (ja) | フィッシング・キャンペーンの検出 | |
Ramanathan et al. | phishGILLNET—phishing detection methodology using probabilistic latent semantic analysis, AdaBoost, and co-training | |
Ramanathan et al. | Phishing detection and impersonated entity discovery using Conditional Random Field and Latent Dirichlet Allocation | |
Li et al. | LSTM based phishing detection for big email data | |
US11595435B2 (en) | Methods and systems for detecting phishing emails using feature extraction and machine learning | |
Rahim et al. | Detecting the Phishing Attack Using Collaborative Approach and Secure Login through Dynamic Virtual Passwords. | |
Gandotra et al. | Improving spoofed website detection using machine learning | |
US12021896B2 (en) | Method for detecting webpage spoofing attacks | |
Kumar Birthriya et al. | A comprehensive survey of phishing email detection and protection techniques | |
CN110855716B (zh) | 一种面向仿冒域名的自适应安全威胁分析方法及*** | |
Khan | Detection of phishing websites using deep learning techniques | |
Akinyelu | Machine learning and nature inspired based phishing detection: a literature survey | |
Wang et al. | DeepC2: Ai-powered covert command and control on OSNs | |
CN114499980A (zh) | 一种钓鱼邮件检测方法、装置、设备及存储介质 | |
Alkawaz et al. | Identification and analysis of phishing website based on machine learning methods | |
US20230164180A1 (en) | Phishing detection methods and systems | |
Charan et al. | Phishing websites detection using machine learning with url analysis | |
Sushma et al. | Deep learning for phishing website detection | |
Sokolov et al. | Visual spoofing in content-based spam detection | |
Yazhmozhi et al. | Natural language processing and Machine learning based phishing website detection system | |
Mittal et al. | Phishing detection using natural language processing and machine learning | |
Khadir et al. | Efforts and Methodologies used in Phishing Email Detection and Filtering: A Survey. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220513 |
|
WW01 | Invention patent application withdrawn after publication |