CN110557352A

CN110557352A - 一种群发垃圾邮件的检测方法、装置及设备

Info

Publication number: CN110557352A
Application number: CN201810541594.5A
Authority: CN
Inventors: 郭开; 陈瑞钦
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2019-12-10

Abstract

本申请公开了一种群发垃圾邮件的检测方法，包括获取客户端中的发件日志；根据发件日志确定具有相同邮件主题的邮件集合的集体发件特征数据；集体发件特征数据为表征邮件主题的传播范围广度的特征数据；根据集体发件特征数据判断邮件主题的传播范围广度是否大于预设阈值；若是，则判定邮件集合中的邮件为群发垃圾邮件。本申请所提供的群发垃圾邮件的检测方法简单有效、适用性强，利用的是垃圾邮件的扩散特点，检测结果的准确率较高。本申请还公开了一种群发垃圾邮件的检测装置、设备及计算机可读存储介质，同样具有上述有益效果。

Description

一种群发垃圾邮件的检测方法、装置及设备

技术领域

本申请涉及反垃圾邮件技术领域，特别涉及一种群发垃圾邮件的检测方法、装置、设备及计算机可读存储介质。

背景技术

网络技术在带给人们便利生活的同时，也会带来一些负面影响。其具有开放性和多元性，也因而缺乏科学有效的规范管理。因此，垃圾邮件问题目前仍是现代人在人际交流中的一大困扰。

现有技术针对于群发垃圾邮件的检测问题提供了一些解决方法。例如，基于地址的黑白名单过滤技术可拦截用户黑名单中的发件人发来的邮件。但是，该方法很大程度上受限制于用户黑白名单的合理性和完备性，因此，其漏报或者误报的可能性高，检测能力有限。另一类解决方法是基于邮件文本内容的过滤技术，利用关键词、内容指纹的相似性或者文本字串的统计概率来对邮件属性进行评判。但是，一方面，该类方法过于依赖邮件内容导致其灵活适用性不高，无法检测出一些其他内容的垃圾邮件；另一方面，基于内容的分析技术往往需要占用相对较多的***资源，不仅检测速度慢还增加了***负担，甚至可能在垃圾邮件泛滥时引发***崩溃。

可见，采用何种简便快速、准确率高且适用性强的检测技术，以便正确检测出群发垃圾邮件，是本领域技术人员所亟待解决的技术问题。

发明内容

本申请的目的在于提供一种简便快速、准确率高且适用性强的检测方法、装置、设备及计算机可读存储介质，以便正确地检测出群发垃圾邮件。

为解决上述技术问题，本申请提供一种群发垃圾邮件的检测方法，包括：

获取客户端中的发件日志；

根据所述发件日志确定具有相同邮件主题的邮件集合的集体发件特征数据；所述集体发件特征数据为表征所述邮件主题的传播范围广度的特征数据；

根据所述集体发件特征数据判断所述邮件主题的所述传播范围广度是否大于预设阈值；

若是，则判定所述邮件集合中的邮件为群发垃圾邮件。

可选地，所述根据所述集体发件特征数据判断所述邮件主题的所述传播范围广度是否大于预设阈值包括：

按照预设权重系数对所述集体发件特征数据进行加权计算，并将计算结果作为所述传播范围广度的综合指标；

判断所述综合指标是否大于所述预设阈值。

可选地，所述集体发件特征数据包括以下任意一项或者任意组合：

收件人总数、邮件总数、所述收件人总数与所述邮件总数的比值。

可选地，若所述邮件集合的发件人总数大于1且所述收件人总数大于1，则所述集体发件特征数据还包括以下任意一项或者任意组合：

所述发件人总数、所述发件人总数与所述邮件总数的比值、可疑发件人数量与所述发件人总数的比值；

其中，所述可疑发件人为在其他邮件主题的邮件集合中出现过的发件人。

可选地，所述集体发件特征数据还包括以下任意一项或者任意组合：

被拒收邮件数量、所述被拒收邮件数量与所述邮件总数的比值、收件地址不存在的收件人数量、所述收件地址不存在的收件人数量与所述收件人总数的比值。

可选地，在所述判定所述邮件集合中的邮件为群发垃圾邮件之后，还包括：

生成警示信息的显示指令，以便通过所述警示信息向管理员示警。

本申请还提供了一种群发垃圾邮件的检测装置，应用于服务器，包括：

获取模块：用于获取客户端中的发件日志；

确定模块：用于根据所述发件日志确定具有相同邮件主题的邮件集合的集体发件特征数据；所述集体发件特征数据为表征所述邮件主题的传播范围广度的特征数据；

判断模块：用于根据所述集体发件特征数据判断所述邮件主题的所述传播范围广度是否大于预设阈值；若是，则判定所述邮件集合中的邮件为群发垃圾邮件。

可选地，还包括：

指令模块：用于在所述判断模块判定所述邮件集合中的邮件为群发垃圾邮件之后，生成警示信息的显示指令，以便通过所述警示信息向管理员示警。

本申请还提供了一种群发垃圾邮件的检测设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序以实现如上所述的任一种群发垃圾邮件的检测方法的步骤。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的任一种群发垃圾邮件的检测方法的步骤。

本申请所提供的群发垃圾邮件的检测方法包括：获取客户端中的发件日志；根据所述发件日志确定具有相同邮件主题的邮件集合的集体发件特征数据；所述集体发件特征数据为表征所述邮件主题的传播范围广度的特征数据；根据所述集体发件特征数据判断所述邮件主题的所述传播范围广度是否大于预设阈值；若是，则判定所述邮件集合中的邮件为群发垃圾邮件。

可见，相比于现有技术，本申请所提供的群发垃圾邮件的检测方法中，通过根据表征邮件主题扩散范围广度的集体发件特征数据来计算邮件为垃圾邮件的可疑程度指标，并结合简单的数据分析，即可完成对垃圾邮件的识别检测。本申请所提供的检测方法利用的是垃圾邮件的扩散特点，检测结果的准确率较高，并且可灵活应用于各类主题内容的垃圾邮件检测中，简单又有效。本申请所提供的群发垃圾邮件的检测装置、设备及计算机可读存储介质可以实现上述群发垃圾邮件的检测方法，同样具有上述有益效果。

附图说明

为了更清楚地说明现有技术和本申请实施例中的技术方案，下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然，下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图，所获得的其他附图也属于本申请的保护范围。

图1为本申请实施例所提供的一种群发垃圾邮件的检测方法的流程图；

图2为本申请实施例所提供的一种群发垃圾邮件的检测装置的结构框图。

具体实施方式

本申请的核心在于提供一种简便快速、准确率高且适用性强的检测方法、装置、设备及计算机可读存储介质，以便正确地检测出群发垃圾邮件。

为了对本申请实施例中的技术方案进行更加清楚、完整地描述，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行介绍。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种群发垃圾邮件的检测方法的流程图，应用于服务器，主要包括以下步骤：

步骤1：获取客户端中的发件日志。

步骤2：根据发件日志确定具有相同邮件主题的邮件集合的集体发件特征数据；集体发件特征数据为表征邮件主题的传播范围广度的特征数据。

垃圾邮件通常泛指未经收件人请求或许可而发送的电子邮件。其内容多为具有广告、误导甚至欺诈等属性的内容，一方面，这对邮件用户的人身财产安全造成威胁，另一方面，用户对不断接收和处理这些垃圾邮件也不胜其烦。

因此，本申请提供了一种群发垃圾邮件的检测方法，不仅简便而且适用性强，对垃圾邮件的检测准确率高。一般地，垃圾邮件的检测准确率可具体体现为两个指标，即召回率和误报率。召回率是指实际的垃圾邮件被检测为垃圾邮件的概率，而误报率是指实际正常的邮件被检测为垃圾邮件的概率。召回率越高且误报率越低的检测方法，其检测结果的准确率就越高。

本申请所提供的对群发垃圾邮件的检测方法具体是基于对集体发件特征数据的数据分析的。所说的集体发件特征数据为能够表征某一类邮件的传播范围广度的特征数据，例如可以包括共发送了多少封邮件、共发送给了多少个人以及两者的比值等。由于垃圾邮件的一个重要目的在于快速扩散向大众传播其内容，因此其传播范围较广，相应的集体发件特征数据也必定满足某些条件。因此本申请主要利用其传播范围广的特点来对垃圾邮件进行检测。

由于垃圾邮件内容繁杂多样，其可以根据邮件主题而分为多类。例如，可以但不限于将其分为“促销”、“贷款”、“保险”等种类。通常垃圾邮件会交叉、反复地发送或转发，包括一个人发给多个人或者多个人发给多个人的情况，因此，为提高检测效率，可将同一个邮件主题的邮件确定为一个邮件集合共同进行判断。因此，针对于某一个邮件主题，只要将其确定为属于垃圾邮件主题的范畴，那么对应的邮件集合中的邮件就可以判定为垃圾邮件了。

由于发件日志中记录了发件人每封邮件的具体发件信息，包括邮件主题、收件地址、发送成功与否等，因此首先需要获取发件日志，以便根据发件日志中的发件记录将具有相同邮件主题的邮件归为一个邮件集合，并确定出该邮件集合的集体发件特征数据。

其中，集体发件特征数据为表征某一邮件主题的传播范围广度的特征数据，即，通过集体发件特征数据就可以看出某一邮件主题的传播范围广度，而垃圾邮件正是具有传播范围广度大的特点，因此，可以根据集体发件特征数据所表征出来的传播范围广度来评判一个邮件主题是否为垃圾邮件主题。容易理解的是，集体发件特征数据优选为多个，虽然每个集体发件特征数据都可以反映出邮件主题的传播范围广度，但是如果仅依靠单一的某一个集体发件特征数据进行评判，难免有时候会出现误判，因此可结合使用多个集体发件特征数据以提高垃圾邮件检测结果的正确率。

步骤3：根据集体发件特征数据判断邮件主题的传播范围广度是否大于预设阈值；若是，进入步骤4。

步骤4：判定邮件集合中的邮件为群发垃圾邮件。

具体地，当确定了某一邮件主题的邮件集合的集体发件特征数据之后，便可以根据其集体发件特征数据对该主题的邮件集合进行属性判断。当传播范围广度较大，即大于预设阈值时，说明该邮件主题为垃圾邮件主题，对应的邮件集合中的邮件为垃圾邮件。

如前所述，所说的集体发件特征数据不限制具体的数据个数，优选为多个。本领域技术人员可以根据实际应用情况来自行选择具体的集体发件特征数据，本申请对此并不进行限定。

可见，本申请实施例所提供的群发垃圾邮件的检测方法中，通过根据表征邮件主题扩散范围广度的集体发件特征数据来计算邮件为垃圾邮件的可疑程度指标，并结合简单的数据分析，即可完成对垃圾邮件的识别检测。本申请所提供的检测方法利用的是垃圾邮件的扩散特点，检测结果的准确率较高，并且可灵活应用于各类主题内容的垃圾邮件检测中，简单又有效。

本申请所提供的群发垃圾邮件的检测方法，在上述实施例的基础上：

作为一种优选实施例，根据集体发件特征数据判断邮件主题的传播范围广度是否大于预设阈值包括：

按照预设权重系数对集体发件特征数据进行加权计算，并将计算结果作为传播范围广度的综合指标；

判断综合指标是否大于预设阈值。

具体地，当集体发件特征数据为多个时，需要对各个集体发件特征数据所反映的传播范围广度进行综合考量。优选地，可采用加权法，为每个集体发件特征数据设置一定的权重，即所说的预设权重系数，根据各个集体发件特征数据综合计算出一个传播范围广度的综合指标，并相应地为该综合指标设置一个所说的预设阈值，若该综合指标大于预设阈值则说明为垃圾邮件主题。其中，各项集体发件特征数据的权重系数可由本领域技术人员自行预先设定，本申请实施例并不进行限定。

容易理解的是，采用加权计算的方法实际上就相当于是对该邮件主题的传播范围广度进行了综合评分，所说的预设权重系数就是各个集体发件特征数据的评分系数。

当然，也可以不采用加权计算的方法，而是针对每一个集体发件特征数据都设置一个对应的预设阈值，当一定数量或者全部的集体发件特征数据都分别大于各自的预设阈值时，可认为该邮件主题为垃圾邮件主题。本领域技术人员根据实际应用情况来自行选择设计。

作为一种优选实施例，集体发件特征数据包括以下任意一项或者任意组合：

收件人总数、邮件总数、收件人总数与邮件总数的比值。

具体地，收件人总数体现了该邮件主题扩散至的用户数量；邮件总数体现了该邮件主题的扩散次数；而收件人总数与邮件总数的比值则体现了该邮件主题被反复发送或转发的平均程度，它们都一定程度上体现了邮件的扩散广度范围，因此，上述任意一项或者任意组合都可以作为具体的集体发件特征数据。

当然，单独使用收件人总数或者邮件总数等数量指标，又或者单独使用收件人总数与邮件总数的比值等比例指标，也可以使得垃圾邮件的检测发挥出效果，但是相对而言，将这三项同时作为集体发件特征数据时所得到的检测效果较强，本领域技术人员可以根据实际应用情况自行选择并设置。

作为一种优选实施例，若邮件集合的发件人总数大于1且所述收件人总数大于1，则集体发件特征数据还包括以下任意一项或者任意组合：

发件人总数、发件人总数与邮件总数的比值、可疑发件人数量与发件人总数的比值；

其中，可疑发件人为在其他邮件主题的邮件集合中出现过的发件人。

具体地，邮件的发送或转发不外乎以下四种情形：一个人发给一个人、多个人发给一个人、一个人发给多个人和多个人发给多个人。其中，如前所述，垃圾邮件的发送或者转发主要是后两者情形，因为前两者达不到垃圾邮件的扩散要求。

对于一个人发给多个人的邮件，发件人总数已知为1。而对于多个人发给多个人的邮件，发件人数量可以体现该邮件主题被多个人团伙发送或者转发的规模，因此，对于多个人向多个人发送的同一主题的邮件，在从收件人总数、邮件总数、收件人总数与邮件总数的比值这三项中选择任意项作为集体发件特征数据的基础上，还可以考虑将发件人总数、发件人总数与邮件总数的比值也作为所说的集体发件特征数据。

此外，还可以考虑发件人中可疑发件人的情况。所说的可疑发件人为在不同邮件主题中出现过的发件人，这些发件人为垃圾邮件发送者的可能性很高。因此，集体发件特征数据还可以进一步包括可疑发件人数量与发件人总数的比值。例如，某一发件人既在以“促销”为主题的邮件集合中发送过邮件，又在以“贷款”为主题的邮件集合中发送过邮件，则该发件人很可能就是垃圾邮件发送者，可将其确定为所说的可疑发件人。

类似地，本领域技术人员可以根据实际应用情况，从发件人总数、发件人总数与邮件总数的比值、可疑发件人数量与发件人总数的比值中选择出任意项来进一步加强检测能力，本申请推荐但不限于将这三项同时作为所说的集体发件特征数据。

作为一种优选实施例，集体发件特征数据还包括以下任意一项或者任意组合：

被拒收邮件数量、被拒收邮件数量与邮件总数的比值、收件地址不存在的收件人数量、收件地址不存在的收件人数量与收件人总数的比值。

具体地，还可以将邮件的发送情况作为确定邮件主题的属性的辅助手段。一般来说，邮件发送失败的情形除了网络原因之外，还包括另外两种原因：被收件人拒收即被拉入黑名单，以及邮件的收件地址不存在。

若发件人被收件人拉黑，则说明收件人不想接收来自该发件人的邮件，甚至该发件人很可能之前就曾发送过类似的垃圾邮件。因此，可将被拒收邮件数量、被拒收邮件数量与邮件总数的比值也作为集体发件特征数据，用来衡量计算该邮件集合的可疑程度指标。

另一方面，由于许多垃圾邮件发送者在发送垃圾邮件时所填写的收件地址是其经算法生成的，或者是通过社工手段从网上收集的，因此很可能存在许多收件地址不存在的情况。因此还可以通过日志统计收件地址不存在的收件人数量、收件地址不存在的收件人数量与收件人总数的比值，作为集体发件特征数据。

类似地，本申请推荐但不限于将上述四项同时也作为所说的集体发件特征数据，本领域技术人员可以根据实际应用情况自行选择并设计。

作为一种优选实施例，在判定邮件集合中的邮件为群发垃圾邮件之后，还包括：

生成警示信息的显示指令，以便通过警示信息向管理员示警。

具体地，当检测出垃圾邮件的邮件集合之后，可以进一步通过显示指令来向管理员显示警示信息，以便管理员及时对这些垃圾邮件及其发送者或转发者进行处理。其中，警示信息可以为各种形式，例如文字警示信息、语音警示信息或者图像警示信息等，本领域技术人员可以根据实际应用情况自行选择并设置。

下面对本申请实施例所提供的群发垃圾邮件的检测装置进行介绍。

请参阅图2，图2为本申请所提供的一种群发垃圾邮件的检测装置的结构框图，应用于服务器，包括获取模块1、确定模块2和判断模块3；

获取模块1用于获取客户端中的发件日志；

确定模块2用于根据发件日志确定具有相同邮件主题的邮件集合的集体发件特征数据；集体发件特征数据为表征邮件主题的传播范围广度的特征数据；

判断模块3用于根据集体发件特征数据判断邮件主题的传播范围广度是否大于预设阈值；若是，则判定邮件集合中的邮件为群发垃圾邮件。

作为一种优选实施例，本申请所提供的群发垃圾邮件的检测装置还包括指令模块：

指令模块用于在判断模块判定邮件集合中的邮件为群发垃圾邮件之后，生成警示信息的显示指令，以便通过警示信息向管理员示警。

可见，本申请所提供的群发垃圾邮件的检测装置，通过根据表征邮件主题扩散范围广度的集体发件特征数据来计算邮件为垃圾邮件的可疑程度指标，并结合简单的数据分析，即可完成对垃圾邮件的识别检测。本申请所提供的检测装置利用的是垃圾邮件的扩散特点，检测结果的准确率较高，并且可灵活应用于各类主题内容的垃圾邮件检测中，简单又有效。

本申请还提供了一种群发垃圾邮件的检测设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行计算机程序以实现如以上任一实施例所介绍的群发垃圾邮件的检测方法的步骤。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如以上任一实施例所介绍的群发垃圾邮件的检测方法的步骤。

本申请所提供的群发垃圾邮件的检测装置、设备及计算机可读存储介质的具体实施方式与上文所描述的群发垃圾邮件的检测方法可相互对应参照，这里就不再赘述。

本申请中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需说明的是，在本申请文件中，诸如“第一”和“第二”之类的关系术语，仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种群发垃圾邮件的检测方法，应用于服务器，其特征在于，包括：

获取客户端中的发件日志；

若是，则判定所述邮件集合中的邮件为群发垃圾邮件。

2.根据权利要求1所述的群发垃圾邮件的检测方法，其特征在于，所述根据所述集体发件特征数据判断所述邮件主题的所述传播范围广度是否大于预设阈值包括：

判断所述综合指标是否大于所述预设阈值。

3.根据权利要求1所述的群发垃圾邮件的检测方法，其特征在于，所述集体发件特征数据包括以下任意一项或者任意组合：

4.根据权利要求3所述的群发垃圾邮件的检测方法，其特征在于，若所述邮件集合的发件人总数大于1且所述收件人总数大于1，则所述集体发件特征数据还包括以下任意一项或者任意组合：

5.根据权利要求3所述的群发垃圾邮件的检测方法，其特征在于，所述集体发件特征数据还包括以下任意一项或者任意组合：

6.根据权利要求1至5任一项所述的群发垃圾邮件的检测方法，其特征在于，在所述判定所述邮件集合中的邮件为群发垃圾邮件之后，还包括：

7.一种群发垃圾邮件的检测装置，应用于服务器，其特征在于，包括：

获取模块：用于获取客户端中的发件日志；

8.根据权利要求7所述的群发垃圾邮件的检测装置，其特征在于，还包括：

9.一种群发垃圾邮件的检测设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序以实现如权利要求1至6任一项所述的群发垃圾邮件的检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的群发垃圾邮件的检测方法的步骤。