CN109660452B

CN109660452B - 一种垃圾邮件源检测方法及装置

Info

Publication number: CN109660452B
Application number: CN201811599486.XA
Authority: CN
Inventors: 皮靖; 袁帅; 梁莎; 李景
Original assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2021-11-02
Anticipated expiration: 2038-12-26
Also published as: CN109660452A

Abstract

本申请提供一种垃圾邮件源检测方法及装置，该方法包括：确定至少一个邮件源的邮件会话信息，其中，一个邮件会话信息包括一个邮件源在收发邮件时的邮件参数信息。然后根据每个邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息，之后根据各个邮件源的分数信息，确定上述至少一个邮件源中的垃圾邮件源。该方案中，通过获取网络流量中一个邮件源在收发邮件时产生的邮件参数信息，通过产生的邮件参数信息对一个邮件源进行评分，评分得到的分数信息可以反映该邮件源是垃圾邮件源的可能性，通过该分数信息可以确定一个邮件源是否为垃圾邮件源，并且通过参数信息来检测邮件源的方法无需检测邮件内容，因而更加准确高效。

Description

一种垃圾邮件源检测方法及装置

技术领域

本申请涉及网络安全领域，尤其涉及一种垃圾邮件源检测方法及装置。

背景技术

邮件是现在的一种主流交流方式，但是人们在使用邮件交流时，也会接收到一些垃圾邮件，这些垃圾邮件可能是推广广告，也可能是一些钓鱼邮件或者是传播病毒的邮件。

目前，有一种基于邮件内容去检测邮件是否为垃圾邮件的方法，若检测到用户接收到的邮件为垃圾邮件，则直接拦截该邮件或者删除该邮件，又或者向用户发出告警，以提醒用户接收到的邮件为垃圾邮件。

但是，基于邮件内容去检测邮件，一方面由于邮件内容变化比较大，对邮件内容进行检测即需要大量的时间而且准确度低，另一方面，基于邮件内容去检测邮件，用户的一些隐私会受到侵犯。

发明内容

本申请提供一种垃圾邮件源检测方法及装置，用以更高效准确地确定发送邮件的邮件源是否为垃圾邮件源，从而更高效准确地封禁垃圾邮件源的互联网协议地址(Internet Protocol，IP)。

第一方面，本申请提供一种垃圾邮件源检测方法，包括：确定至少一个邮件源的邮件会话信息，其中，一个邮件会话信息包括一个邮件源在收发邮件时的邮件参数信息。然后根据每个邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息，之后根据各个邮件源的分数信息，确定上述至少一个邮件源中的垃圾邮件源。该方案中，通过获取网络流量中一个邮件源在收发邮件时产生的邮件参数信息，通过产生的邮件参数信息对一个邮件源进行评分，评分得到的分数信息可以反映该邮件源是垃圾邮件源的可能性，通过该分数信息去确定一个邮件源是否为垃圾邮件源的方法，与通过邮件内容去确定发送该邮件的邮件源是否为垃圾邮件的方法相比，更加的高效准确。

在一种可能的实现方式中，上述确定至少一个邮件源的邮件会话信息，包括：

根据一个邮件源以简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)端口为目的端口发起请求的网络流的个数，确定该邮件源的发件请求数目，上述邮件会话信息包括发件请求数目；和/或，

根据以一个邮件源的IP为目的IP且以SMTP端口为源端口的网络流的个数，确定该邮件源的发件请求被响应数目，上述邮件会话信息包括发件请求被响应数目；和/或，

根据一个邮件源以POP3/邮件访问协议(Internet Mail Access Protocol，IMAP)端口为目的端口发起请求的网络流的个数，确定该邮件源的收件请求数目，上述邮件会话信息包括收件请求数目；和/或，

根据一个邮件源以SMTP端口为目的端口发起请求时被请求的不同目的IP的个数，确定该邮件源的发件请求目的数目，上述邮件会话信息包括发件请求目的数目；和/或，

根据以一个邮件源的SMTP端口为源端口的网络流的个数，确定该邮件源的流入数目，上述邮件会话信息包括所述流入数目；和/或，

根据一个邮件源以SMTP端口为目的端口发起请求的网络流的上行字节数和/或上行包数，确定该邮件源的发件大小，上述邮件会话信息包括发件大小。

上述方案，根据邮件源的网络通信信息确定出的邮件会话信息，根据邮件源为正常邮件源或者垃圾邮件源，该邮件会话信息会呈现不同的数据，因此，通过上述确定出的邮件会话信息对邮件源进行评分，最终确定的垃圾邮件源更加的准确。

在一种可能的实现方式中，上述根据每个邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息包括：根据一个邮件源的邮件会话信息，确定该邮件源的评分项的分数信息，然后根据该邮件源的评分项的分数信息，得到该邮件源的分数信息。其中，上述评分项包括以下部分或全部：发送的邮件大小变化率、发件请求周期性变化率、发件请求峰值、收件请求个数、流入端口个数、请求目的服务器个数、闲置时间。

其中，发送的邮件大小变化率表示一个邮件源在预设时长内发送的邮件的大小变化率。

发件请求周期性变化率表示一个邮件源在预设的N个时间段中的至少一个时间段内发送的邮件的数量的标准差，所述N为正整数。

发件请求峰值表示一个邮件源在预设的N个时间段中的第一时间段时发送的邮件的数量，该邮件源在第一时间段内发送的邮件数量大于该邮件源在第一时间段之外的任一时间段内发送的邮件数量。

收件请求个数表示该邮件源在预设时长内接受的邮件的数量。

流入端口个数表示该邮件源的SMTP端口被请求的数量。

请求目的服务器个数表示该邮件源在预设时长内请求过的邮件服务器的数量。

闲置时间表示该邮件源在预设的N个时间段中没有进行收发邮件的时间段个数。

对于上述各个评分项，垃圾邮件源和正常邮件源会呈现不同的数据，根据上述评分项对邮件源进行评分，最终确定的垃圾邮件源更加地准确。

在一种可能的实现方式中，在上述根据每个邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息之前，还包括：根据邮件源的邮件会话信息，确定邮件源的邮件特征信息，并根据邮件源的邮件特征信息，确定邮件源为可疑垃圾邮件源。其中，邮件特征信息包括以下部分或全部：收发件比例、请求响应比例、发件请求目的数和发件请求数目。

收发件比例表示该邮件源收件请求的数量和发件请求的数量的比例。

请求响应比例表示该邮件源向SMTP端口发送的请求中被响应的请求的比例。

发件请求目的数表示该邮件源请求的邮件服务器个数。

发件请求数目表示该邮件源作为源IP进行发件请求的数量。

上述方案中，先判断邮件源是否为可疑邮件源，若为可疑邮件源，则进一步对该邮件源进行评分，否则无需进行评分，减少了资源开销，以及可以更快地去判断其他邮件源是否为垃圾邮件源。

在一种可能的实现方式中，在上述根据每个邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息之前，还包括：确定黑名单列表不包括的邮件源，黑名单列表用于记录垃圾邮件源。该方案中，若确定一个邮件源为黑名单中的邮件源，则直接判断该邮件源为垃圾邮件源，无需进行后续步骤，提高了确定垃圾邮件源的效率。

第二方面，本申请提供一种垃圾邮件源检测装置，包括第一确定单元、评分单元以及第二确定单元。其中，第一确定单元用于确定至少一个邮件源的邮件会话信息，一个邮件会话信息包括一个邮件源在收发邮件时的邮件参数信息。评分单元用于根据每个邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息。第二确定单元用于根据各个邮件源的分数信息，确定上述至少一个邮件源中的垃圾邮件源。该方案中，通过获取网络流量中一个邮件源在收发邮件时产生的邮件参数信息，通过产生的邮件参数信息对一个邮件源进行评分，评分得到的分数信息可以反映该邮件源是垃圾邮件源的可能性，通过该分数信息去确定一个邮件源是否为垃圾邮件源的方法，与通过邮件内容去确定发送该邮件的邮件源是否为垃圾邮件的方法相比，更加的高效准确。

在一种可能的实现方式中，上述第一确定单元，具体可以用于：根据一个邮件源以SMTP端口为目的端口发起请求的网络流的个数，确定该邮件源的发件请求数目，上述邮件会话信息包括发件请求数目；和/或，

根据一个邮件源以POP3/IMAP端口为目的端口发起请求的网络流的个数，确定该邮件源的收件请求数目，上述邮件会话信息包括收件请求数目；和/或，

根据以一个邮件源的SMTP端口为源端口的网络流的个数，确定该邮件源的流入数目，上述邮件会话信息包括流入数目；和/或，

在一种可能的实现方式中，上述评分单元，具体可以用于：根据一个邮件源的邮件会话信息，确定该邮件源的评分项的分数信息，并根据该邮件源的评分项的分数信息，得到邮件源的分数信息。其中，上述评分项包括以下部分或全部：发送的邮件大小变化率、发件请求周期性变化率、发件请求峰值、收件请求个数、流入端口个数、请求目的服务器个数、闲置时间。

流入端口个数表示该邮件源的SMTP端口被请求的数量。

在一种可能的实现方式中，上述装置还可以包括：第三确定单元和第四确定单元。第三确定单元用于根据邮件源的邮件会话信息，确定邮件源的邮件特征信息。第四确定单元用于根据邮件源的邮件特征信息，确定邮件源为可疑垃圾邮件源。其中，邮件特征信息包括以下部分或全部：收发件比例、请求响应比例、发件请求目的数和发件请求数目。

发件请求目的数表示该邮件源请求的邮件服务器个数。

发件请求数目表示该邮件源作为源IP进行发件请求的数量。

在一种可能的实现方式中，上述装置还可以包括第五确定单元，第五确定单元用于在根据邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息之前，确定黑名单列表不包括的邮件源，其中，黑名单列表用于记录垃圾邮件源。该方案中，若确定一个邮件源为黑名单中的邮件源，则直接判断该邮件源为垃圾邮件源，无需进行后续步骤，提高了确定垃圾邮件源的效率。

第三方面，本申请提供一种网络设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行前述第一方面或第一方面中任一实施例所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行前述第一方面或第一方面中任一实施例所述的方法。

附图说明

图1为本申请提供的一种可能的***架构示意图；

图2为本申请提供的一种垃圾邮件源检测方法流程示意图；

图3为本申请提供的一种垃圾邮件源检测装置示意图；

图4为本申请提供的一种网络设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或***实施例中。其中，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

如图1所示，为本申请提供的一种可能的***架构示意图，包括邮件源101、邮件服务器102、分析设备103。邮件源101可以为一台具有收发邮件功能的电脑，邮件源101通过与邮件服务器102通信来实现收发邮件。分析设备103可以通过邮件服务器102来获取邮件源101在收发邮件时的邮件参数信息。当然，获取邮件参数信息的方式并不限于此。

基于图1所示的***架构，图2示例性的示出了本申请提供的一种垃圾邮件源检测方法示意图。该垃圾邮件源检测方法可以由图1中的分析设备103执行。该方法包括以下步骤：

步骤210，确定至少一个邮件源的邮件会话信息。

其中，一个邮件会话信息包括一个邮件源在收发邮件时的传输层协议信息(源IP、目的IP、源端口、目的端口、协议)及包数、包大小信息。

步骤220，根据每个邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息。

步骤230，根据各个邮件源的分数信息，确定上述至少一个邮件源中的垃圾邮件源。

上述方案中，获取一个邮件在收发邮件时产生的邮件参数信息，通过产生的邮件参数信息对一个邮件源进行评分，评分得到的分数信息可以反映该邮件源是垃圾邮件源的可能性，通过该分数信息去确定一个邮件源是否为垃圾邮件源的方法，与通过邮件内容去确定发送该邮件的邮件源是否为垃圾邮件的方法相比，更加的高效准确。

针对上述步骤210，在一种可能的实现方式中，邮件源的邮件会话信息可以从网络探针设备中获取。在另一种可能的实现方式中，也可以通过在网络中部署可以捕获网络会话日志的网络设备，比如可以发送Netflow的路由器，从而获取邮件源的网络会话日志，进而根据邮件源的网络会话日志，确定邮件源的邮件会话信息，当然，也可以直接从各个邮件服务器中获取该邮件会话信息。

下面以获取邮件源的网络会话日志，进而根据邮件源的网络会话日志，确定邮件源的邮件会话信息的方式为例，对上述步骤210做进一步说明。首先，获取的网络会话日志包括以下信息：邮件源产生的每一条网络流的源IP、目的IP、源端口、目的端口、协议、时间戳、邮件源的上行包数、下行包数、上行字节数、下行字节数等。

上述根据邮件源的网络会话日志，确定邮件源的邮件会话信息，具体可以包括：

根据一个邮件源以SMTP端口(一个邮件源向SMTP端口发送请求时，表示该邮件源在发送邮件)为目的端口发起请求的网络流的个数，确定邮件源的发起请求数目REQUEST_COUNT，上述邮件会话信息包括REQUEST_COUNT，和/或，

根据以一个邮件源IP为目的IP，且以SMTP端口为源端口的网络流个数，确定该邮件源的发件请求被响应的数目REQUEST_RESPONSE_COUNT，上述邮件会话信息包括REQUEST_RESPONSE_COUNT，和/或，

根据一个邮件以POP3/IMAP端口(一个邮件源向POP3/IMAP端口发送请求时，表示该邮件源在接收邮件)为目的端口发起的网络流的个数，确定该邮件源的收件请求数目RECEIVE_COUNT，上述邮件会话信息包括RECEIVE_COUNT，和/或，

根据一个邮件源以SMTP端口为目的端口发起请求时被请求的不同目的IP的个数，确定该邮件源的发件请求目的数目REQUEST_DESTINATION_COUNT，上述邮件会话信息包括REQUEST_DESTINATION_COUNT，和/或，

根据以一个邮件源的SMTP端口为源端口的网络流的个数，确定该邮件源的流入数目INCOMING_COUNT，上述邮件会话信息包括INCOMING_COUNT，和/或，

根据一个邮件源以SMTP端口为目的端口发起请求的网络流的上行字节数和/或上行包数，确定该邮件源的发件大小SEND_BPF，上述邮件会话信息包括SEND_BPF。

即上述步骤210中，确定的一个邮件源的邮件会话信息包括以下信息中的部分或全部信息：REQUEST_COUNT、REQUEST_RESPONSE_COUNT、RECEIVE_COUNT、REQUEST_DESTINATION_COUNT、INCOMING_COUNT、SEND_BPF。

其中，REQUEST_COUNT也可以理解为该邮件源发送的邮件的数量，通常来说，一个垃圾邮件源在一段时长内的REQUEST_COUNT多于正常邮件源。REQUEST_RESPONSE_COUNT表示向SMTP端口发送的请求被响应的个数，通常来说，一个垃圾邮件源向SMTP端口发送的请求被响应的比例较高。RECEIVE_COUNT也可以理解为该邮件源接收的邮件的数量，通常来说，垃圾邮件源不会接收邮件，因此，垃圾邮件源的RECEIVE_COUNT值低于正常邮件源。REQUEST_DESTINATION_COUNT也可以理解为该邮件源在发送邮件时所请求的邮件服务器的个数，通常来说，一个垃圾邮件源所请求的邮件服务器的个数大于正常邮件源。INCOMING_COUNT也可以理解为该邮件源开放的SMTP端口的个数，通常来说，垃圾邮件源不会开放SMTP端口，因此，垃圾邮件源的INCOMING_COUNT值低。SEND_BPF也可以理解为该邮件源发送的邮件的大小，通常来说，垃圾邮件源发送的垃圾邮件是基于模板生成的，因此垃圾邮件源发送每一封邮件的大小基本相同。

在一种可能的实现方式中，在上述步骤210之后，在上述步骤220之前，还可以包括：

步骤211，确定黑名单列表不包括的邮件源。

其中，黑名单列表记录有已经被确定为垃圾邮件源的邮件源的信息。比如，黑名单记录有垃圾邮件源的IP地址，再比如，黑名单记录有垃圾邮件源使用的邮箱地址等。

在步骤211中，通过将步骤210中获取到的邮件源的信息与黑名单列表中的邮件源作比对，确定该邮件源是否为垃圾邮件源。比如，若一个邮件源的IP与黑名单列表中的邮件源的IP相同，则直接确定该邮件源为垃圾邮件源，否则，若一个邮件源的信息与黑名单中的所有邮件源的信息都不匹配，则在步骤211中，不会确定该邮件源为垃圾邮件源，从而对该邮件源继续执行上述步骤220以及步骤230。

上述方案，若确定一个邮件源为黑名单中的邮件源，则直接判断该邮件源为垃圾邮件源，无需进行后续步骤，提高了确定垃圾邮件源的效率。

在一种可能的实现方式中，在上述步骤211之后，在上述步骤220之前，还可以包括：

步骤212，根据邮件源的邮件会话信息，确定邮件源的邮件特征信息。

步骤213，根据邮件源的邮件特征信息，确定邮件源为可疑垃圾邮件源。

其中，邮件特征信息包括以下部分或全部：收发件比例RECEIVE_SEND_RATIO、请求响应比例REQUEST_RESPONSE_RATIO、发件请求目的数REQUEST_DESTINATION_COUNT和发件请求数目REQUEST_COUNT。

RECEIVE_SEND_RATIO表示该邮件源收件请求的数量和发件请求的数量的比例，即

通常来说，垃圾邮件源的收件数量远小于发件数量，因此，可以将RECEIVE_SEND_RATIO＜m作为判断一个邮件源为可疑垃圾邮件源的条件之一。m的值可以根据实际需要设置，例如可以设为0.005，则RECEIVE_SEND_RATIO≥0.005的邮件源不为可疑垃圾邮件源。

REQUEST_RESPONSE_RATIO表示该邮件源向SMTP端口发送的请求中被响应的请求所占的比例，即

在需要发送一个邮件时，邮件源会向邮件服务器的SMTP端口发出一个请求，并且在该请求被响应时，才能将该邮件发送出去。因此，若一个IP的REQUEST_RESPONSE_RATIO的值过小，则说明该IP向SMTP端口发送请求的目的不是发送邮件，而是出于其他目的向SMTP端口发送的请求，该其他目的例如可以为端口扫描。因此，可以将REQUEST_RESPONSE_RATIO＞n作为判断一个邮件源为可疑垃圾邮件源的条件之一。n的值可以根据实际需要设置，例如可以设为0.5，则REQUEST_RESPONSE_RATIO≤0.5的邮件源不为可疑垃圾邮件源，或者可以说REQUEST_RESPONSE_RATIO≤0.5的IP不为邮件源。

REQUEST_DESTINATION_COUNT也可以理解为该邮件源在发送邮件时所请求的邮件服务器的个数，通常来说，一个垃圾邮件源所请求的邮件服务器的个数大于正常邮件源。因此，可以将REQUEST_DESTINATION_COUNT＞p作为判断一个邮件源为可疑垃圾邮件源的条件之一。p的值可以根据实际需要设置，例如可以设为3，则REQUEST_DESTINATION_COUNT≤3的邮件源不为可疑垃圾邮件源。

REQUEST_COUNT也可以理解为该邮件源发送的邮件的数量，通常来说，一个垃圾邮件源在一段时长内的REQUEST_COUNT多于正常邮件源。因此，可以将REQUEST_COUNT＞q作为判断一个邮件源为可疑垃圾邮件源的条件之一。q的值可以根据实际需要设置，例如可以设为40，则REQUEST_COUNT≤40的邮件源不为可疑垃圾邮件源。

若上述邮件特征信息为RECEIVE_SEND_RATIO、REQUEST_RESPONSE_RATIO、REQUEST_DESTINATION_COUNT和REQUEST_COUNT。则在步骤213中，将同时满足RECEIVE_SEND_RATIO＜m、REQUEST_RESPONSE_RATIO＞n、REQUEST_DESTINATION_COUNT＞p以及REQUEST_COUNT＞q的邮件源确定为可疑垃圾邮件源。

举例来说，若m设为0.005、n设为0.5、p设为3、q设为40。在步骤210中确定邮件源A的邮件会话信息为REQUEST_COUNT＝50、RECEIVE_COUNT＝0、REQUEST_RESPONSE_COUNT＝49、REQUEST_DESTINATION_COUNT＝4。那么在步骤212中，确定该邮件源A的

REQUEST_DESTINATION_COUNT＝4＞3，REQUEST_COUNT＝50＞40，因此，在步骤213中，确定该邮件源A为可疑邮件源。

上述方案，先判断邮件源是否为可疑邮件源，若为可疑邮件源，则进一步执行步骤220以及步骤230，否则确定该邮件源不为垃圾邮件源，无需进行后续步骤，减少了资源开销，以及可以更快地去判断其他邮件源是否为垃圾邮件源。

在一种可能的实现方式中，上述步骤220具体可以包括：

根据一个邮件源的邮件会话信息，确定该邮件源的评分项的分数信息，然后根据该邮件源的评分项的分数信息，得到该邮件源的分数信息。上述评分项可以包括以下部分或全部：发送的邮件大小变化率、发件请求周期性变化率、发件请求峰值、收件请求个数、流入端口个数、请求目的服务器个数、闲置时间。即根据一个邮件源的邮件会话信息，确定该邮件源对应的上述每一项的值，根据该邮件源对应的上述每一项的值，确定该邮件源在对应评分项上获得的评分项的分数信息，最后根据一个邮件源的全部的评分项的分数信息，确定该邮件源的分数信息。

下面对上述每一个评分项做进一步说明：

发送的邮件大小变化率表示一个邮件源在预设时长内发送的邮件的大小变化率。根据邮件源发送的邮件大小变化率，确定邮件源的发送邮件大小变化率分CONTENT_SIZE_SCORE。具体地，例如，预设时长为一天(过去的24小时内)，确定邮件源在过去一天内发送的每一封邮件的发件大小SEND_BPF，计算全部SEND_BPF值的标准差std(SEND_BPF)，当std(SEND_BPF)小于预设值时，CONTENT_SIZE_SCORE计为1分，否则计为0分。其中，std(SEND_BPF)值越小，说明该邮件源过去一天内发送的邮件的大小差异越小，即该邮件源发送的邮件是基于模板生成的垃圾邮件的可能性越高。

发件请求周期性变化率表示一个邮件源在预设的N个时间段中的至少一个时间段内发送的邮件的数量的标准差。根据邮件源发件请求周期性变化率可以确定邮件源的发件请求周期性分SEND_CYCLICITY_SCORE。具体地，例如，将过去的24小时按每隔5分钟划分为288个时间段，去除288个时间段中REQUEST_COUNT＝0的时间段，计算剩下的时间段的std(REQUEST_COUNT)，std(REQUEST_COUNT)表示剩下的时间段各自的REQUEST_COUNT值的标准差，当一个邮件源的std(REQUEST_COUNT)小于预设值时，将该邮件源的SEND_CYCLICITY_SCORE计为1分，否则计为0分。其中，std(REQUEST_COUNT)值越小，说明该邮件源发件越具有周期性，即该邮件源可能是基于某种程序定期发送一定量的邮件的垃圾邮件源。

发件请求峰值表示一个邮件源在预设的N个时间段中的第一时间段时发送的邮件的数量，该邮件源在第一时间段内发送的邮件数量大于该邮件源在第一时间段之外的任一时间段内发送的邮件数量。根据邮件源发件请求峰值可以确定邮件源的发件请求峰值分SEND_PEAK_SCORE。具体地，例如，将过去的24小时按每隔5分钟划分为288个时间段，去除288个时间段中REQUEST_COUNT＝0的时间段，计算剩下的时间段的std(REQUEST_COUNT)、mean(REQUEST_COUNT)、以及确定剩下的时间段内的max(REQUEST_COUNT)。其中，std(REQUEST_COUNT)表示剩下的时间段各自的REQUEST_COUNT值的标准差。mean(REQUEST_COUNT)表示剩下的时间段各自的REQUEST_COUNT值的平均值。max(REQUEST_COUNT)表示剩下的时间段各自的REQUEST_COUNT值中的最大值。若一个邮件源满足以下公式，则将该邮件源的SEND_PEAK_SCORE计为1分，否则计为0分：max(REQUEST_COUNT)>x*std(REQUEST_COUNT)+mean(REQUEST_COUNT)，x可以根据实际需要进行调整。垃圾邮件源在一个时间段内会发送大量邮件，因此，与其他时间段相比，垃圾邮件源存在发件请求峰值，一个邮件源的max(REQUEST_COUNT)满足上述公式，说明该邮件源存在一个时间段内发送大量邮件的情况，即该邮件源为垃圾邮件源的可能性更高。

收件请求个数表示该邮件源在预设时长内接受的邮件的数量，根据收件请求个数可以确定邮件源的收件请求分RECEIVE_SCORE。具体地，例如，确定邮件源在过去一天内RECEIVE_COUNT的值。当一个邮件源的RECEIVE_COUNT小于预设值时，将该邮件源的RECEIVE_SCORE计为1分，否则计为0分。其中，RECEIVE_COUNT值越小，说明该邮件源接收的邮件越少，同时由于垃圾邮件源一般不会接收邮件，因此，一个邮件源的RECEIVE_COUNT值越小，该邮件源为垃圾邮件源的可能性越高。

流入端口个数表示该邮件源的SMTP端口被请求的数量，根据流入端口个数可以确定邮件源的流入端口分INCOMING_SCORE。具体地，例如，确定一个邮件源在过去一天内邮件源开放的SMTP端口的数量。当一个邮件源开放的SMTP端口小于预设值时，将该邮件源的INCOMING_SCORE计为1分，否则计为0分。其中，INCOMING_SCORE值越小，说明该邮件源被请求SMTP端口的数量越少，同时由于垃圾邮件源一般不会开放SMTP端口，因此，一个邮件源的INCOMING_SCORE值越小，该邮件源为垃圾邮件源的可能性越高。

请求目的服务器个数表示该邮件源在预设时长内请求过的邮件服务器的数量，根据请求目的服务器个数可以确定邮件源的请求目的数分REQUEST_DESTINATION_COUNT_SCORE。具体地，例如，确定一个邮件源在过去一天内的REQUEST_DESTINATION_COUNT值。当一个邮件源的REQUEST_DESTINATION_COUNT值大于预设值时，将该邮件源的REQUEST_DESTINATION_COUNT_SCORE计为1分，否则计为0分。其中，REQUEST_DESTINATION_COUNT_SCORE值越大，说明该邮件源请求过的邮件服务器数量越多，同时由于垃圾邮件源相比于正常邮件源，会请求更多的邮件服务器，因此，一个邮件源的REQUEST_DESTINATION_COUNT_SCORE值越大，该邮件源为垃圾邮件源的可能性越高。

闲置时间表示该邮件源在预设的N个时间段中没有进行收发邮件的时间段个数，根据闲置时间可以确定邮件源的闲置时间分IDLE_SCORE。具体地，例如，将过去的24小时按每隔5分钟划分为288个时间段，一个邮件源在一个时间段内无STMP/POP3/IMAP端口请求则认为该邮件源在该时间段内处于闲置状态，若一个邮件源处于闲置状态的时间段占总时间段的比例大于阈值，则将该邮件源的IDLE_SCORE计为1分，否则计为0分。其中，IDLE_SCORE值越大，说明该邮件源的闲置时间越长，同时由于垃圾邮件源往往是周期性的发送垃圾邮件，其闲置时间往往较长，因此，一个邮件源的IDLE_SCORE值越大，该邮件源为垃圾邮件源的可能性越高。

在一种可能的实现方式中，上述根据该邮件源的评分项的分数信息，得到该邮件源的分数信息，例如可以采用以下方式：将一个邮件源的上述各个评分项的分数信息加权之后求和，得到该邮件源的分数信息。当然，根据邮件源的评分项的分数信息，得到邮件源的分数信息的方法并不限于此，可根据实际需要来确定。

举例来说，若上述每个评分项的权重都为1，若邮件源1的CONTENT_SIZE_SCORE为1、SEND_CYCLICITY_SCORE为1、SEND_PEAK_SCORE为1、RECEIVE_SCORE为1、INCOMING_SCORE为1、REQUEST_DESTINATION_COUNT为1、IDLE_SCORE为1，则邮件源1的分数信息为7。若邮件源2的CONTENT_SIZE_SCORE为0、SEND_CYCLICITY_SCORE为0、SEND_PEAK_SCORE为1、RECEIVE_SCORE为0、INCOMING_SCORE为1、REQUEST_DESTINATION_COUNT为1、IDLE_SCORE为1，则邮件源2的分数信息为4。

针对上述步骤230，在一种可能的实现方式中，可以将邮件源的分数信息大于阈值的邮件源确定为垃圾邮件源。当然，也可以将各个邮件源按分数信息，取一定百分比的邮件源确定为垃圾邮件源。

举例来说，若邮件源1的分数信息为7，邮件源2的分数信息为4，邮件源3的分数信息为5。若上述步骤230中，将邮件源的分数信息大于阈值的邮件源确定为垃圾邮件源，且阈值为3，则上述邮件源1、邮件源2、邮件源3均被确定为垃圾邮件源。若上述步骤230中，按邮件源的分数信息前50％的邮件源确定为垃圾邮件源，则只将上述邮件源1确定为垃圾邮件源。

通过上述垃圾邮件源检测方法，在获取到一个邮件源发送邮件时产生的参数信息后，即可分析该邮件源是否处于黑名单或者是否为可疑垃圾邮件源，再对可疑垃圾邮件源进行评分，最终即可确定该邮件源是否为垃圾邮件源，上述垃圾邮件源检测方法相比于通过邮件内容去检测的方法，更加的高效准确。

基于同一发明构思，图3示例性的示出了本申请提供的一种垃圾邮件源检测装置，该装置可以执行垃圾邮件源检测方法的流程。如图3所示，该装置包括：

第一确定单元301，用于确定至少一个邮件源的邮件会话信息，一个邮件会话信息包括一个邮件源在收发邮件时的邮件参数信息。

评分单元302，用于根据每个邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息。

第二确定单元303，用于根据各个邮件源的分数信息，确定上述至少一个邮件源中的垃圾邮件源。

上述方案，通过获取网络流量中一个邮件源在收发邮件时产生的邮件参数信息，通过产生的邮件参数信息对一个邮件源进行评分，评分得到的分数信息可以反映该邮件源是垃圾邮件源的可能性，通过该分数信息去确定一个邮件源是否为垃圾邮件源的方法，与通过邮件内容去确定发送该邮件的邮件源是否为垃圾邮件的方法相比，更加的高效准确。

在一种可能的实现方式中，上述第一确定单元301，具体可以用于：根据一个邮件源以SMTP端口为目的端口发起请求的网络流的个数，确定该邮件源的发件请求数目，上述邮件会话信息包括发件请求数目；和/或，

在一种可能的实现方式中，上述评分单元302，具体可以用于：根据一个邮件源的邮件会话信息，确定该邮件源的评分项的分数信息，并根据该邮件源的评分项的分数信息，得到邮件源的分数信息。其中，上述评分项包括以下部分或全部：发送的邮件大小变化率、发件请求周期性变化率、发件请求峰值、收件请求个数、流入端口个数、请求目的服务器个数、闲置时间。

流入端口个数表示该邮件源的SMTP端口被请求的数量。

在一种可能的实现方式中，上述装置还可以包括：

第三确定单元304，用于根据邮件源的邮件会话信息，确定邮件源的邮件特征信息。

第四确定单元305，用于根据邮件源的邮件特征信息，确定邮件源为可疑垃圾邮件源。

其中，邮件特征信息包括以下部分或全部：收发件比例、请求响应比例、发件请求目的数和发件请求数目。

发件请求目的数表示该邮件源请求的邮件服务器个数。

发件请求数目表示该邮件源作为源IP进行发件请求的数量。

在一种可能的实现方式中，上述装置还可以包括：第五确定单元306，用于在根据邮件源的邮件会话信息，对邮件源进行评分，得到邮件源的分数信息之前，确定黑名单列表不包括的邮件源，其中，黑名单列表用于记录垃圾邮件源。

上述装置所涉及的与本申请提供的技术方案相关的概念，解释和详细说明及其它步骤请参见前述垃圾邮件源检测方法或其它实施例中关于这些内容的描述，此处不做赘述。

基于与上述实施例相同的构思，本申请还提供一种网络设备。

图4为本申请提供的一种网络设备的结构示意图。如图4所示，该网络设备400包括：

存储器401，用于存储程序指令；

处理器402，用于调用所述存储器中存储的程序指令，按照获得的程序执行前述任一实施例中所述的垃圾邮件源检测方法。

基于与上述实施例相同的构思，本申请还提供一种计算机存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行前述任一实施例中所述的垃圾邮件源检测方法。

需要说明的是，本申请中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。在本申请中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域内的技术人员应明白，本申请可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种垃圾邮件源检测方法，其特征在于，包括:

确定至少一个邮件源的邮件会话信息，一个邮件会话信息包括一个邮件源在收发邮件时的邮件参数信息；

根据每个邮件源的邮件会话信息，对所述邮件源进行评分，得到所述邮件源的分数信息；根据所述邮件源在预设时段内发送的各封邮件的发件大小，确定所述邮件源发送的邮件大小变化率；将所述邮件源发送的邮件大小变化率与第一预设值进行对比，确定所述邮件源的发送邮件大小变化率分；将所述邮件源的发件请求周期性变化率与第二预设值进行对比，确定所述邮件源的发件请求周期性分；根据所述邮件源的发件请求峰值，确定所述邮件源的发件请求峰值分；所述发件请求峰值是根据所述邮件源在所述预设时段内各子时段所发送的邮件数量进行取最大值处理确定的；将所述邮件源的收件请求个数与第三预设值进行对比，确定所述邮件源的收件请求分；将所述邮件源的闲置时间与第四预设值进行对比，确定所述邮件源的闲置时间分；

根据各个邮件源的分数信息，确定所述至少一个邮件源中的垃圾邮件源。

2.如权利要求1所述的方法，其特征在于，所述确定至少一个邮件源的邮件会话信息，包括：

根据一个邮件源以SMTP端口为目的端口发起请求的网络流的个数，确定所述邮件源的发件请求数目，所述邮件会话信息包括所述发件请求数目；和/或，

根据以一个邮件源的IP为目的IP且以SMTP端口为源端口的网络流的个数，确定所述邮件源的发件请求被响应数目，所述邮件会话信息包括所述发件请求被响应数目；和/或，

根据一个邮件源以POP3/IMAP端口为目的端口发起请求的网络流的个数，确定所述邮件源的收件请求数目，所述邮件会话信息包括所述收件请求数目；和/或，

根据一个邮件源以SMTP端口为目的端口发起请求时被请求的不同目的IP的个数，确定所述邮件源的发件请求目的数目，所述邮件会话信息包括所述发件请求目的数目；和/或，

根据以一个邮件源的SMTP端口为源端口的网络流的个数，确定所述邮件源的流入数目，所述邮件会话信息包括所述流入数目；和/或，

根据一个邮件源以SMTP端口为目的端口发起请求的网络流的上行字节数和/或上行包数，确定所述邮件源的发件大小，所述邮件会话信息包括所述发件大小。

3.如权利要求1或2所述的方法，其特征在于，所述根据每个邮件源的邮件会话信息，对所述邮件源进行评分，得到所述邮件源的分数信息，包括：

根据一个邮件源的邮件会话信息，确定所述邮件源的评分项的分数信息；

根据所述邮件源的评分项的分数信息，得到所述邮件源的分数信息；

其中，所述评分项包括以下部分或全部：

发送的邮件大小变化率、发件请求周期性变化率、发件请求峰值、收件请求个数、流入端口个数、请求目的服务器个数、闲置时间；

所述发送的邮件大小变化率表示所述邮件源在预设时长内发送的邮件的大小变化率；

所述发件请求周期性变化率表示所述邮件源在预设的N个时间段中的至少一个时间段内发送的邮件的数量的标准差，所述N为正整数；

所述发件请求峰值表示所述邮件源在预设的N个时间段中的第一时间段时发送的邮件的数量，所述邮件源在所述第一时间段内发送的邮件数量大于所述邮件源在所述第一时间段之外的任一时间段内发送的邮件数量；

所述收件请求个数表示所述邮件源在预设时长内接受的邮件的数量；

所述流入端口个数表示所述邮件源的SMTP端口被请求的数量；

所述请求目的服务器个数表示所述邮件源在预设时长内请求过的邮件服务器的数量；

所述闲置时间表示所述邮件源在预设的N个时间段中没有进行收发邮件的时间段个数。

4.如权利要求1或2所述的方法，其特征在于，在所述根据每个邮件源的邮件会话信息，对所述邮件源进行评分，得到所述邮件源的分数信息之前，还包括：

根据所述邮件源的邮件会话信息，确定所述邮件源的邮件特征信息；

根据所述邮件源的邮件特征信息，确定所述邮件源为可疑垃圾邮件源；

其中，所述邮件特征信息包括以下部分或全部：收发件比例、请求响应比例、发件请求目的数和发件请求数目；

所述收发件比例表示所述邮件源收件请求的数量和发件请求的数量的比例；

所述请求响应比例表示所述邮件源向所述SMTP端口发送的请求中被响应的请求的比例；

所述发件请求目的数表示所述邮件源请求的邮件服务器个数；

所述发件请求数目表示所述邮件源作为源IP进行发件请求的数量。

5.如权利要求1或2所述的方法，其特征在于，在根据每个邮件源的邮件会话信息，对所述邮件源进行评分，得到所述邮件源的分数信息之前，还包括：

确定黑名单列表不包括的邮件源，所述黑名单列表用于记录垃圾邮件源。

6.一种垃圾邮件源检测装置，其特征在于，包括：

第一确定单元，用于确定至少一个邮件源的邮件会话信息，一个邮件会话信息包括一个邮件源在收发邮件时的邮件参数信息；

评分单元，用于根据每个邮件源的邮件会话信息，对所述邮件源进行评分，得到所述邮件源的分数信息；根据所述邮件源在预设时段内发送的各封邮件的发件大小，确定所述邮件源发送的邮件大小变化率；将所述邮件源发送的邮件大小变化率与第一预设值进行对比，确定所述邮件源的发送邮件大小变化率分；将所述邮件源的发件请求周期性变化率与第二预设值进行对比，确定所述邮件源的发件请求周期性分；根据所述邮件源的发件请求峰值，确定所述邮件源的发件请求峰值分；所述发件请求峰值是根据所述邮件源在所述预设时段内各子时段所发送的邮件数量进行取最大值处理确定的；将所述邮件源的收件请求个数与第三预设值进行对比，确定所述邮件源的收件请求分；将所述邮件源的闲置时间与第四预设值进行对比，确定所述邮件源的闲置时间分；

第二确定单元，用于根据各个邮件源的分数信息，确定所述至少一个邮件源中的垃圾邮件源。

7.如权利要求6所述的装置，其特征在于，所述第一确定单元，具体用于：

8.如权利要求6或7所述的装置，其特征在于，所述评分单元，具体用于：

其中，所述评分项包括以下部分或全部：

所述收件请求个数表示所述邮件源在预设时长内收件请求的数量；

所述流入端口个数表示所述邮件源的SMTP端口被请求的数量；

9.如权利要求6或7所述的装置，其特征在于，所述装置还可以包括：

第三确定单元，用于根据所述邮件源的邮件会话信息，确定所述邮件源的邮件特征信息；

第四确定单元，用于根据所述邮件源的邮件特征信息，确定所述邮件源为可疑垃圾邮件源；

10.如权利要求6或7所述的装置，其特征在于，所述装置包括第五确定单元，用于：

在根据每个邮件源的邮件会话信息，对所述邮件源进行评分，得到所述邮件源的分数信息之前，确定黑名单列表不包括的邮件源，所述黑名单列表用于记录垃圾邮件源。