CN101494546B - 协作式垃圾邮件防范方法 - Google Patents

协作式垃圾邮件防范方法 Download PDF

Info

Publication number
CN101494546B
CN101494546B CN2009100286953A CN200910028695A CN101494546B CN 101494546 B CN101494546 B CN 101494546B CN 2009100286953 A CN2009100286953 A CN 2009100286953A CN 200910028695 A CN200910028695 A CN 200910028695A CN 101494546 B CN101494546 B CN 101494546B
Authority
CN
China
Prior art keywords
mail
spam
account
characteristic vector
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100286953A
Other languages
English (en)
Other versions
CN101494546A (zh
Inventor
曹玖新
罗军舟
林加镇
姚燚
刘永生
孙学胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN2009100286953A priority Critical patent/CN101494546B/zh
Publication of CN101494546A publication Critical patent/CN101494546A/zh
Application granted granted Critical
Publication of CN101494546B publication Critical patent/CN101494546B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种协作式垃圾邮件防范方法主要解决目前互联网的邮件安全问题,涉及蜜罐原理以及垃圾邮件过滤等相关技术。该方法采用分布式网络结构,包括电子邮件服务器和目录服务器。在体系结构中,邮件服务器是过滤垃圾邮件的主体,同时负责垃圾邮件样本采集,为了提高样本采集的实时性,提取所采集到样本的特征并进行初级判断(一级判断),然后向目录服务器提交“疑似垃圾邮件”特征。目录服务器对接收到的“疑似垃圾邮件”特征进行第二次筛选(二级判断),生成垃圾邮件过滤规则并存储到规则库中,然后通过统一接口及时把已更新的规则发布到各邮件服务器的本地规则库,从而实现过滤规则的共享与更新,达到协作式防范垃圾邮件的目的。

Description

协作式垃圾邮件防范方法
技术领域
本发明是一种利用了蜜罐原理以及垃圾邮件过滤等相关技术,涉及网络安全特别是电子邮件安全领域。
背景技术
而近年来,垃圾邮件的传播形式和内容已经出现了新的变化,其危害日益严重:占用了大量的网络资源,降低网络的运行效率;浪费邮件用户大量的时间;成为病毒,木马和网络钓鱼的主要传播途径,严重威胁网络安全;此外,垃圾邮件传播不良信息,对社会造成严重的负面影响。然而,现有的垃圾邮件过滤技术却不能很好地应对这种形势。进一步提高互联网抵御垃圾邮件风险的能力,更好地满足用户对防范垃圾邮件的需求,已成为了网络安全领域里一个迫切的任务。
目前普遍采用的垃圾邮件过滤技术主要有:
一、黑白名单的过滤技术。这种技术需要用户手动维护一个黑白名单列表,并以此为依据进行垃圾邮件过滤。
二、,基于统计的过滤技术。现有的基于统计的技术,例如支持向量机(Support VectorMachine,SVM)方法以及Bayes方法等,对样本的统计规律进行学习和归纳,并以此为依据对新邮件进行判别分类。
三、基于规则的过滤技术。现有的基于规则的方法通过对大量样本的训练得到显式规则,再利用这些规则对垃圾邮件进行过滤。基于规则的方法主要有Ripper方法,决策树方法和Boosting方法等。
以上垃圾邮件过滤技术存在很大不足。首先缺少协作性,由于各邮件服务器独立地过滤垃圾邮件,缺少信息交换,没有形成体系,因此无法相互协作,进行大规模地防范垃圾邮件;其次,计算复杂度高,为了获得过滤规则或垃圾邮件特征,必须对大量的样本进行训练,抽取样本内容,过滤规则也较复杂,导致较高的计算复杂性。再次,缺乏实时性,过滤规则或垃圾邮件特征更新周期较长,更新速度慢,无法过滤最新的垃圾邮件,存在滞后性;最后缺乏适应性,目前网络上垃圾邮件的形式产生了新的变化,出现了以图片等非文本格式为内容的垃圾邮件。而现有的基于内容的过滤方法以分析邮件的文本内容为基础,因此无法过滤以图片形式传播的垃圾邮件,导致***出现大量的漏判,降低了过滤准确率。
发明内容
技术问题:本发明针对现有垃圾邮件过滤技术的不足,提出一种新的协作式垃圾邮件过滤方法。这种方法具有协作性,快速免疫性以及适应性的特点,能够在互联网环境下进行大规模地拦截垃圾邮件。本发明通过引入目录服务器,把各邮件服务器整合起来。在邮件服务器中利用蜜罐技术进行样本采集,经过一级判断后把样本的特征向量提交到目录服务器,目录服务对这些特征向量进行第二次判断筛选后生成过滤规则,然后把已更新的过滤规则发布到其它邮件服务器中,实现协作式垃圾邮件防范。
技术方案:本发明的协作式垃圾邮件防范方法具体如下:
第一步,邮件服务器读取邮件帐户的相关信息,并结合这些信息根据蜜罐帐户评价公式对每个帐户进行评分,然后按照从大到小的顺序把计算所得到的分值写入***的帐户数据库中,更新帐户评分表并根据蜜罐选择算法,从***的邮件帐户中选择一定数量的帐户作为蜜罐帐户从而生成蜜罐集合;
第二步,根据垃圾邮件的行为特征,定期从这些蜜罐帐户集合中进行邮件样本采集并提取样本的特征,组成特征向量并用这些特征向量表示样本集合;
第三步,利用这些样本特征向量在蜜罐集合中重复度即样本出现的次数,对其进行初次判断即一级判断,从而初步提高样本的准确度;
第四步,邮件服务器把经过一级判断的特征向量提交到目录服务器,目录服务器再对这些特征向量进行第二次判断即二级判断,筛选出准确度更高的特征向量并生成过滤规则;
第五步,目录服务器把新生成的过滤规则发布到各邮件服务器的规则库中进行更新,各邮件服务器利用这些已经更新的规则在收到新的电子邮件时进行垃圾邮件过滤。
生成蜜罐集合的过程是首先设置初始蜜罐集合为空,然后***读取数据库中的帐户评分表,优先选择分数较高的帐户并把这些帐户添加进蜜罐集合中,每次增加蜜罐帐户后,对集合中的垃圾邮件数量进行统计;由于服务器中的垃圾邮件数量是有限的,因此随着集合的不断增大,从集合中采集到的垃圾邮件数量将趋于定值,当增加蜜罐帐户后集合中的垃圾邮件增量小于确定的阈值时,就可确定最终的蜜罐集合;
在进行蜜罐帐户选择时,其确定候选蜜罐的评价公式为:
V ( t , Δt ) = ( λ 1 * S 1 ( t - Δt ) H 1 ( t - Δt ) + ( 1 - λ 1 ) * S 2 ( Δt ) H 2 ( Δt ) ) * λ 2 + S 2 ( Δt ) * ( 1 - λ 2 )
其中:
V:***中某个帐户的得分,表示该帐户被选为蜜罐的可能性大小;V的值越大,则该帐户被选为蜜罐帐户的可能性越大,反之越小;
t:时间变量,表示算法执行的时刻点;
Δt:时间区间变量,表示前后两次执行算法的时间间隔;
S1(t-Δt):表示帐户在(t-Δt)时刻之前收到的垃圾邮件历史总数;
S2(Δt):表示帐户在最近Δt时间段内收到的垃圾邮件总数;
H1(t-Δt):表示帐户在(t-Δt)时刻之前收到的合法邮件历史总数;
H2(Δt):表示帐户在最近Δt时间段内收到的合法邮件总数;
λ1:权值,取值在0和1之间。该值可以根据实际***进行调节;
λ2:权值,取值在0和1之间。该值可以根据实际***进行调节。
邮件样本采集是指由于垃圾邮件具有群发的行为特征,一封垃圾邮件经常同时出现在若干蜜罐帐户中,利用这个特征进行样本采集,这需要统计一封邮件在蜜罐集合中的分布,即集合中同时收到这封邮件的帐户数量;如果集合中收到同一封邮件的帐户数量大于指定的阈值,那么就可以把这封邮件判别为“疑似”垃圾邮件并进行采集;
提取样本的特征是指对从蜜罐帐户集合中采集到的垃圾邮件样本进行特征抽取,用特征向量的形式表示样本,以便于后续的存储和计算;采用针对邮件头部和邮件内容指纹信息,而非邮件内容本身的特征提取方法生成轻量级的特征向量;
所述样本的特征向量形式如下:
F=<SA,SIP,FP>
特征向量F中各分量的意义如下表所示:
 分量名 分量的意义
 SA 发送人邮件地址,即邮件头部信息中Return-Path部分
 SIP 邮件源IP,邮件头部信息中最后一个Received字段中的第一个IP地址
 FP 邮件内容的指纹信息
一级判断的过程是统计出各特征向量在集合中的重复度,如果重复度大于预设定的某个阈值,则保留该特征向量;然后在集合中删除特征库已有的特征向量,同时把最终生成的特征向量集写入***的特征库中,完成更新操作,邮件服务器把经过一级判断的特征向量提交到目录服务器;
一级判断的运算过程为:
C = A m &times; n &times; S = R 1 R 2 . . . R m &times; S = R 1 &times; S R 2 &times; S . . . R m &times; S = &Sigma; i = 1 n r 1 i &times; s 1 i &Sigma; i = 1 n r 2 i &times; s 2 i . . . &Sigma; i = 1 n r mi &times; s mi = c 1 c 2 . . . c m
其中C为置信度矩阵,目录服务器根据置信度矩阵对特征进行第二次筛选;
所述邮件服务器通过统一的接口把生成的向量集提交到目录服务器,目录服务器中开辟专门的缓冲区,用来存储待处理的特征向量集,当目录服务器接收到某个邮件服务器发来的特征向量集时,暂时将其存入***的缓冲区中,当接收到的特征向量集合达到一定数量时才对其进行二级判断。
二级判断即根据各邮件服务器识别垃圾邮件的准确度,以及特征向量在各邮件服务中的重复度,实现联合判断,计算出垃圾邮件特征的置信度,淘汰掉置信度较低的特征向量;
二级判断是目录服务器利用各邮件服务器的准确度矩阵以及特征向量的重复度矩阵进行运算,从而生成各特征向量的置信度矩阵;其中准确度矩阵为:
ST=[s1  s2  ...  sn]
si表示服务器i识别垃圾邮件的准确度大小。重复度矩阵为:
A m &times; n = R 1 R 2 . . . R m = r 11 r 12 . . . r 1 n r 21 r 22 . . . r 2 n . . . . . . . . . . . . r m 1 r m 2 . . . r mn
Am×n中,m表示不同的特征向量个数,n表示邮件服务器数量,Rp表示特征向量p的重复度矩阵,rpq表示特征向量p在邮件服务器q中的重复度;
第四步中所述的过滤规则包括邮件内容的指纹信息和黑名单列表两个部分,这两个部分都可以从特征向量中抽取出来。
第五步中的更新过程指从规则库中读取已更新的过滤规则,然后将其发布到各邮件服务器中,实现邮件服务器过滤规则的共享与更新,达到协作式防范垃圾邮件的目的。
第五步中对新的电子邮件进行垃圾邮件过滤时,首先提取此封邮件的特征向量;然后检索***的缓冲区是否存在与之匹配的特征向量,如果存在,则把此封邮件判断为垃圾邮件,否则检索此封邮件的发送端主机信息是否在黑名单列表中,如果匹配到黑名单则判断为垃圾邮件;当检索不到相匹配的指纹信息或黑名单时,***将根据预设定的邮件最长可以滞留在队列中的时间,将该邮件投入邮件队列,并在固定的时间间隔重新按照上述的流程进行判断;如果在最长滞留时间内,***中仍未出现匹配的过滤规则,那么就把该邮件判定为合法邮件,并投递到相应的帐户。
有益效果:本发明的特点是在分布式环境中引入目录服务器,把各邮件服务器整合起来,并设计了两级判断机制对“疑似垃圾邮件”样本进行判断和筛选,提高了规则的准确度。本发明具有协作性,快速免疫性以及适应性的特优点,能够在互联网环境下进行大规模地拦截垃圾邮件。根据试验测的结果显示,本发明在垃圾邮件协作防范方面处于国际领先水平。
附图说明
图1为本发明所述的蜜罐帐户选择流程图;
图2为本发明所述的协作式垃圾邮件防范体系示意图;
图3为本发明所述的垃圾邮件过滤流程图。
具体实施方式
本发明所述的方法进一步描述为:
a.邮件服务器读取邮件帐户的相关信息,并结合这些信息根据蜜罐帐户评价公式对每个帐户进行评分,然后按照从大到小的顺序把计算所得到的分值写入***的帐户数据库中,更新帐户评分表;
b.确定蜜罐集合:在这个阶段,首先设置初始蜜罐集合为空,然后***读取数据库中的帐户评分表,优先选择分数较高的帐户并把这些帐户添加进蜜罐集合中,每次增加蜜罐帐户后,对集合中的垃圾邮件数量进行统计;由于服务器中的垃圾邮件数量是有限的,因此随着集合的不断增大,从集合中采集到的垃圾邮件数量将趋于定值,当增加蜜罐帐户后集合中的垃圾邮件增量小于确定的阈值时,就可确定最终的蜜罐集合;
c.样本采集:由于垃圾邮件具有群发的行为特征,一封垃圾邮件经常同时出现在若干蜜罐帐户中,利用这个特征进行样本采集,需要统计一封邮件在蜜罐集合中的分布,即集合中同时收到这封邮件的帐户数量;如果集合中收到同一封邮件的帐户数量大于指定的阈值,那么就可以把这封邮件判别为“疑似”垃圾邮件并进行采集;
d.特征提取:对从蜜罐帐户集合中采集到的垃圾邮件样本进行特征抽取,用特征向量的形式表示样本,以便于后续的存储和计算;采用针对邮件头部和邮件内容指纹信息,而非邮件内容本身的特征提取方法生成轻量级的特征向量;
e.一级判断:首先统计出各特征向量在集合中的重复度,如果重复度大于预设定的某个阈值,则保留该特征向量;然后在集合中删除特征库已有的特征向量,同时把最终生成的特征向量集写入***的特征库中,完成更新操作,邮件服务器把经过一级判断的特征向量提交到目录服务器;
f.二级判断:根据各邮件服务器识别垃圾邮件的准确度,以及特征向量在各邮件服务中的重复度,实现联合判断,计算出垃圾邮件特征的置信度,淘汰掉置信度较低的特征向量;
g.生成过滤规则并把过滤规则分布到各邮件服务器,各邮件服务器利用已更新的过滤规则进行垃圾邮件过滤。
在进行蜜罐帐户选择时,其确定候选蜜罐的评价公式为:
V ( t , &Delta;t ) = ( &lambda; 1 * S 1 ( t - &Delta;t ) H 1 ( t - &Delta;t ) + ( 1 - &lambda; 1 ) * S 2 ( &Delta;t ) H 2 ( &Delta;t ) ) * &lambda; 2 + S 2 ( &Delta;t ) * ( 1 - &lambda; 2 )
其中:
V:***中某个帐户的得分,表示该帐户被选为蜜罐的可能性大小;V的值越大,则该帐户被选为蜜罐帐户的可能性越大,反之越小;
t:时间变量,表示算法执行的时刻点;
Δt:时间区间变量,表示前后两次执行算法的时间间隔;
S1(t-Δt):表示帐户在(t-Δt)时刻之前收到的垃圾邮件历史总数;
S2(Δt):表示帐户在最近Δt时间段内收到的垃圾邮件总数;
H1(t-Δt):表示帐户在(t-Δt)时刻之前收到的合法邮件历史总数;
H2(Δt):表示帐户在最近Δt时间段内收到的合法邮件总数;
λ1:权值,取值在0和1之间。该值可以根据实际***进行调节;
λ2:权值,取值在0和1之间。该值可以根据实际***进行调节。
样本的特征向量形式如下:
F=<SA,SIP,FP>
特征向量T中各分量的意义如下表所示:
分量名 分量的意义
SA 发送人邮件地址,即邮件头部信息中Return-Path部分
SIP 邮件源IP,邮件头部信息中最后一个Received字段中的第一个IP地址
FP 邮件内容的指纹信息
为了得到邮件内容的指纹信息即特征向量的的FP分量,本文采用开放源代码的Nilsimsa摘要方法的改进版本。Nilsimsa实际上是一种Hash算法,它在邮件的相似性计算方面具有较大的优势。
所述邮件服务器通过统一的接口把生成的向量集提交到目录服务器,目录服务器中开辟专门的缓冲区,用来存储待处理的特征向量集,当目录服务器接收到某个邮件服务器发来的特征向量集时,暂时将其存入***的缓冲区中,当接收到的特征向量集合达到一定数量时才对其进行二级判断。
二级判断是目录服务器利用各邮件服务器的准确度矩阵以及特征向量的重复度矩阵进行运算,从而生成各特征向量的置信度矩阵;其中准确度矩阵为:
ST=[s1  s2  ...  sn]
si表示服务器i识别垃圾邮件的准确度大小。重复度矩阵为:
A m &times; n = R 1 R 2 . . . R m = r 11 r 12 . . . r 1 n r 21 r 22 . . . r 2 n . . . . . . . . . . . . r m 1 r m 2 . . . r mn
Am×n中,m表示不同的特征向量个数,n表示邮件服务器数量,Rp表示特征向量p的重复度矩阵,rpq表示特征向量p在邮件服务器q中的重复度。一级判断的运算过程为:
C = A m &times; n &times; S = R 1 R 2 . . . R m &times; S = R 1 &times; S R 2 &times; S . . . R m &times; S = &Sigma; i = 1 n r 1 i &times; s 1 i &Sigma; i = 1 n r 2 i &times; s 2 i . . . &Sigma; i = 1 n r mi &times; s mi = c 1 c 2 . . . c m
其中C为置信度矩阵,目录服务器根据置信度矩阵对特征进行第二次筛选。
过滤规则包括邮件内容的指纹信息和黑名单列表两个部分,这两个部分都可以从特征向量中抽取出来。
从规则库中读取已更新的过滤规则,然后将其发布到各邮件服务器中,实现邮件服务器过滤规则的共享与更新,达到协作式防范垃圾邮件的目的。
当邮件服务器收到一封新的电子邮件时,首先提取此封邮件的特征向量;然后检索***的缓冲区是否存在与之匹配的特征向量,如果存在,则把此封邮件判断为垃圾邮件,否则检索此封邮件的发送端主机信息是否在黑名单列表中,如果匹配到黑名单则判断为垃圾邮件;当检索不到相匹配的指纹信息或黑名单时,***将根据预设定的邮件最长可以滞留在队列中的时间,将该邮件投入邮件队列,并在固定的时间间隔重新按照上述的流程进行判断;如果在最长滞留时间内,***中仍未出现匹配的过滤规则,那么就把该邮件判定为合法邮件,并投递到相应的帐户。
如图2所示,本发明的部署需要构建一个由目录服务器和若干邮件服务器组成的网络。在邮件服务器中,其主要构成模块和功能如下:
(1)样本采集模块。由样本采集,特征提取和一级判断三个子模块构成。其中,样本采集子模块统计邮件账户的历史信息,从服务器中选出一定数量的邮件帐户作为蜜罐账户,利用垃圾邮件的群发特征定期从蜜罐账户集合中采集疑似垃圾邮件样本;特征提取子模块主要通过抽取疑似垃圾邮件的头部信息和邮件内容指纹信息(而不是分析邮件内容本身),生成轻量级的特征向量;一级判断子模块则根据蜜罐账户集合中样本的重复度,对抽取的特征进行第一次判断和筛选,然后提交到目录服务器。
(2)规则更新模块。接收目录服务器发布的最新过滤规则并转储到本地规则库中。
(3)垃圾邮件过滤模块。从邮件缓冲队列中接收邮件,提取出其特征向量,检索本地规则库中是否有匹配的规则,如果匹配成功,则把该邮件判定为垃圾邮件,否则,设定一个缓存时间,并将该邮件存入用户缓冲区,如果在缓存时间内仍未出现匹配的规则,那么就把该邮件判定为合法邮件。
在目录服务器中,其主要构成模块和功能如下:
(1)二级判断模块。根据特征向量被各邮件服务器提交的次数(即重复度)以及各邮件服务器判断垃圾邮件的准确度,对其进行第二次判断,筛选出高准确度的特征向量集合。
(2)规则生成模块。对特征向量集合进行重构,生成过滤规则,并存储到目录服务器的规则库中。
(3)规则发布模块。根据设定的周期,快速发现规则库中的已更新规则,并将其下发至各邮件服务中,实现邮件服务器本地规则库的快速实时更新
基于本发明开发了原型***,包括以上所述的各功能子模块,从实施效果来看,本发明能够在进行大规模垃圾邮件拦截的同时,提高垃圾邮件过滤的准确度,同时***对新型垃圾邮件具有快速免疫能力,对不同类型的垃圾邮件具有适应性,能够过滤诸如以Web页或图片为内容的垃圾邮件。

Claims (8)

1.一种协作式垃圾邮件防范方法,其特征在于该方法具体如下:
第一步,邮件服务器读取邮件帐户的相关信息,并结合这些信息根据蜜罐帐户评价公式对每个帐户进行评分,然后按照从大到小的顺序把计算所得到的分值写入***的帐户数据库中,更新帐户评分表并根据蜜罐选择算法,从***的邮件帐户中选择一定数量的帐户作为蜜罐帐户从而生成蜜罐集合;
第二步,根据垃圾邮件的行为特征,定期从这些蜜罐帐户集合中进行邮件样本采集并提取样本的特征,组成特征向量并用这些特征向量表示样本集合;
第三步,利用这些样本特征向量在蜜罐集合中重复度即样本出现的次数,对其进行初次判断即一级判断,从而初步提高样本的准确度;
第四步,邮件服务器把经过一级判断的特征向量提交到目录服务器,目录服务器再对这些特征向量进行第二次判断即二级判断,筛选出准确度更高的特征向量并生成过滤规则;
第五步,目录服务器把新生成的过滤规则发布到各邮件服务器的规则库中进行更新,各邮件服务器利用这些已经更新的规则在收到新的电子邮件时进行垃圾邮件过滤;
生成蜜罐集合的过程是首先设置初始蜜罐集合为空,然后***读取数据库中的帐户评分表,优先选择分数较高的帐户并把这些帐户添加进蜜罐集合中,每次增加蜜罐帐户后,对集合中的垃圾邮件数量进行统计;由于服务器中的垃圾邮件数量是有限的,因此随着集合的不断增大,从集合中采集到的垃圾邮件数量将趋于定值,当增加蜜罐帐户后集合中的垃圾邮件增量小于确定的阈值时,就可确定最终的蜜罐集合;
在进行蜜罐帐户选择时,其确定候选蜜罐的评价公式为:
Figure FSB00000341698800011
其中:
V:***中某个帐户的得分,表示该帐户被选为蜜罐的可能性大小;V的值越大,则该帐户被选为蜜罐帐户的可能性越大,反之越小;
t:时间变量,表示算法执行的时刻点;
Δt:时间区间变量,表示前后两次执行算法的时间间隔;
S1(t-Δt):表示帐户在(t-Δt)时刻之前收到的垃圾邮件历史总数;
S2(Δt):表示帐户在最近Δt时间段内收到的垃圾邮件总数;
H1(t-Δt):表示帐户在(t-Δt)时刻之前收到的合法邮件历史总数;
H2(Δt):表示帐户在最近Δt时间段内收到的合法邮件总数;
λ1:权值,取值在0和1之间,该值根据实际***进行调节;
λ2:权值,取值在0和1之间,该值根据实际***进行调节。
2.根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:邮件样本采集是指由于垃圾邮件具有群发的行为特征,一封垃圾邮件经常同时出现在若干蜜罐帐户中,利用这个特征进行样本采集,这需要统计一封邮件在蜜罐集合中的分布,即集合中同时收到这封邮件的帐户数量;如果集合中收到同一封邮件的帐户数量大于指定的阈值,那么就可以把这封邮件判别为“疑似”垃圾邮件并进行采集。 
3.根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:提取样本的特征是指对从蜜罐帐户集合中采集到的垃圾邮件样本进行特征抽取,用特征向量的形式表示样本,以便于后续的存储和计算;采用针对邮件头部和邮件内容指纹信息,而非邮件内容本身的特征提取方法生成轻量级的特征向量;
所述样本的特征向量形式如下:
F=<SA,SIP,FP>
特征向量F中各分量的意义如下表所示:
  分量名   分量的意义   SA   发送人邮件地址,即邮件头部信息中Return-Path部分   SIP   邮件源IP,邮件头部信息中最后一个Received字段中的第一个IP地址   FP   邮件内容的指纹信息
4.根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:一级判断的过程是统计出各特征向量在集合中的重复度,如果重复度大于预设定的某个阈值,则保留该特征向量;然后在集合中删除特征库已有的特征向量,同时把最终生成的特征向量集写入***的特征库中,完成更新操作,邮件服务器把经过一级判断的特征向量提交到目录服务器;
一级判断的运算过程为:
Figure FSB00000341698800021
其中C为置信度矩阵,目录服务器根据置信度矩阵对特征进行第二次筛选;
所述邮件服务器通过统一的接口把生成的向量集提交到目录服务器,目录服务器中开辟专门的缓冲区,用来存储待处理的特征向量集,当目录服务器接收到某个邮件服务器发来的特征向量集时,暂时将其存入***的缓冲区中,当接收到的特征向量集合达到一定数量时才对其进行二级判断;
其中,m表示不同的特征向量个数,n表示邮件服务器数量,Rp表示特征向量p的重复度矩阵,rpq表示特征向量p在邮件服务器q中的重复度,S是准确度矩阵。
5.根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:二级判断即根据各邮件服务器识别垃圾邮件的准确度,以及特征向量在各邮件服务中的重复度,实现联合判断,计算出垃圾邮件特征的置信度,淘汰掉置信度较低的特征向量;
二级判断是目录服务器利用各邮件服务器的准确度矩阵以及特征向量的重复度矩阵进行运算,从而生成各特征向量的置信度矩阵:其中准确度矩阵为:
ST=[s1 s2 … sn
si表示服务器i识别垃圾邮件的准确度大小,重复度矩阵为:
Figure FSB00000341698800031
Am×n中,m表示不同的特征向量个数,n表示邮件服务器数量,Rp表示特征向量p的重复度矩阵,rpq表示特征向量p在邮件服务器q中的重复度。
6.根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:第四步中所述的过滤规则包括邮件内容的指纹信息和黑名单列表两个部分,这两个部分都可以从特征向量中抽取出来。
7.根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:第五步中的更新过程指从规则库中读取已更新的过滤规则,然后将其发布到各邮件服务器中,实现邮件服务器过滤规则的共享与更新,达到协作式防范垃圾邮件的目的。
8.根据权利要求1所述的协作式垃圾邮件防范方法,其特征是:第五步中对新的电子邮件进行垃圾邮件过滤时,首先提取此封邮件的特征向量;然后检索***的缓冲区是否存在与之匹配的特征向量,如果存在,则把此封邮件判断为垃圾邮件,否则检索此封邮件的发送端主机信息是否在黑名单列表中,如果匹配到黑名单则判断为垃圾邮件;当检索不到相匹配的指纹信息或黑名单时,***将根据预设定的邮件最长可以滞留在队列中的时间,将该邮件投入邮件队列,并在固定的时间间隔重新按照上述的流程进行判断;如果在最长滞留时间内,***中仍未出现匹配的过滤规则,那么就把该邮件判定为合法邮件,并投递到相应的帐户。 
CN2009100286953A 2009-01-05 2009-01-05 协作式垃圾邮件防范方法 Expired - Fee Related CN101494546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100286953A CN101494546B (zh) 2009-01-05 2009-01-05 协作式垃圾邮件防范方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100286953A CN101494546B (zh) 2009-01-05 2009-01-05 协作式垃圾邮件防范方法

Publications (2)

Publication Number Publication Date
CN101494546A CN101494546A (zh) 2009-07-29
CN101494546B true CN101494546B (zh) 2011-04-20

Family

ID=40924966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100286953A Expired - Fee Related CN101494546B (zh) 2009-01-05 2009-01-05 协作式垃圾邮件防范方法

Country Status (1)

Country Link
CN (1) CN101494546B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778055B (zh) * 2009-12-31 2013-03-13 卓望数码技术(深圳)有限公司 一种消息处理方法和网络实体
CN102419777B (zh) * 2012-01-10 2013-10-02 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤***及其过滤方法
CN103078753B (zh) * 2012-12-27 2016-07-13 华为技术有限公司 一种邮件的处理方法、装置和***
CN107294834A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种识别垃圾邮件的方法和装置
CN107453973B (zh) * 2016-05-31 2021-04-13 阿里巴巴集团控股有限公司 一种甄别电子邮件发送者身份特征的方法和装置
CN107171944B (zh) * 2017-06-27 2020-06-16 北京二六三企业通信有限公司 垃圾邮件的识别方法及装置
CN107888484A (zh) * 2017-11-29 2018-04-06 北京明朝万达科技股份有限公司 一种邮件处理方法及***
CN110781429A (zh) * 2019-09-24 2020-02-11 支付宝(杭州)信息技术有限公司 互联网数据检测方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434390A (zh) * 2003-02-28 2003-08-06 上海蓝飞通信设备有限公司 防止垃圾邮件的方法
CN1564551A (zh) * 2004-03-16 2005-01-12 张晴 防垃圾邮件的实现方法
CN1578357A (zh) * 2003-07-15 2005-02-09 乐金电子(中国)研究开发中心有限公司 移动通信终端的垃圾邮件拦截方法
CN1614607A (zh) * 2004-11-25 2005-05-11 中国科学院计算技术研究所 垃圾邮件过滤的方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434390A (zh) * 2003-02-28 2003-08-06 上海蓝飞通信设备有限公司 防止垃圾邮件的方法
CN1578357A (zh) * 2003-07-15 2005-02-09 乐金电子(中国)研究开发中心有限公司 移动通信终端的垃圾邮件拦截方法
CN1564551A (zh) * 2004-03-16 2005-01-12 张晴 防垃圾邮件的实现方法
CN1614607A (zh) * 2004-11-25 2005-05-11 中国科学院计算技术研究所 垃圾邮件过滤的方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林加镇等.一种新的垃圾邮件样本采集方法.《东南大学学报》.2008,第38卷(第2期),244-248. *

Also Published As

Publication number Publication date
CN101494546A (zh) 2009-07-29

Similar Documents

Publication Publication Date Title
CN101494546B (zh) 协作式垃圾邮件防范方法
CN1716293B (zh) 增量反垃圾邮件查找与更新服务
CN102831248B (zh) 网络热点挖掘方法及装置
CN102208992B (zh) 面向互联网的不良信息过滤***及其方法
CN101674264B (zh) 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法
CN101257671B (zh) 基于内容的大规模垃圾短信实时过滤方法
CN102413076B (zh) 基于行为分析的垃圾邮件判定***
CN102024045B (zh) 信息分类处理方法、装置和终端
Katirai et al. Filtering junk e-mail
CN101155182A (zh) 一种基于网络的垃圾信息过滤方法和装置
CN101699432A (zh) 基于排序策略的信息过滤***
CN101330473A (zh) 一种多协议支持的网络垃圾信息过滤方法和装置
CN1863170A (zh) 处理垃圾电子邮件的方法及计算机可读取存储媒体
CN101784022A (zh) 短信过滤、分类方法及***
CN1517928A (zh) 允许综合反兜售信息的技术构架
WO2002075570A1 (en) Redundant email address detection and capture system
CN103136266A (zh) 邮件分类的方法及装置
CN102404249A (zh) 一种基于协同训练的垃圾邮件过滤方法和装置
CN105871887A (zh) 基于客户端的个性化电子邮件过滤***和过滤方法
CN102377690B (zh) 反垃圾邮件网关***及方法
CN102098638A (zh) 短信分类处理方法、装置和终端
CN103778226A (zh) 构建语言信息识别模型的方法及语言信息识别装置
CN103873348A (zh) 电子邮件过滤方法和***
CN111010336A (zh) 一种海量邮件解析方法及装置
Mallampati et al. A machine learning based email spam classification framework model: related challenges and issues

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110420

Termination date: 20140105