CN1696943A - 一种自适应、安全过滤垃圾邮件的方法 - Google Patents

一种自适应、安全过滤垃圾邮件的方法 Download PDF

Info

Publication number
CN1696943A
CN1696943A CN 200410018327 CN200410018327A CN1696943A CN 1696943 A CN1696943 A CN 1696943A CN 200410018327 CN200410018327 CN 200410018327 CN 200410018327 A CN200410018327 A CN 200410018327A CN 1696943 A CN1696943 A CN 1696943A
Authority
CN
China
Prior art keywords
mail
spam
local
legitimate
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200410018327
Other languages
English (en)
Inventor
肖腾飞
许海林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIRUAN SOFWARE TECH Co Ltd SHANGHAI
Original Assignee
JIRUAN SOFWARE TECH Co Ltd SHANGHAI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIRUAN SOFWARE TECH Co Ltd SHANGHAI filed Critical JIRUAN SOFWARE TECH Co Ltd SHANGHAI
Priority to CN 200410018327 priority Critical patent/CN1696943A/zh
Publication of CN1696943A publication Critical patent/CN1696943A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种自适应、安全过滤垃圾邮件的方法。它需要两个垃圾邮件判定谱,即中央规则库和本地规则库。其中,中央规则库在服务器上自动形成,本地规则库在用户PC机上自动形成。在用户PC机上利用邮件处理***根据中央规则库和本地规则库计算所接收的邮件分值,判断接收的邮件是否为垃圾邮件。中央规则库和本地规则库自动学习更新,即在服务器***规则库自动更新,在用户PC机上本地规则库自动更新,用户PC机自动定期获得最新的中央规则库。对用户所接受的邮件内容经过智能分析,自动将合法邮件保留在收件箱,将垃圾邮件存放隔离区,在提高垃圾邮件识别率的同时降低合法邮件的误判率,从而使用户节省时间和精力。

Description

一种自适应、安全过滤垃圾邮件的方法
技术领域
本发明涉及网络过滤技术,特别是涉及一种自适应、安全过滤垃圾邮件的方法。
背景技术
随着因特网的普及,电子邮件作为因特网提供的一项基本服务也日益得到广泛使用。但是,随之而来的垃圾邮件也越来越猖獗。根据中国互联网络信息中心2004年1月公布的《中国互联网络发展状况统计报告》显示,中国网民平均每周收到13.7封电子邮件,其中垃圾邮件占据了7.9封,垃圾邮件数量超过了正常邮件数量,并有进一步增长的趋势。邮件信箱里充满了垃圾邮件,以至于电子邮件使用者需要花费大量时间才能找出一封合法邮件。垃圾邮件已经严重影响了电子邮件正常使用。虽然,目前设计了多种方法,企图阻止垃圾邮件的传播,但是均被垃圾邮件发送者一一绕过。另外,在使用各种识别垃圾邮件的工具时,使用者往往担心大量合法邮件被错误地识别为垃圾邮件,比如实时黑名单(RBL,Realtime Black List),在阻挡了垃圾邮件的同时,将部分用户的合法邮件据之门外。目前没有一种方法能够完全令人满意。
垃圾邮件大规模爆发的原因是简单邮件传输协议(SMTP)本身的缺陷,即SMTP协议缺少确认电子邮件发送者身份的全面手段。通过伪造回复地址以及利用受到侵入的计算机等方式来掩饰身份,发送垃圾邮件非常容易。但是修改或者替换SMTP协议,需要投入巨额资金。另外垃圾邮件发送成本低廉,使得一部分企业或者网站以发送邮件的方式进行宣传,以获取自己私利。他们通过各种途径获取电子邮件地址,比如从一部分不道德的网络服务提供商或者网站的拥有者购买用户或者第三方的电子邮件地址列表,或者通过程序自动地从万维网网页上获取邮件地址;甚至,通过排列组合的方法生成成千上百万个英文字符串作为用户的邮件地址,然后利用程序自动发送。垃圾邮件的常见内容包括:赚钱信息、成人广告、商业或个人网站广告、电子杂志、连环信等。部分垃圾邮件甚至还附带有病毒。如果用户不经意打开这些邮件,导致泄漏机密或者破坏机器,造成重大损失。因此垃圾邮件对绝大部分用户来说,没有任何价值,反而增加了用户负担,为了从一大堆垃圾邮件中找出合法邮件,浪费大量的时间和精力。
垃圾邮件的内容特征鲜明,用词非常接近或者相近,具有一定的普遍性。但是对于合法邮件,由于用户处于不同的行业,各行各业都有自己的专门术语,因此具有专有性。在无法变动SMTP协议的情况下,一方面希望通过法律来约束或者惩罚垃圾邮件发送者,另一方面期待一种能自动识别垃圾邮件的方法,使得在保护合法邮件未被误判为垃圾邮件的情况下,使因特网用户从垃圾邮件中解脱出来。
发明内容
本发明解决的技术问题是提供一种自适应、安全过滤垃圾邮件的方法,它可在用户的PC机上,对所接收的邮件内容进行智能分析,自动将合法邮件保留在收件箱,将垃圾邮件存放到隔离区,在提高垃圾邮件识别率的同时降低合法邮件的误判率,从而使用户节省时间和精力。
为解决上述技术问题,本发明所述的一种自适应、安全过滤垃圾邮件的方法是,它包括:
1、两个邮件样本库,即中央邮件样本库和本地邮件样本库:中央邮件样本库,包括垃圾邮件和合法邮件的邮件样本集合,存储在服务器上;本地邮件样本库,包括垃圾邮件和合法邮件的邮件样本集合,存储在用户PC机上;
2、两个垃圾邮件的判定谱,存储在用户的PC机上,它包括:中央规则库,即公共垃圾邮件识别特征谱,从中央邮件样本库中形成表征垃圾邮件和合法邮件的字符概率集合;本地规则库,即本地垃圾邮件识别特征谱,从本地邮件样本库中形成表征垃圾邮件和合法邮件的字符概率集合;
3、两个自适应引擎,存储在用户的PC机上,它包括:中央垃圾邮件判定引擎,利用该引擎自动分析邮件,利用中央规则库计算该邮件的分值;本地垃圾邮件判定引擎,利用该引擎自动分析邮件,利用本地规则库计算该邮件的分值;
4、三个阀值:垃圾邮件样本判定阀值,当邮件的分值大于该阀值时,该邮件可作为本地垃圾邮件样本;合法邮件样本判定阀值,当邮件的分值小于该阀值时,该邮件可作为本地合法邮件样本;垃圾邮件判定阀值,当邮件的分值大于该阀值邮件时,该邮件可判定为垃圾邮件,反之则判定为合法邮件;
5、一个邮件处理***,该***处理邮件的步骤是:
(i)用户接收邮件;
(ii)自动装载中央规则库和本地规则库;
(iii)利用中央规则库,根据中央垃圾邮件判定引擎计算该邮件的分值;
(iv)利用本地规则库,根据本地垃圾邮件判定引擎计算该邮件的分值;
(v)综合上述步骤(iii)和(iv)的结果,利用朴素贝叶斯(Naive Bayesian)概率公式计算该邮件的分值;当该分值大于或者等于垃圾邮件判定阀值时,则将该邮件归为垃圾邮件,存入邮件隔离区内;当该分值小于垃圾邮件判定阀值时,则将该邮件归为合法邮件,存入收件箱内;当该分值大于垃圾邮件样本判定阀值时,则将该邮件作为垃圾邮件存入本地邮件样本库中,进行自学习形成新的本地规则库;当该分值小于合法邮件样本判定阀值时,则将该邮件作为合法邮件存入本地邮件样本库中,进行自学习形成新的本地规则库;当该分值介于合法邮件样本判定阀值和垃圾邮件样本判定阀值之间时,则该邮件不存入本地邮件样本库;
6、中央规则库定期自动更新,包括中央邮件样本库的自动更新,自动形成新的中央规则库,用户的PC机自动从服务器上下载新的中央规则库;
7、本地规则库自学习,包括本地邮件样本库的自动更新,或者本地邮件样本库的手动更新,自动形成新的本地规则库。
本发明所述的一种自适应、安全过滤垃圾邮件的方法,具有以下优点:(1)基于邮件内容过滤,对邮件内容进行智能分析,判断是否为垃圾邮件,能够有效降低对合法邮件的误判率。(2)能够充分利用中央规则库提高垃圾邮件的杀除概率,同时能够根据对本地用户的私有信息特征提取降低合法邮件的误杀率。
(3)能够进行自学习,可以根据当前垃圾邮件的特征自动生成检测该垃圾邮件的特征码,从而有效抵御垃圾邮件制造者新的技术。(4)用户可以参与垃圾邮件的判定,提高自学习的效率。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1是应用本发明的方法用户接收邮件的示意图;
图2是本发明邮件处理***处理邮件的流程图;
图3是本发明所述的方法中本地规则库的自学习流程图。
具体实施方式
根据中国互联网协会对垃圾邮件的定义,满足下列四个条件中任何一条均可被称为垃圾邮件:
1、收件人事先没有提出要求或者同意接受的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件。
2、收件人无法拒收的电子邮件。
3、隐藏发件人身份、地址、标题等信息的电子邮件。
4、含有虚假的信息源、发件人、路由等信息的电子邮件。本发明所述的垃圾邮件与中国互联网协会所定义的垃圾邮件是一致的。
本发明所述的一种自适应、安全过滤垃圾邮件的方法,其核心是:需要两个垃圾邮件判定谱,即中央规则库和本地规则库。其中,中央规则库在服务器上自动形成,本地规则库在用户PC机上自动形成。
在用户PC机上需要拥有一个自动判定邮件的邮件处理***,利用该***判断接收的邮件是否为垃圾邮件。
中央规则库和本地规则库自动学习更新,即在服务器***规则库自动更新,在用户PC机上本地规则库自动更新,用户PC机自动定期获得最新的中央规则库。
图1是应用本发明的方法用户接收邮件的示意图。
目前,应用于互联网上的邮件服务器主要是SMTP服务器和POP(邮局协议,Post Office Protocol)或者IMAP(互联网邮件访问协议,Internet MessageAccess Protocol)服务器。SMTP服务器和POP或者IMAP服务器的作用,可用邮政***来比拟。SMTP服务器相当于邮局,POP或者IMAP服务器相当于邮递员。邮局的功能是:接受用户投递的邮件,并将其发送到其他邮局去;接受从其他邮局发送过来的邮件,并将其分类整理,存放在用户邮箱里。邮递员的职责是将邮件从用户邮箱中取出,并递送到用户的家里。电子邮件***的工作流程大致如此。本发明所述的邮件服务器是POP或者IMAP服务器或者其他相当于邮递员角色的模块,而不是SMTP服务器或者其他相当于邮局的模块。
图1中邮件处理***安装在用户PC机上,包括中央规则库和本地规则库、一个自动判定邮件的邮件处理***,以及本地规则库和中央规则库的自动更新。经过邮件处理***的处理后,垃圾邮件存放在垃圾邮件文件夹,即邮件隔离区内;合法邮件存放在合法邮件文件夹,即收件箱内。
为了准确识别垃圾邮件,首先形成两个垃圾邮件判定谱,即公共垃圾邮件识别特征谱和本地垃圾邮件识别特征谱,具体步骤如下:
1、收集中央邮件样本库,包括垃圾邮件和合法邮件的邮件样本集合,由服务器自动收集;
2、对中央邮件样本库中的邮件内容(包括邮件头、邮件正文)进行统计分析,得到代表邮件为垃圾邮件和合法邮件的字符概率;
采用贝叶斯定理(Bayesian Theorem),其字符概率计算方法如下:
定义:字符(Token)为邮件中包括单词(英文)、数字、字(中文)、词(中文)等内容的独立字串,比如“¥123”,“Money”;
设A事件表示邮件为垃圾邮件;
A事件表示邮件为合法邮件;
P(A)表示邮件为垃圾邮件的概率;
P( A)表示邮件为合法邮件的概率,并且假定P(A)=P( A)=0.5(类似于投硬币,每次每一面出现的概率均为0.5);
ti,(i=1,2,...,n)表示第i个字符(Token);
NS表示中央邮件样本库中垃圾邮件的样本集合数;
NI表示中央邮件样本库中合法邮件的样本集合数;
Nsti表示垃圾邮件样本中出现字符ti的总次数;
Niti表示合法邮件样本中出现字符ti的总次数;
P(ti|A)表示字符ti在垃圾邮件中出现的概率;
P(ti| A)表示字符ti在合法邮件中出现的概率;
P(A|ti)表示在邮件中出现字符ti时,该邮件为垃圾邮件的概率;
P( A|ti)表示在邮件中出现字符ti时,该邮件为合法邮件的概率;
则:
P ( t i | A ) = Nst i NS , 如果Nsti大于NS,则Nsti就等于NS
P ( t i | A ‾ ) = Nit i NI , 如果Niti大于NI,则Niti就等于NI
根据贝叶斯定理(Bayesian Theorem,即若B1,B2,B3......构成一个完备的事件组,且它们都具有正概率,则对任一概率不为零的事件A,有:
P ( B i | A ) = P ( B i ) P ( A | B i ) Σ i = 1 n P ( B i ) · P ( A | B i ) , (i=1,2,3,...,n)),得到包含字符ti的邮件为垃圾邮件的概
P ( A | t i ) = P ( t i | A ) · P ( A ) P ( t i | A ) · P ( A ) + P ( t i | A ‾ ) · P ( A ‾ ) = P ( t i | A ) P ( t i | A ) + P ( t i | A ‾ )
包含字符ti的邮件为合法邮件的概率P( A|ti),即
P ( A ‾ | t i ) = 1 - P ( A | t i ) = P ( t i | A ‾ ) P ( t i | A ) + P ( t i | A ‾ )
3、对步骤2的结果进行分析,得到明显地表征垃圾邮件和合法邮件的字符概率集合,也就是概率集中在(1.0∽某个值)附近(这个范围表征垃圾邮件)或者(0.0∽某一个值)附近(这个范围表征合法邮件)的字符集合,形成中央规则库。
4、收集本地邮件样本库,包括垃圾邮件和合法邮件的邮件样本集合,可以通过自动分析收到的邮件来收集本地邮件样本库,也可以通过手动收集邮件样本。
5、对本地邮件样本库中的邮件内容进行统计分析,得到代表邮件为垃圾邮件和合法邮件的字符概率。其中字符概率的计算方法同步骤2。
6、对步骤5的结果进一步分析,得到明显表征本地垃圾邮件和合法邮件的字符概率集合,也就是概率集中在(1∽某个值)附近(这个范围表征垃圾邮件)或者(0∽某一个值)附近(这个范围表征合法邮件)的字符集合,形成本地规则库。
然后,在用户PC机上,当用户接收到新邮件时,邮件处理***自动处理新邮件,识别该邮件是垃圾邮件,还是合法邮件。如图2所示,具体步骤如下:
1、用户邮件客户端启动,自动装载中央规则库(即公共垃圾邮件识别特征谱)和本地规则库(即本地垃圾邮件识别特征谱),***进入待处理邮件状态;
2、当用户收到新的邮件时,首先,启动中央垃圾邮件判定引擎,根据中央规则库,提取该邮件所包含的中央字符集合(即该邮件和中央规则库中共同存在的字符集合);然后,根据提取的中央字符集合,利用朴素贝叶斯概率公式计算该邮件为垃圾邮件的概率P1;其次,启动本地垃圾邮件判定引擎,根据本地规则库,提取该邮件所包含的本地字符集合(即该邮件和本地规则库中共同存在的字符集合),并根据提取的本地字符集合,利用朴素贝叶斯概率公式计算该邮件为垃圾邮件的概率P2;最后再次利用朴素贝叶斯概率公式计算该邮件的联合概率P=F(P1,P2);
利用朴素贝叶斯(Naive Bayesian)概率公式,P1的计算方法如下:
设A事件表示邮件为垃圾邮件;
ti,(i=1,2,...,N)表示第i个字符(Token),其中N表示中央规则库中字符的总数;
P(A|t1,t2,...,tn)表示在邮件中同时出现多个字符t1,t2,...,tn时,该邮件为垃圾邮件的概率;
由该邮件共得到n个字符集合,t1,t2,...,tn,这些字符在中央规则库中所对应的概率为P(A|t1),P(A|t2),...,P(A|tn)。由朴素贝叶斯概率公式可得:
Figure A20041001832700121
同理,可以计算得到P2和P,其中 P = F ( P 1 , P 2 ) = P 1 * P 2 P 1 * P 2 + ( 1 - P 1 ) * ( 1 - P 2 )
3、如果联合概率P大于或等于垃圾邮件判定阀值T,则判定该邮件为垃圾邮件,并将其存入垃圾邮件文件夹;
如果联合概率P小于垃圾邮件判定阀值T,则判定该邮件为合法邮件,并将其存入合法邮件文件夹;
4、启动本地规则库自学习引擎;
5、如果联合概率P大于垃圾邮件样本判定阀值Ts,则把该邮件作为垃圾邮件归入本地邮件样本库中,其所包含的字符集合作为垃圾邮件的信息存入本地邮件样本库;
如果联合概率P小于合法邮件样本判定阀值Ti,则把该邮件信息作为合法邮件归入本地邮件样本库中,其所包含的字符集合作为合法邮件的信息存入本地邮件样本库;
如果联合概率P介于合法邮件样本判定阀值和垃圾邮件样本判定阀值之间时,则该邮件不存入本地邮件样本库;
6、根据步骤5的结果,计算代表邮件为垃圾邮件和合法邮件的字符概率;
7、根据步骤6的结果,得到明显表征本地垃圾邮件和合法邮件的字符概率集合,形成新的本地规则库;
8、用户邮件客户端退出,中央规则库释放,本地规则库释放并保存新的本地规则库;
9、在一段时间后,用户客户端重新启动,自动向服务器发送信息,检查服务器上是否存在新版本的中央规则库,如果存在新的中央规则库,则提示用户是否下载更新;如果用户确认下载新的中央规则库,则自动下载,下载完毕后,自动关闭客户端并重启客户端,装载新的中央规则库;如果用户放弃下载新的中央规则库,则***直接进入待处理邮件状态。
为了及时准确的表征垃圾邮件的特征,在服务器上会周期性的形成新的中央规则库,供用户客户端下载更新。具体过程如下:
1、服务器自动收集新的垃圾邮件样本,更新中央邮件样本库;
2、服务器根据新的垃圾邮件集合提取新的垃圾邮件判别特征库;
3、根据新的垃圾邮件判别特征库和合法邮件特征库,形成新的中央规则库,供客户端机器下载;
4、重复上述过程,周期性地更新和提供中央规则库。
为了及时准确的表征垃圾邮件和合法邮件的特征,并智能识别垃圾邮件,降低合法邮件被误判为垃圾邮件的概率,在用户PC机上,本地规则库会被自动更新。除了在邮件处理***中自动设定待学习的本地合法邮件和本地垃圾邮件样本,从而更新本地规则库外,用户还可以手动设定本地邮件样本库,即手动加入本地合法邮件和本地垃圾邮件,来更新本地规则库。如图3所示,本地规则库更新的过程,具体步骤如下:
1、用户邮件客户端启动,自动装载中央规则库和本地规则库,***进入待处理邮件状态;
2、当用户收到新的邮件时,首先,启动中央垃圾邮件判定引擎,根据中央规则库,提取该邮件所包含的中央字符集合(即该邮件和中央规则库中共同存在的字符集合);然后,根据提取的中央字符集合,利用朴素贝叶斯概率公式计算该邮件为垃圾邮件的概率P1;其次,启动本地垃圾邮件判定引擎,根据本地规则库,提取该邮件所包含的本地字符集合(即该邮件和本地规则库中共同存在的字符集合),并根据提取的本地字符集合,利用朴素贝叶斯概率公式计算该邮件为垃圾邮件的概率P2;最后再次利用朴素贝叶斯概率公式计算该邮件的联合概率P=F(P1,P2);
3、启动本地规则库自学习引擎;
4、如果联合概率P大于垃圾邮件样本判定阀值Ts,则把该邮件作为垃圾邮件归入本地邮件样本库中,其所包含的字符集合作为垃圾邮件的信息存入本地邮件样本库;
如果联合概率P小于合法邮件样本判定阀值Ti,则把该邮件信息作为合法邮件归入本地邮件样本库中,其所包含的字符集合作为合法邮件的信息存入本地邮件样本库;
5、用户检查垃圾邮件所在文件夹是否存在对合法邮件的误判;如果发现误判则对其进行纠正,将该邮件归为合法邮件,并存入本地邮件样本库,其所包含的字符集合作为合法邮件的信息存入本地邮件样本库;
6、用户检查合法邮件所在文件夹是否存在垃圾邮件;如果存在则对其进行纠正,将该邮件归为垃圾邮件,并归入本地邮件样本库,其所包含的字符集合作为垃圾邮件的信息存入本地邮件样本库;
7、根据步骤4或步骤5或步骤6的结果,计算代表邮件为垃圾邮件和合法邮件的字符概率;
8、根据步骤7的结果,得到明显表征本地垃圾邮件和合法邮件的字符概率集合,形成新的本地规则库;
9、用户邮件客户端退出,中央规则库释放,本地规则库释放并将新的本地规则库保存在PC机上。
本发明利用中央规则库和本地规则库,通过对邮件内容智能分析,在最大程度过滤垃圾邮件的同时,防止合法邮件被误判为垃圾邮件,从而为用户使用电子邮件节省时间和精力。

Claims (5)

1.一种自适应、安全过滤垃圾邮件的方法,其特征在于:它包括:
(1)两个邮件样本库,即中央邮件样本库和本地邮件样本库:中央邮件样本库,包括垃圾邮件和合法邮件的邮件样本集合,存储在服务器上;本地邮件样本库,包括垃圾邮件和合法邮件的邮件样本集合,存储在用户PC机上;
(2)两个垃圾邮件的判定谱,存储在用户的PC机上,它包括:中央规则库,即公共垃圾邮件识别特征谱,从中央邮件样本库中形成表征垃圾邮件和合法邮件的字符概率集合;本地规则库,即本地垃圾邮件识别特征谱,从本地邮件样本库中形成表征垃圾邮件和合法邮件的字符概率集合;
(3)两个自适应引擎,存储在用户的PC机上,它包括:中央垃圾邮件判定引擎,利用该引擎自动分析邮件,利用中央规则库计算该邮件的分值;本地垃圾邮件判定引擎,利用该引擎自动分析邮件,利用本地规则库计算该邮件的分值;
(4)三个阀值:垃圾邮件样本判定阀值,当邮件的分值大于该阀值时,该邮件可作为本地垃圾邮件样本;合法邮件样本判定阀值,当邮件的分值小于该阀值时,该邮件可作为本地合法邮件样本;垃圾邮件判定阀值,当邮件的分值大于该阀值邮件时,该邮件可判定为垃圾邮件,反之则判定为合法邮件;
(5)一个邮件处理***,该***处理邮件的步骤是:
(i)用户接收邮件;
(ii)自动装载中央规则库和本地规则库;
(iii)利用中央规则库,根据中央垃圾邮件判定引擎计算该邮件的分值;
(iv)利用本地规则库,根据本地垃圾邮件判定引擎计算该邮件的分值;
(v)综合上述步骤(iii)和(iv)的结果,利用朴素贝叶斯概率公式计算该邮件的分值;当该分值大于或者等于垃圾邮件判定阀值时,则将该邮件归为垃圾邮件,存入邮件隔离区内;当该分值小于垃圾邮件判定阀值时,则将该邮件归为合法邮件,存入收件箱内;当该分值大于垃圾邮件样本判定阀值时,则将该邮件作为垃圾邮件存入本地邮件样本库中,进行自学习形成新的本地规则库;当该分值小于合法邮件样本判定阀值时,则将该邮件作为合法邮件存入本地邮件样本库中,进行自学习形成新的本地规则库;当该分值介于合法邮件样本判定阀值和垃圾邮件样本判定阀值之间时,则该邮件不存入本地邮件样本库;
(6)中央规则库定期自动更新,包括中央邮件样本库的自动更新,自动形成新的中央规则库,用户的PC机自动从服务器上下载新的中央规则库;
(7)本地规则库自学习,包括本地邮件样本库的自动更新,或者本地邮件样本库的手动更新,自动形成新的本地规则库。
2.如权利要求1所述的一种自适应、安全过滤垃圾邮件的方法,其特征在于:形成公共垃圾邮件识别特征谱和本地垃圾邮件识别特征谱的具体步骤如下:
(1)收集中央邮件样本库,包括垃圾邮件和合法邮件的邮件样本集合,由服务器自动收集;
(2)对中央邮件样本库中的邮件内容进行统计分析,得到代表邮件为垃圾邮件和合法邮件的字符概率;
(3)对步骤2的结果进行分析,得到明显地表征垃圾邮件和合法邮件的字符概率,形成中央规则库;
(4)收集本地邮件样本库,包括垃圾邮件和合法邮件的邮件样本集合,可以通过自动分析收到的邮件来收集本地邮件样本库,也可以通过手动收集邮件样本;
(5)对本地邮件样本库中的邮件内容进行统计分析,得到代表邮件为垃圾邮件和合法邮件的字符概率;
(6)对步骤5的结果进一步分析,得到明显表征本地垃圾邮件和合法邮件的字符概率,形成本地规则库。
3.如权利要求1所述的一种自适应、安全过滤垃圾邮件的方法,其特征在于:在服务器上更新中央规则库的具体过程如下:
(1)服务器自动收集新的垃圾邮件样本,更新中央邮件样本库;
(2)服务器根据新的垃圾邮件集合提取新的垃圾邮件判别特征库;
(3)根据新的垃圾邮件判别特征库和合法邮件特征库,形成新的中央规则库,供客户端机器下载;
(4)重复上述过程,周期性地更新和提供中央规则库。
4.如权利要求1所述的一种自适应、安全过滤垃圾邮件的方法,其特征在于:用户可以检查垃圾邮件所在文件夹是否存在对合法邮件的误判;如果发现误判则对其进行纠正,将该邮件归为合法邮件,并存入本地邮件样本库,其所包含的字符集合作为合法邮件的信息存入本地邮件样本库;
5.如权利要求1所述的一种自适应、安全过滤垃圾邮件的方法,其特征在于:用户可以检查合法邮件所在文件夹是否存在垃圾邮件;如果存在则对其进行纠正,将该邮件归为垃圾邮件,并归入本地邮件样本库,其所包含的字符集合作为垃圾邮件的信息存入本地邮件样本库。
CN 200410018327 2004-05-13 2004-05-13 一种自适应、安全过滤垃圾邮件的方法 Pending CN1696943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410018327 CN1696943A (zh) 2004-05-13 2004-05-13 一种自适应、安全过滤垃圾邮件的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410018327 CN1696943A (zh) 2004-05-13 2004-05-13 一种自适应、安全过滤垃圾邮件的方法

Publications (1)

Publication Number Publication Date
CN1696943A true CN1696943A (zh) 2005-11-16

Family

ID=35349666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410018327 Pending CN1696943A (zh) 2004-05-13 2004-05-13 一种自适应、安全过滤垃圾邮件的方法

Country Status (1)

Country Link
CN (1) CN1696943A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008037207A1 (fr) * 2006-09-30 2008-04-03 Alibaba Group Holding Limited Procédé et dispositif de filtrage d'informations indésirables
CN101094197B (zh) * 2006-06-23 2010-08-11 腾讯科技(深圳)有限公司 反垃圾邮件的方法及其邮件服务器
CN1991879B (zh) * 2005-12-29 2011-08-03 腾讯科技(深圳)有限公司 一种垃圾邮件的过滤方法
CN102377690A (zh) * 2011-10-10 2012-03-14 网易(杭州)网络有限公司 反垃圾邮件网关***及方法
CN1987909B (zh) * 2005-12-22 2012-08-15 腾讯科技(深圳)有限公司 一种提纯贝叶斯垃圾邮件的方法、***及装置
CN103198217A (zh) * 2013-03-26 2013-07-10 X·Q·李 一种故障检测方法及***
CN103324617A (zh) * 2012-03-20 2013-09-25 腾讯科技(深圳)有限公司 一种历史垃圾消息的识别方法及***
CN103595583A (zh) * 2013-11-12 2014-02-19 国家电网公司 基于内网新邮件平台的嵌入式邮件安全监控方法
CN107171948A (zh) * 2017-07-04 2017-09-15 彩讯科技股份有限公司 一种过滤垃圾邮件的方法、装置及邮件服务器
CN111291272A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 文件识别方法和装置以及电子设备

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1987909B (zh) * 2005-12-22 2012-08-15 腾讯科技(深圳)有限公司 一种提纯贝叶斯垃圾邮件的方法、***及装置
CN1991879B (zh) * 2005-12-29 2011-08-03 腾讯科技(深圳)有限公司 一种垃圾邮件的过滤方法
CN101094197B (zh) * 2006-06-23 2010-08-11 腾讯科技(深圳)有限公司 反垃圾邮件的方法及其邮件服务器
US8326776B2 (en) 2006-09-30 2012-12-04 Alibaba Group Holding Limited Network-based method and apparatus for filtering junk messages
WO2008037207A1 (fr) * 2006-09-30 2008-04-03 Alibaba Group Holding Limited Procédé et dispositif de filtrage d'informations indésirables
CN102377690A (zh) * 2011-10-10 2012-03-14 网易(杭州)网络有限公司 反垃圾邮件网关***及方法
CN103324617A (zh) * 2012-03-20 2013-09-25 腾讯科技(深圳)有限公司 一种历史垃圾消息的识别方法及***
CN103198217A (zh) * 2013-03-26 2013-07-10 X·Q·李 一种故障检测方法及***
CN103198217B (zh) * 2013-03-26 2016-06-22 X·Q·李 一种故障检测方法及***
CN103595583A (zh) * 2013-11-12 2014-02-19 国家电网公司 基于内网新邮件平台的嵌入式邮件安全监控方法
CN103595583B (zh) * 2013-11-12 2017-07-28 国家电网公司 基于内网新邮件平台的嵌入式邮件安全监控方法
CN107171948A (zh) * 2017-07-04 2017-09-15 彩讯科技股份有限公司 一种过滤垃圾邮件的方法、装置及邮件服务器
CN107171948B (zh) * 2017-07-04 2020-08-25 彩讯科技股份有限公司 一种过滤垃圾邮件的方法、装置及邮件服务器
CN111291272A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 文件识别方法和装置以及电子设备

Similar Documents

Publication Publication Date Title
US10785176B2 (en) Method and apparatus for classifying electronic messages
US7664812B2 (en) Phonetic filtering of undesired email messages
US7930353B2 (en) Trees of classifiers for detecting email spam
US7930351B2 (en) Identifying undesired email messages having attachments
EP1484893B1 (en) Origination/destination features and lists for spam prevention
CN103441924B (zh) 一种基于短文本的垃圾邮件过滤方法及装置
US7899866B1 (en) Using message features and sender identity for email spam filtering
CN103136266A (zh) 邮件分类的方法及装置
CN1863170A (zh) 处理垃圾电子邮件的方法及计算机可读取存储媒体
CN101069175A (zh) 动态消息过滤
CN1517928A (zh) 允许综合反兜售信息的技术构架
CN100476852C (zh) 一种反垃圾电子邮件的方法
WO2005010692A2 (en) System and method for identifying and filtering junk e-mail messages or spam based on url content
CN1658572A (zh) 用于预防兜售信息的智能隔离
US20040143635A1 (en) Regulating receipt of electronic mail
CN101495969A (zh) 识别电子消息中的威胁
TW200949570A (en) Method for filtering e-mail and mail filtering system thereof
CN1760901A (zh) 电子邮件过滤***
CN102413076A (zh) 基于行为分析的垃圾邮件判定***
CN101330473A (zh) 一种多协议支持的网络垃圾信息过滤方法和装置
CN1696943A (zh) 一种自适应、安全过滤垃圾邮件的方法
US8880611B1 (en) Methods and apparatus for detecting spam messages in an email system
CN101217555A (zh) 一种智能反垃圾反病毒网关及其过滤方法
WO2001053965A1 (en) E-mail spam filter
US20020147783A1 (en) Method, device and e-mail server for detecting an undesired e-mail

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20051116