CN1976323A

CN1976323A - 一种基于兴趣认知的垃圾邮件识别方法及其***

Info

Publication number: CN1976323A
Application number: CNA2006101241744A
Authority: CN
Inventors: 皮佑国
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2006-12-12
Filing date: 2006-12-12
Publication date: 2007-06-06
Anticipated expiration: 2026-12-12
Also published as: CN100583840C

Abstract

本发明提供一种基于兴趣认知的垃圾邮件识别方法，包括下述步骤：1.个人兴趣认知知识库的建立和维护；2.概率计算和邮件属性评价；3.结果输出；一种实现上述方法的垃圾邮件识别***，包括分词部件、垃圾邮件概率计算部件、知识库部件、分类评价部件、属性评价输出部件等。本发明精确度好，智能化程度高，可达到较好的垃圾邮件过滤效果。

Description

一种基于兴趣认知的垃圾邮件识别方法及其***

技术领域

本发明属于计算机信息处理领域，具体说是一种在个人计算机中用于识别和过滤垃圾邮件的方法及其***。本技术用于个人计算机中对垃圾邮件识别和进行相应处理。

背景技术

近年来垃圾邮件激增，不但占用网络资源，影响邮件***的正常运行，也大大浪费邮件用户的资源和时间。当前，对垃圾邮件的过滤技术主要有：行为过滤(白名单和黑名单过滤)、规则过滤以及内容过滤。其中，白名单和黑名单过滤技术简单易行，但是需要实时更新白名单和黑名单，而且很难保证只有有限、固定的几个用户在发送垃圾邮件。基于规则的过滤方法，即设置一些规则，只要符合这些规则的一条或几条，就认为是垃圾邮件；这些规则通常有信头分析、群发过滤、关键字匹配、邮件内容的其他特征等；采用基于规则的过滤技术，确实能够在一定时间内很好地防范了垃圾邮件，但其不足之处在于规则都是人工指定的，需要人们不断去发现和总结、更新，人为因素比较多，一些没有经验的用户可能很难提供有效的规则；而且，手工制定规则比较耗时，准确率也受到了限制。内容过滤主要是文本分类，所谓文本分类，就是通过一定的算法，对输入文本进行分析，并根据结果将文本划分为正常邮件或者是垃圾邮件。在文本分类中，较多采用关键词过滤，即文件中包含有某些关键词，即认为该文件是垃圾邮件或者是正常邮件。更加先进的技术也开始用于反垃圾邮件。

申请号为200410009854的中国发明专利申请公开了一种“垃圾邮件过滤的方法和***”，这种技术将原始邮件库中的垃圾邮件和合法邮件分别表示为通用后缀树(GST)结构。对于新到达的邮件，通过每个文本位置的不定长统计，自动获得其在垃圾邮件集和合法邮件集中的出现频率，计算其与垃圾邮件集和合法邮件集的近似度，最终确定新到达邮件是垃圾邮件或者是正常邮件的属性。

申请号为200410018327的中国发明专利申请公开了“一种自适应、安全过滤垃圾邮件的方法”，这种方法建立中央和本地两个规则库；其中，中央规则库在服务器上自动形成，本地规则库在用户PC机上自动形成。在用户PC机上利用邮件处理***根据中央规则库和本地规则库计算所接收的邮件分值，判断接收的邮件是否为垃圾邮件。中央规则库和本地规则库自动学习更新，即在服务器***规则库自动更新，在用户PC机上本地规则库自动更新，用户PC机自动定期获得最新的中央规则库。对用户所接受的邮件内容经过智能分析，自动将合法邮件保留在收件箱，将垃圾邮件存放隔离区，在提高垃圾邮件识别率的同时降低合法邮件的误判率，从而使用户节省时间和精力。

申请号为200510114440的中国发明专利申请公开了“一种过滤垃圾邮件的方法”，先用DNA模式识别模块对输入的正常邮件和垃圾邮件集合进行模式识别，存入DNA模式库；再利用特征模式分词模块对邮件进行检测，检测流程依次为：对经过一定算法编码的被检邮件正文进行解码，识别其所包含的模式；对被检邮件进行DNA辅助分词，根据DNA模式库识别邮件正文及标题中所包含的特征模式，并将其标识出来；将经过上述处理的邮件正文及标题重新组装成满足特定要求的邮件，送至贝叶斯检测***；由贝叶斯检测***将经过上述处理的邮件进行识别，将不符合分类条件的邮件拦截下来。

本申请人认为：垃圾邮件是一种对接收者无用的邮件或者是接收者不感兴趣的邮件，但同样的一封邮件，对于不同的接收者可能具有不同的属性，一些接收者认为是有用的正常邮件，而另外一些接收者认为是垃圾邮件。遗憾的是截止目前的反垃圾邮件技术，包括上述提及的专利申请技术方案，都没有对接收者的工作和生活兴趣进行识别，不能形成一种基于兴趣认知的智能化垃圾邮件处理技术。

发明内容

本发明的目的在于克服现有技术的缺点和不足，提供一种基于兴趣认知的垃圾邮件识别方法；本方法从认知机理出发，通过对客户发送的邮件和对接收邮件的处理来认知客户的工作和生活兴趣，并根据该客户的上述工作和生活兴趣来过滤掉垃圾邮件，保存正常邮件。也可以和具它反垃圾邮件结合使用，在这种情况下，本方法输出一个代表邮件属性的指纹，以便***决策判断作为依据。

本发明的另一目的在于提供一种实现上述方法的基于兴趣认知的垃圾邮件识别***。

本发明的目的通过下技术方案实现：一种基于兴趣认知的垃圾邮件识别方法，包括下述步骤——

1.个人兴趣认知知识库的建立和维护

1.1通过最大限度地收集客户往来的邮件，包括客户发送出去的邮件和接收的邮件中已经被其它过滤***定性为垃圾邮件的邮件，以便认知客户的生活和工作兴趣。本发明首先将客户发送和接收的邮件的邮件主题、邮件内容采用自然语言理解的人工智能技术——分词技术分解为单词(中文分词)。

1.2以由1.1得到的单词为索引建立、更新和扩充知识库，对没有的单词进行添加并按1.3登记属性概率；对知识库中已经有的单词只是考虑新的事件重新计算并刷新其属性概率，实现知识库的积累和更新。在开始使用本发明时，知识库中的内容为零，通过对用户邮件的收集，在用户的指导下，建立知识库。并随着用户邮件的增加而逐步积累和更新知识。

1.3知识库中的属性概率按照如下规律确定并刷新：对发送出去的邮件中所有的单词，均记为出现在正常邮件中的样本；对接收邮件中的单词，在训练期内，按照客户确定的属性记录样本数，在训练期完成以后，按照***决策的属性记入样本数。

1.4对知识库单词出现的总样本数设定有阈值，以便对该单词的属性成熟度进行标识。仅当各个分词的总样本数高于这个阈值时，才容许结束训练期。

2.邮件属性概率计算和邮件属性评价

2.1按照1.1中得出的单词总数和1.2及1.3中得出的属性概率分别计算各单词在待评价邮件中出现的条件概率。

2.2利用2.1的结果利用贝叶斯分类公式计算邮件的属性概率。

2.3根据给定的阈值进行属性评价。

2.4在训练期内，将评价决策结果与客户的决策结果进行比较并修改决策阈值。仅当决策结果与客户决策结果达到接近时，才能结束训练期。

3.结果输出

3.1在本发明单独使用时，在训练期内显示评价的邮件属性指纹(属性概率)。在训练期结束后将垃圾邮件放入隔离区。

3.2在本发明与其它反垃圾邮件技术联合使用时，向指定接口输出邮件属性指纹(属性概率)。

步骤1.1中，将所述客户发送的邮件作为正常邮件且具有最高的权重；由于客户发送的邮件在一定程度上反映了该客户的工作和社会生活兴趣，所以本技术将客户的个人兴趣(语言特征分词)进行分析并建立相应的指纹库，同一分词的再次出现或多次出现将对该分词的指纹进行修正。

步骤1.1中，所述客户接收的邮件包括两类，一种是感兴趣的正常邮件，一种是不感兴趣的垃圾邮件。本发明采用有导师的训练学习，在训练期内，所述客户接收的邮件将要求用户给予定性，训练期结束后，将由***自动进行计算和评价来予以定性。被定性邮件的单词对将作为事件去重新计算该单词的属性概率。

步骤1.1中，所述分解为单词的步骤是将客户发送和接收的邮件的邮件主题、邮件内容关键字的词组、短语、句子、文段中的词分开。将中文词组、短语、句子、文段中的词分开技术称为中文分词技术。

步骤1.2中，所述知识积累和更新包括两个方面：(A)词的添加；当新的邮件进入时，***迅速按新邮件的词对词库进行检索，当词库中没有检索的词时，就将该词及其概率添加到知识库中。(B)词的属性概率更新；当新的邮件进入时，***迅速按新邮件的词对词库进行检索，当词库中已有检索的词时，就先前的概率调出，结合本次事件重新计算概率并按此刷新库中该词的概率。无论是哪种邮件(发送的邮件、接收的正常邮件和垃圾邮件)输入，在分词的过程中都要对库中的词进行检索，对特征库中没有的词，添加到库中；对库中已有的分词，将根据邮件的性质对该分词的概率进行重新计算并进行库维护。

步骤1.3中所述训练期，是从用户开始使用本发明的时刻开始的，所谓训练期的结束，有两个标志：一是一封邮件中的所有单词，出现次数(总样本数)最少的单词的总次数大于某一预先设定的阈值；二是***评价与训练期人为评价结果近似度超过另一预先设定的阈值。当一封邮件满足上述两个条件时，***将不提示客户自动进行定性。当用户有新的社会生活爱好或者是工作变换是，邮件中出现的单词不能满足上述条件，***自动进入训练期

一种实现上述方法的基于兴趣认知的垃圾邮件识别***，包括分词部件、垃圾邮件概率计算部件、知识库部件、分类评价部件、属性评价输出部件，所述分词部件同时与垃圾邮件概率计算部件及分类评价部件相连接，垃圾邮件概率计算部件与分类评价部件相互连接，两者同时与知识库部件连接，所述属性评价输出部件与分类评价部件相连接。

本发明的出发点是：本发明认为垃圾邮件是因人而异的。例如，对于一个关于人力资源培训的广告性宣传邮件对于从事人力资源管理的人是合法邮件，他们可以从中获得相应的信息和知识，而对于技术人员、财务人员和其它人员则是无用的垃圾邮件。同样，股票知识和信息的邮件对于股民是有用信息，是合法邮件；而对于非股民和对股市没有兴趣的人就是垃圾邮件。因此，判断一封邮件是否是垃圾邮件，就应该对客户的工作和生活兴趣进行认知。电子邮件中的邮件主题、邮件内容都是由词来表达的，本发明采用中文分词技术将邮件的主题、内容部分的关键字分开成单词，那么这些单词将反映客户的工作和生活的兴趣特征，如果某些词在客户发出和接收的正常邮件中出现的频率高，而在客户定性的垃圾邮件中出现的频率低，若在该客户再次接收的邮件中出现这个或这些词，则表明该邮件是合法邮件的可能性较大。因而，本发明的应用的程度取决于对个人兴趣认知的程度，而本发明采用与人的认知相同的机理来积累知识库，当采用本发明后，知识库里的知识像婴儿一样开始积累，并逐渐累积成可有效评价邮件并形成邮件指纹的词库，利用所述邮件指纹能够描述邮件的性质(垃圾邮件或正常邮件)。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明最大的优点是切合客户的实际，对邮件使用客户的个人生活和工作兴趣进行智能认知，本发明不要求一定采用垃圾邮件语料库(也可以采用作为初始的单词属性)，而是由个人进行训练形成知识库，因此人性化特点突出。从效果上讲，就能有效地过滤垃圾邮件和有效地保存合法邮件。

(2)本发明的个人生活和工作兴趣知识库，采用适时的学习和刷新方法，对客户接受和发送的每一封邮件都作为学习的过程，对上述每一封邮件所包含的单词的出现，都作为事件予以统计。因此知识库是一个连续学习和刷新的知识库，这将使得垃圾邮件的过滤效果在不断提高的基础上持续保持。

(3)本发明对知识库采用有导师的机器学习，在开始使用本发明时，用户就象没有使用本发明一样进行操作，不同的是对每一封接受的邮件，***都将向用户提问其属性，接受用户导师的指导。当对一封接收的邮件已经达到结束训练期的要求时，***会自动过滤掉评价为垃圾邮件的邮件，对合法的邮件予以保存，但不在向用户提问。在本发明过滤器已经评价为合法而获得通过的邮件，用户认为是过滤漏掉的垃圾邮件，则可以在删除时注明，***会自动接受指导改变知识库中的事件属性。这种方式更加贴近客户，保证了过滤的效果。

(4)本发明对于训练期和工作期的界线是诚实和智能的，***不是截然分为训练期和工作期，而是诚实地知之为知之，不知为不知。当一封邮件的内容，***知识库有足够的知识予以评价和决策时，***就决策和处理；当一封邮件的内容，***知识库没有足够的知识予以评价和决策时，***就通过向用户提问来进行学习。其突出的优点在于，更加细致地保证了过滤效果。同时当客户的生活和工作兴趣变化时，能够与客户一道适应新的环境。即便在客户的生活和工作兴趣变化时，也能保证反映客户兴趣的过滤效果。

(5)本发明是基于邮件内容的过滤方法，且在其中又属于基于统计的过滤方法，但本发明不排斥其它的方法，可以与其它的过滤方法结合使用。例如，利用黑名单和白名单等规则的方法过滤后，本发明再对通过上述过滤的邮件进行内容过滤，在原有的基础上大大提高了过滤的效果。

附图说明

图1是本发明方框流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

图1示出了本发明***的结构，由图1可见，本基于个人兴趣认知的垃圾邮件识别***包括分词部件(4)、垃圾邮件概率计算部件(5)、知识库(6)、分类评价部件(7)、属性评价输出部件(8)，所述分词部件同时与垃圾邮件概率计算部件及分类评价部件相连接，垃圾邮件概率计算部件与分类评价部件相互连接，两者同时与知识库连接，所述属性评价输出部件与分类评价部件相连接。

本***实现的基于兴趣认知的垃圾邮件识别方法的实施过程具体如下：

1、邮件采集

本发明将客户通过客户邮箱发送和接收的邮件全部采样，用作认知和积累客户的生活和工作兴趣知识。显然，客户发出的的邮件对该客户来说是合法邮件，如果对事件要加权，则客户发送的邮件具有最高的权重。如果客户已经使用了其它垃圾邮件过滤器，则接收的邮件也将分成两种：已经定性为垃圾邮件的邮件和待定性的邮件。图1中部件1接收已经定性为垃圾邮件的这类邮件，如果客户没有使用其它垃圾邮件过滤器，则***中就没有部件1。部件2接收未被其它垃圾邮件过滤器过滤掉的邮件，或者说是其它过滤器通过的正常邮件。如果客户没有使用其它垃圾邮件过滤器，则部件2要接收全部接收的邮件。部件3是接收客户发送的邮件。上述三个部件接收上述三种来源的邮件后，都将收到的邮件送到分词部件4。上述三种邮件接收采用相应的复制技术。

2、知识库的建立和维护

本发明将利用认知机理建立符合客户工作和生活兴趣的知识库，客户的上述兴趣将反映在其发送和接收的邮件中，而反映邮件内容的是组成邮件头和邮件体的句子、短语的词在合法邮件和在垃圾邮件中出现的频率。本发明首先将上述接收和发送的邮件经过分词处理而成为单词，然后统计这些词分别出现在垃圾邮件和合法邮件中出现的频率，形成该词的属性概率。在运行过程中，上述知识库随着邮件的增加不断学习和更新。

部件4是分词部件，其功能是将由部件1、部件2和部件3送来的邮件的邮件主题、邮件内容的词组、短语、句子、文段中的词分开成为单词。然后将上述邮件的单词一一送入部件5进行处理。

部件5是单词属性计算部件，它主要根据部件4提供的单词的属性概率进行计算并对知识库进行维护。具体的维护操作包括：(A)词的添加；***按分词处理得到的单词对知识库6进行检索，当词库中没有检索的词时，就将该词及其概率添加到知识库6中。(B)单词属性概率的更新；当知识库6中已有被检索的词时，就将先前的概率调出，结合本次事件重新计算概率并按此刷新库中该词的概率。要建立或是维护知识库中的概率时，对发送邮件中出现的单词，当前事件的属性为合法，对已经由其它过滤器定性的垃圾邮件，当前事件的属性为非法，对于接收的未定性邮件的属性，将根据决策部件7的评价决策结果进行事件的定性。因此，部件5的输入来自部件4、6和7。输出到部件6。

部件5在计算每一个单词的概率的同时，还对该词出现的总次数进行标识，该标识能够表明该词出现的总次数是否达到预先设定的结束训练期的次数并存入单词属性知识库6。

部件6是单词属性知识库，其功能是存储基于个人兴趣的知识。实际上就是存储单词及其属性概率。部件6接受部件5和部件7的查询，也接受部件5的信息写入。

3、分类评价决策

本发明利用分类评价部件7对邮件的内容的属性进行计算和属性决策。分类评价部件7的功能是对邮件进行分类决策。具体操作流程为：对接收的邮件(来自部件1和部件2)，经分词部件4分成单词后，进入分类评价部件7，分类评价部件7首先从知识库中调出各个单词词的属性概率，然后按照统计决策方法贝叶斯(Bayes)等分类方法(也可以是如KNN、SVM、Winnow、Rocchio、)计算邮件的属性。属性是以概率的形式来表示的，部件7中有一个预先设定的评价标准，当计算的概率达到该评价标准时决策为合法邮件，否则为垃圾邮件。因此，部件7接收部件4送来的单词和从知识库部件6提取单词的属性概率。部件7的评价结果分别送到部件5和部件8，部件5根据部件7的评价结果重新计算单词的属性概率并刷新知识库。部件8将分类评价结果以适当的形式输出。

4、分类评价输出

分类评价输出由评价输出部件8实现。评价输出部件8的功能是将分类评价部件7的决策结果以适当的形式输出。

对于已被过滤掉的邮件的评价是复核，要根据一定的权重考虑过滤结果，只有当本次决策计算属于正常邮件的概率达到较高的程度(概率阈值预先设定)时才给予提示，否则不作实质性输出。

对接收邮件中尚未定性邮件的输出处理是部件8的主要功能。从***构成方面，本发明可以分为单独使用和与其它过滤方法集成使用。单独使用或者与其它过滤器以串行方式使用时输出为决策结果，即是合法邮件或者垃圾邮件。所述与其它过滤器串行方式使用中的过滤器是指在邮件进入本发明的过滤器之前的过滤器或本过滤器过滤之后再进入的过滤器。集成使用方式是指多种过滤方法分别进行计算，集成过滤器根据各种方法计算结果再按一定规则综合进行属性决策评价的使用方式。在集成使用方式中，本发明过滤器输出的是属性概率或属性指纹。

从本发明过滤器的工作状态看，本发明过滤器可以分为训练期和工作期两种状态。进入工作期有两个条件，一是一封邮件中所有单词出现的总次数将超过预先设定的最少次数即从知识库中检索的概率中有没有总样本数尚未达到预先设定的最少次数的概率，二是本发明过滤器的评价结果与客户评价结果已经达到预先设定的近似度。本部件在每一次从部件4接收邮件单词时都对这两个标志进行检测。

在训练期，本部件的功能是：向客户提问并记录并将客户决策与部件7的决策进行比较，确定是否进入工作期的第二个标志。按照客户的选择输出。单独使用本发明过滤器时删除或隔离垃圾邮件，保存合法邮件。在集成使用时输出最高权重的指纹分数。

在工作期，本部件的功能是：不再向客户提问，直接输出部件7的决策结果。单独使用本发明过滤器时删除或隔离垃圾邮件，保存合法邮件。在集成使用时输出部件7所计算的指纹分数。

Claims

1、一种基于兴趣认知的垃圾邮件识别方法，其特征在于包括下述步骤：

1.个人兴趣认知知识库的建立和维护

1.1通过最大限度地收集客户往来的邮件，认知客户的生活和工作兴趣；将客户邮件的邮件主题、邮件内容分解为单词；

1.2以由1.1得到的单词为索引建立、更新和扩充知识库，对没有的单词进行添加并按1.3登记属性概率；对知识库中已经有的单词只是考虑新的事件重新计算并刷新其属性概率，实现知识库的积累和更新；

1.3知识库中的属性概率按照如下规律确定并刷新：对发送出去的邮件中所有的单词，均记为出现在正常邮件中的样本；对接收邮件中的单词，在训练期内，按照客户确定的属性记录样本数，在训练期完成以后，按照***决策的属性记入样本数；

1.4对知识库单词出现的总样本数设定有阈值，仅当各个分词的总样本数高于这个阈值时，才容许结束训练期；

2.概率计算和邮件属性评价

2.1按照1.1中得出的单词总数和1.2及1.3中得出的属性概率分别计算各单词在待评价邮件中出现的条件概率；

2.2利用2.1的结果利用贝叶斯分类公式计算邮件的属性概率；

2.3根据给定的阈值进行属性评价；

2.4在训练期内，将评价决策结果与客户的决策结果进行比较并修改决策阈值，仅当决策结果与客户决策结果达到接近时，才能结束训练期；

3.结果输出。

2、根据权利要求1所述的基于兴趣认知的垃圾邮件识别方法，其特征在于：所述步骤1.1中，客户往来的邮件包括客户发送出去的邮件和接收的邮件中已经被其它过滤***定性为垃圾邮件的邮件，将客户发送的邮件作为正常邮件且具有最高的权重；对客户的个人兴趣进行分析并建立相应的指纹库，同一分词的再次出现或多次出现将对该分词的指纹进行修正。

3、根据权利要求1所述的基于兴趣认知的垃圾邮件识别方法，其特征在于：步骤1.1中，客户接收的邮件包括两类，一种是感兴趣的正常邮件，一种是不感兴趣的垃圾邮件；采用有导师的训练学习对接收的邮件进行处理，在训练期内，所述客户接收的邮件将要求用户给予定性，训练期结束后，由***自动进行计算和评价来予以定性；被定性邮件的单词对将作为事件去重新计算该单词的属性概率。

4、根据权利要求1所述的基于兴趣认知的垃圾邮件识别方法，其特征在于：步骤1.1中，所述分解为单词的步骤是将客户发送和接收的邮件的邮件主题、邮件内容关键字的词组、短语、句子、文段中的词分开。

5、根据权利要求1所述的基于兴趣认知的垃圾邮件识别方法，其特征在于：步骤1.2中，所述知识库的积累和更新包括两个方面：(A)词的添加；当新的邮件进入时，***迅速按新邮件的词对词库进行检索，当词库中没有检索的词时，就将该词及其概率添加到知识库中；(B)词的属性概率更新；当新的邮件进入时，***迅速按新邮件的词对词库进行检索，当词库中已有检索的词时，就先前的概率调出，结合本次事件重新计算概率并按此刷新库中该词的概率。

6、根据权利要求1所述的基于兴趣认知的垃圾邮件识别方法，其特征在于：步骤1.3中所述训练期，是从用户开始使用本发明的时刻开始的，所谓训练期的结束，有两个标志：一是一封邮件中的所有单词，出现次数最少的单词的总次数大于某一预先设定的阈值；二是***评价与训练期人为评价结果近似度超过另一预先设定的阈值；当一封邮件满足上述两个条件时，***将不提示客户自动进行定性；当用户有新的社会生活爱好或者是工作变换是，邮件中出现的单词不能满足上述条件，***自动进入训练期。

7、根据权利要求1所述的基于兴趣认知的垃圾邮件识别方法，其特征在于：步骤3.结果输出包括下述步骤

3.1在本发明单独使用时，在训练期内显示评价的邮件属性指纹；在训练期结束后将垃圾邮件放入隔离区；

3.2在本发明与其它反垃圾邮件技术联合使用时，向指定接口输出邮件属性指纹。

8、一种实现权利要求1～7任一项所述方法的基于兴趣认知的垃圾邮件识别***，其特征在于：包括分词部件、垃圾邮件概率计算部件、知识库部件、分类评价部件、属性评价输出部件，所述分词部件同时与垃圾邮件概率计算部件及分类评价部件相连接，垃圾邮件概率计算部件与分类评价部件相互连接，两者同时与知识库部件连接，所述属性评价输出部件与分类评价部件相连接。