CN103812826A

CN103812826A - 垃圾邮件识别方法和识别、以及过滤

Info

Publication number: CN103812826A
Application number: CN201210442421.0A
Authority: CN
Inventors: 于洪涌; 郭涛; 张京晖
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2012-11-08
Filing date: 2012-11-08
Publication date: 2014-05-21

Abstract

本发明公开了一种基于用户通信行为的垃圾邮件识别方法和识别***、以及过滤***，涉及反垃圾邮件技术领域。其中方法包括提取接收的电子邮件的发件人和收件人的电子邮件地址；根据发件人和收件人的电子邮件地址，在用户通信系数库中查找是否存在该发件人相对于该收件人的用户通信系数，用户通信系数基于用户通信行为构建，表示该收件人与该发件人的联系程度；如果存在对应的用户通信系数，根据用户通信系数确定电子邮件对该收件人来说是否为垃圾邮件。这种基于用户通信行为的垃圾邮件识别方案不宜被规避，并且充分考虑用户个性化的通信关系，提高了垃圾邮件识别和过滤的准确性。

Description

垃圾邮件识别方法和识别***、以及过滤***

技术领域

本发明涉及反垃圾邮件技术领域，特别涉及一种基于用户通信行为的垃圾邮件识别方法和识别***、以及过滤***。

背景技术

电子邮件是目前互联网用户的基础应用之一。垃圾电子邮件一般来说是指未经用户许可就强行发送到用户的邮箱中的任何电子邮件。2010年12月监测数据显示，全球每天发送的垃圾电子邮件数量约为500亿个。垃圾邮件的内容包括推销广告、成人广告、赚钱信息、以及包含电脑病毒等破坏性的电子邮件。因此各大邮件提供商都把提升电子邮件反垃圾邮件效果作为提升邮箱用户体验的重要关注点。

传统的反垃圾邮件***基于邮件本身的特征，如基于关键字、或邮件结构等定义邮件特征，然后提取新邮件的相关内容，并将提取的内容与定义的邮件特征进行比较，根据匹配程度识别垃圾邮件。对于垃圾邮件可以进行拦截处理。

上述传统的基于邮件本身特征识别垃圾邮件的方法，主要存在以下缺点：

首先，垃圾邮件制造者通过关键字变化、邮件结构变更等方式可以很容易地规避，使得垃圾邮件识别的准确性较低；

其次，对于同一封邮件部分用户看做垃圾邮件，部分用户可能看做正常邮件，传统一刀切的垃圾邮件过滤方式，没有考虑用户间的差异，可能会影响电子邮件用户的正常使用。

发明内容

本发明实施例所要解决的一个技术问题是：提供一种垃圾邮件识别方法和识别***、以及过滤***，以解决传统垃圾邮件识别准确性低和一刀切的过滤方式影响用户使用的问题。

根据本发明实施例的一个方面提供的一种垃圾邮件识别方法，包括：

提取接收的电子邮件的发件人和收件人的电子邮件地址；根据发件人和收件人的电子邮件地址，在用户通信系数库中查找是否存在该发件人相对于该收件人的用户通信系数，用户通信系数基于用户通信行为构建，表示该收件人与该发件人的联系程度；如果存在对应的用户通信系数，根据所述用户通信系数确定所述电子邮件对该收件人来说是否为垃圾邮件。

作为一种示例性的实施方式，在接收电子邮件之前，还包括基于用户通信行为信息建立用户通信行为向量库和用户通信系数库的操作，具体包括：采集用户通信行为信息；根据采集的用户通信行为信息形成用户通信行为向量，并将用户通信行为向量保存到用户通信行为向量库中；根据用户通信行为向量形成用户通信系数，并将用户通信系数保存到用户通信系数库中。

作为一种示例性的实施方式，所述采集用户通信行为信息的操作具体包括：接收用户通过终端上传的用户通信行为信息，所述用户通信行为信息包括联系人邮箱和电话号码的对应关系、黑白名单数据、语音通信数据、短信通信数据和电子邮件通信数据，所述黑白名单数据包括用户通讯录黑白名单，所述语音通信数据包括拒接电话、电话通话频率和主动拨出电话频率，所述短信通信数据包括短信通信频率、主动发送短信频率、设为垃圾短信的电话号码，所述电子邮件通信数据包括邮件收发频率、主动发送邮件频率、设为垃圾邮件的电子邮件地址。

作为一种示例性的实施方式，所述根据采集的用户通信行为信息形成用户通信行为向量的操作具体包括：从用户通信行为信息中提取用户的电子邮箱地址和电话号码，形成以该电子邮箱地址为主索引的用户通信行为向量，并将该用户的电话号码添加到该用户通信行为向量中；从用户通信行为信息中提取该用户的联系人的电子邮箱地址，形成以联系人的电子邮箱地址为副索引的该用户通信行为向量的子向量；根据用户通信行为信息形成子向量的分量。

作为一种示例性的实施方式，所述根据用户通信行为信息形成子向量的分量的操作具体包括：

根据采集的用户通信行为信息中的黑白名单数据，生成黑白名单分量，以表示联系人是该用户的黑名单用户或白名单用户；根据采集的用户通信行为信息中的语音通信数据，生成语音分量，以表示用户与联系人之间的通话频率和用户对联系人来电的响应积极程度；根据采集的用户通信行为信息中的短信通信数据，生成短信分量，以表示用户与联系人之间的短信联系频率和用户对联系人的短信的响应积极程度；根据采集的用户通信行为信息中的电子邮件通信数据，生成电子邮件分量，以表示用户与联系人之间的邮件联系频率和用户对联系人的邮件的响应积极程度。

作为一种示例性的实施方式，所述根据用户通信行为向量形成用户通信系数的操作具体为：将用户通信行为向量中用户与联系人子分量所属的各分量按照各自的权值进行加权求和运算；根据运算结果确定用户通信系数，以表示用户与该联系人的联系程度。

作为一种示例性的实施方式，所述根据所述用户通信系数确定所述电子邮件对该收件人来说是否为垃圾邮件还包括：根据所述电子邮件的关键字或邮件结构与预先设置的垃圾邮件的邮件特征进行匹配得到匹配结果；根据所述用户通信系数和所述匹配结果进行综合判断，以确定所述电子邮件对该收件人来说是否为垃圾邮件。

根据本发明实施例另一方面提供的一种垃圾邮件识别***，包括：

用户通信行为信息接收单元，用于接收用户通过终端上传的用户通信行为信息；用户通信行为向量库，用于根据用户通信行为信息形成用户通信行为向量，所述用户通信行为向量的子向量表示该用户的联系人，每个子向量包括各分量，以反映该联系人与用户在不同通信方式中的联系情况；用户通信系数库，用于根据用户通信行为向量形成用户通信系数，以表示用户与该联系人的联系程度；以及垃圾邮件综合处理单元，用于提取接收的电子邮件的发件人和收件人的电子邮件地址；根据发件人和收件人的电子邮件地址，在用户通信系数库中查找是否存在该发件人相对于该收件人的用户通信系数；如果存在对应的用户通信系数，根据所述用户通信系数确定所述电子邮件对该收件人来说是否为垃圾邮件。

作为一种示例性的实施方式，所述用户通信行为向量库包括：向量形成单元，用于从用户通信行为信息中提取用户的电子邮箱地址和电话号码，形成以该电子邮箱地址为主索引的用户通信行为向量，并将该用户的电话号码添加到该用户通信行为向量中；子向量形成单元，用于从用户通信行为信息中提取该用户的联系人的电子邮箱地址，形成以联系人的电子邮箱地址为副索引的该用户通信行为向量的子向量；以及分量形成单元，用于根据用户通信行为信息形成子向量的分量。

作为一种示例性的实施方式，所述分量形成单元包括以下的至少一个单元：

黑白名单分量形成单元，用于根据采集的用户通信行为信息中的黑白名单数据，生成黑白名单分量，以表示联系人是该用户的黑名单用户或白名单用户；语音分量形成单元，用于根据采集的用户通信行为信息中的语音通信数据，生成语音分量，以表示用户与联系人之间的通话频率和用户对联系人来电的响应积极程度；短信分量形成单元，用于根据采集的用户通信行为信息中的短信通信数据，生成短信分量，以表示用户与联系人之间的短信联系频率和用户对联系人的短信的响应积极程度；电子邮件分量形成单元，用于根据采集的用户通信行为信息中的电子邮件通信数据，生成电子邮件分量，以表示用户与联系人之间的邮件联系频率和用户对联系人的邮件的响应积极程度。

作为一种示例性的实施方式，所述用户通信系数库，还用于根据所述电子邮件的关键字或邮件结构与预先设置的垃圾邮件的邮件特征进行匹配得到匹配结果；根据所述用户通信系数和所述匹配结果进行综合判断，以确定所述电子邮件对该收件人来说是否为垃圾邮件。

根据本发明实施例再一方面提供的一种垃圾邮件过滤***，包括：上述垃圾邮件识别***，以及邮件传送代理***和邮件投递代理***；所述邮件传送代理***用于将用户的电子邮件转发给所述垃圾邮件识别***；所述垃圾邮件识别***根据用户通信系数确定所述电子邮件对收件人来说是否为垃圾邮件；所述邮件投递代理***根据所述垃圾邮件识别***的识别结果对所述电子邮件进行投递或拦截。

作为一种示例性的实施方式，所述***还包括传统垃圾邮件识别***，所述邮件传送代理***还用于将用户的电子邮件转发给所述传统垃圾邮件识别***；所述传统垃圾邮件识别***用于根据所述电子邮件的关键字或邮件结构与预先设置的垃圾邮件的邮件特征进行匹配得到匹配结果；所述垃圾邮件识别***还用于结合用户通信系数和所述匹配结果进行综合判断，以确定所述电子邮件对该收件人来说是否为垃圾邮件。

本发明提供的方案，基于用户通信行为信息构建用户通信行为向量库，进而构建用户通信系数库，后续在接收到电子邮件时，提取电子邮件的发件人和收件人的电子邮件地址，根据发件人和收件人的电子邮件地址，在用户通信系数库中查找是否存在该发件人相对于该收件人的用户通信系数，如果存在对应的用户通信系数，根据用户通信系数确定电子邮件对该收件人来说是否为垃圾邮件，这种基于用户通信行为的垃圾邮件识别方案不宜被规避，并且充分考虑用户个性化的通信关系，提高了垃圾邮件识别和过滤的准确性。另外，还可以根据用户通信系数和传统垃圾邮件识别***的识别结果进行综合判断，以确定电子邮件对该收件人来说是否为垃圾邮件，可以进一步提高垃圾邮件识别和过滤的准确性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明垃圾邮件识别方法一个实施例的流程示意图。

图2为本发明一个示例性的基于用户通信行为构建用户通信系数的流程示意图。

图3为本发明一个示例性的形成用户通信行为向量的流程示意图。

图4为本发明一个示例性的用户通信行为向量的示意图。

图5为本发明垃圾邮件识别和过滤的一个完整的流程示意图。

图6为本发明垃圾邮件识别***的一个实施例的结构示意图。

图7为本发明垃圾邮件识别***的另一个实施例的结构示意图。

图8为本发明垃圾邮件过滤***的一个实施例的结构示意图。

图9为本发明垃圾邮件过滤***的另一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本发明垃圾邮件识别方法一个实施例的流程图。如图1所示，该实施例的方法包括以下步骤：

S102，提取接收的电子邮件的发件人和收件人的电子邮件地址；

S104，根据发件人和收件人的电子邮件地址，在用户通信系数库中查找是否存在该发件人相对于该收件人的用户通信系数，用户通信系数基于用户通信行为构建，表示该收件人与该发件人的联系程度；

S106，如果存在对应的用户通信系数，根据用户通信系数确定电子邮件对该收件人来说是否为垃圾邮件，用户通信系数越低，则为垃圾邮件的可能性越大，因此，可以设置一定的阈值，如果用户通信系数低于该阈值，则该电子邮件为垃圾邮件，否则，该电子邮件为非垃圾邮件。

在确定垃圾邮件时，还可以根据用户通信系数和传统垃圾邮件识别***的识别结果进行综合判断，以确定电子邮件对该收件人来说是否为垃圾邮件。

下面给出一个示例性的综合判断垃圾邮件的方法，即将用户通信系数和传统垃圾邮件识别***的识别结果按照各自的权值进行加权求和运算；根据运算结果与预设阈值的比较结果，确定该电子邮件对该收件人来说是否为垃圾邮件。

需要说明的是，传统垃圾邮件识别***可以采用基于邮件本身的特征识别垃圾邮件的方法。例如，基于关键字、或邮件结构等定义邮件特征，然后提取新邮件的相关内容（如提取关键字或邮件结构等），并将提取的内容与定义的邮件特征进行匹配，根据匹配程度识别是否为垃圾邮件。当然，传统垃圾邮件识别***还可以采用其他公知的垃圾邮件识别方法，本发明不做限定。

上述垃圾邮件识别方法，根据用户通信系数对电子邮件是否为垃圾邮件进行识别，该用户通信系数基于用户通信行为构建，可以表示该收件人与该发件人的联系程度，因此，这种基于用户通信行为的垃圾邮件识别方案不宜被规避，并且充分考虑用户个性化的通信关系，提高了垃圾邮件识别和过滤的准确性。

下面给出一个示例性的基于用户通信行为构建用户通信系数的方法，如图2所示，该方法包括以下步骤：

S202，采集用户通信行为信息，其中一种采集方式为接收用户通过其终端上传的用户通信行为信息。

其中，用户通信行为信息包括联系人邮箱和电话号码的对应关系、黑白名单数据、语音通信数据、短信通信数据和电子邮件通信数据等，但不限于此。黑白名单数据包括但不限于用户通讯录黑白名单。语音通信数据据包括但不限于拒接电话、电话通话频率和主动拨出电话频率。短信通信数据据包括但不限于短信通信频率、主动发送短信频率、设为垃圾短信的电话号码。电子邮件通信数据据包括但不限于邮件收发频率、主动发送邮件频率、设为垃圾邮件的电子邮件地址。

S204，根据采集的用户通信行为信息形成用户通信行为向量（User Communication Behavior Vector，简称UCBV）。

作为一种示例性的用户通信行为向量形成方式，可以从用户通信行为信息中提取用户的电子邮箱地址和电话号码，形成以该电子邮箱地址为主索引的用户通信行为向量，并将该用户的电话号码添加到该用户通信行为向量中；从用户通信行为信息中提取该用户的联系人的电子邮箱地址，形成以联系人的电子邮箱地址为副索引的该用户通信行为向量的子向量；根据用户通信行为信息形成子向量的分量。

S206，根据用户通信行为向量形成用户通信系数。

作为一种示例性的用户通信系数形成方法，可以将用户通信行为向量中用户与联系人子分量所属的各分量按照各自的权值进行加权求和运算；根据运算结果确定用户通信系数，以表示用户与该联系人的联系程度，例如，熟识程度。接受程度等。运算结果越大，用户通信系数越大，则该用户与该联系人的联系程度越紧密。

例如，用户通信系数可以是0－100间的数字，0表示用户非常排斥该联系人，将其放入黑名单、拒接其电话、将其短信设为垃圾短信、将其邮件设为垃圾邮件，100表示用户非常接受该联系人，将其放入白名单、主动频繁的进行语音短信邮件联系。当然，本领域人员根据需要还可以设置其他等级所表示的含义，还可以增加或减少等级。

上述基于用户通信行为构建用户通信系数之后，则可以采用图1所示方法进行垃圾邮件的识别。

用户通信行为向量可以保存在用户通信行为向量库中。下面给出一个形成用户通信行为向量的具体的实现过程，参见图3所示，包括以下步骤：

S302，采集到用户通信行为信息之后，在用户通信行为向量库中查询是否存在以该用户的电子邮箱地址为主索引的向量。若存在向量，直接执行步骤S306。

S304，若不存在向量，则建立以该用户的电子邮箱地址为主索引的用户通信行为向量，然后执行步骤S306。

S306，从用户通信行为信息中提取该用户的联系人的电子邮箱地址，在以该用户为主索引的用户通信行为向量中查询是否存在以联系人的电子邮箱地址为副索引的子向量。若存在子向量，直接执行步骤S310。

S308，若不存在子向量，则建立以该联系人的电子邮箱地址为索引的子向量，然后执行步骤S310。

S310，根据用户通信行为信息形成子向量的各分量。

其中，各分量可以包括黑白名单分量、语音分量、短信分量、电子邮件分量等，但不限于此。下面介绍上述四种分量的一种示例性的形成方法。

对于黑白名单分量，可以根据采集的用户通信行为信息中的黑白名单数据，生成黑白名单分量，以表示联系人是该用户的黑名单用户或白名单用户。例如，用户将某一联系人设置为黑名单，则黑白名单分量记录该联系人为该用户的黑名单用户。又例如，用户将某一联系人设置为白名单，则黑白名单分量记录该联系人为该用户的白名单用户。在具体实现时，黑白名单分量可以设置为枚举类型，包括黑名单和白名单。

对于语音分量，可以根据采集的用户通信行为信息中的语音通信数据，生成语音分量，以表示用户与联系人之间的通话频率和用户对联系人来电的响应积极程度。例如，该语音分量可以是0－100间的数字，0表示用户从来不给该联系人打电话，并拒接该联系人的所有来电，100表示用户以最频繁的频率（可以预设一个频率阈值，超过该阈值，则表示最频繁的频率）主动与该联系人通话，对于该联系人的来电全部及时接听。当然，本领域人员根据需要还可以设置其他等级所表示的含义，还可以增加或减少等级。

对于短信分量，可以根据采集的用户通信行为信息中的短信通信数据，生成短信分量，以表示用户与联系人之间的短信联系频率和用户对联系人的短信的响应积极程度。例如，该短信分量可以是0－100间的数字，0表示用户从来不给该联系人发短信，并将该联系人发来的短信都设为垃圾短信，100表示用户以最频繁的频率主动向该联系人发送短信，对于该联系人的短信全部及时回复。当然，本领域人员根据需要还可以设置其他等级所表示的含义，还可以增加或减少等级。

对于电子邮件分量，根据采集的用户通信行为信息中的电子邮件通信数据，生成电子邮件分量，以表示用户与联系人之间的邮件联系频率和用户对联系人的邮件的响应积极程度。例如，该电子邮件分量可以是0－100间的数字，0表示用户从来不给该联系人发邮件话，并将该联系人所有发来的邮件设为垃圾邮件，100表示用户以最频繁的频率主动向该联系人发送邮件，对于该联系人发来的所有邮件全部及时回复。当然，本领域人员根据需要还可以设置其他等级所表示的含义，还可以增加或减少等级。

参见图4，下面给出一个示例性的用户通信行为向量库（简称UCBVL）的示意图。

在图4中，UCBV[eMailAddress]表示一个用户的用户通信行为向量，有n个用户，则UCBV[eMailAddressn]表示用户n的用户通信行为向量。其中eMailAddress表示用户的电子邮件地址，PhoneCodes表示用户的电话号码（此处使用手机号码，用户可有一个或多个手机号码)，通过eMailAddress和PhoneCodes建立了用户电子邮件地址和电话号码的关联。eMailAddress_r）表示联系人的电子邮件地址，用户1有m个联系人，eMailAddress_rm表示联系人m的电子邮件地址。用户和联系人可以确定一个子向量，该子向量说明了用户与联系人间单向的通信行为。该子向量又包括BWList（黑白名单分量）、voice（语音通信分量）、SM（短信通信分量）、eMail（电子邮件通信分量）四个分量。

另外，每个电子邮件地址都会形成一个向量，该向量中有用户自己的电子邮件地址和电话号码，对于用户A和B，以A为主索引B为副索引找到的子向量，和以B为主索引A为副索引找到的子向量可能不同，表示了两个用户间的通信行为双向间的差异。

图5为本发明垃圾邮件识别和过滤的一个完整的流程示意图。如图5所示，该实施例的方法包括以下步骤：

S501，采集用户和联系人间的用户通信行为信息，包括用户的电子邮件地址和电话号码的对应关系，用户和联系人间黑白名单设置、语音、短信、邮件等通信行为。

S502，根据采集的用户通信行为信息生成用户通信行为向量。

S503，根据采集的用户通信行为信息，生成联系人子向量。

S504，根据采集的用户通信行为信息，生成子向量的各分量，用户通信行为向量可以保存到用户通信行为向量库。

S505，基于用户通信行为向量的联系人子向量及其各分量，生成用户与联系人间单向的用户通信系数，用户通信系数可以保存到用户通信系数库。

S506，当有新邮件到达时，提取收件人电子邮件地址、发件人电子邮件地址。

S507，根据提取的收件人和发件人的邮件地址在用户通信系数库中查询匹配的用户通信系数。

S508，根据用户通信系数和传统垃圾邮件识别***的判别结果进行综合判别，例如，将用户通信系数和传统垃圾邮件识别***的识别结果按照各自的权值进行加权求和运算。

S509，将判别结果与预先设置的可疑垃圾邮件阙值进行比较，确定邮件对接收件人是否是垃圾邮件。

或者，还可以根据用户通信系数判断是否为垃圾邮件，直接将用户通信系数与预先设置的可疑垃圾邮件阙值进行比较，确定邮件对接收件人是否是垃圾邮件。

S510，若判别不是垃圾邮件，进行正常投递。

S511，若判别为垃圾邮件，进行拦截。

另外，还可以根据用户反馈的垃圾邮件识别结果的正确性，对垃圾邮件识别过程进行优化，例如，优化用户通信行为向量值的生成，优化用户通信行为向量各分量生成用户通信系数的权重，优化用户通信系数和传统垃圾邮件识别***对于垃圾邮件判别结论的权重等。

上述垃圾邮件识别和过滤方法，根据用户通信系数对电子邮件是否为垃圾邮件进行识别，该用户通信系数基于用户通信行为构建，可以表示该收件人与该发件人的联系程度，因此，这种基于用户通信行为的垃圾邮件识别方案不宜被规避，并且充分考虑用户个性化的通信关系，提高了垃圾邮件识别和过滤的准确性。另外，还可以根据用户通信系数和传统垃圾邮件识别***的识别结果进行综合判断，以确定电子邮件对该收件人来说是否为垃圾邮件，可以进一步提高垃圾邮件识别和过滤的准确性。

图6为本发明垃圾邮件识别***的一个实施例的结构示意图。如图6所示，该实施例的垃圾邮件识别***，包括：

用户通信行为信息接收单元602，用于接收用户通过终端上传的用户通信行为信息；用户通信行为向量库604，用于根据用户通信行为信息形成用户通信行为向量，用户通信行为向量的子向量表示该用户的联系人，每个子向量包括各分量，以反映该联系人与用户在不同通信方式中的联系情况；用户通信系数库606，用于根据用户通信行为向量形成用户通信系数，以表示用户与该联系人的联系程度；以及垃圾邮件综合处理单元608，用于提取接收的电子邮件的发件人和收件人的电子邮件地址；根据发件人和收件人的电子邮件地址，在用户通信系数库中查找是否存在该发件人相对于该收件人的用户通信系数；如果存在对应的用户通信系数，根据用户通信系数确定电子邮件对该收件人来说是否为垃圾邮件。

垃圾邮件综合处理单元608，还用于根据用户通信系数和传统垃圾邮件识别***的识别结果进行综合判断，以确定电子邮件对该收件人来说是否为垃圾邮件。其中，传统垃圾邮件识别***可以根据电子邮件的关键字或邮件结构与预先设置的垃圾邮件的邮件特征进行匹配得到匹配结果。

作为一种示例性的实施方式，用户通信系数库606，具体用于将用户通信行为向量中用户与联系人子分量所属的各分量按照各自的权值进行加权求和运算；根据运算结果确定用户通信系数，以表示用户与该联系人的联系程度。

图7为本发明垃圾邮件识别***的另一个实施例的结构示意图。如图7所示，作为一种示例性的实施方式，用户通信行为向量库604包括：

向量形成单元7042，用于从用户通信行为信息中提取用户的电子邮箱地址和电话号码，形成以该电子邮箱地址为主索引的用户通信行为向量，并将该用户的电话号码添加到该用户通信行为向量中；子向量形成单元7044，用于从用户通信行为信息中提取该用户的联系人的电子邮箱地址，形成以联系人的电子邮箱地址为副索引的该用户通信行为向量的子向量；以及分量形成单元7046，用于根据用户通信行为信息形成子向量的分量。

其中，分量形成单元7046包括以下的至少一个单元：

黑白名单分量形成单元7046a，用于根据采集的用户通信行为信息中的黑白名单数据，生成黑白名单分量，以表示联系人是该用户的黑名单用户或白名单用户。

语音分量形成单元7046b，用于根据采集的用户通信行为信息中的语音通信数据，生成语音分量，以表示用户与联系人之间的通话频率和用户对联系人来电的响应积极程度。

短信分量形成单元7046c，用于根据采集的用户通信行为信息中的短信通信数据，生成短信分量，以表示用户与联系人之间的短信联系频率和用户对联系人的短信的响应积极程度。

电子邮件分量形成单元7046d，用于根据采集的用户通信行为信息中的电子邮件通信数据，生成电子邮件分量，以表示用户与联系人之间的邮件联系频率和用户对联系人的邮件的响应积极程度。

上述垃圾邮件识别***，基于用户通信行为信息构建用户通信行为向量库，进而构建用户通信系数库，后续在接收到电子邮件时，提取电子邮件的发件人和收件人的电子邮件地址，根据发件人和收件人的电子邮件地址，在用户通信系数库中查找是否存在该发件人相对于该收件人的用户通信系数，如果存在对应的用户通信系数，根据用户通信系数确定电子邮件对该收件人来说是否为垃圾邮件，这种基于用户通信行为的垃圾邮件识别方案不宜被规避，并且充分考虑用户个性化的通信关系，提高了垃圾邮件识别和过滤的准确性。另外，还可以根据用户通信系数和传统垃圾邮件识别***的识别结果进行综合判断，以确定电子邮件对该收件人来说是否为垃圾邮件，可以进一步提高垃圾邮件识别和过滤的准确性。

图8为本发明垃圾邮件过滤***的一个实施例的结构示意图。如图8所示，该***包括：本发明提供的垃圾邮件识别***802，以及邮件传送代理***804和邮件投递代理***806；

邮件传送代理***804用于将用户的电子邮件转发给垃圾邮件识别***802；垃圾邮件识别***802根据用户通信系数确定电子邮件对收件人来说是否为垃圾邮件；邮件投递代理***806根据垃圾邮件识别***802的识别结果对电子邮件进行投递或拦截。

作为另一种实施方式，如图9所示，该***还包括传统垃圾邮件识别***908，邮件传送代理***804还用于将用户的电子邮件转发给传统垃圾邮件识别***908；传统垃圾邮件识别***908用于根据电子邮件的关键字或邮件结构与预先设置的垃圾邮件的邮件特征进行匹配得到匹配结果；垃圾邮件识别***802还用于结合用户通信系数和传统垃圾邮件识别***908的匹配结果进行综合判断，以确定电子邮件对该收件人来说是否为垃圾邮件。

其中，传统垃圾邮件识别***908可以采用基于邮件本身的特征识别垃圾邮件的方法。例如，基于关键字、或邮件结构等定义邮件特征，然后提取新邮件的相关内容（例如提取关键字或邮件结构等），并将提取的内容与定义的邮件特征进行匹配，根据匹配程度识别是否为垃圾邮件。当然，传统垃圾邮件识别***还可以采用其他公知的垃圾邮件识别方法，本发明不做限定。

上述垃圾邮件过滤***，基于用户通信行为信息构建用户通信系数，然后根据用户通信系数确定电子邮件对该收件人来说是否为垃圾邮件，这种基于用户通信行为的垃圾邮件识别方案不宜被规避，并且充分考虑用户个性化的通信关系，提高了垃圾邮件识别和过滤的准确性。另外，还可以根据用户通信系数和传统垃圾邮件识别***的识别结果进行综合判断，以确定电子邮件对该收件人来说是否为垃圾邮件，可以进一步提高垃圾邮件识别和过滤的准确性。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种垃圾邮件识别方法，包括：

提取接收的电子邮件的发件人和收件人的电子邮件地址；

根据发件人和收件人的电子邮件地址，在用户通信系数库中查找是否存在该发件人相对于该收件人的用户通信系数，用户通信系数基于用户通信行为构建，表示该收件人与该发件人的联系程度；

如果存在对应的用户通信系数，根据所述用户通信系数确定所述电子邮件对该收件人来说是否为垃圾邮件。

2.根据权利要求1所述的方法，其特征在于，在接收所述电子邮件之前，还包括基于用户通信行为信息建立用户通信行为向量库和用户通信系数库的操作，具体包括：

采集用户通信行为信息；

根据采集的用户通信行为信息形成用户通信行为向量，并将用户通信行为向量保存到用户通信行为向量库中；

根据用户通信行为向量形成用户通信系数，并将用户通信系数保存到用户通信系数库中。

3.根据权利要求2所述的方法，其特征在于，所述采集用户通信行为信息的操作具体包括：

接收用户通过终端上传的用户通信行为信息，所述用户通信行为信息包括联系人邮箱和电话号码的对应关系、黑白名单数据、语音通信数据、短信通信数据和电子邮件通信数据，所述黑白名单数据包括用户通讯录黑白名单，所述语音通信数据包括拒接电话、电话通话频率和主动拨出电话频率，所述短信通信数据包括短信通信频率、主动发送短信频率、设为垃圾短信的电话号码，所述电子邮件通信数据包括邮件收发频率、主动发送邮件频率、设为垃圾邮件的电子邮件地址。

4.根据权利要求2所述的方法，其特征在于，所述根据采集的用户通信行为信息形成用户通信行为向量的操作具体包括：

从用户通信行为信息中提取用户的电子邮箱地址和电话号码，形成以该电子邮箱地址为主索引的用户通信行为向量，并将该用户的电话号码添加到该用户通信行为向量中；

从用户通信行为信息中提取该用户的联系人的电子邮箱地址，形成以联系人的电子邮箱地址为副索引的用户通信行为向量的子向量；

根据用户通信行为信息形成子向量的分量。

5.根据权利要求4所述的方法，其特征在于，所述根据用户通信行为信息形成子向量的分量的操作具体包括：

根据采集的用户通信行为信息中的黑白名单数据，生成黑白名单分量，以表示联系人是该用户的黑名单用户或白名单用户；

根据采集的用户通信行为信息中的语音通信数据，生成语音分量，以表示用户与联系人之间的通话频率和用户对联系人来电的响应积极程度；

根据采集的用户通信行为信息中的短信通信数据，生成短信分量，以表示用户与联系人之间的短信联系频率和用户对联系人的短信的响应积极程度；

根据采集的用户通信行为信息中的电子邮件通信数据，生成电子邮件分量，以表示用户与联系人之间的邮件联系频率和用户对联系人的邮件的响应积极程度。

6.根据权利要求2所述的方法，其特征在于，所述根据用户通信行为向量形成用户通信系数的操作具体为：

将用户通信行为向量中用户与联系人子分量所属的各分量按照各自的权值进行加权求和运算；

根据运算结果确定用户通信系数，以表示用户与该联系人的联系程度。

7.根据权利要求1所述的方法，其特征在于，所述根据所述用户通信系数确定所述电子邮件对该收件人来说是否为垃圾邮件还包括：

根据所述电子邮件的关键字或邮件结构与预先设置的垃圾邮件的邮件特征进行匹配得到匹配结果；

根据所述用户通信系数和所述匹配结果进行综合判断，以确定所述电子邮件对该收件人来说是否为垃圾邮件。

8.一种垃圾邮件识别***，包括：

用户通信行为信息接收单元，用于接收用户通过终端上传的用户通信行为信息；

用户通信行为向量库，用于根据用户通信行为信息形成用户通信行为向量，所述用户通信行为向量的子向量表示该用户的联系人，每个子向量包括各分量，以反映该联系人与用户在不同通信方式中的联系情况；

用户通信系数库，用于根据用户通信行为向量形成用户通信系数，以表示用户与该联系人的联系程度；以及

垃圾邮件综合处理单元，用于提取接收的电子邮件的发件人和收件人的电子邮件地址；根据发件人和收件人的电子邮件地址，在用户通信系数库中查找是否存在该发件人相对于该收件人的用户通信系数；如果存在对应的用户通信系数，根据所述用户通信系数确定所述电子邮件对该收件人来说是否为垃圾邮件。

9.根据权利要求8所述的***，其特征在于，所述用户通信行为向量库包括：

向量形成单元，用于从用户通信行为信息中提取用户的电子邮箱地址和电话号码，形成以该电子邮箱地址为主索引的用户通信行为向量，并将该用户的电话号码添加到该用户通信行为向量中；

子向量形成单元，用于从用户通信行为信息中提取该用户的联系人的电子邮箱地址，形成以联系人的电子邮箱地址为副索引的该用户通信行为向量的子向量；以及

分量形成单元，用于根据用户通信行为信息形成子向量的分量。

10.根据权利要求9所述的***，其特征在于，所述分量形成单元包括以下的至少一个单元：

黑白名单分量形成单元，用于根据采集的用户通信行为信息中的黑白名单数据，生成黑白名单分量，以表示联系人是该用户的黑名单用户或白名单用户；

语音分量形成单元，用于根据采集的用户通信行为信息中的语音通信数据，生成语音分量，以表示用户与联系人之间的通话频率和用户对联系人来电的响应积极程度；

短信分量形成单元，用于根据采集的用户通信行为信息中的短信通信数据，生成短信分量，以表示用户与联系人之间的短信联系频率和用户对联系人的短信的响应积极程度；

电子邮件分量形成单元，用于根据采集的用户通信行为信息中的电子邮件通信数据，生成电子邮件分量，以表示用户与联系人之间的邮件联系频率和用户对联系人的邮件的响应积极程度。

11.根据权利要求8所述的***，其特征在于，所述用户通信系数库，还用于根据所述电子邮件的关键字或邮件结构与预先设置的垃圾邮件的邮件特征进行匹配得到匹配结果；根据所述用户通信系数和所述匹配结果进行综合判断，以确定所述电子邮件对该收件人来说是否为垃圾邮件。

12.一种垃圾邮件过滤***，包括：如权利要求8－11任一项所述的垃圾邮件识别***，以及邮件传送代理***和邮件投递代理***；

所述邮件传送代理***用于将用户的电子邮件转发给所述垃圾邮件识别***；

所述垃圾邮件识别***根据用户通信系数确定所述电子邮件对收件人来说是否为垃圾邮件；

所述邮件投递代理***根据所述垃圾邮件识别***的识别结果对所述电子邮件进行投递或拦截。

13.根据权利要求12所述的***，其特征在于，所述***还包括传统垃圾邮件识别***，

所述邮件传送代理***还用于将用户的电子邮件转发给所述传统垃圾邮件识别***；

所述传统垃圾邮件识别***用于根据所述电子邮件的关键字或邮件结构与预先设置的垃圾邮件的邮件特征进行匹配得到匹配结果；

所述垃圾邮件识别***还用于结合用户通信系数和所述匹配结果进行综合判断，以确定所述电子邮件对该收件人来说是否为垃圾邮件。