CN1573780A

CN1573780A - 垃圾邮件过滤器的模糊化

Info

Publication number: CN1573780A
Application number: CNA2004100595102A
Authority: CN
Inventors: J·T·古德曼; R·L·劳斯维特; J·C·普拉特
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2003-06-20
Filing date: 2004-05-20
Publication date: 2005-02-02
Anticipated expiration: 2024-05-20
Also published as: US20050015454A1; JP4572087B2; KR20040110086A; US7519668B2; EP2498458A3; KR101143194B1; EP2498458A2; CN1573780B; EP1489799A3; EP1489799A2; JP2005011326A

Abstract

本发明目的提供促进模糊化垃圾邮件过滤***以阻碍垃圾邮件过滤器的反向工程和/或降低垃圾邮件制造者不断地寻找通过过滤器的消息的方法和***。该***包括在划分该消息为垃圾邮件或非垃圾邮件之前，用于随机化消息分值以便模糊该垃圾邮件过滤器的功能的随机化部件。随机化该消息分值可以在被划分为垃圾邮件或非垃圾邮件之前，部分地通过向消息分值加入一个随机数字或伪随机数实现。加入其上的数字可以依赖输入的几种类型的至少之一，如时间、用户、消息内容、消息内容的散列值、和消息特别重要特征的散列值。例如，可选择地，可以采用多个垃圾邮件过滤器而不是单个最好的垃圾邮件过滤器。

Description

垃圾邮件过滤器的模糊化

技术领域

本发明涉及用于降低垃圾邮件传播的***和方法，特别地涉及阻碍垃圾邮件过滤器的反向工程(reverse engineering)和/或减缓垃圾邮件制造者(SPAMER)的模仿和对垃圾邮件过滤器性能的预测。

技术背景

诸如因特网等国际全球通信网络的来临已经表现出满足大量潜在客户的商机。作为一种向网络用户传播多余的广告和推销(也表示为“垃圾邮件”)方法的电子消息，特别是电子邮件(email)变得越来越普遍。

Radicati股份有限公司，是一个进行咨询和市场研究的公司，在2002年8月就估计每天将发送20亿垃圾电子邮件消息一这个数字预计每两年增加三倍。个人和团体(例如，商业、政府团体)觉得越来越麻烦而且时常因垃圾消息而烦恼。因此，垃圾邮件现在或很快将成为可靠计算的主要威胁。

用于阻止垃圾邮件的普通技术涉及过滤***/方法学的应用。一种已证明的过滤技术是基于机械学习方法。机械学习型过滤器分配一个进入信息是垃圾邮件的概率。在这种方法中，从两类示例消息(例如，垃圾邮件和非垃圾邮件)中提取典型的特征，并使用学习型过滤器分辨在这两类之间的概率。因为许多消息特征与内容(例如，主题和/或消息体中全部的单词和短语)有关，这种类型的过滤器一般称为“基于内容的过滤器”。为了从好消息中探测和区分垃圾消息，这些类型的机械学习型过滤器通常采用精确匹配技术。

不幸地，垃圾邮件制造者即将发现绕过包括这些机械学习***的传统垃圾邮件过滤器的方法。例如，它们可以利用数学处理和连续的电子邮件修改以测试和预测垃圾邮件过滤器的性能。另外，解释了普通垃圾邮件过滤器是如何操作的大量信息被应用于公众。一些互联网服务商甚至提供通过特殊过滤器操作消息并恢复那些过滤器各自的结果。因此，制造垃圾邮件者有机会通过多种已知垃圾邮件过滤器和/或修改他们的消息而操作他们的垃圾邮件，直到它们成功通过该过滤器。鉴于此，针对垃圾邮件，这种传统过滤器提供有限保护。

发明内容

为了提供本发明一些方面的基本理解，下面介绍本发明简要的概述。该概述不是本发明全部观点。它不打算确定本发明关键/重要部分或描述本发明的范围，它唯一目的是以简要形式表现本发明一些内容作为以后被介绍的更详细描述的序言。

传统机械学习垃圾邮件过滤器可以由垃圾邮件制造者反向工程，它可以使他们查找不能够被过滤器捕获的消息。另外，当垃圾邮件过滤器总是捕获用户忽略的相同消息，垃圾邮件制造者可以采用试验和误差轻易找到通过的消息。在找到该消息之后，他们可以通过向潜在的百万人发送而开发。某方面不用改变该垃圾邮件过滤器，垃圾邮件制造者欺骗的这种形式可以无限持续下去。

本发明目的提供促进模糊化垃圾邮件过滤器的***和方法，从而使垃圾邮件制造者更难以反向工程和/或使垃圾邮件制造者更难以查找不断通过过滤器的消息。基本上，本发明直接提供改变垃圾邮件过滤器性能的方式，它通过向垃圾邮件过滤过程加入随机元素可以部分地实现。

常规垃圾邮件过滤器的多数处理消息并返回消息的一些类别分值。它可以是消息的概率、任意分值、消息概率的记录、当前消息和非垃圾邮件消息间的匹配程度、或其他任何数字。某些方面一定阈值以上的分值可以被标记为垃圾邮件。这样的标记包括但不限于删除、移向特殊的文件夹、询问、和/或标志。因此，改变垃圾邮件过滤过程性能的一种方法涉及包括随机化消息的分值。随机化包括，但是不局限于向分值加入一些数值和/或用诸如1.1或0.9的某个因子乘以该分值。

进行随机化的第二方法涉及使用时间。更特别地，向消息分值加入的随机数字随着和/或依赖于日期当前时间或当前时间增加而变化。例如，随机化可以采用每15分钟或所需的任何其他时间增加的不同随机数字而被编程。可选择地，随机数字可以如日期时间的改变而改变。结果，垃圾邮件制造者将更难于查找它，例如确定一个接近阈值(例如被考虑垃圾邮件或非垃圾邮件的)消息和在一个小的(例如，微小)改变之后而从被阻塞获得通过的变化是否由于该变化或由于该随机因子得到改变。

随机化过滤器的第三方法部分取决于用户和/或接收该消息的区域。例如，通过采用用户决定的随机数字，邮件垃圾制造者可以找到只针对它的测试用户但不针对其他用户通过的消息。因此，对于垃圾邮件制造者要测试他的消息的代价将更高。

根据本发明，消息内容是随机化的另一个方面。例如，随机数字可以至少根据部分消息的内容进行计算。散列相关技术。消息的散列是由内容决定性地产生的伪随机数，例如对于内容微小的改变导致散列值巨大的变化。如果垃圾邮件制造者尝试逆向研究该消息，消息内容中的微小变化将导致与消息分值相关的巨大变化。可选择或附加地，对消息分值高于阈值产生影响的消息特殊性能可以被提取并予以散列。然后该散列值可以用作向随机数发生器的输入。因此使其更难于寻找最重要特征能所产生的影响。

将进一步注意到当向垃圾邮件过滤过程加入随机化的同时，以受控方式完成它是重要的。特别地，如果一个垃圾邮件过滤器偶然使显然是垃圾邮件的消息通过，那么合法的用户将会沮丧。相反，如果显然是好的消息偶然被当作垃圾邮件标记，那么合法的用户将再一次沮丧。因此，本发明目的促进影响近于垃圾邮件或非垃圾邮件边界的消息。换句话说，过滤器的随机化过程既没有充分影响显然是垃圾邮件或也没有充分影响显然是非垃圾邮件。而是，它影响接近和/或在垃圾邮件和非垃圾邮件之间阈值上消息的过滤。

最后，可以采用多个垃圾邮件过滤器代替采用单个最好垃圾邮件过滤器以阻碍由垃圾邮件制造者仿造和对垃圾邮件过滤器性能的预测。在划分消息为垃圾邮件或非垃圾邮件之前，采用多个垃圾邮件过滤器迫使消息的不同方面得到检查，因此，反向工程一个过滤器、或寻求通过一个过滤器的消息的垃圾邮件制造者将未必通过一个不同的过滤器。更进一步，选择采用哪一个过滤器处理和划分消息可以涉及任何一个或上文描述的随机化技术的组合。

为实现前述和有关目的，结合下列描述和附图，这里将描述本发明某些示例性方面。这些方面是象征性的，然而可以采用本发明原理中仅仅几个不同方法中，并且本发明意欲包括所有这样的方面和它们的等同物。当结合附图考虑时，本发明其他优点和新颖特征通过下列所描述的本发明说明将显而易见。

附图说明

图1是根据本发明的一个方面的一个***的通用方框图，该***促进模糊化(OBSCURING)垃圾邮件过滤过程。

图2根据本发明的一个方面的是一个***的通用方框图，该***利用多个过滤器以简化模糊垃圾邮件过滤过程。

图3是根据本发明的一个方面的一个示例性方法的流程图，该方法促进模糊化垃圾邮件过滤过程。

图4是根据本发明的一个方面的一个示例性方法的流程图，该方法促进确定随机或伪随机数。

图5是根据本发明的一个方面的一个示例性方法的流程图，该方法部分基于消息内容促进执行随机化。

图6是根据本发明的一个方面的一个示例性方法的流程图，该方法通过训练和利用多个垃圾邮件过滤器促进模糊化垃圾邮件过滤过程。

图7是根据本发明的一个方面的一个示例性方法的流程图，该方法通过训练和利用多个垃圾邮件过滤器促进模糊化垃圾邮件过滤过程。

图8是一个根据本发明示例性通信环境的示意方框图。

发明详细描述

现在参照附图描述本发明，其中贯穿全文所采用的相同参考数字涉及相同的组成元件。下列描述中，出于解释目的，为提供本发明彻底的理解，阐述大量特殊的细节。显然，但是本发明可以不用这些特殊细节实践。在其他示例中，为便于描述本发明用方框图示出已知的结构和设备。

在这种应用中，欲意将术语“组成元件”和“***”引用为与计算机相关的实体，也是硬件、硬件和软件的组合、可执行中的软件。例如，组成部件可以是，但不局限于此，在处理器上运行的程序、处理器、对象、可执行的、可执行的线程、程序、和/或计算器。作为举例说明，在服务器上运行的应用和服务器都可以是组成部件。一个或更多组成部件可以存在一个程序或可执行的线程中，组成部件可以局限于一个计算机和/或分布在两个或更多计算机间。

本发明目的可以结合与生成的机械学***。如此推论导致来自一组观察事件和/或存储的事件数据在新事件或行为的结构。无论该事件是否暂时紧密联系，以及该事件和数据是否来自一个或几个事件和数据源。

这是值得欣赏的，虽然术语消息完全广泛用于本说明书，这样术语不局限于电子邮件本身，但可以使用于包括可以以任何适当通信体系分布的电子消息的任何形式。例如，当各用户交换信息时，不受欢迎的文本可以被电子的散布到正常聊天信息中，和/或作为开始(lead-off)信息、结束信息或所有上述信息***到正常聊天信息中，所以促进在两个或更多人之间(如，交互聊天节目、以及即时消息节目)开会的会议应用，也可以利用在此公开的过滤好处。在这个特别应用中，为了作为垃圾捕获和标记不需要的内容(如商业、推销、或广告)，过滤器可能被训练自动过滤特别消息内容(正文和图像)。另一示例应用是在蜂窝电话或类似设备上的SMS消息。

模糊垃圾邮件过滤器的内部工作的多种目的之一是防止垃圾邮件制造者查找消息，该消息差不多总是保证通过不具有过滤器功能如何工作的知识。另一目的是降低垃圾邮件制造者理解垃圾邮件过滤器的工作从而阻碍由垃圾邮件制造者反向工程过滤器的任何尝试。这特别应用于近于垃圾邮件边缘的消息，在那里对于消息的一个如此细小的变化(如，向消息加入或去除某种单词或特征)影响过滤器是否“发现”作为垃圾邮件的消息。例如，如果垃圾邮件过滤器可以了解到具有某个单词的消息，例如“伟哥(Viagra)”总是被划分为垃圾邮件，他/她只不过可以精心构想无该单词。因此构造本质上阻止反向工程尝试的垃圾邮件过滤器或垃圾邮件过滤***是具有优点的。

许多垃圾邮件过滤器采用线性模型。在线性模型中，消息的特征被提取，如消息中的单词、以及例如消息是否在子夜发送的任何特殊特征。与每个特征相关的是权重和分值。所有与消息有关的权重的总和被计算产生一个总权重(如，总分值)。如果总权重超过某个阈值，那么特别消息不能够通过，或者更适合被阻止传送。相反地，如果总权重落至某个阈值以下，那么该消息可以通过接收。

垃圾邮件过滤器可以采用其他典型的模型，例如运行一个分值通过具有下列公式的S形函数：

将分值转换成0和1之间的数值(例如，称为最终分值)。该数值可以进一步转换成可以便于确定该消息是否是垃圾邮件的概率。

然而，由于忽视了垃圾邮件过滤器中所使用的模型或策略，垃圾邮件制造者可以设法确定与至少一个从消息中提取的特征有关分值方法。他/她可以通过建立大量具有不同特征的消息以观察哪个消息被划为垃圾邮件(例如，阻塞传送)和哪个消息没有被划为垃圾邮件(例如，传送至接收)。最后，垃圾邮件制造者可以尝试推论什么特征的分值将导致这样的划分。

一种降低这种类型的垃圾邮件制造者行为的方法涉及以某种微小方式修改至少一个与消息有关的各种分值以向与该消息有关的实际分值有效地加入噪声。修改分值通过既随机化总分值又随机化最终分值、或两种而得到完成。例如，在一个典型垃圾邮件过滤器中，消息的最终分值可以与某个(概率)阈值进行比较以确定该消息是否是垃圾邮件或比非垃圾邮件更象垃圾的邮件。因此，通过用随机或伪随机数加入或相乘而修改该最终分值，通过某个微小的量有效地增加或降低最终分值的值，因此当它与某个阈值比较时，该最终分值此刻可以超过该阈值，而预先地，它可以低于阈值以下。因此，由于它总分值的轻微变化，该消息此刻将被标记为垃圾邮件或可能的垃圾邮件。

有关总分值可以有选择地执行类似形式的修改，由于它的值对在总分值是否超过阈值具有影响。因此，如果既达到总分阈值，又达到最终分值，那么该消息几乎不可能通过。而且向垃圾邮件或非垃圾邮件的阈值附近的消息分值加入噪音使垃圾邮件制造者更难于确定他们的消息的当前状态(如，垃圾邮件/非垃圾邮件；被阻塞/被传送)是否是由于某随机化特征或由于消息内容中的某个变化。

现在，参见图1，说明了根据本发明的一个方面，促进模糊化垃圾邮件过滤器功能的垃圾邮件过滤***100的通用方框图。***100包括垃圾邮件过滤器110，据此消息120可以由垃圾邮件过滤器处理以产生一个消息130的分值，最终确定该消息是否被划分为垃圾邮件(或类似垃圾邮件)或非垃圾邮件(或类似非垃圾邮件)。

更特别地，垃圾过滤器110包括过滤器分值计算部件140和可操作地耦合其中的随机化部件150。该过滤器分值部件140可以采用评定该消息120是否为垃圾邮件的机械学习***。为了提供该消息的评定，过滤器可以查看该消息的特殊特征。例如，可以提取和分析涉及任何原始信息的特征以及涉及消息特别内容的特征(如，表现的图像、URLs、单词和/或垃圾邮件的短语特征)。然后可以由随机化部件150部分修改此结果分值。

随机化部件150包括随机数字发生器160，它可以从一个或更多输入部件170接收输入(如，输入部件₁172、输入部件₂174、直到输入部件_N176，其中N是一个大于或等于1的整数)以对结果分值的值(如，如果采用S形函数的总分值和/或最终分值值)产生小或微小的增加或减少的影响。

在划分消息是垃圾邮件或非垃圾邮件之前，来自输入部件170的输入可以是以向每个分组加入某个随机或伪随机数的形式。以这种方式，改变消息的分值，并且一个寻找通过过滤器消息的垃圾邮件制造者可能仅仅只能由于一个喜爱的随机数而同时通过的消息。例如，假设加入特别垃圾邮件消息的随机数是0.7，在这个特别消息的情况下，附加部分0.7在垃圾邮件消息的划分上具有轻微的影响；而因此，该消息被允许通过。从而垃圾邮件制造者可以在该消息之后模仿未来的过滤器。然而，垃圾邮件制造者不知道的是，由于加入其中的随机数可以随时改变，因此这些未来的垃圾邮件消息不可能通过。而且，垃圾邮件制造者将难以确定为什么初期的消息可通过而更新近的垃圾邮件消息却不可以通过。

另一方面，假设随机数是1，该随机数可能足够高，对于特殊垃圾邮件产生不利效果。换句话来说，通过向垃圾邮件消息的分值中加入数字1，此刻总的或全部消息分值可能超过某个阈值。结果，划分消息是垃圾邮件而不允许通过过滤器。因为消息的分值以及是否划分为垃圾邮件可能或可能不会改变对消息相符合微小的修改，所以，加入一个随机和伪随机数使它难以反向工程过滤器。因此，允许发送方不确定关于此时通过该消息是否缘由于对消息的微小的修改或缘由喜爱的随机数字。

另一个输入形式可以涉及采用时间。例如，通过根据日期或小时计算随机数，垃圾邮件制造者在一较长时间期间上执行分类操作以反向工程过滤器。在一些情况下，过滤器可以在规则基础上自动更新，诸如每天，于是具有随机化部件150的过滤器每4小时变化一次。例如，可以在垃圾邮件制造者反向工程它之前自动变化。可以编程随机数生成器160设定为在不同的时间增量上，诸如5分钟、10分钟、1小时和/或4小时的时间增量，应用不同的随机数。

此外，垃圾邮件制造者可能发现，此刻在第一时间增量消息正在通过过滤器。随即，垃圾邮件制造者也许能够发出一些更多的消息复制品以进一步“测试”过滤器。当看到那些消息通过，垃圾邮件制造者因而可以上百万次发出该消息。然而，通过时间变化，随机化部件160已经移向另外的输入部件170，并由此移向另一时间增量(例如，秒时间增量)。因此，在第二时间增量上加入了不同的随机数，从而明显影响那些接近垃圾邮件边缘的消息，或者，影响那些由于先前的随机数曾经被归类为不是垃圾邮件的消息。结果让已经成功地使他们少量的消息穿过过滤器的垃圾邮件制造者无法轻易地确定：他们已经穿过过滤器的消息是否有轻微的改变，或者他们的随机数是否已被改变。

另外的输入类型还能够影响随机数，该随机数由包括用户和/或接收消息的区域、和/或垃圾邮件过滤器正在运行的区域的随机化部件150产生。特别地，已生成的随机数能够至少部分地依赖消息的接受者。例如，通过用户识别信息的部分，诸如用户邮件地址、显示的名字和/或用户的区域，能够认可垃圾邮件制造者的测试用户。于是，垃圾邮件制造者的测试用户的随机数能够足够小到几乎每次都允许垃圾邮件消息可以穿过过滤器到达测试用户。

相反，被表示以接收信息的其他区域名和/或其他用户可以导致产生的随机数字足够高以阻塞垃圾邮件制造者的消息通过以到达他们那里。因此，垃圾邮件制造者可以找到通过并到达他的测试用户而不是其他的用户的消息。如果垃圾邮件制造者没有意识到只有他的测试用户在接收垃圾邮件，那么该消息在被通过唯一到达测试用户之后，垃圾邮件制造者将被欺骗模仿未来的垃圾邮件消息。结果这个数量的垃圾邮件发往其他非测试用户。然而，由于引起已生成的随机数至少部分依赖消息接收方的某些方面，对于垃圾邮件制造者测试垃圾邮件过滤器将变得更加昂贵。

可选择或者附加地，输入可以至少部分地基于消息的内容。这对于从反向工程垃圾邮件过滤器内部工作中减少垃圾邮件制造者是很有益的。更特别地，基于消息内容计算随机数，即获得消息内容的散列值。散列计算是将一串字符转换为较短的固定长度的数值或表示最初字符串的密钥。在当前的实例中，计算用于每一个信息的散列值是一个随机数。

垃圾邮件制造者经常尝试略微改动他们消息的内容以绕过垃圾邮件过滤器。于是，当垃圾邮件制造者尝试反向工程消息时，消息内容的轻微改变能够导致相应的消息分值的大幅变化。例如，假如消息“X”被划为垃圾邮件。垃圾邮件制造者加入诸如“免费(FREE)！！！”的词语以有效地使消息更象垃圾邮件。然而，由于依照了本发明的随机化方面，垃圾邮件制造者认为该消息现在可能被归为非垃圾邮件一类。不幸地，垃圾邮件制造者错误地认为单词“免费(FREE)！！！”使消息很少像垃圾邮件，而事实相反。

为了反击依据基于消息内容随机化处理给他们的消息带来的潜在的不利待遇，例如，垃圾邮件制造者可能试图加入他们认为未必影响诸如“the”或“on”的随机词语的消息。结果，在只改变这些单词以后，垃圾邮件制造者能够拥有许多被分类的消息，于是能够计算出一平均值以确定针对他们消息的哪种类型的修改最有可能通过过滤器。

在对垃圾邮件制造者这样行为的预料下，可以计算出基本上对消息分值有作用的消息特征中的散列值。更特别地，恢复可以从消息中提取的特征。从已提取的众多特征当中，可以选择那些作用超过阈值(例如阈值.01)的特征。于是可以计算出所选特征的散列值并将其作为输入用于随机数发生器160。因为垃圾邮件制造者将相当困难地找到哪个消息特征对消息分值作用最大，所以垃圾邮件制造者将非常难以反向工程此类型的垃圾邮件过滤器的性能。

可选择或者附加地，能够计算出已宣称的IP地址发送方的散列值，以确定为该消息生成什么随机数。于是，再一次地，垃圾邮件制造者将特别困难地确定哪个消息特征被用以确定散列值，以及随后难以确定什么随机数对应散列值。

随机化部件150一旦输出特定消息的随机数，例如，可以向分值或有过滤器记分部件140评定的权重加入随机数。最后，可以获取消息130的总的或最终分值促进垃圾邮件或是非垃圾邮件的消息分类。

通过多个区域和/或为多个用户配置多个垃圾邮件过滤器，而不是向消息分值加入随机性能以模糊化垃圾邮件过滤器的性能。特别地，用户能够随机地或者伪随机地选择一个或更多的垃圾邮件过滤器来用以划分其消息。过滤器本身可以是不同类型的垃圾邮件过滤器和/或使用不同组的训练数据被训练。因此，垃圾邮件制造方将极其可能体会到对由它的垃圾邮件消息特定接受者所应用的过滤器进行解密中的巨大困难。此外，多于一台的过滤器可以同时对消息进行划分，因此几乎不可能找到差不多每次都可以通过这些过滤器的一种消息。

图2说明依照本发明一方面的一个示例多个过滤垃圾邮件的过滤***200的方框图。***200包括多个用户组210(例如，用户₁212，用户₂214和/或至用户_Y216，其中Y是大于或等于1的整数)。用户组210通常是包括垃圾邮件的任意进入的消息的接收者。***200也包含多种状态的垃圾邮件过滤器组220(例如，垃圾邮件过滤器₁222，垃圾邮件过滤器₂224和/或至垃圾邮件过滤器_W226，其中W是大于或等于1的整数)。

至少部分地基于不同组的训练数据训练每个垃圾邮件过滤器220。更特别地，通过使用第一训练数据子集的机械学习***训练第一过滤器212。同样地，以类似的方法使用可以或不可以与第一套数据部分重叠的第二训练数据子集训练第二过滤器214。例如，第一过滤器212包括普通术语，而第二过滤器214包含非普通术语。在将消息进行垃圾邮件或非垃圾邮件的分类之前，过滤器运用两组过滤装置检测消息不同的标准或特征或内容。

以类似的方法，作为用户所希望的，从一个或更多滤波器210的训练中可以排除某种数据。通过随机数发生器可以排除掉该排除的数据。另外，提取一些用于创建训练数据的消息的特征并被赋予特定的数值。于是，通过部分地依赖用户的性能和结构，垃圾邮件过滤器组220可以是特殊用户或者进行个性化以实现不同程度的客户化。

其后，与多个用户组210和多个垃圾邮件过滤器组220有效地结合的过滤器选择部件230，能够与用户组210通信，为了基于特定用户和/或基于特定用户选择一个或多个过滤器220。可选择地，过滤器选择可以是随机的或者至少部分地基于消息内容的散列值或基于消息的大小。

如图所示，过滤器选择也可以是部分地基于接收来自时间输入部件240的输入。即，不同的过滤器可以在一天运行不同的次数。例如，如果在下午2点钟发送消息，可使用多个过滤器组220。然而，如果在凌晨3点钟发送消息，只可使用多个过滤器组220的子集。例如，第一、第二、第四和第六过滤器。可选择地，只选用一个过滤器随根据日期中的时间选择哪个过滤器而定。

除上述以外，可以由基于某些类似质量、特性或者类型的集群部件250把用户组210集群成子群。同样地，可以以类似方式对训练数据集群，从而导致在至少一个集群或者类型的数据上训练过滤器。因此，过滤器选择部件230可以选择一个或多个符合用户特殊群的垃圾邮件过滤器组220。如此所述，以随机或伪随机方式运用多种过滤器替代依靠单个最好的垃圾邮件过滤器可以更有利于垃圾邮件的过滤。尽管此刻消息可以通过，但是由于以随机或非随机的方式选择不同的过滤器，同样或类似的消息下次未必可以通过，故对于垃圾邮件制造者，更加难以反向工程、预测垃圾邮件过滤器性能和找到每次可以通过的个别消息。然而对于垃圾邮件制造者，自从不能轻易地反向工程和/或预测过滤器的内部工作方式，更加难以确定发送的消息不能每次通过或者下次通过的原因，如果这可行的话。此外，少量接近垃圾邮件边缘的消息可以通过，但通过模糊垃圾邮件的过滤过程有效地阻塞多数邻近“垃圾邮件”的信息的传送。

依据本发明主题，通过如图3-8对一系列动作的说明，现描述不同的方法论。可以理解和赏识的是，本发明不受动作的次序的限制，如依据本发明的一些动作与其他在此表示和描述的动作一起可以按照不同的次序和/或同时发生。例如，那些本领域技术人员将理解和赏识方法应用如状态图中所表示成一系列相互关联的状况或者事件。此外，不要求所有的示例动作在依照本发明的方法论中实现。

现转向图3，说明示例过程300的流程图，该程序依照本发明一方面执行已生成垃圾邮件过滤器的消息分值的随机化处理。过程300从310开始，其中消息被通过垃圾邮件过滤器。在320，垃圾邮件过滤器给消息赋一分值。分值可以是基于普通垃圾邮件过滤***和方法的，诸如通过提取消息中一个和多个特征，每个特征距此具有与之相关的权重。计算各权重之和以生成消息的分值。然而，在对消息进行是或不是垃圾邮件的划分之前，在330中给分值加入一个随机或伪随机数以降低垃圾邮件过滤程序的反向工程。

在340中获取消息的最终分值，在接下来的350中，对消息进行是或不是垃圾邮件的分类。为了降低垃圾邮件制造者的反向工程和/或找到可以一贯地通过过滤器的消息，加入初始分值的随机或伪随机数通过垃圾邮件过滤器有效地给初始分值加载噪声。另外情况，如果垃圾邮件制造者知道垃圾邮件过滤器是如何运行的或者能够预测垃圾邮件过滤器的响应，他能够轻易地构建基本上每次都能穿过垃圾邮件过滤器的消息。然而，通过在垃圾邮件过滤器里集成随机化部件，垃圾邮件制造者非常难以建立在对于消息表面上微小的改变或导致消息从垃圾邮件至非垃圾邮件状态的改变(或反之亦然)的过滤器的一些特征，因此这使得反向工程垃圾邮件过滤器几乎是不切实际的。

随机数或随机因素对消息分值的变更恰好足以影响接近垃圾邮件边缘的消息，即影响沿着在由随机化处理步骤最大化施加影响的垃圾邮件与非垃圾邮件之间的界限分布的消息。明显是垃圾邮件(例如，具有高分值或大概率)或不是(例如，具有低分值或小概率)的其他消息不是非常必要由分值随机化处理施加影响。更进一步地，纯粹加在消息分值上的随机数不是每次都象本发明一样起作用，最终地由于和/或，垃圾邮件制造者能够确定他的消息即将穿过过滤器的概率或平均概率并从而反向工程过滤器，或者找出可以总是穿过过滤器的消息。

参照图4，分值随机化处理可以依据如图3中360所示的一个或多个的输入类型。图4说明示例过程400的流程图，用于确定什么随机数可被使用。在410，程序400涉及至少选择一个随机数所依赖的输入类型：时间420、用户430和/或消息内容440。

时间420涉及时间增量或者日期时间。更特别地，根据例如5分钟、10分钟、30分钟、2小时等的时间增量或日期，已用的随机数可以变化。例如，随机数的数值可以在半夜变化，然后于上午5点再次变化，于上午7点30分、上午11点、下午4:13等...再次变化。

用户430的身份(例如显示的名字、电子邮件地址)和/或用户区域和/或接收/发送信息的区域均可用作影响使用哪个随机数。当实施了这个策略，垃圾邮件制造者更加难以通过测试垃圾邮件过滤器来确定哪个消息到达用户。最终，消息内容440或者至少其中的一部分可以从中确定什么随机数被加给初始(基础)分值。

现参照图5，依据本发明说明示例过程500的流程图，利用消息内容确定加给消息基础分值的随机数。特别地，通过在510计算至少一部分的消息的散列值开始执行程序500。例如，能够基于消息主体计算随机数。由此，如果出现另外与该消息同样的消息，则可以给其赋予相同的随机数或者散列值。然而，消息主体轻微的变化可以导致消息分值巨大的变化。例如，垃圾邮件制造者试图增加或删除消息表面上重要的词语，为了使他们的垃圾邮件不再看起来象垃圾邮件。这对于相对少量的垃圾邮件而言，可能是可以的。然而，对于大多数的垃圾邮件而言，因为它们不知道什么类型的词语可以增加或者减少随机数和/或消息的全部分值，所以阻塞其发送。

对消息内容进行散列计算的另一个选择是计算从消息中提取的可左右消息分值的一定特征的散列值。可左右消息分值的特征也可以随机或有意地变化。这样一来，垃圾邮件制造者无法意识到和没有能力通过运行大量信息以找到平均值，并因此不能找地无论信息的特征如何散列也可以穿过的消息。另外，可在发送者的IP地址上算出散列值。因此，能够直接至少根据发送者的部分原始信息对消息进行分类。

在520，随机数被加给垃圾邮件过滤器独立的随机化处理预先确定的初始分值或者基础分值。在530，可以得到消息的总分值，然后在540，消息被分为垃圾邮件或者非垃圾邮件。

如上文所述在图3至5中的随机化处理步骤仅仅是一种可被用以阻碍对垃圾邮件过滤器的反向工程和/或阻碍对垃圾邮件过滤器性能的模拟的策略。另一个策略涉及正对多种形态的用户和/或区域配置多种过滤器。最初，可以使用在某方面可能重叠或可能不重叠的不同套的训练数据分别训练多种形态的过滤器。使用多种过滤器检查和分析消息引起过滤***同时查看消息中本质上不同的标准用以替代只集中在消息的一个特定方面。于是，因为难以确定使用哪种过滤器和将消息的什么方面归为分类的因素，所以当多个过滤器设备投入使用时，既便于提供更加精确的消息分类，也降低对过滤***进行反向工程。

图6说明基于用户类型的集群以客户化方式训练和采用多个垃圾邮件过滤器的示例过程600的流程图。例如在610，通过将用户依据其类型集群成一个或多个组群开始执行程序600。在620，可以一类似的方式集群训练数据以对应用户类型的集群。在630，可以针对每个训练数据集群而分别训练多种的过滤器。于是在640中备好要用的多种过滤器，从而能够利用对应特定用户集群的过滤器为该集群进行消息分类。为进一步说明这点，可以设想使用集群R的训练数据训练过滤器R。用户类型集群R中的用户随后可以利用过滤器R对他们的消息分类。可欣赏地，以对用户进行集群处理的类似方法集群训练数据。

可选择地，可以采用如图7(在710中)的示例过程中所示的不同的训练数据子集训练多种的过滤器。可选择地，在720，能够从一组或多组培训数据子集中排除一个或多个特征或者相关数据。虽然在图中没有说明从消息中提取的某种特征可以被强迫具有某个值或权重。在730，一个或多个过滤器各自使用自己的训练数据进行训练，并在其后的740中，可以用以处理消息。在750，可以将消息分为象上文所述一样的垃圾邮件或者非垃圾邮件。尽管本图未描述，但是时间也能作为确定使用哪种垃圾邮件过滤器对消息分类的一个因素。换句话说，特殊过滤器可以只在一天的某个时间段采用。因此，能够部分基于消息的接收用户和/或日期、随机或非随机地选择过滤器。

为了提供用于本发明不同方面的附加内容，图8和下面的论述将对可以实现本发明的不同方面所匹配的运行环境810进行简要的、一般的描述。当以可执行的计算机结构中的一般关系描述本发明时，例如被一个或多个计算机执行的程序模块，本领域的专业技术人员明白能够结合其它的程序模块和/或软硬件一起来实现本发明。

然而，通常，执行特定认为或者实现特定数据类型的一般包括常规事务、程序、实物、部件和数据结构等的程序模块。操作环境810仅仅是匹配的运行环境的一个例子，且不想暗示任何的限制，如用户的访问或者本发明的功能。本发明可以匹配其他已知的计算机***、环境和/或结构，包括但不限于：个人计算机、手提电脑或膝上型电脑、微处理器***、基于微处理器的***、可编程的消费类电子产品、网络PC、微型计算机、大型计算机、包括上述***或装置的分布式计算环境等。

参照图8，用于实现本发明不同方面的示例环境810包括计算机812。计算机812包括处理单元814、***内存816和***总线818。***总线818连接了包括但不限于***处理单元814和***内存816的***部件。能够采用各种各样的处理器作为***处理单元814。双微处理器和其它多处理器的结构也可被用作***处理单元814。

***总线818能是几类总线结构中的任意一种，它包括内存总线或者内存控制器，***总线或者外部总线，和/或使用任意可利用的总线的本地总线，其包括但不限于11位总线、工业标准结构(ISA)、微通道架构(MSA)、扩展ISA(EISA)、智能化驱动器电子接口(IDE)、VESA本地总线(VLB)、***设备件连接(PCI)、通用串行总线(USB)、高级图像端口(AGP)、个人计算机存储卡国际会议总线(PCMCIA)和小型计算机***接口(SCSI)。

***存储器816包括易失存储器820和非易失性存储器822。基本输入/输出***(BIOS)，包含存储在非易失性存储器822上的针对在计算机812内部的元器件之间传送信息的基本常规事务，例如在计算机启动期间。通过图解但并非限制的方式，非易失存储器822能够包括只读存储器(ROM)，可编程ROM(PROM)，电可编程ROM(EPROM)，电可擦除ROM(EEPROM)或闪存。易失存储器820包括担当内部缓存的随机存取器(RAM)。通过图解但并非限制的方式，RAM可以以多种形式应用，例如同步RAM(SRAM)，动态RAM(DRAM)，同步DRAM(SDRAM)，双数率SDRAM(DDR SDRAM)，增强型SDRAM(ESDRAM)，同步链接DRAM(SLDRAM)和直接RAM总线性RAM(DDRAM)。

计算机812也包括活动的/固定的、易失性的/非易失性的计算机存储媒体。图8示例出，例如磁盘存储器824。磁盘存储器24包括但不限于，象磁盘驱动器、软盘驱动器、磁带机、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡和记忆棒一样的装置。另外，磁盘存储器824能够包括相互独立的存储媒体或与其他存储媒体结合在一起的结合体，包括但不限于可附加的磁盘驱动器，例如高密度磁盘ROM驱动器(CD-ROM)、CD刻录机(CD-R Drive)、CD可擦写刻录机(CD-RW Drive)或者数字通用磁盘ROM驱动器(DVD-ROM)。为了便于磁盘存储器824与***总线816的链接，将代表性地使用例如接口826的活动和固定的接口。

可以理解图8描述的软件在用户和匹配的运行环境810中的基础计算资源之间起到媒介物的作用。这种软件包括操作***828。操作***828被存储在磁盘存储器824中，并控制和分配计算***812的资源。***应用830通过操作***828经由存储在***内存816或磁盘存储器824中程序模块832和程序数据834利用资源管理功能。可以理解能够通过不同的操作***或者组合操作***实现本发明。

用户通过输入装置836将命令或信息输入计算机812。输入装置836包括但不限于指示装置，例如鼠标、轨迹球、手写笔、键盘、麦克风、游戏杆、游戏垫、卫星天线、扫描仪、电视转换卡、数字相机、数字摄像机和网络摄像头等。这些和其他的输入装置通过***总线818经由接口端口838与处理单元814连接。接口端口838包括，例如，串口、并口、游戏端口和通用串行总线(USB)。输出装置840使用如输出装置836相同的一些相同类型的端口。于是，例如，可以使用USB接口对计算机812提供输入，从计算机812向另外的输出装置840输出信息。输出适配器842被用以说明一些需要专门适配器的输出装置840，如监视器、扬声器和在其他输出装置840之间的打印机。输出适配器840包括，如示例中但不局限于的方式，用以提供在输出装置840和***总线818之间连接的手段的视频卡和声卡。应该注意的是，其他的装置和/或装置的***都提供输入和输出能力，例如远程计算机844。

计算机812可以在网络环境中运行，可以在本地连接一个或者多个的远程计算机，例如远程计算机844。远程计算机844可以是个人计算机，服务器，路由器，网络PC，工作站，基于应用的微处理器，同等的装置或者其他普通网络节点等，并代表性地包括许多或者所有所述的与计算机812相关的元器件。出于简略的目的，只有内存存储装置846与远程计算机844被一起示例出。远程计算机844在本地经由网络接口848与计算机812连接，并随后经由通信连接850建立物理连接。网络接口848包括通信网络，例如局域网(LAN)和广域网(WAN)。LAN技术包括光纤分布式数据接口(FDDI)，铜缆分布式数据接口(CDDI)，以太网/IEEE1102.3和令牌网/IEEE1102.5等。WAN技术包括但不限于点对点链路，电路交换网如综合服务数字网(ISDN)和在这之上的变种，分组交换网，和数字用户链路(DSL)。

通信连接850涉及用以连接网络接口848和总线818的硬件/软件。当为了计算机812内部的说明性的清晰度而示出通信连接850时，其也可以是计算机812外部设备。只就示例目的而言，用于连接网络接口848的必需的邮件/软件包括内部和外部的技术，例如包括正规的电话等级调制解调器、电缆调制解调器和DSL调制解调器在内的调制解调器，以及以太网卡。

上文所述的内容包括本发明的示例。当然不可能描述每个可能用以描述本发明的部件或方法的组合，但是本领域的普通技术人员可以意识到，更多更进一步的本发明的组合排列是可能的。相应地，本发明包括全部符合权利要求之精神与范围的变更、修改和变化。更进一步地，术语“包括”达到的程度既被用于详细描述，也被用于权利要求，正如“包含”作为传统术语在权利要求中所解释的，这种术语规定为以类似的方式包括术语“包含”。

Claims

1.一种垃圾邮件过滤***包括：

一个或更多的垃圾邮件过滤器；和

一个随机化部件，它模糊化垃圾过滤器的功能以降低对一个或更多的垃圾邮件过滤器的反向工程。

2.如权利要求1的***，所述随机化部件对过滤器分值进行随机化处理，以使垃圾邮件制造者难以确定接近阈值和来自被阻塞或传送的变化的消息是否由于下列原因之一而发生改变：对消息的修改和随机化部件。

3.如权利要求1的***，所述随机化部件包括至少产生随机数字和伪随机数中的一个的随机数字发生器。

4.如权利要求3的***，所述随机化部件包括一个或更多的输入部件，据此一个或更多输入部件提供对随机数字发生器的输入以促进确定为该特殊消息字产生什么随机数。

5.如权利要求1的***，所述随机化部件至少部分基于接收来自一个或更多输入部件的输入而产生随机数字。

6.如权利要求5的***，来自一个或多个输入部件的所述输入至少部分基于时间。

7.如权利要求6的***，其中产生的随机数字依据日期时间和时间增量中的至少之一；因此根据日期时间和当前的时间增量中的任何之一，数字产生变化。

8.如权利要求5的***，来自一个或更多输入部件的所述输入至少部分基于用户、接收方、和接收消息的区域中的至少之一。

9.如权利要求8的***，其中产生的随机数字至少依据用户、接收方、和接收消息的区域中的一个；因此根据用户的标识、消息接收方的标识、和接收消息的区域中的任何之一数字产生变化。

10.如权利要求9的***，其中任何一个用户和接收方的标识至少包括一个显示的姓名和至少一部分电子邮件地址的一个。

11.如权利要求5的***，来自一个或更多输入部件的所述输入至少部分基于消息内容。

12.如权利要求11的***，其中所产生的随机数字至少依据消息内容的一部分而变化。

13.权利要求11的***，其中消息内容的散列值被计算，而且该散列值用作随机数，借此即使对于消息内容的一微小变化也会导致对于产生的随机数一充分巨大的改变。

14.如权利要求11的***，计算其中从消息中提取的至少一部分特征的散列值，以促进随机化消息分值，并因此得到垃圾邮件过滤器的性能。

15.如权利要求14的***，其中用于计算散列值的特征分别具有大于某个阈值的各自的权重。

16.如权利要求11的***，其中发送方的IP地址的散列值被计算，以促进随机化消息分值从而模糊化垃圾邮件过滤器的性能。

17.对介于垃圾邮件和非垃圾邮件之间的消息具有充分影响的权利要求1的***，据此，至少部分时间上根据消息随机化分值将介于垃圾邮件和非垃圾邮件之间的消息划分为垃圾邮件。

18.如权利要求1的***，随机化部件降低垃圾邮件制造者至少找到一个基本上每次发送都通过垃圾邮件过滤器的消息。

19.如权利要求1的***，所述垃圾邮件过滤***采用具有公式为最终分值

的S形函数，其中总分值和最终分值的至少一个被随机化，以有效地修改垃圾邮件行为和降低过滤***的反向工程。

20.一种多垃圾邮件过滤器过滤***，它降低垃圾邮件过滤器的反向工程，并降低查找基本上所有时间都可通过垃圾邮件过滤器的消息，包括：

多个垃圾邮件过滤器，它至少包括处理和划分消息的第一垃圾邮件过滤器和第二垃圾邮件过滤器；

多个用户，包括至少第一用户第二用户；和

过滤器选择部件，被多个用户的至少一个所采用以选择一个或多个过滤器。

21.如权利要求20的***，进一步包括与过滤器选择部件通信的时间输入部件，以便选择一个或更多的多个过滤器，并至少部分基于任何日期时间和时间增量中的任何之一用于各自用户。

22.如权利要求21的***，其中时间增量是秒、分钟、小时、天、星期、月和年的任何数字。

23.如权利要求20的***，所述过滤选择部件随机地选择一个或更多过滤器。

24.如权利要求20的***，所述过滤选择部件非随机地选择一个或更多过滤器。

25.如权利要求20的***，至少部分基于各自用户、发送方的区域、操作过滤***的区域、和接收该消息的区域的至少之一，所述过滤选择部件选择一个或更多过滤器以用于各自用户。

26.如权利要求20的***，所述用户为接收消息。

27.如权利要求20的***，其中多个垃圾邮件过滤器的至少一部分被训练，通过机械学习***采用一个或更多组训练数据。

28.如权利要求27的***，训练数据相应于从消息中提取的特征。

29.如权利要求28的***，其中从消息中提取的特征的至少一部分被赋予特殊值。

30.如权利要求28的***，其中从消息中提取的特征的至少一部分被从训练数据中排除。

31.如权利要求28的***，其中至少从消息中提取的特征的一部分通过特征类型被群集，以至每群数据被用于训练各自方过滤器。

32.如权利要求31的***，其中至少多个用户的一部分通过用户类型被群集，该用户类型与特征类型群相关，因此相应于用户类型的垃圾邮件过滤器被用于该用户。

33.如权利要求20的***，其中，至少采用第一训练数据子集训练第一过滤器，以及至少采用第二训练数据子集训练第二过滤器，第二训练数据的子集至少一部分与第一训练数据子集的至少一部分不相叠加。

34.如权利要求33的***，其中第一过滤器和第二过滤器应用在一起，以至在划分消息为垃圾邮件或非垃圾邮件之前，查看多个不同标准和/或消息特征。

35.一种促进模糊化垃圾过滤器的方法，包括：

通过垃圾过滤器操作消息；

计算至少与该消息相关的一个分值；

在划分消息为垃圾邮件或非垃圾邮件之前，随机化该消息分值；和

划分消息为垃圾邮件或非垃圾邮件。

36.如权利要求35的方法，其中至少与该消息相关的一个分值包括最终分值和总分值。

37.如权利要求36的方法，其中总分值是与从消息中提取的各自特征有关的所有分值。

38.如权利要求36的方法，其中最终分值是总分值的S形函数，并相应于在指示消息是否是垃圾邮件的概率的0和1之间。

39.如权利要求35的方法，其中随机化消息的分值包括向消息分值加入至少一个随机数和伪随机数。

40.如权利要求39的方法，所述相加于消息分值的数字至少部分依据下列的至少之一：

日期时间；和

时间增量。

41.如权利要求39的方法，所述相加于消息分值的数字至少部分依据下列的至少之一：

用户；

消息的接收；

接收消息的区域；

发送方的区域；

和操作过滤器的机器名。

42.如权利要求39的方法，所述相加于消息分值的数字至少部分依据下列的至少之一：

消息内容的散列值；和

从消息中提取特征的至少一部分的散列值。

43.如权利要求42的方法，其中用于计算散列的特征分别具有大于0的权重。

44.如权利要求42的方法，其中用于计算散列的特征根据至少日期时间和时间增量的一个可随机地或非随机地变化。

45.如权利要求39的方法，所述相加于消息分值的数字至少部分依据发送方的IP地址的散列值。

46.如权利要求39的方法，所述相加于消息分值的数字依据从一个或多个输入部件的输入。

47.一种最小化垃圾邮件的方法，包括通过多个用户使用多个垃圾邮件过滤器以使降低垃圾邮件过滤器的反向工程和降低垃圾邮件制造者不断地找到通过过滤器的消息。

48.如权利要求47的方法，使用至少多个垃圾邮件的一部分依据日期时间和时间增量中的一个。

49.如权利要求47的方法，使用至少多个垃圾邮件的一部分至少依据利用该垃圾邮件过滤器的一个或多个用户。

50.如权利要求47的方法，使用至少多个垃圾邮件的一部分取至少决于消息内容的散列值和消息的大小中的一个。

51.如权利要求47的方法，进一步包括至少选择多个随机使用垃圾邮件过滤器的一部分。

52.权利要求47的方法，进一步包括至少选择多个非随机使用垃圾邮件过滤器的一部分。

53.权利要求47的方法，所述多个垃圾邮件过滤器经过机器学习过程用训练数据组进行训练。

54.如权利要求53的方法，训练垃圾邮件过滤器包括：

建立训练数据组；

至少采用第一训练数据子集训练至少第一垃圾邮件过滤器；和

至少采用第二训练数据子集训练至少第二垃圾邮件过滤器；第二子集不等于第一训练数据子集。

55.如权利要求53的方法，训练垃圾邮件过滤器包括：

根据相应于用户类型群的类型集群训练数据；

至少用数据的第一群训练第一过滤器；和

至少用数据的第二群训练第二过滤器。

56.如权利要求55的方法，其中第一过滤器被用于属于相关类型群的用户。

57.一种包括权利要求35方法的计算机可读性介质。

58.一种包括权利要求47方法的计算机可读性介质。

59.一种具有下列计算机可执行部件存储于其上的计算机可读性介质：

随机化部件，促进垃圾邮件过滤器的功能，以便阻碍反向工程一个或更多垃圾邮件过滤器。

60.如权利要求59的计算机可读性介质，所述随机化部件随机化过滤器的分值。

61.如权利要求59的计算机可读性介质，所述随机化部件包括至少产生随机数字和非随机数字的之一的随机数字发生器。

62.一种便于模糊化垃圾邮件过滤器的***，包括：

用于通过垃圾邮件过滤器操作消息的装置；

用于计算至少于该消息有关的一个分值的装置；

在划分该消息为垃圾邮件或非垃圾邮件之前，用于随机化该消息分值的装置；和

用于划分该消息为垃圾邮件或非垃圾邮件的装置。

63.一种最小化垃圾邮件的***，包括用于通过多个用户利用多个垃圾邮件过滤器以使降低垃圾邮件过滤器的反向工程和降低垃圾邮件制造者不断地找到通过过滤器的消息的装置。