CN110753024A

CN110753024A - 集体环境下的个性化邮件再过滤方法

Info

Publication number: CN110753024A
Application number: CN201810822625.4A
Authority: CN
Inventors: 陈松灿; 徐丹丹
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2020-02-04

Abstract

由于兴趣、爱好的不同，用户对垃圾邮件的定义存在巨大差异，因此实现个性化垃圾邮件过滤成为目前邮件过滤领域研究的重要课题。但完全个性化条件下，特定用户的标记邮件量有限，也使个性化过滤器存在标记延迟问题。同时，相同集体(学校、学院或公司)环境中的用户收到的邮件存在一定的相关性，所以完全个性化邮件过滤器学到的信息有限。当出现邮件错滤情况，用户不得不手动修改，这给用户体验带来了极大不便。为了有效解决上述问题，本发明提出在集体环境下的个性化邮件再过滤方法，并实现个性化邮件过滤及错滤邮件自动修改等功能，本发明设置集体环境下用户共享垃圾邮件，并结合规则和统计方法提出了一种基于客户端的个性化邮件再过滤***。

Description

集体环境下的个性化邮件再过滤方法

技术领域

本发明属于信息过滤领域的一种方法，具体为“集体环境下的个性化邮件再过滤方法”，主要应用数据挖掘领域技术实现邮件过滤。

背景技术

邮件作为普及的通讯工具之一，虽然给人们的生活和工作都带来了便捷，但大量的垃圾邮件(spam)也严重降低了人们的工作效率，尤其当邮件被错滤时必须手动修改才能恢复正常，所以垃圾邮件过滤成为邮件服务***必不可少的一部分。垃圾邮件过滤技术根据已有垃圾邮件特征识别当前邮件是否正常，正常则为normal(标记为0)，否则spam(标记为1)。一般过滤器的工作流程如图1所示。垃圾邮件过滤可看作是面向文本二分类问题的一种，但又不同于一般的文本分类，因为垃圾邮件过滤存在很大程度上的个性化差异，不同用户对同一封邮件可能有着截然不同的分类结果，全局统一的二值过滤标准不能满足所有用户对邮件的主观评判。但是集体环境下用户之间接收的邮件又存在很大的相关性和依赖性，这就要求过滤器的设计要在个体特征和集体特征之间权衡。同时，邮件作为一种在线应用，随着网络文化的不断变化，垃圾邮件的特征和用户的兴趣点也会发生改变，形成动态环境。传统的垃圾邮件过滤器基于大量的语料库学习后去检测未标记邮件类别，假设的前提是邮件训练集和测试集数据服从同一分布，但在现实情况中，这种假设在动态环境下并不成立，这就给相关研究者带来了很大的挑战。

根据过滤范围，邮件过滤器主要分为两种：针对所有用户的单个一般化过滤器和针对特定用户的个性化过滤器。通常前者设置在服务器端过滤所有用户的邮件，这类过滤器学习的是垃圾邮件全局统一概念，不能准确地反映出个体用户的兴趣特点，存在很多误判情况。所以，垃圾邮件过滤个性化也成为邮件过滤领域的首要任务。个性化过滤器设置于客户端，仅对个体用户的邮件进行过滤，根据用户的反馈信息分析用户当前的兴趣特点然后进行邮件过滤，缓解一般化过滤器严重的误判问题。近年来，国内外学者提出了以下各种不同的邮件过滤方法。

Han等人提出松弛的在线支持向量机(Relaxed Online SVM，ROSVM)模型，该方法通过松弛约束条件，在低成本的情况下显著加快过滤器训练速度，并采用典型的在线学习方法Online SVM作为过滤器识别邮件类别。随后，Sun等人在ROSVM的基础上提出基于误判和低确定性(misclassication and low-certainty，MLC)的主动学习方法，即选择被误判的邮件和不确定预测结果是否正确的邮件作为训练数据集，降低训练成本。

最近，为了克服垃圾邮件内容不断变化和用户对邮件类别评判的个性化而导致的过滤器性能降低问题，Sanghani等人基于增量式SVM提出新的个性化过滤方法，在引用增量式SVM之前先启发式更新属性集，使得分类模型有效学***衡问题。同时，完全个性化条件下，特定用户的标记邮件量有限，也使个性化过滤器存在标记延迟问题。为了解决这样的问题，本发明提出集体环境下的一种特殊个性化邮件过滤方法。

发明内容

【发明目的】

现有的主流邮件过滤***仍存在错滤情况，如垃圾箱中存入了正常邮件，而收件箱收到了垃圾邮件。这种邮件误判问题仍是邮件过滤领域仍有待解决的难题。导致这种问题的主因可归结为如下三个方面。首先，垃圾邮件制造者为了躲避过滤器的检测，不断地改变垃圾邮件的内容特征，导致数据分布随时间发生改变。其次，用户对于收到的邮件是否是垃圾邮件，与其现阶段的兴趣点相关，即不同时间段，一个用户的兴趣点会发生变化，对同类型的邮件根据主观因素会有个性化标记。以上两种情况对应概念漂移。最后，通常特定用户对邮件类别的判定有主观的定义，使得用户无关的全局统一的过滤标准可能与用户主观定义不符而导致邮件错滤，所以结合集体和个体对垃圾邮件的定义，能够有效降低错滤的概率。

针对邮件数据流中的概念漂移问题，我们形式化如下：

(1)进入同一邮箱(收件箱或垃圾箱)，不同时刻的数据流分布变化：

其中，P(.)表示数据分布，x指邮件特征表示，y表示邮件类别，t₁、t₂表示不同时刻；因为垃圾邮件制造者为了躲避过滤器检测，邮件内容会不断发生变化，使得不同时刻的特征分布不同。

(2)同一时刻，不同邮件之间的数据流分布差异：

其中，

P_i(.)表示收件箱数据分布，P_g(.)表示垃圾箱数据分布。一般情况下，用户的收件箱中正常邮件数量大于垃圾邮件，同理，垃圾箱中的垃圾邮件多于正常邮件。而严重的时候会出现类不平衡问题：P_i(y＝0|x)＞＞P_g(y＝0|x)，P_i(y＝1|x)＜＜P_g(y＝1|x)。我们将以上两种情况称为邮件中的“广义虚漂移”。

不同于现有的垃圾邮件过滤器，为了增加垃圾邮件样本多样性的同时又能保护用户隐私，我们使得同一集体的用户仅共享垃圾邮件，提高个性化过滤器预测垃圾邮件的准确性。并且为了有效解决上述三大问题，实现个性化邮件过滤及错滤邮件自动修改等功能，本发明在集体环境下结合规则和统计方法提出了一种基于客户端的个性化邮件再过滤***(A Personalized Mail Re-filtering System Based on the Client in theCollective Environment：Co-PRFC)。大部分现有的垃圾邮件过滤器仅对邮件数据流进行在线过滤，而未考虑不同邮箱的邮件类先验存在差异和类不平衡问题，本过滤***首先对进入收件箱和垃圾箱的邮件进行分别处理，然后基于多任务学习原理设计了两个互学习的过滤器分别用于收件箱和垃圾箱的邮件再过滤，并对错滤邮件进行自动修改。同时，为保证在随时间变化的用户兴趣点和邮件数据分布情况下过滤器的性能，设计了结合重要性加权的多窗口学习框架，从而有效实现了过滤器的动态自适应。

【技术方案】

为了保护每个网络用户的隐私，本发明设置的场景之一为同一集体的所有用户都可以自主放出各自的垃圾邮件，以便其他用户可以共享这些公共信息，给个性化过滤增加了垃圾邮件的多样性。对于用户放出的垃圾邮件，我们做出以下处理：①利用cosine文本相似性度量保证邮件内容不冗余；②标记每封邮件被举报为垃圾邮件的概率；③分析公共垃圾邮件相对于当前用户是否为垃圾邮件(个性化)。由于不同用户对同一封邮件的主观评判也会存在差异，所以对每个特定用户而言，并不是所有放出来的邮件都是垃圾邮件。本发明将这样的邮件集合称为集体垃圾箱(collective junk box)。由于邮件错滤存在两种情况：合法邮件进入垃圾箱和垃圾邮件错放收件箱。为此，我们利用完成训练的Co-PRFC对即将放入私人收件箱(private inbox)和垃圾箱(private junk box)中的邮件再次过滤。

本发明包括以下内容：

同一集体的用户量固定，一旦有垃圾邮件被分享出来，首先检测该垃圾邮件是否与集体垃圾箱中的邮件重复，若重复，则更新该邮件的被举报率；否则将该邮件添加到集体垃圾箱中。

设定将具有较高举报率的邮件陆续放入到特定用户的私人垃圾箱中，由Co-PRFC根据用户兴趣度检测其是否为垃圾邮件。如果是，则将其投进垃圾箱；否则，投进收件箱。

本发明主要针对的问题是错分情况，所以采用两个过滤器(Filter_junkbox和Filter_inbox)分别对垃圾箱数据流和收件箱数据流过滤时，会出现“广义虚漂移”中第(2)点情况，本发明基于多任务学***衡问题。

随着时间推移，特定用户兴趣点也会发生变化，所以本发明设计多窗口学习框架(有真实标记窗口：长窗口LW，短窗口SW；无真实标记窗口：目标窗口TW)，通过子模型L和S对长短窗口邮件的预测精确度检测兴趣是否发生变化，若发生变化，则用S重置L模型。LW代表由上一次模型更新之后的所有样本集内容，而SW保存近期固定数量的样本，所以当L的误差率低于S，说明当前用户的兴趣点稳定，否则表示用户兴趣点在近期发生变化。

本发明通过核密度比检测邮件内容分布是否发生变化，若是则重新学习模型S，使其适应新的数据分布，提高过滤器准确率；否则S不变。为了避免计算数据分布P_TW(x)，利用核函数估计其密度比

其中N_m是窗口TW和SW大小，

是模型参数，

是基底函数。

一般采用机器学习方法过滤垃圾邮件，需要将邮件解析、数据预处理和向量化等，消耗大量的时间，所以Co-PRFC结合规则和统计方法过滤垃圾邮件，降低计算复杂度，缩短过滤时间。对于待预测邮件，首先检测其发件人是否可信，是则放入收件箱；否则根据邮件主题是否包含“re”或“回复”字段判断其是否是正常邮件，若不是则依次向量化主题和邮件正文，判断其类别(如图2所示)。将垃圾箱数据流和收件箱数据流向量化的主题和正文分别作为Filter_junkbox和Filter_inbox的输入变量。

【有益效果】

我们使用开发工具Python实现本发明所提出的过滤***Co-PRFC。过滤***中LW和SW对应的模型L和S都采用集成算法实现，以SVM作为基学***衡的私人收件箱数据流和垃圾箱数据流。同时，通过实验证明采用多任务与利用集体环境都能提升过滤器过滤性能。以TREC 2006c、TREC 2007p和SEWM2010为实验数据，将Co-PRFC与现有过滤器进行性能对比，验证我们所提出的过滤器拥有显著的过滤效果。本发明具有一定的推广性，不仅仅可用于邮件过滤，也可用于短信、微博评论等的信息过滤。

附图说明

图1：垃圾邮件过滤主要流程

图2：Co-PRFC预测邮件标记流程

图3：Co-PRFC***框架

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定。

本发明框架如图3所示，同一集体的网络用户可以自主放出垃圾邮件，以便互相共享信息。我们设定一个集体用户量为M(我们定成150)，保持不变。每封被放出的垃圾邮件，首先判断是否集体垃圾邮箱中已有，若有则更新其举报率(即目前有多少用户判定其为垃圾邮件)，否则，设置初始举报率为1/M后放进集体垃圾箱。特定用户的过滤***不定时访问集体垃圾箱，将举报率高于1/3，并且不冗余的邮件引入私人垃圾箱数据流以备检测。以下是Co-PRFC伪代码实现；

输入：有真实标记样本

无真实标记样本

解析后测试邮件email，LW的起始位置T₀和当前位置T₁，L模型的可接受错滤率阈值ρ，预测标记的置信度阈值ξ，已初始化的过滤器Filter_inbox和Filter_garbage。

输出：email的预测标记y。

Claims

1.一种集体环境下的个性化邮件再过滤方法，其特征在于，包括以下步骤：

第一步，同一集体的用户量固定，一旦有垃圾邮件被分享出来，首先检测该垃圾邮件是否与集体垃圾箱中的邮件重复，若重复，则更新该邮件的被举报率；否则将该邮件添加到集体垃圾箱中。

第二步，设定将具有较高举报率的邮件陆续放入到特定用户的私人垃圾箱中，由Co-PRFC根据用户兴趣度检测其是否为垃圾邮件。如果是，则将其投进垃圾箱；否则，投进收件箱。

第三步，一般采用机器学习方法过滤垃圾邮件，需要将邮件解析、数据预处理和向量化等，消耗大量的时间，所以Co-PRFC结合规则和统计方法过滤垃圾邮件，降低计算复杂度，缩短过滤时间。对于待预测邮件，首先检测其发件人是否可信，是则放入收件箱；否则根据邮件主题是否包含“re”或“回复”字段判断其是否是正常邮件，若不是则依次向量化主题和邮件正文，判断其类别(如图2所示)。

第四步，针对的问题是错分情况，采用两个过滤器(Filter_junkbox和Filter_inbox)分别对垃圾箱数据流和收件箱数据流过滤。将垃圾箱数据流和收件箱数据流向量化的主题和正文分别作为Filter_junkbox和Filter_inbox的输入变量。但是分开过滤会出现“广义虚漂移”中第(2)点情况，本发明基于多任务学***衡问题。

第五步，随着时间推移，特定用户兴趣点也会发生变化，所以本发明设计多窗口学习框架(有真实标记窗口：长窗口LW，短窗口SW；无真实标记窗口：目标窗口TW)，通过子模型L和S对长短窗口邮件的预测精确度检测兴趣是否发生变化，若发生变化，则用S重置L模型。LW代表由上一次模型更新之后的所有样本集内容，而SW保存近期固定数量的样本，所以当L的误差率低于S，说明当前用户的兴趣点稳定，否则表示用户兴趣点在近期发生变化。

第六步，本发明通过核密度比检测邮件内容分布是否发生变化，若是则重新学习模型S，使其适应新的数据分布，提高过滤器准确率；否则S不变。为了避免计算数据分布P_TW(x)，利用核函数估计其密度比

其中N_m是窗口TW和SW大小，

是模型参数，

是基底函数。

2.根据权利要求书1第一步和第二步所述的集体环境下垃圾邮件共享问题，其特征在于保护用户隐私的同时增加了特定用户的垃圾邮件多样性，提高个性化过滤器预测垃圾邮件的准确性。其中第一步为了保证集体垃圾邮件箱中的邮件不冗余，为了便于判断是否是公认垃圾邮件，所以标注每封邮件被举报的概率；对于特定用户，公认的垃圾邮件并不一定就是垃圾邮件，也有可能是正常的邮件，所以利用个性化过滤器判定集体垃圾箱中的邮件类别，以便后续过滤器学习。

3.根据权利要求书1第四步所述的采用两个过滤器的特征在于采用新的过滤方式，进一步缓解***过滤器错滤问题，并实现自动修改错滤邮件。针对两个邮箱(私人收件箱和私人垃圾箱)数据流存在类不平衡问题，本发明基于多任务学习理论，将两个过滤器互相学习，分别过滤。

4.根据权利要求书1第五和第六步所述的多窗口框架和核密度比特征在于能够很好地缓解概念漂移问题。通过多窗口框架设计比较不同窗口的过滤器精度检测用户兴趣度是否发生变化，若发生变化则对过滤器作出调整；核密度比能够判定当前邮件内容分布是否发生漂移，若发生漂移则更新过滤器。两者的组合对邮件过滤的难题起到较大的缓解作用。