CN103166830A - 一种智能选择训练样本的垃圾邮件过滤***和方法 - Google Patents

一种智能选择训练样本的垃圾邮件过滤***和方法 Download PDF

Info

Publication number
CN103166830A
CN103166830A CN2011104164295A CN201110416429A CN103166830A CN 103166830 A CN103166830 A CN 103166830A CN 2011104164295 A CN2011104164295 A CN 2011104164295A CN 201110416429 A CN201110416429 A CN 201110416429A CN 103166830 A CN103166830 A CN 103166830A
Authority
CN
China
Prior art keywords
sample
classification
training
spam
uncertainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104164295A
Other languages
English (en)
Other versions
CN103166830B (zh
Inventor
吕娣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201110416429.5A priority Critical patent/CN103166830B/zh
Publication of CN103166830A publication Critical patent/CN103166830A/zh
Application granted granted Critical
Publication of CN103166830B publication Critical patent/CN103166830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种智能选择训练样本的垃圾邮件过滤***和方法。对已标注类别的样本集和未标注类别的样本集进行初始化;用已标注样本集中的样本作为训练集训练出初始分类模型;对于未标注样本集中的每个未标注样本,用分类模型计算样本的不确定度,所述不确定度是样本属于类别的不确定程度;从未标注类别的样本中选取不确定度较大的P个样本,将未标注的P个样本进行类别标注;将标注后的样本作为已标注样本加入到最终的训练集,在最终的训练集上构建新的分类模型,所述分类模型用于过滤邮件,确定邮件是垃圾邮件还是合法邮件。本发明避免学习那些对分类帮助不大的样本,提高分类模型精度。

Description

一种智能选择训练样本的垃圾邮件过滤***和方法
技术领域
本发明涉及反垃圾邮件技术领域,尤其涉及到在分类器模型构建过程中从未标注样本集智能挑选样本加入训练,并进行垃圾邮件过滤的***和方法。
背景技术
垃圾邮件过滤是基于文本内容的分类和过滤问题,从本质上讲可归结为训练和分类两个过程,即:
过程一:对大量已标注(已知类别标注)的样本进行分词、特征选择、学习、构建分类器的训练过程;
过程二:利用分类器预测未知样本类别的分类过程。
所以,样本质量至关重要,直接影响分类精度。
传统的被动学习模式面临着的样本选择问题,例如,未标注样本人工标注复杂、不能对给定样本有选择的学习等。
发明内容
鉴于以上,本发明提出一种智能选择训练样本的垃圾邮件过滤***和方法。
本发明提出的一种智能选择训练样本的垃圾邮件过滤方法,包括:
对已标注类别的样本集和未标注类别的样本集进行初始化;
用已标注样本集中的样本作为训练集训练出初始分类模型;
对于未标注样本集中的每个未标注样本,用分类模型计算样本的不确定度,所述不确定度是样本属于类别的不确定程度;
从未标注类别的样本中选取不确定度较大的P个样本,将未标注的P个样本进行类别标注;
将标注后的样本作为已标注样本加入到最终的训练集,在最终的训练集上构建新的分类模型,所述分类模型用于过滤邮件,确定邮件是垃圾邮件还是合法邮件。
本发明提出的一种智能选择训练样本的垃圾邮件过滤***,包括:
样本主动选择模块,利用分类模型计算样本的不确定度,所述不确定度是样本属于类别的不确定程度,从未标注类别的样本中选取不确定度较大的P个样本作为训练集,输出到样本类别管理模块;
样本类别管理模块,对样本主动选择模块提交的P个样本进行类别标注;
训练集管理模块,对训练集的样本及其类别进行保存,将标注类别的样本作为已标注样本加入到最终的训练集,所述训练集只包含有类别标注的样本;
训练模块,在最终的训练集上构建新的分类模型,所述分类模型用于过滤邮件,确定邮件是垃圾邮件还是合法邮件。
本发明提出了一种智能选择训练样本的垃圾邮件过滤***和方法。将主动学习引入到垃圾邮件过滤的样本选择中,并智能选取对分类模型性能提升帮助较大的样本加入训练,从而避免学习那些对分类帮助不大的样本,提高分类模型精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是示出本发明智能选择训练样本的垃圾邮件过滤***结构示意图。
图2是示出本发明智能选择训练样本的垃圾邮件过滤方法流程图。
具体实施方式
邮件过滤***中,过滤器(即分类模型)的准确率越高,邮件分类准确度越高。过滤器是通过对给定已知类别的样本集进行学习、训练构造而来的,所以样本的质量至关重要,直接影响邮件过滤器的精度(邮件过滤的准确率)。本发明的样本选择方法,能够提高邮件过滤的准确率,即提高分类器的精度。
在垃圾邮件过滤***中,本发明提供了一种智能选择未标注样本加入分类模型训练的方法和***。
本发明所涉及的垃圾邮件过滤***,在传统的邮件预处理、分词、特征选择、训练模块、过滤模块的基础上加入了训练集管理模块、样本主动选择模块、样本类别管理模块以及反馈模块,对于给定的训练集样本,传统邮件过滤器训练时全盘接受学习,而本发明提出的样本选择算法(Uncertainty),挑选高训练效用样本,丢弃降低训练器性能的噪声、冗余样本,从而提高过滤器精度,即过滤的准确率,改善传统邮件过滤***在线学习时容易受噪声、冗余样本干扰、人工分类复杂等问题。
在样本主动选择模块,本发明提出了一种通过计算样本Uncertainty值选择样本的方法。该方法能够智能的选取uncertainty值大的样本进行学习和训练,从而避免标注和学习那些对分类器性能提升帮助不大的样本(如噪声、冗余样本),提高训练效率和分类模型精度;并且Uncertainty是一种主动学习方法,相比被动学习,能学习未标注样本,缓解样本获取瓶颈问题,减小人工标注的复杂度。
智能选择样本的步骤可以简单描述为:1)用当前分类模型计算未标注样本的UC值;2)根据UC挑选样本并更新训练集和分类模型;3)输出最终分类模型。
下面将详细描述本发明涉及的智能选择样本加入分类模型训练的垃圾邮件过滤方法和***。
图1是示出智能选择训练样本的垃圾邮件过滤***结构示意图。
样本主动选择模块(ActiveSelect)101:通过最大不确定度算法利用初始分类模型计算样本Xi的uncertainty值UC(Xi),选取不确定度较大的P个样本,输出到样本类别管理模块102。对于未选取的样本进行丢弃。样本主动选择模块101利用训练模块105输出的分类模型,对于一个训练周期而言,初始分类模型是固定的。在一个训练周期结束后,训练模块105形成新的分类模型,作为下一个训练周期的初始分类模型。
样本类别管理模块(LableMan)102:对样本主动选择模块101提交的样本进行类别标注,可以通过机器或者人工进行类别标注。
训练集管理模块(TrainSetM)103:对训练集的样本及其类别进行保存,将样本类别管理模块102标注后的样本作为已标注样本加入到最终的训练集,该训练集只包含有类别标注的样本。
邮件预处理模块、分词模块、特征选择特征表示模块104:根据训练集管理模块103输出的训练集进行邮件预处理、分词、特征选择,根据测试集、待过滤邮件模块107输入的测试集或待过滤邮件进行邮件预处理、分词、特征选择。本发明对选好样本后的邮件预处理、分词以及特征选择操作与现有技术相同。
训练模块(Train)105:可选朴素贝叶斯、贝叶斯网络、支撑向量机以及决策树等分类器训练方法,根据训练集,对邮件预处理模块、分词模块、特征选择特征表示模块104的输出训练出分类模型。即训练模块105用已标注样本集中的z个样本作为训练集训练出初始分类模型。
反馈模块(FeedBack)106:根据分类结果调整参数,输出到样本主动选择模块101。反馈模块针对在一段时间的过滤过程中错分的样本,在下次训练过滤器时,将分类错误的样本重新加入训练集进行学习,反馈模块仅是二次训练时起作用。其中,反馈频率与训练频率可能不一致,例如,训练经过三个周期之后,将这三个周期得到的分类错误样本重新加入训练集。此外,重新加入训练集的样本所占权重较大。
测试集、待过滤邮件模块107:将测试集以及待过滤邮件经过邮件预处理模块、分词模块、特征选择特征表示模块104,输出到过滤模块108。
过滤模块108(Filter):对邮件预处理模块、分词模块、特征选择特征表示模块104输出的测试集进行测试以及对邮件进行过滤。其中,已知测试集的类别,对测试集过滤后得到新类别,比对已知类别与新类别是否一致,计算分类器性能指标,如精确度、召回率等,输出分类结果109。对于邮件,根据训练模块105生成的分类模型对其进行过滤,判断是垃圾邮件还是合法邮件,以进行邮件分类。过滤模块108输出的分类结果109可反馈到反馈模块106。
图2是示出本发明智能选择训练样本的垃圾邮件过滤方法流程图。
在步骤201:初始化。
已标注类别的样本集L(Xi,Yi),初始有z个样本。
未标注类别的样本集UL(Xi),初始有n个样本。
大样本统计学中,目前能获取的样本如邮件,从互联网上大批量获取的时候,有些类别已知,有些类别未知,还有一些分界模糊,这正是目前样本获取的瓶颈。因为有明确类别标注的样本才能够拿来学习和训练,而人工标注是一件费时费力的事情。
本发明将有未标注和已标注样本的初始集合变成一个可供训练的、训练效用高的已标注样本集合。
在步骤202:用已标注样本集L中的z个样本作为训练集训练出初始分类模型C0。是现有技术。
在步骤203:对于未标注样本集UL中的每个未标注样本Xi,用在步骤202计算的分类模型C0计算样本Xi的不确定度UC(Xi)。计算方法将在下面进行说明。
在步骤204:从未标注类别的样本中选取不确定度UC(Xi)较大的P个样本,继续执行步骤206,P是一个给定值,不做调整。对于没有选中的样本,则转到步骤205:丢弃该样本。
在步骤206:将未标注的P个样本Xi进行机器标注或人工标注。人工标注就是指通过人工查看样本,给出该样本的类别值。
在步骤207:获得标注类别(Xi,Yi)。例如邮件类别有垃圾邮件类(spam)、合法邮件类(ham)。
在步骤208:将标注后的样本(Xi,Yi)作为已标注样本加入到最终的训练集。
在最后得到的训练集上构建新的分类模型,评价其性能参数,该分类模型用于邮件过滤***过滤的流程如下:待过滤邮件经过邮件预处理,分词、特征表示之后,利用过滤器分类模型构建的分类规则进行智能分类,即确定邮件为spam类还是ham类。这是现有技术。分类模型的性能评价参数是:
评价垃圾邮件过滤器的效果通常借用文本分类和信息检索领域的相关指标。具体的,假设待测试邮件集合中共有N封邮件,一个垃圾邮件过滤***的判定结果如下表1-1所示:
表1-1垃圾邮件过滤***临接表
Figure BDA0000119701030000061
精确率(Accuracy):
A = A + D N
下面对计算不确定度Uncertainty的方法进行说明。
Uncertainty方法认为UC大的样本具有高训练效用,对这些样本进行标注和训练能最大程度地提高当前分类模型的性能。
从几何上理解不确定度的方法:给定一个训练集和一个分类器,存在一个超平面集划分这些数据。应当选择距离当前分割数据空间的超平面最近的那些样本训练分离器。这是因为,靠近分类边界的样本类别模糊,具有最不确定性,对分类器的分类能力影响教大,应优先选择。
不确定度UC(Xi)值的计算:样本Xi属于类别C的不确定程度定义为该样本的不确定度,用UC(Xi)表示。
智能挑选样本的方法主要有:基于置信度的方法、基于泛化误差的方法、基于专家委员会的方法。
本发明通过计算样本的信息熵以及专家委员会投票的方法确定样本的UC(Xi)值,该计算式的优点在于既考虑了所含信息量大(信息熵公式)的样本,又考虑了专家委员会投票“众望所归”的样本、保证分类模型迅速到达一定的精度,既避免了专家委员会中损失函数精度对性能的影响,也避免了信息熵方法中分类性能对先验经验的过度依赖。
从几何上可以这样理解:给定一个训练集和一个分类器,存在一个超平面集H划分这些数据。信息熵通过选择距离当前分割数据空间的超平面最近的那些样本训练分离器。这是因为信息熵方法认为,距离最近的样本对分类器的分类能力影响比较大。这种方法优先选择靠近分类边界的样例,这些样例类别模糊,具有最不确定性;但这种方法容易忽略远离超平面的样本,即那些“很确定的样本”,通过专家委会会方法可以避免该类样本的缺失,让分类模型精度迅速收敛到一定值。
如下面的式子所示,式子前两项通过样本Xi属于类别ham和spam的条件概率熵计算样本的信息熵,式子最后一项为委员会q位专家对样本Xi的投票,Qj即为第j位专家对样本Xi的投票。
UC ( X i ) = - [ p ( C spam / X i ) log p ( C spam / X i ) + p ( C ham / X i ) log p ( C ham / X i ) ] + | Σ j = 1 j = q Q j q - 1 2 |
式中,
样本Xi通过特征选择可以用k个特征向量表示:Xi=(V1,V2...Vj...Vk)
√C——类别C包括两类:垃圾邮件类Cspam和合法邮件类Cham
√p(Cspam/Xi)——样本Xi属于Cspam类的概率为:
p ( C spam / X i ) = p ( C spam ) * p ( X i / C spam ) p ( X i ) = C + D N * N * p ( X i / C spam )
其中,p(Xi/Cspam)=p[(V1,V2...Vj...Vk)/Cspan]=p(V1/Cspam)*...*p(Vk/Cspam),C是实际为垃圾邮件判断为合法邮件的数量、D是实际为垃圾邮件判断为垃圾邮件的数量、N为训练集中邮件总数量。P(xi)为样本出现的概率、p(Cspam)为训练集中垃圾类别邮件出现的概率、p(xi/Cspam)为样本在垃圾邮件类出现的概率。
√p(Cham/Xi)——样本Xi属于Cham类的概率为:
√p(Cham/Xi)=1-p(Cspam/Xi)
√Qj——第j个专家委员会对Xi所属类别的判断,j=1...q
若第j个专家委员会判断Xi的类别为spam,则Qj=0
若第j个专家委员会判断Xi的类别为ham,则Qj=1
Figure BDA0000119701030000073
专家委员会对样本Xi类别的投票。
本发明应用于垃圾邮件过滤***,在传统的训练模块、过滤模块的基础上加入了训练集管理模块、主动选择模块、类别管理模块以及反馈模块。在样本主动选择模块,本发明提出了一种通过计算样本Uncertainty值选择样本的方法。该方法能够智能的选取uncertainty值大的样本进行学习和训练,从而避免标注和学习那些对分类器性能提升帮助不大的样本(如噪声、冗余样本),提高训练效率和分类模型精度。并且,Uncertainty是一种主动学习方法,相比被动学习,能学习未标注样本,缓解样本获取瓶颈问题,减小人工标注的复杂度。
该方法能学习未标注样本,能够克服大样本统计学的样本选择中面临的“已标注样本数量有限而未标注样本获取容易”、“语料库人工标注费时费力”等“样本获取瓶颈”问题。
作为对详细描述的结论,应该注意本领域的技术人员将会很清楚可对优选实施例做出许多变化和修改,而实质上不脱离本发明的原理。这种变化和修改包含在所附权利要求书所述的本发明的范围之内。

Claims (10)

1.一种智能选择训练样本的垃圾邮件过滤方法,包括:
对已标注类别的样本集和未标注类别的样本集进行初始化;
用已标注样本集中的样本作为训练集训练出初始分类模型;
对于未标注样本集中的每个未标注样本,用分类模型计算样本的不确定度,所述不确定度是样本属于类别的不确定程度;
从未标注类别的样本中选取不确定度较大的P个样本,将未标注的P个样本进行类别标注;
将标注后的样本作为已标注样本加入到最终的训练集,在最终的训练集上构建新的分类模型,所述分类模型用于过滤邮件,确定邮件是垃圾邮件还是合法邮件。
2.根据权利要求1所述智能选择训练样本的垃圾邮件过滤方法,其中,用分类模型计算样本的不确定度,包括:
UC ( X i ) = - [ p ( C spam / X i ) log p ( C spam / X i ) + p ( C ham / X i ) log p ( C ham / X i ) ] + | Σ j = 1 j = q Q j q - 1 2 |
式中,
C——类别C包括两类:垃圾邮件类Cspam和合法邮件类Cham
p(Cspam/Xi)——样本Xi属于Cspam类的概率;
p(Cham/Xi)——样本Xi属于Cham类的概率;
Qj——第j个专家委员会对Xi所属类别的判断,j=1...q;
若第j个专家委员会判断Xi的类别为spam,则Qj=0;
若第j个专家委员会判断Xi的类别为ham,则Qj=1;
Figure FDA0000119701020000012
专家委员会对样本Xi类别的投票。
3.根据权利要求1或2所述智能选择训练样本的垃圾邮件过滤方法,其中,对于一个训练周期而言,初始分类模型是固定的,在一个训练周期结束后,形成新的分类模型,作为下一个训练周期的初始分类模型。
4.根据权利要求1或2或3所述智能选择训练样本的垃圾邮件过滤方法,还包括:
对于一段时间内过滤过程中错分的样本,在下次训练时,将分类错误的样本重新加入训练集进行学习。
5.根据权利要求4所述智能选择训练样本的垃圾邮件过滤方法,其中,重新加入训练集的样本所占权重较大。
6.一种智能选择训练样本的垃圾邮件过滤***,包括:
样本主动选择模块,利用分类模型计算样本的不确定度,所述不确定度是样本属于类别的不确定程度,从未标注类别的样本中选取不确定度较大的P个样本作为训练集,输出到样本类别管理模块;
样本类别管理模块,对样本主动选择模块提交的P个样本进行类别标注;
训练集管理模块,对训练集的样本及其类别进行保存,将标注类别的样本作为已标注样本加入到最终的训练集,所述训练集只包含有类别标注的样本;
训练模块,在最终的训练集上构建新的分类模型,所述分类模型用于过滤邮件,确定邮件是垃圾邮件还是合法邮件。
7.根据权利要求6所述智能选择训练样本的垃圾邮件过滤***,其中,所述不确定度计算模块计算不确定度的公式为:
UC ( X i ) = - [ p ( C spam / X i ) log p ( C spam / X i ) + p ( C ham / X i ) log p ( C ham / X i ) ] + | Σ j = 1 j = q Q j q - 1 2 |
式中,
C——类别C包括两类:垃圾邮件类Cspam和合法邮件类Cham
H[p(C/Xi)]——样本Xi属于类别C的概率熵;
p(Cspam/Xi)——样本Xi属于Cspam类的概率;
p(Cham/Xi)——样本Xi属于Cham类的概率;
Qj——第j个专家委员会对Xi所属类别的判断,j=1...q;
若第j个专家委员会判断Xi的类别为spam,则Qj=0;
若第j个专家委员会判断Xi的类别为ham,则Qj=1;
专家委员会对样本Xi类别的投票。
8.根据权利要求6或7所述智能选择训练样本的垃圾邮件过滤***,其中,对于一个训练周期而言,初始分类模型是固定的,在一个训练周期结束后,训练模块形成新的分类模型,作为下一个训练周期的初始分类模型。
9.根据权利要求6或7或8所述智能选择训练样本的垃圾邮件过滤***,还包括:
反馈模块,对在一段时间的过滤过程中错分的样本,在下次训练时,将分类错误的样本返回给样本主动选择模块,重新加入训练集进行学习。
10.根据权利要求9所述智能选择训练样本的垃圾邮件过滤***,其中,重新加入训练集的样本所占权重较大。
CN201110416429.5A 2011-12-14 2011-12-14 一种智能选择训练样本的垃圾邮件过滤***和方法 Active CN103166830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110416429.5A CN103166830B (zh) 2011-12-14 2011-12-14 一种智能选择训练样本的垃圾邮件过滤***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110416429.5A CN103166830B (zh) 2011-12-14 2011-12-14 一种智能选择训练样本的垃圾邮件过滤***和方法

Publications (2)

Publication Number Publication Date
CN103166830A true CN103166830A (zh) 2013-06-19
CN103166830B CN103166830B (zh) 2016-02-10

Family

ID=48589581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110416429.5A Active CN103166830B (zh) 2011-12-14 2011-12-14 一种智能选择训练样本的垃圾邮件过滤***和方法

Country Status (1)

Country Link
CN (1) CN103166830B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839078A (zh) * 2014-02-26 2014-06-04 西安电子科技大学 一种基于主动学习的高光谱图像分类方法
CN104252628A (zh) * 2013-06-28 2014-12-31 广州华多网络科技有限公司 人脸图像标注方法和***
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置
CN107004141A (zh) * 2017-03-03 2017-08-01 香港应用科技研究院有限公司 对大样本组的高效标注
CN107239447A (zh) * 2017-06-05 2017-10-10 厦门美柚信息科技有限公司 垃圾信息识别方法及装置、***
CN108073718A (zh) * 2017-12-29 2018-05-25 长春理工大学 一种基于主动学习和否定选择的邮件二类分类算法
CN108093466A (zh) * 2017-12-14 2018-05-29 维沃移动通信有限公司 一种控制网络开关的方法、移动终端及服务器
CN108664999A (zh) * 2018-05-03 2018-10-16 北京图森未来科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
CN108959474A (zh) * 2018-06-20 2018-12-07 上海交通大学 实体关系提取方法
CN110910864A (zh) * 2019-10-24 2020-03-24 深圳追一科技有限公司 训练样本的选取方法、装置、计算机设备和存储介质
CN110909157A (zh) * 2018-09-18 2020-03-24 阿里巴巴集团控股有限公司 文本分类方法、装置、计算设备及可读存储介质
CN111090753A (zh) * 2018-10-24 2020-05-01 马上消费金融股份有限公司 分类模型的训练方法、分类方法、装置、计算机存储介质
CN111096736A (zh) * 2018-10-26 2020-05-05 深圳市理邦精密仪器股份有限公司 基于主动学习的心电图分类方法、装置和***
CN111096735A (zh) * 2018-10-26 2020-05-05 深圳市理邦精密仪器股份有限公司 可迭代更新的心电图分析***
CN111291697A (zh) * 2020-02-19 2020-06-16 北京百度网讯科技有限公司 用于识别障碍物的方法和装置
CN111461199A (zh) * 2020-03-30 2020-07-28 华南理工大学 基于分布的垃圾邮件分类数据的安全属性选择方法
CN111931912A (zh) * 2020-08-07 2020-11-13 北京推想科技有限公司 网络模型的训练方法及装置,电子设备及存储介质
CN112418304A (zh) * 2020-11-19 2021-02-26 北京云从科技有限公司 Ocr模型训练方法、***及装置
CN113723088A (zh) * 2020-05-25 2021-11-30 阿里巴巴集团控股有限公司 自然语言处理方法、装置、文本处理方法、设备和介质
CN114037091A (zh) * 2021-11-11 2022-02-11 哈尔滨工业大学 一种基于专家联合评价的网络安全信息共享***、方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208856A1 (en) * 2003-03-03 2007-09-06 Microsoft Corporation Feedback loop for spam prevention
CN101295381A (zh) * 2008-06-25 2008-10-29 北京大学 一种垃圾邮件检测方法
CN101345720A (zh) * 2008-08-15 2009-01-14 浙江大学 基于部分匹配预测的垃圾邮件分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208856A1 (en) * 2003-03-03 2007-09-06 Microsoft Corporation Feedback loop for spam prevention
CN101295381A (zh) * 2008-06-25 2008-10-29 北京大学 一种垃圾邮件检测方法
CN101345720A (zh) * 2008-08-15 2009-01-14 浙江大学 基于部分匹配预测的垃圾邮件分类方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252628B (zh) * 2013-06-28 2020-04-10 广州华多网络科技有限公司 人脸图像标注方法和***
CN104252628A (zh) * 2013-06-28 2014-12-31 广州华多网络科技有限公司 人脸图像标注方法和***
CN103839078B (zh) * 2014-02-26 2017-10-27 西安电子科技大学 一种基于主动学习的高光谱图像分类方法
CN103839078A (zh) * 2014-02-26 2014-06-04 西安电子科技大学 一种基于主动学习的高光谱图像分类方法
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN105320957B (zh) * 2014-07-10 2022-02-15 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN106503617A (zh) * 2016-09-21 2017-03-15 北京小米移动软件有限公司 模型训练方法及装置
CN107004141A (zh) * 2017-03-03 2017-08-01 香港应用科技研究院有限公司 对大样本组的高效标注
CN107239447A (zh) * 2017-06-05 2017-10-10 厦门美柚信息科技有限公司 垃圾信息识别方法及装置、***
CN107239447B (zh) * 2017-06-05 2020-12-18 厦门美柚股份有限公司 垃圾信息识别方法及装置、***
CN108093466A (zh) * 2017-12-14 2018-05-29 维沃移动通信有限公司 一种控制网络开关的方法、移动终端及服务器
CN108073718A (zh) * 2017-12-29 2018-05-25 长春理工大学 一种基于主动学习和否定选择的邮件二类分类算法
CN108664999A (zh) * 2018-05-03 2018-10-16 北京图森未来科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
CN108664999B (zh) * 2018-05-03 2021-02-12 北京图森智途科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
CN108959474A (zh) * 2018-06-20 2018-12-07 上海交通大学 实体关系提取方法
CN108959474B (zh) * 2018-06-20 2021-12-28 上海交通大学 实体关系提取方法
CN110909157B (zh) * 2018-09-18 2023-04-11 阿里巴巴集团控股有限公司 文本分类方法、装置、计算设备及可读存储介质
CN110909157A (zh) * 2018-09-18 2020-03-24 阿里巴巴集团控股有限公司 文本分类方法、装置、计算设备及可读存储介质
CN111090753A (zh) * 2018-10-24 2020-05-01 马上消费金融股份有限公司 分类模型的训练方法、分类方法、装置、计算机存储介质
CN111096735A (zh) * 2018-10-26 2020-05-05 深圳市理邦精密仪器股份有限公司 可迭代更新的心电图分析***
CN111096736A (zh) * 2018-10-26 2020-05-05 深圳市理邦精密仪器股份有限公司 基于主动学习的心电图分类方法、装置和***
CN110910864A (zh) * 2019-10-24 2020-03-24 深圳追一科技有限公司 训练样本的选取方法、装置、计算机设备和存储介质
CN111291697A (zh) * 2020-02-19 2020-06-16 北京百度网讯科技有限公司 用于识别障碍物的方法和装置
CN111291697B (zh) * 2020-02-19 2023-11-21 阿波罗智能技术(北京)有限公司 用于识别障碍物的方法和装置
CN111461199A (zh) * 2020-03-30 2020-07-28 华南理工大学 基于分布的垃圾邮件分类数据的安全属性选择方法
CN111461199B (zh) * 2020-03-30 2023-04-28 华南理工大学 基于分布的垃圾邮件分类数据的安全属性选择方法
CN113723088A (zh) * 2020-05-25 2021-11-30 阿里巴巴集团控股有限公司 自然语言处理方法、装置、文本处理方法、设备和介质
CN111931912A (zh) * 2020-08-07 2020-11-13 北京推想科技有限公司 网络模型的训练方法及装置,电子设备及存储介质
CN112418304A (zh) * 2020-11-19 2021-02-26 北京云从科技有限公司 Ocr模型训练方法、***及装置
CN112418304B (zh) * 2020-11-19 2021-10-29 北京云从科技有限公司 Ocr模型训练方法、***及装置
CN114037091A (zh) * 2021-11-11 2022-02-11 哈尔滨工业大学 一种基于专家联合评价的网络安全信息共享***、方法、电子设备及存储介质
CN114037091B (zh) * 2021-11-11 2024-05-28 哈尔滨工业大学 一种基于专家联合评价的网络安全信息共享***、方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN103166830B (zh) 2016-02-10

Similar Documents

Publication Publication Date Title
CN103166830A (zh) 一种智能选择训练样本的垃圾邮件过滤***和方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN108898479B (zh) 信用评价模型的构建方法及装置
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及***
CN107644057B (zh) 一种基于迁移学***衡文本分类方法
CN109101584A (zh) 一种将深度学习与数学分析相结合的句子分类改进方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN107846326A (zh) 一种自适应的半监督网络流量分类方法、***及设备
CN110442568A (zh) 字段标签的获取方法及装置、存储介质、电子装置
CN107944014A (zh) 一种基于深度学习的中文文本情感分析方法
CN105589806A (zh) 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN105389718A (zh) 一种汽车后服务推荐方法和***
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN102879677A (zh) 基于粗糙贝叶斯网络分类器的智能故障诊断方法
CN103473262A (zh) 一种基于关联规则的Web评论观点自动分类***及分类方法
CN106127242A (zh) 基于集成学习的年极端降水预测***及其预测方法
CN108985455A (zh) 一种计算机应用神经网络预测方法及***
CN106960017A (zh) 电子书分类及其训练方法、装置和设备
CN108280164A (zh) 一种基于类别相关单词的短文本过滤与分类方法
CN111079427A (zh) 一种垃圾邮件识别方法及***
CN105304078A (zh) 目标声数据训练装置和目标声数据训练方法
CN110516937A (zh) 一种基于主题模型的诉求智能转办方法和装置
CN105975518A (zh) 基于信息熵的期望交叉熵特征选择文本分类***及方法
CN105654144A (zh) 一种基于机器学习的社交网络本体构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant