CN103389995B - 一种垃圾内容识别方法及装置 - Google Patents

一种垃圾内容识别方法及装置 Download PDF

Info

Publication number
CN103389995B
CN103389995B CN201210144007.1A CN201210144007A CN103389995B CN 103389995 B CN103389995 B CN 103389995B CN 201210144007 A CN201210144007 A CN 201210144007A CN 103389995 B CN103389995 B CN 103389995B
Authority
CN
China
Prior art keywords
sample data
feature
identified
sample
characteristic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210144007.1A
Other languages
English (en)
Other versions
CN103389995A (zh
Inventor
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210144007.1A priority Critical patent/CN103389995B/zh
Publication of CN103389995A publication Critical patent/CN103389995A/zh
Application granted granted Critical
Publication of CN103389995B publication Critical patent/CN103389995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种垃圾内容识别方法及装置,包括:在接收到待识别样本数据时,相对于现有技术中利用基于朴素贝叶斯分类器进行分类,本申请实施例对朴素贝叶斯分类器进行改进,结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子,使得朴素贝叶斯中条件独立变得更加柔和,可以更好地实现类别分类,从而提高垃圾内容的识别精度,且由于引入了第一信任因子和第二信任因子,使得分类时中引入的特征数量较少,使得利用较短的时间即可以实现垃圾内容的识别。

Description

一种垃圾内容识别方法及装置
技术领域
本申请涉及通信领域,尤其涉及一种垃圾内容识别方法及装置。
背景技术
随着网络的推广和普及,网络信息量越来越大。大量的网络信息中必然存在一些非法信息(可以将非法信息称为垃圾内容),为了保证网络信息的健康、合法,垃圾内容的自动识别也变得越来越重要。
目前常用的反垃圾(垃圾内容的自动识别)方案主要有两大类,一类是基于用户行为的反垃圾方案,一类是基于用户内容的反垃圾方案。
基于用户行为的反垃圾方案主要是根据用户的操作行为进行分类,将发布频率高于设定值的用户定义为垃圾用户,从而识别哪些用户是正常用户,哪些用户是垃圾用户,并可以将垃圾用户发布的内容确定为垃圾内容。
基于用户行为的反垃圾方案在机器软件用户大批量、高频率的发布内容的时候比较有效,因为可以通过发布频率很清晰地识别出垃圾用户。但是,如果用户适当降低发布频率,将无法通过发布频率很清晰地识别出垃圾用户。比如在一个用户利用一个账号一天进行1000次内容发布的时候,分类区分比较明显,可以很容易地识别出该用户为垃圾用户,进而识别出垃圾内容。但是,如果一个用户拥有100个账号,一个账号一天发布10次的时候,这种方式的区分就显得不那么奏效,无法有效识别出该用户为垃圾用户,也就无法识别出该用户发布的垃圾内容。所以对于多账号低频率的发布策略,基于用户行为的反垃圾方案无法有效识别垃圾用户,也就无法有效识别垃圾内容。
基于内容的反垃圾方案主要包括基于规则的反垃圾方案和基于分类器的的反垃圾方案两种方法。
基于规则的反垃圾方案的做法,一般是预设规则过滤器(fiter),将关键词和用户输入内容进行精确或模糊匹配,将符合预设规则的内容确定为垃圾内容,以达到垃圾内容识别的效果。基于规则的反垃圾方案需要确定关键词,关键词确定的难度较大,确定出的关键词容易出现误选和漏选的问题。另外,同一个关键词,在不同的上下文环境中,所代表的意义就不同,很难做到普适性,垃圾内容识别的精度难以得到保证。比如具有“美瞳”这个关键词的内容在淘女郎产品中就是垃圾内容,但是,在美容产品中就不是垃圾内容。在关键词的数量较多时,关键词的二义性会表现得更加明显,垃圾内容识别的精度会受到更大的影响。
基于分类器的反垃圾方案中基于朴素贝叶斯的反垃圾方案,是目前主流的反垃圾方法。但是,由于朴素贝叶斯分类器的条件独立性的限制,使得训练过程非常耗时,且分类器的精度提升也存在瓶颈。
发明内容
本申请实施例提供一种垃圾内容识别方法及装置,用于缩短垃圾内容的识别时间,并提高垃圾内容的识别精度。
一种垃圾内容识别方法,所述方法包括:
接收用户提供的待识别样本数据;
根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容,
其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。
一种垃圾内容识别装置,所述装置包括:
接收模块,用于接收用户提供的待识别样本数据;
预测模块,用于根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容,其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。
根据本申请实施例提供的方案,在接收到用户提供的待识别样本数据时,相对于现有技术中利用基于朴素贝叶斯分类器进行分类,本申请实施例对朴素贝叶斯分类器进行改进,结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子,通过信任因子来调节条件独立性,使得朴素贝叶斯中条件独立变得更加柔和,可以更好地实现类别分类,从而提高垃圾内容的识别精度,且由于引入了第一信任因子和第二信任因子,使得分类时中引入的特征数量较少,使得利用较短的时间即可以实现垃圾内容的识别。
附图说明
图1为本申请实施例一提供的垃圾内容识别方法的步骤流程图;
图2为本申请实施例二提供的确定训练后的特征模型方法的步骤流程图;
图3为本申请实施例三提供的数据流示意图;
图4为本申请实施例四提供的训练过程示意图;
图5为本申请实施例五提供的测试过程示意图;
图6为本申请实施例六提供的垃圾内容识别装置的结构示意图。
具体实施方式
为了解决现有的垃圾内容识别方法识别精度低,且耗时较长的问题,本申请实施例对基于朴素贝叶斯分类器的特征模型进行改进,针对每个特征引入信任因子,弱化每个特征的条件独立性,从而使得经过较少次数的训练即可以使得训练出的特征模型的识别精度满足要求,使得训练时间缩短。而由于训练次数较少,特征模型中引入的特征数量也比较少,使得训练后的特征模型对垃圾内容的识别时间也可以缩短。同时,通过引入信任因子,还可以使得每个样本数据的类别更加明确,从而提升分类精度。本申请实施例提供的垃圾内容识别方案可以应用于各种垃圾内容识别的应用场景,如垃圾邮件的识别或垃圾短信的识别等等。
下面结合说明书附图和各实施例对本申请方案进行说明。
实施例一
本申请实施例一提供一种垃圾内容识别方法,该方法的步骤流程如图1所示,包括:
步骤001、接收待识别样本数据。
在本步骤中,可以接收用户提供的用于进行是否为垃圾内容识别的待识别样本数据。该待识别样本数据可以为邮件数据或短信数据等任意一种需要进行垃圾内容识别的样本数据。
步骤002、对待识别样本数据进行分类。
在本步骤中,可以根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别。其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。在确定所述待识别样本数据的类别为垃圾内容类别时,即可以确定该待识别样本数据属于垃圾内容,否则,在确定所述待识别样本数据的类别为非垃圾内容类别时,即可以确定该待识别样本数据属于非垃圾内容。
具体的,在本步骤中,可以根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型,并可以利用训练后的特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别。
进一步的,利用训练后的特征模型对用户提供的待识别样本数据进行分类时,可以对用户提供的待识别样本数据进行分解,获得该待识别样本数据的特征子集,利用该特征子集中的每个特征确定针对训练后的特征模型的统计结果,并可以在统计结果大于第二设定阈值时,将该待识别样本数据分类为垃圾内容类别,否则,将该待识别样本数据分类为非垃圾内容类别。
下面通过实施例二对确定训练后的特征模型的过程进行详细说明。
实施例二
本申请实施例二提供一种确定训练后的特征模型的方法,该方法的步骤流程如图2所示,包括:
步骤101、确定样本集、样本数据类别及改进的特征模型。
本实施例提供的方案中,对基于朴素贝叶斯分类器的特征模型进行改进,基于改进的特征模型进行训练,并可以利用训练后特征模型对用户输入的待识别样本数据进行分类,判断该待识别样本数据是否属于垃圾内容类别,实现垃圾内容识别。
因此在本步骤中,为了实现对特征模型的训练,也需要用户提供样本集。具体的,可以从用户提供的样本集中确定训练样本子集,用于对特征模型进行训练。
而为了便于后续的对训练后特征模型分类精度的测试,可以进一步将用户提供的样本集划分为训练样本子集和测试样本子集,训练样本子集中的样本数据用于对特征模型进行训练,测试样本子集中的样本数据用于对训练后的特征模型进行分类精度测试。
由于本实施例中是为了实现垃圾内容的识别,可以理解为最终将用户提供的待识别样本数据划分为两个类别:垃圾内容类别和非垃圾内容类别。因此在本步骤中,可以根据每个样本数据的特点,将样本集中的样本数据分类为两个类别,并可以分别用垃圾内容类别和非垃圾内容类别表示。从而可以利用标识为垃圾内容类别的样本数据和标识为非垃圾内容类别的样本数据对特征模型进行训练和测试。
基于朴素贝叶斯分类器的特征模型可以为不同形式,以基于朴素贝叶斯分类器的特征模型通过以下公式表示为例:
P ( spam | χ ) 1 - P ( spam | χ ) = P ( spam ) Π i = 1 n P ( X i | spam ) P ( ham ) Π i = 1 n P ( X i | ham ) - - - ( 1 )
则,改进的特征模型可以通过以下公式表示,使得后续对该基于公式的统计结果的取值范围在0~1之间,便于后续对该基于公式的统计结果进行取值范围的限定。当然,改进的特征模型也可以通过其他形式的公式表示,本实施例不对公式形式做具体限定:
P ( spam | χ ) 1 - P ( spam | χ ) = P ( spam ) Π i = 1 n P ( X i | spam ) θ ( spam , X i ) P ( ham ) Π i = 1 n P ( X i | ham ) θ ( ham , X i ) - - - ( 2 )
其中,在公式(1)和公式(2)中:
x={X1,X2,...Xn},表示特征Xi,i=1,2……n的集合;
P(spam|x)表示特征集合x发生的条件下,样本数据为垃圾内容类别的条件概率;
P(spam)表示出现标识为垃圾内容类别的样本数据的概率;
P(ham)表示出现标识为非垃圾内容类别的样本数据的概率;
P(Xi|spam)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率;
P(Xi|ham)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率。
在公式(2)中,相对于公式(1),引入了为标识为垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的第一信任因子,以及为标识为非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的第二信任因子:
其中,θ(spam,Xi)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率的第一信任因子;
θ(ham,Xi)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率的第二信任因子。
步骤102、利用样本数据对特征模型进行训练。
在本步骤中,可以确定训练样本子集中的设定数量的样本数据,对特征模型进行训练。其中,确定出的设定数量的样本数据未曾用于对特征模型进行训练。在利用所述设定数量的样本数据中的每个样本数据对特征模型进行训练后,即可以得到本轮训练后的特征模型(即可以理解为对特征模型的一轮训练包括利用所述设定数量的样本数据中的每个样本数据对特征模型进行的训练)。
由于经一个样本数据训练后,特征模型中的部分参数可能发生变化,因此,可以用不同标号的特征模型来标识经过不同的样本数据训练后得到的特征模型。其中,未经样本数据训练的特征模型可以标识为第1特征模型。每经过一个样本数据训练,可以将特征模型的标号加1,如将经过一个样本数据训练的第1特征模型标识为第2特征模型。将经过一个样本数据训练的第2特征模型标识为第3特征模型,以此类推。
以利用训练样本子集中的一个样本数据对第k特征模型进行训练,得到第k+1特征模型为例(假设k为正整数),对第k特征模型的训练过程具体包括:
对该样本数据进行分解,获得属于所述特征集合的第一特征子集,利用该第一特征子集中的每个特征确定针对第k特征模型的统计结果;
在该样本数据被标识为非垃圾内容类别,且所述统计结果大于第一设定门限值时,在第k特征模型中,针对该第一特征子集中每个特征,减小为标识为非垃圾内容类别的样本数据中该特征出现的条件概率设置的第二信任因子,将标识为非垃圾内容类别的样本数据中该特征的数量增加该样本数据中该特征的数量,并重新确定统计结果;否则,确定该样本数据训练结束,将经该样本数据训练后的第k特征模型确定为第k+1特征模型;或者,
在该样本数据被标识为垃圾内容类别,且该统计结果不大于第二设定门限值时,在第k特征模型中,针对该第一特征子集中每个特征,减小为标识为垃圾内容类别的样本数据中该特征出现的条件概率设置的第一信任因子,将标识为垃圾内容类别的样本数据中该特征的数量增加该样本数据中该特征的数量,并重新确定统计结果;否则,确定该样本数据训练结束,将经该样本数据训练后的第k特征模型确定为第k+1特征模型。
需要说明的是,在一个样本数据被标识为非垃圾内容类别时,该样本数据可能经过对第k特征模型的多次训练后,才可以针对第k特征模型,获得不小于第一设定门限值的统计结果。类似的,在一个样本数据被标识为垃圾内容类别时,该样本数据也可能经过对第k特征模型的多次训练后,才可以针对第k特征模型,获得大于第二设定门限值的统计结果。
步骤103、对训练后的特征模型的分类精度进行测试。
本步骤是一个优选步骤。在步骤102中利用确定出的设定数量的样本数据中的每个样本数据针对特征模型的一轮训练结束后,可以对训练后的特征模型的分类精度进行测试,从而确定训练后的特征模型是否可以进行准确的分类,并可以在确定训练后的特征模型可以进行准确的分类时,利用确定出的训练后的特征模型进行垃圾内容识别,否则,确定需要对特征模型进行新一轮的训练,返回执行步骤102。
具体的,假设在步骤102中最后一次训练是对第k特征模型进行训练后得到了第k+1特征模型,在本步骤中可以利用第k+1特征模型将所述测试样本子集中的样本数据分类为垃圾内容类别和非垃圾内容类别。
由于在步骤101中已经对测试样本子集中的每个样本数据的类别进行了标识,因此,在本步骤中,可以根据之前的标识测试训练后的特征模型的分类精度。在所述测试样本子集中每个样本数据被分成的类别与该样本数据被标识成的类别相同的个数不小于设定值时,即测试出的分类精度不小于设定值时,可以利用确定出的训练后的特征模型进行垃圾内容识别,否则,跳转至步骤102,重新确定设定数量的样本数据,继续利用样本数据对特征模型进行训练。
假设在步骤103中,第k+1特征模型的测试精度已经可以满足要求(不小于设定值),则在利用确定出的训练后的特征模型进行垃圾内容识别时,可以利用第k+1特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别,在该待识别样本数据的类别为垃圾内容类别时,则确定该待识别样本数据中包含垃圾内容,实现对垃圾内容的识别。当然,如果样本数据对特征模型的训练次数足够多,也可以理解为训练后的特征模型的测试精度可以满足要求,在步骤102之后,无需执行步骤103,利用确定出的训练后的特征模型进行垃圾内容识别时,如果假设在步骤102中最后一次训练是对第k特征模型进行训练后得到了第k+1特征模型时,也可以直接利用第k+1特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别。
下面通过实施例三,结合实施例二提供的确定训练后的特征模型的方法,对实施例一提供的垃圾内容识别方法中涉及的数据流向进行说明。
实施例三
如图3所示,其为本申请实施例三提供的数据流示意图。其中,用户提供的训练样本子集中标识有垃圾内容类别或非垃圾内容类别的样本数据可以称为语料,语料可以保存在语料库中。可以利用训练机根据语料对特征模型进行训练,并可以将训练后得到的特征模型保存在特征模型库。在用户输入待识别样本数据后,可以利用预测机从特征模型库中获取训练后得到的特征模型,并对用户输入的待识别样本数据的类别进行预测,并可以将预测结果存入结果库。进一步的,用户可以对预测结果进行人工判定,确定预测结果的准确度,并可以将经过人工判定的样本数据作为语料输入到语料库中,用于后续的训练。而由于语料库可能发生更新,因此,可以利用定时器来定时触发训练机重新进行训练,以保证利用更新后的语料进行再次训练后的特征模型可以更为准确地进行分类。
下面通过实施例四对实施例二中利用一个样本数据对特征模型进行训练的过程进行详细说明。
实施例四
本申请实施例四提供一种样本数据对特征模型的训练方法,该方法的步骤流程如图4所示,包括:
步骤201、对样本数据进行分解。
在需要利用确定出的样本数据对特征模型进行训练时,首先对该样本数据进行分解,获得该样本数据的特征子集。该特征子集可以理解为每个用于对特征模型进行训练的样本数据进行分解得到的特征集合中的一部分特征或全部特征。具体的,可以利用大词汇连续语音识别中常用的语言模型N-GRAM对样本数据进行分解。
步骤202、确定统计结果。
样本数据对特征模型的一次训练可以理解为对特征模型相应参数的取值进行更新的过程,并可以保存每次训练后得到的参数。具体的,可以保存在特征模型库中。从而可以在确定统计结果时,可以利用之前训练得到的参数、对所述样本数据进行分解得到的特征子集中的每个特征、以及每个特征的数量确定针对特征模型的统计结果。
例如,一个样本数据被标识为垃圾内容类别,对该样本数据进行分解,得到该样本数据的特征子集(X1,X3,X5,X6),且该样本数据中X1的数量为5个,X3的数量为7个,X5的数量为10个,X6的数量为4个,而预先将训练样本子集中的样本数据标识为垃圾内容类别的样本数量已知(例如为300),则可以确定:
标识为垃圾内容类别的样本数据中特征X1出现的条件概率P(X1|spam)=(5+M1)/300,标识为垃圾内容类别的样本数据中特征X3出现的条件概率P(X3|spam)=(7+M3)/300,标识为垃圾内容类别的样本数据中特征X5出现的条件概率P(X5|spam)=(10+M5)/300,标识为垃圾内容类别的样本数据中特征X6出现的条件概率P(X6|spam)=(4+M6)/300。
又如,一个样本数据被标识为非垃圾内容类别,对该样本数据进行分解,得到该样本数据的特征子集(X1,X3,X5,X6),且该样本数据中X1的数量为5个,X3的数量为6个,X5的数量为7个,X6的数量为8个,而预先将训练样本子集中的样本数据标识为非垃圾内容类别的样本数量已知(假设为100),则可以确定:
标识为非垃圾内容类别的样本数据中特征X1出现的条件概率P(X1|ham=(5+N1)/100,标识为非垃圾内容类别的样本数据中特征X3出现的条件概率P(X3|ham)=(6+N3)/100,标识为非垃圾内容类别的样本数据中特征X5出现的条件概率P(X5|ham)=(7+N5)/100,标识为非垃圾内容类别的样本数据中特征X6出现的条件概率P(X6|ham)=(8+N6)/100。
并可以利用公式: P ( spam | χ ) 1 - P ( spam | χ ) = P ( spam ) Π i = 1 n P ( X i | spam ) θ ( spam , X i ) P ( ham ) Π i = 1 n P ( X i | ham ) θ ( ham , X i ) , 确定统计结果。
其中,由于预先将训练样本子集中的样本数据标识为垃圾内容类别和非垃圾内容类别的样本数量已知,特征模型中出现标识为垃圾内容类别的样本数据的概率,以及出现标识为非垃圾内容类别的样本数据的概率都是可以获得的。
例如,假设训练样本子集中包括400个样本数据,且其中标识为垃圾内容类型的样本数据为300个,标识为非垃圾内容类型的样本数据为100个,则特征模型中出现标识为垃圾内容类别的样本数据的概率为P(spam)=300/400,出现标识为非垃圾内容类别的样本数据的概率为P(ham)=100/400。
而在本次确定统计结果时,之前训练得到的标识为垃圾内容类别的样本数据中每个特征出现的条件概率的第一信任因子θ(spam,Xi)、标识为非垃圾内容类别的样本数据中每个特征出现的条件概率的第二信任因子θ(ham,Xi)、针对标识为垃圾内容类别的样本数据,特征模型中特征Xi出现次数之和Mi,以及,针对标识为非垃圾内容类别的样本数据,特征模型中特征Xi出现次数之和Ni都是可以确定的。
假设θ(spam,Xi)表示每个样本数据每次对特征模型进行训练后,标识为垃圾内容类别的样本数据中特征Xi出现的条件概率的第一信任因子。以θ(spam,X1)的确定为例进行说明:假设在本次确定统计结果时,已经利用3个标识垃圾内容类别的样本数据对特征模型进行了训练,其中,标识为垃圾内容类别的样本数据1对特征模型进行了3次训练,标识为垃圾内容类别的样本数据2对特征模型进行了2次训练,标识为垃圾内容类别的样本数据3(本实施例中用于对特征模型进行训练的样本数据)对特征模型进行了1次训练,样本数据1中分解得到的特征子集中不包含特征X1,样本数据2中分解得到的特征子集中包含特征X1,样本数据3中分解得到的特征子集中包含特征X1,并假设每次对θ(spam,X1)的调整幅度均为减小为原来的α倍,θ(spam,X1)的初始值为1,则在本次确定统计结果时,θ(spam,X1)=α3
假设θ(ham,Xi)表示每个样本数据每次对特征模型进行训练后,标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率的第二信任因子。以θ(ham,X1)的确定为例进行说明:假设在本次确定统计结果时,已经利用3个标识为非垃圾内容类别的样本数据对特征模型进行了训练,其中,标识为非垃圾内容类别的样本数据1对特征模型进行了3次训练,标识为非垃圾内容类别的样本数据2对特征模型进行了2次训练,标识为垃圾内容类别的样本数据3(本实施例中用于对特征模型进行训练的样本数据)对特征模型进行了1次训练,样本数据1中分解得到的特征子集中不包含特征X1,样本数据2中分解得到的特征子集中包含特征X1,样本数据3中分解得到的特征子集中包含特征X1,并假设每次对θ(ham,X1)的调整幅度均为减小为原来的β倍,θ(ham,X1)的初始值为1,则在本次确定统计结果时,θ(ham,X1)=β3
假设Mi表示每个样本数据每次对特征模型进行训练后,针对标识为垃圾内容类别的样本数据,特征模型中特征Xi出现次数之和。以M1的确定为例进行说明:假设在本次确定统计结果时,已经利用3个标识为垃圾内容类别的样本数据对特征模型进行了训练,其中,标识为垃圾内容类别的样本数据1对特征模型进行了3次训练,标识为垃圾内容类别的样本数据2对特征模型进行了2次训练,标识为垃圾内容类别的样本数据3(本实施例中用于对特征模型进行训练的样本数据)对特征模型进行了1次训练,样本数据1中分解得到的特征子集中不包含特征X1,样本数据2中分解得到的特征子集中包含特征X1,且特征X1在样本数据2中出现的次数为3次,样本数据3中分解得到的特征子集中包含特征X1,且特征X1在样本数据3中出现的次数为5次,则在本次确定统计结果时,M1=3+3+5=11。
假设Ni表示每个样本数据每次对特征模型进行训练后,针对标识为非垃圾内容类别的样本数据,特征模型中特征Xi出现次数的累加。以N1的确定为例进行说明:假设在本次确定统计结果时,已经利用3个标识为非垃圾内容类别的样本数据对特征模型进行了训练,其中,标识为非标识垃圾内容类别的样本数据1对特征模型进行了3次训练,标识为非垃圾内容类别的样本数据2对特征模型进行了2次训练,标识为垃圾内容类别的样本数据3(本实施例中用于对特征模型进行训练的样本数据)对特征模型进行了1次训练,样本数据1中分解得到的特征子集中不包含特征X1,样本数据2中分解得到的特征子集中包含特征X1,且特征X1在样本数据2中出现的次数为2次,样本数据3中分解得到的特征子集中包含特征X1,且特征X1在样本数据3中出现的次数为5次,则在本次确定统计结果时,N1=2+2+5=9。
在本实施例中,各步骤的执行主体可以理解为训练机。在本步骤中,训练机可以从特征模型库中获得保存的各参数,并可以根据确定出的各参数,进一步确定出统计结果。
步骤203、确定用于训练的样本数据的类型。
在该样本数据被标识为非垃圾内容类别时,执行步骤2041,在该样本数据被标识为非垃圾内容类别时,执行步骤2042。
步骤2041、确定是否需要继续训练。
在本步骤中,可以根据统计结果确定是否需要利用该样本数据对特征模型继续进行训练。
具体的,在该样本数据被标识为非垃圾内容类别,且所述统计结果(可以用P表示)大于第一设定门限值时,该第一门限值可以设定为0.5-e,e为阈值常量,确定需要继续进行训练,继续执行步骤2051,否则,确定该样本数据对特征模型的训练结束。
步骤2042、确定是否需要继续训练。
在本步骤中,同样可以根据统计结果确定是否需要利用该样本数据对特征模型继续进行训练。
具体的,在该样本数据被标识为垃圾内容类别,且该统计结果(可以用P表示)不大于第二设定门限值时,该第一门限值可以设定为0.5+e,e为阈值常量,确定需要继续进行训练,继续执行步骤2052,否则,确定该样本数据对特征模型的训练结束。
步骤2051、对特征模型进行训练。
在该样本数据被标识为非垃圾内容类别时,该样本数据对特征模型一次训练的内容包括:
针对获得的该样本数据的特征子集中的每个特征,减小为标识为非垃圾内容类别的样本数据中该特征出现的条件概率设置的第二信任因子,并将标识为非垃圾内容类别的样本数据中该特征的数量增加该样本数据中该特征的数量。具体的,可以每次将第二信任因子减小为原来的α倍,α为大于0小于1的正数。
步骤2052、对特征模型进行训练。
在该样本数据被标识为垃圾内容类别,时,该样本数据对特征模型一次训练的内容包括:
针对获得的该样本数据的特征子集中的每个特征,减小为标识为垃圾内容类别的样本数据中该特征出现的条件概率设置的第一信任因子,并将标识为垃圾内容类别的样本数据中该特征的数量增加该样本数据中该特征的数量。具体的,也可以每次将第一信任因子减小为原来的α倍,α为大于0小于1的正数。
下面通过实施例五对实施例二涉及的对训练后的特征模型的分类精度进行测试的过程进行详细说明。
实施例五
本申请实施例五提供一种对训练后的特征模型的分类精度进行测试的方法,该方法的步骤流程如图5所示,包括:
步骤301、对样本数据进行分解。
在本实施例中,需要确定测试样本子集中的每个样本数据的类别。因此,针对测试样本子集中的每个样本数据,可以对该样本数据进行分解,获得该样本数据的特征子集。该特征子集可以理解为每个用于对特征模型进行训练的样本数据进行分解得到的特征集合中的一部分特征或全部特征。具体的,可以利用N-GRAM模型对样本数据进行分解。
步骤302、确定样本数据类别。
针对测试样本子集中的每个样本数据,可以利用该样本数据进行分解得到的特征子集中的每个特征确定针对训练后的特征模型的统计结果。
例如,在确定一个样本数据分解得到的特征子集为(X1,X2)时,可以利用训练后的特征模型:
P ( spam | χ ) 1 - P ( spam | χ ) = P ( spam ) P ( X 1 | spam ) θ ( spam , X 1 ) P ( x 2 | spam ) θ ( spam , X 2 ) P ( ham ) P ( X 1 | spam ) θ ( ham , X 1 ) P ( X 2 | ham ) θ ( ham , X 2 ) , 确定统计结果。
在统计结果大于第一设定阈值时,将该样本数据分类为垃圾内容类别,否则,将该样本数据分类为非垃圾内容类别。具体的,在本步骤中,可以在统计结果大于第一设定阈值,如0.5时,将该样本数据分类为垃圾内容类别,否则,将该样本数据分类为非垃圾内容类别。
步骤303、确定分类精度。
根据所述测试样本子集中每个样本数据被标识为的类别,以及在步骤302中被确定出的类别,在所述测试样本子集中每个样本数据被分成的类别与该样本数据被标识成的类别相同的个数不小于设定值时,确定所述训练后的特征模型的分类精度可以满足要求,可以用于对用户输入的待识别样本数据进行分类,否则,确定所述训练后的特征模型的分类精度不满足要求,可以对特征模型继续进行训练,直到分类精度满足要求。
对用户输入的待识别样本数据进行分类的过程与对测试样本子集中的一个样本数据进行分类的过程(步骤301~步骤302)类似,后续不再进行重复说明。
与本申请实施例一~实施例五基于同一发明构思,提供以下的装置。
实施例六
本申请实施例六提供一种垃圾内容识别装置,该装置的结构可以如图6所示,包括接收模块11和预测模块12,预测模块12即可以理解为实施例三提供的图3中的预测机,其中:
接收模块11用于接收用户提供的待识别样本数据;预测模块12用于根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容,其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。
其中,所述预测模块12具体用于根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型,利用训练后的特征模型确定待识别样本数据的类别。
所述装置还包括确定模块13和训练模块14,训练模块14即可以理解为实施例三提供的图3中的训练机:
确定模块13用于从用户提供的样本集中确定训练样本子集,训练样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别;
训练模块14用于确定训练样本子集中设定数量的样本数据,针对所述设定数量的样本数据中的每个样本数据,利用该样本数据对特征模型进行训练,在利用所述设定数量的样本数据中的每个样本数据对特征模型进行训练后,得到训练后的特征模型。
确定模块13还用于从用户提供的样本集中确定测试样本子集,测试样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别,测试样本子集与训练样本子集没有交集;
所述装置还包括判断模块15:
判断模块15用于训练模块得到训练后特征模型之后,预测模块利用训练后特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别之前,利用训练后的特征模型将所述测试样本子集中的样本数据分类为垃圾内容类别和非垃圾内容类别,在所述测试样本子集中每个样本数据被分成的类别与该样本数据被标识成的类别相同的个数不小于设定值时,触发预测模块,否则,触发训练模块。
训练模块14具体用于对一个样本数据进行分解,获得属于所述特征集合的第一特征子集,利用该第一特征子集中的每个特征确定针对特征模型的统计结果;在该样本数据被标识为非垃圾内容类别,且所述统计结果大于第一设定门限值时,在特征模型中,针对该第一特征子集中每个特征,减小为标识为非垃圾内容类别的样本数据中该特征出现的条件概率设置的第二信任因子,将标识为非垃圾内容类别的样本数据中该特征的数量增加该样本数据中该特征的数量,并重新确定统计结果,否则,确定该样本数据训练结束,或者,在该样本数据被标识为垃圾内容类别,且该统计结果不大于第二设定门限值时,在特征模型中,针对该第一特征子集中每个特征,减小为标识为垃圾内容类别的样本数据中该特征出现的条件概率设置的第一信任因子,将标识为垃圾内容类别的样本数据中该特征的数量增加该样本数据中该特征的数量,并重新确定统计结果,否则,确定该样本数据训练结束。
预测模块12具体用于对用户提供的待识别样本数据进行分解,获得属于所述特征集合的第三特征子集,利用该第三特征子集中的每个特征确定针对训练后的特征模型的统计结果,在统计结果大于第二设定阈值时,将该待识别样本数据分类为垃圾内容类别,否则,将该待识别样本数据分类为非垃圾内容类别。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (7)

1.一种垃圾内容识别方法,其特征在于,所述方法包括:
接收待识别样本数据;
根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容;
其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的;
根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,具体包括:
根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型;
利用训练后的特征模型确定待识别样本数据的类别;
其中,所述特征模型通过以下公式表示:
P ( s p a m | χ ) 1 - P ( s p a m | χ ) = P ( s p a m ) Π i = 1 n P ( X i | s p a m ) θ ( s p a m , X i ) P ( h a m ) Π i = 1 n P ( X i | h a m ) θ ( h a m , X i ) ;
其中,χ={X1,X2,...Xn},表示特征Xi,i=1,2……n的集合;
P(spam|χ)表示特征集合χ发生的条件下,样本数据为垃圾内容类别的条件概率;
P(spam)表示出现标识为垃圾内容类别的样本数据的概率;
P(ham)表示出现标识为非垃圾内容类别的样本数据的概率;
P(Xi|spam)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率;
P(Xi|ham)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率;
θ(spam,Xi)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率的第一信任因子;
θ(ham,Xi)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率的第二信任因子。
2.如权利要求1所述的方法,其特征在于,通过以下方法确定训练后的特征模型:
从样本集中确定训练样本子集,训练样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别;
确定训练样本子集中设定数量的样本数据,针对所述设定数量的样本数据中的每个样本数据,利用该样本数据对特征模型进行训练,在利用所述设定数量的样本数据中的每个样本数据对特征模型进行训练后,得到训练后的特征模型。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
从样本集中确定测试样本子集,测试样本集中的每个样本数据被标识为垃圾内容类别或非垃圾内容类别,测试样本子集与训练样本子集没有交集;
则,得到训练后特征模型之后,利用训练后特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别之前,所述方法还包括:
利用训练后的特征模型将所述测试样本子集中的样本数据分类为垃圾内容类别和非垃圾内容类别;
在所述测试样本子集中每个样本数据被分成的类别与该样本数据被标识成的类别相同的个数不小于设定值时,利用训练后的特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别,否则,重新确定训练样本子集中设定数量的样本数据,继续对特征模型进行训练。
4.如权利要求1所述的方法,其特征在于,利用一个样本数据对特征模型进行训练,具体包括:
对该样本数据进行分解,获得属于所述特征集合的第一特征子集;
利用该第一特征子集中的每个特征确定针对特征模型的统计结果;
在该样本数据被标识为非垃圾内容类别,且所述统计结果大于第一设定门限值时,在特征模型中,针对该第一特征子集中每个特征,减小为标识为非垃圾内容类别的样本数据中该特征出现的条件概率设置的第二信任因子,将标识为非垃圾内容类别的样本数据中该特征的数量增加该样本数据中该特征的数量,并重新确定统计结果,否则,确定该样本数据训练结束;或者,
在该样本数据被标识为垃圾内容类别,且该统计结果不大于第二设定门限值时,在特征模型中,针对该第一特征子集中每个特征,减小为标识为垃圾内容类别的样本数据中该特征出现的条件概率设置的第一信任因子,将标识为垃圾内容类别的样本数据中该特征的数量增加该样本数据中该特征的数量,并重新确定统计结果,否则,确定该样本数据训练结束。
5.如权利要求1所述的方法,其特征在于,利用训练后的特征模型将测试样本子集中的样本数据分类为垃圾内容类别和非垃圾内容类别,具体包括:
针对测试样本子集中的每个样本数据,对该样本数据进行分解,获得属于所述特征集合的第二特征子集,利用该第二特征子集中的每个特征确定针对训练后的特征模型的统计结果;
在统计结果大于第一设定阈值时,将该样本数据分类为垃圾内容类别,否则,将该样本数据分类为非垃圾内容类别。
6.如权利要求1所述的方法,其特征在于,利用训练后的特征模型将用户提供的待识别样本数据分类为垃圾内容类别或非垃圾内容类别,具体包括:
对用户提供的待识别样本数据进行分解,获得属于所述特征集合的第三特征子集,利用该第三特征子集中的每个特征确定针对训练后的特征模型的统计结果;
在统计结果大于第二设定阈值时,将该待识别样本数据分类为垃圾内容类别,否则,将该待识别样本数据分类为非垃圾内容类别。
7.一种垃圾内容识别装置,其特征在于,所述装置包括:
接收模块,用于接收待识别样本数据;
预测模块,用于根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容,其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的;
所述预测模块,具体用于根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定特征模型,利用训练后的特征模型确定待识别样本数据的类别;
其中,所述特征模型通过以下公式表示:
P ( s p a m | χ ) 1 - P ( s p a m | χ ) = P ( s p a m ) Π i = 1 n P ( X i | s p a m ) θ ( s p a m , X i ) P ( h a m ) Π i = 1 n P ( X i | h a m ) θ ( h a m , X i ) ;
其中,χ={X1,X2,...Xn},表示特征Xi,i=1,2……n的集合;
P(spam|χ)表示特征集合χ发生的条件下,样本数据为垃圾内容类别的条件概率;
P(spam)表示出现标识为垃圾内容类别的样本数据的概率;
P(ham)表示出现标识为非垃圾内容类别的样本数据的概率;
P(Xi|spam)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率;
P(Xi|ham)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率;
θ(spam,Xi)表示标识为垃圾内容类别的样本数据中特征Xi出现的条件概率的第一信任因子;
θ(ham,Xi)表示标识为非垃圾内容类别的样本数据中特征Xi出现的条件概率的第二信任因子。
CN201210144007.1A 2012-05-10 2012-05-10 一种垃圾内容识别方法及装置 Active CN103389995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210144007.1A CN103389995B (zh) 2012-05-10 2012-05-10 一种垃圾内容识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210144007.1A CN103389995B (zh) 2012-05-10 2012-05-10 一种垃圾内容识别方法及装置

Publications (2)

Publication Number Publication Date
CN103389995A CN103389995A (zh) 2013-11-13
CN103389995B true CN103389995B (zh) 2016-11-23

Family

ID=49534271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210144007.1A Active CN103389995B (zh) 2012-05-10 2012-05-10 一种垃圾内容识别方法及装置

Country Status (1)

Country Link
CN (1) CN103389995B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104469709B (zh) * 2013-09-13 2018-08-10 联想(北京)有限公司 识别短信的方法及电子设备
CN104090961B (zh) * 2014-07-14 2017-07-04 福州大学 一种基于机器学习的社交网络垃圾用户过滤方法
CN105205131B (zh) * 2015-09-15 2019-03-26 北京金山安全软件有限公司 确定垃圾文件大小的方法和装置及电子设备
CN105828306A (zh) * 2016-03-15 2016-08-03 中国联合网络通信集团有限公司 一种垃圾短信检测方法及装置
CN107515873B (zh) * 2016-06-16 2020-10-16 阿里巴巴集团控股有限公司 一种垃圾信息识别方法及设备
CN107657286B (zh) * 2017-10-19 2020-05-05 北京字节跳动网络技术有限公司 一种广告识别方法及计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672912B2 (en) * 2006-10-26 2010-03-02 Microsoft Corporation Classifying knowledge aging in emails using Naïve Bayes Classifier

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于贝叶斯理论的中文垃圾邮件过滤算法研究;包理群;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100215;I139-95第25-26页 *
选择性加权朴素贝叶斯分类方法的探讨;彭浩威;《中国优秀硕士学位论文全文数据库 基础科学辑》;20110415;A002-233第26-28页 *

Also Published As

Publication number Publication date
CN103389995A (zh) 2013-11-13

Similar Documents

Publication Publication Date Title
CN103389995B (zh) 一种垃圾内容识别方法及装置
CN104391835B (zh) 文本中特征词选择方法及装置
US8942470B2 (en) Sentiment classification using out of domain data
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN106296195A (zh) 一种风险识别方法及装置
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN106372057A (zh) 内容的审核方法及装置
US11250368B1 (en) Business prediction method and apparatus
CN107368526A (zh) 一种数据处理方法及装置
CN112215696A (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN109784368A (zh) 一种应用程序分类的确定方法和装置
CN116611074A (zh) 安全信息审查方法、设备、存储介质及装置
CN106445908A (zh) 文本识别方法和装置
CN109800309A (zh) 课堂话语类型分类方法及装置
CN111539612B (zh) 一种风险分类模型的训练方法和***
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN109656615A (zh) 一种基于代码方法重要程度进行权限预警的方法
CN107169523A (zh) 自动确定机构的所属行业类别的方法、存储设备及终端
CN114529351A (zh) 一种商品类目预测方法、装置、设备及存储介质
Khan et al. Analysis of tree-family machine learning techniques for risk prediction in software requirements
CN109377436A (zh) 一种环境精准监管方法与装置、终端设备及存储介质
CN111666748B (zh) 一种自动化分类器的构造方法以及识别决策的方法
CN108628873A (zh) 一种文本分类方法、装置和设备
Garcia de Alford et al. Reducing age bias in machine learning: An algorithmic approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant