CN105183715B

CN105183715B - 一种基于词分布和文档特征的垃圾评论自动分类方法

Info

Publication number: CN105183715B
Application number: CN201510549592.7A
Authority: CN
Inventors: 王建翔; 顾庆; 喻黎霞; 陈道蓄
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2018-02-09
Anticipated expiration: 2035-08-31
Also published as: CN105183715A

Abstract

本发明公开了一种基于词分布和文档特征的垃圾评论自动分类方法，首先收集网络评论，对评论分词得到关键词集合；再建立词分布矩阵，训练语言模型，计算未标注网络评论属于正常评论和垃圾评论的分类概率；之后提取网络评论的文档特征，计算未标注网络评论的分类概率；最后对分类概率计算加权平均，重复上述步骤直到前后两次计算的分类概率相同或达到给定的迭代次数。该方法综合考虑网络评论中词分布特征和文档特征，通过自学习策略自动完成网络评论分类，帮助识别其中的垃圾评论的方法。本发明计算简单，通用性和扩展性强，只要少量具有标注的网络评论即可对大量的评论进行实时分类，适用于即时更新的网络评论中快速识别垃圾评论的应用需求。

Description

一种基于词分布和文档特征的垃圾评论自动分类方法

技术领域

本发明涉及计算机应用领域，特别是一种在海量因特网评论中辅助识别垃圾评论的自动分类方法。

技术背景

随着因特网技术的飞速发展，促生了多种新兴的网络通讯和交流方式。网络用户可以方便快捷的发表各种评论。网络交流以其良好的自由性、实时性和便捷性正在逐渐改变人们的沟通方式。

网络技术的发展具有两面性，用户发表评论的自由性和因特网强大的传播能力往往会被一些用户利用，将各种商业广告或恶意信息发布到网络评论中。近年来，垃圾评论在因特网中的蔓延趋势愈演愈烈，以垃圾评论为载体的各种商业广告，虚假宣传更是屡见不鲜。大量存在的垃圾评论不仅极大浪费了网络资源，而且恶意评论会虚造声势、传播负面消息，进而对社会产生负面影响。

因特网中巨大的用户数量和评论发表量对垃圾评论分类和识别带来挑战。目前针对网络中垃圾评论自动识别的分类研究还存在局限性：1)可扩展性不强，大多数分类方法只能针对特定的应用场景，很难进行扩展；2)抽取的特征单一，现有的分类方法只度量评论的相似性，没有综合考虑词分布特征和文档特征；3)对数据集的依赖性强，需要大量的评论标注；不能满足对因特网中垃圾评论自动分类的需求。

本发明方法应用到分词技术和Bayes分类器：单词是最小的具有独立意义的语法单元，汉语句子中的词之间没有明显的区分标记，需要采用分词技术将输入的汉语评论切分为具有独立意义的单词。Bayes分类器基于先验概率，采用贝叶斯公式计算目标评论属于正常评论和垃圾评论的分类概率，其分类结果是选择最大概率所对应的类别。本发明中涉及到自学习策略，自学习策略是一种半监督迭代式训练方法，适用于有标注的网络评论比例较少的情形；将前一轮迭代中得到的分类结果应用到下一轮迭代中，补充有标注的评论集合，从而提高分类结果的准确性。

发明内容

本发明所要解决的技术问题是提供一种基于词分布和文档特征的垃圾评论自动分类方法，该方法计算简单，通用性和扩展性强，只需要少量具有标注的网络评论即可对大量的评论进行实时分类。

为实现上述目的，本发明采用如下的步骤：

1)收集网络评论，对评论分词，得到关键词集合；

2)建立关键词分布矩阵，训练语言模型，计算未标注网络评论属于正常评论和垃圾评论的分类概率；

3)提取网络评论的文档特征，训练基于概率的Bayes分类器，计算未标注网络评论的分类概率；

4)对步骤2)和步骤3)中的分类概率计算加权平均，最后采用自学习策略重复上述步骤，直到前后两次计算的分类概率相同或达到给定的迭代次数。

上述步骤1)中收集网络评论并得到关键词集合的处理流程是：首先整合网络评论，得到网络评论集合：D＝{R₁,R₂…R_n}，其中R_i表示D中的一条评论(1≤i≤n)，n为评论总数；根据评论R_i是否带有标注(正常评论＝0，垃圾评论＝1)，将集合D划分为标注集和目标集，前者包含有标注的网络评论，后者包含没有标注的网络评论；标注集又分为正常评论集合N和垃圾评论集合S；

然后利用分词技术，对每一个网络评论分词；对分词后的网络评论，删除以下内容：

●URL链接；

●手机或座机号码；

●数字；

●表情符号和其他特殊的网络符号；

●停用词，包括语气助词、副词、介词、连接词和标点符号；

汇总所有的网络评论分词结果后，得到的关键词集合记为W＝{w₁,w₂…w_s}，其中s是网络评论集合D中所有不同的关键词的数量，w₁,w₂…w_s指各个关键词。

上述步骤2)中训练语言模型计算网络评论分类概率的处理流程是：首先建立词分布矩阵M^n×s和H^n×s，其中n指网络评论的总数，s指全部网络评论中不同的关键词的数量；矩阵元素M_(i,x)表示评论R_i中关键词w_x在标注集中正常评论下的计算值(1≤i≤n,1≤x≤s)，H_(i,x)表示评论R_i中关键词w_x在标注集中垃圾评论下的计算值，M_(i,x)和H_(i,x)的计算公式如下：

M_(i,x)＝TF_(i,x)×TDF_(N:x) (1)

H_(i,x)＝TF_(i,x)×TDF_(S:x) (2)

其中TF_(i,x)表示关键词w_x在评论R_i中出现的频率，计算方法是：统计w_x在评论R_i中出现的次数，记为g(R_i,w_x,)，则R_i中所有关键词出现的总次数为TF_(i,x)计算公式如下：

TDF_(N:x)表示关键词w_x在正常评论与垃圾评论中的分布比，TDF_(S:x)表示w_x在垃圾评论与正常评论中的分布比，令N表示正常评论集合，S表示垃圾评论集合，TDF_(N:x)和TDF_(S:x)的计算公式分别为：

其中，f(N,w_x)表示在正常评论集合N中包含w_x的文档数与不包含w_x的文档数的比值；f(S,w_x)表示在垃圾评论集合S中包含w_x的文档数与不包含w_x的文档数的比值，f(N,w_x)和f(S,w_x)的计算公式分别为：

其中常数ζ用来保证分子分母都不为0，ζ＝0.05；

然后根据词分布矩阵，计算关键词的平均权重；给定关键词w_x，令U(w_x,1)和U(w_x,0)分别表示在标注集中，w_x在垃圾评论中的算术平均值和在正常评论中的算数平均值；U(w_x,1)和U(w_x,0)的计算公式分别为：

其中M_(i,x)和H_(i,x)是词分布矩阵中的元素；将U(w_x,1)和U(w_x,0)归一化，得到关键词w_x的相对权重V(w_x,1)和V(w_x,0):

最后训练一元语言模型，计算网络评论的分类概率；对没有标注的网络评论所构成的目标集T＝{R₁,R₂…R_m}，m代表集合T中评论的数量；对T中的每一个评论R_i，统计每个关键词w_x在R_i中出现的次数g(R_i,w_x)，再根据关键词w_x的相对权重，分别计算R_i属于垃圾评论的概率和属于正常评论的概率其中L(R_i)指对评论R_i的标注：

上述步骤3)中训练Bayes分类器计算网络评论分类概率的处理流程是：首先提取每一个网络评论的文档特征，对评论R_i，统计以下8个文档特征，构成评论R_i的文档特征向量ηi＝{η₁,η₂…η₈}:

η₁:是否含有URL，若是η₁＝1否则η₁＝0；

η₂:是否含手机号码或座机号码，若是η₂＝1否则η₂＝0；

η₃:英文字符占总字数的比例；

η₄:数字字符占总字数的比例；

η₅:表情符号和其他网络符号占总字数的比例；

η₆:该评论对应的用户发布正常评论与垃圾评论个数的比值；

η₇:该评论对应的用户的平均评论间隔(单位为秒)；

η₈:该评论对应的用户的平均单日评论量；

然后输入标注集中所有网络评论的文档特征向量及其对应标注，训练Bayes分类器；接下来，对目标集T＝{R₁,R₂…R_m}中的每一个评论R_i，将其文档特征向量提交给训练好的Bayes分类器，计算评论R_i是垃圾评论的概率以及正常评论的概率

上述步骤4)中采用自学***均法，整合步骤2)和步骤3)计算的分类概率；计算评论R_i属于垃圾评论的概率P₁ ⁱ和属于正常评论的概率P₀ ⁱ，计算公式如下：

其中λ是权重，设置为λ＝0.3；和分别是步骤2)中计算的垃圾评论概率和正常评论概率；和分别是步骤3)中计算的垃圾评论概率和正常评论概率；

然后计算评论R_i的置信度σ＝|P₀ ⁱ－P₁ ⁱ|；移出目标集T中置信度最大的前若干个评论，比如5％。如果P₁ ⁱ>P₀ ⁱ，则标注为垃圾评论，否则标注为正常评论，分别补充到标注集的垃圾评论集合S或者正常评论集合N中；

最后采用新的标注集和目标集，重新训练语言模型和Bayes分类器并计算分类结果，直到前后两次迭代得到的目标集和标注集不再发生变化，或者迭代次数达到一定次数，比如50次为止；目标集中剩余的网络评论按正常评论处理。

本发明方法在考虑网络评论文档特征的同时，充分挖掘了正常评论和垃圾评论中关键词的分布差异，同时采用自学习策略，极大减小了对人工标注的依赖；实际验证表明，本发明方法分类结果具有较高的准确性，能够部分替代人工识别工作，减少人力成本。本发明方法计算简单快速，通用性和扩展性强，适用于因特网环境下网络评论即时更新的应用场景。

附图说明

图1是基于词分布和文档特征的垃圾评论自动分类方法的总体框架；

图2是建立词分布矩阵训练语言模型并计算分类概率的执行流程；

图3是基于文档特征训练分类器计算分类概率的执行流程；

图4是应用自学习策略完成垃圾评论自动分类的技术框架。

具体实施方式

图1所示是基于词分布和文档特征的垃圾评论自动分类方法的总体框架。方法的输入是少量有标注的网络评论(即人工标注了网络评论是正常评论或垃圾评论，构成标注集)，和大量无标注的待分类评论(构成目标集)。方法的输出是对网络评论的分类：正常评论标注为0；垃圾评论标注为1。本发明方法包含以下四个主要步骤：1)收集网络评论，对评论分词，得到关键词集合；2)建立词分布矩阵，训练语言模型，计算未标注网络评论属于正常评论和垃圾评论的分类概率；3)提取网络评论的文档特征，训练基于概率的Bayes分类器，计算未标注网络评论的分类概率；4)对步骤2)和步骤3)中的分类概率计算加权平均，最后采用自学习策略重复上述步骤，直到前后两次计算的分类概率相同或达到给定的迭代次数。

本发明方法的第一个步骤是整合网络评论并提取关键词集合；首先整合网络评论，得到网络评论集合：D＝{R₁,R₂…R_n}，其中R_i表示D中的一条评论(1≤i≤n)，n为评论总数；根据评论R_i是否带有标注(正常评论＝0，垃圾评论＝1)，将集合D划分为标注集和目标集，前者包含有标注的网络评论，后者包含没有标注的网络评论；标注集又分为正常评论集合N和垃圾评论集合S；

●URL链接；

●手机或座机号码；

●数字；

●表情符号和其他特殊的网络符号；

汇总所有的网络评论分词结果后，得到的关键词集合记为W＝{w₁,w₂…w_s}，其中s是网络评论集合D中所有不同的关键词的数量。

本发明方法的第二个步骤是建立词分布矩阵训练语言模型计算分类概率；执行流程如图2所示。首先建立词分布矩阵M^n×s和H^n×s，其中n指网络评论的总数，s指全部网络评论中不同的关键词的数量；矩阵元素M_(i,x)表示评论R_i中关键词w_x在标注集中正常评论下的计算值(1≤i≤n,1≤x≤s)，H_(i,x)表示评论R_i中关键词w_x在标注集中垃圾评论下的计算值，M_(i,x)和H_(i,x)的计算公式如下：

M_(i,x)＝TF_(i,x)×TDF_(N:x) (1)

H_(i,x)＝TF_(i,x)×TDF_(S:x) (2)

TDF_(N:x)表示关键词w_x在正常评论(N表示正常评论集合)与垃圾评论中的分布比，TDF_(S:x)表示w_x在垃圾评论(S表示垃圾评论集合)与正常评论中的分布比，TDF_(N:x)和TDF_(S:x)的计算公式分别为：

其中常数ζ用来保证分子分母都不为0，ζ＝0.05。

其中M_(i,x)和H_(i,x)是词分布矩阵中的元素；将U(w_x,1)和U(w_x,0)归一化，得到关键词w_x的相对权重V(w_x,1)和V(w_x,0)：

本发明方法的第三个步骤是提取文档特征训练Bayes分类器计算分类概率；执行流程如图3所示。首先提取每一个网络评论的文档特征，对评论R_i，统计以下8个文档特征，构成评论R_i的文档特征向量η_i＝{η₁,η₂…η₈}:

η₁:是否含有URL，若是η₁＝1否则η₁＝0；

η₂:是否含手机号码或座机号码，若是η₂＝1否则η₂＝0；

η₃:英文字符占总字数的比例；

η₄:数字字符占总字数的比例；

η₅:表情符号和其他网络符号占总字数的比例；

η₇:该评论对应的用户的平均评论间隔(单位为秒)；

η₈:该评论对应的用户的平均单日评论量；

本发明方法的第四个步骤是采用加权平均法计算垃圾评论概率；随后采用自学***均法，整合步骤2)和步骤3)计算的分类概率；计算评论R_i属于垃圾评论的概率P₁ ⁱ和属于正常评论的概率P₀ ⁱ，计算公式如下：

其中λ是权重，设置为λ＝0.3；

然后计算评论R_i的置信度σ＝|P₀ ⁱ－P₁ ⁱ|；移出目标集T中置信度最大的前5％个评论，如果P₁ ⁱ>P₀ ⁱ，则标注为垃圾评论，否则标注为正常评论，分别补充到标注集的垃圾评论集合S或者正常评论集合N中。

最后采用新的标注集和目标集，重复步骤2和步骤3，直到前后两次分类结果相同，即目标集和标注集不再发生变化，或者迭代次数达到50为止；目标集中剩余的网络评论按正常评论处理。

本发明方法应用分词技术获得网络评论的关键词集合；统计关键词的词分布矩阵，训练语言模型，计算目标网络评论属于正常评论和垃圾评论的分类概率；其次提取网络评论的文档特征，训练基于概率的Bayes分类器，计算目标网络评论的分类；采用加权平均法综合上述两步分类结果，最后采用自学习策略迭代训练，提高分类结果的准确性。本发明方法计算简单，能够快速准确地完成网络评论分类，辅助识别其中的垃圾评论；通用性和扩展性强，只要求少量具有标注的网络评论，即可对大量的网络评论进行实时分类，满足因特网环境下，在即时更新的网络评论中快速识别垃圾评论的应用需求。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于词分布和文档特征的垃圾评论自动分类方法，其特征在于包含以下步骤：

1)收集网络评论，对评论分词，得到关键词集合；其具体过程是：首先整合网络评论，得到网络评论集合D：D＝{R₁,R₂…R_n}，其中R_i表示D中的一条评论，1≤i≤n，n为评论总数；根据评论R_i是否带有标注，其中正常评论＝0，垃圾评论＝1；将集合D划分为标注集和目标集，前者包含有标注的网络评论，后者包含没有标注的网络评论；标注集又分为正常评论集合N和垃圾评论集合S；

然后利用分词技术，对每一个网络评论分词；对分词后的网络评论，删除不必要的内容：

汇总所有的网络评论分词结果后，得到的关键词集合记为W＝{w₁,w₂…w_s}，其中s是网络评论集合D中所有不同的关键词的数量，w₁,w₂…w_s指各个关键词；

2)建立关键词分布矩阵，训练语言模型，计算未标注网络评论属于正常评论和垃圾评论的分类概率；其具体过程是：首先建立词分布矩阵M^n×s和H^n×s，其中n指网络评论的总数，s指全部网络评论中不同的关键词的数量；矩阵元素M_(i,x)表示评论R_i中关键词w_x在标注集中正常评论下的计算值，1≤i≤n,1≤x≤s，H_(i,x)表示评论R_i中关键词w_x在标注集中垃圾评论下的计算值，M_(i,x)和H_(i,x)的计算公式如下：

M_(i,x)＝TF_(i,x)×TDF_(N:x) (1)

H_(i,x)＝TF_(i,x)×TDF_(S:x) (2)

其中TF_(i,x)表示关键词w_x在评论R_i中出现的频率，计算方法是：统计w_x在评论R_i中出现的次数，记为g(R_i,w_x,)，则R_i中所有关键词出现的总次数为TF_(i,x)计算公式如下:

<mrow> <msub> <mi>TF</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中常数ζ用来保证分子分母都不为0，ζ＝0.05；

然后根据词分布矩阵，计算关键词的平均权重；给定关键词w_x，令U(w_x,1)和U(w_x,0)分别表示在标注集中,w_x在垃圾评论中的算术平均值和在正常评论中的算数平均值；U(w_x,1)和U(w_x,0)的计算公式分别为：

<mrow> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>H</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> </msub> </mrow> <mrow> <mo>|</mo> <mrow> <mo>{</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>S</mi> <mo>}</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>U</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>M</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> </msub> </mrow> <mrow> <mo>|</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>N</mi> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

最后训练一元语言模型，计算网络评论的分类概率；对没有标注的网络评论所构成的目标集T＝{R₁,R₂…R_m}，m代表集合T中评论的数量；对T中的每一个评论R_i，统计每个关键词w_x在R_i中出现的次数g(R_i,w_x)，再根据关键词w_x的相对权重，分别计算R_i属于垃圾评论的概率P_(L(Ri)＝1)和属于正常评论的概率P_(L(Ri)＝0)，其中L(R_i)指对评论R_i的标注：

<mrow> <msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <mrow> <mo>(</mo> <mi>g</mi> <mo>(</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> <mo>&times;</mo> <mi>l</mi> <mi>g</mi> <mi>V</mi> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>0</mn> <mo>)</mo> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <mrow> <mo>(</mo> <mi>g</mi> <mo>(</mo> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> </mrow> <mo>)</mo> <mo>&times;</mo> <mi>lg</mi> <mi>V</mi> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>,</mo> <mn>0</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

2.根据权利要求1所述的基于词分布和文档特征的垃圾评论自动分类方法，其特征在于，所述不必要的内容包括URL链接；手机或座机号码；数字；表情符号和特殊的网络符号；停用词，包括语气助词、副词、介词、连接词和标点符号。

3.根据权利要求1或2所述的基于词分布和文档特征的垃圾评论自动分类方法，其特征在于，上述步骤3)的过程是：首先提取每一个网络评论的文档特征，对评论R_i，统计以下8个文档特征，构成评论R_i的文档特征向量η_i＝{η₁,η₂…η₈}:

η₁:是否含有URL，若是η₁＝1否则η₁＝0；

η₂:是否含手机号码或座机号码，若是η₂＝1否则η₂＝0；

η₃:英文字符占总字数的比例；

η₄:数字字符占总字数的比例；

η₅:表情符号和其他网络符号占总字数的比例；

η₇:该评论对应的用户的平均评论间隔，单位为秒；

η₈:该评论对应的用户的平均单日评论量；

4.根据权利要求3所述的基于词分布和文档特征的垃圾评论自动分类方法，其特征在于，上述步骤4)的过程是：首先采用加权平均法，整合步骤2)和步骤3)计算的分类概率；计算评论R_i属于垃圾评论的概率P₁ ⁱ和属于正常评论的概率P₀ ⁱ，计算公式如下：

<mrow> <msubsup> <mi>P</mi> <mn>1</mn> <mi>i</mi> </msubsup> <mo>=</mo> <msub> <mi>&lambda;P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>&eta;</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>1</mn> <mo>)</mo> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>P</mi> <mn>0</mn> <mi>i</mi> </msubsup> <mo>=</mo> <msub> <mi>&lambda;P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>0</mn> <mo>)</mo> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>(</mo> <msub> <mi>&eta;</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>=</mo> <mn>0</mn> <mo>)</mo> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>

然后计算评论R_i的置信度σ＝|P₀ ⁱ－P₁ ⁱ|；移出目标集T中置信度最大的前若干个评论，如果P₁ ⁱ>P₀ ⁱ，则标注为垃圾评论，否则标注为正常评论，分别补充到标注集的垃圾评论集合S或者正常评论集合N中；

最后采用新的标注集和目标集，重新训练语言模型和Bayes分类器并计算分类结果，直到前后两次迭代得到的目标集和标注集不再发生变化，或者迭代次数达到设定次数为止；目标集中剩余的网络评论按正常评论处理。