CN103020482A

CN103020482A - 一种基于关系的垃圾评论检测方法

Info

Publication number: CN103020482A
Application number: CN2013100025837A
Authority: CN
Inventors: 张卫丰; 王云; ***; 张迎周; 王子元; 周国富; 钱小燕; 许碧欢; 陆柳敏
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2013-01-05
Filing date: 2013-01-05
Publication date: 2013-04-03

Abstract

利用基于关系的垃圾评论检测方法，是一种基于网购的评论者，评论以及店家的关系特征的检测方法。提出了评论者的可信度，评论的诚实度以及店家的可靠度的概念，并引出了三者相互关系：评论者所写的评论的诚实度越高，他的可信度就越高；店家拥有的来自可信的评论者的诚实评论越多，他的可靠度就越高；评论被其他诚实评论支持的个数越多，他的诚实度就越高。第一次提出这样的迭代关系，并将其应用到实际的检测工作中。利用关系特征建模，并将这个模型和三者的其他特征所得到的模型相结合，得到改进后的用于垃圾评论检测的模型。

Description

一种基于关系的垃圾评论检测方法

技术领域

本发明涉及一种基于关系的垃圾评论检测的方法，主要是分析评论者、评论以及店家三者之间的相互关系特征，并提出了基于这个关系的模型，将这个模型和根据三者的其他特征所得到的模型相结合，达到对垃圾评论进行检测的目的。主要解决了当今技术为垃圾评论检测所提出的模型的单一性和局限性等问题，属于机器学习和数据挖掘领域。

背景技术

网上购物评论为顾客比较商品质量，店家服务和许多其他方面提供了有价值的信息。但现在出现垃圾评论者，他们的目的是通过发布虚假或不公平的评论，误导正常的顾客对商品或店家的印象。比如职业差评师，顾名思义，就是靠给别人差评生活的人,是由淘宝网催生的新兴职业。

在更广阔的领域，大多数关于垃圾活动的研究主要集中在网页和邮件领域.网页上的垃圾行为分为两大类：垃圾内容和垃圾链接。垃圾链接是在超链接上的垃圾行为，由于评论中一般不存在链接，所以垃圾链接不会出现在垃圾评论中。内容垃圾是指在网页中添加不相关的文字，以此欺骗搜索引擎。评论者不会在他们的评论中添加不相关的文字。垃圾邮件通常是指发送未经同意的商业广告。尽管在评论中会出现广告，但数量毕竟很少。

前期的垃圾评论检测算法都是使用评论者的行为辨别垃圾评论者，例如，评论文本的相似度，评分的相似度和偏差，垃圾评论的商品数量等。根据已有的研究，这些行为对特定类型的垃圾评论活动有效。例如，评论者在对相同商品的各种评论中使用大量的相似文本，评论者在短期内频繁的给不同的商品的评分异常的高或低，这个评论者很可能就是垃圾评论者。

Nitin和Liu于2008年首次提出了关于垃圾评论检测的问题。将垃圾评论分成三种类型：不真实的评论，只针对品牌的评论，没有评论内容的评论。使用监听的方法检测垃圾评论:首先，抽取一个关于评论，评论者和商品的特征集；然后，主要使用文本相似度和一些人工手段标识垃圾评论。基于这些特征和训练数据构造一个分类器，用于检测垃圾评论。该方法很大程度依赖于文本相似度，只对这种类型的垃圾评论行为有效果。

Jindal于2010年提出一种使用挖掘意外规则的算法检测垃圾评论。将每条评论看成与某个评价类相关的记录，这个评论类包括正面的评价类，否定的评价类以及中立的评价类。使用意外规则挖掘算法生成一个意外规则列表。然而这个方法不能区分真正的垃圾评论者，只能找到一些作为意外规则的奇怪行为。

Lim在2010年提出另一种基于评论者行为的垃圾评论检测方法。他们发现了许多垃圾评论行为的特征，例如，单一商品或一组商品上的各种评价或评论以及评分偏差。每个评论者在这些特征上获得不同的分数，再将这些分数进行线性结合，最后的总得分就是这个评论者的怀疑度。这个方法是非监督的，节省了许多人工标识的花费。然而，根据他们的研究本质上还是依赖于文本相似度。因此，也只能用于一些特殊类型的垃圾评论检测。

以上的各种方法的不足之处还在于，都只研究利用垃圾评论的文本或评分特征，这具有局限性。因此，迫切需要一种新的方法来检测垃圾评论。因为在网购中，评论者，评论，店家三者是不可孤立的个体，三者间存在许多内在的关系。因此找出这三者之间的关系，并将其应用到垃圾评论检测工作中，再找出该特征与其他行为特征的依赖关系，这将大大提高检测工作的精确度。

发明内容

技术问题：本发明的目的是提供一种新颖的基于关系的垃圾评论检测的方法。针对评论者、评论以及店家三者之间的关系特征，利用这个特征进行建模，将这个模型和根据三者的固有特征所得到的模型相结合，得到三个分别代表评论者、评论以及店家的相互联系的模型。最后，利用这些模型得到评论者的可信度、评论的诚实度以及店家的可靠度，根据一定的标准以达到检测垃圾评论的目的。

技术方案：本发明提出的基于关系的垃圾评论检测方法，是一种基于网购的评论者，评论以及店家的关系特征的检测方法。提出了评论者的可信度，评论的诚实度以及店家的可靠度的概念，并引出了三者相互关系：评论者所写的评论的诚实度越高，他的可信度就越高；店家拥有的来自可信的评论者的诚实评论越多，他的可靠度就越高；评论被其他诚实评论支持的个数越多，他的诚实度就越高。在当前垃圾评论检测的方法中，第一次提出这样的迭代关系，并将其应用到实际的检测工作中。利用这个的关系特征进行建模，将这个模型和三者的其他特征所得到的模型相结合，得到改进后的用于垃圾评论检测的模型。

基于关系的垃圾评论检测方法主要分为以下步骤：

步骤1）计算评论的诚实度分数：

步骤1.1）输入评论集合信息：

步骤1.2）获取所有评论的评分值和评论时间；

步骤1.3）计算评分的平均值和最早评论时间；

步骤1.4）获取一个评论信息；

步骤1.5）判断评论信息是否为空，如果不为空，则转步骤1.6），否则，转步骤1.10）；

步骤1.6）计算评论诚实度分数：

步骤1.6.1）获取该评论的评分值；

步骤1.6.2）根据步骤1.3）的平均值，计算评分差；

步骤1.6.3）获取该评论的评论时间；

步骤1.6.4）根据步骤1.3）的最早评论时间，计算评论时间差；

步骤1.6.5）获取该评论的评论文本；

步骤1.6.6）根据余弦定理，计算评论文本的文本相似度；

步骤1.6.7）根据步骤1.6.2）的评分差IRD、步骤1.6.4）的时间差IETF、步骤1.6.6）的相似度ICS，计算评论的诚实度分数A：

A＝β₁IRD+β₂ICS+β₃IETF (1)

其中β₁，β₂，β₃为常量，且满足β₁+β₂+β₃＝1；

步骤1.7）更新评论的诚实度属性；

步骤1.8）获取下一个评论信息；

步骤1.9）判断该评论信息是否为空，若为空，转步骤1.10），否则，转步骤1.2）；

步骤1.10）输出评论诚实度分数；

步骤2）计算店家可靠度：

步骤2.1）设置变量h=1;

步骤2.2）获取第h个店家信息；

步骤2.3）判断店家是否为空，若不为空，转步骤2.4），否则，转步骤2.8）；

步骤2.4）计算店家的可靠度分数：

步骤2.4.1）获取该店家的商品相符度、卖方服务、商品服务、商品价格、货物配送的量化信息；

步骤2.4.2）计算“S”型得分：

S (x) = \{\begin{matrix} α \sqrt[3]{x - β} + γ, & x &GreaterEqual; 0 \\ 0, & x < 0 \end{matrix} - - - (2)

其中α、β、λ均为常量，x是店家的量化信息；

步骤2.4.3）生成评分的权值向量；

步骤2.4.4）步骤2.4.2）中的“S”型得分乘以权值向量，获得可靠度分数；

步骤2.5）更新店家的可靠度属性；

步骤2.6）h=h+1，转步骤2.2）；

步骤2.8）输出店家的可靠度分数；

步骤3）计算评论者的可信度：

步骤3.1）获取所有评论者信息；

步骤3.2）获取一条评论者信息；

步骤3.3）判断评论者信息是否为空，若不为空，转步骤3.4），否则，转步骤3.8）；

步骤3.4）计算评论者的可信度分数：

步骤3.4.1）获取该评论者的交易金额，信用度信息；

步骤3.4.2）获得对应的评分值；

步骤3.4.3）生成评分值的权重向量；

步骤3.4.4）步骤3.4.2）的评分值乘以权重向量，获得评论者的可信度分数；

步骤3.5）更新评论者的可信度属性；

步骤3.6）获取下一个评论者信息，转步骤3.3）；

步骤3.8）输出评论者的可信度分数；

步骤4）初始化迭代次数为0；

步骤5）更新评论的诚实度分数；

步骤5.1）获取关系模型：

H (r) = R (s) (\frac{2}{1 + e^{T (r)}} - 1) - - - (3)

其中，R(s)为店家s的可靠度分数，T(r)为评论者r的可信度分数；

步骤5.2）计算评论的诚实度分数：

步骤5.2.1）获取发表该评论的评论者的可信度分数；

步骤5.2.2）获取评论所评论的店家的可靠度分数；

步骤5.3.3）根据步骤5.1）的模型计算诚实度分数；

步骤5.4）更新评论的诚实度属性信息；

步骤5.5）输出更新后的评论的诚实度分数；

步骤6）更新评论者的可信度分数：

步骤6.1）获取关系模型：

T (r) = \frac{2}{1 + e^{H (r)}} - 1 - - - (4)

其中，H(r)为评论r的诚实度分数；

步骤6.2）计算评论者的可信度分数：

步骤6.2.1）获得该评论者所发表的所有评论的诚实度；

步骤6.2.2）根据步骤6.1）的模型计算评论者的可信度分数；

步骤6.3）更新评论者的可信度属性信息；

步骤6.4）输出更新后的评论者的可信度分数；

步骤7）更新店家的可靠度分数：

步骤7.1）获取关系模型：

R (s) = \frac{2}{1 + e^{- θ}} - 1 - - - (5)

θ = \underset{v &Element; U_{s}, T (k_{v}) > 0}{Σ} T (k_{v}) (Ψ_{v} - μ) - - - (6)

其中，T(k_v)是发表评论v的评论者k_v的可信度，Ψ_v是评论v的评分，μ是***评论的平均值；

步骤7.2）计算店家的可靠度分数：

步骤7.2.1）获取该店家的评论者的可信度分数；

步骤7.2.2）获取评论者的所有评论的评分；

步骤7.2.3）根据步骤7.1）的模型计算店家的可靠度分数；

步骤7.3）更新店家的可靠度属性；

步骤8）迭代次数加1；

步骤9）判断迭代次数是否小于5，若是，转步骤5），否则，转步骤10）；

步骤10）输出店家的可靠度分数、评论的诚实度分数、评论者的可信度分数；

步骤11）输出检测结果：正常评论、垃圾评论；正常评论者、垃圾评论者。

有益效果：本发明对比已有的技术，具有以下创新点：

针对评论者、评论以及店家三者的内在依赖关系，提出了基于这个关系的模型，将这个模型和根据三者的其他特征所得到的模型相结合。

总之，通过使用本方法，得到了具有很好的参考价值和决策价值的结果，提高了垃圾评论检测的精度和召回率。

附图说明

图1检测垃圾评论流程图；

图2计算店家可靠度流程图；

图3计算评论诚实度流程图；

图4计算评论者可信度流程图。

具体实施方式

基于关系的垃圾评论检测方法，产用Eclipse为开发工具，MATLAB与yaahp层次分析法软件相结合做数据分析。其中详细步骤如下，见图1。

1、一种基于关系的垃圾评论检测方法，其特征在于该方法主要分为以下步骤：

步骤1）构建评论诚实度模型：从评论所给出的评分，评论与其他评论的文本相似度，评论发布的时间三个方面构建模型，如图3所见。

步骤1.1）根据所有评论的信息，计算评分的平均值和最早评论时间；

步骤1.2）根据评论的评分分数值，计算评分值与评分的平均值的差：

D (p) = \frac{| r_{p - \overset{&OverBar;}{r_{p}}} |}{4} - - - (1)

其中，r_p是这个评论所给商品P的评分，

是商品p所得到的评论的平均分，最大评分差为4，D(p)计算评论的评分和商品平均分的偏差度。

步骤1.3）根据评论的评论时间，计算评论时间与最早评论时间的时间差：

垃圾评论者为了产生较大的影响，经常在较早的时间发布错误的信息，所以评论的发布时间离商品评论最早发布时间越近，为垃圾评论的可能性越大。

GTF (p) = \{\begin{matrix} 0 & if T (p) - A (p) > β \\ 1 - \frac{T (p) - A (p)}{β} & otherwise \end{matrix} - - - (2)

其中，T(p)是得到评论的时间，A(p)是商品P最早得到的评论时间，β是时间门限，如果时间差超过该门限，则表示为垃圾评论的可能性为0。GTF(p)计算评论发布时间差。

步骤1.4）根据评论的评论文本，计算评论文本的文本相似度：

垃圾评论者可能会重复评论该商品，由于每次都写不一样内容的评论很累，所以评论文本也是复制或相近复制其他评论文本，所以当文本的相似度越高，为垃圾评论的可能性越大。

ICS＝avg(cosine(c(p))) (3)

其中，c(p)是商品p的一个评论文本，cosine(c(p))使用基于向量空间余弦相似算法计算和其他评论的文本相似度。ICS计算几个文本相似度的平均值。

步骤1.5）将评分差、时间差、文本相似度线性结合，计算评论的诚实度分数。

A(r)＝β₁IRD(p)+β₂ICS(p)+β₃IETF(p) (4)

其中

β_{1} = \frac{1}{5},

β_{2} = \frac{2}{5},

β_{3} = \frac{2}{5};

步骤2）计算店家可靠度：是根据买方在交易结束后对商品相符度、卖方服务、商品服务、商品价格、货物配送五个方面的满意程度进行打分，结合各自的权值构建模型。如图2所见。

步骤2.1）根据店家的商品相符度、卖方服务、商品服务、商品价格、货物配送信息构造评分函数：

当用户满意度从很好变到较好时，其得分变化应该比较缓慢；从较好到很差时，其得分变化应该比较大。这是因为用户满意度发生了质变；且满意度越差，得分越低，所以评分函数为：

S (x) = \{\begin{matrix} α \sqrt[3]{x - β} + γ, & x &GreaterEqual; 0 \\ 0, & x < 0 \end{matrix} - - - (5)

其中α，β，λ为常量，x店家信息量化值。

步骤2.2）通过评分函数计算各信息的评分值；

步骤2.3）将评分值线性结合，得到店家的可靠度分数；

步骤3）计算评论者的可信度：从本次交易金额，买方信用度两个方面构建评分函数模型，如图4所见。

步骤3.1）获取所有评论者信息；

步骤3.2）根据评论者的交易金额、信用度信息计算对应的评分值以及评分值的权重向量；

步骤3.3）根据评论值和权重向量计算评论者的可信度分数；

步骤4）更新评论的诚实度：即使一个评论与其周围其他评论不一致，而该评论是由可信的评论者发表，周围其他评论是由不可信的评论者发表，那么该评论仍然是诚实的评论：

步骤4.1）根据评论诚实度关系模型计算诚实度分数：

H (r) = R (s) (\frac{2}{1 + e^{T (r)}} - 1) - - - (9)

其中，R(s)为店家的可靠度分数，T(r)为评论者的可信度分数。

步骤4.3）更新评论的诚实度属性信息；

步骤5）更新评论者的可信度：评论者的可信度的高低取决于他所发表的正面评论和负面评论的多少。所发表的评论的诚实度分数总和越高，该评论者的可信度越高；

步骤5.1）根据评论者可信度关系模型计算可信度分数：

T (r) = \frac{2}{1 + e^{H (r)}} - 1 - - - (10)

其中，H(r)为评论的诚实度分数。

步骤5.3）更新评论者的可信度属性信息；

步骤6）更新店家的可靠度：店家的可靠度主要依赖于所有可信评论者所做的评论。拥有的由可信评论者做的正面评论越多，店家的可靠度越高；

步骤6.1）根据店家可靠度关系模型计算可靠度分数：

R (s) = \frac{2}{1 + e^{- θ}} - 1 - - - (11)

θ = \underset{v &Element; U_{s}, T (k_{v}) > 0}{Σ} T (k_{v}) (Ψ_{v} - μ) - - - (12)

其中，T(k_v)是评论者的可信度，Ψ_v是该评论者所发评论的评分，μ是***评论的平均值。

步骤6.3）更新店家的可靠度属性；

步骤7）输出店家的可靠度分数、评论的诚实度分数、评论者的可信度分数；

步骤8）输出检测结果：正常评论、垃圾评论；正常评论者、垃圾评论者。

Claims

1.一种基于关系的垃圾评论检测方法，其特征在于该方法主要分为以下步骤：

步骤1）计算评论的诚实度分数：

步骤1.1）输入评论集合信息：

步骤1.2）获取所有评论的评分值和评论时间；

步骤1.3）计算评分的平均值和最早评论时间；

步骤1.4）获取一个评论信息；

步骤1.6）计算评论诚实度分数：

步骤1.6.1）获取该评论的评分值；

步骤1.6.2）根据步骤1.3）的平均值，计算评分差；

步骤1.6.3）获取该评论的评论时间；

步骤1.6.5）获取该评论的评论文本；

步骤1.6.6）根据余弦定理，计算评论文本的文本相似度；

A＝β₁IRD+β₂ICS+β₃IETF (1)

其中β₁，β₂，β₃为常量，且满足β₁+β₂+β₃＝1；

步骤1.7）更新评论的诚实度属性；

步骤1.8）获取下一个评论信息；

步骤1.10）输出评论诚实度分数；

步骤2）计算店家可靠度：

步骤2.1）设置变量h=1;

步骤2.2）获取第h个店家信息；

步骤2.4）计算店家的可靠度分数：

步骤2.4.2）计算“S”型得分：

S (x) = \{\begin{matrix} α \sqrt[3]{x - β} + γ, & x &GreaterEqual; 0 \\ 0, & x < 0 \end{matrix} - - - (2)

其中α、β、λ均为常量，x是店家的量化信息；

步骤2.4.3）生成评分的权值向量；

步骤2.5）更新店家的可靠度属性；

步骤2.6）h=h+1，转步骤2.2）；

步骤2.8）输出店家的可靠度分数；

步骤3）计算评论者的可信度：

步骤3.1）获取所有评论者信息；

步骤3.2）获取一条评论者信息；

步骤3.4）计算评论者的可信度分数：

步骤3.4.1）获取该评论者的交易金额，信用度信息；

步骤3.4.2）获得对应的评分值；

步骤3.4.3）生成评分值的权重向量；

步骤3.5）更新评论者的可信度属性；

步骤3.6）获取下一个评论者信息，转步骤3.3）；

步骤3.8）输出评论者的可信度分数；

步骤4）初始化迭代次数为0；

步骤5）更新评论的诚实度分数；

步骤5.1）获取关系模型：

H (r) = R (s) (\frac{2}{1 + e^{T (r)}} - 1) - - - (3)

步骤5.2）计算评论的诚实度分数：

步骤5.2.1）获取发表该评论的评论者的可信度分数；

步骤5.2.2）获取评论所评论的店家的可靠度分数；

步骤5.3.3）根据步骤5.1）的模型计算诚实度分数；

步骤5.4）更新评论的诚实度属性信息；

步骤5.5）输出更新后的评论的诚实度分数；

步骤6）更新评论者的可信度分数：

步骤6.1）获取关系模型：

T (r) = \frac{2}{1 + e^{H (r)}} - 1 - - - (4)

其中，H(r)为评论r的诚实度分数；

步骤6.2）计算评论者的可信度分数：

步骤6.2.1）获得该评论者所发表的所有评论的诚实度；

步骤6.2.2）根据步骤6.1）的模型计算评论者的可信度分数；

步骤6.3）更新评论者的可信度属性信息；

步骤6.4）输出更新后的评论者的可信度分数；

步骤7）更新店家的可靠度分数：

步骤7.1）获取关系模型：

R (s) = \frac{2}{1 + e^{- θ}} - 1 - - - (5)

θ = \underset{v &Element; U_{s}, T (k_{v}) > 0}{Σ} T (k_{v}) (Ψ_{v} - μ) - - - (6)

步骤7.2）计算店家的可靠度分数：

步骤7.2.1）获取该店家的评论者的可信度分数；

步骤7.2.2）获取评论者的所有评论的评分；

步骤7.2.3）根据步骤7.1）的模型计算店家的可靠度分数；

步骤7.3）更新店家的可靠度属性；

步骤8）迭代次数加1；