CN102254038B

CN102254038B - 一种分析网络评论相关度的***及其分析方法

Info

Publication number: CN102254038B
Application number: CN 201110229617
Authority: CN
Inventors: 王君泽; 黄本雄; 王超; 胡广; 温杰
Original assignee: WUHAN ANWEN TECHNOLOGY DEVELOPMENT CO LTD
Current assignee: WUHAN ANWEN TECHNOLOGY DEVELOPMENT CO LTD
Priority date: 2011-08-11
Filing date: 2011-08-11
Publication date: 2013-01-23
Anticipated expiration: 2031-08-11
Also published as: CN102254038A

Abstract

本发明涉及一种分析主题内容与其评论内容之间关联程度的方法，该方法不仅仅能够定性的区分评论内容是否为垃圾评论，同时也能对评论内容相关程度进行定量的分析，分析得出一个介于0到1之间的具体相关度值，数值越大则相关程度越大，根据相关度值即可分析出评论与该文章之间的亲疏关系。本发明的一个显著优点为,核心分析部分综合考虑了评论与主题文章之间的相似性，以及评论之间的相关性两个方面内容，因此相关度的分析更加准确。本发明的***基于浏览器模式，分析使用方便，界面友好。

Description

一种分析网络评论相关度的***及其分析方法

技术领域

本发明属于互联网文本处理/数据挖掘领域，涉及利用数据挖掘相关技术分析网络中主题文章与针对这些文章提出的众多评论内容之间相关度等方面。具体包含了利用向量空间模型，概率模型与语言模型进行的针对主题文章与评论内容相似性分析，以及评论内容本身之间相关性的分析。

背景技术

Web2.0时代是一个信息急速增长的时代，网民们能够自由针对各种网络新闻和博客做出各种评论，近几年这些评论数据已经达到了一个海量的规模。针对这些数据现在已经有诸多数据挖掘方面的研究，如用户评论提取与情感分析，用户评论的整合和抽象等。在众多研究领域中，当前有一项研究热点就是识别评论与主题是否相关，即评论是否属于垃圾评论，它有助于人们更好的利用评论资源。在目前研究工作中，这种识别一般都仅为定性的识别：不相关则为垃圾评论，反之为非垃圾评论。事实上，垃圾评论与非垃圾评论之前并没有明显的分界，故这种定性的识别往往比较模糊。此外，即使同为非垃圾评论，它们的价值也往往不尽相同。目前为止，以上这些不足还没有被一般研究人员考虑到。

当前，评论信息研究工作主要集中在利用自然语言处理技术以及数据挖掘技术提取并总结用户评论数据中的用户观点，即评论中的意见挖掘(正面还是负面)领域。具体包含：在针对某项产品的用户评论中总结出该产品的某些功能以及用户对这些功能的观点，识别每个评论中能够反映用户观点的词句，识别每个评论的包含的用户感情是积极或是消极等。在研究评论提出者个性以及行为方面，目前也正在起步并取得一定研究成果，与此类似的还有关于评论内容可信度上的研究。

但在垃圾评论识别上却仍然基本上是一片空白，现今已有的少量关于垃圾评论识别上的研究工作也仅停留在描述垃圾评论分析的各种问题以及已确定的垃圾评论的种类上。

发明内容

本发明针对现有的互联网中缺乏评论信息相关度分析工具的现状，提供一种网络评论与其主题的相关度分析***。

为解决上述技术问题，本发明的网络评论与其主题的相关度分析***，其特征在于，包括网络爬虫模块，相关度分析模块，网页展示模块，

所述网络爬虫模块，用于截取网页的文本内容，生成主题文章与若干相关评论的数据集合，所述数据集合供所述相关度分析模块分析处理；

所述相关度分析模块，用于定量计算网络评论与主题文章之间的相关度；

所述网页展示模块，用于将相关度分析模块计算得到的网络评论相关度结果，以网页形式输出展示。

所述相关度分析模块包括：

第一装置，用于以全部网络评论为节点，生成无向图；

第二装置，用于计算某个网络评论与主题文章之间的相似度；

第三装置，用于计算第二装置所述网络评论与其相邻节点指代的网络评论的相似度；

第四装置，用于根据第二装置计算出的网络评论与主题文章之间的相似度，以及第三装置计算出的网络评论与其相邻节点指代的网络评论的相似度，计算该网络评论与主题文章之间的相关度。

所述相关度分析模块还包括：

步进装置，用于选择下一个未作相关度计算的网络评论，如果不存在未作相关度计算的网络评论，则返回空值；

调用控制装置，用于将所述步进装置所选择的网络评论作为输入，并判断是否输入为空值，

如果非空，则调用所述第二、第三、第四装置，计算当前网络评论与主题文章之间的相关度；返回到步进装置；

如果为空值，则停止。

还包括相关度判断模块，用于比较所述相关度分析模块计算出的某个网络评论与主题文章之间的相关度与设定的阈值之间的大小；当所述相关度小于设定的阈值时，则所述网页展示模块显示该网络评论为与主题文章无关的评论。

本发明同时提出了一种上述分析网络评论相关度的***的分析方法，其特征在于，包括以下步骤：

所述网络爬虫模块截取网页的文本内容，生成主题文章与若干相关评论的数据集合，所述数据集合发给所述相关度分析模块；

所述相关度分析模块定量计算网络评论与主题文章之间的相关度；

所述网页展示模块将相关度分析模块计算得到的网络评论相关度结果，以网页形式输出展示。

所述相关度分析模块定量计算网络评论与主题文章之间的相关度，包括以下步骤：

步骤5-1、计算某个网络评论与主题文章之间的相似度；

步骤5-2、以全部网络评论为节点，生成无向图；

步骤5-3、计算所述网络评论与其相邻节点指代的网络评论的相似度；

步骤5-4、根据该网络评论与主题文章之间的相似度，以及网络评论与其相邻节点指代的网络评论的相似度，计算该网络评论与主题文章之间的相关度。

所述相关度分析模块定量计算网络评论与主题文章之间的相关度，还包括以下步骤：

步骤6-1、选择下一个未作相关度计算的网络评论，如果不存在未作相关度计算的网络评论，则返回空值；

步骤6-2、将所述步进装置所选择的网络评论作为输入，并判断是否输入为空值，

如果非空，则返回步骤5-2、5-3、5-4；然后，返回到步骤6-1；

如果为空值，则停止。

还包括以下步骤：

根据所述相关度分析模块计算出的某个网络评论与主题文章之间的相关度，当所述相关度小于设定的阈值时，则所述网页展示模块显示该网络评论为与主题文章无关的评论。

本发明通过对评论内容相关程度进行定量的分析，分析得出一个介于0到1之间的具体相关度值，数值越大则相关程度越大，根据相关度值即可分析出评论与该文章之间的亲疏关系。本发明的一个显著优点为，核心分析部分综合考虑了评论与主题文章之间的相似性，以及评论之间的相关性两个方面内容，因此相关度的分析更加准确。本发明的***基于浏览器模式，分析使用方便，界面友好。

附图说明

下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。

图1为本发明分析网络评论相关度的***的结构框图。

图2为本发明的评论网络节点图。

具体实施方式

如图1所示的***的结构框图，本发明分析网络评论相关度的***包括网络爬虫模块，相关度分析模块，网页展示模块，

所述相关度分析模块，用于定量计算网络评论与主题文章之间的相关度；本发明从定量角度分析评论与文章的相关度，相关度在这里是一个线性变量，可以是从0到1的线性区域之间任意的一个数值。不同的评论内容计算得到的相关度往往会不同：数值越高则该评论内容和主题文章的关联性越强，越能够明确代表评论者对于文章主题的观点和看法；反之，数值越低则该评论的实际作用价值越小。按照实际需求的不同，当相关度低于某一个设定阀值时，即可认为该评论即为垃圾评论。分析评论内容与主题文章相关度的过程为：提取出主题文章A与其对应的评论内容(评论1，评论2，评论3，…，评论n)，计算A与评论1-n的相似度K，计算评论与评论之间相关度L，综合K与L按一定权重累加得出A与所有评论的相关度P_i(i可为1至n间任意整数)。P_i即为最终得出的相关度值。按实际需求可给定一个相关度阀值，任何相关度如果低于该阀值即可判定为无用评论，P_i越高则反映该评论与主题越相关。本相关度分析模块具有不同与目前所有技术的特点是：不仅将评论文本与主题文章之间的语句相似度作为影响相关度的因子，同时还将众多评论文本之间的内在关系也考虑在内。其核心思想为：一段评论内容如果与那些已经分析出的与主题文章有高相关度的评论之间具有较高相似性，则这段评论应该也与该主题文章有较高的相关度，即时这段评论与主题文章的相关度不高。

所述网页展示模块，用于将相关度分析模块计算得到的网络评论相关度结果，以网页形式输出展示。网页展示模块是提供一个面向用户的接口，主要用于按用户要求展示处理结果，包括所有评论内容对应的相关度展示，相关度正逆序排列展示等功能。该模块将相关度分析模块分析处理后之结果组织成用户可理解的数据结构，以网页的形式展示到用户界面。

本发明的整体分析方法是：按需求利用网络爬虫采集模块采集针对特定网页内容的主题和评论数据集，之后将该数据集提交到相关度分析模块进行相关度分析，最后将分析结果传递到网页展示模块按实际功能需求在网络浏览器上弹框展示分析结果。

网络爬虫模块主要基于通用的网络爬虫技术构建，主要包括但不限于站点选择，文本内容选择，数据抓取，后台数据管理部分。网络爬虫模块是一个独立的必要的前置模块，主要用于用户浏览的网页的文本内容截取，并将这些文本中的主题正文内容与评论内容按1:N(一段主题正文对应多条评论内容)的形式抽取出，再组织成一定的数据集供后续分析，如：主题：XXXXX——评论1：XXX，评论2：XXX 评论3：XXX的形式。

相关度分析模块为本发明的核心模块。该模块实现自动分析网络信息中主题文章与评论信息之间的相关度，相关度值越高则反映该评论与主题正文之间越契合，反之则为无关评论，如广告信息，占位信息等。该模块主要分为两个部分：主题-评论分析部分，评论-评论分析部分。其中主题-评论分析部分主要考虑主题正文与评论信息之间相关度，判断标准主要为词汇相似度，文本重复率等方面。评论-评论部分主要则主要分析所有评论信息之间相似度的相关度的计算。综合两个部分的分析结果即可得出最终的相关度分析结果。

本发明代表的核心分析模型综合考虑了以下两个因素：评论与主体文章间相似度，评论之间的内在关系，下面将按顺序给出分析计算的实现过程。

(1)计算评论与被评论主题之间相似度

本发明采用概率语言模型计算评论与主体文章间相似度，对于任意一个评论R与被评论主题文章A，定义Sim(R|A)为R与A之间的相似度，可从如下公式得到：

Sim (R, A) \approx P (R | A) = Π_{i = 1}^{n} P (q_{i} | A) = \underset{w &Element; R}{Π} P {(w | A)}^{c (w, R)}

公式(1)

其中P(R|A)代表从R到A的概率，w为R中出现的词语，c(w，R)代表w在R中出现过的次数，P(w|A)代表w在A中出现的频度概率。

可用最大似然估计法(MLE)计算P(w|A)：

P (w | A) = P_{ML} (w | A) = \frac{c (w, A)}{| A |}

其中|A|为A中出现的所有词语之和。该方法有一定缺陷，主要表现在如果词语w没有显式出现在A，则P(w|A)直接会取零值。在R与A完全没有相同词语的情况下，R与A的相似度将会被判定为零。

出于解决零值问题的考虑，本发明采用一种改进的方法：Jelinek-Mercer平滑方法，作为一个典型的线性插值平滑法，计算方法如下：

P(w|A)＝λP_ML(w|A)+(1-λ)P(w|C)

其中P(w|C)为词语w在语料库C中出现的概率，λ为平滑系数。作为优选，本发明取其λ的值为0.2。

为避免因评论长度而产生的潜在误差，本发明还引入一个长度归一化方法来规范原始概率：

P_{norm} (Sim (R, A)) \infty \exp (\frac{\log Sim (R, A)}{len (R)})

其中len(R)为R的长度，即R中包含的总词数。

(2)整体计算评论与文章相关度

本发明将针对具体主题文章的所有评论的集合视为一种网络节点图，即所有评论的集合被建模为一个图形结构，如图2所示：

通过计算评论之间的余弦相似度可以得到评论间的无向图，该图中每一个节点代表一份评论，节点间的连线的权重代表节点间的余弦相似度。节点依次按下标标R₁、R₂、R₃、R₄、R₅、…、R_n识出。

基于以上设定，可以认为每一个节点含有一个相关值，这个值会影响该节点的周围节点的相关值，任意取图中一个节点R_i，R_i∈(R₁，R_n)，有如下公式：

Pertinence (R_{i}) = \underset{R_{j} &Element; adj [R_{i}]}{Σ} \frac{w (R_{j}, R_{i})}{Σ_{R_{k} &Element; adj [R_{j}]} w (R_{i}, R_{k})} Pertinence (R_{j})

公式(2)

Pertinence(R_i)代表评论R_i与主题文章A之间的相关度，adj[R_i]代表所有与评论R_i相邻的评论节点的集合，R_j为集合adj[R_i]中评论。w(R_j，R_i)为评论R_j与评论R_i之间的相似度。

上述公式仅考虑到评论之间关系的影响，综合步骤1的公式(1)与步骤2的公式(2)，最后整体计算评论与主题文章相关度的公式如下：

Pertinence (R_{i}) = d \times \frac{sim (R_{i}, A)}{Σ_{R} sim (R, A)} + (1 - d) [\underset{R_{j} &Element; adj [R_{i}]}{Σ} \frac{w (R_{j}, R_{i})}{Σ_{k &Element; adj [j]} w (R_{i}, R_{k})} Pertinence (R_{j})]

本公式左部分依赖于公式(1)，右边依赖于公式(2)，评论相关度值部分依赖于评论于主题文章之间的相似度，部分依赖于评论之间的关联，故上式中d表示两者之间的权衡值，可按实际情况取0至1之间任何值，本***默认取d＝0.7。

最后给出评论信息分析处理组件***的处理流程：包括以下步骤：

网络爬虫模块截取网页的文本内容，生成主题文章与若干相关评论的数据集合，所述数据集合发给所述相关度分析模块；

计算某个网络评论与主题文章之间的相似度；

步骤A、以全部网络评论为节点，生成无向图；

计算所述网络评论与其相邻节点指代的网络评论的相似度；

根据该网络评论与主题文章之间的相似度，以及网络评论与其相邻节点指代的网络评论的相似度，计算该网络评论与主题文章之间的相关度。

选择下一个未作相关度计算的网络评论，如果不存在未作相关度计算的网络评论，则返回空值；

将所述步进装置所选择的网络评论作为输入，并判断是否输入为空值，

如果非空，则返回步骤A；如果为空值，则停止。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种分析网络评论相关度的***，其特征在于，包括网络爬虫模块，相关度分析模块，网页展示模块，

所述网络爬虫模块，用于截取网页的文本内容，生成主题文章与网络评论的数据集合，所述数据集合供所述相关度分析模块分析处理；

所述相关度分析模块，用于定量计算网络评论与主题文章之间的相关度；包括：

第一装置，用于以全部网络评论为节点，生成无向图；

第二装置，用于计算某个网络评论与主题文章之间的相似度；对于任意一个评论R与被评论主题文章A，定义Sim(R|A)为R与A之间的相似度，可从如下公式得到：

Sim (R, A) \approx P (R | A) = Π_{i = 1}^{n} P (q_{i} | A) = \underset{w &Element; R}{Π} P {(w | A)}^{c (w, R)}

公式（1）

其中P(R|A)代表从R到A的概率，w为R中出现的词语，c(w,R)代表w在R中出现过的次数，P(w|A)代表w在A中出现的频度概率；

第三装置，用于计算第二装置所述网络评论与其相邻节点指代的网络评论的相似度；通过计算评论之间的余弦相似度可以得到评论间的无向图，该图中每一个节点代表一份评论，节点间的连线的权重代表节点间的余弦相似度

Pertinence (R_{i}) = \underset{R_{j} &Element; adj [R_{i}]}{Σ} \frac{w (R_{j}, R_{i})}{{&Sum;}_{R_{k} &Element; adj [R_{j}]} w (R_{i}, R_{k})} Pertinence (R_{j})

公式（2）

Pertinence(R_i)代表评论R_i与主题文章A之间的相关度，adj[R_i]代表所有与评论R_i相邻的评论节点的集合，R_j为集合adj[R_i]中评论，w(R_j,R_i)为评论R_j与评论R_i之间的相似度；

第四装置，用于根据第二装置计算出的网络评论与主题文章之间的相似度，以及第三装置计算出的网络评论与其相邻节点指代的网络评论的相似度，计算该网络评论与主题文章之间的相关度；公式如下：

Pertinence (R_{i}) = d \times \frac{sim (R_{i}, A)}{{&Sum;}_{R} sim (R, A)} + (1 - d) [\underset{R_{j} &Element; adj [R_{i}]}{Σ} \frac{w (R_{j}, R_{i})}{{&Sum;}_{k &Element; adj [j]} w (R_{i}, R_{k})} Pertinence (R_{j})]

上式中d表示两者之间的权值，取0至1之间任何值；

2.根据权利要求1所述的分析网络评论相关度的***，其特征在于，所述相关度分析模块还包括：

调用控制装置，用于将所述步进装置所选择的网络评论作为输入，并判断输入是否为空值，

如果非空值，则分别调用所述第二、第三、第四装置，计算当前网络评论与主题文章之间的相关度；返回到步进装置；

如果为空值，则停止。

3.根据权利要求1或2所述的分析网络评论相关度的***，其特征在于，还包括相关度判断模块，用于比较所述相关度分析模块计算出的某个网络评论与主题文章之间的相关度与设定的阈值之间的大小；当所述相关度小于设定的阈值时，则所述网页展示模块显示该网络评论为与主题文章无关的评论。

4.一种权利要求1所述分析网络评论相关度的***的分析方法，其特征在于，包括以下步骤：

所述网络爬虫模块截取网页的文本内容，生成主题文章与网络评论的数据集合，所述数据集合发给所述相关度分析模块；

所述相关度分析模块定量计算网络评论与主题文章之间的相关度；包括以下步骤：

步骤5-1、计算某个网络评论与主题文章之间的相似度；

步骤5-2、以全部网络评论为节点，生成无向图；对于任意一个评论R与被评论主题文章A，定义Sim(R|A)为R与A之间的相似度，可从如下公式得到：

Sim (R, A) \approx P (R | A) = Π_{i = 1}^{n} P (q_{i} | A) = \underset{w &Element; R}{Π} P {(w | A)}^{c (w, R)}

公式（1）

步骤5-3、计算所述网络评论与其相邻节点指代的网络评论的相似度；通过计算评论之间的余弦相似度可以得到评论间的无向图，该图中每一个节点代表一份评论，节点间的连线的权重代表节点间的余弦相似度，

Pertinence (R_{i}) = \underset{R_{j} &Element; adj [R_{i}]}{Σ} \frac{w (R_{j}, R_{i})}{{&Sum;}_{R_{k} &Element; adj [R_{j}]} w (R_{i}, R_{k})} Pertinence (R_{j})

公式（2）

步骤5-4、根据该网络评论与主题文章之间的相似度，以及网络评论与其相邻节点指代的网络评论的相似度，计算该网络评论与主题文章之间的相关度，公式如下：

Pertinence (R_{i}) = d \times \frac{sim (R_{i}, A)}{{&Sum;}_{R} sim (R, A)} + (1 - d) [\underset{R_{j} &Element; adj [R_{i}]}{Σ} \frac{w (R_{j}, R_{i})}{{&Sum;}_{k &Element; adj [j]} w (R_{i}, R_{k})} Pertinence (R_{j})]

上式中d表示两者之间的权值，取0至1之间任何值；

5.根据权利要求4所述分析网络评论相关度的***的分析方法，其特征在于，所述相关度分析模块定量计算网络评论与主题文章之间的相关度，还包括以下步骤：

步骤6-2、将所述步进装置所选择的网络评论作为输入，并判断输入是否为空值，

如果非空值，则顺序返回步骤5-2、5-3、5-4；然后，返回到步骤6-1；

如果为空值，则停止。

6.根据权利要求4或5所述分析网络评论相关度的***的分析方法，其特征在于，还包括以下步骤：