CN105354305A

CN105354305A - 一种网络谣言的识别方法及装置

Info

Publication number: CN105354305A
Application number: CN201510750244.6A
Authority: CN
Inventors: 牛凯; 杨也康
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2015-11-05
Filing date: 2015-11-05
Publication date: 2016-02-24

Abstract

本发明实施例公开了一种网络谣言的识别方法及装置，该方法包括：根据用户输入的网络数据信息，采集原创网络信息及具有网络表情的评论信息，根据网络表情的情感极性，将评论信息区分正向和负向评论训练数据，过滤停用词，结合情感词典，确定每条评论信息的第一情感极性，根据获得的各个参数及评论影响力和评论发布时间间隔确定每条评论信息的第二情感极性，根据真实评论用户的好友关系的网络特征，对所有真实评论用户进行聚类，归一化每个类的第二情感极性，获得每个类的情感极性的权值，根据该情感极性的权值，判断网络数据信息是否为谣言。应用本发明实施例，能够利用复杂网络的拓扑结构识别网络谣言，简化操作。

Description

一种网络谣言的识别方法及装置

技术领域

本发明涉及计算机网络应用技术领域，特别涉及一种网络谣言的识别方法及装置。

背景技术

谣言是一种以公开或非公开渠道传播的对公众感兴趣的事物、事件或问题的未经证实的阐述或诠释。传统的谣言传播采用扩散的方式，暗地里在人际的互动间传播。而随着网络技术的快速发展，为谣言的传播开辟了新的场域。同时，网络的匿名性、更易向公众传播的特性助长了谣言的传播及影响力，这不得不引起人们的重视。

现有技术中，网络谣言的识别方法为分类学习方法。该方法将网络信息是否可信看成分类问题，利用网络信息的特征，采取特定的分类算法训练分类器，确定网络信息是否可信，以预测网络信息是否为谣言。

特征选取是识别谣言的关键步骤，在很大程度上影响分类预测的准确性。目前主流研究认为影响信息可信度的因素主要来自于文本内容、用户属性信息和网络传播深度。对网络信息进行谣言识别时，将浅层的文本统计特征作为识别谣言的文本特征，如文本中是否包含URL、信息发布客户端媒介类型(Web/移动)、事件发生地点和情感极性等，这些文本特征能直接反映网络信息的真实性。进行用户特征提取时，主要考虑有：真实性越高的用户，其发布的信息可信度也越高，考虑因素包括用户粉丝数、关注数、注册年龄、已发布信息数量和是否验证用户等个人信息。传播类特征，主要考虑了信息是否被转发、转发次数与评论数等。

但是，这种方法不能很好地利用复杂网络的拓扑结构，训练特征过多，操作复杂，通用性差。

发明内容

本发明实施例的目的在于提供一种网络谣言的识别方法及装置，以利用复杂网络的拓扑结构识别网络谣言，简化操作。

为达到上述目的，本发明实施例公开了一种网络谣言的识别方法，所述方法包括如下步骤：

接收用户输入的网络数据信息；

根据所述网络数据信息，采集原创网络信息及所述原创网络信息中具有网络表情的评论信息，所述评论信息包含：评论文本内容、评论用户信息、评论发布时间和评论点赞次数；

根据网络表情的情感极性，将所述评论信息区分正向评论训练数据和负向评论训练数据，对所述评论信息中的评论文本内容进行分词，删除所述评论信息中的停用词，并结合情感词典，确定所述每条评论信息的第一情感极性；

根据所述每条评论信息的第一情感极性、所述正向评论训练数据、所述负向评论训练数据、评论文本内容中未被删除的词组成的词向量、评论影响力和评论发布时间间隔确定所述每条评论信息的第二情感极性；所述评论影响力根据所述评论点赞次数获得；

根据所述评论用户的注册时间、粉丝与好友比例和网络信息的原创比例，获得真实评论用户；

根据所述真实评论用户的好友关系的网络特征，对所有所述真实评论用户进行聚类；

根据类中与各个所述真实评论用户对应的第二情感极性，归一化每个类的第二情感极性，获得每个类的情感极性的权值；

根据所有类的所述情感极性的权值，判断所述网络数据信息是否为谣言。

在本发明的一种可实现方式中，所述根据所述网络数据信息，采集原创网络信息，包括：

根据所述网络数据信息，利用正则表达式构建关键词语法，在网络中采集预设数量的所述原创网络信息；

若采集的所述原创网络信息的数量未达到预设数量，则根据转发关系，在网络中采集所述原创网络信息的转发网络信息，并将其作为所述原创网络信息，直到所述原创网络信息的数量达到所述预设数量。

在本发明的一种可实现方式中，所述对所述评论信息中的评论文本内容进行分词，删除所述评论信息中的停用词，并结合情感词典，确定所述每条评论信息的第一情感极性，包括：

对所述评论文本内容进行分词，删除所述评论信息中的语气助词、连词和介词；

根据情感词典，确定每个未被删除的词w_n的情感值k(w_n)，所述情感值的范围为[-1,1]；

根据所述情感值k(w_n)和所述每个词与该评论文本内容的主体e的距离dis(w_n，e)，确定该评论信息的第一情感极性score(e)，所述距离dis(w_n，e)为第n个词w_n与该评论文本内容的主体e间间隔的字符数，所述第一情感极性score(e)为：

s c o r e (e) = Σ_{w_{n}} \frac{k (w_{n})}{d i s (w_{n}, e)} .

在本发明的一种可实现方式中，所述根据所述每条评论信息的第一情感极性、所述正向评论训练数据、所述负向评论训练数据、评论文本内容中未被删除的词组成的词向量、评论影响力和评论发布时间间隔确定所述每条评论信息的第二情感极性，包括：

通过公式

P o l a r (c) = Σ_{i = 1}^{n} \frac{P (θ_{i}^{+})}{P (θ_{i}^{-})} \frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})}

确定所述每条评论信息的第二情感极性；其中，polar(c)为该评论信息的第二情感极性，为第i个第一情感极性对应的该正向评论训练数据，为第i个第一情感极性对应的负向评论训练数据；

将上述公式分解为：

\frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})} = L \cdot d (t) \cdot Σ_{j = 1}^{n} \log \frac{P (w_{j} | θ_{i}^{+})}{P (w_{j} | θ_{i}^{-})},

其中，L为该评论信息的评论影响力，d(t)为该评论信息的评论发布时间间隔，(w₁w₂...w_n)为该评论信息的评论文本内容中未被删除的词组成的词向量，w_j为该词向量中第j个未被删除的词。

在本发明的一种可实现方式中，所述根据所述真实评论用户的好友关系的网络特征，对所有所述真实评论用户进行聚类，包括：

根据所述真实评论用户的好友关系，构建邻接矩阵A＝[a_kq]_N×N，其中，主对角线皆为0，其余节点：若两个评论用户间存在关注关系，则为1；否则为0；

构建度矩阵D＝diag(|D₁|,|D₂|,…,|D_n|)，其中，|D_k|表示评论用户k的度，评论用户k的度为与评论用户k存在关注关系的评论用户的数量；

根据邻接矩阵A＝[a_kq]_N×N和度矩阵D＝diag(|D₁|,|D₂|,…,|D_n|)构建拉普拉斯矩阵L，所述拉普拉斯矩阵L为：L＝D-A；

根据预设的聚类个数K，求解所述拉普拉斯矩阵L，获得该拉普拉斯矩阵L的前K个最小非零特征值及对应的K个特征向量；

根据K个特征向量构建一个N×K的矩阵；

利用K-means算法进行聚类。

在本发明的一种可实现方式中，所述根据所有类的所述情感极性的权值，判断所述网络数据信息是否为谣言，包括：

求和所有类的所述情感极性的权值；

若所述情感极性的权值的和大于0，则判定所述网络数据信息为非谣言；否则判定所述网络数据信息为谣言。

为达到上述目的，本发明实施例还公开了一种网络谣言的识别装置，其特征在于，所述装置包括：接收单元、采集单元、第一情感极性确定单元、第二情感极性确定单元、真实评论用户获得单元、聚类单元、极性权值获得单元和谣言判定单元；

所述接收单元，用于接收用户输入的网络数据信息；

所述采集单元，用于根据所述网络数据信息，采集原创网络信息及所述原创网络信息中具有网络表情的评论信息，所述评论信息包含：评论文本内容、评论用户信息、评论发布时间和评论点赞次数；

所述第一情感极性确定单元，用于根据网络表情的情感极性，将所述评论信息区分正向评论训练数据和负向评论训练数据，对所述评论信息中的评论文本内容进行分词，删除所述评论信息中的停用词，并结合情感词典，确定所述每条评论信息的第一情感极性；

所述第二情感极性确定单元，用于根据所述每条评论信息的第一情感极性、所述正向评论训练数据、所述负向评论训练数据、评论文本内容中未被删除的词组成的词向量、评论影响力和评论发布时间间隔确定所述每条评论信息的第二情感极性；所述评论影响力根据所述评论点赞次数获得；

所述真实评论用户获得单元，用于根据所述评论用户的注册时间、粉丝与好友比例和网络信息的原创比例，获得真实评论用户；

所述聚类单元，用于根据所述真实评论用户的好友关系的网络特征，对所有所述真实评论用户进行聚类；

所述极性权值获得单元，用于根据类中与各个所述真实评论用户对应的第二情感极性，归一化每个类的第二情感极性，获得每个类的情感极性的权值；

所述谣言判定单元，用于根据所有类的所述情感极性的权值，判断所述网络数据信息是否为谣言。

在本发明的一种可实现方式中，所述第一情感极性确定单元，包括：评论信息区分子单元、删除子单元、情感值确定子单元和第一情感极性确定子单元；

所述评论信息区分子单元，用于根据网络表情的情感极性，将所述评论信息区分正向评论训练数据和负向评论训练数据；

所述删除子单元，用于对所述评论文本内容进行分词，删除所述评论信息中的语气助词、连词和介词；

所述情感值确定子单元，用于根据情感词典，确定每个未被删除的词w_n的情感值k(w_n)，所述情感值的范围为[-1,1]；

所述第一情感极性确定子单元，用于根据所述情感值k(w_n)和所述每个词与该评论文本内容的主体e的距离dis(w_n，e)，确定该评论信息的第一情感极性score(e)，所述距离dis(w_n，e)为第n个词w_n与该评论文本内容的主体e间间隔的字符数，所述第一情感极性score(e)为：

s c o r e (e) = Σ_{w_{n}} \frac{k (w_{n})}{d i s (w_{n}, e)} .

在本发明的一种可实现方式中，所述第二情感极性确定单元，包括：第二情感极性确定子单元和公式分解子单元；

所述第二情感极性确定子单元，用于通过公式

P o l a r (c) = Σ_{i = 1}^{n} \frac{P (θ_{i}^{+})}{P (θ_{i}^{-})} \frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})}

所述公式分解子单元，用于将上述公式分解为：其中，L为该评论信息的评论影响力，d(t)为该评论信息的评论发布时间间隔，(w₁w₂...w_n)为该评论信息的评论文本内容中未被删除的词组成的词向量，w_j为该词向量中第j个未被删除的词。

在本发明的一种可实现方式中，所述聚类单元，包括：邻接矩阵构建子单元、度矩阵构建子单元、拉普拉斯矩阵构建子单元、求解子单元、矩阵构建子单元和聚类子单元；

所述邻接矩阵构建子单元，用于根据所述真实评论用户的好友关系，构建邻接矩阵A＝[a_kq]_N×N，其中主对角线皆为0，其余节点：若两个评论用户间存在关注关系，则为1；否则为0；

所述度矩阵构建子单元，用于构建度矩阵D＝diag(|D₁|,|D₂|,…,|D_n|)，其中，|D_k|表示评论用户k的度，评论用户k的度为与评论用户k存在关注关系的评论用户的数量；

所述拉普拉斯矩阵构建子单元，用于根据邻接矩阵A＝[a_kq]_N×N和度矩阵D＝diag(|D₁|,|D₂|,…,|D_n|)构建拉普拉斯矩阵L，所述拉普拉斯矩阵L为：L＝D-A；

所述求解子单元，用于根据预设的聚类个数K，求解所述拉普拉斯矩阵L，获得该拉普拉斯矩阵L的前K个最小非零特征值及对应的K个特征向量；

所述矩阵构建子单元，用于根据K个特征向量构建一个N×K的矩阵；

所述聚类子单元，用于利用K-means算法进行聚类。

可见，本发明实施例中，选取文本特征的情感极性特征、评论时间序列和评论影响力，用户特征的评论用户注册时间、粉丝与好友比例和网络信息原创比例，并根据评论用户的好友关系建立网络拓扑结构，利用谱聚类算法进行分类，根据各个类的情感极性的权值的和，识别网络信息是否为谣言，这样能够很好地利用复杂网络的拓扑结构，减少训练特征，简化操作，通用性更好。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网络谣言的识别方法的流程示意图；

图2为本发明实施例提供的聚类结果示意图；

图3为本发明实施例提供的一种网络谣言的识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种网络谣言的识别方法及装置，该方案中，根据用户输入的网络数据信息，采集原创网络信息及原创网络信息中具有网络表情的评论信息，根据网络表情的情感极性，将评论信息区分正向和负向评论训练数据，过滤停用词，结合情感词典，确定每条评论信息的第一情感极性，根据获得的各个参数及评论影响力和评论发布时间间隔确定每条评论信息的第二情感极性，根据真实评论用户的好友关系的网络特征，对所有真实评论用户进行聚类，归一化每个类的第二情感极性，获得每个类的情感极性的权值，根据所有类的该情感极性的权值，判断网络数据信息是否为谣言。

下面通过具体实施例，对本发明进行详细说明。

参考图1，图1本发明实施例提供的一种网络谣言的识别方法的流程示意图，可以包括如下步骤：

S101：接收用户输入的网络数据信息；

其中，网络数据信息可以为一条评论，也可以为一个或多个关键词。

S102：根据所述网络数据信息，采集原创网络信息及所述原创网络信息中具有网络表情的评论信息；

这里，评论信息包含：评论文本内容、评论用户信息、评论发布时间和评论点赞次数。

其中，根据网络数据信息，采集原创网络信息，可以包括：

根据网络数据信息，利用正则表达式构建关键词语法，在网络中采集预设数量的原创网络信息；

若采集的原创网络信息的数量未达到预设数量，则根据转发关系，在网络中采集原创网络信息的转发网络信息，并将其作为原创网络信息，直到原创网络信息的数量达到预设数量。

实际应用中，可以采用爬虫工具和开放的网络平台应用程序接口采集原创网络信息，采集的方法有话题表情采集、正则采集和转发采集。

其中，话题标签采集为：对网络数据信息中的关键词(线索主题或特征主体)进行标记与爬取。

正则采集为：利用正则表达式构建关键词语法，提取包含该关键词语法的网络文本，获取海量相关谣言数据。

该方法根据话题标签采集方法采集到的关键词，利用正则表达式构建关键词语法，在网络中采集预设数量的原创网络信息。假设，预设数量为10000，若利用正则采集方法采集的原创网络信息的数量为9000，则需要利用转发采集，根据转发关系，在网络中采集原创网络信息的转发网络信息，并将其作为原创网络信息，直到所述原创网络信息的数量达到10000。

这里转发采集为：利用网络平台中的转发关系爬取同一网络信息。网络用户可以通过转发参与到网络信息的讨论之中，从而构成多层转发网络。针对原始网络信息，遍历不同转发节点网络，爬取海量相关数据。

在确定原创网络信息后，采集这些原创网络信息中带有网络表情的评论信息。因为网络表情可以分类为正、负和中性三类，表达情感极性，在网络谣言的识别中带有网络表情的评论信息所表达的感情极性可以认为更为明确。

S103：根据网络表情的情感极性，将所述评论信息区分正向评论训练数据和负向评论训练数据，对所述评论信息中的评论文本内容进行分词，删除所述评论信息中的停用词，并结合情感词典，确定所述每条评论信息的第一情感极性；

这里，根据网络表情的情感极性，对评论信息进行粗分类，将评论信息区分正向评论训练数据和负向评论训练数据。

另外，对评论信息中的评论文本内容进行分词，删除评论信息中的无用词，并结合情感词典，确定每条评论信息的第一情感极性，可以包括如下步骤：

A1、对评论文本内容进行分词，删除所述评论信息中的语气助词、连词和介词；

这里，对评论文本内容进行分词，获得每个词的词性，词性包括：动词、形容词、副词、名词、语气助词、连词、介词和副词等，其中，语气助词、连词和介词等不带有感情极性，可以将其删除，以减少计算量。

A2、根据情感词典，确定每个未被删除的词w_n的情感值k(w_n)；

其中，词的情感值可获取于知网的中文情感词典集。该词典涵盖大部分中文表达中的情感字词，并将其分类正，负或中性，情感值范围的范围为[-1,1]。如果一个字值接近1，这个词是一个正向的词。如果一个词的值接近-1，该词极性为负向。

A3、根据情感值k(w_n)和每个词与该评论文本内容的主体e的距离dis(w_n，e)，确定该评论信息的第一情感极性score(e)，其中，距离dis(w_n，e)为第n个词w_n与该评论文本内容的主体e间间隔的字符数，第一情感极性score(e)可以表达为：

s c o r e (e) = Σ_{w_{n}} \frac{k (w_{n})}{d i s (w_{n}, e)} . - - - (1)

这样有效降低偏离评论文本内容的主体的情感词权重，提高具体修饰评论文本内容的主体情感词的权重。

S104：根据所述每条评论信息的第一情感极性、所述正向评论训练数据、所述负向评论训练数据、评论文本内容中未被删除的词组成的词向量、评论影响力和评论发布时间间隔确定所述每条评论信息的第二情感极性；

其中，评论影响力根据评论点赞次数获得。

具体地，可以包括如下步骤：

通过公式

P o l a r (c) = Σ_{i = 1}^{n} \frac{P (θ_{i}^{+})}{P (θ_{i}^{-})} \frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})} - - - (2)

确定每条评论信息的第二情感极性；其中，polar(c)为该评论信息的第二情感极性，为第i个第一情感极性对应的该正向评论训练数据，为第i个第一情感极性对应的负向评论训练数据。

公式(2)可以分解为：

\frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})} = L \cdot d (t) \cdot Σ_{j = 1}^{n} \log \frac{P (w_{j} | θ_{i}^{+})}{P (w_{j} | θ_{i}^{-})}, - - - (3)

S105：根据所述评论用户的注册时间、粉丝与好友比例和网络信息的原创比例，获得真实评论用户；

实际应用中，相比于垃圾评论用户，源自真实评论用户的评论内容具有更大的分析价值和参考价值。通过对垃圾评论用户的行为分析，选取以下三种评论用户特征加以区分：评论用户注册时间、粉丝与好友比例和网络信息的原创比例。

评论用户的注册时间反应了一个评论用户对该网络平台的使用时间，真实评论用户的注册时间与垃圾评论用户有着显著的差别，通过对用户注册时间的区分，可以有效甄别评论用户的真实性。

评论用户的粉丝与好友比例反应了评论用户粉丝数量和关注数量的比值。垃圾评论用户倾向于关注大量用户，而真实评论用户较少关注垃圾评论用户，因此就形成垃圾评论用户关注数量极多而粉丝数量极少的情况，从而有效的区分真实评论用户与垃圾评论用户。

评论用户的网络信息的原创比例反应了评论用户发布信息的基本方式。真实评论用户原创比例较高，垃圾评论用户发布内容基本由转发内容构成。

S106：根据所述真实评论用户的好友关系的网络特征，对所有所述真实评论用户进行聚类；

具体地，可以包括如下步骤：

B1、根据所述真实评论用户的好友关系，构建邻接矩阵A＝[a_kq]_N×N；

其中，主对角线皆为0，其余节点：若两个评论用户间存在关注关系，则为1；否则为0。

实际应用中，网络结构中评论用户可以被当做节点，评论用户之间的关注关系可以视为节点之间的连接边。定义好友关系网络为无权网络，边的权重为1，如果评论用户节点k关注用户节点q，那么a_kq＝1,表示节点之间的连接边。

B2、构建度矩阵D＝diag(|D₁|,|D₂|,…,|D_n|)；

其中，|D_k|表示评论用户k的度，评论用户k的度为与评论用户k存在关注关系的评论用户的数量。

B3、根据邻接矩阵A＝[a_kq]_N×N和度矩阵D＝diag(|D₁|,|D₂|,…,|D_n|)构建拉普拉斯矩阵L；

这里，拉普拉斯矩阵L可以表达为：L＝D-A。

B4、根据预设的聚类个数K，求解该拉普拉斯矩阵L，获得该拉普拉斯矩阵L的前K个最小非零特征值及对应的K个特征向量；

B5、根据K个特征向量构建一个N×K的矩阵；

B6、利用K-means算法进行聚类。

这中情况下，采用谱聚类算法，该算法具有较低复杂度的适用于海量数据场景。谱聚类的目的便是要找到一种合理的分割图的方法，使得分割后形成若干个子图，连接不同子图的边的权重或相似度尽可能低，同子图内的边的权重或相似度尽可能高。

具体地，定义RatioCut来最小化类之间的联系：

ρ (κ_{1}, κ_{2}) = \frac{Σ_{k &Element; κ_{1}, q &Element; κ_{2}} a_{k q}}{| κ_{1} | | κ_{2} |} . - - - (4)

其中，κ₁∪κ₂＝κ，a_kq是节点k到节点q的权值，如果两个节点不是相连的，权值为零。利用RatioCut最重要的性质：

\underset{κ_{1}, κ_{2}}{m i n} ρ (κ_{1}, κ_{2}) &GreaterEqual; \frac{λ_{2}}{K}, - - - (5)

可以将原本的多项式复杂程度的非确定性NP问题转化为求解拉普拉斯矩阵L的最小特征值。

确定所需聚类数目K，将这K个特征(列)向量排列在一起组成一个N×K的矩阵，将其中每一行看作K维空间中的一个向量，并使用K-means算法进行聚类。聚类的结果中每一行所属的类别就是原来网络结构中的节点亦即最初的K个数据点分别所属的类别。

谱聚类计算复杂度比传统聚类算法，例如K-means要小很多。在高维数据上表现尤为明显。对于维度非常高的稀疏矩阵，求特征值和特征向量是很高效的办法，得到的结果是一些K维的向量(通常K不会很大)，这是用拉普拉斯矩阵特征向量进行降维的结果。在这些低维的数据上做K-means运算量非常小。

S107：根据类中与各个所述真实评论用户对应的第二情感极性，归一化每个类的第二情感极性，获得每个类的情感极性的权值；

S108：根据所有类的所述情感极性的权值，判断所述网络数据信息是否为谣言。

其中，根据所有类的情感极性的权值，判断网络数据信息是否为谣言，可以包括：

求和所有类的情感极性的权值；

若该情感极性的权值的和大于0，则确定所述网络数据信息为非谣言；若该情感极性的权值的和不大于0，则确定所述网络数据信息为谣言。

参考图2，图2为本发明实施例提供的聚类结果示意图，从图中可以看出，中心节点代表待分析的原创网络信息的发布节点，周边相连的为评论用户节点。节点颜色的深浅对应所属评论的极性。图中包含6个评论用户类别，其中少数孤立评论用户节点归为一类。分别归一化这6个评论用户类别的第二感情极性，在求和这6个评论用户类别的情感极性的权值，若最终得到的值大于0，则可以认为该网络信息为真实事件，否则可以认为该网络信息为谣言。

应用图1所示实施例，选取文本特征的情感极性特征、评论时间序列和评论影响力，用户特征的评论用户注册时间、粉丝与好友比例和网络信息原创比例，并根据评论用户的好友关系建立网络拓扑结构，利用谱聚类算法进行分类，根据各个类的情感极性的权值的和，识别网络信息是否为谣言，这样能够很好地利用复杂网络的拓扑结构，减少训练特征，简化操作，通用性更好。

参考图3，图3为本发明实施例提供的一种网络谣言的识别装置的结构示意图，可以包括：接收单元301、采集单元302、第一情感极性确定单元303、第二情感极性确定单元304、真实评论用户获得单元305、聚类单元306、极性权值获得单元307和谣言判定单元308。

其中，接收单元301，用于接收用户输入的网络数据信息。

采集单元302，用于根据网络数据信息，采集原创网络信息及原创网络信息中具有网络表情的评论信息。这里，评论信息包含：评论文本内容、评论用户信息、评论发布时间和评论点赞次数。

第一情感极性确定单元303，用于根据网络表情的情感极性，将评论信息区分正向评论训练数据和负向评论训练数据，对评论信息中的评论文本内容进行分词，删除评论信息中的停用词，并结合情感词典，确定每条评论信息的第一情感极性。

第二情感极性确定单元304，用于根据每条评论信息的第一情感极性、正向评论训练数据、负向评论训练数据、评论文本内容中未被删除的词组成的词向量、评论影响力和评论发布时间间隔确定每条评论信息的第二情感极性。这里，评论影响力根据评论点赞次数获得。

真实评论用户获得单元305，用于根据评论用户的注册时间、粉丝与好友比例和网络信息的原创比例，获得真实评论用户。

聚类单元306，用于根据真实评论用户的好友关系的网络特征，对所有真实评论用户进行聚类。

极性权值获得单元307，用于根据类中与各个真实评论用户对应的第二情感极性，归一化每个类的第二情感极性，获得每个类的情感极性的权值。

谣言判定单元308，用于根据所有类的所述情感极性的权值，判断网络数据信息是否为谣言。

实际应用中，采集单元302可以包括：第一原创信息采集子单元、第二原创信息采集子单元和评论信息采集子单元。(图3中未示出)

其中，第一原创信息采集子单元，用于根据网络数据信息，利用正则表达式构建关键词语法，在网络中采集预设数量的原创网络信息。若采集的原创网络信息的数量未达到预设数量，则触发第二原创信息采集子单元。

这里，第二原创信息采集子单元，用于根据转发关系，在网络中采集原创网络信息的转发网络信息，并将其作为原创网络信息，直到原创网络信息的数量达到预设数量。

评论信息采集子单元，用于采集原创网络信息中具有网络表情的评论信息。

另外，第一情感极性确定单元303，可以包括：评论信息区分子单元、删除子单元、情感值确定子单元和第一情感极性确定子单元。(图3中未示出)

其中，评论信息区分子单元，用于根据网络表情的情感极性，将评论信息区分正向评论训练数据和负向评论训练数据。

删除子单元，用于对评论文本内容进行分词，删除评论信息中的语气助词、连词和介词。

情感值确定子单元，用于根据情感词典，确定每个未被删除的词w_n的情感值k(w_n)。这里，情感值的范围为[-1,1]。

第一情感极性确定子单元，用于根据情感值k(w_n)和每个词与该评论文本内容的主体e的距离dis(w_n，e)，确定该评论信息的第一情感极性score(e)。这里，距离dis(w_n，e)为第n个词w_n与该评论文本内容的主体e间间隔的字符数，第一情感极性score(e)可以表达为：

s c o r e (e) = Σ_{w_{n}} \frac{k (w_{n})}{d i s (w_{n}, e)} .

实际应用中，第二情感极性确定单元304，可以包括：第二情感极性确定子单元和公式分解子单元。(图3中未示出)

第二情感极性确定子单元，用于通过公式

P o l a r (c) = Σ_{i = 1}^{n} \frac{P (θ_{i}^{+})}{P (θ_{i}^{-})} \frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})}

确定每条评论信息的第二情感极性。其中，polar(c)为该评论信息的第二情感极性，为第i个第一情感极性对应的该正向评论训练数据，为第i个第一情感极性对应的负向评论训练数据。

公式分解子单元，用于将上述公式分解为：

\frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})} = L \cdot d (t) \cdot Σ_{j = 1}^{n} \log \frac{P (w_{j} | θ_{i}^{+})}{P (w_{j} | θ_{i}^{-})} .

另外，聚类单元306，可以包括：邻接矩阵构建子单元、度矩阵构建子单元、拉普拉斯矩阵构建子单元、求解子单元、矩阵构建子单元和聚类子单元。(图3中未示出)

其中，邻接矩阵构建子单元，用于根据真实用户的好友关系，构建邻接矩阵A＝[a_kq]_N×N。其中，主对角线皆为0，其余节点：若两个用户间存在关注关系，则为1；否则为0。

度矩阵构建子单元，用于构建度矩阵D＝diag(|D₁|,|D₂|,…,|D_n|)。其中，|D_k|表示用户k的度，用户k的度为与用户k存在关注关系的用户的数量。

拉普拉斯矩阵构建子单元，用于根据邻接矩阵A＝[a_kq]_K×K和度矩阵D＝diag(|D₁|,|D₂|,…,|D_n|)构建拉普拉斯矩阵L。这里，拉普拉斯矩阵L可以表达为：L＝D-A。

求解子单元，用于根据预设的聚类个数K，求解拉普拉斯矩阵L，获得该拉普拉斯矩阵L的前K个最小非零特征值及对应的K个特征向量。

矩阵构建子单元，用于根据K个特征向量构建一个N×K的矩阵。

聚类子单元，用于利用K-means算法进行聚类。

这种情况下，谣言判定单元308，可以包括：极性权值求和子单元和谣言判定子单元。

其中，极性权值求和获得子单元，用于求和所有类的情感极性的权值。

谣言判定子单元，用于若情感极性的权值的和大于0，判定网络数据信息为非谣言，否则确定网络数据信息为谣言。

应用图3所示实施例，选取文本特征的情感极性特征、评论时间序列和评论影响力，用户特征的评论用户注册时间、粉丝与好友比例和网络信息原创比例，并根据评论用户的好友关系建立网络拓扑结构，利用谱聚类算法进行分类，根据各个类的情感极性的权值的和，识别网络信息是否为谣言，这样能够很好地利用复杂网络的拓扑结构，减少训练特征，简化操作，通用性更好。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种网络谣言的识别方法，其特征在于，所述方法包括步骤：

接收用户输入的网络数据信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述网络数据信息，采集原创网络信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述评论信息中的评论文本内容进行分词，删除所述评论信息中的停用词，并结合情感词典，确定所述每条评论信息的第一情感极性，包括：

s c o r e (e) = Σ_{w_{n}} \frac{k (w_{n})}{d i s (w_{n}, e)} .

4.根据权利要求1或3所述的方法，其特征在于，所述根据所述每条评论信息的第一情感极性、所述正向评论训练数据、所述负向评论训练数据、评论文本内容中未被删除的词组成的词向量、评论影响力和评论发布时间间隔确定所述每条评论信息的第二情感极性，包括：

通过公式

P o l a r (c) = Σ_{i = 1}^{n} \frac{P (θ_{i}^{+})}{P (θ_{i}^{-})} \frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})}

将上述公式分解为：

\frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})} = L \cdot d (t) \cdot Σ_{j = 1}^{n} \log \frac{P (w_{j} | θ_{i}^{+})}{P (w_{j} | θ_{i}^{-})},

5.根据权利要求1所述的方法，其特征在于，所述根据所述真实评论用户的好友关系的网络特征，对所有所述真实评论用户进行聚类，包括：

根据K个特征向量构建一个N×K的矩阵；

利用K-means算法进行聚类。

6.根据权利要求1或5所述的方法，其特征在于，所述根据所有类的所述情感极性的权值，判断所述网络数据信息是否为谣言，包括：

求和所有类的所述情感极性的权值；

7.一种网络谣言的识别装置，其特征在于，所述装置包括：接收单元、采集单元、第一情感极性确定单元、第二情感极性确定单元、真实评论用户获得单元、聚类单元、极性权值获得单元和谣言判定单元；

所述接收单元，用于接收用户输入的网络数据信息；

8.根据权利要求7所述的装置，其特征在于，所述第一情感极性确定单元，包括：评论信息区分子单元、删除子单元、情感值确定子单元和第一情感极性确定子单元；

s c o r e (e) = Σ_{w_{n}} \frac{k (w_{n})}{d i s (w_{n}, e)} .

9.根据权利要求7或8所述的装置，其特征在于，所述第二情感极性确定单元，包括：第二情感极性确定子单元和公式分解子单元；

所述第二情感极性确定子单元，用于通过公式

P o l a r (c) = Σ_{i = 1}^{n} \frac{P (θ_{i}^{+})}{P (θ_{i}^{-})} \frac{P (c | θ_{i}^{+})}{P (c | θ_{i}^{-})}

10.根据权利要求7所述的装置，其特征在于，所述聚类单元，包括：邻接矩阵构建子单元、度矩阵构建子单元、拉普拉斯矩阵构建子单元、求解子单元、矩阵构建子单元和聚类子单元；

所述聚类子单元，用于利用K-means算法进行聚类。