CN110032733A

CN110032733A - 一种针对新闻长文本的谣言检测方法及***

Info

Publication number: CN110032733A
Application number: CN201910184862.7A
Authority: CN
Inventors: 曹娟; 钟雷; 郭俊波; 李***; 谢添; 刘浩远
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-07-19

Abstract

本发明涉及一种针对新闻长文本的谣言检测方法及***，包括：获取指定新闻平台中大于预设字数的文本作为长文本，提取长文本中段落的关键词，并以该关键词检索社交平台获取社交数据，使用文本相关性算法获得该段落的相关数据；获取标注数据集，标注数据集包括已标注谣言信息的多个社交数据，使用标注数据集训练多个分类模型，并将训练完成的分类模型集合为融合模型，使用融合模型得到相关数据的可信度得分，用以代表段落为非谣言的概率。本发明使用异源检测方法解决了难以对长文直接判别的问题。

Description

一种针对新闻长文本的谣言检测方法及***

技术领域

本发明涉及大数据分析中的谣言检测领域，特别涉及一种针对新闻长文本的谣言检测方法及***。

背景技术

随着网络新闻媒体平台与我们的生活息息相关，是人们获取新闻信息的主要来源之一。然而，媒体平台中存在着大量的虚假信息，尤其是部分新闻媒体平台为增加信息来源引入了自媒体号，导致其中发布的长文文本质量参差不齐，极易成为谣言的发布源，这些信息对社会的正常舆论导向和公民生活带来了严重影响，针对媒体平台进行谣言检测也变得尤为重要。本专利所涉及的长文数据是指存在于新闻媒体平台中文本长度大于140的数据。传统的人工识别谣言的方式需要耗费大量的人力物力，难以满足实时性要求，并且长文数据语义信息更加分散，人工标注成本进一步增大。目前，在使用机器学***台中的短文本数据作为研究对象，对于“天天快报”等新闻媒体平台中的长文数据研究较少。微博、推特等平台中的短文数据可以为学***台的内容生产，因此此类平台中长文数据不具有社交媒体数据丰富的数据特征，常用的检测算法通常仅有文本内容可供使用，并且根据观察发现，长文文本通常在语义、情感、标点符号等特征方面区分性较弱，使得分类算法难以保证准确性。因此本发明提出一种新的针对新闻媒体平台长文数据的谣言检测方法。

在基于内容的谣言检测方法中，主要使用句法的显式特征和语义的隐式特征。显式特征特征方面，现有技术提出使用文本内容的词语特征、符号特征以及简单的情感特征；现有技术提出使用字符串长度、词语个数、是否包含标点符号、发布时间等等特征。隐式特征方面，现有技术使用循环神经网络学***台数据文本较短，信息集中，文本风格各异，因此内容特征能使谣言检测获得更好的效果。而新闻媒体平台中的数据文本较长，语义分散，句式语法平实，仅使用内容特征难以取得较好的分类效果。

目前针对长文谣言检测的研究较少，现有技术针对“食品养生”“医学健康”两个领域的长文进行谣言识别，根据“谣言具有异常情感特征”的特点，提出使用情感分析的方法进行谣言检测。但该方法不具有普适性，仅对特定类型的谣言有效。

针对以上存在的问题，本发明提出一种针对新闻媒体平台中长文数据的谣言检测方法。观察发现，长文数据中的谣言通常仅存在于某一个段落中，本方法借助较为成熟的微博短文谣言检测方法，首先将长文以段落为单位进行考虑，对每一个段落提取相应的关键词，到微博平台中搜索获取微博数据，在保证微博数据与长文段落内容相关的前提下，使用融合模型计算微博数据的可信度，进而得到长文中每一个段落的可信度得分。

发明内容

针对上述问题，本发明提出一种针对新闻媒体平台中长文数据的谣言检测方法，主要解决的问题为在微博平台中找到相近数据进行评估，同时给出长文中每个段落的可信度得分。

具体来说，本发明涉及一种针对新闻长文本的谣言检测方法，其中包括：

步骤1、获取指定新闻平台中大于预设字数的文本作为长文本，提取该长文本中段落的关键词，并以该关键词检索社交平台获取社交数据，使用文本相关性算法获得该段落的相关数据；

步骤2、获取标注数据集，该标注数据集包括已标注谣言信息的多个社交数据，使用该标注数据集训练多个分类模型，并将训练完成的分类模型集合为融合模型，使用该融合模型得到该相关数据的可信度得分，用以代表该段落为非谣言的概率。

该针对新闻长文本的谣言检测方法，其中该步骤1包括：对于每一个段落，使用TF-IDF方法提取得到段落的关键词。

该针对新闻长文本的谣言检测方法，其中该步骤1包括：计算具有该关键词的社交数据和该段落间的相似度，并集合该相似度大于阈值的社交数据，作为该相关数据。

该针对新闻长文本的谣言检测方法，其中步骤2中该多个分类模型包括：支持向量机、随机森林、极端随机树、梯度提升决策树、极限梯度提升和逻辑回归模型。

该针对新闻长文本的谣言检测方法，其中该步骤2中训练多个分类模型具体为：

将标注数据集分为训练集和测试集，并将训练集分为相同大小的5折，对于该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型，分别选取训练集中的4折进行训练，剩余1折进行预测，将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果集合为第一中间训练集，并在每一次训练的同时，对该测试集数据进行预测，设对测试集的每一次预测结果为b_i，将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果取平均得到第二中间训练集，使用该逻辑回归模型在该第一中间训练集和该第一中间训练集上训练并测试，得到最终的该融合模型。

本发明还公开了一种针对新闻长文本的谣言检测***，其中包括：

模块1、获取指定新闻平台中大于预设字数的文本作为长文本，提取该长文本中段落的关键词，并以该关键词检索社交平台获取社交数据，使用文本相关性算法获得该段落的相关数据；

模块2、获取标注数据集，该标注数据集包括已标注谣言信息的多个社交数据，使用该标注数据集训练多个分类模型，并将训练完成的分类模型集合为融合模型，使用该融合模型得到该相关数据的可信度得分，用以代表该段落为非谣言的概率。

该针对新闻长文本的谣言检测***，其中该模块1包括：对于每一个段落，使用TF-IDF方法提取得到段落的关键词。

该针对新闻长文本的谣言检测***，其中该模块1包括：计算具有该关键词的社交数据和该段落间的相似度，并集合该相似度大于阈值的社交数据，作为该相关数据。

该针对新闻长文本的谣言检测***，其中模块2中该多个分类模型包括：支持向量机、随机森林、极端随机树、梯度提升决策树、极限梯度提升和逻辑回归模型。

该针对新闻长文本的谣言检测***，其中该模块2中训练多个分类模型具体为：

本发明技术效果包括：使用异源检测方法解决了难以对长文直接判别的问题，使用分段检测方法可以定位到长文中存在谣言的具体段落，本发明方法普适于新闻媒体平台中长文数据的谣言检测。

附图说明

图1为获取长文段落的方法框图；

图2为模型融合stacking方法示意图；

图3本发明整体方法框图。

具体实施细节

本发明关键点包括：

1、分段检测方法。与传统短文本通篇为谣言/非谣言不同，新闻媒体平台中长文数据的谣言通常仅存在于某几个段落中，针对这一特点，本发明将长文以段落为单位进行谣言检测。分段检测方法能够给出长文中每一段落的可信度得分，定位到出现谣言的具体段落，使结果更加具有可解释性。

2、异源检测方法。长文数据中可利用数据特征较少，直接使用机器学习方法难以进行评估。本发明利用搜索得到相异来源的微博数据进行谣言检测，在保证内容相近的前提下，得到对应长文段落的可信度得分。异源检测方法丰富了数据特征，提高了检测准确性。

3、构建特征使用融合模型计算微博数据可信度得分。本发明爬取了新浪微博平台中官方认证的谣言数据，并通过人工标注正常微博得到非谣言数据。进一步地，本发明提取了微博数据中的评论数、点赞数、转发数等22个数据特征，首先采用支持向量机、随机森林、梯度提升决策树等共6个模型对数据进行初步训练，然后使用融合模型中的stacking方法构建出新的训练测试数据集，最后采用逻辑回归模型在新构造数据集上进行训练。融合模型使微博数据的谣言检测结果更加准确。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明方法能够对长文中的每一个段落文本给出可信度得分，并同时普适于新闻媒体平台中长文数据的谣言检测。下面结合附图和具体实施方法对发明加以说明。

步骤1、对长文分段处理，获取相关微博数据。

新闻媒体平台中的长文数据特征区分性较弱，单纯从长文文本出发难以直接进行谣言/非谣言分类，因此，本发明提出使用相关微博数据丰富的数据特征进行谣言检测，弥补长文特征区分性不强的缺点，进而获得长文的评估得分，获取相关微博数据的流程图如图1所示。

根据统计发现：新闻媒体平台中长文数据的谣言仅存在于文中的部分段落，而其他段落仍然为正常文本，本发明首先将长文中字数较少(例如少于25字)的段落进行合并，以段落为单位进行认证。对于每一个段落，使用TF-IDF(term frequency–inversedocument frequency)方法提取段落关键词，其中TF代表词语在文档中出现频率的归一化值，出现频率越大的词语，TF值越大，计算方法为：

TF＝文档中词语出现次数/文档中词语总数

IDF代表词语在文档集合中的逆文档频率，包含该词语的文档数越少，IDF值越大。计算方法为：

IDF＝log(文档总数/(包含该词的文档数+1))

TF-IDF最终使用TF与IDF的乘积代表词语在文档中的重要性，本发明提取的关键词为TF-IDF分数靠前的4个词语。

微博平台提供了搜索接口，用户输入关键词就可以获得相应的微博数据。利用该接口，本发明开发了数据采集程序，使用提取到的关键词，爬取搜索返回列表中的首页数据。进一步地，为了保证微博数据与长文段落的内容相关性，本发明使用词嵌入方法word2vec分别获得微博数据和长文段落中词语的向量表达，根据词语的TF-IDF权重，对词向量加权取平均得到文本的向量表达。并使用余弦相关性计算两者之间的相关度大小，设微博数据与长文段落的向量表达分别为则文本相关性计算公式为：

设定相关性阈值，保留与长文相关性较大的微博数据，使用上述方法获得长文中每一个段落对应的微博数据(相关数据)。

步骤2，对微博数据进行认证分析。

对于长文段落对应的微博数据，本发明使用支持向量机、随机森林、梯度提升决策树等6个模型的融合来对微博数据进行认证分析。

微博认证分析可认为属于二分类问题，训练数据中的谣言数据均来自于微博平台官方认证的谣言数据，非谣言数据来自于人工标注。对于每一条微博数据，提取微博中的点赞数、评论数、转发数等数据特征共22项社交特征。stacking方法首先使用上层多个模型构建出新的训练测试数据集，然后使用下层模型再次进行训练。方法如图2所示：

本发明中上层使用了支持向量机(SVM)、随机森林(RF)、极端随机树(ET)、梯度提升决策树(GDBT)、极限梯度提升(xgboost)共5个模型，首先将数据集分为训练集和测试集，并将训练集分为相同大小的5折，对于每一个模型，选取训练集中的4折进行训练，另一折进行预测(保证每个模型用做预测的数据集不同)，设每一次预测得到的结果为a_i，将5次预测结果组合形成矩阵A，成为新的训练数据集。在每一次训练的同时，对测试集数据进行预测，设对测试集的每一次预测结果为b_i，将5次预测结果取平均得到矩阵B，成为新的测试数据集。最后，使用逻辑回归模型在新的训练数据集A和新的测试数据集B上训练并测试，得到最终的评价模型。

融合模型能够减少单一模型在分类过程中出现的偏差，在谣言检测中取得了更好的效果。对于每个长文段落，使用模型融合方法得到相关微博数据的可信度得分，用以代表该段落为非谣言的概率。

以下为与上述方法实施例对应的***实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

Claims

1.一种针对新闻长文本的谣言检测方法，其特征在于，包括：

2.如权利要求1所述的针对新闻长文本的谣言检测方法，其特征在于，该步骤1包括：对于每一个段落，使用TF-IDF方法提取得到段落的关键词。

3.如权利要求1所述的针对新闻长文本的谣言检测方法，其特征在于，该步骤1包括：计算具有该关键词的社交数据和该段落间的相似度，并集合该相似度大于阈值的社交数据，作为该相关数据。

4.如权利要求1所述的针对新闻长文本的谣言检测方法，其特征在于，步骤2中该多个分类模型包括：支持向量机、随机森林、极端随机树、梯度提升决策树、极限梯度提升和逻辑回归模型。

5.如权利要求1所述的针对新闻长文本的谣言检测方法，其特征在于，该步骤2中训练多个分类模型具体为：

6.一种针对新闻长文本的谣言检测***，其特征在于，包括：

7.如权利要求6所述的针对新闻长文本的谣言检测***，其特征在于，该模块1包括：对于每一个段落，使用TF-IDF方法提取得到段落的关键词。

8.如权利要求6所述的针对新闻长文本的谣言检测***，其特征在于，该模块1包括：计算具有该关键词的社交数据和该段落间的相似度，并集合该相似度大于阈值的社交数据，作为该相关数据。

9.如权利要求6所述的针对新闻长文本的谣言检测***，其特征在于，模块2中该多个分类模型包括：支持向量机、随机森林、极端随机树、梯度提升决策树、极限梯度提升和逻辑回归模型。

10.如权利要求6所述的针对新闻长文本的谣言检测***，其特征在于，该模块2中训练多个分类模型具体为：