CN110032733A - 一种针对新闻长文本的谣言检测方法及*** - Google Patents

一种针对新闻长文本的谣言检测方法及*** Download PDF

Info

Publication number
CN110032733A
CN110032733A CN201910184862.7A CN201910184862A CN110032733A CN 110032733 A CN110032733 A CN 110032733A CN 201910184862 A CN201910184862 A CN 201910184862A CN 110032733 A CN110032733 A CN 110032733A
Authority
CN
China
Prior art keywords
rumour
paragraph
collection
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910184862.7A
Other languages
English (en)
Inventor
曹娟
钟雷
郭俊波
李***
谢添
刘浩远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910184862.7A priority Critical patent/CN110032733A/zh
Publication of CN110032733A publication Critical patent/CN110032733A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种针对新闻长文本的谣言检测方法及***,包括:获取指定新闻平台中大于预设字数的文本作为长文本,提取长文本中段落的关键词,并以该关键词检索社交平台获取社交数据,使用文本相关性算法获得该段落的相关数据;获取标注数据集,标注数据集包括已标注谣言信息的多个社交数据,使用标注数据集训练多个分类模型,并将训练完成的分类模型集合为融合模型,使用融合模型得到相关数据的可信度得分,用以代表段落为非谣言的概率。本发明使用异源检测方法解决了难以对长文直接判别的问题。

Description

一种针对新闻长文本的谣言检测方法及***
技术领域
本发明涉及大数据分析中的谣言检测领域,特别涉及一种针对新闻长文本的谣言检测方法及***。
背景技术
随着网络新闻媒体平台与我们的生活息息相关,是人们获取新闻信息的主要来源之一。然而,媒体平台中存在着大量的虚假信息,尤其是部分新闻媒体平台为增加信息来源引入了自媒体号,导致其中发布的长文文本质量参差不齐,极易成为谣言的发布源,这些信息对社会的正常舆论导向和公民生活带来了严重影响,针对媒体平台进行谣言检测也变得尤为重要。本专利所涉及的长文数据是指存在于新闻媒体平台中文本长度大于140的数据。传统的人工识别谣言的方式需要耗费大量的人力物力,难以满足实时性要求,并且长文数据语义信息更加分散,人工标注成本进一步增大。目前,在使用机器学***台中的短文本数据作为研究对象,对于“天天快报”等新闻媒体平台中的长文数据研究较少。微博、推特等平台中的短文数据可以为学***台的内容生产,因此此类平台中长文数据不具有社交媒体数据丰富的数据特征,常用的检测算法通常仅有文本内容可供使用,并且根据观察发现,长文文本通常在语义、情感、标点符号等特征方面区分性较弱,使得分类算法难以保证准确性。因此本发明提出一种新的针对新闻媒体平台长文数据的谣言检测方法。
在基于内容的谣言检测方法中,主要使用句法的显式特征和语义的隐式特征。显式特征特征方面,现有技术提出使用文本内容的词语特征、符号特征以及简单的情感特征;现有技术提出使用字符串长度、词语个数、是否包含标点符号、发布时间等等特征。隐式特征方面,现有技术使用循环神经网络学***台数据文本较短,信息集中,文本风格各异,因此内容特征能使谣言检测获得更好的效果。而新闻媒体平台中的数据文本较长,语义分散,句式语法平实,仅使用内容特征难以取得较好的分类效果。
目前针对长文谣言检测的研究较少,现有技术针对“食品养生”“医学健康”两个领域的长文进行谣言识别,根据“谣言具有异常情感特征”的特点,提出使用情感分析的方法进行谣言检测。但该方法不具有普适性,仅对特定类型的谣言有效。
针对以上存在的问题,本发明提出一种针对新闻媒体平台中长文数据的谣言检测方法。观察发现,长文数据中的谣言通常仅存在于某一个段落中,本方法借助较为成熟的微博短文谣言检测方法,首先将长文以段落为单位进行考虑,对每一个段落提取相应的关键词,到微博平台中搜索获取微博数据,在保证微博数据与长文段落内容相关的前提下,使用融合模型计算微博数据的可信度,进而得到长文中每一个段落的可信度得分。
发明内容
针对上述问题,本发明提出一种针对新闻媒体平台中长文数据的谣言检测方法,主要解决的问题为在微博平台中找到相近数据进行评估,同时给出长文中每个段落的可信度得分。
具体来说,本发明涉及一种针对新闻长文本的谣言检测方法,其中包括:
步骤1、获取指定新闻平台中大于预设字数的文本作为长文本,提取该长文本中段落的关键词,并以该关键词检索社交平台获取社交数据,使用文本相关性算法获得该段落的相关数据;
步骤2、获取标注数据集,该标注数据集包括已标注谣言信息的多个社交数据,使用该标注数据集训练多个分类模型,并将训练完成的分类模型集合为融合模型,使用该融合模型得到该相关数据的可信度得分,用以代表该段落为非谣言的概率。
该针对新闻长文本的谣言检测方法,其中该步骤1包括:对于每一个段落,使用TF-IDF方法提取得到段落的关键词。
该针对新闻长文本的谣言检测方法,其中该步骤1包括:计算具有该关键词的社交数据和该段落间的相似度,并集合该相似度大于阈值的社交数据,作为该相关数据。
该针对新闻长文本的谣言检测方法,其中步骤2中该多个分类模型包括:支持向量机、随机森林、极端随机树、梯度提升决策树、极限梯度提升和逻辑回归模型。
该针对新闻长文本的谣言检测方法,其中该步骤2中训练多个分类模型具体为:
将标注数据集分为训练集和测试集,并将训练集分为相同大小的5折,对于该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型,分别选取训练集中的4折进行训练,剩余1折进行预测,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果集合为第一中间训练集,并在每一次训练的同时,对该测试集数据进行预测,设对测试集的每一次预测结果为bi,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果取平均得到第二中间训练集,使用该逻辑回归模型在该第一中间训练集和该第一中间训练集上训练并测试,得到最终的该融合模型。
本发明还公开了一种针对新闻长文本的谣言检测***,其中包括:
模块1、获取指定新闻平台中大于预设字数的文本作为长文本,提取该长文本中段落的关键词,并以该关键词检索社交平台获取社交数据,使用文本相关性算法获得该段落的相关数据;
模块2、获取标注数据集,该标注数据集包括已标注谣言信息的多个社交数据,使用该标注数据集训练多个分类模型,并将训练完成的分类模型集合为融合模型,使用该融合模型得到该相关数据的可信度得分,用以代表该段落为非谣言的概率。
该针对新闻长文本的谣言检测***,其中该模块1包括:对于每一个段落,使用TF-IDF方法提取得到段落的关键词。
该针对新闻长文本的谣言检测***,其中该模块1包括:计算具有该关键词的社交数据和该段落间的相似度,并集合该相似度大于阈值的社交数据,作为该相关数据。
该针对新闻长文本的谣言检测***,其中模块2中该多个分类模型包括:支持向量机、随机森林、极端随机树、梯度提升决策树、极限梯度提升和逻辑回归模型。
该针对新闻长文本的谣言检测***,其中该模块2中训练多个分类模型具体为:
将标注数据集分为训练集和测试集,并将训练集分为相同大小的5折,对于该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型,分别选取训练集中的4折进行训练,剩余1折进行预测,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果集合为第一中间训练集,并在每一次训练的同时,对该测试集数据进行预测,设对测试集的每一次预测结果为bi,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果取平均得到第二中间训练集,使用该逻辑回归模型在该第一中间训练集和该第一中间训练集上训练并测试,得到最终的该融合模型。
本发明技术效果包括:使用异源检测方法解决了难以对长文直接判别的问题,使用分段检测方法可以定位到长文中存在谣言的具体段落,本发明方法普适于新闻媒体平台中长文数据的谣言检测。
附图说明
图1为获取长文段落的方法框图;
图2为模型融合stacking方法示意图;
图3本发明整体方法框图。
具体实施细节
本发明关键点包括:
1、分段检测方法。与传统短文本通篇为谣言/非谣言不同,新闻媒体平台中长文数据的谣言通常仅存在于某几个段落中,针对这一特点,本发明将长文以段落为单位进行谣言检测。分段检测方法能够给出长文中每一段落的可信度得分,定位到出现谣言的具体段落,使结果更加具有可解释性。
2、异源检测方法。长文数据中可利用数据特征较少,直接使用机器学习方法难以进行评估。本发明利用搜索得到相异来源的微博数据进行谣言检测,在保证内容相近的前提下,得到对应长文段落的可信度得分。异源检测方法丰富了数据特征,提高了检测准确性。
3、构建特征使用融合模型计算微博数据可信度得分。本发明爬取了新浪微博平台中官方认证的谣言数据,并通过人工标注正常微博得到非谣言数据。进一步地,本发明提取了微博数据中的评论数、点赞数、转发数等22个数据特征,首先采用支持向量机、随机森林、梯度提升决策树等共6个模型对数据进行初步训练,然后使用融合模型中的stacking方法构建出新的训练测试数据集,最后采用逻辑回归模型在新构造数据集上进行训练。融合模型使微博数据的谣言检测结果更加准确。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明方法能够对长文中的每一个段落文本给出可信度得分,并同时普适于新闻媒体平台中长文数据的谣言检测。下面结合附图和具体实施方法对发明加以说明。
步骤1、对长文分段处理,获取相关微博数据。
新闻媒体平台中的长文数据特征区分性较弱,单纯从长文文本出发难以直接进行谣言/非谣言分类,因此,本发明提出使用相关微博数据丰富的数据特征进行谣言检测,弥补长文特征区分性不强的缺点,进而获得长文的评估得分,获取相关微博数据的流程图如图1所示。
根据统计发现:新闻媒体平台中长文数据的谣言仅存在于文中的部分段落,而其他段落仍然为正常文本,本发明首先将长文中字数较少(例如少于25字)的段落进行合并,以段落为单位进行认证。对于每一个段落,使用TF-IDF(term frequency–inversedocument frequency)方法提取段落关键词,其中TF代表词语在文档中出现频率的归一化值,出现频率越大的词语,TF值越大,计算方法为:
TF=文档中词语出现次数/文档中词语总数
IDF代表词语在文档集合中的逆文档频率,包含该词语的文档数越少,IDF值越大。计算方法为:
IDF=log(文档总数/(包含该词的文档数+1))
TF-IDF最终使用TF与IDF的乘积代表词语在文档中的重要性,本发明提取的关键词为TF-IDF分数靠前的4个词语。
微博平台提供了搜索接口,用户输入关键词就可以获得相应的微博数据。利用该接口,本发明开发了数据采集程序,使用提取到的关键词,爬取搜索返回列表中的首页数据。进一步地,为了保证微博数据与长文段落的内容相关性,本发明使用词嵌入方法word2vec分别获得微博数据和长文段落中词语的向量表达,根据词语的TF-IDF权重,对词向量加权取平均得到文本的向量表达。并使用余弦相关性计算两者之间的相关度大小,设微博数据与长文段落的向量表达分别为则文本相关性计算公式为:
设定相关性阈值,保留与长文相关性较大的微博数据,使用上述方法获得长文中每一个段落对应的微博数据(相关数据)。
步骤2,对微博数据进行认证分析。
对于长文段落对应的微博数据,本发明使用支持向量机、随机森林、梯度提升决策树等6个模型的融合来对微博数据进行认证分析。
微博认证分析可认为属于二分类问题,训练数据中的谣言数据均来自于微博平台官方认证的谣言数据,非谣言数据来自于人工标注。对于每一条微博数据,提取微博中的点赞数、评论数、转发数等数据特征共22项社交特征。stacking方法首先使用上层多个模型构建出新的训练测试数据集,然后使用下层模型再次进行训练。方法如图2所示:
本发明中上层使用了支持向量机(SVM)、随机森林(RF)、极端随机树(ET)、梯度提升决策树(GDBT)、极限梯度提升(xgboost)共5个模型,首先将数据集分为训练集和测试集,并将训练集分为相同大小的5折,对于每一个模型,选取训练集中的4折进行训练,另一折进行预测(保证每个模型用做预测的数据集不同),设每一次预测得到的结果为ai,将5次预测结果组合形成矩阵A,成为新的训练数据集。在每一次训练的同时,对测试集数据进行预测,设对测试集的每一次预测结果为bi,将5次预测结果取平均得到矩阵B,成为新的测试数据集。最后,使用逻辑回归模型在新的训练数据集A和新的测试数据集B上训练并测试,得到最终的评价模型。
融合模型能够减少单一模型在分类过程中出现的偏差,在谣言检测中取得了更好的效果。对于每个长文段落,使用模型融合方法得到相关微博数据的可信度得分,用以代表该段落为非谣言的概率。
以下为与上述方法实施例对应的***实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还公开了一种针对新闻长文本的谣言检测***,其中包括:
模块1、获取指定新闻平台中大于预设字数的文本作为长文本,提取该长文本中段落的关键词,并以该关键词检索社交平台获取社交数据,使用文本相关性算法获得该段落的相关数据;
模块2、获取标注数据集,该标注数据集包括已标注谣言信息的多个社交数据,使用该标注数据集训练多个分类模型,并将训练完成的分类模型集合为融合模型,使用该融合模型得到该相关数据的可信度得分,用以代表该段落为非谣言的概率。
该针对新闻长文本的谣言检测***,其中该模块1包括:对于每一个段落,使用TF-IDF方法提取得到段落的关键词。
该针对新闻长文本的谣言检测***,其中该模块1包括:计算具有该关键词的社交数据和该段落间的相似度,并集合该相似度大于阈值的社交数据,作为该相关数据。
该针对新闻长文本的谣言检测***,其中模块2中该多个分类模型包括:支持向量机、随机森林、极端随机树、梯度提升决策树、极限梯度提升和逻辑回归模型。
该针对新闻长文本的谣言检测***,其中该模块2中训练多个分类模型具体为:
将标注数据集分为训练集和测试集,并将训练集分为相同大小的5折,对于该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型,分别选取训练集中的4折进行训练,剩余1折进行预测,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果集合为第一中间训练集,并在每一次训练的同时,对该测试集数据进行预测,设对测试集的每一次预测结果为bi,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果取平均得到第二中间训练集,使用该逻辑回归模型在该第一中间训练集和该第一中间训练集上训练并测试,得到最终的该融合模型。

Claims (10)

1.一种针对新闻长文本的谣言检测方法,其特征在于,包括:
步骤1、获取指定新闻平台中大于预设字数的文本作为长文本,提取该长文本中段落的关键词,并以该关键词检索社交平台获取社交数据,使用文本相关性算法获得该段落的相关数据;
步骤2、获取标注数据集,该标注数据集包括已标注谣言信息的多个社交数据,使用该标注数据集训练多个分类模型,并将训练完成的分类模型集合为融合模型,使用该融合模型得到该相关数据的可信度得分,用以代表该段落为非谣言的概率。
2.如权利要求1所述的针对新闻长文本的谣言检测方法,其特征在于,该步骤1包括:对于每一个段落,使用TF-IDF方法提取得到段落的关键词。
3.如权利要求1所述的针对新闻长文本的谣言检测方法,其特征在于,该步骤1包括:计算具有该关键词的社交数据和该段落间的相似度,并集合该相似度大于阈值的社交数据,作为该相关数据。
4.如权利要求1所述的针对新闻长文本的谣言检测方法,其特征在于,步骤2中该多个分类模型包括:支持向量机、随机森林、极端随机树、梯度提升决策树、极限梯度提升和逻辑回归模型。
5.如权利要求1所述的针对新闻长文本的谣言检测方法,其特征在于,该步骤2中训练多个分类模型具体为:
将标注数据集分为训练集和测试集,并将训练集分为相同大小的5折,对于该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型,分别选取训练集中的4折进行训练,剩余1折进行预测,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果集合为第一中间训练集,并在每一次训练的同时,对该测试集数据进行预测,设对测试集的每一次预测结果为bi,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果取平均得到第二中间训练集,使用该逻辑回归模型在该第一中间训练集和该第一中间训练集上训练并测试,得到最终的该融合模型。
6.一种针对新闻长文本的谣言检测***,其特征在于,包括:
模块1、获取指定新闻平台中大于预设字数的文本作为长文本,提取该长文本中段落的关键词,并以该关键词检索社交平台获取社交数据,使用文本相关性算法获得该段落的相关数据;
模块2、获取标注数据集,该标注数据集包括已标注谣言信息的多个社交数据,使用该标注数据集训练多个分类模型,并将训练完成的分类模型集合为融合模型,使用该融合模型得到该相关数据的可信度得分,用以代表该段落为非谣言的概率。
7.如权利要求6所述的针对新闻长文本的谣言检测***,其特征在于,该模块1包括:对于每一个段落,使用TF-IDF方法提取得到段落的关键词。
8.如权利要求6所述的针对新闻长文本的谣言检测***,其特征在于,该模块1包括:计算具有该关键词的社交数据和该段落间的相似度,并集合该相似度大于阈值的社交数据,作为该相关数据。
9.如权利要求6所述的针对新闻长文本的谣言检测***,其特征在于,模块2中该多个分类模型包括:支持向量机、随机森林、极端随机树、梯度提升决策树、极限梯度提升和逻辑回归模型。
10.如权利要求6所述的针对新闻长文本的谣言检测***,其特征在于,该模块2中训练多个分类模型具体为:
将标注数据集分为训练集和测试集,并将训练集分为相同大小的5折,对于该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型,分别选取训练集中的4折进行训练,剩余1折进行预测,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果集合为第一中间训练集,并在每一次训练的同时,对该测试集数据进行预测,设对测试集的每一次预测结果为bi,将该支持向量机、该随机森林、该极端随机树、该梯度提升决策树、该极限梯度提升模型各自的预测结果取平均得到第二中间训练集,使用该逻辑回归模型在该第一中间训练集和该第一中间训练集上训练并测试,得到最终的该融合模型。
CN201910184862.7A 2019-03-12 2019-03-12 一种针对新闻长文本的谣言检测方法及*** Pending CN110032733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910184862.7A CN110032733A (zh) 2019-03-12 2019-03-12 一种针对新闻长文本的谣言检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910184862.7A CN110032733A (zh) 2019-03-12 2019-03-12 一种针对新闻长文本的谣言检测方法及***

Publications (1)

Publication Number Publication Date
CN110032733A true CN110032733A (zh) 2019-07-19

Family

ID=67235919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910184862.7A Pending CN110032733A (zh) 2019-03-12 2019-03-12 一种针对新闻长文本的谣言检测方法及***

Country Status (1)

Country Link
CN (1) CN110032733A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188284A (zh) * 2019-04-25 2019-08-30 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及***
CN110532563A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置
CN111143551A (zh) * 2019-12-04 2020-05-12 支付宝(杭州)信息技术有限公司 文本预处理方法、分类方法、装置及设备
CN111475648A (zh) * 2020-03-30 2020-07-31 东软集团股份有限公司 一种文本分类模型生成方法、文本分类方法及装置、设备
CN111489065A (zh) * 2020-03-27 2020-08-04 北京理工大学 融合ict供应链网络拓扑和产品商业信息的节点风险评估
CN111506710A (zh) * 2020-07-01 2020-08-07 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备
CN111611981A (zh) * 2020-06-28 2020-09-01 腾讯科技(深圳)有限公司 信息识别方法和装置及信息识别神经网络训练方法和装置
CN111694955A (zh) * 2020-05-08 2020-09-22 中国科学院计算技术研究所 一种社交平台的早期争议性消息检测方法及***
CN111831790A (zh) * 2020-06-23 2020-10-27 广东工业大学 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN114897270A (zh) * 2022-06-15 2022-08-12 青岛文达通科技股份有限公司 融合语义信息的舆情传播量预测方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038240A (zh) * 2017-12-26 2018-05-15 武汉大学 基于内容、用户多因素分析的社交网络谣言检测方法
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及***
CN108614855A (zh) * 2018-03-19 2018-10-02 众安信息技术服务有限公司 一种谣言识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038240A (zh) * 2017-12-26 2018-05-15 武汉大学 基于内容、用户多因素分析的社交网络谣言检测方法
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及***
CN108614855A (zh) * 2018-03-19 2018-10-02 众安信息技术服务有限公司 一种谣言识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUAN CAO 等: ""Automatic Rumor Detection on Microblogs: A Survey"", 《ARXIV:1807.03505V1》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188284B (zh) * 2019-04-25 2022-01-28 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及***
CN110188284A (zh) * 2019-04-25 2019-08-30 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及***
CN110532563A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置
CN110532563B (zh) * 2019-09-02 2023-06-20 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置
CN111143551A (zh) * 2019-12-04 2020-05-12 支付宝(杭州)信息技术有限公司 文本预处理方法、分类方法、装置及设备
CN111489065A (zh) * 2020-03-27 2020-08-04 北京理工大学 融合ict供应链网络拓扑和产品商业信息的节点风险评估
CN111475648A (zh) * 2020-03-30 2020-07-31 东软集团股份有限公司 一种文本分类模型生成方法、文本分类方法及装置、设备
CN111475648B (zh) * 2020-03-30 2023-11-14 东软集团股份有限公司 一种文本分类模型生成方法、文本分类方法及装置、设备
CN111694955A (zh) * 2020-05-08 2020-09-22 中国科学院计算技术研究所 一种社交平台的早期争议性消息检测方法及***
CN111694955B (zh) * 2020-05-08 2023-09-12 中国科学院计算技术研究所 一种社交平台的早期争议性消息检测方法及***
CN111831790A (zh) * 2020-06-23 2020-10-27 广东工业大学 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN111831790B (zh) * 2020-06-23 2023-07-14 广东工业大学 一种基于低门限集成与文本内容匹配的虚假新闻识别方法
CN111611981A (zh) * 2020-06-28 2020-09-01 腾讯科技(深圳)有限公司 信息识别方法和装置及信息识别神经网络训练方法和装置
CN111506710B (zh) * 2020-07-01 2020-11-06 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备
CN111506710A (zh) * 2020-07-01 2020-08-07 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备
CN114897270A (zh) * 2022-06-15 2022-08-12 青岛文达通科技股份有限公司 融合语义信息的舆情传播量预测方法及***

Similar Documents

Publication Publication Date Title
CN110032733A (zh) 一种针对新闻长文本的谣言检测方法及***
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN104050256B (zh) 基于主动学习的问答方法及采用该方法的问答***
Li et al. Twiner: named entity recognition in targeted twitter stream
KR101284788B1 (ko) 신뢰도에 기반한 질의응답 장치 및 그 방법
US7761447B2 (en) Systems and methods that rank search results
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN102750316B (zh) 基于语义共现模型的概念关系标签抽取方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN103823859B (zh) 基于决策树规则和多种统计模型相结合的人名识别算法
CN101599071A (zh) 对话文本主题的自动提取方法
CN103324700B (zh) 一种基于Web信息的本体概念属性学习方法
CN102637192A (zh) 一种自然语言问答的方法
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN101625680A (zh) 面向专利领域的文档检索方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN1687924A (zh) 互联网人物信息搜索引擎的生成方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
Wu et al. Identification of web query intent based on query text and web knowledge
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及***
CN115329085A (zh) 一种社交机器人分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190719