CN111966786B - 一种微博谣言检测方法 - Google Patents
一种微博谣言检测方法 Download PDFInfo
- Publication number
- CN111966786B CN111966786B CN202010757089.1A CN202010757089A CN111966786B CN 111966786 B CN111966786 B CN 111966786B CN 202010757089 A CN202010757089 A CN 202010757089A CN 111966786 B CN111966786 B CN 111966786B
- Authority
- CN
- China
- Prior art keywords
- microblog
- model
- training
- text
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 20
- 230000000694 effects Effects 0.000 description 10
- 230000006872 improvement Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000021152 breakfast Nutrition 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004992 fission Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种微博谣言检测方法,考虑了注意力机制,该方法包含如下步骤:收集微博事件和相应评论数据集作为样本数据;对所述样本数据进行预处理,分别提取原微博与评论的文本内容;采用BERT预训练模型对文本进行预训练,每句文本生成固定长度的句向量;构建字典,提取原微博与对应数条评论组成微博事件向量矩阵;采用深度学习方法Text CNN‑Attention对向量矩阵进行训练,构建多层次训练模型;根据多层次训练模型对向量矩阵进行分类检测,得到对应社交网络数据的谣言检测结果。本发明较之传统谣言检测方法提高了准确率。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种微博谣言检测方法。
背景技术
谣言一般是指未经核实的陈述或说明,往往与某一事件相关。随着社交媒体的迅速发展,谣言可以通过社交媒体以核裂变的速度迅速传播。社交媒体之一的微博,即微型博客,是Web2.0时代新兴的一类开放互联网社交服务。用户可以借助于互联网或手机等传播媒介,随时随地的用简短的文字更新自己的微博,同更多的用户分享信息。微博与传统博客相比,在传播特性上表现出:即时的博文分享、创新的交互方式、生动的现场演绎。在传播效应上表现出:人气积累、经济快捷的品牌营销。但是,多元化的传播中,自由化的传播内容、平民化的传播者和广泛的受众、多样化的传播渠道,推动了谣言在微博上的传播与扩散。微博上谣言的传播多通过用户与用户之间关于信息的评论与转发来进行,若虚假谣言被广泛传播,则对社会产生一定的负面影响。
关于谣言检测的办法一般分为两类:一类是机器学习基于传统的人工提取特征的方法,从谣言内容、谣言用户、谣言传播三个方面搭配情感极性、用户影响力等因素挖掘特征并通过贝叶斯、决策树等分类器进行谣言检测;另一类是基于深度学习方法通过构造神经网络并搭配非线性函数学习文本中的潜在特征,通过CNN、RNN等神经网络模型对文本序列进行特征表示学习,最后通过非线性分类器进行谣言检测。目前通过深度学习构造神经网络对谣言检测的研究中预训练模型大多采用的是word2vec词向量或ELMo,但前者中得出的词向量无法解决多义词的问题使得训练出的每个词只能对应一个向量表示,而后者可以根据上下文动态调整词嵌入,但是使用LSTM进行特征抽取而不是Transformer,并且ELMo使用上下文向量拼接作为当前向量,这样融合出的向量特征较差。训练模型多采用CNN或RNN网络,但CNN网络虽然可以提取句义特征却忽略了上下文语序特征,并且CNN网络经过全连接操作后将池化所得特征拼接时无法对影响较明显的特征进行区分。本发明针对目前存在的挑战提出一种新的考虑注意力机制的谣言检测模型,在文本预处理方面选用能够提取文本潜在特征的BERT预训练模型,训练模型上在CNN模型中引入了注意力机制,能够自动根据事件影响力不同分配不同的权重,最后使用Softmax分类器进行谣言检测。
有鉴于此,有必要设计一种微博谣言检测方法,以解决上述问题。
发明内容
本发明的目的是提供一种准确率较高的微博谣言检测方法。
为实现以上目的,本发明提供了一种微博谣言检测方法,包含如下步骤:
A、收集微博事件和相应评论数据集作为样本数据;
B、对样本数据进行预处理,分别提取原微博与评论的文本内容;
C、采用BERT预训练模型对文本进行预训练,每句文本生成固定长度的句向量;
D、构建字典,提取原微博与对应数条评论组成微博事件向量矩阵;
E、采用深度学习方法Text CNN-Attention对向量矩阵进行训练,构建多层次训练模型;
F、根据多层次训练模型对向量矩阵进行分类检测,得到对应社交网络数据的谣言检测结果。
作为本发明的进一步改进,所述样本数据包括谣言样本数据和非谣言样本数据。
作为本发明的进一步改进,所述步骤B中,使用正则表达式清除json文件中的噪声。
作为本发明的进一步改进,所述进行完预训练的全部文本按照训练数据与测试数据按照4:1的比例用于后续模型的处理。
作为本发明的进一步改进,预训练的BERT模型与代码能够实现词向量的嵌入。
作为本发明的进一步改进,所述BERT模型作为词向量模型,能够充分描述字符级、词级、句子级以至于句子间关系特征,将NLP任务逐渐移到预训练产生句向量上。
作为本发明的进一步改进,所述BERT模型提出预训练目标:遮蔽语言模型(maskedlanguage model,MLM),克服传统的单向性局限,MLM目标允许表征融合左右两侧的语境,从而可以预训练一个深度双向的Transformer。
作为本发明的进一步改进,所述BERT模型引入了“下一句预测”任务,可以和MLM共同训练文本对的表示。
作为本发明的进一步改进,所述BERT模型运用句子级负采样,预测输入BERT的两端文本是否连续;在训练过程中,输入模型的第二段将从所有文本中随机选择,概率为50%,其余50%将选择第一段的后续文本。
作为本发明的进一步改进,所述构建多层次训练模型由Text CNN和注意力机制两部分组成;其中,Text CNN模型使用三个卷积尺寸分别为3,4,5的卷积核对待测向量矩阵进行卷积操作,得到关于不同卷积核基于向量矩阵的不同的特征表示,通过池化操作每个卷积核对应输入矩阵只产生一个最大特征,再通过全连接操作将不同尺寸卷积核所得特征表示相连;注意力机制对全连接后产生的特征表示根据每个特征按照对输出影响力的不同赋予不同的权重,使得影响力大的特征在进行谣言检测时会拥有更大的影响力。
本发明的有益效果如下:本发明微博谣言检测方法,在文本预处理阶段运用了BERT预训练模型,使用Transformer能更高效的捕捉更长距离的依赖,可以挖掘深层的上下文信息,使得预训练出来的句向量具有更好的潜在特征;训练模型引入了注意力机制通过给不同的特征根据其影响力赋予不同的权重,这样对输出结果影响较大的特征就会被赋予更多的权重,从而对结果产生更重要的影响,有利于进行谣言检测,提高检测的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅只是本发明的一些实施例。其中:
图1为谣言检测的通用流程图;
图2为BERT模型的结构示意图;
图3为本发明考虑注意力机制的微博谣言检测方法的流程图;
图4为神经网络Text CNN模型的结构示意图;
图5为引入注意力机制的结构示意图;
图6为实施例一实验结果MATLAB仿真图;
图7为实施例二实验结果MATLAB仿真图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明一种微博谣言检测方法,考虑了注意力机制,该方法整体流程如图1所示,主要包含以下步骤:
步骤1,收集微博事件及相应评论数据作为样本数据;
这里的样本数据包含谣言样本数据和非谣言样本数据;
谣言样本数据标签为“1”,非谣言样本数据标签为“0”。
步骤2,对样本数据进行预处理,使用正则表达式提取相应文本内容;
预处理主要目的是去除文本中的噪声,包括非中文字符、标点、停用词等。由于样本数据都是以json格式的文件进行储存;json文件是以“键值对”的形式储存数据,将数据名称作为json文件中的键,爬取到的数据值作为json文件中的值,例如“text:早餐。不许联想,以免跨省。”;
单个微博原事件的全部数据为一个json文件,单个事件的所有评论的全部数据为一个json文件;
使用正则表达式去除json文件中的噪声,对应提取微博原事件及其所有评论的text文本内容储存下来;
全部文本按照训练数据与测试数据4:1的比例用于后续模型的处理。
步骤3,下载BERT预训练模型,把文本转化成相应句向量;
BERT模型通过下载谷歌的BERT预训练模型可以获得,预训练的中文BERT模型与代码均来自于Google Research的BERT,能够实现词向量的嵌入,基本结构模型如图2所示;
BERT:全称是Bidirectional Encoder Representation from Transformers,即Transformer的双向编码表示来改进基于架构微调的方法。BERT模型作为词向量模型,能够充分描述字符级、词级、句子级以至于句子间关系特征,目的是将下游的NLP任务逐渐移到预训练产生句向量上;
BERT模型包括以下特征:BERT模型提出了一种新的预训练目标:遮蔽语言模型(masked language model,MLM),克服传统的单向性局限,MLM目标允许表征融合左右两侧的语境,从而可以预训练一个深度双向的Transformer;BERT模型引入了“下一句预测”任务,可以和MLM共同训练文本对的表示;BERT模型运用了句子级负采样,对于句子级的连续性预测,就是预测输入BERT的两端文本是否连续。在训练过程中,输入模型的第二段将从所有文本中随机选择,概率为50%,其余50%将选择第一段的后续文本。
步骤4,按照选用句子长度和句向量维度构建相应输入矩阵;
本文采用BERT base模型,网络层数为12层,训练出的句向量维度为768维;
从微博原文和对应所有评论的句向量中选取固定条数句向量组成输入矩阵。
步骤5,采用深度学习方法,构建Text CNN-Attention的多层次训练模型。
图3所示为本发明提出的考虑注意力机制的谣言检测方法的详细流程图,模型的第一层为输入层,主要是输入经过BERT预训练模型生成的句向量组成,这里的整件微博事件构成是原微博加取出的对应随机数条评论;紧接着是卷积层,这里分别运用不同尺寸的过滤器来进行卷积对输入层的句向量进行学习,可以得到基于不同过滤器的特征表示。将属于同一窗口的特征进行拼接,就可以得到窗口的特征向量,根据先后顺序的不同就可以得到特征序列;第三层是在特征序列中引入注意力机制,可以根据注意力分配的不同,对每一个特征都赋予不同的权重,这样对输出结果影响较大的特征就会被赋予更多的权重,从而对结果产生更重要的影响,最后将输出传入分类器进行事件谣言与否的判别。
图4所示为Text CNN模型结构说明,详细过程如下:
(1)对于数据集中所有的谣言与非谣言事件及其相应的评论,通过BERT预处理模型都训练成了句向量。对于每一个微博事件,选取其事件下的相应数条评论和原微博一起作为输入传入输入层,输入层为一个m×n的矩阵,m为选取的事件的总数量,n则为单条句向量的长度。
(2)通过使用尺寸不同的三种过滤器进行卷积,分别得到对应不同过滤器的特征,过滤器会在m×n的输入矩阵中不停的滑动,为了方便提取特征,设定过滤器的长度为k,宽度与输入矩阵宽度一样为n,一个过滤器提取出的特征就可以表示为h∈Rk×n,那么对应m中的任意一条u所获得的特征为:
wu=(xu,xu+1,…,xu-k+1)
在对输入矩阵卷积完之后就会生成一个特征列表c,每一次卷积生成的特征都会对应c:cu=f(wu*h+b),式中的f为ReLU函数,b为偏置项。
(3)当过滤器在长度为m的输入上滑过时,特征列表的长度为(m-k+1),假设存在q个过滤器,则会产生q个特征列表,将q通过拼接得到矩阵:
W1=[c1,c2,…,cq]
cq代表第q个过滤器产生的特征列表。而本文一共运用了三种不同尺寸的过滤器,最后产生的总的矩阵即为:
W=[W1,W2,W3]=[c1,c2,…,cq,cq+1,…,c2q,c2q+1,…,c3q]
(4)对每种过滤器获得的特征采取最大池化操作得到输出特征,将不同过滤器输出特征进行全连接得到CNN输出:
W'=[c11,c22,…,ckk]。
(5)采用注意力层对CNN层的输出进行加权求和,以获取微博序列的隐层表示,引入注意力机制的结构图如图5所示。对CNN网络引入注意力机制能给CNN网络输出的隐状态序列W'赋予不同的权重,这样在学习微博序列的表示时模型能够有侧重的利用微博序列信息。该注意力层将CNN网络的输出ckk作为输入,输出微博序列对应的表示vkk,
hi=tanh(WA*ckk+bA)
组成矩阵V=[v11,v22,…,vkk],WA为权重矩阵,bA为偏置值,hi为ckk的隐层表示,αi为hi与上下文hA的相似度,vi为输出向量。
(6)将输出送入全连接层,通过Softmax得到谣言与非谣言的概率输出,从而达到判断谣言事件的目的。
步骤6,用多层次训练模型对输入矩阵进行训练并测试,得到相应谣言检测结果。
实施例一:
为了证明本发明的有效性,我们选取了Ma等人整理并用于论文里的一系列基于微博平台的事件数据,该数据集是通过微博API捕获的原始信息以及给定事件的所有转发和回复,还抓取了未经报道为谣言的一般主题帖子并收集类似数量的谣言事件,详细的统计情况如下表所列:
我们将所有数据按照训练集与测试集4:1的比例进行划分,具体划分情况如下表所列:
我们采用的用来评估模型有效性的评价指标分别是准确率、精确率、召回率和F1值四个,预测结果与实际结果所产生的情况如下表所列:
我们用作对比的基线方法有四种,分别是SVM-TS、CNN-1、CNN-2、CNN-GRU,关于我们方法与基线方法在谣言检测中的效果比较详细数据如下表所列,实验结果MATLAB仿真图如图6所示:
由表可知传统的SVM-TS方法使用分类器进行谣言检测最后的准确率仅仅只有85.7%,效果并不是特别优秀,对比GRU-1、GRU-2、CNN-GRU三种模型的最后结果可以发现训练模型中加入卷积神经网络后因为可以通过过滤器提取到输入中不同的潜在特征,所以在准确率上有更好的表现达到了95.7%,而我们的模型在引入注意力机制后,将CNN的输出作为输入赋予不同的权重,这样对输出结果影响较大的特征就会被赋予更多的权重,从而对结果产生更重要的影响有助于进行谣言检测,结果表明我们的模型准确率达到了96.8%,并且在召回率和F1值上也有不错的提升。
实施例二:
为了证明我们方法的可行性,我们还选用了另一个微博数据集CED_Data set[23]进行试验,通过使用相同预训练模型获得的句向量在不同训练模型上训练得到准确率进行比较。该数据集包含了1538条谣言事件和1849条非谣言事件,我们按照训练集与测试集4:1的比例进行实验,实验数据如下表所列,实验结果MATLAB仿真图如图7所示:
实验结果表明,通过BERT预训练模型获得的句向量在不同的训练模型上进行训练在准确率方面仍然会有偏差,但是偏差幅度对比之前使用不同预训练模型要小。通过实验可以得出,SVM-TS的准确率大概为86.7%,其次依次是GRU-1、CNN-GRU、GRU-2模型,效果最好的是我们提出的CNN-Attention模型,准确率达到了95.3%,并且在召回率和F1值上体现出的效果也是众多模型中最好的。
综上所述,我们的模型在两个不同的数据集上都表现出了最好的效果,通过使用BERT预训练模型可以大幅度提高预处理出的句向量的特征表现效果,搭配融入了注意力机制的CNN模型可以更有效的提取出文本中的潜在特征,对谣言检测任务意义重大。
本发明主要从预训练模型和训练模型两个方面阐述微博谣言事件检测问题,主要说明了预训练模型一样会对实验结果产生影响,当把部分下游NLP任务转移到预训练模型进行时可以取得更好的效果;在训练模型上,基于传统的Text CNN模型本文提出了一种新的引入注意力机制的谣言检测模型,可以对输入的句向量根据其对输入的影响程度赋予不同的权重,从而对预测事件谣言与否产生积极影响。本方法在真实微博数据集上经过实验验证具有较好的谣言检测效果。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种微博谣言检测方法,其特征在于,包含如下步骤:
A、收集微博事件和相应评论数据集作为样本数据;
B、对所述样本数据进行预处理,分别提取原微博与评论的文本内容;
C、采用BERT预训练模型对文本进行预训练,每句文本生成固定长度的句向量;
D、构建字典,提取原微博与对应数条评论组成微博事件向量矩阵;
E、采用深度学习方法Text CNN-Attention对向量矩阵进行训练,构建多层次训练模型;
所述构建多层次训练模型由Text CNN和注意力机制两部分组成;其中,Text CNN模型使用三个卷积尺寸分别为3,4,5的卷积核对待测向量矩阵进行卷积操作,得到关于不同卷积核基于向量矩阵的不同的特征表示,通过池化操作每个卷积核对应输入矩阵只产生一个最大特征,再通过全连接操作将不同尺寸卷积核所得特征表示相连;注意力机制对全连接后产生的特征表示根据每个特征按照对输出影响力的不同赋予不同的权重,使得影响力大的特征在进行谣言检测时会拥有更大的影响力;
F、根据多层次训练模型对向量矩阵进行分类检测,得到对应社交网络数据的谣言检测结果。
2.根据权利要求1所述的微博谣言检测方法,其特征在于:所述样本数据包括谣言样本数据和非谣言样本数据。
3.根据权利要求1所述的微博谣言检测方法,其特征在于:步骤B中,使用正则表达式清除json文件中的噪声。
4.根据权利要求3所述的微博谣言检测方法,其特征在于:进行完预训练的全部文本按照训练数据与测试数据4:1的比例用于后续模型的处理。
5.根据权利要求4所述的微博谣言检测方法,其特征在于:预训练的BERT模型与代码能够实现词向量的嵌入。
6.根据权利要求5所述的微博谣言检测方法,其特征在于:所述BERT模型作为词向量模型,能够充分描述字符级、词级、句子级以及句子间关系特征,将NLP任务逐渐移到预训练产生句向量上。
7.根据权利要求1所述的微博谣言检测方法,其特征在于:所述BERT模型提出预训练目标:遮蔽语言模型(maskedlanguage model,MLM),克服传统的单向性局限,MLM目标允许表征融合左右两侧的语境,从而可以预训练一个深度双向的Transformer。
8.根据权利要求7所述的微博谣言检测方法,其特征在于:所述BERT模型引入了“下一句预测”任务,可以和MLM共同训练文本对的表示。
9.根据权利要求8所述的微博谣言检测方法,其特征在于:所述BERT模型运用句子级负采样,预测输入BERT的两端文本是否连续;在训练过程中,输入模型的第二段将从所有文本中随机选择,概率为50%,其余50%将选择第一段的后续文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010757089.1A CN111966786B (zh) | 2020-07-31 | 2020-07-31 | 一种微博谣言检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010757089.1A CN111966786B (zh) | 2020-07-31 | 2020-07-31 | 一种微博谣言检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966786A CN111966786A (zh) | 2020-11-20 |
CN111966786B true CN111966786B (zh) | 2022-10-25 |
Family
ID=73363172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010757089.1A Active CN111966786B (zh) | 2020-07-31 | 2020-07-31 | 一种微博谣言检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966786B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560495B (zh) * | 2020-12-09 | 2024-03-15 | 新疆师范大学 | 一种基于情感分析的微博谣言检测方法 |
CN112818011B (zh) * | 2021-01-12 | 2022-03-08 | 南京邮电大学 | 改进的TextCNN与TextRNN谣言识别方法 |
CN113158075A (zh) * | 2021-03-30 | 2021-07-23 | 昆明理工大学 | 融合评论的多任务联合谣言检测方法 |
CN113204641B (zh) * | 2021-04-12 | 2022-09-02 | 武汉大学 | 一种基于用户特征的退火注意力谣言鉴别方法及装置 |
CN113705099B (zh) * | 2021-05-09 | 2023-06-13 | 电子科技大学 | 基于对比学***台谣言检测模型构建方法及检测方法 |
CN113127643A (zh) * | 2021-05-11 | 2021-07-16 | 江南大学 | 一种融合微博主题及评论的深度学习谣言检测方法 |
CN113326437B (zh) * | 2021-06-22 | 2022-06-21 | 哈尔滨工程大学 | 一种基于双引擎网络和drqn的微博早期谣言检测方法 |
CN113377959B (zh) * | 2021-07-07 | 2022-12-09 | 江南大学 | 基于元学习及深度学习的少样本社交媒体谣言检测方法 |
CN116401339A (zh) * | 2023-06-07 | 2023-07-07 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备、介质以及程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280057A (zh) * | 2017-12-26 | 2018-07-13 | 厦门大学 | 一种基于blstm的微博谣言检测方法 |
CN111144131A (zh) * | 2019-12-25 | 2020-05-12 | 北京中科研究院 | 一种基于预训练语言模型的网络谣言检测方法 |
CN111159338A (zh) * | 2019-12-23 | 2020-05-15 | 北京达佳互联信息技术有限公司 | 一种恶意文本的检测方法、装置、电子设备及存储介质 |
-
2020
- 2020-07-31 CN CN202010757089.1A patent/CN111966786B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280057A (zh) * | 2017-12-26 | 2018-07-13 | 厦门大学 | 一种基于blstm的微博谣言检测方法 |
CN111159338A (zh) * | 2019-12-23 | 2020-05-15 | 北京达佳互联信息技术有限公司 | 一种恶意文本的检测方法、装置、电子设备及存储介质 |
CN111144131A (zh) * | 2019-12-25 | 2020-05-12 | 北京中科研究院 | 一种基于预训练语言模型的网络谣言检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111966786A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966786B (zh) | 一种微博谣言检测方法 | |
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
Chen et al. | Call attention to rumors: Deep attention based recurrent neural networks for early rumor detection | |
CN111144131B (zh) | 一种基于预训练语言模型的网络谣言检测方法 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN111310476B (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和*** | |
Riadi | Detection of cyberbullying on social media using data mining techniques | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
Mo et al. | Large language model (llm) ai text generation detection based on transformer deep learning algorithm | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
Zhang et al. | Exploring deep recurrent convolution neural networks for subjectivity classification | |
CN115329085A (zh) | 一种社交机器人分类方法及*** | |
Ashraf et al. | Author profiling on bi-lingual tweets | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN113535960A (zh) | 一种文本分类方法、装置和设备 | |
Shan | Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN116644760A (zh) | 一种基于Bert模型和双通道模型的对话文本情感分析方法 | |
Kavatagi et al. | A context aware embedding for the detection of hate speech in social media networks | |
CN115659990A (zh) | 烟草情感分析方法、装置及介质 | |
CN114238738A (zh) | 一种基于注意力机制与双向gru的谣言检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |