CN112270187A - 一种基于bert-lstm的谣言检测模型 - Google Patents

一种基于bert-lstm的谣言检测模型 Download PDF

Info

Publication number
CN112270187A
CN112270187A CN202011220175.5A CN202011220175A CN112270187A CN 112270187 A CN112270187 A CN 112270187A CN 202011220175 A CN202011220175 A CN 202011220175A CN 112270187 A CN112270187 A CN 112270187A
Authority
CN
China
Prior art keywords
model
lstm
bert
text
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011220175.5A
Other languages
English (en)
Inventor
况丽娟
戴宪华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011220175.5A priority Critical patent/CN112270187A/zh
Publication of CN112270187A publication Critical patent/CN112270187A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于BERT‑LSTM的谣言检测模型,使用BERT预训练模型对文本进行句子层面的特征向量表示,再输入LSTM进一步获取高层语义特征,更加准确地理解语义。在微博谣言数据集的实验结果表明检测的准确率和召回率更高。具体步骤如下:首先,对输入的的原始数据做预处理,下载Google提供的BERT‑Base模型用来获取文本的词向量;再将BERT模型得到的向量输入LSTM模型。将bert_model.get_sequence_output()函数即BERT模型输出的token向量作LSTM网络的输入,将两者结合起来形成端到端的神经网络结构。经过LSTM的遗忘门、输入门、输出门提取到更高维、有效的特征再输入到softmax层进行分类。根据loss,accuracy,recall和precision的数值进行调整、优化模型参数,直到得到最优解,模型训练成功并保存。

Description

一种基于BERT-LSTM的谣言检测模型
技术领域
本发明涉及自然语言处理领域,尤其是一种基于BERT-LSTM的谣言检测模型。
背景技术
谣言检测是指针对微博等网络社交平台上广泛传播的虚假内容的帖子或者新闻,应用互联网信息采集技术和自然语言处理技术对谣言进行自动检测,同时克服谣言举报或核查平台如新浪的谣言报告中心、互联网公司的辟谣平台所存在的人工辟谣费时费力、信息不全、时延等问题,实现在谣言传播早期阻断谣言的传播,减小谣言产生的危害。
谣言检测主要有基于统计特征的机器学习和基于深度学习的两类检测方法。其中基于统计特征的机器学习有三个统计特征方面效果突出:一是用户特征,如用户是否为VIP,用户的粉丝数,用户的关注数等等;二是内容特征,如文本中包含特殊符号的数量,是否包含链接等内容;三是传播统计特征,如帖子的转发量、评论数等。但这种方法以谣言传播的所有信息为前提,依赖于聚合特性,能够收集到的信息有限。
基于深度学习的谣言检测避免了繁琐的特征提取过程,通过采用CNN、RNN进行高维抽象特征提取,最后经Softmax进行分类预测。但CNN只能抽取文本局部特征,更适合检测短文本,而RNN在实际应用中存在梯度消失的问题。随着Word2Vec、GloVe等词向量模型的发展,人们开始利用词向量模型训练文本库生成词向量获得词汇语义关系,BERT模型被认为是自然语言处理领域新时代的开始。这个强大的、预训练好的模型可以作为一个随时可用的部件使用,节省了从头开始训练模型所需花费的时间、精力和资源。
发明内容
针对上述问题及技术需求,提出了一种基于BERT-LSTM的谣言检测方法,使用BERT预训练语言模型对文本进行句子层面的特征向量表示,将获得的特征向量输入LSTM模型进一步获取高层语义特征,并且防止梯度消失或者梯度***,使得模型能更加准确地理解语义,提高检测的准确率。本发明在微博谣言数据集上进行了实验,结果表明本发明提出的谣言检测模型的准确率和召回率都有较大提升。
本发明的技术方案如下:
一种基于BERT-LSTM的谣言检测方法,该方法包括BERT预训练模型提取文本特征、获取词向量和LSTM神经网络获取文本的高层语义特征以及softmax层进行谣言分类,方法包括:
BERT的输入相较其它模型,采用了三个Embedding相加的方式,包括TokenEmbeddings,Segment Embeddings,Position Embeddings三个向量,以此达到预训练和预测下一句的目的。BERT采用self-attention机制克服了RNN无法并行、运行慢的缺点,同时通过MaskLM来达到训练深度双向预训练模型,较之前使用单向语言模型训练更准确,信息量更大,且语义理解更准确。
输入的embedding会加入位置编码,即在词向量中加入了单词的位置信息,便于区分不同位置的单词。
BERT自注意力机制将句子中的某个词对句子中的所有词做一次Attention,算出每个词对于这个词的权重,再用所有词的加权和来表示这个词。
具体操作是每个词都要通过三个矩阵wq,wk,wv进行一次线性变化,生成每个词对应的的query,key,value三个向量。以一个词为中心进行SelfAttention时,都是用这个词的query向量与每个词的key向量做点积。
再通过Softmax归一化出权重,点乘value得到所有词的加权和,作为这个词的输出;
BERT前向传播网络会将经过Attention之后输出的n个向量(n是词的个数)都分别输入到一个全连接层中,完成前馈网络传播。
BERT的Add&Norm部分是一个残差网络,它会将一层的输入与其标准化后的输出进行相加。此外,BERT还引入了Multi-HeadAttention多头机制相当于h个Attention集成,再将h个输出进行concat得到最终的输出,从而提高算法的效果和稳定性。
通过将BERT进Fine-tune(微调),结合LSTM网络进行文本特征提取。将BERT与LSTM连接的方式是将bert_model.get_sequence_output()函数即bert模型输出的token向量作为LSTM网络的输入。
LSTM增加了记忆单元、输入门、遗忘门及输出门,这些门及记忆单元组合起来,增强了其处理远距离依赖问题的能力,大大提升了循环神经网络处理长序列数据的能力,同时还能防止梯度***和消失。
LSTM输出的词向量可以扩充为卷积对应的格式,即样本数量batch_size为16,计算序列长度sequence_len为128。
最后全连接层进行softmax分类操作;最终输出层可以得到是否为谣言的二分类结果;
其进一步的技术方案为,增加已获取的文本数据的人工标注量,导入BERT-LSTM神经网络进行多次训练,包括:
选取训练样本集,所述训练样本集中包括多个方面的文本数据,且已经人工标注好分类:0为非谣言、1为谣言,选取训练样本集训练时需要对输入的文本数据进行预处理,需要利用停用词表,主要是对文本进行去停用词、去标点符号、去敏感词、结巴分词。将所述训练样本输入已构建好的BERT-LSTM中,从而提高模型训练精度。
本发明的有益技术效果是:
1、本申请公开了一种基于BERT-LSTM的谣言检测模型,将BERT和LSTM结合起来,提高了预测结果的准确度。
2、通过多次训练、多次测试的方法,不仅提高了模型的鲁棒性,而且增强了对各类文本信息的识别能力。
3、本发明还用到了预训练模型的思想,避免从零开始构建模型,通过fine-tune大量地节省训练时间和计算资源,进一步提高检测效率。
4、本发明采用深层双向的BERT做特征提取,BERT采用self-attention机制克服了RNN无法并行、运行慢的缺点,同时通过Mask LM来达到训练深度双向预训练模型。
附图说明
图1是本申请中的谣言检测模型框图。
图2是本申请中的BERT模型结构图。
图3是本申请中的LSTM模型结构图。
图4是本申请中的谣言检测模型输入层设计流程图。
图5是本申请中的谣言检测模型参数取值图表。
具体实施方式
下面结合附图对本发明做进一步的说明。
本申请中公开了一种基于BERT-LSTM的谣言检测模型,针对社交网络中某些热点问题所发表的难以区分真实性的帖子或者新闻,能够省时、高效的判断是否属于谣言的分类结果。本发明中的文本数据处理模型包括Bidirectional Encoder Representationfrom Transformers(BERT)、长短期记忆网络(LSTM)和softmax分类器。
本发明公开的方法在使用BERT-LSTM模型对文本数据进行预测分类结果之前,需要从用BERT模型和LSTM神经网络获取文本语义特征,因此本发明分为两部分,第一部分是BERT预训练模型获得词向量表示,主要流程参考图2,第二部分是LSTM神经网络模型,主要流程参考图3,总流程图参考图1。
第一步:下载Google提供的BERT-Base模型,网络结构一共12层,隐藏层有768维,采用12头模式,共有110M个参数。
第二步:对输入的的原始数据做预处理。主要有去除特殊符号、去除多余空白、文本繁体转简体以及去除停用词,主要去掉文本中高频、无实际意义的词。
第三步:映射索引,对文本进行分词并映射为索引,以及标签映射为索引,对每个单词序列做mask。通过BERT模型的self-attention机制得到每个词语对应的融合字、位置和文本的全局语义信息的向量表示。
第四步:将BERT模型得到的向量输入LSTM模型。将BERT与LSTM连接的方式是将bert_model.get_sequence_output()函数即bert模型输出的token向量作为LSTM网络的输入,将两者结合起来形成端到端的神经网络结构。经过LSTM的遗忘门、输入门、输出门提取到更高维、有效的特征再输入到softmax层进行分类。
第五步:选定实验的评价指标,本文研究的问题属于分类问题,分类问题最常用的评价指标包括精确率P、召回率R以及F1值,精确率P是指分类器预测为正且预测正确的样本占所有预测为正的样本的比例,召回率R是指分类器预测为正且预测正确的样本占所有真实为正的样本的比例,F1值即为正确率和召回率的调和平均值,可以更加全面的反映分类性能,因此它是本文衡量实验效果主要评价指标。
第六步:输入微博谣言文本数据集训练BERT-LSTM模型。将微博谣言文本数据做好非谣言(0)、谣言(1)的标注,按照8:1:1划分训练集、测试集、验证集。
第七步:将文本数据通过BERT模型转化为词向量的后送入LSTM神经网络入口,训练10000轮观察baseline模型结果。根据loss,accuracy,recall和precision的数值进行调整、优化模型参数,直到得到最优解,模型训练成功并保存。
第八步:利用模型预测。获取未标注的数据集,将文本数据转化为词向量的形式,送入训练好的模型入口,得到预测结果。训练出合适的模型后会自动保存,因此预测模型这部分每次只需使用已训练好的模型。
第九步:将文发明提出的模型与传统的机器学习模型做实验对比,在微博谣言数据集的实验结果表明本发明提出的谣言检测算法的准确率和召回率更高。
以上所述的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其它改进和变化,均应认为包含在本发明的保护范围之内。

Claims (4)

1.一种基于BERT-LSTM的谣言检测模型,其特征在于,使用BERT预训练语言模型对文本进行句子层面的特征向量表示,将获得的特征向量输入LSTM模型进一步获取高层语义特征,并且防止梯度消失或者梯度***,使得模型能更加准确地理解语义,提高检测的准确率。所述方法包括:
下载Google提供的BERT-Base模型,对输入的的原始数据做预处理,主要有去除特殊符号、去除多余空白、文本繁体转简体以及去除停用词,主要去掉文本中高频、无实际意义的词。
将BERT模型得到的向量输入LSTM模型。将BERT与LSTM连接的方式是将bert_model.get_sequence_output()函数即bert模型输出的token向量作为LSTM网络的输入,将两者结合起来形成端到端的神经网络结构。经过LSTM的遗忘门、输入门、输出门提取到更高维、有效的特征再输入到softmax层进行分类。
2.根据权利要求所述的方法,其特征在于,选取训练样本集,所述训练样本集中包括若干个样本文本和每个所述样本文本的0、1标签。保持所述神经网络的网络结构的参数为读取到的所述基础网络参数,利用所述训练样本集对所述神经网络的基础网络参数进行训练。对输入数据预处理,利用停用词表,主要是对文本进行去停用词、去标点符号、分词。根据BERT模型,将文本数据转化为词向量。
3.根据权利要求1或2所述的方法,其特征在于,将得到的词向量以时间序列输入到LSTM的encoder端,利用隐藏层保存文本中的依赖信息,信息在LSTM中会经过遗忘门、输入门、输出门最终输出。利用LSTM对数据进行过滤、筛选和细胞状态更新,并防止梯度***。
4.所述方法还包括:将LSTM输出的特征向量输入softmax分类器中进行具体分类,确定所述特征向量对应的类别并输出文本是否为谣言的分类结果。
CN202011220175.5A 2020-11-05 2020-11-05 一种基于bert-lstm的谣言检测模型 Pending CN112270187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011220175.5A CN112270187A (zh) 2020-11-05 2020-11-05 一种基于bert-lstm的谣言检测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011220175.5A CN112270187A (zh) 2020-11-05 2020-11-05 一种基于bert-lstm的谣言检测模型

Publications (1)

Publication Number Publication Date
CN112270187A true CN112270187A (zh) 2021-01-26

Family

ID=74346088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011220175.5A Pending CN112270187A (zh) 2020-11-05 2020-11-05 一种基于bert-lstm的谣言检测模型

Country Status (1)

Country Link
CN (1) CN112270187A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989800A (zh) * 2021-04-30 2021-06-18 平安科技(深圳)有限公司 基于Bert的篇章的多意图识别方法、设备及可读存储介质
CN113591475A (zh) * 2021-08-03 2021-11-02 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备
CN113705099A (zh) * 2021-05-09 2021-11-26 电子科技大学 基于对比学***台谣言检测模型构建方法及检测方法
CN117312500A (zh) * 2023-11-30 2023-12-29 山东齐鲁壹点传媒有限公司 一种基于ann和bert的语义检索模型建立方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110543242A (zh) * 2019-07-25 2019-12-06 北京智慧章鱼科技有限公司 基于bert技术的表情输入法及其装置
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理***及方法
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110543242A (zh) * 2019-07-25 2019-12-06 北京智慧章鱼科技有限公司 基于bert技术的表情输入法及其装置
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理***及方法
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙尉超 等: "基于ALBERT-BiLSTM 模型的微博谣言识别方法研究", 《计算机时代》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989800A (zh) * 2021-04-30 2021-06-18 平安科技(深圳)有限公司 基于Bert的篇章的多意图识别方法、设备及可读存储介质
WO2022227211A1 (zh) * 2021-04-30 2022-11-03 平安科技(深圳)有限公司 基于Bert的篇章的多意图识别方法、设备及可读存储介质
CN113705099A (zh) * 2021-05-09 2021-11-26 电子科技大学 基于对比学***台谣言检测模型构建方法及检测方法
CN113591475A (zh) * 2021-08-03 2021-11-02 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备
CN117312500A (zh) * 2023-11-30 2023-12-29 山东齐鲁壹点传媒有限公司 一种基于ann和bert的语义检索模型建立方法
CN117312500B (zh) * 2023-11-30 2024-02-27 山东齐鲁壹点传媒有限公司 一种基于ann和bert的语义检索模型建立方法

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN108829722B (zh) 一种远程监督的Dual-Attention关系分类方法及***
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN112270187A (zh) 一种基于bert-lstm的谣言检测模型
CN109766544B (zh) 基于lda和词向量的文档关键词抽取方法和装置
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN110717324B (zh) 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN111966786B (zh) 一种微博谣言检测方法
CN107357837A (zh) 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN110990564A (zh) 一种基于情感计算与多头注意力机制的负面新闻识别方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN115357718B (zh) 主题集成服务重复材料发现方法、***、设备和存储介质
CN116644760A (zh) 一种基于Bert模型和双通道模型的对话文本情感分析方法
CN115994220A (zh) 一种基于语义挖掘的接触网文本数据缺陷识别方法及设备
CN116450848A (zh) 一种基于事理图谱的计算思维水平评估方法、装置及介质
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及***
CN115293133A (zh) 一种基于抽取文本因子增强的车险欺诈行为识别方法
CN115659990A (zh) 烟草情感分析方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210126

RJ01 Rejection of invention patent application after publication