CN112069831B - 基于bert模型和增强混合神经网络的不实信息检测方法 - Google Patents

基于bert模型和增强混合神经网络的不实信息检测方法 Download PDF

Info

Publication number
CN112069831B
CN112069831B CN202010850835.1A CN202010850835A CN112069831B CN 112069831 B CN112069831 B CN 112069831B CN 202010850835 A CN202010850835 A CN 202010850835A CN 112069831 B CN112069831 B CN 112069831B
Authority
CN
China
Prior art keywords
vector
text
information
word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010850835.1A
Other languages
English (en)
Other versions
CN112069831A (zh
Inventor
但志平
梁兆君
张骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202010850835.1A priority Critical patent/CN112069831B/zh
Publication of CN112069831A publication Critical patent/CN112069831A/zh
Application granted granted Critical
Publication of CN112069831B publication Critical patent/CN112069831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于BERT模型和增强混合神经网络的不实信息检测方法,包括:对待检测文本进行预处理;使用CNN网络对输入矩阵进行卷积、池化操作,拼接成特征序列;将特征序列作为BiLSTM网络的输入,分别利用前向LSTM单元、后向LSTM单元从前向、后向两个方向全面捕捉文本深层次的语义特征;利用注意力层生成含有注意力分布的语义编码,优化特征向量;利用输出层的分类器完成特征向量的分类检测,判断是否为不实信息。本发明结合了CNN、BiLSTM及注意力机制,不实信息检测精度高,不仅可以提取不实信息文本的局部短语特征和全局上下文特征,还可以提取出文本关键词,减少无关信息对检测结果的不合理影响。

Description

基于BERT模型和增强混合神经网络的不实信息检测方法
技术领域
本发明属于文本检测识别领域,具体涉及一种基于BERT模型和增强混合神经网络的不实信息检测方法。
背景技术
随着互联网技术飞速发展,网络不实信息肆意横行,网络不实信息传播影响正常社会秩序,扰乱社会治安,有效并快速检测网络不实信息并抑制其传播至关重要。近些年,网络揭发不实信息平台多依赖各领域专家鉴别不实信息,消耗大量人力、时间,难以保证检测准确度且检测时间较长,因此构建自动不实信息检测***具有很强的现实意义。
基于传统机器学习的不实信息检测算法特征工程繁琐,因此多数研究者们着重于研究基于深度学习的不实信息检测算法,但现存的基于深度学习不实信息检测算法忽略了对不实信息文本中的多义词的区分表达,且多数采用单一的深度神经网络,无法聚合不同类型深度神经网络的优点,导致检测效果不理想。
发明内容
本发明的目的是针对上述问题,提供一种基于BERT模型和增强混合神经网络的不实信息检测方法,先用BERT模型根据具体的上下文语义动态调整字或词的嵌入表达以增强多义词的向量表示,再利用包含多种尺寸卷积核的CNN网络进行卷积池化操作和文本特征横向拼接,再通过双向LSTM网络提取文本前向后向的远距离特征,并引入注意力机制针对不实信息检测结果的影响力不同赋予不同权重以优化特征向量,实现文本中不实信息的高精度检测和不实信息传播早期识别,避免不实信息造成广泛的影响。
本发明的技术方案是基于BERT模型和增强混合神经网络的不实信息检测方法,利用增强混合神经网络的不实信息检测模型进行不实信息检测,不实信息检测模型包括依次连接的CNN网络、BiLSTM网络、注意力层和输出层,所述不实信息检测方法包括以下步骤,
步骤1:对待检测文本进行预处理;
步骤2:使用CNN网络对输入矩阵进行卷积、池化操作,拼接成特征序列;
步骤3:将特征序列作为BiLSTM网络的输入,分别利用前向LSTM单元、后向LSTM单元从前向、后向两个方向全面捕捉文本深层次的语义特征;
步骤4:利用注意力层生成含有注意力分布的语义编码,优化特征向量;
步骤5:利用输出层的分类器完成特征向量的分类检测,判断是否为不实信息。
进一步地,步骤1中,所述对待检测文本进行预处理,包括数据清洗、数据标注、过滤停用词和分字处理,还包括利用BERT模型对待检测文本进行处理。
优选地,所述CNN网络包括3种不同尺寸的卷积核,卷积核大小分别为3*h、4*h、5*h, h为输入CNN网络的词向量的维度。
相比现有技术,本发明的有益效果:
1)本发明的不实信息检测方法,结合了CNN、BiLSTM及注意力机制,不实信息检测精度高,不仅可以提取不实信息文本的局部短语特征和全局上下文特征,还可以提取出文本关键词,减少无关信息对检测结果的不合理影响;
2)本发明采用BERT模型进行语言模型预训练,针对不同语境,根据具体的上下文语义动态调整字词的词嵌入表达,最终获得更符合该语境的词嵌入表达,从而有效解决不实信息检测领域多义词的向量表示问题,提高了不实信息检测的准确率;
3)本发明的不实信息检测模型采用多种尺寸的卷积核,且卷积核的宽度与词向量的维度相同,便于更好地提取字词的语义、语序信息;
4)本发明通过BiLSTM提取文本前向后向两个方向的特征,有效避免了RNN等模型梯度***和梯度消失问题,更好地捕获双向语义特征;
5)本发明引入注意力机制,对BiLSTM的输出进行优化,突出BiLSTM层的输出信息中的关键内容,关键词在文本中所占权重越大,该词受到的注意力值越大,说明该词在不实信息检测任务中发挥的作用越大。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1为本发明实施例的不实信息检测模型的结构示意图。
图2为本发明实施例的BERT模型的输入输出示意图。
图3为本发明实施例的CNN网络的结构示意图。
图4为本发明实施例的BiLSTM网络的结构示意图。
图5为本发明实施例的注意力层的输入输出示意图。
具体实施方式
基于BERT模型和增强混合神经网络的不实信息检测方法,利用增强混合神经网络的不实信息检测模型进行不实信息检测,不实信息检测模型包括依次连接的CNN网络、BiLSTM网络、注意力层和输出层,如图1-5所示,所述不实信息检测方法包括以下步骤,
步骤1:对文本数据进行预处理后,采用BERT模型进行处理,如图2所示;
步骤2:CNN网络如图3所示,使用3种不同尺寸的卷积核对输入矩阵进行卷积池化操作,并将文本特征横向拼接成特征序列。
步骤3:BiLSTM层如图4所示,将特征序列输入到BiLSTM层,利用双向LSTM从前后两个方向全面捕捉推文更深层次的语义特征。
步骤4:注意力层如图5所示,计算注意力分布概率,生成含有注意力概率分布的语义编码,优化特征向量。
步骤5:将注意力层优化的特征向量通过Softmax激活函数完成分类检测。
步骤1中,对文本数据的预处理,包括:对中文数据集和英文数据集均进行数据清洗,如去除原始数据集中特殊字符、多余空白、纯数字和超链接等;对中英文数据集进行数据标注,将不实信息数据标注为1,非不实信息数据标注为0;过滤原始数据集中的停用词即无实际意义的功能词;对中英文数据均进行分字处理。
BERT模型处理文本数据包括编码阶段和生成向量阶段:编码阶段,通过查询词典将文本中的每个词进行编码转化成编码向量,并附加每个编码向量对应的位置向量,以及每个编码向量所属的句子分割向量;生成向量阶段,将编码向量、位置向量、句子分割向量送入BERT 模型进行训练学习,输出融合了全文语义信息的向量表示。BERT模型针对不同语境,根据具体的上下文语义动态调整字词的词嵌入表达,最终获得更符合该语境的词嵌入表达,可解决不实信息检测领域多义词的向量表示问题。
步骤2中,词向量输入到CNN网络中,CNN网络采用尺寸为3*h、4*h和5*h的卷积核和一个最大池化层进行特征提取。设置卷积核的宽度等于词向量的维度有助于更好地提取微博和Twitter句子中单词的语义和语序信息。以微博为例,将每一条微博作为卷积层的一个输入矩阵,设ti∈Rh表示一条微博中第i个词的h维向量,长度为p的微博表示为:
式中表示串联操作,令ti:i+j表示词ti,ti+1,...,ti+j的串联。卷积核f对每条推文不同位置的单词窗口向量进行卷积操作,产生新的特征。卷积核应用于微博文本中每个可能的单词窗口,生成对应的特征映射。然后采用池化层对该特征映射进行最大池化操作,计算式如下:
mi=f(w·ti:i+l-1+b) (2)
m=[m1,m2,...,mp-l+1] (3)
式(2)到式(4)中b∈R为偏置项,f为非线性函数,分别为三种不同尺寸卷积核经过卷积和最大池化后生成的新特征。
步骤3中,BiLSTM层使用了双向长短期记忆网络捕获双向的语义特征。单向LSTM网络将信息通过隐层状态从前向后传播,无法编码从后向前的信息,但推文的上文和下文的影响力同样重要,因此使用双向长短期记忆网络能更好地捕获双向的语义特征。计算公式如下:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (5)
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (6)
c′t=tanh(Wxcxt+Whcht-1+Wccct-1+bc) (7)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (9)
式中Wxf,Whf,Wcf,bf表示遗忘门ft相应的权重矩阵;Wxi,Whi,Wci,bi表示输入门it相应的权重矩阵;Wxo,Who,Wco,bo表示输出门ot相应的权重矩阵。
步骤4中,引入注意力机制,解决了BiLSTM层的输出信息无法突出重要关键词的问题。单词在Twitter文本中所占的权重越大,该词受到的注意力值越大,说明该词在不实信息检测任务中发挥的作用越大。首先计算BiLSTM不同时刻隐层的输出h0,h1,h2,…,hv在整个文本中对应分配的注意力概率分布值α0,α1,α2,…,αv,分值越大,在微博文本中的注意力越大,然后用softmax进行归一化,最后得到的聚焦化的向量是所有向量的加权和,计算式如下:
ui=wTtanh(Whi+bh) (12)
式中hi表示在第i时刻隐藏层的输出状态包括前馈输出和反馈输出/>ai表示注意力分配系数,σw表示上下文信息的参数矩阵,σw随机初始化,之后作为模型的参数一起被训练,W 是权重转化矩阵,bh为偏置量,tanh为非线性激活函数。

Claims (4)

1.基于BERT模型和增强混合神经网络的不实信息检测方法,其特征在于,利用增强混合神经网络的不实信息检测模型进行不实信息检测,不实信息检测模型包括依次连接的CNN网络、BiLSTM网络、注意力层和输出层,所述不实信息检测方法包括以下步骤,
步骤1:对待检测文本进行预处理;
步骤2:使用CNN网络对输入矩阵进行卷积、池化操作,拼接成特征序列;
步骤3:将特征序列作为BiLSTM网络的输入,分别利用前向LSTM单元、后向LSTM单元从前向、后向两个方向全面捕捉文本深层次的语义特征;
步骤4:利用注意力层生成含有注意力分布的语义编码,优化特征向量;
步骤5:利用输出层的分类器完成特征向量的分类检测,判断是否为不实信息;
所述CNN网络包括3种不同尺寸的卷积核,卷积核大小分别为3*h、4*h、5*h,h为输入CNN网络的词向量的维度;
词向量输入到CNN网络中,CNN网络采用尺寸为3*h、4*h和5*h的卷积核和一个最大池化层进行特征提取;设置卷积核的宽度等于词向量的维度,提取微博和Twitter句子中单词的语义和语序信息;
将每一条微博作为卷积层的一个输入矩阵,设表示一条微博中第/>个词的/>维向量,长度为/>的微博表示为:
式中表示串联操作,令/>表示词/>的串联;卷积核/>对每条推文不同位置的单词窗口向量进行卷积操作,产生新的特征;卷积核应用于微博文本中每个可能的单词窗口,生成对应的特征映射;然后采用池化层对该特征映射进行最大池化操作,计算式为:
、/>、/>分别为三种不同尺寸卷积核经过卷积和最大池化后生成的新特征。
2.根据权利要求1所述的基于BERT模型和增强混合神经网络的不实信息检测方法,其特征在于,步骤1中,所述对待检测文本进行预处理,包括数据清洗、数据标注、过滤停用词和分字处理,还包括利用BERT模型对文本进行处理。
3.根据权利要求2所述的基于BERT模型和增强混合神经网络的不实信息检测方法,其特征在于,所述利用BERT模型对文本进行处理包括编码阶段和生成向量阶段:编码阶段,通过查询词典将文本中的每个词进行编码转化成编码向量,并附加每个编码向量对应的位置向量,以及每个编码向量所属的句子分割向量;生成向量阶段,将编码向量、位置向量、句子分割向量送入 BERT 模型进行训练学习,输出融合了全文语义信息的向量表示。
4.根据权利要求1-3任意一项所述的基于BERT模型和增强混合神经网络的不实信息检测方法,其特征在于,步骤4中,所述利用注意力层生成含有注意力分布的语义编码,计算BiLSTM不同时刻隐层的输出,/>,/>,/>,/> ,对应分配的注意力概率分布值/>,/>,/>,/>,利用softmax分类器进行归一化,得到的聚焦化的向量/>是所有向量的加权和,计算式如下:
式中为在第i时刻隐藏层的输出状态,包括前馈输出/>和反馈输出/>,/>为注意力分配系数,/>表示上下文信息的参数矩阵,/>是权重转化矩阵,/>为偏置量,/>为非线性激活函数。
CN202010850835.1A 2020-08-21 2020-08-21 基于bert模型和增强混合神经网络的不实信息检测方法 Active CN112069831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010850835.1A CN112069831B (zh) 2020-08-21 2020-08-21 基于bert模型和增强混合神经网络的不实信息检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010850835.1A CN112069831B (zh) 2020-08-21 2020-08-21 基于bert模型和增强混合神经网络的不实信息检测方法

Publications (2)

Publication Number Publication Date
CN112069831A CN112069831A (zh) 2020-12-11
CN112069831B true CN112069831B (zh) 2024-05-31

Family

ID=73659885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010850835.1A Active CN112069831B (zh) 2020-08-21 2020-08-21 基于bert模型和增强混合神经网络的不实信息检测方法

Country Status (1)

Country Link
CN (1) CN112069831B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966069B (zh) * 2021-01-13 2023-05-19 西安交通大学 一种基于普遍认知与个体认知的虚假新闻检测***及方法
CN112819604A (zh) * 2021-01-19 2021-05-18 浙江省农村信用社联合社 基于融合神经网络特征挖掘的个人信用评估方法与***
CN112906291B (zh) * 2021-01-25 2023-05-19 武汉纺织大学 一种基于神经网络的建模方法及装置
CN113066572B (zh) * 2021-03-03 2023-06-16 山东师范大学 一种增强局部特征提取的中医辅助诊断***及方法
CN112836054B (zh) * 2021-03-08 2022-07-26 重庆大学 一种基于共生注意力表示学习的服务分类方法
CN113609305B (zh) * 2021-07-27 2024-04-26 三峡大学 基于bert的影视作品地域知识图谱构建方法及***
CN114048790B (zh) * 2021-08-01 2024-05-24 北京工业大学 一种基于耦合双向lstm和卷积结构网络的道路基层应变分析方法
CN115048447B (zh) * 2022-06-27 2023-06-16 华中科技大学 一种基于智能语义补全的数据库自然语言接口***
CN115497006B (zh) * 2022-09-19 2023-08-01 杭州电子科技大学 基于动态混合策略的城区遥感图像变化深度监测方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法

Also Published As

Publication number Publication date
CN112069831A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN112069831B (zh) 基于bert模型和增强混合神经网络的不实信息检测方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN110083831B (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
Xiang et al. A convolutional neural network-based linguistic steganalysis for synonym substitution steganography
CN110287323B (zh) 一种面向目标的情感分类方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111125367B (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算***、方法、及存储介质
CN112070139A (zh) 基于bert与改进lstm的文本分类方法
CN114417872A (zh) 一种合同文本命名实体识别方法及***
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN116662500A (zh) 一种基于bert模型与外部知识图谱的问答***构建方法
CN113704473A (zh) 基于长文本特征提取优化的媒体假新闻检测方法及***
CN111353032B (zh) 面向社区问答的问题分类方法及***
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN115422362B (zh) 一种基于人工智能的文本匹配方法
CN111723572A (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN116757218A (zh) 一种基于上下句关系预测的短文本事件共指消解方法
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant