CN114547303A - 基于Bert-LSTM的文本多特征分类方法及装置 - Google Patents

基于Bert-LSTM的文本多特征分类方法及装置 Download PDF

Info

Publication number
CN114547303A
CN114547303A CN202210165299.0A CN202210165299A CN114547303A CN 114547303 A CN114547303 A CN 114547303A CN 202210165299 A CN202210165299 A CN 202210165299A CN 114547303 A CN114547303 A CN 114547303A
Authority
CN
China
Prior art keywords
text
lstm
bert
feature classification
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210165299.0A
Other languages
English (en)
Inventor
韩启龙
高艺涵
宋洪涛
张海涛
马志强
李丽洁
王宇华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202210165299.0A priority Critical patent/CN114547303A/zh
Publication of CN114547303A publication Critical patent/CN114547303A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Bert‑LSTM的文本多特征分类方法及装置,属于文本分类技术领域,其中,该方法包括:确定待分类文本数据集,并划分为训练集和测试集;构建基于Bert‑LSTM的文本多特征分类模型;利用训练集对文本多特征分类模型进行训练,得到最优文本多特征分类模型;将待分类文本数据输入最优文本多特征分类模型中,计算待分类文本数据的得分,根据得分将其划分到预设对应类别中。该方法使用BERT以及双向长短期记忆网络等构建基于Bert‑LSTM的文本多特征分类模型,利用挖掘文本多方面的词特征信息和词义潜在语义表示特征信息,融入文本向量,模型在训练过程中充分利用多特征信息,提升了文本分类的性能。

Description

基于Bert-LSTM的文本多特征分类方法及装置
技术领域
本发明涉及文本分类技术领域,特别涉及基于Bert-LSTM的文本多特征分类方法及装置。
背景技术
随着现代网络科技的发展,大数据等技术的出现,网络信息数据巨大且混杂。文本和词汇出现更新快、多元化的特点,互联网容纳了海量的各式各样的信息,其中文本数据相比较于其他(如图像数据等)占用更少的资源,这就使得网络中的大部分的信息是使用文本的形式来进行展现的。文本分类作为自然语言处理领域中一项基础性的工作,目的是对文本信息进行整理和归类,方便从这些海量的信息中发现有价值的信息,如给新闻主题分类;除此之外还有情感的分析:包括两类的情感分类和三性的情感分类,不同种类的分类的处理方法会有不同。应用方面一般在影视评论评、网络购物的物品评价以及服务行业等应用领域较广泛。其他的还有舆情方面的分析:类似语言表达极性分析,新闻机构用的比较多。其他领域还包括邮件的过滤:如今个人信息泄露问题严重,用户经常会收到各种邮件信息,但其中包含大量垃圾广告和恶意骚扰邮件,文本分类的应用就可以对以上信息进行过滤拦截,在很大程度上减少了这些垃圾邮件的传播。除了这些以外,在问答领域也有相关应用,例如对问句进行主题或者答案分析等等。
对于传统的文本分类,其主要是工作依靠人工完成,不但费时而且还费力,如何降低文本分类的成本,提高文本分类的效率,成了自然语言处理(NLP)方向的研究热点。基于机器学习的文本分类方法能在既定的分类器模型下,根据文本的内容,通过相关网络模型自动的对文本进行类别的划分,从而更好的去帮助人们发掘文本信息,因此得到研究人员日渐广泛的关注。
人类的语言表达情感比较复杂,不能简单地提取词语作为特征去进行分类,需要结合语言方面的知识,借助文本中的上下文语义词性信息以及相关领域的语言特征对文本进行相关处理分析,进而对属于类别进行分类处理。对于文本的特征提取,一般使用词袋法来表示文本的特征信息,但是由于自然语言中人的情感语义表达复杂,例如表达的隐喻或是反话等形式,其潜在的信息不易发掘。对于较为复杂的语言形式,采用词袋法提取相关特征进行向量表示,进而对文本进行分类,由于特征的欠缺导致效果及其有限,基于以上问题,给文本分类带来了巨大的挑战。
因此,亟待一种文本多特征分类方法来解决现有针对文本依赖整体的信息,包括词语的词义表达、潜在含义、语言极性等都需要根据上下文信息特征进行表达,Word2Vec等词向量,不能捕获文本的整体信息,缺少完整的特征依赖等问题。
发明内容
本发明提供一种基于Bert-LSTM的文本多特征分类方法,以用于解决大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理问题以及传统语言模型的词向量表示无法解决多义词表征的问题,以及现有模型不能充分捕获长距离语义信息的问题。
本发明一方面实施例提出一种基于Bert-LSTM的文本多特征分类方法,包括以下步骤:
步骤S1,获取文本数据信息确定待分类文本数据集,并划分为训练集和测试集;
步骤S2,构建基于Bert-LSTM的文本多特征分类模型;
步骤S3,利用所述训练集对所述基于Bert-LSTM的文本多特征分类模型进行训练,得到最优文本多特征分类模型;
步骤S4,将待分类文本数据输入所述最优文本多特征分类模型中,计算所述待分类文本数据的得分,根据所述得分将其划分到预设对应类别中。
本发明另一方面实施例提供一种基于Bert-LSTM的文本多特征分类装置,包括:
获取模块,用于获取文本数据信息确定待分类文本数据集,并划分为训练集和测试集;
构建模块,用于构建基于Bert-LSTM的文本多特征分类模型;
训练模块,用于利用所述训练集对所述基于Bert-LSTM的文本多特征分类模型进行训练,得到最优文本多特征分类模型;
分类模块,用于将待分类文本数据输入所述最优文本多特征分类模型中,计算所述待分类文本数据的得分,根据所述得分将其划分到预设对应类别中。
本发明又一方面实施例提供一种文本多特征分类设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的基于Bert-LSTM的文本多特征分类方法。
本发明还一方面实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的基于Bert-LSTM的文本多特征分类方法。
本发明的技术方案,至少实现了如下有益的技术效果:文本分类过程中可以将文本输入在Bert模型中进行更好的预处理,通过Tree-LSTM和Bi-LSTM多维度捕捉不同的文本特征融入文本向量,捕获文本多种特征信息赋予向量,进行准确的分类,且在保证文本问题分类同时,得到更准确的分类问题结果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的基于Bert-LSTM的文本多特征分类方法的流程图;
图2为本发明实施例所提供的基于Bert-LSTM的文本多特征分类方法的执行示意图;
图3为本发明实施例所构建的基于Bert-LSTM的文本多特征分类模型的图;
图4为本发明实施例所构建的Bi-LSTM提取上下文依赖特征模型图;
图5为本发明实施例所构建的多特征向量提取结构图;
图6为本发明实施例所提供的基于Bert-LSTM的文本多特征分类装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于Bert-LSTM的文本多特征分类方法及装置,首先将参照附图描述根据本发明实施例提出的基于Bert-LSTM的文本多特征分类方法。
图1为本发明实施例所提供的一种基于Bert-LSTM的文本多特征分类方法的流程图。
如图1所示,该基于Bert-LSTM的文本多特征分类方法包括以下步骤:
在步骤S1中,获取文本数据信息确定待分类文本数据集,并划分为训练集和测试集。
进一步地,在本发明的一个实施例中,所述步骤S1具体包括:
步骤S101,获取文本数据信息,提取出所述待分类文本数据集;
步骤S102,对所述待分类文本数据集进行预处理,并将预处理后的待分类文本数据集划分为训练集和测试集。
举例而言,获取文本数据信息,从文本数据信息中,提取出待分类文本数据集并进行预处理,将预处理好的数据集划分为80%训练集和20%测试集。
在步骤S2中,构建基于Bert-LSTM的文本多特征分类模型。
进一步地,在本发明的一个实施例中,所述步骤S2的具体构建过程为:
步骤S201,使用BERT模型的全词遮蔽WWM-EXT模型,引入Attention机制,从不同维度提取所述文本数据信息的部分特征生成文本句子向量,并融入部分上下文信息,得到高维向量矩阵;
步骤S202,通过PCA主成分分析技术对所述高维向量矩阵进行降维,得到低维向量矩阵;
步骤S203,构建Bi-LSTM网络,捕捉文本上下文依赖特征信息,并融入文本向量,得到具备上下文依赖的文本句子向量;
步骤S204,构建Tree-LSTM网络,以所述低维向量矩阵为输入捕捉文本潜在词性信息,并融入文本向量,得到具备文本潜在词性信息的文本句子向量;
步骤S205,将所述具备上下文依赖的文本句子向量和所述具备文本潜在词性信息的文本句子向量进行Concat拼接,得到多特征文本向量表示;
步骤S206,将所述多特征文本向量表示输入RCNN卷积神经网络中,得到最终文本向量表示,从而完成所述基于Bert-LSTM的文本多特征分类模型的构建。
具体地,如图2和3所示,使用BERT模型的全词遮蔽WWM-EXT模型,引入Attention机制,对文本特征进行丰富。
然后经过BERT处理以及Attention部分特征提取得到的向量进行Concat拼接后,得到高维向量矩阵,但高维向量开销过大且解空间的不稳定性,导致模型的泛化能力变差,且数据稀疏,难以准确定位到数据特征,采用PCA对向量矩阵进行降维操作。
对输入层的句子向量进行特征提取,包括文本的整体和局部特征,将时序相反的两个LSTM结合,LSTM机制使得文本内部序列信息以及逻辑关系信息能很好地被捕获,双向LSTM的第一层能够在内部进行特征整合,第二层进一步对上下文依赖融合,经过Bi-LSTM的文本句子向量都具备其上下文依赖。
基于PCA处理后的底维向量,输入到Tree-LSTM层进行更深层次的特征提取,Tree-LSTM对其潜在词性信息特征进行提取,对其语义特征进行丰富,类似于标准的LSTM结构,Tree-LSTM中每个cell都包括类似输入门it,输出门ot,ct和隐层输出ht,与标准LSTM不同点在于,Tree-LSTM的更新和子单元的状态相关,Tree-LSTM的多个子单元机制,使其在捕获句子语义上能捕捉到更为丰富完整地特征信息。
将前两步骤获得的多特征文本向量输入RCNN经过Softmax进行打分,根据得分对文本进行分类。经过以上步骤得到文本向量,作为下一层RCNN的输入,RCNN对向量进行进一步的判别得到最终特征向量F,输入到Softmax层进行打分,根据得分判定文本的所属类别。
在步骤S3中,利用所述训练集对所述基于Bert-LSTM的文本多特征分类模型进行训练,得到最优文本多特征分类模型。
进一步地,在本发明的一个实施例中,所述步骤S3的训练过程具体为:
步骤S301,将所述训练集输入所述基于Bert-LSTM的文本多特征分类模型中,得到最终文本向量表示;
步骤S302,将所述最终文本向量表示输入到预设预测模块,得到预测得分;
步骤S303,对所述基于Bert-LSTM的文本多特征分类模型的输入不断更新,得到多个预测得分;
步骤S304,通过所述预测得分和真实评分之间的误差对所述基于Bert-LSTM的文本多特征分类模型进行优化,训练得到所述最优文本多特征分类模型。
具体地,首先将训练集中的数据输入到步骤S2构建的基于Bert-LSTM的文本多特征分类模型中,得到文本的最终向量表示:
(1)训练集中的文本数据输入基于Bert-LSTM的文本多特征分类模型,中采用BERT-WWM-EXT和注意力机制同时接收文本输入,从不同维度先对文本进行一定的特征提取,输入文本为Q=(W1,W2,...,Wn)对Q进行分词后,(E1,E2,...,En)示分词后的句子,BERT对其向量化,经Transformer解析器语义结构和词之间的关系,得到向量表示[T1,T2,...,Tn]
(2)输入句子X到注意力机制来增强模型抽取信息覆盖率,两个相同的Attention模块单向连接,让模型在捕捉信息时关注一些权重较大的特征;
(3)分词后得到的表示为X=(x1,x2,...,xN)T其对应的嵌入矩阵为A=(a1,a2,...,aN)T两个模块分别提取出不同维度描述的特征f1、f2
(4)Concat拼接两个特征得到一个高维的特征向量矩阵F=[f1,f2],结合语义情景向量si和得到的特征向量fi-1
并对所得高维向量采用PCA对向量矩阵进行降维操作,具体步骤如下:
(1)输入n维的数据集D=(x(1),x(2),...x(m))
(2)进行去中心化操作:
Figure BDA0003511433020000051
(3)对矩阵XXT进行特征值分解;
(4)取出最大的n′个特征值对应的特征向量(w1,w2,,...,wn′)将所有的特征向量标准化后,组成特征向量矩阵w;
(5)对样本集中的每一个样本x(i),转化为新的样本z(i)=WTx(i)
(6)得到输出D′=(z(1),z(2),...,z(m))
如图4所示,然后采用双向LSTM的第一层能够在内部进行特征整合:
(1)Ht为Bi-LSTM的输出文本特征向量前向和后向分别得到各自的隐层x1
Figure BDA0003511433020000061
Figure BDA0003511433020000062
将得到的两个不同隐层向量通过Concat的方式得到向量
Figure BDA0003511433020000063
即[h1,h2,...,hm]
(2)注意力机制对文本向量进行权重分配,句子通过LSTM输出后作为Attention的输入,n为注意力的输出,输入序列数用N表示,权重矩阵为U,F为隐层值的和,某一时刻下的输入wn以及前一时刻隐层状态hn-1,U、V代表权重矩阵,具体公式如下:
Figure BDA0003511433020000064
h′n=hn′ TUF
如图5所示,采用Tree-LSTM对其潜在词性信息特征进行提取,Tree-STM计算公式如下:
Figure BDA0003511433020000065
Figure BDA0003511433020000066
fjk=σ(W(f)xj+U(F)hk+b(f))
Figure BDA0003511433020000067
Figure BDA0003511433020000068
Figure BDA0003511433020000069
hj=oj⊙tanh(cj)
根据以上公式计算:h2,h3求和再与x1
Figure BDA00035114330200000610
得到u1
c2,f2与c3,f3分别按位相乘再求和,加上u1,i1按位相乘,最后两个和相加得到c1,最后通过公式:
hj=oj e tanh(cj)
得到隐层h1
隐层y都经过线性层的处理,将处理后的结果对应到类别上,计算loss:
Figure BDA0003511433020000071
Figure BDA0003511433020000072
经上式可得最终损失函数为:
Figure BDA0003511433020000073
根据该式求解出文本的最终向量表示。
将文本向量的最终表示输入到预测模块,得到文本的得分,计算概率公式如下:
Figure BDA0003511433020000074
F′=V·F
T为所有类别的总量,Fi为向量的第i个分量,权重矩阵为V,所得结果输入Softmax层做分类打分,根据得分得到加和为1的分布y,与真实分布Y求取交叉熵损失:
E(Y,y)=-Ylog(y)
对于输入的m个样本,[x1,x2,xm],每个样本n个属性,即xi=[a1,a2,...,an]分为k类,第i个位置为1,其余为0。每类的概率pk=P(y(k)=1),且∑p=1。
然后根据步骤S2中得到的基于Bert-LSTM的文本多特征分类的输入进行更新;
最后通过预测得分和真实评分之间的误差对模型进行优化,训练得到最优的基于Bert-LSTM的文本多特征分类模型,即最优文本多特征分类模型。
在步骤S4中,将待分类文本数据输入所述最优文本多特征分类模型中,计算所述待分类文本数据的得分,根据所述得分将其划分到预设对应类别中。
根据本发明实施例提出的基于Bert-LSTM的文本多特征分类方法,通过在词典匹配潜在词结合树结构长短期记忆网络Tree-LSTM融入语义词性信息的算法,处理词特征和词性问题,并引入双向长短期记忆网络Bi-LSTM充分获取文本上下文依赖特征信息,实现文本特征的精确表达,提高提取关键词多特征信息的能力,丰富文本特征,提升模型的性能,提高分类的准确率。
为了实现上述实施例,本发明还提出了一种基于Bert-LSTM的文本多特征分类装置。
图6是根据本发明一个实施例的基于Bert-LSTM的文本多特征分类装置的结构示意图。
如图6所示,该基于Bert-LSTM的文本多特征分类装置10包括:获取模块100、构建模块200、训练模块300和分类模块400。
其中,获取模块100,用于获取文本数据信息确定待分类文本数据集,并划分为训练集和测试集。
构建模块200,用于构建基于Bert-LSTM的文本多特征分类模型。
训练模块300,用于利用所述训练集对所述基于Bert-LSTM的文本多特征分类模型进行训练,得到最优文本多特征分类模型。
分类模块400,用于将待分类文本数据输入所述最优文本多特征分类模型中,计算所述待分类文本数据的得分,根据所述得分将其划分到预设对应类别中。
进一步地,在本发明的一个实施例中,所述获取模块100具体包括:
提取单元,用于获取文本数据信息,提取出所述待分类文本数据集;
预处理和划分单元,用于对所述待分类文本数据集进行预处理,并将预处理后的待分类文本数据集划分为训练集和测试集。
进一步地,在本发明的一个实施例中,所述构建模块200具体包括:
提取和融合单元,用于使用BERT模型的全词遮蔽WWM-EXT模型,引入Attention机制,从不同维度提取所述文本数据信息的部分特征生成文本句子向量,并融入部分上下文信息,得到高维向量矩阵;
降维单元,用于通过PCA主成分分析技术对所述高维向量矩阵进行降维,得到低维向量矩阵;
第一捕捉和融合单元,用于构建Bi-LSTM网络,捕捉文本上下文依赖特征信息,并融入文本向量,得到具备上下文依赖的文本句子向量;
第二捕捉和融合单元,用于构建Tree-LSTM网络,以所述低维向量矩阵为输入捕捉文本潜在词性信息,并融入文本向量,得到具备文本潜在词性信息的文本句子向量;
拼接单元,用于将所述具备上下文依赖的文本句子向量和所述具备文本潜在词性信息的文本句子向量进行Concat拼接,得到多特征文本向量表示;
构建单元,用于将所述多特征文本向量表示输入RCNN卷积神经网络中,得到最终文本向量表示,从而完成所述基于Bert-LSTM的文本多特征分类模型的构建
进一步地,在本发明的一个实施例中,所述训练模块300具体为:
处理单元,用于将所述训练集输入所述基于Bert-LSTM的文本多特征分类模型中,得到最终文本向量表示;
预测单元,用于将所述最终文本向量表示输入到预设预测模块,得到预测得分;
更新单元,用于对所述基于Bert-LSTM的文本多特征分类模型的输入不断更新,得到多个预测得分;
优化单元,用于通过所述预测得分和真实评分之间的误差对所述基于Bert-LSTM的文本多特征分类模型进行优化,训练得到所述最优文本多特征分类模型。
需要说明的是,前述对基于Bert-LSTM的文本多特征分类方法实施例的解释说明也适用于该实施例的基于Bert-LSTM的文本多特征分类装置,此处不再赘述。
综上,本发明实施例的基于Bert-LSTM的文本多特征分类装置,通过在词典匹配潜在词结合树结构长短期记忆网络Tree-LSTM融入语义词性信息的算法,处理词特征和词性问题,并引入双向长短期记忆网络Bi-LSTM充分获取文本上下文依赖特征信息,实现文本特征的精确表达,提高提取关键词多特征信息的能力,丰富文本特征,提升模型的性能,提高分类的准确率。
为了实现上述实施例,本发明还提出了一种文本多特征分类设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述实施例所述的基于Bert-LSTM的文本多特征分类方法。
为了实现上述实施例,本发明还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施例所述的基于Bert-LSTM的文本多特征分类方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于Bert-LSTM的文本多特征分类方法,其特征在于,包括以下步骤:
步骤S1,获取文本数据信息确定待分类文本数据集,并划分为训练集和测试集;
步骤S2,构建基于Bert-LSTM的文本多特征分类模型;
步骤S3,利用所述训练集对所述基于Bert-LSTM的文本多特征分类模型进行训练,得到最优文本多特征分类模型;
步骤S4,将待分类文本数据输入所述最优文本多特征分类模型中,计算所述待分类文本数据的得分,根据所述得分将其划分到预设对应类别中。
2.根据权利要求1所述的基于Bert-LSTM的文本多特征分类方法,其特征在于,所述步骤S1具体包括:
步骤S101,获取文本数据信息,提取出所述待分类文本数据集;
步骤S102,对所述待分类文本数据集进行预处理,并将预处理后的待分类文本数据集划分为训练集和测试集。
3.根据权利要求1所述的基于Bert-LSTM的文本多特征分类方法,其特征在于,所述步骤S2的具体构建过程为:
步骤S201,使用BERT模型的全词遮蔽WWM-EXT模型,引入Attention机制,从不同维度提取所述文本数据信息的部分特征生成文本句子向量,并融入部分上下文信息,得到高维向量矩阵;
步骤S202,通过PCA主成分分析技术对所述高维向量矩阵进行降维,得到低维向量矩阵;
步骤S203,构建Bi-LSTM网络,捕捉文本上下文依赖特征信息,并融入文本向量,得到具备上下文依赖的文本句子向量;
步骤S204,构建Tree-LSTM网络,以所述低维向量矩阵为输入捕捉文本潜在词性信息,并融入文本向量,得到具备文本潜在词性信息的文本句子向量;
步骤S205,将所述具备上下文依赖的文本句子向量和所述具备文本潜在词性信息的文本句子向量进行Concat拼接,得到多特征文本向量表示;
步骤S206,将所述多特征文本向量表示输入RCNN卷积神经网络中,得到最终文本向量表示,从而完成所述基于Bert-LSTM的文本多特征分类模型的构建。
4.根据权利要求1所述的基于Bert-LSTM的文本多特征分类方法,其特征在于,所述步骤S3的训练过程具体为:
步骤S301,将所述训练集输入所述基于Bert-LSTM的文本多特征分类模型中,得到最终文本向量表示;
步骤S302,将所述最终文本向量表示输入到预设预测模块,得到预测得分;
步骤S303,对所述基于Bert-LSTM的文本多特征分类模型的输入不断更新,得到多个预测得分;
步骤S304,通过所述预测得分和真实评分之间的误差对所述基于Bert-LSTM的文本多特征分类模型进行优化,训练得到所述最优文本多特征分类模型。
5.一种基于Bert-LSTM的文本多特征分类装置,其特征在于,包括:
获取模块,用于获取文本数据信息确定待分类文本数据集,并划分为训练集和测试集;
构建模块,用于构建基于Bert-LSTM的文本多特征分类模型;
训练模块,用于利用所述训练集对所述基于Bert-LSTM的文本多特征分类模型进行训练,得到最优文本多特征分类模型;
分类模块,用于将待分类文本数据输入所述最优文本多特征分类模型中,计算所述待分类文本数据的得分,根据所述得分将其划分到预设对应类别中。
6.根据权利要求5所述的基于Bert-LSTM的文本多特征分类装置,其特征在于,所述获取模块具体包括:
提取单元,用于获取文本数据信息,提取出所述待分类文本数据集;
预处理和划分单元,用于对所述待分类文本数据集进行预处理,并将预处理后的待分类文本数据集划分为训练集和测试集。
7.根据权利要求5所述的基于Bert-LSTM的文本多特征分类装置,其特征在于,所述构建模块具体包括:
提取和融合单元,用于使用BERT模型的全词遮蔽WWM-EXT模型,引入Attention机制,从不同维度提取所述文本数据信息的部分特征生成文本句子向量,并融入部分上下文信息,得到高维向量矩阵;
降维单元,用于通过PCA主成分分析技术对所述高维向量矩阵进行降维,得到低维向量矩阵;
第一捕捉和融合单元,用于构建Bi-LSTM网络,捕捉文本上下文依赖特征信息,并融入文本向量,得到具备上下文依赖的文本句子向量;
第二捕捉和融合单元,用于构建Tree-LSTM网络,以所述低维向量矩阵为输入捕捉文本潜在词性信息,并融入文本向量,得到具备文本潜在词性信息的文本句子向量;
拼接单元,用于将所述具备上下文依赖的文本句子向量和所述具备文本潜在词性信息的文本句子向量进行Concat拼接,得到多特征文本向量表示;
构建单元,用于将所述多特征文本向量表示输入RCNN卷积神经网络中,得到最终文本向量表示,从而完成所述基于Bert-LSTM的文本多特征分类模型的构建。
8.根据权利要求5所述的基于Bert-LSTM的文本多特征分类装置,其特征在于,所述训练模块具体为:
处理单元,用于将所述训练集输入所述基于Bert-LSTM的文本多特征分类模型中,得到最终文本向量表示;
预测单元,用于将所述最终文本向量表示输入到预设预测模块,得到预测得分;
更新单元,用于对所述基于Bert-LSTM的文本多特征分类模型的输入不断更新,得到多个预测得分;
优化单元,用于通过所述预测得分和真实评分之间的误差对所述基于Bert-LSTM的文本多特征分类模型进行优化,训练得到所述最优文本多特征分类模型。
9.一种文本多特征分类设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-4中任一所述的基于Bert-LSTM的文本多特征分类方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的基于Bert-LSTM的文本多特征分类方法。
CN202210165299.0A 2022-02-18 2022-02-18 基于Bert-LSTM的文本多特征分类方法及装置 Pending CN114547303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210165299.0A CN114547303A (zh) 2022-02-18 2022-02-18 基于Bert-LSTM的文本多特征分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210165299.0A CN114547303A (zh) 2022-02-18 2022-02-18 基于Bert-LSTM的文本多特征分类方法及装置

Publications (1)

Publication Number Publication Date
CN114547303A true CN114547303A (zh) 2022-05-27

Family

ID=81678220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210165299.0A Pending CN114547303A (zh) 2022-02-18 2022-02-18 基于Bert-LSTM的文本多特征分类方法及装置

Country Status (1)

Country Link
CN (1) CN114547303A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658886A (zh) * 2022-09-20 2023-01-31 广东技术师范大学 基于语义文本的智能肝癌分期方法、***及介质
CN115730237A (zh) * 2022-11-28 2023-03-03 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658886A (zh) * 2022-09-20 2023-01-31 广东技术师范大学 基于语义文本的智能肝癌分期方法、***及介质
CN115730237A (zh) * 2022-11-28 2023-03-03 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质
CN115730237B (zh) * 2022-11-28 2024-04-23 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
Ghosh et al. Fracking sarcasm using neural network
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN112001185A (zh) 一种结合中文句法和图卷积神经网络的情感分类方法
CN112001187A (zh) 一种基于中文句法和图卷积神经网络的情感分类***
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN110147552B (zh) 基于自然语言处理的教育资源质量评价挖掘方法及***
CN110765769A (zh) 一种基于子句特征的实体属性依赖情感分析方法
CN111626042A (zh) 指代消解方法及装置
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
Kancharapu et al. A comparative study on word embedding techniques for suicide prediction on COVID-19 tweets using deep learning models
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN111414755A (zh) 一种基于细粒度情感字典的网络情绪分析方法
Ermatita et al. Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks.
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN115758218A (zh) 一种基于长短时特征和决策融合的三模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination