CN114461804A - 一种基于关键信息与动态路由的文本分类方法、分类器及*** - Google Patents

一种基于关键信息与动态路由的文本分类方法、分类器及*** Download PDF

Info

Publication number
CN114461804A
CN114461804A CN202210126094.1A CN202210126094A CN114461804A CN 114461804 A CN114461804 A CN 114461804A CN 202210126094 A CN202210126094 A CN 202210126094A CN 114461804 A CN114461804 A CN 114461804A
Authority
CN
China
Prior art keywords
text
classification
classified
bert
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210126094.1A
Other languages
English (en)
Other versions
CN114461804B (zh
Inventor
李晓瑜
彭宇
胡世杰
冯旭栋
张聪
陆超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
AECC Sichuan Gas Turbine Research Institute
Original Assignee
University of Electronic Science and Technology of China
AECC Sichuan Gas Turbine Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, AECC Sichuan Gas Turbine Research Institute filed Critical University of Electronic Science and Technology of China
Priority to CN202210126094.1A priority Critical patent/CN114461804B/zh
Publication of CN114461804A publication Critical patent/CN114461804A/zh
Application granted granted Critical
Publication of CN114461804B publication Critical patent/CN114461804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键信息与动态路由的文本分类方法、分类器及***,属于文本分类技术领域,方法包括:对待分类文本进行预处理,并提取待分类文本中的关键词;将预处理后的待分类文本和关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出;将预分类输出输入到BERT中进行深度编码,得到再分类输出;在BERT中通过动态路由取代CNN中的池化操作搭建下游的分类器,并将预分类输出和再分类输出分别输入到分类器中。发明通过将BERT中嵌入层的输出特征和BERT深度编码的最终输出特征输入到下游分类器中进行两次分类预测,并通过加权相加两次预测结果得到最终的分类结果,充分利用了BERT内部的浅层特征表达,在不改变BERT内部结构的同时大幅提升了分类准确率。

Description

一种基于关键信息与动态路由的文本分类方法、分类器及 ***
技术领域
本发明涉及文本分类技术领域,尤其涉及一种基于关键信息与动态路由的文本分类方法、分类器及***。
背景技术
随着智能手机的普及以及互联网技术的发展,网络新闻媒体、社交媒体平台、网络直播带货、自媒体平台等改变人们生活方式的应用如雨后春笋般兴起,由其所产生的文本数据量也呈现出井喷式的增长趋势。面对日益增加的海量文本数据,如何对其进行自动分类整理从而帮助人们快速准确的获取所需或感兴趣的信息是一个重要的研究问题,文本分类任务开始受到研究人员的广泛关注,并成为自然语言处理中的一项重要任务。文本分类是在预先定义好的分类体系下,根据给定文本的内容自动确定文本类别的过程,可应用在信息检索、文本过滤、情感分析、舆情监控、主题分类等实际场景中。
文本分类任务具有一定的挑战性,但也具有重要的应用价值,研究人员对其进行了大量的研究工作。而预训练语言模型BERT的出现使得文本分类任务的研究进入了新阶段,大多数研究工作直接在BERT的下游进行文本分类模型的搭建,已能获得相当不错的分类效果。但现有的方法仍然存在不足之处:(1)直接将待分类文本输入模型进行预测,没有利用原始文本中的关键信息进行辅助分类,造成了文本关键信息的浪费;(2)在BERT的下游网络简单地堆砌其它神经网络模型进行问答模型的搭建,只使用了待分类文本经BERT深度编码后的高层特征,并未使用BERT内部的低层特征,造成了BERT内部特征的浪费;(3)已有的分类模型大量使用卷积神经网络(CNN)中的池化操作,丢失了模型中的部分特征信息,使得网络无法学习更高级的思维。
发明内容
本发明的目的在于克服现有技术中文本分类存在的问题,提供了一种基于关键信息与动态路由的文本分类方法、分类器及***。
本发明的目的是通过以下技术方案来实现的:
提供一种基于关键信息与动态路由的文本分类方法,所述方法包括以下内容:
对待分类文本进行预处理,并提取待分类文本中的关键词;
将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出;
将所述预分类输出输入到BERT中进行深度编码,得到再分类输出;
在BERT中通过动态路由取代CNN中的池化操作搭建下游的分类器,并将所述预分类输出和再分类输出分别输入到所述分类器中,分别得到预分类结果和再分类结果;
将预分类结果和再分类结果加权相加得到最终的文本分类结果。
具体地,所述对待分类文本进行预处理,包括:
对待分类文本进行数据清洗、分词、去停用词和特征处理,并将每一个待分类文本转换成单词序列的形式;
令T={t1,t2,...,tL}表示待分类文本经预处理后的单词序列,其中ti表示单词序列中第i个位置上的单词,L表示模型允许的待分类文本最大长度。
具体地,所述提取待分类文本中的关键词,包括:
使用相关算法提取待分类文本的单词序列T中的M个关键词,令K={k1,k2,...,kM}表示提取出的M个关键词,并按照其在原始单词序列中的相对位置进行排列。
具体地,所述算法为TextRank算法。
具体地,所述将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出,包括:
将文本单词序列T和关键词序列K按照以下形式进行拼接:
{[CLS],t1,t2,...,tL,[SEP],k1,...,kM,[SEP]},其中[CLS]和[SEP]是BERT中的两个特殊位置标识,[CLS]用于标识输入的开始位置,[SEP]用于分隔不同序列以及标识输入的结束位置;
将拼接好的序列输入BERT的嵌入层,得到嵌入层输出:
E={E[CLS],Et,Et,...,Et,E[SEP],Ek,...,Ek,E[SEP]}。
具体地,所述将所述预分类输出输入到BERT中进行深度编码,得到再分类输出,包括:
将所述嵌入层输出E输入到BERT内部多层双向Tranformer中进行深度编码,得到深度编码后的特征表达:
H={H[CLS],Ht,Ht,...,Ht,H[SEP],Hk,...,Hk,H[SEP]}。
具体地,所述将预分类结果和再分类结果加权相加得到最终的文本分类结果,包括:
令oE表示基于嵌入层输出E的预预测分类结果,oH表示基于BERT最终输出H的再预测分类结果;
最终的文本分类结果由下式计算:
o=α·oH+β·oE
其中,α+β=1,所述o,oH,oE∈RC,C表示文本分类的类别数目。
本发明提供一种BERT下游文本分类器,用于上述的文本分类方法,所述文本分类器包括依次连接的输入层、双向LSTM操作层、主胶囊层、动态路由层、分类胶囊层以及Softmax层;所述主胶囊层作为父胶囊层通过投票式的动态路由机制建立与分类胶囊层之间的非线性映射关系。
具体地,所述双向LSTM操作层使用双向长短时序列记忆网络对输入特征进行序列建模捕获序列中双向的交互关系。
本发明还提供一种基于关键信息与动态路由的文本分类***,所述***包括:
预处理模块,用于对待分类文本进行预处理,并提取待分类文本中的关键词;
预分类模块:用于将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出;
再分类模块,用于将所述预分类输出输入到BERT中进行深度编码,得到再分类输出;
最终分类模块,在BERT中通过动态路由取代CNN中的池化操作搭建下游的分类器,并将所述预分类输出和再分类输出分别输入到所述分类器中,分别得到预分类结果和再分类结果;
所述最终分类模块还用于将预分类结果和再分类结果加权相加得到最终的文本分类结果。
需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
(1)发明通过提取待分类文本中的关键词作为文本关键信息,加强了特征编码对文本主旨大意的表达能力;通过动态路由机制取代CNN中的池化操作构建下游分类器模型,自动学习父层与子层胶囊间的关系,获取局部-整体的强弱联系,利用胶囊网络天然的聚类能力增强了模型在分类任务上的表现;通过将BERT中嵌入层的输出特征和BERT深度编码的最终输出特征输入到下游分类器中进行两次分类预测,并通过加权相加两次预测结果得到最终的分类结果,充分利用了BERT内部的浅层特征表达,在不改变BERT内部结构的同时大幅提升了分类准确率。
(2)本发明利用TextRank关键词提取算法提取待分类文本的关键词作为文本内容关键信息的表达,与原始文本一并输入BERT进行训练,获得融合关键信息的文本特征表达,以提升分类模型的准确性。
(3)本发明利用胶囊神经网络的动态路由机制搭建下游问答模型,识别文本中的多重语义信息,可以表征更丰富的信息并且具有更强的学习能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例示出的一种基于关键信息与动态路由的文本分类方法的流程示意图;
图2为本发明实施例1示出的BERT整体结构及分类过程的示意图;
图3为本发明实施例示出的文本分类器的结构图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明主要通过将BERT中嵌入层的输出特征和BERT深度编码的最终输出特征输入到下游分类器中进行两次分类预测,并通过加权相加两次预测结果得到最终的分类结果,充分利用了BERT内部的浅层特征表达,在不改变BERT内部结构的同时大幅提升了分类准确率。
在对本申请实施例进行介绍说明之前,首先对本申请中涉及的一些名词进行解释说明。
BERT模型:是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,能生成深度的双向语言表征。
TextRank算法:是一种文本排序算法,由谷歌的网页重要性排序算法Page Rank算法改进而来,它能够从一个给定的文本中提取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法提取出该文本的关键句。
动态路由机制:低层胶囊需要决定如何将其输出向量发送给高层胶囊。低层胶囊改变标量权重,输出向量乘以该权重后,发送给高层胶囊,作为高层胶囊的输入。
双向长短时序列记忆网络:在其RNN的基础上添加了反向的运算。把输入的序列反转,重新按照RNN的方式计算一遍输出,最终的结果为正向RNN的结果与反向RNN的结果的简单堆叠,模型就可以实现考虑上下文信息。
胶囊神经网络:使用一个模仿人类视觉***的的新架构,来获得平移同变性,代替原来的平移不变性,使得它在不同的视角下可以使用更少的数据得到更广的泛化。
实施例1
在一示例性实施例中,提供一种基于关键信息与动态路由的文本分类方法,如图1所示,所述方法包括以下内容:
对待分类文本进行预处理,并提取待分类文本中的关键词;
将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出;
将所述预分类输出输入到BERT中进行深度编码,得到再分类输出;
在BERT中通过动态路由取代CNN中的池化操作搭建下游的分类器,并将所述预分类输出和再分类输出分别输入到所述分类器中,分别得到预分类结果和再分类结果;
将预分类结果和再分类结果加权相加得到最终的文本分类结果。
具体地,在对待分类文本分类前,先进行预处理,提取待分类文本中的关键词作为文本关键信息,加强特征编码对文本主旨大意的表达能力,然后将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层进行预训练,得到预分类的结果。然后将嵌入层输出的预分类结果输入到BERT内部进行深度编码,得到深度编码后的特征表达,即再分类输出。
接着将嵌入层的输出和深度编码的输出分别单独地输入到搭建好的下游分类器中进行分类结果的预测,得到基于两种输入的两种分类结果,最后将这两种分类结果加权相加得到最终的文本分类结果。
发明通过通过动态路由机制取代CNN中的池化操作构建下游分类器模型,自动学习父层与子层胶囊间的关系,获取局部-整体的强弱联系,利用胶囊网络天然的聚类能力增强了模型在分类任务上的表现;通过将BERT中嵌入层的输出特征和BERT深度编码的最终输出特征输入到下游分类器中进行两次分类预测,并通过加权相加两次预测结果得到最终的分类结果,充分利用了BERT内部的浅层特征表达,在不改变BERT内部结构的同时大幅提升了分类准确率。
实施例2
基于实施例1,提供一种基于关键信息与动态路由的文本分类方法,如图2所示,所述对待分类文本进行预处理,包括:
对待分类文本进行数据清洗、分词、去停用词和特征等处理准备工作,并将每一个待分类文本转换成单词序列的形式;
令T={t1,t2,...,tL}表示待分类文本经预处理后的单词序列,其中ti表示单词序列中第i个位置上的单词,L表示模型允许的待分类文本最大长度。
进一步地,所述提取待分类文本中的关键词,包括:
使用TextRank算法提取待分类文本的单词序列T中的M个关键词,令K={k1,k2,...,kM}表示提取出的M个关键词,并按照其在原始单词序列中的相对位置进行排列。
进一步地,如图2所示,所述将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出,包括:
将文本单词序列T和关键词序列K按照以下形式进行拼接:
{[CLS],t1,t2,...,tL,[SEP],k1,...,kM,[SEP]},其中[CLS]和[SEP]是BERT中的两个特殊位置标识,[CLS]用于标识输入的开始位置,[SEP]用于分隔不同序列以及标识输入的结束位置;
将拼接好的序列输入BERT的嵌入层,得到嵌入层输出:
E={E[CLS],Et,Et,...,Et,E[SEP],Ek,...,Ek,E[SEP]}。
进一步地,所述将所述预分类输出输入到BERT中进行深度编码,得到再分类输出,包括:
将所述嵌入层输出E输入到BERT内部多层双向Tranformer中进行深度编码,得到深度编码后的特征表达:
H={H[CLS],Ht,Ht,...,Ht,H[SEP],Hk,...,Hk,H[SEP]}。
进一步地,所述将预分类结果和再分类结果加权相加得到最终的文本分类结果,包括:
搭建BERT下游的分类器模型结构,将嵌入层输出E和BERT最终输出H分别单独地输入到分类器中进行分类结果的预测,得到基于两种输入的两种分类结果,令oE表示基于嵌入层输出E的预预测分类结果,oH表示基于BERT最终输出H的再预测分类结果;
最终的文本分类结果由下式计算:
o=α·oH+β·oE
其中,α+β=1,所述o,oH,oE∈RC,C表示文本分类的类别数目。
实施例3
在该实施例中,提供一种BERT下游文本分类器,该实施例中文本分类器基于双向长短时序列记忆网络和胶囊神经网络搭建,如图3所示,所述文本分类器包括依次连接的输入层、双向LSTM操作层、主胶囊层、动态路由层、分类胶囊层以及Softmax层;所述主胶囊层作为父胶囊层通过投票式的动态路由机制建立与分类胶囊层之间的非线性映射关系。
进一步地,所述双向LSTM操作层使用双向长短时序列记忆网络对输入特征进行序列建模捕获序列中双向的交互关系。
具体地,使用该分类器的步骤如下:
(1)令X∈R(L+M+3)×V表示下游文本分类器的输入特征,V表示输入词向量的维度,X中包含待分类文本单词序列、关键词序列以及三个特殊标识位置的词向量,将X输入分类器中进行后续处理。
(2)首先使用双向长短时序列记忆网络(Bi-LSTM)对输入特征X进行序列建模捕获序列中双向的交互关系,令F∈R(L+M+3)×V表示序列建模后的输出,并且将F视作主胶囊层的特征向量。
(3)主胶囊层作为父胶囊层将通过“投票式”的动态路由机制(DynamicRouting)建立与子胶囊层(分类胶囊层)之间的非线性映射关系,分类胶囊层主要有C个d维分类胶囊,令F′∈RC×d表示分类胶囊层的特征向量,C表示文本分类的类别数目,每个胶囊Fi′∈Rd代表一个类目,使用胶囊的向量模长||L2||代表对应类别的概率大小。
(4)最后Softmax层使用softmax函数将分类胶囊层中的特征向量按照模长大小归一化为概率值向量P∈RC
Figure BDA0003500566440000101
Pi表示分类器预测第i个类别的概率值。
本发明利用胶囊神经网络的动态路由机制搭建下游问答模型,识别文本中的多重语义信息,可以表征更丰富的信息并且具有更强的学习能力。
实施例4
在该实施例中,提供一种基于关键信息与动态路由的文本分类***,所述***包括:
预处理模块,用于对待分类文本进行预处理,并提取待分类文本中的关键词;
预分类模块:用于将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出;
再分类模块,用于将所述预分类输出输入到BERT中进行深度编码,得到再分类输出;
最终分类模块,在BERT中通过动态路由取代CNN中的池化操作搭建下游的分类器,并将所述预分类输出和再分类输出分别输入到所述分类器中,分别得到预分类结果和再分类结果;
所述最终分类模块还用于将预分类结果和再分类结果加权相加得到最终的文本分类结果。
实施例5
本实施例与实施例1具有相同的发明构思,在实施例1的基础上提供了一种存储介质,其上存储有计算机指令,计算机指令运行时执行实施例1中的一种基于关键信息与动态路由的文本分类方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例6
本实施例还提供一种终端,与实施例1具有相同的发明构思,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行实施例1中的一种基于关键信息与动态路由的文本分类方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于关键信息与动态路由的文本分类方法,其特征在于,所述方法包括以下内容:
对待分类文本进行预处理,并提取待分类文本中的关键词;
将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出;
将所述预分类输出输入到BERT中进行深度编码,得到再分类输出;
在BERT中通过动态路由取代CNN中的池化操作搭建下游的分类器,并将所述预分类输出和再分类输出分别输入到所述分类器中,分别得到预分类结果和再分类结果;
将预分类结果和再分类结果加权相加得到最终的文本分类结果。
2.根据权利要求1所述的一种基于关键信息与动态路由的文本分类方法,其特征在于,所述对待分类文本进行预处理,包括:
对待分类文本进行数据清洗、分词、去停用词和特征处理,并将每一个待分类文本转换成单词序列的形式;
令T={t1,t2,...,tL}表示待分类文本经预处理后的单词序列,其中ti表示单词序列中第i个位置上的单词,L表示模型允许的待分类文本最大长度。
3.根据权利要求2所述的一种基于关键信息与动态路由的文本分类方法,其特征在于,所述提取待分类文本中的关键词,包括:
使用相关算法提取待分类文本的单词序列T中的M个关键词,令K={k1,k2,...,kM}表示提取出的M个关键词,并按照其在原始单词序列中的相对位置进行排列。
4.根据权利要求3所述的一种基于关键信息与动态路由的文本分类方法,其特征在于,所述算法为TextRank算法。
5.根据权利要求3所述的一种基于关键信息与动态路由的文本分类方法,其特征在于,所述将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出,包括:
将文本单词序列T和关键词序列K按照以下形式进行拼接:
{[CLS],t1,t2,...,tL,[SEP],k1,...,kM,[SEP]},其中[CLS]和[SEP]是BERT中的两个特殊位置标识,[CLS]用于标识输入的开始位置,[SEP]用于分隔不同序列以及标识输入的结束位置;
将拼接好的序列输入BERT的嵌入层,得到嵌入层输出:
E={E[CLS],Et,Et,...,Et,E[SEP],Ek,...,Ek,E[SEP]}。
6.根据权利要求5所述的一种基于关键信息与动态路由的文本分类方法,其特征在于,所述将所述预分类输出输入到BERT中进行深度编码,得到再分类输出,包括:
将所述嵌入层输出E输入到BERT内部多层双向Tranformer中进行深度编码,得到深度编码后的特征表达:
H={H[CLS],Ht,Ht,...,Ht,H[SEP],Hk,...,Hk,H[SEP]}。
7.根据权利要求1所述的一种基于关键信息与动态路由的文本分类方法,其特征在于,所述将预分类结果和再分类结果加权相加得到最终的文本分类结果,包括:
令oE表示基于嵌入层输出E的预预测分类结果,oH表示基于BERT最终输出H的再预测分类结果;
最终的文本分类结果由下式计算:
o=α·oH+β·oE
其中,α+β=1,所述o,oH,oE∈RC,C表示文本分类的类别数目。
8.一种BERT下游文本分类器,用于权利要求1-7中任意一项所述的文本分类方法,其特征在于,所述文本分类器包括依次连接的输入层、双向LSTM操作层、主胶囊层、动态路由层、分类胶囊层以及Softmax层;所述主胶囊层作为父胶囊层通过投票式的动态路由机制建立与分类胶囊层之间的非线性映射关系。
9.根据权利要求8所述的一种BERT下游文本分类器,其特征在于,所述双向LSTM操作层使用双向长短时序列记忆网络对输入特征进行序列建模捕获序列中双向的交互关系。
10.一种基于关键信息与动态路由的文本分类***,其特征在于,所述***包括:
预处理模块,用于对待分类文本进行预处理,并提取待分类文本中的关键词;
预分类模块:用于将预处理后的待分类文本和所述关键词一并输入预训练语言模型BERT的嵌入层,得到预分类输出;
再分类模块,用于将所述预分类输出输入到BERT中进行深度编码,得到再分类输出;
最终分类模块,在BERT中通过动态路由取代CNN中的池化操作搭建下游的分类器,并将所述预分类输出和再分类输出分别输入到所述分类器中,分别得到预分类结果和再分类结果;
所述最终分类模块还用于将预分类结果和再分类结果加权相加得到最终的文本分类结果。
CN202210126094.1A 2022-02-10 2022-02-10 一种基于关键信息与动态路由的文本分类方法、分类器及*** Active CN114461804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210126094.1A CN114461804B (zh) 2022-02-10 2022-02-10 一种基于关键信息与动态路由的文本分类方法、分类器及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210126094.1A CN114461804B (zh) 2022-02-10 2022-02-10 一种基于关键信息与动态路由的文本分类方法、分类器及***

Publications (2)

Publication Number Publication Date
CN114461804A true CN114461804A (zh) 2022-05-10
CN114461804B CN114461804B (zh) 2023-04-07

Family

ID=81413662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210126094.1A Active CN114461804B (zh) 2022-02-10 2022-02-10 一种基于关键信息与动态路由的文本分类方法、分类器及***

Country Status (1)

Country Link
CN (1) CN114461804B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114791951A (zh) * 2022-05-13 2022-07-26 青岛文达通科技股份有限公司 基于胶囊网络的情感分类方法及***
CN114841212A (zh) * 2022-05-18 2022-08-02 中南大学 基于胶囊网络的智能电网时间序列异常检测方法及***
CN116186562A (zh) * 2023-04-27 2023-05-30 中南大学 基于编码器的长文本匹配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596154A (zh) * 2018-05-14 2018-09-28 河海大学 基于高维特征选择与多级融合的遥感图像分类方法
CN111104516A (zh) * 2020-02-10 2020-05-05 支付宝(杭州)信息技术有限公司 一种文本分类方法、装置及电子设备
CN111475622A (zh) * 2020-04-08 2020-07-31 广东工业大学 一种文本分类方法、装置、终端及存储介质
CN111950649A (zh) * 2020-08-20 2020-11-17 桂林电子科技大学 基于注意力机制与胶囊网络的低照度图像分类方法
CN113032664A (zh) * 2019-12-25 2021-06-25 中南大学 基于bert的深度学习序列推荐***
CN113177118A (zh) * 2021-04-29 2021-07-27 中国邮政储蓄银行股份有限公司 文本分类模型、文本分类的方法以及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596154A (zh) * 2018-05-14 2018-09-28 河海大学 基于高维特征选择与多级融合的遥感图像分类方法
CN113032664A (zh) * 2019-12-25 2021-06-25 中南大学 基于bert的深度学习序列推荐***
CN111104516A (zh) * 2020-02-10 2020-05-05 支付宝(杭州)信息技术有限公司 一种文本分类方法、装置及电子设备
CN111475622A (zh) * 2020-04-08 2020-07-31 广东工业大学 一种文本分类方法、装置、终端及存储介质
CN111950649A (zh) * 2020-08-20 2020-11-17 桂林电子科技大学 基于注意力机制与胶囊网络的低照度图像分类方法
CN113177118A (zh) * 2021-04-29 2021-07-27 中国邮政储蓄银行股份有限公司 文本分类模型、文本分类的方法以及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHI ZHANG等: "Text Classification Model Based on BERT-Capsule with Integrated Deep Learning", 《 2021 7TH IEEE INTL CONFERENCE ON BIG DATA SECURITY ON CLOUD (BIGDATASECURITY)》 *
张旭东: "基于深度学习的情感分析技术研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114791951A (zh) * 2022-05-13 2022-07-26 青岛文达通科技股份有限公司 基于胶囊网络的情感分类方法及***
CN114841212A (zh) * 2022-05-18 2022-08-02 中南大学 基于胶囊网络的智能电网时间序列异常检测方法及***
CN116186562A (zh) * 2023-04-27 2023-05-30 中南大学 基于编码器的长文本匹配方法

Also Published As

Publication number Publication date
CN114461804B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN114461804B (zh) 一种基于关键信息与动态路由的文本分类方法、分类器及***
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及***
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN106599022B (zh) 基于用户访问数据的用户画像形成方法
CN112199956B (zh) 一种基于深度表示学习的实体情感分析方法
CN111985247B (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和***
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN113051887A (zh) 一种公告信息元素抽取方法、***及装置
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant