CN113128557A - 基于胶囊网络融合模型的新闻文本分类方法、***及介质 - Google Patents
基于胶囊网络融合模型的新闻文本分类方法、***及介质 Download PDFInfo
- Publication number
- CN113128557A CN113128557A CN202110266706.2A CN202110266706A CN113128557A CN 113128557 A CN113128557 A CN 113128557A CN 202110266706 A CN202110266706 A CN 202110266706A CN 113128557 A CN113128557 A CN 113128557A
- Authority
- CN
- China
- Prior art keywords
- news
- text
- vector
- capsule
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明请求保护一种基于胶囊网络融合模型的新闻文本分类方法、***及介质,属于深度学习领域,该方法包括:文本预处理与词向量生成;选择BiLSTM模型对新闻文本进行特征表示;考虑新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,弥补BiLSTM的缺点;结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类。
Description
技术领域
本发明属于深度学习领域,涉及一种基于胶囊网络的融合模型应用于新闻文本分类的方法。
背景技术
新闻是“对新近发生的事实的报道”,使用简练的文字概括了丰富的信息并频繁更新,且通过公开媒体传播。大数据时代的发展,网络丰富了新闻的来源,加速了新闻的传播。截至2020年3月,我国网络新闻用户规模达7.31亿,较2018年底增长5598万,占网民整体的80.9%;手机网络新闻用户规模达7.26亿,较2018年底增长7356万,占手机网民的81.0%。面对新闻数据呈***式增长且缺乏高效管理等问题,增加了读者快速获取有效信息的难度。从海量的新闻文本中获取所需的有效信息是一项在研究和应用方面都具有积极意义的工作,一种高效准确的分类算法可以为新闻文本进行自动分类提供有力的支撑,有助于新媒体传播平台对新闻的管理并且根据用户习惯为用户做个性化推荐。
基于深度学习的文本分类方法近年来研究趋热。2006年,Hinton首次提出深度学习就引起了学术界和工业界的关注。其中,卷积神经网络(CNN)和循环神经网络(RNN,LSTM,GRU)等都可以运用在文本分类中。使用深度神经网络模型对海量文本进行分类的基础和关键是文本的特征表示,提取到较理想的浅层语义表示后能在更高层次上对深层语义特征进行抽取,省去了繁杂低效的人工特征工程,在自然语言处理的许多任务中取得了最佳表现。
目前,取自网络的新闻文本往往分为标题和正文两部分,其中标题内容通常是新闻全文的精要概括,信息量大,包含了文章的中心内容。但是在文本分类领域中,现有的基于深度学习的研究大多没有考虑标题和正文处理方式,单一的将二者汇合一起进行文本分类,降低了分类的准确率。另一个问题是单一的深度神经网络往往不能够获得最佳的效果,影响了新闻文本分类模型的效率。基于以上问题,本文基于深度学习的新闻文本分类的研究,将考虑标题和正文两部分,同时在分类效率上,将设计一种新型网络融合模型,充分利用模型优点以提高分类效率。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高分类准确率的基于胶囊网络融合模型的新闻文本分类方法、***及存储介质。本发明的技术方案如下:
一种基于胶囊网络融合模型的新闻文本分类方法,其包括以下步骤:
步骤一:对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成;
步骤二:选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示;
步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;
步骤四:通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示;
步骤五:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络(CapsNet,也称之为向量胶囊网络模型)对获得的信息进行聚合,完成文本分类。
进一步的,所述步骤一对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成,具体包括:
从搜狗实验室数据资源中获取的全网新闻数据,保留12种新闻标签,包括房产house、女性women、运动sports、娱乐yule、信息技术IT、教育learning、商业business、军事mil、旅游travel、健康health、汽车auto、文化cul,首先将获取的新闻文本数据集进行预处理操作,包括分词与去停用词,采用的是基于Python语言的Jieba分词工具,通过增加一些专业词汇来扩充停用词表;词向量生成选择word2vec中的Skip-gram模型,Skip-gram模型是通过当前词来预测当前词前后单词,将预处理完成的新闻标题与正文文本输入到Skip-gram的模型结构中,以获取新闻文本标题与正文的词向量表示,分别表示为T0、T1、T2…Tm与C0、C1、C2…Cn,其中m表示新闻文本标题个数,n表示正文的词向量个数。
进一步的,所述步骤二选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示,具体包括:
采取双向长短记忆神经网络BiLSTM,BiLSTM由两个LSTM组成的双向通道,包括输入门、遗忘门和输出门,选择BiLSTM模型对新闻文本进行特征表示,向量化的文本进入BiLSTM进行上下文语义特征提取,其结构算法如公式(20)、(21)、(22)、(23)、(24)、(25):
it=σ(Wi[ht-1,xt]+bi) (20)
ft=σ(Wf[ht-1,xt]+bf) (21)
g=tanh(Wc[ht-1,xt]+bc) (22)
Ct=ft·Ct-1+it·g (23)
ot=σ(Wo[ht-1,xt]+bo) (24)
ht=ot·tanh(Ct) (25)
其中,xt表示此刻新闻标题与正文的输入信息,ht-1表示前一时刻的输出,it表示此刻输入门,ft表示此刻的遗忘门,g表示候选的输入,Ct表示自循环神经元,用于保存序列信息,ot表示此刻的输出,ht是此刻的输出向量,W表示权重矩阵,b表示偏置向量。
进一步的,所述步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权,具体为:新闻文本包含两个部分,分别是新闻标题和新闻正文,标题对新闻主题有着总结的作用,将新闻标题编码后与新闻正文的单词表示进行点积,获得每个新闻正文词语的重要程度即注意力权重,然后对新闻正文的单词表示进行加权,使得新闻中更重要的单词得到增强;
新闻标题与正文的各个词的向量表示分别为T0、T1、T2…Tm与C0、C1、C2…Cn,作为输入传入Bi-LSTM单元,得到对应隐藏层H0、H1、H2…Hm与h0、h1、h2…hn,将标题词向量与正文词向量进行点积,对新闻正文词向量进行加权,计算出注意力概率分布值a0、a1、a2…an,其思想是获取新闻正文词向量的重要程度,最终获得包含文本信息的特征向量v,其运算过程如公式(26)、(27)、(28):
其中exp表示指数函数,f表示打分函数,其中m表示新闻文本标题个数,n表示正文的词向量个数。
进一步的,所述步骤四:通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,具体为:
CNN模块包含输入层、卷积层、池化层,输入层是新闻文本的向量化表示;卷积与池化层是卷积神经网络模型的核心层,目的是将原始的特征映射到更高层次维度的语义空间,通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,设置3,4,5三种长度的卷积核,进行卷积与池化操作,将词向量加权模块后的输出作为CNN模块的输入,即新闻标题标题H0,H1,H2…Hm和加权后的新闻正文表示h′0,h′1,h′2…h′n,经过CNN的卷积与池化操作,得到新闻标题与正文的特征向量X0,X1,X2…Xm与x0,x1,x2…xn。
进一步的,所述卷积与池化操作运算过程如下:
(一)卷积操作
新闻标题词向量表示卷积运算如公式(29):
Xi=f(W1⊙Hi:i+l-1+b) (29)
其中,Xi表示新闻标题卷积运算后的结果,W1表示滤波器,b表示偏置量,f表示激活函数,l表示滑动窗口大小,Hi:i+l-1表示为由第i到第i+l-1个标题文本词组成的局部特征矩阵,⊙表示点乘运算;
同理,新闻正文词向量表示卷积运算如公式(30):
xi=f(W1⊙h′i:i+l-1+b) (30)
(二)池化操作
对卷积核产生的新闻标题与正文特征进行最大池化操作如公式(31)、(32):
进一步的,所述步骤五结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类,具体为:
胶囊网络与传统的神经网络不同,是通过向量来表示属性,即它的神经元是向量而不是标量,涉及到动态路由、输入胶囊、输出胶囊,本文采用的胶囊网络模块包括挤压、耦合、加权、动态路由在内的步骤,其中动态路由算法是胶囊网络模块的核心组件,通过动态路由不断的调整输入胶囊向量与输出胶囊向量的耦合系数,最终预测出输出胶囊向量;结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类,其算法过程如公式(33)、(34)、(35)、(36)、(37)、(38):
bij=bij+aij (38)
其中,cij表示耦合系数;i表示输入,j表输出;Wij表示变换矩阵,ui表示输入
将CNN模块所提取得到的新闻文本标题与正文的特征作为子阶胶囊向量输入到胶囊网络模块进行文本分类,通过上述的算法,将新闻文本所有向量拼接获得高阶胶囊向量表示y0,y1,y2…yn,最终完成新闻文本分类。
一种基于所述方法的胶囊网络融合模型的新闻文本分类***,其包括:
预处理模块:对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成;
双向长短记忆神经网络BiLSTM:选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示;根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示;
聚合模块:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络(CapsNet,也称之为向量胶囊网络模型)对获得的信息进行聚合,完成文本分类。
一种介质,该介质内部存储计算机程序,所述计算机程序被处理器读取时,执行上述权利要求任一项的方法。
本发明的优点及有益效果如下:
1、本发明新闻文本往往分为标题和正文两部分,在模型的搭建中,草率的把标题与正文合并作为输入是不科学的,因此本文通过引入注意力机制,对词向量进行加权,即新闻标题编码后与新闻正文的单词表示进行点积,可以获得每个新闻单词的重要程度(也就是注意力权重),然后对新闻内容的单词表示进行加权,使得新闻中更重要的单词得到增强,从而提高分类准确率。
2、BiLSTM关注上下文信息,CNN关注局部而非整体。BiLSTM对文本长序列有着很好的表示作用,但是新闻内容属于过长的文本内容,仅仅使BiLSTM会在序列化模型中损失一些信息,本文通过BiLSTM获得新闻词向量的表示之后,再通过CNN获得句子的局部表示,可以有效弥补BiLSTM的一些缺点,并且最终通过胶囊网络对获得的信息进行聚合,获得输出胶囊,可以有效地提升分类效果。
附图说明
图1是本发明提供优选实施例基于胶囊网络融合模型的新闻文本分类方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,在本实施例中,一种基于胶囊网络融合模型的新闻文本分类方法,具体包括以下步骤:
步骤一:文本预处理与词向量生成;
本次实验数据从搜狗实验室数据资源中获取的全网新闻数据,保留12种新闻标签,包括房产(house)、女性(women)、运动(sports)、娱乐(yule)、信息技术(IT)、教育(learning)、商业(business)、军事(mil)、旅游(travel)、健康(health)、汽车(auto)、文化(cul)。首先将获取的新闻文本数据集进行预处理操作,包括分词与去停用词等。采用的是基于Python语言的Jieba分词工具。通过增加一些专业词汇来扩充停用词表。词向量生成选择word2vec中的Skip-gram模型,该模型在数据集较大的情况效果更好。包括输入层、投影层和输出层,通过当前词来预测当前词前后单词。将预处理完成的新闻标题与正文文本输入到Skip-gram的模型结构中,以获取新闻文本标题与正文的词向量表示,即T0、T1、T2…Tm与C0、C1、C2…Cn。
步骤二:选择BiLSTM模型对新闻文本进行特征表示;
采取双向长短记忆神经网络(BiLSTM),其模型结构由两个LSTM组成的双向通道,包括输入门、遗忘门和输出门。该模型更关注于全局特征,具备记忆功能,在文本特征表示有着管饭的应用。因此本文利用BiLSTM对文本长序列有着很好的表示作用,选择BiLSTM模型对新闻文本进行特征表示。向量化的文本进入BiLSTM进行上下文语义特征提取,其结构算法如公式(39)、(40)、(41)、(42)、(43)、(44):
it=σ(Wi[ht-1,xt]+bi) (39)
ft=σ(Wf[ht-1,xt]+bf) (40)
g=tanh(Wc[ht-1,xt]+bc) (41)
Ct=ft·Ct-1+it·g (42)
ot=σ(Wo[ht-1,xt]+bo) (43)
ht=ot·tanh(Ct) (44)
其中,xt表示此刻新闻标题与正文的输入信息,ht-1表示前一时刻的输出,it表示此刻输入门,ft表示此刻的遗忘门,g表示候选的输入。Ct表示自循环神经元,用于保存序列信息。ot表示此刻的输出,ht是此刻的输出向量,W表示权重矩阵,b表示偏置向量。
步骤三:考虑新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;
新闻文本通常包含两个部分,分别是新闻标题和新闻正文,标题对新闻主题有着总结的作用,因此本文将新闻标题编码后与新闻正文的单词表示进行点积,可以获得每个新闻正文词语的重要程度(也就是注意力权重),然后对新闻正文的单词表示进行加权,使得新闻中更重要的单词得到增强。
新闻标题与正文的各个词的向量表示分别为T0、T1、T2…Tm与C0、C1、C2…Cn,作为输入传入Bi-LSTM单元,得到对应隐藏层H0、H1、H2…Hm与h0、h1、h2…hn,将标题词向量与正文词向量进行点积,对新闻正文词向量进行加权,计算出注意力概率分布值a0、a1、a2…an,其思想是获取新闻正文词向量的重要程度,最终获得包含文本信息的特征向量v,其运算过程如公式(45)、(46)、(47)。
其中exp表示指数函数,f表示打分函数,其中m表示新闻文本标题个数,n表示正文的词向量个数。
步骤四:通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,弥补BiLSTM的缺点;
CNN模块包含输入层、卷积层、池化层。输入层是新闻文本的向量化表示;卷积与池化层是卷积深井网络模型的核心层,目的是将原始的特征映射到更高层次维度的语义空间。本文通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,可以有效弥补BiLSTM的缺点,实验设置3,4,5三种长度的卷积核,进行卷积与池化操作。将词向量加权模块后的输出作为CNN模块的输入,即新闻标题标题H0,H1,H2…Hm和加权后的新闻正文表示h′0,h′1,h′2…h′n,经过CNN的卷积与池化操作,得到新闻标题与正文的特征向量X0,X1,X2…Xm与x0,x1,x2…xn。其运算过程如下:
(1)卷积操作
新闻标题词向量表示卷积运算如公式(48):
Xi=f(W1⊙Hi:i+l-1+b) (48)
其中,Xi表示新闻标题卷积运算后的结果,W1表示滤波器,b表示偏置量,f表示激活函数,l表示滑动窗口大小,Hi:i+l-1可以表示为由第i到第i+l-1个标题文本词组成的局部特征矩阵,⊙表示点乘运算。
同理,新闻正文词向量表示卷积运算如公式(49):
xi=f(W1⊙h′i:i+l-1+b) (49)
(2)池化操作
对卷积核产生的新闻标题与正文特征进行最大池化操作如公式(50)、(51):
其中,Xi(i=0,1,...,n-l+1)为新闻标题词向量经卷积运算后的结果,xi(i=0,1,...,n-l+1)为新闻正文词向量加权后和卷积运算后的结果。表示新闻文本标题与正文经过最大池化运算后的结果。
步骤五:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类。
胶囊网络与传统的神经网络不同,是通过向量来表示属性,即它的神经元是向量而不是标量。涉及到动态路由、输入胶囊、输出胶囊等概念。本文采用的胶囊网络模块包括挤压、耦合、加权、动态路由等步骤,其中动态路由算法是胶囊网络模块的核心组件,通过动态路由不断的调整输入胶囊向量与输出胶囊向量的耦合系数,最终预测出输出胶囊向量。本文结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络具有局部与整体空间位置关系的学习能力,对获得的信息进行聚合,完成文本分类。其算法过程如公式(52)、(53)、(54)、(55)、(56)、(57)。
bij=bij+aij (57)
其中,cij表示耦合系数;i表示输入,j表输出;Wij表示变换矩阵,ui表示输入胶囊,表示输出胶囊向量,式(53)表示通过变换矩阵,实现输入胶囊与输出胶囊的转换;sj表示耦合过程的输出,vj表示sj通过压缩函数后的胶囊向量;aij表示vj对应的预测向量进行点积预算。
将CNN模块所提取得到的新闻文本标题与正文的特征作为子阶胶囊向量输入到胶囊网络模块进行文本分类。通过上述的算法,将新闻文本所有向量拼接获得高阶胶囊向量表示y0,y1,y2…yn,最终完成新闻文本分类。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (9)
1.一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,包括以下步骤:
步骤一:对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成;
步骤二:选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示;
步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;
步骤四:通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示;
步骤五:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络CapsNet对获得的信息进行聚合,完成文本分类。
2.根据权利要求1所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤一对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成,具体包括:
从搜狗实验室数据资源中获取的全网新闻数据,保留12种新闻标签,包括房产house、女性women、运动sports、娱乐yule、信息技术IT、教育learning、商业business、军事mil、旅游travel、健康health、汽车auto、文化cul,首先将获取的新闻文本数据集进行预处理操作,包括分词与去停用词,采用的是基于Python语言的Jieba分词工具,通过增加一些专业词汇来扩充停用词表;词向量生成选择word2vec中的Skip-gram模型,Skip-gram模型是通过当前词来预测当前词前后单词,将预处理完成的新闻标题与正文文本输入到Skip-gram的模型结构中,以获取新闻文本标题与正文的词向量表示,分别表示为T0、T1、T2…Tm与C0、C1、C2…Cn,其中m表示新闻文本标题个数,n表示正文的词向量个数。
3.根据权利要求2所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤二选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示,具体包括:
采取双向长短记忆神经网络BiLSTM,BiLSTM由两个LSTM组成的双向通道,包括输入门、遗忘门和输出门,选择BiLSTM模型对新闻文本进行特征表示,向量化的文本进入BiLSTM进行上下文语义特征提取,其结构算法如公式(1)、(2)、(3)、(4)、(5)、(6):
it=σ(Wi[ht-1,xt]+bi) (1)
ft=σ(Wf[ht-1,xt]+bf) (2)
g=tanh(Wc[ht-1,xt]+bc) (3)
Ct=ft·Ct-1+it·g (4)
ot=σ(Wo[ht-1,xt]+bo) (5)
ht=ot·tanh(Ct) (6)
其中,xt表示此刻新闻标题与正文的输入信息,ht-1表示前一时刻的输出,it表示此刻输入门,ft表示此刻的遗忘门,g表示候选的输入,Ct表示自循环神经元,用于保存序列信息,ot表示此刻的输出,ht是此刻的输出向量,W表示权重矩阵,b表示偏置向量。
4.根据权利要求3所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权,具体为:新闻文本包含两个部分,分别是新闻标题和新闻正文,标题对新闻主题有着总结的作用,将新闻标题编码后与新闻正文的单词表示进行点积,获得每个新闻正文词语的重要程度即注意力权重,然后对新闻正文的单词表示进行加权,使得新闻中更重要的单词得到增强;
新闻标题与正文的各个词的向量表示分别为T0、T1、T2…Tm与C0、C1、C2…Cn,作为输入传入Bi-LSTM单元,得到对应隐藏层H0、H1、H2…Hm与h0、h1、h2…hn,将标题词向量与正文词向量进行点积,对新闻正文词向量进行加权,计算出注意力概率分布值a0、a1、a2…an,其思想是获取新闻正文词向量的重要程度,最终获得包含文本信息的特征向量v,其运算过程如公式(7)、(8)、(9);
其中exp表示指数函数,f表示打分函数,其中m表示新闻文本标题个数,n表示正文的词向量个数。
5.根据权利要求4所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤四:通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,具体为:
CNN模块包含输入层、卷积层、池化层,输入层是新闻文本的向量化表示;卷积与池化层是卷积神经网络模型的核心层,目的是将原始的特征映射到更高层次维度的语义空间,通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,设置3,4,5三种长度的卷积核,进行卷积与池化操作,将词向量加权模块后的输出作为CNN模块的输入,即新闻标题标题H0,H1,H2…Hm和加权后的新闻正文表示h′0,h′1,h′2…h′n,经过CNN的卷积与池化操作,得到新闻标题与正文的特征向量X0,X1,X2…Xm与x0,x1,x2…xn。
6.根据权利要求5所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述卷积与池化操作运算过程如下:
(一)卷积操作
新闻标题词向量表示卷积运算如公式(10):
Xi=f(W1⊙Hi:i+l-1+b) (10)
其中,Xi表示新闻标题卷积运算后的结果,W1表示滤波器,b表示偏置量,
f表示激活函数,l表示滑动窗口大小,Hi:i+l-1表示为由第i到第i+l-1个标题文本词组成的局部特征矩阵,⊙表示点乘运算;
同理,新闻正文词向量表示卷积运算如公式(11):
xi=f(W1⊙h′i:i+l-1+b) (11)
(二)池化操作
对卷积核产生的新闻标题与正文特征进行最大池化操作如公式(12)、(13):
7.根据权利要求5或6所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤五结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类,具体为:
胶囊网络与传统的神经网络不同,是通过向量来表示属性,即它的神经元是向量而不是标量,涉及到动态路由、输入胶囊、输出胶囊,本文采用的胶囊网络模块包括挤压、耦合、加权、动态路由在内的步骤,其中动态路由算法是胶囊网络模块的核心组件,通过动态路由不断的调整输入胶囊向量与输出胶囊向量的耦合系数,最终预测出输出胶囊向量;结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类,其算法过程如公式(14)、(15)、(16)、(17)、(18)、(19);
bij=bij+aij (19)
其中,cij表示耦合系数;i表示输入,j表输出;Wij表示变换矩阵,ui表示输入胶囊,表示输出胶囊向量,式(15)表示通过变换矩阵,实现输入胶囊与输出胶囊的转换;sj表示耦合过程的输出,vj表示sj通过压缩函数后的胶囊向量;aij表示vj对应的预测向量进行点积预算;
将CNN模块所提取得到的新闻文本标题与正文的特征作为子阶胶囊向量输入到胶囊网络模块进行文本分类,通过上述的算法,将新闻文本所有向量拼接获得高阶胶囊向量表示y0,y1,y2…yn,最终完成新闻文本分类。
8.一种基于权利要求1-7任一项所述方法的胶囊网络融合模型的新闻文本分类***,其特征在于,包括:
预处理模块:对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成;
双向长短记忆神经网络BiLSTM:选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示;根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示;
聚合模块:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络CapsNet对获得的信息进行聚合,完成文本分类。
9.一种介质,该介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~7任一项的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266706.2A CN113128557B (zh) | 2021-03-11 | 2021-03-11 | 基于胶囊网络融合模型的新闻文本分类方法、***及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266706.2A CN113128557B (zh) | 2021-03-11 | 2021-03-11 | 基于胶囊网络融合模型的新闻文本分类方法、***及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128557A true CN113128557A (zh) | 2021-07-16 |
CN113128557B CN113128557B (zh) | 2022-08-23 |
Family
ID=76772913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110266706.2A Active CN113128557B (zh) | 2021-03-11 | 2021-03-11 | 基于胶囊网络融合模型的新闻文本分类方法、***及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128557B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947427A (zh) * | 2021-10-14 | 2022-01-18 | 广西大学 | 一种灵活能源混合网络动态微分控制的长期价格引导方法 |
CN116313061A (zh) * | 2023-05-18 | 2023-06-23 | 山东师范大学 | 一种基于医疗大数据的辅助诊断***及方法 |
CN116432644A (zh) * | 2023-06-12 | 2023-07-14 | 南京邮电大学 | 一种基于特征融合和双重分类的新闻文本分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365562A1 (en) * | 2017-06-20 | 2018-12-20 | Battelle Memorial Institute | Prediction of social media postings as trusted news or as types of suspicious news |
CN109241283A (zh) * | 2018-08-08 | 2019-01-18 | 广东工业大学 | 一种基于多角度胶囊网络的文本分类方法 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
-
2021
- 2021-03-11 CN CN202110266706.2A patent/CN113128557B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365562A1 (en) * | 2017-06-20 | 2018-12-20 | Battelle Memorial Institute | Prediction of social media postings as trusted news or as types of suspicious news |
CN109241283A (zh) * | 2018-08-08 | 2019-01-18 | 广东工业大学 | 一种基于多角度胶囊网络的文本分类方法 |
CN109344391A (zh) * | 2018-08-23 | 2019-02-15 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
Non-Patent Citations (6)
Title |
---|
WEI MENG: "Aspect Based Sentiment Analysis With Feature Enhanced Attention CNN-BiLSTM", 《IEEEXPLORE》 * |
张翠肖等: "基于CNN-BiLSTM的中文微博立场分析研究", 《计算机技术与发展》 * |
徐志栋等: "基于胶囊网络的方面级情感分类研究", 《智能科学与技术学报》 * |
李志杰等: "LSTM-TextCNN联合模型的短文本分类研究", 《西安工业大学学报》 * |
杨朝强等: "多特征融合的中文短文本分类模型", 《小型微型计算机***》 * |
王海涛等: "一种基于LSTM和CNN混合模型的文本分类方法", 《小型微型计算机***》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947427A (zh) * | 2021-10-14 | 2022-01-18 | 广西大学 | 一种灵活能源混合网络动态微分控制的长期价格引导方法 |
CN116313061A (zh) * | 2023-05-18 | 2023-06-23 | 山东师范大学 | 一种基于医疗大数据的辅助诊断***及方法 |
CN116432644A (zh) * | 2023-06-12 | 2023-07-14 | 南京邮电大学 | 一种基于特征融合和双重分类的新闻文本分类方法 |
CN116432644B (zh) * | 2023-06-12 | 2023-08-15 | 南京邮电大学 | 一种基于特征融合和双重分类的新闻文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113128557B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113128557B (zh) | 基于胶囊网络融合模型的新闻文本分类方法、***及介质 | |
Du et al. | Text classification research with attention-based recurrent neural networks | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及*** | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及*** | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
CN111221944B (zh) | 文本意图识别方法、装置、设备和存储介质 | |
CN111581401A (zh) | 一种基于深度相关性匹配的局部引文推荐***及方法 | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
WO2022252636A1 (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN110263325A (zh) | 中文分词*** | |
CN110727765A (zh) | 基于多注意力机制的问题分类方法、***及存储介质 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN114298157A (zh) | 基于舆情大数据分析的短文本情感分类方法、介质及*** | |
CN116205222A (zh) | 一种基于多通道注意力融合的方面级情感分析***及方法 | |
Ma et al. | Dirichlet process mixture of generalized inverted dirichlet distributions for positive vector data with extended variational inference | |
JP7181693B2 (ja) | ニュース素材分類装置、プログラム及び学習モデル | |
CN115878761B (zh) | 事件脉络生成方法、设备及介质 | |
CN110609895B (zh) | 一种主动选择示例以进行高效文本分类的样本自动生成方法 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
US20220292812A1 (en) | Zero-shot dynamic embeddings for photo search | |
WO2023279921A1 (zh) | 神经网络模型的训练方法、数据处理的方法及装置 | |
Samatin Njikam et al. | CharTeC‐Net: An Efficient and Lightweight Character‐Based Convolutional Network for Text Classification | |
CN110347813B (zh) | 一种语料处理方法、装置、存储介质及电子设备 | |
CN115512374A (zh) | 针对表格文本的深度学习特征提取分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |