CN112527959A - 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 - Google Patents

基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 Download PDF

Info

Publication number
CN112527959A
CN112527959A CN202011443363.4A CN202011443363A CN112527959A CN 112527959 A CN112527959 A CN 112527959A CN 202011443363 A CN202011443363 A CN 202011443363A CN 112527959 A CN112527959 A CN 112527959A
Authority
CN
China
Prior art keywords
news
text
attention
vector
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011443363.4A
Other languages
English (en)
Other versions
CN112527959B (zh
Inventor
唐贤伦
郝博慧
彭德光
钟冰
闫振甫
王会明
张璞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011443363.4A priority Critical patent/CN112527959B/zh
Publication of CN112527959A publication Critical patent/CN112527959A/zh
Application granted granted Critical
Publication of CN112527959B publication Critical patent/CN112527959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,它利用特征和权重作为分类过程中的关键因素。其机制是使用一种在嵌入层中进行卷积以提取局部特征,删除池化层以减少信息丢失,然后添加注意力机制以重新分配权重以从而获得文本的全局特征。该模型不仅捕获了文本的深刻特征,还捕获了新闻各部分的重要性。卷积神经网络(CNN)由于具有提取局部特征和位置不变特征的优势而在文本分类任务中发挥了重要作用。注意力机制由于其对文本上下文信息的提取,以及更加关注重要部分的特点,强化关键信息权重,两者结合有更强的特征提取能力。结合无池化CNN和全局注意力机制来处理新闻分类问题可以显著提高文本分类的准确率。

Description

基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
技术领域
本发明属于中文新闻文本分类方法,尤其涉及一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法。
背景技术
文本分类是NLP的一项经典任务。它将其对应的标签分配给指定的文本。目前,文本分类的方法主要分为传统的机器学习文本分类和深度学习文本分类。
传统的机器学习文本分类方法包括k最近邻(KNN,K-NearestNeighbor),最大熵(The Maximum Entropy)和支持向量机(SVM,Support Vector Machines)等。KNN算法的核心思想是,如果大多数特征空间中k个最相邻的样本中的k个样本属于某个类别,样本也属于此类别,并且与该类别中的样本共享特征。不同的类别由最近邻居的数量决定,因此它适合于训练数据集中的样本量。最大熵的原理是,在学习概率模型时,具有最大熵的模型是最佳模型。即,最大熵也可以理解为在满足约束的模型集中选择的最大熵的模型。SVM是用于通过监督学习对数据进行二进制分类的广义线性分类器。目前深度学习算法开始广泛应用于文本分类。循环神经网络(RNN)是一个基于时间序列的神经网络模型,可以捕获序列之间的长期依赖。但是,随着序列长度的增加,标准RNN很难获得长期依赖关系,因此很难对整个序列进行建模。在建模过程中,部分信息可能会丢失,并且梯度消失和梯度***也存在问题。卷积神经网络(CNN)也被应用于文本分类任务,CNN在捕获局部特征和位置不变特征方面具有巨大优势。长短记忆网络(LSTM)的使用可以模拟句子之间的关系。LSTM添加了三种基于RNN的门结构,解决了梯度消失和梯度***的问题。与LSTM相比,门控递归单元(GRU)仅具有两种门结构,即更新门和复位门。因此,GRU在训练期间具有较少的参数和更好的收敛性。同样,分层注意力模型将注意力机制纳入了分层GRU模型中,以便该模型可以更好地捕获文档的重要信息。近年来,注意机制已被广泛用于文本分类领域,因为它可以区分每个单词对分类结果的重要性。
由于计算机无法直接处理文本序列,因此将文本表达为计算机可以理解的形式(称为文本向量化)很重要。
本发明要解决的问题是,针对输入文本语义信息不足,池化层会导致信息丢失而导致分类精度下降的问题。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法。本发明的技术方案如下:
一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其包括以下步骤:
步骤1:搜集新闻文本数据集,对新闻文本进行规范化格式处理并分词,利用词嵌入获得新闻的特征向量,对于新闻标签,根据新闻类别和新闻数据对新闻进行随机切分,将语料分为训练集、测试集和验证集,训练集用于对新闻分类模型的训练,验证集用来验证模型是否合理,测试集用来测试模型分类的效果;
步骤2:将步骤1中语料中的训练集经过词嵌入得到的特征向量输入CNN卷积神经网络,取消CNN中的的池化层;
步骤3:将步骤2中经词嵌入和无池化卷积过后的特征向量输入注意力机制,对文本中的特征向量进行权重的重新分配从而训练出新闻分类模型;
步骤4:将步骤1中的语料中的测试集的文本向量输入CNN,根据步骤3中已经训练好的模型进行新闻类别分类并计算出新闻分类的准确率。
2、根据权利要求1所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤1:搜集新闻数据集,对于中文新闻,规范化数据集格式,格式为:“标签+‘\t’+新闻”形式,将分词后的新闻文本单词用作word embedding层的输入得到一组词的特征向量x0,x1,x2,...,xt。该特征向量,即为计算机可以识别的语言。对于文本类别标签,指定了输入语言的大小字母,并且每个字符都使用1-m编码进行编码;然后,将字符序列向量的序列转换为固定长度l0,超过该长度l0的所有字符都将被忽略,并且小于l0的矢量将在后面填充0。
3、根据权利要求2所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤2将步骤1中的语料中的训练集的词向量x0,x1,x2,...,xn输入CNN,取消字符卷积网络的池化层,具体为:将经过分布式表示的词向量输入到一维卷积网络中,该网络包含输入层,卷积层,输出层,取消卷积神经网络的池化层以最大化保留文本特征,一维卷积计算得到离散函数和离散核函数的卷积之和:
Figure BDA0002830754810000031
其中τ(x)是离散核函数,输入的离散函数是δ(x),d是步长,b为偏差项,其中x表示词向量,n表示新闻词向量的数目。
4、根据权利要求3所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述b=k-d+1,是偏移常数,由一组内核函数τij(x)进行参数化,i=1,2,…,v,j=1,2,…,w,每个输入δi(x)或输出cj(y)都称为"features",m和n代表输入和输出特征的大小,输出cj(y)是δi(x)和τij(x)的卷积之和。
5、根据权利要求4所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤3将步骤2中经词嵌入和无池化卷积过后的特征向量输入注意力机制,对文本中的特征向量进行权重的重新分配从而训练出新闻分类模型,具体为:
对于步骤2得到的特征向量,输入注意力模型,每个单词x0,x1,...,xn都表示为矢量形式,并输入到卷积单元,从而得到输出h0,h1,…,hn,该输出作为注意力机制的输入source=h0,h1,…,hn,计算文本的最终特征向量。在注意力机制中,隐藏层t时刻状态ht被随机初始化,并且在训练过程中作为参数被更新,同时给出源侧上下文向量st,源侧上下文向量st被计算为各个输入的加权和,计算如下:
Figure BDA0002830754810000041
其中L表示新闻文本长度,at(s)表示可变长度对齐向量,
Figure BDA0002830754810000042
表示编码器的隐藏层状态。
上下文向量st应考虑编码器的所有隐藏状态,在注意机制部分,通过将解码器t时刻隐藏状态ht与编码器的每个源隐藏状态
Figure BDA0002830754810000043
进行比较来生成可变长度对齐向量at(s):
Figure BDA0002830754810000044
fa是一个基于内容的函数,
Figure BDA0002830754810000045
表示解码器t时刻隐藏状态ht与编码器的源隐藏状态
Figure BDA0002830754810000046
的函数,
Figure BDA0002830754810000047
表示解码器t时刻隐藏状态与编码器的从初始位置s1开始的所有源隐藏状态的内容函数。
fa的计算具有3个不同的公式:
Figure BDA0002830754810000048
其中Wa是注意力模型的权重矩阵。
在每个时间步长,模型都会基于当前目标状态和所有源状态来推断可变长度的对齐权重向量,然后根据at(s)在所有源状态上将全局上下文向量计算为加权平均值。
隐藏层t时刻状态ht和上下文向量st两个向量的信息被组合以生成以下解码器的注意力隐藏状态:
Figure BDA0002830754810000049
其中
Figure BDA00028307548100000410
代表新生成注意力隐藏状态向量,
Figure BDA00028307548100000411
表示注意力模型权重的全连接矩阵,u表示注意力机制隐藏单元数。
6、根据权利要求5所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,引入注意机制后,按如下方式计算文本的最终表示形式:
ut=tanh(Wsht+bs) (6)
Figure BDA0002830754810000051
v=∑twtht (8)
在计算过程中,Ws代表注意力模型的权重系数矩阵,ht是卷积在t时刻的特征表示,ut是神经网络的隐藏层表示,并且us是随机初始化的上下文向量,也可以称为输入的语义表示,wt是通过Softmax函数归一化后的重要权重,v是文本的最终特征向量。
7、根据权利要求6所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤4将步骤1中的语料中的测试集的文本向量输入CNN,根据步骤3中已经训练好的模型进行新闻类别分类并计算出新闻分类的准确率,具体包括:
模型使用Leaky_ReLU激活函数,在ReLU的负半部分引入了Leaky值,因此称为Leaky ReLU函数,与ReLU不同,如下公式,LReLU为所有负值分配一个非零的斜率;
Figure BDA0002830754810000052
ag是固定的,g表示对应不同的路线ag;最后,通过Softmax分类器进行多分类以获得结果;
result=softmax(v) (10)
result是一个向量,其维数为类别数,每个维度的数量在[0,1]范围内,它表示文本落入某个类别的概率,输入句子的预测类别准确率为:
prediction=argmax(result) (11)
本发明的优点及有益效果如下:
本发明利用特征和权重作为分类过程中的关键因素。其机制是使用嵌入层首先将新闻文本转换为词向量,该组词向量被输入卷积操作从而提取局部特征。根据权利要求2所示,删除传统卷积网络中的池化层以减少信息丢失,这是由于池化层的作用实际是对输入做降采样,常用的池化做法是对每个滤波器的输出求最大值,因此会忽视一些新闻信息。根据权利要求4,经过无池化卷积后得到的局部特征向量被输入全局注意力机制中以重新分配权重,从而获得文本的全局特征。由于负区间神经元失活的风险,选用Leaky_ReLU作为激活函数,最终通过Softmax计算新闻分类的准确率。在传统做法中,由于卷积网络的统一性,进行网络优化时,其内部池化层对信息丢失产生的影响往往被忽视。针对该问题,本专利提出的模型不仅捕获了文本的局部特征,同时减少传统神经网络统一结构内部的信息丢失,还捕获了文本各部分的重要性。因此,结合无池化卷积网络和注意力权重分配来处理文本分类问题可以显著提高新闻分类的准确率。
附图说明
图1是本发明提供优选实施例基于无池化卷积嵌入和注意分布神经网络的新闻分类方法;
图2无池化卷积嵌入和注意分布神经网络模型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,在本发明中,首先使用一维卷积运算,该卷积网络中,取消池化层以减少信息丢失,从而提取输入序列的语义特征和位置不变特征。然后将语义特征用作注意力机制的输入,以获得用于重新分配权重的全局特征。全局特征向量输入到完全连接的层,并由激活函数Leaky_ReLU和Softmax进行分类。
步骤1:搜集新闻数据集,对于中文新闻,规范化数据集格式,写作:“标签+‘\t’+新闻”形式。并随机切分数据集,划分为训练集,测试集,验证集。训练集用于对新闻分类模型的训练,验证集用来验证模型是否合理,测试集用来测试模型分类的效果。
将分词后的新闻文本单词用作word embedding层的输入得到一组词的特征向量x0,x1,x2,...,xt。该特征向量,即为计算机可以识别的语言。对于文本类别标签,指定了输入语言的大小字母,并且每个字符都使用1-m编码进行编码;然后,将字符序列向量的序列转换为固定长度l0,超过该长度l0的所有字符都将被忽略,并且小于l0的矢量将在后面填充0。
步骤2:在步骤1之后添加时间卷积模块,它是一维卷积运算。卷积神经网络模型已广泛用于图像识别,但也用于文本分类。CNN是一种深度神经网络,主要由输入层,隐藏层和输出层组成。输入层负责分析输入变量。隐藏层包含卷积层和池化层,用于学习输入信息的特征。输出层由完全连接的层组成。
不同比例的卷积运算可以提取文本的更复杂特征。CNN的实现由以下公式表示。
Figure BDA0002830754810000071
Figure BDA0002830754810000072
h=[h1,h2,…,hn-k+1](3)
其中x代表嵌入词。σ表示过滤器,其功能是通过卷积运算生成新特征。
Figure BDA0002830754810000073
是非线性函数。hi代表通过卷积运算获得的特征,并且h是通过卷积运算获得的一组特征中最大的特征。b代表偏差项。
本发明使用一维卷积,因此仅在行方向上卷积。图中的向下箭头表示卷积核从上到下移动。此外,将卷积步长设置为3。h1,h2,h3表示通过提取获得的特征。在h1,h2,h3之后,特征向量H是整个句子的特征表示。即,卷积核k在每个位置与窗口向量卷积以生成输入文本的特征图H∈Rlength-m+1。特征图H的每个元素hj被计算为以下等式。
hj=f(σj⊙k+b) (4)
⊙是矩阵元素的乘法,b是偏差项,f是激活函数。
当模型输入是离散函数δ(x)∈[1,l]和离散核函数τ(x)∈[1,k]时,其中δ(x),τ(x)∈R,如果步长为d,则δ(x)和τ(x)之间的卷积c(y)∈[1,θ+1](其中
Figure BDA0002830754810000081
)计算为:
Figure BDA0002830754810000082
x表示词向量,n表示新闻词向量的数目。b=k-d+1是偏移常数。类似于计算机视觉中使用的传统卷积神经网络,模块由一组内核函数τij(x)(我们称为"weights"(i=1,2,…,v,j=1,2,…,w))进行参数化。每个输入δi(x)或输出cj(y)都称为"features",m和n代表输入和输出特征的大小。输出cj(y)是δi(x)和τij(x)的卷积之和。
无池化卷积取消了CNN中的最大池化层,因为池操作可能会丢失一些语义信息。然后,将这种新的,连续的高阶特征表示形式并入注意机制。
步骤3:对于步骤2得到的特征向量,输入注意力模型,每个单词x0,x1,...,xn都表示为矢量形式,并输入到卷积单元,从而得到输出h0,h1,…,hn,该输出作为注意力机制的输入source=h0,h1,…,hn,计算文本的最终特征向量。在注意力机制中,隐藏层t时刻状态ht被随机初始化,并且在训练过程中作为参数被更新,同时给出源侧上下文向量st,源侧上下文向量st被计算为各个输入的加权和,计算如下:
Figure BDA0002830754810000083
其中L表示新闻文本长度,at(s)表示可变长度对齐向量,
Figure BDA0002830754810000084
表示编码器的隐藏层状态。
上下文向量st应考虑编码器的所有隐藏状态,在注意机制部分,通过将解码器t时刻隐藏状态ht与编码器的每个源隐藏状态
Figure BDA0002830754810000085
进行比较来生成可变长度对齐向量at(s):
Figure BDA0002830754810000086
fa是一个基于内容的函数,
Figure BDA0002830754810000091
表示解码器t时刻隐藏状态ht与编码器的源隐藏状态
Figure BDA0002830754810000092
的函数,
Figure BDA0002830754810000093
表示解码器t时刻隐藏状态与编码器的从初始位置s1开始的所有源隐藏状态的内容函数。
fa的计算具有3个不同的公式:
Figure BDA0002830754810000094
其中Wa是注意力模型的权重矩阵。
在每个时间步长,模型都会基于当前目标状态和所有源状态来推断可变长度的对齐权重向量,然后根据at(s)在所有源状态上将全局上下文向量计算为加权平均值。
隐藏层t时刻状态ht和上下文向量st两个向量的信息被组合以生成以下解码器的注意力隐藏状态:
Figure BDA0002830754810000095
其中
Figure BDA0002830754810000096
代表新生成注意力隐藏状态向量,
Figure BDA0002830754810000097
表示注意力模型权重的全连接矩阵,u表示注意力机制隐藏单元数。
引入注意机制后,按如下方式计算文本的最终表示形式:
ut=tanh(Wsht+bs) (10)
Figure BDA0002830754810000098
v=∑twtht (12)
在计算过程中,Ws代表注意力模型的权重系数矩阵,ht是卷积在t时刻的特征表示,ut是神经网络的隐藏层表示,并且us是随机初始化的上下文向量,也可以称为输入的语义表示。wt是通过Softmax函数归一化后的重要权重。v是文本的最终特征向量。
步骤4:在步骤3之后,该模型使用Leaky_ReLU激活函数。整流线性单位(ReLU)是神经网络中最常用的激活函数,可以有效地计算。当输入为正时,导数不为零,从而允许基于梯度的学习。但是,当ReLU的输入值为负时,输出仍为0,并且一阶导数也为0。这种情况将阻止神经元更新参数,因此神经元不会学习。这种现象称为“死亡神经元”。
ReLU还产生了许多变体。在本发明中,为了克服ReLU的缺点,在ReLU的负半部分引入了Leaky值,因此称为Leaky ReLU函数。与ReLU不同,如下公式,LReLU为所有负值分配一个非零的斜率;
Figure BDA0002830754810000101
ag是固定的,g表示对应不同的路线ag;Leaky_ReLU函数是经典(广泛使用)的ReLU激活功能的变体。由于导数始终为非零,因此可以减少静默神经元的数量,从而确保在进入负间隔后继续进行基于梯度的连续学习。
最后,通过Softmax分类器进行多分类以获得结果。
result=softmax(v) (14)
result是一个向量,其维数为类别数。每个维度的数量在[0,1]范围内,它表示文本落入某个类别的概率。输入句子的预测类别准确率为:
prediction=argmax(result) (15)
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,包括以下步骤:
步骤1:搜集新闻文本数据集,对新闻文本进行规范化格式处理并分词,利用词嵌入获得新闻的特征向量,对于新闻标签,根据新闻类别和新闻数据对新闻进行随机切分,将语料分为训练集、测试集和验证集,训练集用于对新闻分类模型的训练,验证集用来验证模型是否合理,测试集用来测试模型分类的效果;
步骤2:将步骤1中语料中的训练集经过词嵌入得到的特征向量输入CNN卷积神经网络,取消CNN中的的池化层;
步骤3:将步骤2中经词嵌入和无池化卷积过后的特征向量输入注意力机制,对文本中的特征向量进行权重的重新分配从而训练出新闻分类模型;
步骤4:将步骤1中的语料中的测试集的文本向量输入CNN,根据步骤3中已经训练好的模型进行新闻类别分类并计算出新闻分类的准确率。
2.根据权利要求1所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤1:搜集新闻数据集,对于中文新闻,规范化数据集格式,格式为:“标签+‘\t’+新闻”形式,将分词后的新闻文本单词用作word embedding层的输入得到一组词的特征向量x0,x1,x2,...,xt。该特征向量,即为计算机可以识别的语言。对于文本类别标签,指定了输入语言的大小字母,并且每个字符都使用1-m编码进行编码;然后,将字符序列向量的序列转换为固定长度l0,超过该长度l0的所有字符都将被忽略,并且小于l0的矢量将在后面填充0。
3.根据权利要求2所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤2将步骤1中的语料中的训练集的词向量x0,x1,x2,...,xn输入CNN,取消字符卷积网络的池化层,具体为:将经过分布式表示的词向量输入到一维卷积网络中,该网络包含输入层,卷积层,输出层,取消卷积神经网络的池化层以最大化保留文本特征,一维卷积计算得到离散函数和离散核函数的卷积之和:
Figure FDA0002830754800000021
其中τ(x)是离散核函数,输入的离散函数是δ(x),d是步长,b为偏差项,其中x表示词向量,n表示新闻词向量的数目。
4.根据权利要求3所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述b=k-d+1.是偏移常数,由一组内核函数τij(x)进行参数化,i=1,2,...,v,j=1,2,...,w,每个输入δi(x)或输出cj(y)都称为″features″,m和n代表输入和输出特征的大小,输出cj(y)是δi(x)和τij(x)的卷积之和。
5.根据权利要求4所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤3将步骤2中经词嵌入和无池化卷积过后的特征向量输入注意力机制,对文本中的特征向量进行权重的重新分配从而训练出新闻分类模型,具体为:
对于步骤2得到的特征向量,输入注意力模型,每个单词x0,x1,...,xn都表示为矢量形式,并输入到卷积单元,从而得到输出h0,h1,...,hn,该输出作为注意力机制的输入source=h0,h1,...,hn,计算文本的最终特征向量。在注意力机制中,隐藏层t时刻状态ht被随机初始化,并且在训练过程中作为参数被更新,同时给出源侧上下文向量st,源侧上下文向量st被计算为各个输入的加权和,计算如下:
Figure FDA0002830754800000022
其中L表示新闻文本长度,at(s)表示可变长度对齐向量,
Figure FDA0002830754800000023
表示编码器的隐藏层状态。
上下文向量st应考虑编码器的所有隐藏状态,在注意机制部分,通过将解码器t时刻隐藏状态ht与编码器的每个源隐藏状态
Figure FDA0002830754800000024
进行比较来生成可变长度对齐向量at(s):
Figure FDA0002830754800000031
fa是一个基于内容的函数,
Figure FDA0002830754800000032
表示解码器t时刻隐藏状态ht与编码器的源隐藏状态
Figure FDA0002830754800000033
的函数,
Figure FDA0002830754800000034
表示解码器t时刻隐藏状态与编码器的从初始位置s1开始的所有源隐藏状态的内容函数。
fa的计算具有3个不同的公式:
Figure FDA0002830754800000035
其中Wa是注意力模型的权重矩阵。
在每个时间步长,模型都会基于当前目标状态和所有源状态来推断可变长度的对齐权重向量,然后根据at(s)在所有源状态上将全局上下文向量计算为加权平均值。
隐藏层t时刻状态ht和上下文向量st两个向量的信息被组合以生成以下解码器的注意力隐藏状态:
Figure FDA0002830754800000036
其中
Figure FDA0002830754800000037
代表新生成注意力隐藏状态向量,
Figure FDA0002830754800000038
表示注意力模型权重的全连接矩阵,u表示注意力机制隐藏单元数。
6.根据权利要求5所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,引入注意机制后,按如下方式计算文本的最终表示形式:
ut=tanh(Wsht+bs) (6)
Figure FDA0002830754800000039
v=∑twtht (8)
在计算过程中,Ws代表注意力模型的权重系数矩阵,ht是卷积在t时刻的特征表示,ut是神经网络的隐藏层表示,并且us是随机初始化的上下文向量,也可以称为输入的语义表示,wt是通过Softmax函数归一化后的重要权重,v是文本的最终特征向量。
7.根据权利要求6所述的一种基于无池化卷积嵌入和注意分布神经网络的新闻分类方法,其特征在于,所述步骤4将步骤1中的语料中的测试集的文本向量输入CNN,根据步骤3中已经训练好的模型进行新闻类别分类并计算出新闻分类的准确率,具体包括:
模型使用Leaky_ReLU激活函数,在ReLU的负半部分引入了Leaky值,因此称为LeakyReLU函数,与ReLU不同,如下公式,LReLU为所有负值分配一个非零的斜率;
Figure FDA0002830754800000041
ag是固定的,g表示对应不同的路线ag;最后,通过Softmax分类器进行多分类以获得结果;
result=softmax(v) (10)
result是一个向量,其维数为类别数,每个维度的数量在[0,1]范围内,它表示文本落入某个类别的概率,输入句子的预测类别准确率为:
prediction=argmax(result) (11) 。
CN202011443363.4A 2020-12-11 2020-12-11 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法 Active CN112527959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011443363.4A CN112527959B (zh) 2020-12-11 2020-12-11 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011443363.4A CN112527959B (zh) 2020-12-11 2020-12-11 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法

Publications (2)

Publication Number Publication Date
CN112527959A true CN112527959A (zh) 2021-03-19
CN112527959B CN112527959B (zh) 2023-05-30

Family

ID=75000138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011443363.4A Active CN112527959B (zh) 2020-12-11 2020-12-11 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法

Country Status (1)

Country Link
CN (1) CN112527959B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177110A (zh) * 2021-05-28 2021-07-27 中国人民解放军国防科技大学 一种虚假新闻检测方法、装置、计算机设备和存储介质
CN114334159A (zh) * 2022-03-16 2022-04-12 四川大学华西医院 一种术后风险预测自然语言数据增强模型及方法
CN114860929A (zh) * 2022-04-24 2022-08-05 安徽理工大学 一种基于改进TextCNN的新闻文本分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和***
CN109597891A (zh) * 2018-11-26 2019-04-09 重庆邮电大学 基于双向长短时记忆神经网络的文本情感分析方法
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN110772268A (zh) * 2019-11-01 2020-02-11 哈尔滨理工大学 一种多模脑电信号及1dcnn迁移的驾驶疲劳状态识别方法
CN111292305A (zh) * 2020-01-22 2020-06-16 重庆大学 一种改进型yolo-v3的金属加工表面缺陷检测方法
US20200311519A1 (en) * 2019-03-28 2020-10-01 Baidu Usa Llc Systems and methods for deep skip-gram network based text classification
CN111783688A (zh) * 2020-07-02 2020-10-16 吉林大学 一种基于卷积神经网络的遥感图像场景分类方法
US20200342314A1 (en) * 2019-04-26 2020-10-29 Harbin Institute Of Technology (shenzhen) Method and System for Detecting Fake News Based on Multi-Task Learning Model

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和***
CN109597891A (zh) * 2018-11-26 2019-04-09 重庆邮电大学 基于双向长短时记忆神经网络的文本情感分析方法
US20200311519A1 (en) * 2019-03-28 2020-10-01 Baidu Usa Llc Systems and methods for deep skip-gram network based text classification
US20200342314A1 (en) * 2019-04-26 2020-10-29 Harbin Institute Of Technology (shenzhen) Method and System for Detecting Fake News Based on Multi-Task Learning Model
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法
CN110772268A (zh) * 2019-11-01 2020-02-11 哈尔滨理工大学 一种多模脑电信号及1dcnn迁移的驾驶疲劳状态识别方法
CN111292305A (zh) * 2020-01-22 2020-06-16 重庆大学 一种改进型yolo-v3的金属加工表面缺陷检测方法
CN111783688A (zh) * 2020-07-02 2020-10-16 吉林大学 一种基于卷积神经网络的遥感图像场景分类方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
JIAWEN YANG 等, IEEE ACCESS *
MARIOS ANTHIMOPOULOS 等: "Lung Pattern Classification for Interstitial Lung Diseases Using a Deep Convolutional Neural Network", IEEE TRANSACTIONS ON MEDICAL IMAGING *
唐贤伦等: "基于条件深度卷积生成对抗网络的图像识别方法", 《自动化学报》 *
於韬等: "结合注意力机制的新闻文本分类研究", 《计算机与数字工程》 *
涂文博 等: ""无池化层卷积神经网络的中文分词方法"", 《计算机工程与应用》 *
涂文博: "基于深度学习的医疗文本信息抽取", 中国优秀硕士学位论文全文数据库 医药卫生科技辑 *
罗麟等: "基于卷积神经网络的电力操作票文字识别方法", 《浙江电力》 *
赵容梅等: "基于混合神经网络的中文隐式情感分析", 《四川大学学报(自然科学版)》 *
龙星延 等: "采用最少门单元结构的改进注意力声学模型", 信号处理 *
龙星延等: "采用最少门单元结构的改进注意力声学模型", 《信号处理》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177110A (zh) * 2021-05-28 2021-07-27 中国人民解放军国防科技大学 一种虚假新闻检测方法、装置、计算机设备和存储介质
CN114334159A (zh) * 2022-03-16 2022-04-12 四川大学华西医院 一种术后风险预测自然语言数据增强模型及方法
CN114860929A (zh) * 2022-04-24 2022-08-05 安徽理工大学 一种基于改进TextCNN的新闻文本分类方法

Also Published As

Publication number Publication date
CN112527959B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN112084327B (zh) 在保留语义的同时对稀疏标注的文本文档的分类
US20210151034A1 (en) Methods and systems for multimodal content analytics
Behrmann et al. Unified fully and timestamp supervised temporal action segmentation via sequence to sequence translation
CN112329680B (zh) 基于类激活图的半监督遥感影像目标检测和分割方法
CN112527959B (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN108182259B (zh) 基于深度长短期记忆神经网络对多变量时间序列分类方法
CN109948149B (zh) 一种文本分类方法及装置
US11151443B2 (en) Augmenting neural networks with sparsely-accessed external memory
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN113837370B (zh) 用于训练基于对比学习的模型的方法和装置
CN110990559A (zh) 用于对文本进行分类的方法和装置、存储介质及处理器
CN110046223B (zh) 基于改进型卷积神经网络模型的影评情感分析方法
CN114139676A (zh) 领域自适应神经网络的训练方法
CN114860930A (zh) 一种文本分类方法、装置以及存储介质
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
CN113159072A (zh) 一种基于一致正则化的在线超限学习机目标识别方法及***
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
CN110705622A (zh) 一种决策方法、***以及电子设备
CN116308738B (zh) 一种模型训练的方法、业务风控的方法及装置
CN116824583A (zh) 弱监督视频场景图生成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant