CN110134786B - 一种基于主题词向量与卷积神经网络的短文本分类方法 - Google Patents

一种基于主题词向量与卷积神经网络的短文本分类方法 Download PDF

Info

Publication number
CN110134786B
CN110134786B CN201910397064.2A CN201910397064A CN110134786B CN 110134786 B CN110134786 B CN 110134786B CN 201910397064 A CN201910397064 A CN 201910397064A CN 110134786 B CN110134786 B CN 110134786B
Authority
CN
China
Prior art keywords
word
vector
short text
topic
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910397064.2A
Other languages
English (en)
Other versions
CN110134786A (zh
Inventor
张雷
李博
许磊
顾溢
谢俊元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201910397064.2A priority Critical patent/CN110134786B/zh
Publication of CN110134786A publication Critical patent/CN110134786A/zh
Application granted granted Critical
Publication of CN110134786B publication Critical patent/CN110134786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题词向量与卷积神经网络的短文本分类方法,包括如下步骤:1)数据采集阶段:根据需求采集短文本数据,对其进行标签标注,作为训练集;2)数据预处理阶段:对文本进行分词,去停用词,无用文本过滤等;3)短文本特征表示,主题层面与词向量层面分别进行表征;4)主题词向量联合训练;5)卷积神经网络分类模型参数优化,迭代;6)新样本进行类别预测。本发明结合短文本数据特点,在特征表示阶段利用主题向量与词向量结合表示,对短文本自身数据特点进行语义特征扩展,在分类模型训练阶段利用卷积神经网络对局部敏感信息抽取能力进一步对文本语义信息进行挖掘,能够对短文本分类任务类别预测准确率等指标进行提高。

Description

一种基于主题词向量与卷积神经网络的短文本分类方法
技术领域
本发明涉及文本分类领域,尤其是一种基于主题词向量与卷积神经网络的短文本分类方法。
背景技术
随着互联网的大规模文本信息的产生,对海量的文本信息进行有效的挖掘与利用需要投入更多的人力物力,文本分类任务已成为重要的处理文本数据的方法,是管理文本语料的重要手段。文本分类是自然语言处理(NLP)的主要研究领域之一。文本分类任务可以理解为通过分析文本的结构特征、语义信息,将文章映射提取到设定好的标签集合中的过程。
随着在线通信、新闻快讯、电子商务、社交媒体、在线问答等实时的新型应用的流行以及***式增长,其中这类应用中传播与使用的数据最主要的特点是文字长度短,文本语义信息不足。面对短文本的数据特点,传统的文本表示方法与分类模型算法在长文本中能够取得不错的效果,但直接应用于短文本却往往不能够达到理想的结果指标,其中主要的原因在于,一方面是因为短文本具有稀疏性的特点,长度短,造成了短文本所包含语义短信息不够丰富,无法提供足够的单词共现或上下文信息,很难识别语义信息的元素;另一方面原因在于相较于长文本,在有限的文本长度中,短文本的词语语义具有较强的上下文语境依赖性,提取其有效的语义信息存在难度。基于短文本的数据特点,分类任务的效果主要依赖于对文本的特征表示效果,以及分类模型对于特征向量的学习区别能力。
发明内容
发明目的:本发明主要解决的技术问题是,针对短文本文本长度短,语义信息不足,单词共现稀疏的数据特点,造成分类效果不佳的问题。本发明在文本的特征表示方面,基于主题模型与词向量模型对短文本进行语义表示;在分类模型方面,本发明基于深度学习的卷积神经网络模型对短文本进行进一步特征抽取,并最后使用Softmax分类器进行分类。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于主题词向量与卷积神经网络的短文本分类方法,包括如下步骤:
步骤1,采集短文本,对每个短文本进行标签标注,将标注好的短文本作为训练样本;
步骤2,对作为训练样本的短文本进行预处理,统一训练样本的格式,将预处理后的所有训练样本的集合作为语料库D;
步骤3,对语料库D中的每个短文本进行特征表示,包括:
步骤3a)对短文本进行主题级别的特征表示:
步骤3a1)初始化词网络主题模型参数先验参数文档-主题分布参数α与主题-词分布参数β,以及主题数量K;
步骤3a2)通过词网络主题模型挖掘短文本中的潜在词语簇,对于每一个潜在词语簇Z,从Z上的单词的多项式分布中抽取:Φz~Dir(β);其中,Φz表示词语属于词语簇Z的概率分布,Dir(β)表示参数β的狄利克雷分布;
步骤3a3)遍历短文本中的每一个词语wi,对于wi的相邻词语列表Li,在其潜在词语簇中抽取:θi~Dir(β);其中,θi表示文档对应的主题分布;
步骤3a4)对于Li中的每一个词语wj:选择潜在词语簇zj~Θi,选择相邻词语
Figure BDA0002058297040000027
其中,Θi表示文档-主题分布参数矩阵,
Figure BDA0002058297040000021
表示第j个潜在词语簇的概率分布值;
步骤3a5)至此,得到文档形式表示的短文本,对短文本进行文档主题推断,将文档生成词语的主题分布的期望作为文档生成主题的分布,即:
Figure BDA0002058297040000022
其中,P(z|d)表示文档生成词语的概率,Wd表示文档集,P(z|wi)表示词语生成主题的概率,P(wi|d)表示文档d中单词wi的经验分布;
Figure BDA0002058297040000023
fd(wi)为文档d中词wi的词频,Len(d)是指文档d的长度;
步骤3a6)进行文档-主题推断,得到文档-主题分布:
Figure BDA0002058297040000024
其中,
Figure BDA0002058297040000025
表示主题-词语参数矩阵,
Figure BDA0002058297040000026
表示词网络主题模型得到的伪文档参数;
步骤3a7)对主题模型参数矩阵进行Gibbs采样估计,得到文档语料库的主题-词分布;
步骤3a8)根据步骤3a6)得到的每个文档的文档-主题分布构建文档-主题分布矩阵,根据步骤3a7)得到的主题-词分布数据构建主题-词分布矩阵;
步骤3a9)由文档-主题分布矩阵与主题-词语分布矩阵得到词-主题分配映射关系;
步骤3b)对短文本进行词语级别的特征表示:
采用Skip-gram模型作为词向量训练模型,根据输入的每一个词向量及相应词的上下文词向量训练词向量训练模型,通过训练好的词向量训练模型可以提取得到短文本中的所有词向量;
步骤4,对每一个词语wi,对wi最相关主题中的所有词向量求平均值,将求得的平均值作为wi的主题向量zi;以词对<wi,zi>为输入,以词对<wi,zi>的上下文词对为输出,训练Skip-gram模型;将wi和zi进行向量连接得到主题词向量wz
步骤5,对语料库进行字级别预训练得到文本的字向量表示,以字粒度信息对文本进行表示;
步骤6,将主题词向量wz、字向量送入卷积神经网络进行分类模型训练:
步骤6a)将卷积神经网络的嵌入层设置为主题词向量层与字向量层两个卷积网络,将主题词向量与字向量作为对应卷积层的输入:
步骤6b)卷积层中对连续h个词或字向量进行宽卷积操作,其中宽卷积核窗口宽度为向量维度d,高度为h,Xi:i+h-1表示卷积核窗口从第i个单元起,作用于文本中的h个词语或字,卷积层通过过滤器提取新的特征;
步骤6c)卷积操作获取了词语的n-gram信息,池化层对卷积层的特征信息进行提取,其中引入注意力机制;输入为卷积层的特征向量,池化层中输入为卷积层特征向量[C1,C2,...,Cl],对于不同卷积核提取的特征向量进行权重attention机制自学习:将卷积特征Ci输入tanh层计算Ci的隐藏表示vi,并通过softmax函数确定卷积特征的注意力权重αi;最终通过计算基于注意力权重与卷积特征加权求和输出向量Cα
vi=tanh(WcCi+bc)
αi=softmax(Wαvi)
Figure BDA0002058297040000031
其中,Wc表示卷积核的参数矩阵,Wα表示隐藏单元参数,Rm表示向量维度为卷积核数目m;
步骤6d)全连接层将词语级别的特征Cα与字级别的特征Cβ进行拼接得到短文本的语义表示S:
Figure BDA0002058297040000032
步骤6e)分类层的输入是连接层对于文本向量的综合特征表示,分类层由线性变换层与softmax层组成,线性变换层将文本向量转换为与一个维度与类别相同的实数值向量,softmax函数将每一维度的实数值映射为类别的条件概率,其中类别为概率最大的维度,计算公式如下:
P(y|T)=softmax(WsS+bs)
Figure BDA0002058297040000033
其中,y表示文本标签类别,T表示类别属性,Ws为卷积网络隐藏单元参数矩阵;bs为偏置项;
步骤6f)构建计算最小化真实类标
Figure BDA0002058297040000041
与预测类标yj的交叉墒损失函数:
Figure BDA0002058297040000042
以最小化损失函数Loss为目标训练神经网络;
步骤7,获取待预测的新的短文本,对新的短文本依次进行预处理、特征表示,通过步骤4得到新的短文本中的主题词向量,将新的短文本的主题词向量和子向量送入训练好的神经网络进行预测,得到新的短文本的标签。
进一步的,所述步骤3b)中词向量训练模型的目标函数为:
Figure BDA0002058297040000043
其中,U表示输入的词语序列,U={w1,...,wM},词向量训练模型训练时以最大化目标函数为目的进行训练。
进一步的,所述步骤4中训练Skip-gram模型的目标函数为:
Figure BDA0002058297040000044
训练时以最大化目标函数为目的进行训练。
有益效果:本发明相比现有技术,具有以下有益效果:
本发明一种基于主题词向量与卷积神经网络的短文本分类方法,基于神经网络语言模型的词向量与短文本主题模型相结合的表示方法,利用主题模型的全局主题信息以及词向量的局部语义信息对短文本的特征表示进行扩展,在词向量模型中引入WNTM短文本主题模型对词向量进行优化。在词向量的训练过程中将词语的主题向量作为新词引入到词向量训练过程,并考虑到词向量与主题向量之间的差异性,在词向量的构建中分别对其进行训练,增强短文本的局部与全局语义信息表示的准确性。
分别将主题词向量信息与字向量信息作为卷积神经网络的输入,从不同层次学习短文本的语义特征。在卷积神经网络的结构中,对传统的卷积神经网络的池化层过程中丢失过多特征信息,面对短文本的数据特点时考虑到对特征向量的保存,在池化层中引入attention机制对不同卷积核提取的特征量进行权重计算,保留了有用的特征信息并进行权重自学习以提升分类任务。
附图说明
图1为本发明的特征表示流程图;
图2为本发明的WNTWE模型训练框架图;
图3为本发明的卷积神经网络流程图;
图4为本发明的卷积神经网络架构图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于主题词向量与卷积神经网络的短文本分类方法,包括如下步骤:
如图1所示,
步骤1,数据集预处理:将原始文本数据按照统一格式处理,对统一处理好的样本数据进行去噪声;
步骤2,文本分词,定制化停用词过滤,构建语料库D:
步骤3a)对短文本进行主题级别的特征表示:
步骤3a1)初始化词网络主题模型参数先验参数文档-主题分布参数α与主题-词分布参数β,以及主题数量K;
步骤3a2)通过词网络主题模型挖掘短文本中的潜在词语簇,对于每一个潜在词语簇Z,从Z上的单词的多项式分布中抽取:Φz~Dir(β);其中,Φz表示词语属于词语簇Z的概率分布,Dir(β)表示参数β的狄利克雷分布;
步骤3a3)遍历短文本中的每一个词语wi,对于wi的相邻词语列表Li,在其潜在词语簇中抽取:θi~Dir(β);其中,θi表示文档对应的主题分布;
步骤3a4)对于Li中的每一个词语wj:选择潜在词语簇zj~Θi,选择相邻词语
Figure BDA0002058297040000051
其中,Θi表示文档-主题分布参数矩阵,
Figure BDA0002058297040000052
表示第j个潜在词语簇的概率分布值。
步骤3a5)至此,得到文档形式表示的短文本,对短文本进行文档主题推断,将文档生成词语的主题分布的期望作为文档生成主题的分布,即:
Figure BDA0002058297040000053
其中,P(z|d)表示文档生成词语的概率,Wd表示文档集,P(z|wi)表示词语生成主题的概率,P(wi|d)表示文档d中单词wi的经验分布。
Figure BDA0002058297040000054
fd(wi)为文档d中词wi的词频,Len(d)是指文档d的长度;
步骤3a6)进行文档-主题推断,得到文档-主题分布:
Figure BDA0002058297040000061
其中,
Figure BDA0002058297040000062
表示主题-词语参数矩阵,
Figure BDA0002058297040000063
表示词网络主题模型得到的伪文档参数;
步骤3a7)对主题模型参数矩阵进行Gibbs采样估计,得到文档语料库的主题-词分布;
步骤3a8)根据步骤3a6)得到的每个文档的文档-主题分布构建文档-主题分布矩阵,根据步骤3a7)得到的主题-词分布数据构建主题-词分布矩阵;
步骤3a9)由文档-主题分布矩阵与主题-词语分布矩阵得到词-主题分配映射关系;
步骤3b)对短文本进行词语级别的特征表示:
采用Skip-gram模型作为词向量训练模型,根据输入的每一个词向量及相应词的上下文词向量训练词向量训练模型,通过训练好的词向量训练模型可以提取得到短文本中的所有词向量;
步骤3b1)对短文本进行词向量训练表示;
步骤3b2)初始化词向量模型,采用Skip-gram模型进行中心词对上下文窗口进行预测训练,优化模式为负采样;
步骤3b3)对于输入层一个词语序列D={w1,...,wM},最大化模型的平均对数概率目标函数:
Figure BDA0002058297040000064
步骤3b4)训练目标函数得到词语词向量表示;
步骤4,对词语级别的特征表示与主题级别的特征表示进行联合训练,得到主题词向量:
步骤4a)通过步骤3a得到的词-主题映射关系,以及步骤3b中得到的训练文本的词向量表示,对词语最相关主题中的词向量求和平均值作为词语wi的主题向量zi作为初始化训练向量;
步骤4b)训练模型结合主题向量与词向量的特征表示,并考虑到两种表示的层次关系,词向量的目标函数定义为:
Figure BDA0002058297040000065
模型架构如图2所示,其中模型将词的主题分布作为新词,构成<wi,zi>词语与主题向量的独立单元,损失函数中模型对于当前主题-词语的词对分别预测上下文窗口的主题-词语词对;
步骤4c)模型训练结束;
步骤4d)将模型训练得到的主题向量与词向量进行拼接得到主题词向量wz
步骤4e)对短文本进行主题向量的求和平均进行文本特征表示;
步骤5,如图3所示,将主题词向量与字向量结合送入卷积神经网络进行分类模型训练。
步骤5a1嵌入层包含词语与字两个卷积网络,分别使用预训练的主题词向量与字向量作为对应卷积层的输入:
Figure BDA0002058297040000071
步骤5b)卷积层中对连续h个词或字向量进行宽卷积操作,其中宽卷积核窗口宽度为向量维度d,高度为h,Xi:i+h-1表示卷积核窗口从第i个单元起,作用于文本中的h个词语或字,卷积层通过过滤器提取新的特征,卷积操作公式:
ci=ReLU(Wc·xi:i+h-1+b)∈Rm
卷积操作中对文本边界进行补齐,设置卷积层的输出长度等于输入长度。每个卷积窗口的卷积核特征使用m个不同的滤波器来执行卷积运算,并将每个窗口的卷积结果特征集表示为C
步骤5c)卷积操作获取了词语的n-gram信息,池化层对卷积层的特征信息进行提取,其中引入注意力机制。输入为卷积层的特征向量,池化层中输入为卷积层特征向量[C1,C2,...,Cl],对于不同卷积核提取的特征向量进行权重attention机制自学习其中,Wc表示卷积核的参数矩阵,Wα表示隐藏单元参数,Rm表示向量维度为卷积核数目m:
vi=tanh(WcCi+bc)
αi=softmax(Wαvi)
Figure BDA0002058297040000072
将卷积特征Ci输入tanh层计算Ci的隐藏表示vi,并通过softmax函数确定卷积特征的注意力权重αi。最终通过计算基于注意力权重与卷积特征加权求和输出向量C。
步骤5d)全连接层将词语级别的特征Cα与字级别的特征Cβ进行拼接得到短文本的语义表示S:
Figure BDA0002058297040000073
步骤5e)分类层的输入是连接层对于文本向量的综合特征表示,分类层由线性变换层与softmax层组成。线性变换层将文本向量转换为与一个维度与类别相同的实数值向量,softmax函数将每一维度的实数值映射为类别的条件概率,其中类别为概率最大的维度,计算公式如下,其中y表示文本标签类别,T表示类别属性,Ws为卷积网络隐藏单元参数矩阵。bs为偏置项:
P(y|T)=softmax(WsS+bs)
Figure BDA0002058297040000081
步骤5f)进行模型训练,通过计算最小化真实类标
Figure BDA0002058297040000082
与预测类标yj的交叉墒损失函数:
Figure BDA0002058297040000083
其中Nt为训练数据集文本数量,Nc为类别数目,
Figure BDA0002058297040000084
维度为类别K,对应类标为1,其余维度为0。在模型训练中最小化损失函数,通过反向传播对模型中各层的参数进行迭代更新。模型架构如图4所示。
步骤5e)模型训练结束。
步骤6,对新样本短文数据进行类标预测。
综上所述,本发明结合短文本数据特点,在特征表示阶段利用主题向量与词向量结合表示,对短文本自身数据特点进行语义特征扩展,在分类模型训练阶段利用卷积神经网络对局部敏感信息抽取能力进一步对文本语义信息进行挖掘,能够对短文本分类任务类别预测准确率等指标进行提高。本发明特征表示总体结构如附图1所示。训练主题词向量模型架构如附图2所示。卷积神经网络分类模型流程如附图3所示。神经网络框架图如附图4所示。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于主题词向量与卷积神经网络的短文本分类方法,其特征在于,包括如下步骤:
步骤1,采集短文本,对每个短文本进行标签标注,将标注好的短文本作为训练样本;
步骤2,对作为训练样本的短文本进行预处理,统一训练样本的格式,将预处理后的所有训练样本的集合作为语料库D;
步骤3,对语料库D中的每个短文本进行特征表示,包括:
步骤3a)对短文本进行主题级别的特征表示:
步骤3a1)初始化词网络主题模型参数先验参数文档-主题分布参数与主题-词分布参数β,以及主题数量K;
步骤3a2)通过词网络主题模型挖掘短文本中的潜在词语簇,对于每一个潜在词语簇Z,从Z上的单词的多项式分布中抽取:Φz~Dir(β);其中,Φz表示词语属于词语簇Z的概率分布,Dir(β)表示参数β的狄利克雷分布;
步骤3a3)遍历短文本中的每一个词语wi,对于wi的相邻词语列表Li,在其潜在词语簇中抽取:θi~Dir(β);其中,θi表示文档对应的主题分布;
步骤3a4)对于Li中的每一个词语wj:选择潜在词语簇zj~Θi,选择相邻词语
Figure FDA0003184902370000011
其中,Θi表示文档-主题分布参数矩阵,
Figure FDA0003184902370000012
表示第j个潜在词语簇的概率分布值;
步骤3a5)至此,得到文档形式表示的短文本,对短文本进行文档主题推断,将文档生成词语的主题分布的期望作为文档生成主题的分布,即:
Figure FDA0003184902370000013
其中,P(z|d)表示文档生成词语的概率,Wd表示文档集,P(z|wi)表示词语生成主题的概率,P(wi|d)表示文档d中单词wi的经验分布;
Figure FDA0003184902370000014
fd(wi)为文档d中词wi的词频,Len(d)是指文档d的长度;
步骤3a6)进行文档-主题推断,得到文档-主题分布:
Figure FDA0003184902370000015
其中,
Figure FDA0003184902370000016
表示主题-词语参数矩阵,
Figure FDA0003184902370000017
表示词网络主题模型得到的伪文档参数;
步骤3a7)对主题模型参数矩阵进行Gibbs采样估计,得到文档语料库的主题-词分布;
步骤3a8)根据步骤3a6)得到的每个文档的文档-主题分布构建文档-主题分布矩阵,根据步骤3a7)得到的主题-词分布数据构建主题-词分布矩阵;
步骤3a9)由文档-主题分布矩阵与主题-词语分布矩阵得到词-主题分配映射关系;
步骤3b)对短文本进行词语级别的特征表示:
采用Skip-gram模型作为词向量训练模型,根据输入的每一个词向量及相应词的上下文词向量训练词向量训练模型,通过训练好的词向量训练模型可以提取得到短文本中的所有词向量;
步骤4,对每一个词语wi,对wi最相关主题中的所有词向量求平均值,将求得的平均值作为wi的主题向量zi;以词对<wi,zi>为输入,以词对<wi,zi>的上下文词对为输出,训练Skip-gram模型;将wi和zi进行向量连接得到主题词向量wz
步骤5,对语料库进行字级别预训练得到文本的字向量表示,以字粒度信息对文本进行表示;
步骤6,将主题词向量wz、字向量送入卷积神经网络进行分类模型训练:
步骤6a)将卷积神经网络的嵌入层设置为主题词向量层与字向量层两个卷积网络,将主题词向量与字向量作为对应卷积层的输入:
步骤6b)卷积层中对连续h个词或字向量进行宽卷积操作,其中宽卷积核窗口宽度为向量维度d,高度为h,Xi:i+h-1表示卷积核窗口从第i个单元起,作用于文本中的h个词语或字,卷积层通过过滤器提取新的特征;
步骤6c)卷积操作获取了词语的n-gram信息,池化层对卷积层的特征信息进行提取,其中引入注意力机制;输入为卷积层的特征向量,池化层中输入为卷积层特征向量[C1,C2,...,Cl],对于不同卷积核提取的特征向量进行权重attention机制自学习:将卷积特征Ci输入tanh层计算Ci的隐藏表示vi,并通过损失函数softmax确定卷积特征的注意力权重αi;最终通过计算基于注意力权重与卷积特征加权求和输出向量Cα
vi=tanh(WcCi+bc)
αi=softmax(Wαvi)
Figure FDA0003184902370000021
其中,Wc表示卷积核的参数矩阵,Wα表示隐藏单元参数,Rm表示向量维度为卷积核数目m;
步骤6d)全连接层将词语级别的特征Cα与字级别的特征Cβ进行拼接得到短文本的语义表示S:
Figure FDA0003184902370000022
步骤6e)分类层的输入是连接层对于文本向量的综合特征表示,分类层由线性变换层与softmax层组成,线性变换层将文本向量转换为与一个维度与类别相同的实数值向量,softmax函数将每一维度的实数值映射为类别的条件概率,其中类别为概率最大的维度,计算公式如下:
P(y|T)=softmax(WsS+bs)
Figure FDA0003184902370000031
其中,y表示文本标签类别,T表示类别属性,Ws为卷积网络隐藏单元参数矩阵;bs为偏置项;
步骤6f)构建计算最小化真实类标
Figure FDA0003184902370000032
与预测类标yj的交叉墒损失函数:
Figure FDA0003184902370000033
以最小化损失函数Loss为目标训练神经网络;
步骤7,获取待预测的新的短文本,对新的短文本依次进行预处理、特征表示,通过步骤4得到新的短文本中的主题词向量,将新的短文本的主题词向量和字向量送入训练好的神经网络进行预测,得到新的短文本的标签。
2.根据权利要求1所述基于主题词向量与卷积神经网络的短文本分类方法,其特征在于,所述步骤3b)中词向量训练模型的目标函数为:
Figure FDA0003184902370000034
其中,logPr()表示对数概率目标函数,U表示输入的词语序列,U={w1,...,wM},词向量训练模型训练时以最大化目标函数为目的进行训练。
3.根据权利要求1所述基于主题词向量与卷积神经网络的短文本分类方法,其特征在于:
所述步骤4中训练Skip-gram模型的目标函数为:
Figure FDA0003184902370000035
训练时以最大化目标函数为目的进行训练。
CN201910397064.2A 2019-05-14 2019-05-14 一种基于主题词向量与卷积神经网络的短文本分类方法 Active CN110134786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910397064.2A CN110134786B (zh) 2019-05-14 2019-05-14 一种基于主题词向量与卷积神经网络的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910397064.2A CN110134786B (zh) 2019-05-14 2019-05-14 一种基于主题词向量与卷积神经网络的短文本分类方法

Publications (2)

Publication Number Publication Date
CN110134786A CN110134786A (zh) 2019-08-16
CN110134786B true CN110134786B (zh) 2021-09-10

Family

ID=67573553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910397064.2A Active CN110134786B (zh) 2019-05-14 2019-05-14 一种基于主题词向量与卷积神经网络的短文本分类方法

Country Status (1)

Country Link
CN (1) CN110134786B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687576A (zh) * 2022-12-29 2023-02-03 安徽大学 一种主题约束表示的关键词抽取方法及装置

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543563B (zh) * 2019-08-20 2022-03-08 暨南大学 一种层次型文本分类方法及***
CN110532392A (zh) * 2019-09-02 2019-12-03 河南理工大学 一种基于卷积神经网络短文本分类方法
CN110795911B (zh) * 2019-09-16 2023-07-21 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN110705260B (zh) * 2019-09-24 2023-04-18 北京工商大学 一种基于无监督图神经网络结构的文本向量生成方法
CN110674298B (zh) * 2019-09-29 2022-09-30 安徽信息工程学院 一种深度学习的混合主题模型构建方法
CN110704626B (zh) * 2019-09-30 2022-07-22 北京邮电大学 一种用于短文本的分类方法及装置
CN110826337B (zh) * 2019-10-08 2023-06-16 西安建筑科技大学 一种短文本语义训练模型获取方法及相似度匹配算法
CN110674305B (zh) * 2019-10-10 2023-05-12 天津师范大学 一种基于深层特征融合模型的商品信息分类方法
CN110728135B (zh) * 2019-10-12 2023-06-09 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN110765757A (zh) * 2019-10-16 2020-02-07 腾讯云计算(北京)有限责任公司 文本识别方法、计算机可读存储介质和计算机设备
CN110717047B (zh) * 2019-10-22 2022-06-28 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN110866117B (zh) * 2019-10-25 2021-09-03 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110781671B (zh) * 2019-10-29 2023-02-14 西安科技大学 一种智能ietm故障维修记录文本的知识挖掘方法
CN111027595B (zh) * 2019-11-19 2022-05-03 电子科技大学 双阶段语义词向量生成方法
CN110888996A (zh) * 2019-11-22 2020-03-17 沈阳建筑大学 一种基于范围卷积神经网络的文本分类方法
CN111078822A (zh) * 2019-11-29 2020-04-28 北京百卓网络技术有限公司 基于中文小说文本的阅读器信息抽取方法及***
CN111143553B (zh) * 2019-12-06 2023-04-07 国家计算机网络与信息安全管理中心 一种实时文本数据流的特定信息识别方法及***
CN111104513B (zh) * 2019-12-13 2023-05-02 中山大学 一种游戏平台用户问答业务的短文本分类方法
CN111309933B (zh) * 2020-02-13 2023-11-10 中国科学院自动化研究所 文化资源数据自动标注***
CN111339783B (zh) * 2020-02-24 2022-11-25 东南大学 一种基于rntm的话题挖掘方法与装置
CN113378556B (zh) * 2020-02-25 2023-07-14 华为技术有限公司 提取文本关键字的方法及装置
CN111475642A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分类方法、装置及模型训练方法
CN111368064B (zh) * 2020-03-26 2023-04-07 深圳平安医疗健康科技服务有限公司 调查信息处理方法、装置、设备及存储介质
CN111666406B (zh) * 2020-04-13 2023-03-31 天津科技大学 基于自注意力的单词和标签联合的短文本分类预测方法
CN111581962B (zh) * 2020-05-14 2023-02-21 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111401063B (zh) * 2020-06-03 2020-09-11 腾讯科技(深圳)有限公司 一种基于多池化网络的文本处理方法、装置和相关设备
CN111897952B (zh) * 2020-06-10 2022-10-14 中国科学院软件研究所 一种面向社交媒体的敏感数据发现方法
CN111767398A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 基于卷积神经网络的二次设备故障短文本数据分类方法
CN111767397A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 一种电力***二次设备故障短文本数据分类方法
CN112015891A (zh) * 2020-07-17 2020-12-01 山东师范大学 基于深度神经网络的网络问政平台留言分类的方法及***
CN112131453A (zh) * 2020-08-26 2020-12-25 江汉大学 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN112270615A (zh) * 2020-10-26 2021-01-26 西安邮电大学 基于语义计算的复杂装备制造bom智能分解方法
CN112231482A (zh) * 2020-11-06 2021-01-15 中国人民解放军国防科技大学 基于可伸缩表示学习的长短文本分类方法
CN112765989B (zh) * 2020-11-17 2023-05-12 中国信息通信研究院 基于表示分类网络的变长文本语义识别方法
CN112417153B (zh) * 2020-11-20 2023-07-04 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112634405A (zh) * 2020-11-30 2021-04-09 南京大学 一种面向众测任务发布的图文生成方法
CN112417322B (zh) * 2020-12-10 2024-03-22 长春理工大学 一种面向兴趣点名称文本的类型判别方法及***
CN112596828A (zh) * 2020-12-15 2021-04-02 平安普惠企业管理有限公司 基于应用的弹窗生成方法、装置、电子设备及存储介质
CN112541080B (zh) * 2020-12-18 2023-05-26 北京清博智能科技有限公司 基于深度学习的新媒体账号标签智能校验方法
CN112927807B (zh) * 2020-12-22 2024-03-26 江汉大学 一种食源性检测模型训练方法、疾病检测方法
CN112597311B (zh) * 2020-12-28 2023-07-11 东方红卫星移动通信有限公司 一种基于低轨卫星通信下的终端信息分类方法及***
CN112732872B (zh) * 2021-01-12 2022-11-18 东南大学 面向生物医学文本的基于主题注意机制的多标签分类方法
CN112765353B (zh) * 2021-01-22 2022-11-04 重庆邮电大学 一种基于科研文本的生物医学学科分类方法及装置
CN112926311B (zh) * 2021-02-03 2022-08-02 昆明理工大学 一种结合序列和主题信息的无监督方面词提取方法
CN112860893B (zh) * 2021-02-08 2023-02-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN113157918B (zh) * 2021-03-23 2022-07-22 浙江工业大学 一种基于注意力机制的商品名称短文本分类方法和***
CN113204640B (zh) * 2021-04-02 2023-05-30 南京邮电大学 一种基于注意力机制的文本分类方法
CN113239190B (zh) * 2021-04-27 2024-02-20 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备
CN113486143A (zh) * 2021-05-25 2021-10-08 北京工业大学 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113360633B (zh) * 2021-06-09 2023-10-17 南京大学 一种基于深度域适应的跨域测试文档分类方法
CN113221181B (zh) * 2021-06-09 2022-08-09 上海交通大学 具有隐私保护的表格类信息抽取***及方法
CN113535961B (zh) * 2021-08-03 2024-06-07 公安部第三研究所 基于小样本学习实现多语言混合短文本分类处理的***、方法、装置、存储器及其存储介质
CN113326380B (zh) * 2021-08-03 2021-11-02 国能大渡河大数据服务有限公司 基于深度神经网络的设备量测数据处理方法、***及终端
CN113946682B (zh) * 2021-12-21 2022-03-11 北京大学 基于自适应图神经网络的敏感文本检测方法及***
CN114817538B (zh) * 2022-04-26 2023-08-08 马上消费金融股份有限公司 文本分类模型的训练方法、文本分类方法及相关设备
CN114970532A (zh) * 2022-05-18 2022-08-30 重庆邮电大学 一种基于嵌入分布改进的中文命名实体识别方法
CN115374285B (zh) * 2022-10-26 2023-02-07 思创数码科技股份有限公司 政务资源目录主题分类方法及***
CN115409135B (zh) * 2022-11-03 2023-02-03 南昌惠联网络技术有限公司 一种网络业务文档的分类管理方法
CN117236330B (zh) * 2023-11-16 2024-01-26 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546030B2 (en) * 2016-02-01 2020-01-28 Microsoft Technology Licensing, Llc Low latency pre-web classification
CN108021546A (zh) * 2016-11-03 2018-05-11 北京嘀嘀无限科技发展有限公司 一种短文本特征扩展方法、装置及服务器
CN106909537B (zh) * 2017-02-07 2020-04-07 中山大学 一种基于主题模型和向量空间的一词多义分析方法
CN107066553B (zh) * 2017-03-24 2021-01-01 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN108710611B (zh) * 2018-05-17 2021-08-03 南京大学 一种基于词网络和词向量的短文本主题模型生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687576A (zh) * 2022-12-29 2023-02-03 安徽大学 一种主题约束表示的关键词抽取方法及装置

Also Published As

Publication number Publication date
CN110134786A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134786B (zh) 一种基于主题词向量与卷积神经网络的短文本分类方法
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
Lai et al. Fine-grained emotion classification of Chinese microblogs based on graph convolution networks
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN109325231B (zh) 一种多任务模型生成词向量的方法
CN110472042B (zh) 一种细粒度情感分类方法
CN108399230A (zh) 一种基于卷积神经网络的中文财经新闻文本分类方法
CN111078833B (zh) 一种基于神经网络的文本分类方法
CN108595643A (zh) 基于多分类节点卷积循环网络的文本特征提取及分类方法
US20110078554A1 (en) Webpage entity extraction through joint understanding of page structures and sentences
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN112836051B (zh) 一种在线自学习的法院电子卷宗文本分类方法
CN111949790A (zh) 基于lda主题模型与分层神经网络的情感分类方法
CN109766553A (zh) 一种基于多正则化结合的胶囊模型的中文分词方法
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及***
CN112347245A (zh) 面向投融资领域机构的观点挖掘方法、装置和电子设备
Moirangthem et al. Hierarchical and lateral multiple timescales gated recurrent units with pre-trained encoder for long text classification
CN113051932A (zh) 语义和知识扩展主题模型的网络媒体事件的类别检测方法
CN113553510A (zh) 一种文本信息推荐方法、装置及可读介质
CN116910013A (zh) 基于语义流图挖掘的***日志异常检测方法
CN115062727A (zh) 一种基于多阶超图卷积网络的图节点分类方法及***
CN113204640A (zh) 一种基于注意力机制的文本分类方法
CN111104508B (zh) 基于容错粗糙集的词袋模型文本表示方法、***及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant