CN110046356B - 标签嵌入的微博文本情绪多标签分类方法 - Google Patents
标签嵌入的微博文本情绪多标签分类方法 Download PDFInfo
- Publication number
- CN110046356B CN110046356B CN201910345877.7A CN201910345877A CN110046356B CN 110046356 B CN110046356 B CN 110046356B CN 201910345877 A CN201910345877 A CN 201910345877A CN 110046356 B CN110046356 B CN 110046356B
- Authority
- CN
- China
- Prior art keywords
- label
- text
- embedding
- emotion
- microblog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
标签嵌入的微博文本情绪多标签分类方法,通过将多标签看作特殊单标签,直接利用标签嵌入算法,来解决多标签分类问题。本发明首先根据原始多标签间的欧式距离及代价信息,利用多维定标方法将各个多标签嵌入到嵌入空间中,然后将微博文本进行特征提取及表示,再训练情绪多标签编码器,学习多标签嵌入的函数,并训练从文本特征空间映射到嵌入空间的分析器,最后利用分析器及编/解码映射关系来预测文本情绪。
Description
技术领域
本发明属于自然语言处理领域,涉及一种将标签嵌入应用于多标签分类的方法。
背景技术
随着人们对社交平台的普遍使用,微博作为一个重要的社交平台,已经成为人们表达观点和宣泄情绪的重要方式之一。海量的微博文本中蕴含着许多潜在的有价值信息,这些信息可以反映出用户对某事物的态度和喜好,因此微博文本情绪可以作为向用户推荐商品、文章及相关服务的重要参考方式。
近几年来,现有工作提出了多种解决文本情绪分析的方法。但是许多方法的实际效果并不理想。比如,某些研究虽然采用机器学习的方法,但是仅将情绪分类问题看作单标签分类问题,并未考虑到文本情绪复杂性。然而情绪往往比较复杂,即使一条短文本中也可能包含多种情绪,使得提取出的文本特征不够准确。因此,传统的多标签分类可能对最终分析结果不够准确。
已有的文本情绪分析方面的研究已经提出了不同的解决方法,但很多方法的实际效果并不理想,例如:①基于词典的方法未能深入考虑到文本上下文信息,使得提取出的文本特征不够准确;②某些研究虽然采用机器学习的方法,但是仅将情绪分类问题看作单标签分类问题,并未考虑到文本情绪复杂性。然而情绪往往比较复杂,即使一条短文本中也可能包含多种情绪,所以将情绪分类问题看作单标签分类问题可能使最终分析结果不够准确;③某些研究即使将情绪分析问题看做多标签分类问题,但其中部分研究将情绪多标签看作多个单标签的组合,然后对每个标签分别训练分类器,最后将每个分类器结果作为最终预测结果,该种策略是一类较主流的方法,但实际分类效果往往依赖于一系列人为设定的阈值,使人为因素对分析效果造成较大影响。
为了解决现有工作的不足,我们提出一种结合多标签嵌入的多标签分类模型。我们贡献在于如下两个方面:第一,我们的模型在嵌入过程中同时考虑欧式距离和海明损失信息,提高了标签嵌入效果;第二,我们的模型可以解决新标签缺失问题,并且为嵌入标签向量解码构建相应的映射关系,这种映射关系能够对预测出的嵌入向量进行解码,最终输出预测的情绪多标签,提高了对新标签的嵌入有效性和标签映射关系对嵌入标签解码的有效性。
发明内容
该发明是在微博文本情绪上采用标签嵌入算法而开发的多标签分类***,通过同时考虑欧式距离和海明损失信息,提高标签嵌入效果,从而提高多标签分类的性能。
本发明的技术方案是:一种采用标签嵌入的多标签分类方法,其特征在于,包括以下步骤:
步骤1:收集微博文本数据,并进行预处理。
步骤2:将每个情绪多标签看作一种特殊单标签,如果多标签中某一单标签值不同则该多标签便被视作不同的标签。然后根据原始标签间的欧氏距离及代价信息嵌入到较低维的嵌入空间。
通过海明损失函数,计算标签代价矩阵,其分解模型如下:
计算标签嵌入信息diff,其分解模型如下:
diff=D+δ(C) (3)
使用多维定标方法进行嵌入。
步骤3:通过文本表示方法对微博文本进行特征提取。
步骤4:训练情绪多标签编码器,其损失函数如下:
其中,J(W,b,x,y)代表损失函数,输入x表示一个原始标签实例,xi表示第i个输入数据,Input表示输入层,h(i)表示第i个隐藏层,表示第i个隐藏层中的第j个神经网络节点,Output表示输入层,oi表示输出层中的第i个输出节点,表示输出层中的第i个输出节点的输出值。定义符表示第i个层中的第j个节点的输出值,W(i)表示第i个隐藏层的权重矩阵,b(i)表示第i层对第i+1层的偏倚矩阵。
步骤5:训练文本分析器和编码/解码器。
步骤6:利用分析器和编码/解码器来预测文本情绪。
所述步骤2多维定标流程如下:
求解B的特征值并从大到小排列,使得λ1≥λ2≥...≥λi。
计算贡献率a1,m和a2,m,其中:
所述步骤3文本特征提取,首先,对文本语句进行分词处理,将语句转化为一系列词的序列。然后,剔除所有分词中无实际意义的词及符号。再加载词向量训练工具,并设置相应参数。最后利用训练工具训练词向量模型并格式化输出词向量。
所述步骤3文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示,首先根据训练好的词向量模型构建相应词典,使得每个词都有一个相应的索引值,然后将每个待表示文本表示为该一个指定维度的索引列表,接着构建一个指定文本长度及字典长度的嵌入层,并将所有词向量依次作为嵌入层的权重。
本发明提供了一种基于标签嵌入的微博文本情绪多标签分类方法,包括以下步骤:
步骤1:对文本语料库进行预处理。
步骤2:将预处理后的数据进行基于欧式距离及海明损失信息的标签嵌入。
步骤3:提取微博文本特征并表示。
步骤4:训练将标签从原始标签空间中映射到嵌入空间的编码器,学习出标签嵌入函数。
步骤5:训练从文本特征空间映射到嵌入空间的分析器。
步骤6:结合分析器及解码映射关系对文本进行情绪多标签分类预测。
其中,可选地,在对微博文本情绪进行划分时,将文本语料库中的文本情绪分为Anxiety、Surprise、Sorrow、Love、Joy、Hate、Anger、Expect八种情绪。
其中,可选地,步骤1对微博文本语料库进行预处理,包括分词及去除停用词操作。
其中,可选地,所述步骤2采用标签空间维度归约类的标签嵌入算法,使得嵌入标签在嵌入空间中的距离与原始标签间距离相似。
其中,可选地,所述步骤3通过提取微博文本特征,并结合向量空间模型将文本向量化表示。
其中,可选地,所述步骤4训练情绪多标签编码器,将标签从原始标签空间中映射到嵌入空间中,并学得其嵌入函数表达。
其中,可选地,所述步骤5训练从文本特征空间映射到嵌入空间的分析器。
其中,可选地,所述步骤6结合分析器及解码映射关系对文本进行情绪多标签分类预测。
所述步骤本发明的有益效果为,已知微博文本信息,提出了一种基于标签嵌入的多标签分类模型,解决了新标签缺失的多标签分类问题。
附图说明
图1为本发明的流程示意图。
图2为标签信息处理过程图。
图3为情绪多标签文本分类器结构图。
图4为情绪多标签编码器神经网络结构图。
具体实施方式
下面结合附图,详细描述本发明的技术方案:
如图1所示,本发明的主要流程为:
步骤1:收集微博文本数据,并采用word2vec与jieba等工具对微博文本进行预处理。
步骤2:采用多维定标方法,将预处理后的标签嵌入到低维嵌入空间,在进行标签嵌入过程中考虑使用原始标签间的欧式距离及海明损失信息:
通过海明损失函数,计算标签代价矩阵,其分解模型如下:
通过使用欧式距离公式,已知8维情绪标签集合y={y1,y2,...,yk},求出真实标签yi与预测标签yj之间的距离,其分解模型如下:
计算标签嵌入信息diff,其分解模型如下:
diff=D+δ(C) (3)
使用多维定标方法将各个多标签嵌入到嵌入空间中。
步骤3:采用结合词典和词向量的嵌入层文本表示方法对微博文本进行特征提取。
步骤4:训练情绪多标签编码器,得到多标签的嵌入信息。如图2所示,其损失函数如下:
其中,J(W,b,x,y)代表损失函数,输入x表示一个原始标签实例,xi表示第i个输入数据,Input表示输入层,h(i)表示第i个隐藏层,表示第i个隐藏层中的第j个神经网络节点,Output表示输入层,oi表示输出层中的第i个输出节点,表示输出层中的第i个输出节点的输出值。定义符号表示第i个层中的第j个节点的输出值,W(i)表示第i个隐藏层的权重矩阵,b(i)表示第i层对第i+1层的偏倚矩阵。
步骤5:利用提取出的文本向量训练文本分析器。
步骤6:在实验验证集上选出编码器/解码器和分析器模型后,使用测试集中的数据对模型进行预测。
所述步骤2多维定标流程如下:
求解B的特征值并从大到小排列,使得λ1≥λ2≥...≥λi。
计算贡献率a1,m和a2,m,其中:
所述步骤3文本特征提取,首先,对文本语句进行分词处理,将语句转化为一系列词的序列。然后,剔除所有分词中无实际意义的词及符号。再加载词向量训练工具,并设置相应参数。最后利用训练工具训练词向量模型并格式化输出词向量。
所述步骤3文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示,首先根据训练好的词向量模型构建相应词典,使得每个词都有一个相应的索引值,然后将每个待表示文本表示为该一个指定维度的索引列表,接着构建一个指定文本长度及字典长度的嵌入层,并将所有词向量依次作为嵌入层的权重。
Claims (12)
1.一种基于标签嵌入的微博文本情绪多标签分类方法,包括以下步骤:
步骤1:对文本语料库进行预处理,
步骤2:将预处理后的数据进行基于欧式距离及海明损失信息的标签嵌入,
步骤3:提取微博文本特征并表示,
步骤4:训练将标签从原始标签空间中映射到嵌入空间的编码器,学习出标签嵌入函数,
步骤5:训练从文本特征空间映射到嵌入空间的分析器,
步骤6:结合分析器及解码映射关系对文本进行情绪多标签分类预测;
其中,所述标签嵌入包括以下步骤:
a.从所有语句标签中选出具有代表性的标签,得到标签矩阵Y,
b.通过标签矩阵Y中所有标签两两之间的海明损失函数得到代价矩阵C,
c.通过计算矩阵Y中所有标签两两之间的欧式距离得到距离矩阵D,
d.需要进行嵌入的信息用diff表示,其分解模型如下:
diff=D+δ(C) (1)
其中δ()表示一个单调函数,其目的是为了将标签间的代价信息进行放大或缩小,
e.采用多维定标算法进行标签嵌入。
2.根据权利要求1所述的微博文本情绪多标签分类方法,其特征在于:将文本语料库中的文本情绪分为Anxiety、Surprise、Sorrow、Love、Joy、Hate、Anger、Expect八种情绪。
3.根据权利要求1所述的微博文本情绪多标签分类方法,其特征在于:所述步骤1对微博文本语料库进行预处理,包括分词及去除停用词操作。
4.根据权利要求1所述的微博文本情绪多标签分类方法,其特征在于:所述步骤2采用标签空间维度归约类的标签嵌入算法,使得嵌入标签在嵌入空间中的距离与原始标签间距离相似。
5.根据权利要求1所述的微博文本情绪多标签分类方法,其特征在于:所述步骤3通过提取微博文本特征,并结合向量空间模型将文本向量化表示。
6.根据权利要求1所述的微博文本情绪多标签分类方法,其特征在于:所述步骤4训练情绪多标签编码器,将标签从原始标签空间中映射到嵌入空间中,并得到其嵌入函数表达。
7.根据权利要求1所述的微博文本情绪多标签分类方法,其特征在于:所述步骤5训练从文本特征空间映射到嵌入空间的分析器。
8.根据权利要求1所述的微博文本情绪多标签分类方法,其特征在于:所述步骤6结合分析器及解码映射关系对文本进行情绪多标签分类预测。
10.根据权利要求1所述的微博文本情绪多标签分类方法,其特征在于:其中文本特征提取流程如下:
a.对文本语句进行分词处理,将语句转化为一系列词的序列,
b.剔除所有分词中无实际意义的词及符号,
c.加载词向量训练工具,并设置相应参数,
d.利用训练工具训练词向量模型并格式化输出词向量。
11.根据权利要求1所述的微博文本情绪多标签分类方法,其特征在于:其中文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示,首先根据训练好的词向量模型构建相应词典,使得每个词都有一个相应的索引值,然后将每个待表示文本表示为该一个指定维度的索引列表,接着构建一个指定文本长度及字典长度的嵌入层,并将所有词向量依次作为嵌入层的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910345877.7A CN110046356B (zh) | 2019-04-26 | 2019-04-26 | 标签嵌入的微博文本情绪多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910345877.7A CN110046356B (zh) | 2019-04-26 | 2019-04-26 | 标签嵌入的微博文本情绪多标签分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046356A CN110046356A (zh) | 2019-07-23 |
CN110046356B true CN110046356B (zh) | 2020-08-21 |
Family
ID=67279646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910345877.7A Active CN110046356B (zh) | 2019-04-26 | 2019-04-26 | 标签嵌入的微博文本情绪多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046356B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633365A (zh) * | 2019-07-25 | 2019-12-31 | 北京国信利斯特科技有限公司 | 一种基于词向量的层次多标签文本分类方法及*** |
CN110807323A (zh) * | 2019-09-20 | 2020-02-18 | 平安科技(深圳)有限公司 | 情绪向量的生成方法及装置 |
CN113360639A (zh) * | 2020-03-06 | 2021-09-07 | 上海卓繁信息技术股份有限公司 | 一种短文本情绪分类方法,装置及存储设备 |
CN112989051B (zh) * | 2021-04-13 | 2021-09-10 | 北京世纪好未来教育科技有限公司 | 文本分类的方法、装置、设备和计算机可读存储介质 |
CN113657446A (zh) * | 2021-07-13 | 2021-11-16 | 广东外语外贸大学 | 多标签情绪分类模型的处理方法、***和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US10685670B2 (en) * | 2015-04-22 | 2020-06-16 | Micro Focus Llc | Web technology responsive to mixtures of emotions |
CN109086357B (zh) * | 2018-07-18 | 2021-06-22 | 深圳大学 | 基于变分自动编码器的情感分类方法、装置、设备及介质 |
CN109299273B (zh) * | 2018-11-02 | 2020-06-23 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其*** |
CN109472031B (zh) * | 2018-11-09 | 2021-05-04 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
-
2019
- 2019-04-26 CN CN201910345877.7A patent/CN110046356B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110046356A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN112000791B (zh) | 一种电机故障知识抽取***及方法 | |
CN110287320B (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及*** | |
CN107203511B (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN111966917A (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
CN112732921B (zh) | 一种虚假用户评论检测方法及*** | |
CN111897954B (zh) | 一种用户评论方面挖掘***、方法、及存储介质 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN111259153B (zh) | 一种完全注意力机制的属性级情感分析方法 | |
CN110969023B (zh) | 文本相似度的确定方法及装置 | |
CN111523420A (zh) | 基于多任务深度神经网络的表头分类与表头列语义识别方法 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN113157918A (zh) | 一种基于注意力机制的商品名称短文本分类方法和*** | |
CN116150367A (zh) | 一种基于方面的情感分析方法及*** | |
CN117807232A (zh) | 商品分类方法、商品分类模型构建方法及装置 | |
CN112347252B (zh) | 一种基于cnn文本分类模型的可解释性分析方法 | |
CN110287396A (zh) | 文本匹配方法及装置 | |
CN113704472B (zh) | 基于主题记忆网络的仇恨和攻击性言论识别方法及*** | |
CN113342964B (zh) | 一种基于移动业务的推荐类型确定方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |