CN110472003A

CN110472003A - 基于图卷积网络的社交网络文本情感细粒度分类方法

Info

Publication number: CN110472003A
Application number: CN201910728633.7A
Authority: CN
Inventors: 张林峰; 韩东红; 赖裕妮; 刘晓倩; 王旭; 赵帅
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-19
Anticipated expiration: 2039-08-08
Also published as: CN110472003B

Abstract

本发明提供一种基于图卷积网络的社交网络文本情感细粒度分类方法，涉及自然语言处理(NLP)中检测文本作者情感极性的领域。本发明对于社交网络文本上的愤怒、厌恶、恐惧、快乐、喜欢、悲伤和惊讶等情绪进行分类，建立了一种基于语法的细粒度情感检测图形卷积网络(GCN)模型。该模型采用BI‑LSTM网络对给定文本进行初步特征提取，将句子图的初步特征和邻接矩阵输入到一个单层GCN中，以利用句子的句法结构，最后得到池化层或全连接层的概率分布。用BI‑LSTM网络与GCN相结合，增强了模型对汉语文本不同语法结构的理解，提高了模型的鲁棒性，提出的基于百分位数的池化方法提高了模型的精确度。

Description

基于图卷积网络的社交网络文本情感细粒度分类方法

技术领域

本发明涉及自然语言处理(NLP)中检测文本作者情感极性的领域，尤其涉及基于图卷积网络的社交网络文本情感细粒度分类方法。

背景技术

随着互联网的快速发展，人们对社交网络的使用越来越密集，从而产生了海量的文本数据。人们借助聊天室、个人日志、朋友圈、微博等社交网络平台，自由公开表达自己的思想、情感，与他人交流观点、看法，形成正式或非正式的社交网络，其中蕴含了人类丰富的心理和行为信息。如何挖掘社交网络文本情感并充分利用，成为相关研究领域的热点问题，为社会科学的发展带来了前所未有的机遇，推动了计算社会科学等交叉学科的诞生。与此同时，在线文本分析技术为挖掘和分析互联网上的海量信息，提供了技术支持与保证。

传统的在线文本分析大多基于客观要素，如根据研究的主题对信息进行分类，而忽视了其中所蕴含的主观要素，比如情感信息。近年来，对在线文本的情感分析成为信息科学的研究热点。而情绪、情感一直是心理学的研究重点，心理学关于情绪、情感的研究成果，对于挖掘和分析网络信息具有重要的参考价值。越来越多的信息科学学者意识到这一点，不仅在传统的情感分析工具中加入一些心理学元素，而且还根据心理学的情绪结构理论构建了多个全新的研究工具，为在线文本的情感分析注入了心理学思想。利用这些研究工具对在线文本进行情感分析，已取得诸多有价值的研究成果。

随着科学研究的不断深入发展，细粒度的情感提取日显重要。从近年来的研究中可以发现，对社交网络的研究主要集中在微博，国内学者目前对情感分类研究普遍集中在粗粒度分类上。常见粗粒度的情感分类比如有无情感判断，积极与消极情绪分类，而这对于精确的科学研究或社会学研究是远远不够的。实际上，如果能对积极和消极的粗分类再做细致一些的分析，将积极情感细分为惊讶、喜爱、高兴，将消极情感细分为哀伤、厌恶、愤怒、恐惧，那将对社交网络文本的情感挖掘产生十分积极的意义。目前，文本情感的细粒度分类的效果仍不理想，由于以汉语为代表的亚洲语言与使用字母单词的印欧语系天然差异，许多在英语中表现良好的算法在汉语中并不令人满意，这也对中文文本情感分类提出了挑战。

随着社交网络数据量不断扩大和丰富，跨领域社交网络情感分析的具有重要的意义。信息技术的发展使人们获取知识的途径越来算法越多，速度越来越快，但是信息处理能力却没有得到相应的提高。作为数据挖掘、知识发现的重要手段之一，机器学习一直受到广泛的关注，但是由于其严格的假设条件，给实际应用带来了很多困难，如常会导致训练数据过期、训练模型过期、标记训练样本成本过高等问题，大大降低了数据分析的效率，使得机器学习在实际的应用当中受到了限制。从实际应用的角度出发，我们希望利用已有的信息，在有限的条件下尽可能地提高学习效率。对大部分实际应用来说，就是如何解决利用其它领域的数据帮助目标任务中的机器学习任务，进行跨领域学习的问题。近年来，受到人类学习过程的启发，迁移学习的模式被引入到机器学习当中。由于放松了学习过程中对训练数据和测试数据同分布假设的要求，能够利用相领域的知识来帮助目标领域中的学习任务，迁移学习能够有效解决跨领域学习的问题。目前，迁移学习受到很多学者的关注，成为机器学习研究领域中的热点。加强迁移学习理论和方法的研究，对进一步改善机器学习的效率、提高己有算法的性能和增强算法的实用性具有重要的意义。

池化法在图像质量评价领域，引入了百分位数合并算法来检测图像中的低质量区域。最大池在神经网络中表现良好。有学者在Max-Pooling的基础上设计了K-Max Pooling。另一种流行的方法是平均池。与他们的工作不同，我们在神经网络中引入了百分位数池化法，使得百分位数不受最大值的限制。

GCN网络有学者提出了谱图卷积的局部一阶近似，加快了训练速度，在半监督分类中效果良好。之后，GCN引起了研究者的广泛关注，并被应用于Web推荐***、基于骨架的动作识别、流量预测等领域。在NLP任务中，GCN在事件检测、语义角色标注等方面也有很好的性能。据我们所知，这是首次将GCN应用于中文情感检测。

发明内容

大多数社交网络文本都有各种各样的情感倾向，而有些社交网络文本没有表达任何情感。在实际应用中，如心理学研究或用户情感肖像，对社交网络进行情感分析是必要的。本发明建立了一种基于语法的细粒度情感检测图形卷积网络(GCN)模型，该模型采用BI-LSTM网络对给定社交网络文本进行初步特征提取，然后将句子的初步特征和邻接矩阵输入到一个单层GCN中，以利用句子的句法结构，最后得到池化层或全连接层的概率分布。

本发明所采取的技术方案是：基于图卷积网络的社交网络文本情感细粒度分类方法，包括以下步骤：

步骤1：对给定的社交网络文本进行预处理，清除文本中不必要内容，对语句进行划分转化；

步骤2：将BI-LSTM神经网络算法应用于进行预处理之后的社交网络文本词序列后，可以得到前向和后向矢量序列，将这两个向量连接起来得到单词序列的基本表示；

所述BI-LSTM神经网络算法的输出向量和语法依赖树将作为GCN网络的输入；

步骤3：建立GCN神经网络，在边集中增加自环和对边，根据步骤2生成的依赖树，为每个社交网络文本创建稀疏邻接矩阵；

步骤4：用基于百分位数的池化方法表示元素升序排序集合后的最低p％的值，将向量Z的第p个百分位数表示为一个函数f_p(z)，其中p值的范围为0-100；

步骤5：使用正交化约束来控制梯度的消失和***问题，在损失函数中添加一个正则化项，其中λ是惩罚系数，W_i是权重矩阵，I是单位矩阵，在LSTM和GCN神经网络中使用正交矩阵来初始化权值矩阵，在随机初始化的矩阵M上使用奇异值分解(SVD)，得到M＝USV^T，其中U和V是正交矩阵，S是对角谱矩阵，U或V可用于初始化权重矩阵W，即W：＝U。

步骤1的具体步骤为：

步骤1.1：给定社交网络文本，清除文本中所有与情感表达无关的内容；

步骤1.2：将步骤1.1的结果，采用分词工具实现汉语句子切分，将句子切成词；

步骤1.3：使用LTP Python获得每个社交网络文本的依赖解析树；

步骤1.4：将预处理后的每个社交网络文本标记为X＝{x₁，x₂，......，x_n}，其中的x_i∈R³⁰⁰是嵌入向量，代表一个单词。

步骤3的具体步骤为：

步骤3.1：对于每个社交网络文本，建立一个图G＝(V，E)，其中V是由一个社交网络文本的所有单词组成的顶点集，E是包含两个单词之间所有依赖关系的边集；

步骤3.2：在边集中增加自环和对边，数字“0”、“1”、“2”、“3”分别用于标记无关系、自循环关系、从头到尾和从尾到头的依赖关系类型，根据步骤1生成的依赖树为每个社交网络文本创建稀疏邻接矩阵；

步骤3.3：GCN网络用h_v＝ReLU(Σ_u∈N(v)Wx_u+b)，表示；其中，ReLU为线性整流函数，W是矩阵权重，b是偏置量，N(v)表示v的邻接词集，x_u＝L＝{l₁，l₂，...，l_n}，代表输入特征；如果邻接矩阵中的元素不是“0”，则将它们视为相邻。

采用上述技术方案所产生的有益效果在于：本发明采用BI-LSTM网络与GCN网络相结合的方式，增强了基于语法的情感细粒度检测图形卷积网络(GCN)模型对汉语文本不同语法结构的理解，提高了模型的鲁棒性，提出的基于百分位数的池化方法提高了模型的准确度和精确度。

附图说明

图1为基于图卷积网络的社交网络文本情感细粒度分类方法总体流程图；

图2为本发明实施例中LSTM中词嵌入大小对模型F值的影响；

图3为本发明实施例中最大时间步长对模型F值的影响。

具体实施方式

为了使本发明的目的、技术方案及优势更加清晰，根据自然语言处理与中文计算会议NLPCC2013的任务，本发明实施例结合社交网络文本中的微博文本，重点研究了情感微博的7类分类:快乐、悲伤、喜欢、愤怒、厌恶、恐惧和惊讶，下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

基于图卷积网络的社交网络文本情感细粒度分类方法，总体流程如图1所示，包括如下步骤：

步骤1：对给定的微博文本进行预处理，清除文本中不必要内容，对语句进行划分转化；

步骤1.1：给定微博文本，清除文本中所有与情感表达无关的内容，如URL，“@”符号和无用的停止词等内容。

步骤1.2：将步骤1.1的结果，采用分词工具实现汉语句子切分，将句子切成词；本实施例采用Jieba Python软件包；

步骤1.3：使用LTP Python获得每个微博的依赖解析树；

步骤1.4：将预处理后的每条微博标记为X＝{x₁，x₂，......，x_n}，其中的x_i∈R³⁰⁰是嵌入向量，代表一个单词。

步骤2：将BI-LSTM神经网络算法应用于微博的词序列X＝{x₁，x₂，......，x_n}后，可以得到前向矢量序列L₁＝{l₁₁，l₁₂，...，l_1n}和后向矢量序列L₂＝{l₂₁，l₂₂，...，l_2n}，将这两个向量连接起来得到单词序列的基本表示L＝{l₁，l₂，...，l_n}，其中l_i＝[L_1i，L_2i]′和L是单词序列的基本表示；

步骤3：建立GCN神经网络，在边集中增加自环和对边，根据步骤2生成的依赖树，为每个微博创建稀疏邻接矩阵；

步骤3.1：对于每个微博，建立一个图G＝(V，E)，其中V是由一条微博的所有单词组成的顶点集，E是包含两个单词之间所有依赖关系的边集。

步骤3.2：为了提高了GCN网络的泛化能力，在边集中增加自环和对边，数字“0”、“1”、“2”、“3”分别用于标记无关系、自循环关系、从头到尾和从尾到头的依赖关系类型，根据步骤1生成的依赖树为每个微博创建稀疏邻接矩阵。

步骤3.3：步骤2中，Bi-LSTM的输出向量L与原始字序列之间存在一对一的对应关系，字序列的邻接矩阵可以直接迁移到Bi-LSTM的邻接矩阵中。L是BI-LSTM的输出向量，也是GCN的输入特征。GCN网络可以用h_v＝ReLU(Σ_u∈N(v)Wx_u+b)，表示。其中，ReLU为线性整流函数，W是矩阵权重，b是偏置量，N(v)表示v的邻接词集，x_u＝L＝{L₁，L₂，...，L_n}，代表输入特征。如果邻接矩阵中的元素不是“0”，则将它们视为相邻。

步骤4：用基于百分位数的池化方法表示元素升序排序集合后的最低p％的值，称为pth percentile pooling。池化层的目的是提高神经网络模型的不变性和效率，将向量Z的第p个百分位数表示为一个函数f_p(z)，其中p值的范围为0-100，实验表明，百分位数池化法可以将模型的F值提高2-3％；

步骤5：使用正交化约束来控制梯度的消失和***问题，在损失函数中添加一个正则化项，其中λ是惩罚系数，W_i是权重矩阵，I是单位矩阵。在LSTM和GCN中使用正交矩阵来初始化权值矩阵。在随机初始化的矩阵M上使用奇异值分解(SVD)，得到M＝USV^T。其中U和V是正交矩阵，S是对角谱矩阵，U或V可用于初始化权重矩阵W，即W：＝U。实验表明，正交化约束可将算法的性能提高2-3％。

在本实施例中，我们选择了用于自然语言处理与中文计算国际会议(NLP&CC)的情感分类任务的NLP&CC2013数据集4。为了提高神经网络的泛化能力，我们在新浪微博上随机搜索了15664个微博，三个人类评委给它们贴上标签，最终的标签将由投票决定。测试数据集由NLP&CC2013提供用于测试，其余数据全部用于训练。测试数据集的分布情况如表1所示。

表1测试数据集

由于测试数据集来源于中文微博中的NLP&CC情绪分析，为了便于比较，我们使用了与测试数据集相同的度量标准。评估指标包括精确度、召回率和F值的宏观平均值和微观平均值，定义如下:

其中#gold是为测试集手动注释的标签数，#system_proposed是测试集中***的已分类标记数，#system_correct是正确分类的微博数。i是愤怒、厌恶、恐惧、快乐、喜欢、悲伤和惊讶中的一种情绪类型。

基于语法的GCN模型中超参数设置的详细信息如表2所示。

表2超参数设置

LSTM中词嵌入大小和最大时间步长对模型F值的影响如图2、图3所示。实验结果表明，在不同的词嵌入量和LSTM最大时间步长下，模型的F值均大于80％。我们将嵌入大小固定为300，LSTM的最大时间步长固定为180，因为它们使我们的模型具有最好的性能。

对于不同模型间情感细粒度分类的比较实验中，我们选择了几种情感分类算法作为基线，包括传统的机器学习方法和最先进的神经网络结构。具体参照:

[1]Jiang F,Liu Y Q,Luan H B,et al.Microblog sentiment analysis withemoticon space model[J].Journal of Computer Science and Technology,2015,30(5):1120-1129.；

[2]He Y,Sun S,Niu F et al.ADeep Learning Model Enhanced with EmotionSemantics for Microblog Sentiment Analysis[J].Chinese Journal of Computers,2017,40(4):773-790.；

[3]Kim Y.Convolutional neural networks for sentence classification[J].arXiv preprint arXiv:1408.5882,2014.；

[4]Lee J Y,Dernoncourt F.Sequential Short-Text Classification withRecurrent and Convolutional Neural Networks[J].2016:515-520.；

模型相对于NLP&CC2013以及基线方法的结果列于表3，实验表明，基于语法的GCN模型在细粒度的情感分类上比基于语法的GCN模型高出10％以上。

表3 NLP&CC2013测试数据集上不同模型的比较

如表3所示，模型在NLP&CC2013测试数据集上具有最好的性能。与LSTM模型和CNN网络相比，附加LSTM的GCN网络能更有效地捕捉微博中的上下文情感信息，保留句子的句法信息。依存句法分析树是在大量语料的基础上，采用深度学习的方法训练出来的，它为语言结构提供了大量有意义的信息。基于语法的GCN网络可以利用复杂的依赖分析技术。

为了检验百分位数池化法的有效性，我们将不同的pth百分位数池化方法与其他广泛使用的池化方法进行了比较。

表4不同百分位百分位池化的比较

如表4所示，虽然广泛使用的最大池化工作得很好，但是模型中第50百分位池化的性能最好，这表明百分位池化很适合基于语法的GCN模型。

对于不同正交化约束的比较实验中，我们在Bi-LSTM和GCN权矩阵上应用正交化约束惩罚来学习长期相关性。随后的实验表明了该惩罚的系数参数对性能的影响。如表5所示。不同的惩罚系数在不同程度上促进了性能。

表5不同惩罚系数的比较

如表5所示，正交化有效地提高了模型的性能。我们的基于句法的GCN网络在中文微博情感分类上倾向于实现更高的分类。

对于情绪二元分类模型的比较实验中，我们的模型可以转化为正负情绪的极性分类。在这种情况下，微博上模棱两可的情感类型的惊讶被剔除，而情感类型的快乐属于积极，而愤怒、厌恶、悲伤和恐惧属于消极。为了解决二进制分类问题，我们将GCN的输出维数设为2，而模型的其他部分不变。不同模型的比较结果如表6所示。

表6极性分类结果的比较

如表6所示，基于语法的GCN模型在极性情感分类方面也表现良好，具有更高的准确度和精确度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；因而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于图卷积网络的社交网络文本情感细粒度分类方法，其特征在于：包括以下步骤：

步骤5：使用正交化约束来控制梯度的消失和***问题，在损失函数中添加一个正则化项，loss＝loss(y，f_w(x))+λ∑_i||W_i ^TW_i-I||²，其中λ是惩罚系数，W_i是权重矩阵，I是单位矩阵，在LSTM和GCN神经网络中使用正交矩阵来初始化权值矩阵，在随机初始化的矩阵M上使用奇异值分解(SVD)，得到M＝USV^T，其中U和V是正交矩阵，S是对角谱矩阵，U或V可用于初始化权重矩阵w，即W：＝U。

2.根据权利要求1所述的基于图卷积网络的社交网络文本情感细粒度分类方法，其特征在于：所述步骤1的具体步骤为：

步骤1.3：使用LTP Python获得每个社交网络文本的依赖解析树；

3.根据权利要求1所述的基于图卷积网络的社交网络文本情感细粒度分类方法，其特征在于：所述步骤3的具体步骤为：

步骤3.3：GCN网络用h_v＝ReLU(∑_u∈N(v)Wx_u+b)，表示；其中，ReLU为线性整流函数，W是矩阵权重，b是偏置量，N(v)表示v的邻接词集，x_u＝L＝{l₁，l₂，...，l_n}，代表输入特征；如果邻接矩阵中的元素不是“0”，则将它们视为相邻。