CN110781271A

CN110781271A - 一种基于层次注意力机制的半监督网络表示学习模型

Info

Publication number: CN110781271A
Application number: CN201910821415.8A
Authority: CN
Inventors: 姚宗强; 崇志强; 刘杰; 徐福华; 周作静; 马世乾; 杨晓静; 郭悦; 尚学军; 王伟臣; 邓君怡; 李国栋; 霍现旭; ***; 黄志刚; 吕金炳; 张文政; 张津沛; 苏立伟
Original assignee: Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd; Jinghai Power Supply Co of State Grid Tianjin Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd; Jinghai Power Supply Co of State Grid Tianjin Electric Power Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-02-11

Abstract

本发明涉及一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：包括如下步骤：步骤1)，词级语义编码；步骤2)，句级语义编码；步骤3)，节点文本表示；步骤4)，得到节点结构表示向量及节点的表示向量；步骤5)，半监督框架下引入节点标签。本发明基于层次注意力机制学习网络节点的文本表示，同时在半监督的框架下引入节点标签信息，最终得到节点高质量的表示向量。提升了在下游任务(节点分类、链接预测)上的性能。

Description

一种基于层次注意力机制的半监督网络表示学习模型

技术领域

本发明属于计算机应用技术领域，涉及一种半监督网络表示学习模型，具体涉及一种基于层次注意力机制的半监督网络表示学习模型。

背景技术

网络是一种组织现实世界中不同种类信息的有效方式。随着信息技术的发展，互联网中积累了大量具备网络结构的数据。对这些网络结构数据的分析对各行业的发展具有重要意义。分析网络结构数据的首要任务就是综合利用网络中的特征信息，将网络节点表示成一个低维、稠密的向量，又称为网络表示学***台进行社区发现，进而为用户提供更好的消息推送与好友推荐，提升用户使用体验。另外，网络结构数据往往具有大量外部信息，例如节点的文本信息与节点标签信息。文本信息的引入可以丰富节点语义，提高表示向量质量；节点标签信息可以提升表示向量的区分性。然而，由于网络结构是稀疏的，外部文本信息具有层次结构，大规模网络中节点标签是不完全的，因此如何有效地、综合地考虑网络数据的结构信息、文本信息与标签信息，得到高质量的节点表示向量是本发明专利研究的核心任务。

近年来，国内外已有很多工作针对网络表示学习任务开展了相关研究，并且取得了一定的研究成果。现有的相关研究主要可以分为基于关系矩阵的表示学习，基于网络结构的表示学习和结合外部信息的网络表示学习。

关系矩阵一般为网络的邻接矩阵或拉普拉斯矩阵，基于关系矩阵的表示往往需要对这些矩阵进行特征向量计算。可以将诸如局部线性表示(Locally Linear Embedding,LLE)、拉普拉斯特征表(Laplace Eigenmap,LE)、有向图表示(Directed Graph Embedding,DEG)等的网络表示学习方法视为降维算法，这些方法能够捕捉网络的线性结构信息。然而，特征向量计算的非线性性导致这类算法较高的复杂度，限制了其在大规模网络数据上的应用。

作为基于网络结构的表示学***衡深度优先与广度优先。针对大规模的网络，Tang等人提出的LINE引入一阶与二阶相似度，从而同时保留了局部与全局的网络结构信息。同时，LINE使用负采样方法来优化skip-gram。

真实世界中的网络节点往往会伴随着丰富的外部信息。Yang等人提出了文本相关的DeepWalk模型，在矩阵分解的框架下，将节点的文本特征引入网络表示学习。真实世界中的网络节点在与其他节点交互时，往往会展现出不同方面的特点。Tu等人基于这一点，利用网络节点的文本信息来对节点之间的关系进行解释，为网络节点根据不同的邻居学习上下文相关的表示向量。另外，Tu等人提出的MMDW同时学习矩阵分解形式的网络表示模型和最大间隔分类器，从而增大了表示向量的区分能力。

虽然上述方法考虑到了网络拓扑结构与节点外部信息，但在编码文本信息时，并未考虑文本的层次结构。本发明专利认为，层次地编码文本，即由词的表示得到句子的表示，再由句子的表示得到篇章的表示，可以提升文本表示的质量，之后用半监督的方法引入节点标签信息，最终能得到更好的节点表示向量。由此，如何层次地建模节点文本信息，并与网络结构信息、节点标签信息结合，是本专利主要解决的问题。

针对上述问题，本发明专利提出了一种基于层次注意力机制的半监督网络表示学习模型，综合考虑网络结构、节点文本与节点标签信息。

通过对公开专利文献的检索，并未发现与本专利申请相同的公开专利文献。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于层次注意力机制的半监督网络表示学习模型。

本发明解决其技术问题是通过以下技术方案实现的：

一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：包括如下步骤：

步骤1)，词级语义编码：输入以句号分句的节点文本，使用词向量查询的方法初始化每个词的初始语义表示，后利用双向GRU以序列的方式对句中的词进行高层的语义编码；

步骤2)，句级语义编码：根据词的高层语义表示，以词级注意力机制得到句子的初始语义表示，后利用另一组双向GRU学习文本中每个句子的高层语义表示；

步骤3)，节点文本表示：根据句子的高层语义表示，以句级注意力机制得到文本的表示向量，与节点文本中各词的词向量平均池化向量相加得到节点的文本表示；

步骤4)，得到节点结构表示向量及节点的表示向量：随机初始化节点结构表示向量，用对数似然损失函数优化得到结构表示向量，将节点的文本表示向量与结构表示向量拼接得到节点的表示向量；

步骤5)，半监督框架下引入节点标签：在半监督学习的框架下，将带标签节点的标签信息引入网络表示学习，将分类损失与步骤4中的对数似然损失联合优化得到最终的节点表示向量。

而且，所述的步骤1)中，输入以句号分句的节点文本，其中节点u的文本信息可表示为如下形式：

D_u＝(S_u1S_u2，，S_uq)

其中，S_ui为节点u文本的第i个句子，q为该文本所包含的句子总数；

S_ui可表示为：

其中

为句子S_ui的第j个词，以随机初始化的d维词向量表示，m为该句子所包含的词的个数。

而且，所述的步骤1)中，为了获取句中词的高层语义表示，使用双向GRU对词向量进行编码，t时刻GRU的状态h_t通过如下公式计算：

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

公式中，r_t、z_t分别代表重置门、更新门，用于控制信息的传递，σ为sigmoid激活函数，W、U和b为网络参数，⊙代表矩阵元素乘法，x_t为序列在t时刻的表示向量，为t时刻GRU的候选状态。

而且，所述的步骤1)中，利用双向GRU以序列的方式对句中的词进行高层的语义编码的具体步骤为：

步骤1.1)前向的GRU编码阶段：

利用GRU对句中的词向量序列按照原始顺序进行编码得到前向的隐藏特征，对于第i个句中的第j个词，

步骤1.2)反向的GRU编码阶段：

步骤1.3)双向编码特征结合阶段：

将步骤1.1)与步骤1.2)中得到的两个方向的隐藏特征向量进行拼接，得到每个词双向的高层语义表示：

而且，所述步骤2)中，以句子中词的高层表示向量作为输入，通过以下步骤得到句子的高层语义表示：

步骤2.1)利用注意力机制选择对句子语义更为重要的词，可通过下式生成u节点的第i个句子的词级注意力向量

其中，C_w为全局的词级上下文向量，的计算方法如下所示：

其中W_w和b_w是待学习的参数，tanh是非线性激活函数，

在得到注意力权重

的基础上，利用下式得到u节点的第i个句子的初始语义表示：

步骤2.2)使用双向GRU单元对句子进行编码，与步骤1.1)步骤1.2)步骤1.3)中所述步骤相同，对于节点u的第i个句子，其高层语义表示由如下公式得到：

而且，所述步骤3)包含如下三个步骤：

步骤3.1)以文本中句子的高层表示向量

作为输入，通过与步骤2)类似的步骤得到节点的文本表示向量

其中，C_s为全局的句级上下文向量；

步骤3.2)为防止因网络过深而导致的信息偏离，将节点u文本中所有词的词向量做平均，得到

步骤3.3)将两者相加得到节点的最终文本表示u_t：

而且，所述步骤4)基于步骤3)得到的节点文本表示u_t，得到节点的结构表示u_s，将节点的文本表示向量与结构表示向量拼接得到节点的表示向量u_r。

而且，学习节点表示，需考虑结构表示之间的关联、文本表示之间的关联、结构表示与文本表示的关联，因此，使用如下对数损失函数：

其中，v是与u相连的节点，w_u，v为两点之间边的权重，

为u节点与v节点相连时的结构表示，对于一条边上的两个节点，

和

条件概率p(v|u)表示为：

最终的节点结构表示由如下公式计算：

其中|E_u|是与u节点的边的数量，

u_r＝u_t+u_s。

而且，所述步骤5)将模型以半监督学习的方式进行优化，同时利用了带标签节点与无标签节点，对于无标签节点，其损失函数为：

L_unlabel(u^u)＝α·L_ss(u^u)+β·L_tt(u^u)+θ·L_st(u^u)+γ·L_ss(u^u)

其中，u^u∈L_u，L_u为无标签节点的集合，α，β，θ，γ控制每部分的权重，

对于带标签节点，首先使用全连接层将节点表示映射到标签空间，得到节点标签的预测分布

并使用如下标签匹配损失实现最小化标签真实分布l_u与预测分布的差别：

其中u¹∈L₁，L_l为带标签节点的集合，Ω为正则化项，带标签节点的损失函数可表示为：

L_label(u^l)＝α·L_ss(u^l)+β·L_tt(u^l)+θ·L_st(u^l)+γ·L_ss(u^l)-λL_match(u^l)

其中，α，β，θ，γ，λ控制每部分的权重，

模型整体的损失函数为：

优化这个损失函数最终可得到综合了网络结构信息、节点文本信息与标签信息的节点表示。

本发明的优点和有益效果为：

本发明基于层次注意力机制学习网络节点的文本表示，同时在半监督的框架下引入节点标签信息，最终得到节点高质量的表示向量。提升了在下游任务(节点分类、链接预测)上的性能。

附图说明

图1为本发明的整体***结构示意图；

图2为本发明的处理流程图。

具体实施方式

下面通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

本发明主要采用自然语言处理与网络表示学***台配备不低于8G的内存，CPU核心数不低于4个，并安装Python3.6版本、tensorflow框架等必备编程环境。

如图2所示，本发明提供的基于层次注意力机制的半监督网络表示学习方法包括顺序执行的下列步骤：

步骤1)输入以句号分句的文本，使用词向量查询的方法初始化每个词的初始语义表示，后利用双向GRU以序列的方式对句中的词进行高层的语义编码；

步骤2)根据词的高层语义表示，以词级注意力机制得到句子的初始语义表示，后利用另一组双向GRU学习文本中每个句子的高层语义表示；

步骤3)根据句子的高层语义表示，以句级注意力机制得到文本的表示向量，与节点文本中各词的词向量平均池化向量相加得到节点的文本表示；

步骤4)随机初始化节点结构表示向量，用对数似然损失函数优化得到结构表示向量，将节点的文本表示向量与结构表示向量拼接得到节点的表示向量；

步骤5)在半监督学习的框架下，将带标签节点的标签信息引入网络表示学习，将分类损失与步骤4中的对数似然损失联合优化得到最终的节点表示向量。

在步骤1)中，输入以句号分句的节点文本，其中节点u的文本信息可表示为如下形式：

D_u＝(S_u1，S_u2，…，S_uq)

其中，S_ui为节点u文本的第i个句子，q为该文本所包含的句子总数。

S_ui可表示为：

其中为句子S_ui的第j个词，以随机初始化的d维词向量表示，m为该句子所包含的词的个数。

为了获取句中词的高层语义表示，使用双向GRU对词向量进行编码，t时刻GRU的状态h_t通过如下公式计算：

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

公式中，r_t、z_t分别代表重置门、更新门，用于控制信息的传递。σ为sigmoid激活函数，W、U和b为网络参数，⊙代表矩阵元素乘法，x_t为序列在t时刻的表示向量，为t时刻GRU的候选状态。

本发明专利使用双向GRU对词的编码具体包含如下步骤：

步骤1.1)前向的GRU编码阶段：

步骤1.2)反向的GRU编码阶段：

步骤1.3)双向编码特征结合阶段：

在步骤2)中，以句子中词的高层表示向量作为输入，通过以下步骤得到句子的高层语义表示：

其中，C_w为全局的词级上下文向量，

的计算方法如下所示：

其中W_w和b_w是待学习的参数，tanh是非线性激活函数。

在得到注意力权重

步骤2.2)使用双向GRU单元对句子进行编码，与步骤1.1)步骤1.2)步骤1.3)中所述类似。对于节点u的第i个句子，其高层语义表示由如下公式得到：

步骤3)包含如下三个小步骤：

步骤3.1)以文本中句子的高层表示向量

其中，C_s为全局的句级上下文向量。

步骤3.2)为防止因网络过深而导致的信息偏离(deviation)，将节点u文本中所有词的词向量做平均，得到

步骤3.3)将两者相加得到节点的最终文本表示u_t：

步骤4)基于步骤3)得到的节点文本表示u_t，得到节点的结构表示u_s，将节点的文本表示向量与结构表示向量拼接得到节点的表示向量ur。为了综合地学习节点表示，有必要考虑结构表示之间的关联、文本表示之间的关联、结构表示与文本表示的关联。因此，使用如下对数损失函数：

其中，v是与u相连的节点，w_u，v为两点之间边的权重，

为u节点与v节点相连时的结构表示。对于一条边上的两个节点，和

条件概率p(v|u)表示为：

最终的节点结构表示由如下公式计算：

其中|E_u|是与u节点的边的数量。

u_r＝u_t+u_s

步骤5)将模型以半监督学习的方式进行优化，同时利用了带标签节点与无标签节点。对于无标签节点，其损失函数为：

L_unlabel(u^u)＝α·L_ss(u^u)+β·L_tt(u^u)+θ·L_st(u^u)+γ·L_ss(u^u)

其中，u^u∈L_u，L_u为无标签节点的集合。α，β，θ，γ控制每部分的权重。

其中u¹∈L₁，L_l为带标签节点的集合，Ω为正则化项。带标签节点的损失函数可表示为：

其中，α，β，θ，γ，λ控制每部分的权重。

模型整体的损失函数为：

尽管为说明目的公开了本发明的实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换、变化和修改都是可能的，因此，本发明的范围不局限于实施例和附图所公开的内容。

Claims

1.一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：所述的步骤1)中，输入以句号分句的节点文本，其中节点u的文本信息可表示为如下形式：

D_u＝(S_u1，S_u2，…，S_uq)

S_ui可表示为：

其中

3.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：所述的步骤1)中，为了获取句中词的高层语义表示，使用双向GRU对词向量进行编码，t时刻GRU的状态h_t通过如下公式计算：

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

公式中，r_t、z_t分别代表重置门、更新门，用于控制信息的传递，σ为sigmoid激活函数，W、U和b为网络参数，⊙代表矩阵元素乘法，x_t为序列在t时刻的表示向量，

为t时刻GRU的候选状态。

4.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：所述的步骤1)中，利用双向GRU以序列的方式对句中的词进行高层的语义编码的具体步骤为：

步骤1.1)前向的GRU编码阶段：

步骤1.2)反向的GRU编码阶段：

步骤1.3)双向编码特征结合阶段：

5.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：所述步骤2)中，以句子中词的高层表示向量作为输入，通过以下步骤得到句子的高层语义表示：

其中，C_w为全局的词级上下文向量，

的计算方法如下所示：

其中W_w和b_w是待学习的参数，tanh是非线性激活函数，

在得到注意力权重

6.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：所述步骤3)包含如下三个步骤：

步骤3.1)以文本中句子的高层表示向量作为输入，通过与步骤2)类似的步骤得到节点的文本表示向量

其中，C_s为全局的句级上下文向量；

步骤3.3)将两者相加得到节点的最终文本表示u_t：

7.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：所述步骤4)基于步骤3)得到的节点文本表示u_t，得到节点的结构表示u_s，将节点的文本表示向量与结构表示向量拼接得到节点的表示向量u_r。

8.根据权利要求7所述的一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：学习节点表示，需考虑结构表示之间的关联、文本表示之间的关联、结构表示与文本表示的关联，因此，使用如下对数损失函数：

其中，v是与u相连的节点，w_u，v为两点之间边的权重，为u节点与v节点相连时的结构表示，对于一条边上的两个节点，

和

条件概率p(v|u)表示为：

最终的节点结构表示由如下公式计算：

其中|E_u|是与u节点的边的数量，

u_r＝u_t+u_s。

9.根据权利要求1所述的一种基于层次注意力机制的半监督网络表示学习模型，其特征在于：所述步骤5)将模型以半监督学习的方式进行优化，同时利用了带标签节点与无标签节点，对于无标签节点，其损失函数为：

L_unlabel(u^u)＝α·L_ss(u^u)+β·L_tt(u^u)+θ·L_st(u^u)+γ·L_ss(u^u)

其中，u^u∈L_u，L_u为无标签节点的集合，α,β,θ,γ控制每部分的权重，

其中u^l∈L₁，L_l为带标签节点的集合，Ω为正则化项，带标签节点的损失函数可表示为：

L_label(u^l)＝α·L_ss(u^l)+β·L_tt(u^l)+θ·L_st(u^l)+γ·L_ss(u^l)-λ_Lmatch(u^l)

其中，α,β,θ,γ,λ控制每部分的权重，

模型整体的损失函数为：