CN108228728B

CN108228728B - 一种参数化的论文网络节点表示学习方法

Info

Publication number: CN108228728B
Application number: CN201711308050.6A
Authority: CN
Inventors: 蒲菊华; 陈虞君; 刘伟; 班崟峰; 杜佳鸿; 熊璋
Original assignee: Shenzhen Beihang Emerging Industrial Technology Research Institute; Beihang University
Current assignee: Shenzhen Beihang Emerging Industrial Technology Research Institute; Beihang University
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2020-07-17
Anticipated expiration: 2037-12-11
Also published as: CN108228728A

Abstract

本发明公开了一种参数化的论文网络节点表示学习方法，该方法首先构建一个空的论文节点队列，然后采用随机游走方式采样任意一个论文节点的邻居节点、及邻居的邻居节点；并将选取的论文节点作为论文节点队列的第一个元素，随后依据跳转概率得到论文节点队列的其他元素；遍历完成所有的论文节点，则有论文节点队列集合；然后采用正负采样方法生成多层感知机的神经网络训练数据；最后采用神经网络论文概率模型进行处理，得到论文节点语义信息到论文节点向量表示的非线性变换，进而得到论文节点的向量表示。

Description

一种参数化的论文网络节点表示学习方法

技术领域

本发明涉及论文网络的表示学习方法，更特别地说，是指一种参数化的论文网络节点表示学习方法。

背景技术

社交网络属于互联网概念名词。例如Blog、WIKI、Tag、SNS、RSS等的社交网络服务平台。互联网导致一种全新的人类社会组织和生存模式悄然走进本发明，构建了一个超越地球空间之上的、巨大的群体—网络群体，21世纪的人类社会正在逐渐浮现出崭新的形态与特质，网络全球化时代的个人正在聚合为新的社会群体。论文网络是指论文与论文之间的关系网络化，在网上表现为论文之间的相互引用及共享作者等。

目前论文网络的表示学习大都采用的是非参数化模型，如“DeepWalk:OnlineLearning of Social Representations”译文为：深度行走：社交表示的在线学习，BryanPerozzi等，26Mar 2014；该文献中使用word2vec非参数化方法对论文网络的表示进行学习。

网络结构是指网络在物理上的连通性。网络的拓扑结构有很多种，如二维结构有环形、星形、树形、近邻连接网以及搏动流水阵列等，参考《互连网络结构分析》，王鼎兴，陈国良编著，1990年10月，第36-38页内容。随着网络的发展，也出现了如网状结构、蜂窝状结构等。

目前的论文网络的表示学习方法必须要遍历完成所有论文网络中的论文，才能学习论文的表示。当论文网络有新增加论文时将不能进行新增论文的表示学习，无法进一步的完成新增论文的分类、分析工作。

发明内容

为了解决新增论文无法进行表示学习的问题，本发明提出了一种参数化的论文网络节点表示学习方法。在本发明中，首先借助随机游走统计模型对星形论文网络结构进行采样，得到论文节点向量信息；采样完成的论文节点队列由一连串的论文节点所组成，每一次对下一个论文节点的选择都是随机的；。在进行论文网络采样步骤之后，本发明构建了一个基于孪生网络框架的深度神经网络，其中孪生网络的两个完全相同的子网络是由多层感知机(MLP)组成的，本发明将学习到的多层感知机作为非线性映射函数，通过构建从网络节点富文本信息到网络节点表示向量的非线性映射函数得到网络节点表示向量。

本发明提出了一种参数化的论文网络节点表示学习方法，其特征在于包括有下列步骤：

步骤一，基于随机游走方法采样获取任意一个论文节点的邻居—论文节点集、及邻居的邻居—论文节点集；

步骤101：构建一个论文节点空队列，记为V，所述V用来存储论文节点序列；论文节点空队列V的最大队列元素位数为mv，mv的取值为10～20；然后执行步骤102；

步骤102：选取任意一个论文节点paper_a，然后将所述paper_a放入论文节点队列V中第1位；然后执行步骤103；

步骤103：获取属于任意一个论文节点paper_a的全部邻居论文节点集，记为

邻居论文节点是指与任意一个论文节点paper_a之间存在连边的论文节点集合；然后执行步骤104；

步骤104：根据所述邻居论文节点集

中邻居节点总数B确定跳转到第一跳转概率

c表示跳数；然后执行步骤105；

步骤105：采用别名采样算法(alias sampling)，根据当前的

在所述

中获取下一跳的邻居论文节点

同时将

放入论文节点队列V的第2位；然后执行步骤106；

步骤106：获取属于邻居论文节点

的全部邻居论文节点集，即邻居的邻居—论文节点集

然后执行步骤107；

步骤107：计算邻居论文节点

与任意一个论文节点paper_a之间的最短跳数

然后执行步骤108；

其中

代表的是从任意一个邻居论文节点到前一个论文节点的最少跳数距离；

步骤108：根据所述的

来确定

跳转到第二跳转概率

然后执行步骤109；

所述第二跳转概率

c表示跳数；

步骤109：经

确定之后，根据

和别名采样，选择

作为下一跳论文节点，同时将

放入论文节点队列V中的第3位；然后执行步骤110；

步骤110：循环执行步骤106和步骤109，直至论文节点队列V中的位数为mv时，本次随机游走停止；然后执行步骤111；

步骤111：对于整个论文网络中的每一个论文节点重复执行步骤101到步骤110，来完成论文节点的邻居节点采样，则有论文节点队列集合记为VF＝{V₁,V₂,...,V_f,...,V_F}；然后执行步骤201；

V₁表示第一个论文节点队列；

V₂表示第二个论文节点队列；

V_f表示任意一个论文节点队列，f表示论文节点队列的标识号；

V_F表示最后一个论文节点队列，F表示论文节点队列集合的总数，f∈F；

步骤二，采用负采样方法生成多层感知机的神经网络训练数据；

步骤201：建立正样本队列Q_p和负样本队列Q_n，分别存放训练神经网络所需要的正采样数据和负采样数据，然后执行步骤202；

步骤202：设立邻居窗口大小超参数WD，若WD在论文节点队列V_f中，则属于论文节点队列V_f中的各个论文记为

然后执行步骤203；

表示属于任意一个论文节点队列V_f的第一个论文节点；

表示属于任意一个论文节点队列V_f的第二个论文节点；

表示属于任意一个论文节点队列V_f的任意一个论文节点，g表示邻居论文节点的标识号；

表示属于任意一个论文节点队列V_f的最后一个论文节点，G表示论文节点队列V_f的长度，g∈G；

对于任意一个论文队列中的节点在本发明中，认为在队列中与节点距离小于WD的全部节点为正样本节点；每次，对于任意一个论文节点本发明先获取属于的2×WD个相邻论文节点集，记为

表示在相邻论文节点

中最小标识号的节点；

表示在相邻论文节点

中最大标识号的节点；

表示在相邻论文节点

中除

和

以外的队列—相邻论文节点，下角标l表示不是最大也不是最小论文节点的标识号；

步骤203：对于任意一个任意队列—论文节点

按照其邻居标识号的顺序，从小到大进行采样，采样过程为对所述

中的各个节点与任意队列—论文节点

构成一个三元组，然后执行步骤204；

对于所述

与任意队列—论文节点

构成一个三元组，即(

δ)，其中δ＝+1代表该三元组为正样本，反之δ＝-1则表示该三元组为负样本，并将(

δ)***正样本队列Q_p中；

对于所述

与任意队列—论文节点

构成一个三元组，即(

δ)***正样本队列Q_p中；

对于所述

与任意队列—论文节点

构成一个三元组，即(

δ)***正样本队列Q_p中；

步骤204：循环执行步骤202和步骤203，直至论文节点队列集合VF＝{V₁,V₂,...,V_f,...,V_F}中的所有论文节点队列中的所有论文节点都完成邻居论文节点的采样工作，得到正样本队列Q_p，然后执行步骤207；

步骤205：对网络中所有论文节点进行采样，每次从网络中选取任意两个论文节点，即第一任意论文节点paper_a,第二任意论文节点paper_o；如果两个论文节点之间存在连边，或者两个随机选取的论文节点相同，则继续本步骤，否则将任意两个论文节点paper_a、paper_o组成三元组(paper_a,paper_o,-1)存入负样本队列Q_n中，然后执行步骤206；

步骤206：循环执行步骤205，设立一个正负样本比例参数μ，假设正样本队列Q_p中三元组个数为np，那么当Q_n中的三元组数量等于μ×np时停止，然后执行步骤207；

步骤207：将步骤204中得到的正样本队列Q_p与步骤206中得到的负样本队列Q_n合并在一起，得到一个新的样本队列Q_新＝{Q₁....,Q_(1+μ)×np}，，后执行步骤208；

Q₁表示新的样本队列Q_新中的最小标识号的三元组；

Q_(1+μ)×np表示新的样本队列Q_新中的最大标识号的三元组；下标(1+μ)×np代表样本队列Q_新中包含有(1+μ)×np个三元组；

步骤208：将新的样本队列Q_新＝{Q₁....,Q_(1+μ)×np}中的所有元素打乱顺序，得到乱序的样本队列Q_排序＝{Q₁....,Q_(1+μ)×np}，然后执行步骤301；

步骤三，在基于多层感知机的神经网络论文概率模型中的处理；

步骤301：针对步骤208得到的所述Q_排序＝{Q₁....,Q_(1+μ)×np}，每次选择一个三元组(paper_a,paper_o,δ)，作为一对论文节点放入神经网络论文概率模型中进行学习，执行步骤302；

步骤302：对于每一个三元组中的两个论文节点paper_a与paper_o，采用模型

进行映射，得到两个相对应变换后的向量

执行步骤303；

为属于paper_a的多层感知机函数；

为属于paper_o的多层感知机函数；

步骤303：计算两个论文节点的欧氏距离，执行步骤304；

欧氏距离为：

E_pos表示欧氏最短距离；E_neg表示欧氏最长距离；c表示跳数；

步骤304：利用δ将正负样本合并放入关于论文分布式表示的欧氏距离的损失函数中，并进行平衡正负样本的损失函数计算，得到整体的损失函数L，执行步骤305；

步骤305：采用随机梯度下降算法确定出非线性变换函数f_θ，完成任意两个论文节点paper_a与paper_o的表示学习。

网络节点表示是用一个向量将网络中的各个节点进行描述。为了处理社交网络中的庞杂的信息和邻居节点关系，本发明提出了一种参数化的网络节点表示学习方法。这种网络节点表示学习方法能够学习到一个非线性的映射函数，使得可以简单的从网络节点的内容信息得到网络节点的向量表示。对于一个节点的向量表示，会先使用随机游走获取其周边节点，再依据孪生网络构建节点与其邻居节点之间的关系，进而学习确定非线性映射函数。为了验证本发明的效果，本发明采用Cora数据集，对论文网络的全部节点进行节点分类的工作，在该仿真实验中，通过本发明方法得到的网络节点表示向量在用相同SVM分类器的情况下，分类结果要显著比其他方法好，可以验证本发明在对论文网络进行网络节点表示方面是有效的。

附图说明

图1是本发明参数化的论文网络节点表示学习的流程图。

图2是在Cora数据集中Micro-F1指标的评价结果。

图3是在Cora数据集中Macro-F1指标的评价结果。

图4是在Wiki数据集中Micro-F1指标的评价结果。

图5是在Wiki数据集中Macro-F1指标的评价结果。

具体实施方式

下面将结合附图和实施例对本发明做进一步的详细说明。

在本发明中，论文记为paper，多篇论文paper构成一个论文集合，记为AP，且AP＝{paper₁,paper₂,…,paper_a,…,paper_o,…,paper_A}；所述论文集合AP中的任意一篇论文在星形论文网络结构中称为一个论文节点；

paper₁表示第一个论文节点；

paper₂表示第二个论文节点；

paper_a表示第a个论文节点，a表示论文节点的标识号；

paper_A表示最后一个论文节点，A表示论文总数，a∈A。

为了方便说明，paper_a也称为任意一个论文节点，paper_o是除paper_a之外的另一个任意论文节点，下文中将paper_a称为第一任意论文节点，paper_o称为第二任意论文节点。

将属于任意一个论文节点paper_a的全部邻居论文节点记为

且

也简称为邻居—论文节点集；

表示属于任意一个论文节点paper_a的第一个邻居节点；

表示属于任意一个论文节点paper_a的第二个邻居节点；

表示属于任意一个论文节点paper_a的任意一个邻居节点，b表示邻居节点的标识号；

表示属于任意一个论文节点paper_a的最后一个邻居节点，B表示属于paper_a的邻居节点总数，B∈A。

将属于任意一个邻居节点

的全部邻居论文节点记为

且

也简称为邻居的邻居—论文节点集。

表示属于任意一个邻居论文节点

的第一个邻居节点；

表示属于任意一个邻居论文节点

的第二个邻居节点；

表示属于任意一个邻居论文节点

的任意一个邻居节点，e表示属于邻居论文节点

的邻居节点的标识号；

表示属于任意一个邻居论文节点

的最后一个邻居节点，E表示属于

的邻居节点总数(简称为邻居的邻居节点总数)，E∈A。

在本发明中，采用的星形论文网络结构为《互连网络结构分析》第37页的图1.19(c)的结构。王鼎兴，陈国良编著；1990年10月第一版。

在本发明中，论文节点语义信息指的是将论文的题目、摘要、正文包含的单词通过词化处理进行向量表示。所述的词化处理为根据任意一论文内容中的论文节点语义信息出现与否进行0或1二值化的编码，从而得到所述论文内容对应的0或1表征的向量。“0”表示未出现，“1”表示出现。采用词化处理对属于星形论文网络结构中所有的论文节点进行处理，得到单词数与论文节点数关联的二维矩阵，简称为论文二值矩阵。

采用论文节点语义信息构建多层感知机的神经网络论文概率模型

在本发明中，论文概率模型的构建包括有：(A)设置神经网络论文概率模型表达式

(B)从AP＝{paper₁,paper₂,…,paper_a,…,paper_o,…,paper_A}中选取任意两个论文节点paper_a与paper_o，并将paper_a与paper_o在

中进行映射，分别得到属于paper_a的多层感知机函数

属于paper_o的多层感知机函数

(C)依据

与

计算paper_a与paper_o之间的欧氏距离，并进行平衡正负样本的损失函数处理；(D)采用随机梯度下降算法对属于f_θ的权重参数WEIGHT和偏置参数BIAS进行处理，得到学习目标的非线性变换函数f_θ，遍历所有的三元组，得到对论文节点语义信息的基于多层感知机的神经网络训练。

在本发明中，构建得到的基于多层感知机的神经网络论文概率模型表达式记为其中，f_θ为非线性映射函数，为所述paper_a的论文节点语义信息。通过对非线性映射函数f_θ进行学习确定出非线性映射中的参数θ。基于非线性映射函数f_θ可以得到对于任意一篇论文paper_a的论文概率模型表达式

在本发明中，对于paper_a均有其对应的富文本信息

然后采用多层感知机神经网络得到所述

的非线性变换。假设多层感知机总共有H层，基于多层感知机的神经网络有各层的权重参数WEIGHT和偏置参数BIAS。

在本发明中，权重参数WEIGHT＝{weight₁,weight₂,...,weight_h,...,weight_H}。

在本发明中，偏置参数BIAS＝{bias₁,bias₂,...,bias_h,...,bias_H}。

weight₁表示神经网络中第一层网络的权重参数；

weight₂表示神经网络中第二层网络的权重参数；

weight_h表示神经网络中任意一层网络的权重参数，h表示感知机的层数标识号；

weight_H表示神经网络中最后一层网络的权重参数，H表示感知机的总层数；

bias₁表示神经网络中第一层网络的偏置参数；

bias₂表示神经网络中第二层网络的偏置参数；

bias_h表示神经网络中任意一层网络的偏置参数；

bias_H表示神经网络中最后一层网络的偏置参数。

对于多层感知机第一层输出记为

其中

代表多层感知机中第一层的输出，f₁表示第一层神经网络的激活函数。

同理，多层感知机第二层输出记为

其中

代表多层感知机中第二层的输出，f₂表示第二层神经网络的激活函数。

对于多层感知机任意一层输出记为

为

f_h表示任意一层神经网络的激活函数。

对多层感知机最后一层输出记为

在本发明中，对于多层感知机的中任意一层的激活函数f_h，一般都选择非线性函数，例如sigmoid或者tanh函数等。对于多层感知机的最后一层的输出

为多重非线性函数针对输入

的变换，因此可以简单刻画为

其中θ表示所有参数化函数的总和。将所述

作为基于多层感知机的神经网络论文概率模型最终输出，则有

在本发明中，为了使得表达空间中相似的点之间的欧氏距离尽可能的短，而不相似的点之间的欧氏距离尽可能的长。其基本形式为：

E_pos表示欧氏最短距离；E_neg表示欧氏最长距离；c表示跳数。

在本发明中，由于三元组(paper_a,paper_o,δ)中的δ代表了该三元组是正样本还是负样本的标志，其中正样本可认为是需要在空间中相似的点，而负样本可以认为是需要在空间中距离尽可能远的点。因此，对于本应用而言，本发明可以利用δ将正负样本合并放入关于论文分布式表示的欧氏距离的损失函数中：

m表示Q_排序中的任意一个三元组的标识号，

表示三元组m中的第一任意论文节点，

表示三元组m中的第二任意论文节点，δ^(m)表示三元组m中正负样本的标志。L代表的是整体的损失函数，该损失函数应该是乱序样本序列Q_排序中所有元素损失函数之和。

在本发明中，由于正负样本的比例不同，而且正负样本之间的相似性不一样。比如正样本之间可能因为存在连边，会更相似，而负样本则差异较大，这样正负样本产生的损失函数将不相同，因此对于本应用，本发明需要一个调和参数γ来平衡正负样本的损失函数，因此损失函数将加入γ，成为：

在本发明中，训练神经网络的目的在于能够将损失函数的值降低到最少，为了对神经网络进行训练，确定神经网络权重和神经网络偏置的值，本发明采用随机梯度下降算法进行网络参数的学习。

在本发明中，对模型的训练为通过随机梯度下降算法确定非线性变换函数f_θ，由于非线性变换函数f_θ主要包含权重参数WEIGHT和偏置参数BIAS。对于权重参数WEIGHT和偏置参数BIAS的每次梯度下降的更新值为L相对于权重参数WEIGHT和偏置参数BIAS的偏导，因此，在每次迭代时，根据参数更新值对权重参数WEIGHT和偏置参数BIAS以学习率ε进行更新：

WEIGHT_后＝WEIGHT_前+ε·ΔWEIGHT

BIAS_后＝BIAS_前+ε·ΔBIAS

WEIGHT_前为感知机中上一层的权重参数，WEIGHT_后为感知机中当前层的权重参数，ΔWEIGHT为每次梯度下降以L相对于权重参数WEIGHT的偏导。

BLAS_前为感知机中上一层的偏置参数，BLAS_后为感知机中当前层的偏置参数，ΔBLAS为每次梯度下降以L相对于偏置参数BLAS的偏导。

在使用随机梯度下降的时候，由于训练迭代次数过多，会出现过拟合的现象，因此，本发明采用了early-stop(译文为提前终止)方法，在训练到损失函数L不继续变小时即停止训练，来防止训练时发生的过拟合现象。“提前终止”为《深度学习》第7.8节151页的内容，作者为伊恩·古德费洛，约书亚·本吉奥等，译者为赵申剑，黎彧君；2017年8月1日第一版。

在本发明中，保存感知机中各个层的权重参数WEIGHT和偏置参数BIAS，得到学习目标的非线性变换函数f_θ，从而完成基于多层感知机的神经网络训练，最终得到根据学习的目标f_θ对所述paper_a生成其表示向量，即针对论文节点语义信息构建多层感知机的神经网络论文概率模型

本发明提出的一种参数化的论文网络节点表示学习方法，具体有如下步骤：

在本发明中，由论文集合AP＝{paper₁,paper₂,…,paper_a,…,paper_o,…,paper_A} 构成的星形论文网络结构中，对每个论文节点的邻居论文节点采样是以加入前后跳的跳转概率的随机游走进行的。对于任意一个论文节点paper_a采用随机游走方法采样获取属于 paper_a的邻居—论文节点集

在本发明中，邻居论文节点是指与任意一个论文节点paper_a之间存在连边的论文节点集合；然后执行步骤104；

步骤104：根据所述邻居论文节点集

中邻居节点总数B确定跳转到每一个邻居论文节点的概率

(简称为第一跳转概率)，

c表示跳数；然后执行步骤105；

步骤105：采用别名采样算法(alias sampling)，根据当前的跳转概率

在所述

中获取下一跳的邻居论文节点

同时将

放入论文节点队列V的第2位；然后执行步骤106；

步骤106：获取属于邻居论文节点

的全部邻居论文节点集，即邻居的邻居—论文节点集

然后执行步骤107；

步骤107：计算邻居论文节点

与任意一个论文节点paper_a之间的最短跳数

然后执行步骤108；

在本发明中，其中

代表的是从任意一个邻居论文节点到前一个论文节点的最少跳数距离，例如，如果邻居论文节点

到论文节点paper_a最少需要1跳，则

如果邻居论文节点

就是论文节点paper_a，则

以此类推。

步骤108：根据所述的

来确定

跳转到每一个邻居论文节点的概率

(简称为第二跳转概率)；然后执行步骤109；

所述第二跳转概率

c表示跳数。

在本发明中，最短跳数是指两个论文节点之间所需的最少跳。

在本发明中，p为随机游走方法中用于调节不在所述论文节点队列V中的论文节点的第二跳转概率

大小的参数(简称跳出参数)，q为随机游走方法中用于调节在所述论文节点队列V中的论文节点的第二跳转概率

大小的参数(简称跳入参数)，p,q控制跳转的概率，如果希望随机游走更多的在局部跳转，那么p需要设置大一些；反之，q需要设置大一些。

步骤109：经

确定之后，根据

和别名采样，选择

作为下一跳论文节点，同时将

放入论文节点队列V中的第3位；然后执行步骤110；

步骤111：在本发明中，对于整个论文网络中的每一个论文节点重复执行步骤101到步骤110，来完成论文节点的邻居节点采样，则有论文节点队列集合记为VF＝{V₁,V₂,...,V_f,...,V_F}；然后执行步骤201。

V₁表示第一个论文节点队列；

V₂表示第二个论文节点队列；

V_F表示最后一个论文节点队列，F表示论文节点队列集合的总数，f∈F。

在本发明中，生成神经网络可使用的训练数据为步骤一得到的论文节点队列集合VF＝{V₁,V₂,...,V_f,...,V_F}；除去论文节点队列集合中的训练数据之外，本发明可以借助负采样算法来产生训练模型所需的数据。

然后执行步骤203；

表示属于任意一个论文节点队列V_f的第一个论文节点；

表示属于任意一个论文节点队列V_f的第二个论文节点；

表示属于任意一个论文节点队列V_f的任意一个论文节点(简称为任意队列—论文节点)，g表示邻居论文节点的标识号；

表示属于任意一个论文节点队列V_f的最后一个论文节点，G表示论文节点队列V_f的长度，g∈G。

对于任意一个论文队列中的节点在本发明中，认为在队列中与节点距离小于WD的全部节点为正样本节点。每次，对于任意一个论文节点本发明先获取属于的2×WD个相邻论文节点集，记为

表示在相邻论文节点

中最小标识号的节点。

表示在相邻论文节点

中最大标识号的节点。

表示在相邻论文节点

中除

和

以外的任意一个论文节点，简称队列—相邻论文节点。下角标l表示不是最大也不是最小论文节点的标识号，即除这2个论文节点的其他标识号。

步骤203：对于任意一个任意队列—论文节点

中的各个节点与任意队列—论文节点

构成一个三元组，然后执行步骤204；

对于所述

与任意队列—论文节点

构成一个三元组，即(

δ)***正样本队列Q_p中。

对于所述

与任意队列—论文节点

构成一个三元组，即(

δ)***正样本队列Q_p中。

对于所述

与任意队列—论文节点

构成一个三元组，即(

δ)***正样本队列Q_p中。

步骤205：对网络中所有论文节点进行采样，每次从网络中选取任意两个论文节点(选取的两个论文节点可以是相邻的，也可以是不相邻的)，即第一任意论文节点paper_a,第二任意论文节点paper_o。如果两个论文节点之间存在连边((paper_a,paper_o)∈E)，或者两个随机选取的论文节点相同(paper_a＝paper_o)，则继续本步骤，否则将任意两个论文节点paper_a、paper_o组成三元组(paper_a,paper_o,-1)存入负样本队列Q_n中，然后执行步骤206；

Q₁表示新的样本队列Q_新中的最小标识号的三元组。

Q_(1+μ)×np表示新的样本队列Q_新中的最大标识号的三元组。下标(1+μ)×np代表样本队列Q_新中包含有(1+μ)×np个三元组。

步骤208：将新的样本队列Q_新＝{Q₁....,Q_(1+μ)×np}中的所有元素打乱顺序，得到乱序的样本队列Q_排序＝{Q₁....,Q_(1+μ)×np}，然后执行步骤301。

进行映射，得到两个相对应变换后的向量

执行步骤303；

为属于paper_a的多层感知机函数；

为属于paper_o的多层感知机函数；

步骤303：计算两个论文节点的欧氏距离，执行步骤304；

在本发明中，孪生网络的目的是为了使得表达空间中相似的点之间的欧氏距离尽可能的短，而不相似的点之间的欧氏距离尽可能的长。其基本形式为：

实施例1

本实施例采用了Cora论文数据集与Pubmed知识网络数据集进行学习和实验工作。

Cora是一个论文数据集总共含有2708个论文节点，包含2708个节点和5429条边，每一个节点都对应一个长度为1433的论文富文本信息向量，该富文本信息向量由0/1表示单词是否存在。同时，每一个节点都关联一个类别属性，总的类别属性取值数目为7。

Pubmed是一个知识网络数据集总共含有19717个论文节点，包含19717个节点和44338条边，每一个节点都对应一个长度为500的论文富文本信息向量，该富文本信息向量由0/1表示单词是否存在。同时，每一个节点都关联一个类别属性，总的类别属性取值数目为3。

为了验证有效性，本发明主要对比了不同方法在论文节点分类任务中的表现：

DeepWalk：采用了普通随机游走算法对网络进行采样，随后用word2vec算法得到网络中每一个节点的表示。(2014DeepWalk:online learning of socialrepresentations[J].Perozzi B,Alrfou R,Skiena S.KDD:701-710.)

TADW：对DeepWalk中的随机游走进行分解，巧妙地加入了节点的富文本信息，采用矩阵相乘的方式得到网络中每一个节点的表示。(2015,Network representationlearning with rich text information[C]YangC,Zhao D,Zhao D,et al.InternationalConference on Artificial Intelligence.AAAI Press,:2111-2117.)

Node2Vec：是DeepWalk的升级版，采用了二阶随机游走算法对网络进行采样，随后用word2vec算法得到网络中每一个节点的表示。(2016,node2vec:Scalable FeatureLearning for Networks[C]//Grover A,Leskovec J.KDD:855.)

对本发明选用节点预测方法进行向量表示效果的对比。本实验均采用混合验证技术(cross-validation)，在不同的分类预测方法选用SVM分类器进行分类。

本发明采用了两个评价指标进行衡量分别是Micro-F1和Macro-F1。

其中Macro-F1的计算方法为:

其中P_macro和R_macro分别代表宏差准率和宏查全率。

Micro-F1的计算方法为:

其中P_micro和R_micro分别代表微差准率和微查全率。

在Cora数据集的效果如图2和图3所示，本发明与其他方法在Cora数据集的对比效果，图2代表的是各方法在Micro-F1评价指标下的表现，图3代表的是各方法在Macro-F1评价指标下的表现。两张图的横轴代表了分类器的训练数据占全部数据的百分比。从图中可以看出，本发明方法在Micro-F1和Macro-F1评价指标下都比其他几种网络表示学习方法的效果要好，特别可以看出，相比纯粹借助网络信息，而不采用网络节点语义信息的DeepWalk和Node2vec算法，本发明算法在Micro-F1和Macro-F1评价指标下，对于各个训练数据所占比例均有5％以上的提升，可以展现出本发明在融合网络节点信息与网络拓扑结构之后，得到的网络节点表示向量要显著比单纯利用网络拓扑信息得到的网络节点表示向量要好。同时，对比TADW这个结合了网络节点信息与网络拓扑信息的方法可以看出，本发明提出的方法依然在两个评价指标上都有3％的提升。

在Wiki数据集的效果如图4和图5所示，从图中可以看出，本发明在Micro-F1和Macro-F1评价指标下都比其他几种网络表示学习方法的效果要好。由于Wiki数据集的类别数量要远远多于Cora数据集，可以发现，不采用网络节点语义信息的DeepWalk和Node2vec算法，分类效果较差，远低于使用TADW进行分析的结果。这说明语义在该数据集中占据了主导作用。本发明方法在Micro-F1和Macro-F1评价指标下，对于TADW方法得到的实验结果有2％的提升，可以展现出本发明在融合网络节点信息与网络拓扑结构之后，得到的网络节点表示向量相比直接利用矩阵相乘的到的网络节点表示向量要好。可以说明本发明在网络节点表示在结合网络信息与语义信息中能够进行更好的融合，得到更好的表示向量。

通过图2-图5的分析，这些实验体现了本发明能够自然的融合网络结构与语义信息两者，从而得到更好的网络节点表示向量，因此可以验证本发明的有效性。

Claims

1.一种参数化的论文网络节点表示学习方法，其特征在于包括有下列步骤：

步骤一，基于随机游走方法采样获取任意一个论文节点的邻居论文节点集、及邻居的邻居论文节点集；

邻居论文节点集是指与任意一个论文节点paper_a之间存在连边的邻居论文节点集合；然后执行步骤104；

表示属于任意一个论文节点paper_a的第一个邻居节点，即第一个邻居论文节点；

表示属于任意一个论文节点paper_a的第二个邻居节点，即第二个邻居论文节点；

表示属于任意一个论文节点paper_a的任意一个邻居节点，即任意一个邻居论文节点，b表示邻居节点的标识号；

表示属于任意一个论文节点paper_a的最后一个邻居节点，即最后一个邻居论文节点，B表示属于paper_a的邻居节点总数，B∈A；

步骤104：根据所述邻居论文节点集

中邻居节点总数B确定跳转到第一跳转概率

c表示跳数；然后执行步骤105；

步骤105：采用别名采样算法，根据当前的第一跳转概率

在所述

中获取下一跳的邻居论文节点

同时将

放入论文节点队列V的第2位；然后执行步骤106；

步骤106：获取属于任意一个邻居论文节点

的全部邻居论文节点集，即邻居的邻居论文节点集

然后执行步骤107；

表示属于任意一个邻居论文节点

的第一个邻居节点，即邻居的第一个邻居论文节点；

表示属于任意一个邻居论文节点

的第二个邻居节点，即邻居的第二个邻居论文节点；

表示属于任意一个邻居论文节点

的任意一个邻居节点，即邻居的任意一个邻居论文节点，e表示属于邻居论文节点

的邻居节点的标识号；

表示属于任意一个邻居论文节点

的最后一个邻居节点，即邻居的最后一个邻居论文节点，E表示属于

的邻居节点总数，E∈A；

步骤107：计算任意一个邻居的邻居论文节点

与任意一个论文节点paper_a之间的最短跳数

然后执行步骤108；

其中

代表的是从任意一个邻居的邻居论文节点到位于paper_a之前的一个论文节点的最少跳数距离；

步骤108：根据所述的

来确定

跳转到每一个邻居论文节点的第二跳转概率

然后执行步骤109；

所述第二跳转概率

c表示跳数；p为随机游走方法中用于调节不在所述论文节点队列V中的论文节点的第二跳转概率

大小的参数，即跳出参数；q为随机游走方法中用于调节在所述论文节点队列V中的论文节点的第二跳转概率

大小的参数，即跳入参数；

步骤109：经

确定之后，根据

和别名采样，选择

作为下一跳论文节点，同时将

放入论文节点队列V中的第3位；然后执行步骤110；

步骤111：对于整个论文网络中的每一个论文节点重复执行步骤101到步骤109，来完成论文节点的邻居节点采样，则有论文节点队列集合记为VF＝{V₁,V₂,...,V_f,...,V_F}；然后执行步骤201；

V₁表示第一个论文节点队列；

V₂表示第二个论文节点队列；

然后执行步骤203；

表示属于任意一个论文节点队列V_f的第一个论文节点；

表示属于任意一个论文节点队列V_f的第二个论文节点；

表示属于任意一个论文节点队列V_f的任意一个论文节点，g表示论文节点的标识号；

对于任意一个论文队列中的节点

认为在队列中与节点

距离小于WD的全部节点为正样本节点；每次，对于任意一个论文节点

先获取属于

的2×WD个相邻论文节点集，记为

表示在相邻论文节点

中最小标识号的节点；

表示在相邻论文节点

中最大标识号的节点；

表示在相邻论文节点

中除

和

步骤203：对于任意一个任意队列—论文节点

中的各个节点与任意队列—论文节点

构成一个三元组，然后执行步骤204；

对于所述

与任意队列—论文节点

构成一个三元组，即

其中δ＝+1代表该三元组为正样本，反之δ＝-1则表示该三元组为负样本，并将

***正样本队列Q_p中；

对于所述

与任意队列—论文节点

构成一个三元组，即

***正样本队列Q_p中；

对于所述

与任意队列—论文节点

构成一个三元组，即

***正样本队列Q_p中；

步骤207：将步骤204中得到的正样本队列Q_p与步骤206中得到的负样本队列Q_n合并在一起，得到一个新的样本队列Q_新＝{Q₁....,Q_(1+μ)×np}，后执行步骤208；

Q₁表示新的样本队列Q_新中的最小标识号的三元组；

进行映射，得到两个相对应变换后的向量

执行步骤303；

为属于paper_a的多层感知机函数；

为属于paper_o的多层感知机函数；

步骤303：计算两个论文节点的欧氏距离，执行步骤304；

欧氏距离为：

γ表示调和参数，是用来平衡正负样本的损失函数；

m表示Q_排序中的任意一个三元组的标识号；

由于三元组(paper_a,paper_o,δ)中的δ代表了该三元组是正样本还是负样本的标志，其中正样本认为是需要在空间中相似的点，而负样本认为是需要在空间中距离尽可能远的点；

2.根据权利要求1所述的参数化的论文网络节点表示学习方法，其特征在于：步骤103、步骤104和步骤105实现了论文节点队列V中第2位元素的获取。

3.根据权利要求1所述的参数化的论文网络节点表示学习方法，其特征在于：步骤106至步骤110实现了论文节点队列V中继第2位元素之后元素的获取，直至到达论文节点空队列V的最大队列元素位数mv。