CN111104797B

CN111104797B - 一种基于对偶的序列到序列生成的论文网络表示学习方法

Info

Publication number: CN111104797B
Application number: CN201911300281.1A
Authority: CN
Inventors: 刘杰; 李娜; 何志成
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-05-02
Anticipated expiration: 2039-12-17
Also published as: CN111104797A

Abstract

一种基于对偶的序列到序列生成的论文网络表示学***行序列生成部分；论文节点识别部分(论文内容嵌入，论文内容序列编码，论文标识序列生成)；论文内容生成部分(论文节点标识嵌入，论文标识序列编码，论文语义解码，论文内容生成)；和对偶融合部分。本发明综合论文网络中论文节点的内容信息(即论文的题目或摘要)和论文间的结构信息(即论文间的引用关系)，通过两种信息的互相映射过程将两种信息融合得更充分，学习到更具有含义的论文节点的表征。本发明还可以在解码出输入论文序列的文本内容之后继续解码出新的文本，即考虑到输入的论文序列的结构信息和内容信息之后预测出的新的论文内容。

Description

一种基于对偶的序列到序列生成的论文网络表示学习方法

技术领域

本发明属于计算机应用技术，数据挖掘，网络表示学习技术领域。

背景技术

网络表示学习因为可以应用在很多不同的下游任务中，所以日益成为一个热门的研究课题。然而由于网络数据的结构十分复杂，并且会带有一些伴随信息，比如大量的论文网络数据中不仅包括论文的题目和摘要等内容信息，还包括论文间的引用关系信息，这些高度非线性化信息对网络表示学习提出了挑战。近年来，研究人员在网络表示学习领域付出了大量的努力，取得了丰富的研究成果，根据模型的输入信息将网络表示学习方法大致分为两类。

一类是结构保持的网络嵌入，比如经典的DeepWalk[1]模型利用一阶近邻结构来进行随机游走采样，并在得到的节点序列基础上学习节点表征。节点向量模型node2vec[2]则进一步提出了基于二阶近邻结构的随机游走算法。而唐建等人提出了大规模信息网络嵌入模型LINE[3]直接建模节点之间的一阶和二阶近邻结构的重构损失。GraRep模型[4]则进一步推广到更高阶的近邻结构。然而，已有的模型通常需要人为地指定需要保留的结构信息，如一阶、二阶等，在实际应用中仍然有一定的局限性。

另一类是融合伴随信息的网络嵌入，在结构信息之外，真实网络数据中的节点往往伴随着标签、类型、属性等信息，节点的伴随信息与拓扑结构属于全然不同的模态，从不同的角度描述着节点的特征以及节点之间的高层语义联系。清华大学的刘知远等人在DeepWalk模型的基础上，分别引入了节点内容[5]和标签信息[6]，有效提升了节点分类任务的性能。而在异质信息网络的嵌入研究中，HINE[7]、HNE[8]等模型则进一步考虑了节点和边的类型，从而更细粒度地建模网络结构信息。但是现有方法缺乏对节点内容信息的深度挖掘，有一定的局限性。

参考文献：

[1]Perozzi B,Al-Rfou R,Skiena S.Deepwalk:Online learning of socialrepresentations[C]. Proceedings of the 20th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.ACM,2014:701-710.

[2]Grover A,Leskovec J.node2vec:Scalable feature learning fornetworks[C].Proceedings of the 22th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining.ACM,2016:855–864.

[3]Tang J,Qu M,Wang M,et al.LINE:Large-scale information networkembedding[C]. Proceedings of the 24th International Conference on World WideWeb.International World Wide Web Conferences Steering Committee,2015:1067-1077.

[4]Cao S,Lu W,Xu Q.Grarep:Learning graph representations with globalstructural information[C].Proceedings of the 24th ACM InternationalConference on Information and Knowledge Management.ACM,2015:891-900.

[5]Yang C,Liu Z,Zhao D,et al.Chang.Network representation learningwith rich text information[C].Proceedings of the 24th International JointConference on Artificial Intelligence.2015:2111-2117.

[6]Tu C,Zhang W,Liu Z,et al.Max-margin deepwalk:Discriminativelearning of network representation[C].Proceedings of the 25th InternationalJoint Conference on Artificial Intelligence.2016:3889-3895.

[7]Huang Z,Mamoulis N.Heterogeneous information network embedding formeta path based proximity[J].arXiv preprint arXiv:1701.05291,2017.

[8]Chang S,Han W,Tang J,et al.Heterogeneous network embedding viadeep architectures[C].Proceedings of the 21th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.ACM,2015:119-128.

发明内容

本发明目的是解决论文网络中复杂网络结构和论文节点内容信息有效融合的问题，提供一种基于对偶的序列到序列生成的论文网络表示学习方法。

本发明的技术方案

一种基于对偶的序列到序列生成的论文网络表示学习方法，该方法的步骤如下：

步骤1)论文平行序列生成部分

首先采用随机游走方法对论文网络进行游走，得到论文节点序列，因为论文网络中每个论文都有论文编号和论文文本内容两种信息，所以每个游走得到的论文节点序列对应有两种包含不同信息的序列，分别为论文节点标识序列和论文节点内容序列。论文节点标识序列包含了论文节点的结构信息即论文间的引用关系，论文节点内容序列包含了论文的内容信息及部分论文间结构信息，这两个序列为一组论文平行序列。因为两个序列包含不同的信息，所以可以通过这两个序列的相互映射过程来融合论文网络结构信息和论文节点内容信息。

步骤2)用于实现从论文节点内容序列映射到论文节点标识序列的论文节点识别部分步骤2.1)论文节点识别部分的论文内容嵌入

对于每个论文节点的文本内容，首先将文本分词，随机初始化每个词向量，然后采用卷积神经网络(Convolutional Neural Network,CNN)来捕获论文节点的文本内容信息，每个论文节点都得到对应的论文节点语义特征；

步骤2.2)论文节点识别部分的论文节点内容序列编码

采用双向长短期记忆网络(Bidirectional Long Short-Term Memory，Bi-LSTM)来对论文节点内容序列进行编码，将序列编码为上下文特征表示，采用Bi-LSTM是为了捕获论文序列的正反向信息，编码得到的语义表示向量包含了整个论文节点内容序列的语义信息以及序列中隐含的论文节点间的结构信息，即论文间的引用关系；

步骤2.3)论文节点识别部分的论文节点标识序列生成

将编码得到的语义表示向量经过长短期记忆网络(Long Short-Term Memory，LSTM)进行解码，并将解码之后的向量映射到论文节点标识空间中，完成论文节点标识序列的生成过程；

步骤3)用于实现从论文节点标识序列映射到论文节点内容序列的论文内容生成部分

步骤3.1)论文内容生成部分的论文节点标识嵌入

采用一个论文节点标识嵌入层，通过查寻论文节点的初始化嵌入矩阵来获取论文节点标识序列中不同论文节点标识的向量表示；

步骤3.2)论文内容生成部分的论文节点标识序列编码

采用Bi-LSTM对论文节点标识序列进行编码，根据论文节点之间的序列结构信息即论文间的引用关系，将论文节点标识序列编码为上下文特征表示，作为后续的语义解码过程的输入；

步骤3.3)论文内容生成部分的论文语义解码

在生成论文节点内容前，需要对上下文特征表示进行解码，得到论文语义特征序列，用于衔接论文网络结构与论文节点内容这两种模态空间，解码器采用LSTM；

步骤3.4)论文内容生成部分的论文内容生成

采用经典的LSTM对论文语义特征序列中的每个论文节点的语义表征生成文本内容，即单词序列；

步骤4)对偶融合论文节点识别部分和论文内容生成部分

通过论文节点识别部分和论文内容生成部分的中间隐藏层的共享，使两个部分同时进行学习，采用线性融合的方式将步骤2.2)和步骤3.2)得到的上下文特征表示进行融合。

序列到序列模型是一个翻译模型，即把一个语言序列翻译成另一种语言序列，将一个序列映射成另外一个序列。序列到序列模型是由编码器和解码器构成的，首先将输入序列编码成一个语义表示向量，然后再将语义表示向量解码成一个序列，完成序列到序列的映射。序列到序列模型一开始应用在自然语言处理领域，用来进行机器翻译和摘要生成，现在也被应用在网络表示学习领域，通过序列到序列的映射过程，融合不同的信息，采用模型的中间结果作为网络中的节点表征。

如图1所示，本发明提出的一种基于对偶的序列到序列生成的论文网络表示学***行序列即论文节点标识序列和对应的论文节点内容序列。

基于论文平行序列，本发明设计了两个对偶的序列到序列生成部分，分别为论文节点识别部分(Node Identification，NI)和论文内容生成部分(Content Generation，CG)，即从论文节点内容序列到论文节点标识序列的语义映射建模和从论文节点标识序列到论文节点内容序列的语义映射建模。基于提出的对偶融合方法，两部分可以通过一定的融合策略来进行有效的知识传递。最后，提取论文节点识别部分和论文内容生成部分的中间层里的隐含向量作为学习到的论文节点表征，应用于后续的论文网络分析任务。

本发明的优点和有益效果：

·论文节点表征

本发明综合论文网络中论文节点的内容信息和论文节点间的结构信息，学习到论文节点的表征，和之前的研究相比，将论文节点的内容信息和结构信息融合的更充分，论文节点的表征更有含义。

·论文内容预测

本发明利用训练好的方法可以继续生成新的论文的文本内容，在论文内容生成部分的论文内容生成阶段，可以在解码出输入论文序列的文本内容之后继续解码出新的论文的内容，即考虑到输入的论文序列的结构信息和内容信息之后预测出的新的论文的文本内容。

附图说明

图1是本发明的从论文网络中学习到论文节点的表示的流程图。

图2是本发明的论文节点识别部分和论文内容生成部分进行对偶融合的方法图。

具体实施方式

下面结合附图和具体实施对本发明提供的一种基于对偶的序列到序列生成的论文网络表示学习方法进行详细说明。

实施例1：

本发明主要采用深度学***台配备不低11G的内存，CPU核心数不低于4个且主频不低2.6GHz、GPU环境、Linux操作***，并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。

如图2论文节点识别部分和论文内容生成部分进行对偶融合的方法图所示，一种基于对偶的序列到序列生成的论文网络表示学习方法，详细步骤如下：

步骤1)论文平行序列生成部分

论文网络G＝(V,E)，V表示网络中所有论文节点的集合，则是论文网络中边的集合，包含了论文间的引用关系信息，若论文之间存在引用和被引用关系，则论文间有边，对于论文网络中的每个论文节点v∈V，用vⁱ代表论文节点的编号，用v^c代表论文节点的内容信息。采用随机游走方法来对论文网络进行游走，得到游走论文节点序列S＝ {v₁,v₂,…,v_T}，对于每个序列S，都有对应的论文节点标识序列和论文节点内容序论文节点标识序列和论文节点内容序列称为一组论文平行序列。比如论文1和论文3之间有边，论文3和论文6之间有边，论文6和论文4之间有边，论文4和论文9之间有边，则随机游走时，从论文1开始游走，可以游走到论文3，然后游走到论文6、4、9，若游走长度设为5，则可以得到游走序列为论文1→论文3→论文6→论文4→论文9，然后根据论文的编号，可以得到论文节点标识序列1→3→6→4→ 9，根据论文的内容信息，可以得到论文节点内容序列“data mining#”→“big data#”→“natural languageprocessing”→“text analysis#”→“web data mining”。

步骤2)用于实现从论文节点内容序列映射到论文节点标识序列的论文节点识别部分步骤2.1)论文节点识别部分的论文内容嵌入：

对于每个论文节点的文本内容，首先将文本分词，随机初始化每个词向量，然后采用CNN来捕获论文节点的文本内容信息，每个论文节点都得到对应的论文节点语义特征。

令论文平行序列为其中为序列长度为n的论文节点内容序列，为序列长度为n的论文节点标识序列，字典为随机初始化的词嵌入矩阵为为字典的大小,k_m表示词嵌入的维度，首先采用查寻函数LookUp^w(·,·)将中第t个论文节点的文本内容转化为词嵌入向量拼接而成的矩阵其中u_t,i为第t个论文节点内容中第i个单词，为第t个论文节点的内容单词的个数：

其中运算符表示将向量横向拼接为矩阵的操作。

例如，在论文网络中，论文节点标识为论文的编号，论文节点的文本内容为论文的标题或摘要，通过随机游走得到的序列长度为5，游走的论文节点标识序列为1→3→6→4→9，论文节点内容序列为“data mining#”→“big data#”→“natural languageprocessing”→“text analysis#”→“web data mining”，#为填充字符，首先对每个论文节点的内容单词进行嵌入并拼接，比如单词“data”进行嵌入得到“data”对应的100维词向量[1,0.89,1,23,0.54,…, 1,03]，对于每个论文节点的内容单词都得到对应的词向量，并进行拼接，如节点标识为1 的论文节点内容嵌入的最终结果U(v_t)为3×100维的向量[[1,0.89,1,23,0.54,…, 1,03],[0.48,0.93,1.07,0.76,…,1.32],[1.78,1.24,0.65,0.79,…,0.36]]。

利用多个宽度为k_m的滤波器，在U(v_t)上进行卷积和最大池化操作，可以在建模中的局部语法结构信息的基础上，学习的连续语义特征向量

则原来的论文节点内容序列变为论文节点语义特征序列 T为序列长度。经过CNN建模之后，对于每个论文节点，论文节点内容序列嵌入结果U(v_t)卷积为100维的向量如节点标识为1的论文节点的内容特征向量为 [0.79,0.68,1.03,0.98,…,0.76]。

步骤2.2)论文节点识别部分的论文节点内容序列编码：

在论文节点内容序列中，不同的论文节点内容之间是存在语义关联信息的，为了捕获论文节点内容序列中存在的全局语义信息，在论文内容嵌入层输出的论文节点语义特征序列之上，采用Bi-LSTM来编码论文节点语义特征序列。一个前向的LSTM将累计编码从序列开始直到当前所经历的所有论文节点的语义特征，得到当前的隐藏状态向量

后一个的LSTM则以相反的顺序，累计编码从序列结尾直到当前所经历的所有论文节点的语义特征，得到当前的隐藏状态

其中和分别表示前向和后向LSTM在处理序列中第t个论文节点时所进行的融合学习过程。

在论文节点内容序列编码阶段的第t个论文节点的表示为

比如节点标识为1的论文节点因为在序列中是第一个节点，所以对应的前向隐藏状态为对应的后向隐藏状态为最终节点标识为1的论文节点在论文节点内容序列编码阶段学***均当作最后的论文节点的表示，方法中其他部分计算论文节点表示时也做同样的处理。

最后通过拼接前向和后向LSTM最终的隐藏状态表示，得到整个论文节点语义特征序列的上下文特征表示。因为前后向LSTM的最后隐藏状态的表示包含了整个序列的信息，所以采用拼接前后向LSTM的最后隐藏状态表示来当作整个序列的表示。

其中[·,·]表示将向量纵向拼接的过程，最终得到整个论文节点语义特征序列的上下文特征表示z^NI为[1.39,-0.98,…,0.29,1.05]。

步骤2.3)论文节点识别部分的论文节点标识序列生成：

步骤2.2)得到的上下文特征表示z^NI融合了论文节点内容序列中的所有论文节点的内容信息以及自身所携带的顺序信息。为了生成对应的论文节点标识序列，首先采用LSTM，以z^NI作为初始状态，无需输入特征序列，直接生成面向论文节点标识空间的高层隐含特征序列其中第t个隐含特征的生成过程如下：

然后基于解码得到的高层隐含特征序列利用全连接层将高层隐含特征序列中的每一个节点特征映射到节点标识空间，得到节点标识空间中第t个论文节点的标识实现从内容模态到结构模态的语义映射，

其中σ(·)为sigmoid激活函数，W^NI-Tran和b^NI-Tran分别为全连接层的权重矩阵与偏置项。随后，进一步采用softmax层将归一化为在所有|V|个论文节点标识上的概率分布：

最终得到概率分布为一个概率值，比如0.29，代表预测第t个论文节点的标识是j的概率是0.29.通过比较在所有|V|个论文节点标识上的概率，最后取概率值最大的论文节点标识当作第t个论文节点的预测的节点标识。

在论文节点标识序列生成阶段，第t个论文节点的表示为

则第一个论文节点在论文节点标识序列生成阶段的表示为

步骤3)用于实现从论文节点标识序列映射到论文节点内容序列的论文内容生成部分步骤3.1)论文内容生成部分的论文节点标识嵌入

采用一个论文节点标识嵌入层，通过查寻论文节点的初始化嵌入矩阵来获取论文节点标识序列中不同论文节点的向量表示。

其中，为所有|V|个论文节点标识的初始化嵌入矩阵，为第t个论文节点的节点标识向量，k_n是嵌入向量的维度。查询函数LookUp^v(·,·)将每个论文节点标识所对应的嵌入向量按顺序组合成序列

例如，随机游走的论文节点标识序列为1→3→6→4→9，通过查寻嵌入矩阵V，矩阵V的每行代表对应位置的论文节点的标识向量，得到每个论文节点的k_n维的标识向量。矩阵v是随机初始化的，则节点标识为1的论文节点的标识向量则为矩阵v中的第一行，取矩阵v的第一行当作节点标识为1的论文节点标识向量

步骤3.2)论文内容生成部分的论文节点标识序列编码

在获取到之后，采用Bi-LSTM对论文节点标识序列进行编码，根据之间的序列结构信息，将论文节点标识序列编码为上下文特征表示z^CG，作为后续的内容生成过程的输入。在处理中每个论文节点标识的嵌入向量时，一个前向的LSTM将累积编码从序列开始直到当前所经历的所有论文节点的标识特征，得到当前的隐藏状态向量

同时利用一个后向的LSTM，以相反的顺序累积编码从序列结尾直到当前所经历的所有论文节点的标识特征，得到当前的隐藏状态向量

其中和分别表示前向和后向LSTM在第t步所进行的学习过程。

在论文节点标识序列编码阶段的第t个论文节点的表示为

比如节点标识为1的论文节点因为在序列中是第一个节点，所以对应的前向隐藏状态为对应的后向隐藏状态为最终节点标识为1的论文节点在论文节点标识序列编码阶段学习到的表示为和的拼接向量为[0.32,-0.78,…,0.89,1.89,-0.38,1.02,…,0.39,1.01].

通过在上进行迭代的学习，从两个相反的方向有效挖掘论文节点标识序列中的结构语义信息。然后通过拼接前向和后向LSTM最终的隐藏状态表示，得到整个论文节点标识序列的融合表示：

其中[·,·]表示将向量纵向拼接的过程，最终得到整个论文节点标识特征序列的上下文特征表示z^CG为[1.39,-0.98,…,0.29,1.05]

步骤3.3)论文内容生成部分的论文语义解码

在经过论文节点标识嵌入层与论文节点标识序列编码层之后，已经将论文节点标识序列中的结构信息融合到压缩的上下文特征表示z^CG中。作为生成论文节点内容之前的关键步骤，需要对上下文特征表示z^CG进行解码，得到整个论文序列的语义特征序列用于衔接网络结构与论文节点内容这两种模态空间。采用LSTM，以上下文特征表示z^GG为初始状态，无需输入特征序列，直接生成输出序列。其中第t个论文节点的语义特征的生成过程如下：

基于上下文特征表示z^CG，LSTM^CG-Dec(·,·)按照从前往后的顺序，依次生成所有T个论文节点所对应的内容语义特征。每个中已经融合了中包含的论文节点标识信息以及序列中的顺序结构，作为生成内容信息的基础。此外，在生成完输入序列中的论文节点，可以继续生成，预测新的论文节点的语义向量。比如解码出可以继续解码出预测新的论文节点的内容语义向量。

在论文语义解码阶段，第t个论文节点的表示为

则第一个论文节点在论文语义解码阶段的表示为

步骤3.4)论文内容生成部分的论文内容生成

最后，基于解码后的论文语义表征序列采用文本生成方法依次为每个生成文本内容，即单词序列。遵循惯例，采用LSTM，以作为初始状态，直接生成论文节点的词表示序列。

给定生成文本的最大长度L，LSTM将从头开始，逐步生成单词序列。当单词序列的长度达到L，或生成的词为停止符号<EOS>时，生成过程停止。对于序列中的第t个论文节点，第l个词的隐含表征的生成过程如下：

在l＝1时，以高层语义特征为隐藏状态，不需要输入特征，直接生成第1个隐藏状态用于进一步生成单词。而在l>1时，则将已生成的上一个词的词向量表征作为输入特征，结合传递过来的隐藏状态共同生成当前的隐藏状态用于进一步生成当前的单词。在训练阶段与测试阶段，已生成的上一个词的词向量表征有不同的设置。在训练过程中，为了最大化论文节点文本内容的似然概率，从给定的中挑选出第l-1个真实词，将它的词向量作为输入到LSTM中，比如节点标识为1的论文节点的文本内容为“data mining#”，在预测第二个词“mining”的时候，输入特征为“data”的嵌入向量[1,0.89,1,23,0.54,…,1,03]：

而在测试阶段，为论文节点预测新的文本内容时，为上一步中预测出的词所对应的词向量：

其中是关于的函数，表示上一步中预测出的词为词表中第j个词的概率，max函数代表挑选生成概率最大的词，比如对于节点标识为1的论文节点预测出的第一个单词概率最大的为“data”，则将“data”的嵌入向量[1,0.89,1,23,0.54,…,1,03]当作预测下一个单词的输入即

基于以上文本生成过程，为序列中第t个论文节点解码出长度为L(论文节点内容单词序列的最大长度，在举例中为L设置为3)的文本语义序列采用全连接层将每个映射到维的词典空间中：

其中σ(·)为sigmoid激活函数，W^CG-Word和b^CG-Word分别为全连接层的权重矩阵与偏置项，并采用softmax层将进一步转化为在所有个词上的概率分布：

最终得到概率分布为一个概率值，比如0.35，代表预测第t个论文节点的第l个单词是m_j的概率是0.35.通过比较在所有个词上的概率，最后取概率值最大的单词当作第t个节点第l个单词的预测的单词，对于节点标识为1的论文节点的内容生成结果应该为“data mining#”。

如果想要预测新的论文节点内容时，对于新解码出的执行相同的内容生成操作，生成出新的论文节点的内容单词序列。

步骤4)对偶融合论文节点识别部分和论文内容生成部分

论文节点识别部分和论文内容生成部分是紧密相关的，它们是从两个相反的角度来建模论文节点内容序列与论文节点标识序列之间的跨模态语义生成关系，为了实现两个对偶部分中互补知识的融合，利用中间隐藏层的共享，采用线性层来将两个部分耦合到一起，同时进行学习。

其中，W^Dual,1、b^Dual,1、W^Dual,2、b^Dual,2为线性融合层的权重与偏置项。经历了以上对偶融合过程之后，此时的和中已经包含了一定的来自目标模态的语义信息。于是，将和分别送入步骤2.3)和步骤3.3)所描述的序列解码层中，从而提高解码与生成的准确性。

最终第t个论文节点的向量表示为：

其中[·,·]表示将向量纵向拼接的过程，比如节点标识为1的论文节点最终的表示为[0.38,- 0.48,…,0.19,1.02,-0.98,1.29,…,0.96,1.20,0.37,-0.21,…,0.28,1.79，0.32,-0.78,…,0.89,1.89,-0.38,1.02,…,0.39,1.01，0.31,-0.51,…,0.78,1.23]。

Claims

1.一种基于对偶的序列到序列生成的论文网络表示学习方法，其特征在于，包括以下步骤：

步骤1)论文平行序列生成部分

采用随机游走方法对论文网络进行游走，得到论文节点序列，由于论文网络中每个论文都有论文编号和论文文本内容两种信息，因此每个游走得到的论文节点序列对应有两种包含不同信息的序列，分别为论文节点标识序列和论文节点内容序列，这两种序列为一组平行序列；

步骤2)用于实现从论文节点内容序列映射到论文节点标识序列的论文节点识别部分

步骤2.1)论文节点识别部分的论文内容嵌入

对于每个论文节点的文本内容，首先将文本分词，随机初始化每个词向量，然后采用卷积神经网络CNN来捕获论文节点的文本内容信息，每个论文节点都得到对应的论文节点语义特征；

步骤2.2)论文节点识别部分的论文节点内容序列编码

采用双向长短期记忆网络Bi-LSTM来对论文节点内容序列进行编码，将序列编码为上下文特征表示，采用Bi-LSTM是为了捕获论文序列的正反向信息，编码得到的语义表示向量包含了整个论文节点内容序列的语义信息以及序列中隐含的论文节点间的结构信息，即论文间的引用关系；

步骤2.3)论文节点识别部分的论文节点标识序列生成

将编码得到的语义表示向量经过长短期记忆网络LSTM进行解码，并将解码之后的向量映射到论文节点标识空间中，完成论文节点标识序列的生成过程；

步骤3.1)论文内容生成部分的论文节点标识嵌入

步骤3.2)论文内容生成部分的论文节点标识序列编码

步骤3.3)论文内容生成部分的论文语义解码

步骤3.4)论文内容生成部分的论文内容生成

步骤4)对偶融合论文节点识别部分和论文内容生成部分

2.根据权利要求1所述的一种基于对偶的序列到序列生成的论文网络表示学***行序列生成部分方法如下：

论文网络G＝(V，E)，V表示网络中所有论文节点的集合，

则是论文网络中边的集合，对于论文网络中的每个论文节点v∈V，用vⁱ代表论文节点的编号，用v^c代表论文节点的内容信息；采用随机游走方法来对论文网络进行游走，得到游走论文节点序列S＝{v₁，v₂，...，v_T}，其中T表示论文节点序列S所包含的节点个数，亦即序列长度，对于每个序列S，都有对应的论文节点标识序列

和论文节点内容序列

论文节点标识序列和论文节点内容序列称为一组论文平行序列；论文节点标识序列

包含了论文节点间的结构信息即论文间的引用关系，论文节点内容序列

包含了论文的内容信息及部分论文间结构信息，因为两种序列包含不同的信息，所以能够通过这两种序列的相互映射过程来融合论文网络结构信息和论文节点内容信息。

3.根据权利要求2所述的一种基于对偶的序列到序列生成的论文网络表示学习方法，其特征在于，步骤2.1)所述论文节点识别部分的论文内容嵌入方法如下：

对于每个论文节点的文本内容，首先将文本分词，随机初始化每个词向量，然后采用CNN来捕获论文节点的文本内容信息，每个论文节点都得到对应的节点语义特征；

令论文平行序列为

其中

为序列长度为T的论文节点内容序列，

为序列长度为T的论文节点标识序列，字典为

随机初始化的词嵌入矩阵为

为字典的大小，k_m表示词嵌入的维度，首先采用查寻函数LookUp^w(·，·)将

中第t个论文节点的文本内容

转化为词嵌入向量拼接而成的矩阵

其中t＝1，2，...，T，u_t，i为第t个论文节点内容中第i个单词，

为第t个论文节点的内容单词的个数：

其中运算符

表示将向量横向拼接为矩阵的操作；

利用多个宽度为k_m的滤波器，在U(v_t)上进行卷积和最大池化操作，能够在建模

中的局部语法结构信息的基础上，学习

的连续语义特征向量

则原来的论文节点内容序列

变为论文节点语义特征序列

T为序列长度。

4.根据权利要求3所述的一种基于对偶的序列到序列生成的论文网络表示学习方法，其特征在于，步骤2.2)所述论文节点识别部分的论文节点内容序列编码方法如下：

在论文节点内容序列

中，不同的论文节点内容之间是存在语义关联信息的，为了捕获论文节点内容序列中存在的全局语义信息，在论文内容嵌入方法输出的论文节点语义特征序列

之上，采用Bi-LSTM来编码论文节点语义特征序列；一个前向的LSTM将累计编码从序列开始直到当前所经历的所有论文节点的语义特征，得到当前的隐藏状态向量

其中

和

分别表示前向和后向LSTM网络，

与

分别表示第t个节点对应的前向隐藏状态和后向隐藏状态，t的取值范围为t＝1，2，...，T；

在论文节点内容序列编码阶段的第t个论文节点的表示为

最后通过拼接前向和后向LSTM最终的隐藏状态表示，得到整个论文节点语义特征序列的上下文特征表示z^NI，

其中[·,·]表示将向量纵向拼接的过程。

5.根据权利要求4所述的一种基于对偶的序列到序列生成的论文网络表示学习方法，其特征在于，步骤2.3)所述论文节点识别部分的论文节点标识序列生成方法是：

步骤2.2)得到的上下文特征表示z^NI融合了论文节点内容序列

中的所有论文节点的内容信息

以及

自身所携带的顺序信息，为了生成对应的论文节点标识序列，首先采用LSTM，以z^NI作为初始状态，无需输入特征序列，直接生成面向论文节点标识空间的高层隐含特征序列

其中第t个隐含特征

的生成过程如下：

然后基于解码得到的高层隐含特征序列

利用全连接层将高层隐含特征序列中的每一个节点特征

映射到节点标识空间，得到节点标识空间中第t个论文节点的标识

实现从内容模态到结构模态的语义映射，

其中σ(·)为sigmoid激活函数，W^NI-Tran和b^Nm-Tran分别为全连接层的权重矩阵与偏置项；随后，进一步采用softmax层将

归一化为在所有|V|个节点标识上的概率分布：

在论文节点标识序列生成阶段，第t个论文节点的表示为

6.根据权利要求5所述的一种基于对偶的序列到序列生成的论文网络表示学习方法，其特征在于，步骤3.1)所述论文内容生成部分的论文节点标识嵌入方法是：

采用一个论文节点标识嵌入层，通过查寻论文节点的初始化嵌入矩阵来获取论文节点标识序列中不同论文节点的标识向量表示；

其中，

为所有|V|个论文节点标识的初始化嵌入矩阵，

为第t个论文节点的节点标识向量，k_n是嵌入向量的维度；查询函数LookUp^v(·，·)将每个论文节点标识

所对应的嵌入向量

按顺序组合成序列

7.根据权利要求6所述的一种基于对偶的序列到序列生成的论文网络表示学习方法，其特征在于，步骤3.2)所述论文内容生成部分的论文节点标识序列编码方法是：

在获取到

之后，采用Bi-LSTM对论文节点标识序列进行编码，根据

之间的序列结构信息，将论文节点标识序列编码为上下文特征表示z^CG，作为后续的论文内容生成过程的输入；在处理

中每个论文节点标识的嵌入向量

时，一个前向的LSTM将累积编码从序列开始直到当前所经历的所有论文节点的标识特征，得到当前的隐藏状态向量

其中

和

分别表示前向和后向LSTM网络，

与

在论文节点标识序列编码阶段的第t个论文节点的表示为

通过在

上进行迭代的学习，从两个相反的方向有效挖掘论文节点标识序列中的结构语义信息，然后通过拼接前向和后向LSTM最后的隐藏状态表示，得到整个论文节点标识序列的表示：

8.根据权利要求7所述的一种基于对偶的序列到序列生成的论文网络表示学习方法，其特征在于，步骤3.3)所述论文内容生成部分的论文语义解码方法是：

在经过论文节点标识嵌入层与论文节点标识序列编码层之后，已经将论文节点标识序列

中的结构信息融合到压缩的上下文特征表示z^CG中，作为生成节点内容之前的关键步骤，需要对上下文特征表示z^CG进行解码，得到整个序列的语义特征序列

用于衔接网络结构与节点内容这两种模态空间；采用LSTM，以上下文特征表示z^CG为初始状态，无需输入特征序列，直接生成输出序列，其中第t个论文节点的语义特征

的生成过程如下：

基于上下文特征表示z^CG，LSTM^CG-Dec(·，·)按照从前往后的顺序，依次生成所有T个论文节点所对应的内容语义特征，每个

中已经融合了

中包含的论文节点身份信息以及序列中的顺序结构，作为生成内容信息的基础；此外，在生成完输入序列中的论文节点的语义向量之后，可以继续生成，预测出新的论文节点的语义向量；

在论文语义解码阶段，第t个论文节点的表示为

9.根据权利要求8所述的一种基于对偶的序列到序列生成的论文网络表示学习方法，其特征在于，步骤3.4)所述论文内容生成部分的论文内容生成方法是：

最后，基于解码后的论文语义特征序列

采用LSTM，以

作为初始状态，直接生成节点的词表示序列；

给定生成文本的最大长度L，LSTM将从头开始，逐步生成单词序列，当单词序列的长度达到L，或生成的词为停止符号<EOS>时，生成过程停止；对于序列中的第t个论文节点，第l个词的隐含表征的生成过程如下：

在l＝1时，以高层语义特征

为隐藏状态，不需要输入特征，直接生成第1个隐藏状态

用于进一步生成单词；而在l＞1时，则将已生成的上一个词的词向量表征

作为输入特征，结合传递过来的隐藏状态

共同生成当前的隐藏状态

用于进一步生成当前的单词；在训练阶段与测试阶段，已生成的上一个词的词向量表征

有不同的设置；在训练过程中，为了最大化节点文本内容的似然概率，从给定的

中挑选出第l-1个真实词，将它的词向量作为

输入到LSTM中：

而在测试阶段，为论文节点预测新的文本内容时，

为上一步中预测出的词所对应的词向量：

其中

是关于

的函数，表示上一步中预测出的词为词表中第j个词的概率，此处挑选生成概率最大的词；

基于以上文本生成过程，为序列中第t个论文节点解码出长度为L的文本语义序列

采用全连接层将每个

映射到

维的词典空间中，得到词典空间中的向量表示

其中σ(·)为sigmoid激活函数，W^GC-Word和b^CG-Word分别为全连接层的权重矩阵与偏置项，并采用softmax层将

进一步转化为在所有

个词上的概率分布：

如果想要预测出新的论文节点内容时，对于所述预测出的新的论文节点的语义向量执行相同的操作，能够得到新的论文节点的内容单词序列。

10.根据权利要求9所述的一种基于对偶的序列到序列生成的论文网络表示学习方法，其特征在于，步骤4)所述对偶融合论文节点识别部分和论文内容生成部分的方法是：

论文节点识别部分和论文内容生成部分是紧密相关的，它们是从两个相反的角度来建模论文节点内容序列与论文节点标识序列之间的跨模态语义生成关系，为了实现两个对偶部分中互补知识的融合，利用中间隐藏层的共享，采用线性层来将两个部分耦合到一起，同时进行学习；

其中，W^Dual，1、b^Dual，1、W^Dual，2、b^Dual，2为线性融合层的权重与偏置项；经历了以上对偶融合过程之后，此时的

和

中已经包含了来自目标模态的语义信息；于是，将

分别送入步骤2.3)和步骤3.3)所描述的序列解码层中，从而提高解码与生成的准确性；

最终第t个论文节点的向量表示为：