CN111104797B - 一种基于对偶的序列到序列生成的论文网络表示学习方法 - Google Patents

一种基于对偶的序列到序列生成的论文网络表示学习方法 Download PDF

Info

Publication number
CN111104797B
CN111104797B CN201911300281.1A CN201911300281A CN111104797B CN 111104797 B CN111104797 B CN 111104797B CN 201911300281 A CN201911300281 A CN 201911300281A CN 111104797 B CN111104797 B CN 111104797B
Authority
CN
China
Prior art keywords
paper
sequence
node
content
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911300281.1A
Other languages
English (en)
Other versions
CN111104797A (zh
Inventor
刘杰
李娜
何志成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN201911300281.1A priority Critical patent/CN111104797B/zh
Publication of CN111104797A publication Critical patent/CN111104797A/zh
Application granted granted Critical
Publication of CN111104797B publication Critical patent/CN111104797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于对偶的序列到序列生成的论文网络表示学***行序列生成部分;论文节点识别部分(论文内容嵌入,论文内容序列编码,论文标识序列生成);论文内容生成部分(论文节点标识嵌入,论文标识序列编码,论文语义解码,论文内容生成);和对偶融合部分。本发明综合论文网络中论文节点的内容信息(即论文的题目或摘要)和论文间的结构信息(即论文间的引用关系),通过两种信息的互相映射过程将两种信息融合得更充分,学习到更具有含义的论文节点的表征。本发明还可以在解码出输入论文序列的文本内容之后继续解码出新的文本,即考虑到输入的论文序列的结构信息和内容信息之后预测出的新的论文内容。

Description

一种基于对偶的序列到序列生成的论文网络表示学习方法
技术领域
本发明属于计算机应用技术,数据挖掘,网络表示学习技术领域。
背景技术
网络表示学习因为可以应用在很多不同的下游任务中,所以日益成为一个热门的研究课题。然而由于网络数据的结构十分复杂,并且会带有一些伴随信息,比如大量的论文网络数据中不仅包括论文的题目和摘要等内容信息,还包括论文间的引用关系信息,这些高度非线性化信息对网络表示学习提出了挑战。近年来,研究人员在网络表示学习领域付出了大量的努力,取得了丰富的研究成果,根据模型的输入信息将网络表示学习方法大致分为两类。
一类是结构保持的网络嵌入,比如经典的DeepWalk[1]模型利用一阶近邻结构来进行随机游走采样,并在得到的节点序列基础上学习节点表征。节点向量模型node2vec[2]则进一步提出了基于二阶近邻结构的随机游走算法。而唐建等人提出了大规模信息网络嵌入模型LINE[3]直接建模节点之间的一阶和二阶近邻结构的重构损失。GraRep模型[4]则进一步推广到更高阶的近邻结构。然而,已有的模型通常需要人为地指定需要保留的结构信息,如一阶、二阶等,在实际应用中仍然有一定的局限性。
另一类是融合伴随信息的网络嵌入,在结构信息之外,真实网络数据中的节点往往伴随着标签、类型、属性等信息,节点的伴随信息与拓扑结构属于全然不同的模态,从不同的角度描述着节点的特征以及节点之间的高层语义联系。清华大学的刘知远等人在DeepWalk模型的基础上,分别引入了节点内容[5]和标签信息[6],有效提升了节点分类任务的性能。而在异质信息网络的嵌入研究中,HINE[7]、HNE[8]等模型则进一步考虑了节点和边的类型,从而更细粒度地建模网络结构信息。但是现有方法缺乏对节点内容信息的深度挖掘,有一定的局限性。
参考文献:
[1]Perozzi B,Al-Rfou R,Skiena S.Deepwalk:Online learning of socialrepresentations[C]. Proceedings of the 20th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.ACM,2014:701-710.
[2]Grover A,Leskovec J.node2vec:Scalable feature learning fornetworks[C].Proceedings of the 22th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining.ACM,2016:855–864.
[3]Tang J,Qu M,Wang M,et al.LINE:Large-scale information networkembedding[C]. Proceedings of the 24th International Conference on World WideWeb.International World Wide Web Conferences Steering Committee,2015:1067-1077.
[4]Cao S,Lu W,Xu Q.Grarep:Learning graph representations with globalstructural information[C].Proceedings of the 24th ACM InternationalConference on Information and Knowledge Management.ACM,2015:891-900.
[5]Yang C,Liu Z,Zhao D,et al.Chang.Network representation learningwith rich text information[C].Proceedings of the 24th International JointConference on Artificial Intelligence.2015:2111-2117.
[6]Tu C,Zhang W,Liu Z,et al.Max-margin deepwalk:Discriminativelearning of network representation[C].Proceedings of the 25th InternationalJoint Conference on Artificial Intelligence.2016:3889-3895.
[7]Huang Z,Mamoulis N.Heterogeneous information network embedding formeta path based proximity[J].arXiv preprint arXiv:1701.05291,2017.
[8]Chang S,Han W,Tang J,et al.Heterogeneous network embedding viadeep architectures[C].Proceedings of the 21th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.ACM,2015:119-128.
发明内容
本发明目的是解决论文网络中复杂网络结构和论文节点内容信息有效融合的问题,提供一种基于对偶的序列到序列生成的论文网络表示学习方法。
本发明的技术方案
一种基于对偶的序列到序列生成的论文网络表示学习方法,该方法的步骤如下:
步骤1)论文平行序列生成部分
首先采用随机游走方法对论文网络进行游走,得到论文节点序列,因为论文网络中每个论文都有论文编号和论文文本内容两种信息,所以每个游走得到的论文节点序列对应有两种包含不同信息的序列,分别为论文节点标识序列和论文节点内容序列。论文节点标识序列包含了论文节点的结构信息即论文间的引用关系,论文节点内容序列包含了论文的内容信息及部分论文间结构信息,这两个序列为一组论文平行序列。因为两个序列包含不同的信息,所以可以通过这两个序列的相互映射过程来融合论文网络结构信息和论文节点内容信息。
步骤2)用于实现从论文节点内容序列映射到论文节点标识序列的论文节点识别部分步骤2.1)论文节点识别部分的论文内容嵌入
对于每个论文节点的文本内容,首先将文本分词,随机初始化每个词向量,然后采用卷积神经网络(Convolutional Neural Network,CNN)来捕获论文节点的文本内容信息,每个论文节点都得到对应的论文节点语义特征;
步骤2.2)论文节点识别部分的论文节点内容序列编码
采用双向长短期记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)来对论文节点内容序列进行编码,将序列编码为上下文特征表示,采用Bi-LSTM是为了捕获论文序列的正反向信息,编码得到的语义表示向量包含了整个论文节点内容序列的语义信息以及序列中隐含的论文节点间的结构信息,即论文间的引用关系;
步骤2.3)论文节点识别部分的论文节点标识序列生成
将编码得到的语义表示向量经过长短期记忆网络(Long Short-Term Memory,LSTM)进行解码,并将解码之后的向量映射到论文节点标识空间中,完成论文节点标识序列的生成过程;
步骤3)用于实现从论文节点标识序列映射到论文节点内容序列的论文内容生成部分
步骤3.1)论文内容生成部分的论文节点标识嵌入
采用一个论文节点标识嵌入层,通过查寻论文节点的初始化嵌入矩阵来获取论文节点标识序列中不同论文节点标识的向量表示;
步骤3.2)论文内容生成部分的论文节点标识序列编码
采用Bi-LSTM对论文节点标识序列进行编码,根据论文节点之间的序列结构信息即论文间的引用关系,将论文节点标识序列编码为上下文特征表示,作为后续的语义解码过程的输入;
步骤3.3)论文内容生成部分的论文语义解码
在生成论文节点内容前,需要对上下文特征表示进行解码,得到论文语义特征序列,用于衔接论文网络结构与论文节点内容这两种模态空间,解码器采用LSTM;
步骤3.4)论文内容生成部分的论文内容生成
采用经典的LSTM对论文语义特征序列中的每个论文节点的语义表征生成文本内容,即单词序列;
步骤4)对偶融合论文节点识别部分和论文内容生成部分
通过论文节点识别部分和论文内容生成部分的中间隐藏层的共享,使两个部分同时进行学习,采用线性融合的方式将步骤2.2)和步骤3.2)得到的上下文特征表示进行融合。
序列到序列模型是一个翻译模型,即把一个语言序列翻译成另一种语言序列,将一个序列映射成另外一个序列。序列到序列模型是由编码器和解码器构成的,首先将输入序列编码成一个语义表示向量,然后再将语义表示向量解码成一个序列,完成序列到序列的映射。序列到序列模型一开始应用在自然语言处理领域,用来进行机器翻译和摘要生成,现在也被应用在网络表示学习领域,通过序列到序列的映射过程,融合不同的信息,采用模型的中间结果作为网络中的节点表征。
如图1所示,本发明提出的一种基于对偶的序列到序列生成的论文网络表示学***行序列即论文节点标识序列和对应的论文节点内容序列。
基于论文平行序列,本发明设计了两个对偶的序列到序列生成部分,分别为论文节点识别部分(Node Identification,NI)和论文内容生成部分(Content Generation,CG),即从论文节点内容序列到论文节点标识序列的语义映射建模和从论文节点标识序列到论文节点内容序列的语义映射建模。基于提出的对偶融合方法,两部分可以通过一定的融合策略来进行有效的知识传递。最后,提取论文节点识别部分和论文内容生成部分的中间层里的隐含向量作为学习到的论文节点表征,应用于后续的论文网络分析任务。
本发明的优点和有益效果:
·论文节点表征
本发明综合论文网络中论文节点的内容信息和论文节点间的结构信息,学习到论文节点的表征,和之前的研究相比,将论文节点的内容信息和结构信息融合的更充分,论文节点的表征更有含义。
·论文内容预测
本发明利用训练好的方法可以继续生成新的论文的文本内容,在论文内容生成部分的论文内容生成阶段,可以在解码出输入论文序列的文本内容之后继续解码出新的论文的内容,即考虑到输入的论文序列的结构信息和内容信息之后预测出的新的论文的文本内容。
附图说明
图1是本发明的从论文网络中学习到论文节点的表示的流程图。
图2是本发明的论文节点识别部分和论文内容生成部分进行对偶融合的方法图。
具体实施方式
下面结合附图和具体实施对本发明提供的一种基于对偶的序列到序列生成的论文网络表示学习方法进行详细说明。
实施例1:
本发明主要采用深度学***台配备不低11G的内存,CPU核心数不低于4个且主频不低2.6GHz、GPU环境、Linux操作***,并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。
如图2论文节点识别部分和论文内容生成部分进行对偶融合的方法图所示,一种基于对偶的序列到序列生成的论文网络表示学习方法,详细步骤如下:
步骤1)论文平行序列生成部分
论文网络G=(V,E),V表示网络中所有论文节点的集合,则是论文网络中边的集合,包含了论文间的引用关系信息,若论文之间存在引用和被引用关系,则论文间有边,对于论文网络中的每个论文节点v∈V,用vi代表论文节点的编号,用vc代表论文节点的内容信息。采用随机游走方法来对论文网络进行游走,得到游走论文节点序列S= {v1,v2,…,vT},对于每个序列S,都有对应的论文节点标识序列和论文节点内容序论文节点标识序列和论文节点内容序列称为一组论文平行序列。比如论文1和论文3之间有边,论文3和论文6之间有边,论文6和论文4之间有边,论文4和论文9之间有边,则随机游走时,从论文1开始游走,可以游走到论文3,然后游走到论文6、4、9,若游走长度设为5,则可以得到游走序列为论文1→论文3→论文6→论文4→论文9,然后根据论文的编号,可以得到论文节点标识序列1→3→6→4→ 9,根据论文的内容信息,可以得到论文节点内容序列“data mining#”→“big data#”→“natural languageprocessing”→“text analysis#”→“web data mining”。
步骤2)用于实现从论文节点内容序列映射到论文节点标识序列的论文节点识别部分步骤2.1)论文节点识别部分的论文内容嵌入:
对于每个论文节点的文本内容,首先将文本分词,随机初始化每个词向量,然后采用CNN来捕获论文节点的文本内容信息,每个论文节点都得到对应的论文节点语义特征。
令论文平行序列为其中为序列长度为n的论文节点内容序列,为序列长度为n的论文节点标识序列,字典为随机初始化的词嵌入矩阵为 为字典的大小,km表示词嵌入的维度,首先采用查寻函数LookUpw(·,·)将中第t个论文节点的文本内容转化为词嵌入向量拼接而成的矩阵其中ut,i为第t个论文节点内容中第i个单词,为第t个论文节点的内容单词的个数:
其中运算符表示将向量横向拼接为矩阵的操作。
例如,在论文网络中,论文节点标识为论文的编号,论文节点的文本内容为论文的标题或摘要,通过随机游走得到的序列长度为5,游走的论文节点标识序列为1→3→6→4→9,论文节点内容序列为“data mining#”→“big data#”→“natural languageprocessing”→“text analysis#”→“web data mining”,#为填充字符,首先对每个论文节点的内容单词进行嵌入并拼接,比如单词“data”进行嵌入得到“data”对应的100维词向量[1,0.89,1,23,0.54,…, 1,03],对于每个论文节点的内容单词都得到对应的词向量,并进行拼接,如节点标识为1 的论文节点内容嵌入的最终结果U(vt)为3×100维的向量[[1,0.89,1,23,0.54,…, 1,03],[0.48,0.93,1.07,0.76,…,1.32],[1.78,1.24,0.65,0.79,…,0.36]]。
利用多个宽度为km的滤波器,在U(vt)上进行卷积和最大池化操作,可以在建模中的局部语法结构信息的基础上,学习的连续语义特征向量
则原来的论文节点内容序列变为论文节点语义特征序列 T为序列长度。经过CNN建模之后,对于每个论文节点,论文节点内容序列嵌入结果U(vt)卷积为100维的向量如节点标识为1的论文节点的内容特征向量为 [0.79,0.68,1.03,0.98,…,0.76]。
步骤2.2)论文节点识别部分的论文节点内容序列编码:
在论文节点内容序列中,不同的论文节点内容之间是存在语义关联信息的,为了捕获论文节点内容序列中存在的全局语义信息,在论文内容嵌入层输出的论文节点语义特征序列之上,采用Bi-LSTM来编码论文节点语义特征序列。一个前向的LSTM将累计编码从序列开始直到当前所经历的所有论文节点的语义特征,得到当前的隐藏状态向量
后一个的LSTM则以相反的顺序,累计编码从序列结尾直到当前所经历的所有论文节点的语义特征,得到当前的隐藏状态
其中分别表示前向和后向LSTM在处理序列中第t个论文节点时所进行的融合学习过程。
在论文节点内容序列编码阶段的第t个论文节点的表示为
比如节点标识为1的论文节点因为在序列中是第一个节点,所以对应的前向隐藏状态为对应的后向隐藏状态为最终节点标识为1的论文节点在论文节点内容序列编码阶段学***均当作最后的论文节点的表示,方法中其他部分计算论文节点表示时也做同样的处理。
最后通过拼接前向和后向LSTM最终的隐藏状态表示,得到整个论文节点语义特征序列的上下文特征表示。因为前后向LSTM的最后隐藏状态的表示包含了整个序列的信息,所以采用拼接前后向LSTM的最后隐藏状态表示来当作整个序列的表示。
其中[·,·]表示将向量纵向拼接的过程,最终得到整个论文节点语义特征序列的上下文特征表示zNI为[1.39,-0.98,…,0.29,1.05]。
步骤2.3)论文节点识别部分的论文节点标识序列生成:
步骤2.2)得到的上下文特征表示zNI融合了论文节点内容序列中的所有论文节点的内容信息以及自身所携带的顺序信息。为了生成对应的论文节点标识序列,首先采用LSTM,以zNI作为初始状态,无需输入特征序列,直接生成面向论文节点标识空间的高层隐含特征序列其中第t个隐含特征的生成过程如下:
然后基于解码得到的高层隐含特征序列利用全连接层将高层隐含特征序列中的每一个节点特征映射到节点标识空间,得到节点标识空间中第t个论文节点的标识实现从内容模态到结构模态的语义映射,
其中σ(·)为sigmoid激活函数,WNI-Tran和bNI-Tran分别为全连接层的权重矩阵与偏置项。随后,进一步采用softmax层将归一化为在所有|V|个论文节点标识上的概率分布:
最终得到概率分布为一个概率值,比如0.29,代表预测第t个论文节点的标识是j的概率是0.29.通过比较在所有|V|个论文节点标识上的概率,最后取概率值最大的论文节点标识当作第t个论文节点的预测的节点标识。
在论文节点标识序列生成阶段,第t个论文节点的表示为
则第一个论文节点在论文节点标识序列生成阶段的表示为
步骤3)用于实现从论文节点标识序列映射到论文节点内容序列的论文内容生成部分步骤3.1)论文内容生成部分的论文节点标识嵌入
采用一个论文节点标识嵌入层,通过查寻论文节点的初始化嵌入矩阵来获取论文节点标识序列中不同论文节点的向量表示。
其中,为所有|V|个论文节点标识的初始化嵌入矩阵,为第t个论文节点的节点标识向量,kn是嵌入向量的维度。查询函数LookUpv(·,·)将每个论文节点标识所对应的嵌入向量按顺序组合成序列
例如,随机游走的论文节点标识序列为1→3→6→4→9,通过查寻嵌入矩阵V,矩阵V的每行代表对应位置的论文节点的标识向量,得到每个论文节点的kn维的标识向量。矩阵v是随机初始化的,则节点标识为1的论文节点的标识向量则为矩阵v中的第一行,取矩阵v的第一行当作节点标识为1的论文节点标识向量
步骤3.2)论文内容生成部分的论文节点标识序列编码
在获取到之后,采用Bi-LSTM对论文节点标识序列进行编码,根据之间的序列结构信息,将论文节点标识序列编码为上下文特征表示zCG,作为后续的内容生成过程的输入。在处理中每个论文节点标识的嵌入向量时,一个前向的LSTM将累积编码从序列开始直到当前所经历的所有论文节点的标识特征,得到当前的隐藏状态向量
同时利用一个后向的LSTM,以相反的顺序累积编码从序列结尾直到当前所经历的所有论文节点的标识特征,得到当前的隐藏状态向量
其中分别表示前向和后向LSTM在第t步所进行的学习过程。
在论文节点标识序列编码阶段的第t个论文节点的表示为
比如节点标识为1的论文节点因为在序列中是第一个节点,所以对应的前向隐藏状态为对应的后向隐藏状态为最终节点标识为1的论文节点在论文节点标识序列编码阶段学习到的表示为的拼接向量为[0.32,-0.78,…,0.89,1.89,-0.38,1.02,…,0.39,1.01].
通过在上进行迭代的学习,从两个相反的方向有效挖掘论文节点标识序列中的结构语义信息。然后通过拼接前向和后向LSTM最终的隐藏状态表示,得到整个论文节点标识序列的融合表示:
其中[·,·]表示将向量纵向拼接的过程,最终得到整个论文节点标识特征序列的上下文特征表示zCG为[1.39,-0.98,…,0.29,1.05]
步骤3.3)论文内容生成部分的论文语义解码
在经过论文节点标识嵌入层与论文节点标识序列编码层之后,已经将论文节点标识序列中的结构信息融合到压缩的上下文特征表示zCG中。作为生成论文节点内容之前的关键步骤,需要对上下文特征表示zCG进行解码,得到整个论文序列的语义特征序列用于衔接网络结构与论文节点内容这两种模态空间。采用LSTM,以上下文特征表示zGG为初始状态,无需输入特征序列,直接生成输出序列。其中第t个论文节点的语义特征的生成过程如下:
基于上下文特征表示zCG,LSTMCG-Dec(·,·)按照从前往后的顺序,依次生成所有T个论文节点所对应的内容语义特征。每个中已经融合了中包含的论文节点标识信息以及序列中的顺序结构,作为生成内容信息的基础。此外,在生成完输入序列中的论文节点,可以继续生成,预测新的论文节点的语义向量。比如解码出可以继续解码出预测新的论文节点的内容语义向量。
在论文语义解码阶段,第t个论文节点的表示为
则第一个论文节点在论文语义解码阶段的表示为
步骤3.4)论文内容生成部分的论文内容生成
最后,基于解码后的论文语义表征序列采用文本生成方法依次为每个生成文本内容,即单词序列。遵循惯例,采用LSTM,以作为初始状态,直接生成论文节点的词表示序列。
给定生成文本的最大长度L,LSTM将从头开始,逐步生成单词序列。当单词序列的长度达到L,或生成的词为停止符号<EOS>时,生成过程停止。对于序列中的第t个论文节点,第l个词的隐含表征的生成过程如下:
在l=1时,以高层语义特征为隐藏状态,不需要输入特征,直接生成第1个隐藏状态用于进一步生成单词。而在l>1时,则将已生成的上一个词的词向量表征作为输入特征,结合传递过来的隐藏状态共同生成当前的隐藏状态用于进一步生成当前的单词。在训练阶段与测试阶段,已生成的上一个词的词向量表征有不同的设置。在训练过程中,为了最大化论文节点文本内容的似然概率,从给定的中挑选出第l-1个真实词,将它的词向量作为输入到LSTM中,比如节点标识为1的论文节点的文本内容为“data mining#”,在预测第二个词“mining”的时候,输入特征为“data”的嵌入向量[1,0.89,1,23,0.54,…,1,03]:
而在测试阶段,为论文节点预测新的文本内容时,为上一步中预测出的词所对应的词向量:
其中是关于的函数,表示上一步中预测出的词为词表中第j个词的概率,max函数代表挑选生成概率最大的词,比如对于节点标识为1的论文节点预测出的第一个单词概率最大的为“data”,则将“data”的嵌入向量[1,0.89,1,23,0.54,…,1,03]当作预测下一个单词的输入即
基于以上文本生成过程,为序列中第t个论文节点解码出长度为L(论文节点内容单词序列的最大长度,在举例中为L设置为3)的文本语义序列采用全连接层将每个映射到维的词典空间中:
其中σ(·)为sigmoid激活函数,WCG-Word和bCG-Word分别为全连接层的权重矩阵与偏置项,并采用softmax层将进一步转化为在所有个词上的概率分布:
最终得到概率分布为一个概率值,比如0.35,代表预测第t个论文节点的第l个单词是mj的概率是0.35.通过比较在所有个词上的概率,最后取概率值最大的单词当作第t个节点第l个单词的预测的单词,对于节点标识为1的论文节点的内容生成结果应该为“data mining#”。
如果想要预测新的论文节点内容时,对于新解码出的执行相同的内容生成操作,生成出新的论文节点的内容单词序列。
步骤4)对偶融合论文节点识别部分和论文内容生成部分
论文节点识别部分和论文内容生成部分是紧密相关的,它们是从两个相反的角度来建模论文节点内容序列与论文节点标识序列之间的跨模态语义生成关系,为了实现两个对偶部分中互补知识的融合,利用中间隐藏层的共享,采用线性层来将两个部分耦合到一起,同时进行学习。
其中,WDual,1、bDual,1、WDual,2、bDual,2为线性融合层的权重与偏置项。经历了以上对偶融合过程之后,此时的中已经包含了一定的来自目标模态的语义信息。于是,将分别送入步骤2.3)和步骤3.3)所描述的序列解码层中,从而提高解码与生成的准确性。
最终第t个论文节点的向量表示为:
其中[·,·]表示将向量纵向拼接的过程,比如节点标识为1的论文节点最终的表示为[0.38,- 0.48,…,0.19,1.02,-0.98,1.29,…,0.96,1.20,0.37,-0.21,…,0.28,1.79,0.32,-0.78,…,0.89,1.89,-0.38,1.02,…,0.39,1.01,0.31,-0.51,…,0.78,1.23]。

Claims (10)

1.一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,包括以下步骤:
步骤1)论文平行序列生成部分
采用随机游走方法对论文网络进行游走,得到论文节点序列,由于论文网络中每个论文都有论文编号和论文文本内容两种信息,因此每个游走得到的论文节点序列对应有两种包含不同信息的序列,分别为论文节点标识序列和论文节点内容序列,这两种序列为一组平行序列;
步骤2)用于实现从论文节点内容序列映射到论文节点标识序列的论文节点识别部分
步骤2.1)论文节点识别部分的论文内容嵌入
对于每个论文节点的文本内容,首先将文本分词,随机初始化每个词向量,然后采用卷积神经网络CNN来捕获论文节点的文本内容信息,每个论文节点都得到对应的论文节点语义特征;
步骤2.2)论文节点识别部分的论文节点内容序列编码
采用双向长短期记忆网络Bi-LSTM来对论文节点内容序列进行编码,将序列编码为上下文特征表示,采用Bi-LSTM是为了捕获论文序列的正反向信息,编码得到的语义表示向量包含了整个论文节点内容序列的语义信息以及序列中隐含的论文节点间的结构信息,即论文间的引用关系;
步骤2.3)论文节点识别部分的论文节点标识序列生成
将编码得到的语义表示向量经过长短期记忆网络LSTM进行解码,并将解码之后的向量映射到论文节点标识空间中,完成论文节点标识序列的生成过程;
步骤3)用于实现从论文节点标识序列映射到论文节点内容序列的论文内容生成部分
步骤3.1)论文内容生成部分的论文节点标识嵌入
采用一个论文节点标识嵌入层,通过查寻论文节点的初始化嵌入矩阵来获取论文节点标识序列中不同论文节点标识的向量表示;
步骤3.2)论文内容生成部分的论文节点标识序列编码
采用Bi-LSTM对论文节点标识序列进行编码,根据论文节点之间的序列结构信息即论文间的引用关系,将论文节点标识序列编码为上下文特征表示,作为后续的语义解码过程的输入;
步骤3.3)论文内容生成部分的论文语义解码
在生成论文节点内容前,需要对上下文特征表示进行解码,得到论文语义特征序列,用于衔接论文网络结构与论文节点内容这两种模态空间,解码器采用LSTM;
步骤3.4)论文内容生成部分的论文内容生成
采用经典的LSTM对论文语义特征序列中的每个论文节点的语义表征生成文本内容,即单词序列;
步骤4)对偶融合论文节点识别部分和论文内容生成部分
通过论文节点识别部分和论文内容生成部分的中间隐藏层的共享,使两个部分同时进行学习,采用线性融合的方式将步骤2.2)和步骤3.2)得到的上下文特征表示进行融合。
2.根据权利要求1所述的一种基于对偶的序列到序列生成的论文网络表示学***行序列生成部分方法如下:
论文网络G=(V,E),V表示网络中所有论文节点的集合,
Figure FDA0004141174760000021
则是论文网络中边的集合,对于论文网络中的每个论文节点v∈V,用vi代表论文节点的编号,用vc代表论文节点的内容信息;采用随机游走方法来对论文网络进行游走,得到游走论文节点序列S={v1,v2,...,vT},其中T表示论文节点序列S所包含的节点个数,亦即序列长度,对于每个序列S,都有对应的论文节点标识序列
Figure FDA0004141174760000022
和论文节点内容序列
Figure FDA0004141174760000023
论文节点标识序列和论文节点内容序列称为一组论文平行序列;论文节点标识序列
Figure FDA0004141174760000024
包含了论文节点间的结构信息即论文间的引用关系,论文节点内容序列
Figure FDA0004141174760000025
包含了论文的内容信息及部分论文间结构信息,因为两种序列包含不同的信息,所以能够通过这两种序列的相互映射过程来融合论文网络结构信息和论文节点内容信息。
3.根据权利要求2所述的一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,步骤2.1)所述论文节点识别部分的论文内容嵌入方法如下:
对于每个论文节点的文本内容,首先将文本分词,随机初始化每个词向量,然后采用CNN来捕获论文节点的文本内容信息,每个论文节点都得到对应的节点语义特征;
令论文平行序列为
Figure FDA0004141174760000026
其中
Figure FDA0004141174760000027
为序列长度为T的论文节点内容序列,
Figure FDA0004141174760000028
为序列长度为T的论文节点标识序列,字典为
Figure FDA0004141174760000029
随机初始化的词嵌入矩阵为
Figure FDA00041411747600000210
Figure FDA00041411747600000211
为字典的大小,km表示词嵌入的维度,首先采用查寻函数LookUpw(·,·)将
Figure FDA00041411747600000212
中第t个论文节点的文本内容
Figure FDA0004141174760000031
转化为词嵌入向量拼接而成的矩阵
Figure FDA0004141174760000032
其中t=1,2,...,T,ut,i为第t个论文节点内容中第i个单词,
Figure FDA0004141174760000033
为第t个论文节点的内容单词的个数:
Figure FDA0004141174760000034
其中运算符
Figure FDA0004141174760000035
表示将向量横向拼接为矩阵的操作;
利用多个宽度为km的滤波器,在U(vt)上进行卷积和最大池化操作,能够在建模
Figure FDA0004141174760000036
中的局部语法结构信息的基础上,学习
Figure FDA0004141174760000037
的连续语义特征向量
Figure FDA0004141174760000038
Figure FDA0004141174760000039
则原来的论文节点内容序列
Figure FDA00041411747600000310
变为论文节点语义特征序列
Figure FDA00041411747600000311
T为序列长度。
4.根据权利要求3所述的一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,步骤2.2)所述论文节点识别部分的论文节点内容序列编码方法如下:
在论文节点内容序列
Figure FDA00041411747600000312
中,不同的论文节点内容之间是存在语义关联信息的,为了捕获论文节点内容序列中存在的全局语义信息,在论文内容嵌入方法输出的论文节点语义特征序列
Figure FDA00041411747600000313
之上,采用Bi-LSTM来编码论文节点语义特征序列;一个前向的LSTM将累计编码从序列开始直到当前所经历的所有论文节点的语义特征,得到当前的隐藏状态向量
Figure FDA00041411747600000314
Figure FDA00041411747600000315
后一个的LSTM则以相反的顺序,累计编码从序列结尾直到当前所经历的所有论文节点的语义特征,得到当前的隐藏状态
Figure FDA00041411747600000316
Figure FDA00041411747600000317
其中
Figure FDA00041411747600000318
Figure FDA00041411747600000319
分别表示前向和后向LSTM网络,
Figure FDA00041411747600000320
Figure FDA00041411747600000321
分别表示第t个节点对应的前向隐藏状态和后向隐藏状态,t的取值范围为t=1,2,...,T;
在论文节点内容序列编码阶段的第t个论文节点的表示为
Figure FDA0004141174760000041
Figure FDA0004141174760000042
最后通过拼接前向和后向LSTM最终的隐藏状态表示,得到整个论文节点语义特征序列的上下文特征表示zNI
Figure FDA0004141174760000043
其中[·,·]表示将向量纵向拼接的过程。
5.根据权利要求4所述的一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,步骤2.3)所述论文节点识别部分的论文节点标识序列生成方法是:
步骤2.2)得到的上下文特征表示zNI融合了论文节点内容序列
Figure FDA0004141174760000044
中的所有论文节点的内容信息
Figure FDA0004141174760000045
以及
Figure FDA0004141174760000046
自身所携带的顺序信息,为了生成对应的论文节点标识序列,首先采用LSTM,以zNI作为初始状态,无需输入特征序列,直接生成面向论文节点标识空间的高层隐含特征序列
Figure FDA0004141174760000047
其中第t个隐含特征
Figure FDA0004141174760000048
的生成过程如下:
Figure FDA0004141174760000049
然后基于解码得到的高层隐含特征序列
Figure FDA00041411747600000410
利用全连接层将高层隐含特征序列中的每一个节点特征
Figure FDA00041411747600000411
映射到节点标识空间,得到节点标识空间中第t个论文节点的标识
Figure FDA00041411747600000412
实现从内容模态到结构模态的语义映射,
Figure FDA00041411747600000413
其中σ(·)为sigmoid激活函数,WNI-Tran和bNm-Tran分别为全连接层的权重矩阵与偏置项;随后,进一步采用softmax层将
Figure FDA00041411747600000414
归一化为在所有|V|个节点标识上的概率分布:
Figure FDA00041411747600000415
在论文节点标识序列生成阶段,第t个论文节点的表示为
Figure FDA00041411747600000416
Figure FDA00041411747600000417
6.根据权利要求5所述的一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,步骤3.1)所述论文内容生成部分的论文节点标识嵌入方法是:
采用一个论文节点标识嵌入层,通过查寻论文节点的初始化嵌入矩阵来获取论文节点标识序列中不同论文节点的标识向量表示;
Figure FDA0004141174760000051
其中,
Figure FDA0004141174760000052
为所有|V|个论文节点标识的初始化嵌入矩阵,
Figure FDA0004141174760000053
为第t个论文节点的节点标识向量,kn是嵌入向量的维度;查询函数LookUpv(·,·)将每个论文节点标识
Figure FDA0004141174760000054
所对应的嵌入向量
Figure FDA0004141174760000055
按顺序组合成序列
Figure FDA0004141174760000056
7.根据权利要求6所述的一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,步骤3.2)所述论文内容生成部分的论文节点标识序列编码方法是:
在获取到
Figure FDA0004141174760000057
之后,采用Bi-LSTM对论文节点标识序列进行编码,根据
Figure FDA0004141174760000058
之间的序列结构信息,将论文节点标识序列编码为上下文特征表示zCG,作为后续的论文内容生成过程的输入;在处理
Figure FDA0004141174760000059
中每个论文节点标识的嵌入向量
Figure FDA00041411747600000510
时,一个前向的LSTM将累积编码从序列开始直到当前所经历的所有论文节点的标识特征,得到当前的隐藏状态向量
Figure FDA00041411747600000511
Figure FDA00041411747600000512
同时利用一个后向的LSTM,以相反的顺序累积编码从序列结尾直到当前所经历的所有论文节点的标识特征,得到当前的隐藏状态向量
Figure FDA00041411747600000513
Figure FDA00041411747600000514
其中
Figure FDA00041411747600000515
Figure FDA00041411747600000516
分别表示前向和后向LSTM网络,
Figure FDA00041411747600000517
Figure FDA00041411747600000518
分别表示第t个节点对应的前向隐藏状态和后向隐藏状态,t的取值范围为t=1,2,...,T;
在论文节点标识序列编码阶段的第t个论文节点的表示为
Figure FDA00041411747600000519
Figure FDA00041411747600000520
通过在
Figure FDA00041411747600000521
上进行迭代的学习,从两个相反的方向有效挖掘论文节点标识序列中的结构语义信息,然后通过拼接前向和后向LSTM最后的隐藏状态表示,得到整个论文节点标识序列的表示:
Figure FDA0004141174760000061
8.根据权利要求7所述的一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,步骤3.3)所述论文内容生成部分的论文语义解码方法是:
在经过论文节点标识嵌入层与论文节点标识序列编码层之后,已经将论文节点标识序列
Figure FDA0004141174760000062
中的结构信息融合到压缩的上下文特征表示zCG中,作为生成节点内容之前的关键步骤,需要对上下文特征表示zCG进行解码,得到整个序列的语义特征序列
Figure FDA0004141174760000063
用于衔接网络结构与节点内容这两种模态空间;采用LSTM,以上下文特征表示zCG为初始状态,无需输入特征序列,直接生成输出序列,其中第t个论文节点的语义特征
Figure FDA0004141174760000064
的生成过程如下:
Figure FDA0004141174760000065
基于上下文特征表示zCG,LSTMCG-Dec(·,·)按照从前往后的顺序,依次生成所有T个论文节点所对应的内容语义特征,每个
Figure FDA0004141174760000066
中已经融合了
Figure FDA0004141174760000067
中包含的论文节点身份信息以及序列中的顺序结构,作为生成内容信息的基础;此外,在生成完输入序列中的论文节点的语义向量之后,可以继续生成,预测出新的论文节点的语义向量;
在论文语义解码阶段,第t个论文节点的表示为
Figure FDA0004141174760000068
Figure FDA0004141174760000069
9.根据权利要求8所述的一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,步骤3.4)所述论文内容生成部分的论文内容生成方法是:
最后,基于解码后的论文语义特征序列
Figure FDA00041411747600000610
采用LSTM,以
Figure FDA00041411747600000611
作为初始状态,直接生成节点的词表示序列;
给定生成文本的最大长度L,LSTM将从头开始,逐步生成单词序列,当单词序列的长度达到L,或生成的词为停止符号<EOS>时,生成过程停止;对于序列中的第t个论文节点,第l个词的隐含表征的生成过程如下:
Figure FDA00041411747600000612
在l=1时,以高层语义特征
Figure FDA0004141174760000071
为隐藏状态,不需要输入特征,直接生成第1个隐藏状态
Figure FDA0004141174760000072
用于进一步生成单词;而在l>1时,则将已生成的上一个词的词向量表征
Figure FDA0004141174760000073
作为输入特征,结合传递过来的隐藏状态
Figure FDA0004141174760000074
共同生成当前的隐藏状态
Figure FDA0004141174760000075
用于进一步生成当前的单词;在训练阶段与测试阶段,已生成的上一个词的词向量表征
Figure FDA0004141174760000076
有不同的设置;在训练过程中,为了最大化节点文本内容的似然概率,从给定的
Figure FDA0004141174760000077
中挑选出第l-1个真实词,将它的词向量作为
Figure FDA0004141174760000078
输入到LSTM中:
Figure FDA0004141174760000079
而在测试阶段,为论文节点预测新的文本内容时,
Figure FDA00041411747600000710
为上一步中预测出的词所对应的词向量:
Figure FDA00041411747600000711
其中
Figure FDA00041411747600000712
是关于
Figure FDA00041411747600000713
的函数,表示上一步中预测出的词为词表中第j个词的概率,此处挑选生成概率最大的词;
基于以上文本生成过程,为序列中第t个论文节点解码出长度为L的文本语义序列
Figure FDA00041411747600000714
采用全连接层将每个
Figure FDA00041411747600000715
映射到
Figure FDA00041411747600000716
维的词典空间中,得到词典空间中的向量表示
Figure FDA00041411747600000717
Figure FDA00041411747600000718
其中σ(·)为sigmoid激活函数,WGC-Word和bCG-Word分别为全连接层的权重矩阵与偏置项,并采用softmax层将
Figure FDA00041411747600000719
进一步转化为在所有
Figure FDA00041411747600000720
个词上的概率分布:
Figure FDA00041411747600000721
如果想要预测出新的论文节点内容时,对于所述预测出的新的论文节点的语义向量执行相同的操作,能够得到新的论文节点的内容单词序列。
10.根据权利要求9所述的一种基于对偶的序列到序列生成的论文网络表示学习方法,其特征在于,步骤4)所述对偶融合论文节点识别部分和论文内容生成部分的方法是:
论文节点识别部分和论文内容生成部分是紧密相关的,它们是从两个相反的角度来建模论文节点内容序列与论文节点标识序列之间的跨模态语义生成关系,为了实现两个对偶部分中互补知识的融合,利用中间隐藏层的共享,采用线性层来将两个部分耦合到一起,同时进行学习;
Figure FDA0004141174760000081
Figure FDA0004141174760000082
其中,WDual,1、bDual,1、WDual,2、bDual,2为线性融合层的权重与偏置项;经历了以上对偶融合过程之后,此时的
Figure FDA0004141174760000083
Figure FDA0004141174760000084
中已经包含了来自目标模态的语义信息;于是,将
Figure FDA0004141174760000085
分别送入步骤2.3)和步骤3.3)所描述的序列解码层中,从而提高解码与生成的准确性;
最终第t个论文节点的向量表示为:
Figure FDA0004141174760000086
CN201911300281.1A 2019-12-17 2019-12-17 一种基于对偶的序列到序列生成的论文网络表示学习方法 Active CN111104797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911300281.1A CN111104797B (zh) 2019-12-17 2019-12-17 一种基于对偶的序列到序列生成的论文网络表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911300281.1A CN111104797B (zh) 2019-12-17 2019-12-17 一种基于对偶的序列到序列生成的论文网络表示学习方法

Publications (2)

Publication Number Publication Date
CN111104797A CN111104797A (zh) 2020-05-05
CN111104797B true CN111104797B (zh) 2023-05-02

Family

ID=70423010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911300281.1A Active CN111104797B (zh) 2019-12-17 2019-12-17 一种基于对偶的序列到序列生成的论文网络表示学习方法

Country Status (1)

Country Link
CN (1) CN111104797B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598223B (zh) * 2020-05-15 2023-10-24 天津科技大学 一种基于属性和结构深度融合的网络嵌入方法及其模型
CN111708881A (zh) * 2020-05-22 2020-09-25 国网天津市电力公司 一种引入关联关系的文本表示学习方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN109710946A (zh) * 2019-01-15 2019-05-03 福州大学 一种基于依赖解析树的联合论辩挖掘***及方法
CN110008323A (zh) * 2019-03-27 2019-07-12 北京百分点信息科技有限公司 一种半监督学习结合集成学习的问题等价性判别的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN109710946A (zh) * 2019-01-15 2019-05-03 福州大学 一种基于依赖解析树的联合论辩挖掘***及方法
CN110008323A (zh) * 2019-03-27 2019-07-12 北京百分点信息科技有限公司 一种半监督学习结合集成学习的问题等价性判别的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Na Li等.Hybrid algorithm based scheduling optimization in robotic cell with dual-gripper.《Proceeding of the IEEE International Conference on Information and Automation》.2014,第147-152页. *
Sindri Magn´usson等.Communication Complexity of Dual Decomposition Methods for Distributed Resource Allocation Optimization.《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》.2018,第第12卷卷(第第12卷期),第717-732页. *
江东灿 ; 陈维政 ; 闫宏飞 ; .基于deepwalk方法的适应有限文本信息的DWLTI算法.郑州大学学报(理学版).2017,49(01),第29-33页. *

Also Published As

Publication number Publication date
CN111104797A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和***
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN109299216A (zh) 一种融合监督信息的跨模态哈希检索方法和***
CN111538848A (zh) 一种融合多源信息的知识表示学习方法
CN109101235A (zh) 一种软件程序的智能解析方法
CN111027595A (zh) 双阶段语义词向量生成方法
CN111104797B (zh) 一种基于对偶的序列到序列生成的论文网络表示学习方法
CN113254616B (zh) 面向智能问答***的句向量生成方法及***
CN112559764A (zh) 一种基于领域知识图谱的内容推荐方法
CN110781271A (zh) 一种基于层次注意力机制的半监督网络表示学习模型
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN113971837A (zh) 一种基于知识的多模态特征融合的动态图神经手语翻译方法
Yi et al. Efficient online label consistent hashing for large-scale cross-modal retrieval
CN113300813A (zh) 基于注意力的针对文本的联合信源信道方法
Wang et al. Fusion-supervised deep cross-modal hashing
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和***
CN117496388A (zh) 基于动态记忆网络的跨模态视频描述模型
CN111723649B (zh) 一种基于语义分解的短视频事件检测方法
CN117235216A (zh) 一种基于异构知识融合的知识推理方法
CN117033423A (zh) 一种注入最优模式项和历史交互信息的sql生成方法
CN116483990A (zh) 一种基于大数据的互联网新闻内容自动生成方法
CN114298052B (zh) 一种基于概率图的实体联合标注关系抽取方法和***
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant