CN110688474B

CN110688474B - 基于深度学习与链接预测的嵌入表示获得及引文推荐方法

Info

Publication number: CN110688474B
Application number: CN201910826787.XA
Authority: CN
Inventors: 蔡晓妍; 顾铭; 杨黎斌; 王楠鑫; 梅欣; 刘森
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2023-03-14
Anticipated expiration: 2039-09-03
Also published as: CN110688474A

Abstract

本发明提供了一种基于深度学习与链接预测的引文推荐方法，包括以下步骤：步骤1，获取已知论文库中所有论文结点特征信息和已知论文库的引文网络；步骤2，将论文结点分别在引文网络中进行传播，得到每个论文结点的嵌入表示；步骤3，输入待推荐引文的论文结点，计算待推荐引文的论文结点的嵌入表示；步骤4，根据待推荐引文的论文结点的嵌入表示和已知论文库中每个论文结点的嵌入表示，计算待推荐引文的论文结点和已知论文库中每个论文结点的余弦相似度，并选取前t个余弦相似度所对应的论文结点作为待推荐引文的论文结点的引文列表。

Description

基于深度学习与链接预测的嵌入表示获得及引文推荐方法

技术领域

本发明文档搜索领域，具体涉及一种基于深度学习与链接预测的嵌入表示获得及引文推荐方法。

背景技术

一篇科学研究论文需要引用之前相关的重要工作来帮助读者了解它的背景和创新点，科研人员通常想要快速地了解这个领域中已有的文献，包括哪些论文是最相关的，这些论文中有哪些子主题等。查找参考文献的两种常见方法是：

1)在搜索引擎上搜索文档，如谷歌；

2)从少量的初始论文(种子论文)开始跟踪被引用的参考文献。

但是第一种方法很难找到一个全面的关键字列表涵盖所有的论文，尤其是对于一个领域的新入门者来说，而且对于术业有专攻的研究人员来说，这样做也很有可能错过他领域之外相关交叉内容的重要发展。第二种方法平均一篇论文可以引用20多篇论文，如果对每一个引用进行分析，看看它是否有用，随着跟踪深度的增加这将花费相当多的时间。此外，由于篇幅的限制，即使是一篇组织良好的论文也可能遗漏一些重要的“相关工作”。

更重要的是，如今庞大且迅速增长的科学文献库使任何人都很难阅读和消化所有的论文。文献和方法的数量对新研究人员来说是一个问题：他们不知道哪些文章最相关，哪些推荐方法最有希望。即使熟悉研究报告推荐***的研究人员也难以跟踪当前的发展情况。

发明内容

针对现有技术中存在的不足，本发明的目的在于，提供一种基于深度学习与链接预测的嵌入表示获得及引文推荐方法，解决现有技术无法高效全面获取推荐引文的技术问题。

为了解决上述技术问题，本申请采用如下技术方案予以实现：

一种基于深度学习与链接预测的嵌入表示获得方法，用于获得待表示引文网络中每个论文结点的嵌入表示，包括以下步骤：

步骤1，获得待表示引文网络，所述待表示引文网络包括N个论文结点以及每个论文结点的特征信息，N为正整数；

步骤2，获得每个论文结点的嵌入表示，包括：

步骤21、将每个论文结点的特征信息转化为特征向量x，x∈R^1×D；

将N个特征向量填充至一个N×D的矩阵中，获得特征向量矩阵X；

步骤22，将所述的特征向量矩阵X输入至嵌入表示获得网络中；

其中所述的嵌入表示获得网络包括依次设置的初始特征向量获得模块以及信息传播模块；

所述的初始特征向量获得模块采用式I对特征向量矩阵X进行升维或降维，获得初始特征向量矩阵X′：

X′＝XW 式I

式I中W为更新后的第一权值矩阵，W∈R^D×d，X′∈R^N×d；

所述的信息传播模块将所述的初始特征向量矩阵X′在待表示引文网络中进行传播更新，获得每个论文结点的嵌入表示。

进一步地，所述的信息传播模块中将所述的初始特征向量矩阵X′在待表示引文网络中进行传播更新时，通过式II获得每个论文结点的嵌入表示X_e：

式II中，L为迭代次数，L≥1，α为转移概率，α∈[0,1]；Z⁽⁰⁾＝X′，H＝X′；A为引文网络的邻接矩阵，A∈R^N×N，

为单位矩阵，I_N∈R^N ^×N。

进一步地，获得更新后的第一权值矩阵W，具体包括：

所述待表示引文网络还包括M个引用边，其中每个引用边对应两个论文结点，利用所述的M个引用边对嵌入表示获得网络进行训练更新初始第一权值矩阵，获得更新后的第一权值矩阵W，按照以下步骤执行：

步骤A，将M个引用边划分为训练集和验证集；

所述训练集中包括a组引用边，每组引用边包括2^b个引用边，b为大于等于1的自然数，a为大于等于1的整数；

所述验证集中包括f个引用边，f为大于等于1的整数；

步骤B、构建分类网络，所述的分类网络包括依次设置的所述嵌入表示获得网络以及分类器，所述分类器包括P层神经网络，每层神经网络包括第二权值矩阵；

步骤C、从训练集中任选一组引用边输入至分类网络中进行训练，获得本次训练的第一损失函数；

利用本次训练的第一损失函数更新第一权值矩阵以及第二权值矩阵，获得本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵；

其中在首次执行步骤C时，第一权值矩阵与第二权值矩阵中的元素均为随机数；

在第二次及以后执行步骤C时，第一权值矩阵为上一次执行步骤D获得的更新后的第一权值矩阵，第二权值矩阵为上一次执行步骤D获得的更新后的第二权值矩阵；

步骤D、利用所述的本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵更新分类网络，获得本次更新后的分类网络；

步骤E、将验证集中的f个引用边输入至本次更新后的分类网络中，获得本次更新的第二损失函数；

步骤F、将本次更新后的分类网络作为分类网络重复执行步骤C-步骤E，直至连续10次更新的第二损失函数的值不再下降，将最后一次执行步骤C获得的本次更新后的第一权值矩阵作为更新后的第一权值矩阵。

进一步地，通过式III计算损失函数loss，所述的损失函数包括第一损失函数以及第二损失函数：

式III中，l_(v,u)为引用边(v,u)的标签，

表示引用边(v,u)标签预测值l′_(v,u)的第一维，

表示引用边(v,u)标签预测值l′_(v,u)的第二维；

l′_(v,u)表示引用边(v,u)标签预测值，l′_(v,u)＝E_(v,u)W₁...W_p...W_P，其中W_p表示第二权值矩阵，p＝1,2,...,P，P为大于1的自然数；

E_(v,u)表示引用边(v,u)的嵌入表示，E_(v,u)＝(x_v1,x_v2,...,x_vd,x_u1,x_u2,...,x_ud)；

X_v＝(x_v1,x_v2,...,x_vd)表示论文结点v的嵌入表示，X_u＝(x_u1,x_u2,...,x_ud)表示论文结点u的嵌入表示。

一种基于深度学习与链接预测的引文推荐方法，用于在待推荐引文网络中获得针对待推荐引文的推荐序列，按照以下步骤执行：

步骤I、获得待推荐引文的论文结点，利用基于深度学习与链接预测的嵌入表示获得方法中步骤2的方法获得待推荐引文的论文结点的嵌入表示；

步骤II、利用基于深度学习与链接预测的嵌入表示获得方法获得待推荐引文网络中每个论文结点的嵌入表示，获得网络嵌入表示数据库；

步骤III、计算待推荐引文的论文结点的嵌入表示与网络嵌入表示数据库中每个嵌入表示之间的余弦相似度，得到多个余弦相似度，将所有余弦相似度降序排列，并选取前t个余弦相似度对应的嵌入表示对应的论文结点作为待推荐引文的论文结点的推荐序列，t≥1。

本发明与现有技术相比具有以下技术效果：

本发明通过更符合引文推荐场景需求的链接预测方式来训练网络，通过将待推荐论文已有的特征数据(文本、标签、协同信息等)在已有的引文网络中进行传播，从而达到结合引文网络的结构信息和文本等非结构信息的目的，获得待推荐的论文在潜在特征空间中信息保留更全面的嵌入表示。最后对嵌入表示进行相似度评分与排序，获得推荐引文列表。

附图说明

图1为本发明的方法流程图。

以下结合附图和实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

引文网络：由文献间引用和被引用的关系构成的集合，这些文献资料包括科技期刊、专利文献、会议论文集、科技报告和学位论文等多种形式，其较好地描述了科学领域的发展、学科间的关系。

实施例一：

本实施例给出一种基于深度学习与链接预测的嵌入表示获得方法，包括以下步骤：

本发明中论文结点特征信息包括文本、标签和协同信息等，引文网络的结点链接信息只需要读取并记录论文的参考文献部分即可获得，很多论文网站都直接提供参考文献列表，比如谷歌学术、数字书目索引与图书馆项目(Digital Bibliography&LibraryProject，简称DBLP)等，只需要进行爬取即可，在获取完之后将其转化论文结点之间的邻接矩阵或邻接表存储下来。

步骤2，获得每个论文结点的嵌入表示，包括：

步骤22，将特征向量矩阵X输入至嵌入表示获得网络中；

其中嵌入表示获得网络包括依次设置的初始特征向量获得模块以及信息传播模块；

初始特征向量获得模块采用式I对特征向量矩阵X进行升维或降维，获得初始特征向量矩阵X′：

X′＝XW 式I

式I中W为更新后的第一权值矩阵，W∈R^D×d，X′∈R^N×d；

信息传播模块将初始特征向量矩阵X′在待表示引文网络中进行传播更新，获得每个论文结点的嵌入表示。

以文本信息作为例子，对于一篇论文来说，其标题和摘要中蕴含的信息应当是最能够体现该篇论文主题和研究内容的，所以可以选取每一个论文结点的标题和摘要作为待处理文本信息。然后利用Quoc Le和Tomas Mikolov在2014年提出的文本嵌入算法Doc2Vec将获取到的文本信息转化为潜在特征空间中的D维特征向量，以此作为输入的待传播信息。

在本实施例中为了更好地提取表征其特征信息，需要对D维特征向量进行升维或降维。

可选地，信息传播模块中将初始特征向量矩阵X′在待表示引文网络中进行传播更新时，通过式II迭代L次计算，获得任一论文结点的嵌入表示X_e，L≥1：

式II中，α为转移概率，α∈[0,1]；Z⁽⁰⁾＝X′，H＝X′；I_N为单位矩阵，I_N∈R^N×N；A为引文网络的邻接矩阵，A∈R^N×N，

在本实施例中，迭代计算的过程具体如下：

Z⁽⁰⁾＝H＝X'

初始值Z⁽⁰⁾＝X′，第一次迭代时

第二次迭代时

第三次迭代时

一直重复迭代，直至获得第L次的迭代结果，将第L次的迭代结果作为嵌入表示X_e。

可选地，获得更新后的第一权值矩阵W，具体包括：

所述待表示引文网络还包括M个引用边，其中每个引用边对应两个论文结点，利用M个引用边对嵌入表示获得网络进行训练更新初始第一权值矩阵，获得更新后的第一权值矩阵W，按照以下步骤执行：

步骤A，将M个引用边划分为训练集和验证集；

所述验证集中包括f个引用边，f为大于等于1的整数；

步骤B、构建分类网络，分类网络包括依次设置的所述嵌入表示获得网络以及分类器，所述分类器包括P层神经网络，每层神经网络包括第二权值矩阵；

在第二次以后执行步骤C时，第一权值矩阵为上一次执行步骤D获得的更新后的第一权值矩阵，第二权值矩阵为上一次执行步骤D获得的更新后的第二权值矩阵；

步骤D、利用本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵更新分类网络，获得本次更新后的分类网络；

在本实施例中，如图1所示，通过构建了包含分类器的分类网络对嵌入表示获得网络进行训练，目的是为了获得最终更新后的第一权值矩阵，具体过程为多次迭代训练：

首次训练：训练分类网络，获得首次训练的第一损失函数，利用首次训练的第一损失函数，更新第一权值矩阵以及第二权值矩阵，第一权值矩阵以及第二权值矩阵更新完成之后，相当于获得了一个新的分类网络，再次利用测试集数据计算这个新的分类网络的第二损失函数，作为一个迭代停止条件，例如在首次训练时第二损失函数为0.000121；

第二次训练：训练经过首次训练已经更新过的分类网络，获得第一损失函数，利用本次训练获得的第一损失函数，再次更新第一权值矩阵以及第二权值矩阵，获得本次训练更新后的第一权值矩阵、第二权值矩阵以及新的分类网络，再次利用测试集数据计算新的分类网络的第二损失函数，例如本次训练获得的第二损失函数也为0.000121；

重复多次训练，每次训练时分类网络都是上一次训练后更新获得的新的分类网络，对这个分类网络进行不断的迭代更新，迭代更新的停止条件是10次训练获得的第二损失函数保持不变，则说明当前的分类网络更新完成，将更新完成后的分类网络中的嵌入表示获得网络取出来，作为步骤22中的嵌入表示获得网络。

可选地，通过式III计算损失函数loss：

式III中，l_(v,u)为引用边(v,u)的标签，

表示引用边(v,u)标签预测值l′_(v,u)的第一维，

表示引用边(v,u)标签预测值l′_(v,u)的第二维；

在本实施例中，引用边(v,u)可表示任意一条引用边，即论文结点v和论文结点u的直接连接边。

l′_(v,u)表示引用边(v,u)标签预测值，l′_(v,u)＝E_(v,u)W₁...W_p...W_P；

X_v＝(x_v1,x_v2,...,x_vd)表示论文结点v的嵌入表示，X_u＝(x_u1,x_u2,...,x_ud)表示论文

结点u的嵌入表示。

在本实施例中，若(v,u)之间实际存在一条边，则(v,u)标签定为l_(v,u)＝1，若实际不存在则l_(v,u)＝0；

实施例二

在本实施例中公开了一种基于深度学习与链接预测的引文推荐方法，用于在待推荐引文网络中获得针对待推荐引文的推荐序列，按照以下步骤执行：

步骤I、获得待推荐引文的论文结点，利用实施例一中的基于深度学习与链接预测的嵌入表示获得方法中步骤2的方法获得待推荐引文的论文结点的嵌入表示；

在本实施例中，根据式IV计算待推荐引文的论文结点P_Q和已知论文库中每个论文结点的余弦相似度：

Similarity_(Q,e)＝cos<X_Q,X_e> 式IV

式IV中，X_e为已知论文库中任一论文结点的嵌入表示，X_Q为待推荐引文的论文结点P_Q的嵌入表示，cos<,>表示余弦相似度函数。

实施例三

在本实施例中对本发明提供的引文推荐方法与现有技术中的方法进行比较，在本实施例中选取了四种现有的基线算法，如表1所示：

表1基线算法

其中，Doc2Vec为文本嵌入算法，只对非结构文本信息进行嵌入表示，DeepWalk与Node2Vec为网络嵌入算法，只对结构信息进行嵌入表示，这两者与本发明提供的方法一起对比可以分析本发明提供的方法选择结合结构与非结构信息进行嵌入表示的优势。另一方面，TriDNR为前人设计的结合结构与非结构(文本)信息的嵌入表示算法，其与本发明提供的方法对比，可以体现本设计的信息传播算法在结合两种特征的算法中的优势。实验中，将各算法训练完成后得到的结点嵌入表示统一为128维。

在本实施例中选取的实验数据集如表2所示：

表2数据集选取

数据集网络均为无向图，实验从三个不同的角度设计了数据集的选取。

首先，考虑不同非结构特征的选取是否会影响算法的效果。Cora_ml数据集的初始非结构特征为2879维独热编码后的特征向量，其将直接作为模型输入的待传播信息；而其余四个数据集的初始非结构特征为每一篇论文的标题与摘要的文本信息，这些文本会被Doc2Vec算法预处理为256维的特征向量作为模型输入的待传播信息。

其次，考虑同一非结构特征的不同质量将会怎样影响结合结构与非结构特征的算法表现。AAN与DBLP的非结构特征均选取为标题加摘要的文本形式，但AAN数据集给出的文本是直接对论文的PDF文件OCR所得，其中字符识别存在小部分乱码及单词识别错误的情况，其文本质量是差的；而DBLP数据集给出的文本是由人工输入的，是精确的标题与摘要，其质量是好的。

最后，考虑算法在不同规模的网络数据上的表现是否有差异。DBLP的初始数据集是千万级别的网络，实验抽取了2531、7578和34277个结点的三个版本，用于对比分析。

实验选取的评估指标为信息检索领域推荐任务的三个通用指标，平均倒数排名(MRR@N)、平均精度均值(MAP@N)和召回率(Recall@N)。

MRR@N(Mean reciprocal rank)：平均倒数排名依据排序的正确性，对检索请求响应结果评估。相同条件下，MRR值越大，表明模型越能够将相关性高的结果置于检索结果列表靠前的位置。P_N表示前N个检索结果当中正确结果的集合，rank_i表示第i个正确结果的排序序号。

MAP@N(Mean average precision)：平均精度均值是一组查询的每个检索结果的平均精度得分的均值，其值越高，表明模型检索的准确率越高。TP(k)表示前k个结果中正确结果的个数，Q表示检索请求个数。

Recall@N：召回率是指前N个检索结果中正确结果被召回的个数，其值越高，表明模型能召回的正确样本越多。

实验对比结果见表3至表7，表3为利用Cora_ml数据集对5种方法的测试实验结果对比，表4为利用AAN数据集对5种方法的测试实验结果对比，表5为利用DBLP_2531数据集对5种方法的测试实验结果对比，表6为利用DBLP_7578数据集对5种方法的测试实验结果对比，表7为利用DBLP_34277数据集对5种方法的测试实验结果对比。

表3 Cora_ml实验结果

表4 AAN实验结果

表5 DBLP_2531实验结果

表6 DBLP_7578实验结果

表7 DBLP_34277实验结果

从对比结果中可以看出，本发明提供的推荐方法与其他算法相比具有明显优势，无论是在平均倒数排名、平均精度均值还是召回率上，本发明提供的推荐方法的性能均要优于现有技术中的推荐算法。