CN110688474B - 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 - Google Patents
基于深度学习与链接预测的嵌入表示获得及引文推荐方法 Download PDFInfo
- Publication number
- CN110688474B CN110688474B CN201910826787.XA CN201910826787A CN110688474B CN 110688474 B CN110688474 B CN 110688474B CN 201910826787 A CN201910826787 A CN 201910826787A CN 110688474 B CN110688474 B CN 110688474B
- Authority
- CN
- China
- Prior art keywords
- network
- updated
- weight matrix
- embedded representation
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于深度学习与链接预测的引文推荐方法,包括以下步骤:步骤1,获取已知论文库中所有论文结点特征信息和已知论文库的引文网络;步骤2,将论文结点分别在引文网络中进行传播,得到每个论文结点的嵌入表示;步骤3,输入待推荐引文的论文结点,计算待推荐引文的论文结点的嵌入表示;步骤4,根据待推荐引文的论文结点的嵌入表示和已知论文库中每个论文结点的嵌入表示,计算待推荐引文的论文结点和已知论文库中每个论文结点的余弦相似度,并选取前t个余弦相似度所对应的论文结点作为待推荐引文的论文结点的引文列表。
Description
技术领域
本发明文档搜索领域,具体涉及一种基于深度学习与链接预测的嵌入表示获得及引文推荐方法。
背景技术
一篇科学研究论文需要引用之前相关的重要工作来帮助读者了解它的背景和创新点,科研人员通常想要快速地了解这个领域中已有的文献,包括哪些论文是最相关的,这些论文中有哪些子主题等。查找参考文献的两种常见方法是:
1)在搜索引擎上搜索文档,如谷歌;
2)从少量的初始论文(种子论文)开始跟踪被引用的参考文献。
但是第一种方法很难找到一个全面的关键字列表涵盖所有的论文,尤其是对于一个领域的新入门者来说,而且对于术业有专攻的研究人员来说,这样做也很有可能错过他领域之外相关交叉内容的重要发展。第二种方法平均一篇论文可以引用20多篇论文,如果对每一个引用进行分析,看看它是否有用,随着跟踪深度的增加这将花费相当多的时间。此外,由于篇幅的限制,即使是一篇组织良好的论文也可能遗漏一些重要的“相关工作”。
更重要的是,如今庞大且迅速增长的科学文献库使任何人都很难阅读和消化所有的论文。文献和方法的数量对新研究人员来说是一个问题:他们不知道哪些文章最相关,哪些推荐方法最有希望。即使熟悉研究报告推荐***的研究人员也难以跟踪当前的发展情况。
发明内容
针对现有技术中存在的不足,本发明的目的在于,提供一种基于深度学习与链接预测的嵌入表示获得及引文推荐方法,解决现有技术无法高效全面获取推荐引文的技术问题。
为了解决上述技术问题,本申请采用如下技术方案予以实现:
一种基于深度学习与链接预测的嵌入表示获得方法,用于获得待表示引文网络中每个论文结点的嵌入表示,包括以下步骤:
步骤1,获得待表示引文网络,所述待表示引文网络包括N个论文结点以及每个论文结点的特征信息,N为正整数;
步骤2,获得每个论文结点的嵌入表示,包括:
步骤21、将每个论文结点的特征信息转化为特征向量x,x∈R1×D;
将N个特征向量填充至一个N×D的矩阵中,获得特征向量矩阵X;
步骤22,将所述的特征向量矩阵X输入至嵌入表示获得网络中;
其中所述的嵌入表示获得网络包括依次设置的初始特征向量获得模块以及信息传播模块;
所述的初始特征向量获得模块采用式I对特征向量矩阵X进行升维或降维,获得初始特征向量矩阵X′:
X′=XW 式I
式I中W为更新后的第一权值矩阵,W∈RD×d,X′∈RN×d;
所述的信息传播模块将所述的初始特征向量矩阵X′在待表示引文网络中进行传播更新,获得每个论文结点的嵌入表示。
进一步地,所述的信息传播模块中将所述的初始特征向量矩阵X′在待表示引文网络中进行传播更新时,通过式II获得每个论文结点的嵌入表示Xe:
进一步地,获得更新后的第一权值矩阵W,具体包括:
所述待表示引文网络还包括M个引用边,其中每个引用边对应两个论文结点,利用所述的M个引用边对嵌入表示获得网络进行训练更新初始第一权值矩阵,获得更新后的第一权值矩阵W,按照以下步骤执行:
步骤A,将M个引用边划分为训练集和验证集;
所述训练集中包括a组引用边,每组引用边包括2b个引用边,b为大于等于1的自然数,a为大于等于1的整数;
所述验证集中包括f个引用边,f为大于等于1的整数;
步骤B、构建分类网络,所述的分类网络包括依次设置的所述嵌入表示获得网络以及分类器,所述分类器包括P层神经网络,每层神经网络包括第二权值矩阵;
步骤C、从训练集中任选一组引用边输入至分类网络中进行训练,获得本次训练的第一损失函数;
利用本次训练的第一损失函数更新第一权值矩阵以及第二权值矩阵,获得本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵;
其中在首次执行步骤C时,第一权值矩阵与第二权值矩阵中的元素均为随机数;
在第二次及以后执行步骤C时,第一权值矩阵为上一次执行步骤D获得的更新后的第一权值矩阵,第二权值矩阵为上一次执行步骤D获得的更新后的第二权值矩阵;
步骤D、利用所述的本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵更新分类网络,获得本次更新后的分类网络;
步骤E、将验证集中的f个引用边输入至本次更新后的分类网络中,获得本次更新的第二损失函数;
步骤F、将本次更新后的分类网络作为分类网络重复执行步骤C-步骤E,直至连续10次更新的第二损失函数的值不再下降,将最后一次执行步骤C获得的本次更新后的第一权值矩阵作为更新后的第一权值矩阵。
进一步地,通过式III计算损失函数loss,所述的损失函数包括第一损失函数以及第二损失函数:
l′(v,u)表示引用边(v,u)标签预测值,l′(v,u)=E(v,u)W1...Wp...WP,其中Wp表示第二权值矩阵,p=1,2,...,P,P为大于1的自然数;
E(v,u)表示引用边(v,u)的嵌入表示,E(v,u)=(xv1,xv2,...,xvd,xu1,xu2,...,xud);
Xv=(xv1,xv2,...,xvd)表示论文结点v的嵌入表示,Xu=(xu1,xu2,...,xud)表示论文结点u的嵌入表示。
一种基于深度学习与链接预测的引文推荐方法,用于在待推荐引文网络中获得针对待推荐引文的推荐序列,按照以下步骤执行:
步骤I、获得待推荐引文的论文结点,利用基于深度学习与链接预测的嵌入表示获得方法中步骤2的方法获得待推荐引文的论文结点的嵌入表示;
步骤II、利用基于深度学习与链接预测的嵌入表示获得方法获得待推荐引文网络中每个论文结点的嵌入表示,获得网络嵌入表示数据库;
步骤III、计算待推荐引文的论文结点的嵌入表示与网络嵌入表示数据库中每个嵌入表示之间的余弦相似度,得到多个余弦相似度,将所有余弦相似度降序排列,并选取前t个余弦相似度对应的嵌入表示对应的论文结点作为待推荐引文的论文结点的推荐序列,t≥1。
本发明与现有技术相比具有以下技术效果:
本发明通过更符合引文推荐场景需求的链接预测方式来训练网络,通过将待推荐论文已有的特征数据(文本、标签、协同信息等)在已有的引文网络中进行传播,从而达到结合引文网络的结构信息和文本等非结构信息的目的,获得待推荐的论文在潜在特征空间中信息保留更全面的嵌入表示。最后对嵌入表示进行相似度评分与排序,获得推荐引文列表。
附图说明
图1为本发明的方法流程图。
以下结合附图和实施例对本发明的具体内容作进一步详细解释说明。
具体实施方式
以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
引文网络:由文献间引用和被引用的关系构成的集合,这些文献资料包括科技期刊、专利文献、会议论文集、科技报告和学位论文等多种形式,其较好地描述了科学领域的发展、学科间的关系。
实施例一:
本实施例给出一种基于深度学习与链接预测的嵌入表示获得方法,包括以下步骤:
步骤1,获得待表示引文网络,所述待表示引文网络包括N个论文结点以及每个论文结点的特征信息,N为正整数;
本发明中论文结点特征信息包括文本、标签和协同信息等,引文网络的结点链接信息只需要读取并记录论文的参考文献部分即可获得,很多论文网站都直接提供参考文献列表,比如谷歌学术、数字书目索引与图书馆项目(Digital Bibliography&LibraryProject,简称DBLP)等,只需要进行爬取即可,在获取完之后将其转化论文结点之间的邻接矩阵或邻接表存储下来。
步骤2,获得每个论文结点的嵌入表示,包括:
步骤21、将每个论文结点的特征信息转化为特征向量x,x∈R1×D;
将N个特征向量填充至一个N×D的矩阵中,获得特征向量矩阵X;
步骤22,将特征向量矩阵X输入至嵌入表示获得网络中;
其中嵌入表示获得网络包括依次设置的初始特征向量获得模块以及信息传播模块;
初始特征向量获得模块采用式I对特征向量矩阵X进行升维或降维,获得初始特征向量矩阵X′:
X′=XW 式I
式I中W为更新后的第一权值矩阵,W∈RD×d,X′∈RN×d;
信息传播模块将初始特征向量矩阵X′在待表示引文网络中进行传播更新,获得每个论文结点的嵌入表示。
以文本信息作为例子,对于一篇论文来说,其标题和摘要中蕴含的信息应当是最能够体现该篇论文主题和研究内容的,所以可以选取每一个论文结点的标题和摘要作为待处理文本信息。然后利用Quoc Le和Tomas Mikolov在2014年提出的文本嵌入算法Doc2Vec将获取到的文本信息转化为潜在特征空间中的D维特征向量,以此作为输入的待传播信息。
在本实施例中为了更好地提取表征其特征信息,需要对D维特征向量进行升维或降维。
可选地,信息传播模块中将初始特征向量矩阵X′在待表示引文网络中进行传播更新时,通过式II迭代L次计算,获得任一论文结点的嵌入表示Xe,L≥1:
在本实施例中,迭代计算的过程具体如下:
Z(0)=H=X'
可选地,获得更新后的第一权值矩阵W,具体包括:
所述待表示引文网络还包括M个引用边,其中每个引用边对应两个论文结点,利用M个引用边对嵌入表示获得网络进行训练更新初始第一权值矩阵,获得更新后的第一权值矩阵W,按照以下步骤执行:
步骤A,将M个引用边划分为训练集和验证集;
所述训练集中包括a组引用边,每组引用边包括2b个引用边,b为大于等于1的自然数,a为大于等于1的整数;
所述验证集中包括f个引用边,f为大于等于1的整数;
步骤B、构建分类网络,分类网络包括依次设置的所述嵌入表示获得网络以及分类器,所述分类器包括P层神经网络,每层神经网络包括第二权值矩阵;
步骤C、从训练集中任选一组引用边输入至分类网络中进行训练,获得本次训练的第一损失函数;
利用本次训练的第一损失函数更新第一权值矩阵以及第二权值矩阵,获得本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵;
其中在首次执行步骤C时,第一权值矩阵与第二权值矩阵中的元素均为随机数;
在第二次以后执行步骤C时,第一权值矩阵为上一次执行步骤D获得的更新后的第一权值矩阵,第二权值矩阵为上一次执行步骤D获得的更新后的第二权值矩阵;
步骤D、利用本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵更新分类网络,获得本次更新后的分类网络;
步骤E、将验证集中的f个引用边输入至本次更新后的分类网络中,获得本次更新的第二损失函数;
步骤F、将本次更新后的分类网络作为分类网络重复执行步骤C-步骤E,直至连续10次更新的第二损失函数的值不再下降,将最后一次执行步骤C获得的本次更新后的第一权值矩阵作为更新后的第一权值矩阵。
在本实施例中,如图1所示,通过构建了包含分类器的分类网络对嵌入表示获得网络进行训练,目的是为了获得最终更新后的第一权值矩阵,具体过程为多次迭代训练:
首次训练:训练分类网络,获得首次训练的第一损失函数,利用首次训练的第一损失函数,更新第一权值矩阵以及第二权值矩阵,第一权值矩阵以及第二权值矩阵更新完成之后,相当于获得了一个新的分类网络,再次利用测试集数据计算这个新的分类网络的第二损失函数,作为一个迭代停止条件,例如在首次训练时第二损失函数为0.000121;
第二次训练:训练经过首次训练已经更新过的分类网络,获得第一损失函数,利用本次训练获得的第一损失函数,再次更新第一权值矩阵以及第二权值矩阵,获得本次训练更新后的第一权值矩阵、第二权值矩阵以及新的分类网络,再次利用测试集数据计算新的分类网络的第二损失函数,例如本次训练获得的第二损失函数也为0.000121;
重复多次训练,每次训练时分类网络都是上一次训练后更新获得的新的分类网络,对这个分类网络进行不断的迭代更新,迭代更新的停止条件是10次训练获得的第二损失函数保持不变,则说明当前的分类网络更新完成,将更新完成后的分类网络中的嵌入表示获得网络取出来,作为步骤22中的嵌入表示获得网络。
可选地,通过式III计算损失函数loss:
l′(v,u)表示引用边(v,u)标签预测值,l′(v,u)=E(v,u)W1...Wp...WP,其中Wp表示第二权值矩阵,p=1,2,...,P,P为大于1的自然数;
E(v,u)表示引用边(v,u)的嵌入表示,E(v,u)=(xv1,xv2,...,xvd,xu1,xu2,...,xud);
Xv=(xv1,xv2,...,xvd)表示论文结点v的嵌入表示,Xu=(xu1,xu2,...,xud)表示论文结点u的嵌入表示。
在本实施例中,引用边(v,u)可表示任意一条引用边,即论文结点v和论文结点u的直接连接边。
l′(v,u)表示引用边(v,u)标签预测值,l′(v,u)=E(v,u)W1...Wp...WP;
E(v,u)表示引用边(v,u)的嵌入表示,E(v,u)=(xv1,xv2,...,xvd,xu1,xu2,...,xud);
Xv=(xv1,xv2,...,xvd)表示论文结点v的嵌入表示,Xu=(xu1,xu2,...,xud)表示论文
结点u的嵌入表示。
在本实施例中,若(v,u)之间实际存在一条边,则(v,u)标签定为l(v,u)=1,若实际不存在则l(v,u)=0;
实施例二
在本实施例中公开了一种基于深度学习与链接预测的引文推荐方法,用于在待推荐引文网络中获得针对待推荐引文的推荐序列,按照以下步骤执行:
步骤I、获得待推荐引文的论文结点,利用实施例一中的基于深度学习与链接预测的嵌入表示获得方法中步骤2的方法获得待推荐引文的论文结点的嵌入表示;
步骤II、利用基于深度学习与链接预测的嵌入表示获得方法获得待推荐引文网络中每个论文结点的嵌入表示,获得网络嵌入表示数据库;
步骤III、计算待推荐引文的论文结点的嵌入表示与网络嵌入表示数据库中每个嵌入表示之间的余弦相似度,得到多个余弦相似度,将所有余弦相似度降序排列,并选取前t个余弦相似度对应的嵌入表示对应的论文结点作为待推荐引文的论文结点的推荐序列,t≥1。
在本实施例中,根据式IV计算待推荐引文的论文结点PQ和已知论文库中每个论文结点的余弦相似度:
Similarity(Q,e)=cos<XQ,Xe> 式IV
式IV中,Xe为已知论文库中任一论文结点的嵌入表示,XQ为待推荐引文的论文结点PQ的嵌入表示,cos<,>表示余弦相似度函数。
实施例三
在本实施例中对本发明提供的引文推荐方法与现有技术中的方法进行比较,在本实施例中选取了四种现有的基线算法,如表1所示:
表1基线算法
其中,Doc2Vec为文本嵌入算法,只对非结构文本信息进行嵌入表示,DeepWalk与Node2Vec为网络嵌入算法,只对结构信息进行嵌入表示,这两者与本发明提供的方法一起对比可以分析本发明提供的方法选择结合结构与非结构信息进行嵌入表示的优势。另一方面,TriDNR为前人设计的结合结构与非结构(文本)信息的嵌入表示算法,其与本发明提供的方法对比,可以体现本设计的信息传播算法在结合两种特征的算法中的优势。实验中,将各算法训练完成后得到的结点嵌入表示统一为128维。
在本实施例中选取的实验数据集如表2所示:
表2数据集选取
数据集网络均为无向图,实验从三个不同的角度设计了数据集的选取。
首先,考虑不同非结构特征的选取是否会影响算法的效果。Cora_ml数据集的初始非结构特征为2879维独热编码后的特征向量,其将直接作为模型输入的待传播信息;而其余四个数据集的初始非结构特征为每一篇论文的标题与摘要的文本信息,这些文本会被Doc2Vec算法预处理为256维的特征向量作为模型输入的待传播信息。
其次,考虑同一非结构特征的不同质量将会怎样影响结合结构与非结构特征的算法表现。AAN与DBLP的非结构特征均选取为标题加摘要的文本形式,但AAN数据集给出的文本是直接对论文的PDF文件OCR所得,其中字符识别存在小部分乱码及单词识别错误的情况,其文本质量是差的;而DBLP数据集给出的文本是由人工输入的,是精确的标题与摘要,其质量是好的。
最后,考虑算法在不同规模的网络数据上的表现是否有差异。DBLP的初始数据集是千万级别的网络,实验抽取了2531、7578和34277个结点的三个版本,用于对比分析。
实验选取的评估指标为信息检索领域推荐任务的三个通用指标,平均倒数排名(MRR@N)、平均精度均值(MAP@N)和召回率(Recall@N)。
MRR@N(Mean reciprocal rank):平均倒数排名依据排序的正确性,对检索请求响应结果评估。相同条件下,MRR值越大,表明模型越能够将相关性高的结果置于检索结果列表靠前的位置。PN表示前N个检索结果当中正确结果的集合,ranki表示第i个正确结果的排序序号。
MAP@N(Mean average precision):平均精度均值是一组查询的每个检索结果的平均精度得分的均值,其值越高,表明模型检索的准确率越高。TP(k)表示前k个结果中正确结果的个数,Q表示检索请求个数。
Recall@N:召回率是指前N个检索结果中正确结果被召回的个数,其值越高,表明模型能召回的正确样本越多。
实验对比结果见表3至表7,表3为利用Cora_ml数据集对5种方法的测试实验结果对比,表4为利用AAN数据集对5种方法的测试实验结果对比,表5为利用DBLP_2531数据集对5种方法的测试实验结果对比,表6为利用DBLP_7578数据集对5种方法的测试实验结果对比,表7为利用DBLP_34277数据集对5种方法的测试实验结果对比。
表3 Cora_ml实验结果
表4 AAN实验结果
表5 DBLP_2531实验结果
表6 DBLP_7578实验结果
表7 DBLP_34277实验结果
从对比结果中可以看出,本发明提供的推荐方法与其他算法相比具有明显优势,无论是在平均倒数排名、平均精度均值还是召回率上,本发明提供的推荐方法的性能均要优于现有技术中的推荐算法。
Claims (4)
1.一种基于深度学习与链接预测的嵌入表示获得方法,用于获得待表示引文网络中每个论文结点的嵌入表示,其特征在于,包括以下步骤:
步骤1,获得待表示引文网络,所述待表示引文网络包括N个论文结点以及每个论文结点的特征信息,N为正整数;
步骤2,获得每个论文结点的嵌入表示,包括:
步骤21、将每个论文结点的特征信息转化为特征向量x,x∈R1×D;
将N个特征向量填充至一个N×D的矩阵中,获得特征向量矩阵X;
步骤22,将所述的特征向量矩阵X输入至嵌入表示获得网络中;
其中所述的嵌入表示获得网络包括依次设置的初始特征向量获得模块以及信息传播模块;
所述的初始特征向量获得模块采用式I对特征向量矩阵X进行升维或降维,获得初始特征向量矩阵X′:
X′=XW 式I
式I中W为更新后的第一权值矩阵,W∈RD×d,X′∈RN×d;
所述更新后的第一权值矩阵W的获得具体包括:
所述待表示引文网络还包括M个引用边,其中每个引用边对应两个论文结点,利用所述的M个引用边对嵌入表示获得网络进行训练更新初始第一权值矩阵,获得更新后的第一权值矩阵W,按照以下步骤执行:
步骤A,将M个引用边划分为训练集和验证集;
所述训练集中包括a组引用边,每组引用边包括2b个引用边,b为大于等于1的自然数,a为大于等于1的整数;
所述验证集中包括f个引用边,f为大于等于1的整数;
步骤B、构建分类网络,所述的分类网络包括依次设置的所述嵌入表示获得网络以及分类器,所述分类器包括P层神经网络,每层神经网络包括第二权值矩阵;
步骤C、从训练集中任选一组引用边输入至分类网络中进行训练,获得本次训练的第一损失函数;
利用本次训练的第一损失函数更新第一权值矩阵以及第二权值矩阵,获得本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵;
其中在首次执行步骤C时,第一权值矩阵与第二权值矩阵中的元素均为随机数;
在第二次及以后执行步骤C时,第一权值矩阵为上一次执行步骤D获得的更新后的第一权值矩阵,第二权值矩阵为上一次执行步骤D获得的更新后的第二权值矩阵;
步骤D、利用所述的本次更新后的第一权值矩阵以及本次更新后的第二权值矩阵更新分类网络,获得本次更新后的分类网络;
步骤E、将验证集中的f个引用边输入至本次更新后的分类网络中,获得本次更新的第二损失函数;
步骤F、将本次更新后的分类网络作为分类网络重复执行步骤C-步骤E,直至连续10次更新的第二损失函数的值不再下降,将最后一次执行步骤C获得的本次更新后的第一权值矩阵作为更新后的第一权值矩阵;
所述的信息传播模块将所述的初始特征向量矩阵X′在待表示引文网络中进行传播更新,获得每个论文结点的嵌入表示。
3.如权利要求1所述的基于深度学习与链接预测的嵌入表示获得方法,其特征在于,通过式III计算损失函数loss,所述的损失函数包括第一损失函数以及第二损失函数:
l′(v,u)表示引用边(v,u)标签预测值,l′(v,u)=E(v,u)W1...Wp...WP,其中Wp表示第二权值矩阵,p=1,2,...,P,P为大于1的自然数;
E(v,u)表示引用边(v,u)的嵌入表示,E(v,u)=(xv1,xv2,...,xvd,xu1,xu2,...,xud);
Xv=(xv1,xv2,...,xvd)表示论文结点v的嵌入表示,Xu=(xu1,xu2,...,xud)表示论文结点u的嵌入表示。
4.一种基于深度学习与链接预测的引文推荐方法,用于在待推荐引文网络中获得针对待推荐引文的推荐序列,其特征在于,按照以下步骤执行:
步骤I、获得待推荐引文的论文结点,利用权利要求1-3 任一项权利要求所述的基于深度学习与链接预测的嵌入表示获得方法中步骤2的方法获得待推荐引文的论文结点的嵌入表示;
步骤II、利用权利要求1-3 任一项权利要求所述的基于深度学习与链接预测的嵌入表示获得方法获得待推荐引文网络中每个论文结点的嵌入表示,获得网络嵌入表示数据库;
步骤III、计算待推荐引文的论文结点的嵌入表示与网络嵌入表示数据库中每个嵌入表示之间的余弦相似度,得到多个余弦相似度,将所有余弦相似度降序排列,并选取前t个余弦相似度对应的嵌入表示对应的论文结点作为待推荐引文的论文结点的推荐序列,t≥1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826787.XA CN110688474B (zh) | 2019-09-03 | 2019-09-03 | 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826787.XA CN110688474B (zh) | 2019-09-03 | 2019-09-03 | 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110688474A CN110688474A (zh) | 2020-01-14 |
CN110688474B true CN110688474B (zh) | 2023-03-14 |
Family
ID=69107763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910826787.XA Active CN110688474B (zh) | 2019-09-03 | 2019-09-03 | 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688474B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11494617B2 (en) * | 2020-02-12 | 2022-11-08 | Huawei Technologies Co., Ltd. | Recommender system using bayesian graph convolution networks |
CN111831910A (zh) * | 2020-07-14 | 2020-10-27 | 西北工业大学 | 一种基于异构网络的引文推荐算法 |
CN112364151B (zh) * | 2020-10-26 | 2023-06-27 | 西北大学 | 一种基于图、引文和内容的论文混合推荐方法 |
CN112613559B (zh) * | 2020-12-23 | 2023-04-07 | 电子科技大学 | 基于相互学习的图卷积神经网络节点分类方法、存储介质和终端 |
CN114818737B (zh) * | 2022-06-29 | 2022-11-18 | 北京邮电大学 | 科技论文数据文本语义特征提取方法、***及存储介质 |
CN116628350B (zh) * | 2023-07-26 | 2023-10-10 | 山东大学 | 基于可区分主题的新论文推荐方法和*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425799A (zh) * | 2013-09-04 | 2013-12-04 | 北京邮电大学 | 基于主题的个性化研究方向推荐***和推荐方法 |
CN106844665A (zh) * | 2017-01-20 | 2017-06-13 | 中山大学 | 一种基于引用关系分布式表达的论文推荐方法 |
CN110083696A (zh) * | 2019-04-23 | 2019-08-02 | 安徽大学 | 基于元结构技术的全局引文推荐方法、推荐*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10747759B2 (en) * | 2017-06-23 | 2020-08-18 | City University Of Hong Kong | System and method for conducting a textual data search |
US11823013B2 (en) * | 2017-08-29 | 2023-11-21 | International Business Machines Corporation | Text data representation learning using random document embedding |
-
2019
- 2019-09-03 CN CN201910826787.XA patent/CN110688474B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425799A (zh) * | 2013-09-04 | 2013-12-04 | 北京邮电大学 | 基于主题的个性化研究方向推荐***和推荐方法 |
CN106844665A (zh) * | 2017-01-20 | 2017-06-13 | 中山大学 | 一种基于引用关系分布式表达的论文推荐方法 |
CN110083696A (zh) * | 2019-04-23 | 2019-08-02 | 安徽大学 | 基于元结构技术的全局引文推荐方法、推荐*** |
Non-Patent Citations (4)
Title |
---|
A Hybrid Approach Toward Research Paper Recommendation Using Centrality Measures and Author Ranking;Waleed Waheed etc.;《 IEEE Access》;20190228;第33145-33158页 * |
A Three-Layered Mutually Reinforced Model for Personalized Citation Recommendation;Xiaoyan Cai etc.;《IEEE Transactions on Neural Networks and Learning Systems》;20180412;第6026-6037页 * |
基于文本向量表示学习的引文推荐方法研究;李飞;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20190115;第I138-5211页 * |
基于深度学习的个性化引文搜索推荐算法研究;陈志涛;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20190115;第I138-5180页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110688474A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688474B (zh) | 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 | |
CN111241241B (zh) | 基于知识图谱的案件检索方法、装置、设备及存储介质 | |
US9589208B2 (en) | Retrieval of similar images to a query image | |
US9305083B2 (en) | Author disambiguation | |
US20110191374A1 (en) | Joint Embedding for Item Association | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
Xie et al. | Fast and accurate near-duplicate image search with affinity propagation on the ImageWeb | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN107844493B (zh) | 一种文件关联方法及*** | |
CN109145087A (zh) | 一种基于表示学习和竞争理论的学者推荐及合作预测方法 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索*** | |
CN109710725A (zh) | 一种基于文本分类的中文表格列标签恢复方法和*** | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及*** | |
CN116775972A (zh) | 基于信息技术的远端资源整理服务方法和*** | |
CN113269477B (zh) | 一种科研项目查询评分模型训练方法、查询方法及装置 | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助***及其控制方法 | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
CN108241650B (zh) | 训练分类标准的训练方法和装置 | |
CN117763076A (zh) | 基于云计算的档案检索方法及*** | |
CN116244497A (zh) | 一种基于异质数据嵌入的跨域论文推荐方法 | |
Nghiem et al. | Which one is better: presentation-based or content-based math search? | |
CN117573959B (zh) | 一种基于网页xpath获取新闻正文的通用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |