CN113505216A - 一种基于引用图的多特征论文推荐方法 - Google Patents

一种基于引用图的多特征论文推荐方法 Download PDF

Info

Publication number
CN113505216A
CN113505216A CN202110768465.1A CN202110768465A CN113505216A CN 113505216 A CN113505216 A CN 113505216A CN 202110768465 A CN202110768465 A CN 202110768465A CN 113505216 A CN113505216 A CN 113505216A
Authority
CN
China
Prior art keywords
paper
feature
similarity
graph
papers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110768465.1A
Other languages
English (en)
Inventor
边旭爽
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN202110768465.1A priority Critical patent/CN113505216A/zh
Publication of CN113505216A publication Critical patent/CN113505216A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于引用图的多特征论文推荐方法,包括在引用关系构成的引用图上,用集聚系数与距离衰减函数结合描述论文在引用图上的位置关系;将PageRank算法应用与引用图上得到作者和论文的重要性评分作为两个新特征,与标题、摘要、关键字特征一起形成特征向量;采用余弦相似度和位置关系的结合描述论文之间的相似度。本发明首先通过PageRank算法在引用图上的应用得到论文的重要程度,加入论文特征向量,并计算余弦相似度;然后将集聚系数融入距离衰减函数得到论文的引用关系相似度,并与余弦相似度融合,论文推荐的效果得到了明显提升,快速、准确为研究人员从海量论文中筛选出其感兴趣的论文。

Description

一种基于引用图的多特征论文推荐方法
技术领域
本发明属于论文推荐的技术领域,尤其涉及一种基于引用图的多特征论文推荐方法。
背景技术
论文推荐***可以通过获取由研究人员提供的一篇其感兴趣的论文作为基本目标,计算其他论文与基本目标的相似度,推荐给研究人员相似度靠前的论文。研究的关键点在于求两篇论文相似度的方法。论文推荐研究的三个着力点是作者、内容和引用关系。
基于内容的论文推荐是对论文内容语义进行分析得到推荐列表。对于在题目上没有相似性的论文A和论文B,有可能在摘要存在相似性,存在跨特征相似度。
文献提取论文内容关键词与用户兴趣关键词合成特征向量,以余弦相似度衡量相似度。有的研究从特征种类提取深入探究,获得更好效果的推荐列表。基于作者的论文推荐是根据作者的领域权威性等待性进行推荐。
Kavitha等人提出了专家检索***,在特定领域提供一个根据作者论文、图表、权威性等方面进行排名,利用排名进行推荐。于引用关系的论文推荐是根据论文引用关系来进行推荐。Co-coupling方法根据两篇论文引用了同一篇论文的数量进行推荐。针对这种方法存在已发表论文引用不会动态增加、适应性不强的问题,Co-citation方法根据两篇论文被同一篇论文引用的数量计算论文相似度。CCIDF则通过论文被引用次数得到论文权重,对有共同引用论文的集合进行相似度排序。
在这个信息化的时代,越来越多的论文文献发布在网络上,研究人员可以很方便的从网络上检索到文献,但是当数量越来越多的时候,研究人员没有很多精力在海量论文中逐篇寻找感兴趣的文献,虽然有检索***,但是当研究人员不清楚哪篇论文对当前研究有启发。
发明内容
基于以上现有技术的不足,本发明所解决的技术问题在于提供一种基于引用图的多特征论文推荐方法,快速、准确为研究人员从海量论文中筛选出其感兴趣的论文。
为了解决上述技术问题,本发明通过以下技术方案来实现:本发明提供一种基于引用图的多特征论文推荐方法,包括:
S1、在引用关系构成的引用图上,用集聚系数与距离衰减函数结合描述论文在引用图上的位置关系;
S2、将PageRank算法应用与引用图上得到作者和论文的重要性评分作为两个新特征,与标题、摘要、关键字特征一起形成特征向量;
S3、采用余弦相似度和位置关系的结合描述论文之间的相似度。
进一步的,在步骤S1中,集聚系数是对图中某一点与其周围的点的紧密程度的描述,在一个图G中,vi是图G的一个节点,Ni是节点vi相邻的节点集合,ki是vi相邻节点的个数,e是集合Ni中的所有节点之间真实存在的边,ki(ki-1)是集合Ni中所有节点之间可能存在的边总数;对于有向图eij和eji是不同的边,所以节点vi的集聚系数如下:
Figure BDA0003152836680000021
进一步的,在步骤S2中,对论文进行题目、摘要、关键词进行特征提取,然后进行TF-IDF处理形成特征向量vector(T,A,K),其中T是Title的缩写,表示题目特征;A是Abstract的缩写,表示摘要的特征;K是Keywords的缩写,表示关键词的特征。
进一步的,在步骤S3中,将内容分析得到的特征向量余弦相似度S1与引用关系分析得到的论文相似度S2进行线性组合,得到论文x与论文y的相似度S:
S=μS1+(1-μ)S2
其中,μ是抑制因子,且0<μ<1,控制S1,S2的比例。
由上,本发明的基于引用图的多特征论文推荐方法首先通过PageRank算法在引用图上的应用得到论文的重要程度,加入论文特征向量,并计算余弦相似度。然后将集聚系数融入距离衰减函数得到论文的引用关系相似度,并与余弦相似度融合,论文推荐的效果得到了明显提升,快速、准确为研究人员从海量论文中筛选出其感兴趣的论文。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更简明易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明的基于引用图的多特征论文推荐方法的流程图。
具体实施方式
下面结合附图详细说明本发明的基于引用图的多特征论文推荐方法的具体实施方式。
如图1所示,本发明的基于引用图的多特征论文推荐方法,在引用关系构成的引用图上,用集聚系数与距离衰减函数结合描述论文在引用图上的位置关系,并将PageRank算法应用与引用图上得到作者和论文的重要性评分作为两个新特征,与标题、摘要、关键字等特征一起形成特征向量,采用余弦相似度和位置关系的结合描述论文之间的相似度。
通过隐式考虑两个节点之间的所有路径的集合来改进最短距离,提出一种按照路径长度对路径指数衰减并对路径集合求和的度量方法,Katz距离衰减函数。现记x,y分别为源论文和目标论文,x、y的距离衰减分数记为Score(x,y),路径距离记为l,路径距离为l的路径集合记为
Figure BDA0003152836680000041
Score(x,y)的计算公式如下:
Figure BDA0003152836680000042
其中β是衰减因子,且0<β<1,通常取值为0.005。
集聚系数(Clustering Coefficient)是对图中某一点与其周围的点的紧密程度的描述。在一个图G中,vi是图G的一个节点,Ni是节点vi相邻的节点集合,ki是vi相邻节点的个数。e是集合Ni中的所有节点之间真实存在的边,ki(ki-1)是集合Ni中所有节点之间可能存在的边总数。对于有向图eij和eji是不同的边,所以节点vi的集聚系数如下:
Figure BDA0003152836680000043
对于无向图的eij和eji是相同的,所以vi的集聚系数如下:
Figure BDA0003152836680000044
将集聚系数应用在复杂网络链路预测上,预测未有链接的点之间可能产生链接的概率。集聚系数在社区网络中现实意义是不存在好友关系的用户之间成为好友关系的可能性。并在adjnoum、football等现实网络进行测试,得到很好的预测效果。记x,y是网络中节点,Γ(x)、Γ(y)分别表示,节点x、节点y的相邻节点集合,节点x和节点y的相似度Sxy可以表示为:
Sxy=∑(1+C(i)),i∈|Γ(x)∩Γ(y)| (4)
PageRank算法是Google的网页排名算法,网页跳转链接与网页构成有向图,图中的每个节点都赋一个初始值,经过多次迭代节点值趋于稳定,即节点PageRank值。每个节点值取决于指向其的节点值和数量。对于节点i的PageRank值P(i):
Figure BDA0003152836680000051
其中:Mi表示所有对节点i有出链的节点集合,L(j)表示节点j的出链总数,N表示节点总数,α通常取0.85。
在VSM模型上对论文进行题目、摘要、关键词进行特征提取,然后进行TF-IDF处理形成特征向量vector(T,A,K)。其中T是Title的缩写,表示题目特征;A是Abstract的缩写,表示摘要的特征;K是Keywords的缩写,表示关键词的特征。词频tfi,j是单词ti在论文pj中出现的频率,ni,j表示论文ti在论文pj中出现的次数,∑nk,j表示论文pj中所有词出现的总次数。单用tfi,j并不能很好的筛选出关键词,在一篇论文tfi,j高的词而在别的论文tfi,j值比较低,就能用这个词很好的体现这篇论文的特征。就用到逆向文件频率idfi,|D|表示数据库中论文总数,|{j:ti∈dj}|表示有词语ti的论文总数。最后tfi,j与idfi乘积得到tfidfi,j的值。具体公式如下:
Figure BDA0003152836680000052
Figure BDA0003152836680000061
tfidfi,j=tfi,j×idfi (8)
引用图是以PageRank算法应用到论文引用图上,根据式(5)计算出论文i重要性P(i)。并将P(i)作为论文的特征加入特征向量vector(T,A,K),得到newvector(T,A,K,P(i))新向量。假设A、B为两篇论文的newvector,计算A、B的余弦相似度S1
Figure BDA0003152836680000062
集聚系数在引用图上应用的现实意义是两篇没有直接引用关系的论文的相似概率。对距离衰减函数Katz进行改进,考虑每条路径上所有节点的集聚系数来计算论文x与论文y相似度S2
Figure BDA0003152836680000063
Figure BDA0003152836680000064
其中,
Figure BDA0003152836680000065
表示x和y距离为l所有路径节点的集聚系数均值。
论文的相似度仅仅从引用或者是内容的角度去进行推荐,都具有相对片面性。因此,将内容分析得到的特征向量余弦相似度S1与引用关系分析得到的论文相似度S2进行线性组合,得到论文x与论文y的相似度S:
S=μS1+(1-μ)S2 (12)
其中,μ是抑制因子,且0<μ<1,控制S1,S2的比例。
最后应说明的是:以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。

Claims (4)

1.一种基于引用图的多特征论文推荐方法,其特征在于,包括:
S1、在引用关系构成的引用图上,用集聚系数与距离衰减函数结合描述论文在引用图上的位置关系;
S2、将PageRank算法应用与引用图上得到作者和论文的重要性评分作为两个新特征,与标题、摘要、关键字特征一起形成特征向量;
S3、采用余弦相似度和位置关系的结合描述论文之间的相似度。
2.根据权利要求1所述的基于引用图的多特征论文推荐方法,其特征在于,在步骤S1中,集聚系数是对图中某一点与其周围的点的紧密程度的描述,在一个图G中,vi是图G的一个节点,Ni是节点vi相邻的节点集合,ki是vi相邻节点的个数,e是集合Ni中的所有节点之间真实存在的边,ki(ki-1)是集合Ni中所有节点之间可能存在的边总数;对于有向图eij和eji是不同的边,所以节点vi的集聚系数如下:
Figure FDA0003152836670000011
3.根据权利要求1所述的基于引用图的多特征论文推荐方法,其特征在于,在步骤S2中,对论文进行题目、摘要、关键词进行特征提取,然后进行TF-IDF处理形成特征向量vector(T,A,K),其中T是Title的缩写,表示题目特征;A是Abstract的缩写,表示摘要的特征;K是Keywords的缩写,表示关键词的特征。
4.根据权利要求1所述的基于引用图的多特征论文推荐方法,其特征在于,在步骤S3中,将内容分析得到的特征向量余弦相似度S1与引用关系分析得到的论文相似度S2进行线性组合,得到论文x与论文y的相似度S:
S=μS1+(1-μ)S2
其中,μ是抑制因子,且0<μ<1,控制S1,S2的比例。
CN202110768465.1A 2021-07-07 2021-07-07 一种基于引用图的多特征论文推荐方法 Pending CN113505216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110768465.1A CN113505216A (zh) 2021-07-07 2021-07-07 一种基于引用图的多特征论文推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110768465.1A CN113505216A (zh) 2021-07-07 2021-07-07 一种基于引用图的多特征论文推荐方法

Publications (1)

Publication Number Publication Date
CN113505216A true CN113505216A (zh) 2021-10-15

Family

ID=78011880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110768465.1A Pending CN113505216A (zh) 2021-07-07 2021-07-07 一种基于引用图的多特征论文推荐方法

Country Status (1)

Country Link
CN (1) CN113505216A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及***
CN112364151A (zh) * 2020-10-26 2021-02-12 西北大学 一种基于图、引文和内容的论文混合推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及***
CN112364151A (zh) * 2020-10-26 2021-02-12 西北大学 一种基于图、引文和内容的论文混合推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ONUR: "Recommendation on Academic Networks using Direction Aware Citation Analysis", 《ARXIV》, pages 1 - 10 *
王丹: "基于用户认知的科研论文推荐研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 1 - 3 *

Similar Documents

Publication Publication Date Title
Huang et al. Utilizing user tag-based interests in recommender systems for social resource sharing websites
CN1694105B (zh) 用于使用链接和页面的布局分析来识别图像相关度的方法和***
CN108717407B (zh) 实体向量确定方法及装置,信息检索方法及装置
US20140114977A1 (en) System and method for document analysis, processing and information extraction
US20070214133A1 (en) Methods for filtering data and filling in missing data using nonlinear inference
US20060155751A1 (en) System and method for document analysis, processing and information extraction
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN110069713B (zh) 一种基于用户上下文感知的个性化推荐方法
CN105023178B (zh) 一种基于本体的电子商务推荐方法
CN111444304A (zh) 搜索排序的方法和装置
Bouadjenek et al. Persador: personalized social document representation for improving web search
Zhou et al. Relevance feature mapping for content-based multimedia information retrieval
CN111651678A (zh) 一种基于知识图谱的个性化推荐方法
Stanescu et al. A hybrid recommender system: User profiling from keywords and ratings
Liu et al. Fast recommendation on latent collaborative relations
Fetahu et al. Improving entity retrieval on structured data
Doerfel et al. An analysis of tag-recommender evaluation procedures
Mohammadi et al. Context-specific recommendation system for predicting similar pubmed articles
EP2983123A1 (en) Self transfer learning recommendation method and system
CN116431895A (zh) 安全生产知识个性化推荐方法及***
CN113705217B (zh) 一种面向电力领域知识学习的文献推荐方法及装置
CN113505216A (zh) 一种基于引用图的多特征论文推荐方法
Sahoo et al. Rapid frequent pattern growth and possibilistic fuzzy C-means algorithms for improving the user profiling personalized web page recommendation system
Bai et al. Meta-graph embedding in heterogeneous information network for top-n recommendation
Najafabadi et al. An Effective Collaborative User Model Using Hybrid Clustering Recommendation Methods.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination