CN103559262A - 基于社区的作者及其学术论文推荐***和推荐方法 - Google Patents

基于社区的作者及其学术论文推荐***和推荐方法 Download PDF

Info

Publication number
CN103559262A
CN103559262A CN201310537842.6A CN201310537842A CN103559262A CN 103559262 A CN103559262 A CN 103559262A CN 201310537842 A CN201310537842 A CN 201310537842A CN 103559262 A CN103559262 A CN 103559262A
Authority
CN
China
Prior art keywords
author
paper
community
user
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310537842.6A
Other languages
English (en)
Other versions
CN103559262B (zh
Inventor
卢美莲
王萌星
高洁
刘智超
秦臻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201310537842.6A priority Critical patent/CN103559262B/zh
Publication of CN103559262A publication Critical patent/CN103559262A/zh
Application granted granted Critical
Publication of CN103559262B publication Critical patent/CN103559262B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于社区的作者及其学术论文的推荐***和推荐方法,该***先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文。***设有:论文抓取、预处理、双层引用网络构建、用户兴趣模型构建和个性化学术推荐五个模块和数据库。本发明***既能利用作者间研究内容的相关性,通过主题模型构建作者社区;还能在社区内部计算待推荐的作者和论文的多种属性值,改善现有推荐算法计算量大的缺陷;同时计算作者和论文的多种属性值,使得推荐结果更多样化,更符合用户需求。

Description

基于社区的作者及其学术论文推荐***和推荐方法
技术领域
本发明涉及一种推荐作者及其学术论文的***和方法,确切的说,涉及一种基于社区的作者及其学术论文的个性化推荐***和推荐方法,属于数据挖掘和机器学习的技术领域。
背景技术
2003年,Blei等提出了潜在狄利克雷分布LDA(Latent Dirichlet Allocation)主题模型。随后,研究者对LDA进行了许多改进。基于主题模型的学术论文挖掘是主题模型的一个重要应用,通过对论文主题的挖掘,可以更深入地理解学术论文的发展与进化。2004年,Michal Rosen-Zvi等人在LDA的基础上提出了作者-主题AT(Author-Topic)模型。AT模型是从作者的角度建立学术论文的文本主题模型。对于学术论文语料集合,LDA模型没有考虑论文的作者信息,实际上,它是把所有的作者都看作完全等同的,即所有作者都对应着一个特定的语言模型。在AT模型中,所有的作者共享一个主题的集合。也就是,每个作者不再限定其只能对应一个主题,而是对应于一个主题上的分布;同时文本-主题的分布也随之消失,即被作者-主题的分布取代。
在AT模型中,语料库中的每个作者与T个主题的一个多项分布相对应,将该多项分布记为θ。每个主题又与词汇表中的V个单词的一个多项分布相对应,将这个多项分布记为。这两个参数θ和分别有一个带有超参数α和β的Dirichlet先验分布。对于一篇文本d,首先从该文本d的作者中抽取一个作者,再从该作者所对应的多项分布θ中抽取一个主题z,然后再从主题z所对应的多项分布中抽取一个单词w。然后,重复执行该过程N次,就生成了一个文本,这里的N是文本的单词总数。这个生成过程参见图1所示。图1中的阴影圆圈表示可观测变量,非阴影圆圈表示潜在变量,箭头表示两变量间的条件依赖性,方框表示重复抽样,重复次数在方框的右下角。该模型有两个参数需要推断:一个是作者-主题分布θ,另外是主题-单词分布。通过学习这两个参数,就能够获知作者感兴趣的主题。
2006年,Wang等人在LDA的基础上提出了非马尔科夫连续时间模型,即时间主题TOT(Topic-Over-Time)模型。TOT模型认为:对于一个文本,除了文本信息可见以外,时间标签也是可见信息,主题的发现不仅仅受到单词的出现频率的影响,还受到时间变化的影响。TOT模型通过主题分布信息同时与单词和时间标签相关联。对于语料库中的每篇文本,TOT定义了如下生成过程(参见图2所示):对任意一篇文本d,从对应的文本-主题分布θ中抽取一个主题,根据抽取的主题对应的主题-单词分布中,再抽取一个单词;还根据抽取的主题对应的主题-时间分布ψ中,抽取一个时间戳。重复上述过程,直至遍历文本中的每一个单词。该模型有三个参数需要推断:文本-主题分布θ、主题-单词分布和主题-时间分布ψ。通过学习这三个参数,可以知道主题随时间的发展变化。
将主题模型与社区发现算法进行结合是近几年学术挖掘领域的研究热点,利用主题模型提取论文间和作者间的关系,然后利用这些关系结合社区发现算法来提取社区信息。Daifeng Li等人在AT模型的基础上添加了社区的信息,提出作者社区主题模型ACTM(Author-Community-Topic Model),从而可以直接获得作者的社区分布信息,同时还提出了加入了时间信息的动态社区主题模型DCTM(Dynamic Community Topic Model)。DCTM模型在给定的时间段内分别进行ACTM训练,以伯努利分布来判断:当前时间段的社区分布是否与前一时间段有关。但是,该模型是以给定时间范围为基础,不能准确地反映社区、主题随着时间进展而发生的变化,同时该模型仅仅构建了社区,没有提供对社区节点属性的计算方法,尚不能用于作者和论文推荐。
目前的现有技术中,常用的作者和论文推荐推荐方法包括:基于内容的推荐、协同过滤推荐、基于引用网络的推荐等。
基于内容的推荐算法是利用用户以往对作者或论文的操作建立用户兴趣模型,对作者或论文的研究内容进行分析,计算作者或论文与用户兴趣之间的相似性,然后向用户推荐作者或论文。但是,该方法有以下缺点:用户仅仅能够得到与其过去喜好类似的论文或作者,而无法得到能够为其拓展研究思路的作者或论文。再者,以论文为例,基于内容的推荐方法对研究内容进行分析,无法有效分辨论文的质量。
协同过滤方法是利用具有共同研究兴趣的群体的喜好来向用户推荐其感兴趣的作者或论文。协同过滤***能够发现用户未曾接触过的新研究方向中的作者或论文,这是基于内容推荐无法做到的。但其也存在着一些缺陷,最突出的问题是冷启动和稀疏性的问题。
(1)冷启动:当某些论文或作者没有任何用户阅读或评价,或者某些用户未阅读过任何论文(对于推荐***来说,该类用户没有任何信息,也就无法构建兴趣模型)时,***无法向用户推荐或无法推荐能符合其需求的论文或作者。
(2)稀疏性:当***中论文、作者或用户数量十分庞大时,用户对论文的操作相对地就非常稀少,从而导致难以找到相似用户集,大大影响了推荐***的效率。
在学术领域中,作者间或论文间都存在着一种特有的社会关系,即引用关系,由此就形成了引用网络。引用网络中的节点是论文或作者,边表示了论文间或作者间的引用关系。在引用网络中,论文间的引用关系体现了论文内容的相关性及知识的传递。作者间的引用关系隐含了论文作者组成的研究群体,该群体具有相似的研究内容,并表示某个领域的研究现状与未来发展趋势。
基于引用网络的推荐通常是将社会网络分析方法、网络链接PageRank算法等运用到引用网络中来,分析网络结构和网络中的节点属性,从而提取出符合推荐要求的作者节点或论文节点。Pera提出在引用网络中引入作者权威值,利用引用关系进行权威值的传播,最终将具有较高权威值的作者推荐给用户。S.Phineas Upham,Henry Small通过分析引用网络,从中提取有可能引领研究前沿的论文及其作者。由此可以看出,基于引用网络的推荐方法既可以向用户推荐相关研究领域的权威作者,也可以向用户推荐能够拓宽其研究思路的作者。
但是,由于引用网络的构造、聚类等技术的使用问题,使得引用网络的研究至今还很不成熟,存在很多问题。例如:
(1)计算效率低:引用网络中的数据量非常大,在分析论文间或作者间的引用关系时,需要抽取的信息量很多,因此计算工作量的开销很大。
(2)信息缺失:在论文的引文信息不全时,通常会导致引用网络的结构过于分散,降低了引用网络的质量,直接影响到后续的网络分析和处理,最终会导致推荐效果的降低。
(3)引用类型区分:论文中存在着不符合规范的引用情况,例如存在一些“装饰性”的引文。这就需要对引文进行过滤,并且鉴别出各种不同的引用类型。
综上所述,现有的作者和论文推荐技术存在着如下三个主要问题:
(1)作者、论文或用户的某些信息缺失,会对推荐效果产生很大影响。如协同过滤算法中的稀疏性问题;基于引用网络的推荐算法中,由于论文引用信息过少,导致的引用网络质量较低的问题。
(2)现有的各种推荐算法都需要利用作者或论文的各种特征值和用户的兴趣特征进行计算,以提取待推荐的作者或论文;当作者或论文数量很大时,计算工作的开销非常大。
(3)现有推荐算法在推荐过程中,仅针对作者或论文某一方面的特性进行待推荐作者或论文的选取,使得最终推荐结果过于单一。
发明内容
有鉴于此,本发明的目的是提供一种基于社区的作者及其学术论文的推荐***和方法,本发明利用双层引用网络和社区,选取能够满足用户需求的作者和论文向用户进行推荐。该***既能够利用作者间研究内容的相关性,通过主题模型构建作者社区,解决因信息缺失导致社区构建结果较差的问题;还能在社区内部计算待推荐的作者和论文的相关值,改善了现有推荐算法计算量较大的缺陷;同时,通过计算作者和论文的多种属性值,使得推荐结果更加多样化,更加符合用户的需求。
为了达到上述目的,本发明提供了一种基于社区的作者及其学术论文的推荐***,其特征在于,该***是先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文;该***设有:论文抓取模块、预处理模块、双层引用网络构建模块、用户兴趣模型构建模块、个性化学术推荐模块和数据库;其中:
论文抓取模块,负责采用网络爬虫抓取相关学科领域中每篇论文中包括标题、摘要、链接地址、作者标识ID、参考文献和发表时间的信息,将每篇论文使用该论文的链接地址用作唯一标识加以区分后,将抓取的论文全部信息都存储于数据库;
预处理模块,负责从数据库中读取每篇论文的摘要,并由其分词、词性标注、词性过滤与停用词剔除四个单元依序分别对论文摘要进行处理后,得到论文摘要的分词序列;其中分词单元依据空格、标点符号对论文摘要进行分词,词性标注单元对分词后的论文摘要标注词性,词性过滤单元依据标注的词性提取名词,停用词剔除单元过滤和删除其中对该论文摘要没有实际意义的停用词,以节省存储空间和提高搜索效率;
双层引用网络构建模块,负责从数据库读取论文的作者ID、参考文献和发表时间的信息,从预处理模块读取论文摘要的分词序列,并由其四个组成构件:基础网络构建单元、作者社区时间主题模型ACTTM(Author-Community-Time-Topic-Model)模型训练单元、社区信息构建单元和节点属性值计算单元分别进行处理后,得到由作者层、论文层和两者之间的连接边组成的双层引用网络;其中ACTTM模型是在作者-主题AT(Author-Topic)模型、时间主题TOT(Topic-Over-Time)模型与社区主题模型CTM(CommunityTopic Model)相互结合基础上提出的一个新主题模型;
用户兴趣模型构建模块,负责读取数据库中的用户操作记录和论文的作者集合和发表时间信息,以及从预处理模块得到的论文摘要的分词序列,由其两个组成部件:用户兴趣社区集合构建单元和用户属性值计算单元分别进行相应处理后,生成用户兴趣模型;
个性化学术推荐模块,负责读取用户兴趣模型构建模块构建用户的兴趣模型,得到每个用户的兴趣社区集合、用户权威值和用户多样值,再读取双层引用网络构建模块得到社区的作者列表、作者和论文间的著作关系、作者的属性值和论文的属性值,并经由其两个组成部件:作者推荐列表生成单元和论文推荐列表生成单元的处理,生成作者推荐列表和论文推荐列表;
数据库,用于存储论文抓取模块抓取的所有论文的全部信息,包括:作为论文ID的链接地址、题目、摘要、发表时间和作者ID,所有用户对存储的该论文执行操作的全部行为记录,以及向用户最终推荐的作者推荐列表和论文推荐列表;每项操作的行为记录OR=(user_id,paper_id,event_id,time),其中,user_id为用户标识、paper_id为论文标识、event_id为操作内容,time为操作时间。
为了达到上述目的,本发明还提供了一种基于社区的作者及其学术论文的推荐***的推荐方法,其特征在于:所述方法包括下列操作步骤:
(1)抓取论文:论文抓取模块利用网络爬虫在网络上抓取论文信息,包括该论文的标题、摘要、链接地址、作者ID、参考文献和发表时间,再使用该论文的链接地址作为该论文的唯一标识ID区分后,将抓取的该论文全部信息存储于数据库;
(2)预处理模块对论文摘要进行预处理:使用斯坦福词性标注器StanfordPOS Tagger(Stanford Log-Linear Part-Of-Speech Tagger)对论文摘要分别进行分词和标注词性的预处理操作,并保存词性标记为单数形式名词或物质名词NN(Noun,singular or mass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Proper noun,singular)、复数形式名词NPS(Proper noun,plural)的各种名词词语,再过滤并删除没有实际意义的停用词后,还要删除剩余词语数少于5的论文摘要;
(3)双层引用网络构建模块读取预处理模块中的论文摘要的分词序列和存储于数据库的包括论文作者ID、发表时间与参考文献的论文信息,利用ACTTM模型训练生成作者-社区特征向量,利用LDA主题模型训练生成论文-主题特征向量,再计算作者和论文的各种属性值,成功构建双层引用网络;
(4)用户兴趣模型构建模块分别读取存储于数据库的用户历史操作记录以及包括论文作者ID、发表时间与参考文献的论文信息、还从预处理模块读取论文摘要的分词序列,利用ACTTM模型预测得到用户-社区特征向量,通过计算得到用户的兴趣社区集合,并根据用户-社区特征向量计算用户各种属性值,最终成功构建用户兴趣模型;步骤(4)和步骤(3)为并行实施的;
(5)个性化学术推荐模块读取步骤(3)的双层引用网络和步骤(4)的用户兴趣模型,生成用户的作者推荐列表和论文推荐列表;再以该用户ID为唯一标识,将该作者推荐列表和论文推荐列表存入数据库。
本发明推荐***与现有技术相比较所具有的优势在于:
本发明结合了AT模型和TOT模型的优点,并在该基础上再添加表示社区的变量,提出一个新的作者社区时间主题模型:ACTTM模型,用于对作者归属的社区信息进行建模,也就是通过作者的研究内容对作者划分其归属的社区。与基于引用关系的推荐方法相比,本发明能够在引用关系较少的情况下,使得社区划分的结果更加适合进行学术推荐,同时,在社区内部提取作者,与在整个作者集中推荐作者相比,显著降低了计算量。
本发明***构建了一个双层引用网络,利用ACTTM模型对网络中的节点进行社区的划分,同时计算节点属性值时,考虑了作者研究内容之间的联系和引用关系。本发明***在进行作者和论文推荐时,先计算用户的属性值,判断用户对作者或论文的不同需求,调整作者和论文各属性值之间的权重比例,使得根据该偏好值得出的推荐作者/论文列表更能符合用户的个性化需求。
与基于内容的推荐方法相比,本发明能够通过用户的历史操作记录判断其需求,向用户推荐能够拓宽其研究思路的作者和论文。
与协同过滤的推荐方法相比,本发明也可以向用户推荐与其研究方向极其吻合的作者和论文。而且,通过对用户的历史操作记录建模,只要用户有操作就可以为用户进行推荐,可以有效解决数据稀疏的问题。
附图说明
图1是AT模型结构的示意图。
图2是TOT模型结构的示意图。
图3是本发明基于社区的作者及其学术论文的推荐***结构组成示意图。
图4是本发明推荐***中双层引用网络的结构示意图。
图5是本发明推荐***中ACTTM模型的结构示意图。
图6是本发明基于社区的作者及其学术论文的推荐***推荐方法流程图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图3,介绍本发明基于社区的作者及其学术论文的推荐***的结构组成:先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文;该***设有六个部件:论文抓取模块、预处理模块、双层引用网络构建模块、用户兴趣模型构建模块、个性化学术推荐模块和数据库。其中:
(一)论文抓取模块,负责采用网络爬虫抓取相关学科领域中每篇论文中包括标题、摘要、链接地址、作者标识ID、参考文献和发表时间的信息,将每篇论文使用该论文的链接地址用作唯一标识加以区分后,将抓取的论文全部信息都存储于数据库。
(二)预处理模块,负责从数据库中读取每篇论文的摘要,并由其分词、词性标注、词性过滤与停用词剔除四个单元依序分别对论文摘要进行处理后,得到论文摘要的分词序列;其中分词单元依据空格、标点符号对论文摘要进行分词,词性标注单元对分词后的论文摘要标注词性,词性过滤单元依据标注的词性提取名词,停用词剔除单元过滤和删除其中对该论文摘要没有实际意义的停用词,以节省存储空间和提高搜索效率。
(三)双层引用网络构建模块,负责从数据库读取论文的作者ID、参考文献和发表时间的信息,从预处理模块读取论文摘要的分词序列,并由其四个组成构件:基础网络构建单元、作者社区时间主题模型ACTTM(Author-Community-Time-Topic-Model)模型训练单元、社区信息构建单元和节点属性值计算单元分别进行处理后,得到由作者层、论文层和两者之间的连接边组成的双层引用网络;其中ACTTM模型是在作者-主题AT(Author-Topic)模型、时间主题TOT(Topic-Over-Time)模型与社区主题模型CTM(CommunityTopic Model)相互结合基础上提出的一个新主题模型。
先对该双层引用网络构建模块中的四个组成单元的功能分别说明如下:
基础网络构建单元,负责读取存储于数据库的论文的参考文献和作者信息,提取论文间和作者间的引用关系,以及论文和作者间的著作关系,用于构建双层引用网络的基础网络,即由不具有属性值的作者节点集合V1和论文节点集合V2,以及表示两类节点之间关系的各种边E1、E2和E所构成,以供ACTTM模型训练单元、社区信息构建单元和节点属性计算单元在基础网络上添加社区信息和属性值信息,构建得到双层引用网络。
ACTTM模型训练单元,负责读取预处理模块的论文摘要的分词序列、存储于数据库的论文作者集合和论文发表时间信息,分别进行ACTTM模型训练和潜在狄利克雷分布LDA(Latent Dirichlet Allocation)主题模型训练,通过Gibbs采样按照ACTTM的生成模型进行ACCTM模型训练,按照LDA的生成模型进行LDA模型训练,最终生成:每位作者对应每个社区的作者-社区特征向量、即表示每位作者归属于每个社区的分布权值矩阵(wi1,wi2,...,wij,…,wiC),每篇论文对应每个主题的论文-主题特征向量、即每篇论文隶属于每个主题的分布权值矩阵(vd1,vd2,…,vdt,...,vdT),每个社区对应每个主题的社区-主题特征向量、即每个社区归属于每个主题的分布权值矩阵,每个主题对应每个时间戳的主题-时间特征向量、即每个主题归属于每个时间戳的分布权值矩阵;以及每个主题对应每个单词的主题-单词特征向量,即每个主题归属于每个单词的分布权值矩阵;式中,自然数t为主题序号。
社区信息构建单元,负责从ACCTM模型训练单元读取作者-社区特征向量,并将作者在每个社区的分布权值wij与设定阈值进行比较,将大于设定阈值的社区作为作者的隶属社区,以获得双层引用网络中该作者隶属的社区列表
Figure BDA0000407613980000091
其中,自然数下标ji为社区序号,下标的下标Si为作者隶属的社区总数;完成所有作者的隶属社区列表的生成后,就得到每个社区所归属的作者列表。
节点属性值计算单元,负责从ACTTM模型训练单元得到作者-社区特征向量、论文-主题特征向量和从基础网络构建单元获得基础网络后,逐个计算每个节点的属性值:包括论文节点的权威值
Figure BDA0000407613980000092
多样值和流行值
Figure BDA0000407613980000094
以及作者节点的权威值
Figure BDA0000407613980000095
多样值
Figure BDA0000407613980000096
和流行值
Figure BDA0000407613980000097
先介绍本发明***中的创新架构:双层引用网络,其数学表达式为:G={G1,G2,E},其中:
由下标1表示的第一层子网络为作者层G1={V1,E1},其设有两个集合:作者集合V1={a1,a2,...,ai,...,aI}和边集合E1={(i,q,numiq)};V1中的元素ai为作者,自然数i为作者序号,共有I名作者;每位作者由下述五个参数描述之:
Figure BDA0000407613980000101
式中,IDi为该作者标识ID;作者权威值向量
Figure BDA0000407613980000102
中自然数下标j为社区序号,常数C为j的最大值,即该双层引用网络中的社区总数;
Figure BDA0000407613980000103
Figure BDA0000407613980000104
分别为第i位作者在第j个社区的权威值、第i位作者的多样值和流行值,其中,权威值
Figure BDA0000407613980000105
表示第i位作者在第j个社区、即设定研究领域内的权威程度,多样值表示第i位作者研究内容的多样性,流行值
Figure BDA0000407613980000107
表示第i位作者受读者喜爱的程度,该三个字符中的上标字母a表示该权威值、多样值和流行值是分别利用作者权威值、作者多样值和作者流行值三种计算方法得到的;作者隶属的社区列表
Figure BDA0000407613980000108
表明:第i位作者共隶属于Si个社区,Si不大于双层引用网络中的社区总数C,其中,自然数下标ji为第i位作者隶属的社区序号,ji的最大值为Si;边集合E1中的元素(i,q,numiq)表示从ai指向aq的有向边,表示在两个序号分别为自然数i和q的作者之间,作者ai引用了作者aq的论文,权值numiq为引用次数。
由下标2表示的第二层子网络为论文层G2={V2,E2},其设有两个集合:论文集合V2={p1,p2,...,pd,...,pD}和边集合E2={(d,n)},pd中的自然数下标d为论文序号,共有D篇论文;每篇论文pd由四个参数描述之,即
Figure BDA0000407613980000109
IDd为该第d篇论文标识ID;
Figure BDA00004076139800001011
分别为第d篇论文的权威值、多样值和流行值,其中,论文的权威值
Figure BDA00004076139800001012
表示该论文的权威程度,多样值
Figure BDA00004076139800001013
表示第d篇论文研究内容的多样性,论文的流行值
Figure BDA00004076139800001014
表示第d篇论文受读者的喜爱程度,该三个字符中的上标字母p表示该权威值、多样值和流行值是分别采用论文权威值、多样值和流行值计算方法得到的;边集合E2中的元素(d,n)表明两位序号分别为不同自然数d,n的两篇论文之间存在从pd指向pn的有向边(d,n),表示论文pd引用了论文pn,该边的权值为1。
作者层和论文层之间的连接边E={(ai,pd)}表示作者ai发表了论文pd,则在ai和pd之间存在有向边(i,d)。
参见图4,介绍一个双层引用网络的具体示例:在作者层有作者节点a1、a2、a3,在论文层有论文节点p1、p2、p3、p4、p5、p6。作者a2撰写了论文p1、p2、p3和p5,则在作者节点a2和论文节点p1、p2、p3和p5间分别存在一条有向边;作者a1撰写了论文p1、p4,则在作者节点a1和论文节点p1、p4间分别存在一条有向边;作者a3撰写了论文p6,则在作者节点a3和论文节点p6间存在一条有向边;论文p2引用了论文p1、p3和p4,则存在由论文节点p2分别指向论文节点p1、p3、p4的有向边,边的权重为1。作者a2的论文引用了作者a1的两篇论文,则存在由作者节点a2指向作者节点a1的有向边;对于作者节点a1,其隶属社区有c1。对于作者节点a2,其隶属社区有c1和c2;对于作者节点a3,其隶属社区有c3.c2社区中包括了3名作者,分别是a2、a3。c1和c3社区中分别包括了a1和a3
参见图5,介绍ACTTM模型训练单元生成ACCTM模型的操作步骤:
(1)设置论文层中的某篇论文pd以及其位于作者层中的作者集合sd
(2)选取作者集合sd中某个作者x,先计算获得该作者x的作者-社区特征向量χ,该作者-社区特征向量χ是以参数为给定正数λ的狄利克雷分布函数,再从参数为χ的多项分布函数中随机采样得到一个社区l;
(3)计算获得社区l的社区-主题特征向量Θ,该社区-主题特征向量Θ是参数为给定正数α的狄利克雷分布函数,再从参数为Θ的多项分布函数中随机采样得到一个序号为t的主题,自然数序号t的最大值为T;
(4)计算获得主题t的主题-单词特征向量Φ,该主题-单词特征向量Φ是参数为给定正数β的狄利克雷分布函数,再从参数为Φ的多项分布函数中随机采样得到一个单词h,且h归属于第d篇论文摘要中的单词集合Hd
(5)计算获得主题t的主题-时间特征向量ψ,该主题-时间特征向量ψ为二项分布函数,再从参数为ψ的Beta分布函数中随机采样得到一个时间戳、即论文发表时间z。
(四)用户兴趣模型构建模块,负责读取数据库中的用户操作记录和论文的作者集合和发表时间信息,以及从预处理模块得到的论文摘要的分词序列,由其两个组成部件:用户兴趣社区集合构建单元和用户属性值计算单元分别进行相应处理后,生成用户兴趣模型。其中的两个组成单元的功能介绍如下:
用户兴趣社区集合构建单元,负责根据从数据库读取用户操作记录和论文的发表时间及其作者信息、以及从预处理模块得到的论文摘要的分词序列,通过ACTTM模型预测,得到用户对应每个社区的用户-社区特征向量,即每位用户喜好每个社区的分布权值矩阵和该用户在每个社区的分布权值;再将该用户在每个社区的分布权值与设定阈值进行比较,将大于阈值的社区作为用户的兴趣社区,从而得到用户的兴趣社区集合。
用户属性值计算单元,负责从用户兴趣社区集合构建单元获取用户-社区特征向量后,分别计算每个用户的权威值
Figure BDA0000407613980000121
和多样值
Figure BDA0000407613980000122
以便与其兴趣社区集合中的兴趣社区一起组成该用户的兴趣模型,其数学表达式为
Figure BDA0000407613980000123
其中,自然数m为用户序号,IDm为用户ID,用户在C个社区的权威值向量
Figure BDA0000407613980000124
表示该用户在社区、即某个研究领域内的权威性程度:若用户阅读某个领域的大量论文,则该用户在该领域的权威值较大;权威值向量
Figure BDA0000407613980000125
中的元素
Figure BDA0000407613980000126
为第m位用户在第j个社区的权威值;用户的多样值
Figure BDA0000407613980000127
表示该第m位用户阅读的文献多样性程度,即用户涉猎的研究领域多样性,上述字符中的上标u表示该权威值和多样值是分别采用用户权威值和用户多样值的计算方法得到的;用户的兴趣社区集合
Figure BDA0000407613980000128
为该用户隶属的社区列表,下标的下标Nm表示该列表中的社区总个数。
(五)个性化学术推荐模块,负责读取用户兴趣模型构建模块构建用户的兴趣模型,得到每个用户的兴趣社区集合、用户权威值和用户多样值,再读取双层引用网络构建模块得到社区的作者列表、作者和论文间的著作关系、作者的属性值和论文的属性值,并经由其两个组成部件:作者推荐列表生成单元和论文推荐列表生成单元的处理,生成作者推荐列表和论文推荐列表。其中两个组成单元的功能介绍如下:
作者推荐列表生成单元,用于从用户兴趣模型构建模块读取每个用户的兴趣社区集合、用户权威值和用户多样值,再从双层引用网络构建模块读取社区作者列表、作者的属性值,通过计算生成作者推荐列表;
论文推荐列表生成单元,用于分别从作者推荐列表生成单元和双层引用网络构建模块读取生成的作者推荐列表、作者和论文间的著作关系和论文的属性值,通过计算生成论文推荐列表;再以用户ID为唯一标识将作者推荐列表和论文推荐列表存入数据库中。
(六)数据库,用于存储论文抓取模块抓取的所有论文的全部信息,包括:作为论文ID的链接地址、题目、摘要、发表时间和作者ID,所有用户对存储的该论文执行操作的全部行为记录,以及向用户最终推荐的作者推荐列表和论文推荐列表;每项操作的行为记录OR=(user_id,paper_id,event_id,time),其中,user_id为用户标识、paper_id为论文标识、event_id为操作内容,time为操作时间。
参见图6,介绍本发明基于社区的作者及其学术论文的推荐***的推荐方法的下述各个操作步骤:
步骤1,抓取论文:论文抓取模块利用网络爬虫在网络上抓取论文信息,包括该论文的标题、摘要、链接地址、作者ID、参考文献和发表时间,再使用该论文的链接地址作为该论文的唯一标识ID区分后,将抓取的该论文全部信息存储于数据库。
步骤2,预处理模块对论文摘要进行预处理:使用斯坦福词性标注器StanfordPOS Tagger(Stanford Log-Linear Part-Of-Speech Tagger)对论文摘要分别进行分词和标注词性的预处理操作,并保存词性标记为单数形式名词或物质名词NN(Noun,singular or mass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Proper noun,singular)、复数形式名词NPS(Proper noun,plural)的各种名词词语,再过滤并删除没有实际意义的停用词后,还要删除剩余词语数少于5的论文摘要。
步骤3,双层引用网络构建模块读取预处理模块中的论文摘要的分词序列和存储于数据库的包括论文作者ID、发表时间与参考文献的论文信息,利用ACTTM模型训练生成作者-社区特征向量,利用LDA主题模型训练生成论文-主题特征向量,再计算作者和论文的各种属性值,成功构建双层引用网络。
该步骤中,双层引用网络构建模块执行下述各项操作内容:
(31)从数据库读取论文的参考文献和作者信息,根据该论文参考文献提取作者间与论文间的引用关系,再结合作者和论文间的著作关系构建基础网络;
(32)从预处理模块读取论文摘要的分词序列、从数据库读取论文的作者集合及其发表时间,按照设定的社区个数和主题个数,使用ACTTM主题模型对论文摘要的分词序列进行主题模型训练,得到作者-社区特征向量(wi1,wi2,...,wij,...,wiC),再使用LDA主题模型对论文摘要的分词序列进行主题模型训练,得到论文-主题特征向量(vd1,vd2,...,vdt,...,vdT),且
Figure BDA0000407613980000131
Figure BDA0000407613980000132
式中,wij是第i位作者在第j个社区的分布权值,vdk是第d篇论文在第t个主题的分布权值,自然数下标j和t分别是社区序号和主题序号,两者最大值分别为C和T;
(33)根据作者-社区特征向量,将大于设定阈值的社区作为该作者的隶属社区,从而得到作者的隶属社区列表和每个社区内的作者列表;
(34)根据论文间引用关系、论文的主题特征向量和用户历史操作记录,分别执行下述操作,计算得到论文的权威值、多样值和流行值;
计算论文权威值
Figure BDA0000407613980000141
先从基础网络构建单元读取基础网络,根据公式
Figure BDA0000407613980000142
计算第d篇论文在网络拓扑中的点度入度中心度,所述点度入度中心度是复杂网络分析技术领域中,表示网络中指向该节点的边的数量,在双层引用网络表示该论文被引用的情况;其中,自然数d为论文序号,其最大值为D;为论文节点pd的点度入度中心度,degree(d)为指向论文节点pd的边的总数,再根据公式
Figure BDA0000407613980000144
计算该论文的权威值;
计算论文多样值
Figure BDA0000407613980000145
从ACTTM模型训练单元读取论文-主题特征向量,先利用公式
Figure BDA0000407613980000146
计算第d篇论文的研究内容覆盖的主题总数,即第d篇论文的论文-主题特征向量中分布权值大于设定阈值
Figure BDA0000407613980000147
的权值总数;再计算第d篇论文对应的论文-主题特征向量中各个分布权值的方差
Figure BDA0000407613980000148
Figure BDA0000407613980000149
最后根据公式
Figure BDA00004076139800001410
计算该论文的多样值,式中,
Figure BDA00004076139800001411
为各个分布权值的平均值,δ,ε分别为协调
Figure BDA00004076139800001413
的权重系数;
计算论文流行值
Figure BDA00004076139800001414
从数据库读取用户的历史操作行为记录,通过下述公式计算论文的流行值:
Figure BDA00004076139800001415
其中sum{}计算符合条件的操作记录条数,od为用户对第d篇论文的操作记录;
(35)根据作者间的引用关系、作者-社区特征向量和步骤(34)得到的论文的权威值、多样值和流行值,分别执行下述操作计算作者的权威值、多样值和流行值,最终得到双层引用网络;
计算作者权威值
Figure BDA00004076139800001416
分别从基础网络构建单元和ACTTM模型训练单元读取基础网络和作者-社区特征向量后,先从作者-社区特征向量中提取第i个作者在第j个社区下的分布权值wij,再根据公式
Figure BDA00004076139800001417
计算第i位作者在网络中表示该作者论文被引用情况的点度入度中心度,其中,下标q为第q位作者,
Figure BDA00004076139800001418
为作者节点ai的点度入度中心度,numqi为作者节点aq指向作者节点ai的边的权重,degree(i)为指向作者节点ai的边的集合;最后根据公式
Figure BDA0000407613980000151
计算第i位作者在第j个社区的权威值;顺序执行上述步骤计算
Figure BDA0000407613980000152
即对社区序号j从1到C都执行上述操作步骤,最终得到第i位作者的权威值
Figure BDA0000407613980000153
计算作者多样值
Figure BDA0000407613980000154
从ACTTM模型训练单元读取作者-社区特征向量,先得到第i位作者隶属社区列表中社区总个数再计算第i位作者对应的作者-社区特征向量中各个分布权值的方差
Figure BDA0000407613980000156
各个分布权值的平均值最后根据公式
Figure BDA0000407613980000158
计算得到第i位作者的多样值,其中,δ,ε为协调
Figure BDA0000407613980000159
Figure BDA00004076139800001510
的权重系数;
计算作者流行值
Figure BDA00004076139800001511
从数据库读取用户历史行为操作记录,根据公式
Figure BDA00004076139800001512
计算作者的流行值,其中,PSi为第i位作者所著的论文集合,d为第i位作者著作的一篇论文,为步骤(3)得到的第d篇论文的流行值。
步骤4,用户兴趣模型构建模块分别读取存储于数据库的用户历史操作记录以及包括论文作者ID、发表时间与参考文献的论文信息、还从预处理模块读取论文摘要的分词序列,利用ACTTM模型预测得到用户-社区特征向量,通过计算得到用户的兴趣社区集合,并根据用户-社区特征向量计算用户各种属性值,最终成功构建用户兴趣模型;步骤4和步骤3为并行实施的;
该步骤中,用户兴趣模型构建模块执行的操作包括下列内容:
(41)从数据库中读取用户的历史操作记录,将其操作过的论文作为该用户的论文集,再对该论文集中的论文摘要序列、论文作者集合和论文发表时间进行ACTTM模型的预测,得到用户-社区特征向量(ym1,ym2,...,ymj,…,ymC),且
Figure BDA00004076139800001514
式中,ymj是第m位用户在第j个社区的分布权值,自然数下标j是社区序号,其最大值为C;
(42)将分布权值大于设定阈值的社区作为该用户的兴趣社区,得到该用户的兴趣社区列表;
(43)根据用户的用户-社区特征向量,执行下述操作计算该用户的权威值和多样值,以便最终得到用户的兴趣社区模型;
计算用户权威值
Figure BDA00004076139800001515
利用ymj和通过公式
Figure BDA00004076139800001516
分别计算每个用户在每个社区的权威值,最终得到该用户的权威值
Figure BDA0000407613980000161
计算用户多样值
Figure BDA0000407613980000162
先计算每个用户的兴趣社区列表中的社区个数
Figure BDA0000407613980000163
再计算每个用户对应的用户-社区特征向量中各个分布权值的方差 cV m u = Σ v = 1 C ( y mv - y m ‾ ) 2 , 各个分布权值的平均值 y m ‾ = y m 1 + y m 2 + . . . + y mC C ; 最后通过公式
Figure BDA0000407613980000166
计算得到每个用户的多样值;其中,上标u代表用户,δ,ε分别为协调
Figure BDA0000407613980000167
Figure BDA0000407613980000168
的权重系数。
步骤5,个性化学术推荐模块读取步骤3的双层引用网络和步骤4的用户兴趣模型,生成用户的作者推荐列表和论文推荐列表;再以该用户ID为唯一标识,将该作者推荐列表和论文推荐列表存入数据库。
该步骤中,个性化学术推荐模块执行的操作包括下列内容:
(51)执行下列操作内容,生成初始作者推荐列表:
(511)读取步骤(4)生成的用户兴趣模型,得到用户的兴趣社区列表用户的权威值和多样值;再对兴趣社区列表中的每个社区
Figure BDA00004076139800001610
分别按照步骤(512)~(515)顺序执行相应处理,以便完成全部用户的每个兴趣社区处理后,执行步骤(516);
(512)从双层引用网络构建模块中读取第jm个社区的作者列表;
(513)通过用户的权威值分别计算第m位用户对第jm个社区中作者和论文的三个属性值的权重系数
Figure BDA00004076139800001611
Figure BDA00004076139800001612
α j m ∝ 1 A j m u , β j m = 1 - α j m - γ j m , γ j m ∝ M m u ; 其中,
Figure BDA00004076139800001614
为第m位用户在第jm个社区上的权威值,为第m位用户的多样值;
(514)通过公式
Figure BDA00004076139800001616
计算第m位用户对社区
Figure BDA00004076139800001617
内作者的偏好值,i为社区
Figure BDA00004076139800001618
内的第i位作者,
Figure BDA00004076139800001619
Figure BDA00004076139800001620
为步骤(513)得到的权重参数;
Figure BDA00004076139800001621
为第i位作者在社区
Figure BDA00004076139800001622
上的权威值,
Figure BDA00004076139800001623
Figure BDA00004076139800001624
分别为第i位作者的多样值和流行值;
(515)按照
Figure BDA00004076139800001625
的数值大小对社区内作者进行降序排列,根据目标用户的权威值取
Figure BDA00004076139800001626
名作者,存入初始作者推荐列表,其中topN为设定数值;
(516)完成全部兴趣社区的计算后,删除初始作者推荐列表中重复的作者,形成最终的作者推荐列表;
(52)读取步骤(51)中的作者推荐列表,执行下述步骤操作,生成论文推荐列表:
(521)读取步骤(516)生成的作者推荐列表,对作者推荐列表中的每位作者依次进行步骤(522)~(524)的操作,完成计算后,再执行步骤(525);
(522)从双层引用网络构建模块中读取第i位作者所著的论文ID、论文的权威值、多样值和流行值;
(523)根据第m位用户对第jm个社区的作者和论文的三个属性值的权重系数
Figure BDA0000407613980000171
和公式 F i m d = α j m A d p + β j m M d p + γ j m P d p , 依次计算用户对作者所著论文的偏好值;其中,
Figure BDA0000407613980000173
Figure BDA0000407613980000174
分别为第d篇论文的权威值、多样值和流行值;
(524)按照
Figure BDA0000407613980000175
的数值大小对作者所著论文进行降序排列,再根据目标用户的权威值选取篇文章,存入初始论文推荐列表;
(525)完成全部推荐作者的论文的计算操作后,删除初始论文推荐列表中重复的论文,形成最终的论文推荐列表;
(53)以用户ID为唯一标标识将作者推荐列表和论文推荐列表存于数据库。

Claims (10)

1.一种基于社区的作者及其学术论文的推荐***,其特征在于,该***先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文;该***设有:论文抓取模块、预处理模块、双层引用网络构建模块、用户兴趣模型构建模块、个性化学术推荐模块和数据库;其中:
论文抓取模块,负责采用网络爬虫抓取相关学科领域中每篇论文中包括标题、摘要、链接地址、作者标识ID、参考文献和发表时间的信息,将每篇论文使用该论文的链接地址用作唯一标识加以区分后,将抓取的论文全部信息都存储于数据库;
预处理模块,负责从数据库中读取每篇论文的摘要,并由其分词、词性标注、词性过滤与停用词剔除四个单元依序分别对论文摘要进行处理后,得到论文摘要的分词序列;其中分词单元依据空格、标点符号对论文摘要进行分词,词性标注单元对分词后的论文摘要标注词性,词性过滤单元依据标注的词性提取名词,停用词剔除单元过滤和删除其中对该论文摘要没有实际意义的停用词,以节省存储空间和提高搜索效率;
双层引用网络构建模块,负责从数据库读取论文的作者ID、参考文献和发表时间的信息,从预处理模块读取论文摘要的分词序列,并由其四个组成构件:基础网络构建单元、作者社区时间主题模型ACTTM模型训练单元、社区信息构建单元和节点属性值计算单元分别处理后,得到由作者层、论文层和两者之间的连接边组成的双层引用网络;其中ACTTM模型是在作者-主题AT模型、时间主题TOT模型与社区主题模型CTM相互结合基础上提出的一个新主题模型;
用户兴趣模型构建模块,负责读取数据库中的用户操作记录和论文的作者集合和发表时间信息,以及从预处理模块得到的论文摘要的分词序列,由其两个组成部件:用户兴趣社区集合构建单元和用户属性值计算单元分别进行相应处理后,生成用户兴趣模型;
个性化学术推荐模块,负责读取用户兴趣模型构建模块构建的用户兴趣模型,得到每个用户的兴趣社区集合、用户权威值和用户多样值,再读取双层引用网络构建模块得到的社区作者列表、作者和论文间的著作关系、作者的属性值和论文的属性值,并经由其两个组成部件:作者推荐列表生成单元和论文推荐列表生成单元的处理,生成作者推荐列表和论文推荐列表;
数据库,用于存储论文抓取模块抓取的所有论文的全部信息,包括:作为论文ID的链接地址、题目、摘要、发表时间和作者ID,所有用户对存储的该论文执行操作的全部行为记录,以及向用户最终推荐的作者推荐列表和论文推荐列表;每项操作的行为记录OR=(user_id,paper_id,event_id,time),其中,user_id为用户标识、paper_id为论文标识、event_id为操作内容,time为操作时间。
2.根据权利要求1所述的推荐***,其特征在于:所述双层引用网络的数学表达式为:G={G1,G2,E},其中:
由下标1表示的第一层子网络为作者层G1={V1,E1},其设有两个集合:作者集合V1={a1,a2,...,ai,...,aI}和边集合E1={(i,q,numiq)};V1中的元素ai为作者,自然数下标i为作者序号,共有I名作者;每位作者由下述五个参数描述之:
Figure FDA0000407613970000021
式中,IDi为作者标识ID;作者权威值向量
Figure FDA0000407613970000022
中自然数下标j为社区序号,常数C为j的最大值,即该双层引用网络中的社区总数;
Figure FDA0000407613970000023
Figure FDA0000407613970000024
分别为第i位作者在第j个社区的权威值、第i位作者的多样值和流行值,其中,权威值
Figure FDA0000407613970000025
表示第i位作者在第j个社区、即设定研究领域内的权威程度,多样值表示第i位作者研究内容的多样性,流行值
Figure FDA0000407613970000027
表示第i位作者受读者喜爱的程度,该三个字符中的上标字母a表示该权威值、多样值和流行值是分别利用作者权威值、作者多样值和作者流行值三种计算方法得到的;作者隶属的社区列表
Figure FDA0000407613970000028
表明:第i位作者共隶属于Si个社区,Si不大于双层引用网络中的社区总数C,其中,自然数下标ji为第i位作者隶属的社区序号,ji的最大值为Si;边集合E1中的元素(i,q,numiq)表示从ai指向aq的有向边,表示在两个序号分别为自然数i和q的作者之间,作者ai引用了作者aq的论文,权值numiq为引用次数;
由下标2表示的第二层子网络为论文层G2={V2,E2},其设有两个集合:论文集合V2={p1,p2,...,pd,...,pD}和边集合E2={(d,n)},pd中的自然数下标d为论文序号,共有D篇论文;每篇论文pd由四个参数描述之,即
Figure FDA0000407613970000031
IDd为第d篇论文标识ID;
Figure FDA0000407613970000032
Figure FDA0000407613970000033
分别为第d篇论文的权威值、多样值和流行值,其中,论文的权威值
Figure FDA0000407613970000034
表示第d篇论文的权威程度,多样值
Figure FDA0000407613970000035
表示第d篇论文研究内容的多样性,论文的流行值表示第d篇论文受读者的喜爱程度,该三个字符中的上标字母p表示该权威值、多样值和流行值是分别采用论文权威值、多样值和流行值计算方法得到的;边集合E2中的元素(d,n)表明两位序号分别为不同自然数d,n的两篇论文之间存在从pd指向pn的有向边(d,n),表示论文pd引用了论文pn,该边的权值为1;
作者层和论文层之间的连接边E={(ai,pd)}表示作者ai发表了论文pd,则在ai和pd之间存在有向边(i,d)。
3.根据权利要求1所述的推荐***,其特征在于:所述ACTTM模型训练单元生成ACCTM模型的过程包括如下步骤:
(1)设置论文层中的某篇论文pd以及其位于作者层中的作者集合sd
(2)选取作者集合sd中某个作者x,先计算获得该作者x的作者-社区特征向量χ,该作者-社区特征向量χ是以参数为给定正数λ的狄利克雷分布函数,再从参数为χ的多项分布函数中随机采样得到一个社区l;
(3)计算获得社区l的社区-主题特征向量Θ,该社区-主题特征向量Θ是参数为给定正数α的狄利克雷分布函数,再从参数为Θ的多项分布函数中随机采样得到一个序号为t的主题,自然数序号t的最大值为T;
(4)计算获得主题t的主题-单词特征向量Φ,该主题-单词特征向量Φ是参数为给定正数β的狄利克雷分布函数,再从参数为Φ的多项分布函数中随机采样得到一个单词h,且h归属于第d篇论文摘要中的单词集合Hd
(5)计算获得主题t的主题-时间特征向量ψ,该主题-时间特征向量ψ为二项分布函数,再从参数为ψ的Beta分布函数中随机采样得到一个时间戳、即论文发表时间z。
4.根据权利要求1所述的推荐***,其特征在于:所述双层引用网络构建模块中的四个组成单元的功能如下:
基础网络构建单元,负责读取存储于数据库的论文的参考文献和作者信息,提取论文间和作者间的引用关系,以及论文和作者间的著作关系,用于构建双层引用网络的基础网络,即由不具有属性值的作者节点集合V1和论文节点集合V2,以及表示两类节点之间关系的各种边E1、E2和E所构成,以供ACTTM模型训练单元、社区信息构建单元和节点属性计算单元在基础网络上添加社区信息和属性值信息,构建得到双层引用网络;
ACTTM模型训练单元,负责读取预处理模块的论文摘要的分词序列、存储于数据库的论文作者集合和论文发表时间信息,分别进行ACTTM模型训练和潜在狄利克雷分布LDA(Latent Dirichlet Allocation)主题模型训练,通过Gibbs采样按照ACTTM的生成模型进行ACCTM模型训练,按照LDA的生成模型进行LDA模型训练,最终生成:每位作者对应每个社区的作者-社区特征向量、即表示每位作者归属于每个社区的分布权值矩阵(wi1,wi2,...,wij,…,wiC),每篇论文对应每个主题的论文-主题特征向量、即每篇论文隶属于每个主题的分布权值矩阵(vd1,vd2,…,vdt,...,vdT),每个社区对应每个主题的社区-主题特征向量、即每个社区归属于每个主题的分布权值矩阵,每个主题对应每个时间戳的主题-时间特征向量、即每个主题归属于每个时间戳的分布权值矩阵;以及每个主题对应每个单词的主题-单词特征向量,即每个主题归属于每个单词的分布权值矩阵;式中,自然数t为主题序号;
社区信息构建单元,负责从ACCTM模型训练单元读取作者-社区特征向量,并将作者在每个社区的分布权值wij与设定阈值进行比较,将大于设定阈值的社区作为作者的隶属社区,以获得双层引用网络中该作者隶属的社区列表
Figure FDA0000407613970000041
其中,自然数下标ji为社区序号,下标的下标Si为作者隶属的社区总数;完成所有作者的隶属社区列表的生成后,就得到每个社区所归属的作者列表;
节点属性值计算单元,负责从ACTTM模型训练单元得到作者-社区特征向量、论文-主题特征向量和从基础网络构建单元获得基础网络后,逐个计算每个节点的属性值:包括论文节点的权威值
Figure FDA0000407613970000042
多样值
Figure FDA0000407613970000043
和流行值以及作者节点的权威值
Figure FDA0000407613970000045
多样值
Figure FDA0000407613970000046
和流行值
Figure FDA0000407613970000047
5.根据权利要求1所述的推荐***,其特征在于:所述用户兴趣模型构建模块的两个组成单元的功能如下:
用户兴趣社区集合构建单元,负责根据从数据库读取用户操作记录和论文的发表时间及其作者信息、以及从预处理模块得到的论文摘要的分词序列,通过ACTTM模型预测,得到用户对应每个社区的用户-社区特征向量,即每位用户喜好每个社区的分布权值矩阵和该用户在每个社区的分布权值;再将该用户在每个社区的分布权值与设定阈值进行比较,将大于阈值的社区作为用户的兴趣社区,从而得到用户的兴趣社区集合;
用户属性值计算单元,负责从用户兴趣社区集合构建单元获取用户-社区特征向量后,分别计算每个用户的权威值
Figure FDA0000407613970000051
和多样值
Figure FDA0000407613970000052
以便与其兴趣社区集合中的兴趣社区一起组成该用户的兴趣模型,其数学表达式为
Figure FDA0000407613970000053
其中,自然数m为用户序号,IDm为第m位用户的ID,用户在C个社区的权威值向量
Figure FDA0000407613970000054
表示该用户在社区、即某个研究领域内的权威性程度:若用户阅读某个领域的大量论文,则该用户在该领域的权威值较大;权威值向量
Figure FDA0000407613970000055
中的元素
Figure FDA0000407613970000056
为第m位用户在第j个社区的权威值;用户的多样值
Figure FDA0000407613970000057
表示第m位用户阅读的文献多样性程度,即用户涉猎的研究领域多样性,上述字符中的上标u表示该权威值和多样值是分别采用用户权威值和用户多样值的计算方法得到的;用户的兴趣社区集合
Figure FDA0000407613970000058
为该用户隶属的社区列表,下标的下标Nm表示该列表中的社区总个数。
6.根据权利要求1所述的推荐***,其特征在于:所述个性化学术推荐模块中的两个组成单元的功能如下:
作者推荐列表生成单元,用于从用户兴趣模型构建模块读取每个用户的兴趣社区集合、用户权威值和用户多样值,再从双层引用网络构建模块读取社区作者列表、作者的属性值,通过计算生成作者推荐列表;
论文推荐列表生成单元,用于分别从作者推荐列表生成单元和双层引用网络构建模块读取生成的作者推荐列表、作者和论文间的著作关系和论文的属性值,通过计算生成论文推荐列表;再以用户ID为唯一标识将作者推荐列表和论文推荐列表存入数据库中。
7.一种基于社区的作者及其学术论文的推荐***的推荐方法,其特征在于:所述方法包括下列操作步骤:
(1)抓取论文:论文抓取模块利用网络爬虫在网络上抓取论文信息,包括该论文的标题、摘要、链接地址、作者ID、参考文献和发表时间,再使用该论文的链接地址作为该论文的唯一标识ID区分后,将抓取的该论文全部信息存储于数据库;
(2)预处理模块对论文摘要进行预处理:使用斯坦福词性标注器StanfordPOS Tagger(Stanford Log-Linear Part-Of-Speech Tagger)对论文摘要分别进行分词和标注词性的预处理操作,并保存词性标记为单数形式名词或物质名词NN(Noun,singular or mass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Proper noun,singular)、复数形式名词NPS(Proper noun,plural)的各种名词词语,再过滤并删除没有实际意义的停用词后,还要删除剩余词语数少于5的论文摘要;
(3)双层引用网络构建模块读取预处理模块中的论文摘要的分词序列和存储于数据库的包括论文作者ID、发表时间与参考文献的论文信息,利用ACTTM模型训练生成作者-社区特征向量,利用LDA主题模型训练生成论文-主题特征向量,再计算作者和论文的各种属性值,成功构建双层引用网络;
(4)用户兴趣模型构建模块分别读取存储于数据库的用户历史操作记录以及包括论文作者ID、发表时间与参考文献的论文信息、还从预处理模块读取论文摘要的分词序列,利用ACTTM模型预测得到用户-社区特征向量,通过计算得到用户的兴趣社区集合,并根据用户-社区特征向量计算用户各种属性值,最终成功构建用户兴趣模型;该步骤(4)和上述步骤(3)为同时并行实施的;
(5)个性化学术推荐模块读取步骤(3)的双层引用网络和步骤(4)的用户兴趣模型,生成用户的作者推荐列表和论文推荐列表;再以该用户ID为唯一标识,将该作者推荐列表和论文推荐列表存入数据库。
8.根据权利要求7所述的方法,其特征在于:所述步骤(3)中,双层引用网络构建模块执行下述各项操作内容:
(31)从数据库读取论文的参考文献和作者信息,根据该论文参考文献提取作者间与论文间的引用关系,再结合作者和论文间的著作关系构建基础网络;
(32)从预处理模块读取论文摘要的分词序列、从数据库读取论文的作者集合及其发表时间,按照设定的社区个数和主题个数,使用ACTTM主题模型对论文摘要的分词序列进行主题模型训练,得到作者-社区特征向量(wi1,wi2,...,wij,...,wiC),再使用LDA主题模型对论文摘要的分词序列进行主题模型训练,得到论文-主题特征向量(vd1,vd2,...,vdt,...,vdT),且
Figure FDA0000407613970000072
式中,wij是第i位作者在第j个社区的分布权值,vdk是第d篇论文在第t个主题的分布权值,自然数下标j和t分别是社区序号和主题序号,两者最大值分别为C和T;
(33)根据作者-社区特征向量,将大于设定阈值的社区作为该作者的隶属社区,从而得到作者的隶属社区列表和每个社区内的作者列表;
(34)根据论文间引用关系、论文的主题特征向量和用户历史操作记录,分别执行下述操作,计算得到论文的权威值、多样值和流行值;
计算论文权威值
Figure FDA0000407613970000073
先从基础网络构建单元读取基础网络,根据公式
Figure FDA0000407613970000074
计算第d篇论文在网络拓扑中的点度入度中心度,所述点度入度中心度是复杂网络分析技术领域中,表示网络中指向该节点的边的数量,在双层引用网络表示该论文被引用的情况;其中,自然数d为论文序号,其最大值为D;
Figure FDA0000407613970000075
为论文节点pd的点度入度中心度,degree(d)为指向论文节点pd的边的总数,再根据公式
Figure FDA0000407613970000076
计算该论文的权威值;
计算论文多样值从ACTTM模型训练单元读取论文-主题特征向量,先利用公式
Figure FDA0000407613970000078
计算第d篇论文的研究内容覆盖的主题总数,即第d篇论文的论文-主题特征向量中分布权值大于设定阈值
Figure FDA0000407613970000079
的权值总数;再计算第d篇论文对应的论文-主题特征向量中各个分布权值的方差
Figure FDA00004076139700000711
最后根据公式
Figure FDA00004076139700000712
计算该论文的多样值,式中,
Figure FDA00004076139700000713
为各个分布权值的平均值,δ,ε分别为协调
Figure FDA00004076139700000714
Figure FDA00004076139700000715
的权重系数;
计算论文流行值
Figure FDA00004076139700000716
从数据库读取用户的历史操作行为记录,通过下述公式计算论文的流行值:
Figure FDA00004076139700000717
其中sum{}计算符合条件的操作记录条数,od为用户对第d篇论文的操作记录;
(35)根据作者间的引用关系、作者-社区特征向量和步骤(34)得到的论文的权威值、多样值和流行值,分别执行下述操作计算作者的权威值、多样值和流行值,最终得到双层引用网络;
计算作者权威值
Figure FDA00004076139700000718
分别从基础网络构建单元和ACTTM模型训练单元读取基础网络和作者-社区特征向量后,先从作者-社区特征向量中提取第i个作者在第j个社区下的分布权值wij,再根据公式
Figure FDA0000407613970000081
计算第i位作者在网络中表示该作者论文被引用情况的点度入度中心度,其中,下标q为第q位作者,
Figure FDA0000407613970000082
为作者节点ai的点度入度中心度,numqi为作者节点aq指向作者节点ai的边的权重,degree(i)为指向作者节点ai的边的集合;最后根据公式计算第i位作者在第j个社区的权威值;顺序执行上述步骤计算
Figure FDA0000407613970000084
即对社区序号j从1到C都执行上述操作步骤,最终得到第i位作者的权威值
Figure FDA0000407613970000085
计算作者多样值
Figure FDA0000407613970000086
从ACTTM模型训练单元读取作者-社区特征向量,先得到第i位作者隶属社区列表中社区总个数
Figure FDA0000407613970000087
再计算第i位作者对应的作者-社区特征向量中各个分布权值的方差各个分布权值的平均值
Figure FDA0000407613970000089
最后根据公式
Figure FDA00004076139700000810
计算得到第i位作者的多样值,其中,δ,ε为协调
Figure FDA00004076139700000811
Figure FDA00004076139700000812
的权重系数;
计算作者流行值
Figure FDA00004076139700000813
从数据库读取用户历史行为操作记录,根据公式
Figure FDA00004076139700000814
计算作者的流行值,其中,PSi为第i位作者所著的论文集合,d为第i位作者著作的一篇论文,
Figure FDA00004076139700000815
为步骤(3)得到的第d篇论文的流行值。
9.根据权利要求7所述的方法,其特征在于:所述步骤(4)中,用户兴趣模型构建模块执行的操作包括下列内容:
(41)从数据库中读取用户的历史操作记录,将其操作过的论文作为该用户的论文集,再对该论文集中的论文摘要序列、论文作者集合和论文发表时间进行ACTTM模型的预测,得到用户-社区特征向量(ym1,ym2,...,ymj,…,ymC),且
Figure FDA00004076139700000816
式中,ymj是第m位用户在第j个社区的分布权值,自然数下标j是社区序号,其最大值为C;
(42)将分布权值大于设定阈值的社区作为该用户的兴趣社区,得到该用户的兴趣社区列表;
(43)根据用户的用户-社区特征向量,执行下述操作计算该用户的权威值和多样值,以便最终得到用户的兴趣社区模型;
计算用户权威值
Figure FDA0000407613970000091
利用ymj和通过公式分别计算每个用户在每个社区的权威值,最终得到该用户的权威值
Figure FDA0000407613970000093
计算用户多样值
Figure FDA0000407613970000094
先计算每个用户的兴趣社区列表中的社区个数再计算每个用户对应的用户-社区特征向量中各个分布权值的方差 cV m u = Σ v = 1 C ( y mv - y m ‾ ) 2 , 各个分布权值的平均值 y m ‾ = y m 1 + y m 2 + . . . + y mC C ; 最后通过公式计算得到每个用户的多样值;其中,上标u代表用户,δ,ε分别为协调
Figure FDA0000407613970000099
Figure FDA00004076139700000910
的权重系数。
10.根据权利要求7所述的方法,其特征在于:所述步骤(5)中,个性化学术推荐模块执行的操作包括下列内容:
(51)执行下列操作内容,生成初始作者推荐列表:
(511)读取步骤(4)生成的用户兴趣模型,得到用户的兴趣社区列表
Figure FDA00004076139700000911
用户的权威值和多样值;再对兴趣社区列表中的每个社区分别按照步骤(512)~(515)顺序执行相应处理,以便完成全部用户的每个兴趣社区处理后,执行步骤(516);
(512)从双层引用网络构建模块中读取第jm个社区的作者列表;
(513)通过用户的权威值分别计算第m位用户对第jm个社区中作者和论文的三个属性值的权重系数
Figure FDA00004076139700000927
Figure FDA00004076139700000928
α j m ∝ 1 A j m u , β j m = 1 - α j m - γ j m , γ j m ∝ M m u ; 其中,
Figure FDA00004076139700000914
为第m位用户在第jm个社区上的权威值,为第m位用户的多样值;
(514)通过公式
Figure FDA00004076139700000916
计算第m位用户对社区
Figure FDA00004076139700000917
内作者的偏好值,i为社区
Figure FDA00004076139700000918
内的第i位作者,
Figure FDA00004076139700000919
Figure FDA00004076139700000920
为步骤(513)得到的权重参数;
Figure FDA00004076139700000921
为第i位作者在社区
Figure FDA00004076139700000922
上的权威值,
Figure FDA00004076139700000923
分别为第i位作者的多样值和流行值;
(515)按照
Figure FDA00004076139700000925
的数值大小对社区内作者进行降序排列,根据目标用户的权威值取名作者,存入初始作者推荐列表,其中topN为设定数值;
(516)完成全部兴趣社区的计算后,删除初始作者推荐列表中重复的作者,形成最终的作者推荐列表;
(52)读取步骤(51)中的作者推荐列表,执行下述步骤操作,生成论文推荐列表:
(521)读取步骤(516)生成的作者推荐列表,对作者推荐列表中的每位作者依次进行步骤(522)~(524)的操作,完成计算后,再执行步骤(525);
(522)从双层引用网络构建模块中读取第i位作者所著的论文ID、论文的权威值、多样值和流行值;
(523)根据第m位用户对第jm个社区的作者和论文的三个属性值的权重系数
Figure FDA0000407613970000101
和公式 F i m d = α j m A d p + β j m M d p + γ j m P d p , 依次计算用户对作者所著论文的偏好值;其中,分别为第d篇论文的权威值、多样值和流行值;
(524)按照
Figure FDA0000407613970000105
的数值大小对作者所著论文进行降序排列,再根据目标用户的权威值选取
Figure FDA0000407613970000106
篇文章,存入初始论文推荐列表;
(525)完成全部推荐作者的论文的计算操作后,删除初始论文推荐列表中重复的论文,形成最终的论文推荐列表;
(53)以用户ID为唯一标标识将作者推荐列表和论文推荐列表存于数据库。
CN201310537842.6A 2013-11-04 2013-11-04 基于社区的作者及其学术论文推荐***和推荐方法 Expired - Fee Related CN103559262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310537842.6A CN103559262B (zh) 2013-11-04 2013-11-04 基于社区的作者及其学术论文推荐***和推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310537842.6A CN103559262B (zh) 2013-11-04 2013-11-04 基于社区的作者及其学术论文推荐***和推荐方法

Publications (2)

Publication Number Publication Date
CN103559262A true CN103559262A (zh) 2014-02-05
CN103559262B CN103559262B (zh) 2016-10-05

Family

ID=50013509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310537842.6A Expired - Fee Related CN103559262B (zh) 2013-11-04 2013-11-04 基于社区的作者及其学术论文推荐***和推荐方法

Country Status (1)

Country Link
CN (1) CN103559262B (zh)

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239570A (zh) * 2014-09-30 2014-12-24 百度在线网络技术(北京)有限公司 论文的搜索方法及装置
CN104731926A (zh) * 2015-03-27 2015-06-24 百度在线网络技术(北京)有限公司 推荐词的展现方法和装置
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN104933111A (zh) * 2015-06-03 2015-09-23 中南大学 一种基于学术关系网络的专家学术距离评估方法
CN105096101A (zh) * 2015-07-06 2015-11-25 福州大学 基于lda模型及中心度算法的邮件网络取证分析方法
CN105426514A (zh) * 2015-11-30 2016-03-23 扬州大学 个性化的移动应用app推荐方法
CN105528419A (zh) * 2015-11-30 2016-04-27 合肥工业大学 一种考虑用户-作者关系建模的个性化搜索方法
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及***
CN105787068A (zh) * 2016-03-01 2016-07-20 上海交通大学 基于引用网络及用户熟练度分析的学术推荐方法及***
CN105912580A (zh) * 2016-03-31 2016-08-31 比美特医护在线(北京)科技有限公司 信息获取方法及装置和信息推送方法及装置
CN106021352A (zh) * 2016-05-10 2016-10-12 南京大学 一种基于社群分析的学术搜索引擎排序方法
CN106227835A (zh) * 2016-07-25 2016-12-14 中南大学 基于二分网络图层次聚类的团队研究方向挖掘方法
CN106844665A (zh) * 2017-01-20 2017-06-13 中山大学 一种基于引用关系分布式表达的论文推荐方法
CN106997397A (zh) * 2017-04-17 2017-08-01 山东辰华科技信息有限公司 基于大数据的科技信息个性化定制推送***
CN107103551A (zh) * 2017-03-20 2017-08-29 重庆邮电大学 一种选取种子节点的合著网络社区划分方法
CN107229640A (zh) * 2016-03-24 2017-10-03 阿里巴巴集团控股有限公司 相似度处理方法、对象筛选方法和装置
CN107315807A (zh) * 2017-06-26 2017-11-03 三螺旋大数据科技(昆山)有限公司 人才推荐方法和装置
CN107480213A (zh) * 2017-07-27 2017-12-15 上海交通大学 基于时序文本网络的社区检测与用户关系预测方法
CN108074071A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 一种项目数据处理方法及装置
CN108132961A (zh) * 2017-11-06 2018-06-08 浙江工业大学 一种基于引用预测的参考文献推荐方法
CN108287909A (zh) * 2018-01-31 2018-07-17 北京仁和汇智信息技术有限公司 一种论文推送方法及装置
CN108304526A (zh) * 2018-01-25 2018-07-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器
CN108304380A (zh) * 2018-01-24 2018-07-20 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法
CN108416535A (zh) * 2018-03-27 2018-08-17 中国科学技术大学 基于深度学习的专利价值评估的方法
CN108595713A (zh) * 2018-05-14 2018-09-28 中国科学院计算机网络信息中心 确定对象集合的方法和装置
CN108763354A (zh) * 2018-05-16 2018-11-06 浙江工业大学 一种个性化的学术文献推荐方法
CN109388665A (zh) * 2018-09-30 2019-02-26 吉林大学 作者关系在线挖掘方法及***
CN109657122A (zh) * 2018-12-10 2019-04-19 大连理工大学 一种基于学术大数据的学术团队重要成员识别方法
CN109862100A (zh) * 2019-02-12 2019-06-07 北京字节跳动网络技术有限公司 用于推送信息的方法和装置
CN109885675A (zh) * 2019-02-25 2019-06-14 合肥工业大学 基于改进lda的文本子话题发现方法
US10387513B2 (en) 2015-08-28 2019-08-20 Yandex Europe Ag Method and apparatus for generating a recommended content list
US10387115B2 (en) 2015-09-28 2019-08-20 Yandex Europe Ag Method and apparatus for generating a recommended set of items
US10394420B2 (en) 2016-05-12 2019-08-27 Yandex Europe Ag Computer-implemented method of generating a content recommendation interface
US10430481B2 (en) 2016-07-07 2019-10-01 Yandex Europe Ag Method and apparatus for generating a content recommendation in a recommendation system
US10452731B2 (en) 2015-09-28 2019-10-22 Yandex Europe Ag Method and apparatus for generating a recommended set of items for a user
WO2019223552A1 (zh) * 2018-05-25 2019-11-28 腾讯科技(深圳)有限公司 文章推荐方法、装置、计算机设备及存储介质
CN110674318A (zh) * 2019-08-14 2020-01-10 中国科学院计算机网络信息中心 一种基于引文网络社区发现的数据推荐方法
CN110825942A (zh) * 2019-10-22 2020-02-21 清华大学 一种论文质量的计算方法及***
USD882600S1 (en) 2017-01-13 2020-04-28 Yandex Europe Ag Display screen with graphical user interface
US10674215B2 (en) 2018-09-14 2020-06-02 Yandex Europe Ag Method and system for determining a relevancy parameter for content item
CN111274497A (zh) * 2020-01-22 2020-06-12 北京百度网讯科技有限公司 社区推荐及模型训练方法、装置、电子设备及存储介质
US10706325B2 (en) 2016-07-07 2020-07-07 Yandex Europe Ag Method and apparatus for selecting a network resource as a source of content for a recommendation system
CN112269909A (zh) * 2020-09-15 2021-01-26 淮阴工学院 一种基于多源信息融合技术的专家推荐方法
US11086888B2 (en) 2018-10-09 2021-08-10 Yandex Europe Ag Method and system for generating digital content recommendation
CN113255801A (zh) * 2021-06-02 2021-08-13 北京字节跳动网络技术有限公司 一种数据处理的方法、装置、计算机设备及存储介质
CN113505216A (zh) * 2021-07-07 2021-10-15 辽宁工程技术大学 一种基于引用图的多特征论文推荐方法
CN113704412A (zh) * 2021-08-31 2021-11-26 交通运输部科学研究院 交通运输领域变革性研究文献早期识别方法
US11263217B2 (en) 2018-09-14 2022-03-01 Yandex Europe Ag Method of and system for determining user-specific proportions of content for recommendation
US11276079B2 (en) 2019-09-09 2022-03-15 Yandex Europe Ag Method and system for meeting service level of content item promotion
US11276076B2 (en) 2018-09-14 2022-03-15 Yandex Europe Ag Method and system for generating a digital content recommendation
US11288333B2 (en) 2018-10-08 2022-03-29 Yandex Europe Ag Method and system for estimating user-item interaction data based on stored interaction data by using multiple models
CN116628350A (zh) * 2023-07-26 2023-08-22 山东大学 基于可区分主题的新论文推荐方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理***及方法
US8326690B2 (en) * 2002-10-07 2012-12-04 Amazon Technologies, Inc. User interface and methods for recommending items to users

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326690B2 (en) * 2002-10-07 2012-12-04 Amazon Technologies, Inc. User interface and methods for recommending items to users
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
门瑞: "高质量个性化论文推荐***研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
骆国靖: "基于主题模型的模块化网络和社区挖掘研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239570B (zh) * 2014-09-30 2018-04-13 百度在线网络技术(北京)有限公司 论文的搜索方法及装置
CN104239570A (zh) * 2014-09-30 2014-12-24 百度在线网络技术(北京)有限公司 论文的搜索方法及装置
CN104731926A (zh) * 2015-03-27 2015-06-24 百度在线网络技术(北京)有限公司 推荐词的展现方法和装置
CN104731926B (zh) * 2015-03-27 2018-03-09 百度在线网络技术(北京)有限公司 推荐词的展现方法和装置
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN104899273B (zh) * 2015-05-27 2017-08-25 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN104933111A (zh) * 2015-06-03 2015-09-23 中南大学 一种基于学术关系网络的专家学术距离评估方法
CN104933111B (zh) * 2015-06-03 2018-01-12 中南大学 一种基于学术关系网络的专家学术距离评估方法
CN105096101A (zh) * 2015-07-06 2015-11-25 福州大学 基于lda模型及中心度算法的邮件网络取证分析方法
CN105096101B (zh) * 2015-07-06 2018-08-17 福州大学 基于lda模型及中心度算法的邮件网络取证分析方法
US10387513B2 (en) 2015-08-28 2019-08-20 Yandex Europe Ag Method and apparatus for generating a recommended content list
US10452731B2 (en) 2015-09-28 2019-10-22 Yandex Europe Ag Method and apparatus for generating a recommended set of items for a user
US10387115B2 (en) 2015-09-28 2019-08-20 Yandex Europe Ag Method and apparatus for generating a recommended set of items
CN105528419B (zh) * 2015-11-30 2017-05-17 合肥工业大学 一种考虑用户‑作者关系建模的个性化搜索方法
CN105426514B (zh) * 2015-11-30 2019-03-01 扬州大学 个性化的移动应用app推荐方法
CN105528419A (zh) * 2015-11-30 2016-04-27 合肥工业大学 一种考虑用户-作者关系建模的个性化搜索方法
CN105426514A (zh) * 2015-11-30 2016-03-23 扬州大学 个性化的移动应用app推荐方法
CN105589948B (zh) * 2015-12-18 2018-10-12 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及***
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及***
CN105787068B (zh) * 2016-03-01 2019-08-23 上海交通大学 基于引用网络及用户熟练度分析的学术推荐方法及***
CN105787068A (zh) * 2016-03-01 2016-07-20 上海交通大学 基于引用网络及用户熟练度分析的学术推荐方法及***
CN107229640A (zh) * 2016-03-24 2017-10-03 阿里巴巴集团控股有限公司 相似度处理方法、对象筛选方法和装置
CN105912580A (zh) * 2016-03-31 2016-08-31 比美特医护在线(北京)科技有限公司 信息获取方法及装置和信息推送方法及装置
CN106021352B (zh) * 2016-05-10 2019-04-30 南京大学 一种基于社群分析的学术搜索引擎排序方法
CN106021352A (zh) * 2016-05-10 2016-10-12 南京大学 一种基于社群分析的学术搜索引擎排序方法
US10394420B2 (en) 2016-05-12 2019-08-27 Yandex Europe Ag Computer-implemented method of generating a content recommendation interface
US10706325B2 (en) 2016-07-07 2020-07-07 Yandex Europe Ag Method and apparatus for selecting a network resource as a source of content for a recommendation system
US10430481B2 (en) 2016-07-07 2019-10-01 Yandex Europe Ag Method and apparatus for generating a content recommendation in a recommendation system
CN106227835B (zh) * 2016-07-25 2018-01-19 中南大学 基于二分网络图层次聚类的团队研究方向挖掘方法
CN106227835A (zh) * 2016-07-25 2016-12-14 中南大学 基于二分网络图层次聚类的团队研究方向挖掘方法
CN108074071A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 一种项目数据处理方法及装置
CN108074071B (zh) * 2016-11-18 2021-06-18 腾讯科技(深圳)有限公司 一种项目数据处理方法及装置
USD882600S1 (en) 2017-01-13 2020-04-28 Yandex Europe Ag Display screen with graphical user interface
USD892847S1 (en) 2017-01-13 2020-08-11 Yandex Europe Ag Display screen with graphical user interface
USD890802S1 (en) 2017-01-13 2020-07-21 Yandex Europe Ag Display screen with graphical user interface
USD980246S1 (en) 2017-01-13 2023-03-07 Yandex Europe Ag Display screen with graphical user interface
USD892846S1 (en) 2017-01-13 2020-08-11 Yandex Europe Ag Display screen with graphical user interface
CN106844665A (zh) * 2017-01-20 2017-06-13 中山大学 一种基于引用关系分布式表达的论文推荐方法
CN106844665B (zh) * 2017-01-20 2020-05-08 中山大学 一种基于引用关系分布式表达的论文推荐方法
CN107103551A (zh) * 2017-03-20 2017-08-29 重庆邮电大学 一种选取种子节点的合著网络社区划分方法
CN106997397A (zh) * 2017-04-17 2017-08-01 山东辰华科技信息有限公司 基于大数据的科技信息个性化定制推送***
CN107315807A (zh) * 2017-06-26 2017-11-03 三螺旋大数据科技(昆山)有限公司 人才推荐方法和装置
CN107315807B (zh) * 2017-06-26 2020-08-04 三螺旋大数据科技(昆山)有限公司 人才推荐方法和装置
CN107480213B (zh) * 2017-07-27 2021-12-24 上海交通大学 基于时序文本网络的社区检测与用户关系预测方法
CN107480213A (zh) * 2017-07-27 2017-12-15 上海交通大学 基于时序文本网络的社区检测与用户关系预测方法
CN108132961B (zh) * 2017-11-06 2020-06-30 浙江工业大学 一种基于引用预测的参考文献推荐方法
CN108132961A (zh) * 2017-11-06 2018-06-08 浙江工业大学 一种基于引用预测的参考文献推荐方法
CN108304380A (zh) * 2018-01-24 2018-07-20 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法
CN108304380B (zh) * 2018-01-24 2020-09-22 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法
CN108304526B (zh) * 2018-01-25 2022-02-11 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器
CN108304526A (zh) * 2018-01-25 2018-07-20 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器
CN108287909A (zh) * 2018-01-31 2018-07-17 北京仁和汇智信息技术有限公司 一种论文推送方法及装置
CN108416535B (zh) * 2018-03-27 2021-08-13 中国科学技术大学 基于深度学习的专利价值评估的方法
CN108416535A (zh) * 2018-03-27 2018-08-17 中国科学技术大学 基于深度学习的专利价值评估的方法
CN108595713A (zh) * 2018-05-14 2018-09-28 中国科学院计算机网络信息中心 确定对象集合的方法和装置
CN108595713B (zh) * 2018-05-14 2020-09-29 中国科学院计算机网络信息中心 确定对象集合的方法和装置
CN108763354B (zh) * 2018-05-16 2021-04-06 浙江工业大学 一种个性化的学术文献推荐方法
CN108763354A (zh) * 2018-05-16 2018-11-06 浙江工业大学 一种个性化的学术文献推荐方法
CN110598086B (zh) * 2018-05-25 2020-11-24 腾讯科技(深圳)有限公司 文章推荐方法、装置、计算机设备及存储介质
CN110598086A (zh) * 2018-05-25 2019-12-20 腾讯科技(深圳)有限公司 文章推荐方法、装置、计算机设备及存储介质
WO2019223552A1 (zh) * 2018-05-25 2019-11-28 腾讯科技(深圳)有限公司 文章推荐方法、装置、计算机设备及存储介质
US11763145B2 (en) 2018-05-25 2023-09-19 Tencent Technology (Shenzhen) Company Limited Article recommendation method and apparatus, computer device, and storage medium
US10674215B2 (en) 2018-09-14 2020-06-02 Yandex Europe Ag Method and system for determining a relevancy parameter for content item
US11263217B2 (en) 2018-09-14 2022-03-01 Yandex Europe Ag Method of and system for determining user-specific proportions of content for recommendation
US11276076B2 (en) 2018-09-14 2022-03-15 Yandex Europe Ag Method and system for generating a digital content recommendation
CN109388665A (zh) * 2018-09-30 2019-02-26 吉林大学 作者关系在线挖掘方法及***
CN109388665B (zh) * 2018-09-30 2020-10-09 吉林大学 作者关系在线挖掘方法及***
US11288333B2 (en) 2018-10-08 2022-03-29 Yandex Europe Ag Method and system for estimating user-item interaction data based on stored interaction data by using multiple models
US11086888B2 (en) 2018-10-09 2021-08-10 Yandex Europe Ag Method and system for generating digital content recommendation
CN109657122A (zh) * 2018-12-10 2019-04-19 大连理工大学 一种基于学术大数据的学术团队重要成员识别方法
CN109862100B (zh) * 2019-02-12 2022-03-25 北京字节跳动网络技术有限公司 用于推送信息的方法和装置
CN109862100A (zh) * 2019-02-12 2019-06-07 北京字节跳动网络技术有限公司 用于推送信息的方法和装置
CN109885675A (zh) * 2019-02-25 2019-06-14 合肥工业大学 基于改进lda的文本子话题发现方法
CN110674318A (zh) * 2019-08-14 2020-01-10 中国科学院计算机网络信息中心 一种基于引文网络社区发现的数据推荐方法
US11276079B2 (en) 2019-09-09 2022-03-15 Yandex Europe Ag Method and system for meeting service level of content item promotion
CN110825942B (zh) * 2019-10-22 2021-06-29 清华大学 一种论文质量的计算方法及***
CN110825942A (zh) * 2019-10-22 2020-02-21 清华大学 一种论文质量的计算方法及***
CN111274497A (zh) * 2020-01-22 2020-06-12 北京百度网讯科技有限公司 社区推荐及模型训练方法、装置、电子设备及存储介质
CN111274497B (zh) * 2020-01-22 2023-08-18 北京百度网讯科技有限公司 社区推荐及模型训练方法、装置、电子设备及存储介质
CN112269909A (zh) * 2020-09-15 2021-01-26 淮阴工学院 一种基于多源信息融合技术的专家推荐方法
CN113255801A (zh) * 2021-06-02 2021-08-13 北京字节跳动网络技术有限公司 一种数据处理的方法、装置、计算机设备及存储介质
CN113505216A (zh) * 2021-07-07 2021-10-15 辽宁工程技术大学 一种基于引用图的多特征论文推荐方法
CN113704412A (zh) * 2021-08-31 2021-11-26 交通运输部科学研究院 交通运输领域变革性研究文献早期识别方法
CN113704412B (zh) * 2021-08-31 2023-05-02 交通运输部科学研究院 交通运输领域变革性研究文献早期识别方法
CN116628350A (zh) * 2023-07-26 2023-08-22 山东大学 基于可区分主题的新论文推荐方法和***
CN116628350B (zh) * 2023-07-26 2023-10-10 山东大学 基于可区分主题的新论文推荐方法和***

Also Published As

Publication number Publication date
CN103559262B (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN103559262A (zh) 基于社区的作者及其学术论文推荐***和推荐方法
Zhang et al. Knowledge mapping of tourism demand forecasting research
CN103440329B (zh) 权威作者和高质量论文推荐***和推荐方法
CN103425799B (zh) 基于主题的个性化研究方向推荐***和推荐方法
Das et al. Text mining and topic modeling of compendiums of papers from transportation research board annual meetings
Colace et al. Sentiment detection in social networks and in collaborative learning environments
CN106802915A (zh) 一种基于用户行为的学术资源推荐方法
CN105589948A (zh) 一种文献引用网络可视化及文献推荐方法及***
Abuhay et al. Analysis of publication activity of computational science society in 2001–2017 using topic modelling and graph theory
CN110490685A (zh) 一种基于大数据分析的产品推荐方法
CN107357793A (zh) 信息推荐方法和装置
CN103020851A (zh) 一种支持商品评论数据多维分析的度量计算方法
CN107423339A (zh) 基于极端梯度推进和随机森林的热门微博预测方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和***
CN103530416A (zh) 项目数据预测评分库的生成、项目数据的推送方法和***
CN107688870A (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Xu et al. Novel model of e-commerce marketing based on big data analysis and processing
Sohrabi et al. Systematic method for finding emergence research areas as data quality
Huang et al. Multi-granular document-level sentiment topic analysis for online reviews
Alksher et al. A review of methods for mining idea from text
Goswami et al. Quantifying and visualizing the demand and supply gap from e-commerce search data using topic models
Chrisnanto et al. The uses of educational data mining in academic performance analysis at higher education institutions (case study at UNJANI)
Qian et al. An empirical study on knowledge aggregation in academic virtual community based on deep learning
CN102508894B (zh) 一种数字信息推荐预测模型的训练方法和***
Cetintas et al. Probabilistic latent class models for predicting student performance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161005