CN108763354B - 一种个性化的学术文献推荐方法 - Google Patents
一种个性化的学术文献推荐方法 Download PDFInfo
- Publication number
- CN108763354B CN108763354B CN201810467316.XA CN201810467316A CN108763354B CN 108763354 B CN108763354 B CN 108763354B CN 201810467316 A CN201810467316 A CN 201810467316A CN 108763354 B CN108763354 B CN 108763354B
- Authority
- CN
- China
- Prior art keywords
- paper
- author
- feature
- thesis
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 238000013480 data collection Methods 0.000 claims abstract description 5
- 238000011160 research Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000002459 sustained effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims 1
- 238000010801 machine learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 240000007124 Brassica oleracea Species 0.000 description 1
- 235000003899 Brassica oleracea var acephala Nutrition 0.000 description 1
- 235000011301 Brassica oleracea var capitata Nutrition 0.000 description 1
- 235000001169 Brassica oleracea var oleracea Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种个性化的学术文献推荐方法,包括以下步骤:S1数据收集与清洗:收集以论文和作者为核心的论文数据,所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献,清洗掉有明显的格式错误、数据缺失的数据;S2模型建立,过程如下:S2.1构造训练集;S2.2特征计算;S3模型训练;S4学术文献推荐,过程如下:S4.1建立备选文献集,要求每步选取的被引用的论文发表时间早于该论文的发表时间;S4.2预测,取可能性值前k′大的论文作为最后进行推荐的参考文献。本发明能够更加准确高效地生成符合用户需求的参考文献列表。
Description
技术领域
本发明涉及机器学习和数据挖掘领域,更进一步为考虑用户偏好的参考文献推荐方法。
背景技术
查找相关并且重要的参考文献是科研人员了解其所在领域最前沿的研究成果、获取最新研究动态和发展方向的重要途径。
如今科研人员仍旧通过在搜索引擎如Google Scholar或者某一特定的数据库如Web of Knowledge中通过给定主题、关键词等方法来手动挑选可能与自己当前研究领域相关的论文。而近几年所发表的学术文献数量的快速增长,加之电子出版物和开放数据库的流行,一方面更加凸显出目前这种手动挑选的方法耗时长、准确率低、操作过程机械化等不足,另一方面大量学术数据的存在也使得运用数据挖掘等各种数据驱动的方法来自动生成参考文献列表成为可能。
现有的文献检索和推荐方法往往功能不够完善,不能产生令人满意的个性化推荐效果,同时,也存在着冷启动的问题,无法为缺乏足够信息的用户提供有效的推荐。
发明内容
为了提高研究人员检索相关参考文献的效率,并综合考虑每个用户独特的挑选偏好,本发明提出了一种基于监督式的个性化机器学习的推荐方法,针对不同用户各自挑选参考文献的偏好进行学习和建模,并提出了一种结合近邻信息的方法来解决冷启动的问题,从而能够更加准确高效地生成符合用户需求的参考文献列表。
本发明解决其技术问题所采用的技术方案是:
一种个性化的学术文献推荐方法,所述方法包括以下步骤:
S1数据收集与清洗
收集以论文和作者为核心的论文数据,所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献,清洗掉有明显的格式错误、数据缺失的数据;
其中,定义需要进行文献推荐的作者为目标用户,定义该用户过去发表的论文数据为该用户的历史信息,定义当用户在使用推荐方法时,提供的若干篇初始参考文献的论文数据为初始信息;
S2模型建立,过程如下:
S2.1构造训练集,过程如下:
S2.1.1从步骤S1中收集到的论文数据提取目标用户u的历史信息,根据论文引用关系构成以论文对为对象的集合,即:Pu={xu},每个对象表示用户u发表的论文引用了作者v发表的论文记所有的引用关系个数为nu,涉及的论文篇数为mu;
S2.1.2每次从Pu中的mu篇论文中随机选取两篇无引用关系的论文,共构成nu′个无引用关系的论文对,即:Nu={xu},表示作者u发表的论文未引用作者w发表的论文且需满足的发表年份晚于在具体实施过程中,nu′=knu,k取1到10;
S2.2特征计算
特征计算考虑论文的第一作者,若要考虑论文的所有作者,则认为u和v表示相应论文的所有作者,并首先对所有作者的相应特征值取算术平均数,
再进行以上的两篇论文之间特征的求差运算;
对Pu和Nu中的每个论文对进行特征表示;
S3模型训练
将步骤S2.1中构建的数据集Pu和Nu合并,其中Pu中的对象标签记为1,Nu中的对象标签记为0,使用步骤S2.2中的方法计算合并后的nu+nu′个论文对的特征向量,并对数据进行以下归一化,即对于每个特征f,首先计算该特征的最大值max和最小值min,然后将该特征的所有值均按照如下公式进行变换:
对得到数据采用带有L2正则项的逻辑斯蒂回归来训练引用预测模型,从而得到相应作者u的偏好模型;
S4学术文献推荐,过程如下:
S4.1建立备选文献集,要求每步选取的被引用的论文发表时间早于该论文的发表时间,过程如下:
步骤4.1.1记给定论文px的参考文献为R={r1,r2,…rn},初始化备选文献集C=R;
步骤4.1.2对i从1到n,逐个考虑R中每篇论文的参考文献Ti,计算Ti中未包
含于C的子集Ri ′,即R′i=C-Ti,若R′i不为空,则把它合并到备选文献集使得C=C∪R′ i;
步骤4.1.3更新R=R′ 1∪…∪R′n;
步骤4.1.4:重复步骤4.1.2直到R为空,再无新的参考文献可以加入备选文献集。
步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇,则再挑选出M-|C|篇与px主题相似的论文加入备选集;
S4.2预测,过程如下:
S4.2.1给定目标用户u输入的论文若数据库中存在该作者的历史数据以及具有足够的初始信息,即初始参考文献数目大于m,,则按照S4.1生成的备选文献集C,并将和C中的每篇论文ci构成a个论文对计算每个论文对的特征向量,特征计算如S2.2,然后执行S4.2.2,否则再重新执行S4.2.1;S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文的作者相应的训练好的模型,得到a个输出,即预测到的引用每篇论文ci的可能性的值。对这a个输出值降序排序,取可能性值前k′大的论文作为最后进行推荐的参考文献。
进一步,所述步骤2.2中,选定计算如下20个特征值,并把Pu和Nu中的每个对象表示为20维的向量,如下:
特征1:作者u和作者v的发表论文数目之差;
特征2:作者u和作者v的总被引量之差;
特征3:作者u和作者v的H指数之差;
其中,H指数是指科研人员至多有H篇论文分别被引用了至少H次,H指数是一个混合量化指标,可用于评估研究人员的学术产出数量与学术产出水平;
特征4:作者u和作者v的P指数混合均衡A指数之差;
特征5:作者u和作者v的P指数混合非均衡A指数之差;
其中,A指数描述了论文中不同作者的贡献程度,对于一篇n个合作者完成的论文来说,若不区分作者的贡献程度,则每个人的均衡A指数为1/n,若对作者的贡献程度进行区分,则第i个作者的非均衡A指数为:记JIF为发表在某期刊上的所有论文的平均被引用次数,若某作者共发表K篇论文,则该作者的P指数为每篇论文获得的A指数乘上对应所发表的期刊的JIF系数,即:其中,根据选取的Ak的含义可分为P指数混合均衡A指数和P指数混合非均衡A指数;
特征6:作者u和作者v的研究生涯长度之差;
其中,研究生涯的计算方法为:将作者最新发表的论文年份减去该作者最早发表的论文年份;
特征7:作者u和作者v的合作能力之差
其中,合作能力的计算方法为:
其中,#合作论文c表示为作者A和合作者c共同发表的论文数量;
其中,β为可调的阻尼因子,表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度;
其中,α为权重因子,重复上式直到An×1收敛,此时的各个元素值即为相应的PageRank值,该值反映了节点在论文引用关系网络中的影响力大小;
其中,H5指数可以用来衡量期刊的持续影响力,其表示当前期刊在5年内所发表论文的H指数,如Google可Scholar,当前就是采用此指标来衡量期刊影响力;
其中,研究机构的影响力采用https://www.aminer.cn/ranks/org中的AM-Index来衡量;
其中,特征14和特征15通过使用文本分析的方法,潜在语义索引、潜在狄利克雷分布得到题目/摘要在各个主题下的概率向量表示,再通过计算余弦相似度,即得到两篇论文之间的相似性;
特征16:作者u和作者v的研究兴趣的相似性;
其中,使用TF-IDF模型将作者的每个研究兴趣转成向量,再用余弦公式得到作者研究兴趣之间的相似性,研究兴趣在本发明的实施过程中,主要通过从作者的个人主页中提取得到;
并且,特征14-特征16的计算通过Python的gensim库的内置函数来完成;
再进一步,所述方法还包括以下步骤:
S5模型的冷启动问题
若数据库中不存在该用户的历史信息,或者当用户在使用本推荐方法时,未提供足够的初始信息,则称为冷启动问题;冷启动分为如下2种情况。
5.1)数据库中存在当前用户的历史信息,但当用户在使用本推荐方法时,未提供足够的初始信息,初始参考文献数目<m,m为给定值,可取5到10;
5.2)数据库中不存在当前用户的历史信息,但当用户在使用本推荐方法时,提供足够的初始信息;
采用基于“近邻”的推荐方法对于以上不同冷启动问题的相应解决方法如下:
当用户不存在初始信息时,首先提取出根据用户u的历史信息训练得到的模型,然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文,然后计算用户输入的论文与这个10M篇论文之间的存在引用关系的概率,并取可能性前M的论文作为备选集;
当用户不存在历史信息时,采用如下两种解决方法:
5.2.1)记当前用户u输入的初始信息论文为:记数据库中的所有论文为:W={w1,w2,…,wM},对于任意论文wj∈W,计算其与各个的论文的特征之间的余弦相似度并相加作为论文wj与用户当前输入论文之间的相似度,挑选相似度最大的k1篇论文,将其作为该用户的历史信息,用这些挑选出来的k1篇论文数据训练得到用户的偏好模型;
5.2.2)当5.2.1)中计算得到与当前用户的初始信息特征相近的k1篇论文后,取出这些论文对应的训练得到的用户偏好模型,并进行加权求和作为该用户的偏好模型,其中,将这些论文与输入论文之间的相似度作为权重。
所述步骤S1中,通过对指标设置阈值来筛选出更具有实验价值的数据:删去总被引量小于M1,或总发表论文数小于M2,或H指数小于M3的作者信息,并对相应论文数据进行删除,建议M1、M2和M3取1到10。
本发明的技术构思为:传统的学术文献推荐方法只考虑了部分信息,如内容相似性、引用关系相似性等等,并且基于此类特征的方法都不具有个性化的推荐能力。本发明提出采用监督式的个性化机器学习的方法来进行参考文献推荐,核心观点为将已有数据根据作者不同进行分类,并对每一个作者训练一个个性化的偏好模型。同时,对于某些作者,若数据库中不存在相关的历史记录,那么本发明提出了一种基于“近邻”的参考文献推荐方法,能够很好地用相关的作者数据来近似刻画该用户的偏好信息。其中本方法主要由以下三部分构成:
模型建立:通过把论文对作为对象并定义了一组特征来对其进行描述,再把已知两篇论文之间的引用关系作为该论文对的标签,从而把两篇论文之间的引用关系的预测问题建模成一个经典的二值分类问题。
模型训练:对于数据库中的学术信息按照用户进行分类,为每一个作者训练一个结合其独特偏好的个性化文献推荐模型。
模型预测:根据用户给定的一篇目标论文和相关信息,首先将该论文与其他备选文献构成论文对并计算特征,然后使用训练好的与该用户对应的模型预测得到被该论文引用的可能性最大的k篇论文作为参考文献进行推荐。
本发明的有益效果主要表现在:提高研究人员检索相关参考文献的效率,能够更加准确高效地生成符合用户需求的参考文献列表。
附图说明
图1是Aminer数据库的数据格式示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种个性化的学术文献推荐方法,包括以下步骤:
S1数据收集与清洗
为了建立模型的需要,首先需要收集大量以论文和作者为核心的详细信息。具体来说,论文数据应包含论文标题、论文摘要、作者姓名、发表年份、发表刊物、参考文献等。作者数据应包含作者姓名,研究机构以及研究兴趣(从作者的主页提取)等。清洗掉有明显的格式错误、数据缺失的数据后,再进一步通过对某些指标设置阈值来筛选出更具有实验价值的数据,如删去总被引量小于M1,或总发表论文数小于M2,或H指数小于M3的作者信息,并对相应论文数据进行删除,建议M1-3取1到10。
其中,定义需要进行文献推荐的作者为目标用户,定义该用户过去发表的论文数据为该用户的历史信息,定义当用户在使用本推荐方法时,提供的若干篇初始参考文献的论文数据为初始信息,定义该用户缺少历史信息或初始信息的情况为冷启动问题。
对于某个需要进行文献推荐的用户,若数据库中已存在该用户的历史信息,即发表过的论文记录,且该用户在使用本推荐方法时,已经提供了一定的初始信息,即初始参考文献数据,则可按框架进行个性化的学术论文推荐:
S2模型建立,过程如下:
S2.1构造训练集,过程如下:
S2.1.1从S1中收集到的论文数据提取目标用户u的历史信息,根据论文引用关系构成以论文对为对象的集合,即:Pu={xu},每个对象 表示用户u发表的论文引用了作者v发表的论文记所有的引用关系个数为nu,涉及的论文篇数为mu;
S2.1.2每次从Pu中的mu篇论文中随机选取两篇无引用关系的论文,共构成nu′个无引用关系的论文对,即:Nu={xu},表示作者u发表的论文未引用作者w发表的论文且需满足的发表年份晚于在具体实施过程中,nu′=knu,k建议取1到10。
S2.2特征计算
以下涉及的特征计算均只考虑论文的第一作者,若要考虑论文的所有作者,则可认为以下的u和v表示相应论文的所有作者,并首先对所有作者的相应特征值取算术平均数,再进行以上的两篇论文之间特征的求差运算。对Pu和Nu中的每个论文对进行特征表示。由于特征之间的差值比绝对数值本身更具有实际意义,且为了防止出现由于特征之间存在较大相关性导致的模型过拟合,本发明最终选定计算如下20个特征值,并把Pu和Nu中的每个对象表示为20维的向量。
特征1:作者u和作者v的发表论文数目之差
特征2:作者u和作者v的总被引量之差
特征3:作者u和作者v的H指数之差
其中,H指数是指科研人员至多有H篇论文分别被引用了至少H次。H指数(H index)是一个混合量化指标,可用于评估研究人员的学术产出数量与学术产出水平。
特征4:作者u和作者v的P指数混合均衡A指数之差
特征5:作者u和作者v的P指数混合非均衡A指数之差
其中,A指数描述了论文中不同作者的贡献程度。对于一篇n个合作者完成的论文来说,若不区分作者的贡献程度,则每个人的均衡A指数为1/n。若对作者的贡献程度进行区分,则第i个作者的非均衡A指数为:记JIF为发表在某期刊上的所有论文的平均被引用次数,若某作者共发表K篇论文,则该作者的P指数为每篇论文获得的A指数乘上对应所发表的期刊的JIF系数,即:其中,根据选取的Ak的含义可分为P指数混合均衡A指数和P指数混合非均衡A指数;
特征6:作者u和作者v的研究生涯长度之差;
其中,研究生涯的计算方法为:将作者最新发表的论文年份减去该作者最早发表的论文年份;
特征7:作者u和作者v的合作能力之差
其中,合作能力的计算方法为:
其中,#合作论文c表示为作者A和合作者c共同发表的论文数量;
其中,β为可调的阻尼因子,表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度;
记论文之间的引用关系构成的矩阵为Gij,将其按列进行归一化得到概率转移矩阵Gi ′ j,记各个节点的PageRank值为An×1,初始状态的所有节点的概率相等,则从第t轮迭代到第t+1的计算公式如下:
其中,α为权重因子,重复上式直到An×1收敛,此时的各个元素值即为相应的PageRank值,该值反映了节点在论文引用关系网络中的影响力大小;
其中,H5指数可以用来衡量期刊的持续影响力,其表示当前期刊在5年内所发表论文的H指数,如Google可Scholar,当前就是采用此指标来衡量期刊影响力;
其中,研究机构的影响力采用https://www.aminer.cn/ranks/org中的AM-Index来衡量;
其中,特征14和特征15通过使用文本分析的方法,潜在语义索引、潜在狄利克雷分布得到题目/摘要在各个主题下的概率向量表示,再通过计算余弦相似度,即得到两篇论文之间的相似性;
特征16:作者u和作者v的研究兴趣的相似性;
其中,使用TF-IDF模型将作者的每个研究兴趣转成向量,再用余弦公式得到作者研究兴趣之间的相似性,研究兴趣在本发明的实施过程中,主要通过从作者的个人主页中提取得到;
并且,特征14-特征16的计算通过Python的gensim库的内置函数来完成;
S3模型训练
将步骤S2.1中构建的数据集Pu和Nu合并,其中Pu中的对象标签记为1,Nu中的对象标签记为0,使用步骤S2.2中的方法计算合并后的nu+nu′个论文对的特征向量,并对数据进行以下归一化,即对于每个特征f,首先计算该特征的最大值max和最小值min,然后将该特征的所有值均按照如下公式进行变换:
对得到数据采用带有L2正则项的逻辑斯蒂回归(Logistic Regression)来训练引用预测模型,从而得到相应作者u的偏好模型。该训练算法均有现成的库可以调用,且对多种编程语言均有开放接口,如Python的机器学习库scikit-learn,R和MATLAB和回归工具箱同样也可以实现。
S4学术文献推荐,过程如下:
S4.1建立备选文献集
以下方法要求每步选取的被引用的论文发表时间早于该论文的发表时间。
步骤4.1.1记给定论文px的参考文献为R={r1,r2,…rn},初始化备选文献集C=R。
步骤4.1.2对i从1到n,逐个考虑R中每篇论文的参考文献Ti,计算Ti中未包含于C的子集Ri′,即R′i=C-Ti,若R′i不为空,则把它合并到备选文献集使得C=C∪R′i;
步骤4.1.3更新R=R1′∪…∪R′n;
步骤4.1.4:重复步骤4.1.2直到R为空,再无新的参考文献可以加入备选文献集。
步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇,则再挑选出M-|C|篇与px主题相似的论文加入备选集。
S4.2预测,过程如下:
S4.2.1给定目标用户u输入的论文若数据库中存在该作者的历史数据以及具有足够的初始信息,即初始参考文献数目大于m,(本实验可取5-10),则可按照S4.1生成的备选文献集C,并将和C中的每篇论文ci构成a个论文对计算每个论文对的20个特征向量,特征计算如S2.2,然后执行S4.2.2,否则先使用S5中基于“近邻”的方法来解决冷启动的问题,再重新执行S4.2.1。
S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文的作者相应的训练好的模型,得到a个输出,即预测到的引用每篇论文ci的可能性的值。对这a个输出值降序排序,取可能性值前k′大的论文作为最后进行推荐的参考文献,k′建议取10到20。
所述方法还包括以下步骤:
S5模型的冷启动问题
若数据库中不存在该用户的历史信息,或者当用户在使用本推荐方法时,未提供足够的初始信息,则称为冷启动问题。
冷启动主要分为如下2种情况。
5.1)数据库中存在当前用户的历史信息,但当用户在使用本推荐方法时,未提供足够的初始信息(初始参考文献数目<m),m为给定值,可取5到10。
5.2)数据库中不存在当前用户的历史信息,但当用户在使用本推荐方法时,提供足够的初始信息。
本发明提出了基于“近邻”的推荐方法,对于以上不同冷启动问题的相应解决方法如下:
当用户不存在初始信息时,需要解决的主要问题为备选集的生成。首先提取出根据用户u的历史信息训练得到的模型,然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文,然后计算用户输入的论文与这个10M篇论文之间的存在引用关系的概率,并取可能性前M的论文作为备选集。
当用户不存在历史信息时,需要解决的主要问题为如何建立用户的偏好模型。对于这种情况有如下两种解决方法:
5.2.1)记当前用户u输入的初始信息论文为:记数据库中的所有论文为:W={w1,w2,…,wM},对于任意论文wj∈W,计算其与各个的论文的特征之间的余弦相似度并相加作为论文wj与用户当前输入论文之间的相似度。挑选相似度最大的k1篇论文,将其作为该用户的历史信息,用这些挑选出来的k1篇论文数据训练得到用户的偏好模型。k1可取50-100。
5.2.2)当5.2.1)中计算得到与当前用户的初始信息特征相近的k1篇论文后,取出这些论文对应的训练得到的用户偏好模型,并进行加权求和作为该用户的偏好模型,其中,将这些论文与输入论文之间的相似度作为权重。
实例:一种个性化的学术文献推荐方法,包括以下步骤:
S1数据收集与清洗,过程如下:
S1.1:收集Aminer数据库提供的论文,作者和合作者三部分学术社交网络开放数据集,得到论文数据包含2,092,356篇论文相关信息,每条信息包含该论文的编号、论文标题、作者姓名、发表年份、发表刊物、参考文献编号、论文摘要等,总共涉及8,024,869条引用关系。作者数据包含1,712,433个作者的信息,具体为:作者编号,姓名,研究机构、影响力指标(包括作者论文数、被引数、H指数、P指数、A指数)、以及研究兴趣。合作者数据包括4,258,946条作者-作者-合作次数的信息,具体数据格式见图1。
S1.2:删除由于收集过程存在噪声而得到的明显错误数据、删除缺少研究机构的作者信息,删除总被引量小于等于1,或总发表论文数小于等于1,或H指数小于等于1的作者信息,从而得到新的作者数据集,并从原始论文数据集中挑选出其作者信息在新的作者数据集中的数据,形成新的论文数据集。同理得到处理后的引用和合作者数据集。
S2模型建立,过程如下:
S2.1构造训练集,过程如下:
S2.1.1从S1中筛选出发表在H5指数前1000高的期刊/会议上的论文,并从收集到的论文数据中提取出论文引用关系,再按作者进行分类即:Pu={xu},表示作者u发表的论文引用了作者v发表的论文其中一共有698,436个引用关系共涉及354,167篇论文。
S2.2特征计算
对Pu和Nu中的每个论文对进行特征表示,即通过计算20个特征值,把Pu和Nu中的每个对象表示为20维的向量,具体计算方法见发明内容中的S2.2。
S3模型训练,过程如下:
将S1中构建的数据集Pu和Nu合并,其中Pu中的对象标签记为1,Nu中的对象标签记为0,使用S2中的方法计算合并后的86个论文对的特征向量,采用对每个特征的数据进行归一化,即每个数据减去该特征数据的最小值再除以最大值减最小值。对得到数据调用MATLAB的fitclinear函数实现带L2正则项的逻辑斯蒂回归(Logistic Regression),用来训练该引用预测模型。即:
fitclinear(trainSet',trainLabel,'ObservationsIn','columns','Learner','logistic','Re gularization','ridge')
S4模型预测和推荐,过程如下:
S4.1建立备选文献集
把“Histogram of visual words based on locally adaptive regressionkernels descriptors for image feature extraction”作为目标论文px,该论文的参考文献为22篇,发表在H5指数为39的期刊"Neurocomputing"上,并按照发明内容的S4.1生成备选文献集C。
S4.2模型预测,过程如下:
Claims (4)
1.一种个性化的学术文献推荐方法,其特征在于,所述方法包括以下步骤:
S1数据收集与清洗
收集以论文和作者为核心的论文数据,所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献,清洗掉有明显的格式错误、数据缺失的数据;
其中,定义需要进行文献推荐的作者为目标用户,定义该用户过去发表的论文数据为该用户的历史信息,定义当用户在使用推荐方法时,提供的若干篇初始参考文献的论文数据为初始信息;
S2模型建立,过程如下:
S2.1构造训练集,过程如下:
S2.1.1从步骤S1中收集到的论文数据提取目标用户u的历史信息,根据论文引用关系构成以论文对为对象的集合,即:Pu={xu},每个对象表示用户u发表的论文引用了作者v发表的论文记所有的引用关系个数为nu,涉及的论文篇数为mu;
S2.1.2每次从Pu中的mu篇论文中随机选取两篇无引用关系的论文,共构成nu′个无引用关系的论文对,即:Nu={xu1},表示作者u发表的论文未引用作者w发表的论文且需满足的发表年份晚于在具体实施过程中,nu′=knu,k取1到10;
S2.2特征计算
特征计算考虑论文的第一作者,若要考虑论文的所有作者,则认为u和v表示相应论文的所有作者,并首先对所有作者的相应特征值取算术平均数,再进行以上的两篇论文之间特征的求差运算;
对Pu和Nu中的每个论文对进行特征表示;
S3模型训练
将步骤S2.1中构建的数据集Pu和Nu合并,其中Pu中的对象标签记为1,Nu中的对象标签记为0,使用步骤S2.2中的方法计算合并后的nu+nu′个论文对的特征向量,并对数据进行以下归一化,即对于每个特征f,首先计算该特征的最大值max和最小值min,然后将该特征的所有值均按照如下公式进行变换:
对得到数据采用带有L2正则项的逻辑斯蒂回归来训练引用预测模型,从而得到相应作者u的偏好模型;
S4学术文献推荐,过程如下:
S4.1建立备选文献集,要求每步选取的被引用的论文发表时间早于该论文的发表时间,过程如下:
步骤4.1.1记给定论文px的参考文献为R={r1,r2,…rn},初始化备选文献集
C=R;
步骤4.1.2对i从1到n,逐个考虑R中每篇论文的参考文献Ti,计算Ti中未包含于C的子集R′i,即R′i=C-Ti,若R′i不为空,则把它合并到备选文献集使得C=C∪R′i;
步骤4.1.3更新R=R′1∪…∪R′n;
步骤4.1.4:重复步骤4.1.2直到R为空,再无新的参考文献可以加入备选文献集;
步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇,则再挑选出M-|C|篇与px主题相似的论文加入备选集;
S4.2预测,过程如下:
S4.2.1给定目标用户u输入的论文若数据库中存在该作者的历史数据以及具有足够的初始信息,即初始参考文献数目大于m,则按照S4.1生成的备选文献集C,并将和C中的每篇论文ci构成a个论文对计算每个论文对的特征向量,特征计算如S2.2,然后执行S4.2.2;
2.如权利要求1所述的一种个性化的学术文献推荐方法,其特征在于,所述步骤2.2中,选定计算如下20个特征值,并把Pu和Nu中的每个对象表示为20维的向量,如下:
特征1:作者u和作者v的发表论文数目之差;
特征2:作者u和作者v的总被引量之差;
特征3:作者u和作者v的H指数之差;
其中,H指数是指科研人员至多有H篇论文分别被引用了至少H次,H指数是一个混合量化指标,可用于评估研究人员的学术产出数量与学术产出水平;
特征4:作者u和作者v的P指数混合均衡A指数之差;
特征5:作者u和作者v的P指数混合非均衡A指数之差;
其中,A指数描述了论文中不同作者的贡献程度,对于一篇n个合作者完成的论文来说,若不区分作者的贡献程度,则每个人的均衡A指数为1/n,若对作者的贡献程度进行区分,则第i个作者的非均衡A指数为:记JIF为发表在某期刊上的所有论文的平均被引用次数,若某作者共发表K篇论文,则该作者的P指数为每篇论文获得的A指数乘上对应所发表的期刊的JIF系数,即:其中,根据选取的Ak的含义可分为P指数混合均衡A指数和P指数混合非均衡A指数;
特征6:作者u和作者v的研究生涯长度之差;
其中,研究生涯的计算方法为:将作者最新发表的论文年份减去该作者最早发表的论文年份;
特征7:作者u和作者v的合作能力之差
其中,合作能力的计算方法为:
其中,#合作论文c表示为作者A和合作者c共同发表的论文数量;
记论文之间的引用关系构成的矩阵为Gij,则当论文pi和论文pj之间存在引用关系时,Gij=1;否则Gij=0,则Katz值定义为:其中,β为可调的阻尼因子,G表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度;
其中,α为权重因子,重复上式直到An×1收敛,此时的各个元素值即为相应的PageRank值,该值反映了节点在论文引用关系网络中的影响力大小;
其中,H5指数可以用来衡量期刊的持续影响力,其表示当前期刊在5年内所发表论文的H指数;
其中,特征14和特征15通过使用文本分析的方法,潜在语义索引、潜在狄利克雷分布得到题目/摘要在各个主题下的概率向量表示,再通过计算余弦相似度,即得到两篇论文之间的相似性;
特征16:作者u和作者v的研究兴趣的相似性;
其中,使用TF-IDF模型将作者的每个研究兴趣转成向量,再用余弦公式得到作者研究兴趣之间的相似性;
并且,特征14-特征16的计算通过Python的gensim库的内置函数来完成;
3.如权利要求1或2所述的一种个性化的学术文献推荐方法,其特征在于,所述方法还包括以下步骤:
S5模型的冷启动问题
若数据库中不存在该用户的历史信息,或者当用户在使用本推荐方法时,未提供足够的初始信息,则称为冷启动问题;冷启动分为如下2种情况;
5.1)数据库中存在当前用户的历史信息,但当用户在使用本推荐方法时,未提供足够的初始信息,初始参考文献数目<m,m为给定值;
5.2)数据库中不存在当前用户的历史信息,但当用户在使用本推荐方法时,提供足够的初始信息;
采用基于“近邻”的推荐方法对于以上不同冷启动问题的相应解决方法如下:
当用户不存在初始信息时,首先提取出根据用户u的历史信息训练得到的模型,然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文,然后计算用户输入的论文与这个10M篇论文之间的存在引用关系的概率,并取可能性前M的论文作为备选集;
当用户不存在历史信息时,采用如下两种解决方法:
5.2.1)记当前用户u输入的初始信息论文为:记数据库中的所有论文为:W={w1,w2,…,wM},对于任意论文wj∈W,计算其与各个的论文的特征之间的余弦相似度并相加作为论文wj与用户当前输入论文之间的相似度,挑选相似度最大的k1篇论文,将其作为该用户的历史信息,用这些挑选出来的k1篇论文数据训练得到用户的偏好模型;
4.如权利要求1或2所述的一种个性化的学术文献推荐方法,其特征在于,所述步骤S1中,通过对指标设置阈值来筛选出更具有实验价值的数据:删去总被引量小于M1,或总发表论文数小于M2,或H指数小于M3的作者信息,并对相应论文数据进行删除,M1、M2和M3取1到10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810467316.XA CN108763354B (zh) | 2018-05-16 | 2018-05-16 | 一种个性化的学术文献推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810467316.XA CN108763354B (zh) | 2018-05-16 | 2018-05-16 | 一种个性化的学术文献推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763354A CN108763354A (zh) | 2018-11-06 |
CN108763354B true CN108763354B (zh) | 2021-04-06 |
Family
ID=64008148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810467316.XA Active CN108763354B (zh) | 2018-05-16 | 2018-05-16 | 一种个性化的学术文献推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763354B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059180B (zh) * | 2019-03-13 | 2022-09-23 | 百度在线网络技术(北京)有限公司 | 文章作者身份识别及评估模型训练方法、装置及存储介质 |
CN110232120A (zh) * | 2019-05-21 | 2019-09-13 | 天津大学 | 一种基于引用的文献查找方法 |
CN111368147B (zh) * | 2020-02-25 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 图特征处理的方法及装置 |
CN112434134B (zh) * | 2020-12-04 | 2023-10-20 | 中国科学院深圳先进技术研究院 | 搜索模型训练方法、装置、终端设备及存储介质 |
CN113239181B (zh) * | 2021-05-14 | 2023-04-18 | 电子科技大学 | 基于深度学习的科技文献引文推荐方法 |
CN113868407B (zh) * | 2021-08-17 | 2024-06-28 | 北京智谱华章科技有限公司 | 基于科研大数据的评审推荐算法的评估方法及装置 |
CN115206450B (zh) * | 2022-09-15 | 2022-12-06 | 药融云数字科技(成都)有限公司 | 一种合成路线推荐方法及终端 |
CN117252306B (zh) * | 2023-10-11 | 2024-02-27 | 中央民族大学 | 一种基因编辑能力指数计算方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004227354A (ja) * | 2003-01-23 | 2004-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 情報推薦装置、情報推薦方法、プログラム及び記録媒体 |
CN103336793A (zh) * | 2013-06-09 | 2013-10-02 | 中国科学院计算技术研究所 | 一种个性化论文推荐方法及其*** |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐***和推荐方法 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
-
2018
- 2018-05-16 CN CN201810467316.XA patent/CN108763354B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004227354A (ja) * | 2003-01-23 | 2004-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 情報推薦装置、情報推薦方法、プログラム及び記録媒体 |
CN103336793A (zh) * | 2013-06-09 | 2013-10-02 | 中国科学院计算技术研究所 | 一种个性化论文推荐方法及其*** |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐***和推荐方法 |
CN105653706A (zh) * | 2015-12-31 | 2016-06-08 | 北京理工大学 | 一种基于文献内容知识图谱的多层引文推荐方法 |
Non-Patent Citations (2)
Title |
---|
On the recommending of citations for research papers;Sean M. McNee;《ACM》;20021120;全文 * |
学术文献引文推荐研究进展;陈海华;《图书情报工作》;20150831;第59卷(第15期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108763354A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763354B (zh) | 一种个性化的学术文献推荐方法 | |
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐***及其方法 | |
Wang et al. | Collaborative deep learning for recommender systems | |
Li et al. | Using text mining and sentiment analysis for online forums hotspot detection and forecast | |
Xhemali et al. | Naïve bayes vs. decision trees vs. neural networks in the classification of training web pages | |
CN108132961B (zh) | 一种基于引用预测的参考文献推荐方法 | |
Amara et al. | Collaborating personalized recommender system and content-based recommender system using TextCorpus | |
Gu et al. | Learning global term weights for content-based recommender systems | |
JP6144427B2 (ja) | データ分析システムおよびデータ分析方法並びにデータ分析プログラム | |
CN109145087A (zh) | 一种基于表示学习和竞争理论的学者推荐及合作预测方法 | |
CN111353044A (zh) | 一种基于评论的情感分析方法及*** | |
Chandra et al. | Semantic Analysis of Sentiments through Web-Mined Twitter Corpus. | |
Sivanantham | Sentiment analysis on social media for emotional prediction during COVID‐19 pandemic using efficient machine learning approach | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
Baishya et al. | SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning | |
Zosimov et al. | Inductive building of search results ranking models to enhance the relevance of text information retrieval | |
Liu et al. | Age inference using a hierarchical attention neural network | |
Bitto et al. | Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning | |
Qureshi et al. | Performance evaluation of machine learning models on large dataset of android applications reviews | |
Devi et al. | Racist tweets-based sentiment analysis using individual and ensemble classifiers | |
Gupta et al. | A comparative study of Amazon product reviews using sentiment analysis | |
CN109408808B (zh) | 一种文艺作品的评估方法及评估*** | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
Chaurasia et al. | Predicting mental health of scholars using contextual word embedding | |
Gokhale et al. | Matrix factorization for co-training algorithm to classify human rights abuses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |