CN108763354B

CN108763354B - 一种个性化的学术文献推荐方法

Info

Publication number: CN108763354B
Application number: CN201810467316.XA
Authority: CN
Inventors: 梅建萍; 陈德仿
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2021-04-06
Anticipated expiration: 2038-05-16
Also published as: CN108763354A

Abstract

一种个性化的学术文献推荐方法，包括以下步骤：S1数据收集与清洗：收集以论文和作者为核心的论文数据，所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献，清洗掉有明显的格式错误、数据缺失的数据；S2模型建立，过程如下：S2.1构造训练集；S2.2特征计算；S3模型训练；S4学术文献推荐，过程如下：S4.1建立备选文献集，要求每步选取的被引用的论文发表时间早于该论文的发表时间；S4.2预测，取可能性值前k′大的论文作为最后进行推荐的参考文献。本发明能够更加准确高效地生成符合用户需求的参考文献列表。

Description

一种个性化的学术文献推荐方法

技术领域

本发明涉及机器学习和数据挖掘领域，更进一步为考虑用户偏好的参考文献推荐方法。

背景技术

查找相关并且重要的参考文献是科研人员了解其所在领域最前沿的研究成果、获取最新研究动态和发展方向的重要途径。

如今科研人员仍旧通过在搜索引擎如Google Scholar或者某一特定的数据库如Web of Knowledge中通过给定主题、关键词等方法来手动挑选可能与自己当前研究领域相关的论文。而近几年所发表的学术文献数量的快速增长，加之电子出版物和开放数据库的流行，一方面更加凸显出目前这种手动挑选的方法耗时长、准确率低、操作过程机械化等不足，另一方面大量学术数据的存在也使得运用数据挖掘等各种数据驱动的方法来自动生成参考文献列表成为可能。

现有的文献检索和推荐方法往往功能不够完善，不能产生令人满意的个性化推荐效果，同时，也存在着冷启动的问题，无法为缺乏足够信息的用户提供有效的推荐。

发明内容

为了提高研究人员检索相关参考文献的效率，并综合考虑每个用户独特的挑选偏好，本发明提出了一种基于监督式的个性化机器学习的推荐方法，针对不同用户各自挑选参考文献的偏好进行学习和建模，并提出了一种结合近邻信息的方法来解决冷启动的问题，从而能够更加准确高效地生成符合用户需求的参考文献列表。

本发明解决其技术问题所采用的技术方案是：

一种个性化的学术文献推荐方法，所述方法包括以下步骤：

S1数据收集与清洗

收集以论文和作者为核心的论文数据，所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献，清洗掉有明显的格式错误、数据缺失的数据；

其中，定义需要进行文献推荐的作者为目标用户，定义该用户过去发表的论文数据为该用户的历史信息，定义当用户在使用推荐方法时，提供的若干篇初始参考文献的论文数据为初始信息；

S2模型建立，过程如下：

S2.1构造训练集，过程如下：

S2.1.1从步骤S1中收集到的论文数据提取目标用户u的历史信息，根据论文引用关系构成以论文对为对象的集合，即：P^u＝{x^u}，每个对象

表示用户u发表的论文

引用了作者v发表的论文

记所有的引用关系个数为n_u，涉及的论文篇数为m_u；

S2.1.2每次从P^u中的m_u篇论文中随机选取两篇无引用关系的论文，共构成n_u′个无引用关系的论文对，即：N^u＝{x^u}，

表示作者u发表的论文

未引用作者w发表的论文

且需满足

的发表年份晚于

在具体实施过程中，n_u′＝kn_u，k取1到10；

S2.2特征计算

特征计算考虑论文的第一作者，若要考虑论文的所有作者，则认为u和v表示相应论文的所有作者，并首先对所有作者的相应特征值取算术平均数，

再进行以上的两篇论文之间特征的求差运算；

对P^u和N^u中的每个论文对进行特征表示；

S3模型训练

将步骤S2.1中构建的数据集P^u和N^u合并，其中P^u中的对象标签记为1，N^u中的对象标签记为0，使用步骤S2.2中的方法计算合并后的n_u+n_u′个论文对的特征向量，并对数据进行以下归一化，即对于每个特征f，首先计算该特征的最大值max和最小值min，然后将该特征的所有值均按照如下公式进行变换：

对得到数据采用带有L2正则项的逻辑斯蒂回归来训练引用预测模型，从而得到相应作者u的偏好模型；

S4学术文献推荐，过程如下：

S4.1建立备选文献集，要求每步选取的被引用的论文发表时间早于该论文的发表时间，过程如下：

步骤4.1.1记给定论文p_x的参考文献为R＝{r₁,r₂,…r_n}，初始化备选文献集C＝R；

步骤4.1.2对i从1到n，逐个考虑R中每篇论文的参考文献T_i，计算T_i中未包

含于C的子集R_i ^′，即R′_i＝C-T_i，若R′_i不为空，则把它合并到备选文献集使得C＝C∪R^′ _i;

步骤4.1.3更新R＝R^′ ₁∪…∪R′_n；

步骤4.1.4：重复步骤4.1.2直到R为空，再无新的参考文献可以加入备选文献集。

步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇，则再挑选出M-|C|篇与p_x主题相似的论文加入备选集；

S4.2预测，过程如下：

S4.2.1给定目标用户u输入的论文

若数据库中存在该作者的历史数据以及具有足够的初始信息，即初始参考文献数目大于m，，则按照S4.1生成的备选文献集C，并将

和C中的每篇论文c_i构成a个论文对

计算每个论文对的特征向量，特征计算如S2.2，然后执行S4.2.2，否则再重新执行S4.2.1；S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文

的作者相应的训练好的模型，得到a个输出，即预测到的

引用每篇论文c_i的可能性的值。对这a个输出值降序排序，取可能性值前k′大的论文作为最后进行推荐的参考文献。

进一步，所述步骤2.2中，选定计算如下20个特征值，并把P^u和N^u中的每个对象表示为20维的向量，如下：

特征1：作者u和作者v的发表论文数目之差；

特征2：作者u和作者v的总被引量之差；

特征3：作者u和作者v的H指数之差；

其中，H指数是指科研人员至多有H篇论文分别被引用了至少H次，H指数是一个混合量化指标，可用于评估研究人员的学术产出数量与学术产出水平；

特征4：作者u和作者v的P指数混合均衡A指数之差；

特征5：作者u和作者v的P指数混合非均衡A指数之差；

其中，A指数描述了论文中不同作者的贡献程度，对于一篇n个合作者完成的论文来说，若不区分作者的贡献程度，则每个人的均衡A指数为1/n，若对作者的贡献程度进行区分，则第i个作者的非均衡A指数为：

记JIF为发表在某期刊上的所有论文的平均被引用次数，若某作者共发表K篇论文，则该作者的P指数为每篇论文获得的A指数乘上对应所发表的期刊的JIF系数，即：

其中，根据选取的A_k的含义可分为P指数混合均衡A指数和P指数混合非均衡A指数；

特征6：作者u和作者v的研究生涯长度之差；

其中，研究生涯的计算方法为：将作者最新发表的论文年份减去该作者最早发表的论文年份；

特征7：作者u和作者v的合作能力之差

其中，合作能力的计算方法为：

其中，#合作论文_c表示为作者A和合作者c共同发表的论文数量；

特征8：论文

和论文

的被引量之差；

特征9：论文

和论文

的参考文献数目之差；

特征10：论文

和论文

的Katz值之差；

记论文之间的引用关系构成的矩阵为G_ij，则当论文p_i和论文p_j之间存在引用关系时，G_ij＝1；否则G_ij＝0，则Katz值定义为：

其中，β为可调的阻尼因子，表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度；

特征11：论文

和论文

的PageRank值之差；

记论文之间的引用关系构成的矩阵为G_ij，将其按列进行归一化得到概率转移矩阵G_i′_j，记各个节点的PageRank值为A_n×1，初始状态的所有节点的概率相等，

则从第t轮迭代到第t+1的计算公式如下：

其中，α为权重因子，重复上式直到A_n×1收敛，此时的各个元素值即为相应的PageRank值，该值反映了节点在论文引用关系网络中的影响力大小；

特征12：论文

和论文

的出版刊物的H5指数之差；

其中，H5指数可以用来衡量期刊的持续影响力，其表示当前期刊在5年内所发表论文的H指数，如Google可Scholar，当前就是采用此指标来衡量期刊影响力；

特征13：发表论文

和论文

所在的研究机构的影响力之差；

其中，研究机构的影响力采用https://www.aminer.cn/ranks/org中的AM-Index来衡量；

特征14：论文

和论文

的题目相似性；

特征15：论文

和论文

的摘要相似性；

其中，特征14和特征15通过使用文本分析的方法，潜在语义索引、潜在狄利克雷分布得到题目/摘要在各个主题下的概率向量表示，再通过计算余弦相似度，即得到两篇论文之间的相似性；

特征16：作者u和作者v的研究兴趣的相似性；

其中，使用TF-IDF模型将作者的每个研究兴趣转成向量，再用余弦公式得到作者研究兴趣之间的相似性，研究兴趣在本发明的实施过程中，主要通过从作者的个人主页中提取得到；

并且，特征14-特征16的计算通过Python的gensim库的内置函数来完成；

特征17：论文

和论文

引用的相同参考文献数目；

特征18：论文

和论文

的作者是否相同；

特征19：论文

和论文

是否发表在同一个出版刊物上；

特征20：论文

和论文

的发表时间之差。

再进一步，所述方法还包括以下步骤：

S5模型的冷启动问题

若数据库中不存在该用户的历史信息，或者当用户在使用本推荐方法时，未提供足够的初始信息，则称为冷启动问题；冷启动分为如下2种情况。

5.1)数据库中存在当前用户的历史信息，但当用户在使用本推荐方法时，未提供足够的初始信息，初始参考文献数目<m，m为给定值，可取5到10；

5.2)数据库中不存在当前用户的历史信息，但当用户在使用本推荐方法时，提供足够的初始信息；

采用基于“近邻”的推荐方法对于以上不同冷启动问题的相应解决方法如下：

当用户不存在初始信息时，首先提取出根据用户u的历史信息训练得到的模型，然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文，然后计算用户输入的论文

与这个10M篇论文之间的存在引用关系的概率，并取可能性前M的论文作为备选集；

当用户不存在历史信息时，采用如下两种解决方法：

5.2.1)记当前用户u输入的初始信息论文为：

记数据库中的所有论文为：W＝{w₁,w₂,…,w_M}，对于任意论文w_j∈W，计算其与各个

的论文的特征之间的余弦相似度并相加作为论文w_j与用户当前输入论文

之间的相似度，挑选相似度最大的k₁篇论文，将其作为该用户的历史信息，用这些挑选出来的k₁篇论文数据训练得到用户的偏好模型；

5.2.2)当5.2.1)中计算得到与当前用户的初始信息特征相近的k₁篇论文后，取出这些论文对应的训练得到的用户偏好模型，并进行加权求和作为该用户的偏好模型，其中，将这些论文与输入论文

之间的相似度作为权重。

所述步骤S1中，通过对指标设置阈值来筛选出更具有实验价值的数据：删去总被引量小于M₁，或总发表论文数小于M₂，或H指数小于M₃的作者信息，并对相应论文数据进行删除，建议M₁、M₂和M₃取1到10。

本发明的技术构思为：传统的学术文献推荐方法只考虑了部分信息，如内容相似性、引用关系相似性等等，并且基于此类特征的方法都不具有个性化的推荐能力。本发明提出采用监督式的个性化机器学习的方法来进行参考文献推荐，核心观点为将已有数据根据作者不同进行分类，并对每一个作者训练一个个性化的偏好模型。同时，对于某些作者，若数据库中不存在相关的历史记录，那么本发明提出了一种基于“近邻”的参考文献推荐方法，能够很好地用相关的作者数据来近似刻画该用户的偏好信息。其中本方法主要由以下三部分构成：

模型建立：通过把论文对作为对象并定义了一组特征来对其进行描述，再把已知两篇论文之间的引用关系作为该论文对的标签，从而把两篇论文之间的引用关系的预测问题建模成一个经典的二值分类问题。

模型训练：对于数据库中的学术信息按照用户进行分类，为每一个作者训练一个结合其独特偏好的个性化文献推荐模型。

模型预测：根据用户给定的一篇目标论文和相关信息，首先将该论文与其他备选文献构成论文对并计算特征，然后使用训练好的与该用户对应的模型预测得到被该论文引用的可能性最大的k篇论文作为参考文献进行推荐。

本发明的有益效果主要表现在：提高研究人员检索相关参考文献的效率，能够更加准确高效地生成符合用户需求的参考文献列表。

附图说明

图1是Aminer数据库的数据格式示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种个性化的学术文献推荐方法，包括以下步骤：

S1数据收集与清洗

为了建立模型的需要，首先需要收集大量以论文和作者为核心的详细信息。具体来说，论文数据应包含论文标题、论文摘要、作者姓名、发表年份、发表刊物、参考文献等。作者数据应包含作者姓名，研究机构以及研究兴趣(从作者的主页提取)等。清洗掉有明显的格式错误、数据缺失的数据后，再进一步通过对某些指标设置阈值来筛选出更具有实验价值的数据，如删去总被引量小于M₁，或总发表论文数小于M₂，或H指数小于M₃的作者信息，并对相应论文数据进行删除，建议M_1-3取1到10。

其中，定义需要进行文献推荐的作者为目标用户，定义该用户过去发表的论文数据为该用户的历史信息，定义当用户在使用本推荐方法时，提供的若干篇初始参考文献的论文数据为初始信息，定义该用户缺少历史信息或初始信息的情况为冷启动问题。

对于某个需要进行文献推荐的用户，若数据库中已存在该用户的历史信息，即发表过的论文记录，且该用户在使用本推荐方法时，已经提供了一定的初始信息，即初始参考文献数据，则可按框架进行个性化的学术论文推荐：

S2模型建立，过程如下：

S2.1构造训练集，过程如下：

S2.1.1从S1中收集到的论文数据提取目标用户u的历史信息，根据论文引用关系构成以论文对为对象的集合，即：P^u＝{x^u}，每个对象

表示用户u发表的论文

引用了作者v发表的论文

记所有的引用关系个数为n_u，涉及的论文篇数为m_u；

表示作者u发表的论文

未引用作者w发表的论文

且需满足

的发表年份晚于

在具体实施过程中，n_u′＝kn_u，k建议取1到10。

S2.2特征计算

以下涉及的特征计算均只考虑论文的第一作者，若要考虑论文的所有作者，则可认为以下的u和v表示相应论文的所有作者，并首先对所有作者的相应特征值取算术平均数，再进行以上的两篇论文之间特征的求差运算。对P^u和N^u中的每个论文对进行特征表示。由于特征之间的差值比绝对数值本身更具有实际意义，且为了防止出现由于特征之间存在较大相关性导致的模型过拟合，本发明最终选定计算如下20个特征值，并把P^u和N^u中的每个对象表示为20维的向量。

特征1：作者u和作者v的发表论文数目之差

特征2：作者u和作者v的总被引量之差

特征3：作者u和作者v的H指数之差

其中，H指数是指科研人员至多有H篇论文分别被引用了至少H次。H指数(H index)是一个混合量化指标，可用于评估研究人员的学术产出数量与学术产出水平。

特征4：作者u和作者v的P指数混合均衡A指数之差

特征5：作者u和作者v的P指数混合非均衡A指数之差

其中，A指数描述了论文中不同作者的贡献程度。对于一篇n个合作者完成的论文来说，若不区分作者的贡献程度，则每个人的均衡A指数为1/n。若对作者的贡献程度进行区分，则第i个作者的非均衡A指数为：

特征6：作者u和作者v的研究生涯长度之差；

特征7：作者u和作者v的合作能力之差

其中，合作能力的计算方法为：

特征8：论文

和论文

的被引量之差；

特征9：论文

和论文

的参考文献数目之差；

特征10：论文

和论文

的Katz值之差；

记论文之间的引用关系构成的矩阵为G_ij，则当论文pi和论文p_j之间存在引用关系时，G_ij＝1；否则G_ij＝0，则Katz值定义为：

特征11：论文

和论文

的PageRank值之差；

记论文之间的引用关系构成的矩阵为G_ij，将其按列进行归一化得到概率转移矩阵G_i ^′ _j，记各个节点的PageRank值为A_n×1，初始状态的所有节点的概率相等，

则从第t轮迭代到第t+1的计算公式如下：

特征12：论文

和论文

的出版刊物的H5指数之差；

特征13：发表论文

和论文

所在的研究机构的影响力之差；

特征14：论文

和论文

的题目相似性；

特征15：论文

和论文

的摘要相似性；

特征16：作者u和作者v的研究兴趣的相似性；

特征17：论文

和论文

引用的相同参考文献数目；

特征18：论文

和论文

的作者是否相同；

特征19：论文

和论文

是否发表在同一个出版刊物上；

特征20：论文

和论文

的发表时间之差。

S3模型训练

对得到数据采用带有L2正则项的逻辑斯蒂回归(Logistic Regression)来训练引用预测模型，从而得到相应作者u的偏好模型。该训练算法均有现成的库可以调用，且对多种编程语言均有开放接口，如Python的机器学习库scikit-learn，R和MATLAB和回归工具箱同样也可以实现。

S4学术文献推荐，过程如下：

S4.1建立备选文献集

以下方法要求每步选取的被引用的论文发表时间早于该论文的发表时间。

步骤4.1.1记给定论文p_x的参考文献为R＝{r₁,r₂,…r_n}，初始化备选文献集C＝R。

步骤4.1.2对i从1到n，逐个考虑R中每篇论文的参考文献T_i，计算T_i中未包含于C的子集R_i′，即R′_i＝C-T_i，若R′_i不为空，则把它合并到备选文献集使得C＝C∪R′_i；

步骤4.1.3更新R＝R₁′∪…∪R′_n；

步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇，则再挑选出M-|C|篇与p_x主题相似的论文加入备选集。

S4.2预测，过程如下：

S4.2.1给定目标用户u输入的论文

若数据库中存在该作者的历史数据以及具有足够的初始信息，即初始参考文献数目大于m，(本实验可取5-10)，则可按照S4.1生成的备选文献集C，并将

和C中的每篇论文c_i构成a个论文对

计算每个论文对的20个特征向量，特征计算如S2.2，然后执行S4.2.2，否则先使用S5中基于“近邻”的方法来解决冷启动的问题，再重新执行S4.2.1。

S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文

的作者相应的训练好的模型，得到a个输出，即预测到的

引用每篇论文c_i的可能性的值。对这a个输出值降序排序，取可能性值前k′大的论文作为最后进行推荐的参考文献，k′建议取10到20。

所述方法还包括以下步骤：

S5模型的冷启动问题

若数据库中不存在该用户的历史信息，或者当用户在使用本推荐方法时，未提供足够的初始信息，则称为冷启动问题。

冷启动主要分为如下2种情况。

5.1)数据库中存在当前用户的历史信息，但当用户在使用本推荐方法时，未提供足够的初始信息(初始参考文献数目<m)，m为给定值，可取5到10。

5.2)数据库中不存在当前用户的历史信息，但当用户在使用本推荐方法时，提供足够的初始信息。

本发明提出了基于“近邻”的推荐方法，对于以上不同冷启动问题的相应解决方法如下：

当用户不存在初始信息时，需要解决的主要问题为备选集的生成。首先提取出根据用户u的历史信息训练得到的模型，然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文，然后计算用户输入的论文

与这个10M篇论文之间的存在引用关系的概率，并取可能性前M的论文作为备选集。

当用户不存在历史信息时，需要解决的主要问题为如何建立用户的偏好模型。对于这种情况有如下两种解决方法：

5.2.1)记当前用户u输入的初始信息论文为：

之间的相似度。挑选相似度最大的k₁篇论文，将其作为该用户的历史信息，用这些挑选出来的k₁篇论文数据训练得到用户的偏好模型。k₁可取50-100。

之间的相似度作为权重。

实例：一种个性化的学术文献推荐方法，包括以下步骤：

S1数据收集与清洗，过程如下：

S1.1：收集Aminer数据库提供的论文，作者和合作者三部分学术社交网络开放数据集，得到论文数据包含2,092,356篇论文相关信息，每条信息包含该论文的编号、论文标题、作者姓名、发表年份、发表刊物、参考文献编号、论文摘要等，总共涉及8,024,869条引用关系。作者数据包含1,712,433个作者的信息，具体为：作者编号，姓名，研究机构、影响力指标(包括作者论文数、被引数、H指数、P指数、A指数)、以及研究兴趣。合作者数据包括4,258,946条作者-作者-合作次数的信息，具体数据格式见图1。

S1.2：删除由于收集过程存在噪声而得到的明显错误数据、删除缺少研究机构的作者信息，删除总被引量小于等于1，或总发表论文数小于等于1，或H指数小于等于1的作者信息，从而得到新的作者数据集，并从原始论文数据集中挑选出其作者信息在新的作者数据集中的数据，形成新的论文数据集。同理得到处理后的引用和合作者数据集。

S2模型建立，过程如下：

S2.1构造训练集，过程如下：

S2.1.1从S1中筛选出发表在H5指数前1000高的期刊/会议上的论文，并从收集到的论文数据中提取出论文引用关系，再按作者进行分类即：P^u＝{x^u}，

表示作者u发表的论文

引用了作者v发表的论文

其中一共有698,436个引用关系共涉及354,167篇论文。

S2.1.2以作者u＝Jian Yang为例。此时恰好存在43条引用关系和43篇论文。每次从P^u中的论文中随机选取两篇论文，共构成43个未引用的论文对，即：N＝{x^u}，

表示论文p_i未引用论文p_j。

S2.2特征计算

对P^u和N^u中的每个论文对进行特征表示，即通过计算20个特征值，把P^u和N^u中的每个对象表示为20维的向量，具体计算方法见发明内容中的S2.2。

S3模型训练，过程如下：

将S1中构建的数据集P^u和N^u合并，其中P^u中的对象标签记为1，N^u中的对象标签记为0，使用S2中的方法计算合并后的86个论文对的特征向量，采用对每个特征的数据进行归一化，即每个数据减去该特征数据的最小值再除以最大值减最小值。对得到数据调用MATLAB的fitclinear函数实现带L2正则项的逻辑斯蒂回归(Logistic Regression)，用来训练该引用预测模型。即：

fitclinear(trainSet',trainLabel,'ObservationsIn','columns','Learner','logistic','Re gularization','ridge')

S4模型预测和推荐，过程如下：

S4.1建立备选文献集

把“Histogram of visual words based on locally adaptive regressionkernels descriptors for image feature extraction”作为目标论文p^x，该论文的参考文献为22篇，发表在H5指数为39的期刊"Neurocomputing"上，并按照发明内容的S4.1生成备选文献集C。

S4.2模型预测，过程如下：

S4.2.1将

和C中的每篇论文c_i构成50个论文对

计算每个论文对的20个特征向量。

S4.2.2把S4.2.1中得到的每个向量输入到S3中训练好的关于Jian Yang的个性化偏好模型，得到50个预测到的

引用每篇论文c_i的可能性的值。对这50个输出值降序排序，取可能性值前10大的论文作为最后进行推荐的参考文献，结果显示该模型成功地推荐出了大部分与该论文相关的学术文献。

Claims

1.一种个性化的学术文献推荐方法，其特征在于，所述方法包括以下步骤：

S1数据收集与清洗

S2模型建立，过程如下：

S2.1构造训练集，过程如下：

表示用户u发表的论文

引用了作者v发表的论文

记所有的引用关系个数为n_u，涉及的论文篇数为m_u；

S2.1.2每次从P^u中的m_u篇论文中随机选取两篇无引用关系的论文，共构成n_u′个无引用关系的论文对，即：N^u＝{x^u1}，

表示作者u发表的论文

未引用作者w发表的论文

且需满足

的发表年份晚于

在具体实施过程中，n_u′＝kn_u，k取1到10；

S2.2特征计算

特征计算考虑论文的第一作者，若要考虑论文的所有作者，则认为u和v表示相应论文的所有作者，并首先对所有作者的相应特征值取算术平均数，再进行以上的两篇论文之间特征的求差运算；

对P^u和N^u中的每个论文对进行特征表示；

S3模型训练

S4学术文献推荐，过程如下：

步骤4.1.1记给定论文p_x的参考文献为R＝{r₁,r₂,…r_n}，初始化备选文献集

C＝R；

步骤4.1.2对i从1到n，逐个考虑R中每篇论文的参考文献T_i，计算T_i中未包含于C的子集R′_i，即R′_i＝C-T_i，若R′_i不为空，则把它合并到备选文献集使得C＝C∪R′_i；

步骤4.1.3更新R＝R′₁∪…∪R′_n；

步骤4.1.4：重复步骤4.1.2直到R为空，再无新的参考文献可以加入备选文献集；

S4.2预测，过程如下：

S4.2.1给定目标用户u输入的论文

若数据库中存在该作者的历史数据以及具有足够的初始信息，即初始参考文献数目大于m，则按照S4.1生成的备选文献集C，并将

和C中的每篇论文c_i构成a个论文对

计算每个论文对的特征向量，特征计算如S2.2，然后执行S4.2.2；

S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文

的作者相应的训练好的模型，得到a个输出，即预测到的

引用每篇论文c_i的可能性的值，对这a个输出值降序排序，取可能性值前k′大的论文作为最后进行推荐的参考文献。

2.如权利要求1所述的一种个性化的学术文献推荐方法，其特征在于，所述步骤2.2中，选定计算如下20个特征值，并把P^u和N^u中的每个对象表示为20维的向量，如下：

特征1：作者u和作者v的发表论文数目之差；

特征2：作者u和作者v的总被引量之差；

特征3：作者u和作者v的H指数之差；

特征4：作者u和作者v的P指数混合均衡A指数之差；

特征5：作者u和作者v的P指数混合非均衡A指数之差；

特征6：作者u和作者v的研究生涯长度之差；

特征7：作者u和作者v的合作能力之差

其中，合作能力的计算方法为：

特征8：论文

和论文

的被引量之差；

特征9：论文

和论文

的参考文献数目之差；

特征10：论文

和论文

的Katz值之差；

其中，β为可调的阻尼因子，G表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度；

特征11：论文

和论文

的PageRank值之差；

记论文之间的引用关系构成的矩阵为G_ij，将其按列进行归一化得到概率转移矩阵G′_ij，记各个节点的PageRank值为A_n×1，初始状态的所有节点的概率相等，

则从第t轮迭代到第t+1的计算公式如下：

特征12：论文

和论文

的出版刊物的H5指数之差；

其中，H5指数可以用来衡量期刊的持续影响力，其表示当前期刊在5年内所发表论文的H指数；

特征13：发表论文

和论文

所在的研究机构的影响力之差；

特征14：论文

和论文

的题目相似性；

特征15：论文

和论文

的摘要相似性；

特征16：作者u和作者v的研究兴趣的相似性；

其中，使用TF-IDF模型将作者的每个研究兴趣转成向量，再用余弦公式得到作者研究兴趣之间的相似性；

特征17：论文

和论文

引用的相同参考文献数目；

特征18：论文

和论文

的作者是否相同；

特征19：论文

和论文

是否发表在同一个出版刊物上；

特征20：论文

和论文

的发表时间之差。

3.如权利要求1或2所述的一种个性化的学术文献推荐方法，其特征在于，所述方法还包括以下步骤：

S5模型的冷启动问题

若数据库中不存在该用户的历史信息，或者当用户在使用本推荐方法时，未提供足够的初始信息，则称为冷启动问题；冷启动分为如下2种情况；

5.1)数据库中存在当前用户的历史信息，但当用户在使用本推荐方法时，未提供足够的初始信息，初始参考文献数目<m，m为给定值；

当用户不存在历史信息时，采用如下两种解决方法：

5.2.1)记当前用户u输入的初始信息论文为：

之间的相似度作为权重。

4.如权利要求1或2所述的一种个性化的学术文献推荐方法，其特征在于，所述步骤S1中，通过对指标设置阈值来筛选出更具有实验价值的数据：删去总被引量小于M₁，或总发表论文数小于M₂，或H指数小于M₃的作者信息，并对相应论文数据进行删除，M₁、M₂和M₃取1到10。