CN116628350A

CN116628350A - 基于可区分主题的新论文推荐方法和***

Info

Publication number: CN116628350A
Application number: CN202310919669.XA
Authority: CN
Inventors: 孙宇清; 李稳
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-08-22
Anticipated expiration: 2043-07-26
Also published as: CN116628350B

Abstract

一种基于可区分主题的新论文推荐方法和***，属于利用计算机模型实现论文推荐的技术领域。本发明利用子空间标注模型，标注论文摘要句子，得到背景、方法和结果的子空间文本，输入到神经主题模型中，输出主题分布作为子空间向量；学术影响力在不同子空间之间的传播依据引用特征建模为非对称的主题传播，通过图卷积实现，结合用户历史发表，进一步建模用户兴趣；最后根据用户兴趣，为其推荐潜在感兴趣的新论文。

Description

基于可区分主题的新论文推荐方法和***

技术领域

本发明公开一种基于可区分主题的新论文推荐方法和***，属于利用计算机模型实现论文推荐的技术领域。

背景技术

推荐任务是指面向特定用户，根据用户和物品的历史交互数据和其他属性特征，建模用户画像和物品表示，实现用户和物品之间的匹配，具有广泛的应用场景，比如新闻推荐、电影推荐、论文推荐等。新论文推荐任务是指根据引文网络、论文内容等特征建模用户研究兴趣，将缺少引用信息的新发表论文推荐给潜在感兴趣的用户。新论文推荐任务具有重要的应用价值，例如在论文检索平台中，为用户推荐感兴趣且高质量的新论文，可以帮助用户把握学术科研进展，进而促进科研创新。通常，一篇论文的重要性是由其同行赋予的，同行继承其研究工作，并引用该论文从而承认其贡献。一篇高质量论文在发表后的几年内，通常会受到较高关注，并出现一系列的在该论文基础上进行的相关研究，比如谷歌公司在2017年发布的论文《Attention is all you need》中提出的Transformer模型的出现就带动了一系列预训练模型的发展。越早进行相关工作，带来的学术影响也会相应的越大，也说明了及时挖掘潜在高质量新发表论文的必要性。

科学理论和技术发展日新月异，每年都有大量论文发表，科研人员需要从高质量的新论文中了解最新的理论和技术。学术创新的形式是多样的，由于这些论文的进展差异很大，因此很难找到有价值的新论文并将其推荐给感兴趣的研究人员。现有主流论文推荐方法通常利用学术服务平台提供的论文和用户的相关信息，结合深度学习网络、主题模型或其他表示学习方法建模用户兴趣和论文特征，大致可以分为三类：

基于引文网络的推荐方法，基于论文内容的推荐方法和综合考虑多种特征的推荐方法。引文网络是由论文作为顶点，引用关系作为边的网络结构，富含高阶隐含信息，包括科研工作者兴趣的演化以及论文影响力的传播情况等，因此很多论文推荐模型是基于引文网络的。比如中国专利文献CN113505216A于2021-10-15公开了一种基于引用图的多特征论文推荐方法，该方法通过PageRank算法在引用图上的应用得到论文重要性评分,并据此进行推荐。不过这类基于引文网络的方法并不适用于缺少引文信息的新论文，存在数据冷启动问题。

基于内容的论文推荐方法缓解了数据冷启动问题，比如中国专利文献CN111090743B于2023-05-09公开一种基于词嵌入和多值形式概念分析的论文推荐方法及装置，该方法根据论文关键词和用户关键词建模论文和用户表示，更好地描述了论文与关键词的关联性，但是该方法并没有对论文创新形式进行区分，而学术创新的形式是多样的，论文的创新点包括提出新研究场景，对已有问题提出新的解决办法等，所以如何细粒度的刻画论文创新形式是一个挑战。

综合考虑多种特征的论文推荐模型通常会联合引文网络、论文内容等多种特征建模用户和论文表示，比如中国专利文献CN112364151A于2021-02-12公开了一种基于图、引文和内容的论文混合推荐方法，集合了基于引文网络和基于内容的两种类型推荐方法的优缺点，更加精准的建模了用户的兴趣偏好，但是也存在缺少对创新形式的区分等问题。

发明内容

针对现有技术存在的问题，本发明公开一种基于可区分主题的新论文推荐方法。

本发明还公开实现上述推荐方法的***。

本发明为区分创新形式，将论文核心内容分为背景、方法和结果三个子空间，然后利用神经主题模型建模不同子空间的主题分布情况，并将学术影响建模为论文之间的主题传播，通过图卷积的方式实现，结合用户历史发表建模用户研究兴趣，为用户推荐潜在感兴趣的高质量论文。

发明概述：

本发明利用子空间标注模型，标注论文摘要句子，得到背景、方法和结果的子空间文本，输入到神经主题模型中，输出主题分布作为子空间向量；学术影响力在不同子空间之间的传播依据引用特征建模为非对称的主题传播，通过图卷积实现，结合用户历史发表，进一步建模用户兴趣；最后根据用户兴趣，为其推荐潜在感兴趣的新论文。

专业术语解释：

1.子空间：是指用于描述论文不同层面学术创新的语义空间。

2.主题：是指一段文本所围绕、关注的具体内容。比如一篇推荐***领域论文摘要的主题可能是“数据冷启动问题”“协同过滤模型”等等。

本发明详细的技术方案如下：

一种基于可区分主题的新论文推荐方法，其特征在于，包括：

S1：利用子空间标注模型，标注论文摘要句子，得到背景、方法和结果的子空间文本，输入到神经主题模型中，输出主题分布作为子空间向量；其中，所述子空间标注模型是指使用由Di Jin等人在2018年EMNLP会议发布的论文《Hierarchical neural networksfor sequential sentence classification in medical scientific abstracts》中提出的子空间标注模型HSLN；所述神经主题模型是指论文《Discovering discrete latenttopics with neural variational inference》中提出的基于自编码器的神经主题模型GSM；先利用HSLN模型对论文的摘要文本进行子空间标注，得到子空间文本之后在将子空间文本输入到GSM模型中，输出主题分布，这两部分是分别依次进行训练的，先训练HSLN模型，再训练GSM模型；

S2：知识在不同论文和不同子空间之间的传播依据引用特征建模为非对称的主题传播，首先根据论文之间的引用关系构建引文图，图中节点表示论文，边表示引用关系，由于引用关系是单向的，所以边是单向的，选定一篇论文作为中心节点，将该论文的引用文献作为代表影响力的邻居节点，参考文献作为代表兴趣的邻居节点，分别进行兴趣图卷积和影响力图卷积，最终输出用户兴趣表示；

S3：根据用户兴趣表示，为其推荐潜在感兴趣的新论文。

根据本发明优选的，所述S1具体包括：

所述子空间标注模型为子空间标注模型HSLN，使用子空间标注模型HSLN对论文摘要中的句子进行子空间标注，输入论文摘要，输出每个摘要句子的子空间标签/>，表示子空间标记的集合；/>表示背景；/>表示方法；/>表示结果；

所述神经主题模型为基于自编码器的神经主题模型GSM，将论文的相同子空间标签的摘要句子作为相应子空间文本，分别输入到基于自编码器的神经主题模型GSM中，输出主题分布/>,/>分别作为相应三个子空间的向量，其中/>表示主题数量，为超参数，/>表示实数集合；

根据本发明优选的，所述S2中的基于图卷积的非对称主题传播模块包括：

S21：将论文的三个子空间向量/>,/>表示成矩阵形式/>，/>为论文/>的矩阵表示形式，代表了论文在背景、方法和结果三个子空间的主题分布情况：

将论文作为中心节点，论文/>的引用文献作为代表影响力的邻居节点，参考文献作为代表兴趣的邻居节点，分别针对影响力和兴趣进行图卷积；向左的箭头表示兴趣，向右的箭头表示影响力，用/>表示论文/>的初始兴趣矩阵，用/>表示论文/>的初始影响力矩阵，并利用论文/>的子空间向量的矩阵形式/>分别对/>和/>进行初始化：

卷积核函数为：

在公式（3）中，表示激活函数；/>分别表示论文；/>表示卷积迭代的次数；/>、/>、/>分别是卷积核函数/>的权重；/>是偏置项；/>代表论文/>的/>阶影响力矩阵；/>代表论文/>的/>阶兴趣矩阵；

第次卷积论文/>的代表影响力的邻居节点，即论文/>的引用文献，得到卷积后的/>阶邻域影响力矩阵/>：

在公式（4）中，集合表示引用了论文/>的论文集合,将集合/>的大小设置为超参数/>，即/>；/>表示论文/>的/>阶影响力矩阵，其中论文/>示引用了论文/>的论文，/>；

S22：将中心节点影响力矩阵和邻域影响力矩阵/>进行聚合得到论文/>的阶影响力矩阵/>：

同理，第次卷积论文/>的代表兴趣的邻居节点，即论文/>的参考文献，得到卷积后的/>阶邻域兴趣矩阵/>：

在公式（6）中，表示论文/>的参考文献的集合，将集合/>的大小设置为和/>大小一致的超参数/>，即/>表示论文/>的/>阶兴趣矩阵；

S23：将中心节点兴趣矩阵和邻域兴趣矩阵/>进行聚合得到/>阶兴趣矩阵/>：

图卷积最大深度为，最终经过/>次迭代得到论文/>的/>阶兴趣矩阵/>和/>阶影响力矩阵/>；

给定论文，计算论文/>的作者对论文/>感兴趣的概率/>:

在公式（8）中，为论文/>的子空间向量的矩阵形式:

在公式（8）中,首先计算论文的兴趣矩阵/>和论文/>的子空间矩阵/>的矩阵乘积，得到论文/>和论文/>的不同子空间之间的主题关联；然后进行最大池化/>，目的是获得论文/>和论文/>的子空间之间的最大主题关联；最后经过多层感知机MLP层输出/>；

选择交叉熵损失函数训练模型：

在公式（10）中，表示正样本对的集合；/>表示负样本对的集合；/>表示正则化项；/>表示正则项系数，为超参数，控制着正则项在损失函数中的权重；/>表示论文对的真实标签，/>和/>即为一个论文对：

如果引用了/>，则/>；否则为负样本对，则/>；最后一项为正则化项。

根据本发明优选的，所述S3中根据用户兴趣表示，为其推荐潜在感兴趣的新论文具体包括：

给定新发表论文，计算用户/>对所述新发表论文/>感兴趣的概率/>：

在公式（11）中，表示用户/>的历史发表论文，由于用户兴趣会随着时间发生变化，用户的历史发表可以代表用户在不同时间的研究兴趣，所以针对用户的历史发表论文，分别计算当时用户对该新论文/>感兴趣的概率，并取最大值作为最终感兴趣概率/>。

实现上述推荐方法的***，其特征在于，包括：

基于神经主题模型的子空间表示模块、基于图卷积的非对称主题传播模块和个性化新论文推荐模块；

所述基于神经主题模型的子空间表示模块用于执行所述S1；

所述基于图卷积的非对称主题传播模块用于执行所述S2；

所述个性化新论文推荐模块用于执行所述S3。

所述基于神经主题模型的子空间表示模块用于对论文摘要进行处理，先将论文摘要进行子空间标注，然后输出子空间向量；

所述基于图卷积的非对称主题传播模块联合引文网络和论文子空间向量建模知识传播过程，将论文的参考文献作为代表兴趣的邻居节点，将引用文献作为代表影响力的邻居节点，分别针对兴趣和影响力进行图卷积，并结合用户历史发表建模用户兴趣；

所述个性化论文推荐模块根据用户兴趣为其推荐潜在感兴趣的新论文。

本发明的技术优势在于：

1、相较于现有技术，本发明将论文内容划分为背景、方法和结果三个子空间，然后采用神经主题模型得到不同子空间中论文的主题分布，从而可以区分论文创新的形式。

2、相较于现有技术，本发明将学术影响建模为论文之间的主题传播，通过在引文网络上图卷积实现，模拟了知识的传播过程，对发现学术主题的演变有很大帮助，也有利于精准建模用户兴趣，实现个性化论文推荐。

3、相较于现有技术，本发明仅基于论文摘要的文本内容建模新论文特征表示，避免了新论文推荐时的数据冷启动问题。

附图说明

图1是本发明实现所述新论文推荐方法的***示意图；

图2是本发明一种基于可区分主题的新论文推荐方法的架构图；

图3是本发明所述子空间必要性分析示意图。

具体实施方式

下面结合实施例和说明书附图做详细的说明，但不限于此。

如附图1、附图2所示。

实施例1、

一种基于可区分主题的新论文推荐方法，包括：

所述S1具体包括：

S3：根据用户兴趣表示，为其推荐潜在感兴趣的新论文。

实施例2、

如实施例1所述一种基于可区分主题的新论文推荐方法，所述S2中的基于图卷积的非对称主题传播模块包括：

卷积核函数为：

在公式（6）中，表示论文/>的参考文献的集合，将集合/>的大小设置为和大小一致的超参数/>，即/>表示论文/>的/>阶兴趣矩阵；

给定论文，计算论文/>的作者对论文/>感兴趣的概率/>:

在公式（8）中，为论文/>的子空间向量的矩阵形式:

选择交叉熵损失函数训练模型：

实施例3、

如实施例1、2所述一种基于可区分主题的新论文推荐方法，所述S3中根据用户兴趣表示，为其推荐潜在感兴趣的新论文具体包括：

实施例4、

实现如实施例1、2、3所述推荐方法的***，包括：

所述基于神经主题模型的子空间表示模块用于执行所述S1；

所述基于图卷积的非对称主题传播模块用于执行所述S2；

所述个性化新论文推荐模块用于执行所述S3。

另外，结合实施例1、2、3、4，将本发明应用到具体场景1，具体如下：

为验证本发明所述推荐方法的有效性，进行对比实验，选择了8个对比模型，分别是BUIR, LightGCN，NeuMF，DirectAU，KGCN，KGCN-LS, RippleNet, NPRec。其中BUIR由Dongha Lee等人在2021年SIGIR会议发布的论文《Bootstrapping user and itemrepresentations for oneclass collaborative filtering》中提出，LightGCN由Xiangnan He等人在2020年SIGIR会议发布的论文《Lightgcn: Simplifying and poweringgraph convolution network for recommendation》中提出，NeuMF由Xiangnan He等人在2017年WWW会议发布的论文《Neural collaborative filtering》中提出，DirectAU由Chenyang Wang等人在2022年KDD会议发布的论文《Towards representation alignmentand uniformity in collaborative filtering》中提出，KGCN由Hongwei Wang等人在2019年WWW会议发布的论文《Knowledge graph convolutional networks for recommendersystems》中提出，KGCN-LS由Hongwei Wang等人在2019年SIGKDD会议发布的论文《Knowledge-aware graph neural networks with label smoothness regularizationfor recommender systems》中提出，RippleNet由Hongwei Wang等人在2018年CIKM会议发布的论文《Ripplenet: Propagating user preferences on the knowledge graph forrecommender systems》中提出，NPRec由Yi Xie等人在2022年ICDE会议上发布的论文《Subspace embedding based new paper recommendation》提出。本发明所述方法表示为DTNRec。

选择ACM和Scopus两个学术论文数据集。其中ACM数据集包含43380篇论文和63119位用户，以及126252条引用关系；Scopus数据集包含18842篇论文，39796位用户，以及28268条引用关系。将数据集按照论文发表时间划分为两部分，2014年之前用作训练集，2014年之后用作测试集。在ACM数据集中任选300个用户，在Scopus数据集中任选100个用户，为每位用户准备篇候选论文，每个候选集至少包含1篇真正被引用的论文。本发明所述方法DTNRec根据公式/>对候选论文进行排序。使用归一化折损累计增益/>来衡量排序结果。

计算方法为：，其中/>；

值越大，表示用户真正引用的论文在候选论文中排名越靠前，推荐效果越好；如果第/>篇论文确实被用户引用，/>，否则/>；

是理想的折现累积增益，计算方法是：/>，其中/>指的是用户在候选论文中真正引用的论文数量。

将候选论文集合大小分别设置为20，30和50，实验结果如表1所示：

表1 新论文推荐任务对比实验

通过表1的实验结果显示，本发明所述基于可区分主题的新论文推荐方法DTNRec性能最好；BUIR, LightGCN, NeuMF和DirectAU都是基于协同过滤的模型，只使用了用户和论文的交互信息，表现相对较差；KGCN, KGCN-LS, RippleNet和NPRec都是基于知识图谱的模型，除了使用用户和论文的交互信息之外，还使用了关键词，发表期刊等信息，更加精准的建模了用户偏好，所以性能有提升；本发明所述推荐方法DTNRec，联合引文网络和论文摘要，同时将论文摘要分为背景、方法和结果三个子空间，以区分不同创新形式，并利用非对称图卷积模拟了知识传播过程，更加精准的建模了用户偏好和论文特征，所以推荐性能最好。

另外，结合实施例1、2，将本发明应用到具体场景2，具体如下：

为验证子空间的必要性，任意选择了一篇由Thorsten Joachims发布在2002年SIGKDD会议上的论文《Optimizing search engines using clickthrough data》，该论文ACM CCS分类标签是h.3.3。计算任意一篇ACM CCS分类标签为h.3.3的论文的背景向量和该论文的背景向量的距离，并选择其中距离最小的50篇论文。向量距离代表了主题相关度，背景向量距离越小，代表主题越相似，所以这50篇论文的背景是相似的。

利用TSNE将全部向量降为2维，用灰色点代表全部论文，黑色圆形、黑色五角星和黑色三角形分别代表这50篇论文的背景向量、方法向量和结果向量，横坐标表示2维向量的第一个维度值，纵坐标表示2维向量的第二个维度值，可以画出如图3所示的散点图。

如图3所示，可得出以下结论：背景相似的论文，方法可能是不同的，从而结果也会有所不同。证明考虑子空间是有必要的，可以更加细粒度的建模论文内容特征，进而区分论文不同的创新形式。另外，由于这50篇论文的研究领域是非常接近的，所以方法和结果的向量并没有过于分散，而是相对聚集在一个范围内。

Claims

1.一种基于可区分主题的新论文推荐方法，其特征在于，包括：

S1：利用子空间标注模型，标注论文摘要句子，得到背景、方法和结果的子空间文本，输入到神经主题模型中，输出主题分布作为子空间向量；

S3：根据用户兴趣表示，为其推荐潜在感兴趣的新论文。

2.根据权利要求1所述一种基于可区分主题的新论文推荐方法，其特征在于，所述S1具体包括：

所述神经主题模型为基于自编码器的神经主题模型GSM，将论文的相同子空间标签的摘要句子作为相应子空间文本，分别输入到基于自编码器的神经主题模型GSM中，输出主题分布/>,/>分别作为相应三个子空间的向量，其中/>表示主题数量，为超参数，/>表示实数集合。

3.根据权利要求1所述一种基于可区分主题的新论文推荐方法，其特征在于，所述S2中的基于图卷积的非对称主题传播模块包括：

将论文作为中心节点，论文/>的引用文献作为代表影响力的邻居节点，参考文献作为代表兴趣的邻居节点，分别针对影响力和兴趣进行图卷积；用/>表示论文/>的初始兴趣矩阵，用/>表示论文/>的初始影响力矩阵，并利用论文/>的子空间向量的矩阵形式/>分别对和/>进行初始化：

卷积核函数为：

在公式（3）中，表示激活函数；/>分别表示论文；/>表示卷积迭代的次数；/>、、/>分别是卷积核函数/>的权重；/>是偏置项；/>代表论文/>的/>阶影响力矩阵；/>代表论文/>的/>阶兴趣矩阵；

S22：将中心节点影响力矩阵和邻域影响力矩阵/>进行聚合得到论文/>的/>阶影响力矩阵/>：

第次卷积论文/>的代表兴趣的邻居节点，即论文/>的参考文献，得到卷积后的/>阶邻域兴趣矩阵/>：

给定论文，计算论文/>的作者对论文/>感兴趣的概率/>:

在公式（8）中，为论文/>的子空间向量的矩阵形式:

选择交叉熵损失函数训练模型：

4.根据权利要求1所述一种基于可区分主题的新论文推荐方法，其特征在于，所述S3中根据用户兴趣表示，为其推荐潜在感兴趣的新论文具体包括：

在公式（11）中，表示用户/>的历史发表论文。

5.一种实现如权利要求1、2、3或4所述推荐方法的***，其特征在于，包括：

所述基于神经主题模型的子空间表示模块用于执行所述S1；

所述基于图卷积的非对称主题传播模块用于执行所述S2；

所述个性化新论文推荐模块用于执行所述S3。