CN117271894A

CN117271894A - 一种基于混合网络与dpp的论文推荐方法

Info

Publication number: CN117271894A
Application number: CN202311231689.4A
Authority: CN
Inventors: 许颜鹏
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-22

Abstract

本发明公开了一种基于混合网络与DPP的论文推荐方法，包括（1）使用二部图与引文网络构建混合网络，并且针对不同类型关系，进行权重的编排，最后使用图嵌入的方式得到论文的d维向量表征。保证了最终的结果既包含论文与论文之间的关系，又包含了用户与论文的关系，提供了更高的准确性。（2）基于引入相关性参数的DPP数学模型，对论文集合进行子集筛选，保证推荐结果多样性。

Description

一种基于混合网络与DPP的论文推荐方法

技术领域

本发明涉及一种论文推荐方法，适用于论文推荐技术领域。

背景技术

在学术领域，随着各种论文资源的数量迅猛增长，学者们开展论文调研工作的难度也日益增大。研究人员需要耗费大量时间与精力去研判论文的相关性及价值，科研效率也随之受到影响。ISI Web of Science 收录了各个研究领域最具影响力的8850（SCI）+3200（SSCI）+1700（AHCI）多种核心学术期刊。截止2017年，就已经包括了12000种高影响期刊和160000种会议记录。IEEE Xplore 提供超过500万份文档的web访问、1900多个全球会议、11000多个技术标准、近5000本电子书和500多个在线课程，每月大约增加20000份新文件。

为提升论文推荐***的准确性，常用的方法有二部图和引文网络两种方法。如图1所示，二部图是一种图表，也称为二元关系图（binary relation diagram），用于表示两个不同类型节点之间的关系。其中，一个圆圈代表一个节点，另一个圆圈代表另一个不同类型的节点，线段代表两个节点之间的关系。二部图在图论、数学、计算机科学等领域中被广泛应用，例如在社交网络的研究中，二部图被用来表示人与兴趣、人与物品之间的关系。例如，如果有三个人Alice、Bob和Charlie，和两篇论文Paper1和Paper2。如果Alice和Bob都阅读了Paper1，而Bob和Charlie都阅读了Paper2，那么对应的二部图就是：Alice和Bob都阅读了Paper1，所以对应的二部图上有一条连接Alice和Paper1的线段，以及一条连接Bob和Paper1的线段。同理，Bob和Charlie都阅读了Paper2，所以对应的二部图上也有一条连接Bob和Paper2的线段，以及一条连接Charlie和Paper2的线段。二部图的优点是简单易懂，能够有效地表示人和论文之间的阅读关系。如图2所示，论文的引文网络是指一组论文之间的引用关系形成的网络，其中每一个节点代表一个论文，每一条边表示一个论文与另一个论文的引用关系。引用网络常常被用于分析学术界的知识传播和学科间的关联。在引文网络中，节点代表论文，有向边代表论文之间的引用关系。引文网络的分析可以帮助我们研究不同学科和领域之间的相互关系，发现重要的学术趋势和研究热点，评估学术成果的影响力等。

由于二部图过于关注用户与物品之间的关系，无法表示论文与论文之间的关系。引文网络过于关注论文之间的引用关系，而忽略了论文与用户之间的关系，拥有单一的、具有局限性的信息，会使得推荐结果不准确，甚至错误。因此缺乏任意一种信息，都会对推荐的准确度造成影响。

此外，多样性也是论文推荐***的一个度量标准，论文的多样性可以为拓宽研究人员视野，为研究者提供更多的灵感，帮助用户快速、准确地获取其研究需要的相关论文，减轻“科学信息过载”现象对科研效率的影响，并在推荐结果中尽可能提供多样性，为研究者提供灵感。大多数论文推荐***仅仅把追求较高准确性作为推荐目标，只关注论文之间的相似度，而忽略了多样新，导致用户潜在的一些兴趣可能被忽略，用户满意度不高。

发明内容

本发明的目的在于提供一种基于混合网络与DPP的论文推荐方法，可以大大提高论文推荐的准确性和多样性。

为实现上述发明目的，本发明采取的技术方案为：一种基于混合网络与DPP的论文推荐方法，其特征在于，包括如下步骤：步骤1: 获取学术论文库数据；步骤2：提取论文之间的引用关系，构成引文网络，该网络图中包含了论文之间引用关系的特征；步骤3：体用用户浏览记录，建立用户—论文二部图，该网络图中包含了用户对不同论文感兴趣程度的特征；步骤4：将步骤2与步骤3生成的网络图进行融合，生成混合网络，同时包含了论文之间引用关系的特征和用户对不同论文感兴趣程度的特征；步骤5：基于Node2Vec进行有偏随机游走，生成各个节点的特征向量；步骤6：提取网络中表示论文的节点，与其对应的特征向量，得到基于混合网络的论文特征矩阵；步骤7：通过对论文内容本身的文本预处理，包括特殊字符的去除，大写全部转换为小写后，使用BERT模型提取论文文本特征，得到基于BERT的论文特征矩阵；步骤8：将步骤6和步骤7中的论文特征矩阵使用特征拼接的方式进行特征融合，得到最终的论文特征矩阵；步骤9：使用余弦相似度算法，计算论文之间的相似度，生成相似度矩阵；步骤10：当用户进入***时，根据其浏览记录，根据每一篇论文，通过相似度矩阵得到相似度最高的M篇论文，最终通过加权，得到推荐给该用户的M篇论文；步骤11：对步骤10得到的M篇论文使用DPP算法，得到多样性最强的N片论文；其中N小于M。

上述方案中，使用DPP算法的步骤为：基于引入相关性参数的 DPP 数学模型，对论文 embedding 进行子集筛选，保证推荐结果多样性，具体过程为：

给定k个论文，把这些论文的 embedding 表征为k个 d 维单位向量 v1,v2,……vk ；

由于同一维度上的数值差距越大，两个向量的夹角越大，所有这些单位向量的组成的超平形体的体积可以用来衡量论文集合的多样性;

超平形体的体积为全部论文特征向量的乘积，当v1,v2,……vk两两正交时，体积最大，多样性最好；

而体积与行列式的关系如下：

det 表示Determinant，其含义为行列式；P(v1,v2,…,vk)表示v1,v2…vk 组成的超平形体，Vol表示体积；该公式的含义表示，超平形体的体积与行列式的值大小，是成正相关的。

上述方案中，步骤10中， M的数值为50。

上述方案中，步骤11中，N的数值为20。

本发明的有益效果：（1）使用二部图与引文网络构建混合网络，并且针对不同类型关系，进行权重的编排，最后使用图嵌入的方式得到论文的 d 维向量表征。保证了最终的结果既包含论文与论文之间的关系，又包含了用户与论文的关系，提供了更高的准确性。（2）基于引入相关性参数的 DPP 数学模型，对论文集合进行子集筛选，保证推荐结果多样性。

附图说明

图1为二部图论文推荐原理图。

图2为引文网络论文推荐原理图。

图3为本发明二部图与引文网络合成的混合网络原理图。

图4为利用DPP 数学模型对论文向量化后形成的超立方体图。

图5为本实施例的实验流程图。

图6为本实施例中论文引文网络r 的子图。

图7为本实施例中二部图子图。

图8为本实施例中混合网络子图。

具体实施方式

下面结合附图对本发明的技术方案进行更详细的说明。

如图1所示，二部图的优点是简单易懂，能够有效地表示人和论文之间的阅读关系，但是也有其局限性，例如无法表示不同论文之间本身存在的关系。如图2所示，引文网络的分析可以帮助我们研究不同学科和领域之间的相互关系，发现重要的学术趋势和研究热点，评估学术成果的影响力等。引文网络的局限性在于仅仅关注了论文与论文之间的关系，而忽略了人的因素。

如图3所示，使用二部图与引文网络构建混合网络，在混合网络中，每个节点既代表一个论文，又代表一个人，每个线段连接两个节点，表示一个人阅读了一个论文，每条有向边表示一个论文被另一个论文所引用的关系。最后使用图嵌入（embeding）的方式得到论文的 d 维向量表征。这个特征向量中既包含了【论文—论文】的关系也包含了【用户—论文】的关系。

基于引入相关性参数的 DPP 数学模型，对论文 embedding 进行子集筛选，保证推荐结果多样性。DPP是指行列式点过程（Determinantal Point Processes）的缩写，它是一个概率模型，用于描述一组随机变量的集合。它用于挖掘一组向量集合中，组成超平形体体积最大的一个子集。那么，我们就可以把这种模型应用在论文推荐中的，例如：给定k个论文，把这些论文的 embedding 表征为k个 d 维单位向量 v1，v2，……vk ，由于同一维度上的数值差距越大，两个向量的夹角越大，所有这些单位向量的组成的超平形体的体积可以用来衡量论文集合的多样性。

如图4所示，v1,v2,v3 分别表示 3 篇论文的向量，他们组成了一个超平形体。超平形体的体积为全部论文特征向量的乘积。当v1，v2，v3两两正交时，体积最大，多样性最好。

而体积与行列式的关系如下：

det 表示Determinant，其含义为行列式。P(v1,v2,…,vk)表示v1,v2…vk 组成的超平形体，Vol表示体积。该公式的含义表示，超平形体的体积与行列式的值大小，是成正相关的。DPP模型的优点在于可以灵活地处理点的相关性和多样性。他可以保证选择的点具有一定的相似性，从而避免了过度相似或相互独立的问题。同时，DPP模型还可以控制选择的点的多样性，从而保证选择的点具有一定的差异性。

本实施方式的技术方案包括以下步骤：步骤1: 获取学术论文库数据。步骤2：提取论文之间的引用关系，构成引文网络，该网络图中包含了论文之间引用关系的特征；步骤3：体用用户浏览记录，建立用户—论文二部图，该网络图中包含了用户对不同论文感兴趣程度的特征；步骤4：将步骤2与步骤3生成的网络图进行融合，生成混合网络，同时包含了论文之间引用关系的特征和用户对不同论文感兴趣程度的特征；步骤5：基于Node2Vec进行有偏随机游走，生成各个节点的特征向量；步骤6：提取网络中表示论文的节点，与其对应的特征向量，得到基于混合网络的论文特征矩阵；步骤7：通过对论文内容本身的文本预处理，包括特殊字符的去除，大写全部转换为小写后，使用BERT模型提取论文文本特征，得到基于BERT的论文特征矩阵；步骤8：将步骤6和步骤7中的论文特征矩阵使用特征拼接的方式进行特征融合，得到最终的论文特征矩阵；步骤9：使用余弦相似度算法，计算论文之间的相似度，生成相似度矩阵；步骤10：当用户进入***时，根据其浏览记录，根据每一篇论文，通过相似度矩阵得到相似度最高的50篇论文。最终通过加权，得到推荐给该用户的50篇论文。步骤11：对步骤10得到的50片论文使用DPP算法，得到多样性最强的20片论文。

实施例：下面将结合图5对本发明进行详细说明。

步骤1：基础环境准备。

本实验采用开源数据集citeulike-a for CTRSR，CiteULike-a for CTRSR是一个常用的推荐***数据集，用于评估和比较不同推荐算法的性能。该数据集包含了CiteULike网站上的用户行为数据，其中CiteULike是一个社会化书签网站，允许用户将感兴趣的文章加入书签，并与其他用户分享。该数据集中包含用户5551个，论文16980个，引文关系44709条，浏览记录 204987 条。

表 1 数据集数据情况

本次实验使用Python语言实现。使用的核心库包括numpy，pandas，networkx，node2vec，matplotlib，sentence_transformers，sklearn

步骤2：构造引文网络。

Networkx是一个基于Python语言的用于复杂网络分析的开源工具包，它提供了一系列用于构建、操作和分析复杂网络的函数和算法。Networkx支持多种类型的网络，包括有向图、无向图、加权图、多图等，可以用于社交网络分析、生物信息学、交通网络等领域。

使用Networkx，可以方便地构建、可视化和操作各种类型的网络，例如添加和删除节点和边、计算节点和边的属性、查找最短路径、计算中心性指标等。Networkx还提供了许多用于分析和可视化网络的工具，例如绘制节点和边的图形、绘制度分布图、绘制聚类系数图等。

根据Citeulike-a for CTRSR数据集中的引文关系，我们可以得到论文与论文之间的引用关系。

r = nx.Graph()

使用此函数创建名为 r 的图。

r.add_edge(论文 a 节点, 论文 b 节点)

之后遍历每一个引文关系，并使用add_edge方法将一条引文作为r 图的边***到r 图中。

最终即可得到一个完整的引文网络 r，r 的子图如图6所示，r网络图中包含了论文之间引用关系；其中蓝色节点表示了论文，蓝色节点之间的边表示论文之间的引用关系。

步骤3：构建二部图。

该步骤与步骤2 大致相同。

首先初始化空二部图

随后，遍历阅读记录中的所有用户，将用户作为右边的节点，添加到图中。设置为右边节点的方式为，参数 bipartite 为0。

随后，遍历阅读记录中的所有论文，将论文作为左边的节点，添加到图中。

设置为左边节点的方式为，参数 bipartite 为1。

随后，遍历每一个阅读记录，将用户节点与论文节点相连。

b.add_edge(用户节点，论文节点)

此时b图中就包含了所有用户与论文的浏览关系。b 的子图如图7所示。其中蓝色节点表示论文，红色节点表示用户。红色节点与蓝色节点之间的连线表示该用户曾阅读过该论文。

步骤4：进行图融合。

将步骤2与步骤3生成的网络图进行融合，融合时，只需要遍历上述两个图中的节点，以及所有的边，添加到一个新的图中即可生成混合网络mix，mix 网络图同时包含了论文之间引用关系的特征和用户对不同论文感兴趣程度的特征；如下图8所示，其中红色节点表示用户，蓝色节点表示文献，红色节点与蓝色节点之间的线为“阅读”关系，蓝色节点与蓝色节点之间的线，为引用关系。

步骤5：基于 Node2vec 训练模型。

Node2vec是一种用于提取网络节点特征的方法，它是DeepWalk方法的拓展，采用了类似于Word2vec的思想，将网络节点映射到低维向量空间中，从而将复杂的网络结构信息转化为向量表示。

Node2vec的核心思想是利用随机游走的方式，从网络中抽取出一些节点序列，然后将这些节点序列转化为向量表示。与DeepWalk不同的是，Node2vec采用了一个灵活的策略来生成节点序列，即在节点的邻居中以不同的概率进行随机游走，从而可以灵活地控制节点序列的多样性和相似性。

该实施例使用 Python 中的 Node2Vec 包实现模型的构建与特征的提取相关参数如下：

Network：混合网络。

Dimensions：表示对论文向量嵌入的维度。

p ：p用于控制向后遍历的概率，具体来说，当p大于1时，随机游走更有可能停留在之前经过的节点上，因此生成的节点序列会更加倾向于访问相邻节点，这样可以增加节点之间的相似性。例如，在社交网络中，如果p设置为大于1的值，则随机游走更有可能在某个用户的朋友圈中停留，这样就可以更好地反映用户之间的社交关系。而学术论文也存在“圈子”和“领域”的概念，所有 p 设置为 1.2。

q：q用于控制向前遍历的概率, 具体来说，当q小于1时，随机游走更有可能访问之前不那么容易到达的节点，因此生成的节点序列会更加多样化，包含更多不同的节点，这样可以增加节点之间的差异性。例如，在社交网络中，如果q设置为小于1的值，则随机游走更有可能访问不同用户的朋友圈之间的节点，这样就可以更好地反映用户之间的差异性和多样性。因此 q 值设置小于1，为 0.6。

walk_length：表示每个随机游走的长度。walk_length的设置决定了每个随机游走经过多少个节点，因此可以影响节点序列的长度。

num_walks：表示进行多少次随机游走。num_walks的设置决定了从网络中抽取多少个节点序列，因此可以影响节点序列的多样性和数量。

workers：表示使用多少个CPU核心来运行算法。默认值为1。

workers的设置决定了算法运行的速度和效率，因此可以影响算法的运行时间。模型构建好之后，可以使用 fit 来进行模型的训练，进而得到最终的训练好的模型 model。

步骤6：提取网络中表示论文的节点。

该数据集中共有16980 个论文节点，遍历每一个节点，从训练好的模型中获取论文结点的 1024 维度的特征向量。

model.wv.get_vector(论文节点名称)

最终可以得到基于混合网络的论文特征矩阵(16980*1024)；下表表2展示了 30篇论文的部分特征情况。

表2部分论文特征向量表

步骤7：使用 Bert 预训练模型，提取论文文本特征。

BERT是一种基于深度学习的自然语言处理模型，可以用于文本特征的提取。BERT采用了Transformer结构，可以学习到文本中不同位置之间的关系，从而生成文本的向量表示。这个是一个非常经典的模型，具体原理就不在这里叙述了

引入sentence_transformers包，该包的底层就是采用 Bert 来实现的文本特征提取。

通过对每一篇论文进行处理，包括特殊字符的去除，大写全部转换为小写后，使用BERT模型提取论文文本特征，得到基于BERT的论文特征矩阵；

最终得到的sentences_vecs 是一个16980*1024的特征矩阵。

步骤8：进行特征融合。

将步骤6和步骤7中的论文特征矩阵使用特征拼接的方式进行特征融合，得到最终的论文特征矩阵；

步骤9：得到论文的相似矩阵。

余弦相似度是一种常用的相似度计算方法，主要用于计算两个向量之间的相似度。具体来说，余弦相似度计算的是两个向量之间的夹角余弦值，值越大表示两个向量越相似。

这里直接使用sklearn中的cosine_similarity，计算论文之间的相似度，生成相似度矩阵；

步骤10：得到推荐结果（粗排）。

当用户进入***时，根据其浏览记录，根据每一篇论文，通过相似度矩阵得到相似度最高的50篇论文。最终通过加权，得到推荐给该用户的50篇论文。

步骤11：进行多样性处理（精排）。

对步骤10得到的50篇论文使用DPP算法，得到多样性最强的20篇论文；即可完成整体的推荐过程。

本实施例的实验效果如下所示。

指标说明：F1 Score是一种常用的二分类模型评价指标，它综合了分类器的精确率（precision）和召回率（recall），可以用来评价分类器的性能。F1 Score的取值范围是0到1之间，值越大表示分类器的性能越好。

NDCG（Normalized Discounted Cumulative Gain）是常用的用于评价信息检索***排序质量的指标。它综合考虑了排序结果的相关性和排序位置，适用于评估搜索引擎在搜索结果排序方面的性能。NDCG的取值范围是0到1之间，值越大表示搜索结果排序越好。在实际应用中，通常会计算出多个查询的平均NDCG值，以评估搜索引擎的整体性能。

ILS多样性的指标。它主要用于评价集合的多样性，如果推荐列表中的物品越不相似，ILS越小，那么推荐结果的多样性越好。

表3 实验结果指标

上表表3为实验结果指标可以看出：

使用混合网络进行论文推荐的F1_score，NDCG均要优于单独使用二部图或者引文网络的方式；

在引入DPP后，ILS（一种多样性指标）均有减小，提升了推荐结果的多样性。

Claims

1.一种基于混合网络与DPP的论文推荐方法，其特征在于，包括如下步骤：

步骤1: 获取学术论文库数据；

步骤2：提取论文之间的引用关系，构成引文网络，该网络图中包含了论文之间引用关系的特征；

步骤3：体用用户浏览记录，建立用户—论文二部图，该网络图中包含了用户对不同论文感兴趣程度的特征；

步骤4：将步骤2与步骤3生成的网络图进行融合，生成混合网络，同时包含了论文之间引用关系的特征和用户对不同论文感兴趣程度的特征；

步骤5：基于Node2Vec进行有偏随机游走，生成各个节点的特征向量；

步骤6：提取网络中表示论文的节点，与其对应的特征向量，得到基于混合网络的论文特征矩阵；

步骤7：通过对论文内容本身的文本预处理，包括特殊字符的去除，大写全部转换为小写后，使用BERT模型提取论文文本特征，得到基于BERT的论文特征矩阵；

步骤8：将步骤6和步骤7中的论文特征矩阵使用特征拼接的方式进行特征融合，得到最终的论文特征矩阵；

步骤9：使用余弦相似度算法，计算论文之间的相似度，生成相似度矩阵；

步骤10：当用户进入***时，根据其浏览记录，根据每一篇论文，通过相似度矩阵得到相似度最高的M篇论文，最终通过加权，得到推荐给该用户的M篇论文；

步骤11：对步骤10得到的M篇论文使用DPP算法，得到多样性最强的N片论文；其中N小于M。

2.根据权利要求1所述的一种基于混合网络与DPP的论文推荐方法，其特征在于，使用DPP算法的步骤为：基于引入相关性参数的 DPP 数学模型，对论文 embedding 进行子集筛选，保证推荐结果多样性，具体过程为：

而体积与行列式的关系如下：

3.根据权利要求2所述的一种基于混合网络与DPP的论文推荐方法，其特征在于，步骤10中， M的数值为50。

4.根据权利要求2所述的一种基于混合网络与DPP的论文推荐方法，其特征在于，步骤11中，N的数值为20。