CN110674318A

CN110674318A - 一种基于引文网络社区发现的数据推荐方法

Info

Publication number: CN110674318A
Application number: CN201910748028.6A
Authority: CN
Inventors: 李成赞; 杜一
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2020-01-10

Abstract

本发明提供一种基于引文网络社区发现的数据推荐方法，包括以下步骤：基于作者之间的合著关系、论文之间的共引和耦合关系，构建引文网络；针对引文网络，利用模块度Louvain算法发现具有相似或相关研究内容的社区网络；基于论文与数据集之间的相似度，建立数据集与社区网络之间的关联；将与数据集建立起关联的社区网络中各论文节点进行叠加去重，再进行数据推荐。

Description

一种基于引文网络社区发现的数据推荐方法

技术领域

本发明涉及引文网络、社区发现、相似性度量等技术领域，提出了一种基于引文网络社区发现的数据推荐方法。

背景技术

科学数据是科研活动的输入和产出，是科技创新的核心驱动要素。国际数据公司(IDC)最新报告“Data Age 2025”指出全球信息化数据量以每两年翻一番的速度快速增长，到2020年全球信息化数据存储量将达到47ZB。而全球仅有3％的潜在有价值的数据被开发利用，经过深入分析和挖掘的数据则更少。通过Data Citation Index(DCI)进一步的数据统计分析发现，截止2018年底，DCI中收录的数据集中被引用过的数据集仅占11.83％。

多项调查研究表明，数据用户通过访问存储库、机构网站或者搜索引擎发现和获取数据仍然是当前开放共享数据资源传播的主要途径。在数据量激增、信息过载的大数据时代，被动等待用户检索和发现数据的方式一定程度上限制了数据的传播和重用。

学术论文经历了超过350年的发展历史，形成了超大规模的知识流动和信息传播的复杂引文网络。引文网络中隐含了由文献作者所组成的研究群体，该群体具有相似或相关的研究方向。通过复杂网络的社区发现算法可以将引文网络划分成不同的研究群体。

随着科学数据愈加迫切的开放共享需求与数据出版物实际低下的传播效率及重复利用率之间的矛盾日益显著，如何利用现有学术论文形成的复杂引文网络，向作为科学数据主要用户的科研人员和学者进行数据资源的主动和精准推荐以加速数据资源的传播和重用，将具有重要研究价值和意义。

复杂网络的研究工作起源已久。随着计算机技术的发展，尤其是1998-1999年间，Watts和Barabasi等学者提出了小世界网络模型和无标度网络模型，开启了复杂网络研究的热潮。大量学者开始关注复杂网络结构、特征、信息传播机制、动力学原理等理论研究。随着复杂网络理论研究的深入，越来越多的学者利用复杂网络理论知识研究和探讨政治选举、疾病传播预测、人口迁徙、碳排放、经济模式等现实问题。

引文网络作为一种典型的复杂网络，大量学者利用引文网络开展中心性分析、路径分析、聚类分析、知识传播分析等研究工作。在基于引文网络的社区发现研究方面也已有相当长的一段历史，1963年Kessl等学者提出了文献耦合的概念；1973年，Small等学者提出了共引网络的概念；1981年，White则首次提出作者共著的概念。Huang等学者利用引文网络的共引和文献耦合关系，开展领域前沿检测研究。Newman在2004年利用不同学科的论文作者信息，分析了作者之间协作关系的社区结构,并提出基于模块度的层次社区结构分类方法。2018年韩青等学者基于文献共被引特征开展文献相似度计算研究工作。此外，国内外诸多学者还利用引文网络开展学者、论文和期刊的影响力评价研究。而在基于引文网络的推荐研究方面，West等学者基于论文引文网络分层聚类方法，采用科学知识的层次结构通过为不同的用户建立多维关联度进行论文推荐。Haruna等学者通过研究基于共引关联矩阵的相似性度量进行学术论文推荐。

总体来看，在复杂网络的理论、模型、算法、应用等方面已形成了蔚为可观的研究成果，基于引文网络的知识传播、社区发现、影响力评价方面研究同样成效显著。但是目前为止，基于引文网络利用社区发现方法进行数据资源推荐的相关研究和实践工作尚未发现。

发明内容

科学数据是科研活动的输入和产出，是科技创新的核心驱动要素。科学数据只有开放共享、广泛传播才能使其价值最大化，然而当前数据出版物的利用率和传播效率整体偏低。为了加速科学数据的传播和重用，提升科学数据开放共享成效，本发明的目的在于提出一种基于引文网络社区发现的数据推荐方法，通过学术论文引文网络的社区发现算法，可以将引文网络划分成不同的社区网络。每个社区网络内的研究群体具有相似或相关的研究方向。如果经发现并验证某数据资源对特定社区网络中某个或某些学术论文具有研究或参考价值，则可以认为该社区网络中其他论文作者也可能会对该数据资源感兴趣，并据此向该社区网络进行相应数据资源的推荐，以充分利用引文网络的知识传播机制加速数据资源的传播和重用。

为实现上述目的，本发明采用如下技术方案：

一种基于引文网络社区发现的数据推荐方法，包括以下步骤：

基于作者之间的合著关系、论文之间的共引和耦合关系，构建引文网络；

针对引文网络，利用模块度Louvain算法发现具有相似或相关研究内容的社区网络；

利用论文与数据集基于内容相似度，建立数据集与社区网络之间的关联；

将与数据集建立起关联的社区网络中各论文节点进行叠加去重后进行数据推荐。

其中，可以预先构建一个引文关联网络模型，将符合特定关系的数据集、论文、作者的数据输入到该模型中，进而输出数据推荐结果。

本发明取得的有益效果为：

本发明方法在构建数据集、论文、作者之间的关联网络基础上，利用Louvain算法从合著、共引、耦合三种关联方式分别进行社区发现，然后结合TF-IDF算法及余弦相似度计算数据集与学术论文的相似性，并以此构建数据集与论文所在社区之间的关联后进行数据集推荐。实验结果证明，基于引文网络社区发现的数据推荐方法能够有效发现数据集潜在感兴趣的论文或作者。同时发现，在数据推荐效果的贡献度和稳定性方面，基于耦合关系的社区发现表现最优，合著关系次之，而引用关系则受出版时间和被引次数的影响导致效果差异较大。

附图说明

图1是基于引文网络社区发现的数据推荐原理与步骤图。

图2是引文关联网络模型图。

图3是基于合著关系构建关联的示意图。

图4是基于共引关系构建关联的示意图。

图5是基于耦合关系构建关联的示意图。

图6是引文网络3种社区发现效果与数据集推荐示例图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例公开一种基于引文网络社区发现的数据推荐方法，如图1所示，包括以下步骤：

(1)先构建一引文关联网络模型，再通过后续步骤(2)至(4)，将符合特定关系的数据集、作者、论文数据输入到该模型中，并输出推荐结果。

需要指出的是，构建模型有利于数据的处理，但并非必要手段，在不构建该模型的情况下，通过下述步骤仍然可以实现数据集、论文、作者关系的表示和数据推荐，构建模型仅是一种实施方式，应可理解。

(2)基于合著、共引、耦合关系，构建引文网络，利用模块度Louvain算法划分具有相似或相关研究内容的社区网络。

(3)利用论文与数据集基于内容相似度，建立数据集与社区网络之间的关联。

(4)将与数据集建立起关联的社区网络中各论文节点进行叠加去重后进行数据推荐。

1)数据准备

如表1所示，为了开展本实施例，本实施例基于互联网开放数据资源以及Web ofScience核心数据库获得了以下测试数据：

(1)在Earth System Science Data(ESSD)数据期刊上以数据论文方式进行出版的发布于PANGAEA、Dryad、美国国家海洋和大气局NOAA等的8个数据集，用作待推荐测试数据集；

(2)8个数据集的施引学术论文共计1001篇，用于推荐算法效果的测试与验证；

(3)ESSD期刊中论文的施引论文5037篇以及此5037篇论文的施引论文53809篇和参考文献337483篇，用于学术论文引文网络构建以及基于社区发现进行数据推荐测试。

表1.待推荐测试数据集

2)引文关联网络模型

针对数据集、论文、作者以及三者相互之间的引用、发表、合作等关系构建关联知识网络，将数据集、论文、作者等实体以及实体关联表示为一个节点集以及它们的邻接链表，每个邻接链表存储一个节点的所有边，并采用标准化的图描述实体节点及其关联边。具体引文关联网络模型设计如图2所示。

表2以数据集节点为例展示了引文关联网络模型中实体的形式化表达。表3给出了数据集与引文网络关联关系，即节点间的关联边的形式化表达。

表2.数据集节点实体属性

表3.数据集与引文网络关联关系

3)关联网络构建

(1)合著网络

如图3所示，基于合著关系的关联网络构建原理为：如果两名作者存在过论文合作关系，则说明两名作者存在一定的关联性。两名作者合作的论文数量越多，则说明这两名作者关系越紧密。

(2)共引网络

如图4所示，基于共引关系的关联网络构建原理为：如果两篇论文同时被某篇论文所引用，则说明这两篇论文存在一定的关联性。两篇论文同被引次数越高说明这两篇论文的相似性或者关联度越高。

(3)耦合网络

如图5所示，基于耦合关系的关联网络构建原理为：如果两篇论文有相同的参考文献，则说明这两篇论文存在一定的关联性。两篇论文相同的参考文献数量越多，则说明这两篇论文的相似性或者关联度越高。

4)引文网络的社区发现

本方法基于引文网络所开展的社区发现工作主要采用基于模块度的Louvain算法实现。

其计算公式为：

其中，m表示网络中边的总数；A表示节点间的权重，若网络中未引入权重，则A_ij＝1；k_i表示节点k的度；σ(c_i,c_j)表示判断社区c_i与社区c_j，如果是同一个社区则取值为1，否则取为0。

在利用Louvain算法进行社区划分过程中，对每个节点i，依次尝试把节点i分配到其每个邻居节点所在的社区，并计算分配前后的模块度增量ΔQ，其简化后的计算公式为：

其中，k_i,in表示社区c内节点与节点i的边权重之和；∑_tot表示与社区c内的节点相连的边的权重之和。

5)“数据集-社区网络”关联构建与推荐

数据集与社区网络之间关联的构建是在引文网络社区发现工作完成之后整个数据推荐算法至关重要的一环。能否通过关联构建将数据集引导到真正感兴趣的社区网络是决定数据推荐最终成效的关键。构建数据集与社区网络之间的关联关系可以有引用、相似性度量等方式。由于引用关系存在时间滞后性和不确定性，在数据集发布的最初阶段主要采用相似性度量方式构建关联；当数据集发表超过一定时间并出现施引论文时，亦可采用引用关系进行关联构建。

本实施例主要采用相似性度量方式构建数据集与社区网络之间的关联，具体构建方法为：首先基于向量空间模型对数据集和论文的标题与摘要信息进行矢量化与特征提取；在特征提取过程中利用TF-IDF算法进行词向量权值计算；最后利用余弦相似度计算数据集与引文网络中论文的相似度。

向量空间模型(Vector Space Model,VSM)是自然语言处理中一种常用的模型，该模型是由Gerard Salto等学者于1969年所提出。向量空间模型VSM将文本内容映射为一个特征向量V(d)＝(t₁,w₁(d)；…；t_n,w_n(d))，其中t_i(i＝1,2,…,n)为一列词条项，w_i(d)为t_i在文档d中的权值。

TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术。字词的重要性随着它在单文本内容中出现的次数成正比增加，但同时会随着它在整个语料库中出现的频率成反比下降。TF-IDF的计算公式为：

其中，n_i,j是该词t_i在文档d_j中的出现次数；Σ_kn_k,j是在文档中所有字词的出现次数之和；|D|表示语料库中的文档总数；|{j:t_i∈d_j}|指包含词语t_i的文档数目，为避免被除数为零，一般情况下使用1+|{j:t_i∈d_j}|。

在特征提取过程中因为选取的测试数据集和论文均为英文格式，因此通过空格进行分词操作。需要说明的是，在进行特征提取时需要对a,the,of等常用词进行停用处理，同时还需要对英文的标点符号和数字等通过正则表达式方式进行清除。

此外，数据集d_i与论文d_j之间的相似性度量采用余弦相似性进行实现，具体计算公式为：

其中，w_k(d_i)表示数据集d_i描述信息中词k的权重，该权重由TF-IDF公式(3)计算所得。

6)实验结果

本实施例首先基于实验数据进行了引文关联网络模型的构建，然后从合著、共引、耦合三种网络关联方式利用基于模块度的Louvain社区发现算法完成了社区发现工作。为了提高社区内论文间的相关度以及减少社区规模，本文选择当两篇论文出现共被引次数超过4次(含)以上时方构建两篇论文的共引关联，当两篇论文相同的参考文献超过5篇(含)时构建两篇论文的耦合关系。基于3种关系的社区发现最终结果如图6所示。此外，图6还展示了数据集与社区网络之间通过相似性度量或者引用关系构建关联的示例效果。

表7.基于引文网络社区发现的数据推荐效果

利用引文网络社区发现对实验数据进行推荐的效果如表7所示。需要说明的是，本实施例在通过基于标题和摘要进行相似性度量构建数据集与引文社区网络的关联时，选择关联数据论文的条件为相似度>0.50，如果相似度>0.50的论文数量超过5个，则选择相似度最高的5个论文构建关联。从表7中可以看到，在基于相似度的关联构建方式下，除了数据集4推荐效果较差外，其他7个数据集的推荐论文中覆盖真实施引论文的概率均超过60％，平均覆盖率为80.02％。说明了通过相似度进行数据集与引文社区网络之间的关联关系构建，能够非常有效的将数据集正确引导到可能感兴趣的社区网络中。针对推荐效果较差的数据集4，本实施例进一步通过选择该数据集的第一篇施引论文作为数据集与引文社区网络的关联构建方式。在该关联构建方式下，数据集4的真实施引论文被推荐到的覆盖率达到了80.38％，一定程度说明了基于被引关系构建数据集与引文社区网络间关联的方法同样有效。

另外，通过合著、共引、耦合三种关联网络利用社区发现算法所构建的社区网络对最终推荐效果的影响程度来看，基于耦合关系构建的社区网络贡献度最大，且最稳定，合著关系次之。而基于共引关系构建的社区网络因受数据集发布时间和数据集真实被引用次数影响而效果差异较大。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于引文网络社区发现的数据推荐方法，其特征在于，包括以下步骤：

将引文网络划分成多个社区网络；

基于论文与数据集之间的相似度，建立数据集与社区网络之间的关联；

将与数据集建立起关联的社区网络中各论文节点进行叠加去重，再进行数据推荐。

2.如权利要求1所述的方法，其特征在于，构建引文网络的方法具体为：以作者、论文作为节点，以作者之间的合著关系、论文之间的共引和耦合关系作为边，采用标准化的图表述该节点和边，从而构建引文网络。

3.如权利要求1所述的方法，其特征在于，利用模块度Louvain算法将引文网络划分成多个社区网络，该模块度Louvain算法的公式为：

其中，m表示引文网络中边的总数；A表示节点间的权重，若网络中未引入权重，则A_ij＝1；k_i表示节点k的度；σ(c_i,c_j)表示判断社区c_i与社区c_j，若二者是同一个社区，则取值为1，否则取为0。

4.如权利要求3所述的方法，其特征在于，在利用模块度Louvain算法划分社区时，对每个节点i，依次尝试把节点i分配到其每个邻居节点所在的社区，并计算分配前后的模块度增量ΔQ，其计算公式为：

5.如权利要求1所述的方法，其特征在于，论文与数据集之间的相似度的计算方法为：

基于向量空间模型，对数据集和论文的标题与摘要信息进行矢量化与特征提取；

在特征提取过程中，利用TF-IDF算法进行词向量权值计算；

利用余弦相似度计算数据集与引文网络中论文的相似度。

6.如权利要求5所述的方法，其特征在于，在对英文格式论文进行特征提取时，对冠词、介词进行停用词处理，通过正则表达式对标点符合和数字进行清除。

7.如权利要求5所述的方法，其特征在于，TF-IDF算法的公式为：

其中，n_i,j是词t_i在文档d_j中的出现次数；Σ_kn_k,j是在文档中所有词的出现次数之和；|D|表示语料库中的文档总数；|{j:t_i∈d_j}|指包含词语t_i的文档数目。

8.如权利要求5所述的方法，其特征在于，利用余弦相似度计算数据集与引文网络中论文的相似度的公式为：

其中，d_i表示数据集，d_j表示论文，w_k(d_i)表示数据集d_i描述信息中词k的权重。

9.如权利要求8所述的方法，其特征在于，权重w_k(d_i)由TF-IDF算法计算得到。

10.如权利要求1所述的方法，其特征在于，预先构建引文关联网络模型，通过实体的形式化表达存储数据集、论文与作者，通过邻接链表存储数据集、论文和作者之间的引用、发表与合作关系，每个邻接链表存储一个节点的所有边，采用标准化的图描述节点及其关联边。