CN105978743A

CN105978743A - 一种基于高阶聚集系数的期刊评价方法

Info

Publication number: CN105978743A
Application number: CN201610589947.XA
Authority: CN
Inventors: 杨忠明; 余君; 吴伟美; 秦勇; 常亚萍
Original assignee: Guangdong Institute of Science and Technology
Current assignee: Guangdong Institute of Science and Technology
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2016-09-28

Abstract

本发明公开一种基于高阶聚集系数的期刊评价方法，提出高阶聚集系数的概念，以期刊作者的合作网络数据为计算数据，延伸Watts和Strogatz的聚集系数，计算期刊合作者的高阶聚集系数C(h)，形成图表并分析其高阶聚集系数C(h)在图中所表示的意义。通过采集国内计算机类一级学报的大量合作者样本数据并计算分析，结果表明合作者为20人左右时，合作团队拥有广泛的知识面和较高的合作水平，较易做出高水平的创新性成果，也意味着高水平的论文作者通常和20人左右的学者直接或者间接保持合作关系。本发明的高阶聚集系数同样可用于语言网络等其他呈现出小世界效应的网络分析。

Description

一种基于高阶聚集系数的期刊评价方法

技术领域

本发明涉及期刊质量评价领域，具体涉及一种基于高阶聚集系数的期刊评价方法。

背景技术

网络可以用来描述人与人之间的社会关系，计算机之间的网络联接，网页之间的超链接，科研文章之间的引用关系，统计物理学是从微观到宏观的桥梁。研究网络中顶点与边的度值与权值等微观性质与网络的几何性质、效率与稳定性等宏观性质之间的关系正是复杂网络研究的核心内容。因而，与图论的研究有所不同，复杂网络的研究更侧重于从各种实际网络的现象之上抽象出一般的网络几何量，并用这些一般性质指导更多实际网络的研究，进而通过讨论实际网络上的具体现象发展网络上模型的一般方法，最后讨论网络本身的形成机制。在模型研究、演化机制与结构稳定性方面的丰富的研究经验是复杂网络研究领域得到广泛应用的原因，而图论与社会网络提供的网络静态几何量及其分析方法是复杂网络研究的基础，并得到了充分的发展。合作网络属于复杂网络中社会网络的一种，它的提出是复杂网络***研究的一种新的方向。小世界网络中利用聚集度来评价网络指标、反映网络性质的合作网络已经成为评价网络指标的一种重要评价方法主流。根据权威的国内外文献表明合作网络是一种优化评价网络指标的评价***，自1993年到2010年，持续多年的研究更表明了合作网络的评价优化。科学合作的范围随着科学的进步而逐渐增长。论文合著是科学合作的表现之一，随着不同领域的合作者的介入，科学合作成果的质量也会越好，合作网络成为更复杂的网络。

一个典型的网络是由许多节点与连接两个节点之间的一些边组成的，而复杂网络简单来说是呈现高度复杂性的网络，具有结构复杂、网络进化、连接多样性、动力学复杂性、节点多样性和多种复杂性融合的特点。复杂网络是可具有自组织、自相似、吸引子、小世界、无标度网络中部分或全部性质的网络。合作网络是描述合作关系的网络，它属于复杂网络中社会网络的一种。小世界网络中利用聚集度的计算来评价网络指标、反映网络性质的合作网络已经成为评价网络指标的主流。

两个现实的复杂网络模型被广泛应用：小世界模型和无尺度模型。小世界网络的特征是局部集群连接的长的线，平均距离之间的顶点的对数的增长与网络中N的大小有关。以日常语言看，它反映的是相互关系的数目可以很小但却能够连接世界的事实，且小世界模型社会网络就是小世界的一种。科研人员合作网络是描述科研人员合作关系的网络，通常把每个科研人员作为网络中的一个顶点(或称节点)，如果两个科研人员之间共同发表过一篇科研论文，这两个顶点之间就连接一条边。科研人员之间形成了一个复杂的网络，该网络的节点的复杂性、网络演化特性以及网络的合作行为等问题，所呈现出的密集度可以作为评价期刊的一个指标。研究基于合作网络的期刊高阶聚集特性分析，通过其看聚集度的计算发现目前研究热点，同时聚集度越大，合作越紧密，可作为评价期刊的一个重要指标。

Watts和Strogatz构造出了一种介于规则网络和随机网络之间的网络(WS网络)，随后Newman和Watts给出了一种新的网络构造方法，在NW网络中，原有的连边并不会被破坏，而是以一个很小的概率在原来的规则网络上添加新的连边，这样构造出来的网络也同时具有大的簇系数和小的平均距离。BarabasiA对科学合作社会网络的演化进行了研究，认为作者合作社会网络是复杂网络的代表。

Watts和Strogatz的研究方法是通过其中一个规则网络可以转化为小世界网络，这种方法很少或基本没有改变顶点度的分布和量化参数。小世界网络中一个重要特征就是与随机网络相比有相当高的聚集系数，甚至比任意网络的都要高。聚集系数的定义如下:顶点v在图G中有相邻节点度k(v)，这个k(v)的相邻节点可能被连接成k(v)(l(v)-1)/2个边。实际存在的最大的可能的边的分数数量就是图G的聚集系数C_v，所有节点v平均聚集系数就是网络G的聚集度C。C的值接近于1意味着网络是高连通的。

确定性小世界网络的生成方式种类繁多，肖文俊通过Cayley图建立了一个确定性小世界网络模型，基于Cayley图的小世界网络具有结构简单和明显的适应性。网络G＝(V,E)作为图论的概念是指由一个点集V(G)和一个边集E(G)组成的一个图，且E(G)中的每条边ei有V(G)的一对点(u,v)与之对应。记顶点数为N＝|V|，边数为L＝|E|。如果任意(u,v)与(v,u)对应同一条边，则称为无向网络，否则为有向网络；如果任意|ei|＝1，则称为无权网络，否则为加权网络。从统计物理学的角度来看，网络是一个包含了大量个体以及个体之间相互作用的***，是把某种现象或某类关系抽象为个体(顶点)以及个体之间相互作用(边)而形成的用来描述这一现象或关系的图。

国内外学者在合作网络的构造、静态统计性质分析和演化模型等方面进行了研究，2006年Cardillo A分析了Los Alamos的2000-2005年间cond-mat数据库，发现该库的成长是通过合作网络图的连接增长体现的，主要特征体现在度度相关性以及节点的聚集相关性。国内学者针对合作者所形成的小型网络进行研究，周涛等提出的基于二分图资源的推荐算法，李晓佳等在自建的合作网络上，实现了层次聚集法和介数聚集法，在Newman的Q函数基础上讨论了聚集过程中的最佳集团数。还有学者从不同角度对社团网络及其应用做了研究，如范超利用合作网络及社会网络的结构知识对CNM算法作了改进，提高了社团发现的精度。

黄开木等以近30年我国“竞争情报”领域作者合著发表期刊论文为研究对象，分析表明该领域科学家的产量、最大合著群体的产量和所有合著群体的规模都满足幂律分布。通过对该合著网络最大连通子图统计分析，发现该合著群体具有高聚类和小世界性。

发明内容

本发明的目的是解决现有技术的缺陷，提供一种基于合作者网络的高阶聚集系数的期刊评价方法，采用的技术方案如下：

一种基于合作者网络的高阶聚集系数的期刊评价方法，提出高阶聚集系数，并把高阶聚集系数应用在期刊评价中，所述高阶聚集系数为聚集系数的高度概括，具体由下式定义：

C (h) \approx 1 / (\begin{matrix} t - l \\ h - 1 \end{matrix})

其中，t＝log₂N，N为顶点数，h为是相邻顶点v与顶点G的距离。

作为优选，本发明具体包括：

把期刊合作者的数据进行高阶聚集系数C(h)的计算；

制作高阶聚集系数和期刊合作者数量之间的关系曲线；

通过所述关系曲线的高峰得到期刊中合作者人数的普遍性，以及评价该期刊的水平。

进一步地，所述关系曲线有两个高峰，第一高峰表明期刊中合作者人数的普遍性，第二高峰用于评价该期刊的优劣。

定义一个网络或图表G＝(V,E)，设V有N个顶点或节点，设E有M个边或线段，每个边定义为一对顶点(有序配对的有向图)，让一个顶点v于G有相邻节点k(v)，这个k(v)的相邻节点可能被连接成k(v)(l(v)-1)/2个边，那个分数的最大的边事实上存在于相邻的v和聚集系数Cv之间，平均聚集系数对所有v∈V是那个聚集系数C的网络G。一个网络C接近1可能包括聚集和有高度的连接，或许稀疏的连接在本地群集中。

本发明延伸Watts和Strogatz的聚集系数，定义h是相邻顶点v与顶点G的距离h。设v有邻节点h和k_h(v)，k₁(v)与k(v)一样在前面已经定义了，这样最多可以有k_h(v)(k_h(v)–1)/2条边连接h的邻节点v。分数C_v(h)允许的边是真实存在于h邻节点v与聚集系数h之间。设当k_h(v)＝1时，C_v(h)＝1，这也涵盖了h＝0时的特例。平均C_v(h)对所有v∈G，考虑高阶聚集系数的概念，聚集系数为h时为C(h)。聚集系数为1时C(1)是聚集系数定义在前面的C。

顶点为N的网络有M条边，可得公式

P_δ(0)＝1/N and P_δ(1)＝2M/N²>1/N

在h＝1以外，不能精确地表达该值为P_δ(h)，但是，很多网络(小世界或反之)，P_δ(h)的值与h一起上升直到到达最大值，然后下降至距离h与网络直径D越来越接近。

对于高阶聚集系数，这一趋势开始于聚集度减少，从C(0)＝1到C(1)＝C，然后其次是进一步减少。由于事实上h是在增加，q_h的节点数目按一定距离h的节点在增加，这些节点属于几个派系，因此，他们之间的很多边是不可能。在h向D靠拢的过程中，会出现不同的效果。一个极端的例子其中每个节点在网络中到距离D的唯一节点(这有一个截然相反的单节点)，这导致C(D)＝1。在同样的情况，C(D–1)可能广泛地应用于鉴别存在多个直径和相同的相对的顶点。应注意前面所说的意思是在h向D靠拢的过程中C(h)会变大，并非C(h)一定要大。

因为P_δ(h)(上升，然后下降)和C(h)(下降，然后上升)的趋势是相反的，所以P_δ(h)C(h)的乘积应有一个上限值，因为常数c经常接近1但很少超过1，得出：

P_δ(h)C(h)≤c log N/N (1)

h＝1时，方程(1)意味着P_δ(1)C(1)≈log N/N，从小世界网络中知道P_δ(1)＝2M/N²≈log N/N，对于这类的网络是符合C(1)＝C。

利用式(1)这个确定性的小世界网络本发明提出这个模型，事实上，通过这个模型，可以发现这种趋势表现在方程(1)。反观确定性的模型，这是基于Cayley的图，提供了模型所需的支撑信息，从而可得，该模型的聚集系数：

C = \frac{a t (a t - 1)}{(a t + t - l) (a t + t - l - 1)} - - - (2)

在模型中，t＝log₂N和a＝(2^l–1)/t是一个自由调整参数，这关系到互连密度，从而影响了C的价值。注意非常广泛的网络(N,t→∞)，当a是常数时C趋向a²/(a+1)²。适当地选择a，能获得不同的聚集系数，同时保持一个小的顶点等于at+t–l＝(a+1)log₂N–1。

不像现实网络中计算C(h)是非常困难的，本发明提出的确定性模型是服从数学分析，能用封闭形式表达一个高阶聚集系数。在这个确定性模型中，对于数字m相邻的顶点之间，在相邻顶点h的任何顶点给出表达式：

m = (2^{l} - 1) (2^{l - 1} - 1) (\begin{matrix} t - l \\ h - 1 \end{matrix}) - - - (3)

数字k_h(v)的相邻顶点h的顶点v是有界的：

(2^{l} - 1) (\begin{matrix} t - l \\ h - 1 \end{matrix}) \leq k_{h} (v \leq (2^{l} - 1) (\begin{matrix} t - l \\ h - 1 \end{matrix}) + (\begin{matrix} t - l \\ h \end{matrix}) - - - (4)

鉴于高阶聚集系数C(h)与m/(k_h(v))²成正比，很容易得到高阶聚集系数为：

C (h) \approx 1 / (\begin{matrix} t - l \\ h - 1 \end{matrix}) - - - (5)

因此，定义聚集系数是基于相邻的节点，高阶聚集系数定义了涉及到一个更广泛的相邻距离参数h。利用实际上的更广泛的复杂网络的实验数据，依据本发明提出的确定性小世界网络模型，将在网络中有关C(h)和P_δ(h)的距离分布，定义为有一定概率的随机选择的距离为h的一对顶点。

高阶聚集系数是聚集系数的高度概括，并受聚集***相关的公式所控制。通过利用期刊作者所构成的网络数据提出了实验和分析证明，不等式P_δ(h)C(h)≤c log N/N在小世界网络中成立。这一结果明显表明该乘积P_δ(h)C(h)有一个上限值，该上限值小于P_δ(h)和C(h)的最大值。

高阶聚集系数的计算可以应用在期刊合作者上。把期刊合作者的数据进行高阶聚集系数C(h)的计算，可以得出一组关于顶点距离、阶数、高阶聚集系数C(h)和Cd*Pd等的数据。通过实验把数据制作成图表分析，期刊合作者的高阶聚集系数能得出一组曲线图。而这组曲线图的高峰能表明这时候合作者人数在期刊中的普遍性，以及能表明此时的合作者人数能做出较好的科学研究成果。也可以根据曲线图的高峰段来判断合作者的作品情况，可作为期刊的评价方法之一。

作为优选，所述高阶聚集系数的计算方法包括如下步骤：

计算最大连通子图；

计算出顶点数与平均距离；

计算各距离的点对数；

根据平均距离数得到高阶聚集系数。

与现有技术相比，本发明的有益效果：本文通过计算期刊合作者的高阶聚集系数来研究反映出期刊作者在不同阶段的聚集度，通过对高阶聚集系数的计算与分析，分析期刊合作者情况，作为评价期刊的优劣的指标之一。

附图说明

图1是本发明实施例三大期刊高阶聚集系数分布情况示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

实施例：

C (h) \approx 1 / (\begin{matrix} t - l \\ h - 1 \end{matrix})

本发明具体包括：

把期刊合作者的数据进行高阶聚集系数C(h)的计算；

制作高阶聚集系数和期刊合作者数量之间的关系曲线；

进一步地，所述关系曲线有两个高峰，第一高峰表明期刊中合作者人数的普遍性，第二高峰用于评价该期刊的水平。

顶点为N的网络有M条边，可得公式

P_δ(0)＝1/N and P_δ(1)＝2M/N²>1/N

P_δ(h)C(h)≤c log N/N (1)

C = \frac{a t (a t - 1)}{(a t + t - l) (a t + t - l - 1)} - - - (2)

m = (2^{l} - 1) (2^{l - 1} - 1) (\begin{matrix} t - l \\ h - 1 \end{matrix}) - - - (3)

数字k_h(v)的相邻顶点h的顶点v是有界的：

(2^{l} - 1) (\begin{matrix} t - l \\ h - 1 \end{matrix}) \leq k_{h} (v \leq (2^{l} - 1) (\begin{matrix} t - l \\ h - 1 \end{matrix}) + (\begin{matrix} t - l \\ h \end{matrix}) - - - (4)

C (h) \approx 1 / (\begin{matrix} t - l \\ h - 1 \end{matrix}) - - - (5)

所述高阶聚集系数的计算方法包括如下步骤：

计算最大连通子图；

计算出顶点数与平均距离；

计算各距离的点对数；

根据平均距离数得到高阶聚集系数。

本实施例从中国期刊网中把《计算机研究与发展》、《计算机学报》和《软件学报》从2000年至2010年的作者信息进行数据采集，分别整理成3个单独存放作者信息的文档，再把论文作者是两位以上的作者进行分离和融合，形成每行为两位作者名称的格式，然后利用高阶聚集系数计算方法对3大期刊的高阶聚集系数进行计算，结果如表1所示。

表1

最后把数据信息分别整理成图表，结果如图1所示，图1显示了三大期刊高阶聚集系数的分布情况，其中点集表示了期刊合作者的高阶聚集系数。从图1中可以看出，图中出现了两个高峰，在合作者为2-3人的平均距离实验结果图中出现第一高峰，即2-3人的合作情况比较普遍。随着合作者数量增加高阶聚集系数减小，但是合作者20人左右时出现第二聚集系数高峰，此高峰表明合作者20人左右时，合作团队拥有广泛的知识面和较高的合作水平，较易做出高水平的创新性成果，也意味着高水平的论文作者通常和20人左右的学者直接或者间接保持合作关系。可以看出，这三组数据的第二高峰都处于相似的阶段，证明高水平的论文作者和20人左右的学者直接或间接保持合作关系。

本发明提出的高阶聚集系数是聚集系数的高度概括，并受聚集系数相关的公式所控制，通过利用期刊作者所构成的网络数据提出了实验和分析，证明不等式P_δ(h)C(h)≤clog N/N在小世界网络中成立。这一结果表明该乘积P_δ(h)C(h)有一个上限值，该上限值小于P_δ(h)和C(h)的最大值。因此，高阶聚集系数提供了对小世界网络结构的新见解，为小世界网络的探索提供了一个新的渠道。

通过实验数据结果看出，高阶聚集系数越高，期刊合作者合作关系越紧密，越能做出有水平的研究成果。2-3人的合作网络比较普遍，但并不意味着2-3人的合作者模式容易作出高水平成果，过第二聚集系数高峰进行分析更具有说服力，在合作者规模为20左右的合作关系是比较容易做出高水平创新研究成果。本发明所提出的高阶聚集系数还可应用于语言网络等其他呈现出小世界效应的网络分析。

Claims

1.一种基于合作者网络的高阶聚集系数的期刊评价方法，其特征在于，提出高阶聚集系数，并把高阶聚集系数应用在期刊评价中，所述高阶聚集系数为聚集系数的高度概括，具体由下式定义：

C (h) \approx 1 / (\begin{matrix} t - l \\ h - 1 \end{matrix})

其中，t＝log₂N，N为顶点数，h为小世界网络中相邻顶点v与顶点G的距离。

2.根据权利要求1所述的一种基于合作者网络的高阶聚集系数的期刊评价方法，其特征在于，具体包括：

把期刊合作者的数据进行高阶聚集系数C(h)的计算；

制作高阶聚集系数和期刊合作者数量之间的关系曲线；

3.根据权利要求2所述的一种基于合作者网络的高阶聚集系数的期刊评价方法，其特征在于，所述关系曲线有两个高峰，第一高峰表明期刊中合作者人数的普遍性，第二高峰用于评价该期刊的优劣。

4.根据权利要求3所述的一种基于合作者网络的高阶聚集系数的期刊评价方法，其特征在于，所述高阶聚集系数的计算方法包括如下步骤：

计算最大连通子图；

计算出顶点数与平均距离；

计算各距离的点对数；

根据平均距离数得到高阶聚集系数。