CN110825942B - 一种论文质量的计算方法及*** - Google Patents

一种论文质量的计算方法及*** Download PDF

Info

Publication number
CN110825942B
CN110825942B CN201911003528.3A CN201911003528A CN110825942B CN 110825942 B CN110825942 B CN 110825942B CN 201911003528 A CN201911003528 A CN 201911003528A CN 110825942 B CN110825942 B CN 110825942B
Authority
CN
China
Prior art keywords
paper
frequency
years
calculating
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911003528.3A
Other languages
English (en)
Other versions
CN110825942A (zh
Inventor
唐杰
徐菁
刘德兵
王绍兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201911003528.3A priority Critical patent/CN110825942B/zh
Publication of CN110825942A publication Critical patent/CN110825942A/zh
Application granted granted Critical
Publication of CN110825942B publication Critical patent/CN110825942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Paper (AREA)

Abstract

本发明提出一种论文质量的计算方法及***,属于信息技术领域。该***包括:论文抓取模块、预处理模块和论文质量计算模块。该方法首先建立论文历年被引频次和被引年份的集合;计算论文总被引频次,及论文历年被引频次的增长速率及均值;计算论文历年被引频次的高低变化波动值;分别对论文历年被引频次的增长速率均值和高低变化波动值进行归一化;最后得到论文质量分值。本发明可以客观准确地计算论文的质量分值,消除了人们主观感受、技术研究热度、引用动机复杂等因素对论文质量的影响,保证了结果的准确性和客观性,易于实现。

Description

一种论文质量的计算方法及***
技术领域
本发明属于信息技术领域,特别提出一种论文质量的计算方法及***。
背景技术
论文是科学研究成果的重要表示形式,是科学研究人员的智力结晶。论文质量的量化分析不仅有助于评估科研人员、期刊等学术主体的科研绩效,还可以方便科研工作者选读高质量论文并获取高价值知识,从而提高科研的工作效率和成果质量。论文数据具有开放性和共享性等特点,成为目前评价学术主体的科研绩效的使用最广泛的数据来源。研究客观准确的论文质量的计算方法,对人才评价、研究学科结构和重要性、确定核心期刊和会议、促进国家科技的良性发展及对科研工作的有效管理等方面具有重要的应用价值。
传统的论文质量评价采用同行评议方法,随着论文数量的快速增长,同行评议方法无法满足大规模论文的评价要求。此外,同行评议是一种定性评价方法,评价结果容易受到评审专家主观感受等因素的影响。因此,研究人员探索论文质量的定量计算方法。论文被引频次是指论文从发表至今的所有施引文献的数量。由于论文被引频次计算简单,成为目前度量论文质量使用最广泛的方法,但是由于引用过程中存在引用动机复杂、引文不规范等问题,以及技术研究热度的升高也会对相关论文的关注和发表产生积极影响,因此仅用引用频次判别论文质量不够精确。现有的论文质量的计算方法还包括学术迹、 Altmetrics评分、PaperRank方法等。学术迹将施引论文的数量、高被引和零被引的施引论文数量、参考文献和施引论文的被引频次等多种因素纳入统一度量,容易导致计算成本较高,实现效率低下。
Altmetrics评分通过收集Twitter,Facebook等社交和新闻网站中用户对论著的阅读、转发、评论等行为数据,综合计算获取。该方法容易受到社交媒体的限制,进而影响数据的全面性、真实性和可靠性。PaperRank方法借鉴Google网页排名的PageRank算法,引入了虚拟节点、时间因素权值、衰减时间因素等参数来计算论文的质量。该方法计算量大,并且容易受到论文发表时间、学科领域和参数的影响。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种论文质量的计算方法及***。本发明可以客观准确地计算论文的质量分值,消除了人们主观感受、技术研究热度、引用动机复杂等因素对论文质量的影响,保证了结果的准确性和客观性,易于实现。
本发明提出一种论文质量的计算方法,其特征在于,包括以下步骤:
1)建立论文历年被引频次和被引年份的集合;
任意获取一篇论文,将该论文自发表后至今的每个年份均作为被引年份,将该论文的每个被引年份和和该被引年份对应的被引频次组成一个数据组,然后将该论文对应的所有数据组按被引年份从小到大的顺序表示为一个有序集合p={(y1,c1),(y2,c2),…(yn,cn)};
其中,yi表示论文被引年份,ci表示论文在yi年的被引频次;n表示论文的发表年数;
2)计算论文总被引频次,表达式如下:
Figure GDA0002848217570000021
式中,f表示论文的总被引频次;
3)计算论文历年被引频次的增长速率及均值;具体步骤如下:
3-1)计算论文在相邻两年的被引频次增长速率,表达式如下:
Figure GDA0002848217570000022
式中,ki表示论文在第i年的被引频次增长速率;
3-2)计算论文历年被引频次增长速率均值,表达式如下:
Figure GDA0002848217570000023
式中,
Figure GDA0002848217570000024
表示论文历年被引频次增长速率的均值;
4)计算论文历年被引频次的高低变化波动值,表达式如下:
Figure GDA0002848217570000025
式中,σ表示论文历年被引频次的高低变化波动值;
5)利用式(5)和(6),分别对论文历年被引频次的增长速率均值和高低变化波动值进行归一化;表达式如下:
Figure GDA0002848217570000026
e=argmin(x×10e>1) (6)
式中,x表示待进行归一化的变量,b的值为x的整数位的位数,e的值为使x大于1时小数点右移的最小位数;
6)计算论文质量分值,表达式如下;
Figure GDA0002848217570000027
式中,w1表示
Figure GDA0002848217570000031
的影响权重;
Figure GDA0002848217570000032
表示
Figure GDA0002848217570000033
值的正负号,如果
Figure GDA0002848217570000034
Figure GDA0002848217570000035
如果
Figure GDA0002848217570000036
Figure GDA0002848217570000037
如果
Figure GDA0002848217570000038
Figure GDA0002848217570000039
Figure GDA00028482175700000310
Figure GDA00028482175700000311
值的绝对值;(1-w1)表示σ的影响权重。
本发明的特点及有益效果:
本发明能够综合考虑论文被引频次历年高低变化的快慢程度和波动现象:论文历年被引频次的增长速率代表论文被引频次历年变化的快慢程度,论文历年被引频次的高低变化波动值代表论文被引频次历年变化的波动现象。本发明利用这两个因素可以对论文总被引频次产生一种正向或者负向的约束力,消除了技术研究热度、引用动机复杂等因素对论文被引频次提高的外界影响,以及避免了将人们主观感受融入论文质量的评价结果中,保证了结果的准确性和客观性,且***易于实现,对评估科研人员、期刊等学术主体的科研绩效、研究学科结构和重要性、确定核心期刊和会议、促进国家科技的良性发展及对科研工作的有效管理等方面具有重要的应用价值。
附图说明
图1是本发明方法的整体流程图。
图2是本发明***的结构示意图。
具体实施方式
本发明提出一种论文质量的计算方法及***,下面结合附图和具体实施例对本发明进一步详细说明如下。
本发明提出一种论文质量的计算方法,整体流程如图1所示,包括以下步骤:
1)建立论文历年被引频次和被引年份的集合;
任意获取一篇论文,将该论文自发表后至今的每个年份均作为被引年份,将每个被引年份和和该被引年份对应的被引频次组成一个数据组,然后将该论文对应的所有数据组按按被引年份从小到大的顺序表示为一个有序集合p={(y1,c1),(y2,c2),…(yn,cn)}。其中,yi表示论文被引年份,yi需要按照由小到大排列;ci表示论文在yi年的被引频次;n 表示论文的发表年数。
本实施例中,假设论文t在2015、2016、2017、2018、2019年的被引频次分别为20、50、40、60、70。论文t的集合表示为p={(2015,20),(2016,50),(2017,40),(2018, 60),(2019,70)}。
2)计算论文总被引频次;
通过对论文的历年被引频次累加求和,来获得论文的总被引频次,计算方法如公式(1) 所示。
Figure GDA0002848217570000041
在公式(1)中,f表示论文的总被引频次,ci表示论文在第yi年的被引频次。
本实施例中,根据公式(1),论文t的总被引频次为f=20+50+40+60+70=240。
3)计算论文历年被引频次的增长速率及均值;
根据步骤1)得到的集合,计算论文的被引频次在相邻两年的增长速率。具体步骤为:
3-1)根据步骤1)产生的集合中的论文被引频次和被引年份;
计算论文在相邻两年的被引频次增长速率,计算方法如公式(2)所示。
Figure GDA0002848217570000042
在公式(2)中,ki表示论文在第i年的被引频次增长速率。根据公式(2),论文t 的历年被引频次增长速率分别为
Figure GDA0002848217570000043
Figure GDA0002848217570000044
3-2)根据公式(2)的计算结果,计算论文历年被引频次增长速率均值,计算方法如公式(3)所示。
Figure GDA0002848217570000045
在公式(3)中,
Figure GDA0002848217570000046
表示论文历年被引频次增长速率的均值。n表示论文的发表年数。
本实施例中,根据公式(3),论文t的增长速率均值为
Figure GDA0002848217570000047
4)计算论文历年被引频次的高低变化波动值;
根据步骤3)中获取的论文历年被引频次增长速率及均值,获取论文的历年被引频次发生高低变化的波动值,计算方法如公式(4)所示。
Figure GDA0002848217570000048
在公式(4)中,σ表示论文历年被引频次的高低变化波动值。根据公式(4),本实施例中,论文t的历年被引频次的高低变化波动值为:
Figure GDA0002848217570000049
5)分别归一化论文历年被引频次的增长速率和高低变化波动值;
考虑到论文历年被引频次的增长速率均值
Figure GDA00028482175700000410
和高低变化波动值σ的量级相差很大,为了能够保证这两个因素对论文质量发挥同等级的作用,方便后续论文质量分值的计算,本发明设计了一种归一化方法,将
Figure GDA00028482175700000411
和σ映射到(0,1)区间,计算方法如公式(5)所示。该方法的优势是在不使用其他论文的
Figure GDA00028482175700000412
和σ的情况下,可以保证不同论文的
Figure GDA00028482175700000413
和σ在归一化后的值与原值顺序一致,避免了将噪音引入论文质量的计算中,从而有助于论文质量计算的准确性。
Figure GDA0002848217570000051
e=argmin(x×10e>1) (6)
在公式(5)中,x表示待进行归一化的变量(这里代表
Figure GDA0002848217570000052
或者σ),b的值为x的整数位的位数。
本实施例中,针对论文t的
Figure GDA0002848217570000053
值(12.5),使用公式(5)可以得到b=2,g(12.5)=0.2125。 e的值为使x大于1时小数点右移的最小位数,计算方法如公式(6)所示。假设x=0.23,则e=1,g(0.23)=0.023。
6)计算论文质量分值;
根据论文的总被引频次、历年被引频次的增长速率和高低变化波动值,计算论文的质量分值,计算方法如公式(7)所示。
Figure GDA0002848217570000054
在公式(7)中,w1表示
Figure GDA0002848217570000055
的影响权重,默认值为0.7。
Figure GDA0002848217570000056
表示
Figure GDA0002848217570000057
值的正负号,如果
Figure GDA0002848217570000058
Figure GDA0002848217570000059
如果
Figure GDA00028482175700000510
Figure GDA00028482175700000511
如果
Figure GDA00028482175700000512
Figure GDA00028482175700000513
Figure GDA00028482175700000514
Figure GDA00028482175700000515
值的绝对值。(1-w1)表示σ的影响权重。f表示论文的总被引频次。
本实施例中,根据公式(7),论文t的质量分值为pi=[1+0.7×0.2125- 0.3×0.21479]×240=260.23512。
针对同一学科领域的论文,通过本发明方法计算得出的质量分值越高则代表该论文的质量越高。
本发明提出一种基于上述方法的论文质量计算***,结构如图2所示,包括:论文抓取模块、预处理模块和论文质量计算模块。所述论文抓取模块的输出端连接预处理模块的输入端,预处理模块的输出端连接论文质量计算模块的输入端。
所述论文抓取模块用于使用网络爬虫方法获取待计算质量的论文信息及该论文对应的施引论文信息并发送给预处理模块。
预处理模块用于根据从论文抓取模块接收的信息,统计待计算质量论文的历年被引频次和被引年份并发送给论文质量计算模块。
论文质量计算模块用于根据从预处理模块接收的待计算质量论文的历年被引频次和被引年份,利用本发明方法计算待评价论文的质量分值。
作为优选,论文抓取模块获取的待计算质量的论文信息包括论文的标题和作者,使用网络爬虫从学术网站抓取该论文的施引论文信息,抓取的施引论文信息包括施引论文的标题和发表时间。
作为优选,预处理模块根据施引论文的发表时间,统计待评价论文的历年被引频次和被引年份。
本实施例中,论文t具有240篇施引论文,其中2015年发表的施引论文数量为20,2016年发表的施引论文数量为50,2017年发表的施引论文数量为40,2018年发表的施引论文数量为60,2019年发表的施引论文数量为70。则论文t在2015、2016、2017、2018、 2019年的被引频次分别为20、50、40、60、70。
作为优选,论文质量计算模块由彼此相互连接的论文历年被引频次和被引年份的集合表示单元、论文总被引频次计算单元、论文历年被引频次的增长速率计算单元、论文历年被引频次的高低变化波动值计算单元、论文历年被引频次的增长速率和高低变化波动值归一化表示单元组成;
论文历年被引频次和被引年份的集合表示单元根据预处理模块的输出结果,将论文的历年被引频次和被引年份表示为有序集合;
论文总被引频次计算单元根据论文历年被引频次和被引年份的集合表示单元的反馈结果统计总被引频次;
论文历年被引频次的增长速率计算单元根据论文历年被引频次和被引年份的集合表示单元的反馈结果,计算论文在相邻两年的被引频次增长速率,以及增长速率均值;
论文历年被引频次的高低变化波动值计算单元根据论文历年被引频次的增长速率计算单元的反馈结果,计算论文历年被引频次的高低变化波动值;
论文历年被引频次的增长速率和高低变化波动值归一化表示单元用于对论文历年被引频次的增长速率计算单元和论文历年被引频次的高低变化波动值计算单元的反馈结果映射到(0,1)区间。
本发明的主要内容已通过上述优选实例作了详细介绍,应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (2)

1.一种论文质量的计算方法,其特征在于,包括以下步骤:
1)建立论文历年被引频次和被引年份的集合;
任意获取一篇论文,将该论文自发表后至今的每个年份均作为被引年份,将该论文的每个被引年份和和该被引年份对应的被引频次组成一个数据组,然后将该论文对应的所有数据组按被引年份从小到大的顺序表示为一个有序集合p={(y1,c1),(y2,c2),…(yn,cn)};
其中,yi表示论文被引年份,ci表示论文在yi年的被引频次;n表示论文的发表年数;
2)计算论文总被引频次,表达式如下:
Figure FDA0002848217560000011
式中,f表示论文的总被引频次;
3)计算论文历年被引频次的增长速率及均值;具体步骤如下:
3-1)计算论文在相邻两年的被引频次增长速率,表达式如下:
Figure FDA0002848217560000012
式中,ki表示论文在第i年的被引频次增长速率;
3-2)计算论文历年被引频次增长速率均值,表达式如下:
Figure FDA0002848217560000013
式中,
Figure FDA0002848217560000014
表示论文历年被引频次增长速率的均值;
4)计算论文历年被引频次的高低变化波动值,表达式如下:
Figure FDA0002848217560000015
式中,σ表示论文历年被引频次的高低变化波动值;
5)利用式(5)和(6),分别对论文历年被引频次的增长速率均值和高低变化波动值进行归一化;表达式如下:
Figure FDA0002848217560000016
e=argmin(x×10e>1) (6)
式中,x表示待进行归一化的变量,b的值为x的整数位的位数,e的值为使x大于1时小数点右移的最小位数;
6)计算论文质量分值,表达式如下;
Figure FDA0002848217560000021
式中,w1表示
Figure FDA0002848217560000022
的影响权重;
Figure FDA0002848217560000023
表示
Figure FDA0002848217560000024
值的正负号,如果
Figure FDA0002848217560000025
Figure FDA0002848217560000026
如果
Figure FDA0002848217560000027
Figure FDA0002848217560000028
如果
Figure FDA0002848217560000029
Figure FDA00028482175600000210
Figure FDA00028482175600000211
Figure FDA00028482175600000212
值的绝对值;(1-w1)表示σ的影响权重。
2.一种基于如权利要求1所述方法的论文质量计算***,其特征在于,包括:论文抓取模块、预处理模块和论文质量计算模块;所述论文抓取模块的输出端连接预处理模块的输入端,预处理模块的输出端连接论文质量计算模块的输入端;
所述论文抓取模块用于获取待计算质量的论文信息及该论文对应的施引论文信息并发送给预处理模块;
预处理模块用于根据从论文抓取模块接收的信息,统计待计算质量论文的历年被引频次和被引年份并发送给论文质量计算模块;
论文质量计算模块用于根据从预处理模块接收的待计算质量论文的历年被引频次和被引年份,计算待评价论文的质量分值。
CN201911003528.3A 2019-10-22 2019-10-22 一种论文质量的计算方法及*** Active CN110825942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911003528.3A CN110825942B (zh) 2019-10-22 2019-10-22 一种论文质量的计算方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911003528.3A CN110825942B (zh) 2019-10-22 2019-10-22 一种论文质量的计算方法及***

Publications (2)

Publication Number Publication Date
CN110825942A CN110825942A (zh) 2020-02-21
CN110825942B true CN110825942B (zh) 2021-06-29

Family

ID=69550019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911003528.3A Active CN110825942B (zh) 2019-10-22 2019-10-22 一种论文质量的计算方法及***

Country Status (1)

Country Link
CN (1) CN110825942B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883148B (zh) * 2021-01-15 2023-03-28 博观创新(上海)大数据科技有限公司 一种基于研究趋势匹配的学科人才评价控制方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
CN108132961A (zh) * 2017-11-06 2018-06-08 浙江工业大学 一种基于引用预测的参考文献推荐方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080229828A1 (en) * 2007-03-20 2008-09-25 Microsoft Corporation Establishing reputation factors for publishing entities
CN101887460A (zh) * 2010-07-14 2010-11-17 北京大学 一种文献质量评估方法及应用
CN102156706A (zh) * 2011-01-28 2011-08-17 清华大学 一种指导者推荐***及方法
CN107229738B (zh) * 2017-06-18 2020-04-03 杭州电子科技大学 一种基于文档评分模型和相关度的学术论文搜索排序方法
CN109146330A (zh) * 2018-09-25 2019-01-04 浙江理工大学 一种科研机构的学术能力的评价方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐***和推荐方法
CN108132961A (zh) * 2017-11-06 2018-06-08 浙江工业大学 一种基于引用预测的参考文献推荐方法

Also Published As

Publication number Publication date
CN110825942A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
WO2013138961A1 (zh) 一种基于多触点归因模型的网络广告效果衡量方法和***
CN101388024B (zh) 一种基于复杂网络的压缩空间高效搜索方法
Yang et al. Using the comprehensive patent citation network (CPC) to evaluate patent value
CN102841929A (zh) 一种综合用户和项目评分及特征因素的推荐方法
CN110096499B (zh) 一种基于行为时间序列大数据的用户对象识别方法及***
Poirrier et al. Robust h-index
Zhao et al. Academic impact evaluation of Wechat in view of social media perspective
Wu et al. Measuring energy congestion in Chinese industrial sectors: a slacks-based DEA approach
Verma et al. An altmetric comparison of highly cited digital library publications of India and China
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
CN110825942B (zh) 一种论文质量的计算方法及***
Yang et al. Difference in the impact of open-access papers published by China and the USA
Dobránszki et al. Corrective factors for author-and journal-based metrics impacted by citations to accommodate for retractions
CN116362823A (zh) 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置
Wang et al. Comprehensive measurement, spatiotemporal evolution, and spatial correlation analysis of high-quality development in the manufacturing industry
KR20110087636A (ko) 온라인 네트워크 사용자의 평판도 산출 방법 및 장치
Prathap Evaluating journal performance metrics
Shen et al. Measurement of the new economy in China: Big data approach
Akita et al. Pro-poorness of rural economic growth and the roles of education in Bhutan, 2007–2017
Gou et al. Encoding the citation life-cycle: the operationalization of a literature-aging conceptual model
Gayan et al. Citation analysis of Mathematics: a scientometric study based on PhD theses, Tripura University
Gervits et al. Citation analysis and tenure metrics in art, architecture, and design-related disciplines
Liu et al. Multi-views on Nature Index of Chinese academic institutions
Qin et al. Assessing the quality of wikipedia pages using edit longevity and contributor centrality
Wang et al. New approach of financial volatility duration dynamics by stochastic finite-range interacting voter system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant