CN110825942A - 一种论文质量的计算方法及*** - Google Patents
一种论文质量的计算方法及*** Download PDFInfo
- Publication number
- CN110825942A CN110825942A CN201911003528.3A CN201911003528A CN110825942A CN 110825942 A CN110825942 A CN 110825942A CN 201911003528 A CN201911003528 A CN 201911003528A CN 110825942 A CN110825942 A CN 110825942A
- Authority
- CN
- China
- Prior art keywords
- paper
- frequency
- years
- calculating
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Paper (AREA)
Abstract
本发明提出一种论文质量的计算方法及***,属于信息技术领域。该***包括:论文抓取模块、预处理模块和论文质量计算模块。该方法首先建立论文历年被引频次和被引年份的集合;计算论文总被引频次,及论文历年被引频次的增长速率及均值;计算论文历年被引频次的高低变化波动值;分别对论文历年被引频次的增长速率均值和高低变化波动值进行归一化;最后得到论文质量分值。本发明可以客观准确地计算论文的质量分值,消除了人们主观感受、技术研究热度、引用动机复杂等因素对论文质量的影响,保证了结果的准确性和客观性,易于实现。
Description
技术领域
本发明属于信息技术领域,特别提出一种论文质量的计算方法及***。
背景技术
论文是科学研究成果的重要表示形式,是科学研究人员的智力结晶。论文质量的量化分析不仅有助于评估科研人员、期刊等学术主体的科研绩效,还可以方便科研工作者选读高质量论文并获取高价值知识,从而提高科研的工作效率和成果质量。论文数据具有开放性和共享性等特点,成为目前评价学术主体的科研绩效的使用最广泛的数据来源。研究客观准确的论文质量的计算方法,对人才评价、研究学科结构和重要性、确定核心期刊和会议、促进国家科技的良性发展及对科研工作的有效管理等方面具有重要的应用价值。
传统的论文质量评价采用同行评议方法,随着论文数量的快速增长,同行评议方法无法满足大规模论文的评价要求。此外,同行评议是一种定性评价方法,评价结果容易受到评审专家主观感受等因素的影响。因此,研究人员探索论文质量的定量计算方法。论文被引频次是指论文从发表至今的所有施引文献的数量。由于论文被引频次计算简单,成为目前度量论文质量使用最广泛的方法,但是由于引用过程中存在引用动机复杂、引文不规范等问题,以及技术研究热度的升高也会对相关论文的关注和发表产生积极影响,因此仅用引用频次判别论文质量不够精确。现有的论文质量的计算方法还包括学术迹、Altmetrics评分、PaperRank方法等。学术迹将施引论文的数量、高被引和零被引的施引论文数量、参考文献和施引论文的被引频次等多种因素纳入统一度量,容易导致计算成本较高,实现效率低下。
Altmetrics评分通过收集Twitter,Facebook等社交和新闻网站中用户对论著的阅读、转发、评论等行为数据,综合计算获取。该方法容易受到社交媒体的限制,进而影响数据的全面性、真实性和可靠性。PaperRank方法借鉴Google网页排名的PageRank算法,引入了虚拟节点、时间因素权值、衰减时间因素等参数来计算论文的质量。该方法计算量大,并且容易受到论文发表时间、学科领域和参数的影响。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种论文质量的计算方法及***。本发明可以客观准确地计算论文的质量分值,消除了人们主观感受、技术研究热度、引用动机复杂等因素对论文质量的影响,保证了结果的准确性和客观性,易于实现。
本发明提出一种论文质量的计算方法,其特征在于,包括以下步骤:
1)建立论文历年被引频次和被引年份的集合;
任意获取一篇论文,将该论文自发表后至今的每个年份均作为被引年份,将该论文的每个被引年份和和该被引年份对应的被引频次组成一个数据组,然后将该论文对应的所有数据组按被引年份从小到大的顺序表示为一个有序集合p={(y1,c1),(y2,c2),…(yn,cn)};
其中,yi表示论文被引年份,ci表示论文在yi年的被引频次;n表示论文的发表年数;
2)计算论文总被引频次,表达式如下:
式中,f表示论文的总被引频次;
3)计算论文历年被引频次的增长速率及均值;具体步骤如下:
3-1)计算论文在相邻两年的被引频次增长速率,表达式如下:
式中,ki表示论文在第i年的被引频次增长速率;
3-2)计算论文历年被引频次增长速率均值,表达式如下:
4)计算论文历年被引频次的高低变化波动值,表达式如下:
式中,σ表示论文历年被引频次的高低变化波动值;
5)利用式(5)和(6),分别对论文历年被引频次的增长速率均值和高低变化波动值进行归一化;表达式如下:
e=argmin(x×10e>1) (6)
式中,x表示待进行归一化的变量,b的值为x的整数位的位数,e的值为使x成为整数时小数点右移的最小位数;
6)计算论文质量分值,表达式如下;
本发明的特点及有益效果:
本发明能够综合考虑论文被引频次历年高低变化的快慢程度和波动现象:论文历年被引频次的增长速率代表论文被引频次历年变化的快慢程度,论文历年被引频次的高低变化波动值代表论文被引频次历年变化的波动现象。本发明利用这两个因素可以对论文总被引频次产生一种正向或者负向的约束力,消除了技术研究热度、引用动机复杂等因素对论文被引频次提高的外界影响,以及避免了将人们主观感受融入论文质量的评价结果中,保证了结果的准确性和客观性,且***易于实现,对评估科研人员、期刊等学术主体的科研绩效、研究学科结构和重要性、确定核心期刊和会议、促进国家科技的良性发展及对科研工作的有效管理等方面具有重要的应用价值。。
附图说明
图1是本发明方法的整体流程图。
图2是本发明***的结构示意图。
具体实施方式
本发明提出一种论文质量的计算方法及***,下面结合附图和具体实施例对本发明进一步详细说明如下。
本发明提出一种论文质量的计算方法,整体流程如图1所示,包括以下步骤:
1)建立论文历年被引频次和被引年份的集合;
任意获取一篇论文,将该论文自发表后至今的每个年份均作为被引年份,将每个被引年份和和该被引年份对应的被引频次组成一个数据组,然后将该论文对应的所有数据组按按被引年份从小到大的顺序表示为一个有序集合p={(y1,c1),(y2,c2),…(yn,cn)}。其中,yi表示论文被引年份,yi需要按照由小到大排列;ci表示论文在yi年的被引频次;n表示论文的发表年数。
本实施例中,假设论文t在2015、2016、2017、2018、2019年的被引频次分别为20、50、40、60、70。论文t的集合表示为p={(2015,20),(2016,50),(2017,40),(2018,60),(2019,70)}。
2)计算论文总被引频次;
通过对论文的历年被引频次累加求和,来获得论文的总被引频次,计算方法如公式(1)所示。
在公式(1)中,f表示论文的总被引频次,ci表示论文在第yi年的被引频次。
本实施例中,根据公式(1),论文t的总被引频次为f=20+50+40+60+70=240。
3)计算论文历年被引频次的增长速率及均值;
根据步骤1)得到的集合,计算论文的被引频次在相邻两年的增长速率。具体步骤为:
3-1)根据步骤1)产生的集合中的论文被引频次和被引年份;
计算论文在相邻两年的被引频次增长速率,计算方法如公式(2)所示。
3-2)根据公式(2)的计算结果,计算论文历年被引频次增长速率均值,计算方法如公式(3)所示。
在公式(3)中,表示论文历年被引频次增长速率的均值。n表示论文的发表年数。
4)计算论文历年被引频次的高低变化波动值;
根据步骤3)中获取的论文历年被引频次增长速率及均值,获取论文的历年被引频次发生高低变化的波动值,计算方法如公式(4)所示。
在公式(4)中,σ表示论文历年被引频次的高低变化波动值。根据公式(4),本实施例中,论文t的历年被引频次的高低变化波动值为:
5)分别归一化论文历年被引频次的增长速率和高低变化波动值;
考虑到论文历年被引频次的增长速率均值和高低变化波动值σ的量级相差很大,为了能够保证这两个因素对论文质量发挥同等级的作用,方便后续论文质量分值的计算,本发明设计了一种归一化方法,将和σ映射到(0,1)区间,计算方法如公式(5)所示。该方法的优势是在不使用其他论文的和σ的情况下,可以保证不同论文的和σ在归一化后的值与原值顺序一致,避免了将噪音引入论文质量的计算中,从而有助于论文质量计算的准确性。
e=argmin(x×10e>1) (6)
在公式(5)中,x表示待进行归一化的变量(这里代表或者σ),b的值为x的整数位的位数。
本实施例中,针对论文t的值(12.5),使用公式(5)可以得到b=2,g(12.5)=0.2125。e的值是使x成为整数,需要小数点右移的最小位数,计算方法如公式(6)所示。假设x=0.23,则e=1,g(0.23)=0.023。
6)计算论文质量分值;
根据论文的总被引频次、历年被引频次的增长速率和高低变化波动值,计算论文的质量分值,计算方法如公式(7)所示。
本实施例中,根据公式(7),论文t的质量分值为pi=[1+0.7×0.2125-0.3×0.21479]×240=260.23512。
针对同一学科领域的论文,通过本发明方法计算得出的质量分值越高则代表该论文的质量越高。
本发明提出一种基于上述方法的论文质量计算***,结构如图2所示,包括:论文抓取模块、预处理模块和论文质量计算模块。所述论文抓取模块的输出端连接预处理模块的输入端,预处理模块的输出端连接论文质量计算模块的输入端。
所述论文抓取模块用于使用网络爬虫方法获取待计算质量的论文信息及该论文对应的施引论文信息并发送给预处理模块。
预处理模块用于根据从论文抓取模块接收的信息,统计待计算质量论文的历年被引频次和被引年份并发送给论文质量计算模块。
论文质量计算模块用于根据从预处理模块接收的待计算质量论文的历年被引频次和被引年份,利用本发明方法计算待评价论文的质量分值。
作为优选,论文抓取模块获取的待计算质量的论文信息包括论文的标题和作者,使用网络爬虫从学术网站抓取该论文的施引论文信息,抓取的施引论文信息包括施引论文的标题和发表时间。
作为优选,预处理模块根据施引论文的发表时间,统计待评价论文的历年被引频次和被引年份。
本实施例中,论文t具有240篇施引论文,其中2015年发表的施引论文数量为20,2016年发表的施引论文数量为50,2017年发表的施引论文数量为40,2018年发表的施引论文数量为60,2019年发表的施引论文数量为70。则论文t在2015、2016、2017、2018、2019年的被引频次分别为20、50、40、60、70。
作为优选,论文质量计算模块由彼此相互连接的论文历年被引频次和被引年份的集合表示单元、论文总被引频次计算单元、论文历年被引频次的增长速率计算单元、论文历年被引频次的高低变化波动值计算单元、论文历年被引频次的增长速率和高低变化波动值归一化表示单元组成;
论文历年被引频次和被引年份的集合表示单元根据预处理模块的输出结果,将论文的历年被引频次和被引年份表示为有序集合;
论文总被引频次计算单元根据论文历年被引频次和被引年份的集合表示单元的反馈结果统计总被引频次;
论文历年被引频次的增长速率计算单元根据论文历年被引频次和被引年份的集合表示单元的反馈结果,计算论文在相邻两年的被引频次增长速率,以及增长速率均值;
论文历年被引频次的高低变化波动值计算单元根据论文历年被引频次的增长速率计算单元的反馈结果,计算论文历年被引频次的高低变化波动值;
论文历年被引频次的增长速率和高低变化波动值归一化表示单元用于对论文历年被引频次的增长速率计算单元和论文历年被引频次的高低变化波动值计算单元的反馈结果映射到(0,1)区间。
本发明的主要内容已通过上述优选实例作了详细介绍,应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (2)
1.一种论文质量的计算方法,其特征在于,包括以下步骤:
1)建立论文历年被引频次和被引年份的集合;
任意获取一篇论文,将该论文自发表后至今的每个年份均作为被引年份,将该论文的每个被引年份和和该被引年份对应的被引频次组成一个数据组,然后将该论文对应的所有数据组按被引年份从小到大的顺序表示为一个有序集合p={(y1,c1),(y2,c2),…(yn,cn)};
其中,yi表示论文被引年份,ci表示论文在yi年的被引频次;n表示论文的发表年数;
2)计算论文总被引频次,表达式如下:
式中,f表示论文的总被引频次;
3)计算论文历年被引频次的增长速率及均值;具体步骤如下:
3-1)计算论文在相邻两年的被引频次增长速率,表达式如下:
式中,ki表示论文在第i年的被引频次增长速率;
3-2)计算论文历年被引频次增长速率均值,表达式如下:
4)计算论文历年被引频次的高低变化波动值,表达式如下:
式中,σ表示论文历年被引频次的高低变化波动值;
5)利用式(5)和(6),分别对论文历年被引频次的增长速率均值和高低变化波动值进行归一化;表达式如下:
e=argmin(x×10e>1) (6)
式中,x表示待进行归一化的变量,b的值为x的整数位的位数,e的值为使x成为整数时小数点右移的最小位数;
6)计算论文质量分值,表达式如下;
2.一种基于如权利要求1所述方法的论文质量计算***,其特征在于,包括:论文抓取模块、预处理模块和论文质量计算模块;所述论文抓取模块的输出端连接预处理模块的输入端,预处理模块的输出端连接论文质量计算模块的输入端;
所述论文抓取模块用于获取待计算质量的论文信息及该论文对应的施引论文信息并发送给预处理模块;
预处理模块用于根据从论文抓取模块接收的信息,统计待计算质量论文的历年被引频次和被引年份并发送给论文质量计算模块;
论文质量计算模块用于根据从预处理模块接收的待计算质量论文的历年被引频次和被引年份,计算待评价论文的质量分值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911003528.3A CN110825942B (zh) | 2019-10-22 | 2019-10-22 | 一种论文质量的计算方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911003528.3A CN110825942B (zh) | 2019-10-22 | 2019-10-22 | 一种论文质量的计算方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825942A true CN110825942A (zh) | 2020-02-21 |
CN110825942B CN110825942B (zh) | 2021-06-29 |
Family
ID=69550019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911003528.3A Active CN110825942B (zh) | 2019-10-22 | 2019-10-22 | 一种论文质量的计算方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825942B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883148A (zh) * | 2021-01-15 | 2021-06-01 | 上海柏观数据科技有限公司 | 一种基于研究趋势匹配的学科人才评价控制方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080229828A1 (en) * | 2007-03-20 | 2008-09-25 | Microsoft Corporation | Establishing reputation factors for publishing entities |
CN101887460A (zh) * | 2010-07-14 | 2010-11-17 | 北京大学 | 一种文献质量评估方法及应用 |
CN102156706A (zh) * | 2011-01-28 | 2011-08-17 | 清华大学 | 一种指导者推荐***及方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐***和推荐方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN108132961A (zh) * | 2017-11-06 | 2018-06-08 | 浙江工业大学 | 一种基于引用预测的参考文献推荐方法 |
CN109146330A (zh) * | 2018-09-25 | 2019-01-04 | 浙江理工大学 | 一种科研机构的学术能力的评价方法 |
-
2019
- 2019-10-22 CN CN201911003528.3A patent/CN110825942B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080229828A1 (en) * | 2007-03-20 | 2008-09-25 | Microsoft Corporation | Establishing reputation factors for publishing entities |
CN101887460A (zh) * | 2010-07-14 | 2010-11-17 | 北京大学 | 一种文献质量评估方法及应用 |
CN102156706A (zh) * | 2011-01-28 | 2011-08-17 | 清华大学 | 一种指导者推荐***及方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐***和推荐方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN108132961A (zh) * | 2017-11-06 | 2018-06-08 | 浙江工业大学 | 一种基于引用预测的参考文献推荐方法 |
CN109146330A (zh) * | 2018-09-25 | 2019-01-04 | 浙江理工大学 | 一种科研机构的学术能力的评价方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883148A (zh) * | 2021-01-15 | 2021-06-01 | 上海柏观数据科技有限公司 | 一种基于研究趋势匹配的学科人才评价控制方法和装置 |
CN112883148B (zh) * | 2021-01-15 | 2023-03-28 | 博观创新(上海)大数据科技有限公司 | 一种基于研究趋势匹配的学科人才评价控制方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110825942B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101388024B (zh) | 一种基于复杂网络的压缩空间高效搜索方法 | |
WO2013138961A1 (zh) | 一种基于多触点归因模型的网络广告效果衡量方法和*** | |
Yang et al. | Using the comprehensive patent citation network (CPC) to evaluate patent value | |
CN105849764A (zh) | 用于识别社交数据网络中的影响者及其社区的***和方法 | |
CN102841929A (zh) | 一种综合用户和项目评分及特征因素的推荐方法 | |
CN110096499B (zh) | 一种基于行为时间序列大数据的用户对象识别方法及*** | |
Poirrier et al. | Robust h-index | |
Zhao et al. | Academic impact evaluation of Wechat in view of social media perspective | |
Verma et al. | An altmetric comparison of highly cited digital library publications of India and China | |
CN110825942B (zh) | 一种论文质量的计算方法及*** | |
Yang et al. | Difference in the impact of open-access papers published by China and the USA | |
Dobránszki et al. | Corrective factors for author-and journal-based metrics impacted by citations to accommodate for retractions | |
Wang et al. | Comprehensive measurement, spatiotemporal evolution, and spatial correlation analysis of high-quality development in the manufacturing industry | |
KR20110087636A (ko) | 온라인 네트워크 사용자의 평판도 산출 방법 및 장치 | |
Prathap | Evaluating journal performance metrics | |
Shen et al. | Measurement of the new economy in China: Big data approach | |
Karagiannis et al. | Assessing research effectiveness: a comparison of alternative nonparametric models | |
Gayan et al. | Citation analysis of Mathematics: a scientometric study based on PhD theses, Tripura University | |
Gou et al. | Encoding the citation life-cycle: the operationalization of a literature-aging conceptual model | |
Gervits et al. | Citation analysis and tenure metrics in art, architecture, and design-related disciplines | |
Liu et al. | Multi-views on Nature Index of Chinese academic institutions | |
Qin et al. | Assessing the quality of wikipedia pages using edit longevity and contributor centrality | |
Wang et al. | New approach of financial volatility duration dynamics by stochastic finite-range interacting voter system | |
CN114722295A (zh) | 一种基于互联网的技术推广***及方法 | |
Binfield | PLoS One: background, future development, and article-level metrics. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |