CN111813951A - 一种基于技术图谱的关键点识别方法 - Google Patents

一种基于技术图谱的关键点识别方法 Download PDF

Info

Publication number
CN111813951A
CN111813951A CN202010559077.8A CN202010559077A CN111813951A CN 111813951 A CN111813951 A CN 111813951A CN 202010559077 A CN202010559077 A CN 202010559077A CN 111813951 A CN111813951 A CN 111813951A
Authority
CN
China
Prior art keywords
technical
papers
centrality
key
indexes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010559077.8A
Other languages
English (en)
Inventor
华斌
宋平
陆启宇
张琪祁
赵三珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN202010559077.8A priority Critical patent/CN111813951A/zh
Publication of CN111813951A publication Critical patent/CN111813951A/zh
Priority to AU2020327352A priority patent/AU2020327352B2/en
Priority to PCT/CN2020/136036 priority patent/WO2021253758A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于技术图谱的关键点识别方法,包括:构建技术图谱;对所述技术图谱中的节点数据,进行中心度计算,得到关键节点;采用主成分分析法,对所述的节点数据的多个维度的技术指标进行简化;分析所述的关键节点与技术指标之间的关系,得到不同维度下的关键节点。与现有技术相比,本发明综合考虑了网络中心度指标和科技资源的文献计量,解决了识别技术图谱中关键节点指标的单一性和脱离实际等缺点,基于复杂网络技术的相关理论,对技术图谱的相关指标进行量化计算,有利于更加准确地识别关键节点,发现技术研究的走向或技术趋势性线索,为科技创新提供决策支持。

Description

一种基于技术图谱的关键点识别方法
技术领域
本发明涉及一种数据处理方法,尤其是涉及一种基于技术图谱的关键点识别方法。
背景技术
在技术图谱网络种,识别出网络中的关键节点,也即关键技术和热点技术,对于科创布局工作的展开有很大的辅助作用。传统的对于网络中的关键节点的讨论常存在于复杂网络的中心化问题和节点重要度评估上,通过实证方法度量网络的统计性质。单一运用上述某种测度指标或方法识别关键节点具有很强的片面性,每种测度指标或方法都只能从某一侧面反映节点在网络中的地位,不符合实际情况。在互联网飞速发展的时代,简单的测度指标组合无法满足现实需求,对识别关键点的准确性提出了更高的要求。
特别是现在网络的应用更加广泛,网络的应用具有更多的现实意义,单从理论角度的测量度指标不贴合实际,降低了识别关键节点的准确性。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于技术图谱的关键点识别方法,解决识别技术图谱中关键节点指标的单一性和脱离实际等问题。
本发明的目的可以通过以下技术方案来实现:
一种基于技术图谱的关键点识别方法,包括:
构建技术图谱;
对所述技术图谱中的节点数据,进行中心度计算,得到关键节点;
采用主成分分析法,对所述的节点数据的多个维度的技术指标进行简化;
分析所述的关键节点与技术指标之间的关系,得到不同维度下的关键节点。
所述的技术图谱根据多个网站和数据库的科技成果,采用实体、关系和属性的抽取方法,通过知识融合后构建。
所述的网站和数据库包括同方知网、国研网、自建资源库、研发机构数据、政策法规数据、行业动态数据、专利数据库、行业标准数据库中的至少一个。
所述的中心度包括度中心度、接近中心度和介数中心度。
所述的技术指标的维度包括项目水平维度、人才水平维度、科研成果水平维度。
所述的项目水平维度的技术指标包括项目总数、基金项目类别和科研经费投入。
所述的人才水平维度的技术指标包括人才平均年龄、人才平均学历和人才数量。
所述的科研成果水平维度中,科研成果包括论文、专利、和其他成果。
所述的论文相关的技术指标包括论文总数、被引总频次、核心期刊论文数、核心期刊被引总频次、基金论文数、基金被引总频次、核心期刊论文占比、核心期刊论文占比、总篇均被引频次、核心期刊篇均被引频次、基金篇均被引频次和H指数,专利相关的技术指标包括专利总数目和发明专利数目,其他成果相关的技术指标包括成果获奖、成果鉴定结果、标准数目、主编或副主编著作。
采用线性回归法分析所述的关键节点与技术指标之间的关系。
与现有技术相比,本发明综合考虑了网络中心度指标和科技资源的文献计量,解决了识别技术图谱中关键节点指标的单一性和脱离实际等缺点,基于复杂网络技术的相关理论,对技术图谱的相关指标进行量化计算,有利于更加准确地识别关键节点,发现技术研究的走向或技术趋势性线索,为科技创新提供决策支持。
附图说明
图1为本实施例基于技术图谱的关键点识别方法流程图;
图2为本实施例构建的技术图谱;
图3为本实施例各评价指标的累积贡献率曲线图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种基于技术图谱的关键点识别方法,包括以下步骤:
1)构建技术图谱
从同方知网、国研网、自建资源库、外部专家及研发机构数据,内部项目及科技成果数据,添加政策法规数据、行业动态数据、专利数据及行业标准数据中获取元数据,进行实体、关系和属性的抽取,对抽取的信息进行实体消歧和共指消解,抽取本体,构建技术图谱,如图2所示。
2)从复杂网络的统计指标角度考虑,基于度中心度、接近中心度、介数中心度等指标的大小来定位关键节点,具备高中介中心性和高频特性的节点,就是本领域内的关键技术,代表着这段时期的研究热点主题;
度中心度是一个节点与其他节点直接连接的总和。由于技术图谱的连接是有方向的,则可分为点入中心度和点出中心度。结合点入中心度和点出中心度综合考虑,节点的度中心度的计算公式为:
Figure BDA0002545628780000031
其中u是一个节点,n是图中节点的个数,Xvu表示节点v与u之间之间是否直接相连。中心度是网络分析中刻画节点中心性的最直接度量指标,它反映了一个节点的凝聚力。一个节点的度中心性越高,该节点在网络中就越重要;
接近中心度是一个节点到所有其他节点的最短路径距离之和的倒数。它反映网络中某一节点与其他节点之间的接近程度。节点的接近中心度标准化计算公式为:
Figure BDA0002545628780000032
其中u是一个节点,n是图中节点的个数,d(u,v)是另一个节点v与u之间最短的路径距离。由于技术图谱的连接是有方向的,则可分为入接近中心度和出接近中心度。入接近中心度反映节点的整合力,出接近中心度反映节点的辐射力;
介数中心度是经过一个节点的最短路径的数目。即一个结点担任其它任意两个结点之间最短路径的桥梁的次数。节点介数中心度计算公式为:
Figure BDA0002545628780000033
Figure BDA0002545628780000034
其中,u是一个节点,p是节点s和t之间最短路径的总数,p(u)是节点s和t之间通过节点u的最短路径数。一个结点充当“中介”的次数越高,它的介数中心度就越大,它在网络中起到“交通枢纽”的作用。
3)基于科技资源的文献计量,从科研投入、科研成果两个方面入手;
科研投入又分为科研项目和人才梯队,科研项目包括项目总数、基金项目和科研经费投入,人才梯队又包括人才平均年龄、人才平均学历和人才数量;
科研成果包括论文、专利、标准、专著和成果,其中,论文需要考虑的因素是论文总数、被引总频次、核心期刊论文数、核心期刊被引总频次、基金论文数、基金被引总频次、核心期刊论文占比、核心期刊论文占比、总篇均被引频次、核心期刊篇均被引频次、基金篇均被引频次和H指数,专利包括专利总数目和发明专利数目,成果包括成果获奖和成果鉴定,还有标准数目、主编或者副主编著作等;
4)通过主成分分析将2)和3)中定义的多维度的评估指标转化为相互独立的综合评估指标,消除评估指标间的相关性,简化评估节点关键性的指标数。
本发明对200项技术在科技资料中的共现关系构建了技术图谱,从网络拓扑结构、项目水平、人才水平和科研成果这几个维度来评估节点的关键性。分别计算每项技术对应的27项评估指标,构成一个200*27的矩阵,对该矩阵进行主成分分析,得到特征根、贡献率和累积贡献率,其累积贡献率如图3所示:
从图中可以看出,前5个主成分的累计贡献率达到90.79%。因此只选取前5个主成分可以充分代表27个评估指标所含的信息。通过计算前5个主成分对应的原指标权重值矩阵与评估指标矩阵的乘积,可以将评价矩阵约简为200*5。
5)利用线性回归表达式,以前5个主成分的贡献率作为主成分的权重,可以得到节点关键性的综合数值。基于4)的结果,得到评价节点关键性的综合函数:
Z=0.3284*y1+0.1531*y2+0.2157*y3+0.1196*y4+0.0911*y5
通过函数计算,对得到的数值进行排序,可以得到关键节点,在网络以醒目的颜色加以标记,便于识别。另外对于研究领域、作者、研究机构等主体构成的网络也可以采用这种方法来识别网络中的关键节点节点。

Claims (10)

1.一种基于技术图谱的关键点识别方法,其特征在于,包括:
构建技术图谱;
对所述技术图谱中的节点数据,进行中心度计算,得到关键节点;
采用主成分分析法,对所述的节点数据的多个维度的技术指标进行简化;
分析所述的关键节点与技术指标之间的关系,得到不同维度下的关键节点。
2.根据权利要求1所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的技术图谱根据多个网站和数据库的科技成果,采用实体、关系和属性的抽取方法,通过知识融合后构建。
3.根据权利要求2所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的网站和数据库包括同方知网、国研网、自建资源库、研发机构数据、政策法规数据、行业动态数据、专利数据库、行业标准数据库中的至少一个。
4.根据权利要求1所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的中心度包括度中心度、接近中心度和介数中心度。
5.根据权利要求1所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的技术指标的维度包括项目水平维度、人才水平维度、科研成果水平维度。
6.根据权利要求5所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的项目水平维度的技术指标包括项目总数、基金项目类别和科研经费投入。
7.根据权利要求5所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的人才水平维度的技术指标包括人才平均年龄、人才平均学历和人才数量。
8.根据权利要求5所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的科研成果水平维度中,科研成果包括论文、专利、和其他成果。
9.根据权利要求8所述的一种基于技术图谱的关键点识别方法,其特征在于,所述的论文相关的技术指标包括论文总数、被引总频次、核心期刊论文数、核心期刊被引总频次、基金论文数、基金被引总频次、核心期刊论文占比、核心期刊论文占比、总篇均被引频次、核心期刊篇均被引频次、基金篇均被引频次和H指数,专利相关的技术指标包括专利总数目和发明专利数目,其他成果相关的技术指标包括成果获奖、成果鉴定结果、标准数目、主编或副主编著作。
10.根据权利要求1所述的一种基于技术图谱的关键点识别方法,其特征在于,采用线性回归法分析所述的关键节点与技术指标之间的关系。
CN202010559077.8A 2020-06-18 2020-06-18 一种基于技术图谱的关键点识别方法 Pending CN111813951A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010559077.8A CN111813951A (zh) 2020-06-18 2020-06-18 一种基于技术图谱的关键点识别方法
AU2020327352A AU2020327352B2 (en) 2020-06-18 2020-12-14 Key node identification method based on technology graph
PCT/CN2020/136036 WO2021253758A1 (zh) 2020-06-18 2020-12-14 一种基于技术图谱的关键点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010559077.8A CN111813951A (zh) 2020-06-18 2020-06-18 一种基于技术图谱的关键点识别方法

Publications (1)

Publication Number Publication Date
CN111813951A true CN111813951A (zh) 2020-10-23

Family

ID=72845160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010559077.8A Pending CN111813951A (zh) 2020-06-18 2020-06-18 一种基于技术图谱的关键点识别方法

Country Status (3)

Country Link
CN (1) CN111813951A (zh)
AU (1) AU2020327352B2 (zh)
WO (1) WO2021253758A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021253758A1 (zh) * 2020-06-18 2021-12-23 国网上海市电力公司 一种基于技术图谱的关键点识别方法
WO2023207013A1 (zh) * 2022-04-26 2023-11-02 广州广电运通金融电子股份有限公司 一种基于图嵌入的关系图谱关键人员分析方法及***

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417837B (zh) * 2022-01-19 2024-02-13 合肥工业大学 基于主题演化趋势的科技大数据流行性及前沿性度量方法
CN114567562B (zh) * 2022-03-01 2024-02-06 重庆邮电大学 一种电网与通信网耦合网络关键节点识别的方法
CN116595192B (zh) * 2023-05-18 2023-11-21 中国科学技术信息研究所 科技前沿信息获取方法、装置、电子设备和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295692A (zh) * 2016-08-05 2017-01-04 北京航空航天大学 基于降维与支持向量机的产品早期故障根原因识别方法
CN109446342A (zh) * 2018-10-30 2019-03-08 沈阳师范大学 一种基于赫希曼指数的中小学教育知识图谱分析方法及***
CN110490331A (zh) * 2019-08-23 2019-11-22 北京明略软件***有限公司 知识图谱中节点的处理方法及装置
WO2020048058A1 (zh) * 2018-09-03 2020-03-12 平安科技(深圳)有限公司 基金知识推理方法、***、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009076728A1 (en) * 2007-12-17 2009-06-25 Leximancer Pty Ltd Methods for determining a path through concept nodes
CN110032665B (zh) * 2019-03-25 2023-11-17 创新先进技术有限公司 确定关系网络图中图节点向量的方法及装置
CN111813951A (zh) * 2020-06-18 2020-10-23 国网上海市电力公司 一种基于技术图谱的关键点识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295692A (zh) * 2016-08-05 2017-01-04 北京航空航天大学 基于降维与支持向量机的产品早期故障根原因识别方法
WO2020048058A1 (zh) * 2018-09-03 2020-03-12 平安科技(深圳)有限公司 基金知识推理方法、***、计算机设备和存储介质
CN109446342A (zh) * 2018-10-30 2019-03-08 沈阳师范大学 一种基于赫希曼指数的中小学教育知识图谱分析方法及***
CN110490331A (zh) * 2019-08-23 2019-11-22 北京明略软件***有限公司 知识图谱中节点的处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021253758A1 (zh) * 2020-06-18 2021-12-23 国网上海市电力公司 一种基于技术图谱的关键点识别方法
WO2023207013A1 (zh) * 2022-04-26 2023-11-02 广州广电运通金融电子股份有限公司 一种基于图嵌入的关系图谱关键人员分析方法及***

Also Published As

Publication number Publication date
AU2020327352A1 (en) 2022-01-20
WO2021253758A1 (zh) 2021-12-23
AU2020327352B2 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
CN111813951A (zh) 一种基于技术图谱的关键点识别方法
US10380265B2 (en) Statistical process control and analytics for translation supply chain operational management
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
US20060106755A1 (en) Tracking usage of data elements in electronic business communications
Ji et al. Complexity analysis approach for prefabricated construction products using uncertain data clustering
KR20160104064A (ko) 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템
CN106056287A (zh) 基于上下文对数据集进行数据质量评估的设备及方法
CN105868956A (zh) 一种数据处理方法及装置
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
Reda et al. Towards a data quality assessment in big data
Yanhui et al. A comparative study of first and all-author bibliographic coupling analysis based on Scientometrics
CN111143394A (zh) 知识数据处理方法、装置、介质及电子设备
Qureshi et al. OpenRank–a novel approach to rank universities using objective and publicly verifiable data sources
CN107798137B (zh) 一种基于可加模型的多源异构数据融合架构***
Shi et al. [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering
CN112990575A (zh) 基于知识图谱的产业发展路径预测方法及其装置
Chen et al. [Retracted] Credibility Analysis of Accounting Cloud Service Based on Complex Network
CN115827994A (zh) 一种数据处理方法、装置、设备、存储介质
Liu et al. Application of master data classification model in enterprises
US6823294B1 (en) Method and system for measuring circuit design capability
Soheili et al. An evaluation of information behaviour studies through the Scholarly Capital Model
Li et al. Research on optimization of process parameters of traditional Chinese medicine based on data mining technology
Wang et al. A data quality improvement method based on the greedy algorithm
Qu et al. Research on identification of key processes in machining process based on PageRank algorithm
Sikdar et al. On the effectiveness of the scientific peer-review system: a case study of the Journal of High Energy Physics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination