CN116127086B

CN116127086B - 基于科技文献资源的地理科学数据需求分析方法及装置

Info

Publication number: CN116127086B
Application number: CN202211476732.9A
Authority: CN
Inventors: 周昆; 邱琳; 李伊黎; 冯功学; 康昕怡; 孙端; 常中兵; 傅海鑫; 罗小梅; 王祯
Original assignee: SURVEYING AND MAPPING INSTITUTE LANDS AND RESOURCE DEPARTMENT OF GUANGDONG PROVINCE
Current assignee: SURVEYING AND MAPPING INSTITUTE LANDS AND RESOURCE DEPARTMENT OF GUANGDONG PROVINCE
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-09-19
Anticipated expiration: 2042-11-23
Also published as: CN116127086A

Abstract

本发明公开了一种基于科技文献资源的地理科学数据需求分析方法及装置，该方法主要包括文献资源数据库构建步骤、数据名称识别和标准化步骤、数据资源需求计算与分析步骤、以及科学知识图谱构建步骤。本发明通过利用科学数据与科技文献之间存在的密切联系，通过对大量科技文献资源进行梳理、统计分析和可视化表达，厘清科研工作者实际研究所采用的科学数据情况，***、科学、客观地总结地理科学研究对地理科学数据的需求，为数据采集、数据汇交和数据挖掘提供更加科学、针对性的指导和支撑。

Description

基于科技文献资源的地理科学数据需求分析方法及装置

技术领域

本发明涉及数据分析技术，具体涉及一种基于科技文献资源的地理科学数据需求分析方法及装置。

背景技术

地理科学数据是开展地理科学研究和创新发现的重要基础性战略资源，地理科学数据的综合利用对区域前沿基础研究、政府重大决策、产业高质量发展等具有关键支撑作用和重要意义。目前为止，在国家和区域科学数据中心体系中，建有与地理科学有关的数据中心包括：国家地球***科学数据中心、东北亚地理科学数据中心等，缺少针对华南特别是广东省的地理科学数据中心，并且当前地理科学数据的管理和使用存在数据分散、标准不一、重复投入等问题。因此，广东省科学技术厅于2022年推进建设广东省地理科学数据中心，实现地理科学数据高效汇交、管理和共享，然而，如何提供充足、优质和有价值的数据资源已成为提升数据中心服务水平和能力的重要基础。

目前，地理科学数据资源扩充以及数据需求分析主要采用以下方式：

(1)现有地理科学数据中心主要通过数据汇交的方式扩充数据资源，主要来源于：通过基础研究、应用研究、试验开发等产生的数据，以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据，缺少数据需求分析。

(2)采用调研表等形式向相关领域的科研工作者开展数据需求调研，了解领域内重点研究方向以及相关的数据资源需求。

上述现有技术主要存在以下的缺点：

(1)通过数据汇交的方式扩充数据资源，数据来源属于被动式获取，没有充分考虑到其他科学研究者对科学数据资源的需求，降低数据价值，加大人力物力成本的损耗，影响数据中心的服务能力和影响力。

(2)采用调研表等形式开展数据需求调研，该方法过度依赖于主观判断，形式单一、对象有限，不能全面反映地理学研究的数据需求，难以满足国内外科学研究的需要。

专利文献CN104899258A公开了面向海量文献信息可交互可视化分析***架构，该方案利用分类和聚类的思想对原始的海量数据进行计算处理，从而解决科技文献网络的分析结果缺乏图形化展示的问题，但该方案无法实现数据需求分析。

专利文献CN109255026A公开了一种基于共词分析和聚类分析的学习需求分析的方法，先从专题在线学习论坛导出数据，然后借助文字云清洗数据，再将清洗过的数据转换成具有EndNote格式的数据；在此基础上，应用共词分析方法得到其共词矩阵和共异矩阵；应用社会网络图谱分析方法构建其社会网络图谱；借助SPSS软件，并应用聚类方法获得其高频关键词的共词聚类的树状图；最后基于社会网络图谱和高频关键词的共词聚类树状图得到专题在线学习论坛的学习需求层级塔，为有针对性地为在线学习社区提供学习支持服务、答疑解惑、资源的组织和建设奠定基础。该方法主要是应用于学习需求分析，无法适用于数据需求分析。

发明内容

针对上述背景技术存在的问题，本发明将提供一种基于科技文献资源的地理科学数据需求分析方法及装置，利用科学数据与科技文献之间存在的密切联系，通过对大量科技文献资源进行梳理、统计分析和可视化表达，厘清科研工作者实际研究所采用的科学数据情况，***、科学、客观地总结地理科学研究对地理科学数据的需求，为数据采集、数据汇交和数据挖掘提供更加科学、针对性的指导和支撑。

为实现上述目的，本发明的技术方案是：

第一方面，本发明提供一种基于科技文献资源的地理科学数据需求分析方法，所述方法包括：

构建文献资源数据库；

对文献资源数据库中的文献进行分词处理和数据名称识别，并对同一篇文献中重复出现的数据名称进行去重处理，将数据名称存储到文献资源数据库中；

构建标准数据名称列表，通过数据名称匹配，将多样的、不统一的数据名称词汇，统一到规范的、唯一性的数据名称上，以便科学合理地为每一个数据资源统计其在科技文献中出现的频次数。

按照数据名称列表，进行数据名称的词频统计，利用科技文献总数和数据名称频数构建需求指数；

利用需求指数绘制数据名称云图；以词汇的大小表征数据需求的大小，并在各个数据资源的需求指数的基础上，结合时间信息绘制数据需求走势图；比较分析不同阶段的数据需求特征，以此反映出数据需求的变化规律和发展趋势，有助于数据中心提供更具有现势性的数据资源。

将不同关键词作为对象，根据关键词相似度进行聚类，使得语义关系相近的关键词聚在一起形成一个类团，并引入粘合力，用以衡量类团内每个关键词对类团聚集过程的贡献程度，选择类团中粘合力最大的词作为中心词，参考中心词对每个类团进行总结命名，获得主要研究方向；

基于文献资源数据库，通过对聚类结果形成的主要研究方向、关键词和数据资源名称进行数据融合和关系抽取，并计算各个研究方向中各类数据的需求指数，以数据需求指数为边，构建研究方向和数据资源的科学知识图谱。

进一步地，所述数据需求指数的计算公式为：

上式中，X_i是i数据的需求指数。N_i为i数据名称的频数，n为科技资源总数，为i数据名称的科技资源数量占科技资源总数的比例。

进一步地，所述粘合力的计算公式为：

式中，关键词A_i的粘合度用N(A_i)表示，E(A_i→A_j)表示关键词A_i与本类团中其余关键词的共现频次。

进一步地，所述构建文献资源数据库包括：

构建文献资源基础库：根据地理学科相关领域建立主题词库，以知识数据库科技文献资源为数据源，利用爬虫技术按照主题词进行出版物检索，进而获取相应的科技文献数据集，形成文献资源基础库；

构建关键词词集：对所有爬取到的科技文献的标题、关键词、摘要进行分词处理，删除结构性词汇，去除动词、形容词词性词汇，仅保留名词，并通过专业文献日常用词语料库匹配排除法，剔除日常用词，构建关键词词集；

文献资源库更新：按照关键词词集，以知识数据库科技文献资源为数据源，再次采用爬虫技术获取更多的相关科技文献信息，并将获得的标题、摘要、关键词和出版时间信息存储到数据库中。

进一步地，基于自然语言处理算法包的分词模块与实体词识别模块，对爬取到的标题、关键词、摘要数据进行分词处理和数据名称识别。

进一步地，对所述需求指数进行归一化处理，以便进行数据资源的需求比较分析，达到将数据资源需求进行量化的目的。

进一步地，利用浏览数据官方网站、查阅领域相关专著、咨询专家等方式来构建标准数据名称列表。

进一步地，所述数据需求走势图为数据需求年走势图。

第二方面，本发明提供一种基于科技文献资源的地理科学数据需求分析装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上任一所述方法的步骤。

第三方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明与现有技术相比，其有益效果在于：

发明提供的一种基于科技文献资源的地理科学数据需求分析方法，打破了调查表的形式需求调研的局限性，能够全面、客观分析科研工作者实际研究对地理科学数据的需求，为科学研究提供更加科学、针对性的指导和支撑。

本发明提供的一种基于科技文献资源的地理科学数据需求分析方法，针对性数据采集，按需进行数据采集和生产，优化人、物、财资源配置，节省资金，以最少资金获得最大收益，收益、数据利用最大化。

附图说明

图1为本发明实施例1提供的基于科技文献资源的地理科学数据需求分析方法的流程图；

图2为本发明实施例2提供的基于科技文献资源的地理科学数据需求分析装置的组成示意图。

具体实施方式

实施例：

下面结合附图和实施例对本发明的技术方案做进一步的说明。

参阅图1所示，本实施例提供的基于科技文献资源的地理科学数据需求分析方法主要包括如下几大步骤：

文献资源数据库构建步骤，包括：

(1)构建文献资源基础库：根据《学科分类与代码》(GB/T13745—2009)中经济地理作为主题词，以知网数据库的科技文献资源为数据源，利用爬虫技术按照主题词进行出版物检索，得到《经济地理》《中国地理学会经济地理专业委员会学术年会摘要集》《全国经济地理研究会第十二届学术年会暨“全球化与中国区域发展”研讨会论文集》等多个出版物，并将获取相应的科技文献数据集形成文献资源基础库；

(2)构建关键词词集：对所有爬取到的科技文献的标题、关键词、摘要进行分词处理，删除连词、介词、代词等结构性词汇，去除动词、形容词词性词汇，仅保留名词，并通过专业文献日常用词语料库匹配排除法，剔除日常用词，构建关键词词集；

(3)文献资源库更新：按照关键词词集，以知网数据库的科技文献资源为数据源，再次采用爬虫技术获取更多的相关科技文献信息，并将获得的标题、摘要、关键词和出版时间等信息存储到数据库中。

如此，通过上述子步骤能够以地理学为基础，获取与地理学领域相关的科技文献资源，不仅扩展科技文献资源搜索范围，也提高了科技文献爬取的效率。

数据名称词识别于标准化步骤，包括：

(1)数据名称识别

基于自然语言处理算法包的分词模块与实体词识别模块，对爬取到的文本标题、关键词、摘要数据进行分词处理和数据名称识别，并对同一篇文献中重复出现的数据名称进行去重处理，将数据名称存储到文献资源数据库中。

(2)数据名称标准化

利用浏览数据官方网站、查阅领域相关专著、咨询专家等方式，构建标准数据名称列表，通过数据名称匹配，将多样的、不统一的数据名称词汇，统一到规范的、唯一性的数据名称上，以便科学合理地为每一个数据资源统计其在科技文献中出现的频次数。

标准数据名称表示例

如此，通过上述子步骤来提取和规范化数据名称，为科技文献中数据资源统计和需求分析奠定基础。

数据资源需求计算与分析步骤，包括：

(1)数据需求计算

按照文献资源库中的数据名称列表，进行数据名称的词频统计，利用科技文献总数和数据名称频数构建需求指数，并进行归一化处理，以便进行数据资源的需求比较分析，达到将数据资源需求进行量化的目的，需求指数计算公式如下所示：

通过上述能够准确地确定需求指数。

(2)数据需求分析

利用数据需求指数绘制数据名称云图，以词汇的大小表征数据需求的大小，并在各个数据资源的需求指数的基础上，结合时间信息绘制数据需求年份走势图，比较分析不同阶段的数据需求特征，以此反映出数据需求的变化规律和发展趋势，有助于数据中心提供更具有现势性的数据资源。

如此，通过上述子步骤能够量化数据资源需求，以及分析数据需求特征，反映数据需求的变化规律和发展趋势的目的。

科学知识图谱构建步骤，包括：

(1)关键词聚类分析

将不同关键词作为对象，根据关键词相似度进行聚类，使得语义关系较为相近的关键词聚在一起形成一个类团，并引入粘合力思想，用以衡量类团内每个关键词对类团聚集过程的贡献程度，选择类团中粘合力最大的词作为中心词，参考中心词对每个类团进行总结命名，获得主要研究方向。粘合力计算公式为：

(2)图谱构建

基于文献资源数据库，通过对聚类结果形成的主要研究方向、关键词和数据资源名称进行数据融合和关系抽取，并计算各个研究方向中各类数据的需求指数，以数据需求指数为边，构建研究方向和数据资源的科学知识图谱，并分析不同时间窗口的知识图谱结构演化特征，研究各个研究方向的发展情况及数据需求变化情况。

如此，通过科技文献资源聚类形成的研究方向与数据资源的关系，统计分析不同研究方向的数据资源需求。

综上，本发明与现有技术相比具有如下技术优势：

实施例2：

参阅图2所示，本实施例提供的基于科技文献资源的地理科学数据需求分析装置包括处理器21、存储器22以及存储在该存储器22中并可在所述处理器21上运行的计算机程序23，例如基于科技文献资源的地理科学数据需求分析程序。该处理器21执行所述计算机程序23时实现上述实施例1步骤，例如图1所示的步骤。

示例性的，所述计算机程序23可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序23在所述基于科技文献资源的地理科学数据需求分析装置中的执行过程。

所述基于科技文献资源的地理科学数据需求分析装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于科技文献资源的地理科学数据需求分析装置可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，图2仅仅是基于科技文献资源的地理科学数据需求分析装置的示例，并不构成基于科技文献资源的地理科学数据需求分析装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于科技文献资源的地理科学数据需求分析装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器22可以是所述基于科技文献资源的地理科学数据需求分析装置的内部存储元，例如基于科技文献资源的地理科学数据需求分析装置的硬盘或内存。所述存储器22也可以是所述基于科技文献资源的地理科学数据需求分析装置的外部存储设备，例如所述基于科技文献资源的地理科学数据需求分析装置上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器22还可以既包括所述基于科技文献资源的地理科学数据需求分析装置的内部存储单元也包括外部存储设备。所述存储器22用于存储所述计算机程序以及所述基于科技文献资源的地理科学数据需求分析装置所需的其他程序和数据。所述存储器22还可以用于暂时地存储已经输出或者将要输出的数据。

实施例3：

本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

所示计算机可读介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理再以电子方式获得所述程序，然后将其存储在计算机存储器中。

上述实施例只是为了说明本发明的技术构思及特点，其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种基于科技文献资源的地理科学数据需求分析方法，其特征在于，所述方法包括：

构建文献资源数据库；

构建标准数据名称列表，通过数据名称匹配，将多样的、不统一的数据名称词汇，统一到规范的、唯一性的数据名称上；

利用需求指数绘制数据名称云图；以词汇的大小表征数据需求的大小，并在各个数据资源的需求指数的基础上，结合时间信息绘制数据需求走势图；

基于文献资源数据库，通过对聚类结果形成的主要研究方向、关键词和数据资源名称进行数据融合和关系抽取，并计算各个研究方向中各类数据的需求指数，以数据需求指数为边，构建研究方向和数据资源的科学知识图谱；

所述数据需求指数的计算公式为：

上式中，X_k是第k个数据名称的需求指数；N_k为第k个数据名称的频数，n为科技资源总数，为第k个数据名称的科技资源数量占科技资源总数的比例；

所述构建文献资源数据库包括：

构建文献资源基础库：根据地理学科相关领域建立主题词库，以知识数据库科技文献资源为数据源，利用爬虫技术按照主题词进行出版物检索，获取相应的科技文献数据集，形成文献资源基础库；

2.如权利要求1所述的基于科技文献资源的地理科学数据需求分析方法，其特征在于，所述粘合力的计算公式为：

3.如权利要求1所述的基于科技文献资源的地理科学数据需求分析方法，其特征在于，基于自然语言处理算法包的分词模块与实体词识别模块，对爬取到的标题、关键词、摘要数据进行分词处理和数据名称识别。

4.如权利要求1所述的基于科技文献资源的地理科学数据需求分析方法，其特征在于，对所述需求指数进行归一化处理。

5.如权利要求1所述的基于科技文献资源的地理科学数据需求分析方法，其特征在于，利用浏览数据官方网站、查阅领域相关专著、咨询专家来构建标准数据名称列表。

6.如权利要求1所述的基于科技文献资源的地理科学数据需求分析方法，其特征在于，所述数据需求走势图为数据需求年走势图。

7.一种基于科技文献资源的地理科学数据需求分析装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一所述方法的步骤。