CN111709238A

CN111709238A - 一种基于地学专家知识的网页地学相关性计算方法

Info

Publication number: CN111709238A
Application number: CN202010497002.1A
Authority: CN
Inventors: 李诗; 陈建平; 李志斌; 刘苏庆; 张亚光
Original assignee: China University of Geosciences Beijing
Current assignee: China University of Geosciences Beijing
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-25
Anticipated expiration: 2040-06-04
Also published as: CN111709238B

Abstract

本发明公开了一种基于地学专家知识的网页地学相关性计算方法,包括以下步骤：1、利用发现算法获取网页数据；2、数据预处理；3、计算网页数据与关键词集合的相关度；4、引入关键词集合频率向量；5、形成网页数据‑关键词权值矩阵。本发明的优点是：可依据客观的专家叙词表知识树代替用户进行相关词的选取以及相关性量化，解决了传统相关性计算方法的局限性问题，同时专家团队总结的知识结构树可以有效避免在普通研究者人工寻找关键词进行相关性计算时可能出现的对部分关键词的遗漏。

Description

一种基于地学专家知识的网页地学相关性计算方法

技术领域

本发明涉及地学数据计算技术领域，特别涉及一种基于地学专家知识的网页地学相关性计算方法。

背景技术

近年来，以大数据为首的互联网技术是当前信息化领域的重要内容和技术手段，各行业都在积极研究大数据在该领域的应用。同样，地质行业的发展也需要大数据等相关信息技术的支持与应用。大数据时代的到来就是要改变以“经验” 为主的传统思维方式，“用数据说话、从数据中找答案、用数据决策与创新”是今后地质行业发展的主旋律(陈建平，李婧，崔宁,，等.大数据背景下地质云的构建与应用.地质通报,2015,34(7):1260-1265)。

如何充分利用已有的地质文本大数据，在海量的数据中及时、全面的获取所需地质信息，分析、挖掘出数据之中潜在知识与价值，也就是进行大数据挖掘工作，是当今地质大数据应用的重要任务。根据地质领域数据管理、存储与产权等方面，可将地质数据其分为三类，即核心数据、邻域数据和公共数据(李婧，陈建平，王翔.地质大数据存储技术.地质通报,2015,34(8):1589-1594)。地质公共数据是指互联网上各种与地质相关的数据资源，如各类地质领域相关门户网站发布的地质新闻、找矿成果、地调信息以及各类学术网站的地质文献资源等。

随着云计算、人工智能、深度学***，消除了数据“孤岛”，获得了大量的成果，给地质行业带来了前所未有的机遇。

由于互联网、移动网络技术的发展，每天发布的新闻、微博、图片等各种格式的数据呈***式增长，数据产生、存储、更新的速度越来越快，用户基于专题定制的个性化需求越来越突出，特别是在地质领域还没有具备地质主题功能的爬虫***，无法实现在互联网上采集与精选所需的地质数据。面对已有的海量数据，需要从广泛的数据海洋中精选到有价值的地质文本数据，才能进行精确的信息提取与知识挖掘。地质数据广泛的存在于广域网与局域网中，实现地质大数据的快速发现、定位和精选，必须要克服地质文本数据资源的多源性、海量性、复杂性和非结构化等特点。对于广域网地质数据，传统的搜索引擎方式难以高效、全面的查询、采集到关心的地质数据。

现有技术(如赵冰漫,王卫亚.基于相关性分析的网页学术性算法研究[J]. 电子测试,2018,(22):70-71.)利用词频判断相关性：通过输入关键词在网页中出现的次数进行网页与搜索目标的相关性排序。但是在科研实践中，研究者面对未知学科领域时在未接受***培训的情况下往往不能轻易获取专业词汇之间的相关性，利用词频判断相关性的方法具有局限性，不能客观反映实际情况。

本发明所用到的缩略语和关键术语定义

大数据挖掘：是从大数据中统计、分析、提取出潜在的信息知识，并将这些知识构建成具有智能化、关联化知识库，实现知识检索与计算。

专家知识结构树：专家团队提供的包含专业词汇及词汇间相关关系信息的树状图。

地质叙词表：叙词表亦称主题词表、检索词典，是用于标引、存储和检索文献的词典，是叙词法的具体体现。叙词表是将标引者和检索者使用的自然语言转换成规范化的叙词型主题检索语言的术语控制工具。

根据地学专家知识节点构建的地质叙词表：将专家团队提供的知识结构树根据上位类术语(BT)、优选术语(PT)、异性术语(VT)、相关术语(RT)、下位术语(NT)的词汇关系，构建包含上位词、下位词、相关词、族首词及同义词的地质叙词表。

逻辑结构树计算：通过计算机编程，将地质叙词表中各个序词根据规定词汇关系存成树状结构。将需搜索的关键词关键词与生成的逻辑结构树进行比对，将其在树中的相关词作为拓展检索词进行传统检索，用户可以从中获取不含关键词但与关键词密切相关的各类地学数据。

发明内容

本发明针对现有技术的缺陷，提供了一种基于地学专家知识的网页地学相关性计算方法，解决了现有技术中存在的缺陷。

为了实现以上发明目的，本发明采取的技术方案如下：

一种基于地学专家知识的网页地学相关性计算方法,包括以下步骤：

S1:网页数据提取；

S11：确认地质叙词表中获取的与检索主题的关联关键词，

S12：利用搜索引擎提供的API进行网页检索，

S13：获取网页链接的URLs；

S14：依以下步骤进行地质主题相关性判断

计算网页数据与地质主题词的相关度：

将具有知识层次结构关系的关键词集合看作一个文档D_i，当不考虑权重等因素时，网页数据D_j对地质主题词集合的相关度计算公式为

引入关键词集合频率向量：

从叙词表中获取带有权重的地质主题词集合k_i(i＝1,2,…m)网页文档C_j的相关度计算公式为：

REL_D＝A_title*W^t+B_content*W^t

A_title(A_j1,A_j2…A_jm)：k_i在网页D_j数据标题中出现的次数构成的向量

B_content(B_j1,B_j2…B_jm)：地质主题词k_i在文档C_j中出现的次数构成的向量

W(W₁,W₂,…W_m)：关键词组成权重向量

形成网页数据-地质主题词权值矩阵：

通过计算每个网页数据的关键词权值总和，并根据实际应用需求确定权值阈值，实现对网页主题的相关性判断，形成网页数据-地质主题词权值矩阵:

Q：位置调节参数，关键词在标题中出现比在摘要中出现更具有相关性。

W(W₁,W₂,…W_m)：地质主题词组成权重向量，优选术语、异形术语取值为1；上位类术语取值为0.5；下位类术语取值为0.8；相关术语取值为0.5。

Q与W的取值可以根据实际采集数据量的需求情况调整。

S15：确定权重阈值：根据实际应用需求确定，当相关性超过阈值地网页数量过多时适当调高阈值，过少时适当调低阈值；

S16：利用python中的beautiful soup库进行网页数据爬取。

S2:数据预处理,将发现算法采集到的网页数据进行清洗；

S21:重复性检查主要是针对名称、大小信息进行检测，去除相同的文件；

S22:内容以及质量检查,通过人工确认的方式实现，确保最终上传的数据满足要求，最终得到用于计算相关性的内容包括：标题、摘要和链接地址。

S3:计算网页数据与关键词集合的相关度；

将具有知识层次结构关系的关键词集合看作一个文档D_i，当不考虑权重等因素时，网页数据D_j对关键词集合的相关度计算公式为

k：从将专家知识结构树整理成的地质叙词表中获取的与检索主题的关联关键词在文档D_i中的序号

m：地质叙词表中与检索主题相关词的数量

d_kj：序号k对应关键词出现在文档D_j中的次数

S4:引入关键词集合频率向量；

从叙词表中获取带有权重的关键词集合k_i(i＝1,2,…m)网页文档C_j的相关度计算公式为：

REL_D＝A_title*W^t+B_content*W^t

B_content(B_j1,B_j2…B_jm)：关键词k_i在文档C_j中出现的次数构成的向量

W(W₁,W₂,…W_m)：关键词组成权重向量

S5：形成网页数据-关键词权值矩阵；

通过计算每个网页数据的关键词权值总和，并根据实际应用需求确定权值阈值，实现对网页主题的相关性判断，形成网页数据-关键词权值矩阵:

W(W₁,W₂,…W_m)：关键词组成权重向量，优选术语、异形术语取值为1；上位类术语取值为0.5；下位类术语取值为0.8；相关术语取值为0.5。

Q与W的取值可以根据实际采集数据量的需求情况调整。

与现有技术相比，本发明的优点在于：

可依据客观的专家叙词表知识树代替用户进行相关词的选取以及相关性量化，解决了传统相关性计算方法的局限性问题，同时专家团队总结的知识结构树可以有效避免在普通研究者人工寻找关键词进行相关性计算时可能出现的对部分关键词的遗漏。

附图说明

图1为本发明实施例网页数据提取流程图；

图2为本发明实施例网页数据清洗流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

1、通过如图1所示的流程进行迭代；

将专家知识结构树整理的地质叙词表中获取的与检索主题的关联关键词，利用任意一款主流搜索引擎(如Google、百度、必应等)提供的API进行网页检索，利用python中的beautiful soup库进行网页数据爬取：

地质主题相关性判断：引入地质主题词集合频率向量计算网页数据与地质主题词集合的相关度，形成网页数据-地质主题词权值矩阵，判断相关性。

权重阈值：根据实际应用需求确定，当相关性超过阈值地网页数量过多时适当调高阈值，过少时适当调低阈值。

2、数据预处理；

如图2所示，将发现算法采集到的网页数据进行清洗：

重复性检查主要是针对名称、大小等信息进行检测，去除相同的文件(例如同名不同存储位置的相同文件，或者是不同名、不同阶段状态的同一文件等)。内容以及质量检查则是根据任务需要确定的。该功能需通过人工确认的方式实现，确保最终上传的数据满足要求，最终得到用于计算相关性的内容，包括：标题、摘要、链接地址。

3、计算网页数据与关键词集合的相关度；

m：地质叙词表中与检索主题相关词的数量

d_kj：序号k对应关键词出现在文档D_j中的次数

4、引入关键词集合频率向量；

REL_D＝A_title*W^t+B_content*W^t

W(W₁,W₂,…W_m)：关键词组成权重向量

5、形成网页数据-关键词权值矩阵

Q与W的取值可以根据实际采集数据量的需求情况调整。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于地学专家知识的网页地学相关性计算方法,其特征在于，包括以下步骤：

S1:网页数据提取；

S11：确认地质叙词表中获取的与检索主题的关联关键词，

S12：利用搜索引擎提供的API进行网页检索，

S13：获取网页链接的URLs；

S14：依以下步骤进行地质主题相关性判断

计算网页数据与地质主题词的相关度：

引入关键词集合频率向量：

REL_D＝A_title*W^t+B_content*W^t

W(W₁,W₂,…W_m)：关键词组成权重向量

形成网页数据-地质主题词权值矩阵：

Q：位置调节参数，关键词在标题中出现比在摘要中出现更具有相关性；

W(W₁,W₂,…W_m)：地质主题词组成权重向量，优选术语、异形术语取值为1；上位类术语取值为0.5；下位类术语取值为0.8；相关术语取值为0.5；

Q与W的取值可以根据实际采集数据量的需求情况调整；

S16：利用python中的beautiful soup库进行网页数据爬取；

S2:数据预处理,将发现算法采集到的网页数据进行清洗；

S22:内容以及质量检查,通过人工确认的方式实现，确保最终上传的数据满足要求，最终得到用于计算相关性的内容包括：标题、摘要和链接地址；

S3:计算网页数据与关键词集合的相关度；

m：地质叙词表中与检索主题相关词的数量

d_kj：序号k对应关键词出现在文档D_j中的次数

S4:引入关键词集合频率向量；

REL_D＝A_title*W^t+B_content*W^t

W(W₁,W₂,…W_m)：关键词组成权重向量

S5：形成网页数据-关键词权值矩阵；