CN111709238A - 一种基于地学专家知识的网页地学相关性计算方法 - Google Patents

一种基于地学专家知识的网页地学相关性计算方法 Download PDF

Info

Publication number
CN111709238A
CN111709238A CN202010497002.1A CN202010497002A CN111709238A CN 111709238 A CN111709238 A CN 111709238A CN 202010497002 A CN202010497002 A CN 202010497002A CN 111709238 A CN111709238 A CN 111709238A
Authority
CN
China
Prior art keywords
data
geological
vector
term
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010497002.1A
Other languages
English (en)
Other versions
CN111709238B (zh
Inventor
李诗
陈建平
李志斌
刘苏庆
张亚光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences Beijing
Original Assignee
China University of Geosciences Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences Beijing filed Critical China University of Geosciences Beijing
Priority to CN202010497002.1A priority Critical patent/CN111709238B/zh
Publication of CN111709238A publication Critical patent/CN111709238A/zh
Application granted granted Critical
Publication of CN111709238B publication Critical patent/CN111709238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于地学专家知识的网页地学相关性计算方法,包括以下步骤:1、利用发现算法获取网页数据;2、数据预处理;3、计算网页数据与关键词集合的相关度;4、引入关键词集合频率向量;5、形成网页数据‑关键词权值矩阵。本发明的优点是:可依据客观的专家叙词表知识树代替用户进行相关词的选取以及相关性量化,解决了传统相关性计算方法的局限性问题,同时专家团队总结的知识结构树可以有效避免在普通研究者人工寻找关键词进行相关性计算时可能出现的对部分关键词的遗漏。

Description

一种基于地学专家知识的网页地学相关性计算方法
技术领域
本发明涉及地学数据计算技术领域,特别涉及一种基于地学专家知识的网页 地学相关性计算方法。
背景技术
近年来,以大数据为首的互联网技术是当前信息化领域的重要内容和技术手 段,各行业都在积极研究大数据在该领域的应用。同样,地质行业的发展也需要 大数据等相关信息技术的支持与应用。大数据时代的到来就是要改变以“经验” 为主的传统思维方式,“用数据说话、从数据中找答案、用数据决策与创新”是 今后地质行业发展的主旋律(陈建平,李婧,崔宁,,等.大数据背景下地质云的 构建与应用.地质通报,2015,34(7):1260-1265)。
如何充分利用已有的地质文本大数据,在海量的数据中及时、全面的获取所 需地质信息,分析、挖掘出数据之中潜在知识与价值,也就是进行大数据挖掘工 作,是当今地质大数据应用的重要任务。根据地质领域数据管理、存储与产权等 方面,可将地质数据其分为三类,即核心数据、邻域数据和公共数据(李婧,陈 建平,王翔.地质大数据存储技术.地质通报,2015,34(8):1589-1594)。 地质公共数据是指互联网上各种与地质相关的数据资源,如各类地质领域相关门 户网站发布的地质新闻、找矿成果、地调信息以及各类学术网站的地质文献资源 等。
随着云计算、人工智能、深度学***,消 除了数据“孤岛”,获得了大量的成果,给地质行业带来了前所未有的机遇。
由于互联网、移动网络技术的发展,每天发布的新闻、微博、图片等各种格 式的数据呈***式增长,数据产生、存储、更新的速度越来越快,用户基于专题 定制的个性化需求越来越突出,特别是在地质领域还没有具备地质主题功能的爬 虫***,无法实现在互联网上采集与精选所需的地质数据。面对已有的海量数据, 需要从广泛的数据海洋中精选到有价值的地质文本数据,才能进行精确的信息提 取与知识挖掘。地质数据广泛的存在于广域网与局域网中,实现地质大数据的快 速发现、定位和精选,必须要克服地质文本数据资源的多源性、海量性、复杂性 和非结构化等特点。对于广域网地质数据,传统的搜索引擎方式难以高效、全面 的查询、采集到关心的地质数据。
现有技术(如赵冰漫,王卫亚.基于相关性分析的网页学术性算法研究[J]. 电子测试,2018,(22):70-71.)利用词频判断相关性:通过输入关键词在网页中 出现的次数进行网页与搜索目标的相关性排序。但是在科研实践中,研究者面对 未知学科领域时在未接受***培训的情况下往往不能轻易获取专业词汇之间的相 关性,利用词频判断相关性的方法具有局限性,不能客观反映实际情况。
本发明所用到的缩略语和关键术语定义
大数据挖掘:是从大数据中统计、分析、提取出潜在的信息知识,并将这些 知识构建成具有智能化、关联化知识库,实现知识检索与计算。
专家知识结构树:专家团队提供的包含专业词汇及词汇间相关关系信息的树 状图。
地质叙词表:叙词表亦称主题词表、检索词典,是用于标引、存储和检索文 献的词典,是叙词法的具体体现。叙词表是将标引者和检索者使用的自然语言转 换成规范化的叙词型主题检索语言的术语控制工具。
根据地学专家知识节点构建的地质叙词表:将专家团队提供的知识结构树根 据上位类术语(BT)、优选术语(PT)、异性术语(VT)、相关术语(RT)、下 位术语(NT)的词汇关系,构建包含上位词、下位词、相关词、族首词及同义词 的地质叙词表。
逻辑结构树计算:通过计算机编程,将地质叙词表中各个序词根据规定词汇 关系存成树状结构。将需搜索的关键词关键词与生成的逻辑结构树进行比对,将 其在树中的相关词作为拓展检索词进行传统检索,用户可以从中获取不含关键词 但与关键词密切相关的各类地学数据。
发明内容
本发明针对现有技术的缺陷,提供了一种基于地学专家知识的网页地学相关 性计算方法,解决了现有技术中存在的缺陷。
为了实现以上发明目的,本发明采取的技术方案如下:
一种基于地学专家知识的网页地学相关性计算方法,包括以下步骤:
S1:网页数据提取;
S11:确认地质叙词表中获取的与检索主题的关联关键词,
S12:利用搜索引擎提供的API进行网页检索,
S13:获取网页链接的URLs;
S14:依以下步骤进行地质主题相关性判断
计算网页数据与地质主题词的相关度:
将具有知识层次结构关系的关键词集合看作一个文档Di,当不考虑权重等因 素时,网页数据Dj对地质主题词集合的相关度计算公式为
Figure BDA0002523275040000041
引入关键词集合频率向量:
从叙词表中获取带有权重的地质主题词集合ki(i=1,2,…m)网页文档Cj的 相关度计算公式为:
RELD=Atitle*Wt+Bcontent*Wt
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):地质主题词ki在文档Cj中出现的次数构成的向量
W(W1,W2,…Wm):关键词组成权重向量
形成网页数据-地质主题词权值矩阵:
通过计算每个网页数据的关键词权值总和,并根据实际应用需求确定权值阈 值,实现对网页主题的相关性判断,形成网页数据-地质主题词权值矩阵:
Figure BDA0002523275040000042
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):地质主题词ki在文档Cj中出现的次数构成的向量
Q:位置调节参数,关键词在标题中出现比在摘要中出现更具有相关性。
W(W1,W2,…Wm):地质主题词组成权重向量,优选术语、异形术语取值为1; 上位类术语取值为0.5;下位类术语取值为0.8;相关术语取值为0.5。
Q与W的取值可以根据实际采集数据量的需求情况调整。
S15:确定权重阈值:根据实际应用需求确定,当相关性超过阈值地网页数量 过多时适当调高阈值,过少时适当调低阈值;
S16:利用python中的beautiful soup库进行网页数据爬取。
S2:数据预处理,将发现算法采集到的网页数据进行清洗;
S21:重复性检查主要是针对名称、大小信息进行检测,去除相同的文件;
S22:内容以及质量检查,通过人工确认的方式实现,确保最终上传的数据满足 要求,最终得到用于计算相关性的内容包括:标题、摘要和链接地址。
S3:计算网页数据与关键词集合的相关度;
将具有知识层次结构关系的关键词集合看作一个文档Di,当不考虑权重等因 素时,网页数据Dj对关键词集合的相关度计算公式为
Figure BDA0002523275040000051
k:从将专家知识结构树整理成的地质叙词表中获取的与检索主题的关联关键 词在文档Di中的序号
m:地质叙词表中与检索主题相关词的数量
dkj:序号k对应关键词出现在文档Dj中的次数
S4:引入关键词集合频率向量;
从叙词表中获取带有权重的关键词集合ki(i=1,2,…m)网页文档Cj的相关 度计算公式为:
RELD=Atitle*Wt+Bcontent*Wt
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):关键词ki在文档Cj中出现的次数构成的向量
W(W1,W2,…Wm):关键词组成权重向量
S5:形成网页数据-关键词权值矩阵;
通过计算每个网页数据的关键词权值总和,并根据实际应用需求确定权值阈 值,实现对网页主题的相关性判断,形成网页数据-关键词权值矩阵:
Figure BDA0002523275040000061
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):关键词ki在文档Cj中出现的次数构成的向量
Q:位置调节参数,关键词在标题中出现比在摘要中出现更具有相关性。
W(W1,W2,…Wm):关键词组成权重向量,优选术语、异形术语取值为1;上 位类术语取值为0.5;下位类术语取值为0.8;相关术语取值为0.5。
Q与W的取值可以根据实际采集数据量的需求情况调整。
与现有技术相比,本发明的优点在于:
可依据客观的专家叙词表知识树代替用户进行相关词的选取以及相关性量 化,解决了传统相关性计算方法的局限性问题,同时专家团队总结的知识结构树 可以有效避免在普通研究者人工寻找关键词进行相关性计算时可能出现的对部分 关键词的遗漏。
附图说明
图1为本发明实施例网页数据提取流程图;
图2为本发明实施例网页数据清洗流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实 施例,对本发明做进一步详细说明。
1、通过如图1所示的流程进行迭代;
将专家知识结构树整理的地质叙词表中获取的与检索主题的关联关键词,利 用任意一款主流搜索引擎(如Google、百度、必应等)提供的API进行网页检索, 利用python中的beautiful soup库进行网页数据爬取:
地质主题相关性判断:引入地质主题词集合频率向量计算网页数据与地质主 题词集合的相关度,形成网页数据-地质主题词权值矩阵,判断相关性。
权重阈值:根据实际应用需求确定,当相关性超过阈值地网页数量过多时适 当调高阈值,过少时适当调低阈值。
2、数据预处理;
如图2所示,将发现算法采集到的网页数据进行清洗:
重复性检查主要是针对名称、大小等信息进行检测,去除相同的文件(例如 同名不同存储位置的相同文件,或者是不同名、不同阶段状态的同一文件等)。 内容以及质量检查则是根据任务需要确定的。该功能需通过人工确认的方式实现, 确保最终上传的数据满足要求,最终得到用于计算相关性的内容,包括:标题、 摘要、链接地址。
3、计算网页数据与关键词集合的相关度;
将具有知识层次结构关系的关键词集合看作一个文档Di,当不考虑权重等因 素时,网页数据Dj对关键词集合的相关度计算公式为
Figure BDA0002523275040000071
k:从将专家知识结构树整理成的地质叙词表中获取的与检索主题的关联关键 词在文档Di中的序号
m:地质叙词表中与检索主题相关词的数量
dkj:序号k对应关键词出现在文档Dj中的次数
4、引入关键词集合频率向量;
从叙词表中获取带有权重的关键词集合ki(i=1,2,…m)网页文档Cj的相关 度计算公式为:
RELD=Atitle*Wt+Bcontent*Wt
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):关键词ki在文档Cj中出现的次数构成的向量
W(W1,W2,…Wm):关键词组成权重向量
5、形成网页数据-关键词权值矩阵
通过计算每个网页数据的关键词权值总和,并根据实际应用需求确定权值阈 值,实现对网页主题的相关性判断,形成网页数据-关键词权值矩阵:
Figure BDA0002523275040000081
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):关键词ki在文档Cj中出现的次数构成的向量
Q:位置调节参数,关键词在标题中出现比在摘要中出现更具有相关性。
W(W1,W2,…Wm):关键词组成权重向量,优选术语、异形术语取值为1;上 位类术语取值为0.5;下位类术语取值为0.8;相关术语取值为0.5。
Q与W的取值可以根据实际采集数据量的需求情况调整。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解 本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和 实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不 脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保 护范围内。

Claims (1)

1.一种基于地学专家知识的网页地学相关性计算方法,其特征在于,包括以下步骤:
S1:网页数据提取;
S11:确认地质叙词表中获取的与检索主题的关联关键词,
S12:利用搜索引擎提供的API进行网页检索,
S13:获取网页链接的URLs;
S14:依以下步骤进行地质主题相关性判断
计算网页数据与地质主题词的相关度:
将具有知识层次结构关系的关键词集合看作一个文档Di,当不考虑权重等因素时,网页数据Dj对地质主题词集合的相关度计算公式为
Figure FDA0002523275030000011
引入关键词集合频率向量:
从叙词表中获取带有权重的地质主题词集合ki(i=1,2,…m)网页文档Cj的相关度计算公式为:
RELD=Atitle*Wt+Bcontent*Wt
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):地质主题词ki在文档Cj中出现的次数构成的向量
W(W1,W2,…Wm):关键词组成权重向量
形成网页数据-地质主题词权值矩阵:
通过计算每个网页数据的关键词权值总和,并根据实际应用需求确定权值阈值,实现对网页主题的相关性判断,形成网页数据-地质主题词权值矩阵:
Figure FDA0002523275030000021
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):地质主题词ki在文档Cj中出现的次数构成的向量
Q:位置调节参数,关键词在标题中出现比在摘要中出现更具有相关性;
W(W1,W2,…Wm):地质主题词组成权重向量,优选术语、异形术语取值为1;上位类术语取值为0.5;下位类术语取值为0.8;相关术语取值为0.5;
Q与W的取值可以根据实际采集数据量的需求情况调整;
S15:确定权重阈值:根据实际应用需求确定,当相关性超过阈值地网页数量过多时适当调高阈值,过少时适当调低阈值;
S16:利用python中的beautiful soup库进行网页数据爬取;
S2:数据预处理,将发现算法采集到的网页数据进行清洗;
S21:重复性检查主要是针对名称、大小信息进行检测,去除相同的文件;
S22:内容以及质量检查,通过人工确认的方式实现,确保最终上传的数据满足要求,最终得到用于计算相关性的内容包括:标题、摘要和链接地址;
S3:计算网页数据与关键词集合的相关度;
将具有知识层次结构关系的关键词集合看作一个文档Di,当不考虑权重等因素时,网页数据Dj对关键词集合的相关度计算公式为
Figure FDA0002523275030000022
k:从将专家知识结构树整理成的地质叙词表中获取的与检索主题的关联关键词在文档Di中的序号
m:地质叙词表中与检索主题相关词的数量
dkj:序号k对应关键词出现在文档Dj中的次数
S4:引入关键词集合频率向量;
从叙词表中获取带有权重的关键词集合ki(i=1,2,…m)网页文档Cj的相关度计算公式为:
RELD=Atitle*Wt+Bcontent*Wt
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):关键词ki在文档Cj中出现的次数构成的向量
W(W1,W2,…Wm):关键词组成权重向量
S5:形成网页数据-关键词权值矩阵;
通过计算每个网页数据的关键词权值总和,并根据实际应用需求确定权值阈值,实现对网页主题的相关性判断,形成网页数据-关键词权值矩阵:
Figure FDA0002523275030000031
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):关键词ki在文档Cj中出现的次数构成的向量
Q:位置调节参数,关键词在标题中出现比在摘要中出现更具有相关性;
W(W1,W2,…Wm):关键词组成权重向量,优选术语、异形术语取值为1;上位类术语取值为0.5;下位类术语取值为0.8;相关术语取值为0.5。
CN202010497002.1A 2020-06-04 2020-06-04 一种基于地学专家知识的网页地学相关性计算方法 Active CN111709238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010497002.1A CN111709238B (zh) 2020-06-04 2020-06-04 一种基于地学专家知识的网页地学相关性计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010497002.1A CN111709238B (zh) 2020-06-04 2020-06-04 一种基于地学专家知识的网页地学相关性计算方法

Publications (2)

Publication Number Publication Date
CN111709238A true CN111709238A (zh) 2020-09-25
CN111709238B CN111709238B (zh) 2023-04-07

Family

ID=72539334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010497002.1A Active CN111709238B (zh) 2020-06-04 2020-06-04 一种基于地学专家知识的网页地学相关性计算方法

Country Status (1)

Country Link
CN (1) CN111709238B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807105A (zh) * 2021-07-22 2021-12-17 中国测绘科学研究院 一种法语地名机器翻译方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679825A (zh) * 2015-01-06 2015-06-03 中国农业大学 基于网络文本的地震宏观异常信息获取与筛选方法
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
US20180225275A1 (en) * 2017-02-07 2018-08-09 Parallels International Gmbh System and method for automated web site content analysis
CN110309246A (zh) * 2019-05-24 2019-10-08 中国地质调查局发展研究中心 一种互联网地质数据检索与获取的方法及其装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679825A (zh) * 2015-01-06 2015-06-03 中国农业大学 基于网络文本的地震宏观异常信息获取与筛选方法
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
US20180225275A1 (en) * 2017-02-07 2018-08-09 Parallels International Gmbh System and method for automated web site content analysis
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN110309246A (zh) * 2019-05-24 2019-10-08 中国地质调查局发展研究中心 一种互联网地质数据检索与获取的方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴文: "地学文本信息提取技术研究", 《中国优秀硕士学位论文全文数据库》 *
陈建平 等: "矿产资源定量评价中文本数据挖掘研究", 《物探化探计算技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807105A (zh) * 2021-07-22 2021-12-17 中国测绘科学研究院 一种法语地名机器翻译方法
CN113807105B (zh) * 2021-07-22 2023-07-21 中国测绘科学研究院 一种法语地名机器翻译方法

Also Published As

Publication number Publication date
CN111709238B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US8812531B2 (en) Concept bridge and method of operating the same
CN104239513B (zh) 一种面向领域数据的语义检索方法
US20120158703A1 (en) Search lexicon expansion
CN101452463A (zh) 定向抓取页面资源的方法和装置
US20100131485A1 (en) Method and system for automatic construction of information organization structure for related information browsing
US10558707B2 (en) Method for discovering relevant concepts in a semantic graph of concepts
CN109643315B (zh) 基于结构化网络知识自动生成中文本体库的方法、***、计算机设备和计算机可读介质
CN110555154B (zh) 一种面向主题的信息检索方法
WO2009079875A1 (en) Systems and methods for extracting phrases from text
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN111709238B (zh) 一种基于地学专家知识的网页地学相关性计算方法
Duhan et al. A novel approach for organizing web search results using ranking and clustering
Kalmukov et al. Design and development of an automated web crawler used for building image databases
CN117591738A (zh) 一种基于云服务的信息检索***及方法
Yang An ontological website models-supported search agent for web services
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
Abass et al. Information retrieval models, techniques and applications
Gupta et al. A system's approach towards domain identification of web pages
CN102495844B (zh) 用于构建用户模型的改进的GuTao法
Archana et al. Location based semantic information retrieval from web documents using web crawler
CN110309246A (zh) 一种互联网地质数据检索与获取的方法及其装置
Shen et al. A hybrid model combining formulae with keywords for mathematical information retrieval
Wardekar et al. SmartCrawler: A Personalized Web Search for Relevant Web Pages
Rani et al. Web Search Result using the Rank Improvement
Rani et al. Priority Page Content Rank by Web Search Result using the Rank Improvement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant