CN111488424A - 一种特定学术领域人物的发现与跟踪方法及*** - Google Patents
一种特定学术领域人物的发现与跟踪方法及*** Download PDFInfo
- Publication number
- CN111488424A CN111488424A CN202010230061.2A CN202010230061A CN111488424A CN 111488424 A CN111488424 A CN 111488424A CN 202010230061 A CN202010230061 A CN 202010230061A CN 111488424 A CN111488424 A CN 111488424A
- Authority
- CN
- China
- Prior art keywords
- author
- information
- paper
- thesis
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005065 mining Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004880 explosion Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种特定学术领域人物的发现与跟踪方法,包括:发现步骤,以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;更新步骤,以该作者信息和该论文信息,更新或加入特定学术领域数据库。
Description
技术领域
本发明涉及网络数据挖掘领域,涉及网络信息采集、信息抽取技术,特别涉及一种特定学术领域人物的发现与跟踪方法及***。
背景技术
21世纪是一个经济与科技都飞速发展的时代,也是科技创新产业逐步斩露锋芒的时代,高科技正在一步步地改变和改善人们的生活。越来越多的人投入到科研工作中,为相应的学术领域注入了新鲜血液。如果能及时发现这些学术领域的新人,并跟踪他们的学术成果,对了解领域现状,跟踪领域的前沿技术有着重大意义和应用价值。
随着各行业业务数据量的井喷式增长,数据挖掘这门学科受到学术界和工业界的广泛关注。数据挖掘,一般是指在海量数据基础上,基于计算科学、统计学、机器学习、信息检索、数据仓库、模式识别等相关领域技术以及结合业务领域专家知识构建高效可用的数据挖掘模型,从已知数据中挖掘未知且极具价值的知识信息,适用于多种领域。
现有的人物发现与跟踪技术通常关注于从新闻等资讯信息中挖掘人物信息,或者从社交网络中挖掘人物信息,较少有针对学术领域的人物发现与跟踪。从新闻等资讯信息中挖掘人物信息的方法,通常使用网络信息采集技术实时抓取新闻等资讯类网页,然后使用自然语言理解技术从新闻报道中识别人物名称以及相关的人物信息。从社交网络中挖掘人物信息的方法,通常利用社交网络的拓扑结构、用户行为等特征,使用链接分析等技术挖掘人物信息。
从新闻等资讯信息中挖掘人物信息的技术利用的是新闻人物的分布规律。新闻人物通常存在于新闻报道中,因此只要及时抓取新闻报道并从中快速识别人物信息即可达到人物发现与跟踪的目标。但学术领域的人物信息并不一定存在于新闻报道,因此从新闻等资讯信息中挖掘人物信息的技术无法挖掘学术领域人物信息。
从社交网络中挖掘人物信息的技术通常利用社交网络的拓扑结构、用户行为等特征,使用链接分析等技术挖掘用户节点之间的关系,从中识别出重点用户、核心群体或者跟踪用户行为,并不以发现新用户为目的。而本发明旨在发现并跟踪学术领域中的新人,新人通常需要一定时间的学术积累才能成长为领域中的核心人物,因此使用从社交网络中挖掘人物信息的相关技术无法及时发现在学术领域中的崭露头角的新学者。
发明内容
针对上述问题,本发明提出一种特定学术领域人物的发现与跟踪方法,包括:发现步骤,以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;更新步骤,以该作者信息和该论文信息,更新或加入特定学术领域数据库。
本发明所述的特定学术领域人物的发现与跟踪方法,其中该更新步骤具体包括:将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较;若该特定学术领域数据库未有该作者信息,则将该作者信息加入该特定学术领域数据库,并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据;若该特定学术领域数据库已有该作者信息且未有该论文信息,则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。
本发明所述的特定学术领域人物的发现与跟踪方法,其中该发现步骤具体包括:以该关键词通过该论文网站的站内搜索功能,从该论文网站中抓取该关键词对应的论文列表页面,并从该论文列表页面中抽取该对应论文的该作者信息。
本发明所述的特定学术领域人物的发现与跟踪方法,还包括:跟踪步骤,根据预设条件重复进行该发现步骤和该更新步骤;其中,该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。
本发明还提出一种特定学术领域人物的发现与跟踪***,包括:发现模块,用于以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;更新模块,用于以该作者信息和该论文信息,更新或加入特定学术领域数据库。
本发明所述的特定学术领域人物的发现与跟踪***,其中该更新模块具体包括:将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较;若该特定学术领域数据库未有该作者信息,则将该作者信息加入该特定学术领域数据库,并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据;若该特定学术领域数据库已有该作者信息且未有该论文信息,则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。
本发明所述的特定学术领域人物的发现与跟踪***,其中该发现模块具体包括:以该关键词通过该论文网站的站内搜索功能,从该论文网站中抓取该关键词对应的论文列表页面,并从该论文列表页面中抽取该对应论文的该作者信息。
本发明所述的特定学术领域人物的发现与跟踪***,还包括:跟踪模块,用于对该特定学术领域数据库内的数据进行持续的更新;其中,根据预设条件重复调用该发现模块和该更新模块;该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。
本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行如前所述的特定学术领域人物的发现与跟踪方法。
本发明还提出一种数据处理装置,包括如前所述的计算机可读存储介质,该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令,以进行特定学术领域人物的发现与跟踪。
附图说明
图1是学术论文网站DBLP提供的站内搜索界面示意图。
图2是学术论文网站DBLP的论文列表页面示意图。
图3是学术论文网站DBLP中某学者的详情页示意图。
图4是学术论文网站DBLP中某学者的论文的作者信息与作者的详情页面之间存在链接示例图。
图5是本发明的特定学术领域人物的发现与跟踪方法流程图。
图6是本发明具体实施例的论文列表页面示例图。
图7是本发明具体实施例的作者详情页示例图。
图8是本发明的数据处理装置示意图。
具体实施方式
如前所述,已有的人物挖掘技术难以达到学术领域人物的发现与跟踪的目的,因此发明人提出了全新的方法与***。
为了及时发现特定学术领域中的新学者,发明人调研了学术领域人物在互联网上的分布规律。发现学术论文网站是学者信息相对最集中的地方。论文是学者的主要研究成果之一,所以在学术论文网站不仅能够通过实时跟踪新发论文找到新学者,而且能够及时跟踪到学者的论文类研究成果,这些论文是学者的重要信息。
发明人调研了学术论文网站的功能与结构,有以下三个发现:
1)大型学术论文网站通常提供站内搜索功能,如图1所示。使用该功能,通过输入准确的领域相关的关键词,能够检索出该领域的论文。如果以合适的频率使用该检索功能,则能够实现论文跟踪,达到及时发现新论文的目的。
2)大型学术论文网站通常已经整理好了论文的各种结构化信息,并以相对固定的格式展现在网页中,如图2所示。利用网页中的论文展示格式,能够准确提取论文的各种信息,其中就包括论文的所有作者信息。
3)大型学术论文网站中通常针对每位作者提供一个详情页面,该页面中包含了该作者的所有论文信息,如图3所示。论文的作者信息与作者的详情页面之间存在链接,如图4所示。
利用以上3个观察,结合网络信息采集技术和信息抽取技术,发明人提出了特定学术领域人物的发现与跟踪方法及***。
本发明的目的是解决及时发现特定学术领域的人物并跟踪其论文成果的问题,提出了一种特定学术领域的人物发现与跟踪方法及***,包括:
发现步骤,以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;
更新步骤,以作者信息和对应的论文信息,更新或加入特定学术领域数据库;
跟踪步骤,根据预设条件重复进行该发现步骤和该更新步骤;
其中,该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。其中,发现步骤具体包括:以该关键词通过该论文网站的站内搜索功能,从该论文网站中抓取该关键词对应的论文列表页面,并从该论文列表页面中抽取该对应论文的该作者信息;更新步骤具体包括:将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较;若该特定学术领域数据库未有该作者信息,则将该作者信息加入该特定学术领域数据库,并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据;若该特定学术领域数据库已有该作者信息且未有该论文信息,则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。
进一步的,更新步骤还可以根据论文信息对作者进行学术评价,以获得该作者的学术权值,进而提供该作者在本特定技术领域内的学术水平状态,如作者作为领域新人,在某一特定学术领域的新鲜度、爆发度等,供该特定学术领域数据库的查阅者参考。对作者进行学术评价可以以获取其发表的论文数量、获取其论文引用情况、或论文评审情况等方式得到,如何对作者进行学术评价不是本发明的技术重点,故在此不再赘述。
本发明的特定学术领域人物的发现与跟踪***,包括:
发现模块,用于以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;更新模块,用于以该作者信息和该论文信息,更新或加入特定学术领域数据库;
跟踪模块,用于对该特定学术领域数据库内的数据进行持续的更新;其中,根据预设条件重复调用该发现模块和该更新模块;该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。
其中,更新模块具体包括:将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较;若该特定学术领域数据库未有该作者信息,则将该作者信息加入该特定学术领域数据库,并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据;若该特定学术领域数据库已有该作者信息且未有该论文信息,则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据;发现模块具体包括:以该关键词通过该论文网站的站内搜索功能,从该论文网站中抓取该关键词对应的论文列表页面,并从该论文列表页面中抽取该对应论文的该作者信息。
更新模块还可以包括评价模块,即根据论文信息对作者进行学术评价,以获得该作者的学术权值,进而提供该作者在本特定技术领域内的学术水平状态,如作者作为领域新人,在某一特定学术领域的新鲜度、爆发度等,供该特定学术领域数据库的查阅者参考。
本发明提出了利用论文网站提供的站内搜索功能,以及论文网站中论文信息与作者信息之间的链接关系,实现特定学术领域人物的发现与跟踪的方法及***。图5是本发明的特定学术领域人物的发现与跟踪方法流程图。如图5所示,本发明欲保护整个方法及***,其中方法描述如下:
1.确定领域关键词,以及一个或多个论文网站。
2.利用论文网站的站内搜索功能,使用网络采集技术,从论文网站中抓取论文列表页面。为了在指定的论文网站中能够准确高效地抓取与关键词相关的论文列表页面,本发明并不使用通常的爬虫技术,而是模拟论文网站的站内搜索请求,结合论文网站的站内搜索规则,以关键词作为参数,拼接请求URL,并向论文网站发送该URL,论文网站则根据该URL返回论文列表页面。
3.使用信息抽取技术,从论文列表页面中抽取论文信息,包括论文的作者及作者详情页的链接URL。这里根据页面的结构特征、文本特征在论文列表页面中定位并抽取作者及其详情页的链接URL。
4.根据作者详情页的链接URL,使用网络信息采集技术抓取作者详情页。这里自动将作者详情页的链接URL作为请求URL发送给论文网站,论文网站则根据该请求返回作者详情页。
5.使用信息抽取技术,从作者详情页中抽取该作者的所有论文信息。这里根据页面的结构特征、文本特征在论文列表页面中定位并抽取作者的论文信息。因为论文信息包含多种,除了论文标题、作者、发表会议或期刊名称、发表年限之外,页面中其他论文信息可以根据需要定制。也可在多个论文网站中获取该作者的更多的论文信息。
6.将以上步骤3和5获得的作者及作者的论文信息做数据持久化存储,存入数据库,存储前需要和已存储的作者名称及论文信息相比较,有以下3种情况:
(1)拟存储的作者和论文信息均已被存储过,则不再存储。
(2)拟存储的作者信息未被存储过,说明该作者为新发现的领域人物,则将作者及其论文信息进行持久化存储。并根据该作者发表的论文信息评价该作者作为领域新人的新鲜度和爆发度,在库中存储新鲜度和爆发度。
(3)拟存储的作者信息已被存储过,但其论文信息中有未被存储的论文,说明该作者有新发表的论文,则将新发表的论文信息进行持久化存储。并根据该作者发表的论文信息更新库中该作者在领域中的新鲜度和爆发度。
7.定期或满足某些条件时重复以上步骤2-6。所述条件包括收到对数据库的更新指令或特定学术领域内的新增论文数量达到更新阈值,本发明并不以此为限。
下面以网络信息采集领域的人物发现与跟踪为例,描述本发明的具体实施方式。https://dblp.org/是一个倍受科研人员关注的大型论文网站。
1.确定领域关键词为“web crawler”,论文网站为https://dblp.org/。
2.利用https://dblp.org/的站内搜索功能,结合DBLP网站搜索规则,以关键词“web crawler”作为参数,拼接请求URL:
https://dblp.org/search/publ/inc?q=web%20crawler&s=ydvpc&h=30&b=0
向网站发送以上请求URL,网站会返回如图6所示的论文列表页面,其中包含与关键词"web crawler"相关的所有论文数据,即图6中粗线方框内的论文列表,列表中的每条记录包含了论文的作者名称等信息,作者名称是一个链接的锚文本,该链接指向作者的详情页面。
3.将论文列表页面的源码解析为DOM(文档对象模型,Document Object Model)树,基于XPath(XML路径语言,XML Path Language)定位论文的所有作者名称在DOM树中的位置,并抽取作者名称,同时抽取以作者名称为锚文本的链接URL,该URL即为作者详情页的URL。
4.向网站发送作者详情页的URL,网站会返回如图7所示的作者详情页,其中粗线方框为该作者的论文列表,列表中的每条记录包含了论文的详细信息,包括论文标题、发表会议、发表年份等。
5.将作者详情页的源码解析为DOM(文档对象模型,Document Object Model)树,基于XPath(XML路径语言,XML Path Language)定位论文题目、会议、年份等信息在DOM树中的位置,并抽取这些论文信息。
6.将以上步骤3和5获得的作者及作者的论文信息存储入数据库,入库前需要和库中的已有作者名称和作者的论文信息相比较,有以下3种情况:
(1)拟入库的作者和论文信息均已存在于数据库中,则不更新库。
(2)拟入库的作者信息并不存在于数据库中,说明该作者为新发现的领域人物,将作者及其论文信息入库。根据该作者发表的最新论文时间评价该作者作为领域新人的新鲜度。根据该作者发表的最新论文目前的引用数评价该作者的爆发度。在库中存储新鲜度和爆发度。
(3)拟入库的作者信息已存在于数据库中,但其论文信息比库中多,说明该作者有新发表的论文,将新发表论文信息入库。根据该作者发表的最新论文时间更新该作者作为领域新人的新鲜度。根据该作者发表的最近10篇论文(不够10篇则计算所有论文)目前的引用数更新该作者的爆发度。更新库中该作者的新鲜度和爆发度。
7.每隔1天重复以上步骤2-6。
图8是本发明的数据处理装置示意图。如图8所示,本发明实施例还提供一种计算机可读存储介质,以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可执行指令,计算机可执行指令被数据处理装置的处理器执行时,实现上述特定学术领域人物的发现与跟踪方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (10)
1.一种特定学术领域人物的发现与跟踪方法,其特征在于,包括:
发现步骤,以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;
更新步骤,以该作者信息和该论文信息,更新或加入特定学术领域数据库。
2.如权利要求1所述的特定学术领域人物的发现与跟踪方法,其特征在于,该更新步骤具体包括:
将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较;
若该特定学术领域数据库未有该作者信息,则将该作者信息加入该特定学术领域数据库,并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据;
若该特定学术领域数据库已有该作者信息且未有该论文信息,则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。
3.如权利要求2所述的特定学术领域人物的发现与跟踪方法,其特征在于,该发现步骤具体包括:以该关键词通过该论文网站的站内搜索功能,从该论文网站中抓取该关键词对应的论文列表页面,并从该论文列表页面中抽取该对应论文的该作者信息。
4.如权利要求1所述的特定学术领域人物的发现与跟踪方法,其特征在于,还包括:
跟踪步骤,根据预设条件重复进行该发现步骤和该更新步骤;其中,该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。
5.一种特定学术领域人物的发现与跟踪***,其特征在于,包括:
发现模块,用于以某一特定学术领域的关键词对论文网站进行检索,以获取对应论文的作者的作者信息,以及该作者的作者详情页链接URL,根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息;
更新模块,用于以该作者信息和该论文信息,更新或加入特定学术领域数据库。
6.如权利要求5所述的特定学术领域人物的发现与跟踪***,其特征在于,该更新模块具体包括:将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较;若该特定学术领域数据库未有该作者信息,则将该作者信息加入该特定学术领域数据库,并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据;若该特定学术领域数据库已有该作者信息且未有该论文信息,则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。
7.如权利要求6所述的特定学术领域人物的发现与跟踪***,其特征在于,该发现模块具体包括:以该关键词通过该论文网站的站内搜索功能,从该论文网站中抓取该关键词对应的论文列表页面,并从该论文列表页面中抽取该对应论文的该作者信息。
8.如权利要求5所述的特定学术领域人物的发现与跟踪***,其特征在于,还包括:
跟踪模块,用于对该特定学术领域数据库内的数据进行持续的更新;其中,根据预设条件重复调用该发现模块和该更新模块;该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。
9.一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行如权利要求1~4任一项所述的特定学术领域人物的发现与跟踪方法。
10.一种数据处理装置,包括如权利要求9所述的计算机可读存储介质,该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令,以进行特定学术领域人物的发现与跟踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010230061.2A CN111488424A (zh) | 2020-03-27 | 2020-03-27 | 一种特定学术领域人物的发现与跟踪方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010230061.2A CN111488424A (zh) | 2020-03-27 | 2020-03-27 | 一种特定学术领域人物的发现与跟踪方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111488424A true CN111488424A (zh) | 2020-08-04 |
Family
ID=71798067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010230061.2A Pending CN111488424A (zh) | 2020-03-27 | 2020-03-27 | 一种特定学术领域人物的发现与跟踪方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488424A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086533A (ja) * | 2002-08-27 | 2004-03-18 | Fuji Xerox Co Ltd | 学術文書管理装置 |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区*** |
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及*** |
CN102646122A (zh) * | 2012-02-21 | 2012-08-22 | 北京航空航天大学 | 一种学术社交网络的自动构建方法 |
US20150193520A1 (en) * | 2014-01-09 | 2015-07-09 | National Research Foundation Of Korea | System and method for evaluating journal |
CN105550216A (zh) * | 2015-12-03 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 学术研究信息的搜索方法、挖掘方法及装置 |
CN109213908A (zh) * | 2018-08-01 | 2019-01-15 | 浙江工业大学 | 一种基于数据挖掘的学术会议论文推送*** |
CN109871427A (zh) * | 2019-01-29 | 2019-06-11 | 武汉南博网络科技有限公司 | 一种基于论文的植物数据库建立方法和装置 |
-
2020
- 2020-03-27 CN CN202010230061.2A patent/CN111488424A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086533A (ja) * | 2002-08-27 | 2004-03-18 | Fuji Xerox Co Ltd | 学術文書管理装置 |
CN102521337A (zh) * | 2011-12-08 | 2012-06-27 | 华中科技大学 | 一种基于海量知识网络的学术社区*** |
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及*** |
CN102646122A (zh) * | 2012-02-21 | 2012-08-22 | 北京航空航天大学 | 一种学术社交网络的自动构建方法 |
US20150193520A1 (en) * | 2014-01-09 | 2015-07-09 | National Research Foundation Of Korea | System and method for evaluating journal |
CN105550216A (zh) * | 2015-12-03 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 学术研究信息的搜索方法、挖掘方法及装置 |
CN109213908A (zh) * | 2018-08-01 | 2019-01-15 | 浙江工业大学 | 一种基于数据挖掘的学术会议论文推送*** |
CN109871427A (zh) * | 2019-01-29 | 2019-06-11 | 武汉南博网络科技有限公司 | 一种基于论文的植物数据库建立方法和装置 |
Non-Patent Citations (2)
Title |
---|
于洋: "国内三大中文数字期刊库的比较分析", 《河北科技图苑》 * |
李姝影等: "机构学术型专利识别方法的研究进展", 《图书情报工作》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN110717049A (zh) | 一种面向文本数据的威胁情报知识图谱构建方法 | |
Gottipati et al. | Finding relevant answers in software forums | |
CN108664599B (zh) | 智能问答方法、装置、智能问答服务器及存储介质 | |
CN106557695B (zh) | 一种恶意应用检测方法和*** | |
Reiche et al. | Implementation of metadata quality metrics and application on public government data | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN109947952B (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
CN106202514A (zh) | 基于Agent的突发事件跨媒体信息的检索方法及*** | |
CN104899324A (zh) | 一种基于idc有害信息监测***的样本训练*** | |
CN104598536B (zh) | 一种分布式网络信息结构化处理方法 | |
Mehta et al. | DOM tree based approach for web content extraction | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及*** | |
Yu et al. | Web content information extraction based on DOM tree and statistical information | |
CN116226494B (zh) | 一种用于信息搜索的爬虫***及方法 | |
Nethra et al. | WEB CONTENT EXTRACTION USING HYBRID APPROACH. | |
CN117033654A (zh) | 一种面向科技迷雾识别的科技事件图谱构建方法 | |
CN111488424A (zh) | 一种特定学术领域人物的发现与跟踪方法及*** | |
KR102298397B1 (ko) | 인용 유형 기반의 인용 관계 분석 방법 및 시스템 | |
Singh et al. | Semantic web mining: survey and analysis | |
Mali et al. | Implementation of multiuser personal web crawler | |
Wang | Design and Implementation of It Job Recruitment Data Based on Web Crawler | |
CN103995849B (zh) | 一种事件跟踪方法及*** | |
Chau et al. | Comparison on performance of text-based and model-based architecture in open source native XML database | |
Gunasundari et al. | Removing non-informative blocks from the web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200804 |