CN111488424A

CN111488424A - 一种特定学术领域人物的发现与跟踪方法及***

Info

Publication number: CN111488424A
Application number: CN202010230061.2A
Authority: CN
Inventors: 俞晓明; 付培国; 陈银鹏; 赵忠华; 郭岩; 万欣欣; 周秀花; 李欣; 丛朝阳; 孙立远; 丁汉星; 王禄恒
Original assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-08-04

Abstract

本发明提出一种特定学术领域人物的发现与跟踪方法，包括：发现步骤，以某一特定学术领域的关键词对论文网站进行检索，以获取对应论文的作者的作者信息，以及该作者的作者详情页链接URL，根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息；更新步骤，以该作者信息和该论文信息，更新或加入特定学术领域数据库。

Description

一种特定学术领域人物的发现与跟踪方法及***

技术领域

本发明涉及网络数据挖掘领域，涉及网络信息采集、信息抽取技术，特别涉及一种特定学术领域人物的发现与跟踪方法及***。

背景技术

21世纪是一个经济与科技都飞速发展的时代，也是科技创新产业逐步斩露锋芒的时代，高科技正在一步步地改变和改善人们的生活。越来越多的人投入到科研工作中，为相应的学术领域注入了新鲜血液。如果能及时发现这些学术领域的新人，并跟踪他们的学术成果，对了解领域现状，跟踪领域的前沿技术有着重大意义和应用价值。

随着各行业业务数据量的井喷式增长，数据挖掘这门学科受到学术界和工业界的广泛关注。数据挖掘，一般是指在海量数据基础上，基于计算科学、统计学、机器学习、信息检索、数据仓库、模式识别等相关领域技术以及结合业务领域专家知识构建高效可用的数据挖掘模型，从已知数据中挖掘未知且极具价值的知识信息，适用于多种领域。

现有的人物发现与跟踪技术通常关注于从新闻等资讯信息中挖掘人物信息，或者从社交网络中挖掘人物信息，较少有针对学术领域的人物发现与跟踪。从新闻等资讯信息中挖掘人物信息的方法，通常使用网络信息采集技术实时抓取新闻等资讯类网页，然后使用自然语言理解技术从新闻报道中识别人物名称以及相关的人物信息。从社交网络中挖掘人物信息的方法，通常利用社交网络的拓扑结构、用户行为等特征，使用链接分析等技术挖掘人物信息。

从新闻等资讯信息中挖掘人物信息的技术利用的是新闻人物的分布规律。新闻人物通常存在于新闻报道中，因此只要及时抓取新闻报道并从中快速识别人物信息即可达到人物发现与跟踪的目标。但学术领域的人物信息并不一定存在于新闻报道，因此从新闻等资讯信息中挖掘人物信息的技术无法挖掘学术领域人物信息。

从社交网络中挖掘人物信息的技术通常利用社交网络的拓扑结构、用户行为等特征，使用链接分析等技术挖掘用户节点之间的关系，从中识别出重点用户、核心群体或者跟踪用户行为，并不以发现新用户为目的。而本发明旨在发现并跟踪学术领域中的新人，新人通常需要一定时间的学术积累才能成长为领域中的核心人物，因此使用从社交网络中挖掘人物信息的相关技术无法及时发现在学术领域中的崭露头角的新学者。

发明内容

针对上述问题，本发明提出一种特定学术领域人物的发现与跟踪方法，包括：发现步骤，以某一特定学术领域的关键词对论文网站进行检索，以获取对应论文的作者的作者信息，以及该作者的作者详情页链接URL，根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息；更新步骤，以该作者信息和该论文信息，更新或加入特定学术领域数据库。

本发明所述的特定学术领域人物的发现与跟踪方法，其中该更新步骤具体包括：将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较；若该特定学术领域数据库未有该作者信息，则将该作者信息加入该特定学术领域数据库，并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据；若该特定学术领域数据库已有该作者信息且未有该论文信息，则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。

本发明所述的特定学术领域人物的发现与跟踪方法，其中该发现步骤具体包括：以该关键词通过该论文网站的站内搜索功能，从该论文网站中抓取该关键词对应的论文列表页面，并从该论文列表页面中抽取该对应论文的该作者信息。

本发明所述的特定学术领域人物的发现与跟踪方法，还包括：跟踪步骤，根据预设条件重复进行该发现步骤和该更新步骤；其中，该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。

本发明还提出一种特定学术领域人物的发现与跟踪***，包括：发现模块，用于以某一特定学术领域的关键词对论文网站进行检索，以获取对应论文的作者的作者信息，以及该作者的作者详情页链接URL，根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息；更新模块，用于以该作者信息和该论文信息，更新或加入特定学术领域数据库。

本发明所述的特定学术领域人物的发现与跟踪***，其中该更新模块具体包括：将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较；若该特定学术领域数据库未有该作者信息，则将该作者信息加入该特定学术领域数据库，并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据；若该特定学术领域数据库已有该作者信息且未有该论文信息，则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。

本发明所述的特定学术领域人物的发现与跟踪***，其中该发现模块具体包括：以该关键词通过该论文网站的站内搜索功能，从该论文网站中抓取该关键词对应的论文列表页面，并从该论文列表页面中抽取该对应论文的该作者信息。

本发明所述的特定学术领域人物的发现与跟踪***，还包括：跟踪模块，用于对该特定学术领域数据库内的数据进行持续的更新；其中，根据预设条件重复调用该发现模块和该更新模块；该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。

本发明还提出一种计算机可读存储介质，存储有计算机可执行指令，该计算机可执行指令用于执行如前所述的特定学术领域人物的发现与跟踪方法。

本发明还提出一种数据处理装置，包括如前所述的计算机可读存储介质，该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令，以进行特定学术领域人物的发现与跟踪。

附图说明

图1是学术论文网站DBLP提供的站内搜索界面示意图。

图2是学术论文网站DBLP的论文列表页面示意图。

图3是学术论文网站DBLP中某学者的详情页示意图。

图4是学术论文网站DBLP中某学者的论文的作者信息与作者的详情页面之间存在链接示例图。

图5是本发明的特定学术领域人物的发现与跟踪方法流程图。

图6是本发明具体实施例的论文列表页面示例图。

图7是本发明具体实施例的作者详情页示例图。

图8是本发明的数据处理装置示意图。

具体实施方式

如前所述，已有的人物挖掘技术难以达到学术领域人物的发现与跟踪的目的，因此发明人提出了全新的方法与***。

为了及时发现特定学术领域中的新学者，发明人调研了学术领域人物在互联网上的分布规律。发现学术论文网站是学者信息相对最集中的地方。论文是学者的主要研究成果之一，所以在学术论文网站不仅能够通过实时跟踪新发论文找到新学者，而且能够及时跟踪到学者的论文类研究成果，这些论文是学者的重要信息。

发明人调研了学术论文网站的功能与结构，有以下三个发现：

1)大型学术论文网站通常提供站内搜索功能，如图1所示。使用该功能，通过输入准确的领域相关的关键词，能够检索出该领域的论文。如果以合适的频率使用该检索功能，则能够实现论文跟踪，达到及时发现新论文的目的。

2)大型学术论文网站通常已经整理好了论文的各种结构化信息，并以相对固定的格式展现在网页中，如图2所示。利用网页中的论文展示格式，能够准确提取论文的各种信息，其中就包括论文的所有作者信息。

3)大型学术论文网站中通常针对每位作者提供一个详情页面，该页面中包含了该作者的所有论文信息，如图3所示。论文的作者信息与作者的详情页面之间存在链接，如图4所示。

利用以上3个观察，结合网络信息采集技术和信息抽取技术，发明人提出了特定学术领域人物的发现与跟踪方法及***。

本发明的目的是解决及时发现特定学术领域的人物并跟踪其论文成果的问题，提出了一种特定学术领域的人物发现与跟踪方法及***，包括：

发现步骤，以某一特定学术领域的关键词对论文网站进行检索，以获取对应论文的作者的作者信息，以及该作者的作者详情页链接URL，根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息；

更新步骤，以作者信息和对应的论文信息，更新或加入特定学术领域数据库；

跟踪步骤，根据预设条件重复进行该发现步骤和该更新步骤；

其中，该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。其中，发现步骤具体包括：以该关键词通过该论文网站的站内搜索功能，从该论文网站中抓取该关键词对应的论文列表页面，并从该论文列表页面中抽取该对应论文的该作者信息；更新步骤具体包括：将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较；若该特定学术领域数据库未有该作者信息，则将该作者信息加入该特定学术领域数据库，并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据；若该特定学术领域数据库已有该作者信息且未有该论文信息，则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。

进一步的，更新步骤还可以根据论文信息对作者进行学术评价，以获得该作者的学术权值，进而提供该作者在本特定技术领域内的学术水平状态，如作者作为领域新人，在某一特定学术领域的新鲜度、爆发度等，供该特定学术领域数据库的查阅者参考。对作者进行学术评价可以以获取其发表的论文数量、获取其论文引用情况、或论文评审情况等方式得到，如何对作者进行学术评价不是本发明的技术重点，故在此不再赘述。

本发明的特定学术领域人物的发现与跟踪***，包括：

发现模块，用于以某一特定学术领域的关键词对论文网站进行检索，以获取对应论文的作者的作者信息，以及该作者的作者详情页链接URL，根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息；更新模块，用于以该作者信息和该论文信息，更新或加入特定学术领域数据库；

跟踪模块，用于对该特定学术领域数据库内的数据进行持续的更新；其中，根据预设条件重复调用该发现模块和该更新模块；该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。

其中，更新模块具体包括：将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较；若该特定学术领域数据库未有该作者信息，则将该作者信息加入该特定学术领域数据库，并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据；若该特定学术领域数据库已有该作者信息且未有该论文信息，则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据；发现模块具体包括：以该关键词通过该论文网站的站内搜索功能，从该论文网站中抓取该关键词对应的论文列表页面，并从该论文列表页面中抽取该对应论文的该作者信息。

更新模块还可以包括评价模块，即根据论文信息对作者进行学术评价，以获得该作者的学术权值，进而提供该作者在本特定技术领域内的学术水平状态，如作者作为领域新人，在某一特定学术领域的新鲜度、爆发度等，供该特定学术领域数据库的查阅者参考。

本发明提出了利用论文网站提供的站内搜索功能，以及论文网站中论文信息与作者信息之间的链接关系，实现特定学术领域人物的发现与跟踪的方法及***。图5是本发明的特定学术领域人物的发现与跟踪方法流程图。如图5所示，本发明欲保护整个方法及***，其中方法描述如下：

1.确定领域关键词，以及一个或多个论文网站。

2.利用论文网站的站内搜索功能，使用网络采集技术，从论文网站中抓取论文列表页面。为了在指定的论文网站中能够准确高效地抓取与关键词相关的论文列表页面，本发明并不使用通常的爬虫技术，而是模拟论文网站的站内搜索请求，结合论文网站的站内搜索规则，以关键词作为参数，拼接请求URL，并向论文网站发送该URL，论文网站则根据该URL返回论文列表页面。

3.使用信息抽取技术，从论文列表页面中抽取论文信息，包括论文的作者及作者详情页的链接URL。这里根据页面的结构特征、文本特征在论文列表页面中定位并抽取作者及其详情页的链接URL。

4.根据作者详情页的链接URL，使用网络信息采集技术抓取作者详情页。这里自动将作者详情页的链接URL作为请求URL发送给论文网站，论文网站则根据该请求返回作者详情页。

5.使用信息抽取技术，从作者详情页中抽取该作者的所有论文信息。这里根据页面的结构特征、文本特征在论文列表页面中定位并抽取作者的论文信息。因为论文信息包含多种，除了论文标题、作者、发表会议或期刊名称、发表年限之外，页面中其他论文信息可以根据需要定制。也可在多个论文网站中获取该作者的更多的论文信息。

6.将以上步骤3和5获得的作者及作者的论文信息做数据持久化存储，存入数据库，存储前需要和已存储的作者名称及论文信息相比较，有以下3种情况：

(1)拟存储的作者和论文信息均已被存储过，则不再存储。

(2)拟存储的作者信息未被存储过，说明该作者为新发现的领域人物，则将作者及其论文信息进行持久化存储。并根据该作者发表的论文信息评价该作者作为领域新人的新鲜度和爆发度，在库中存储新鲜度和爆发度。

(3)拟存储的作者信息已被存储过，但其论文信息中有未被存储的论文，说明该作者有新发表的论文，则将新发表的论文信息进行持久化存储。并根据该作者发表的论文信息更新库中该作者在领域中的新鲜度和爆发度。

7.定期或满足某些条件时重复以上步骤2-6。所述条件包括收到对数据库的更新指令或特定学术领域内的新增论文数量达到更新阈值，本发明并不以此为限。

下面以网络信息采集领域的人物发现与跟踪为例，描述本发明的具体实施方式。https://dblp.org/是一个倍受科研人员关注的大型论文网站。

1.确定领域关键词为“web crawler”，论文网站为https://dblp.org/。

2.利用https://dblp.org/的站内搜索功能，结合DBLP网站搜索规则，以关键词“web crawler”作为参数，拼接请求URL：

https://dblp.org/search/publ/inc？q＝web％20crawler&s＝ydvpc&h＝30&b＝0

向网站发送以上请求URL，网站会返回如图6所示的论文列表页面，其中包含与关键词"web crawler"相关的所有论文数据，即图6中粗线方框内的论文列表，列表中的每条记录包含了论文的作者名称等信息，作者名称是一个链接的锚文本，该链接指向作者的详情页面。

3.将论文列表页面的源码解析为DOM(文档对象模型，Document Object Model)树，基于XPath(XML路径语言，XML Path Language)定位论文的所有作者名称在DOM树中的位置，并抽取作者名称，同时抽取以作者名称为锚文本的链接URL，该URL即为作者详情页的URL。

4.向网站发送作者详情页的URL，网站会返回如图7所示的作者详情页，其中粗线方框为该作者的论文列表，列表中的每条记录包含了论文的详细信息，包括论文标题、发表会议、发表年份等。

5.将作者详情页的源码解析为DOM(文档对象模型，Document Object Model)树，基于XPath(XML路径语言，XML Path Language)定位论文题目、会议、年份等信息在DOM树中的位置，并抽取这些论文信息。

6.将以上步骤3和5获得的作者及作者的论文信息存储入数据库，入库前需要和库中的已有作者名称和作者的论文信息相比较，有以下3种情况：

(1)拟入库的作者和论文信息均已存在于数据库中，则不更新库。

(2)拟入库的作者信息并不存在于数据库中，说明该作者为新发现的领域人物，将作者及其论文信息入库。根据该作者发表的最新论文时间评价该作者作为领域新人的新鲜度。根据该作者发表的最新论文目前的引用数评价该作者的爆发度。在库中存储新鲜度和爆发度。

(3)拟入库的作者信息已存在于数据库中，但其论文信息比库中多，说明该作者有新发表的论文，将新发表论文信息入库。根据该作者发表的最新论文时间更新该作者作为领域新人的新鲜度。根据该作者发表的最近10篇论文(不够10篇则计算所有论文)目前的引用数更新该作者的爆发度。更新库中该作者的新鲜度和爆发度。

7.每隔1天重复以上步骤2-6。

图8是本发明的数据处理装置示意图。如图8所示，本发明实施例还提供一种计算机可读存储介质，以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可执行指令，计算机可执行指令被数据处理装置的处理器执行时，实现上述特定学术领域人物的发现与跟踪方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成，所述程序可以存储于可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变形，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种特定学术领域人物的发现与跟踪方法，其特征在于，包括：

更新步骤，以该作者信息和该论文信息，更新或加入特定学术领域数据库。

2.如权利要求1所述的特定学术领域人物的发现与跟踪方法，其特征在于，该更新步骤具体包括：

将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较；

若该特定学术领域数据库未有该作者信息，则将该作者信息加入该特定学术领域数据库，并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据；

若该特定学术领域数据库已有该作者信息且未有该论文信息，则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。

3.如权利要求2所述的特定学术领域人物的发现与跟踪方法，其特征在于，该发现步骤具体包括：以该关键词通过该论文网站的站内搜索功能，从该论文网站中抓取该关键词对应的论文列表页面，并从该论文列表页面中抽取该对应论文的该作者信息。

4.如权利要求1所述的特定学术领域人物的发现与跟踪方法，其特征在于，还包括：

跟踪步骤，根据预设条件重复进行该发现步骤和该更新步骤；其中，该预设条件包括收到对该特定学术领域数据库的更新指令、该特定学术领域内的新增论文数量达到更新阈值或达到固定时间周期。

5.一种特定学术领域人物的发现与跟踪***，其特征在于，包括：

发现模块，用于以某一特定学术领域的关键词对论文网站进行检索，以获取对应论文的作者的作者信息，以及该作者的作者详情页链接URL，根据该作者详情页链接URL抽取该作者于该论文网站的所有论文的论文信息；

更新模块，用于以该作者信息和该论文信息，更新或加入特定学术领域数据库。

6.如权利要求5所述的特定学术领域人物的发现与跟踪***，其特征在于，该更新模块具体包括：将该作者信息和该论文信息与该特定学术领域数据库内存储的数据进行比较；若该特定学术领域数据库未有该作者信息，则将该作者信息加入该特定学术领域数据库，并将该论文信息加入该特定学术领域数据库中对应该作者的论文数据；若该特定学术领域数据库已有该作者信息且未有该论文信息，则以该论文信息更新该特定学术领域数据库中对应该作者的论文数据。

7.如权利要求6所述的特定学术领域人物的发现与跟踪***，其特征在于，该发现模块具体包括：以该关键词通过该论文网站的站内搜索功能，从该论文网站中抓取该关键词对应的论文列表页面，并从该论文列表页面中抽取该对应论文的该作者信息。

8.如权利要求5所述的特定学术领域人物的发现与跟踪***，其特征在于，还包括：

9.一种计算机可读存储介质，存储有计算机可执行指令，该计算机可执行指令用于执行如权利要求1～4任一项所述的特定学术领域人物的发现与跟踪方法。

10.一种数据处理装置，包括如权利要求9所述的计算机可读存储介质，该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令，以进行特定学术领域人物的发现与跟踪。