CN102521337B

CN102521337B - 一种基于海量知识网络的学术社区***

Info

Publication number: CN102521337B
Application number: CN201110405541.9A
Authority: CN
Inventors: 金海�; 赵峰; 陈恒; 吴步文; 方飞; 严奉伟; 刘普
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2011-12-08
Filing date: 2011-12-08
Publication date: 2014-05-07
Anticipated expiration: 2031-12-08
Also published as: CN102521337A

Abstract

本发明提供了一种基于海量知识网络的学术社区***，包括信息收集与存储模块，用于收集网络和用户提供的信息形成知识网络；学术检索模块，用于在所述知识网络中对会议、文献、作者和领域综述进行检索；学术服务模块，用于利用所述知识网络服务用户的个性需求；社区模块，用于用户之间以及用户与知识网络之间的信息交互。本发明充分利用网络资源形成知识网络，提供了更多的搜索和服务功能以及用户与知识库交互的接口，满足学术工作者的科研需求。

Description

一种基于海量知识网络的学术社区***

技术领域

本发明属于数据挖掘和信息检索和海量数据处理交叉领域，具体涉及为一种以学术资源搜索、学术数据统计、学术相关服务及学术社区为特色的学术社区***。

背景技术

随着全球信息化的逐渐发展深入，越来越多的学术资源发布到网络。然而由于这些资源分散在全球各处，既繁多又繁杂，而且还在逐年以指数增长。如何从如此繁多的学术资源中获取想要的资源是一个棘手的问题。

传统的搜索由于面向的是整个互联网，搜索的结果会非常宽泛，不能很好的为科研工作者提供搜索服务。在此背景下产生了专门针对学术资源的搜索。学术搜索专为解决面向学术文献资源的搜索，它的定位不同于通用搜索，而是专注于学术资源的。

然而目前的学术搜索***有以下问题：1、主要专注于科技文献的搜索，即给出按文献标题的搜索、按作者的搜索等，服务单一，不够丰富和多元化。2、目前大多数的学术搜索***所索引的科技文献是人工添加的，而非自动从网络中获取的，没有充分利用网络上的丰富资源。3、目前大多数的学术搜索***对各种学术资源没能整合、没有形成完整的知识网络，以统一对外服务。4、目前的学术搜索***缺乏与用户的交互，不能充分发挥用户的主动能动性。

这四点都制约了目前的学术搜索的服务，使其不能很好的满足科研工作者各种与学术相关的服务需求。

发明内容

本发明的目的是为了克服现有学术搜索***的制约，提供了一种基于海量知识网络的学术社区***，充分利用网络资源形成知识网络，提供了更多的搜索和服务功能以及用户与知识库交互的接口。

一种基于海量知识网络的学术社区***，包括

信息收集与存储模块9，用于收集网络和用户提供的信息形成知识网络；学术检索模块10，用于在所述知识网络中对会议、文献、作者和领域综述进行检索；学术服务模块11，用于利用所述知识网络服务用户的个性需求；社区模块8，用于用户之间以及用户与知识网络之间的信息交互。

所述信息收集与存储模块9包括公共数据收集模块9.1，用于收集互联网上的学术信息，所述学术信息包括会议、科技文献和作者信息；多个私有数据收集模块9.2，用于收集各对应用户的私有信息和用户分享的学术信息；知识网络组建模块9.3，用于对公共数据模块9.1收集的互联网学术信息和私有数据模块9.2收集的用户分享的学术信息进行整体分析，挖掘出关联关系，形成知识网络。

所述公共数据模块9.1包括会议信息爬取模块9.1A，用于定期的从网络识别和下载包含会议信息的网页；科技文献爬取模块9.1B，用于定期的从网络识别和下载文献列表网页；作者信息爬取模块9.1C，用于定期从网络中识别和下载个人主页；信息抽取和整合模块9.1D，用于从上述三爬取模块爬取的网页中抽取有用信息，并对所述有用信息进行去除冗余、错误数据剔除及信息整合。

所述学术检索模块10包括文献检索模块1，用于定期从知识网络中获取文献信息，接收用户文献查询请求，将文献查询结果按照相似度的高低排序后反馈给用户；会议检索模块2，用于定期从知识网络中获取会议信息，接收用户会议查询请求，将会议查询结果按照会议时间排序后反馈给用户；作者检索模块3，用于定期从知识网络中获取作者信息，接收用户作者查询请求，对作者查询结果进行同名作者区分后反馈给用户；领域综述模块4，用于定期从所述知识网络中获取文献信息，从中抽取文献内容，依据文献内容对文献分类，并计算文献的综合影响分子；接收用户的领域查询请求，确定其所述领域，将确定的领域内的所有文献按照综合影响因子高低排序，选取排序靠前的部分文献进行自然语言分析处理生成综述。

所述学术服务模块11包括格式转换模块5，用于上传用户提供的初稿至所述信息收集与存储模块9，抽取初稿各单元内容，调用用户选定的格式模板对抽取的单元内容作格式转换；自动摘要服务模块6，用于上传用户提供的科技文献至所述信息收集与存储模块9，确定上传的科技文献的文件格式，调用文件格式对应的文献抽取工具抽取其全文信息，依据全文信息生成摘要；投稿推荐服务模块7，用于上传用户的投稿至所述信息收集与存储模块9，从所述知识网络获取会议信息，对所述会议信息进行语义分词，依据分词结果对会议创建索引从而建立会议索引文件，挖掘所述投稿的主题信息，以主题信息作为索引词，所述会议索引文件作为查询源查询出推荐会议反馈给用户。

所述自动摘要服务模块6包括文献上传模块6C，用于上传用户提供的科技文献至所述信息收集与存储模块9；科技文献内容抽取模块6A，用于确定上传的科技文献的文件格式，调用文件格式对应的文献抽取工具抽取其全文信息；自动摘要生成模块6B，用于对所述全文信息中的句子作权重计算，选择权重较大的部分句子作为文摘句；所述权重计算遵循以下准则：含有提示词串的句子权重＞段首尾位置的句子权重＞包含关键词的句子＞与其他句子存在相关性的句子。

所述社区服务模块8包括订阅模块8A，用于接收用户订阅作者、会议和其他用户信息，监听所述知识网络的更新状态，若被订阅的作者、会议和其他用户信息有更新，则将最新信息发送给订阅用户；发布模块8B，用于用户发布信息至所述信息收集与存储模块9。

通过本发明提供的服务平台，能够很好的为科研工作者提供各种科研所需的服务，而不仅限于传统的学术文献的搜索，还提供会议搜索、作者搜索、综述搜索来丰富传统的搜索功能。同时，通过提供各种服务用户可以方便的进行论文格式转换、投稿推荐和科技文献的自动摘要服务。本***的另一个特色是还提供了社区功能，通过该社区，科研工作者可以更紧的跟踪到科研前沿，获得更有效的交流沟通渠道。从而相较与传统的学术搜索，具有更优秀的用户体验。具体而言，本发明具有的主要特点为：

(1)多源异构文献数据源的整合

本***的文献检索数据源于传统的文献检索数据源不同。传统的一般为人工录入，而本***的数据源来自网络，主要包括Dblp、CiteSeer、GoogleScholar等站点，同时也会有Deep Web如微软Academic上的数据，还有来自各个作者的个人主页的文献信息。对于这些不同数据源上的数据，如何进行数据整合是一个问题。不同的数据源的数据格式是不同的、数据会有重叠和交叉，需要进行数据识别并融合、去重。本***在数据采集层模块中加入了多源异构数据源的整合，使得这些网络资源都能够充分被利用。

(2)学术数据的动态索引和语义知识网络关联存储

本***的数据存储模式有别与一般的学术搜索***。具体的，由于我们的学术***的数据是从网络爬取的，其更新频率相比与传统的人工录入的数据集会更高。针对这种情况，***实现了动态索引的机制以应对频繁的数据更新。同时，***的数据关联性很高，存在作者-作者的合作关联、作者-文献的著作关联、文献-会议的发表关联、文献与文献的引用关联。***对这些数据进行了RDF语义关联存储，形成一个统一的知识网络，以提高数据的访问效率。

(3)基于主题相关的会议搜索与会议投稿推荐

会议搜索是本***的一个应用特色。在本***中，数据收集与整合存储模块会负责定期从网络获取会议信息加入到数据库。用户可以通过领域关键字对特定领域的会议进行搜索。具体的，过采用对搜索的语义扩展，和会议主题的发现对用户输入的查询给基于主题的匹配，从而给出相匹配的会议。本***通过对用户提交论文的文本主题分析，获取用户论文的主题，从而为用户论文的进行投稿推荐。

(4)更为精确的作者信息展示

相比与其他学术搜索中的作者搜索，本***采用了更为完备的作者的重名消除算法，获取更为精确的作者与发表文献的对应关系，从而获取更好的排名。

(5)自动实时生成给定领域的综述

传统的领域综述都是领域专家编写，存在领域死角和综述过时的问题。本***通过对***中的科技文献按领域自动分类，对用户输入的查询领域分析，给出于用户输入领域相关的综述信息。由于数据收集和存储模块会不断从网络中获取最新文献，因此，***生成的综述能够保证实效性。

(6)满足各种会议格式要求的论文格式转换

本***收集了各种会议格式的模板，通过模式识别和匹配的技术对用户的论文进行转换，以适应用户的格式需求，对于***中没有的会议格式模块，***允许用户主动上传会议格式模块并转化用户论文格式。

(7)基于学术交流的社区服务

本***通过融入订阅发布技术，支持对学术资源的订阅发表，从而使得用户能够在学术事件发生的第一时间获取自己感兴趣的学术信息。

附图说明

图1为基于海量知识网络的学术社区***模块结构示意图；

图2为数据收集和存储模块结构示意图；

图3为文献检索模块结构示意图；

图4为会议检索模块结构示意图；

图5为作者检索模块结构示意图；

图6为领域综述模块结构示意图；

图7为格式转换模块结构示意图；

图8为自动摘要模块结构示意图；

图9为投稿推荐模块结构示意图；

图10为社区模块结构示意图；

图11为本发明***工作流程图。

具体实施方式

本发明整合了各种学术搜索服务与多类个性化服务，其中检索涵盖了学术论文检索、会议与期刊检索、学术作者的检索、领域综述搜索，个性化服务包含了投稿推荐服务、自动摘要服务、论文格式转换服务和订阅发布服务。能为科研工作者提供更多的帮助。下面结合附图对本发明给出更详细的说明。

如图1所示，基于海量知识网络的学术社区***包含信息收集与存储模块9、学术检索模块10、学术服务模块11和社区模块8。信息收集与存储模块9用于收集网络和用户提供的数据形成知识网络，学术检索模块10用于在知识网络中对会议、文献、作者和领域综述的检索，学术服务模块11用于服务用户的个性需求，例如论文格式转换、摘要自动提取、投稿推荐等等，社区模块8用于用户之间以及用户与知识网络之间的信息交互。

信息收集与存储模块9是***的最重要的模块之一。它是上层服务的基础，其中的数据量的完备性和查询的高效性直接决定了上层服务的质量。如图2所示，信息收集与存储模块9包括公共数据收集模块9.1，n个私有数据收集模块9.2.1、...、9.2.n，知识网络组建模块9.3。为了方便说明，下文将私有数据模块统称9.2。

公共数据模块9.1主要是收集来自互联网上的学术信息，包括会议信息爬取模块9.1A、科技文献爬取模块9.1B和作者信息爬取模块9.1C。会议信息爬取模块9.1A设置网络爬虫，定时的自动从网上识别和下载包含会议相关的主页、列表等会议信息的网页；科技文献爬取模块9.1B一方面定期从dblp、citeseer、***scholar等文献信息源爬取科技文献信息，另一方面从互联网上爬取，主要是爬取科技工作者的个人主页，同时也会从微软Academic上进行Deep Web爬取，收集文献列表页面；留待信息抽取和整合模块9.1D从中抽取文献信息。作者信息爬取模块9.1C主要是从网络中爬取个人主页信息。信息抽取和整合模块9.1D从公共数据收集模块9.1爬取的原始数据中抽取出有用信息存储在公共数据集中。其中涉及到对HTML的非结构化数据和列表等结构化数据的抽取，也包括XML中的结构化数据抽取。对于文献，获取其文献标题、作者、发表的会议、引用情况等；对于会议，获取其会议名称、简称、召开时间、会议主题信息、征文截止时间、召开地点等信息；对作者则主要是获取作者的工作单位、e-mail、发表的论文情况、研究领域等信息。信息抽取和整合模块9.1D还对数据进行去除冗余、错误数据剔除及信息整合等操作。

私有数据模块9.2主要是用来接收用户的数据，用户的数据包括用户私有信息和用户分享的学术信息(例如用户分享的文献信息)，建立了用户私人数据集。对于用户分享的数据，通过私人数据模块9.2与知识网络组建模块9.3的连接，可将用户分享的数据发送到知识网络组建模块9.3作为共享数据的一个来源。同时在私人数据模块9.2中也建立了分析处理私人数据的信息抽取模块9.2.1.B...9.2.n.B，其对数据的抽取模块同9.1D。

知识网络组建模块9.3对公共数据模块9.1收集的网络学术信息和私有数据模块9.2中用户提供的个人学术信息进行整合形成知识网络。知识网络组建模块9.3通过对公共数据模块9.1中的分别存储的作者、论文、会议期刊等分离的数据及用户分享的数据进行分析，挖掘出关联关系，以此构建统一的知识网络。具体的从作者的发表文献信息中可以挖掘出作者-论文关系、作者-合作者关系，从作者的机构信息中可以挖掘出作者-机构关系等，从论文信息中可以挖掘出论文-作者信息、论文-会议信息等，从会议信息中可以抽取出会议-论文信息。通过对这些信息的综合和分析，可以建立起作者-文献-会议期刊的关联知识网络，并以RDF关联数据的形式保存在数据库中。并通过感知关联数据的变化情况对这些关联数据动态建立索引，可以实现数据的动态更新。

学术检索模块10用于在知识网络中对会议、文献、作者和领域综述的检索，包括文献检索模块1、会议检索模块2、作者检索模块3和领域综述模块4。

文献检索模块1如图3所示，是对用户输入的文献查询给出响应。包括文献信息获取模块1A、文献索引模块1B和结果排序模块1C。其工作过程是文献信息获取模块1A定期从知识网络中获取文献信息并更新索引信息。用户文献查询到达时，将用户请求发送到文献索引模块1B，将找到的结果集返回到结果排序模块1C，结果排序模块1C对找到的结果集依文献与查询的相似度进行相似度分析，依相似度高低排序并将结果返回给用户。会议检索模块2、作者检索模块3和领域综述模块4的处理过程和文献检索模块1的处理过程大体相同。所不同的是分析、处理和呈现的方法和原则不同。

会议检索模块2如图4所示，是对用户输入的会议查询给出响应，包括会议信息获取模块2A、会议索引模块2B和结果排序模块2C。会议信息获取模块2A定期从知识网络获得各种会议的相关信息，包括会议的名称、简称、召开时间和地点、会议主题信息、征文截止时间等信息，存储于会议信息集中，以便于会议索引模块2B创建索引。会议索引模块2B通过使用分词器调用概念网络词典对会议主题信息进行语义分词，并依据分词结果对会议创建索引。当用户通过查询接口查询会议时，查询会被发送到会议索引模块，查询返回的结果则被结果排序模块2C接收进行排序，排序原则是将最近召开的会议优先，在同等时间段的会议则按照其重要度越高的排的越前。时间段可预先确定，例如取一周或五天。由于随着时间的推移，不断的产生新的会议，排名也会随时间的推移而改变。因此，会议检索模块的整个流程是动态变化的过程。这就需要会议信息爬取模块9.1A频繁的周期性的从网络中获取新的会议主页信息，同时要求会议索引模块2B能周期性的对增加的结果建立索引。这个周期可以取与排序的时间间隔相同，如一个星期或五天。

作者检索模块3如图5所示。该模块根据用户提交的作者信息，查找与此作者相关的其他信息。如通过作者姓名查找作者相关信息。这些相关信息包括最重要的作者的影响因子如H-index等。其工作流程如下。首先从知识网络中获取作者主页信息，一般的作者主页信息里会涵盖姓名、工作单位、邮箱、作者的研究兴趣以及发表的文章等信息。另外需从知识网络中获取作者相关文献的相关信息，包括文献标题、合作者、发表的会议、一般还会有邮箱信息和引用被引用信息。将这些信息传递给作者排歧模块3B。作者排歧模块3B根据作者的研究领域与发表的文章的主题领域相关性、作者与合作者的合作关系、作者的工作单位、电子邮箱等信息识别并区分出同名的作者及其对应的文章。在作者查询中，除了数据量的完整性会影响作者影响因子的计算，关于同名作者的区分是很关键的问题。传统的作者影响因子的计算很少考虑重名问题，有也仅仅根据作者与合作者的关联图的子图划分法区分重名，但是这种方式精度会很低。本发明在作者排歧模块3B中充分考虑了作者的各方面的信息，其结果会更精确。经过作者排歧模块3B处理后的作者信息被分发到引用分析模块3C，在引用分析模块3C中，对经重名区分后的作者进行引用分析，得到各个同名作者的影响因子。最后将这些作者信息结果保存在作者信息结果集中，以供用户查询。

如图6所示的是领域综述生成模块。该模块根据用户提交的领域查询，给用户提供领域的综述信息。这些综述信息是从该领域相关的文献中总结出来的。科技文献内容抽取模块4A从数据收集与存储模块9中获取文献信息，并从中调用抽取文献内容。文献信息具体包括文献的标题、作者、发表时间、发表会议及全文信息，其中全文信息的格式可能有多种，如pdf、word等。抽取文献内容具体是指对这些pdf或word格式的文献抽取其内容，需抽取的内容主要包括摘要(Abstract)信息、简介(Introduction)信息、相关工作(Relate work)信息和参考文献(Reference)信息。科技文献分类模块4B会依据文献标题对收集的文献进行领域分类，将每篇文献标以类别信息。文献重要性分析模块4D则是采用多种文献重要性评分方式加权的方式对文献进行重要性评分。其中包括使用基于PageRank对文献的引用和被引进行迭代计算分析文献重要性、关联分析作者影响因子的文献重要性、考虑文献所投会议影响因子的文献重要性的加权得到最终文献的综合影响因子，以此来对文献重要性打分，并将其分值保存。用户查询扩展模块4C接收用户查询请求，确定其所属领域。领域综述生成模块4E获取经过用户查询扩展模块4C扩展后的用户查询，从科技文献分类模块4B中提取与查询对应的领域相同的所有文献，再对提取的文献按照综合影响因子高低排序。领域综述生成模块4E对选取排序靠前的部分文献进行语用分析、词汇链分析和潜在语义分析等自然语言处理的方法进行分析，完成自动综述生成。

学术服务模块11相比与学术搜索模块提供的是更私人化的服务，它需要用户先登录才能获得服务。在格式转换模块5，用户先将论文初稿发送到私有数据模块9.2中，接着选择要转换生成的格式，格式转换模块5根据用户选择的格式将上传的数据进行格式化，最终返回给用户接口。自动摘要模块6对用户上传到用户自己的私人数据空间9.2中的科技文献进行自动摘要分析，将分析的结果返回给用户接口。投稿推荐模块7与格式转换模块5和自动摘要模块6类似，需要用户上传论文到私有数据集9.2，通过投稿推荐模块7的分析，最终给出适合投稿的会议列表。

格式转换服务模块5如图7所示。初稿上传模块5D处理用户上传的论文初稿，将其保存与私有数据模块9.2中，然后内容抽取模块5A进行初稿各单元内容的抽取，主要包括摘要(Abstract)信息、简介(Introduction)信息、相关工作(Relate work)信息和参考文献(Reference)信息。接着正文转换器5B和引用转换器5C分别根据5A转换的正文和引用调用用户所选的格式模板如ACM的模板进行格式转换。转换完成后将最终生成的按ACM格式排版的论文给用户。

如图8所示的是自动摘要服务模块。该模块工作相对简单，文献上传模块6C将用户上传科技文献到私有数据模块9.2，科技文献内容抽取模块6A获取该上传的文献，通过对该文献的格式分析获取上传的文献格式，再调用对应格式的文献抽取工具进行文献的内容抽取。这里要抽取的内容包括文献的标题、作者、单位及正文等信息。将抽取后的信息传递到自动摘要生成模块6B进行自动摘要处理。自动摘要模块6B的处理过程如下：首先对文献进行句子重要性打分，句子权重由两方面的因素决定(1)句子本身所具备的特征和(2)句子的具体内容。权重计算遵循以下原则(重要性由高到低)：

a)、包括提示词串的句子十分重要，如包含“In this paper”、“Wediscuss”等字串的句子往往对文章的主题内容进行了概述；

b)、特殊位置的句子往往比较重要，如段首、段末的句子往往概括了文章或一个段落的中心内容；

c)、句子中包含的关键词；

d)、句子与其他句子的相关性，即该句子与其他句子的是否相关，与之相关的句子越多，该句子的概括能力越强，越有可能是中心句。

接着，文摘句的选择是根据句子的权重大小进行的。首先将句子按照其权重大小排序，然后选择权重值最大的一些句子作为文摘句，并使这些文摘句的长度之和不大于而且最接近于期望的文摘长度。

投稿推荐服务模块7如图9所示。该模块包含两个方面的工作，一方面，需要从公共数据模块9.1中获取会议信息集以用来建立投稿推荐的候选数据集；另一方面，模块还需要用户上传自己的文章到用户的私有数据集中，通过对上传的文章主题分析推荐其投稿会议。

具体的，在投稿推荐的候选数据集的建立中，索引创建器7A首先从公共数据模块9.1中抽取会议相关的信息，包括会议的名称、会议的召开时间、会议的投稿截止时间、会议的主题，将这些信息放入到会议信息集中。接着，索引创建器7A会对会议信息集中各会议的主题信息进行语义分词，并依据分词结果对会议创建索引。索引创建中，首先过滤掉会议召开时间早于当前时间的会议，接着，过滤掉会议投稿截止时间早于当前时间的会议。因为这些会议对投稿推荐没有任何意义。对过滤后的数据集创建索引得到会议索引文件。

在用户上传文章的主题分析中，首先用户通过投稿上传模块7E上传论文到私有数据模块9.2。接着文本抽取模块7C对上传的论文进行文本抽取，识别并抽取出其中的标题及各个章节。将抽取的文章各个模块的内容传给主题挖掘模块7D，主题挖掘模块7D对该文章内容进行主题探索与挖掘，得到文章的主题信息。

最后，分析检索器7B以主题信息作为查询，会议索引文件作为查询源，分析查询出查询相关的会议作为推荐会议。在此，需要对查询结果排序。排序的原则是主题相关性、会议的重要性及会议的投稿截止时间三个因素。主题相关性越高、重要性越大、截稿时间越近排在越靠前的位置。

与会议搜索模块2相同，投稿推荐模块7也涉及到索引更新的问题。其解决思想与会议搜索模块2相同。

社区服务模块8与学术服务模块11类似，需要用户登录才能使用。在该模块中，当用户关注某个会议、作者或其他用户后，在这个会议或作者或其他用户的数据有更新后会第一时间将该更新信息返回给用户。

社区模块如图10所示。该模块也包含两部分的工作，一方面的工作是处理订阅信息，另一方面的工作是处理发布信息。具体的在该模块有一个订阅模块8A，一个发布模块8B。在订阅模块8A里，用户可以通过订阅***中的作者信息、会议信息等，也可以订阅其他用户发布的信息。针对发布信息的是发布模块8B，该模块用户可以自己发布向对外公开的信息，如自己已发表的文章或看过的值得推荐的文章，也可以发布自己对某篇文章或某个会议的评论等信息。对于发布信息，用户是通过发布模块8B与自己的私有数据模块9.2交互，将用户提供的信息发布到订阅了该用户的用户的订阅模块8A，以供其他订阅过该用户的用户能够看到自己发布的信息。对于订阅信息，用户通过订阅模块8A选择要订阅的信息。订阅信息包括其他用户，也可以是某个会议、某个作者。对于订阅的其他用户，当其他用户有发布信息时就可收到该用户发布的消息，对于订阅的会议和作者，则是在***的数据更新时，订阅模块8A监听公共数据模块9.1的更新状态，通过判断是否有会议或作者的信息有更新，如某作者又发表了一篇文章，若有则发布更新消息给用户，以供用户了解最新更新动态。

本发明的***工作流程如图11所示，主要分成三个部分来对采用本发明实现的学术搜索服务***的工作流程做进一步具体的描述。

(1)数据采集与整合层的工作流程：在数据采集和整合层，***主要从Web上收集科技数据，包括科技文献信息、作者信息、会议信息；另外还包括概念实体的信息，主要包括Wikipedia的概念实体信息。传统的科技文献搜索***主要是通过后台已有的数据对外提供论文查询下载、作者信息获取，这种***没法充分利用网络上的丰富资源。我们的***则能充分利用网络上的不断更新的数据资源。在我们的数据收集与存储模块我们设计了专门针对各种科技资源的网络爬虫，在会议信息爬取模块中我们设计了科技会议爬虫；在科技文献爬取模块我们设计了科技文献爬虫；在作者信息爬取模块我们开发了作者信息爬虫，这些爬虫会定期从网络上自动爬取数据，而非人工的录入，保证了数据的及时更新，减少了人工维护的成本。具体的，针对网络上的会议信息、作者信息大多是半结构化/非结构化数据，我们采用了一种半结构化/非结构化数据组织结构与存储架构，以应对网络数据的结构形式。针对网络上大量的有用信息如文献信息都保存在网络数据库中的特点，在我们的科技文献爬取模块中，对文献爬虫制定了针对Hidden Web资源的查询接口。在数据整合方面，主要涉及到异构Web元数据的整合。针对数据采集层采集的科技文献信息的多样性(如从Web爬取和从Dblp中抽取)，数据采集与整合层将Web元数据进行了整合。具体的通过信息抽取技术，从异构的数据源上抽取出相关的信息，通过模式识别和匹配的方法将抽取的信息融合。同时从多个数据元上获取的数据存在数据重复性和数据不完整性，有些甚至存在数据错误，在数据融合阶段，会对重复数据进行数据去重，对不完整的数据和错误数据通过多个数据源的数据比对补全和纠错。

(2)知识网络构建层的工作流程：这部分的工作主要是涉及到数据的关联分析、基于关联的数据放置策略、针对数据更新频繁的动态索引的机制。由于学术资源的高关联性，如论文-作者关联、作者-合作者关联、论文-会议关联，我们对论文、作者、会议进行了关联分析，具体的分析了这些论文作者关系、作者合作者关系、论文与发表会议关系，并使用RDF进行关联存储。以此高效的数据放置策略支撑上层的数据处理。针对上层会议搜索及投稿推荐应用的实时性强、更新频繁的要求，数据管理层对会议索引引入了动态索引的机制。

(3)数据分析处理层工作流程：数据的处理层一方面联系着用户，一方面联系着数据。是用户与数据交互的接口。在这个层次里主要完成的功能有用户的查询扩展、各种查询的排序模型、各种形式的数据内容提取、主题挖掘、订阅/发布等。其流程是针对用户的某些查询，如综述查询、基于关键字的论文查询，给出查询扩展，扩展出与之相关联的概念，提高查询的查全率。针对用户的各种查询，按照各种查询的各自的特点给出查询查询的排序算法，对结果集进行排序。针对投稿推荐，数据处理层分析用户提交文章的主题，给出主题相关的推荐。

Claims

1.一种基于海量知识网络的学术社区***，包括

信息收集与存储模块，用于收集网络和用户提供的信息形成知识网络；

学术检索模块，用于在所述知识网络中对会议、文献、作者和领域综述进行检索；

学术服务模块，用于利用所述知识网络服务用户的个性需求；

社区模块，用于用户之间以及用户与知识网络之间的信息交互；

所述信息收集与存储模块包括

公共数据收集模块，用于收集互联网上的学术信息，所述学术信息包括会议、科技文献和作者信息；

多个私有数据收集模块，用于收集各对应用户的私有信息和用户分享的学术信息；

知识网络组建模块，用于对所述公共数据模块收集的互联网学术信息和所述私有数据模块收集的用户分享的学术信息进行整体分析，挖掘出关联关系，形成知识网络；

所述公共数据模块包括

会议信息爬取模块，用于定期的从网络识别和下载包含会议信息的网页；

科技文献爬取模块，用于定期的从网络识别和下载文献列表网页；

作者信息爬取模块，用于定期从网络中识别和下载个人主页；

信息抽取和整合模块，用于从上述三爬取模块爬取的网页中抽取有用信息，并对所述有用信息进行去除冗余、错误数据剔除及信息整合；

所述学术检索模块包括

文献检索模块，用于定期从所述知识网络中获取文献信息，接收用户文献查询请求，将文献查询结果按照相似度的高低排序后反馈给用户；

会议检索模块，用于定期从所述知识网络中获取会议信息，接收用户会议查询请求，将会议查询结果按照会议时间排序后反馈给用户；

作者检索模块，用于定期从所述知识网络中获取作者信息，接收用户作者查询请求，对作者查询结果进行同名作者区分后反馈给用户；

领域综述模块，用于定期从所述知识网络中获取文献信息，从中抽取文献内容，依据文献内容对文献分类，并计算文献的综合影响分子；接收用户的领域查询请求，确定其所属领域，将确定的领域内的所有文献按照综合影响因子高低排序，选取排序靠前的部分文献进行自然语言分析处理生成综述；

所述学术服务模块包括

格式转换模块，用于上传用户提供的初稿至所述信息收集与存储模块，抽取初稿各单元内容，调用用户选定的格式模板对抽取的各单元内容作格式转换；

自动摘要服务模块，用于上传用户提供的科技文献至所述信息收集与存储模块，确定上传的科技文献的文件格式，调用文件格式对应的文献抽取工具抽取其全文信息，依据全文信息生成摘要；

投稿推荐服务模块，用于上传用户的投稿至所述信息收集与存储模块，从所述知识网络获取会议信息，对所述会议信息进行语义分词，依据分词结果对会议创建索引从而建立会议索引文件，挖掘所述投稿的主题信息，以主题信息作为索引词，所述会议索引文件作为查询源查询出推荐会议反馈给用户；

所述自动摘要服务模块包括

文献上传模块，用于上传用户提供的科技文献至所述信息收集与存储模块；

科技文献内容抽取模块，用于确定上传的科技文献的文件格式，调用文件格式对应的文献抽取工具抽取其全文信息；

自动摘要生成模块，用于对所述全文信息中的句子作权重计算，将句子按照其权重大小排序，然后选择权重值最大的一些句子作为文摘句，并使这些文摘句的长度之和不大于而且最接近于期望的文摘长度；

所述权重计算遵循以下准则：含有提示词串的句子权重＞段首尾位置的句子权重＞包含关键词的句子权重＞与其他句子存在相关性的句子权重；

所述社区服务模块包括

订阅模块，用于接收用户订阅作者、会议和其他用户信息，监听所述知识网络的更新状态，若被订阅的作者、会议和其他用户信息有更新，则将最新信息发送给订阅用户；

发布模块，用于用户发布信息至所述信息收集与存储模块。