CN103473369A

CN103473369A - 基于语义的信息采集方法及***

Info

Publication number: CN103473369A
Application number: CN2013104526558A
Authority: CN
Inventors: 李涓子; 祁羽; 何巍; 焦程波; 张鹏; 杨瑞兵
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-09-27
Filing date: 2013-09-27
Publication date: 2013-12-25

Abstract

本发明涉及数据挖掘技术领域，具体涉及一种基于语义的信息采集方法及***。该信息采集方法包括步骤：S1.根据网络资源的典型特征，建立网络资源抽象数据模型；S2.借助搜索引擎从互联网采集网络信息，并将采集的网络信息用所述网络资源抽象数据模型进行格式化处理；S3.对格式化处理后的网络信息进行聚类分析，并根据聚类分析结果将所述网络信息划分入对应的话题中，并提取每个话题的标签；S4.对所述步骤S3中处理结果进行可视化展示。本发明由话题驱动进行网络资源组织、可视化展示以及对网络资源的下载和离线查看，从而可以多维度的对网络信息进行展现，以形象、直观的方式将网络信息呈现给用户，实现了提高用户浏览效率的效果。

Description

基于语义的信息采集方法及***

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于语义的信息采集方法及***。

背景技术

网络资料（资源）是指互联网上各种信息资源的总和，包括电子文献、数据库、数字化文献、数字化书目、电子报刊、网络新闻等各种形式的知识、资料、情报、消息等的集合

互联网上的资料信息具有数据量大、更新速度快、时效性强等特点，每天有大量的网络信息产生，为了帮助用户从“信息***”的困境中解脱出来，目前各大门户网站和主要的搜索引擎公司都会提供海量的网络资源，即在一个版面内，将互联网信息通过全方位、多角度的展现，介绍网络资源的相关情况，分析其特点。通常情况下，这些网络资料都是通过编辑人员人工进行组织。

网络资料的自动化组织，是指为方便用户浏览和获取网络资料信息，利用信息抽取和数据挖掘等相关技术，依据一定的规范或模式，将零散、无序的网络资料信息予以***化、有序化的过程。因此，研究如何对网络资料进行有效、合理的自动化组织，成为一个迫切需要解决的问题，网络资料的自动化组织也越来越受到用户的广泛关注：对于各大互联网网站，它可以取代过去人工对网络资料的组织；而对于普通网络资料用户，它则可以利用计算机的快速处理能力和相关成熟技术，进一步完善网络资料的组织模式，从而提高用户的浏览效率。

网络资料内包含多种不同类型的网络信息，如资源分类、资源包含的信息类型、时间、相关人物、地点、组织机构等，这些不同类别的信息并非孤立地存在于网络中，而是互相依赖，并通过某种关系紧密联系在一起。因此，如何有效地将这些不同类别的信息融合在一起，是网络资料自动化组织的关键，这也正是本文研究的目标所在。

网络资源组织的相关技术中，话题检测能够将分散的网络资源有效地汇集并组织起来，然而由于网络资源内信息相似度较高，基于传统向量空间模型的话题检测效果不佳；合理的网络资源组织模式能够更好地帮助用户去理解和探析网络资源的信息，然而现有组织模式单一，难以呈现其的多维特征。

发明内容

（一）要解决的技术问题

本发明的目的在于提供一种基于语义的信息采集方法及***，由话题驱动进行网络资源组织、可视化展示以及对网络资源的下载和离线查看，从而可以多维度的对网络信息进行展现，以形象、直观的方式将网络信息呈现给用户，进一步提高用户的浏览效率。

（二）技术方案

本发明技术方案如下：

一种基于语义的信息采集方法，包括步骤：

S1.根据网络资源的典型特征，建立网络资源抽象数据模型；

S2.借助搜索引擎从互联网采集网络信息，并将采集的网络信息用所述网络资源抽象数据模型进行格式化处理；

S3.对格式化处理后的网络信息进行聚类分析，并根据聚类分析结果将所述网络信息划分入对应的话题中，并提取每个话题的标签；

S4.对所述步骤S3中处理结果进行可视化展示。

优选的，所述步骤S1进一步包括：

根据互联网资源的典型特征，总结网络资源抽象数据模型模型要素，建立网络资源抽象数据模型模型。

优选的，所述步骤S2进一步包括：

S21.从互联网上抓取搜索引擎搜索到的网络信息；

S22.利用网页抓取分析程序组件和正则表达式的规则对抓取的网络信息进行解析分析，获取文本信息；

S23.利用所述网络资源抽象数据模型对获取的文本信息进行格式化处理。

优选的，所述步骤S3进一步包括：

S31.利用中文分词工具对格式化处理后的文本信息进行分词以及词性标注；

S32.根据预设的候选关键词标准，对所述步骤S31中分词结果进行过滤，获取候选关键词；

S33.统计各候选关键词对所述话题标签的贡献度，对所述网络信息进行聚类分析，并根据聚类分析结果将所述网络信息划分入对应的话题中；

S34.对所述候选关键词按照贡献度降序排列，抽取前若干个候选关键词，生成话题标签。

优选的，所述步骤S3进一步包括：

S35.建立所述候选关键词在知识库中的链接。

优选的，所述步骤S4进一步包括：

S41.根据用户提供的搜索词，以搜索引擎搜索到的前若干项网络信息为摘要，供用户判断是否所需内容：若否，则结束；若是，则继续；

S42.根据所述步骤S1-步骤S3将所述步骤S41中获取的网络信息划分入对应的话题中，并生成对应的话题标签；

S43.根据话题与单条网络信息之间的关系度排序，生成话题实体关系图以及与知识库的链接。

优选的，所述步骤S4之后还包括：

S5.根据生成的话题标签及话题标签下的网络信息，选择要打包下载的资料内容并对打包下载到的资料内容建立索引。

优选的，所述步骤S5之后还包括：

S6.将所述步骤S5中打包下载的资料内容复制到指定的文件夹或者目录下；自动的对复制的资料内容进行解压处理以及数据还原，并以网页的形式呈现出来供用户浏览。

本发明还提供一种根据上述任意一种的基于语义的信息采集方法实现的基于语义的信息采集***：

一种的基于语义的信息采集***，包括：

抽象数据模型构建模块：用于根据网络资源的典型特征，建立网络资源抽象数据模型；

网络信息采集模块：借助搜索引擎从互联网采集网络信息，并将采集的网络信息用所述网络资源抽象数据模型进行格式化处理；

聚类分析模块：对格式化处理后的网络信息进行聚类分析，并根据聚类分析结果将所述网络信息划分入对应的话题中，并提取每个话题的标签；

分析结果展示模块：用于对所述聚类分析模块的处理结果进行可视化展示。

优选的，还包括：

资料内容下载模块：用于根据生成的话题标签及话题标签下的网络信息，选择要打包下载的资料内容并对打包下载到的资料内容建立索引；

离线浏览模块：用于将打包下载的资料内容复制到指定的文件夹或者目录下并自动的对复制的资料内容进行解压处理以及数据还原，并以网页的形式呈现出来供用户浏览。

（三）有益效果

本发明实施例所提供的基于语义的信息采集方法及***，由话题驱动进行网络资源组织、可视化展示以及对网络资源的下载和离线查看，从而可以多维度的对网络信息进行展现，以形象、直观的方式将网络信息呈现给用户，实现了提高用户浏览效率的效果。

附图说明

图1是本发明实施例中基于语义的信息采集方法的流程示意图；

图2是本发明实施例中基于语义的信息采集***的硬件结构示意图；

图3是本发明实施例中基于语义的信息采集方法及***的实现效果图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步描述。以下实施例仅用于说明本发明，但不用来限制本发明的范围。

实施例一

本实施例中首先提供了一种基于语义的信息采集方法，如图1中所示，该基于语义的信息采集方法主要包括步骤：

S1.根据网络资源的典型特征，总结模型要素，建立网络资源抽象数据模型；

S4.对所述步骤S3中处理结果进行可视化展示。

除此之外，还可以包括以下步骤：

S5.网络信息的打包下载：根据生成的话题标签及话题标签下的网络信息,选择要打包下载的资料内容并对打包下载到的资料内容建立索引；

S6.网络信息的离线查看：将所述步骤S5中打包下载的资料内容复制到指定的文件夹或者目录下；自动的对所述步骤S6中复制的资料内容进行解压处理以及数据还原，并以网页的形式呈现出来供用户浏览。

下面对本实施例中基于语义的信息采集方法的步骤进行进一步的详细说明。

其中，所述步骤S1包括：

根据互联网资源的典型特征，总结模型要素，建立网络资源抽象数据模型；本实施例中，该步骤可以具体为：

对比互联网资源的典型特征，并对互联网资源的典型特征进行总结和分析，从而获取网络资源抽象数据模型的模型要素；例如，网络信息文本通常包括专题（Topic），标题（Title），发布时间（Time），发布者（Author），正文内容（Content），资料的链接（URL）等。而互联网资源一般都包括这几个要素；同时，这几个要素也通常是用户所关心的，网络资源抽象数据模型的模型应该以这几个要素为准。通过网络资源抽象模型的建立，可以让用户更清晰、更便捷的了解网络资源所包含的内容，更便于用户理解网络资源所表达的意思，以便于让用户更便捷的使用互联网资源。

其中，所述步骤S2进一步包括：

S21.以用户输入词为搜索词，利用百度或者谷歌等搜索引擎进行网络信息的采集，从互联网上抓取搜索引擎搜索到的网络信息；

S22.利用网页抓取分析程序组件和正则表达式的规则对抓取的网络信息（如HTML网页的标签）进行解析分析，获取文本信息；同时，对互联网上噪音信息（比如广告词或者Flash等）进行过滤；

S23.将提取的文本信息用步骤S1中所建立的网络资源抽象数据模型进行数据的格式化处理。

其中，所述步骤S3进一步包括：

S31.利用ICTCLAS（Institute of Computing Technology-ChineseLexical Analysis System，汉语词法分析***）等分词工具对所述文本信息进行分词以及词性标注；

S32.网络信息中的关键信息应该容易被用户所理解，语义明确。为了降低关键词的异义性，本实施例中还加入了一些专有领域的专业术语，规定除了个别化学元素、动植物统称及其他专有名词外，关键词不能是单个字。另外，除了节假日外，用户一般不会对特定的日期、时间感兴趣，因此，除非文本确实强调某个具体时间，否则如“2003年”、“三月”等词不应是话题标签的内容。以此标准来统计分词数据作为话题标签的候选关键词标准；根据该候选词标准，去掉一些不符合定义规范的词（例如一些虚词、数量词、拟声词等）及停用词，即对所述步骤S31中分词结果进行过滤，将一些单个字的词和停用词表中的词语过滤掉，获取候选关键词；

S33.保存所有候选关键词，统计各候选关键词对所述话题标签的贡献度，利用LDA（Latent Dirichlet Allocation，潜在狄利克雷分配模型）话题模型算法，对所述网络信息进行聚类分析；本实施例中，该步骤具体包括：

除词性外，从词的词频、出现位置及形态三方面考虑，为每个词设置了八个贡献度，所有贡献度及计算方法如表1所示。

表1词语贡献度及其计算方法

词语贡献度计算过程还负责对一些时间词、地点词等进行归一化处理，例如“清华”及“清华大学”、“北大”及“北京大学”，这些词在同一条网络信息中出现，其实是同一个概念，本实施例中根据它们的常用程度w.ctf及在文中的出现频率w.tf，将其中一个的词合并到另一个词中，频率相加，其他贡献度的合并以强贡献度的为准，例如，如其中一词w.quo为1，则合并后的w.quo也为1。

最后，根据聚类分析结果将所述网络信息划分入对应的话题中，并提取每个话题的标签；提取话题的标签具体为：

对所述候选关键词按照贡献度降序排列，抽取前若干个候选关键词，生成话题标签。

除此之外，本实施例中所述步骤S3进一步包括：

S34.对于步骤S31中获取的候选关键词，建立各个候选关键词在知识库中的链接，从而可以通过建立的链接查看相关词条在知识库中的信息。

其中，所述步骤S4进一步包括：

S41.根据用户提供的搜索词，以搜索引擎搜索到的前若干项网络信息，作为摘要，供用户判断分析是否其所需内容：若否，则结束；若是，则继续；

S42.根据所述步骤S1-步骤S3将所述步骤S41中获取的网络信息划分入对应的话题标签中；

S43.将所述步骤S42的中得到的处理结果在HTML页面中显示，根据话题与单条网络信息之间的关系度排序，生成话题实体关系图以及与知识库的链接，从而对网络信息进行可视化展示。

例如，在现实与互联网生活中，用户被报纸、媒体、网站等众多信息提供者围绕着，海量的信息充实了用户的生活，也带来了诸如信息过量，难以辨别真伪等问题。可视化是指借助于技术手段把信息和数据用图像化的、交互方式展现出来，以此扩大用户的认知。

具体到本实施例中，可以通过使用JavaScript资源库中的拖动布局，快速的生成关系网络，首先将每个话题、人物实体、组织实体、地点实体以节点的类型按照不同的样式添加到布局中，再依据他们间的索引添加链接信息，这样初始的关系图就生成了。

当用户对关系图中某个节点进行分析时，对选中节点以及所有与该节点有关系的节点与链接添加高亮，使用户能够方便的分析这些元素。并且对图像添加拖拽功能，用户对当前布局不满意或出现节点堆积时，可以通过调节关系度的值来控制当前布局。

S5.根据生成的话题标签及话题标签下的网络信息选择要打包下载的资料内容，并通过HTML的复选框来勾选需要下载的资料信息，使用多线程，多任务的方式同时将勾取的信息进行网页的打包和下载，并对打包下载到的资料内容建立索引。

S6.将所述步骤S5中打包下载的资料内容复制到指定的文件夹或者目录下；自动的对所述步骤S61中复制的资料内容进行解压处理以及数据还原，并以网页的形式呈现出来供用户浏览。

本实施例中还提供一种根据上述任意一种的基于语义的信息采集方法实现的基于语义的信息采集***；该基于语义的信息采集***主要包括抽象数据模型构建模块、网络信息采集模块、聚类分析模块以及分析结果展示模块；除此之外，还可以包括资料内容下载模块以及离线浏览模块等。其中，抽象数据模型构建模块：用于根据网络资源的典型特征，建立网络资源抽象数据模型；网络信息采集模块：借助搜索引擎从互联网采集网络信息，并将采集的网络信息用所述网络资源抽象数据模型进行格式化处理；聚类分析模块：对格式化处理后的网络信息进行聚类分析，并根据聚类分析结果将所述网络信息划分入对应的话题中，并提取每个话题的标签；分析结果展示模块：用于对所述聚类分析模块的处理结果进行可视化展示；资料内容下载模块：用于根据生成的话题标签及话题标签下的网络信息，选择要打包下载的资料内容并对打包下载到的资料内容建立索引；离线浏览模块：用于将打包下载的资料内容复制到指定的文件夹或者目录下并自动的对复制的资料内容进行解压处理以及数据还原，并以网页的形式呈现出来供用户浏览。

图2是本实施例中基于语义的信息采集***的硬件结构示意图；图3是本实施例中基于语义的信息采集方法及***的实现效果图。下面结合实例对本实施例中的所提供的基于语义的信息采集方法及***进行进一步说明。

（1）、抽象数据模型构建模块对根据网络资源的典型特征，建立网络资源抽象数据模型：

通过收集了每个相关词在百度搜索结果的前40页（大概400条）搜索结果对应的资料文本作为文本集，用于进行互联网资源典型特征分析。

之后，从中删除一些不合格资料文本（例如，只有标题、视频、图片等），最后得到360条搜索结果作为测试源数据。在测试源数据中，抽取互联网资源的特征，找出共同的特征作为典型特征。以此典型特征作为网络资源抽象数据模型要素，构建网络资源的典型特征。

（2）、网络信息采集模块借助搜索引擎从互联网采集网络信息：

该模块及方法是基于JavaEE实现的；使用java进行开发的B/S（Browser/Server，浏览器/服务器端）***，数据库采用MySql数据库；从百度和谷歌获取关键字网页搜索结果，网页搜索结果的属性包括网页标题，网页Url以及网页内容提要等，采用网页抓取分析程序组件直接访问此Url并对搜索页面进行解析获取文档，进一步分析网页结构，获取文本信息，并根据所建立的网络资源抽象数据模型对获取的文本信息进行格式化处理。

（3）聚类分析模块利用LDA算法，对所述网络信息进行聚类分析：

该部分可以直接延用NewsMiner（新闻事件挖掘）工程的数据分析部分的算法，利用中文分词技术以及LDA概率模型算法对从百度和谷歌获取的关键字搜索结果集进行话题分析。分析结果中包括话题分类信息，话题间关联度信息等。

（4）、分析结果展示模块对所述聚类分析模块的处理结果进行可视化展示：

4.1）前M条搜索结果显示

根据用户提供的搜索词，以搜索引擎搜索到的前若干项网络信息，作为摘要，供用户判断分析是否其所需内容：若否，则结束；若是，则继续；

4.2）根据步骤4.1中用户的决定，如果继续进行处理，则根据话题标签进行数据的聚类分析，结合获取到的信息数，动态的进行分类分析，生成话题；

4.3）将步骤4.2中得到的处理结果在HTML页面中显示，根据话题与单条网络信息之间的关系度排序，生成话题实体关系图以及与知识库的链接，从而对网络信息进行可视化展示。

（5）、资料内容下载模块根据生成的话题标签及话题标签下的网络信息，选择要打包下载的资料内容并对打包下载到的资料内容建立索引；该部分主要包括任务的网页抓取，多线程任务，进度保存，索引建立以及文件打包五个方面；下面对其中的一部分加以详细说明。

5.1）任务的网页抓取

5.1.1）百度搜索结果抓取

利用套接字对百度服务器进行相关参数请求访问，获取真实url；为解决抓取失败导致***假死的情况，本实施例中设置了超时机制，以保证下载失败后跳出本条信息抓取，继续其他信息的抓取。通过HttpClient获得数据流进行网页HTML代码获取。在保存文件之前的第一步是需要对页面编码进行检测，一般网页的格式会在头标签中比较靠前的位置设定页面编码，所以这里采用直接匹配的办法进行获取，然后在最后一步使用此编码将HTML代码保存成网页文件就可以避免用户在离线浏览网页时出现乱码的问题。

第二步是对HTML代码解析，获取图片链接以及网页css样式链接，下载这部分文件可以尽量保持网页的静态原貌。那么在这里就使用HtmlParser进行解析，获取的链接有多种形式，有绝对的Url地址，也有相对地址，这样就要对相对地址进行转换获得其真实的Url地址后进行下载，下载成功后，替换原HTML代码中的文件链接为本地链接。另外，从知识库***中获取的知识库信息也有一部分图片需要下载，其解析的原理同网页中是一致的。

最后一步将HTML代码保存成HTML文件。

5.1.2）谷歌搜索结果获取

根据谷歌开放API（Application Programming Interface，应用程序编程接口）接口，获取相应搜索结果的JSON（JavaScript ObjectNotation，一种轻量级数据交换格式）数据格式的网络数据，然后生成与步骤5.1.1中同样格式的数据文件

5.2）对抓取到的数据文件进行索引建立

文件索引可以使用Lucene（一种开源的全文检索引擎工具包）进行建立，建立的索引中主要包括网页标题、网页简介、网页存储的文件夹名、话题类别、任务名，还包括相关知识库信息，在索引中对标题以及网页简介，使用IKAnalyzer（一个开源的轻量级的中文分词工具包）进行分词以便离线办公***进行检索。

5.3）对已经建立索引的文件进行文件打包

对步骤5.1中生成的数据文件与步骤5.2中生成的索引文件进行打包处理，例如采用zip格式的打包形式对整个任务文件夹进行打包。

（6）、离线浏览模块用于将打包下载的资料内容复制到指定的文件夹或者目录下并自动的对复制的资料内容进行解压处理以及数据还原，并以网页的形式呈现出来供用户浏览：

6.1）在线打包文件下载

用户可以登录到自己的账户下，将自己已经在线下载完成的任务，进行下载（下载的是将网络信息和索引文件打包后的文件）到本地。

6.2）数据还原及离线查看

用户登录到离线***上，将步骤6.1中下载的打包文件上传到离线***中，离线***会自动对上传的打包文件进行解压和数据还原处理，并以网页的形式呈现给用户浏览。

6.3）离线***中文件检索

对步骤6.2中已经上传的打包文件信息，用户可以通过在智能信息搜索框输入与任务名称或者内容相关的关键词对任务信息进行精细检索。同网络端的索引建立配套，检索是基于用户输入的关键字进行的，检索主要是对网页部分的标题及简介进行检索，同时在知识库部分对知识库的文字内容进行检索。这一部分采用lucene进行设计开发的全文检索技术，其实相当于一个搜索引擎；也就是说在这一部分每个用户的下载数据都可以作为搜索源数据进行搜索。

整个离线浏览模块的前台页面均为HTML格式，其中数据的填充全部由JavaScript获取后台相关数据，然后进行结构组织并展示。信息浏览页面中包含话题关联度的可视化展示，由于采用了网络信息话题式的模型，能够很明了地了解话题之间的关联关系。

（7）、实验结果

在搜索分析部分，我们在正常网络下进行搜索大约需要2-3分钟才能显示分析结果；这对于普通用户来说是比较难以接受的，但是对于科研人员来说，他们在往常搜集网络信息的时候就需要不断的查看筛选自己需要的话题内容，相对而言，科研人员在使用本发明所提供的信息采集***时能够节省下不少时间。本***直接将搜索过来的原始结果进行了话题聚类，科研人员可以直接根据话题聚类结果快捷地找到自己需要的内容，从而在搜索分析的效果上基本能够达到预期的目标。

本***虽然是属于采用网络其他搜索引擎数据库的一种搜索分析***，但是它在整体上结合了网络信息的话题智能化以及包含了知识库的相关要素，并且由它面向的使用人员，本***也能够得到推广和使用，从而在总体上具有它的一定优势。另外，本***具有非常大的拓展空间，能够通过更新不断充实搜索内容和提高搜索质量。

本***相对于其他传统搜索引擎（比如百度，谷歌），虽然***中是采取百度的搜索结果，但是对结果的话题聚类分析还是能够让用户清晰明了地看到网页所涉及到的话题内容，使得对信息查找更加方便。

***中的知识库部分可以是百科类的本体信息，也就是说整个***是将网页搜索以及百科本体搜索结合起来，让用户能够更加方便的了解相关内容，使搜索结果更加丰富，展现内容更加直观。

在内部用户的功能设定上可以使科研部门以及机构能够更便捷的获取网络资源，为科研人员节省大量资源搜集的时间，从而可以提高科研效率。

综上所述，本发明所提供的基于语义的信息采集方法及***，融合了数据挖掘、语义Web和自然语言处理技术，以文本语义为核心，利用话题分析与知识关联技术，深度分析和重新组织网络搜索结果，并提供全自动的智能化的网络资料下载服务，将用户从人工阅读和过滤繁冗信息的工作中解放出来，为用户提供一个更深入、更便捷的网络搜索结果理解和浏览服务，从而可以有效的提高用户的浏览效率。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的保护范畴。

Claims

1.一种基于语义的信息采集方法，其特征在于，包括步骤：

S1.根据网络资源的典型特征，建立网络资源抽象数据模型；

S4.对所述步骤S3中处理结果进行可视化展示。

2.根据权利要求1所述的基于语义的信息采集方法，其特征在于，所述步骤S1进一步包括：

3.根据权利要求2所述的基于语义的信息采集方法，其特征在于，所述步骤S2进一步包括：

S21.从互联网上抓取搜索引擎搜索到的网络信息；

4.根据权利要求3所述的基于语义的信息采集方法，其特征在于，所述步骤S3进一步包括：

5.根据权利要求4所述的基于语义的信息采集方法，其特征在于，所述步骤S3进一步包括：

S35.建立所述候选关键词在知识库中的链接。

6.根据权利要求5所述的基于语义的信息采集方法，其特征在于，所述步骤S4进一步包括：

7.根据权利要求1-6任意一项所述的基于语义的信息采集方法，其特征在于，所述步骤S4之后还包括：

8.根据权利要求7所述的基于语义的信息采集方法，其特征在于，所述步骤S5之后还包括：

9.一种根据权利要求1-8任意一项所示的方法实现的基于语义的信息采集***，其特征在于，包括：

10.根据权利要求9所述的基于语义的信息采集***，其特征在于，还包括：