CN1402156A

CN1402156A - 网站信息提取***与方法

Info

Publication number: CN1402156A
Application number: CN 01123635
Authority: CN
Inventors: 黄子癸
Original assignee: Weise Sci & Tech Co Ltd
Current assignee: Weise Sci & Tech Co Ltd
Priority date: 2001-08-22
Filing date: 2001-08-22
Publication date: 2003-03-12

Abstract

一种网站信息提取***，用以浏览并过滤环球信息网的网页数据，其至少包括一个搜寻装置、一个数据提取装置以及一个存储装置。其中，搜寻装置用于依据一个网页搜寻条件，搜寻环球信息网中的网页数据，并将搜寻结果输出到一个搜寻网页文件。而数据提取装置用于依据用户所设定的一个网页过滤条件，提取搜寻网页文件的内容而形成一个提取文件。存储装置用于存储网页搜寻条件、网页过滤条件、搜寻网页文件以及提取文件。此***可显示来自不同网站的搜寻数据，以利于用户浏览不同网页的检索结果。

Description

网站信息提取***与方法

(一)技术领域

本发明涉及一种全文检索***与方法，特别涉及一种在环球信息网(world wide web)中的网页全文检索***与方法。

(二)背景技术

如今由于互联网(Internet)的发展，信息的传递与共享也越发快速与便利。用户只要经由互联网就可以连接到全球网站所组成的环球信息网(world wide web)上，并可使用环球信息网上的数据或信息。而目前，搜寻装置(searchengine)或网页全文检索***经常被用户用于在环球信息网上搜寻或检索其所需要的数据。

请参考图1，示出了传统搜寻装置搜寻环球信息网的方法流程示意图。首先，用户在搜寻装置中输入欲搜寻的关键字或主题，接着由搜寻装置连接环球信息网并开始检索。随即，搜寻装置将符合所输入的关键字或主题的网页地址(URL)列给用户，再由用户连接至该些URL以浏览其内容。而上述的传统的方法虽然简便，但却具有以下的缺点：

(1)虽然搜寻装置已检索出相关于关键字的URL，但仍须用户再连接至该URL的网页才能看到内容。而且，网页中常包括用户所不需要的数据，对用户而言，非常的不方便，可能需要再利用一次文字搜寻才能找到所需要的数据。

(2)用户无法针对搜寻装置所检索出的URL的网页数据，互相比较其相关性。例如，如果用户搜寻的是一个产品的价格，则用户无法根据图1中搜寻装置所检索出的结果比较出哪个网站的产品价格最便宜。

(三)发明内容

因此，本发明的目的在于提供一种网站信息提取***与方法。用户通过本发明的***与方法，可从环球信息网中检索出用户所需要的数据，并由本***显示所有的搜寻数据，以利于用户浏览不同网页的检索结果。

根据本发明的目的，提出一种网站信息提取***，此***通过互联网(lnternet)与环球信息网(world wide web)连接，用以浏览并过滤环球信息网的网页数据。此网站信息提取***至少包括一个搜寻装置、一个数据提取装置以及一个存储装置。其中，搜寻装置通过互联网与环球信息网连接，用以依据用户所设定的一个网页搜寻条件来搜寻环球信息网中的网页数据，并将搜寻结果输出到一个搜寻网页文件中。而数据提取装置用于接收搜寻网页文件，并依据用户所设定的一个网页过滤条件来提取搜寻网页文件的内容并形成一个提取文件。存储装置用于存储网页搜寻条件、网页过滤条件、搜寻网页文件以及提取文件。

其中，数据提取装置还包括一个栏提取单元、一个标记删除单元以及一个段落提取单元。其中，栏提取单元用于提取出搜寻网页文件中所设定的栏数据。而标记删除单元用于删除搜寻网页文件中的所有网页显示控制标记(tag)。段落提取单元用于删除或保留搜寻网页文件中整个段落，且可用于删除搜寻网页文件中的待删除文字。

根据本发明的目的，另外提出一种网站信息提取方法，用以供用户浏览并过滤环球信息网的网页数据，此网站信息提取方法首先为用户设定一个网页搜寻条件和一个网页过滤条件。接着依据网页搜寻条件来搜寻环球信息网中的网页数据，并将搜寻结果输出至一个搜寻网页文件。接下来，依据网页过滤条件提取搜寻网页文件的内容并形成一个提取文件。

其中，此网站信息提取方法的依据网页过滤条件提取搜寻网页文件的内容并形成提取文件的步骤还包括删除或保留搜寻网页文件中位于提取段落起始字与该提取段落结束字之间的数据；提取搜寻网页文件中位于提取栏起始字与提取栏结束字之间的数据以及删除搜寻网页文件中的所有网页显示控制标记。

为使本发明的上述目的、特征、和优点能更明显易懂，下文特举一最佳实施例，并配合附图，作详细说明如下。

(四)附图说明

图1示出了传统搜寻装置搜寻环球信息网的方法流程示意图。

图2示出了依照本发明一个最佳实施例的一种网站信息提取***的***结构图。

图3示出了图2中的网站信息提取***201的***方框图。

图4示出了图3中的数据提取装置303的***方框图。

图5示出了图2中的网站信息提取***201的提取网站信息的方法流程示意图。

图6示出了图2中的网站信息提取***201的网站信息提取方法的流程图。

图7示出了数据提取设定单元401设定段落提取的设定界面示意图。

图8示出了数据提取设定单元401设定栏提取的设定界面示意图。

图9示出了数据提取设定单元401设定标记删除的设定界面示意图。

图10示出了图6中的步骤605的子步骤流程图。

(五)具体实施方式

请参照图2，其示出了依照本发明一个最佳实施例的一种网站信息提取***的***结构图。在图2中，网站信息提取***201通过互联网(lnternet)203与环球信息网(world wide web)205连接。其中，环球信息网205包括多个网站(web site)207。而网站信息提取***201可提供用户用以浏览搜寻全球信息205的各网站207的网页，并可过滤掉多余的数据而提取出用户所需要的网页数据及栏数据。

接着请参考图3，其示出了图2中的网站信息提取***201的***方框图。如图3中所示，网站信息提取***201包括搜寻装置301、数据提取装置303、存储装置305、搜寻装置设定装置307以及监视器(monitor)309。其中，搜寻装置设定装置307提供用户设定的一个网页搜寻条件，而此网页搜寻条件用以供搜寻装置301判断哪些网站的网页需要被搜寻，哪些网页不需要被检索。而搜寻装置301经由互联网203与环球信息网205连接，用以搜寻并提取环球信息网205的各网站207中符合网页搜寻条件的网页数据。搜寻装置301将上述的搜寻结果输出到一个搜寻网页文件，并且将搜寻网页文件存储到存储装置305中。

此时，此搜寻网页文件为网页原始数据，其包括网页显示控制标记(tag)以及用户不需要的数据。而数据提取装置用于依据用户所设定的一个网页过滤条件，从搜寻网页文件中提取出用户所需要的数据内容或栏，并存储成一个提取文件。此外，监视器309用以显示提取文件的内容。而存储装置305用以存储上述的网页搜寻条件、网页过滤条件、搜寻网页文件以及提取文件。

接着请参考图4，其示出了图3中的数据提取装置303的***方框图。如图4所示，数据提取装置303包括数据提取设定单元401、栏提取单元403、标记删除单元405以及段落提取单元407。其中，数据提取设定单元401用于供用户设定上述的网页过滤条件。而网页过滤条件还可包括设定一个提取栏起始字、一个提取栏结束字、一个提取段落起始字、一个提取段落结束字以及一个待删除文字。

栏提取单元403用于提取搜寻网页文件中位于提取拦位起始字与提取栏结束字之间的数据或拦位。标记删除单元405用于删除搜寻网页文件中的所有网页显示控制标记。而段落提取单元407可供用户设定删除或保留搜寻网页文件中位于提取段落起始字与提取段落结束字之间的数据，亦可用于删除搜寻网页文件中用户所设定的待删除文字。

此外，数据提取设定单元401亦可供用户弹性设定栏提取单元403、标记删除单元405以及段落提取单元407的执行顺序，以便能够顺利提取出用户所需要的数据。

请参考图5，其示出了图2中网站信息提取***201的提取网站信息的方法流程示意图。例如用户想要检索相关网站中PDA这个产品的价格。首先搜寻装置301依据网页搜寻条件在各网站207中检索出内容为原始网页数据的搜寻网页文件。接着由数据提取装置303从搜寻网页文件中提取出用户所需要的数据，并存储为提取文件。如图5中所示，用户可直接从提取文件中看到各相关网站的商品与价格，毋须连接至各网站的网址才能看到内容。

接着请参考图6，其示出了图2中网站信息提取***201的网站信息提取方法的流程图。在步骤601中，用户在搜寻装置设定装置307与数据提取设定单元401中分别设定网页搜寻条件与网页过滤条件。而网页搜寻条件的设定至少包括：

(1)搜寻网址设定：用户至少设定一个网址以供搜寻装置301连接搜寻。

(2)全文检索条件设定：用户至少设定一个检索关键字，以供搜寻装置301判断是否要提取此网址的网页内容的数据。

(3)网址搜寻条件设定：用户可选择设定一个特别字，以供搜寻装置301判断一个网址若包含此特别字，即决定提取该网页内容。

(4)搜寻网址路径设定：用户可选择设定一个路径关键字，以供搜寻装置301判断一个网址中是否包含此路径关键字，以决定是否继续搜寻此网址的子目录。

(5)帐号密码设定：用户可选择设定一个帐号及密码，当一个网址需要帐号与密码才能检视时，搜寻装置301将会以用户预先设定的帐号与密码登入。

(6)搜寻深度：用户可选择设定搜寻网站时的深度。

此外，用户利用数据提取设定单元401来设定是否执行栏提取单元403、标记删除单元405以及段落提取单元407及其执行顺序。在此实施例的中，以段落提取单元407、栏提取单元403、标记删除单元405的顺序为执行顺序为例进行说明，但本发明并不以此为限。同时请参考图7，其示出了数据提取设定单元401设定段落提取的设定界面示意图。图8中的下拉选单701可供用户选定段落提取、栏提取或标记删除选项，借此可设定段落提取单元407、栏提取单元403、标记删除单元405的执行顺序。如图7所示，用户利用下拉选单701设定数据提取装置303将首先执行段落提取单元407，且用户可选择设定段落提取单元407的操作是段落提取或字串提取：

(1)段落提取：用户设定提取段落起始字与提取段落结束字，并在第一选项703设定是否删除或保留位于提取段落起始字与提取段落结束字之间的文字。另外用户可利用第二选项705设定所选取的段落是否包含提取段落起始字与提取段落结束字。

(2)字串提取：用户输入待删除文字。

接着请参考图8，其示出了数据提取设定单元401设定栏提取的设定界面示意图。在图8中，用户选取栏提取以设定数据提取装置303依序执行栏提取单元403。且用户可输入至少一组以上的提取栏起始字与提取栏结束字，以便栏提取单元403提取出位于提取栏起始字与提取栏结束字之间的栏数据。

请参考图9，其示出了数据提取设定单元401设定标记删除的设定界面示意图。在图9中，用户选取标记删除以设定数据提取装置303在第三个步骤将执行段落提取单元407。其中，用户可选择是否删除空白行。

接着在图6所示的步骤603中，搜寻装置301依据网页搜寻条件中的设定，搜寻环球信息网205中各网站207的网页数据，并提取符合网页搜寻条件的网页数据且输出到搜寻网页文件。接着进行步骤605。

在步骤605中，数据提取装置303依据设定的网页过滤条件，从搜寻网页文件中提取内容而形成提取文件。而此步骤的详细子步骤，请参考图10。图10示出了图6中的步骤605的子步骤流程图。在步骤1001中，段落提取单元407删除或保留搜寻网页文件中位于提取段落起始字与提取段落结束字之间的数据，或者删除用户所设定的待删除文字。

接着在步骤1003中，栏提取单元403提取网页文件中位于提取栏起始字与提取栏结束字之间的数据。接着进行步骤1005，标记删除单元405删除搜寻网页文件中的所有网页显示控制标记。在步骤607中，监视器309向用户显示提取文件的内容。如此即完成了本发明的网站信息提取方法。

在上述实施例之中，以段落提取、栏提取、标记删除的顺序为数据提取装置303从搜寻网页文件中提取内容形成提取文件的操作顺序为例进行说明，但本发明并不以此为限。用户可以自行设定以便能够达到提取出适当的数据。

本发明上述实施例所披露的网站信息提取***与方法，除通过上述的设定步骤，替代了人力处理数据搜寻提取与整理的大量工作负荷外，对于锁定提取的目标数据，还可以通过提取***流程的设定，达到及时更新的效果，相比于一般的搜寻装置对于数据及时性的掌握也更有效率；此外，本发明还具有下列优点：

(1)本发明的网站信息提取***将用户欲检索的数据提取并显示出来，并过滤掉不需要的数据，非常方便用户的阅读，节省了用户再搜寻的时间。

(2)本发明的网站信息提取***将环球信息网205中各网站207中符合用户所需要的数据均并列显示出来，便于用户比较不同网页的数据相关性与差异性。

综上所述，虽然本发明已以一最佳实施例披露如上，但其并非用以限定本发明，所属领域的任何普通技术人员，在不脱离本发明的精神和范围的前提下，应当可以做出各种的修改，因此本发明的保护范围应当以后附的权利要求书所限定的范围为准。

Claims

1.一种网站信息提取***，通过互联网(Internet)与环球信息网(world wide web)连接，用以浏览并过滤该环球信息网的网页数据，所述网站信息提取***至少包括：

一个搜寻装置，经由互联网与环球信息网连接，用以依据用户所设定的一个网页搜寻条件来搜寻该环球信息网中的网页数据，并将搜寻结果输出到一个搜寻网页文件中；

一个数据提取装置，用于接收所述搜寻网页文件，并依据用户所设定的一个网页过滤条件来提取所述搜寻网页文件的内容并形成一个提取文件；以及

一个存储装置，用于存储所述网页搜寻条件、所述网页过滤条件、所述搜寻网页文件以及所述提取文件。

2.如权利要求1所述的***，其中所述***还包括一个监视器(monitor)，所述监视器用于显示所述提取文件的内容。

3.如权利要求1所述的***，其中所述网页过滤条件还包括一个提取栏起始字、一个提取栏结束字、一个提取段落起始字、一个提取段落结束字以及一个待删除文字，且所述数据提取装置还包括：

一个栏提取单元，用于提取所述搜寻网页文件中位于所述提取栏起始字与所述提取栏结束字之间的数据；

一个标记删除单元，用于删除所述搜寻网页文件中的所有网页显示控制标记(tag)；以及

一个段落提取单元，用于删除或保留所述搜寻网页文件中位于所述提取段落起始字与所述提取段落结束字之间的数据，还可用于删除所述搜寻网页文件中的所述待删除文字。

4.如权利要求3所述的***，其中所述数据提取装置还包括一个数据提取设定单元，所述数据提取设定单元用于供所述用户设定所述网页过滤条件。

5.如权利要求1所述的***，其中所述***还包括一个搜寻装置设定装置，所述搜寻装置设定装置用于供所述用户设定所述网页搜寻条件。

6.一种网站信息提取方法，用于供一个用户浏览并过滤环球信息网的网页数据，所述网站信息提取方法包括：

所述用户设定一个网页搜寻条件与一个网页过滤条件；

依据所述网页搜寻条件，搜寻所述环球信息网中的网页数据，并将搜寻结果输出到一个搜寻网页文件中；以及

依据所述网页过滤条件，提取所述搜寻网页文件的内容并形成一个提取文件。

7.如权利要求6所述的方法，其中所述方法还包括：

显示所述提取文件的内容。

8.如权利要求6所述的方法，其中所述网页过滤条件还包括一个提取栏起始字、一个提取栏结束字、一个提取段落起始字以及一个提取段落结束字，且依据所述网页过滤条件来提取所述搜寻网页文件的内容并形成一个提取文件的步骤还包括：

删除或保留所述搜寻网页文件中位于所述提取段落起始字与所述提取段落结束字之间的数据；

提取所述搜寻网页文件中位于所述提取栏起始字与所述提取栏结束字之间的数据；以及

删除所述搜寻网页文件中的所有网页显示控制标记。

9.如权利要求6所述的方法，其中所述网页过滤条件还包括一个提取栏起始字、一个提取栏结束字以及一个待删除文字，且依据所述网页过滤条件提取所述搜寻网页文件的内容并形成一个提取文件的步骤还包括：

删除所述搜寻网页文件中的所述待删除文字；

删除所述搜寻网页文件中的所有网页显示控制标记。

10.如权利要求6所述的方法，其中所述网页过滤条件还包括一个提取栏起始字以及一个提取栏结束字，且依据所述网页过滤条件提取所述搜寻网页文件的内容并形成一个提取文件的步骤还包括：

删除所述搜寻网页文件中的所有网页显示控制标记。

11.一种计算机可读的记录媒体，包括一个用于执行网站信息提取方法的程序，其中所述方法用于供用户浏览并过滤环球信息网的网页数据，所述网站信息提取方法包括：

所述用户设定一个网页搜寻条件与一个网页过滤条件；

12.如权利要求11所述的计算机可读记录媒体，其中所述方法还包括：

显示所述提取文件的内容。

13.如权利要求11所述的计算机可读记录媒体，其中所述网页过滤条件还包括一个提取栏起始字、一个提取栏结束字、一个提取段落起始字以及一个提取段落结束字，且依据所述网页过滤条件提取所述搜寻网页文件的内容形成一个提取文件的步骤还包括：

删除所述搜寻网页文件中的所有网页显示控制标记。

14.如权利要求11所述的计算机可读记录媒体，其中所述网页过滤条件还包括一个提取栏起始字、一个提取栏结束字以及一个待删除文字，且依据所述网页过滤条件提取所述搜寻网页文件的内容形成一个提取文件的步骤还包括：

删除所述搜寻网页文件中的所述待删除文字；

删除所述搜寻网页文件中的所有网页显示控制标记。

15.如权利要求11所述的计算机可读记录媒体，其中所述网页过滤条件还包括一个提取栏起始字以及一个提取栏结束字，且依据所述网页过滤条件提取所述搜寻网页文件的内容形成一个提取文件的步骤还包括：

删除所述搜寻网页文件中的所有网页显示控制标记。