CN101315629B

CN101315629B - 网页动态内容的下载方法及其***

Info

Publication number: CN101315629B
Application number: CN2007101058955A
Authority: CN
Inventors: 王全喜
Original assignee: 潘晓梅
Priority date: 2007-06-01
Filing date: 2007-06-01
Publication date: 2010-11-17
Anticipated expiration: 2027-06-01
Also published as: CN101315629A

Abstract

本发明公开了一种网页动态内容下载方法及其***，本发明方法包括步骤：检索页面获取符合检索条件的检索结果，根据获取到的检索结果生成下载任务列表，每个下载任务对应一条检索结果记录；链接到所述下载任务列表中相应的检索结果记录所链接的页面，并根据预先设定的该页面中的页面元素与所要提取的内容数据的对应关系，从该页面中相应的页面元素所对应的位置提取相应的内容数据；将提取到的所述内容数据保存到文件或数据库。采用本发明，可实现自动下载网页的动态内容并进行保存。

Description

网页动态内容的下载方法及其***

技术领域

本发明涉及通信领域中的计算机与互联网络通信技术，尤其涉及一种网页动态内容的下载方法及其下载***。

背景技术

互联网网站包含了大量资料，要想从各种网站提供的大量资料中查找出有用的资料，就需要进行检索。很多网站提供了资料检索功能，能够根据用户输入的条件动态生成检索结果，检索结果通常是以列表的形式显示出来，用户可以根据检索结果列表的链接打开查看具体某件资料记录的详细内容。

这种互联网资料的检索查看方式很适合用户检索查阅资料，但这种方式存在以下局限性，例如：

这种方法需要使用者保持本地计算机连接互联网的状态，计算机在脱机的时候无法使用，只有在重新连接到互联网并连接到检索页面重新输入检索关键词后才能继续检索。由于检索条件不能重用，因此每次检索都要输入检索关键词，比较繁琐。对于检索到的检索结果没有保存，并且对于需要进一步查看详细内容的资料只能手工点击查看、手工保存。因而对于检索到的资料没有有效地组织，不利于进行资料的整理分析，也不利于将资料应用到其他文档中。

因此，上述资料检索与下载方法只适合于检索查找少量资料的情况，不适合查找大量资料的情况。

目前有一些网站镜像工具能够从一批URL(Uniform Resource Locator，统一资源定位符)开始，下载页面以及页面中的图片、声音、动画，然后根据页面中的每一个链接，重复以上的步骤，如此递归、下载网站的全部内容，但这些软件相对于静态内容非常有效，对于动态内容就无能为力了，而且对于下载哪些内容没有选择性和可控性，即多是一些“盲目”的检索和下载。

目前还有些网站下载工具可以将互联网上的资料数据下载保存到本地，并建立本地资料数据库，但这种***只能下载已经预先设定好的网站资料，不能由用户设定需要检索下载资料的动态网站，因此应用上有一定的局限性。

发明内容

本发明提供一种网页动态内容的下载方法，以实现对网页的动态内容进行下载和存储，该方法包括如下步骤：

从检索页面获取符合检索条件的检索结果，根据获取到的检索结果生成下载任务列表，每个下载任务对应一条检索结果记录；

链接到所述下载任务列表中的检索结果记录所链接的页面，并根据预先设定的该页面中的页面元素与所要提取的内容数据的对应关系，从该页面中相应的页面元素所对应的位置提取相应的内容数据；

将提取到的所述内容数据保存到文件或数据库。

本发明还提供了一种网页动态内容的下载***，该***包括：任务管理模块和数据管理模块，以及至少一个下载管理模块；

所述任务管理模块，用于从检索页面获取符合检索条件的检索结果，根据获取到的检索结果生成下载任务列表，每个下载任务对应一条检索结果记录；

所述下载管理模块，用于链接到所述任务管理模块生成的下载任务列表中的检索结果记录所链接的页面，并根据预先设定的该页面中的页面元素与所要提取的内容数据的对应关系，从该页面中相应的页面元素所对应的位置提取相应的内容数据；

所述数据管理模块，用于将所述下载管理模块提取到的所述内容数据保存到文件或数据库。

本发明有益效果如下：

本发明通过根据检索结果生成下载任务列表，执行下载任务列表中的下载任务，得到与检索结果对应的内容数据并进行保存，从而实现了对网页的动态内容进行下载和存储。

附图说明

图1为本发明实施例的运行环境示意图；

图2为本发明实施例提供的网页动态内容下载***的结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

本发明实施例提供了一种网页动态内容下载方法和网页动态内容下载***，该方法和***运行在如图1所示的C/S(Client/Server，客户端/服务器)架构下。该架构包括数据库服务器、文件服务器，以及多个客户机。客户机可以通过上网设备与Internet连接，客户机通过内部网络与数据库服务器和文件服务器连接。用户可以从客户机对Internet上的网页动态内容进行检索并下载，并可以将下载资料的元数据保存于数据库服务器，将下载资料的文件数据保存于文件服务器。

参见图2，为本发明实施例提供的网页动态内容下载***的结构示意图，该***包括任务管理模块、下载管理模块和数据管理模块。其中，下载管理模块可以有多个。

任务管理模块用于设置下载任务，包括：设置检索页面地址、获取检索条件并保存、保存检索结果列表到数据库或文件，生成下载任务列表。该任务管理模块包括：

检索地址设置子模块，用于设置进行资料检索的检索页面的链接地址，该检索页面是可以供用户输入检索条件的页面。该子模块提供检索地址设置窗口，并可以获取用户在该窗口中输入的页面地址，或获取用户从该窗口提供的可供选择的检索页面地址中选中的地址。检索地址设置子模块在用户设置完成检索页面地址后，链接到该地址，向用户提供检索条件输入界面。

检索条件获取子模块，用于获取用户在网站返回的检索页面中输入的检索关键词并保存；

检索结果获取子模块，用于根据检索条件获取子模块获取到的检索条件，获取与用户输入的检索关键词对应的检索结果列表；

任务列表生成子模块，用于将检索结果获取子单元获取到的检索结果列表进行保存，可保存到数据库中，也可保存到文件中，生成下载任务列表；

该任务管理模块还可以包括任务调度子模块，用于调度下载任务列表中的下载任务，根据用户的设定，为下载任务分配合理的下载线程，如，为下载任务指定一个或多个下载管理模块，使执行该下载任务时，可由指定的多个下载模块同时进行下载，从而可提高下载效率。

下载管理模块用于按照任务管理模块设置的下载任务，从指定的网站下载资料。该下载管理模块包括：

下载执行子模块，用于执行下载任务，根据任务列表中的下载任务生成发送到相应网站的请求消息，请求获取详细内容；

内容提取子模块，用于接收相应网站返回的详细内容，并从返回的页面源文件中提取相应的内容数据。

数据管理模块用于将下载管理模块下载的资料保存于数据库服务器和文件服务器。该数据管理模块包括：

元数据处理子模块，用于将下载管理模块提取到的有关该详细内容数据的元数据信息保存到资料数据库的元数据库中；

文件数据处理子模块，用于将下载管理模块提取到的详细内容数据(如文本或图像)保存到本地或文件服务器，并建立与资料数据库中的元数据记录的对应关系。

采用上述动态网页内容下载***对网页动态内容进行下载的过程，包括下载任务生成阶段和下载执行阶段。

下载任务的生成主要由任务管理模块完成。

任务管理模块根据指定的检索条件，获得符合检索条件的检索结果列表，生成下载任务列表。任务管理模块既可以设置新的检索条件进行检索，也可以选择重用已保存过的检索条件进行检索。

任务管理模块中的检索地址设置子模块为用户提供检索设置界面，用户可以通过检索设置界面设置检索条件，以获取对应的检索结果列表。

客户端界面可以包括多个窗口，例如：设置检索页面地址的设置窗口、检索条件输入窗口、检索结果列表显示窗口等。

如果通过设置新的检索条件进行检索，用户首先在检索页面地址的设置窗口中设置检索页面的URL地址，可以在输入框中输入URL地址，也可以在预先设置的地址列表中选择URL地址或网站名称，其中网站名称与该网站的检索页面URL地址相对应。设置检索页面地址后，检索地址设置子模块保存该地址设置，并可自动连接到该地址对应的检索页面，将该检索页面显示于检索条件输入窗口，以供用户输入检索关键词。然后，检索条件获取子模块获得用户在检索页面中输入检索关键词并保存。在用户确认提交后，检索结果获取子模块通过Internet向与该检索页面对应的网站服务器提交检索请求，携带获取到的用户输入的检索关键词。网站服务器处理该请求，并将符合检索条件的检索结果列表返回给检索结果获取子模块，检索结果获取子模块将检索结果列表显示于检索结果列表显示窗口。下载任务生成子模块将检索结果获取子模块获取到的检索结果列表保存到文件或数据库中，并据此生成下载任务列表。

在检索页面中，所有检索条件都放在FORM表单中，每个检索条件都包含至少一个变量。在客户端连接到检索页面后，检索条件获取子模块还要获取FORM表单中的检索条件内容和相应的变量名。例如：在专利检索页面FORM表单中的检索条件包括申请日、申请号、申请人、申请文件名称等检索内容，对应的变量明为AppDate、AppNum、Applicant、PatentName等。

如果选择已有的检索条件进行检索，则检索结果获取子模块从文件或数据库中读取保存的检索条件(包括检索页面地址和检索关键词)，将该检索条件转换为动态网站可识别的连接请求，并向相应的网站发送请求，获取符合检索条件的检索结果。

检索结果获取子模块在收到返回的检索结果列表后，将检索结果列表进行保存。可以将检索结果列表保存到文件，也可以保存到数据库，并生成下载任务列表。本实施例中，将检索结果列表保存到数据库中，生成下载任务列表。

如果预先已经存在任务列表，此时可直接将检索结果追加到任务列表中。如果预先未设置任务列表，此时可根据任务管理模块此前获得到的变量名和相应的检索条件内容的对应关系创建任务列表。即，将变量名作为任务列表的字段名，将检索条件内容作为任务列表的字段值。例如，以上述专利检索为例，在专利数据库中，将对应的申请日、申请号、申请人、申请文件名称等作为字段名，将AppDate、AppNum、Applicator、PatentName等变量的值作为任务列表的字段值，创建任务列表。然后，将检索结果列表中的每个检索结果条目作为任务列表中的一个记录，保存到任务列表中。

为了避免重复保存任务，可指定一个或多个字段进行比较，只保存字段值不同的记录。例如，在上述专利检索例子中，由于申请号是唯一的，因此在保存检索结果时，可先比较需要保存的检索结果的申请号与任务列表中已有记录的申请号是否相同，如果不同，则保存该检索结果，否则不保存。

在将检索结果保存到任务列表的过程中，下载任务生成子模块根据检索结果列表页面中检索结果列表的结构，确定页面中的HTML元素与任务列表中的字段的对应关系，将检索结果列表中的内容存储到对应的任务列表的字段中。以上述专利检索为例，如果检索结果列表中给出了申请日、申请号、申请人和申请文件名称等内容，则任务生成子模块根据该检索结果列表的结构，确定申请日、申请号等对应的HTML元素(在HTML中表现为对应的<TD>)，并将该元素对应的AppDate、AppNum等变量值写入任务列表中的申请日、申请号等字段。

如果检索结果列表分为多页显示，则检索结果获取子模块从检索结果列表页面的源代码中识别出下一页的链接地址URL，并跳转到下一页，下载任务生成子模块将该页显示的检索结果记录到任务列表中，直到将所有的检索结果记录到任务列表中。

可以将检索结果列表中的所有条检索结果都保存在任务列表中，也可以仅保存指定的检索结果条目或指定数量的检索结果条目。

下载任务生成子模块生成任务列表时，可在每条记录中设置一个标识字段，用于指示该条记录的详细内容是否下载完成。这样，每次启动下载任务时，客户端的下载管理模块可通过该标识字段判断对应的记录是否完成下载，从而只下载那些标识为未完成的记录，因而节省了下载时间，减少了网络资源的占用。

对于生成的下载任务列表，任务管理模块中的任务调度子模块可以对列表中的下载任务进行调度，根据用户的设定分配合理的下载线程，如，为下载任务指定一个或多个下载管理模块，这样在下载该任务时，可由指定的多个下载模块同时执行该下载任务，以提高下载效率。

下载任务的执行主要由下载管理模块完成。

客户端的下载管理模块按照由任务管理模块生成的下载任务列表，连接到指定的下载地址并下载相应的资料的详细内容。

下载执行子模块可提供下载启动按钮，当用户点击该下载启动按钮时，下载执行子模块逐一下载任务列表中的记录所对应的详细内容。

下载执行子模块对任务列表中的记录所对应的详细内容进行下载时，首先根据设定，将单个记录的相关信息转换成网站服务器可识别的请求信息，然后，根据设定的详细内容查看网页的地址URL，把网站可识别的请求信息发送到网站进行请求，获取返回的请求结果页面。例如，在上述专利检索的例子中，下载执行子模块可以设定将申请号字段中的申请号与详细内容查看网页地址URL组装为请求消息，发送到相应网站，以获取相应的详细内容。

下载执行子模块执行下载任务时，可读取该下载任务记录中标识该任务是否已经完成的标识字段值，如果判断该下载任务还未执行，则执行该任务，否则不予执行。在执行完成一个下载任务后，下载执行子模块将该任务标记为已下载完成。

下载执行子模块还可以在网络下载出现错误时自动进行重复连接下载，直到下载成功，或达到预先设定的下载次数，以确保所有资料下载成功。

下载提取子模块接收到网站服务器返回的详细内容页面后，根据详细查看页面的设定，对返回的详细内容页面源文件进行分析，从返回的页面源文件中提取数据，将源文件中不同位置的不同数据提取出来后提交到数据管理模块保存。可以根据预先的设定，确定从返回的页面中的哪个位置提取出的数据作为元数据，从哪个位置提取出的数据作为文件数据。例如，在上述专利检索的例子中，由于一个专利检索网站的专利详细内容页面的格式是比较固定的，比如包括法律状态和摘要说明，因此可以针对某个专利检索网站设定HTML元素与相应专利详细内容的对应关系，根据这种对应关系，可以从相应的HTML元素提取相应的内容，如法律状态和摘要说明，并将法律状态作为元数据，将摘要说明作为文件数据。

数据管理模块接收到下载管理模块下载的详细内容后，将其进行保存。数据管理模块可以预先设置资料数据库，以保存下载的资料，资料数据库可以包括保存元数据的元数据库和保存文件的文件数据库，元数据库可以位于数据库服务器，文件数据库可以位于文件服务器。元数据处理子模块接收下载管理模块下载的可以用于标引该详细内容的数据，并保存到元数据库中的相应字段。文件数据处理子模块接收下载管理模块下载的详细内容数据，并保存到文件数据库中，同时建立与元数据库中相应记录的对应关系。这样，当从元数据库查询对应资料时，数据管理模块可根据该对应关系从文件数据库中获取对应的详细内容。

综上所述，本发明通过动态网页内容的下载***，可针对不同的动态资料查询网页，设定需要下载的不同内容，并将下载的内容存储到文件或数据库中，通过网络一次性下载所有需要的资料，且不再下载已经在保存过的资料，节省了资料下载的时间，减少了网络资源的占用。下载不成功时，***会自动重复下载，直至所有资料下载成功或下载次数达到使用者设定的次数，尽可能保证了资料的下载。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种网页动态内容下载方法，其特征在于，包括如下步骤：

将提取到的所述内容数据保存到文件或数据库。

2.如权利要求1所述的方法，其特征在于，从检索页面获取符合检索条件的检索结果的过程，包括步骤：

根据保存的检索页面地址和检索条件信息，向所述检索页面地址对应的网站服务器发送请求消息，携带所述检索条件信息，请求获取符合所述检索条件的检索结果。

3.如权利要求1所述的方法，其特征在于，根据获取到的检索结果生成下载任务列表的过程，包括步骤：

根据预先对检索结果页面源代码中的页面元素与检索结果记录中的信息的对应关系，获取所述检索结果页面中的每个检索结果记录信息；

将获取到的检索结果记录信息保存到下载任务列表中的相应字段。

4.如权利要求3所述的方法，其特征在于，进一步包括步骤：

获取所述检索结果页面所链接的下一页检索结果页面的地址；

链接到所述地址对应的检索结果页面，并将该页面中的检索结果记录保存到所述下载任务列表中。

5.如权利要求3或4所述的方法，其特征在于，将检索结果记录保存到所述下载任务列表时，判断所述下载任务列表中是否已经存在与该检索结果记录相同的记录，若已存在，则不保存该检索结果记录。

6.如权利要求1所述的方法，其特征在于，在链接到所述下载任务列表中相应的检索结果记录所链接的页面之前，还包括步骤：判断所述检索结果记录所对应的下载任务是否已经执行完成，若未执行完成，则执行该下载任务，否则不予执行；

在链接到所述检索结果记录所链接的页面并提取对应的内容数据后，还包括步骤：将对应的下载任务标识为已经完成。

7.一种网页动态内容下载***，其特征在于，包括：任务管理模块和数据管理模块，以及至少一个下载管理模块；

8.如权利要求7所述的网页动态内容下载***，其特征在于，所述任务管理模块包括：

检索条件获取子模块，用于获取用户指定的检索页面地址和输入的检索关键词，并保存；

检索结果获取子模块，用于根据所述检索条件获取子模块保存的检索页面地址和检索条件，获取对应的检索结果列表；

任务列表生成子模块，用于根据所述检索结果获取子模块获取到的检索结果列表生成下载任务列表。

9.如权利要求8所述的网页动态内容下载***，其特征在于，所述任务管理模块还包括：

任务调度子模块，用于为所述下载任务列表中的下载任务分配至少一个下载管理模块。

10.如权利要求7所述的网页动态内容下载***，其特征在于，所述下载管理模块包括：

下载执行子模块，用于根据所述任务列表中的下载任务，生成发送到相应网站的请求消息，请求获取对应的详细内容；

内容提取子模块，用于接收相应网站返回的详细内容页面，并根据预先设定的页面源代码中的页面元素与所要提取的内容的对应关系，从相应页面元素位置提取相应的内容数据。

11.如权利要求7所述的网页动态内容下载***，其特征在于，所述数据管理模块包括：

元数据处理子模块，用于将所述下载管理模块下载得到的详细内容数据中的元数据信息保存到元数据库中；

文件数据处理子模块，用于将所述下载管理模块下载得到的详细内容数据中的文件数据保存为文件，并建立与相应元数据的对应关系。