CN101364970A - 网页资料下载控制***及方法 - Google Patents

网页资料下载控制***及方法 Download PDF

Info

Publication number
CN101364970A
CN101364970A CNA2007102013237A CN200710201323A CN101364970A CN 101364970 A CN101364970 A CN 101364970A CN A2007102013237 A CNA2007102013237 A CN A2007102013237A CN 200710201323 A CN200710201323 A CN 200710201323A CN 101364970 A CN101364970 A CN 101364970A
Authority
CN
China
Prior art keywords
data
date
tabulation
download
downloading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007102013237A
Other languages
English (en)
Other versions
CN101364970B (zh
Inventor
李忠一
叶建发
李大鹏
李支红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2007102013237A priority Critical patent/CN101364970B/zh
Priority to US12/188,207 priority patent/US8117536B2/en
Publication of CN101364970A publication Critical patent/CN101364970A/zh
Application granted granted Critical
Publication of CN101364970B publication Critical patent/CN101364970B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种网页资料下载控制方法,该方法包括如下步骤:设置需要下载的资料的网站地址;解析设置的网站地址下的一个网页的资料列表,以获得该资料列表的资料信息;计算该资料列表中全部资料的条数;获取解析得到的资料信息;判断资料列表中的各条资料是否已经下载;若有资料没有被下载,则生成资料列表中没有被下载的资料的脚本语言下载命令;通过生成的脚本语言下载命令下载对应的资料保存至数据库中;计算生成的脚本语言下载命令数;判断资料列表中全部资料的条数是否等于生成的脚本语言下载命令数;若资料的条数等于生成的脚本语言下载命令数,则执行翻页动作。另外,本发明还提供一种网页资料下载控制***。

Description

网页资料下载控制***及方法
技术领域
本发明涉及一种网页资料下载控制***及方法。
背景技术
随着互连网的运用,从网站上下载各种资料到数据库越来越普遍,通常下载的资料不是在一个页面显示,而是分成很多页,在实际的操作过程中,每次下载都是从头到尾执行一遍,即从第一页到最后一页都执行一遍,对于已经下载过的资料,重复执行,效率不高,且浪费网络资源。
发明内容
鉴于以上内容,有必要提供一种网页资料下载控制***,通过比较下载资料列表中的资料条数和所生成的下载资料的命令数来控制网页的翻动。
此外,还有必要提供一种网页资料下载控制方法,通过比较下载资料列表中的资料条数和所生成的下载资料的命令数来控制网页的翻动。
一种网页资料下载控制***,包括应用服务器及与该应用服务器相连的数据库,该应用服务器包括:设置模块,用于设置资料下载控制参数,所述的资料下载控制参数包括需要下载的资料的网站地址及允许下载的时间范围;解析模块,用于解析设置的网站地址下的一个网页的资料列表;获取模块,用于获取解析得到的该资料列表的资料信息,所述资料列表的资料信息包括各条资料的发布时间;计算模块,用于计算所述资料列表中全部资料的条数;判断模块,用于通过获取的资料信息来判断所述资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载的时间范围之内;生成模块,用于生成所述资料列表中还在允许下载的时间范围之内且没有被下载的资料的脚本语言下载命令;下载模块,用于通过生成的脚本语言下载命令下载对应的资料,并将下载的资料保存至数据库中;所述计算模块,还用于计算生成的脚本语言下载命令数;所述判断模块,还用于判断所述资料列表中资料的条数是否等于生成的脚本语言下载命令数;翻页模块,用于当所述资料列表中资料的条数等于生成的脚本语言下载命令数时,执行网页的翻页动作。
一种网页资料下载控制方法,该方法包括如下步骤:设置资料下载控制参数,所述的资料下载控制参数包括需要下载的资料的网站地址及允许下载的时间范围;解析设置的网站地址下的一个网页的资料列表;获取解析得到的该资料列表的资料信息,所述资料列表的资料信息包括各条资料的发布时间;计算该资料列表中全部资料的条数;通过获取的资料信息来判断所述资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载时间范围之内;若资料列表中有资料没有被下载,且所述没有被下载的资料的发布时间在允许下载时间范围之内,则生成所述还在允许下载的时间范围之内且没有被下载的资料的脚本语言下载命令;通过生成的脚本语言下载命令下载对应的资料,并将下载的资料保存至数据库中;计算生成的脚本语言下载命令数;判断所述资料列表中全部资料的条数是否等于生成的脚本语言下载命令数;若所述资料列表中全部资料的条数等于生成的脚本语言下载命令数,则执行翻页动作。
相较于现有技术,所述的网页资料下载控制***及方法,其可通过解析的网页中是否有已经下载的资料判断是否要翻页,避免了程序每次都从第一页到最后一页都执行一遍的繁琐步骤,提高了下载的效率,节约了网络资源。
附图说明
图1是本发明网页资料下载控制***的较佳实施例的硬件框架图。
图2是图1中应用服务器的功能模块图。
图3是本发明网页资料下载控制方法的较佳实施例的流程图。
具体实施方式
如图1所示,是本发明一种网页资料下载控制***较佳实施例的硬件架构图。该***包括应用服务器1、数据库2、客户端3、防火墙4及网络5。该应用服务器1通过防火墙4与网络5相连,用于下载网站上发布的资料,并将所述下载的资料保存至数据库2中。该应用服务器1可以是个人计算机、网络服务器,还可以是任意其它适用的数据处理设备。该防火墙4用于管控网络5的信息安全。该网络5可以是因特网也可以是局域网。
该应用服务器1与数据库2相连,该数据库2用于存储应用服务器1所下载的资料,该数据库2可以内置于应用服务器1,也可以外置于应用服务器1。
此外,该应用服务器1与至少一客户端3相连,该客户端3用于提供一个互动式界面给用户,便于用户输入下载信息至应用服务器1。
如图2所示,是图1中应用服务器的的功能模块图。该应用服务器1包括设置模块10、解析模块12、计算模块14、判断模块16、获取模块18、生成模块20、下载模块22及翻页模块24。
所述设置模块10用于设置资料下载控制参数,并将所述设置的参数保存至数据库2中。所述的资料下载控制参数包括需要下载资料的网站地址、下载资料允许的时间范围及保存下载资料的路径。
所述解析模块12用于解析设置的网站地址下的一个网页的资料列表,所述的资料列表的资料信息包括各条下载资料的日期,各条下载资料的地址及标题。
所述计算模块14用于计算当前网页资料列表中全部资料的条数,及计算生成的脚本语言下载命令数。在此实施例中脚本语言指的是Xquery脚本语言。
所述判断模块16用于判断当前网页资料列表中是否存在下一条资料。
所述获取模块18用于获取解析得到的该资料列表的资料信息。
所述的判断模块16还用于判断当前网页资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载的时间范围之内。
所述生成模块20用于生成所述当前页资料列表中还在允许下载的时间范围之内且没有被下载的资料的脚本语言(Xquery)命令。在此实施例中,当解析资料列表中的一条资料时,若该条资料没有下载且在允许的下载日期范围内时,则生成模块20生成一条Xquery语言命令。生成模块20生成多少条命令数,则下载多少条资料。
所述判断模块16还用于判断所述当前网页资料列表中的下载资料是否全部检测完毕。
所述下载模块22用于通过生成的脚本语言下载命令下载对应的资料并以可扩展标记语言(Extensible Markup Language,XML)文件形式将下载的资料保存至应用服务器1中。
所述判断模块16还用于判断所述当前页资料列表中资料的条数是否大于生成的Xquery命令数。
所述的翻页模块24用于当所述当前页资料列表中资料的条数等于生成的脚本语言下载命令数时,执行网页的翻页动作。
如图3所示,是本发明一种网页资料下载控制方法的较佳实施例的流程图。首先,步骤S10,设置模块10设置资料下载控制参数,并将所设置的参数保存至数据库2中。所述的资料下载控制参数包括:下载资料的网站地址、下载资料允许的时间范围及保存下载资料的路径。所述的下载资料的网站地址是指:URL链接地址。具体而言,以需要下载新浪网站上的科技新闻资料为例,设置模块10在***中设置新浪网站下科技新闻资料的URL地址。
步骤S11,解析模块12解析设置的下载资料的网站地址下的当前网页的资料列表,以获得该资料列表的资料信息。所述的当前网页的资料列表是指包含多条资料的。所述资料列表的资料信息包括资料列表中每条下载资料的发布日期,每条下载资料的地址及标题。网站上可供下载的资料都以资料列表的形式显示与页面上,资料列表中有存放的一条一条的资料,解析模块12解析网页下资料列表中存放的各条资料信息。
步骤S12,计算模块14计算当前网页资料列表中全部资料的条数。
步骤S13,判断模块16判断当前网页资料列表中是否存在下一条资料。
步骤S14,当前网页资料列表中存在下一条资料时,获取模块18获取一条资料的基本信息。所述的基本信息包括:包括该条资料的发布日期、下载地址、标题。
步骤S15,判断模块16判断当前网页资料列表中该条资料是否已经被下载在数据库中。具体而言,通过该条资料的标题和下载地址(URL)查询数据库2中是否有该条资料;若数据库2中有该条资料,则该条资料已经下载,若数据库2中没有该条资料,则该条资料还没有被下载。
步骤S16,当前网页资料列表中单条资料还没有被下载至数据库中时,判断模块16判断当前网页资料列表中该单条资料的发布时间是否在设置的允许下载的时间范围之内。
步骤S17,当该单条资料发布时间在设置的允许下载的时间范围之内时,生成模块20生成下载该单条资料的Xquery命令。一条资料对应一条Xquery命令。
步骤S18,判断模块16判断当前网页资料列表的资料是否全部检测完毕。
步骤S19,当前网页资料列表中的每条资料全部检测完毕时,下载模块22通过生成的Xquery命令下载对应的当前网页资料,并以可扩展标记语言(Extensible MarkupLanguage,XML)文件形式将下载的资料按照设置的存储下载资料的路径保存至应用服务器1中。
步骤S20,计算模块14计算当前网页资料列表中生成的下载资料的Xquery命令数。
步骤S21,判断模块16判断当前网页资料列表中资料的条数是否大于生成的Xquery命令数。
步骤S22,当前网页资料列表中全部资料的条数等于生成的Xquery命令数时,翻页模块24执行网页的翻页动作,之后回到步骤S11。
在步骤S13中,若当前网页资料列表中不存在下一条资料时,则转到步骤S20。
在步骤S15中,若当前网页资料列表中单条资料已经下载时,则回到步骤S13。
在步骤S16中,若当该单条资料发布时间不在设置的允许下载的时间范围之内时,则回到步骤S13。
在步骤S18中,若当前网页资料列表中还有资料没有检测到时,则回到步骤S13。
在步骤S22中,若当前网页资料列表中资料的条数不等于生成的Xquery命令数时,则结束流程。

Claims (7)

  1. 【权利要求1】一种网页资料下载控制***,包括应用服务器及与该应用服务器相连的数据库,其特征在于,该应用服务器包括:
    设置模块,用于设置资料下载控制参数,所述的资料下载控制参数包括需要下载的资料的网站地址及允许下载的时间范围;
    解析模块,用于解析设置的网站地址下的一个网页的资料列表;
    获取模块,用于获取解析得到的该资料列表的资料信息,所述资料列表的资料信息包括各条资料的发布时间;
    计算模块,用于计算所述资料列表中全部资料的条数;
    判断模块,用于通过获取的资料信息来判断所述资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载的时间范围之内;
    生成模块,用于生成所述资料列表中还在允许下载的时间范围之内且没有被下载的资料的脚本语言下载命令;
    下载模块,用于通过生成的脚本语言下载命令下载对应的资料,并将下载的资料保存至数据库中;
    所述计算模块,还用于计算生成的脚本语言下载命令数;
    所述判断模块,还用于判断所述资料列表中资料的条数是否等于生成的脚本语言下载命令数;
    翻页模块,用于当所述资料列表中资料的条数等于生成的脚本语言下载命令数时,执行网页的翻页动作。
  2. 【权利要求2】如权利要求1所述的网页资料下载控制***,其特征在于,所述资料下载控制参数还包括保存下载的资料的路径;下载模块在下载资料的过程中,按照所述的路经把资料下载到数据库中。
  3. 【权利要求3】如权利要求1所述的网页资料下载控制***,其特征在于,所述资料列表的资料信息包括:各条资料的下载地址及标题;判断模块通过所述的各条资料的下载地址及标题判断所述资料是否在数据库中已经下载。
  4. 【权利要求4】一种网页资料下载控制方法,其特征在于,该方法包括如下步骤:
    设置资料下载控制参数,所述的资料下载控制参数包括需要下载的资料的网站地址及允许下载的时间范围;
    解析设置的网站地址下的一个网页的资料列表;
    获取解析得到的该资料列表的资料信息,所述资料列表的资料信息包括各条资料的发布时间;
    计算该资料列表中全部资料的条数;
    通过获取的资料信息来判断所述资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载时间范围之内;
    若资料列表中有资料没有被下载,且所述没有被下载的资料的发布时间在允许下载时间范围之内,则生成所述还在允许下载的时间范围之内且没有被下载的资料的脚本语言下载命令;
    通过生成的脚本语言下载命令下载对应的资料,并将下载的资料保存至数据库中;
    计算生成的脚本语言下载命令数;
    判断所述资料列表中全部资料的条数是否等于生成的脚本语言下载命令数;
    若所述资料列表中全部资料的条数等于生成的脚本语言下载命令数,则执行翻页动作。
  5. 【权利要求5】如权利要求4所述的网页资料下载控制方法,其特征在于,该方法还包括步骤:
    若资料列表中全部资料的条数不等于生成的脚本语言下载命令数,则结束流程。
  6. 【权利要求6】如权利要求4所述的网页资料下载控制方法,其特征在于,所述资料下载控制参数还包括保存下载的资料的路径;在下载资料的过程中,是按照所述的路经把资料下载到数据库中。
  7. 【权利要求7】如权利要求4所述的网页资料下载控制方法,其特征在于,所述资料列表的资料信息还包括:资料列表中各条资料的下载地址及标题;所述的各条资料的下载地址及标题被用于判断各条资料是否已经被下载在数据库中。
CN2007102013237A 2007-08-09 2007-08-09 网页资料下载控制***及方法 Expired - Fee Related CN101364970B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2007102013237A CN101364970B (zh) 2007-08-09 2007-08-09 网页资料下载控制***及方法
US12/188,207 US8117536B2 (en) 2007-08-09 2008-08-08 System and method for controlling downloading web pages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007102013237A CN101364970B (zh) 2007-08-09 2007-08-09 网页资料下载控制***及方法

Publications (2)

Publication Number Publication Date
CN101364970A true CN101364970A (zh) 2009-02-11
CN101364970B CN101364970B (zh) 2012-06-20

Family

ID=40347629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007102013237A Expired - Fee Related CN101364970B (zh) 2007-08-09 2007-08-09 网页资料下载控制***及方法

Country Status (2)

Country Link
US (1) US8117536B2 (zh)
CN (1) CN101364970B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103078881A (zh) * 2011-10-26 2013-05-01 腾讯科技(深圳)有限公司 网络资源下载信息的分享控制***和方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302285A1 (en) * 2010-06-07 2011-12-08 Quora, Inc. Update server to update rendered content

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043215A (ja) * 1999-08-02 2001-02-16 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
AU1844001A (en) * 1999-11-30 2001-06-12 Maxamine International Pty Ltd Web map tool
US6643641B1 (en) * 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
US7421645B2 (en) * 2000-06-06 2008-09-02 Microsoft Corporation Method and system for providing electronic commerce actions based on semantically labeled strings
WO2002042932A2 (de) * 2000-11-27 2002-05-30 Volkswagen Aktiengesellschaft Verfahren zum laden, speichern und darstellen von webseiten
US7379977B2 (en) * 2001-07-24 2008-05-27 Steve Walrath System and method for display of multiple electronic pages
US7873900B2 (en) * 2002-03-22 2011-01-18 Inet Spch Property Hldg., Limited Liability Company Ordering internet voice content according to content density and semantic matching
US7712020B2 (en) * 2002-03-22 2010-05-04 Khan Emdadur R Transmitting secondary portions of a webpage as a voice response signal in response to a lack of response by a user
US7580960B2 (en) * 2003-02-21 2009-08-25 Motionpoint Corporation Synchronization of web site content between languages
US7584194B2 (en) * 2004-11-22 2009-09-01 Truveo, Inc. Method and apparatus for an application crawler
JP4569685B2 (ja) * 2008-08-13 2010-10-27 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置、アドレス記憶方法、およびアドレス記憶プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103078881A (zh) * 2011-10-26 2013-05-01 腾讯科技(深圳)有限公司 网络资源下载信息的分享控制***和方法
CN103078881B (zh) * 2011-10-26 2016-05-11 腾讯科技(深圳)有限公司 网络资源下载信息的分享控制***和方法

Also Published As

Publication number Publication date
US8117536B2 (en) 2012-02-14
CN101364970B (zh) 2012-06-20
US20090044102A1 (en) 2009-02-12

Similar Documents

Publication Publication Date Title
CA2742059C (en) Method and system for automated analysis and transformation of web pages
CN102663062B (zh) 一种处理搜索结果中无效链接的方法及装置
US7885950B2 (en) Creating search enabled web pages
JP5756386B2 (ja) 動的なウェブ・アプリケーションの問題を修正するメタデータの生成・管理の支援方法、装置、およびプログラム
CN102073726B (zh) 搜索引擎***的结构化数据的引入方法和装置
US20060224967A1 (en) Method and system for transferring web browser data between web browsers
WO2004083989A2 (en) Web server for adapted web content
WO2005033969A1 (en) Web content adaptation process and system
CN106250454B (zh) 一种页面脚本的加载方法及装置
US20120102390A1 (en) Method and apparatus for generating widget
CN107545058B (zh) 一种页面加载方法、服务器及浏览器
CN103389895A (zh) 一种前端页面的生成方法及***
US20080028284A1 (en) System and method for web-based interactive gathering hyperlinks and email addresses
CN102314494B (zh) 一种用于处理网页内容的方法和设备
CN111488508A (zh) 一种支持多协议分布式高并发的互联网信息采集***及方法
CN102968345A (zh) 便签实时同步方法及装置
Lee et al. An adaptive website system to improve efficiency with web mining techniques
CN101458693A (zh) 网页下载解析***及方法
CN102955852A (zh) 一种网页资源处理方法、装置及设备
CN101364970B (zh) 网页资料下载控制***及方法
CN111310005A (zh) 网络请求的处理方法及装置、服务器和存储介质
US8577912B1 (en) Method and system for robust hyperlinking
CN110516185B (zh) 动态网站的处理方法及装置
CN108874856B (zh) 一种页面生成***、方法及服务器
TWI402694B (zh) 網頁資料下載控制系統及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120620

Termination date: 20150809

EXPY Termination of patent right or utility model