CN111428105A - 一种基于爬虫缓存的网页书签管理方法及其*** - Google Patents

一种基于爬虫缓存的网页书签管理方法及其*** Download PDF

Info

Publication number
CN111428105A
CN111428105A CN202010148931.1A CN202010148931A CN111428105A CN 111428105 A CN111428105 A CN 111428105A CN 202010148931 A CN202010148931 A CN 202010148931A CN 111428105 A CN111428105 A CN 111428105A
Authority
CN
China
Prior art keywords
webpage
bookmark
user terminal
cache
proxy server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010148931.1A
Other languages
English (en)
Inventor
梁永堂
史伟
闵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Eflycloud Computing Co Ltd
Original Assignee
Guangdong Eflycloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Eflycloud Computing Co Ltd filed Critical Guangdong Eflycloud Computing Co Ltd
Priority to CN202010148931.1A priority Critical patent/CN111428105A/zh
Publication of CN111428105A publication Critical patent/CN111428105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于爬虫缓存的网页书签管理方法及其***,网页书签管理方法步骤包括:用户终端对需要访问的网页保存在书签管理工具中;用户终端向缓存代理服务器发起书签管理请求;缓存代理服务器对书签管理工具中的网页执行爬虫和网络请求:将网页标题和相关信息保存在对应的网页书签;当爬到该网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更;用户终端进行网页访问;缓存代理服务器对用户终端的网页访问内容进行缓冲;若访问的网页已标记为无效情况下,缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。本发明能够对网页书签的进行自动管理,并且可以对无效网页进行缓存数据的访问。

Description

一种基于爬虫缓存的网页书签管理方法及其***
技术领域
本发明涉及网页书签技术领域,特别涉及一种基于爬虫缓存的网页书签管理方法及其***。
背景技术
网页书签管理,目前大多数用户都是依靠浏览器中的书签管理器,每一次都需要手动添加、修改和删除等操作,管理起来极其繁琐。
随着互联网的不断提高和发展,很多网站和分享页面也不断增多,用户对网页书签管理同时增加管理困难,对书签有管理要求的用户可能会通过多层目录来对网页链接进行保存或整理,但这种方法并不能达到较好的效果。同时,用户也无法每时每刻去查看网页是否已经无效,是否已经变更等状态,导致书签会越来越多,越来越乱,所以一个好的书签管理方法装置,是能很好的节省用户操作和改善用户体验。
关于网页书签管理,有两个核心的要求,第一是能及时发现异常的情况(即可能出现攻击),第二是在大流量的攻击中把真正的攻击者找出来。
目前的网页书签管理装置一般是采用浏览器的书签管理器,手动去对网络链接进行保存,在需要打开的时候去查找相关链接,同时还可能需要靠人的记忆相关字段,然后才完成打开网页的操作,这种装置的缺陷在于需要对大量的手动操作,极大浪费用户的时间,还有当网址已经变更或者无效时,用户也无法立即知道,导致用户通常已经不会去查找书签,甚至直接重新通过网络搜索器重新查找对应内容。
发明内容
本发明要解决的技术问题在于,提供一种基于爬虫缓存的网页书签管理方法及其***,能够对网页书签的进行自动管理,不仅大大地减轻用户的操作量,还可以让用户更清晰地管理自己的书签,并且本发明对网页数据进行缓存,使得访问网页无效情况下,用户也可以通过缓存数据进行网页访问。
为解决上述技术问题,本发明提供如下技术方案:一种基于爬虫缓存的网页书签管理方法,包括以下步骤:
S3、缓存代理服务器定时对书签管理工具中的网页执行爬虫和网络请求:
当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;
当爬到网页的标题、页面文字或json数据等一系列网页内容的相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;
当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
S4、用户终端通过书签管理工具进行网页访问;若访问的网页为有效情况下,则跳转到网页进行访问,缓存代理服务器对用户终端的网页访问内容进行缓冲,当对网页的访问进行结束后,缓存代理服务器对缓冲的网页访问内容进行保存形成静态内容;若访问的网页已标记为无效情况下,缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。
进一步地,所述步骤S3前还包括步骤S2、用户终端向缓存代理服务器发起书签管理请求。
进一步地,所述步骤S2前还包括步骤S1、用户终端对需要访问的网页以书签方式保存在书签管理工具中。
进一步地,所述步骤S1中的相关信息包括网页的页面文字和json数据。
本发明另一目的是提供一种基于爬虫缓存的网页书签管理***,包括用户终端、缓存代理服务器和网页服务器,所述用户终端包括书签管理工具;
所述书签管理工具用于存储网页的网址、标题以及相关信息;
所述用户终端用于对所述书签管理工具中的网页进行访问,所述网页服务器存储有网页的访问信息,用户终端连接网页服务器进行网页访问;
所述缓存代理服务器连接所述用户终端和网页服务器,其用于对书签管理工具中的网页执行爬虫和网络请求:当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;当爬到网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
所述缓存代理服务器还用于缓存所述用户终端对网页服务器的网页访问内容并形成静态内容;
所述用户终端还用于:当访问网页服务器的网页为无效时,对所述缓存代理服务器进行访问,缓存代理服务器将静态内容反馈给用户终端。
采用上述技术方案后,本发明至少具有如下有益效果:本发明通过爬虫网页,这样可以准确地自动变更网页标题以及相关内容,并且能够及时通知用户,让用户可以清晰的知道网页的主题内容;本发明对网页进行缓存静态内容,当检测网页已经无效时,可以返回用户最后一次访问的静态内容,这样使得用户即便未查看完网页内容,也能保证能查看静态内容。
附图说明
图1为本发明一种基于爬虫缓存的网页书签管理方法步骤流程图;
图2为本发明一种基于爬虫缓存的网页书签管理***框架图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
本发明主要用于解决目前的网页书签管理低下的管理方法和解决网页访问等问题,本发明通过采用旁路部署检测缓存代理设备,并且部署爬虫式的书签管理工具的方法,缓存代理服务器对网页进行爬虫和缓存,爬虫主要是爬书签的标题,这样可以准确的自动变更网页标题并且通知用户,让用户可以清晰的知道网页的主题内容;同时会对网页进行缓存静态内容,当检测网页已经无效时,可以返回用户最后一次访问的静态内容,这样使得用户即便未查看完网页内容,也能保证能查看静态内容。
实施例1
如图1所示,本发明提供一种基于爬虫缓存的网页书签管理方法,其具体步骤如下:
S1、用户终端对需要访问的网页(网址)以书签方式保存在书签管理工具中;
S2、用户终端向缓存代理服务器发起书签管理请求;
S3、缓存代理服务器定时对书签管理工具中的网页执行爬虫和网络请求:
如果某一网页书签只有网址信息,而没有对应的网页标题和相关信息的,此时,当爬到该网页书签的网页标题或相关信息,需要将网页标题和相关信息保存在书签管理工具中对应的网页书签,生成网页书签信息;将书签管理工具中的所有网页书签都爬虫一遍,并保存每一个网页书签的网页标题和相关信息;上述的相关信息包括网页的页面文字和json数据;
如果某一网页书签已经保存了对应的网页标题和相关信息的,此时,当爬到该网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;
当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
S4、用户终端通过书签管理工具进行网页访问;
若访问的网页为有效情况下,则跳转到网页进行访问,缓存代理服务器对用户终端的网页访问内容进行缓冲,当对网页的访问进行结束后,缓存代理服务器对缓冲的网页访问内容进行保存形成静态内容;另外,如果该网页已经多次进行了访问,那么缓存代理服务器只会对最新一次网页访问的内容进行保存并形成静态内容,将旧的静态内容删除;
若访问的网页已标记为无效情况下,缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。
实施例2
本实施例是在实施例1的网页书签管理方法基础上公开一种基于爬虫缓存的网页书签管理***,如图2所示,包括用户终端、缓存代理服务器和网页服务器,所述用户终端包括书签管理工具;
所述书签管理工具用于存储网页的网址、标题以及相关信息;
所述用户终端用于对所述书签管理工具中的网页进行访问,所述网页服务器存储有网页的访问信息,用户终端连接网页服务器进行网页访问;
所述缓存代理服务器连接所述用户终端和网页服务器,其用于对书签管理工具中的网页执行爬虫和网络请求:当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;当爬到网页的标题、页面文字或json数据等一系列网页内容的相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
所述缓存代理服务器还用于缓存所述用户终端对网页服务器的网页访问内容并形成静态内容;
所述用户终端还用于:当访问网页服务器的网页为无效时,对所述缓存代理服务器进行访问,缓存代理服务器将静态内容反馈给用户终端。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

Claims (5)

1.一种基于爬虫缓存的网页书签管理方法,其特征在于,包括以下步骤:
S3、缓存代理服务器定时对书签管理工具中的网页执行爬虫和网络请求:
当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;
当爬到网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;
当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
S4、用户终端通过书签管理工具进行网页访问;若访问的网页为有效情况下,则跳转到网页进行访问,缓存代理服务器对用户终端的网页访问内容进行缓冲,当对网页的访问进行结束后,缓存代理服务器对缓冲的网页访问内容进行保存形成静态内容;若访问的网页已标记为无效情况下,缓存代理服务器则将网页的最后一次访问的静态内容发送给用户终端。
2.根据权利要求1所述的一种基于爬虫缓存的网页书签管理方法,其特征在于,所述步骤S3前还包括步骤S2、用户终端向缓存代理服务器发起书签管理请求。
3.根据权利要求2所述的一种基于爬虫缓存的网页书签管理方法,其特征在于,所述步骤S2前还包括步骤S1、用户终端对需要访问的网页以书签方式保存在书签管理工具中。
4.根据权利要求1所述的一种基于爬虫缓存的网页书签管理方法,其特征在于,所述步骤S1中的相关信息包括网页的页面文字和json数据。
5.一种基于爬虫缓存的网页书签管理***,其特征在于,包括用户终端、缓存代理服务器和网页服务器,所述用户终端包括书签管理工具;
所述书签管理工具用于存储网页的网址、标题以及相关信息;
所述用户终端用于对所述书签管理工具中的网页进行访问,所述网页服务器存储有网页的访问信息,用户终端连接网页服务器进行网页访问;
所述缓存代理服务器连接所述用户终端和网页服务器,其用于对书签管理工具中的网页执行爬虫和网络请求:当爬到网页标题和相关信息,将其保存在书签管理工具中对应的网页书签,生成网页书签信息;当爬到网页的标题或相关信息有变更,则自动将对应的网页书签信息进行变更,并通知用户;当检测到网页访问已经无效后,则自动将对应的网页书签信息标记为无效,并通知用户;
所述缓存代理服务器还用于缓存所述用户终端对网页服务器的网页访问内容并形成静态内容;
所述用户终端还用于:当访问网页服务器的网页为无效时,对所述缓存代理服务器进行访问,缓存代理服务器将静态内容反馈给用户终端。
CN202010148931.1A 2020-03-05 2020-03-05 一种基于爬虫缓存的网页书签管理方法及其*** Pending CN111428105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010148931.1A CN111428105A (zh) 2020-03-05 2020-03-05 一种基于爬虫缓存的网页书签管理方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010148931.1A CN111428105A (zh) 2020-03-05 2020-03-05 一种基于爬虫缓存的网页书签管理方法及其***

Publications (1)

Publication Number Publication Date
CN111428105A true CN111428105A (zh) 2020-07-17

Family

ID=71547710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010148931.1A Pending CN111428105A (zh) 2020-03-05 2020-03-05 一种基于爬虫缓存的网页书签管理方法及其***

Country Status (1)

Country Link
CN (1) CN111428105A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831144A (zh) * 2012-06-12 2012-12-19 优视科技有限公司 基于移动终端的书签交互处理方法、装置和***
CN102915363A (zh) * 2012-10-18 2013-02-06 北京奇虎科技有限公司 网址收藏方法和***
CN102929985A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 一种收藏网页展示的方法和***
CN104572753A (zh) * 2013-10-24 2015-04-29 腾讯科技(深圳)有限公司 一种书签存储方法及书签存储装置
CN109582888A (zh) * 2018-11-30 2019-04-05 上海爱优威软件开发有限公司 网页书签整理方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831144A (zh) * 2012-06-12 2012-12-19 优视科技有限公司 基于移动终端的书签交互处理方法、装置和***
CN102915363A (zh) * 2012-10-18 2013-02-06 北京奇虎科技有限公司 网址收藏方法和***
CN102929985A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 一种收藏网页展示的方法和***
CN104572753A (zh) * 2013-10-24 2015-04-29 腾讯科技(深圳)有限公司 一种书签存储方法及书签存储装置
CN109582888A (zh) * 2018-11-30 2019-04-05 上海爱优威软件开发有限公司 网页书签整理方法及***

Similar Documents

Publication Publication Date Title
US6785769B1 (en) Multi-version data caching
US9509748B2 (en) Efficient storage and retrieval of resources for rendering structured documents
US7996397B2 (en) Using network traffic logs for search enhancement
US9858273B2 (en) Speculative rendering during cache revalidation
US7778987B2 (en) Locally storing web-based database data
US7552224B2 (en) Ubiquitous visited links
CA2530565C (en) Server architecture and methods for persistently storing and serving event data
US20040267815A1 (en) Searchable personal browsing history
EP2593882B1 (en) Method and apparatus of processing nested fragment caching of a web page
US20150082438A1 (en) System and server for detecting web page changes
US20060048046A1 (en) Marking and annotating electronic documents
US20080222242A1 (en) Method and System for Improving User Experience While Browsing
CN103546498B (zh) 一种为移动终端提供访问网页的方法与设备
US8225192B2 (en) Extensible cache-safe links to files in a web page
US20130268831A1 (en) Method, device, and system for acquiring start page
JP2004078783A (ja) Wwwブラウザのキャッシュ管理装置、そのキャッシュ管理方法及びプログラム
CN106649313B (zh) 用于处理缓存数据的方法和设备
US8150943B2 (en) Methods and apparatus for dynamically generating web pages
JP3445912B2 (ja) ハイパーテキスト自動取得装置
CN103455492B (zh) 一种搜索网页的方法和装置
CN102681996B (zh) 预读方法和装置
CN111428105A (zh) 一种基于爬虫缓存的网页书签管理方法及其***
CN111984868A (zh) 一种浏览器中浏览网页的控制方法及装置
US20190370350A1 (en) Dynamic Configurability of Web Pages
CN103294695B (zh) 网页浏览方法和装置以及网址提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200717