CN106919600A - 一种失效网址访问方法及终端 - Google Patents

一种失效网址访问方法及终端 Download PDF

Info

Publication number
CN106919600A
CN106919600A CN201510996598.9A CN201510996598A CN106919600A CN 106919600 A CN106919600 A CN 106919600A CN 201510996598 A CN201510996598 A CN 201510996598A CN 106919600 A CN106919600 A CN 106919600A
Authority
CN
China
Prior art keywords
network address
browser
address
url
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510996598.9A
Other languages
English (en)
Inventor
朱宏浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Mobile Communications Technology Co Ltd
Original Assignee
Hisense Mobile Communications Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Mobile Communications Technology Co Ltd filed Critical Hisense Mobile Communications Technology Co Ltd
Priority to CN201510996598.9A priority Critical patent/CN106919600A/zh
Publication of CN106919600A publication Critical patent/CN106919600A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的实施例提供一种失效网址访问方法及终端,涉及互联网通信技术,解决了现有技术中需要用户的参与,才可获取失效网址对应的网页缓存的问题。该方法包括:当判定浏览器加载的网址为失效网址时,根据所述浏览器中的搜索引擎的搜索入口地址以及该失效网址生成一个统一资源定位符URL;根据URL从网络中获取URL对应的网页内容;解析该网页内容,从该网页内容中获取失效网址的目标网页缓存的超链接地址;通过浏览器加载该超链接地址,显示该目标网页缓存。

Description

一种失效网址访问方法及终端
技术领域
本发明涉及互联网通信技术领域,尤其涉及一种失效网址访问方法及终端。
背景技术
人们通过浏览器可以从互联网获得大量信息,但是在有些情况下,当我们使用浏览器中的搜索引擎进行网页搜索(例如,网址所指向的网页内容被移除或该网址对应的网站无法访问)时,点击某一搜索结果可能会出现无法访问的情况。
但是,由于当前主流的互联网搜索引擎都具备“网页缓存”功能,即搜索引擎的爬虫机器人会周期性的抓取它扫描到的网络站点页面,然后将其网页数据缓存到搜索引擎的网页缓存数据库中,因此,互联网内的绝大部分网络页面都存在有历史镜像备份页面,即互联网搜索引擎在提供搜索结果给客户端时,会同时提供一个“网页缓存”的链接地址给用户。这样当用户发现搜索链接为一个失效链接时,该用户便可通过点击“网页缓存”链接,来获取该搜索引擎提供商的网页缓存。但是,上述的“网页缓存”链接是需要用户通过手工访问的方式访问搜索引擎站点得到的,整个过程需要用户的参与,工作效率过低。
发明内容
本发明的实施例提供一种失效网页访问方法及终端,解决了现有技术中需要用户的参与,才可获取失效网址对应的网页缓存的问题。
第一方面,提供一种失效网址访问方法,包括:
当判定浏览器加载的网址为失效网址时,根据所述浏览器中的搜索引擎的搜索入口地址以及所述失效网址生成一个统一资源定位符URL;
根据所述URL从网络中获取所述URL对应的网页内容;
解析所述网页内容,从所述网页内容中获取所述失效网址的目标网页缓存的超链接地址;
通过所述浏览器加载所述超链接地址,显示所述目标网页缓存。
第二方面,提供一种终端,包括:
生成模块,用于当终端判定浏览器加载的网址为失效网址时,根据所述浏览器中的搜索引擎的搜索入口地址以及所述失效网址生成一个统一资源定位符URL;
第一获取模块,用于根据所述生成模块生成的所述URL从网络中获取所述URL对应的网页内容;
第二获取模块,用于解析所述第一获取模块获取的所述网页内容,从所述网页内容中获取所述失效网址的目标网页缓存的超链接地址;
显示模块,用于通过所述浏览器加载所述第二获取模块获取的所述超链接地址,显示所述目标网页缓存。
本发明的实施例提供的失效网址访问方法及终端,当判定浏览器加载的网址为失效网址时,根据所述浏览器中的搜索引擎的搜索入口地址以及失效网址生成一个统一资源定位符URL,然后根据该URL从网络中获取URL对应的网页内容,接着,解析该网页内容,并从该网页内容中获取该失效网址的目标网页缓存的超链接地址,最后,通过浏览器加载该超链接地址,从而显示该目标网页缓存。
相比于现有技术需要用户的参数,才能够获取失效网址对应的网页缓存,本申请中的终端在发现网址失效时,无需用户的参数,直接生成能够获取到该失效网址对应的所有网页缓存的URL,然后,从网络反馈的该URL对应的网页内容中获取到该失效网址的目标网页缓存的超链接地址,最后加载该超链接地址,从而使得该用户无需任何参与,便可以在浏览器页面中浏览失效网址对应的网页内容,从而在用户需要的时候,自动完成缓存网页的加载,提升用户操作体验,增强了浏览器的使用体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种***架构的结构示意图;
图2为本发明实施例提供的一种失效网址访问方法的流程示意图;
图3为本发明实施例提供的一种终端的结构示意图;
图4为本发明实施例提供的另一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中的终端应用于如图1所示的网络***架构中,该***架构包括终端11、网络12以及服务器13。
其中,上述的终端可以为智能手机、智能手表、平板电脑、笔记本电脑、超级移动个人计算机(英文:Ultra-mobile Personal Computer,简称:UMPC)、上网本、个人数字助理(英文:Personal Digital Assistant,简称:PDA)等终端设备,且不限于此。此外,该终端11上可以安装有各种通讯客户端应用,例如即时通信工具、邮箱客户端、社交平台软件等。上述的网络12用以在终端11和服务器13之间提供通信链路的介质,该网络12可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。上述的服务器13可以是提供各种服务的服务器,该服务器13可以对接收到的数据进行存储、分析等处理,并将处理结果反馈给终端11。用户可以使用终端11通过网络12与服务器13交互,以收发消息,例如,用户可以通过终端11通过网络12从服务器13获取网页缓存。需要说明的是,图1中的***架构中的终端11、网络12和服务器13的数目在图1中仅仅是一种示例,实际应用中,可以根据具体的应用场景来确定数量。
本发明中提及的网页缓存,也叫网页快照(Web Cache)。当前主流的互联网搜索引擎都具备“网页缓存”功能,即搜索引擎在收录网页时,对网页进行备份,存在自己的服务器缓存里,当用户在搜索引擎中点击“网页快照”链接时,搜索引擎将Spider(蜘蛛)***当时所抓取并保存的网页内容展现出来,称为“网页快照”。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本发明的实施例提供一种失效网址访问方法,如图2所示,该方法具体包括如下步骤:
201、当判定浏览器加载的网址为失效网址时,终端根据浏览器中的搜索引擎的搜索入口地址以及失效网址生成一个统一资源定位符(英文:Uniform Resoure Locator,简称:URL)。
示例性的,上述的浏览器中的搜索引擎的搜索入口为浏览器默认的搜索引擎和/或浏览器中的任一搜索引擎的搜索入口地址。具体的,步骤201中终端根据浏览器中的搜索引擎的搜索入口地址以及失效网址生成一个URL的过程具体包括:终端将浏览器中的搜索引擎的搜索入口地址作为前缀,与该失效网址组合,生成该URL。
例如,百度的搜索入口URL为:http://www.***.com/s?wd=%s的形式,若我们搜索目标为URL1,那么最终组合成的目标URL为:http://www.***.com/s?wd=URL1。
示例性的,本发明所提供的失效网址访问方法可以应用于互联网浏览器内,操作界面上主要体现在两个方面:1)、当终端判定浏览器加载的网址为失效网址时,在当前浏览器页面内加入一个提示用户"是否使用搜索引擎提供商的网页缓存"的功能,当用户确认使用后,将启动本发明所提供的失效网址访问方法;2)、在浏览器的地址栏旁增加一个按钮,用户可以通过该按钮,直接访问目标网址位于搜索引擎提供商数据库的网页缓存,而不是访问真实的目标网址站点;3)、在浏览器的设置选项内,增加一个“网页缓存提供方”的切换选项,供用户选择使用不同的搜索引擎提供商。
示例性的,一般情况下,通常采用超文本传输协议(英文:Hyper Text TransferProtocol,简称:HTTP)状态码(HTTP Status Code)来判断网址的有效性。具体的,终端判定浏览器加载网址是否为失效网址的具体过程包括:终端提取浏览器加载的网址的超文本协议HTTP状态码,基于HTTP状态码,判定该网址是否为失效网址。
HTTP状态码是由三位十进制数字组成,用以指出网页访问请求的成功或失败,如果失败则指出原因。HTTP状态码共分五种类型,由HTTP状态码的第一个数字表示类型:
例如,以1开头的3位数字代码,包括:
100(客户端应当继续发送请求);101(服务器已经理解了客户端的请求,并将通过Upgrade(升级)消息通知客户端采用不同的协议来完成这个请求);102(由Web DAV(Web-based Distributed Authoring and Versioning,一种基于HTTP 1.1协议的通信协议)扩展的状态码,代表处理将被继续执行),表示请求已被接受,需要继续处理,这类响应是临时响应,只包含状态行和某些可选的响应头信息,并以空行结束,但是由于HTTP/1.0协议中没有定义任何以1开头的状态码,所以除非在某些试验条件下,服务器禁止向此类客户端发送此类状态码的响应。
以2开头的3位数字代码,包括:
200(请求已成功,请求所希望的响应头或数据体将随此响应返回);201(请求已经被实现,而且有一个新的资源已经依据请求的需要而建立);202(服务器已接受请求,但尚未处理);203(服务器已成功处理了请求,但返回的实体头部元信息不是在原始服务器上有效的确定集合,而是来自本地或者第三方的拷贝);204(服务器成功处理了请求,但不需要返回任何实体内容,并且希望返回更新了的元信息);205(服务器成功处理了请求,且没有返回任何内容)、;206(服务器已经成功处理了部分GET请求);207(由Web DAV(RFC2518)扩展的状态码,代表之后的消息体将是一个XML消息),表示请求已成功被服务器接收、理解、并接受。
以3开头的3位数字代码,300(用户或浏览器能够自行选择一个首选的地址进行重定向);301(被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个URI(通用资源标志符)之一);302(请求的资源现在临时从不同的URI响应请求);303(对应当前请求的响应可以在另一个URI上被找到,而且客户端应当用GET的方式访问那个资源);304(如果客户端发送了一个带条件的GET请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有改变,则服务器应当返回这个状态码);305(被请求的资源必须通过指定的代理才能被访问);306(在最新版的规范中,306状态码已经不再被使用);307(请求的资源现在临时从不同的URI响应请求),表示需要客户端采取进一步的操作才能完成请求,通常,这些状态码用来重定向,后续的请求地址(重定向目标)在本次响应的位置域中指明。
以4开头的3位数字代码,包括:
400(语义有误,当前请求无法被服务器理解,请求参数有误);401(当前请求需要用户验证);402(该状态码是为了将来可能的需求而预留的)、403(服务器已经理解请求,但是拒绝执行它);404(请求失败,请求所希望得到的资源未被在服务器上发现);405(请求行中指定的请求方法不能被用于请求相应的资源);406(请求的资源的内容特性无法满足请求头中的条件,因而无法生成响应实体);407(与401响应类似,只不过客户端必须在代理服务器上进行身份验证);408(请求超时);409(由于和被请求的资源的当前状态之间存在冲突,请求无法完成);410(被请求的资源在服务器上已经不再可用,而且没有任何已知的转发地址);411(服务器拒绝在没有定义Content-Length头的情况下接受请求);412(服务器在验证在请求的头字段中给出先决条件时,没能满足其中的一个或多个);413(服务器拒绝处理当前请求,因为该请求提交的实体数据大小超过了服务器愿意或者能够处理的范围);414(请求的URI长度超过了服务器能够解释的长度,因此服务器拒绝对该请求提供服务);415(对于当前请求的方法和所请求的资源,请求中提交的实体并不是服务器中所支持的格式,因此请求被拒绝);416(如果请求中包含了Range请求头,并且Range中指定的任何数据范围都与当前资源的可用范围不重合,同时请求中又没有定义If-Range请求头,那么服务器就应当返回416状态码);417(在请求头Expect中指定的预期内容无法被服务器满足,或者这个服务器是一个代理服务器,它有明显的证据证明在当前路由的下一个节点上,Expect的内容无法被满足);421(从当前客户端所在的IP地址到服务器的连接数超过了服务器许可的最大范围);422(请求格式正确,但是由于含有语义错误,无法响应);424(由于之前的某个请求发生的错误,导致当前请求失败);425(在Web Dav Advanced Collections草案中定义,但是未出现在《Web DAV顺序集协议》(RFC 3658)中);426(客户端应当切换到TLS/1.0);429(由微软扩展,代表请求应当在执行完适当的操作后进行重试),表示客户端看起来可能发生了错误,妨碍了服务器的处理。
以5开头的3位数字代码,包括:
500(服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理);501(服务器不支持当前请求所需要的某个功能);502(作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应);503(由于临时的服务器维护或者过载,服务器当前无法处理请求);504(作为网关或者代理工作的服务器尝试执行请求时,未能及时从上游服务器收到响应);505(服务器不支持,或者拒绝支持在请求中使用的HTTP版本);506(由《透明内容协商协议》(RFC 2295)扩展,代表服务器存在内部配置错误);507(服务器无法存储完成请求所必须的内容)、509(服务器达到带宽限制);510(获取资源所需要的策略并没有没满足),表示服务器在处理请求的过程中有错误或者异常状态发生,也有可能是服务器意识到以当前的软硬件资源无法完成对请求的处理。
202、终端根据URL从网络中获取URL对应的网页内容。
203、终端解析该网页内容,从网页内容中获取失效网址的目标网页缓存的超链接地址。
示例性的,步骤203具体包括如下步骤:
203a、终端将网页内容对应代码数据按照DOM树形结构进行排列。
203b、终端从重新排列的代码数据中查找失效网址的目标网页缓存的超链接地址。
其中,上述的目标网页缓存为重新排列的代码数据中与失效网址匹配度最高的网页缓存,通常情况下,排在第一位的网页缓存为与失效网址匹配度最高的网页缓存。
示例性的,若搜索引擎以百度为例,终端对网页内容对应代码数据按照文档对象模型(英文:Document Object Model,简称:DOM)树形结构进行重组,然后查找DOM树内的第一个内容为“百度快照”的元素节点,若查找到,则提取该元素节点的href属性值,并将该href属性值作为CACHE_URL(即目标网页缓存的超链接地址),然后通知浏览器加载该CACHE_URL,从而在浏览器页面中显示该目标网页缓存。
例如,若找到第一个内容为“百度快照”的元素节点后,该元素节点的href属性为:
href=http://cache.***content.com/c?m=9f65cb4a8c8507ed4fece763105392230e54f7296c8a9a027fa3c215cc794f041a26b5b462675513d2b56b6776b8482ca0a06b38200250a09bbf9f4badeacf77&p=907dc54ad5c34afb0be2963f4b449e&newp=9e74dd1082904ead02bd9b7d0d1d8a231610db2151d3db4f&user=***&fm=sc&query=www%2Exbox%2Ecom&qid=c52d84f7000053de&p1=1;
则该元素节点的href属性值为:
http://cache.***content.com/c?m=9f65cb4a8c8507ed4fece763105392230e54f7296c8a9a027fa3c215cc794f041a26b5b462675513d2b56b6776b8482ca0a06b38200250a09bbf9f4badeacf77&p=907dc54ad5c34afb0be2963f4b449e&newp=9e74dd1082904ead02bd9b7d0d1d8a231610db2151d3db4f&user=***&fm=sc&query=www%2Exbox%2Ecom&qid=c52d84f7000053de&p1=1
一般的,网页内容对应代码数据可以称为网页代码,网页代码就是指在网页制作过程中需要用到的一些特殊的“语言”,设计人员通过对这些“语言”进行组织编排制作出网页,然后由浏览器对代码进行“翻译”后才是我们最终看到的效果。目前制作网页时常用的代码有超级文本标记语言(英文:Hyper Text Markup Language,简称:HTML),JavaScript,动态服务器页面(英文:Active Server Pages,简称:ASP),超文本预处理器(英文:Hypertext Preprocessor,简称:PHP),公共网关接口(英文:Common Gateway Interface,简称:CGI)等,其中HTML是最基础的网页代码。其中,本实施例中网页内容对应代码数据可以是终端在解析网页内容时直接获取的。
204、终端通过浏览器加载超链接地址,显示目标网页缓存。
本发明的实施例提供的失效网址访问方法,当判定浏览器加载的网址为失效网址时,根据浏览器中的搜索引擎的搜索入口地址以及失效网址生成一个统一资源定位符URL,然后根据该URL从网络中获取URL对应的网页内容,接着,解析该网页内容,并从该网页内容中获取该失效网址的目标网页缓存的超链接地址,最后,通过浏览器加载该超链接地址,从而显示该目标网页缓存。
相比于现有技术需要用户的参数,才能够获取失效网址对应的网页缓存,本申请中的终端在发现网址失效时,无需用户的参数,直接生成能够获取到该失效网址对应的所有网页缓存的URL,然后,从网络反馈的该URL对应的网页内容中获取到该失效网址的目标网页缓存的超链接地址,最后加载该超链接地址,从而使得该用户无需任何参与,便可以在浏览器页面中浏览失效网址对应的网页内容,从而在用户需要的时候,自动完成缓存网页的加载,提升用户操作体验,增强了浏览器的使用体验。
本发明的实施例提供一种终端,该终端用于实现上述的失效网址访问方法,如图3、4所示,该终端3包括:生成模块31、第一获取模块32、第二获取模块33以及显示模块34,其中:
生成模块31,用于当终端判定浏览器加载的网址为失效网址时,根据所述浏览器中的搜索引擎的搜索入口地址以及失效网址生成一个URL。
第一获取模块32,用于根据生成模块31生成的URL从网络中获取所述URL对应的网页内容。
第二获取模块33,用于解析第一获取模块32获取的网页内容,从网页内容中获取失效网址的目标网页缓存的超链接地址。
显示模块34,用于通过浏览器加载第二获取模块33获取的超链接地址,显示目标网页缓存。
示例性的,上述的所述浏览器中的搜索引擎的搜索入口地址为所述浏览器默认的搜索引擎的搜索入口地址。
可选的,第一获取模块32具体用于:将所述浏览器中的搜索引擎的搜索入口地址作为前缀,与失效网址组合,生成URL。
可选的,第二获取模块33具体用于:
将网页内容对应代码数据按照DOM树形结构进行排列;
从重新排列的代码数据中查找失效网址的目标网页缓存的超链接地址;其中,该目标网页缓存为所述重新排列的代码数据中与失效网址匹配度最高的网页缓存。
可选的。如图4所示,该终端3还包括:提取模块35和判断模块36,其中:
提取模块35,用于提取浏览器加载的网址的HTTP状态码。
判断模块36,用于基于提取模块35提取的HTTP状态码,判定该网址是否为失效网址。
本发明的实施例提供的终端,当该终端判定浏览器加载的网址为失效网址时,根据浏览器中的搜索引擎的搜索入口地址以及失效网址生成一个统一资源定位符URL,然后根据该URL从网络中获取URL对应的网页内容,接着,解析该网页内容,并从该网页内容中获取该失效网址的目标网页缓存的超链接地址,最后,通过浏览器加载该超链接地址,从而显示该目标网页缓存。
相比于现有技术需要用户的参数,才能够获取失效网址对应的网页缓存,本申请中的终端在发现网址失效时,无需用户的参数,直接生成能够获取到该失效网址对应的所有网页缓存的URL,然后,从网络反馈的该URL对应的网页内容中获取到该失效网址的目标网页缓存的超链接地址,最后加载该超链接地址,从而使得该用户无需任何参与,便可以在浏览器页面中浏览失效网址对应的网页内容,从而在用户需要的时候,自动完成缓存网页的加载,提升用户操作体验,增强了浏览器的使用体验。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种失效网址访问方法,其特征在于,包括:
当判定浏览器加载的网址为失效网址时,根据所述浏览器中的搜索引擎的搜索入口地址以及所述失效网址生成一个统一资源定位符URL;
根据所述URL从网络中获取所述URL对应的网页内容;
解析所述网页内容,从所述网页内容中获取所述失效网址的目标网页缓存的超链接地址;
通过所述浏览器加载所述超链接地址,显示所述目标网页缓存。
2.根据权利要求1所述的方法,其特征在于,所述浏览器中的搜索引擎的搜索入口为所述浏览器默认的搜索引擎或所述浏览器中的任一搜索引擎的搜索入口地址。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述浏览器中的搜索引擎的搜索入口地址以及所述失效网址生成一个URL具体包括:
将所述浏览器中的搜索引擎的搜索入口地址作为前缀,与所述失效网址组合,生成所述URL。
4.根据权利要求1所述的方法,其特征在于,所述解析所述网页内容,从所述网页内容中获取所述失效网址的目标网页缓存的超链接地址具体包括:
将所述网页内容对应的代码数据按照文档对象模型DOM树形结构进行排列;
从重新排列的代码数据中查找所述失效网址的目标网页缓存的超链接地址;其中,所述目标网页缓存为所述重新排列的代码数据中与所述失效网址匹配度最高的网页缓存。
5.根据权利要求1所述的方法,其特征在于,所述当判定浏览器加载的网址为失效网址时,根据所述浏览器中的搜索引擎的搜索入口地址以及所述失效网址生成一个统一资源定位符URL之前,所述方法还包括:
提取所述浏览器加载的网址的超文本协议HTTP状态码;
基于所述HTTP状态码,判定所述网址是否为失效网址。
6.一种终端,其特征在于,包括:
生成模块,用于当终端判定浏览器加载的网址为失效网址时,根据所述浏览器中的搜索引擎的搜索入口地址以及所述失效网址生成一个统一资源定位符URL;
第一获取模块,用于根据所述生成模块生成的所述URL从网络中获取所述URL对应的网页内容;
第二获取模块,用于解析所述第一获取模块获取的所述网页内容,从所述网页内容中获取所述失效网址的目标网页缓存的超链接地址;
显示模块,用于通过所述浏览器加载所述第二获取模块获取的所述超链接地址,显示所述目标网页缓存。
7.根据权利要求6所述的终端,其特征在于,所述浏览器中的搜索引擎的搜索入口为所述浏览器默认的搜索引擎或所述浏览器中的任一搜索引擎的搜索入口地址。
8.根据权利要求6或7所述的方法,其特征在于,所述第一获取模块具体用于:将所述浏览器中的搜索引擎的搜索入口地址作为前缀,与所述失效网址组合,生成所述URL。
9.根据权利要求6所述的终端,其特征在于,所述第二获取模块,具体用于:
将所述网页内容对应代码数据按照文档对象模型DOM树形结构进行排列;
从重新排列的代码数据中查找所述失效网址的目标网页缓存的超链接地址;其中,所述目标网页缓存为所述重新排列的代码数据中与所述失效网址匹配度最高的网页缓存。
10.根据权利要求6所述的终端,其特征在于,所述终端还包括:
提取模块,用于提取所述浏览器加载的网址的超文本协议HTTP状态码;
判断模块,用于基于所述提取模块提取的所述HTTP状态码,判定所述网址是否为失效网址。
CN201510996598.9A 2015-12-25 2015-12-25 一种失效网址访问方法及终端 Pending CN106919600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510996598.9A CN106919600A (zh) 2015-12-25 2015-12-25 一种失效网址访问方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510996598.9A CN106919600A (zh) 2015-12-25 2015-12-25 一种失效网址访问方法及终端

Publications (1)

Publication Number Publication Date
CN106919600A true CN106919600A (zh) 2017-07-04

Family

ID=59455642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510996598.9A Pending CN106919600A (zh) 2015-12-25 2015-12-25 一种失效网址访问方法及终端

Country Status (1)

Country Link
CN (1) CN106919600A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046310A (zh) * 2019-12-12 2020-04-21 北京奇艺世纪科技有限公司 页面处理方法、装置、服务器及计算机可读存储介质
CN112328922A (zh) * 2020-11-30 2021-02-05 联想(北京)有限公司 一种处理方法及装置
CN112395525A (zh) * 2020-11-30 2021-02-23 上海二三四五网络科技有限公司 一种移动端浏览器中浏览网页的控制方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096418B1 (en) * 2000-02-02 2006-08-22 Persistence Software, Inc. Dynamic web page cache
CN102929984A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 失效网址搜索方法和装置
CN102929985A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 一种收藏网页展示的方法和***
CN102937981A (zh) * 2012-10-18 2013-02-20 北京奇虎科技有限公司 网页呈现***和方法
CN103678487A (zh) * 2013-11-08 2014-03-26 北京奇虎科技有限公司 一种网页快照的生成方法和装置
CN104915404A (zh) * 2015-06-01 2015-09-16 安一恒通(北京)科技有限公司 访问失效网址的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096418B1 (en) * 2000-02-02 2006-08-22 Persistence Software, Inc. Dynamic web page cache
CN102929984A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 失效网址搜索方法和装置
CN102929985A (zh) * 2012-10-18 2013-02-13 北京奇虎科技有限公司 一种收藏网页展示的方法和***
CN102937981A (zh) * 2012-10-18 2013-02-20 北京奇虎科技有限公司 网页呈现***和方法
CN103678487A (zh) * 2013-11-08 2014-03-26 北京奇虎科技有限公司 一种网页快照的生成方法和装置
CN104915404A (zh) * 2015-06-01 2015-09-16 安一恒通(北京)科技有限公司 访问失效网址的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZUSKTE: "百度谷歌搜索引擎参数详解", 《CSDN博客》 *
清新每一天: "在搜索引擎中搜索关键字得到的结果页数的获取技巧", 《CSDN博客》 *
百度: "百度搜索URL参数你知道多少", 《百度经验》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046310A (zh) * 2019-12-12 2020-04-21 北京奇艺世纪科技有限公司 页面处理方法、装置、服务器及计算机可读存储介质
CN111046310B (zh) * 2019-12-12 2024-03-19 北京奇艺世纪科技有限公司 页面处理方法、装置、服务器及计算机可读存储介质
CN112328922A (zh) * 2020-11-30 2021-02-05 联想(北京)有限公司 一种处理方法及装置
CN112395525A (zh) * 2020-11-30 2021-02-23 上海二三四五网络科技有限公司 一种移动端浏览器中浏览网页的控制方法及装置

Similar Documents

Publication Publication Date Title
CN100367276C (zh) 用于在计算机网络内搜索的方法和设备
CN102929984B (zh) 失效网址搜索方法和装置
US6785769B1 (en) Multi-version data caching
US6073241A (en) Apparatus and method for tracking world wide web browser requests across distinct domains using persistent client-side state
CN102521251B (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
JP3807961B2 (ja) セッション管理方法、セッション管理システムおよびプログラム
EP2724251B1 (en) Methods for making ajax web applications bookmarkable and crawlable and devices thereof
US8452925B2 (en) System, method and computer program product for automatically updating content in a cache
US8819819B1 (en) Method and system for automatically obtaining webpage content in the presence of javascript
CN103383687B (zh) 一种页面处理方法和装置
US9602613B2 (en) Method and system for accelerating browsing sessions
US8131753B2 (en) Apparatus and method for accessing and indexing dynamic web pages
CN105930528B (zh) 一种网页缓存的方法及服务器
CN102945259B (zh) 一种基于收藏夹的搜索方法和搜索装置
US20070005606A1 (en) Approach for requesting web pages from a web server using web-page specific cookie data
CN102929985A (zh) 一种收藏网页展示的方法和***
CN107391664A (zh) 基于web的页面数据处理方法和***
CN103617267B (zh) 社交化扩展搜索方法及装置、***
EP2593882A1 (en) Method and apparatus of processing nested fragment caching of a web page
WO2014047739A1 (en) System and method of automatic generation and insertion of analytic tracking codes
CN106897336A (zh) 网页文件发送方法、网页渲染方法及装置、网页渲染***
WO2020207022A1 (zh) 基于Scrapy的数据爬取方法、***、终端设备及存储介质
CN102937981A (zh) 网页呈现***和方法
CN105939313A (zh) 状态码重定向方法及装置
CN1960371B (zh) 一种访问Web应用程序文件的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170704