CN107766509B - 一种网页静态备份的方法和装置 - Google Patents

一种网页静态备份的方法和装置 Download PDF

Info

Publication number
CN107766509B
CN107766509B CN201710993519.8A CN201710993519A CN107766509B CN 107766509 B CN107766509 B CN 107766509B CN 201710993519 A CN201710993519 A CN 201710993519A CN 107766509 B CN107766509 B CN 107766509B
Authority
CN
China
Prior art keywords
page
information
source code
network
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710993519.8A
Other languages
English (en)
Other versions
CN107766509A (zh
Inventor
田盛
苏昊欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710993519.8A priority Critical patent/CN107766509B/zh
Publication of CN107766509A publication Critical patent/CN107766509A/zh
Application granted granted Critical
Publication of CN107766509B publication Critical patent/CN107766509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页静态备份的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:静态服务器在对动态网页的页面进行加载的过程中,对读取到的页面信息进行监听以获得页面的错误信息和网络状况信息;在页面渲染完成时,读取渲染后的页面的源码;将错误信息、网络状况信息以及源码进行备份。本发明的技术方案可以有效提高动态化页面在静态化备份过程中的灵活性和可靠性。

Description

一种网页静态备份的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种网页静态备份的方法和装置。
背景技术
2014年10月28号,万维网联盟(World Wide Web Consortium,W3C)的超文本标记语言(HyperText Markup Language,HTML)工作组正式发布了超文本标记语言HTML5(简称H5)的正式推荐标准,由于H5页面的跨平台性、灵活的适配能力、开发成本低周期短等优势,目前的app应用中H5页面的使用率很高。常见的H5页面呈现方式多以异步渲染为主,即先请求数据接口,然后利用某种模版引擎渲染页面片段,最后呈现出完整的页面。
目前对于H5页面的静态备份方案主要包括如下步骤:
1)查询页面中特殊的标识符号,分别取出数据请求的参数信息和模版片段。
2)根据参数信息读取数据接口。
3)利用模版引擎渲染页面片段。
4)组装片段生成页面。
5)注入特殊的标识符号,说明页面已静态化,无需再次请求数据接口。
6)保存页面。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
在H5动态网页的页面静态化备份的过程中,无法对出现的问题进行捕获,导致在备份时存在灵活性差和可靠性差的问题。
发明内容
有鉴于此,本发明实施例提供一种网页静态备份的方法和装置,能够解决现有技术中无法对出现的问题进行捕获,从而导致备份的灵活性差和可靠性差的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种网页静态备份的方法。
本发明实施例的一种网页静态备份的方法包括:静态服务器在对动态网页的页面进行加载的过程中,对读取到的页面信息进行监听以获得页面的错误信息和网络状况信息;在页面渲染完成时,读取渲染后的页面的源码;将错误信息、网络状况信息以及源码进行备份。
可选地,本发明的实施例中动态网页为多个网页;在静态服务器在对动态网页的页面进行渲染之前,该方法还包括:静态服务器将动态网页的页面信息列表进行切分,并将切分后的页面信息列表发送给多个业务处理进程,由业务处理进程将从切分后的页面信息列表中读取到的页面信息发送给***,其中,页面信息列表包括网页ID、进程开始的时间以及进程结束的时间。
可选地,本发明的实施例对读取到的页面信息进行监听以获得页面的错误信息和网络状况信息的步骤包括:利用错误***对接收到的页面信息进行监听以获得错误信息并进行记录;利用网络***对接收到的页面信息进行监听以获得网络状况信息并进行记录。
可选地,本发明实施例的错误***上包括onError方法、onResourceTimeout方法、onResourceError方法以及onConsoleMessage方法,其中:onError方法用于监听直译式脚本语言JavaScript的错误信息;onResourceTimeout方法用于监听资源的超时信息;onResourceError方法用于监听资源的获取失败信息;onConsoleMessage方法用于监听控制台信息。
可选地,本发明的实施例利用网络***对接收到的页面信息进行监听以获得网络状况信息并进行记录的步骤包括:网络***对页面信息进行初始化,并将初始化之后的页面信息保存为文件格式为HAR的文件;从初始化之后的页面信息中读取指定参数中的内容,其中,指定参数为window.performance.timing参数;将文件和内容进行记录。
可选地,本发明实施例的网络***上包括onResourceRequested方法、onResourceReceived方法、onLoadStarted方法以及onLoadFinished方法,其中:onResourceRequested方法用于记录每个请求的ID及在该***中接受到的请求对象;onResourceReceived方法用于根据资源的ID和stage属性记录资源请求开始和结束时在***中接受到的资源对象;onLoadStarted方法用于记录页面请求开始的时间;onLoadFinished方法用于记录页面完成渲染的时间。
可选地,本发明的实施例在读取渲染后的页面的源码之后,还包括:在源码中注入直译式脚本语言JavaScript和/或执行扩展的自定义处理函数。
可选地,本发明的实施例在源码中注入直译式脚本语言JavaScript和/或执行扩展的自定义处理函数的步骤包括:判断源码是否需要扩展,若是,判断是否需要注入脚本,若是,注入直译式脚本语言JavaScript;判断是否需要执行扩展函数,若是,将源码输入扩展的自定义处理函数以得到扩展后的源码。
可选地,本发明的实施例应用于超文本标记语言HTML5中。
为实现上述目的,根据本发明实施例的另一方面,提供了一种网页静态备份的装置。
本发明实施例的一种网页静态备份的装置包括:监听模块,用于在对动态网页的页面进行加载的过程中,对读取到的页面信息进行监听以获得页面的错误信息和网络状况信息;读取模块,用于在页面渲染完成时,读取渲染后的页面的源码;备份模块,用于将错误信息、网络状况信息以及源码进行备份。
为实现上述目的,根据本发明实施例的再一方面,提供了一种实现网页静态备份的方法的电子设备。
本发明实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的网页静态备份的方法。
为实现上述目的,根据本发明实施例的又一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的网页静态备份的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用在渲染过程中对页面信息进行监听的技术手段,所以克服了无法对渲染过程中出现的问题进行捕获和处理的技术问题,进而达到提高备份的可灵活性和可靠性的技术效果,有利于加快对页面的访问速度。通过在对动态网页的页面进行加载的过程中对页面信息进行监听,并对获得的错误信息、网络状况信息以及网页渲染后的源码进行备份,从而达到对备份过程中出现的问题进行捕捉,有效的提高了备份时的灵活性和可靠性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的网页静态备份的方法的主要流程的示意图;
图2是根据本发明实施例的网页静态备份的方法的***框架示意图;
图3是根据本发明实施例的网页静态备份的方法的整体流程图;
图4是根据本发明实施例的网页静态备份中错误收集的流程图;
图5是根据本发明实施例的网页静态备份中网络状况收集的流程图;
图6是根据本发明实施例的网页静态备份中页面渲染的流程图;
图7是根据本发明实施例的网页静态备份中页面扩展的流程图;
图8是根据本发明实施例的网页静态备份的工作流程图;
图9是根据本发明实施例的网页静态备份的装置的主要模块的示意图;
图10是本发明实施例可以应用于其中的示例性***架构图;
图11是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施例的技术方案用于将数据服务器中的动态网页备份到静态服务器中,通过在对动态网页的页面进行加载的过程中对页面信息进行监听,并对获得的错误信息、网络状况信息以及网页渲染后的源码进行备份,从而达到对备份过程中出现的问题进行捕捉,有效的提高了备份时的灵活性和可靠性。在后续的处理中还可以对错误信息进行分析,从而帮助用户快速找到问题根源以及解决问题的方法。同时,本发明的方案能够把以异步方式渲染的页面静态化,然后将静态化后的页面作为原有页面进行备份,也可以直接替换原有页面来加快访问速度。
图1是根据本发明实施例的网页静态备份的方法的主要流程的示意图。如图1所示,本发明实施例的一种网页静态备份的方法主要包括如下步骤:
步骤S101:静态服务器在对动态网页的页面进行加载的过程中,对读取到的页面信息进行监听以获得页面的错误信息和网络状况信息。本发明主要就是通过对加载过程中的页面进行监听,从而捕获到页面在加载过程中出现的错误信息以及当前的网络状态信息,而该动态网页为多个网页;在静态服务器在对动态网页的页面进行加载之前,静态服务器还需要将动态网页的页面信息列表进行切分,并将切分后的页面信息列表发送给多个业务处理进程,由业务处理进程将从切分后的页面信息列表中读取到的页面信息发送给***,其中,页面信息列表包括网页ID、进程开始的时间以及进程结束的时间。
在本发明的实施例中,对读取到的页面信息进行监听以获得页面的错误信息和网络状况信息的步骤包括:利用错误***对接收到的页面信息进行监听以获得错误信息并进行记录;利用网络***对接收到的页面信息进行监听以获得网络状况信息并进行记录。进一步的,利用网络***对接收到的页面信息进行监听以获得网络状况信息并进行记录的步骤包括:网络***对页面信息进行初始化,并将初始化之后的页面信息保存为文件格式为HAR的文件;从初始化之后的页面信息中读取指定参数中的内容,其中,指定参数为window.performance.timing参数;将文件和内容进行记录。
此外,需要说明的是,在本发明另一些实施例中的错误***上包括onError方法、onResourceTimeout方法、onResourceError方法以及onConsoleMessage方法,其中:onError方法用于监听直译式脚本语言JavaScript的错误信息;onResourceTimeout方法用于监听资源的超时信息;onResourceError方法用于监听资源的获取失败信息;onConsoleMessage方法用于监听控制台信息。而网络***上包括onResourceRequested方法、onResourceReceived方法、onLoadStarted方法以及onLoadFinished方法,其中:onResourceRequested方法用于记录每个请求的ID及在该***中接受到的请求对象;onResourceReceived方法用于根据资源的ID和stage属性记录资源请求开始和结束时在***中接受到的资源对象;onLoadStarted方法用于记录页面请求开始的时间;onLoadFinished方法用于记录页面完成渲染的时间。
步骤S102:在页面渲染完成时,读取渲染后的页面的源码。在本发明的使用场景中,在读取到源码之后,还需要在源码中注入直译式脚本语言JavaScript和/或执行扩展的自定义处理函数。
在本发明的另一些实施场景中,在源码中注入直译式脚本语言JavaScript和/或执行扩展的自定义处理函数的步骤包括:判断源码是否需要扩展,若是,判断是否需要注入脚本,若是,注入直译式脚本语言JavaScript;判断是否需要执行扩展函数,若是,将源码输入扩展的自定义处理函数以得到扩展后的源码。
步骤S103:将错误信息、网络状况信息以及源码进行备份。需要注意的是,在本发明的实施例中为了解决无法捕获错误信息的问题,因此需要将错误信息、网络状况信息以及源码同时进行备份,而在另一些实施例中,若不需要捕获错误信息,则仅需备份网络状况信息以及源码即可。
还需要注意的是,本发明的实施例的方法应用于超文本标记语言HTML5中,但不限于HTML5中。
图2是根据本发明实施例的网页静态备份的方法的***框架示意图。由图2可以看出,本发明所涉及的功能及其对应的模块框图主要涉及三部分:CDN***,静态化服务器,浏览器(也即浏览器可视化平台)。其中,CDN***和浏览器可视化平台相关的内容不属于本发明关注的范围,采用现有技术即可。需要注意的是,由于CDN***采用独立的域名,在同步页面时,保存页面的路径需要与原有域名下的路径保持一致。这样通过域名重定向就能很快切换源页面与静态化页面。页面静态化***主要包含页面渲染模块,错误收集模块以及网络状况收集模块,在一些需要对网页进行扩展的场景中还包括扩展模块。
这里,还需要对本发明所涉及的名词做出如下解释:
Node.js:是一个基于Chrome V8引擎的JavaScript运行环境,用于方便地搭建响应速度快、易于扩展的网络或本地应用。它使用事件驱动,非阻塞I/O模型而得以轻量和高效,非常适合在分布式设备上运行数据密集型的实时应用。
PhantomJS:一个脚本化的无界面WebKit,以JavaScript为脚本语言实现各项功能。使用场景包括:无界面测试,页面自动化,屏幕截图和网络监控。
pm2:是一个带有负载均衡功能的Node应用的进程管理器,能够保证你运行的Node应用一直处于运行状态。同时提供了完善的API接口,允许与pm2进程管理器进行交互。
JavaScript(简称JS):一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在HTML(标准通用标记语言下的一个应用)网页上使用,用来给HTML网页增加动态功能。
CDN:全称是Content Delivery Network,即内容分发网络。其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,而CDN***能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。
HAR:是一个用来储存HTTP请求/响应信息的通用文件格式,基于JSON。这个格式的出现可以使HTTP监测工具以一种通用的格式导出所收集的数据,这些数据可以被其他支持HAR的HTTP分析工具(包括Firebug,httpwatch,Fiddler等)所使用,来分析网站的性能瓶颈。
webkit:是一个开源的浏览器引擎,优势在于高效稳定,兼容性好,且源码结构清晰,易于维护。
图3是根据本发明实施例的网页静态备份的方法的整体流程图。由图3可以看出,本发明实施例中的备份***首先通过pm2启动一个Manager(进程管理器)进程,它主要作用是做一些公共操作,并观察Worker(业务管理器)进程的工作状态。该Worker进程首先会从数据接口读取需要静态化处理的页面信息列表,其中信息包括页面的ID、名称、url、创建者、开始和结束的时间以及类型。为了最大化利用计算机性能,Manager进程会根据所在静态化服务器上的CPU个数N,把整个页面信息列表切分成N片,然后分别启动N个Worker进程。各个Worker进程会与Manager进程间建立数据通道,这样Manager进程就能检测到Worker进程的运行情况。
为了静态化的页面能够与源页面保持一致性,本发明还会采用定时更新策略。即在Manager进程中设有一个超时时间,超出规定时间就会重启任务。若Worker进程没有在这个超时时间内运行完毕,Manager进程会终止所有的Worker进程并邮件通知管理员,然后重启任务。
需要说明的是,主要的静态化操作是在Worker进程中完成的。Worker进程实际是一个PhantomJS进程。首先它会根据启动时的参数信息读取切片后的页面信息列表及配置信息,该配置信息定义了哪些页面需要进行扩展,及如何扩展。具体的,以一个Worker进程为例进行说明,在读取到页面信息列表和配置信息之后,开始收集错误信息和网络状况信息(这两种信息均是在页面进行加载的过程中获取的),在加载完成之后就进入到页面的渲染过程,开始对页面进行渲染,渲染完成之后便根据配置信息对页面进行扩展,在扩展完成之后对日志输出和页面保存。当任务进行到这里,页面便完成了静态化处理,也即一个Worker进程的任务完成,此时,需要继续开启下一个Worker进程的静态化任务,如此往复的循环。若当不需要继续执行静态化操作,需要手动结束任务。
下面就分别对这本发明所涉及的4个模块(错误收集模块,网络状况收集模块,页面渲染模块和扩展模块)进行功能性的阐述。
如图4所示,是本发明实施例的错误收集模块,是根据本发明实施例的网页静态备份中错误收集的流程图。首先开启错误***,在PhantomJS提供的页面错误***上挂载方法,在本发明中主要包括onError方法、onResourceTimeout方法、onResourceError方法以及onConsoleMessage方法。其中各个***捕获的错误类别如下:
onError:捕获JS相关错误;
onResourceTimeout:捕获资源超时;
onResourceError:捕获资源获取失败;
onConsoleMessage:捕获控制台信息。
此外,在另一些使用场景中,还可以在onLoadFinished上挂载方法可以获得页面加载完成时的状态信息。
然后将各个***上捕获的信息按类别记录在列表对象中;再判断页面是否成功加载,若页面加载异常,则让页面加入重新加载队列(后续由加载模块完成)。异常的情况可能由以下原因产生:
在onLoadFinished捕获的页面状态为failed;
在onResourceTimeout发现接口访问失败;
在onError捕获的错误信息中含有Invalid template字样
最后再将错误信息记录到日志中。
需要说明的是,页面加载是指从发起网络请求到解析HTML、JS、CSS的这一过程,而渲染是指绘制网页内容到画布上。可按现有的通常方式进行页面加载以及渲染。所以监听的过程都是在加载时进行的,最后获取源码需要在页面渲染完成后才能获取。
如图5所示,是网络状况收集模块,是根据本发明实施例的网页静态备份中网络状况收集的流程图。首先是开启网络***,在PhantomJS提供的页面资源请求***上挂载方法,在本发明中主要包括onResourceRequested方法、onResourceReceived方法、onLoadStarted方法以及onLoadFinished方法。然后在这些***中初始化资源请求信息(即在资源请求前后注入状态信息),具体方法如下:
在onResourceRequested中记录每个请求的ID及在该***中接受到的请求对象;
在onResourceReceived中根据资源的ID和stage属性记录资源请求开始和结束时在***中接受到的资源对象;
在onLoadStarted中记录页面请求开始的时间;
在onLoadFinished中记录页面完成加载的时间。
然后在页面完成加载的情况下,在onLoadFinished中根据上述初始化的资源信息,创建HAR。
此时还需要判断是否能获得window.performance(即上述window.performance.timing参数)对象,若能够获得该对象,则对该对象进行读取。该对象记录着由webkit引擎记录的各类性能数据,包括资源请求信息,页面加载时长等。
最后再将获得的HAR和performance对象记录到日志中。
这里需要注意的是,错误收集模块和网络状态收集模块的执行顺序是不分先后的,也即可以同时执行,具体的执行顺序可以根据不同的使用场景来变化。
在对错误信息和网络状况信息进行备份,提供一个平台便能够方便用户进行查询,而不是每次通过日志进行查询。当然,也可以是可视化平台,该可视化平台提供一个入口,通过查询静态服务器提供的接口,以一种直观的图形形式提供给用户。
加载完成之后,由渲染模块对页面进行渲染,如图6所示,是根据本发明实施例的网页静态备份中页面渲染的流程图。首先判断是否启用JS(这里判断的依据和条件是由数据接口返回的页面信息里携带的字段标识决定的),若不开启JS,则开启JS执行环境直接抓取页面而不执行渲染操作;若开启,则对错误收集模块和网络状态收集模块产生的冗余数据进行重置,即重置统计数据,然后对页面进行渲染并获取页面源码,这里需要注意的是,在利用PhantomJS渲染页面时,由于渲染过程需要一定的时间,所以会延迟几百毫秒,再执行之后的操作。源码是通过读取webpage中的content属性获得的,而content属性记录了渲染后的页面的html代码。
但是,由于可能存在网络不稳定,这里需要进一步判断页面是否为异常页面(这里判断的依据和条件是由数据接口返回的页面信息里携带的字段标识决定的,例如:网络***中onLoadFinished捕获到的页面状态不为success,或获取页面源码时候发现源码中有“网络请求失败”字样),即读取的页面代码是否正常。若判断为异常页面则让页面加入重试队列,重新渲染页面。
如果根据配置信息需要对页面进行扩展,则需要扩展模块对页面代码进行扩展,如图7所示,是根据本发明实施例的网页静态备份中页面扩展的流程图。首先需要判断是否过滤JS(这里判断的依据和条件是由数据接口返回的页面信息里携带的字段标识决定的),若过滤,则通过以下正则代码将JS文件过滤:
外部JS:/\<\s*script[^>]*><\/script\>/g
内联JS:/\<\s*script(?:.)*?\>(?:[\S\s])*?\<\/script\>/g
然后判断是否需要对页面进行扩展,这里扩展有两种形式,一种是注入外部JS脚本(即外部JS代码);另一种是执行扩展函数(该扩展函数只是一个方法,其形式上为:Function afterRender(html){}),即传入的参数是渲染后的页面代码,而扩展后的返回值是处理后的页面代码。
最后再根据页面的url路径,将处理后的页面代码保存在服务器指定目录下。
具体的实现流程如图8所示,是根据本发明实施例的网页静态备份的工作流程图。将数据服务器中的动态网页页面,转换成静态化页面并进行备份,这样静态化页面可以作为以异步渲染方式为基础的页面的备份,直接通过互联网在终端进行展示,以应对数据接口异常时导致的“白页”问题;同时静态化页面也可以直接替换源页面,加快渲染速度。因此,本发明的技术方案可以有效提高备份的灵活性和可靠性。
根据本发明实施例的网页静态备份的方法可以看出,因为采用在渲染过程中对页面信息进行监听的技术手段,所以克服了无法对渲染过程中出现的问题进行捕获和处理的技术问题,进而达到提高备份的可灵活性和可靠性的技术效果,有利于加快对页面的访问速度。通过在对动态网页的页面进行加载的过程中对页面信息进行监听,并对获得的错误信息、网络状况信息以及网页渲染后的源码进行备份,从而达到对备份过程中出现的问题进行捕捉、分析以及处理,有效的提高了备份时的灵活性和可靠性。
图9是根据本发明实施例的网页静态备份的装置的主要模块的示意图。如图9所示,本发明的网页静态备份的装置900的主要模块包括:监听模块901、读取模块902以及备份模块903。其中:
监听模块901,用于在对动态网页的页面进行加载的过程中,对读取到的页面信息进行监听以获得页面的错误信息和网络状况信息;读取模块902,用于在页面渲染完成时,读取渲染后的页面的源码;备份模块903,用于将错误信息、网络状况信息以及源码进行备份。
可选地,本发明实施例的动态网页为多个网页;还包括进程管理模块(图中未示出),用于将动态网页的页面信息列表进行切分,并将切分后的页面信息列表发送给多个业务处理进程,由业务处理进程将从切分后的页面信息列表中读取到的页面信息发送给***,其中,页面信息列表包括网页ID、进程开始的时间以及进程结束的时间。
可选地,本发明实施例还包括错误收集模块(图中未示出)和网络状况收集模块(图中未示出),其中:错误收集模块用于利用错误***对接收到的页面信息进行监听以获得错误信息并进行记录;网络状况收集模块用于利用网络***对接收到的页面信息进行监听以获得网络状况信息并进行记录。
可选地,本发明实施例的错误***上包括onError方法、onResourceTimeout方法、onResourceError方法以及onConsoleMessage方法,其中:onError方法用于监听直译式脚本语言JavaScript的错误信息;onResourceTimeout方法用于监听资源的超时信息;onResourceError方法用于监听资源的获取失败信息;onConsoleMessage方法用于监听控制台信息。
可选地,本发明实施例的网络状况收集模块用于:网络***对页面信息进行初始化,并将初始化之后的页面信息保存为文件格式为HAR的文件;从初始化之后的页面信息中读取指定参数中的内容,其中,指定参数为window.performance.timing参数;将文件和内容进行记录。
可选地,本发明实施例的网络***上包括onResourceRequested方法、onResourceReceived方法、onLoadStarted方法以及onLoadFinished方法,其中:onResourceRequested方法用于记录每个请求的ID及在该***中接受到的请求对象;onResourceReceived方法用于根据资源的ID和stage属性记录资源请求开始和结束时在***中接受到的资源对象;onLoadStarted方法用于记录页面请求开始的时间;onLoadFinished方法用于记录页面完成渲染的时间。
可选地,本发明实施例还包括扩展模块(图中未示出),用于在源码中注入直译式脚本语言JavaScript和/或执行扩展的自定义处理函数。
可选地,本发明实施例的扩展模块用于:判断源码是否需要扩展,若是,判断是否需要注入脚本,若是,注入直译式脚本语言JavaScript;判断是否需要执行扩展函数,若是,将源码输入扩展的自定义处理函数以得到扩展后的源码。
可选地,本发明实施例应用于包括超文本标记语言HTML5中。
从以上描述可以看出,因为采用在渲染过程中对页面信息进行监听的技术手段,所以克服了无法对渲染过程中出现的问题进行捕获和处理的技术问题,进而达到提高备份的可灵活性和可靠性的技术效果,有利于加快对页面的访问速度。通过在对动态网页的页面进行加载的过程中对页面信息进行监听,并对获得的错误信息、网络状况信息以及网页渲染后的源码进行备份,从而达到对备份过程中出现的问题进行捕捉,有效的提高了备份时的灵活性和可靠性。
图10示出了可以应用本发明实施例的网页静态备份方法或网页静态备份装置的示例性***架构1000。
如图10所示,***架构1000可以包括终端设备1001、1002、1003,网络1004和服务器1005。网络1004用以在终端设备1001、1002、1003和服务器1005之间提供通信链路的介质。网络1004可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备1001、1002、1003通过网络1004与服务器1005交互,以接收或发送消息等。终端设备1001、1002、1003上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备1001、1002、1003可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器1005可以是提供各种服务的服务器,例如对用户利用终端设备1001、1002、1003所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的网页静态备份方法一般由服务器1005执行,相应地,网页静态备份装置一般设置于服务器1005中。
应该理解,图10中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图11,其示出了适于用来实现本发明实施例的终端设备的计算机***1100的结构示意图。图11示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,计算机***1100包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中,还存储有***1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括监听模块、读取模块以及备份模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:静态服务器在对动态网页的页面进行加载的过程中,对读取到的页面信息进行监听以获得页面的错误信息和网络状况信息;在页面渲染完成时,读取渲染后的页面的源码;将错误信息、网络状况信息以及源码进行备份。
根据本发明实施例的技术方案,因为采用在渲染过程中对页面信息进行监听的技术手段,所以克服了无法对渲染过程中出现的问题进行捕获和处理的技术问题,进而达到提高备份的可灵活性和可靠性的技术效果,有利于加快对页面的访问速度。通过在对动态网页的页面进行加载的过程中对页面信息进行监听,并对获得的错误信息、网络状况信息以及网页渲染后的源码进行备份,从而达到对备份过程中出现的问题进行捕捉,有效的提高了备份时的灵活性和可靠性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (11)

1.一种网页静态备份的方法,其特征在于,该方法包括:
静态服务器还需要将动态网页的页面信息列表进行切分,并将切分后的页面信息列表发送给多个业务处理进程,由业务处理进程将从切分后的页面信息列表中读取到的页面信息发送给***;
静态服务器在对动态网页的页面进行加载的过程中,对读取到的页面信息进行监听以获得所述页面的错误信息和网络状况信息;
静态服务器在所述页面渲染完成时,读取渲染后的页面的源码;
静态服务器将所述错误信息、所述网络状况信息以及所述源码进行备份。
2.根据权利要求1所述的方法,其特征在于,所述对读取到的页面信息进行监听以获得所述页面的错误信息和网络状况信息的步骤包括:
利用错误***对接收到的页面信息进行监听以获得所述错误信息并进行记录;
利用网络***对接收到的页面信息进行监听以获得网络状况信息并进行记录。
3.根据权利要求2所述的方法,其特征在于,所述错误***上包括onError方法、onResourceTimeout方法、onResourceError方法以及onConsoleMessage方法,其中:
所述onError方法用于监听直译式脚本语言JavaScript的错误信息;
所述onResourceTimeout方法用于监听资源的超时信息;
所述onResourceError方法用于监听资源的获取失败信息;
所述onConsoleMessage方法用于监听控制台信息。
4.根据权利要求2所述的方法,其特征在于,所述利用网络***对接收到的页面信息进行监听以获得网络状况信息并进行记录的步骤包括:
所述网络***对所述页面信息进行初始化,并将初始化之后的页面信息保存为文件格式为HAR的文件;
从所述初始化之后的页面信息中读取指定参数中的内容,其中,所述指定参数为window.performance.timing参数;
将所述文件和所述内容进行记录。
5.根据权利要求2或4任一项所述的方法,其特征在于,所述网络***上包括onResourceRequested方法、onResourceReceived方法、onLoadStarted方法以及onLoadFinished方法,其中:
所述onResourceRequested方法用于记录每个请求的ID及在该***中接受到的请求对象;
所述onResourceReceived方法用于根据资源的ID和stage属性记录资源请求开始和结束时在***中接受到的资源对象;
所述onLoadStarted方法用于记录页面请求开始的时间;
所述onLoadFinished方法用于记录页面完成渲染的时间。
6.根据权利要求1所述的方法,其特征在于,在所述读取渲染后的页面的源码之后,还包括:
在所述源码中注入直译式脚本语言JavaScript和/或执行扩展的自定义处理函数。
7.根据权利要求6所述的方法,其特征在于,在所述源码中注入直译式脚本语言JavaScript和/或执行扩展的自定义处理函数的步骤包括:
判断所述源码是否需要扩展,若是,
判断是否需要注入脚本,若是,注入所述直译式脚本语言JavaScript;判断是否需要执行扩展函数,若是,将所述源码输入所述扩展的自定义处理函数以得到扩展后的源码。
8.根据权利要求1所述的方法,其特征在于,所述方法应用于超文本标记语言HTML5中。
9.一种网页静态备份的装置,其特征在于,该装置包括:
监听模块,用于在对动态网页的页面进行加载的过程中,对读取到的页面信息进行监听以获得所述页面的错误信息和网络状况信息;
读取模块,用于在所述页面渲染完成时,读取渲染后的页面的源码;
备份模块,用于将所述错误信息、所述网络状况信息以及所述源码进行备份;
还包括进程管理模块,用于将动态网页的页面信息列表进行切分,并将切分后的页面信息列表发送给多个业务处理进程,由业务处理进程将从切分后的页面信息列表中读取到的页面信息发送给***。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201710993519.8A 2017-10-23 2017-10-23 一种网页静态备份的方法和装置 Active CN107766509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710993519.8A CN107766509B (zh) 2017-10-23 2017-10-23 一种网页静态备份的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710993519.8A CN107766509B (zh) 2017-10-23 2017-10-23 一种网页静态备份的方法和装置

Publications (2)

Publication Number Publication Date
CN107766509A CN107766509A (zh) 2018-03-06
CN107766509B true CN107766509B (zh) 2021-02-26

Family

ID=61269361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710993519.8A Active CN107766509B (zh) 2017-10-23 2017-10-23 一种网页静态备份的方法和装置

Country Status (1)

Country Link
CN (1) CN107766509B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165372B (zh) * 2018-08-09 2020-10-13 深圳乐信软件技术有限公司 一种网页加载方法、装置、设备及存储介质
CN110968810A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 网页数据处理方法和装置
CN110222284B (zh) * 2019-05-05 2021-04-02 福建天泉教育科技有限公司 多页面加载方法及计算机可读存储介质
CN110309029B (zh) * 2019-06-29 2023-09-26 深圳乐信软件技术有限公司 异常数据的采集方法、装置、计算机设备和存储介质
CN111290797A (zh) * 2020-01-20 2020-06-16 北京字节跳动网络技术有限公司 页面切换方法、客户端、服务器、电子设备和***
CN112436953B (zh) * 2020-08-14 2023-11-24 上海幻电信息科技有限公司 页面数据备份、容灾页面显示方法及装置
CN117215839B (zh) * 2023-10-30 2024-03-12 广州鼎甲计算机科技有限公司 基于Web的***还原方法、装置、设备、介质和程序产品

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183395B (zh) * 2007-12-25 2011-12-28 北京中企开源信息技术有限公司 一种实现动态页面静态化的方法和***
CN102214098A (zh) * 2011-06-15 2011-10-12 中山大学 一种基于WebKit浏览器引擎的动态页面数据采集方法
CN102609503A (zh) * 2012-02-02 2012-07-25 福建榕基软件股份有限公司 静态网页页面的生成方法及装置
CN103455478A (zh) * 2012-05-21 2013-12-18 腾讯科技(深圳)有限公司 加速网页访问的方法和装置
CN103064989B (zh) * 2013-02-03 2016-05-04 广州市动景计算机科技有限公司 网页保存、打开方法及装置
CN104182327B (zh) * 2013-05-23 2017-08-25 上海携程商务有限公司 客户端错误日志收集方法及***
CN103685514B (zh) * 2013-12-13 2017-11-07 北京奇虎科技有限公司 网页收藏夹中页面的保存方法和浏览器
CN103699674B (zh) * 2013-12-31 2018-04-13 优视科技有限公司 网页保存、网页打开方法及装置和网页浏览***
US9813480B2 (en) * 2015-01-08 2017-11-07 Instart Logic, Inc. Placeholders for dynamic components in HTML streaming
CN106156231A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 一种网站容灾方法、装置及***
CN106027595A (zh) * 2016-04-25 2016-10-12 乐视控股(北京)有限公司 用于cdn节点的访问日志处理方法及***
CN106897215A (zh) * 2017-01-20 2017-06-27 华南理工大学 一种基于WebView网页加载性能及用户行为流数据采集的方法

Also Published As

Publication number Publication date
CN107766509A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107766509B (zh) 一种网页静态备份的方法和装置
CN110262807B (zh) 集群创建进度日志采集***、方法和装置
CN105095280A (zh) 一种浏览器缓存方法和装置
CN109829121B (zh) 一种点击行为数据上报的方法和装置
US11695623B2 (en) Method and apparatus for binding network card in multi-network card server, and electronic device and storage medium
CN107644075B (zh) 收集页面信息的方法和装置
CN109151056B (zh) 基于Canal的消息推送方法和***
CN110572422A (zh) 数据下载方法和装置
CN109218041B (zh) 用于服务器***的请求处理方法和装置
CN111427899A (zh) 存储文件的方法、装置、设备和计算机可读介质
CN111800511B (zh) 同步登录态的处理方法、***、设备及可读存储介质
CN111258902B (zh) 基于SockJS服务器的性能测试方法和性能测试***
CN112492055A (zh) 一种传输协议重定向的方法、装置、设备及可读存储介质
CN111698109A (zh) 监控日志的方法和装置
CN113127335A (zh) 一种***测试的方法和装置
CN112149392A (zh) 一种富文本编辑方法和装置
CN111338928A (zh) 基于chrome浏览器测试的方法及装置
CN113434384B (zh) 一种压力测试方法和装置
CN112688982B (zh) 一种用户请求处理方法和装置
US10108588B2 (en) Method and system for communicating between client pages
CN110768855B (zh) 链路化性能测试的方法和装置
CN112306791B (zh) 一种性能监控的方法和装置
CN112565472B (zh) 静态资源的处理方法和装置
CN112241332B (zh) 一种接口补偿的方法和装置
CN113132447A (zh) 反向代理的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant