CN108880921B - 网页监测方法、装置、存储介质及服务器 - Google Patents

网页监测方法、装置、存储介质及服务器 Download PDF

Info

Publication number
CN108880921B
CN108880921B CN201710329418.0A CN201710329418A CN108880921B CN 108880921 B CN108880921 B CN 108880921B CN 201710329418 A CN201710329418 A CN 201710329418A CN 108880921 B CN108880921 B CN 108880921B
Authority
CN
China
Prior art keywords
webpage content
website
content
picture
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710329418.0A
Other languages
English (en)
Other versions
CN108880921A (zh
Inventor
高翔宇
徐伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201710329418.0A priority Critical patent/CN108880921B/zh
Priority to PCT/CN2018/085961 priority patent/WO2018205918A1/zh
Publication of CN108880921A publication Critical patent/CN108880921A/zh
Application granted granted Critical
Publication of CN108880921B publication Critical patent/CN108880921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网页监控方法,包括:获取一网址;在第一时刻通过所述网址获取并保存第一内容;在第二时刻通过所述网址获取第二内容;判断所述第一内容和所述第二内容的差别是否大于预设第一阈值;当所述第一内容和第二内容的差别大于所述第一阈值时,判定所述网址对应的网页内容发生变更。利用本申请提供的技术方案监测网页变化需要较少的工作量,监测效率高,可以节省***资源。

Description

网页监测方法、装置、存储介质及服务器
技术领域
本申请涉及互联网技术领域,尤其涉及一种网页监测方法。
背景技术
网页是构成网站的基本元素,是承载各种网站应用的平台。网页是一个包含超文本标记语言(HTML,Hyper Text Markup Language)标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”。网页采用HTML格式,其扩展名为.html或.htm,通常通过网页浏览器来阅读。
发明内容
本申请提供一种网页监测方法,用以减少监测网页变化所需的工作量,提高监测效率,节省***资源。
本申请提供一种网页监测装置,用以减少监测网页变化所需的工作量,提高监测效率,节省***资源。
本申请提供一种计算机可读存储介质,用以减少监测网页变化所需的工作量,提高监测效率,节省***资源。
本申请实施例提供一种网页监测方法,包括:
获取一网址;
在第一时刻通过所述网址获取并保存第一内容;
在第二时刻通过所述网址获取第二内容;
判断所述第一内容和所述第二内容的差别是否大于预设第一阈值;
当所述第一内容和第二内容的差别大于所述第一阈值时,判定所述网址对应的网页内容发生变更。
本申请实施例提供一种网页监测装置,包括:
网址获取模块,用于获取一网址;
内容获取模块,用于在第一时刻通过所述网址获取并保存第一内容,在第二时刻通过所述网址获取第二内容;
第一判断模块,用于判断所述第一内容和所述第二内容的差别是否大于预设第一阈值,当所述第一内容和第二内容的差别大于所述第一阈值时,判定所述网址对应的网页内容发生变更。
本申请一实施例提供一种计算机可读存储介质,存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行用于执行本申请实施例提供的任一种方法实施例。
在本申请实施例中,获取网页地址,并在第一时刻通过所述网址获取并保存第一内容,在第二时刻通过所述网址获取第二内容,判断所述第一内容和所述第二内容的差别是否大于预设第一阈值,当所述第一内容和第二内容的差别大于所述第一阈值时,则判定所述网址对应的网页内容发生变更。利用本申请实施例提供的技术方案,可以在不同时刻获取一网址对应的网页内容,并比较这两个时刻获取的网页内容,判断该网址对应的网页内容是否发生变更。利用本申请实施例,通过判断同一网址在不同时刻对应的网页内容的差别是否大于一预设阈值,即可判断该网址对应的网页内容是否发生变更,利用该方案监测网页变化需要较少的工作量,监测效率高,可以节省***资源。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请各实施例涉及的一种实施环境的结构示意图;
图2为本申请实施例提供的一种网页监测方法的流程示意图;
图3为本申请一实施例提供的一种网页监测方法的流程示意图;
图3A示出用于发布广告的页面的示意图;
图3B示出了落地页的示意图;
图4为本申请实施例提供的一种利用截图方式对网页进行监测的方法的流程示意图;
图4A为本申请实施例提供的一种判断网页内容是否加载完全的方法的流程示意图;
图4B示出了未加载完全的落地页的截图;
图4C示出了包含指示加载不完全的标识的落地页的截图;
图5为本申请实施例提供的一种网页监测装置的结构示意图;
图6为本申请实施提供的一种网页监测设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请各实施例涉及的一种实施环境的结构示意图。如图1所示,该实施环境包括:网页监测服务器110、网页地址存储服务器120、网页内容存储服务器130、客户端设备140-1、140-2及140-3、以及IM服务器150。
该网页监测服务器110、网页地址存储服务器120、网页内容存储服务器130可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
该客户端设备140-1、140-2及140-3可以为PC、笔记本电脑、手机、平板电脑或智能电视等。
该网页监测服务器110可以运行无头浏览器,用于与网页地址存储服务器120和网页内容存储服务器130协同工作用于监测客户端设备140-1、140-2及140-3发布的网页内容的变化。无头浏览器(headless browser)是指一种没有界面的浏览器,无头浏览器具有通用浏览器的结构和功能,但没有物理显示窗口,其显示窗口为虚拟浏览窗口。虚拟浏览窗口可以模拟窗口的显示功能,但其内容并不会显示在显示器上。
网页地址存储服务器120,用于存储网页地址。
网页内容存储服务器130,用于存储和网页地址存储服务器120存储的网址对应的网页内容。
在该网页监测服务器110监测到某网址应的网页内容发生变变更时,记录该变更事件,并生成变更通知,通过有线或无线网络发送给IM服务器150。该IM服务器150接收该变更通知,从该变更通知中获取该网址,查找到与该网址对应的客户端设备,例如客户端设备140-1,并向该客户端设备140-1发送警告消息,以告知该客户端设备140-1网页,监测服务器110已监测到其发布的和该网址对应的网页内容已变更。
图2为本申请实施例提供的一种网页监测方法的流程示意图。如图2所示,该方法包括如下步骤。
步骤201,获取一网址。
步骤202,在第一时刻通过所述网址获取并保存第一内容。
步骤203,在第二时刻通过所述网址获取第二内容。
步骤204,判断所述第一内容和所述第二内容的差别是否大于预设第一阈值。
步骤205,当所述第一内容和第二内容的差别大于所述第一阈值时,判定所述网址对应的网页内容发生变更。
在本申请实施例中,获取网页地址,并在第一时刻通过所述网址获取并保存第一内容,在第二时刻通过所述网址获取第二内容,判断所述第一内容和所述第二内容的差别是否大于预设第一阈值,当所述第一内容和第二内容的差别大于所述第一阈值时,则判定所述网址对应的网页内容发生变更。利用本申请实施例提供的技术方案,可以在不同时刻利用在后台运行的无头浏览器获取一网址对应的网页内容,并比较这两个时刻获取的网页内容,判断该网址对应的网页内容是否发生变更。利用本申请实施例,通过判断同一网址在不同时刻对应的网页内容的差别是否大于一预设阈值,即可判断该网址对应的网页内容是否发生变更,利用该方案监测网页变化需要较少的工作量,监测效率高,可以节省***资源。
图3为本申请一实施例提供的一种网页监测方法的流程示意图。如图3所示,该方法包括如下步骤。
步骤301,网页监测服务器可以运行一无头浏览器,获取一网址。
在本步骤中,该网址对应的网页可以为普通网页,也可以为用于发布多媒体信息,例如广告信息的落地页。落地页是指用户通过点击以媒体形式发布的信息后连接到的第一个页面,如图3B所示。图3A示出用于发布广告的页面的示意图。在该图3A中,显示一包含饮料图片的网页。当用户在客户端界面上点击该饮料图片的任何区域时,根据预设的该饮料图片和该落地页地址之间的对应关系,该客户端设备查找和该饮料图片对应的网页地址,并将该落地页地址发送给服务器。服务器根据该落地页地址获取并向客户端发送落地页内容,即如图3B所示的落地页的内容。图3B示出了落地页的示意图。图3B中包含该饮料的介绍信息,提供了用户和厂商沟通的接口,例如电话,在线咨询,以及提供了官方二维码。
在本实施例中,将落地页的地址命名为落地页地址,将显示该多媒体信息的地址命名为链接地址,当该多媒体信息被触发时,根据预存的多媒体信息和落地页地址的对应关系拉取该落地页地址对应的网页内容,显示该落地页地址对应的网页内容。在本实施例中监测的地址可以为链接地址,也可以是落地页地址。该多媒体信息可以为文本信息,例如网页链接,图片,或视频等。该多媒体信息可以显示在浏览器中,例如在该浏览器中显示该链接地址对应的网页内容,在该网页内容中显示该多媒体信息。该多媒体信息也可以显示在其他应用程序中,例如以浮窗的形式显示在视频播放器的播放界面上,当用户点击该多媒体信息时,则启动浏览器,利用该浏览器拉取和显示该落地页对应的网页内容。
在本申请实施例中,可以监测该落地页,也可以监测包含用于链接到该落地页的多媒体信息的链接地址对应的网页。
步骤302,该无头浏览器获取该网址对应的代码,判断该代码中是否包含动态图片的信息。
在本步骤中,该无头浏览器可以为PhantomJS组件,其采用Webkit内核。该PhantomJS组件可以读取该网址对应的代码,例如HTML代码,判断该HTML代码中是否包含待显示的动态图片的信息,例如动态图片的描述信息。例如,可以从图片的命名格式中判断是否包含动态图片的命名格式,当包含动态图片的命名格式时,则判定该代码中包含动态图片的信息,执行步骤303;否则执行步骤304。
步骤303,利用该网址对应的代码判断判断该网址对应的网页内容是否发生变更。在本步骤中,当判定该网址对应的网页内容未发生变更时,执行步骤305;否则执行步骤306。
步骤304,该无头浏览器在虚拟浏览窗口中显示该网址对应的网页内容,并利用截图的方式判断该网址对应网页内容是否发生变更。如果判定该网址对应的网页内容发生变更,执行步骤307,否则执行步骤305。
步骤305,结束本流程。
步骤306,根据该网址对应的代码确定变更的网页内容。
步骤307,根据获取到的截图的内容确定变更的网页内容。
在本实施例中,可以先判断代码中是否包含动态图片的信息,当判定包含动态图片的信息时,利用代码判断该网址对应的网页内容是否发生变化。当判定不包含动态图片的信息时,采用截图的方式判断网页内容是否发生变化。可以根据图片的显示属性,采用对应的判断方法,提高判断的效率和精确度。
在本发明一实施例中,也可以不判断该网址对应的代码中是否包含动态图片的信息,直接利用截图,或代码,或截图加代码的方式判断该网址对应的网页内容是否发生变化。
图4为本申请实施例提供的一种利用截图方式对网页进行监测的方法的流程示意图。如图4所示,该方法包括如下步骤。在本实施例中,以无头浏览器为运行在网页监测服务器上的PhantomJS组件,网页为落地页为例进行介绍。
步骤401,网页监测服务器运行一PhantomJS组件,利用该PhantomJS组件从网页地址存储服务器获取落地页地址。
在本步骤之前,可以显示第一网址,即该链接地址对应的网页内容,接收用户对该网页内容中的多媒体信息的点击操作,根据预存的多媒体信息和该落地页地址的对应关系生成包含该落地页地址的网页内容获取请求,将包含所述落地页地址的网页内容获取请求发送给网页内容存储服务器,从该网页内容存储服务器接收并显示所述落地页地址对应的网页内容。
步骤402,该PhantomJS组件根据该落地页地址从网页内容存储服务器获取第一落地页内容。
在本步骤中,该PhantomJS组件设置虚拟浏览器窗口的尺寸,根据该尺寸从该网页内容存储服务器获取对应的第一落地页内容。
在本步骤中,设置的虚拟浏览器的尺寸包括该虚拟浏览器的大小和宽高比。根据该虚拟浏览器的尺寸从该网页内容存储服务器获取与该尺寸适配的第一落地页内容。
步骤403,该PhantomJS组件判断该第一落地页内容是否加载完全。当判定该第一落地页内容加载完全时,执行步骤404,否则结束本流程。
在本实施例中利用截图的方式判断网页内容是否变化。截图的前提是要确保网页加载完全。只有加载完全的网页的截图才有进行后续判断的意义。
在本步骤中,可以利用如下三种方式中的任意一种,或任意组合判断该第一落地页内容是否加载完全。
第一种方式:在本申请实施例中,该第一落地页网址是由多个子网址组成的。该落地页地址对应的第一落地页内容等于上述多个子网址分别对应的子落地页内容的和。每个子网址对应的子落地页内容为上述第一落地页内容的一部分。该判断方法如下:
该PhantomJS组件每生成一个包含所述子网址的网页内容获取请求,调用计数器使其执行加1操作;
该PhantomJS组件从所述网页内容存储服务器接收和所述每一子网址对应的网页内容;
所述无头浏览器每接收完和一个子网址对应的网页内容,调用所述计数器使其执行减1操作;
该PhantomJS组件判断是否已为所述每一子网址生成所述网页内容获取请求;
当判定已为所述每一子网址生成所述网页内容获取请求后,判断所述计数器的计数值;
当所述计数器的计数值为其初始值时,判定该第一落地页内容加载完全。
下面在一个具体实例中描述该PhantomJS组件利用该第一种方式判断是否已加载完全该第一落地页内容。图4A为本申请实施例提供的一种判断网页内容是否加载完全的方法的流程示意图。如图4A所示,该方法包括如下步骤。
步骤401A,该PhantomJS组件从该网页地址存储服务器获取包括多个子网址的落地页地址。
在本步骤中,该落地页地址以列表的形式存储在该网页地址存储服务器。
步骤402A,该PhantomJS组件从该落地页地址中按顺序获取一个子网址,生成包含该子网址的第一网页内容获取请求,并调用设置计数器使其执行加1操作。在本实施例中,该计数器的初始值为0,执行完加1操作后,该计数器的值为1。
步骤403A,该PhantomJS组件将该第一网页内容获取请求发送给该网页内容存储服务器,并接收完该网页内容存储服务器根据该子网址返回的第一子网页内容时,调用该计数器使其执行减1操作。
在步骤中,该PhantomJS组件判断是否已接收到该第一子网页内容的End标识,若接收到该End标识,则判定该第一子网页内容接收完毕。
如下示出了完成本流程中部分功能的代码:
Figure GDA0002894240240000081
Figure GDA0002894240240000091
步骤404A,该PhantomJS组件判断该落地页地址中是否还包括其他子网址,如果是,返回执行步骤402A;否则,执行步骤405A。
如果该落地页地址中还包括除该子网址之外的其他子网址,则继续为这些其他子网址生成网页内容获取请求。
步骤405A,判断该计数器的计数值是否为其初始值,如果是,执行步骤406A;否则执行步骤407A。
步骤406A,判定该第一落地页内容加载完全。
步骤407A,判定该第一落地页内容未加载完全。
在本申请一实施例中,也可以在利用各子网址生成网页内容获取请求后,不判断是否已为每一子网址生成包含该子网址的网页内容获取请求,而是在预定时间后,例如30秒后,即无论是否已为每一子网址生成包含该子网址的网页内容获取请求,默认30秒后加载工作已结束,直接判断计数器的数值是否为其初始值。
第二种方式:图片的直方图包含三个通道,分别是R通道,G通道和B通道。色阶是0-255中的某个值,RGB通道共有256*3=768个色阶。像素数量是指某色阶下该图片的像素个数。该PhantomJS组件在第一时刻对该第一落地页内容进行截图操作,生成第一图片,获取该第一图片的直方图,判断该直方图中像素数量为第一设定值,例如0,1或2的色阶数是否超过预定的第一阈值,或像素数超过第二设定值色阶数是否超过预定第二阈值,例如3。例如,如果判定像素数量为0的色阶数超过预定的第一阈值,或像素数超过预定第二设定值的色阶数大于3,则判定该第一落地页内容未加载完全。如图4B所示,图4B示出了未加载完全的落地页的截图。在该图4B中,整个网页包含过多的灰色区域,则判定该落地页加载未完全。
第三种方式:该PhantomJS组件在第二时刻对该第一落地页内容进行截图操作,生成第二图片。该PhantomJS组件遍历该第二图片,判断该第二图片中是否包含指示加载不完全的标识,如果包含该指示加载不完全的标识,则判定该第一落地页内容未加载完全。在利用虚拟浏览器窗口加载该第一落地页内容的过程中,如果该第一落地页加载不成功或包含加载不成功的部分,则将相应加载不成功的部分用指示加载不完全的标识,例如问号样式的图片代替,该图片起到占位符的功能。如图4C所示,该图4C示出了包含指示加载不完全的标识的落地页的截图。所以在利用PhantomJS组件对该包含该指示加载不完全的标识进行截图处理后,生成的该第二图片中会包含该指示加载不完全的标识。当判定该第二图片中包含该指示加载不完全的标识时,则判定该第一落地页内容加载不完全。
步骤404,当PhantomJS组件判定该第一落地页内容加载完全时,在第三时刻对该第一落地页内容执行截图操作,得到并保存该第三图片。
该第三时刻可以为与内容推送方签约完内容推送协议,刚开始利用该第一落地页推送该推送内容后的某一时刻。
步骤405,在预定时间后,该PhantomJS组件从网页地址存储服务器获取该落地页地址。
步骤406,该PhantomJS组件根据该落地页地址从网页内容存储服务器获取第二落地页内容。
在本步骤中,该PhantomJS组件同样根据该虚拟浏览器窗口的尺寸从该网页内容存储服务器获取该第二落地页内容。本步骤中用到的虚拟浏览器窗口的尺寸与步骤402中用到的尺寸一样,即具有相同的大小和宽高比。这样能够保证对第一落地页内容和第二落地页内容执行截图操作得到的图片的尺寸和宽高比一致。
步骤407,该PhantomJS组件判断该第二落地页内容是否加载完全。当判定该第二落地页内容加载完全时,执行步骤408,否则结束本流程。
在本步骤中,判断第二落地页内容是否加载完全的方法与上述步骤403中判断第一落地页内容是否加载完全的方法相同。
步骤408,该PhantomJS组件在第四时刻对该第二落地页内容执行截图操作,得到第四图片。
步骤409,该PhantomJS组件获取存储的第三图片和该第四图片,判断该第三图片和第四图片的差别是否大于设定阈值。当判定该差别大于该设定阈值时,则执行步骤410,否则得出该网址对应的网页内容未发生变更的结论。
在本步骤中,该PhantomJS组件可以利用感知哈希算法分别计算所述第三图片和第四图片的第一哈希值和第二哈希值,计算所述第一哈希值和所述第二哈希值之间的汉明距离,判断所述汉明距离是否大于所述预设的阈值,例如20,当该汉明距离大于该设定的阈值时,则判定该第三图片和第四图片的差别大于该设定阈值。
在本申请一实施例中,该PhantomJS组件也可以分别计算所述第三图片和第四图片的第一直方图和第二直方图,计算所述第一直方图和第二直方图的均方差,判断所述均方差是否大于预设阈值,例如0.2。如果该均方差大于该预设阈值,则判定该第三图片和第四图片的差别大于该设定阈值。
步骤410,该PhantomJS组件在第五时刻从该网页内容存储服务器获取并保存该落地页地址对应的第一HTML代码。
步骤411,该PhantomJS组件在第六时刻从该网页内容存储服务器获取该落地页地址对应的第二HTML代码。
步骤412,比较该第一HTML代码和该第二HTML代码的差别,当判定第一HTML代码和所述第二HTML代码的差别大于设定阈值时,判定该落地页地址对应的落地页内容发生变更,否则得出该网址对应的网页内容未发生变更的结论。
在本申请一实施例中,可以利用代码比较工具,例如Linux***中的diff工具比较该第一HTML代码和该第二HTML代码的行数差,得出行数差的绝对值,当判定该行数差的绝对值大于预定行数阈值时,判定该第一HTML代码和所述第二HTML代码的差别大于设定阈值。
在本申请一实施例中,可以利用哈西处理工具,例如simhash算法计算该第一HTML代码的哈希值得到第三哈希值,计算所述第二HTML代码的哈希值得到第四哈希值,比较该第三哈希值和第四哈希值之间的汉明距离,判断该汉明距离是否大于预定阈值,当判定该汉明距离大于预定阈值时,判定该第一HTML代码和所述第二HTML代码的差别大于设定阈值。
图5为本申请实施例提供的一种网页监测装置的结构示意图。如图5所示,该装置包括:网址获取模块501,内容获取模块502和第一判断模块503。
该网址获取模块501,用于获取一网址。
该内容获取模块502,用于在第一时刻通过所述网址获取并保存第一内容,在第二时刻通过所述网址获取第二内容。
该第一判断模块503,用于判断所述第一内容和所述第二内容的差别是否大于预设第一阈值,当所述第一内容和第二内容的差别大于所述第一阈值时,判定所述网址对应的网页内容发生变更。
在本申请一实施例中,所述内容获取模块502,进一步用于
设置虚拟浏览窗口的尺寸,在所述第一时刻根据所述尺寸在所述虚拟浏览窗口中加载第一网页内容,判断所述第一网页内容是否加载完全,当判定所述第一网页内容加载完全时,对所述第一网页内容执行截图操作,得到并保存第一图片;
在所述第二时刻根据所述尺寸在所述虚拟浏览窗口中加载第二网页内容,判断所述第二网页内容是否加载完全,当判定所述第二网页内容加载完全时,对所述第二网页内容执行截图操作,得到第二图片。
该所述第一判断模块503,进一步用于判断所述第一图片和所述第二图片的差别是否大于所述第一阈值。
在本申请一实施例中,所述网址包括:多个子网址。所述内容获取模块502,进一步用于为所述每一子网址生成包含所述子网址的网页内容获取请求,将所述网页内容获取请求发送给网页内容存储服务器,每生成一个包含所述子网址的网页内容获取请求,调用计数器使其执行加1操作,从所述网页内容存储服务器接收和所述每一子网址对应的网页内容,在每接收完一个子网址对应的网页内容后,调用所述计数器使其执行减1操作,判断是否已为所述每一子网址生成所述网页内容获取请求,当判定已为所述每一子网址生成所述网页内容获取请求后,判断所述计数器的计数值,当所述计数器的计数值为其初始值时,判定所述第一网页内容加载完全。
在本申请一实施例中,所述内容获取模块502,进一步用于在第三时刻对所述第一网页内容执行截图操作,生成第三图片,获取所述第三图片的直方图,当判定所述直方图中像素数量为第一设定值的色阶数超过预定第二阈值或像素数量超过第二设定值的色阶数超过预定第三阈值时,判定所述第一网页内容未加载完全。
在本申请一实施例中,所述内容获取模块502,进一步用于在第四时刻对所述第一网页内容执行截图操作,生成第四图片,遍历所述第四图片,判断所述第四图片是否包含指示加载不完全的标识,当判定所述第四图片包含所述指示加载不完全的标识时,判定所述第一网页内容未加载完成。
在本申请一实施例中,该装置进一步包括:第二判断模块504,用于判断所述第一图片和所述第二图片的差别是否大于第四阈值,当判定所述第一图片和所述第二图片的差别大于所述第四阈值时,在第五时刻获取并保存所述网址对应的第一HTML代码,在第六时刻获取所述网址对应的第二HTML代码,比较所述第一HTML代码和所述第二HTML代码的差别,当所述第一HTML代码和所述第二HTML代码的差别大于第五阈值时,判定所述网址对应的内容发生变更。
在本申请一实施例中,该装置进一步包括:第三判断模块505,用于判断所述网址对应的所述第一内容是否包含动态图片的信息,当判定所述第一内容不包含所述动态图片的信息时,指令所述内容获取模块对所述第一网页内容执行截图操作。
在本申请一实施例中,所述内容获取模块502,进一步用于在所述第一时刻获取并保存所述网址对应的第三HTML代码,在所述第二时刻获取所述网址对应的第四HTML代码。所述第一判断模块503,进一步用于判断所述第三HTML代码和所述第四HTML代码的差别是否大于所述第一阈值。
在本申请一实施例中,该装置进一步包括:网页内容显示模块506,用于显示第一网址对应的网页内容。
在本申请一实施例中,该装置进一步包括:网页内容拉取模块507,用于接收用户对所述网页内容中的多媒体信息的点击操作,根据预存的所述多媒体信息和所述落地页地址的对应关系生成包含所述落地页地址的网页内容获取请求,将所述包含所述落地页地址的网页内容获取请求发送给网页内容存储服务器,从所述网页内容存储服务器接收所述落地页地址对应的网页内容,并将所述落地页地址对应的网页内容发送给所述网页内容显示模块进行显示。
图6为本申请实施提供的一种网页监测设备的结构示意图。如图6所示,该网页监测设备可包括:处理器601、非易失性计算机可读存储器602、显示单元603、网络通信接口604。这些组件通过总线605进行通信。
本实施例中,存储器602中存储有多个程序模块,包括:应用程序606、网络通信模块607和操作***608。
处理器601可以读取存储器602中的应用程序所包括的各种模块(图中未示出)来执行网页监测设备的各种功能应用以及数据处理。本实施例中的处理器601可以为一个,也可以为多个,其可以为CPU,处理单元/模块,ASIC,逻辑模块或可编程门阵列等。
其中,操作***608可以为:Windows操作***、Linux操作***或Android操作***。该操作***608可以包括网页监测模块609。该网页监测模块609可包括图5所示装置中的各个功能模块形成的计算机可执行指令集609-1及对应的元数据及启发式算法609-2。这些计算机可执行指令集可以由所述处理器601执行并完成图2~图4A所示方法或图5所示装置的功能。
应用程序606可包括:安装和运行在移动终端上的应用程序。
在本实施例中,网络通信接口604与网络通信模块607相配合完成网页监测设备的各种网络信号的收发,例如与网页地址存储服务器120、网页内容存储服务器130进行通信。
显示单元603具有一显示面板,用于完成相关信息的输入及显示。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述各实施例的功能模块可以位于一个终端或网络节点,或者也可以分布到多个终端或网络节点上。
另外,本申请的每一个实施例可以通过如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本申请。存储介质可以使用任何类型的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
因此本申请还提供了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令被至少一个处理器执行用于执行本申请上述方法的任何一种实施例。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (16)

1.一种网页监测方法,其特征在于,应用于网页监测服务器,所述方法包括:
运行无头浏览器,获取一网址;通过所述无头浏览器,设置虚拟浏览窗口的尺寸;
在第一时刻通过所述网址获取与所述尺寸适配的第一网页内容以及所述网址对应的第三超文本标记语言HTML代码;
当判定所述第三HTML代码包含待显示的动态图片的信息时,在第二时刻通过所述网址获取所述网址对应的第四HTML代码,利用所述第三HTML代码和所述第四HTML代码的差别是否大于第一阈值,判断所述网址对应的网页内容是否发生变更;
当判定所述第三HTML代码不包含所述待显示的动态图片的信息时,在第二时刻通过所述网址获取与所述尺寸适配的第二网页内容,利用截图的方式,判断所述网址对应的网页内容是否发生变更。
2.根据权利要求1所述的方法,其特征在于,
所述判断所述第一网页内容和所述第二网页内容的差别是否大于所述第一阈值包括:
在所述虚拟浏览窗口中加载所述第一网页内容,判断所述第一网页内容是否加载完全,当判定所述第一网页内容加载完全时,对所述第一网页内容执行截图操作,得到并保存第一图片;
在所述虚拟浏览窗口中加载所述第二网页内容,判断所述第二网页内容是否加载完全,当判定所述第二网页内容加载完全时,对所述第二网页内容执行截图操作,得到第二图片;
判断所述第一图片和所述第二图片的差别是否大于所述第一阈值。
3.根据权利要求2所述的方法,其特征在于,所述网址包括:多个子网址,判断所述第一网页内容是否加载完全包括:
为每一子网址生成包含所述子网址的网页内容获取请求,将所述网页内容获取请求发送给网页内容存储服务器;
每生成一个包含所述子网址的网页内容获取请求,调用计数器使其执行加1操作;
从所述网页内容存储服务器接收和所述每一子网址对应的网页内容;
每接收完一个子网址对应的网页内容,调用所述计数器使其执行减1操作;
判断是否已为所述每一子网址生成所述网页内容获取请求;
当判定已为所述每一子网址生成所述网页内容获取请求后,判断所述计数器的计数值;
当所述计数器的计数值为其初始值时,判定所述第一网页内容加载完全。
4.根据权利要求2所述的方法,其特征在于,判断所述第一网页内容是否加载完全包括:
在第三时刻对所述第一网页内容执行截图操作,生成第三图片;
获取所述第三图片的直方图;
当判定所述直方图中像素数量为第一设定值的色阶数超过预定第二阈值或像素数量为第二设定值的色阶数超过预定第三阈值时,判定所述第一网页内容未加载完全。
5.根据权利要求2所述的方法,其特征在于,判断所述第一网页内容是否加载完全包括:
在第四时刻对所述第一网页内容执行截图操作,生成第四图片;
遍历所述第四图片;
判断所述第四图片是否包含指示加载不完全的标识;
当判定所述第四图片包含所述指示加载不完全的标识时,判定所述第一网页内容未加载完成。
6.根据权利要求2所述的方法,其特征在于,进一步包括:
判断所述第一图片和所述第二图片的差别是否大于第四阈值;
当判定所述第一图片和所述第二图片的差别大于所述第四阈值时,在第五时刻获取并保存所述网址对应的第一HTML代码,在第六时刻获取所述网址对应的第二HTML代码;
比较所述第一HTML代码和所述第二HTML代码的差别;
当所述第一HTML代码和所述第二HTML代码的差别大于第五阈值时,判定所述网址对应的内容发生变更。
7.根据权利要求1所述的方法,其特征在于,进一步包括:
判断所述第三HTML代码是否包含所述待显示的动态图片的信息。
8.根据权利要求7所述的方法,其特征在于,所述待显示的动态图片的信息指动态图片的描述信息。
9.根据权利要求1所述的方法,其特征在于,所述无头浏览器为PhantomJS组件。
10.根据权利要求1所述的方法,其特征在于,所述网址包括:落地页地址;该方法进一步包括:
显示第一网址对应的网页内容;
响应于用户对所述网页内容中的多媒体信息的操作;
根据预存的所述多媒体信息和所述落地页地址的对应关系生成包含所述落地页地址的网页内容获取请求;
将所述包含所述落地页地址的网页内容获取请求发送给网页内容存储服务器;
从所述网页内容存储服务器接收并显示所述落地页地址对应的网页内容。
11.一种网页监测装置,其特征在于,包括:
网址获取模块,用于运行无头浏览器,获取一网址;
内容获取模块,用于通过所述无头浏览器,设置虚拟浏览窗口的尺寸;在第一时刻通过所述网址获取与所述尺寸适配的第一网页内容以及所述网址对应的第三超文本标记语言HTML代码;当判定所述第三HTML代码包含待显示的动态图片的信息时,在第二时刻通过所述网址获取所述网址对应的第四HTML代码;当判定所述第三HTML代码不包含所述待显示的动态图片的信息时,在第二时刻通过所述网址获取与所述尺寸适配的第二网页内容;
第一判断模块,用于当判定所述第三HTML代码包含待显示的动态图片的信息时,利用所述第三HTML代码和所述第四HTML代码的差别是否大于第一阈值,判断所述网址对应的网页内容是否发生变更;当判定所述第三HTML代码不包含所述待显示的动态图片的信息时,利用截图的方式,判定所述网址对应的网页内容发生变更。
12.根据权利要求11所述的装置,其特征在于,
所述内容获取模块用于,在所述虚拟浏览窗口中加载所述第一网页内容,判断所述第一网页内容是否加载完全,当判定所述第一网页内容加载完全时,对所述第一网页内容执行截图操作,得到并保存第一图片;在所述虚拟浏览窗口中加载所述第二网页内容,判断所述第二网页内容是否加载完全,当判定所述第二网页内容加载完全时,对所述第二网页内容执行截图操作,得到第二图片;
所述第一判断模块用于,判断所述第一图片和所述第二图片的差别是否大于所述第一阈值。
13.根据权利要求12所述的装置,其特征在于,所述网址包括:多个子网址;
所述内容获取模块用于,为每一子网址生成包含所述子网址的网页内容获取请求,将所述网页内容获取请求发送给网页内容存储服务器,每生成一个包含所述子网址的网页内容获取请求,调用计数器使其执行加1操作,从所述网页内容存储服务器接收和所述每一子网址对应的网页内容,在每接收完一个子网址对应的网页内容后,调用所述计数器使其执行减1操作,判断是否已为所述每一子网址生成所述网页内容获取请求,当判定已为所述每一子网址生成所述网页内容获取请求后,判断所述计数器的计数值,当所述计数器的计数值为其初始值时,判定所述第一网页内容加载完全。
14.根据权利要求11所述的装置,其特征在于,所述网址包括:落地页地址;该装置进一步包括:
网页内容显示模块,用于显示第一网址对应的网页内容;
网页内容拉取模块,用于响应于用户对所述网页内容中的多媒体信息的操作,根据预存的所述多媒体信息和所述落地页地址的对应关系生成包含所述落地页地址的网页内容获取请求,将所述包含所述落地页地址的网页内容获取请求发送给网页内容存储服务器,从所述网页内容存储服务器接收所述落地页地址对应的网页内容,并将所述落地页地址对应的网页内容发送给所述网页内容显示模块进行显示。
15.一种计算机可读存储介质,其特征在于,存储有计算机可读指令,所述计算机可读指令被至少一个处理器执行用于执行权利要求1至10任一项所述的方法。
16.一种服务器,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至10中任一项所述的方法。
CN201710329418.0A 2017-05-11 2017-05-11 网页监测方法、装置、存储介质及服务器 Active CN108880921B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710329418.0A CN108880921B (zh) 2017-05-11 2017-05-11 网页监测方法、装置、存储介质及服务器
PCT/CN2018/085961 WO2018205918A1 (zh) 2017-05-11 2018-05-08 网页监测方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710329418.0A CN108880921B (zh) 2017-05-11 2017-05-11 网页监测方法、装置、存储介质及服务器

Publications (2)

Publication Number Publication Date
CN108880921A CN108880921A (zh) 2018-11-23
CN108880921B true CN108880921B (zh) 2021-07-02

Family

ID=64104333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710329418.0A Active CN108880921B (zh) 2017-05-11 2017-05-11 网页监测方法、装置、存储介质及服务器

Country Status (2)

Country Link
CN (1) CN108880921B (zh)
WO (1) WO2018205918A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753790A (zh) * 2018-11-29 2019-05-14 武汉极意网络科技有限公司 一种落地页监控方法及***
CN109740094A (zh) * 2018-12-27 2019-05-10 上海掌门科技有限公司 页面监测方法、设备和计算机存储介质
CN109933739A (zh) * 2019-03-01 2019-06-25 重庆邮电大学移通学院 一种基于转移概率的网页排序方法及***
CN109978626A (zh) 2019-03-29 2019-07-05 上海幻电信息科技有限公司 网页广告变更监测方法、装置及存储介质
CN110457624A (zh) * 2019-06-26 2019-11-15 网宿科技股份有限公司 视频生成方法、装置、服务器及存储介质
US10984067B2 (en) 2019-06-26 2021-04-20 Wangsu Science & Technology Co., Ltd. Video generating method, apparatus, server, and storage medium
CN110798377B (zh) * 2019-10-17 2021-07-16 东软集团股份有限公司 监测图像的发送方法、装置、存储介质及电子设备
CN110795676A (zh) * 2019-10-31 2020-02-14 北京知道创宇信息技术股份有限公司 网站监控方法、装置、电子设备及存储介质
CN113743970A (zh) * 2020-05-29 2021-12-03 北京达佳互联信息技术有限公司 落地页的检测方法和装置
CN112182452A (zh) * 2020-09-27 2021-01-05 中国平安财产保险股份有限公司 页面组件渲染处理方法、装置、设备及计算机可读介质
CN113269587A (zh) * 2021-05-24 2021-08-17 上海妙契科技有限公司 一种用于监测违规广告的方法、装置、存储介质和服务器
CN114124487B (zh) * 2021-11-10 2023-12-01 恒安嘉新(北京)科技股份公司 网页访问的实现方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591963A (zh) * 2011-12-30 2012-07-18 奇智软件(北京)有限公司 网页内容加载控制方法及装置
CN103455603A (zh) * 2013-09-03 2013-12-18 小米科技有限责任公司 网页内容缓存、网页加载方法、装置及终端设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW523697B (en) * 2001-08-29 2003-03-11 Synq Technology Inc Automatic advertisement transaction system and method therefor
US8886660B2 (en) * 2008-02-07 2014-11-11 Siemens Enterprise Communications Gmbh & Co. Kg Method and apparatus for tracking a change in a collection of web documents
CN102073654B (zh) * 2009-11-20 2012-12-19 富士通株式会社 生成与维护网页内容抽取模板的方法和设备
CN102339290B (zh) * 2010-07-22 2013-12-11 北大方正集团有限公司 一种网页数据信息的定向采集方法及装置
CN104077708A (zh) * 2013-03-28 2014-10-01 北京齐尔布莱特科技有限公司 广告投放截屏方法
CN103678628B (zh) * 2013-12-19 2018-01-19 贝壳网际(北京)安全技术有限公司 信息推送方法及***
CN104142987A (zh) * 2014-07-24 2014-11-12 腾讯科技(深圳)有限公司 一种页面的内容管理方法、装置及终端设备
CN105630843B (zh) * 2014-11-17 2019-04-12 广州市动景计算机科技有限公司 网页变化监控方法及装置
CN105677658B (zh) * 2014-11-19 2020-07-28 阿里巴巴集团控股有限公司 页面展现方法及装置
CN106407218B (zh) * 2015-07-31 2020-03-03 北京国双科技有限公司 导航网页的检测方法和装置
CN106547774B (zh) * 2015-09-21 2020-02-28 北京国双科技有限公司 网站内容的检测方法及装置
CN106547776B (zh) * 2015-09-21 2019-12-03 北京国双科技有限公司 网站内容的检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591963A (zh) * 2011-12-30 2012-07-18 奇智软件(北京)有限公司 网页内容加载控制方法及装置
CN103455603A (zh) * 2013-09-03 2013-12-18 小米科技有限责任公司 网页内容缓存、网页加载方法、装置及终端设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"An enhanced model for effective navigation of a website using clustering technique";S. Renuka,;《International Conference on Information Communication and Embedded Systems (ICICES2014)》;20150209;全文 *
"基于服务器集群的云监控***的设计与实现";赵代梅,;《中国优秀硕士学位论文全文数据库-信息科技辑》;20160415;I140-359起全文 *
"基于电子商务平台的数据分析***";廖静欣,;《中国优秀硕士学位论文全文数据库-经济与管理科学辑》;20170415;J157-184起全文 *

Also Published As

Publication number Publication date
WO2018205918A1 (zh) 2018-11-15
CN108880921A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108880921B (zh) 网页监测方法、装置、存储介质及服务器
US11128662B2 (en) Method, client, and server for preventing web page hijacking
US9443257B2 (en) Securing expandable display advertisements in a display advertising environment
EP3335131A1 (en) Systems and methods for automatic content verification
US20090085921A1 (en) Populate Web-Based Content Based on Space Availability
CN112948035A (zh) 微前端页面的控制方法、装置、终端设备及存储介质
US20210192563A1 (en) Webpage advertisement anti-blocking method, content delivery network, and client terminal
CN110555179A (zh) 一种动态网站脚本取证方法、终端设备及存储介质
CN112437318A (zh) 一种内容显示方法、装置、***及存储介质
CN109359260B (zh) 网络页面更改监测方法、装置、设备以及介质
CN110958462A (zh) 直播活动页面显示方法、装置、存储介质及直播***
CN104881452B (zh) 一种资源地址的嗅探方法、装置及***
CN108933947B (zh) 弹幕显示方法及装置
CN106919690B (zh) 一种信息的屏蔽方法、装置及电子设备
CN113641924B (zh) 网页可交互时间点检测方法、装置、电子设备及存储介质
CN110866208A (zh) 一种页面的响应式布局方法、装置及设备
CN111783010B (zh) 网页空白页面监测方法、装置、终端及存储介质
CN110457632B (zh) 网页加载的处理方法及装置
CN106383705B (zh) 在应用瘦客户端中设置鼠标显示状态的方法及装置
CN111310135B (zh) 一种基于虚拟桌面的水印添加方法及装置
CN110334301B (zh) 一种页面还原方法及装置
CN108415746B (zh) 应用界面的显示方法、装置、存储介质及电子设备
JP2003536140A5 (zh)
CN114640876A (zh) 多媒体业务视频显示方法、装置、计算机设备及存储介质
CN111163138B (zh) 一种降低游戏期间网络负载的方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant