CN110955855A - 一种信息拦截的方法、装置及终端 - Google Patents

一种信息拦截的方法、装置及终端 Download PDF

Info

Publication number
CN110955855A
CN110955855A CN201811132493.9A CN201811132493A CN110955855A CN 110955855 A CN110955855 A CN 110955855A CN 201811132493 A CN201811132493 A CN 201811132493A CN 110955855 A CN110955855 A CN 110955855A
Authority
CN
China
Prior art keywords
category
information
character string
level
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811132493.9A
Other languages
English (en)
Other versions
CN110955855B (zh
Inventor
付振中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Petal Cloud Technology Co Ltd
Original Assignee
Huawei Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Co Ltd filed Critical Huawei Device Co Ltd
Priority to CN201811132493.9A priority Critical patent/CN110955855B/zh
Priority to PCT/CN2019/106728 priority patent/WO2020063448A1/zh
Publication of CN110955855A publication Critical patent/CN110955855A/zh
Application granted granted Critical
Publication of CN110955855B publication Critical patent/CN110955855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供了一种信息拦截的终端,该终端可以包括:处理器、收发器、存储器、多个应用程序,使得终端执行以下步骤:启动浏览器以访问网页;获取访问网页的信息;将访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,第一数据用于确定访问网页的信息中是否包括目标信息;当访问网页的信息中包括目标信息时,拦截目标信息。本方案中,该终端通过具有树形结构的第一数据拦截浏览器页面中的目标信息,该树形结构可以对第一数据中的字符串进行深度区分,有效减少访问网页的信息与第一数据的匹配次数,从而避免了拦截目标信息的字符串较多且没有合理化的匹配方式导致匹配次增多的问题。

Description

一种信息拦截的方法、装置及终端
技术领域
本发明实施例涉及网页分析和拦截技术领域,特别涉及一种信息拦截的方法、装置及终端。
背景技术
随着互联网的蓬勃发展,越来越多的网页被***各式各样的广告。为了避免这些广告给用户在浏览器中浏览网页的过程中带来不便,有必要对网页中的广告进行拦截。
目前,一般的用户网页访问请求都是发往服务器处理,服务器在缓存页面内容的同时加载了Easylist规则列表,通过该规则列表将广告元素隐藏,然后将广告元素隐藏后的页面内容返回给客户端进行展示。其中,该Easylist规则列表Easylist规则列表中包含多个字符串,是由开源组织开放的一个广告拦截的规则集,定义了网页中哪些元素是广告,应该被拦截掉。
发明内容
本发明实施例提供了一种信息拦截的方法、装置及终端,基于终端实施广告拦截的方式,通过对规则匹配方式的优化,用以解决广告拦截的规则较多且没有合理化的匹配方式导致匹配次增多的问题。
第一方面,本发明实施例提供了一种信息拦截的终端,该终端可以包括:一个或多个处理器、收发器、存储器、多个应用程序,以及一个或多个计算机程序,其中,一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被终端执行时,使得终端执行以下步骤:
启动浏览器以访问网页;
获取访问网页的信息;
将访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,第一数据用于确定访问网页的信息中是否包括目标信息;
当访问网页的信息中包括目标信息时,拦截目标信息。
本方案中,该终端通过具有树形结构的第一数据拦截浏览器页面中的目标信息,该树形结构可以对第一数据中的字符串进行深度区分,有效减少访问网页的信息与第一数据的匹配次数,从而避免了拦截目标信息的字符串较多且没有合理化的匹配方式导致匹配次增多的问题。
在一个可选的实现方式中,上述“树形结构”中可以包括:
包括多个节点,多个节点包括根节点和至少一级子节点,至少一级子节点中的每一级包括至少两个子节点;
每一级的节点与关联的下一级节点具有父子关系,第一数据根据预设规则分布在成树形结构的多个节点上。
在另一种可选的实现方式中,终端可以具体执行以下步骤:
将访问网页的信息从树形结构的父节点的第一数据逐级向与父节点呈父子关系的子节点的第一数据进行匹配,直至确定访问网页的信息中是否包括目标信息。
由于访问网页的信息会存在长短的差别,所以较长的访问网页的信息不能直接匹配出来,所以将该访问网页的信息进行逐级匹配,保证访问网页的信息能够完整的匹配到,提升拦截目标信息的准确度。
在又一种可选的实现方式中,在上述“树形结构”具体可以包括m级子节点,m级子节点中的每一级子节点按照n种预设规则中不同的预设规则划分,n、m均为大于等于1的整数,n大于等于m;
第j级子节点从f种预设规则中选择1种预设规则进行划分,f种预设规则为n种预设规则中前j-1级子节点选择剩余的预设规则,j-1级子节点为j级子节点的上一级子节点,j级子节点为m级子节点中的任意一级子节点,j和f均为大于等于1的整数;
n种预设规则中的每一种分别包括至少两个字符串的类别;
第一数据包括多个字符串,第一数据的字符串按m级子节点划分,m级子节点中的每个子节点分别对应n种预设规则中的不同的字符串的类别,每个子节点包括具有不同的字符串的类别的多个字符串。
由于每个终端或者运营商对目标信息的定义不同,所以本申请提供了多种预设规则和类别,可以根据需求选择预设规则,该步骤可以提升树形结构的灵活度,适用于更多的场景。
在再一种可选的实现方式中,上述“n种预设规则”可以包括下述至少一种规则:
黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则。
在再一种可选的实现方式中,在上述“黑白名单规则”可以包括:
白名单的类别和黑名单的类别,m级子节点中的第1级子节点根据黑白名单规则进行划分,第一数据中属于白名单的类别的字符串和属于黑名单的类别的字符串分别对应第1级子节点中的一个子节点。在再一种可选的实现方式中,终端可以执行以下步骤:
将访问网页的信息与白名单的类别的字符串进行匹配,当访问网页的信息包括白名单的类别的字符串时,终端确定访问网页的信息不包括目标信息。
由于有些访问网页的信息可能会带有“ad”,但是可能对于一些运营商来说,并不是目标信息,所以设置具有白名单类别的字符串将带有“ad”但不是目标信息(即广告)的这一种可能性排除,提升了拦截的精准度。
在再一种可选的实现方式中,终端还可以执行以下步骤:
当访问网页的信息不包括白名单的类别的字符串时,将访问网页的信息与黑名单的类别的字符串进行匹配;
当访问网页的信息不包括黑名单的类别的字符串时,终端确定访问网页的信息不包括目标信息;
当访问网页的信息包括黑名单的类别的字符串时,终端将访问网页的信息逐级与属于黑名单的类别的字符串的子节点呈父子关系的子节点相匹配,直至确定访问网页的信息被匹配完毕,终端拦***问网页的信息中的目标信息。
在再一种可选的实现方式中,在上述“定位和预设匹配规则”可以具体包括:
定位匹配的类别和预设匹配的类别,m级子节点中的第2级子节点根据定位和预设匹配规则进行划分,第一数据中属于定位匹配的类别的字符串和属于预设匹配的类别的字符串分别对应第2级子节点中的一个子节点,其中第2级子节点中的任意一个子节点与第1级子节点中属于黑名单的类别的字符串的子节点呈父子关系。
在再一种可选的实现方式中,上述“定位匹配的类别”可以用于筛选访问网页的信息中第一预设位置存在字符串的信息,或者在第二预设位置存在分隔符的信息中的至少一种;
预设匹配的类别用于筛选访问网页的信息中存在前缀的信息,或者具有后缀的信息中的至少一种。
在再一种可选的实现方式中,上述“标签属性规则”中可以具体包括:
具备标签的类别和不具备标签的类别,m级子节点中的第3级子节点根据标签属性规则进行划分,第一数据中属于具备标签的类别的字符串和不具备标签的类别的字符串分别对应第3级子节点中的一个子节点,其中第3级子节点中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
在再一种可选的实现方式中,在上述“具备标签的类别”可以用于筛选访问网页的信息中包括标签属性的信息,不具备标签的类别用于筛选访问网页的信息中不包括标签属性的信息;其中,
具备标签的类别具体包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
由于访问网页的信息较为多样化,所以该方式可以提供更多的可能性,更为精确的拦截目标信息。
在再一种可选的实现方式中,上述“字符规则”可以包括:
首字符串的类别和预置字符串的类别,m级子节点中的第4级子节点根据字符规则进行划分,第一数据中属于首字符串的类别的字符串和预置字符串的类别的字符串分别对应第4级子节点中的一个子节点,其中第4级子节点中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
在再一种可选的实现方式中,在上述“首字符串的类别”可以用于筛选访问网页的信息与首字符串的类别的字符串具有首字符相同的信息;
预置字符串的类别用于筛选访问网页的信息与预置字符串的类别的字符串具有预置字符串相同的信息。
在再一种可选的实现方式中,上述“访问网页的信息”可以包括:用户访问页面的URL或者访问网页各个元素的URL,目标信息为广告信息。
在再一种可选的实现方式中,上述“第一数据”为服务端根据第二数据进行树形转化处理之后得到,第二数据包括有效字符串和浏览器的自定义字符串,其中,有效字符串为通过对开源网站中的开源字符串和终端上报的在预设时间段内的历史数据进行筛选,确定使用率大于预设阈值的字符串。
由于第一数据是该终端向服务端下载的,整体上述匹配的过程是在终端中进行,所以,该方式极大的提升了终端进行信息的匹配速度以及避免了现有技术中需要服务端有较高的性能才能快速完成页面内容的处理的问题。
第二方面,本发明实施例提供了一种数据处理的服务器,其特征在于,包括:一个或多个处理器、收发器和存储器多个应用程序;以及一个或多个计算机程序,其中,一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被服务器执行时,使得服务器执行以下步骤:
将第二数据进行树形转化处理,确定第一数据;
服务器将第一数据发送给终端,以便于终端根据确定访问网页是否包含目标信息。
本方案中,通过对第二数据进行树形转化处理,该树形结构可以对第二数据中的字符串进行深度区分,转化为区分度非常高的树形结构,有效减少访问网页的信息与第一数据的匹配次数。
在一个可选的实现方式中,上述“目标信息”可以为广告信息;
访问网页的信息包括:用户访问页面的URL或者访问网页各个元素的URL中的至少一种。
在另一个可选的实现方式中,上述服务器可以执行具体以下步骤:从开源网站周期性获取至少一个开源字符串;
在至少一个开源字符串和客户端上报的在预设时间段内的历史数据中选取访问量大于第一阈值的多个字符串为有效字符串;
获取浏览器服务器的自定义字符串;
根据有效字符串和自定义字符串,确定第二数据,有效字符串和自定义字符串中分别包括至少一个字符串。
由于每个浏览器服务器一般具有不同的标准,即目标信息可能在A网站可能定义为广告信息,但是在B网站就没有定义为广告信息,所以,在生成第二数据时,加入了浏览器服务器的自定义字符串,以使匹配的第二数据具有灵活性,可以广泛使用。
在又一个可选的实现方式中,上述服务器可以执行具体以下步骤:
根据n种预设规则将多个子节点划分为m级,m级子节点中每一级的预设规则都不同;
n种预设规则中的每一种分别包括至少两个字符串的类别,根据字符串的类别将m级中的每层划分为至少两个子节点;
第二数据包括多个字符串,每个子节点中分别包括属于不同字符串的类别的多个字符串,n、m均为大于等于1的整数,n大于等于m;
第k级子节点中的每个子节点与k-1级中的一个子节点具有父子关系,k级子节点为m级子节点中的任意一级子节点,k为大于等于1的整数。
在再一个可选的实现方式中,上述“n种预设规则”可以包括下述至少一种规则:
黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则;
服务器执行以下步骤:
根据黑白名单规则、定位和预设匹配规则、标签属性规则和字符规则将多个子节点划分为m级子节点。
在再一个可选的实现方式中,上述服务器可以执行具体以下步骤:
当黑白名单规则中包括白名单的类别和黑名单的类别时,按照白名单的类别和黑名单的类别将m级子节点中的第1级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于白名单的类别的字符串,另一个子节点包括第二数据中属于黑名单的类别的字符串。
在再一个可选的实现方式中,上述服务器可以执行具体以下步骤:
当定位和预设匹配规则中包括定位匹配的类别和预设匹配的类别时,按照定位匹配的类别和预设匹配的类别,将m级子节点中的第2级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于定位匹配的类别的字符串,另一个子节点包括第二数据中属于预设匹配的类别的字符串,其中第2级中的两个子节点与第1级中属于黑名单的类别的字符串所在的节点呈父子关系。
在再一个可选的实现方式中,上述服务器可以执行具体以下步骤:当标签属性规则中包括具备标签的类别和不具备标签的类别时,按照具备标签的类别和不具备标签的类别,将m级子节点中的第3级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于具备标签的类别的字符串,另一个子节点包括第二数据中属于不具备标签的类别的字符串,其中第3级中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
在再一个可选的实现方式中,上述“具备标签的类别”可以包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
在再一个可选的实现方式中,上述服务器可以执行具体以下步骤:
当字符规则中包括首字符串的类别和预置字符串的类别时,按照首字符串的类别和预置字符串的类别,将m级子节点中的第4级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于首字符串的类别的字符串,另一个子节点包括第二数据中属于预置字符串的类别的字符串,其中第4级中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
第三方面,本发明实施例提供了一种信息拦截的方法,该方法可以基于终端执行,该方法可以包括以下步骤:
启动浏览器以访问网页;
获取访问网页的信息;
将访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,第一数据用于确定访问网页的信息中是否包括目标信息;
当访问网页的信息中包括目标信息时,拦截目标信息。
本方案中,该方法通过具有树形结构的第一数据拦截浏览器页面中的目标信息,该树形结构可以对第一数据中的字符串进行深度区分,有效减少访问网页的信息与第一数据的匹配次数,从而避免了拦截目标信息的字符串较多且没有合理化的匹配方式导致匹配次增多的问题,整体可以提升匹配速度40%以上。
在一个可选的实现方式中,上述“树形结构”可以包括多个节点,多个节点包括根节点和至少一级子节点,至少一级子节点中的每一级包括至少两个子节点;
每一级的节点与关联的下一级节点具有父子关系,第一数据根据预设规则分布在成树形结构的多个节点上。
在另一个可选的实现方式中,在上述“将访问网页的信息与呈树形结构排布的第一数据进行匹配”的步骤中,具体可以包括:
将访问网页的信息从树形结构的父节点的第一数据逐级向与父节点呈父子关系的子节点的第一数据进行匹配,直至确定访问网页的信息中是否包括目标信息。
由于访问网页的信息会存在长短的差别,所以较长的访问网页的信息不能直接匹配出来,所以将该访问网页的信息进行逐级匹配,保证访问网页的信息能够完整的匹配到,提升拦截目标信息的准确度。
在又一个可选的实现方式中,上述“树形结构”可以包括:
m级子节点,m级子节点中的每一级子节点按照n种预设规则中不同的预设规则划分,n、m均为大于等于1的整数,n大于等于m;
第j级子节点从f种预设规则中选择1种预设规则进行划分,f种预设规则为n种预设规则中前j-1级子节点选择剩余的预设规则,j-1级子节点为j级子节点的上一级子节点,j级子节点为m级子节点中的任意一级子节点,j和f均为大于等于1的整数;
n种预设规则中的每一种分别包括至少两个字符串的类别;
第一数据包括多个字符串,第一数据的字符串按m级子节点划分,m级子节点中的每个子节点分别对应n种预设规则中的不同的字符串的类别,每个子节点包括具有不同的字符串的类别的多个字符串。
由于每个终端或者运营商对目标信息的定义不同,所以本申请提供了多种预设规则和类别,可以根据需求选择预设规则,该步骤可以提升树形结构的灵活度,适用于更多的场景。
在再一种可选的实现方式中,上述“n种预设规则”可以包括下述至少一种规则:
黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则。
在再一个可选的实现方式中,上述“黑白名单规则”可以包括白名单的类别和黑名单的类别,m级子节点中的第1级子节点根据黑白名单规则进行划分,第一数据中属于白名单的类别的字符串和属于黑名单的类别的字符串分别对应第1级子节点中的一个子节点。
在再一个可选的实现方式中,在上述“将访问网页的信息与呈树形结构排布的第一数据进行匹配”的步骤中,具体可以包括:
将访问网页的信息与白名单的类别的字符串进行匹配,当访问网页的信息包括白名单的类别的字符串时,确定访问网页的信息不包括目标信息。
由于有些访问网页的信息可能会带有“ad”,但是可能对于一些运营商来说,并不是目标信息,所以设置具有白名单类别的字符串将带有“ad”但不是目标信息(即广告)的这一种可能性排除,提升了拦截的精准度。
在再一个可选的实现方式中,在上述“将访问网页的信息与呈树形结构排布的第一数据进行匹配”的步骤中,具体可以包括:当访问网页的信息不包括白名单的类别的字符串时,将访问网页的信息与黑名单的类别的字符串进行匹配;
当访问网页的信息不包括黑名单的类别的字符串时,确定访问网页的信息不包括目标信息;
当访问网页的信息包括黑名单的类别的字符串时,将访问网页的信息逐级与属于黑名单的类别的字符串的子节点呈父子关系的子节点相匹配,直至确定访问网页的信息被匹配完毕,拦***问网页的信息中的目标信息。
在再一个可选的实现方式中,上述“定位和预设匹配规则”可以具体包括定位匹配的类别和预设匹配的类别,m级子节点中的第2级子节点根据定位和预设匹配规则进行划分,第一数据中属于定位匹配的类别的字符串和属于预设匹配的类别的字符串分别对应第2级子节点中的一个子节点,其中第2级子节点中的任意一个子节点与第1级子节点中属于黑名单的类别的字符串的子节点呈父子关系。
在再一个可选的实现方式中,上述“定位匹配的类别”可以用于筛选访问网页的信息中第一预设位置存在字符串的信息,或者在第二预设位置存在分隔符的信息中的至少一种;
预设匹配的类别用于筛选访问网页的信息中存在前缀的信息,或者具有后缀的信息中的至少一种。
在再一个可选的实现方式中,上述“标签属性规则”可以包括具备标签的类别和不具备标签的类别,m级子节点中的第3级子节点根据标签属性规则进行划分,第一数据中属于具备标签的类别的字符串和不具备标签的类别的字符串分别对应第3级子节点中的一个子节点,其中第3级子节点中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
在再一个可选的实现方式中,上述“具备标签的类别”可以用于筛选访问网页的信息中包括标签属性的信息,不具备标签的类别用于筛选访问网页的信息中不包括标签属性的信息;
其中,具备标签的类别具体包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
由于访问网页的信息较为多样化,所以该方式可以提供更多的可能性,更为精确的拦截目标信息。
在再一个可选的实现方式中,上述“字符规则”可以包括首字符串的类别和预置字符串的类别,m级子节点中的第4级子节点根据字符规则进行划分,第一数据中属于首字符串的类别的字符串和预置字符串的类别的字符串分别对应第4级子节点中的一个子节点,其中第4级子节点中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
在再一个可选的实现方式中,上述“首字符串的类别”可以用于筛选访问网页的信息与首字符串的类别的字符串具有首字符相同的信息;
预置字符串的类别用于筛选访问网页的信息与预置字符串的类别的字符串具有预置字符串相同的信息。
在再一个可选的实现方式中,上述“访问网页的信息”可以包括用户访问页面的URL或者访问网页各个元素的URL,目标信息为广告信息。
在再一个可选的实现方式中,上述“第一数据”为服务端根据第二数据进行树形转化处理之后得到,第二数据包括有效字符串和浏览器的自定义字符串,其中,有效字符串为通过对开源网站中的开源字符串和上报的在预设时间段内的历史数据进行筛选,确定使用率大于预设阈值的字符串。
第四方面,本发明实施例提供了一种数据处理的方法,该方法可以基于服务端(即服务器)执行,该方法具体可以包括以下步骤:
将第二数据进行树形转化处理,确定第一数据;
将第一数据发送给终端,以便于终端根据确定访问网页是否包含目标信息。
本方案中,通过对第二数据进行树形转化处理,该树形结构可以对第二数据中的字符串进行深度区分,转化为区分度非常高的树形结构,有效减少访问网页的信息与第一数据的匹配次数。
在一个可选的实现方式中,上述“目标信息”可以为广告信息;
访问网页的信息包括:用户访问页面的URL或者访问网页各个元素的URL中的至少一种。
在另一个可选的实现方式中,在“将第二数据进行树形转化处理,确定第一数据”的步骤之前,还可以包括:从开源网站周期性获取至少一个开源字符串;
在至少一个开源字符串和终端上报的在预设时间段内的历史数据中选取访问量大于第一阈值的多个字符串为有效字符串;
获取浏览器服务器的自定义字符串;
根据有效字符串和自定义字符串,确定第二数据,有效字符串和自定义字符串中分别包括至少一个字符串。
由于每个浏览器服务器一般具有不同的标准,即目标信息可能在A网站可能定义为广告信息,但是在B网站就没有定义为广告信息,所以,在生成第二数据时,加入了浏览器服务器的自定义字符串,以使匹配的第二数据具有灵活性,可以广泛使用。
在又一个可选的实现方式中,在“将第二数据进行树形转化处理,确定第一数据”的步骤中,具体可以包括:根据n种预设规则将多个子节点划分为m级,m级子节点中每一级的预设规则都不同;
n种预设规则中的每一种分别包括至少两个字符串的类别,根据字符串的类别将m级中的每层划分为至少两个子节点;
第二数据包括多个字符串,每个子节点中分别包括属于不同字符串的类别的多个字符串,n、m均为大于等于1的整数,n大于等于m;
第k级子节点中的每个子节点与k-1级中的一个子节点具有父子关系,k级子节点为m级子节点中的任意一级子节点,k为大于等于1的整数。
在再一个可选的实现方式中,上述“n种预设规则”可以包括下述至少一种规则:
黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则;
服务器执行以下步骤:
根据黑白名单规则、定位和预设匹配规则、标签属性规则和字符规则将多个子节点划分为m级子节点。
在再一个可选的实现方式中,在“将第二数据进行树形转化处理,确定第一数据”的步骤中,具体可以包括:
当黑白名单规则中包括白名单的类别和黑名单的类别时,按照白名单的类别和黑名单的类别将m级子节点中的第1级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于白名单的类别的字符串,另一个子节点包括第二数据中属于黑名单的类别的字符串。
在再一个可选的实现方式中,在“将第二数据进行树形转化处理,确定第一数据”的步骤中,具体可以包括:
当定位和预设匹配规则中包括定位匹配的类别和预设匹配的类别时,按照定位匹配的类别和预设匹配的类别,将m级子节点中的第2级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于定位匹配的类别的字符串,另一个子节点包括第二数据中属于预设匹配的类别的字符串,其中第2级中的两个子节点与第1级中属于黑名单的类别的字符串所在的节点呈父子关系。
在再一个可选的实现方式中,在“将第二数据进行树形转化处理,确定第一数据”的步骤中,具体可以包括:
当标签属性规则中包括具备标签的类别和不具备标签的类别时,按照具备标签的类别和不具备标签的类别,将m级子节点中的第3级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于具备标签的类别的字符串,另一个子节点包括第二数据中属于不具备标签的类别的字符串,其中第3级中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
在再一个可选的实现方式中,上述“具备标签的类别”具体可以包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
在再一个可选的实现方式中,在“将第二数据进行树形转化处理,确定第一数据”的步骤中,具体可以包括:
当字符规则中包括首字符串的类别和预置字符串的类别时,按照首字符串的类别和预置字符串的类别,将m级子节点中的第4级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于首字符串的类别的字符串,另一个子节点包括第二数据中属于预置字符串的类别的字符串,其中第4级中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
第五方面,本发明实施例提供了一种装置,该装置可以包括:
处理模块,用于启动浏览器以访问网页;
收发模块,用于获取访问网页的信息;
该处理模块还用于,将访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,第一数据用于确定访问网页的信息中是否包括目标信息;当访问网页的信息中包括目标信息时,拦截目标信息。
本方案中,该装置通过具有树形结构的第一数据拦截浏览器页面中的目标信息,该树形结构可以对第一数据中的字符串进行深度区分,有效减少访问网页的信息与第一数据的匹配次数,从而避免了拦截目标信息的字符串较多且没有合理化的匹配方式导致匹配次增多的问题,整体可以提升匹配速度40%以上。
在一个可选的实现方式中,上述“树形结构”可以包括多个节点,多个节点包括根节点和至少一级子节点,至少一级子节点中的每一级包括至少两个子节点;
每一级的节点与关联的下一级节点具有父子关系,第一数据根据预设规则分布在成树形结构的多个节点上。
在另一个可选的实现方式中,上述“处理模块”具体可以用于,将访问网页的信息从树形结构的父节点的第一数据逐级向与父节点呈父子关系的子节点的第一数据进行匹配,直至确定访问网页的信息中是否包括目标信息。
由于访问网页的信息会存在长短的差别,所以较长的访问网页的信息不能直接匹配出来,所以将该访问网页的信息进行逐级匹配,保证访问网页的信息能够完整的匹配到,提升拦截目标信息的准确度。
在又一个可选的实现方式中,上述“树形结构”可以包括m级子节点,m级子节点中的每一级子节点按照n种预设规则中不同的预设规则划分,n、m均为大于等于1的整数,n大于等于m;
第j级子节点从f种预设规则中选择1种预设规则进行划分,f种预设规则为n种预设规则中前j-1级子节点选择剩余的预设规则,j-1级子节点为j级子节点的上一级子节点,j级子节点为m级子节点中的任意一级子节点,j和f均为大于等于1的整数;
n种预设规则中的每一种分别包括至少两个字符串的类别;
第一数据包括多个字符串,第一数据的字符串按m级子节点划分,m级子节点中的每个子节点分别对应n种预设规则中的不同的字符串的类别,每个子节点包括具有不同的字符串的类别的多个字符串。
由于每个终端或者运营商对目标信息的定义不同,所以本申请提供了多种预设规则和类别,可以根据需求选择预设规则,该步骤可以提升树形结构的灵活度,适用于更多的场景。
在再一个可选的实现方式中,上述“n种预设规则”可以包括下述至少一种规则:
黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则。
在再一个可选的实现方式中,上述“黑白名单规则”可以包括白名单的类别和黑名单的类别,m级子节点中的第1级子节点根据黑白名单规则进行划分,第一数据中属于白名单的类别的字符串和属于黑名单的类别的字符串分别对应第1级子节点中的一个子节点。
在再一个可选的实现方式中,上述“处理模块”具体可以用于,将访问网页的信息与白名单的类别的字符串进行匹配,当访问网页的信息包括白名单的类别的字符串时,确定访问网页的信息不包括目标信息。
由于有些访问网页的信息可能会带有“ad”,但是可能对于一些运营商来说,并不是目标信息,所以设置具有白名单类别的字符串将带有“ad”但不是目标信息(即广告)的这一种可能性排除,提升了拦截的精准度。
在再一个可选的实现方式中,上述“处理模块”具体可以用于,当访问网页的信息不包括白名单的类别的字符串时,将访问网页的信息与黑名单的类别的字符串进行匹配;
当访问网页的信息不包括黑名单的类别的字符串时,确定访问网页的信息不包括目标信息;
当访问网页的信息包括黑名单的类别的字符串时,将访问网页的信息逐级与属于黑名单的类别的字符串的子节点呈父子关系的子节点相匹配,直至确定访问网页的信息被匹配完毕,拦***问网页的信息中的目标信息。
在再一个可选的实现方式中,上述“定位和预设匹配规则”可以包括定位匹配的类别和预设匹配的类别,m级子节点中的第2级子节点根据定位和预设匹配规则进行划分,第一数据中属于定位匹配的类别的字符串和属于预设匹配的类别的字符串分别对应第2级子节点中的一个子节点,其中第2级子节点中的任意一个子节点与第1级子节点中属于黑名单的类别的字符串的子节点呈父子关系。
在再一个可选的实现方式中,上述“定位匹配的类别”可以用于筛选访问网页的信息中第一预设位置存在字符串的信息,或者在第二预设位置存在分隔符的信息中的至少一种;
预设匹配的类别用于筛选访问网页的信息中存在前缀的信息,或者具有后缀的信息中的至少一种。
在再一个可选的实现方式中,上述“标签属性规则”可以包括具备标签的类别和不具备标签的类别,m级子节点中的第3级子节点根据标签属性规则进行划分,第一数据中属于具备标签的类别的字符串和不具备标签的类别的字符串分别对应第3级子节点中的一个子节点,其中第3级子节点中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
在再一个可选的实现方式中,上述“具备标签的类别”可以用于筛选访问网页的信息中包括标签属性的信息,不具备标签的类别用于筛选访问网页的信息中不包括标签属性的信息;其中,
具备标签的类别具体包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
由于访问网页的信息较为多样化,所以该方式可以提供更多的可能性,更为精确的拦截目标信息。
在再一个可选的实现方式中,上述“字符规则”可以包括首字符串的类别和预置字符串的类别,m级子节点中的第4级子节点根据字符规则进行划分,第一数据中属于首字符串的类别的字符串和预置字符串的类别的字符串分别对应第4级子节点中的一个子节点,其中第4级子节点中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
在再一个可选的实现方式中,上述“首字符串的类别”可以用于筛选访问网页的信息与首字符串的类别的字符串具有首字符相同的信息;
预置字符串的类别用于筛选访问网页的信息与预置字符串的类别的字符串具有预置字符串相同的信息。
在再一个可选的实现方式中,上述“访问网页的信息”可以包括用户访问页面的URL或者访问网页各个元素的URL,目标信息为广告信息。
在再一个可选的实现方式中,上述“第一数据”可以为服务端根据第二数据进行树形转化处理之后得到,第二数据包括有效字符串和浏览器的自定义字符串,其中,有效字符串为通过对开源网站中的开源字符串和上报的在预设时间段内的历史数据进行筛选,确定使用率大于预设阈值的字符串。
第六方面,本发明实施例提供了一种数据处理的装置,其特征在于,包括:
处理模块,将第二数据进行树形转化处理,确定第一数据;
收发模块,将第一数据发送给终端,以便于终端根据确定访问网页是否包含目标信息。
本方案中,通过对第二数据进行树形转化处理,该树形结构可以对第二数据中的字符串进行深度区分,转化为区分度非常高的树形结构,有效减少访问网页的信息与第一数据的匹配次数。
在一个可选的实现方式中,上述“目标信息”可以为广告信息;
访问网页的信息包括:用户访问页面的URL或者访问网页各个元素的URL中的至少一种。
在另一个可选的实现方式中,上述“收发模块”还可以用于,从开源网站周期性获取至少一个开源字符串;
上述“处理模块”还可以用于,在至少一个开源字符串和客户端上报的在预设时间段内的历史数据中选取访问量大于第一阈值的多个字符串为有效字符串;
上述“收发模块”还可以用于,获取浏览器服务器的自定义字符串;
上述“处理模块”还可以用于,根据有效字符串和自定义字符串,确定第二数据,有效字符串和自定义字符串中分别包括至少一个字符串。
由于每个浏览器服务器一般具有不同的标准,即目标信息可能在A网站可能定义为广告信息,但是在B网站就没有定义为广告信息,所以,在生成第二数据时,加入了浏览器服务器的自定义字符串,以使匹配的第二数据具有灵活性,可以广泛使用。
在又一个可选的实现方式中,上述“处理模块”具体可以用于,根据n种预设规则将多个子节点划分为m级,m级子节点中每一级的预设规则都不同;
n种预设规则中的每一种分别包括至少两个字符串的类别,根据字符串的类别将m级中的每层划分为至少两个子节点;
第二数据包括多个字符串,每个子节点中分别包括属于不同字符串的类别的多个字符串,n、m均为大于等于1的整数,n大于等于m;
第k级子节点中的每个子节点与k-1级中的一个子节点具有父子关系,k级子节点为m级子节点中的任意一级子节点,k为大于等于1的整数。
在另一个可选的实现方式中,上述“n种预设规则”可以包括下述至少一种规则:黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则;
上述“处理模块”还可以用于,根据黑白名单规则、定位和预设匹配规则、标签属性规则和字符规则将多个子节点划分为m级子节点。
在再一个可选的实现方式中,上述“处理模块”具体可以用于,当黑白名单规则中包括白名单的类别和黑名单的类别时,按照白名单的类别和黑名单的类别将m级子节点中的第1级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于白名单的类别的字符串,另一个子节点包括第二数据中属于黑名单的类别的字符串。
在再一个可选的实现方式中,上述“处理模块”具体可以用于,当定位和预设匹配规则中包括定位匹配的类别和预设匹配的类别时,按照定位匹配的类别和预设匹配的类别,将m级子节点中的第2级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于定位匹配的类别的字符串,另一个子节点包括第二数据中属于预设匹配的类别的字符串,其中第2级中的两个子节点与第1级中属于黑名单的类别的字符串所在的节点呈父子关系。
在再一个可选的实现方式中,上述“处理模块”具体可以用于,当标签属性规则中包括具备标签的类别和不具备标签的类别时,按照具备标签的类别和不具备标签的类别,将m级子节点中的第3级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于具备标签的类别的字符串,另一个子节点包括第二数据中属于不具备标签的类别的字符串,其中第3级中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
在再一个可选的实现方式中,上述“具备标签的类别”具体可以包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
在再一个可选的实现方式中,上述“处理模块”具体可以用于,当字符规则中包括首字符串的类别和预置字符串的类别时,按照首字符串的类别和预置字符串的类别,将m级子节点中的第4级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于首字符串的类别的字符串,另一个子节点包括第二数据中属于预置字符串的类别的字符串,其中第4级中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
第七方面,本发明实施例提供了一种计算机可读存储介质,可以包括指令,当其在计算机上运行时,使得计算机执行以下步骤:
启动浏览器以访问网页;
获取所述访问网页的信息;
将所述访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,所述第一数据用于确定所述访问网页的信息中是否包括目标信息;
当所述访问网页的信息中包括所述目标信息时,拦截所述目标信息。
第八方面,本发明实施例提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行以下步骤:
将第二数据进行树形转化处理,确定第一数据;
所述服务器将所述第一数据发送给终端,以便于所述终端根据确定访问网页是否包含目标信息。
第九方面,本发明实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行以下步骤:
启动浏览器以访问网页;
获取所述访问网页的信息;
将所述访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,所述第一数据用于确定所述访问网页的信息中是否包括目标信息;
当所述访问网页的信息中包括所述目标信息时,拦截所述目标信息。
第十方面,本发明实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行以下步骤:
将第二数据进行树形转化处理,确定第一数据;
所述服务器将所述第一数据发送给终端,以便于所述终端根据确定访问网页是否包含目标信息。
附图说明
图1为一种广告拦截的应用场景示意图;
图2为另一种广告拦截的应用场景示意图;
图3为本发明实施例提供的一种广告拦截的应用场景示意图;
图4为本发明实施例提供的一种数据处理的方法流程示意图;
图5为本发明实施例提供的一种浏览器客户端访问的元素的URL的匹配结果示意图;
图6为本发明实施例提供的一种树形结构的示意图;
图7为本发明实施例提供的一种基于黑白名单规则划分的树形结构示意图;
图8为本发明实施例提供的一种基于定位和预设匹配规则划分的树形结构示意图;
图9为本发明实施例提供的一种基于标签属性规则或字符规则划分的统计分类结构示意图;
图10为本发明实施例提供的一种基于规则划分的树形结构示意图;
图11为本发明实施例提供的一种基于子分类的树形结构示意图;
图12为本发明实施例提供的一种基于黑白名单规则、定位和预设匹配规则和标签属性规则划分的树形结构示意图;
图13为本发明实施例提供的一种基于字符规则划分的树形结构示意图;
图14为本发明实施例提供的一种信息拦截方法的流程图;
图15为本发明实施例提供的一种信息拦截的终端结构示意图;
图16为本发明实施例提供的一种数据处理的服务器的结构示意图;
图17为本发明实施例提供的一种信息拦截的装置结构示意图;
图18为本发明实施例提供的一种数据处理的装置的结构示意图。
具体实施方式
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
目前,用于广告拦截的技术可以是采用Opera的服务端进行拦截,如图1所示,该Opera的服务端可以包括:浏览器服务器、网页缓存库和页面处理服务器。具体地,当客户端(例如:手机、平板电脑等)使用Opera浏览器浏览网页时,客户端向服务端发送网页访问请求,浏览器服务器接收网页访问请求并向网页缓存库发送查询网页信息,网页缓存库将根据网页信息查找相应的数据,并发送至浏览器服务器,浏览器服务器再将网页内容返回。
其中,网页缓存库中存储的相关数据是由页面处理服务器周期性发送网页访问请求,并接收网页内容信息,对网页内容信息进行处理,处理内容可以包括:图片压缩、文本压缩或者广告过滤中的至少一种,再将处理后的内容信息压缩后发送至网页缓存库进行存储,以便于浏览服务器进行查询。由此可知,该方法是基于服务端对广告进行隐藏,然后再把已经隐藏广告后的网页内容返回给客户端进行展现。这种方法需要在服务端缓存大量的页面,并且对网页中的全部的内容进行解析,这个过程是需要服务端中的服务器有较高的性能才能快速完成页面内容的处理,对硬件的性能和存储要求非常高。
另一种广告拦截的技术是应用于浏览器***中(如图2所示),浏览器服务端需要下载easylist规则列表,浏览器客户端定期到浏览器服务端下载广告拦截字符串(需要说明的是,前述easylist规则列表包括广告拦截字符串),当浏览器客户端访问网页时,将访问页面中元素的统一资源定位符(uniform resource locator,URL)和广告拦截字符串进行匹配,根据匹配到的字符串,对该字符串对应的访问页面中的元素进行隐藏。
虽然,该方法是基于浏览器客户端对广告进行拦截,但是,该方法出现了至少两种问题。第一,通过浏览器服务器下载的easylist规则列表老化问题:例如,目前easylist规则列表中的URL大约为4.5W条,而且志愿者在持续增加中,志愿者只愿意增加新规则做“贡献”,不愿意做对他们不增值的事情例如:删除easylist规则列表中的老旧的URL,而删除老旧的规则具有风险,所以导致easylist规则列表中的URl不断增长,需要说明的是,上述广告拦截字符串由easylist规则列表中的URl确定。与此同时,很多easylist规则列表中的URl都是很早提出的,而原始网站已经修改了页面实现方式,easylist规则列表中的URl已经过时,所以过时的easylist规则列表中的URl不能为浏览器客户端提供有效广告进行拦截字符串进行拦截。第二,访问网页中的URL与easylist规则列表中的URL匹配性能低,例如,如前述,easylist规则列表中的URL规则大约为4.5W条,一些大型网站,首页的网络请求都超过100个,有些甚至达到430个,由此导致在对这样的网页进行广告拦截,要进行4.5W*100=400W次乃至千万次的广告匹配,那么必然对承载的浏览器客户端的设备的性能带来明显的影响。
所以,基于上述问题,本发明实施例提供了一种基于客户端的信息拦截的方法、装置及终端,该终端通过具有树形结构的第一数据拦截浏览器页面中的目标信息,该树形结构可以对第一数据中的字符串进行深度区分,有效减少访问网页的信息与第一数据的匹配次数,从而避免了拦截目标信息的字符串较多且没有合理化的匹配方式导致匹配次增多的问题。
为了方便描述,本发明实施例将访问网页中的目标信息以广告信息举例,其中,本发明实施例提供的方法还可以用于除了广告信息以外的信息,例如:咨询和网页地址等。
图3为本发明实施例提供的一种广告拦截的应用场景示意图。如图3所示,该场景可以包括客户端和服务端,其中,客户端具体可以为浏览器客户端,服务端具体可以为浏览器服务端。
具体地,该方法可以包含两个过程,第一个过程可以是浏览器服务端确定第一数据,具体地,浏览器服务端获取大量的用户访问的页面的URL或者页面元素的至少一个URL中的至少一种,该页面元素可以包括:文字,连接或图片中的至少一个;浏览器服务端周期性获取开源网站的开源列表(例如:easylist规则列表)。浏览器服务端根据获取到的用户访问的页面的URL或者页面元素的至少一个URL中的至少一种以及开源网站获取开源列表(开源列表中可以包括广告拦截的字符串)采用浏览器服务端学习机制(例如:图3中云侧学习机制)进行学习,确定有效字符串(例如:在预设天数内访问量大于预设阈值的字符串,在图3中由X days访问量top1w的字符串表示),该步骤的目的是移除无效或者极少人访问的字符串,减少规则的数量,以便于有效减少后面匹配的次数。
浏览器服务端将有效字符串和浏览器的自定义字符串(例如:图3中自运营的拦截规则表示)合并,确定第二数据。其中,有效字符串和自定义字符串中分别包括至少一个字符串。浏览器服务端将第二数据转化为树形私有格式,生成第一数据,将该树形私有格式(具有树形结构的第一数据)存储至私有格式优选规则库,并同步到浏览器客户端。浏览器客户端周期性到浏览器服务端下载具有树形结构的第一数据,在当访问第三网页时,将访问第三网页的网页信息与具有树形结构的第一数据进行匹配,确定匹配的结果,若在具有树形结构的第一数据内匹配到了,则浏览器客户端将被匹配到的在访问第三网页的网页信息中的目标信息进行拦截,一般该目标信息为广告信息。
综上,该方法一方面,通过统计大量用户访问的数据,将原始开源列表中失效的或者访问量低的字符串剔除掉,既保证了规则的有效性,同时有减少了匹配的目标。另外一方面,通过对第二数据的深入理解,按照相应的规则将字符串进行分类,形成为一颗树的结构,在匹配时极大的减少单个信息(即访问第三网页中各个元素的信息,元素一般是指文字、图片和视频等)的匹配次数。
下面结合图4至图13进一步说明本发明实施例提供的信息拦截的方法,首先,需要介绍浏览器服务端数据处理的过程(即确定第一数据)的过程。如图4到图13所示:
图4为本发明实施例提供的一种数据处理的方法流程示意图。如图4所示,可以包括步骤S410-S470,具体如下所示:
S410:浏览器服务端接收浏览器客户端访问网页的指令。
其中,浏览器客户端访问网页的指令可以为大量用户通过浏览器访问多个网页的指令;或者,大量用户通过浏览器访问同一个网页的指令。具体地,浏览器客户端根据大量用户访问网页的指令,记录访问页面的URL或者页面元素的URL中的至少一个,在预设时间内将访问页面的URL或者页面元素的URL中的至少一个进行压缩,压缩后文件为浏览器客户端访问网页的指令。其中,该第二消息中不具有任何用户标识,其目的是为了保障用户的隐私。
需要说明的是,因为有大量的用户进行访问,所以,浏览器客户端会多次将浏览器客户端访问网页的指令发送至浏览器服务端。
S420:浏览器服务端周期性到开源网站获取最新的开源列表(例如:easylist字符串或者包含easylist字符串的列表),例如:服务端每天凌晨12点到开源网站获取最新的开源列表。
S430:浏览器服务端根据开源列表和浏览器客户端访问网页的指令,确定所述有效字符串,即筛选高命中率的规则。
具体地,浏览器客户端每上报一次浏览器客户端访问网页的指令,服务端就将浏览器客户端访问网页的指令中的用户访问页面的URL或者页面元素的URL中的至少一个提取出来,然后对照开源列表中的字符串对两者进行匹配,若匹配到对应的字符串,则对该字符串进行计数加1,重复该步骤,直到浏览器服务端将用户访问页面的URL或者页面元素的URL中的至少一个中的记录全部匹配完成之后,即可以把该用户访问页面的URL或者页面元素的URL中的至少一个放置到备份目录里,在一种可能的实施方式中,可以设置在预设时间段之内删除该文件。
该浏览器服务端将每条字符串的计数结果进行保存,然后统计在预设时间段内(例如:最新30天)每条字符串的访问计数结果,将这些访问计数结果值按照从大到小进行排列,确定访问计数结果大于第一阈值所对应的字符串(例如:排列出访问计数结果大于第一阈值N=2000以上对应的字符串),该访问计数结果大于第一阈值所对应的字符串就为有效字符串,而访问计数结果小于第二阈值(例如:第二阈值N=100)或者已经失效的字符串(例如:访问量为零的字符串)就直接剔除。
举个例子具体说明,例如:easylist字符串列表中,对于sina.cn有如下这几条规则:
||mobile.sina.cn/public/files/image/600x150_
||mobile.sina.cn/public/files/image/620x300_
||sina.cn/api/article/news_banner?
||sina.cn/cm/sinaads_
||sina.cn^*/impress?
当打开当前sina.cn的首页,浏览器客户端收集到的需要访问页面的URL,服务端将这些URL与eaylist字符串列表中的字符串进行匹配,具体如图5所示。从图5中可以看到:||sina.cn^*/impress?这条规则被命中了4次,||sina.cn/cm/sinaads_被命中了一次。由此可知在easylist字符串列表中给出的这5条字符串哪些是经常被访问的,哪些是很少访问或者不访问的。如图5所示的是单次访问的结果,若收集了上百万用户的访问指令之后,就可以得到哪些是有效的,哪些是无效的。
S440:浏览器服务端将有效字符串和浏览器的自定义字符串合并,确定第二数据。
具体地,有效字符串是从开源列表(例如:easylist规则列表)中筛选的,所以有效字符串是开源的。同时,不同的浏览器在运营时,会有一些自定义的规则,即浏览器的自定义字符串。
在另一种可能的实施方式中,在S440步骤之前还可以包括,获取浏览器服务器的自定义字符串。
S450:浏览器服务端将第二数据进行树形转化处理,确定第一数据。
其中,第一数据中可以包括用于匹配目标信息的字符串,该目标信息在本申请中指代广告信息,第一数据用于浏览器客户端根据第一数据拦***问页面中的广告信息。
具体地,浏览器服务端根据n种预设规则将第二数据划分为m级,所述m级子节点中每一级的预设规则都不同;所述n种预设规则中的每一种分别包括至少两个字符串的类别,根据所述字符串的类别将所述m级中的每层划分为至少两个子节点;所述第二数据包括多个字符串,所述每个子节点中分别包括属于不同字符串的类别的多个字符串,所述n、m均为大于等于1的整数,所述n大于等于所述m。
也可以理解为,浏览器服务端根据n个预设规则(n为大于0的正整数)将第二数据划分为m级(m为大于0的正整数,且n大于等于m),m级中的每一级中包括至少两个子节点,n个预设规则中的每个预设规则包括至少两个类别,每一级中的至少两个子节点按照至少两个类别划分(即每一级中的每个子节点都对应一个类别),每一级中的至少两个子节点中包含具有一个类别的多个字符串。
在选取n种预设规则时,m级子节点中每一级的预设规则都不同,一种可能是按照n个预设规则中的顺序进行排列选取,另一种是在n个预设规则中随机选取任意两个或者三个,但最少不能低于两个。
用一个例子说明,图6所示,浏览器服务端根据4个预设规则将第二数据划分为4级(第四级并未示出),4级中的每一级包括至少两个子节点,4个预设规则可以包括:黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则,需要说明的是,该预设规则也可以包括其他的可能性(例如:标识、固定语句等),本申请中只是用上述规则进行举例,并不限于这4个可能性。当选取划分方式中的2个或者3个进行树形转化处理的情况下,因为划分方式的种类变少,虽然划分力度较弱,但是相比于现有技术匹配速度是有所提升的。
4个预设规则中每个预设规则分别可以包括至少两个类别,每一级中的每个子节点都对应一个类别,其中,每一级中的至少两个子节点是按照至少两个类别划分。
举个例子,当选取的是划分方式中的黑白名单规则和定位和字符规则划分进行树形转化处理,首先进行的是采用黑白名单划分然后是字符串划分进行树形转化处理;当选取的是划分方式中的定位和预设匹配规则、标签属性规则划分和字符规则,首先进行的是采用定位和预设匹配规则,然后是标签属性规则划分,最后是字符规则进行树形转化处理。也可以理解为,当选取上述4个规则时,应按照顺序进行往下排列,若选取的不包括或者包含部分上述规则是,应按照实际情况进行排列级数。
例如:当所述黑白名单规则中包括白名单的类别和黑名单的类别时,按照所述白名单的类别和所述黑名单的类别将所述m级子节点中的第1级划分为两个子节点(图6中1a对应图7中的BLACK子节点,图6中的1b对应图7中的WHITE的子节点),所述两个子节点中的一个子节点包括所述第二数据中属于所述白名单的类别的字符串(图7中的WHITE的子节点下面框中的内容),另一个子节点包括所述第二数据中属于所述黑名单的类别的字符串(图7中的BLACK的子节点下面框中的内容)。
具体地,浏览器服务端根据黑白名单规则中的白名单的类别和黑名单的类别将第二数据划分为第一子节点和第二子节点,其中,第一子节点(例如:1a子节点)包括属于黑名单的类别的字符串,第二子节点(例如:1b子节点)包括属于白名单的类别的字符串。
当所述定位和预设匹配规则中包括定位匹配的类别和预设匹配的类别时,按照所述定位匹配的类别和所述预设匹配的类别,将所述m级子节点中的第2级划分为两个子节点(例如:图6中2a子节点和2b子节点),所述两个子节点中的一个子节点包括所述第二数据中属于所述定位匹配的类别的字符串,另一个子节点包括所述第二数据中属于所述预设匹配的类别的字符串,其中所述第2级中的两个子节点与所述第1级中属于所述黑名单的类别的字符串所在的节点呈父子关系。在另一种可能的实施例中,第2级中的第3个子节点(例如,图6中2c子节点)所述第1级中属于所述白名单的类别的字符串所在的节点呈父子关系。需要说明的是,在本发明实施中,从第2级中的子节点都是与属于所述黑名单的类别的字符串所在的节点具有父子关系的节点。具体地,具有定位匹配的类别的子节点中包括在第一预设位置存在字符串的信息或者在第二预设位置存在分隔符的信息中的至少一种;预设匹配的类别的中包括用于筛选所述访问网页的信息中存在前缀的信息,或者具有后缀的信息中的至少一种。
下述对具有定位匹配的类别的子节点和具有预设匹配的类别子节点进行详细说明:
具有定位匹配的类别的子节点主要是根据固定位置的字符进行划分的,具体地,该第一预设位置存在字符*,其中,*表示在第一预设位置出现任意字符串;或者,在第二预设位置存在^,其中,^表示在第二预设位置出现分隔符(其中,分隔符可以是除了字母、数字、_、-、.或者%之外的任何字符)。
举个例子,在如下面的浏览器客户端访问页面的网址中://、:、/、?、&和=可以看做分隔符:
http://example.com:8000/foo.bar?a=12&b=%D1%82%D0%B5%D1%81%D1%82
所以,在定位匹配的规则列表中的规则过滤^example.com^或^%D1%82%D0%B5%D1%81%D1%82^或^foo.bar^就可以和它匹配上。
另外,预设匹配的类别是按照普通模式划分,其中,该预设匹配的类别可以包括:前缀匹配或后置匹配中的至少一种。下面以两者都有的情况下,进行介绍。
由上述可知,white.plain和white.glob是指预设匹配的类别中的前缀匹配类别,white.plain和black.plain是指预设匹配的类别中的后缀匹配类别。例如:对于上面的sina相关的分支,就变成了如图8所示的分支场景,由于数量有限,只出现了3个子节点(例如:white.plain、black.plain和black.glob),在white.plain、black.plain和black.glob下面的框中内容为每个子节点中包含的具有对应类别的字符串。也就是说,在第一级1a节点下面与该第一级1a节点具有父子关系的第二级子节点可以包括2a和2b,于此同时,在第一级1b节点下面与该第一级1b节点具有父子关系的第二级子节点也可以包括2a和2b或者2c(该可能性在图6中并未示出)。
预设匹配的类别可以划分为2个分支(即前缀匹配和后置匹配),在一种可能的实施例中,可以和上述第一级合并为一层,也就是根节点(ROOT)下面同时可以包括4个节点,例如:white.plain、white.glob、black.plain和black.glob。
在另一种可能的实施例中,上述第二级可能会出现4个子节点,4可子节点可以包括具有第一预设位置存在字符串的信息的子节点、具有第二预设位置存在字符串的信息的子节点、具有存在前缀的信息的子节点和具有存在后缀的信息的子节点。
在再一种可能的实施例中,上述第二级可能会出现8个子节点,8个子节点可以分为至少两组,其中一组为与第一级1a节点呈父子节点的4个子节点,4可子节点可以包括具有第一预设位置存在字符串的信息的子节点、具有第二预设位置存在字符串的信息的子节点、具有存在前缀的信息的子节点和具有存在后缀的信息的子节点,另一组与第一级1b呈父子节点的4个子节点,4可子节点可以包括具有第一预设位置存在字符串的信息的子节点、具有第二预设位置存在字符串的信息的子节点、具有存在前缀的信息的子节点和具有存在后缀的信息的子节点。
当所述标签属性规则中包括具备标签的类别和不具备标签的类别时,按照所述具备标签的类别和所述不具备标签的类别,将所述m级子节点中的第3级划分为两个子节点(例如3a和3b),所述两个子节点中的一个子节点包括所述第二数据中属于所述具备标签的类别的字符串,另一个子节点包括所述第二数据中属于所述不具备标签的类别的字符串,其中所述第3级中的任意一个子节点与所述第2级子节点中的一个子节点呈父子关系,例如:如图6所示,3a和3b子节点与2a子节点呈父子关系,3c子节点与2b子节点呈父子关系。
如图9所示,下面结合图9依次说明:标签属性规则中可以包括为很多种类型,在本发明实施例中提供了两种,一种是包含具备标签的类别(例如图9中涉及的内容),另一种是不具备标签的类别其中,具备标签的类别可以具体包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。所以,首先介绍的是具备标签的类别(例如图9涉及的内容),具体如下所示,例如:
MIME_TYPE of request content
"other":1
"xbl":1
"ping":1
"dtd":1
"script":2
"image":4
"background":4
"stylesheet":8
"object":16
"subdocument":32,
"document":64,
"xmlhttprequest":2048,
"object_subrequest":4096,
"media":16384,
"font":32768,
"popup":0x1000000,
其中,左边一列代表的是具备标签的类别根据标签类别对字符串做出的划分,右边一列代表了与划分之后的标签类别的对应编号(该编号是标准中设定的)。
把上面的字符串根据标签类别做进一步的划分,将选取上面的4个子分类(例如图10中"script"、"image"和"document")都可以进行这个标签类别的划分,如图10所示仅针对black.plain为例进行划分。根据带有标签类别"image"将第二数据中带有"image"的字符串设置在该子节点上,以此类推。图10中还有不包含标签的作为一类(例如图10中“*”节点下面的框中为不带不具备标签的类别的字符串)。还有其他的节点的标签类别(因图示范围有限,采用“……”表示其他的标签类别),然后大量的字符串就会被挂到不同的标签类别所在的节点中。需要说明的是,一般来说"script"和"image"的字符串出现的比例高,所以在图10中在"script"的标签类别的子节点和"image"的标签类别的子节点中给出较多的字符串例子。
其次,在一种可能的实施例中,具备标签的类别具体还可以分为:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。详细介绍一下具备标签的类别中具体的类别(如图9中序号2-6涉及到的内容)。
其中,主机可以包括如下4中类型:
第一种:Direct分类
具体地,仅包含主机名(即图9中序号2的说明部分只包含主机信息),例如:(图9中序号2中的示例部分)||9377os.com^这种字符串可以后续根据主机名的字符串进一步划分。
第二种:Third分类
具体地,仅包括广告归属的主机信息(即图9中序号3的说明部分只包含第三方网站访问广告归属网站的信息),例如:(图9中序号)||116b.com^$third-party可以在分类下后续根据主机名的字符串进一步划分。
第三种:Domain_Direct分类
具体地,后续按照主机和domain两级分类进行字符划分(即图9中序号4的说明部分包含当前网页的domain和广告网页主机的信息)。
第四种:Domain_Filter分类
具体地,包含了主机和广告的url信息(即图9中序号5的说明部分包含domain和广告内容的信息),例如下述5条字符串:
Figure BDA0001813922110000191
/static/media/curl.swf$domain=duba.com
Figure BDA0001813922110000192
/banner.js$domain=28188.com|28188.net
/skin/tb12/$domain=17huohu.com|firefox.com.cn
Figure BDA0001813922110000194
.com/tps/$domain=ocucn.com
Figure BDA0001813922110000195
||cdndm.com/12/2016/$domain=1kkk.com|dm5.com
根据上述5条字符串,还可以按照Domain_Filter进一步划分:
包含广告主机名的字符串可以为:||cdndm.com/12/2016/$domain=1kkk.com|dm5.com
不含主机名包含广告path的字符串可以为:.com/tps/$domain=ocucn.com
不含主机包含广告的文件名的字符串可以为:
/static/media/curl.swf$domain=duba.com
根据上面的进一步划分,可以将Domain_Filter进一步划分为3个子节点(例如图11所示),即包含广告主机名的字符串的节点(如图11中111)、不含主机名包含广告path的字符串的节点(如图11中113)以及不含主机包含广告的文件名的字符串的节点(如图11中112)。
上述分类的处理方法,也可以对归属主机属性分类下面的domain_filter做一样处理。例如对于包含图片的广告,可以使用这个分类方法:
第五种,THIRD_FILTERS分类
具体地,例如:||books.com.tw/exep/ap/$third-party字符串。
这里与第四种Domain_filter的区别在于只是用户当前访问的domain和广告的主机是不同的,其广告信息处理部分相同。因此也可以按照第四种Domain_filter部分同样处理。
另外,还可以包括第五种:Type_filter分类
具体地,Domain_filter和Third_filter可以组合为Type_filter,当只是有广告内容信息的时候,Type_filter可以包括Domain_filter和Third_filter两个子类。
综上,根据上述黑白名单划分、匹配模式划分和规则类别划分,可以将第二数据进行树形转化处理,所转化的树形结构可以如图12所示,具体地,以black.plain节点为例结合匹配模式划分和规则类别划分组成图12的树形结构。
其中,针对图12中120-129子节点,可以对于domain、广告的主机、广告对象的路径和主机名(name)进行字符串的划分,具体地对于图12中direct或third中的至少一个子节点的分类,都可以对其中主机名进行划分,例如:可以以首字符是0-9,a-z,A-Z或其他中的至少一个类别来进一步划分(具体如图13所示),划分为3个子节点,每个子节点根据不同的类别将原有的4个字符串划分在3个子节点中,本发明实施例中只举出一个例子(主机名进行划分),其余的(domain、广告的主机和广告对象的路径)也可以进行如上划分,在此不再详细赘述。
浏览器服务端还可以将第三级即图12中120-129子节点再次向第四级划分,其选用的划分预设规则可以是字符规则,具体地,当所述字符规则中包括首字符串的类别和预置字符串的类别时,按照所述首字符串的类别和所述预置字符串的类别,将所述m级子节点中的第4级划分为两个子节点,所述两个子节点中的一个子节点包括所述第二数据中属于所述首字符串的类别的字符串,另一个子节点包括所述第二数据中属于所述预置字符串的类别的字符串,其中所述第4级中的任意一个子节点与所述第3级子节点中的一个子节点呈父子关系。
需要说明的是,第k级子节点中的每个子节点与k-1级中的一个子节点具有父子关系,所述k级子节点为所述m级子节点中的任意一级子节点,所述k为大于等于1的整数。结合上述的例子,可以理解的是,上述n=4的情况下,若k=2(由此可知,k小于等于n,为正整数),即第2级子节点中的每个子节点(例如:2a和2b)与第一级中的一个子节点(例如1b)具有父子关系;或者,k=3,即第3级子节点中的每个子节点(例如3a、3b和3c)与第二级中的一个子节点(例如2a或者2b)具有父子关系。其中,每个子节点在下一级都可能有与该节点具有父子关系的子节点。
需要说明的是,在又一种可能的实施例中,在上述方式中,也可以选取上述4个中的两个或者三个划分方式。
上述的树形结构每个子节点的功能包括:根据每个子节点中包括的字符串对用户访问页面的URL或者访问网页各个元素的URL中的至少一个进行匹配;以及根据该用户访问页面的URL或者所述访问网页各个元素的URL中包含的字符串特征分配下一级与之匹配的子节点。
其次,当每次浏览器客户端启动浏览器以访问网页时,浏览器客户端需要根据具有树形结构的第一数据拦***问网页中的目标信息(即广告信息)需执行以下步骤,图14为本发明实施例提供的一种信息拦截方法的流程图,如图14所示,该步骤包括S1410-S1440,如下所示:
S1410:浏览器客户端启动浏览器以访问网页。
具体地,在该步骤之前,还可以包括接收第一数据。其中该第一数据可以为从浏览器服务端下载的,一般来说下载是按照周期性下载的(例如:每天12:00联网的时候,自动下载)。第一数据为服务端根据所述第二数据进行树形转化处理之后得到,所述第二数据包括有效字符串和浏览器的自定义字符串,其中,所述有效字符串为通过对开源网站中的开源字符串和所述终端上报的在预设时间段内的历史数据进行筛选,确定使用率大于预设阈值的字符串。
S1420:浏览器客户端获取所述访问网页的信息。
具体地,该访问网页也可以指网址信息。
访问网页的信息可以包括:用户访问页面的URL或者访问网页各个元素的URL。其中,该访问网页的信息可能会包括目标信息也可以不包括目标信息,其中,该目标信息在本申请提供的实施例中,一般指代广告信息。
S1430:浏览器客户端将所述访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,所述第一数据用于确定所述访问网页的信息中是否包括目标信息。
具体的匹配过程可以如下所示:
首先,介绍一下该树形结构(该树形结构可以为上述浏览器服务端经过树形转化确定的树形结构),可以结合图6所示,进行详细说明,所述树形结构包括多个节点,所述多个节点包括根节点(ROOT)和至少一级子节点,所述至少一级子节点中的每一级包括至少两个子节点;每一级的节点与关联的下一级节点具有父子关系,所述第一数据根据预设规则分布在成树形结构的所述多个节点上。将所述访问网页的信息从所述树形结构的父节点的第一数据逐级向与所述父节点呈父子关系的子节点的第一数据进行匹配,直至确定所述访问网页的信息中是否包括所述目标信息。
具体地,树形结构可以包括m级子节点,所述m级子节点中的每一级子节点按照n种预设规则中不同的预设规则划分,所述n、m均为大于等于1的整数,所述n大于等于所述m;第j级子节点从f种预设规则中选择1种预设规则进行划分,所述f种预设规则为所述n种预设规则中前j-1级子节点选择剩余的预设规则,所述j-1级子节点为所述j级子节点的上一级子节点,所述j级子节点为所述m级子节点中的任意一级子节点,所述j和f均为大于等于1的整数;所述n种预设规则中的每一种分别包括至少两个字符串的类别;
所述第一数据包括多个字符串,所述第一数据的字符串按所述m级子节点划分,所述m级子节点中的每个子节点分别对应n种预设规则中的不同的字符串的类别,所述每个子节点包括具有不同的所述字符串的类别的多个字符串。
其中,n种预设规则可以包括下述至少一种规则:黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则。
本申请提供的实施例就以该4中规则所示,进行划分匹配。
该树形结构中的第1级包括两个子节点,其中,第1级子节点中的第一子节点包含具有白名单的类别的多个字符串,第1级子节点中的第二子节点包含具有黑名单的类别的多个字符串。其中,两个子节点是根据黑白名单规则进行划分。
在匹配过程中,如果访问网页的信息在第一子节点匹配时,则匹配直接结束,不用再去第二子节点中匹配大量的字符串。
举个例子,例如:sina相关的网站为例,如图7所示,确定(black)子节点和(white)子节点,从图中可知,(white)子节点可以包括@@||sina.com.cn/litong/*/close字符串;(black)子节点可以包括:||sina.com.cn/litong/字符串,例如某个图片(某元素)的URL是https://sina.com.cn/litong/180528/close.jpg那么就会先在与(white)子节点中的字符串匹配时,当匹配到“@@||sina.com.cn/litong/*/close”字符串,从而就不需要再去与(black)子节点中的字符串匹配了。由此可知,该(white)子节点的字符串是用来筛选不是广告信息的字符串,当匹配到时,说明该信息不是广告,不拦截该信息即跳出该树形结构,终止匹配的过程。
但是,当访问网页的信息不包括具有白名单的类别的字符串时,将访问网页的信息与黑名单的类别的字符串进行匹配,即在第二子节点中进行匹配。当所述访问网页的信息不包括所述黑名单的类别的字符串时,所述终端确定所述访问网页的信息不包括所述目标信息,所述终端不拦截所述目标信息,说明该信息不是广告,不拦截该信息即跳出该树形结构,终止匹配的过程。
当所述访问网页的信息包括所述黑名单的类别的字符串时,所述终端将所述访问网页的信息逐级与所述属于所述黑名单的类别的字符串的子节点呈父子关系的子节点相匹配,直至确定所述访问网页的信息完全被匹配完毕,所述终端拦截所述访问网页的信息中的目标信息。
该树形结构中的第2级包括两个子节点,其中,第2级子节点中的任意一个子节点与所述第1级子节点中属于所述黑名单的类别的字符串的子节点呈父子关系。
第2级中的第一个子节点包括具有定位匹配的类别的字符串,第2级中的第二个子节点包括具有预设匹配的类别的字符串。其中,定位匹配的类别用于筛选所述访问网页的信息中第一预设位置存在字符串的信息,或者在第二预设位置存在分隔符的信息中的至少一种;所述预设匹配的类别用于筛选所述访问网页的信息中存在前缀的信息,或者具有后缀的信息中的至少一种。
例如:具有定位匹配的类别的子节点主要是根据固定位置的字符进行划分的,具体地,该第一预设位置存在字符*,其中,*表示在第一预设位置出现任意字符串;或者,在第二预设位置存在^,其中,^表示在第二预设位置出现分隔符(其中,分隔符可以是除了字母、数字、_、-、.或者%之外的任何字符)。当浏览器客户端访问页面的网址中包括://、:、/、?、&和=可以看做分隔符:
http://example.com:8000/foo.bar?a=12&b=%D1%82%D0%B5%D1%81%D1%82
所以,在定位匹配的规则列表中的规则过滤^example.com^或^%D1%82%D0%B5%D1%81%D1%82^或^foo.bar^就可以和它匹配上。
前缀的信息或者后缀信息也是相同的,在预设位置出现对应的字符串,则证明可以匹配上,例如:white.plain、black.plain和black.glob,如果访问网页中包括white.plain、black.plain和black.glob的前缀或者后缀相同的字符,即证明可以匹配上。当匹配到时,需要确定访问页面的网页是否被匹配完成,若没有被匹配完成,则继续到第3级进行继续匹配。若被匹配完成,说明该信息是广告,终端拦截该URL对应的目标信息,从而终止匹配的过程。
第3级中的第一个子节点包括具备标签的类别的字符串,第二个子节点包括不具备标签的字符串。其中,所述第3级子节点中的任意一个子节点与所述第2级子节点中的一个子节点呈父子关系。
其中,具备标签的类别用于筛选所述访问网页的信息中包括标签属性的信息,所述不具备标签的类别用于筛选所述访问网页的信息中不包括标签属性的信息。其中,具备标签的类别还可以进一步划分为:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
具体匹配过程,可以为根据下述分类方法进行匹配:
第一种:Direct匹配
具体地,仅包含主机名(即图9中序号2的说明部分只包含主机信息),例如:(图9中序号2中的示例部分)||9377os.com^这种字符串可以后续根据主机名的字符串进一步匹配。
第二种:Third匹配
具体地,仅包括广告归属的主机信息(即图9中序号3的说明部分只包含第三方网站访问广告归属网站的信息),例如:(图9中序号)||116b.com^$third-party可以在分类下后续根据主机名的字符串进一步匹配。
第三种:Domain_Direct匹配
具体地,后续按照主机和domain两级分类进行字符匹配(即图9中序号4的说明部分包含当前网页的domain和广告网页主机的信息)。
第四种:Domain_Filter匹配
具体地,包含了主机和广告的url信息(即图9中序号5的说明部分包含domain和广告内容的信息),例如下述5条字符串:
Figure BDA0001813922110000231
/static/media/curl.swf$domain=duba.com
Figure BDA0001813922110000232
/banner.js$domain=28188.com|28188.net
Figure BDA0001813922110000233
/skin/tb12/$domain=17huohu.com|firefox.com.cn
Figure BDA0001813922110000234
.com/tps/$domain=ocucn.com
Figure BDA0001813922110000235
||cdndm.com/12/2016/$domain=1kkk.com|dm5.com
根据上述5条字符串,还可以按照Domain_Filter进一步匹配:
包含广告主机名的字符串可以为:||cdndm.com/12/2016/$domain=1kkk.com|dm5.com
不含主机名包含广告path的字符串可以为:.com/tps/$domain=ocucn.com
不含主机包含广告的文件名的字符串可以为:
/static/media/curl.swf$domain=duba.com
上述匹配方法,也可以对归属主机属性分类下面的domain_filter做一样处理。例如对于包含图片的广告,可以使用这个匹配方法:
第五种,THIRD_FILTERS匹配
具体地,例如:访问网页的信息是否包含||books.com.tw/exep/ap/$third-party字符串。
这里与第四种Domain_filter的区别在于只是用户当前访问的domain和广告的主机是不同的,其广告信息处理部分相同。因此也可以按照第四种Domain_filter部分同样处理。
另外,还可以包括第五种:Type_filter匹配
具体地,Domain_filter和Third_filter可以组合为Type_filter,当访问的页面中包括广告内容信息的时候,Type_filter可以包括Domain_filter和Third_filter两个子类。
当匹配到时,需要确定访问页面的网页是否被匹配完成,若没有被匹配完成,则继续到第4级进行继续匹配。若被匹配完成,说明该信息是广告,终端拦截该URL对应的目标信息,从而终止匹配的过程。
第4级中的第一个子节点包括首字符串的类别的字符串,第二个子节点包括预置字符串的类别的字符串。其中,所述第4级子节点中的任意一个子节点与所述第3级子节点中的一个子节点呈父子关系。
具体地,在匹配过程中,首字符串的类别用于筛选访问网页的信息与所述首字符串的类别的字符串具有首字符相同的信息;所述预置字符串的类别用于筛选所述访问网页的信息与所述预置字符串的类别的字符串具有预置字符串相同的信息。
当匹配到时,需要确定访问页面的网页是否被匹配完成,若没有被匹配完成,则继续到第5级进行继续匹配,以此类推,直至访问页面的网页中完全被匹配。若被匹配完成,说明该信息是广告,终端拦截该URL对应的目标信息,从而终止匹配的过程。
综上所示,上述的树形结构每个子节点的功能包括:根据每个子节点中包括的字符串对用户访问页面的URL或者访问网页各个元素的URL中的至少一个进行匹配;以及根据该用户访问页面的URL或者所述访问网页各个元素的URL中包含的字符串特征分配下一级与之匹配的子节点。
S1440:当访问网页的信息中包括目标信息时,拦截所述目标信息。
具体地,在S1430中,当确定访问页面的网页被匹配完成时,说明该信息是广告,终端拦截(可以包括删除或者隐藏)访问页面的网页中的URL对应的目标信息,从而终止匹配的过程。在实现的效果上说,用户是无法感知广告的存在。
若确定访问页面的网页没有被匹配完成时,即匹配上的URL的长度并没有超过预设阈值,则证明该用户访问页面不存在广告信息,浏览器客户端可以直接显示给用户。
本方案中,通过具有树形结构的第一数据拦截浏览器页面中的目标信息,该树形结构可以对第一数据中的字符串进行深度区分,有效减少访问网页的信息与第一数据的匹配次数,从而避免了拦截目标信息的字符串较多且没有合理化的匹配方式导致匹配次增多的问题。此外,通过对获取开源列表中字符串的统计,目的是移除无效或者极少人访问的字符串,减少规则的数量,以便于有效减少后面匹配的次数。
图15为本发明实施例提供的一种信息拦截的终端结构示意图。如图15所示,该终端15可以包括:一个或多个处理器1502、收发器1501、存储器1503中多个应用程序(未在图中示出);以及一个或多个计算机程序,其中,一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被终端执行时,使得终端执行以下步骤:
启动浏览器以访问网页;
获取访问网页的信息;
将访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,第一数据用于确定访问网页的信息中是否包括目标信息;
当访问网页的信息中包括目标信息时,拦截目标信息。
其中,树形结构中可以包括:包括多个节点,多个节点包括根节点和至少一级子节点,至少一级子节点中的每一级包括至少两个子节点;每一级的节点与关联的下一级节点具有父子关系,第一数据根据预设规则分布在成树形结构的多个节点上。
该终端可以具体执行以下步骤:
将访问网页的信息从树形结构的父节点的第一数据逐级向与父节点呈父子关系的子节点的第一数据进行匹配,直至确定访问网页的信息中是否包括目标信息。
上述树形结构具体可以包括m级子节点,m级子节点中的每一级子节点按照n种预设规则中不同的预设规则划分,n、m均为大于等于1的整数,n大于等于m;第j级子节点从f种预设规则中选择1种预设规则进行划分,f种预设规则为n种预设规则中前j-1级子节点选择剩余的预设规则,j-1级子节点为j级子节点的上一级子节点,j级子节点为m级子节点中的任意一级子节点,j和f均为大于等于1的整数;n种预设规则中的每一种分别包括至少两个字符串的类别;第一数据包括多个字符串,第一数据的字符串按m级子节点划分,m级子节点中的每个子节点分别对应n种预设规则中的不同的字符串的类别,每个子节点包括具有不同的字符串的类别的多个字符串。
其中,n种预设规则可以包括下述至少一种规则:黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则。
具体地,黑白名单规则可以包括:白名单的类别和黑名单的类别,m级子节点中的第1级子节点根据黑白名单规则进行划分,第一数据中属于白名单的类别的字符串和属于黑名单的类别的字符串分别对应第1级子节点中的一个子节点。
终端可以执行以下步骤:将访问网页的信息与白名单的类别的字符串进行匹配,当访问网页的信息包括白名单的类别的字符串时,终端确定访问网页的信息不包括目标信息,终端不拦截目标信息。
终端还可以执行以下步骤:当访问网页的信息不包括白名单的类别的字符串时,将访问网页的信息与黑名单的类别的字符串进行匹配;当访问网页的信息不包括黑名单的类别的字符串时,终端确定访问网页的信息不包括目标信息,终端不拦截目标信息;当访问网页的信息包括黑名单的类别的字符串时,终端将访问网页的信息逐级与属于黑名单的类别的字符串的子节点呈父子关系的子节点相匹配,直至确定访问网页的信息被匹配完毕,终端拦***问网页的信息中的目标信息。
上述,定位和预设匹配规则可以具体包括:定位匹配的类别和预设匹配的类别,m级子节点中的第2级子节点根据定位和预设匹配规则进行划分,第一数据中属于定位匹配的类别的字符串和属于预设匹配的类别的字符串分别对应第2级子节点中的一个子节点,其中第2级子节点中的任意一个子节点与第1级子节点中属于黑名单的类别的字符串的子节点呈父子关系。
其中,定位匹配的类别可以用于筛选访问网页的信息中第一预设位置存在字符串的信息,或者在第二预设位置存在分隔符的信息中的至少一种;预设匹配的类别用于筛选访问网页的信息中存在前缀的信息,或者具有后缀的信息中的至少一种。
上述标签属性规则中可以具体包括:具备标签的类别和不具备标签的类别,m级子节点中的第3级子节点根据标签属性规则进行划分,第一数据中属于具备标签的类别的字符串和不具备标签的类别的字符串分别对应第3级子节点中的一个子节点,其中第3级子节点中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
其中,具备标签的类别可以用于筛选访问网页的信息中包括标签属性的信息,不具备标签的类别用于筛选访问网页的信息中不包括标签属性的信息;其中,具备标签的类别具体包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
上述字符规则可以包括:首字符串的类别和预置字符串的类别,m级子节点中的第4级子节点根据字符规则进行划分,第一数据中属于首字符串的类别的字符串和预置字符串的类别的字符串分别对应第4级子节点中的一个子节点,其中第4级子节点中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
其中,首字符串的类别可以用于筛选访问网页的信息与首字符串的类别的字符串具有首字符相同的信息;预置字符串的类别用于筛选访问网页的信息与预置字符串的类别的字符串具有预置字符串相同的信息。
上述步骤中,访问网页的信息可以包括:用户访问页面的URL或者访问网页各个元素的URL,目标信息为广告信息。第一数据为服务端根据第二数据进行树形转化处理之后得到,第二数据包括有效字符串和浏览器的自定义字符串,其中,有效字符串为通过对开源网站中的开源字符串和终端上报的在预设时间段内的历史数据进行筛选,确定使用率大于预设阈值的字符串。
由于第一数据是该终端向服务端下载的,整体上述匹配的过程是在终端中进行,所以,该方式极大的提升了终端进行信息的匹配速度以及避免了现有技术中需要服务端有较高的性能才能快速完成页面内容的处理的问题。
本方案中,该终端通过具有树形结构的第一数据拦截浏览器页面中的目标信息,该树形结构可以对第一数据中的字符串进行深度区分,有效减少访问网页的信息与第一数据的匹配次数,从而避免了拦截目标信息的字符串较多且没有合理化的匹配方式导致匹配次增多的问题。
图16为本发明实施例提供的一种数据处理的服务器的结构示意图。如图16所示,服务器16可以包括:一个或多个处理器1601、收发器1602和存储器1603多个应用程序;以及一个或多个计算机程序,其中,一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被服务器执行时,使得服务器执行以下步骤:
将第二数据进行树形转化处理,确定第一数据;
服务器将第一数据发送给终端,以便于终端根据确定访问网页是否包含目标信息。
其中,目标信息可以为广告信息;访问网页的信息包括:用户访问页面的URL或者访问网页各个元素的URL中的至少一种。
上述服务器可以执行具体以下步骤:从开源网站周期性获取至少一个开源字符串;在至少一个开源字符串和客户端上报的在预设时间段内的历史数据中选取访问量大于第一阈值的多个字符串为有效字符串;获取浏览器服务器的自定义字符串;根据有效字符串和自定义字符串,确定第二数据,有效字符串和自定义字符串中分别包括至少一个字符串。
上述服务器可以执行具体以下步骤:根据n种预设规则将多个子节点划分为m级,m级子节点中每一级的预设规则都不同;n种预设规则中的每一种分别包括至少两个字符串的类别,根据字符串的类别将m级中的每层划分为至少两个子节点;第二数据包括多个字符串,每个子节点中分别包括属于不同字符串的类别的多个字符串,n、m均为大于等于1的整数,n大于等于m;第k级子节点中的每个子节点与k-1级中的一个子节点具有父子关系,k级子节点为m级子节点中的任意一级子节点,k为大于等于1的整数。
上述n种预设规则可以包括下述至少一种规则:黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则;服务器执行以下步骤:根据黑白名单规则、定位和预设匹配规则、标签属性规则和字符规则将多个子节点划分为m级子节点。
上述服务器可以执行具体以下步骤:当黑白名单规则中包括白名单的类别和黑名单的类别时,按照白名单的类别和黑名单的类别将m级子节点中的第1级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于白名单的类别的字符串,另一个子节点包括第二数据中属于黑名单的类别的字符串。
上述服务器可以执行具体以下步骤:当定位和预设匹配规则中包括定位匹配的类别和预设匹配的类别时,按照定位匹配的类别和预设匹配的类别,将m级子节点中的第2级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于定位匹配的类别的字符串,另一个子节点包括第二数据中属于预设匹配的类别的字符串,其中第2级中的两个子节点与第1级中属于黑名单的类别的字符串所在的节点呈父子关系。
上述服务器可以执行具体以下步骤:当标签属性规则中包括具备标签的类别和不具备标签的类别时,按照具备标签的类别和不具备标签的类别,将m级子节点中的第3级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于具备标签的类别的字符串,另一个子节点包括第二数据中属于不具备标签的类别的字符串,其中第3级中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
其中,具备标签的类别可以包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
上述服务器可以执行具体以下步骤:当字符规则中包括首字符串的类别和预置字符串的类别时,按照首字符串的类别和预置字符串的类别,将m级子节点中的第4级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于首字符串的类别的字符串,另一个子节点包括第二数据中属于预置字符串的类别的字符串,其中第4级中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
本方案中,通过对第二数据进行树形转化处理,该树形结构可以对第二数据中的字符串进行深度区分,转化为区分度非常高的树形结构,有效减少访问网页的信息与第一数据的匹配次数。
图17为本发明实施例提供的一种信息拦截的装置结构示意图。如图17所示,该装置17可以包括:
处理模块1702,用于启动浏览器以访问网页;
收发模块1701,用于获取访问网页的信息;
该处理模块还用于,将访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,第一数据用于确定访问网页的信息中是否包括目标信息;当访问网页的信息中包括目标信息时,拦截目标信息。
其中,树形结构可以包括多个节点,多个节点包括根节点和至少一级子节点,至少一级子节点中的每一级包括至少两个子节点;每一级的节点与关联的下一级节点具有父子关系,第一数据根据预设规则分布在成树形结构的多个节点上。
上述处理模块具体可以用于,将访问网页的信息从树形结构的父节点的第一数据逐级向与父节点呈父子关系的子节点的第一数据进行匹配,直至确定访问网页的信息中是否包括目标信息。
上述树形结构可以包括m级子节点,m级子节点中的每一级子节点按照n种预设规则中不同的预设规则划分,n、m均为大于等于1的整数,n大于等于m;第j级子节点从f种预设规则中选择1种预设规则进行划分,f种预设规则为n种预设规则中前j-1级子节点选择剩余的预设规则,j-1级子节点为j级子节点的上一级子节点,j级子节点为m级子节点中的任意一级子节点,j和f均为大于等于1的整数;n种预设规则中的每一种分别包括至少两个字符串的类别;第一数据包括多个字符串,第一数据的字符串按m级子节点划分,m级子节点中的每个子节点分别对应n种预设规则中的不同的字符串的类别,每个子节点包括具有不同的字符串的类别的多个字符串。
其中,n种预设规则可以包括下述至少一种规则:黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则。
上述黑白名单规则可以包括白名单的类别和黑名单的类别,m级子节点中的第1级子节点根据黑白名单规则进行划分,第一数据中属于白名单的类别的字符串和属于黑名单的类别的字符串分别对应第1级子节点中的一个子节点。
处理模块具体可以用于,将访问网页的信息与白名单的类别的字符串进行匹配,当访问网页的信息包括白名单的类别的字符串时,确定访问网页的信息不包括目标信息,不拦截目标信息。
处理模块具体可以用于,当访问网页的信息不包括白名单的类别的字符串时,将访问网页的信息与黑名单的类别的字符串进行匹配;当访问网页的信息不包括黑名单的类别的字符串时,确定访问网页的信息不包括目标信息,不拦截目标信息;当访问网页的信息包括黑名单的类别的字符串时,将访问网页的信息逐级与属于黑名单的类别的字符串的子节点呈父子关系的子节点相匹配,直至确定访问网页的信息被匹配完毕,拦***问网页的信息中的目标信息。
上述定位和预设匹配规则可以包括定位匹配的类别和预设匹配的类别,m级子节点中的第2级子节点根据定位和预设匹配规则进行划分,第一数据中属于定位匹配的类别的字符串和属于预设匹配的类别的字符串分别对应第2级子节点中的一个子节点,其中第2级子节点中的任意一个子节点与第1级子节点中属于黑名单的类别的字符串的子节点呈父子关系。
其中,定位匹配的类别可以用于筛选访问网页的信息中第一预设位置存在字符串的信息,或者在第二预设位置存在分隔符的信息中的至少一种;预设匹配的类别用于筛选访问网页的信息中存在前缀的信息,或者具有后缀的信息中的至少一种。
上述标签属性规则可以包括具备标签的类别和不具备标签的类别,m级子节点中的第3级子节点根据标签属性规则进行划分,第一数据中属于具备标签的类别的字符串和不具备标签的类别的字符串分别对应第3级子节点中的一个子节点,其中第3级子节点中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
其中,具备标签的类别可以用于筛选访问网页的信息中包括标签属性的信息,不具备标签的类别用于筛选访问网页的信息中不包括标签属性的信息;其中,具备标签的类别具体包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
上述字符规则可以包括首字符串的类别和预置字符串的类别,m级子节点中的第4级子节点根据字符规则进行划分,第一数据中属于首字符串的类别的字符串和预置字符串的类别的字符串分别对应第4级子节点中的一个子节点,其中第4级子节点中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
其中,首字符串的类别可以用于筛选访问网页的信息与首字符串的类别的字符串具有首字符相同的信息;预置字符串的类别用于筛选访问网页的信息与预置字符串的类别的字符串具有预置字符串相同的信息。
上述访问网页的信息可以包括用户访问页面的URL或者访问网页各个元素的URL,目标信息为广告信息。第一数据可以为服务端根据第二数据进行树形转化处理之后得到,第二数据包括有效字符串和浏览器的自定义字符串,其中,有效字符串为通过对开源网站中的开源字符串和上报的在预设时间段内的历史数据进行筛选,确定使用率大于预设阈值的字符串。
本方案中,该装置通过具有树形结构的第一数据拦截浏览器页面中的目标信息,该树形结构可以对第一数据中的字符串进行深度区分,有效减少访问网页的信息与第一数据的匹配次数,从而避免了拦截目标信息的字符串较多且没有合理化的匹配方式导致匹配次增多的问题,整体可以提升匹配速度40%以上。
图18为本发明实施例提供的一种数据处理的装置的结构示意图。如图18所示,该装置18包括:
处理模块1802,将第二数据进行树形转化处理,确定第一数据;
收发模块1801,将第一数据发送给终端,以便于终端根据确定访问网页是否包含目标信息。
其中,目标信息可以为广告信息;访问网页的信息包括:用户访问页面的URL或者访问网页各个元素的URL中的至少一种。
上述收发模块还可以用于,从开源网站周期性获取至少一个开源字符串;获取浏览器服务器的自定义字符串。处理模块还可以用于,在至少一个开源字符串和客户端上报的在预设时间段内的历史数据中选取访问量大于第一阈值的多个字符串为有效字符串;处理模块还可以用于,根据有效字符串和自定义字符串,确定第二数据,有效字符串和自定义字符串中分别包括至少一个字符串;根据n种预设规则将多个子节点划分为m级,m级子节点中每一级的预设规则都不同;n种预设规则中的每一种分别包括至少两个字符串的类别,根据字符串的类别将m级中的每层划分为至少两个子节点;第二数据包括多个字符串,每个子节点中分别包括属于不同字符串的类别的多个字符串,n、m均为大于等于1的整数,n大于等于m;第k级子节点中的每个子节点与k-1级中的一个子节点具有父子关系,k级子节点为m级子节点中的任意一级子节点,k为大于等于1的整数。
其中,n种预设规则可以包括下述至少一种规则:黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则;处理模块还可以用于,根据黑白名单规则、定位和预设匹配规则、标签属性规则和字符规则将多个子节点划分为m级子节点。
处理模块具体可以用于,当黑白名单规则中包括白名单的类别和黑名单的类别时,按照白名单的类别和黑名单的类别将m级子节点中的第1级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于白名单的类别的字符串,另一个子节点包括第二数据中属于黑名单的类别的字符串。
处理模块具体可以用于,当定位和预设匹配规则中包括定位匹配的类别和预设匹配的类别时,按照定位匹配的类别和预设匹配的类别,将m级子节点中的第2级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于定位匹配的类别的字符串,另一个子节点包括第二数据中属于预设匹配的类别的字符串,其中第2级中的两个子节点与第1级中属于黑名单的类别的字符串所在的节点呈父子关系。
处理模块具体可以用于,当标签属性规则中包括具备标签的类别和不具备标签的类别时,按照具备标签的类别和不具备标签的类别,将m级子节点中的第3级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于具备标签的类别的字符串,另一个子节点包括第二数据中属于不具备标签的类别的字符串,其中第3级中的任意一个子节点与第2级子节点中的一个子节点呈父子关系。
其中,具备标签的类别具体可以包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
处理模块具体可以用于,当字符规则中包括首字符串的类别和预置字符串的类别时,按照首字符串的类别和预置字符串的类别,将m级子节点中的第4级划分为两个子节点,两个子节点中的一个子节点包括第二数据中属于首字符串的类别的字符串,另一个子节点包括第二数据中属于预置字符串的类别的字符串,其中第4级中的任意一个子节点与第3级子节点中的一个子节点呈父子关系。
本方案中,通过对第二数据进行树形转化处理,该树形结构可以对第二数据中的字符串进行深度区分,转化为区分度非常高的树形结构,有效减少访问网页的信息与第一数据的匹配次数。
本发明实施例提供的一种信息拦截的方法、装置及终端。通过对开源列表中大量的字符串的统计,有效剔除失效或者访问量较少的字符串,减少字符串的数量,在此基础上,将第二数据转化为具有树形结构的第一数据,用于拦截浏览器页面中的目标信息,该树形结构可以对第一数据中的字符串进行深度区分,有效减少访问网页的信息与第一数据的匹配次数,从而避免了拦截目标信息的字符串较多且没有合理化的匹配方式导致匹配次增多的问题,在实际统计中,匹配速度可以整体提升40%以上。具体地,在对树形结构的划分时,通过对字符串的树形分析,使用黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则将第二数据进行划分,该方式可以对字符串进行深度区分,转换为区分度非常高的树形结构,从而极大的提升了浏览器客户端拦截广告的速度,有效提高用户的体验感。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (30)

1.一种信息拦截的终端,其特征在于,包括:一个或多个处理器、收发器、存储器、多个应用程序,以及一个或多个计算机程序,其中,所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述终端执行时,使得所述终端执行以下步骤:
启动浏览器以访问网页;
获取所述访问网页的信息;
将所述访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,所述第一数据用于确定所述访问网页的信息中是否包括目标信息;
当所述访问网页的信息中包括所述目标信息时,拦截所述目标信息。
2.根据权利要求1所述的终端,其特征在于,所述树形结构包括多个节点,所述多个节点包括根节点和至少一级子节点,所述至少一级子节点中的每一级包括至少两个子节点;
每一级的节点与关联的下一级节点具有父子关系,所述第一数据根据预设规则分布在成树形结构的所述多个节点上。
3.根据权利要求2所述的终端,其特征在于,所述终端执行以下步骤:
将所述访问网页的信息从所述树形结构的父节点的第一数据逐级向与所述父节点呈父子关系的子节点的第一数据进行匹配,直至确定所述访问网页的信息中是否包括所述目标信息。
4.根据权利要求3所述的终端,其特征在于,所述树形结构包括m级子节点,所述m级子节点中的每一级子节点按照n种预设规则中不同的预设规则划分,所述n、m均为大于等于1的整数,所述n大于等于所述m;
第j级子节点从f种预设规则中选择1种预设规则进行划分,所述f种预设规则为所述n种预设规则中前j-1级子节点选择剩余的预设规则,所述j-1级子节点为所述j级子节点的上一级子节点,所述j级子节点为所述m级子节点中的任意一级子节点,所述j和f均为大于等于1的整数;
所述n种预设规则中的每一种分别包括至少两个字符串的类别;
所述第一数据包括多个字符串,所述第一数据的字符串按所述m级子节点划分,所述m级子节点中的每个子节点分别对应n种预设规则中的不同的字符串的类别,所述每个子节点包括具有不同的所述字符串的类别的多个字符串。
5.根据权利要求4所述的终端,其特征在于,所述n种预设规则包括下述至少一种规则:
黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则。
6.根据权利要求5所述的终端,其特征在于,所述黑白名单规则包括白名单的类别和黑名单的类别,所述m级子节点中的第1级子节点根据所述黑白名单规则进行划分,所述第一数据中属于所述白名单的类别的字符串和属于所述黑名单的类别的字符串分别对应所述第1级子节点中的一个子节点。
7.根据权利要求6所述的终端,其特征在于,所述终端执行以下步骤:
所述终端将所述访问网页的信息与所述白名单的类别的字符串进行匹配,当所述访问网页的信息包括白名单的类别的字符串时,所述终端确定所述访问网页的信息不包括所述目标信息。
8.根据权利要求7所述的终端,其特征在于,所述终端还执行以下步骤:当所述访问网页的信息不包括白名单的类别的字符串时,将所述访问网页的信息与所述黑名单的类别的字符串进行匹配;
当所述访问网页的信息不包括所述黑名单的类别的字符串时,所述终端确定所述访问网页的信息不包括所述目标信息;
当所述访问网页的信息包括所述黑名单的类别的字符串时,所述终端将所述访问网页的信息逐级与所述属于所述黑名单的类别的字符串的子节点呈父子关系的子节点相匹配,直至确定所述访问网页的信息被匹配完毕,所述终端拦截所述访问网页的信息中的目标信息。
9.根据权利要求8所述的终端,其特征在于,所述定位和预设匹配规则包括定位匹配的类别和预设匹配的类别,所述m级子节点中的第2级子节点根据所述定位和预设匹配规则进行划分,所述第一数据中属于所述定位匹配的类别的字符串和属于所述预设匹配的类别的字符串分别对应所述第2级子节点中的一个子节点,其中所述第2级子节点中的任意一个子节点与所述第1级子节点中属于所述黑名单的类别的字符串的子节点呈父子关系。
10.根据权利要求9所述的终端,其特征在于,所述定位匹配的类别用于筛选所述访问网页的信息中第一预设位置存在字符串的信息,或者在第二预设位置存在分隔符的信息中的至少一种;
所述预设匹配的类别用于筛选所述访问网页的信息中存在前缀的信息,或者具有后缀的信息中的至少一种。
11.根据权利要求9所述的终端,其特征在于,所述标签属性规则包括具备标签的类别和不具备标签的类别,所述m级子节点中的第3级子节点根据所述标签属性规则进行划分,所述第一数据中属于所述具备标签的类别的字符串和所述不具备标签的类别的字符串分别对应所述第3级子节点中的一个子节点,其中所述第3级子节点中的任意一个子节点与所述第2级子节点中的一个子节点呈父子关系。
12.根据权利要求11所述的终端,其特征在于,所述具备标签的类别用于筛选所述访问网页的信息中包括标签属性的信息,所述不具备标签的类别用于筛选所述访问网页的信息中不包括标签属性的信息;其中,
所述具备标签的类别具体包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
13.根据权利要求11所述的终端,其特征在于,所述字符规则包括首字符串的类别和预置字符串的类别,所述m级子节点中的第4级子节点根据所述字符规则进行划分,所述第一数据中属于所述首字符串的类别的字符串和所述预置字符串的类别的字符串分别对应所述第4级子节点中的一个子节点,其中所述第4级子节点中的任意一个子节点与所述第3级子节点中的一个子节点呈父子关系。
14.根据权利要求13所述的终端,其特征在于,所述首字符串的类别用于筛选所述访问网页的信息与所述首字符串的类别的字符串具有首字符相同的信息;
所述预置字符串的类别用于筛选所述访问网页的信息与所述预置字符串的类别的字符串具有预置字符串相同的信息。
15.根据权利要求1-14任一项所述的终端,其特征在于,所述访问网页的信息包括:所述用户访问页面的URL或者所述访问网页各个元素的URL,所述目标信息为广告信息。
16.根据权利要求1所述的终端,其特征在于,所述第一数据为服务端根据所述第二数据进行树形转化处理之后得到,所述第二数据包括有效字符串和浏览器的自定义字符串,其中,所述有效字符串为通过对开源网站中的开源字符串和所述终端上报的在预设时间段内的历史数据进行筛选,确定使用率大于预设阈值的字符串。
17.一种数据处理的服务器,其特征在于,包括:一个或多个处理器、收发器、存储器、多个应用程序,以及一个或多个计算机程序,其中,所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述服务器执行时,使得所述服务器执行以下步骤:
将第二数据进行树形转化处理,确定第一数据;
所述服务器将所述第一数据发送给终端,以便于所述终端根据确定访问网页是否包含目标信息。
18.根据权利要求17所述的服务器,其特征在于,所述目标信息为广告信息;
所述访问网页的信息包括:所述用户访问页面的URL或者所述访问网页各个元素的URL中的至少一种。
19.根据权利要求17所述的服务器,其特征在于,所述服务器执行以下步骤:
从开源网站周期性获取至少一个开源字符串;
在所述至少一个开源字符串和所述客户端上报的在预设时间段内的历史数据中选取访问量大于第一阈值的多个字符串为有效字符串;
获取浏览器服务器的自定义字符串;
根据所述有效字符串和所述自定义字符串,确定所述第二数据,所述有效字符串和所述自定义字符串中分别包括至少一个字符串。
20.据权利要求17或19所述的服务器,其特征在于,所述服务器执行以下步骤:
根据n种预设规则将第二数据划分为m级,所述m级子节点中每一级的预设规则都不同;
所述n种预设规则中的每一种分别包括至少两个字符串的类别,根据所述字符串的类别将所述m级中的每层划分为至少两个子节点;
所述第二数据包括多个字符串,所述每个子节点中分别包括属于不同字符串的类别的多个字符串,所述n、m均为大于等于1的整数,所述n大于等于所述m;
第k级子节点中的每个子节点与k-1级中的一个子节点具有父子关系,所述k级子节点为所述m级子节点中的任意一级子节点,所述k为大于等于1的整数。
21.据权利要求20所述的服务器,其特征在于,所述n种预设规则包括下述至少一种规则:黑白名单规则、定位和预设匹配规则、标签属性规则或字符规则;所述服务器执行以下步骤:
根据所述黑白名单规则、定位和预设匹配规则、标签属性规则和字符规则将多个子节点划分为所述m级子节点。
22.根据权利要求21所述的服务器,其特征在于,所述服务器执行以下步骤:
当所述黑白名单规则中包括白名单的类别和黑名单的类别时,按照所述白名单的类别和所述黑名单的类别将所述m级子节点中的第1级划分为两个子节点,所述两个子节点中的一个子节点包括所述第二数据中属于所述白名单的类别的字符串,另一个子节点包括所述第二数据中属于所述黑名单的类别的字符串。
23.根据权利要求22所述的服务器,其特征在于,所述服务器执行以下步骤:
当所述定位和预设匹配规则中包括定位匹配的类别和预设匹配的类别时,按照所述定位匹配的类别和所述预设匹配的类别,将所述m级子节点中的第2级划分为两个子节点,所述两个子节点中的一个子节点包括所述第二数据中属于所述定位匹配的类别的字符串,另一个子节点包括所述第二数据中属于所述预设匹配的类别的字符串,其中所述第2级中的两个子节点与所述第1级中属于所述黑名单的类别的字符串所在的节点呈父子关系。
24.根据权利要求23所述的服务器,其特征在于,所述服务器执行以下步骤:
当所述标签属性规则中包括具备标签的类别和不具备标签的类别时,按照所述具备标签的类别和所述不具备标签的类别,将所述m级子节点中的第3级划分为两个子节点,所述两个子节点中的一个子节点包括所述第二数据中属于所述具备标签的类别的字符串,另一个子节点包括所述第二数据中属于所述不具备标签的类别的字符串,其中所述第3级中的任意一个子节点与所述第2级子节点中的一个子节点呈父子关系。
25.根据权利要求24所述的服务器,其特征在于,所述具备标签的类别具体包括:仅有主机名的类别、仅有广告属性的主机信息的类别、主机和域名两级分类的类别、主机和广告的统一资源定位符URL信息的类别或仅是域名和广告的URL信息不同的类别中的至少一种。
26.根据权利要求24或25所述的服务器,其特征在于,所述服务器执行以下步骤:
当所述字符规则中包括首字符串的类别和预置字符串的类别时,按照所述首字符串的类别和所述预置字符串的类别,将所述m级子节点中的第4级划分为两个子节点,所述两个子节点中的一个子节点包括所述第二数据中属于所述首字符串的类别的字符串,另一个子节点包括所述第二数据中属于所述预置字符串的类别的字符串,其中所述第4级中的任意一个子节点与所述第3级子节点中的一个子节点呈父子关系。
27.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行以下步骤:
启动浏览器以访问网页;
获取所述访问网页的信息;
将所述访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,所述第一数据用于确定所述访问网页的信息中是否包括目标信息;
当所述访问网页的信息中包括所述目标信息时,拦截所述目标信息。
28.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行以下步骤:
将第二数据进行树形转化处理,确定第一数据;
所述服务器将所述第一数据发送给终端,以便于所述终端根据确定访问网页是否包含目标信息。
29.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行以下步骤:
启动浏览器以访问网页;
获取所述访问网页的信息;
将所述访问网页的信息与呈树形结构排布的第一数据进行匹配,其中,所述第一数据用于确定所述访问网页的信息中是否包括目标信息;
当所述访问网页的信息中包括所述目标信息时,拦截所述目标信息。
30.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行以下步骤:
将第二数据进行树形转化处理,确定第一数据;
所述服务器将所述第一数据发送给终端,以便于所述终端根据确定访问网页是否包含目标信息。
CN201811132493.9A 2018-09-27 2018-09-27 一种信息拦截的方法、装置及终端 Active CN110955855B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811132493.9A CN110955855B (zh) 2018-09-27 2018-09-27 一种信息拦截的方法、装置及终端
PCT/CN2019/106728 WO2020063448A1 (zh) 2018-09-27 2019-09-19 一种信息拦截的方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811132493.9A CN110955855B (zh) 2018-09-27 2018-09-27 一种信息拦截的方法、装置及终端

Publications (2)

Publication Number Publication Date
CN110955855A true CN110955855A (zh) 2020-04-03
CN110955855B CN110955855B (zh) 2023-06-02

Family

ID=69951180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811132493.9A Active CN110955855B (zh) 2018-09-27 2018-09-27 一种信息拦截的方法、装置及终端

Country Status (2)

Country Link
CN (1) CN110955855B (zh)
WO (1) WO2020063448A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073374A (zh) * 2020-08-05 2020-12-11 长沙市到家悠享网络科技有限公司 信息拦截方法、装置及设备
CN117093777A (zh) * 2023-08-22 2023-11-21 北京领雁科技股份有限公司 一种浏览器页面的拦截方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641911B (zh) * 2021-08-19 2024-03-08 郑州阿帕斯数云信息科技有限公司 广告拦截规则库的建立方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100325588A1 (en) * 2009-06-22 2010-12-23 Anoop Kandi Reddy Systems and methods for providing a visualizer for rules of an application firewall
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
JP2015118466A (ja) * 2013-12-17 2015-06-25 ケーディーアイコンズ株式会社 情報処理装置及びプログラム
CN105824972A (zh) * 2016-04-15 2016-08-03 广东欧珀移动通信有限公司 网络广告拦截方法及装置
CN106033450A (zh) * 2015-03-17 2016-10-19 中兴通讯股份有限公司 一种广告拦截的方法、装置和浏览器
CN107193889A (zh) * 2017-05-02 2017-09-22 努比亚技术有限公司 广告拦截方法、终端及计算机可读存储介质
CN107437026A (zh) * 2017-07-13 2017-12-05 西北大学 一种基于广告网络拓扑的恶意网页广告检测方法
CN107835993A (zh) * 2015-05-12 2018-03-23 极进网络公司 用于生成具有用于快速树遍历和在叶节点处的减少数量的全比较的节点比较字段和剪切值的树结构的方法、***和非暂时性计算机可读介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105100904A (zh) * 2014-05-09 2015-11-25 深圳市快播科技有限公司 视频广告拦截方法、装置和浏览器
US9578042B2 (en) * 2015-03-06 2017-02-21 International Business Machines Corporation Identifying malicious web infrastructures
CN108170810A (zh) * 2017-12-29 2018-06-15 南京邮电大学 一种基于动态行为的广告检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100325588A1 (en) * 2009-06-22 2010-12-23 Anoop Kandi Reddy Systems and methods for providing a visualizer for rules of an application firewall
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
JP2015118466A (ja) * 2013-12-17 2015-06-25 ケーディーアイコンズ株式会社 情報処理装置及びプログラム
CN106033450A (zh) * 2015-03-17 2016-10-19 中兴通讯股份有限公司 一种广告拦截的方法、装置和浏览器
CN107835993A (zh) * 2015-05-12 2018-03-23 极进网络公司 用于生成具有用于快速树遍历和在叶节点处的减少数量的全比较的节点比较字段和剪切值的树结构的方法、***和非暂时性计算机可读介质
CN105824972A (zh) * 2016-04-15 2016-08-03 广东欧珀移动通信有限公司 网络广告拦截方法及装置
CN107193889A (zh) * 2017-05-02 2017-09-22 努比亚技术有限公司 广告拦截方法、终端及计算机可读存储介质
CN107437026A (zh) * 2017-07-13 2017-12-05 西北大学 一种基于广告网络拓扑的恶意网页广告检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
信学峰: "基于流氓软件的检测与拦截技术的研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073374A (zh) * 2020-08-05 2020-12-11 长沙市到家悠享网络科技有限公司 信息拦截方法、装置及设备
CN117093777A (zh) * 2023-08-22 2023-11-21 北京领雁科技股份有限公司 一种浏览器页面的拦截方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110955855B (zh) 2023-06-02
WO2020063448A1 (zh) 2020-04-02

Similar Documents

Publication Publication Date Title
US10817663B2 (en) Dynamic native content insertion
US9928292B2 (en) Classifying uniform resource locators
CN102722563B (zh) 页面显示方法及装置
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
CA2610208C (en) Learning facts from semi-structured text
JP6487201B2 (ja) 推奨ページを生成するための方法及び装置
CN109033358B (zh) 新闻聚合与智能实体关联的方法
WO2015196907A1 (zh) 一种挖掘用户需求的搜索推送方法和装置
US9729499B2 (en) Browser and method for domain name resolution by the same
US8478701B2 (en) Locating a user based on aggregated tweet content associated with a location
CN102053983B (zh) 一种垂直搜索的查询方法、***和装置
US7797350B2 (en) System and method for processing downloaded data
CN104850546B (zh) 移动媒介信息的展示方法和***
CN102037464A (zh) 具有最多点击的下一个对象的搜索结果
US11423096B2 (en) Method and apparatus for outputting information
CN110955855B (zh) 一种信息拦截的方法、装置及终端
US20120310941A1 (en) System and method for web-based content categorization
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
CN104065736A (zh) 一种url重定向方法、装置及***
CN113656737B (zh) 网页内容展示方法、装置、电子设备以及存储介质
CN108108381B (zh) 页面的监测方法及装置
JP2007122398A (ja) フラグメントの同一性判定方法およびコンピュータプログラム
CN111680247A (zh) 网页字符串的本地调用方法、装置、设备及存储介质
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备
CN112486796B (zh) 一种采集车载智能终端信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220507

Address after: 523799 Room 101, building 4, No. 15, Huanhu Road, Songshanhu Park, Dongguan City, Guangdong Province

Applicant after: Petal cloud Technology Co.,Ltd.

Address before: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Applicant before: HUAWEI DEVICE Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant