CN102946449A - Url 的匹配方法、装置及网关 - Google Patents

Url 的匹配方法、装置及网关 Download PDF

Info

Publication number
CN102946449A
CN102946449A CN2012104973966A CN201210497396A CN102946449A CN 102946449 A CN102946449 A CN 102946449A CN 2012104973966 A CN2012104973966 A CN 2012104973966A CN 201210497396 A CN201210497396 A CN 201210497396A CN 102946449 A CN102946449 A CN 102946449A
Authority
CN
China
Prior art keywords
url
urls
stored
cloud
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104973966A
Other languages
English (en)
Inventor
王瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netlegend Technology (beijing) Co Ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Netlegend Technology (beijing) Co Ltd
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netlegend Technology (beijing) Co Ltd, Secworld Information Technology Beijing Co Ltd filed Critical Netlegend Technology (beijing) Co Ltd
Priority to CN2012104973966A priority Critical patent/CN102946449A/zh
Publication of CN102946449A publication Critical patent/CN102946449A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种URL的匹配方法、装置及网关,其中,该方法包括:确定本地是否存储有访问请求中携带的统一资源定位符URL;如果没有,则确定云端是否存储有上述URL。本发明解决了相关技术中的URL匹配方案不能满足在节省本地空间的基础上快速匹配的问题,从而在节省本地存储空间的基础上提高了URL匹配的效率。

Description

URL 的匹配方法、装置及网关
技术领域
本发明涉及通信领域,具体而言,涉及一种URL的匹配方法、装置及网关。 
背景技术
统一资源定位符(Uniform Resource Locator,简称为URL)也被称为网页地址,是因特网上标准的资源的地址。 
URL是用于完整地描述Internet上网页和其他资源的地址的一种标识方法。Internet上的每一个网页都具有一个唯一的名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机,更多的是Internet上的站点。简单地说,URL就是Web地址,俗称“网址”。 
目前针对绿色上网功能,大部分网络设备制造商的处理方法大致分为以下两种类型: 
现有技术一:内置URL库将URL分类和排序后通过字符匹配算法来实现。 
现有技术二:通过转发流量给外部的URL过滤服务器来实现。 
采用技术一时,存在以下缺陷: 
(1)占用设备内存量较大(每1万条需要空间1500KB,千万级的URL库会占用设备1.5G内存空间); 
(2)无法及时更新URL库。 
采用技术二时,存在以下缺陷: 
通过转发流量给外部URL过滤服务器来实现的受限于网络环境的影响较大,设备在处理网络流量的同时还需要将用户的请求进行缓存后转发给外部的URL过滤服务器进行匹配,匹配的结果再反馈给设备并有设备进行后续处理,这样处理的后果是响应时间成为设备能否快速处理用户的请求的性能瓶颈。针对相关技术中…的问题,目前尚未提出有效的解决方案。 
针对相关技术中上述至少之一的问题,目前尚未提出有效的解决方案。 
发明内容
本发明提供了一种URL的匹配方法、装置及网关,以至少解决相关技术中的URL匹配方案不能满足在节省本地空间的基础上快速匹配的问题。 
根据本发明的一个方面,提供了一种URL的匹配方法,其包括:确定本地是否存储有访问请求中携带的统一资源定位符URL;如果没有,则确定云端是否存储有上述URL。 
优选地,上述本地存储的URL包括至少以下之一:预先设定的一个或多个URL;从上述云端存储的URL中获取的URL;其中,上述获取的URL包括:从上述云端存储的URL中按照使用频率由高到低的顺序取出的前第一预设数目个URL;从上述云端存储的URL中按照使用时间优先到后的顺序取出的后第二预设数目个URL。 
优选地,确定本地是否存储有访问请求中携带的统一资源定位符URL包括:确定上述预先设定的一个或多个URL中是否包含有上述URL;如果不包含,则确定上述获取的URL中是否包含有上述URL,其中,上述获取的URL按照属性进行分类。 
优选地,上述预先设定的一个或多个URL包括:允许访问的URL和不允许访问的URL。 
优选地,所示方法还包括:如果确定上述云端存储有上述URL,将上述URL存储到上述第二预设数目个URL中;或者如果确定上述云端未存储有上述URL,将上述URL存储到上述云端。根据本发明的另一方面,提供了一种URL的匹配装置,其包括:第一确定模块,用于确定本地是否存储有访问请求中携带的统一资源定位符URL;第二确定模块,用于如果上述本地未存储有上述URL,则确定云端是否存储有上述URL。 
优选地,上述本地存储的URL包括至少以下之一:预先设定的一个或多个URL;从上述云端存储的URL中获取的URL;其中,上述获取的URL包括:从上述云端存储的URL中按照使用频率由高到低的顺序取出的前第一预设数目个URL;从上述云端存储的URL中按照使用时间优先到后的顺序取出的后第二预设数目个URL。 
优选地,上述第一确定模块包括:第一确定单元,用于确定上述预先设定的一个或多个URL中是否包含有上述URL;第二确定单元,用于如果上述预先设定的一个或多个URL中不包含有上述URL,则确定上述获取的URL中是否包含有上述URL,其中,上述获取的URL按照属性进行分类。 
优选地,上述URL的匹配装置还包括:存储模块,用于如果确定上述云端存储有上述URL,将上述URL存储到上述第二预设数目个URL中或者如果确定上述云端未存储有上述URL,将上述URL存储到上述云端。根据本发明的又一方面,提供了一种网关,其包括:上述任一种URL的匹配装置。 
在本发明中,先确定本地是否存储有访问请求中携带的URL,该本地存储的URL可以是一部分URL,如果本地未存储有上述URL,再确定云端是否存储有上述URL,该远端可以存储大量的URL,实现了本地存储部分URL,云端存储了大量的URL,避免了将所有的URL都存储在本地,或将URL转发给外部的URL过滤服务器来匹配,从而在节省本地存储空间的基础上提高了URL匹配的效率。 
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中: 
图1是根据本发明实施例的URL的匹配方法的流程图; 
图2是根据本发明实施例的URL的匹配装置的结构框图; 
图3是根据本发明实施例的使用URL的匹配方法的流程图; 
图4是根据本发明实施例的另一种URL的匹配方法的流程图。 
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。 
本实施例提供了一种URL的匹配方法的流程图,如图1所示,该URL的匹配方法包括步骤S102至步骤S104。 
步骤S102:确定本地是否存储有访问请求中携带的统一资源定位符URL。 
步骤S104:如果没有,则确定云端是否存储有上述URL。 
通过上述步骤,先确定本地是否存储有访问请求中携带的URL,该本地存储的URL可以是一部分URL,如果本地未存储有上述URL,再确定云端是否存储有上述URL,该远端可以存储大量的URL,实现了本地存储部分URL,云端存储了大量的URL,避免了将所有的URL都存储在本地,或将URL转发给外部的URL过滤服务器来匹配,从而在节省本地存储空间的基础上提高了URL匹配的效率。 
为了提高URL在本地匹配的命中率,提高匹配的有效率,在本优选实施例中,上述本地存储的URL包括至少以下之一:预先设定的一个或多个URL;从上述云端存储的URL中获取的URL;其中,上述获取的URL包括:从上述云端存储的URL中按照使用频率由高到低的顺序取出的前第一预设数目个URL;从上述云端存储的URL中按照使用时间优先到后的顺序取出的后第二预设数目个URL。即可以在本地内存划分10M的内存空间进行存放上述URL,在本地存储的URL可以是云中心库(相当于上述云端)中使用频率按照从高到低顺序的Top10000(前10000)(相当于上述第一预设数目个URL),也可以是云中心库中最近查询到的URL(相当于上述第二预设数目个URL),还可以是人为预先设定的一个或多个URL,以提高URL在本地匹配的命中率,进而提高URL匹配的效率。 
优选地,通过上述本地存储一定数目使用频率较高的URL或最近使用的URL来进行匹配,相对存储大量的URL,可以提高匹配速度,例如,同样的算法在查询1万条和1000万条数据量的时间响应上相差是非常大的,比如一个测试:URL库的规模为10万条时,每秒可以查找超过40万个URL,URL库的规模为100万条时,每秒钟可以查找15万个URL;还可以提高匹配命中率,因为本地存储的上述URL的使用率高,可能被匹配到的几率就会很大,进而提高匹配命中率。 
优选地,上述预先设定的一个或多个URL可以包括:允许访问的URL和不允许访问的URL。例如,可以设定一个黑名单(black-list),来存储预先设定的不允许访问的URL;可以设定一个白名单(white-list),来存储预先设定的允许访问的URL。 
为了提高URL匹配的有效率,在本优选实施例中,确定本地是否存储有访问请求中携带的统一资源定位符URL包括:确定上述预先设定的一个或多个URL中是否包含有上述URL;如果不包含,则确定上述获取的URL中是否包含有上述URL,其中,上述获取的URL按照属性进行分类。 
为了实时地更新上述远端存储的URL,在本优选实施例中,上述方法还包括:如果确定上述云端存储有上述URL,将上述URL存储到上述第二预设数目个URL中;或者如果确定上述云端未存储有所述URL,将上述URL存储到所述云端。即可以实时地更新云中心库(相当于上述云端)中的URL,将本地库虚拟扩大了1000倍的同时,大大提升了用户体验效果。 
本优选实施例提供了一种URL的匹配装置,如图2所示,该URL的匹配装置包括:第一确定模块202,用于确定本地是否存储有访问请求中携带的统一资源定位符URL;第二确定模块204,连接至第一确定模块202,用于如果上述本地未存储有上述URL,则确定云端是否存储有上述URL。 
为了提高URL匹配的有效率,在本优选实施例中,如图2所示,上述第一确定模块202包括:第一确定单元2022,用于确定上述预先设定的一个或多个URL中是否包含有上述URL;第二确定单元2024,连接至第一确定单元2022,用于如果上述预先设定的一个或多个URL中不包含有上述URL,则确定上述获取的URL中是否包含有上述URL,其中,上述获取的URL按照属性进行分类。 
为了实时地更新上述远端存储的URL,在本优选实施例中,如图2所示,上述URL的匹配装置还包括:存储模块206,或者如果确定上述云端未存储有所述URL,将上述URL存储到所述云端。 
本优选实施例提供了一种网关,该网关包括上述任一URL的匹配装置。 
以下结合附图对上述各个优选实施例进行详细地描述。 
图3是根据本发明实施例的使用URL的匹配方法的流程图,如图3所示,使用上述URL的匹配方法的处理流程包括如下步骤: 
S302:接收到访问请求数据包后,获取该访问请求数据包携带的URL,判断该URL是否是符合安全规则,若是,则转至步骤S304,若否,则转至步骤S306。 
S304:通过上述URL的匹配方法对上述URL进行匹配,判断是否匹配成功,若是,则转至步骤S308,若否,则转至步骤S306。 
S306:丢弃上述URL。 
S308:后续处理模块对上述URL进行处理。 
图4是根据本发明实施例的另一种URL的匹配方法的流程图,如图4所示,该URL的匹配方法包括如下步骤: 
S402:接收到访问请求数据包后,获取该访问请求数据包携带的URL,将该URL先与本地存储的自定义库中的URL进行匹配,判断是否匹配成功,若是,则转至步骤S404,若否,则转至步骤S408。 
S404:将上述URL先与本地存储的自定义库中黑名单中的URL(相当于上述预先设定的不允许访问的URL)进行匹配,判断是否匹配成功,若否,则转至步骤S406,若是,则丢弃该URL。 
S406:将上述URL与本地存储的自定义库中白名单中的URL(相当于上述预先设定的允许访问的URL)进行匹配,判断是否匹配成功,若否,则转至步骤S408,若是,则允许该URL的网页访问。 
S408:将上述URL与本地存储的分类库中的URL(相当于上述从上述云端存储的URL中获取的URL)进行匹配,判断是否匹配成功,若否,则转至步骤S410,若是,则丢弃该URL。 
S410:将上述URL与云中心库(相当于上述云端)中的URL进行匹配,判断是否匹配成功,若否,则转至步骤S412,若是,则转至步骤S414。 
S412:云中心库可以丢弃上述URL,并将上述URL记录,上传至管理中心,管理中心确认后会对云中心库的数据量实时更新。 
S414:云中心库可以丢弃上述URL,并将上述URL下发到设备存储在最近查询URL的Cache中(上述第二预设数目个URL中)。 
从以上的描述中,可以看出,上述优选实施例实现了如下技术效果:先确定本地是否存储有访问请求中携带的URL,该本地存储的URL可以是一部分URL,如果本地未存储有上述URL,再确定云端是否存储有上述URL,该远端可以存储大量的URL,实现了本地存储部分URL,云端存储了大量的URL,避免了将所有的URL都存储在本地,或将URL转发给外部的URL过滤服务器来匹配,从而在节省本地存储空间的基础上提高了URL匹配的效率。 
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。 
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。 

Claims (10)

1.一种统一资源定位符的匹配方法,其特征在于,包括:
确定本地是否存储有访问请求中携带的统一资源定位符URL;
如果没有,则确定云端是否存储有所述URL。
2.根据权利要求1所述的方法,其特征在于,所述本地存储的URL包括至少以下之一:
预先设定的一个或多个URL;从所述云端存储的URL中获取的URL;其中,
所述获取的URL包括:从所述云端存储的URL中按照使用频率由高到低的顺序取出的前第一预设数目个URL;从所述云端存储的URL中按照使用时间优先到后的顺序取出的后第二预设数目个URL。
3.根据权利要求2所述的方法,其特征在于,确定本地是否存储有访问请求中携带的统一资源定位符URL包括:
确定所述预先设定的一个或多个URL中是否包含有所述URL;
如果不包含,则确定所述获取的URL中是否包含有所述URL,其中,所述获取的URL按照属性进行分类。
4.根据权利要求2所述的方法,其特征在于,所述预先设定的一个或多个URL包括:允许访问的URL和不允许访问的URL。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所示方法还包括:
如果确定所述云端存储有所述URL,将所述URL存储到所述第二预设数目个URL中;或者
如果确定所述云端未存储有所述URL,将所述URL存储到所述云端。
6.一种统一资源定位符的匹配装置,其特征在于,包括:
第一确定模块,用于确定本地是否存储有访问请求中携带的统一资源定位符URL;
第二确定模块,用于如果所述本地未存储有所述URL,则确定云端是否存储有所述URL。
7.根据权利要求6所述的装置,其特征在于,所述本地存储的URL包括至少以下之一:
预先设定的一个或多个URL;从所述云端存储的URL中获取的URL;其中,
所述获取的URL包括:从所述云端存储的URL中按照使用频率由高到低的顺序取出的前第一预设数目个URL;从所述云端存储的URL中按照使用时间优先到后的顺序取出的后第二预设数目个URL。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
第一确定单元,用于确定所述预先设定的一个或多个URL中是否包含有所述URL;
第二确定单元,用于如果所述预先设定的一个或多个URL中不包含有所述URL,则确定所述获取的URL中是否包含有所述URL,其中,所述获取的URL按照属性进行分类。
9.根据权利要求7或8所述的装置,其特征在于,还包括:
存储模块,用于如果确定所述云端存储有所述URL,将所述URL存储到所述第二预设数目个URL中或者如果确定所述云端未存储有所述URL,将所述URL存储到所述云端。
10.一种网关,其特征在于,包括:权利要求6至9中任一项所述的统一资源定位符的匹配装置。
CN2012104973966A 2012-11-28 2012-11-28 Url 的匹配方法、装置及网关 Pending CN102946449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104973966A CN102946449A (zh) 2012-11-28 2012-11-28 Url 的匹配方法、装置及网关

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104973966A CN102946449A (zh) 2012-11-28 2012-11-28 Url 的匹配方法、装置及网关

Publications (1)

Publication Number Publication Date
CN102946449A true CN102946449A (zh) 2013-02-27

Family

ID=47729355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104973966A Pending CN102946449A (zh) 2012-11-28 2012-11-28 Url 的匹配方法、装置及网关

Country Status (1)

Country Link
CN (1) CN102946449A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104144170A (zh) * 2014-08-25 2014-11-12 网神信息技术(北京)股份有限公司 网页地址的过滤方法、装置和***
CN106330563A (zh) * 2016-08-30 2017-01-11 北京神州绿盟信息安全科技股份有限公司 一种确定内网http通信流服务类型的方法及装置
CN111753223A (zh) * 2020-06-09 2020-10-09 北京天空卫士网络安全技术有限公司 一种访问控制的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764839A (zh) * 2009-12-23 2010-06-30 成都市华为赛门铁克科技有限公司 一种数据访问方法以及统一资源定位符服务器
CN101854335A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种过滤的方法、***及网络设备
US7945556B1 (en) * 2008-01-22 2011-05-17 Sprint Communications Company L.P. Web log filtering
CN102170479A (zh) * 2011-05-21 2011-08-31 成都市华为赛门铁克科技有限公司 Web缓存的更新方法及Web缓存的更新装置
CN102402518A (zh) * 2010-09-09 2012-04-04 ***通信有限公司 一种访问网页的方法及装置
CN102402620A (zh) * 2011-12-26 2012-04-04 余姚市供电局 一种恶意网页防御方法和***
CN102761627A (zh) * 2012-06-27 2012-10-31 北京奇虎科技有限公司 基于终端访问统计的云网址推荐方法及***及相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7945556B1 (en) * 2008-01-22 2011-05-17 Sprint Communications Company L.P. Web log filtering
CN101854335A (zh) * 2009-03-30 2010-10-06 华为技术有限公司 一种过滤的方法、***及网络设备
CN101764839A (zh) * 2009-12-23 2010-06-30 成都市华为赛门铁克科技有限公司 一种数据访问方法以及统一资源定位符服务器
CN102402518A (zh) * 2010-09-09 2012-04-04 ***通信有限公司 一种访问网页的方法及装置
CN102170479A (zh) * 2011-05-21 2011-08-31 成都市华为赛门铁克科技有限公司 Web缓存的更新方法及Web缓存的更新装置
CN102402620A (zh) * 2011-12-26 2012-04-04 余姚市供电局 一种恶意网页防御方法和***
CN102761627A (zh) * 2012-06-27 2012-10-31 北京奇虎科技有限公司 基于终端访问统计的云网址推荐方法及***及相关设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104144170A (zh) * 2014-08-25 2014-11-12 网神信息技术(北京)股份有限公司 网页地址的过滤方法、装置和***
CN106330563A (zh) * 2016-08-30 2017-01-11 北京神州绿盟信息安全科技股份有限公司 一种确定内网http通信流服务类型的方法及装置
CN106330563B (zh) * 2016-08-30 2019-09-17 北京神州绿盟信息安全科技股份有限公司 一种确定内网http通信流服务类型的方法及装置
CN111753223A (zh) * 2020-06-09 2020-10-09 北京天空卫士网络安全技术有限公司 一种访问控制的方法和装置
CN111753223B (zh) * 2020-06-09 2024-01-30 北京天空卫士网络安全技术有限公司 一种访问控制的方法和装置

Similar Documents

Publication Publication Date Title
US9544355B2 (en) Methods and apparatus for realizing short URL service
CN107911249B (zh) 一种网络设备的命令行发送方法、装置和设备
US9699028B2 (en) Method and device for updating client
CN110019211A (zh) 关联索引的方法、装置和***
CN108683668B (zh) 内容分发网络中的资源校验方法、装置、存储介质及设备
CN104283723B (zh) 网络访问日志处理方法及装置
CN109829287A (zh) Api接口权限访问方法、设备、存储介质及装置
CN108494755B (zh) 一种传输应用程序编程接口api请求的方法及装置
CN107239701B (zh) 识别恶意网站的方法及装置
US8903972B2 (en) Method and apparatus for sharing contents using information of group change in content oriented network environment
CN104219230B (zh) 识别恶意网站的方法及装置
CN107809383A (zh) 一种基于mvc的路径映射方法及装置
CN104579970B (zh) 一种IPv6报文的策略匹配装置
CN113132267B (zh) 一种分布式***、数据聚合方法和计算机可读存储介质
CN111030971B (zh) 一种分布式访问控制方法、装置及存储设备
CN111224831B (zh) 用于生成话单的方法和***
CN104866339A (zh) Fota数据的分布式持久化管理方法、***和装置
CN106302384A (zh) Dns报文处理方法及装置
CN102946449A (zh) Url 的匹配方法、装置及网关
CN104424316B (zh) 一种数据存储方法、数据查询方法、相关装置和***
CN104503983A (zh) 为搜索引擎提供网站认证数据的方法及装置
CN110737662B (zh) 一种数据分析方法、装置、服务器及计算机存储介质
CN109672756B (zh) 一种数据传输方法及相关装置、服务器和存储介质
CN101257501B (zh) 数据导入方法、***及Web服务器
CN109246121B (zh) 攻击防御方法、装置、物联网设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130227

RJ01 Rejection of invention patent application after publication