CN113545020B - 一种数据处理方法及其装置 - Google Patents

一种数据处理方法及其装置 Download PDF

Info

Publication number
CN113545020B
CN113545020B CN201980093696.8A CN201980093696A CN113545020B CN 113545020 B CN113545020 B CN 113545020B CN 201980093696 A CN201980093696 A CN 201980093696A CN 113545020 B CN113545020 B CN 113545020B
Authority
CN
China
Prior art keywords
domain name
domain
database
level
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980093696.8A
Other languages
English (en)
Other versions
CN113545020A (zh
Inventor
莫邵文
肖艳光
向展
周东波
招伟俊
黄芷然
邝继欧
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN113545020A publication Critical patent/CN113545020A/zh
Application granted granted Critical
Publication of CN113545020B publication Critical patent/CN113545020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例公开了一种数据处理方法以及实现该方法的装置,其中,该方法应用于网关设备,该方法包括:接收终端设备发送的访问请求,获取访问请求中的第一域名的转移概率,若第一域名的转移概率大于预设概率阈值,则将第一域名发送给域名分类服务器,接收域名分类服务器发送的第一域名的类别,若第一域名的类别为允许访问类别,则获取第一域名对应的互联网协议地址,并将互联网协议地址发送给终端设备。通过实施本申请实施例,可以仅在第一域名的转移概率大于预设概率阈值时,才将第一域名发送至域名分类服务器,可以有效降低域名分类服务器的负载,从而有利于提高网站访问速度。

Description

一种数据处理方法及其装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及其装置。
背景技术
互联网在现代人们生活中发挥越来越重要的作用,但是不可否认,互联网在带给人们便捷生活的同时,还存在不少负面作用。例如:大量含有暴力、反动等不良信息的内容充斥着网络空间,并且愈演愈烈,使学生的身心健康受到威胁;另外,众多学生长期沉湎于网络,会导致精神和躯体的病症,影响健康成长。
为了杜绝学生访问不良网站,绿色上网技术方案应运而生,通过绿色上网技术方案可以有效地控制学生上网的时间并限制其对不良网站的访问。绿色上网技术方案的思想主要包括:绿色云端服务器根据黑、白名单中的统一资源定位符(Uniform ResourceLocator,URL)以判断用户请求中的URL对应的网站是否为不健康网站,并阻止用户访问不健康网站。
目前,用户每次访问网站时,都需要将待访问网站的URL发送至绿色云端服务器以查询该URL对应的网站是否为不健康网站。但是,在上网高峰期时用户访问量很大,这样会使得绿色云端服务器的负载过高,从而影响网站访问速度。
发明内容
本申请实施例提供了一种数据处理方法及其装置,可以有效降低域名分类服务器的负载,从而有利于提高网站访问速度。
第一方面,本申请实施例提供了一种数据处理方法,该方法包括:接收终端设备发送的访问请求,访问请求包括第一域名,获取第一域名的转移概率,若第一域名的转移概率大于预设概率阈值,则将第一域名发送给域名分类服务器,接收域名分类服务器发送的第一域名的类别,若第一域名的类别为允许访问类别,则获取第一域名对应的互联网协议地址,并将互联网协议地址发送给终端设备。
在该技术方案中,第一域名的转移概率可以用于表征该第一域名的类别存在于域名分类服务器中的概率,通过仅在第一域名的转移概率大于预设概率阈值时,才将第一域名发送至域名分类服务器,一方面,可以提高通过域名服务器成功获取第一域名的类别的概率;另一方面,可以避免在第一域名的转移概率小于或等于预设概率阈值时将第一域名发送给域名分类服务器却不能查询得到该第一域名的类别的情况,从而有利于降低域名分类服务器的负载以及有利于提高网站访问速度。
在一种实现方式中,网关设备中可以具有域名数据库,域名数据库可以包括多个域名以及多个域名中各个域名的类别;若第一域名的转移概率大于预设概率阈值,则将第一域名发送给域名分类服务器的具体实施方式可以为:若第一域名的转移概率大于预设概率阈值,且域名数据库中不存在第一域名,则将第一域名发送给域名分类服务器。
在该技术方案中,仅在同时满足第一域名的转移概率大于预设概率阈值和域名数据库中不存在第一域名的情况下,才将第一域名发送给域名分类服务器。这样可以避免域名数据库中存在第一域名以及第一域名的类别时却通过域名分类服务器获取第一域名的类别的情况,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
在一种实现方式中,接收域名分类服务器发送的第一域名的类别之后,该方法还可以包括:将第一域名与第一域名的类别关联存储于域名数据库中。
在该技术方案中,通过将第一域名与第一域名的类别关联存储于域名数据库中,可以使得后续再次接收到包括该第一域名的访问请求时,可以直接在域名数据库中获取第一域名的类别,而不必通过域名分类服务器获取第一域名的类别,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
在一种实现方式中,将第一域名与第一域名的类别关联存储于域名数据库中之前,该方法还可以包括:若域名数据库中的各个域名包括的一级域名中不存在第二域名,则获取域名数据库中所有域名包括的一级域名的数量;若该数量大于或等于预设数量阈值,则获取域名数据库中各个域名包括的一级域名的存储价值;在域名数据库中删除目标一级域名以及目标一级域名的所有子域名,目标一级域名为域名数据库中所有域名包括的一级域名中存储价值最低的一级域名;将第一域名与第一域名的类别关联存储于域名数据库中的具体实施方式可以为:将第二域名作为一级域名,将第三域名作为第二域名的子域名,并将第二域名、第三域名以及第一域名的类别关联存储于域名数据库中。
在该技术方案中,通过在域名数据库中删除存储价值最低的目标一级域名以及目标一级域名的所有子域名,进而将第二域名作为一级域名,将第三域名作为第二域名的子域名,并将第二域名、第三域名以及第一域名的类别关联存储于域名数据库中,通过这种方式,一方面,可以提高域名数据库中的一级域名的平均命中率;另一方面,当网关设备后续再次接收到包括(由第二域名和第三域名组成的)第一域名的访问请求时,可以直接在网关设备的域名数据库中获取第一域名的类别,而不必通过域名分类服务器获取第一域名的类别,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
在一种实现方式中,该方法还可以包括:在检测到网关设备上电时,向域名分类服务器发送数据初始化请求,数据初始化请求用于请求获取域名数据,域名数据包括域名集合、域名集合中各个域名的类别,域名集合中的域名是域名分类服务器根据各个域名的访问时间、访问时长和/或访问频率确定的,域名集合中的各个域名包括一级域名和该一级域名的子域名;接收域名数据,并将该域名数据存储于域名数据库中。
在该技术方案中,网关设备重新上电时,可能会导致域名数据库中存储的数据丢失,本申请实施例在检测到上电操作时,通过向域名分类服务器发送数据初始化请求,可以向域名分类服务器请求获取域名数据,通过将域名数据存储于域名数据库中,可以自动完成域名数据库的初始化,这样有利于提高域名数据库中的域名的命中率,可以减少通过域名分类服务器获取访问请求中的第一域名的类别的次数,从而有利于降低域名分类服务器的负载。
第二方面,本申请实施例提供了一种数据处理装置,该装置具有实现第一方面所述的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。
第三方面,本申请实施例提供一种网关设备,该网关设备包括存储器和处理器,存储器中存储有程序指令,处理器通过总线与存储器连接,处理器调用存储器中存储的程序指令以使服务设备执行第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,用于储存为第二方面所述的数据处理装置所用的计算机程序指令,其包含用于执行上述第一方面所涉及的程序。
第五方面,本申请实施例提供一种计算机程序产品,该程序产品包括程序,所述程序被执行时实现上述第一方面所述的方法。
附图说明
图1是本申请实施例提供的一种通信***的架构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的另一种数据处理方法的流程示意图;
图4是本申请实施例提供的又一种数据处理方法的流程示意图;
图5是本申请实施例提供的一种一级域名与子域名之间具有层级存储关系的场景示意图;
图6是本申请实施例提供的数据处理装置的结构示意图;
图7是本申请实施例提供的网关设备的结构示意图。
具体实施方式
下面结合附图对本申请具体实施例作进一步的详细描述。
本申请实施例提供了一种数据处理方法及其装置,可以有效降低域名分类服务器的负载,从而有利于提高网站访问速度。
为了能够更好地理解本申请实施例,下面对本申请实施例可应用的通信***进行说明。
请参见图1,为本申请实施例提供的一种通信***的架构示意图。如图1所示,该***可以包括:终端设备101、网关设备102和域名分类服务器103。
其中,终端设备101主要用于生成访问请求,并将该访问请求发送至网关设备102。其中,访问请求可以包括域名,该访问请求用于获取该域名对应的网站中记载的内容。域名是由一串用点分隔的名字组成的网络上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位。例如,当用户通过输入设备在终端设备101的浏览器中输入URL,并点击访问按钮时,终端设备101可以根据URL中的域名生成访问请求。在一种实现方式中,终端设备101可以是用户设备(user equipment,UE)、远程终端、移动终端、无线通信设备或用户装置等。
网关设备102主要用于根据访问请求中的域名的转移概率是否大于预设概率阈值,判断是否将该域名发送给域名分类服务器103;并在将该域名发送给域名分类服务器103之后,接收域名分类服务器103发送的该域名的类别,然后,在该域名的类别为允许访问类别时,获取该域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备101,以使终端设备101获取该互联网协议地址对应的存储设备中存储的内容。
具体的,网关设备102可以在域名的转移概率大于预设概率阈值的情况下,将该域名发送给域名分类服务器103;并在域名的转移概率小于或等于预设概率阈值的情况下,不将该域名发送给域名分类服务器103。其中,域名分类服务器103中存储了大量域名以及各个域名的类别,每个域名的类别可以为允许访问类别或者禁止访问类别。当域名的类别为允许访问类别时,表明该域名对应的网站为健康网站;当域名的类别为禁止访问类别时,表明该域名对应的网站为不健康网站。在一种实现方式中,域名分类服务器103中存储的域名可以是域名分类服务器103通过网络爬虫从多个网站中爬取的,各个域名的类别可以是域名分类服务器103通过对该域名对应的网页内容进行分析得到的。
在一种实现方式中,域名分类服务器103中存储的域名对应的网站可以是访问量较高的网站或者是比较常见的网站。在本申请实施例中,域名的转移概率可以用于表征该域名的类别存储于域名分类服务器103中的概率。例如,由终端设备101中运行的某些后台插件产生的访问请求中的域名,这些域名对应的网站比较不常见且访问量较低,因此,这些域名被域名分类服务器103爬取的概率较低,相应的,这些域名的类别存储于域名分类服务器103中的概率较低,也就是说,网关设备102即使将这些域名发送至域名分类服务器103,在域名分类服务器103中查询得到这些域名的类别的概率也较低。因此,在本申请实施例中,网关设备102仅在域名的转移概率大于预设概率阈值时,才将该域名发送给域名分类服务器103,可以避免在域名的转移概率小于或等于预设概率阈值时,将该域名发送给域名分类服务器103却不能查询得到该域名的类别的情况,从而有利于降低域名分类服务器103的负载。
在一种实现方式中,网关设备102可以是光网络终端(Optical networkterminal,ONT)、光网络单元(Optical Network Unit,ONU)或者具有路由功能的智能网关设备等,本申请实施例对此不作限定。在一种实现方式中,域名分类服务器103可以为物理服务器或者云服务器(如绿色上网技术方案中的绿色云端服务器),本申请实施例对此不作限定。
需要说明的是,上述通信***包括一个终端设备101仅用于举例,在其他可行的实现方式中,该通信***可以包括2个、3个或其他数量的终端设备,本申请实施例对此不作限定。
可以理解的是,本申请实施例描述的网络架构是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着***架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下对本申请所提供的数据处理方法及其装置进行详细地介绍。
基于图1所示的通信***的架构示意图,请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图,该方法可以包括但不限于如下步骤:
步骤S201:网关设备接收终端设备发送的访问请求,访问请求包括第一域名。
具体的,网关设备接收到终端设备发送的访问请求之后,可以解析访问请求以得到第一域名。在一种实现方式中,访问请求可以是终端设备根据用户操作生成的,或者,访问请求可以是终端设备中的后台插件生成的,本申请实施例对此不作限定。在一种实现方式中,网关设备可以接收一个或多个终端设备发送的访问请求,且网关设备对于各个终端设备发送的访问请求的处理方法相同,本申请实施例以网关设备接收一个终端设备发送的访问请求为例进行介绍。
步骤S202:网关设备获取第一域名的转移概率。
具体的,网关设备获取第一域名之后,需要获取第一域名的类别。在本申请实施例中,域名分类服务器中可以存储有多个域名以及各个域名的类别,在一种实现方式中,域名分类服务器中存储的域名对应的网站可以是访问量较高的网站或者是比较常见的网站。在一种实现方式中,第一域名的类别可能存在于域名分类服务器中,也可能不存在于域名分类服务器中。在本申请实施例中,第一域名的转移概率可以用于表征该第一域名的类别存在于域名分类服务器中的概率,在一种实现方式中,第一域名的转移概率大于预设概率阈值,表明该第一域名的类别存在于域名分类服务器中的概率较高;第一域名的转移概率小于或等于预设概率阈值,表明该第一域名的类别存在于域名分类服务器中的概率较低。网关设备可以根据第一域名的转移概率是否大于预设概率阈值,以判断是否将该第一域名发送给域名分类服务器,具体的,网关设备可以在第一域名的转移概率大于预设概率阈值的情况下,将该第一域名发送给域名分类服务器;并在第一域名的转移概率小于或等于预设概率阈值的情况下,不将该第一域名发送给域名分类服务器。通过这种方式,可以避免在第一域名的转移概率小于或等于预设概率阈值时,将该第一域名发送给域名分类服务器却不能查询得到该第一域名的类别的情况,从而有利于降低域名分类服务器的负载以及有利于提高网站访问速度。
在一种实现方式中,第一域名可以包括字符串,网关设备获取第一域名的转移概率的具体实施方式可以为:获取该字符串中的各个字符对以及各个字符对的转移概率,并根据各个字符对的转移概率,得到该字符串的转移概率,并将该字符串的转移概率作为第一域名的转移概率。其中,字符对是指第一域名包括的字符串中相邻的两个字符,若该字符串包括n个字符,则该字符串中的字符对的数量为n-1(n>=2)。例如,第一域名包括的字符串为“www.abc.com”时,该字符串中的各个字符对为:“ww”、“ww”、“w.”、“.a”、“ab”、“bc”、“c.”、“.c”、“co”和“om”。在一种实现方式中,各个字符对的转移概率可以是基于马尔科夫链的字符转换模型训练得到的,马尔科夫链指数学中具有马尔科夫性质的离散事件随机过程,在其每一步中,***根据概率分布可以从一个状态变到另一个状态,也可以保持当前状态,状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。在本申请实施例中,字符对“ab”的转移概率为字符“a”的下一个字符为“b”的概率。
在一种实现方式中,基于马尔科夫链的字符转换模型的训练过程如下:获取大量域名,并对各个域名进行拆分处理以得到各个域名中的字符对,然后统计各个字符对出现的次数,并对各个字符对出现的总次数进行标准化处理(如归一化处理),以得到各个字符对的转移概率。
在一种实现方式中,网关设备根据各个字符对的转移概率,得到第一域名包括的字符串的转移概率的具体实施方式可以为:对第一域名进行拆分处理,得到第一域名包括的各个字符对,并根据基于马尔科夫链的字符转换模型得到第一域名包括的各个字符对的转移概率,将第一域名包括的各个字符对的转移概率的乘积作为第一域名包括的字符串的转移概率。例如,当第一域名包括的字符串为“abc”,且字符对“ab”的转移概率为p1,字符对“bc”的转移概率为p2时,字符串“abc”的转移概率为p1*p2。
步骤S203:若第一域名的转移概率大于预设概率阈值,则网关设备将第一域名发送给域名分类服务器。
具体的,网关设备获取第一域名的转移概率之后,可以根据第一域名的转移概率是否大于预设概率阈值,以判断是否将第一域名发送给域名分类服务器,通过将第一域名发送给域名分类服务器,可以在域名分类服务器中查询第一域名的类别。在一种实现方式中,第一域名的类别可能存在于域名分类服务器中,也可能不存在于域名分类服务器中。在一种实现方式中,第一域名的转移概率大于预设概率阈值,表明该第一域名的类别存在于域名分类服务器中的概率较高,此时,网关设备将第一域名发送给域名分类服务器,可以使得在域名分类服务器中查询得到第一域名的类别的概率较高。
在一种实现方式中,第一域名的转移概率小于或等于预设概率阈值,表明该第一域名的类别存在于域名分类服务器中的概率较低,此时,网关设备可以不将第一域名发送给域名分类服务器,而直接获取第一域名对应的互联网协议地址,并将获取的互联网协议地址发送给终端设备;或者,网关设备可以不将第一域名发送给域名分类服务器,而直接忽略或删除访问请求。通过这种方式,可以避免在第一域名的转移概率小于或等于预设概率阈值时,将该第一域名发送给域名分类服务器却不能查询得到该第一域名的类别的情况,从而有利于降低域名分类服务器的负载。
在一种实现方式中,预设概率阈值可以是网关设备默认设置的,也可以是网关设备根据用户操作设置的,本申请实施例对此不作限定。例如,网关设备可以计算并统计大量的常见域名的转移概率,并将各个常见域名的转移概率的平均值作为预设概率阈值。
步骤S204:域名分类服务器查询第一域名的类别。
具体的,域名分类服务器接收到网关设备发送的第一域名之后,可以查询是否存在第一域名,若存在第一域名,则继续查询该第一域名的类别,第一域名的类别可以为允许访问类别或禁止访问类别;若不存在第一域名,则向网关设备发送查询失败消息,该查询失败消息用于指示域名分类服务器中不存在第一域名或者第一域名的类别。
步骤S205:域名分类服务器将第一域名的类别发送给网关设备。
具体的,域名分类服务器查询到第一域名的类别之后,可以将第一域名的类别发送给网关设备,以使网关设备接收到域名分类服务器发送的第一域名的类别之后,可以根据第一域名的类别对接收到的访问请求进行不同的处理。
步骤S206:若第一域名的类别为允许访问类别,则网关设备获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备。
具体的,网关设备接收到域名分类服务器发送的第一域名的类别之后,若第一域名的类别为允许访问类别,则表明第一域名对应的网站为健康网站,此时,网关设备可以获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备,以使终端设备获取该互联网协议地址对应的存储设备中存储的内容。在一种实现方式中,若第一域名的类别为禁止访问类别,则表明第一域名对应的网站为不健康网站,此时,网关设备可以忽略或删除第一域名对应的访问请求,以阻止终端设备获取不健康网站中的内容并对用户的心理健康造成影响。
在一种实现方式中,网关设备中存在域名***(Domain Name System,DNS)缓存,DNS缓存中记录了多个域名以及各个域名对应的互联网协议地址,网关设备获取第一域名对应的互联网协议地址的具体实施方式可以为:网关设备在DNS缓存中查询第一域名对应的互联网协议地址。在一种实现方式中,网关设备获取第一域名对应的互联网协议地址的具体实施方式还可以为:网关设备将第一域名发送给域名解析服务器,以使域名解析服务器查询第一域名对应的互联网协议地址,并接收域名解析服务器发送的互联网协议地址。在一种实现方式中,网关设备获取第一域名对应的互联网协议地址的具体实施方式还可以为:网关设备在DNS缓存中查询是否存在第一域名对应的互联网协议地址,若DNS缓存中不存在第一域名对应的互联网协议地址,则将第一域名发送给域名解析服务器,以使域名解析服务器查询第一域名对应的互联网协议地址,并接收域名解析服务器发送的互联网协议地址。
相较于现有技术对URL进行过滤时,会存在加密流量无法拦截而需要拆包,并且对URL进行过滤时只能拦截超文本传输协议(HyperText Transfer Protocol,HTTP)流量以及知名端口的流量,而无法拦截其他协议的流量、动态端口的流量或者私有端口的流量的问题。本申请实施例通过对域名进行过滤,由于域名数据包不用拆包,所以可以有效降低网关设备拆包的开销。另外,由于域名中不包括协议和端口号,所以本申请实施例只要在访问请求包括的第一域名满足拦截要求(如第一域名的类别为禁止访问类别)的情况下,可以拦截任意协议的流量和任何端口的流量。
在一种实现方式中,前述访问请求还可以包括终端设备的标识,在步骤S201(即网关设备接收终端设备发送的访问请求)之后,网关设备还可以判断终端设备的标识是否为预设标识,若终端设备的标识为预设标识,则触发执行步骤S202(即获取第一域名的转移概率);若终端设备的标识不为预设标识,则触发获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备的步骤。
其中,终端设备的标识用于唯一标识一个终端设备,在一种实现方式中,终端设备的标识可以是该终端设备的唯一标识码或者该终端设备的物理地址,本申请实施例对此不作限定。预设标识可以为预先设定的需要对其访问请求进行限制的终端设备的标识,在一种实现方式中,应用于绿色上网技术方案中,预设标识可以为未成年人的终端设备的标识。本申请实施例在获取第一域名的转移概率之前,通过判断终端设备的标识是否为预设标识,并在终端设备的标识为预设标识的情况下,才触发执行获取第一域名的转移概率的步骤,可以避免终端设备的标识不为预设标识的情况下(即该终端设备(如成年人或家长的终端设备)发送的访问请求不应该被限制的情况下),触发获取该访问请求包括的第一域名的转移概率的步骤,这样一方面可以避免拦截家长(或成年人)的终端设备发起的访问请求,从而造成误操作;另一方面,也可以避免不必要的开销,降低网关设备和域名分类服务器的负载。在一种实现方式中,预设标识可以是网关设备根据用户操作设置的。
可见,通过实施本申请实施例,可以在第一域名的转移概率大于预设概率阈值的情况下,才将该第一域名发送给域名分类服务器,这样可以避免在第一域名的转移概率小于或等于预设概率阈值时,将该第一域名发送给域名分类服务器却不能查询得到该第一域名的类别的情况,从而有利于降低域名分类服务器的负载以及有利于提高网站访问速度。
请参见图3,图3是本申请实施例提供的另一种数据处理方法的流程示意图,该方法详细阐述了仅在同时满足第一域名的转移概率大于预设概率阈值,且域名数据库中不存在第一域名的情况下,才将第一域名发送给域名分类服务器的原因,该方法包括但不限于如下步骤:
步骤S301:网关设备接收终端设备发送的访问请求,访问请求包括第一域名。
步骤S302:网关设备获取第一域名的转移概率。
需要说明的是,步骤S301~步骤S302的具体执行过程可分别参见图2中步骤S201~步骤S202的具体描述,在此不赘述。
在一种实现方式中,网关设备中可以具有域名数据库,域名数据库可以包括多个域名以及多个域名中各个域名的类别。
步骤S303:若第一域名的转移概率大于预设概率阈值,且域名数据库中不存在第一域名,则网关设备将第一域名发送给域名分类服务器。
具体的,网关设备接收终端设备发送的访问请求之后,可以判断第一域名的转移概率是否大于预设概率阈值,并判断域名数据库中是否存在第一域名,并仅在同时满足第一域名的转移概率大于预设概率阈值和域名数据库中不存在第一域名时,才将第一域名发送给域名分类服务器。这样可以避免域名数据库中存在第一域名以及第一域名的类别时网关设备却通过域名分类服务器获取第一域名的类别的情况,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
在一种实现方式中,域名数据库中存储的域名少于域名分类服务器中存储的域名,所以在域名数据库中查询得到第一域名的类别的概率低于在域名分类服务器中查询得到第一域名的类别的概率,也就是说,域名数据库中不存在第一域名时,通过将第一域名发送给域名分类服务器,可以在域名分类服务器中查询第一域名的类别。
在一种实现方式中,网关设备在接收到终端设备发送的访问请求之后,可以先判断第一域名的转移概率是否大于预设概率阈值,并在第一域名的转移概率大于预设概率阈值时,才判断域名数据库中是否存在第一域名;在第一域名的转移概率小于或等于预设概率阈值时,网关设备可以触发获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备的步骤,或者,网关设备可以忽略或删除第一域名对应的访问请求。在一种实现方式中,网关设备在接收到终端设备发送的访问请求之后,可以先判断域名数据库中是否存在第一域名,并在域名数据库中不存在第一域名时,才判断第一域名的转移概率是否大于预设概率阈值;域名数据库中存在第一域名时,网关设备可以继续在域名数据库中查询第一域名的类别,若第一域名的类别为允许访问类别,则触发获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备的步骤,若第一域名的类别为禁止访问类别,则忽略或删除第一域名对应的访问请求。需要说明的是,本申请实施例对判断第一域名的转移概率是否大于预设概率阈值,与判断域名数据库中是否存在第一域名的执行顺序不做限定,既可以按照先后顺序执行,也可以同时执行。
步骤S304:域名分类服务器查询第一域名的类别。
步骤S305:域名分类服务器将第一域名的类别发送给网关设备。
步骤S306:若第一域名的类别为允许访问类别,则网关设备获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备。
需要说明的是,步骤S304~步骤S306的具体执行过程可分别参见图2中步骤S204~步骤S206的具体描述,在此不赘述。
在一种实现方式中,在步骤S304(即网关设备接收域名分类服务器发送的第一域名的类别)之后,网关设备可以将第一域名与第一域名的类别关联存储于域名数据库中。通过这种方式,可以在域名数据库中添加第一域名以及该第一域名的类别,这样当网关设备后续再次接收到包括该第一域名的访问请求时,可以直接在网关设备中的域名数据库中获取第一域名的类别,而不必通过域名分类服务器获取第一域名的类别,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
在一种实现方式中,网关设备在检测到上电操作时,可以向域名分类服务器发送数据初始化请求,并接收域名分类服务器发送的域名数据,并将域名数据存储于域名数据库中,其中,数据初始化请求可以用于请求获取域名数据,域名数据可以包括域名集合、域名集合中各个域名的类别,域名集合中的域名可以是域名分类服务器根据各个域名的访问时间、访问时长和/或访问频率确定的,域名集合中的各个域名可以包括一级域名和一级域名的子域名。
在一种实现方式中,网关设备重新上电时,可能会导致域名数据库中存储的数据丢失,本申请实施例在检测到上电操作时,通过向域名分类服务器发送数据初始化请求,可以向域名分类服务器请求获取域名数据,通过将域名数据存储于域名数据库中,可以自动完成域名数据库的初始化,这样有利于提高域名数据库中的域名的命中率,可以减少通过域名分类服务器获取访问请求中的第一域名的类别的次数,从而有利于降低域名分类服务器的负载。
在一种实现方式中,域名分类服务器可以统计域名分类服务器中存储的各个域名的访问时间、访问时长和/或访问频率,并对各个域名的访问时间、访问时长和/或访问频率进行加权求和运算,以得到各个域名的访问价值,并按照访问价值从高到低的顺序从域名分类服务器存储的所有域名中筛选出第一数量的域名,第一数量的域名组成域名集合,并获取域名集合中各个域名的类别,并将域名集合以及域名集合中各个域名的类别作为域名数据发送给网关设备。其中,域名的访问时间可以指该域名上一次在域名分类服务器中被命中的时刻;域名的访问时长可以指该域名在域名分类服务器中的存储期间内被命中的总次数;域名的访问频率可以指该域名在域名分类服务器中的存储期间内被命中的总次数与存储总时长之间的比值。域名的访问价值越高表明该域名在域名分类服务器中被命中的概率越高,或者,用户更偏向于访问访问价值较高的域名对应的网站。所以将访问价值较高的域名发送给网关设备,可以提高网关设备中域名被命中的概率,从而有利于降低域名分类服务器的负载。
在一种实现方式中,网关设备在存储域名集合中的各个域名时,可以将各个域名分为多级存储,本申请实施例以各个域名分为两级存储为例进行介绍。网关设备将各个域名分为两级存储时,各个域名可以包括一级域名和一级域名的子域名,其中,一级域名可以指顶级域名或者顶级域名的下一级域名,本申请实施例对此不做限定。例如,当一级域名指顶级域名,且域名为“www.abc.com”时,该域名的一级域名可以为“.com”,该一级域名的子域名可以为“www.abc”。又如,当一级域名指顶级域名的下一级域名,且域名为“www.abc.com”时,该域名的一级域名可以为“abc.com”,该一级域名的子域名可以为“www”。在一种实现方式中,网关设备将域名集合中的各个域名分为两级存储时,可以存储各个域名的一级域名的哈希值和该一级域名的子域名的哈希值。网关设备采用两级存储方式存储域名时,网关设备判断第一域名是否存在于域名数据库的具体实施方式可以为:判断第一域名包括的一级域名的哈希值是否存在于域名数据库,若第一域名包括的一级域名的哈希值不存在于域名数据库,则表明第一域名不存在于域名数据库。通过这种方式,仅需计算第一域名包括的一级域名的哈希值,而不用计算完整的第一域名的哈希值,可以降低网关设备的功耗。
通过实施本申请实施例,可以仅在同时满足第一域名的转移概率大于预设概率阈值和域名数据库中不存在第一域名的情况下,才将该第一域名发送给域名分类服务器,这样可以避免域名数据库中存在第一域名以及第一域名的类别时却通过域名分类服务器获取第一域名的类别的情况,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
请参见图4,图4是本申请实施例提供的又一种数据处理方法的流程示意图,该方法详细阐述了域名数据库中的一级域名与子域名之间具有层级存储关系时,如何更新域名数据库中存储的一级域名和子域名,该方法包括但不限于如下步骤:
步骤S401:网关设备接收终端设备发送的访问请求,访问请求包括第一域名,第一域名包括第二域名和第三域名。
在本申请实施例中,网关设备可以具有域名数据库,域名数据库中存储的各个域名可以分为多级存储,本申请实施例以各个域名分为两级存储为例进行介绍。具体的,域名数据库中的各个域名可以包括一级域名以及该一级域名的子域名,其中,一级域名可以指顶级域名或者顶级域名的下一级域名,本申请实施例对此不做限定。在一种实现方式中,访问请求中的第一域名包括的第二域名可以为一级域名,访问请求中的第一域名包括的第三域名可以为第二域名的子域名。
需要说明的是,网关设备接收终端设备发送的访问请求的具体执行过程可参见图2中步骤S201的具体描述,在此不赘述。
步骤S402:网关设备判断域名数据库中的各个域名包括的一级域名中是否存在第二域名。
在本申请实施例中,域名数据库中的域名采用两级存储方式(如分为一级域名和子域名)进行存储,且一级域名与子域名之间可以具有层级存储关系。以图5所示的一级域名与子域名之间具有层级存储关系的场景示意图为例,当域名数据库中实际存储的完整域名为“www.abc.com”、“blog.xx.com”和“blog.xx.net”,且域名数据库中的一级域名与子域名之间具有层级存储关系时,这3个完整域名在域名数据库中的存储形式如图5所示。
在一种实现方式中,网关设备接收到终端设备发送的访问请求之后,可以首先判断域名数据库中是否存在第一域名,若域名数据库中不存在第一域名,才触发获取第一域名的转移概率,以判断第一域名的转移概率是否大于预设概率阈值,通过这种方式,在域名数据库中存在第一域名的情况下,即可以直接在域名数据库中查询第一域名的类别的情况下,可以避免获取第一域名的转移概率以及避免向域名分类服务器请求获取第一域名的类别的情况,从而有利于同时降低网关设备和域名分类服务器的开销。
在一种实现方式中,当域名数据库中的域名采用两级存储方式进行存储,且一级域名与子域名之间具有层级存储关系时,网关设备判断域名数据库中是否存在第一域名的具体实施方式可以为:网关设备判断域名数据库中的各个域名包括的一级域名中是否存在第二域名,若不存在,则表明域名数据库中不存在第一域名;若存在,则继续判断域名数据库中的第二域名的子域名中是否存在第三域名,若域名数据库中的第二域名的子域名中不存在第三域名,则表明域名数据库中不存在第一域名,若域名数据库中的第二域名的子域名中存在第三域名,则表明域名数据库中存在第一域名。
在本申请实施例中,若域名数据库中的各个域名包括的一级域名中不存在第二域名,则可以执行步骤S403,若域名数据库中的各个域名包括的一级域名中存在第二域名,则可以执行步骤S408。
步骤S403:若域名数据库中的各个域名包括的一级域名中不存在第二域名,则网关设备获取第一域名的转移概率。
具体的,若域名数据库中的各个域名包括的一级域名中不存在第二域名,则表明域名数据库中不存在第一域名,此时,网关设备需要向域名分类服务器请求获取第一域名的类别。在一种实现方式中,在域名数据库中不存在第一域名时,网关设备可以获取第一域名的转移概率,进而根据第一域名的转移概率是否大于预设概率阈值,以估计第一域名的类别存储于域名分类服务器中的概率,并在第一域名的类别存储于域名分类服务器中的概率较高时,才将第一域名发送给域名分类服务器。
需要说明的是,网关设备获取第一域名的转移概率的具体执行过程可参见图2中步骤S202的具体描述,在此不赘述。
步骤S404:若第一域名的转移概率大于预设概率阈值,则网关设备将第一域名发送给域名分类服务器,以使域名分类服务器查询第一域名的类别,网关设备接收域名分类服务器发送的第一域名的类别,若第一域名的类别为允许访问类别,则获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备。
需要说明的是,步骤S404的具体执行过程可参见图2中步骤S203~步骤S206的具体描述,在此不赘述。
步骤S405:网关设备获取域名数据库中所有域名包括的一级域名的数量,并判断域名数据库中所有域名包括的一级域名的数量是否大于或等于预设数量阈值。
具体的,网关设备接收到域名分类服务器发送的第一域名的类别之后,可以将第一域名与第一域名的类别关联存储于域名数据库中。当网关设备中的域名数据库采用两级存储方式存储域名且一级域名与子域名之间具有层级存储关系时,网关设备可以将第一域名包括的一级域名(即第二域名)、一级域名的子域名(即第三域名)和第一域名的类别关联存储于域名数据库中。通过这种方式,可以在域名数据库中添加第一域名以及该第一域名的类别,这样当网关设备后续再次接收到包括该第一域名的访问请求时,可以直接在域名数据库中获取第一域名的类别,而不必通过域名分类服务器获取第一域名的类别,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
在一种实现方式中,由于网关设备的存储空间有限,因此,网关设备可以对域名数据库中存储的一级域名的数量进行限制,并对每个一级域名的子域名的数量进行限制。例如,网关设备可以设置域名数据库存储的一级域名的数量上限为预设数量阈值(如10个或者其他数量),设置域名数据库存储的每个一级域名的子域名的数量上限为第一预设数量阈值(如20个或者其他数量),也就是说,当域名数据库存储的一级域名的数量上限为10个,且域名数据库存储的每个一级域名的子域名的数量上限为20个时,相当于域名数据库存储的域名的数量上限为200个。需要说明的是,网关设备可以根据用户操作修改一级域名的数量上限以及每个一级域名的子域名的数量上限。
在一种实现方式中,网关设备接收到域名分类服务器发送的第一域名的类别之后,若域名数据库中的各个域名包括的一级域名中不存在第二域名,即网关设备需要在域名数据库中添加第二域名、第三域名以及由第二域名和第三域名组成的第一域名的类别时,网关设备需要先判断域名数据库中存储的一级域名的总数量是否大于或等于预设数量阈值,若域名数据库中存储的一级域名的总数量小于预设数量阈值,则网关设备可以直接在域名数据库中添加第二域名、第三域名以及第一域名的类别;若域名数据库中存储的一级域名的总数量大于或等于预设数量阈值,则网关设备需要在域名数据库中确定目标一级域名,并删除目标一级域名以及目标一级域名的所有子域名之后,才能在域名数据库中添加第二域名、第三域名以及第一域名的类别。其中,预设数量阈值为预先设置的一级域名的上限数量,域名数据库中存储的一级域名的总数量大于预设数量阈值时,表明域名数据库中存储的一级域名的总数量超过了预先设置的一级域名的上限数量;域名数据库中存储的一级域名的总数量等于预设数量阈值时,表明在域名数据库中添加一个一级域名之后,会使得域名数据库中的一级域名的总数量超过预先设置的一级域名的上限数量。在一种实现方式中,预设数量阈值可以是网关设备默认设置的,也可以是网关设备根据用户操作设置的,本申请实施例对此不作限定。需要说明的是,由于网关设备的物理存储空间有限,并且若网关设备的域名数据库中存储的一级域名的数量过多时,会导致查询域名数据库时网关设备的负载过高,因此,设置的预设数量阈值应小于或等于网关设备中一级域名的物理上限数量,一级域名的物理上限数量可以是网关设备在出厂时设置的。
需要说明的是,网关设备接收到域名分类服务器发送的第一域名的类别之后,可以先执行获取第一域名对应的互联网协议地址的步骤,后执行步骤S405;或者,可以先执行步骤S405,后执行获取第一域名对应的互联网协议地址的步骤;或者,可以同时执行步骤S405和获取第一域名对应的互联网协议地址的步骤,本申请实施例对此不作限定。
步骤S406:若一级域名的数量大于或等于预设数量阈值,则网关设备获取域名数据库中各个域名包括的一级域名的存储价值,并在域名数据库中删除目标一级域名以及目标一级域名的所有子域名,目标一级域名为域名数据库中所有域名包括的一级域名中存储价值最低的一级域名。
其中,一级域名的存储价值越高表明该一级域名在域名数据库中被命中的概率越高,因此,网关设备将存储价值最低的一级域名确定为目标一级域名,进而用第一域名包括的第二域名替换目标一级域名,可以提高域名数据库中的一级域名的平均命中率,进而可以尽量减少网关设备与域名分类服务器之间的通信流量,从而有利于降低域名分类服务器的负载。
在一种实现方式中,网关设备获取域名数据库中各个域名包括的一级域名的存储价值的具体实施方式可以为:网关设备根据域名数据库中各个域名包括的一级域名的使用时间、使用时长和/或使用频率,得到域名数据库中各个域名包括的一级域名的存储价值。具体的,网关设备可以对域名数据库中各个域名包括的一级域名的使用时间、使用时长和/或使用频率进行加权求和运算,以得到域名数据库中各个域名包括的一级域名的存储价值。其中,一级域名的使用时间可以指该一级域名上一次在域名数据库中被命中的时刻;一级域名的使用时长可以指该一级域名在域名数据库中的存储期间内被命中的总次数;一级域名的使用频率可以指该一级域名在域名数据库中的存储期间内被命中的总次数与存储总时长之间的比值。
在一种实现方式中,若一级域名的数量小于预设数量阈值,则网关设备可以直接将第二域名、第三域名以及第一域名的类别关联存储于域名数据库中,即网关设备可以直接执行步骤S407。
步骤S407:网关设备将第二域名作为一级域名,将第三域名作为第二域名的子域名,并将第二域名、第三域名以及第一域名的类别关联存储于域名数据库中。
具体的,网关设备在域名数据库中删除目标一级域名以及目标一级域名的所有子域名之后,可以将第二域名作为一级域名,将第三域名作为第二域名的子域名,并将第二域名、第三域名以及第一域名的类别关联存储于域名数据库中。通过这种方式,当网关设备后续再次接收到包括(由第二域名和第三域名组成的)第一域名的访问请求时,可以直接在域名数据库中获取第一域名的类别,而不必通过域名分类服务器获取第一域名的类别,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
步骤S408:若域名数据库中的各个域名包括的一级域名中存在第二域名,则网关设备判断域名数据库中的第二域名的子域名中是否存在第三域名。
具体的,由于域名数据库中的域名采用两级存储方式进行存储,且一级域名与子域名之间具有层级存储关系,因此,仅在域名数据库中存在第二域名以及第二域名的子域名中存在第三域名时,才能确定域名数据库中存在第一域名。因此,若域名数据库中的各个域名包括的一级域名中存在第二域名,网关设备需要进一步判断域名数据库中的第二域名的子域名中是否存在第三域名,才能确定域名数据库中是否存在第一域名。
步骤S409:若域名数据库中的第二域名的子域名中存在第三域名,则网关设备在域名数据库中查询第一域名的类别,若第一域名的类别为允许访问类别,则获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备。
具体的,若域名数据库中的第二域名的子域名中存在第三域名,则表明域名数据库中存在(由第二域名和第三域名组成的)第一域名。在本申请实施例中,当域名数据库中存在第一域名时,表明域名数据库也存储有第一域名的类别,因此,网关设备可以直接在域名数据库中查询得到第一域名的类别,并根据第一域名的类别进行不同的处理,具体的,若第一域名的类别为允许访问类别,则网关设备可以获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备。若第一域名的类别为禁止访问类别,则网关设备可以忽略或删除访问请求,以阻止终端设备获取不健康网站中的内容并对用户的心理健康造成影响。
步骤S410:若域名数据库中的第二域名的子域名中不存在第三域名,则网关设备获取第一域名的转移概率。
具体的,若域名数据库中的第二域名的子域名中不存在第三域名,则表明域名数据库中不存在(由第二域名和第三域名组成的)第一域名,此时,网关设备需要向域名分类服务器请求获取第一域名的类别。在一种实现方式中,网关设备可以获取第一域名的转移概率,进而根据第一域名的转移概率是否大于预设概率阈值,以估计第一域名的类别存储于域名分类服务器中的概率,并在第一域名的类别存储于域名分类服务器中的概率较高时,才将第一域名发送给域名分类服务器。
需要说明的是,网关设备获取第一域名的转移概率的具体执行过程可参见图2中步骤S202的具体描述,在此不赘述。
步骤S411:若第一域名的转移概率大于预设概率阈值,则网关设备将第一域名发送给域名分类服务器,以使域名分类服务器查询第一域名的类别,网关设备接收域名分类服务器发送的第一域名的类别,若第一域名的类别为允许访问类别,则获取第一域名对应的互联网协议地址,并将该互联网协议地址发送给终端设备。
需要说明的是,步骤S411的具体执行过程可参见图2中步骤S203~步骤S206的具体描述,在此不赘述。
步骤S412:网关设备获取域名数据库中第二域名的子域名的数量,并判断域名数据库中第二域名的子域名的数量是否大于或等于第一预设数量阈值。
具体的,在域名数据库中的各个域名包括的一级域名中存在第二域名,且域名数据库中的第二域名的子域名中不存在第三域名的情况下,网关设备在接收到域名分类服务器发送的第一域名的类别之后,可以将第三域名与第一域名的类别关联存储于域名数据库中。通过这种方式,可以在域名数据库中添加第一域名以及该第一域名的类别,这样当网关设备后续再次接收到包括该第一域名的访问请求时,可以直接在域名数据库中获取第一域名的类别,而不必通过域名分类服务器获取第一域名的类别,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
在一种实现方式中,网关设备将第三域名与第一域名的类别关联存储于域名数据库之前,需要先判断域名数据库中存储的第二域名的子域名的总数量是否大于或等于第一预设数量阈值,若域名数据库中存储的第二域名的子域名的总数量小于第一预设数量阈值,则表明即使在域名数据库中的第二域名的子域名中添加一个第三域名,也不会导致第二域名的子域名的总数量超过预先设置的子域名的上限数量,也就是说,网关设备可以直接在域名数据库中添加第三域名以及第一域名的类别。若域名数据库中存储的第二域名的子域名的总数量大于第一预设数量阈值,则表明域名数据库中存储的第二域名的子域名的总数量超过了预先设置的子域名的上限数量;若域名数据库中存储的第二域名的子域名的总数量等于第一预设数量阈值,则表明在域名数据库中存储的第二域名的子域名中添加一个子域名之后,会使得域名数据库中存储的第二域名的子域名的总数量超过预先设置的子域名的上限数量,此时,网关设备需要在域名数据库存储的第二域名的子域名中确定目标子域名,并删除目标子域名之后,才能在域名数据库中添加第三域名以及第一域名的类别。在一种实现方式中,第一预设数量阈值可以是网关设备默认设置的,也可以是网关设备根据用户操作设置的,本申请实施例对此不作限定。需要说明的是,由于网关设备的物理存储空间有限,并且若网关设备的域名数据库中存储的每个一级域名的子域名的数量过多时,会导致查询域名数据库时网关设备的负载过高,因此,设置的第一预设数量阈值应小于或等于网关设备中子域名的物理上限数量,每个一级域名的子域名的物理上限数量可以是网关设备在出厂时设置的。
需要说明的是,网关设备接收到域名分类服务器发送的第一域名的类别之后,可以先执行获取第一域名对应的互联网协议地址的步骤,后执行步骤S412;或者,可以先执行步骤S412,后执行获取第一域名对应的互联网协议地址的步骤;或者,可以同时执行步骤S412和获取第一域名对应的互联网协议地址的步骤,本申请实施例对此不作限定。
步骤S413:若第二域名的子域名的数量大于或等于第一预设数量阈值,则网关设备获取域名数据库中第二域名的各个子域名的存储价值,并在域名数据库中删除目标子域名,目标子域名为域名数据库中第二域名的子域名中存储价值最低的子域名。
其中,子域名的存储价值越高表明该子域名在域名数据库中被命中的概率越高,因此,网关设备将存储价值最低的子域名确定为目标子域名,进而用第三域名(即第二域名的子域名)替换目标子域名,可以提高域名数据库中的子域名的平均命中率,进而可以尽量减少网关设备与域名分类服务器之间的通信流量,从而有利于降低域名分类服务器的负载。
在一种实现方式中,网关设备在第二域名的子域名中确定目标子域名的具体实施方式可以为:网关设备获取第二域名的各个子域名的存储价值,并将第二域名的所有子域名中存储价值最低的子域名确定为目标子域名。在一种实现方式中,网关设备获取第二域名的各个子域名的存储价值的具体实施方式可以为:网关设备根据第二域名的各个子域名的使用时间、使用时长和/或使用频率,得到第二域名的各个子域名的存储价值。
在一种实现方式中,若第二域名的子域名的数量小于第一预设数量阈值,则网关设备可以直接将第三域名以及第一域名的类别关联存储于域名数据库中,即网关设备可以直接执行步骤S414。
步骤S414:网关设备将第三域名作为第二域名的子域名,并将第三域名以及第一域名的类别关联存储于域名数据库中。
具体的,网关设备在域名数据库中删除目标子域名之后,可以将第三域名作为第二域名的子域名,并将第三域名以及第一域名的类别关联存储于域名数据库中。通过这种方式,当网关设备后续再次接收到包括(由第二域名和第三域名组成的)第一域名的访问请求时,可以直接在域名数据库中获取第一域名的类别,而不必通过域名分类服务器获取第一域名的类别,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
通过实施本申请实施例,在域名数据库中的各个域名包括的一级域名中不存在第二域名的情况下,网关设备接收到域名分类服务器发送的第一域名的类别之后,通过在域名数据库中删除存储价值最低的目标一级域名以及目标一级域名的所有子域名,进而将第二域名作为一级域名,将第三域名作为第二域名的子域名,并将第二域名、第三域名以及第一域名的类别关联存储于域名数据库中。通过这种方式,一方面,可以提高域名数据库中的一级域名的平均命中率;另一方面,当网关设备后续再次接收到包括(由第二域名和第三域名组成的)第一域名的访问请求时,可以直接在网关设备的域名数据库中获取第一域名的类别,而不必通过域名分类服务器获取第一域名的类别,这样可以降低网关设备与域名分类服务器之间的通信流量,有利于降低域名分类服务器的负载,从而有利于提高网站访问速度。
请参见图6,图6是本申请实施例提供的一种数据处理装置的结构示意图,该数据处理装置60用于执行图2-图4对应的方法实施例中网关设备所执行的步骤,该数据处理装置60可以包括:
接收单元601,用于接收终端设备发送的访问请求,访问请求包括第一域名;
获取单元602,用于获取第一域名的转移概率;
发送单元603,用于若第一域名的转移概率大于预设概率阈值,则将第一域名发送给域名分类服务器;
接收单元601,还用于接收域名分类服务器发送的第一域名的类别;
获取单元602,还用于若第一域名的类别为允许访问类别,则获取第一域名对应的互联网协议地址;
发送单元603,还用于将互联网协议地址发送给终端设备。
在一种实现方式中,第一域名可以包括字符串,获取单元602用于获取第一域名的转移概率时,具体用于:获取字符串中的各个字符对以及各个字符对的转移概率,根据各个字符对的转移概率,得到第一域名包括的字符串的转移概率,并将第一域名包括的字符串的转移概率作为第一域名的转移概率。
在一种实现方式中,数据处理装置中可以具有域名数据库,域名数据库可以包括多个域名以及多个域名中各个域名的类别;发送单元603,用于若第一域名的转移概率大于预设概率阈值,则将第一域名发送给域名分类服务器时,具体用于:若第一域名的转移概率大于预设概率阈值,且域名数据库中不存在第一域名,则将第一域名发送给域名分类服务器。
在一种实现方式中,数据处理装置60还可以包括存储单元604,存储单元604用于将第一域名与第一域名的类别关联存储于域名数据库中。
在一种实现方式中,域名数据库中的各个域名可以包括一级域名以及一级域名的子域名,第一域名可以包括第二域名和第三域名;域名数据库中不存在第一域名可以包括:域名数据库中的各个域名包括的一级域名中不存在第二域名,和/或,域名数据库中的各个域名包括的一级域名的子域名中不存在第三域名。
在一种实现方式中,数据处理装置60还可以包括删除单元605,获取单元602还用于若域名数据库中的各个域名包括的一级域名中不存在第二域名,则获取域名数据库中所有域名包括的一级域名的数量;若一级域名的数量大于或等于预设数量阈值,则获取域名数据库中各个域名包括的一级域名的存储价值;删除单元605用于在域名数据库中删除目标一级域名以及目标一级域名的所有子域名,目标一级域名为域名数据库中所有域名包括的一级域名中存储价值最低的一级域名;存储单元604用于将第一域名与第一域名的类别关联存储于域名数据库中时,具体用于:将第二域名作为一级域名,将第三域名作为第二域名的子域名,并将第二域名、第三域名以及第一域名的类别关联存储于域名数据库中。
在一种实现方式中,获取单元602用于获取域名数据库中各个域名包括的一级域名的存储价值时,具体用于:根据域名数据库中各个域名包括的一级域名的使用时间、使用时长和/或使用频率,得到域名数据库中各个域名包括的一级域名的存储价值。
在一种实现方式中,发送单元603还用于在检测到数据处理装置上电时,向域名分类服务器发送数据初始化请求,数据初始化请求用于请求获取域名数据,域名数据包括域名集合、域名集合中各个域名的类别,域名集合中的域名是所述域名分类服务器根据各个域名的访问时间、访问时长和/或访问频率确定的,域名集合中的各个域名包括一级域名和该一级域名的子域名;接收单元601还用于接收域名数据;存储单元604还用于将域名数据存储于域名数据库中。
在一种实现方式中,访问请求还可以包括终端设备的标识,数据处理装置60还可以包括处理单元606,处理单元606用于若终端设备的标识为预设标识,则触发获取第一域名的转移概率的步骤。
需要说明的是,图6对应的实施例中未提及的内容以及各个单元执行步骤的具体实现方式可参见图2-图4所示实施例以及前述内容,这里不再赘述。
在一种实现方式中,图6中的各个单元所实现的相关功能可以结合处理器与收发器来实现。参见图7,图7是本申请实施例提供的一种分布式数据管理设备的结构示意图,该分布式数据管理设备70包括:收发器701、处理器702和存储器703,收发器701、处理器702和存储器703通过一条或多条通信总线连接。
收发器701用于接收数据或者发送数据,例如,收发器701可以用于接收终端设备发送的访问请求,或者,用于将第一域名发送给域名分类服务器。
处理器702被配置为执行图2-图4所述方法中网关设备相应的功能。该处理器702可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP),硬件芯片或者其任意组合。
存储器703用于存储程序代码等。存储器703可以包括易失性存储器(volatilememory),例如随机存取存储器(random access memory,RAM);存储器703也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器703还可以包括上述种类的存储器的组合。
处理器702可以调用存储器703中存储的程序代码以执行以下操作:
接收终端设备发送的访问请求,访问请求包括第一域名;
获取第一域名的转移概率;
若第一域名的转移概率大于预设概率阈值,则将第一域名发送给域名分类服务器;
接收域名分类服务器发送的第一域名的类别;
若第一域名的类别为允许访问类别,则获取第一域名对应的互联网协议地址;
将互联网协议地址发送给终端设备。
进一步地,处理器702还可以执行图2-图4所示实施例中网关设备对应的操作,具体可参见方法实施例中的描述,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,可以用于存储图6所示实施例中数据处理装置所用的计算机软件指令,其包含用于执行上述实施例中为网关设备所设计的程序。
上述计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘。
本申请实施例还提供一种计算机程序产品,该计算机产品被计算设备运行时,可以执行上述图2-图4实施例中为网关设备所设计的数据处理方法。
在本申请实施例中还提供一种芯片,包括处理器和存储器,该存储器用包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,该计算机程序用于实现上述方法实施例中的方法。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种数据处理方法,其特征在于,应用于网关设备,所述方法包括:
接收终端设备发送的访问请求,所述访问请求包括第一域名;
获取所述第一域名的转移概率;
若所述第一域名的转移概率大于预设概率阈值,则将所述第一域名发送给域名分类服务器;
接收所述域名分类服务器发送的所述第一域名的类别;
若所述第一域名的类别为允许访问类别,则获取所述第一域名对应的互联网协议地址,并将所述互联网协议地址发送给所述终端设备。
2.根据权利要求1所述的方法,其特征在于,所述第一域名包括字符串,所述获取所述第一域名的转移概率,包括:
获取所述字符串中的各个字符对以及所述各个字符对的转移概率;
根据所述各个字符对的转移概率,得到所述字符串的转移概率,并将所述字符串的转移概率作为所述第一域名的转移概率。
3.根据权利要求1所述的方法,其特征在于,所述网关设备中具有域名数据库,所述域名数据库包括多个域名以及所述多个域名中各个域名的类别;所述若所述第一域名的转移概率大于预设概率阈值,则将所述第一域名发送给域名分类服务器,包括:
若所述第一域名的转移概率大于所述预设概率阈值,且所述域名数据库中不存在所述第一域名,则将所述第一域名发送给所述域名分类服务器。
4.根据权利要求3所述的方法,其特征在于,所述接收所述域名分类服务器发送的所述第一域名的类别之后,所述方法还包括:
将所述第一域名与所述第一域名的类别关联存储于所述域名数据库中。
5.根据权利要求4所述的方法,其特征在于,所述域名数据库中的各个域名包括一级域名以及所述一级域名的子域名,所述第一域名包括第二域名和第三域名;
所述域名数据库中不存在所述第一域名包括:所述域名数据库中的各个域名包括的一级域名中不存在所述第二域名,和/或,所述域名数据库中的各个域名包括的一级域名的子域名中不存在所述第三域名。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一域名与所述第一域名的类别关联存储于所述域名数据库中之前,所述方法还包括:
若所述域名数据库中的各个域名包括的一级域名中不存在所述第二域名,则获取所述域名数据库中所有域名包括的一级域名的数量;
若所述数量大于或等于预设数量阈值,则获取所述域名数据库中各个域名包括的一级域名的存储价值;
在所述域名数据库中删除目标一级域名以及所述目标一级域名的所有子域名,所述目标一级域名为所述域名数据库中所有域名包括的一级域名中存储价值最低的一级域名;
所述将所述第一域名与所述第一域名的类别关联存储于所述域名数据库中,包括:
将所述第二域名作为一级域名,将所述第三域名作为所述第二域名的子域名,并将所述第二域名、所述第三域名以及所述第一域名的类别关联存储于所述域名数据库中。
7.根据权利要求6所述的方法,其特征在于,所述获取所述域名数据库中各个域名包括的一级域名的存储价值,包括:
根据所述域名数据库中各个域名包括的一级域名的使用时间、使用时长和/或使用频率,得到所述域名数据库中各个域名包括的一级域名的存储价值。
8.根据权利要求3~7任一项所述的方法,其特征在于,所述方法还包括:
在检测到所述网关设备上电时,向所述域名分类服务器发送数据初始化请求,所述数据初始化请求用于请求获取域名数据,所述域名数据包括域名集合、域名集合中各个域名的类别,所述域名集合中的域名是所述域名分类服务器根据各个域名的访问时间、访问时长和/或访问频率确定的,所述域名集合中的各个域名包括一级域名和所述一级域名的子域名;
接收所述域名数据,并将所述域名数据存储于所述域名数据库中。
9.根据权利要求1~7任一项所述的方法,其特征在于,所述访问请求还包括所述终端设备的标识,所述接收终端设备发送的访问请求之后,所述方法还包括:
若所述终端设备的标识为预设标识,则触发获取所述第一域名的转移概率的步骤。
10.一种数据处理装置,其特征在于,包括:
接收单元,用于接收终端设备发送的访问请求,所述访问请求包括第一域名;
获取单元,用于获取所述第一域名的转移概率;
发送单元,用于若所述第一域名的转移概率大于预设概率阈值,则将所述第一域名发送给域名分类服务器;
所述接收单元,还用于接收所述域名分类服务器发送的所述第一域名的类别;
所述获取单元,还用于若所述第一域名的类别为允许访问类别,则获取所述第一域名对应的互联网协议地址;
所述发送单元,还用于将所述互联网协议地址发送给所述终端设备。
11.根据权利要求10所述的装置,其特征在于,所述第一域名包括字符串,所述获取单元用于获取所述第一域名的转移概率时,具体用于:
获取所述字符串中的各个字符对以及所述各个字符对的转移概率,根据所述各个字符对的转移概率,得到所述字符串的转移概率,并将所述字符串的转移概率作为所述第一域名的转移概率。
12.根据权利要求10所述的装置,其特征在于,所述数据处理装置中具有域名数据库,所述域名数据库包括多个域名以及所述多个域名中各个域名的类别;所述发送单元,用于若所述第一域名的转移概率大于预设概率阈值,则将所述第一域名发送给域名分类服务器时,具体用于:
若所述第一域名的转移概率大于所述预设概率阈值,且所述域名数据库中不存在所述第一域名,则将所述第一域名发送给所述域名分类服务器。
13.根据权利要求12所述的装置,其特征在于,所述数据处理装置还包括存储单元;
所述存储单元,用于将所述第一域名与所述第一域名的类别关联存储于所述域名数据库中。
14.根据权利要求13所述的装置,其特征在于,所述域名数据库中的各个域名包括一级域名以及所述一级域名的子域名,所述第一域名包括第二域名和第三域名;
所述域名数据库中不存在所述第一域名包括:所述域名数据库中的各个域名包括的一级域名中不存在所述第二域名,和/或,所述域名数据库中的各个域名包括的一级域名的子域名中不存在所述第三域名。
15.根据权利要求14所述的装置,其特征在于,所述数据处理装置还包括删除单元;
所述获取单元,还用于若所述域名数据库中的各个域名包括的一级域名中不存在所述第二域名,则获取所述域名数据库中所有域名包括的一级域名的数量;若所述数量大于或等于预设数量阈值,则获取所述域名数据库中各个域名包括的一级域名的存储价值;
所述删除单元,用于在所述域名数据库中删除目标一级域名以及所述目标一级域名的所有子域名,所述目标一级域名为所述域名数据库中所有域名包括的一级域名中存储价值最低的一级域名;
所述存储单元用于将所述第一域名与所述第一域名的类别关联存储于所述域名数据库中时,具体用于:将所述第二域名作为一级域名,将所述第三域名作为所述第二域名的子域名,并将所述第二域名、所述第三域名以及所述第一域名的类别关联存储于所述域名数据库中。
16.根据权利要求15所述的装置,其特征在于,所述获取单元用于获取所述域名数据库中各个域名包括的一级域名的存储价值时,具体用于:
根据所述域名数据库中各个域名包括的一级域名的使用时间、使用时长和/或使用频率,得到所述域名数据库中各个域名包括的一级域名的存储价值。
17.根据权利要求12~16任一项所述的装置,其特征在于,所述数据处理装置还包括存储单元;
所述发送单元,还用于在检测到所述数据处理装置上电时,向所述域名分类服务器发送数据初始化请求,所述数据初始化请求用于请求获取域名数据,所述域名数据包括域名集合、域名集合中各个域名的类别,所述域名集合中的域名是所述域名分类服务器根据各个域名的访问时间、访问时长和/或访问频率确定的,所述域名集合中的各个域名包括一级域名和所述一级域名的子域名;
所述接收单元,还用于接收所述域名数据;
所述存储单元,用于将所述域名数据存储于所述域名数据库中。
18.根据权利要求10~16任一项所述的装置,其特征在于,所述访问请求还包括所述终端设备的标识,所述数据处理装置还包括处理单元;
所述处理单元,用于若所述终端设备的标识为预设标识,则触发获取所述第一域名的转移概率的步骤。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~9任一项所述的方法。
20.一种网关设备,其特征在于,包括存储器和处理器,所述存储器中存储有程序指令,所述处理器通过总线与所述存储器连接,所述处理器执行所述存储器中存储的程序指令,以使所述网关设备执行如权利要求1~9任一项所述的方法。
CN201980093696.8A 2019-03-29 2019-03-29 一种数据处理方法及其装置 Active CN113545020B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/080652 WO2020199029A1 (zh) 2019-03-29 2019-03-29 一种数据处理方法及其装置

Publications (2)

Publication Number Publication Date
CN113545020A CN113545020A (zh) 2021-10-22
CN113545020B true CN113545020B (zh) 2022-07-22

Family

ID=72664412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980093696.8A Active CN113545020B (zh) 2019-03-29 2019-03-29 一种数据处理方法及其装置

Country Status (2)

Country Link
CN (1) CN113545020B (zh)
WO (1) WO2020199029A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115865427B (zh) * 2022-11-14 2023-07-21 重庆伏特猫科技有限公司 一种基于数据路由网关的数据采集与监控方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025713A (zh) * 2010-02-09 2011-04-20 ***通信集团北京有限公司 一种访问控制方法、***及dns服务器
CN102355490A (zh) * 2011-08-23 2012-02-15 武汉大学 用于网络空间信息服务***的空间信息集群缓存预取方法
CN104901943A (zh) * 2012-03-31 2015-09-09 北京奇虎科技有限公司 一种访问网站的方法和***
US9875355B1 (en) * 2013-09-17 2018-01-23 Amazon Technologies, Inc. DNS query analysis for detection of malicious software
CN108200034A (zh) * 2017-12-27 2018-06-22 新华三信息安全技术有限公司 一种识别域名的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107770132B (zh) * 2016-08-18 2021-11-05 中兴通讯股份有限公司 一种对算法生成域名进行检测的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025713A (zh) * 2010-02-09 2011-04-20 ***通信集团北京有限公司 一种访问控制方法、***及dns服务器
CN102355490A (zh) * 2011-08-23 2012-02-15 武汉大学 用于网络空间信息服务***的空间信息集群缓存预取方法
CN104901943A (zh) * 2012-03-31 2015-09-09 北京奇虎科技有限公司 一种访问网站的方法和***
US9875355B1 (en) * 2013-09-17 2018-01-23 Amazon Technologies, Inc. DNS query analysis for detection of malicious software
CN108200034A (zh) * 2017-12-27 2018-06-22 新华三信息安全技术有限公司 一种识别域名的方法及装置

Also Published As

Publication number Publication date
CN113545020A (zh) 2021-10-22
WO2020199029A1 (zh) 2020-10-08

Similar Documents

Publication Publication Date Title
CN109889547B (zh) 一种异常网络设备的检测方法及装置
US10574681B2 (en) Detection of known and unknown malicious domains
US10521358B2 (en) System, apparatus and method for prioritizing the storage of content based on a threat index
WO2018113594A1 (zh) 防御dns攻击的方法、装置及存储介质
CN109831461B (zh) 一种分布式拒绝服务DDoS攻击防御方法及装置
CN102137111A (zh) 一种防御cc攻击的方法、装置和内容分发网络服务器
CN108259425A (zh) 攻击请求的确定方法、装置及服务器
CN102404741B (zh) 移动终端上网异常检测方法和装置
CN103179132A (zh) 一种检测和防御cc攻击的方法及装置
Kamimoto et al. Cache protection method based on prefix hierarchy for content-oriented network
CN104506525A (zh) 防止恶意抓取的方法和防护装置
CN107301215B (zh) 一种搜索结果缓存方法及装置、搜索方法及装置
CN108647240B (zh) 一种统计访问量的方法、装置、电子设备及存储介质
CN104219230B (zh) 识别恶意网站的方法及装置
CN110198313A (zh) 一种策略生成的方法及装置
CN109756480B (zh) 一种DDoS攻击防御方法、装置、电子设备及介质
CN112954089B (zh) 一种解析数据的方法、装置、设备以及存储介质
CN111753223A (zh) 一种访问控制的方法和装置
CN105704246A (zh) 一种基于sdn架构的网络分流装置和方法
CN108156270A (zh) 域名请求处理方法和装置
CN105939320A (zh) 处理报文的方法及装置
CN103916379A (zh) 一种基于高频统计的cc攻击识别方法及***
CN110493253B (zh) 一种基于树莓派设计的家用路由器的僵尸网络分析方法
CN113545020B (zh) 一种数据处理方法及其装置
CN106411819A (zh) 一种识别代理互联网协议地址的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant