CN111741065B - 一种批量cdn资源缓存自动化装置 - Google Patents
一种批量cdn资源缓存自动化装置 Download PDFInfo
- Publication number
- CN111741065B CN111741065B CN202010421718.3A CN202010421718A CN111741065B CN 111741065 B CN111741065 B CN 111741065B CN 202010421718 A CN202010421718 A CN 202010421718A CN 111741065 B CN111741065 B CN 111741065B
- Authority
- CN
- China
- Prior art keywords
- cache
- resource
- cdn
- domain name
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种批量CDN资源缓存自动化装置,通过利用大数据技术自动分析大流量出网域名,自动建立批量分析任务,通过调用爬虫工具获取资源及指标信息,自动分析资源信息并生成CDN缓存测试任务执行,执行完成后再次调用爬虫工具触发缓存生效,再通过CDN缓存日志获取缓存资源及指标信息,并与缓存前资源及指标信息进行对比,实现批量资源缓存结果的自动校验,只有校验达到阈值的资源才调用CDN缓存工具以执行正式引入缓存操作,从而有效提高CDN引入缓存资源的数量和质量。
Description
技术领域
本发明涉及CDN资源缓存技术,CDN是内容分发网络(Content DeliveryNetwork),特别是一种批量CDN资源缓存自动化装置,通过利用大数据技术自动分析大流量出网域名,自动建立批量分析任务,通过调用爬虫工具获取资源及指标信息,自动分析资源信息并生成CDN缓存测试任务执行,执行完成后再次调用爬虫工具触发缓存生效,再通过CDN缓存日志获取缓存资源及指标信息,并与缓存前资源及指标信息进行对比,实现批量资源缓存结果的自动校验,只有校验达到阈值的资源才调用CDN缓存工具以执行正式引入缓存操作,从而有效提高CDN引入缓存资源的数量和质量。
背景技术
CDN的全称是Content Delivery Network,即内容分发网络。CDN是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。现有CDN资源缓存技术,涉及两个不同步骤:1、缓存资源提取方式,现有CDN 资源引入缓存技术,通过人工方式获取需要缓存的网站/域名,然后通过人工查询或调用爬虫获取资源详情,人工分析资源是否可以纳入缓存以及资源内容是否安全,再手动生成缓存表达式并执行缓存任务。2、缓存效果校验,现有一种CDN质量的主动拨测方法及***,通过手动任务建立、对象选择、验证访问、任务执行和指标评测的过程,得到最终的CDN 质量评分,使得主动拨测对象CDN质量优劣能够进行直观显示。该方法主要通过对指定资源对象进行拨测的方式实现CDN缓存质量的验证。
现有的CDN资源引入缓存技术,未实现CDN批量资源引入缓存,未实现CDN资源引入缓存全流程自动执行,未实现CDN资源引入缓存效果的自动校验。现有技术存在如下缺陷:1)通过人工方式获取需要缓存的网站/域名,只能被动接受,无法主动分析覆盖大部分大流量出网域名。2)人工查询或调用爬虫获取资源详情,并且人工分析资源是否可以纳入缓存以及资源内容是否安全,分析内容较多,耗费时间较长。3)手动生成缓存表达式,不能保证输出结果完全正确。4)通过拨测的方式验证CDN缓存质量,只能判断缓存后的指标是否达到要求,没法与缓存前指标进行自动比对校验。本发明人认为,如果针对批量CDN资源缓存自动化目标调用爬虫工具、CDN缓存工具、资源内容安全审计工具等外部工具以及多种选择判断,就能够有效提高CDN引入缓存资源的数量和质量。有鉴于此,本发明人完成了本发明。
发明内容
本发明针对现有技术中存在的缺陷或不足,提供一种批量CDN资源缓存自动化装置,通过利用大数据技术自动分析大流量出网域名,自动建立批量分析任务,通过调用爬虫工具获取资源及指标信息,自动分析资源信息并生成CDN缓存测试任务执行,执行完成后再次调用爬虫工具触发缓存生效,再通过CDN缓存日志获取缓存资源及指标信息,并与缓存前资源及指标信息进行对比,实现批量资源缓存结果的自动校验,只有校验达到阈值的资源才调用CDN缓存工具以执行正式引入缓存操作,从而有效提高CDN引入缓存资源的数量和质量。
本发明的技术方案如下:
一种批量CDN资源缓存自动化装置,其特征在于,包括软件***,所述软件***通过大数据技术自动分析出大流量出网域名,针对所述大流量出网域名建立批量引入任务,针对所述批量引入任务中的域名通过调用爬虫工具第一次从所述域名下爬取到第一次资源信息及其第一次资源指标数据,针对所述第一次资源信息生成CDN缓存表达式,调用CDN缓存工具按照所述CDN缓存表达式对所述第一次资源信息执行测试引入缓存操作以标明第一次测试合格资源信息,调用爬虫工具第二次爬取所述第一次测试合格资源信息,调用爬虫工具第三次爬取所述第一次测试合格资源信息,通过所述第二次爬取和所述第三次爬取确保触发所述第一次测试合格资源信息CDN缓存生效,从所述第三次爬取形成的CDN日志信息中提取缓存测试资源指标数据,对所述缓存测试资源指标数据与所述第一次资源指标数据的变化情况进行校验,调用CDN缓存工具对校验达到阈值的资源信息执行正式引入缓存操作。
所述资源指标包括首字节时延和/或下载速率。
所述校验采用的阈值为资源指标提升比率阈值。
所述资源指标提升比率阈值为首字节时延提升比率≥50%,和/或,下载速率≥100%。
所述通过大数据技术自动分析出大流量出网域名包括通过统一数据包深度检测DPI采集平台接口获取包含统一资源定位符URL的信令话单数据,所述信令话单数据包括以下一种或多种字段信息:源端IP地址,目的端IP地址,URL,上行流量,下行流量,接口方式,话单类型;调用Hadoop的数据仓库工具对周期内的所述信令话单数据进行自动分析以获得大流量出网域名。
所述通过大数据技术自动分析出大流量出网域名包括以下步骤:步骤A1,数据提取;步骤A2,出网域名数据判断筛选;步骤A3,出网域名指标统计;步骤A4,输出大流量出网域名。
所述出网域名数据判断筛选包括以下条件:接口方式取省网出口,源地址归属于本省运营商并且目的地址归属于其他运营商,不取URL为空的数据,取URL主机映射为域名的数据而不取主机映射为IP的数据;所述出网域名指标统计包括以下各项技术要求:按域名将取上行流量、下行流量并分别求和,计算总流量=上行流量+下行流量,统计数据条数作为点击次数;所述输出大流量出网域名包括以下确定方式:按总流量取TOP1000的域名数据。
在所述建立批量引入任务之前包括以下判断步骤:判断域名是否已CDN缓存,若是则不做CDN测试缓存处理,若否则按域名建立批量引入任务;所述判断步骤还能够另外接收人工获取的批量域名,所述人工获取包括合作或任务方式获取。
所述第一次资源信息包括域名的资源路径及其是否支持缓存,所述第一次资源指标数据包括首字节时延和下载速率数据,所述生成CDN缓存表达式包括以下步骤:步骤B1,分析爬虫数据;步骤B2,判断资源路径是否支持缓存,若否则不做处理,若是则进入步骤B3;步骤B3,调用安全审计工具;步骤B4,抓帧匹配判断资源内容是否安全,若否则不做处理,若是则进入步骤B5;步骤B5,使用正则表达式截取资源路径的域名和后缀;步骤B6,判断资源路径是否已全部处理,若否则返回步骤B1,若是则进入步骤B7;步骤B7,根据生成的正则表达式拼装报文;步骤B8,输出缓存表达式。
本发明的技术效果如下:本发明一种批量CDN资源缓存自动化装置,利用大数据技术自动分析大流量出网域名,自动建立批量分析任务,通过爬虫工具获取资源及指标信息,自动分析资源信息并生成CDN缓存测试任务执行,执行完成后再次调用爬虫工具触发缓存生效,再通过CDN缓存日志获取缓存资源指标信息,并与缓存前资源指标进行对比,实现批量资源缓存结果的自动校验。只有校验达到阈值的资源才能执行正式引入缓存操作,从而有效提高CDN引入缓存资源的数量和质量。
本发明的特点如下:通过大数据自动分析大流量出网域名,支持覆盖大部分大流量出网域名。通过爬虫数据分析,自动生成缓存表达式,较人工分析更加快速准确。通过爬虫工具,自动将缓存前后指标进行比对验证,能快速校验缓存结果。通过CDN资源引入缓存前后效果自动比对及阈值判断,实现CDN批量资源引入缓存的效果自动校验,及自动判断是否正式引入缓存。通过梳理建立CDN资源引入缓存的全流程自动执行方法,实现无需人工干预的CDN批量资源引入缓存操作。
附图说明
图1是实施本发明一种批量CDN资源缓存自动化装置所执行的CDN批量资源引入缓存的自动校验流程示意图。CDN是内容分发网络(Content Delivery Network)。图1中的自动校验流程包括以下步骤:步骤1,采集统一DPI信令话单数据,DPI是数据包深度检测(DeepPacket Inspection);步骤2,自动分析大流量出网域名,和附设可选择的人工获取批量域名;步骤3,判断域名是否已缓存,若是则不做测试缓存处理,若否则进入步骤4;步骤4,建立批量引入任务;步骤5,调用爬虫工具,第1次获取域名的资源路径及指标值;步骤6,自动生成缓存表达式,纳入CDN缓存队列;步骤7,调用CDN缓存工具,执行测试引入缓存操作;步骤8,调用爬虫工具,第2次爬取对应已做CDN测试缓存的资源;步骤9,调用爬虫工具,第3次爬取对应已做CDN测试缓存的资源;步骤10,取第3次爬取时CDN的日志信息,提取资源指标数据;步骤11,将第1次爬取的资源指标与CDN日志提取的指标数据进行比对,输出对比结果;步骤12,指标提升比率判断是否达到阈值,若否则不做正式缓存处理,若是则进入步骤13;步骤13,调用CDN缓存工具,执行正式引入缓存操作。
图2是图1中自动分析大流量出网域名的流程示意图。图2中包括以下步骤:步骤A1,取话单类型为103的数据;步骤A2,出网域名数据判断筛选;步骤A3,出网域名指标统计;步骤A4,输出大流量出网域名。
图3是图1中自动生成缓存表达式的流程示意图。图3中包括以下步骤:步骤B1,分析爬虫数据;步骤B2,判断资源路径是否支持缓存,若否则不做处理,若是则进入步骤B3;步骤B3,调用安全审计工具;步骤B4,抓帧匹配判断资源内容是否安全,若否则不做处理,若是则进入步骤B5;步骤B5,使用正则表达式截取资源路径的域名和后缀;步骤B6,判断资源路径是否已全部处理,若否则返回步骤B1,若是则进入步骤B7;步骤B7,根据生成的正则表达式拼装报文;步骤B8,输出缓存表达式。
具体实施方式
下面结合附图(图1-图3)对本发明进行说明。
图1是实施本发明一种批量CDN资源缓存自动化装置所执行的CDN批量资源引入缓存的自动校验流程示意图。图2是图1中自动分析大流量出网域名的流程示意图。图3是图1中自动生成缓存表达式的流程示意图。参考图1至图3所示,一种批量CDN资源缓存自动化装置,包括软件***,所述软件***通过大数据技术自动分析出大流量出网域名,针对所述大流量出网域名建立批量引入任务,针对所述批量引入任务中的域名通过调用爬虫工具第一次从所述域名下爬取到第一次资源信息及其第一次资源指标数据,针对所述第一次资源信息生成CDN缓存表达式,调用CDN缓存工具按照所述CDN缓存表达式对所述第一次资源信息执行测试引入缓存操作以标明第一次测试合格资源信息,调用爬虫工具第二次爬取所述第一次测试合格资源信息,调用爬虫工具第三次爬取所述第一次测试合格资源信息,通过所述第二次爬取和所述第三次爬取确保触发所述第一次测试合格资源信息CDN缓存生效,从所述第三次爬取形成的CDN日志信息中提取缓存测试资源指标数据,对所述缓存测试资源指标数据与所述第一次资源指标数据的变化情况进行校验,调用CDN缓存工具对校验达到阈值的资源信息执行正式引入缓存操作。所述资源指标包括首字节时延和/或下载速率。所述校验采用的阈值为资源指标提升比率阈值。所述资源指标提升比率阈值为首字节时延提升比率≥50%,和/或,下载速率≥100%。所述通过大数据技术自动分析出大流量出网域名包括通过统一数据包深度检测DPI采集平台接口获取包含统一资源定位符URL的信令话单数据,所述信令话单数据包括 以下一种或多种字段信息:源端IP地址,目的端IP地址,URL,上行流量,下行流量,接口方式,话单类型;调用Hadoop的数据仓库工具对周期内的所述信令话单数据进行自动分析以获得大流量出网域名。
所述通过大数据技术自动分析出大流量出网域名包括以下步骤:步骤A1,数据提取;步骤A2,出网域名数据判断筛选;步骤A3,出网域名指标统计;步骤A4,输出大流量出网域名。所述出网域名数据判断筛选包括以下条件:接口方式取省网出口,源地址归属于本省运营商并且目的地址归属于其他运营商,不取URL为空的数据,取URL主机映射为域名的数据而不取主机映射为IP的数据;所述出网域名指标统计包括以下各项技术要求:按域名将取上行流量、下行流量并分别求和,计算总流量=上行流量+下行流量,统计数据条数作为点击次数;所述输出大流量出网域名包括以下确定方式:按总流量取TOP1000的域名数据。在所述建立批量引入任务之前包括以下判断步骤:判断域名是否已CDN缓存,若是则不做CDN测试缓存处理,若否则按域名建立批量引入任务;所述判断步骤还能够另外接收人工获取的批量域名,所述人工获取包括合作或任务方式获取。所述第一次资源信息包括域名的资源路径及其是否支持缓存,所述第一次资源指标数据包括首字节时延和下载速率数据,所述生成CDN缓存表达式包括以下步骤:步骤B1,分析爬虫数据;步骤B2,判断资源路径是否支持缓存,若否则不做处理,若是则进入步骤B3;步骤B3,调用安全审计工具;步骤B4,抓帧匹配判断资源内容是否安全,若否则不做处理,若是则进入步骤B5;步骤B5,使用正则表达式截取资源路径的域名和后缀;步骤B6,判断资源路径是否已全部处理,若否则返回步骤B1,若是则进入步骤B7;步骤B7,根据生成的正则表达式拼装报文;步骤B8,输出缓存表达式。
一种批量CDN资源缓存自动化装置,通过大数据技术周期自动分析大流量出网域名,自动建立批量分析任务,利用爬虫工具获取资源及指标信息,自动分析资源信息并生成CDN缓存测试任务执行,执行完成后再次调用爬虫工具触发缓存生效,再通过CDN缓存日志获取缓存资源指标信息,自动校验缓存前后资源指标变化情况,对校验达到阈值的资源,执行正式引入缓存操作。本发明涉及调用外部工具包括:1、爬虫工具:用于爬取指定域名的资源路径、是否支持缓存、首字节时延、下载速率数据;2、资源内容安全审计工具:用于抓帧匹配筛除不安全的资源;3、CDN缓存工具:用于测试和正式引入缓存操作,并生成缓存日志。
本发明的技术方案如下:
1、数据来源包含2部分:1)通过统一DPI(Deep Packet Inspection,一种基于数据包的深度检测技术)采集平台接口获取包含URL(Uniform Resource Locator,统一资源定位符)的信令话单数据,需要用到的字段信息包括源端IP地址、目的端IP地址、URL、上行流量、下行流量、接口方式、话单类型;2)人工获取批量域名,主要通过合作或任务方式获取。
2、利用Hadoop的数据仓库工具,周期(支持设置分析粒度小时、天)从统一DPI信令话单数据中,自动分析大流量出网域名。1)数据提取:取话单类型为103的数据;2)出网域名数据判断筛选:接口方式取省网出口,源地址归属于本省运营商并且目的地址归属于其他运营商,不取URL为空的数据,只取URL主机映射为域名的数据(去除主机映射为IP的数据);3)出网域名指标统计:按域名将取上行流量、下行流量并分别求和,计算总流量=上行流量+下行流量,统计数据条数作为点击次数;4)输出大流量出网域名:按总流量取TOP1000 的域名数据。自动分析大流量出网域名流程详见图2。
3、与CDN缓存工具已缓存数据比对,判断域名是否已做CDN缓存,剔除已缓存数据,再按域名建立批量引入任务。
4、调用爬虫工具,第1次爬取域名的资源路径、是否支持缓存、首字节时延、下载速率数据,其中爬取资源的深度支持根据需要设置。
5、将支持缓存的资源路径,按规则自动生成缓存表达式,纳入CDN缓存队列。1)遍历返回的爬虫数据;2)判断资源路径是否支持缓存,不支持缓存的数据不做处理,提取支持缓存的资源路径;3)针对支持缓存的资源,调用安全审计工具,抓帧匹配判断资源内容是否安全,如果不安全的资源筛除不做处理,提取安全的资源路径;4)使用正则表达式:
http://(\\S*?)(?::\\d+)?/[^?\\s]+\\.([A-Za-z0-9]+)$
截取资源路径的域名和后缀,如一个域名存在多个不一致后缀使用|进行分隔;5)判断资源路径是否已全部处理,如果否,则继续分析截取生成表达式,直到爬虫返回的全部资源路径都处理完成为止;6)根据生成的正则表达式,拼装报文,如存在多个域名,将其拼接在一起;7)输出缓存表达式。自动生成缓存表达式流程详见图3。
6、调用CDN缓存工具,执行测试引入缓存操作。7、调用爬虫工具,第2次爬取对应域名已做CDN测试缓存的资源。8、调用爬虫工具,第3次爬取对应域名已做CDN测试缓存的资源(重新爬2次,促使CDN缓存生效,便于快速验证)。9、获取CDN日志,取第3次爬取对应域名时CDN的日志信息,提取对应资源路径、首字节时延、下载速率数据。10、将第1次爬取的资源、首字节时延、下载速率与CDN日志提取的对应指标数据进行比对,校验缓存前和缓存后指标数据的变化情况。11、缓存前和缓存后指标提升比率支持设置对应的阈值,只有同时满足首字节时延、下载速率提升比率同时达到阈值的资源,再执行下一步,否则该资源不做正式引入。12、调用CDN缓存工具,执行正式引入缓存操作。整体CDN批量资源引入缓存的自动校验流程详见图1。
一种批量CDN资源缓存自动化装置,通过大数据技术周期自动分析大流量出网域名,自动建立批量分析任务,利用爬虫工具获取资源及指标信息,自动分析资源信息并生成CDN缓存测试任务执行,执行完成后再次调用爬虫工具触发缓存生效,再通过CDN缓存日志获取缓存资源指标信息,自动校验缓存前后资源指标变化情况,对校验达到阈值的资源,执行正式引入缓存操作。通过大数据技术分析包含URL的统一DPI信令话单数据,能周期自动获取大流量出网域名,作为CDN批量引入缓存的基础数据。自动分析资源路径并生成CDN缓存测试任务,其特征在于,自动获取CDN缓存前后资源的指标数据。通过指标提升比率是否达到设置阈值,自动判断资源是否正式引入缓存。本发明具体实施方式部分说明的CDN资源引入缓存的全流程自动执行方法。
本发明一种批量CDN资源缓存自动化装置的另一个具体实施例:
1、通过接口采集包含URL的统一DPI信令话单数据。话单样例如下:
2、利用Hadoop的数据仓库工具,每天自动分析前一天大流量出网域名。分析输出域名样例如下:www.gov.cn。
3、判断该域名未做CDN缓存,建立批量引入任务。
4、调用爬虫工具,第1次获取域名的资源路径、是否支持缓存、首字节时延、下载速率数据。爬取资源样例如下:
资源路径 | http://www.gov.cn/govweb/xhtml/2016gov/css/FZZHUNYSK.css |
是否支持缓存 | 是 |
首字节时延 | 45ms |
下载速率 | 17KB/S |
5、资源路径,按规则自动生成缓存表达式,纳入CDN缓存队列。
1)样例资源路径:http://www.gov.cn/govweb/xhtml/2016gov/css/FZZHUNYSK.css。
2)调用安全审计工具,抓帧匹配判断资源内容安全。
3)解析资源域名为www.gov.cn,后缀为css。
4)生成正则表达式为:http://(www\.gov\.cn)(?::\d+)?/([^?\s]+\.(?:css))$。
6、调用CDN缓存工具,执行测试引入缓存操作。
7、调用爬虫工具,第2次爬取对应域名已做CDN缓存的资源。
8、调用爬虫工具,第3次爬取对应域名已做CDN缓存的资源。
9、获取CDN日志,取第3次爬取对应域名时CDN的日志信息,提取对应资源路径、首字节时延、下载速率数据。
CDN日志提取的数据样例:
资源路径 | http://www.gov.cn/govweb/xhtml/2016gov/css/FZZHUNYSK.css |
首字节时延 | 20ms |
下载速率 | 23.3KB/S |
10、将第1次爬取的资源、首字节时延、下载速率与CDN日志提取的对应指标数据进行比对,校验缓存前和缓存后指标数据的变化情况。对比结果样例:
首字节时延(ms) | 下载速率(KB/S) | |
分发前 | 45 | 17 |
分发后 | 20 | 23.3 |
提升比率 | 225% | 137% |
11、设置缓存前和缓存后指标提升比率阈值:首字节时延提升比率>50%,下载速率提升比率>100%。判断该资源符合正式引入标准。
12、调用CDN缓存工具,执行正式引入缓存操作。
在此指明,以上叙述有助于本领域技术人员理解本发明创造,但并非限制本发明创造的保护范围。任何没有脱离本发明创造实质内容的对以上叙述的等同替换、修饰改进和/或删繁从简而进行的实施,均落入本发明创造的保护范围。
Claims (9)
1.一种批量CDN资源缓存自动化装置,其特征在于,包括软件***,所述软件***通过大数据技术自动分析出大流量出网域名,针对所述大流量出网域名建立批量引入任务,针对所述批量引入任务中的域名通过调用爬虫工具第一次从所述域名下爬取到第一次资源信息及其第一次资源指标数据,针对所述第一次资源信息生成CDN缓存表达式,调用CDN缓存工具按照所述CDN缓存表达式对所述第一次资源信息执行测试引入缓存操作以标明第一次测试合格资源信息,调用爬虫工具第二次爬取所述第一次测试合格资源信息,调用爬虫工具第三次爬取所述第一次测试合格资源信息,通过所述第二次爬取和所述第三次爬取确保触发所述第一次测试合格资源信息CDN缓存生效,从所述第三次爬取形成的CDN日志信息中提取缓存测试资源指标数据,对所述缓存测试资源指标数据与所述第一次资源指标数据的变化情况进行校验,调用CDN缓存工具对校验达到阈值的资源信息执行正式引入缓存操作。
2.根据权利要求1所述的批量CDN资源缓存自动化装置,其特征在于,所述资源指标包括首字节时延和/或下载速率。
3.根据权利要求1所述的批量CDN资源缓存自动化装置,其特征在于,所述校验采用的阈值为资源指标提升比率阈值。
4.根据权利要求3所述的批量CDN资源缓存自动化装置,其特征在于,所述资源指标提升比率阈值为首字节时延提升比率≥50%,和/或,下载速率≥100%。
5.根据权利要求1所述的批量CDN资源缓存自动化装置,其特征在于,所述通过大数据技术自动分析出大流量出网域名包括通过统一数据包深度检测DPI采集平台接口获取包含统一资源定位符URL的信令话单数据,所述信令话单数据包括 以下一种或多种字段信息:源端IP地址,目的端IP地址,URL,上行流量,下行流量,接口方式,话单类型;调用Hadoop的数据仓库工具对周期内的所述信令话单数据进行自动分析以获得大流量出网域名。
6.根据权利要求1所述的批量CDN资源缓存自动化装置,其特征在于,所述通过大数据技术自动分析出大流量出网域名包括以下步骤:步骤A1,数据提取;步骤A2,出网域名数据判断筛选;步骤A3,出网域名指标统计;步骤A4,输出大流量出网域名。
7.根据权利要求6所述的批量CDN资源缓存自动化装置,其特征在于,所述出网域名数据判断筛选包括以下条件:接口方式取省网出口,源地址归属于本省运营商并且目的地址归属于其他运营商,不取URL为空的数据,取URL主机映射为域名的数据而不取主机映射为IP的数据;所述出网域名指标统计包括以下各项技术要求:按域名将取上行流量、下行流量并分别求和,计算总流量=上行流量+下行流量,统计数据条数作为点击次数;所述输出大流量出网域名包括以下确定方式:按总流量取TOP1000的域名数据。
8.根据权利要求1所述的批量CDN资源缓存自动化装置,其特征在于,在所述建立批量引入任务之前包括以下判断步骤:判断域名是否已CDN缓存,若是则不做CDN测试缓存处理,若否则按域名建立批量引入任务;所述判断步骤还能够另外接收人工获取的批量域名,所述人工获取包括合作或任务方式获取。
9.根据权利要求1所述的批量CDN资源缓存自动化装置,其特征在于,所述第一次资源信息包括域名的资源路径及其是否支持缓存,所述第一次资源指标数据包括首字节时延和下载速率数据,所述生成CDN缓存表达式包括以下步骤:步骤B1,分析爬虫数据;步骤B2,判断资源路径是否支持缓存,若否则不做处理,若是则进入步骤B3;步骤B3,调用安全审计工具;步骤B4,抓帧匹配判断资源内容是否安全,若否则不做处理,若是则进入步骤B5;步骤B5,使用正则表达式截取资源路径的域名和后缀;步骤B6,判断资源路径是否已全部处理,若否则返回步骤B1,若是则进入步骤B7;步骤B7,根据生成的正则表达式拼装报文;步骤B8,输出缓存表达式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010421718.3A CN111741065B (zh) | 2020-05-18 | 2020-05-18 | 一种批量cdn资源缓存自动化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010421718.3A CN111741065B (zh) | 2020-05-18 | 2020-05-18 | 一种批量cdn资源缓存自动化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111741065A CN111741065A (zh) | 2020-10-02 |
CN111741065B true CN111741065B (zh) | 2022-03-08 |
Family
ID=72647307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010421718.3A Active CN111741065B (zh) | 2020-05-18 | 2020-05-18 | 一种批量cdn资源缓存自动化装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111741065B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132948A (zh) * | 2016-11-30 | 2018-06-08 | 北京国双科技有限公司 | 处理爬取网页的方法和装置 |
CN109586937A (zh) * | 2017-09-28 | 2019-04-05 | 中兴通讯股份有限公司 | 一种缓存***的运维方法、设备和存储介质 |
CN110677270A (zh) * | 2018-07-03 | 2020-01-10 | 长春亿阳计算机开发有限公司 | 一种域名的可缓存性分析方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011040981A1 (en) * | 2009-10-02 | 2011-04-07 | David Drai | System and method for search engine optimization |
-
2020
- 2020-05-18 CN CN202010421718.3A patent/CN111741065B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132948A (zh) * | 2016-11-30 | 2018-06-08 | 北京国双科技有限公司 | 处理爬取网页的方法和装置 |
CN109586937A (zh) * | 2017-09-28 | 2019-04-05 | 中兴通讯股份有限公司 | 一种缓存***的运维方法、设备和存储介质 |
CN110677270A (zh) * | 2018-07-03 | 2020-01-10 | 长春亿阳计算机开发有限公司 | 一种域名的可缓存性分析方法及*** |
Non-Patent Citations (1)
Title |
---|
面向网络行为的CDN缓存分配策略;冯翔,等;《计算机科学》;20150731;第42卷(第7期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111741065A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110324311B (zh) | 漏洞检测的方法、装置、计算机设备和存储介质 | |
CN105022960B (zh) | 基于网络流量的多特征移动终端恶意软件检测方法及*** | |
CN106649810A (zh) | 基于Ajax的新闻网页动态数据的抓取方法及*** | |
CN105357195A (zh) | web访问的越权漏洞检测方法及装置 | |
CN106656666B (zh) | 一种获取网页首屏时间的方法及装置 | |
CN104980309A (zh) | 网站安全检测方法及装置 | |
CN104954372A (zh) | 一种钓鱼网站的取证与验证方法及*** | |
CN109495467B (zh) | 拦截规则的更新方法、设备及计算机可读存储介质 | |
CN108206769B (zh) | 过滤网络质量告警的方法、装置、设备和介质 | |
CN103428183A (zh) | 恶意网址的识别方法和装置 | |
CN103746992A (zh) | 基于逆向的入侵检测***及其方法 | |
CN104640138B (zh) | 一种定位问题终端的方法及装置 | |
CN111222131B (zh) | 一种互联网诈骗apk的识别方法 | |
CN112257032A (zh) | 一种确定app责任主体的方法及*** | |
CN114244564A (zh) | 攻击防御方法、装置、设备及可读存储介质 | |
CN111741065B (zh) | 一种批量cdn资源缓存自动化装置 | |
CN113779571A (zh) | WebShell检测装置、WebShell检测方法及计算机可读存储介质 | |
CN107566371B (zh) | 一种面向海量日志的WebShell挖掘方法 | |
CN109963292B (zh) | 投诉预测的方法、装置、电子设备和存储介质 | |
CN112449371A (zh) | 一种无线路由器的性能评测方法及电子设备 | |
CN111625700B (zh) | 防抓取的方法、装置、设备及计算机存储介质 | |
CN117254983A (zh) | 涉诈网址检测方法、装置、设备及存储介质 | |
CN110768860B (zh) | 一种测试方法、测试装置及电子设备 | |
WO2012134563A1 (en) | Systems, apparatus, and methods for network data analysis | |
CN116208400A (zh) | 网络威胁检测方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |