CN115941659A - 一种用户下载热点数据的快速获取方法 - Google Patents

一种用户下载热点数据的快速获取方法 Download PDF

Info

Publication number
CN115941659A
CN115941659A CN202211388467.9A CN202211388467A CN115941659A CN 115941659 A CN115941659 A CN 115941659A CN 202211388467 A CN202211388467 A CN 202211388467A CN 115941659 A CN115941659 A CN 115941659A
Authority
CN
China
Prior art keywords
url
user
recombined
server
ats
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211388467.9A
Other languages
English (en)
Inventor
刘远强
白婧
林霞
孙红兵
高媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Network Technology Co Ltd
Original Assignee
Sichuan Changhong Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Network Technology Co Ltd filed Critical Sichuan Changhong Network Technology Co Ltd
Priority to CN202211388467.9A priority Critical patent/CN115941659A/zh
Publication of CN115941659A publication Critical patent/CN115941659A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种用户下载热点数据的快速获取方法,包括:S1:用户正常网上时,抓包服务器镜像复制用户数据流并使用netmap绑定用户的物理网卡;S2:抓包服务器截取用户数据流中所有的报文信息,并使用hyperscan快速扫描所有报文信息,将涉及文件、音频和视频下载的报文信息进行重组形成重组url;S3:抓包服务器调用web管理机中的记录表和缓存表,并与重组url进行对比,若记录表未记录,则对重组url进行流量统计并写入缓存表,之后将符合要求的重组url写入记录表并通知ATS服务器回源信息,若记录表已记录,则不进行流量统计,直接通知抓包服务器向用户发送重定向状态码。本发明解决了现有技术中存在的传输耗时长、时效性和命中率低和重复缓存问题。

Description

一种用户下载热点数据的快速获取方法
技术领域
本发明涉及智能网络技术领域,尤其涉及一种用户下载热点数据的快速获取方法。
背景技术
提供高性能缓存服务器设备,能够解决运营商出口带宽有限的问题,能够很好地提高用户访问网站的响应速度,基本思路为将单位时间内用户访问量较高的图片、视频、文件等高流量数据缓存到服务器上,当用户访问该资源时,引流用户直接通过缓存服务器获取。
其中对用户在单位时间内的下载热点(访问量高的流量数据)统计,作为缓存服务器的先决条件,具有决定性的作用,现有技术中大多是利用分光器临时镜像复制一段时间内的用户数据流并对其进行流量统计,针对符合预期的下载热点提取相应的url,并让局域网内的服务器利用该url缓存相应的数据,在用户下一次访问该url时,直接访问局域网中的信息,但是由于每次镜像复制的用户数据流相对较大,传输和数据转换耗时较长,而且为了节约缓存空间,提取url并缓存相应数据后,会直接舍弃掉所有用户数据流,这就导致下载热点的统计数据的时效性和命中率都很低,在下一次镜像复制新的用户数据流时,可能会重复缓存相同的数据,浪费服务器缓存空间。
发明内容
针对现有技术中所存在的不足,本发明提供了一种用户下载热点数据的快速获取方法,其解决了现有技术中存在的传输耗时长、时效性和命中率低和重复缓存的问题。
根据本发明的实施例,一种用户下载热点数据的快速获取方法,其包括:
S1:用户正常网上时,抓包服务器镜像复制用户在一段时间内的用户数据流并使用netmap绑定用户的物理网卡;
S2:抓包服务器截取用户数据流中所有的报文信息,并使用hyperscan快速扫描所有报文信息,将涉及文件、音频和视频下载的报文信息进行重组形成重组url;
S3:抓包服务器调用web管理机中的记录表和缓存表,并与重组url进行对比,若记录表未记录,则对重组url进行流量统计并写入缓存表,之后将符合要求的重组url写入记录表并通知ATS服务器回源信息,若记录表已记录,则不进行流量统计,直接通知抓包服务器向用户发送重定向状态码,让用户在下载数据时根据重定向状态码访问ATS服务器并获取数据。
优选地,所述抓包服务器包括分光器和流量分析器,所述分光器用于镜像复制用户数据流,所述流量分析器用于对用户数据流进行绑定物理网卡和分析。
优选地,符合规范的所述重组url若是动态url,需使用pcre链接库将其转化为静态url。
优选地,所述缓存表的数据字段包括键值ats_key、url、url总请求次数get_total_count和url最后一次请求时间last_get_time,所述记录表的数据字段包括:键值ats_key、url和url对应的IP地址ats_ip。
优选地,所述S3中,重组url写入缓存表时,需利用哈希算法将重组url转换为唯一的键值ats_key并写入缓存表;
所述缓存表的写入标准为:重组url必须符合规范,重组url对应的文件大小需满足设置范围,重组url必须为静态url;
所述记录表的写入标准为:必须是缓存表内的url,缓存表中的url对应的get_total_count达到或超过设置的请求次数,对应的last_get_time的时间不超过三天。
优选地,将缓存表内的重组url写入记录表时,会将物理网卡转换为ip地址并写入ats_ip数据字段中,同时抓包服务器会向ATS服务器发送回源通知和相应的重组url,所述ATS服务器根据重组url回源信息并生成与回源的信息对应的重定向状态码,之后向抓包服务器发送回源反馈信息和重定向状态码。
相比于现有技术,本发明具有如下有益效果:
netmap高效收发I/O框架能够将用户数据流不进行过渡拷贝,直接传输以提高接收速度的同时,绑定用户的物理网卡,快速定位数据流对应的用户,同时利用hyperscan的特性,在扫描报文信息时,能够将快速将流模式的报文信息中的正则表达式转换成便于识别和储存的模式数据库,将涉及文件、音频和视频下载的报文信息进行重组形成便于识别和储存的重组url,以此减少数据传输和转换过程中的步骤,减少传输和数据转换的时间,提高效率。
另外,若重组url不在记录表中,说明该url尚不是下载热点,对其进行流量统计后,会写入缓存表中,如缓存表已记录该url,则更新,未记录则新增,以此,在镜像复制后,用户数据流会完全保存,可结合多个时间段内的流量分析结果判断该url是否为下载热点,延长时效性,增加命中率,而且如果重组url在记录表中,说明服务器中已经缓存了相应的文件,就不会再进行重复缓存,此时可不进行流量统计,减少操作步骤,让用户直接向服务器获取,节省服务器缓存资源。
附图说明
图1为本发明实施例的整体设备架构图。
图2为本发明实施例的用户数据流处理流程图。
具体实施方式
下面结合附图及实施例对本发明中的技术方案进一步说明。
如图1所示,该图为用于抓取和分析用户数据所采用的整体设备架构图,其中抓包服务器包括了分光器和流量分析器,分光器用于镜像复制用户数据流,流量分析器用于对用户数据流进行绑定物理网卡和分析,web管理机中储存了缓存表和记录表。
如图1和图2所示,本发明的本实施例提出了一种用户下载热点数据的快速获取方法,包括:
S1:用户正常网上时,抓包服务器镜像复制用户在一段时间内的用户数据流并使用netmap绑定用户的物理网卡。
多个用户正常上网,其数据流如图1中的①号线条,用户通过运营商提供的核心路由器(公网)直接上网,访问和下载相关数据,抓包服务器利用分光器,每天在同一时段(根据需求人为设置,通常情况下在用网高峰时段,晚上19点至23点)镜像复制相同时间长度(根据需求人为设置,通常情况下考虑带宽限制和避免服务器过载,默认时间长度为30分钟至1小时)的用户数据流,其数据流如图1中的②号线条。
之后分光器将用户数据流发送至流量分析器,流量分析器采用netmap高效收发I/O框架接收用户数据流,通常情况下,在数据接收时,终端会将接收到的数据先储存在预留的临时内存空间,再将临时内存空间内的数据拷贝到永久内存空间中,待数据接收完之后,释放掉临时内存空间以避免数据丢失,但由于分光器和流量分析器之间的网络空间距离短,几乎不存在数据丢失,因此采用netmap框架能够在接收数据时,通过减少数据拷贝或共享总线操作次数,消除通信数据的不必要的拷贝过程,能够有效地提高通信效率、节省存储空间和处理时间,同时,将用户数据流与相应的用户的物理网卡进行绑定,快速定位数据流对应的用户。
S2:抓包服务器截取用户数据流中所有的报文信息,并使用hyperscan快速扫描所有报文信息,将涉及文件、音频和视频下载的报文信息进行重组形成重组url;
抓包服务器中流量分析设备截取用户数据流中的所有tcp http报文信息,使用hyperscan快速扫描报文信息,利用hyperscan的特性,由于用户数据流是持续的数据流,因此采用流模式对报文信息进行扫描,快速将流模式的报文信息中,将涉及文件、音频和视频下载的报文信息进行重组,将报文信息中的url中的难以识别的正则表达式转换成便于识别和储存的模式数据库模式,形成符合规范的重组url,以此减少数据传输和转换过程中的步骤,减少传输和数据转换的时间,提高效率。
由于服务器缓存空间和带宽有限,因此通常情况下不会去缓存大于1GB的文件,通过重组url发送http请求,获取重组url对应点的下载文件的大小,如果下载文件的大小大于1GB,会直接舍弃,不做缓存操作,之后会判断重组url是否为动态url,本实施例以url:“http://www.***.com/displayCategory.aspx?CategoryID=5”为例,在访问该url时,会在该网站中的名为displayCategory.aspx的区块显示键入参数“CategoryID=5”的所有数据,如果“CategoryID”的值发生变化,则在该区块中的数据会变化,因此,使用pcre链接库,将“CategoryID=5”的数据提取出来,替换掉displayCategory.aspx区块,形成静态的页面,于是,动态url变为静态url:“http://www.***.com/CategoryID5.html”,在该静态url的网站中,会固定显示“CategoryID=5”的数据且不会发生变化。
S3:抓包服务器调用web管理机中的记录表和缓存表,并与重组url进行对比,若记录表未记录,则对重组url进行流量统计并写入缓存表,之后将符合要求的重组url写入记录表并通知ATS服务器回源信息,若记录表已记录,则不进行流量统计,直接通知抓包服务器向用户发送重定向状态码,让用户在下载数据时根据重定向状态码访问ATS服务器并获取数据。
缓存表的数据字段包括键值ats_key、url、url总请求次数get_total_count和url最后一次请求时间last_get_time。
记录表的数据字段包括:键值ats_key、url和url对应的IP地址ats_ip。
在将所有重组url均变为静态url后,利用哈希算法中的平方去中法将重组url转换成唯一的、方便记录、识别和统计的数字式的键值,不同的重组url计算出来的键值不同。
之后调用web管理机中的缓存表和记录表,将重组url的键值与记录表中ats_key进行逐一精确比对,若记录表中没有记录相应的重组url,则对重组url进行流量统计,计算该时间段内同一重组url被请求的总请求次数,以及最后一次请求的时间,然后将键值、重组url、总请求次数和最后一次请求的时间分别写入缓存表中对应的数据字段内,同时若缓存表中存在键值相同的数据,则将总请求次数相加,最后一次请求的时间更新为最新的时间,以此,在镜像复制后,用户数据流会完全保存,可结合多个时间段内的流量分析结果判断该url是否为下载热点,延长时效性,增加命中率
当某个重组url的总请求次数(get_total_count字段的值)达到或超过设置的请求次数(根据需求人为设置,默认设置为500次)时则判断其为用户下载热点,此时判断该重组url的最后一次请求时间是否超过3天,若为超过3天,则将该重组url对应的物理网卡转换为ip地址,并将该重组url的键值ats_key、url和IP地址分别写入记录表中的相应数据字段,同时在写入时,抓包服务器还会向ATS服务器发送回源通知和该重组url(图1中的③号线条),让ATS服务器根据重组url缓存相应的下载文件和生成对应的302重定向状态码,当缓存完毕后,向抓包服务器发送回源完成反馈信息以及302重定向状态码(图1中的③号线条),抓包服务器将302重定向状态码与记录表中的对应重组url进行关联。
若重组url在计算出键值后,与记录表比对时发现记录表已经有相同的重组url,说明ATS服务器已经缓存了相应的下载文件,此时可不进行流量统计,抓包服务器将该重组url相关联的302重定向状态码发送给用户(如图1中的⑤号线条),用户发起的http get会重定向到ATS服务器获取相应的文件(用户数据流从经过①号和④号线条),不再进入公网获取。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种用户下载热点数据的快速获取方法,其特征在于:包括:
S1:用户正常网上时,抓包服务器镜像复制用户在一段时间内的用户数据流并使用netmap绑定用户的物理网卡;
S2:抓包服务器截取用户数据流中所有的报文信息,并使用hyperscan快速扫描所有报文信息,将涉及文件、音频和视频下载的报文信息进行重组形成重组url;
S3:抓包服务器调用web管理机中的记录表和缓存表,并与重组url进行对比,若记录表未记录,则对重组url进行流量统计并写入缓存表,之后将符合要求的重组url写入记录表并通知ATS服务器回源信息,若记录表已记录,则不进行流量统计,直接通知抓包服务器向用户发送重定向状态码,让用户在下载数据时根据重定向状态码访问ATS服务器并获取数据。
2.如权利要求1所述的一种用户下载热点数据的快速获取方法,其特征在于:所述抓包服务器包括分光器和流量分析器,所述分光器用于镜像复制用户数据流,所述流量分析器用于对用户数据流进行绑定物理网卡和分析。
3.如权利要求1所述的一种用户下载热点数据的快速获取方法,其特征在于:符合规范的所述重组url若是动态url,需使用pcre链接库将其转化为静态url。
4.如权利要求1所述的一种用户下载热点数据的快速获取方法,其特征在于:所述缓存表的数据字段包括键值ats_key、url、url总请求次数get_total_count和url最后一次请求时间last_get_time,所述记录表的数据字段包括:键值ats_key、url和url对应的IP地址ats_ip。
5.如权利要求1所述的一种用户下载热点数据的快速获取方法,其特征在于:所述S3中,重组url写入缓存表时,需利用哈希算法将重组url转换为唯一的键值ats_key并写入缓存表;
所述缓存表的写入标准为:重组url必须符合规范,重组url对应的文件大小需满足设置范围,重组url必须为静态url;
所述记录表的写入标准为:必须是缓存表内的url,缓存表中的url对应的get_total_count达到或超过设置的请求次数,对应的last_get_time的时间不超过三天。
6.如权利要求1所述的一种用户下载热点数据的快速获取方法,其特征在于:将缓存表内的重组url写入记录表时,会将物理网卡转换为ip地址并写入ats_ip数据字段中,同时抓包服务器会向ATS服务器发送回源通知和相应的重组url,所述ATS服务器根据重组url回源信息并生成与回源的信息对应的重定向状态码,之后向抓包服务器发送回源反馈信息和重定向状态码。
CN202211388467.9A 2022-11-08 2022-11-08 一种用户下载热点数据的快速获取方法 Pending CN115941659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211388467.9A CN115941659A (zh) 2022-11-08 2022-11-08 一种用户下载热点数据的快速获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211388467.9A CN115941659A (zh) 2022-11-08 2022-11-08 一种用户下载热点数据的快速获取方法

Publications (1)

Publication Number Publication Date
CN115941659A true CN115941659A (zh) 2023-04-07

Family

ID=86554655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211388467.9A Pending CN115941659A (zh) 2022-11-08 2022-11-08 一种用户下载热点数据的快速获取方法

Country Status (1)

Country Link
CN (1) CN115941659A (zh)

Similar Documents

Publication Publication Date Title
CN100484069C (zh) 一种文件数据分发方法及相关设备
Wolman et al. ORGANIZ AT ION-BASEDANALYSISOF WEB-OBJECTSHARINGANDCACHI NG
US7035907B1 (en) Manipulating content objects to control their display
US10219290B2 (en) Method, device, and system for content delivery network-based mobile terminal traffic processing
US10339277B2 (en) Real-time and secured picture/video upload via a content delivery network
Acharya et al. Middleman: A video caching proxy server
KR101330052B1 (ko) 적응형 컨텐츠 전송 방식을 지원하는 컨텐츠 캐싱 서비스 제공 방법 및 이를 위한 로컬 캐싱 장치
US9015275B2 (en) Partial object distribution in content delivery network
US8903950B2 (en) Personalized content delivery using peer-to-peer precaching
KR101079211B1 (ko) 미디어 콘텐츠 저장 시스템, 방법 및 장치
US8024484B2 (en) Caching signatures
US7848274B2 (en) Content distribution method and relay apparatus
CN104025521B (zh) 内容传输***、优化该***中网络流量的方法、中央控制装置和本地缓存装置
CN102651861B (zh) 用于移动终端的下载方法、移动终端和代理下载服务器
CN103841045B (zh) 一种互联网缓存处理方法、内容探测子***和Cache***
US20100241761A1 (en) Content Engine for Mobile Communications Systems
JP2004507908A5 (zh)
US11159642B2 (en) Site and page specific resource prioritization
CN116578740A (zh) 计算机实现的方法、存储***和计算机可读存储介质
US20170094009A1 (en) Content delivery network transitional caching
JP2003288261A (ja) データ転送装置、データ転送方法及びプログラム
KR100755617B1 (ko) 스트리밍 미디어를 위한 서비스 위치 관리 방법
CN115941659A (zh) 一种用户下载热点数据的快速获取方法
CN113612823A (zh) 内容分发网络的缓存时长调整方法、装置和存储介质
KR101888982B1 (ko) 적응형 컨텐츠 제공을 위한 컨텐츠 캐싱 서비스 제공 방법 및 이를 위한 로컬 캐싱 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination