CN104486350A - 一种基于用户行为的网络内容加速方法 - Google Patents
一种基于用户行为的网络内容加速方法 Download PDFInfo
- Publication number
- CN104486350A CN104486350A CN201410814693.8A CN201410814693A CN104486350A CN 104486350 A CN104486350 A CN 104486350A CN 201410814693 A CN201410814693 A CN 201410814693A CN 104486350 A CN104486350 A CN 104486350A
- Authority
- CN
- China
- Prior art keywords
- user
- content
- article
- content management
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
- H04L67/5681—Pre-fetching or pre-delivering data based on network characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于用户行为的网络内容加速方法,其基本原理是把用户将来某个时间段要访问的内容预取到家庭网关的缓存空间,则用户消费这部分内容时不用等待,具有很好的用户体验。该方法由安装于家庭网关的内容管理代理和一个用户行为预测中心组成。内容管理代理搜集用户行为信息,发送给用户行为预测中心;内容管理代理根据预测报告预取网络内容缓存于家庭网关的本地存储,并重定向用户的内容消费请求到本地缓存。用户行为预测中心基于用户的历史行为预测用户将来某个时间段可能消费的网络内容,并返回预测结果给相应的内容管理代理。本发明能够有效解决用户消费高分辨率视频的缓冲时间过长问题;同时,本发明可以降低内容服务器的压力。
Description
技术领域
本发明属于互联网内容分发领域,更为具体地讲,涉及一种面向接入网的基于用户行为的网络内容加速方法。
背景技术
随着用户消费高清视频等大容量网络内容需求的增加,高效的内容分发技术成为一个迫切需求。目前的网络接入条件无法有效满足高清视频消费,不论是网络接入带宽还是服务器的服务能力都可能成为瓶颈,导致了视频流缓冲时间长,播放时断时续,用户体验极差。目前,相关的内容加速技术主要包括:Web caching,基于P2P(Peer to Peer)的内容分发,专用的CDN(Content Delivery Network)等,下面具体描述这些技术。
Web caching是加速网络内容的技术之一,主要面向web内容,如HTML文档等。Web Caching作用于浏览器和服务器之间,当它收到客户端发往Web服务器的请求之后,先要检查一下请求的内容是否在缓存中,如果在,就将存储在本地的Web信息提供给用户,而不必从源服务器去获取;如果用户请求的内容没有存储在缓存中,代理服务器就将用户的请求转发给到相应的Web服务器。Web服务器响应用户请求传送给用户的页面会先到达代理服务器。代理服务器会将页面存放在本地的缓存中,然后再把它转发给相应的Web客户端。由于缓存中的网络内容可能用于服务随后的请求,加快了用户获取网络内容的速度,同时减少了对网络带宽的占用。由上可见,Web caching的基本思想是重用已经获取的网络内容,这种内容加速技术适用于重用率比较高应用(如网页),但是对于仅一次性访问的内容(如视频)来说,Web caching是无能为力的。
对于P2P内容分发技术来说,由于***中每个节点既是服务的请求者又是服务的提供者,节点在使用服务的同时也提供了服务,提高了整个***的服务能力。P2P***的用户越多,其聚集的带宽也就越大,因此具有很好的可扩展性,特别适合直播类的流媒体服务。P2P***的服务能力取决于每个节点贡献的服务能力,然后对于接入网而言,其上行带宽普遍小于下行带宽,因此P2P***不适合接入网的应用场景。另一方面,P2P***在节点越多的情况下表现得越好,因此不适合非流行内容的分发。
内容分发网络(Content Delivery Network,CDN)是由专门公司提供的内容加速服务,其基本思想是将客户(如某个网站)要分发的内容部署在网络边缘的复本服务器上,当用户访问网站的内容时,***会自动把客户重定向到离用户最近的复本服务器,从而降低用户访问网络内容的时延。由于CDN在全球或者很大的范围部署了较多的服务器,因此可以测量较大范围网络的状况,把用户的请求重定向到服务质量最好的服务器,从而具有较好的效果。本质上来说,CDN将内容前推到更接近用户,提高了内容服务的能力,在一定程度上改善了内容分发的性能。CDN的效果取决于其部署的服务器的网络位置,通常需要较多的服务器才能满足用户需求。就目前的网络接入状况而言,接入网络可能成为瓶颈,即使服务器的服务能力再大也无法有效实现高清流媒体播放。另外,CDN的部署需要大量资金投入,因此使用成本也是一个需要考虑的因素。
鉴于CDN和P2P各自的优缺点,将P2P融入CDN的技术也被广泛研究。CDN将网络内容前推到更接近用户,P2P技术能够有效聚集节点的服务能力(比如网络带宽、存储和计算能力),两者结合能够有效解决CDN服务器服务能力的问题,但是面临接入网的带宽限制,也是无法解决大容量数据传输问题。而且,这里的P2P应用同样受限于节点的上行带宽远低于下行带宽的限制,其效果也是有限的。
发明内容
本发明的目的是:用户消费大容量网络内容(如高清视频等)的需求日益增加,然而目前的网络接入状况通常无法满足用户需求,表现为高清视频播放的缓存时间过长,播放时断时续等问题,用户体验极差;另外,在信息过载的互联网时代,用户常常以大海捞针的方式去互联网搜索自己感兴趣的影片,造成大量的时间浪费,用户体验极差。本发明用于解决上述问题,提出了基于用户行为的内容加速方法,根据用户的网络行为,建模用户的网络内容偏好,预测用户会在将来某个时间段消费某个网络内容,预取部分内容部署到距离用户最近的家庭网关(或者机顶盒、移动终端),能够极大改善用户体验,提高网络资源的利用率。本发明基于用户行为的网络内容加速方法,包括两个组成部分:内容管理代理(Content Management Agent,CMA)和用户行为预测中心(Behavior PredictionCenter,BPC)。内容管理代理运行于家庭网关(或者机顶盒、移动终端),用于提取用户的网络内容消费行为,发送给用户行为预测中心,接收预测中心的预测报告,然后根据预测报告代理用户预取网络内容,重定向用户的网络内容访问请求到本地缓存的数据。用户行为预测中心,通过爬虫等手段从互联网获取“账户—网络内容”评分信息,构建“用户—物品”评分矩阵,这部分数据相当于训练集;同时,预测中心爬取网页信息、与“物品”相关的文本信息,建模网页内容、“物品”等的主题模型,以备预测用户的消费行为之用。预测中心接收内容管理代理发送的用户行为信息,基于前面的训练集和网络内容的主题模型计算用户在将来某个时间段可能消费的网络内容并返回该报表信息。
内容管理代理的运行步骤如下:
S1:启动家庭网关,用户通过家庭网关接入互联网进行网页浏览、观看流媒体视频等。
S2:家庭网关内部署内容管理代理,该代理分析经过家庭网关的流量,提取用户所访问的网络内容的统一资源***(URL),形成<t,hash(URL)>序列,其中hash(URL)表示URL对应的哈希值,而t表示访问该URL的时间戳。并将该序列周期性地发送给用户行为预测中心。
S3:当用户初次使用此***时,内容管理代理会弹出网页请求用户对一些网络内容(比如:网页、电影等)打分,并将此信息发送给用户行为预测中心,以便预测中心建模用户的初始偏好。
S4:内容管理代理周期性从用户行为预测中心获取预测报表,得知用户在将来某个时间段会以较高概率消费某些网络内容,内容管理代理从内容提供商预取相应内容的起始部分缓存到本地存储,缓存内容的播放时间应大于基于现有网络状况准备好后续播放数据的时间。同时,内容管理代理需要管理缓存空间,淘汰无用数据。
S5:用户访问网络内容时,内容管理代理弹出推荐内容给用户,引导用户的内容消费行为;无论推荐命中与否,内容管理代理都重定向用户的内容访问请求到本地缓存,并代理用户下载后续数据。用户观看完某个内容后,***弹出网页,请求用户给对应物品一个评分。此过程对用户来说是透明的。
用户行为预测中心的运行步骤如下:
S1:中心通过爬取互联网公开数据,获得“物品”相关信息,提取其中的“用户账户—网络内容”评分信息,融合这些信息构建“用户—物品”评分矩阵,该评分矩阵的数据作为训练集并且一直处于更新中。同时,中心从“物品”的相关信息(如简介、评论等)中提取与物品相关的文本信息,以此作为描述对应物品的文本信息,然后利用主题分析算法(如LDA算法)提取其中的主题,这个主题集合构成对应“物品”的主题模型。预测中心也爬取网页信息,构建网页的主题模型为<hash(URL),T>,其中hash(URL)是网页对应URL的哈希值,而T是该网页内容的主题集合。
S2:接收来自内容管理代理的用户内容访问信息,累计的用户内容评分信息,构建与S1中的评分矩阵的列对齐的评分向量B,并将B加入到评分矩阵,通过矩阵补全算法可以预测出用户未评分“物品”的评分,选择前N个作为候选集。另一方面,累计用户在过去d天的网页访问元组<t,hash(URL)>序列,基于S1所得的网页主题模型<hash(URL),T>,建模用户在过去d天的主题集合。这里d的取值可以是1,2,3等,如果d取1时获得的结果较少,则d取2,依此类推。然后采用相似度度量(如cosine相似度)计算用户的主题模型和物品的主题模型,其中排列前H的作为最终的预测结果。这里H的取值主要基于缓存空间的大小,如果缓存空间较大,则可以取较大的H。然后返回分析报告给相应的内容管理代理。
本发明利用家庭网关用户的稳定性及家庭网关常开的特征,基于用户的内容消费行为趋势,预取用户将要消费的网络内容到家庭网关本地缓存,将内容分发推进到距离用户最近的家庭网关。其明显有益效果包括:
(1)极大地缩短网络内容缓冲时延。基于准确的用户行为预测,能够提前将用户要消费的网络内容缓存于家庭网关,用户访问这部分内容时,基本无时延,后续内容可以在播放已缓存内容时补充上来。
(2)充分利用接入网的空闲带宽。家庭网关的接入带宽存在较多的空闲时间(比如用户上班时间、睡觉时间等),而内容预取通常安排在这样的空闲时段,因此充分利用了这部分空闲带宽。
(3)避免用户大范围搜寻消费内容。在信息过载的时代,用户往往不知道消费哪个网络内容,基于本发明的用户行为预测,能够以高概率命中用户的消费愿望,提高用户的体验。
(4)缓解内容服务器的压力,降低内容服务商的基础设施投资。用户的内容消费行为具有一定的规律性,因此内容服务器的工作压力也是具有一定的规律性。在用户请求高峰期时,内容服务器的工作压力大,而其它时候却相对空闲。基于本发明的内容预取技术,用户的内容请求分散到不同时段,这样就能相对均匀地把内容服务器的工作压力分散到不同时段,因此内容服务商不需要投过多资源到基础设施来满足最高峰的内容请求。
附图说明
图1是本发明基于用户行为的网络内容加速方法的工作流程示意图;
图2内容管理代理工作流程图;
图3用户行为预测中心工作流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于用户行为的网络内容加速方法的工作流程示意图。如图1所示,基于本发明所构建的***主要包括两个组成部分:内容管理代理和用户行为预测中心。内容管理代理基于用户行为预取网络内容缓存于家庭网关以备用户消费网络内容的需要;用户行为预测中心收集网络数据构建用户行为预测训练集并根据用户请求进行用户行为预测。下面对具体的实施步骤进行详细说明。
S101:训练数据及相关数据收集
用户行为预测需基于特定的训练数据集,即大量的“用户—物品”评分信息;同时,为了提高预测的准确性,还需要其它关于用户行为的数据。本方法提出了推荐算法与主题匹配相结合的用户行为预测方法,因此需要推荐算法所需的训练数据集和主题相关数据。推荐算法所需的训练数据即“用户—物品”评分数据通常散布于不同的网站(如Youtube、tudou等),因此需要使用爬虫的网络工具爬取并组织成可用的“用户—物品”评分矩阵。同时,由于互联网上的“物品”持续变化(比如,新增和淘汰),这个训练集也需要持续更新。用户行为预测中,还需要“物品”的主题模型和网页内容的主题模型。为了建立“物品”的主题模型,需要与“物品”关联的文本信息。数据搜集过程中,本方法同时收集与“物品”相关联的文本信息,如:简介、评论等等,合并为一个文档,采用主题提取算法(如:LDA)提取对应“物品”的主题集合。为了建模用户的主题模型,本方法还需要爬取网页,构建<hash(URL),T>二元组,其中hash(URL)为网页对应URL的哈希值(通过此值与用户访问的网页相关联),而T为对应网页内容的主题集合。
S102:用户行为信息收集
用户的网络内容消费行为预测需要训练集,同时也需要用户的历史偏好,因此需要用户行为信息收集功能。用户行为在各独立的网站可以分别收集,但是这些信息相对独立,局限于具体的网站。本发明采用网络流量分析来提取用户行为,即在家庭网关部署内容管理代理,该程序分析网络流量,提取用户的内容消费行为信息,包括两方面信息。
首先,用户对网络内容的评分。初次使用时,也就是如果内容管理代理没有关于用户行为的任何数据时,内容管理代理会以弹出网页形式请求用户对一些“物品”(如视频内容)进行评分。采用这种方式可以获得用户的一些初始偏好,以便预测算法可以启动。在用户消费了某个网络内容后,内容管理代理也会请求用户对该内容进行评分,以此来获得较准确的用户行为。这些信息在用户行为预测中心构成用户对“物品”的评分向量。
第二,用户所感兴趣的主题。通过分析网络流量,内容代理可以提取用户所浏览网页的URL,构建二元组<t,hash(URL)>,其中t是消费对应URL的时间戳,而hash(URL)是该URL对应的哈希值,该元组序列周期性发送给预测中心,构成用户的主题偏好集合。
S103:用户消费趋势预测请求
内容管理代理在预取内容时需要知道取什么内容,但是由于内容管理代理所在的平台通常功能较弱,不适合做大量运算,因此预测过程由预测中心完成,内容管理代理向用户行为预测中心发起预测请求。
S104:用户消费趋势预测报告
用户行为预测中心返回形成的用户消费趋势预测报告,即预测评分中前H个物品。这里的H需根据具体的缓存空间大小和用户的接入网络带宽来确定。
S105:网络内容预取缓存
内容管理代理根据所接收到的用户消费趋势预测报告,预取这些用户最感兴趣的内容到家庭网关本地缓存,以备用户消费之用。
图2是内容管理代理工作流程图。如图2所示,内容管理代理包含三个相对独立的功能模块,每个功能模块的工作流程细节说明如下。
S201:判断用户是否首次使用***
用户启动家庭网关,内容管理代理自动启动运行,内容管理代理检测是否保存有用户的历史行为信息?如果没有,则认为是首次使用此***;否则认为不是首次使用***。
S202:获取初始“用户—物品”评分
如果是首次使用***,需要获取用户的初始行为信息,以便***能够良好工作。***向用户终端弹出网页,请求用户对给出的内容打分,比如:***通过网页列出一些经典的电影,请求用户给这些内容给一个评分,如果用户没有看过,则给0分。通过这种方式,可以获得用户的初始历史行为。
S203:分离网络内容访问流量
本方法主要关注网络内容的加速,因此需要分离出对访问网络内容的流量,以便建立用户的行为模型。这里的网络内容,主要包括网页和流媒体,这些内容主要通过http协议承载,因此这里分离出http协议流量。如果其它种类协议也广泛用于流媒体分发,本方法也可以进一步分离出这类协议的流量。
S204:判断是否为网页内容
网页内容和流媒体内容在建模用户行为方面所起作用是不一致的,因此本方法需要分类这两种流量,以便分别处理。
S205:提取网页内容的URL
如果对应的网络内容是网页,则提取该网页对应的URL,形成二元组<t,hash(URL)>,其中t是访问该URL的时间,hash(URL)是该URL对应的哈希值,这里的哈希函数可以选择sha-2。
S206:构造<t,hash(URL)>序列,周期性发送给中心
累积二元组<t,hash(URL)>,形成一个序列,周期性发送给行为预测中心,以便建立对应此家庭网关的用户行为模型。其中,根据用户访问网页内容的频繁程度,周期可以从1天到一周。用户访问网络内容越频繁,二元组<t,hash(URL)>序列的发送周期就越短,以便及时反映用户行为。
S207:提取内容访问请求URL
如果用户访问的内容不是网页,则认为是流媒体内容,这里需要提取流媒体内容访问请求的URL。
S208:重定向访问请求到本地
内容管理代理重定向内容访问请求到本地,如果本地已经缓存相应的内容,则提供相应内容,否则认为缓存对应的内容量为0。无论本地是否缓存相应内容,在提供内容服务的同时,都需要运行S209。在缓存命中的情况下,用户能够获得更好的体验。
S209:代理用户下载剩余内容
内容管理代理把剩余的内容下载到本地,以供用户消费。
S210:获取用户内容消费后的评分
用户消费完某个内容后,内容管理代理弹出网页,请求用户对该内容评分,用户也可以评价该内容。用户提交后,这种用户产生的内容被发送给用户行为预测中心,作为用户行为的一部分,也可以汇聚到用户行为预测的训练集中。
S211:周期性探测网络是否空闲
为了不影响用户正常的网络使用,内容预取等操作被作为最低优先级,因此这类内容预取操作通常在网络空闲时进行。内容管理代理探测网络是否有其它应用流量,一旦网络存在较大空闲带宽,则进行预取操作。
S212:用户行为预测请求
内容管理代理进行内容预取时,需要确定要预取的内容,而该内容通常是取决于用户的内容消费趋势,因此内容管理代理需要向用户行为预测中心发起用户行为预测请求。
S213:接收用户行为预测报告
用户行为预测中心完成用户的内容消费行为预测后,向内容管理代理返回预测报告,因此内容管理代理需要接收用户行为预测报告。
S214:预取网络内容并缓存
根据用户行为预测报告,内容管理代理预取相应的内容到本地缓存。预取内容时,首先考虑用户最可能消费的内容,具体预取多少内容,取决于缓存空间的容量和用户的网络接入带宽。
图3是用户行为预测中心的工作流程图。如图3所示,用户行为预测中心包含两个相对独立的模块,其一是持续更新用户行为预测训练集,另一个是用户内容消费行为预测。具体的工作步骤详细描述如下。
S301:爬取并解析与物品相关的信息
利用网络爬虫爬取并解析互联网上的公开数据,如视频网站(youtube、tudou等)、购物网站、点评网站(如大众点评网、豆瓣等)等,获得“用户—物品”评分信息。这里以视频网站为例,用户U1如果对物品I1给分为R1,则这个评分信息表示为三元组<U1,I1,R1>,评分的取值范围为0~5,这也是目前主流的评分方式。
同时,本方法从爬取的信息中提取与物品相关的文本信息,比如对视频的评价、介绍、与视频相关联的标签等,这些信息构成对物品的文本描述。基于对这些文本信息的分析(如采用LDA算法),可以建立与对应物品相关联的主题模型。
S302:构建“用户—物品”评分矩阵
综合来自不同网站的“用户—物品”评分信息,***构建统一的“用户—物品”评分矩阵,该矩阵作为预测用户行为的训练集。首先,***统计物品集合I={I1,I2,...,In}和用户集合U={U1,U2,...,Um}。然后,以I为列,U为行构造一个评分矩阵M。如果某个用户没有对某个物品评分,则矩阵中对应的元素的值为0。示例如下:
S303:构建对应物品的主题模型
对应非文本内容比如视频来说,要构建其主题模型是不容易的。本方法利用物品附带的文本信息来构建物品的主题模型,因此从爬取的物品相关信息中提取描述物品的文本信息,如:评论、简介、附带的标签等。然后,通过主题分析算法,如LDA等,提取物品的主题,以备预测用户消费行为时使用。
S304:爬取并解析文本内容网页
文本内容网页能够反映用户的兴趣,特别是用户当前的兴趣,因此***需要搜集用户访问的文本内容网页。本方法选择一些流行的网站进行爬取,比如新浪、凤凰网等。
S305:构建对应URL的主题模型
分析S304所爬取的网页,采用主题分析算法(比如LDA)提取网页主题,构建一个主题库,保存记录信息<hash(URL),{topic1,topic2,...,topicx}>。其中,hash(URL)是网页对应URL的哈希值,哈希函数可采用sha-2;{topic1,topic2,...,topicx}是该网页内容的主题集合,可以通过LDA等主题分析算法获得。最终,通过hash(URL)把用户访问的网页和主题集合关联起来,即建立用户感兴趣的主题集合。
S306:接收用户行为预测请求
内容管理代理在预取内容前,需要确定取什么内容,因此内容管理代理向用户行为预测中心发起用户行为预测请求。用户行为预测中心接收来自内容管理代理的用户行为预测请求。
S307:构建用户历史行为模型
用户的历史行为模型包括两个部分:用户的历史评分和用户浏览过的主题。
用户行为预测中心累计用户的历史评分,设发起请求的代理为Ux,则构建出的用户行为向量为B=<Rx1,Rx2,...,Rxn>,其中Rx1为代理Ux对物品I1的评分,其余类推。如果用户没有对某个物品评分,则其对应的值以0表示,因此该行为向量是稀疏的。
用户浏览过的网页用其hash(URL)表示,而其对应的主题模型已经存放于数据库中,因此通过查询数据库可以获得该用户过去d(1,2,3等)天的主题偏好,这些主题偏好的集合构成了用户最近的偏好模型。对于用户Ux来说,该偏好模型用Px表示。如果在S308中进行相似度匹配的结果太少,则增加d的值。
S308:预测用户内容消费行为
把上述行为向量B作为一行加入到评分矩阵M中构成矩阵M',然后利用矩阵补全算法,比如非负矩阵因子分解算法,补全矩阵M'中缺失的值(即0元素),从而向量B中的原来为0元素都获得了一个新的预测值,这些值构成用户对某个内容的兴趣度量,取预测值为前N的物品作为候选集。对物品y来说,其主题模型用Ty表示,则可以计算Px与Ty的相似度(比如采用cosine相似度度量),计算结果重新排序,取前H作为预测结果。具体的H值根据家庭网关的缓存容量和网络接入带宽来确定。
S309:返回预测报表
把用户内容消费行为预测报表返回给对应的内容管理代理。
Claims (9)
1.一种基于用户行为的网络内容加速方法,其特征在于,该方法由两部分构成,其一为运行于家庭网关的内容管理代理,另一个是以集中方式运行的用户行为预测中心。
2.根据权利要求1所述的基于用户行为的网络内容加速方法,其特征在于,所述用户行为预测中心包括以下步骤:
S101:用户行为预测中心从公开的互联网信息搜集用于用户行为预测的数据,包括“用户—物品”评分信息、网页的主题模型、“物品”的主题模型。
S104:一旦用户发起消费趋势预测请求,预测中心根据S101所搜集的数据和S102的用户历史行为数据,预测用户在未来的一段时间可能消费的网络内容,并返回该报表给相应的内容管理代理。
3.根据权利要求2所述的用户行为预测中心,其特征在于,所述步骤S101中的预测中心数据搜集方法:
通过网络爬虫爬取公开的互联网数据,包括:①“用户—物品”评分信息,用于构建“用户—物品”评分矩阵。②“物品”的相关文本信息,包括对“物品”的简介、评价等,合并所有关于某个特定“物品”的文本信息构成一个文档,并通过主题提取算法(如LDA等)构建该“物品”的主题模型,形成<I,T>二元组。其中I是“物品”的标识(可以是编号或者名称),T是对应“物品”的主题集合。③爬取网页,构建<hash(URL),T>二元组。其中,hash(URL)是网页对应URL的哈希值(哈希函数可以是sha-2等),T为对应网页的主题的集合。
由于互联网上的“物品”持续变化(比如,新增和淘汰),上述数据处于持续更新中。
4.根据权利要求2所述的用户行为预测中心,其特征在于,所述步骤S104中的用户消费趋势预测方法:
用户消费趋势预测采用组合方法进行。首先,通过推荐算法来预测用户对某个“物品”的评分,获得用户评分最高的“物品”列表。这里采用矩阵补全的推荐算法,用户对“物品”的历史评分通过内容管理代理获取,因此可以形成一个与预测中心相同纬度的向量,其中没有评分的“物品”,其评分设置为0。把用户的历史评分向量加入的评分矩阵中,通过矩阵补全算法(如非负矩阵因子分解)预测出用户对未评分“物品”的评分。从而,可以获得评分最高的的前N个物品,这些物品作为候选集合。然后,提取用户最近d(d取值1,2,3,...)天所访问的网页的主题模型,和候选集合中的“物品”的主题模型进行相似度度量(如cosine相似度度量),取得排名最高的前H个作为预测结果。d的值从1开始,如果预测的结果过少,则增加d的值。H的取值和缓存空间的容量有关,如果缓存空间较大,则可以缓存较多“物品”。
5.根据权利要求1所述的基于用户行为的网络内容加速方法,其特征在于,所述内容管理代理包括以下步骤:
S102:内容管理代理程序通过流量分析获得用户的内容访问行为信息,这些信息包括用户所访问网页的URL和对应时间,用户所访问的视频内容名称、评分信息和时间。内容管理代理周期性发送这些信息到预测中心以备用户内容消费行为预测之用。
S103:在预取内容之前,内容管理代理需要知道预取的内容是什么?内容管理代理请求预测中心预测用户的内容消费趋势。
S105:基于预测中心返回的内容消费趋势,内容管理代理预取相应网络内容并缓存于本地。
S106:内容管理代理监控用户的内容访问请求,重定向用户的内容访问请求到本地缓存的内容,并代理用户下载剩余内容。
6.根据权利要求5所述的内容管理代理,其特征在于,所述步骤S102中的用户行为数据搜集方法:
内容管理代理监控用户的网络内容访问流量,提取用户网络内容访问的特征。初次使用,内容管理代理会弹出网页请求用户对一些“物品”进行打分,这些信息作为用户初始的历史行为,以便作为预测***的输入之一。如果用户访问视频内容,则内容代理重定向用户的请求到本地缓存,并代理用户下载剩余内容,在用户观看完一个视频后,内容管理代理会请求用户给一个评分,作为用户历史行为的一部分。如果用户访问网页,则内容管理代理生成二元组<t,hash(URL)>,其中t是访问对应网页的时间,hash(URL)是网页对应URL的哈希值(哈希函数可以是sha-2等)。内容管理代理周期性发送上述信息到预测中心,后者把这些信息作为用户的历史行为。
7.根据权利要求5所述的内容管理代理,其特征在于,所述步骤S103中的用户内容消费趋势预测方法:
内容管理代理的功能相对较弱,不适合做大规模数据处理,因此内容管理代理请求预测中心进行用户消费行为预测。
8.根据权利要求5所述的内容管理代理,其特征在于,所述步骤S105中的网络内容预取方法:
基于预测中心的预测报告,内容管理代理在网络空闲时(比如晚上、上班时间等)预取用户可能消费的网络内容的一部分缓存于本地缓存空间。首先,预取并缓存用户最可能消费的网络内容;然后是消费可能性第二的网络内容,依此类推,直到缓存空间不足为止。预取的网络内容的一部分取决于网络的平均带宽,如果余下的内容可以在现有网络带宽的条件下,在p分钟内下载完毕,则预取内容的播放时间需要大于p分钟。如果某个预取的内容在缓存空间超过给定的时间也没有得到访问,则预测没有命中,淘汰该内容,释放其所占的存储空间。
9.根据权利要求5所述的内容管理代理,其特征在于,所述步骤S106中的用户内容访问控制方法:
内容管理代理监控用户的内容访问请求,如果是视频内容访问,则重定向用户的访问请求到本地,通过本地缓存的内容来服务用户,并代理用户下载余下部分内容。即使本地缓存没有命中,该过程同样执行。在内容消费结束后,请求用户对相应内容给一个评分,以便将来进一步提升用户体验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410814693.8A CN104486350B (zh) | 2014-12-24 | 2014-12-24 | 一种基于用户行为的网络内容加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410814693.8A CN104486350B (zh) | 2014-12-24 | 2014-12-24 | 一种基于用户行为的网络内容加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104486350A true CN104486350A (zh) | 2015-04-01 |
CN104486350B CN104486350B (zh) | 2017-11-10 |
Family
ID=52760854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410814693.8A Expired - Fee Related CN104486350B (zh) | 2014-12-24 | 2014-12-24 | 一种基于用户行为的网络内容加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104486350B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105407005A (zh) * | 2015-12-09 | 2016-03-16 | 中国联合网络通信集团有限公司 | 内容分发方法及装置 |
CN106250064A (zh) * | 2016-08-19 | 2016-12-21 | 深圳大普微电子科技有限公司 | 固态硬盘控制装置和基于学习的固态硬盘数据存取方法 |
CN106713265A (zh) * | 2016-11-21 | 2017-05-24 | 清华大学深圳研究生院 | Cdn节点分配方法及装置、cdn节点分配服务器及cdn网络*** |
CN107040559A (zh) * | 2016-02-03 | 2017-08-11 | 中兴通讯股份有限公司 | 网络访问方法及家庭网络设备 |
CN107094179A (zh) * | 2017-05-24 | 2017-08-25 | 浙江度衍信息技术有限公司 | 一种网站访问请求处理方法 |
CN107306279A (zh) * | 2016-04-18 | 2017-10-31 | 阿里巴巴集团控股有限公司 | 数据处理方法、内容分发网络节点和常驻网关 |
CN107948223A (zh) * | 2016-10-12 | 2018-04-20 | 中国电信股份有限公司 | 用于缓存***的流量处理方法、服务策略设备和缓存*** |
CN108463817A (zh) * | 2015-10-22 | 2018-08-28 | 谷歌有限责任公司 | 个性化实体库 |
CN108510096A (zh) * | 2017-02-24 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 商户流失预测方法、装置、设备及存储介质 |
CN109634744A (zh) * | 2018-11-30 | 2019-04-16 | 哈尔滨工业大学(威海) | 一种基于云平台资源分配的精确匹配方法,设备及存储介质 |
CN110089122A (zh) * | 2017-01-10 | 2019-08-02 | 高通股份有限公司 | 对于用于流式处理媒体数据的预取支持的数据发信 |
CN110276042A (zh) * | 2019-06-30 | 2019-09-24 | 浪潮卓数大数据产业发展有限公司 | 一种基于机器学习的智能Web代理缓存***及方法 |
CN111432231A (zh) * | 2020-04-26 | 2020-07-17 | 中移(杭州)信息技术有限公司 | 边缘网络的内容调度方法、家庭网关、***、及服务器 |
CN111523032A (zh) * | 2020-04-22 | 2020-08-11 | 贝壳技术有限公司 | 确定用户偏好的方法、装置、介质和电子设备 |
CN113422801A (zh) * | 2021-05-13 | 2021-09-21 | 河南师范大学 | 边缘网络节点内容分配方法、***、装置及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070171921A1 (en) * | 2006-01-24 | 2007-07-26 | Citrix Systems, Inc. | Methods and systems for interacting, via a hypermedium page, with a virtual machine executing in a terminal services session |
CN101539911A (zh) * | 2008-03-18 | 2009-09-23 | 盛大计算机(上海)有限公司 | 加快浏览器网页显示的装置及方法 |
CN102364468A (zh) * | 2011-09-29 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种用户网络行为分析方法、装置和*** |
CN103096512A (zh) * | 2011-11-02 | 2013-05-08 | 常州普适信息科技有限公司 | 智能空间的组织和体系结构 |
-
2014
- 2014-12-24 CN CN201410814693.8A patent/CN104486350B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070171921A1 (en) * | 2006-01-24 | 2007-07-26 | Citrix Systems, Inc. | Methods and systems for interacting, via a hypermedium page, with a virtual machine executing in a terminal services session |
CN101539911A (zh) * | 2008-03-18 | 2009-09-23 | 盛大计算机(上海)有限公司 | 加快浏览器网页显示的装置及方法 |
CN102364468A (zh) * | 2011-09-29 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种用户网络行为分析方法、装置和*** |
CN103096512A (zh) * | 2011-11-02 | 2013-05-08 | 常州普适信息科技有限公司 | 智能空间的组织和体系结构 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463817A (zh) * | 2015-10-22 | 2018-08-28 | 谷歌有限责任公司 | 个性化实体库 |
US11089457B2 (en) | 2015-10-22 | 2021-08-10 | Google Llc | Personalized entity repository |
US11716600B2 (en) | 2015-10-22 | 2023-08-01 | Google Llc | Personalized entity repository |
CN108463817B (zh) * | 2015-10-22 | 2022-04-08 | 谷歌有限责任公司 | 个性化实体库 |
CN105407005A (zh) * | 2015-12-09 | 2016-03-16 | 中国联合网络通信集团有限公司 | 内容分发方法及装置 |
CN105407005B (zh) * | 2015-12-09 | 2018-09-14 | 中国联合网络通信集团有限公司 | 内容分发方法及装置 |
CN107040559A (zh) * | 2016-02-03 | 2017-08-11 | 中兴通讯股份有限公司 | 网络访问方法及家庭网络设备 |
CN107306279A (zh) * | 2016-04-18 | 2017-10-31 | 阿里巴巴集团控股有限公司 | 数据处理方法、内容分发网络节点和常驻网关 |
CN107306279B (zh) * | 2016-04-18 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 数据处理方法、内容分发网络节点和常驻网关 |
CN106250064A (zh) * | 2016-08-19 | 2016-12-21 | 深圳大普微电子科技有限公司 | 固态硬盘控制装置和基于学习的固态硬盘数据存取方法 |
CN107948223A (zh) * | 2016-10-12 | 2018-04-20 | 中国电信股份有限公司 | 用于缓存***的流量处理方法、服务策略设备和缓存*** |
CN106713265A (zh) * | 2016-11-21 | 2017-05-24 | 清华大学深圳研究生院 | Cdn节点分配方法及装置、cdn节点分配服务器及cdn网络*** |
CN106713265B (zh) * | 2016-11-21 | 2019-05-28 | 清华大学深圳研究生院 | Cdn节点分配方法及装置、cdn节点分配服务器及cdn网络*** |
CN110089122A (zh) * | 2017-01-10 | 2019-08-02 | 高通股份有限公司 | 对于用于流式处理媒体数据的预取支持的数据发信 |
CN110089122B (zh) * | 2017-01-10 | 2021-12-10 | 高通股份有限公司 | 用于检索媒体数据的方法、媒体装置及计算机可读存储媒体 |
US11290755B2 (en) | 2017-01-10 | 2022-03-29 | Qualcomm Incorporated | Signaling data for prefetching support for streaming media data |
CN108510096A (zh) * | 2017-02-24 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 商户流失预测方法、装置、设备及存储介质 |
CN107094179A (zh) * | 2017-05-24 | 2017-08-25 | 浙江度衍信息技术有限公司 | 一种网站访问请求处理方法 |
CN109634744A (zh) * | 2018-11-30 | 2019-04-16 | 哈尔滨工业大学(威海) | 一种基于云平台资源分配的精确匹配方法,设备及存储介质 |
CN109634744B (zh) * | 2018-11-30 | 2023-01-06 | 哈尔滨工业大学(威海) | 一种基于云平台资源分配的精确匹配方法,设备及存储介质 |
CN110276042A (zh) * | 2019-06-30 | 2019-09-24 | 浪潮卓数大数据产业发展有限公司 | 一种基于机器学习的智能Web代理缓存***及方法 |
CN111523032A (zh) * | 2020-04-22 | 2020-08-11 | 贝壳技术有限公司 | 确定用户偏好的方法、装置、介质和电子设备 |
CN111432231A (zh) * | 2020-04-26 | 2020-07-17 | 中移(杭州)信息技术有限公司 | 边缘网络的内容调度方法、家庭网关、***、及服务器 |
CN111432231B (zh) * | 2020-04-26 | 2023-04-07 | 中移(杭州)信息技术有限公司 | 边缘网络的内容调度方法、家庭网关、***、及服务器 |
CN113422801A (zh) * | 2021-05-13 | 2021-09-21 | 河南师范大学 | 边缘网络节点内容分配方法、***、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104486350B (zh) | 2017-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104486350A (zh) | 一种基于用户行为的网络内容加速方法 | |
US7987261B2 (en) | Traffic predictor for network-accessible information modules | |
CN104618506B (zh) | 一种众包的内容分发网络***、方法与装置 | |
US8645367B1 (en) | Predicting data for document attributes based on aggregated data for repeated URL patterns | |
CN101025737B (zh) | 基于关注度的同源信息搜索引擎聚合显示方法 | |
RU2720954C1 (ru) | Способ и система построения поискового индекса с использованием алгоритма машинного обучения | |
CN102414711B (zh) | 基于针对受托管媒体的用户度量进行的在线广告布置 | |
US11836167B2 (en) | Search suggestions based on native application history | |
US10445753B1 (en) | Determining popular and trending content characteristics | |
JP2001318908A (ja) | ウェブ・ページの結合および使用を探査するためにランダム・ウォークを使用するシステムおよび方法 | |
CN106339394B (zh) | 一种信息处理方法及装置 | |
CN103974084B (zh) | 流媒体数据块缓存方法及文件推荐方法、流媒体服务器 | |
CN106156230B (zh) | 一种生成内链的方法及装置 | |
CN111597449B (zh) | 用于搜索的候选词构建方法、装置、电子设备及可读介质 | |
CN103905439A (zh) | 一种基于家庭网关的加速网页浏览方法 | |
US11017303B2 (en) | Object count prediction using distributed processing | |
CN102946320A (zh) | 一种分布式用户行为日志预测网络监管方法及*** | |
Kucukyilmaz et al. | A machine learning approach for result caching in web search engines | |
CN104281619A (zh) | 搜索结果排序***及方法 | |
AU2022200659A1 (en) | Mobile content delivery system with recommendation-based pre-fetching | |
Singh et al. | Enhancing the performance of web proxy server through cluster based prefetching techniques | |
US20140156723A1 (en) | Redirecting Information | |
CN106550408A (zh) | 一种基于自组网的数据对象整合方法 | |
JP2007264766A (ja) | コンテンツ収集方法及びコンテンツ提供方法並びにコンテンツ表示方法 | |
JP2021503110A (ja) | ネットワーク利用の最適化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171110 Termination date: 20181224 |
|
CF01 | Termination of patent right due to non-payment of annual fee |