CN103001805A

CN103001805A - 基于用户行为分析的web用户流量产生方法

Info

Publication number: CN103001805A
Application number: CN2012105478576A
Authority: CN
Inventors: 唐红; 于敏昌; 徐川; 赵国锋
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2012-12-17
Filing date: 2012-12-17
Publication date: 2013-03-27

Abstract

本发明公开了一种基于用户行为分析的web用户流量产生方法，本方法建立了WUBS模型，该模型除了考虑各请求的时间间隔、浏览时间间隔模型，还通过对用户访问进行聚类分析引入了页面跳转关系的Markov转移矩阵，用于刻画用户的浏览行为、页面受欢迎程度，因此能够更加准确反映最真实的用户请求流量状况，更贴近用户实时请求。

Description

基于用户行为分析的web用户流量产生方法

技术领域

本发明涉及用户行为分析技术及网络流量产生技术，具体是基于用户行为分析的web用户流量产生方法。

背景技术

互联网属于实践性很强的领域，相关的研究成果只有在经过实践验证后才会被广泛接受。因此，研究人员需要网络实验床去验证新的网络体系架构、协议、服务等。作为网络实验床的关键设备，流量发生器主要用于产生逼真的网络流量，其性能指标对实验结果有直接影响。

目前用于产生网络流量的方法主要有两种：一、网络流量回放——利用网络嗅探器对网络进行嗅探并将获取的数据记录在日志文件中，然后根据日志文件中记录的内容产生网络流量；二、模型流量产生——在了解网络特性后对网络流量建立数学模型，并按照数学模型发送数据包，从而产生符合网络特性的网络流量。方法一所产生流量受日志文件约束，流量过于机械；方法二从网络流量整体服从的概率模型入手，产生的网络流量与真实流量在整体上较为接近，但是不能反映单个用户的行为，在很多环境中显得不足。如在面向服务的网络中，服务迁移时往往需要统计单个用户对某一服务的请求次数、喜好程度，以决定是否进行服务迁移，传统方法对此不能有效支持。

目前使用的方法还包括如下集中：SPECweb96（由Standard Performace Evaluation Corp提出，专供检测web服务器特性）、SURGE（美国Boston大学提出，模仿用户访问网络以产生网络流量）、Harpoon（美国Wisconsim-Madison大学提出，模仿用户访问网络以产生网络流量）。以上方法SPEC96仅仅是通过客户机向服务器发送HTTP Get请求产生网络流量，没有考虑到用户Web请求特征（如请求间隔、浏览时间、页面跳转关系等），多用于压力测试等；SURGE、Harpoon虽然加入了部分Web请求特征，但也有其不足之处：1、仅局限于请求发送的时间间隔模型、浏览时间模型等，不能体现出用户浏览页面时各页面跳转关系、页面的访问频率（即页面受喜好程度），所产生流量与真实网络流量相差很大2、所用流量产生模型的参数需事前指定，由于对不同网站各模型参数不同，所以其不具通用性。

发明内容

本发明的目的是提供一种流量产生器使所产生流量能够体现真实用户的上网行为，如流量总体上应具有自相似性；对页面的请求应能正确反应出页面的受喜爱程度；不同页面间的转移与真实用户的浏览网页时的转移概率尽可能相似。还针对不同网站自动产生不同的浏览模型参数，提高***的通用性。

为解决上述技术问题本发明采用的技术方案是：基于用户行为分析的web用户流量产生方法包括如下步骤：

1）对网站日志文件或tcpdump文件进行处理，建立Markov转移矩阵、Parto模型和ON/OFF模型。

2）根据步骤1）中的网站日志文件或tcpdump文件统计分析得出页面请求时间间隔、页面跳转关系和页面受欢迎程度。

3）将步骤2）的统计结果送入步骤1）中建立的各模型作为初始化参数；

4）根据齐普夫—曼德尔布罗分布确定所浏览网站的首页面。

5）根据步骤3）中送入初始化参数后的Markov转移矩阵确定下一个访问页面P。

6）根据送入初始化参数后的ON/OFF模型随机生成一个访问时间间隔。

7）发送HTTP Get请求步骤5）中的页面P。

8）判断任务是否结束，是则退出，否则转到步骤5）。

具体地，用户利用本发明方法时，可在同一个客户端上通过启用若干个线程来实现对相同或不同网站的访问。

进一步，步骤5）中确定下一个访问页面P的步骤包括：①将网站日志文件中的浏览记录按IP地址进行聚合；②从聚合的网站日志文件中随机抽取N个用户的浏览记录构成学习数据集合U={u₁,u₂…u_N}；③利用该学习数据集合，采用极大似然估计估计出Markov转移矩阵中的所有参数，计算方法为：

式中：

表示在用户浏览序列中从网页i跳转到页面j的次数，

Figure 2012105478576100002DEST_PATH_IMAGE003

表示网页i转移到页面j的概率，

为Markov矩阵的初始状态分布，即在初始时处于网页i的概率;④根据用户现在所处页面及Markov矩阵预测用户下一个访问页面P。

发明人通过正确分析用户对网络的请求行为之后建立了Web用户行为模型(Web User Behavior Simulation）WUBS模型，该模型除了考虑各请求的时间间隔、浏览时间间隔模型，还通过对用户访问进行聚类分析引入了页面跳转关系的Markov转移矩阵，用于刻画用户的浏览行为、页面受欢迎程度，因此能够更加准确反映最真实的用户请求流量状况，更贴近用户实时请求。发明人对该***设计了一个参数确定方法，通过该方法可以将服务器端的Web请求日志进行分析，确定上述各浏览模型（请求时间间隔^[4] 的ON/OFF模型、浏览时间间隔的Parto模型、页面跳转关系的Markov转移矩阵）的参数。申请人在单个客户机上采用多线程方式，以同时模仿多个用户，协调工作以实现大规模网络流量产生需求。

本发明的基于用户行为分析的web流量产生方法具有以下优点：基于用户行为分析的流量产生方法较传统方法所使产生的网络流量逼真度更高，对网络设备性能测试、网络协议评估提供更好的支持；通过多线程方式可以产生大规模网络流量，也可以实现在一个客户端上对不同网站同时访问，互不影响。

附图说明

图1为流量产生方法流程图；

图2为Markov模型转移矩阵；

图3为 ON/OFF模型描述的用户浏览行为；

图4为Pareto分布中k=1, α=1.3的网络流量图；

图5为Pareto分布中k=1, α=1.3的R/S图；

图6为Pareto分布中k=1, α=1.7的网络流量图；

图7为Pareto分布中k=1, α=1.7的R/S图。

具体实施方式

以下结合附图对本发明的实施作详细描述。

图１是本发明实施例的一种网络流量产生方法的流程图，包括如下步骤：

步骤101,提取要访问网站的日志文件或在本地网络交换设备上用tcpdump抓取要访问网站的数据包，建立Markov转移矩阵、Parto模型和ON/OFF模型。

步骤102,在步骤101的基础上，统计分析得出页面请求时间间隔、页面跳转关系和页面受欢迎程度，确定Markov转移矩阵、Parto模型和ON/OFF模型的参数。对以上模型参数的确定可以分两种情况：（1）在能得到网站访问日志文件的情况下，可以直接对日志文件进行统计分析，计算得出各模型的参数。（2）在无法得到网站日志的情况下，采用在本地网络交换设备做端口映射，用tcpdump抓取访问目标网站的数据包，然后再进行统计分析，计算出各模型参数。

步骤103，在步骤102的基础上，把各模型参数保存在全局变量中以供后面的步骤查询、修改，并存入配置文件中，这样在对同一网站进行访问时就不必重复计算。

步骤104,根据齐普夫—曼德尔布罗分布确定所浏览网站的首页面。页面受欢迎程度——给定一个网站，假设它共包含N（N>0）个web页面，依次为w1,w2,…wn。使用随机变量W表示所请求的web页面，P(W=i)表示页面wi的访问概率。埃达等人发现页面的受欢迎程度满足齐普夫—曼德尔布罗分布，如下：

Figure 2012105478576100002DEST_PATH_IMAGE005

（公式1）

上式中α(α>0)为偏离因子，决定该分布的偏离情况；q(q≥0)为稳态因子，决定最高排名页面的访问概率。当参数α=1时，齐普夫—曼德尔布罗分布可以简化为Zipf分布，q=0时，可进一步简化为类Zip分布。由于

,可得。

设P_max=max{P(W=1),P(W=2),…P(W=n)},则P_max为最受欢迎页面本***采用来决定第一个被浏览的页面。

步骤105，在步聚102所计算的Markov转移矩阵（Markov模型）的基础上，根据转移概率确定下一个要访问的页面P。用Markov模型对用户浏览路径作出预测。Markov模型可以表示为一个三元组MK={W,A，Π}（如图2）,其中W是一个离散随机变量，值域为{w₁,w₂,…,w_n}其中每个w_i代表一个网页，称为模型的一个状态，A为转移概率矩阵。p_ij=P{W_t=w_j|W_t-1=w_i}表示在t-1时间访问网页w_i的条件下，在t时间访问网页w_j的概率，Π为初始状态分布，每一项为p_i=P(W_t=0=w_i)。

转移矩阵A及初始状态矩阵Π可由用户事先指定或由模型参数预处理模块从web日志中计算得出。其计算方法描述如下：①将web日志中的浏览记录按IP地址进行聚合；②从聚合的web日志中随机抽取N个用户的浏览记录构成学习数据集合U={u₁,u₂…u_n}。利用该学习数据，采用极大似然估计可以估计出Markov模型中的所有参数，计算方法如公式2所示：

（公式2）

根据用户现在所处页面及Markov模型中的转移矩阵就可以预测用户下一个可能浏览的页面。

步骤106,在得到第一个浏览页面后，我们要确定经过多长时间间隔发送对下一页面的请求，这些我们用传统的ON/OFF模型来描述用户浏览网页的行为，如图3所示。

图3以时间为横作标，用户在时间点1对主页面（URL1）发送HTTP Get请求，得到服务器回应信息，此回应信息包含主页面中n个内嵌页面的URL地址，然后每隔一定的OFF时间发送对URL_i(2≤i≤n)的HTTP Get请求，直到时间点2所有数据接收完毕，随后的非活跃OFF时间可理解为用户阅读时间，到时间点3发用户发送对下一页面的HTTP Get请求。

在实际开发中由于活跃OFF时间很短，结合现有web浏览器的开发，发明人采取了对内嵌URL用尽可能快的时间发送HTTP Get请求，这样活跃OFF是一个与客户端机器性能、网络延迟有关的随机数。对于非活跃OFF时间其服从Pareto分布，Pareto分布与公式1所描述的齐普夫??—曼德尔布罗分布拥有相同的偏离因子α。因此页面浏览时间分布可以按如下描述。

给定一个页面，其浏览时间为w_i，则w_i服从Pareto分布，其概率密度函数为：

(公式 3)

其中k=Min{w_i}(1≤i≤n)为最小浏览时间。

由公式3我们可以求得其累积概率函数:

Figure 2012105478576100002DEST_PATH_IMAGE009

(公式 4)

这样我们就可以用反函数法生成服从Pareto分布的随机数，其方法为：

（公式5）

其中U为（0，1]范围内的服从均匀分布的随机数。

步骤107,在等待了一个由步骤106所确定的间隔时间之后，向网站发送新的HTTP Get请求，所请求页面为步骤105所确定。

步骤108，判断此次任务结束条件是否满足，若已达到退出条件，则本算法结束，否则转步骤105继续。

以上方法可以在多个线程上独立执行，互不影响，以达到最大化产生网络流量的目的。

图4-图7分别是按本方法所产生的网络流量图及反应网络流量自相似性的R/S图，可以看出其自相似因子H>0.5，因此本方法所产生网络流量具有极好的自相似性。

Claims

1.基于用户行为分析的web用户流量产生方法，其特征在于，包括如下步骤：

1）对网站日志文件或tcpdump文件进行处理，建立Markov转移矩阵、Parto模型和ON/OFF模型；

2）根据步骤1）中的网站日志文件或tcpdump文件统计分析得出页面请求时间间隔、页面跳转关系和页面受欢迎程度；

4）根据齐普夫—曼德尔布罗分布确定所浏览网站的首页面；

5）根据步骤3）中送入初始化参数后的Markov转移矩阵确定下一个访问页面P；

6）根据送入初始化参数后的ON/OFF模型随机生成一个访问时间间隔；

7）发送HTTP Get请求步骤5）中的页面P；

8）判断任务是否结束，是则退出，否则转到步骤5）。

2.根据权利要求1所述基于用户行为分析的web用户流量产生方法，其特征在于：用户利用所述流量产生方法在同一个客户端上通过启用若干个线程来实现对相同或不同网站的访问。

3.根据权利要求1所述基于用户行为分析的web用户流量产生方法，其特征在于：步骤5）确定下一个访问页面P的步骤包括：①将网站日志文件中的浏览记录按IP地址进行聚合；②从聚合的网站日志文件中随机抽取N个用户的浏览记录构成学习数据集合U={u₁,u₂…u_N}；③利用该学习数据集合，采用极大似然估计估计出Markov转移矩阵中的所有参数，计算方法为：

Figure 2012105478576100001DEST_PATH_IMAGE002

式中：

Figure 2012105478576100001DEST_PATH_IMAGE004

表示在用户浏览序列中从网页i跳转到页面j的次数，

Figure 2012105478576100001DEST_PATH_IMAGE006

表示网页i转移到页面j的概率，

Figure 2012105478576100001DEST_PATH_IMAGE008

为Markov矩阵的初始状态分布；④根据用户现在所处页面及Markov矩阵预测用户下一个访问页面P。