CN101826104A

CN101826104A - 一种基于连续时间马尔科夫链的网站导航性实现方法

Info

Publication number: CN101826104A
Application number: CN 201010139891
Authority: CN
Inventors: 张卫丰; 刘霞; 张迎周; ***; 陆柳敏; 许碧娣; 朱丹梅; 陆柳清
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2010-04-02
Filing date: 2010-04-02
Publication date: 2010-09-08
Anticipated expiration: 2030-04-02
Also published as: CN101826104B

Abstract

基于连续时间马尔科夫链的网站导航性实现方法采用连续时间马尔科夫链为用户访问行为建模，以期对网站的导航性和网页的重要性做更接近实际情况的评价。网站导航性在网站设计、改进和质量评价方面受到越来越多的重视。基于连续时间马尔科夫链的网站导航度量不但考虑了网站的链接结构，还考虑了了网页内容好坏对导航性的影响。通过对用户日志的分析获取用户在网页上访问时序及停留时间，在此基础上建立连续时间马尔科夫的嵌入链模型和用户停留时间的指数分布模型，综合两种模型得到连续时间马尔科大链模型，最终得到基于连续时间马尔科夫链模型的网站导航性度量。本发明具有比已有的度量方法更好的网站导航性评价效果。

Description

一种基于连续时间马尔科夫链的网站导航性实现方法

技术领域

衡量网站设计好坏的一个重要指标是其导航性，本发明设计了一个更加合理的基于连续时间马尔科夫链的网站导航性计算方法，属于Web度量领域。

背景技术

Internet上的网页以超链接的形式组织，访问网站的用户通过网页之间的链接关系从一个网页转到另一个网页。网站的超链接拓扑结构大体上包括这四种：线性结构，严格的层次结构，混合结构，非线性结构。线性结构自不用说，严格的层次结构，网页通过链接关系组成严格的层次关系，位于某个层次下的网页只能直接链接到该层次的最近上层或最近下层的网页。混合结构，是在严格层次结构的基础上，添加了一些交叉链接，交叉链接可以从某个层次到达任意层次。非线性结构，完全没有网页层次的概念，根据需要，任意两个网页之间都可以存在链接关系[2]。在文献[3]中，Mohageg比较了严格的层次、混合、非线性这三种结构的网站，发现从非线性结构的网站获取信息最难。McDonald和Stevenson’s研究发现在混合结构的网站上查找信息需要的时间最短，用户在严格的层次和非线性结构的网站上容易失去方向[4]。

网站的链接结构，网站信息的分配、组织，浏览器的辅助导航措施，以及用户对网站的熟悉程度，决定了用户访问网站获取所需信息的难易程度。把用户访问某个网站获取所需信息的难易程度叫做这个网站的导航性[1]。改善网站的导航性主要是改善网站的链接结构和网站信息的分配、组织，它们是网站的固有性质，是影响网站导航性的关键因素。为了改善网站的导航性，需要设计衡量网站导航性的指标。这样在设计网站时，才能对网站的导航性能要达到怎样的标准有一个定量的认识，或者在此基础上考察网站是否需要改进以及怎样改进等等。

用定量指标衡量网站的结构好坏是非常困难的[5]。现有的一些指标，如从主页出发的最短路径，网页数量，超链接数量等简单描述了网站的一些特点。Compactness度量网站链接边的充足程度，Stratum则给出网站链接结构线性化的程度[5][6]。Yamada等提出了DNav，度量从主页到达目标网页的复杂度和网站给予用户的认知负担，在评价网站导航性时融入用户的感受[7]。周毓明等人认为用户对信息的认知反应在他的行动中，因此网站的导航性可以从用户动态浏览行为的特点来反映[1]。他们把用户的浏览行为描述为一个离散时间的齐次马尔科夫链，其中网页作为状态，并增加了一个标志会话以失败结束的中止状态，求出这些状态的平稳分布。其中，中止状态的平稳分布概率表明访问该网站时会话失败的概率，用1减去此值作为网站的导航性指标，这个指标叫做MNav。RakeshGupta等人通过用户会话点击的网页总数与其内容网页数之比来判断网站链接结构的优劣，他们设计了三个指标Corig，Cfeas，Copt[8]。

DNav，MNav，Corig等指标均考虑了用户访问网站的实际感受或表现。DNav注意到位于同-层的两个网页的链接与位于不同层的网页的链接带给用户的负担不同。MNav在计算网页之间的转移概率时，采用用户行为习惯参数与网站链接结构结合的方式，并且考虑了浏览器的辅助导航措施，以期望更加接近网站使用的实际情况。Corig，Cfeas，Copt虽然是在用户访问日志的基础上计算的，但本质却是只评价网站链接结构的好坏。相比MNav，这些指标主要考察网站的结构复杂度，没有直接度量用户查找信息的难易程度，然而网站结构对用户查找信息的影响很难说清楚，这些指标使用起来很不方便。MNav则直接度量了在一个网站查找信息的难易程度。

研究发现，现有的导航性指标侧重衡量网站的链接结构，很少反应网站信息的组织即网页内容对用户访问网站的影响。评价网站导航性的目的是改善网站链接结构、信息组织等，但现有的指标没有考虑网页的重要性，因此无法给出改进的方向。我们发现，基于离散马尔科夫链计算MNav指标的时候，可以算出网页的重要性，从而可以有针对的对网站链接、网页内容进行调整。在文献[1]中结合了用户行为习惯参数和网站链接结构计算转转移概率，但是，没有考虑网页内容对用户的影响。用户在网页的停留时间可以反映网页内容对用户的影响。

MNav是基于离散马尔科夫链模型计算出来的，网页之间的转移概率结合用户浏览行为***稳分布只依赖于用户行为***稳分布概率体现了网页的重要性，实际上停留时间也可以反映网页重要性，因为停留时间体现了网页内容的好坏。所以若采用连续时间马尔科夫链为用户访问行为建模，那么对网站的导航性和网页的重要性做出的评价会更合理。为了跟MNav区别，把基于连续时间马尔科夫链模型的导航性指标记作CMNav。MNav和CMNav都是基于马尔科夫链模型的导航性指标，因此在计算它们的同时还可以算出网页的重要性，这一点对于改善网站的导航性非常重要，这也是我们改进MNav的原因之一。

本发明依赖于有效的会话分析算法，包括划分会话和判断一个会话是否成功，以及求解矩阵特征值的幂法。

[1]Zhou，Y.M.，Leung，H.，Winoto，P.，“MNav：A Markov model-based web site navigabilitymeasure，”IEEE Transactions on Software Engineering，vol.33，no.12，pp.869-890，2007.

[2]Locatis，C.，Letourneau，G.，Banvard，R.，‘Hypermedia and instruction，’EducationalTechnology Research and Development，vol.37，no.4，pp.65-77，1989.

[3]M.Mohageg，“The Influence of Hypertext Linking Structures on the Efficiency of InformationRetrieval，”Human Factors，vol.34，no.3，pp.351-367，1992.

[4]S.McDonald and R.Stevenson，“Effects of Text Structure and Prior Knowledge of theLearner on Navigation in Hypertext，”Human Factors，vol.40，no.1，pp.18-27，1998.

[5]Botafogo，R.，Rivlin，E.，and Shneiderman，B.，“Structural Analysis of Hypertexts：IdentifyingHierarchies and Useful Metrics，”ACM Trans.Information Systems，vol.10，no.2，pp.142-180，1992.

[6]De Bra，P.，Houben，GJ.，“Hypertext metrics revisited：Navigational metrics for static andadaptive link structures，”Department of Computing Science，Eindhoven University of Technology，Eindhoven，Netherlands，1997.

[7]Yamada，S.，Hong，J.，and Sugita，S.，“Development and Evaluation of Hypermedia forMuseum Education：Validation of Metrics，”ACM Trans.Computer-Human Interaction，vol.2，no.4，pp.284-307，1995.

[8]Gupta，R.，Bagchi，A.，Sarkar，S.，“Improving linkage of web pages，”INFORMS Journal onComputing，vol.19，no.1，pp.127，2007.

发明内容

技术问题：本发明的目的是在马尔科夫链模型的框架下，考虑到网页的停留时间可以反映网页内容的吸引力，采用连续时间马尔科夫链为用户访问行为建模，以期对网站的导航性和网页的重要性做更接近实际情况的评价，由此提供一种基于连续时间马尔科夫链的网站导航性实现方法。

技术方案：本发明提出的一种基于连续时间马尔科夫链的网站导航性实现方法见图1，具体包括以下步骤：

步骤1)：建立用户访问行为的连续时间马尔科夫链模型以及它对应的嵌入式离散马尔科夫链；

步骤2)：使用网页爬虫工具收集一个网站的链接边，构建链接关系图；主要是一个链接关系矩阵，其矩阵元素表示网页间是否存在链接，简单的说，一个链接关系图就是用结点表示网页，用有向边表示网页之间的超链接；

步骤3)：以会话为单位划分用户访问日志；

步骤4)：遍历会话集合，统计网页的平均停留时间，生成网页之间的点击关系图，该图用一个点击关系矩阵表示，矩阵元素表示网页间转向的次数；

步骤5)：根据上述链接关系图，点击关系图以及网页平均停留时间估计网页之间的转移概率和每个网页上的转移速率；

步骤6)：利用幂法先计算嵌入式离散马尔科夫链的平稳分布，再计算原始模型的平稳分布，

步骤7)：计算连续时间马尔科夫链的平稳分布。

使用网页爬虫工具收集一个网站的链接边，构建链接关系图L的方为：

步骤21)给出网站的一个入口网页；

步骤22)获取网页，从该网页开始解析，得到它的所有内部链接网页，继续深度优先遍历或广度优先遍历，直到得到网站的所有网页或达到预先设定的网页深度为止；

步骤23)对于步骤22)中的得到的每个链接用一条边表示，这些边构成链接关系矩阵。

以会话为单位划分用户访问日志的方法为：

步骤31)建立全局会话集合，

步骤32)统计日志中不同的ip地址和浏览器信息，

步骤33)依次取出一个ip地址和浏览器信息的组合，若取不到，说明所有记录已处理完，算法结束，

步骤34)建立对应上述组合的临时会话集合，

步骤35)按时间先后顺序依次获取日志中对应步骤33)的ip地址和浏览器信息组合的访问记录条目，若取不到，转步骤314，

步骤36)按由后到先的会话加入顺序从临时会话集合取出一个会话，若取不到，转步骤313，

步骤37)判断该会话的来源字段是否为空，若是，转步骤311，

步骤38)判断该会话是否包含来源字段的访问，若否转步骤36，

步骤39)判断日志条目的访问时间与该会话记录的最后访问时间相减是否超过30分钟，若是，转步骤36，

步骤310)将日志条目添加到该会话，转步骤35，

步骤311)判断该会话是否包含日志条目的父链接，若是，转310，否则转步骤36，

步骤312)建立新的会话，将日志条目***该会话，并将该会话放到临时会话集合，转步骤35，

步骤313)将临时会话中的会话放到全局会话集合中，转步骤33。

统计网页的平均停留时间，构建网页点击关系图的方法是：

首先根据用户日志的记录统计出每个网站的每个网页的平均停留时间，然后采用启发式方法判断一个会话成功与否；若一个会话不包含该网站的任何一个网页，则该会话是一个失败的会话；如果一个会话包含一个或几个网页，但是没有一个网页的停留时间超过其相应的平均停留时间，则该会话是一个失败的会话。

估计网页之间的转移概率和网页的转移速率的方法是：

步骤51)根据上述链接关系图和点击关系图估计网页之间的转移概率和每个网页上的转移速率；

采用连续时间马尔科夫链模型后，其嵌入链状态的一步自身转移概率为0；

用户在网页的停留时间服从指数分布，因此，可以根据用户访问日志中记录的页面的停留时间估计出指数分布的参数；

步骤52)利用幂法计算嵌入链的平稳分布，再计算原始模型的平稳分布。

有益效果：基于离散时间马尔科夫链的导航性指标MNav和基于连续时间马尔科夫链的导航性指标CMNav是在同样的框架模型下设计的导航性指标，它们相比原有的导航性指标，更加直观地衡量从网站获取信息的难易程度。由于采用了连续时间马尔科夫链建模，模型更加符合用户的访问行为，因此CMNav评价网站导航性时比基于离散时间马尔科夫链模型的MNav更加精确。

附图说明

图1是计算CMNav的整个流程图。其中Hyperspider是一个网站爬虫，用于生成网站的链接图。

图2是会话分析算法流程图。

图3是会话分析算法中划分会话的具体流程，对应图2中寻找记录所属会话的过程。其中datetime是Oneitem的访问时间，lasttime是指当前会话tempSession最近的访问时间。

具体实施方式

1)建立用户访问行为的连续时间马尔科夫链模型

给出一个网站W，用图G(V，L，r)代表这个网站，其中V＝{v₁，v₂，...，v_N}代表这个网站的page集合，L＝{<v_i，v_j，l_ij>|v_i∈V，v_j∈V，if v_i→v_j l_ij＝1；else l_ij＝0.}代表网站的超链接集合，r是这个网站的主页。

我们给网站增加一个新的网页-中止网页，记为v_N+1。增加这个网页后，网站W用G′(V′，L′，r)表示，新的page集合为V′＝{v₁，v₂，...，v_N+1}，新的超链接集合为L′＝{<v_i，v_j，l_ij>|v_i∈V′，v_j∈V′，if v_i→v_j l_ij＝1；else l_ij＝0.}，l_iN+1＝0，l_N+1i＝0。用户的访问行为被描述成状态空间为V′＝{v₁，v₂，...，v_n+1}的齐次连续时间马尔科夫链。在没有找到所需要的信息时，用户通过网页之间的链接关系、浏览器的辅助导航措施等依转移概率到达下一个网页，并且在每一个网页都停留一段时间，包括到达中止网页从而结束本次访问。需要注意的是用户结束本次访问后，还可能重新访问该网站，所以，中止状态不是一个吸收状态。另外，当用户找到所需要的信息时，也要离开网站，但不是进入中止网页，这种情况等同于继续浏览网页。所以，中止网页对应会话失败。

假设该连续时间马尔科夫链模型的转移概率矩阵设为P(t)＝[p_ij(t)]，状态的初始分布为∏₀＝(π₀₁，π₀₂，...，π_0N+1)，平稳分布为∏＝(π₁，π₂，...，π_N+1)，转移速率矩阵为Q＝[q_ij](i，j代表v_i，v_j，属于V′)。它对应一个嵌入式的离散时间马尔科夫链，简称为EMC。EMC的状态空间也是V′，假设其转移概率矩阵为P′(t)＝[p′_ij(t)]，则有下列关系成立：

p′_ij＝-q_ij/q_ii，i≠j，p′_ii＝0 (1)

假设EMC的初始分布和平稳分布分别是

则有以下关系成立：

π_{i} = \frac{\frac{{\tilde{π}}_{i}}{q_{ii}}}{Σ_{j = 1}^{N} \frac{{\tilde{π}}_{j}}{q_{jj}}} - - - (2)

因此，只要有了EMC的平稳分布和q_ii，就能得到连续时间的马尔科夫链的平稳分布。

记改进的导航性指标为CMNav，定义CMNav＝1-π_N+1。π_N+1是中止网页的平稳分布概率，表示用户在完成事务处理前随时会停止访问的概率。注意CMNav并不表示用户访问成功的概率，它要比访问成功的概率大。

为了计算CMNav，需要知道网页之间的转移概率和每个网页上的转移速率，转移概率可以通过网页之间的链接关系和转移次数估计，转移速率跟网页停留时间相关，因此，可以利用网站的链接关系图和用户访问日志来估计这两个值。

2)构建网页的链接关系图L。

可以使用HyperSpider工具收集一个网站的链接边，构建链接关系图L，主要是一个链接关系矩阵，l_ii表示i网页上是否存在到j网页的链接。简单的说，一个链接关系图就是用结点表示网页，用有向边表示网页之间的超链接。HyperSpider是2005年发布的用于收集网站链接结构的工具。给出网站的一个入口网页，HyperSpider利用Swing HTML parser从该网页开始解析，得到它的所有内部链接网页，继续深度优先遍历或广度优先遍历，直到得到网站的所有网页或达到预先设定的网页深度为止。

3)以会话为单位划分用户访问日志。

网站的用户访问日志记录了一段时间内该网站被访问的情况，每条访问记录一般包括以下字段：

date time c-ip cs-username s-ip s-port cs-method cs-uri-stem cs-uri-querysc-status cs(User-Agent)，分别表示用户访问日期，时间，客户端IP地址，用户名，服务器IP地址，服务器端口，用户跟服务器交互的方法，URI资源，URI查询，协议状态，用户所用的浏览器。

一次会话是指一个用户一次进入网站所浏览的网页，它包含一条或几条访问记录。

为了精确地统计网页之间的转移次数和停留时间，需要以会话为单位划分访问记录。以下是日志的会话分析的算法。

步骤1)建立全局会话集合，sessionSet。

步骤2)统计日志中不同的c_ip&cs_user_agent。

依次取出一个c_ip&cs_user_agent组合。若取不到，说明所有记录已处理完，算法结束。

步骤3)建立对应上述组合的临时会话集合tempHash。

步骤4)按时间先后顺序依次获取日志中对应第3步的c_ip&cs_user_agent组合的访问记录item。若取不到，转步骤14。

步骤5)按由后到先的会话加入顺序从tempHash取出一个会话tempSession。若取不到，转步骤13。

步骤6)判断item的c_referer字段是否为空，若是，转步骤11。

步骤7)判断tempSession是否包含c_referer的访问，若否转步骤6。

步骤8)判断item的访问时间与tempSession现记录的最后访问时间相减是否超过30分钟，若是，转步骤6。

步骤9)将item添加到tempSession，转步骤5。

步骤10)判断判断item的访问时间与tempSession记录的最后访问时间相减是否超过30分钟，若是，转步骤6。

步骤11)判断tempSession是否包含item的父链接，若是，转10，否则转步骤6。

步骤12)建立新的会话，将item***该会话，并将该会话放到tempHash。转步骤5

步骤13)将tempHash中的会话放到sessionSet中。转步骤3。

4)统计网页的平均停留时间，构建网页点击关系图。

遍历会话集合，统计网页的平均停留时间，生成网页之间的点击关系图H，主要是一个点击关系矩阵，h_ij表示从i网页转向j网页的次数。

前面说中止网页对应失败的会话，所以由一个网页转向中止网页是指用户从该网页离开网站并且没有找到所需要的信息，因此，需要判断会话是否成功。

成功的会话是指用户找到了所需要的信息，它一般包含一个或几个网页，并且在这些网页上的停留时间会比较长。

首先根据用户日志的记录统计出每个网站的每个网页的平均停留时间，假设记为然后采用启发式方法判断一个会话成功与否。若一个会话不包含该网站的任何一个网页，则该会话是一个失败的会话；如果一个会话包含一个或几个网页，但是没有一个网页的停留时间超过其相应的平均停留时间

则该会话是一个失败的会话。

5)估计网页之间的转移概率和网页的转移速率。

根据上述链接关系图和点击关系图估计网页之间的转移概率p′_ij和每个网页上的转移速率q_ii。

转移概率估计公式为：

{p^{'}}_{ij} = \{\begin{matrix} &PartialD; * \frac{l_{ij}}{Σ_{k = 1}^{k = N + 1} l_{ik}} + β * \frac{h_{ij}}{Σ_{k = 1}^{k = N + 1} h_{ik}} + γ * {p^{'}}_{N + 1 j} - \frac{(1 - β) * {p^{'}}_{iN + 1}}{N} & v_{i} &Element; V, v_{j} &Element; V \\ \frac{h_{iN + 1}}{Σ_{k = 1}^{k = N + 1} l_{ik}} & v_{i} &Element; V, j = N + 1 \\ \frac{h_{N + 1 j}}{\underset{j}{Σ} h_{N + 1 j}} & i = N + 1, v_{j} &Element; V^{'} \end{matrix} - - - (3)

其中，

，l_ij是网页之间的链接关系，h_ij是网页之间的点击关系(规定h_ii＝0)。

实际计算时可先算转移矩阵最后一行的p′_N+1j，再计算最后一列p′_iN+1，最后再计算其他位置的p′_ij。采用连续时间马尔科夫链模型后，其EMC状态的一步自身转移概率为0。

用户在i网页的停留时间服从参数为-q_ii的指数分布。因此，可以根据用户访问日志中记录的i页面的停留时间估计出-q_ii。但是，由于网络连接速度，网页大小，网页结构等种种因素，造成用户的停留时间并不严格服从指数分布。因此，构造包含噪声的随机变量Z，它是真实的停留时间T_i(T_i是服从指数分布的随机变量)与噪声U(U也是随机变量)之和。

假设从用户日志中获得了v_i的m_i次停留时间的观察值，记为

它们是Z的m_i个观察值。假定U服从自由度为k的卡方分布，则其均值为k，方差为2k。进一步假定Z的均值和方差是u，δ²，U与T_i是相互独立的，那么

u = E (Z) = E (U + T_{i}) = k - \frac{1}{q_{ii}} - - - (4)

δ^{2} = var (Z) = var (U + T_{i}) = 2 k + \frac{1}{{q_{ii}}^{2}} - - - (5)

\overset{&OverBar;}{Z} = \frac{Σ_{l = 1}^{m_{i}} Z_{l}}{m_{i}} - - - (6)

S^{2} = \frac{Σ_{l = 1}^{m_{i}} {(Z_{l} - \overset{&OverBar;}{Z})}^{2}}{m_{i}} - - - (7)

由于和S²只是u，δ²的估计，所以设计最优化问题

Min {((\overset{&OverBar;}{Z} + \frac{1}{q_{ii}}) - \frac{1}{2} (S^{2} - \frac{1}{{q_{ii}}^{2}}))}^{2} - - - (8)

s.t.q_ii＜0这样，我们就能估计出q_ii。

6)利用幂法计算EMC的平稳分布

再利用公式(2)计算原始模型的平稳分布∏。

7)CMNav＝1-π_N+1。

Claims

1.一种基于连续时间马尔科夫链的网站导航性实现方法，其特征在于该方法具体包括如下步骤：

步骤3)：以会话为单位划分用户访问日志；

步骤7)：计算连续时间马尔科夫链的平稳分布。

2.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法，其特征在于使用网页爬虫工具收集一个网站的链接边，构建链接关系图L的方为：

步骤21)给出网站的一个入口网页；

3.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法，其特征在于以会话为单位划分用户访问日志的方法为：

步骤31)建立全局会话集合，

步骤32)统计日志中不同的ip地址和浏览器信息，

步骤33)依次取出一个ip地址利浏览器信息的组合，若取不到，说明所有记录已处理完，算法结束，

步骤34)建立对应上述组合的临时会话集合，

步骤37)判断该会话的来源字段是否为空，若是，转步骤311，

步骤310)将日志条目添加到该会话，转步骤35，

4.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法，其特征在于统计网页的平均停留时间，构建网页点击关系图的方法是：

5.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法，其特征在于估计网页之间的转移概率和网页的转移速率的方法是：

采用连续时间马尔科夫链模型后，其嵌入链状态的一步自身转移概率为0；用户在网页的停留时间服从指数分布，因此，可以根据用户访问日志中记录的页面的停留时间估计出指数分布的参数；