CN101826104A - 一种基于连续时间马尔科夫链的网站导航性实现方法 - Google Patents

一种基于连续时间马尔科夫链的网站导航性实现方法 Download PDF

Info

Publication number
CN101826104A
CN101826104A CN 201010139891 CN201010139891A CN101826104A CN 101826104 A CN101826104 A CN 101826104A CN 201010139891 CN201010139891 CN 201010139891 CN 201010139891 A CN201010139891 A CN 201010139891A CN 101826104 A CN101826104 A CN 101826104A
Authority
CN
China
Prior art keywords
webpage
website
session
continuous time
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010139891
Other languages
English (en)
Other versions
CN101826104B (zh
Inventor
张卫丰
刘霞
张迎周
***
陆柳敏
许碧娣
朱丹梅
陆柳清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN2010101398910A priority Critical patent/CN101826104B/zh
Publication of CN101826104A publication Critical patent/CN101826104A/zh
Application granted granted Critical
Publication of CN101826104B publication Critical patent/CN101826104B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

基于连续时间马尔科夫链的网站导航性实现方法采用连续时间马尔科夫链为用户访问行为建模,以期对网站的导航性和网页的重要性做更接近实际情况的评价。网站导航性在网站设计、改进和质量评价方面受到越来越多的重视。基于连续时间马尔科夫链的网站导航度量不但考虑了网站的链接结构,还考虑了了网页内容好坏对导航性的影响。通过对用户日志的分析获取用户在网页上访问时序及停留时间,在此基础上建立连续时间马尔科夫的嵌入链模型和用户停留时间的指数分布模型,综合两种模型得到连续时间马尔科大链模型,最终得到基于连续时间马尔科夫链模型的网站导航性度量。本发明具有比已有的度量方法更好的网站导航性评价效果。

Description

一种基于连续时间马尔科夫链的网站导航性实现方法
技术领域
衡量网站设计好坏的一个重要指标是其导航性,本发明设计了一个更加合理的基于连续时间马尔科夫链的网站导航性计算方法,属于Web度量领域。
背景技术
Internet上的网页以超链接的形式组织,访问网站的用户通过网页之间的链接关系从一个网页转到另一个网页。网站的超链接拓扑结构大体上包括这四种:线性结构,严格的层次结构,混合结构,非线性结构。线性结构自不用说,严格的层次结构,网页通过链接关系组成严格的层次关系,位于某个层次下的网页只能直接链接到该层次的最近上层或最近下层的网页。混合结构,是在严格层次结构的基础上,添加了一些交叉链接,交叉链接可以从某个层次到达任意层次。非线性结构,完全没有网页层次的概念,根据需要,任意两个网页之间都可以存在链接关系[2]。在文献[3]中,Mohageg比较了严格的层次、混合、非线性这三种结构的网站,发现从非线性结构的网站获取信息最难。McDonald和Stevenson’s研究发现在混合结构的网站上查找信息需要的时间最短,用户在严格的层次和非线性结构的网站上容易失去方向[4]。
网站的链接结构,网站信息的分配、组织,浏览器的辅助导航措施,以及用户对网站的熟悉程度,决定了用户访问网站获取所需信息的难易程度。把用户访问某个网站获取所需信息的难易程度叫做这个网站的导航性[1]。改善网站的导航性主要是改善网站的链接结构和网站信息的分配、组织,它们是网站的固有性质,是影响网站导航性的关键因素。为了改善网站的导航性,需要设计衡量网站导航性的指标。这样在设计网站时,才能对网站的导航性能要达到怎样的标准有一个定量的认识,或者在此基础上考察网站是否需要改进以及怎样改进等等。
用定量指标衡量网站的结构好坏是非常困难的[5]。现有的一些指标,如从主页出发的最短路径,网页数量,超链接数量等简单描述了网站的一些特点。Compactness度量网站链接边的充足程度,Stratum则给出网站链接结构线性化的程度[5][6]。Yamada等提出了DNav,度量从主页到达目标网页的复杂度和网站给予用户的认知负担,在评价网站导航性时融入用户的感受[7]。周毓明等人认为用户对信息的认知反应在他的行动中,因此网站的导航性可以从用户动态浏览行为的特点来反映[1]。他们把用户的浏览行为描述为一个离散时间的齐次马尔科夫链,其中网页作为状态,并增加了一个标志会话以失败结束的中止状态,求出这些状态的平稳分布。其中,中止状态的平稳分布概率表明访问该网站时会话失败的概率,用1减去此值作为网站的导航性指标,这个指标叫做MNav。RakeshGupta等人通过用户会话点击的网页总数与其内容网页数之比来判断网站链接结构的优劣,他们设计了三个指标Corig,Cfeas,Copt[8]。
DNav,MNav,Corig等指标均考虑了用户访问网站的实际感受或表现。DNav注意到位于同-层的两个网页的链接与位于不同层的网页的链接带给用户的负担不同。MNav在计算网页之间的转移概率时,采用用户行为习惯参数与网站链接结构结合的方式,并且考虑了浏览器的辅助导航措施,以期望更加接近网站使用的实际情况。Corig,Cfeas,Copt虽然是在用户访问日志的基础上计算的,但本质却是只评价网站链接结构的好坏。相比MNav,这些指标主要考察网站的结构复杂度,没有直接度量用户查找信息的难易程度,然而网站结构对用户查找信息的影响很难说清楚,这些指标使用起来很不方便。MNav则直接度量了在一个网站查找信息的难易程度。
研究发现,现有的导航性指标侧重衡量网站的链接结构,很少反应网站信息的组织即网页内容对用户访问网站的影响。评价网站导航性的目的是改善网站链接结构、信息组织等,但现有的指标没有考虑网页的重要性,因此无法给出改进的方向。我们发现,基于离散马尔科夫链计算MNav指标的时候,可以算出网页的重要性,从而可以有针对的对网站链接、网页内容进行调整。在文献[1]中结合了用户行为习惯参数和网站链接结构计算转转移概率,但是,没有考虑网页内容对用户的影响。用户在网页的停留时间可以反映网页内容对用户的影响。
MNav是基于离散马尔科夫链模型计算出来的,网页之间的转移概率结合用户浏览行为***稳分布只依赖于用户行为***稳分布概率体现了网页的重要性,实际上停留时间也可以反映网页重要性,因为停留时间体现了网页内容的好坏。所以若采用连续时间马尔科夫链为用户访问行为建模,那么对网站的导航性和网页的重要性做出的评价会更合理。为了跟MNav区别,把基于连续时间马尔科夫链模型的导航性指标记作CMNav。MNav和CMNav都是基于马尔科夫链模型的导航性指标,因此在计算它们的同时还可以算出网页的重要性,这一点对于改善网站的导航性非常重要,这也是我们改进MNav的原因之一。
本发明依赖于有效的会话分析算法,包括划分会话和判断一个会话是否成功,以及求解矩阵特征值的幂法。
[1]Zhou,Y.M.,Leung,H.,Winoto,P.,“MNav:A Markov model-based web site navigabilitymeasure,”IEEE Transactions on Software Engineering,vol.33,no.12,pp.869-890,2007.
[2]Locatis,C.,Letourneau,G.,Banvard,R.,‘Hypermedia and instruction,’EducationalTechnology Research and Development,vol.37,no.4,pp.65-77,1989.
[3]M.Mohageg,“The Influence of Hypertext Linking Structures on the Efficiency of InformationRetrieval,”Human Factors,vol.34,no.3,pp.351-367,1992.
[4]S.McDonald and R.Stevenson,“Effects of Text Structure and Prior Knowledge of theLearner on Navigation in Hypertext,”Human Factors,vol.40,no.1,pp.18-27,1998.
[5]Botafogo,R.,Rivlin,E.,and Shneiderman,B.,“Structural Analysis of Hypertexts:IdentifyingHierarchies and Useful Metrics,”ACM Trans.Information Systems,vol.10,no.2,pp.142-180,1992.
[6]De Bra,P.,Houben,GJ.,“Hypertext metrics revisited:Navigational metrics for static andadaptive link structures,”Department of Computing Science,Eindhoven University of Technology,Eindhoven,Netherlands,1997.
[7]Yamada,S.,Hong,J.,and Sugita,S.,“Development and Evaluation of Hypermedia forMuseum Education:Validation of Metrics,”ACM Trans.Computer-Human Interaction,vol.2,no.4,pp.284-307,1995.
[8]Gupta,R.,Bagchi,A.,Sarkar,S.,“Improving linkage of web pages,”INFORMS Journal onComputing,vol.19,no.1,pp.127,2007.
发明内容
技术问题:本发明的目的是在马尔科夫链模型的框架下,考虑到网页的停留时间可以反映网页内容的吸引力,采用连续时间马尔科夫链为用户访问行为建模,以期对网站的导航性和网页的重要性做更接近实际情况的评价,由此提供一种基于连续时间马尔科夫链的网站导航性实现方法。
技术方案:本发明提出的一种基于连续时间马尔科夫链的网站导航性实现方法见图1,具体包括以下步骤:
步骤1):建立用户访问行为的连续时间马尔科夫链模型以及它对应的嵌入式离散马尔科夫链;
步骤2):使用网页爬虫工具收集一个网站的链接边,构建链接关系图;主要是一个链接关系矩阵,其矩阵元素表示网页间是否存在链接,简单的说,一个链接关系图就是用结点表示网页,用有向边表示网页之间的超链接;
步骤3):以会话为单位划分用户访问日志;
步骤4):遍历会话集合,统计网页的平均停留时间,生成网页之间的点击关系图,该图用一个点击关系矩阵表示,矩阵元素表示网页间转向的次数;
步骤5):根据上述链接关系图,点击关系图以及网页平均停留时间估计网页之间的转移概率和每个网页上的转移速率;
步骤6):利用幂法先计算嵌入式离散马尔科夫链的平稳分布,再计算原始模型的平稳分布,
步骤7):计算连续时间马尔科夫链的平稳分布。
使用网页爬虫工具收集一个网站的链接边,构建链接关系图L的方为:
步骤21)给出网站的一个入口网页;
步骤22)获取网页,从该网页开始解析,得到它的所有内部链接网页,继续深度优先遍历或广度优先遍历,直到得到网站的所有网页或达到预先设定的网页深度为止;
步骤23)对于步骤22)中的得到的每个链接用一条边表示,这些边构成链接关系矩阵。
以会话为单位划分用户访问日志的方法为:
步骤31)建立全局会话集合,
步骤32)统计日志中不同的ip地址和浏览器信息,
步骤33)依次取出一个ip地址和浏览器信息的组合,若取不到,说明所有记录已处理完,算法结束,
步骤34)建立对应上述组合的临时会话集合,
步骤35)按时间先后顺序依次获取日志中对应步骤33)的ip地址和浏览器信息组合的访问记录条目,若取不到,转步骤314,
步骤36)按由后到先的会话加入顺序从临时会话集合取出一个会话,若取不到,转步骤313,
步骤37)判断该会话的来源字段是否为空,若是,转步骤311,
步骤38)判断该会话是否包含来源字段的访问,若否转步骤36,
步骤39)判断日志条目的访问时间与该会话记录的最后访问时间相减是否超过30分钟,若是,转步骤36,
步骤310)将日志条目添加到该会话,转步骤35,
步骤311)判断该会话是否包含日志条目的父链接,若是,转310,否则转步骤36,
步骤312)建立新的会话,将日志条目***该会话,并将该会话放到临时会话集合,转步骤35,
步骤313)将临时会话中的会话放到全局会话集合中,转步骤33。
统计网页的平均停留时间,构建网页点击关系图的方法是:
首先根据用户日志的记录统计出每个网站的每个网页的平均停留时间,然后采用启发式方法判断一个会话成功与否;若一个会话不包含该网站的任何一个网页,则该会话是一个失败的会话;如果一个会话包含一个或几个网页,但是没有一个网页的停留时间超过其相应的平均停留时间,则该会话是一个失败的会话。
估计网页之间的转移概率和网页的转移速率的方法是:
步骤51)根据上述链接关系图和点击关系图估计网页之间的转移概率和每个网页上的转移速率;
采用连续时间马尔科夫链模型后,其嵌入链状态的一步自身转移概率为0;
用户在网页的停留时间服从指数分布,因此,可以根据用户访问日志中记录的页面的停留时间估计出指数分布的参数;
步骤52)利用幂法计算嵌入链的平稳分布,再计算原始模型的平稳分布。
有益效果:基于离散时间马尔科夫链的导航性指标MNav和基于连续时间马尔科夫链的导航性指标CMNav是在同样的框架模型下设计的导航性指标,它们相比原有的导航性指标,更加直观地衡量从网站获取信息的难易程度。由于采用了连续时间马尔科夫链建模,模型更加符合用户的访问行为,因此CMNav评价网站导航性时比基于离散时间马尔科夫链模型的MNav更加精确。
附图说明
图1是计算CMNav的整个流程图。其中Hyperspider是一个网站爬虫,用于生成网站的链接图。
图2是会话分析算法流程图。
图3是会话分析算法中划分会话的具体流程,对应图2中寻找记录所属会话的过程。其中datetime是Oneitem的访问时间,lasttime是指当前会话tempSession最近的访问时间。
具体实施方式
1)建立用户访问行为的连续时间马尔科夫链模型
给出一个网站W,用图G(V,L,r)代表这个网站,其中V={v1,v2,...,vN}代表这个网站的page集合,L={<vi,vj,lij>|vi∈V,vj∈V,if vi→vj lij=1;else lij=0.}代表网站的超链接集合,r是这个网站的主页。
我们给网站增加一个新的网页-中止网页,记为vN+1。增加这个网页后,网站W用G′(V′,L′,r)表示,新的page集合为V′={v1,v2,...,vN+1},新的超链接集合为L′={<vi,vj,lij>|vi∈V′,vj∈V′,if vi→vj lij=1;else lij=0.},liN+1=0,lN+1i=0。用户的访问行为被描述成状态空间为V′={v1,v2,...,vn+1}的齐次连续时间马尔科夫链。在没有找到所需要的信息时,用户通过网页之间的链接关系、浏览器的辅助导航措施等依转移概率到达下一个网页,并且在每一个网页都停留一段时间,包括到达中止网页从而结束本次访问。需要注意的是用户结束本次访问后,还可能重新访问该网站,所以,中止状态不是一个吸收状态。另外,当用户找到所需要的信息时,也要离开网站,但不是进入中止网页,这种情况等同于继续浏览网页。所以,中止网页对应会话失败。
假设该连续时间马尔科夫链模型的转移概率矩阵设为P(t)=[pij(t)],状态的初始分布为∏0=(π01,π02,...,π0N+1),平稳分布为∏=(π1,π2,...,πN+1),转移速率矩阵为Q=[qij](i,j代表vi,vj,属于V′)。它对应一个嵌入式的离散时间马尔科夫链,简称为EMC。EMC的状态空间也是V′,假设其转移概率矩阵为P′(t)=[p′ij(t)],则有下列关系成立:
p′ij=-qij/qii,i≠j,p′ii=0          (1)
假设EMC的初始分布和平稳分布分别是
Figure GSA00000073848600061
Figure GSA00000073848600062
则有以下关系成立:
&pi; i = &pi; ~ i q ii &Sigma; j = 1 N &pi; ~ j q jj - - - ( 2 )
因此,只要有了EMC的平稳分布和qii,就能得到连续时间的马尔科夫链的平稳分布。
记改进的导航性指标为CMNav,定义CMNav=1-πN+1。πN+1是中止网页的平稳分布概率,表示用户在完成事务处理前随时会停止访问的概率。注意CMNav并不表示用户访问成功的概率,它要比访问成功的概率大。
为了计算CMNav,需要知道网页之间的转移概率和每个网页上的转移速率,转移概率可以通过网页之间的链接关系和转移次数估计,转移速率跟网页停留时间相关,因此,可以利用网站的链接关系图和用户访问日志来估计这两个值。
2)构建网页的链接关系图L。
可以使用HyperSpider工具收集一个网站的链接边,构建链接关系图L,主要是一个链接关系矩阵,lii表示i网页上是否存在到j网页的链接。简单的说,一个链接关系图就是用结点表示网页,用有向边表示网页之间的超链接。HyperSpider是2005年发布的用于收集网站链接结构的工具。给出网站的一个入口网页,HyperSpider利用Swing HTML parser从该网页开始解析,得到它的所有内部链接网页,继续深度优先遍历或广度优先遍历,直到得到网站的所有网页或达到预先设定的网页深度为止。
3)以会话为单位划分用户访问日志。
网站的用户访问日志记录了一段时间内该网站被访问的情况,每条访问记录一般包括以下字段:
date time c-ip cs-username s-ip s-port cs-method cs-uri-stem cs-uri-querysc-status cs(User-Agent),分别表示用户访问日期,时间,客户端IP地址,用户名,服务器IP地址,服务器端口,用户跟服务器交互的方法,URI资源,URI查询,协议状态,用户所用的浏览器。
一次会话是指一个用户一次进入网站所浏览的网页,它包含一条或几条访问记录。
为了精确地统计网页之间的转移次数和停留时间,需要以会话为单位划分访问记录。以下是日志的会话分析的算法。
步骤1)建立全局会话集合,sessionSet。
步骤2)统计日志中不同的c_ip&cs_user_agent。
依次取出一个c_ip&cs_user_agent组合。若取不到,说明所有记录已处理完,算法结束。
步骤3)建立对应上述组合的临时会话集合tempHash。
步骤4)按时间先后顺序依次获取日志中对应第3步的c_ip&cs_user_agent组合的访问记录item。若取不到,转步骤14。
步骤5)按由后到先的会话加入顺序从tempHash取出一个会话tempSession。若取不到,转步骤13。
步骤6)判断item的c_referer字段是否为空,若是,转步骤11。
步骤7)判断tempSession是否包含c_referer的访问,若否转步骤6。
步骤8)判断item的访问时间与tempSession现记录的最后访问时间相减是否超过30分钟,若是,转步骤6。
步骤9)将item添加到tempSession,转步骤5。
步骤10)判断判断item的访问时间与tempSession记录的最后访问时间相减是否超过30分钟,若是,转步骤6。
步骤11)判断tempSession是否包含item的父链接,若是,转10,否则转步骤6。
步骤12)建立新的会话,将item***该会话,并将该会话放到tempHash。转步骤5
步骤13)将tempHash中的会话放到sessionSet中。转步骤3。
4)统计网页的平均停留时间,构建网页点击关系图。
遍历会话集合,统计网页的平均停留时间,生成网页之间的点击关系图H,主要是一个点击关系矩阵,hij表示从i网页转向j网页的次数。
前面说中止网页对应失败的会话,所以由一个网页转向中止网页是指用户从该网页离开网站并且没有找到所需要的信息,因此,需要判断会话是否成功。
成功的会话是指用户找到了所需要的信息,它一般包含一个或几个网页,并且在这些网页上的停留时间会比较长。
首先根据用户日志的记录统计出每个网站的每个网页的平均停留时间,假设记为然后采用启发式方法判断一个会话成功与否。若一个会话不包含该网站的任何一个网页,则该会话是一个失败的会话;如果一个会话包含一个或几个网页,但是没有一个网页的停留时间超过其相应的平均停留时间
Figure GSA00000073848600072
则该会话是一个失败的会话。
5)估计网页之间的转移概率和网页的转移速率。
根据上述链接关系图和点击关系图估计网页之间的转移概率p′ij和每个网页上的转移速率qii
转移概率估计公式为:
p &prime; ij = &PartialD; * l ij &Sigma; k = 1 k = N + 1 l ik + &beta; * h ij &Sigma; k = 1 k = N + 1 h ik + &gamma; * p &prime; N + 1 j - ( 1 - &beta; ) * p &prime; iN + 1 N v i &Element; V , v j &Element; V h iN + 1 &Sigma; k = 1 k = N + 1 l ik v i &Element; V , j = N + 1 h N + 1 j &Sigma; j h N + 1 j i = N + 1 , v j &Element; V &prime; - - - ( 3 )
其中,
Figure GSA00000073848600082
,lij是网页之间的链接关系,hij是网页之间的点击关系(规定hii=0)。
实际计算时可先算转移矩阵最后一行的p′N+1j,再计算最后一列p′iN+1,最后再计算其他位置的p′ij。采用连续时间马尔科夫链模型后,其EMC状态的一步自身转移概率为0。
用户在i网页的停留时间服从参数为-qii的指数分布。因此,可以根据用户访问日志中记录的i页面的停留时间估计出-qii。但是,由于网络连接速度,网页大小,网页结构等种种因素,造成用户的停留时间并不严格服从指数分布。因此,构造包含噪声的随机变量Z,它是真实的停留时间Ti(Ti是服从指数分布的随机变量)与噪声U(U也是随机变量)之和。
假设从用户日志中获得了vi的mi次停留时间的观察值,记为
Figure GSA00000073848600083
它们是Z的mi个观察值。假定U服从自由度为k的卡方分布,则其均值为k,方差为2k。进一步假定Z的均值和方差是u,δ2,U与Ti是相互独立的,那么
u = E ( Z ) = E ( U + T i ) = k - 1 q ii - - - ( 4 )
&delta; 2 = var ( Z ) = var ( U + T i ) = 2 k + 1 q ii 2 - - - ( 5 )
Z &OverBar; = &Sigma; l = 1 m i Z l m i - - - ( 6 )
S 2 = &Sigma; l = 1 m i ( Z l - Z &OverBar; ) 2 m i - - - ( 7 )
由于和S2只是u,δ2的估计,所以设计最优化问题
Min ( ( Z &OverBar; + 1 q ii ) - 1 2 ( S 2 - 1 q ii 2 ) ) 2 - - - ( 8 )
s.t.qii<0这样,我们就能估计出qii
6)利用幂法计算EMC的平稳分布
Figure GSA000000738486000810
再利用公式(2)计算原始模型的平稳分布∏。
7)CMNav=1-πN+1

Claims (5)

1.一种基于连续时间马尔科夫链的网站导航性实现方法,其特征在于该方法具体包括如下步骤:
步骤1):建立用户访问行为的连续时间马尔科夫链模型以及它对应的嵌入式离散马尔科夫链;
步骤2):使用网页爬虫工具收集一个网站的链接边,构建链接关系图;主要是一个链接关系矩阵,其矩阵元素表示网页间是否存在链接,简单的说,一个链接关系图就是用结点表示网页,用有向边表示网页之间的超链接;
步骤3):以会话为单位划分用户访问日志;
步骤4):遍历会话集合,统计网页的平均停留时间,生成网页之间的点击关系图,该图用一个点击关系矩阵表示,矩阵元素表示网页间转向的次数;
步骤5):根据上述链接关系图,点击关系图以及网页平均停留时间估计网页之间的转移概率和每个网页上的转移速率;
步骤6):利用幂法先计算嵌入式离散马尔科夫链的平稳分布,再计算原始模型的平稳分布,
步骤7):计算连续时间马尔科夫链的平稳分布。
2.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法,其特征在于使用网页爬虫工具收集一个网站的链接边,构建链接关系图L的方为:
步骤21)给出网站的一个入口网页;
步骤22)获取网页,从该网页开始解析,得到它的所有内部链接网页,继续深度优先遍历或广度优先遍历,直到得到网站的所有网页或达到预先设定的网页深度为止;
步骤23)对于步骤22)中的得到的每个链接用一条边表示,这些边构成链接关系矩阵。
3.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法,其特征在于以会话为单位划分用户访问日志的方法为:
步骤31)建立全局会话集合,
步骤32)统计日志中不同的ip地址和浏览器信息,
步骤33)依次取出一个ip地址利浏览器信息的组合,若取不到,说明所有记录已处理完,算法结束,
步骤34)建立对应上述组合的临时会话集合,
步骤35)按时间先后顺序依次获取日志中对应步骤33)的ip地址和浏览器信息组合的访问记录条目,若取不到,转步骤314,
步骤36)按由后到先的会话加入顺序从临时会话集合取出一个会话,若取不到,转步骤313,
步骤37)判断该会话的来源字段是否为空,若是,转步骤311,
步骤38)判断该会话是否包含来源字段的访问,若否转步骤36,
步骤39)判断日志条目的访问时间与该会话记录的最后访问时间相减是否超过30分钟,若是,转步骤36,
步骤310)将日志条目添加到该会话,转步骤35,
步骤311)判断该会话是否包含日志条目的父链接,若是,转310,否则转步骤36,
步骤312)建立新的会话,将日志条目***该会话,并将该会话放到临时会话集合,转步骤35,
步骤313)将临时会话中的会话放到全局会话集合中,转步骤33。
4.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法,其特征在于统计网页的平均停留时间,构建网页点击关系图的方法是:
首先根据用户日志的记录统计出每个网站的每个网页的平均停留时间,然后采用启发式方法判断一个会话成功与否;若一个会话不包含该网站的任何一个网页,则该会话是一个失败的会话;如果一个会话包含一个或几个网页,但是没有一个网页的停留时间超过其相应的平均停留时间,则该会话是一个失败的会话。
5.如权利要求1所述的基于连续时间马尔科夫链的网站导航性实现方法,其特征在于估计网页之间的转移概率和网页的转移速率的方法是:
步骤51)根据上述链接关系图和点击关系图估计网页之间的转移概率和每个网页上的转移速率;
采用连续时间马尔科夫链模型后,其嵌入链状态的一步自身转移概率为0;用户在网页的停留时间服从指数分布,因此,可以根据用户访问日志中记录的页面的停留时间估计出指数分布的参数;
步骤52)利用幂法计算嵌入链的平稳分布,再计算原始模型的平稳分布。
CN2010101398910A 2010-04-02 2010-04-02 一种基于连续时间马尔科夫链的网站导航性实现方法 Expired - Fee Related CN101826104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101398910A CN101826104B (zh) 2010-04-02 2010-04-02 一种基于连续时间马尔科夫链的网站导航性实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101398910A CN101826104B (zh) 2010-04-02 2010-04-02 一种基于连续时间马尔科夫链的网站导航性实现方法

Publications (2)

Publication Number Publication Date
CN101826104A true CN101826104A (zh) 2010-09-08
CN101826104B CN101826104B (zh) 2012-07-04

Family

ID=42690022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101398910A Expired - Fee Related CN101826104B (zh) 2010-04-02 2010-04-02 一种基于连续时间马尔科夫链的网站导航性实现方法

Country Status (1)

Country Link
CN (1) CN101826104B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970289A (zh) * 2012-11-09 2013-03-13 同济大学 基于Web用户行为模式的身份认证方法
CN102999634A (zh) * 2012-12-18 2013-03-27 百度在线网络技术(北京)有限公司 基于浏览器数据的用户导航推荐方法、***及云端服务器
CN103631828A (zh) * 2012-08-28 2014-03-12 阿里巴巴集团控股有限公司 确定访问路径的方法和装置、确定页面流失率的方法和***
CN104052617A (zh) * 2013-03-13 2014-09-17 北京千橡网景科技发展有限公司 基于连续时间马尔可夫链进行用户行为分析的方法和设备
CN106657008A (zh) * 2016-11-21 2017-05-10 北海高创电子信息孵化器有限公司 一种用户上网行为研究方法
CN106874311A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 页面内容归属栏目的确定方法和装置
CN109429101A (zh) * 2017-08-31 2019-03-05 中国电信股份有限公司 交互式网络电视的桌面加载方法和装置
US10606914B2 (en) 2017-10-25 2020-03-31 International Business Machines Corporation Apparatus for webpage scoring
CN112153033A (zh) * 2020-09-16 2020-12-29 杭州安恒信息技术股份有限公司 一种检测webshell的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Department of Computing Science,Eindhoven University of Technology,Eindhoven,Netherlands》 19971231 De Bra,P.,Houben,GJ. 《Hypertext metrics revisited:Navigational metrics for static andadaptive link structures》 1-5 , 2 *
《IEEE Transactions on Software Engineering》 20071231 Zhou,Y.M.,Leung,H.,Winoto,P. 《MNav:A Markov model-based web site navigabilitymeasure》 869-890 1-5 第33卷, 第12期 2 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631828A (zh) * 2012-08-28 2014-03-12 阿里巴巴集团控股有限公司 确定访问路径的方法和装置、确定页面流失率的方法和***
CN103631828B (zh) * 2012-08-28 2017-05-24 阿里巴巴集团控股有限公司 确定访问路径的方法和装置、确定页面流失率的方法和***
CN102970289B (zh) * 2012-11-09 2015-11-04 同济大学 基于Web用户行为模式的身份认证方法
CN102970289A (zh) * 2012-11-09 2013-03-13 同济大学 基于Web用户行为模式的身份认证方法
CN102999634A (zh) * 2012-12-18 2013-03-27 百度在线网络技术(北京)有限公司 基于浏览器数据的用户导航推荐方法、***及云端服务器
CN102999634B (zh) * 2012-12-18 2016-07-06 百度在线网络技术(北京)有限公司 基于浏览器数据的用户导航推荐方法、***及云端服务器
CN104052617A (zh) * 2013-03-13 2014-09-17 北京千橡网景科技发展有限公司 基于连续时间马尔可夫链进行用户行为分析的方法和设备
CN106874311B (zh) * 2015-12-14 2020-09-15 北京国双科技有限公司 页面内容归属栏目的确定方法和装置
CN106874311A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 页面内容归属栏目的确定方法和装置
CN106657008A (zh) * 2016-11-21 2017-05-10 北海高创电子信息孵化器有限公司 一种用户上网行为研究方法
CN109429101A (zh) * 2017-08-31 2019-03-05 中国电信股份有限公司 交互式网络电视的桌面加载方法和装置
CN109429101B (zh) * 2017-08-31 2021-03-05 中国电信股份有限公司 交互式网络电视的桌面加载方法和装置
US10606914B2 (en) 2017-10-25 2020-03-31 International Business Machines Corporation Apparatus for webpage scoring
US11314839B2 (en) 2017-10-25 2022-04-26 International Business Machines Corporation Apparatus for webpage scoring
CN112153033A (zh) * 2020-09-16 2020-12-29 杭州安恒信息技术股份有限公司 一种检测webshell的方法和装置

Also Published As

Publication number Publication date
CN101826104B (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN101826104A (zh) 一种基于连续时间马尔科夫链的网站导航性实现方法
US10296519B2 (en) Synchronization of time between different simulation models
Miller et al. Extensions of the Johnson-Neyman technique to linear models with curvilinear effects: Derivations and analytical tools
CN100543744C (zh) 对网页和网站评级的方法
US8200661B1 (en) Dynamic recommendations based on user actions
Treiblmaier et al. Formative constructs implemented via common factors
Fincke et al. How to assess debt sustainability? Some theory and empirical evidence for selected euro area countries
Savalei et al. On obtaining estimates of the fraction of missing information from full information maximum likelihood
US9158856B2 (en) Automatic generation of tasks for search engine optimization
US8370202B2 (en) Audience segment estimation
Albrecher* et al. On the distribution of dividend payments and the discounted penalty function in a risk model with linear dividend barrier
Wang et al. Usage history of scientific literature: Nature metrics and metrics of Nature publications
CN102262661A (zh) 一种基于k阶混合马尔可夫模型的Web页面访问预测方法
Esen A lumped Galerkin method for the numerical solution of the modified equal-width wave equation using quadratic B-splines
Bigoni et al. Sensitivity analysis of the critical speed in railway vehicle dynamics
Kyrillidou et al. Evaluating usage and impact of networked electronic resources through point-of-use surveys: A MINES for Libraries™ study
Bernard et al. Monte Carlo methods for pricing discrete Parisian options
CN103870452A (zh) 数据推荐方法及***
Harvey et al. Testing for unit roots and the impact of quadratic trends, with an application to relative primary commodity prices
Liu et al. A framework to compute page importance based on user behaviors
Fernandez-Vazquez et al. Using additional information in structural decomposition analysis: the path-based approach
Pyo et al. Are there spillover effects of large firms’ growth in supply chain networks? Evidence from the Korean economy
Yang et al. The survival probability of the SABR model: asymptotics and application
CN103678666B (zh) 用于在线访问的数据处理方法和装置
Chang et al. Public acceptance of the Cyber Taipei initiative and cyber-government services

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20150402

EXPY Termination of patent right or utility model