CN102231165A - 一种基于用户停留时间分析的个性化网页搜索排序方法 - Google Patents

一种基于用户停留时间分析的个性化网页搜索排序方法 Download PDF

Info

Publication number
CN102231165A
CN102231165A CN 201110194078 CN201110194078A CN102231165A CN 102231165 A CN102231165 A CN 102231165A CN 201110194078 CN201110194078 CN 201110194078 CN 201110194078 A CN201110194078 A CN 201110194078A CN 102231165 A CN102231165 A CN 102231165A
Authority
CN
China
Prior art keywords
user
webpage
residence time
notional word
notional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110194078
Other languages
English (en)
Other versions
CN102231165B (zh
Inventor
徐颂华
江浩
刘智满
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN 201110194078 priority Critical patent/CN102231165B/zh
Publication of CN102231165A publication Critical patent/CN102231165A/zh
Application granted granted Critical
Publication of CN102231165B publication Critical patent/CN102231165B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户停留时间分析的个性化网页搜索排序方法,该方法首先通过一个自定义网页浏览器获取文档级的用户停留时间,据此推测出在概念词级的用户停留时间;然后跟据推测获得的概念词级的用户停留时间,进一步预测该用户对任意网页搜索结果中的每个网页的个性化阅读兴趣;最终依据该用户的个性化阅读兴趣生成面向这一用户的个性化网页搜索结果。本发明利用人工智能相关技术,应用网页搜索和文本处理等方法来估计用户对于不同概念的阅读兴趣,从而将个人阅读习惯和需求考虑在网页搜索排序的过程中,使得网页搜索结果排序更加贴近用户个性化预期的结果,为用户提供更好的网络搜索和浏览支持。

Description

一种基于用户停留时间分析的个性化网页搜索排序方法
技术领域
本发明涉及计算机搜索、数据挖掘以及人工智能领域,尤其涉及一种基于用户停留时间的个性化网页搜索排序方法。
背景技术
近年来,出现了一系列的研究活动,以研究个性化或面向用户的搜索引擎和算法,如2007年发表在第十六届国际万维网会议(WWW’07:Proceedingsof the 16th international conference on World Wide Web)上的一篇文章“个性化搜索策略的大规模评价与分析”(“A large-scale evaluation and analysis ofpersonalized search strategies”)。在2008年第二十三届美国人工智能学会会议上的一篇文章“基于用户关注时间的面向用户网页排序算法”(“Auser-orientedwebpage ranking algorithm based on user attention time”)里,作者也提出建立一个面向用户的网页搜索引擎的个性化解决方案。
现有的个性化引擎依靠的是用户的反馈,它可以分为显式反馈和隐式反馈。我们从这两种反馈中都可以得到用户的喜好特征(Salton&Buckley 1990;White,Jose,&Ruthven 2001;White,Ruthven,&Jose 2002)。但是用户一般都不愿意去提供显式的反馈,所以现在的研究越来越多的研究都转向隐式反馈(Granka,Joachims,&Gay 2004;Guan&Cutrell 2007;Fu 2007)。研究表明,隐式反馈可以很好的反映用户的搜索意图(Fox et al.2005;Dou,Song,&Wen2007;Fu 2007).并且从大量的隐式反馈中得到的用户喜好往往比显式反馈更加可靠。
查询历史:现代研究中,用得最多的隐式反馈就是用户的查询历史。Google的个性化搜索(http://www.***.com/psearch)就是基于用户的查询历史的。总的来说,基于查询历史的算法又可以分为以下两类:一类是基于整个查询历史的算法,另一类是基于某个查询会话(指的是一连串相关的查询)。对于前者来说,通常算法会产生一个该用户的概要文本用来描述用户的搜索喜好。
点击数据:点击数据是另一种非常重要的隐式反馈,如(Dupret,Mrudock,&Piwowarski 2007;Joachims 2002)。在一个搜索结果页面上,我们假设用户点击过的链接比用户没有点过的链接对于此用户来说更加重要。研究者们用了很多中方法从用户的点击行为中获取用户的喜好特征。举例来说,有些研究者用一种叫Ranking SVM的算法(Hersh et al.1994)通过用户的点击信息来获得对该用户来说最好的网页排序。在(Radlinski&Joachims 2005)一文中,作者不但从用户的单次查询中提取用户喜好,同时也从用户对同一信息的一连串查询中提取用户的喜好,这些喜好特征然后通过Ranking SVM的改进算法来进行训练。Sun et al.(2005)提出了一种基于Singluar Value Decomposition的算法,它通过分析用户的点击数据来提高搜索引擎的建议***的准确率。
关注时间:相对来说,关注时间是一个新型的隐式用户反馈。虽然它在近期的研究中越来越多被提到,但是关于它是否真的能够反映用户意图仍然有争辩。Kelly和Belkin(2004;2001)建议说,在文本的关注时间和它对用户的有用度之间并没有非常可靠的相互关系。但是不同的是,在他们的研究当中,关注时间是通过测量一组用户阅读不同主题的文章而得到的平均关注时间。Halabi et al.(2007)认为对于一个的用户在同一个搜索行为中关注时间,它可以很好的反映出用户的喜好。
然而,在目前现有技术中,并没有对用户关注时间(停留时间)做更深入研究,特别是如何根据用户在每个文档上的阅读时间,进一步推测该用户对每个话题的阅读兴趣。
发明内容
本发明提出了一种基于最优化模型的方法,并充分利用了在线资源***,通过文档级用户停留时间来推测概念词级用户停留时间,从而更加精准的捕捉用户的阅读兴趣,为个人用户提供更理想的网页搜索结果。
一种基于用户停留时间分析的个性化网页搜索排序方法,包括以下步骤:
1)获取用户在其阅读过的每个网页上的用户停留时间;
2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合;
3)推测用户在每个概念词上的用户停留时间;
4)估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果。
所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为:
a)利用自定义浏览器,记录用户在每个网页页面上的停留时间,即该页面作为活动(active)页面的时间;所谓自定义浏览器,即为自行开发的可记录用户在网页上的关注时间的网页客户端软件,或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件;
b)对收集的用户停留时间样本进行如下校正:
DT(Di)=max{T(Di)-T0,0};
其中是T(Di)通过自定义浏览器获得的用户对于网页Di的停留时间;T0是用户用来判断该网页是否值得一读的时间,缺省设为0~10秒的定值;DT(Di)则是经校正后网页Di的用户停留时间。如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作,则会丢弃该用户停留时间样本,认为该用户在浏览网页的过程中暂时离开了当前电脑。该时间阈值缺省设置为2分钟。
所述的将用户阅读过的每个网页都表示成一个若干个概念词的集合的步骤为:
c)对用户阅读过的每个网页Di,使用2006年“Detecting spam web pagesthrough content analysis”文章中提到的内容分析来检测垃圾网页的算法去除网页中的非内容部分,得到该网页的纯文本内容;
d)对Di中的每一个词,若在***上存在对该词定义的页面,则将该词标记为一个概念词;
e)统计Di中每个概念词Cj的出现次数,将Di表示成一个概念词的集合:
CV ( D i ) = { ( C j , n j ) | j = 1,2 , . . . , z ( D i ) } , n 1 ≥ n 2 ≥ . . . ≥ n z ( D i ) ;
其中nj是第j个概念词Cj在Di中的出现次数,z(Di)是Di中不同概念词的个数。
所述的推测用户在每个概念词上的用户停留时间的步骤为:
f)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci);
g)根据神经认知科学中的大脑厌倦原理,根据用户对每个概念词Ci单次出现时获得的用户停留时间DT(Ci),使用如下公式,导出该概念词在某个网页中累计出现ni次时获得的综合用户停留时间NDT(Ci):
NDT ( C i ) = a 2 DT ( C i ) a 2 - 1 + exp ( a 1 ( 1 - n i ) ) ;
其中ni为概念词Ci在网页中累计出现的次数;a1,a2为系数,分别缺省设为0.33,1.16;上述公式所体现的大脑厌倦机制是:当同一概念词被用户反复阅读时,这一概念词获得的用户停留时间会以非线性方式逐次减少,趋于饱和;
h)对在用户阅读过的网页中出现过的任意两个概念词Ci,Cj,使用2007年“Computing semantic relatedness using wikipedia-based explicit semanticanalysis”文章中提到的基于***语义分析的算法计算它们之间的语义相似度,记为s(Ci,Cj);
i)定义辅助函数Q(Di,k)为若网页Di只含有其出现次数最多的前k个概念词时,用户在Di上的停留时间。Q(Di,k)的值可由如下公式逐步计算导出:
Q ( D i , k ) = Q ( D i , k - 1 ) + P ( D i , k - 1 ) , k > 1 NDT ( C k ) , k = 1 ;
其中Ck表示网页Di中出现次数第k多的概念词;函数P(Di,k-1)的定义如下:
P ( D i , k - 1 ) = a 2 DT ( C i ) a 2 - 1 + exp ( a 1 ( 1 - n i - Σ C j ∈ D i s ( C i , C j ) · n j ) ) ;
其中
Figure BDA0000074927260000043
是所有在网页Di中出现的概念词Cj的出现次数nj的加权和,其加权系数为s(Ci,Cj);
j)对任意两个概念词,Ci,Cj,计算它们之间的用户停留时间相对差RD(Ci,Cj):
RD ( C i , C j ) = | DT ( C i ) - DT ( C j ) | max { DT ( C i ) , DT ( C j ) } ;
k)用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性。
所述的用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性,包括以下步骤:
1)对在用户阅读过的网页中出现过的任意三个概念词Ci,Cj Ck,定义三个辅助函数F1(Ci,Cj,Ck),F2(Ci,Cj,Ck),F3(Ci,Cj,Ck)为:
F1(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Ci,Ck))(s(Ci,Cj)-s(Ci,Ck)),
F2(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Cj,Ck))(s(Ci,Cj)-s(Cj,Ck)),
F3(Ci,Cj,Ck)=(RD(Ci,Ck)-RD(Cj,Ck))(s(Ci,Ck)-s(Cj,Ck));
m)记F(Ci,Cj,Ck)=F1(Ci,Cj,Ck)+F2(Ci,Cj,Ck)+F3(Ci,Cj,Ck),将求解每个概念词的用户停留时间的问题转化为以下的最优化问题:
Minimize G = Σ i ( DT ( D i ) - Q ( D i , z ( D i ) ) ) 2 - Σ i , j , k F ( C i , C j , C k ) ;
其中,每个概念词Ci的用户停留时间DT(Ci)为待求的自变量,z(Di)是Di中不同概念词的个数;
n)为每个概念词Ci的用户停留时间DT(Ci)随机选取一个不超过所有DT(Di)中最大值的正实数,用以作为DT(Ci)的初始值;
o)计算此时的G值,采用梯度下降(gradient descent)算法使G值最大化;此时的DT(Ci)值即为概念词Ci的用户停留时间;
p)根据此时每个概念词Ci的DT(Ci)值,将a1,a2视为自变量,采用梯度下降(gradient descent)算法求出使G值最大化时的a1,a2的值;
q)反复执行步骤1)-n),直至DT(Ci)和a1,a2的取值都稳定为止,或反复执行次数达到100次。
所述的估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果的步骤为:
r)当用户提交一个网页搜索请求时,使用传统的网页搜索引擎获得搜索结果的前300个网页;
s)对其中的每个网页Dx,使用步骤c)-e)所述方法,将其表示为若干个概念词组成的集合;
t)对该网页中所有概念词的用户停留时间求和,将总和作为该用户对网页Dx的用户停留时间,记为DT(Dx);
u)估计该用户对网页Dx的阅读兴趣I(Dx):
I ( D x ) = ( 1 - t ) DT ( D x ) + 2 t · exp ( - b · R x ) 1 + exp ( - b · R x ) ;
其中Rx为网页Dx在传统的网页搜索引擎的排序名次;参数b设为0.2;而t=exp(-N/100),其中N代表目前为止该用户所阅读过的文章数量;
v)将网页按照用户对其阅读兴趣从大到小重新排列,生成个性化的网页搜索结果。
本发明有效地将用户的喜好结合在搜索过程中,充分的利用了数据挖掘和文本处理的方法获取用户对每个概念词的兴趣所在,更加准确的预测了网页对用户的潜在吸引力,使得最终的搜索排名结果更加接近用户期待的理想排名,从而使得改善过的网页搜索引擎能为用户提供更好的个性化服务。
附图说明
图1是本发明所述个性化网页搜索排序方法具体实施方式的***流程结构示意图;
图2是分别使用本发明所述个性化网页搜索排序方法(Ours)以及谷歌搜索引擎(Google)对20个不同关键词进行搜索后,搜索结果对于用户的理想程度比较;其中,图2a为理想程度的柱状图,图2b为理想程度的箱形图(box-plot)。
图3是分别使用本发明所述***(Ours)与谷歌搜索引擎(Google)、必应搜索引擎(Bing)、雅虎搜索引擎(Yahoo),根据2008年“基于用户关注时间面向用户的网页排序算法”文章所述方法实现的个性化网页搜索***(AT08),以及本发明在缺少概念词级用户停留时间推测模块时的***(Ours-Ψ),本发明在缺少最优化求解模块时的***(Ours-I),对15个不同关键词进行搜索后,搜索结果对于用户的理想程度比较。
具体实施方式
一种基于用户停留时间的个性化网页搜索排序方法,包括以下步骤:
1)获取用户在其阅读过的每个网页上的用户停留时间;
2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合;
3)推测用户在每个概念词上的用户停留时间;
4)估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果。
所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为:
a)利用自定义浏览器,记录用户在每个网页页面上的停留时间,即该页面作为活动(active)页面的时间;所谓自定义浏览器,即为自行开发的可记录用户在网页上的关注时间的网页客户端软件,或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件;
b)对收集的用户停留时间样本进行如下校正:
DT(Di)=max{T(Di)-T0,0}.
其中是T(Di)通过自定义浏览器获得的用户对于网页Di的停留时间;T0是用户用来判断该网页是否值得一读的时间,缺省设为0~10秒的定值;DT(Di)则是经校正后网页Di的用户停留时间。如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作,则会丢弃该用户停留时间样本,认为该用户在浏览网页的过程中暂时离开了当前电脑。该时间阈值缺省设置为2分钟。
所述的将用户阅读过的每个网页都表示成一个若干个概念词的集合的步骤为:
c)对用户阅读过的每个网页Di,使用2006年“Detecting spam web pagesthrough content analysis”文章中提到的内容分析来检测垃圾网页的算法去除网页中的非内容部分,得到该网页的纯文本内容;
d)对Di中的每一个词,若在***上存在对该词定义的页面,则将该词标记为一个概念词;
e)统计Di中每个概念词Cj的出现次数,将Di表示成一个概念词的集合:
CV ( D i ) = { ( C j , n j ) | j = 1,2 , . . . , z ( D i ) } , n 1 ≥ n 2 ≥ . . . ≥ n z ( D i ) ;
其中nj是第j个概念词Cj在Di中的出现次数,z(Di)是Di中不同概念词的个数。
所述的推测用户在每个概念词上的用户停留时间的步骤为:
f)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci);
g)根据神经认知科学中的大脑厌倦原理,根据用户对每个概念词Ci单次出现时获得的用户停留时间DT(Ci),使用如下公式,导出该概念词在某个网页中累计出现ni次时获得的综合用户停留时间NDT(Ci):
NDT ( C i ) = a 2 DT ( C i ) a 2 - 1 + exp ( a 1 ( 1 - n i ) ) ;
其中ni为概念词Ci在网页中累计出现的次数;a1,a2为系数,分别缺省设为0.33,1.16;上述公式所体现的大脑厌倦机制是:当同一概念词被用户反复阅读时,这一概念词获得的用户停留时间会以非线性方式逐次减少,趋于饱和;
h)对在用户阅读过的网页中出现过的任意两个概念词Ci,Cj,使用2007年“Computing semantic relatedness using wikipedia-based explicit semanticanalysis”文章中提到的基于***语义分析的算法计算它们之间的语义相似度,记为s(Ci,Cj);
i)定义辅助函数Q(Di,k)为若网页Di只含有其出现次数最多的前k个概念词时,用户在Di上的停留时间。Q(Di,k)的值可由如下公式逐步计算导出:
Q ( D i , k ) = Q ( D i , k - 1 ) + P ( D i , k - 1 ) , k > 1 NDT ( C k ) , k = 1 ;
其中Ck表示网页Di中出现次数第k多的概念词;函数P(Di,k-1)的定义如下:
P ( D i , k - 1 ) = a 2 DT ( C i ) a 2 - 1 + exp ( a 1 ( 1 - n i - Σ C j ∈ D i s ( C i , C j ) · n j ) ) ;
其中是所有在网页Di中出现的概念词Cj的出现次数nj的加权和,其加权系数为s(Ci,Cj);
j)对任意两个概念词,Ci,Cj,计算它们之间的用户停留时间相对差RD(Ci,Cj):
RD ( C i , C j ) = | DT ( C i ) - DT ( C j ) | max { DT ( C i ) , DT ( C j ) } ;
k)用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性。
所述的用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性,包括以下步骤:
1)对在用户阅读过的网页中出现过的任意三个概念词Ci,Cj Ck,定义三个辅助函数F1(Ci,Cj,Ck),F2(Ci,Cj,Ck),F3(Ci,Cj,Ck)为:
F1(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Ci,Ck))(s(Ci,Cj)-s(Ci,Ck)),
F2(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Cj,Ck))(s(Ci,Cj)-s(Cj,Ck)),
F3(Ci,Cj,Ck)=(RD(Ci,Ck)-RD(Cj,Ck))(s(Ci,Ck)-s(Cj,Ck));
m)记F(Ci,Cj,Ck)=F1(Ci,Cj,Ck)+F2(Ci,Cj,Ck)+F3(Ci,Cj,Ck),将求解每个概念词的用户停留时间的问题转化为以下的最优化问题:
Minimize G = Σ i ( DT ( D i ) - Q ( D i , z ( D i ) ) ) 2 - Σ i , j , k F ( C i , C j , C k ) ;
其中,每个概念词Ci的用户停留时间DT(Ci)为待求的自变量,z(Di)是Di中不同概念词的个数;
n)为每个概念词Ci的用户停留时间DT(Ci)随机选取一个不超过所有DT(Di)中最大值的正实数,用以作为DT(Ci)的初始值;
o)计算此时的G值,采用梯度下降(gradient descent)算法使G值最大化;此时的DT(Ci)值即为概念词Ci的用户停留时间;
p)根据此时每个概念词Ci的DT(Ci)值,将a1,a2视为自变量,采用梯度下降(gradient descent)算法求出使G值最大化时的a1,a2的值;
q)反复执行步骤1)-n),直至DT(Ci)和a1,a2的取值都稳定为止,或反复执行次数达到100次。
所述的估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果的步骤为:
r)当用户提交一个网页搜索请求时,使用传统的网页搜索引擎获得搜索结果的前300个网页;
s)对其中的每个网页Dx,使用步骤c)-e)所述方法,将其表示为若干个概念词组成的集合;
t)对该网页中所有概念词的用户停留时间求和,将总和作为该用户对网页Dx的用户停留时间,记为DT(Dx);
u)估计该用户对网页Dx的阅读兴趣I(Dx):
I ( D x ) = ( 1 - t ) DT ( D x ) + 2 t · exp ( - b · R x ) 1 + exp ( - b · R x ) ;
其中Rx为网页Dx在传统的网页搜索引擎的排序名次;参数b设为0.2;而t=exp(-N/100),其中N代表目前为止该用户所阅读过的文章数量;
v)将网页按照用户对其阅读兴趣从大到小重新排列,生成个性化的网页搜索结果。
一种基于用户停留时间的个性化网页搜索排序方法的具体***流程结构如图1所示。该***包括客户端和服务端两部分,客户端包括自定义浏览器10,个性化网页搜索排序结果90;服务端包括文档级用户停留时间20,最优化问题求解30,概念词级用户停留时间40,用户停留时间预测50,传统搜索引擎60,基本搜索结果70,搜索结果的个性化重排序80。
自定义浏览器10:通过插件的形式,在现有的网络资源浏览器如Firefox,Intemet Explorer中嵌入一个可记录用户阅读每个网页时的所花费时间的模块;然后使用2008年“A user-oriented webpage ranking algorithm based on userattention time”文章中提到的自定义网页浏览器方法来获取用户每次阅读时在每个网页上的用户停留时间。
文档级用户停留时间20:通过自定义浏览器10获得的每次用户阅读网页时在每个网页上的用户停留时间数据对每个网页;具体地,对网页Di的用户停留时间DT(Di)为:DT(Di)=∑j T(Di,j),j=1,2,...;其中T(Di,j)为用户第j次阅读网页Di时的用户停留时间。
最优化问题求解30:跟据文档级用户停留时间20,采用一个最优化问题的模型来求解该用户在每个概念词上的停留时间,即推测产生出概念词级用户停留时间40;其具体步骤为:
(a)对用户阅读过的每个网页Di,使用2006年“Detecting spam web pagesthrough content analysis”文章中的算法去除网页中的非内容部分如标签、广告、重定向链接等,得到该网页的纯文本内容;
(b)对Di中的每一个词,若在***上存在对该词定义的页面,则将该词标记为一个概念词;
(c)统计Di中每个概念词Cj的出现次数,将Di表示成一个概念词的集合:
CV(Di)={(Cj,nj)|j=1,2,...,z(Di)}(n1≥n2≥...≥nz(Di));
其中nj是第j个概念词Cj在Di中的出现次数,z(Di)是Di中不同概念词的个数。
(d)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci);
(e)对任意两个概念词,Ci,Cj,计算它们之间的用户停留时间相对差RD(Ci,Cj):
RD ( C i , C j ) = | DT ( C i ) - DT ( C j ) | max { DT ( C i ) , DT ( C j ) } ;
(f)对在用户阅读过的网页中出现过的任意两个概念词Ci,Cj,使用2007年“Computing semantic relatedness using wikipedia-based explicit semanticanalysis”文章的算法计算它们之间的语义相似度,记为s(Ci,Cj);
(g)对在用户阅读过的网页中出现过的任意三个概念词Ci,Cj,Ck,定义三个辅助函数F1(Ci,Cj,Ck),F2(Ci,Cj,Ck),F3(Ci,Cj,Ck)为:
F1(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Ci,Ck))(s(Ci,Cj)-s(Ci,Ck)),
F2(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Cj,Ck))(s(Ci,Cj)-s(Cj,Ck)),
F3(Ci,Cj,Ck)=(RD(Ci,Ck)-RD(Cj,Ck))(s(Ci,Ck)-s(Cj,Ck));
(h)记F(Ci,Cj,Ck)=F1(Ci,Cj,Ck)+F2(Ci,Cj,Ck)+F3(Ci,Cj,Ck),将求解每个概念词的用户停留时间的问题转化为以下的最优化问题:
Minimize G = Σ i ( DT ( D i ) - Q ( D i , z ( D i ) ) ) 2 - Σ i , j , k F ( C i , C j , C k )
其中,每个概念词Ci的用户停留时间DT(Ci)为待求的自变量,z(Di)是Di中不同概念词的个数;
(i)为每个概念词Ci的用户停留时间DT(Ci)随机选取一个不超过所有DT(Di)中最大值的正实数,用以作为DT(Ci)的初始值;
(j)计算此时的G值,采用梯度下降(gradient descent)算法使G值最大化;此时的DT(Ci)值即为概念词Ci的用户停留时间;为保证G值不陷入局部极值,反复执行步骤(i)-(j)多次,在本发明所述***实施例中,反复执行50~100次。
概念词级用户停留时间40:通过最优化问题求解30得到的用户在每个概念词上的用户停留时间数据。
用户停留时间预测50:根据概念词级用户停留时间40的数据,对任意一个网页,使用步骤(a)-(c)所述方法,将其表示为若干个概念词组成的集合;然后对该网页中所有概念词的用户停留时间求和,将总和作为用户对该网页的用户停留时间。
传统搜索引擎60:提供一个用户界面,调用网络资源搜索服务;在本实施例中,此界面使用jsp实现;当用户提交一个查询请求时,调用普通网页搜索引擎谷歌获得搜索结果。
基本搜索结果70:利用传统搜索引擎60进行搜索后,对其搜索结果页面进行解析并获取其返回结果中的前300个网页。
搜索结果的个性化重排序80:对网页集中的每个网页Dx,估计用户对该网页Dx的阅读兴趣I(Dx): I ( D x ) = ( 1 - t ) DT ( D x ) + 2 t · exp ( - b · R x ) 1 + exp ( - b · R x ) ; 其中Rx为网页Dx在传统的网页搜索引擎谷歌的搜索结果中的排序名次;参数b通常设为0.2;而t=exp(-N/100),其中N代表目前为止该用户所阅读过的文章数量;然后将网页按照用户对其阅读兴趣从大到小重新排列,从而生成个性化网页搜索排序结果90。
个性化网页搜索排序结果90:经过搜索结果的个性化重排序80的过程后得到个性化网页搜索结果;该搜索结果充分考虑到了用户的阅读兴趣,使得网页搜索结果可以更大限度的贴近用户的个人喜好,从而为用户提供更好的互联网体验。
图2、图3及表1所示的实验结果清晰的显示出本方法的优越性。
图2所示分别使用本发明所述***(Ours)以及谷歌搜索引擎(Google)对20个不同关键词进行搜索后,搜索结果对于用户的理想程度比较;其中,图2a为理想程度的柱状图,图2b为理想程度的箱形图(box-plot)。
我们使用了Normalized Discounted Cumulative Gain(NDCG)来度量两个***的搜索结果排序与该用户理想结果排序之间的相似程度;即NDCG值越大,该搜索结果就越令用户满意;这20个搜索关键词分别为:apple,car,barcelona,da vinci,ETS,gnome linux,greenhouse effect,happy new year,NBA,olympics,WoW,great wall,hurricane,iron man,moon,national treasure,porsche,forbidden kingdom,tiger,west lake。
表1所示分别使用本发明所述***(Ours)与谷歌搜索引擎(Google)、必应搜索引擎(Bing)、雅虎搜索引擎(Yahoo),以及根据2008年“A user-orientedwebpage ranking algorithm based on user attention time”所述方法实现的个性化网页搜索***(AT08),对15个不同关键词进行搜索后,搜索结果对于用户的理想程度比较;我们同样使用了Normalized Discounted Cumulative Gain(NDCG)来度量两个***的搜索结果排序与该用户理想结果排序之间的相似程度;即NDCG值越大,该搜索结果就越令用户满意。
表1
Figure BDA0000074927260000121
图3是分别使用本发明所述***(Ours)与谷歌搜索引擎(Google)、必应搜索引擎(Bing)、雅虎搜索引擎(Yahoo),根据2008年“A user-oriented webpageranking algorithm based on user attention time”所述方法实现的个性化网页搜索***(AT08),以及本发明在缺少概念词级用户停留时间推测模块时的***(Ours-Ψ),本发明在缺少最优化求解模块时的***(Ours-I),对表1中所述的15个不同关键词进行搜索后,搜索结果对于用户的理想程度比较。
上述实验表明,本发明有效地利用了人工智能相关技术,应用网页搜索和文本处理等方法来估计用户对于不同概念的阅读兴趣,从而将个人阅读习惯和需求考虑在网页搜索排序的过程中,使得网页搜索结果排序更加贴近用户个性化预期的结果,为用户提供更好的网络搜索和浏览支持。
以上所述仅为本发明的一种基于用户停留时间的个性化网页搜索排序方法的较佳实施例,并非用以限定本发明的实质技术内容的范围。本发明的一种基于用户停留时间的个性化网页搜索排序方法,其实质技术内容是广泛的定义于权利要求书中,任何他人所完成的技术实体或方法,若是与权利要求书中所定义者完全相同,或是同一等效的变更,均将被视为涵盖于此专利保护范围之内。

Claims (6)

1.一种基于用户停留时间分析的个性化网页搜索排序方法,其特征在于:包括以下步骤:
1)获取用户在其阅读过的每个网页上的用户停留时间;
2)将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合;
3)推测用户在每个概念词上的用户停留时间;
4)估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果。
2.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于:所述的获取用户在其阅读过的每个网页上的用户停留时间的步骤为:
a)利用自定义浏览器,记录用户在每个网页页面上的停留时间,即该页面作为活动(active)页面的时间;所述的自定义浏览器,为用于记录用户在网页上的关注时间的网页客户端软件,或通过网页浏览器插件技术实现的用于记录用户在特定网页上停留时间的现有网页浏览器的插件;
b)对收集的用户停留时间样本进行如下校正:
DT(Di)=max{T(Di)-T0,0}.
其中是T(Di)通过自定义浏览器获得的用户对于网页Di的停留时间;T0是用户用来判断该网页是否值得一读的时间,缺省设为0~10秒的定值;DT(Di)则是经校正后网页Di的用户停留时间,如果用户在超过一定时间阈值的期间内均没有移动鼠标或者进行键盘操作,则会丢弃该用户停留时间样本。
3.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于:所述的将用户阅读过的每个网页都表示成一个由若干个概念词组成的集合的步骤为:
c)对用户阅读过的每个网页Di,使用内容分析来检测垃圾网页的算法去除网页中的非内容部分,得到该网页的纯文本内容;
d)对Di中的每一个词,若在***上存在对该词定义的页面,则将该词标记为一个概念词;
e)统计Di中每个概念词Cj的出现次数,将Di表示成一个概念词的集合:
CV ( D i ) = { ( C j , n j ) | j = 1,2 , . . . , z ( D i ) } , n 1 ≥ n 2 ≥ . . . ≥ n z ( D i ) ;
其中nj是第j个概念词Cj在Di中的出现次数,z(Di)是Di中不同概念词的个数。
4.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于:所述的推测用户在每个概念词上的用户停留时间的步骤为:
f)在用户阅读过的网页中出现过的所有概念词中,记每个待求的概念词Ci的用户停留时间为DT(Ci);
g)根据神经认知科学中的大脑厌倦原理,根据用户对每个概念词Ci单次出现时获得的用户停留时间DT(Ci),使用如下公式,导出该概念词在某个网页中累计出现ni次时获得的综合用户停留时间NDT(Ci):
NDT ( C i ) = a 2 DT ( C i ) a 2 - 1 + exp ( a 1 ( 1 - n i ) ) ;
其中ni为概念词Ci在网页中累计出现的次数;a1,a2为系数,分别缺省设为0.33,1.16;上述公式所体现的大脑厌倦机制是:当同一概念词被用户反复阅读时,这一概念词获得的用户停留时间会以非线性方式逐次减少,趋于饱和;
h)对在用户阅读过的网页中出现过的任意两个概念词Ci,Cj,使用基于***语义分析的算法计算它们之间的语义相似度,记为s(Ci,Cj);
i)定义辅助函数Q(Di,k)为若网页Di只含有其出现次数最多的前k个概念词时,用户在Di上的停留时间。Q(Di,k)的值可由如下公式逐步计算导出:
Q ( D i , k ) = Q ( D i , k - 1 ) + P ( D i , k - 1 ) , k > 1 NDT ( C k ) , k = 1 ;
其中Ck表示网页Di中出现次数第k多的概念词;函数P(Di,k-1)的定义如下:
P ( D i , k - 1 ) = a 2 DT ( C i ) a 2 - 1 + exp ( a 1 ( 1 - n i - Σ C j ∈ D i s ( C i , C j ) · n j ) ) ;
其中
Figure FDA0000074927250000024
是所有在网页Di中出现的概念词Cj的出现次数nj的加权和,其加权系数为s(Ci,Cj);
j)对任意两个概念词,Ci,Cj,计算它们之间的用户停留时间相对差RD(Ci,Cj):
RD ( C i , C j ) = | DT ( C i ) - DT ( C j ) | max { DT ( C i ) , DT ( C j ) } ;
k)用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性。
5.根据权利要求4所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于:所述的用最优化方法求出每个概念词Ci的用户停留时间DT(Ci)的解值,使得所有的用户停留时间相对差之间达到最大的一致性,包括以下步骤:
1)对在用户阅读过的网页中出现过的任意三个概念词Ci,Cj,Ck,定义三个辅助函数F1(Ci,Cj,Ck),F2(Ci,Cj,Ck),F3(Ci,Cj,Ck)为:
F1(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Ci,Ck))(s(Ci,Cj)-s(Ci,Ck)),
F2(Ci,Cj,Ck)=(RD(Ci,Cj)-RD(Cj,Ck))(s(Ci,Cj)-s(Cj,Ck)),
F3(Ci,Cj,Ck)=(RD(Ci,Ck)-RD(Cj,Ck))(s(Ci,Ck)-s(Cj,Ck));
m)记F(Ci,Cj,Ck)=F1(Ci,Cj,Ck)+F2(Ci,Cj,Ck)+F3(Ci,Cj,Ck),将求解每个概念词的用户停留时间的问题转化为以下的最优化问题:
Minimize G = Σ i ( DT ( D i ) - Q ( D i , z ( D i ) ) ) 2 - Σ i , j , k F ( C i , C j , C k )
其中,每个概念词Ci的用户停留时间DT(Ci)为待求的自变量,z(Di)是Di中不同概念词的个数;
n)为每个概念词Ci的用户停留时间DT(Ci)随机选取一个不超过所有DT(Di)中最大值的正实数,用以作为DT(Ci)的初始值;
o)计算此时的G值,采用梯度下降算法使G值最大化;此时的DT(Ci)值即为概念词Ci的用户停留时间;
p)根据此时每个概念词Ci的DT(Ci)值,将a1,a2视为自变量,采用梯度下降算法求出使G值最大化时的a1,a2的值;
q)反复执行步骤1)-n),直至DT(Ci)和a1,a2的取值都稳定为止,或反复执行次数达到100次。
6.根据权利要求1所述的基于用户停留时间的个性化网页搜索排序方法,其特征在于:所述的估计用户对搜索结果中每个网页的阅读兴趣,并生成个性化的网页搜索结果的步骤为:
r)当用户提交一个网页搜索请求时,使用传统的网页搜索引擎获得搜索结果的前300个网页;
s)对其中的每个网页Dx,使用步骤c)-e)所述方法,将其表示为若干个概念词组成的集合;
t)对该网页中所有概念词的用户停留时间求和,将总和作为该用户对网页Dx的用户停留时间,记为DT(Dx);
u)估计该用户对网页Dx的阅读兴趣I(Dx):
I ( D x ) = ( 1 - t ) DT ( D x ) + 2 t · exp ( - b · R x ) 1 + exp ( - b · R x ) ;
其中Rx为网页Dx在传统的网页搜索引擎的排序名次;参数b设为0.2;而t=exp(-N/100),其中N代表目前为止该用户所阅读过的文章数量;
v)将网页按照用户对其阅读兴趣从大到小重新排列,生成个性化的网页搜索结果。
CN 201110194078 2011-07-11 2011-07-11 一种基于用户停留时间分析的个性化网页搜索排序方法 Expired - Fee Related CN102231165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110194078 CN102231165B (zh) 2011-07-11 2011-07-11 一种基于用户停留时间分析的个性化网页搜索排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110194078 CN102231165B (zh) 2011-07-11 2011-07-11 一种基于用户停留时间分析的个性化网页搜索排序方法

Publications (2)

Publication Number Publication Date
CN102231165A true CN102231165A (zh) 2011-11-02
CN102231165B CN102231165B (zh) 2013-01-09

Family

ID=44843729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110194078 Expired - Fee Related CN102231165B (zh) 2011-07-11 2011-07-11 一种基于用户停留时间分析的个性化网页搜索排序方法

Country Status (1)

Country Link
CN (1) CN102231165B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186565A (zh) * 2011-12-28 2013-07-03 ***通信集团浙江有限公司 根据用户网页浏览行为判断用户偏好的方法及装置
CN103559203A (zh) * 2013-10-08 2014-02-05 北京奇虎科技有限公司 网页排序方法、装置和***
CN103810183A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种得到真实访客停留时长的方法
WO2014079196A1 (zh) * 2012-11-21 2014-05-30 华为技术有限公司 一种历史记录和收藏夹的生成方法和用户终端
WO2014162033A1 (es) * 2013-04-01 2014-10-09 Crambo Sa Método, dispositivo móvil, sistema y producto informático para la detección y medición del nivel de atención de un usuario
CN104166741A (zh) * 2014-09-10 2014-11-26 北京国双科技有限公司 网页浏览分析处理方法及装置
WO2015074540A1 (zh) * 2013-11-20 2015-05-28 腾讯科技(深圳)有限公司 页面操作数据处理方法及装置
CN104933069A (zh) * 2014-03-19 2015-09-23 黄凯 一种桌面终端上网浏览统计的分析方法和***
CN106156096A (zh) * 2015-04-02 2016-11-23 腾讯科技(深圳)有限公司 一种页面停留时间获取方法、***以及用户终端
CN107977452A (zh) * 2017-12-15 2018-05-01 金陵科技学院 一种基于大数据的信息检索***及方法
CN109359178A (zh) * 2018-09-14 2019-02-19 华南师范大学 一种检索方法、装置、存储介质及设备
EP4047505A4 (en) * 2020-10-28 2023-01-18 Comac Beijing Aircraft Technology Research Institute INTERACTIVE RETRIEVING METHOD AND DEVICE, AND COMPUTER DEVICE AND STORAGE MEDIA
CN118193851A (zh) * 2024-05-13 2024-06-14 深圳市九洲智和科技有限公司 一种电子书文档的处理方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320387A (zh) * 2008-07-11 2008-12-10 浙江大学 基于用户关注时间的网页文本与图像排序方法
CN101334783A (zh) * 2008-05-20 2008-12-31 上海大学 基于语义矩阵的网络用户行为个性化的表达方法
CN101499098A (zh) * 2009-03-04 2009-08-05 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334783A (zh) * 2008-05-20 2008-12-31 上海大学 基于语义矩阵的网络用户行为个性化的表达方法
CN101320387A (zh) * 2008-07-11 2008-12-10 浙江大学 基于用户关注时间的网页文本与图像排序方法
CN101499098A (zh) * 2009-03-04 2009-08-05 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、***

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186565B (zh) * 2011-12-28 2017-02-22 ***通信集团浙江有限公司 根据用户网页浏览行为判断用户偏好的方法及装置
CN103186565A (zh) * 2011-12-28 2013-07-03 ***通信集团浙江有限公司 根据用户网页浏览行为判断用户偏好的方法及装置
CN103810183A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种得到真实访客停留时长的方法
WO2014079196A1 (zh) * 2012-11-21 2014-05-30 华为技术有限公司 一种历史记录和收藏夹的生成方法和用户终端
CN103838727A (zh) * 2012-11-21 2014-06-04 华为技术有限公司 一种历史记录和收藏夹的生成方法和用户终端
CN103838727B (zh) * 2012-11-21 2018-01-19 华为技术有限公司 一种历史记录和收藏夹的生成方法和用户终端
WO2014162033A1 (es) * 2013-04-01 2014-10-09 Crambo Sa Método, dispositivo móvil, sistema y producto informático para la detección y medición del nivel de atención de un usuario
CN103559203A (zh) * 2013-10-08 2014-02-05 北京奇虎科技有限公司 网页排序方法、装置和***
US10205792B2 (en) 2013-11-20 2019-02-12 Tencent Technology (Shenzhen) Company Limited Method and apparatus for processing page operation data
WO2015074540A1 (zh) * 2013-11-20 2015-05-28 腾讯科技(深圳)有限公司 页面操作数据处理方法及装置
CN104933069A (zh) * 2014-03-19 2015-09-23 黄凯 一种桌面终端上网浏览统计的分析方法和***
CN104166741B (zh) * 2014-09-10 2018-09-18 北京国双科技有限公司 网页浏览分析处理方法及装置
CN104166741A (zh) * 2014-09-10 2014-11-26 北京国双科技有限公司 网页浏览分析处理方法及装置
CN106156096A (zh) * 2015-04-02 2016-11-23 腾讯科技(深圳)有限公司 一种页面停留时间获取方法、***以及用户终端
CN107977452A (zh) * 2017-12-15 2018-05-01 金陵科技学院 一种基于大数据的信息检索***及方法
CN109359178A (zh) * 2018-09-14 2019-02-19 华南师范大学 一种检索方法、装置、存储介质及设备
EP4047505A4 (en) * 2020-10-28 2023-01-18 Comac Beijing Aircraft Technology Research Institute INTERACTIVE RETRIEVING METHOD AND DEVICE, AND COMPUTER DEVICE AND STORAGE MEDIA
CN118193851A (zh) * 2024-05-13 2024-06-14 深圳市九洲智和科技有限公司 一种电子书文档的处理方法及***
CN118193851B (zh) * 2024-05-13 2024-07-16 深圳市九洲智和科技有限公司 一种电子书文档的处理方法及***

Also Published As

Publication number Publication date
CN102231165B (zh) 2013-01-09

Similar Documents

Publication Publication Date Title
CN102231165B (zh) 一种基于用户停留时间分析的个性化网页搜索排序方法
CN101216825B (zh) 标引关键词提取/预测方法
US9910930B2 (en) Scalable user intent mining using a multimodal restricted boltzmann machine
Song et al. Adapting deep ranknet for personalized search
US8768050B2 (en) Accurate text classification through selective use of image data
Zhang et al. Enabling kernel-based attribute-aware matrix factorization for rating prediction
Claster et al. Naïve Bayes and unsupervised artificial neural nets for Cancun tourism social media data analysis
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及***
CN101382939B (zh) 基于眼球跟踪的网页文本个性化搜索方法
Li et al. Deep learning powered in-session contextual ranking using clickthrough data
CN110134788B (zh) 一种基于文本挖掘的微博发布优化方法及***
CN102289514B (zh) 社会标签自动标注的方法以及社会标签自动标注器
Takano et al. An adaptive e-learning recommender based on user's web-browsing behavior
Zhuhadar et al. A hybrid recommender system guided by semantic user profiles for search in the e-learning domain.
Yang et al. Closing the loop in webpage understanding
Abri et al. Group-based personalization using topical user profile
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及***
Jin et al. Building a deep learning-based QA system from a CQA dataset
Shan Social Network Text Sentiment Analysis Method Based on CNN‐BiGRU in Big Data Environment
Zhang et al. Complementary classification techniques based personalized software requirements retrieval with semantic ontology and user feedback
CN113362034A (zh) 一种职位推荐方法
Santoso et al. An Ontological Crawling Approach for Improving Information Aggregation over eGovernment Websites.
Preetha et al. Personalized search engines on mining user preferences using clickthrough data
Hoppe et al. Dynamic, behavior-based user profiling using semantic web technologies in a big data context

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130109

Termination date: 20140711

EXPY Termination of patent right or utility model