CN102622417B - 对信息记录进行排序的方法和装置 - Google Patents

对信息记录进行排序的方法和装置 Download PDF

Info

Publication number
CN102622417B
CN102622417B CN201210038993.2A CN201210038993A CN102622417B CN 102622417 B CN102622417 B CN 102622417B CN 201210038993 A CN201210038993 A CN 201210038993A CN 102622417 B CN102622417 B CN 102622417B
Authority
CN
China
Prior art keywords
intention
information
query string
distribution
environment information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210038993.2A
Other languages
English (en)
Other versions
CN102622417A (zh
Inventor
江会星
苏雪峰
佟子健
张超旭
王潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Beijing Sogou Information Service Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Beijing Sogou Information Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd, Beijing Sogou Information Service Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201210038993.2A priority Critical patent/CN102622417B/zh
Publication of CN102622417A publication Critical patent/CN102622417A/zh
Application granted granted Critical
Publication of CN102622417B publication Critical patent/CN102622417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种对信息记录进行排序的方法和装置,其中方法具体包括:采集查询串对应的环境信息;依据所述查询串获取各意图类别的信息记录;依据所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序;其中,所述查询串对应的环境信息下各意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到。本申请能够根据环境信息对意图类别进行排序,将当前用户更感兴趣的意图类别排在前面,并且结合了用户的个性化因素,使得排序后的信息记录更加接近于用户的真实信息需求。

Description

对信息记录进行排序的方法和装置
技术领域
本申请涉及数据处理技术领域,特别是涉及一种对信息记录进行排序的方法和装置、一种信息搜索服务器和信息搜索客户端。
背景技术
目前,在网络数据中进行信息搜索,已经成为互联网最主要的应用之一。例如,在进行信息搜索时,搜索引擎根据用户输入的查询串在数据库中查询出页面形式的信息记录,或者,浏览器依据用户的当前浏览网页构造查询串,并依据构造的查询串在数据库中查询出页面形式的信息记录,等等。
为了较好地满足用户需求,搜索引擎或浏览器并不立即将查询到的信息记录进行展现,而是以信息记录与查询串之间的相关性为依据,按照相关性由高至低的顺序对信息记录进行排序,并将排序后的信息记录进行展现,这种将与查询串之间的相关性作为排序依据的操作称之为依据基础权值进行排序的操作。
依据基础权值进行排序后的信息记录能够反映出信息记录与查询串之间的相关性,在一定程度上有利于用户从信息记录中快速进行查找,但是,由于依据基础权值进行排序只能体现出信息记录与查询串的相关性,并不考虑其它因素,而实际网络数据中的信息记录内容繁多,仅依据基础权值进行的排序过于简单,受其他因素影响,排在前面的信息记录并不一定是用户需要的,排在后面的信息记录反而可能是用户需要的,因此,现有信息记录的排序方法并不能反映用户的真实信息需求,此种情况下用户需要花费大量的时间才能从查询串对应的信息记录中找到最感兴趣的信息,并且也会占用过多的***资源。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提供更加接近于用户的真实信息需求的信息记录,从而方便用户快速地从中找到最感兴趣的信息。
发明内容
本申请所要解决的技术问题是提供一种对信息记录进行排序的方法和装置,能够针对环境信息实现有效的搜索排序,使得排序后的信息记录更加接近于用户的真实信息需求。
相应的,本申请还提供了一种信息搜索服务器和信息搜索客户端,能够提供更加接近于用户的真实信息需求的信息记录,从而方便用户快速地从中找到最感兴趣的信息。
为了解决上述问题,本申请公开了一种对信息记录进行排序的方法,所述方法包括:
采集查询串对应的环境信息;
依据所述查询串获取各意图类别的信息记录;
依据所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序;其中,所述查询串对应的环境信息下各意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到。
另一方面,本申请还公开了一种对信息记录进行排序的装置,所述装置包括:
采集模块,用于采集所述查询串对应的环境信息;
信息记录获取模块,用于依据所述查询串获取各意图类别的信息记录;及
类间排序模块,用于依据所述查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序;其中,所述查询串对应的环境信息下意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到。
另一方面,本申请还公开了一种信息搜索服务器,包括:
接收模块,用于接收来自信息搜索客户端的查询串及所述查询串对应的环境信息;
信息搜索模块,用于依据查询串在网络数据中进行搜索,得到各意图类别的信息记录;
类间排序模块,用于依据所述查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整各信息记录的顺序;其中,所述查询串对应的环境信息下意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到;及
返回模块,用于将所述类间排序模块输出的信息记录返回。
另一方面,本申请还公开了一种信息搜索客户端,包括:
查询接收模块,用于接收用户输入的查询串;
环境采集模块,用于采集所述查询串对应的环境信息;
发送模块,用于将所述查询串及所述查询串对应的环境信息发送至信息搜索服务器;及
展现模块,用于对所述信息搜索服务器返回的信息记录进行展现。
优选的,所述信息搜索客户端还包括:
查询日志记录模块,用于将用户标识信息、所述查询串及相应的网页操作历史和环境信息记录至查询日志,所述网页操作历史为查询串对应的信息记录中被用户操作过的网页记录。
与现有技术相比,本申请具有以下优点:
首先,本申请依据查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序;由于用户对不同环境信息下存在着不同的信息需求,而意图类别又与信息需求直接对应的,其能反映用户的不同类别的信息需求,故上述排序能够将更能反映所述查询串对应的环境信息(以下简称当前环境信息)下信息需求的意图类别排在前面,因此,本申请能够使得排序后的信息记录满足于用户的真实信息需求。
其次,本申请对信息记录的排序还可以考虑当前用户针对各意图类别的兴趣的因素;由于每个用户对不同意图类别有着不同的兴趣,而依据对记录有环境信息和用户标识信息的用户日志进行分析统计得到的当前用户在所述查询串对应的环境信息下各意图类别的分布进行排序,能够将当前用户更感兴趣的意图类别排在前面;在查询串相同的情况下,现有技术会向全网用户提供相同的信息记录,而不会考虑用户的个性化需求的问题,本申请能够使得排序后的信息记录更加接近于能够反映用户兴趣度的个性化的真实信息需求。
再者,在对各意图类别的信息记录进行排序以调整各意图类别的信息记录的顺序时,本申请还可以依据当前环境信息对每个意图类别内部的信息记录进行排序,将每个意图类别的信息记录中更能反映当前环境信息下信息需求的网页排在前面,使得排序后的信息记录更加接近于用户的真实信息需求。
本申请的技术方案可以应用于搜索引擎服务、浏览器服务等应用,能够提供更加接近于用户的真实信息需求的信息记录,从而方便用户快速地查看到最感兴趣的信息。
附图说明
图1是本申请一种对信息记录进行排序的方法实施例的流程图;
图2是本申请一种基于搜索引擎的信息搜索方法实施例的流程图;
图3是本申请一种基于浏览器的信息推荐方法实施例的流程图;
图4是本申请图3所述实施例中多展现区域的示例图;
图5是本申请一种对信息记录进行排序的装置实施例的结构图;
图6是本申请一种信息搜索服务器实施例的结构图;
图7是本申请一种信息搜索客户端实施例的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例针对环境信息对信息记录进行排序,由于能够体现不同环境信息下用户的不同信息需求,故能够使得信息记录更加接近于用户的真实信息需求。
本申请实施例中,环境信息主要是指用户所处的周边环境信息,具体可以包括时间环境信息、位置环境信息、温度环境信息、硬件环境信息等等。
在不同的环境信息下,用户的信息需求往往是不同的:以时间环境信息为例,早晨为新一天的开始,故用户在早晨时对新闻信息有着需求;上班时工作为主上网为辅,故在上班时对网页、图片信息存在着需求;晚上为放松娱乐的时刻,在晚上时对音乐、视频信息存在着需求,等等;
以地理环境为例,网吧、家庭为放松娱乐的场所,故用户在网吧、家庭,通常对视频、游戏、音乐等信息存在着需求;办公室为办公场所不宜过度娱乐,故新闻、图片等信息对用户来说足够;机场、车站、宾馆等场所为流动性强的场所,通常关注旅游、天气等信息。即使用户明确了自身的针对视频的信息需求,但是,考虑到办公场所不宜过度娱乐,网吧、家庭适合娱乐的特点,可以认为办公环境下用户想看的是视频的片花,而网吧、家庭环境下用户想看的是高清完整的视频。
综上,本领域技术人员可以根据实际需求,采用上述环境信息中的一种或多种,并且,针对采用的一种或多种环境信息进行细分。例如,通过对时间环境信息进行环境信息分割,将时间环境信息细分为白天和黑夜,或者早晨、上班和晚上等;例如,通过对位置环境信息进行分类,将位置环境信息细分为网吧、攻击、家庭、机场、车站、宾馆等。本申请对具体的细分方式不加以限制。
为了将用户的各种各样的信息需求跟网络数据中的信息记录进行关联,本申请可采用基于分类的思想为信息记录添加意图类别标签,使得不同意图类别对应不同的信息需求;这样,根据环境信息对得到的信息记录进行的排序,就转换为根据环境信息进行意图类别的排序。
关于根据环境信息进行意图类别的排序,本申请使用概率论和数理统计的方法来计算所述查询串对应的环境信息下各意图类别的分布的规律性。具体而言,在离线情况下,对用户日志进行分析统计,得到所述查询串对应环境信息下各意图类别的分布;在线排序时,依据所述查询串对应的环境信息下各意图类别的分布,对各意图类别的信息记录进行排序。
鉴于本申请实施例中使用的概率符号,为方便理解,在此通过表1对各概率符号的名称、含义和获取方法进行解释。
表1
参照图1,示出了本申请一种对信息记录进行排序的方法实施例的流程图,具体可以包括:
步骤101、采集查询串对应的环境信息;
本申请实施例中,依据所述查询串对应的环境信息下各意图类别的分布,对各意图类别的信息记录进行排序;由于用户在不同环境信息下存在着不同的信息需求,而意图类别又是与信息需求直接挂钩的,其能反映用户的不同意图类别的信息需求,故上述排序更能将符合所述查询串对应的环境信息(以下简称当前环境信息)下信息需求的意图类别的信息记录排在前面,因此,本申请能够使得排序后的信息记录更加接近于用户的真实信息需求,从而方便用户使用。
环境信息主要是指用户所处的周边环境信息,即使同一用户,其所处的周边环境信息也很有可能是变化的,时间环境信息就是一个典型的例子。为此,本申请在采集环境信息时,无论是用户输入的查询串还是依据用户输入或用户的当前浏览网页构造的查询串,查询串对应的环境信息均具有实时性;故本申请采集所述查询串对应的环境信息。
针对一个用户输入的查询串,其接收或构造完成时间即是对应的时间环境信息,依据其IP(网络之间互连的协议,Internet Protocol)地址获得的位置信息即是对应的位置环境信息,时间环境信息和位置环境信息对应的温度信息即为温度环境信息、等等。本申请对具体的所述查询串对应的环境信息的方法不加以限制。
步骤102、依据所述查询串获取各意图类别的信息记录;
在本申请的一种优选实施例中,依据所述查询串获取各意图类别的信息记录的步骤,具体可以包括:
首先依据所述查询串在网络数据中搜索得到相应的信息记录,然后依据预置的各意图类别对所述信息记录进行分类,得到各意图类别的信息记录;所述各意图类别根据全网用户为信息记录对应的网页所打的标签进行预置;
和/或,依据所述查询串分别在带有各意图类别标签的网络数据中进行搜索,得到各意图类别的信息记录。即将所述查询串在全网中各意图类别对应的搜索引擎中进行搜索,得到各搜索引擎返回的带有各意图类别标签的搜索结果,从而形成各意图类别的信息记录。由于全网中各搜索引擎的类别客观存在,比如mp3.***.com为音乐类别的搜索引擎,news.sogou.com为新闻类别的搜索引擎,video.***.com为视频类别的搜素引擎等等,可从这些搜索引擎中直接获取对应意图类别的信息记录,所以本申请的意图类别为网络数据所对应的客观存在的属性。
本申请实施例中,所述意图类别主要用于在各信息记录中区分不同的信息需求,在本申请的一种优选实施例中,其具体可以包括视频、图片、资讯、资源、评论或比价类别等。实际中,本领域技术人员还可以根据实际需要,将信息记录划分到其它的各意图类别,以区别不同信息需求,本申请对具体的信息记录的分类方法不加以限制。
步骤103、依据所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序;其中,所述查询串对应的环境信息下各意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到。
在实际中,可以根据实际应用需求选择采用浏览器日志或者搜索引擎的查询日志等用户日志进行统计分析,例如,搜索引擎一般会设置查询日志,而浏览器客户端一般会设置浏览器日志,本申请在已有的查询日志或浏览器日志的基础上增加了环境信息。
在本申请的一种优选实施例中,所述用户日志包括浏览器日志和/或查询日志。所述浏览器日志记录有用户标识信息、浏览网页历史和相应的环境信息;所述查询日志记录有用户标识信息、查询串及相应的网页操作历史和环境信息,所述网页操作历史为查询串对应的信息记录中被用户操作过的网页记录。
P(Ic|T)可用于表示所述查询串对应的环境信息T下意图类别Ic的分布,根据概率论和数理统计方法,可以采用下式对其进行推导:
P ( I c | T ) = Σ d p ( I c d | T ) = Σ d p ( I c d T ) p ( T ) = Σ d p ( I c | d T ) p ( d T ) p ( T ) = Σ d p ( I c | d T ) p ( d | T ) p ( T ) p ( T ) = Σ d p ( d | T ) p ( I c | d T ) - - - ( 1 )
其中,为对联合概率分布P(Ic|T)进行边缘化的操作。
在本申请的一种优选实施例中,可以通过如下步骤依据记录有环境信息的用户日志进行分析统计,得到所述查询串对应的环境信息下意图类别的分布:
子步骤A1、在所述查询串对应的环境信息下依据用户日志对全网中的网页进行分析统计,得到所述查询串对应的环境信息下的网页分布p(d|T);
在使用用户日志进行统计时,可以在所述查询串对应的环境信息下执行统计p(d)的操作,其中,使用查询日志进行分析统计p(d)的操作可用下式表示:
p ( d ) = Σ x p ( d | x ) p ( x ) - - - ( 2 )
其中,x在查询日志中记录。
使用浏览器日志进行分析统计p(d)的操作示例如下:统计某网页d在浏览器日志中出现的次数,在某些情况下,可以用某网页d在浏览器日志中出现的次数除以所有网页在在浏览器日志中出现的次数。
子步骤A2、在所述查询串对应的环境信息下针对某特定网页依据用户日志对各意图类别进行分析统计,得到所述查询串对应的环境信息下特定网页的意图类别分布p(Ic|dT);
在具体实现中,可首先统计p(Ic):
1、以浏览器日志为例,比如现在有五个柱子代表五个意图类别Ic,如果一个网页属于某一个(多个)意图类别上,就在对应的柱子上增加1;从而得到各个柱子上的数值,也即各意图类别Ic的概率分布;
2、使用查询日志进行分析统计p(Ic)的操作可用下式表示:
p ( I c ) = Σ x p ( I c | x ) p ( x ) - - - ( 3 )
在所述查询串对应的环境信息T下针对某特定网页统计p(Ic),那么就得到了p(Ic|dT)。
子步骤A3、以网页为统计样本,对所述查询串对应的环境信息下的网页分布和所述查询串对应的环境信息下特定网页的意图类别分布的乘积进行求和,得到所述查询串对应的环境信息下各意图类别的分布:
在查询串相同的情况下,现有技术会向全网用户展现一致的信息记录,而不会考虑用户的个性化需求。
针对上述问题,在本申请的一种优选实施例中,在考虑当前环境信息的基础上,还可以依据当前用户针对意图类别的兴趣对各意图类别的对应的信息记录进行排序;相应地,所述方法还可以包括:
识别所述查询串对应的当前用户的用户标识信息;
依据当前用户在所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整各信息记录的顺序,其中,当前用户在所述查询串对应的环境信息下各意图类别的分布依据记录有环境信息和用户标识信息的用户日志进行分析统计得到。
刨除环境信息的因素,不同用户对不同意图类别有着不同的兴趣,例如,用户A钟情于综艺节目,每天都会以搜索引擎和/或浏览器观看视频的形式得到想要的综艺节目,而用户B钟情于明星图片,习惯性地以搜索和/或浏览视频的形式得到想要的明星图片。
本优选实施例用概率论和数理统计的方法来研究用户对于意图类别的兴趣的规律性,这里,综合所述查询串对应的环境信息下各意图类别的分布的规律性,最终,本优选实施例统计的是用户在所述查询串对应的环境信息下各意图类别的分布。
由于不同用户对不同意图类别有着不同的兴趣,而依据记录有环境信息和用户标识信息的用户日志进行分析统计,得到的当前用户在所述查询串对应的环境信息下各意图类别的分布进行排序,能够将当前用户更感兴趣的所述意图类别排在前面,因此,本申请能够使得信息记录更加接近于反映用户兴趣度的个性化的真实信息需求。
P(Ic|T,u)可用于表示当前用户在所述查询串对应的环境信息下各意图类别的分布,其可用下式经加权平均统计得到:
P(Ic|T,u)∝λP(T|Ic)P(Ic)+(1-λ)P(T|Ic,u)P(Ic|u) (4)
其中,u代表用户标识(userid),由于每条用户日志中都会记录用户标识,这样,就能得到每个u的所有访问记录,进而,针对u的访问记录统计p(Ic)即可得到P(Ic|u),P(Ic|u)能够反映指的是用户u的各意图类别分布;λ为随机因子。
针对特定意图类别Ic执行p(T)的统计操作即可得到p(T|Ic),p(T)可以用如下公式计算:
p ( T ) = Σ d p ( d T ) - - - ( 5 )
其中,p(dT)=p(T|d)p(d)(6)
其中,p(T|d)可用网页d落在环境信息下的数值与网页d出现的总数的比值计算得到;针对特定用户u和特定意图类别Ic执行p(T)的统计操作即可得到P(T|Ic,u);随机因子λ用于表示所有用户在所述查询串对应的环境信息下意图类别的分布和当前用户在所述查询串对应的环境信息下意图类别的分布,可根据实际需求确定λ的数值。
例如,可以通过对T内用户的日志信息进行人工标注,标注内容为意图类别,调整λ,使得到最好的意图描述准确率时对应的λ值,其中,T可以是多天用户日志中的同一T时间段。
具体而言,人工标注了意图类别排序结果的标准答案,调整λ={0.1,0.2,…,0.9},利用公式(4)右边计算得到不同λ下的结果,对比标准答案和公式结算的意图类别排序结果,能统计出在特定λ下公式计算得到的准确率,准确率最高时对应的λ值就是最终确定的λ值。其中,可以利用NDCG(归一化累积获得折扣,Normalized Discounted Cumulative Gain),NDCG是一种对搜索引擎或相关程序有效性的度量,其计算前k条结果的相关性得分的计算公式为:
N D C G ( k ) = G max , i - 1 ( k ) Σ j : π i ( j ) ≤ k 2 y i , j - 1 log 2 ( 1 + π i ( j ) )
i表示为第i次搜索;j表示为第j条结果;yi,j表示为第j条结果的相关性标注得分,5档制;πi(j)表示为这条结果在排序中的位置。
又如,还可以直接设定λ的数值,0.6,0.8等等,本申请对λ的具体数值不加以限制。
在本申请的一种优选实施例中,可以通过如下步骤识别该用户的身份:
当该用户注册登录时,以该用户的ID作为该用户的用户标识信息;当该用户以未登录状态浏览时,根据该用户的cookie(用于存储用户私有信息的小文本文件)识别该用户的用户标识信息。在实际应用中,对于一个需要用户ID注册登录的网站来说,用户唯一标识符的选择可以遵从以下顺序:当用户注册登录时以用户ID为准,当用户在未登录状态浏览时以用户的cookie为准。
其中,基于cookie的用户识别是现有一种典型的用户识别方法。当通过自定义Apache日志格式或者JavaScript的方法获得用户cookie时,其实已经找到了一个非常有效的用户识别的手段。cookie在未被清除的前提下可以认为是跟某个访问客户端电脑绑定的,所以基于cookie的用户识别的准确度比较高。例如,如在淘宝注册过的用户,便会有cookies信息存储在用户的电脑的c盘里面,当该用户再次访问淘宝时,淘宝的***会去指定的路径去取cookies信息,如果取到了,则即使该用户不登录,也能取到登录名,如果取不到,则会新建一个cookies信息到用户的电脑里面。目前大多数用户都不清除自己的cookies信息。所以,可以利用该技术,得到用户的身份标识。
在本申请的一种优选实施例中,可以通过如下步骤依据记录有环境信息的用户日志进行分析统计得到当前用户在所述查询串对应的环境信息下意图类别的分布:
子步骤B1、对用户日志进行分析统计,得到各意图类别的分布和在特定的意图类别下对应的所述各环境信息的分布,进而统计得到所有用户在所述查询串对应的环境信息下意图类别的分布:
∝表示等价的含义;
子步骤B2、对当前用户日志进行分析统计,得到当前用户的各意图类别的分布和当前用户的在特定的意图类别下对应的所述各环境信息的分布:进而统计得到当前用户在所述查询串对应的环境信息下意图类别的初步分布:
子步骤B3、对所述所有用户在所述查询串对应的环境信息下各意图类别的分布和当前用户在所述查询串对应的环境信息下各意图类别的初步分布进行线性加权处理,得到当前用户在当前所述查询串对应的环境信息下各意图类别的分布:P(Ic|T,u)∝λP(T|Ic)P(Ic)+(1-λ)P(T|Ic,u)P(Ic|u)。
在无当前用户的日志的情况下,即用户第一次浏览,λ=1,当前用户在所述查询串对应的环境信息下各意图类别的分布即为所有用户在当前环境信息下的各意图类别的分布。
上面依据当前环境信息下意图类别的分布或者当前用户在当前环境信息下意图类别的分布,对各意图类别的信息记录进行排序,以调整各意图类别的信息记录的顺序,在本申请的一种优选实施例中,还可以依据当前环境信息对每个意图类别内部的信息记录进行排序,相应地,所述方法还可以包括:
依据所述查询串对应的环境信息下特定意图类别的网页分布,对每个意图类别内部的信息记录进行排序;其中,所述查询串对应的环境信息下特定意图类别的网页分布为依据记录有环境信息的用户日志进行分析统计得到。
本优选实施例在对每个意图类别内部的信息记录进行排序时也考虑了环境信息,将每个意图类别的信息记录中更能反映当前环境信息下信息需求的网页排在前面,能够使得信息记录更加接近于用户的真实信息需求。
例如,视频意图类别的信息记录有多个,包括各种片花视频资源和各种高清视频资源,此时,如果不考虑当前环境信息,一味地将高清视频资源排在前面,可能会使用户出丑;因为如果处于办公场所下,用户不宜过度娱乐,本优选实施例考虑了当前环境信息,故能够使得信息记录更加接近于用户的真实信息需求。
P(d|Ic,T)可用于表示环境信息T下意图类别Ic的网页分布,根据概率论和数理统计方法,可以采用下式对其进行推导:
p(d|Ic,T)=p(Ic,d,T)/p(TIc)=p(Ic,d,T)/(p(Ic|T)·p(T)) (7)
其中,p(Ic,d,T)为所述查询串对应的环境信息、特定意图类别和网页的联合分布,可用下式得到:
p(Ic,d,T)=p(Ic|d,T)·p(T|d)·p(d) (8)
其中,p(Ic|d,T)为在所述查询串对应的环境信息T下特定网页d在意图Ic上的分布,p(T|d)为网页d在所述查询串对应的环境信息T下的分布,p(d)为网页分布,都可直接从浏览器日志中统计获得;
p(TIc)为所述查询串对应的环境信息和特定意图类别的联合分布,可用下式表示:
p(TIc)=p(T|Ic)p(Ic)=p(Ic|T)p(T) (9)
在本申请的一种优选实施例中,可以通过如下步骤对记录有环境信息的用户日志进行分析统计,得到所述查询串对应的环境信息下特定意图类别的网页分布:
子步骤C1、对用户日志进行分析统计,得到全网中的各网页分布、所述查询串对应的环境信息下特定网页的各意图类别分布、及在所述查询串对应的环境信息下的各网页分布;
在所述查询串对应的环境信息T下针对某特定网页统计p(Ic),那么就得到了p(Ic|d,T);
p(T|d)为网页d在所述查询串对应的环境信息T下的分布,针对网页d执行p(T)的统计操作即可得到,其中,p(T)可以用公式(5)计算。
子步骤C2、根据全网中的各网页分布、所述查询串对应的环境信息下特定网页的各意图类别分布、及在所述查询串对应的环境信息下的各网页分布,构造所述查询串对应的环境信息、特定意图类别和全网中的各网页的联合分布;
子步骤C3、依据所述查询串对应的环境信息、特定意图类别和全网中的各网页的联合分布与所述查询串对应的环境信息和特定意图类别的联合分布的比值,统计得到所述查询串对应的环境信息下特定意图类别的网页分布。
在实际应用中,所述查询串对应的环境信息和特定意图类别的联合分布可以用所述查询串对应的环境信息下特定意图类别的分布和所述查询串对应的环境信息的分布的乘积p(TIc)=p(Ic|T)p(T)计算,或者,可用特定意图类别下所述查询串对应的环境信息的分布和特定意图类别的分布的乘积p(TIc)=p(T|Ic)p(Ic)来计算。前面已介绍了p(Ic),p(T),p(Ic|T)的统计方法,针对特定意图类别Ic执行p(T)的统计操作即可得到p(T|Ic)。
为使本领域技术人员更好地理解本申请对信息记录进行排序的方法,以下通过示例介绍其在实际中的应用。
示例1、对搜索引擎中的信息搜索服务进行信息记录的排序;
参照图2,示出了本申请一种基于搜索引擎的信息搜索方法实施例的流程图,具体可以包括:
步骤201、信息搜索客户端接收用户输入的查询串;
步骤202、信息搜索客户端采集所述查询串对应的环境信息;
步骤203、信息搜索客户端将所述查询串及所述查询串对应的环境信息发送至信息搜索服务器;
步骤204、信息搜索服务器接收来自信息搜索客户端的查询串及所述查询串对应的环境信息;
步骤205、信息搜索服务器依据查询串在网络数据中进行搜索,得到各意图类别的信息记录;
步骤206、信息搜索服务器依据所述查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整各信息记录的顺序;其中,所述查询串对应的环境信息下意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到;
步骤207、信息搜索服务器将排序后的搜索结果返回给信息搜索客户端;
步骤208、信息搜索客户端对所述信息搜索服务器返回的搜索结果进行展现。
现有的信息搜索服务中,没有依据环境信息对搜索结果的展现进行调整;而本示例通过对不同环境信息下的查询日志进行统计,并依据统计得到的当前环境信息下意图类别的分布,对各意图类别的搜索结果进行排序,实现基于环境信息的个性化的搜索结果展现;能够提供更加接近于用户的真实信息需求的搜索结果,从而方便用户快速地从中找到最感兴趣的信息。
以下以一具体实例说明:
为了方便举例,环境信息就以时间进行划分(工作时间T1、非工作时间T2);当客户端接收到查询串“倩女幽魂”x后,将x及T1传送给服务器端。服务器依据x检索数据库,获得带有意图类别标签的网页集然后利用当前环境信息T1下意图类别的分布P(Ic|T1)对依据意图类别排序,例如,排序后“倩女幽魂”的搜索结果在T1环境信息的意图类别顺序为“资讯,影视,图片,游戏,…”。
总之,针对现有的信息搜索服务不考虑环境信息而提供统一的搜索结果,本申请使得搜集结果更具备针对性,个性化能力更强,能够方便用户快速地从中找到最感兴趣的信息,减少用户在搜索过程中占用的***资源。
作为一种优选实施例,所述步骤205具体可以包括:首先依据查询串在网络数据中搜索得到相应的信息记录,然后依据各意图类别对所述信息记录进行分类,得到各意图类别的信息记录;和/或,依据所述查询串分别在带有各意图类别标签的网络数据中进行搜索,得到各意图类别的信息记录。
作为一种优选实施例,所述信息搜索方法还可以包括:
步骤D、依据所述查询串对应的环境信息下特定意图类别的网页分布,对每个意图类别内部的信息记录进行排序;其中,所述查询串对应的环境信息下特定意图类别的网页分布为依据记录有环境信息的用户日志进行分析统计得到。
所述步骤D可在步骤206之前或之后执行,步骤D和步骤206中排序次序在后的一者将排序结果输出至步骤207。具体到上例,在各意图类别下可依据P(d|Ic,T1)排序,如T1环境信息“影视”意图类别下“倩女幽魂影评”页面排在“倩女幽魂视频下载”页面之前。
作为一种优选实施例,所述信息搜索方法还可以包括:
步骤E1、识别所述查询串对应的当前用户的用户标识信息;
步骤E2、对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序。
步骤E2替代步骤206,这样步骤E2的结果输出至步骤207。
作为一种优选实施例,所述信息搜索方法还可以包括相关性排序步骤:依据搜索结果与所述查询串之间的相关性,按照相关性由高至低的顺序对所述信息搜索模块输出的信息记录进行相关性排序。其中,相关性排序可在步骤206之前或之后执行,相关性排序步骤和步骤206的最终结果输出至步骤208。
需要说明的是,所述信息服务客户端还可以将用户标识、所述查询串及相应的被访问网页和环境信息记录至查询日志,所述被访问网页为信息记录中被用户访问的网页。
示例2、信息推荐服务中信息记录的排序,信息记录表现为推荐结果。
参照图3,示出了本申请一种基于浏览器的信息推荐方法实施例的流程图,具体可以包括:
步骤301、依据用户的输入或用户的当前浏览网页构造查询串;
步骤302、采集用户的输入或用户的当前浏览网页对应的环境信息,作为所述查询串对应的环境信息;
步骤303、依据所述查询串在网络数据中进行搜索,得到各意图类别的推荐结果;
步骤304、依据所述查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整推荐结果的顺序;其中,所述查询串对应的环境信息下意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到;
步骤305、对排序后各意图类别的推荐结果进行展现。
现有的信息推荐服务在对推荐结果进行排序时,并未考虑环境信息,而本申请依据当前环境信息调整推荐结果并进行展示,能够实现个性化的浏览推荐。
相应的示例:
例1.早晨时,新闻类别的推荐排前;上班时,web、图片类别的推荐排前;晚上时,视频、音乐类别的推荐排前。
例2.在网吧,视频、游戏、音乐等类别推荐排前;在办公室,新闻、图片等类别推荐排前;在机场、车站、宾馆等场所,旅游、天气等类别信息推荐排前,等等。
例3.同一视频输入需求,办公环境,片花排序在前;网吧,家庭等环境,高清、完整视频资源排序在前,等等。
下面用一实例来介绍整个流程:
用户在浏览与“王小川”相关的网页时,利用网页标题,url及正文信息构造查询串“王小川”;然后,从“资讯,图片,影视”等意图类别中检索“王小川”,返回各意图类别下的搜索结果;接着,依据P(Ic|T1)对各意图类别排序。
作为一种优选实施例,所述基于浏览器的信息推荐方法还可以包括:
步骤F、依据所述查询串对应的环境信息下特定意图类别的网页分布,对每个意图类别内部的浏览信息进行排序;其中,所述查询串对应的环境信息下特定意图类别的网页分布为依据记录有环境信息的用户日志进行分析统计得到。
所述步骤F可在步骤304之前或之后执行,步骤F和步骤304中排序次序在后的一者将排序结果输出至步骤305。具体到上例,在各意图类别下可依据P(d|Ic,T1)排序,如T1环境信息“资讯”意图类别下“搜狗浏览器带领王小川走向成功”页面排在“搜狗CEO王小川布道互联网”页面之前。
作为一种优选实施例,所述基于浏览器的信息推荐方法还可以包括:
步骤G1、识别所述查询串对应的当前用户的用户标识信息;
步骤G2、依据当前用户在所述查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整推荐结果的顺序,其中,当前用户在所述查询串对应的环境信息下意图类别的分布为依据记录有环境信息和用户标识信息的用户日志进行分析统计得到。
步骤G2替代步骤304,这样步骤G2的结果输出至步骤305。
总之,本优选实施例可以依据环境信息、用户标识信息实现个性化的信息推荐服务,推荐了更精准、更个性化的推荐结果。
在本申请一种优选实施例中,所述基于浏览器的信息推荐方法还可以将用户标识、所述当前浏览网页和相应的环境推荐结果至浏览器日志;和/或,将用户标识、所述查询串及相应的网页操作历史和环境信息记录至查询日志,所述网页操作历史查询串对应的推荐结果中被用户点击访问操作过的网页记录。
在本申请的另一种优选实施例中,所述步骤305可以具体为,在预置的各展现区域内对所述类间排序模块所输出的各意图类别的推荐结果进行展现,其中,在每个展现区域内展现一个意图类别的推荐结果中排在前面的若干个。参照图4,示出了本申请一种多展现区域的示例,其中,“资讯”、“图片”、“影视”意图类别排在推荐结果的前三位,且分别显示在相应的展现区域内。
在本申请的再一种优选实施例中,可使用排序学习方法,依据用户的输入或用户的当前浏览网页构造查询串,具体可以包括:
步骤H1、从所述当前浏览网页中提取候选词组;
这里,可采用汉语切分、命名实体识别、词性、tf/idfTF-IDF(词频/逆向文件频率,term frequency/inverse document frequency)等步骤提取候选词组。
步骤H2、从所述候选词组中挑选出候选词作为查询串。
排序学习方法大致可以分为三个大类:基于回归的排序学习、基于分类的排序学习和基于顺序回归的排序学习。其中,基于顺序回归的排序学习算法是当前排序学习研究的热点,具体可以报考排序感知机算法(PRank)、改进的排序感知机算法(Large Marge PRank)和支持向量顺序回归算法(SupportVector Ordinal Regression)为代表的基于数据点(Point-wise)排序学习算法,以排序支持向量机算法(Rank SVM)、RankBoost算法和RankNet算法为代表的基于有序对(Pair-wise)的排序学习算法。本申请可以采用上述任一排序学习方法,从所述候选词组中挑选出最能代表当前页面的意图词组子集。
与前述对信息记录进行排序的方法相应,本申请还提供了一种对信息记录进行排序的装置,参照图5,所述装置具体可以包括:
采集模块501,用于采集所述查询串对应的环境信息;
信息记录获取模块502,用于依据所述查询串获取各意图类别的信息记录;及
类间排序模块503,用于依据所述查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序;其中,所述查询串对应的环境信息下意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到。
在本申请优选实施例中,优选的是,所述用户日志包括浏览器日志和/或查询日志;所述浏览器日志记录有用户标识信息、浏览网页历史和相应的环境信息;所述查询日志记录有用户标识信息、查询串及相应的网页操作历史和环境信息,所述网页操作历史为查询串对应的信息记录中被用户操作过的网页记录。
在本申请优选实施例中,优选的是,所述环境信息具体可以包括时间环境信息、位置环境信息、温度环境信息或硬件环境信息。在本申请优选实施例中,优选的是,所述意图类别具体可以包括视频、图片、资讯、资源、评论或比价类别。
在本申请的一种优选实施例中,所述装置还可以包括:
第一统计模块,用于依据记录有环境信息的用户日志进行分析统计得到所述查询串对应的环境信息下意图类别的分布,包括:
第一统计子模块,用于在所述查询串对应的环境信息下依据用户日志对全网中的网页进行分析统计,得到所述查询串对应的环境信息下的各网页分布;
第二统计子模块,用于在所述查询串对应的环境信息下针对某特定网页依据用户日志对各意图类别进行分析统计,得到所述查询串对应的环境信息下特定网页的意图类别分布;及
求和子模块,用于以网页为变量,对所述查询串对应的环境信息下的网页分布和查询串对应的环境信息下特定网页的意图类别分布的乘积进行求和,得到意图类别在所述查询串对应的环境信息下的分布。
在本申请的另一种优选实施例中,所述装置还可以包括:
识别模块,用于识别所述查询串对应的当前用户的用户标识信息;
兴趣度类间排序模块,用于依据当前用户在所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整各信息记录的顺序,其中,用户在所述查询串对应的环境信息下各意图类别的分布为依据对记录有环境信息和用户标识信息的用户日志进行分析统计得到。
在本申请的再一种优选实施例中,所述装置还可以包括:
第二统计模块,用于依据记录有环境信息的用户日志进行分析统计得到用户在所述查询串对应的环境信息下意图类别的分布,具体可以包括:
第三统计子模块,用于对用户日志进行分析统计,得到意图类别的分布和在特定的意图类别下对应的所述各环境信息的分布,进而统计得到所有用户在所述查询串对应的环境信息下意图类别的分布;
第四统计子模块,用于对当前用户日志进行分析统计,得到当前用户的各意图类别的分布和当前用户的在特定的意图类别下对应的所述各环境信息的分布,进而统计得到当前用户在所述查询串对应的环境信息下意图类别的初步分布;及
线性加权处理子模块,用于对所述所有用户在所述查询串对应的环境信息下意图类别的分布和用户在所述查询串对应的环境信息下意图类别的初步分布进行线性加权处理,得到当前用户在当前所述查询串对应的环境信息下意图类别的分布。
在本申请的一种优选实施例中,所述装置还可以包括:
类别内排序模块,用于依据所述查询串对应的环境信息下特定意图类别的网页分布,对每个意图类别内部的信息记录进行排序;其中,所述查询串对应的环境信息下特定意图类别的网页分布为依据记录有环境信息的用户日志进行分析统计得到。
在本申请的另一种优选实施例中,所述装置还可以包括:
第三统计模块,用于依据记录有环境信息的用户日志进行分析统计得到所述查询串对应的环境信息下特定意图类别的网页分布,包括:
第五统计子模块,用于对用户日志进行分析统计,得到全网中的各网页分布、所述查询串对应的环境信息下特定网页的各意图类别分布、及在所述查询串对应的环境信息下的各网页分布;
第六统计子模块,用于根据全网中的各网页分布、所述查询串对应的环境信息下特定网页的各意图类别分布、及在所述查询串对应的环境信息下的各网页分布,构造所述查询串对应的环境信息、特定意图类别和全网中的各网页的联合分布;及
第七统计子模块,用于依据所述查询串对应的环境信息、特定意图类别和全网中的各网页的联合分布与所述查询串对应的环境信息和特定意图类别的联合分布的比值,统计得到所述查询串对应的环境信息下特定意图类别的各网页分布。
在本申请实施例中,优选的是,所述信息记录获取模块,可具体用于依据所述查询串在网络数据中搜索得到相应的信息记录,并依据各意图类别对所述信息记录进行分类,得到各意图类别的信息记录;和/或,依据所述查询串分别在带有各意图类别标签的网络数据中进行搜索,得到各意图类别的信息记录。
在本申请的一种优选实施例中,所述装置还可以包括:展现模块,用于对所述类间排序模块输出的各意图类别的信息记录进行展现。
在本申请实施例中,优选的是,所述展现模块,可具体用于在预置的各展现区域内对所述类间排序模块所输出的各意图类别的信息记录进行展现。
在本申请实施例中,优选的是,所述查询串来源于用户输入或用户的当前浏览网页。
对于对信息记录进行排序的装置实施例而言,由于其与对信息记录进行排序的方法实施例基本相似,所以描述的比较简单,相关之处参见对信息记录进行排序的方法实施例的部分说明即可。
参照图6,示出了本申请一种信息搜索服务器实施例的结构图,具体可以包括:
接收模块601,用于接收来自信息搜索客户端的查询串及所述查询串对应的环境信息;
信息搜索模块602,用于依据查询串在网络数据中进行搜索,得到各意图类别的信息记录;
类间排序模块603,用于依据所述查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整各信息记录的顺序;其中,所述查询串对应的环境信息下意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到;及
返回模块604,用于将所述类间排序模块输出的信息记录返回给信息搜索客户端。
在本申请的一种优选实施例中,所述信息搜索模块602,可具体在用户使用搜索引擎时用于依据查询串在网络数据中搜索得到相应的信息记录,并依据各意图类别对所述信息记录进行分类,得到各意图类别的信息记录;和/或,在用户使用浏览器进行信息浏览时依据当前浏览页面对应的所述查询串分别在带有各意图类别标签的网络数据中进行搜索,得到各意图类别的信息记录。
在本申请的一种优选实施例中,所述信息搜索服务器还可以包括:
第一相关性排序模块,用于依据信息记录与所述查询串之间的相关性,对所述信息搜索模块输出的信息记录进行第一相关性排序,并将第一相关性排序后的信息记录输出至所述分类模块;或者
第二相关性排序模块,用于依据信息记录与所述查询串之间的相关性,对所述类间排序模块输出的信息记录进行第二相关性排序,并将第二相关性排序后的信息记录输出至所述返回模块。
在本申请的一种优选实施例中,所述信息搜索服务器还可以包括:
识别模块,用于识别所述查询串对应的当前用户的用户标识信息;
兴趣类间排序模块,用于依据当前用户在所述查询串对应的环境信息下各意图类别的分布,从而对各意图类别的信息记录进行排序,其中,当前用户在所述查询串对应的环境信息下各意图类别的分布依据对记录有环境信息和用户标识信息的用户日志进行分析统计得到;
所述返回模块,还用于将所述兴趣类间排序模块输出的信息记录返回给信息搜索客户端,也可以返回由所述类间排序模块和兴趣类间排序模块综合处理完毕所输出的信息记录给信息搜索客户端。
在本申请的一种优选实施例中,所述信息搜索服务器还可以包括:
类别内排序模块,用于在所述类间排序模块之前或之后,依据所述查询串对应的环境信息下特定意图类别的网页分布,对每个意图类别内部的信息记录进行排序;其中,所述查询串对应的环境信息下特定意图类别的网页分布为对记录有环境信息的用户日志进行分析统计得到;
所述返回模块,还用于将所述类别内排序模块输出的信息记录返回给信息搜索客户端;也可以返回所述类间排序模块的输出的信息记录给信息搜索客户端,或是经所述类间排序模块和类别内排序模块综合处理完毕所输出的信息记录给信息搜索客户端,或是经所述类间排序模块、兴趣类间排序模块和类别内排序模块综合处理完毕所输出的信息记录给信息搜索客户端。
参照图7,示出了本申请一种信息搜索客户端实施例的结构图,具体可以包括:
接收模块701,用于接收用户输入的查询串;
环境采集模块702,用于采集所述查询串对应的环境信息;
发送模块703,用于将所述查询串及所述查询串对应的环境信息发送至信息搜索服务器;及
展现模块704,用于对所述信息搜索服务器返回的信息记录进行展现。
在本申请的一种优选实施例中,所述信息搜索客户端还可以包括:
查询日志记录模块,用于将用户标识信息、所述查询串及相应的网页操作历史和环境信息记录至查询日志,所述网页操作历史为查询串对应的信息记录中被用户操作过的网页记录。
对于信息搜索服务器和客户端的实施例而言,由于其与对信息记录进行排序的方法实施例基本相似,所以描述的比较简单,相关之处参见对信息记录进行排序的方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种对信息记录进行排序的方法和装置、一种信息搜索服务器和信息搜索客户端,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

1.一种对信息记录进行排序的方法,其特征在于,所述方法包括:
实时采集查询串对应的环境信息;其中,所述环境信息包括:所述查询串对应用户所处的周边环境信息;
依据所述查询串获取各意图类别的信息记录;其中,所述意图类别用于在各信息记录中区分不同的信息需求;
依据所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序;其中,所述查询串对应的环境信息下各意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到;
其中,所述方法还包括:
依据所述查询串对应的环境信息下特定意图类别的各网页分布,对每个意图类别的信息记录进行排序;其中,所述查询串对应的环境信息下特定意图类别的各网页分布为依据记录有环境信息的用户日志进行分析统计得到。
2.如权利要求1所述的方法,其特征在于,通过如下步骤得到所述查询串对应的环境信息下各意图类别的分布:
在所述查询串对应的环境信息下依据用户日志对全网中的网页进行分析统计,得到所述环境信息下的各网页分布;
在所述查询串对应的环境信息下针对某特定网页依据用户日志对各意图类别进行分析统计,得到所述环境信息下特定网页的意图类别分布;
以各网页为统计样本,对所述环境信息下的各网页分布和所述环境信息下特定网页的意图类别分布进行统计,得到所述查询串对应的环境信息下各意图类别的分布。
3.如权利要求1所述的方法,其特征在于,还包括:
识别所述查询串对应的当前用户的用户标识信息;
依据当前用户在所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整各信息记录的顺序;其中,所述当前用户在所述查询串对应的环境信息下各意图类别的分布依据对记录有环境信息和用户标识信息的用户日志进行分析统计得到。
4.如权利要求3所述的方法,其特征在于,通过如下步骤得到当前用户在所述查询串对应的环境信息下各意图类别的分布:
对用户日志进行分析统计,得到各意图类别的分布和在特定的意图类别下对应的所述各环境信息的分布,进而统计得到所有用户在所述环境信息下各意图类别的分布;
对当前用户日志进行分析统计,得到当前用户的各意图类别的分布和当前用户在特定的意图类别下对应的所述各环境信息的分布,进而统计得到当前用户在所述环境信息下各意图类别的初步分布;
对所述所有用户在所述环境信息下各意图类别的分布和所述当前用户在所述环境信息下各意图类别的初步分布进行加权处理,得到所述当前用户在所述查询串对应的环境信息下各意图类别的分布。
5.如权利要求1所述的方法,其特征在于,通过如下步骤得到所述查询串对应的环境信息下特定意图类别的各网页分布:
对用户日志进行分析统计,得到全网中的各网页分布、所述查询串对应的环境信息下特定网页的各意图类别分布、及在所述查询串对应的环境信息下的各网页分布;
根据全网中的各网页分布、所述查询串对应的环境信息下特定网页的各意图类别分布、及在所述查询串对应的环境信息下的各网页分布,构造所述查询串对应的环境信息、特定意图类别和全网中的各网页的联合分布;
依据所述查询串对应的环境信息、特定意图类别和全网中的各网页的联合分布与所述查询串对应的环境信息和特定意图类别的联合分布的比值,统计得到所述查询串对应的环境信息下特定意图类别的各网页分布。
6.如权利要求1至4中任一项所述的方法,其特征在于,所述依据所述查询串获取各意图类别的信息记录时:
依据所述查询串在网络数据中搜索得到相应的信息记录,并依据各意图类别对所述信息记录进行分类,得到各意图类别的信息记录;
和/或,依据所述查询串分别在带有各意图类别标签的网络数据中进行搜索,得到各意图类别的信息记录。
7.如权利要求1至4中任一项所述的方法,其特征在于,所述用户日志包括浏览器日志和/或查询日志;所述浏览器日志记录有用户标识信息、浏览网页历史和相应的环境信息;所述查询日志记录有用户标识信息、查询串及相应的网页操作历史和环境信息,所述网页操作历史为查询串对应的信息记录中被用户操作过的网页记录。
8.如权利要求1至4中任一项所述的方法,其特征在于,还包括:
对排序后的各意图类别的信息记录进行展现。
9.如权利要求8所述的方法,其特征在于,还包括:在预置的各展现区域内对各意图类别的推荐结果进行展现。
10.如权利要求1至4中任一项所述的方法,其特征在于,所述查询串来源于用户输入或用户当前浏览的网页。
11.一种对信息记录进行排序的装置,其特征在于,所述装置包括:
采集模块,用于实时采集查询串对应的环境信息;其中,所述环境信息包括:所述查询串对应用户所处的周边环境信息;
信息记录获取模块,用于依据所述查询串获取各意图类别的信息记录;其中,所述意图类别用于在各信息记录中区分不同的信息需求;及
类间排序模块,用于依据所述查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序;其中,所述查询串对应的环境信息下意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到;
其中,所述装置还包括:
类别内排序模块,用于依据所述查询串对应的环境信息下特定意图类别的网页分布,对每个意图类别内部的信息记录进行排序;其中,所述查询串对应的环境信息下特定意图类别的网页分布为依据记录有环境信息的用户日志进行分析统计得到。
12.如权利要求11所述的装置,其特征在于,还包括:
第一统计模块,用于得到所述查询串对应的环境信息下意图类别的分布,包括:
第一统计子模块,用于在所述查询串对应的环境信息下依据用户日志对全网中的网页进行分析统计,得到所述环境信息下的各网页分布;
第二统计子模块,用于在所述查询串对应的环境信息下针对某特定网页依据用户日志对各意图类别进行分析统计,得到所述环境信息下特定网页的意图类别分布;及
求和子模块,用于以网页为变量,对所述环境信息下的网页分布和所述环境信息下特定网页的意图类别分布进行统计,得到意图类别在所述查询串对应的环境信息下的分布。
13.如权利要求11所述的装置,其特征在于,还包括:
识别模块,用于识别所述查询串对应的当前用户的用户标识信息;
兴趣度类间排序模块,用于依据当前用户在所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整各信息记录的顺序,其中,所述当前用户在所述查询串对应的环境信息下各意图类别的分布为依据对记录有环境信息和用户标识信息的用户日志进行分析统计得到。
14.如权利要求13所述的装置,其特征在于,还包括:
第二统计模块,用于得到用户在所述查询串对应的环境信息下各意图类别的分布,包括:
第三统计子模块,用于对用户日志进行分析统计,得到意图类别的分布和在特定的意图类别下对应的各环境信息的分布,进而统计得到所有用户在所述环境信息下意图类别的分布;
第四统计子模块,用于对当前用户日志进行分析统计,得到当前用户的意图类别的分布和当前用户在特定的意图类别下对应的所述各环境信息的分布,进而统计得到当前用户在所述环境信息下意图类别的初步分布;及
线性加权处理子模块,用于对所述所有用户在所述环境信息下意图类别的分布和所述当前用户在所述环境信息下意图类别的初步分布进行加权处理,得到所述当前用户在所述查询串对应的环境信息下意图类别的分布。
15.一种信息搜索服务器,其特征在于,包括:
接收模块,用于接收来自信息搜索客户端的查询串及所述查询串对应的环境信息;其中,所述环境信息包括:所述信息搜索客户端实时采集的、所述查询串对应用户所处的周边环境信息;
信息搜索模块,用于依据查询串在网络数据中进行搜索,得到各意图类别的信息记录;其中,所述意图类别用于在各信息记录中区分不同的信息需求;
类间排序模块,用于依据所述查询串对应的环境信息下意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整各信息记录的顺序;其中,所述查询串对应的环境信息下意图类别的分布由依据记录有环境信息的用户日志进行分析统计得到;及
返回模块,用于将所述类间排序模块输出的信息记录返回;
其中,所述信息搜索服务器还包括:
类别内排序模块,用于依据所述查询串对应的环境信息下特定意图类别的网页分布,对每个意图类别内部的信息记录进行排序;其中,所述查询串对应的环境信息下特定意图类别的网页分布为对记录有环境信息的用户日志进行分析统计得到;
所述返回模块,还用于将所述类别内排序模块输出的信息记录返回给信息搜索客户端。
16.如权利要求15所述的信息搜索服务器,其特征在于,所述信息搜索模块,具体用于依据查询串在网络数据中搜索得到相应的信息记录,并依据各意图类别对所述信息记录进行分类,得到各意图类别的信息记录;和/或,依据所述查询串分别在带有各意图类别标签的网络数据中进行搜索,得到各意图类别的信息记录。
17.如权利要求15所述的信息搜索服务器,其特征在于,还包括:
第一相关性排序模块,用于依据信息记录与所述查询串之间的相关性对所述信息搜索模块输出的信息记录进行第一相关性排序,并将第一相关性排序后的信息记录输出至所述类间排序模块;或者
第二相关性排序模块,用于依据信息记录与所述查询串之间的相关性对所述类间排序模块输出的信息记录进行第二相关性排序,并将第二相关性排序后的信息记录输出至所述返回模块。
18.如权利要求15所述的信息搜索服务器,其特征在于,还包括:
识别模块,用于识别所述查询串对应的当前用户的用户标识信息;
兴趣类间排序模块,用于依据当前用户在所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,并依据意图类别的排序结果调整信息记录的顺序,其中,所述当前用户在所述查询串对应的环境信息下各意图类别的分布依据对记录有环境信息和用户标识信息的用户日志进行分析统计得到;
所述返回模块,还用于将所述兴趣类间排序模块输出的信息记录返回给信息搜索客户端。
19.一种信息搜索客户端,其特征在于,包括:
查询接收模块,用于接收用户输入的查询串;
环境采集模块,用于实时采集所述查询串对应的环境信息;其中,所述环境信息包括:所述查询串对应用户所处的周边环境信息;
发送模块,用于将所述查询串及所述查询串对应的环境信息发送至信息搜索服务器;及
展现模块,用于对所述信息搜索服务器返回的信息记录进行展现;其中,所述信息记录为依据所述查询串对应的环境信息下各意图类别的分布,对意图类别进行排序,依据意图类别的排序结果调整信息记录的顺序,以及,依据所述查询串对应的环境信息下特定意图类别的网页分布,对每个意图类别内部的信息记录进行排序得到,所述意图类别用于在各信息记录中区分不同的信息需求。
20.如权利要求19所述的信息搜索客户端,其特征在于,还包括:
查询日志记录模块,用于将用户标识信息、所述查询串及相应的网页操作历史和环境信息记录至查询日志,所述网页操作历史为查询串对应的信息记录中被用户操作过的网页记录。
CN201210038993.2A 2012-02-20 2012-02-20 对信息记录进行排序的方法和装置 Active CN102622417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210038993.2A CN102622417B (zh) 2012-02-20 2012-02-20 对信息记录进行排序的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210038993.2A CN102622417B (zh) 2012-02-20 2012-02-20 对信息记录进行排序的方法和装置

Publications (2)

Publication Number Publication Date
CN102622417A CN102622417A (zh) 2012-08-01
CN102622417B true CN102622417B (zh) 2016-08-31

Family

ID=46562336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210038993.2A Active CN102622417B (zh) 2012-02-20 2012-02-20 对信息记录进行排序的方法和装置

Country Status (1)

Country Link
CN (1) CN102622417B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593353B (zh) * 2012-08-15 2018-11-13 阿里巴巴集团控股有限公司 信息搜索方法、展示信息排序权重值确定方法及其装置
CN103810210B (zh) * 2012-11-14 2018-10-19 腾讯科技(深圳)有限公司 搜索结果显示方法及装置
CN103838754B (zh) * 2012-11-23 2017-12-22 腾讯科技(深圳)有限公司 信息搜索装置及方法
CN103885979B (zh) * 2012-12-21 2018-06-05 深圳市世纪光速信息技术有限公司 推送信息的方法和装置
CN104112235B (zh) * 2013-04-22 2018-05-29 中广核工程有限公司 核电项目经验反馈信息搜索的方法及***
CN104657397B (zh) * 2013-11-25 2020-03-03 腾讯科技(深圳)有限公司 一种信息处理方法及终端
CN104699725B (zh) * 2013-12-10 2018-10-09 阿里巴巴集团控股有限公司 数据搜索处理方法及***
US10666735B2 (en) 2014-05-19 2020-05-26 Auerbach Michael Harrison Tretter Dynamic computer systems and uses thereof
US9742853B2 (en) * 2014-05-19 2017-08-22 The Michael Harrison Tretter Auerbach Trust Dynamic computer systems and uses thereof
CN104572960B (zh) * 2014-12-29 2018-07-06 北京奇虎科技有限公司 一种搜索的方法及装置
CN104715011A (zh) * 2014-12-31 2015-06-17 上海孩子国科教设备有限公司 进行数据检索的方法及***
CN105302903B (zh) * 2015-10-27 2018-12-14 广州神马移动信息科技有限公司 搜索方法、装置、***以及搜索结果调序依据的确定方法
CN105893427A (zh) * 2015-12-07 2016-08-24 乐视网信息技术(北京)股份有限公司 资源搜索方法以及服务器
CN106874413A (zh) * 2017-01-22 2017-06-20 斑马信息科技有限公司 搜索***及其搜索结果处理方法
CN107515857B (zh) * 2017-08-31 2020-08-18 科大讯飞股份有限公司 基于定制技能的语义理解方法及***
CN107832432A (zh) * 2017-11-15 2018-03-23 北京百度网讯科技有限公司 一种搜索结果排序方法、装置、服务器和存储介质
CN108897785A (zh) * 2018-06-08 2018-11-27 Oppo(重庆)智能科技有限公司 搜索内容推荐方法、装置、终端设备及存储介质
CN108763579B (zh) * 2018-06-08 2020-12-22 Oppo(重庆)智能科技有限公司 搜索内容推荐方法、装置、终端设备及存储介质
CN110162535B (zh) * 2019-03-26 2023-11-07 腾讯科技(深圳)有限公司 用于执行个性化的搜索方法、装置、设备以及存储介质
CN110990598B (zh) * 2019-11-18 2020-11-27 北京声智科技有限公司 资源检索方法、装置、电子设备及计算机可读存储介质
CN113254513B (zh) * 2021-07-05 2021-09-28 北京达佳互联信息技术有限公司 排序模型生成方法、排序方法、装置、电子设备
CN113792225B (zh) * 2021-08-25 2023-08-18 北京库睿科技有限公司 一种多数据类型分层排序方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1050830A2 (en) * 1999-05-05 2000-11-08 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles
CN1758248A (zh) * 2004-10-05 2006-04-12 微软公司 用于提供个性化搜索和信息访问的***、方法和接口

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082365B2 (en) * 2001-08-16 2006-07-25 Networks In Motion, Inc. Point of interest spatial rating search method and system
US7693827B2 (en) * 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1050830A2 (en) * 1999-05-05 2000-11-08 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles
CN1758248A (zh) * 2004-10-05 2006-04-12 微软公司 用于提供个性化搜索和信息访问的***、方法和接口

Also Published As

Publication number Publication date
CN102622417A (zh) 2012-08-01

Similar Documents

Publication Publication Date Title
CN102622417B (zh) 对信息记录进行排序的方法和装置
US12001490B2 (en) Systems for and methods of finding relevant documents by analyzing tags
CN102364473B (zh) 融合地理信息与视觉信息的网络新闻检索***及方法
CN102982042B (zh) 一种个性化内容推荐方法、平台以及***
CN103886090B (zh) 基于用户喜好的内容推荐方法及装置
Bennett et al. Inferring and using location metadata to personalize web search
US7756879B2 (en) System and method for estimating user ratings from user behavior and providing recommendations
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
CN111914172B (zh) 一种基于用户标签的医学信息推荐方法及***
KR20110085995A (ko) 검색 결과들의 제공
KR20070038146A (ko) 검색 결과에서 배치 내용 정렬의 개인화
CN102236646A (zh) 对象级垂直搜索引擎个性化排序算法iRank
CN104462336A (zh) 信息推送方法和装置
Jiang et al. Towards intelligent geospatial data discovery: a machine learning framework for search ranking
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
Arguello et al. The effect of aggregated search coherence on search behavior
US20150160847A1 (en) System and method for searching through a graphic user interface
CN103425767B (zh) 一种提示数据的确定方法和***
KR20190055963A (ko) 키워드검색 분석을 통한 온라인 쇼핑몰의 상품 노출 시스템 및 그 운영방법
Melese Food and restaurant recommendation system using hybrid filtering mechanism
KR20100024722A (ko) 콘텐츠 매치 기술을 이용한 관련 정보 제공 시스템 및 방법과, 이를 이용한 콘텐츠 제공 서비스 운용 방법
JP2019164438A (ja) レコメンド動画決定装置、レコメンド動画決定方法、およびプログラム
JP7462198B1 (ja) キーワード収集方法、情報処理装置およびプログラム
CN109684474B (zh) 用于提供写作话题的方法、装置、设备和存储介质
JP5232599B2 (ja) ドキュメント検索装置、方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant