CN101604340B - 一种获得查询的时新性的方法 - Google Patents

一种获得查询的时新性的方法 Download PDF

Info

Publication number
CN101604340B
CN101604340B CN2009101600651A CN200910160065A CN101604340B CN 101604340 B CN101604340 B CN 101604340B CN 2009101600651 A CN2009101600651 A CN 2009101600651A CN 200910160065 A CN200910160065 A CN 200910160065A CN 101604340 B CN101604340 B CN 101604340B
Authority
CN
China
Prior art keywords
document
timeliness
inquiry
time
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101600651A
Other languages
English (en)
Other versions
CN101604340A (zh
Inventor
胡熠
刘云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2009101600651A priority Critical patent/CN101604340B/zh
Publication of CN101604340A publication Critical patent/CN101604340A/zh
Application granted granted Critical
Publication of CN101604340B publication Critical patent/CN101604340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获得查询的时新性的方法,属于通讯技术领域。所述方法包括:在缓存的全部文档中获得查询的命中文档,所述全部文档具有时间标识;根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性。本发明实施例通过根据查询命中文档及其时间标识、全部文档及其时间标识获得查询的领域时新性,降低人力资源的耗费并能够全面地获得查询的领域时新性。

Description

一种获得查询的时新性的方法
技术领域
本发明涉及通讯技术领域,特别涉及一种获得查询的时新性的方法。
背景技术
查询是在用户使用网页的搜索引擎时,为查找自己所需的网页信息,向搜索引擎输入的表达自己查询意图的字符串,可以由一个或多个查询词组成。查询所表达的语义(如人物、事件等)在某个领域里被关注的程度被称为查询的领域时新性,或简称时新性。
获得查询的领域时新性在搜索的很多方面都能提供帮助,举例来说:
1、根据一个查询在某领域(如新闻)中的时新性,在返回的结果中调整该领域网页的排名;
2、由于搜索引擎的服务器的缓存中所保存的热门查询每经过一段时间都需要进行动态的更换,在这种动态的更换过程中,服务器会参考各个查询的领域时新性,删除缓存中时新性不高或明显下降的查询、加入时新性较高或明显上升的查询,提高服务器的缓存对用户的查询的命中率。
由此不难看出,查询的领域时新性对搜索引擎的服务器可以为用户提供更好的搜索体验是非常重要的。
在现有技术中,一个查询的领域时新性可以但不限于通过以下方式获得:
第一种方式为通过人工的方式按照某种标准进行挑选。即按照某种标准(如周期时间内查询次数最多等)人工收集一段时间内某领域时新性较高的查询集合。例如搜索风云榜,主要的挑选依据是查询被检索的次数,即默认查询被检索的次数越多其时新性越高,然后按照领域分类排行,如“十大电影风云榜”、“十大游戏风云榜”、“十大体育热点风云榜”等等。由于排行榜上的查询都是人工挑选的语义完整的简单查询,因此排行榜比较准确。
另一种方式为从领域文档中自动挖掘。即首先获取所关注领域的大量文档、然后按照文档的时间标识将文档分到各个时间段、挑选代表不同时间段的查询词、默认出现频率随时间显著变化的查询词就是时间敏感的查询词;最后在最近的时间段里挑选时间敏感的查询词赋以较高的时新性。例如:部分研究者从短文本(如手机短信)中抽取时间敏感的字串。结合数据流领域的相关算法Deltoid算法,应用于海量短文本的实时在线处理。这一实时在线处理工作主要分为三个阶段:首先为前处理阶段,将短文本根据其时间标识划分时间段,然后去除噪声并将每个时间段的短文本转化成字串序列,此时的字串序列可能是无完整语义的字符串。然后为候选字串发现阶段,通过比较两个时间段的字串序列,找出其中出现频率显著变化的字串,在这个阶段可以使用数据流领域的Deltoid算法。再次为后处理阶段,通过对候选字串进行拼接和筛选,得到最终的输出结果。在这个阶段把没有完整语义的前处理阶段的字符串拼接成较为完整的字符串。期望获得具有完整语义的串。
在实现本发明的过程中,发明人发现现有技术至少存在以下缺点:
通过人工方式获得查询的领域时新性人力资源耗费较大,另外对非排行榜上或者从来没有以查询方式输入的查询串,很难实时确定其时新性;
通过自动方式获得查询的领域时新性的运算量和存储量比较大、而且所使用的频率均为绝对频率,并不能完全反映出查询的领域时新性、同时,自动处理的过程中无意义的字符串非常多。
发明内容
为了降低人力资源的耗费并全面地获得查询的领域时新性,本发明实施例提供了一种获得查询的时新性的方法。所述技术方案如下:
一种获得查询的时新性的方法,所述方法包括:
在缓存的全部文档中获得查询的命中文档,所述全部文档具有时间标识;
根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性。
所述在缓存的全部文档中获得查询的命中文档之前,所述方法还包括:
将缓存中的全部文档处理为倒排索引结构,并保存词到其所在文档的映射关系;
相应的,所述在缓存的全部文档中获得查询的命中文档,具体包括:
根据保存的所述词到其所在文档的映射关系,根据所述查询在所述全部文档中获得命中文档。
所述根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性,具体包括:
获得在预先设定的时间段中所述查询的命中文档时新性的平均值参数、所述查询的命中文档的频次均值差异参数和所述查询的命中文档出现的连续性参数;
根据所述三个参数中的至少一个参数获得所述查询的领域时新性。
所述获得在预先设定的时间段内所述查询的命中文档时新性的平均值参数,具体包括:
在所述查询的命中文档中,获得预先设定的时间段内每个时间标识下的文档数量,作为第一数量;
在所述全部文档中,获得预先设定的时间段内每个时间标识下的文档数量,作为第二数量;
根据时间标识相同的文档的第一数量与第二数量,获得在所述时间标识下所述查询的命中文档时新性的系数;
根据所述时间标识与当前时间获得所述查询的命中文档时新性的衡量值;
根据所述查询的命中文档时新性的系数与所述查询的命中文档时新性的衡量值获得所述查询在预先设定的时间段内命中文档时新性的平均值参数。
所述获得所述查询的命中文档的频次均值差异参数,具体包括:
在所述查询的命中文档中,分别获得时间标识在预先设定的不同时间段的文档数量;
根据所述文档数量与其对应的时间段的时间长度获得所述查询的命中文档的频次均值差异参数。
所述获得所述查询的命中文档出现的连续性参数,具体包括:
在所述查询的命中文档中,获得时间标识与当前时间之差最小的文档;
按照时间发展的反方向,根据所述时间标识获得所述查询连续出现的天数;
根据所述差值与所述天数获得所述查询的命中文档出现的连续性参数。
所述根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性,具体包括:
在时间标识在预先设定的时间段内的文档中,根据所述查询的命中文档数量和所述全部文档数量获得所述查询的时新性基数;
按照时间发展的方向,根据各个时间标识与其前一时间标识的时新性基数获得斜率;
根据所述斜率之和以及所述查询的时新性基数获得所述查询的时新性。
所述根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性,具体包括:
根据所述全部文档的时间标识与当前时间获得各个时间标识下所述查询的时新性衡量值;
根据所述查询的时新性衡量值对卡方统计的四分表中各个参数进行优化;
使用优化后的卡方统计四分表获得所述查询的时新性。
所述方法还包括:
在预先设定的不同时间段中,分别获得所述查询的时新性;
选择所述查询的时新性中的最大值作为所述查询的时新性。
所述根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性,具体包括:
根据所述查询在预先设定的不同时间段中的信息增益获得所述查询的时新性。
所述方法还包括:采用投票方式验证所述查询的时新性。
本发明实施例提供的技术方案带来的有益效果是:
通过将所有文档都预处理成倒排索引的结构,并保存查询词到其所在文档的映射,可以较为快速地从一个需要获得领域时新性的查询找到其所出现过的所有文档;同时,弱化了绝对频率的作用,取而代之的是相对比例和从不同角度获得查询的领域时新性的方法;并且,本发明实施例还根据其所提供的几种获得查询的领域时新性的方法,给出了交叉验证的自动评测方法,和以往的评测工作相比,在评测查询的时新性的结果时省时省力,而且相对客观。将这些获得查询的领域时新性的方法应用到网页的搜索引擎上,对查询的返回结果进行适当的调整,把领域时新性较高的查询所对应的领域网页的排名提高,改善用户的搜索体验。而且,还可以将整个查询拆分成一个个的查询词进行处理,处理起来非常灵活。
附图说明
图1是本发明实施例1中提供的获得查询的领域时新性的方法流程图;
图2是本发明实施例2中提供的获得查询的领域时新性的方法的准备工作流程图;
图3是本发明实施例2中提供的时间段的划分示意图;
图4是本发明实施例2中提供的获得查询的领域时新性的方法的示意图;
图5是本发明实施例2中提供的获得查询的领域时新性的方法的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种获得查询的领域时新性的方法,该方法以提供查询网页搜索引擎的服务器为执行主体为例进行说明,但并不用以限制本发明的执行主体。参见图1,该方法包括:
101:在缓存的全部文档中获得查询的命中文档,全部文档具有时间标识;
其中,服务器可以通过索引的方式获得网络上的文档,并根据自身的索引能力获得尽可能多的文档,每个文档都具有其产生或更新的时间,作为该文档的时间标识。
这里的查询的命中文档就是出现所述查询的文档的集合,可以是零、也可以是很多。
102:根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性。
本发明实施例通过根据查询命中文档及其时间标识、全部文档及其时间标识获得查询的领域时新性。
实施例2
本发明实施例提供了一种获得查询的领域时新性的方法,该方法以提供查询网页搜索引擎的服务器为执行主体为例进行说明,但并不用以限制本发明的执行主体。在介绍该方法之前,首先介绍一下该方法的准备工作,参见图2,准备工作可以包括:
201:将服务器的缓存中保存的所有文档预处理成倒排索引结构,并保存词到其所在文档的映射;
其中,提供网页搜索引擎的服务器会每隔一段时间在网络上索引新(产生或更新)的文档在缓存中进行存储,服务器在获得某一查询的领域时新性之前,首先将缓存中所有的文档预处理成倒排索引的结构。其中,所谓倒排索引,是一种索引方法,是文档检索***中的索引数据结构,概括说来就是根据属性值确定记录的位置。在本发明实施例中用来存储在全文搜索下某个索引词(即查询词)在哪些文档中出现的关系映射,这种关系映射可以但不限于通过哈希表的形式进行保存。
需要说明的是,由于服务器每隔一个周期的时间(如一小时、一天等)就会在网络上索引新(产生或更新)的文档,那么在服务器获取某一查询的领域时新性过程中,如果服务器索引到新(产生或更新)的文档,服务器需要将新索引到的文档进行倒排索引结构的预处理,并保存词到词所在文档的映射。
将缓存的所有文档处理成倒排索引的结构相比较现有技术的顺序查找而言,有益效果是非常明显的:可以用较快的速度从一个需要获得领域时新性的查询找到它所出现的所有文档。本实施例中可以使用D来标记索引得到的文档集合。虽然倒排索引需要事先预处理缓存中所有的文档,会占用一些资源,但生成倒排索引结构后,可以以检索的方式服务任意查询的时新性获得,非常简洁、方便、快速且有效。
202:进行对比的时间段的划分;
本发明实施例以将对比的时间段分为从当天算起向过去追溯的时间段t0和进一步向前追溯的时间段t1为例,t0和t1在时间轴上的位置可以如图3所示。这种划分的方法并不用以限制本发明对对比的时间段的划分方法。还可以将对比的时间段进行进一步细致的划分,在此不做赘述。
时间按照箭头方向流逝,t0是最近的时间段,代表了“时新性较高”的时间段,t1是较远的时间段,代表了“时新性较低”的时间段。t0和t1的比例可以根据不同的需要进行设定。在本发明实施例中,以t0为最近的36天左右的时间跨度、t1取t0之前的329天左右的时间跨度为例。给t0、t1的每一天进行编号,最近一天编号为1、按照时间反方向编号直到36,t1紧邻t0的那一天编号为37,直到365。例如,最近的1天为2009年6月22日,那么这一天会被编号为1、2009年6月21日被编号为2、2009年6月20日被编号为3......依次类推。
需要说明的是,本发明实施例并不限制步骤201和步骤202之间的先后顺序,可以先执行步骤201、再执行步骤202;或者先执行步骤202、再执行步骤201;或者步骤201和步骤202同时进行。
203:将预处理后的所有文档按照对比的时间段进行划分;
由于所有的文档都有其产生或更新的时间标识,因此可以根据文档的时间标识将所有的文档划分到对比的时间段上。以步骤202中划分的对比的时间段为例,如果一个文档的时间标识为2009年6月20日,那么这个文档将被划分到t0时间段。
这里需要说明的是:在对比的时间段中,将每天某一查询出现的文档称之为查询命中的文档。
截止到步骤203,对于获得查询的领域时新性的准备工作即已完成,下面分别对获得查询的领域时新性的几种方法进行详细的说明。这几种获得查询的领域时新性的方法又可以分别被称之为:日粒度方法、斜率变化方法、优化卡方统计方法以及信息增益方法。
1、日粒度方法
本发明实施例提供了一种获得查询的领域时新性的方法,又称日粒度方法。日粒度方法主要考虑查询命中的文档按天的分布情况,这种方法需要考虑以下三种因素中的至少一种:在对比的时间段中查询命中文档的时新性平均值参数、查询的命中文档的频次均值的差异参数和查询的命中文档出现的连续性参数。假设欲获得领域时新性的查询为Q,输入查询Q的当天为当前时间,参见图4:
401:按照时间顺序,用文档的时间标识(如所在的天数)作为文档相对于当前时间的时间偏差,并将时间偏差的倒数作为文档时新性的衡量值。
其中,时间偏差越大的文档、距离当前时间越久、文档的时新性越差;时间偏差越小的文档、距离当前时间越近、文档的时新性越高。文档时间偏差的倒数(或倒数的正数倍)就可以直接当作是文档自身时新性的衡量值。例如,缓存的文档中最近一天的文档时间偏差为1,时新性衡量值即为1(或1的正数倍);以最近一天为参照,前第10天的所有文档的时间偏差为10,时新性衡量值为0.1(或0.1的正数倍);依次类推,前第i天的所有文档的时间偏差为i,时新性衡量值为1/i(或1/i的正数倍)。
402:针对查询Q,计算其在对比的时间段中每一天所有命中的文档在当天所有文档中所占的比例系数作为查询Q的命中文档时新性的系数;
在对比的时间段的某一天(如前第i天)的所有文档中,某一查询命中的文档出现的次数相对较多,则表明该查询在当天受关注的程度较高。例如,比较下面两种情况:前第i天的所有文档为1000个,某一查询命中的文档为20个;前第i天的所有文档为10000个,某一查询命中的文档为20个。可以看出,前一种的查询的领域时新性更好。为了有效防止由于前第i天的所有文档数量的随机性对评估查询在前第i天的领域时新性造成的影响,计算前第i天中查询Q命中的文档数量与前第i天中所有文档数量的比率r(i)(即比例系数)为:
r ( i ) ( Q ) = ( n ( i ) N ( i ) )
其中,n(i)表示在前第i天某一查询命中的文档数量作为第一数量,N(i)表示在前第i天的所有文档数量作为第二数量。
由此,在日粒度方法的计算中,获得查询Q的领域时新性的一个因素(S1)具体可以为:该查询Q在对比的时间段的所有天数T中的领域时新性的平均值参数。即:
S 1 ( Q ) = 1 T Σ i = 1 T r ( i ) ( 1 i )
其中,(1/i)还可以变形为(k/i),其中,k为正数。
因素S1使得服务器不单单关注离当前时间较近的t0时间段,而是全面考虑了整个对比的时间段t0和t1。这种做法主要是为了全面考虑阶段性热点对查询的领域时新性的影响:例如在t1时间段是一个非常热门的查询,在最近t0时间段出现的次数较少,但之后又在事件回访中,被人关心目前进展而重新查询。而因素S1可以更加全面地考虑这种查询。从上式可以看出,S1(Q)的值越大,说明查询Q的时新性越高。
403:计算对比的时间段上查询命中的文档频次均值的差异参数;
所谓查询命中的文档频次,即查询Q的命中文档在对比的时间段(t0或t1)中出现的平均次数。这样做的原因是因为时间段t0和时间段t1的比例是根据实际需要划分的,而这种划分可能会因为这个时间界点选择的靠前或靠后影响了该查询Q的领域时新性的客观性,所以用文档频次的均值克服上述时间界点的选择可能造成的影响,使对比的时间段之间的数据更加公平。文档频次均值的差异可以使用如下方式进行计算:
S 2 ( Q ) = ( df t 0 / | t 0 | df t 1 / | t 1 | )
其中,dft0、dft1分别代表查询Q的命中文档在t0、t1时间段中出现的总次数,|t0、|t1|分别代表t0、t1时间段的时间长度。根据此式可以看出,S2(Q)越大,代表查询Q在t0时间段被查询的次数越多,时新性越高。
404:获得查询Q在时间轴历史回察时首次出现的日期(it)以及按时间发展的反方向往前推时,查询连续出现的天数(l)
可以得出:it距离最近一天越近,即it的数值越小,查询Q的时新性越好,l越大,即查询Q连续出现的天数越多,查询Q的时新性越好。这一因素同样是为了全面考虑阶段性热点对查询的领域时新性的影响,该文档出现的连续性参数因素可以通过下式得到:
S 3 ( Q ) = l i t
405:根据上述三个因素中的至少一种获得查询的时新性;
查询的时新性可以为这三个因素中的一种,如Score(Q)=S1、Score(Q)=S2、或Score(Q)=S3
也可以为这三个因素中的两种,如Score(Q)=S1×S2、Score(Q)=S1×S3、或Score(Q)=S2×S3
也可以为这三个因素,即Score(Q)=S1×S2×S3
对于日粒度方法需要说明的是,本发明实施例并不限制步骤(401、402)、403、404之间的先后顺序,这三个因素可以分先后顺序获得,也可以同时获得。
日粒度方法通过查询Q的命中文档按天的分布情况来获得查询Q的时新性,考虑了多方面的因素对查询Q的时新性的影响,全面地反应了查询Q的时新性。
2、斜率变化方法
本发明实施例还提供了一种获得查询的领域时新性的方法,又称斜率变化方法。斜率变化方法主要考虑t0时间段里查询(词)每天命中的文档数量相对于前一天命中的文档数量的变化趋势。从局部看来,就是以一天为单位跨度,将查询Q的命中文档数量的变化用斜率的方式表现出来,该方法包括:
在t0时间段里,假设按时间的发展方向,一个查询Q的第一个命中文档的数量不为0的那天编号为i。这一天的命中文档的篇数和这一天的所有文档的总篇数的比值作为获得该查询Q的时新性的基数(Baseline),其中:
Baseline = ( n ( i ) N ( i ) ) + 1
其中,n(i)表示在第i天查询Q命中的文档数量,N(i)表示在第i天的所有文档数量。需要说明的是,加“1”的目的是出于数学运算方面的考虑,使得Baseline的值至少可以大于1,为后面的获得过程带来便利。
从第i天的第二天(即第i-1天)开始,按时间的发展方向,每一天(假定编号是j)计算一个当天命中率r(j)与前一天的命中率r(j+1)之间的差值,如图5所示。以一天为单位的命中率的斜率就是这个差值,可正可负:
Δ ( j ) = ( n ( j ) N ( j ) ) - ( n ( j + 1 ) N ( j + 1 ) )
所有的斜率之和定义为在t0时间段里的斜率变化:
Δ = Σ j = i - 1 0 Δ ( j )
可以预见斜率变化也是可正可负的。斜率变化的数值越大越好,说明t0时间段的命中率相对而言是提高的,也就证明查询的时新性相对较高。为了更加方便计算,还可以将查询Q的时新性值处理为如下所示的,以Baseline为底数,斜率变化为指数的Sigmoid函数作为一个查询Q的时新性值:
Score ( Q ) = 1 1 + Baseline - Δ
斜率变化方法通过在t0时间段内,查询每天命中的文档数量相对于前一天命中文档数量的变化趋势来获得查询的时新性。
3、优化卡方统计方法
本发明实施例提供了一种获得查询的领域时新性的方法,又称优化卡方统计方法。优化卡方统计方法将卡方统计作为获得查询(词)的领域时新性的一种方法,t0时间段和t1时间段分别看成是两个类,一个是“新”类(t0时间段),一个是“旧”类(t1时间段)。一个查询词在新类中有一定的分布,在旧类中也有一定的分布,通过卡方统计的假设检验方法判断这个查询(词)在这两个时间段的分布上是否具有显著变化。这个变化的显著性作为查询词的时新性值。下面的四分表是计算卡方统计量的基本数据:
表1
  t0时间段   t1时间段
  查询词出现   a   b
  查询词没出现   c   d
其中,
a---在t0时间段中包含查询词的文档个数;
b---在t1时间段中包含查询词的文档个数;
c---在t0时间段中没包含查询词的文档个数;
d---在t1时间段中没包含查询词的文档个数;
另外用N表示t0时间段以及t1时间段中所有文档的个数。本发明实施例针对获得查询的时新性,从两个角度对卡方统计做了优化:
本发明实施例针对获得查询Q的领域时新性,从两个角度对卡方统计做了优化:
(1)按天编号的不同,以权重的方式修正表1中的参数;
a,b,c,d按照其对时新性卡方值计算的正负贡献的不同,分别进行调整。
在t0时间段里的组成a,c命中(或没命中)篇数所在的天的编号越小,命中(或没命中)篇数作适当的放大。
在t1时间段里的组成b,d命中(或没命中)篇数所在天的编号越大,命中(或没命中)篇数作适当的放大。
举例说明如下:
假设t0时间段每一天的编号按照时间发展的反方向分别为1、2、......、36;t1时间段每一天的编号按照时间发展的反方向分别为37、38、......、365。
在t0时间段包含查询(词)的文档个数a为100;在t1时间段中包含查询词的文档个数b为200;在t0时间段中没包含查询词的文档个数c为300;在tl时间段中没包含查询词的文档个数d为400。即如表2所示:
表2
  t0时间段   t1时间段
  查询(词)出现   100   200
  查询(词)没出现   300   400
其中,假设编号为1的那一天共命中50个文档、编号为2的那一天共命中20个文档、编号为4的那一天共命中10个文档、编号为5的那一天共命中20个文档;那么参考步骤201并结合本例的情况,a’=50×1+20×1/2+10×1/4+20×1/5=66.5;b’、c’、d’也可以依照a’的计算方式获得。
这样,使用调整后的a’、b’、c’、d’代替原有的a、b、c、d,并按照卡方统计的公式得到查询词的时新性:
Score ( Q ) = N × ( a ′ d ′ - b ′ c ′ ) 2 ( a ′ + c ′ ) × ( b ′ + d ′ ) × ( a ′ + b ′ ) × ( c ′ + d ′ )
(2)在t0时间段可以再计算一个卡方值,计算方法和在整个t0、t1时间段是一样的,不同的仅仅是在t0时间段按X:1划分出对应于t0、t1的t0’、t1’时间段,其中X可以为正整数。在t0时间段上算出的卡方值和t0、t1时间段算出的卡方值之间选择最大值进行输出。进行这样的优化是因为在较长时间跨度上的卡方值有时对突发的、命中文档数量还没积累起来的查询敏感度较低。有了一个小时间跨度的卡方值做补充可以改善这种情况:
Score ( Q ) = Max { Score ( t 0 + t 1 ) ( Q ) , Score ( t 0 ) ( Q ) }
优化卡方统计方法通过对卡方四分表中参数进行优化处理后获得查询的时新性,可以很好地应对突发事件查询。
4、信息增益方法
本发明实施例还提供了一种获得查询的领域时新性的方法,又称信息增益方法。信息增益方法从信息论的角度来看,即为一个查询词包含了多少使得t0时间段和t1时间段可以区分开的信息量(即IG(Information Gain,信息增益))。可以将信息增益作为这个查询的时新性。
其中,查询的信息增益可以入下式所示:
IG ( Q ) = Σ c ∈ { t 0 , t 1 } P ( Q , c ) I ( Q , c ) + Σ c ∈ { t 0 , t 1 } P ( ~ Q , c ) I ( ~ Q , c )
其中,P(Q,c)代表查询Q和类别c的共现概率,而c分别为t0时间段和t1时间段。I(Q,c)代表查询Q和类别c的互信息。所谓互信息,是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性,因此结合本发明实施例,I(Q,c)代表的是查询Q和类别c之间的相关性。“~Q”表示的是查询没出现的情况。按照共现概率和互信息的计算方法展开可以得到:
Score ( Q ) = IG ( Q ) = a N × log ( a × N ( a + c ) × ( a + b ) ) + b N × log ( b × N ( a + b ) × ( b + d ) )
+ c N × log ( c × N ( c + d ) × ( a + c ) ) + d N × log ( d × N ( c + d ) × ( b + d ) )
其中a、b、c、d、N各个参数的含义可以参考优化卡方算法。
信息增益方法从信息论的角度获得查询的时新性。
结合本发明实施例提供的上述4种获得查询的领域时新性的方法,本发明实施例还提供了一种验证所获得的查询的领域时新性的方法。
使用上述4种方法中的至少3种获得时新性最高的多个查询列表,本实施例中以top1000为例,如下表2所示:
表2
Figure G2009101600651D00133
这里默认Top1000中的查询词是时新性比较高的,且这1000个查询词之间的相对位置不是特别重要)。
使用这4种方法中的至少2种方法对其他1种方法进行交叉校验,具体的校验方法为:用至少2种方法作为参考,采用投票的机制。也就是说,如果在一个方法的top1000中出现的查询词,在其他的方法的top1000中出现得越多,则认为该方法越好。例如:
使用斜率变化方法、优化卡方统计方法和信息增益方法共同验证日粒度方法:“奥运”在其他3个方法的top1000中也同样出现了,那么日粒度方法获得3票;台风鹦鹉在其他3个方法中的一个的top1000中出现,则获得1票......利用其他3种方法的top1000验证日粒度方法的top1000,对于被验证的方法的评价的计算公式可以为:
V=系数1×n3+系数2×n2+系数3×n1+系数4×n0
其中,n3表示在被验证的方法中出现的查询词,在其他3种方法中均出现了的查询词的个数;n2表示在被验证的方法中出现的查询词,在其他2种方法中出现了的查询词的个数;n1表示在被验证的方法中出现的查询词,在其他1种方法中出现了的查询词的个数;n0表示仅在被验证的方法中出现的查询词个数。系数1、系数2、系数3和系数4可以设定并依次递减,4个系数的和为1。需要说明的是,由于n3这种情况对于评价任何一个方法而言都是等同的,对评测不提供差异,所以也可以只考虑n2、n1和n0的情况。在验证的方法中,V越大代表被验证的方法越好。以表3为例:
表3
  n2   n1   n0   V
  日粒度   183   52   643   189.7
  斜率   482   45   351   337.8
  卡方   665   197   16   459.7
  信息增益   665   190   23   458.3
其中,由于本次卡方和信息增益的性能比较接近,相互间差异较小,所以这种评价方法在这里对卡方和信息增益比较有利。需要说明的是,这个评测方法提供了一种在没有标准答案集时的自动评测方法。如果几种方法的差异性比较大,用这个方法可能比较有效,可以初步估计一种方法相对于其他方法的好坏。总体来看交叉验证自动评测机制适用于存在多种方法完成同一件任务的情况。
本发明实施例通过将所有文档都预处理成倒排索引的结构,并保存查询词到查询词所在文档的映射,可以较为快速地从一个需要获得时新性的查询找到其所出现过的所有文档;同时,弱化了绝对频率的作用,取而代之的是相对比例和从不同角度获得查询的时新性的方法;并且,本发明实施例还根据其所提高的几种获得查询的时新性的方法,给出了交叉验证的自动评测方法,和以往的评测工作相比,在评测查询的时新性的结果时省时省力,而且相对客观。将这些获得查询的时新性的方法应用到网页的搜索引擎上,对查询的返回结果进行适当的调整,把领域时新性较高的查询所对应的领域网页的排名提高,改善用户的搜索体验。而且,还可以将整个查询拆分成一个个的查询词进行处理,处理起来非常灵活。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种获得查询的时新性的方法,其特征在于,所述方法包括:
在缓存的全部文档中获得查询的命中文档,所述全部文档具有时间标识;
根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性;
其中,所述根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性,具体包括:
获得在预先设定的时间段中所述查询的命中文档时新性的平均值参数、所述查询的命中文档的频次均值差异参数和所述查询的命中文档出现的连续性参数;
根据所述三个参数中的至少一个参数获得所述查询的领域时新性;
或,所述根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性,具体包括:
在时间标识在预先设定的时间段内的文档中,根据所述查询的命中文档数量和所述全部文档数量获得所述查询的时新性基数;
按照时间发展的方向,根据各个时间标识与其前一时间标识的时新性基数获得斜率;
根据所述斜率之和以及所述查询的时新性基数获得所述查询的时新性;
或,所述根据所述查询的命中文档及其时间标识、所述全部文档及其时间标识获得所述查询的时新性,具体包括:
根据所述全部文档的时间标识与当前时间获得各个时间标识下所述查询的时新性衡量值;
根据所述查询的时新性衡量值对卡方统计的四分表中各个参数进行优化;
使用优化后的卡方统计四分表获得所述查询的时新性。
2.如权利要求1所述的方法,其特征在于,所述在缓存的全部文档中获得查询的命中文档之前,所述方法还包括:
将缓存中的全部文档处理为倒排索引结构,并保存词到其所在文档的映射关系;
相应的,所述在缓存的全部文档中获得查询的命中文档,具体包括:
根据保存的所述词到其所在文档的映射关系,根据所述查询在所述全部文档中获得命中文档。
3.如权利要求1所述的方法,其特征在于,所述获得在预先设定的时间段内所述查询的命中文档时新性的平均值参数,具体包括:
在所述查询的命中文档中,获得预先设定的时间段内每个时间标识下的文档数量,作为第一数量;
在所述全部文档中,获得预先设定的时间段内每个时间标识下的文档数量,作为第二数量;
根据时间标识相同的文档的第一数量与第二数量,获得在所述时间标识下所述查询的命中文档时新性的系数;
根据所述时间标识与当前时间获得所述查询的命中文档时新性的衡量值;
根据所述查询的命中文档时新性的系数与所述查询的命中文档时新性的衡量值获得所述查询在预先设定的时间段内命中文档时新性的平均值参数。
4.如权利要求1所述的方法,其特征在于,所述获得所述查询的命中文档的频次均值差异参数,具体包括:
在所述查询的命中文档中,分别获得时间标识在预先设定的不同时间段的文档数量;
根据所述文档数量与其对应的时间段的时间长度获得所述查询的命中文档的频次均值差异参数。
5.如权利要求1所述的方法,其特征在于,所述获得所述查询的命中文档出现的连续性参数,具体包括:
在所述查询的命中文档中,获得时间标识与当前时间之差最小的文档;
按照时间发展的反方向,根据所述时间标识获得所述查询连续出现的天数;
根据所述差值与所述天数获得所述查询的命中文档出现的连续性参数。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
在预先设定的不同时间段中,分别获得所述查询的时新性;
选择所述查询的时新性中的最大值作为所述查询的时新性。
7.如权利要求1至6中任一权利要求所述的方法,其特征在于,所述方法还包括:采用投票方式验证所述查询的时新性。
CN2009101600651A 2009-07-20 2009-07-20 一种获得查询的时新性的方法 Active CN101604340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101600651A CN101604340B (zh) 2009-07-20 2009-07-20 一种获得查询的时新性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101600651A CN101604340B (zh) 2009-07-20 2009-07-20 一种获得查询的时新性的方法

Publications (2)

Publication Number Publication Date
CN101604340A CN101604340A (zh) 2009-12-16
CN101604340B true CN101604340B (zh) 2011-07-13

Family

ID=41470069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101600651A Active CN101604340B (zh) 2009-07-20 2009-07-20 一种获得查询的时新性的方法

Country Status (1)

Country Link
CN (1) CN101604340B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226550B (zh) * 2012-01-31 2018-05-29 深圳市世纪光速信息技术有限公司 一种基于查询输入的热点事件确定方法和***
CN103793439B (zh) * 2012-11-05 2019-01-15 腾讯科技(深圳)有限公司 一种实时检索信息获取方法、装置及服务器
CN103995865A (zh) * 2014-05-19 2014-08-20 北京奇虎科技有限公司 突发时效性查询词识别方法和***
CN105512199B (zh) * 2015-11-27 2020-04-14 广州神马移动信息科技有限公司 搜索方法、搜索装置以及搜索服务器
CN106909642B (zh) * 2017-02-20 2020-06-12 中国银行股份有限公司 数据库索引方法及***

Also Published As

Publication number Publication date
CN101604340A (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
Volkovs et al. Boltzrank: learning to maximize expected ranking gain
He et al. Predicting the popularity of web 2.0 items based on user comments
CN107122467B (zh) 一种搜索引擎的检索结果评价方法及装置、计算机可读介质
CN102081627B (zh) 一种确定词语在文本中的贡献度的方法及***
CN103116588A (zh) 一种个性化推荐方法及***
CN101604340B (zh) 一种获得查询的时新性的方法
CN103049470A (zh) 基于情感相关度的观点检索方法
CN105913323A (zh) 一种GitHub开源社区的PullRequest评审者推荐方法
CN101556603A (zh) 一种用于对检索结果重新排序的协同检索方法
Berendsen et al. Pseudo test collections for training and tuning microblog rankers
CN104484380A (zh) 个性化搜索方法及装置
CN107291939A (zh) 酒店信息的聚类匹配方法及***
CN103020212A (zh) 一种基于用户查询日志实时发现热点视频的方法和装置
Li et al. A hybrid model for experts finding in community question answering
CN105740448A (zh) 面向话题的多微博时序文摘方法
Antenucci et al. Ringtail: Feature Selection For Easier Nowcasting.
CN103544307A (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN103020289A (zh) 一种基于日志挖掘的搜索引擎用户个性化需求提供方法
CN101814085A (zh) 基于wdb特征和用户查询请求的web数据库选择方法
Arai et al. Predicting quality of answer in collaborative Q/A community
JP5367632B2 (ja) 知識量推定装置及びプログラム
CN104636403A (zh) 处理查询请求的方法及装置
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN101739418A (zh) 多指标综合权重音、视频专辑排序方法
CN101739417A (zh) 多指标综合权重音、视频专辑排序***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151230

Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone

Patentee after: Shenzhen Tencent Computer System Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.