CN104050197B - 一种信息检索***评测方法和装置 - Google Patents

一种信息检索***评测方法和装置 Download PDF

Info

Publication number
CN104050197B
CN104050197B CN201310084139.4A CN201310084139A CN104050197B CN 104050197 B CN104050197 B CN 104050197B CN 201310084139 A CN201310084139 A CN 201310084139A CN 104050197 B CN104050197 B CN 104050197B
Authority
CN
China
Prior art keywords
evaluation
test
keyword
related object
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310084139.4A
Other languages
English (en)
Other versions
CN104050197A (zh
Inventor
沈妍
薛儒璇
朱正平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310084139.4A priority Critical patent/CN104050197B/zh
Priority to PCT/CN2013/090906 priority patent/WO2014139309A1/en
Priority to MYPI2015702223A priority patent/MY173033A/en
Priority to US14/328,809 priority patent/US9436729B2/en
Publication of CN104050197A publication Critical patent/CN104050197A/zh
Application granted granted Critical
Publication of CN104050197B publication Critical patent/CN104050197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息检索***评测方法和装置,通过利用关键词在评测检索的结果集合中的相关对象参数之和与该关键词在检索结果集合中的所有相关对象参数的比值之和来计算信息检索***的召回率,并将召回率引入信息检索***的评测中,增强了信息检索***量化评测的准确性,同时提高了评测的自动化程度。

Description

一种信息检索***评测方法和装置
技术领域
本发明涉及计算机信息检索领域,尤其涉及一种信息检索***评测方法和装置。
背景技术
互联网信息检索***构成了现有的互联网应用的核心技术,信息检索***可以用于在整个互联网检索网页、音乐文件、视频文件、图片文件,也可以用于在单一的网站或数据库中检索信息和物品,其检索结果的质量对于互联网应用的使用体验具有重要影响。现有的信息检索***的评测方法往往依赖于人工评测,需要人参与进行大量工作。
现有技术中虽然存在对信息检索***进行自动评测的***,但是,其评测主要针对寻址类信息检索,针对其他类型的信息检索***,适用性较弱、准确性差,不能准确反映信息检索***的检索性能。
发明内容
本发明的目的在于提出一种信息检索***评测方法和装置,对于信息检索***性能进行智能的量化评测,提高衡量信息检索***的运行状况的准确性。
本发明公开了一种信息检索***评测方法,包括:
获取预定时间周期中信息检索***上报的行为数据样本;
根据所述行为数据样本获取样本检索关键词集和每个样本检索关键词对应的样本检索结果;
调用信息检索***对预定的评测关键词集进行评测检索,根据评测检索结果和所述样本检索结果计算评测关键词集中每个关键词对应的召回率和正确率;
根据所述召回率和正确率计算所述信息检索***的评测指标;
其中,所述召回率为关键词对应的评测检索结果中的相关对象参数之和与该关键词对应的样本检索结果中的所有相关对象参数之和的比值;
所述正确率根据关键词对应的评测检索结果中相关对象的数量和检索结果子集中非相关对象的数量计算得到;
所述相关对象为所述样本检索结果中用户进行了操作的对象;所述非相关对象为所述样本检索结果中用户未进行操作的对象。
本发明还公开了一种信息检索***评测装置,包括行为数据收集单元、分析单元、评测检索单元和评测指标计算单元;
所述行为数据收集单元用于获取预定时间周期中信息检索***上报的行为数据样本;
所述分析单元用于根据所述行为数据样本获取样本检索关键词集和每个样本检索关键词对应的样本检索结果;
所述评测检索单元用于调用信息检索***对预定的评测关键词集来进行评测检索,根据评测检索结果和所述样本检索结果计算评测关键词集中每个关键词对应的召回率和正确率;
所述评测指标计算单元用于根据所述召回率和正确率计算所述信息检索***的评测指标;
其中,所述召回率为关键词对应的评测检索结果中的相关对象参数之和与该关键词对应的样本检索结果中的所有相关对象参数之和的比值;
所述正确率根据关键词对应的评测检索结果中相关对象的数量和检索结果子集中非相关对象的数量计算得到;
所述相关对象为所述样本检索结果中用户进行了操作的对象;所述非相关对象为所述样本检索结果中用户未进行操作的对象。
本发明通过关键词在评测检索的结果集合中的相关对象参数之和与该关键词在检索结果集合中的所有相关对象参数之和的比值来计算信息检索***的召回率,并将召回率引入信息检索***的评测中,增强了信息检索***量化评测的准确性,同时提高了评测的自动化程度。
附图说明
图1是本发明第一实施例的信息检索***评测方法的方法流程图;
图2是本发明第二实施例的信息检索***评测装置的结构示意图;
图3是本发明信息检索***评测方法的实施环境示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1是本发明第一实施例的信息检索***评测方法的方法流程图。本发明所述的方法可以通过与信息检索***通信连接的评测电子装置实现对于信息检索***的评测。如图3所示,评测电子装置31通常包括通过***总线连接311的各种存储介质312、***存储器313、处理器314以及输入输出设备315。存储介质312可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM),或其他任何一种具体存储功能的介质。
评测电子装置31与信息检索***32通信连接,所述的通信连接可以是局域网(LAN)和广域网(WAN),但还可包括其他网络。此类联网环境在办公室、企业范围的计算机网络、内联网和因特网。评测电子装置31可以通过所述通信连接访问信息检索***32,并获取需要的数据。
如图1所示,所述方法包括:
步骤110、评测电子装置31获取预定时间周期中信息检索***32上报的行为数据样本。
具体而言,在预定的时间周期内(例如,优选一个月或更长时间)通过信息检索***32的交互模块、搜索模块以及其它的与后续操作相关的模块(例如下载模块或其他运营模块)上报用户使用所述信息检索***32的相关参数,包括检索使用的关键词、检索结果以及检索结果中列出的每个对象在检索结果中的排序位置、用户是否对检索结果进行例如点击这样的进一步操作等等。
在本发明中,检索结果是指通过信息检索***32获得的被检索对象的列表,对象是指所述信息检索***32进行检索的具体目标对象,其可以是网页、文档、物品、图片或其它类型的文件。
步骤120、评测电子装置31根据所述行为数据样本获取样本检索关键词集和每个样本检索关键词对应的样本检索结果。
在本步骤中,根据行为数据样本分析获取样本检索关键词集合和每个样本检索关键词对应的检索结果集合,也即样本检索结果。同时,确定每个样本检索关键词的相关对象和非相关对象。
如果获取的行为数据样本中,在某一次对特定关键词的检索中,用户对检索结果中的特定对象进行了进一步操作(例如,点击)则该对象为该特定关键词的相关对象,也即,相关对象为样本检索结果中用户进行了操作的对象。相应地,如果在对特定关键词的所有检索中,用户对于所有检索结果中的特定对象均未进行任何操作,则该对象为该特定关键词的非相关对象,也即,非相关对象为样本检索结果中用户未进行进一步操作的对象。
同时,在本实施例的一个优选实施方式中,在本步骤可以根据样本检索结果进一步确定所有相关对象的相关对象参数,其用于表征所述相关对象与对应的关键词的相关性。
在本实施例的另一个优选实施方式中,如果用户对于检索结果中的对象可以进行两种不同的进一步操作,则每个相对对象的所述相关对象参数根据如下公式计算:
其中,ExposeCnt为该相关对象在对应关键词的样本检索结果中出现的总次数,FCnt为样本检索结果中用户对该相关对象进行第一操作的总次数,SCnt为样本检索结果中用户对该相关对象进行第二操作的总次数,a为第一操作权重系数,b为第二操作权重系数,σ为调偏系数;可以通过调整第一操作权重系数和第二操作权重系数来调整不同操作对于相关性的影响。同时,根据信息检索***32的实际情况通过设置调偏系数调节相关对象参数值。
FirstScorex为对应的相关对象于第x次出现在检索结果中并被执行第一操作时的相关性系数,其根据对应的相关对象在该次检索的检索结果中的排列位置计算得到;SecondScorey为对应的相关对象于第y次出现在检索结果中并被执行第二操作时的相关性系数,其根据对应的相关对象在该次检索的检索结果中的排列位置计算得到。其中,该相关对象在检索结果中排序越靠后,相应的相关性系数越高,因为,排序靠后仍被用户进行进一步操作,说明该对象是用户真正关心的对象。而且,由于与每次的检索结果的排序情况相关,因此,FirstScorex和SecondScorey也随每次检索结果的变化而变化。有上述公式可知,被进行第一操作和/或第二操作的次数越多,相关对象与关键词的关联性越大,其相关对象参数也越大。
在本实施方式中,所述第一操作和第二操作可以为不同的操作,例如,在搜索的对象为文档或网页时,所述第一操作为点击查看,第二操作为下载;在检索的对象为音乐文件时,所述第一操作为点击试听链接,第二操作为下载;在检索对象为物品时,所述第一操作可以为点击查看链接,所述第二操作为点击订购链接或进行订购操作。
在本实施方式中,在计算体现相关对象与对应关键词相关性时,考虑多种不同后续操作对于相关性的贡献,进行多个纬度建模,更符合现有的信息检索***32的需求,更加符合非寻址检索类的信息检索***32的特性。
步骤130、评测电子装置31调用信息检索***32对预定的评测关键词集来进行评测检索,根据评测检索结果和所述样本检索结果计算评测关键词集中每个关键词对应的召回率和正确率。
在收集和分析操作完成后,即可进行评测。在本实施例中通过自动调用信息检索***32对预定的评测关键词集来进行评测检索,获得与评测关键词集中每个评测关键词对应的一组评测检索结果。所述评测关键词集是根据样本关键词集的子集。
然后,根据所述的评测检索结果以及在前获得样本检索结果计算每个评测关键词对应的召回率和正确率。
其中,所述召回率为关键词对应的评测检索结果中的相关对象参数之和与该关键词对应的样本检索结果中的所有相关对象参数之和的比值,其为反映该次检索相对于样本检索结果的召回率的参数。
在本实施例的一个优选实施方式中,计算每个关键词的召回率后还计算所有关键词召回率的算术平均值,具体地,根据下述公式计算召回率的算术平均值:
其中,n为评测关键词集的关键词数量,Rk为第k个评测关键词的召回率,HitScorek是第k个评测关键词对应的评测检索结果中所有相关对象参数之和,TotalScorek是第k个评测关键词对应的样本检索结果中所有相关对象参数之和。所述相关对象参数在之前的步骤120中计算得到,用于表征相关对象与对应关键词的相关性。
本实施例通过引入相关对象参数来表征每个相关对象与关键词的相关性,实际上赋予了相关对象不同的权重,使得不同的相关对象对于查全率的影响不同,这更加符合对于信息检索***32的性能需求,提高了查全率计算的准确性。
所述正确率根据关键词对应的评测检索结果中相关对象的数量和检索结果子集中非相关对象数量计算得到,其为反映该次检索的准确性或精度的参数。
在本实施例的一个优选实施方式中,计算每个关键词的正确率后还计算所有关键词正确率的算术平均值,具体地,正确率的算术平均值根据下述公式计算:
其中,n为评测关键词集的关键词数量,Pk为第k个评测关键词的正确率,Hk为第k个评测关键词的评测检索结果中所包括的相关对象的数量,Ik,r为第k个评测关键词的评测检索结果中第r个相关对象前非相关对象的数量。
上述实施方式通过累加后平均的方式计算正确率,在考虑数量的同时还将相关结果的分布情况考虑在内,正确率的计算精度得到了一定的提高。
步骤140、评测电子装置31根据所述召回率和正确率计算所述信息检索***32的评测指标。
在本步骤中,根据计算得到的召回率和正确率综合考虑计算评测指标。在本实施例的一个优选实施方式中,利用上述计算得到的召回率的算术平均值R和正确率的算术平均值P计算所述评测指标,具体地,根据如下公司计算所述评测指标F:
其中,F为所述评测指标、R为评测关键词集对应的召回率的算术平均值、P为评测关键词集对应的正确率的算术平均值、β为预定的权重系数,用于调节召回率和正确率对于评测指标的影响权重,β<1表示强调精确率,β>1表示强调召回率,β=1表示精确率和召回率权重相等。
当然,本领域技术人员可以理解,还可通过例如计算所述召回率和正确率的加权平均值等方式来计算所述评测指标。
本实施例通过关键词在评测检索的结果集合中的相关对象参数之和与该关键词在检索结果集合中的所有相关对象参数的比值之和来计算信息检索***的召回率,并将召回率引入信息检索***的评测中,增强了信息检索***量化评测的准确性,同时提高了评测的自动化程度。
图2是本发明第二实施例的信息检索***评测装置的结构示意图。如图2所示,所述装置包括行为数据收集单元21、分析单元22、评测检索单元23和评测指标计算单元24。
其中,行为数据收集单元21用于获取预定时间周期中信息检索***上报的行为数据样本。
具体而言,在预定的时间周期内(例如,优选一个月或更长时间)通过信息检索***的交互模块、搜索模块以及其它的与后续操作相关的模块上报用户使用所述信息检索***的相关参数,包括检索使用的关键词、检索结果以及检索结果中列出的每个对象在检索结果中的排序位置、用户是否对检索结果进行例如点击这样的进一步操作等等。
在本发明中,检索结果是指通过信息检索***获得的被检索对象的列表,对象是指所述信息检索***进行检索的具体目标对象,其可以是网页、文档、物品、图片或其它类型的文件。
分析单元22用于根据所述行为数据样本获取样本检索关键词集和每个样本检索关键词对应的样本检索结果。
评测检索单元23用于调用信息检索***对预定的评测关键词集来进行评测检索,根据评测检索结果和所述样本检索结果计算评测关键词集中每个关键词对应的召回率和正确率。
评测指标计算单元24用于根据所述召回率和正确率计算所述信息检索***的评测指标。
在本实施例的一个优选实施方式中,评测指标计算单元24根据下述公式计算所述评测指标:
其中,F为所述评测指标、R为评测关键词集对应的召回率的算术平均值、P为评测关键词集对应的正确率的算术平均值、β为预定的权重系数,用于调节召回率和正确率对于评测指标的影响权重,β<1表示强调精确率,β>1表示强调召回率,β=1表示精确率和召回率权重相等。
当然,本领域技术人员可以理解,评测指标计算单元24也可以通过例如计算加权平均值等其他方法来计算所述评测指标。
在本实施例的一个优选实施方式中,评测检索单元23包括召回率计算子单元231;
所述召回率计算子单元231用于根据下述公式计算召回率的算术平均值:
其中,n为评测关键词集的关键词数量,Rk为第k个评测关键词的召回率,HitScorek是第k个评测关键词对应的评测检索结果中所有相关对象参数之和,TotalScorek是第k个评测关键词对应的样本检索结果中所有相关对象参数之和,所述相关对象参数根据用户对相关对象进行操作的次数以及相关对象在每个样本检索结果中的排名计算得到,其用于表征相关对象与关键词的相关性程度。
其中,所述相关对象参数由分析单元22计算,具体地,由分析单元22的相关对象参数子单元221计算得到。
相关对象参数子单元221用于根据如下公式计算对应的相关对象参数:
ExposeCnt为该相关对象的在样本检索结果中出现的总次数,FCnt为样本检索结果中用户对该相关对象进行第一操作的总次数,SCnt为样本检索结果中用户对该相关对象进行第二操作的总次数,a为第一操作权重系数,b为第二操作权重系数,σ为调偏系数;FirstScorex为对应的相关对象于第x次出现在检索结果中并被执行第一操作时的相关性系数,其根据对应的相关对象在该次检索的检索结果中的排列位置计算得到;SecondScorey为对应的相关对象于第y次出现的检索结果中并被执行第二操作的相关性系数,其根据该相关对象在该次检索的检索结果中的排列位置计算得到。
在本实施方式中,所述第一操作和第二操作可以为不同的操作,例如,在搜索的对象为文档或网页时,所述第一操作为点击查看,第二操作为下载;在检索的对象为音乐文件时,所述第一操作为点击试听链接,第二操作为下载;在检索对象为物品时,所述第一操作可以为点击查看链接,所述第二操作为点击订购链接或进行订购操作。
在本实施方式中,在计算体现相关对象与对应关键词相关性时,考虑多种不同后续操作作对于相关性的贡献,进行多个纬度建模,更符合现有的信息检索***的需求。
在本实施例的一个优选实施方式中,评测检索单元23还包括正确率计算子单元232。
所述正确率计算子单元232用于根据下述公式计算正确率的算术平均值:
其中,n为评测关键词集的关键词数量,Pk为第k个评测关键词的正确率,Hk为第k个评测关键词的评测检索结果中所包括的相关对象的数量,Ik,r为第k个评测关键词的评测检索结果中第r个相关对象前非相关对象的数量。
在本实施方式中,通过累加后平均的方式计算正确率,在考虑数量的同时还将相关结果的分布情况考虑在内,正确率的计算精度得到了一定的提高。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种信息检索***评测方法,其特征在于,该方法包括:
获取预定时间周期中信息检索***上报的行为数据样本;
根据所述行为数据样本获取样本检索关键词集和每个样本检索关键词对应的样本检索结果;
调用信息检索***对预定的评测关键词集进行评测检索,根据评测检索结果和所述样本检索结果计算评测关键词集中每个关键词对应的召回率和正确率;
根据所述召回率和正确率计算所述信息检索***的评测指标;
其中,所述召回率为关键词对应的评测检索结果中的相关对象参数之和与该关键词对应的样本检索结果中的所有相关对象参数之和的比值;
所述正确率根据关键词对应的评测检索结果中相关对象的数量和检索结果子集中非相关对象的数量计算得到;
所述相关对象为所述样本检索结果中用户进行了操作的对象;所述非相关对象为所述样本检索结果中用户未进行操作的对象;
当对于检索结果中的对象进行两种不同的进一步操作,则每个相对对象的所述相关对象参数根据如下公式计算:
其中,ExposeCnt为该相关对象在对应关键词的样本检索结果中出现的总次数,FCnt为样本检索结果中用户对该相关对象进行第一操作的总次数,SCnt为样本检索结果中用户对该相关对象进行第二操作的总次数,a为第一操作权重系数,b为第二操作权重系数,σ为调偏系数;FirstScorex为该相关对象于第x次出现在检索结果中并被执行第一操作时的相关性系数,该相关性系数根据该相关对象在该次检索的检索结果中的排列位置计算得到,该相关对象在检索结果中排序越靠后,相应的相关性系数越高;SecondScorey为对应的相关对象于第y次出现在检索结果中并被执行第二操作时的相关性系数,所述相关性系数根据对应的相关对象在该次检索的检索结果中的排列位置计算得到,该相关对象在检索结果中排序越靠后,相应的相关性系数越高。
2.根据权利要求1所述的信息检索***评测方法,其特征在于,根据下述公式计算所述信息检索***的评测指标:
其中,F为所述评测指标、R为评测关键词集对应的召回率的算术平均值、P为评测关键词集对应的正确率的算术平均值、β为预定的权重系数。
3.根据权利要求2所述的信息检索***评测方法,其特征在于,所述召回率的算术平均值根据下述公式计算:
其中,n为评测关键词集的关键词数量,Rk为第k个评测关键词的召回率,HitScorek是第k个评测关键词对应的评测检索结果中所有相关对象参数之和,TotalScorek是第k个评测关键词对应的样本检索结果中所有相关对象参数之和,所述相关对象参数根据用户对相关对象进行操作的次数以及相关对象在每个样本检索结果中的排列位置计算得到。
4.根据权利要求2所述的信息检索***评测方法,其特征在于,所述正确率的算术平均值根据下述公式计算:
其中,n为评测关键词集的关键词数量,Pk为第k个评测关键词的正确率,Hk为第k个评测关键词的评测检索结果中所包括的相关对象的数量,Ik,r为第k个评测关键词的评测检索结果中第r个相关对象前非相关对象的数量。
5.一种信息检索***评测装置,其特征在于,该信息检索***评测装置包括行为数据收集单元、分析单元、评测检索单元和评测指标计算单元;
所述行为数据收集单元用于获取预定时间周期中信息检索***上报的行为数据样本;
所述分析单元用于根据所述行为数据样本获取样本检索关键词集和每个样本检索关键词对应的样本检索结果;
所述评测检索单元用于调用信息检索***对预定的评测关键词集来进行评测检索,根据评测检索结果和所述样本检索结果计算评测关键词集中每个关键词对应的召回率和正确率;
所述评测指标计算单元用于根据所述召回率和正确率计算所述信息检索***的评测指标;
其中,所述召回率为关键词对应的评测检索结果中的相关对象参数之和与该关键词对应的样本检索结果中的所有相关对象参数之和的比值;
所述正确率根据关键词对应的评测检索结果中相关对象的数量和检索结果子集中非相关对象的数量计算得到;
所述相关对象为所述样本检索结果中用户进行了操作的对象;所述非相关对象为所述样本检索结果中用户未进行操作的对象;
所述分析单元包括相关对象参数计算子单元;
所述相关对象参数子单元用于当对于检索结果中的对象进行两种不同的进一步操作,根据如下公式计算对应的相关对象参数score:
其中,ExposeCnt为该相关对象在对应关键词的样本检索结果中出现的总次数,FCnt为样本检索结果中用户对该相关对象进行第一操作的总次数,SCnt为样本检索结果中用户对该相关对象进行第二操作的总次数,a为第一操作权重系数,b为第二操作权重系数,σ为调偏系数;FirstScorex为该相关对象于第x次出现在检索结果中并被执行第一操作时的相关性系数,该相关性系数根据该相关对象在该次检索的检索结果中的排列位置计算得到,该相关对象在检索结果中排序越靠后,相应的相关性系数越高;SecondScorey为该相关对象于第y次出现在检索结果中并被执行第二操作时的相关性系数,该相关性系数根据该相关对象在该次检索的检索结果中的排列位置计算得到,该相关对象在检索结果中排序越靠后,相应的相关性系数越高。
6.根据权利要求5所述的信息检索***评测装置,其特征在于,所述评测指标计算单元根据下述公式计算所述信息检索***的评测指标:
其中,F为所述评测指标、R为评测关键词集对应的召回率的算术平均值、P为评测关键词集对应的正确率的算术平均值、β为预定的权重系数。
7.根据权利要求6所述的信息检索***评测装置,其特征在于,所述评测检索单元包括召回率计算子单元;
所述召回率计算子单元用于根据下述公式计算召回率的算术平均值:
其中,n为评测关键词集的关键词数量,Rk为第k个评测关键词的召回率,HitScorek是第k个评测关键词对应的评测检索结果中所有相关对象参数之和,TotalScorek是第k个评测关键词对应的样本检索结果中所有相关对象参数之和,所述相关对象参数根据用户对相关对象进行操作的次数以及相关对象在每个样本检索结果中的排列位置计算得到。
8.根据权利要求6所述的信息检索***评测装置,其特征在于,所述评测检索单元包括正确率计算子单元;
所述正确率计算子单元用于正确率的算术平均值根据下述公式计算:
其中,n为评测关键词集的关键词数量,Pk为第k个评测关键词的正确率,Hk为第k个评测关键词的评测检索结果中所包括的相关对象的数量,Ik,r为第k个评测关键词的评测检索结果中第r个相关对象前非相关对象的数量。
CN201310084139.4A 2013-03-15 2013-03-15 一种信息检索***评测方法和装置 Active CN104050197B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310084139.4A CN104050197B (zh) 2013-03-15 2013-03-15 一种信息检索***评测方法和装置
PCT/CN2013/090906 WO2014139309A1 (en) 2013-03-15 2013-12-30 Information retrieval system evaluation method, device and storage medium
MYPI2015702223A MY173033A (en) 2013-03-15 2013-12-30 Information retrieval system evaluation method, device and storage medium
US14/328,809 US9436729B2 (en) 2013-03-15 2014-07-11 Information retrieval system evaluation method, device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310084139.4A CN104050197B (zh) 2013-03-15 2013-03-15 一种信息检索***评测方法和装置

Publications (2)

Publication Number Publication Date
CN104050197A CN104050197A (zh) 2014-09-17
CN104050197B true CN104050197B (zh) 2018-08-17

Family

ID=51503048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310084139.4A Active CN104050197B (zh) 2013-03-15 2013-03-15 一种信息检索***评测方法和装置

Country Status (4)

Country Link
US (1) US9436729B2 (zh)
CN (1) CN104050197B (zh)
MY (1) MY173033A (zh)
WO (1) WO2014139309A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750838B (zh) * 2015-04-03 2018-06-12 王娟磊 面向大数据分析的综合态势定量处理方法
CN107560849B (zh) * 2017-08-04 2020-02-18 华北电力大学 多通道深度卷积神经网络的风电机组轴承故障诊断方法
CN108229847A (zh) * 2018-01-30 2018-06-29 携程旅游网络技术(上海)有限公司 非量化型数据的对比方法和***
CN108733766B (zh) * 2018-04-17 2020-10-02 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质
CN109582751B (zh) * 2018-11-29 2021-01-01 百度在线网络技术(北京)有限公司 一种检索效果的度量方法及服务器
CN114270343A (zh) * 2019-10-23 2022-04-01 北京欧珀通信有限公司 数据请求方法、装置、***、服务器及存储介质
CN113128794A (zh) * 2019-12-27 2021-07-16 北京国双科技有限公司 一种量化评估方法及装置
CN112104674B (zh) * 2020-11-17 2021-05-11 鹏城实验室 攻击检测召回率自动测试方法、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1963816A (zh) * 2006-12-01 2007-05-16 清华大学 一种搜索引擎性能评价的自动化处理方法
CN101030210A (zh) * 2006-10-08 2007-09-05 胡继强 一种利用用户的行为影响搜索排名的方法
CN102486774A (zh) * 2010-12-01 2012-06-06 腾讯科技(深圳)有限公司 一种网络页面的质量获取方法、***及服务器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1940937A (en) * 1930-03-15 1933-12-26 Robert C Burt Sound recording and reproducing system
EP1006458A1 (en) * 1998-12-01 2000-06-07 BRITISH TELECOMMUNICATIONS public limited company Methods and apparatus for information retrieval
JP4165546B2 (ja) * 2005-09-30 2008-10-15 ブラザー工業株式会社 検索システム及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030210A (zh) * 2006-10-08 2007-09-05 胡继强 一种利用用户的行为影响搜索排名的方法
CN1963816A (zh) * 2006-12-01 2007-05-16 清华大学 一种搜索引擎性能评价的自动化处理方法
CN102486774A (zh) * 2010-12-01 2012-06-06 腾讯科技(深圳)有限公司 一种网络页面的质量获取方法、***及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"检索效果评价的数学模型研究";安兴茹;《情报杂志》;20071231(第1期);61-64 *

Also Published As

Publication number Publication date
MY173033A (en) 2019-12-19
WO2014139309A1 (en) 2014-09-18
CN104050197A (zh) 2014-09-17
US9436729B2 (en) 2016-09-06
US20140324842A1 (en) 2014-10-30

Similar Documents

Publication Publication Date Title
CN104050197B (zh) 一种信息检索***评测方法和装置
CN105701216B (zh) 一种信息推送方法及装置
Mitchell et al. Bayesian model selection with BAMM: effects of the model prior on the inferred number of diversification shifts
JP6211605B2 (ja) クリックスルー率に基づく検索結果の順位付け
CN106023015B (zh) 课程学习路径推荐方法及装置
CN107704467B (zh) 搜索质量评估方法及装置
CN109615129B (zh) 房地产客户成交概率预测方法、服务器及计算机存储介质
CN103389974B (zh) 进行信息搜索的方法及服务器
Wu et al. On the use of reservoir computing in popularity prediction
CN104462293A (zh) 搜索处理方法、生成搜索结果排序模型的方法和装置
US20100030717A1 (en) Framework to evaluate content display policies
CN107862022A (zh) 文化资源推荐***
JP2013528873A (ja) リサーチミッション識別
CN107861981A (zh) 一种数据处理方法及装置
CN103020212A (zh) 一种基于用户查询日志实时发现热点视频的方法和装置
CN104111970B (zh) 统计页面平均停留时间、确定页面用户黏性的方法和装置
CN106033469A (zh) 用于大数据的结构化查询的高效性能预测的方法和***
CN108052670A (zh) 一种相机特效的推荐方法及装置
CN105335363B (zh) 一种对象推送方法及***
CN112487283A (zh) 训练模型的方法、装置、电子设备及可读存储介质
CN103544307A (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
US20110231415A1 (en) Web page searching system and method using access time and frequency
CN105426392A (zh) 一种协同过滤推荐方法及***
Mea et al. Measuring retrieval effectiveness: A new proposal and a first experimental validation
Wang et al. Search engine optimization based on algorithm of BP neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant