CN102339296A - 一种查询结果的排序方法和装置 - Google Patents

一种查询结果的排序方法和装置 Download PDF

Info

Publication number
CN102339296A
CN102339296A CN2010102392273A CN201010239227A CN102339296A CN 102339296 A CN102339296 A CN 102339296A CN 2010102392273 A CN2010102392273 A CN 2010102392273A CN 201010239227 A CN201010239227 A CN 201010239227A CN 102339296 A CN102339296 A CN 102339296A
Authority
CN
China
Prior art keywords
query result
information
supplier
factor
liveness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102392273A
Other languages
English (en)
Inventor
陈超
韩小梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2010102392273A priority Critical patent/CN102339296A/zh
Priority to PCT/US2011/045040 priority patent/WO2012018559A1/en
Priority to JP2013521850A priority patent/JP5805188B2/ja
Priority to US13/262,611 priority patent/US8504563B2/en
Priority to EP11815026.7A priority patent/EP2599048A4/en
Publication of CN102339296A publication Critical patent/CN102339296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了一种查询结果的排序方法和装置,其中,所述方法包括:根据提取出的符合用户查询条件的查询结果,采集指示查询结果质量的质量因子、指示查询结果供应商的活跃度的活跃度因子、指示查询结果供应商所在行业的行业因子、查询结果供应商的信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合;将采集到的内容作为查询结果的特征,基于支持向量机SVM回归模型进行特征拟合,得到查询结果的特征拟合值;基于查询结果的相关值进行排序,在相同的相关性级别中,以查询结果的特征拟合值从高到低的顺序进行排列。根据本申请实施例,可以节省资源消耗,提高用户体验。

Description

一种查询结果的排序方法和装置
技术领域
本申请涉及通信和计算机技术领域,特别是涉及一种查询结果的排序方法和装置。
背景技术
用户在信息查询搜索引擎***中进行信息查询时,当用户输入查询条件后,后台的信息查询***从数据库中提取符合用户查询条件的查询结果,将查询结果以一定的方式进行排序后展现给用户,这样,用户就可以从展现出的,并以一定顺序排列的查询结果中选择自己满意的信息。
其中,在将查询结果进行排序时,信息查询***通常会在相关性基础上考虑每个查询结果的时效性。即,根据每个查询结果的相关值,先将查询结果分类到不同的相关性级别,再按照相关性级别由高到低进行排序。而在相同的相关性级别中,则根据每个查询结果的发布时间进行排序,发布时间越近的查询结果,排名越靠前。
例如,以购物网站中的信息查询***对商品进行排序为例,当信息查询***从数据库中提取符合用户查询条件的商品信息后,会在相关性基础上考虑每个商品信息的时效性,在相同的相关性级别中,发布时间越近的商品信息,排名越靠前。
但是,发明人在研究中发现,在现有的排序方式下,为了使商品信息的排序靠前,一部分供应商通过每天多次重发商品信息来不断更新发布时间。每天大量的重发信息不仅对带宽、数据库和服务器等技术资源造成了大量的消耗,而且,以发布时间为导向的排序方法也导致了一部分供应商的恶性竞争行为,最终降低了用户的体验性。
发明内容
为了解决上述技术问题,本申请实施例提供了一种查询结果的排序方法和装置,以节省资源消耗,提高用户体验。
本申请实施例公开公开了如下技术方案:
一种搜索引擎中查询结果的排序方法,包括:根据提取出的符合用户查询条件的查询结果,采集指示查询结果质量的质量因子、指示查询结果供应商的活跃度的活跃度因子、指示查询结果供应商所在行业的行业因子、查询结果供应商的信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合;将采集到的内容作为查询结果的特征,基于支持向量机SVM回归模型进行特征拟合,得到查询结果的特征拟合值;基于查询结果的相关值进行排序,在相同的相关性级别中,以查询结果的特征拟合值从高到低的顺序进行排列。
一种搜索引擎中查询结果的排序装置,包括:第一采集模块,用于根据提取出的符合用户查询条件的查询结果,采集指示查询结果质量的质量因子、指示查询结果供应商的活跃度的活跃度因子、指示查询结果供应商所在行业的行业因子、查询结果供应商的信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合;特征拟合模块,用于将采集到的内容作为查询结果的特征,基于支持向量机SVM回归模型进行特征拟合,得到查询结果的特征拟合值;排序模块,用于基于查询结果的相关值进行排序,在相同的相关性级别中,以查询结果的特征拟合值从高到低的顺序进行排列。
由上述实施例可以看出,以质量因子、活跃度因子、行业因子、信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合做为导向的排序方法,弱化了查询结果的时效性因素,不仅可以避免由供应商重发信息而导致的带宽、数据库和服务器等技术资源的消耗,节省了资源消耗,也避免了供应商的恶心竞争行为,提高了用户的体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种查询结果的排序方法的一个实施例的流程图;
图2为本申请一种查询结果的排序方法的另一个实施例的流程图;
图3为本申请一种信息查询***的总体结构图;
图4为本申请一种查询结果的排序方法的另一个实施例的流程图;
图5为本申请一种商品信息的字段展现示意图;
图6为本申请一种手机信息的属性展现示意图;
图7为本申请一种查询结果的排序装置的一个实施例的结构图;
图8为本申请一种查询结果的排序装置的另一个实施例的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例进行详细描述。
实施例一
请参阅图1,其为本申请一种查询结果的排序方法的一个实施例的流程图,该方法包括以下步骤:
步骤101:根据提取出的符合用户查询条件的查询结果,采集查询结果的特征,所述查询结果的特征包括:指示查询结果质量的质量因子、指示查询结果供应商的活跃度的活跃度因子、指示查询结果供应商所在行业的行业因子、查询结果供应商的信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合;
其中,所述采集查询结果信息质量的质量因子包括:根据数据库信息统计查询结果的质量指标,所述查询结果的质量指标包括信息完整率、属性完整率和详细说明完整率中的任意一个或者任意多个组合;对统计的查询结果的质量指标进行线性拟合,得到所述质量因子。
需要说明的是,本申请并不限定查询结果的质量指标为信息完整率、属性完整率和详细说明完整率中的一个或者任意多个组合。例如,信息完整率、属性完整率和详细说明完整率都从不同的方面反映了一个查询结果的质量,从而可以将其中的一个或者任意多个组合作为计算质量因子的质量指标。因此,根据查询结果的不同,反映查询结果的质量指标还可以是除上述之外的其它指标。应该明确的是,当查询结果的内容确定后,反映查询结果的质量指标也就随之确定,因此,就可以根据数据库信息统计相应的查询结果的质量指标。
例如,以查询结果的质量指标为信息完整率、属性完整率和详细说明完整率为例来进行说明。当数据库信息中保存了某个查询结果的可填写字段和已填写字段时,统计可填写字段数和已填写字段数,已填写字段数与可填写字段数的比值为信息完整率。当数据库信息中保存了某个查询结果的可填写属性和已填写属性时,统计可填写属性数和已填写属性数,已填写属性数与可填写属性数的比值为属性完整率。当数据库信息中保存了有关某个查询结果的详细说明部分的已填图片和文字描述时,符合详细说明部分图文并茂或者文字描述在50个字以上条件的,被归为详细说明完整率高,符合详细说明部分中的文字描述在20-50个字之间条件的,被归为详细说明完整率中,符合详细说明部分中的文字描述在20字以下条件的,被归为详细说明完整率低。详细说明完整率高、详细说明完整率中和详细说明完整率低分别对应预先设置的某个数值。
需要说明的是,本申请并不限定详细说明完整率高、详细说明完整率中和详细说明完整率低所对应的条件,可以根据用户的使用需要而任意设定。例如,当用户对某个查询结果的详细说明完整率要求较高时,可以是符合文字描述在60个字以上条件的,被归为详细说明完整率高。反之,当用户对查询结果的详细说明完整率要求较低时,可以是符合文字描述在40个字以上条件的,被归为详细说明完整率高。
当统计出信息完整率、属性完整率和详细说明完整率后,对统计得到的信息完整率、属性完整率和详细说明完整率进行线性拟合,得到各条查询结果的质量因子。例如,质量因子=信息完整率*0.3+属性完整率*0.4+详细说明完整率*0.3。此处需要说明的是,本申请并不限定进行线性拟合时各个查询结果的质量指标中的权重数,可以根据不同的应用需求而调整各个查询结果的质量指标的权重数。
其中,所述采集指示查询结果供应商的活跃度的活跃度因子包括:根据数据库信息统计信息供应商的活跃度指标,所述查询结果供应商的活跃度指标包括:查询结果供应商的在线时间和/或查询结果供应商的活跃度分数;对统计的查询结果供应商的活跃度指标进行线性拟合,得到所述活跃度因子。
需要说明的是,本申请同样也并不限定查询结果供应商的活跃度指标为查询结果供应商的在线时间和/或查询结果供应商的活跃度分数。例如,查询结果供应商的在线时间和查询结果供应商的活跃度分数都从不同的方面反映了一个查询结果供应商的活跃度,从而可以将查询结果供应商的在线时间和/或查询结果供应商的活跃度分数作为计算活跃度因子的查询结果供应商的活跃度指标。因此,根据查询结果的不同,反映查询结果供应商的活跃度指标还可以是除上述之外的其他指标。应该明确是,当查询结果内容确定后,反映查询结果供应商的活跃度指标也就随之确定,因此,也就可以根据数据库信息统计相应的查询结果供应商的活跃度指标。
例如,以查询结果供应商的活跃度指标为查询结果供应商的在线时间和查询结果供应商的活跃度分数为例来进行说明。当数据库中保存了查询结果供应商的在线时间和查询结果供应商的活跃度分数时,统计一个固定期限内查询结果供应商的在线时间和查询结果供应商的活跃度分数,对统计得到的查询结果供应商的在线时间和查询结果供应商的活跃度分数进行线性拟合,得到各条查询结果的活跃度因子。例如,活跃度因子=信息供应商的在线时间*0.5+信息供应商的活跃度分数*0.5。此处也需要说明的是,本申请并不限定进行线性拟合时各个查询结果供应商的活跃度指标的权重数,可以根据不同的应用需求而调整各个查询结果供应商的活跃度指标的权重数。
其中,所述采集查询结果供应商的信息点击转化率包括:根据用户日志信息统计指定时间内信息供应商的信息曝光数和信息点击数;将统计的信息点击数与信息曝光数进行求商运算,得到所述信息供应商的信息点击转化率。
所述采集查询结果供应商的信息点击反馈率包括:根据用户日志信息统计指定时间内查询结果供应商的信息点击数和信息反馈数;将统计的信息反馈数与信息点击数进行求商运算,得到所述查询结果供应商的信息反馈数。
例如,数据库中保存了查询结果供应商的信息曝光情况、信息点击情况和信息反馈情况,所谓信息曝光就是指信息的公布,信息公布一次即为曝光一次。所谓信息反馈就是指被曝光的信息被点击后,当用户和信息供应商之间进行联系,如,在线聊天等。此时,需要统计指定时间内信息供应商的信息曝光数、信息点击数和信息反馈数,将统计的信息点击数与信息曝光数进行求商运算,得到查询结果供应商的信息点击转化率,并将统计的信息反馈数与信息点击数进行求商运算,得到查询结果供应商的信息反馈数。
步骤102:将采集到的内容作为查询结果的特征,基于SVM(SupportVector Machine,支持向量机)回归模型进行特征拟合,得到查询结果的特征拟合值;
其中,SVM回归模型是将低维空间的线性不可分问题转化为高维空间的线性可分问题。SVM的主要思想可以概括为两点:
(1)对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化到高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习效果全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
在模型学习部分,通过核函数达到提升特征空间维度的目的,核函数选择径向基函数RBF,向量机类型采用支持向量回归模型NU_SVR,这种方法可以得到连续的预测值,更符合应用需求。
以质量因子、活跃度因子、信息点击转化率和信息反馈转化率作为查询结果的特征为例,详细说明SVM模型的建立过程。
先对抽取的一定数量的供应商样本进行数据标注,如下表所示,其中,质量因子为0~1之间连续值,0最差,1最好;活跃度因子为0~1之间连续值,0最差,1最好;信息点击转化率为0~1之间连续值,0最差,1最好;信息反馈转化率为0~1之间连续值,0最差,1最好;标注结论为离散值,0或者1,0是差,1是好。
Figure BSA00000208317100071
然后将标记的数据作为输入,调用SVM接口进行训练,得到训练模型。此模型可用于后续的特征预测,即每当采集到的质量因子、活跃度因子、信息点击转化率和信息反馈转化率后,输入采集的上述四个因子后,就可以得到查询结果的特征拟合值。
当然,当采集到的是其他因子或者其他因子组合时,可以按照上述方法建立相应的SVM回归模型,并基于建立的SVM回归模型进行特征拟合,最终得到查询结果的特征拟合值。
步骤103:基于查询结果的相关值进行排序,在相同的相关性级别中,以查询结果的特征拟合值从高到低的顺序进行排列。
其中,先根据查询结果的相关值进行排序,即,与现有技术相同,先将查询结果分类到不同的相关性级别,再按照相关性级别由高到低进行排序。而在相同的相关性级别中,查询结果的排序方式与现有技术不同,是以查询结果的特征拟合值从高到低的顺序进行排序,特征拟合值高的查询结果排在前面,特征拟合值低的查询结果排在后面。
由上述实施例可以看出,以质量因子、活跃度因子、行业因子、信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合做为导向的排序方法,弱化了查询结果的时效性因素,不仅可以避免由供应商重发信息而导致的带宽、数据库和服务器等技术资源的消耗,节省了资源消耗,也避免了供应商的恶心竞争行为,提高了用户的体验。
实施例二
与上述实施例不同的是,除了将质量因子、活跃度因子、信息点击转化率、信息反馈转化率和行业因子中的任意一个或者任意多个组合作为特征而进行特征拟合之外,还将时效性因子也作为特征进行特征拟合。请参阅图2,其为本申请一种查询结果的排序方法的另一个实施例的流程图,包括以下步骤:
步骤201:根据提取出的符合用户查询条件的查询结果,采集指示查询结果质量的质量因子,指示查询结果供应商的活跃度的活跃度因子、指示查询结果所在行业的行业因子、查询结果供应商的信息点击转化率、信息反馈转化率中的任意一个或者任意多个组合;
由于上一个实施例已经对采集指示查询结果质量的质量因子,指示查询结果供应商的活跃度的活跃度因子、指示查询结果供应商所在行业的行业因子、查询结果供应商的信息点击转化率和信息反馈转化率的过程进行了详细地描述,相关过程可参见上一实施例,故此处不再赘述。
步骤202:采集指示查询结果时效性的时效性因子;
其中,查询结果的时效性因子是指查询结果的发布时间。
需要说明的是,本申请实施例并不限定步骤201和步骤202的执行顺序,还可以先执行步骤202,再执行步骤201,或者同时执行两个步骤。
步骤203:将采集到的内容作为查询结果的特征,基于支持向量机SVM回归模型进行特征拟合,得到查询结果的特征拟合值;
其中,相关过程可参见上一实施例,此处不再赘述。
步骤204:基于查询结果的相关值进行排序,在相同的相关性级别中,以查询结果的特征拟合值从高到低的顺序进行排列。
其中,相关过程可参见上一实施例,此处不再赘述。
由上述实施例可以看出,在以质量因子、活跃度因子、行业因子、信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合做为导向的基础上,进一步考虑时效因子,不仅在一定程度上弱化了查询结果的时效性因素,,而且,信息的发布时间往往决定了信息的有效性,如果将信息的发布时间作为信息质量的一个维度进行考虑,可以进一步提高信息查询***中查询结果的有效性。
实施例三
请参阅图3,其为本申请一种信息查询***的总体结构图。如图3所示,当用户向信息查询***输入查询关键词之后,信息查询从数据库中提取出与查询关键词匹配的查询结果,并先将查询结果基于MLR相关性排序模型进行排序,在相同的相关性级别中,再根据特征拟合值进行排列,最后将排序后的查询结果展现给用户。针对于图3中的查询***,下面以基于质量因子、活跃度因子、行业因子、信息点击转化率和信息反馈转化率进行特征拟合为例,详细说明该信息查询***中,查询结果的排序方法。请参阅图4,其为本申请一种查询结果的排序方法的另一个实施例的流程图。包括以下步骤:
步骤401:根据数据库信息采集指示查询结果质量的质量因子;
其中,需要根据数据库信息统计查询结果的质量指标,查询结果的质量指标包括信息完整率、属性完整率和详细说明完整率中的任意一个或者任意多个组合。其中,信息完整率是指已填写字段数占可填写字段数的比例。例如,对于一个商品信息而言,字段是指一条信息的各个可填写的域。请参阅图5,其为本申请一种商品信息的字段展现示意图,图5所示的商品信息的字段包括:标题、图片、详细说明、属性、是否支持网上订购、计量单位、供货总量、价格区间、混批、运费、信息有效期等。属性完整率是指已填写属性数与可填写属性数的比例。例如,属性是指商品的描述维度。以手机信息为例,请参阅图6,其为本申请一种手机信息的属性展现示意图。详细说明完整率是指:符合详细说明部分图文并茂或者文字描述在50个字以上条件的,被归为详细说明完整率高,符合详细说明部分中的文字描述在20-50个字之间条件的,被归为详细说明完整率中,符合详细说明部分中的文字描述在20字以下条件的,被归为详细说明完整率低。详细说明完整率高、详细说明完整率中和详细说明完整率低分别对应预先设置的某个数值。
当统计得到查询结果的质量指标后,对统计的质量指标进行线性拟合,得到质量因子。
步骤402:根据数据库信息采集指示查询结果供应商的活跃度的活跃度因子;
其中,同样需要根据数据库信息统计查询结果供应商的活跃度指标,查询结果供应商的活跃度指标包括查询结果供应商的在线时间和/或查询结果供应商的活跃度分数。然后对统计的查询结果供应商的活跃度指标进行线性拟合,得到活跃度因子。
步骤403:根据用户的日志信息采集查询结果供应商所在行业的行业因子;
步骤404:根据用户日志信息采集查询结果供应商的信息点击转化率和信息反馈转化率;
步骤405:将采集到的信息质量因子、活跃度因子、行业因子、信息点击转化率和信息反馈转化率作为每个查询结果的特征,基于SVM回归模型进行特征拟合,得到查询结果的特征拟合值;
步骤406:计算每个查询结果的相关值;
其中,相关值的计算过程考虑了用户输入的查询关键词和信息标题的匹配程度,以及用户发布信息所选类目的正确性。
另外,本实施例对步骤406的执行过程没有严格的限定,可以与几个因子的采集过程同时进行,或者在因子的采集之前完成相关值的计算工作。
步骤407:按照查询结果的相关值,将查询结果分类到不同的相关性级别,并按照相关性级别由高到低的顺序进行排序;
步骤408:在相同的相关性级别中,以查询结果的特征拟合值从高到低的顺序进行排列。
由上述实施例可以看出,以质量因子、活跃度因子、行业因子、信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合做为导向的排序方法,弱化了查询结果的时效性因素,不仅可以避免由供应商重发信息而导致的带宽、数据库和服务器等技术资源的消耗,节省了资源消耗,也避免了供应商的恶心竞争行为,提高了用户的体验。
实施例四
与上述一种查询结果的排序方法相对应,本申请实施例还提供了一种查询结果的排序装置。请参阅图7,其为本申请一种查询结果的排序装置的一个实施例的结构图,该装置包括第一采集模块701、特征拟合模块702和排序模块703。下面结合该装置的工作原理进一步介绍其内部结构以及连接关系。
第一采集模块701,用于根据提取出的符合用户查询条件的查询结果,采集指示查询结果质量的质量因子,指示查询结果供应商的活跃度的活跃度因子、指示查询结果供应商所在行业的行业因子、查询结果供应商的信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合;
特征拟合模块702,用于将采集到的内容作为查询结果的特征,基于支持向量机SVM回归模型进行特征拟合,得到查询结果的特征拟合值;
排序模块703,用于基于查询结果的相关值进行排序,在相同的相关性级别中,以查询结果的特征拟合值从高到低的顺序进行排列。
优选的,请参阅图8,其为本申请一种查询结果的排序装置的另一个实施例的结构图,所述装置还包括:第二采集模块704,用于当采集指示查询结果质量的质量因子、指示查询结果供应商的活跃度的活跃度因子、查询结果供应商的信息点击转化率、信息反馈转化率和指示查询结果供应商所在行业的行业因子的任意一个或者任意多个组合之后,还包括:采集指示查询结果时效性的时效性因子。
由上述实施例可以看出,在以质量因子、活跃度因子、行业因子、信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合做为导向的基础上,进一步考虑时效因子,不仅在一定程度上弱化了查询结果的时效性因素,,而且,信息的发布时间往往决定了信息的有效性,如果将信息的发布时间作为信息质量的一个维度进行考虑,可以进一步提高信息查询***中查询结果的有效性。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上对本申请所提供的一种搜索引擎中查询结果的排序方法和装置进行了详细介绍,本文中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种搜索引擎中查询结果的排序方法,其特征在于,包括:
根据提取出的符合用户查询条件的查询结果,采集指示查询结果质量的质量因子、指示查询结果供应商的活跃度的活跃度因子、指示查询结果供应商所在行业的行业因子、查询结果供应商的信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合;
将采集到的内容作为查询结果的特征,基于支持向量机SVM回归模型进行特征拟合,得到查询结果的特征拟合值;
基于查询结果的相关值进行排序,在相同的相关性级别中,以查询结果的特征拟合值从高到低的顺序进行排列。
2.根据权利要求1所述的方法,其特征在于,当采集指示查询结果质量的质量因子、指示查询结果供应商的活跃度的活跃度因子、查询结果供应商的信息点击转化率、信息反馈转化率和指示查询结果供应商所在行业的行业因子的任意一个或者任意多个组合之后,还包括:采集指示查询结果时效性的时效性因子。
3.根据权利要求1所述的方法,其特征在于,所述采集指示查询结果质量的质量因子包括:
根据数据库信息统计查询结果的质量指标,所述查询结果的质量指标包括信息完整率、属性完整率和详细说明完整率中的任意一个或者任意多个组合;
对统计的查询结果的质量指标进行线性拟合,得到所述质量因子。
4.根据权利要求1所述的方法,其特征在于,所述采集指示查询结果供应商的活跃度的活跃度因子包括:
根据数据库信息统计查询结果供应商的活跃度指标,所述查询结果供应商的活跃度指标包括:查询结果供应商的在线时间和/或查询结果供应商的活跃度分数;
对统计的查询结果供应商的活跃度指标进行线性拟合,得到所述活跃度因子。
5.根据权利要求1所述的方法,其特征在于,所述采集查询结果供应商的信息点击转化率包括:
根据用户日志信息统计指定时间内查询结果供应商的信息曝光数和信息点击数;
将统计的信息点击数与信息曝光数进行求商运算,得到所述查询结果供应商的信息点击转化率。
6.根据权利要求1所述的方法,其特征在于,所述采集查询结果供应商的信息点击反馈率包括:
根据用户日志信息统计指定时间内查询结果供应商的信息点击数和信息反馈数;
将统计的信息反馈数与信息点击数进行求商运算,得到所述查询结果供应商的信息反馈数。
7.一种搜索引擎中查询结果的排序装置,其特征在于,包括:
第一采集模块,用于根据提取出的符合用户查询条件的查询结果,采集指示查询结果质量的质量因子、指示查询结果供应商的活跃度的活跃度因子、指示查询结果供应商所在行业的行业因子、查询结果供应商的信息点击转化率和信息反馈转化率中的任意一个或者任意多个组合;
特征拟合模块,用于将采集到的内容作为查询结果的特征,基于支持向量机SVM回归模型进行特征拟合,得到查询结果的特征拟合值;
排序模块,用于基于查询结果的相关值进行排序,在相同的相关性级别中,以查询结果的特征拟合值从高到低的顺序进行排列。
8.根据权利要求7所述的装置,其特征在于,当第一采集模块采集因子之后,还包括:第二采集模块,用于采集指示查询结果时效性的时效性因子。
CN2010102392273A 2010-07-26 2010-07-26 一种查询结果的排序方法和装置 Pending CN102339296A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN2010102392273A CN102339296A (zh) 2010-07-26 2010-07-26 一种查询结果的排序方法和装置
PCT/US2011/045040 WO2012018559A1 (en) 2010-07-26 2011-07-22 Method and apparatus for sorting inquiry results
JP2013521850A JP5805188B2 (ja) 2010-07-26 2011-07-22 照会結果をソートするための方法および装置
US13/262,611 US8504563B2 (en) 2010-07-26 2011-07-22 Method and apparatus for sorting inquiry results
EP11815026.7A EP2599048A4 (en) 2010-07-26 2011-07-22 METHOD AND DEVICE FOR SORTING SURVEY RESULTS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102392273A CN102339296A (zh) 2010-07-26 2010-07-26 一种查询结果的排序方法和装置

Publications (1)

Publication Number Publication Date
CN102339296A true CN102339296A (zh) 2012-02-01

Family

ID=45515033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102392273A Pending CN102339296A (zh) 2010-07-26 2010-07-26 一种查询结果的排序方法和装置

Country Status (5)

Country Link
US (1) US8504563B2 (zh)
EP (1) EP2599048A4 (zh)
JP (1) JP5805188B2 (zh)
CN (1) CN102339296A (zh)
WO (1) WO2012018559A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336848A (zh) * 2013-07-22 2013-10-02 五八同城信息技术有限公司 一种分类信息的排序方法
CN103514178A (zh) * 2012-06-18 2014-01-15 阿里巴巴集团控股有限公司 一种基于点击率的搜索排序方法及装置
CN103544314A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种搜索数据质量统计方法
CN104252456A (zh) * 2013-06-25 2014-12-31 阿里巴巴集团控股有限公司 一种权重估计方法、装置及***
CN104281585A (zh) * 2013-07-02 2015-01-14 阿里巴巴集团控股有限公司 一种对象排序方法和装置
CN105511955A (zh) * 2014-08-27 2016-04-20 财团法人资讯工业策进会 用于一丛集运算***的主装置、从属装置及其运算方法
CN106503890A (zh) * 2016-10-18 2017-03-15 国云科技股份有限公司 一种信息点击排名方法
CN106682947A (zh) * 2015-12-30 2017-05-17 Tcl集团股份有限公司 用于共享环境的时间价值评估方法和***
CN106708835A (zh) * 2015-08-11 2017-05-24 阿里巴巴集团控股有限公司 一种数据表的分类方法和装置
CN107451832A (zh) * 2016-05-30 2017-12-08 北京京东尚科信息技术有限公司 推送信息的方法和装置
CN107590626A (zh) * 2016-07-08 2018-01-16 奥林科技(中国)有限公司 物流管理***及其管理方法
CN109299350A (zh) * 2018-09-13 2019-02-01 掌阅科技股份有限公司 电子书的排序方法、计算设备及计算机存储介质
CN113849703A (zh) * 2021-11-30 2021-12-28 亿海蓝(北京)数据技术股份公司 船舶信息查询方法及装置、可读存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678365B (zh) 2012-09-13 2017-07-18 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及***
CN106997360A (zh) * 2016-01-25 2017-08-01 阿里巴巴集团控股有限公司 用户行为数据的处理方法和装置
CN106775694B (zh) * 2016-12-08 2019-10-25 中国科学院软件研究所 一种软件配置代码制品的层次分类方法
CN108491423B (zh) * 2018-02-07 2020-09-01 北京奇艺世纪科技有限公司 一种排序方法及装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434550B1 (en) 2000-04-14 2002-08-13 Rightnow Technologies, Inc. Temporal updates of relevancy rating of retrieved information in an information search system
US6507838B1 (en) 2000-06-14 2003-01-14 International Business Machines Corporation Method for combining multi-modal queries for search of multimedia data using time overlap or co-occurrence and relevance scores
US20020123989A1 (en) 2001-03-05 2002-09-05 Arik Kopelman Real time filter and a method for calculating the relevancy value of a document
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
WO2002103578A1 (en) * 2001-06-19 2002-12-27 Biozak, Inc. Dynamic search engine and database
US20040039735A1 (en) * 2002-06-19 2004-02-26 Ross Maria A. Computer-implemented method and system for performing searching for products and services
WO2005065305A2 (en) * 2003-12-31 2005-07-21 3M Innovative Properties Company Inventory control for web-based articles
US7761447B2 (en) 2004-04-08 2010-07-20 Microsoft Corporation Systems and methods that rank search results
US8335785B2 (en) 2004-09-28 2012-12-18 Hewlett-Packard Development Company, L.P. Ranking results for network search query
US7370381B2 (en) * 2004-11-22 2008-05-13 Truveo, Inc. Method and apparatus for a ranking engine
US7689520B2 (en) * 2005-02-25 2010-03-30 Microsoft Corporation Machine learning system and method for ranking sets of data using a pairing cost function
GB2430507A (en) 2005-09-21 2007-03-28 Stephen Robert Ives System for managing the display of sponsored links together with search results on a mobile/wireless device
US20080104049A1 (en) 2006-10-25 2008-05-01 Microsoft Corporation Document ranking utilizing parameter varying data
JP5168961B2 (ja) * 2007-03-19 2013-03-27 富士通株式会社 最新評判情報通知プログラム、記録媒体、装置及び方法
US8458165B2 (en) * 2007-06-28 2013-06-04 Oracle International Corporation System and method for applying ranking SVM in query relaxation
US7945571B2 (en) * 2007-11-26 2011-05-17 Legit Services Corporation Application of weights to online search request
US20100070342A1 (en) * 2007-12-20 2010-03-18 Ebay Inc. Regional demand and supply comparison
US20090193007A1 (en) * 2008-01-28 2009-07-30 Andrea Filippo Mastalli Systems and methods for ranking search engine results
JP2009211280A (ja) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US7836058B2 (en) 2008-03-27 2010-11-16 Microsoft Corporation Web searching
US20100235354A1 (en) 2009-03-12 2010-09-16 International Business Machines Corporation Collaborative search engine system
US10353967B2 (en) 2009-06-22 2019-07-16 Microsoft Technology Licensing, Llc Assigning relevance weights based on temporal dynamics

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514178A (zh) * 2012-06-18 2014-01-15 阿里巴巴集团控股有限公司 一种基于点击率的搜索排序方法及装置
CN104252456A (zh) * 2013-06-25 2014-12-31 阿里巴巴集团控股有限公司 一种权重估计方法、装置及***
CN104281585A (zh) * 2013-07-02 2015-01-14 阿里巴巴集团控股有限公司 一种对象排序方法和装置
CN103336848B (zh) * 2013-07-22 2016-09-28 五八同城信息技术有限公司 一种分类信息的排序方法
CN103336848A (zh) * 2013-07-22 2013-10-02 五八同城信息技术有限公司 一种分类信息的排序方法
CN103544314A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种搜索数据质量统计方法
CN103544314B (zh) * 2013-11-04 2017-12-12 北京中搜云商网络技术有限公司 一种搜索数据质量统计方法
CN105511955A (zh) * 2014-08-27 2016-04-20 财团法人资讯工业策进会 用于一丛集运算***的主装置、从属装置及其运算方法
CN106708835A (zh) * 2015-08-11 2017-05-24 阿里巴巴集团控股有限公司 一种数据表的分类方法和装置
CN106682947A (zh) * 2015-12-30 2017-05-17 Tcl集团股份有限公司 用于共享环境的时间价值评估方法和***
CN107451832A (zh) * 2016-05-30 2017-12-08 北京京东尚科信息技术有限公司 推送信息的方法和装置
CN107451832B (zh) * 2016-05-30 2023-09-05 北京京东尚科信息技术有限公司 推送信息的方法和装置
CN107590626A (zh) * 2016-07-08 2018-01-16 奥林科技(中国)有限公司 物流管理***及其管理方法
CN106503890A (zh) * 2016-10-18 2017-03-15 国云科技股份有限公司 一种信息点击排名方法
CN109299350A (zh) * 2018-09-13 2019-02-01 掌阅科技股份有限公司 电子书的排序方法、计算设备及计算机存储介质
CN109299350B (zh) * 2018-09-13 2019-08-20 掌阅科技股份有限公司 电子书的排序方法、计算设备及计算机存储介质
CN113849703A (zh) * 2021-11-30 2021-12-28 亿海蓝(北京)数据技术股份公司 船舶信息查询方法及装置、可读存储介质

Also Published As

Publication number Publication date
WO2012018559A1 (en) 2012-02-09
JP2013534334A (ja) 2013-09-02
EP2599048A4 (en) 2014-03-05
JP5805188B2 (ja) 2015-11-04
US20130132356A1 (en) 2013-05-23
US8504563B2 (en) 2013-08-06
EP2599048A1 (en) 2013-06-05

Similar Documents

Publication Publication Date Title
CN102339296A (zh) 一种查询结果的排序方法和装置
CN105701216B (zh) 一种信息推送方法及装置
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN102542474B (zh) 查询结果排序方法及装置
CN102609474B (zh) 一种访问信息提供方法及***
CN101154224B (zh) 一种网址导航方法及***
CN105247507A (zh) 品牌的影响力得分
CN104090919A (zh) 推荐广告的方法及广告推荐服务器
CN106021583B (zh) 页面流量数据的统计方法及其***
CN102426590B (zh) 一种质量评价的方法和装置
RU2012144649A (ru) Синтез продукта из множественных источников
CN105589971A (zh) 训练推荐模型的方法、装置及推荐***
CN101685521A (zh) 在网页中展现广告的方法及***
CN103970796A (zh) 查询偏好排序方法和装置
CN102831199A (zh) 建立兴趣模型的方法及装置
CN104077714A (zh) 访问网站的用户的偏好获取、广告推送方法和***
CN102955810B (zh) 一种网页分类方法和设备
CN102982134A (zh) 在浏览器地址栏中显示推荐网址信息的***
EP2724267A1 (en) Search method and apparatus
CN103729362A (zh) 导航内容的确定方法和装置
US20130262480A1 (en) Content category scoring for nodes in a linked database
US20160117334A1 (en) Search Method and Apparatus
CN101211368B (zh) 一种对查询词分类的方法、装置及搜索引擎***
CN102364467A (zh) 一种网络搜索方法和***
CN103365842B (zh) 一种页面浏览推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1163848

Country of ref document: HK

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120201

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1163848

Country of ref document: HK