CN105573887A

CN105573887A - 搜索引擎的质量评估方法和装置

Info

Publication number: CN105573887A
Application number: CN201510927675.5A
Authority: CN
Inventors: 魏博; 齐志兵; 李力行; 邹敏; 唐广宇; 顾思斌; 潘柏宇; 王冀
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: 1Verge Internet Technology Beijing Co Ltd
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2016-05-11
Anticipated expiration: 2035-12-14
Also published as: CN105573887B

Abstract

本发明公开了一种搜索引擎的质量评估方法和装置，该搜索引擎用于搜索多媒体资源，该质量评估方法包括：从用户日志获取单一查询词的用户深度停留数据；根据单一查询词的用户深度停留数据，获得全量查询词的用户深度停留数据；以及根据全量查询词的用户深度停留数据和原始评估指标，对搜索引擎的质量进行原始评估，其中，原始评估指标包括独立被点击多媒体资源的个数、每个查询词的被点击多媒体资源的平均个数、低于多媒体资源个数阈值的查询词的个数、多媒体资源播放完成比总体平均值、低于多媒体资源播放完成比阈值的查询词的个数中的至少一个。本发明能够无需进行人工标注、客观及时地对搜索引擎的质量进行评估。

Description

搜索引擎的质量评估方法和装置

技术领域

本发明涉及信息搜索和检索领域，尤其涉及一种搜索引擎的质量评估方法和装置。

背景技术

搜索引擎(SearchEngine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，将处理后的信息显示给用户，即，搜索引擎是为用户提供检索服务的***。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

搜索引擎的质量评估一直受到产业界和研究人员的广泛关注。目前，Cranfield评价体系被广泛地应用于搜索引擎的质量评估，该评价体系是由查询样例集、正确答案集、评测指标这三个部分构成的完整评测方案。使用Cranfield评价体系进行搜索引擎的质量评估时，包含以下三个环节：首先，抽取代表性的查询词(query)，将抽取出的查询词组成一个规模适当的查询样例集；然后，针对该查询样例集，从搜索引擎的语料库中寻找与其相对应的结果，即进行人工标注；最后，将抽取出的查询词和带有标注信息的语料库输入检索***，检索***反馈结果，再针对搜索引擎反馈的结果，使用预先定义的评价计算公式、利用数值化的方法来评价搜索引擎反馈的结果与标注的理想结果的接近程度。

其中，存在多种评价搜索引擎反馈的结果的方法，例如准确率-召回率(Precision-Recall)方法、单值评价(PrecisionN)方法、平均排序倒数(MeanReciprocalRanking，简称MRR)方法、平均准确率均值(MeanAveragePrecision，简称MAP)方法和折损累积增益(DiscountedCumulativeGain，简称DCG)方法等。

然而，由于传统的信息检索***数据和业务量通常不大，检索输入也相对规范，因此能够人工选取样例集和人工标注样例结果(标准答案)，但是，随着互联网的不断发展与互联网信息量的增加，线上搜索引擎的业务繁忙并且数据海量，利用人工标注答案的方式进行网络信息检索***的评价是一个既耗费人力又耗费时间的过程，已经不可能利用人工标注答案的方式来进行答案的标注。也就是说，Cranfield评价体系的缺点在于需要人工选取样例集并且需要人工标注样例结果。

为了解决上述Cranfield评价体系的人工标注既耗费人力又耗费时间的问题，提出了A/B测试(A/Btesting)***。A/B测试***在用户搜索时，由***来自动决定用户的分组号(BucketID)，通过自动抽取流量导入不同分支，使得相应分组的用户看到不同产品版本(或不同搜索引擎)提供的结果。用户在不同版本产品下的行为将被记录下来，这些行为数据通过数据分析形成一系列指标，再通过比较这些指标来获得各个产品版本之间孰优孰劣的结论。其中，在指标计算时，可以细分为基于专家评分的方法和基于点击统计的方法这两种方法。

然而，随着互联网业务的发展，对于搜索引擎结果质量优化的及时性的要求也越来越高，传统的A/B测试***发现搜索引擎的问题需要一定的专家打分时间，并且，由于长尾效应(LongTailEffect)，A/B测试***中涉及查询词的优异表现不能对整个***的优异表现作出良好映射。也就是说，A/B测试***的问题在于面对互联网业务规模的力不从心。

此外，诸如视频搜索引擎等的其它富媒体(RichMedia)搜索引擎的搜索结果有其自身的特点。用户对于结果视频的满意与否，不能简单的通过命中、播放量或排序来衡量。很多情况下，用户需要通过观看视频才能有一个比较客观的评价。这使得传统的以文本搜索为主的引擎评价方法无法适用于视频这种“深度语义”的视频搜索引擎的质量评价。而且，许多线上视频搜索结果页的布局不再是文本搜索引擎中常用的列表式而是网格式，这弱化了传统意义上的位置。因此，基于位置进行评估是有失公平的。然而，不管是Cranfield评价体系还是A/B测试***，都没有给出视频搜索引擎的质量评估的有针对性的解决方案。

发明内容

技术问题

有鉴于此，本发明要解决的技术问题是，如何客观及时地对搜索引擎的质量进行评估。

解决方案

为了解决上述技术问题，在第一方面，本发明提供了一种搜索引擎的质量评估方法，所述搜索引擎用于搜索多媒体资源，所述质量评估方法包括：

从用户日志获取单一查询词的用户深度停留数据，其中，所述单一查询词的用户深度停留数据包括：查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数；

根据所述单一查询词的用户深度停留数据，获得全量查询词的用户深度停留数据，其中，所述全量查询词的用户深度停留数据包括：全量查询词、当前查询词下的被点击多媒体资源、当前查询词下的被点击多媒体资源的被点击次数、以及当前查询词下的被点击多媒体资源的综合播放完成比；以及

根据所述全量查询词的用户深度停留数据和原始评估指标，对所述搜索引擎的质量进行原始评估，

其中，所述原始评估指标包括独立被点击多媒体资源的个数、每个查询词的被点击多媒体资源的平均个数、低于多媒体资源个数阈值的查询词的个数、多媒体资源播放完成比总体平均值、低于多媒体资源播放完成比阈值的查询词的个数中的至少一个。

结合第一方面，在第一种可能的实现方式中，所述质量评估方法还包括：

根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数；以及

根据所述用户深度停留指数和综合评估指标，对所述搜索引擎的质量进行综合评估，

其中，所述综合评估指标包括用户深度停留指数平均值和低于用户深度停留指数阈值的查询词的个数中的至少一个。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数，包括：

根据所述单一查询词的用户深度停留数据并采用公式计算所述单一查询词的用户深度停留指数，

其中，y是所述单一查询词的用户深度停留指数，

x＝VidCount*ClickCount*AveragePerc，VidCount是独立被点击多媒体资源的个数，ClickCount是被点击多媒体资源的次数，AveragePerc是多媒体资源的播放完成比平均值。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，所述根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数，包括：

根据所述单一查询词的用户深度停留数据并采用公式y＝VidCountN*ClickCountN*AveragePercN，计算所述单一查询词的用户深度停留指数，

其中，y是所述单一查询词的用户深度停留指数，

V i d C o u n t N = \frac{V i d C o u n t - \min (V i d C o u n t)}{\max (V i d C o u n t) - \min (V i d C o u n t)},

C l i c k C o u n t N = \frac{C l i c k C o u n t - \min (C l i c k C o u n t)}{\max (C l i c k C o u n t) - \min (C l i c k C o u n t)},

A v e r a g e P e r c N = \frac{A v e r a g e P e r c - \min (A v e r a g e P e r c)}{\max (A v e r a g e P e r c) - \min (A v e r a g e P e r c)},

VidCount是独立被点击多媒体资源的个数，ClickCount是被点击多媒体资源的次数，AveragePerc是多媒体资源的播放完成比平均值，min()取最小值，max()取最大值。

结合第一方面的第一种可能的实现方式，在第四种可能的实现方式中，所述根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数，包括：

其中，y是所述单一查询词的用户深度停留指数，

VidCount是独立被点击多媒体资源的个数，AllVidCount是利用所述单一查询词搜索到的多媒体资源的所有点击次数的总和，AveragePerc是多媒体资源的播放完成比平均值。

在第二方面，本发明提供了一种搜索引擎的质量评估装置，所述搜索引擎用于搜索多媒体资源，所述质量评估装置包括：

获取单元，用于从用户日志获取单一查询词的用户深度停留数据，其中，所述单一查询词的用户深度停留数据包括：查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数；

获得单元，与所述获取单元连接，用于根据所述单一查询词的用户深度停留数据，获得全量查询词的用户深度停留数据，其中，所述全量查询词的用户深度停留数据包括：全量查询词、当前查询词下的被点击多媒体资源、当前查询词下的被点击多媒体资源的被点击次数、以及当前查询词下的被点击多媒体资源的综合播放完成比；以及

原始评估单元，与所述获得单元连接，用于根据所述全量查询词的用户深度停留数据和原始评估指标，对所述搜索引擎的质量进行原始评估，

结合第二方面，在第一种可能的实现方式中，所述质量评估装置还包括：

计算单元，与所述获取单元连接，用于根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数；以及

综合评估单元，与所述计算单元连接，用于根据所述用户深度停留指数和综合评估指标，对所述搜索引擎的质量进行综合评估，

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述计算单元具体用于，根据所述单一查询词的用户深度停留数据并采用公式计算所述单一查询词的用户深度停留指数，

其中，y是所述单一查询词的用户深度停留指数，

结合第二方面的第一种可能的实现方式，在第三种可能的实现方式中，所述计算单元具体用于，根据所述单一查询词的用户深度停留数据并采用公式y＝VidCountN*ClickCountN*AveragePercN，计算所述单一查询词的用户深度停留指数，

其中，y是所述单一查询词的用户深度停留指数，

V i d C o u n t N = \frac{V i d C o u n t - \min (V i d C o u n t)}{\max (V i d C o u n t) - \min (V i d C o u n t)},

C l i c k C o u n t N = \frac{C l i c k C o u n t - \min (C l i c k C o u n t)}{\max (C l i c k C o u n t) - \min (C l i c k C o u n t)},

A v e r a g e P e r c N = \frac{A v e r a g e P e r c - \min (A v e r a g e P e r c)}{\max (A v e r a g e P e r c) - \min (A v e r a g e P e r c)},

结合第二方面的第一种可能的实现方式，在第四种可能的实现方式中，所述计算单元具体用于，根据所述单一查询词的用户深度停留数据并采用公式计算所述单一查询词的用户深度停留指数，

其中，y是所述单一查询词的用户深度停留指数，

有益效果

本发明实施例的搜索引擎的质量评估方法和装置，根据所获得的全量查询词的用户深度停留数据和原始评估指标，对搜索引擎的质量进行原始评估，由此能够无需进行人工标注、客观及时地对搜索引擎的质量进行评估。并且，根据用户深度停留指数和综合评估指标来对搜索引擎的质量进行综合评估，还能够通过用户深度停留指数直接地比较任意两个查询词下的搜索引擎的搜索结果的优劣程度，从而能够提高搜索引擎的质量评估的准确性。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面，并且用于解释本发明的原理。

图1示出根据本发明实施例一的搜索引擎的质量评估方法的流程图；

图2示出根据本发明实施例二的搜索引擎的质量评估方法的流程图；

图3示出根据本发明实施例三的搜索引擎的质量评估装置的结构框图；以及

图4示出根据本发明实施例四的搜索引擎的质量评估装置的结构框图。

具体实施方式

以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

实施例1

图1示出根据本发明实施例一的搜索引擎的质量评估方法的流程图。如图1所示，该质量评估方法具体可以包括：

步骤S100、从用户日志获取单一查询词的用户深度停留数据。

在本发明中，用户的深度停留行为可以包括：(1)用户在搜索引擎的搜索结果页面上的停留，即用户点击多个例如视频、音频等的多媒体资源的搜索结果的行为；以及(2)用户在搜索引擎的播放页面上的停留，即用户观看例如视频、音频等的多媒体资源的行为。

具体地，可以使用四元组{query,vids,percs,δ}来对每一个查询词的用户深度停留行为进行刻画。换言之，可以根据单一查询词的数据模型来从用户日志中获取单一查询词的用户深度停留数据。该过程可以包括对用户日志数据进行预处理和噪音去除处理，用户日志数据的噪音可能来自诸如非法输入、***异常、记录异常等的多方面。

其中，query为查询词，即用户在搜索引擎的每一次搜索输入，例如，可以从搜索引擎的用户日志中获得用户的查询词query。

vids为点击多媒体资源集合，即用户通过搜索查询词而在搜索结果页面点击多媒体资源的集合，例如，可以通过限定多媒体资源观看的来源来从用户日志的多媒体资源观看日志中获得点击多媒体资源集合vids。

percs为多媒体资源播放完成比集合，即被点击多媒体资源的播放完成比的集合，例如，可以通过对多媒体资源播放数据进行二次处理来从用户日志的多媒体资源观看日志中获得多媒体资源播放完成比集合percs。需要说明的是，由于每个多媒体资源的总时间长度可能相差较大，因此，使用多媒体资源播放完成比来对用户深度停留行为进行刻画比单纯地使用多媒体资源的播放时间长度来对用户深度停留行为进行刻画更客观。例如，针对同一个查询词，如果一个被点击多媒体资源被播放了多次，则这个被点击多媒体资源的播放完成比应该是一个综合得分，例如，可以取该查询词的所有播放完成比的平均值，又如，可以取该查询词的所有播放完成比的中位数等。

δ为被点击多媒体资源集合至多媒体资源播放完成比集合的映射函数，例如，可以在获得多媒体资源播放完成比集合时预先定义该映射函数。

也就是说，上述单一查询词的用户深度停留数据可以包括：查询词(query)、被点击多媒体资源集合(vids)、多媒体资源播放完成比集合(percs)、以及被点击多媒体资源集合到多媒体资源播放完成比集合的映射函数(δ)。

步骤S120、根据上述单一查询词的用户深度停留数据，获得全量查询词的用户深度停留数据。

例如，可以通过对获取到的单一查询词的用户深度停留数据进行汇总聚合，来获得全量查询词的用户深度停留数据。例如，该过程可以包括对数据进行二次处理(获取count字段数据)和去噪处理等。

具体地，可以使用四元组{query,vid,count,perc}来对搜索引擎的质量进行刻画。换言之，整个搜索引擎的用户深度停留数据(即，全量查询词的用户深度停留数据)可以包含query、vid、count、以及perc这四个字段。其中，query为全量查询词；vid为当前query下的被点击多媒体资源；count为当前query下的被点击多媒体资源的被点击次数；perc为当前query下的被点击多媒体资源的综合播放完成比。

也就是说，上述全量查询词的用户深度停留数据可以包括：全量查询词、当前查询词下的被点击多媒体资源、当前查询词下的被点击多媒体资源的被点击次数、以及当前查询词下的被点击多媒体资源的综合播放完成比。例如，整个搜索引擎的用户深度停留数据可以包括如下三个四元组{query,vid,count,perc}：{A1,0001,500,80％}、{A2,0002,100,70％}、以及{A3,0003,200,90％}，其中，A1、A2、以及A3为全量查询词。

例如，某个搜索引擎的用户深度停留数据一共包含2329880条数据，包括有效查询词(query)、当前查询词下的被点击多媒体资源(vid)、当前查询词下的被点击多媒体资源的被点击次数(count)、以及当前查询词下的被点击多媒体资源的综合播放完成比(perc)。该全量查询词的用户深度停留数据中的部分用户深度停留数据可以如下述表1所示：

表1全量查询词的用户深度停留数据示例

query	vid	count	perc6 -->
				红米note拆机	209907159	1	0.0442
红米note拆机	213535395	1	0.0587
				红米note拆机	217417432	2	0.1470
…	…	…	…

如表1所示，通过对该全量查询词的用户深度停留数据进行简单地统计分析，应能够知晓独立查询词的个数为775734(即，全量查询词的个数为775734)，被点击多媒体资源的被点击次数为6330210。

步骤S140、根据全量查询词的用户深度停留数据和原始评估指标，对搜索引擎的质量进行原始评估。

在获得全量查询词的用户深度停留数据之后，可以通过对所获得的全量查询词的用户深度停留数据进行简单的统计分析来获得上述原始评估指标，原始评估是利用所获得的用户深度停留数据的原始值的统计特性来对多媒体资源的搜索引擎的质量进行原始评估，其中，用于对多媒体资源的搜索引擎的质量进行原始评估的原始评估指标可以包括：

独立被点击多媒体资源的个数(IndependentClickedVideoCount，简称ICVC)，即通过所有查询词点击到的独立多媒体资源的个数。该指标从总体上反映了后台多媒体资源被搜索导出的程度。

每个查询词的被点击多媒体资源的平均个数(AverageClickedVideoCount，简称ACVC)，即每个查询词平均能够点击导出多少个多媒体资源，亦即每个查询词的被点击多媒体资源的个数的平均值。该指标从个体上反映了后台多媒体资源被搜索导出的程度。

低于多媒体资源个数阈值的查询词的个数(QueryCountunderCountThreshold，简称QCUCT)，即被点击多媒体资源的个数低于多媒体资源个数阈值的查询词的个数。该指标反映了搜索引擎中被“病态呈现”的查询词规模，即搜索结果没有初步相关性和吸引力的情况。其中，可以结合实际业务并综合考虑资源分配来灵活设置多媒体资源个数阈值。例如，初次可以将多媒体资源个数阈值设置为每个查询词的被点击多媒体资源的个数分布的第一四分位数。

多媒体资源播放完成比总体平均值(AverageVideoPerc，简称AVP)，即用户在多媒体资源搜索结果页面上观看的多媒体资源的时间长度在该被观看的多媒体资源的总时间长度中的百分比的平均值。该指标反映了搜索引擎结果的内容质量的优劣程度。

低于多媒体资源播放完成比阈值的查询词的个数(QueryCountunderPercThreshold，简称QCUPT)，即多媒体资源被观看过少的查询词的个数，亦即多媒体资源播放完成比低于多媒体资源播放完成比阈值的查询词的个数。该指标反映了搜索引擎中包含“病态内容”的查询词规模，即搜索结果没有深度相关性和吸引力的情况。其中，可以结合实际业务并综合考虑资源分配来灵活设置多媒体资源播放完成比阈值。例如，初次可以将多媒体资源播放完成比阈值设置为每个查询词的被点击多媒体资源的播放完成比分布的第一四分位数。

例如，通过对上述表1所示的全量查询词的用户深度停留数据进行简单统计分析，可以得到如下表2所示的原始评估指标。

表2某搜索引擎的原始评估指标

通过上述表2可知：(1)由于多媒体资源个数阈值为2、低于该多媒体资源个数阈值的查询词的个数QCUCT为450519、并且如上所述的独立查询词的个数为775734，因此，独立查询词中超过一半以上(即，)的查询词的被点击多媒体资源的个数都在2个以下。这说明用户每搜索一个查询词，其点击的多媒体资源过少。这反映出搜索引擎的搜索结果在初步相关性和吸引力方面做得不好，搜索结果可能在命中程度或者多样性方面还有欠缺。对于这个问题的具体分析，需要对查询词的类别进行区分，例如，将查询词划分为导航类查询词、信息类查询词和交互类查询词。不同类别的查询词，其点击行为是不同的。

(2)被点击多媒体资源的播放完成比总体平均值AVP为32.98％，并且由于多媒体资源播放完成比阈值为7.49％、低于多媒体资源播放完成比阈值的查询词的个数QCUPT为194020、并且如上所述的独立查询词的个数为775734，因此，独立查询词中接近四分之一(即，)的查询词的多媒体资源的搜索结果的观看时间长度不超过7.49％。这说明搜索引擎的搜索结果的质量并不能令用户满意。对于这一问题的分析需要剔除是否存在大量的非真实的搜索观看行为(需要注意的是，如果同一查询词下的多媒体资源的播放时间长度过短，则该搜索应不是真实的搜索行为)。

本发明实施例的搜索引擎的质量评估方法，根据全量查询词的用户深度停留数据和原始评估指标来对搜索引擎的质量进行原始评估，能够通过对该原始评估指标的每日监测来迅速直接地对多媒体资源的搜索引擎的实际质量进行整体评估，由此能够无需进行人工标注、客观及时地对搜索引擎的质量进行评估。

实施例2

在上述实施例一中，根据全量查询词的用户深度停留数据和原始评估指标来对搜索引擎的质量进行原始评估，然而，该原始评估可能没有利用被点击多媒体资源和被点击多媒体资源的播放完成比的综合信息，也就是说，该原始评估可能没有给出用户深度停留的综合程度。这样，使得例如在一个查询词的被点击多媒体资源的个数很多且每一个多媒体资源的播放完成比都很低的情况下、又如在一个查询词的被点击多媒体资源的个数很少且每一个多媒体资源的播放完成比都很高的情况下，利用原始评估可能难以比较用户在哪一个查询词的搜索结果上的停留程度更高。并且，考虑到用户与搜索引擎交互的接口是每次输入的查询词，因此，有必要利用该综合信息对搜索引擎的质量进行评估(综合评估)。基于此，本发明提供了下述对搜索引擎的质量进行综合评估的实施例二。

图2示出根据本发明实施例二的搜索引擎的质量评估方法的流程图。图2中标号与图1相同的步骤具有相同的功能，为简明起见，省略对这些步骤的详细说明。

如图2所示，图2所示的搜索引擎的质量评估方法与图1所示的搜索引擎的质量评估方法的主要区别在于，除了包括上述实施例一中的步骤S100、步骤S120和步骤S140以外，还可以包括：

步骤S220、根据单一查询词的用户深度停留数据，计算单一查询词的用户深度停留指数。

具体地，被点击多媒体资源和被点击多媒体资源的播放完成比的综合信息例如可以包括独立被点击多媒体资源的个数VidCount、被点击多媒体资源的次数ClickCount(同一个多媒体资源可能被点击多次)、多媒体资源的播放完成比平均值AveragePerc。因此，如果某个查询词的独立被点击多媒体资源的个数越多、被点击多媒体资源的次数越高、每个多媒体资源的播放完成比越大，则该查询词的用户深度停留程度越高。

在一种可能的实现方式中，可以使用sigmoid函数来表示用户深度停留指数DeepLinger，即，所述根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数，包括：根据所述单一查询词的用户深度停留数据并采用公式(公式1)，计算所述单一查询词的用户深度停留指数，其中，y是所述单一查询词的用户深度停留指数，x＝VidCount*ClickCount*AveragePerc(公式2)，VidCount是独立被点击多媒体资源的个数，ClickCount是被点击多媒体资源的次数，AveragePerc是多媒体资源的播放完成比平均值。

例如，通过对单一查询词的用户深度停留数据使用上述sigmoid函数来计算用户深度停留指数DeepLinger，可以获得如下述表3所示的每个查询词的用户深度停留指数。

表3每个查询词的用户深度停留指数

query	VidCount	ClickCount	AveragePerc	DeepLinger
					红米note拆机	2	4	0.1164	0.4347
谭居士心经	17	17	0.0005	0.0704
					郭德纲我要穿越	4	6	0.6927	1.0000

在一种可能的实现方式中，可以使用全局Max-Min归一化函数来表示用户深度停留指数DeepLinger，即，所述根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数，包括：根据所述单一查询词的用户深度停留数据并采用公式y＝VidCountN*ClickCountN*AveragePercN(公式3)，计算所述单一查询词的用户深度停留指数，其中，y是所述单一查询词的用户深度停留指数，

V i d C o u n t N = \frac{V i d C o u n t - \min (V i d C o u n t)}{\max (V i d C o u n t) - \min (V i d C o u n t)}

(公式4)，

C l i c k C o u n t N = \frac{C l i c k C o u n t - \min (C l i c k C o u n t)}{\max (C l i c k C o u n t) - \min (C l i c k C o u n t)}

(公式5)，

A v e r a g e P e r c N = \frac{A v e r a g e P e r c - \min (A v e r a g e P e r c)}{\max (A v e r a g e P e r c) - \min (A v e r a g e P e r c)}

(公式6)，

在一种可能的实现方式中，可以使用基于多媒体资源的点击次数的线性平均对播放完成比求和，来表示用户深度停留指数DeepLinger，即，所述根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数，包括：根据所述单一查询词的用户深度停留数据并采用公式(公式7)，计算所述单一查询词的用户深度停留指数，其中，y是所述单一查询词的用户深度停留指数，VidCount是独立被点击多媒体资源的个数，AllVidCount是利用所述单一查询词搜索到的多媒体资源的所有点击次数的总和，AveragePerc是多媒体资源的播放完成比平均值。

步骤S240、根据用户深度停留指数和综合评估指标，对搜索引擎的质量进行综合评估。

具体地，基于上述计算出的用户深度停留指数，可以使用如下综合评估指标来对搜索引擎的质量进行综合评估：

用户深度停留指数平均值(AverageDeepLingerIndex，简称ADLI)，即用户深度停留指数的平均值，亦即用户在每个查询词上的平均停留程度，该指标从个体上反映了搜索引擎提供给用户的搜索结果的质量。

低于用户深度停留指数阈值的查询词的个数(QueryCountunderDeepLingerThreshold，简称QCUDLT)，即用户深度停留指数低于用户深度停留指数阈值的查询词的个数，亦即用户深度停留程度过低的查询词的个数，该指标反映了搜索引擎中返回“病态结果”的查询词规模，即搜索结果没有综合相关性和吸引力的情况。其中，可以结合实际业务并综合考虑资源分配来灵活设置深度停留指数阈值。例如，初次可以将深度停留指数阈值设置为每个查询词的深度停留指数分布的第一四分位数。

也就是说，上述综合评估指标可以包括用户深度停留指数平均值和低于用户深度停留指数阈值的查询词的个数中的至少一个。

例如，可以通过上述用户深度停留指数以及如下述表4所示的综合评估指标，对搜索引擎的质量进行综合评估。

表4某搜索引擎的综合评估指标

指标	实际值
		用户深度停留指数平均值ADLI	0.395
低于深度停留指数阈值的Query量QCUDLT	191218(阈值为0.062)

通过上述表3和表4可知：(1)查询词“谭居士心经”的用户深度停留程度远不及查询词“红米note拆机”的用户深度停留程度和查询词“郭德纲我要穿越”的用户深度停留程度，这说明查询词“谭居士心经”的搜索结果可能很差或者该查询词的搜索行为可能是非真实搜索行为。(2)用户深度停留指数平均值ADLI为0.395，这说明搜索引擎的搜索结果整体表现可能与查询词“红米note拆机”的表现类似。(3)例如，如果用户深度停留指数阈值为0.062，则低于用户深度停留指数阈值的查询词的个数约为全量查询词的个数的四分之一(即，)。根据用户深度停留指数阈值可知，该类查询词的搜索结果的表现可能与查询词“谭居士心经”的表现相似。

也就是说，上述综合评估依赖于用户通过观看行为而进行的评判的得分，该综合评估是用户对命中、排序、多样性和多媒体资源的内容质量进行综合评判的结果。当然，还可以利用上述两个综合评估指标来迅速地评估用户对于多媒体资源的搜索引擎的整体满意度。

需要说明的是，本实施例以先进行原始评估再进行综合评估(即，在步骤S100、S120、S140之后再执行步骤S220、S240)为例进行了说明，然而，本领域技术人员应能够了解，本发明不限于此，例如，可以交叉进行原始评估和综合评估，又如，在为了更快速地对搜索引擎的质量进行评估的情况下，可以仅进行原始评估，再如，在为了提高搜索引擎的质量评估的准确性的情况下，可以仅进行综合评估。

本发明实施例的搜索引擎的质量评估方法，根据全量查询词的用户深度停留数据和原始评估指标来对搜索引擎的质量进行原始评估，并根据用户深度停留指数和综合评估指标来对搜索引擎的质量进行综合评估，由此不仅能够无需进行人工标注、客观及时地对搜索引擎的质量进行评估，而且还能够通过用户深度停留指数直接地比较任意两个查询词下的搜索引擎的搜索结果的优劣程度，从而能够提高搜索引擎的质量评估的准确性。

实施例3

图3为根据本发明实施例三的搜索引擎的质量评估装置的结构框图。本实施例提供的搜索引擎的质量评估装置300用于实现图1所示实施例提供的搜索引擎的质量评估方法。如图3所示，该搜索引擎的质量评估装置300可以包括：

获取单元320，用于从用户日志获取单一查询词的用户深度停留数据。在本发明中，用户的深度停留行为可以包括：(1)用户在搜索引擎的搜索结果页面上的停留，即用户点击多个例如视频、音频等的多媒体资源的搜索结果的行为；以及(2)用户在搜索引擎的播放页面上的停留，即用户观看例如视频、音频等的多媒体资源的行为。

获得单元340，与获取单元320连接，用于根据单一查询词的用户深度停留数据，获得全量查询词的用户深度停留数据。

也就是说，上述全量查询词的用户深度停留数据可以包括：全量查询词、当前查询词下的被点击多媒体资源、当前查询词下的被点击多媒体资源的被点击次数、以及当前查询词下的被点击多媒体资源的综合播放完成比。

具体示例可以参见上述实施例一中步骤S120的相关描述。

原始评估单元360，与获得单元340连接，用于根据全量查询词的用户深度停留数据和原始评估指标，对搜索引擎的质量进行原始评估。

具体示例可以参见上述实施例一中步骤S140的相关描述。

本发明实施例的搜索引擎的质量评估装置，原始评估单元根据获得单元所获得的全量查询词的用户深度停留数据和原始评估指标来对搜索引擎的质量进行原始评估，能够通过对该原始评估指标的每日监测来迅速直接地对多媒体资源的搜索引擎的实际质量进行整体评估，由此能够无需进行人工标注、客观及时地对搜索引擎的质量进行评估。

实施例4

图4为根据本发明实施例四的搜索引擎的质量评估装置的结构框图。本实施例提供的搜索引擎的质量评估装置400用于实现图2所示实施例提供的搜索引擎的质量评估方法。其中，图4中与图3标号相同的组件，包括：获取单元320、获得单元340和原始评估单元360，具有与前述基本相同的功能，为简明起见，省略对这些组件的详细说明。

此外，通过比较图3和图4可知，图4所示实施例与图3所示实施例的主要区别在于，在图3所示的实施例的基础上，该搜索引擎的质量评估装置400还可以包括：

计算单元420，与获取单元320连接，用于根据单一查询词的用户深度停留数据，计算单一查询词的用户深度停留指数。

具体示例可以参见上述实施例二中步骤S220的相关描述。

V i d C o u n t N = \frac{V i d C o u n t - \min (V i d C o u n t)}{\max (V i d C o u n t) - \min (V i d C o u n t)}

(公式4)，

C l i c k C o u n t N = \frac{C l i c k C o u n t - \min (C l i c k C o u n t)}{\max (C l i c k C o u n t) - \min (C l i c k C o u n t)}

(公式5)，

A v e r a g e P e r c N = \frac{A v e r a g e P e r c - \min (A v e r a g e P e r c)}{\max (A v e r a g e P e r c) - \min (A v e r a g e P e r c)}

(公式6)，

综合评估单元440，与计算单元420连接，用于根据用户深度停留指数和综合评估指标，对搜索引擎的质量进行综合评估。

具体示例可以参见上述实施例二中步骤S240的相关描述。

需要说明的是，本实施例以先由原始评估单元进行原始评估再由综合评估单元进行综合评估为例进行了说明，然而，本领域技术人员应能够了解，本发明不限于此，例如，可以由原始评估单元和综合评估单元交叉进行原始评估和综合评估，又如，在为了更快速地对搜索引擎的质量进行评估的情况下，可以仅由原始评估单元进行原始评估，再如，在为了提高搜索引擎的质量评估的准确性的情况下，可以仅由综合评估单元进行综合评估。

本发明实施例的搜索引擎的质量评估装置，原始评估单元根据获得单元所获得的全量查询词的用户深度停留数据和原始评估指标来对搜索引擎的质量进行原始评估，并且综合评估单元根据计算单元计算出的用户深度停留指数和综合评估指标来对搜索引擎的质量进行综合评估，由此不仅能够无需进行人工标注、客观及时地对搜索引擎的质量进行评估，而且还能够通过用户深度停留指数直接地比较任意两个查询词下的搜索引擎的搜索结果的优劣程度，从而能够提高搜索引擎的质量评估的准确性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种搜索引擎的质量评估方法，所述搜索引擎用于搜索多媒体资源，其特征在于，所述质量评估方法包括：

2.根据权利要求1所述的质量评估方法，其特征在于，还包括：

3.根据权利要求2所述的质量评估方法，其特征在于，所述根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数，包括：

其中，y是所述单一查询词的用户深度停留指数，

4.根据权利要求2所述的质量评估方法，其特征在于，所述根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数，包括：

其中，y是所述单一查询词的用户深度停留指数，

V i d C o u n t N = \frac{V i d C o u n t - \min (V i d C o u n t)}{\max (V i d C o u n t) - \min (V i d C o u n t)},

C l i c k C o u n t N = \frac{C l i c k C o u n t - \min (C l i c k C o u n t)}{\max (C l i c k C o u n t) - \min (C l i c k C o u n t)},

A v e r a g e P e r c N = \frac{A v e r a g e P e r c - \min (A v e r a g e P e r c)}{\max (A v e r a g e P e r c) - \min (A v e r a g e P e r c)},

5.根据权利要求2所述的质量评估方法，其特征在于，所述根据所述单一查询词的用户深度停留数据，计算所述单一查询词的用户深度停留指数，包括：

其中，y是所述单一查询词的用户深度停留指数，

6.一种搜索引擎的质量评估装置，所述搜索引擎用于搜索多媒体资源，其特征在于，所述质量评估装置包括：

7.根据权利要求6所述的质量评估装置，其特征在于，还包括：

8.根据权利要求7所述的质量评估装置，其特征在于，所述计算单元具体用于，根据所述单一查询词的用户深度停留数据并采用公式计算所述单一查询词的用户深度停留指数，

其中，y是所述单一查询词的用户深度停留指数，

9.根据权利要求7所述的质量评估装置，其特征在于，所述计算单元具体用于，根据所述单一查询词的用户深度停留数据并采用公式y＝VidCountN*ClickCountN*AveragePercN，计算所述单一查询词的用户深度停留指数，

其中，y是所述单一查询词的用户深度停留指数，

V i d C o u n t N = \frac{V i d C o u n t - \min (V i d C o u n t)}{\max (V i d C o u n t) - \min (V i d C o u n t)},

C l i c k C o u n t N = \frac{C l i c k C o u n t - \min (C l i c k C o u n t)}{\max (C l i c k C o u n t) - \min (C l i c k C o u n t)},

A v e r a g e P e r c N = \frac{A v e r a g e P e r c - \min (A v e r a g e P e r c)}{\max (A v e r a g e P e r c) - \min (A v e r a g e P e r c)},

10.根据权利要求7所述的质量评估装置，其特征在于，所述计算单元具体用于，根据所述单一查询词的用户深度停留数据并采用公式计算所述单一查询词的用户深度停留指数，

其中，y是所述单一查询词的用户深度停留指数，