CN105574199B - 搜索引擎的虚假搜索行为的识别方法和装置 - Google Patents

搜索引擎的虚假搜索行为的识别方法和装置 Download PDF

Info

Publication number
CN105574199B
CN105574199B CN201511001301.7A CN201511001301A CN105574199B CN 105574199 B CN105574199 B CN 105574199B CN 201511001301 A CN201511001301 A CN 201511001301A CN 105574199 B CN105574199 B CN 105574199B
Authority
CN
China
Prior art keywords
multimedia resource
behavior
query
multimedia
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511001301.7A
Other languages
English (en)
Other versions
CN105574199A (zh
Inventor
魏博
齐志兵
李力行
魏强
马堰夫
姚键
顾思斌
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
Youku Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youku Network Technology Beijing Co Ltd filed Critical Youku Network Technology Beijing Co Ltd
Priority to CN201511001301.7A priority Critical patent/CN105574199B/zh
Publication of CN105574199A publication Critical patent/CN105574199A/zh
Application granted granted Critical
Publication of CN105574199B publication Critical patent/CN105574199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索引擎的虚假搜索行为的识别方法和装置,该搜索引擎用于搜索多媒体资源,该识别方法包括:从用户日志获取单一查询词的用户观看行为数据和单一查询词的用户转化行为数据;根据用户观看行为数据和/或用户转化行为数据确定用于识别虚假搜索行为的识别数据,识别数据包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及根据识别数据识别虚假搜索行为。本发明能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。

Description

搜索引擎的虚假搜索行为的识别方法和装置
技术领域
本发明涉及信息搜索和检索领域,尤其涉及一种搜索引擎的虚假搜索行为的识别方法和装置。
背景技术
目前,没有统一成熟的方法来对用于搜索多媒体资源的搜索引擎的虚假搜索行为进行识别。一般情况下,只有在需要识别搜索引擎的虚假搜索行为的情况下,搜索引擎才会根据自己的业务需求来开展虚假搜索行为的识别工作。随着搜索引擎的业务***日渐成熟、搜索引擎的处理能力和健壮性的日渐提升,基本上能够容忍搜索引擎的虚假搜索行为,即,基本上不需要识别搜索引擎的虚假搜索行为。例如,只有在个别的虚假搜索行为影响了搜索引擎的***服务质量的情况下,工程人员才会有针对性的开展虚假搜索行为的识别工作。
并且,对搜索引擎的虚假搜索行为进行识别是比较困难的,原因在于:
(1)在现有技术中,搜索引擎的虚假搜索行为没有严格的定义而仅具有如下的简单定义:搜索引擎的虚假搜索行为是指用户并非以真正搜索多媒体资源并观看多媒体资源为目的的搜索行为。也就是说,如果用户的搜索意图并不在于搜索并观看多媒体资源,则该查询词可能为虚假搜索行为。这使得识别搜索引擎的虚假搜索行为是困难的。例如,只能按照主观理解来判断用户的搜索意图、并基于用户的搜索意图是否是搜索并观看多媒体资源来进一步识别该查询词的搜索行为是否是虚假搜索行为。
(2)搜索引擎的虚假搜索行为一般都是隐蔽的。具体而言,由于用户位于搜索引擎的前端、而工程师位于搜索引擎的后端,并且用户和搜索引擎的实际交互入口只有查询词,因此,工程师不可能也不合适与每个用户进行面对面、一对一的搜索意图确认,由此导致了识别搜索引擎的虚假搜索行为是困难的。
(3)搜索引擎的虚假搜索行为具有机动性。具体而言,由于搜索引擎的虚假搜索行为的来源比较多样,例如,用户主动输入、(通过模仿或者嵌套搜索样式链接到访问量大的搜索引擎的)外部网站链接、模仿IP地址等,因此,虚假搜索行为在时间和空间上可能难以维持稳定的特征。例如,对于同一个查询词,第一天的诸如点击、播放、IP地址等的关键指标可能与第二天的诸如点击、播放、IP地址等的关键指标相差较大。这也给搜索引擎的虚假搜索行为的识别带来了困难。
(4)通常,搜索引擎的虚假搜索行为的识别是滞后和被动的。一方面,由于互联网用户的多样性和长尾需求的存在,因此不可能针对一次搜索行为来判断该搜索行为是否是虚假搜索行为。通常情况下,只有需要识别虚假搜索行为,才通过对特定时间段和IP地址段的请求进行分析来判断搜索行为是否是虚假搜索行为,但是这种判断仍然是滞后的。事实上,当前模仿随机IP地址的技术已经非常成熟,通过分析IP地址来识别虚假搜索行为可能并不合适。另一方面,由于识别集中数据的虚假搜索行为可能需要第二天的完整日志,因此对全量查询词的虚假搜索行为进行人工分析是不现实的。
另外,诸如视频、音频等的多媒体资源的虚假搜索行为主要体现在以下两个方面:(1)仅有搜索多媒体资源的行为而没有点击多媒体资源的行为,该类行为主要体现在虽然有大量的搜索输入但是没有相应的点击多媒体资源的行为以及命中多媒体资源的行为;(2)仅有点击多媒体资源的行为而没有播放多媒体资源的行为,该类行为主要体现在虽然有点击多媒体资源的行为但是没有后续的观看多媒体资源的行为。
现有的搜索引擎的虚假搜索行为的识别工作基本上是基于查询词在短时间内的爆发特性和IP地址分布来确定查询词的搜索行为是否包含虚假搜索行为。该识别方法可能对于有搜索多媒体资源的行为而没有点击多媒体资源的行为的虚假搜索行为是有效果的,然而对于有点击多媒体资源的行为而没有播放多媒体资源的虚假搜索行为可能是没有效果的。并且,随着当前爬虫技术的发展,伪造IP地址的爬虫行为使得虚假搜索行为的识别更加困难。另外,当前也无法自动地识别全量查询词的虚假搜索行为。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,如何识别搜索引擎的虚假搜索行为。
解决方案
为了解决上述技术问题,在第一方面,本发明提供了一种搜索引擎的虚假搜索行为的识别方法,所述搜索引擎用于搜索多媒体资源,所述识别方法包括:
从用户日志获取单一查询词的用户观看行为数据和所述单一查询词的用户转化行为数据,其中,所述单一查询词的用户观看行为数据包括:查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数,并且所述单一查询词的用户转化行为数据包括查询词,所述用户转化行为数据还包括查询量、直达区命中率、直达区转化率、用户原创内容UGC区命中率、UGC区转化率、以及整体转化率中的至少一个;
根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,所述识别数据包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及
根据所述识别数据识别所述虚假搜索行为。
结合第一方面,在第一种可能的实现方式中,在所述用户转化行为数据包括直达区转化率并且所述识别数据包括多媒体资源点击发散度的情况下,根据所述识别数据识别所述虚假搜索行为包括:
判断当前查询词的直达区转化率是否小于第一阈值;
在当前查询词的直达区转化率小于所述第一阈值的情况下,判断当前查询词的多媒体资源点击发散度是否小于第二阈值;以及
在当前查询词的多媒体资源点击发散度小于所述第二阈值的情况下,将当前查询词的搜索行为识别为所述虚假搜索行为。
结合第一方面,在第二种可能的实现方式中,在所述用户转化行为数据包括直达区转化率并且所述识别数据包括多媒体资源平均播放完成比的情况下,根据所述识别数据识别所述虚假搜索行为包括:
判断当前查询词的直达区转化率是否小于第一阈值;
在当前查询词的直达区转化率不小于所述第一阈值的情况下,判断当前查询词的多媒体资源平均播放完成比是否小于第三阈值;以及
在当前查询词的多媒体资源平均播放完成比小于所述第三阈值的情况下,将当前查询词的搜索行为识别为所述虚假搜索行为。
结合第一方面和第一方面的第一或第二种可能的实施方式,在第三种可能的实施方式中,根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,包括:在所述识别数据包括所述独立多媒体资源播放量的情况下,根据所述用户观看行为数据中的被点击多媒体资源集合,确定所述独立多媒体资源播放量。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,包括以下步骤中的至少一项:
在所述识别数据包括所述多媒体资源平均播放完成比的情况下,根据所述用户观看行为数据中的播放完成比集合和所述独立多媒体资源播放量并采用公式
Figure BDA0000893080410000051
确定所述多媒体资源平均播放完成比,其中,所述query是当前查询词,所述APP(query)是当前查询词的多媒体资源平均播放完成比,所述IVC(query)是当前查询词的独立多媒体资源播放量,所述ni是当前查询词的第i个独立多媒体资源的被播放次数,所述perci是当前查询词的第i个独立多媒体资源的播放完成比;
在所述用户转化行为包括所述查询量并且所述识别数据包括所述多媒体资源点击发散度的情况下,根据所述查询量和所述独立多媒体资源播放量并采用公式
Figure BDA0000893080410000052
确定所述多媒体资源点击发散度,其中,所述VCR(query)是当前查询词的多媒体资源点击发散度,所述sqv是查询量;
在所述用户转化行为包括所述查询量并且所述识别数据包括所述多媒体资源集 播放残余度的情况下,根据所述用户观看行为数据中的播放完成比集合和所述查询量并采 用公式
Figure BDA0000893080410000053
确定所述多媒体资源集播放残 余度,其中,所述VSPR(query)是当前查询词的多媒体资源集播放残余度,max()取最大值。
在第二方面,本发明提供了一种搜索引擎的虚假搜索行为的识别装置,所述搜索引擎用于搜索多媒体资源,所述识别装置包括:
获取单元,用于从用户日志获取单一查询词的用户观看行为数据和所述单一查询词的用户转化行为数据,其中,所述单一查询词的用户观看行为数据包括:查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数,并且所述单一查询词的用户转化行为数据包括查询词,所述用户转化行为数据还包括查询量、直达区命中率、直达区转化率、用户原创内容UGC区命中率、UGC区转化率、以及整体转化率中的至少一个;
确定单元,与所述获取单元连接,用于根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,所述识别数据包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及
处理单元,用于根据所述识别数据识别所述虚假搜索行为。
结合第二方面,在第一种可能的实现方式中,在所述用户转化行为数据包括直达区转化率并且所述识别数据包括多媒体资源点击发散度的情况下,所述处理单元具体包括:
第一判断单元,用于判断当前查询词的直达区转化率是否小于第一阈值;
第二判断单元,与所述第一判断单元连接,用于在所述第一判断单元判断为当前查询词的直达区转化率小于所述第一阈值的情况下,判断当前查询词的多媒体资源点击发散度是否小于第二阈值;以及
识别单元,与所述第二判断单元连接,用于在所述第二判断单元判断为当前查询词的多媒体资源点击发散度小于所述第二阈值的情况下,将当前查询词的搜索行为识别为所述虚假搜索行为。
结合第二方面,在第二种可能的实现方式中,在所述用户转化行为数据包括直达区转化率并且所述识别数据包括多媒体资源点击发散度的情况下,所述处理单元具体包括:
第一判断单元,用于判断当前查询词的直达区转化率是否小于第一阈值;
第二判断单元,与所述第一判断单元连接,用于在所述第一判断单元判断为当前查询词的直达区转化率不小于所述第一阈值的情况下,判断当前查询词的多媒体资源平均播放完成比是否小于第三阈值;以及
识别单元,与所述第二判断单元连接,用于在所述第二判断单元判断为当前查询词的多媒体资源平均播放完成比小于所述第三阈值的情况下,将当前查询词的搜索行为识别为所述虚假搜索行为。
结合第二方面和第二方面的第一或第二种可能的实施方式,在第三种可能的实施方式中,所述确定单元具体用于,在所述识别数据包括所述独立多媒体资源播放量的情况下,根据所述用户观看行为数据中的被点击多媒体资源集合,确定所述独立多媒体资源播放量。
结合第二方面的第三种可能的实施方式,在第四种可能的实施方式中,所述确定单元具体用于执行以下步骤中的至少一项:
在所述识别数据包括所述多媒体资源平均播放完成比的情况下,根据所述用户观看行为数据中的播放完成比集合和所述独立多媒体资源播放量并采用公式
Figure BDA0000893080410000071
确定所述多媒体资源平均播放完成比,其中,所述query是当前查询词,所述APP(query)是当前查询词的多媒体资源平均播放完成比,所述IVC(query)是当前查询词的独立多媒体资源播放量,所述ni是当前查询词的第i个独立多媒体资源的被播放次数,所述perci是当前查询词的第i个独立多媒体资源的播放完成比;
在所述用户转化行为包括所述查询量并且所述识别数据包括所述多媒体资源点击发散度的情况下,根据所述查询量和所述独立多媒体资源播放量并采用公式
Figure BDA0000893080410000072
确定所述多媒体资源点击发散度,其中,所述VCR(query)是当前查询词的多媒体资源点击发散度,所述sqv是查询量;
在所述用户转化行为包括所述查询量并且所述识别数据包括所述多媒体资源集 播放残余度的情况下,根据所述用户观看行为数据中的播放完成比集合和所述查询量并采 用公式
Figure BDA0000893080410000081
确定所述多媒体资源集播放 残余度,其中,所述VSPR(query)是当前查询词的多媒体资源集播放残余度,max()取最大 值。
有益效果
本发明实施例的搜索引擎的虚假搜索行为的识别方法和装置,根据从用户日志获取的单一查询词的用户观看行为数据和/或单一查询词的用户转化行为数据来确定用于识别虚假搜索行为的识别数据,并根据确定出的识别数据来识别虚假搜索行为,由此能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出根据本发明实施例一的搜索引擎的虚假搜索行为的识别方法的流程图;
图2示出根据本发明实施例二的搜索引擎的虚假搜索行为的识别方法的流程图;
图3示出应用于本发明的决策树模型的示例;
图4示出根据本发明实施例三的搜索引擎的虚假搜索行为的识别方法的流程图;
图5示出根据本发明实施例四的搜索引擎的虚假搜索行为的识别装置的结构框图;
图6示出根据本发明实施例五的搜索引擎的虚假搜索行为的识别装置的结构框图;以及
图7示出根据本发明实施例六的搜索引擎的虚假搜索行为的识别装置的结构框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
实施例1
图1示出根据本发明一实施例的搜索引擎的虚假搜索行为的识别方法的流程图。如图1所示,该识别方法主要可以包括:
步骤S100、可以从用户日志获取单一查询词的用户观看行为数据和单一查询词的用户转化行为数据。
具体地,可以使用四元组{query,vids,percs,δ}来对每一个查询词的用户观看行为进行刻画。该过程可以包括对用户日志数据进行预处理和噪音去除处理,用户日志数据的噪音可能来自诸如非法输入、***异常、记录异常等的多方面。
其中,query为查询词,即用户在搜索引擎的每一次搜索输入,例如,可以从搜索引擎的用户日志中获得用户的查询词query。
vids为被点击多媒体资源集合,即用户通过搜索查询词而在搜索结果页面点击多媒体资源的集合,例如,可以通过限定多媒体资源观看的来源来从用户日志的多媒体资源观看日志中获得点击多媒体资源集合vids。
percs为多媒体资源播放完成比集合,即被点击多媒体资源的播放完成比的集合,例如,可以通过对多媒体资源播放数据进行二次处理来从用户日志的多媒体资源观看日志中获得多媒体资源播放完成比集合percs。需要说明的是,由于每个多媒体资源的总时间长度可能相差较大,因此,使用多媒体资源播放完成比来对用户观看行为进行刻画比单纯地使用多媒体资源的播放时间长度来对用户观看行为进行刻画更客观。例如,针对同一个查询词,如果一个被点击多媒体资源被播放了多次,则这个被点击多媒体资源的播放完成比应该是一个综合得分,例如,可以取该查询词的所有播放完成比的平均值,又如,可以取该查询词的所有播放完成比的中位数等。
δ为被点击多媒体资源集合至多媒体资源播放完成比集合的映射函数,例如,可以在获得多媒体资源播放完成比集合时预先定义该映射函数。
也就是说,上述单一查询词的用户观看行为数据可以包括:查询词(query)、被点击多媒体资源集合(vids)、多媒体资源播放完成比集合(percs)、以及被点击多媒体资源集合到多媒体资源播放完成比集合的映射函数(δ)。
具体地,上述单一查询词的用户转化行为数据可以包括查询词(query),该用户转化行为数据还可以包括查询量(sqv)、直达区命中率(Dhit)、直达区转化率(Dtra)、用户原创内容UGC区命中率(Uhit)、UGC区转化率(Utra)、以及整体转化率(Wtra)中的至少一个。
其中,查询量可以为在某时间段内查询词被搜索的次数,例如,假设在一天内查询词A1被搜索了25次,则查询词A1的查询量为25。
直达区命中率可以为直达区的搜索结果被用户点击的比例。其中,直达区是指在多媒体资源的搜索引擎的搜索结果页面中、编辑人员为了响应输入的查询词而手动组织的一些多媒体资源的展示区域,例如,直达区可以由版权多媒体资源或者优质账户的多媒体资源组成,以有利于用户快速地查询到结果。例如,假设查询词搜索输入100次并且有40次命中了直达区的多媒体资源,则直达区命中率为
Figure BDA0000893080410000111
需要说明的是,即使直达区的同一个多媒体资源被命中多次,也仅记作命中了直达区的该同一个多媒体资源一次。
直达区转化率可以指直达区的搜索结果被转化为多媒体资源播放页面的次数的比例。例如,假设查询词搜索输入100次、有40次命中了直达区的多媒体资源、并且有60次转化为多媒体资源播放页面,则直达区转化率为
Figure BDA0000893080410000112
需要说明的是,每次转化都作为计数,即,每转化为多媒体资源播放页面一次,则转化次数增加一次。
用户原创内容(User Generated Content,简称UGC)区命中率可以为UGC区的搜索结果被用户点击的比例。其中,UGC区是指在多媒体资源的搜索引擎的结果页面中、由一般用户上传的多媒体资源组成的展示区域,UGC是伴随着以提倡个性化为主要特点的web2.0概念而兴起的。例如,假设查询词搜索输入100次并且有40次命中了UGC区的多媒体资源,则UGC区命中率为
Figure BDA0000893080410000113
需要说明的是,即使UGC区的同一个多媒体资源被命中多次,也仅记作命中了UGC区的该同一个多媒体资源一次。
UGC区转化率可以指UGC区的搜索结果被转化为多媒体资源播放页面的次数的比例。例如,假设查询词搜索输入100次、有40次命中了UGC区的多媒体资源、并且有60次转化为多媒体资源播放页面,则UGC区转化率为
Figure BDA0000893080410000121
需要说明的是,每次转化都作为计数,即,每转化为多媒体资源播放页面一次,则转化次数增加一次。
整体转化率可以指整体的搜索结果被转化为多媒体资源播放页面的次数的比例。例如,假设查询词搜索输入100次并且有60次转化为多媒体资源播放页面,则整体转化率为
Figure BDA0000893080410000122
需要说明的是,每次转化都作为计数,即,每转化为多媒体资源播放页面一次,则转化次数增加一次。
在一种可能的实现方式中,可以使用七元组{query,sqv,Dhit,Dtra,Uhit,Utra,Wtra}来对每一个查询词的用户转化行为进行刻画。例如,下述表1示出了查询词的转化和播放原始数据字段的示例。
表1查询词的转化和播放原始数据字段
列号 1 2 3 4 5 6 7 8 9
字段名 query vids percs sqv Dhit Dtra Uhit Utra Wtra
步骤S120、可以根据用户观看行为数据和/或用户转化行为数据确定用于识别虚假搜索行为的识别数据,该识别数据可以包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个。
本申请的发明人意识到搜索引擎的虚假搜索行为可以具有以下特点:
首先,包含虚假搜索行为的查询词的查询量sqv比较大而命中量却很少,例如,以达到刷多媒体资源量为目的的虚假搜索行为,又如,从某些外网导入的虚假搜索行为(即,通过模仿或者嵌套搜索样式链接到访问量大的搜索引擎的搜索行为),因此特定的查询词比较多,但是这些特定的查询词并不是用户的真实需求,这些特定的查询词的搜索行为真正转化为点击多媒体资源的行为和播放多媒体资源的行为很少。
其次,包含虚假搜索行为的查询词通常会把点击的多媒体资源固定在特定的一个或者几个多媒体资源上,以达到刷多媒体资源量的目的,并且这些多媒体资源的播放完成比很低。这一特征通常会出现在对多媒体资源的作弊推广上。
再者,包含虚假搜索行为的查询词的平均播放完成比比较低。某查询词的大量的多媒体资源播放完成比很低将导致该查询词在全量搜索结果页面上的平均播放完成比比较低。这一特征在查询量比较大的时候尤其明显。
最后,通常,包含虚假搜索行为的查询词点击的独立多媒体资源的个数不大。由于查询词的点击集中在某一个或者几个多媒体资源上,查询词对其他多媒体资源的点击很少,因此整体独立被点击的多媒体资源量不多。
本申请的发明人基于以上特点想到可以根据用户日志数据、例如用户观看行为数据和/或用户转化行为数据来提取用于识别虚假搜索行为的识别数据。
在一种可能的实现方式中,根据上述用户观看行为数据和/或上述用户转化行为数据确定用于识别虚假搜索行为的识别数据,可以包括:在识别数据包括独立多媒体资源播放量的情况下,可以根据用户观看行为数据中的被点击多媒体资源集合,确定独立多媒体资源播放量。
其中,独立多媒体资源播放量(Independent Video Count,简称IVC)用于描述单一查询词在点击多媒体资源上的广泛程度。查询词点击的不同的多媒体资源越多,独立多媒体资源播放量越大;反之,查询词点击的不同的多媒体资源越少,独立多媒体资源播放量越小。例如,可以根据用户观看行为数据中的查询词query和被点击多媒体资源集合vids来确定被点击的不同的多媒体资源。因此,可以根据查询词query和被点击多媒体资源集合vids并使用如下的公式(1)来确定独立多媒体资源播放量:
IVC(query)=query被点击的不同的多媒体资源的计数 公式(1)
一般来说,正常的搜索结果和搜索行为的查询词的独立多媒体资源播放量都不会小,这与用户需求的多样性和点击行为的随机性是一致的。但是,如果单一查询词包含虚假搜索行为,则独立多媒体资源播放量一般不会很大,这是因为用户可能没有点击多媒体资源的行为、或者用户点击的多媒体资源可能只是局限于特定的多媒体资源。需要注意的是,对于返回结果包含直达区多媒体资源的情况,独立多媒体资源播放量可能也会小一些。
在一种可能的实现方式中,根据上述用户观看行为数据和/或上述用户转化行为数据确定用于识别虚假搜索行为的识别数据,可以包括以下步骤中的至少一项:
在识别数据包括多媒体资源平均播放完成比的情况下,可以根据用户观看行为数据中的播放完成比集合和上述确定出的独立多媒体资源播放量并采用公式(2)
Figure BDA0000893080410000141
确定多媒体资源平均播放完成比,其中,query是当前查询词,APP(query)是当前查询词的多媒体资源平均播放完成比,IVC(query)是当前查询词的独立多媒体资源播放量,ni是当前查询词的第i个独立多媒体资源的被播放次数,perci是当前查询词的第i个独立多媒体资源的播放完成比;
在用户转化行为包括查询量并且识别数据包括多媒体资源点击发散度的情况下,可以根据查询量和上述确定出的独立多媒体资源播放量并采用公式(3)
Figure BDA0000893080410000142
确定多媒体资源点击发散度,其中,VCR(query)是当前查询词的多媒体资源点击发散度,sqv是查询量;
在用户转化行为包括查询量并且识别数据包括多媒体资源集播放残余度的情况 下,可以根据用户观看行为数据中的播放完成比集合和查询量并采用公式(4)
Figure BDA0000893080410000151
确定多媒体资源集播放残余度,其 中,VSPR(query)是当前查询词的多媒体资源集播放残余度,max()取最大值。
其中,多媒体资源平均播放完成比(Average Playing Percentage,简称APP)用于描述单一查询词在自己的多媒体资源的搜索结果集合上的平均播放完成程度。多媒体资源平均播放完成比越大,查询词下的多媒体资源观看越完整;反之,多媒体资源平均播放完成比越小,查询词下的多媒体资源观看越不完整。如上述所,可以使用上述公式(2)来确定多媒体资源平均播放完成比。
一般来说,单一查询词在整个多媒体资源的搜索结果集合上的平均播放完成比不会很低,除非每一次的播放完成比都极低。例如,某搜索引擎的所有单一查询词的平均播放完成比均值约为44%左右。如果单一查询词的平均播放完成比很低,那么该单一查询词极有可能包含虚假搜索行为。
其中,多媒体资源点击发散度(Video Clicking Range,简称VCR)用于描述查询词在多媒体资源的搜索结果页面上点击多媒体资源的行为的发散程度。相对于查询量而言,点击的独立多媒体资源越多,多媒体资源点击发散度越大;反之,点击的独立多媒体资源越少,多媒体资源点击发散度越小。如上述所,可以使用上述公式(3)来确定多媒体资源点击发散度。
一般情况下,多媒体资源点击发散度会根据直达区的露出和转化程度而发生变化,同时如果查询词是一个时效性词(时效性词可以指在特定时间段内用户关注度大于一定程度的搜索词),则由于时效性词的在特定时间段(例如,当天)内的搜索量sqv较大、且点击多集中在话题发现者的多媒体资源上,因此,根据上述公式(3)可知多媒体资源点击发散度不会高,即用户的点击行为将集中在个别新的多媒体资源上。
其中,多媒体资源集播放残余度(Video Set Playing Residue,简称VSPR)用于描述查询词在多媒体资源的搜索结果页面上未播放完成的情况。每一个多媒体资源都有一定的点击占比、即多媒体资源被点击的次数占该多媒体资源被搜索的次数的比值(例如,假设搜索到多媒体资源B1的次数为100次并且点击该多媒体资源B1的次数为20次,则多媒体资源B1的点击占比为
Figure BDA0000893080410000161
也就是说,多媒体资源的点击占比可以通过上述公式(4)中的
Figure BDA0000893080410000162
来计算,同时该多媒体资源也有一定的播放完成比perci。可以利用多媒体资源的点击占比
Figure BDA0000893080410000163
和播放完成比perci这两个参数来确定查询词在整个多媒体资源集上播放的完整程度。如果多媒体资源的点击占比
Figure BDA0000893080410000164
越大并且多媒体资源的播放完成比perci越小(即,
Figure BDA0000893080410000165
越大),则多媒体资源集播放越不完整,多媒体资源集播放残余度VSPR(query)越大。换言之,可以使用上述公式(4)来确定多媒体资源集播放残余度VSPR(query)。
根据上述公式(4)可知,多媒体资源集播放残余度VSPR(query)利用了单一多媒体资源的最差表现,即,如果某多媒体资源的点击占比
Figure BDA0000893080410000166
越大并且播放完成比perci越低,则多媒体资源集播放残余度VSPR(query)越大。
需要说明的是,在本发明中,确定多媒体资源集播放残余度VSPR(query)的方法不限于此,本领域技术人员根据本申请所公开的内容及其所掌握的技术常识应能够知晓,也可以采用其它方式来确定多媒体资源集播放残余度VSPR(query),例如,也可以根据多媒体资源集的综合表现来确定多媒体资源集播放残余度VSPR(query)。
步骤S140、可以根据上述识别数据识别虚假搜索行为。
例如,可以根据识别数据并使用经典的决策树(Decision Tree)算法来完成搜索引擎的虚假搜索行为的识别。
首先,利用(可以包括训练数据的)训练集来训练决策树模型,以获得虚假搜索行为的决策树初始模型,其中,训练集是通过人工标注的给定的每一个查询词的搜索行为是否是虚假搜索行为的初始数据集合,人工标注以明确认定的少量查询词为基础。
具体地,决策树是一个类似于流程图的树结构,其中每个内部节点表示叶子在一个属性上的测试,每个分枝代表一个测试输出,而每个树节点代表类或者类分布。树的最顶层节点是根节点。决策树算法适合进行属性数(特征数)较少的情况下的高质量分类。决策树算法的核心问题是选取在树的每个节点即要测试的属性,争取能够选择出最有助于分类实例的属性。为了解决这个问题,ID3算法引入了信息增益(information gain)的概念,并使用信息增益的多少来决定决策树各层上的不同节点、即用于分类的重要属性。为了精确地定义信息增益,ID3算法使用信息论中称为熵(entropy)的概念来描述任意样例集的纯度(purity)。如果给定包含关于某个目标概念的正反样例的样例集S,则样例集S相对布尔型分类的熵为:
Entropy(S)=-P+log2P+-P-log2P- 公式(5)
其中,P+表示正样例,P-表示反样例,定义0log0为0。利用熵,ID3算法定义了信息增益。使用如下的公式(6)来定义属性A相对于样例集S的信息增益:
Figure BDA0000893080410000181
公式(6)
其中,V(A)是属性A的值域,S是样例集,Sv是S中在属性A上的值等于v的样本集合。
ID3算法的流程如下:
输入:样例集S、属性集合A;
输出:ID3决策树。
1)若所有种类的属性都处理完毕,则返回;否则,执行2);
2)计算信息增益Gain(S,A)的最大属性a,把该属性作为一个节点;如果仅凭属性a就可以对样本进行分类,则返回;否则,执行3);
3)对属性a的每个可能的取值v执行以下操作:i.将所有属性a的值是v的样本作为样例集S的一个子集Sv;ii.生成属性集合AT=A-{a};iii.以子集Sv和属性集合AT为输入,递归执行ID3算法。
可以根据从训练数据中确定出的识别数据、训练集的标注结果、以及ID3算法,获得虚假搜索行为的决策树初始模型。
其次,在获得上述虚假搜索行为的决策树初始模型之后,可能需要对该决策树初始模型进行优化,原因在于:初步采用ID3算法生成的决策树、即通过ID3算法所获得的决策树初始模型往往会导致过滤拟合,也就是说,将该决策树初始模型应用于训练数据、即利用该决策树初始模型来识别训练数据的搜索行为是否包含虚假搜索行为的错误率较低,但是将该决策树初始模型应用于测试数据、即利用该决策树初始模型来识别测试数据的搜索行为是否包含虚假搜索行为的错误率可能较高,换言之,直接利用该决策树初始模型来识别虚假搜索行为的准确率可能较低。
例如,可以使用剪枝(pruning)策略来对上述决策树初始模型进行优化。更具体地,例如,可以使用以下两种裁剪策略来对上述决策树初始模型进行优化:
前置裁剪的策略,即,在构建决策树的过程中提前停止。然而,该策略会将切分节点的条件设置的很苛刻,从而导致决策树很短小,由此,决策树无法达到最优。因此,这种前置裁剪的策略可能难以获得较好的判断结果。
后置裁剪的策略,即,在完成决策树的构建之后,开始裁剪。例如,可以采用以下两种方法来进行裁剪:用单一叶节点代替整个子树,叶节点的分类采用子树中最主要的分类;以及用一个子树完全替代另外一个子树。
具体到本发明,可以利用上述决策树初始模型来预测已知的搜索行为、即可以利用上述决策树初始模型来识别已知的搜索行为是否包含虚假搜索行为,从而判断和优化决策树初始模型的准确性。
最后,在对上述决策树初始模型进行优化之后,可以利用优化后的决策树模型和上述识别数据来对搜索引擎的虚假搜索行为进行识别。例如,假设优化后的决策树模型中确定了如果识别数据低于预定阈值,则将当前查询词的搜索行为识别为虚假搜索行为。
需要说明的是,本发明实施例仅以决策树分类算法为例说明了如何根据识别数据来识别虚假搜索行为,本领域技术人员应能够了解,本发明的重点并不在于具体使用何种分类算法,并且本发明能够使用的分类算法并不局限于决策树分类算法,例如还可以使用诸如贝叶斯推理等的其它分类算法来根据识别数据识别虚假搜索行为。
本发明实施例的搜索引擎的虚假搜索行为的识别方法,根据从用户日志获取的单一查询词的用户观看行为数据和/或单一查询词的用户转化行为数据来确定用于识别虚假搜索行为的识别数据,并根据确定出的识别数据来识别虚假搜索行为,由此能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。
实施例2
图2示出根据本发明实施例二的搜索引擎的虚假搜索行为的识别方法的流程图。图2中标号与图1相同的步骤具有相同的功能,为简明起见,省略对这些步骤的详细说明。
如图2所示,图2所示的搜索引擎的虚假搜索行为的识别方法与图1所示的搜索引擎的虚假搜索行为的识别方法的主要区别在于,除了包括上述实施例一中的步骤S100和步骤S120以外,在用户转化行为数据包括直达区转化率并且识别数据包括多媒体资源点击发散度的情况下,步骤S140具体可以包括:
步骤S200、可以判断当前查询词的直达区转化率是否小于第一阈值;
步骤S220、在当前查询词的直达区转化率小于第一阈值的情况下,可以判断当前查询词的多媒体资源点击发散度是否小于第二阈值;以及
步骤S240、在当前查询词的多媒体资源点击发散度小于第二阈值的情况下,可以将当前查询词的搜索行为识别为虚假搜索行为。
举例而言,首先,可以从用户日志中的多媒体资源播放日志获取用户观看行为数据,并且可以从用户日志中的查询词点击日志获取用户转化行为数据。具体地,下述表2示出了某搜索引擎在某日的用户日志中的多媒体资源播放日志的示例,其中,多媒体资源播放日志记录共2329980条。
表2某搜索引擎在某日的用户日志中的多媒体资源播放日志
query vids percs
C1 235949485 0.1338
C2 209907159 0.0442
C2 213535395 0.0587
C2 217417432 0.0980
C2 217417432 0.1960
根据上述表2可知,当日查询词C2一共有4次播放行为,但是在多媒体资源217417432上有两次播放行为,因此独立多媒体资源播放量IVC为3。
另外,下述表3示出某搜索引擎在当天的用户日志中的查询词点击日志的示例,其中,查询词点击有效日志记录共185966条。
表3某搜索引擎在当天的用户日志中的查询词点击日志
query sqv Dhit Dtra Uhit Utra Wtra
B1 1793 0.4822 0.6599 0.1422 0.2811 0.9426
B2 2491 0.3760 0.7001 0.3308 0.8210 1.5303
B3 3511 0.3896 0.4475 0.0615 0.0880 0.5377
可以通过汇总上述表2和表3并以query为主键,得到单一查询词的转化和播放原始数据字段。
其次,可以随机选择518个查询词作为人工标注的初始数据,判断选择出的每一个查询词的搜索行为是否存在虚假搜索行为。结果显示,选择出的518个查询词中66个查询词被标注为虚假搜索行为,剩余的452个查询词被标注为正常搜索行为,下述表4示出了某搜索引擎的人工标注虚假搜索行为的示例。
表4某搜索引擎的人工标注虚假搜索行为的示例
query A1 A2 A3 A4 A5 B1
虚假搜索
根据上述表4可知,某搜索引擎的查询词A1至A3被人工标注为虚假搜索行为、即查询词A1至A3的搜索行为存在虚假搜索行为,并且查询词A4-A5和B1被人工标注为不是虚假搜索行为、即查询词A4-A5和B1的搜索行为为正常搜索行为。
然后,可以通过对上述人工标注的查询词进行特征提取,获得决策树算法的输入数据,下述表5示出了某搜索引擎的决策树算法的输入数据的示例。其中,如表5所述,该输入数据可以包括上述实施例一中的用户转化行为数据以及识别数据。
表5某搜索引擎的决策树算法的输入数据的示例
Figure BDA0000893080410000221
最后,可以根据决策树算法以及模型优化策略,获得如图3所示的识别虚假搜索行为的决策树模型。其中,根据图3可知,可以通过决策树模型确定出上述第一阈值为0.26并且上述第二阈值为0.14,也就是说,可以将直达区转化率Dtra小于0.26并且多媒体资源点击发散度VCR小于0.14的查询词的搜索行为识别为虚假搜索行为。并且,将图3所示的决策树模型映射到用户的网站体验上,可以理解为如果某个查询词不存在直达区或者没有实际效果、同时用户在UGC区的多媒体点击太过集中,则该查询词为虚假搜索行为。这与本领域技术人员的自然理解是一致的。
例如,由于上述表5所示的示例中的查询词A1的直达区转化率Dtra为0并且查询词A1的多媒体资源点击发散度VCR为0.0072,即,查询词A1的直达区转化率Dtra小于第一阈值0.26并且查询词A1的多媒体资源点击发散度VCR小于第二阈值0.14,因此,可以将查询词A1的搜索行为识别为虚假搜索行为。
本发明实施例的搜索引擎的虚假搜索行为的识别方法,根据从用户日志获取的单一查询词的用户观看行为数据和/或单一查询词的用户转化行为数据来确定用于识别虚假搜索行为的识别数据,并且在用户转化数据包括直达区转化率以及识别数据包括多媒体资源点击发散度的情况下,可以将直达区转化率小于第一阈值并且多媒体资源点击发散度小于第二阈值的查询词的搜索行为识别为虚假搜索行为,由此能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。
实施例3
图4示出根据本发明实施例三的搜索引擎的虚假搜索行为的识别方法的流程图。图4中标号与图1相同的步骤具有相同的功能,为简明起见,省略对这些步骤的详细说明。
如图4所示,图4所示的搜索引擎的虚假搜索行为的识别方法与图1所示的搜索引擎的虚假搜索行为的识别方法的主要区别在于,除了包括上述实施例一中的步骤S100和步骤S120以外,在用户转化行为数据包括直达区转化率并且识别数据包括多媒体资源平均播放完成比的情况下,步骤S140具体可以包括:
步骤S300、可以判断当前查询词的直达区转化率是否小于第一阈值;
步骤S320、在当前查询词的直达区转化率不小于第一阈值的情况下,可以判断当前查询词的多媒体资源平均播放完成比是否小于第三阈值;以及
步骤S340、在当前查询词的多媒体资源平均播放完成比小于第三阈值的情况下,可以将当前查询词的搜索行为识别为虚假搜索行为。
针对本实施例的示例具体可以参见上述实施例二的说明。其中,实施例三的示例与上述实施例二的示例的区别在于,可以通过图3所示的决策树模型确定出上述第一阈值为0.26并且上述第三阈值为0.25,也就是说,可以将直达区转化率Dtra大于或等于0.26并且多媒体资源平均播放完成比APP小于0.25的查询词的搜索行为识别为虚假搜索行为。并且,将图3所示的决策树模型映射到用户的网站体验上,可以理解为如果某个查询词的直达区已经具有较高的转化效果(即,该直达区为优质直达区)、但是用户的观看完成度(即,多媒体资源平均播放完成比)较低,则该查询词的搜索行为为虚假搜索行为。换言之,如果某查询词的直达区的转化(导出播放)较多、但是直达区的播放完成比较低,则该查询词的搜索行为为虚假搜索行为。这与本领域技术人员的自然理解是一致的。
举例而言,由于上述表5中所示出的示例中的查询词B1的直达区转化率Dtra为0.66并且查询词B1的多媒体资源平均播放完成比APP为0.6816,即,查询词B1的直达区转化率Dtra不小于第一阈值0.26并且查询词B1的多媒体资源平均播放完成比APP不小于第三阈值0.25,因此,可以将查询词B1的搜索行为识别为正常搜索行为,即可以将查询词B1的搜索行为识别为不是虚假搜索行为。
本发明实施例的搜索引擎的虚假搜索行为的识别方法,根据从用户日志获取的单一查询词的用户观看行为数据和/或单一查询词的用户转化行为数据来确定用于识别虚假搜索行为的识别数据,并且在用户转化数据包括直达区转化率以及识别数据包括多媒体资源平均播放完成比的情况下,可以将直达区转化率不小于第一阈值并且多媒体资源平均播放完成比小于第三阈值的查询词的搜索行为识别为虚假搜索行为,由此能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。
实施例4
图5示出根据本发明实施例四的搜索引擎的虚假搜索行为的识别装置的结构框图。本实施例提供的搜索引擎的虚假搜索行为的识别装置500用于实现图1所示实施例提供的搜索引擎的虚假搜索行为的识别方法。如图5所示,该搜索引擎的虚假搜索行为的识别装置500可以包括:
获取单元510,可以用于从用户日志获取单一查询词的用户观看行为数据和单一查询词的用户转化行为数据,其中,单一查询词的用户观看行为数据包括:查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及被点击多媒体资源集合到多媒体资源播放完成比集合的映射函数,并且单一查询词的用户转化行为数据包括查询词,用户转化行为数据还包括查询量、直达区命中率、直达区转化率、用户原创内容UGC区命中率、UGC区转化率、以及整体转化率中的至少一个。具体可以参见上述实施例一中的步骤S100的相关描述。
确定单元530,可以用于根据用户观看行为数据和/或用户转化行为数据确定用于识别虚假搜索行为的识别数据,该识别数据可以包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个。具体可以参见上述实施例一中的步骤S120的相关描述。
在一种可能的实现方式中,确定单元530具体可以用于,在所述识别数据包括所述独立多媒体资源播放量的情况下,根据所述用户观看行为数据中的被点击多媒体资源集合,确定所述独立多媒体资源播放量。
其中,独立多媒体资源播放量(Independent Video Count,简称IVC)用于描述单一查询词在点击多媒体资源上的广泛程度。查询词点击的不同的多媒体资源越多,独立多媒体资源播放量越大;反之,查询词点击的不同的多媒体资源越少,独立多媒体资源播放量越小。例如,可以根据用户观看行为数据中的查询词query和被点击多媒体资源集合vids来确定被点击的不同的多媒体资源。因此,可以根据查询词query和被点击多媒体资源集合vids并使用如下的公式(1)来确定独立多媒体资源播放量:
IVC(query)=query被点击的不同的多媒体资源的计数 公式(1)
一般来说,正常的搜索结果和搜索行为的查询词的独立多媒体资源播放量都不会小,这与用户需求的多样性和点击行为的随机性是一致的。但是,如果单一查询词包含虚假搜索行为,则独立多媒体资源播放量一般不会很大,这是因为用户可能没有点击多媒体资源的行为、或者用户点击的多媒体资源可能只是局限于特定的多媒体资源。需要注意的是,对于返回结果包含直达区多媒体资源的情况,独立多媒体资源播放量可能也会小一些。
在一种可能的实现方式中,所述确定单元530具体可以用于执行以下步骤中的至少一项:
在识别数据包括多媒体资源平均播放完成比的情况下,可以根据用户观看行为数据中的播放完成比集合和上述确定出的独立多媒体资源播放量并采用公式(2)
Figure BDA0000893080410000261
确定多媒体资源平均播放完成比,其中,query是当前查询词,APP(query)是当前查询词的多媒体资源平均播放完成比,IVC(query)是当前查询词的独立多媒体资源播放量,ni是当前查询词的第i个独立多媒体资源的被播放次数,perci是当前查询词的第i个独立多媒体资源的播放完成比;
在用户转化行为包括查询量并且识别数据包括多媒体资源点击发散度的情况下,可以根据查询量和上述确定出的独立多媒体资源播放量并采用公式(3)
Figure BDA0000893080410000262
确定多媒体资源点击发散度,其中,VCR(query)是当前查询词的多媒体资源点击发散度,sqv是查询量;
在用户转化行为包括查询量并且识别数据包括多媒体资源集播放残余度的情况 下,可以根据用户观看行为数据中的播放完成比集合和查询量并采用公式(4)
Figure BDA0000893080410000263
确定多媒体资源集播放残余度,其 中,VSPR(query)是当前查询词的多媒体资源集播放残余度,max()取最大值。
其中,多媒体资源平均播放完成比(Average Playing Percentage,简称APP)用于描述单一查询词在自己的多媒体资源的搜索结果集合上的平均播放完成程度。多媒体资源平均播放完成比越大,查询词下的多媒体资源观看越完整;反之,多媒体资源平均播放完成比越小,查询词下的多媒体资源观看越不完整。如上述所,可以使用上述公式(2)来确定多媒体资源平均播放完成比。
一般来说,单一查询词在整个多媒体资源的搜索结果集合上的平均播放完成比APP不会很低,除非每一次的播放完成比都极低。例如,某搜索引擎的所有单一查询词的平均播放完成比均值约为44%左右。如果单一查询词的平均播放完成比很低,那么该单一查询词极有可能包含虚假搜索行为。
其中,多媒体资源点击发散度(Video Clicking Range,简称VCR)用于描述查询词在多媒体资源的搜索结果页面上点击多媒体资源的行为的发散程度。相对于查询量而言,点击的独立多媒体资源越多,多媒体资源点击发散度越大;反之,点击的独立多媒体资源越少,多媒体资源点击发散度越小。如上述所,可以使用上述公式(3)来确定多媒体资源点击发散度。
一般情况下,多媒体资源点击发散度会根据直达区的露出和转化程度而发生变化,同时如果查询词是一个时效性词(时效性词可以指在特定时间段内用户关注度大于一定程度的搜索词),则由于时效性词的在特定时间段(例如,当天)内的搜索量sqv较大、且点击多集中在话题发现者的多媒体资源上,因此,根据上述公式(3)可知多媒体资源点击发散度不会高,即用户的点击行为将集中在个别新的多媒体资源上。
其中,多媒体资源集播放残余度(Video Set Playing Residue,简称VSPR)用于描述查询词在多媒体资源的搜索结果页面上未播放完成的情况。每一个多媒体资源都有一定的点击占比、即多媒体资源被点击的次数占该多媒体资源被搜索的次数的比值(例如,假设搜索到多媒体资源B1的次数为100次并且点击该多媒体资源B1的次数为20次,则多媒体资源B1的点击占比为
Figure BDA0000893080410000281
也就是说,多媒体资源的点击占比可以通过上述公式(4)中的
Figure BDA0000893080410000282
来计算,同时该多媒体资源也有一定的播放完成比perci。可以利用多媒体资源的点击占比
Figure BDA0000893080410000283
和播放完成比perci这两个参数来确定查询词在整个多媒体资源集上播放的完整程度。如果多媒体资源的点击占比
Figure BDA0000893080410000284
越大并且多媒体资源的播放完成比perci越小(即,
Figure BDA0000893080410000285
越大),则多媒体资源集播放越不完整,多媒体资源集播放残余度VSPR(query)越大。换言之,可以使用上述公式(4)来确定多媒体资源集播放残余度VSPR(query)。
根据上述公式(4)可知,多媒体资源集播放残余度利用了单一多媒体资源的最差表现,即,如果某多媒体资源的点击占比
Figure BDA0000893080410000286
越大并且播放完成比perci越低,则多媒体资源集播放残余度VSPR(query)越大。需要说明的是,在本发明中,确定多媒体资源集播放残余度VSPR(query)的方法不限于此,本领域技术人员根据本申请所公开的内容及其所掌握的技术常识应能够知晓,也可以采用其它方式来确定多媒体资源集播放残余度VSPR(query),例如,也可以根据多媒体资源集的综合表现来确定多媒体资源集播放残余度VSPR(query)。
处理单元550,可以用于根据上述识别数据识别虚假搜索行为。具体可以参见上述实施例一中的步骤S140的相关描述。
例如,处理单元550可以根据识别数据并使用经典的决策树(Decision Tree)算法来完成搜索引擎的虚假搜索行为的识别。
本发明实施例的搜索引擎的虚假搜索行为的识别装置,确定单元根据从用户日志获取的单一查询词的用户观看行为数据和/或单一查询词的用户转化行为数据来确定用于识别虚假搜索行为的识别数据,并且处理单元根据确定单元所确定出的识别数据来识别虚假搜索行为,由此能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。
实施例5
图6示出根据本发明实施例五的搜索引擎的虚假搜索行为的识别装置的结构框图。本实施例提供的搜索引擎的虚假搜索行为的识别装置600用于实现图2所示实施例提供的搜索引擎的虚假搜索行为的识别方法。其中,图6中与图5标号相同的组件,包括:获取单元510、确定单元530和处理单元550,具有与前述基本相同的功能,为简明起见,省略对这些组件的详细说明。
此外,通过比较图5和图6可知,图6所示实施例与图5所示实施例的主要区别在于,在图5所示的实施例的基础上,在用户转化行为数据包括直达区转化率并且识别数据包括多媒体资源点击发散度的情况下,处理单元550具体可以包括:
第一判断单元651,用于判断当前查询词的直达区转化率是否小于第一阈值。
第二判断单元653,与第一判断单元651连接,用于在第一判断单元651判断为当前查询词的直达区转化率小于第一阈值的情况下,判断当前查询词的多媒体资源点击发散度是否小于第二阈值。
识别单元655,与第二判断单元653连接,用于在第二判断单元653判断为当前查询词的多媒体资源点击发散度小于第二阈值的情况下,将当前查询词的搜索行为识别为虚假搜索行为。
针对本实施例的示例具体可以参见上述实施例二的说明。
本发明实施例的搜索引擎的虚假搜索行为的识别装置,确定单元根据从用户日志获取的单一查询词的用户观看行为数据和/或单一查询词的用户转化行为数据来确定用于识别虚假搜索行为的识别数据,并且处理单元在用户转化数据包括直达区转化率以及识别数据包括多媒体资源点击发散度的情况下,可以将直达区转化率小于第一阈值并且多媒体资源点击发散度小于第二阈值的查询词的搜索行为识别为虚假搜索行为,由此能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。
实施例6
图7为根据本发明实施例六的搜索引擎的虚假搜索行为的识别装置的结构框图。本实施例提供的搜索引擎的虚假搜索行为的识别装置700用于实现图3所示实施例提供的搜索引擎的虚假搜索行为的识别方法。其中,图7中与图5标号相同的组件,包括:获取单元510、确定单元530和处理单元550,具有与前述基本相同的功能,为简明起见,省略对这些组件的详细说明。
此外,通过比较图5和图7可知,图7所示实施例与图5所示实施例的主要区别在于,在图5所示的实施例的基础上,在用户转化行为数据包括直达区转化率并且识别数据包括多媒体资源点击发散度的情况下,处理单元550具体可以包括:
第一判断单元751,用于判断当前查询词的直达区转化率是否小于第一阈值;
第二判断单元753,与第一判断单元751连接,用于在第一判断单元751判断为当前查询词的直达区转化率不小于第一阈值的情况下,判断当前查询词的多媒体资源平均播放完成比是否小于第三阈值;以及
识别单元755,与第二判断单元753连接,用于在第二判断单元753判断为当前查询词的多媒体资源平均播放完成比小于第三阈值的情况下,将当前查询词的搜索行为识别为虚假搜索行为。
针对本实施例的示例具体可以参见上述实施例三的说明。
本发明实施例的搜索引擎的虚假搜索行为的识别装置,确定单元根据从用户日志获取的单一查询词的用户观看行为数据和/或单一查询词的用户转化行为数据来确定用于识别虚假搜索行为的识别数据,并且处理单元在用户转化数据包括直达区转化率以及识别数据包括多媒体资源平均播放完成比的情况下,可以将直达区转化率不小于第一阈值并且多媒体资源平均播放完成比小于第三阈值的查询词的搜索行为识别为虚假搜索行为,由此能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种搜索引擎的虚假搜索行为的识别方法,所述搜索引擎用于搜索多媒体资源,其特征在于,所述识别方法包括:
从用户日志获取单一查询词的用户观看行为数据和所述单一查询词的用户转化行为数据,其中,所述单一查询词的用户观看行为数据包括:查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数,并且所述单一查询词的用户转化行为数据包括查询词,所述用户转化行为数据还包括查询量、直达区命中率、直达区转化率、用户原创内容UGC区命中率、UGC区转化率、以及整体转化率中的至少一个;
根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,所述识别数据包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及
根据所述识别数据识别所述虚假搜索行为;
其中,相对于查询量而言,点击的独立多媒体资源越多,多媒体资源点击发散度越大,点击的独立多媒体资源越少,多媒体资源点击发散度越小;
多媒体资源的点击占比越大并且多媒体资源的播放完成比越小,多媒体资源集播放残余度越大。
2.根据权利要求1所述的识别方法,其特征在于,在所述用户转化行为数据包括直达区转化率并且所述识别数据包括多媒体资源点击发散度的情况下,根据所述识别数据识别所述虚假搜索行为包括:
判断当前查询词的直达区转化率是否小于第一阈值;
在当前查询词的直达区转化率小于所述第一阈值的情况下,判断当前查询词的多媒体资源点击发散度是否小于第二阈值;以及
在当前查询词的多媒体资源点击发散度小于所述第二阈值的情况下,将当前查询词的搜索行为识别为所述虚假搜索行为。
3.根据权利要求1所述的识别方法,其特征在于,在所述用户转化行为数据包括直达区转化率并且所述识别数据包括多媒体资源平均播放完成比的情况下,根据所述识别数据识别所述虚假搜索行为包括:
判断当前查询词的直达区转化率是否小于第一阈值;
在当前查询词的直达区转化率不小于所述第一阈值的情况下,判断当前查询词的多媒体资源平均播放完成比是否小于第三阈值;以及
在当前查询词的多媒体资源平均播放完成比小于所述第三阈值的情况下,将当前查询词的搜索行为识别为所述虚假搜索行为。
4.根据权利要求1至3中任一项所述的识别方法,其特征在于,根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,包括:在所述识别数据包括所述独立多媒体资源播放量的情况下,根据所述用户观看行为数据中的被点击多媒体资源集合,确定所述独立多媒体资源播放量。
5.根据权利要求4所述的识别方法,其特征在于,根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,包括以下步骤中的至少一项:
在所述识别数据包括所述多媒体资源平均播放完成比的情况下,根据所述用户观看行为数据中的播放完成比集合和所述独立多媒体资源播放量并采用公式
Figure FDA0002125136140000021
确定所述多媒体资源平均播放完成比,其中,所述query是当前查询词,所述APP(query)是当前查询词的多媒体资源平均播放完成比,所述IVC(query)是当前查询词的独立多媒体资源播放量,所述ni是当前查询词的第i个独立多媒体资源的被播放次数,所述perci是当前查询词的第i个独立多媒体资源的播放完成比;
在所述用户转化行为包括所述查询量并且所述识别数据包括所述多媒体资源点击发散度的情况下,根据所述查询量和所述独立多媒体资源播放量并采用公式
Figure FDA0002125136140000031
确定所述多媒体资源点击发散度,其中,所述VCR(query)是当前查询词的多媒体资源点击发散度,所述sqv是查询量;
在所述用户转化行为包括所述查询量并且所述识别数据包括所述多媒体资源集播放残余度的情况下,根据所述用户观看行为数据中的播放完成比集合和所述查询量并采用公式
Figure FDA0002125136140000032
确定所述多媒体资源集播放残余度,其中,所述VSPR(query)是当前查询词的多媒体资源集播放残余度,max()取最大值。
6.一种搜索引擎的虚假搜索行为的识别装置,所述搜索引擎用于搜索多媒体资源,其特征在于,所述识别装置包括:
获取单元,用于从用户日志获取单一查询词的用户观看行为数据和所述单一查询词的用户转化行为数据,其中,所述单一查询词的用户观看行为数据包括:查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数,并且所述单一查询词的用户转化行为数据包括查询词,所述用户转化行为数据还包括查询量、直达区命中率、直达区转化率、用户原创内容UGC区命中率、UGC区转化率、以及整体转化率中的至少一个;
确定单元,与所述获取单元连接,用于根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,所述识别数据包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及
处理单元,用于根据所述识别数据识别所述虚假搜索行为;
其中,相对于查询量而言,点击的独立多媒体资源越多,多媒体资源点击发散度越大,点击的独立多媒体资源越少,多媒体资源点击发散度越小;
多媒体资源的点击占比越大并且多媒体资源的播放完成比越小,多媒体资源集播放残余度越大。
7.根据权利要求6所述的识别装置,其特征在于,在所述用户转化行为数据包括直达区转化率并且所述识别数据包括多媒体资源点击发散度的情况下,所述处理单元具体包括:
第一判断单元,用于判断当前查询词的直达区转化率是否小于第一阈值;
第二判断单元,与所述第一判断单元连接,用于在所述第一判断单元判断为当前查询词的直达区转化率小于所述第一阈值的情况下,判断当前查询词的多媒体资源点击发散度是否小于第二阈值;以及
识别单元,与所述第二判断单元连接,用于在所述第二判断单元判断为当前查询词的多媒体资源点击发散度小于所述第二阈值的情况下,将当前查询词的搜索行为识别为所述虚假搜索行为。
8.根据权利要求6所述的识别装置,其特征在于,在所述用户转化行为数据包括直达区转化率并且所述识别数据包括多媒体资源点击发散度的情况下,所述处理单元具体包括:
第一判断单元,用于判断当前查询词的直达区转化率是否小于第一阈值;
第二判断单元,与所述第一判断单元连接,用于在所述第一判断单元判断为当前查询词的直达区转化率不小于所述第一阈值的情况下,判断当前查询词的多媒体资源平均播放完成比是否小于第三阈值;以及
识别单元,与所述第二判断单元连接,用于在所述第二判断单元判断为当前查询词的多媒体资源平均播放完成比小于所述第三阈值的情况下,将当前查询词的搜索行为识别为所述虚假搜索行为。
9.根据权利要求6至8中任一项所述的识别装置,其特征在于,所述确定单元具体用于,在所述识别数据包括所述独立多媒体资源播放量的情况下,根据所述用户观看行为数据中的被点击多媒体资源集合,确定所述独立多媒体资源播放量。
10.根据权利要求9所述的识别装置,其特征在于,所述确定单元具体用于执行以下步骤中的至少一项:
在所述识别数据包括所述多媒体资源平均播放完成比的情况下,根据所述用户观看行为数据中的播放完成比集合和所述独立多媒体资源播放量并采用公式
Figure FDA0002125136140000051
确定所述多媒体资源平均播放完成比,其中,所述query是当前查询词,所述APP(query)是当前查询词的多媒体资源平均播放完成比,所述IVC(query)是当前查询词的独立多媒体资源播放量,所述ni是当前查询词的第i个独立多媒体资源的被播放次数,所述perci是当前查询词的第i个独立多媒体资源的播放完成比;
在所述用户转化行为包括所述查询量并且所述识别数据包括所述多媒体资源点击发散度的情况下,根据所述查询量和所述独立多媒体资源播放量并采用公式
Figure FDA0002125136140000052
确定所述多媒体资源点击发散度,其中,所述VCR(query)是当前查询词的多媒体资源点击发散度,所述sqv是查询量;
在所述用户转化行为包括所述查询量并且所述识别数据包括所述多媒体资源集播放残余度的情况下,根据所述用户观看行为数据中的播放完成比集合和所述查询量并采用公式
Figure FDA0002125136140000053
确定所述多媒体资源集播放残余度,其中,所述VSPR(query)是当前查询词的多媒体资源集播放残余度,max()取最大值。
CN201511001301.7A 2015-12-28 2015-12-28 搜索引擎的虚假搜索行为的识别方法和装置 Active CN105574199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511001301.7A CN105574199B (zh) 2015-12-28 2015-12-28 搜索引擎的虚假搜索行为的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511001301.7A CN105574199B (zh) 2015-12-28 2015-12-28 搜索引擎的虚假搜索行为的识别方法和装置

Publications (2)

Publication Number Publication Date
CN105574199A CN105574199A (zh) 2016-05-11
CN105574199B true CN105574199B (zh) 2020-04-21

Family

ID=55884330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511001301.7A Active CN105574199B (zh) 2015-12-28 2015-12-28 搜索引擎的虚假搜索行为的识别方法和装置

Country Status (1)

Country Link
CN (1) CN105574199B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326497A (zh) * 2016-10-10 2017-01-11 合网络技术(北京)有限公司 一种作弊视频用户识别方法及装置
CN106326498A (zh) * 2016-10-13 2017-01-11 合网络技术(北京)有限公司 一种作弊视频识别方法及装置
CN108090100B (zh) * 2016-11-23 2022-02-18 百度在线网络技术(北京)有限公司 一种数据识别方法和装置
CN106777303B (zh) * 2016-12-30 2020-11-06 中国民航信息网络股份有限公司 旅客航班查询行为分类方法及***
CN107529093B (zh) * 2017-09-05 2020-05-22 北京奇艺世纪科技有限公司 一种视频文件播放量的检测方法及***
CN110188262B (zh) * 2019-07-23 2019-10-29 武汉斗鱼网络科技有限公司 一种异常目标确定方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021162A (zh) * 2014-05-28 2014-09-03 小米科技有限责任公司 一种为多媒体资源打分的方法及装置
CN104035982A (zh) * 2014-05-28 2014-09-10 小米科技有限责任公司 多媒体资源推荐方法及装置
CN104504059A (zh) * 2014-12-22 2015-04-08 合一网络技术(北京)有限公司 多媒体资源推荐方法
CN104506894A (zh) * 2014-12-22 2015-04-08 合一网络技术(北京)有限公司 多媒体资源评估方法及其装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021162A (zh) * 2014-05-28 2014-09-03 小米科技有限责任公司 一种为多媒体资源打分的方法及装置
CN104035982A (zh) * 2014-05-28 2014-09-10 小米科技有限责任公司 多媒体资源推荐方法及装置
CN104504059A (zh) * 2014-12-22 2015-04-08 合一网络技术(北京)有限公司 多媒体资源推荐方法
CN104506894A (zh) * 2014-12-22 2015-04-08 合一网络技术(北京)有限公司 多媒体资源评估方法及其装置

Also Published As

Publication number Publication date
CN105574199A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN105574199B (zh) 搜索引擎的虚假搜索行为的识别方法和装置
US9317550B2 (en) Query expansion
WO2017096877A1 (zh) 一种推荐方法和装置
JP5513624B2 (ja) クエリの一般属性に基づく情報の検索
CN104391999B (zh) 信息推荐方法和装置
Chen et al. Velda: Relating an image tweet’s text and images
JP2019212292A (ja) イベント発見方法、装置、機器及びプログラム
KR20160057475A (ko) 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법
JP2014501422A (ja) ユーザ意図の有無に基づく検索キーワードの推薦
CN103258025B (zh) 生成共现关键词的方法、提供关联搜索词的方法以及***
US20100306214A1 (en) Identifying modifiers in web queries over structured data
Bellogín et al. The magic barrier of recommender systems–no magic, just ratings
CN107967280B (zh) 一种标签推荐歌曲的方法及***
CN103365910A (zh) 一种信息检索的方法和***
CN107203640A (zh) 通过数据库运行记录建立物理模型的方法及***
CN109033286B (zh) 数据统计方法和装置
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
US20170132294A1 (en) App store searching
CN109815337B (zh) 确定文章类别的方法及装置
JP2020129377A (ja) コンテンツ検索方法、装置、機器、および記憶媒体
Chen et al. User intent-oriented video QoE with emotion detection networking
JP2019040605A (ja) ユーモア生成に基づく感情対話方法とロボットシステム
US20140095411A1 (en) Establishing "is a" relationships for a taxonomy
CN110633410A (zh) 信息处理方法及装置、存储介质、电子装置
Hao et al. Modeling positive and negative feedback for improving document retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200522

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.