CN109933714B - 一种词条权重的计算方法、搜索方法及相关装置 - Google Patents
一种词条权重的计算方法、搜索方法及相关装置 Download PDFInfo
- Publication number
- CN109933714B CN109933714B CN201910203912.1A CN201910203912A CN109933714B CN 109933714 B CN109933714 B CN 109933714B CN 201910203912 A CN201910203912 A CN 201910203912A CN 109933714 B CN109933714 B CN 109933714B
- Authority
- CN
- China
- Prior art keywords
- search
- search word
- word
- term
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开一种词条权重的计算方法,在构建相似搜索词集合后,针对相似搜索词集合中包括的每个搜索词,计算每个搜索词对应的搜索结果点击率。以相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度。之后,针对所述第一搜索词包括的各分词词条,依据第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到第一搜索词包括的各个分词词条的词条权重。利用得到的词条权重可以更准确地从用户输入搜索词中提取出准确的核心词,或者针对用户输入的搜索词返回合理的搜索结果项排序,提高用户体验。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种词条权重的计算方法、搜索方法及相关装置。
背景技术
随着互联网的不断发展,网络中的信息也呈现喷井式增长,用户通常利用搜索引擎进行搜索的方式从大量信息中获取用户关心的信息。而搜索过程中,用户需要针对搜索目标提交搜索词,搜索词中各个分词词条的权重可以用来度量搜索词中每个词条的重要程度,搜索引擎根据词条权重从搜索词中提取核心词,从而向用户返回与核心词相关的搜索结果项,以及根据词条权重对返回的词条对应的搜索结果项进行排序。因此,如何精准识别用户提交的搜索词中各个分词词条的权重,直接决定了搜索引擎返回的搜索结果项和搜索结果项最终呈现的排序效果。
目前计算词条权重的方法是针对一个搜索结果项,利用点击日志收集得到该搜索结果项所对应的搜索词,将这些搜索词组成一个搜索词集合,将搜索词集合中的每个搜索词进行分词,分别得到对应的分词词条,针对一个搜索词的每个分词词条,根据该分词词条出现的频次确定权重,出现频次较高的分词词条可以为其赋予较高的权重。
但是,现有方法计算出的词条权重缺乏相关度信息,难以准确衡量词条的重要程度,进而导致从用户输入搜索词中提取出错误的核心词,或者针对用户输入的搜索词返回的搜索结果项排序不合理,影响用户体验。
发明内容
为了解决上述技术问题,本申请提供了一种词条权重的计算方法、搜索方法及相关装置,能够提高词条权重计算的准确度,进一步改善搜索结果项排序的合理性,提升用户体验。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供一种词条权重的计算方法,所述方法包括:
针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;
针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;
以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;
对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;
针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。
可选的,所述计算得到每个搜索词对应的搜索结果点击率包括:
获取以所述搜索词进行搜索时,所述搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数;
获取所述搜索词被搜索的次数,记为第二次数;
将所述第一次数与第二次数的比值作为所述搜索词对应的搜索结果点击率。
可选的,所述依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度后,所述方法还包括:
对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理;
所述依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重,包括:
依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重。
可选的,所述对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理,包括:
其中,weight(query,qanchor)表示所述第一搜索词与其所属相似搜索词集合中任一搜索词之间的相关程度;query表示所述第一搜索词,qanchor表示相似搜索词集合中的任一搜索词;click(quer y,doci)表示所述第一搜索词针对其所属第i个相似搜索词集合对应的搜索结果项的点击率,n为所述第一搜索词所属相似搜索词集合的个数;click(quer y)表示所述第一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率之和;click(qanc hor,doci)表示所述任一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;click(doci)表示所述第一搜索词所属第i个相似搜索词集合中所有搜索词对应的搜索结果点击率之和。
可选的,所述依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重,包括:
获取所述第一搜索词所属相似搜索词集合中所有包括所述分词词条的第二搜索词;
获取归一化处理后所述第一搜索词与每个第二搜索词之间的相关程度并进行求和计算,将计算结果作为所述第一搜索词包括的所述分词词条的词条权重。
可选的,所述针对用户点击日志数据中的搜索词,构建相似搜索词集合之前,所述方法还包括:
获取所述用户点击日志数据中搜索词指向的搜索点击结果集合;
针对搜索点击结果集合中每个搜索结果项,分别将点击到同一搜索结果项的搜索词组成相似搜索词集合。
可选的,所述获取所述用户点击日志数据中搜索词指向的搜索点击结果集合,包括:
获取用户针对所述搜索词在执行搜索行为后点击过的全部搜索结果项;
将所述全部搜索结果项中被点击次数大于预设阈值的搜索结果项组成所述搜索点击结果集合。
第二方面,本申请实施例提供一种词条权重的计算装置,所述装置包括构建单元、第一计算单元、第二计算单元、分词单元和第三计算单元:
所述构建单元,用于针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;
所述第一计算单元,用于针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;
所述第二计算单元,用于以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;
所述分词单元,用于对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;
所述第三计算单元,用于针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。
可选的,所述第一计算单元,具体用于:
获取以所述搜索词进行搜索时,所述搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数;
获取所述搜索词被搜索的次数,记为第二次数;
将所述第一次数与第二次数的比值作为所述搜索词对应的搜索结果点击率。
可选的,所述装置还包括处理单元:
所述处理单元,用于对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理;
所述第三计算单元,具体用于:
依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重。
可选的,所述处理单元具体通过以下公式进行处理得到归一化处理后的相关程度:
其中,weight(query,qanchor)表示所述第一搜索词与其所属相似搜索词集合中任一搜索词之间的相关程度;query表示所述第一搜索词,qanchor表示相似搜索词集合中的任一搜索词;click(query,doci)表示所述第一搜索词针对其所属第i个相似搜索词集合对应的搜索结果项的点击率,n为所述第一搜索词所属相似搜索词集合的个数;click(query)表示所述第一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率之和;click(qanc hor,doci)表示所述任一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;click(doci)表示所述第一搜索词所属第i个相似搜索词集合中所有搜索词对应的搜索结果点击率之和。
可选的,所述第三计算单元,具体用于:
获取所述第一搜索词所属相似搜索词集合中所有包括所述分词词条的第二搜索词;
获取归一化处理后所述第一搜索词与每个第二搜索词之间的相关程度并进行求和计算,将计算结果作为所述第一搜索词包括的所述分词词条的词条权重。
可选的,所述装置还包括获取单元和确定单元:
所述获取单元,用于获取所述用户点击日志数据中搜索词指向的搜索点击结果集合;
所述确定单元,用于针对搜索点击结果集合中每个搜索结果项,分别将点击到同一搜索结果项的搜索词组成相似搜索词集合。
可选的,所述获取单元,具体用于:
获取用户针对所述搜索词在执行搜索行为后点击过的全部搜索结果项;
将所述全部搜索结果项中被点击次数大于预设阈值的搜索结果项组成所述搜索点击结果集合。
第三方面,本申请实施例提供一种搜索方法,所述方法包括:
接收用户输入的待查询搜索词;
获取与所述待查询搜索词匹配的第一搜索词;
针对所述待查询搜索词中每个分词词条,分别确定所述第一搜索词中与所述分词词条相匹配的第一分词词条;
将所述第一分词词条的词条权重确定为所述分词词条的词条权重;所述第一分词词条的词条权重是根据权利要求1所述的方法确定的;
根据所述待查询搜索词中每个分词词条的词条权重,返回与分词词条对应的搜索结果项。
可选的,所述根据所述待查询搜索词中每个分词词条的词条权重,返回与分词词条对应的搜索结果项,包括:
根据所述待查询搜索词中每个分词词条的词条权重,确定权重最大的第二分词词条;
返回所述第二分词词条对应的搜索结果项。
可选的,所述根据所述待查询搜索词中每个分词词条的词条权重,返回与分词词条对应的搜索结果项,包括:
按照词条权重从大到小的顺序,对所述每个分词词条分别对应的搜索结果项进行排序。
第四方面,本申请实施例提供一种搜索装置,所述装置包括接收单元、获取单元、第一确定单元、第二确定单元和返回单元:
所述接收单元,用于接收用户输入的待查询搜索词;
所述获取单元,用于获取与所述待查询搜索词匹配的第一搜索词;
所述第一确定单元,用于针对所述待查询搜索词中每个分词词条,分别确定所述第一搜索词中与所述分词词条相匹配的第一分词词条;
所述第二确定单元,用于将所述第一分词词条的词条权重确定为所述分词词条的词条权重;所述第一分词词条的词条权重是根据权利要求1所述的方法确定的;
所述返回单元,用于根据所述待查询搜索词中每个分词词条的词条权重,返回与分词词条对应的搜索结果项。
可选的,所述返回单元,用于根据所述待查询搜索词中每个分词词条的词条权重,确定权重最大的第二分词词条;
返回所述第二分词词条对应的搜索结果项。
可选的,所述返回单元,用于按照词条权重从大到小的顺序,对所述每个分词词条分别对应的搜索结果项进行排序。
第五方面,本申请实施例提供一种设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;
针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;
以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;
对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;
针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重;
或,
接收用户输入的待查询搜索词;
获取与所述待查询搜索词匹配的第一搜索词;
针对所述待查询搜索词中每个分词词条,分别确定所述第一搜索词中与所述分词词条相匹配的第一分词词条;
将所述第一分词词条的词条权重确定为所述分词词条的词条权重;所述第一分词词条的词条权重是根据权利要求1所述的方法确定的;
根据所述待查询搜索词中每个分词词条的词条权重,返回与分词词条对应的搜索结果项。
第六方面,本申请实施例提供一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如第一方面或第三方面中一个或多个所述的方法。
由上述技术方案可以看出,在构建相似搜索词集合后,首先,针对相似搜索词集合中包括的每个搜索词,计算每个搜索词对应的搜索结果点击率。然后,以相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度。之后,针对所述第一搜索词包括的各分词词条,依据第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到第一搜索词包括的各个分词词条的词条权重。
可见,本方案针对第一搜索词中每个分词词条的词条权重是根据相关程度进行确定的,而相关程度是搜索词对应的搜索结果点击率的体现,即计算词条权重时考虑到针对搜索词用户点击某个搜索结果项的点击率,而搜索结果点击率可以反映出搜索词与搜索结果项之间的语义关联程度,进而可以确定搜索词所要表达的关键内容,故,以此计算得到的词条权重能够更加准确的反映出该分词词条在表达关键内容方面的重要程度,能够准确的区分第一搜索词中不同分词词条的重要程度,进而可以利用得到的词条权重从用户输入搜索词中提取出准确的核心词,或者针对用户输入的搜索词返回合理的搜索结果项排序,提高用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种词条权重的计算方法的应用场景示例图;
图2为本申请实施例提供的一种词条权重的计算方法的流程示意图;
图3为本申请实施例提供的一种相似搜索词集合及搜索词对应的搜索结果点击率示例图;
图4为本申请实施例提供的一种搜索方法的应用场景示例图;
图5为本申请实施例提供的一种搜索方法的流程示意图;
图6为本申请实施例提供的一种词条权重的计算装置的结构图;
图7为本申请实施例提供的一种搜索装置的结构图;
图8为本申请实施例提供的一种终端设备的结构图;
图9为本申请实施例提供的一种服务器的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
传统的词条权重计算方法中,在对搜索词集合中一个搜索词的每个分词词条计算词条权重时,根据该分词词条在搜索词集合中出现的频次确定词条权重,出现频次较高的分词词条可以为其赋予较高的词条权重。
例如,在搜索引擎中输入了“奔驰汽车”、“奔驰网站”、“奔驰报价”和“宝马汽车”的用户在搜索结果中共同点击了搜索结果项A,则“奔驰汽车”、“奔驰网站”、“奔驰报价”和“宝马汽车”组成搜索词集合,若针对其中的“宝马汽车”确定分词词条的词条权重,则将“宝马汽车”拆分为分词词条“宝马”和“汽车”,其中,“宝马”在搜索词集合中出现的次数为1,而“汽车”在搜索词集合中出现的次数为2,这样,根据出现的频次确定出来的分词词条的词条权重中,“宝马”的词条权重小于“汽车”的词条权重。
而实际情况中,对于搜索词“宝马汽车”,“宝马”的词条权重应该大于“汽车”的词条权重,“宝马”应该是“宝马汽车”的核心词。传统方法由于仅考虑搜索词集合中分词词条的出现频次,而没有考虑到针对搜索词用户点击某个搜索结果的点击率,进而在确定词条的词条权重时没有考虑到得到同一搜索结果的搜索词之间的相关程度,导致计算出的词条权重缺乏相关度信息,难以准确衡量词条的重要程度,进而导致从用户输入搜索词中提取出错误的核心词,或者针对用户输入的搜索词返回的搜索结果项排序不合理,影响用户体验。
为此,本申请实施例提供一种词条权重的计算方法,根据相关程度计算第一搜索词中每个分词词条的词条权重,而相关程度是搜索词对应的搜索结果点击率的体现,即计算词条权重时考虑到针对搜索词用户点击某个搜索结果的点击率,故,以此计算得到的词条权重能够准确的区分第一搜索词中不同分词词条的重要程度,进而可以利用得到的词条权重从用户输入搜索词中提取出准确的核心词,或者针对用户输入的搜索词返回合理的搜索结果项排序,提高用户体验。
为了便于理解本申请的技术方案,下面结合附图对本申请实施例的应用场景进行介绍。参见图1,该应用场景中可以包括服务器101和终端设备102,终端设备102例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑等。
用户通过终端设备102输入搜索词进行搜索时,在终端设备102上会产生用户点击日志数据,用户点击日志数据中记录了历史输入过的搜索词、用户针对该搜索词执行搜索行为后点击过的搜索结果项以及针对该搜索词各个搜索结果项分别对应的点击次数等,服务器101可以获取终端设备102上的用户点击日志数据。
服务器101针对用户点击日志数据中的所有搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词。服务器101分别针对相似搜索词集合中的每个搜索词,计算各搜索词对应的搜索结果点击率。
由于搜索结果点击率可以反映出搜索词与搜索结果项之间的语义关联程度,进而可以确定该搜索词所要表达的搜索意图以及该搜索词中各个分词词条对于表达搜索意图的重要程度。而服务器101根据搜索结果点击率可以计算得到第一搜索词与其所属相似搜索词集合中各个搜索词之间的相关程度。相关程度可以反映第一搜索词与各个搜索词之间的语义关联程度,相关程度高说明两个搜索词所表达的搜索意图相似。
分词词条的词条权重用来度量搜索词中每个分词词条的重要程度,需要能够准确的反映出分词词条对于搜索词表达搜索意图的重要程度。由于搜索词中各个分词词条对于表达搜索意图的重要程度可以通过搜索结果点击率确定,而搜索结果点击率可以通过相关程度体现,故本申请实施例中,服务器101可以根据第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到第一搜索词包括的各个分词词条的词条权重。
这样,一旦存在用户在终端设备102上输入待查询搜索词时,服务器101便可以根据计算得到分词词条的词条权重确定待查询搜索词中各个分词词条的词条权重,以便从待查询搜索词中提取出准确的核心词,或者针对待查询搜索词返回合理的搜索结果项排序,提高用户体验。
下面结合附图对本申请实施例提供的词条权重的计算方法进行介绍,参见图2,所述方法包括:
S201、针对用户点击日志数据中的搜索词,构建相似搜索词集合。
其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词。
需要说明的是,同一个相似搜索词集合中的所包括的搜索词各不相同,多个相似搜索词集合之间可能存在相同的搜索词。
例如,用户点击日志数据中记录了输入搜索词“奔驰汽车”、“奔驰报价”和“奔驰”的用户在执行搜索行为后都点击了搜索结果项A,那么,服务器可以查找到用户点击搜索结果项A所对应的搜索词为“奔驰汽车”、“奔驰报价”和“奔驰”,则可以将“奔驰汽车”、“奔驰报价”和“奔驰”添加入搜索结果项A对应的相似搜索词集合,例如可以表示为{奔驰汽车、奔驰报价、奔驰},当然,点击日志数据中其他点击到该搜索结果项A的搜索词也都可以添加入该相似搜索词集合;相应的,可以确定出搜索结果项B和搜索结果项C分别对应的相似搜索词集合,例如,确定出搜索结果项B对应的相似搜索词集合为{奔驰汽车、奔驰网站、奔驰报价};确定出搜索结果项C对应的相似搜索词集合为{奔驰汽车、奔驰、奔驰网站}。
在一种可能的实现方式中,在执行S201之前可以获取用户点击日志数据中每个搜索词指向的搜索点击结果集合。其中,所述搜索点击结果集合中的各个搜索结果项为用户针对所述搜索词执行搜索行为后点击过的搜索结果项。
每个搜索结果项可以对应唯一的统一资源定位符(Uniform Resource Locator,简称URL),根据URL可以获取对应的搜索结果项。
例如,用户点击日志数据中一个搜索词为“奔驰汽车”,用户针对“奔驰汽车”在执行搜索行为后点击过的搜索结果项包括搜索结果项A、搜索结果项B和搜索结果项C,则该搜索词指向的搜索点击结果集合可以为{搜索结果项A、搜索结果项B、搜索结果项C}。
然后,针对搜索点击结果集合中每个搜索结果项,分别将点击到同一搜索结果项的搜索词组成相似搜索词集合。
S202、针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率。
其中,所述搜索结果点击率,又称为query-title点击率,为所述搜索词针对该搜索词所属相似搜索词集合对应的搜索结果项的点击率。
其中,所述计算得到每个搜索词对应的query-title点击率包括:获取以所述搜索词进行搜索时,该搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数;获取该搜索词被搜索的次数,记为第二次数;将所述第一次数与第二次数的比值作为所述搜索词对应的query-title点击率。
参见图3,继续以上述示例进行说明,搜索结果项A对应的相似搜索词集合为{奔驰汽车、奔驰报价、奔驰},搜索结果项B对应的相似搜索词集合为{奔驰汽车、奔驰网站、奔驰报价},搜索结果项C对应的相似搜索词集合为{奔驰汽车、奔驰、奔驰网站},分别针对各个相似搜索词集合执行搜索结果点击率计算,获得各个相似搜索词集合中每个搜索词对应的搜索结果点击率。例如,针对相似搜索词集合{奔驰汽车、奔驰报价、奔驰},通过S203计算得到搜索词“奔驰汽车”、“奔驰报价”、“奔驰”分别对应的搜索结果点击率分别为0.2、0.1、0.1;相应的,可以计算得到相似搜索词集合{奔驰汽车、奔驰网站、奔驰报价}中各个搜索词的搜索结果点击率分别为0.3、0.2、0.2,相似搜索词集合{奔驰汽车、奔驰、奔驰网站}中各个搜索词的搜索结果点击率分别为0.5、0.3、0.3。
可以理解的是,搜索结果点击率是指搜索词针对该搜索词所属相似搜索词集合对应的搜索结果项的点击率。针对一个搜索词,该搜索词可能被搜索很多次,但是,以该搜索词进行搜索时,搜索词所属相似搜索词集合对应的搜索结果项被点击的次数可能只是其中的一部分。因此,在本实施例中,确定搜索结果点击率的方式可以是服务器首先获取以该搜索词进行搜索时,该搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数,以及获取该搜索词的被搜索次数,记为第二次数,其中,第一次数与第二次数记录在用户点击日志数据中。然后,服务器将所述第一次数与所述第二次数的比值作为该搜索词对应的搜索结果点击率。
例如,搜索结果项A对应的相似搜索词集合为{奔驰汽车、奔驰报价、奔驰},计算“奔驰汽车”对应的搜索结果点击率。若用户针对“奔驰汽车”在执行搜索行为后点击搜索结果项A的次数为m,“奔驰汽车”被搜索的总次数为n,则相似搜索词集合{奔驰汽车、奔驰报价、奔驰}中“奔驰汽车”对应的搜索结果点击率为m/n,此时,m为第一次数,n为第二次数。
S203、以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度。
本实施例中,由于一个搜索词可能出现在多个相似搜索词集合中,计算第一搜索词与多个相似搜索词集合中各个搜索词之间的相关程度时,多个相似搜索词集合中各个搜索词实际上是多个相似搜索词集合取并集后所包括的搜索词。
继续以图3中所示的相似搜索词集合为例,多个相似搜索词集合分别是{奔驰汽车、奔驰报价、奔驰}、{奔驰汽车、奔驰网站、奔驰报价}、{奔驰汽车、奔驰、奔驰网站},其中,该多个相似搜索词集合之间存在相同的搜索词,该多个相似搜索词集合实际上包括的搜索词为“奔驰汽车”、“奔驰报价”、“奔驰”和“奔驰网站”这四个搜索词。故,需要计算的是第一搜索词分别与“奔驰汽车”、“奔驰报价”、“奔驰”、“奔驰网站”之间的相关程度。
需要说明的是,在一种可能的实现方式中,在计算得到第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度后,可以对第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理。
在本实施例中,归一化处理后第一搜索词与与其所属相似搜索词集合中各搜索词之间的相关程度,可以依据如下公式计算:
其中,weight(query,qanchor)表示所述第一搜索词与其所属相似搜索词集合中任一搜索词之间的相关程度;query表示所述第一搜索词,qanchor表示相似搜索词集合中的任一搜索词;click(quer y,doci)表示所述第一搜索词针对其所属第i个相似搜索词集合对应的搜索结果项的点击率,n为所述第一搜索词所属相似搜索词集合的个数;click(quer y)表示所述第一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率之和;click(qanc hor,doci)表示所述任一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;click(doci)表示所述第一搜索词所属第i个相似搜索词集合中所有搜索词对应的搜索结果点击率之和。
以图3所示的多个相似搜索词集合以及各个搜索词对应的搜索结果点击率为例,若计算第一搜索词“奔驰汽车”与其所属相似搜索词集合中“奔驰网站”之间的相关程度为例,此时,weight(query,qanchor)表示“奔驰汽车”与“奔驰网站”之间的相关程度,query表示“奔驰汽车”,qanchor表示“奔驰网站”,通过公式(1)可以得到weight(query,qanchor)=(0.3/(0.2+0.3+0.5))*(0.2/(0.2+0.3+0.2))+(0.5/(0.2+0.3+0.5))*(0.3/(0.5+0.3+0.3))=0.22。
相应的,通过公式(1)计算得到第一搜索词“奔驰汽车”与“奔驰汽车”之间的相关程度为0.45,第一搜索词“奔驰汽车”与“奔驰”之间的相关程度为0.19,第一搜索词“奔驰汽车”与“奔驰报价”之间的相关程度为0.14。
S204、对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条。
S205、针对所述第一搜索词包括的各分词词条,计算得到所述第一搜索词下每个分词词条的词条权重。
其中,第一搜索词对应的分词词条可以包括一个,也可以包括多个。
例如,第一搜索词为“奔驰汽车”,对“奔驰汽车”进行分词得到分词词条“奔驰”和“汽车”,分别计算“奔驰”和“汽车”的词条权重。
可以理解的是,在计算某个分词词条的词条权重时,由于在第一搜索词所属相似搜索词集合中,并非所有搜索词都包括该分词词条,因此,需要确定出包括该分词词条的第二搜索词,利用第一搜索词与每个第二搜索词之间的相关程度确定该分词词条的词条权重。
具体地,计算第一搜索词包括的每个分词词条的词条权重的一种可能实现方式为:获取所述第一搜索词所属相似搜索词集合中所有包括所述分词词条的第二搜索词;获取归一化处理后所述第一搜索词与每个第二搜索词之间的相关程度并进行求和计算,将计算结果作为所述第一搜索词下所述分词词条的词条权重。
分别以所述第一搜索词对应的各个分词词条作为目标分词词条,针对所述目标分词词条执行权重计算,得到所述各个分词词条的权重。
其中,所述权重计算为:根据所述第一搜索词与每个第二搜索词之间的相关程度确定所述目标分词词条的权重,所述第二搜索词为所述多个搜索词集合相似搜索词集合中包括所述目标分词词条的搜索词。
以图3所示的相似搜索词集合为例,其中,第一搜索词“奔驰汽车”与“奔驰汽车”之间的相关程度是0.45,“奔驰汽车”与“奔驰网站”之间的相关程度是0.22,“奔驰汽车”与“奔驰”之间的相关程度是0.19,“奔驰汽车”与“奔驰报价”之间的相关程度是0.14。若针对分词词条为“奔驰”计算词条权重,“奔驰汽车”、“奔驰网站”、“奔驰”和“奔驰报价”这四个搜索词中都包括该分词词条“奔驰”,则“奔驰汽车”、“奔驰网站”、“奔驰”和“奔驰报价”都可以作为第二搜索词,该分词词条“奔驰”的词条权重可以为0.45+0.22+0.19+0.14=1。若针对分词词条为“汽车”计算词条权重,仅有“奔驰汽车”这个搜索词中包括该分词词条“汽车”,则“奔驰汽车”可以作为第二搜索词,该分词词条“汽车”的词条权重可以为0.45。
由上述技术方案可以看出,在构建相似搜索词集合后,首先,针对相似搜索词集合中包括的每个搜索词,计算每个搜索词对应的搜索结果点击率。然后,以相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度。之后,针对所述第一搜索词包括的各分词词条,依据第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到第一搜索词包括的各个分词词条的词条权重。
可见,本方案针对第一搜索词中每个分词词条的词条权重是根据相关程度进行确定的,而相关程度是搜索词对应的搜索结果点击率的体现,即计算词条权重时考虑到针对搜索词用户点击某个搜索结果项的点击率,而搜索结果点击率可以反映出搜索词与搜索结果项之间的语义关联程度,进而可以确定搜索词所要表达的关键内容,故,以此计算得到的词条权重能够更加准确的反映出该分词词条在表达关键内容方面的重要程度,能够准确的区分第一搜索词中不同分词词条的重要程度,进而可以利用得到的词条权重从用户输入搜索词中提取出准确的核心词,或者针对用户输入的搜索词返回合理的搜索结果项排序,提高用户体验。
接下来,将对获取搜索点击结果集合的方式进行介绍。在根据搜索点击结果集合构建相似搜索词集合的情况下,用户在针对某个搜索词执行搜索行为后,可能由于误点击等原因使得用户点击了某些搜索结果项,这些搜索结果项并不能真实体现出该搜索词所有表达的关键内容,如果搜索点击结果集合中包括了这些搜索结果项,可能会导致计算得到的分词词条的词条权重不够准确。一般情况下,对于误点击等原因产生的搜索结果项来说,其所对应的点击次数一般比较少,因此,为了避免搜索点击结果集合中包括了用户误点击的搜索结果项,服务器可以首先获取用户针对第一搜索词在执行搜索行为后点击过的全部搜索结果项;然后,将全部搜索结果项中被点击次数大于预设阈值的搜索结果项组成搜索点击结果集合。从而减少搜索点击结果集合中包括用户误点击搜索结果项的可能性,提高权重计算的准确性。
需要说明的是,本实施例所提供的方法是服务器在线下利用用户点击日志数据计算得到各个分词词条的词条权重,并保存第一搜索词对应的各个分词词条的词条权重,以便用户输入待查询搜索词希望获得搜索结果项时,服务器可以线上对待查询搜索词所对应每个分词词条的词条权重进行计算,从而根据词条权重对待查询搜索词进行搜索,为用户返回搜索结果项。
接下来,将对本申请实施例提供的一种搜索方法进行介绍。参见图4,图4示出了一种搜索方法的应用场景示例图,该应用场景包括终端设备401和服务器402,终端设备401例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑等。
用户可以在终端设备401输入待查询搜索词,服务器402可以接收用户输入的待查询搜索词,并获取与所述待查询搜索词匹配的第一搜索词。服务器402对待查询搜索词进行分词得到分词词条,分别针对待查询搜索词中每个分词词条,确定第一搜索词中与该分词词条相匹配的分词词条,将所述第一分词词条的词条权重确定为该分词词条的词条权重,从而得到待查询搜索词中每个分词词条的词条权重。服务器402根据待查询搜索词中每个分词词条的词条权重,向终端设备401返回与分词词条对应的搜索结果项,并在终端设备401上展示。
接下来,将结合附图对本实施例提供的一种搜索方法进行介绍。参见图5,该方法包括:
S501、接收用户输入的待查询搜索词。
用户可以在终端设备的搜索引擎中输入待查询搜索词,以通过搜索引擎对待查询搜索词进行搜索,获取用户希望得到的搜索结果项。
S502、获取与所述待查询搜索词匹配的第一搜索词。
服务器中记录了用户曾经搜索过的搜索词,以及每个搜索词所对应分词词条的权重,其中,与待查询搜索词匹配的搜索词可以作为第一搜索词。
S503、针对所述待查询搜索词中每个分词词条,分别确定所述第一搜索词中与所述分词词条相匹配的第一分词词条。
S504、将所述第一分词词条的词条权重确定为所述分词词条的权重。
其中,所述第一分词词条的词条权重是根据图2对应实施例所述的方法确定的。
S505、根据所述待查询搜索词中每个分词词条的词条权重,返回与分词词条对应的搜索结果项。
例如,待查询搜索词为“奔驰汽车”,服务器中存储了各个第一搜索词所对应分词词条的词条权重,若服务器获取到与待查询搜索词“奔驰汽车”匹配的第一搜索词“奔驰汽车”,则服务器中存储了第一搜索词“奔驰汽车”中“奔驰”和“汽车”分别对应的词条权重。
待查询搜索词“奔驰汽车”的分词词条分别是“奔驰”和“汽车”,假设,服务器中针对第一搜索词“奔驰汽车”存储的“奔驰”和“汽车”分别是1和0.45,那么,针对目标分词词条“奔驰”,服务器确定第一搜索词中的“奔驰”与待查询搜索词中的“奔驰”相匹配,则第一搜索词中“奔驰”的词条权重即为待查询搜索词中“奔驰”的词条权重,即待查询搜索词中“奔驰”的词条权重为1,此时,第一搜索词中的“奔驰”作为第一分词词条。相应的,待查询搜索词中“汽车”的词条权重为0.45。
可以理解的是,用户输入待查询搜索词希望获得搜索结果项,获得的搜索结果项应该是能够体现待查询搜索词所要表达的关键内容,这样的搜索结果项才能更加符合用户的需求。而在待查询搜索词中,分词词条的词条权重越大,说明该分词词条越能够反映出待查询搜索词所要表达的关键内容,因此,服务器在向终端设备返回搜索结果项时,词条权重大的搜索词条所对应的搜索结果项更加符合用户的需求。
为此,在一种实现方式中,S505的实现方式可以是服务器根据待查询搜索词中每个分词词条的词条权重,确定词条权重最大的第二分词词条。服务器向终端设备返回第二分词词条对应的搜索结果项。这样,当用户针对待查询搜索词执行搜索行为时,可以保证可以搜索到符合用户需求的搜索结果项,提高用户体验。
可以理解的是,用户针对待查询搜索词执行搜索行为时,往往可能获得大量的搜索结果项,这些搜索结果项中与用户希望获得的搜索结果项关联程度存在不同,有些搜索结果项与用户希望获得的搜索结果项关联程度很大,有些搜索结果项明显偏离用户希望获得的搜索结果项。那么,如何对这些搜索结果项进行排序,以向用户展示这些搜索结果项,将直接影响着用户体验。
由于分词词条的词条权重大小可以反映待查询搜索词所要表达的关键内容,分词词条的词条权重越大,该分词词条对应的搜索结果项越符合用户希望获得的搜索结果项。为此,在一种实现方式中,S505的实现方式可以是按照词条权重从大到小的顺序,对所述每个分词词条分别对应的搜索结果项进行排序。这样,可以保证符合用户希望获得的搜索结果项优先展示给用户,使用户可以尽快获得所需的搜索结果项,提高用户体验。
由上述技术方案可以看出,由于在用户搜索待查询搜索词时,待查询搜索词中各个分词词条的词条权重是根据图2对应实施例中确定出的词条权重进行计算的,而图2对应实施例中确定出的词条权重考虑到针对搜索词用户点击某个搜索结果项的点击率,计算得到的词条权重能够更加准确的反映出该分词词条在表达关键内容方面的重要程度。为此,图5对应实施例中确定出的词条权重也能够更加准确的反映出分词词条在表达关键内容方面的重要程度,进而能够准确的区分待查询搜索词中不同分词词条的重要程度,利用得到的词条权重从待查询搜索词中提取出准确的核心词,或者针对待查询搜索词返回合理的搜索结果项排序,提高用户体验。
基于图2对应的实施例,本实施例提供一种词条权重的计算装置,参见图6,所述装置包括第二方面,本申请实施例提供一种词条权重的计算装置,所述装置包括构建单元601、第一计算单元602、第二计算单元603、分词单元604和第三计算单元605:
所述构建单元601,用于针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;
所述第一计算单元602,用于针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;
所述第二计算单元603,用于以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;
所述分词单元604,用于对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;
所述第三计算单元605,用于针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。
可选的,所述第一计算单元,具体用于:
获取以所述搜索词进行搜索时,所述搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数;
获取所述搜索词被搜索的次数,记为第二次数;
将所述第一次数与第二次数的比值作为所述搜索词对应的搜索结果点击率。
可选的,所述装置还包括处理单元:
所述处理单元,用于对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理;
所述第三计算单元,具体用于:
依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重。
可选的,所述处理单元具体通过以下公式进行处理得到归一化处理后的相关程度:
其中,weight(query,qanchor)表示所述第一搜索词与其所属相似搜索词集合中任一搜索词之间的相关程度;query表示所述第一搜索词,qanchor表示相似搜索词集合中的任一搜索词;click(quer y,doci)表示所述第一搜索词针对其所属第i个相似搜索词集合对应的搜索结果项的点击率,n为所述第一搜索词所属相似搜索词集合的个数;click(quer y)表示所述第一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率之和;click(qanc hor,doci)表示所述任一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;click(doci)表示所述第一搜索词所属第i个相似搜索词集合中所有搜索词对应的搜索结果点击率之和。
可选的,所述第三计算单元,具体用于:
获取所述第一搜索词所属相似搜索词集合中所有包括所述分词词条的第二搜索词;
获取归一化处理后所述第一搜索词与每个第二搜索词之间的相关程度并进行求和计算,将计算结果作为所述第一搜索词包括的所述分词词条的词条权重。
可选的,所述方法还包括获取单元和确定单元:
所述获取单元,用于获取所述用户点击日志数据中搜索词指向的搜索点击结果集合;
所述确定单元,用于针对搜索点击结果集合中每个搜索结果项,分别将点击到同一搜索结果项的搜索词组成相似搜索词集合。
可选的,所述获取单元,具体用于:
获取用户针对所述搜索词在执行搜索行为后点击过的全部搜索结果项;
将所述全部搜索结果项中被点击次数大于预设阈值的搜索结果项组成所述搜索点击结果集合。
基于图5对应的实施例,本申请实施例提供一种搜索装置,参见图7所述装置包括接收单元701、获取单元702、第一确定单元703、第二确定单元704和返回单元705:
所述接收单元701,用于接收用户输入的待查询搜索词;
所述获取单元702,用于获取与所述待查询搜索词匹配的第一搜索词;
所述第一确定单元703,用于针对所述待查询搜索词中每个分词词条,分别确定所述第一搜索词中与所述分词词条相匹配的第一分词词条;
所述第二确定单元704,用于将所述第一分词词条的词条权重确定为所述分词词条的词条权重;所述第一分词词条的词条权重是根据权利要求1所述的方法确定的;
所述返回单元705,用于根据所述待查询搜索词中每个分词词条的词条权重,返回与分词词条对应的搜索结果项。
可选的,所述返回单元,用于根据所述待查询搜索词中每个分词词条的词条权重,确定权重最大的第二分词词条;
返回所述第二分词词条对应的搜索结果项。
可选的,所述返回单元,用于按照词条权重从大到小的顺序,对所述每个分词词条分别对应的搜索结果项进行排序。
图8是根据一示例性实施例示出的一种装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
图9是本发明实施例中服务器的结构示意图。该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器900上执行存储介质930中的一系列指令操作。
服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,一个或一个以上键盘956,和/或,一个或一个以上操作***941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在示例性实施例中,服务器900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储介质930,上述指令可由服务器900的CPU 922执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (16)
1.一种词条权重的计算方法,其特征在于,所述方法包括:
针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;
针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;
以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;
对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;
针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。
2.根据权利要求1所述的方法,其特征在于,所述计算得到每个搜索词对应的搜索结果点击率包括:
获取以所述搜索词进行搜索时,所述搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数;
获取所述搜索词被搜索的次数,记为第二次数;
将所述第一次数与第二次数的比值作为所述搜索词对应的搜索结果点击率。
3.根据权利要求1所述的方法,其特征在于,所述依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度后,所述方法还包括:
对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理;
所述依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重,包括:
依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理,包括:
其中,weight(query,qanchor)表示所述第一搜索词与其所属相似搜索词集合中任一搜索词之间的相关程度;query表示所述第一搜索词,qanchor表示相似搜索词集合中的任一搜索词;click(query,doci)表示所述第一搜索词针对其所属第i个相似搜索词集合对应的搜索结果项的点击率,n为所述第一搜索词所属相似搜索词集合的个数;click(query)表示所述第一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率之和;click(qanchor,doci)表示所述任一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;click(doci)表示所述第一搜索词所属第i个相似搜索词集合中所有搜索词对应的搜索结果点击率之和。
5.根据权利要求3所述的方法,其特征在于,所述依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重,包括:
获取所述第一搜索词所属相似搜索词集合中所有包括所述分词词条的第二搜索词;
获取归一化处理后所述第一搜索词与每个第二搜索词之间的相关程度并进行求和计算,将计算结果作为所述第一搜索词包括的所述分词词条的词条权重。
6.根据权利要求1所述的方法,其特征在于,所述针对用户点击日志数据中的搜索词,构建相似搜索词集合之前,所述方法还包括:
获取所述用户点击日志数据中搜索词指向的搜索点击结果集合;
针对搜索点击结果集合中每个搜索结果项,分别将点击到同一搜索结果项的搜索词组成相似搜索词集合。
7.根据权利要求6所述的方法,其特征在于,所述获取所述用户点击日志数据中搜索词指向的搜索点击结果集合,包括:
获取用户针对所述搜索词在执行搜索行为后点击过的全部搜索结果项;
将所述全部搜索结果项中被点击次数大于预设阈值的搜索结果项组成所述搜索点击结果集合。
8.一种词条权重的计算装置,其特征在于,所述装置包括构建单元、第一计算单元、第二计算单元、分词单元和第三计算单元:
所述构建单元,用于针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;
所述第一计算单元,用于针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;
所述第二计算单元,用于以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;
所述分词单元,用于对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;
所述第三计算单元,用于针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。
9.根据权利要求8所述的装置,其特征在于,所述第一计算单元,具体用于:
获取以所述搜索词进行搜索时,所述搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数;
获取所述搜索词被搜索的次数,记为第二次数;
将所述第一次数与第二次数的比值作为所述搜索词对应的搜索结果点击率。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括处理单元:
所述处理单元,用于对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理;
所述第三计算单元,具体用于:
依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重。
11.根据权利要求10所述的装置,其特征在于,所述处理单元具体通过以下公式进行处理得到归一化处理后的相关程度:
其中,weight(query,qanchor)表示所述第一搜索词与其所属相似搜索词集合中任一搜索词之间的相关程度;query表示所述第一搜索词,qanchor表示相似搜索词集合中的任一搜索词;click(query,doci)表示所述第一搜索词针对其所属第i个相似搜索词集合对应的搜索结果项的点击率,n为所述第一搜索词所属相似搜索词集合的个数;click(query)表示所述第一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率之和;click(qanchor,doci)表示所述任一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;click(doci)表示所述第一搜索词所属第i个相似搜索词集合中所有搜索词对应的搜索结果点击率之和。
12.根据权利要求10所述的装置,其特征在于,所述第三计算单元,具体用于:
获取所述第一搜索词所属相似搜索词集合中所有包括所述分词词条的第二搜索词;
获取归一化处理后所述第一搜索词与每个第二搜索词之间的相关程度并进行求和计算,将计算结果作为所述第一搜索词包括的所述分词词条的词条权重。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括获取单元和确定单元:
所述获取单元,用于获取所述用户点击日志数据中搜索词指向的搜索点击结果集合;
所述确定单元,用于针对搜索点击结果集合中每个搜索结果项,分别将点击到同一搜索结果项的搜索词组成相似搜索词集合。
14.根据权利要求13所述的装置,其特征在于,所述获取单元,具体用于:
获取用户针对所述搜索词在执行搜索行为后点击过的全部搜索结果项;
将所述全部搜索结果项中被点击次数大于预设阈值的搜索结果项组成所述搜索点击结果集合。
15.一种用于词条权重的计算设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;
针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;
以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;
对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;
针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。
16.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行上述指令时实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910203912.1A CN109933714B (zh) | 2019-03-18 | 2019-03-18 | 一种词条权重的计算方法、搜索方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910203912.1A CN109933714B (zh) | 2019-03-18 | 2019-03-18 | 一种词条权重的计算方法、搜索方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933714A CN109933714A (zh) | 2019-06-25 |
CN109933714B true CN109933714B (zh) | 2021-04-20 |
Family
ID=66987563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910203912.1A Active CN109933714B (zh) | 2019-03-18 | 2019-03-18 | 一种词条权重的计算方法、搜索方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933714B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867338B2 (en) | 2019-01-22 | 2020-12-15 | Capital One Services, Llc | Offering automobile recommendations from generic features learned from natural language inputs |
US10489474B1 (en) | 2019-04-30 | 2019-11-26 | Capital One Services, Llc | Techniques to leverage machine learning for search engine optimization |
US10565639B1 (en) | 2019-05-02 | 2020-02-18 | Capital One Services, Llc | Techniques to facilitate online commerce by leveraging user activity |
CN110598067B (zh) * | 2019-09-12 | 2022-10-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 词语权重获取方法、装置及存储介质 |
US10796355B1 (en) * | 2019-12-27 | 2020-10-06 | Capital One Services, Llc | Personalized car recommendations based on customer web traffic |
CN111737571B (zh) * | 2020-06-11 | 2024-01-30 | 北京字节跳动网络技术有限公司 | 搜索方法、装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528430A (zh) * | 2015-12-10 | 2016-04-27 | 北京奇虎科技有限公司 | 一种确定搜索项的权重的方法和装置 |
CN107885783A (zh) * | 2017-10-17 | 2018-04-06 | 北京京东尚科信息技术有限公司 | 获取搜索词高相关分类的方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013120534A (ja) * | 2011-12-08 | 2013-06-17 | Mitsubishi Electric Corp | 関連語分類装置及びコンピュータプログラム及び関連語分類方法 |
CN105786910B (zh) * | 2014-12-25 | 2019-06-07 | 北京奇虎科技有限公司 | 词条权重计算方法和装置 |
CN104615723B (zh) * | 2015-02-06 | 2018-08-07 | 百度在线网络技术(北京)有限公司 | 查询词权重值的确定方法和装置 |
CN104731361B (zh) * | 2015-03-04 | 2018-06-19 | 百度在线网络技术(北京)有限公司 | 一种确定候选词条的可选择区域的方法与装置 |
GB2537927A (en) * | 2015-04-30 | 2016-11-02 | Fujitsu Ltd | Term Probabilistic Model For Co-occurrence Scores |
CN105975459B (zh) * | 2016-05-24 | 2018-09-21 | 北京奇艺世纪科技有限公司 | 一种词项的权重标注方法和装置 |
CN106339404B (zh) * | 2016-06-30 | 2019-10-22 | 北京奇艺世纪科技有限公司 | 一种搜索词识别方法及装置 |
CN107885717B (zh) * | 2016-09-30 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法及装置 |
CN106919649B (zh) * | 2017-01-19 | 2020-06-26 | 北京奇艺世纪科技有限公司 | 一种词条权重计算的方法及装置 |
-
2019
- 2019-03-18 CN CN201910203912.1A patent/CN109933714B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528430A (zh) * | 2015-12-10 | 2016-04-27 | 北京奇虎科技有限公司 | 一种确定搜索项的权重的方法和装置 |
CN107885783A (zh) * | 2017-10-17 | 2018-04-06 | 北京京东尚科信息技术有限公司 | 获取搜索词高相关分类的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109933714A (zh) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933714B (zh) | 一种词条权重的计算方法、搜索方法及相关装置 | |
CN109800325B (zh) | 视频推荐方法、装置和计算机可读存储介质 | |
CN109918565B (zh) | 一种搜索数据的处理方法、装置及电子设备 | |
KR20170018297A (ko) | 스팸 전화 번호 결정 방법, 장치 및 시스템 | |
CN108073606B (zh) | 一种新闻推荐方法和装置、一种用于新闻推荐的装置 | |
CN108073303B (zh) | 一种输入方法、装置及电子设备 | |
CN108874827B (zh) | 一种搜索方法及相关装置 | |
CN112307281A (zh) | 一种实体推荐方法及装置 | |
CN112784142A (zh) | 一种信息推荐方法及装置 | |
CN106774969B (zh) | 一种输入方法和装置 | |
CN109977293B (zh) | 一种搜索结果相关性的计算方法及装置 | |
CN109521888B (zh) | 一种输入方法、装置和介质 | |
CN111368161B (zh) | 一种搜索意图的识别方法、意图识别模型训练方法和装置 | |
CN111241844A (zh) | 一种信息推荐方法及装置 | |
CN110110046B (zh) | 同名实体推荐方法及装置 | |
CN109799916B (zh) | 一种候选项联想方法和装置 | |
CN108073664B (zh) | 一种信息处理方法、装置、设备及客户端设备 | |
CN107291259B (zh) | 一种信息显示方法、装置和用于信息显示的装置 | |
CN110020206B (zh) | 一种搜索结果排序方法及装置 | |
CN107301188B (zh) | 一种获取用户兴趣的方法及电子设备 | |
CN107515853B (zh) | 一种细胞词库推送方法及装置 | |
CN111382367B (zh) | 一种搜索结果排序方法和装置 | |
CN110020153B (zh) | 一种搜索方法及装置 | |
CN107870941B (zh) | 一种网页排序方法、装置及设备 | |
CN110019801B (zh) | 一种文本相关性的确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |