CN102073684B - 搜索日志的挖掘方法、时效性需求识别的方法及对应装置 - Google Patents

搜索日志的挖掘方法、时效性需求识别的方法及对应装置 Download PDF

Info

Publication number
CN102073684B
CN102073684B CN201010600713.3A CN201010600713A CN102073684B CN 102073684 B CN102073684 B CN 102073684B CN 201010600713 A CN201010600713 A CN 201010600713A CN 102073684 B CN102073684 B CN 102073684B
Authority
CN
China
Prior art keywords
query
word
ageing
threshold value
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010600713.3A
Other languages
English (en)
Other versions
CN102073684A (zh
Inventor
辜斯缪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201010600713.3A priority Critical patent/CN102073684B/zh
Publication of CN102073684A publication Critical patent/CN102073684A/zh
Application granted granted Critical
Publication of CN102073684B publication Critical patent/CN102073684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种搜索日志的挖掘方法、时效性需求识别的方法及对应装置,通过搜索日志的挖掘方法能够统计出搜索词(query)对应的各类型的时效性概率,该时效性概率能够反映出query的时效性需求,以便在页面搜索的方法中识别出用户输入的query是否具备时效性需求,并在具备时效性需求时,对用户输入的query对应的搜索结果进行优化处理,即提高时间属性在搜索结果中的排序权值,使用户能够快速准确地从搜索结果中找到需求的页面,满足用户对搜索结果的时效性需求。

Description

搜索日志的挖掘方法、时效性需求识别的方法及对应装置
【技术领域】
本发明属于互联网技术领域,具体涉及一种搜索日志的挖掘方法、时效性需求识别的方法及对应装置。
【背景技术】
随着互联网技术的不断发展以及信息的不断膨胀,人们对于网络信息的使用需求越来越高,搜索引擎成为人们获取网络信息的重要工具。当用户输入搜索词(query)后,搜索引擎通常会将包含该搜索词的页面包含在搜索结果中返回给用户。
然而,现有的搜索技术中,无法对用户所输入query的时效性需求进行识别,例如用户想要获取刚发生不久的事件的相关信息,但搜索引擎并不会理解用户的该时效性需求,返回的搜索结果仅仅基于以往搜索历史,并按照预先设定的各属性权值对搜索结果进行排序,用户可能无法快速准确地从搜索结果中找到需求的页面。例如,用户想要获取刚发生不久的河北***事件的网络信息,输入“河北***”的query,由于该事件刚发生不久,网络资源还较少,在搜索结果中,近期所发生河北***事件的页面可能会淹没在海量与河北***相关的历史事件的页面中,用户无法快速准确地从搜索结果中找到需求的页面。
【发明内容】
本发明提供了一种搜索日志的挖掘方法、时效性需求识别的方法及对应装置,以便于对用户query的时效性需求进行识别,为满足用户对搜索结果的时效性需求提供基础。
具体技术方案如下:
一种搜索日志的挖掘方法,包括:对从搜索日志中抓取到的搜索词query分别执行步骤A1和步骤C1:
A1、对所述抓取到的query进行分词处理,执行步骤B1;
B1、按照分词处理后得到的各词语的属性,对各词语进行标注,按照标注结果将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型,转至步骤D1,其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值;
C1、从所述抓取到的query中,筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间段内的页面比例超过预设第三比例阈值的query,构成时效性query集合,其他query构成非时效性query集合,或者,筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索结果的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非时效性query集合,或者,筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query,构成时效性query集合,其他query构成非时效性query集合;执行步骤D1;
D1、统计步骤B1得到的各类型在步骤C1筛选出的时效性query集合和非时效性query集合中的分布,利用统计结果计算各类型对应的时效性概率,并将各类型与时效性概率之间的对应关系存储在时效性概率表中。
在步骤B1中,各词语的属性识别过程具体为:预先根据词语在不同属性中的分布概率,建立词性统计表;利用分词处理后得到的各词语查找所述词性统计表,确定所述各词语对应分布概率最高的属性。
具体地,从搜索日志中抓取query所采用的抓取策略包括以下策略中的一种或任意组合:
抓取策略1:抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段内的页面占该用户所点击的所有页面的比例超过预设第一比例阈值的query;
抓取策略2:抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结果的比例超过预设的第二比例阈值的query;
抓取策略3:抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间内的所有query。
如果抓取策略采用所述抓取策略1,则所述第三时间段的时长等于所述第一时间段的时长且所述第三比例阈值大于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈值等于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈值大于所述第一比例阈值;
如果抓取策略采用所述抓取策略2,则所述第四时间段的时长等于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值,或者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值等于所述第二比例阈值,或者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值。
一种时效性需求识别的方法,该方法包括:
A2、对用户输入的搜索词query进行分词处理;
B2、按照分词处理后得到的各词语的属性,对各词语进行标注,按照标注结果将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型,其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值;
C2、查找利用上述搜索日志的挖掘方法形成的时效性概率表,确定步骤B2中归纳出的类型对应的时效性概率;
D2、如果步骤C2确定出的时效性概率的最高值超过预设的时效性概率阈值,则确定所述query具备时效性需求。
在步骤B2中,各词语的属性识别过程具体为:预先根据词语在不同属性中的分布概率,建立词性统计表;利用分词处理后得到的各词语查找所述词性统计表,确定所述各词语对应分布概率最高的属性。
更进一步地,在所述步骤D2之后还包括:
E2、提高所述query对应的搜索结果中时间属性的排序权重。
所述步骤E2具体为:将时间属性在所述query对应的搜索结果中的排序权重提高到设定权值;或者,
将时间属性在所述query对应的搜索结果中的排序权重提高设定步长。
一种搜索日志的挖掘装置,该挖掘装置包括:抓取单元、第一分词单元、第一类型确定单元、筛选单元和概率计算单元;
所述抓取单元,用于从搜索日志中抓取搜索词query;
所述第一分词单元,用于对所述抓取单元抓取到的query进行分词处理;
所述第一类型确定单元包括:用于按照所述分词处理后得到的各词语的属性,对各词语进行标注的第一标注子单元,以及用于按照所述第一标注子单元的标注结果,将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型的第一归纳子单元,其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值;
所述筛选单元,用于从所述抓取单元抓取到的query中,筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间段内的页面比例超过预设第三比例阈值的query,构成时效性query集合,其他query构成非时效性query集合,或者,筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索结果的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非时效性query集合,或者,筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query,构成时效性query集合,其他query构成非时效性query集合;
所述概率计算单元,用于统计所述第一类型确定单元归纳出的类型在所述筛选单元筛选出的时效性query集合和非时效性query集合中的分布,利用统计结果计算各类型对应的时效性概率,并将各类型与时效性概率之间的对应关系存储在时效性概率表中。
更进一步地,所述第一类型确定单元还包括:第一属性识别子单元,用于利用所述分词处理后得到的各词语查找词性统计表,确定各词语对应分布概率最高的属性,其中,所述词性统计表是预先根据词语在不同属性中的分布概率建立的。
具体地,所述抓取单元采用的抓取策略包括以下策略中的一种或任意组合:
抓取策略1:抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段内的页面占该用户所点击的所有页面的比例超过预设第一比例阈值的query;
抓取策略2:抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结果的比例超过预设的第二比例阈值的query;
抓取策略3:抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间内的所有query。
如果所述抓取单元采用所述抓取策略1,则所述第三时间段的时长等于所述第一时间段的时长且所述第三比例阈值大于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈值等于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈值大于所述第一比例阈值;
如果所述抓取单元采用所述抓取策略2,则所述第四时间段的时长等于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值,或者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值等于所述第二比例阈值,或者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值。
一种时效性需求识别的装置,该时效性需求识别的装置包括:第二分词单元、第二类型确定单元、查表单元和时效性确定单元;
所述第二分词单元,用于对用户输入的搜索词query进行分词处理;
所述第二类型确定单元包括:用于按照所述分词处理后得到的各词语的属性,对各词语进行标注的第二标注子单元,以及用于按照所述第二标注子单元的标注结果,将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型的第二归纳子单元,其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值;
所述查表单元,用于查找上述挖掘装置形成的时效性概率表,确定所述第二类型确定单元归纳出的类型对应的时效性概率;
所述时效性确定单元,用于在所述查表单元确定出的时效性概率的最高值超过预设的时效性概率阈值时,确定所述query具备时效性需求。
更进一步地,所述第二类型确定单元还包括:第二属性识别子单元,用于利用所述分词处理后得到的各词语查找词性统计表,确定各词语对应分布概率最高的属性,其中,所述词性统计表是预先根据词语在不同属性中的分布概率建立的。
较优地,该时效性需求识别的装置还可以进一步包括:
搜索优化单元,用于在所述时效性确定单元确定所述query具备时效性需求时,提高所述query对应的搜索结果中时间属性的排序权重。
所述搜索优化单元具体将时间属性在所述query对应的搜索结果中的排序权重提高到设定权值;或者,
将时间属性在所述query对应的搜索结果中的排序权重提高设定步长。
由以上技术方案可以看出,本发明提供的搜索日志的挖掘方法和装置以及时效性需求识别的方法和装置,能够统计出query对应的各类型的时效性概率,通过该时效性概率能够反映出query的时效性需求,以便在识别出用户输入的query具备时效性需求时,为对用户输入的query对应的搜索结果进行优化处理提供基础,满足用户对搜索结果的时效性需求。即提高时间属性在搜索结果中的排序权值,使用户能够快速准确地从搜索结果中找到需求的页面。
【附图说明】
图1为本发明实施例一提供的搜索日志的挖掘方法流程图;
图2为本发明实施例二提供的页面搜索的方法流程图;
图3为本发明实施例三提供的搜索日志的挖掘装置结构图;
图4为本发明实施例四提供的页面搜索的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
首先对搜索日志的挖掘方法进行描述,通过对搜索日志进行的挖掘形成query类型的时效性概率表,以方便对query进行时效性识别,下面通过实施例一对该方法进行描述。
实施例一、
图1为本发明提供的对搜索日志的挖掘方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:将从搜索日志中抓取到的query进行分词处理。
从搜索日志中抓取query时,抓取策略可以采用以下策略之一或任意组合:
抓取策略1:抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段内的页面占该用户所点击的所有页面比例超过预设第一比例阈值的query。例如,假设最近第一时间段为近2天内,预设的第一比例阈值为50%,如果某query的搜索结果中用户所点击页面的发布时间在近2天之内的页面占该用户所点击总页面的比例为70%,则可以抓取该query。再例如,如果某query的搜索结果中用户所点击页面的发布时间均为近2天之内,也就是说,比例为100%,则可以抓取该query。
抓取策略2:抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结果的比例超过预设的第二比例阈值的query。例如,假设第二时间段为近2天之内,第二比例阈值为60%,如果某query对应的搜索结果中发布时间在近2天之内的页面占搜索结果的65%,则抓取该query。
抓取策略3:抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间内的所有query。这种策略下,对应某query,只要在其搜索结果中用户点击的页面包含发布时间在最近一段时间内(例如近2天内)的页面,则抓取该query。
本步骤中,对抓取到的各query进行分词处理后,每一个query就得到至少一个词语(term),例如,对于“河北***”的query,进行分词处理后,可以得到两个词语:“河北”和“***”。对于“河北XX公司倒闭”进行分词处理后,可以得到四个词语“河北”、“XX”、“公司”、“倒闭”。
采用的分词处理方法可以包括但不限于:字符串匹配的分词方法、词义分词方法、统计分词方法,等等。由于分词处理方法为现有技术,在此不再详细描述。
步骤102:利用分词处理后得到的各词语和/或各词语的属性构成组合以及各组合的分布概率,归纳出类型(pattern)。
本步骤可以具体分为两个子步骤:
1)按照分词处理后得到的各词语的属性,对各词语进行标注。
在本步骤中,首先按照各词语的属性,将各词语进行基础标注,即标注为:名词、动词、形容词等。更进一步地,可以采用更小的粒度将各词语进行高级标注,例如可以进一步具体标注各词语为:人名、地名、时间、机构名等。
其中,对于各词语的属性识别是基于预先的分布概率统计进行的,即预先根据词语在不同属性中的分布概率,建立词性统计表。在对query进行分词处理后,利用分词处理后得到的各词语查找词性统计表,确定该词语对应分布概率最高的属性。通常,对于词语的属性识别是基于各单词的上下文进行的,例如对于“河北”、“XX”、“公司”这三个名词而言,以“河北”开头、“公司”结尾时,共同构成一个名词的概率最高,因此,可以将“河北XX公司”标记为一个名词,更小粒度可以标记为一个机构名。词语的属性识别属于现有的基础算法,在此也不再具体描述。
2)按照query中各词语的标注,将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型,其中归纳出的类型在搜索日志中的分布概率超过预设的类型分布概率阈值。
例如,当“地名+【***】”(该组合属于词语的属性和词语的组合)这一组合在从搜索日志中出现的分布概率超过预设的类型分布概率阈值,则可以将“地名+【***】”设定为一个类型;当“【河北】+【***】”(该组合属于词语的组合)这一组合在搜索日志中出现的分布概率超过预设的类型分布概率阈值,则可以将“【河北】+【***】”设定为一个类型;当“地名+动词”这一组合在搜索日志中出现的分布概率超过预设的类型分布概率阈值,则可以将“地名+动词”(该组合属于词语的属性的组合)设定为一个类型。其中【】用于标识词语。
更精确地,归纳出的类型中还可以包含组合中词语的位置信息或者属性所对应词语的位置信息。例如,“地名+【***】(结尾)”作为一个类型,其中“(结尾)”为“【***】”这一词语的位置信息。
确定出的各类型可以存储在类型表中。
步骤103:对搜索日志抓取到的query进行筛选,得到时效性query集合和非时效性query集合。
本步骤中采取的筛选策略可以包括但不限于以下策略中的一种或任意组合:
筛选策略1:筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间段内的页面占该用户所点击的所有页面比例超过预设第三比例阈值的query,构成时效性query集合,其他query构成非时效性query集合。其中,如果抓取策略采用抓取策略1,则第三时间段的时长等于第一时间段的时长且第三比例阈值大于第一比例阈值,或者,第三时间段的时长小于第一时间段的时长且第三比例阈值等于第一比例阈值,或者,第三时间段的时长小于第一时间段的时长且第三比例阈值大于第一比例阈值。
举一个例子,假设在抓取query时,抓取的是对应搜索结果中用户所点击页面的发布时间在近2天之内的页面占该用户所点击总页面的比例超过50%的query,在本步骤中进行query筛选时,可以筛选出对应搜索结果中用户所点击页面的发布时间在近2天之内的页面占该用户所点击总页面的比例超过80%的query,构成时效性query集合,其他query构成非时效性query集合。
筛选策略2:筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索结果的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非时效性query集合。其中,如果抓取策略采用抓取策略2,则第四时间段的时长等于第二时间段的时长且第四比例阈值大于第二比例阈值,或者第四时间段的时长小于第二时间段的时长且第四比例阈值等于第二比例阈值,或者第四时间段的时长小于第二时间段的时长且第四比例阈值大于第二比例阈值。
举一个例子,假设在抓取query时,抓取的是对应搜索结果中发布时间在近2天之内的页面占搜索结果的比例超过60%的query,在本步骤中进行query筛选时,可以筛选出对应搜索结果中发布时间在近2天之内的页面占搜索结果的比例超过80%的query,构成时效性query集合,其他query构成非时效性query集合。
筛选策略3:筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query,构成时效性query集合,其他query构成非时效性query集合。例如,对于某个query,如果其搜索结果的点击率超过预设的点击率突发阈值,说明该query对应的事件可能是突发事件,具备一定的时效性,应该纳入时效性query集合中。
需要说明的是,步骤101和步骤103没有固定的先后顺序,属于两个不同的执行分支,即从搜索日志抓取到的query分别送至步骤101和步骤103进行处理,两个步骤可以以任意顺序先后执行,也可以同时执行。
步骤104:统计步骤102得到的各类型在步骤103筛选出的时效性query集合和非时效性query集合中的分布,利用统计结果计算各类型对应的时效性概率并存储为时效性概率表。
可以分别统计类型表中的各类型在步骤103筛选出的时效性query集合和非时效性query集合中出现的次数,利用出现的次数进行方差计算,从而得到各类型对应的时效性概率。
假设通过本步骤后,确定“地名+【***】”这一类型对应的时效性概率为30%,“地名+动词”这一类型对应的时效性概率为5%,“【河北】+【***】”这一类型对应的时效性概率为50%。
可以将各类型对应的时效性概率存储为时效性概率表,如表1所示,以便对用户输入的query进行时效性识别使查询使用。
表1
 类型   时效性概率
 地名+【***】   30%
 地名+动词   5%
 【河北】+【***】   50%
 …   …
基于通过上述过程建立的时效性概率表,对用户输入的query可以实现时效性识别,下面通过实施例二对检索页面的过程进行描述。
实施例二、
图2为本发明提供的页面搜索的方法流程图,如图2所示,该方法可以包括以下步骤:
步骤201:对用户输入的query进行分词处理。
步骤202:利用分词处理后得到的各词语和/或各词语的属性构成的组合,以及各组合的分布概率,归纳该query对应的类型。
步骤201至步骤202中对用户输入query的处理方式与步骤101至步骤102中对抓取到query的处理方式相同,在此不再重复赘述。
步骤203:查找时效性概率表,确定步骤202中归纳出的类型对应的时效性概率。
步骤204:如果确定的时效性概率中的最高值超过预设的时效性概率阈值,则确定该query具备时效性需求。
在本发明实施例中可以预先设定一个时效性概率阈值,如果用户输入的query所对应的类型中,任一种类型对应的时效性概率超过该时效性概率阈值,则说明该用户输入的query具有时效性需求,需要为该用户尽量提供时效性较高的页面,即近期发布的页面,通过步骤205实现。
如果确定的时效性概率中的最高值没有超过预设的时效性概率阈值,则确定该query不具备时效性需求,则无需对搜索结果做特殊处理,结束流程。
步骤205:提高该query所对应搜索结果中时间属性的排序权重。
在本步骤中,可以将时间属性在检索结果中的排序权重提高到某一个设定权重,或者提高某一个设定的步长,从而尽量在搜索结果中体现时效特性,将发布时间较新的页面在搜索结果中优先排序。
举一个例子:用户输入的query为“河北***”,经过步骤201的分词处理后得到“河北”和“***”,在步骤202中可以将“河北”标注为名词,并进一步标注为地名,将“***”标注为动词。假设步骤202之后归纳出的类型为:
类型1:地名+【***】;
类型2:地名+动词;
类型3:【河北】+【***】。
则确定上述三种类型为“河北***”的query所对应的类型,也就是说,用户输入的一个query在步骤202中可能会归纳出一个以上的类型。
查找通过图1所示流程建立的时效性概率表,确定类型1、类型2和类型3对应的时效性概率值分别为30%、5%和50%。假设预设的时效性概率阈值为40%,则确定的时效性概率最高值50%超过预设的时效性概率阈值,说明该“河北***”的query具备时效性需求,可能是近期发生的事件。因此,在返回“河北***”的query对应的搜索结果时,提高时间属性在搜索结果中的排序权重,尽量将发布时间较新的页面在搜索结果中优先排序,这样用户就能够快速准确地获取到近期发布的关于河北***事件的页面。
以上是对本发明所提供的方法进行的详细描述。下面通过实施例三和实施例四对本发明所提供的装置进行详细描述。
实施例三、
图3为本发明实施例提供的搜索日志的挖掘装置结构图,如图3所示,该挖掘装置可以包括:抓取单元300、第一分词单元310、第一类型确定单元320、筛选单元330和概率计算单元340。
抓取单元300,用于从搜索日志中抓取query。
第一分词单元310,用于对抓取单元300抓取到的query进行分词处理。
该第一分词单元310采用的分词处理方法可以包括但不限于:字符串匹配的分词方法、词义分词方法、统计分词方法。
第一类型确定单元320,用于利用第一分词单元310分词处理后得到的各词语和/或各词语的属性构成的组合以及各组合的分布概率,归纳出类型。
筛选单元330,用于对抓取单元300抓取到的query进行筛选,得到时效性query集合和非时效性query集合。
概率计算单元340,用于统计第一类型确定单元320归纳出的类型在筛选单元330筛选出的时效性query集合和非时效性query集合中的分布,利用统计结果计算各类型对应的时效性概率,并将各类型与时效性概率之间的对应关系存储在时效性概率表中。
其中,第一类型确定单元320具体包括:第一标注子单元321和第一归纳子单元322。
第一标注子单元321,用于按照分词处理后得到的各词语的属性,对各词语进行标注。
在进行标注时,可以首先按照各词语的属性,将各词语进行基础标注,即标注为:名词、动词、形容词等。更进一步地,采用更小的粒度将各词语进行高级标注,例如标注各词语为:人名、地名、时间、机构名等。
第一归纳子单元322,用于按照第一标注子单元321的标注结果,将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型,其中,归纳出的类型在搜索日志中的分布概率超过预设的类型分布概率阈值。
在归纳出的类型中除了上述词语的组合、词语的属性的组合或者词语和词语的属性的组合之外,还可以进一步包含词语的位置信息或者词语的属性的位置信息。
更进一步地,第一类型确定单元320还可以包括:第一属性识别子单元323,用于利用分词处理后得到的各词语查找词性统计表,确定各词语对应分布概率最高的属性,其中,词性统计表是预先根据词语在不同属性中的分布概率建立的。
具体地,上述抓取单元300采用的抓取策略可以包括以下策略中的一种或任意组合:
抓取策略1:抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段内的页面占该用户所点击的所有页面的比例超过预设第一比例阈值的query。
抓取策略2:抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结果的比例超过预设的第二比例阈值的query。
抓取策略3:抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间内的所有query。
上述筛选单元330采用的筛选策略可以包括以下策略中的一种或任意组合:
筛选策略1:筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间段内的页面占该用户所点击的所有页面比例超过预设第三比例阈值的query,构成时效性query集合,其他query构成非时效性query集合;其中,如果抓取单元300采用抓取策略1,则第三时间段的时长等于第一时间段的时长且第三比例阈值大于第一比例阈值,或者,第三时间段的时长小于第一时间段的时长且第三比例阈值等于第一比例阈值,或者,第三时间段的时长小于第一时间段的时长且第三比例阈值大于第一比例阈值。
筛选策略2:筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索结果的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非时效性query集合;其中,如果抓取单元300采用抓取策略2,则第四时间段的时长等于第二时间段的时长且第四比例阈值大于第二比例阈值,或者第四时间段的时长小于第二时间段的时长且第四比例阈值等于第二比例阈值,或者第四时间段的时长小于第二时间段的时长且第四比例阈值大于第二比例阈值。
筛选策略3:筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query,构成时效性query集合,其他query构成非时效性query集合。
实施例四、
图4为本发明实施例四提供的页面搜索的装置结构图,如图4所示,该页面搜索的装置可以包括:第二分词单元400、第二类型确定单元410、查表单元420和时效性确定单元430。
第二分词单元400,用于对用户输入的query进行分词处理。
与实施例三中的第一分词单元310相同的,第二分词单元400采用的分词处理方法可以包括但不限于:字符串匹配的分词方法、词义分词方法、统计分词方法。
第二类型确定单元410,用于利用第二分词单元400分词处理后得到的各词语和/或各词语的属性构成的组合以及各组合的分布概率,归纳出query对应的类型。
查表单元420,用于查找实施例三所述的挖掘装置形成的时效性概率表,确定第二类型确定单元410归纳出的类型对应的时效性概率。
时效性确定单元430,用于在查表单元420确定出的时效性概率的最高值超过预设的时效性概率阈值时,确定query具备时效性需求;否则确定query不具备时效性需求。
其中,第二类型确定单元410可以具体包括:第二标注子单元411和第二归纳子单元412。
第二标注子单元411,用于按照第二分词单元400分词处理后得到的各词语的属性,对各词语进行标注。
第二归纳子单元412,用于按照第二标注子单元411的标注结果,将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型,其中,归纳出的类型在搜索日志中的分布概率超过预设的类型分布概率阈值。
基于该结构,第二类型确定单元还可以进一步包括:第二属性识别子单元413,用于利用第二分词单元400分词处理后得到的各词语查找词性统计表,确定各词语对应分布概率最高的属性,其中,词性统计表是预先根据词语在不同属性中的分布概率建立的。
第二标注子单元411、第二归纳子单元412和第二属性识别子单元413的处理方式分别与实施例三中第一标注子单元321、第一归纳子单元322和第一属性识别子单元323的处理方式相同,在此不再赘述。
更进一步地,该页面搜索的装置还可以在确定query具备时效性需求时,对搜索结果进行优化调整,此时该页面搜索的装置还可以包括:
搜索优化单元440,用于在时效性确定单元430确定query具备时效性需求时,提高query对应的搜索结果中时间属性的排序权重。
如果时效性确定单元430确定query不具备时效性需求,则无需对搜索结果进行优化调整。
在此,搜索优化单元440可以将提高query对应的搜索结果中时间属性的排序权重的指令发送给搜索引擎,搜索引擎根据该指令返回搜索结果,从而尽量将发布时间较新的页面在搜索结果中优先排序,使用户能够快速准确地获取到近期发布的相关事件的页面。
具体地提高方式可以为:将时间属性在query对应的搜索结果中的排序权重提高到设定权值;或者,将时间属性在query对应的搜索结果中的排序权重提高设定步长。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种搜索日志的挖掘方法,其特征在于,对从搜索日志中抓取到的搜索词query分别执行步骤A1和步骤C1:
A1、对所述抓取到的query进行分词处理,执行步骤B1;
B1、按照分词处理后得到的各词语的属性,对各词语进行标注,按照标注结果将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型,转至步骤D1,其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值;所述各词语的属性的识别过程具体为:预先根据词语在不同属性中的分布概率,建立词性统计表;利用分词处理后得到的各词语查找所述词性统计表,确定所述各词语对应分布概率最高的属性;
C1、从所述抓取到的query中,筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间段内的页面比例超过预设第三比例阈值的query,构成时效性query集合,其他query构成非时效性query集合,或者,筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索结果的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非时效性query集合,或者,筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query,构成时效性query集合,其他query构成非时效性query集合;执行步骤D1;
D1、统计步骤B1得到的各类型在步骤C1筛选出的时效性query集合和非时效性query集合中的分布,利用统计结果计算各类型对应的时效性概率,并将各类型与时效性概率之间的对应关系存储在时效性概率表中。
2.根据权利要求1所述的方法,其特征在于,从搜索日志中抓取query所采用的抓取策略包括以下策略中的一种或任意组合:
抓取策略1:抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段内的页面占该用户所点击的所有页面的比例超过预设第一比例阈值的query;
抓取策略2:抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结果的比例超过预设的第二比例阈值的query;
抓取策略3:抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间内的所有query。
3.根据权利要求2所述的方法,其特征在于,如果抓取策略采用所述抓取策略1,则所述第三时间段的时长等于所述第一时间段的时长且所述第三比例阈值大于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈值等于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈值大于所述第一比例阈值;
如果抓取策略采用所述抓取策略2,则所述第四时间段的时长等于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值,或者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值等于所述第二比例阈值,或者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值。
4.一种时效性需求识别的方法,其特征在于,该方法包括:
A2、对用户输入的搜索词query进行分词处理;
B2、按照分词处理后得到的各词语的属性,对各词语进行标注,按照标注结果将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型,其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值;所述各词语的属性的识别过程具体为:预先根据词语在不同属性中的分布概率,建立词性统计表;利用分词处理后得到的各词语查找所述词性统计表,确定所述各词语对应分布概率最高的属性;
C2、查找利用权利要求1所述方法形成的时效性概率表,确定步骤B2中归纳出的类型对应的时效性概率;
D2、如果步骤C2确定出的时效性概率的最高值超过预设的时效性概率阈值,则确定所述query具备时效性需求。
5.根据权利要求4所述的方法,其特征在于,在所述步骤D2之后还包括:
E2、提高所述query对应的搜索结果中时间属性的排序权重。
6.根据权利要求5所述的方法,其特征在于,所述步骤E2具体为:将时间属性在所述query对应的搜索结果中的排序权重提高到设定权值;或者,
将时间属性在所述query对应的搜索结果中的排序权重提高设定步长。
7.一种搜索日志的挖掘装置,其特征在于,该挖掘装置包括:抓取单元、第一分词单元、第一类型确定单元、筛选单元和概率计算单元;
所述抓取单元,用于从搜索日志中抓取搜索词query;
所述第一分词单元,用于对所述抓取单元抓取到的query进行分词处理;
所述第一类型确定单元包括:用于按照所述分词处理后得到的各词语的属性,对各词语进行标注的第一标注子单元,以及用于按照所述第一标注子单元的标注结果,将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型的第一归纳子单元,其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值;
所述第一类型确定单元还包括:第一属性识别子单元,用于利用所述分词处理后得到的各词语查找词性统计表,确定各词语对应分布概率最高的属性,其中,所述词性统计表是预先根据词语在不同属性中的分布概率建立的;
所述筛选单元,用于从所述抓取单元抓取到的query中,筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间段内的页面比例超过预设第三比例阈值的query,构成时效性query集合,其他query构成非时效性query集合,或者,筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索结果的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非时效性query集合,或者,筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query,构成时效性query集合,其他query构成非时效性query集合;
所述概率计算单元,用于统计所述第一类型确定单元归纳出的类型在所述筛选单元筛选出的时效性query集合和非时效性query集合中的分布,利用统计结果计算各类型对应的时效性概率,并将各类型与时效性概率之间的对应关系存储在时效性概率表中。
8.根据权利要求7所述的挖掘装置,其特征在于,所述抓取单元采用的抓取策略包括以下策略中的一种或任意组合:
抓取策略1:抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段内的页面占该用户所点击的所有页面的比例超过预设第一比例阈值的query;
抓取策略2:抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结果的比例超过预设的第二比例阈值的query;
抓取策略3:抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间内的所有query。
9.根据权利要求8所述的挖掘装置,其特征在于,
如果所述抓取单元采用所述抓取策略1,则所述第三时间段的时长等于所述第一时间段的时长且所述第三比例阈值大于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈值等于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈值大于所述第一比例阈值;
如果所述抓取单元采用所述抓取策略2,则所述第四时间段的时长等于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值,或者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值等于所述第二比例阈值,或者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值。
10.一种时效性需求识别的装置,其特征在于,该时效性需求识别的装置包括:第二分词单元、第二类型确定单元、查表单元和时效性确定单元;
所述第二分词单元,用于对用户输入的搜索词query进行分词处理;
所述第二类型确定单元包括:用于按照所述分词处理后得到的各词语的属性,对各词语进行标注的第二标注子单元,以及用于按照所述第二标注子单元的标注结果,将同一个query中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型的第二归纳子单元,其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值;
所述第二类型确定单元还包括:第二属性识别子单元,用于利用所述分词处理后得到的各词语查找词性统计表,确定各词语对应分布概率最高的属性,其中,所述词性统计表是预先根据词语在不同属性中的分布概率建立的;
所述查表单元,用于查找权利要求7所述挖掘装置形成的时效性概率表,确定所述第二类型确定单元归纳出的类型对应的时效性概率;
所述时效性确定单元,用于在所述查表单元确定出的时效性概率的最高值超过预设的时效性概率阈值时,确定所述query具备时效性需求。
11.根据权利要求10所述的时效性需求识别的装置,其特征在于,该时效性需求识别的装置还包括:
搜索优化单元,用于在所述时效性确定单元确定所述query具备时效性需求时,提高所述query对应的搜索结果中时间属性的排序权重。
12.根据权利要求11所述的时效性需求识别的装置,其特征在于,所述搜索优化单元具体将时间属性在所述query对应的搜索结果中的排序权重提高到设定权值;或者,
将时间属性在所述query对应的搜索结果中的排序权重提高设定步长。
CN201010600713.3A 2010-12-22 2010-12-22 搜索日志的挖掘方法、时效性需求识别的方法及对应装置 Active CN102073684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010600713.3A CN102073684B (zh) 2010-12-22 2010-12-22 搜索日志的挖掘方法、时效性需求识别的方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010600713.3A CN102073684B (zh) 2010-12-22 2010-12-22 搜索日志的挖掘方法、时效性需求识别的方法及对应装置

Publications (2)

Publication Number Publication Date
CN102073684A CN102073684A (zh) 2011-05-25
CN102073684B true CN102073684B (zh) 2014-08-13

Family

ID=44032223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010600713.3A Active CN102073684B (zh) 2010-12-22 2010-12-22 搜索日志的挖掘方法、时效性需求识别的方法及对应装置

Country Status (1)

Country Link
CN (1) CN102073684B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955829B (zh) * 2011-08-30 2017-11-03 北京百度网讯科技有限公司 用于对资源项进行排序的方法、装置和设备
US10839441B2 (en) * 2014-06-09 2020-11-17 Ebay Inc. Systems and methods to seed a search
US9703875B2 (en) 2014-06-09 2017-07-11 Ebay Inc. Systems and methods to identify and present filters
CN105095434B (zh) * 2015-07-23 2019-03-29 百度在线网络技术(北京)有限公司 时效需求识别方法及装置
CN105159938B (zh) 2015-08-03 2018-11-30 百度在线网络技术(北京)有限公司 检索方法和装置
CN106341291B (zh) * 2016-09-08 2019-11-15 北京小米移动软件有限公司 网络连接稳定性的测试方法及装置
CN107180093B (zh) * 2017-05-15 2020-05-19 北京奇艺世纪科技有限公司 信息搜索方法及装置和时效性查询词识别方法及装置
CN111241379B (zh) * 2018-11-28 2023-04-25 阿里巴巴集团控股有限公司 搜索结果的处理方法、装置、电子设备及计算机可读介质
CN110110191B (zh) * 2019-03-28 2021-05-25 北京奇艺世纪科技有限公司 搜索处理方法和装置及计算机可读存储介质
CN110263004A (zh) * 2019-05-08 2019-09-20 北京字节跳动网络技术有限公司 日志记录方法、装置、电子设备和存储介质
CN110489525B (zh) * 2019-08-09 2022-02-25 腾讯科技(深圳)有限公司 搜索结果的获取方法和装置、存储介质及电子装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1983255A (zh) * 2006-05-17 2007-06-20 唐红春 一种互联网搜索方法
CN101369275A (zh) * 2008-09-10 2009-02-18 浙江大学 一种非结构化文本中的产品属性挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1983255A (zh) * 2006-05-17 2007-06-20 唐红春 一种互联网搜索方法
CN101369275A (zh) * 2008-09-10 2009-02-18 浙江大学 一种非结构化文本中的产品属性挖掘方法

Also Published As

Publication number Publication date
CN102073684A (zh) 2011-05-25

Similar Documents

Publication Publication Date Title
CN102073684B (zh) 搜索日志的挖掘方法、时效性需求识别的方法及对应装置
CN103955505B (zh) 一种基于微博的事件实时监测方法及***
CN107145445A (zh) 软件自动化测试的报错日志的自动分析方法和***
CN104077407B (zh) 一种智能数据搜索***及方法
CN102567494B (zh) 网站分类方法及装置
CN101819573A (zh) 一种自适应的网络舆情识别方法
CN105930527A (zh) 搜索方法及装置
CN1822000A (zh) 一种自动检测新闻事件的方法
CN106844576A (zh) 一种异常检测方法、装置和监控设备
CN103412940B (zh) 检测欺诈电话的方法
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN103136219A (zh) 一种基于时效性的需求挖掘方法和装置
CN104317891A (zh) 一种对页面标注标签的方法及装置
CN102156746A (zh) 搜索引擎的性能评价方法
CN105159884A (zh) 行业词典的建立方法和装置及行业识别方法和装置
CN103136212B (zh) 一种类别新词的挖掘方法及装置
CN103970800A (zh) 网页相关关键词的抽取处理方法和***
CN102654875B (zh) 一种自动处理网页文本的内链的方法及装置
CN103092838B (zh) 一种获取英文词的方法及装置
CN102915313A (zh) 网络搜索中的纠错关系生成方法及***
CN103955192B (zh) 一种用于污水处理厂的曲线报表数据采样方法
CN104778202B (zh) 基于关键词的事件演化过程的分析方法及***
CN104572767B (zh) 一种站点语种分类的方法和***
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
CN101989281B (zh) 聚类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant