CN102999496A - 建立需求分析模板的方法、搜索需求识别的方法及装置 - Google Patents

建立需求分析模板的方法、搜索需求识别的方法及装置 Download PDF

Info

Publication number
CN102999496A
CN102999496A CN2011102667995A CN201110266799A CN102999496A CN 102999496 A CN102999496 A CN 102999496A CN 2011102667995 A CN2011102667995 A CN 2011102667995A CN 201110266799 A CN201110266799 A CN 201110266799A CN 102999496 A CN102999496 A CN 102999496A
Authority
CN
China
Prior art keywords
query
demand
template
seed
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102667995A
Other languages
English (en)
Inventor
黄际洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2011102667995A priority Critical patent/CN102999496A/zh
Publication of CN102999496A publication Critical patent/CN102999496A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种建立需求分析模板的方法、搜索需求识别的方法及装置,其中建立需求分析模板的方法包括:获取需求类型的种子query集合;确定种子query集合的所有n元词组(n-gram),n为预设的一个或多个正整数;根据统计得到的各n-gram在需求类型的种子集合中的出现次数,将种子query集合的各种子query中N1个出现次数最低的n-gram替换为通配符,得到候选需求分析模板,N1为预设的正整数;对各候选需求分析模板进行置信度评分,选择置信度评分排在前N2个的候选需求分析模板作为需求类型的需求分析模板,N2为预设的正整数。通过本发明能够节约人力成本,扩大适用面以及提高召回率和识别准确率。

Description

建立需求分析模板的方法、搜索需求识别的方法及装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种建立需求分析模板的方法、搜索需求识别的方法和装置。
【背景技术】
随着互联网在全球范围内的迅速发展与成熟,网络上的信息资源不断丰富,信息数据量也在飞速膨胀,通过搜索引擎获取信息已经成为现代人获取信息的主要方式。为了向用户提供更加便捷、准确地查询服务是搜索引擎技术在当今和未来的发展方向。
在搜索引擎技术中,对用户的搜索需求进行识别是提高搜索准确性和有效性的重要一环,特别在结构化搜索(即垂直搜索)中作用显著。经分析发现,用户在使用query表述搜索需求时,表达方式通常体现出一定的规律性。比如用户在查询小说类需求时,可能会输入如下query:“男主角很帅的小说”、“男主角是同性恋的小说”、“男主角是武林高手的小说”等,这些query都遵循一种特定的表达模式,即:男主角【W+】的小说,其中【W+】为通配符。如果将这一表达模式作为小说类需求的一种,则可以很容易识别出“男主角失恋的小说”、“男主角很man的小说”等query为小说类需求。因此,便衍生出了基于需求分析模板的需求识别方式,而现有的需求分析模板是通过观察常用query的特性人工建立的,这种方式存在以下缺陷:
缺陷一、需求分析模板的数量较少,人工总结出的模板一般都是几百个左右,适用面较窄。
缺陷二、需要人工参与,耗费人力成本。
缺陷三、召回率较低。通常人工总结出的模板可能与用户最终输入的query形式上存在差别,这种不完全一致就造成很多query无法识别出需求类型。
缺陷四、识别准确率低。人工总结、编写的模板,准确率较难得到全面的检验与保证,比如人观察到有图片需求的query“桌面背景”、“Windows桌面背景”,就编写出模板“【W+】背景”,用于识别有图片需求的query时,由该模板所带来的错误就会很多,比如将没有图片背景的query“药家鑫背景”、“父亲的背景”等错误地识别出有图片需求。
【发明内容】
本发明提供了一种建立需求分析模板的方法、搜索需求识别的方法和装置,以便于节约人力成本,扩大适用面以及提高识别准确率。
具体技术方案如下:
一种建立需求分析模板的方法,分别针对预设的需求类型执行以下步骤:
S1、获取所述需求类型的种子query集合;
S2、确定所述种子query集合的所有n元词组n-gram,所述n为预设的一个或多个正整数;
S3、根据统计得到的各n-gram在所述需求类型的种子集合中的出现次数,将所述种子query集合的各种子query中N1个出现次数最低的n-gram替换为通配符,得到候选需求分析模板,所述N1为预设的正整数;
S4、对各候选需求分析模板进行置信度评分,选择置信度评分排在前N2个的候选需求分析模板作为所述需求类型的需求分析模板,所述N2为预设的正整数。
根据本发明一优选实施例,所述步骤S1具体包括以下方式:
方式1、从所述需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query,构成所述需求类型的种子query集合;或者,
方式2、从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述需求类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成所述需求类型的种子query集合;或者,
方式3、将所述方式1获取的query和所述方式2获取的query取交集得到所述需求类型的种子query集合。
根据本发明一优选实施例,在所述方式1中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式2中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式3中通过公式 query _ mi = MIN ( click _ 2 , click _ 1 ) 2 search _ 2 * search _ 1 得到种子query集合中各query的权值,其中query_mi为query的权值,click_1为在所述方式1中该query的点击次数,click_2为在所述方式2中该query的点击次数,search_1为在方式1中该query的搜索次数,search_2为在方式2中该query的搜索次数。
根据本发明一优选实施例,在所述步骤S3中预先设置替换为通配符的n-gram粒度,按照所述粒度执行将所述种子query集合的各种子query中N1个出现次数最低的n-gram或者出现次数低于预设次数阈值的n-gram替换为通配符的步骤。
根据本发明一优选实施例,在所述步骤S3中执行所述替换的步骤之前还包括:将所述种子query集合的各query中命名实体的n-gram替换为命名实体类型标记。
根据本发明一优选实施例,步骤S4中所述对各候选需求分析模板进行置信度评分具体包括:
对候选需求模板的特征参数值进行加权求和后得到该候选需求模板的置信度评分,其中所述特征参数包括以下所列的至少一种:
得到该候选需求模板的所有种子query的权值平均值、根据该候选需求模板所包含固定词个数的评分、根据该候选需求模板是否包含命名实体类型标记的评分以及根据该候选需求模板包含被替换n-gram个数的评分。
一种搜索需求识别的方法,该方法包括:
接收到待识别query后,将所述待识别query分别与各需求类型的需求分析模板进行匹配,确定匹配成功的需求分析模板对应的需求类型为所述待识别query的需求类型;
其中所述各需求类型的需求分析模板是通过上述建立需求分析模板的方法建立的。
一种建立需求分析模板的装置,该装置包括:
种子获取单元,用于获取预设的需求类型的种子query集合;
词组确定单元,用于确定所述种子query集合的所有n-gram;
候选模板确定单元,用于根据统计得到的各n-gram在所述需求类型的种子集合中的出现次数,将所述种子query集合的各种子query中N1个出现次数最低的n-gram替换为通配符,得到候选需求分析模板,所述N1为预设的正整数;
模板选择单元,用于对各候选需求分析模板进行置信度评分,选择置信度评分排在前N2个的候选需求分析模板作为所述需求类型的需求分析模板,所述N2为预设的正整数。
根据本发明一优选实施例,所述种子获取单元采用以下方式获取种子query集合:
方式1、从所述需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query,构成所述需求类型的种子query集合;或者,
方式2、从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述需求类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成所述需求类型的种子query集合;或者,
方式3、将所述方式1获取的query和所述方式2获取的query取交集得到所述需求类型的种子query集合。
根据本发明一优选实施例,该装置还包括:权值确定单元,用于在所述方式1中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式2中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式3中通过公式 query _ mi = MIN ( click _ 2 , click _ 1 ) 2 search _ 2 * search _ 1 得到种子query集合中各query的权值,其中query_mi为query的权值,click_1为在所述方式1中该query的点击次数,click_2为在所述方式2中该query的点击次数,search_1为在方式1中该query的搜索次数,search_2为在方式2中该query的搜索次数。
根据本发明一优选实施例,预先设置替换为通配符的n-gram粒度,所述候选模板确定单元按照所述粒度执行将所述种子query集合的各种子query中N1个出现次数最低的n-gram或者出现次数低于预设次数阈值的n-gram替换为通配符的操作。
根据本发明一优选实施例,所述候选模板确定单元在执行所述替换的操作之前,进一步将所述种子query集合的各query中命名实体的n-gram替换为命名实体类型标记。
根据本发明一优选实施例,所述模板选择单元对候选需求模板的特征参数值进行加权求和后得到该候选需求模板的置信度评分,其中所述特征参数包括以下所列的至少一种:
得到该候选需求模板的所有种子query的权值平均值、根据该候选需求模板所包含固定词个数的评分、根据该候选需求模板是否包含命名实体类型标记的评分以及根据该候选需求模板包含被替换n-gram个数的评分。
一种搜索需求识别的装置,该装置包括:
请求获取单元,用于接收待识别query;
模板匹配单元,用于将所述待识别query分别与各需求类型的需求分析模板进行匹配,确定匹配成功的需求分析模板对应的需求类型为所述待识别query的需求类型;
其中所述各需求类型的需求分析模板是由上述建立需求分析模板的装置建立的。
由以上技术方案可以看出,在本发明中通过对需求类型的种子query集合进行n-gram获取以及基于出现次数的通配符替换确定出候选需求分析模板,并根据候选需求分析模板的置信度评分从中选择该需求类型最终的需求分析模板,通过这种方式实现了需求分析模板的自动挖掘,大大节约了人力成本。且通过增大种子query集合中种子query的数量能够实现海量需求分析模板的建立,扩大了适用面。由于该需求分析模板的挖掘基于种子query,因此挖掘出的需求分析模板与常用的query在形式上基本一致,提高了召回率和识别准确率。
【附图说明】
图1为本发明实施例一提供的需求分析模板的建立方法流程图;
图2为本发明实施例二提供的建立需求分析模板的装置结构图;
图3为本发明实施例三提供的搜索需求识别的装置结构图;
图4为本发明实施例提供的搜索需求识别用于大搜索排序的实例图;
图5为本发明实施例提供的搜索需求识别用于垂直搜索的实例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中会首先挖掘各需求种类的需求分析模板,在进行query的需求识别时,利用预先挖掘出的需求分析模板对待识别query进行需求识别。
下面通过实施例一对挖掘各需求类型的需求分析模板的过程进行详细描述。
实施例一、
图1为本发明实施例一提供的需求分析模板的建立方法流程图,如图1所示,针对其中一个需求类型的需求分析模板的建立过程包括以下步骤:
步骤101:获取该需求类型的种子query集合。
首先需要预置各需求类型的种子query集合,这些种子query集合可以通过人工的方式配置,但由于模板的挖掘通常需要数量庞大的种子query,因此采用人工标注与审核的成本过高,优选地,在本发明实施例中采用自动获得需求类型的种子集合的方式,具体可以包括但不限于以下几种:
第一种方式:从该需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query,构成该需求类型的种子query集合。
其中,可以利用该种方式获取的种子query的点击次数与搜索次数的比值得到该种子query在该需求类型的权值,该权值将用于后续模板排序。可以直接将点击次数与搜索次数的比值作为该种子query在该需求类型的权值,也可以将点击次数与搜索次数的比值求平方作为该种子query在该需求类型的权值,等等。
例如,可以在图片垂直搜素的搜索日志中获取搜索次数高于设定搜索次数阈值的query,并获取各query的搜索次数和点击次数,例如获取的种子query及其搜索次数和点击次数如表1所示。
表1
  种子query   搜索次数   点击次数   权值
  刘德华的老婆   10234   6590   0.6439
  张学友的老婆   6842   4985   0.7286
  刘烨的老婆   9527   6672   0.7003
  徐帆的女儿   20192   18652   0.9237
  范冰冰最新艺术图片全集   23022   12244   0.5318
  章子怡艺术图片全集   12021   7026   0.5845
  杨幂最新艺术图片全集   30801   9152   0.2971
第二种方式:从该需求类型的网页搜索的搜索日志中,获取对应于点击了该需求类型的网站或点击了包含该需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成该需求类型的种子query集合。
同样,可以利用该方式获取的种子query的点击次数与搜索次数的比值得到该种子query在该需求类型的权值,该权值将用于后续模板排序。具体地,可以直接将点击次数与搜索次数的比值作为该种子query在该需求类型的权值,也可以将点击次数与搜索次数的比值求平方作为该种子query在该需求类型的权值,等等。
例如,可以在普通的网页搜索的搜索日志中,获取对应点击了图片类网站或者点击了包含图片类特征词的网页标题的query,其中,图片类特征词可以诸如“组图”、“高清大图”、“图片”等,然后从中选择搜索次数大于预设的第二阈值的query作为种子query,并获取各种子query的搜索次数和点击次数。例如获取的种子query及其搜索次数和点击次数如表2所示。
表2
  种子query   搜索次数   点击次数   权值
  刘德华的老婆   75343   60873   0.8079
  张学友的老婆   76932   52834   0.6878
  刘烨的老婆   64859   48956   0.7548
  范冰冰最新艺术图片全集   62534   44526   0.7120
  章子怡艺术图片全集   76242   60109   0.7884
  杨幂最新艺术图片全集   92847   49628   0.5345
第三种方式:通过上述两种方式分别获取query后取交集得到种子query集合。
这种方式获取的种子query的权值可以采用如下公式计算:
query _ mi = MIN ( click _ 2 , click _ 1 ) 2 search _ 2 * search _ 1
其中,query_mi为种子query的权值,click_1为在第一种方式中该种子query的点击次数,click_2为在第二种方式中该种子query的点击次数,search_1为在第一种方式中该种子query的搜索次数,search_2为在第二种方式中该种子query的搜索次数。
例如,获取的种子query及其搜索次数和点击次数如表3所示。
表3
  种子query   search_2   click_2   search_1   click_1   query_mi
  刘德华的老婆   75343   60873   10234   6590   0.0563
  张学友的老婆   76932   52834   6842   4985   0.0472
  刘烨的老婆   64859   48956   9527   6672   0.0720
  范冰冰最新艺术图片全集   62534   44526   23022   12244   0.1041
  章子怡艺术图片全集   76242   60109   12021   7026   0.0539
  杨幂最新艺术图片全集   92847   49628   30801   9152   0.0293
步骤102:确定种子query集合的所有n元词组(n-gram)。
所谓n-gram就是最小粒度的n个词语按顺序出现的组合,其中n为预设的一个或多个正整数。例如,对于query“范冰冰最新艺术图片全集”,如果设置n为1、2、3和4,则获得的n-gram为:
1-gram:范冰冰、最新、艺术、图片、全集
2-gram:范冰冰最新、最新艺术、艺术图片、图片全集
3-gram:范冰冰最新艺术、最新艺术图片、艺术图片全集
4-gram:范冰冰最新艺术图片、最新艺术图片全集
步骤103:根据统计得到的各n-gram在该需求类型的种子query集合中的出现次数,将种子query集合的各种子query中N1个出现次数最低的n-gram或者出现次数低于预设次数阈值的n-gram替换为通配符,得到候选需求分析模板,N1为预设的正整数。
在本步骤中,可以预先设置替换为通配符的n-gram的粒度,即n的取值,还需要预先设置在一个query中最多替换多少个n-gram,即N1的取值。
以query“范冰冰最新艺术图片全集”为例,假设替换n-gram为通配符的粒度为1-gram,且最多只替换1个1-gram,由于在这个query所得到的所有n-gram中,1-gram“范冰冰”的出现次数最低,则将该1-gram替换成通配符后获得的候选需求分析模板就是:【W+】最新艺术图片全集。
如果替换n-gram为通配符的粒度为2-gram,且最多只能替换一个2-gram,由于2-gram“范冰冰最新”词频最低,则将该2-gram替换成通配符后获得的候选需求分析模板就是:【W+】艺术图片全集。
以最多只替换一个1-gram与2-gram为例,表3中各种子query所能生成的候选需求分析模板参见表4。
表4
Figure BDA0000090226640000101
通过设定最多可替换的n-gram个数,以及替换的n-gram粒度,我们可以获得不同类型的候选需求分析模板。在有些需求分析模板中,包含除通配符外的词语很多,且这些词语本身能表达特定语义,那么这类模板就为转义风险小的模板。比如“【W+】艺术图片全集”,该需求分析模板能够匹配到的query较少,但是准确率很高。而有些需求分析模板中,包含除通配符外的词较少,这些词虽然本身能够表达某些特定语义,但是仍可能出现歧义,那么这类需求分析模板为转义风险大的模板。比如“【W+】老婆”,能够匹配到的query较多,但是准确率可能存在一些问题。比如有可能匹配到“我爱我老婆”这种没有图片需求的query。
为解决上述转义风险大的模板带来的准确率问题,我们可以在生成候选模板前,对query先进行一些预处理。具体做法就是在将种子query集合的各query中出现次数低于预设阈值的n-gram或者出现次数低于预设次数阈值的n-gram替换为通配符之前,还包括:将种子query集合的各query中命名实体的n-gram替换为命名实体类型标记。例如把种子query中的人名替换为标记“【人名】”,把种子query中的地名都替换为标记“【地名】”等,然后再用上述方法生成候选需求分析模板。这样得出的候选需求分析模板如表5所示。
表5
  种子query 预处理后的种子query 候选需求分析模板
  刘德华的老婆 【人名】的老婆 【人名】【W+】老婆
  张学友的老婆 【人名】的老婆 【人名】【W+】老婆
  刘烨的老婆 【人名】的老婆 【人名】【W+】老婆
  范冰冰最新艺术图片全集 【人名】最新艺术图片全集 【人名】【W+】艺术图片全集
  章子怡艺术图片全集 【人名】艺术图片全集 【人名】艺术图片全集
  杨幂最新艺术图片全集 【人名】最新艺术图片全集 【人名】【W+】艺术图片全集
通过上述预处理后,再得到的候选需求分析模板,由于进一步有命名实体类型标记来做语义上的限定,降低了候选需求分析模板发生语义转义的风险。而有通配符做保证,需求分析模板召回上就能兼顾更多不同表达方式。
比如,对于“【人名】【W+】老婆”这样的模板,就能够匹配上query“谭咏麟第一个老婆”,从而提升了识别图片类需求的query的召回率,且准确率上也能够得到保障,例如对于“我的野蛮老婆”这种没有图片类需求的query则会不与该模板匹配上。
步骤104:对各候选需求分析模板进行置信度评分,选择置信度评分排在前N2个的候选需求分析模板作为所述某需求类型的需求分析模板,其中N2为预设的正整数。
得到的候选需求分析模板有可能是一些错误模板,如果对这些候选需求分析模板都加以采用必然会给需求识别的准确率带来一定的影响。在此,可以通过对候选需求分析模板进行置信度评分的方式选出最终的需求分析模板。
在对候选需求分析模板进行置信度评分时,可以采用对一个以上特征参数值进行加权求和的方式,包括但不限于以下特征参数:
1)候选需求分析模板的互信息值(mi_avg),该mi_avg为得到该候选需求分析模板的种子query的权值平均值,即:
mi _ avg = Σ k = 0 M query _ mi k M
其中,query_mik为得到该候选需求分析模板的第k个种子query,M为得到该候选需求分析模板的种子query的个数。
2)根据该候选需求模板所包含固定词的个数的评分(term_score),在一个候选需求分析模板中,除了通配符与命名实体类型标记之外,其他词语统称为固定词。固定词越多,在区分一个query的需求上能力越强。该term_score的评分由候选需求分析模板所包含的固定词个数决定,包含的固定词个数越多,term_score值越大。例如,如果包含一个固定词,则term_score为0.02,如果包含两个固定词,则term_score为0.04,如果包含三个固定词,则term_score为0.06,等等。
3)根据该候选需求模板是否包含命名实体类型标记的评分(ne_score)。如果包含命名实体类型标记,则该候选需求分析模板的需求识别能力越强,准确率越高。例如,包含命名实体类型标记时,ne_score为0.1,不包含命名实体类型标记时,ne_score为0。
4)根据候选需求模板包含被替换n-gram个数的评分(ngram_sub)。被替换n-gram的个数越少,语义发生转义的风险越小,因此,评分越高。例如,如果一个候选需求模板为query中的1个n-gram被替换,则评分为0.09,2个n-gram被替换,则评分为0.08,3个n-gram被替换,则评分为0.07等等。如果一个候选需求模板可能对应多个query,则以最多n-gram被替换的情况进行评分。
如果采用以上四种参数值,则候选需求分析模板的置信度评分(score)计算公式可以为:
score=λ1mi_avg+λ2term_score+λ3ne_score+λ4ngram_sub
其中,λ1、λ2、λ3和λ4是预设的权重系数,可以采用经验值,也可以采用机器学习的方式得到,例如,λ1、λ2、λ3和λ4可以分别取0.5、0.15、0.2和0.15。
例如,表5中所示的各候选需求分析模板的最终得分可以如表6所示。
表6
Figure BDA0000090226640000131
采用上述方式计算出每个候选需求分析模板的置信度评分后,按照评分结果对候选需求分析模板进行排序,选出评分最高的N个作为该需求类型最终的需求分析模板。
在通过上述实施例一的方式挖掘出各需求类型的需求分析模板后,如果接收到待识别query,则将该待识别query与各需求分析模板进行匹配,确定匹配成功的需求分析模板对应的需求类型为该待识别query的需求类型。
假设待识别query为:汤唯图片全集,则将该待识别query与各需求分析模板进行匹配后,匹配到的需求分析模板为:【W+】图片全集,该需求分析模板对应图片类需求,因此,可以确定该待识别query为图片类需求。
以上是对本发明所提供的方法进行的描述,下面通过实施例二对本发明所提供的建立需求分析模板的装置进行描述。
实施例二、
图2为本发明实施例二提供的建立需求分析模板的装置结构图,如图2所示,该装置可以包括:种子获取单元201、词组确定单元202、候选模板确定单元203和模板选择单元204。
种子获取单元201获取预设的需求类型的种子query集合。该种子query集合可以通过人工的方式配置,但由于模板的挖掘通常需要数量庞大的种子query,因此采用人工标注与审核的成本过高,优选地,在本发明实施例中采用自动获得需求类型的种子集合的方式,具体可以包括但不限于以下几种:
方式1、从需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query,构成需求类型的种子query集合;或者,
方式2、从需求类型的网页搜索的搜索日志中,获取对应于点击了需求类型的网站或点击了包含需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成需求类型的种子query集合;或者,
方式3、将方式1获取的query和方式2获取的query取交集得到需求类型的种子query集合。
词组确定单元202确定种子query集合的所有n-gram。所谓n-gram就是最小粒度的n个词语按顺序出现的组合,其中n为预设的一个或多个正整数。
候选模板确定单元203根据统计得到的各n-gram在需求类型的种子集合中的出现次数,将种子query集合的各种子query中N1个出现次数最低的n-gram替换为通配符,得到候选需求分析模板,N1为预设的正整数。
在此,可以预先设置替换为通配符的n-gram粒度,候选模板确定单元203按照粒度执行将种子query集合的各种子query中N1个出现次数最低的n-gram或者出现次数低于预设次数阈值的n-gram替换为通配符的操作。
模板选择单元204对各候选需求分析模板进行置信度评分,选择置信度评分排在前N2个的候选需求分析模板作为需求类型的需求分析模板,N2为预设的正整数。
更进一步地,该装置还可以包括:权值确定单元205,用于确定种子query集合中各query的权值,当采用不同的种子query集合的获取方式时,对应不同的权值确定方法,具体如下:
在方式1中利用获取的query的点击次数与搜索次数的比值得到对应query的权值。
在方式2中利用获取的query的点击次数与搜索次数的比值得到对应query的权值。
在方式3中通过公式 query _ mi = MIN ( click _ 2 , click _ 1 ) 2 search _ 2 * search _ 1 得到种子query集合中各query的权值,其中query_mi为query的权值,click_1为在方式1中该query的点击次数,click_2为在方式2中该query的点击次数,search_1为在方式1中该query的搜索次数,search_2为在方式2中该query的搜索次数。
上述种子query集合中各query的权值可以用于后续候选需求分析模板的置信度计算。
为了更进一步提高需求识别的准确性,候选模板确定单元203在执行所述替换的操作之前,可以进一步将种子集合的各query中命名实体的n-gram替换为命名实体类型标记。这样得到的候选需求分析模板通过命名实体类型做语义上的进一步限定,能够降低候选需求分析模板发生语义转移的风险。
在进行置信度评分时,模板选择单元204对候选需求模板的特征参数值进行加权求和后得到该候选需求模板的置信度评分,其中特征参数包括以下所列的至少一种:
得到该候选需求模板的所有种子query的权值平均值、根据该候选需求模板所包含固定词个数的评分、根据该候选需求模板是否包含命名实体类型标记的评分以及根据该候选需求模板包含被替换n-gram个数的评分。具体参见实施例一中的描述。
实施例三、
图3为本发明实施例三提供的搜索需求识别的装置结构图,该装置在实施例二所示的建立需求分析模板的装置基础上实现query的搜索需求识别,如图3所示,该装置可以包括:
请求获取单元301,用于接收待识别query。
模板匹配单元302,用于将待识别query分别与各需求类型的需求分析模板进行匹配,确定匹配成功的需求分析模板对应的需求类型为待识别query的需求类型。
其中各需求类型的需求分析模板是由实施例二所示的建立需求分析模板的装置建立的。
在采用本发明实施例提供的上述方法或装置识别出需求类型后,可以用于但不限于以下应用场景:
1)用于大搜索的排序。用户输入query后,通过本发明实施例的上述方法和装置能够识别出该query的需求类型,将大搜索的搜索结果中对应该query的需求类型的页面排序提前。
例如,当用户输入query“家常菜高清”时,能够在大搜索中识别出该query具有视频类需求,在针对该大搜索的结果页面中会存在“家常菜”这部电视剧的相关视频信息,该部分视频信息的得到可以是视频垂直搜索提供并***大搜索的搜索结果中的,这样在大搜索的搜索结果中,可以将该视频类的页面排在搜索结果的前面,如图4所示,使得用户的满意度及搜索体验都将得到极大的提升。
2)用于垂直搜索。用户输入query后,通过本发明实施例的上述方法和装置能够识别出该query的需求类型,将该query分配给最优的内容资源或应用提供商处理,最终精确高效地返回给用户相匹配的结果。
例如,而当用户输入“从百度大厦到五道口”时,能够识别出该query具有地图类需求,将该query提供给地图垂直搜索,由地图垂直搜索进行公交路线的计算,然后直接展示从百度大厦到五道口的公交出行地图与相关公交车信息,如图5所示。
3)用于信息推荐。用户输入query后,通过本发明实施例的上述方法和装置能够识别出该query的需求类型,基于该需求类型对用户进行信息推荐,诸如广告推荐、知识问答平台的推荐、query推荐等。
例如,用户输入query“便宜的MP3播放器”识别出其需求类型为购物类,则可以在搜索结果推荐与MP3播放器相关的广告,这样广告与用户的实际需求匹配度就很高。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种建立需求分析模板的方法,其特征在于,分别针对预设的需求类型执行以下步骤:
S1、获取所述需求类型的种子query集合;
S2、确定所述种子query集合的所有n元词组n-gram,所述n为预设的一个或多个正整数;
S3、根据统计得到的各n-gram在所述需求类型的种子集合中的出现次数,将所述种子query集合的各种子query中N1个出现次数最低的n-gram替换为通配符,得到候选需求分析模板,所述N1为预设的正整数;
S4、对各候选需求分析模板进行置信度评分,选择置信度评分排在前N2个的候选需求分析模板作为所述需求类型的需求分析模板,所述N2为预设的正整数。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括以下方式:
方式1、从所述需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query,构成所述需求类型的种子query集合;或者,
方式2、从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述需求类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成所述需求类型的种子query集合;或者,
方式3、将所述方式1获取的query和所述方式2获取的query取交集得到所述需求类型的种子query集合。
3.根据权利要求2所述的方法,其特征在于,在所述方式1中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式2中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式3中通过公式 query _ mi = MIN ( click _ 2 , click _ 1 ) 2 search _ 2 * search _ 1 得到种子query集合中各query的权值,其中query_mi为query的权值,click_1为在所述方式1中该query的点击次数,click_2为在所述方式2中该query的点击次数,search_1为在方式1中该query的搜索次数,search_2为在方式2中该query的搜索次数。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S3中预先设置替换为通配符的n-gram粒度,按照所述粒度执行将所述种子query集合的各种子query中N1个出现次数最低的n-gram或者出现次数低于预设次数阈值的n-gram替换为通配符的步骤。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S3中执行所述替换的步骤之前还包括:将所述种子query集合的各query中命名实体的n-gram替换为命名实体类型标记。
6.根据权利要求1至5任一权项所述的方法,其特征在于,步骤S4中所述对各候选需求分析模板进行置信度评分具体包括:
对候选需求模板的特征参数值进行加权求和后得到该候选需求模板的置信度评分,其中所述特征参数包括以下所列的至少一种:
得到该候选需求模板的所有种子query的权值平均值、根据该候选需求模板所包含固定词个数的评分、根据该候选需求模板是否包含命名实体类型标记的评分以及根据该候选需求模板包含被替换n-gram个数的评分。
7.一种搜索需求识别的方法,其特征在于,该方法包括:
接收到待识别query后,将所述待识别query分别与各需求类型的需求分析模板进行匹配,确定匹配成功的需求分析模板对应的需求类型为所述待识别query的需求类型;
其中所述各需求类型的需求分析模板是通过权利要求1、2、3、4或5所述的方法建立的。
8.一种建立需求分析模板的装置,其特征在于,该装置包括:
种子获取单元,用于获取预设的需求类型的种子query集合;
词组确定单元,用于确定所述种子query集合的所有n-gram;
候选模板确定单元,用于根据统计得到的各n-gram在所述需求类型的种子集合中的出现次数,将所述种子query集合的各种子query中N1个出现次数最低的n-gram替换为通配符,得到候选需求分析模板,所述N1为预设的正整数;
模板选择单元,用于对各候选需求分析模板进行置信度评分,选择置信度评分排在前N2个的候选需求分析模板作为所述需求类型的需求分析模板,所述N2为预设的正整数。
9.根据权利要求8所述的装置,其特征在于,所述种子获取单元采用以下方式获取种子query集合:
方式1、从所述需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query,构成所述需求类型的种子query集合;或者,
方式2、从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述需求类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成所述需求类型的种子query集合;或者,
方式3、将所述方式1获取的query和所述方式2获取的query取交集得到所述需求类型的种子query集合。
10.根据权利要求9所述的装置,其特征在于,该装置还包括:权值确定单元,用于在所述方式1中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式2中利用获取的query的点击次数与搜索次数的比值得到对应query的权值;或者,
在所述方式3中通过公式 query _ mi = MIN ( click _ 2 , click _ 1 ) 2 search _ 2 * search _ 1 得到种子query集合中各query的权值,其中query_mi为query的权值,click_1为在所述方式1中该query的点击次数,click_2为在所述方式2中该query的点击次数,search_1为在方式1中该query的搜索次数,search_2为在方式2中该query的搜索次数。
11.根据权利要求8所述的装置,其特征在于,预先设置替换为通配符的n-gram粒度,所述候选模板确定单元按照所述粒度执行将所述种子query集合的各种子query中N1个出现次数最低的n-gram或者出现次数低于预设次数阈值的n-gram替换为通配符的操作。
12.根据权利要求8所述的装置,其特征在于,所述候选模板确定单元在执行所述替换的操作之前,进一步将所述种子query集合的各query中命名实体的n-gram替换为命名实体类型标记。
13.根据权利要求8至12任一权项所述的装置,其特征在于,所述模板选择单元对候选需求模板的特征参数值进行加权求和后得到该候选需求模板的置信度评分,其中所述特征参数包括以下所列的至少一种:
得到该候选需求模板的所有种子query的权值平均值、根据该候选需求模板所包含固定词个数的评分、根据该候选需求模板是否包含命名实体类型标记的评分以及根据该候选需求模板包含被替换n-gram个数的评分。
14.一种搜索需求识别的装置,其特征在于,该装置包括:
请求获取单元,用于接收待识别query;
模板匹配单元,用于将所述待识别query分别与各需求类型的需求分析模板进行匹配,确定匹配成功的需求分析模板对应的需求类型为所述待识别query的需求类型;s
其中所述各需求类型的需求分析模板是由权利要求8、9、10、11或12所述的装置建立的。
CN2011102667995A 2011-09-09 2011-09-09 建立需求分析模板的方法、搜索需求识别的方法及装置 Pending CN102999496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102667995A CN102999496A (zh) 2011-09-09 2011-09-09 建立需求分析模板的方法、搜索需求识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102667995A CN102999496A (zh) 2011-09-09 2011-09-09 建立需求分析模板的方法、搜索需求识别的方法及装置

Publications (1)

Publication Number Publication Date
CN102999496A true CN102999496A (zh) 2013-03-27

Family

ID=47928077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102667995A Pending CN102999496A (zh) 2011-09-09 2011-09-09 建立需求分析模板的方法、搜索需求识别的方法及装置

Country Status (1)

Country Link
CN (1) CN102999496A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077320A (zh) * 2013-03-29 2014-10-01 北京百度网讯科技有限公司 一种用于生成待发布信息的方法和装置
US9529856B2 (en) 2013-06-03 2016-12-27 Google Inc. Query suggestion templates
CN107203501A (zh) * 2016-03-16 2017-09-26 航天信息软件技术有限公司 一种信息发布方法及装置
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1194416A (zh) * 1997-09-29 1998-09-30 毕福君 一种多元置信度适配***及其相关方法
US20040243568A1 (en) * 2000-08-24 2004-12-02 Hai-Feng Wang Search engine with natural language-based robust parsing of user query and relevance feedback learning
CN1578955A (zh) * 2001-09-04 2005-02-09 国际商业机器公司 关联规则数据挖掘所用的采样方法
CN1750121A (zh) * 2004-09-16 2006-03-22 北京中科信利技术有限公司 一种基于语音识别及语音分析的发音评估方法
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN101853308A (zh) * 2010-06-11 2010-10-06 中兴通讯股份有限公司 一种个性化元搜索的方法及其应用终端
CN102129422A (zh) * 2010-01-14 2011-07-20 富士通株式会社 模板提取方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1194416A (zh) * 1997-09-29 1998-09-30 毕福君 一种多元置信度适配***及其相关方法
US20040243568A1 (en) * 2000-08-24 2004-12-02 Hai-Feng Wang Search engine with natural language-based robust parsing of user query and relevance feedback learning
CN1578955A (zh) * 2001-09-04 2005-02-09 国际商业机器公司 关联规则数据挖掘所用的采样方法
CN1750121A (zh) * 2004-09-16 2006-03-22 北京中科信利技术有限公司 一种基于语音识别及语音分析的发音评估方法
CN101055587A (zh) * 2007-05-25 2007-10-17 清华大学 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN102129422A (zh) * 2010-01-14 2011-07-20 富士通株式会社 模板提取方法和装置
CN101853308A (zh) * 2010-06-11 2010-10-06 中兴通讯股份有限公司 一种个性化元搜索的方法及其应用终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
明悦: "语音识别与评测在汉语学习中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李尘一: "基于联合得分的语音置信度评估***的研究与设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077320A (zh) * 2013-03-29 2014-10-01 北京百度网讯科技有限公司 一种用于生成待发布信息的方法和装置
US9529856B2 (en) 2013-06-03 2016-12-27 Google Inc. Query suggestion templates
TWI650654B (zh) * 2013-06-03 2019-02-11 谷歌有限責任公司 查詢建議模板
US10635717B2 (en) 2013-06-03 2020-04-28 Google Llc Query suggestion templates
CN107203501A (zh) * 2016-03-16 2017-09-26 航天信息软件技术有限公司 一种信息发布方法及装置
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107832414B (zh) * 2017-11-07 2021-10-22 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置

Similar Documents

Publication Publication Date Title
CN101681251B (zh) 从文档到排名短语的语义分析
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103729359A (zh) 一种推荐搜索词的方法及***
CN103577549A (zh) 一种基于微博标签的人群画像***和方法
CN110704743A (zh) 一种基于知识图谱的语义搜索方法及装置
CN105117398B (zh) 一种基于众包的软件开发问题自动应答方法
CN106528693A (zh) 面向个性化学习的教育资源推荐方法及***
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN105653671A (zh) 相似信息推荐方法及***
CN103294778A (zh) 一种推送资讯信息的方法及***
CN104111941A (zh) 信息展示的方法及设备
CN102722498A (zh) 搜索引擎及其实现方法
CN103020066A (zh) 一种识别搜索需求的方法和装置
CN105808541B (zh) 一种信息匹配处理方法和装置
CN103927309A (zh) 一种对业务对象标注信息标签的方法及装置
CN104715063A (zh) 搜索排序方法和装置
CN103942198A (zh) 用于挖掘意图的方法和设备
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
US20130110594A1 (en) Ad copy determination
CN105243053B (zh) 提取文档关键句的方法及装置
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN102999496A (zh) 建立需求分析模板的方法、搜索需求识别的方法及装置
CN103020083A (zh) 需求识别模板的自动挖掘方法、需求识别方法及对应装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130327

RJ01 Rejection of invention patent application after publication