CN102999520B - 一种搜索需求识别的方法和装置 - Google Patents

一种搜索需求识别的方法和装置 Download PDF

Info

Publication number
CN102999520B
CN102999520B CN201110273327.2A CN201110273327A CN102999520B CN 102999520 B CN102999520 B CN 102999520B CN 201110273327 A CN201110273327 A CN 201110273327A CN 102999520 B CN102999520 B CN 102999520B
Authority
CN
China
Prior art keywords
query
search results
demand type
gram
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110273327.2A
Other languages
English (en)
Other versions
CN102999520A (zh
Inventor
黄际洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110273327.2A priority Critical patent/CN102999520B/zh
Publication of CN102999520A publication Critical patent/CN102999520A/zh
Application granted granted Critical
Publication of CN102999520B publication Critical patent/CN102999520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种搜索需求识别的方法和装置,其中方法包括:S1、获取待识别query;S2、获取所述待识别query的搜索结果,确定搜索结果文本的各n元词组(n-gram)并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到所述待识别query的核心词向量;S3、分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定所述待识别query的需求类型。通过本发明能够提高搜索需求识别的准确性。

Description

一种搜索需求识别的方法和装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种搜索需求识别的方法和装置。
【背景技术】
随着互联网在全球范围内的迅速发展与成熟,网络上的信息资源不断丰富,信息数据量也在飞速膨胀,通过搜索引擎获取信息已经成为现代人获取信息的主要方式。为了向用户提供更加便捷、准确的查询服务是搜索引擎技术在当今和未来的发展方向。
在搜索引擎技术中,对用户的搜索需求进行识别是提高搜索准确性和有效性的重要一环,特别在结构化搜索中作用显著。现有的搜索需求识别方式通常采用将query与各需求类型的核心词向量分别计算相似度,根据相似度计算结果确定query的需求类型。例如将相似度排在前N个的需求类型识别为该query的需求类型,或者,根据相似度的值,确定该query在各需求类型的需求等级。但由于query本身较短,可用信息不多,如果仅仅依赖query直接计算query与需求类型的核心词向量之间的相似度,可能会导致语义相似度偏差较大,从而造成搜索需求识别的准确性。
【发明内容】
本发明提供了一种搜索需求识别的方法和装置,以便于提高搜索需求识别的准确性。
具体技术方案如下:
一种搜索需求识别的方法,该方法包括:
S1、获取待识别query;
S2、获取所述待识别query的搜索结果,确定搜索结果文本的各n元词组n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到所述待识别query的核心词向量;
S3、分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定所述待识别query的需求类型。
根据本发明一优选实施例,步骤S2中获取所述待识别query的搜索结果为:获取所述待识别query的搜索结果中排在前N1个的搜索结果,所述N1为预设的正整数。
根据本发明一优选实施例,步骤S2中所述基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重具体包括:
根据n-gram在搜索结果文本中的词频TF以及对应n值为n-gram赋予权重;或者,
根据n-gram在搜索结果文本中出现的句子数、与待识别query共现的句子数、待识别query在搜索结果文本中出现的句子数以及n-gram的逆向文档频率IDF为n-gram赋予权重。
根据本发明一优选实施例,所述搜索结果文本包括:搜索结果的网页标题,或者搜索结果的网页中包含所述待识别query的句子。
根据本发明一优选实施例,确定需求类型的核心词向量包括:
S31、确定该需求类型的种子query集合;
S32、利用种子query集合中的各种子query进行搜索,从搜索结果文本中抽取核心词并基于核心词在搜索结果文本中的出现状况确定各核心词的权重,得到该需求类型的核心词向量。
根据本发明一优选实施例,需求类型的种子query集合的确定方式包括:
通过人工的方式配置;或者
采用人工的方式在搜索日志中标注;或者,
从该需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query构成该需求类型的种子query集合;或者,
从该需求类型的网页搜索的搜索日志中,获取对应于点击了该需求类型的网站或点击了包含该需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成该需求类型的种子query集合。
根据本发明一优选实施例,所述步骤S32具体包括:
利用该需求类型的种子query集合中的各种子query进行搜索,确定搜索结果文本中的各n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到该需求类型的核心词向量;或者,
利用该需求类型的种子query集合中的各种子query进行搜索,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后所得到各词语的TF,确定TF高于预设词频阈值的词语并基于词频为各词语确定权重,得到该需求类型的核心词向量;或者,
利用该需求类型的种子query集合中的各种子query进行搜索,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后得到的各词语的TF和IDF,确定TF-IDF值高于预设TF-IDF阈值的词语并基于TF-IDF为确定的各词语确定权重,得到该需求类型的核心词向量;或者,
利用该需求类型的种子query集合中的各种子query进行搜索,对搜索结果文本进行分词处理和去除停用词后,根据去除停用词后得到的各词语在搜索结果文本中出现的句子数、各词语与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及各词语的IDF分别为各词语赋予权重,选择权重值高于预设权重阈值的词语,得到该需求类型的核心词向量。
根据本发明一优选实施例,所述基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重包括:
根据各n-gram在搜索结果文本中的TF以及对应n值为各n-gram赋予权重;或者,
根据n-gram在搜索结果文本中出现的句子数、n-gram与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及n-gram的IDF为n-gram赋予权重。
根据本发明一优选实施例,步骤S3中所述根据相似度的计算结果确定所述待识别query的需求类型包括:
将相似度值排在前N2个的需求类型或者相似度值超过预设相似度阈值的需求类型确定为所述待识别query的需求类型,所述N2为预设的正整数;或者,
按照预设的相似度值与相似度等级之间的对应关系,确定所述步骤S3中计算的相似度值对应的相似度等级为所述待识别query在对应需求类型的需求等级。
一种搜索需求识别的装置,该装置包括:
识别对象获取单元,用于获取待识别query;
第一向量确定单元,用于获取所述待识别query的搜索结果,确定搜索结果文本的各n元词组n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到所述待识别query的核心词向量;
需求类型确定单元,用于分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定所述待识别query的需求类型。
根据本发明一优选实施例,所述第一向量确定单元在获取所述待识别query的搜索结果时,具体获取所述待识别query的搜索结果中排在前N1个的搜索结果,所述N1为预设的正整数。
根据本发明一优选实施例,所述第一向量确定单元在确定各n-gram的权重时,根据n-gram在搜索结果文本中的词频TF以及对应n值为n-gram赋予权重;或者,
根据n-gram在搜索结果文本中出现的句子数、与待识别query共现的句子数、待识别query在搜索结果文本中出现的句子数以及n-gram的逆向文档频率IDF为n-gram赋予权重。
根据本发明一优选实施例,所述搜索结果文本包括:搜索结果的网页标题,或者搜索结果的网页中包含所述待识别query的句子。
根据本发明一优选实施例,该装置还包括:第二向量确定单元;
所述第二向量确定单元具体包括:
种子query确定子单元,用于确定需求类型的种子query集合;
核心词向量形成子单元,用于获取种子query集合中的各种子query的搜索结果,从搜索结果文本中抽取核心词并基于核心词在搜索结果文本中的出现状况确定各核心词的权重,得到该需求类型的核心词向量。
根据本发明一优选实施例,所述种子query确定子单元获取通过人工的方式配置的需求类型的种子query集合;或者,
获取采用人工的方式在搜索日志中标注的需求类型的种子query集合;或者,
从需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query构成该需求类型的种子query集合;或者,
从需求类型的网页搜索的搜索日志中,获取对应于点击了该需求类型的网站或点击了包含该需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成该需求类型的种子query集合。
根据本发明一优选实施例,所述核心词向量形成子单元获取该需求类型的种子query集合中的各种子query的搜索结果,确定搜索结果文本中的各n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到该需求类型的核心词向量;或者,
获取该需求类型的种子query集合中的各种子query的搜索结果,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后所得到各词语的TF,确定TF高于预设词频阈值的词语并基于词频为各词语确定权重,得到该需求类型的核心词向量;或者,
获取该需求类型的种子query集合中的各种子query的搜索结果,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后得到的各词语的TF和IDF,确定TF-IDF值高于预设TF-IDF阈值的词语并基于TF-IDF为确定的各词语确定权重,得到该需求类型的核心词向量;或者,
获取该需求类型的种子query集合中的各种子query的搜索结果,对搜索结果文本进行分词处理和去除停用词后,根据去除停用词后得到的各词语在搜索结果文本中出现的句子数、各词语与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及各词语的IDF分别为各词语赋予权重,选择权重值高于预设权重阈值的词语,得到该需求类型的核心词向量。
根据本发明一优选实施例,所述核心词向量形成子单元在基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重时,具体根据各n-gram在搜索结果文本中的TF以及对应n值为各n-gram赋予权重;或者,
根据n-gram在搜索结果文本中出现的句子数、n-gram与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及n-gram的IDF为n-gram赋予权重。
根据本发明一优选实施例,所述需求类型确定单元将相似度值排在前N2个的需求类型或者相似度值超过预设相似度阈值的需求类型确定为所述待识别query的需求类型,所述N2为预设的正整数;或者,
按照预设的相似度值与相似度等级之间的对应关系,确定计算的相似度值对应的相似度等级为所述待识别query在对应需求类型的需求等级。
由以上技术方案可以看出,本发明采用待识别query的搜索结果文本的n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到待识别query的核心词向量,利用得到的待识别query的核心词向量进一步计算与各需求类型的核心词向量的相似度,从而识别待识别query的需求类型。可见,本发明利用了相比较待识别query本身更加丰富的信息,即待识别query的搜索结果文本的n-gram,更加充分地表达待识别query的语义,从而提高搜索需求识别的准确性。
【附图说明】
图1为本发明实施例一提供的方法流程图;
图2为本发明实施例一提供的包含待识别query的句子的网页示意图;
图3为本发明实施例二提供的装置结构图;
图4为本发明实施例提供的搜索需求识别用于大搜索排序的实例图;
图5为本发明实施例提供的搜索需求识别用于垂直搜索的实例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:获取待识别query。
步骤102:获取该待识别query的搜索结果,确定搜索结果的文本中的各n元词组(n-gram)并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到待识别query的核心词向量。
由于通常基于query的搜索结果是与query存在较大相关性的,因此,在本步骤中利用待识别query进行搜索后得到的搜索结果进行核心词向量的提取。
另外,搜索引擎在针对待识别query进行搜索时,搜索结果是按照与待识别query的相关性进行排序的,因此,为了提高效率,减少计算量,可以选取排在前N1个的搜索结果,从该前N1个搜索结果的文本中确定n-gram,其中N1为预设的正整数。
由于搜索结果的页面中可能存在大量信息,很多可能是与待识别query在语义上相关性较小的,因此,在确定n-gram时利用的搜索结果的文本可以是:网页标题或者网页中包含该待识别query的句子。
以从网页中包含待识别query的句子为例,假设待识别query为“家常菜”,在利用该待识别query进行搜索后,假设返回的其中一个搜索结果如图2所示,网页中包含待识别query的句子为:
家常菜_家常菜的做法_家常菜菜谱_学做家常菜_菜谱大全
家常菜是我们生活中必不可少的
家常菜的做法多样,如东北家常菜,郭林家常菜等,学做家常菜菜谱怎么最简单呢
美食杰为您提供丰富简单家常菜菜谱大全
然后从以上四个句子中确定n-gram。
所谓n-gram就是最小粒度的n个词语按顺序出现的组合,其中n为预设的一个或多个正整数。以“家常菜是我们生活中必不可少的”为例,如果n为1、2、3或4,那么得到的n-gram为:
1-gram:家常菜、是、我们、生活、中、必不可少
2-gram:家常菜是、是我们、我们生活、生活中、中必不可少
3-gram:家常菜是我们、是我们生活、我们生活中、生活中必不可少
4-gram:家常菜是我们生活、是我们生活中、我们生活中必不可少
其中“的”作为停用词在确定n-gram的过程中被过滤掉。
在确定各n-gram的权重时,可以包括但不限于以下两种方式:
方式一、根据各n-gram在搜索结果文本中的词频(TF)以及对应n值为各n-gram赋予权重。通常n-gram在搜索结果文本中的TF越高,说明该n-gram的重要程度越高,并且,n值越大,该n-gram包含的信息量越大,相应权值也应该越高,因此,在该方式中可以采用TF*n为n-gram赋予权重。
方式二、根据n-gram在搜索结果文本中出现的句子数、与待识别query共现的句子数、待识别query在搜索结果文本中出现的句子数以及n-gram的逆向文档频率(IDF)为n-gram赋予权重。该方式以信息论为基础,公式可以如公式(1)所示。
Centrality ( w ) = log ( Co ( w , q ) + 1 ) log ( sf ( w ) + 1 ) + log ( sf ( q ) + 1 ) × log ( idf ( w ) + 1 ) ; - - - ( 1 )
其中,w为n-gram,q为待识别query,Centrality(w)为n-gram的权重,Co(w,q)为n-gram与待识别query共现的句子数,sf(w)为n-gram在搜索结果文本中出现的句子数,sf(q)为待识别query在搜索结果文本中出现的句子数,idf(w)为n-gram的逆向文档频率。
需要说明的是,上述公式(1)仅是本发明实施例给出的一个实例,依据该公式所做的简单修改和等同替换不再一一列举,均在本发明的限定范围内。
步骤103:分别计算待识别query的核心词向量与各需求类型的核心词向量的相似度,根据相似度的计算结果确定待识别query的需求类型。
在本发明中预先确定出各需求类型的核心词向量,该需求类型的核心词向量确定方法可以为:确定该需求类型的种子query集合;利用种子query集合中的各种子query进行搜索,从搜索结果的文本中抽取核心词并基于核心词在搜索结果文本中的出现状况确定各核心词的权重,得到该需求类型的核心词向量。
构成需求类型的种子query集合的种子query体现出对应预设类型的需求,这些种子query集合可以通过人工的方式配置,或者采用人工的方式在搜索日志中标注。较优地,也可以从搜索日志中挖掘种子query,例如从该需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query作为该需求类型的种子query,或者,从该需求类型的网页搜索的搜索日志中,获取对应于点击了该需求类型的网站或点击了包含该需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query作为该需求类型的种子query,等等。
例如,游戏类的种子query集合中的种子query可以包含:“单机版手机小游戏下载”、“宝捷迅lp608***下载”、“魔兽世界下载”、“魔兽世界”等。
利用各种子query集合中的各种子query进行搜索后,抽取核心词的方式可以采用以下几种:
第一种方式:确定搜索结果的文本中的各n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到该需求类型的核心词向量。
由于搜索引擎在针对种子query的搜索结果进行排序时,通常是按照与种子query的相关性进行排序的,因此,为了提高效率,减少计算量,可以选取排在前N3个的搜索结果,从该前N3个搜索结果的文本中确定n-gram,其中N3为预设的正整数。
由于搜索结果的页面中可能存在大量信息,很多可能是与种子query在语义上相关性较小的,因此,在确定n-gram时利用的搜索结果的文本可以是:网页标题或者网页中包含该种子query的句子,以下几种方式中均是如此,不再赘述。
在确定各n-gram的权重时,可以包括但不限于以下两种方式:
方式1、根据各n-gram在搜索结果文本中的TF以及对应n值为各n-gram赋予权重。通常n-gram在搜索结果文本中的TF越高,说明该n-gram的重要程度越高,并且,n值越大,该n-gram包含的信息量越大,相应权值也应该越高,因此,在该方式中可以采用TF*n为n-gram赋予权重。
方式2、根据n-gram在搜索结果文本中出现的句子数、与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及n-gram的IDF为n-gram赋予权重。该方式以信息论为基础,公式可以如公式(2)所示。
Centrality ( w ) = log ( Co ( w , q ) + 1 ) log ( sf ( w ) + 1 ) + log ( sf ( q ) + 1 ) × log ( idf ( w ) + 1 ) ; - - - ( 2 )
其中,w为n-gram,q为对应的种子query,Centrality(w)为n-gram的权重,Co(w,q)为n-gram与该种子query共现的句子数,sf(w)为n-gram在搜索结果文本中出现的句子数,sf(q)为该种子query在搜索结果文本中出现的句子数,idf(w)为n-gram的逆向文档频率。
需要说明的是,上述公式(2)仅是本发明实施例给出的一个实例,依据该公式所做的简单修改和等同替换不再一一列举,均在本发明的限定范围内。
第二种方式:对搜索结果的文本进行分词处理和去除停用词后,统计去除停用词后得到各词语的词频,确定词频高于预设词频阈值的词语并基于词频为确定的各词语确定权重,得到该需求类型的核心词向量。
其中,词频越高词语对应的权重越大。
第三种方式:对搜索结果的文本进行分词和去除停用词后,统计去除停用词后得到的各词语的TF和IDF,确定TF-IDF值高于预设TF-IDF阈值的词语并基于TF-IDF为确定的各词语确定权重,得到该需求类型的核心词向量。
其中,TF-IDF值越大词语对应的权重越大。
第四种方式:对搜索结果的文本进行分词和去除停用词后,根据去除停用词后得到的各词语在搜索结果文本中出现的句子数、与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及各词语的IDF为各词语赋予权重,选择权重值高于预设权重阈值的词语,得到该需求类型的核心词向量。
权重值的计算公式如公式(3)所示。
Centrality ( w ) = log ( Co ( w , q ) + 1 ) log ( sf ( w ) + 1 ) + log ( sf ( q ) + 1 ) × log ( idf ( w ) + 1 ) ; - - - ( 3 )
其中,w为去除停用词后得到的词语,q为对应的种子query,Centrality(w)为词语w的权重,Co(w,q)为词语w与该种子query共现的句子数,sf(w)为词语w在搜索结果文本中出现的句子数,sf(q)为该种子query在搜索结果文本中出现的句子数,idf(w)为词语w的逆向文档频率。
在计算待识别query的核心词向量和需求类型的核心词向量时,可以采用余弦相似度的计算方法。表1为以几个待识别query为例与各需求类型相似度。
表1
待识别query 与游戏类相似度 与软件类相似度 与小说类相似度
网游之修罗传说 0.0026 0 0.4431
地下城与勇士的小说 0.0050 0.0001 0.3467
地下城与勇士中剧情任务 0.3616 0.0128 0
剑侠情缘单机版3攻略 0.1631 0 0.0063
剑侠情缘全文阅读步非烟 0 0 0.1205
确定出相似度后,可以将相似度值排在前N2个的需求类型,或者相似度值超过预设相似度阈值的需求类型识别为待识别query的需求类型,其中N2为预设的正整数。例如表1中所示的状况,假设N2为1,则可以识别出“地下城与勇士的小说”为小说类需求,“剑侠情缘单机版3攻略”为游戏类需求。
也可以按照预设的相似度值与相似度等级之间的对应关系,根据待识别query的核心词向量与各需求类型的核心词向量的相似度的值,识别出待识别query在各需求类型的需求等级。例如,预先设置相似度在0.3以上的为强需求等级,相似度在0.1至0.3之间的为弱需求等级,相似度在0.1以下为无需求等级。则表1中,“地下城与勇士的小说”在小说类需求上具有强需求,在游戏类和软件类上无需求;“剑侠情缘单机版3攻略”在游戏类上具有弱需求,在软件类和小说类上无需求。
以上是对本发明所提供的搜索需求识别的方法进行的详细描述,下面通过实施例二对本发明提供的搜索需求识别的装置进行详细描述。
实施例二、
图3为本发明实施例二提供的装置结构图,如图3所示,该装置可以包括:识别对象获取单元300、第一向量确定单元310以及需求类型确定单元320。
识别对象获取单元300获取待识别query。
第一向量确定单元310获取待识别query的搜索结果,确定搜索结果文本的各n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到待识别query的核心词向量。
由于通常基于query的搜索结果是与query存在较大相关性的,因此第一向量确定单元310可以将待识别query提供给搜索引擎,获取搜索引擎返回的搜索结果并进一步用于提取待识别query的核心词向量。
搜索引擎在针对待识别query进行搜索时,搜索结果是按照与待识别query的相关性进行排序的,因此,为了提高效率,减少计算量,第一向量确定单元310在获取待识别query的搜索结果时,具体获取待识别query的搜索结果中排在前N1个的搜索结果,其中N1为预设的正整数。
第一向量确定单元310在确定各n-gram的权重时,可以采用以下两种方式:
第一种方式:根据n-gram在搜索结果文本中的TF以及对应n值为n-gram赋予权重。通常n-gram在搜索结果文本中的TF越高,说明该n-gram的重要程度越高,并且,n值越大,该n-gram包含的信息量越大,相应权值也应该越高,因此,在该方式中可以采用TF*n为n-gram赋予权重。
第二种方式:根据n-gram在搜索结果文本中出现的句子数、与待识别query共现的句子数、待识别query在搜索结果文本中出现的句子数以及n-gram的IDF为n-gram赋予权重。该方式以信息论为基础,公式可以如实施例一中的公式(1)所示,在此不再赘述。
由于搜索结果的页面中可能存在大量信息,很多是与待识别query在语义上相关性较小的,因此,上述搜索结果文本可以包括:搜索结果的网页标题,或者搜索结果的网页中包含待识别query的句子。
需求类型确定单元320分别计算待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定待识别query的需求类型。
由于需要预先确定各需求类型的核心词向量,因此,该装置还可以包括:第二向量确定单元330。
第二向量确定单元330可以具体包括:种子query确定子单元331和核心词向量形成子单元332。
种子query确定子单元331确定需求类型的种子query集合。具体地,可以通过以下方式获取:
第一种方式:获取通过人工的方式配置的需求类型的种子query集合。
第二种方式:获取采用人工的方式在搜索日志中标注的需求类型的种子query集合。
第三种方式:从需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query构成该需求类型的种子query集合。
第四种方式:从需求类型的网页搜索的搜索日志中,获取对应于点击了该需求类型的网站或点击了包含该需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成该需求类型的种子query集合。
核心词向量形成子单元332获取种子query集合中的各种子query的搜索结果,从搜索结果文本中抽取核心词并基于核心词在搜索结果文本中的出现状况确定各核心词的权重,得到该需求类型的核心词向量。即核心词向量形成子单元332将各种子query分别提供给搜索引擎进行搜索后,获取搜索引擎返回的搜索结果。
具体地,核心词向量形成子单元332可以采用以下四种方式得到该需求类型的核心词向量:
方式一、获取该需求类型的种子query集合中的各种子query的搜索结果,确定搜索结果文本中的各n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到该需求类型的核心词向量。
其中,在基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重时,具体可以根据各n-gram在搜索结果文本中的TF以及对应n值为各n-gram赋予权重;或者,根据n-gram在搜索结果文本中出现的句子数、n-gram与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及n-gram的IDF为n-gram赋予权重,具体可以采用实施例一中的公式(2),在此不再赘述。
方式二、获取该需求类型的种子query集合中的各种子query的搜索结果,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后所得到各词语的TF,确定TF高于预设词频阈值的词语并基于词频为各词语确定权重,得到该需求类型的核心词向量。其中,词频越高词语对应的权重越大。
方式三、获取该需求类型的种子query集合中的各种子query的搜索结果,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后得到的各词语的TF和IDF,确定TF-IDF值高于预设TF-IDF阈值的词语并基于TF-IDF为确定的各词语确定权重,得到该需求类型的核心词向量。其中,TF-IDF值越大词语对应的权重越大。
方式四、获取该需求类型的种子query集合中的各种子query的搜索结果,对搜索结果文本进行分词处理和去除停用词后,根据去除停用词后得到的各词语在搜索结果文本中出现的句子数、各词语与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及各词语的IDF分别为各词语赋予权重,选择权重值高于预设权重阈值的词语,得到该需求类型的核心词向量。为各词语赋予权重时可以采用实施例一中的公式(3),在此不再赘述。
在确定出相似度后,需求类型确定单元320可以将相似度值排在前N2个的需求类型或者相似度值超过预设相似度阈值的需求类型确定为待识别query的需求类型,N2为预设的正整数;或者,按照预设的相似度值与相似度等级之间的对应关系,确定计算的相似度值对应的相似度等级为待识别query在对应需求类型的需求等级。
在采用本发明实施例提供的上述方法或装置识别出需求类型后,可以用于但不限于以下应用场景:
1)用于大搜索的排序。用户输入query后,通过本发明实施例的上述方法和装置能够识别出该query的需求类型,将大搜索的搜索结果中对应该query的需求类型的页面排序提前。
例如,当用户输入query“家常菜高清”时,能够在大搜索中识别出该query具有视频类需求,在针对该大搜索的结果页面中会存在“家常菜”这部电视剧的相关视频信息,该部分视频信息的得到可以是视频垂直搜索提供并***大搜索的搜索结果中的,这样在大搜索的搜索结果中,可以将该视频类的页面排在搜索结果的前面,如图4所示,使得用户的满意度及搜索体验都将得到极大的提升。
2)用于垂直搜索。用户输入query后,通过本发明实施例的上述方法和装置能够识别出该query的需求类型,将该query分配给最优的内容资源或应用提供商处理,最终精确高效地返回给用户相匹配的结果。
例如,而当用户输入“从百度大厦到五道口”时,能够识别出该query具有地图类需求,将该query提供给地图垂直搜索,由地图垂直搜索进行公交路线的计算,然后直接展示从百度大厦到五道口的公交出行地图与相关公交车信息,如图5所示。
3)用于信息推荐。用户输入query后,通过本发明实施例的上述方法和装置能够识别出该query的需求类型,基于该需求类型对用户进行信息推荐,诸如广告推荐、知识问答平台的推荐、query推荐等。
例如,用户输入query“便宜的MP3播放器”识别出其需求类型为购物类,则可以在搜索结果推荐与MP3播放器相关的广告,这样广告与用户的实际需求匹配度就很高。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种搜索需求识别的方法,其特征在于,该方法包括:
S1、获取待识别query;
S2、获取所述待识别query的搜索结果,确定搜索结果文本的各n元词组n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到所述待识别query的核心词向量;
其中,所述基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重具体包括:
根据n-gram在搜索结果文本中的词频TF以及对应n值为n-gram赋予权重;或者,
根据n-gram在搜索结果文本中出现的句子数、与待识别query共现的句子数、待识别query在搜索结果文本中出现的句子数以及n-gram的逆向文档频率IDF为n-gram赋予权重;
S3、分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定所述待识别query的需求类型。
2.根据权利要求1所述的方法,其特征在于,步骤S2中获取所述待识别query的搜索结果为:获取所述待识别query的搜索结果中排在前N1个的搜索结果,所述N1为预设的正整数。
3.根据权利要求1或2所述的方法,其特征在于,所述搜索结果文本包括:搜索结果的网页标题,或者搜索结果的网页中包含所述待识别query的句子。
4.根据权利要求1所述的方法,其特征在于,确定需求类型的核心词向量包括:
S31、确定该需求类型的种子query集合;
S32、利用种子query集合中的各种子query进行搜索,从搜索结果文本中抽取核心词并基于核心词在搜索结果文本中的出现状况确定各核心词的权重,得到该需求类型的核心词向量。
5.根据权利要求4所述的方法,其特征在于,需求类型的种子query集合的确定方式包括:
通过人工的方式配置;或者
采用人工的方式在搜索日志中标注;或者,
从该需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query构成该需求类型的种子query集合;或者,
从该需求类型的网页搜索的搜索日志中,获取对应于点击了该需求类型的网站或点击了包含该需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成该需求类型的种子query集合。
6.根据权利要求4所述的方法,其特征在于,所述步骤S32具体包括:
利用该需求类型的种子query集合中的各种子query进行搜索,确定搜索结果文本中的各n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到该需求类型的核心词向量;或者,
利用该需求类型的种子query集合中的各种子query进行搜索,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后所得到各词语的TF,确定TF高于预设词频阈值的词语并基于词频为各词语确定权重,得到该需求类型的核心词向量;或者,
利用该需求类型的种子query集合中的各种子query进行搜索,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后得到的各词语的TF和IDF,确定TF-IDF值高于预设TF-IDF阈值的词语并基于TF-IDF为确定的各词语确定权重,得到该需求类型的核心词向量;或者,
利用该需求类型的种子query集合中的各种子query进行搜索,对搜索结果文本进行分词处理和去除停用词后,根据去除停用词后得到的各词语在搜索结果文本中出现的句子数、各词语与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及各词语的IDF分别为各词语赋予权重,选择权重值高于预设权重阈值的词语,得到该需求类型的核心词向量。
7.根据权利要求6所述的方法,其特征在于,在步骤S32中,所述基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重包括:
根据各n-gram在搜索结果文本中的TF以及对应n值为各n-gram赋予权重;或者,
根据n-gram在搜索结果文本中出现的句子数、n-gram与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及n-gram的IDF为n-gram赋予权重。
8.根据权利要求1所述的方法,其特征在于,步骤S3中所述根据相似度的计算结果确定所述待识别query的需求类型包括:
将相似度值排在前N2个的需求类型或者相似度值超过预设相似度阈值的需求类型确定为所述待识别query的需求类型,所述N2为预设的正整数;或者,
按照预设的相似度值与相似度等级之间的对应关系,确定所述步骤S3中计算的相似度值对应的相似度等级为所述待识别query在对应需求类型的需求等级。
9.一种搜索需求识别的装置,其特征在于,该装置包括:
识别对象获取单元,用于获取待识别query;
第一向量确定单元,用于获取所述待识别query的搜索结果,确定搜索结果文本的各n元词组n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到所述待识别query的核心词向量;
其中,所述第一向量确定单元在确定各n-gram的权重时,根据n-gram在搜索结果文本中的词频TF以及对应n值为n-gram赋予权重;或者,
根据n-gram在搜索结果文本中出现的句子数、与待识别query共现的句子数、待识别query在搜索结果文本中出现的句子数以及n-gram的逆向文档频率IDF为n-gram赋予权重;
需求类型确定单元,用于分别计算所述待识别query的核心词向量与预先确定的各需求类型的核心词向量之间的相似度,根据相似度的计算结果确定所述待识别query的需求类型。
10.根据权利要求9所述的装置,其特征在于,所述第一向量确定单元在获取所述待识别query的搜索结果时,具体获取所述待识别query的搜索结果中排在前N1个的搜索结果,所述N1为预设的正整数。
11.根据权利要求9或10所述的装置,其特征在于,所述搜索结果文本包括:搜索结果的网页标题,或者搜索结果的网页中包含所述待识别query的句子。
12.根据权利要求9所述的装置,其特征在于,该装置还包括:第二向量确定单元;
所述第二向量确定单元具体包括:
种子query确定子单元,用于确定需求类型的种子query集合;
核心词向量形成子单元,用于获取种子query集合中的各种子query的搜索结果,从搜索结果文本中抽取核心词并基于核心词在搜索结果文本中的出现状况确定各核心词的权重,得到该需求类型的核心词向量。
13.根据权利要求12所述的装置,其特征在于,所述种子query确定子单元获取通过人工的方式配置的需求类型的种子query集合;或者,
获取采用人工的方式在搜索日志中标注的需求类型的种子query集合;或者,
从需求类型垂直搜索的搜索日志中获取搜索次数高于预设第一阈值的query构成该需求类型的种子query集合;或者,
从需求类型的网页搜索的搜索日志中,获取对应于点击了该需求类型的网站或点击了包含该需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query构成该需求类型的种子query集合。
14.根据权利要求12所述的装置,其特征在于,所述核心词向量形成子单元获取该需求类型的种子query集合中的各种子query的搜索结果,确定搜索结果文本中的各n-gram并基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重,得到该需求类型的核心词向量;或者,
获取该需求类型的种子query集合中的各种子query的搜索结果,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后所得到各词语的TF,确定TF高于预设词频阈值的词语并基于词频为各词语确定权重,得到该需求类型的核心词向量;或者,
获取该需求类型的种子query集合中的各种子query的搜索结果,对搜索结果文本进行分词处理和去除停用词后,统计去除停用词后得到的各词语的TF和IDF,确定TF-IDF值高于预设TF-IDF阈值的词语并基于TF-IDF为确定的各词语确定权重,得到该需求类型的核心词向量;或者,
获取该需求类型的种子query集合中的各种子query的搜索结果,对搜索结果文本进行分词处理和去除停用词后,根据去除停用词后得到的各词语在搜索结果文本中出现的句子数、各词语与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及各词语的IDF分别为各词语赋予权重,选择权重值高于预设权重阈值的词语,得到该需求类型的核心词向量。
15.根据权利要求14所述的装置,其特征在于,所述核心词向量形成子单元在基于各n-gram在搜索结果文本中的出现状况确定各n-gram的权重时,具体根据各n-gram在搜索结果文本中的TF以及对应n值为各n-gram赋予权重;或者,
根据n-gram在搜索结果文本中出现的句子数、n-gram与对应种子query共现的句子数、种子query在搜索结果文本中出现的句子数以及n-gram的IDF为n-gram赋予权重。
16.根据权利要求9所述的装置,其特征在于,所述需求类型确定单元将相似度值排在前N2个的需求类型或者相似度值超过预设相似度阈值的需求类型确定为所述待识别query的需求类型,所述N2为预设的正整数;或者,
按照预设的相似度值与相似度等级之间的对应关系,确定计算的相似度值对应的相似度等级为所述待识别query在对应需求类型的需求等级。
CN201110273327.2A 2011-09-15 2011-09-15 一种搜索需求识别的方法和装置 Active CN102999520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110273327.2A CN102999520B (zh) 2011-09-15 2011-09-15 一种搜索需求识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110273327.2A CN102999520B (zh) 2011-09-15 2011-09-15 一种搜索需求识别的方法和装置

Publications (2)

Publication Number Publication Date
CN102999520A CN102999520A (zh) 2013-03-27
CN102999520B true CN102999520B (zh) 2016-04-27

Family

ID=47928094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110273327.2A Active CN102999520B (zh) 2011-09-15 2011-09-15 一种搜索需求识别的方法和装置

Country Status (1)

Country Link
CN (1) CN102999520B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794251B (zh) * 2015-05-19 2018-04-27 苏州工讯科技有限公司 基于搜索结果效用分析的工业产品垂直搜索引擎排列方法
CN106951422B (zh) * 2016-01-07 2021-05-28 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN107092621A (zh) * 2016-11-24 2017-08-25 北京小度信息科技有限公司 信息搜索方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820592A (zh) * 2009-02-27 2010-09-01 华为技术有限公司 移动搜索方法及装置
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011079415A1 (en) * 2009-12-30 2011-07-07 Google Inc. Generating related input suggestions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820592A (zh) * 2009-02-27 2010-09-01 华为技术有限公司 移动搜索方法及装置
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
拟合用户偏好的个性化搜索;桑艳艳 等;《情报科学》;20080831;第26卷(第8期);第1249页 *

Also Published As

Publication number Publication date
CN102999520A (zh) 2013-03-27

Similar Documents

Publication Publication Date Title
CN102360383B (zh) 一种面向文本的领域术语与术语关系抽取方法
CN100557612C (zh) 一种基于搜索引擎的搜索结果排序方法及装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及***
CN105426539A (zh) 一种基于词典的lucene中文分词方法
CN102999521B (zh) 一种识别搜索需求的方法和装置
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN102591880A (zh) 信息提供方法及装置
CN103885937A (zh) 基于核心词相似度判断企业中文名称重复的方法
CN103294693A (zh) 搜索方法、服务器及***
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和***
CN102163234A (zh) 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN102200975A (zh) 一种利用语义分析的垂直搜索引擎***与方法
CN103020066A (zh) 一种识别搜索需求的方法和装置
Al-Taani et al. An extractive graph-based Arabic text summarization approach
CN105138558A (zh) 基于用户访问内容的实时个性化信息采集方法
CN103617213A (zh) 识别新闻网页属性特征的方法和***
KR101254362B1 (ko) 공통 접사를 이용한 키워드 순위를 제공하는 방법 및시스템
CN101383782A (zh) 一种获取网络资源标识的方法及***
CN105528432A (zh) 一种数字资源热点生成方法及装置
CN103970801A (zh) 微博广告博文识别方法及装置
CN104376115A (zh) 一种基于全局搜索的模糊词确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant