CN103902597B - 确定目标关键词所对应的搜索相关性类别的方法和设备 - Google Patents
确定目标关键词所对应的搜索相关性类别的方法和设备 Download PDFInfo
- Publication number
- CN103902597B CN103902597B CN201210581476.XA CN201210581476A CN103902597B CN 103902597 B CN103902597 B CN 103902597B CN 201210581476 A CN201210581476 A CN 201210581476A CN 103902597 B CN103902597 B CN 103902597B
- Authority
- CN
- China
- Prior art keywords
- keyword
- target
- routing information
- classification
- searching order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的是提供一种用于确定目标关键词所对应的搜索相关性类别的方法和设备。具体地,根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。与现有技术相比,本发明通过确定目标关键词所属的目标关键词聚类,进而所述目标关键词所对应的搜索相关性类别,以用于后续处理,从而实现了有效地确定关键词所对应的搜索相关性类别,及对批量关键词数据的自动化测试,不仅为优化搜索引擎搜索排序提供参考,而且提高了对搜索引擎相关性的测试效率。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于确定目标关键词所对应的搜索相关性类别的技术。
背景技术
当前,随着互联网技术的发展及互联网应用对用户学习、工作与生活的渗透,人们越来越多地通过网络获取信息,如通过搜索引擎输入关键词,搜索引擎通过采取一定搜索排序方式确定返回给用户与关键词相匹配的搜索结果,然而搜索引擎返回的搜索结果与用户输入的查询序列的匹配度在很大程度上影响了用户获取信息的准确度。相应地,若能提高搜索引擎返回的搜索结果与用户输入的查询序列的匹配度,将能够大幅提高用户获取信息的效率。因此,需要对搜索引擎的相关性进行有效的评估测试,如按照关键词与搜索结果的匹配程度对关键词进行分类,确定关键词所对应的搜索相关性类别,有效地确定关键词所对应的搜索相关性类别,并提高搜索引擎相关性的测试效率。
发明内容
本发明的目的是提供一种用于确定目标关键词所对应的搜索相关性类别的方法与设备。
根据本发明的一个方面,提供了一种用于确定目标关键词所对应的搜索相关性类别的方法,其中,该方法包括以下步骤:
a根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;
b根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。
根据本发明的另一个方面,还提供了一种用于确定目标关键词所对应的搜索相关性类别的类别确定设备,其中,该类别确定设备包括:
聚类确定装置,用于根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;
类别确定装置,用于根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。
根据本发明的再一个方面,还提供了一种计算机设备,其中,该计算机设备包括如前述根据本发明另一个方面的用于确定目标关键词所对应的搜索相关性类别的类别确定设备。
根据本发明的再一个方面,还提供了一种用于确定目标关键词所对应的搜索相关性类别的搜索引擎,其中,该搜索引擎包括如前述根据本发明另一个方面的用于确定目标关键词所对应的搜索相关性类别的类别确定设备。
根据本发明的再一个方面,还提供了一种用于确定目标关键词所对应的搜索相关性类别的搜索引擎插件,其中,该搜索引擎插件包括如前述根据本发明另一个方面的用于确定目标关键词所对应的搜索相关性类别的类别确定设备。
与现有技术相比,本发明通过确定目标关键词所属的目标关键词聚类,进而所述目标关键词所对应的搜索相关性类别,以用于后续处理,从而实现了有效地确定关键词所对应的搜索相关性类别,及对批量关键词数据的自动化测试,不仅为优化搜索引擎搜索排序提供参考,而且提高了对搜索引擎相关性的测试效率。而且,本发明还可确定目标关键词所对应的优选搜索排序路径信息,以调整所述目标关键词的搜索排序路径信息,从而进一步实现了优化搜索引擎搜索排序,提高用户信息获取效率。进一步地,本发明还可确定待优化关键词集合,确定所述一个或多个待优化关键词的优化搜索排序路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息,从而进一步地实现了优化搜索引擎搜索排序,提高用户信息获取效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于确定目标关键词所对应的搜索相关性类别的设备示意图;
图2示出根据本发明一个优选实施例的用于确定目标关键词所对应的搜索相关性类别的设备示意图;
图3示出根据本发明另一个方面的用于确定目标关键词所对应的搜索相关性类别的方法流程图;
图4示出根据本发明一个优选实施例的用于确定目标关键词所对应的搜索相关性类别的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于确定目标关键词所对应的搜索相关性类别的类别确定设备1,其中,类别确定设备1包括聚类确定装置11和类别确定装置12。具体地,聚类确定装置11根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;类别确定装置12根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。在此,所述搜索相关性的含义是指关键词与搜索结果的匹配程度。在此,类别确定设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。其中,所述网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA或IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述类别确定设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,聚类确定装置11首先根据预定规则,对多个样本关键词进行聚类处理,以获得一个或多个关键词聚类;再根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。在此,所述搜索排序的含义是指搜索引擎对用户输入关键词的理解和需求进行分析,运用一定算法,在预定提取的网页数据库中挑选出与用户输入关键词相匹配的网页,并将其提供给用户,其包括但不限于如主题匹配度结果选取排序、好结果提权排序、作弊点击打压、飘红词选取排序、题目/摘要组装排序等,其中,所述结果提权排序可包括诸多子排序,如:网页站点权威性提权、官网提权、页面丰富度提权、点击提权等。在此,所述搜索引擎包括但不限于如Google公司的Google搜索引擎、百度公司的***搜索引擎等,以及如Google公司的Google ToolBar、百度公司的百度搜霸、微软公司的MSN ToolBar等搜索引擎插件。在此,所述搜索排序路径信息用于表明搜索引擎在确定候选搜索结果排序信息过程中所经过的排序算法代码路径信息,可运用搜索排序路径标识(Strategy Identifier,SID)和分支标识(Branch Identifier,BID)来表示,其中,分支标识从属于搜索排序路径标识,在对搜索排序进行细粒度的标识时可被运用。本领域技术人员应能理解上述搜索排序、搜索引擎和搜索排序路径信息仅为举例,其他现有的或今后可能出现的搜索排序或搜索引擎或搜索排序路径信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,聚类确定装置11首先根据预定规则,对多个样本关键词进行聚类处理,如采用k-means、ISODATA、链状方法等非监督学习方法,以获得所述一个或多个关键词聚类。其中,所述预定规则包括但不限于以下至少任一项:
-根据所述多个样本关键词各自对应的搜索排序路径信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类;
-根据所述多个样本关键词各自对应的搜索用户的历史搜索记录信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类;
-根据所述多个样本关键词各自在满足预定质量度阈值的页面内容信息中的统计信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类。
例如,当所述预定规则包括根据所述多个样本关键词各自对应的搜索排序路径信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类时,假设多个样本关键词如样本关键词I至VI,其各自对应的搜索排序路径信息如下表1所示,其中,S_*表示关键词搜索请求处理经过的搜索排序路径的搜索排序路径标识或分支标识:
样本关键词 | 搜索排序路径信息 |
I | S_A→S_C→S_D→S_B→S_E→S_G |
II | S_A→S_E→S_G→S_C→S_D→S_B |
III | S_A→S_F→S_C→S_D→S_E→S_G |
IV | S_A→S_C→S_D→S_F→S_E→S_G |
V | S_A→S_E→S_G→S_C→S_B→S_D |
VI | S_M→S_N→S_C→S_B→S_G→S_D |
表1
则聚类确定装置11根据样本关键词I至VI各自对应的搜索排序路径信息,采用k-means、ISODATA、链状方法等非监督学习方法,对样本关键词I至VI进行聚类处理,得到一个或多个关键词聚类如:①.第一关键词聚类cluster1,如将样本关键词I、III和VI归为一类;②.第二关键词聚类cluster2,如将关键词II和V归为一类;③.第三关键词聚类cluster3,如将样本关键词VI归为一类;再如,当所述预定规则包括根据所述多个样本关键词各自在满足预定质量度阈值的页面内容信息中的统计信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类时,则聚类确定装置11根据样本关键词I至VI各自在满足预定质量度阈值的页面内容信息中的统计信息,如样本关键词I至VI各自在满足预定质量度阈值的页面内容信息如属于高度可信任站点页面如http://www.sina.com.cn/中出现的频次信息,采用k-means、ISODATA、链状方法等非监督学习方法,对样本关键词I至VI进行聚类处理,得到一个或多个关键词聚类如:①.第一关键词聚类cluster1,如将样本关键词I、II和III归为一类;②.第二关键词聚类cluster2,如将样本关键词IV和VI归为一类;③.第三关键词聚类cluster3,如将样本关键词V归为一类。
本领域技术人员应能理解上述对所述多个样本关键词进行聚类处理的方式仅为举例,其他现有的或今后可能出现的对所述多个样本关键词进行聚类处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,聚类确定装置11再根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。具体地,聚类确定装置11首先通过诸如搜索引擎、浏览器、提供目标关键词设备等第三方设备的应用程序接口(API),获取目标关键词,或者,通过ASP、JSP等动态网页技术,获取用户通过用户设备输入的目标关键词;然后,聚类确定装置11再根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。
例如,假设测试员A在评估搜索引擎相关性测试过程中,在测试平台关键词输入栏输入目标关键词goal-query,则聚类确定装置11通过ASP、JSP等动态网页技术,便可获取到测试员A通过用户设备输入的目标关键词goal-query。
本领域技术人员应能理解上述获取目标关键词的方式仅为举例,其他现有的或今后可能出现的获取目标关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
最后,聚类确定装置11再根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。在此,聚类确定装置11确定所述目标关键词聚类的方法包括但不限于以下至少任一项:
1)将所述目标关键词的搜索排序路径信息与所述关键词聚类的类搜索排序路径信息进行比较,以确定所述目标关键词所属的目标关键词聚类。例如,假设聚类确定装置11对如表1所示的样本关键词I至VI进行聚类处理后,得到的每一关键词聚类及表征所述关键词聚类的类搜索排序路径信息如下表2所示:
关键词聚类 | 类搜索排序路径信息 |
cluster1 | S_A→S_C→S_D→S_E→S_G→S_F |
cluster2 | S_A→S_E→S_G→S_C→S_D→S_B |
cluster3 | S_M→S_N→S_C→S_B→S_G→S_D |
表2
假设聚类确定装置11获取的目标关键词goal-query的搜索排序路径信息为S_A→S_C→S_D→S_B→S_E→S_G,其与第一关键词聚类cluster1的类搜索排序路径信息中顺序及搜索排序路径标识均相同的路径信息最多,则聚类确定装置11确定目标关键词goal-query所属的目标关键词聚类为第一关键词聚类cluster1。
2)将所述目标关键词的搜索排序路径信息与所述关键词聚类中包括的参考关键词的搜索排序路径信息进行比较,以确定所述目标关键词所属的目标关键词聚类。例如,假设聚类确定装置11获取的目标关键词goal-query的搜索排序路径信息为S_A→S_C→S_D→S_B→S_E→S_G,与第一关键词聚类cluster1中的关键词I的搜索排序路径信息相同,则聚类确定装置11确定目标关键词goal-query所属的目标关键词聚类为第一关键词聚类cluster1。
本领域技术人员应能理解上述确定所述目标关键词所属的目标关键词聚类的方式仅为举例,其他现有的或今后可能出现的确定所述目标关键词所属的目标关键词聚类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
类别确定装置12可首先统计所述目标关键词聚类所包括的各个参考关键词所对应的搜索相关性描述信息,确定目标关键词聚类所对应的搜索相关性类别;然后,再根据所述目标关键词聚类所对应的搜索相关性类别,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。在此,所述搜索相关性类别包括但不限于如较高相关性类别、较低相关性类别、不相关类别、作弊关键词类别等。在此,所述后续处理包括但不限于如:1)对目标关键词进行筛选处理,如是否作为测试数据等;2)优化目标关键词的搜索排序信息。本领域技术人员应能理解上述搜索相关性类别和后续处理方式仅为举例,其他现有的或今后可能出现的搜索相关性类别或后续处理方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,假设聚类确定装置11确定目标关键词goal-query所属的目标关键词聚类为第一关键词聚类cluster1,而关键词聚类cluster1所包括的样本关键词I、II和III的所对应的搜索相关性描述信息分别为相关性高、相关性高、相关性低,由于相关性高的相关性描述信息占相关性描述信息总数量的比值满足大于阈值如0.65,则类别确定装置12确定目标关键词goal-query所对应的搜索相关性类别为相关性高类别。再如,假设聚类确定装置11确定目标关键词goal-query所属的目标关键词聚类为第一关键词聚类cluster2,而关键词聚类cluster2所包括的样本关键词IV和VI的所对应的搜索相关性描述信息分别为相关性低、相关性低,由于相关性低的相关性描述信息占相关性描述信息总数量的比值满足大于阈值如0.65,则类别确定装置12确定目标关键词goal-query所对应的搜索相关性类别为相关性低类别。
本领域技术人员应能理解上述确定所述目标关键词所对应的搜索相关性类别的方式仅为举例,其他现有的或今后可能出现的确定所述目标关键词所对应的搜索相关性类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
类别确定设备1的各个装置之间是持续不断工作的。具体地,聚类确定装置11持续根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;类别确定装置12持续根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。在此,本领域技术人员应当理解“持续”是指类别确定设备1的各个装置分别不断地进行目标关键词聚类的确定及搜索相关性类别的确定,直至类别确定设备1在较长时间内停止目标关键词聚类的确定。
优选地,所述关键词聚类包含用于表征所述关键词聚类的类搜索排序路径信息,聚类确定装置11包括比较单元(未示出)、相似度确定单元(未示出)和聚类确定单元(未示出)。以下参考图1对该优选实施例进行描述:比较单元将所述目标关键词的搜索排序路径信息与所述一个或多个关键词聚类所对应的所述类搜索排序路径信息进行比较,以确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的最小编辑距离;相似度确定单元根据所述最小编辑距离,确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的排序路径相似度;聚类确定单元根据所述排序路径相似度,确定所述目标关键词聚类。
具体地,比较单元首先根据预定规则,对多个样本关键词进行聚类处理,如采用k-means、ISODATA、链状方法等非监督学习方法,以获得所述一个或多个关键词聚类确定所述一个或多个关键词聚类。在此,比较单元获得所述一个或多个关键词聚类的方式与聚类确定装置11获得所述一个或多个关键词聚类的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
然后,比较单元将所述目标关键词的搜索排序路径信息与所述一个或多个关键词聚类所对应的所述类搜索排序路径信息进行比较,以确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的最小编辑距离。例如,假设比较单元获取的目标关键词goal-query的搜索排序路径信息为S_A→S_C→S_D→S_B→S_E→S_G,而比较单元确定所述一个或多个关键词聚类如上述表2所示,则比较单元将目标关键词goal-query的搜索排序路径信息S_A→S_C→S_D→S_B→S_E→S_G进行序列化得到字符串goal-string=“ACDBEG”,同样将关键词聚类cluster1至cluster3所对应的所述类搜索排序路径信息进行序列化得到对应字符串如cluster1-string=“ACDEGF”,cluster2-string=“AEGSDB”,cluster3-string=“MNCBGD”,然后,比较单元通过诸如动态规划、矩阵法等最小编辑距离算法,分别计算目标关键词goal-query的搜索排序路径信息所对应的字符串goal-string=“ACDBEG”与关键词聚类cluster1至cluster3各自对应的所述类搜索排序路径信息所对应的字符串如cluster1-string=“ACDEGF”,cluster2-string=“AEGSDB”,cluster3-string=“MNCBGD”的最小编辑距离,如得到目标关键词goal-query与关键词聚类cluster1至cluster3所对的最小编辑距离分别为:2、6和6。
本领域技术人员应能理解上述确定所述最小编辑距离的方式仅为举例,其他现有的或今后可能出现的确定所述最小编辑距离的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
相似度确定单元根据所述最小编辑距离,确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的排序路径相似度。例如,接上例,相似度确定单元根据比较单元确定的所述最小编辑距离,通过以下公式(1)来确定所述排序路径相似度:
其中,d为最小编辑距离,则相似度确定单元根据上述公式(1)确定目标关键词goal-query的搜索排序路径信息分别与关键词聚类cluster1至cluster3各自的所述类搜索排序路径信息的排序路径相似度分别为:1/3、1/7和1/7。
优选地,相似度确定单元根据比较单元确定的所述最小编辑距离,通过以下公式(2)来确定所述排序路径相似度:
其中,α为归一化系数,为类搜索排序路径信息所对应字符串的平均字符串长度,d为最小编辑距离,其中,归一化系数α可通过如下公式(3)进行计算:
其中,x表示类搜索排序路径信息所对应字符串在测试过程中的统计长度,若α=0.5,而关键词聚类cluster1至cluster3各自对应的类搜索排序路径信息所对应字符串的平均字符串长度为6,则相似度确定单元根据上述公式(2)可确定目标关键词goal-query的搜索排序路径信息分别与关键词聚类cluster1至cluster3各自的所述类搜索排序路径信息的排序路径相似度分别为:1、3/7和3/7。
本领域技术人员应能理解上述确定所述排序路径相似度的方式仅为举例,其他现有的或今后可能出现的确定所述排序路径相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
聚类确定单元根据所述排序路径相似度,确定所述目标关键词聚类,如确定所述目标关键词所属的所述目标关键词聚类为所述排序路径相似度满足预定阈值如0.8所对应的关键词聚类。例如,接上例,相似度确定单元确定目标关键词goal-query的搜索排序路径信息分别与关键词聚类cluster1至cluster3各自的所述类搜索排序路径信息的排序路径相似度分别为:1、3/7和3/7,则聚类确定单元确定目标关键词goal-query所属的所述目标关键词聚类为cluster1。
优选地,聚类确定装置11还可首先获取待处理的一个或多个待测关键词,以作为所述目标关键词;然后,根据所述目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;类别确定装置12还可首先根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别;然后,根据所述搜索相关性类别,对所述目标关键词进行筛选处理。
具体地,聚类确定装置11还可首先通过诸如搜索引擎、浏览器、提供待测关键词设备等第三方设备的应用程序接口(API),获取待处理的一个或多个待测关键词,以作为所述目标关键词;然后,根据所述目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。在此,聚类确定装置11确定所述目标关键词所属的目标关键词聚类的方式与前述聚类确定装置11定所述目标关键词所属的目标关键词聚类的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
接着,类别确定装置12还可首先根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别。在此,类别确定装置12确定所述目标关键词所对应的搜索相关性类别的方式与前述类别确定装置12确定所述目标关键词所对应的搜索相关性类别的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
然后,类别确定装置12根据所述搜索相关性类别,对所述目标关键词进行筛选处理。例如,假设聚类确定装置11获取的所述目标关键词包括如query1、query2、query3和query4,而类别确定装置12确定该目标关键词query1、query2、query3和query4对应的所述搜索相关性类别分别为相关性高、相关性中、相关性低、相关性高,则类别确定装置12根据目标关键词query1、query2、query3和query4各自对应的所述搜索相关性类别,对其进行筛选处理,如将属于相关性低类别的关键词query3从待测关键词集合中筛选出来,以对其进行后期搜索排序信息优化。
优选地,类别确定设备1还包括集合确定装置(未示出)和优化路径确定装置(未示出)。具体地,集合确定装置确定所述关键词聚类所对应的待优化关键词集合;优化路径确定装置根据所述待优化关键词集合包括的一个或多个待优化关键词所对应的公共搜索排序路径信息,确定所述一个或多个待优化关键词的优化搜索排序路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息。
具体地,集合确定装置可根据关键词聚类包括的所有关键词的搜索相关性描述信息,如搜索相关性高、搜索相关性低等,找出搜索相关性低的类别,以作为所述关键词聚类所对应的待优化关键词集合。在此,所述待优化关键词集合对应于属于搜索相关性低类别的关键词。例如,假设关键词聚类cluster1中属于搜索相关性低类别的关键词为样本关键词III,关键词聚类cluster2中属于搜索相关性低类别的关键词为样本关键词IV和VI,关键词聚类cluster3中没有属于搜索相关性低类别的关键词,则集合确定装置可将关键词聚类cluster1至cluster3中包括的所有属于搜索相关性低类别的关键词作为所述待优化关键词集合,如包括样本关键词III、IV和VI。
优选地,集合确定装置还可将所述关键词聚类所包括的所有关键词的实际搜索结果相关信息与***指标信息进行比较,从所述所有关键词中确定所述待优化关键词集合。在此,所述实际搜索结果相关信息包括但不限于如返回搜索结果数量、获得点击量、返回站点的权威性、返回站点的页面内容的质量度等。在此,所述***指标信息包括如返回搜索结果数量、返回站点的权威性等。例如,集合确定装置可将聚类确定装置11确定的所述关键词聚类cluster1至cluster3所包括的所有关键词即样本关键词I至VI的实际搜索结果相关信息与***指标信息进行比较,从所述所有关键词中确定所述待优化关键词集合,如将样本关键词I至VI的实际搜索结果相关信息不满足***指标信息的关键词,作为所述待优化关键词集合。
本领域技术人员应能理解上述确定所述待优化关键词集合的方式仅为举例,其他现有的或今后可能出现的确定所述待优化关键词集合的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,优化路径确定装置根据所述待优化关键词集合包括的一个或多个待优化关键词所对应的公共搜索排序路径信息,确定所述一个或多个待优化关键词的优化搜索排序路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息。例如,接上例,集合确定装置确定的所述待优化关键词集合包括样本关键词III、IV和VI,则优化路径确定装置可根据样本关键词III、IV和VI所对应的公共搜索排序路径信息如S_C→S_D→S-G,作为所述优化搜索排序路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息,如删除样本关键词III、IV和VI的搜索排序路径信息中包括的该优化搜索排序路径信息,或者,将样本关键词III、IV和VI的搜索排序路径信息中包括的该优化搜索排序路径信息被其他搜索排序路径信息如搜索相关性高类别的关键词所对应的公共搜索排序路径信息代替。
优选地,可将上述用于确定目标关键词所对应的搜索相关性类别的类别确定设备1,与现有搜索引擎相结合,构成一种新的搜索引擎,现有的搜索引擎包括但不限于如Google公司的Google搜索引擎、百度公司的***搜索引擎等。
优选地,可将上述用于确定目标关键词所对应的搜索相关性类别的类别确定设备1,与现有搜索引擎插件相结合,构成一种新的搜索引擎插件,现有的包括但不限于如Google公司的Google ToolBar、百度公司的百度搜霸、微软公司的MSN ToolBar等搜索引擎插件。
图2示出根据本发明一个优选实施例的用于确定目标关键词所对应的搜索相关性类别的设备示意图,其中,类别确定设备1包括聚类确定装置11’、类别确定装置12’、优选路径确定装置13’、调整装置14’和提供装置15’。具体地,聚类确定装置11’根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;类别确定装置12’根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理;优选路径确定装置13’确定所述目标关键词所对应的优选搜索排序路径信息;调整装置14’根据所述优选搜索排序路径信息,调整所述目标关键词的搜索排序路径信息;若查询序列与所述目标关键词相匹配,提供装置15’按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。在此,聚类确定装置11’、类别确定装置12’分别与图1所示对应装置相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,优选路径确定装置13’确定所述目标关键词所对应的优选搜索排序路径信息。在此,优选路径确定装置13’确定所述优选搜索排序路径信息的方式包括但不限于以下至少任一项:
1)将所述目标关键词聚类所包括的各个参考关键词所对应的公共搜索排序路径信息,作为所述优选搜索排序路径信息。例如,假设聚类确定装置11’确定目标关键词goal-query所属的目标关键词聚类为关键词聚类cluster1,则优选路径确定装置13’可将cluster1所包括的各个参考关键词即样本关键词I、III和VI所对应的公共搜索排序路径信息如S_A→S_C→S_D→S_E→S_G,作为所述优选搜索排序路径信息。
2)对所述目标关键词聚类所包括的各个参考关键词所对应的搜索排序路径信息进行统计分析处理,以确定所述优选搜索排序路径信息,如统计得出关键词走过的搜索排序路径频次信息,将频次满足预定阈值的路径,或者将高频搜索排序路径作为所述优选搜索排序路径信息。例如,接上例,优选路径确定装置13’可将cluster1所包括的各个参考关键词即样本关键词I、III和VI所对应的搜索排序路径信息进行统计分析处理,将频次满足预定阈值如出现频次满足2的搜索排序路径如S_A→S_C→S_D→S_E→S_G→S_F,作为所述优选搜索排序路径信息。
本领域技术人员应能理解上述确定所述优选搜索排序路径信息的方式仅为举例,其他现有的或今后可能出现的确定所述优选搜索排序路径信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
调整装置14’根据所述优选搜索排序路径信息,调整所述目标关键词的搜索排序路径信息。例如,假设优选路径确定装置13’确定的所述优选搜索排序路径信息为S_A→S_C→S_D→S_E→S_G,则调整装置14’根据该优选搜索排序路径信息,通过诸如调整算法或者机器学习模型如SVM模型,调整目标关键词goal-query的搜索排序路径信息,如将目标关键词goal-query的搜索排序路径信息调整为优先执行所述优选搜索排序路径信息S_A→S_C→S_D→S_E→S_G。
本领域技术人员应能理解上述确定所述待优化关键词集合的方式仅为举例,其他现有的或今后可能出现的确定所述待优化关键词集合的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
若查询序列与所述目标关键词相匹配,提供装置15’按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。具体地,提供装置15’首先获取查询序列;然后,判断所述查询序列与所述目标关键词是否相匹配,若匹配,提供装置15’按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。在此,所述匹配的含义包括查询序列与所述目标关键词完全一致、查询序列包含于所述目标关键词。
具体地,提供装置15’首先通过ASP、JSP等动态网页技术,或者通过搜索引擎提供的应用程序接口(API),获取用户通过用户设备输入的查询序列。例如,若搜索用户B通过其PC设备在搜索引擎搜索栏中输入关键词“鲜花”,按Enter键,提供装置15’通过诸如ASP、JSP或PHP等动态网页技术,便可获取到搜索用户B输入的关键词“鲜花”。本领域技术人员应理解上述获取查询序列的方式仅为举例,其他现有的或今后可能出现的获取查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,提供装置15’根据聚类确定装置11’获取的所述目标关键词,通过文本比较的方式,判断所述查询序列与所述目标关键词是否相匹配。
若匹配,提供装置15’按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。例如,接上例,假设聚类确定装置11’获取的所述目标关键词如“鲜花”、“鲜花速递”等,则提供装置15’判断查询序列“鲜花”与目标关键词如“鲜花”、“鲜花速递”相匹配,然后,提供装置15’将搜索引擎按照调整后的该目标关键词的搜索排序路径信息所对应的搜索结果如“鲜花吧百度贴吧”、“鲜花图片素材天下网”,作为查询序列“鲜花”所对应的搜索结果,并通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,提供给所述查询序列所对应的用户即用户B,如该用户的用户设备,供用户浏览。
图3示出根据本发明另一个方面的用于确定目标关键词所对应的搜索相关性类别的方法流程图。
具体地,在步骤S1中,类别确定设备1根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;在步骤S2中,类别确定设备1根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。在此,所述搜索相关性的含义是指关键词与搜索结果的匹配程度。在此,类别确定设备1包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。其中,所述网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA或IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述类别确定设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,在步骤S1中,类别确定设备1首先根据预定规则,对多个样本关键词进行聚类处理,以获得一个或多个关键词聚类;再根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。在此,所述搜索排序的含义是指搜索引擎对用户输入关键词的理解和需求进行分析,运用一定算法,在预定提取的网页数据库中挑选出与用户输入关键词相匹配的网页,并将其提供给用户,其包括但不限于如主题匹配度结果选取排序、好结果提权排序、作弊点击打压、飘红词选取排序、题目/摘要组装排序等,其中,所述结果提权排序可包括诸多子排序,如:网页站点权威性提权、官网提权、页面丰富度提权、点击提权等。在此,所述搜索引擎包括但不限于如Google公司的Google搜索引擎、百度公司的***搜索引擎等,以及如Google公司的Google ToolBar、百度公司的百度搜霸、微软公司的MSN ToolBar等搜索引擎插件。在此,所述搜索排序路径信息用于表明搜索引擎在确定候选搜索结果排序信息过程中所经过的排序算法代码路径信息,可运用搜索排序路径标识(Strategy Identifier,SID)和分支标识(BranchIdentifier,BID)来表示,其中,分支标识从属于搜索排序路径标识,在对搜索排序进行细粒度的标识时可被运用。本领域技术人员应能理解上述搜索排序、搜索引擎和搜索排序路径信息仅为举例,其他现有的或今后可能出现的搜索排序或搜索引擎或搜索排序路径信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,在步骤S1中,类别确定设备1首先根据预定规则,对多个样本关键词进行聚类处理,如采用k-means、ISODATA、链状方法等非监督学习方法,以获得所述一个或多个关键词聚类。其中,所述预定规则包括但不限于以下至少任一项:
-根据所述多个样本关键词各自对应的搜索排序路径信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类;
-根据所述多个样本关键词各自对应的搜索用户的历史搜索记录信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类;
-根据所述多个样本关键词各自在满足预定质量度阈值的页面内容信息中的统计信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类。
例如,当所述预定规则包括根据所述多个样本关键词各自对应的搜索排序路径信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类时,假设多个样本关键词如样本关键词I至VI,其各自对应的搜索排序路径信息如下表3所示,其中,S_*表示关键词搜索请求处理经过的搜索排序路径的搜索排序路径标识或分支标识:
样本关键词 | 搜索排序路径信息 |
I | S_A→S_C→S_D→S_B→S_E→S_G |
II | S_A→S_E→S_G→S_C→S_D→S_B |
III | S_A→S_F→S_C→S_D→S_E→S_G |
IV | S_A→S_C→S_D→S_F→S_E→S_G |
V | S_A→S_E→S_G→S_C→S_B→S_D |
VI | S_M→S_N→S_C→S_B→S_G→S_D |
表3
则在步骤S1中,类别确定设备1根据样本关键词I至VI各自对应的搜索排序路径信息,采用k-means、ISODATA、链状方法等非监督学习方法,对样本关键词I至VI进行聚类处理,得到一个或多个关键词聚类如:①.第一关键词聚类cluster1,如将样本关键词I、III和VI归为一类;②.第二关键词聚类cluster2,如将关键词II和V归为一类;③.第三关键词聚类cluster3,如将样本关键词VI归为一类;再如,当所述预定规则包括根据所述多个样本关键词各自在满足预定质量度阈值的页面内容信息中的统计信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚类时,则在步骤S1中,类别确定设备1根据样本关键词I至VI各自在满足预定质量度阈值的页面内容信息中的统计信息,如样本关键词I至VI各自在满足预定质量度阈值的页面内容信息如属于高度可信任站点页面如http://www.sina.com.cn/中出现的频次信息,采用k-means、ISODATA、链状方法等非监督学习方法,对样本关键词I至VI进行聚类处理,得到一个或多个关键词聚类如:①.第一关键词聚类cluster1,如将样本关键词I、II和III归为一类;②.第二关键词聚类cluster2,如将样本关键词IV和VI归为一类;③.第三关键词聚类cluster3,如将样本关键词V归为一类。
本领域技术人员应能理解上述对所述多个样本关键词进行聚类处理的方式仅为举例,其他现有的或今后可能出现的对所述多个样本关键词进行聚类处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S1中,类别确定设备1再根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。具体地,在步骤S1中,类别确定设备1首先通过诸如搜索引擎、浏览器、提供目标关键词设备等第三方设备的应用程序接口(API),获取目标关键词,或者,通过ASP、JSP等动态网页技术,获取用户通过用户设备输入的目标关键词;然后,聚类确定装置11再根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。
例如,假设测试员A在评估搜索引擎相关性测试过程中,在测试平台关键词输入栏输入目标关键词goal-query,则在步骤S1中,类别确定设备1通过ASP、JSP等动态网页技术,便可获取到测试员A通过用户设备输入的目标关键词goal-query。
本领域技术人员应能理解上述获取目标关键词的方式仅为举例,其他现有的或今后可能出现的获取目标关键词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
最后,在步骤S1中,类别确定设备1再根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。在此,在步骤S1中,类别确定设备1确定所述目标关键词聚类的方法包括但不限于以下至少任一项:
1)将所述目标关键词的搜索排序路径信息与所述关键词聚类的类搜索排序路径信息进行比较,以确定所述目标关键词所属的目标关键词聚类。例如,假设在步骤S1中,类别确定设备1对如表3所示的样本关键词I至VI进行聚类处理后,得到的每一关键词聚类及表征所述关键词聚类的类搜索排序路径信息如下表4所示:
关键词聚类 | 类搜索排序路径信息 |
cluster1 | S_A→S_C→S_D→S_E→S_G→S_F |
cluster2 | S_A→S_E→S_G→S_C→S_D→S_B |
cluster3 | S_M→S_N→S_C→S_B→S_G→S_D |
表4
假设在步骤S1中,类别确定设备1获取的目标关键词goal-query的搜索排序路径信息为S_A→S_C→S_D→S_B→S_E→S_G,其与第一关键词聚类cluster1的类搜索排序路径信息中顺序及搜索排序路径标识均相同的路径信息最多,则在步骤S1中,类别确定设备1确定目标关键词goal-query所属的目标关键词聚类为第一关键词聚类cluster1。
2)将所述目标关键词的搜索排序路径信息与所述关键词聚类中包括的参考关键词的搜索排序路径信息进行比较,以确定所述目标关键词所属的目标关键词聚类。例如,假设在步骤S1中,类别确定设备1获取的目标关键词goal-query的搜索排序路径信息为S_A→S_C→S_D→S_B→S_E→S_G,与第一关键词聚类cluster1中的关键词I的搜索排序路径信息相同,则在步骤S1中,类别确定设备1确定目标关键词goal-query所属的目标关键词聚类为第一关键词聚类cluster1。
本领域技术人员应能理解上述确定所述目标关键词所属的目标关键词聚类的方式仅为举例,其他现有的或今后可能出现的确定所述目标关键词所属的目标关键词聚类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S2中,类别确定设备1可首先统计所述目标关键词聚类所包括的各个参考关键词所对应的搜索相关性描述信息,确定目标关键词聚类所对应的搜索相关性类别;然后,再根据所述目标关键词聚类所对应的搜索相关性类别,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。在此,所述搜索相关性类别包括但不限于如较高相关性类别、较低相关性类别、不相关类别、作弊关键词类别等。在此,所述后续处理包括但不限于如:1)对目标关键词进行筛选处理,如是否作为测试数据等;2)优化目标关键词的搜索排序信息。本领域技术人员应能理解上述搜索相关性类别和后续处理方式仅为举例,其他现有的或今后可能出现的搜索相关性类别或后续处理方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,假设在步骤S1中,类别确定设备1确定目标关键词goal-query所属的目标关键词聚类为第一关键词聚类cluster1,而关键词聚类cluster1所包括的样本关键词I、II和III的所对应的搜索相关性描述信息分别为相关性高、相关性高、相关性低,由于相关性高的相关性描述信息占相关性描述信息总数量的比值满足大于阈值如0.65,则在步骤S2中,类别确定设备1确定目标关键词goal-query所对应的搜索相关性类别为相关性高类别。再如,假设在步骤S1中,类别确定设备1确定目标关键词goal-query所属的目标关键词聚类为第一关键词聚类cluster2,而关键词聚类cluster2所包括的样本关键词IV和VI的所对应的搜索相关性描述信息分别为相关性低、相关性低,由于相关性低的相关性描述信息占相关性描述信息总数量的比值满足大于阈值如0.65,则在步骤S2中,类别确定设备1确定目标关键词goal-query所对应的搜索相关性类别为相关性低类别。
本领域技术人员应能理解上述确定所述目标关键词所对应的搜索相关性类别的方式仅为举例,其他现有的或今后可能出现的确定所述目标关键词所对应的搜索相关性类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
类别确定设备1的各个步骤之间是持续不断工作的。具体地,在步骤S1中,类别确定设备1持续根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;在步骤S2中,类别确定设备1持续根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。在此,本领域技术人员应当理解“持续”是指类别确定设备1的各个步骤分别不断地进行目标关键词聚类的确定及搜索相关性类别的确定,直至类别确定设备1在较长时间内停止目标关键词聚类的确定。
优选地,所述关键词聚类包含用于表征所述关键词聚类的类搜索排序路径信息,步骤S1包括步骤S11(未示出)、步骤S12(未示出)和步骤S13(未示出)。以下参考图3对该优选实施例进行描述:在步骤S11中,类别确定设备1将所述目标关键词的搜索排序路径信息与所述一个或多个关键词聚类所对应的所述类搜索排序路径信息进行比较,以确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的最小编辑距离;在步骤S12中,类别确定设备1根据所述最小编辑距离,确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的排序路径相似度;在步骤S13中,类别确定设备1根据所述排序路径相似度,确定所述目标关键词聚类。
具体地,在步骤S11中,类别确定设备1首先根据预定规则,对多个样本关键词进行聚类处理,如采用k-means、ISODATA、链状方法等非监督学习方法,以获得所述一个或多个关键词聚类确定所述一个或多个关键词聚类。在此,在步骤S11中,类别确定设备1获得所述一个或多个关键词聚类的方式与在步骤S1中,类别确定设备1获得所述一个或多个关键词聚类的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
然后,在步骤S11中,类别确定设备1将所述目标关键词的搜索排序路径信息与所述一个或多个关键词聚类所对应的所述类搜索排序路径信息进行比较,以确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的最小编辑距离。例如,假设在步骤S11中,类别确定设备1获取的目标关键词goal-query的搜索排序路径信息为S_A→S_C→S_D→S_B→S_E→S_G,而在步骤S11中,类别确定设备1确定所述一个或多个关键词聚类如上述表2所示,则在步骤S11中,类别确定设备1将目标关键词goal-query的搜索排序路径信息S_A→S_C→S_D→S_B→S_E→S_G进行序列化得到字符串goal-string=“ACDBEG”,同样将关键词聚类cluster1至cluster3所对应的所述类搜索排序路径信息进行序列化得到对应字符串如cluster1-string=“ACDEGF”,cluster2-string=“AEGSDB”,cluster3-string=“MNCBGD”,然后,在步骤S11中,类别确定设备1通过诸如动态规划、矩阵法等最小编辑距离算法,分别计算目标关键词goal-query的搜索排序路径信息所对应的字符串goal-string=“ACDBEG”与关键词聚类cluster1至cluster3各自对应的所述类搜索排序路径信息所对应的字符串如cluster1-string=“ACDEGF”,cluster2-string=“AEGSDB”,cluster3-string=“MNCBGD”的最小编辑距离,如得到目标关键词goal-query与关键词聚类cluster1至cluster3所对的最小编辑距离分别为:2、6和6。
本领域技术人员应能理解上述确定所述最小编辑距离的方式仅为举例,其他现有的或今后可能出现的确定所述最小编辑距离的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S12中,类别确定设备1根据所述最小编辑距离,确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的排序路径相似度。例如,接上例,在步骤S12中,类别确定设备1根据比较单元确定的所述最小编辑距离,通过以下公式(4)来确定所述排序路径相似度:
其中,d为最小编辑距离,则相似度确定单元根据上述公式(4)确定目标关键词goal-query的搜索排序路径信息分别与关键词聚类cluster1至cluster3各自的所述类搜索排序路径信息的排序路径相似度分别为:1/3、1/7和1/7。
优选地,在步骤S12中,类别确定设备1根据比较单元确定的所述最小编辑距离,通过以下公式(5)来确定所述排序路径相似度:
其中,α为归一化系数,为类搜索排序路径信息所对应字符串的平均字符串长度,d为最小编辑距离,其中,归一化系数α可通过如下公式(6)进行计算:
其中,x表示类搜索排序路径信息所对应字符串在测试过程中的统计长度,若α=0.5,而关键词聚类cluster1至cluster3各自对应的类搜索排序路径信息所对应字符串的平均字符串长度为6,则在步骤S12中,类别确定设备1根据上述公式(5)可确定目标关键词goal-query的搜索排序路径信息分别与关键词聚类cluster1至cluster3各自的所述类搜索排序路径信息的排序路径相似度分别为:1、3/7和3/7。
本领域技术人员应能理解上述确定所述排序路径相似度的方式仅为举例,其他现有的或今后可能出现的确定所述排序路径相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S13中,类别确定设备1根据所述排序路径相似度,确定所述目标关键词聚类,如确定所述目标关键词所属的所述目标关键词聚类为所述排序路径相似度满足预定阈值如0.8所对应的关键词聚类。例如,接上例,在步骤S12中,类别确定设备1确定目标关键词goal-query的搜索排序路径信息分别与关键词聚类cluster1至cluster3各自的所述类搜索排序路径信息的排序路径相似度分别为:1、3/7和3/7,则在步骤S13中,类别确定设备1确定目标关键词goal-query所属的所述目标关键词聚类为cluster1。
优选地,在步骤S1中,类别确定设备1还可首先获取待处理的一个或多个待测关键词,以作为所述目标关键词;然后,根据所述目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;在步骤S2中,类别确定设备1还可首先根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别;然后,根据所述搜索相关性类别,对所述目标关键词进行筛选处理。
具体地,在步骤S1中,类别确定设备1还可首先通过诸如搜索引擎、浏览器、提供待测关键词设备等第三方设备的应用程序接口(API),获取待处理的一个或多个待测关键词,以作为所述目标关键词;然后,根据所述目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类。在此,在步骤S1中,类别确定设备1确定所述目标关键词所属的目标关键词聚类的方式与前述在步骤S1中,类别确定设备1定所述目标关键词所属的目标关键词聚类的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
接着,在步骤S2中,类别确定设备1还可首先根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别。在此,在步骤S2中,类别确定设备1确定所述目标关键词所对应的搜索相关性类别的方式与前述在步骤S2中,类别确定设备1确定所述目标关键词所对应的搜索相关性类别的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
然后,在步骤S2中,类别确定设备1根据所述搜索相关性类别,对所述目标关键词进行筛选处理。例如,假设在步骤S 1中,类别确定设备1获取的所述目标关键词包括如query1、query2、query3和query4,而在步骤S2中,类别确定设备1确定该目标关键词query1、query2、query3和query4对应的所述搜索相关性类别分别为相关性高、相关性中、相关性低、相关性高,则在步骤S2中,类别确定设备1根据目标关键词query1、query2、query3和query4各自对应的所述搜索相关性类别,对其进行筛选处理,如将属于相关性低类别的关键词query3从待测关键词集合中筛选出来,以对其进行后期搜索排序信息优化。
优选地,类别确定设备1还包括步骤S6(未示出)和步骤S7(未示出)。具体地,在步骤S6中,类别确定设备1确定所述关键词聚类所对应的待优化关键词集合;在步骤S7中,类别确定设备1根据所述待优化关键词集合包括的一个或多个待优化关键词所对应的公共搜索排序路径信息,确定所述一个或多个待优化关键词的优化搜索排序路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息。
具体地,在步骤S6中,类别确定设备1可根据关键词聚类包括的所有关键词的搜索相关性描述信息,如搜索相关性高、搜索相关性低等,找出搜索相关性低的类别,以作为所述关键词聚类所对应的待优化关键词集合。在此,所述待优化关键词集合对应于属于搜索相关性低类别的关键词。例如,假设关键词聚类cluster1中属于搜索相关性低类别的关键词为样本关键词III,关键词聚类cluster2中属于搜索相关性低类别的关键词为样本关键词IV和VI,关键词聚类cluster3中没有属于搜索相关性低类别的关键词,则在步骤S6中,类别确定设备1可将关键词聚类cluster1至cluster3中包括的所有属于搜索相关性低类别的关键词作为所述待优化关键词集合,如包括样本关键词III、IV和VI。
优选地,在步骤S6中,类别确定设备1还可将所述关键词聚类所包括的所有关键词的实际搜索结果相关信息与***指标信息进行比较,从所述所有关键词中确定所述待优化关键词集合。在此,所述实际搜索结果相关信息包括但不限于如返回搜索结果数量、获得点击量、返回站点的权威性、返回站点的页面内容的质量度等。在此,所述***指标信息包括如返回搜索结果数量、返回站点的权威性等。例如,在步骤S6中,类别确定设备1可将其在步骤S1中确定的所述关键词聚类cluster1至cluster3所包括的所有关键词即样本关键词I至VI的实际搜索结果相关信息与***指标信息进行比较,从所述所有关键词中确定所述待优化关键词集合,如将样本关键词I至VI的实际搜索结果相关信息不满足***指标信息的关键词,作为所述待优化关键词集合。
本领域技术人员应能理解上述确定所述待优化关键词集合的方式仅为举例,其他现有的或今后可能出现的确定所述待优化关键词集合的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S7中,类别确定设备1根据所述待优化关键词集合包括的一个或多个待优化关键词所对应的公共搜索排序路径信息,确定所述一个或多个待优化关键词的优化搜索排序路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息。例如,接上例,在步骤S6中,类别确定设备1确定的所述待优化关键词集合包括样本关键词III、IV和VI,则在步骤S7中,类别确定设备1可根据样本关键词III、IV和VI所对应的公共搜索排序路径信息如S_C→S_D→S-G,作为所述优化搜索排序路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息,如删除样本关键词III、IV和VI的搜索排序路径信息中包括的该优化搜索排序路径信息,或者,将样本关键词III、IV和VI的搜索排序路径信息中包括的该优化搜索排序路径信息被其他搜索排序路径信息如搜索相关性高类别的关键词所对应的公共搜索排序路径信息代替。
图4示出根据本发明一个优选实施例的用于确定目标关键词所对应的搜索相关性类别的方法流程图。
其中,类别确定设备1包括步骤S1’、步骤S2’、步骤S3’、步骤S4’和步骤S5’。具体地,在步骤S1’中,类别确定设备1根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;在步骤S2’中,类别确定设备1根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理;在步骤S3’中,类别确定设备1确定所述目标关键词所对应的优选搜索排序路径信息;在步骤S4’中,类别确定设备1根据所述优选搜索排序路径信息,调整所述目标关键词的搜索排序路径信息;若查询序列与所述目标关键词相匹配,在步骤S5’中,类别确定设备1按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。在此,步骤S1’和步骤S2’分别与图3所示对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
具体地,在步骤S3’中,类别确定设备1确定所述目标关键词所对应的优选搜索排序路径信息。在此,在步骤S3’中,类别确定设备1所述优选搜索排序路径信息的方式包括但不限于以下至少任一项:
1)将所述目标关键词聚类所包括的各个参考关键词所对应的公共搜索排序路径信息,作为所述优选搜索排序路径信息。例如,假设在步骤S1’中,类别确定设备1确定目标关键词goal-query所属的目标关键词聚类为关键词聚类cluster1,则在步骤S3’中,类别确定设备1可将cluster1所包括的各个参考关键词即样本关键词I、III和VI所对应的公共搜索排序路径信息如S_A→S_C→S_D→S_E→S_G,作为所述优选搜索排序路径信息。
2)对所述目标关键词聚类所包括的各个参考关键词所对应的搜索排序路径信息进行统计分析处理,以确定所述优选搜索排序路径信息,如统计得出关键词走过的搜索排序路径频次信息,将频次满足预定阈值的搜索排序路径,或者将高频搜索排序路径作为所述优选搜索排序路径信息。例如,接上例,在步骤S3’中,类别确定设备1可将cluster1所包括的各个参考关键词即样本关键词I、III和VI所对应的搜索排序路径信息进行统计分析处理,将频次满足预定阈值如出现频次满足2的搜索排序路径如S_A→S_C→S_D→S_E→S_G→S_F,作为所述优选搜索排序路径信息。
本领域技术人员应能理解上述确定所述优选搜索排序路径信息的方式仅为举例,其他现有的或今后可能出现的确定所述优选搜索排序路径信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S4’中,类别确定设备1根据所述优选搜索排序路径信息,调整所述目标关键词的搜索排序路径信息。例如,假设在步骤S3’中,类别确定设备1确定的所述优选搜索排序路径信息为S_A→S_C→S_D→S_E→S_G,则在步骤S4’中,类别确定设备1根据该优选搜索排序路径信息,通过诸如调整算法或者机器学习模型如SVM模型,调整目标关键词goal-query的搜索排序路径信息,如将目标关键词goal-query的搜索排序路径信息调整为优先执行所述优选搜索排序路径信息S_A→S_C→S_D→S_E→S_G。
本领域技术人员应能理解上述确定所述待优化关键词集合的方式仅为举例,其他现有的或今后可能出现的确定所述待优化关键词集合的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
若查询序列与所述目标关键词相匹配,在步骤S5’中,类别确定设备1按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。具体地,在步骤S5’中,类别确定设备1首先获取查询序列;然后,判断所述查询序列与所述目标关键词是否相匹配,若匹配,在步骤S5’中,类别确定设备1按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。在此,所述匹配的含义包括查询序列与所述目标关键词完全一致、查询序列包含于所述目标关键词。
具体地,在步骤S5’中,类别确定设备1首先通过ASP、JSP等动态网页技术,或者通过搜索引擎提供的应用程序接口(API),获取用户通过用户设备输入的查询序列。例如,若搜索用户B通过其PC设备在搜索引擎搜索栏中输入关键词“鲜花”,按Enter键,在步骤S5’中,类别确定设备1通过诸如ASP、JSP或PHP等动态网页技术,便可获取到搜索用户B输入的关键词“鲜花”。本领域技术人员应理解上述获取查询序列的方式仅为举例,其他现有的或今后可能出现的获取查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
然后,在步骤S5’中,类别确定设备1根据其在步骤S 1’中获取的所述目标关键词,通过文本比较的方式,判断所述查询序列与所述目标关键词是否相匹配。
若匹配,在步骤S5’中,类别确定设备1按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。例如,接上例,假设在步骤S 1’中,类别确定设备1获取的所述目标关键词如“鲜花”、“鲜花速递”等,则在步骤S5’中,类别确定设备1判断查询序列“鲜花”与目标关键词如“鲜花”、“鲜花速递”相匹配,然后,在步骤S5’中,类别确定设备1将搜索引擎按照调整后的该目标关键词的搜索排序路径信息所对应的搜索结果如“鲜花吧百度贴吧”、“鲜花图片素材天下网”,作为查询序列“鲜花”所对应的搜索结果,并通过诸如ASP、JSP或PHP等动态网页技术,或者其他约定的通信方式,如http或https等通信协议,提供给所述查询序列所对应的用户即用户B,如该用户的用户设备,供用户浏览。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (18)
1.一种用于确定目标关键词所对应的搜索相关性类别的方法,其中,该方法包括以下步骤:
a根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类,其中,所述搜索排序路径信息用于表明搜索引擎在确定候选搜索结果排序信息过程中所经过的排序算法代码路径信息;
b根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理,其中,搜索相关性的含义是指关键词与搜索结果的匹配程度,所述搜索相关性类别包括高相关性类别、低相关性类别、不相关类别、作弊关键词类别中至少任一项。
2.根据权利要求1所述的方法,其中,所述关键词聚类包含用于表征所述关键词聚类的类搜索排序路径信息;
其中,所述步骤a包括:
-将所述目标关键词的搜索排序路径信息与所述一个或多个关键词聚类所对应的所述类搜索排序路径信息进行比较,以确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的最小编辑距离;
-根据所述最小编辑距离,确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的排序路径相似度;
-根据所述排序路径相似度,确定所述目标关键词聚类。
3.根据权利要求1或2所述的方法,其中,该方法还包括:
x确定所述目标关键词所对应的优选搜索排序路径信息;
-根据所述优选搜索排序路径信息,调整所述目标关键词的搜索排序路径信息;
其中,该方法还包括:
-若查询序列与所述目标关键词相匹配,按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。
4.根据权利要求3所述的方法,其中,所述步骤x包括:
-根据所述目标关键词聚类所包括的各个参考关键词所对应的公共搜索排序路径信息,确定所述优选搜索排序路径信息。
5.根据权利要求3所述的方法,其中,所述步骤x包括:
-对所述目标关键词聚类所包括的各个参考关键词所对应的搜索排序路径信息进行统计分析处理,以确定所述优选搜索排序路径信息。
6.根据权利要求1或2所述的方法,其中,该方法还包括:
y确定所述关键词聚类所对应的待优化关键词集合;
-根据所述待优化关键词集合包括的一个或多个待优化关键词所对应的公共搜索排序路径信息,确定所述一个或多个待优化关键词的优化搜索排序路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息。
7.根据权利要求6所述的方法,其中,所述步骤y包括:
-将所述关键词聚类所包括的所有关键词的实际搜索结果相关信息与***指标信息进行比较,从所述所有关键词中确定所述待优化关键词集合。
8.根据权利要求1或2所述的方法,其中,所述步骤a包括:
-获取待处理的一个或多个待测关键词,以作为所述目标关键词;
-根据所述目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;
其中,所述步骤b包括:
-根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别;
-根据所述搜索相关性类别,对所述目标关键词进行筛选处理。
9.一种用于确定目标关键词所对应的搜索相关性类别的类别确定设备,其中,该类别确定设备包括:
聚类确定装置,用于根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类,其中,所述搜索排序路径信息用于表明搜索引擎在确定候选搜索结果排序信息过程中所经过的排序算法代码路径信息;
类别确定装置,用于根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理,其中,搜索相关性的含义是指关键词与搜索结果的匹配程度,所述搜索相关性类别包括高相关性类别、低相关性类别、不相关类别、作弊关键词类别中至少任一项。
10.根据权利要求9所述的类别确定设备,其中,所述关键词聚类包含用于表征所述关键词聚类的类搜索排序路径信息;
其中,所述聚类确定装置包括:
比较单元,用于将所述目标关键词的搜索排序路径信息与所述一个或多个关键词聚类所对应的所述类搜索排序路径信息进行比较,以确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的最小编辑距离;
相似度确定单元,用于根据所述最小编辑距离,确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的排序路径相似度;
聚类确定单元,用于根据所述排序路径相似度,确定所述目标关键词聚类。
11.根据权利要求9或10所述的类别确定设备,其中,该类别确定设备还包括:
优选路径确定装置,用于确定所述目标关键词所对应的优选搜索排序路径信息;
调整装置,用于根据所述优选搜索排序路径信息,调整所述目标关键词的搜索排序路径信息;
其中,该类别确定设备还包括:
提供装置,用于若查询序列与所述目标关键词相匹配,按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所对应的用户。
12.根据权利要求11所述的类别确定设备,其中,所述优选路径确定装置用于:
-根据所述目标关键词聚类所包括的各个参考关键词所对应的公共搜索排序路径信息,确定所述优选搜索排序路径信息。
13.根据权利要求11所述的类别确定设备,其中,所述优选路径确定装置用于:
-对所述目标关键词聚类所包括的各个参考关键词所对应的搜索排序路径信息进行统计分析处理,以确定所述优选搜索排序路径信息。
14.根据权利要求9或10所述的类别确定设备,其中,该类别确定设备还包括:
集合确定装置,用于确定所述关键词聚类所对应的待优化关键词集合;
优化路径确定装置,用于根据所述待优化关键词集合包括的一个或多个待优化关键词所对应的公共搜索排序路径信息,确定所述一个或多个待优化关键词的优化搜索排序路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息。
15.根据权利要求14所述的类别确定设备,其中,所述集合确定装置用于:
-将所述关键词聚类所包括的所有关键词的实际搜索结果相关信息与***指标信息进行比较,从所述所有关键词中确定所述待优化关键词集合。
16.根据权利要求9或10所述的类别确定设备,其中,所述聚类确定装置用于:
-获取待处理的一个或多个待测关键词,以作为所述目标关键词;
-根据所述目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;
其中,所述类别确定装置用于:
-根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别;
-根据所述搜索相关性类别,对所述目标关键词进行筛选处理。
17.一种用于确定目标关键词所对应的搜索相关性类别的搜索引擎,其中,该搜索引擎包括如权利要求9至16中任一项所述的类别确定设备。
18.一种用于确定目标关键词所对应的搜索相关性类别的搜索引擎插件,其中,该搜索引擎插件包括如权利要求9至16中任一项所述的类别确定设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210581476.XA CN103902597B (zh) | 2012-12-27 | 2012-12-27 | 确定目标关键词所对应的搜索相关性类别的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210581476.XA CN103902597B (zh) | 2012-12-27 | 2012-12-27 | 确定目标关键词所对应的搜索相关性类别的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103902597A CN103902597A (zh) | 2014-07-02 |
CN103902597B true CN103902597B (zh) | 2019-03-08 |
Family
ID=50993925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210581476.XA Active CN103902597B (zh) | 2012-12-27 | 2012-12-27 | 确定目标关键词所对应的搜索相关性类别的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902597B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9892167B2 (en) * | 2015-03-31 | 2018-02-13 | Rovi Guides, Inc. | Methods and systems for generating cluster-based search results |
CN105184616B (zh) * | 2015-09-29 | 2020-06-19 | 北京奇艺世纪科技有限公司 | 一种业务对象定向投放的方法和装置 |
CN106610989B (zh) * | 2015-10-22 | 2021-06-01 | 北京国双科技有限公司 | 搜索关键词聚类方法及装置 |
CN105976821B (zh) * | 2016-06-17 | 2020-02-07 | 北京小米移动软件有限公司 | 动物语言识别方法和装置 |
US10318562B2 (en) | 2016-07-27 | 2019-06-11 | Google Llc | Triggering application information |
CN106294618A (zh) * | 2016-08-01 | 2017-01-04 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN106599027A (zh) * | 2016-11-01 | 2017-04-26 | 四川用联信息技术有限公司 | 基于改进的蚁群算法实现关键词优化 |
CN108062337B (zh) * | 2016-11-09 | 2021-03-16 | 北京国双科技有限公司 | 一种对爬虫种子打标签的方法及装置 |
CN108319626B (zh) * | 2017-01-18 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 一种基于名称信息的对象分类方法与设备 |
CN107590169B (zh) * | 2017-04-14 | 2020-03-06 | 南方科技大学 | 一种运营商网关数据的预处理方法及*** |
CN107977405B (zh) * | 2017-11-16 | 2021-01-22 | 北京三快在线科技有限公司 | 数据排序方法、数据排序装置、电子设备及可读存储介质 |
WO2020061910A1 (zh) * | 2018-09-27 | 2020-04-02 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN111309947A (zh) * | 2018-12-11 | 2020-06-19 | 华勤通讯技术有限公司 | 移动终端的图片展示方法及*** |
CN109918624B (zh) * | 2019-03-18 | 2022-10-04 | 北京搜狗科技发展有限公司 | 一种网页文本相似度的计算方法和装置 |
CN111507400B (zh) * | 2020-04-16 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 应用分类方法、装置、电子设备以及存储介质 |
CN111523036B (zh) * | 2020-04-24 | 2023-12-19 | 北京百度网讯科技有限公司 | 一种搜索行为挖掘方法、装置和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059805A (zh) * | 2007-03-29 | 2007-10-24 | 复旦大学 | 基于网络流和分层知识库的动态文本聚类方法 |
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和***及应用*** |
CN101639831A (zh) * | 2008-07-29 | 2010-02-03 | 华为技术有限公司 | 一种搜索方法、装置及*** |
CN102411580A (zh) * | 2010-09-20 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 可扩展标记语言文档的检索方法及装置 |
-
2012
- 2012-12-27 CN CN201210581476.XA patent/CN103902597B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059805A (zh) * | 2007-03-29 | 2007-10-24 | 复旦大学 | 基于网络流和分层知识库的动态文本聚类方法 |
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和***及应用*** |
CN101639831A (zh) * | 2008-07-29 | 2010-02-03 | 华为技术有限公司 | 一种搜索方法、装置及*** |
CN102411580A (zh) * | 2010-09-20 | 2012-04-11 | 腾讯科技(深圳)有限公司 | 可扩展标记语言文档的检索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103902597A (zh) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103902597B (zh) | 确定目标关键词所对应的搜索相关性类别的方法和设备 | |
US11036814B2 (en) | Search engine that applies feedback from users to improve search results | |
CN107862022B (zh) | 文化资源推荐*** | |
CN102792262B (zh) | 使用权利要求分析排序知识产权文档的方法和*** | |
CN103729351B (zh) | 查询词推荐方法及装置 | |
CN102929873B (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
CN100465954C (zh) | 用于搜索术语建议的多种类型数据的加强群集 | |
US9031944B2 (en) | System and method for providing multi-core and multi-level topical organization in social indexes | |
CN109189904A (zh) | 个性化搜索方法及*** | |
WO2021135562A1 (zh) | 特征有效性评估方法、装置、电子设备及存储介质 | |
CN103838754B (zh) | 信息搜索装置及方法 | |
US20080005091A1 (en) | Visual and multi-dimensional search | |
US20080005105A1 (en) | Visual and multi-dimensional search | |
WO2017000610A1 (zh) | 一种网页分类的方法和装置 | |
CN106204156A (zh) | 一种用于网络论坛的广告投放方法及装置 | |
CN107844533A (zh) | 一种智能问答***及分析方法 | |
CN107357902A (zh) | 一种基于关联规则的数据表分类***与方法 | |
CN110706015B (zh) | 一种面向广告点击率预测的特征选取方法 | |
CN106709037A (zh) | 一种基于异构信息网络的电影推荐方法 | |
CN108665148B (zh) | 一种电子资源质量评价方法、装置和存储介质 | |
CN104699817B (zh) | 一种基于改进谱聚类的搜索引擎排序方法与*** | |
Zhou et al. | Relevance feature mapping for content-based multimedia information retrieval | |
Nasraoui et al. | A framework for mining evolving trends in web data streams using dynamic learning and retrospective validation | |
Jaho et al. | ISCoDe: a framework for interest similarity-based community detection in social networks | |
CN104462259B (zh) | 一种用于提供时效性图片搜索结果的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |