CN103617266A - 个性化扩展搜索方法及装置、*** - Google Patents

个性化扩展搜索方法及装置、*** Download PDF

Info

Publication number
CN103617266A
CN103617266A CN201310642388.0A CN201310642388A CN103617266A CN 103617266 A CN103617266 A CN 103617266A CN 201310642388 A CN201310642388 A CN 201310642388A CN 103617266 A CN103617266 A CN 103617266A
Authority
CN
China
Prior art keywords
keyword
user terminal
server
search
high frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310642388.0A
Other languages
English (en)
Inventor
李天华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310642388.0A priority Critical patent/CN103617266A/zh
Publication of CN103617266A publication Critical patent/CN103617266A/zh
Priority to PCT/CN2014/092134 priority patent/WO2015081792A1/zh
Priority to US15/101,693 priority patent/US20160306887A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种个性化扩展搜索方法及装置、***,其中,所述方法包括服务器接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;根据所述用户终端发送的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。较现有技术,采用本发明实施例提供的所述方法得出的搜索结果的有效性更高。

Description

个性化扩展搜索方法及装置、***
技术领域
本发明涉及数据处理技术,尤其涉及一种个性化扩展搜索方法及装置、***。
背景技术
随着网络技术的不断发展,用户越来越依靠搜索引擎来获取网络数据,通常,用户可以通过终端向网络侧的服务器发送搜索请求,服务器中的搜索引擎根据搜索请求中携带的关键词,搜索出包含有所述关键词的文档数据。
然而,互联网上的数据质量参差不齐,现有技术仅考虑关键词与文档数据字面上的相关程度,并未考虑文档数据所包含的具体内容,排在最前面的字面相关程度高的文档数据信息可能只是包含有用户欲搜索的关键词,并未考虑文档数据所包含的具体内容,从用户的角度来看,并不具有参考价值。
由此可知,现有的搜索数据处理方法得出的搜索结果的有效性较低。
发明内容
本发明提供一种个性化扩展搜索方法及装置、***,以提高搜索结果的有效性。
第一方面,本发明提供一种个性化扩展搜索方法,包括:
服务器接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
所述服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
其中,所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合,包括:
所述服务器获取所述用户终端的标识,根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;
查询所述历史搜索请求记录,获取一个或一个以上的高频词;
将所述一个或一个以上的高频词确定为第二关键词,得到第二关键词集合,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词。
其中,所述查询所述历史搜索请求记录,获取一个或一个以上的高频词之后,包括:
所述服务器根据预设的类别,将所述历史搜索请求记录中获取的一个或一个以上的高频词进行归类;
根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
其中,所述服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据,包括:
所述服务器将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,确定第三关键词集合;
分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
其中,所述服务器接收用户终端发送的搜索请求之后,还包括:
所述服务器将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
第二方面,提供一种个性化扩展搜索装置,位于服务器侧,其中,包括:
接收模块,用于接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
确定模块,用于根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
获取模块,用于根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
其中:所述确定模块,还用于根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;
所述获取模块,还用于查询所述确定模块确定的历史搜索请求记录,获取一个或一个以上的高频词;
所述确定模块,还用于将所述获取模块获取的一个或一个以上的高频词确定为第二关键词,得到第二关键词集合,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词。
其中,所述装置还包括:
归类模块,用于根据预设的类别,将所述获取模块获取的一个或一个以上的高频词进行归类;
所述确定模块,还用于在所述归类模块对所述获取的一个或一个以上的高频词进行归类的基础上,根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
其中,所述获取模块具体用于:将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,得到第三关键词集合;分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
其中,所述的装置还包括:
保存模块,用于将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
第三方面,提供一种个性化扩展搜索***,其包括:服务器和用户终端;
所述服务器包括如第二方面所述的个性化扩展搜索装置;
所述用户终端,用于向服务器发送搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;以使所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
本发明的技术效果是:本实施例的服务器在接收用户终端发送的搜索请求时,获取所述搜索请求中包括用户欲搜索的第一关键词;根据所述用户终端发送的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。所述方法不仅考虑了用户欲搜索第一关键词与文档数据相关程度,还同时考虑了历史搜索请求记录中出现的包括高频字段的第二关键词集合,第二关键词体现用户的喜好或者用户的兴趣(个性化),结合用户欲搜索的第一关键词和用户感兴趣的第二关键词集合,得到相应的搜索结果。较现有技术,采用本发明实施例提供的所述方法得出的搜索结果的有效性更高,体现了用户个性化的搜索要求。
附图说明
图1为本发明实施例一提供的个性化扩展搜索方法的流程示意图;
图2为本发明实施例二提供的个性化扩展搜索装置的结构示意图;
图3为本发明实施例三提供的服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例所述的服务器为提供搜索引擎功能的服务器,例如包括360搜索引擎服务器;用户终端例如包括台式电脑或笔记本电脑等计算设备,或者包括用户手机等移动设备。
如图1所示,本发明实施例一提供的个性化扩展搜索方法的流程示意图。如图所示,本实施例一所述方法包括:
步骤101、服务器接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
在实际应用中,用户通过用户终端在服务器提供的搜索功能的界面中输入第一关键词,并点击相应的触发检索的按钮,以生成搜索请求发送到服务器,该搜索请求中携带有用户欲搜索的第一关键词;
服务器根据用户终端发送的搜索请求,获取该搜索请求中携带的该用户终端的标识(如IP地址),生成与该用户终端的标识对应的历史搜索请求记录,将用户通过该用户终端发送的搜索请求中的第一关键词保存到与该用户终端的标识对应的历史搜索请求记录中。其中,历史搜索请求记录的结构如下表2所示。
步骤102、服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
例如,服务器获取搜索请求中携带的用户终端的标识,根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;查询所述历史搜索请求记录,将历史搜索请求记录出现次数超过阈值的关键词确定高频词,将这些高频词确定为第二关键词集合;需要说明的是,在历史搜索请求记录出现次数超过阈值的字段通常体现用户感兴趣的关键词或用户喜好的关键词;
进一步地,服务器根据与所述用户终端的标识对应的历史搜索请求记录,确定高频词之后,还可以对确定的高频词进行分析归类,比如用户经常搜索的高频词包括“刘德华的影视作品”、“韩寒的作品”、“格子衬衫”、“打底裤”、“保暖鞋”、“好丽友薯片”、“三元牛奶”等,可以将““刘德华的影视作品”、“韩寒的作品”归类为娱乐类的高频词,将“格子衬衫”、“打底裤”、“保暖鞋”归类为服装类的高频词,将“好丽友薯片”、“三元牛奶”归类为食品类的高频词,之后,结合搜索请求中的第一关键词,确定第一关键词的类别,例如第一关键词为“郭敬明的身高”,可以将第一关键词“郭敬明的身高”归类为娱乐类的关键词,从而判断用户当前感兴趣的搜索可能为娱乐类的搜索,对应地,可以将历史搜索请求记录中与第一关键词类别相同的高频词确定为第二关键词集合,即将“刘德华的影视作品”、“韩寒的作品”确定为第二关键词集合。
步骤103、服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
通常,用户搜索的第一关键词中包括一个或一个以上的字段,上述确定第二关键词集合中的第二关键词也包括一个或一个以上的字段;则步骤103可以包括:
服务器将第一关键词中包括的字段与第二关键词集合中包括的字段进行组合,确定第三关键词集合;
分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据;
其中,第三关键词对应的文档数据中包括与该第三关键词对应的网页的统一资源定位符(Uniform/Universal Resource Locator,URL)。
下面结合附图和具体实施方式对本发明的技术方案做进一步的详细说明:
举例来说,本发明实施例所述的服务器可以释放出网络爬虫,获取因特网上的网页,服务器对获取到的网页进行分词,形成以关键词为索引的索引表;其中,索引表用于根据关键词索引查找网页,可以实现快速高效的网页搜索,索引表中存储有关键词、关键词对应的URL。
需要说明的是,网络爬虫又名网络蜘蛛(Web spider),是现有技术中的一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,本发明对此不作详细介绍。
上述索引表的结构如表1所示:
Figure BDA0000428921570000061
当用户终端向服务器发送搜索请求之后,服务器根据用户终端发送的搜索请求中包括的第一关键词,查询上述索引表,得到与该第一关键词对应的网页URL的集合(即网页搜索结果);之后,服务器将网页搜索结果发送给用户终端,具体地,网页搜索结果通过超文本传输协议(HTTP-Hypertext transfer protocol,HTTP)应答展现在用户终端侧。例如,当搜索请求中包括的第一关键词为“郭敬明身高”,在索引中找到关键词为“郭敬明身高”对应的网页URL的集合,将网页URL的集合中有关“郭敬明身高”的网页的URL一一显示在用户终端侧,以便用户可以点击这些网页URL(网页链接)去访问相关网页;
之后,服务器可以利用现有的Cookies技术将用户搜索过的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。例如,服务器根据用户终端发送的搜索请求,获取该搜索请求中携带的该用户终端的标识(如IP地址),生成与该用户终端的标识对应的历史搜索请求记录,将用户通过该用户终端发送的搜索请求中的第一关键词保存到与该用户终端的标识对应的历史搜索请求记录中。其中,历史搜索请求记录如表2所示:
用户终端的标识 历史搜索请求记录
标识1 key1,key2,……
标识2 key1,key2,……
…… ……
其中,Cookies技术是一种能够让服务器把少量数据储存到用户终端的硬盘或内存,或是从用户终端的硬盘或内存读取数据的一种技术。比如,当用户浏览某网站时,服务器可以在用户终端的硬盘或内存上植入一个非常小的文本文件,该文本文件用于记录用户信息、密码、浏览过的网页、搜索过的关键词、网页停留的时间等信息。
根据上述获取的有关用户终端的历史搜索请求记录,将历史搜索请求记录中出现次数超过阈值的关键词确定为高频词,并将这些高频词确定为二关键词,得到第二关键词集合;或者,根据历史搜索请求记录确定高频词之后,对确定的高频词进行分析归类,结合搜索请求中的第一关键词,确定第一关键词的类别,并将历史搜索请求记录中与第一关键词类别相同的高频词确定为第二关键词集合。
例如,用户搜索的第一关键词为“郭敬明的身高”,可以将第一关键词“郭敬明的身高”归类为娱乐类的关键词,从而判断用户当前感兴趣的搜索可能为娱乐类的搜索,从而可以将历史搜索请求记录中与第一关键词类别相同(娱乐类)的高频词确定为第二关键词集合。假设历史搜索请求记录中娱乐类的高频词包括“刘德华的影视作品”、“韩寒的小说”,则可以将这些娱乐类的高频词“刘德华的影视作品”、“韩寒的小说”确定为第二关键词集合。
之后,服务器根据所述第一关键词和所述第二关键词集合,确定第三关键词集合,具体为:服务器将第一关键词中包括的字段与第二关键词集合中包括的字段进行组合,得到多个第三关键词(第三关键词集合);
例如,第一关键词为“郭敬明身高”,第一关键词中包括“郭敬明”和“身高”两个字段,第二关键词集合包括“刘德华的影视作品”、“韩寒的小说”,则第二关键词集合中包括“刘德华”、“影视作品”、“韩寒”、“小说”四个字段,将第一关键词中包括的字段与第二关键词集合中包括的字段进行组合,得到的第三关键词集合包括“刘德华身高”、“韩寒身高”、“郭敬明影视作品”、“郭敬明小说”;
需要说明的是,服务器在将第一关键词中包括的字段与第二关键词集合中包括的字段进行组合时,会根据组合之后的词义进行分析和取舍,例如,将第一关键词中的字段“身高”和关键词中的字段“小说”组合在一起时不符合组词的常规逻辑,则不会将“身高小说”确定为第三关键词。
之后,分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据;例如,将第一关键词中的“郭敬明”和第二关键词集合中的“小说”字段,得到第三关键词为“郭敬明小说”;服务器根据第三关键词“郭敬明小说”查询上述索引表,得到与该第三关键词“郭敬明小说”对应的网页URL的集合(即有关“郭敬明小说”的网页搜索结果);
之后,服务器将网页搜索结果发送给用户终端,具体地,网页搜索结果通过超文本传输协议HTTP应答展现在用户终端侧,以便用户可以点击这些网页URL(网页链接)去访问有关“郭敬明小说”的网页;
本实施例的服务器在接收用户终端发送的搜索请求时,获取所述搜索请求中包括用户欲搜索的第一关键词;根据所述用户终端发送的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。所述方法不仅考虑了用户欲搜索第一关键词与文档数据相关程度,还同时考虑了历史搜索请求记录中出现的包括高频字段的第二关键词集合,第二关键词集合体现用户的喜好或者用户的兴趣,结合用户欲搜索的第一关键词和用户感兴趣的第二关键词集合,得到相应的搜索结果。较现有技术,采用本发明实施例提供的所述方法得出的搜索结果的有效性更高,体现了用户个性化的搜索要求。
图2为本发明实施例二提供的个性化扩展搜索装置的结构示意图;如图2所示,包括:
接收模块21,用于接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
确定模块22,用于根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
获取模块23,用于根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
其中:所述确定模块22,还用于根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;
所述获取模块23,还用于查询所述确定模块22确定的历史搜索请求记录,获取一个或一个以上的高频词;
所述确定模块22,还用于将所述获取模块23获取的一个或一个以上的高频词确定为第二关键词,得到第二关键词集合,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词。
其中,所述的装置还包括:
归类模块24,用于根据预设的类别,将所述获取模块获取的一个或一个以上的高频词进行归类;
所述确定模块22,还用于在所述归类模块24对所述获取模块23获取的一个或一个以上的高频词进行归类的基础上,根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
其中,所述获取模块23具体用于:
将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,得到第三关键词集合;分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
其中,所述的装置还包括:
保存模块25,用于将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
本实施例的服务器在接收用户终端发送的搜索请求时,获取所述搜索请求中包括用户欲搜索的第一关键词;根据所述用户终端发送的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。所述方法不仅考虑了用户欲搜索第一关键词与文档数据相关程度,还同时考虑了历史搜索请求记录中出现的包括高频字段的第二关键词集合,第二关键词集合体现用户的喜好或者用户的兴趣,结合用户欲搜索的第一关键词和用户感兴趣的第二关键词集合,得到相应的搜索结果。较现有技术,采用本发明实施例提供的所述方法得出的搜索结果的有效性更高,体现了用户个性化的搜索要求。
图3为本发明实施例三提供的服务器的结构示意图,如图3所示,本实施例所述的服务器包括处理器31、存储器32和通信总线33,其中,处理器31通过通信总线33和存储器32连接,存储器32中保存有实现上述搜索数据处理方法的指令,当处理器31调用存储器32中的指令时,可以执行如下步骤:
接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
其中,所述根据所述用户终端的历史搜索请求记录,确定第二关键词集合,包括:
获取所述用户终端的标识,根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;
查询所述历史搜索请求记录,获取一个或一个以上的高频词;
将所述一个或一个以上的高频词确定为第二关键词,得到第二关键词集合,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词。
其中,所述查询所述历史搜索请求记录,获取一个或一个以上的高频词之后,包括:
根据预设的类别,将所述历史搜索请求记录中获取的一个或一个以上的高频词进行归类;
根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
其中,所述根据所述第一关键词和所述第二关键词集合,搜索得到文档数据,包括:
将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,确定第三关键词集合;
分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
其中,所述接收用户终端发送的搜索请求之后,还包括:
将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
本实施例的服务器在接收用户终端发送的搜索请求时,获取所述搜索请求中包括用户欲搜索的第一关键词;根据所述用户终端发送的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。所述方法不仅考虑了用户欲搜索第一关键词与文档数据相关程度,还同时考虑了历史搜索请求记录中出现的包括高频字段的第二关键词集合,第二关键词集合体现用户的喜好或者用户的兴趣,结合用户欲搜索的第一关键词和用户感兴趣的第二关键词集合,得到相应的搜索结果。较现有技术,采用本发明实施例提供的所述方法得出的搜索结果的有效性更高,体现了用户个性化的搜索要求。
本发明实施例还提供一种个性化扩展搜索***,包括:服务器和用户终端;其中,服务器为图3所示实施例提供的服务器,详细内容不再赘述。
所述用户终端,用于向服务器发送搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;以使所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种个性化扩展搜索方法,其包括:
服务器接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
所述服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
2.根据权利要求1所述的方法,其中,所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合,包括:
所述服务器获取所述用户终端的标识,根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;
查询所述历史搜索请求记录,获取一个或一个以上的高频词,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词;
将所述一个或一个以上的高频词确定为第二关键词,得到第二关键词集合。
3.根据权利要求2所述的方法,其中,所述查询所述历史搜索请求记录,获取一个或一个以上的高频词之后,包括:
所述服务器根据预设的类别,将所述历史搜索请求记录中获取的一个或一个以上的高频词进行归类;
根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
4.根据权利要求1-3任一项所述的方法,其中,所述服务器根据所述第一关键词和所述第二关键词集合,搜索得到文档数据,包括:
所述服务器将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,确定第三关键词集合;
分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
5.根据权利要求1所述的方法,其中,所述服务器接收用户终端发送的搜索请求之后,还包括:
所述服务器将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
6.一种个性化扩展搜索装置,位于服务器侧,其中,包括:
接收模块,用于接收用户终端发送的搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;
确定模块,用于根据所述用户终端的历史搜索请求记录,确定第二关键词集合;
获取模块,用于根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
7.根据权利要求6所述的装置,其中:
所述确定模块,还用于根据所述用户终端的标识确定与所述用户终端的标识对应的历史搜索请求记录;
所述获取模块,还用于查询所述确定模块确定的历史搜索请求记录,获取一个或一个以上的高频词;
所述确定模块,还用于将所述获取模块获取的一个或一个以上的高频词确定为第二关键词,得到第二关键词集合,所述高频词为在历史搜索请求记录中出现次数超过阈值的关键词。
8.根据权利要求7所述的装置,其中,还包括:
归类模块,用于根据预设的类别,将所述获取模块获取的一个或一个以上的高频词进行归类;
所述确定模块,还用于在所述归类模块对所述获取的一个或一个以上的高频词进行归类的基础上,根据所述第一关键词的类别,将所述历史搜索请求记录中与所述第一关键词的类别相同的高频词确定为第二关键词集合。
9.根据权利要求6-8任一项所述的装置,其中,所述获取模块具体用于:
将所述第一关键词中包括的字段与所述第二关键词集合中包括的字段进行组合,得到第三关键词集合;分别根据所述第三关键词集合中的第三关键词,搜索得到与各第三关键词对应的文档数据,所述文档数据中包括与各第三关键词对应的网页的统一资源定位URL。
10.根据权利要求6所述的装置,其中,还包括:
保存模块,用于将所述搜索请求中包括的用户欲搜索的第一关键词保存到与所述用户终端的标识对应的所述历史搜索请求记录。
11.一种个性化扩展搜索***,其包括:服务器和用户终端;
所述服务器包括如权利要求6-10任一项所述的个性化扩展搜索装置;
所述用户终端,用于向服务器发送搜索请求,所述搜索请求中包括用户欲搜索的第一关键词;以使所述服务器根据所述用户终端的历史搜索请求记录,确定第二关键词集合;根据所述第一关键词和所述第二关键词集合,搜索得到文档数据。
CN201310642388.0A 2013-12-03 2013-12-03 个性化扩展搜索方法及装置、*** Pending CN103617266A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310642388.0A CN103617266A (zh) 2013-12-03 2013-12-03 个性化扩展搜索方法及装置、***
PCT/CN2014/092134 WO2015081792A1 (zh) 2013-12-03 2014-11-25 联动性和个性化扩展搜索方法及装置、***
US15/101,693 US20160306887A1 (en) 2013-12-03 2014-11-25 Methods, apparatuses and systems for linked and personalized extended search

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310642388.0A CN103617266A (zh) 2013-12-03 2013-12-03 个性化扩展搜索方法及装置、***

Publications (1)

Publication Number Publication Date
CN103617266A true CN103617266A (zh) 2014-03-05

Family

ID=50167969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310642388.0A Pending CN103617266A (zh) 2013-12-03 2013-12-03 个性化扩展搜索方法及装置、***

Country Status (1)

Country Link
CN (1) CN103617266A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984740A (zh) * 2014-05-23 2014-08-13 合一网络技术(北京)有限公司 基于组合标签的检索页显示的方法和***
WO2015081792A1 (zh) * 2013-12-03 2015-06-11 北京奇虎科技有限公司 联动性和个性化扩展搜索方法及装置、***
CN104965919A (zh) * 2015-07-06 2015-10-07 无锡天脉聚源传媒科技有限公司 一种搜索处理方法和装置
CN105574113A (zh) * 2015-12-14 2016-05-11 四川九成信息技术有限公司 一种大数据环境下的数据管理方法
CN106294661A (zh) * 2016-08-04 2017-01-04 百度在线网络技术(北京)有限公司 一种扩展搜索方法与装置
CN106874507A (zh) * 2017-02-28 2017-06-20 百度在线网络技术(北京)有限公司 用于推送信息的方法、装置及服务器
CN107153516A (zh) * 2016-03-04 2017-09-12 富士施乐实业发展(中国)有限公司 智能打印方法及***
CN107577726A (zh) * 2017-08-22 2018-01-12 努比亚技术有限公司 一种搜索方法、服务器及计算机可读存储介质
CN108363682A (zh) * 2018-02-11 2018-08-03 广州数知科技有限公司 一种目标文本显示方法及装置
CN109299328A (zh) * 2018-12-03 2019-02-01 广州华多网络科技有限公司 一种视频搜索方法、服务器、客户端及存储介质
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN111475725A (zh) * 2020-04-01 2020-07-31 百度在线网络技术(北京)有限公司 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN111737445A (zh) * 2020-06-22 2020-10-02 中国银行股份有限公司 知识库搜索方法及装置
CN117932005A (zh) * 2024-03-21 2024-04-26 成都市技师学院(成都工贸职业技术学院、成都市高级技工学校、成都铁路工程学校) 一种基于人工智能的语音交互方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114294A (zh) * 2007-08-22 2008-01-30 杭州经合易智控股有限公司 自助式智能垂直搜索方法
CN102930022A (zh) * 2012-10-31 2013-02-13 中国运载火箭技术研究院 面向用户的信息搜索引擎***及方法
CN103221950A (zh) * 2010-05-28 2013-07-24 崔镇根 扩展搜索词选择***和用于选择扩展搜索词的方法
CN103279486A (zh) * 2013-04-24 2013-09-04 百度在线网络技术(北京)有限公司 一种提供相关搜索的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114294A (zh) * 2007-08-22 2008-01-30 杭州经合易智控股有限公司 自助式智能垂直搜索方法
CN103221950A (zh) * 2010-05-28 2013-07-24 崔镇根 扩展搜索词选择***和用于选择扩展搜索词的方法
CN102930022A (zh) * 2012-10-31 2013-02-13 中国运载火箭技术研究院 面向用户的信息搜索引擎***及方法
CN103279486A (zh) * 2013-04-24 2013-09-04 百度在线网络技术(北京)有限公司 一种提供相关搜索的方法和装置

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015081792A1 (zh) * 2013-12-03 2015-06-11 北京奇虎科技有限公司 联动性和个性化扩展搜索方法及装置、***
CN103984740B (zh) * 2014-05-23 2016-01-06 合一网络技术(北京)有限公司 基于组合标签的检索页显示的方法和***
CN103984740A (zh) * 2014-05-23 2014-08-13 合一网络技术(北京)有限公司 基于组合标签的检索页显示的方法和***
CN104965919A (zh) * 2015-07-06 2015-10-07 无锡天脉聚源传媒科技有限公司 一种搜索处理方法和装置
CN105574113A (zh) * 2015-12-14 2016-05-11 四川九成信息技术有限公司 一种大数据环境下的数据管理方法
CN105574113B (zh) * 2015-12-14 2019-01-29 山东金佳园科技股份有限公司 一种大数据环境下的数据管理方法
CN107153516A (zh) * 2016-03-04 2017-09-12 富士施乐实业发展(中国)有限公司 智能打印方法及***
CN107153516B (zh) * 2016-03-04 2020-07-14 富士施乐实业发展(中国)有限公司 智能打印方法及***
CN106294661B (zh) * 2016-08-04 2019-09-20 百度在线网络技术(北京)有限公司 一种扩展搜索方法与装置
CN106294661A (zh) * 2016-08-04 2017-01-04 百度在线网络技术(北京)有限公司 一种扩展搜索方法与装置
US10552422B2 (en) 2016-08-04 2020-02-04 Baidu Online Network Technology (Beijing) Co., Ltd. Extended search method and apparatus
CN106874507A (zh) * 2017-02-28 2017-06-20 百度在线网络技术(北京)有限公司 用于推送信息的方法、装置及服务器
CN106874507B (zh) * 2017-02-28 2020-12-25 百度在线网络技术(北京)有限公司 用于推送信息的方法、装置及服务器
CN107577726A (zh) * 2017-08-22 2018-01-12 努比亚技术有限公司 一种搜索方法、服务器及计算机可读存储介质
CN107577726B (zh) * 2017-08-22 2021-11-12 努比亚技术有限公司 一种搜索方法、服务器及计算机可读存储介质
CN108363682A (zh) * 2018-02-11 2018-08-03 广州数知科技有限公司 一种目标文本显示方法及装置
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN109299328A (zh) * 2018-12-03 2019-02-01 广州华多网络科技有限公司 一种视频搜索方法、服务器、客户端及存储介质
CN111475725A (zh) * 2020-04-01 2020-07-31 百度在线网络技术(北京)有限公司 用于搜索内容的方法、装置、设备和计算机可读存储介质
WO2021196541A1 (zh) * 2020-04-01 2021-10-07 百度在线网络技术(北京)有限公司 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN111475725B (zh) * 2020-04-01 2023-11-07 百度在线网络技术(北京)有限公司 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN111737445A (zh) * 2020-06-22 2020-10-02 中国银行股份有限公司 知识库搜索方法及装置
CN111737445B (zh) * 2020-06-22 2023-09-01 中国银行股份有限公司 知识库搜索方法及装置
CN117932005A (zh) * 2024-03-21 2024-04-26 成都市技师学院(成都工贸职业技术学院、成都市高级技工学校、成都铁路工程学校) 一种基于人工智能的语音交互方法
CN117932005B (zh) * 2024-03-21 2024-06-04 成都市技师学院(成都工贸职业技术学院、成都市高级技工学校、成都铁路工程学校) 一种基于人工智能的语音交互方法

Similar Documents

Publication Publication Date Title
CN103617266A (zh) 个性化扩展搜索方法及装置、***
CN102693271B (zh) 一种网络信息推荐方法及***
CN103744856A (zh) 联动性扩展搜索方法及装置、***
US9336202B2 (en) Method and system relating to salient content extraction for electronic content
WO2014180130A1 (en) Method and system for recommending contents
US20160306887A1 (en) Methods, apparatuses and systems for linked and personalized extended search
US20140331142A1 (en) Method and system for recommending contents
CN104850546B (zh) 移动媒介信息的展示方法和***
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
CN106021583B (zh) 页面流量数据的统计方法及其***
CN103997507A (zh) 一种信息的推送方法及装置
US20130185429A1 (en) Processing Store Visiting Data
CN101409690A (zh) 一种互联网用户行为的获取方法和***
CN101833570A (zh) 一种移动终端页面推送优化的方法和装置
CN104750754A (zh) 网站所属行业的分类方法和服务器
US20100011025A1 (en) Transfer learning methods and apparatuses for establishing additive models for related-task ranking
US11423096B2 (en) Method and apparatus for outputting information
CN103248677B (zh) 互联网行为分析***及其工作方法
CN114417197A (zh) 一种访问记录处理方法、装置及存储介质
CN103885987A (zh) 一种音乐推荐方法和***
CN104899220A (zh) 应用程序推荐方法和***
CN101963965A (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN103617267A (zh) 社交化扩展搜索方法及装置、***
CN104750760A (zh) 一种推荐应用软件的实现方法及装置
CN109977312B (zh) 一种基于内容标签的知识库推荐***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140305

RJ01 Rejection of invention patent application after publication