CN105159898A - 一种搜索的方法和装置 - Google Patents

一种搜索的方法和装置 Download PDF

Info

Publication number
CN105159898A
CN105159898A CN201410262143.XA CN201410262143A CN105159898A CN 105159898 A CN105159898 A CN 105159898A CN 201410262143 A CN201410262143 A CN 201410262143A CN 105159898 A CN105159898 A CN 105159898A
Authority
CN
China
Prior art keywords
query
word string
user
query word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410262143.XA
Other languages
English (en)
Other versions
CN105159898B (zh
Inventor
张友书
张阔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201410262143.XA priority Critical patent/CN105159898B/zh
Publication of CN105159898A publication Critical patent/CN105159898A/zh
Application granted granted Critical
Publication of CN105159898B publication Critical patent/CN105159898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种搜索的方法和装置,所述的方法包括:当接收到第一用户提交的原始查询词串时,以所述原始查询词串进行搜索,获得匹配的网络信息;根据所述网络信息判断所述原始查询词串是否为多查询意图的查询词串;若是,则按照每个查询意图将所述原始查询词串分别改写为多个具有所述查询意图的第一查询词串;分别按照所述第一查询词串查找与所述第一查询词串具有相同或相似查询意图的第二用户;其中,所述第二用户具有社区信息;将所述网络信息和所述第二用户对应的社区信息合成搜索结果。本发明实施例避免了第一用户重复对海量的网络信息进行繁琐的人工过滤,减少了第一用户时间和精力的耗费,大大提高了信息获取的效率、质量和容量。

Description

一种搜索的方法和装置
技术领域
本发明涉及搜索的技术领域,特别是涉及一种搜索的方法和一种搜索的装置。
背景技术
随着网络的迅速发展,网络信息急剧增加。用户为了在海量的网络信息中寻找所需的网络信息,通常使用搜索引擎进行搜索。
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的***。网络信息浩瀚万千,而且毫无秩序,所有的网络信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。
但是,网络信息增长的速度和人们获取所需信息能力之间的矛盾越来越突出,过量的网络信息使得用户在搜索网络信息的时候要进行繁琐的人工过滤,耗费大量时间和精力,网络信息的搜索效率很低。
发明内容
本发明实施例所要解决的技术问题是提供一种搜索的方法,用以提高网络信息的搜索效率。
相应的,本发明实施例还提供了一种搜索的装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种搜索的方法,包括:
当接收到第一用户提交的原始查询词串时,以所述原始查询词串进行搜索,获得匹配的网络信息;
根据所述网络信息判断所述原始查询词串是否为多查询意图的查询词串;若是,则按照每个查询意图将所述原始查询词串分别改写为多个具有所述查询意图的第一查询词串;
分别按照所述第一查询词串查找与所述第一查询词串具有相同或相似查询意图的第二用户;其中,所述第二用户具有社区信息;
将所述网络信息和所述第二用户对应的社区信息合成搜索结果。
优选地,所述判断所述原始查询词串是否为多查询意图的查询词串的步骤包括:
获取所述原始查询词串匹配的第一特征网络信息;所述第一特征网络信息包括排序最高的前N条网络信息和/或历史点击次数最多的前M条网络信息;
获取其他查询词串匹配的第二特征网络信息;所述第二特征网络信息包括排序最高的前A条网络信息和/或历史点击次数最多的前B条网络信息;
判断所述第一特征网络信息中是否包括至少两个第二特征网络信息;若是,则判定所述原始查询词串为多查询意图的查询词串;其中,M、N、A、B均为正整数。
优选地,所述判断所述原始查询词串是否为多查询意图的查询词串的步骤包括:
在既定的知识库中查找所述原始查询词串对应的实体类别;
当所述实体类别超过两个时,判定所述原始查询词串为多查询意图的查询词串。
优选地,所述判断所述原始查询词串是否为多查询意图的查询词串的步骤包括:
在既定的知识库中查找所述原始查询词串关联的特征词;
判断在全网的网页中,所述特征词的数量是否超过预设数量阈值;若是,则采用知识库的实体类别对所述特征词进行分类;
当获得至少两个分类时,判定所述原始查询词串为多查询意图的查询词串。
优选地,所述查找与所述第一查询词串具有相同或相似查询意图的第二用户的步骤包括:
分别获取所述第一用户的每个第一查询词串对应的第一查询意图信息以及所述第二用户的第二查询意图信息;
分别计算所述第一查询意图信息与所述第二查询意图信息的相似度;
当所述相似度大于预设的相似度阈值时,判断所述第一查询词串与所述第二用户具有相同或相似的查询意图。
优选地,所述第一查询意图信息包括第一特征向量,所述第一特征向量根据所述第一查询词串进行确定;
所述第二查询意图信息包括第二特征向量,所述第二特征向量根据所述第二查询词串进行确定;
其中,所述第二查询词串为所述第二用户在先提交的查询词串。
优选地,所述第一特征向量包括以下至少一种:
第一查询词串、与第一查询词串的分词关联的特征向量、与第一查询词串匹配的网络信息关联的特征向量;
所述第二特征向量包括以下至少一种:
第二查询词串、与第二查询词串的分词关联的特征向量、与第二查询词串匹配的网络信息关联的特征向量。
优选地,所述将所述网络信息和所述第二用户对应的社区信息合成搜索结果的步骤包括:
计算每个查询意图下所述第一用户与所述第二用户的关联密切度;
按照所述关联密切度对所述第二用户对应的社区信息进行排序;
将所述网络信息和排序后的第二用户对应的社区信息合成搜索结果。
优选地,所述计算每个查询意图下所述第一用户与所述第二用户的关联密切度的步骤包括:
对每个查询意图下所述第一查询意图信息与所述第二查询意图信息的相似度,和/或,所述第一用户与所述第二用户之间的关联信息,和/或,所述第二用户对所述第二查询意图的历史操作信息录配置对应的权重;
对配置权重之后的所述第一查询意图信息与所述第二查询意图信息的相似度,和/或,所述第一用户与所述第二用户之间的关联信息,和/或,所述第二用户对所述第二查询意图的历史操作信息进行求和计算,获得每个查询意图下所述第一用户与所述第二用户的关联密切度。
优选地,所述第一用户与所述第二用户之间的关联信息包括以下至少一种:
预设时间段内的平均联系次数、预设时间段内的平均联系时长、共同好友的数量、居住位置;
所述第二用户对所述第二查询意图的历史操作信息包括以下至少一种:
所述第二查询意图对应的搜索次数、所述第二查询意图对应的网络信息的浏览时长、所述第二查询意图对应的搜索持续天数。
优选地,所述第一用户与所述第二用户之间具有社区好友关系。
本发明实施例还公开了一种搜索的装置,包括:
网络信息搜索模块,用于在接收到第一用户提交的原始查询词串时,以所述原始查询词串进行搜索,获得匹配的网络信息;
多查询意图判断模块,用于根据所述网络信息判断所述原始查询词串是否为多查询意图的查询词串;若是,则调用查询词串改写模块;
查询词串改写模块,用于按照每个查询意图将所述原始查询词串分别改写为多个具有所述查询意图的第一查询词串;
用户查找模块,用于分别按照所述第一查询词串查找与所述第一查询词串具有相同或相似查询意图的第二用户;其中,所述第二用户具有社区信息;
搜索结果合成模块,用于将所述网络信息和所述第二用户对应的社区信息合成搜索结果。
优选地,所述多查询意图判断模块包括:
第一特征网络信息获取子模块,用于获取所述原始查询词串匹配的第一特征网络信息;所述第一特征网络信息包括排序最高的前N条网络信息和/或历史点击次数最多的前M条网络信息;
第二特征网络信息获取子模块,用于获取其他查询词串匹配的第二特征网络信息;所述第二特征网络信息包括排序最高的前A条网络信息和/或历史点击次数最多的前B条网络信息;
特征网络信息判断子模块,用于判断所述第一特征网络信息中是否包括至少两个第二特征网络信息;若是,则调用第一判定子模块;
第一判定子模块,用于判定所述原始查询词串为多查询意图的查询词串;其中,M、N、A、B均为正整数。
优选地,所述多查询意图判断模块包括:
实体类别查找子模块,用于在既定的知识库中查找所述原始查询词串对应的实体类别;
第二判定子模块,用于在所述实体类别超过两个时,判定所述原始查询词串为多查询意图的查询词串。
优选地,所述多查询意图判断模块包括:
特征词查找子模块,用于在既定的知识库中查找所述原始查询词串关联的特征词;
数量判断子模块,用于判断在全网的网页中,所述特征词的数量是否超过预设数量阈值;若是,则调用分类子模块;
分类子模块,用于采用知识库的实体类别对所述特征词进行分类;
第三判定子模块,用于在获得至少两个分类时,判定所述原始查询词串为多查询意图的查询词串。
优选地,所述用户查找模块包括:
查询意图信息获取子模块,用于分别获取所述第一用户的每个第一查询词串对应的第一查询意图信息以及所述第二用户的第二查询意图信息;
查询意图信息相似度计算子模块,用于分别计算所述第一查询意图信息与所述第二查询意图信息的相似度;
判断子模块,用于在所述相似度大于预设的相似度阈值时,判断所述第一查询词串与所述第二用户具有相同或相似的查询意图。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例中以第一用户提交的原始查询词串进行搜索,获得匹配的网络信息,在判断原始查询词串为多查询意图的查询词串时,将原始查询词串改写为多个具有该查询意图的第一查询词串,以及查找与第一用户具有相同或相似查询意图的第二用户,并将网络信息和第二用户的社区信息合成搜索结果,使得在第一用户需求不明确时,按照各种分类需求,通过分析搜索日志就主题类别来筛选用户的社区好友,分别得到与每个主题类别最为相关的各第二用户,从而将第一用户的搜索需求进行细分,使用户在搜索需求不明确的情况下也可推荐出与当前用户需求相似的联系人,避免了第一用户重复对海量的网络信息进行繁琐的人工过滤,减少了第一用户时间和精力的耗费,也减少了用户设备和网站的***资源消耗,也减少了网络带宽的占用,大大提高了信息获取的效率、质量和容量。
附图说明
图1是本发明的一种搜索的方法实施例的步骤流程图;
图2是本发明的一种社区信息的展示示例图;
图3是本发明的一种搜索的装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种搜索的方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,当接收到第一用户提交的原始查询词串时,以所述原始查询词串进行搜索,获得匹配的网络信息;
应用本发明实施例,第一用户可以在第一客户端登录,则第一用户可以通过第一客户端提交原始查询词串,请求搜索与该原始查询词串匹配的网络信息。
本发明实施例中,当接收到第一用户提交的原始查询词串时,则可以根据该原始查询词串在索引库中快速检出网络信息,进行网络信息与查询的相关度评价,对将要输出的结果进行排序。
以搜索引擎为例进行说明,搜索引擎的搜索流程分为二个部分,一是前端用户请求过程,二是后端制作数据过程。
一、前端用户请求过程:
1.接收请求:接收用户在搜索引擎输入的查询词串;
2.查询词分析:对查询词串进行分词处理;
3.检索:根据分词结果,从预先制作的倒排索引中,查找与分词结果相关的候选的网络信息;
4.排序:针对候选的网络信息,根据内容相关性、时效性等维度进行排序;
5.展现:将排序后的网页在搜索引擎页面展现出来。
二、后端制作数据过程:
1.网页抓取:采用爬虫技术,通过网页间的链接关系,抓取互联网的网络信息并保存。
2.索引制作:对已抓取保存的网络信息进行分析,例如对网页标题和页面文本进行分词处理,根据分词结果制作倒排索引,供前端用户请求过程使用。
步骤102,根据所述网络信息判断所述原始查询词串是否为多查询意图的查询词串;若是,则执行步骤103;
用户所发出的每个搜索请求背后都可能隐含着潜在的查询意图,当原始查询词串关联多个查询意图时,用户需求不明确。
例如,用户搜索时提交的原始查询词串为“天龙八部”,其潜在的需求可能有三类:电影“天龙八部”,电视剧“天龙八部”,游戏“天龙八部”三种,可在此基础上将原始查询词串“天龙八部”进行改写。
在本发明的一种优选实施例中,步骤102可以包括如下子步骤:
子步骤S11,获取所述原始查询词串匹配的第一特征网络信息;所述第一特征网络信息可以包括排序最高的前N条网络信息和/或历史点击次数最多的前M条网络信息;
子步骤S12,获取其他查询词串匹配的第二特征网络信息;所述第二特征网络信息可以包括排序最高的前A条网络信息和/或历史点击次数最多的前B条网络信息;
子步骤S13,判断所述第一特征网络信息中是否包括至少两个第二特征网络信息;若是,则执行子步骤S14;
子步骤S14,判定所述原始查询词串为多查询意图的查询词串。
需要说明的是,M、N、A、B均可以为正整数。
在具体实现中,通过分析查询词串的搜索结果(即与查询词串匹配的网络信息)和用户搜索日志,判断该查询词串是否为多意图查询词的查询词串。
进一步地,可以通过搜索日志统计得到所有查询词的搜索结果前N条网络信息,例如前10条URL(UniformResourceLocator,统一资源定位符),和点击次数最多的前M条网络信息,例如前10条URL。如果查询词串a的排序最高的前N条网络信息和点击次数最多的前M条网络信息,包含查询词串b以及查询词串c的排序最高的前A条网络信息和点击次数最多的前B条网络信息,则可以认为查询词串a为多意图查询词,并且用户需求有二类,一类需求与查询词串b相关,另一类需求与查询词串c相关。
例如,通过搜索日志统计,得到如表1所示的排序最高的网络信息和/或历史点击次数最多网络信息。
表1、排序最高的网络信息和/或历史点击次数最多网络信息列表
由表1可以分析得到:
“天龙八部”排序最高的网络信息包括“天龙八部游戏”和“天龙八部电视剧”排序最高的网络信息;
“天龙八部”历史点击次数最多网络信息包括“天龙八部游戏”和“天龙八部电视剧”历史点击次数最多网络信息;
因此可以获知,用户搜索时,原始查询词串“天龙八部”的查询需求可以有二种,分别为“天龙八部游戏”和“天龙八部电视剧”。
应用本发明实施例,可以在预先计算各查询词串的查询需求,然后制作如表2所示的多查询意图字典,在接收到用户提交的原始查询词串时,可以在该查询意图字典中查找该原始查询词串,当查找到时,则可以判定该原始查询词串为多查询意图的查询词串。
表2、多意图查询词串列表
在本发明的一种优选实施例中,步骤102可以包括如下子步骤:
子步骤S21,在既定的知识库中查找所述原始查询词串对应的实体类别;
子步骤S22,当所述实体类别超过两个时,判定所述原始查询词串为多查询意图的查询词串。
本发明实施例中可以通过在知识库查找,得到原始查询词串对应的实体类别,从而对用户查询需求进行分类。
例如,用户搜索“火影忍者”,查找知识库得到“火影忍者”有二个实体类别,一是漫画,一是动画片。那么可以根据知识库中的分类,将用户需求分为二类:“漫画火影忍者”和“动画片火影忍者”,并在此基础上将原始查询词串“火影忍者”进行改写。
需要说明的是,知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
实体可以对应的一个具体的个体,例如在明星类别中,可以为刘德华、张柏芝、林青霞等,实体也包含一些宽泛的代表类别的个体,例如人、电影明星、歌手等。
在本发明的一种优选实施例中,步骤102可以包括如下子模块:
子步骤S31,在既定的知识库中查找所述原始查询词串关联的特征词;
子步骤S32,判断在全网的网页中,所述特征词的数量是否超过预设数量阈值;若是,则执行子步骤S33;
子步骤S33,采用知识库的实体类别对所述特征词进行分类;
子步骤S34,当获得至少两个分类时,判定所述原始查询词串为多查询意图的查询词串。
本发明实施例中可以结合知识库和互联网的网页,判定用户需求。
在具体实现中,首先可以根据知识库的实体内容,提取若干特征词,然后通过分析互联网网页,得到特征词与实体的关联程度和需求强烈程度,最后选取数量阈值确定原始查询词串的最终分类。
例如,用户在搜索时,提交的原始查询词串为“清华大学”,则可以从知识库的“清华大学”的实体内容中,提取出“本科教育”,“研究生教育”、“二校门”、“荷塘月色”、“甲所餐厅”、“近春园餐厅”等特征词。然后通过对互联网网页进行分析,统计在网页中同时出现[清华大学,本科教育]、[清华大学,研究生教育]、[清华大学,二校门]等特征词的网页数。同时出现的网页越多,表示该特征词与“清华大学”关联越紧密。超过预设的数量阈值的特征词即可以作为用户的潜在需求。
再根据知识库的分类体系,将特征词分类。
例如,“本科教育”、“研究生教育”为招生类,“二校门”、“荷塘月色”为景点类,“甲所餐厅”、“近春园餐厅”为餐厅类。
最终与“清华大学”相关的需求就分为三类,即招生类需求、景点类需求、餐厅类需求。
步骤103,按照每个查询意图将所述原始查询词串分别改写为多个具有所述查询意图的第一查询词串;
在多意图查询分析后,一个模糊的查询需求,即可以转化为多个确定的查询需求,即第一查询词串可以为具有确定查询需求的查询词串。
例如,原始查询词串“天龙八部”可以改写为第一查询词串“天龙八部电影”、“天龙八部电视剧”、“天龙八部游戏”。
步骤104,分别按照所述第一查询词串查找与所述第一查询词串具有相同或相似查询意图的第二用户;其中,所述第二用户可以具有社区信息;
本发明实施中,可以根据原始查询词串分别查找出与各第一查询词串相匹配的查询意图,然后针对不同的查询意图,匹配符合第一查询词串对应的查询意图的第二用户。
例如,用户搜索时,原始查询词串为“天龙八部”,查找的第二用户,可以包括三个部分,即分别与第一查询词串“天龙八部电影”、“天龙八部电视剧”和“天龙八部游戏”的具有相同或相似查询意图的第二用户,保证在搜索需求不明确的情况下也可推荐出与当前用户需求相似的联系人。
在具体实现中,所述第一用户与所述第二用户之间可以具有社区好友关系,则本发明实施例中可以关联社交账户,例如即时通讯工具用户、各类型的网站(如论坛、贴吧、门户网站等等)注册用户等等,关联社交账户可以得到第一用户的社区好友关系,在第一用户的社区好友用户中查找匹配第二用户。
需要说明的是,社区好友关系可以包括一级或多级好友关系,例如,一级好友关系的用户可以为当前用户的好友用户,二级好友用户可以为当前用户的好友用户各自对应的好友用户等等,本发明实施例对此不加以限制。
当然,所述第一用户与所述第二用户之间可以具有非社区好友关系,即第二用户相对于第一用户而言可以为陌生用户,则本发明实施例中可以在全局范围内查找匹配的第二用户。
其中,所述第二用户可以具有社区信息,而社区可以是若干社会群体或社会组织聚集在某一个领域里所形成的一个生活上相互关联的大集体,例如论坛、微博、贴吧、门户网站、即时通讯***等等,即社区信息可以包括用户头像、用户名称、用户ID、通讯地址等等。
在本发明的一种优选实施例中,步骤104可以包括如下子步骤:
子步骤S41,分别获取所述第一用户的每个第一查询词串对应的第一查询意图信息以及所述第二用户的第二查询意图信息;
第一查询意图信息可以为标识第一用户在查询意图不明确的情况下,某一细分的主题类别对应的查询意图的信息,第二查询意图信息可以为标识第二用户查询意图的信息。
在本发明实施例的一种优选示例中,所述第一查询意图信息可以包括第一特征向量,所述第二查询意图信息可以包括第二特征向量;
其中,第一特征向量可以为标识第一用户查询意图的向量信息,第二特征向量可以为标识第二用户查询意图的向量信息。
则在本示例中,
所述第一查询意图信息可以包括各自对应的第一特征向量,所述第一特征向量可以根据所述第一查询词串分别进行确定;
所述第二查询意图信息可以包括第二特征向量,所述第二特征向量可以根据所述第二查询词串进行确定;
其中,所述第二查询词串可以为所述第二用户在先提交的查询词串
在本示例中,可以通过对查询词串、搜索结果和搜索日志进行分析,查找代表查询词串的查询意图的特征,计算得到特征值,从而将查询词串表示为特征向量。
查询词串的查询意图相关的特征向量可以分为三大类,第一类可以为查询词串本身的特征向量,第二类可以为与查询词串的分词关联的特征向量,第三类可以为与查询词串匹配的网络信息关联的特征向量,这些特征向量都可以用于表示查询词串的查询意图。
则在具体实现中,所述第一特征向量可以包括以下至少一种:
第一查询词串、与第一查询词串的分词关联的特征向量、与第一查询词串匹配的网络信息关联的特征向量;
所述第二特征向量可以包括以下至少一种:
第二查询词串、与第二查询词串的分词关联的特征向量、与第二查询词串匹配的网络信息关联的特征向量。
在本发明实施的一种优选示例中,所述与第一查询词串的分词关联的特征向量可以包括以下至少一种:
第一查询词串的同义词串、第一查询词串的分词、第一查询词串的分词的词性、第一查询词串的分词的同义词、第一查询词串的分词的重要度;
所述与第一查询词串匹配的网络信息关联的特征向量可以包括以下至少一种:
与第一查询词串匹配的网络信息的标题、与第一查询词串匹配的网络信息的网页标识、与第一查询词串匹配的网络信息的历史点击信息、与第一查询词串关联的其他查询词串;
所述与第二查询词串的分词关联的特征向量可以包括以下至少一种:
第二查询词串的同义词串、第二查询词串的分词、第二查询词串的分词的词性、第二查询词串的分词的同义词、第二查询词串的分词的重要度;
所述与第二查询词串匹配的网络信息关联的特征向量可以包括以下至少一种:
与第二查询词串匹配的网络信息的标题、与第二查询词串匹配的网络信息的网页标识、与第二查询词串匹配的网络信息的历史点击信息、与第二查询词串关联的其他查询词串。
第一/第二特征向量的示例可以如下:
1、查询词串本身;
例如,改写后的第一查询词串“天龙八部电视剧”本身。
2、查询词串的同义词串;
本示例中,可以在预先制作好的同义词字典中找到查询词串的同义词串。例如,“天龙八部”和“新天龙八部”是同义词,“新天龙八部”和“天龙八部钟汉良版”是同义词(这类同义词会随着实际变化,总是和最新一版的天龙八部是同义词)。
3、查询词串的分词term;
本示例中,可以对查询词进行分词,获得分词后的term。例如,对查询词串“天龙八部电视剧”分词后的term有二个[天龙八部,电视剧]。
4、查询词串的分词term的词性;
本示例中,可以对分词term进行词性分析,获得分词term的词性。例如,分词term[天龙八部,电视剧]对应的词性为[名词,名词]。
5、查询词串的分词term的同义词;
本示例中,可以在预先制作的同义词字典中查找分词term的同义词。例如,分词term[天龙八部,电视剧]的同义词为[天龙八部,连续剧]。
6、查询词串的分词term的重要度;
本示例中,可以通过统计搜索日志,获得每个分词term的TF(TermFrequency,词频)和IDF(InverseDocumentFrequency,反文档频率)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。则本示例中可以通过TF-IDF来表示每个分词term的重要度。例如,分词term[“天龙八部”,“电视剧”]中,“天龙八部”的TF-IDF值要比“电视剧”的TF-IDF值高,则“天龙八部”比“电视剧”重要度高,包含更多的信息量。
7、与查询词串匹配的网络信息的标题;
本示例中,网络信息的标题可以是指与查询词串对应的,搜索引擎返回的前N(N为正整数,例如10)条搜索结果的标题,可以用于定位查询词串相关的文本和关键词。例如,搜索“天龙八部”,返回的搜索结果前三条的标题分别为“新天龙八部钟汉良版(全42集)在线观看-**影视”,“天龙八部(2013)-天龙八部(2013)全集(1-42全)-**视频”和“天龙八部_分集剧情-**网”。
8、与查询词串匹配的网络信息的网页标识;
本示例中,网页标识可以是能够代表一个唯一确定的网页的信息,例如统一资源标识符(UniformResourceIdentifier,URI),统一资源标识符又具体可以包括统一资源定位符(UniformResourceLocator,URL),或者统一资源名称(UniformResourceName,URN)等等。具体可以为搜索结果前M(M为正整数,例如10)条网络信息的URL,可以用于定位查询词串相关的网址和网站。例如,搜索“天龙八部”,搜索结果的前三条URL分别为:
“http://kan.***.com/search/?keyword=%E5%A4%A9%E9%BE%99%E5%85%AB%E9%83%A8”;
“http://tv.***.com/s2013/tlbbwsj2013/”;
“http://www.***.com/drama/KysdNWU=/episode”。
9、与查询词串匹配的网络信息的历史点击信息;
本示例中,历史点击信息可以为搜索该查询词串的用户,在搜索结果中的点击情况的统计。通过用户行为来衡量哪些网络信息更重要、与查询词串更相关。例如,用户搜索“天龙八部”10000次,前三条URL的点击为表1所示。
表3、历史点击信息表
由表3可以表明,第二条网络信息的URL与查询词串更相关。
10、与查询词串关联的其他查询词串;
本示例中,可以搜索提交该查询词串的用户还搜索了哪些其他查询词串,可以用于表示查询词串相关的一些概念。例如,搜索“十八大”的用户,还搜索了“两会”,“党的十八精神”等。
当然,上述第一/第二特征向量只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他第一/第二特征向量,本发明实施例对此不加以限制。另外,除了上述第一/第二特征向量外,本领域技术人员还可以根据实际需要采用其它第一/第二特征向量,本发明实施例对此也不加以限制。
子步骤S42,计算所述第一查询意图信息与所述第二查询意图信息的相似度;
在具体实现中,可以将查询词串根据查询意图的相似性进行聚类。
在本发明实施例的一种优选示例中,子步骤S42进一步可以包括如下子步骤:
子步骤S421,计算所述第一特征向量与所述第二特征向量之间的相似度。
在本示例中,对于由查询词串确定的特征向量,可以使用聚类算法(例如层次聚类算法/kmeans算法等)计算相似度,再根据相似度将查询词串进行类别划分。
例如,表4中的第一查询词串“天龙八部电视剧”和第二查询词串“天龙八部钟汉良版”对应的第一特征向量和第二特征向量,相同的部分有:
1、查询词串的分词term有一个重要度高的分词term相同,即“天龙八部”;
2、搜索结果的前三条网络信息相同,即与查询词串匹配的网络信息的标题、与查询词串匹配的网络信息的网页标识相同;
3、与“天龙八部电视剧”关联的其他查询词串中包含“天龙八部钟汉良版”,并且都有相同的查询词“天龙八部”。
表4、特征向量对比表
在使用聚类算法的聚类过程中,会对这些相同部分进行量化并计算得到第一特征向量和第二特征向量的相似度。
子步骤S43,当所述相似度大于预设的相似度阈值时,判断所述第一查询词串与所述第二用户具有相同或相似的查询意图。
在具体实现中,当相似度超过预设相似度阈值时,则第一查询词串和第二查询词串可以聚为一类,即第一用户对应的这个细分后的查询意图与第二用户相同或相似。
第一特征向量和第二特征向量越相似,第一查询词串和第二查询词串就越有可能是在聚类过程中被聚为一类,第一用户对应的这个细分后的查询意图和第二用户的查询意图就越相似,甚至相同。
例如,第一查询词串“天龙八部电视剧”和第二查询词串“天龙八部钟汉良版”可以聚为一类,第一查询词串“贷款申请”和第二查询词串“申请贷款流程”可以聚为一类。
在具体实现中,可以在用户进行查询之后,保存用户及其查询意图、查询词串/特征向量及其查询意图的对应关系,以方便后续查找与每个第一查询词串具有相同或相似查询意图的第二用户。
例如,该对应关系可以按照如表5所示的格式保存。
表5、用户-查询意图、查询词串/特征向量-查询意图对应列表
在查找与第一用户具有相同或相似查询意图的第二用户时,根据保存的用户-查询意图、查询词串/特征向量-查询意图对应列表,和第一用户的第一特征向量,计算得到与第一用户查询意图相同或相似的第二用户。
具体计算步骤如下:
1、确定第一用户的第一特征向量A;
2、采用A与用户-查询意图、查询词串/特征向量-查询意图对应列表中的特征向量A1,A2…,An(n为正整数)计算相似度,找到相似度最高的特征相向量Ai(i为正整数)对应的查询意图i;
3、根据第2步得到的查询意图i,在用户-查询意图、查询词串/特征向量-查询意图对应列表中,找到查询意图i的第二用户。
步骤105,将所述网络信息和所述第二用户对应的社区信息合成搜索结果。
本发明实施例中,可以以网络信息和第二用户的社区信息作为最终的搜索结果。
在本发明的一种优选实施例中,步骤105可以包括如下子步骤:
子步骤S51,计算每个查询意图下所述第一用户与所述第二用户的关联密切度;
本发明实施例中,影响第一用户与第二用户关联密切度的因素可以包括三个部分,第一部分是查询意图的相似度,第二部分是第一用户与第二用户的熟悉程度,第三部分是第二用户对查询意图的熟悉程度。
在本发明实施例的一种优选示例中,子步骤S51进一步可以包括如下子步骤:
子步骤S511,按原始查询词串对应的每个细分类别,即对每个查询意图下所述第一查询意图信息与所述第二查询意图信息的相似度,和/或,所述第一用户与所述第二用户之间的关联信息,和/或,所述第二用户对所述第二查询意图的历史操作信息配置对应的权重;
子步骤S512,对配置权重之后的所述第一查询意图信息与所述第二查询意图信息的相似度,和/或,所述第一用户与所述第二用户之间的关联信息,和/或,所述第二用户对所述第二查询意图的历史操作信息进行求和计算,获得每个查询意图下所述第一用户与所述第二用户的关联密切度。
本示例中,可以通过对历史数据和搜索日志分析,所述第二查询意图信息的相似度,和/或,所述第一用户与所述第二用户之间的关联信息,和/或,所述第二用户对所述第二查询意图的历史操作信息中每个因素的数值,然后根据实际需求和经验配置权重,例如重要度越高,其权重则可以越大,最后通过对各种因素加权计算,得到关联密切度。
在实际应用中,第一查询意图信息与第二查询意图信息的相似度可以在步骤104中计算得到。查询词串越相似,查询意图则越相似。
例如,在原始查询词串“天龙八部”对应的细分类别“电视剧”中,第二用户A搜索过“天龙八部电视剧全集”,第二用户B搜索过“天龙八部介绍”,那么第二用户A比第二用户B的查询意图更接近第一用户,则第二用户A的关联密切度比第二用户B的关联密切度更大。
在具体实现中,所述第一用户与所述第二用户之间的关联信息可以包括以下至少一种:
预设时间段内的平均联系次数、预设时间段内的平均联系时长、共同好友的数量、居住位置。
在本示例中,关联信息可以标识第一用户和第二用户的熟悉程度,越经常联系的第二用户,其熟悉程度越高,则关联密切度则越高。
所述第二用户对所述第二查询意图的历史操作信息可以包括以下至少一种:
所述第二查询意图对应的搜索次数、与所述第二查询意图匹配的网络信息的历史点击次数、所述第二查询意图对应的网络信息的浏览时长、所述第二查询意图对应的搜索持续天数。
在本示例中,历史操作信息可以标识第二用户对该查询意图的理解度,对该查询意图花费时间越多、越熟悉的第二用户,其理解对越高,则关联密切度则越高。
对于第二查询意图对应的搜索次数,可以在如表5所示的用户-查询意图、查询词串/特征向量-查询意图对应列表查找到,例如对于查询意图1对应的搜索次数的排序可以为用户2>用户1。
对于与所述第二查询意图匹配的网络信息的历史点击次数,可以从搜索日志中可以得到第二用户对第二查询词串的点击次数,点击次数越多,则可以说明浏览的网页数量、内容越多,对第二查询意图的熟悉程度越高。
对于第二查询意图对应的网络信息的浏览时长,可以从搜索日志中统计得到第二用户浏览第二查询词串相关网页的时间量,浏览时间越长,则对第二查询意图的熟悉程度越高。
对于第二查询意图对应的搜索持续天数,可以从搜索日志中统计得到第二用户查询同一查询意图的持续天数。天数越多、持续时间越长,则可以说明第二用户对第二查询意图越熟悉。例如,第二用户A持续一个月搜索“日本旅游”,第二用户B持续三天搜索“日本旅游”,则可以认为第二用户A比第二用户B对“日本旅游”这个查询意图更熟悉一点。
例如,第一查询词串“天龙八部电视剧”,具有相同或相似查询意图的第二用户有三位,分别为第二用户A、第二用户B、第二用户C,影响关联密切度的因素如表6所示。
表6、关联密切度对比表
其中,第二用户A和第二用户C相比,和第一用户联系频繁一样,但更熟悉该查询意图。第二用户C和第二用户B相比,与第一用户联系更频繁,对该查询意图更熟悉。
按照子步骤S51,同样可以得到与第一查询词串“天龙八部电影”,“天龙八部游戏”具有相同或相似查询意图的第二用户。
子步骤S52,按照所述关联密切度对所述第二用户对应的社区信息进行排序;
在本示例中,可以按照关联密切度从高到低进行排序,即顺序排序;当然,本示例中也可以按照关联密切度从低到高进行排序,即倒序排序,本发明实施例对此不加以限制。
例如,表6所示的关联密切度:155>135>117.2,可以得到第二用户的排序顺序为:第二用户A>第二用户C>第二用户B。
子步骤S53,将所述网络信息和排序后的第二用户对应的社区信息合成搜索结果。
在搜索结果合成完成后,则可以在客户端中将排序后的第二用户的社区信息连同网络信息展现给第一用户,如将各第二用户的头像在第一查询词串对应的网络信息的右侧展现,供第一用户进行沟通交流。
如图2所示,可以按照不同的查询意图,即电视剧类需求、游戏需求、电影需求,展示第二用户的社区信息,包括其头像、名称等等。例如,将表5中原始查询词串为“天龙八部”时,用户1、用户2在对应细分类别“电视剧”下展示,用户3在细分类别“游戏”下展示;原始查询词串为“清华大学”时,用户4在对应细分类别“招生”下展示,用户5在细分类别“旅游”下展示。
又例如,当前用户的即时通讯好友中,好友A通过搜索引擎研究过清华大学的“招生”类信息、好友B通过搜索引擎研究过清华大学的“旅游”类信息,则当前用户输入“清华大学”时,可以将好友A、好友B的头像分别附在搜索结果页右侧的“招生”、“旅游”的类别标签下,使当前用户在搜索需求不明确时,对社区好友中的相关用户进行细分,供其选择相应细分类别的好友后再进行交流。
应用本发明实施例,可以在搜索结果的合成时,对第二用户的社区信息构造与第二用户进行通讯的通讯软件的入口对象,第一用户可以通过鼠标点击等方式触发该入口对象,直接与第二用户进行即时通讯。
当然,第一用户在获得第二用户的社区信息后,也可以采用其他途径与第二用户进行通讯。
例如,若第二用户的社区信息中包括邮件地址,则第一用户可以获得该第二用户的outlook(一个用于收、发、写、管理电子邮件的应用程序)入口,向该邮件地址发送邮件。
又例如,若第二用户的社区信息中包括用户名称或用户ID,则第一用户可以通过对应的即时通讯工具、各类型的网站(如论坛、贴吧、门户网站等等)等查找到第二用户进行通讯。
在其他实施例中,用户可在移动客户端进行搜索,通过无线的方式提交原始查询词串,获得匹配的无线网络信息,在无线服务器判断原始查询词串为多查询意图的查询词串时,将原始查询词串改写为多个具有该查询意图的第一查询词串,并分别查找对应查询意图的第二用户,并将网络信息和第二用户的社区信息合成无线搜索结果返回至移动客户端,用户直接在移动客户端上调用的对应的即时通信软件与选定的第二用户进行沟通。
传统的搜索引擎只能搜索网络信息,当前用户在微博、论坛等社区网站中输入查询词串,社区网站可以返回与查询词串相关的用户和微博/帖子,但是社区网站搜索返回的用户是将查询词串与社区信息(主要是用户名)匹配得到,没有对用户的搜索需求进行细分,更无法得到有相似需求的用户。
本发明实施例中以第一用户提交的原始查询词串进行搜索,获得匹配的网络信息,在判断原始查询词串为多查询意图的查询词串时,将原始查询词串改写为多个具有该查询意图的第一查询词串,以及查找与第一查询词串具有相同或相似查询意图的第二用户,并将网络信息和第二用户的社区信息合成搜索结果,使得在第一用户需求不明确时,按照各种分类需求,通过分析搜索日志就主题类别来筛选用户的社区好友,分别得到与每个主题类别最为相关的各第二用户,从而将第一用户的搜索需求进行细分,使用户在搜索需求不明确的情况下也可推荐出与当前用户需求相似的联系人,避免了第一用户重复对海量的网络信息进行繁琐的人工过滤,减少了第一用户时间和精力的耗费,也减少了用户设备和网站的***资源消耗,也减少了网络带宽的占用,提高了信息获取的效率、质量和容量。
参照图3,示出了本发明一种搜索的装置实施例的结构框图,具体可以包括如下模块:
网络信息搜索模块301,用于在接收到第一用户提交的原始查询词串时,以所述原始查询词串进行搜索,获得匹配的网络信息;
多查询意图判断模块302,用于根据所述网络信息判断所述原始查询词串是否为多查询意图的查询词串;若是,则调用查询词串改写模块303;
查询词串改写模块303,用于按照每个查询意图将所述原始查询词串分别改写为多个具有所述查询意图的第一查询词串;
用户查找模块304,用于分别根据所述网络信息查找与所述第一查询词串具有相同或相似查询意图的第二用户;其中,所述第二用户具有社区信息;
搜索结果合成模块305,用于将所述网络信息和所述第二用户对应的社区信息合成搜索结果。
在本发明的一种优选实施例中,所述多查询意图判断模块302可以包括如下子模块:
第一特征网络信息获取子模块,用于获取所述原始查询词串匹配的第一特征网络信息;所述第一特征网络信息包括排序最高的前N条网络信息和/或历史点击次数最多的前M条网络信息;
第二特征网络信息获取子模块,用于获取其他查询词串匹配的第二特征网络信息;所述第二特征网络信息包括排序最高的前A条网络信息和/或历史点击次数最多的前B条网络信息;
特征网络信息判断子模块,用于判断所述第一特征网络信息中是否包括至少两个第二特征网络信息;若是,则调用第一判定子模块;
第一判定子模块,用于判定所述原始查询词串为多查询意图的查询词串;其中,M、N、A、B均为正整数。
在本发明的一种优选实施例中,所述多查询意图判断模块302可以包括如下子模块:
实体类别查找子模块,用于在既定的知识库中查找所述原始查询词串对应的实体类别;
第二判定子模块,用于在所述实体类别超过两个时,判定所述原始查询词串为多查询意图的查询词串。
在本发明的一种优选实施例中,所述多查询意图判断模块302可以包括如下子模块:
特征词查找子模块,用于在既定的知识库中查找所述原始查询词串关联的特征词;
数量判断子模块,用于判断在全网的网页中,所述特征词的数量是否超过预设数量阈值;若是,则调用分类子模块;
分类子模块,用于采用知识库的实体类别对所述特征词进行分类;
第三判定子模块,用于在获得至少两个分类时,判定所述原始查询词串为多查询意图的查询词串。
在本发明的一种优选实施例中,所述用户查找模块304可以包括如下子模块:
查询意图信息获取子模块,用于分别获取所述第一用户的每个第一查询词串对应的第一查询意图信息以及所述第二用户的第二查询意图信息;
查询意图信息相似度计算子模块,用于分别计算所述第一查询意图信息与所述第二查询意图信息的相似度;
判断子模块,用于在所述相似度大于预设的相似度阈值时,判断所述第一查询词串与所述第二用户具有相同或相似的查询意图。
在本发明的一种优选实施例中,所述第一查询意图信息可以包括第一特征向量,所述第一特征向量可以根据所述第一查询词串进行确定;
所述第二查询意图信息可以包括第二特征向量,所述第二特征向量可以根据所述第二查询词串进行确定;
其中,所述第二查询词串为所述第二用户在先提交的查询词串。
在本发明的一种优选实施例中,所述查询意图信息相似度计算子模块可以包括如下子模块:
特征向量相似度计算子模块,用于计算所述第一特征向量与所述第二特征向量之间的相似度。
在本发明实施例的一种优选示例中,所述第一特征向量可以包括以下至少一种:
第一查询词串、与第一查询词串的分词关联的特征向量、与第一查询词串匹配的网络信息关联的特征向量;
所述第二特征向量可以包括以下至少一种:
第二查询词串、与第二查询词串的分词关联的特征向量、与第二查询词串匹配的网络信息关联的特征向量。
在本发明实施例的一种优选示例中,所述与第一查询词串的分词关联的特征向量可以包括以下至少一种:
第一查询词串的同义词串、第一查询词串的分词、第一查询词串的分词的词性、第一查询词串的分词的同义词、第一查询词串的分词的重要度;
所述与第一查询词串匹配的网络信息关联的特征向量可以包括以下至少一种:
与第一查询词串匹配的网络信息的标题、与第一查询词串匹配的网络信息的网页标识、与第一查询词串匹配的网络信息的历史点击信息、与第一查询词串关联的其他查询词串;
所述与第二查询词串的分词关联的特征向量可以包括以下至少一种:
第二查询词串的同义词串、第二查询词串的分词、第二查询词串的分词的词性、第二查询词串的分词的同义词、第二查询词串的分词的重要度;
所述与第二查询词串匹配的网络信息关联的特征向量可以包括以下至少一种:
与第二查询词串匹配的网络信息的标题、与第二查询词串匹配的网络信息的网页标识、与第二查询词串匹配的网络信息的历史点击信息、与第二查询词串关联的其他查询词串。
在本发明的一种优选实施例中,所述搜索结果合成模块305可以包括如下子模块:
关联密切度计算子模块,用于计算每个查询意图下所述第一用户与所述第二用户的关联密切度;
社区信息排序子模块,用于按照所述关联密切度对所述第二用户的社区信息进行排序;
合成子模块,用于将所述网络信息和排序后的第二用户的社区信息合成搜索结果。
在本发明的一种优选实施例中,所述关联密切度计算子模块可以包括如下子模块:
权重配置子模块,用于对每个查询意图下所述第一查询意图信息与所述第二查询意图信息的相似度,和/或,所述第一用户与所述第二用户之间的关联信息,和/或,所述第二用户对所述第二查询意图的历史操作信息录配置对应的权重;
求和计算子模块,用于对配置权重之后的所述第一查询意图信息与所述第二查询意图信息的相似度,和/或,所述第一用户与所述第二用户之间的关联信息,和/或,所述第二用户对所述第二查询意图的历史操作信息进行求和计算,获得每个查询意图下所述第一用户与所述第二用户的关联密切度。
在本发明的一种优选实施例中,所述第一用户与所述第二用户之间的关联信息可以包括以下至少一种:
预设时间段内的平均联系次数、预设时间段内的平均联系时长、共同好友的数量、居住位置;
所述第二用户对所述第二查询意图的历史操作信息可以包括以下至少一种:
所述第二查询意图对应的搜索次数、所述第二查询意图对应的网络信息的浏览时长、所述第二查询意图对应的搜索持续天数。
在本发明的一种优选实施例中,所述第一用户与所述第二用户之间可以具有社区好友关系。
以上对本发明所提供的一种搜索的方法和一种搜索的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种搜索的方法,其特征在于,包括:
当接收到第一用户提交的原始查询词串时,以所述原始查询词串进行搜索,获得匹配的网络信息;
根据所述网络信息判断所述原始查询词串是否为多查询意图的查询词串;若是,则按照每个查询意图将所述原始查询词串分别改写为多个具有所述查询意图的第一查询词串;
分别按照所述第一查询词串查找与所述第一查询词串具有相同或相似查询意图的第二用户;其中,所述第二用户具有社区信息;
将所述网络信息和所述第二用户对应的社区信息合成搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述判断所述原始查询词串是否为多查询意图的查询词串的步骤包括:
获取所述原始查询词串匹配的第一特征网络信息;所述第一特征网络信息包括排序最高的前N条网络信息和/或历史点击次数最多的前M条网络信息;
获取其他查询词串匹配的第二特征网络信息;所述第二特征网络信息包括排序最高的前A条网络信息和/或历史点击次数最多的前B条网络信息;
判断所述第一特征网络信息中是否包括至少两个第二特征网络信息;若是,则判定所述原始查询词串为多查询意图的查询词串;其中,M、N、A、B均为正整数。
3.根据权利要求1所述的方法,其特征在于,所述判断所述原始查询词串是否为多查询意图的查询词串的步骤包括:
在既定的知识库中查找所述原始查询词串对应的实体类别;
当所述实体类别超过两个时,判定所述原始查询词串为多查询意图的查询词串。
4.根据权利要求1所述的方法,其特征在于,所述判断所述原始查询词串是否为多查询意图的查询词串的步骤包括:
在既定的知识库中查找所述原始查询词串关联的特征词;
判断在全网的网页中,所述特征词的数量是否超过预设数量阈值;若是,则采用知识库的实体类别对所述特征词进行分类;
当获得至少两个分类时,判定所述原始查询词串为多查询意图的查询词串。
5.根据权利要求1或2或3或4所述的方法,其特征在于,所述查找与所述第一查询词串具有相同或相似查询意图的第二用户的步骤包括:
分别获取所述第一用户的每个第一查询词串对应的第一查询意图信息以及所述第二用户的第二查询意图信息;
分别计算所述第一查询意图信息与所述第二查询意图信息的相似度;
当所述相似度大于预设的相似度阈值时,判断所述第一查询词串与所述第二用户具有相同或相似的查询意图。
6.根据权利要求5所述的方法,其特征在于,所述第一查询意图信息包括第一特征向量,所述第一特征向量根据所述第一查询词串进行确定;
所述第二查询意图信息包括第二特征向量,所述第二特征向量根据所述第二查询词串进行确定;
其中,所述第二查询词串为所述第二用户在先提交的查询词串。
7.根据权利要求6所述的方法,其特征在于,所述第一特征向量包括以下至少一种:
第一查询词串、与第一查询词串的分词关联的特征向量、与第一查询词串匹配的网络信息关联的特征向量;
所述第二特征向量包括以下至少一种:
第二查询词串、与第二查询词串的分词关联的特征向量、与第二查询词串匹配的网络信息关联的特征向量。
8.根据权利要求1或2或3或4所述的方法,其特征在于,所述将所述网络信息和所述第二用户对应的社区信息合成搜索结果的步骤包括:
计算每个查询意图下所述第一用户与所述第二用户的关联密切度;
按照所述关联密切度对所述第二用户对应的社区信息进行排序;
将所述网络信息和排序后的第二用户对应的社区信息合成搜索结果。
9.根据权利要求8所述的方法,其特征在于,所述计算每个查询意图下所述第一用户与所述第二用户的关联密切度的步骤包括:
对每个查询意图下所述第一查询意图信息与所述第二查询意图信息的相似度,和/或,所述第一用户与所述第二用户之间的关联信息,和/或,所述第二用户对所述第二查询意图的历史操作信息录配置对应的权重;
对配置权重之后的所述第一查询意图信息与所述第二查询意图信息的相似度,和/或,所述第一用户与所述第二用户之间的关联信息,和/或,所述第二用户对所述第二查询意图的历史操作信息进行求和计算,获得每个查询意图下所述第一用户与所述第二用户的关联密切度。
10.根据权利要求9所述的方法,其特征在于,所述第一用户与所述第二用户之间的关联信息包括以下至少一种:
预设时间段内的平均联系次数、预设时间段内的平均联系时长、共同好友的数量、居住位置;
所述第二用户对所述第二查询意图的历史操作信息包括以下至少一种:
所述第二查询意图对应的搜索次数、所述第二查询意图对应的网络信息的浏览时长、所述第二查询意图对应的搜索持续天数。
11.根据权利要求1或2或3或4或6或7或9或10所述的方法,其特征在于,所述第一用户与所述第二用户之间具有社区好友关系。
12.一种搜索的装置,其特征在于,包括:
网络信息搜索模块,用于在接收到第一用户提交的原始查询词串时,以所述原始查询词串进行搜索,获得匹配的网络信息;
多查询意图判断模块,用于根据所述网络信息判断所述原始查询词串是否为多查询意图的查询词串;若是,则调用查询词串改写模块;
查询词串改写模块,用于按照每个查询意图将所述原始查询词串分别改写为多个具有所述查询意图的第一查询词串;
用户查找模块,用于分别按照所述第一查询词串查找与所述第一查询词串具有相同或相似查询意图的第二用户;其中,所述第二用户具有社区信息;
搜索结果合成模块,用于将所述网络信息和所述第二用户对应的社区信息合成搜索结果。
13.根据权利要求12所述的装置,其特征在于,所述多查询意图判断模块包括:
第一特征网络信息获取子模块,用于获取所述原始查询词串匹配的第一特征网络信息;所述第一特征网络信息包括排序最高的前N条网络信息和/或历史点击次数最多的前M条网络信息;
第二特征网络信息获取子模块,用于获取其他查询词串匹配的第二特征网络信息;所述第二特征网络信息包括排序最高的前A条网络信息和/或历史点击次数最多的前B条网络信息;
特征网络信息判断子模块,用于判断所述第一特征网络信息中是否包括至少两个第二特征网络信息;若是,则调用第一判定子模块;
第一判定子模块,用于判定所述原始查询词串为多查询意图的查询词串;其中,M、N、A、B均为正整数。
14.根据权利要求12所述的装置,其特征在于,所述多查询意图判断模块包括:
实体类别查找子模块,用于在既定的知识库中查找所述原始查询词串对应的实体类别;
第二判定子模块,用于在所述实体类别超过两个时,判定所述原始查询词串为多查询意图的查询词串。
15.根据权利要求12所述的装置,其特征在于,所述多查询意图判断模块包括:
特征词查找子模块,用于在既定的知识库中查找所述原始查询词串关联的特征词;
数量判断子模块,用于判断在全网的网页中,所述特征词的数量是否超过预设数量阈值;若是,则调用分类子模块;
分类子模块,用于采用知识库的实体类别对所述特征词进行分类;
第三判定子模块,用于在获得至少两个分类时,判定所述原始查询词串为多查询意图的查询词串。
16.根据权利要求12或13或14或15所述的装置,其特征在于,所述用户查找模块包括:
查询意图信息获取子模块,用于分别获取所述第一用户的每个第一查询词串对应的第一查询意图信息以及所述第二用户的第二查询意图信息;
查询意图信息相似度计算子模块,用于分别计算所述第一查询意图信息与所述第二查询意图信息的相似度;
判断子模块,用于在所述相似度大于预设的相似度阈值时,判断所述第一查询词串与所述第二用户具有相同或相似的查询意图。
CN201410262143.XA 2014-06-12 2014-06-12 一种搜索的方法和装置 Active CN105159898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410262143.XA CN105159898B (zh) 2014-06-12 2014-06-12 一种搜索的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410262143.XA CN105159898B (zh) 2014-06-12 2014-06-12 一种搜索的方法和装置

Publications (2)

Publication Number Publication Date
CN105159898A true CN105159898A (zh) 2015-12-16
CN105159898B CN105159898B (zh) 2019-11-26

Family

ID=54800755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410262143.XA Active CN105159898B (zh) 2014-06-12 2014-06-12 一种搜索的方法和装置

Country Status (1)

Country Link
CN (1) CN105159898B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021516A (zh) * 2016-05-24 2016-10-12 百度在线网络技术(北京)有限公司 搜索方法及装置
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN106971004A (zh) * 2017-04-26 2017-07-21 百度在线网络技术(北京)有限公司 搜索结果提供方法及装置
CN108182290A (zh) * 2018-01-30 2018-06-19 深圳市富途网络科技有限公司 一种用于社区内容热度排序的估算方法
CN109543026A (zh) * 2018-12-12 2019-03-29 广东小天才科技有限公司 一种数学公式的解析内容获取方法及家教设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136869A (zh) * 2006-08-30 2008-03-05 高鹏 生成基于搜索意图的即时通讯***的联系人组的方法
CN102016845A (zh) * 2008-04-29 2011-04-13 微软公司 社交网络提供的查询细化和推荐
CN102402589A (zh) * 2011-10-26 2012-04-04 北京百度网讯科技有限公司 一种提供与搜索请求相关的参考搜索信息的方法与设备
CN102456054A (zh) * 2010-10-28 2012-05-16 腾讯科技(深圳)有限公司 一种搜索方法及***
CN103942198A (zh) * 2013-01-18 2014-07-23 佳能株式会社 用于挖掘意图的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136869A (zh) * 2006-08-30 2008-03-05 高鹏 生成基于搜索意图的即时通讯***的联系人组的方法
CN102016845A (zh) * 2008-04-29 2011-04-13 微软公司 社交网络提供的查询细化和推荐
CN102456054A (zh) * 2010-10-28 2012-05-16 腾讯科技(深圳)有限公司 一种搜索方法及***
CN102402589A (zh) * 2011-10-26 2012-04-04 北京百度网讯科技有限公司 一种提供与搜索请求相关的参考搜索信息的方法与设备
CN103942198A (zh) * 2013-01-18 2014-07-23 佳能株式会社 用于挖掘意图的方法和设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN106021516A (zh) * 2016-05-24 2016-10-12 百度在线网络技术(北京)有限公司 搜索方法及装置
CN106971004A (zh) * 2017-04-26 2017-07-21 百度在线网络技术(北京)有限公司 搜索结果提供方法及装置
CN106971004B (zh) * 2017-04-26 2021-04-06 百度在线网络技术(北京)有限公司 搜索结果提供方法及装置
CN108182290A (zh) * 2018-01-30 2018-06-19 深圳市富途网络科技有限公司 一种用于社区内容热度排序的估算方法
CN108182290B (zh) * 2018-01-30 2022-03-25 深圳市富途网络科技有限公司 一种用于社区内容热度排序的估算方法
CN109543026A (zh) * 2018-12-12 2019-03-29 广东小天才科技有限公司 一种数学公式的解析内容获取方法及家教设备

Also Published As

Publication number Publication date
CN105159898B (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
CN109885773B (zh) 一种文章个性化推荐方法、***、介质及设备
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
US9317613B2 (en) Large scale entity-specific resource classification
US9449271B2 (en) Classifying resources using a deep network
Basavaraju et al. A novel method of spam mail detection using text based clustering approach
CN106649890B (zh) 数据存储方法和装置
US8504550B2 (en) Social network message categorization systems and methods
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
CN105045875B (zh) 个性化信息检索方法及装置
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN110390094B (zh) 对文档进行分类的方法、电子设备和计算机程序产品
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN102053983A (zh) 一种垂直搜索的查询方法、***和装置
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN105159898A (zh) 一种搜索的方法和装置
CN104615723B (zh) 查询词权重值的确定方法和装置
CN105224555A (zh) 一种搜索的方法、装置和***
KR20050070955A (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Harakawa et al. Extraction of hierarchical structure of Web communities including salient keyword estimation for Web video retrieval
CN105159899A (zh) 一种搜索的方法和装置
Rana et al. Analysis of web mining technology and their impact on semantic web
CN116610853A (zh) 搜索推荐方法、搜索推荐***、计算机设备及存储介质
CN114911826A (zh) 一种关联数据检索方法和***
CN109101506A (zh) 基于可视化的搜索方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant