CN101295319B - 一种扩展查询的方法、装置及搜索引擎*** - Google Patents

一种扩展查询的方法、装置及搜索引擎*** Download PDF

Info

Publication number
CN101295319B
CN101295319B CN2008101154707A CN200810115470A CN101295319B CN 101295319 B CN101295319 B CN 101295319B CN 2008101154707 A CN2008101154707 A CN 2008101154707A CN 200810115470 A CN200810115470 A CN 200810115470A CN 101295319 B CN101295319 B CN 101295319B
Authority
CN
China
Prior art keywords
word
speech
query
existing
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101154707A
Other languages
English (en)
Other versions
CN101295319A (zh
Inventor
张智敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2008101154707A priority Critical patent/CN101295319B/zh
Publication of CN101295319A publication Critical patent/CN101295319A/zh
Application granted granted Critical
Publication of CN101295319B publication Critical patent/CN101295319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种扩展查询的方法、装置及包含该装置的搜索引擎***,以解决目前的搜索引擎提供的相关查询词,性质可能一样,导致通过这些查询词搜索到的结果都差不多,并且是否能够搜索到更多更广范围的信息不确定的问题。所述方法包括:统计与查询词同现的词语;将所有同现的词语进行分类;为每一个类别选择特征词;将各个类的特征词作为该查询词的相关查询词。与现有技术相比,本发明提供给用户的是多类查询,各个查询词的性质不同,能够查询到更多更广范围的信息。本发明在于引导用户用更优的词进行检索,以便能够得到更好的检索效果;引导用户的实质,是对用户的查询目的进行猜测、进而细分,从而得到更好的效果。

Description

一种扩展查询的方法、装置及搜索引擎***
技术领域
本发明涉及搜索查询领域,特别是涉及一种扩展查询的方法、装置及包含该装置的搜索引擎***。
背景技术
搜索引擎技术的发展给广大网络用户带来非常多的便利,用户利用搜索引擎可以很方便的获取其想要知道的信息。用户在搜索引擎上输入一个查询词,搜索引擎根据用户的查询词,就能返回包含该查询词的网页。因此,对于使用搜索引擎的用户而言,查询词至关重要,只有使用恰当的查询词,才能找到需要的网页。
目前,各个搜索引擎为了帮助用户找到恰当的查询词,进一步提高搜索查询质量,都提供了“相关搜索”的功能。即当一个用户查询某个词的时候,搜索引擎会提示其他用户用过的相关查询词。例如用户在Google输入“电脑”后点击查询按钮,返回的页面中除列出搜索结果外,在该页面的最下端还给出了相关搜索“太平洋电脑网”、“笔记本电脑”、“太平洋电脑”、“联想电脑”、“笔记本电脑报价”等与“电脑”相关的查询词。
现有的提供相关查询词的方法,主要是比较查询词之间的相似性,即比较两个查询词有多少相同的字或词。基于这种技术得到的相关查询词,存在以下问题:提供的相关查询词,性质都是一样的,通过这些查询词搜索到的结果都差不多;提供的相关查询词,由于性质一样,所以是否能够搜索到更多更广范围的信息是不确定的。
发明内容
本发明所要解决的技术问题是提供一种扩展查询的方法、装置及包含该装置的搜索引擎***,以解决目前的搜索引擎提供的相关查询词,性质可能一样,导致通过这些查询词搜索到的结果都差不多,并且是否能够搜索到更多更广范围的信息不确定的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:
一种扩展查询的方法,包括:
统计与查询词同现的词语;
将所有同现的词语进行分类;
从每一个类别以及对应的集合中选择一个词作为特征词,该词在本类别中出现的频率高于在其他类别中出现的频率;
将各个类的特征词作为该查询词的相关查询词。
其中,所述同现的词语指与查询词在一个网页中同时出现的词语。
优选的,所述统计与查询词同现的词语具体包括:以所有的查询词为关键词建立索引,索引内容为与查询词同现的词语。
其中,所述索引为倒排索引。
优选的,还包括:将同现的词语按照出现频率从高到低进行排序。
优选的,所述将所有同现的词语进行分类具体包括:将每个同现的词语都用一个集合表示,集合的内容为与该词同现的词语和词频;比较集合之间的相似度,如果相似度符合预置条件,则将集合对应的同现词语合并到一类。
其中,所述比较集合之间的相似度是比较集合中相同词语的个数。
优选的,所述方法还包括:用户输入查询词,将对应该查询词的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
优选的,将对应该查询词的相关查询词提供给用户具体包括:根据搜索日志,对所述相关查询词按照查询频率进行排序;将查询频率符合预置条件的相关查询词提供给用户。
一种扩展查询的装置,包括:
数据统计单元,用于统计与查询词同现的词语;
词语分类单元,用于将所有同现的词语进行分类;
类别命名单元,用于从每一个类别以及对应的集合中选择一个词作为特征词,该词在本类别中出现的频率高于在其他类别中出现的频率;
扩展查询单元,用于将各个类的特征词作为该查询词的相关查询词。
其中,所述同现的词语指与查询词在一个网页中同时出现的词语。
优选的,所述数据统计单元进一步包括:建立索引单元,用于以所有的查询词为关键词建立索引,索引内容为与查询词同现的词语。
其中,所述索引为倒排索引。
优选的,所述数据统计单元还包括:排序单元,用于将同现的词语按照出现频率从高到低进行排序。
优选的,所述词语分类单元进一步包括:建立集合单元,用于将每个同现的词语都用一个集合表示,集合的内容为与该词同现的词语和词频;合并单元,用于比较集合之间的相似度,如果相似度符合预置条件,则将集合对应的同现词语合并到一类。
其中,所述比较集合之间的相似度是比较集合中相同词语的个数。
优选的,所述装置还包括:应用单元,用于在用户输入查询词时,将对应该查询词的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
优选的,所述应用单元进一步包括:排序单元,用于根据搜索日志,对所述相关查询词按照查询频率进行排序;类别筛选单元,用于将查询频率符合预置条件的相关查询词提供给用户。
一种搜索引擎***,所述搜索引擎***包括所述的扩展查询装置。
根据本发明提供的具体实施例,本发明具有以下技术效果:
本发明在向用户提供相关查询词时,是将与该查询词同现的词语进行分类,然后将各个类的特征词作为该查询词的相关查询词提供给用户。与现有技术相比,本发明提供给用户的是多类查询,各个查询词的性质不同,能够查询到更多更广范围的信息;而现有技术提供的相关查询,不一定是几类查询词,很有可能性质都是一样的,因为现有的比较查询词之间相似性的方法很难判断。
本发明在于引导用户用更优的词进行检索,以便能够得到更好的检索效果;引导用户的实质,是对用户的查询目的进行猜测、进而细分,从而得到更好的效果。总之,本发明通过对查询词进行了分类,保证了扩展后查询的多样性。
附图说明
图1是本发明所述一种扩展查询的方法第一实施例的流程图;
图2是本发明实施例一中的索引示意图;
图3是本发明实施例一中对两个集合进行求交运算的示意图;
图4是本发明所述一种扩展查询的方法第二实施例的流程图;
图5是本发明所述一种扩展查询的装置第一实施例的结构图;
图6是本发明所述一种扩展查询的装置第二实施例的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供了一种扩展查询的方法,对于用户的查询进行扩展,能够为用户提供更优的查询词,从而得到更好的查询效果。
实施例一:
参照图1,是所述一种扩展查询的方法第一实施例的流程图。
S101,统计与查询词同现的词语。
统计与查询词同现的所有词语,是指统计一个词都与哪些词在一个网页(或一篇文章)中同时出现。在实际应用中,一种优选的统计方法是:以所有出现过的查询词为关键词建立索引,索引内容为与查询词同现的词语。
参照图2,是索引示意图。该索引是一种倒排索引结构,索引中的每个关键词即为查询词,对应每个关键词的索引内容即为与该查询词同现的词语。这些同现的词语可能来源于多个网页。例如,对于某查询词,同现的词语有A、B、C、D,其中词A和B与该查询词在一个网页中同时出现,词C和D与该查询词在另一个网页中同时出现。所以,每个索引内容为所有与查询词同现的词语。
优选的,还可以对索引中的同现词语按照出现的频率从高到低进行排序,以方便后续处理。如果一个词语在多个网页中与该查询词同现,则这个词语出现的频率就高,该词就排在靠前的位置。例如,对于某查询词,同现的词语有A、B、C、D,其中词A、B、C与该查询词在网页X中同时出现,而词D既在网页X中与查该询词同现,又在网页Y中与该查询词同现,这样词D的出现概率就高于词A、B、C。
S102,将所有同现的词语进行分类。
从S101中统计出的与一个查询词同时出现的词,可能会非常多,但不能把所有的同现词都拿出来做相关搜索。所以,需要把得到的所有的同现词做分类,分为各个类别。
本实施例优选采用的分类方法是,采用一种最大划分的方法。具体如下:
首先,将每个同现的词语都用一个集合表示,集合的内容为与该词同现的词语和词频;这样,对于每个同现词,都可以用一串词和词频来表示;
然后,比较集合之间的相似度,如果相似度符合预置条件,则将集合对应的同现词语合并到一类。
每个同现词用上述集合的方式表示之后,每两个词之间就可以比较相似度,从而将相似的同现词合并为一类,这样就可以得到很多分类。具体过程是:两两集合求交,即比较集合中相同词语的个数,如果两个集合的交集很大,则认为两个词是同类的,两个集合可以合并为一个集合;如果两个词的交集很小,则认为两个词是不同类的。所述集合合并的过程可以通过阈值控制,即设置交集阈值,当两个集合的交集符合所述阈值时,就可以进行合并。
参照图3,是对两个集合进行求交运算的示意图。图中,词1对应的集合包括词11、词12、词13以及词01、词02,词2对应的集合包括词21、词22、词23以及词01、词02。这两个集合都包含词01、词02,所以存在交集;如果交集符合阈值,则可以将词1和词2合并到一类。这样两两计算之后,就可以得到很多的分类。
举例说明,查询词为apple,与apple同时出现的词有ipod、iphone、手机、mp3、mac……。以前四个词为例,每个词用一个集合表示,如下:
与ipod同现的词有:apple、播放器、mp3、歌曲、音乐、iTunes、……
与mp3同现的词有:播放器、歌曲、音乐……
与iphone同现的词有:apple、手机、苹果……
与手机同现的词有:报价、号码……
按照上述分类方法:如果两个集合包含的词大部分相同,则认为这两个集合是一类。因此,ipod和mp3是一类,iphone和手机是一类。
需要说明的是,本实施例中对应每个词的集合由与这个词同现的词和词频构成,但还可以提取这个词的二元或三元关系构成集合,其中所述二元或三元关系是指这个词的前后词与这个词构成的二元或三元关系。
S103,为每一个类别选择特征词。
得到同现词的分类之后,需要找到一个特征词来代替整个类别,形象地说,是要给这个类别起一个名字。本实施例优选的,采用直接从类别中选取的方式,即从每一个类别以及对应的集合中选择一个特征词,这样能够保证找到的特征词,都是在搜索引擎中查询有结果的。挑选的原则如下:
第一,在本类别中出现的频率高;
第二,在其他类别中出现的频率低。
仍以查询词为apple为例,ipod和mp3是一类,iphone和手机是一类。然后从每一类中选出最具代表性的词语,根据词频选择,同时由于ipod和iphone的同现词中,都包含apple,并且这两个词没有互包含,则认为ipod、iphone是apple的两个类名。
S104,将各个类的特征词作为该查询词的相关查询词。
这样,ipod和iphone就可以作为apple的相关查询词,在用户查询apple的时候,将ipod和iphone推荐给用户。当然,相关查询词并非只能是各个类的特征词,也可以是个各类别中的其他词。
下面是本发明的优选实施例说明。
实施例二:
参照图4,是所述一种扩展查询的方法第二实施例的流程图。其中,S401-S404与实施例一的S101-S104相同,在此不再详述。
S401,统计与查询词同现的所有词语;
在搜索引擎***中,要完成这件事情,需要有非常大的资料库。在网页搜索库,整个资料库就是用户能够检索到的所有网页的集合,做这件事情,对于计算能力的要求是非常大的。为解决这个问题,本实施例采用分布式计算的方式,将一个计算任务分布到机群上运算,从而提高处理效率。
S402,将所有同现的词语进行分类;
S403,每个词语类中,选出最具代表性的词语进行命名;
S404,将各个类别最具代表性的词语作为该查询词的相关查询词;
当然,相关查询词并非只能是各个类的特征词,也可以是个各类别中的其他词;
S405,用户输入查询词,将对应该查询词的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
在搜索引擎应用中,如果类别很多,就需要找出适当的类别推荐给用户。挑选的方法是可以依据用户的搜索日志,选出一些查询频高的词,这些词由于用户使用的频率较高,说明是其他用户感兴趣的词语。
还是以apple为例,最终可能会得到ipod、iphone、mac、notebook、stock……若干类别,在类别太多的前提下,只能选几个给用户展现,选择类别可以依据用户的查询频率展现,比如,apple iphone在搜索引擎上有很多人查,则认为apple iphone是用户比较感兴趣的词语,优先选择。
由此可知,本发明提供给用户的是多类查询,各个相关查询词的性质不同,能够查询到更多更广范围的信息。而现有技术提供的相关查询,不一定是几类查询词,很有可能性质都是一样的,因为现有的比较查询词之间相似性的方法很难判断。
例如,用Google查apple,相关推荐是:
apple iphone  apple手机       apple ipod  apple uk     apple hk
power apple   apple computer  apple tv    apple笔记本  apple mp3
Google的查询结果中,iphone和手机、ipod和mp3、computer和笔记本的性质基本相同。
而利用本发明查询,相关推荐则是:
Apple ipod    apple iphone  apple notebook  apple os x       apple tv
apple Leopad  apple tiger   apple store     apple quicktime  Apple Developer
推荐结果都是不同类的查询,从而扩展了查询范围。
综上所述,本发明能够引导用户用更优的词进行检索,以便能够得到更好的检索效果;引导用户的实质,是对用户的查询目的进行猜测、进而细分,从而得到更好的效果。总之,本发明通过对查询词进行了分类,保证了扩展后查询的多样性。
针对上述方法,本发明还提供了一种扩展查询的装置实施例。参照图5,是所述一种扩展查询的装置第一实施例的结构图。所述装置主要包括数据统计单元U51、词语分类单元U52、类别命名单元U53和扩展查询单元U54,其中:
数据统计单元U51,用于统计与查询词同现的词语;
词语分类单元U52,用于将所有同现的词语进行分类;
类别命名单元U53,用于为每一个类别选择特征词;
扩展查询单元U54,用于将各个类的特征词作为该查询词的相关查询词。
优选的,所述数据统计单元U51进一步包括:建立索引单元,用于以所有的查询词为关键词建立索引,索引内容为与查询词同现的词语。其中,所述索引为倒排索引。
优选的,所述数据统计单元U51还包括:排序单元,用于将同现的词语按照出现频率从高到低进行排序。
优选的,所述词语分类单元U52进一步包括:建立集合单元,用于将每个同现的词语都用一个集合表示,集合的内容为与该词同现的词语和词频;以及合并单元,用于比较集合之间的相似度,如果相似度符合预置条件,则将集合对应的同现词语合并到一类。
优选的,所述类别命名单元U53通过以下方式为每一个类别选择特征词:从每一个类别以及对应的集合中选择一个特征词,该词在本类别中出现的频率高于在其他类别中出现的频率。
参照图6,是所述一种扩展查询的装置第二实施例的结构图。所述装置除包括数据统计单元U61、词语分类单元U62、类别命名单元U63和扩展查询单元U64之外,还包括应用单元U65。
其中,数据统计单元U61、词语分类单元U62、类别命名单元U63和扩展查询单元U64的功能以及单元之间的数据处理关系与上述图5所示装置中的数据统计单元U51、词语分类单元U52、类别命名单元U53和扩展查询单元U54相同,在此不再详述。
所述装置中的应用单元U65,用于在用户输入查询词时,将对应该查询词的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
优选的,所述应用单元U65进一步包括:排序单元,用于根据搜索目志,对所述相关查询词按照查询频率进行排序;类别筛选单元,用于将查询频率高的相关查询词提供给用户。
本发明还提供了一种搜索引擎***,所述***包含图5或图6所述的装置。该搜索引擎***通过图4或图5所述装置对查询词进行了分类后,当用户利用某一查询词进行搜索时,可以对用户的搜索进行扩展,提供多类查询,这些相关查询词具有不同性质,因此从一定程度上说是扩展了查询的广度。
图5、图6所示装置中未详述的部分可以参见图1-图4所示方法的相关部分,为了篇幅考虑,在此不再详述。
以上对本发明所提供的一种扩展查询的方法、装置及包含该装置的搜索引擎***,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (19)

1.一种扩展查询的方法,其特征在于,包括:
统计与查询词同现的词语;
将所有同现的词语进行分类;
从每一个类别以及对应的集合中选择一个词作为特征词,该词在本类别中出现的频率高于在其他类别中出现的频率;
将各个类的特征词作为该查询词的相关查询词。
2.根据权利要求1所述的方法,其特征在于:所述同现的词语指与查询词在一个网页中同时出现的词语。
3.根据权利要求1所述的方法,其特征在于,所述统计与查询词同现的词语具体包括:
以所有的查询词为关键词建立索引,索引内容为与查询词同现的词语。
4.根据权利要求3所述的方法,其特征在于:所述索引为倒排索引。
5.根据权利要求3所述的方法,其特征在于,还包括:将同现的词语按照出现频率从高到低进行排序。
6.根据权利要求1所述的方法,其特征在于,所述将所有同现的词语进行分类具体包括:
将每个同现的词语都用一个集合表示,集合的内容为与该词同现的词语和词频;
比较集合之间的相似度,如果相似度符合预置条件,则将集合对应的同现词语合并到一类。
7.根据权利要求6所述的方法,其特征在于:所述比较集合之间的相似度是比较集合中相同词语的个数。
8.根据权利要求1所述的方法,其特征在于,还包括:
将对应该查询词的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
9.根据权利要求8所述的方法,其特征在于,将对应该查询词的相关查询词提供给用户具体包括:
根据搜索日志,对所述相关查询词按照查询频率进行排序;
将查询频率符合预置条件的相关查询词提供给用户。
10.一种扩展查询的装置,其特征在于,包括:
数据统计单元,用于统计与查询词同现的词语;
词语分类单元,用于将所有同现的词语进行分类;
类别命名单元,用于从每一个类别以及对应的集合中选择一个词作为特征词,该词在本类别中出现的频率高于在其他类别中出现的频率;
扩展查询单元,用于将各个类的特征词作为该查询词的相关查询词。
11.根据权利要求10所述的装置,其特征在于:所述同现的词语指与查询词在一个网页中同时出现的词语。
12.根据权利要求10所述的装置,其特征在于,所述数据统计单元进一步包括:
建立索引单元,用于以所有的查询词为关键词建立索引,索引内容为与查询词同现的词语。
13.根据权利要求12所述的装置,其特征在于:所述索引为倒排索引。
14.根据权利要求12所述的装置,其特征在于,所述数据统计单元还包括:
排序单元,用于将同现的词语按照出现频率从高到低进行排序。
15.根据权利要求10所述的装置,其特征在于,所述词语分类单元进一步包括:
建立集合单元,用于将每个同现的词语都用一个集合表示,集合的内容为与该词同现的词语和词频;
合并单元,用于比较集合之间的相似度,如果相似度符合预置条件,则将集合对应的同现词语合并到一类。
16.根据权利要求15所述的装置,其特征在于:所述比较集合之间的相似度是比较集合中相同词语的个数。
17.根据权利要求10所述的装置,其特征在于,所述装置还包括:
应用单元,用于在用户输入查询词时,将对应该查询词的相关查询词提供给用户;其中,所述相关查询词包括多个分类。
18.根据权利要求17所述的装置,其特征在于,所述应用单元进一步包括:
排序单元,用于根据搜索日志,对所述相关查询词按照查询频率进行排序;
类别筛选单元,用于将查询频率符合预置条件的相关查询词提供给用户。
19.一种搜索引擎***,其特征在于:所述搜索引擎***包括上述权利要求10至18任意一项权利要求所述的扩展查询装置。
CN2008101154707A 2008-06-24 2008-06-24 一种扩展查询的方法、装置及搜索引擎*** Active CN101295319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101154707A CN101295319B (zh) 2008-06-24 2008-06-24 一种扩展查询的方法、装置及搜索引擎***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101154707A CN101295319B (zh) 2008-06-24 2008-06-24 一种扩展查询的方法、装置及搜索引擎***

Publications (2)

Publication Number Publication Date
CN101295319A CN101295319A (zh) 2008-10-29
CN101295319B true CN101295319B (zh) 2010-06-02

Family

ID=40065603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101154707A Active CN101295319B (zh) 2008-06-24 2008-06-24 一种扩展查询的方法、装置及搜索引擎***

Country Status (1)

Country Link
CN (1) CN101295319B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996210A (zh) 2009-08-31 2011-03-30 国际商业机器公司 用于搜索电子地图的方法和***
WO2011079414A1 (en) * 2009-12-30 2011-07-07 Google Inc. Custom search query suggestion tools
CN102955821A (zh) * 2011-08-30 2013-03-06 北京百度网讯科技有限公司 一种对查询序列进行扩展处理的方法与设备
CN102375885A (zh) * 2011-10-21 2012-03-14 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
US9026631B2 (en) 2012-01-24 2015-05-05 International Business Machines Corporation Business-to-business social network
CN102722526B (zh) * 2012-05-16 2014-04-30 成都信息工程学院 基于词性分类统计的重复网页和近似网页的识别方法
CN102831185A (zh) * 2012-08-01 2012-12-19 北京百度网讯科技有限公司 一种词条推荐方法及装置
CN102799689A (zh) * 2012-08-09 2012-11-28 昆山宏凌电子有限公司 一种搜索软件
US20140114954A1 (en) * 2012-10-23 2014-04-24 International Business Machines Corporation Incorporating related searches by other users in a social network in a search request
CN103853771B (zh) * 2012-12-03 2018-12-14 百度在线网络技术(北京)有限公司 一种搜索结果的推送方法及***
CN103150409B (zh) * 2013-04-08 2017-04-12 深圳市宜搜科技发展有限公司 一种用户检索词推荐的方法及***
CN103258025B (zh) * 2013-05-08 2016-08-31 百度在线网络技术(北京)有限公司 生成共现关键词的方法、提供关联搜索词的方法以及***
CN103401918B (zh) * 2013-07-30 2016-04-06 东北石油大学 一种基于电子地图的商业信息发布***
CN103744956B (zh) * 2014-01-06 2017-01-04 同济大学 一种关键词的多样化拓展方法
CN103853831B (zh) * 2014-03-10 2017-02-01 中国电子科技集团公司第二十八研究所 一种基于用户兴趣的个性化搜索实现方法
CN104598630A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 一种事件索引与检索的方法及装置
CN106033445B (zh) * 2015-03-16 2019-10-25 北京国双科技有限公司 获取文章关联度数据的方法和装置
CN107203543A (zh) * 2016-03-18 2017-09-26 温浩 一种用户检索词关联推荐的信息检索方法
CN108304417B (zh) * 2017-01-13 2021-09-17 北京京东尚科信息技术有限公司 信息处理方法和信息处理装置
CN107168943B (zh) * 2017-04-07 2018-07-03 平安科技(深圳)有限公司 话题预警的方法和装置
CN107169045A (zh) * 2017-04-19 2017-09-15 中国人民解放军国防科学技术大学 一种基于时域特征的查询词自动补全方法与装置
CN108170664B (zh) * 2017-11-29 2021-04-09 有米科技股份有限公司 基于重点关键词的关键词拓展方法和装置
CN108304444B (zh) * 2017-11-30 2021-12-14 腾讯科技(深圳)有限公司 信息查询方法及装置
CN112925967A (zh) * 2021-02-07 2021-06-08 北京鼎诚世通科技有限公司 扩展查询词的生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0687987B1 (en) * 1994-06-16 2003-06-04 Xerox Corporation A method and apparatus for generating a thesaurus of word vectors from a corpus of documents
CN1916905A (zh) * 2006-09-04 2007-02-21 北京航空航天大学 基于倒排表进行检索提示的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0687987B1 (en) * 1994-06-16 2003-06-04 Xerox Corporation A method and apparatus for generating a thesaurus of word vectors from a corpus of documents
CN1916905A (zh) * 2006-09-04 2007-02-21 北京航空航天大学 基于倒排表进行检索提示的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
涂新辉,罗景.基于相关术语群的中文查询扩展.计算机与数字工程第30卷 第1期.2008,第30卷(第1期),29--36.
涂新辉,罗景.基于相关术语群的中文查询扩展.计算机与数字工程第30卷 第1期.2008,第30卷(第1期),29-36. *
顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法.计算机工程与应用 2004年第18期.2004,(2004年第18期),23-26.
顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法.计算机工程与应用 2004年第18期.2004,(2004年第18期),23-26. *

Also Published As

Publication number Publication date
CN101295319A (zh) 2008-10-29

Similar Documents

Publication Publication Date Title
CN101295319B (zh) 一种扩展查询的方法、装置及搜索引擎***
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US8554854B2 (en) Systems and methods for identifying terms relevant to web pages using social network messages
CN102567408B (zh) 推荐搜索关键词的方法和装置
CN101079064B (zh) 一种网页排序方法及装置
CN102012900B (zh) 信息检索方法和***
CN109885773B (zh) 一种文章个性化推荐方法、***、介质及设备
CN103399883A (zh) 根据用户兴趣点/关注点进行个性化推荐的方法和***
CN104166651A (zh) 基于对同类数据对象整合的数据搜索的方法和装置
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
CN101673306B (zh) 网页信息查询方法及其***
US9405803B2 (en) Ranking signals in mixed corpora environments
CN105512143A (zh) 一种网页分类方法及装置
CN103294692A (zh) 一种信息推荐方法及***
Adamu et al. A survey on big data indexing strategies
CN103778206A (zh) 一种网络服务资源的提供方法
CN106294358A (zh) 一种信息的检索方法及***
CN103761286A (zh) 一种基于用户兴趣的服务资源检索方法
CN103810210B (zh) 搜索结果显示方法及装置
CN108509449B (zh) 一种信息处理的方法及服务器
CN112784040B (zh) 基于语料库的垂直行业文本分类方法
CN112883143A (zh) 一种基于Elasticsearch的数字展会搜索方法与***
Park et al. Topic word selection for blogs by topic richness using web search result clustering
CN101763441A (zh) 一种以动态目录方式组织检索结果的技术
US9646099B2 (en) Generating resources for support of online services

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant