CN101661490B - 搜索引擎、其客户端及搜索网页的方法 - Google Patents

搜索引擎、其客户端及搜索网页的方法 Download PDF

Info

Publication number
CN101661490B
CN101661490B CN 200810213931 CN200810213931A CN101661490B CN 101661490 B CN101661490 B CN 101661490B CN 200810213931 CN200810213931 CN 200810213931 CN 200810213931 A CN200810213931 A CN 200810213931A CN 101661490 B CN101661490 B CN 101661490B
Authority
CN
China
Prior art keywords
page
abstract
user
word set
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200810213931
Other languages
English (en)
Other versions
CN101661490A (zh
Inventor
张小洵
郭志立
郭宏蕾
祝慧佳
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN 200810213931 priority Critical patent/CN101661490B/zh
Publication of CN101661490A publication Critical patent/CN101661490A/zh
Application granted granted Critical
Publication of CN101661490B publication Critical patent/CN101661490B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

搜索引擎、其客户端及搜索网页的方法。搜索引擎包含查询装置,被配置为检索出满足查询的网页序列;页面摘要提取装置,被配置为提取所述网页序列中至少一个的网页的候选页面摘要;和页面摘要选择装置,被配置为根据与发出所述查询的用户相关的词集选择所述候选页面摘要中的候选页面摘要,作为提供给所述用户的页面摘要。由于不是简单地选择包含查询关键词的文本段来形成页面摘要,而是根据反映用户的信息需求的个性化关键词来从候选页面摘要中选择最终的页面摘要,因而能够在一定程度上满足用户的个性化信息需求。

Description

搜索引擎、其客户端及搜索网页的方法
技术领域
本发明涉及搜索引擎技术,尤其涉及搜索引擎的查询结果中与网页相关的页面摘要(snippet)的检索。
背景技术
随着互联网业务的不断发展,例如Google、Yahoo、MSN的搜索引擎几乎成为人们发现感兴趣的网络资源(例如网页)所不可缺少的工具。搜索引擎通常以下述方式工作:一旦用户通过客户端提交了查询,搜索引擎将通过搜索结果页向用户返回搜索到的网页。搜索到的网页与查询相关。除了网页的标题和统一资源标识符(URL)之外,搜索结果页还包含与网页相关的短文本描述。
这种短文本描述通常被称为页面摘要。搜索引擎通常通过提取和组合包含查询所涉及的关键词的文本段从网页中提取页面摘要。在搜索结果页中,搜索引擎可以通过诸如高亮显示、加下划线、不同字体等等的各种手段使页面摘要中的查询关键词的显示区别于其它文本,以吸引用户的注意力并利于用户决定是否点击该网页。
除了查询关键词之外,用户可能在信息需求,例如个人兴趣、搜索意图和目标等方面存在差异。虽然页面摘要可一定程度上反映网页与查询的相关,但由于目前的页面摘要由包含查询关键词的文本段构成,文本段的选择并未考虑文本段中除关键词之外的内容。
因此,需要进一步改进搜索技术、以至少在某种程度上满足不同人的不同信息需求。
发明内容
本发明的一个目的是提供一种搜索引擎、搜索引擎的客户端、以及搜索网页的方法,从而为用户提供个性化的页面摘要。
在本发明的一个实施例中,搜索引擎包含:查询装置,被配置为检索出满足查询的网页序列;页面摘要提取装置,被配置为提取所述网页序列中至少一个的网页的候选页面摘要;页面摘要选择装置,被配置为根据与发出所述查询的用户相关的词集选择所述候选页面摘要中的候选页面摘要,作为提供给所述用户的页面摘要;和结果产生装置,被配置为产生包含所述网页序列和所述页面摘要的查询结果。
在一个可选实施例中,搜索引擎可以包含词集产生装置,被配置为根据反映所述用户的信息需求的信息,获得所述用户的至少一个的个性化关键词,以形成所述词集。
在本发明的一个实施例中,搜索引擎的客户端包含:接收装置,被配置为从搜索引擎接收检索出的网页序列,和所述网页序列中至少一个的网页的候选页面摘要;页面摘要选择装置,被配置为根据与所述客户端的用户相关的词集选择所述候选页面摘要中的候选页面摘要,作为提供给所述用户的页面摘要,和结果产生装置,被配置为产生包含所述网页序列和所述页面摘要的查询结果。
在一个可选实施例中,客户端可以包含词集产生装置,被配置为根据反映所述用户的信息需求的信息,获得所述用户的至少一个的个性化关键词,以形成所述词集。
在本发明的一个实施例中,搜索网页的方法包含:检索出满足查询的网页序列;提取所述网页序列中至少一个的网页的候选页面摘要;根据与发出所述查询的用户相关的词集选择所述候选页面摘要中的候选页面摘要,作为提供给所述用户的页面摘要;和产生包含所述网页序列和所述页面摘要的查询结果。
在本发明的一个实施例中,搜索网页的方法包含:从搜索引擎接收响应查询而检索出的网页序列,和所述网页序列中至少一个的网页的候选页面摘要;根据与发出所述查询的用户相关的词集选择所述候选页面摘要中的候选页面摘要,作为提供给所述用户的页面摘要;和产生包含所述网页序列和所述页面摘要的查询结果。
在本发明的实施例中,由于不是简单地选择和组合包含查询关键词的文本段来形成页面摘要,而是根据反映用户的信息需求的个性化关键词来从候选页面摘要中选择最终的页面摘要,因而能够在一定程度上满足用户的个性化信息需求。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其他目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。
图1是示出搜索引擎的一般结构的框图。
图2是示出搜索引擎的客户端的一般结构的框图。
图3是示出根据本发明一个实施例的搜索引擎的结构的框图。
图4是示出图3所示的搜索引擎中执行的搜索网页的方法的示例性流程图。
图5A和5B示出了图4所示的方法处理的查询的一个例子。
图6是示出基于本发明另一实施例的搜索引擎的结构的框图。
图7是示出基于本发明另一实施例的客户端的结构的框图。
图8是示出图7所示的客户端中执行的搜索网页的方法的示例性流程图。
图9是示出其中实现本发明的计算机的示例性结构的框图。
具体实施方式
下面参照附图来说明本发明的实施例。应当注意,为了清楚目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
在描述本发明的实施例之前,对搜索引擎和客户端的一般结构进行说明将有助于理解本发明。
图1是示意性示出搜索引擎的一般结构的框图。如图1所示,搜索引擎一般包含信息搜集装置101、数据库102、索引装置103和查询器104。信息搜集装置101负责在互联网中漫游,发现和搜集网页信息,并将网页信息存储在数据库102中。索引装置103负责理解信息搜集装置101所搜集到的网页信息,对网页内容进行分析,对网页内容进行标记索引并存储到数据库102中。查询器104接收来自用户的查询,从数据库102中检索到满足查询的网页,并将查询结果返回给用户。
查询器104一般包括查询装置110、页面摘要提取装置111和搜索引擎结果产生装置112。查询装置110根据用户提交的查询检索数据库并根据相关度对检索结果进行排序,以得到满足查询的网页(即网页的地址)序列。针对网页序列中的每个网页,页面摘要提取装置111从数据库102的相应网页内容中提取一个页面摘要。搜索引擎结果产生装置112将网页序列和相关的页面摘要等内容组织成查询结果,例如产生超文本标记语言(HTML)页面,以反馈给查询用户。
页面摘要提取装置111针对查询中的每个关键词(查询中排除的关键词除外),从网页内容中提取相对于该关键词的出现位置的邻近范围内的文本,并将针对各关键词提取的文本组合为页面摘要。如果关键词在网页内容中有多次出现,页面摘要提取装置111可简单地使用启发式规则、摘要技术或随机采样来选择文本段以形成页面摘要。启发式规则是指根据经验或推测确定的选择文本段的规则。例如,基于网页内容中首次出现的包含关键词的文本段往往更加重要的经验或假设,启发式规则可以是选择网页内容中首次出现的包含关键词的文本段。摘要技术是一种提取最能文档的主要内容的技术。利用这种技术提取文本段就是选择最能反映网页内容的主要内容,即包含关键词的最重要的文本段。已知有各种技术来确定文本段相对于网页内容的重要性。例如可通过词频-逆向文档(TF-IDF)方法(后面会具体描述)求出文本段的每个词相对于网页内容的权重,而文本段中所有词的权重的和则为该文本段的权重。文本段的权重越大,则重要性就越高。
图2是示意性示出搜索引擎的客户端200的一般结构的框图。如图2所示,客户端200包括用户接口201、客户端发送装置202和客户端接收装置203。用户接口201接收用户输入的查询,向用户呈现查询结果,并且处理用户的浏览操作(例如翻页、滚动等等)。客户端发送装置202将输入到用户接口201的查询发送给搜索引擎。客户端接收装置203从搜索引擎接收查询结果以通过用户接口201呈现给用户。
图3是示出根据本发明一个实施例的搜索引擎的结构的框图。如图3所示,搜索引擎包含信息搜集装置301、数据库302、索引装置303和查询器304。查询器304包含查询装置310、页面摘要提取装置311、搜索引擎结果产生装置312和搜索引擎页面摘要选择装置313。信息搜集装置301、数据库302、索引装置303和查询装置310可与图1所示的信息搜集装置101、数据库102、索引装置103和查询装置110相同,因此这里不再重复说明。
与图1所示的页面摘要提取装置111不同,针对网页序列中的每个网页,页面摘要提取装置311不是从数据库302的相应网页内容中提取一个页面摘要,而是提取所有候选的页面摘要。页面摘要提取装置311从网页内容中提取关键词的邻近文本和组合邻近文本的方法可与现有技术的页面摘要提取装置相同。例如,可在网页内容中找出查询中涉及的关键词(查询中排除的关键词除外)的所有出现。针对每个出现,可从该出现的位置出发,按照预定提取规则从网页内容中提取包含该出现的文本段。预定提取规则可包括例如:
●长度约束:文本段的长度不超过预定上限;
●完整性约束:文本段尽量保持为完整的句子;
●总长度约束:文本段的提取要考虑到组合后的长度不超过预定上限;
●避免重复:对于取自同一部分的包含至少两个不同关键词的不同文本段,尽量取相同文本段。例如,对于句子“The D300 is designatedby Nikon as the ultimate in DX format performance”,如果针对关键词“D300”和“format”提取文本段,可能提取文本段“The D300is designated by Nikon as the ultimate”和“by Nikon as the ultimatein DX format performance”。而根据避免重复原则,则应当提取例如“The D300 is designated by Nikon as the ultimate in DX formatperformance”。如果要限制长度,可用省略号代替无关部分。
●其它规则及这些规则的任意组合。
页面摘要提取装置311根据预定组合规则获得这些文本段的所有组合。预定组合规则可包括:组合中包含的关键词的种类越多,则会更优选地考虑该组合;避免包含重复或重叠的文本段;等等。可选地,页面摘要提取装置311可以根据预定策略只得到部分的组合。例如获得包含的关键词的种类数较多的组合,获得所有组合中预定比例的组合、随机获得部分的组合,等等。页面摘要提取装置311并不是只从获得的组合中选择一个组合作为页面摘要,而是输出所有获得的组合,以作为候选页面摘要。
可选地,页面摘要提取装置311不必针对网页序列中的每个网页来提取候选页面摘要,而是可以针对根据预定策略选择的部分网页来提取候选页面摘要。例如,可以针对顺序靠前的网页、预定比例的网页、相关度超过预定阈值的网页、或甚至是随机确定的网页来进行提取。
搜索引擎页面摘要选择装置313根据与发出查询的用户相关的词集,从页面摘要提取装置311输出的候选页面摘要中,选择出作为提供给用户的页面摘要。词集中的词反映了用户的个性化信息需求,因而可以根据词集中的词来确定候选页面摘要的内容是否部分或全部地满足用户的个性化信息需求,即是否包含词集中的词。可根据各种方法来确定候选页面摘要反映个性化信息需求的程度。例如,可以将候选页面摘要中出现的词集中的词的种类数作为程度的度量。在这种情况下,某一候选页面摘要所包含的词集中的词的种类数越大,则个性化程度越高。在另一个例子中,可以为词集中的词预先设定权重,或者根据预定准则为词集中的词分配权重。作为根据预定准则分配权重的一个例子,根据反映用户的信息需求的信息来获得用户的个性化关键词以形成词集(详细描述见下文),可以获得词集中的词在所述信息中的出现频率,并且为词集中的词分配与其出现频率相匹配的权重。在这种情况下,权重的和越大,则个性化程度越高。可以选择反映个性化程度最高的候选页面摘要,或随机选择反映个性化程度较高的若干候选页面摘要中的一个,或选择反映个性化程度高于预定阈值的第一个候选页面摘要,或选择反映个性化程度较高并且根据摘要技术确定更能反映网页内容的候选页面摘要,等等。本领域的普通技术人员理解,本发明还可以采用其它方式以选择候选页面摘要中的页面摘要。
对于获得候选页面摘要中出现的词集中的词的种类数,所属领域普通技术人员可通过各种方法来实现。例如,可以扫描每个候选页面摘要所包含的词是否被包含在词集中,从而统计出种类数,进而比较针对所有候选页面摘要统计的种类数。或者,可采用下述更加形式化的方法。
在该方法中,首先建立一个词典,包含按预定顺序排列的多个词。这个词典可以是所有可能的词的全集,也可以是这样的全集的子集。在后者的情况下,词集将不包含词典中不存在的词。将上述词集构造为一个词集向量。该词集向量中的每个元素均与词典中的一个不同的词相对应,并且用例如1表示词集包含相对应的词,用例如0表示词集不包含相对应的词。通过类似的方式为每个组合构成相应的候选页面摘要向量。候选页面摘要向量中的每个元素均与词典中的一个不同的词相对应,并且用例如1表示候选页面摘要包含相对应的词,用例如0表示候选页面摘要不包含相对应的词。词集向量和候选页面摘要向量中元素的数目与词典中词的数目相同。
计算词集向量和候选页面摘要向量之间的相关性。例如可使用向量间的余弦距离cosine或者重叠距离overlap来计算相关度,公式分别定义如下:
Co sin e : sim ( x , y ) = dot ( x , y ) | x | · | y |
Overlap : sim ( x , y ) = dot ( x , y ) min ( | x | , | y | )
这里,x和y分别表示词集向量和候选页面摘要向量,|x|和|y|分别表示向量x和y中包含的非零元素个数,dot(x,y)表示向量x和y的内积。相关度越高,则表明候选页面摘要中出现的词集中的词的种类数越多。因而通过比较相关度可进行上述选择。
上述词集可以包含有反映用户的个性化信息需求,例如个人兴趣、搜索意图和目标等方面的关键词。词集可以是人工设定的,例如通过导入文件或交互式选择来设定,也可以通过自动化装置来产生(后面会详细描述)。搜索引擎可通过各种方法识别与用户相关的词集。例如,在用户需要在搜索引擎上注册和登录的情况下,可以在用户注册时导入、从客户端接收或产生相关的词集,并且在用户登录时根据用户身份确定相应的词集,甚至可以由用户在登录后进行修改、导入或产生词集的操作。或者,可以从用户的客户端收集用户的身份信息(例如通过COOKIE、调用ACTIVEX控件、下载并运行APPLET等),并且在明确用户身份的情况下产生词集、导入或从客户端接收已经产生的词集。或者,可以在客户端安装用于向搜索引擎导入、传送词集或产生词集的插件。
搜索引擎结果产生装置312产生包含网页序列和所选择的候选页面摘要的查询结果。例如,可以将查询结果组织成由网页序列中的网页的信息(例如标题、地址等等)和相应选择的候选页面摘要构成的结果单元的列表。
可选地,或者在页面摘要提取装置311针对网页序列的部分网页进行提取的情况下,页面摘要提取装置311可以进一步产生现有技术的页面摘要,并且由搜索引擎结果产生装置312用所选择的候选页面摘要替换相应的现有技术的页面摘要。
下面结合图4来描述图3示出的搜索引擎中执行的搜索网页的方法,其中省略了与本发明无关的处理。
如图4所示,方法从步骤400开始。在步骤402,响应于接收到用户的查询,查询装置310检索出满足查询的网页序列。接着在步骤404,页面摘要提取装置311提取网页序列中至少一个的网页的候选页面摘要。接着在步骤406,搜索引擎页面摘要选择装置313针对上述至少一个的网页,将所提取的选页面摘要中含有与用户相关的词集中的词最多的候选页面摘要,选择为提供给用户的页面摘要。接着在步骤408,搜索引擎结果产生装置312产生包含所述网页序列和所述页面摘要的查询结果。方法接着在步骤410结束。
图5A和5B示出了图4所示的方法处理的查询的一个例子。图5A示出了在步骤402针对用户输入的查询“Nikon D300”(“Nikon”是一个相机品牌,“D300”是一个相机型号)搜索到的网页序列中一个网页的内容,其中查询包括两个查询关键词“Nikon”和“D300”。假设词集包含词集关键词“format”(镜头制式)和“battery”(电池)。在图5A所示的内容中,段落501包含查询关键词“Nikon”和“D300”。段落502包含查询关键词“D300”和词集关键词“format”。段落503不包含查询关键词“Nikon”和“D300”,但包含词集关键词“format”。段落504包含查询关键词“D300”和词集关键词“battery”。段落505不包含查询关键词“Nikon”和“D300”,但包含词集关键词“battery”。在步骤404,提取出文本段“The Nikon D300is a 12.3-megapixel professional digital single-lens-reflex(dSLR)camerathat Nikon Corporation announced on 23 August 2007”、“The D300 isdesignated by Nikon as the ultimate in DX format performance”和“TheMB-D10 allows the D300 to be powered by an additional EN-EL3e batteryor AA batteries”。在步骤406,所获得的组合“The Nikon D300 is a12.3-megapixel professional digital single-lens-reflex(dSLR)camera thatNikon Corporation announced on 23 August 2007.The D300 is designatedby Nikon as the ultimate in DX format performance.The MB-D10 allowsthe D300 to be powered by an additional EN-EL3e battery or AAbatteries”包含词集关键词“format”和“battery”,即包含的词集关键词最多,于是被选择。在步骤408,产生如图5B所示的相应结果单元。
回到图3,优选地,搜索引擎可包含词集产生装置(未示出)。词集产生装置根据反映所述用户的信息需求的信息,获得用户的至少一个的个性化关键词,以形成词集。反映所述用户的信息需求的信息是指能够反映出例如用户曾经、现在或将来要浏览、想要浏览的内容的信息,例如进行的查询、浏览过的网页、收藏的网页或文档等等。从这些信息中可收集到用户的个性化信息需求。可通过个性化检索领域的已知技术来进行这样的收集,例如Shengliang Xu等人的“Exploring Folksonomy for PersonalizedSearch”,SIGIR’08,July20-24,2008,Singapore中公开的技术,词频-逆向文档(TF-IDF)等等。可从搜索引擎或客户端(例如通过COOKIE、调用ACTIVEX控件、下载并运行APPLET等)收集到这样的信息。作为一个具体示例,词集产生装置可通过下述TF-IDF方法根据反映用户个性化信息需求的信息获得词集。
通过TF-IDF方法,可以评估一个词对于反映用户个性化信息需求的信息(例如一个文档集)中某个文档的重要程度,其公式如下:
tf i . j = n i , j Σ k n k , j
其中分子ni,j表示词ti在文档dj中出现的次数,而分母Σknk,j表示文档dj中所有词出现的次数之和,
idf i = log ( D ) | { d : t i ∈ d } |
其中|D|表示文档集中的文档总数,而|{d:ti∈d}|表示包含词ti的文档个数。
最后词ti相对于文档dj的权重wi,j
wi,j=tfi,j·idfi
在关键词抽取中,将一篇文档中权重wi,j比较大的那些词作为文档的关键词。所获得的所有关键词形成词集。在如前所述使用词典的情况下,词集将不包含词典中不存在的词。
优选地,搜索引擎可包括标识装置(未示出)。标识装置可标识词集中任何词在所选择的候选页面摘要中的出现,例如通过高亮显示、加下划线、不同字体等等手段。客户端可根据这样的标识进行相应的呈现。
在上述实施例中,可通过图2所示的客户端来完成查询。
虽然在前面的实施例中将结果产生装置描述为包含在搜索引擎中,然而结果产生装置也可以被包含在客户端中。在这样的情况下,搜索引擎可以向客户端返回响应查询而检索到的网页序列和针对网页序列中的网页而选择的页面摘要。在客户端中由客户端接收装置接收网页序列和选择的页面摘要,并且由结果产生装置产生查询结果并提供给用户接口来呈现。
可选地,直接在客户端导入或产生词集,并由客户端发送装置在合适的时机,例如用户注册、登录到搜索引擎、响应搜索引擎的控制、在发送查询到搜索引擎时、响应用户的控制等等情况下,将本地的词集发送到搜索引擎。
优选地,词集产生装置可以被包含在客户端中,而不是在搜索引擎中。在这样的情况下,可以在合适的时机,例如在响应用户的控制、用户启动客户端等等的情况下,启动词集产生装置来根据本地的反映用户的信息需求的信息形成词集。
相应地,在客户端具有词集的情况下,标识装置可以被包含在客户端中,而不是在搜索引擎中。在这样的情况下,在查询结果被提供给用户接口之前,则标识装置进行标识。
图6是示出基于本发明另一实施例的搜索引擎的框图。图7是示出基于本发明另一实施例的客户端的框图。
如图6所示,搜索引擎包含信息搜集装置601、数据库602、索引装置603和查询器604。查询器604包含查询装置610、页面摘要提取装置611和搜索引擎发送装置614。信息搜集装置601、数据库602、索引装置603、查询装置610和页面摘要提取装置611可与图3所示的信息搜集装置301、数据库302、索引装置303、查询装置310和页面摘要提取装置311相同,因此这里不再重复说明。搜索引擎发送装置614向发出查询的用户的客户端发送所提取的网页序列和所选择的候选页面摘要。
如图7所示,客户端700包括用户接口701、客户端发送装置702、客户端接收装置703、客户端页面摘要选择装置704和客户端结果产生装置705。用户接口701和客户端发送装置702分别与图2所示的用户接口201、客户端发送装置202相同,这里不再重复描述。在图7中,由于客户端发送装置703和用户接口701与解决本发明所针对的技术问题无关,因此用虚线框来表示。客户端接收装置703从搜索引擎接收检索出的网页序列,和网页序列中的网页的候选页面摘要。与搜索引擎页面摘要选择装置313类似,客户端页面摘要选择装置704将候选页面摘要中含有与客户端的用户相关的词集中的词最多的候选页面摘要,选择为提供给用户的页面摘要。与搜索引擎结果产生装置312类似,客户端结果产生装置705产生包含网页序列和所选择的页面摘要的查询结果,但提供给用户接口701。
下面结合图8来描述图7示出的客户端中执行的搜索网页的方法,其中省略了与本发明无关的处理。
如图8所示,方法从步骤800开始。在步骤802,客户端接收装置703从图6所示的搜索引擎接收响应查询而检索出的网页序列,和网页序列中至少一个的网页的候选页面摘要。接着在步骤804,客户端页面摘要选择装置704将候选页面摘要中含有与客户端的用户,即发出查询的用户相关的词集中的词最多的候选页面摘要,作为提供给用户的页面摘要。接着在步骤806,客户端结果产生装置705产生包含所述网页序列和所述页面摘要的查询结果。方法接着在步骤808结束。
优选地,图7所示的客户端700可包括与前面描述的标识装置相同的标识装置(未示出)。
可以通过与前面描述的类似的方式直接在客户端导入或产生词集。优选地,客户端700可以包含与前面描述的词集产生装置相同的词集产生装置。在这样的情况下,可以在合适的时机,例如在响应用户的控制、用户启动客户端等等的情况下,启动词集产生装置来根据本地的反映用户的信息需求的信息形成词集。
应当注意,虽然前面的实施例中将搜索引擎和客户端描述为具有服务器和客户端的体系结构,然而本发明并不限于此体系结构。例如,搜索引擎可以实现在主机,而用户通过终端来访问主机提供的查询功能。或者,可以将搜索引擎和客户端功能集成在一起。
另外,还应该指出的是,上述系列处理和装置也可以通过硬件、软件和固件实现。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图8所示的通用计算机800安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
本发明的***、设备、装置和方法的实现环境如图8所示。
在图9中,中央处理单元(CPU)901根据只读映射数据(ROM)902中存储的程序或从存储部分908加载到随机存取映射数据(RAM)903的程序执行各种处理。在RAM903中,也根据需要存储当CPU901执行各种处理等等时所需的数据。
CPU901、ROM902和RAM903经由总线904彼此连接。输入/输出接口905也连接到总线904。
下述部件连接到输入/输出接口905:输入部分906,包括键盘、鼠标等等;输出部分907,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分908,包括硬盘等等;和通信部分909,包括网络接口卡比如LAN卡、调制解调器等等。通信部分909经由网络比如因特网执行通信处理。
根据需要,驱动器910也连接到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体映射数据等等根据需要被安装在驱动器910上,使得从中读出的计算机程序根据需要被安装到存储部分908中。
在通过软件实现上述步骤和处理的情况下,从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘、光盘(包含光盘只读映射数据(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)和半导体映射数据。或者,存储介质可以是ROM902、存储部分908中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解,在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。

Claims (8)

1.一种搜索引擎装置,包括:
查询装置,被配置为检索出满足查询的网页序列;
页面摘要提取装置,被配置为提取所述网页序列中至少一个的网页的候选页面摘要;
页面摘要选择装置,被配置为根据与发出所述查询的用户相关的词集选择所述候选页面摘要中的页面摘要,作为提供给所述用户的页面摘要;
结果产生装置,被配置为产生包含所述网页序列和所述页面摘要的查询结果;和
词集产生装置,被配置为根据反映所述用户的信息需求的信息,获得所述用户的至少一个的个性化关键词,以形成所述词集。
2.如权利要求1所述的搜索引擎装置,还包括:
标识装置,被配置为标识所述词集中任何词在所述页面摘要中的出现。
3.一种搜索引擎的客户端,包括:
接收装置,被配置为从搜索引擎接收检索出的网页序列,和所述网页序列中至少一个的网页的候选页面摘要;
页面摘要选择装置,被配置为根据与所述客户端的用户相关的词集选择所述候选页面摘要中的页面摘要,作为提供给所述用户的页面摘要;
结果产生装置,被配置为产生包含所述网页序列和所述页面摘要的查询结果;和
词集产生装置,被配置为根据反映所述用户的信息需求的信息,获得所述用户的至少一个的个性化关键词,以形成所述词集。
4.如权利要求3所述的客户端,还包括:
标识装置,被配置为标识与所述词集中任何词在所述页面摘要中的出现。
5.一种搜索网页的方法,包括:
检索出满足查询的网页序列;
提取所述网页序列中至少一个的网页的候选页面摘要;
根据与发出所述查询的用户相关的词集选择所述候选页面摘要中的页面摘要,作为提供给所述用户的页面摘要;和
产生包含所述网页序列和所述页面摘要的查询结果,
所述方法还包括:
根据反映所述用户的信息需求的信息,获得所述用户的至少一个的个性化关键词,以形成所述词集。
6.如权利要求5所述的搜索网页的方法,还包括:
标识与所述词集中任何词在所述页面摘要中的出现。
7.一种搜索网页的方法,包括:
从搜索引擎接收响应查询而检索出的网页序列,和所述网页序列中至少一个的网页的候选页面摘要;
根据与发出所述查询的用户相关的词集选择所述候选页面摘要中的页面摘要,作为提供给所述用户的页面摘要;和
产生包含所述网页序列和所述页面摘要的查询结果,
所述方法还包括:
根据反映所述用户的信息需求的信息,获得所述用户的至少一个的个性化关键词,以形成所述词集。
8.如权利要求7所述的搜索网页的方法,还包括:
标识与所述词集中任何词在所述页面摘要中的出现。
CN 200810213931 2008-08-28 2008-08-28 搜索引擎、其客户端及搜索网页的方法 Expired - Fee Related CN101661490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810213931 CN101661490B (zh) 2008-08-28 2008-08-28 搜索引擎、其客户端及搜索网页的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810213931 CN101661490B (zh) 2008-08-28 2008-08-28 搜索引擎、其客户端及搜索网页的方法

Publications (2)

Publication Number Publication Date
CN101661490A CN101661490A (zh) 2010-03-03
CN101661490B true CN101661490B (zh) 2013-01-02

Family

ID=41789516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810213931 Expired - Fee Related CN101661490B (zh) 2008-08-28 2008-08-28 搜索引擎、其客户端及搜索网页的方法

Country Status (1)

Country Link
CN (1) CN101661490B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014132265A2 (en) * 2013-02-14 2014-09-04 Gyan Prakash Kesarwani An improved system and method of scanning a search engine depending on the importance of the keywords and producing an effective output
CN103473358B (zh) * 2013-09-26 2018-10-09 北京奇虎科技有限公司 一种搜索引擎抓取网页开放式摘要信息的方法及装置
CN103514278B (zh) * 2013-09-26 2016-11-23 北京奇虎科技有限公司 一种验证网页开放式摘要信息的方法及装置
CN106462588B (zh) * 2015-01-14 2020-04-10 微软技术许可有限责任公司 来自所提取的内容的内容创建
US10140017B2 (en) * 2016-04-20 2018-11-27 Google Llc Graphical keyboard application with integrated search
CN106096010B (zh) * 2016-06-23 2020-07-28 北京奇元科技有限公司 自带搜索引擎功能的输入控制方法与装置
CN108765262A (zh) * 2018-05-17 2018-11-06 深圳航天智慧城市***技术研究院有限公司 一种在任意三维场景中展现真实气象状况的方法
CN109271580B (zh) * 2018-11-21 2022-04-01 百度在线网络技术(北京)有限公司 搜索方法、装置、客户端和搜索引擎

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082917A (zh) * 2006-06-02 2007-12-05 千橡世纪科技发展(北京)有限公司 一种快速预览网页内容摘要的方法和装置
CN101097578A (zh) * 2007-06-07 2008-01-02 北京金山软件有限公司 一种网络资源检索方法及***
CN101127043A (zh) * 2007-08-03 2008-02-20 哈尔滨工程大学 一种轻量级个性化搜索引擎及其搜索方法
CN101216837A (zh) * 2008-01-18 2008-07-09 索意互动(北京)信息技术有限公司 基于匹配用户个性化配置来显示搜索结果的方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082917A (zh) * 2006-06-02 2007-12-05 千橡世纪科技发展(北京)有限公司 一种快速预览网页内容摘要的方法和装置
CN101097578A (zh) * 2007-06-07 2008-01-02 北京金山软件有限公司 一种网络资源检索方法及***
CN101127043A (zh) * 2007-08-03 2008-02-20 哈尔滨工程大学 一种轻量级个性化搜索引擎及其搜索方法
CN101216837A (zh) * 2008-01-18 2008-07-09 索意互动(北京)信息技术有限公司 基于匹配用户个性化配置来显示搜索结果的方法和***

Also Published As

Publication number Publication date
CN101661490A (zh) 2010-03-03

Similar Documents

Publication Publication Date Title
CN101661490B (zh) 搜索引擎、其客户端及搜索网页的方法
US7895235B2 (en) Extracting semantic relations from query logs
US8612435B2 (en) Activity based users' interests modeling for determining content relevance
US9348872B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
Jansen et al. Determining the informational, navigational, and transactional intent of Web queries
US6327590B1 (en) System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US9262532B2 (en) Ranking entity facets using user-click feedback
CN100432921C (zh) 将异源的搜索引擎结果混合为一个搜索结果的方法与***
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
US8650172B2 (en) Searchable web site discovery and recommendation
Pu et al. Subject categorization of query terms for exploring Web users' search interests
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
KR100645608B1 (ko) 사용자 방문 유알엘 로그를 이용한 정보 검색 서비스 제공 서버 및 그 방법
CA2533605A1 (en) Providing a user interface with search query broadening
CN102132272A (zh) 利用垂直建议辅助搜索请求的***和方法
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎***
CN101909018A (zh) 根据用户浏览网页返回即时通信群组的方法与***
WO2016162843A1 (en) Processing a search query and retrieving targeted records from a networked database system
CN103116635A (zh) 面向领域的暗网资源采集方法和***
WO2001055909A1 (en) System and method for bookmark management and analysis
KR100869545B1 (ko) 검색 히스토리를 생성하는 되풀이 검색시스템
CN102915312A (zh) 网站中的信息发布方法和***
CN105975508A (zh) 个性化元搜索引擎检索结果合成排序方法
O'Leary Internet-based information and retrieval systems
CN111782958A (zh) 推荐词确定方法、装置、电子装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130102

Termination date: 20160828