CN101408894B - 使用语义关键词改进搜索相关性 - Google Patents

使用语义关键词改进搜索相关性 Download PDF

Info

Publication number
CN101408894B
CN101408894B CN2008102151034A CN200810215103A CN101408894B CN 101408894 B CN101408894 B CN 101408894B CN 2008102151034 A CN2008102151034 A CN 2008102151034A CN 200810215103 A CN200810215103 A CN 200810215103A CN 101408894 B CN101408894 B CN 101408894B
Authority
CN
China
Prior art keywords
keyword
webpage
semantic
search
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008102151034A
Other languages
English (en)
Other versions
CN101408894A (zh
Inventor
乔鸿亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lexxe Pty Ltd
Original Assignee
Lexxe Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lexxe Pty Ltd filed Critical Lexxe Pty Ltd
Publication of CN101408894A publication Critical patent/CN101408894A/zh
Application granted granted Critical
Publication of CN101408894B publication Critical patent/CN101408894B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种方法、计算机可用介质,以及一种用于搜索网页的计算机***。本发明的实施例提供了一种方便高效的机制,使用语义关键词和语义子关键词从关键词搜索中过滤结果,从而能够从关键词搜索中滤除更多的不相关结果。可以分析搜索查询,确定查询的焦点,其中,可以使用该焦点来为搜索查询确定至少一个语义关键词。可以将各个语义关键词与至少一个语义子关键词相关联,其中,可以使用语义关键词和/或语义子关键词对关键词搜索的结果进行过滤。这样,可以进行更宽的关键词搜索以包含大量的相关结果,其中,本发明的过滤机制可以滤除更多数量的不相关结果。

Description

使用语义关键词改进搜索相关性
相关申请
本发明涉及2007年10月12日提交的申请号为60/998,810的美国临时专利申请,并要求其优先权,该申请的标题为“System and Method forEnhancing Search Relevancy with Semantic Keys”,发明人署名为Hong LiangQiao,该申请已转让给本发明的受让人,代理人卷号为LEXE-P001.PRO。该申请的全部内容结合在本文中作为参考和用于所有用途。
本发明涉及2007年10月18日提交的申请号为60/998,813的美国临时专利申请并要求其优先权,该申请的标题为“System and Method forEnhancing Search Relevancy with Semantic Keys”,发明人署名为Hong LiangQiao,并已转让给本发明的受让人,代理人卷号为LEXE-P001.PRO.2。该申请的全部内容结合在本文中作为参考和用于所有用途。
背景技术
常规的搜索引擎通常使用来自用户输入搜索查询的关键词来定位并显示网页。例如,如果用户想要知道哪个国家与美国接壤,则该用户可输入搜索查询“country bordering United States(与美国接壤的国家)”。作为响应,常规的搜索引擎可以返回具有四个单词“country(国家、乡村)”、“bordering(接壤)”、“United”、“States”之中的部分或全部单词的网页。
然而,这样的查询很可能返回大量(例如,上千万)无关的或者非期望的网页。例如,结果可能包含有关美国的乡村音乐(country music)、有关美国的普通信息等的网页。于是,用户通常进行过度限制性的搜索以将结果的数量减小到更加易于管理的量,这样导致从结果中排除掉了许多相关的网页。因此,利用常规的基于关键词的搜索引擎在因特网上寻找相关信息是一种冗长乏味且费时的任务。
此外,常规关键词搜索方法的字面性质进一步限制了由常规搜索引擎返回的相关结果的数量。例如,网页可以使用同义词或者与搜索查询中输入的关键词相关的其它单词,而并不使用一个或多个确切的关键词。这种情况下,常规的基于关键词的搜索引擎将不能返回这些网页,尤其在使用更具有限制作用的搜索时(例如,在搜索查询的关键词之间使用“and(与)”操作符等)。于是,在给定常规关键词搜索的字面性质的情况下,利用常规搜索引擎搜索相关信息就变得更加麻烦。
而且,一些常规的搜索引擎基于各网页与所输入的关键词的相关性,对识别出的结果进行排序。虽然这样可以重新组织所识别的结果,但是依然不能解决上述不相关结果的问题以及与常规的基于关键词的搜索引擎的字面性质相关联的其它问题。
广言之,本文中讨论的技术至少包括以下方面。本发明公开了一种用于搜索网页的方法、计算机可用介质,以及计算机***。本发明的实施例提供了一种方便高效的机制,使用语义关键词和语义子关键词从关键词搜索中过滤结果,从而能够从关键词搜索中滤除更多数量的不相关结果。可以对搜索查询进行分析,以确定查询的焦点,其中,可以使用该焦点来为搜索查询确定至少一个语义关键词。可以将各个语义关键词与至少一个语义子关键词相关联,其中,可以使用语义关键词和/或语义子关键词对关键词搜索的结果进行过滤。这样,可以进行更宽的关键词搜索,以将大量的相关结果包括在内,在这种情况下,本发明的过滤机制则可以滤除更多数量的不相关结果。
发明内容
因此,需要能够返回更多相关结果的搜索引擎和搜索方法。也需要能够进行更宽的搜索同时减少不相关结果的数量的搜索引擎和搜索方法。此外,需要以不太乏味费时的方式返回相关结果的搜索引擎。如下文所述,接下来描述的实施例对于这些需要以及其它需要提供了新的解决方案。
本文描述的实施例致力于提供一种用于搜索网页的方法、计算机可用介质,以及计算机***。更具体地,这些实施例提供了一种使用语义关键词(例如,与搜索查询的焦点相关的单词)和语义子关键词(例如,与该语义关键词相关的单词)从关键词搜索中过滤结果,从而能够从关键词搜索中滤除更多的不相关结果的方便高效的机制。可以对搜索查询进行分析(例如,通过语法分析器),以确定查询的焦点(例如,搜索查询指代的意思),其中,可以使用该焦点来为搜索查询确定至少一个语义关键词。可以将各个语义关键词与至少一个语义子关键词相关联,其中,可以使用语义关键词和/或语义子关键词对关键词搜索的结果进行过滤(例如,通过排除从不包含至少一个语义关键词和/或至少一个语义子关键词的关键词搜索中返回的网页),并提供更为相关的搜索结果。这样,可以进行更宽的关键词搜索,以将大量的相关结果包括在内,并且本发明的过滤机制则可以滤除更多数量的不相关结果,以确保更有效的因特网搜索,使搜索不太乏味费时。
在一个实施例中,一种响应搜索查询进行搜索的计算机实施的方法包括:确定与该搜索查询的至少一个关键词相关的语义关键词,其中,该语义关键词与语义子关键词相关联。访问网页搜索结果,此结果是利用该搜索查询通过关键词搜索而生成的。利用该语义子关键词对网页搜索结果进行过滤,以生成过滤后的网页搜索结果,其中该过滤后的网页搜索结果包括网页的列表(或索引),其中,该网页列表中的至少一个网页包括上述的语义子关键词。可以从由下位词(hyponym)(例如,归类在该语义关键词之下的单词,与该语义关键词相关的单词等)和数字表达式(例如,年龄、距离、与数字相关的另一个单词等)组成的组中选出语义子关键词。该方法还可以包括访问该网页搜索查询。另外,该方法可以包括确定该网页搜索查询的焦点(例如,搜索查询的一个或多个关键词,该搜索查询的一个或多个关键词表示搜索查询指代的意思,表示该搜索查询指代的意思的搜索查询的一个或多个其它的单词),以及基于该焦点确定该语义关键词。进一步,过滤可以进一步包括将该网页搜索结果与基于该语义子关键词生成的另外的网页搜索结果相比较,识别该网页搜索结果和该另外的网页搜索结果中的至少一个共同的网页,并将该至少一个共同的网页指定为上述的过滤后的网页搜索结果。
该方法还可以包括对上述过滤后的网页搜索结果进行排序,以生成排序后的网页搜索结果,其中,基于从一个组中选出的信息对上述过滤后的网页搜索结果进行排序,其中的组是由上述至少一个网页中的每一个网页中的上述语义子关键词的频率、上述至少一个网页中的每一个网页中的上述至少一个关键词的频率,以及上述语义子关键词与上述至少一个网页中的每一个网页中的上述至少一个关键词的近似度组成的。另外,在一个实施例中,该方法还可以包括基于上述过滤后的网页搜索结果生成图形数据,该图形数据用于生成从由上述网页列表组成的组中选出的信息的表示,并用于生成利用该搜索查询所提出的问题的答案,其中,该***括来自上述语义子关键词和来自上述过滤后的网页搜索结果的网页的信息。
附图说明
在附图中,通过举例的方式对本发明进行说明,它们不对本发明构成任何限制,在附图中使用同样的附图标记来指代类似的元件。
图1示出了根据本发明的一个实施例的一种用来实施搜索引擎的示例性***;
图2示出了根据本发明的一个实施例的用于执行网页搜索的计算机实施的处理的示例性流程图;
图3示出了根据本发明的一个实施例的执行网页搜索的示例性数据流程图;
图4示出了根据本发明的一个实施例的用于基于搜索查询的焦点来确定语义关键词的计算机实施的处理的示例性流程图;
图5示出了根据本发明的一个实施例的语义子关键词的示例性的组织;
图6示出了根据本发明的一个实施例的与数字表达式相关联的语义子关键词的示例性的组织;
图7A示出了根据本发明的一个实施例的用于过滤网页搜索结果的计算机实施的处理的示例性流程图;
图7B示出了描述根据本发明的一个实施例的网页搜索过滤机制的示例性的框图;
图8A示出了根据本发明的一个实施例的利用从关键词搜索结果生成的文本来过滤网页搜索结果的计算机实施的处理的示例性流程图;
图8B示出了描述根据本发明的一个实施例的利用从关键词搜索结果生成的文本的网页搜索过滤机制的示例性框图;
图9示出了根据本发明的一个实施例的根据语义子关键词频率来对网页搜索结果进行排序的计算机实施的处理的示例性流程图;
图10示出了根据本发明的一个实施例的根据关键词频率来对网页搜索结果进行排序的计算机实施的处理的示例性流程图;
图11示出了根据本发明的一个实施例的根据语义子关键词和搜索查询关键词的近似度来对网页搜索结果进行排序的计算机实施的处理的示例性流程图;
图12示出了根据本发明的一个实施例的对网页内容的示例性单词序贯排序,这可以用来确定网页的两部分之间的近似度;
图13示出了根据本发明的一个实施例的用于执行网页搜索的示例性的屏幕上的图形用户界面;
图14示出了根据本发明的一个实施例的用于利用所显示的搜索结果来执行网页搜索的示例性的屏幕上的图形用户界面;和
图15示出了一种可以通过其实施本发明的实施例的示例性计算机***。
具体实施方式
现将详细描述随后的实施例,在附图中例示出了这些实施例的例子。虽然下面将结合随后的实施例来讨论本发明,但应理解,这并不是要将本发明仅限制为这些实施例。相反,本发明应当覆盖由所附权利要求定义的本发明的精神和范围之内包含的各种可替代方式、变形和等效方式等。此外,在随后对本发明的详细描述中,为了使本发明能够得到深入的理解,阐述了许多具体的细节。然而,无需这些具体的细节也可以实施本发明的实施例。在其它例子中,并没有详细描述已知的方法、工序、组件以及电路,以避免不必要地模糊本发明的各方面。
符号和术语
下文的详细说明的一些区域被表示成工序、逻辑块、处理以及对计算机存储器内的数据比特执行的操作的其它符号表示。这些描述和表示是数据处理技术领域中的技术人员向本领域的其他技术人员传递其工作的主旨的最有效的手段。在本申请中,工序、逻辑块、处理等应被认为是自洽的步骤序列或能够产生所期望的结果的指令。这些步骤需要对物理量进行物理操作。通常,尽管不必要,这些物理量采用电或磁信号的形式,并能够在计算机***中被存储、转移、组合、比较以及进行其它操作。
然而,应该理解,所有这些以及相似的术语与适当的物理量相关联,并且这些术语仅是应用于这些物理量的便捷标志。除非特别指出,否则,从以下讨论可以明显看出,贯穿本发明的全文,使用了诸如“中止”、“接受”、“访问”、“增加”、“调整”、“分析”、“应用”、“聚集”、“分配”、“平衡”、“封锁”、“计算”、“捕获”、“组合”、“比较”、“收集”、“创建”、“调试”、“定义”、“描述”、“检测”、“确定”、“显示”、“建立”、“执行”、“翻转”、“产生”、“分组”、“隐藏”、“识别”、“初始化”、“交互”、“修改”、“监控”、“移动”、“输出”、“进行”、“安放”、“展示”、“处理”、“编程”、“查询”、“去除”、“重复”、“假设”、“采样”、“模拟”、“分类”、“存储”、“减去”、“延缓”、“跟踪”、“译码”、“转换”、“解封”、“使用”等术语的讨论,是指代计算机***或者类似电子计算设备的动作和处理,其将代表计算机***的寄存器和存储器内的物理(电子)量的数据处理并转换为类似地代表计算机***存储器或寄存器或其它信息存储器、传输或显示设备内的物理量的其它数据。
本发明的实施例
图1示出了根据本发明的一个实施例的示例性***100,其用于实施搜索引擎(例如,基于因特网的搜索引擎)。如图1所示,服务器110可包括搜索引擎代码115,用于实施网页搜索处理(例如,根据图2的200)。在一个实施例中,服务器110可以经由因特网130与一个或多个计算机***(例如,120a、120b等)通信,从而使得该搜索引擎代码(例如,115)能够与一个或多个图形用户界面(例如,计算机***120a的125a、计算机***120b的125b等)通信。图形用户界面(例如,125a、125b等)可以向搜索引擎代码(例如,115)传送输入(例如,由用户输入的搜索查询,初始化网页搜索的命令等),并且还可以显示或者以其它方式呈现从搜索引擎代码接收到的输出(例如,网页搜索的结果等)。这样,图形用户界面(例如,125a、125b等)可以实现图形用户界面(例如,图13和14的1300),以执行网页搜索。
尽管图1仅示出了两个计算机***(例如,120a和120b),但应该理解,在其它实施例中可以使用更多或更少数量的计算机***。还应该理解,可以将一个或多个网络、网络设备等连接或者以其它方式使用以实现***100的组件(例如,服务器110、计算机***120a、计算机***120b等)之间的通信。还应该理解,在一个实施例中,服务器110可以经由企业网(例如,代替因特网130,因特网130外加企业网等)与所连接的计算机***(例如,120a、120b等)进行通信。另外,尽管在图1中仅示出了一个服务器(例如,110),但应该理解,在其它实施例中,***100可以包括数量更多的服务器。进一步,应该理解,在其它实施例中,***100可以包括其它组件(例如,与因特网130连接和/或直接连接到用于存储搜索引擎代码115的服务器110的一个或多个存储器,该一个或多个存储器用于存储由服务器110和/或搜索引擎代码115等访问的数据。)。
图2示出了根据本发明的一个实施例的执行网页搜索的计算机实施的处理200的示例性流程图。关于本文描述的处理200的各步骤,将参考图3的示例性数据流程图300以及图1的***100,以提供实例并帮助理解以下讨论。
现主要参考图3,搜索引擎320可以执行宽的关键词搜索,随后,可由过滤组件350对来自该宽的关键词搜索的结果进行过滤。过滤组件350可以基于一个或多个语义关键词(例如,从语义关键词数据库342访问得到的)来过滤搜索结果,其中,该一个或多个语义关键词是基于搜索查询的焦点(例如,由搜索引擎320执行宽的关键词搜索所使用的)确定的,该一个或多个语义关键词可以具有至少一个相关联的语义子关键词。于是,宽的关键词搜索可以提供更加全面的搜索结果(例如,较少地省略相关搜索结果),然后对其进行过滤(例如,通过过滤组件350)以减少不相关搜索结果的数量,并提供更相关的搜索结果。然后,在一个实施例中,可以对搜索结果进行排序(例如,通过排序组件360),从而生成经过排序的搜索结果,该搜索结果比通过常规的搜索引擎生成的结果更加全面、更加相关。
如图2所示,步骤210涉及访问网页搜索查询。在一个实施例中,可以将网页搜索查询(例如,310)输入到搜索引擎(例如,320)。搜索查询(例如,310)包括至少一个单词和/或至少一个词组。此外,在一个实施例中,搜索查询(例如,310)可以包括至少一个操作符(例如,“与”、“或”等)和/或用于控制搜索引擎(例如,320)所执行的搜索的其它数据。
步骤220涉及确定网页搜索查询的焦点。在一个实施例中,可以通过语法分析器(例如,330)来执行步骤220,语法分析器可用于访问搜索查询(例如,310)并输出搜索查询焦点(例如,335)。搜索查询的焦点可以包括与输入搜索查询的用户所期望的信息相关的搜索查询的关键词或词组。此外,当搜索查询是问题时,查询的焦点可以包括搜索查询的关键词或词组,可用于确定答案的形式和/或内容。例如,如果搜索查询是问题“埃菲尔铁塔有多高”,则可以将搜索查询的焦点确定为关键词“高”,其与距离有关。于是,答案可以包括与埃菲尔铁塔的高度相关的距离。作为另一个例子,如果搜索查询是问题“哪些国家与美国接壤”,则可以将搜索查询的焦点确定为关键词“国家”。于是,答案可以包括与美国接壤的国家的列表。
如图2所示,步骤230涉及基于焦点来确定语义关键词。在一个实施例中,根据图4的处理400来执行步骤230。如图4所示,步骤410涉及访问网页搜索查询(例如,310)的焦点(例如,335)。步骤420涉及确定哪个语义关键词与该焦点相关联。在一个实施例中,可以通过将该焦点(例如,335)与可能的语义关键词(例如,存储在语义关键词数据库342中的)进行比较来确定(例如,通过语义关键词生成器340)语义关键词。在找到焦点(例如,335)与语义关键词(例如,510)之间的匹配或者这二者之间的关联后,将所匹配和/或所关联的语义关键词(例如,510)指定为该焦点的语义关键词。
例如,如果焦点(例如,335)是“国家”,则与国家列表(例如,语义子关键词520)相关联的语义关键词(例如,图5所示的510)可以与该焦点相关联(例如,335)。在一个实施例中,可以使用具有一个或多个节点的层级结构来组织语义关键词(例如,510)和/或相关的语义子关键词(例如,520)(例如,语义关键词510是上级节点或父节点,而语义子关键词520是与语义关键词510相关联的父节点的子节点)。进一步,一个或多个语义子关键词(例如,520)可以包括语义关键词(例如,510)的下位词(例如,语义关键词510包括标题“国家”,而语义子关键词520包括国家的列表或索引)。
作为另一个例子,如果焦点(例如,335)是“高”,则与距离(例如,语义子关键词620)相关联的语义关键词(例如,图6所示的610)可以与该焦点(例如,335)相关联。在一个实施例中,可以使用具有一个或多个节点的分层结构来组织语义关键词(例如,510)和/或相关的语义子关键词(例如,520)(例如,语义关键词610是语义子关键词620的上级节点或父节点,语义子关键词621是语义子关键词623的上级节点或父节点,并且语义子关键词622是语义子关键词624的上级节点或父节点)。进一步,一个或多个语义子关键词(例如,620)可以包括语义关键词(例如,610)的下位词(例如,语义关键词610包括标题“距离”,而语义子关键词620包括不同的距离单位)。
如图4所示,步骤430涉及输出与在步骤420中确定的语义关键词(例如,510、610等)相关联的语义子关键词(例如,520、620等)。可以通过如图3所示的语义关键词生成器(例如,340)输出语义子关键词(例如,345)。此外,在一个实施例中,语义子关键词345可以包括一个或多个语义子关键词520和/或620(例如,取决于分配给搜索查询(例如,310)的焦点(例如,335)的至少一个相应的语义关键词)。
在一个实施例中,可以通过输入347来控制由语义关键词处理器(例如,340)输出的语义子关键词(例如,345)。输入347可以包括用户输入,***生成的输入等。例如,在一个实施例中,输入347可以选择至少一个语义关键词(例如,510、610等)和/或至少一个语义子关键词(例如,345、520、620等),用于供语义关键词处理器340进行输出,其中,语义子关键词的选择可以被输入到图形用户界面(例如,125a、125b等)。于是,在一个实施例中,输入347可以使用户能够配置和/或细化该搜索查询(例如,310),从而使用户能够进一步配置或者细化由搜索引擎320执行的搜索,这将在下文进行讨论。
回到图2,步骤240涉及利用网页搜索查询(例如,步骤210中访问的)来执行网页搜索。网页搜索可以包括关键词搜索(例如,基于搜索查询的一个或多个关键词)。并且在一个实施例中,网页搜索可以包括任何已知方式的关键词搜索。此外,可以由搜索引擎(例如,320)来进行搜索,以有效地访问搜索查询(例如,310)并输出搜索结果(例如,关键词搜索结果322)。在一个实施例中,可以由任何已知的、基于关键词的搜索引擎来执行网页搜索。可以由搜索引擎代码(例如,图1的115)来实现搜索引擎(例如,322),并且可以向图形用户界面(例如,125a、125b等)输入搜索查询(例如,310),并且该搜索查询被传送到计算机***(例如,服务器110),该计算机***访问和/或执行搜索引擎代码(例如,115)。
步骤250涉及访问在网页搜索期间(例如,步骤240中进行的)生成的网页搜索结果。在一个实施例中,可以通过过滤组件(例如,350)来访问网页搜索结果(例如,关键词搜索结果322)。
如图2所示,步骤260涉及利用与语义关键词(例如,步骤230中确定的)相关联的语义子关键词(例如,345、520、620等)来过滤网页搜索结果(例如,322)。在一个实施例中,可以根据图7A的处理700来执行步骤260。如图7A所示,步骤710涉及使用至少一个语义子关键词(例如,345、520、620等)作为新的网页搜索查询来执行附加网页搜索。可以通过搜索引擎(例如,320)来执行附加网页搜索,以有效地访问至少一个语义子关键词(例如,345、520、620等),并生成附加网页搜索结果(例如,语义子关键词搜索结果324)。
可以将关键词搜索结果(例如,322)与基于该至少一个语义子关键词(例如,345、520、620等)生成的附加网页搜索结果(例如,324)相比较。步骤730涉及识别关键词搜索结果(例如,322)与附加网页搜索结果(例如,324)的至少一个共同网页。在一个实施例中,可以通过过滤组件(例如,350)来执行步骤720和730,以有效地访问关键词搜索结果(例如,322)以及附加网页搜索结果(例如,324)。
如图7A所示,步骤740涉及将至少一个共同网页指定为过滤后的网页搜索结果(例如,作为步骤260中的过滤结果生成的那些网页搜索结果)。在一个实施例中,可以由过滤组件(例如,350)输出过滤后的网页搜索结果(例如,355)。这样,实施例可以过滤掉来自搜索结果(例如,355)的不相关的网页(例如,不包括至少一个语义子关键词的那些网页),同时保留相关的网页(例如,包括至少一个语义子关键词的那些网页)。
尽管根据示例性处理700的各步骤描述了步骤260执行的过滤,但应理解,在其它实施例中也可以执行其它过滤机制。例如,可以在作为关键词搜索(例如,322)的结果的各个网页中搜索语义子关键词(例如,345、520、620等)。在一个实施例中,如果网页不包含至少一个语义子关键词(例如,345、520、620等),则从过滤后的网页搜索结果(例如,355)中丢弃或去除该网页。这样,过滤后的网页搜索结果(例如,355)可以包括包含至少一个语义子关键词(例如,345、520、620等)的网页。可替代地,在其它实施例中,也可以采用其它过滤机制来去除不相关的网页(例如,并非搜索查询310想要的或期望的那些网页),同时保留相关网页(例如,搜索查询310想要的或期望的那些网页)。
图7B示出了根据本发明的一个实施例的网页搜索过滤机制的示例性框图750。如图7B所示,搜索结果322可以包括网页A到E,而搜索结果324包括网页D到H。在一个实施例中,关键词搜索结果322可以包括响应于关键词搜索而被识别、定位等等的网页。另外,语义子关键词搜索结果324可以包括响应于利用包括一个或多个语义子关键词(例如,345、520、620等)的搜索查询而进行的网页搜索,而被识别、定位等等的网页。
然后,可通过对搜索结果322和324进行比较(例如,如图7A的处理700的步骤720中所描述的)以及识别搜索结果322和324二者共同的至少一个网页(例如,如图7A的处理700的步骤730中所描述的),来过滤搜索结果322。如图7B所示,可通过将各搜索结果(例如,322和324)重叠,来表示搜索结果322与搜索结果324的比较。重叠的区域(例如,比较网页D和E)可以指示网页D和E同时是搜索结果322和搜索结果324的成员。在识别出搜索结果322和324共同的网页(例如,网页D和E)后,则将它们指定为过滤后的搜索结果355(例如,如图7A的处理700的步骤740中所述)。
应当理解,搜索结果322和/或搜索结果324可以包括一个或多个搜索结果的子集的集合体。例如,当执行多个语义子关键词搜索时(例如,当与搜索查询310的焦点335相关联的语义关键词具有不止一个与其关联的语义子关键词345时),可以组合来自各个搜索的搜索结果。例如,搜索结果324可以包括来自第一语义子关键词搜索的搜索结果(例如,利用第一语义子关键词作为搜索查询)、来自第二语义子关键词搜索的搜索结果(例如,利用第二语义子关键词作为搜索查询),和来自第三语义子关键词搜索的搜索结果(例如,利用第三语义子关键词作为搜索查询)。在其它实施例中,可以组合更多或更少数量的搜索结果来形成搜索结果324。这样,输出搜索结果(例如,355)的每个网页可以包括至少一个语义子关键词(例如,345、520、620等),从而在给定语义子关键词(例如,345)与搜索查询(例如,310)的焦点(例如,355)的关联(例如,经由语义关键词)的情况下,能够增加相关结果的数量。
回到图2,在一个实施例中,可以根据图8A的处理800来执行步骤260。现将结合以下的图8A来对图8B进行说明。
如图8A所示,步骤810涉及为每个关键词搜索结果(例如,322)生成文本。在一个实施例中,可以利用过滤组件(例如,350)来生成该文本(例如,860)。此外,该文本(例如,860)可以包括关键词搜索结果(例如,322)的至少一个网页的标题,关键词搜索结果(例如,322)的至少一个网页的主体部分或内容,关键词搜索结果(例如,322)的至少一个网页的标识符或者其它引用,它们的一些组合等。例如,如图8B所示,文本860可以包括用于关键词搜索结果322的各个网页A到C的文本。
步骤820涉及将用于各个关键词搜索结果的相应的文本与子关键词相比较。例如,如图8B所示,语义子关键词345可包括子关键词W到Z,可与将这些子关键词与基于关键词搜索结果(例如,322)而生成的文本(例如,860)进行比较(例如,利用比较器870)。在一个实施例中,可以通过过滤组件350(例如,如图3的虚线箭头348所示,其访问来自语义关键词处理器340的语义子关键词345)来实现比较器870。上述的比较涉及分别为各个子关键词345搜索文本860(例如,为子关键词W搜索文本860,然后为子关键词X搜索文本860,等),直到发现匹配为止,或者,可替代地,上述的比较可以涉及并行地为各个子关键词345搜索文本860(例如,同时为子关键词W到Z搜索文本860)以确定是否发现匹配。另外,上述的比较可以是文本对文本的比较,其中子关键词345是文本。
如图8A所示,步骤830涉及利用至少一个子关键词(例如,345)来识别至少一个相应的文本(例如,对应于关键词搜索结果322的一个或多个网页)。例如,如图8B所示,比较结果880(例如,由比较器870输出)可以包括与网页B和C相关联的文本,其中,网页B的文本包括子关键词W和X,并且网页C的文本包括子关键词X。在一个实施例中,网页A的文本可以不包括子关键词W到Z中的任何一个,因此,网页A可以不包括在比较结果880中。从而,可以在步骤830中识别对应于网页B和C的文本(例如,通过比较结果880)。
步骤840涉及将对应于至少一个过滤后的文本的关键词搜索结果的至少一个网页指定为过滤后的网页搜索结果。例如,如图8B所示,在比较结果880包括网页B和C的文本的情况下,则可以将来自关键词搜索结果322的网页B和C指定为过滤后的搜索结果(例如,355)。
并且,在一个实施例中,步骤840可以包括将所指定的网页(例如,利用比较结果880识别出的或者与其相关的网页)列为优先,或将其排列在不包含一个或多个子关键词345的关键词搜索结果322的其它网页之前。这样,步骤840可以实现预排序步骤(例如,在图2的步骤270中的排序之前执行)。例如,参考图8B,可将网页B和C(其包括一个或多个子关键词345)排列在网页A之前(其不包括至少一个子关键词345)。因此,在一个实施例中,过滤后的搜索结果355甚至可以包括连至少一个语义关键词345也没有的网页。
回到图2,步骤270涉及对过滤后的网页搜索结果(例如,355)进行排序。在一个实施例中,可以利用排序组件(例如,图3的360)对过滤后的搜索结果(例如,355)进行排序,从而生成排序后的搜索结果(例如,365)。此外,在一个实施例中,可以分别根据图9-11的示例性处理900-1100中的一个或多个来执行步骤270。
图9示出了根据本发明的一个实施例的根据语义子关键词频率对网页搜索结果进行排序的计算机实施的处理的示例性流程图900。如图9所示,步骤910涉及在过滤后的搜索结果(例如,355)的每个网页中确定语义子关键词的频率。在一个实施例中,可以基于搜索结果(例如,355)的每个网页的所有语义子关键词(例如,245、520、620等)实例的总出现次数确定每个网页的语义子关键词的频率。例如,在一个实施例中,如果网页X包括语义子关键词1的出现次数为30,语义子关键词2的出现次数为40,则网页X的语义子关键词频率可以是70(例如,30和40之和)。可替代地,可以基于搜索结果(例如,355)的每个网页的一个或多个选定的语义子关键词(例如,245、520、620等)的出现次数来确定每个网页的语义子关键词频率。例如,如果使用语义子关键词1来确定语义子关键词频率,则网页X的语义子关键词频率可以是30。可替代地,如果使用语义子关键词2来确定语义子关键词频率,则网页X的语义子关键词频率可以是40。
步骤920涉及基于每个网页各自的大小和/或语义子关键词索引(例如,存储在语义关键词数据库342中)中的语义子关键词的频率来调整每个网页各自的语义子关键词频率。例如,在一个实施例中,可以用与其各自的网页大小(例如,单词个数、行数、帧大小等)相关联的因数,来对用于搜索结果的每个网页的语义子关键词频率进行缩放(例如,除以该因数)。可替代地,可以利用语义子关键词索引(例如,与给定语义关键词相关联的语义子关键词的集合)中各个网页各自的语义子关键词(例如,用于生成包括该网页的搜索结果的语义子关键词)的频率,来对搜索结果的各个网页的语义子关键词频率进行缩放。例如,如果语义子关键词在给定的语义子关键词索引(例如,在与语义关键词相关联的索引中不同子节点下的每个索引)中出现三次,则可以利用与该语义子关键词索引中的语义子关键词的频率相关联的因数(例如,三),来对与该语义子关键词相关联的各个网页搜索结果的语义子关键词频率进行缩放(例如,除以上述因数)。并且在其它实施例中,可以省略步骤920。
如图9所示,步骤930涉及基于各个网页各自的语义子关键词频率对过滤后的搜索结果的各网页进行排序。例如,在一个实施例中,如果网页X的语义子关键词频率为70(例如,如步骤910中确定的无缩放的语义子关键词频率和/或如步骤920中确定的缩放后的语义子关键词频率),同时,网页Y的语义子关键词频率为80,则网页Y可以被排在网页X之前。这种情况下,在一个实施例中,网页Y的语义子关键词频率较高,这可以表示网页Y比网页X与搜索查询(例如,310)更加相关,因此,网页Y比网页X具有更高的排序。
图10示出了根据本发明的一个实施例的根据关键词频率对网页搜索结果进行排序的计算机实施的处理1000的示例性流程图。如图10所示,步骤1010涉及确定过滤后的搜索结果(例如,355)的各个网页中的网页搜索查询关键词(例如,搜索查询310)的频率。在一个实施例中,可以基于搜索结果(例如,355)的各个网页的所有搜索查询关键词的总出现次数来确定各个网页的关键词频率。例如,在一个实施例中,如果网页X包括关键词1的出现次数为10,关键词2的出现次数为50,则网页X的关键词频率可以是60(例如,10和50之和)。可替代地,可以基于搜索结果(例如,355)的各个网页的一个或多个选定的搜索查询关键词的出现次数,来确定各个网页的关键词频率。例如,如果使用关键词1来确定关键词频率,则网页X的关键词频率可以是10。可替代地,如果使用关键词2来确定关键词频率,则网页X的关键词频率可以是50。
步骤1020涉及基于各个网页各自的大小和/或搜索查询(例如,310)中的一个或多个关键词的频率,来调整各个网页各自的关键词频率。例如,在一个实施例中,可以利用与各个网页各自的网页大小(例如,单词个数、行数、帧大小等)相关联的因数,来对搜索结果的各个网页的关键词频率进行缩放(例如,除以该因数)。可替代地,可以利用搜索查询中的一个或多个关键词的频率来缩放搜索结果的各个网页的关键词频率。例如,如果关键词在搜索查询中出现三次,则可以利用与该搜索查询(例如,310)中的该关键词的频率相关联的因数(例如,三)来缩放(例如,除以该因数)包含该关键词的各个网页搜索结果的关键词频率。并且在其它实施例中,可以省略步骤1020。
如图10所示,步骤1030涉及基于各个网页各自的关键词频率对过滤后的搜索结果的网页进行排序。例如,在一个实施例中,如果网页X的关键词频率为60(例如,如步骤1010中确定的未缩放的关键词频率和/或如步骤1020中确定的缩放后的关键词频率),同时,网页Y的关键词频率为90,则网页Y可以被排在网页X之前。这种情况下,在一个实施例中,网页Y的关键词频率较高,这表示网页Y比网页X与搜索查询(例如,310)更加相关,因此,网页Y比网页X具有更高的排序。
图11示出了根据本发明的一个实施例的根据语义子关键词和搜索查询关键词的近似度对网页搜索结果进行排序的计算机实施的处理1100的示例性流程图。如图11所示,步骤1110涉及确定语义子关键词(例如,345、520、620等)与过滤后的搜索结果(例如,355)的各个网页中的网页搜索查询关键词的至少一个近似度。在一个实施例中,可以通过计算两个语义子关键词之间、两个关键词之间、语义子关键词与关键词之间,以及它们的一些组合等的“距离”或其它近似度的度量,来确定近似度。在一个实施例中,可以基于根据图12所讨论的序贯单词排序来确定该近似度的度量。
图12示出了根据本发明的一个实施例的对网页内容进行的示例性单词序贯排序1200,这可以用来确定网页的两个部分之间的近似度。如图12所示,行1210包括网页的单词的序贯排序,行1220包括与网页的一个或多个单词相关联的语义子关键词(例如,S1和S2)以及关键词(例如,K1和K2),并且行1230包括四个“热点”,代表确定了近似度的已定位的语义子关键词和/或关键词的集合。在一个实施例中,热点可以包括在网页中发现的所有语义子关键词(例如,S1和S2)以及所有关键词(例如,K1和K2)。在其它实施例中,热点可以包括在网页中所发现的全部语义子关键词和/或关键词的一部分。此外,在一个实施例中,可以为多个重叠的热点分配单一的近似度(例如,等于各个单个重叠热点的最大近似度,等于各个单个重叠热点的最小近似度,等)。
可以利用热点跨越的单词个数来计算给定热点的近似度。例如,热点1可包括近似度5(例如,由于其跨越单词2到单词6),热点2可包括近似度4(例如,由于其跨越单词4到单词7),热点3可包括近似度5(例如,由于其跨越单词42到单词46),并且热点4可包括近似度6(例如,由于其跨越单词82到单词87)。在一个实施例中,在步骤1110中可以将单一的近似度(例如,最高近似度、最低近似度、平均近似度等)分配给各个网页。
如图11所示,步骤1120涉及基于各个网页各自的大小来调整各个网页的至少一个近似度。例如,在一个实施例中,可以利用与各个网页各自的网页大小(例如,单词个数、行数、帧大小等)相关联的因数,来对搜索结果的各个网页的近似度进行缩放(例如,除以上述因数)。此外,在一个实施例中,在步骤1120中可以将单一的近似度(例如,最高缩放近似度、最低缩放近似度、平均缩放近似度,等)分配给各个网页(例如,如果在步骤1110中没有为各个网页选出单一的近似度)。
步骤1130涉及基于各个网页的至少一个近似度对过滤后的搜索结果的网页进行排序。例如,在一个实施例中,如果网页X具有近似度6(例如,如步骤1110中确定的未缩放的和/或如步骤1120中确定的缩放的),同时,网页Y具有近似度4,则网页Y可以被排在网页X之前。这种情况下,在一个实施例中,网页Y的近似度较低,这可以表示网页Y比网页X与搜索查询(例如,310)更相关,因此,网页Y具有比网页X更高的排序。
回到图2,步骤280涉及输出网页搜索结果。步骤280中输出的搜索结果可包括过滤后的搜索结果(例如,如图3的箭头352所示的没有排序的从过滤组件350访问得到的)或者经过排序的搜索结果(例如,从排序组件360访问得到的)。此外,在一个实施例中,步骤280中进行的输出包括基于搜索结果(例如,355或365)输出图形数据(例如,为由图形数据生成器370生成的显示275输出的搜索结果)。例如,在一个实施例中,可以将搜索结果转换为(例如,通过图形数据生成器370)可由计算机***应用程序(例如,web浏览器等)进行显示的格式(例如,C、C++、Java、HTML等),其中所显示的信息可以包括图形用户界面(例如,125a、125b、1300等)。
如图3所示,可以通过输入377来配置或控制搜索结果输出(例如,375),其中输入377可以包括用户输入、***生成的输入等。在一个实施例中,可以响应于输入377而隐藏或不显示与搜索结果(例如,355、365等)的一个或多个网页相关联的信息。例如,输入377可以包括选择至少一个语义关键词和/或至少一个语义子关键词,其中,在用于显示的输出372中可以包括与所选的语义关键词和/或语义子关键词相关联的信息,同时,可以从输出372中排除与未选中的语义关键词和/或语义子关键词相关联的信息(例如,用于有效地隐藏或者不显示该信息)。
图13示出了根据本发明的一个实施例的用于执行网页搜索的示例性的屏幕上的图形用户界面(GUI)1300。如图13所示,GUI1300可以包括用于输入搜索查询的区域1310。例如,如图13所示,用户可以输入以下搜索查询(例如,310):“埃菲尔铁塔有多高?”。搜索查询可包括一个问题。可替代地,搜索查询可以包括一系列关键词和/或短语。此外,在一个实施例中,在区域1310中输入的搜索查询(例如,310)可包括至少一个操作符(例如,“与”、“或”等)和/或其它用于控制由搜索引擎(例如,320)进行的搜索。
GUI1300还可包括图形对象1320,用于基于在区域1310中输入的搜索查询(例如,310)启动网页搜索。响应于与图形对象1320的交互(例如,在图形对象1320上移动鼠标指针或光标),可以进行网页搜索,并且在GUI1300(例如,如图14所示)的其它区域中显示搜索结果。
图14示出了根据本发明的一个实施例的利用所显示的搜索结果来执行网页搜索的示例性的屏幕上的GUI1300。如图14所示,区域1330可以显示搜索结果输出375的一部分,其中输出375包括在区域1310中输入的问题的一个或多个答案(例如,1332和1334)。答案可以包括第一部分,第一部分包括从搜索结果(例如,355、365,等)的一个或多个网页中提取的数字值(例如,324、1063,等)。另外,答案可以包括第二部分(例如,单位“米”和“英尺”),第二部分可以与第一部分相对应。第二部分也可以与语义子关键词(例如,345、520、620等)相关联。进一步,在一个实施例中,可以从与语义子关键词(例如,也与第二部分相关联的语义子关键词)相关联的搜索结果(例如,355、365等)的网页得到第一部分。
在一个实施例中,当搜索查询(例如,310)的焦点(例如,335)涉及数字(例如,涉及距离、高度等)时,则可以确定,该答案(例如,区域1330中所显示的)可以包括数字(例如,形成答案的第一部分)。于是,可以从搜索结果(例如,355、365,等)中提取出一个或多个数字(例如,324、1063,等),并且与适当的修饰语(例如,涉及用于过滤和/或生成搜索结果的语义子关键词)进行配对。数字可能位于修饰语或者与其对应的语义子关键词(例如,如根据图12所讨论的通过序贯单词排序确定)的附近处。例如,如果在单词“英尺”等几个单词的搜索结果(例如,与埃菲尔铁塔有关的)中都找到了数字“1063”,则可以选择数字“1063”与修饰语“英尺”配对显示在区域1330中。此外,当在某个修饰语或者与其对应的语义子关键词附近的搜索结果中找到多个数字时,则可以选择较频繁出现的数字与该修饰语配对,并显示在区域1330中。
作为另一实例,在区域1310中输入的搜索查询(例如,310)可以包括如下问题:“哪些国家与美国接壤?”可以将该搜索查询(例如,310)的焦点(例如,335)确定为单词“国家”,这样,该搜索的语义子关键词(例如,345、520、620,等)可以包括国家列表(例如,如图5所示)。在一个实施例中,可以选择与来自具有最高排序的搜索结果(例如,355、365,等)的网页相关联的语义子关键词(例如,345、520、620,等),在GUI1300的区域1330中进行显示。例如,大部分最高排序的网页可以包括语义子关键词“加拿大”和“墨西哥”,因此,可以选择单词“加拿大”和“墨西哥”作为搜索查询(例如,310)中出现的问题的答案,并且随后在区域1330中进行显示。
在一个实施例中,可以对区域1330中显示的各个答案进行超链接。于是,与区域1330中显示的答案之一进行交互之后,可以显示与激活的答案相关的一个或多个网页(例如,提供与搜索查询相关的其它信息,和/或进行交互的具体答案)。此外,在一个实施例中,响应于与区域1330中显示的答案所进行的交互而得到的网页至少包括一个突出显示的语义子关键词和/或至少一个突出显示的关键词。于是,各实施例使得可以更快地定位网页中的相关信息。
如图13所示,区域1340可以包括从搜索结果输出375生成的网页(例如,1342-1346)的列表。这些网页可以包括过滤后的搜索结果(例如,355)和/或排序后的搜索结果(例如,365)。这样,可以根据排序后的搜索结果(例如,由排序组件360输出的365)对区域1340中的网页列表进行排序。此外,在一个实施例中,可以超链接一个或多个网页。这样,在与区域1340中显示的一个网页进行交互之后,可以显示(例如,用于提供与搜索查询和/或作为交互对象的网页相关的其它信息)一个或多个其它网页(例如,与区域1340中列出的激活的网页相关的)。
区域1340还可以包括附加信息1343-1347,这些信息分别与区域1340中列出的相应的网页相关。附加信息1343-1347可以包括各个相应的网页的一个或多个单词、短语、段落等。此外,附加信息1343-1347可以包括至少一个突出显示的语义子关键词和/或至少一个突出显示的关键词。这样,这些实施例使得能够更快地定位网页中的相关信息(例如,在区域1340中列出的)。
如图14所示,GUI1300还可以包括区域1350,用于显示语义关键词和/或语义子关键词(例如,用于生成在区域1330和/或区域1340中显示的搜索结果)。在一个实施例中,可以在区域1350中显示至少一个交互式的图形对象(例如,1351-1355),其中,各个交互式图形对象可对应于语义关键词和/或语义子关键词。可以使用交互式图形对象(例如,1351-1355)来选择或撤消选择语义关键词和/或语义子关键词。在一个实施例中,语义关键词和/或语义子关键词的选择可以导致与所选中的语义关键词和/或语义子关键词相关联的搜索结果显示在区域1330和/或区域1340中。此外,撤消选择语义关键词和/或语义子关键词可以导致与所选中的语义关键词和/或语义子关键词相关联的搜索结果被隐藏或者不显示(例如,在区域1330和/或区域1340中)。这样,在一个实施例中,选择交互式图形对象1354(例如,与标注了“英尺”的语义子关键词相关联的)以及交互式图形对象1355(例如,与标注了“米”的语义子关键词相关联的)可以导致在区域1330中显示与相应的语义子关键词相关的答案。此外,选择交互式图形对象1354以及交互式图形对象1355可以导致在区域1340中显示与相应的语义子关键词相关的一个或多个网页。
可以使用在GUI1300的区域1350中显示的交互式图形对象(例如,1351-1355)输入或者与输入377进行通信(例如,与图形数据生成器)。这样,在一个实施例中,可以使用交互式图形对象改变搜索结果(例如,375)的显示,而无需启动新的网页搜索。
可替代地,在一个实施例中,还可以使用交互式图形对象来启动新的网页搜索。例如,撤销选择与给定语义子关键词相关联的图形对象可以导致无需给定的语义子关键词即可输出语义子关键词345(例如,通过语义关键词处理器340),这又可能导致无需与给定语义子关键词相关联的搜索结果即可输出(例如,通过搜索引擎320)语义子关键词搜索结果(例如,324),并且又可能影响由其它组件(例如,过滤组件350、排序组件360、图形数据生成器370,等)访问和/或输出的搜索结果。因而,改变区域1350中显示的活跃语义子关键词(例如,通过选择或者撤消选择至少一个语义子关键词),可以通过生成新的网页搜索(例如,由搜索引擎320进行的)来改变搜索结果(例如,375)的显示。
在一个实施例中,与高级节点或父节点相关联的交互式图形对象的交互可以选择或者撤消选择所有子节点。例如,与交互式图形对象1351的交互可以选择或者撤消选择交互式图形对象1351(例如,1352-1355)下面显示的所有其它的语义子关键词。此外,与交互式图形对象1352的交互可以选择或者撤消选择交互式图形对象1351下面(例如,1352-1355)以及交互式图形对象1353上面(例如,1354)显示的所有其它语义子关键词。
GUI1300还可以包括图形对象1360,用于更新区域1330和/或1340中的搜索结果(例如,375)的显示。例如,在一个实施例中,响应于激活或者停用区域1350中显示的语义子关键词,与图形对象1360的交互可以无需启动新的网页搜索(例如,传送带有新的语义子关键词配置的输入377,以改变搜索结果输出375)即可更新区域1330和/或1340中显示的搜索结果(例如,375)的显示。可替代地,在一个实施例中,响应于激活或者停用区域1350中显示的语义子关键词,与图形对象1360的交互可以通过启动新的网页搜索(例如,基于由区域1350的交互式图形对象1351-1355所指示的新的语义子关键词的配置)来更新区域1330和/或1340中显示的搜索结果(例如,375)的显示。进一步,应当理解,可以响应于与GUI1300的区域1350中显示的一个或多个交互式图形对象(例如,1351-1355)的交互,自动(例如,无需与图形对象1360的交互)更新(例如,启动或者不启动新的搜索)GUI1300中的搜索结果的显示。
图15示出了一种示例性计算机***1500,其可以实施本发明的各实施例。参考图15,本发明的各部分包括,例如,计算机***1500中存储的计算机可读以及计算机可执行的指令,该计算机***1500可作为通用计算机网络(未示出)的一部分。应理解,图15的计算机***1500仅是示例性的,并且在一个实施例中,可以实现计算机***120a和/或120b。这样,本发明可以在包括通用计算机***、嵌入式计算机***、膝上型计算机***、掌上计算机***,以及独立式计算机***的许多不同计算机***中工作。
在本实施例中,计算机***1500包括:地址/数据总线1502,其在各种组件之间传送数字信息;中央处理单元(CPU)1504,其连接到总线1502,用于处理数字信息和指令;易失性主存储器1506,其连接到总线1502,该易失性主存储器1506包括用于存储数字信息和指令的易失性随机存取存储器(RAM),和非易失性只读存储器(ROM)1508,其连接到总线1502,用于存储更永久性质的信息和指令。此外,计算机***1500还可以包括数据存储装置1510(例如,磁盘、光盘、软盘、磁带驱动器等),其连接到总线1502,用于存储数据量较大的数据。可以在主存储器1506、ROM1508、存储装置1510、处理器1504(未示出)内的寄存器、在外部存储装置(未示出)中、或者它们的一些组合体中存储用于执行处理日志文件和/或用于显示处理后的日志文件数据的处理(例如,900、1000、1100等)的数据(例如,包括指令、命令等)。
如图15所示,可以经由总线1502将计算机***1500连接到可选的显示装置1512(例如,CRT监视器、LCD监视器等),以显示从计算机***1500接收到的信息。还可以将可选的输入装置1514(例如,字母数字键盘)经由总线1502连接到计算机***1500,用于将信息和命令选择传送到处理器1504。还可以经由总线1502将光标控制装置1516(例如,鼠标、跟踪球、光笔,等)连接到计算机***1500,用于将方向信息和命令选择传送到处理器1504,和用于控制光标移动(例如,在显示器1512上)。此外,计算机***1500可以包括用于发出声音信号(未示出)的机构。
计算机***1500还可以包括连接到总线1502的通信接口1518。通信接口1518经由网络链路1520提供了连接到本地网络1522的双向数据通信。例如,通信接口1518可以是综合业务数字网(ISDN)装置或者调制解调器,用于提供与对应类型的电话线路的数据通信连接。作为另一个例子,通信接口1518可以是局域网(LAN)装置,用于提供到兼容的LAN的数据通信连接。作为再一个例子,网络链路1520可以包括通信接口1518与本地网络1522之间的无线连接。不管使用何种实现方式,通信接口1518可以发送和接收电气的、电磁的,和/或光学信号,这些信号携载着表示各种类型的信息的数字数据流。
如图15所示,网络链路1520可以通过一个或多个网络来提供与其它数据装置的数据通信。例如,网络链路1520可以通过本地网络1522提供到主机计算机1524的连接或者到因特网服务提供商(ISP)1526运营的数据设备的连接。ISP1526又通过全球分组数据通信网络、现通常称为“因特网”130的网络提供数据通信服务。本地网络1522和因特网130可以使用电气的、电磁的,和/或光学信号传送数字数据流。向计算机***1500传送数字数据和传送来自计算机***1500的数字数据的通过各种网络和网络链路1520的信号的示例性形式是传送信息的载波。
因而,计算机***1500可以通过网络、网络链路1520以及通信接口1518发送和接收消息。例如,服务器1530可以通过因特网130、ISP1526、本地网1522,以及通信接口1518为应用程序发送所请求的代码。处理器1504在接收之后可执行所接收的代码,和/或所接收的代码可以被存储在连接的存储器装置(例如,存储装置1510、ROM1508、RAM1506等)之一中,以供后续执行之用。
在前述说明书中,已经参考因具体实施而可能有所不同的大量具体细节描述了本发明的多个实施例。因此,唯一并且专有的标志,同时也是本申请人的意图是,本发明是从本申请得到的一组权利要求,这些权利要求表现为其所呈现的具体形式,但应包括任何后续的修改。因此,权利要求中未明确指出的限制、元件、性质、特征、优点或者属性等都不应以任何方式限制这些权利要求的范围。相应地,应该认为本说明书和附图是说明性的,而不是限制性的。

Claims (14)

1.一种响应于搜索查询进行搜索的计算机实施的方法,所述方法包括:
确定与所述搜索查询的至少一个关键词相关的语义关键词,其中所述语义关键词与语义子关键词相关联;
访问利用所述搜索查询从关键词搜索生成的网页搜索结果;以及
利用所述语义子关键词过滤所述网页搜索结果,以生成过滤后的网页搜索结果,其中,所述过滤后的网页搜索结果包括网页列表,其中所述网页列表中的至少一个网页包括所述语义子关键词。
2.如权利要求1所述的计算机实施的方法,其中,从由下位词和数字表达式组成的组中选出所述语义子关键词。
3.如权利要求1所述的计算机实施的方法,进一步包括:
访问所述搜索查询;
确定所述搜索查询的焦点,其中利用语法分析器确定所述焦点;以及
基于所述焦点确定所述语义关键词。
4.如权利要求1所述的计算机实施的方法,其中,所述利用所述语义子关键词过滤所述网页搜索结果的步骤进一步包括:
将所述网页搜索结果与基于所述语义子关键词生成的附加网页搜索结果相比较;
识别所述网页搜索结果和所述附加网页搜索结果的至少一个共同的网页;以及
将所述至少一个共同的网页指定为所述过滤后的网页搜索结果。
5.如权利要求1所述的计算机实施的方法,进一步包括:
基于用户输入从多个语义关键词中选出所述语义关键词,其中所述多个语义关键词与所述搜索查询相关。
6.如权利要求1所述的计算机实施的方法,进一步包括:
对所述过滤后的网页搜索结果进行排序,以生成排序后的网页搜索结 果,其中,基于从一组中选出的信息对所述过滤后的网页搜索结果进行排序,其中的一组是由所述至少一个网页的每个网页中的所述语义子关键词的频率、所述至少一个网页的每个网页中的所述至少一个关键词的频率,以及所述语义子关键词与所述至少一个网页的每个网页中的所述至少一个关键词的近似度组成的。
7.如权利要求1所述的计算机实施的方法,进一步包括:
基于所述过滤后的网页搜索结果生成图形数据,所述图形数据用于生成从由所述网页列表和利用所述搜索查询提出的问题的答案组成的组中选出的信息的表示,其中,所述***括来自所述语义子关键词的信息和来自所述过滤后的网页搜索结果的网页的信息。
8.一种响应于搜索查询进行搜索的计算机***,包括:
用于确定与所述搜索查询的至少一个关键词相关的语义关键词的装置,其中所述语义关键词与语义子关键词相关联;
用于访问利用所述搜索查询由关键词搜索生成的网页搜索结果的装置;以及
用于利用所述语义子关键词过滤所述网页搜索结果,以生成过滤后的网页搜索结果的装置,其中,所述过滤后的网页搜索结果包括网页列表,其中所述网页列表中的至少一个网页包括所述语义子关键词。
9.如权利要求8所述的计算机***,其中,从由下位词和数字表达式组成的组中选出所述语义子关键词。
10.如权利要求8所述的计算机***,进一步包括:
用于访问所述搜索查询的装置;
用于确定所述搜索查询的焦点的装置,其中利用语法分析器来确定所述焦点;以及
用于基于所述焦点确定所述语义关键词的装置。
11.如权利要求8所述的计算机***,其中用于利用所述语义子关键词 过滤所述网页搜索结果的装置进一步包括:
用于将所述网页搜索结果与基于所述语义子关键词生成的附加网页搜索结果相比较的装置;
用于识别所述网页搜索结果和所述附加网页搜索结果的至少一个共同网页的装置;以及
用于将所述至少一个共同网页指定为所述过滤后的网页搜索结果的装置。
12.如权利要求8所述的计算机***,进一步包括:
用于基于用户输入从多个语义关键词中选出所述语义关键词的装置,其中所述多个语义关键词与所述搜索查询相关。
13.如权利要求8所述的计算机***,进一步包括:
用于对所述过滤后的网页搜索结果进行排序,以生成排序后的网页搜索结果的装置,其中,基于从一组中选出的信息对所述过滤后的网页搜索结果进行排序,其中的一组是由所述至少一个网页的每个网页中的所述语义子关键词的频率、所述至少一个网页的每个网页中的所述至少一个关键词的频率,以及所述语义子关键词与所述至少一个网页的每个网页中的所述至少一个关键词的近似度组成的。
14.如权利要求8所述的计算机***,进一步包括:
用于基于所述过滤后的网页搜索结果生成图形数据的装置,所述图形数据用于生成从一组中选出的信息的表示,其中的一组是由所述网页列表和利用所述搜索查询提出的问题的答案组成的,其中所述***括来自所述语义子关键词的和来自所述过滤后的网页搜索结果的网页的信息。 
CN2008102151034A 2007-10-12 2008-09-01 使用语义关键词改进搜索相关性 Expired - Fee Related CN101408894B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US99881007P 2007-10-12 2007-10-12
US60/998,810 2007-10-12
US99981307P 2007-10-18 2007-10-18
US60/999,813 2007-10-18
US12/112,774 US9396262B2 (en) 2007-10-12 2008-04-30 System and method for enhancing search relevancy using semantic keys
US12/112,774 2008-04-30

Publications (2)

Publication Number Publication Date
CN101408894A CN101408894A (zh) 2009-04-15
CN101408894B true CN101408894B (zh) 2012-07-25

Family

ID=40298693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102151034A Expired - Fee Related CN101408894B (zh) 2007-10-12 2008-09-01 使用语义关键词改进搜索相关性

Country Status (3)

Country Link
US (1) US9396262B2 (zh)
EP (1) EP2048585A3 (zh)
CN (1) CN101408894B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119261A1 (en) * 2007-10-12 2011-05-19 Lexxe Pty Ltd. Searching using semantic keys
US9875298B2 (en) 2007-10-12 2018-01-23 Lexxe Pty Ltd Automatic generation of a search query
US9396262B2 (en) 2007-10-12 2016-07-19 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
US20090307003A1 (en) * 2008-05-16 2009-12-10 Daniel Benyamin Social advertisement network
US8583673B2 (en) * 2009-08-17 2013-11-12 Microsoft Corporation Progressive filtering of search results
EP2478451A2 (en) 2009-09-18 2012-07-25 Lexxe PTY Ltd Method and system for scoring texts
US8386454B2 (en) 2009-09-20 2013-02-26 Yahoo! Inc. Systems and methods for providing advanced search result page content
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
CN103384883B (zh) * 2010-06-03 2016-11-09 汤姆森特许公司 利用Top-K处理使语义丰富
US20120066359A1 (en) * 2010-09-09 2012-03-15 Freeman Erik S Method and system for evaluating link-hosting webpages
US8612293B2 (en) 2010-10-19 2013-12-17 Citizennet Inc. Generation of advertising targeting information based upon affinity information obtained from an online social network
US8615434B2 (en) 2010-10-19 2013-12-24 Citizennet Inc. Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network
CN102479193B (zh) * 2010-11-22 2015-04-01 百度在线网络技术(北京)有限公司 一种基于匹配出价系数进行匹配搜索推广的方法和设备
US9063927B2 (en) 2011-04-06 2015-06-23 Citizennet Inc. Short message age classification
CN102737036A (zh) * 2011-04-07 2012-10-17 腾讯科技(深圳)有限公司 一种获取热点价值词的方法及装置
US10311113B2 (en) 2011-07-11 2019-06-04 Lexxe Pty Ltd. System and method of sentiment data use
US10198506B2 (en) 2011-07-11 2019-02-05 Lexxe Pty Ltd. System and method of sentiment data generation
US9002892B2 (en) 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
EP2570938A1 (en) * 2011-09-16 2013-03-20 Lexxe Pty Ltd. System and method for ordering semantic sub-keys utilizing superlative adjectives
US9053087B2 (en) * 2011-09-23 2015-06-09 Microsoft Technology Licensing, Llc Automatic semantic evaluation of speech recognition results
CN102831136B (zh) * 2012-01-16 2015-09-16 中新力合股份有限公司 一种信息存储和搜索方法
US9053497B2 (en) 2012-04-27 2015-06-09 CitizenNet, Inc. Systems and methods for targeting advertising to groups with strong ties within an online social network
CN103426089B (zh) * 2012-05-17 2019-05-03 北京京东尚科信息技术有限公司 商品导购***及方法
US10219048B2 (en) 2014-06-11 2019-02-26 Arris Enterprises Llc Method and system for generating references to related video
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和***
CN106156179B (zh) * 2015-04-20 2020-01-07 阿里巴巴集团控股有限公司 一种信息检索方法及装置
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及***
CN109002494A (zh) * 2018-06-27 2018-12-14 北京华脉世纪软件科技有限公司 关键词展示方法、装置、存储介质和处理器
CN109492089A (zh) * 2018-10-18 2019-03-19 上海连尚网络科技有限公司 用于输出信息的方法和装置
CN114443928B (zh) * 2022-01-25 2023-03-17 西藏民族大学 一种网络文本数据爬虫方法与***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1871601A (zh) * 2003-08-21 2006-11-29 伊迪利亚公司 将文档与上下文广告相关联的***和方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03188566A (ja) 1989-12-18 1991-08-16 Fujitsu Ltd 辞書連動テキストベース装置
IL126373A (en) 1998-09-27 2003-06-24 Haim Zvi Melman Apparatus and method for search and retrieval of documents
US7213205B1 (en) 1999-06-04 2007-05-01 Seiko Epson Corporation Document categorizing method, document categorizing apparatus, and storage medium on which a document categorization program is stored
KR100393176B1 (ko) 2000-05-29 2003-07-31 주식회사 엔아이비소프트 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법
US6829605B2 (en) * 2001-05-24 2004-12-07 Microsoft Corporation Method and apparatus for deriving logical relations from linguistic relations with multiple relevance ranking strategies for information retrieval
US20030130993A1 (en) 2001-08-08 2003-07-10 Quiver, Inc. Document categorization engine
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US7206778B2 (en) * 2001-12-17 2007-04-17 Knova Software Inc. Text search ordered along one or more dimensions
WO2003067471A1 (fr) * 2002-02-04 2003-08-14 Celestar Lexico-Sciences, Inc. Appareil et procede permettant de traiter des connaissances dans des documents
JP4005425B2 (ja) * 2002-06-28 2007-11-07 富士通株式会社 検索結果ランキング変更処理プログラム、検索結果ランキング変更処理プログラム記録媒体、およびコンテンツ検索処理方法
US6983280B2 (en) * 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
US20060010111A1 (en) 2003-09-19 2006-01-12 Blu Ventures, Llc Methods to adapt search results provided by an integrated network-based media/search engine based on user lifestyle
US7650512B2 (en) 2003-11-18 2010-01-19 Oracle International Corporation Method of and system for searching unstructured data stored in a database
US20070106657A1 (en) 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
US7487072B2 (en) 2004-08-04 2009-02-03 International Business Machines Corporation Method and system for querying multimedia data where adjusting the conversion of the current portion of the multimedia data signal based on the comparing at least one set of confidence values to the threshold
US7540051B2 (en) 2004-08-20 2009-06-02 Spatial Systems, Inc. Mapping web sites based on significance of contact and category
US20060122997A1 (en) * 2004-12-02 2006-06-08 Dah-Chih Lin System and method for text searching using weighted keywords
US7689910B2 (en) 2005-01-31 2010-03-30 International Business Machines Corporation Processing semantic subjects that occur as terms within document content
JP4654745B2 (ja) * 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
KR20070052028A (ko) 2005-11-16 2007-05-21 김태원 키워드 광고에서 접속자의 행위 분석에 의해 과금을수행하는 시스템, 장치, 방법 및 이를 구현할 수 있는프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체
US20090055390A1 (en) 2006-02-01 2009-02-26 Matsushita Electric Industrial Co., Ltd. Information sorting device and information retrieval device
US20080010605A1 (en) 2006-06-12 2008-01-10 Metacarta, Inc. Systems and methods for generating and correcting location references extracted from text
KR101249183B1 (ko) 2006-08-22 2013-04-03 에스케이커뮤니케이션즈 주식회사 검색엔진의 주제 생성 및 문서 분류방법, 이를 수행할 수있는 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체
US20080114750A1 (en) 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity
US7698259B2 (en) 2006-11-22 2010-04-13 Sap Ag Semantic search in a database
US7505973B2 (en) 2007-01-16 2009-03-17 Microsoft Corporation Efficient paging of search query results
US20090043749A1 (en) 2007-08-06 2009-02-12 Garg Priyank S Extracting query intent from query logs
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8301633B2 (en) 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US9396262B2 (en) 2007-10-12 2016-07-19 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
US20090248511A1 (en) 2008-03-31 2009-10-01 Yahoo!, Inc. Advertisements on demand

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1871601A (zh) * 2003-08-21 2006-11-29 伊迪利亚公司 将文档与上下文广告相关联的***和方法

Also Published As

Publication number Publication date
EP2048585A2 (en) 2009-04-15
US9396262B2 (en) 2016-07-19
CN101408894A (zh) 2009-04-15
US20090100042A1 (en) 2009-04-16
EP2048585A3 (en) 2009-06-03

Similar Documents

Publication Publication Date Title
CN101408894B (zh) 使用语义关键词改进搜索相关性
CN102171689B (zh) 用于提供搜索结果的方法、***
US7581170B2 (en) Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML
CN102096717B (zh) 搜索方法及搜索引擎
Crescenzi et al. Clustering web pages based on their structure
Hui et al. Data mining for customer service support
CN101366024B (zh) 用于处理数据搜索请求的方法和***
US8239387B2 (en) Structural clustering and template identification for electronic documents
CN102023989B (zh) 一种信息检索方法及其***
CN101655857B (zh) 基于关联规则挖掘技术挖掘建设法规领域数据的方法
US20080040326A1 (en) Method and apparatus for organizing data sources
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
CN101124609A (zh) 使用内联上下文查询的搜索***及方法
CN101116072A (zh) 用于分类呈现搜索结果的方法和***
WO2008073784A1 (en) Web site structure analysis
WO1998038560A2 (en) System and method for semiotically processing text
CN101782998A (zh) 一种违规在线产品信息的智能判断方法与***
Yang Developing an ontology-supported information integration and recommendation system for scholars
CN102782677B (zh) 使用语义密钥的改良搜索
CN105518661A (zh) 经由挖掘的超链接文本的片段来浏览图像
El Bouhissi et al. From user's goal to semantic Web services discovery: Approach based on traceability
Boddu et al. Knowledge discovery and retrieval on World Wide Web using web structure mining
Tran et al. Semantic search–using graph-structured semantic models for supporting the search process
Svátek et al. Knowledge modelling for deductive web mining
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120725

Termination date: 20180901

CF01 Termination of patent right due to non-payment of annual fee