CN107690634B - 自动查询模式生成方法及*** - Google Patents

自动查询模式生成方法及*** Download PDF

Info

Publication number
CN107690634B
CN107690634B CN201680025854.2A CN201680025854A CN107690634B CN 107690634 B CN107690634 B CN 107690634B CN 201680025854 A CN201680025854 A CN 201680025854A CN 107690634 B CN107690634 B CN 107690634B
Authority
CN
China
Prior art keywords
query
pattern
patterns
sub
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680025854.2A
Other languages
English (en)
Other versions
CN107690634A (zh
Inventor
托默·什米尔
德维尔·凯沙尔
韦雷德·科恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN107690634A publication Critical patent/CN107690634A/zh
Application granted granted Critical
Publication of CN107690634B publication Critical patent/CN107690634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

描述一个总体方面,其包括一种用于生成模式图的计算机实现的方法。所述方法可包括访问与web文档的语料库相关的数据。所述数据可包括多个查询文档对。所述方法还可包括识别所述多个查询文档对中的至少一个查询模式,且所述查询模式可与所述语料库中的一部分web文档相关联。所述方法还可包括识别所述至少一个查询模式中的多个子短语,在web文档的所述语料库中确定包括所述多个子短语中的至少一个的多个其他查询模式,以及将分类符指派给所述至少一个查询模式和包括所述子短语中的至少一个的所述多个其他查询模式中的每一个。

Description

自动查询模式生成方法及***
相关申请的交叉引用
本申请主张2016年8月3日提交的题为“Automatic Query Pattern Generation(自动查询模式生成)”的美国非临时专利申请第15/227,456 号的优先权并且是其继续申请,该案进而主张2015年8月4日提交的题为“自动查询模式生成”的美国临时专利申请第62/200,819号的优先权,前述专利申请的公开内容通过引用的方式全部并入本文中。
技术领域
本描述大体上涉及搜索***的使用。具体的具体的,本描述涉及生成和使用查询模式图。
背景技术
互联网搜索引擎可响应于用户提交的搜索查询来返回搜索结果。一些搜索结果可被认为是响应于用户的搜索查询,并且其他搜索结果可被认为是不相干的或者极少相关的。由于用户通常正在搜索有帮助的信息,因此根据用户需求提供最响应的搜索结果可节省用户时间,并可消除执行多个搜索查询以找到所需信息的负担。
发明内容
一个或多个计算机的***可被配置成依靠在***上安装在操作中致使所述***执行动作的软件、固件、硬件、或其组合来执行特定的操作或动作。一个或多个计算机程序可被配置成通过包括依靠在由数据处理装置执行时致使所述装置执行动作的指令来执行特定的操作或动作。一个总体方面包括用于生成模式图的计算机实现的方法。所述方法可包括访问与web文档的语料库相关的数据。所述数据可包括多个查询文档对。所述方法还可包括识别所述多个查询文档对中的至少一个查询模式,且所述查询模式可与所述语料库中的一部分web文档相关联。所述方法还可包括识别所述至少一个查询模式中的多个子短语,在所述web文档的语料库中确定包括所述多个子短语中的至少一个的多个其他查询模式,以及将分类符指派给所述至少一个查询模式和包括所述子短语中的至少一个的所述多个其他查询模式中的每一个。所述方法可进一步包括使分类符与语料库中的所述一部分web文档相关联,且将查询模式和其他查询模式聚合到模式图中。本方面的其他实施例包括对应的计算机***、装置、和记录在一个或多个计算机存储设备上的计算机程序,均被配置成执行所述方法的动作。
实施方式可包括以下特征中的一个或多个。如上所述且另外包括模式图的方法被配置成表示所述一部分web文档中的至少两个之间的相似性。如上所述的方法,其中所述分类符与用户输入相关联且包括确定的一个或多个主题类别以及所述一个或多个主题类别内的特异度水平。所述方法可以进一步包括:基于使所述子短语中的至少一个与所述语料库中的至少一个web文档匹配来将所述分类符指派给所述至少一个查询模式。所述方法可以进一步包括识别所述多个查询文档对中的多个额外查询模式。在一些实施方式中,所述方法可以包括:对于额外查询模式中的每一个,识别额外查询模式中的多个子短语且在web文档的语料库中确定包括额外查询模式中的多个子短语中的至少一个的多个其他查询模式,将分类符指派给额外查询模式和其他查询模式中的每一个,使分类符与语料库中的一部分web文档相关联,以及根据分类符将额外查询模式聚合到模式图中。
在一些实施方式中,将所述查询模式和其他查询模式聚合到模式图中包括:组装包括多个节点和边的图,其中每个节点表示查询模式,且每个边表示所述图中两个或多于两个的查询模式之间的相似性分值。在一些实施方式中,所述方法可包括:使用邻居节点来滤出对应于与所关联的分类符不同的分类符的一个或多个查询模式。在一些实施方式中,所述模式图包括直方图、矩阵、曲线图、和散点图矩阵中的至少一个。所描述的技术的实施方式可以包括硬件、方法或过程、或计算机可访问介质上的计算机软件。
在另一总体方面,描述了一种计算机实现的方法,其包括获得多个搜索查询,基于所述多个搜索查询生成多个转译的搜索查询,生成每个搜索查询和转译的搜索查询的转译对。对于每个所生成的转译对,所述方法可包括:应用查询注释器以确定转译对中的短语之间的匹配标识符,响应于确定至少一个匹配标识符而用占位符替换所述至少一个匹配标识符。占位符可以指示搜索查询和与转译对相对应的经转译搜索查询之间的模式关系。所述方法可包括:生成至少一个查询模式以表示转译对,所述查询模式至少部分地基于所述匹配标识符,以及通过用围绕匹配标识符的经转译搜索查询中的子短语交换围绕匹配标识符的搜索查询中的子短语来扩充所述转译对的所述至少一个查询模式。
实施方式可包括以下特征中的一个或多个。所述方法可包括:对于每个转译对,将所述至少一个查询模式聚合到查询模式的直方图中。在一些实施方式中,所述方法可包括:将分类符指派给至少一个查询模式,所述分类符指示用户访问存储在语料库中的web文档中的信息的期望,以及使分类符与转译对相关联,所述关联包括将至少一个查询模式映射到一个或多个经转译搜索查询模式。在一些实施方式中,每个转译对包括查询模式和经转译查询模式。
在另一总体方面中,描述一种包括一个或多个计算机的***,所述***被配置成依靠在***上安装在操作中致使所述***执行操作的软件、固件、硬件或其组合来执行特定的操作或动作。所述***可包括至少一个处理器和存储指令的存储器,所述指令在由至少一个处理器执行时致使所述***执行操作,所述操作包括:访问与web文档的语料库相关的数据,所述数据包括多个查询文档对;识别多个查询文档对中的至少一个查询模式,所述查询模式与语料库中的一部分web 文档相关联;识别所述至少一个查询模式中的多个子短语;在所述web 文档的语料库中确定包括多个子短语中的至少一个的多个其他查询模式;将分类符指派给至少一个查询模式和包括子短语中的至少一个的多个其他查询模式中的每一个,所述分类符指示用户访问存储在语料库中的所述一部分web文档中的信息的期望;使分类符与语料库中的所述一部分web文档相关联;以及将查询模式和其他查询模式聚合到模式图中。在一些实施方式中,所述分类符与用户输入相关联,且包括确定的一个或多个主题类别以及所述一个或多个主题类别内的特异度水平。
所述***的实施方式还可包括操作,其中模式图被配置成表示所述一部分web文档中的至少两个之间的相似性。所述操作还可包括基于使所述子短语中的至少一个与所述语料库中的至少一个web文档匹配来将所述分类符指派给所述至少一个查询模式。所述操作还可包括识别多个查询文档对中的多个额外查询模式,以及对于额外查询模式中的每一个,操作可包括:识别额外查询模式中的多个子短语以及在所述web文档的语料库中确定包括额外查询模式中的多个子短语中的至少一个的多个其他查询模式;将分类符指派给额外查询模式其他查询模式中的每一个;使分类符与语料库中的一部分web文档相关联;以及根据分类符将额外的查询模式聚合到模式图中。
在一些实施方式中,将所述查询模式和其他查询模式聚合到模式图中包括:组装包括多个节点和边的图,每个节点表示查询模式且每个边表示所述图中两个或多于两个的查询模式之间的相似性的分值。所述***的实施方式可使用邻居节点来滤出对应于与所关联的分类符不同的分类符的一个或多个查询模式。在一些实施方式中,所述模式图包括直方图、矩阵、曲线图和散点图矩阵中的至少一个。所描述的技术的实施方式可以包括硬件、方法或过程、或计算机可访问介质上的计算机软件。
本方面的其他实施例包括对应的计算机***、装置、和记录在一个或多个计算机存储设备上的计算机程序,其均被配置成执行所述方法的动作。
在附图和以下描述中阐述一个或多个实施方式的细节。其他特征根据描述和附图以及根据权利要求将变得显而易见。
附图说明
图1是示例搜索***的框图。
图2A和图2B描述生成查询模式的示例图。
图3描绘生成语法的示例图。
图4是图示用于将查询模式映射到经转译查询模式的过程的一个实施例的流程图。
图5是图示生成模式图的过程的一个实施例的流程图。
图6示出可用以实现所描述的技术的计算机设备的示例。
图7示出可用以实现所描述的技术的分布式计算机设备的示例。
各个附图中的相似附图标记指示相似元素。
具体实施方式
搜索***的用户通常希望访问在线信息以在特定主题或兴趣区域受教育。在互联网上搜索信息时,许多用户都需要考虑几个关键词。关键词(例如,形成搜索查询)可用以确定属于用户的意图。所述意图可指示用户期望的信息的范围,并且可以使用分类符来捕获用户执行的一个或多个动作的场境(context)从而捕获所述意图。这样的分类符可以由搜索***推断,使用所执行的动作来确定用于搜索信息的目的,并使用分类符将场境指派给搜索。例如,意图(例如,分类符) 可指示用户希望在她的搜索结果中查看的一个或多个主题,以及用户在这些主题内期望的特异度水平。在一些实施方式中,意图/分类符与用户输入相关联和/或根据用户输入确定,并且可包括包括一个或多个确定的主题类别。例如,录入的符号、字母、数字或整个搜索查询可构成用户输入。在一些实施方式中,分类符可包括一个或多个主题类别内的特异度水平。
在一个非限制性示例中,两个查询[Barack Obama(巴拉克·奥巴马)]和[Obama2004convention speech(奥巴马2004年会议演讲)]指示了对关于不同主题和不同特异度水平的信息的期望。搜索***通常负责使用搜索查询来确定用户意图,基于该意图来指派分类符,将该意图/分类符转译为机器语言,以及执行一个或多个搜索以找到用于显示给用户的适当信息。本公开中描述的***和方法被配置成分析搜索查询、查询模式、和查询文档以生成的额外查询、查询模式和查询图,其可用以提供匹配通过用户录入搜索查询到搜索引擎中而指示的一个或多个意图的搜索内容。
大体而言,搜索查询和搜索文档可具有不同的用户意图分辨率。本公开中描述的***和方法可使用搜索文档将用户意图映射回搜索查询,而不是从搜索查询到文档(并且冒丢失搜索查询的子意图的风险)。以此方式,可使用确切地充分利用文档所隐含的意图分离的算法,并且可使用分类符将意图投射到查询上。可使用此映射来生成和匹配查询模式,其可用以将搜索结果匹配到用户录入的搜索查询。
另外,本文描述的***和方法可检测到与用户录入的搜索查询相关联的查询模式,并基于检测到的查询模式来自动地生成类似的查询模式。具体的,本文描述的***和方法可访问匹配检测到的查询模式的搜索文档,以生成可用以找出类似于访问的搜索文档的文档的一个或多个查询模式。使用搜索文档来确定查询中的意图可提供以下优点:充分利用文档所隐含的意图和/或子意图,并且将那些意图和/或子意图投射到所接收的搜索查询上。
如本文所使用,查询模板表示包括查询部分(例如,子短语)且支持指定替换部分的查询短语。例如,查询模板[weather in X(X的天气)]可用以表示例如[weather inParis(巴黎的天气)]、[weather in NYC (纽约市的天气)]和[NYC weather(纽约市天气)]等查询。“X”表示替换部分,而词项“weather”、“NYC”和“Paris”表示查询部分。
如本文所使用,查询模式表示在搜索***中的搜索日志中重复的查询模板。例如,查询模式可为匹配给定查询模板的查询的广义表示。例如,查询模式[weather in X]可表示包括词项“weather”和标识地理位置的词项的所有查询,例如[weather in Paris]、[weather in NY]、 [weather in the east coast(东海岸的天气)]和[weather near me(我附近的天气)]。查询模式可提供一个或多个预定义规则以用于匹配所接收的查询和解释匹配的查询。查询模式可包括例如语言标识符(例如,法语)、国家或域(例如,法国)、停止词、连接符(connector)、置信度值、和查询分割过滤策略。例如“一”和“所述”的停止词是不提供有助于识别搜索结果的信息(例如,不影响结果)的词。可根据模式移除停止词,使得在将查询与查询模式匹配时,在输入查询中忽略停止词。
如本文所使用,查询注释器表示确定哪些实体出现在给定查询中的模块,其中每个这样的实体具有独立于语言的规范表示。例如,在查询“weather in Paris”上应用查询注释器可使用表示法国首都城市“Paris”的规范表示的唯一标识符(例如,“/m/05qtj”)来注释字符串“Paris”。
给定这样的查询模板、查询模式、和查询注释器,本文描述的***和方法可以找到或生成很可能表达相同用户意图的其他查询模式。作为一个示例,[weather in X]的期望查询模式可包括[X weather(X天气)]、[what is the weather in X(X的天气是什么)]、[what's the weather like in X(X的天气如何)]、[what's the temperature in X(X的温度是多少)]、[is it raining in X(X是不是在下雨)]等。这是因为搜索[weather inParis]的用户和搜索[Paris weather(巴黎天气)]的用户可能具有访问相同类型信息的相似意图。
图1是示例搜索***100的框图。***100可向用户提供与用户提交的查询相关的搜索结果。一般而言,搜索***100可表示其中可实现***、组件、和本文所述的技术的信息检索***。
示例***100包括可通过网络101交换数据的多个计算设备。该设备可表示客户端或服务器,且可经由网络101或其他网络来通信。客户端设备可包括移动设备102、膝上型计算设备104和平板型计算设备106。此处示出的服务器设备是服务器计算设备,表示为搜索*** 108。额外设备是可能的,且这样的设备可被配置成作为彼此的代替,如下文描述。在一些实施方式中,设备102、104、106和108可为膝上型或台式计算机、智能电话、个人数字助理、便携式媒体播放器、平板计算机、或可使用网络101来与其他计算设备或计算机***通信的其他适当的计算设备。
此处将移动设备102表示为智能电话。示例移动设备102可包括一个或多个处理器(例如,客户端中央处理单元(CPU))和一个或多个存储器设备(例如,客户端存储器)。移动设备102可执行可在包括于移动设备102中的显示设备上显示用户界面(UI)的客户端操作***(O/S)和一个或多个客户端应用。
如图1中所示,***100包括服务器搜索***108,其可包括一个或多个计算设备和一个或多个计算机可读存储设备(例如,索引储存库110)。搜索***108可包括一个或多个处理器和一个或多个存储器设备,且可用作搜索***,其包括web浏览器实施方式以及与可向用户提供信息的其他服务器的连接。计算设备102、104和106可使用网络101来与搜索***108(且服务器计算设备108可与计算设备102、 104和106通信)通信。搜索***108可执行服务器O/S。
如所示出的,搜索***108包括搜索引擎112。搜索引擎112可包括或者可访问索引引擎114、模式生成器116、查询注释器118、和转译生成器120。搜索引擎112可被实现为例如在通过网络彼此耦合的一个或多个位置处的一个或多个计算机上运行的计算机程序。
索引引擎114可生成、维护、和更新一个或多个索引储存库110。索引储存库110可包括围绕互联网和在全球搜索服务器和***上的内容的一个或多个语料库或储存库中发现的经索引资源(例如,查询模板、查询注释器、查询模式、网页、图像或互联网上的新闻文章)。
模式生成器116可被配置成使用来自搜索查询的重复的子短语来将类似的搜索查询集合转换为模式集合。可将模式集合聚合到基于内联网上可用的数十亿个web文档的模式图中。一般而言,互联网上的每个文档可能会贡献几对可能类似的查询模式。这些对是聚合模式图的基础。在聚合模式图中,每个查询模式表示一个节点,且每两个相似的节点都连接在图的边上。两个连接节点之间的相似性可通过连接两个节点的边的相似性分值进行量化。一对类似的节点可被称为类似的邻居。使用类似的邻居来过滤离题候选模式可以提供在以下示例中减少用户接收不正确的搜索结果的发生的优点:基于两种模式返回类似的搜索结果而将两种模式认为是类似的,即使两种模式的用户意图实际上并不类似(例如,对于查询模式[X treatment(X疗法)]和[X symptoms(X症状)])。这是因为许多文档从两种模式获得流量。通过使用类似的邻居准则,***100中使用的算法可确定特定模式实际上并不类似,即使在相同搜索结果中出现相关的文档。
在一个非限制性示例中,响应于用户录入诸如(a)“things to do in california(在加州要做的事)”、(b)“what to do in california(在加州要做什么)”、(c)“california attractions(加州景点)”、(d)“best things to do california(加州最好的事)”等查询,可提供与“things to do in california”主题相关联的文档并由用户进行选择。***100可搜索许多查询(a)-(d)和其他类似查询的共同的子短语(例如,“california”将是其中之一),且可用“X”替换“california”。因此,***100可生成以下查询模式[things to do in X(在X要做的事)]、[what to do in X(在 X要做什么)]、[Xattractions(X景点)]、[best things to do X(X最好的事)]等。***100然后可基于例如两个查询带至该页面的点击的分数(fraction),将这些查询模式的每个可能的对之间的连接与相关联的分值相加。在***100之前已遇到这些模式对的事件下,可以将先前分值和当前分值加在一起以生成更新的分值。例如,具有“things to do in paris(在巴黎要做的事)”的主题的文档也可能贡献例如“things to do in X”和“what to do in X”的对,这可通过此页面的X=“paris”来隐含。
在上述示例中,模式生成器116可将类似查询转换为查询模式而不使用查询注释器118,因为模式生成器116可根据给定的类似查询集合解释实体且不需要访问经注释信息。一般而言,***100可采用基于从搜索文档到搜索查询而不是如在传统搜索技术中所进行的从搜索查询到搜索文档的算法。这可允许***100充分利用每个文档作为枢轴的现有聚类结构以及充分利用所有查询的全局聚类。
在一些实施方式中,模式生成器116可执行查询聚类。例如,传统聚类可包括按照类似的搜索结果来聚类。其一个优点可包括:充分利用先前执行的搜索及其成功(通过点击、访问等)的效力。可通过响应于另一用户录入相同的搜索查询而提供相同的搜索结果来重复这样的成功。传统聚类的一个缺点可能是丢失提供给用户的列表中的其他搜索结果,因为该列表无法使用查询词项而重新生成。所述列表可仅仅以相同的形式重新检索,从而失去潜在的新内容。例如,搜索查询“how to tie a tie in 15 seconds(如何在15秒内打领带)”可能不提供任何包括“15seconds”的搜索结果,因为***可能会专注于打领带的指令而不是搜索查询的时间部分。***100可被配置成将时间部分包括到查询和后续搜索结果中,以保留查询中的所有子意图。
查询注释器118可对查询集中的每个查询进行注释。每个搜索查询通常用标识查询部分的特定标签进行注释。该标签根据一个或多个查询模式组件来指定,例如{prefix(前缀)}{suffix(后缀)}{query (查询)}和{connector(连接符)}。因此,注释可以从查询模式中获取并与对应的查询词项匹配。例如,查询“ice cream near St.Louis(圣路易斯附近的冰淇淋)”可用来自匹配的查询模式的标签{what(什么)}{connector}{where(哪里)}来注释。
转译生成器120可被配置成学习特定查询模式的转译。转译生成器120也可被配置成基于实体注释或与查询模式相关联的其他度量来转译特定查询模式。在一些实施方式中,转译生成器120可将查询模式集合从一种语言转译成另一种语言。这允许例如生成器120将现有的英语模式集合转换为其他语言。
一般而言,用户(未图示)可通过客户端设备(例如,移动设备 102、膝上型计算设备104或平板型计算设备106)来与搜索***108 交互。例如,移动设备102可为计算机设备——其通过互联网(例如,网络101)耦合到搜索***108且可通过连接到互联网的web浏览器访问搜索***108上的数据。
在一个非限制性示例中,用户(未图示)可将搜索查询(例如,由箭头122表示)提交到搜索***108内的搜索引擎112。当用户提交搜索查询122时,可通过网络101将搜索查询122传送到搜索***108。搜索***108可通过生成搜索结果(由箭头124表示)来对搜索查询122作出响应,可通过网络101将例如可被呈现给用户的形式的搜索结果传送到移动设备102。例如,搜索结果124可被呈现为指向可以由在移动设备102上运行的web浏览器渲染的网页的链接。
当搜索查询122由搜索引擎112接收时,搜索引擎112可识别与搜索查询122匹配的资源。搜索引擎112可使用索引储存库110来访问与所接收的搜索查询122相关的搜索结果124并将其提供给用户。向用户提供搜索结果可包括评定用户尝试找出的内容并使确定用户在执行搜索时考虑的意图的评定缩窄。
一般而言,可能存在比互联网上的实际可用网页多很多的用户意图。另外,因为搜索引擎一般响应于用户录入的搜索查询而返回至少一些搜索结果集合,所以有可能基于与录入的搜索查询相关联的误解的意图或子意图来提供一些搜索结果。
***100可提供澄清搜索查询意图的优点。例如,如果在搜索引擎中录入诸如“diabetes symptoms in children(儿童糖尿病症状)”和“diabetes symptoms inchildren in age 7to 9(处于7至9岁儿童的糖尿病症状)”的两个搜索查询,则两个查询可能具有类似的结果。然而,“diabetes symptoms in children ages 7 to 9(7至9岁儿童的糖尿病症状)”狭窄查询可能具有比“diabetes symptoms in children”更广泛查询的更狭窄的搜索结果集合。因而,***100可采用通常过于广泛的搜索结果集合,并例如在确定狭窄的意图时相应地缩小结果。具体的,如果查询以不常见(或者甚至是相对常见的)外语录入,则外语查询解释可能比英语查询解释有更少的可用统计信息。***100可确定较少的统计数据可用于该外语,并可分析搜索查询以确定可能的额外意图。
索引储存库110可包括在内容的一个或多个语料库或储存库中找出的经索引资源(例如,查询模板、查询注释器、查询模式、网页、图像、或其他内容)。在一些实施方式中,索引储存库110存储可为几个储存库,且每个储存库可包括可以分开地使用搜索查询122的部分或全部来搜索的不同类型的资源。例如,索引储存库110可存储与地理资源、本地资源、或其他类型的专门索引的资源相关联的索引信息。搜索引擎112可取决于查询的解释——例如使用如本文所述的查询模式——而将搜索查询122或查询组件提交到特定索引。搜索引擎 112可通过网络101将搜索结果124传送到移动设备102,例如用于呈现给用户。
再次参照图1,网络101可为公共通信网络(例如,互联网、蜂窝式数据网络、电话网络上的拨号调制解调器)或专用通信网络(例如,专用LAN、租用线路)。在一些实施方式中,计算设备102、104、 106和108可使用一个或多个高速有线和/或无线通信协议(例如,802.11 变体、WiFi、蓝牙、传输控制协议/互联网协议(TCP/IP)、以太网、 IEEE 802.3等)来与网络101进行通信。
在一些实施方式中,搜索***108可表示一起工作以执行服务器侧操作的多于一个的计算设备。例如,尽管图1中未示出,搜索*** 108可包括计算机***,其包括一起工作以执行服务器侧操作的多个服务器(计算设备)。在此示例中,单个所有者可提供多个服务器。在一些情况下,多个服务器中的一个或多个可提供用于所有者的其他功能性。在一个非限制性示例中,计算机***还可包括搜索服务器和网络爬取器服务器。
图2A和图2B描述生成查询模式的示例图200A。如图2A中所示,可通过分析文档202来生成查询模式。例如,模式生成器116可开始分析文档202的集合。文档202对应于以色列的图片和搜索结果。所述分析可包括从索引储存库110或其他储存库访问经索引信息。模式生成器116可确定特定文档202接收来自其的流量的热门查询(例如,通过用户点击文档202的链接确定,其中响应于查询来提供链接)是“things to do in Israel在(以色列要做的事)”、“what to do in Israel (在以色列做什么)”、“Israel attractions(以色列景点)”、“attractions in israel(以色列的景点)”等等,如框204所示。接着,模式生成器116可确定热门查询204中是否存在任何重复的n-gram(例如,子短语),如框206示出为“以色列”、“在以色列”和“要做”。在确定重复的n-gram后,模式生成器116可生成和与文档有关的可能的查询模式相对应的邻域208、210和212。具体的,邻域208包括[things to do inX]、 [what to do in X]和[X attractions]。在操作中,模式生成器116使用查询 204所共同的重复的n-gram,并基于查询模式208-212间的相似性来生成可在模式图中连接的查询模式208、210、212。
图2B描绘用于计算两个搜索查询(a)糖尿病症状和(b)糖尿病疗法的共同邻居比率的示例图200B。当将搜索查询表示为搜索结果集合导致过宽的搜索结果集合——诸如与两个搜索查询(a)糖尿病症状和(b) 糖尿病疗法匹配的文档的合并时,***100可确保可能如下来避免这样的过宽的搜索结果集合:在此示例中,模式生成器116可采用与查询模式[Xsymptoms]220匹配的文档214、216和218,并尝试将查询模式220连接到另一类似查询模式,诸如[X treatment]222。文档218、224 和226对应于查询模式222。在此示例中,模式生成器116可确定文档 218存在于查询模式220和222两者中。因此,与查询模式匹配并连接到类似的查询模式具有以下效果:避免了过宽的搜索结果集合,例如与两个搜索查询(a)糖尿病症状和(b)糖尿病疗法匹配的文档的合并。因此,两个查询模式可为公共邻居,并具有可在模式图中表示的某一共性比率。此外,查询模式220和222两者可至少部分基于重叠文档218而指向糖尿病文档228。
图3描绘用于生成语法的示例过程300。此处,模式生成器116 可生成语法。例如,模式生成器116可通过如框304所示选择种子模式而从来自一个或多个语言专家302的信息开始。在框306,模式生成器116可使用本文描述的算法中的一个或多个来生成许多类似的候选模式。在框308,模式生成器116可选择很可能触发搜索一体框(onebox) 的模式(来自web应用310)。搜索一体框可包括具有或不具有与结果相关联的图像内容的特定形状的单元(例如,框、正方形、矩形等) 中示出的一个或多个搜索结果。搜索一体框可包括突出显示新闻、购物、图像、和/或可混合成几个结果的其他结果。例如,框308可通过一个或多个语言专家手动地执行。
在框312,模式生成器116可将手动选定模式自动地转换为语法规则。一旦生成语法规则,在框314,模式生成器116可自动地生成模式图(例如,S×S)。模式图可以由N×N矩阵表示,诸如基于不同相似性水平来连接的模式的PatternGen矩阵316。在图2A中208、210和212处示出示例矩阵。
***100可例如利用来自模式生成器116的信息来得以能够确定与用户相关联的搜索意图。即,***100可使用预定义的查询模式来确定用户的搜索意图。例如,表达“Weather”意图的查询模式集合可能包括[weather X]和[what is the weather in X]。***100可将这些模式与查询匹配以生成查询模式。
根据上述示例,给定英语的“Weather”意图模式集合,***100 可另外识别其他语言的“Weather”意图查询,且因此决定何时触发天气一体框。此外,可执行查询模式的这样的转译而无需使用任何现有的转译引擎作为输入。在一些实施方式中,***100可用于基于实体注释来经转译查询模式。例如,***100可通过使用具有唯一ID(例如,“/m/05qtj”)的经注释字符串“paris”来经转译查询“weather in Paris”以及与所述查询相关的查询模式,该唯一ID是法国首都“paris”的规范表示。
一般而言,自动转译引擎可能并不总是可靠地/正确地经转译查询模式。对于诸如[where is X playing(X在哪里进行)]的模糊模式尤其如此,其中“playing”可被解释为演奏音乐器材或进行运动。本文描述的***和方法可经转译查询模式,同时避免使用转译引擎。转译可包括收集处于源语言和目标语言的大查询集合,并用其包括的实体对每个查询进行注释。例如,查询[weather in Paris]将包括将子字符串“paris”映射到巴黎市的实体的标识符(/m/05qtj)的注释。通过将子字符串“paris”交换为“X”,查询注释器118可生成查询模式[weather in X]。因此,每个查询可被转换为对:模式+实体。
在一些实施方式中,转译生成器120可通过将其与不同实体共现的频率匹配来匹配两种语言之间的查询模式。用相同实体注释的查询集合很可能表达独立于语言的常见意图。例如,对于实体“barack obama”,人们可能对巴拉克·奥巴马的重量或高度感兴趣,而与搜索查询中使用的语言无关。另一方面,对于实体“everest(珠穆朗玛)”,人们会询问珠穆朗玛峰的高度,而不是关于山的重量,而与在搜索查询中使用的语言无关。因此,即使“Xheight”和“X weight”可能由于像“barack obama”的实体而混合,但同一模式对将由于像“everest”的实体而被分离(因为人们不会询问它的重量)。换言之,“X weight”与“everest”的共现很低,且因此不太可能与“X height”混淆。
在一个示例实施方式中,转译生成器120可(1)限定实体[S]的集合。例如,转译生成器120可限定地理位置、人、电影等。接着,转译生成器120可收集大查询集合,根据查询中的[S]注释实体,并将每个查询转换成对(例如,模式、实体ID)。例如,转译生成器120可以从可被转换成对(例如,weather in X、/m/05qtj)的搜索日志(例如,weather in Paris)收集查询。在此示例中,将实体ID“/m/05qtj”所表示的意图指派给查询模式“weather in X”。词项/m/05qtj可表示巴黎的ID。接着,转译生成器120可将CL(P,E)表示为模式的频率、以语言(L)的查询的实体对(P,E)。类似地,转译生成器120可通过将CL(P,E)标准化为NL(P,E)=[CL(P,E)/∑CL(P,E)]来表示NL(P,E)。接着,转译生成器120 可计算分值以将第一语言L1的模式P1匹配到第二语言L2的模式P2。所述分值可能是NL1(P1,E)和NL2(P2,E)之间的E的相关性。对于L1中的每个模式,转译生成器120可将其匹配到使分值最大化的模式L2。
上述示例可提供使用可与已经存在的信号组合的用于转译的正交信号的优点。另外,转译可包括从英语触发的到其他语言的搜索特征的自动迁移,其可用于改进转译引擎。一旦***100发现特定特征(例如,天气一体框)的触发模式,***100即可使用所述模式来找出其他语言的其他类似模式。例如,诸如[weather in X]的英语模式可被转译为西班牙语的[el tiempo en X]。以此方式,可自动地学习西班牙语的一些触发模式。
在一些实施方式中,转译生成器120可将查询模式从源语言转译为目标语言,使得期望的转译也是查询模式(以目标语言)。尽管以下示例将查询模式从第一选定语言转译为另一选定语言,但选择任一目标语言或源语言是不必要的,因为***100可以确定两者。
在一些实施方式中,转译生成器120可实现以下步骤以生成从查询模式到期望的经转译查询模式的映射。在此示例中,转译生成器120 可将英语模式转译为西班牙语模式。
图4是图解将查询模式映射到转译的查询模式的过程400的一个实施例的流程图。如步骤402处示出,转译生成器120可获得多个搜索查询。在步骤404,转译生成器120可基于多个搜索查询来访问和/ 或准备大的经转译查询集合(例如,英语到西班牙语和西班牙语到英语)。
在一些实施方式中,本文描述的***可被配置成将意图指派给查询模式。所述意图例如可指示用户期望访问存储在语料库中的web文档中的信息。转译生成器120然后可使意图与转译对相关联。该关联可包括将至少一个查询模式映射到一个或多个转译的搜索查询模式,并使用分类符来标示两个查询模式实质上是类似的。
在步骤406,转译生成器120可生成每个搜索查询和转译的搜索查询的转译对。在步骤408,对于每个生成的转译对,转译生成器120 可应用查询注释器以确定每个转译对中的短语之间的匹配标识符。例如,对于每个转译,转译生成器120可在原始查询和经转译查询两者上应用查询注释器。在一些实施方式中,如果相同的唯一标识符出现在转译的任一侧,则相应的子字符串可以用两侧的变量“X”替换,从而贡献在模式层级中的关系。例如,“weather in Paris”和“el tiempo en paris”将被转换为“weather in X”和“el tiempoen X”,因为“paris”在两侧都用相同的唯一标识符注释。
在一个示例中,匹配的标识符可用不同的语言不同地表示。例如,“ciudad de México”可表示“Mexico City(墨西哥市)”,或者作为另一示例,“Germany(德国)”可表示“Deutschland”。在此情况下,***100可依赖于语言注释器来评定特定查询的场境。在注释器提供不准确的场境的事件中,***100可提供信息以校正和更新该场境。
在步骤410响应于确定至少一个匹配标识符,所述至少一个匹配标识符可用占位符替换。占位符可指示搜索查询和与转译对相对应的经转译搜索查询之间的模式关系,如本公开所描述。
在步骤412,转译生成器120可生成至少一个查询模式以表示转译对。查询模式可至少部分基于匹配的标识符。一般而言,转译对可包括查询模式和经转译查询模式。
在步骤414,转译生成器120可通过用围绕匹配标识符的经转译搜索查询中的子短语交换围绕匹配标识符的搜索查询中的子短语来扩充转译对的至少一个查询模式。例如,转译生成器120可使用索引引擎或储存库(例如,引擎114或储存库110)来扩充经转译模式的对。例如,如果我们有[weather in X]--->[el tiempo en X]的转译,且引擎114 引擎还确定(a)[weather in X]类似于[X weather],且(b)[el tiempo en X] 类似于[X eltiempo],则模式生成器116可在两侧之间创建所有其他可能的匹配,例如[weather in X]<-->[X el tiempo]、[X weather]<-->[el tiempo en X]、和[X weather]<-->[X eltiempo]。
在步骤416,对于每个转译对,转译生成器120可将至少一个查询模式聚合到查询模式的直方图中。直方图可包括示出每个模式的频率的彼此相关的模式。查询模式的直方图可用来滤出由于许多查询的聚合而导致的不恰当的转译。
为了将模式[weather in X]转译为西班牙语,可以使用转译器。然而,因为典型的转译器对查询进行处理而不是查询模式,所以***100 可以用一些有形的字符串(例如“Madrid(马德里)”)来替换查询模式中的“X”。接着,“weather in madrid(马德里的天气)”的转译是“el tiempo en madrid”。***100可以得出结论[weather in X]被转译为[weather in madrid]。为了扩宽查询模式并检查模式转译的准确性,***100可用许多其他城市和/或国家等来重复相同的练习,从而获得***100可从中选择的许多候选转译模式。例如,***100可选择最常重复的特定模式。因此,查询模式的所生成直方图可以指代与其重复数目相关联的所收集的经转译模式集合。
在一些实施方式中,这样的直方图可以与大的候选查询模式集合组合使用,所述候选查询模式集合中的每一个都与以下标记中的一个完全相关联:(1)MARKED_GOOD-意味着模式已被语言专家验证为应触发搜索特征,诸如一体框搜索框,(2)MARKED_BAD-意味着所述模式已被语言专家验证为不应触发所述特征的模式,或者(3)NO_TAG- 意味着此模式尚未被语言专家遇到。触发搜索特征可包括:提供基于标记和/或查询模式来示出特定文档和内容的一体框显示以供向用户显示。在实践中,绝大多数的候选模式可能是未标记的。***100提供了可以基于已经标记的模式来自动地标记许多未标记模式(无论是好还是坏)的功能性。
准备经标记的查询模式的列表并不非不重要的步骤。常见的现有技术是通过生成大的候选模式集合开始的,其然后由语言专家验证。然而,通过使用本文所述的技术,获得高准确度而无需咨询语言专家来验证自动预测的模式。因此,即使对于不常见的外语——其查询解释的可用统计信息可能远小于可用于英语搜索查询的统计信息,仍然可如上所述获得查询模式,使得可得到使用查询模式确定搜索结果并触发给定的搜索特征——诸如一体框——的相同优点。
一般而言,转译生成器120可基于已经标记的模式来执行应触发给定搜索特征的查询模式的自动预测。例如,生成器120可以生成可被用作特定搜索特征是否应触发(例如,天气一体框)的指示符的多种语法(以约40种语言)。是否触发特定搜索特征的决策(例如,“天气一体框”)常常通过检查用户查询是否匹配来自预定义列表的查询模式来进行。这样的查询模式可为“weather in X”、“X weather”、“how is the weather in X”等。例如,查询“weather in Paris”与“weather in X”匹配
Figure BDA0001449900210000201
应触发天气一体框。
实施方式可包括从已经标记的查询模式提取触发短语集合。触发短语可以从MARKED_GOOD模式的子类推导出来。例如,模式“X weather forecast(X天气预报)”贡献触发短语“weather forecast(天气预报)”。重写规则集合也可以从两个MARKED_GOOD模式的对中推导出来。例如,对“what is the weather in X”和“what is the temperature in X(X的温度是多少)”贡献重写规则“Weather”←→“temperature”。坏短语集合也可以从MARKED_GOOD模式和 MARKED_BAD模式的对中推导出来。例如,对“X weather”和“X weatherunderground(X地下天气)”会贡献坏短语“weather underground (地下天气)”和“underground(地下)”。
一般而言,对于每个未标记的模式,转译生成器120可以使用以上三条信息来预测模式应被标记为好还是坏,或者替选地预测模式是否应保持未标记。
如果模式包含坏短语,则模式可被标记为坏。如果模式包含触发短语/子短语或者并不包含任何坏短语,则模式可被标记为好。如果通过应用收集的重写规则中的一个来将模式变换为已知的好模式,则模式也可被标记为好。
在一个非限制性示例中,如果以下模式被标记为好:[X weather]、 [Xtemperature]、[X weather this weekend(本周末的X天气)],则候选模式[X temperaturethis weekend(本周末的X温度)]也将被预测为好。这是因为转译生成器120可得出结论[Xtemperature]与作为触发短语的“Weather”相关联。因此,[X temperature this weekend]包含[X weather]的触发短语,且[X temperature]可用于创建重写规则“Weather”←→“temperature”。类似地,[X temperature this weekend]可以使用所述重写规则而变换为[X weather this weekend],且后者被认为是好的模式。
图5是图解生成模式图的过程500的一个实施例的流程图。在步骤502,模式生成器116例如可以访问与web文档的语料库相关的数据。所述数据可包括多个查询文档对。
在步骤504,模式生成器116可识别多个查询文档对中的至少一个查询模式。查询模式可以例如与语料库中的一部分web文档相关联。
在步骤506,模式生成器116可识别至少一个查询模式中的短语和多个子短语。在一些实施方式中,模式生成器116可仅仅识别子短语。在识别短语和多个子短语(或仅子短语)时,模式生成器116可以确定web文档的语料库中的包括多个子短语中的至少一个的多个其他查询模式。
在步骤508,模式生成器116可指派意图(例如,分类符)到至少一个查询模式和包括子短语中的至少一个的多个其他查询模式中的每一个。分类符可以指示用户访问特定存储在语料库中的web文档的部分中的信息的期望。访问特定存储的信息可指示,用户希望访问web 文档的部分中的信息且可能并不希望访问其他web文档中的不在所述部分中的信息。
在步骤510,模式生成器116可使分类符与语料库中的web文档的所述部分相关联。在步骤512,模式生成器116可将web文档的所述部分聚合到被配置成表示web文档的至少两个部分之间的相似性的模式图中。所述模式图可为直方图、矩阵、曲线图、或散点图矩阵、或其任何组合。
方法500还可包括识别多个查询文档对中的多个额外查询模式,并且对于额外查询模式中的每一个,方法500可进一步包括:识别额外查询模式中的多个子短语并且确定在web文档的语料库中的包括额外查询模式中的多个子短语中的至少一个的多个其他查询模式,将分类符指派给额外查询模式和其他查询模式中的每一个,使分类符与语料库中的一部分web文档相关联,并根据分类符将查询模式和其他查询模式聚合到模式图中。
将web文档的部分聚合到模式图中可包括:组装包括多个节点和边的图,每个节点表示查询模式,且每个边表示两个查询模式之间的相似性分值。方法500可包括:使用邻居节点来滤出对应于与所关联的分类符不同的分类符的一个或多个查询模式。在一些实施方式中,模式图被配置成表示查询模式中的至少两个之间的相似性。
在一些实施方式中,***100可被配置成识别回答模式并使其与查询模式相关联。例如,***100可以识别回答模式,使回答模式与查询模式相关联,识别模糊的回答模式,且计算回答模式与查询模式之间的关系分值。
可将查询模式应用于查询(例如,寻求事实的查询)。例如,“How long does theflu last(流感持续多久)”是一个查询。查询模式识别搜索相同事实的常见方式。例如,“X持续多久(How long does X last)”具有与“X持续时间(X duration)”、“X的长度(Lengthof X)”和“X花多长时间(How long does X take)”相同的意图。实施方式提供用以确定这样的查询的常见回答模式的方式。回答模式可以用作响应于类似查询对文档评分中的信号,或者通过以高置信度水平识别事实来进行知识库扩展中的信号。
在上述示例中,***100可使用(或建立)将问题映射到回答的表格。这样的表格可以通过解析web上针对其后紧接有回答的问题(或标题)的文档来生成。***100可识别出现在查询中和回答中的子短语,且用变量或占位符来替换所述子短语。因此,“how long doesstomach flu last(肠胃炎持续多久)”可能与数据库中的回答“stomach flue rarelylasts longer than 1to 3days,but it may be weeks before full recovery(胃肠炎很少持续超过1至3天,但可能在完全恢复前需要几周)”相关联。***可识别查询和回答两者中的子短语“stomach flu (肠胃炎)”,且用X来替换它。然后,***可以将答案解析成潜在的回答前缀,例如具有不超过15个词项。例如,以上回答可能导致潜在的回答前缀“Xrarely lasts”“X rarely”“X rarely lasts longer”“X rarely lasts longer than”等。每个潜在的回答是与问题模式相关联,在此示例中是“how long does X last(X持续多久)”。
一旦此过程在数十万(或数百万)个查询/回答对上重复,***100 可以聚合答案,使得存在特定查询模式与特定回答模式匹配的次数的计数。该计数可以被称为查询/回答模式对的实例计数。查询模式可以通过该实例计数来对回答模式进行排名,因此对于潜在回答最常出现的查询模式被排名在热门(被称作热门查询)。因此,聚合导致与每个潜在的回答模式相关联的多个查询模式。
***100可为每个回答模式与其相关联的查询(或潜在回答模式的最热门的10或20个查询模式)之间的关系打分。该分值可以基于实例计数(例如,查询模式和回答模式一起出现的次数)和潜在回答模式的集群分值。集群分值可以表示潜在回答模式的模糊度。模糊的潜在回答模式对应于许多不同类型的查询模式,且因此不应与特定类型的查询模式有很强的关系。例如,“X is played…”是一种潜在的回答模式,其可以应用于许多不相似的查询,诸如“how is a violin played (如何演奏小提琴)”或“where is baseball played(在哪里打棒球)”或甚至“how to meditate(如何冥想)”。这样的潜在的回答模式可能会被丢弃或给出较低的集群分值,使得降低回答模式与查询模式之间的关系。
为了确定集群分值,对于一个回答模式,***可以确定有多少热门查询模式(例如,最热门的10个查询模式)是相关的或类似的。查询相似性信号通常使用在大多数搜索引擎中常见的“类似查询”生成器来确定。这样的信号通常基于返回的搜索结果的相似性,但也可以基于其他因素。如果回答模式的最热门的10个查询模式中的大多数查询模式类似,则集群分值将高。在一些实施方式中,它是类似查询模式的数目与考虑的总数(例如,10)的比率。***100可以将回答的集群分值乘以特定查询模式的实例计数,以确定查询模式-回答模式对的关系分值。如果乘积高于阈值,则***可将查询模式映射到回答模式并使其与关系分值相关联。
映射可以用作对搜索结果进行排名中的一个信号。例如,当查询与查询模式中的一个匹配时,搜索***可以考察返回的搜索结果以确定哪个(哪些)匹配与所述查询模式相关联的回答模式。关系分值可用以提升或促进与回答模式匹配的搜索结果,因为它更有可能成为查询的好的回答。
所述映射还可用以自动从互联网挖掘事实,以扩充知识库。例如,当文档被解析时,知识库扩充***可能会注意到正在解析的文本与查询模式匹配,并且紧跟其后的文本与回答模式匹配。与模式的可变部分(例如,X)匹配的文本可以是实体,且回答模式可以具有表示事实回答的第二变量(例如,Y)。例如,当“Abraham Lincoln was 6 feet tall (亚伯拉罕·林肯高6英尺)”的文本与“X is Y tall(X高Y)”的回答模式匹配时,***可以自动地提取“6feet”作为亚伯拉罕·林肯高度的事实,并将其添加到知识库中。
一般而言,***100可使回答模式与查询模式匹配,将查询模式的匹配的回答模式进行排名,聚合回答模式以确定哪些查询模式与回答模式相关联,哪些回答模式是模糊的,并且对每个查询模式与回答模式之间的关系打分。***100可以使用查询模式/回答模式来对搜索结果打分。
在一些实施方式中,本公开中的***和方法可以提供诸如改进搜索功能性——特别是外语——的优点。这是因为使用类似的模式将用户查询重写为更常见的查询(在不失去意图的情况下),可以提供更精确的搜索结果。另外,本公开中的***和方法可以提供能够生成应触发特定搜索特征(例如,天气、本地时间、运动、单位转换等)的查询模式的优点。
***100可被配置成执行许多算法和这样的算法的实施方式。下文列出若干这样的实施方式。实施方式包括使用重复的子短语来将类似的搜索查询集合转换为查询模式集合的***。实施方式包括生成聚合的“模式图”或“矩阵”的***,所述“模式图”或“矩阵”可以保持许多很可能彼此类似的查询模式对(即,表示类似的用户意图)。所述对被从数十亿的web文档中拉出。模式图包括节点和边/邻居节点,其中每个查询模式是一个节点,且每两个类似的节点连接在表示某个相似性分值的边上。实施方式包括使用“类似的邻居”以便过滤任何离题候选模式的***。本发明可以解决许多不良情况,其中两种模式 (例如,[Xtreatment]和[X symptoms])被认为是类似的,因为许多文档从两者获得流量。通过使用类似的邻居准则,该算法理解它们并不是类似的。
在一些实施方式中,所生成的查询模式可用以自动地和手动地生成语法。在一些实施方式中,所生成的查询模式可用以扩充搜索范围 (例如,一体框触发)以及结构化的回答触发。
另外,本文描述的***和方法可用以生成同义词,通过基于许多实例来学习查询模式的转译而改进查询的转译,并且学习令人反感的查询模式,并将它们放在黑名单中。
图6示出可与本文描述的技术一起使用的通用计算机设备600的示例。计算设备600旨在表示各种示例形式的计算设备,例如膝上型计算机、台式计算机、工作站、个人数字助理、蜂窝式电话、智能电话、平板型计算机、服务器和包括可穿戴设备的其他计算设备。本文所示出的组件、其连接和关系以及其功能意图仅作为示例,且并不意图限制本文档中描述和/或要求保护的本发明的实施方式。
计算设备600包括经由接口608连接的处理器602、存储器604、存储设备606和扩展端口610。在一些实施方式中,计算设备600可包括经由接口608连接的收发器646、通信接口644和GPS(全球定位***)接收器模块648以及其他组件。设备600可通过通信接口644以无线方式进行通信,所述通信接口在必要时可包括数字信号处理电路。组件602、604、606、608、610、640、644、646和648中的每一个可安装在公共主板上或视情况以其他方式安装。
处理器602可处理用于在计算设备600内执行的指令,包括存储在存储器604中或存储设备606上的指令,以在例如显示器616的外部输入/输出设备上显示GUI的图形信息。显示器616可为监视器或平面触摸屏显示器。在一些实施方式中,可视情况连同多个存储器和多个类型的存储器一起来使用多个处理器和/或多个总线。而且,可连接多个计算设备600,其中每个设备提供必要的运算的部分(例如,作为服务器阵列、一组刀片服务器、或多处理器***)。
存储器604将信息存储在计算设备600内。在一个实施方式中,存储器604是一个或多个易失性存储器单元。在另一实施方式中,存储器604是一个或多个非易失性存储器单元。存储器604还可为另一形式的计算机可读介质,例如磁盘或光盘。在一些实施方式中,存储器604可包括通过扩展接口来提供的扩展存储器。
存储设备606能够提供用于计算设备600的大容量存储。在一个实施方式中,存储设备606可为或包括计算机可读介质,例如软盘设备、硬盘设备、光盘设备、或磁带设备、快闪存储器或其他类似的固态存储器设备、或设备阵列,包括存储区域网络中的设备或其他配置。计算机程序产品可有形地体现在这样的计算机可读介质中。计算机程序产品还可包括在被执行时执行诸如上文所描述的方法的一个或多个方法的指令。计算机可读介质或机器可读介质是存储设备,例如存储器604、存储设备606或处理器602上的存储器。
接口608可为管理计算设备600的带宽密集操作的高速控制器、或管理较低带宽密集操作的低速控制器、或这样的控制器的组合。可提供外部接口640以便实现设备600与其他设备的近区域通信。在一些实施方式中,控制器608可耦合到存储设备606和扩展端口614。可包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的扩展端口可耦合到一个或多个输入/输出设备,诸如键盘、指示设备、扫描仪,或例如通过网络适配器而耦合到网络连接设备,诸如交换机或路由器。
计算设备600可以许多不同形式来实现,如图中示出。例如,其可经实现为标准服务器630,或在这样的服务器群组中被实现多次。计算设备600还可被实现为机架服务器***的部分。另外,其可被实现在计算设备中,诸如膝上型计算机632、个人计算机634或平板型计算机/智能电话636。整体***可由彼此通信的多个计算设备600构成。其他配置是可能的。
图7示出可供本文描述的技术使用的通用计算机设备700的示例,其可为图1的服务器108。计算设备700旨在表示各种示例形式的大规模数据处理设备,例如服务器、刀片服务器、数据中心、大型主机、和其他大规模计算设备。计算设备700可为具有通过一个或多个通信网络互连的多个处理器(可能包括网络附接的存储节点)的分布式***。本文所示出的组件、其连接和关系、以及其功能意图仅作为示例,且并不意图限制本文档中描述和/或要求保护的本发明的实施方式。
分布式计算***700可包括任何数目的计算设备780。计算设备 780可包括:通过局域网或广域网、专用光学链路、调制解调器、桥接器、路由器、交换机、有线或无线网络等进行通信的服务器或机架服务器,大型主机等。
在一些实施方式中,每个计算设备可包括多个机架。例如,计算设备780a包括多个机架758a至758n。每个机架可包括一个或多个处理器,例如处理器752a至952n和762a至962n。处理器可包括数据处理器、网络附接的存储设备、和其他计算机控制设备。在一些实施方式中,一个处理器可作为主处理器操作,且控制调度和数据分发任务。处理器可通过一个或多个机架交换机758互连,且一个或多个机架可通过交换机778连接。交换机778可处置多个连接的计算设备700之间的通信。
每个机架可包括存储器——诸如存储器754和存储器764,以及存储设备——诸如756和766。存储设备756和766可提供大容量存储,且可包括易失性或非易失性存储,诸如网络附接的盘、软盘、硬盘、光盘、磁带、快闪存储器或其他类似的固态存储器设备、或设备阵列,包括存储区域网络中的设备或其他配置。存储设备756或766可在多个处理器、多个机架、或多个计算设备之间共享,且可包括存储可由处理器中的一个或多个执行的指令的计算机可读介质。存储器754和 764可包括例如一个或多个易失性存储器单元、一个或多个非易失性存储器单元、和/或其他形式的计算机可读介质,例如磁盘或光盘、快闪存储器、高速缓冲存储器、随机存取存储器(RAM)、只读存储器(ROM) 及其组合。例如存储器754的存储器还可以在处理器752a至952n之间共享。例如索引的数据结构可以例如跨存储器756和存储器754存储。计算设备700可包括未示出的其他组件,诸如控制器、总线、输入/输出设备、通信模块等。
例如***100的整体***可由彼此通信的多个计算设备700构成。例如,设备780a可与设备780b、780c和780d通信,且这些设备可以统称为***100。作为另一示例,图1的***100可包括一个或多个计算设备700。计算设备中的一些可以在地理位置上彼此靠近定位,且另一些可以在地理位置上彼此远离来定位。***700的布局仅为示例的,且所述***可采用其他布局或配置。
各种实施方式可包括在可编程***上可执行和/或可解释的一个或多个计算机程序中的实施方式,所述可编程***包括可以是专用或通用的至少一个可编程处理器,其被耦合以从存储***、至少一个输入设备、和至少一个输出设备接收数据和指令,以及传送数据和指令到存储***、至少一个输入设备、和至少一个输出设备。
这些计算机程序(还被称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,且可被实现在高级过程和/或面向对象的编程语言中、和/或汇编/机器语言中。如本文所使用,术语“机器可读介质”“计算机可读介质”指代用以提供机器指令和/或数据到可编程处理器的任何非暂时性计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器(包括读访问存储器)、可编程逻辑器件(PLD))。
本文描述的***和技术可被实现在包括后端组件的计算***中 (例如,作为数据服务器)或包括中间件组件的计算***中(例如,应用服务器),或者包括前端组件的计算***中(例如,具有图形用户界面或Web浏览器的客户端计算机,用户可通过其来与本文描述的***和技术的实施方式进行交互),或者这样的后端组件、中间件组件或前端组件的任何组合。所述***的组件可通过任何形式或介质的数字数据通信(例如,通信网络)来互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。
计算***可包括客户端和服务器。客户端和服务器通常彼此远离,且通常通过通信网络进行交互。客户端与服务器之间的关系是依靠在相应计算机上运行且具有彼此的客户端服务器关系的计算机程序而产生的。
已描述许多实施方式。然而,可在不偏离本发明的精神和范围的情况下进行各种修改。另外,图中所描绘的逻辑流不需要所示出的特定次序或顺序次序来实现期望的结果。另外,可根据所描述的流程来提供其他步骤,或者可从所描述的流程中消除步骤,且可将其他组件添加到所描述的***中或从所描述的***中移除。因此,其他实施方式是在随附权利要求书的范围之内。
在以下描述中,描述根据本发明的***和方法的其他示例。
第一示例涉及一种用于生成模式图的计算机实现的方法,所述方法包括:访问与web文档的语料库相关的数据,所述数据包括多个查询文档对;识别多个查询文档对中的至少一个查询模式,所述查询模式与语料库中的一部分web文档相关联;识别所述至少一个查询模式中的多个子短语;在所述web文档的语料库中确定包括所述多个子短语中的至少一个的多个其他查询模式;将分类符指派给至少一个查询模式和包括子短语中的至少一个的多个其他查询模式中的每一个;使所述分类符与语料库中的所述一部分web文档相关联;并将查询模式和其他查询模式聚合到模式图中。
在基于第一示例的第二示例中,所述模式图被配置成表示所述一部分web文档中的至少两个之间的相似性。
在基于第一或第二示例的第三示例中,意图/分类符与用户输入相关联且包括确定的一个或多个主题类别以及一个或多个主题类别内的特异度水平。
在基于第一到第三示例中的一个的第四示例中,所述方法进一步包括:基于使子短语中的至少一个与语料库中的至少一个web文档匹配来将意图/分类符指派给至少一个查询模式。
在基于第一到第四示例中的一个的第五示例中,所述方法进一步包括:识别多个查询文档对中的多个额外查询模式,以及对于额外查询模式中的每一个:识别额外查询模式中的多个子短语以及在所述web 文档的语料库中确定包括额外查询模式中的多个子短语中的至少一个的多个其他查询模式;将所述意图/分类符指派给额外查询模式和其他查询模式中的每一个;使所述意图/分类符与语料库中的一部分web文档相关联;以及根据所述意图/分类符将额外的查询模式聚合到模式图中。
在基于第一到第五示例中的一个的第六示例中,将所述查询模式和所述其他查询模式聚合到模式图中包括:组装包括多个节点和边的图,每个节点表示查询模式且每个边表示图中两个或多于两个查询模式之间的相似性的分值。
在基于第六示例的第七示例中,所述方法进一步包括:使用邻居节点来滤出与所关联的意图/分类符不同的意图/分类符相对应的一个或多个查询模式。
在基于第一到第七示例中的一个的第八示例中,模式图包括直方图、矩阵、曲线图、和散点图矩阵中的至少一个。
第九示例涉及一种计算机实现的方法,所述方法包括:获得多个搜索查询;基于多个搜索查询生成多个经转译搜索查询;生成每个搜索查询和经转译搜索查询的转译对;对于每个所生成的转译对:应用查询注释器来确定转译对中的短语之间的匹配标识符;响应于确定至少一个匹配标识符,用占位符替换至少一个匹配标识符,所述占位符指示搜索查询和与所述转译对相对应的经转译搜索查询之间的模式关系;生成至少一个查询模式以表示所述转译对,所述查询模式至少部分地基于所述匹配标识符;以及通过用围绕匹配标识符的经转译搜索查询中的子短语来交换围绕匹配标识符的搜索查询中的子短语来扩充所述转译对的至少一个查询模式。
在基于第九示例的第十示例中,所述方法进一步包括:对于每个转译对,将至少一个查询模式聚合到查询模式的直方图中。
在基于第九或第十示例的第十一示例中,所述方法进一步包括:将意图/分类符指派给至少一个查询模式,所述意图/分类符指示用户访问存储在语料库中的web文档中的信息的期望;以及使所述意图/分类符与所述转译对相关联,所述关联包括将至少一个查询模式映射到一个或多个转译的搜索查询模式。
在基于第九到第十一示例的第十二示例中,每个转译对包括查询模式和经转译查询模式。
第十三示例涉及一种***,所述***包括:至少一个处理器;存储指令的存储器,所述指令在由至少一个处理器执行时致使所述***执行操作,所述操作包括:访问与web文档的语料库相关的数据,所述数据包括多个查询文档对;识别多个查询文档对中的至少一个查询模式,所述查询模式与语料库中的一部分web文档相关联;识别所述至少一个查询模式中的短语和多个子短语;在所述web文档的语料库中确定包括所述多个子短语中的至少一个的多个其他查询模式;将意图/分类符指派给至少一个查询模式和包括所述子短语中的至少一个的多个其他查询模式中的每一个,所述意图/分类符指示用户访问存储在语料库中的所述一部分web文档中的信息的期望;使意图/分类符与语料库中的所述一部分web文档相关联;以及将查询模式和其他查询模式聚合到模式图中。
在基于第十三示例的第十四示例中,模式图被配置成表示所述一部分web文档中的至少两个之间的相似性。
在基于第十三或第十四示例的第十五示例中,所述意图/分类符与用户输入相关联且包括确定的一个或多个主题类别以及一个或多个主题类别内的特异度水平。
在基于第十三到第十五示例中的一个的第十六示例中,所述操作进一步包括:基于使子短语中的至少一个与语料库中的至少一个web 文档匹配来将所述意图/分类符指派给至少一个查询模式。
在基于第十三到第十六示例中的一个的第十七示例中,所述操作进一步包括:识别多个查询文档对中的多个额外查询模式,以及对于额外查询模式中的每一个:识别额外查询模式中的短语和多个子短语以及在所述web文档的语料库中确定包括所述额外查询模式中的多个子短语中的至少一个的多个其他查询模式;将所述意图/分类符指派给额外查询模式和其他查询模式中的每一个;使意图/分类符与所述语料库中的一部分web文档相关联;以及根据所述意图/分类符将所述额外查询模式聚合到所述模式图中。
在基于第十三到第十七示例中的一个的第十八示例中,将所述查询模式和所述其他查询模式聚合到模式图中包括:组装包括多个节点和边的图,每个节点表示查询模式且每个边表示图中两个或多于两个的查询模式之间的相似性的分值。
在基于第十八示例的第十九示例中,所述操作进一步包括:使用邻居节点来滤出与所关联的意图/分类符不同的意图/分类符相对应的一个或多个查询模式。
在基于第十三到第十九示例中的一个的第二十示例中,模式图包括直方图、矩阵、曲线图和散点图矩阵中的至少一个。

Claims (20)

1.一种用于生成模式图的计算机实现的方法,所述方法包括:
访问与web文档的语料库相关的数据,所述数据包括多个查询文档对;
识别所述多个查询文档对中的至少一个查询模式,所述查询模式与所述语料库中的所述web文档中的一部分web文档相关联;
识别所述至少一个查询模式中的多个子短语;
在web文档的所述语料库中识别包括所述多个子短语中的至少一个的多个其他查询模式;
针对每一个识别的查询模式和包括所述多个子短语的其他查询模式:将分类符指派给相应的查询模式和相应的其他查询模式;
使所述分类符与所述语料库中的web文档中的所述一部分web文档相关联;以及
至少部分地基于所述分类符来将所述相应的查询模式和所述相应的其他查询模式聚合到模式图中,其中,所述模式图被配置成表示web文档中的所述一部分web文档中的至少两个web文档之间的相似性,并且其中,将所述相应的查询模式和所述相应的其他查询模式聚合到所述模式图中包括:组装包括多个节点和边的图,每个节点表示查询模式且每个边表示所述图中两个或多于两个的查询模式之间的相似性分值。
2.根据权利要求1所述的方法,其中,所述多个查询文档对表示使相应的查询相关联的关系,相应的文档根据所述相应的查询被选择以用于由录入所述相应的查询的用户查看。
3.根据权利要求1所述的方法,其中,所述分类符与用户输入相关联且包括确定的一个或多个主题类别以及所述确定的一个或多个主题类别内的特异度水平。
4.根据权利要求1所述的方法,进一步包括:基于使所述子短语中的至少一个与所述语料库中的至少一个web文档匹配来将所述分类符指派给所述至少一个查询模式。
5.根据权利要求1所述的方法,进一步包括识别所述多个查询文档对中的多个额外查询模式,以及
对于所述额外查询模式中的每一个:
识别所述多个额外查询模式中的短语和所述多个子短语以及在web文档的所述语料库中确定包括所述多个额外查询模式中的所述多个子短语中的至少一个的查询模式;
将所述分类符指派给所述多个额外查询模式和包括所述多个额外查询模式中的所述多个子短语中的至少一个的所述查询模式中的每一个;
使所述分类符与所述语料库中的web文档中的所述一部分web文档相关联;以及
根据所述分类符将所述多个额外查询模式聚合到所述模式图中。
6.根据权利要求5所述的方法,其中,识别所述多个其他查询模式包括:将所述多个子短语与和web文档的所述语料库中的文档相关联的数据进行比较,以确定所述多个子短语中的至少一个与和web文档的所述语料库中的所述文档中的一个或多个相关联的查询模式之间的匹配。
7.根据权利要求6所述的方法,进一步包括:使用邻居节点来滤出对应于与所关联的分类符不同的分类符的一个或多个查询模式。
8.根据权利要求1所述的方法,其中,所述模式图包括直方图、矩阵、曲线图、和散点图矩阵中的至少一个。
9.一种计算机实现的方法,所述方法包括:
获得多个搜索查询;
基于所述多个搜索查询来生成多个经转译搜索查询;
生成每个搜索查询和经转译搜索查询的转译对;
对于每个所生成的转译对:
应用查询注释器以确定所述转译对中的一个或多个子短语之间的匹配标识符;
响应于确定至少一个匹配标识符,用占位符替换所述至少一个匹配标识符,所述占位符指示所述搜索查询和与所述转译对相对应的经转译搜索查询之间的模式关系;
生成至少一个查询模式以表示所述转译对,所述查询模式至少部分地基于所述匹配标识符;以及
通过用围绕所述匹配标识符的所述经转译搜索查询中的至少一个子短语交换围绕所述匹配标识符的所述搜索查询中的至少一个子短语,来扩充用于所述转译对的所述至少一个查询模式。
10.根据权利要求9所述的方法,进一步包括,对于每个转译对,将所述至少一个查询模式聚合到查询模式的直方图中。
11.根据权利要求9所述的方法,进一步包括:将分类符指派给所述至少一个查询模式,所述分类符指示用户访问存储在语料库中的web文档中的信息的期望;以及
使所述分类符与所述转译对相关联,所述关联包括将所述至少一个查询模式映射到一个或多个经转译搜索查询模式。
12.根据权利要求9所述的方法,其中,每个转译对包括查询模式和经转译查询模式。
13.一种***,其包括:
至少一个处理器;
存储指令的存储器,所述指令在由所述至少一个处理器执行时致使所述***执行操作,所述操作包括,
访问与web文档的语料库相关的数据,所述数据包括多个查询文档对;
识别所述多个查询文档对中的至少一个查询模式,所述至少一个查询模式与所述语料库中的所述web文档中的一部分web文档相关联;
识别所述至少一个查询模式中的多个子短语;
在web文档的所述语料库中识别包括所述多个子短语中的至少一个的多个其他查询模式;
针对每一个识别的查询模式和包括所述多个子短语的其他查询模式:将分类符指派给相应的查询模式和相应的其他查询模式;
使所述分类符与所述语料库中的web文档中的所述一部分web文档相关联;以及
至少部分地基于所述分类符来将所述相应的查询模式和所述相应的其他查询模式聚合到模式图中,其中,所述模式图被配置成表示web文档中的所述一部分web文档中的至少两个web文档之间的相似性,并且其中,将所述相应的查询模式和所述相应的其他查询模式聚合到所述模式图中包括:组装包括多个节点和边的图,每个节点表示查询模式且每个边表示所述图中两个或多于两个的查询模式之间的相似性分值。
14.根据权利要求13所述的***,其中,所述多个查询文档对表示使相应的查询相关联的关系,相应的文档根据所述相应的查询被选择以用于由录入所述相应的查询的用户查看。
15.根据权利要求13所述的***,其中,所述分类符与用户输入相关联且包括确定的一个或多个主题类别以及所述确定的一个或多个主题类别内的特异度水平。
16.根据权利要求13所述的***,其中,所述操作进一步包括:基于使所述子短语中的至少一个与所述语料库中的至少一个web文档匹配来将所述分类符指派给所述至少一个查询模式。
17.根据权利要求13所述的***,其中,所述操作进一步包括识别所述多个查询文档对中的多个额外查询模式,以及
对于所述额外查询模式中的每一个:
识别所述多个额外查询模式中的所述多个子短语以及在web文档的所述语料库中确定包括所述多个额外查询模式中的所述多个子短语中的至少一个的查询模式;
将所述分类符指派给所述多个额外查询模式和包括所述多个额外查询模式中的所述多个子短语中的至少一个的所述其他查询模式中的每一个;
使所述分类符与所述语料库中的web文档中的所述一部分web文档相关联;以及
根据所述分类符将所述多个额外查询模式聚合到所述模式图中。
18.根据权利要求17所述的***,其中,识别所述多个其他查询模式包括:将所述多个子短语与和web文档的所述语料库中的文档相关联的数据进行比较,以确定所述多个子短语中的至少一个与和web文档的所述语料库中的所述文档中的一个或多个相关联的查询模式之间的匹配。
19.根据权利要求18所述的***,其中,所述操作进一步包括:使用邻居节点来滤出对应于与所关联的分类符不同的分类符的一个或多个查询模式。
20.根据权利要求13所述的***,其中,所述模式图包括直方图、矩阵、曲线图、和散点图矩阵中的至少一个。
CN201680025854.2A 2015-08-04 2016-08-04 自动查询模式生成方法及*** Active CN107690634B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562200819P 2015-08-04 2015-08-04
US62/200,819 2015-08-04
US15/227,456 2016-08-03
US15/227,456 US10467256B2 (en) 2015-08-04 2016-08-03 Automatic query pattern generation
PCT/US2016/045484 WO2017024108A1 (en) 2015-08-04 2016-08-04 Automatic query pattern generation

Publications (2)

Publication Number Publication Date
CN107690634A CN107690634A (zh) 2018-02-13
CN107690634B true CN107690634B (zh) 2021-03-19

Family

ID=56684289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680025854.2A Active CN107690634B (zh) 2015-08-04 2016-08-04 自动查询模式生成方法及***

Country Status (4)

Country Link
US (1) US10467256B2 (zh)
EP (1) EP3278245A1 (zh)
CN (1) CN107690634B (zh)
WO (1) WO2017024108A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11509501B2 (en) * 2016-07-20 2022-11-22 Cisco Technology, Inc. Automatic port verification and policy application for rogue devices
RU2656469C1 (ru) * 2017-02-20 2018-06-05 Дарья Игоревна Лапшина Способ структурирования результатов поиска по текстам, содержащим информацию о научной и исследовательской деятельности
US20180357278A1 (en) * 2017-06-09 2018-12-13 Linkedin Corporation Processing aggregate queries in a graph database
CN110489635B (zh) * 2018-05-15 2023-05-05 阿里巴巴集团控股有限公司 数据对象搜索控制方法、装置及***
CN110895555B (zh) * 2018-09-13 2022-06-14 北京蓝灯鱼智能科技有限公司 数据检索方法和装置、存储介质及电子装置
US10853559B2 (en) * 2019-03-27 2020-12-01 Charter Communications Operating, Llc Symmetric text replacement
US11263220B2 (en) 2019-09-27 2022-03-01 Amazon Technologies, Inc. On-demand execution of object transformation code in output path of object storage service
US11656892B1 (en) * 2019-09-27 2023-05-23 Amazon Technologies, Inc. Sequential execution of user-submitted code and native functions
US11550944B2 (en) 2019-09-27 2023-01-10 Amazon Technologies, Inc. Code execution environment customization system for object storage service
US11645283B2 (en) 2021-04-26 2023-05-09 International Business Machined Corporation Predictive query processing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462084A (zh) * 2013-09-13 2015-03-25 Sap欧洲公司 基于多个查询提供搜索细化建议

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757675B2 (en) * 2000-07-24 2004-06-29 The Regents Of The University Of California Method and apparatus for indexing document content and content comparison with World Wide Web search service
US8543580B2 (en) 2008-12-23 2013-09-24 Microsoft Corporation Mining translations of web queries from web click-through data
US9836539B2 (en) * 2010-09-30 2017-12-05 Yahoo Holdings, Inc. Content quality filtering without use of content
US8719192B2 (en) 2011-04-06 2014-05-06 Microsoft Corporation Transfer of learning for query classification
US9448992B2 (en) 2013-06-04 2016-09-20 Google Inc. Natural language search results for intent queries
US9824149B2 (en) * 2014-04-23 2017-11-21 Excalibur Ip, Llc Opportunistically solving search use cases

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462084A (zh) * 2013-09-13 2015-03-25 Sap欧洲公司 基于多个查询提供搜索细化建议

Also Published As

Publication number Publication date
CN107690634A (zh) 2018-02-13
US20170039267A1 (en) 2017-02-09
EP3278245A1 (en) 2018-02-07
WO2017024108A1 (en) 2017-02-09
US10467256B2 (en) 2019-11-05

Similar Documents

Publication Publication Date Title
CN107690634B (zh) 自动查询模式生成方法及***
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和***
US9092483B2 (en) User query reformulation using random walks
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
US8463593B2 (en) Natural language hypernym weighting for word sense disambiguation
US10437868B2 (en) Providing images for search queries
US20150178273A1 (en) Unsupervised Relation Detection Model Training
US9507867B2 (en) Discovery engine
Zhang et al. Automatic synonym extraction using Word2Vec and spectral clustering
US8280721B2 (en) Efficiently representing word sense probabilities
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
CN112528001B (zh) 一种信息查询方法、装置及电子设备
WO2020155747A1 (zh) 问题答案推荐方法、装置、存储介质及服务器
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
Dourado et al. Bag of textual graphs (BoTG): A general graph‐based text representation model
CN113254671B (zh) 基于query分析的图谱优化方法、装置、设备及介质
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
RU2726009C1 (ru) Способ и система для исправления неверного набора слова вследствие ошибки ввода с клавиатуры и/или неправильной раскладки клавиатуры
US9256597B2 (en) System, method and computer program for correcting machine translation information
CN114391142A (zh) 使用结构化和非结构化数据的解析查询
Cortez et al. A flexible approach for extracting metadata from bibliographic citations
US9146918B2 (en) Compressing data for natural language processing
Paramita et al. Methods for collection and evaluation of comparable documents
CN108959555B (zh) 查询式的扩展方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant