CN112912873A - 动态地抑制搜索中的查询答复 - Google Patents

动态地抑制搜索中的查询答复 Download PDF

Info

Publication number
CN112912873A
CN112912873A CN201980067915.5A CN201980067915A CN112912873A CN 112912873 A CN112912873 A CN 112912873A CN 201980067915 A CN201980067915 A CN 201980067915A CN 112912873 A CN112912873 A CN 112912873A
Authority
CN
China
Prior art keywords
query
candidate
reply
computer
entity description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980067915.5A
Other languages
English (en)
Inventor
黄子乘
M·B·纳朗
李玲
曹桂宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN112912873A publication Critical patent/CN112912873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于确定是否动态地抑制被指明用于包括在搜索结果中的候选查询答复的方法包括:实例化用于评估对候选查询答复的抑制的多个过滤规则。过滤规则包括模式规则和站点规则中的一者或两者。方法还包括:接收查询,并且在接收到查询之后,接收先前与查询相关联的一个或多个候选查询答复。方法还包括:针对每个候选查询答复,如果模式规则和站点规则中的任一个或两个与查询相匹配,则从搜索结果内相对于多个其他结果条目具有增强突出性的策划位置动态地抑制候选查询答复。方法还包括:返回搜索结果,搜索结果响应于候选查询答复未被动态地抑制而包括策划位置中的多达一个候选查询答复。

Description

动态地抑制搜索中的查询答复
背景技术
互联网搜索引擎和其他搜索提供方通常被设计为响应于搜索查询提供许多不同的搜索结果。互联网搜索引擎可以被配置为呈现具有不同突出性级别的结果中的单独结果,例如可以直接答复查询的网页链接或文章的集合,从而使用户更容易消化搜索结果。
发明内容
该发明内容被提供来以简化的形式介绍对于下面在详细描述中进一步被描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或者必要特征,也不旨在被用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实现。
一种用于确定是否动态地抑制被指明(designate)用于包括在搜索结果中的候选查询答复的方法,包括:实例化用于评估对候选查询答复的抑制的多个过滤规则。过滤规则包括模式规则和站点规则中的一者或两者。该方法还包括:接收查询。这种查询到查询答复的映射是针对多个预期查询中的每个预期查询而被维护的。在接收到查询之后,一个或多个候选答复(例如先前与查询相关联的查询答复)被获取。该方法还包括:针对每个候选查询答复,如果模式规则和站点规则中的任一者或两者与查询相匹配,则从搜索结果内相对于多个其他结果条目具有增强突出性的策划位置(curated position)动态地抑制候选查询答复。该方法还包括:返回搜索结果,该搜索结果响应于候选查询答复未被动态地抑制而包括策划位置中的多达一个候选查询答复。
附图说明
图1A示出了用于抑制来自搜索结果的查询答复的示例性***架构。
图1B示出了用于提供可能抑制查询答复的搜索结果的方法。
图2示出了用于确定是否抑制来自搜索结果的查询答复的方法。
图3A至图3C示出了抑制查询答复和/或实体描述的搜索结果。
图4示出了基于与在搜索结果内提供的实体描述的相似性来确定是否抑制查询答复的方法。
图5示出了示例性计算***。
具体实施方式
搜索结果可以包括对查询中提出的问题的自然语言响应形式的查询答复(例如被呈现为文本或语音音频)。除了查询答复之外,搜索结果可以包括任何其他合适的结果条目,例如web搜索结果、基于关键字的搜索结果、广告、搜索查询中的实体/事件/地方的描述等。在一些示例中,查询答复或另一结果条目(例如实体描述)可以被呈现在相对于其他结果条目具有增强突出性的策划位置中。然而,在一些情况下,一个或多个结果条目可能不期望包括在策划位置中。因此,本公开涉及一种用于确定是否在提供搜索功能性时抑制搜索结果中的某些结果条目的方法,例如以抑制鉴于搜索结果中的其他结果条目可能冗余的查询答复和/或实体描述。将在策划位置中被示出的结果条目的抑制可以包括从策划位置移除结果条目,例如通过使结果条目降级以在不同位置中被示出而没有太多突出性,或者通过完全移除结果条目。
图1A示出了用于向客户端提供搜索结果的架构的非限制性示例。搜索功能性可以由图1A所示的架构或者用于提供搜索结果的任何其他合适的架构提供。例如,搜索架构可以允许客户端计算机110在任何合适的搜索域(例如(多个)网站、(多个)百科全书、(多个)数据库、金融/医学/科学记录等)上使用任何合适的查询(例如自然语言关键字、正则表达式模式、用于组成多个查询的布尔操作符等)执行搜索。图1A所示的设备可以以任何合适的方式被通信地耦合以制定图1A中的箭头所示的数据流,例如通过通信地耦合至合适的计算机网络,诸如互联网。
客户端计算机110可以是任何合适的计算设备,例如移动电话、个人计算机、智能辅助扬声器设备等。客户端计算机110可选地可以包括被配置为呈现浏览器111的显示设备。浏览器111可以被配置为呈现一个或多个页面,例如被配置为允许用户输入搜索查询和/或查看搜索结果的搜索页面,如图1A所示。交替地或附加地,客户端计算机110可以允许用户以任何其他合适的方式输入搜索查询和/或接收搜索结果,例如客户端计算机110可以包括麦克风和扬声器,并且可以被配置为经由在麦克风处接收到的自然语言语音表达来接收查询并经由扬声器处输出的语音音频输出搜索结果。尽管本公开可以在图1A所示的图形浏览器111的方面被描述,但是本文公开的方法和过程可以在任何其他搜索界面(例如基于语音的自然语言搜索界面)的上下文中被实现。
搜索界面可以包括被配置为接收表示用户查询的用户输入的搜索输入字段,例如搜索栏112被配置为接收用户文本。搜索界面还可以包括被配置为提交查询以接收搜索结果的可视线索,例如“搜索(SEARCH)”按钮。在用户输入查询之后,浏览器111向服务端点120发送查询的计算机可读表示,以便从服务端点接收搜索结果。例如,用户提交查询“谁是艾隆(Elrond)?”。除了主要结果113之外,搜索结果可以可选地包括被指明相对于其他结果条目在搜索结果内具有增强突出性的搜索结果的策划位置(例如特权位置)中呈现的附加结果条目。例如,如图1A所示,搜索结果可以可选地还包括第一策划位置中的查询答复114和/或第二策划位置中的实体描述115。策划位置可以以任何合适的方式被指明和/或给出增强突出性。搜索结果的策划位置的非限制性示例包括:1)作为结果条目列表中的第一结果条目;2)靠近搜索结果页面的顶部(例如与查询答复114一样位于搜索栏正下方);3)作为搜索结果页面的左侧栏或右侧栏(例如与实体描述115一样位于右侧);4)在单独页面中(例如弹出、对话框和/或新的制表符);5)在搜索结果页面的单独帧中;6)在有轮廓、阴影或以其他方式标记的框内;7)在由指示策划结果条目的类型的标签(例如指示“查询答复”的标签)标记的区域内和/或8)在当搜索结果页面的滚动条被用于滚动其他结果条目时不滚动的搜索结果页面的区段内。在一些示例中,搜索结果可以以音频和/或文本对话交互的形式被呈现。因此,策划位置可以通过划定策划位置中的结果条目的起始的音频和/或文本公告,通过对不同的结果条目进行排序等被指明和/或给出增强突出性。
服务端点120被配置为响应于接收到查询来返回一个或多个搜索结果以在浏览器111中呈现。服务端点120可以被配置为以由用户输入的文字文本的形式提供“原始”查询。交替地或附加地,服务端点120可以被配置为以查询内容的计算机可读描述的形式提供“归一化”查询,例如通过处理指示查询意图(表示由查询指示的用户的问题、目的和/或任务)的计算机可读描述,通过处理查询中的一个或多个条目和/或通过处理查询的语义结构(例如查询的解析树)。查询归一化可以由(多个)任何合适的计算机设备执行,例如由客户端计算机110和/或服务端点120执行。归一化查询可以包括查询的相关信息内容(例如相关意图/实体),同时限制查询之间的可变性的量(例如重新解析相同问题的不同原始查询可以被归一化为相同的归一化查询)。
搜索结果包括主要结果113,该主要结果113包括可能与用户查询相关的各种网站。尽管图1A示出了web搜索的示例,但是服务端点120可以被配置为返回来自任何其他合适的域的结果。服务端点120可以基于从一个或多个其他计算机接收到的数据来返回搜索结果。例如,服务端点120可以与搜索结果提供方130协作以向搜索结果提供方130发送搜索查询,并且接收搜索域所期望的用户查询的主要结果113,其可以包括相关的网站、文档等。因此,搜索结果提供方130可以被配置为以任何合适的方式确定查询的相关搜索结果,例如通过在数据库中搜索,索引/抓取网站或文档等。
搜索结果条目的非限制性示例包括查询答复、实体描述和非策划搜索结果。交替地或者除了查询答复、实体描述和/或非策划搜索结果之外,搜索结果可以包括可以在策划位置中(例如在与查询答复和实体描述分开的不同策划位置中)被呈现的任何其他合适的策划和/或非策划内容。可以被包括在搜索结果中的其他类型的结果条目的非限制性示例包括:新闻搜索结果、图像搜索结果、视频搜索结果、购物搜索结果、配方搜索结果等。尽管本描述关于对查询答复和/或实体描述的抑制,但是本公开的方法可以被用于确定是否抑制和/或包括任何类型的策划和/或非策划结果。
查询答复是例如自然语言响应形式的对查询内提出的一个或多个问题的直接响应,其可以包括任何合适的内容,诸如包含响应于问题的信息的一个或多个文本短文(例如对问题的中肯的、相关的、准确的、简洁的和/或清晰措辞的(多个)响应)。在一些示例中,仅当查询表达问题时(例如当查询是自然语言问题的形式时),查询答复才可能被提供,并且可能不被提供用于通用搜索(例如当搜索仅由关键字组成而没有任何语义结构或问题相关词语时,查询答复可能未被提供)。查询答复可以基于由用户的问题表达的意图来选择,例如以令人满意地解决用户的问题的每个方面。查询答复可能特别适合于在音频和/或文本对话的上下文中回答查询,因为它们可以帮助用户答复问题,而无需浏览多个其他结果条目。实体描述是关于查询中提及的实体的描述性信息的集合。
实体描述提供在查询内的任何地方被提及的关于人物、地方、事物、事件等的可能相关的信息。例如,如果查询包括关键字列表并且关键字中的一个关键字是名人的名字,则针对查询提供的搜索结果可以包括关于名人的实体描述。实体描述通常不是对问题的自然语言答复的形式,并且可以包括关于相关实体的任何合适信息的集合。实体描述的信息的非限制性示例可以包括传记信息、历史信息、照片、视频、音频剪辑等。
非策划搜索结果包括来自基于关键字的搜索、web搜索、数据库搜索等的结果,其未被配置为坚持诸如查询答复或实体描述等策划格式。例如,浏览器111示出了包括多个非策划结果的主要结果115。非策划结果可以与查询相关,而不必满足查询的任何特定关系,例如非策划结果可能不是对问题的答复的形式,并且可以不描述在查询中命名的任何特定实体。非策划结果可以以标题、链接URL和/或短概要和/或来自非策划结果的内容片段(例如网页片段)的形式被呈现。与查询答复相比,用户可能需要导航到不同的页面以查看来自非策划结果的相关内容,需要从搜索结果导航和重定向注意力以到达相关信息。
查询答复114包括对用户查询“谁是Elrond?”的直接答复。查询答复可以是可能与用户的搜索查询特别相关的任何策划和/或特别选择的内容。例如,当搜索查询是问题的形式时,查询答复可以是对该问题的直接回复的形式,如查询答复114所示。呈现相关的查询答复可以保存用户时间和/或提高客户端计算机110和/或服务端点120在提供搜索结果时的效率。例如,提供相关的查询答复可以减轻用户为了成功地答复问题而进行重复web搜索和/或滚动大量搜索结果的需要。在一些示例中,查询答复与查询预关联,该查询可能在服务端点120处被接收到。因此,服务端点120被配置为从查询-答复数据存储库170接收查询答复。
查询-答复数据存储库170被配置为维护查询-答复映射,针对多个预期查询中的每个预期查询包括预期查询的对应答复。尽管本公开是在针对每个预期查询包括一个答复的查询-答复映射的方面被描述的,但是交替地,查询-答复映射可以包括针对每个预期查询的多于一个候选答复。在一些示例中,多于一个答复可以针对给定查询被获取以在搜索结果中返回多于一个查询答复以用于包括在策划位置中。在一些示例中,多于一个答复可以被获取以对候选答复进行排列和/或从候选答复中选择,例如以返回最佳查询答复以用于包括在策划位置中。查询-答复数据存储库170可以关于原始和/或归一化查询维护关联,例如在查询-答复映射中查找查询答复可以包括查找原始查询字符串和/或查找归一化查询的计算机可读表示。查询-答复数据存储库170可以以任何合适的方式确定查询-答复映射中的关联,例如基于自然语言模型、数据挖掘/web抓取等。使用查询-答复映射中的预关联的查询/答复可以提高获取查询答复的效率(例如因为查询答复实质上是针对查询预计算的并且以本地组织方式被存储在查询-答复映射中)和/或答复的稳健性/质量(例如因为查询-答复映射中的答复可以被审计/验证以评估和提高质量)。对于使用搜索查询与搜索结果之间的预关联映射而言交替地或附加地,查询-答复数据存储库170可以以任何其他合适的方式向查询提供答复,例如基于从网站抓取的数据实时提供等。
实体描述115包括在用户的查询中提及的一个或多个实体的描述。例如,由于用户的查询提及“Elrond”,因此实体描述115包括“Elrond”的描述以及到关于“Elrond”的百科全书条目的链接(例如统一资源定位符(URL))。实体描述可以被包括在任何合适的实体或任何其他对象、概念或名词的搜索结果中,例如虚构人物(如所示的)、真实人物、地方、历史事件、电影、音乐专辑等。实体描述可以包括任何合适的描述性内容和/或到其他内容的链接。实体描述可以以任何合适的方式被确定,例如基于自然语言处理、机器学习、人工智能、数据挖掘和/或根据实体名称和实体描述之间的先前配置的关联。在一些示例中,实体描述是从实体描述提供方160接收的,该实体描述提供方160被配置为从服务端点120接收查询并且提供在查询中提及的一个或多个实体的实体描述。例如,实体描述提供方160可以维护实体和对应实体描述之间的关联,使得查询的(多个)实体描述可以通过查找查询中的实体名称来返回。
在一些示例中,可能不期望包括查询答复114和/或实体描述115中的一者或两者。在一些示例中,搜索结果的不同区段中的内容(例如主要结果113、查询答复114和/或实体描述115中的内容)可能是实质上重复的,导致搜索结果中的内容冗余。因此,这种冗余内容可能是从查询答复114和/或实体描述115中的一者或两者被抑制的。在一些示例中,查询答复114和/或实体描述115中的内容可以不是给定查询期望的(例如相关的、适当的和/或合适的)。例如,查询的相关结果可能会包括可能敏感的内容(例如不雅(obscene)内容),其可能不适合呈现在搜索结果中的突出地点中。交替地或附加地,基于用户反馈(例如针对给定查询和针对该查询示出的搜索结果指示实体描述115和/或查询答复114不适当和/或无帮助的反馈),内容可能被指示为不期望包括在查询答复114中和/或包括在实体描述115中。
因此,查询答复114和/或实体描述115可以在将搜索结果呈现在浏览器111中之前从搜索结果被抑制。在一些示例中,查询-答复数据数据库170可以包括离线过滤机制171,其被配置为从搜索结果抑制一个或多个可能的查询答复,例如通过从查询-答复映射中移除这种查询答复。然而,这种离线过滤可能很慢和/或在计算上密集,因为从查询-答复映射抑制答复可能需要处理多个不同的候选查询-答复对(例如以找到和修改答复应该被抑制的每个相关查询)。当查询答复的抑制基于改变关于用户查询、搜索结果和/或查询答复的用户满意度的数据时,离线过滤可能特别不适当,因为以充足的频率执行离线过滤以确保搜索结果反映变化数据可能是不可行的。此外,查询-答复数据存储库170可能不知道可能相关的内容,该内容可以基于由服务端点120从图1A中的其他机器接收到的数据(例如来自搜索结果提供方130的主要结果113和/或来自实体描述提供方160的实体描述115)被包括在搜索结果中。因此,查询-答复数据存储库170可能没有充足的信息来抑制应该被抑制的某些查询答复,例如与实体描述115的内容实质上重复的查询答复114(与图1A所示的查询答复114和实体描述115一样)。
因此,服务端点120被配置为基于所提交的查询以及查询的主要搜索结果、查询答复和/或实体描述,在准备搜索结果以呈现在客户端计算机110处时从搜索结果动态地抑制内容。通过基于搜索查询以及将在搜索结果中被显示(如果未被抑制)的所有内容抑制内容,服务端点120可能能够抑制未由离线过滤机制171抑制的内容。例如,服务端点120可以包括重复内容抑制机(suppression machine)124,其被配置为基于搜索结果内的这种内容的冗余从查询答复114和/或实体描述115中的一个或多个抑制重复内容。服务端点120可以根据由查询黑名单存储库140提供的查询黑名单来确定要动态地抑制什么内容。服务端点120还可以根据由规则存储库150提供的一个或多个规则来确定动态地抑制什么内容。一个或多个规则可以指定特定查询、站点和/或答复,并且结果可以基于匹配所指定的查询/站点/答复来抑制。不期望的内容的抑制可以改进服务端点120和/或客户端计算机110以及图1A所示的其他计算机的功能性。例如,服务端点120可能不需要向客户端计算机110迁移太多数据,因为抑制结果不需要被迁移。此外,与用户需要执行多个搜索以找到相关内容相比,用户可以在更少搜索中更有效地获取相关结果,数据迁移更少,从而减少计算和网络成本以及用户的努力。
因此,图1B示出了用于在可能从搜索结果抑制内容(例如查询答复和/或实体描述)时提供搜索结果的方法1000。方法1000可以由任何合适的计算机***执行,例如来自图1A所示的搜索提供方架构的设备的任何合适组合,例如服务端点120和/或客户端计算机110。尽管方法1000是关于抑制查询答复和/或实体描述内容描述的,但是方法1000或实质上类似的方法可以被应用于从搜索抑制任何其他种类的内容,例如以抑制一个或多个主要搜索结果和/或从搜索结果中的策划地点抑制不同种类的内容。方法1000可以至少部分地由图1A所示的服务端点120所实例化的一个或多个机器执行。例如,服务端点120可以实例化查询抑制机121、模式抑制机122、站点抑制机123和/或重复内容抑制机124。尽管未在图1A中示出,但是对于服务端点120而言交替地或附加地,机器(例如客户端计算机110)的任何其他合适的组合可以实例化查询抑制机121、模式抑制机122、站点抑制机123和/或重复内容抑制机124以提供本文描述的任何功能性。
在1100中,方法1000包括维护查询-答复映射,例如图1A所示的查询-答复数据存储库170中的查询答复映射。查询-答复映射被配置为针对多个预期查询中的每个预期查询包括预期查询的对应答复。
在1200中,方法1000包括维护查询黑名单,该查询黑名单包括黑名单查询的多个计算机可读表示。例如,查询黑名单可以包括文字查询字符串列表。服务端点120被配置为实例化查询抑制机121,该查询抑制机121被配置为评估接收到的查询是否与黑名单中的任何查询相匹配。使接收到的查询与黑名单中的查询相匹配可以基于接收到的查询字符串与黑名单中的查询字符串的确切文字比较。交替地或附加地,查询可以经由“模糊”匹配(例如至少与阈值相似性进行匹配,诸如查询中的匹配词语的阈值比例)、概率匹配和/或使用机器学习或自然语言处理模型来匹配。当接收到的查询与黑名单查询字符串中的一个字符串相匹配时,服务端点120可以从搜索结果抑制查询的查询答复。
在1300中,方法1000包括实例化用于评估是否抑制任何候选查询答复的多个过滤规则。换言之,多个过滤规则被实例化,而不考虑任何特定的查询答复,并且稍后可以关于任何给定的查询答复被评估以确定是否抑制给定的查询答复。多个过滤规则可以包括模式规则和/或站点规则中的一者或两者。如图1A所示,站点和/或模式规则可以在规则存储库150中被维护。
服务端点120被配置为实例化模式抑制机122,该模式抑制机122被配置为关于查询评估模式规则。模式规则是用于基于查询和/或答复的文本内容来抑制查询的规则。与查询黑名单条目一样,模式规则可以被用于指定答复不应该在策划位置中被提供的查询。交替地或者除了匹配文字查询文本之外,模式规则可以被用于将查询与任何合适的模式规范相匹配,其可以被用于解析查询以评估它是否与指定模式相匹配。模式规范的非限制性示例包括正式语言(例如正则表达式)、用于检查查询是否包含特定字符串,以特定字符串开始和/或以特定字符串结束的模式、用于以语言/区域无关方式识别日期、时间、名称、货币等的模式等。模式规则可以被用于解析查询以在查询中找到可以指示查询不应该被视为查询答复内容应该在策划位置中被提供的问题的内容。交替地或附加地,模式规则可以被用于解析对查询的答复,以便确定答复是否应该在策划位置中被提供。作为非限制性示例,模式规则可以被配置为匹配一个或多个不雅短语;因此,对包含任何一个或多个不雅短语的查询的答复和/或包含任何一个或多个不雅短语的答复可以被抑制,所以它们不会在搜索输出的策划位置中被显示。在一些示例中,模式规则可以针对查询和/或答案而被评估。交替地或附加地,模式规则可以被指明为仅针对查询或答复而被评估,例如以抑制包括不雅内容的答复,同时在查询本身包括不雅内容时不抑制对查询的答复。
服务端点120被配置为实例化站点抑制机123,该站点抑制机123被配置为基于例如从规则存储库150加载的多个站点规则,关于查询答复评估站点规则。站点规则是用于基于与答复被导出的网站相关的元数据和/或网站的内容来抑制查询答复的规则。元数据可以包括例如站点URL、发表日期/时间戳、作者信息或任何其他合适的元数据。站点规则可以以与模式规则类似的方式被指定,例如通过正式语言规范、文本遏制规范等。而且,站点规则可以被指明为应用于与网站相关的任何文本数据(例如应用于站点URL、日期/时间信息、作者信息和其他元数据)和/或应用于特定的数据字段(例如站点规则可以被指明为仅应用于站点URL)以灵活地检测可以指示答复不期望包括在策划/突出位置中的搜索结果中的答复的不同方面。作为示例,一些站点可以与低质量答复和/或已经由其他站点提供的重复答复相关联。因此,站点规则可以匹配这种站点(例如通过匹配URL),以从搜索输出抑制从这种站点导出的答复。
在一些示例中,查询黑名单中的条目和/或过滤规则(例如站点规则和模式规则)可以至少部分地基于用户反馈。例如,搜索页面可以被配置为包括附加用户界面元素,以接收关于在搜索输出中包括特定答复的合宜性的用户赞成(approval)和/或不赞成(disapproval)信号。作为示例,搜索输出可以包括“大拇指向上”赞成按钮和“大拇指向下”不赞成按钮,以对策划位置中所包括的查询答复进行评级。作为另一示例,客户端计算机110可以被配置为以语音音频形式从用户接收言语反馈,并且基于反馈来解释用户赞成/不赞成。例如,客户端计算机110可以以语音音频形式呈现查询答复,并且用问题(例如“这有帮助吗?”)提示用户。因此,用户可以通过说“是”或“否”(或者指示查询答复是否有帮助的任何其他合适的响应)来回答。因此,客户端计算机110可以捕获语音音频(例如使用麦克风)并且处理所捕获的语音音频以将“是”解释为赞成并且将“否”解释为不赞成。在一些示例中,如果用户不赞成信号是针对查询接收的,则查询可以响应于接收到用户不赞成信号而被添加到查询黑名单,使得针对该查询,答复未被包括在内。在一些示例中,如果阈值数量的用户不赞成信号是针对从相同站点生成的答复接收的,则新的站点规则可以被添加到过滤规则列表以匹配查询答复被导出的站点,以在未来从该站点抑制结果。在一些示例中,关于一个或多个查询的多个用户不赞成信号可以被接收。因此,新的模式规则可以被添加到过滤规则列表,其中新的模式规则被配置为匹配与一个或多个查询一致的任何后续接收到的查询。作为示例,新的模式规则可以被配置为匹配一个或多个查询的正则表达式。在一些示例中,新的模式规则可以被配置为匹配一个或多个查询,同时被约束以匹配尽可能少的不相关的其他查询。例如,模式可以是由一个或多个查询中的每个查询的一个替代文字字符串组成的正则表达式,使得正则表达式仅匹配一个或多个查询而不匹配任何其他不同的查询。在一些示例中,新的模式规则可以是基于匹配以字符串开始,包含字符串和/或以字符串结束的字符串或者一个或多个查询共有的子模式的规则。确定新的模式规则可以基于任何合适的最先进的和/或未来的字符串处理、解析、自然语言和/或机器学习技术。新的查询黑名单条目、模式规则和/或站点规则可以基于任何合适的用户信号处理来添加,例如基于使用人工智能、机器学习和/或自然语言处理技术来数据挖掘用户赞成和/或不赞成信号。基于用户信号改变查询黑名单和/或过滤规则可以针对一个或多个用户的任何群体来执行,例如以执行小用户群体的个性化抑制和/或改进一般用户群体的抑制结果。在用户可以指示不赞成和赞成的示例中,确定是否添加新规则以抑制查询答复内容可以基于对用户群体中的不赞成与赞成进行加权。
在1400中,方法1000包括接收查询。查询可以以任何合适的方式被接收,例如作为在服务端点120处通过计算机网络从客户端计算机110接收的原始和/或归一化查询。查询可以基于用户输入,例如由客户端计算机110呈现的图形浏览器111的搜索框中的输入和/或具有在客户端计算机110上运行的智能辅助程序的口语对话中的输入。在一些示例中,在查询例如在客户端计算机110处被接收之前,查询可以被归一化。在一些示例中,查询可以作为原始查询被接收,并且在接收之后被归一化,例如在服务端点120处。
在1500中,在接收到查询之后,方法1000包括基于查询和搜索结果来从搜索结果抑制内容。在1510中,方法1000包括操作查询-答复映射以将查询映射到候选查询答复。尽管本描述关于获取查询的单个候选查询答复并且确定是否抑制候选查询答复,但是本文描述的方法并不如此被限制,并且可以被应用于评估对查询的多个不同的候选查询答复的抑制。例如,代替操作查询-答复映射以将查询映射到单个候选查询答复,获取搜索结果可以包括操作查询-答复映射以将查询映射到多个不同的候选答复,并且针对每个候选答复,根据本公开评估是否抑制候选答复。因此,搜索结果可以包括多于一个候选答复(如果多于一个候选答复未被抑制)。交替地或附加地,当多于一个候选答复未被抑制时,未被抑制的候选答复可以被排列、过滤和/或以其他方式处理以选择用于包括在搜索结果内的策划位置中的单个候选答复。在一些示例中,将在策划位置中被示出的结果条目的抑制可以包括从策划位置移除结果条目,例如通过使结果条目降级以在不同位置中被示出而没有太多突出性。在其他示例中,结果条目的抑制可以包括共同移除结果条目,使得它完全没有在搜索结果中被示出。
在1520中,方法1000包括响应于候选查询答复与任何抑制规则相匹配来从策划位置中的搜索结果抑制候选查询答复。在示例中,确定查询答复是否与任何抑制规则相匹配可以使用下面将关于图2被描述的方法2000而被评估。在1530中,方法1000包括返回搜索结果。搜索结果可以包括主要搜索结果(例如图1A所示的主要结果113)。可选地,在一些示例中,方法1000包括基于提及实体的查询来识别计算机可读实体描述(例如从实体描述提供方160接收的实体描述和/或以任何其他合适的方式识别的实体描述,例如基于服务端点110处的处理数据)。所返回的搜索结果被配置为响应于候选查询答复未被动态地抑制还包括在查询答复的策划搜索位置中的候选查询答复。
服务端点120可以被配置为基于匹配一个或多个不同的抑制规则来动态地抑制查询答复。图2示出了用于基于抑制规则的流水线来确定是否抑制查询或答复的方法2000的非限制性示例。如图2所示,方法2000包括针对多个不同的抑制规则检查查询和答复,并且如果它与任何抑制规则相匹配,则抑制查询或答复。尽管图2示出了抑制规则2100、2200、2300和2400被依序评估的方法2000,但是抑制可以以任何合适的次序(例如并行地)而被评估。
在2100中,方法2000包括检查接收到的查询的计算机可读表示是否与来自查询黑名单的任何黑名单查询的任何计算机可读表示相匹配(例如上面关于图1A所示的查询黑名单存储块140和查询抑制机121被描述的)。如果接收到的查询与黑名单查询不匹配,则方法2000包括在2540中抑制查询。否则,方法2000可以包括评估其他抑制规则(例如2200、2300和2400中的抑制规则)。
在2200中,方法2000包括检查查询的计算机可读表示是否与过滤规则列表中的任何模式规则(例如从规则存储库150接收并且由图1A所示的模式抑制机122关于查询评估的模式规则)相匹配。如果接收到的查询与模式规则不匹配,则方法2000包括在2540中抑制查询。否则,方法2000可以包括评估其他抑制规则(例如2100、2300和2400中的抑制规则)。
在2300中,方法2000包括检查候选查询答复的元数据的计算机可读表示是否与来自过滤规则列表的站点规则(例如从规则存储库150接收并且由图1A所示的模式抑制机122关于查询评估的模式规则)相匹配。如果接收到的查询与模式规则不匹配,则方法2000包括在2540中抑制候选查询答复。否则,方法2000可以包括评估其他抑制规则(例如2100、2200和2400中的抑制规则)。
在2400中,方法2000包括检查候选查询答复是否与计算机可读实体描述实质上类似(例如当计算机可读实体描述被调度以用于包括在搜索结果中时)。确定实质相似性可以基于通过图1A所示的重复内容抑制机124的评估。如果是,则方法2000包括在2540中抑制候选查询答复。否则,方法2000可以包括评估其他抑制规则(例如2100、2200和2300中的抑制规则)。交替地或附加地,在2400中,方法2000可以包括检查候选查询答复是否与搜索结果的任何其他部分实质上类似,例如候选查询答复是否与主要搜索结果中的顶部结果实质上类似。评估候选查询答复与其他结果条目之间的实质相似性可以以任何合适的方式被执行,例如使用文本/字符串匹配技术(例如编辑距离)、自然语言处理机和/或机器学习技术和/或根据用于评估两条搜索内容之间的相似性的方法400。例如,评估候选查询答复和从实体描述提供方160接收的计算机可读实体描述之间的相似性可以包括操作自然语言处理机以评估候选查询答复与计算机可读实体描述的自然语言相似性。如果候选查询答复与实体描述类似,则方法2000还包括在2540中抑制查询答复内容。否则,方法2000可以包括评估其他抑制规则(例如2100、2200和2400中的抑制规则)。
如果没有抑制规则(例如在2100、2200、2300和/或2400中)导致在2540中抑制查询答复内容,那么在2520中,查询答复内容未被抑制而是在搜索输出中被包括在搜索结果内与其他结果条目相比具有增强突出性的策划位置中。
在一些示例中,如果候选查询答复与实体描述类似,则候选查询答复或实体描述中的一个或另一个可以从搜索结果被抑制,取决于搜索结果将如何被使用。图3A示出了没有搜索答复被抑制的示例。图3B至图3C示出了候选查询答复或实体描述中的任一个被抑制的示例。尽管图3A至图3C示出了可能基于候选答复与实体描述之间的相似性抑制结果的示例,但是结果可以以类似的方式被抑制,以使用(多个)任何其他抑制规则呈现期望的搜索结果内容,例如基于由图1A的站点抑制机123评估的站点规则、由模式抑制机122评估的模式规则、由查询抑制机121评估的查询黑名单中的查询匹配和/或所示的内容的相似性。
在图3A中,web浏览器示出了搜索查询“为什么Elrond离开中土(Middle-Earth)?”的结果。策划内容地点示出了对搜索查询中的问题的查询答复114。此外,实体描述115示出了在问题中提及的人物“Elrond”的描述。此外,主要结果113可以指示(例如链接至和/或概要)可能相关的内容。在图3A中,查询答复114与实体描述115中的内容实质上不类似。例如,实体描述是“Elrond”的一般描述,而查询答复是对关于“Elrond”的问题的特定答复,并且实体描述和查询答复的对应文本不具有非常多的公共词语/短语(例如除了“Elrond”和“中土”之外,内容实质上不同)。
在一些示例中,候选查询答复可以响应于候选查询答复与计算机可读实体描述实质上类似而从策划位置中的搜索结果被动态地抑制。例如,图3B示出了具有不同查询“谁是Elrond?”的另一示例搜索。在这种情况下,对问题“谁是Elrond?”的答复将包括“Elrond”的描述,因此将与“Elrond”的实体描述实质上类似。因此,搜索结果可以被配置为抑制查询答复并且在与其他结果条目相比具有增强突出性的第二不同的策划位置(除了查询答复的策划位置之外)中呈现实体描述。在示例中,用户可能习惯检查实体描述的策划位置以找到实体(诸如人和虚构人物)的描述。通过呈现实体描述而不是查询答复,用户可以更容易地找到相关信息。在一些示例中,当查询答复由于与实体描述的相似性而被抑制时,实体描述可以被呈现在查询答复的策划位置中而非实体描述的不同策划位置中。例如,查询答复的策划位置可能甚至比实体描述的策划位置更突出(例如与实体描述的策划位置相比,查询答复的策划位置可以被赋予更多空间和/或更中心的放置)。因此,当查询答复被抑制时,通过在更突出的策划地点(否则将被用于查询答复)中呈现实体描述,实体描述可以被赋予附加突出性。
在其他示例中,响应于候选查询答复与实体描述实质上类似,实体描述可以从搜索结果动态地抑制,因此候选查询答复可能不从搜索结果抑制。例如,图3C示出了与图3B相同的搜索,但是查询答复114被呈现而不是实体描述115。在示例中,搜索界面可以具有查询答复的策划位置,同时不具有实体描述的策划位置。例如,尽管图3B描绘了图形web浏览器中的搜索,但是在一些示例中,搜索结果被配置用于经由扬声器输出作为包括一个或多个搜索结果的口语叙述的音频响应。因此,与搜索结果中的其他条目(例如主要结果113中的结果条目和/或实体描述)相比,查询答复可以更适合口语叙述,例如因为查询答复可以被规划为直接响应于在查询中提出的问题的自然语言答复。
图4示出了用于评估两条搜索结果内容的相似性的方法4000的非限制性示例,例如用于评估查询答复与实体描述之间的实质相似性。例如,方法4000可以被用于识别查询的计算机可读实体描述,评估候选查询答复与计算机可读实体描述是否实质上类似,并且基于该评估还动态地抑制以下之一:1)计算机可读实体描述或者2)来自搜索输出的候选查询答复。相似性的评估基于在4110中计算的查询的长度(LQ,例如原始查询中的文本字符令牌的长度)、在4120中计算的查询答复内容的长度(QCL,例如查询答复中的文本字符令牌的长度)、在4130中计算的查询答复和实体描述的最长公共子序列的长度(LCS,例如序列中的令牌数量,例如被表示为文本字符令牌和/或指示子序列中的词语的自然语言词语令牌)以及在4140中计算的查询答复和实体描述中存在的公共令牌列表的长度(CTL,例如公共令牌列表中的公共令牌的数量)。
在4210中,方法4000包括确定最长公共子序列的长度(LCS)与预处理的查询答复内容的长度(QCL)的比率(例如LCS/QCL)是否超过预定义阈值。如果LCS/QCL超过预定义阈值,则查询答复和实体描述被评估为实质上类似。
在4220中,方法4000包括确定公共令牌列表的长度(CTL)与预处理的查询答复内容的长度(QCL)的比例是否超过预定义阈值(可以与在4120中使用的阈值相同或不同)。如果CTL/QCL超过预定义阈值,则查询答复和实体描述被评估为实质上类似。
在4230中,方法4000包括确定实体描述和预处理的查询答复内容中存在的公共令牌列表的长度(CTL)是否超过查询的长度(LQ)。如果CTL>LQ,则查询答复和实体描述被评估为实质上类似。
本文描述的方法和过程可以与一个或多个计算设备的计算***联合。特别地,这种方法和过程可以被实现为可执行计算机应用程序、网络可访问计算服务、应用编程接口(API)、库或者上述和/或其他计算资源的组合。
图5示意性地示出了被配置为提供本文描述的任何所有计算功能性的计算***500的简化表示。计算***500可以采取一个或多个个人计算机、网络可访问服务器计算机、平板计算机、家庭娱乐计算机、游戏设备、移动计算设备、移动通信设备(例如智能电话)、虚拟/增强/混合现实计算设备、可穿戴计算设备、物联网(IoT)设备、嵌入式计算设备和/或其他计算设备的形式。例如,计算***500可以包括客户端计算机110、服务端点120、搜索结果提供方130、查询黑名单存储库140、规则存储库150、实体描述提供方160和/或查询-答复数据存储库170中的一个或多个的逻辑子***、存储子***和/或其他子***的任何组合。
计算***500包括逻辑子***502和存储子***504。计算***500可以可选地包括输入/输出子***506(例如包括一个或多个输入设备或传感器以及一个或多个输出设备,诸如图形显示器和/或音频映射器)、通信子***508和/或图5未示出的其他子***。
逻辑子***502包括被配置为执行指令的一个或多个物理设备。例如,逻辑子***可以被配置为执行作为一个或多个应用、服务或其他逻辑构造的一部分的指令。逻辑子***可以包括被配置为执行软件指令的一个或多个硬件处理器。附加地或备选地,逻辑子***可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件设备。逻辑子***的处理器可以是单核或多核的,并且在其上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑子***的各个组件可选地可以被分布在两个或多个单独设备中,该两个或多个单独设备可以被远程定位和/或配置用于协调处理。逻辑子***的各个方面可以由以云计算配置来配置的远程可访问的联网计算设备虚拟化和执行。
存储子***504包括一个或多个物理设备,其被配置为暂时地和/或永久地保持由逻辑子***可执行的计算机信息,诸如数据和指令。当存储子***包括两个或多个设备时,该设备可以被并置和/或远程定位。存储子***504可以包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、地点可寻址、文件可寻址和/或内容可寻址设备。存储子***504可以包括可移除和/或内置设备。当逻辑子***执行指令时,存储子***504的状态可以被变换,例如以保持不同的数据。
逻辑子***502和存储子***504的各个方面可以一起被集成为一个或多个硬件逻辑组件。例如,这种硬件逻辑组件可以包括程序和应用特定集成电路(PASIC/ASIC)、程序和应用特定标准产品(PSSP/ASSP)、片上***(SOC)和复杂可编程逻辑设备(CPLD)。
逻辑子***和存储子***可以协作以实例化一个或多个逻辑机。如本文使用的,术语“机器”被用于统称为硬件以及与这种硬件协作以提供计算机功能性的任何软件、指令和/或其他组件。换言之,“机器”从来都不是抽象的理念,并且始终具有有形形式。机器可以由单个计算设备实例化,或者机器可以包括由两个或多个不同的计算设备实例化的两个或多个子组件。在一些实现中,机器包括与远程组件(例如云计算服务)协作的本地组件(例如计算机服务)。向特定机器赋予其功能性的软件和/或其他指令可以可选地被保存为合适的存储设备上的未执行模块。根据本公开可以由计算***500实例化的机器的非限制性示例包括浏览器111、查询抑制机121、模式抑制机122、站点抑制机123和/或重复内容抑制机124。
根据本公开的机器可以使用最先进的和/或未来的机器学习(ML)、人工智能(AI)和/或自然语言处理(NLP)技术的任何合适的组合来实现。可以在一个或多个机器的实现中被并入的技术的非限制性示例包括支持向量机、多层神经网络、卷积神经网络(例如包括用于处理图像和/或视频的空间卷积网络、用于处理音频信号和/或自然语言句子的时间卷积神经网络和/或被配置为在一个或多个时间和/或空间维度上卷积和池化特征的任何其他合适的卷积神经网络)、递归神经网络(例如长短期记忆网络)、关联存储器(例如查找表、哈希表、布隆(Bloom)过滤器、神经图灵机和/或神经随机存取存储器)、词语嵌入模型(例如GloVe或Word2Vec)、无监督式空间和/或聚类方法(例如最近邻算法、拓扑数据分析和/或k均值聚类)、图形模型(例如(隐藏)马尔可夫模型、马尔可夫随机场、(隐藏)条件随机场和/或AI知识库)和/或神经语言处理技术(例如令牌化、词干提取、选区和/或依存解析和/或意图识别、分段模型和/或超分段模型(例如隐藏动态模型))。
在一些示例中,本文描述的方法和过程可以使用一个或多个可微分函数来实现,其中可微分函数的梯度可以关于可微分函数的输入和/或输出(例如关于训练数据和/或关于目标函数)来计算和/或估计。这种方法和过程可以至少部分地由可训练参数集合确定。因此,特定方法或过程的可训练参数可以通过任何合适的训练程序来调整,以便不断地改进方法或过程的运作。例如,机器学习训练技术可以被用于挖掘用户赞成/不赞成信号,例如确定是否添加用于抑制查询答复的新的查询黑名单条目、站点规则和/或模式规则。
用于调整可训练参数的训练程序的非限制性示例包括监督式训练(例如使用梯度下降或任何其他合适的优化方法)、零样本、少样本、无监督式学习方法(例如基于从无监督式聚类方法导出的类别的分类)、强化学习(例如基于反馈的深度Q学习)和/或生成式对抗神经网络训练方法、信念传播、RANSAC(随机样本一致性)、上下文强盗(bandit)方法、最大似然性方法和/或期望最大化。在一些示例中,本文描述的***的多个方法、过程和/或组件可以关于测量多个组件的共同运作的性能的目标函数(例如关于强化反馈和/或关于带标签的训练数据)来同时训练。同时训练多个方法、过程和/或组件可以改进这种共同运作。在一些示例中,一个或多个方法、过程和/或组件可以独立于其他组件而被训练(例如历史数据上的离线训练)。
本文所公开的方法和过程可以被配置为向用户和/或任何其他人赋予对任何隐私和/或可能敏感的数据的控制。每当数据被存储、访问和/或处理时,数据都可以根据隐私和/或安全性标准来处置。当用户数据被收集时,用户或其他利益相关者可以指明数据如何被使用和/或存储。每当用户数据出于任何目的被收集时,拥有该数据的用户应该被通知,并且用户数据应该仅在用户提供肯定同意时被收集。如果数据将被收集,则可以并且应该在最大限度尊重用户隐私的情况下被收集。如果数据将被释放以由除用户之外的任何人访问或者被用于任何决策过程,则用户的同意可以在使用和/或释放数据之前被收集。用户可以在任何时间选择加入和/或选择退出数据收集。在数据已经被收集之后,用户可以发出删除数据的命令和/或限制访问数据。可选地,所有可能敏感的数据可以被加密和/或当被可行匿名时进一步保护用户隐私。用户可以指明数据、元数据或处理数据的统计信息/结果的部分以释放给其他方,例如以进行进一步处理。隐私和/或机密的数据可以保持完全隐私,例如仅暂时地被解密以进行处理,或者仅被解密以在用户设备上处理并且以其他方式以加密形式存储。用户可以保有和控制加密数据的加密密钥。交替地或附加地,用户可以指明受信任的第三方以保有和控制加密数据的加密密钥,例如以根据合适的认证协议向用户提供对数据的访问。
当本文描述的方法和过程并入了ML和/或AI组件时,ML和/或AI组件可以至少部分地基于组件关于训练数据的训练来进行决策。因此,ML和/或AI组件可以并且应该在不同的代表性数据集上被训练,该数据集包括不同用户和/或用户群体的充足的相关数据。特别地,关于不同的个人和群组的训练数据集应该是包括性的,使得当ML和/或AI组件被训练时,关于用户和/或用户群体的用户体验的性能被提高。
例如,根据本公开的对话***可以被训练以使用语言模型与不同的用户群体交互,该语言模型被训练以基于群体的语言、方言、口音和/或说话风格的任何其他特征来针对这些群体很好地工作。
ML和/或AI组件可以附加地被训练以进行决策,以便最小化与个人和/或群组的可能偏差。例如,当AI***被用于评估关于个人或群组的任何定性和/或定量信息时,它们可以被训练以对不旨在由定性和/或定量评估测量的个人或群组之间的差异不变,例如使得任何决策都不以无意识方式被个人与群组之间的差异影响。
ML和/或AI组件可以并且应该被设计为尽可能多地提供关于它们如何操作的上下文,使得ML和/或AI***的实现者可以对由***进行的决策/评估负责。例如,ML和/或AI***应该具有可复制的行为,例如当它们进行伪随机决策时,随机种子应该被使用和记录以能够稍后复制决策。作为另一示例,用于训练和/或测试ML和/或AI***的数据应该被策划和维护以支持ML和/或AI***关于数据的行为的未来调查。此外,ML和/或AI***可以并且应该被不断地监测以标识可能的偏差、误差和/或无意识的结果。
当被包括在内时,输入/输出子***506可以被用于呈现由存储子***504保有的数据的视觉表示。该视觉表示可以采取图形用户界面(GUI)的形式。输入/输出子***506可以包括实际上利用任何类型的技巧的一个或多个显示设备。在一些实现中,输入/输出子***506可以包括一个或多个虚拟现实、增强现实或混合现实显示器。输入/输出子***506可以被用于在视觉上呈现内容,诸如浏览器111和在浏览器111的页面中显示的搜索结果。输入/输出子***506可以包括被配置为接收和/或输出音频的一个或多个麦克风和/或扬声器设备。在一些示例中,麦克风设备可以被用于接收语音音频输入,该语音音频输入可以被处理(例如使用自然语言处理和/或机器学习技术)以接收用户查询,确定用户意图等。例如,语音音频输入可以被处理以控制浏览器111。例如,语音音频输入可以被处理以识别搜索引擎的用户查询,例如除了经由搜索栏112中的文本的用户输入之外或者代替该用户输入。在一些示例中,扬声器设备可以被用于输出语音音频,例如以向用户提供信息,在口语交谈中与用户交互等。在一些示例中,浏览器111可以被配置为以语音音频形式呈现内容。例如,浏览器111可以通过针对搜索结果中的每个结果条目输出指示结果条目的语音音频来呈现搜索结果。例如,当浏览器111呈现包括查询答复和多个其他结果条目的搜索结果时,浏览器111可以输出叙述查询答复的语音音频,并且输出列举多个其他结果条目中的每个其他结果条目的标题和/或概要的其他语音音频。
当被包括在内时,输入/输出子***还可以包括一个或多个输入设备或与一个或多个输入设备接口连接。输入设备可以包括传感器设备或者用户输入设备。用户输入设备的示例包括键盘、鼠标、触摸屏或者游戏控制器。在一些实施例中,输入子***可以包括所选的自然用户输入(NUI)元件部分或者与其接口连接。这种元件部分可以是集成的或***的,并且输入动作的转导和/或处理可以在板上或离板处置。示例NUI元件部分可以包括用于语音和/或话音识别的麦克风;用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机;用于运动检测和/或意图识别的头部追踪器、眼睛追踪器、加速度计和/或陀螺仪。
当被包括在内时,通信子***508可以被配置为将计算***500与一个或多个其他计算设备通信地耦合。通信子***508可以包括与一种或多种不同的通信协议兼容的有线和/或无线通信设备。通信子***可以被配置用于经由个域网、局域网和/或广域网进行通信。
语言模型可以利用词汇特征来指导用于语音识别的词语采样/搜索。例如,语言模型可以至少部分地由词语的统计分布或其他词汇特征定义。例如,语言模型可以由n元(n-gram)统计分布定义,从而根据词汇统计信息定义候选词语之间的过渡概率。语言模型还可以基于任何其他适当的统计特征和/或利用一种或多种机器学习和/或统计算法处理统计特征的结果(例如由这种处理产生的置信度值)。在一些示例中,统计模型可以约束哪些词语可以针对音频信号被识别,例如基于音频信号中的词语来自特定词汇的假设。
交替地或附加地,语言模型可以基于先前被训练以表示共享潜在空间(例如由一个或多个音频和/或词语模型(例如wav2letter和/或word2vec)学习的向量空间)中的音频输入和词语的一个或多个神经网络。因此,找到候选词语可以包括基于由音频模型针对音频输入编码的向量来搜索共享潜在空间,以找到候选词语向量以利用词语模型进行译码。共享潜在空间可以被用于针对一个或多个候选词语评估候选词语在语音音频中为特征的置信度。
语言模型可以与声学模型共同被使用,该声学模型被配置为评估以下针对候选词语和音频信号的置信度:该置信度是候选词语基于词语的声学特征(例如梅尔频倒谱系数、共振峰等)而被包括在音频信号中的语音音频中。可选地,在一些示例中,语言模型可以并入声学模型(例如语言模型的评估和/或训练可以基于声学模型)。声学模型例如基于带标签的语音音频来定义声学信号与基础声音单元(诸如音素)之间的映射。声学模型可以基于最先进的或未来的机器学习(ML)和/或人工智能(AI)模型的任何合适组合,例如:深度神经网络(例如长短期记忆、时间卷积神经网络、受限玻尔兹曼机、深度信念网络)、隐藏马尔可夫模型(HMM)、条件随机场(CRF)和/或马尔可夫随机场、高斯混合模型和/或其他图形模型(例如深度贝叶斯网络)。要利用声学模型处理的音频信号可以以任何合适的方式被预处理,例如以任何合适的采样率、傅里叶变换、带通滤波器等进行编码。声学模型可以被训练以基于利用带标签的音频数据训练来识别声学信号与声音单元之间的映射。例如,声学模型可以基于包括语音音频和校正后的文本的带标签的音频数据来训练,以学习语音音频信号与由校正后的文本表示的声音单元之间的映射。因此,声学模型可以不断地被改进以提高其用于正确地识别语音音频的实用性。
在一些示例中,除了统计模型、神经网络和/或声学模型之外,语言模型可以并入任何合适的图形模型,例如隐藏马尔可夫模型(HMM)或条件随机场(CRF)。给定迄今为止识别的语音音频和/或其他词语,图形模型可以利用统计特征(例如过渡概率)和/或置信度值来确定识别词语的概率。因此,图形模型可以利用统计特征、先前训练的机器学习模型和/或声学模型来定义在图形模型中表示的状态之间的过渡概率。
在示例中,一种用于确定是否动态地抑制被指明用于包括在搜索结果中的候选查询答复的方法包括:维护查询-答复映射,针对多个预期查询中的每个预期查询包括预期查询的对应答复;实例化用于评估对任何候选查询答复的抑制的多个过滤规则,该多个过滤规则包括模式规则和站点规则中的一者或两者;维护包括黑名单查询的多个计算机可读表示的查询黑名单;接收查询;识别查询的计算机可读实体描述;在接收到查询之后:操作查询-答复映射以获取先前与查询相关联的候选查询答复;响应于以下任一项,从搜索结果内相对于多个其他结果条目具有增强突出性的策划位置动态地抑制候选查询答复:查询的计算机可读表示与来自查询黑名单的黑名单查询的计算机可读表示相匹配;1)查询的计算机可读表示与来自过滤规则列表的模式规则相匹配;2)候选查询答复的元数据的计算机可读表示与来自过滤规则列表的站点规则相匹配;或者3)候选查询答复与计算机可读实体描述实质上类似;以及返回搜索结果,该搜索结果包括计算机可读实体描述,并且响应于候选查询答复未被动态地抑制还包括策划位置中的候选查询答复。在该示例或任何其他示例中,该方法还包括:接收关于查询的用户不赞成信号,并且响应于接收到用户不赞成信号将查询添加到查询黑名单。在该示例或任何其他示例中,该方法还包括:接收关于一个或多个查询的多个用户不赞成信号并且将模式规则添加到过滤规则列表,该模式规则被配置为匹配与一个或多个查询一致的任何后续接收到的查询。在该示例或任何其他示例中,评估候选查询答复与计算机可读实体描述的实质相似性包括:确定A)实体描述与预处理答复之间的最长公共子序列的长度与B)预处理答复的长度的比率超过预定义阈值。在该示例或任何其他示例中,评估候选查询答复与计算机可读实体描述的实质相似性包括:确定A)实体描述与预处理答复之间的公共令牌列表的长度与B)预处理答复的长度的比率超过预定义阈值。在该示例或任何其他示例中,评估候选查询答复与计算机可读实体描述的实质相似性包括:确定A)实体描述与预处理答复之间的公共令牌列表的长度等于B)查询的长度。在该示例或任何其他示例中,评估候选查询答复与计算机可读实体描述的实质相似性包括:操作自然语言处理机以评估候选查询答复与计算机可读实体描述的自然语言相似性。在该示例或任何其他示例中,站点规则被配置为基于以下一个或多个来匹配网站:网站的时间戳、网站的URL、网站的元数据和网站的内容。在该示例或任何其他示例中,模式规则被配置为基于根据正则表达式规范解析查询来匹配查询。在该示例或任何其他示例中,模式规则被配置为基于以下一项或多项来匹配查询:查询以文本模式开始,该查询以文本模式结束以及该查询包含文本模式。
在示例中,一种用于确定是否动态地抑制被指明用于包括在搜索结果中的候选查询答复的方法包括:实例化用于评估对任何候选查询答复的抑制的多个过滤规则,包括模式规则和站点规则中的一者或两者;接收查询;在接收到查询之后:获取先前与查询相关联的候选查询答复;响应于以下任一项,从搜索结果内相对于多个其他结果条目具有增强突出性的策划位置动态地抑制候选查询答复:1)查询的计算机可读表示与来自过滤规则列表的模式规则相匹配;或者2)候选查询答复的元数据的计算机可读表示与来自过滤规则列表的站点规则相匹配;以及返回搜索结果,该搜索结果响应于候选查询答复未被动态地抑制而包括策划位置中的候选查询答复。在该示例或任何其他示例中,该方法还包括:识别查询的计算机可读实体描述;评估候选查询答复与计算机可读实体描述是否实质上类似;以及基于该评估还动态地抑制以下之一:1)计算机可读实体描述或者2)来自搜索结果的候选查询答复。在该示例或任何其他示例中,候选查询答复是响应于候选查询答复与计算机可读实体描述实质上类似而从搜索结果内的策划位置动态地抑制的。在该示例或任何其他示例中,搜索结果被配置用于在搜索结果内相对于多个其他结果条目具有增强突出性的第二不同的策划位置中呈现计算机可读实体描述。在该示例或任何其他示例中,计算机可读实体描述是响应于候选查询答复与计算机可读实体描述实质上类似而从搜索结果内的策划位置动态地抑制的,并且候选查询答复未从搜索结果抑制。在该示例或任何其他示例中,搜索结果被配置用于经由扬声器输出作为包括候选查询答复的口语陈述的音频响应。
在示例中,一种用于确定是否动态地抑制被指明用于包括在搜索结果中的候选查询答复的方法包括:实例化用于评估对任何候选查询答复的抑制的多个过滤规则,包括模式规则和站点规则中的一者或两者;从被配置用于查询答复的搜索应用接收第一查询;在接收到第一查询之后:获取先前与第一查询相关联的候选查询答复;响应于以下任一项,从搜索结果内相对于多个其他结果条目具有增强突出性的策划位置动态地抑制候选查询答复:1)实体的计算机可读表示与来自过滤规则列表的模式规则相匹配;或者2)候选查询答复的元数据的计算机可读表示与来自过滤规则列表的站点规则相匹配;返回搜索结果,该搜索结果响应于候选查询答复未被动态地抑制而包括策划位置中的候选查询答复;以及从图形应用接收第二查询,该图形应用具有用于在视觉上呈现实体描述的特权显示区域,其中第二查询与第一查询相同;在接收到第二查询之后:识别第二查询的计算机可读实体描述;获取先前与第一查询和第二查询相关联的候选查询答复;响应于以下任一项,从搜索结果内相对于多个其他结果条目具有增强突出性的策划位置动态地抑制候选查询答复:1)查询的计算机可读表示与来自过滤规则列表的模式规则相匹配;2)候选查询答复的元数据的计算机可读表示与来自站点规则的过滤规则列表的站点规则相匹配;或者3)查询答复与计算机可读实体描述实质上类似;以及返回搜索结果,该搜索结果包括特权显示区域中被指明用于视觉呈现的实体描述,并且响应于候选查询答复未被动态地抑制还包括候选查询答复。在该示例或任何其他示例中,候选查询答复是响应于候选查询答复与计算机可读实体描述实质上类似而从搜索结果内的策划位置动态地抑制的。在该示例或任何其他示例中,第一查询的搜索结果被配置用于经由扬声器输出作为包括候选查询答复的口语陈述的音频响应。在该示例或任何其他示例中,计算机可读实体描述是响应于候选查询答复与计算机可读实体描述实质上类似而从搜索结果内的策划位置动态地抑制的,并且候选查询答复未从搜索结果抑制。
应当理解,本文描述的配置和/或方法本质上是示例性的,并且这些特定的实施例或示例不应被认为是限制性的,因为许多变型是可能的。本文描述的特定例程或方法可以表示任何数量的处理策略中的一个或多个。这样,所图示和/或描述的各种行动可以以所图示和/或描述的顺序、以其他顺序、并行来执行或被省略。同样地,上述过程的次序可以被改变。
本公开的主题包括本文公开的各种过程、***和配置以及其他特征、功能、行动和/或属性的所有新颖且非明显的组合和子组合及其任何和所有等效项。

Claims (10)

1.一种用于确定是否动态地抑制被指明用于包括在搜索结果中的候选查询答复的方法,所述方法包括:
维护查询-答复映射,所述查询-答复映射针对多个预期查询中的每个预期查询包括所述预期查询的对应答复;
实例化用于评估对任何候选查询答复的抑制的多个过滤规则,所述多个过滤规则包括模式规则和站点规则中的一者或两者;
维护查询黑名单,所述查询黑名单包括黑名单查询的多个计算机可读表示;
接收查询;
识别针对所述查询的计算机可读实体描述;
在接收到所述查询之后:
操作所述查询-答复映射以获取先前与所述查询相关联的候选查询答复;
响应于以下任一项,从搜索结果内相对于多个其他结果条目具有增强突出性的策划位置动态地抑制所述候选查询答复:
1)所述查询的计算机可读表示与来自所述查询黑名单的黑名单查询的计算机可读表示相匹配;
2)所述查询的计算机可读表示与来自所述过滤规则列表的模式规则相匹配;
3)针对所述候选查询答复的元数据的计算机可读表示与来自所述过滤规则列表的站点规则相匹配;或者
4)所述候选查询答复与所述计算机可读实体描述实质上类似;以及
返回所述搜索结果,所述搜索结果包括所述计算机可读实体描述,并且响应于所述候选查询答复未被动态地抑制还包括所述策划位置中的所述候选查询答复。
2.根据权利要求1所述的方法,还包括:接收关于查询的用户不赞成信号,并且响应于接收到所述用户不赞成信号将所述查询添加到所述查询黑名单。
3.根据权利要求1所述的方法,还包括:接收关于一个或多个查询的多个用户不赞成信号并且将模式规则添加到所述过滤规则列表,所述模式规则被配置为匹配与所述一个或多个查询一致的任何后续接收到的查询。
4.根据权利要求1所述的方法,其中评估所述候选查询答复与所述计算机可读实体描述的实质相似性包括:确定A)所述实体描述与所述预处理答复之间的最长公共子序列的长度与B)所述预处理答复的长度的比率超过预定义阈值。
5.根据权利要求1所述的方法,其中评估所述候选查询答复与所述计算机可读实体描述的实质相似性包括:确定A)所述实体描述与所述预处理答复之间的公共令牌列表的长度与B)所述预处理答复的长度的比率超过预定义阈值。
6.根据权利要求1所述的方法,其中评估所述候选查询答复与所述计算机可读实体描述的实质相似性包括:确定A)所述实体描述与所述预处理答复之间的公共令牌列表的长度等于B)所述查询的长度。
7.根据权利要求1所述的方法,其中评估所述候选查询答复与所述计算机可读实体描述的实质相似性包括:操作自然语言处理机以评估所述候选查询答复与所述计算机可读实体描述的自然语言相似性。
8.根据权利要求1所述的方法,其中站点规则被配置为基于以下一项或多项来匹配网站:所述网站的时间戳、所述网站的URL、所述网站的元数据和所述网站的内容。
9.根据权利要求1所述的方法,其中模式规则被配置为基于根据正则表达式规范解析查询来匹配所述查询。
10.根据权利要求1所述的方法,其中模式规则被配置为基于以下一项或多项来匹配查询:所述查询以文本模式开始,所述查询以所述文本模式结束以及所述查询包含所述文本模式。
CN201980067915.5A 2018-10-15 2019-09-04 动态地抑制搜索中的查询答复 Pending CN112912873A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/160,886 US20200117742A1 (en) 2018-10-15 2018-10-15 Dynamically suppressing query answers in search
US16/160,886 2018-10-15
PCT/US2019/049403 WO2020081158A1 (en) 2018-10-15 2019-09-04 Dynamically suppressing query answers in search

Publications (1)

Publication Number Publication Date
CN112912873A true CN112912873A (zh) 2021-06-04

Family

ID=67989086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980067915.5A Pending CN112912873A (zh) 2018-10-15 2019-09-04 动态地抑制搜索中的查询答复

Country Status (3)

Country Link
US (2) US20200117742A1 (zh)
CN (1) CN112912873A (zh)
WO (1) WO2020081158A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055330B2 (en) * 2018-11-26 2021-07-06 International Business Machines Corporation Utilizing external knowledge and memory networks in a question-answering system
US10565365B1 (en) * 2019-02-21 2020-02-18 Capital One Services, Llc Systems and methods for data access control using narrative authentication questions
US11853381B2 (en) * 2020-11-13 2023-12-26 Google Llc Hybrid fetching using a on-device cache
CN113111665B (zh) * 2021-04-16 2022-10-04 清华大学 一种个性化对话改写方法及装置
US20220398271A1 (en) * 2021-06-15 2022-12-15 Microsoft Technology Licensing, Llc Computing system for extracting facts for a knowledge graph
CN113688217B (zh) * 2021-08-24 2022-04-22 山东省人工智能研究院 一种面向搜索引擎知识库的智能问答方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能
CN108027820A (zh) * 2016-09-02 2018-05-11 百度时代网络技术(北京)有限公司 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239380B2 (en) * 2003-06-20 2012-08-07 Microsoft Corporation Systems and methods to tune a general-purpose search engine for a search entry point
CN102012900B (zh) * 2009-09-04 2013-01-30 阿里巴巴集团控股有限公司 信息检索方法和***
US9171089B2 (en) * 2010-11-16 2015-10-27 John Nicholas and Kristin Gross Trust Message distribution system and method
US9311404B2 (en) * 2011-09-08 2016-04-12 International Business Machines Corporation Obscuring search results to increase traffic to network sites
US10540365B2 (en) * 2014-05-30 2020-01-21 Apple Inc. Federated search
US20180365318A1 (en) * 2017-06-19 2018-12-20 Microsoft Technology Licensing, Llc Semantic analysis of search results to generate snippets responsive to receipt of a query

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能
CN108027820A (zh) * 2016-09-02 2018-05-11 百度时代网络技术(北京)有限公司 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TIEDEMANN: "Automatic Construction of Weighted String Similarity Measures", SIGDAT, pages 213 - 219 *

Also Published As

Publication number Publication date
US20220050833A1 (en) 2022-02-17
US20200117742A1 (en) 2020-04-16
WO2020081158A1 (en) 2020-04-23

Similar Documents

Publication Publication Date Title
CN107846350B (zh) 一种语境感知网络聊天的方法、计算机可读介质和***
US11302330B2 (en) Clarifying questions for rewriting ambiguous user utterance
US11256868B2 (en) Architecture for resolving ambiguous user utterance
US20220050833A1 (en) Dynamically suppressing query answers in search
US8886589B2 (en) Providing knowledge content to users
CN104969173B (zh) 动态应用过滤运算器的自适应对话状态管理方法和***
JP2022551788A (ja) 補助システムのためのプロアクティブコンテンツを生成すること
US20220171819A1 (en) Selective presentation of rich experiences in search
CN114600099A (zh) 使用助理***的基于自然语言理解的元语音***提高语音识别精度
JP2021522561A (ja) 補助システムとのユーザ対話のための個人化されたジェスチャー認識
US7742922B2 (en) Speech interface for search engines
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
WO2020072161A1 (en) User-centric browser location
US9639633B2 (en) Providing information services related to multimodal inputs
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN116018791A (zh) 在助手***中使用单个请求进行多人呼叫
TW202301080A (zh) 輔助系統的多裝置調解
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
US11574246B2 (en) Updating training examples for artificial intelligence
AU2022204665B2 (en) Automated search and presentation computing system
KR102648990B1 (ko) 또래 학습 추천 방법 및 장치
US20240144049A1 (en) Computerized question answering based on evidence chains
US20240126993A1 (en) Transformer-based text encoder for passage retrieval
CN117216361A (zh) 推荐方法、装置、电子设备及计算机可读存储介质
CN117520544A (zh) 基于人工智能的信息鉴定方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination