CN106663124A

CN106663124A - 生成和使用知识增强型模型

Info

Publication number: CN106663124A
Application number: CN201580043229.6A
Authority: CN
Inventors: 单瀛; 毛建昌
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-08-11
Filing date: 2015-08-11
Publication date: 2017-05-10
Anticipated expiration: 2035-08-11
Also published as: EP3180742A1; US20160042296A1; WO2016025412A1; CN106663124B; TW201617941A; US10089580B2; EP3180742B1

Abstract

本文描述用于基于用户行为数据和知识数据生成模型的功能。在一种情况下，用户行为数据标识由用户提交的查询，连同由用户响应于查询而做出的选择。知识数据表示如一个或多个结构化知识资源表达的语言项之间的关系。功能利用知识数据提供关于可能不能通过用户行为数据充分捕获的语义关系的信息，以由此产生更稳健和精确的模型(与仅基于用户行为数据产生的模型相比)。本文还描述用于在被训练后应用模型的功能。在一种情况下，模型可以对应于深度学习模型。

Description

生成和使用知识增强型模型

背景技术

典型的商业搜索引擎可以采用在机器学习过程中产生的模型。机器学习过程可以基于点通(click-through)数据来训练模型。点通数据进而标识由用户提交的查询以及由用户响应于查询而做出的选择(例如“点击”)。

发明内容

本文描述一种用于基于用户行为数据和知识数据、使用机器学习过程来生成模型的计算机实现的功能。用户行为数据标识由用户提交的语言项，以及响应于语言项而由用户做出的选择。例如，用户行为数据可以对应于点通数据，包括由用户提交的查询连同响应于查询而由用户做出的点击选择。知识数据表示语言项之间的关系，如通过一个或多个结构化知识资源表达。功能利用知识数据以提供关于可能不能通过用户行为数据充分捕获的语义关系的信息，因此与仅仅基于用户行为数据训练的模型相比产生更精确和稳健的模型。

本公开还涉及在以上归纳的查询中产生的模型以及针对在搜索引擎内应用模型的功能。

根据一个非限制性实施方式，模型对应于深度学习模型。深度学习模型使用多级分析以将每个语言输入项变换为概念矢量。概念矢量表达语义空间内的语言输入项的高级含义。

以上方法可以在各种类型的***、元件、方法、计算机可读存储介质、数据结构等中表现。

提供了本发明的发明内容以便引入简化的形式的概念的选择；这些概念进一步在下面的具体实施方式中描述。本发明内容并不旨在识别所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

附图说明

图1示出用于产生并应用模型的说明性环境，模型是诸如但不限于深度学习模型。模型基于用户行为数据和知识数据的组合而产生。

图2示出表示仅通过点通数据训练的模型的性能的直方图。

图3示出表示通过点通数据和知识数据两者训练的模型的性能的直方图。

图4示出表示图1环境的一个实施方式的计算机***。

图5示出作为图1的环境的元件的训练数据编译模块(TDCM)的一个实施方式。TDCM生成用于训练模型中的主训练数据。主训练数据进而基于用户行为数据和知识数据而产生。

图6示出一种类型的结构化知识资源的结构的示例。

图7示出图1的环境的元件的排名***的一个实施方式。

图8示出作为图7的排名***的元件的相关性评估框架(RAF)的一个实施方式。RAF利用深度学习模型的使用。

图9示出作为图8的RAF的元件的语义变换模块的一个实施方式。

图10示出图8的整体RAF的一个实施方式。

图11示出用于产生深度学习模型的训练***(也在图1中示出)的一个实施方式。

图12是概述一种基于用户行为数据和点通数据来产生模型的方式的流程图。

图13是解释一种基于用户行为数据和知识数据来产生主训练数据的方式的流程图。

图14是示出根据图12和图13的流程图在搜索引擎中产生的一种应用模型的方式的流程图。

图15示出可以用于实施前面附图中示出的特征的任意方面的说明性计算功能。

在整个公开和附图中，相同的编号用于指示相同的元件和特征。序号100表示源自图1中的特征，序号200表示源自图2中的特征，序号300表示源自图3中的特征等。

具体实施方式

本公开被组织如下。部分A描述用于基于不同类型的训练数据产生模型，以及然后应用模型以确定至少两个语言项之间的关联性的程度的说明性计算机实施功能。部分B阐述解释A部分的功能性的操作的说明性方法。部分C描述可以用于实施部分A和部分B中描述的特征的任意方面的说明性计算功能。

作为正文前的图文，一些附图描述在一个或多个结构元件的上下文中的概念，一个或多个结构元件不同地被称为功能、模块、特征、元件等。附图中示出的各种元件可以以通过任意物理和有形机制的任意方式而被实施，例如通过在计算机设备上运行的软件、硬件(例如芯片实现的逻辑功能)等和/或其任意组合而被实施。在一种情况下，附图中示出的将各种元件分割成不同单元在实际实施方式中可以反映出对应的不同的物理和有形元件的使用。备选地或附加地，附图中示出的任意单个元件可以通过多个实际物理元件实施。备选地或附加地，附图中对任意两个或多个分离的元件的描绘可以反映由单个实际物理元件执行的不同的功能。将被描述的图15进而提供关于附图中示出的功能的一个说明性物理实施方式的额外的细节。

其它附图以流程图形式来描述概念。在这种形式中，特定操作被描述为构造以特定顺序执行的不同块。这种实施方式是说明性的和非限制性的。本文描述的特定块可以被一起组合并且在单个操作中执行，特定块可以被拆解成多个元件块，并且特定块可以以不同于本文说明的顺序(包括执行块的并行方式)执行。流程图中示出的块可以以通过任意物理和有形机制的任意方式而被实施，例如通过在计算机设备上运行的软件、硬件(例如芯片实现的逻辑功能)等和/或其任意组合而被实施。

关于术语，短语“被配置为”包含任意种类的物理和有形功能可以被构造以执行被识别操作的任意方式。功能可以被配置为使用例如在计算机设备上运行的软件、硬件(例如芯片实现的逻辑功能)等和/或其任意组合执行操作。

术语“逻辑”包含用于执行任务的任意物理和有形功能。例如，流程图中示出的每个操作与用于执行那个操作的逻辑元件相对应。操作可以使用例如在计算机设备上运行的软件、硬件(例如芯片实现的逻辑功能)等和/或其任意组合来执行。当通过计算设备执行时，逻辑元件表示作为计算***的物理部件然而被实施的电元件。

以下解释可以将一个或多个特征识别为“可选的”。这种类型的陈述将不被解释为详尽指示出可被视为可选的特征；即，其它特征可以被认为可选的，尽管在本文中没有明确识别。此外，对单个实体的任何描述并不旨在排除多个这种实体的使用；类似地，多个实体的描述并不旨在排除单个实体的使用。最后，术语“示例性的”或“说明性的”指潜在的许多实施方式中的一个实施方式。

A.说明性功能

A.1.概述

图1示出环境102，其包括训练框架104以用于基于机器学习过程产生模型106。在一个非限制性实施方式中，模型106对应于深度学习模型。深度学习模型使用多层分析框架、通过将语言输入项投射到在语义空间中表达的概念矢量中而操作。(下面)子部分A.3描述一种类型的深度学习模型的组成和应用；该特定的模型包括与多级深度神经网络(DNN)结合的初步散列层。在其它情况下，模型106可以对应于其它类型的深度学习模型，诸如卷积模型。在其它情况下，模型106可以对应于在机器学习过程中产生的任意其它类型的模型(不限于深度学习模型)，诸如线性模型、决策树模型、随机森林模型、基于聚类的模型、概率图模型(诸如贝叶斯分级模型)等。

如在本文中被一般性使用的术语，语言项对应于以任何自然语言和/或其它符号化框架表达的、由一个或多个单词和/或其它符号的序列组成的任何承载信息的项。语言项还可以包括作为其一部分的非语言内容，诸如图片内容等。

不同的***可以使用模型106。在一个示例中，搜索引擎108从用户接收输入的语言项，诸如查询。搜索引擎108使用模型106选择与输入的语言项相关的零个、一个或多个输出语言项(诸如文件)。搜索引擎108然后可以将输出项进行排名并且将输出项递送给用户。

首先参考训练框架104，训练数据编译模块(TDCM)110生成一系列主训练数据。数据存储112存储主训练数据(在本文的所有情况下，术语“数据存储”可以对应于设置在单个地点或分布在多个地点处的一个或多个底层物理存储机制)。训练***114然后使用任意类型的机器学习过程来基于主训练数据生成临时模型116。下面子部分A.2提供关于TDCM 110的额外的细节。子部分A.4提供关于训练***114的额外细节。

验证***118可以基于在数据存储120内保持(hold-out)的训练数据来确定临时模型116的精确性。如果验证***118确定临时模型116没有产生足够精确的输出结果，则模型开发者可以使用训练***114生成另一模型。即，训练模型114可以基于额外的主训练数据和/或不同的参数值选择等来产生新模型。训练框架104可以重复上述过程一次或多次直到其产生具有满意的精确性和稳健性的最终模型106。模型开发者然后可以将模型106部署在搜索引擎108(或其它应用设置)中以用于在处理用户查询时实时使用。

在操作中，TDCM 110从至少两个源来精选(cull)主训练数据。作为第一源，TDCM110从这种数据的存储库122(例如数据存储)接收用户行为数据。用户行为数据描述由用户提交的语言项连同由用户响应于语言项而采取的动作。例如，用户行为数据可以对应于从由任意搜索引擎(诸如搜索引擎108)所保持的点击记录中提取的点通数据。点通数据标识由用户提交的查询，连同由用户响应于查询而做出的点击选择。如本文使用的，“点击”广义地描述用户可以表达对某项(诸如文件)的兴趣的任意方式。例如，在一些情况下，用户可以通过使用鼠标设备等明确地在其上点击，或者在触敏用户界面显示上对其触摸等来在搜索结果页面中选择项。在其它情况下，用户可以通过使用任意输入设备悬停在其上方来选择项。在其它情况下，用户可以通过执行涉及项(诸如通过填写调查、购买对应产品等)的一些事务(transaction)来选择项。

作为第二源，TDCM 110从设置在一个或多个数据存储124中的一个或多个结构化知识资源接收知识数据。结构化知识资源表示任意类型的数据结构，其表示项之间的关系。例如，一种类型的结构化知识资源可以对应于由新泽西普林斯顿的普林斯顿大学产生的WordNet知识资源。WordNet知识资源识别同义词组(指同义词集合)和组中的语义关系。如在本文使用的术语，知识数据的实例(至少部分地)表示从至少一个结构化知识资源提取的信息。例如，知识数据的实例可以表示从WordNet知识资源的同义词集合提取的至少两个同义词术语。子部分A.2(以下)提供关于可以用在图1的环境102内的不同类型的结构化知识资源的额外信息；该子部分还描述用于从资源采样知识数据的技术。

还如子部分A.2将描述的，TDCM 110将用户行为数据和知识数据变换为一致的格式，以产生一致的用户行为数据和一致的知识数据。例如，在一个情况下，TDCM 110可以将知识数据转换为与用户行为数据相同的格式。

现在参考搜索引擎108，在一个实施方式中，搜索引擎108表示通过一个或多个远程计算设备(其中“远程”表示搜索引擎108参照与该搜索引擎108交互的用户的位置)执行的功能。在那种情况下，用户可以经由任意类型的本地用户计算设备126与实施引擎108交互。在另一情况下，搜索引擎108表示由本地用户计算设备126提供的本地资源。例如，如在本文广泛地使用的术语，搜索引擎108可以表示与特定应用或操作***等相关联的检索引擎。在其它情况下，与搜索引擎108相关联的功能可以以任意方式分布在远程和本地资源之间。

在一种操作方式中，搜索引擎108从用户接收输入查询。输入查询可以表示任意输入的语言项，诸如由用户指定的一个或多个关键词。另外地或备选地，输入查询可以包括识别其中用户已经录入查询的上下文的上下文信息。例如，上下文信息可以指定用户的位置、用户的人口学特征、用户的兴趣等。(如部分C描述的，环境102采用与其存储和任意这种用户数据的使用相关的合适的隐私相关的保护)。

搜索引擎108使用模型106来识别与输入查询相关的零个、一个或多个输出语言项。例如，输出语言项可以对应于文件或文件的部分等。术语文件进而包含各种文本承载的语言项，包括由任意类型的单词处理程序产生的文件、电子邮件消息、具有文本标签或注释的图像和视频、网页或其它互联网可访问内容项、广告等。在其它情况下，文件可以对应于任意类型的数据结构中或记录的任意非结构存储库中的任意记录。例如，文件可以对应于表格内的条目、与知识图相关联的节点等。例如，在一种情况下，文件可以涉及实体，例如，由企业图识别的人、位置、公司等。

搜索引擎108可以从一个或多个数据存储128中检索目标文件。数据存储128可以是相对于用户的位置远程和/或本地的。例如，数据存储128可以表示可以通过诸如互连网的广域网访问的分布式资源。

在一个实施方式中，搜索引擎108可以包括或被概念化为包括接口模块130和排名***132。接口模块130表示搜索引擎108使用以与用户交互的任何功能。例如，接口模块130可以提供用户可以通过其他或她的查询的页面，以及递送已经被确定为与用户的查询相关的搜索结果的一个或多个页面。排名***132提供将用户的查询与数据存储128中的文件进行比较的功能。子部分A.3(以下)提供根据一个非限制性实施方式的、关于排名***132的操作的一种方式的额外信息。

在其它实施方式中，搜索引擎108可以执行其它相应功能。例如，在一个备选的应用中，用户可以指定文件的部分或整个文件作为第一语言项。用户然后可以利用搜索引擎108找到与第一语言项相关的其它文件部分或多个文件。或者，搜索引擎108可以更通常地被利用以找到相关语言项的群集等。

总体上，从高层级角度，训练框架104利用知识数据的使用以补充点通数据中的任意缺陷。因此，与仅仅基于点通数据训练的模型相比，由训练框架104产生的模型106可以产生更精确和稳健的结果。用户通过以时间高效的方式来定位期望的信息而从模型106中获益，例如因为用户可以减少所需用于识别有用信息的查询的数量。搜索引擎108通过以资源高效的方式处理用户搜索会话来从模型106中获益，再一次指出，由于在用户搜索会话的过程中其更快速地识别相关搜索结果的能力。例如，模型106可以有助于搜索引擎高效使用其处理和存储资源。

图2和图3的直方图显示了将知识数据注入到训练组中的优势。即，图2表示使用点通数据而不是知识数据来建立的模型的性能；相反，图3表示使用点通数据和知识数据两者来建立的模型的性能。每个图表示当应用到语言项对的语料库时其模型的性能，每个语言项对的语料库已经被先验地确定为相关。例如，语言项的语料库可以对应于在结构化知识资源(诸如WordNet知识资源)中识别的同义词对。水平轴线上的每个点表示由模型生成的相关性分数。竖直轴线上的每个点表示共享特定相关性分数的语料库内的多个语言项对。

首先参考图2，该图示出最右侧波峰202和最左侧波峰204。最右侧波峰202对应于具有相对高的相关性分数的训练数据中的第一子集对，表示在相应对中的术语彼此相关的结论。模型对于最右侧波峰202表现良好，因为与那个部分相关联的项对通过点通项而被充分地表示。相反，最左侧波峰204对应于具有相对低的相关性分数的训练数据中的第二子集对，表示在各个对中的术语不相关或至少不是强相关的结论。模型对于最左侧波峰204表现并不良好，因为与那个部分相关联的项对并未通过点通数据而被充分捕获。当点通数据的语料库维度小或另外受限于其范围时，例如因为还没有编译足够数量的历史数据时，与最左侧波峰204相关联的缺陷可能尤其显著。

为了理解图2的模型的潜在缺陷，考虑用于产生模型的点通数据的根源。在一个情况下，用户从在搜索结果中被识别的输出项中例如通过在那些项上“点击”而进行选择。搜索引擎进而基于一些排名算法来生成搜索结果。因此，用户的点击隐含地反映或体现出任何排名分析通过搜索引擎执行。作为进一步的结果，基于点通数据生成的模型可以具有加强排名分析的逻辑，或者，换言之，加强排名分析已经知道的关系的净效果(net effect)。再次指出，这种结果可以在最右侧波峰202中观察，其对应于训练数据中具有相对高的相关性分数的对。模型在发现通过搜索结果中呈现的输出项而没有被良好表示的关系的方面可能表现地不太成功。这种结果可以在最左侧波峰204中以相对低的相关性分数观察到，其对应于不出现在训练数据中的知识基础中的语义相关对。

相反，图3示出单个波峰302，其对应于具有相对高的相关性分数的训练数据中的对，反映出在相应对中的术语相关的结论。图3的情况下的模型的成功是由于其使用知识数据结合点通数据而造成的。知识数据提供可能在点通数据中丢失的相关训练示例，从而使得产生的整体模型细查(canvasses)与图2的情况相比较更广示例范围。作为最终结果，模型在发现没有通过点通数据单独表示的新的语义关系方面更成功(与图2的情况相比较)。

图4示出表示图1的环境102的一个实施方式。计算机***402可以包括实施训练框架104的远程处理***404和实施远程搜索引擎408的远程处理***406。每个远程处理***(404、406)可以物理地对应于一个或多个服务器计算设备、一个或多个数据存储和/或其它计算设备；这种计算资源可以在单个地点处提供，或者可以分布在多个地点处。在一种情况下，远程处理***404和远程处理***406可以表示由单个实体执行的单个的整体***的两个部分。在另一情况下，远程处理***404和远程处理***406可以表示由同一个实体或两个不同的实体执行的两个不同的***。

用户可以使用相应的用户设备，诸如典型的用户计算设备410，而与由远程处理***406提供的搜索引擎408交互。每个用户计算设备可以对应于：任意类型的个人计算设备、平板型计算设备、智能电话、电子媒体消费设备、游戏机、机顶盒、可穿戴计算设备等。

计算机网络412将本地计算设备与由远程处理***406提供的搜索引擎108耦合。计算机网络412可以对应于广域网(例如互联网)、局域网、一个或多个点对点链路等或其任意组合。

在另一情况下，用户可以与主持本地搜索引擎416的另一用户计算设备414交互；在那种情况下，搜索引擎416可以备选地被称为检索引擎。在另一情况下，图1的搜索引擎108的方面可以以任意方式分布在本地用户计算设备和远程处理***406之间。

A.2训练数据编译模块(TDCM)

图5示出训练数据编译模块(TDCM)110的一个实施方式。如上所述，TDCM 110生成用于训练模块106的主训练数据。同样如上所述，TDCM 110从用户行为数据的存储库122接收用户行为数据(例如，点击数据)并从保持在一个或多个数据存储124中的一个或多个结构化知识资源接收知识数据。

用户行为存储库122可以通过任意功能而被管理。在一个情况下，搜索引擎诸如华盛顿雷德蒙德的微软公司生产的必应搜索引擎产生用户行为存储库122。在一个示例中，那个存储库122中的用户行为数据提供由用户提交的查询的历史记录，连同用户响应于提交那些查询而进行的动作(例如，点击、未被点击等)的指示。(如部分C描述的，环境102采用关于这种用户数据的收集和应用的各种隐私相关的保护)。

每个结构化知识资源可以包括使用任意数据结构来组织任意语言项的任意类型的本体(ontology)。说明性的数据结构包括层级、列表、表格、图表等。此外，任意技术可以用于生成结构化知识资源。例如，在一些情况下，一个或多个专家可以手动地生成结构化知识资源。在其它情况下，众包从业者(crowdsourcing workforce)可以例如通过限定结构化知识资源中的语言项之间的关系来生成结构化知识资源。在一些情况下，图1的环境102可以依赖于预先存在、公众可获得的结构化知识资源。另外地或备选地，环境102可以依赖于其自身的自定义生成的结构化知识资源。

如上所述，结构化知识资源中的一种可以对应于WordNet资源。如图6中概念性地描绘，WordNet结构的知识资源提供与相应概念相关联的节点的层级结构。每个节点通而对应于一组同义词，其称为同义词集和(synsets)。例如，图6示出这同义词集和的层级中的***性的同义词集合。同义词集合a包括同义词单词{w_a1，w_a2，…，w_an}的集合；同义词结合b包括单词{w_b1，w_b2，…，w_bn}的集合；同义词集合c包括同义词单词{w_c1，w_c2，…，w_cn}的集合。

WordNet资源还可以提供将不同同义词集合连接在一起的链。每个链表示两个链接的同义词集合之间的语义关系。例如，子同义词集合可以通过链联接到母同义词集合；该链指示子同义词集合是与母同义词集合相关联的更一般性概念的种类。

另外，WordNet资源可以存储用于其本体中的每个单词配对的相似性测量。相似性测量描述单词之间的语义关联性的程度。相似性测量还可以被概念化为两个单词之间的语义距离d。在一个配置中，例如，相对远离的两个单词彼此不是紧密相关；相对靠近在一起的两个单词紧密相关。

重复指出，WordNet结构知识资源仅仅表示一个可能的资源，知识数据可以从该资源获得。例如，另外地或备选地，TDCM 110可以从以下各项中的任意一项获得知识数据：由开放目录工程(ODP)团体维护的DMOZ资源；与***网址相关联的DBPedia目录；由华盛顿雷德蒙德的微软公司提供的Satori知识资源；任意产品目录等。DMOZ资源对可经由万维网(WWW)访问的链接进行分类的本体。DBPedia资源提供在***合作的百科网址上找到的内容的本体。Satori知识资源提供从各种源提取的图表，图表提供关于实体的以及实体之间的关系的信息。产品目录提供将可用于销售的物品和/或服务等进行分类的本体。这些结构化知识资源通过示例而不限制的方式被引用，图1的环境102可以依赖于结构化知识资源的以上没有特别提及的其它类型。

返回图5，TDCM 110包括用于从存储库122采样用户行为数据的第一采样模块502，以产生采样的用户行为数据。第一采样模块502可以以任意方式执行这种采样，例如以随机选择存储库122中保持的历史数据的子集的方式执行这种采样。备选地或另外地，第一采样模块502可以从存储库122精选表示查询主题的期望的分布等的历史数据。第一采样模块502可以在数据存储504中存储采样的用户行为数据。

在一种情况下，用户行为数据的实例可以对应于一组数据{Q、A、c、w}。Q表示由用户提交的查询。A表示用户可能已经或可能尚未选择的候选回答案。c表示用户响应于查询Q的提交是否点击在回答A上的指示。例如，值1可以指示点击，而值0可以表示没有点击。可选的w变量表示与用户的点击相关联的权重。例如，权重可以指示组{Q、A、c}出现在已经收集的训练数据内的次数。即，采样模块502可以通过利用w变量将重复的查询-点击事件压缩为单个记录。在其它情况下，采样模块502可以存储相同查询-回答-点击组的重复版本，而不将它们压缩为单个记录，从而避免使用w变量。

关于点击变量c，在一些情况下，0值可以指示用户明确地被呈现有机会以选择目标语言项，但是拒绝做出这种选择。例如，0值可以指示搜索引擎响应于查询的提交而将候选文件提供给用户以供他或她的考虑，但用户并未点击在那个特定回答上。在另一情况下，采样模块502可以通过从可能回答的数据库中随机选择任意回答而“人工地”产生未被点击事件，假设用户响应于提交他或她的查询而实际上没有点击在那个回答上。但是在后一种情况下，不需要将回答实际呈献给用户以供他或她的考虑。第一采样模块502可以在训练操作之前和/或在训练操作期间以请求式方式提取不相关(“负面的”)的查询-回答对。

第二采样模块506可以从一个或多个结构化知识资源采样知识数据，以产生采样的知识数据。第二采样模块506可以使用任意管理员可配置的规则来执行这种采样任务。例如，在一个仅说明性的情况下，第二采样模块506可以从上述的WordNet资源提取相关名词对。关联性可以以不同的方式评估。在一个方式中，如果两个名词之间的语义距离(对应于由WordNet资源提供的相似性测量)小于规定的阈值，则第二采样模块506可以确定这两个名词相关。在另一方式中，如果两个名词源自同一同义词集合，则第二采样模块506可以确定这两个名词相关。例如，参照图6，第二采样模块可以从同义词集合a提取一个或多个对，从同义词集合b提取一个或多个对，从同义词集合c提取一个或多个对，等等。

第二采样模块506还可以以任意方式提取不相关语言项对，例如，假设第二采样模块506首先基于从结构化知识资源提取的信息确定名词“狗”和“犬”相关。单词“狗”用作查询的代理，而单词“犬”用作匹配查询的文件的代理。第二采样模块506接下来可以拾取假定为与名词“狗”不相关的至少一个名词(例如，“自行车”)。单词“自行车”用作用户响应于查询“狗”而不点击的文件的代理。

例如，如果两个名词之间的距离(如由WordNet资源提供的相似性测量反映的)大于阈值距离，则第二采样模块506可以确定这两个名词不相关。在另一方式中，如果两个名词彼此反义(其为由WordNet资源提供的信息)，则第二采样模块506可以确定这两个名词不相关。在另一方式中，如果两个名词来源于不同的同义词集合，则第二采样模块506可以确定这两个名词不相关。在另一方式中，如果两个名词从结构化知识资源随机选择，则第二采样模块506可以确定这两个名词不相关。例如，再一次假设第二采样模块506首先基于从结构化知识资源提取的信息确定名词“狗”和“犬”相关。在随机拾取的单词将与“狗”不相关的假设下，第二采样模块506接下来可以从结构化知识资源随机拾取另一单词。如果存在从其中选择的名词的大型池，则这种结论(对将不相关的结论)可能不是在每一个情况下都为真，但是将平均为真。或者，第二采样模块506可以执行后续步骤，即，排除那些结构化知识资源指示的实际上为相关的随机选择的名词对。用于选择不相关名词对的其它方法是可能的。

不同的结构化知识资源(不同于WordNet资源)可以以与上面详细描述的那些相比较而言的其它方式来识别语言项之间的类似性。第二采样模块506可以针对不同的相应的结构化知识资源而相应地应用不同的采样技术。例如，考虑识别共享一个或多个共同特征的产品的子集的产品目录，诸如来源于特定区域或葡萄园的红酒的类型。第二采样模块506可以在这些项语义上相关的假设下从这个子集选择项对。

由于以上处理，第二采样模块506产生可以采样的知识数据，其包括相关项的子集和不相关项的子集。例如，从实体图提取的一对相关项可以对应于名词“巴尔的摩”和“魅力之城”，其中“魅力之城”是城市巴尔的摩的确定的昵称。一对不相关的术语可以对应于名词“巴尔的摩”和“帝国大厦”。在另一实施方式中，第二采样模块506可以在以上述任意方式的训练过程期间、以请求式方式提取知识数据的负面实例(与不相关术语相关联)，而不是在上述准备操作中或在上述准备操作中之外。

在一个实施方式中，以任何方式获得的知识数据的实例可以包含数据组{L₁、L₂、d、f₁、f₂}。L₁和L₂表示从结构化知识资源提取的语言项对，诸如“巴尔的摩”和“魅力之城”对，例如，其中L₁表示用于查询的代理，并且L₂表示用于文件的代理。D表示两个语言项之间的距离。选项f₁和f₂表示分别于第一和第二语言项相关联的频率测量。变量d、f₁和f₂可以针对不同的相应结构化知识资源具有不同的解释。在一种情况下，距离d可以指示基于任意测量建立的两个语言项之间的相关性程度(degree of relevance)。例如，在一个仅说明性的情况下，值d＝1可以指示语言项以如上所述的任意方式被评估为相关(如在“巴尔的摩”和“魅力之城”中)。值d＝0可以指示语言项以如上所述的任意方式被评估为不相关(如在“巴尔的摩”和“帝国大厦”中)。每个频率测量可以指示用户在之前的场合中已经在搜索查询中使用对应的术语多少次，如通过搜索引擎保持的搜索记录数据反映的。例如，针对术语“巴尔的摩”的频率测量可以指示用户已经在之前的查询中使用该短语多少次。因此，在这个示例中，频率信息是不从结构数据资源本身提取的一条数据；但是在其它情况下，结构化数据资源可以提供这种信息。

转换模块508操作以将采样的知识数据的格式转换为采样的用户行为数据的格式，以产生转换的知识数据。例如，在一个情况下，转换模块508可以将具有值1的距离值转换为具有值1的点击值，并且将具有值0的距离值转换为具有值0的点击值。类似地，转换模块508可以通过取f₁值和f₂值的平均值来形成权重值。在其它情况下，TDCM 110可以操作而在不使用权重变量，例如通过针对训练数据的全部实例设置w＝1。数据存储510存储转换的知识数据。

如上面所阐述的，TDCM 110可以更通常地可以被认为将采样的知识数据和采样的用户行为数据转换为一致的格式。在其它情况下，例如，TDCM 110可以通过将用户行为数据转换为与知识数据相同的格式来执行以上转换操作。在其它情况下，TDCM 110可以通过将知识数据和用户行为数据转换为另一共同格式来执行以上转换操作，该另一共同格式不同于原始知识数据格式和用户行为数据格式。

整合模块512整合一致的知识数据与一致的用户行为数据，以产生主训练数据。在一个实施方式中，整合模块512可以通过将在数据存储510中提供的转换的知识数据与在数据存储504中提供的采样的用户行为数据进行整合来执行这种整合操作。在执行这种整合时，整合模块512可以基于与转换的知识数据或采样的用户行为数据的特定实例相关联联的权重w变量的值来生成训练数据的n复制的实例。例如，针对实例{L₁＝巴尔的摩，L₂＝魅力之城，c＝1，w＝5}，整合模块512可以在主训练数据的组中生成实例{L₁、L₂、c}的五个副本。在另一实施方式中，整合模块512可以以其原始形式保持变量w，而不执行上述实例的复制。训练***114然后可以以考虑w变量的方式执行其训练操作。换言之，在那种情况下，w变量构成用于训练模型106的另一条信息。

如上所述，在其它实施方式中，主训练数据最初可以排除与用户行为数据和知识数据相关联的负面对，诸如“巴尔的摩”和“帝国大厦”对。训练***114可以在训练过程期间以请求式方式生成负面对。这种实施方式可以降低TDCM 110的存储要求。如上面所解释的，基于对的成员将是不相关的假设，每个不相关对可以在训练过程之前和/或在训练过程期间以请求式方式随机选择；这种默认假设在大多数情况下将是有效的。另外地或备选地，不相关对可以基于指示对中的成员不相关的明确信息而在训练过程之前和/或训练过程期间以请求式方式生成。

A.3.排名***

图7提供作为图1的搜索引擎108的元件的排名***132的概述。排名***132包括相关性评估框架(RAF)702和排名模块704。RAF 702使用模型106确定一对或多对语言项的关联性。例如，假设用户输入查询，其可以称为第一语言项或输入的语言项。RAF 702可以使用模型106将查询与文件进行比较，其可以称为第二语言项或输出语言项。在这样做时，RAF702计算针对查询和文件的相关性测量，其表达文件与查询的相关性。在实际实践中，RAF702可以以连续的方式(一个接一个)或以并行的方式将查询与文件进行比较。

例如，假设查询对应于短语“巴尔的摩”。进一步假设第一文件组成标题“魅力之城”，第二文件组成标题“帝国大厦”。在被成功训练的情况下，RAF 702将生成对(“巴尔的摩”、“魅力之城”)的相关性测量，其高于针对对(“巴尔的摩”、“帝国大厦”)的相关性测量；这里假设关联分数随着相关性程度增加而增加，这不需要在全部实施方式中都是这种情况。

排名模块704可以利用排名模型706将排名分数分配至每一个在考虑中的输出语言项(例如，每个文件)。更具体地，排名模型706可以可选地与任意其它因素一起基于针对输出语言项(由RAF 702计算)的相关性测量来生成排名分数。排名模型706可以实施任意类型的技术以用于生成排名分数。例如，在没有限制的情况下，排名模型706可以对应于机器训练的模型，其基于不同排名特征的线性组合(其中，由RAF 702计算的相关性测量为一个这种特征)生成排名分数。作为最后过程，排名模块704可以基于它们计算的排名分数来对输出语言项(例如，文件)进行排名。

图8示出针对模型106对应于深度的学习模型的特定情况的RAF 702的一个实施方式。更特别地，图8描绘RAF 702被应用于比较两个语言项的关联性的任务。如上所述，第一语言项可以对应于查询，而第二语言项可以对应于文件等。然而，RAF 702不限于这种说明性应用。

更特别地，图8将RAF 702描绘成包括用于处理第一语言项(例如，查询)的第一语义变换模块802和用于处理第二语言项(例如，文件)的第二语义变换模块804。尽管未示出，但RAF 702可以包括额外的变换模块以用于处理额外语言项(例如，额外文件)。每个变换模块使用模型106的例示将输入矢量映射到输出概念矢量。例如，第一变换模块802将表示第一语言项(例如，查询)的第一输入矢量映射到第一概念矢量y_Q。第二变换模块804将表示第二语言项(例如，文件)的第二输入矢量映射到第二概念矢量y_D。“矢量”对应于具有与相应的矢量维度相关联的两个或更多元素的任意信息。概念矢量被表达在语义空间中并且揭示关于来自导出其的对应的语言项的语义信息。例如，针对术语“巴尔的摩”的概念矢量可以揭示指示这个术语与昵称魅力之城有关的信息。

在一种情况下，RAF 702实际可以提供变换功能的两个或更多不同的实例以实施图8中示出的多个变换模块(802、804)。例如，RAF 702可以提供与变换功能的不同实例相关联的两个或多个物理处理元件。备选地或另外地，RAF 702可以提供不同的软件实施的变换功能的实例。备选地或另外地，RAF 702可以使用单个的变换功能的实例以例如通过将查询投射到语义域中而连续地处理分开的输入的语言项，并且然后一个接一个地将一组文件投射到语义域中。

比较模块806可以将查询概念矢量y_Q与文件概念矢量y_D进行比较，以产生相关性测量。相关性测量R(Q、D)提供两个概念矢量之间的语义关系的程度的指示。相关性可以以任意环境特定的方式而被定义。在一个情况下，例如，相关性测量指示查询与在被考虑中的文件的概念上相关性的程度。在语义空间中靠近在一起的两个矢量属于相同或相关概念。在语义空间上远离的两个矢量指不同的概念。

变换模块(802、804)可以以不同的方式实施。在一种方法中，第一变换模块802包括降维模块(DRM)808和深度结构化语义模块(DSSM)810。类似地，第二变换模块804包括DRM812和DSSM 814。DSSM基于深度学习模型106的相应实例来执行它们的功能。

每个DRM接收表示语言项的输入矢量。例如，DRM 808接收表示查询的输入矢量，而DRM 812接收描述在被考虑中的特定文件的输入矢量。第一DRM 808产生第一降维矢量，同时第二DRM 812产生第二降维矢量。降维矢量具有与其对应的输入矢量相比减小的维度，而仍表示在输入矢量中表达的相同的信息。

考虑DRM 808的操作；其它DRM以相同的方式操作。在一个实施方式中，DRM 808使用n元语法(n-grams)散列技术减小其输入矢量的维度。例如，假设上下文对应于短语“automotive body shop”，其可以进而对应于特定输入查询。RAF 702可以首先将这个短语表示为输入矢量，该输入矢量具有与可以以自然语言(诸如英语)表达的全部可能的单词相等的多个维度，包括单词“automotive”、“body”和“shop”。RAF 702可以设置值1用于输入矢量中的条目“automotive”“body”和“shop”，值0用于矢量中的全部其它条目。如果单词在输入短语中出现多次，那么针对那个单词的条目将反映单词出现的次数。换言之，以上描述的输入矢量提供输入短语的单词袋(bag-of-words)表示。如可以理解的，输入矢量对于大部分语言项将非常稀疏地分布。

DRM 808在考虑的情况下通过首先将虚拟符号(例如，符号“#”)附加至被考虑中的输入短语的开始或结束例如以产生“#automotivebodyshop#”来减少输入矢量的维度。DRM808然后可以在输入短语上运行n-字母窗口，以产生一系列n元语法。例如，当n＝3时，DRM808产生三字母组(trigram)的以下序列“#au”、“aut”、“uto”、“tom”、“omo”等，直到达到终止虚拟字符。DRM 808然后可以形成具有对应于特定语言的全部可能三字母组的维度的数量的降维矢量(其中可能排除一些令人不感兴趣的三字母组)。在那个矢量中，DRM 808可以例如通过对“#au”设置1值、对“aut”设置1值等、以及对其它条目设置值0，来对出现在输入短语中的三字母组条目设置1值。如果短语包括多次出现的相同三字母组，那么降维矢量中的对应的条目将指示三字母组的出现的次数。总之，存在比语言中独特的单词少很多的独特的三字母组，因此降维矢量将具有与输入矢量相比小很多的维度。

在另一实施方式中，DRM 808可以首先将输入短语转换为其语音表示(例如通过表达“cat”为“kat”)，然后在输入短语的语音表示上执行上述操作。例如，DRM 808可以在输入短语的语音版本上运行n字母窗口，然后基于出现在短语的语音表示中的三字母组形成降维矢量。

通常，为了以更加时间高效并且资源高效的方式执行模型106的训练的目的，可能可期待的是减小输入矢量的维度。RAF 702的实时操作还可以通过使用降维矢量而更高效地操作。在其它情况下，RAF 702可以使用其它技术来减小输入矢量的维度(除了以上n元散列技术之外)，诸如随机投射技术。在另一情况下，RAF 702可以完全省略DRM的使用，这意味着其在原始未压缩的输入矢量上操作。

每个DSSM使用模型106将输入降维矢量投射到概念矢量。更具体地，前进至图9，该附图示出了图8的DSSM 810的一个实施方式。第二变换模块804的DSSM 814具有类似的构造和操作方式，但是从图9中省略以有利于解释。

DSSM 810可以被实施为深度神经网络(DNN)，由多个层902组成。图9具体地示出DSSM 810包括四个层，但是更通常地，DSSM 810可以包括任意数量的层。每个层进而包括称为神经元的多个元素。每个神经元存储有值。在给定的层中，每个神经元进一步连接到直接前一层(如果有的话)中的零个、一个或多个神经元和直接后一层(如果有的话)的零个、一个或多个神经元。这里，“前”和“后”指关于通过DNN的信息流的从图9中的底部到顶部的方向相邻的层。即，关于给定层，在前层表示低层，而后层表示高层。

层902包括用于存储值的最底层904，其共同由矢量z₁表示。更具体地，层904表示到DSSM 810的输入，因此存储与由DRM 808提供的降维矢量相关联的值。下一层906存储具有从第一层中的值导出的值的矢量z₂，其与矢量z₁相关联。下一层908存储具有从层906中的值导出的值的矢量z₃，其与矢量z2相关联。最终输出层910存储概念矢量y，其具有从层908中的值导出的值，其与矢量z₃相关联。

图9还将各个层(904、906、908、910)表示为具有不同各自长度的框以指示不同层具有不同的相应的维度。在没有限制的情况下，在一个实施方式中，馈送到DRM 808的输入矢量x具有500K的维度，表示在识别的词汇表中具有500K可能的单词。层904具有30K的维度。例如，如果三字母组散列技术用于产生降维矢量，那么层904的维度表示在500K单词的原始语料库内具有30K独特的三字母组(其中可能排除一些令人不感兴趣的三字母组)。层906和层908均具有300个元素的维度。层910具有128个元素的维度。然而，在此重复指出，DSSM 810的另一实施方式可以采用任意数量的层，每个层可以具有任意矢量长度。

更加正式地论述，在一个实施方式中，层904中的矢量z₁可以表达为z₁＝W₁x，其中W₁表示由DRM 808使用的任何变换以产生较小维度矢量。层906和908中的矢量z_i可以表示为z_i＝f(W_iz_i-1+b_i)，其中i＝2，...N-1。层910中的矢量y可以表达为y＝f(W_Nz_N-1+b_N)，其中，在图9的特定示例中，N＝4。符号表示W_i表示由(图1的)训练***114产生的第i个权重矩阵，符号b_i表示可选地第i个偏置项，也由训练***114产生。称为激活函数的函数f(x)可以以不同的方式用公式表示，诸如下面的tanh函数：

图10示出采用参照图8和图9的上述原理的图7的排名***132的一个总体实施方式。如所示出的，第一变换模块1002在语义空间中产生表达查询(Q)的查询概念矢量y_Q。第二变换模块1004产生表示在相同语义空间中的文件(D₁)的文件概念矢量第三变换模块1006产生表示在相同语义空间中的文件(D_n)的另一文件概念矢量等。

更具体地，三个(或更多)变换模块(1002、1004…1006)可以通过分开的物理元件或软件实例实施。或者，三个(或更多)变换模块(1002、1004…1006)可以通过单个物理元件或软件实例实施，其连续地一个接一个地处理语言项。进一步地，文件变换模块(1004,…,1006)中的任意变换模块可以可选地在它们的输入的语言项上(例如，在候选文件D₁，…，D_n)执行它们的处理操作，作为离线处理，即，在用户提交查询Q之前。

第一比较模块1008确定语义空间中的查询Q和文件D₁之间的语义关系的程度(例如，相似性)，而第二比较模块1010确定语义空间中的查询Q和实体文件D_n之间的语义关系(例如，相似性)。在一个实施方式中，每个比较模块可以计算查询Q和文件D之间的语义关系(例如，相似性)作为余弦相似性测量，如下：

可以使用其它比较技术而不是余弦相似性确定技术，诸如曼哈顿距离确定技术。

排名模块704可以接收由比较模块(1008,…,1010)产生的相关性测量。基于相关性测量，连同任意其它特征，排名模块704然后可以将排名分数分配给每个候选文件。排名模块704可以使用排名模型706执行以上任务。

A.4.训练***

图11示出图1的训练***114的一个实施方式。在一个说明性和非限制性的情况下，训练***114处理主训练数据(数据存储112中提供的)的语料库，以生成模型106。模型106表示图9中示出的权重矩阵(W_i)和偏置因子(b_i)的集合。共同地，与模型106相关联的参数值使用符号Λ指代。

如上所述，数据存储112中的主训练数据来源于至少两个源：用户行为数据和知识数据。并且如所说的，用户行为数据可以对应于点通数据。术语“点击”旨在具有广泛的含义。其可以描述用户使用鼠标设备真正地点击在条目上的情况。但是术语点击还包含用户以任意其它方式示出对条目的兴趣的情况。

然而，形成的主训练数据包含多个训练数据实例，每个构成训练示例。在一个非限制性实施方式中，每个示例包括查询Q、响应于查询假定用户已经选择的文件(D⁺)、以及响应于查询用户没有选择的至少一个文件(D^-)。在图11的特定情况下，训练示例包括四个未点击文件但是训练示例可以包括任意数量的这种文件。

更具体地，一些训练示例可以来源于用户行为数据，而其它训练示例可以来源于知识数据。在一些情况下，一些训练示例还可以表示从用户行为数据和知识数据两者中提取的数据。因此，在一些情况下，“点击的”文件(D⁺)可以对应于响应于查询Q用户已经点击的实际文件。在其它情况下，“点击的”文件可以对应于从结构化知识资源提取的语言项，其用作响应于查询Q用户点击的代理(其中，在那种情况下，查询Q对应于从结构化知识资源提取的另一语言项)。在一些情况下，负面文件(D^-)可以指示用户被给予机会来选择文件，但是拒绝这样做；在其它情况下，负面文件可以简单地指示响应于提取查询Q用户没有选择这个特定文件，而不管用户是否曾给予机会来选择文件。在其它情况下，负面文件可以对应于语言项，其与查询Q不相关并且其以上述任意方式从结构化知识资源中提取。进一步地，如之前解释的，在一些情况下，TDCM 110可以在实际模型训练过程的开始之前以任意方式生成负面文件；备选地或另外地，TDCM 110可以在训练过程的过程中以任意方式生成负面文件。

训练***114通过使用迭代求解机制1102操作以通过迭代地改变模型Λ的参数值来迭代地实现由目标函数1104定义的目标。当迭代处理完成时，最终参数值组成训练的模型Λ。目标函数1104进而在完全被训练的情况下数学地表达模型Λ试图实现的目的。在当前情况下，目标函数规定在给定的相应询问下被点击的文件的条件似然度将被最大化，并且在给定的相应询问下未被点击的文件的条件似然度将被减小。换言之，目标函数试图使得被点击的文件的评估的相关性尽可能地高，而同时地试图使得未被点击的文件的评估的相关性尽可能地低。如上面解释的，注意到对于一些训练示例，被点击的文件可以表示从结构化知识资源提取的信息，而不是用户真正点击的文件；换言之，该信息用作被点击的文件的代理。

为了数学上导出目标函数，首先注意，给定查询Q，训练示例中的被点击文件(D⁺)的概率p(D|Q)首先可以被表示为如下的softmax函数：

项R_Λ(Q，D⁺)表示，对给定的针对与模型Λ相关联的参数的当前选择，语义空间中的查询Q和点击的文件D⁺之间的语义关系(例如，相似度)。项D表示训练实例中的五个文件的组，包括D⁺和四个被被点击文件，但是如上面陈述的，训练示例可以包括任意数量的未被点击文件。项R_Λ(Q，D′表示在语义空间中训练示例中的查询Q与文件(D′)中的一个文件之间的语义关系(例如，相似度)。符号ψ表示经验导出的平滑因子(例如，其可以通过对训练示例的保持的数据组进行分析而生成)。对于这个独立的训练示例，目标函数将尝试使得R(Q，D⁺)尽可能地高，并且使得每个R(Q，D^-)尽可能地低，以整体上使得p(D⁺|Q)尽可能地高，并且使得每个p(D^-|Q)尽可能地低。

总之，在考虑主训练数据的语料库中的全部训练实例的情况下，目标函数涉及尝试将给定对应的查询的被点击的文件的条件似然度最大化，或等价地将以下损失等式最小化：

换言之，目标在于，关于主训练数据中的全部示例或其一些子集而导出将上面等式最小化的一组参数值。

在一种方法中，迭代求解机制1102使用基于梯度的数值优化算法来求解以上问题，诸如梯度下降技术。迭代求解机制1102例如可以应用以下更新规则以执行优化：

这里，Λ_t和Λ_t-1是分别第t次和第t-1次迭代下的模型，并且∈_t是学习速率参数。从高层级视角，在从一次迭代到另一次迭代中，在模型Λ变化相对大的量的任何时刻，迭代求解机制1102做出模型Λ中较大的变化，并且在模型Λ变化较小量的任何时刻，做出模型模型Λ中较小的变化。

更具体地，假定在主训练数据中具有M个训练示例。第m个训练示例为对应于特定查询(Q_m)和响应于查询已经被点击的文件的配对。针对该单个训练实例的损失函数为：

损失函数的导数作为整体因此可以表达为：

项可以通过如下方式被导出。为了简化符号，下标m将在下面被省略。首先，上面导出的损失函数可以表达如下：

其中损失函数关于第N个权重矩阵W_N的梯度为：

其中：

并且

现在，让z_i，Q和z_i，D指分别指示针对查询Q和文件D的隐藏层i中的激活。并且让y_Q和y_D指分别针对查询Q和文件D的输出层910的输出激活。进一步地，为了简化下面的符号，让a、b和c分别对应于1/||y_Q||和1/||y_D||。最后，假定由模型使用的激活函数对应于上述等式(1)中的tanh函数。通过那些定义，等式(10)的右手侧中的每一项可以使用如下公式针对对(Q、D)计算：

其中：

并且

在以上等式中，运算为元素上相乘(即，Hadamard乘)。

针对每个连续隐藏层的值{δ}可以通过反向投射计算如下：

并且

因此，关于中间权重函数W_i，i＝2，...，N-1的损失函数的梯度可以计算为：

其中等于：

迭代求解机制1102可以在连续的反向投射和分析的向前阶段中(使用以上等式)应用以上等式，直到DNN在期望的公差度内精确地对主训练模式中表达的行为进行建模。即，迭代处理涉及计算分析的向前阶段中的神经元的激活、计算输出层的神经元中的误差项、将误差项反向传播到神经网络的其它层、基于误差项更新模型权重、并且重复以上操作。偏置因子b_i可以使用以上相同的方法导出。

训练***114可以使用并行处理资源1106执行以上处理。并行处理资源1106可以以任意方式实施，例如使用硬件单元、软件单元或其组合实施。例如，训练***114可以使用类似于图10中所示的架构。无论以何种方式实施，每个分开的处理单元可以包括用于计算与文件D相关联的降维矢量的减小维度模块(DRM)、用于在语义空间中生成文件概念矢量y_D的深度结构化语义模块(DSSM)、用于生成相关性测量R(Q，D)的比较模块以及用于生成P(Q|D)的softmax模块。另一处理单元可以在语义空间中生成查询Q的表示y_Q。

为了重复，部分A将模型106描述为特定类型的深度学习模型。然而，模型106可以被实施为另一类型的深度学习模型(诸如卷积模型等)或不以深度学习模型的模型(诸如决策树模型等)为特征。

B.说明性过程

图12-图14以流程图形式解释图1的环境102。由于环境102的操作底层的原理已经在部分A中描述，特定操作将在该部分中以总结的方式被处理。

从图12开始，该附图示出过程1202，其由训练框架104实施，以用于生成模型106。在框1204中，训练框架104从用户行为数据的存储库122接收用户行为数据。在一个情况下，用户行为数据标识由用户提交的查询连同响应于查询由用户做出的选择。在框1206中，训练框架104从一个或多个结构化知识资源接收知识数据。在一些情况下，表示语言项之间的关系的知识数据可以由专家、众包工人等指定。在框1208中，训练框架104使用机器学习训练过程、基于用户行为数据和知识数据生成模型106。在一种情况下，模型106为深度学习模型。深度信息模型被配置为将输入的语言项投射到在语义空间中表达的概念矢量中。

更具体地，在一种情况下，训练***114首先产生临时模型116。为了确定临时模型116是否提供充分精确的结果的目的，验证***118使用临时模型116确定针对确认数据组中的对的相关性测量。如果不是的话，训练***114可以关于额外的训练数据和/或不同的参数设置等重复其训练操作。确认数据表示具有已知关系的语言项对。确认数据组可以以任意方式产生。例如，在一种情况下，确认数据组可以表示从结构化知识资源诸如WordNet知识资源提取的同义词名词。或者确认数据组可以表示由人手动标记的术语对。

验证***118可以使用任意类型的验证分析。例如，验证***118可以通过使用临时模型116生成图2和图3中所示的直方图类型以分析验证数据组中的对。相关性测量的结果分布指示模型116是产生图2中所示的性能的类型(其是不期望的)还是图3中所示的性能的类型(其是可期望的)。在其它情况下，验证***118可以使用其它技术来评估临时模型116的性能，诸如通过在接收器操作特征(ROC)分析中评估曲线之下的面积(AUC)。

图13示出基于用户行为数据和知识数据解释来产生主训练数据的一种方式的过程1302。在框1304中，训练数据编译模块(TDCM)110从用户行为数据的存储库122采样用户行为数据，以产生采样的用户行为数据。在框1306中，TDCM 110从一个或多个结构化知识资源采样知识数据，以产生采样的知识数据。在框1308中，TDCM 110将采样的用户行为数据和采样的知识数据转换为一致的格式，以产生一致的用户行为数据和一致的知识数据。在一种方法中，TDCM 110可以通过将采样的知识数据转换为相同格式的采样的用户行为数据来执行框1308。在框1310中，TDCM 110整合一致的用户行为数据与一致的知识数据，以产生主训练数据。在框1312中，TDCM 110在数据存储112中存储主训练数据。

图14示出解释在搜索引擎108中应用深度学习模型的一种方式的过程1402。在框1404中，排名***132接收第一语言项(诸如查询)。在框1406中，排名***132将第一语言项转换为在高级语义空间中表达的第一概念矢量。在框1408中，排名***132接收第二语言项(诸如文件)。在框1410中，其可以离线执行(在接收查询前)，排名***132将第二语言项转换为在相同的语言空间中表达的第二概念矢量。在框1412中，排名***132确定如相关性测量表达的第一概念矢量和第二概念矢量之间的关联的程度。在框1414中，排名***132基于相关性测量可选地连同其它排名因素可选地执行排名操作。总的来说，排名***132可以针对多个文件执行过程1402；在那个上下文中，在框1414中排名***132基于它们各自的相关性测量来对文件排名。

作为结束语，本说明书已经描述了执行特定功能和实施特定机制的不同方法。这些不同技术/机制还可以以任意方式组合在一起，而不是以备选方式应用。为了引用一个示例，不相关的语言项对可以使用以上描述的各种技术中的任意技术生成，而且还可以基于这些技术的任意组合(例如通过应用以上描述的技术中的任意两个或多个)生成。

C.典型计算功能

图15示出可以用于实施图1的环境102的任意方面的计算功能1502。例如，图15中示出的计算功能1502的类型可以用于实施训练数据编译模块(TDCM)110的任意方面、训练***114的任意方面、验证***118的任意方面、搜索***108的任意方面、任意用户设备的任意方面等。在全部情况下，计算功能1502表示一个或多个物理和有形处理机制。

计算功能1502可以包括一个或多个处理设备1504，诸如一个或多个中央处理单元(CPU)和/或一个或多个图形处理单元(GPU)等。

计算功能1502还可以包括用于存储任意种类信息，诸如代码、设置、数据等的任意存储资源1506。在不限制的情况下，例如，存储资源1506可以包括任意种类的RAM、任意种类的ROM、闪存设备、硬盘、光盘等中的任意。更通常的，任意存储资源可以使用用于存储信息的任意技术。进一步地，任意存储资源可以提供信息的易失性或非易失性保留。进一步地，任意存储设备可以表示计算功能1502的固定的或可移除的元件。当处理设备1504执行存储在任意存储资源或存储资源的组合中的指令时，计算功能1502可以执行以上描述的任意功能。

关于术语，任意存储资源1506或存储资源1506的任意组合可以被认为是计算机可读介质。在许多情况下，计算机可读介质表示某些形式的物理和有形实体。术语计算机可读介质还包含传播的信号，例如经由物理管线和/或空气或其它无线介质等传输或接收的信号。然而，特定术语“计算机可读存储介质”和“计算机可读介质设备”明确地排除传播的信号本身，但包括全部其它形式的计算机可读介质。

计算功能1502还包括用于与任意存储资源诸如硬盘驱动机制、光盘驱动机制等交互的一个或多个驱动机制1508。

计算功能1502还包括用于接收各种输入(经由输入设备1512)和用于提供各种输出(经由输出设备1514)的输入/输出模块1510。说明性的输入设备包括键盘设备、鼠标输入设备、触摸屏输入设备、数字化输入板、一个或多个视频摄像机、一个或多个深度摄像机、自由空间手势识别机制、一个或多个麦克风、语音识别机制、任意移动检测机制(例如加速度计、陀螺仪等)等。一个特定输出机制可以包括展示设备1516和相关联的图形用户界面(GUI)1518。其它输出设备包括打印机、模型生成机制、触觉输出机制、档案机制(用于存储输出信息)等。计算功能1502还可以包括用于与其它设备经由一个或多个通信管线1522交换数据的一个或多个网络接口1520。一个或多个通信总线1524将上述元件通信地连接在一起。

通信管线1522以任意方式例如通过局域网、广域网(例如互联网)、点到点连接等或其任意组合被实施。通信管线1522可以包括由任意协议或协议组合管理的硬接线链路、无线链路、路由器、网关功能、名称服务器等的任意组合。

备选地或另外地，前面部分中描述的任意功能可以至少部分地通过一个或多个硬件逻辑元件执行。例如，在不限制的情况下，计算功能1502可以使用以下中的一个或多个实施：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)***；复杂可编程逻辑控制设备(CPLD)等。

最后，本文描述的功能可以采用各种机制以确保任意用户数据以符合适用法律、社会规范和个人用户的期望和偏好的方式被处理。例如，功能可以允许用户明确地选择加入(并且因此明确地选择退出)功能的规定。功能还可以提供合适的安全机制以确保用户数据的隐私(诸如数据消密机制、加密机制、密码保护机制等)。

进一步地，尽管已经以对于结构化特征和/或方法动作特定的语言描述主题，但是将理解的是所附权利要求中限定的主题不必受限于以上描述的特定特征或动作。相反，以上描述的特定特征和动作被公开为实施权利要求的示例形式。

Claims

1.一种由一个或多个计算设备施的用于生成和使用模型的方法，所述方法包括：

在编译模块中：

从用户行为数据的存储库采样用户行为数据，所述用户行为数据标识由用户提交的语言项以及由所述用户响应于所述语言项而做出的选择；以及

从一个或多个结构化知识资源采样知识数据，所述知识数据表示由所述一个或多个结构化知识资源表达的语言项之间的关系；

在训练***中：

使用机器学习训练过程、基于所述用户行为数据和所述知识数据来生成模型，

所述模型提供用于评估语言项的相关性的逻辑，

所述用户行为数据的采样、所述知识数据的采样以及所述模型的生成是使用与所述一个或多个计算设备相关联的至少一个处理设备而被执行的；并且

使用搜索引擎从用户计算设备接收输入的语言项，并且识别已经使用所述模型而被确定为与所述输入的语言项相关的至少一个输出项并将所述至少一个输出项传递到所述用户计算设备，

其中所述模型对应于深度学习模型，所述深度学习模型使用多层神经网络来将输入的语言项投射到在语义空间中表达的概念矢量。

2.根据权利要求1所述的方法，其中所述用户行为数据的每个实例至少表示查询、对所述查询的回答以及指示用户响应于所述查询是否选择了所述回答的点击值。

3.根据权利要求1所述的方法，其中所述知识数据的每个实例至少表示语言项对、表示所述语言项对之间的关联性的程度的距离测量以及与所述语言项对相关联的至少一个频率测量。

4.根据权利要求1所述的方法，其中所述知识数据包括：

表示相关的语言项对的知识数据的实例的第一子集；以及

表示不相关的语言项对的知识数据的实例的第二子集，

其中所述一个或多个结构化知识资源提供指示每个语言项对是相关还是不相关的信息。

5.根据权利要求1所述的方法，进一步包括将所述用户行为数据和所述知识数据转换为一致的格式。

6.根据权利要求5所述的方法，其中所述转换包括将所述知识数据的每个实例转换为与所述用户行为数据的格式相匹配的格式。

7.根据权利要求1所述的方法，进一步包括整合所述用户行为数据与所述知识数据以产生主训练数据，其中所述生成基于所述主训练数据来产生模型。

8.一种计算机***，包括：

搜索引擎，由至少一个计算设备实施，以用于从用户计算设备接收输入的语言项，并且用于识别已经被确定为与所述输入的语言项相关的至少一个输出项并将所述至少一个输出项传递到所述用户计算设备，

所述搜索引擎使用模型来识别所述至少一个输出项，

所述模型在机器学习训练过程中基于用户行为数据和知识数据而被产生，

所述用户行为数据标识由用户提交的语言项以及由所述用户响应于所述语言项而做出的选择，并且

所述知识数据表示由一个或多个结构化知识资源表达的语言项之间的关系，

9.根据权利要求8所述的计算机***，进一步包括：

编译模块，被配置为基于所述用户行为数据和所述知识数据产生主训练数据；以及

训练***，被配置为使用所述机器学习训练过程、基于所述主训练数据产生所述模型。

10.根据权利要求9所述的计算机***，其中所述编译模块包括：

第一采样模块，被配置为从用户行为数据的存储库采样所述用户行为数据，以产生采样的用户行为数据；

第二采样模块，被配置为从所述一个或多个结构化知识资源采样所述知识数据，以产生采样的知识数据；

转换模块，被配置为将所述采样的用户行为数据和所述采样的知识数据转换为一致的格式，以产生一致的用户行为数据和一致的知识数据；以及

整合模块，被配置为整合所述一致的用户行为数据与所述一致的知识数据，以产生所述主训练数据。

11.根据权利要求5所述的方法，其中：

所述用户行为数据的每个实例至少表示查询、对所述查询的回答以及指示用户响应于所述查询是否选择了所述回答的点击值，

所述知识数据的每个实例至少表示语言项对、表示所述语言项对之间的关联性的程度的距离测量以及与所述语言项对相关联的至少一个频率测量，并且

其中所述转换包括将与所述知识数据相关联的所述距离测量转换为点击值，并且将所述至少一个频率测量转换为权重值。

12.根据权利要求7所述的方法，其中所述整合涉及根据与所述实例相关联的权重值复制所述知识数据的每个实例。

13.根据权利要求10所述的计算机***，其中所述采样的用户行为数据的每个实例至少表示查询、对所述查询的回答以及指示用户响应于所述查询是否选择了所述回答的点击值。

14.根据权利要求10所述的计算机***，其中所述采样的知识数据的每个实例至少表示语言项对、表示所述语言项对之间的关联性的程度的距离测量以及与所述语言项对相关联的至少一个频率测量。

15.根据权利要求10所述的计算机***，其中所述主训练数据包括：

表示相关的语言项对的知识数据的实例的第一子集；以及

表示不相关的语言项对的知识数据的实例的第二子集，