CN101563687A

CN101563687A - 企业收录搜索

Info

Publication number: CN101563687A
Application number: CNA2007800458075A
Authority: CN
Inventors: 布赖恩·斯特罗普; 威廉·J·伯恩; 弗朗索瓦丝·博费
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2006-10-13
Filing date: 2007-10-15
Publication date: 2009-10-21
Also published as: US20080091443A1; US8041568B2

Abstract

一种语音使能的企业目录搜索***，可以通过以下来操作：提示用户提供特定企业的企业类型和标识符；以及从用户接收具有关于企业类型和标识符的信息的话音输入。使用话音识别模块，基于企业类型识别标识符。

Description

企业收录搜索

技术领域

本描述涉及信息管理。

背景技术

当用户希望找到特定企业的电话号码时，用户可以使用信息检索***(例如，用户可以拨打411与操作员交谈)。信息检索***(例如，操作员)可以向呼叫者询问企业名称以及该企业所处的城市和州。然后基于用户输入执行搜索，并且将答复连同所请求的电话号码转发给用户。自动411目录辅助***可以具有自动语音响应***，该自动语音响应***以模仿人类操作员与呼叫者交互的方式与呼叫者交互。传统的自动***包括话音识别引擎，该话音识别引擎识别呼叫者的话音输入。该自动***包括搜索引擎，该搜索引擎从数据库搜索呼叫者所请求的特定企业的电话号码。如果话音识别引擎不能识别呼叫者的话音输入，则该识别引擎可以要求呼叫者重复输入，向呼叫者询问消除歧义的问题，或者将呼叫转移到人类操作员。

发明内容

在一个方面，一般性地，提供了一种语音使能的企业目录搜索***，包括语音使能的用户接口，除了特定企业的地理信息和标识符以外该用户接口向呼叫者询问企业类型或类别信息。语音识别引擎基于企业类型和地理信息识别特定企业的标识符。搜索引擎搜索数据库以找到关于该特定企业的信息(例如，电话号码)。

该***可以基于用户输入建立企业类型。用户输入可以是由用户在过去的呼叫中提供的信息或者由用户的在线搜索活动，诸如关键词搜索和点进提供的信息。例如，如果许多用户键入特定的关键词或短语，并且之后点击特定的企业，指示用户将该特定的企业与该关键词或短语相关联，则该***可以建立新的企业类型。

在另一方面，一般性地，提示用户提供特定企业的企业类型和标识符，并且从用户接收具有关于该企业类型和标识符的信息的话音输入。使用话音识别模块，基于该企业类型识别该标识符。

实现方案可以包括以下特征中的一个或多个。提示用户提供信息可以包括提示用户提供地理位置。识别标识符可以包括使用话音识别模块基于地理位置和企业类型识别特定企业的标识符。提示用户提供标识符可以包括提示用户提供特定企业的名称。在识别特定企业的标识符之后，可以将关于该特定企业的信息提供给用户。提供关于特定企业的信息可以包括提供该特定企业的电话号码。提供关于特定企业的信息可以包括基于该特定企业的标识符的识别提供企业名称的列表。识别特定企业的标识符可以包括使话音识别模块偏向于与企业类型相关联的一个或多个语言模型。提示用户提供企业类型可以在提示用户提供特定企业的标识符之前发生。提示用户提供信息可以包括：使用单个提示，向用户询问特定企业的企业类型和标识符。

在另一方面，一般性地，向用户询问实体的地理位置、类别、和名称；并且从具有关于实体的地理位置、类别和名称的信息的用户接收话音输入。使用话音识别模块，识别地理位置和类别；并且使用话音识别模块，基于地理位置和类别识别名称。

实现方案可以包括以下特征中的一个或多个。实体可以包括营利组织、非营利组织、或者个人。识别名称可以包括使用与地理位置和类别相关联的一个或多个话音识别语言模型。

在另一方面，一般性地，使用话音识别模块，基于用户提供的地理位置和企业类型识别用户的话语中的特定企业的名称。

实现方案可以包括以下特征中的一个或多个。识别可以包括使用与企业类型相关联的一个或多个语言模型。

在另一方面，一般性地，语音使能的用户接口被提供为，输出请求用户提供特定企业的企业类型和标识符的语音提示，并且从用户接收具有关于特定企业的企业类型和标识符的信息的话音输入，并且话音识别引擎被提供为，基于关于企业类型的信息识别特定企业的标识符。

实现方案可以包括以下特征中的一个或多个。话音识别引擎可偏向于与用户提供的企业类型相关联的话音识别语言模型。语音提示可以请求用户提供地理位置。话音识别引擎可偏向于与用户提供的企业类型和地理位置相关联的话音识别语言模型。该装置可以包括用于存储数据库的存储介质，该数据库存储话音识别语言模型，每个语言模型用于识别与一个或多个特定的企业类型相关联的特定企业。该装置可以包括用于存储节点的分层树的存储介质，每个节点与一个或多个特定的企业类型相关联。该装置可以包括用于存储具有指令的脚本的存储介质，所述指令用于控制语音使能的用户接口和用户之间的交互。该装置可以包括搜索引擎，以基于话音识别引擎识别的特定企业的标识符搜索与该特定企业相关的信息。

在另一方面，一般性地，提供了一种语音使能的搜索***，包括语音使能的用户接口，该语音使能的用户接口输出语音提示以请求用户提供实体的地理位置、类别和名称，并且从用户接收具有关于实体的地理位置、类别和名称的信息的话音输入。该搜索***还包括话音识别引擎，以基于地理位置和类别识别实体的名称。

实现方案可以包括以下特征中的一个或多个。该搜索***包括用于存储数据库的存储介质，该数据库包括话音识别语言模型，每个语言模型用于识别与一个或多个特定类别相关联的实体。

在另一方面，一般性地，话音识别模块被提供为基于用户提供的地理位置和企业类型识别用户的话语中的特定企业的标识符。

实现方案可以包括以下特征中的一个或多个。该装置包括话音识别模块可访问的数据库，该数据库包括话音识别语言模型，每个语言模型与一个或多个特定的企业类型相关联。

在另一方面，一般性地，语音使能的企业收录(business listing)搜索***包括：语音用户接口，用于提示用户提供特定企业的企业类型和标识符并且从用户接收话音输入；和用于基于企业类型识别话音输入中的特定企业的标识符的装置。

实现方案可以包括以下特征中的一个或多个。用户接口可以提示用户提供特定企业的地理位置。识别构件可以基于地理位置和企业类型识别特定企业的标识符。

在另一方面，一般性地，一种物品包括其上存储有指令的存储介质，该指令在由机器执行时导致如下操作：提示用户提供特定企业的企业类型和标识符，从用户接收具有关于企业类型和标识符的信息的话音输入，并且基于企业类型识别标识符。

在另一方面，一般性地，接收类别-企业对，每个类别-企业对包括企业类别和特定企业；并且基于类别-企业对建立具有节点的数据结构，每个节点与一个或多个企业类别和话音识别语言模型相关联，该话音识别语言模型用于识别与该一个或多个企业类别相关联的特定企业。

实现方案可以包括以下特征中的一个或多个。建立数据结构可以包括建立节点的分层树。建立分层树可以包括建立父节点的子节点，并且使与父节点相关联的企业类别的子集与子节点相关联。第一话音识别语言模型可以与父节点相关联，并且第二话音识别语言模型可以与子节点相关联，第二语言模型在识别与企业类别的子集相关联的特定企业中比第一语言模型更准确。可以从其他语言模型的组合来构造语言模型。识别特定企业可以包括识别特定企业的名称。

建立数据结构可以包括基于正被指派的企业类别和已被指派给节点的企业类别之间的相似度将企业类别指派给特定节点。建立数据结构可以包括基于现有节点的熵值建立新的节点，节点的熵指示(a)与节点相关联的一个或多个企业类别和(b)与节点相关联的一个或多个特定企业中的至少一个的变化程度。建立数据结构可以包括添加新的节点直至所有节点具有低于预定阈值的熵值。接收信息可以包括从呼叫日志接收信息。可以记录关于对企业收录服务的使用的呼叫数据，在所述企业收录服务中一个或多个用户询问关于特定企业的信息。接收信息可以包括从搜索日志接收信息。可以记录关于由一个或多个用户执行的关键词搜索以及该一个或多个用户对搜索结果的后继选择的信息。使用话音识别模块和该数据结构识别附加的类别-企业对。使用该附加的类别-企业对更新该数据结构。

在另一方面，一般性地，从关键词搜索收集关于特定企业与类别的关联的信息；并且基于该信息建立话音识别语言模型，每个语言模型与一个或多个类别相关联，每个语言模型用于识别与该一个或多个类别相关联的特定企业。使用该语言模型识别话语中的特定企业。

实现方案可以包括以下特征中的一个或多个。可以建立具有节点的分层树，每个节点与类别中的一个或多个以及话音识别语言模型中的一个相关联。关键词搜索可以包括web搜索、内联网搜和桌面搜索中的至少一个。

在另一方面，一般性地，接收具有关于特定企业的企业类别和标识符的信息的话音输入；并且将话音输入中的企业类型映射到数据结构中的节点，每个节点与一个或多个企业类别和话音识别语言模型相关联。使用基于该映射确定的一个或多个语言模型识别特定企业的标识符。

实现方案可以包括以下特征中的一个或多个。该映射包括，对于一些节点中的每个节点，确定相似度分值，该相似度分值表示话音输入中的企业类别和与节点相关联的一个或多个企业类别之间的相似度。基于该相似度分值生成关于语言模型的权重。找到具有与话音输入中的企业类别的最高相似度的特定节点，并且使用与该特定节点相关联的第一语言模型和与该特定节点的父节点相关联的第二语言模型来识别标识符。

在另一方面，一般性地，类别聚类模块被提供为接收类别-企业对并且使用接收的类别-企业对更新具有节点的数据结构，每个类别-企业对包括企业类别和特定企业，数据结构中的每个节点与一个或多个企业类别和话音识别语言模型相关联，该话音识别语言模型用于在识别与一个或多个企业类型相关联的特定企业的标识符中使用。

实现方案可以包括以下特征中的一个或多个。呼叫日志和搜索日志中的至少一个可用于提供关于类别-企业对的信息。数据结构可以包括节点的分层树。可以从其他语言模型的组合来构造语言模型。类别聚类模块可以建立自父节点分支出的子节点并且使该子节点与和父节点相关联的企业类别的子集相关联。该装置包括使第一话音识别语言模型与子节点相关联的语言模型更新模块，第一语言模型在识别与子节点相关联的特定企业的标识符中比与父节点相关联的第二语言模型更准确。类别聚类模块可以基于正被指派的企业类别和已被指派给节点的企业类别之间的相似度将企业类别指派给特定节点。类别聚类模块可以基于现有节点的熵值建立新的节点，节点的熵指示(a)与节点相关联的一个或多个企业类别和(b)与节点相关联的一个或多个特定企业中的至少一个的变化程度。

在另一方面，一般性地，语音使能的用户接口接收具有关于特定企业的企业类别和标识符的信息的话音输入；映射模块将该企业类别与数据结构的多个节点进行比较，每个节点与一个或多个企业类别和话音识别语言模型相关联；并且话音识别模块使用基于该映射确定的一个或多个语言模型识别特定企业的标识符。

实现方案可以包括以下特征中的一个或多个。映射模块可以针对一些节点中的每个节点确定话音输入中的企业类别和与节点相关联的一个或多个企业类别之间的相似度分值。映射模块可以基于该相似度分值生成关于一个或多个语言模型的权重。映射模块可以找到具有与话音输入中的企业类别的最高相似度的特定节点，并且使用与该特定节点相关联的第一语言模型和与该特定节点的父节点相关联的第二语言模型识别标识符。

在另一方面，一般性地，提供用于接收类别-企业对的构件，每个类别-企业对包括企业类别和特定企业。提供用于基于该类别-企业对建立具有节点的数据结构的构件，每个节点与一个或多个特定的企业类别和话音识别语言模型相关联，该话音识别语言模型用于识别与一个或多个特定企业类别相关联的特定企业。

实现方案可以包括以下特征中的一个或多个。提供用于基于新的类别-企业对更新数据结构的构件。

在另一方面，一般性地，提供用于将关于企业类别的信息映射到分层树的多个节点并且生成关于节点的权重值的构件，每个节点与一个或多个企业类别和语言模型相关联，该语言模型用于识别与该一个或多个企业类别相关联的特定企业。话音识别引擎使用基于该映射确定的一个或多个语言模型识别话音输入中的特定企业。

实现方案可以包括以下特征中的一个或多个。映射构件可以基于该映射确定关于节点的权重值，并且该一个或多个语言模型可以通过该权重值加权。

在另一方面，一般性地，基于用户提供的企业类型从话音识别语言模型的较大的集合中选择话音识别语言模型的子集；识别关于所选择的语言模型的权重值；并且基于所选择的语言模型和权重值识别来自用户的话音输入中的特定企业的标识符。

实现方案可以包括以下特征中的一个或多个。每个语言模型可以与一个或多个企业类型的集合相关联。选择话音识别语言模型的子集可以包括选择与一个或多个企业类型的集合相关联的语言模型，该一个或多个企业类型是与用户提供的企业类型最相似的企业类型。一些语言模型中的每个语言模型可以与地理位置相关联，并且选择语言模型的子集可以基于用户提供的地理位置。选择话音识别语言模型的子集可以包括选择不与特定地理位置相关联的通用语言模型和与特定地理位置相关联的位置特定语言模型。通用语言模型和位置特定语言模型均可以与相同的一个或多个企业类型相关联。确认权重值可以包括取得预先计算的权重值。可以识别用于识别特定企业的标识符的一个或多个机器，每个机器与一个或多个语言模型相关联。可以评估节点的分层树，每个节点与话音识别语言模型中的一个相关联。

在另一方面，一般性地，建立话音识别语言模型，一些语言模型中的每个语言模型与地理位置和企业类型集合相关联，每个集合包括至少一个企业类型，每个企业类型与一个或多个特定企业相关联；并且使用话音识别语言模型中的一个或多个来基于地理位置和企业类型识别特定企业的标识符。与地理位置相关联的语言模型相对于与另一地理位置相关联的另一语言模型，被偏向于识别处于该地理位置的特定企业，并且与企业类型集合相关联的语言模型相对于与另一企业类型集合相关联的另一语言模型，被偏向于识别与该企业类型集合相关联的特定企业。

实现方案可以包括以下特征中的一个或多个。可以接收话音输入，其中该话音输入具有关于地理位置、企业类型、和特定企业的信息。基于与语言模型相关联的企业类型和话音输入中的企业类型之间的相似度，可以选择一个或多个话音识别语言模型用于在识别特定企业时使用。对一个或多个语言模型的选择也可以基于与语言模型相关联的地理位置和话音输入中的地理位置之间的相似度或接近度。语言模型可以包括高级别语言模型，每个高级别语言模型可以从低级别语言模型的组合来构造。组合中使用的值可被存储以使对特定企业的标识符的后继识别能够在不重新计算该值的情况下使用所存储的值从低级别语言模型构造高级别语言模型。一些高级别语言模型每一个可以从与不同的地理位置相关联的至少两个低级别语言模型的组合来构造。一些高级别语言模型每一个可以从与不同的企业类型集合相关联的至少两个低级别语言模型的组合来构造。

在另一方面，一般性地，一个或多个存储设备存储话音识别语言模型；映射模块基于用户提供的企业类型选择语言模型的子集并且识别关于所选择的语言模型的权重值；并且话音识别引擎基于所选择的语言模型和权重值识别用户提供的话音输入中的特定企业的标识符。

实现方案可以包括以下特征中的一个或多个。每个语言模型可以与企业类型集合相关联，每个集合包括至少一个企业类型。映射模块可以选择与企业类型集合相关联的语言模型，该企业类型是与用户提供的企业类型最相似的企业类型。一些语言模型中的每个语言模型可以与地理位置相关联，并且映射模块可以基于用户提供的地理位置选择语言模型的子集。识别权重值可以包括计算权重值和取得预先计算的权重值中的至少一个。话音识别引擎可以包括在多个机器上运行的分布式话音识别引擎，每个组件与一个或多个语言模型以及权重值相关联。

在另一方面，一般性地，存储介质存储话音识别语言模型，每个语言模型与地理位置和企业类型集合相关联，每个集合包括至少一个企业类型，每个企业类型与一个或多个特定企业相关联；并且话音识别引擎基于地理位置和企业类型使用一个或多个话音识别语言模型识别特定企业的标识符。与地理位置相关联的语言模型相对于与另一地理位置相关联的另一语言模型，被偏向于识别处于该地理位置的特定企业，并且与企业类型集合相关联的语言模型相对于与另一企业类型集合相关联的另一语言模型，被偏向于识别与该企业类型集合相关联的特定企业。

在另一方面，一般性地，一种装置包括用于基于用户提供的企业类型从话音识别语言模型的较大集合中选择话音识别语言模型的子集的构件；用于识别关于所选择的语言模型的权重值的构件；和用于基于所选择的语言模型和权重值识别来自用户的话音输入中的特定企业的标识符的构件。

这些和其他的方面和特征，以及它们的组合，可被表达为方法、装置、***、用于执行功能的构件、程序产品或者以其他方式表达。

优点可以包括以下中的一个或多个。该***可以识别对于用户更加直观的企业类型，这是因为该企业类型包括基于用户输入建立的企业类型。话音识别引擎通过基于企业类型减少识别模型候选的数目可以更加准确地识别呼叫者的话音输入。话音识别语言模型每一个用于识别较窄范围的特定企业，可以组合以识别较宽范围的特定企业。当建立分层的企业类别时，可以从低级别语言模型的组合构造用于高级别类别的话音识别语言模型。相比于针对每个类别存储分立的语言模型的***，这允许***存储较少数目的话音识别语言模型。

附图说明

图1是示例性语音使能的企业收录搜索***的框图。

图2是用于提供语音使能的企业收录搜索服务的示例性过程的流程图。

图3是可以基于用户输入建立聚类类别节点的分层树的示例性语音使能的企业收录搜索***的框图。

图4A至4C是与分层树的节点相关联的信息的图。

图5A至5C是示出在树的构造期间所有或部分分层树的图。

图6是用于建立分层树的示例性过程的流程图。

图7是用于映射分层树的示例性过程的流程图。

图8是示例性计算***的示意图。

具体实施方式

1.***概述

参考图1，示例性语音使能的企业收录搜索***100包括与呼叫者104交互的语音使能的用户接口102。呼叫者104可以使用终端114(例如，电话或计算机)通过网络116(例如，公共交换电话网络(PSTN)或因特网协议语音(VoIP)网络)连接到***100。用户接口102接收来自呼叫者104的关于特定企业的查询并且利用与该特定企业相关的信息进行响应。

语音使能的用户接口102可以使用指定在***100和呼叫者104之间的交互的脚本。用户接口102可以包括将文本句子转换为话音输出的文本-话音模块(未示出)。例如，该脚本可以包括指令，其指令用户接口102向呼叫者104播放问候消息(例如，“全国企业目录”)，提示呼叫者104提供特定企业的地理位置(例如，“城市和州”)，提示呼叫者104提供特定企业的企业类型或类别(例如，“企业类型或类别”)，并且提示呼叫者104提供特定企业的标识符或名称(例如，“企业名称”)。通过除了特定企业的地理位置之外向呼叫者104询问企业类型，***100可以更加准确地向用户递送相关信息。

例如，诸如纽约市的大城市可能具有数千个企业。难于基于来自任意呼叫者104的话语识别特定企业，其中话语可以表示数千个企业中的任何一个企业，某些企业具有相同的名称。通过向呼叫者104询问企业类型，***100可以使话音识别偏向于与企业类型相关的语言模型或语法单元，使得可以减少与呼叫者的话语可能匹配的企业名称候选者的数目。这允许***100使用给定量的计算资源在给定量的时间内更加准确地识别话语的企业名称。

在本描述中，术语“企业的类型”、“企业类型”、和“企业类别”具有相似的意义并且可以互换使用。

***100包括话音识别引擎104，用于使用数据库106中的语言模型识别呼叫者104的话语。话音识别引擎104可以使用预处理器(未示出)过滤噪声并且检测话语中的词或音素的开始和结束。话音识别引擎104和语言模型可以基于各种类型的话音识别技术，诸如隐式马尔科夫模型(Hidden Markov Model)或神经网络。

语言模型的形式可以包括例如N元(N-grams)、短语-列表语法、和混合语法。在N元中，通过对任意词在最后N个词的上下文中出现的次数计数来估计词表中的该词的概率。在短语-列表语法中，通过对整个短语出现的次数计数来独立地估计完整的短语(例如，每个完整的企业名称)的概率。在混合语法中，使用N元和短语-列表语法。

数据库106中的语言模型可以组织为不同的组。例如，语言模型的第一、第二、第三、和第四组可分别用于识别城市的名称、州的名称、企业类型的名称、和特定企业的名称。

特定企业的名称可能存在许多变体，因此用于识别特定企业的名称的语言模型的数目是可能很大。为了帮助找到适合的语言模型以在话音识别期间使用，***100建立聚类的类别节点的分层树150，其中每个节点与语言模型相关联。每个节点包括关于特定企业的一个或多个名称及其对应的企业类型的信息。在一个实现方案中，用于特定节点的语言模型包括可用于识别与该特定节点相关联的企业名称的信息。

在一个实现方案中，分层树150包括根节点152，该根节点152与用于识别特定企业名称的语言模型相关联，而非偏向于任何特定企业类型或类别。根节点下的每个节点与所有企业类型和特定企业的子集相关联。与根节点下的节点相关联的每个语言模型可被偏向于识别企业类型的子集。

在分层树150中，每个子节点(例如，156)包括该子节点的父节点(例如，154)中的特定企业和企业类型的子集。与该子节点相关联的每个语言模型相比于与父节点相关联的语言模型，可偏向于范围更窄的企业类型。因此，例如，父节点可以与所有餐馆相关联，包括意大利餐馆和日本餐馆。第一子节点可以与意大利餐馆相关联，并且第二子节点可以与日本餐馆相关联。与父节点相关联的第一语言模型可用于识别所有餐馆，与第一子节点相关联的第二语言模型可用于识别所有意大利餐馆，并且与第二子节点相关联的第三语言模型可用于识别所有日本餐馆。

在识别与特定企业类型相关联的特定企业名称中，与子节点相关联的语言模型通常比与父节点相关联的语言模型准确。在上面的示例中，第二和第三语言模型在识别意大利和日本餐馆中通常分别比第一语言模型准确。

***100建立两种类型的分层树150。第一类型的树150是基于关于跨越可由***100识别的所有地理位置(例如整个美国)的所有特定企业的信息而建立的。第一类型的树150将被称为通用分层树。与通用树的节点相关联的语言模型被称为通用语言模型，即可用于识别位于任何地理位置的特定企业的语言模型。

第二类型的树150是基于关于地理区域(例如纽约城)中的所有特定企业的信息而建立的。第二类型的树150将被称为位置特定分层树。与位置特定树的节点相关联的语言模型将被称为位置特定语言模型，即可用于识别位于特定地理位置的特定企业的语言模型。

当呼叫者104与用户接口102交互时，呼叫者104可能不是完全准确的并且可以例如提供不精确的特定企业的地理位置(例如，事实上该特定企业位于另一附近的地理位置)。因此，有用的是，在识别特定企业名称时使用通用语言模型和位置特定语言模型两者。话音识别引擎104可以将不同的权重指派给通用语言模型和位置特定语言模型，例如，向位置特定语言模型给出比通用语言模型大的权重。例如，当呼叫者104询问关于在San Jose的意大利餐馆的信息时，用于话音识别的最终语言模型可以是用于识别意大利餐馆的通用语言模型以及用于识别所识别出的城市(例如，San Jose)和其他附近(例如，相邻)位置(例如，分别是Palo Alto、Sunnyvale和Mountain View)中的意大利餐馆的(例如，四个)位置特定语言模型的组合。

可以使用许多方法确定指派给多种位置特定语言模型的权重。例如，用于识别较接近于呼叫者104提供的特定地理位置的地理位置的企业的语言模型，相比于与远离的地理位置相关联的语言模型，可被给出较高的权重。

***100包括用于评估分层树150以确定哪个节点与呼叫者104提供的企业类型更相关或更接近的映射模块108。映射模块108可以在评估树150中使用相似度测量，其将在下文中更加详细地描述。例如，如果呼叫者104提供“意大利餐馆”作为企业类型，则映射模块108可以确定与更特定的“意大利餐馆”企业类型相关联的节点，相比于更通用的“餐馆”企业类型，是更相关的。

在映射模块108确定特定节点更相关之后，话音识别引擎104使用与该特定节点相关联的语言模型识别来自呼叫者104的话音输入中的特定企业的名称。当与用户接口102交互时，呼叫者104可以不精确地或准确地描述企业类型。例如，呼叫者104在事实上他/她正在寻找修锁工时可以说“五金店”作为企业类型。因此，有用的是，在识别特定企业的名称中使用与特定节点相关联的语言模型(其与范围较窄的企业类型相关联)和与祖先节点相关联的语言模型(其与范围较宽的企业类型相关联)的组合。与特定节点相关联的语言模型在识别与呼叫者104提供的企业类型相关联的特定企业的名称中更准确的，而在呼叫者104请求的特定企业未归入呼叫者104提供的企业类型时，与祖先节点相关联的语言模型提供了回退位置。

在某些示例中，组合中使用的与祖先节点相关联的语言模型的数目可被设定为预先定义的数目。在某些示例中，可以使用与一直到根节点的所有祖先节点相关联的语言模型。在上面的示例中，与“五金店”和“修锁工”企业类型相关联的节点将具有至少一个公共的祖先节点——根节点152，因此使用一直到根节点152的所有祖先节点可以提供到所有其他企业类型的回退位置。

组合中使用的不同的语言模型可被给予不同的权重。可以使用许多方法确定权重值。例如，可以向与特定节点相关联的语言模型给予最高的权重，并且相比于与较接近于特定节点的祖先节点(例如，父节点)相关联的语言模型，可以向与远离的祖先节点(例如，祖父节点)相关联的语言模型给予较小的权重。可以基于映射模块108在确定哪个节点与呼叫者104提供的企业类型更相关或更接近中使用的相似度测量，确定权重值。

在话音识别引擎104识别呼叫者104的话语以确定特定企业的名称之后，搜索引擎110搜索企业收录的数据库112以找到关于该特定企业的信息。该信息可以是例如该特定企业的电话号码。

当搜索数据库112时，搜索引擎110可以使用关于话音识别引擎104识别的地理位置、企业类型和特定企业名称的信息以找到数据库112中的一个或多个匹配。在某些情况中，呼叫者的话语可能是不精确的，或者话语中的特定企业的识别可能是不精确的。例如，话音识别引擎104可以识别出与呼叫者的话语匹配的一个特定企业名称，但是在数据库112中可能存在与所识别出的企业名称同样相似的多个企业收录。在某些情况中，话音识别引擎104可以返回表示关于话语中的特定企业的潜在匹配的多个候选。来自话音识别引擎104的每个候选可能潜在地匹配数据库112中的多个企业收录。通过除了地理位置和所识别的特定企业之外使用关于企业类型的信息，搜索引擎110可以更加准确地识别出数据库112中的特定企业收录，或者减少将呈现给呼叫者104的来自数据库112的企业收录的候选的数目。

下面描述用于使用来自话音识别引擎104的识别结果来搜索数据库112的示例性方法。搜索引擎110可以执行两个搜索。第一搜索基于关于地理位置和企业类型或类别的信息。第二搜索基于地理位置和特定企业。第一搜索返回该地理位置中的该企业类型中的所有企业收录。第二搜索返回该地理位置中与所识别的特定企业匹配的所有企业收录。这两个搜索每一个可以返回具有相关联的可能性权重或搜索分值(基于诸如词匹配的正确性、每个词的估计的重要性、以及企业的预期的相关性等)的可能企业名称的列表。这两个列表被合并，使得两个列表中指示的企业被减少为具有新的分值的一个结果，该新的分值是来自每个列表的分值的和。将关于来自合并列表的例如前三个候选的信息(例如，电话号码)返回到呼叫者104。

搜索引擎110向用户接口102发送该信息，用户接口102向呼叫者104通知该信息。用户接口102可以向呼叫者104通知从中进行选择的选项，诸如通知特定企业的电话号码和询问呼叫者104他/她是否希望直接连接到该特定企业或者接收关于该特定企业的更多细节(例如，地址)。用户接口102也可以提供用于向呼叫者104发送包括关于该特定企业的信息的短文本消息的选项。

在某些情况中，话音识别引擎104可以确定多于一个的特定企业以概率高于预定阈值与呼叫者的话语匹配。话音识别引擎104可以向搜索引擎110提供特定企业名称的列表，搜索引擎110搜索关于该特定企业的信息。搜索引擎110向用户接口102发送信息，用户接口102通知企业名称的列表并且提示用户从中选择一个企业名称。在一个实现方案中，在接收到指示呼叫者的选择的话语(或者，例如，双音多频(DTMF)信号)时，用户接口102通知所选择的特定企业的电话号码并且询问用户104他/她是否希望直接连接到该企业，收听关于该特定企业的更多细节，或者接收包括关于该特定企业的信息的短文本消息。

图2是用于接收来自呼叫者104的关于特定企业的查询并且向呼叫者104提供关于该特定企业的信息的示例性过程120的流程图。从呼叫者104接收122呼叫。提示124呼叫者104提供特定企业的地理位置，诸如城市和州。从呼叫者104接收126表示城市和州的话语。识别128该城市和州。提示130用户提供该特定企业的企业类型(或类别)。从呼叫者104接收132表示企业类型的话语。识别134该企业类型。提示136用户提供特定企业的名称。从呼叫者104接收表示特定企业的名称的话语。

基于偏向于例如该城市、州、和企业类型的话音识别语言模型识别140特定企业名称。其他偏置示例是可能的，包括因素的其他组合(例如，仅基于州和企业类型)。进行142搜索以找到对应于所识别的特定企业名称的数据(例如，电话号码)。如果识别出144仅一个企业名称，则通知146该特定企业的数据(例如，电话号码)，并且向呼叫者104提供直接连接到该特定企业的选项。如果识别出多于一个的企业名称，则通知148企业名称的列表，并且向呼叫者104提供与特定企业直接连接或者获取更多信息(诸如特定企业的电话号码)的选项。

在过程120中，提示呼叫者104并且从呼叫者104接收话语可由例如语音使能的用户接口102执行。通过使用例如话音识别引擎104、映射模块108、分层树150和语言模型的数据库106，可以执行来自呼叫者104的话语的识别。通过使用例如搜索引擎110和企业收录的数据库112，可以执行对特定企业的电话号码的搜索。

下面是根据过程120的在***100和呼叫者104之间的交互的示例：

***100：全国企业收录搜索。请提供城市和州。

呼叫者104：Palo Alto，California。

***100：企业类型或类别是什么？

呼叫者104：意大利餐馆。

***100：特定企业是什么？

呼叫者104：I1 Fornaio

***100：搜索结果，I1 Fornaio位于Cowper Street，Palo Alto。(650)853-3888。您希望直接连接么？

呼叫者104：连接。

下面是根据过程120的在***100和呼叫者104之间的交互的另一示例：

***100：全国企业收录搜索。您寻找的特定企业是什么？

呼叫者104：I1 Fornaio

***100：企业类型是什么？

呼叫者104：意大利餐馆

***100：位于何处？

呼叫者104：Palo Alto，California。

呼叫者104：连接。

当特定企业的识别不成功时，***100可以回退到使用仅仅类别搜索。在话音识别引擎104不能识别特定企业的情况中，通过向呼叫者询问企业类型或类别，***100可以仅使用企业类型或类别信息找到呼叫者104正在寻找的特定企业(或者足够接近的有用的企业收录)。

下面是回退到仅仅类别搜索的在***100和呼叫者104之间的交互的示例：

***100：全国企业收录搜索。请问什么城市和州。

呼叫者104：Palo Alto，California。

***100：企业类型是什么？

呼叫者104：日本餐馆。

***100：企业名称是什么？

呼叫者104：fuki sushi

***100：我们不能识别，这是关于Palo Alto的日本餐馆的结果，请选择一个：

编号1：Sushitomi

编号2：Fuki Sushi

编号3：...

***100可以以不同于上文的顺序和组合询问呼叫者104问题。例如，***100可以首先询问地理位置，然后询问特定企业，然后询问企业类型。***100可以首先询问特定企业，然后询问地理位置，然后询问企业类型。***100可以首先询问企业类型，然后询问地理位置，然后询问特定企业。***100可以首先询问企业类型，然后询问特定企业，然后询问地理位置。

例如，***100可以在同一个语音提示中询问地理位置和特定企业，然后询问企业类型。***100可以在同一个语音提示中询问地理位置和企业类型，然后询问特定企业。***可以在同一个语音提示中询问特定企业和企业类型，然后询问地理位置。***100可以询问企业类型，然后在同一个语音提示中询问地理位置和特定企业。***可以询问特定企业，随后在同一个语音提示中询问地理位置和企业类型。***可以询问地理位置，随后在同一个语音提示中询问特定企业和企业类型。***可以在同一个语音提示中询问所有地理位置、企业类型、和特定企业。

在用户接口102询问地理信息或企业类型之前向呼叫者104询问特定企业的实现方案中，***100可以存储关于特定企业的呼叫者的话语记录，并且然后使用偏向于所识别的企业类型或类别的语法重新识别所记录的话语。

2.构造和使用分层树

下面描述企业的分类和分层树的构造。

***100向呼叫者104询问特定企业的企业类型或类别以提高识别特定企业名称的准确性。由于不同的呼叫者104可能对企业进行不同的分类，因此有用的是，***100在处理关于企业类型或类别的信息时是灵活的。例如，在寻找关于Walmart的信息时，响应于关于企业类型或类别的问题，一些人可能说“超市”，而其他人可能说“连锁店”、“零售商”、“杂货店”、或者“我不知道”。在被问到该问题之前呼叫者104可能没有考虑企业类型或类别，并且以进入脑海的第一个想法作为响应。例如，计划去Walmart购买DVD的人可能说“音像店”，而计划去Walmart购买一瓶维生素的另一个人可能回答“药店”。

***100可以使用许多方法对企业分类。对企业进行分类的一个方法是建立节点的分层树，其中每个节点对应于企业类型。该分层树可以基于从用户收集的数据来构造的，使得树结构反映用户对企业的分类。随着***100收集关于用户对企业的直观分类的更多数据，***100可以随时间更新该分层树。

通过比较，传统目录服务(例如，黄页)使用的企业分类基本上是固定的。如果用户在不知道企业名称的情况下希望找到特定企业，则用户须知道该特定企业在传统目录服务提供的类别中被归入什么类别。例如，如果用户希望找到指定位置附近的销售园艺工具的特定企业，但是不知道企业名称，则用户可能查询传统目录服务并且询问在指定位置附近的在“五金店”类别下列出的企业。传统目录服务可以以指定位置附近的归入“五金店”类别的所有企业的列表进行响应。如果用户正在寻找的特定企业未被传统目录服务分类为五金店，而是被分类在“园艺中心”类别下，则来自传统目录服务的响应将不包括用户正在寻找的特定企业。当事实上特定企业在传统目录中被列入不同的类别下时，用户可能想到该特定企业未列入传统目录。

图3是可用于建立和更新聚类的类别节点的分层树150和用于话音识别的语言模型的数据库106的***100的模块示例的框图。用户接口102、话音识别引擎104和映射模块108与图1中的相同，并且用于识别用户话音输入。***100包括搜索引擎162(其不同于图1的搜索引擎110)，其用于执行关键词搜索并且返回指向包含特定关键词的网页或文档的链接列表。***100包括自动类别聚类模块164，其使用从例如呼叫日志152和搜索日志154收集的数据建立和更新分层树150。

呼叫日志152包括自过去呼叫记录的数据，包括关于过去的呼叫者104如何使特定企业与特定企业类型或类别相关联的数据。例如，每当执行图2的过程120时，用户接口102跟踪对话状态，允许将所识别的地理位置、企业类型和特定企业的名称记录在呼叫日志152中。类别聚类模块164在更新分层树150中使用所识别的企业类型和特定企业的名称的对。

术语“类别-企业对”将用于指企业类型和特定企业(或者企业类别和特定企业)的对。

搜索日志154包括自过去搜索记录的数据。例如，用户156可以使用终端158(例如，计算机)在互联网160上向搜索引擎162发送具有关键词的查询。搜索引擎162搜索信息数据库(未示出)并且返回到包含该关键词的文档或网页的链接列表。当用户156随后选择一个链接时，指示用户156使该关键词与所选择的链接指向的文档或网页相关联。如果该文件或网页与特定企业相关联，则该搜索中使用的关键词可潜在地用于定义关于该特定企业的企业类型或类别。

配对模块155可以在后台运行并且分析在搜索日志154中记录的查询字符串和用户对搜索结果(例如，链接或文档)的选择。配对模块155确定用户选择的搜索结果是否与特定企业相关，并且在查询中使用了什么关键词。特定企业和关键词的配对也被记录在搜索日志154中。

在一个示例中，用户156向搜索引擎162发送具有关键词“意大利餐馆”的查询，并且搜索引擎162返回指向意大利餐馆的网页的链接列表。用户156选择指向特定餐馆，例如I1 Fornaio的网页的链接，并且被导向I1 Fornaio餐馆的网页。通过在提交关键词“意大利餐馆”之后选择指向I1 Fornaio的链接，用户指示他/她使I1 Fornaio与企业类型“意大利餐馆”相关联。因此，特定企业I1 Fornaio可被置于与企业类型“意大利餐馆”相关联的分层树150的节点中。

搜索引擎162接收来自许多用户的查询。如果分层树150不具有与“意大利餐馆”相关联的节点，并且许多用户使用关键词“意大利餐馆”提交查询并且随后选择指向I1 Fornaio的链接，则关键词“意大利餐馆”可用于在分层树150中建立新的节点，且特定企业“I1 Fornaio”是该新节点的成员。

相似地，如果用户156提交具有关键词“餐馆”的查询并且随后选择指向I1 Fornaio的链接，则企业I1 Fornaio可被置于与企业类型“餐馆”相关联的分层树150的节点中。由于不同的人可能根据不同的企业类型对相同的企业分类，因此特定企业可能是分层树150中的数个不同的节点的成员。

作为另一示例，用户156向搜索引擎162发送具有关键词“寿司”的查询，并且搜索引擎162返回指向教授如何制作“寿司”的网页、寿司供应商的网页和提供寿司的餐馆的网页的链接列表。用户156选择指向例如Sushitomi的特定餐馆的网页的链接，并且被导向Sushitomi餐馆的网页。通过在提交关键词“寿司”之后选择指向Sushitomi的链接，用户指示他/她使Sushitomi与企业类型或类别“寿司”相关联。因此，特定企业Sushitomi可被置于与企业类型或类别“寿司”相关联的分层树150的节点中。

如果分层树150不具有与“寿司”相关联的节点，并且许多用户使用关键词“寿司”提交查询并且随后选择指向Sushitomi的链接，则关键词“寿司”可以用作用于在分层树150中建立新的节点的企业类型或类别，且特定企业Sushitomi是该新的节点的成员。

关键词与特定企业的配对，诸如“意大利餐馆”与“I1 Fornaio”的配对、“餐馆”与“I1 Fornaio”的配对、和“寿司”与“Sushitomi”的配对等，被记录在搜索日志154中，类别聚类模块164在建立分层树150中使用该搜索日志154。

从例如呼叫日志152和搜索日志154收集的数据可以包括关于用户对特定企业的类别困惑时的用户响应的信息。例如，呼叫日志152可能示出用户在响应关于特定企业的企业类型的问题而答复“我不知道”的实例。呼叫日志152和搜索日志154可以包括关于用户如何以非传统的方法，例如不同于传统目录服务使用的分类的方法，对企业分类的信息。例如，呼叫日志152和搜索日志154可能示出其中用户在实际上寻找蜂窝电话的销售商时说出或者输入关键词“五金店”的实例。通过捕获来自呼叫者104和/或用户156的宽范围的响应，***100可以根据平均用户构造更加准确地反映企业分类的分层树150，不同于传统目录服务中使用的严格企业分类。

术语“用户156”将用于指执行关键词搜索的用户，而不具有参考数字156的术语“用户”将通常用于指用户156和呼叫者104两者。

***100可以处理搜索日志154以确定用户156选择的链接是否与特定企业相关联。当***100确定所选择的链接与特定企业相关联时，搜索中使用的关键词可被用作关于该特定企业的企业类型或类别。

类别聚类模块164组合来自呼叫日志152和搜索日志154的类别-企业对，并且建立通用分层树150。对于其中地理信息也是可用的情况，类别聚类模块164根据地理位置将该对归类并且建立关于每个地理位置的位置特定分层树150。例如，与纽约城中的企业相关的所有类别-企业对可用于生成位置特定分层树150，并且与San Jose城中的企业相关的所有类别-企业对可用于生成位置特定分层树150等等。

在类别聚类模块164更新通用分层树和位置特定分层树150之后，使用模块166来更新数据库106中的话音识别语言模型。分层树150中的每个节点与数据库106中的语言模型相关联，因此当类别聚类模块164添加或移除分层树150的节点，或者添加或移除节点的企业类型或特定企业时，数据库106中的对应的语言模型也被更新。每个更新的语言模型偏向于识别与各个节点相关联的特定企业。

由于分层树150可以具有许多节点，因此语言模型的数目可能是巨大的。可能需要大量的资源(例如，盘驱动存储空间)以维持该语言模型。一种减少存储在***(例如，盘驱动)中的语言模型的总数的方法是从与子节点相关联的语言模型(被称为低级别语言模型)建立与父节点相关联的语言模型(被称为高级别语言模型)。例如，用于与“餐馆”企业类型相关联的父节点的第一语言模型可以是用于与“意大利餐馆”企业类型相关联的子节点的第二语言模型和用于与“日本餐馆”企业类型相关联的子节点的第三语言模型的组合。第二和第三语言模型可以具有与第一语言模型不同的权重或影响。在一个实现方案中，***100可以存储关于第二和第三语言模型的权重系数以表示第一语言模型，节约了可观的盘空间。

分层树150可以通过许多方法被建立和更新。下面描述如何通过类别聚类模块164构造和更新分层树150的示例。该方法可用于构造通用分层树和位置特定分层树。

参考图4A，在所示出的示例中，分层树150的每个节点包括具有类别-企业对172及其各自的计数174的列表的表格170。计数174表示类别-企业对172在呼叫日志152和搜索日志154中出现的次数。例如，(餐馆，I1 Fornaio)对具有计数110，(餐馆，Shanghai Garden)对具有计数100，(寿司，Sushitomi)对具有计数10，并且(我不知道，Home Depot)对具有计数3。这指示过去的用户使I1 Fornaio与“餐馆”企业类型或类别相关联110次，使Sushitomi与“寿司”企业类型或类别相关联10词，等等。

参考图4B，每个节点包括企业类型及其累积计数的索引176。例如，“餐馆”企业类型具有计数200，“意大利餐馆”企业类型具有计数65，等等。

参考图4C，每个节点还包括特定企业及其累积计数的索引178。例如，特定企业“I1 Fornaio”具有计数175，并且“Ace Hardware”具有计数23，等等。

通过对类别-企业对的类型聚类基于其计数建立分层树150的节点。在一个示例中，树150的根包括所有类别-企业对。根下的第一节点被初始化为具有与具有最高计数的类别相关联的类别-企业对。

参考图5A，树150最初仅具有根节点180，其具有所有类别-企业对。由于“餐馆”企业类型具有最高计数(其等于200，参看图4B)，因此建立子节点182并且使其与“餐馆”企业类型相关联。其中类别是“餐馆”的所有类别-企业对与新的节点182相关联。因此，节点182包括(餐馆，I1Fornaio)、(餐馆，Shanghai Garden)、和(餐馆，Sushitomi)对。

然后，计算每个类别-企业对和树150中的两个节点180、182中的每个节点之间的相似度。多个相似度测量可用于确定类别-企业对与根节点180还是与节点182更相似(或相关)。在一些示例中，关于特定类别-企业对和特定节点的相似度测量是该节点中的给定了类别而关于该类别的词语频率(term frequency)(TF1)和给定了特定企业而关于该特定企业的词语频率(TF2)的和。关于具有词语(例如，词)的类别的词语频率等于关于该词语的类别计数除以该节点中的所有类别计数。关于具有词语(例如，词)的特定企业的词语频率等于关于该词语的特定企业计数除以该节点中的所有特定企业计数。

在一些示例中，词语频率(TF 1+TF2)被逆向文档频率加权，该逆向文档频率是节点数目除以(在企业类型或特定企业中)包含该词语的节点数目的对数。如果特定的类别-企业对具有与新的“餐馆”节点182的更高的相似度，则该类别-企业对被指派给新的节点182，并且更新关于新聚类的节点的计数。

使用上文描述的相似度测量，可以确定类别-企业对(意大利餐馆，I1 Fornaio)、(中国餐馆，Shanghai Garden)、(日本餐馆，Sushitomi)、和(寿司，Sushitomi)与新节点182相关联，而(五金，Home Depot)、(五金、Ace Hardware)、(五金店，Orchard Supply Hardware)、(五金店，Orchard Supply Hardware)、和(我不知道，Home Depot)与根节点180相关联。

通过识别具有最大变化的节点中的具有最高计数的新的类别，如同“餐馆”节点182，可以初始化树150中的下一个新节点。对该变化的一个测量是每个节点中的类别-企业对的熵，熵被定义为在节点中的所有对上对每个对的概率乘以每个对的概率的对数取和的负值。例如，节点182的熵是-(110/480*log(110/480)+100/480*log(100/480)+90/480*log(90/480)+65/480*log(65/480)+55/480*log(55/480)+50/480*log(50/480)+10/480*log(10/480))。节点180的熵可以通过相似的方式确定。

节点180具有比节点182高的变化，并且节点180中具有最高计数的类别(除了已与节点182相关联的类别)是“五金”企业类型。

参考图5B，在根节点180下初始化与“五金”企业类型相关联的新节点184，并且使用上文描述的相似度测量将类别-企业对重新指派给节点180、182、184。

参考图5C，使用上文描述的方法可以将附加的节点添加到树150。例如，节点186、188、190、192、194、和196可分别与企业类型或类别“意大利餐馆”、“中国餐馆”、“日本餐馆”、“寿司”、“五金店”、和“我不知道”相关联。

在一些示例中，添加子节点的过程继续直至达到关于节点总数的上限，或者直至树150中的任何末端节点(即没有任何子节点的节点)中的变化量小于预先定义的阈值。

在完成分层树150之后，模块166更新数据库106中的话音识别语言模型，使得树150中的每个节点(例如，180至196)与数据库106中的语言模型相关联。与节点相关联的语言模型提供关于话语与特定企业匹配的概率的信息。该概率可以基于计数值。例如，如果呼叫者104指示企业类型是“餐馆”，并且呼叫者的话语与“I1 Fornaio”的波形和“Sushitomi”的波形匹配到相同的程度，则与节点182相关联的语言模型可以指示呼叫者104说“I1 Fornaio”概率高于呼叫者说“Sushitomi”的概率。

当可以从呼叫日志152和搜索日志154获得类别-企业对的附加示例时，可以更新分层树150。在一些示例中，可以定期地重新聚类和重新建立完整的分层树150，所有类别-企业对在根节点中开始，并且如上文描述进行聚类。在一些示例中，现有的分层树保持原样并且将新的类别-企业对如上文描述地指派给具有最高相似度分值的节点。在一个实现方案中，如果在树150中既未找到特定企业也未找到企业类型，则将该类别-企业对缺省指派给根节点180。

图6是用于生成分层树150的示例性过程200的流程图。接收202类别-企业对。所有类别-企业对最初被指派给204树150的根节点。找到206具有最高变化的节点中的具有最高计数的企业类型T1。对企业类型T1建立208新的节点。与企业类型T1相关联的类别-企业对被指派给该新的节点。剩余的类别-企业对被重新聚类210并且基于相似度测量被指派给节点。确定212所有节点的熵值。如果存在具有高于阈值的熵值的任何末端节点，则重复找到206、建立208、和重新聚类210。当所有末端节点具有小于阈值的熵值时，完成分层树150，并且更新214用于节点的语言模型。

例如，在过程200中，可以从呼叫日志152和搜索日志154(图3)接收类别-企业对。可以通过类别聚类模块164执行指派204、找到206、建立208、重新聚类210、和确定212熵值。可以通过用于更新话音识别语言模型的模块166执行更新214。

图7是用于将企业类型映射到分层树150的节点以确定使用哪些语言模型来识别特定企业的示例性过程220的流程图。接收222企业类型T1。确定224企业类型T1和节点之间的相似度分值。每个相似度分值指示企业类型T1和与节点相关联的企业类型之间的相似度。找到226具有最高相似度分值的节点。使用228与该节点相关联的语言模型识别话音输入中的特定企业。

例如，在过程220中，可以通过识别来自呼叫者104的话音输入中的企业类型的话音识别引擎104确定企业类型T1。可以通过映射模块108(图1)执行该确定224和找到226。话音识别引擎104可以使用228由映射模块108找到的语言模型识别来自呼叫者104的话音输入中的特定企业。

不是每当***100需要确定哪个节点对应于由呼叫者104提供的企业类型时计算相似度分值，***可以预先计算关于常用企业类型的相似度分值。例如，基于历史数据，***可以确定“日本餐馆”是经常接收请求的企业类型。使用图5C中的分层树150作为示例，***100可以预先计算“日本餐馆”和节点180至196之间的相似度分值，并且确定节点190、182、和180与识别日本餐馆相关。***100随后预先计算将被分别指派给与节点190、182、和180相关联的语言模型的权重c1、c2、和c3。在一些示例中，该权重可以是相似度分值。权重c1、c2、和c3可以被存储在表中。

当呼叫者104询问关于特定企业的信息并且提供“日本餐馆”作为企业类型时，映射模块108查找该表并且确定相关节点是190、182、和180，并且关于对应的语言模型的权重分别是c1、c2和c3。与节点190、182和180相关联的语言模型连同其各自的权重c1、c2和c3一起被提供给话音识别引擎104以识别特定企业的名称。

***100可以考虑不同的地理位置预先计算关于语言模型的相似度分值和权重。例如，***100可以确定，当呼叫者104询问关于在San Jose的意大利餐馆的信息时，在关于San Jose的第一分层树、关于Palo Alto的第二分层树、关于Sunnyvale的第三分层树、和关于Mountain View的第四分层树中分别存在相关节点。***100可以预先计算将被应用于与这些节点相关联的语言模型的权重，并且将该权重存储在表中。当呼叫者104呼叫询问San Jose的意大利餐馆时，映射模块108查找该表，确定第一、第二、第三和第四分层树中那些节点是相关的，确定它们各自的权重，并且将该信息发送到话音识别引擎104以识别San Jose的意大利餐馆的名称。

3.多服务器***

下面描述使用多个机器实现的语音使能的企业收录搜索***的示例。

图1的***100可以使用经由网络连接在一起的数个服务器实现。服务器可以是例如工作站、个人计算机或者任意处理单元。图1中的每个模块可由分立的服务器执行。例如，一个服务器可以执行用户接口102的功能，并且另一服务器可以执行映射模块108的功能。可以存在执行搜索引擎110的功能的多个服务器。

图1中的数据库106可以存储在不同位置的不同服务器的盘驱动中。可以有运行在位于不同位置的不同的服务器上的多个话音识别引擎104，每个话音识别引擎104访问一个或多个语言模型数据库106并且负责识别与特定企业类型和/或地理位置相关联的特定企业。

分层树150可以用作用于确定哪些服务器负责识别任务的路线图。每个服务器可被指派为负责处理与分层树150的特定节点相关的识别任务。当呼叫者104呼叫***100并且通过说出特定企业的地理位置、企业类型、和名称来询问关于特定企业的信息时，映射模块108使用例如上文描述的相似度测量将该地理位置和企业类型映射到分层树150，以找到具有最佳匹配的节点。负责该具有最佳匹配的节点及其祖先节点的服务器被呼叫以识别该特定企业的名称。

一些服务器可以负责通用分层树的节点，而一些服务器可以负责位置特定分层树的节点。来自各种服务器的识别结果可被发送到确定最终识别结果的中心服务器。

4.附加示例

尽管上文讨论了一些示例，但是其他的实现方案和应用也在所附权利要求的范围内。例如，用户接口102(图1)可由专门研究语音使能的用户接口的不同公司(例如，TellMe Network，Inc.)操作。***100可用于识别人名或者除了企业以外的诸如非营利组织的实体的名称。

例如，***100可以提供个人目录服务。用户接口102可以提示呼叫者104提供关于个人的地理位置、类别和姓名的信息。该地理位置可以是例如城市和州。该类别可以是例如“斯坦福大学毕业生”或“Google公司雇员”。话音识别引擎104可以基于地理位置和类别信息识别个人的姓名。***100可以随后向呼叫者104提供相关数据(例如，个人的电话号码)，并且提供将呼叫者连接到该个人的选项。

例如，***100可以提供商品定位服务。用户接口102可以提示呼叫者104提供关于商品项目的地理位置、类别、和名称的信息。地理位置可以是例如城市和州。类别可以是例如“平板电视”或“汽车”。名称可以是例如“Sharp

45英寸HDTV”或“Toyota Prius”。话音识别引擎104可以基于该地理位置和类别信息识别商品的名称，并且返回位于销售该商品的地理位置或其附近的商店的列表。通过询问关于商品的地理位置和类别的信息，话音识别引擎可以更加准确地识别商品的名称并且向用户提供更好的服务。

语音使能的导航***可以提供到特定企业的方向。该导航***可以从用户接收特定企业的企业类型和名称。该导航***可以使用例如GPS信号具有关于导航***的位置的信息，并且基于企业的位置和类型识别特定企业的名称。例如，汽车的驾驶员可以说出“向我显示到Palo Alto附近的意大利餐馆I1 Fornaio的方向”。相比于仅使用关于企业的地理位置的信息尝试识别企业名称的导航***，该导航***能够基于对I1 Fornaio是意大利餐馆并且位于Palo Alto附近的了解，更加准确地识别“I1 Fornaio”。

搜索日志154可以包括来自例如桌面搜索或内联网上的搜索的数据。***100可以驻留在个人计算机处，并且呼叫日志152可以包括关于该个人计算机的一个或多个用户使用例如语音命令获得关于特定企业的信息的对***100的过去使用的历史数据。

用于对节点聚类的数据结构不必是如图5C中示出的分层树结构。也可以使用其他类型的数据结构。

图1和3中的每个模块以及图2、6和7中的每个过程可由软件、硬件或者此两者的组合实现。下面描述可用于实现上文描述的搜索***的通用计算***的示例。

图8示出了通用计算***的示意性表示。计算设备800用于表示各种形式的数字计算机，诸如膝上型计算机、桌面计算机、工作站、个人数字助理、服务器、刀片服务器、大型机、和其他适当的计算机。这里示出的组件、它们的连接和关系以及它们的功能仅是示例性的，并非限制本文中描述和/或要求的本发明的实现方案。

计算设备800包括处理器802、存储器804、存储设备806、连接到存储器804和高速扩展端口810的高速接口808、和连接到低速总线814和存储设备806的低速接口812。每个组件802、804、806、808、810、和812使用各种总线互连，并且可以安装在公共母板上或者以其他适当的方式安装。处理器802可以处理用于在计算设备800中执行的指令，该指令包括存储在存储器804中或存储设备806上的用于在外部输入/输出设备，诸如耦接到高速接口808的显示器816上显示GUI图形信息的指令。在其他实现方案中，可以根据需要使用多个处理器和/或多个总线，以及多个存储器和存储器类型。而且，可以连接多个计算设备800，每个设备提供必要操作的一部分(例如，作为服务器组、刀片服务器组、或者多处理器***)。

存储器804存储计算设备800中的信息。在一个实现方案中，存储器804是易失性存储器单元。在另一实现方案中，存储器804是非易失性存储器单元。存储器804也可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备806能够为计算设备800提供大容量存储。在一个实现方案中，存储设备806可以是或者包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、或磁带设备、闪速存储器或者其他相似的固态存储器设备、或者设备阵列，包括存储区域网络或其他配置中的设备。计算机程序产品可以有形地实现在信息载体中。计算机程序产品也可以包含指令，当执行该指令时，执行如上文描述的一个或多个方法。该信息载体是计算机或机器可读介质，诸如存储器804、存储设备806、处理器802上的存储器、或者传播信号。

高速控制器808管理计算设备800的带宽密集操作，而低速控制器812管理带宽密度较低的操作。该功能分配仅是示例性的。在一个实现方案中，高速控制器808耦接到存储器804、显示器816(例如，通过图形处理器或加速器)，并且耦接到高速扩展端口810，该高速扩展端口810可以容纳各种扩展卡(未示出)。在该实现方案中，低速控制器812耦接到存储设备806和低速扩展端口814。该低速扩展端口可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)，可以耦接到一个或多个输入/输出设备，诸如键盘、指示设备、扫描仪，或者例如通过网络适配器连接到诸如交换机或路由器的联网设备。

如图中示出的，计算设备800可以实现为许多不同的形式。例如，其可被实现为标准服务器820，或者在一组这样的服务器中多次实现。其还可被实现为机架服务器***824的一部分。此外，其可在个人计算机中实现，诸如膝上型计算机822。每个这样的设备(例如，标准服务器、机架服务器***、个人计算机、膝上型计算机)可以包含一个或多个计算设备800，并且整个***可由相互通信的多个计算设备800构成。

这里描述的***和技术的各种实现方案可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实现方案可以包括一个或多个计算机程序中的实现方案，该计算机程序可以在包括可以是专用或通用处理器的至少一个可编程处理器的可编程***上执行和/或解释，该处理器被耦接为从存储***、至少一个输入设备和至少一个输出设备接收数据和指令以及向该存储***、至少一个输入设备和至少一个输出设备传送数据和指令。

这些计算机程序(还被称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级程序语言和/或面向对象的编程语言实现，和/或用汇编/机器语言实现。如此处使用的术语“机器可读介质”、“计算机可读介质”意指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”意指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里描述的***和技术可以在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示)监视器)以及用户可向计算机提供输入的键盘和指示设备(例如，鼠标、轨迹球、触摸敏感屏、或者如iDrive的组件)的计算机上实现。其他种类的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感知反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以接收任何形式的来自用户的输入，包括声音、话音、或触觉输入。

这里描述的***和技术可以在包括后端组件(例如，如数据服务器)、或者包括中间件组件(例如，应用服务器)或者包括前端组件(例如，具有图形用户接口或web浏览器的客户端计算机，用户可以通过该图形用户接口或web浏览器与这里描述的***和技术的实现方案交互)的计算***中实现，或者在包括这样的后端、中间件、或前端组件的任何组合的计算***中实现。该***的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)、和因特网。

计算***可以包括客户端和服务器。客户端和服务器通常相互远离并且典型地通过通信网络交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

已经描述了本发明的许多实施例。然而，应理解，在不偏离本发明的精神和范围的前提下，可以进行各种修改。例如，可以使用上文示出的各种形式的流程，其中将步骤重新排序、添加步骤或者移除步骤。而且，尽管描述了数个应用和方法，但是应认识到，其他应用也在考虑之内。因此，其他实施例在所附权利要求的范围内。

Claims

1.一种方法，包括：

提示用户提供特定企业的企业类型和标识符；

从所述用户接收具有关于所述企业类型和所述标识符的信息的话音输入；以及

使用话音识别模块基于所述企业类型识别所述标识符。

2.如权利要求1所述的方法，其中提示所述用户提供信息包括提示所述用户提供地理位置。

3.如权利要求2所述的方法，其中识别所述标识符包括使用所述话音识别模块基于所述地理位置和所述企业类型识别所述特定企业的所述标识符。

4.如权利要求1所述的方法，其中提示所述用户提供标识符包括提示所述用户提供所述特定企业的名称。

5.如权利要求1所述的方法，进一步包括：在识别所述特定企业的所述标识符之后，将关于所述特定企业的信息提供给所述用户。

6.如权利要求5所述的方法，其中提供关于所述特定企业的信息包括提供所述特定企业的电话号码。

7.如权利要求5所述的方法，其中提供关于所述特定企业的信息包括基于对所述特定企业的所述标识符的识别提供企业名称的列表。

8.如权利要求1所述的方法，其中识别所述特定企业的所述标识符包括使所述话音识别模块偏向于与所述企业类型相关联的一个或多个语言模型。

9.如权利要求1所述的方法，其中提示所述用户提供所述企业类型在提示所述用户提供所述特定企业的所述标识符之前发生。

10.如权利要求1所述的方法，其中提示用户提供信息包括：使用单个提示，向所述用户询问所述特定企业的所述企业类型和所述标识符。

11.一种方法，包括：

向用户询问实体的地理位置、类别和名称；

从所述用户接收具有关于所述实体的所述地理位置、所述类别和所述名称的信息的话音输入；

使用话音识别模块识别所述地理位置和所述类别；以及

使用所述话音识别模块基于所述地理位置和所述类别识别所述名称。

12.如权利要求11所述的方法，其中所述实体包括营利组织、非营利组织或者个人。

13.如权利要求11所述的方法，其中识别所述名称包括使用与所述地理位置和所述类别相关联的一个或多个话音识别语言模型。

14.一种方法，包括：

使用话音识别模块基于用户提供的地理位置和企业类型识别所述用户的话语中的特定企业的名称。

15.如权利要求14所述的方法，其中所述识别包括使用与所述企业类型相关联的一个或多个语言模型。

16.一种装置，包括：

语音使能的用户接口，用于输出语音提示以请求用户提供特定企业的企业类型和标识符，以及从所述用户接收具有关于所述特定企业的所述企业类型和所述标识符的信息的话音输入；和

话音识别引擎，用于基于关于所述企业类型的所述信息识别所述特定企业的所述标识符。

17.如权利要求16所述的装置，其中所述话音识别引擎偏向于与所述用户提供的所述企业类型相关联的话音识别语言模型。

18.如权利要求16所述的装置，其中所述语音提示还请求所述用户提供地理位置。

19.如权利要求18所述的装置，其中所述话音识别引擎偏向于与所述用户提供的所述企业类型和所述地理位置相关联的话音识别语言模型。

20.如权利要求16所述的装置，进一步包括用于存储包括话音识别语言模型的数据库的存储介质，每个语言模型用于识别与一个或多个特定的企业类型相关联的特定企业。

21.如权利要求16所述的装置，进一步包括用于存储节点的分层树的存储介质，每个节点与一个或多个特定的企业类型相关联。

22.如权利要求16所述的装置，进一步包括用于存储具有用于控制在所述语音使能的用户接口和所述用户之间的交互的指令的脚本的存储介质。

23.如权利要求16所述的装置，进一步包括搜索引擎，以基于所述话音识别引擎识别的所述特定企业的所述标识符搜索与所述特定企业相关的信息。

24.一种装置，包括：

语音使能的搜索***，包括：

语音使能的用户接口，输出语音提示以请求用户提供实体的地理位置、类别和名称，以及从所述用户接收具有关于所述实体的所述地理位置、所述类别和所述名称的信息的话音输入；和

话音识别引擎，用于基于所述地理位置和所述类别识别所述实体的所述名称。

25.如权利要求24所述的装置，其中所述搜索***包括用于存储包括话音识别语言模型的数据库的存储介质，每个语言模型用于识别与一个或多个特定的类别相关联的实体。

26.一种装置，包括：

话音识别模块，用于基于用户提供的地理位置和企业类型识别所述用户的话语中的特定企业的标识符。

27.如权利要求26所述的装置，进一步包括对所述话音识别模块可访问的数据库，所述数据库包括话音识别语言模型，每个语言模型与一个或多个特定的企业类型相关联。

28.一种装置，包括：

语音使能的企业收录搜索***，包括：

语音用户接口，用于提示用户提供特定企业的企业类型和标识符以及从所述用户接收话音输入；和

用于基于所述企业类型识别所述话音输入中的所述特定企业的所述标识符的构件。

29.如权利要求28所述的装置，其中所述用户接口还提示所述用户提供所述特定企业的地理位置。

30.如权利要求29所述的装置，其中所述识别构件基于所述地理位置和所述企业类型两者识别所述特定企业的所述标识符。

31.一种物品，包括：

存储介质，其上存储有指令，所述指令在被机器执行时导致如下操作：

提示用户提供特定企业的企业类型和标识符；

基于所述企业类型识别所述标识符。

32.一种方法，包括：

接收类别-企业对，每个类别-企业对包括企业类别和特定企业；以及

基于所述类别-企业对建立具有节点的数据结构，每个节点与一个或多个企业类别和话音识别语言模型相关联，所述话音识别语言模型用于识别与所述一个或多个企业类别相关联的特定企业。

33.如权利要求32所述的方法，其中建立所述数据结构包括建立节点的分层树。

34.如权利要求33所述的方法，其中建立所述分层树包括建立父节点的子节点，并且使与所述父节点相关联的企业类别的子集与所述子节点相关联。

35.如权利要求34所述的方法，进一步包括使第一话音识别语言模型与所述父节点相关联，并且使第二话音识别语言模型与所述子节点相关联，所述第二语言模型在识别与企业类别的所述子集相关联的所述特定企业中比所述第一语言模型更准确。

36.如权利要求32所述的方法，其中可以从其他语言模型的组合来构造语言模型。

37.如权利要求32所述的方法，其中识别特定企业包括识别所述特定企业的名称。

38.如权利要求32所述的方法，其中建立所述数据结构包括基于正被指派的企业类别和已被指派给特定节点的企业类别之间的相似度将企业类别指派给所述特定节点。

39.如权利要求32所述的方法，其中建立所述数据结构包括基于现有节点的熵值建立新的节点，节点的所述熵指示(a)与所述节点相关联的所述一个或多个企业类别和(b)与所述节点相关联的所述一个或多个特定企业中的至少一个的变化程度。

40.如权利要求32所述的方法，其中建立所述数据结构包括添加新的节点直至所有节点具有低于预定阈值的熵值。

41.如权利要求32所述的方法，其中接收信息包括从呼叫日志接收信息。

42.如权利要求41所述的方法，进一步包括记录关于对企业收录服务的使用的呼叫数据，在所述企业收录服务中一个或多个用户询问关于特定企业的信息。

43.如权利要求32所述的方法，其中接收信息包括从搜索日志接收信息。

44.如权利要求43所述的方法，进一步包括记录关于由一个或多个用户执行的关键词搜索以及所述一个或多个用户对搜索结果的后继选择的信息。

45.如权利要求32所述的方法，进一步包括使用话音识别模块来使用所述数据结构识别附加的类别-企业对。

46.如权利要求45所述的方法，进一步包括使用所述附加的类别-企业对更新所述数据结构。

47.一种方法，包括：

从关键词搜索收集关于特定企业与类别的关联的信息；

基于所述信息建立话音识别语言模型，每个语言模型与一个或多个类别相关联，每个语言模型用于识别与所述一个或多个类别相关联的特定企业；以及

使用所述语言模型识别话语中的特定企业。

48.如权利要求47所述的方法，进一步包括建立具有节点的分层树，每个节点与所述类别中的一个或多个以及所述话音识别语言模型中的一个相关联。

49.如权利要求47所述的方法，其中所述关键词搜索包括web搜索、内联网搜索和桌面搜索中的至少一个。

50.一种方法，包括：

接收具有关于特定企业的企业类别和标识符的信息的话音输入；

将所述话音输入中的企业类型映射到数据结构中的节点，每个节点与一个或多个企业类别和话音识别语言模型相关联；以及

使用基于所述映射确定的一个或多个语言模型识别所述特定企业的所述标识符。

51.如权利要求50所述的方法，其中所述映射包括：对于一些所述节点中的每个节点，确定相似度分值，所述相似度分值表示所述话音输入中的所述企业类别和与所述节点相关联的所述一个或多个企业类别之间的相似度。

52.如权利要求51所述的方法，进一步包括基于所述相似度分值生成关于所述语言模型的权重。

53.如权利要求50所述的方法，进一步包括找到具有与所述话音输入中的所述企业类别的最高相似度的特定节点，并且使用与所述特定节点相关联的第一语言模型和与所述特定节点的父节点相关联的第二语言模型来识别所述标识符。

54.一种装置，包括：

类别聚类模块，用于接收类别-企业对并且使用所接收的类别-企业对更新具有节点的数据结构，每个类别-企业对包括企业类别和特定企业，所述数据结构中的每个节点与一个或多个企业类别和话音识别语言模型相关联，所述话音识别语言模型用于在识别与所述一个或多个企业类型相关联的特定企业的标识符中使用。

55.如权利要求54所述的装置，进一步包括呼叫日志和搜索日志中的至少一个，用于提供关于所述类别-企业对的信息。

56.如权利要求54所述的装置，其中所述数据结构包括节点的分层树。

57.如权利要求54所述的装置，其中可以从其他语言模型的组合来构造语言模型。

58.如权利要求56所述的装置，其中所述类别聚类模块建立从父节点分支出的子节点并且使所述子节点与和所述父节点相关联的企业类别的子集相关联。

59.如权利要求58所述的装置，进一步包括语言模型更新模块，用于使第一话音识别语言模型与所述子节点相关联，所述第一语言模型在识别与所述子节点相关联的特定企业的所述标识符中比与所述父节点相关联的第二语言模型更准确。

60.如权利要求54所述的装置，其中所述类别聚类模块基于正被指派的企业类别和已被指派给特定节点的企业类别之间的相似度将企业类别指派给所述特定节点。

61.如权利要求54所述的装置，其中所述类别聚类模块基于现有节点的熵值建立新的节点，节点的所述熵指示(a)与所述节点相关联的所述一个或多个企业类别和(b)与所述节点相关联的所述一个或多个特定企业中的至少一个的变化程度。

62.一种装置，包括：

语音使能的用户接口，用于接收具有关于特定企业的企业类别和标识符的信息的话音输入；

映射模块，用于将所述企业类别与数据结构的多个节点进行比较，每个节点与一个或多个企业类别和话音识别语言模型相关联；以及

话音识别模块，用于使用基于所述映射确定的一个或多个语言模型识别所述特定企业的所述标识符。

63.如权利要求62所述的装置，其中所述映射模块针对一些所述节点中的每个节点确定所述话音输入中的所述企业类别和与所述节点相关联的所述一个或多个企业类别之间的相似度分值。

64.如权利要求62所述的装置，其中所述映射模块基于所述相似度分值生成关于所述一个或多个语言模型的权重。

65.如权利要求62所述的装置，其中所述映射模块找到具有与所述话音输入中的所述企业类别的最高相似度的特定节点，并且使用与所述特定节点相关联的第一语言模型和与所述特定节点的父节点相关联的第二语言模型来识别所述标识符。

66.一种装置，包括：

用于接收类别-企业对的构件，每个类别-企业对包括企业类别和特定企业；和

用于基于所述类别-企业对建立具有节点的数据结构的构件，每个节点与一个或多个特定的企业类别和话音识别语言模型相关联，所述话音识别语言模型用于识别与所述一个或多个特定企业类别相关联的特定企业。

67.如权利要求66所述的装置，进一步包括用于基于新的类别-企业对更新所述数据结构的构件。

68.一种装置，包括：

用于将关于企业类别的信息映射到分层树的多个节点并且生成关于所述节点的权重值的构件，每个节点与一个或多个企业类别和语言模型相关联，所述语言模型用于识别与所述一个或多个企业类别相关联的特定企业；和

话音识别引擎，用于使用基于所述映射确定的一个或多个语言模型识别话音输入中的特定企业。

69.如权利要求68所述的装置，其中所述映射构件基于所述映射确定关于所述节点的权重值，并且所述一个或多个语言模型通过所述权重值加权。