CN109891500B

CN109891500B - 基于位置的话音查询识别

Info

Publication number: CN109891500B
Application number: CN201780067103.1A
Authority: CN
Inventors: C-A.因格马森
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-27
Filing date: 2017-02-22
Publication date: 2022-11-15
Anticipated expiration: 2037-02-22
Also published as: EP3533053A1; US20180122367A1; US9959864B1; CN109891500A; EP3533053B1; EP3905238A1; WO2018080576A1

Abstract

在一些实施方式中，***和方法能够执行基于位置的话音查询识别。初始接收与用户的话语相对应的音频和指示与用户相关联的位置的数据。然后获得该话语的初始转录。为与位置相关联的多个区域中的每一个区域选择与区域相关联的一组n元语法。为多个地理区域中的一个或多个地理区域生成一个或多个附加候选描述。为多个地理区域中的一个或多个地理区域选择话语的代表性转录。该代表性转录最终被提供给自动语音识别器。

Description

基于位置的话音查询识别

技术领域

本说明书涉及自动语音识别。

背景技术

语音识别是指使用自动语音识别器(automated speech recognizer，ASR)将口头单词转录成文本。在传统ASR***中，将接收的音频转换成计算机可读的声音，然后将该计算机可读的声音与与给定语言相关联的单词字典进行比较。

发明内容

一般而言，本说明书中描述的主题的一个创新方面可以体现在改进可能被错误识别的不常见的位置特定的术语的话音识别准确性的方法中。例如，与话音查询相关联的位置数据可以用于为该话音查询生成附加候选转录。附加候选转录是使用与位置相关的多个地理区域相关联的n元语法(n-gram)生成的。

例如，邻域模型可以包括被确定为与包围该位置的特定地理区域相关联的n元语法的集合，而子地区模型可以包括被确定为与包围该位置的更大面积相关联的n元语法的集合。在这点上，地理区域模型的层级可以用于生成替代的候选转录，每个候选转录都特定于与位置相关的不同地理区域。因此，自动语音识别器(ASR)可以使用替代的候选转录来减少位置特定的术语的错误识别数量。

对位置特定的术语的错误识别可能导致误导或其他方式的不正确的语音识别结果，当依赖于该不正确的语音识别结果时，可能导致计算机***中进一步的不准确性和技术效率低下。例如，在位置特定的术语形成电子邮件地址或类似内容的一部分的情况下，其错误识别可能导致计算机向不存在的电子邮件地址发送电子邮件(例如，作为自动化过程的一部分)。这可能会导致计算机和计算机所连接的通信网络两者效率低下。例如，来自网络中服务器的退回或“无法传递”消息可能会给计算机和网络带来负载。如果位置特定的术语被正确识别，就不会产生这种负载。通过用户(例如，经由键盘或其他输入设备)对错误识别的术语的手动校正，可能在计算机上施加更多不必要的负载。对本说明书中描述的不常见的特定位置的术语的话音识别准确性的改进可以减少或完全避免上述技术效率低下。

实施方式可以包括以下一个或多个特征。例如，在一些实施方式中，一种方法包括：接收(i)与用户的话语相对应的音频数据，以及(ii)指示与用户相关联的位置的数据；获得话语的初始候选转录；为与该位置相关联的多个地理区域中的每一个地理区域选择与区域相关联的一组n元语法；对于多个地理区域中的一个或多个地理区域，基于(i)初始候选转录，和(ii)与该区域相关联的、不在初始候选转录中出现的、并被指示为在语声上与在初始候选转录中出现的一个或多个术语类似的一组n元语法的一个或多个术语，来生成一个或多个附加候选转录；从初始候选转录和一个或多个附加候选转录当中选择话语的代表性转录；以及向自动语音识别器提供代表性转录。

其他版本包括被配置为执行编码在计算机存储设备上的方法的动作的对应***和计算机程序。

一个或多个实施方式可以包括以下可选特征。例如，在一些实施方式中，多个地理区域至少包括：包围该位置的邻域、包围该邻域整个面积的子地区以及包围该邻域整个面积的地区。

在一些实施方式中，邻域与第一特征分数相关联，子地区与第二特征分数相关联，以及地区与第三特征分数相关联，第一特征分数具有大于第二特征分数的值的值，并且第二特征的值大于第三特征分数的值，以及至少基于第一特征分数、第二特征分数和第三特征分数的相应值来选择代表性转录。

在一些实施方式中，选择与多个地理区域中的每一个地理区域相关联的一组n元语法包括：对于邻域、子地区和地区中的每一个，获得被确定为与区域相关联的n元语法的集合，对于n元语法的集合内的每一个n元语法，计算：(i)反映n元语法将被特定用户在与用户相关联的位置处使用的概率的第一分数，以及(ii)反映n元语法将被用户的集合使用的概率的第二分数，识别在该n元语法的集合内每个都具有大于第二分数的第一分数的n元语法的子集，以及为该区域选择n元语法的子集。

在一些实施方式中，代表性转录至少基于包括在一个或多个附加候选转录的每一个内的n元语法的第一分数的相应值来选择。

在一些实施方式中，为多个地理区域中的每一个地理区域选择的该一组n元语法是代表对应区域内感兴趣点的名称的实体术语。

在一些实施方式中，为多个地理区域中的每一个地理区域选择的该一组n元语法是包括在用户先前提交的一个或多个查询中的实体术语。

在一些实施方式中，该方法还包括由自动语音识别器使用代表性转录来偏置话语的语音识别。

在一些实施方式中，为多个地理区域中的一个或多个地理区域生成的一个或多个附加候选描述包括针对被识别为对话语的不正确转录的一个或多个候选转录中的每一个候选转录的校正的转录。

在一些实施方式中，为多个地理区域中的每一个地理区域选择一组n元语法包括：比较与初始候选转录中出现的n元语法中的一个或多个n元语法相关联的波形和与用于多个地理区域中的每一个地理区域的一个或多个n元语法相关联的波形；以及基于与初始候选转录中出现的n元语法中的一个或多个n元语法相关联的波形和与用于多个地理区域中的每一个地理区域的一个或多个n元语法相关联的波形的比较，来确定用于多个地理区域中的每一个地理区域的一个或多个n元语法当中的至少一个n元语法在语声上与初始候选转录中出现的术语类似。

实施方式中的一个或多个的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中，其他潜在的特征和优点将变得显而易见。

这些方面的其他实施方式包括对应的***、装置和计算机程序，其被配置为执行方法的动作，编码在计算机存储设备上。

附图说明

图1示出了可以用于基于分层位置的话音查询识别的示例性***。

图2示出了用于生成用于改进话音查询识别的分层区域模型的示例性过程。

图3示出了使用分层区域模型改进话音查询识别的示例性过程。

图4是可以在其上实施本文描述的过程或其部分的计算设备的框图。

在附图中，类似的参考编号始终代表对应部分。

具体实施方式

包括诸如当地餐馆的唯一名称的实体术语的话音查询经常被错误识别，因为它们包含仅与特定位置、用户、时间或上下文数据组合相关的罕见术语。不包括位置数据的通用话音识别技术通常无法区分不同用户位置中常用的术语，并且作为结果，提供了话音查询的不准确转录。

因此，本说明书中描述的技术通过基于指示用户位置的数据为话音查询生成多个位置特定的转录候选来改进话音识别准确性。例如，用户在指定位置处提交的在先查询可以从各种数据源(诸如，例如先前提交的搜索查询、话音查询或其他类型的用户活动数据)提取。然后，提取的数据可以被聚集到不同的分层区域模型中，每个分层区域模型指定用于与位置相关联的不同大小的地理区域(例如，邻域(neighborhood)、子地区(sub-locality)和地区(locality))的术语的集合。结果，仅可能在较小区域中使用的这种术语被存储在邻域模型中，而可能更全局地使用的术语被存储在子地区模型或地区模型中。然后，与多个区域模型中的每一个区域模型相关联的术语的集合可以用于为随后从指定位置发送的查询生成替换转录。

图1示出了可用于基于位置的话音查询识别的示例性***100。一般来说，用户102向***100提供编码为音频数据104b的话音查询104a，该***100然后生成初始候选转录的列表104c。***100还接收位置数据106，该位置数据106用于生成附加候选转录的列表104d，从附加候选转录的列表104d当中选择代表性候选转录104e，以及响应于话音查询104a提供用于输出的识别输出104f。

简而言之，***100可以包括：包括转录选择器112和再评分器(re-scorer)114的自动语音识别器(ASR)110，包括模型选择器122、区域模型124和转录生成器126的候选转录扩展器120，以及语言模型偏置器(biaser)130。下面描述关于***100执行的操作的更具体的细节。

更详细地，用户102初始提供话音查询104a，然后该话音查询104a被编码为音频数据104b。在图1的示例中，用户102提供包括作为加利福尼亚的山景城(Mountain View，California)里虚构餐馆的名称的术语“ZANH”。

ASR 110接收编码话音查询104a的音频数据104b，并为与音频数据104b相对应的话语生成初始候选转录的列表104c。该列表104c包括被确定为在语音上与话音查询104a中包括的术语“ZANH”类似的语言模型内的n元语法。在图1的示例中，ASR 110基于话音查询“ZANH”的推断语声(phonetic)来生成初始候选转录“ZEN”、“SIGN”、“SIN”和“SEEN”。在该示例中，ASR 110生成这样的初始候选转录，因为声学模型和语言模型指示这是在没有接收指示用户位置的数据的情况下最可能的识别候选。例如，如所示出的，ASR 110可以使用声学模型和语言模型来生成不正确的初始候选转录，因为语言模型可以指示“ZEN”是对于话语“ZE-EH-EN”(在话音查询104a中示出)最可能的转录。

候选转录扩展器120接收初始候选转录的列表104c，并且附加地接收位置数据106。该位置数据106可以基于来自用户设备110的全球定位***(global positioningsystem，GPS)信号和与当前用户位置相关的信息来指示该当前用户位置。例如，位置数据106可以包括与当前用户位置相关联的术语，诸如附近设施的名称、与当前用户位置相关联的流行查询、或者当用户102最后一次在当前位置附近时先前提交的查询。

在一些实施方式中，位置数据106还可以包括从先前用户会话获得的上下文数据，诸如来自先前查询的先前搜索引擎结果，诸如例如，知识面板、列表、回答或与先前查询相关的其他类型的信息。在其他情况中，上下文数据可以包括最近点击的网页、指示用户界面上的用户行为(诸如例如，点击跟踪活动、在特定屏幕上花费的时间量或其他类型的用户交互)的屏幕跟踪数据。在这种情况下，位置数据106可以包括与用户活动数据相关联的n元语法。

在一些实施方式中，位置数据106可以附加地或可替代地从用户简档中提取，该用户简档指示基于先前提交的话音查询(例如，通常搜索的餐馆)的频率确定的用户偏好。用户简档还可以指示先前搜索，该先前搜索包括实体术语，诸如名人或流行位置的名称、或者代表用户偏好(诸如，例如“锁定”位置或将网页设置为“收藏”)的不同类型的用户活动数据。

在图1所示的示例中，候选转录扩展器120接收指定邮政编码为“94041”的位置数据106，该邮政编码“94041”指示用户的当前位置在加利福尼亚的山景城。然后，候选转录扩展器120的模型选择器122使用当前用户位置来为每个都与用户位置相关联的地理区域识别和选择一个或多个模型。

每个模型包括预先确定为与由特定模型指定的地理区域相关联的n元语法的集合。例如，n元语法代表例如与地理区域内感兴趣区域的名称(例如，企业名称、邻域名称等)相对应的实体术语。如参考图2更具体地描述的，模型可以是分层的，使得一些模型指定与诸如邻域的小地理区域(例如，山景城，CA)相关联的n元语法，而其他模型指定与诸如子地区的较大地理区域(例如，加利福尼亚州)相关联的n元语法，以及指定与整个地区(例如，***合众国)相关联的n元语法的其他模型。

尽管为了简单起见，始终参考三个级别(例如，邻域、子地区和地区)来描述区域模型，但是在一些实施方式中，***100能够基于从用户设备110接收的具体话音查询来使用更多或更少数量的分层级别。例如，在一个具体实施方式中，***100可以包括用于邻域、子地区、地区和行政区的模型。另外，尽管贯穿全文的描述是指单个国家(例如，美国)，但是***100也能够聚集多个国家的全球数据。在这点上，区域层级(hierarchy)可以包括用于具体国家内的不同区域、具体大陆的不同区域或全球内的不同区域的区域模型。

不同的模型可用于基于与每个模型相关联的指定特异性来调整术语的选择。例如，基于地理区域的领土边界比包括在子地区或地区模型内的n元语法更小(并且因此更具体)，邻域模型可以包括在具***置内更有可能被用户使用的n元语法。如下面更详细描述的，模型的地理分类可以进一步用于调整n元语法的选择以被包括在话音查询104a的附加候选转录内。

在一些实施方式中，用于某地理地区的模型的不同层级可以彼此包容。例如，美国的地区模型可以包括被确定为与美国相关联的所有n元语法，用于加利福尼亚的子地区模型可以包括被确定为仅与加利福尼亚相关联的地区模型内的n元语法的子集，以及山景的邻域模型可以包括被确定为与山景相关联的子地区模型内的n元语法的子集。在这个示例中，包括在邻域模型内的n元语法也被包括在子地区和地区模型内。另外，有一些n元语法可以被包括在子地区和/或地区模型内，但是不被包括在邻域模型内(例如，与CA的萨克拉门托相关联的术语)。因此，不同的层级可以用来生成具有类似的语声类似性的不同区域特异性的替代转录序列。

在一些实施方式中，区域模型124可以用从将某些n元语法与不同地理区域的层级相关联的映射数据库发送的信息来周期性地更新。例如，如参考图2更具体地描述的，可以聚集由用户的集合在指定位置处的先前使用的n元语法，以便识别特定n元语法，该特定n元语法是邻域特定的(例如，更可能仅由具体邻域内的用户使用)、或者是子地区特定的、或者是地区特定的。这是通过处理和关联与用户的集合的用户查询数据相关的位置数据来实现的。在这点上，对区域模型124的更新可以用于反映n元语法的用法变化(例如，局部使用到全局使用，反之亦然)。

模型选择器122选择不同的模型，使得由所选择的模型中的每一个指定的n元语法的集合然后可以用于为话音查询104a生成附加候选转录。在一些实施方式中，由位置数据106指示的用户位置被用于识别每个区域层级内的对应模型(例如，最佳匹配的邻域模型、最佳匹配的子地区模型、以及包括这两者的地区模型)，然后并行处理由每个区域模型指定的n元语法的不同集合。在其他实施方式中，模型选择器122可以代替地为区域层级内的每种类型的模型选择多个模型。在这样的实施方式中，模型选择器122可以选择包括用户位置的邻域模型以及用于包括用户位置的邻域附近的邻域的其他邻域模型。同样，模型选择器122也可以选择多个子地区和/或多个地区模型。

转录生成器126使用由模型选择器122选择的区域模型中的每一个指定的一组n元语法，然后为所选择的区域模型中的每一个生成一个或多个附加候选转录。在图1所示的示例中，转录生成器126为基于由位置数据106指定的用户位置选择的邻域模型、子地区模型和地区模型中的每一个生成单个附加候选转录。在其他示例中，转录生成器126可以为每个模型选择多个附加候选转录。

转录生成器126基于比较由区域模型中的每一个指定的n元语法的集合与包括在表104c中的初始候选转录，来生成包括在表104d内的附加候选转录。对于每个区域模型，转录生成器126然后生成包括来自区域模型的以下n元语法的集合的n元语法的一个或多个附加候选，该n元语法：(i)不出现在表104c中，和(ii)被指示为在语声上与出现在表104c中的术语类似。作为示例，对于邻域模型，转录生成器126将“XAHN”识别为附加候选转录，因为该n元语法在表104c内没有被识别为初始候选转录，但是在语声上与初始候选转录“ZEN”类似。

转录生成器126可以为针对所选择的区域模型生成的附加候选转录中的每一个附加地计算识别分数。识别分数可以用于反映附加候选转录反映话音查询104a的准确转录的可能性。在一些实施方式中，识别分数是基于比较区域模型内指定的具体n元语法可能被由模型指定的地理区域内的用户使用的概率和具体n元语法可能被任何位置内的任何用户使用的全局概率(例如，ASR 110使用的基线语言模型内指示的概率)来计算的。在这点上，识别分数使得***100能够将不同地理区域内n元语法的使用相对于全局使用进行比较，以确定在给定用户目前位置的情况下，附加候选识别的可能性是否很大可能是话音查询104b的准确转录。

ASR 110接收附加候选转录的列表104d，并选择代表性候选转录以用于作为识别输出104e输出。例如，在一些实施方式中，ASR 110可以为列表104c内的每个初始转录和列表104d内的附加候选转录初始地生成相应的置信度分数。置信度分数可以代表每个具体候选转录代表话音查询104a的准确转录的可能性。如图1中的示例所示，由于位置数据106中的邮政编码指示的当前用户位置，所以ASR 110基于音频数据104b和位置数据106两者来为初始候选转录“ZEN”确定低置信度分数。可替代地，ASR 110为附加候选转录“ZANH”确定高置信度分数，因为它在语声上类似于音频数据104b，并且因为术语“ZANH”与位置数据106中的邮政编码相关联。

更详细地，转录选择器112从初始候选转录和代表最有可能代表准确转录的候选转录的附加候选转录当中初始地选择具体候选转录以用于输出。例如，转录选择器112可以比较分配给初始候选转录和附加候选转录中的每一个的相应置信度分数，并选择具有最高置信度分数的具体候选转录。如图1中的示例所示，给定指示用户102当前位置的位置数据106，转录选择器112为该转录选择具有更高置信度分数的附加候选转录“ZANH”。然后，ASR110基于选择附加候选转录，将识别输出104e提供为“ZANH”。

在一些实施方式中，ASR 110可以附加地包括再评分器114，该再评分器114对由ASR 110为每个具体候选转录计算的置信度分数进行重新评分。例如，再评分器114可以附加地比较每个候选转录和音频数据104b之间的语声类似性，以确定哪个单独的候选转录代表最有可能是正确转录的转录。例如，如果音频数据104b包括大量噪声，则再评分器114可以调整分配给初始候选转录104c和附加候选转录104d中的每一个的置信度分数，使得ASR110适当地选择最有可能是准确转录的候选转录。

尽管图1示出了由ASR 110选择的代表性候选转录，但是在其他实施方式中，代表性候选转录也可以由候选转录扩展器120选择。例如，在这样的实施方式中，转录生成器126还可以执行转录选择器112的操作，以便向ASR110提供被确定为话音查询104a的最准确转录的代表性转录。在该示例中，附加候选转录104d的处理从ASR 110具体化(externalized)，使得ASR 110仅发送由候选转录扩展器120选择的代表性转录，以输出到用户设备110。

在一些实施方式中，可以基于偏置由ASR 110用来生成话音查询104a的识别输出的基线语言模型来附加地或可替代地选择代表性转录。例如，包括在表104d内的n元语法可以被传送到语言模型偏置器130，以正向偏置基线语言模型，使得ASR 110选择这种n元语法作为候选转录序列的概率增加。在这样的示例中，语言模型偏置器130可以使用下面的等式(1)来增加具体n元语法的基线概率：

LMBoost＝log[P(n元语法|位置)]-log[P(n元语法)]+FS (1)

在等式(1)中，LMBoost代表具体n元语法的基线语言模型概率的正向偏置，P(n元语法|位置)代表在由位置数据106指示的用户位置处使用n元语法的概率，P(n元语法)代表在基线语言模型内n元语法的概率，以及FS代表与包括n元语法的区域模型相关联的特征分数。

特征分数的值可以用于基于相关联的区域模型来调整对包括在表104d内的单独n元语法的偏置。例如，邻域模型可以与相比于地区模型更大的特征分数相关联，使得在邻域模型内识别的n元语法与在地区模块内识别的相关n元语法相比被更大程度地偏置。在这个示例中，由于邻域模型与较小的地理区域相关联，所以来自邻域模型的n元语法被更大程度地偏置，从而与来自地区模型的相关n元语法相比，增加了由位置数据106指示的用户位置内的用户可能使用来自邻域模型的n元语法的概率。

图2示出了用于生成用于改进话音查询识别的分层区域模型的示例性过程200。简而言之，过程200可以由服务器210执行，该服务器210分别获得用户202a、202b和202c的查询日志数据204a、204b和204c。服务器210处理查询日志数据204a、204b和204c内识别的n元语法，并将它们聚集到存储装置212中。服务器210然后对识别的n元语法进行分类，以便生成一组区域模型(例如，区域模型124)，该一组区域模型包括邻域模型214a、子地区模型214b和地区模型214c。

更详细地，区域模型可以对应于不同大小的地理区域，使得每个模型指定与不同区域大小相关联的n元语法的集合。在所描绘的示例中，邻域模型214a指定全部与“山景城，CA”相关联的实体n元语法的集合，子地区模型214b指定全部与“加利福尼亚，USA”相关联的实体n元语法的集合，以及地区模型214c指定全部与包括多个州的美国“西海岸”区域相关联的实体n元语法的集合。

服务器210初始获得分别与用户202a、202b和202c相关联的查询日志数据204a、204b和204c。如上所述，查询日志数据可以包括诸如用户202a-c提交的语音或文本查询的历史数据，以及诸如搜索查询数据或应用输入数据的其他类型的数据。查询日志数据包括被包括在与每个用户相关联的历史数据内的n元语法的集合。

服务器210执行各种处理操作，以便选择从查询日志数据中提取并存储在存储装置212中的n元语法。例如，服务器210可以注释文本段以提取实体n元语法并移除非实体n元语法。例如，在该示例中，注释文本段“IN CANON CITY”以提取“CANON CITY”并删除“IN”。

另外，服务器210使用各种启发式法(heuristic)来过滤掉不被包括在区域模型内的n元语法。例如，服务器210可以过滤掉拼写错误、只有少数用户使用的n元语法、和/或由于错误识别而仅在该位置内流行的n元语法。例如，在该示例中，n元语法“OBAMA”从查询日志数据中移除，因为其被所有用户使用的频率高于用于包括在区域模型内的指定阈值。在另一示例中，服务器210可以过滤掉其中在位置内正确拼写的查询与不正确拼写的查询的比率低于阈值的n元语法，这指示n元语法是由于在所有用户上的常见错误识别错误造成的。在另一示例中，服务器210可以滤掉其中子集拼写校正比率和全局拼写校正比率之间的差超过阈值的n元语法，这指示n元语法是局部拼写错误的。在又一示例中，服务器210还可以过滤掉被包括在许多话音查询中但不被包括在文本查询中的n元语法，这指示n元语法仅被错误地识别。在又另一示例中，服务器210可以过滤掉其中子集话音比率和全局话音比率之间的差高于阈值的n元语法，这指示n元语法是局部错误识别，例如，“canon city”被错误识别为“canyon city”。

在所描绘的示例中，用户202a、202b和202c中的每一个用户各自都在不同的位置(例如，“山景城，CA”、“萨克拉门托，CA”和“凤凰城”)提交查询。基于这些位置，服务器210生成邻域模型214a，使得它仅包括从查询日志204a获得的n元语法。另外，因为用户202a和用户202b而不是用户202c位于加利福尼亚，所以子地区模型214b包括来自查询日志204a和204b而不是来自查询日志204c的术语。最后，因为所有用户202a、202b和202c都位于美国西海岸，例如，加利福尼亚和亚利桑那州，所以地区模型214c包括从查询日志204a、204b和204c中的每一个获得的n元语法。

图3示出了使用分层区域模型来改进话音查询识别的示例性过程300。简而言之，过程300可以包括接收音频数据和指示与用户相关联的位置的数据(310)，获得初始候选转录(320)，选择一组n元语法(330)，生成一个或多个附加候选转录(340)，选择代表性转录(350)，以及向自动语音识别器提供代表性转录(360)。

更详细地，过程300可以包括接收音频数据和指示与用户相关联的位置的数据(310)。例如，ASR 110可以获得对用户102在用户设备110上提交的话音查询104a的话语进行编码的音频数据104b。ASR 110还可以基于用户设备110的GPS信号获得位置数据106。

在一些实施方式中，ASR 110还可以获得从先前用户会话提取的上下文数据，诸如，例如，先前搜索查询、搜索引擎结果、或话音查询的回答。在其他情况下，上下文数据可以从用户活动数据(诸如屏幕跟踪数据、最近点击的超链接、或指示偏好的用户简档)中提取。上下文可以附加地或可替代地包括当前用户位置和与用户位置相关联的术语(诸如附近位置的名称)，或者由指定位置内的用户102或其他用户提交的常见查询。

过程300可以包括获得初始候选转录(320)。例如，候选转录扩展器120可以获得包括在由ASR 110生成的初始候选转录的列表104c内的初始候选转录。如上所述，初始候选转录可以由ASR 110基于用于识别话音查询104a的声学模型和语言模型来识别。

过程300选择一组n元语法(330)。例如，候选转录扩展器120可以从区域模型124中的每一个的n元语法的集合当中选择一组n元语法。在一些实施方式中，模型选择器122可以基于由位置数据106指示的用户位置来初始地选择邻域模型、子地区模型和地区模型。在其他实施方式中，模型选择器122可以选择模型层级内的多个区域模型，例如，多个邻域模型、多个子地区模型和多个地区模型。

过程300可以包括生成一个或多个附加候选转录(340)。例如，候选转录扩展器120可以为由模型选择器122选择的一个或多个区域模型生成附加候选转录。由转录生成器126生成的附加候选转录然后可以被包括在表104d内。如上所述，每个附加候选包括不被包括在初始候选转录的列表104c内、并被指示为在语声上与初始候选转录的列表104c中存在的多个术语之一类似的n元语法。

过程300可以包括选择代表性转录(350)。例如，ASR 110和/或候选转录扩展器120可以从表104c中的初始候选转录和表104d中的附加候选转录当中选择代表性转录。如上所述，选择可以基于每个单独候选转录的相应置信度分数。在一些实施方式中，在选择代表性转录之前，可以基于附加候选转录分数的生成来调整表104c内初始候选转录的计算的置信度分数。在这样的实施方式中，具有最大置信度分数的候选转录然后被选择作为代表性转录。

在一些实施方式中，代表性转录基于偏置由ASR 110用来生成话音查询104a的识别输出的基线语言模型。例如，如上所述，附加候选转录内的n元语法可以被传送到语言模型偏置器130，以正向偏置基线语言模型，从而增加与附加候选转录内包括的n元语法相关联的相应概率。语言模型偏置器130可以基于根据上述等式(1)计算语言概率提升(boost)来正向偏置基线语言模型。在这样的实施方式中，如果在由区域模型指定的地理区域内使用n元语法的概率大于语言模型内n元语法的概率，则基线语言模型内的相应概率可以增加。

过程300可以包括向自动语音识别器提供代表性转录(360)。例如，候选转录扩展器120可以向ASR 110提供代表性转录。代表性转录然后可以被ASR 110用来生成识别输出104e。

图4是通用计算机***400的示例的示意图。根据一些实施方式，***400可以用于结合图1-图3描述的操作。***400可以包括在***100和200中。

***400包括处理器410、存储器420、存储设备430和输入/输出设备440。组件410、420、430和440中的每一个都使用***总线450互连。处理器410能够处理在***400内执行的指令。在一个实施方式中，处理器410是单线程的处理器。在另一实施方式中，处理器410是多线程的处理器。处理器410能够处理存储在存储器420或存储设备430中的指令，以在输入/输出设备440上显示用户界面的图形信息。

存储器420在***400内存储信息。在一个实施方式中，存储器420是计算机可读介质。在一个实施方式中，存储器420是易失性存储器单元。在另一实施方式中，存储器420是非易失性存储器单元。

存储设备430能够为***400提供大容量存储。在一个实施方式中，存储设备430是计算机可读介质。在各种不同的实施方式中，存储设备430可以是软盘设备、硬盘设备、光盘设备或磁带设备。

输入/输出设备440为***400提供输入/输出操作。在一个实施方式中，输入/输出设备440包括键盘和/或定点设备。在另一实施方式中，输入/输出设备440包括用于显示图形用户界面的显示单元。

所描述的特征可以在数字电子电路中实施，或者在计算机硬件、固件、软件或它们的组合中实施。装置可以在有形地体现在信息载体中(例如机器可读存储设备中)的计算机程序产品中实施，以用于由可编程处理器执行；并且方法步骤可以由执行指令的编程的可编程处理器来执行，以通过对输入数据进行操作并生成输出来执行所描述的实施方式的功能。所描述的特征可以有利地在可编程***上可执行的一个或多个计算机程序中实施，该可编程***包括至少一个可编程处理器，该可编程处理器耦合以从数据存储***、至少一个输入设备和至少一个输出设备接收数据和指令，以及向该数据存储***、至少一个输入设备和至少一个输出设备发送数据和指令。计算机程序是可以在计算机中直接或间接用于执行某活动或产生某结果的指令集。计算机程序可以以包括编译或解释语言的任何形式的编程语言编写，并且可以以任何形式部署，包括作为独立程序或模块、组件、子例程或适合在计算环境中使用的其他单元。

举例来说，用于执行指令的编程的合适处理器包括通用和专用微处理器两者，以及任何种类计算机的单一处理器或多个处理器之一。一般来说，处理器将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。一般来说，计算机还将包括用于存储数据文件的一个或多个大容量存储设备，或者可操作地耦合以与该用于存储数据文件的一个或多个大容量存储设备通信；这种设备包括诸如内部硬盘和可移动磁盘的磁盘；磁光盘；以及光盘。适于有形地体现计算机程序指令和数据的存储设备包括所有形式的非易失性存储器，例如，包括诸如EPROM、EEPROM和闪速存储器设备的半导体存储设备；诸如内部硬盘和可移动磁盘的磁盘；磁光盘；以及CD-ROM和DVD-ROM。处理器和存储器可以由专用集成电路(ASIC，application-specific integrated circuit)来补充或合并。

为了提供与用户的交互，这些特征可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备(诸如阴极射线管(CRT，cathode ray tube)或液晶显示器(LCD，liquid crystal display)监视器)，以及用户可以通过其向计算机提供输入的键盘和定点设备(诸如鼠标或轨迹球)。

这些特征可以在计算机***中实施，该计算机***包括后端组件(诸如数据服务器)，或者包括中间件组件(诸如应用服务器或互联网服务器)，或者包括前端组件(诸如具有图形用户界面或互联网浏览器的客户端计算机)，或者它们的任意组合。***的组件可以通过任何形式或介质的数字数据通信(诸如通信网络)来连接。通信网络的示例包括例如LAN、WAN以及形成互联网的计算机和网络。

计算机***可以包括客户端和服务器。客户端和服务器通常彼此远离，并且典型地通过诸如所描述的网络进行交互。客户机和服务器的关系是通过在相应计算机上运行并且彼此之间具有客户机-服务器关系的计算机程序产生的。

已经描述了许多实施例。然而，应当理解，可以进行各种修改，而不脱离本发明的精神和范围的情况。此外，图中描绘的逻辑流程不要求所示的具体次序或顺序来实施期望的结果。此外，可以从所描述的流程中提供其他步骤，或者可以消除步骤，并且可以向所描述的***添加其他组件或从所描述的***中移除其他组件。因此，其他实施例在以下权利要求的范围内。

Claims

1.一种计算机实施的方法，包括：

通过包括（a）自动语音识别器ASR、（b）候选转录扩展器、和（c）搜索引擎的话音查询处理***，接收（i）与用户的话语相对应的音频数据，以及（ii）指示与用户相关联的位置的数据；

基于通过所述话音查询处理***的ASR处理所述音频数据，获得所述话语的初始候选转录；

通过所述话音查询处理***的候选转录扩展器并且为与所述位置相关联的多个地理区域中的每一个地理区域，选择表示与地理区域预先关联的实体的名称的一组n元语法；

对于所述多个地理区域中的一个或多个地理区域，通过所述话音查询处理***的候选转录扩展器，并且基于表示与地理区域预先关联的实体的名称的一组n元语法，生成被指示为在语声上与在由ASR获得的所述初始候选转录中出现的一个或多个术语类似并且不在由ASR获得的所述初始候选转录中出现的一个或多个附加候选转录；

通过所述话音查询处理***的ASR，基于候选转录与音频数据的语声类似性，从由所述候选转录扩展器生成的并且被指示为在语声上与在由ASR获得的所述初始候选转录中出现的一个或多个术语类似并且不在由ASR获得的所述初始候选转录中出现的所述一个或多个附加候选转录当中选择所述话语的代表性转录；

由所述话音查询处理***提供由所述候选转录扩展器生成的并且被指示为在语声上与在由ASR获得的所述初始候选转录中出现的一个或多个术语类似并且不在由ASR获得的所述初始候选转录中出现的所述代表性转录，以用于作为由ASR生成的可能最准确的转录而输出；以及

将所述代表性转录作为搜索引擎的查询进行处理以生成一个或多个搜索引擎结果。

2.根据权利要求1所述的方法，其中，所述多个地理区域至少包括：包围所述位置的邻域、包围所述邻域的整个面积的子地区、以及包围所述邻域的整个面积的地区。

3.根据权利要求2所述的方法，其中：

所述邻域与第一特征分数相关联，所述子地区与第二特征分数相关联，以及所述地区与第三特征分数相关联，所述第一特征分数具有大于所述第二特征分数的值的值，并且所述第二特征的值大于所述第三特征分数的值，并且

至少基于所述第一特征分数、所述第二特征分数和所述第三特征分数的相应值来选择所述代表性转录。

4.根据权利要求2所述的方法，其中，选择表示与所述地理区域预先关联的实体的名称的一组n元语法包括：

对于邻域、子地区和地区中的每一个：

获得被确定为与区域相关联的n元语法的集合，

对于所述n元语法的集合内的每个n元语法，计算（i）反映n元语法将被特定用户在与所述用户相关联的位置处使用的概率的第一分数，以及（ii）反映n元语法将被用户的集合使用的概率的第二分数，

识别在所述n元语法的集合内每个都具有大于第二分数的第一分数的n元语法的子集，以及

为所述区域选择所述n元语法的子集。

5.根据权利要求4所述的方法，其中，所述代表性转录还至少基于包括在所述一个或多个附加候选转录中的每一个附加候选转录内的n元语法的第一分数的相应值来选择。

6.根据权利要求1所述的方法，为所述多个地理区域中的每一个地理区域选择的所述一组n元语法是包括在用户先前提交的一个或多个查询中的实体术语。

7.根据权利要求1所述的方法，包括：

由所述自动语音识别器使用所述代表性转录来偏置所述话语的语音识别。

8.根据权利要求1所述的方法，其中，为所述多个地理区域中的一个或多个地理区域生成的一个或多个附加候选转录包括针对被识别为对所述话语的不正确转录的一个或多个候选转录中的每一个候选转录的校正的转录。

9.根据权利要求1所述的方法，其中，选择表示与所述地理区域预先关联的实体的名称的一组n元语法包括：

比较与所述初始候选转录中出现的n元语法中的一个或多个n元语法相关联的波形和与用于所述多个地理区域中的每一个地理区域的一个或多个n元语法相关联的波形；以及

基于与所述初始候选转录中出现的n元语法中的一个或多个n元语法相关联的波形和与用于所述多个地理区域中的每一个地理区域的一个或多个n元语法相关联的波形的比较，来确定用于所述多个地理区域中的每一个地理区域的一个或多个n元语法当中的至少一个n元语法在语声上与所述初始候选转录中出现的术语类似。

10.一种话音查询处理***，包括（a）自动语音识别器ASR、（b）候选转录扩展器、和（c）搜索引擎，所述话音查询处理***包括：

一个或多个计算机；和

存储指令的一个或多个数据存储设备，所述指令在由所述一个或多个计算机执行时，可操作以使得所述一个或多个计算机执行包括以下的操作：

接收（i）与用户的话语相对应的音频数据，以及（ii）指示与用户相关联的位置的数据；

通过所述话音查询处理***的ASR，基于候选转录与音频数据的语声类似性，从由所述候选转录扩展器生成的并且被指示为在语声上与在由ASR获得的所述初始候选转录中出现的一个或多个术语类似并且不在由ASR获得的所述初始候选转录中出现的所述一个或多个附加候选转录当中选择所述话语的代表性转录；以及

11.根据权利要求10所述的***，其中，所述多个地理区域至少包括：包围所述位置的邻域、包围所述邻域的整个面积的子地区、以及包围所述邻域的整个面积的地区。

12.根据权利要求11所述的***，其中：

13.根据权利要求11所述的***，其中，选择表示与所述地理区域预先关联的实体的名称的一组n元语法包括：

对于邻域、子地区和地区中的每一个：

获得被确定为与区域相关联的n元语法的集合，

为所述区域选择所述n元语法的子集。

14.根据权利要求13所述的***，其中，所述代表性转录还至少基于包括在所述一个或多个附加候选转录中的每一个附加候选转录内的n元语法的第一分数的相应值来选择。

15.一种存储软件的非暂时性计算机可读介质，所述软件包括由一个或多个计算机可执行的指令，所述指令在被这样执行时使得所述一个或多个计算机执行包括以下的操作：

16.根据权利要求15所述的计算机可读介质，其中，所述多个地理区域至少包括：包围所述位置的邻域、包围所述邻域的整个面积的子地区、以及包围所述邻域的整个面积的地区。

17.根据权利要求16所述的计算机可读介质，其中：

18.根据权利要求16所述的计算机可读介质，其中，选择表示与所述地理区域预先关联的实体的名称的一组n元语法包括：

对于邻域、子地区和地区中的每一个：

获得被确定为与区域相关联的n元语法的集合，

为所述区域选择所述n元语法的子集。