CN107039038B

CN107039038B - 学习个性化实体发音

Info

Publication number: CN107039038B
Application number: CN201611243235.9A
Authority: CN
Inventors: 安托万·让·布吕盖; 彭福春; 弗朗索瓦丝·博费
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-02-03
Filing date: 2016-12-29
Publication date: 2020-06-19
Anticipated expiration: 2036-12-29
Also published as: JP6588637B2; DE102016125812A1; KR20180064504A; KR102100389B1; US10152965B2; DE202016008260U1; EP3365890A1; WO2017136028A1; EP3365890B1; JP2018532165A; US20170221475A1; CN107039038A

Abstract

本申请涉及学习个性化实体发音。本公开提供了方法、***和设备，其包括在计算机存储介质上被编码的用于实施发音字典的计算机程序。所述方法包括：接收与包括命令和实体名称的讲话对应的音频数据。另外，所述方法可以包括：通过自动语音识别器，生成对所述音频数据中与所述实体名称相关联的部分的初始转录，接收对所述讲话中与所述实体名称相关联的所述部分的修正转录，获取与所述音频数据中与所述实体名称相关联的所述部分相关联的音标发音，对发音字典进行更新以将所述音标发音与所述实体名称相关联，接收包括所述实体名称的后续讲话，以及至少部分地基于更新后的发音字典来对所述后续讲话进行转录。可以提供改进的语音识别和更高质量的转录。

Description

学习个性化实体发音

技术领域

本说明书大体上涉及语音识别。

背景技术

装置的用户可以按照多种不同的方式与装置交互，方式包括，例如，使用鼠标或者触控板从所显示的一组项中做出选择、经由键盘输入字符、或者对着麦克风说出语音命令。当处理语音命令时，如果说话者使用偏离与在发音字典中的单词相关联的规范发音的特定单词的发音，则自动语音识别器(ASR)可能难以准确地识别语音命令。

发明内容

本公开的方面可以促进基于用户与移动装置的交互实施可以存储实体名称的不同的、非规范发音的发音字典。在某些情况下，发音字典可以适应可能会更改用户对某些单词的发音的用户语音的唯一特征。例如，可以对发音字典进行初始化，从而使实体名称“Mara”与音标发音“MAW·rra”对应。然而，通过利用本公开的方面，发音字典可以学习特定用户将实体名称“Mara”发音为“MA·ra”。因此，基于与特定用户的交互，发音字典可以学习将发音“MA·ra”与实体名称“Mara”相关联。通过利用本公开的方面，可以提供改进的语音识别和更高质量的转录。

在某些方面中，本说明书中所体现的主题可以体现为方法，该方法包括如下动作：接收与包括命令和实体名称的讲话对应的音频数据。附加动作可以包括：通过自动语音识别器，生成音频数据中与实体名称相关联的部分的初始转录，接收讲话中与实体名称相关联的部分的、与初始转录不同的修正转录，响应于接收到讲话中与实体名称相关联的部分的、与初始转录不同的修正转录，获取与音频数据中与实体名称相关联的部分相关联的音标发音，对发音字典进行更新以将音标发音与实体名称相关联，接收包括实体名称的后续发言，以及至少部分地基于更新后的发音字典来对后续讲话进行转录。

其它版本包括编码在计算机存储装置上的、被配置为执行方法的动作的对应***、设备、计算机程序、以及该配置为使计算设备执行方法的动作的计算机程序。

这些和其它版本可以分别可选地包括以下特征中的一个或者多个。例如，在某些实施方式中，接收对讲话中与实体名称相关联的部分的、与初始转录不同的修正转录可以包括：接收指示从一个或者多个实体名称的列表中选择实体名称的数据，或者接收指示经由小键盘输入并且作为对实体名称的指示的一个或者多个字符的数据。

在某些方面中，对发音字典进行更新可以包括：识别与实体名称相关联的发音字典条目，删除该条目的与初始转录的音标发音对应的部分，以及将与获取的音标发音相关联的音标发音存储在与实体名称相关联的发音字典条目中。

在某些实施方式中，该方法可以包括如下动作：将时间戳与接收到的音频数据的至少一部分相关联；以及对接收到的音频数据的一个或者多个部分进行缓存，直到识别到对讲话的正确转录并且完成与接收到的讲话相关联的所述命令。在这种实施方式中，获取与音频数据中与实体名称相关联的部分相关联的音标发音可以包括：基于与接收到的音频数据的至少一部分相关联的时间戳来获取最近接收到的音频数据的部分；以及基于通过使用声学模型而获取到的一组音素来生成所获取的最近接收到的音频数据的部分的音标发音。

在其它实施方式中，该方法可以包括动作，该动作包括：响应于将发音字典更新为包括获取到的音标发音，增加与音标发音相关联的全局计数器。

在这种实施方式中，确定与音标发音相关联的全局计数器超过预定阈值，以及响应于确定与音标发音相关联的全局计数器已经超过预定阈值，将在全局发音字典中与实体名称相关联的发音字典条目更新为包括与正确转录相关联的音标发音。

在附图和以下描述中陈述了一种或者多种实施方式的细节。其它特征和优点将通过描述和附图并且通过权利要求书变得显而易见。

附图说明

图1A和图1B是示出了用于学习个性化实体名称发音的***的特征的场境示意图。

图2是可以用来学习在个性化全局发音字典中的联系人发音的过程的示例的流程图。

图3是可以用来学习在全局发音字典中的实体发音的过程的示例的流程图。

具体实施方式

图1A是示出了用于学***板计算机、膝上型计算机或者台式计算机、电子书阅读器、音乐播放器、PDA、或者可以包括一个或者多个处理器和计算机可读介质的其它固定式或者便携式装置。

用户的移动装置120可以包括一个或者多个物理按钮121a、121b、121c、图形用户界面122、麦克风125、和输出扬声器126。物理按钮121a、121b、121c中的每一个可以被配置为响应于用户选择物理按钮来执行特定功能。例如，物理按钮121a、121b、121c可以是电源按钮、音量按钮、主页按钮等。在一种实施方式中，诸如物理按钮121a的物理按钮可以被配置为：在选择了物理按钮121a之后，启动麦克风125。图形用户界面122可以包括电容式触摸屏界面，该电容式触摸屏界面被配置为接收由用户100可以通过使用触控笔、用户100的手指、或者其它指向工具输入的轻敲、姿势等形式的输入。

图形用户界面122可以由一个或者多个不同的部分组成。必要时，图形用户界面122的不同的部分中的每一个可以被单独显示、或者一次被显示一个。可替代地，图形用户界面122的不同的部分中的一个或者多个可以同时被显示为分开的屏幕，如图1所示。例如，图形用户界面的第一部分可以提供一个或者多个可选图标123的显示。可选图标123可以分别与特定命令、特定应用、对一个或者多个应用进行分组的文件夹等对应。在某些情况下，可以利用可选图标来替代一个或者多个物理按钮121a、121b、121c。例如，可以将可选图标提供为充当主页按钮。可替代地，例如，可选图标可以用于启动麦克风125。在其它实施方式中，可选图标可以被配置为响应于对可选图标的选择来打开特定应用。在其它实施方式中，对可选图标的选择可以打开文件夹，该文件夹触发分别与特定应用或者嵌套文件夹对应的附加可选图标的显示。

图形用户界面122的其它部分可以包括可以针对来自用户100的附加信息提供一个或者多个提示124的显示。例如，该显示可以针对与所说出的讲话的至少一部分的转录有关的用户输入提供提示124。可替代地，显示屏幕可以被配置为向用户提供电话呼叫的当前状态的指示(参见图1B)。其它类型的数据可以被显示在图形用户界面122的对应部分中。

服务器130可以由分别包括处理器132和存储器134的一个或者多个计算装置组成。处理器132可以由被配置为执行与存储在存储器134中的应用相关联的指令的一个或者多个处理器组成。存储器134可以包括一个或者多个存储器单元，该一个或者多个存储器单元可以由相同或者不同类型的存储装置组成。例如，存储器134可以包括被配置为存储活跃运行的应用的RAM部分。可替代地，或者另外，存储器134必要时可以包括一个或者多个数据存储单元，该一个或者多个数据存储单元可以被配置为存储可以被访问和被传递至存储器134的RAM部分的数据。

存储在存储器130中的应用可以包括，例如，自动语音识别器140和个性化发音字典150。自动语音识别器140可以促进如下能力，诸如，例如，将从移动装置120接收到160的音频信号114的一个或者多个部分转换为另一种形式的媒体。例如，自动语音识别器140可以将接收到的音频114转换为文本。将接收到的音频信号114转换为文本可以包括：例如，利用声学模型来识别最有可能与接收到的音频信号114的全部或者部分相关联的一组音素。然后，可以将识别到的一组音素映射到音标字典。

在某些实施方式中，音标发音可以，例如，唯一地识别与个性化发音字典150的特定实体对应的特定实体名称。因此，自动语音识别器140、或者服务器140的另一组件可以使用音标发音来根据用户的个性化发音字典150检索对应的实体名称。然而，在某些实例中，自动语音识别器140可以确定个性化发音字典150不包括可以由获取到的音标发音足以识别到的任何实体名称。在这种情况下，自动语音识别器140可以将最好的可用转录116返回到162移动装置120。最好的可用转录116可以是在个性化发音字典150中与获取到的音标发音对应的最接近的实体名称。可替代地，例如，最好的可用转录116可以是由自动语音识别器140通过使用一个或者多个其它语音转换应用、字典等来生成的转录。

个性化发音字典150可以包括多个条目，每个条目包括与特定实体相关联的信息。例如，在阶段“A”中的个性化发音字典152可以包括一个或者多个条目，每个条目包括联系人姓名152a和发音152b。可以利用每个实体名称152a的一组默认音标发音152b来初始在阶段“A”中的个性化发音字典152。该一组默认音标发音可以基于每个相应实体名称152a的典型发音152b。典型发音可以是，例如，通过标准字典与单词相关联的发音。另外，应该认为，用户的语音的唯一特性可以随时间而变化，或者可能存在相同电话的多个用户，该多个用户分别具有不同的语音特性。因此，典型发音也可以是，例如，用户在过去的某个时候与实体名称相关联的发音。

然而，个性化发音字典150可以被配置为：基于与***100A的用户100的交互，存储不同的发音。结果，与特定实体相关联的特定音标发音可以随时间而变化。在图1中，可以相对于从在第一阶段“A”中的个性化发音字典152到在第二阶段“B”中的对应的个性化发音字典154的转变，描绘在第一阶段“A”中的特定实体名称152a的音标发音152b的这种变化。在第二阶段“B”中的个性化发音字典154指示已经将实体“Fuchun”的发音从先前与在阶段“A”中的个性化发音字典152中的实体“Fuchun”相关联的典型发音“Fyoo·chuh·n”更新为“Fawr·chuh·n”。个性化发音字典150可以被配置为：基于任何类型的发音***来存储任何类型的发音，发音***包括，例如，国际音标(IPA)、扩展语音评估方法音标(X-SAMPA)等。

在一个方面中，用户100可以将输入提供至移动装置120，该输入启动移动装置120的麦克风125。例如，用户100可以选择启动麦克风125的物理按钮121a。可替代地，麦克风125可以由发出特定语音命令的用户启动。例如，麦克风125可以被配置为被动地聆听在麦克风125范围内的所有声音，以检测特定启动命令。一旦麦克风125检测到特定启动命令，麦克风125就可以将其操作模式改变为能够捕捉来自用户100的后续语音命令的主动聆听模式。

一旦已经启动麦克风，用户100就可以说出可以由与用户的移动装置120相关联的麦克风125检测到的讲话110。讲话110可以包括命令110a和实体名称110b。例如，在图1的示例中，用户100可以说出讲话，诸如，例如，“呼叫Fuchun”110。与讲话110相关联的命令110a是“呼叫”命令。“呼叫”命令可以发起与实体的语音或者视频通信的连接。在这种情况下，讲话110也将实体110b“Fuchun”识别为待呼叫实体。

虽然在这种情况下将实体的示例陈述为可以被呼叫的个人联系人的姓名，但是本文所描述的实体不应该限于此。相反，实体可以包括，例如，任何人、地方、或者事物的任何标识符。例如，实体名称可以包括餐厅的名称，诸如，例如，CityZen。可替代地，例如，实体名称可以包括街道名称，例如，Washington Pike(华盛顿派克)，或者甚至街道地址，诸如，例如，Washington Pike 1599(华盛顿派克1599号)。在其它实施方式中，实体名称可以是城市和/或州，诸如，加州拉荷雅。在其它实施方式中，实体名称可以包括地标，诸如，例如，约塞米蒂国家公园。本公开可以利用其它类型的实体名称。

可以基于与用户100的语音相关联的特性来对讲话110的每个部分唯一地发音。用户100的语音的特性可以包括，例如，用户100的口音、音素选择、偏好等，并且每一个可以对特定实体名称110b的用户100的发音具有独特影响。在该特定示例中，虽然实体“Fuchun”的典型发音可以是“Fyoo·chuh·n”，但是用户100已经将实体名称“Fuchun”发音为“Fawr·chuh·n”112。麦克风125可以捕捉与讲话110相关联的音频信号，并且将与讲话110相关联的音频信号114传输160至将用户100的个性化语音字典152维持在第一阶段“A”中的服务器130。音频信号114可以包括音频信号中与命令110a对应的第一部分和音频信号中与实体名称110b对应的第二部分。

服务器130可以接收与讲话110对应的音频信号114，并且将接收到的音频信号114转发至自动语音识别器140。自动语音识别器140然后可以提取音频信号114中与实体名称110b对应的部分。自动语音识别器140可以将时间戳与音频信号114的所提取部分相关联，并且将音频信号114的所提取部分存储在存储器134的被指定为对音频信号114的传入部分进行缓存的部分中，该传入部分可以与一个或者多个用户100的语音讲话110对应。存储器134可以无限期地存储音频信号114的所提取部分。可替代地，然而，存储器134可以仅在预定时间段内存储音频信号114的所提取部分。例如，可以存储音频信号114的所提取部分，直到确定与音频信号114的所提取部分相关联的实体名称的正确转录。可替代地，或者另外，可以存储音频信号114的所提取部分，直到完成命令110a。自动语音识别器140然后可以识别最有可能与音频信号114的所提取部分相关联的一组音素，并且然后将该一组音素映射到音标发音。

基于图1A中所描绘的示例，自动语音识别器140可以为由用户100发音为“Fawr·chuh·n”的实体名称110b“Fuchun”生成音标转录。然后，在对与音标发音“Fawr·chuh·n”相关联的实体名称进行任何更新之前，可以使用音标发音“Fawr·chuh·n”来搜索存在于第一阶段“A”中的用户100的个性化发音字典152。在阶段“A”中，个性化发音字典152不包括与音标发音“Fawr·chuh·n”足以相关联的任何条目。自动语音识别引擎140可以使用一个或者多个其它语音转换过程来确定音标发音“Fawr·chuh·n”的最接近的音标发音。在图1A的示例中，自动语音识别引擎140可以确定与音标发音足以对应的实体名称是“Fortune”，并且因此对音频信号114的所提取部分进行转录。自动语音识别引擎140然后可以请求服务器130将生成的转录116传输162回用户100的移动装置120。

服务器130也可以将附加信息传输162至可以与转录116相关联的移动装置120。例如，可以被传输162至移动装置120的转录116也可以与用户100的阶段“A”中的个人发音字典152不包括与音标发音“Fawr·chuh·n”对应的任何条目的指示相关联。可替代地，或者另外，转录116也可以与阶段“A”中的用户100的个性化发音字典152中的一个或者多个联系人的列表相关联，该一个或者多个联系人可能和对应于音频信号114的所提取部分的生成的音标发音最匹配。可以通过服务器130将附加信息提供至移动装置120，以向用户100提示可以用来帮助个性化发音字典150学习用户100说出的唯一实体发音112的反馈信息。

响应于接收到转录116“Fortune”和连同转录116一起传输的附加信息，移动装置120可以向用户100提示124与转录116有关的反馈信息。例如，响应于确定接收到的转录116与用户100的阶段“A”中的个人发音字典152不包括与转录“Fortune”对应的任何条目的指示相关联，移动装置120可以生成提示124。提示124可以，例如，提供一个或者多个联系人姓名的列表，该一个或者多个联系人姓名存储在用户100的阶段“A”中的个人发音字典152中，该一个或者多个联系人姓名与用于生成转录116的音标发音最匹配。在一个示例中，提示124可以要求用户选择用户在以发音为“Fawr·chuh·n”实体名称112说出语音讲话110时用户100想要呼叫的联系人姓名。例如，提供给用户100的联系人姓名的列表可以包括Fuchini、Fucili、和Fuchun，它们中的每一个可以与在阶段“A”中的用户100的个性化发音字典152中的条目相关联。在某些实施方式中，所提供的联系人姓名的列表可以在发音上不接近用户对实体名称的唯一发音。例如，提示中所提供的联系人姓名的列表可以在发音上是不相关的实体名称，诸如，例如，Edwin、Fuchun、和Steve。响应于提示124，由于用户100知道用户在讲话110中说出的实体名称是“Fuchun”，用户选择了“Fuchun”。响应于用户100对“Fuchun”的选择，移动装置120可以发起对“Fuchun”的呼叫，并且也将反馈信息118传输164至服务器130。

为了获取来自用户100的反馈，移动装置120也可以使用音频提示。例如，响应于接收到转录116、和连同转录116一起传输的附加信息，移动装置120可以询问用户100其是否想要“呼叫Fortune？”172。在这种情况下，用户100可以提供一个或者多个后续讲话，该一个或者多个后续讲话提供用户100确认还是否认该用户想要呼叫“Fortune”的指示。可替代地，或者另外，用户100可以键入用户100正试图呼叫的实体的实体名称。其它类型的反馈信息也可以由用户100提供。如下面所描述的，这种反馈信息可以按照与反馈信息118的方式相同的方式被类似地传输至服务器130，并且然后以与反馈信息118的方式类似的的方式被使用。

服务器130可以接收反馈信息118，并且将反馈信息118转发至自动语音识别器140。反馈信息118可以包括，例如，用户100响应于提示124而输入的实体名称的指示。在这种情况下，反馈信息118可以指示用户已经选择了实体名称“Fuchun”。另外，在此之前、之后、或者与此大体上同时，自动语音识别器140可以检索音频信号114中最初接收到的、存储的、和时间标记的所提取部分。音频信号114的所提取部分可以与由用户100在说出讲话110时该用户唯一发音112的实体名称110b对应。自动语音识别器140可以基于与音频信号114的所提取部分相关联的时间戳来检索音频信号114的所提取部分。例如，在一种实施方式中，自动语音识别器140可以基于相关联的时间戳来获取音频信号140中最近接收到的、提取到的、和存储的所提取部分。

自动语音识别器140可以使用音频信号114的所提取部分和反馈信息118来将用户100对实体名称110b的唯一发音112教导给个性化发音字典150。例如，如上所述，自动语音识别器140可以为音频信号114的所提取部分生成音标发音。可替代地，自动语音识别器140可以检索先前生成的音标发音，该先前生成的音标发音与音频信号114中可以响应于最初接收到音频信号114而已经生成和存储的所提取部分对应。在这种情况下，音频信号114的所提取部分的生成的音标发音可以是“Fawr·chuh·n”该所提取部分与用户100在所说出讲话110时对实体名称110b的唯一发音112对应。自动语音识别器140然后可以在与实体名称152“Fuchun”对应的个性化发音字典152中识别实体。接下来，自动语音识别器140可以对与实体“Fuchun”相关联的个性化发音字典条目进行更新，从而以用户100的唯一发音“Fawr·chuh·n”代替条目的初始发音“Fyoo·chuh·n”。以用户100的唯一发音“Fawr·chuh·n”代替对应于与实体名称“Fuchun”相关联的条目的初始发音将用户的个性化发音字典150转变到阶段“B”。在阶段“B”中，用户100的个性化发音字典154包括将实体名称154a“Fuchun”与用户100的唯一发音“Fawr·chuh·n”相关联的条目。

图1B是示出了用于学习个性化联系人发音的***100B的特征的场境示意图。***100B可以与图1A中所描述的***100A大体上相似。然而，在学习了用户100对实体名称“Fuchun”的唯一发音112之后，***100B可以利用已经转变到阶段“B”的用户的个性化发音字典154。

一旦已经启动麦克风，用户100就可以说出可以由与用户的移动装置120相关联的麦克风125检测到的讲话210。讲话210可以与由用户100在***100A的示例中说出的讲话110大体上相同。例如，用户100可以按照与在***100A的示例中用户对实体名称“Fuchun”唯一地发音的方式相同或者大体上相似的方式，来将实体名称210b“Fuchun”唯一地发音为“Fawr·chuh·n”。相似地，与所说出的讲话210相关联的命令210a是与所说出的讲话110相关联的相同的“呼叫”命令。然而，***100B可以不同地对与讲话210对应的音频信号进行处理，这是因为在阶段“B”中的用户的个性化发音字典154已经学习了用户100对实体名称“Fuchun”的唯一发音。

麦克风125可以捕捉与讲话210相关联的音频信号，并且将与讲话210相关联的音频信号214传输至将用户的个性化发音字典154维持在第二阶段“B”中的服务器130。音频信号214可以包括音频信号中与命令210a对应的第一部分和音频信号中与实体名称210b对应的第二部分。音频信号214可以与音频信号114大体上相似，因为音频信号214对应于与所说出的讲话110大体上相似的所说出讲话210。

服务器130可以接收与讲话210对应的音频信号214，并且将接收到的音频信号214转发至自动语音识别器140。自动语音识别器140然后可以提取音频信号214中与实体名称210b对应的部分。自动语音识别器140可以将时间戳与音频信号214的所提取部分相关联，并且将音频信号214的所提取部分存储在存储器134中被指定为缓存音频信号214的传入部分的部分中，该传入部分可以与一个或者多个用户100语音讲话110对应。存储器134可以无限期地存储音频信号214的所提取部分。可替代地，然而，存储器134仅仅可以在预定时间段内存储音频信号214的所提取部分。例如，可以存储音频信号214的所提取部分，直到确定与音频信号215的所提取部分相关联的实体名称的正确转录。可替代地，或者另外，可以存储音频信号214的所提取部分，直到完成命令210a。自动语音识别器140然后可以识别最有可能与音频信号214的所提取部分相关联的一组音素，并且然后将该一组音素映射到音标发音。

基于图1B中所描绘的示例，自动语音识别器140可以对由用户100发音为“Fawr·chuh·n”的实体名称210b“Fuchun”生成音标转录。然后，在对与音标发音“Fawr·chuh·n”相关联的实体名称进行至少一个更新之后，可以使用音标转录“Fawr·chuh·n”来搜索目前存在于第二阶段“B”中的用户100的个性化发音字典154。在阶段“B”中，个性化发音字典154包括与音标发音“Fawr·chuh·n”足够相关联的条目。例如，个性化发音字典154包括具有联系人姓名154a“Fuchun”的条目，个性化发音字典154已经学习了该联系人姓名154a“Fuchun”以与用户100的唯一发音“Fawr·chuh·n”相关联。匹配的音标发音指示可以将音频214的所提取部分转录为“Fuchun”。自动语音识别引擎140然后可以请求服务器130将生成的转录280传输262回用户100的移动装置120。

服务器130也可以将附加信息传输262至可以与转录280相关联的移动装置120。例如，在262中传输至移动装置120的转录280也可以与在阶段“B”中的用户100的个人发音字典154包括特定实体名称的指示相关联，该特定实体名称与音标发音“Fawr·chuh·n”对应。可替代地，或者另外，转录280也可以与音频214的转录成功的指示和/或发起用户的命令210a的指令相关联。例如，可以返回特定数据标志、特定数据位等，以提供成功转录的指示。可以通过服务器130将附加信息提供至移动装置120，以指示移动装置120执行命令210a。在***100B的示例中，附加信息可以指示、或者触发移动装置120呼叫“Fuchun”。可以经由图形用户界面120显示呼叫的状态227。可替代地，或者另外，移动装置的扬声器126可以提供指示正在尝试呼叫的输出警告，该呼叫提到了例如“正在呼叫Fuchun”。

关于图1A和图1B的***100A和100B的示例分别利用包括“呼叫”命令110a、210a的所说出的讲话110、210。然而，本公开并不一定限于此。例如，可以根据本公开说出、处理和执行各种其它命令。例如，用户100可以说出讲话，诸如，“到约塞米蒂国家公园的方向”。移动装置120的麦克风125可以捕捉与该讲话对应的音频信号，并且将该音频信号传输至服务器130。服务器130同样可以提取与实体名称对应的音频信号的部分——在这种情况下，该实体名称可以是“约塞米蒂国家公园”，并且然后将音频信号的所提取部分与时间戳相关联。

服务器130可以将音频信号的所提取部分传递至自动识别单元140。自动识别单元140然后可以通过使用声学模型来获取一组音素，并且然后基于该一组获取到的音素来生成音频中与“约塞米蒂国家公园”对应的所提取部分的音标发音。自动识别单元140可以基于生成的音标发音来进一步搜索包括各种不同的感兴趣点的个性化地理数据库。如果未将个性化地理数据库的条目识别为关联于与生成的音标发音对应的音标发音，则服务器130可以利用自动语音识别器140来识别生成的音标发音的最接近转录。最接近转录可以被传输至移动装置120，并且经由提示呈现给用户100，该提示包括对反馈信息的请求和/或可能已经经由对个性化地理数据库的搜索而识别到的最接近匹配中的一个或者多个。任何接收到的反馈信息可以被传输回服务器130，并且用于按照上述方式，基于存储的音频信号和反馈信息来对个性化地理数据库进行更新。一旦个性化地理数据库已经学习了用户如何对实体名称“约塞米蒂国家公园”发音，自动语音识别器140就可以在接收到音频信号时对实体名称进行适当的转录，查找与所转录的实体名称相关联的位置信息，并且将移动装置120可以用其来帮助将用户导航到“约塞米蒂国家公园”的位置信息提供至移动装置120。本公开可以利用其它各种类型的命令，诸如，例如，电子邮件命令、文本消息命令等。

因此，本公开的方面并不限于任何特定种类的应用，并且相反，可以应用各种不同类型的移动应用，该各种不同类型的移动应用可以被配置为接收语音命令，包括，例如，电话应用、消息传递应用、电子邮件应用、地图应用、娱乐应用等。

关于图1A和图1B描述的示例描述了与服务器130交互的移动装置120。然而，也考虑，也可以由移动装置120来执行被描述为由服务器130执行的功能中的任何一种功能。例如，可以由移动装置120来执行由处理器132、自动语音识别器140、和/或发音字典150执行的动作。在这种实施方式或者其它实施方式中，发音字典150的一部分和全部可以被存储在移动装置120上，而不是在服务器130上。

图2是可以用来学习在个性化全局发音字典中的联系人发音的过程200的示例的流程图。

过程200可以开始于服务器230接收来自用户的包括命令和实体的讲话——202。讲话可以是一组音频信号的形式。服务器230可以将接收到的讲话转发至自动语音识别器，该自动语音识别器提取讲话中与实体名称相关联的部分——204。然后可以将讲话中与实体名称对应的所提取部分与时间戳相关联，并且将其存储在与服务器230相关联的存储器中。

自动语音识别器可以生成音频信号的所提取部分的初始转录——206。可以通过实施一系列的一个或者多个阶段来生成音频信号的所提取部分的初始转录。例如，自动语音识别器可以使用诸如声学模型的模型，以识别可以与音频信号的所提取部分相关联的一组音素。然后，可以将音素映射到与音频信号的所提取部分相关联的音标发音。然后，可以使用音标发音来从用户的个性化发音字典中检索实体名称。只要无法找到与和所生成的音标发音足够匹配的音标发音相关联的该用户的个性化语音字典的条目，则自动搜索识别单元可以挑选可用作初始转录的最接近匹配。可替代地，可以使用其它方法来识别音频信号的所提取部分的最接近的可能初始转录。例如，可以实施某些语音至文本的转换过程以生成独立于用户的个性化发音字典的初始转录。一旦生成，就可以将初始转录连同附加信息一起传输至用户100的移动装置120，该附加信息可以触发移动装置120向用户100请求关于转录的反馈。

在某些实施方式中，在208中，服务器可以获取音频信号的所提取部分的正确转录。正确转录可以基于，例如，从用户100接收到的反馈。例如，响应于由移动装置120接收到的初始转录116，移动装置120可以向用户提示124与初始转录有关的反馈。可替代地，或者另外，如图1A所示，提示124可以显示一个或者多个正确转录的列表。用户100可以选择所提供的正确转录中的一个，并且可以将所选择的正确转录传输164至服务器230，以作为反馈信息118。在某些情况下，反馈信息118可以包括与初始转录不同的正确转录。

可替代地，然而，可能存在初始转录是足够适当的转录的情况。例如，用户100可以确定初始转录116是正确的，并且需要将该初始转录116作为新条目添加至个性化发音字典。用户可以通过，例如，确认移动装置应该响应于来自移动装置120的提示172而呼叫“Fortune”，来发起对初始转录的选择或者确认。如果用户100确认呼叫“Fortune”，则用户100可以输入Fortune的联系人信息以促进呼叫完成。然后，可以将Fortune的姓名发送回服务器130，以将其连同生成的音标发音一起添加至个性化发音字典。因此，在某些实施方式中，反馈信息118可以包括指示初始转录116是足够适当的转录的反馈。

服务器230可以接收正确转录，并且将该正确转录转发至自动语音识别器。自动语音识别器可以基于时间戳获取用户100的先前存储的音频信号的提取部分。例如，自动语音识别器可以检索用户100的音频信号中与最近时间戳相关联的所提取部分。如上所述，自动语音识别器然后可以生成与用户的音频信号的所提取部分对应的音标发音。然后，自动语音识别器可以将生成的音标发音与接收到的正确转录相关联——210。生成的音标发音可以与用户100对实体名称的唯一发音对应。

自动语音识别器然后可以基于生成的音标发音，来对在个性化发音字典中的、包括与正确转录对应的实体名称的条目进行更新——212。在某些实施方式中，对在个性化发音字典中的条目进行更新可以包括：通过将生成的音标发音存储在个性化发音字典中替代实体名称的初始发音，以用户对实体名称的唯一发音代替实体名称的初始发音。这可以包括，例如，从个性化发音字典删除实体名称的初始发音。可替代地，对在个性化发音字典中的条目进行更新可以包括：存储实体的初始发音和生成的音标发音两者，并且然后将更高的权重、排名、或者分值分配给生成的音标发音，该生成的音标发音指示用户的唯一发音。可替代地，***可以将实体的初始发音和生成的音标发音都存储在个性化发音字典中，并且在对所说出的实体名称进行转录期间语音识别器可以考虑这两种发音。可替代地，然而，在某些实施方式中，可以将生成的音标发音存储在与个性化发音字典分开并且大体上独立于该个性化发音字典的位置中。在这种实施方式中，对在个性化发音字典中的条目进行更新可以包含：仅仅在与正确转录对应的个性化发音字典条目与维持一个或者多个生成的音标转录的另一存储位置之间创建概念上的链路。

图3是可以用来学习在全局发音字典中的实体发音的过程300的示例的流程图。

在某些情况下，***100A也可以包括可以在一组多个用户当中共享的全局发音字典。这种全局发音字典在某些地理区域中可能是有利的，在该某些地理区域中，大量特定人口可以各自分别共享一种或者多种特定语音特色，诸如，例如，相同的音高、音调、情绪、口音等。在这种情况下，可以利用全局发音字典替代个性化语音字典150，或者，除了个性化语音字典150之外，还可以利用全局发音字典。例如，全局发音字典可以提供替代数据库，自动语音识别器可以搜索该替代数据库以获取对音频信号中与实体名称对应的特定部分的最接近的转录匹配。可替代地，或者另外，可以将个性化语音字典150和全局发音字典视为使用一种或者多种存储可视化技术的相同的数据池。全局发音字典可以按照与个性化发音字典150的方式大体上相似的方式运行，除了下面陈述的全局发音字典的特定功能之外。

用于学习全局发音字典中的实体发音的过程300可以开始于确定多个不同的独立用户已经修正了对特定讲话的转录——302。服务器130然后可以分析为多个不同的用户中的每个用户生成的多个唯一音标发音中的每一个，以识别已经将相同的唯一音标发音与特定实体名称相关联的用户的子集——304。特定实体名称的唯一音标发音可以是，例如，实体名称“Chowder House”的唯一音标发音“Chow·da hous”，该实体名称“Chowder House”通常可以与音标发音“Chow·der hous”相关联。服务器130可以维持追踪个人用户的数量的计数器，该个人用户已经将相同的唯一音标发音与特定实体名称相关联。服务器130然后可以确定已经将相同的唯一音标发音与特定实体名称相关联的用户的子集是否超过预定阈值。如果确定已经将相同的唯一音标发音与相同的实体名称相关联的用户的数量超过了预定阈值(306)，则可以基于唯一音标发音，使用唯一音标发音来对特定实体的全局发音字典进行更新——308。

术语“数据处理设备”涵盖用于处理数据的各种设备、装置和机器，包括，例如，可编程处理器、计算机、或者多个处理器或者计算机。设备可以包括专用逻辑电路***，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外，设备还可以包括：为讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理***、操作***、或者它们中的一个或者多个的组合的代码。

可以用任何形式的编程语言——包括编译语言或者解译语言、或者说明性语言或者过程语言，来编写计算机程序(也可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或者代码)，并且可以按照任何形式——包括作为独立程序或者作为模块、组件、子例程、或者适合用于计算环境的其它单元来部署该计算机程序。计算机程序可以但并非必须与文件***中的文件对应。程序可以被存储在保存其它程序或者数据的文件的部分中(例如，存储在标记语言文档中的一个或者多个脚本)，或者在专用于讨论的程序的单个文件中，或者在多个协作文件(例如，存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署为在一个计算机上或者在位于一个站点处或者分布到多个站点中并且通过通信网络互相连接的多个计算机上执行。

可以由一个或者多个可编程计算机执行本说明书中所描述的过程和逻辑流程，该一个或者多个可编程计算机执行一个或者多个计算机程序以通过对输入数据进行操作和生成输出来执行功能。也可以由例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)的专用逻辑电路***来执行过程和逻辑流程，并且设备也可以被实施为该专用逻辑电路***。

适合于执行计算机程序的计算机包括，例如，可以基于通用微处理器或者专用微处理器或者两者、或者任何其它种类的中央处理单元。一般而言，中央处理单元将接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的基本元件是用于进行或者执行指令的中央处理单元和用于存储指令和数据的一个或者多个存储器。一般而言，计算机还包括用于存储数据的一个或者多个海量存储装置，或者可以操作地耦合以接收来自该海量存储装置的数据或者将数据传输至该海量存储装置或者进行两者，该海量存储装置例如为磁盘、磁光盘、或者光盘。然而，计算机无需具有这种装置。此外，计算机可以嵌入另一装置中，例如，仅举几例，移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏机、全球定位***(GPS)接收器、或者便携式存储装置(例如，通用串行总线(USB)闪存驱动)。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储装置，包括，例如，半导体存储装置，例如，EPROM、EEPROM和闪存装置；例如，内部硬盘或者可移动磁盘的磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。可以由专用逻辑电路***补充处理器和存储器或者处理器和存储器可以并入该专用逻辑电路***中。

为了提供与用户的交互，可以在计算机上实施本说明书中所描述的主题的实施例，该计算机具有：用于向用户显示信息的显示装置，例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器；以及例如鼠标或者轨迹球的键盘和指向装置，用户可以通过该键盘和该指向装置将输入提供至计算机。其它种类的装置也可以用于提供与用户的交互；例如，提供至用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且可以按照包括声学输入、语音输入或者触觉输入的任何形式来接收来自用户的输入。另外，计算机可以，例如，通过将文件发送至用户所使用的装置并且接收来自该装置的文件——例如，通过响应于从web浏览器接收到的请求来将网页发送至在用户的客户端装置上的文本浏览器，来与用户交互。

可以在计算***中实施本说明书中所描述的主题的实施例，该计算***包括例如数据服务器的后端组件，或者包括例如应用服务器的中间件组件，或者包括前端组件，或者该后台组件、该中间件组件或者该前端组件中的一个或者多个的任何组合，该前端组件例如为具有图形用户界面或者web浏览器的客户端计算机，用户可以通过该客户端计算机与本发明中所描述的主题的实施方式交互。可以通过数字数据通信的任何形式或者介质——例如通信网络，相互连接***的部件。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如，互联网。

计算***可以包括客户端和服务器。客户端和服务器大体上彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系借助在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多具体实施方式细节，但是不应该将这些细节视作对可能要求保护的内容的范围的限制，而是对可能特定于具体实施例的特征的描述。在本说明书中在单独实施例的场境中描述的某些特征还可以组合形式实施在单个实施例中。相反，在单个实施例的场境中描述的各种特征也可以单独地或者按照任何合适的子组合实施在多个实施例中。此外，虽然上面可能将特征描述为以某些组合形式起作用并且甚至最初如此对该特征要求保护，但是在某些情况下可以从组合中删除来自所要求保护的组合的一个或者多个特征，并且所要求保护的组合可以指向子组合或者子组合的变化。

相似地，虽然按照特定顺序在附图中描绘了操作，但是不应该将此理解为：需要按照所示的特定顺序或者按照相继顺序来进行这类操作，或者执行所有所示操作，以实现期望结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，不应该将在上述实施例中的各种***部件的分离理解为在所有实施例中需要这种分离，并且应该理解，所描述的程序部件和***通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

已经描述了主题的具体实施例。其他实施例在以下权利要求书的范围内。例如，可以按照不同的顺序进行在权利要求书中所引用的动作并且仍然实现期望结果。作为一个示例，附图中所示的过程不一定需要所示的特定顺序或者相继顺序来完成期望结果。在某些实施方式中，多任务处理和并行处理可以是有利的。可以提供其它步骤，或者可以从所描述的过程中消除步骤。因此，其它实施方式在以下权利要求书的范围内。

Claims

1.一种方法，其包括：

接收与包括语音命令触发词项和作为专有名词的实体名称的讲话对应的音频数据；

通过自动语音识别器生成所述讲话的与作为专有名词的所述实体名称相关联的第一部分的第一音标表示，其中，第一音标表示不是通过发音字典与该专有名词相关联的发音；

通过自动语音识别器，生成初始转录，所述初始转录(i)基于所述讲话的所述第一部分的所述第一音标表示，并且(ii)包括不是专有名词的词项的转录；

响应于生成包括不是专有名词的词项的转录的所述初始转录，针对反馈而提示用户，其中，针对反馈而提示所述用户包括：

提供所述初始转录以供输出，所述初始转录(i)基于所述讲话的所述第一部分的所述第一音标表示，并且(ii)包括不是专有名词的词项的所述转录；

接收作为专有名词的手动选择的词项替代不是专有名词的词项的所述转录的不同的转录；

响应于接收到作为专有名词的手动选择的词项替代不是专有名词的词项的所述转录的不同的转录，对所述发音字典进行更新以将(i)与所接收的讲话的与作为专有名词的所述实体名称相关联的部分相对应的、所述讲话的所述第一部分的所述第一音标表示关联于(ii)与所述发音字典中的与所述不同的转录相对应的所述实体名称；

接收包括所述实体名称的后续讲话；以及

至少部分地基于更新后的发音字典来对所述后续讲话进行转录。

2.根据权利要求1所述的方法，其中，接收所述不同的转录包括：

响应于提示而接收指示从一个或者多个实体名称的列表中选择实体名称的数据；或者

响应于所述提示而接收指示经由小键盘输入并且指示实体名称的一个或者多个字符的数据。

3.根据权利要求1所述的方法，其中，对发音字典进行更新进一步包括：

识别与所述实体名称相关联的发音字典条目；

删除所述条目的与所述初始转录的音标表示对应的部分；以及

将与所述第一音标表示相关联的所述音标表示存储在与所述实体名称相关联的所述发音字典条目中。

4.根据权利要求1所述的方法，进一步包括：

将时间戳和所接收到的音频数据的与所述讲话的所述第一部分相关联的至少一部分相关联；以及

对所接收到的音频数据的一个或者多个部分进行缓存，直到识别到所述讲话的所述不同的转录并且完成与所接收到的讲话相关联的所述命令。

5.根据权利要求4所述的方法，进一步包括：

基于所述时间戳来识别最近所接收到的音频数据；以及

基于通过使用声学模型而获取到的一组音素来生成所述讲话的、由最近所接收到的音频数据的所获取到的部分表示的所述第一部分的音标表示。

6.根据权利要求1所述的方法，进一步包括：

响应于更新发音字典以包括所述第一音标表示，增加与所述第一音标表示相关联的全局计数器。

7.根据权利要求6所述的方法，进一步包括：

确定与所述第一音标表示相关联的所述全局计数器满足预定阈值；以及

响应于确定与所述第一音标表示相关联的所述全局计数器已经超过预定阈值，将在全局发音字典中与所述实体名称相关联的的发音字典条目更新为包括与所述不同的转录相关联的所述第一音标表示。

8.一种***，其包括：

一个或多个计算机和一个或多个存储装置，所述一个或多个存储装置存储指令，所述指令可操作为在由所述一个或多个计算机执行时使所述一个或多个计算机进行以下操作：

通过自动语音识别器生成所述讲话的与作为专有名词的所述实体名称相关联的第一部分的第一音标表示，其中，所述第一音标表示不是通过发音字典与该专有名词相关联的发音；

接收包括所述实体名称的后续讲话；以及

9.根据权利要求8所述的***，其中，接收所述不同的转录包括：

10.根据权利要求8所述的***，其中，对发音字典进行更新进一步包括：

识别与所述实体名称相关联的发音字典条目；

删除所述条目的与所述初始转录的音标表示对应的所述部分；以及

11.根据权利要求8所述的***，其中，所述操作进一步包括：

12.根据权利要求11所述的***，其中，所述操作进一步包括：

基于所述时间戳来识别最近所接收到的音频数据；以及

基于使用声学模型而获取到的一组音素来生成所述讲话的、由最近所接收到的音频数据的所获取到的部分表示的所述第一部分的音标表示。

13.根据权利要求8所述的***，其中，所述操作进一步包括：

14.根据权利要求13所述的***，其中，所述操作进一步包括：

响应于确定与所述第一音标表示相关联的所述全局计数器已经超过预定阈值，将在全局发音字典中与所述实体名称相关联的发音字典条目更新为包括与所述不同的转录相关联的所述第一音标表示。

15.一种存储软件的非暂时性计算机可读介质，所述软件包括可由一个或者多个计算机执行的指令，所述指令在被执行执行时使所述一个或者多个计算机进行以下操作：

接收包括所述实体名称的后续讲话；以及

16.根据权利要求15所述的计算机可读介质，其中，对发音字典进行更新进一步包括：

识别与所述实体名称相关联的发音字典条目；

17.根据权利要求15所述的计算机可读介质，其中，所述操作进一步包括：

18.根据权利要求17所述的计算机可读介质，其中，获取与所述手动选择的词项相关联的音标表示包括：

基于所述时间戳来识别最近所接收到的音频数据；以及

19.根据权利要求15所述的计算机可读介质，其中，所述操作进一步包括：

响应于将发音字典更新为包括所述第一音标表示，增加与所述第一音标表示相关联的全局计数器。

20.根据权利要求19所述的计算机可读介质，其中，所述操作进一步包括：