CN103081004B

CN103081004B - 用于向语音使能应用程序提供输入的方法和装置

Info

Publication number: CN103081004B
Application number: CN201180043215.6A
Authority: CN
Inventors: J·M·卡塔尔斯
Original assignee: Nuance Communications Inc
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-09-08
Filing date: 2011-09-07
Publication date: 2016-08-10
Anticipated expiration: 2031-09-07
Also published as: EP2591469A1; CN103081004A; JP2013541042A; US20120059655A1; KR20130112885A; WO2012033825A1

Abstract

一些实施例致力于允许用户提供输入到未连接至执行语音使能应用程序的计算机的移动通信装置，如智能电话中的、旨在用于该语音使能应用程序的语音输入。该移动通信装置可以将用户的语音输入作为音频数据提供给在服务器上执行的代理应用，其确定要向哪个计算机提供所接收音频数据。当代理应用确定了要将音频数据提供至其的计算机时，其将该音频数据发送至该计算机。在一些实施例中，自动语音识别可以在将音频数据提供给计算机之前针对其执行。在这种实施例中，代替提供音频数据，代理应用可以将根据执行自动语音识别而生成的识别结果发送至所标识计算机。

Description

用于向语音使能应用程序提供输入的方法和装置

技术领域

在此描述的技术总体上致力于促进用户与语音使能应用程序的相互作用。

背景技术

语音使能软件应用程序是能够经由从用户提供的语音输入来与该用户相互作用的和/或能够按语音形式向人类用户提供输出的软件应用程序。语音使能应用在许多不同环境中使用，如字处理应用、电子邮件应用、文本消息和web浏览应用、手持式装置命令和控制，以及许多其它方面。这种应用可以是专有语音输入应用，或者可以是能够进行多种类型的用户相互作用（例如，视觉、文本、以及/或其它类型的相互作用）的多模态化应用。

当用户通过讲话与语音使能应用通信时，通常使用自动语音识别来确定用户话语的内容。接着，语音使能应用可以基于所确定的用户话语内容来确定要采取的恰当动作。

图1示出了包括计算机101的常规***，计算机101执行语音使能应用程序105和自动语音识别（ASR）引擎103。用户107可以经由麦克风109向应用程序105提供语音输入，该麦克风经由有线连接或无线连接直接连接至计算机101。当用户对着麦克风109讲话时，将语音输入提供给ASR引擎103，该ASR引擎针对该语音输入执行自动语音识别，并将文本识别结果提供给应用程序105。

发明内容

一个实施例致力于提供一种向在计算机上执行的语音使能应用程序提供输入的方法。该方法包括：在至少一个服务器计算机处接收从未通过有线或无线连接方式连接至所述计算机的移动通信装置所提供的音频数据；在所述至少一个服务器计算机处获取根据针对该音频数据执行自动语音识别而生成的识别结果；以及将该识别结果从所述至少一个服务器计算机发送至执行该语音使能应用程序的所述计算机。另一实施例致力于提供编码有指令的至少一个非临时性有形计算机可读介质，该指令在执行时执行上述方法。

另一实施例致力于提供至少一个服务器计算机，该服务器计算机包括：至少一个有形存储介质，该至少一个有形存储介质存储用于向在计算机上执行的语音使能应用程序提供输入的处理器可执行指令；和至少一个硬件处理器，该至少一个硬件处理器执行该处理器可执行指令，以使：在所述至少一个服务器计算机处接收从未通过有线或无线连接方式连接至所述计算机的移动通信装置提供的音频数据；在所述至少一个服务器计算机处获取由针对该音频数据执行自动语音识别而生成的识别结果；以及将该识别结果从所述至少一个服务器计算机发送至执行该语音使能应用程序的所述计算机。

附图说明

在图中：

图1是执行语音使能应用程序的现有技术计算机的框图；

图2是根据一些实施例的计算机***的框图，其中，旨在用于在计算机上执行的语音使能应用程序的语音输入可以经由未连接至该计算机的移动通信装置来提供；

图3是根据一些实施例的、用于利用移动通信装置向语音使能应用提供根据语音输入生成的输入的处理的流程图；

图4是根据一些实施例的计算机***的框图，其中，旨在用于在计算机上执行的语音使能应用程序的语音输入可以经由未连接至该计算机的移动通信装置来提供，并且其中，在与执行该语音使能应用程序的计算机不同的计算机上执行自动语音识别；

图5是根据一些实施例的计算机***的框图，其中，旨在用于在计算机上执行的语音使能应用程序的语音输入可以经由连接至该计算机的移动通信装置来提供；以及

图6是可以在一些实施例中使用以实现图2、4以及5中描绘的计算机和装置的计算机装置的框图。

具体实施方式

为向语音使能应用提供语音输入，用户通常对着所连接（有线或者无线地）或内置于计算机的麦克风讲话，经由该麦克风，用户与语音使能应用相互作用。发明人已经认识到，用户使用这种麦克风来向语音使能应用提供语音输入的需要可能导致许多不便利。

具体来说，一些计算机可能没有内置麦克风。由此，用户必须获取麦克风，并将其连接至他或她用来经由语音接入语音使能应用的计算机。另外，如果计算机是共享计算机，则连接至其的麦克风可以是由许多不同的人共享的麦克风。由此，麦克风可能是用于在人与人之间传染病原体（例如，病毒、细菌以及/或其它传染体）的通路。

虽然下面讨论的实施例中的一些致力于解决上面讨论的所有不便和缺陷，但不是每一个实施例都致力于解决所有这些不便和缺陷，并且一些实施例可能不解决它们中的任一个。因此，应当明白，本发明不限于解决所有或任何上述不便或缺陷的实施例。

一些实施例致力于提供这样的***和/或方法，其中，用户可以经由移动电话或其它手持式移动通信装置来向语音使能应用程序提供语音输入，而不必使用直接连接至用户用来接入语音使能应用程序的计算机的专用麦克风。这可以按多种方法中的任一个来实现，其中，一些非限制详细示例在下面进行描述。

发明人已经认识到，因为许多人自己的个人装置（例如，移动电话或其它手持式移动计算装置）通常具有内置麦克风，所以这种装置上的麦克风可以被用于接收要作为输入提供给在与这些装置分离的计算机上执行的语音使能应用程序的用户语音。这样，用户不需要定位专用麦克风并将其连接至执行语音使能应用的计算机，或者使用连接至计算机的共享麦克风以经由话音与语音使能应用程序相互作用。

图2示出了一种计算机***，其中，用户可以向手持式移动通信装置提供语音输入，以与在和该手持式移动通信装置分离的计算机上执行的语音使能应用程序相互作用。

图2所示的计算机***包括：移动通信装置203、计算机205、以及一个或多个服务器211。计算机205执行至少一个语音使能应用程序207和至少一个自动语音识别（ASR）引擎209。在一些实施例中，计算机205可以是用户217的个人计算机，经由该计算机，用户217可以与一个或多个输入/输出（I/O）装置（例如，鼠标器、键盘、显示装置，以及/或任何其它合适I/O装置）相互作用。该计算机可以有或没有内置麦克风。在一些实施例中，计算机205可以是用作用户的家庭计算机的个人计算机，或者可以是用户在其上具有账户（例如，企业账户）的工作站或终端，并且，可以是用户用作接入语音使能应用程序的接口。在其它实施例中，计算机205可以是应用主机服务器，或者向用户217的个人计算机（未示出）上的虚拟化客户端递送语音使能应用207的虚拟化服务器。

移动通信装置203可以是各种可能类型的移动通信装置中的任一种，例如，包括：智能电话（例如，蜂窝移动电话）、个人数字助理、和/或任何其它合适类型的移动通信装置。在一些实施例中，该移动通信装置可以是手持式和/或掌上型装置。在一些实施例中，该移动通信装置可以是能够通过因特网发送和接收信息的装置。而且，在一些实施例中，该移动通信装置可以是具有能够（和/或被配置用于）执行应用程序的通用处理器，和能够存储要通过该通用处理器执行的应用程序的有形存储器或其它类型的有形计算机可读介质的装置。在一些实施例中，移动通信装置可以包括可以向其用户显示信息的显示器。虽然移动通信装置203在一些实施例中包括内置麦克风，但移动通信装置除了仅仅将声学声音转换成电信号并通过有线或无线连接提供该电信号以外还提供一些附加功能。

服务器211可以包括执行代理应用219的一个或多个服务器计算机。代理应用219可以是这样的应用，即，在接收到来自移动通信装置的音频时，确定要将所接收音频发送至哪个计算机或其它装置，并将该音频发送至该目的地装置。如下更详细说明的，该音频可以被“推送（pushed）”至目的地装置，或者被目的地装置“拉出（pulled）”。

应当清楚，尽管在图2中仅示出了单一移动通信装置203和单一计算机205，但由服务器211执行的代理应用可以用作许多（例如，数万、数十万或更多）移动通信装置与执行语音使能应用的计算机之间的代理。在这方面，在服务器211上执行的代理应用219可以接收来自许多移动通信装置中的任一个的音频，确定要将所接收音频发送至执行语音使能应用的多个目的地计算机或装置中的哪一个，并且将该音频（例如，经由因特网201）发送至恰当目的地计算机或装置。

图3是可以在一些实施例中被用于使用户能够经由移动通信装置向语音使能应用程序提供语音的处理的流程图。如可以根据下面的讨论清楚的，即使移动电话未通过有线或无线连接方式连接至执行语音使能应用程序的计算机或者用户经由其接入语音使能应用程序的计算机（例如，具有用户通过其接入该应用的用户接口的计算机），图3所示的处理也使得语音使能应用程序的用户能够对着他或她的移动通信装置讲话，并且使他或她的语音作为文本实时或大致实时地呈现在语音使能应用程序中。

图3的处理在动作301开始，其中，用户（例如，图2中的用户217）提供输入到移动通信装置（例如，移动通信装置203）的麦克风中的、旨在供语音使能应用程序使用的语音。移动通信装置可以按任何合适方式接收语音，并且本发明在这方面不受限。例如，移动通信装置可以执行一应用程序，该应用程序被配置成接收来自用户的语音并将该语音提供给服务器211。在一些实施例中，移动通信装置可以经由内置麦克风接收语音作为模拟音频信号，并且可以在将该音频提供给服务器211之前数字化该音频。由此，在动作301，用户可以启动移动通信装置上的该应用程序，并对着该移动通信装置的麦克风讲话。

该处理接下来继续至动作303，其中，该移动通信装置经由麦克风接收用户的语音。接着，该处理继续至动作305，其中，移动通信装置将所接收语音作为音频数据发送至执行代理应用（例如，代理应用219）的服务器（例如，服务器（211）之一）。该音频可以按任何合适格式来发送，并且可以在发送之前压缩或者无压缩发送。在一些实施例中，该音频可以通过移动通信装置流式传输至执行代理应用的服务器。这样，在用户对着该移动通信装置的麦克风讲话时，移动通信装置将用户的语音的音频流式传输至代理应用。

在通过移动通信装置传输音频之后，处理继续至动作307，其中，在服务器上执行的代理应用接收从移动通信装置发送来的音频。处理接下来继续至动作309，其中，代理应用确定作为音频数据的目的地的计算机或装置。这可以按各种可能方法中的任一个来实现，下面对其一些示例进行讨论。

例如，在一些实施例中，当移动通信装置向服务器发送音频数据时，其可以随着该音频一起发送标识用户和/或移动通信装置的标识符。这种标识符可以采取各种可能形式中的任一个。例如，在一些实施例中，该标识符可以是用户输入到移动通信装置上的应用程序中的用户名和/或密码，以便提供音频。在另选实施例中，其中，移动通信装置是移动电话，标识符可以是移动电话的电话号码。在一些实施例中，标识符可以是由其移动通信装置的制造商或者由某其它实体指配给移动通信装置的通用唯一标识符（UUID）或保证唯一标识符（GUID）。可以使用任何其它合适的标识符。

如下更详细描述的，在服务器上执行的代理应用在确定要将所接收音频数据发送至哪个计算机或装置时，可以使用由移动通信装置与视频数据一起发送来的标识符。

在一些实施例中，移动通信装置不需要随着每一次发送音频数据而发送标识符。例如，标识符可以被用于建立移动通信装置与服务器之间的会话，并且标识符可以与该会话相关联。这样，可以将作为会话的一部分而发送的任何音频数据与该标识符相关联。

代理应用可以按任何合适方式使用标识用户和/或移动通信装置的标识符，来确定向哪个计算机或装置发送所接收音频数据，在此对其非限制例进行描述。例如，参照图2，在一些实施例中，计算机205可以向服务器211周期性地轮询，以确定服务器211是否已经接收到来自移动通信装置203的任何音频数据。当轮询服务器211时，计算机205可以向服务器211提供与由移动通信装置203提供给服务器211的音频数据相关联的标识符，或者服务器可以用来映射至该标识符的某其它标识符。由此，当服务器211接收到来自计算机205的标识符时，其可以标识与所接收标识符相关联的音频数据，并且确定与所接收标识符相关联的音频数据将要提供给轮询计算机。这样，将根据用户217的语音生成的音频（且不是从其他用户的移动通信装置提供的音频数据）被提供给用户的计算机。

计算机205可以按各种可能方法中的任一个来获取通过用户217的移动通信装置（即，移动通信装置203）提供给服务器211的标识符。例如，在一些实施例中，语音使能应用207和/或计算机205可以存储针对语音使能应用的每一个用户的记录。该记录的一个字段可以包括与用户的移动通信装置相关联的标识符，其例如可以由用户手动提供和输入（例如，经由用户向装置登记语音使能应用的一次性登记过程）。由此，当用户登录计算机205时，存储在针对该用户的记录中的标识符可以在向服务器211轮询音频数据时使用。例如，针对用户217的记录可以存储与移动通信装置203相关联的标识符。当用户217登录计算机205时，计算机205利用来自针对用户217的记录的标识符向服务器211轮询。这样，服务器211可以确定要将从移动通信装置接收到的音频数据发送至哪个计算机。

如上所述，服务器211可以接收从大量不同用户和从大量不同装置提供的音频数据。针对每一条音频数据，服务器211可以通过将与音频数据相关联的标识符匹配或映射到与目的地装置相关联的标识符，来确定要将音频数据提供给哪个目的地装置。可以将音频数据提供给与随音频数据提供的标识符被匹配或映射到的标识符相关联的目的地装置。

在上面描述的示例中，在服务器上执行的代理应用响应于来自计算机或装置的轮询请求，确定要将从移动通信装置接收到的音频数据发送给哪个计算机或装置。在这方面，计算机或装置可以视为从服务器“拉出”音频数据。然而，在一些实施例中，并不是计算机或装置从服务器拉出音频数据，而是服务器可以将视频数据“推送”至计算机或装置。例如，计算机或装置可以在启动语音使能应用时、在计算机加电时，或者在任何其它合适时间建立会话，并且可以向代理应用提供任何合适标识符（上面讨论了其示例），以标识将提供音频的用户和/或移动通信装置。当代理应用接收到来自移动通信装置的音频数据时，其可以标识对应会话，并且利用匹配会话将音频数据发送至计算机或装置。

在动作309之后，图3的处理继续至动作311，其中，服务器上的代理应用将音频数据发送至在动作309中确定的计算机或装置。这可以按任何合适方式来进行。例如，代理应用可以通过因特网、经由企业内联网，或者按任何其它合适方式向计算机或装置发送音频数据。该处理接下来继续至动作313，其中，在动作309中标识的计算机或装置接收从服务器上的代理应用发送来的音频数据。处理接着进行至动作315，其中，计算机或装置上的或耦接至其的自动语音识别（ASR）引擎针对所接收音频数据执行自动语音识别，以生成识别结果。该处理接下来继续至动作317，其中，将该识别结果从ASR引擎传递至在计算机上执行的语音使能应用。

该语音使能应用可以按任何合适方式与计算机上的或耦接至其的ASR引擎通信，以接收识别结果，因为本发明的多个方面并不受限于这点。例如，在一些实施例中，语音使能应用和ASR引擎可以使用语音应用编程接口（API）来通信。

在一些实施例中，该语音使能应用可以向ASR引擎提供可以在执行语音识别时帮助该ASR引擎的语境（context）。例如，如图2所示，语音使能应用207可以向ASR引擎209提供语境213。ASR引擎209可以使用该语境来生成结果215，并且可以向语音使能应用提供结果215。由语音使能应用提供的语境可以是可被ASR引擎209使用的任何信息，以辅助针对语音使能应用的音频数据的自动语音识别。例如，在一些实施例中，针对语音使能应用的音频数据可以是旨在放置在采用由语音使能应用提供或显示的形式的特定字段中的词语。例如，该音频数据可以是旨在填充采用这样的形式的“地址”字段中的语音。该语音使能应用可以向ASR引擎提供字段名（例如，“地址”）或有关该字段的其它信息作为语境信息，并且ASR引擎可以按任何合适方式使用该语境以辅助语音识别。

在上述示例性实施例中，ASR引擎和语音使能应用在同一计算机上执行。然而，本发明在这方面不受限，如在一些实施例中，ASR引擎和语音使能应用可以在不同计算机上执行。例如，在一些实施例中，ASR引擎可以在与执行代理应用的服务器分离的另一服务器上执行。例如，企业可以具有一个或多个专用ASR服务器，并且代理应用可以与这种服务器通信，以获取针对音频数据的语音识别结果。

在图4所示的另选实施例中，ASR引擎可以在和代理应用相同的服务器上执行。图4示出了一种计算机***，其中，用户可以向手持式移动通信装置提供语音输入，以与在和手持式移动通信装置分离的计算机上执行的语音使能应用程序相互作用。如在图2中，用户217可以向移动通信装置203的麦克风提供旨在用于语音使能应用207（在计算机205上执行）的语音。移动通信装置203向在服务器211之一上执行的代理应用219发送该语音的音频。然而，不同于图2的***，代替向计算机205提供所接收音频，代理应用219向也在服务器211之一上执行的ASR引擎403发送所接收音频。在一些实施例中，ASR引擎403可以在和代理应用219相同的服务器上操作。在其它实施例中，ASR引擎403可以在和代理应用219不同的服务器上执行。在这方面，代理应用和ASR功能可以按任何合适方式分布在一个或多个计算机上（例如，利用排它地专用于用作代理或ASR引擎的一个或多个服务器、利用服务于两个功能的一个或多个计算机等），因而本发明在这方面不受限。

如图4所示，代理应用219可以向ASR引擎403发送从移动通信装置203接收到的音频数据（即，音频数据405）。ASR引擎可以将一个或多个识别结果409返回至代理应用219。接着，代理应用219可以将从ASR引擎403接收到的识别结果409发送至计算机205上的语音使能应用207。这样，计算机205不需要执行ASR引擎来使得语音使能应用207能够接收从用户提供的语音输入。

在一另选实施例中，代理应用可以向ASR引擎通知要将识别结果提供给哪个目的地装置，并且ASR引擎可以将识别结果提供给该装置，而非将识别结果发送回至代理应用。

如上所述，在一些实施例中，语音使能应用207可以提供由ASR引擎使用的语境，以帮助语音识别。由此，如图4所示，在一些实施例中，语音使能应用207可以向代理应用219提供语境407，而代理应用219可以将该语境连同音频405一起提供给ASR引擎403。

在图4中，语境407被示出为直接从计算机205上的语音使能应用207提供给代理应用219，而结果409被示出为直接从代理应用219提供给语音使能应用207。然而，应当清楚，这些信息可以经由因特网201、经由内联网、或者经由任何其它合适通信介质而在语音使能应用与代理应用之间传送。类似的是，在其中代理应用219和ASR引擎403在不同服务器上执行的实施例中，信息可以经由因特网、内联网、或者按任何其它合适方式在它们之间交换。

在上面结合图2-4讨论的示例中，移动通信装置203被描绘为经由数据网络（如因特网或企业内联网）向服务器211提供音频数据。然而，本发明在这方面不受限，因为在一些实施例中，为向服务器211提供音频数据，用户可以使用移动通信装置203拨打电话号码，以向接受音频数据并将该音频数据提供给服务器211的服务发出电话呼叫。由此，用户可以拨打与该服务相关联的电话号码，并对着电话讲话以提供音频数据。在这样一些实施例中，基于陆上通讯线的电话可以被用于提供音频数据，以代替移动通信装置203。

在上面结合图2-4讨论的实施例中，为向在计算机上执行的语音使能应用提供语音输入，用户对着未通过有线或无线连接方式连接至计算机的移动通信装置讲话。然而，在一些实施例中，移动通信装置可以经由有线或无线连接方式连接至计算机。在这种实施例中，因为将音频经由移动通信装置203与计算机205之间的有线或无线连接而从移动通信装置203提供给计算机205，所以代理应用不必确定要将音频数据提供给哪个目的地装置。由此，在这种实施例中，计算机205向服务器提供音频数据，以使ASR可以在音频数据上执行，并且服务器将ASR的结果提供回到计算机205。服务器可以接收来自多种不同计算机的针对ASR功能的请求，但因为根据音频数据的识别结果被反向提供给将音频数据发送至服务器的同一装置，所以不需要提供上面讨论的代理功能。

图5是其中移动通信装置203经由可以是有线或无线连接的连接503而连接至计算机205的***的框图。由此，用户217可以提供输入到移动通信装置203的麦克风中的旨在用于语音使能应用的语音。移动通信装置203可以将所接收语音作为音频数据501发送至计算机205。计算机205可以将从移动通信装置接收到的音频数据发送至在服务器211上执行的ASR引擎505。ASR引擎505可以针对所接收音频数据执行自动语音识别，并将识别结果511发送至语音使能应用511。

在一些实施例中，计算机205可以随音频数据501一起向ASR引擎505提供来自语音使能应用207的语境507，以在执行语音识别时帮助ASR引擎。

在图5中，移动通信装置203被示出为连接至因特网。然而，在图5中描绘的实施例中，装置203不需要连接至因特网，因为其经由有线或无线连接直接向计算机205提供音频数据。

上面讨论的计算装置（例如，计算机、移动通信装置、服务器、和/或任何其它上面讨论的计算装置）分别可以按任何合适方式来实现。图6是可以被用于实现上面讨论的计算装置中的任一个的例示性计算装置600的框图。

计算装置600可以包括一个或多个处理器601和一个或多个有形非临时性计算机可读存储介质（例如，有形计算机可读存储介质603）。计算机可读存储介质603可以在有形非临时性计算机可读存储介质中存储实现上述功能中的任一种的计算机指令。处理器601可以耦接至存储器603，并且可以执行这种计算机指令，以使实现并执行该功能。

计算装置600还可以包括网络输入/输出（I/O）接口605，经由其，该计算装置可以与其它计算机通信（例如，通过网络），并且，根据计算装置的类型，还可以包括一个或多个用户I/O接口，经由其，计算机可以向用户提供输出和接收来自用户的输入。用户I/O接口可以包括诸如键盘、鼠标、麦克风、显示装置（例如，监视器或触摸屏）、扬声器、摄像机、以及/或各种其它类型I/O装置的装置。

如根据上面结合图2-4的讨论应当清楚，上述***和方法准许用户启动他或她的计算机上的语音使能应用程序，提供输入到未经由有线或无线连接方式连接至计算机的移动通信装置的音频，并且实时或大致实时地在计算机上查看根据音频数据而获取的识别结果。如在此使用的，实时查看结果意指，针对音频数据的识别结果在用户提供该音频数据之后不到一分钟就呈现在用户的计算机上，并且更优选地，在用户提供该音频数据之后不到十秒钟就呈现在用户的计算机上。

另外，利用上面结合图2-4描述的***和方法，移动通信装置接收来自用户的音频数据（例如，经由内置麦克风）并将该音频数据发送至服务器，并且在该服务器确认接收到该音频数据之后，不希望来自该服务器的任何响应。即，因为音频数据和/或识别结果被提供给与移动通信装置分离的目的地装置，所以移动通信装置不等待或希望接收来自该服务器的、基于该音频数据的内容的任何识别结果或响应。

如根据上面的讨论应当清楚，服务器211上的代理应用可向许多用户和许多目的地装置提供代理服务。在这方面，服务器211可以被看作“在云中”提供代理服务。云中的服务器可以接收来自大量不同用户的音频数据，确定要将该音频数据和/或根据该音频数据获取的结果（例如，通过在该音频数据上执行ASR）发送至的目的地装置，并将该音频数据和/或结果发送至恰当的目的地装置。另选的是，服务器211可以是在企业中操作的服务器，并且可以向企业中的用户提供代理服务。

根据上面的讨论应当清楚，在服务器211之一上执行的代理应用可以接收来自一个装置（例如，移动通信装置）的音频数据，并将该音频数据和/或根据该音频数据获取的结果（例如，通过在该音频数据上执行ASR）提供给不同的装置（例如，执行语音使能应用程序或提供通过其用户可以接入语音使能应用程序的用户接口的计算机）。代理应用从其接收音频数据的装置和代理应用向其提供音频数据和/或结果的装置不需要被拥有或操作执行该代理应用的服务器的同一实体拥有或管理。例如，移动装置的拥有者可以是拥有或操作该服务器的实体的员工，或者可以是这种实体的客户。

本发明的上述实施例可以按许多方式中的任一种来实现。例如，这些实施例可以利用硬件、软件或其组合来实现。当按软件来实现时，软件代码可以在任何合适处理器或处理器集合上执行，而不管设置在单一计算机中还是在多个计算机当中分布。应当清楚，执行上述功能的任何组件或组件集合一般地可以被视为控制上面讨论的功能的一个或多个控制器。所述一个或多个控制器可以按许多方式来实现，如利用专用硬件，或者利用使用执行上述功能的微码或软件来编程的通用硬件（例如，一个或多个处理器）。

在这方面，应当清楚，本发明各种实施例的一个实现包括编码有一个或多个计算机程序（即，多个指令）的至少一个有形非临时性计算机可读存储介质（例如，计算机存储器、软盘、紧致磁盘和光盘、磁带、闪速存储器、现场可编程门阵列中的电路构造或其它半导体装置等），该计算机程序当在一个或多个计算机或其它处理器上执行时，执行上面讨论的本发明各种实施例的功能。该计算机可读存储介质可以是可运输的，以使得存储在其上的程序可以被加载到任何计算机资源上，以实现在此讨论的本发明的各个方面。另外，应当清楚，针对在执行时执行上面讨论的功能的计算机程序的引用不限于在主机计算机上运行的应用程序。相反地，术语计算机程序在此按一般意义使用，以指代可以被采用以将处理器编程成实现上面讨论的本发明的多个方面的任何类型的计算机代码（例如，软件或微码）。

本发明的各个方面可以单独地、组合地，或者按在前文所述实施例中未具体讨论的多种布置来使用，并由此在它们针对前述描述中阐述的或附图中例示的组件的细节和布置的应用方面不构成限制。例如，在一个实施例中描述的方面可以按任何方式与其它实施例中描述的方面相组合。

而且，本发明的实施例可以被实现为一种或多种方法，其中，已经提供了一示例。作为该方法的一部分执行的动作可以按任何合适方式来排序。因此，即使在例示性实施例中被示出为顺序动作，实施例也可以被理解为按与所例示的不同的顺序来执行其中的动作，这可以包括同时执行一些动作。

在权利要求书中使用诸如“第一”、“第二”、“第三”等的普通术语来修改权利要求组件不独立地暗示一个权利要求组件优于另一个的任何优先级、优先权或顺序，或其中方法的动作被执行的时间顺序。这种术语仅仅被用作用于区分具有某名称的一个权利要求组件与具有相同名称（但被用作普通术语）的另一部件的标记。

在此使用的用语（phraseology）和术语出于描述的目的，而不应被视为进行限制。使用“包括（including）”、“包括（comprising）”、“具有（having）”、“包含（containing）”、“涉及（involving）”及其变形意指涵盖在其之后列出的项目和附加项。

已经详细描述了本发明的若干实施例，本领域技术人员将容易地想到各种修改和改进。这种修改和改进旨在处于本发明的精神和范围内。因此，前述描述仅仅作为示例，而非旨在进行限制。本发明仅仅如通过下列的权利要求书及其等同物所限定的来进行限制。

Claims

1.一种向在计算机上执行的语音使能应用程序提供输入的方法，所述语音使能应用程序被配置为显示从用户提供的语音输入而识别的内容，该方法包括：

在至少一个服务器处接收包括所述用户的语音输入的音频数据以用于由所述语音使能应用程序进行的显示，所述音频数据由未通过有线或无线连接方式连接至所述计算机的移动通信装置来提供；

在所述至少一个服务器处获取根据针对该音频数据执行自动语音识别而生成的识别结果；以及

将该识别结果从所述至少一个服务器发送至执行该语音使能应用程序的所述计算机，以向所述用户显示所述识别结果。

2.根据权利要求1所述的方法，其中，该移动通信装置包括智能电话。

3.根据权利要求1所述的方法，其中，所述至少一个服务器是至少一个第一服务器，并且其中，获取该识别结果的动作还包括：

将该音频数据发送至在至少一个第二服务器上执行的至少一个自动语音识别ASR引擎；并且

在所述至少一个第二服务器上接收来自所述至少一个自动语音识别ASR引擎的识别结果。

4.根据权利要求1所述的方法，其中，获取该识别结果的动作还包括：

利用在所述至少一个服务器上执行的至少一个自动语音识别ASR引擎来生成识别结果。

5.根据权利要求1所述的方法，其中，该计算机是多个计算机中的第一计算机，并且其中，所述方法还包括：

从移动通信装置接收与所述音频数据相关联的标识符；并且

利用该标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机。

6.根据权利要求5所述的方法，其中，该标识符是第一标识符，并且其中，利用该第一标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机的动作还包括：

接收来自第一计算机的针对音频数据的请求，该请求包括第二标识符；

确定第一标识符是否与第二标识符匹配或映射至第二标识符；以及

当确定第一标识符与第二标识符匹配或映射至第二标识符时，确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机。

7.根据权利要求6所述的方法，其中，将识别结果从所述至少一个服务器发送至执行语音使能应用程序的计算机的动作响应于确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机而执行。

8.一种向在计算机上执行的语音使能应用程序提供输入的设备，所述语音使能应用程序被配置为显示从用户提供的语音输入而识别的内容，该设备包括：

用于在所述至少一个服务器处接收包括所述用户的语音输入的音频数据以用于由所述语音使能应用程序进行的显示的装置，所述音频数据由未通过有线或无线连接方式连接至所述计算机的移动通信装置来提供；

用于在所述至少一个服务器处获取根据针对该音频数据执行自动语音识别而生成的识别结果的装置；以及

用于将该识别结果从所述至少一个服务器发送至执行该语音使能应用程序的所述计算机以向所述用户显示所述识别结果的装置。

9.根据权利要求8所述的设备，其中，该移动通信装置包括智能电话。

10.根据权利要求8所述的设备，其中，所述至少一个服务器是至少一个第一服务器，并且其中，用于在所述至少一个服务器处获取根据针对该音频数据执行自动语音识别而生成的识别结果的装置还包括：

用于将该音频数据发送至在至少一个第二服务器上执行的至少一个自动语音识别ASR引擎的装置；以及

用于在所述至少一个第二服务器上接收来自所述至少一个自动语音识别ASR引擎的识别结果的装置。

11.根据权利要求8所述的设备，其中，用于在所述至少一个服务器处获取根据针对该音频数据执行自动语音识别而生成的识别结果的装置还包括：

用于利用在所述至少一个服务器上执行的至少一个自动语音识别ASR引擎来生成识别结果的装置。

12.根据权利要求8所述的设备，其中，该计算机是多个计算机中的第一计算机，并且其中，所述设备还包括：

用于从移动通信装置接收与音频数据相关联的标识符的装置；以及

用于利用该标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机的装置。

13.根据权利要求12所述的设备，其中，标识符是第一标识符，并且其中，用于利用第一标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机的装置还包括：

用于接收来自第一计算机的针对音频数据的请求的装置，该请求包括第二标识符；

用于确定第一标识符是否与第二标识符匹配或映射至第二标识符的装置；以及

用于当确定第一标识符与第二标识符匹配或映射至第二标识符时，确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机的装置。

14.根据权利要求13所述的设备，其中，用于将识别结果从所述至少一个服务器发送至执行语音使能应用程序的计算机的装置响应于确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机而执行处理。