CN105793923A

CN105793923A - 本地和远程语音处理

Info

Publication number: CN105793923A
Application number: CN201480050711.8A
Authority: CN
Inventors: 尼克尔·斯特罗姆; 彼得·斯伯丁·万兰德; 比约恩·霍夫梅斯特
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2013-09-20
Filing date: 2014-09-09
Publication date: 2016-07-20
Also published as: WO2015041892A1; EP3047481A1; JP2016531375A; EP3047481A4

Abstract

本发明公开了一种用户设备，所述用户设备可被配置来检测用户说出的触发表述并且通过将随后的单词或短语解释为命令来做出响应。所述命令可通过将包含所述单词或短语的音频发送到远程服务来辨识，所述远程服务被配置来执行语音辨识。某些命令可以被指定为本地命令并且可以在本地检测而不是依赖于所述远程服务。当检测到所述触发表述时，将音频流式传输到所述远程服务并且同样在本地对其进行分析以检测本地命令的说出。当检测到本地命令时，立即启动对应的功能，并且取消或忽略由所述远程服务随后做出的活动或响应。

Description

本地和远程语音处理

相关申请

本申请要求2013年9月20日提交的标题为“LocalandRemoteSpeechProcessing(本地和远程语音处理)”的美国专利申请号14/033,302的优先权，所述专利申请以引用的方式整体并入本文。

背景

家庭、办公室、汽车以及公共空间变得与计算设备，诸如笔记本电脑、平板电脑、娱乐***和便携式通信设备的迅速发展联系越来越紧密。随着计算设备的发展，用户与这些设备进行交互的方式也继续发展。例如，人们能够通过机械设备(例如，键盘，鼠标等)、电气设备(例如，触摸屏、触控板等)以及光学设备(例如，运动检测器、摄像机等)与计算设备进行交互。与计算设备进行交互的另一种方式是通过捕获人类语音并对所述人类语音做出响应的音频设备。

附图简述

详细说明参照附图来描述。在图中，参考数字中最左侧的数字标识首次出现所述参考数字的图。在不同的图中使用的相同参考数字指示类似或相同的部件或特征。

图1是包括本地音频设备和远程语音处理服务的说明性话音(voice)交互计算体系结构的框图。

图2-4是示出用于检测可由本地音频设备与远程语音处理服务结合来执行的命令表述的示例性过程的流程图。

详述

本公开总体涉及一种提供或促进与用户的基于语音的交互的语音接口***。所述***包括具有麦克风的本地设备，所述麦克风捕获包含用户语音的音频。口头用户命令之前可带有关键字，被称为触发表述或唤醒表述。触发表述之后的音频可被流式传输到远程服务以便进行语音辨识，并且所述服务可通过执行功能或提供将由音频设备执行的命令来做出响应。

与远程服务的通信可引入响应等待时间，在大多数情况下所述响应等待时间可最小化在可接受限值内。然而，一些口头命令可能要求较少的等待时间。举例来说，关于某些类型的媒体呈现的口头命令，诸如“停止”、“暂停”、“中止”等，可能需要以较少的可感知的等待时间量来执行。

根据各种实施方案，某些命令表述，在本文中被称为本地命令或本地命令表述，由本地设备而非远程服务检测或在本地设备而非远程服务处检测。更具体地，本地设备被配置来检测触发或警示表述，所述触发或警示表述指示随后的语音是用户意图来形成命令的。在检测到触发表述时，本地设备启动与远程服务的通信会话并且开始将所接收的音频流式传输到所述服务。作为响应，远程服务对所接收的音频执行语音辨识并且试图基于所辨识的语音来识别用户意图。响应于所辨识的用户意图，远程服务可执行对应的功能。在一些情况下，可与本地设备结合来执行功能。例如，远程服务可向本地设备发送命令，指示本地设备应执行所述命令以执行对应的功能。

与远程服务的活动同步的是，本地设备监测或分析音频以检测触发表述之后本地命令表述的发生。在检测到音频中的本地命令表述时，本地设备立即实现对应的功能。此外，停止或取消由远程服务执行的其他动作以避免关于单个用户话语的重复动作。可通过以下方式停止由远程服务执行的动作：明确地通知远程服务所述话语已在本地实施、通过终止或取消通信会话、和/或通过放弃由远程服务响应于远程用户语音辨识而指定的任何命令。

图1示出话音交互***100的实例。***100可包括或可利用本地基于话音的音频设备102，所述音频设备102可位于环境104(诸如家庭)内并且可用于与用户106进行交互。话音交互***100还可包括或利用远程基于网络的语音命令服务108，所述语音命令服务108被配置来接收音频、辨识音频中的语音并且响应于所辨识的语音执行功能，在本文中被称为服务识别的功能。服务识别的功能可由语音命令服务108独立于音频设备来实现，和/或可通过向音频设备102提供命令以便在本地执行来实现。

在某些实施方案中，用户与音频设备102的交互的主要模式可以是通过语音。例如，音频设备102可接收来自用户106的口头命令表述并且可响应于所述命令来提供服务。用户可说出预定义的唤醒或触发表述(例如，“醒来”)，所述唤醒或触发表述之后可以是命令或指令(例如，“我想要去看电影。请告诉我当地电影院正在播放什么影片。”)。所提供的服务可包括执行动作或活动、呈现媒体、获取和/或提供信息、通过由音频设备102生成或合成的语音提供信息、代表用户106启动基于互联网的服务等等。

本地音频设备102和语音命令服务108被配置成彼此结合来起作用以接收来自用户106的命令表述并且对其做出响应。命令表述可包括由本地设备102独立于语音命令服务108进行检测并实施的本地命令表述。命令表述还可包括由远程语音命令服务108或与远程语音命令服务108结合来进行解释并实施的命令。

音频设备102可具有一个或多个麦克风110和一个或多个音频扬声器或变换器112，以便促进与用户106的音频交互。麦克风110产生麦克风信号，也被称为输入音频信号，其表示来自环境104的音频，包括由用户106发出的声音或表述。

在一些情况下，麦克风110可包括麦克风阵列，所述麦克风阵列与音频波束形成技术结合来使用以产生集中在可选择方向上的输入音频信号。类似地，可使用多个方向性麦克风110来产生对应于多个可用方向中的一个的音频信号。

音频设备102包括操作逻辑，在许多情况下所述操作逻辑可包括处理器114和存储器116。处理器114可包括多个处理器和/或具有多个核的处理器。处理器114还可包含或包括用于处理音频信号的数字信号处理器。

存储器116可包含呈计算机可执行指令形式的应用和程序，处理器114执行计算机可执行指令以便执行实现音频设备102的期望功能(包括以下明确描述的功能)的操作或动作。存储器116可以是一类计算机可读存储介质并且可包括易失性和非易失性存储器。因此，存储器116可包括但不限于RAM、ROM、EEPROM、快闪存储器或其他存储器技术。

音频设备102可包括可由处理器114执行来提供服务和功能的多个应用、服务和/或功能118，以下统称为功能组件118。应用和其他功能组件118可包括媒体回放服务，诸如音乐播放器。由应用和其他功能组件118执行或提供的其他服务或操作可包括(作为实例)请求和消费娱乐(例如，游戏、查找和播放音乐、电影或其他内容等)、个人管理(例如，日程表制定、便笺制作等)、在线购物、财务交易、数据库查询、人与人之间的话音通信等。

在一些实施方案中，功能组件118可预先安装在音频设备102上，并且可实现音频设备102的核心功能。在其他实施方案中，应用或其他功能组件118中的一个或多个可在用户106已初始化音频设备102之后由用户106进行安装或以其他方式安装，并且可根据用户106的期望实现另外的或定制的功能。

处理器114可由音频处理功能或组件120配置来处理由麦克风110生成的输入音频信号和/或提供到扬声器112的输出音频信号。举例来说，音频处理组件120可实现声学回声消除以减少由麦克风110与扬声器112之间的声学耦合生成的音频回声。音频处理组件120还可实现噪声减少以减少所接收音频信号中的噪声，诸如输入音频信号而非用户语音的元素。在某些实施方案中，音频处理组件120可包括一个或多个音频波束形成器，所述音频波束形成器响应于多个麦克风110以生成集中在已检测到用户语音的方向上的音频信号。

音频设备102还可以被配置来实现一个或多个表述检测器或语音辨识组件122，所述一个或多个表述检测器或语音辨识组件122可用于检测由麦克风110捕获的语音中的触发表述。术语“触发表述”在本文中用于指示用于发信号通知音频设备102随后的用户语音是用户意图被解释为命令的单词、短语或其他话语。

还可以使用一个或多个语音辨识组件122来检测由麦克风110捕获的语音中的命令或命令表述。术语“命令表述”在本文中用于指示对应于将由音频设备102或由音频设备102可访问的服务或其他设备(诸如语音命令服务108)执行的功能或与所述功能相关联的单词、短语或其他话语。例如，单词“停止”、“暂停”、“中止”可用作命令表述。“停止”和“暂停”命令表述可指示应中断媒体回放活动。“中止”命令表述可指示当前的人与人之间的通信应终止。也可使用对应于不同功能的其他命令表述。命令表述可包括对话型指示，诸如“找到附近的意大利餐馆”。

命令表述可包括将由音频设备102在不依赖语音命令服务108的情况下进行解释的本地命令表述。一般来说，本地命令表述是相对短的表述，诸如单个单词或短的短语，其可容易地被音频设备102检测到。本地命令表述可对应于期望相对低的响应等待时间的设备功能，诸如媒体控制或媒体回放控制功能。语音命令服务108的服务可用于可接受较大响应等待时间的其他命令表述。将由语音命令服务实施的命令表述在本文中将被称为远程命令表述。

在一些情况下，语音辨识组件122可使用自动语音辨识(ASR)技术来实现。例如，可使用大词汇量语音辨识技术来进行关键字检测，并且可监测语音辨识的输出以发现关键字的出现。举例来说，语音辨识可使用隐马尔可夫模型和高斯混合模型来辨识话音输入并提供对应于所述话音输入的连续单词流。随后，可监测单词流以检测一个或多个指定的单词或表述。

作为替代方案，语音辨识组件122可通过一个或多个关键字测位仪来实现。关键字测位仪是功能组件或算法，其评估音频信号以检测音频信号中一个或多个预定义的单词或表述的存在。一般来说，关键字测位仪使用简化的ASR技术来检测特定单词或有限数量的单词而不是试图辨识大词汇量。例如，当在话音信号中检测到指定单词时，关键字测位仪可提供通知而不是提供文本或基于单词的输出。使用这些技术的关键字测位仪可基于隐马尔可夫模型(HMM)对不同单词进行比较，所述隐马尔可夫模型将单词表示为状态系列。一般来说，通过将话语模型与关键字模型并与背景模型进行比较来对话语进行分析。将话语的模型与关键字模型进行比较得出表示话语对应于关键字的可能性的得分。将话语的模型与背景模型进行比较得出表示话语对应于除关键字之外的普通词的可能性的得分。可将两个得分进行比较以确定是否说出了关键字。

音频设备102还可包括在本文中被称为控制器或控制逻辑的控制功能124，所述控制功能124被配置来与音频设备102的其他组件进行交互以便实现音频设备102的逻辑功能。

控制逻辑124、音频处理组件120、语音辨识组件122和功能组件118可包括存储在存储器116中并且由处理器114执行的可执行指令、程序和/或或程序模块。

语音命令服务108在一些情况下可以是网络可访问计算平台的一部分，所述网络可访问计算平台通过网络126(诸如互联网)进行维护并且可访问。这样的网络可访问计算平台可以使用术语诸如“按需计算”、“软件即服务(SaaS)”、“平台计算”、“网络可访问平台”、“云服务”、“数据中心”等来指代。

音频设备102和/或语音命令服务108可通过有线技术(例如，电线、通用串行总线(USB)、光纤电缆等)、无线技术(例如，射频(RF)、蜂窝、移动电话网络、卫星、蓝牙等)或其他连接技术通信地耦接到网络126。网络126代表任何类型的通信网络，包括数据和/或话音网络，并且可使用有线基础设施(例如，同轴电缆、光纤电缆等)、无线基础设施(例如，RF、蜂窝、微波、卫星、等)和/或其他连接技术来实现。

尽管音频设备102在本文中被描述为话音控制的或基于语音的接口设备，但本文所述的技术可结合各种不同类型的设备来实现，诸如电信设备和组件、免提设备、娱乐设备、媒体回放设备等。

语音命令服务108通常提供用于以下的功能：接收来自音频设备102的音频流、辨识音频流中的语音、根据所辨识的语音确定用户意图、以及响应于用户意图执行动作或服务。所提供的动作在一些情况下可结合音频设备102来执行，并且在这些情况下语音命令服务108可向音频设备102返回指示将由音频设备102执行的命令的响应。

语音命令服务108包括操作逻辑，在许多情况下所述操作逻辑可包括一个或多个服务器、计算机和或处理器128。语音命令服务108也可具有包含呈指令形式的应用和程序的存储器130，处理器128执行指令以便执行实现语音命令服务的期望功能(包括本文明确描述的功能)的操作或动作。存储器130可以是一类计算机存储介质并且可包括易失性和非易失性存储器。因此，存储器130可包括但不限于RAM、ROM、EEPROM、快闪存储器或其他存储器技术。

在未明确示出的其他逻辑和物理组件之中，语音命令服务108可包括语音辨识组件132。语音辨识组件132可包括辨识音频信号中的人类语音的自动语音辨识(ASR)功能。

语音命令服务108还可包括基于所辨识的语音确定用户意图的自然语言理解组件(NLU)134。

语音命令服务108还可包括确定对应于用户意图的功能或命令的命令解释器和动作分配器136(以下简称为命令解释器136)。在一些情况下，命令可对应于至少部分地将由音频设备102执行的功能，并且在这些情况下命令解释器136可向音频设备102提供指示用于实现此类功能的命令的响应。可由音频设备响应于来自命令解释器136的指示而执行的命令或功能的实例可包括播放音乐或其他媒体、增大/减小扬声器112的音量、通过扬声器112生成可听的语音、启动与类似设备的用户进行的某些类型的通信等。

应注意，语音命令服务108还可响应于从所接收的音频辨识出的语音来执行涉及图1中未示出的实体或设备的功能。例如，语音命令服务108可与其他基于网络的服务进行交互以便代表用户106获取信息或服务。此外，语音命令服务108本身可具有能够对用户106发出的语音做出响应的各种元件和功能。

在操作中，音频设备102的麦克风110捕获或接收包含用户106的语音的音频。音频由音频处理组件120进行处理并且处理过的音频由语音辨识组件122接收。语音辨识组件122分析所述音频以检测音频所包含的语音中触发表述的出现。当检测到触发表述时，控制器124开始将所接收的音频连同对语音命令服务108的请求发送或流式传输到语音命令服务108，以辨识和解释用户语音并且启动对应于任何所解释的意图的功能。

与将音频发送到语音命令服务108同步的是，语音辨识组件122继续分析所接收的音频以检测用户语音中本地命令表述的出现。当检测到本地命令表述时，控制器124启动或执行对应于所述本地命令表述的设备功能。例如，响应于本地命令表述“停止”，控制器124可启动停止媒体回放的功能。在启动或执行功能时，控制器124可与功能组件118中的一个或多个进行交互。

同时，响应于接收到音频，语音命令服务108同步对所述音频进行分析以辨识语音，确定用户意图，并且响应于用户意图确定将要实现的服务识别的功能。然而，在本地检测和实施本地命令表述之后，音频设备102可采取行动以取消、废除最终可由语音命令服务108启动的任何服务识别的功能或使其无效。例如，音频设备102可通过向语音命令服务108发送取消消息和/或通过停止向语音命令服务108流式传输音频来取消其先前请求。作为另一个实例，音频设备可忽略或放弃响应于早期请求而从语音命令服务108接收到的任何响应或服务识别的命令。在一些情况下，音频设备可通知语音命令服务108响应于本地命令表述已在本地执行的动作，并且语音命令服务108可基于这个信息修改其随后的行为。例如，语音命令服务108可放弃否则可能已响应于在所接收音频中辨识的语音而执行的动作。

图2示出示例性方法200，所述方法200可由音频设备102与语音命令服务108结合来执行以便辨识用户语音并对其做出响应。将在图1的***100的上下文中描述方法200，尽管方法200也可以在其他环境中执行并且可以不同的方式实现。

在图2的左侧的动作是在本地音频设备102处执行或由其执行。在图2的右侧的动作是在远程语音命令服务108处执行或由其执行。

动作202包括接收已由麦克风110或结合所述麦克风110捕获的音频信号。音频信号包含或表示来自环境104的音频，并且可包含用户语音。音频信号可以是模拟电信号或者可包括数字信号，诸如数字音频流。

动作204包括检测所接收的音频和/或用户语音中触发表述的出现。这个动作可由如上所述的语音辨识组件122来执行，所述语音辨识组件122在一些实施方案中可包括关键字测位仪。如果未检测到触发表述，那么重复动作204以便连续监测触发表述的出现。图2中所示的其余动作是响应于检测到触发表述执行的。

如果在动作204中检测到触发表述，那么执行动作206，包括随后向语音命令服务108发送所接收的音频以及对语音命令服务108的服务请求208，以便辨识音频中的语音并且实现对应于所辨识的语音的功能。由语音命令服务108以这种方式启动的功能在本文中被称为服务识别的功能，并且在某些情况下可与音频设备102结合来执行。例如，可通过向音频设备102发送命令来启动功能。

所述发送206可包括在检测到触发表述之后，将表示或包含从麦克风110接收到的音频的数字音频流210流式传输或以其他方式传输到语音命令服务108。在某些实施方案中，动作206可包括打开或启动音频设备102与语音命令服务108之间的通信会话。具体地说，可以使用请求208来建立与语音命令服务108的通信会话，以便辨识语音、理解意图并且响应于用户语音确定将要执行的动作或功能。请求208可跟随有或伴随有流式音频210。在一些情况下，提供给语音命令服务108的音频流210可包括就在说出触发表述之前的时间开始的所接收的音频的多个部分。

通信会话可与通信或会话标识符(ID)相关联，所述通信或会话ID标识在音频设备102与语音命令服务108之间建立的通信会话。会话ID可以在与特定用户话语或音频流相关的未来通信中使用或包括在其中。在一些情况下，会话ID可以由音频设备102生成并且在请求208中被提供给语音命令服务108。作为替代方案，会话ID可以由语音命令服务108生成并且由语音命令服务108提供在对请求208的确认中。术语“请求(ID)”在本文中用于指示具有特定会话ID的请求。来自语音命令服务108的与同一个会话、请求或音频流相关的响应可由术语“响应(ID)”指示。

在某些实施方案中，每个通信会话和对应的会话ID可对应于单个用户话语。例如，音频设备102可在检测到触发表述时建立会话。音频设备102随后可继续将音频流式传输到语音命令服务108作为同一个会话的一部分，直到用户话语结束。语音命令服务108可通过会话使用相同的会话ID向音频设备102提供响应。响应在一些情况下可指示将由音频设备102响应于由语音命令服务108在所接收的音频210中辨识的语音而执行的命令。通信会话可保持打开直到音频设备102接收到来自语音命令服务108的响应或直到音频设备102取消请求。

在动作212中，语音命令服务108接收请求208和音频流210。作为响应，语音命令服务108执行动作214：使用语音命令服务108的语音辨识和自然语言理解组件132和134，辨识所接收的音频中的语音并且确定如由所辨识的语音表达的用户意图。由命令解释器136执行的动作214包括识别和启动服务识别的功能以履行所确定的用户意图。服务识别的功能在一些情况下可由语音命令服务108独立于音频设备102执行。在其他情况下，语音命令服务108可识别将由音频设备102执行的功能，并且可向音频设备102发送以供音频设备102执行的对应命令。

与由语音命令服务108执行的动作同步的是，本地音频设备102执行其他动作以便确定用户是否说出本地命令表述并且响应于任何这种说出的本地命令表述而执行对应的本地功能。具体地说，响应于在动作204中检测到触发表述而执行的动作218包括分析在动作202中接收到的音频以检测所接收语音中的在触发表述之后或紧接其后的本地命令表述的出现。这个动作可由如上所述的音频设备102的语音辨识组件122来执行，所述语音辨识组件122在一些实施方案中可包括关键字测位仪。

响应于在动作218中检测到本地命令表述，执行立即启动已与本地命令表述相关联的设备功能的动作220。例如，本地命令表述“停止”可与停止媒体回放的功能相关联。

另外，响应于在动作218中检测到本地命令表述，音频设备102执行停止或取消对语音命令服务108的请求208的动作222。这个动作可包括取消或废除服务识别的功能的实现，所述服务识别的功能否则可能已由语音命令服务108响应于所接收的请求208和随附的音频210而实现。

在某些实现方式中，动作222可包括向语音命令服务108发送明确通知或命令，请求语音命令服务108取消关于服务请求208的任何其他辨识活动和/或取消否则可能已响应于所辨识的语音而启动的任何服务识别的功能的实现。作为替代方案，音频设备102可简单地通知语音命令服务108关于已响应于本地命令表述的本地辨识而在本地执行的任何功能，并且语音命令服务108可通过取消服务请求208或通过执行其他动作(视情况而定)来做出响应。

在某些实现方式中，语音命令服务108可通过识别将由音频设备102执行的命令来实现服务识别的功能。响应于接收到服务请求208将要取消的通知，语音命令服务108可放弃向音频设备102发送命令。作为替代方案，可允许语音命令服务完成其处理并且向音频设备102发送命令，届时音频设备102可忽略所述命令或放弃执行所述命令。

在一些实现方式中，语音命令服务可被配置来在启动服务识别的功能之前通知音频设备102，并且可延迟所述服务识别的功能的实现直到从音频设备102接收到许可。在这种情况下，音频设备102可被配置来当已在本地辨识出本地命令表述时拒绝这种许可。

以上描述的各种方法可以在需要不同的命令等待时间量的情况下使用。例如，等待来自语音命令服务的通信可引入相对较高的等待时间，这在一些情况下可能是不可接受的。在实现功能之前的此类通信可防止重复或非预期的动作。立即实现本地辨识的命令表述以及忽略随后来自语音命令服务的命令或随后取消对语音命令服务的请求可能更适合于期望较低等待时间的情况。

应注意，图2中所示的语音命令服务108的动作与音频设备102的动作218、220和222并行且异步地执行。在一些实现方式中，假设音频设备102能够相对快速地检测到并实施本地命令表述，以使得它可执行动作222：在动作216的服务识别的功能已完成或执行之前取消请求208以及将由语音命令服务108执行的随后的处理。

图3示出示例性方法300，其中语音命令服务108向音频设备102返回命令，并且其中音频设备102被配置成在本地命令表述已由音频设备102检测到并实施的情况下忽略所述命令或放弃执行所述命令。初始动作与以上描述的那些类似或相同。由音频设备102执行的动作在左侧示出并且由语音命令服务108执行的动作在右侧示出。

动作302包括接收包含用户语音的音频信号。动作304包括分析音频信号以检测用户语音中的触发表述。图3中所示的随后的动作是响应于检测到触发表述执行的。

动作306包括向语音命令服务108发送请求308和音频310。动作312包括在语音命令服务108处接收请求308和音频310。动作314包括辨识用户语音以及基于所辨识的用户语音确定用户意图。

响应于所确定的用户意图，语音命令服务108执行动作316：向音频设备102发送命令318，所述命令318用于由音频设备102执行来实现对应于所辨识的用户意图的服务识别的功能。例如，命令可包括“停止”命令，其指示音频设备102应停止音乐的回放。

由音频设备102执行的动作320包括接收和执行命令。动作320在虚线框中示出，用于指示它是基于音频设备102是否检测到并实施本地命令表述而有条件地执行的。具体地说，如果音频设备102已检测到本地命令表述，那么不执行动作320。

与由语音命令服务108执行的动作同步的是，音频设备102执行动作322：分析所接收的音频以检测所接收用户语音中的在触发表述之后或紧接其后的本地命令表述的出现。响应于检测到本地命令表述，执行立即启动已与本地命令表述相关联的本地设备功能的动作324。

另外，响应于在动作322中检测到本地命令表述，音频设备102执行放弃执行所接收的命令318的动作326。更具体地说，放弃或忽略响应于请求308而从语音命令服务108接收到的任何命令。对应于请求308的响应和命令可由与响应相关联的会话ID来标识。

如果在动作322中未检测到本地命令表述，那么音频设备执行动作320：执行从语音命令服务108接收到的命令318。

图4示出示例性方法400，其中音频设备102被配置来在于本地检测到本地命令表述之后主动取消对语音命令服务108的请求。初始动作与以上描述的那些类似或相同。由音频设备102执行的动作在左侧示出并且由语音命令服务108执行的动作在右侧示出。

动作402包括接收包含用户语音的音频信号。动作404包括分析音频信号以检测用户语音中的触发表述。图4中所示的随后的动作是响应于检测到触发表述执行的。

动作406包括向语音命令服务108发送请求408和音频410。动作412包括在语音命令服务108处接收请求408和音频410。动作414包括辨识用户语音以及基于所辨识的用户语音确定用户意图。

动作416包括确定请求408是否已被音频设备102取消。举例来说，音频设备102可发送取消消息或者可终止当前通信会话以便取消请求。如果请求已被音频设备102取消，那么语音命令服务不再采取进一步的行动。如果请求尚未被取消，那么执行动作418，所述动作418包括：向音频设备102发送命令420，所述命令420用于由音频设备102执行来实现对应于所辨识的用户意图的服务识别的功能。

由音频设备102执行的动作422包括接收和执行命令。动作422在虚线框中示出，用于指示它是取决于语音命令服务108是否已发送并接收到命令、继而取决于音频设备102是否已取消请求408而有条件地执行的。

与由语音命令服务108执行的动作同步的是，音频设备102执行动作424：分析所接收的音频以检测所接收用户语音中的在触发表述之后或紧接其后的本地命令表述的出现。响应于检测到本地命令表述，执行立即启动已与本地命令表述相关联的本地设备功能的动作426。

另外，响应于在动作424中检测到本地命令表述，音频设备102执行动作428：请求语音命令服务108取消请求408和/或取消任何服务识别的功能的实现，所述服务识别的功能否则可能已响应于由语音命令服务108从音频设备102接收到的音频中的所辨识的语音而执行。这个动作可包括与语音命令服务108进行通信，诸如通过发送取消通知或请求。

在一些情况下，取消可包括对来自语音命令服务108的通信或通知做出由所述语音命令服务进行的服务识别的功能的待定实现的应答。响应于接收到这种通知，音频设备102可做出应答并且可请求取消所述待定实现。作为替代方案，音频设备102可取消否则可能已响应于检测到本地命令表述而执行的任何功能的实现，并且可指示语音命令服务108继续进行待定功能的实现。

如果在动作424中未检测到本地命令表述，那么音频设备102执行动作422：执行从语音命令服务108接收到的命令420。当接收到来自语音命令服务的命令420时，动作422可异步地发生。

以上描述的实施方案可以编程的方式实现，诸如利用计算机、处理器、数字信号处理器、模拟处理器等。然而，在其他实施方案中，组件、功能或元件中的一个或多个可使用专门或专用电路来实现，包括模拟电路和/或数字逻辑电路。如本文所用，术语“组件”旨在包括用于实现归属于组件的功能的任何硬件、软件、逻辑或前述各项的组合。

尽管已用特定于结构特征的语言描述了主题，但是应当理解，所附权利要求中定义的主题不必限于所述的具体特征。实际上，具体特征作为实施权利要求的说明性形式来公开。

条款：

1.一种或多种存储计算机可执行指令的非暂时性计算机可读介质，所述指令在被执行时，使得一个或多个处理器执行包括以下的动作：

接收包含用户语音的音频；

检测所述用户语音中的触发表述；

响应于检测到所述用户语音中的所述触发表述：

将所接收的音频流式传输到远程语音命令服务；以及

分析所接收的音频以检测所述用户语音中的所述触发表述之后的本地命令表述，其中所述本地命令表述与设备功能相关联；

响应于检测到所述用户语音中的所述触发表述之后的所述本地命令表述而启动所述设备功能；

接收来自所述远程语音命令服务的响应，其中所述响应指示响应于由所述远程语音命令服务在所述流式音频中辨识的语音而将要执行的命令；

如果未检测到所述用户语音中的所述触发表述之后的所述本地命令表述，则执行由所述响应指示的所述命令；以及

如果检测到所述用户语音中的所述触发表述之后的所述本地命令表述，则放弃执行由所述响应指示的所述命令。

2.如条款1所述的一种或多种计算机可读介质，其中所述流式传输与通信标识符相关联并且其中所述响应指示所述通信标识符。

3.如条款1所述的一种或多种计算机可读介质，其中所述设备功能包括媒体控制功能。

4.如条款1所述的一种或多种计算机可读介质，所述动作还包括响应于检测到所述命令表述而停止所接收音频的所述流式传输。

5.一种方法，其包括：

接收包含用户语音的音频；

检测所述用户语音中的触发表述；

响应于检测到所述用户语音中的所述触发表述：

向语音命令服务发送所接收的音频以辨识所接收的音频中的语音并且实现对应于所辨识的语音的第一功能；以及

分析所接收的音频以检测所接收音频中的所述触发表述之后的本地命令表述，其中所述本地命令表述与第二功能相关联；

响应于检测到所接收音频中的所述触发表述之后的所述本地命令表述：

启动所述第二功能；以及

取消所述第一功能的实现。

6.如条款5所述的方法，其中取消所述第一功能的实现包括请求所述语音命令服务来取消所述第一功能的实现。

7.如条款5所述的方法，其还包括从所述语音命令服务接收指示所述第一功能的待定实现的通信；

其中取消所述第一功能的实现包括请求所述语音命令服务来取消所述第一功能的待定实现。

8.如条款5所述的方法，其还包括从所述语音命令服务接收对应于所述第一功能的命令，其中取消所述第一功能的实现包括放弃执行从所述语音命令服务接收到的所述命令。

9.如条款5所述的方法，其还包括通知所述语音命令服务所述第二功能已启动。

10.如条款5所述的方法，其中取消所述第一功能的实现包括通知所述语音命令服务所述第二功能已启动。

11.如条款5所述的方法，其中所述第二功能包括媒体控制功能。

12.如条款5所述的方法，其还包括：

响应于检测到所述音频中的所述触发表述而建立与所述语音命令服务的通信会话；以及

其中取消所述第一功能的实现包括终止所述通信会话。

13.如条款5所述的方法，其还包括：

使标识符与所接收的音频相关联；

接收来自所述语音命令服务的响应，其中所述响应指示所述标识符和对应于所述第一功能的命令；以及

其中取消所述第一功能的实现包括放弃执行所述命令。

14.一种***，其包括：

一个或多个语音辨识组件，所述一个或多个语音辨识组件被配置来辨识所接收音频中的用户语音、检测所述用户语音中的触发表述并且检测所述用户语音中的本地命令表述；

控制逻辑，所述控制逻辑被配置来响应于所述一个或多个语音辨识组件检测到所述用户语音中的所述触发表述而执行动作，所述动作包括：

向语音命令服务发送所述音频以辨识所述音频中的语音并且实现对应于所辨识的语音的第一功能；以及

响应于所述一个或多个语音辨识组件检测到所述用户语音中的所述本地命令表述：(a)识别对应于所述本地命令表述的第二功能以及(b)取消所述第一功能和所述第二功能中至少一个的实现。

15.如条款14所述的***，其中所述一个或多个语音辨识组件包括一个或多个关键字测位仪。

16.如条款14所述的***，其中取消所述第一功能和所述第二功能中至少一个的实现包括请求所述语音命令服务来取消所述第一功能的实现。

17.如条款14所述的***，其中取消所述第一功能和所述第二功能中至少一个的实现包括忽略从所述语音命令服务接收到的命令。

18.如条款14所述的***，其中所述第二功能包括媒体控制功能。

19.如条款14所述的***，所述动作还包括响应于检测到所述用户语音中的所述本地命令表述而停止所述音频的所述发送。

20.如条款14所述的***，其中取消所述第一功能和所述第二功能中至少一个的实现包括通知所述语音命令服务所述第二功能已启动。

Claims

1.一种存储计算机可执行指令的设备，所述指令在被执行时，使得所述设备的一个或多个处理器执行包括以下的动作：

接收包含用户语音的音频；

检测所述用户语音中的触发表述；

响应于检测到所述用户语音中的所述触发表述：

将所接收的音频流式传输到远程语音命令服务；以及

2.如权利要求1所述的设备，其中所述流式传输与通信标识符相关联并且其中所述响应指示所述通信标识符。

3.如权利要求1所述的设备，其中所述设备功能包括媒体控制功能。

4.如权利要求1所述的设备，所述动作还包括响应于检测到所述命令表述而停止所接收音频的所述流式传输。

5.一种方法，其包括：

接收包含用户语音的音频；

检测所述用户语音中的触发表述；

响应于检测到所述用户语音中的所述触发表述：

启动所述第二功能；以及

取消所述第一功能的实现。

6.如权利要求5所述的方法，其中取消所述第一功能的实现包括请求所述语音命令服务来取消所述第一功能的实现。

7.如权利要求5所述的方法，其还包括从所述语音命令服务接收指示所述第一功能的待定实现的通信；

其中取消所述第一功能的实现包括请求所述语音命令服务来取消所述第一功能的所述待定实现。

8.如权利要求5所述的方法，其还包括从所述语音命令服务接收对应于所述第一功能的命令，其中取消所述第一功能的实现包括放弃执行从所述语音命令服务接收到的所述命令。

9.如权利要求5所述的方法，其还包括通知所述语音命令服务所述第二功能已启动。

10.如权利要求5所述的方法，其还包括：

使标识符与所接收的音频相关联；

其中取消所述第一功能的实现包括放弃执行所述命令。

11.一种***，其包括：

12.如权利要求11所述的***，其中取消所述第一功能和所述第二功能中所述至少一个的实现包括请求所述语音命令服务来取消所述第一功能的实现。

13.如权利要求11所述的***，其中取消所述第一功能和所述第二功能中所述至少一个的实现包括忽略从所述语音命令服务接收到的命令。

14.如权利要求11所述的***，所述动作还包括响应于检测到所述用户语音中的所述本地命令表述而停止所述音频的所述发送。

15.如权利要求11所述的***，其中取消所述第一功能和所述第二功能中所述至少一个的实现包括通知所述语音命令服务所述第二功能已启动。