CN110073326A

CN110073326A - 基于仲裁的语音识别

Info

Publication number: CN110073326A
Application number: CN201780077204.7A
Authority: CN
Inventors: 史蒂芬·贝克哈德; 特德·林
Original assignee: Sonos Inc
Current assignee: Sonos Inc
Priority date: 2016-10-19
Filing date: 2017-10-18
Publication date: 2019-07-30
Anticipated expiration: 2037-10-18
Also published as: US20180108351A1; EP4235650A3; US20220351725A1; WO2018075660A1; US20200234708A1; JP2020502555A; EP4235650A2; US11727933B2; EP3529692B1; US20190074008A1; EP3529692A1; JP6884245B2; US20240079006A1; CN110073326B; JP6668555B2; US10181323B2; US10614807B2; US11308961B2; JP7108084B2; JP2020098364A

Abstract

检测第一语音输入，并确定与第一语音输入相关联的第一置信度。接收消息，该消息包括与网络设备检测到第一语音输入相关联的第二置信度。确定第一置信度是否大于第二置信度。基于确定第一置信度大于第二置信度，将第二语音输入发送给服务器。

Description

基于仲裁的语音识别

相关申请的交叉引用

本申请要求2016年10月19日提交的标题为“基于仲裁的语音识别(Arbitration-Based Voice Recognition)”的美国专利申请第15/297,627号的优先权，其内容整体以引用方式并入本文中用于所有目的。

技术领域

本发明涉及消费品，并且更具体地，涉及针对媒体播放或其一些方面的方法、***、产品、特征、服务和其他元素。

背景技术

在大声的环境中访问和收听数字音频的选项有限，直到2003年SONOS公司提交其首批专利申请中标题为“多个联网设备之间同步音频播放的方法(Method forSynchronizing Audio Playback between Multiple Networked Devices)”的一个申请，并开始提供2005年出售的媒体播放***。Sonos无线高保真***使人们可以经由一个或多个联网播放设备体验来自多个来源的音乐。通过安装在智能手机、平板电脑或计算机上的软件控制应用，可以在任何具有联网播放设备的房间中播放他或她想要的内容。另外，例如使用控制器，可以使用播放设备将不同的歌曲流式传输到每个房间，可以将房间组合在一起以进行同步播放，或者可以在所有房间中同步地收听相同的歌曲。

鉴于对数字媒体的兴趣日益增长，仍然需要开发消费者可访问的技术以进一步增强收听体验。

发明内容

附图说明

关于以下具体实施方式、所附权利要求和附图，可以更好地理解本发明技术的特征、方面和优点，其中：

图1示出了可以实践某些实施例的示例媒体播放***配置；

图2示出了示例播放设备的功能框图；

图3示出了示例控制设备的功能框图；

图4示出了示例控制器接口；

图5示出了多个示例网络设备；

图6示出了示例网络麦克风设备的功能框图；

图7示出了与网络麦克风设备之间的仲裁相关联的功能的简化流程图；

图8示出了示例仲裁消息；

图9示出了根据第一实施例的与网络麦克风设备之间的仲裁相关联的功能的详细流程图；

图10示出了根据第二实施例的与网络麦克风设备之间的仲裁相关联的功能的详细流程图；

图11示出了仲裁功能的流程图；以及

图12示出了与网络麦克风设备和服务器之间的语音识别相关联的流程图。

附图是为了说明示例实施例的目的，但是应该理解，本发明不限于附图中所示的布置和工具。

具体实施方式

I.概述

收听大声媒体内容是涉及家人、朋友和客人的社交活动。媒体内容可以包括例如谈话电台、书籍、来自电视的音频、存储在本地驱动器上的音乐、来自媒体源的音乐(例如，Radio、 Radio、Google Play^TM、iTunes Radio)和其他声音材料。例如，人们可以在聚会和其他社交聚会上大声播放音乐。此外，音乐可以同时在一个收听区或多个收听区中播放，使得每个收听区中的音乐可以同步，而没有可听见的回声或瑕疵。

当语音输入用于控制音频播放设备或***以及其他设备(例如，灯)时，可以丰富音乐体验。例如，用户可能希望更改正在播放的音频内容、播放列表、播放队列或收听区，将音乐曲目添加到播放列表或播放队列，或者更改播放设置(例如，播放、暂停、下一曲目、上一曲目、播放音量和EQ设置等)。用户可以提供与音频播放设备以及其他设备的控制相关联的语音输入，语音输入由联网麦克风设备(NMD)接收。NMD可以包括用于检测语音输入的麦克风。NMD可以是例如能够经由麦克风接收语音输入以控制音频播放设备或***以及其他设备的播放设备、服务器或***。另外或替代地，NMD可以是例如能够经由麦克风接收语音输入以控制音频播放设备或***以及其他设备的设备、服务器或***。标题为“默认播放设备指定(Default Playback Device Designation)”的美国申请第15/098,867号提供了支持语音的家庭体系结构的示例，其内容以引用方式并入本文中。

来自用户的语音输入可以由唤醒字后跟语音命令组成。唤醒字可以向NMD指示后跟呈语音命令形式的语音输入。唤醒字可以是口头语音输入，诸如“Alexa”、“OK Google”、“Hey Sonos”或“Hey Siri”以及其他示例。语音命令可以是口头语音输入，其向NMD指示请求***体播放设备或***以及其他设备。示例语音命令可以包括用于修改任何媒体播放播放设置的命令，诸如播放音量、播放传输控制、音乐源选择和分组以及其它可能性。或者，语音命令可以是请求诸如“音量设置是多少？”或“播放列表中有哪些歌曲？”之类的信息的口头语音输入。收听范围内的多个NMD可以检测唤醒字并接收跟随唤醒字的语音命令。

本文描述的实施例涉及用于仲裁多个NMD中哪个NMD可以向基于云的计算设备(例如，服务器)发送语音输入(例如，语音命令或唤醒字和语音命令)的方法和***。NMD可以将语音输入发送给基于云的计算设备，使得基于云的计算设备可以对语音输入执行语音识别。语音识别允许识别所请求的控制或信息。例如，仲裁过程避免让多个NMD向基于云的计算设备发送相同的语音命令，从而避免可能浪费的带宽，而该带宽可用于其他活动，诸如播放音乐。

仲裁过程可以从NMD检测到唤醒字开始。NMD可以识别唤醒字，例如，唤醒字是“Alexa”、“OK Google”、“Hey Sonos”还是“Hey Siri”，并且还确定与检测到唤醒字的程度相关联的置信度。当检测到唤醒字时，NMD还可以播放音频内容。在这种情况下，NMD还可以调整NMD正在播放的音频，以便可以通过正在播放的音频清楚地接收跟随唤醒字的语音命令。可以以各种方式调整音频，包括暂停正在播放的音频或者调低正在播放的音频的音量。

在一些实施例中，NMD可以定义指示NMD在确定是否将语音命令发送给基于云的计算设备之前可以等待多久的时间间隔。时间间隔可以是静态参数或动态参数。可以选择时间间隔以平衡提供足够的时间来完成下面更详细描述的仲裁和解决延迟问题的需要。

在一些实施例中，NMD可以生成在本文也称为仲裁消息的消息，该消息被发送给例如家庭中的其他NMD。仲裁消息可以包括由NMD接收的唤醒字的标识符中的一个或多个，检测到唤醒字的程度的置信度以及时间间隔。检测到唤醒字的其他NMD中的每一个可以将与检测到的唤醒字相关联的类似仲裁消息发送给其他NMD。

如果NMD从另一NMD接收到仲裁消息，则NMD可以确定它是否赢得与另一NMD的仲裁。如果如由接收到的仲裁消息指示，由NMD检测到的唤醒字的置信度大于由其他NMD检测到的置信度，则NMD可以赢得仲裁。具有与检测到的唤醒字相关联的更大置信度的NMD可以处于更好的位置以清楚地接收跟随唤醒字的语音命令。

如果NMD输掉仲裁，则NMD可以恢复NMD正在播放的音频。例如，NMD可以取消降低音频音量或取消暂停音频。或者，可以不调整音频，直到音频接到赢得仲裁的NMD，与NMD的绑定区域中的另一NMD或基于云的计算设备的通知。

如果NMD建立时间间隔，则NMD可以从其他NMD接收附加仲裁消息，直到该时间间隔到期为止。NMD可以对这些附加仲裁消息执行仲裁。如果NMD继续赢得仲裁，则NMD可以在时间间隔到期时将所接收的语音命令发送给基于云的计算设备。基于云的计算设备可以对语音命令执行语音识别。例如，基于云的计算设备可以将语音命令转换为文本，解释文本，然后基于文本来制定响应。如果语音命令是对信息的请求，则响应可以是以文本形式发送给NMD的请求的信息，并且转换为由NMD可听地播放的语音响应。另外或替代地，如果语音命令与媒体播放***或设备的控制相关联，则响应可以是与媒体播放设备或***的控制相关联的命令，诸如播放某些音乐内容或更改播放设备的设置。服务器可以将命令发送给NMD，并且NMD可以执行命令或指示另一网络设备执行该命令。

在一些实施例中，仲裁可以由集中式设备执行，而不是在每个NMD处本地执行。集中式设备可以是局域网上指定的NMD或其他网络设备。集中式设备可以被布置为确定检测到唤醒字的一个或多个NMD中哪个NMD应该将跟随唤醒字的语音命令发送给基于云的计算设备。就此而言，集中式设备可以从一个或多个NMD接收仲裁消息，并且基于与仲裁消息相关联的置信度来识别哪个NMD应该将其接收到的语音命令发送给基于云的计算设备。例如，集中式设备可以确定哪个NMD检测到具有最大置信度的唤醒字。然后，集中式设备可以使所识别的NMD将其接收到的语音命令发送给基于云的计算设备。

从以上说明继续，示例实施例包括第一网络设备，该第一网络设备包括处理器；存储器；以及计算机指令，该计算机指令存储在存储器中并且可由处理器执行以使处理器：检测第一语音输入；确定与第一语音输入相关联的第一置信度；接收消息，其中该消息包括与由第二网络设备检测到的第一语音输入相关联的第二置信度；确定第一置信度是否大于第二置信度；并且基于确定第一置信度大于第二置信度，将第二语音输入发送给服务器。第一网络设备还可以包括用于响应于检测到第一语音输入而调整音频播放音量的计算机指令。第一网络设备还可以包括用于确定音频播放是音乐播放的计算机指令，并且其中响应于检测到第一语音输入而调整音频播放的音量包括调低音乐播放的音量。第一网络设备还可以包括用于确定音频播放是音频书的播放的计算机指令，并且其中响应于检测到第一语音输入而调整音频播放的音量包括暂停音频书的播放。第一网络设备还可以包括用于在调整之前接收将音频播放的音量返回到音量设置的通知的计算机指令。该消息可以是第一消息。第一网络设备还可以包括用于将第二消息发送给第二网络设备的计算机指令，该第二消息包括与检测到的第一语音输入相关联的第一置信度。第一网络设备还可以包括用于在将第二语音输入发送给服务器之前等待计时器到期的计算机指令。响应可以是语音响应。第一网络设备还可以包括用于可听地播放语音响应的计算机指令。第一语音输入可以是唤醒字，而第二语音输入可以是语音命令。第一语音输入可以与第二语音输入相同。

另一示例实施例可以包括一种方法，包括：检测第一语音输入；确定与第一语音输入相关联的第一置信度；接收消息，其中该消息包括与由网络设备检测到的第一语音输入相关联的第二置信度；确定第一置信度是否大于第二置信度；并且基于确定第一置信度大于第二置信度，将第二语音输入发送给服务器。该方法还可以包括响应于检测到语音输入而调整音频播放的音量。该方法还可以包括确定音频播放是音乐播放，并且其中响应于检测到语音输入而调整音频播放的音量包括调低音乐播放的音量。该方法还可以包括确定音频播放是音频书的播放，并且其中响应于检测到语音输入而调整音频播放的音量包括暂停播放音频书。该方法还可以包括在调整之前接收将音频播放的音量返回到音量设置的通知。该方法还可以包括在将第二语音输入发送给服务器之前等待计时器到期。该方法还可以包括可听地播放语音响应。该消息可以是第一消息。该方法还可以包括将第二消息发送给网络设备，该第二消息包括与检测到的第一语音输入相关联的第一置信度。第一语音输入可以是唤醒字，而第二语音输入可以是语音命令。

又一示例实施例可以包括有形非暂时性计算机可读存储介质，其包括用于由处理器执行的指令，所述指令在被执行时使得处理器实现包括以下步骤的方法：检测第一语音输入；确定与第一语音输入相关联的第一置信度；接收消息，其中该消息包括与由网络设备检测到的第一语音输入相关联的第二置信度；确定第一置信度是否大于第二置信度；并且基于确定第一置信度大于第二置信度，将第二语音输入发送给服务器。

虽然本文描述的一些示例可以指代由诸如“用户”和/或其他实体的给定参与者执行的功能，但是应该理解，这仅用于解释的目的。除非权利要求本身的语言明确要求，否则不应将权利要求解释为要求任何此类示例行动者采取行动。本领域普通技术人员将理解，本发明包括许多其他实施例。此外，本文描述的示例可以扩展到通过以任何合适的方式组合示例特征而形成的多个实施例。

II.示例操作环境

图1示出了媒体播放***100的示例配置，其中可以实践或实现本文公开的一个或多个实施例。如图所示的媒体播放***100与具有若干房间和空间的示例家庭环境相关联，诸如例如主卧室、书房、餐厅和起居室。如图1的示例中所示，媒体播放***100包括播放设备102-124、控制设备126和128，以及有线或无线网络路由器130。

可以在以下部分中找到关于示例媒体播放***100的不同组件以及不同组件如何交互以向用户提供媒体体验的进一步讨论。虽然本文中的讨论通常可以指示例性媒体播放***100，但是本文描述的技术不限于如图1所示的家庭环境等内的应用。例如，本文描述的技术可用于其中可能需要多区域音频的环境，诸如例如餐馆、商场或机场之类的商业设施，如运动型多功能车(SUV)、公共汽车或汽车、船舶或船只、飞机等的运输工具。

a.示例播放设备

图2示出了示例播放设备200的功能框图，该示例播放设备可以被配置成图1的媒体播放***100的播放设备102-124中的一个或多个。播放设备200可以包括处理器202、软件组件204、存储器206、音频处理组件208、音频放大器210、扬声器212、包括无线接口216和有线接口218的网络接口214，以及麦克风220。在一种情况下，播放设备200可以不包括扬声器212，而是包括用于将播放设备200连接到外部扬声器的扬声器接口。在另一种情况下，播放设备200既不包括扬声器212也不包括音频放大器210，而是包括用于将播放设备200连接到外部音频放大器或视听接收器的音频接口。

在一个示例中，处理器202可以是时钟驱动的计算组件，其被配置成根据存储在存储器206中的指令来处理输入数据。存储器206可以是有形的计算机可读介质，其被配置成存储可由处理器202执行的指令。例如，存储器206可以是数据存储器，其可以加载有可由处理器202执行以实现某些功能的一个或多个软件组件204。在一个示例中，功能可以涉及播放设备200从音频源或另一播放设备检索音频数据。在另一示例中，功能可以涉及播放设备200将音频数据发送给网络上的另一设备或播放设备。在又一示例中，功能可以涉及将播放设备200与一个或多个播放设备配对以创建多声道音频环境。

某些功能可以涉及播放设备200使音频内容的播放与一个或多个其他播放设备同步。在同步播放期间，收听者将优选地不能感知由播放设备200和一个或多个其他播放设备播放音频内容之间的时间延迟差。标题为“用于在多个独立时钟数字数据处理设备之间同步操作的***和方法(System and method for synchronizing operations among aplurality of independently clocked digital data processing devices)”的美国专利第8,234,395号更详细地提供了一些用于播放设备之间的音频播放同步的示例，将其以引用方式并入本文中。

存储器206还可以被配置成存储与播放设备200相关联的数据，诸如播放设备200所属的一个或多个区域和/或区域组，播放设备200可访问的音频源，或播放设备200(或一些其他播放设备)可以与之相关联的播放队列。数据可以被存储为一个或多个状态变量，这些状态变量被周期性地更新并用于描述播放设备200的状态。存储器206还可以包括与媒体***的其他设备的状态相关联并且在设备中不时地共享的数据，使得一个或多个设备具有与***相关联的最新数据。其他实施例也是可能的。

音频处理组件208可以包括一个或多个数模转换器(DAC)、音频预处理组件、音频增强组件或数字信号处理器(DSP)等。在一个实施例中，音频处理组件208中的一个或多个可以是处理器202的子组件。在一个示例中，音频处理组件208可以处理和/或有意地更改音频内容以产生音频信号。然后可以将产生的音频信号提供给音频放大器210，以通过扬声器212进行放大和播放。具体地，音频放大器210可以包括被配置成将音频信号放大到用于驱动一个扬声器212的电平的设备。扬声器212可以包括单个换能器(例如，“驱动器”)或包括具有一个或多个驱动器的外壳的完整扬声器***。扬声器212的特定驱动器可以包括例如低音炮(例如，用于低频)、中档驱动器(例如，用于中频)和/或高音扬声器(例如，用于高频)。在一些情况下，一个或多个扬声器212中的每个换能器可以由音频放大器210中单独对应的音频放大器来驱动。除了产生用于由播放设备200播放的模拟信号之外，音频处理组件208可以被配置成处理要发送给一个或多个其他播放设备以进行播放的音频内容。

可以诸如经由音频线路输入连接(例如，自动检测3.5mm音频线路输入连接)或网络接口214从外部源接收要由播放设备200处理和/或播放的音频内容。

网络接口214可以被配置成利于播放设备200与数据网络上的一个或多个其他设备之间的数据流。这样，播放设备200可以被配置成通过数据网络从以下设备接收音频内容：与播放设备200通信的一个或多个其他播放设备、局域网内的网络设备或通过诸如互联网的广域网的音频内容源。在一个示例中，由播放设备200发送和接收的音频内容和其他信号可以以数字分组数据的形式进行传输，该数字分组数据包含基于互联网协议(IP)的源地址和基于IP的目的地地址。在这种情况下，网络接口214可以被配置成解析数字分组数据，使得目的地为播放设备200的数据被播放设备200正确地接收和处理。

如图所示，网络接口214可以包括无线接口216和有线接口218。无线接口216可以为播放设备200提供网络接口功能以根据通信协议(例如，任何无线标准包括IEEE802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移动通信标准等)与其他设备无线通信(例如，播放设备200与之相关联的数据网络内的其他播放设备、扬声器、接收器、网络设备、控制设备)。有线接口218可以为播放设备200提供网络接口功能，以根据通信协议(例如，IEEE 802.3)通过与其他设备的有线连接进行通信。虽然图2中所示的网络接口214包括无线接口216和有线接口218，但是在一些实施例中，网络接口214可以仅包括无线接口或仅包括有线接口。

麦克风220可以被布置为检测播放设备200的环境中的声音。例如，麦克风可以安装在播放设备的壳体的外壁上。麦克风可以是现在已知或以后开发的任何类型的麦克风，诸如电容式麦克风、驻极体电容式麦克风或动态麦克风。麦克风可以对扬声器220的频率范围的一部分敏感。一个或多个扬声器220可以与麦克风220相反地操作。在一些方面，播放设备200可能不包括麦克风220。

在一个示例中，播放设备200和另一播放设备可以配对以播放音频内容的两个单独的音频分量。例如，播放设备200可以被配置成播放左声道音频分量，而另一播放设备可以被配置成播放右声道音频分量，从而产生或增强音频内容的立体声效果。配对的播放设备(也称为“绑定的播放设备”)还可以与其他播放设备同步播放音频内容。

在另一示例中，播放设备200可以与一个或多个其他播放设备声音合并以形成单个合并的播放设备。合并的播放设备可以被配置成与未合并的播放设备或配对的播放设备不同地处理和再现声音，这是因为合并的播放设备可以具有可以通过其呈现音频内容的附加扬声器驱动器。例如，如果播放设备200是被设计为呈现低频范围音频内容的播放设备(即，低音炮)，则播放设备200可以与被设计为呈现全频范围音频内容的播放设备合并。在这种情况下，当与低频播放设备200合并时，全频范围播放设备可以被配置成仅渲染音频内容的中频和高频分量，而低频范围播放设备200渲染音频内容的低频分量。合并的播放设备还可以与单个播放设备或另一个合并的播放设备配对。

作为说明，SONOS公司目前提供(或已经提供)出售某些播放设备，包括“PLAY：1”、“PLAY：3”、“PLAY：5”、“PLAYBAR”、“CONNECT：AMP”、“CONNECT”和“SUB”。可以附加地或替代地使用任何其他过去、现在和/或将来的播放设备来实现本文公开的示例实施例的播放设备。另外，应理解，播放设备不限于图2中所示的示例或SONOS产品。例如，播放设备可以包括有线或无线耳机。在另一示例中，播放设备可以包括用于个人移动媒体播放设备的扩展坞或与之交互。在又一个示例中，播放设备可以与诸如电视、照明设备的另一设备或组件或在室内或室外使用的一些其他设备集成在一起。

b.示例播放区配置

返回参考图1的媒体播放***100，环境可以具有一个或多个播放区，每个播放区具有一个或多个播放设备。媒体播放***100可以建立有一个或多个播放区，之后可以添加或移除一个或多个区以达到图1所示的示例配置。可以根据不同的房间或诸如书房、浴室、主卧室、卧室、厨房、餐厅、起居室和/或阳台之类的空间给每个区命名。在一种情况下，单个播放区可以包括多个房间或空间。在另一种情况下，单个房间或空间可以包括多个播放区。

如图1中所示，阳台、餐厅、厨房、浴室、书房和卧室区各有一个播放设备，而起居室和主卧室区各有多个播放设备。在起居室区中，播放设备104、106、108和110可以被配置成作为单独的播放设备，作为一个或多个绑定的播放设备，作为一个或多个合并的播放设备，或其任何组合来同步播放音频内容。类似地，在主卧室的情况下，播放设备122和124可以被配置成作为单独的播放设备，作为绑定的播放设备，或者作为合并的播放设备来同步播放音频内容。

在一个示例中，图1的环境中的一个或多个播放区可以各自播放不同的音频内容。例如，用户可以在阳台区中烧烤并且收听由播放设备102播放的嘻哈音乐，而另一个用户可能正在厨房区中准备食物并且收听由播放设备114播放的古典音乐。在另一示例中，播放区可以与另一个播放区同步播放相同的音频内容。例如，用户可能处于办公区，其中播放设备118正在播放由阳台区中的播放设备102正在播放的相同摇滚音乐。在这种情况下，播放设备102和118可以同步播放摇滚音乐，使得用户在不同播放区之间移动时可以无缝地(或至少基本上无缝地)享受正在大声播放的音频内容。可以以类似于如先前引用的美国专利第8,234,395号中所述的播放设备之间的同步的方式实现播放区之间的同步。

如上所述，可以动态地修改媒体播放***100的区域配置，并且在一些实施例中，媒体播放***100支持多种配置。例如，如果用户将一个或多个播放设备物理地移动到区域或从区域移动，则可以重新配置媒体播放***100以适应这些更改。例如，如果用户将播放设备102从阳台区物理地移动到办公区，则办公区现在可以包括播放设备118和播放设备102。播放设备102可以与书房配对或成组，并且/或者如果需要，则经由诸如控制设备126和128之类的控制设备重新命名。另一方面，如果一个或多个播放设备被移动到家庭环境中不是播放区的特定区域，则可以为特定区域创建新的播放区。

此外，媒体播放***100的不同播放区可以动态地组合成区域组或者分成单独的播放区。例如，餐厅区和厨房区114可以组合成用于晚餐聚会的区域组，使得播放设备112和114可以同步地呈现音频内容。另一方面，如果用户希望在起居室空间中听音乐而另一个用户希望看电视，则起居室区可以被分成包括播放设备104的电视区和包括播放设备106、108和110的收听区。

c.示例控制设备

图3示出了示例控制设备300的功能框图，该示例控制设备可以被配置成媒体播放***100的控制设备126和128中的一个或两个。如图所示，控制设备300可以包括处理器302、存储器304、网络接口306、用户接口308、麦克风310和软件组件312。在一个示例中，控制设备300可以是用于媒体播放***100的专用控制器。在另一个示例中，控制设备300可以是可以在其上安装媒体播放***控制器应用软件的网络设备，诸如例如iPhone^TM，iPad^TM或任何其他智能电话、平板电脑或网络设备(例如，联网计算机，诸如PC或Mac^TM)。

处理器302可以被配置成执行与利于媒体播放***100的用户访问、控制和配置相关的功能。存储器304可以是可以加载可由处理器302执行以执行那些功能的一个或多个软件组件的数据存储。存储器304还可以被配置成存储媒体播放***控制器应用软件和与媒体播放***100和用户相关联的其他数据。

在一个示例中，网络接口306可以基于行业标准(例如，包括IEEE802.3的红外、无线电、有线标准，包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15的无线标准、4G移动通信标准等)。网络接口306可以提供用于控制设备300与媒体播放***100中的其他设备通信的装置。在一个示例中，可以在控制设备300和其他设备之间经由网络接口306传送数据和信息(例如，诸如状态变量)。例如，媒体播放***100中的播放区和区域组配置可以由控制设备300从播放设备或另一网络设备接收，或者由控制设备300传输到另一播放设备或者经由网络接口306传输到网络设备。在一些情况下，另一网络设备可以是另一控制设备。

诸如音量控制和音频播放控制之类的播放设备控制命令也可以经由网络接口306从控制设备300传送到播放设备。如上所述，对媒体播放***100的配置的更改也可以是由用户使用控制设备300执行。配置更改可以包括向/从区域添加/移除一个或多个播放设备，向/从区域组添加/移除一个或多个区域，形成绑定或合并的播放器，将一个或多个播放设备与绑定或合并的播放器分开等。因此，无论控制设备300是专用控制器还是其上安装有媒体播放***控制器应用软件的网络设备，控制设备300有时可以被称为控制器。

控制设备300可以包括麦克风310。麦克风310可以被布置为检测控制设备300的环境中的声音。麦克风310可以是现在已知或以后开发的任何类型的麦克风，诸如电容式麦克风、驻极体电容式麦克风或动态麦克风。麦克风可能对频率范围的一部分敏感。两个或更多个麦克风310可以被布置为捕获音频源(例如，语音、可听见的声音)的位置信息和/或帮助过滤背景噪声。

控制设备300的用户界面308可以被配置成通过提供诸如图4中所示的控制器接口400之类的控制器接口来利于用户访问和***体播放***100。控制器接口400包括播放控制区域410、播放区区域420、播放状态区域430、播放队列区域440和音频内容源区域450。所示的用户界面400仅是用户界面的一个示例，该用户界面可以在诸如图3的控制设备300(和/或图1的控制设备126和128)之类的网络设备上提供并且由用户访问以控制诸如媒体播放***100之类的媒体播放***。不同格式、样式和交互序列的其他用户界面可以替代地在一个或多个网络设备上实现，以提供对媒体播放***的可比较的控制访问。

播放控制区域410可以包括可选择的(例如，通过触摸或通过使用光标)图标以使所选播放区或区域组中的播放设备播放或暂停、快进、倒退、跳到下一个、跳到上一个、进入/退出随机播放模式、进入/退出重复模式、进入/退出交叉淡入淡出模式。播放控制区域410还可以包括可选择的图标，以修改均衡设置和播放音量，以及其他可能性。

播放区区域420可以包括媒体播放***100内的播放区的表示。在一些实施例中，播放区的图形表示可以是可选择的，以带来额外的可选图标以管理或配置媒体播放***中的播放区，诸如绑定区的创建、区域组的创建、区域组的分离以及区域组的重命名，以及其他可能性。

例如，如图所示，可以在播放区的每个图形表示内提供“组”图标。在特定区域的图形表示内提供的“组”图标可以是可选择的，以提出选项来选择媒体播放***中的一个或多个其他区域以与特定区域成组。一旦成组，则已经与特定区域成组的区域中的播放设备将被配置成与特定区域中的播放设备同步地播放音频内容。类似地，可以在区域组的图形表示内提供“组”图标。在这种情况下，“组”图标可以是可选择的以提出选项来取消选择区域组中的一个或多个区域以从区域组中移除。用于经由诸如用户界面400的用户界面对区域进行分组和取消分组的其他交互和实现方式也是可能的。当播放区或区域组配置被修改时，可以动态地更新播放区区域420中的播放区的表示。

播放状态区域430可以包括在所选播放区或区域组中当前正在播放、先前播放或安排成下一个播放的音频内容的图形表示。可以在用户界面上在视觉上区分所选择的播放区或区域组，诸如在播放区区域420和/或播放状态区域430内。图形表示可以包括曲目标题、艺术家姓名、专辑名称、专辑年份、曲目长度和其他可能对用户有用的相关信息，以便知道何时经由用户界面400***体播放***。

播放队列区域440可以包括与所选播放区或区域组相关联的播放队列中的音频内容的图形表示。在一些实施例中，每个播放区或区域组可以与播放队列相关联，该播放队列包含对应于零个或多个音频项的信息，以供播放区或区域组播放。例如，播放队列中的每个音频项可以包括统一资源标识符(URI)、统一资源定位符(URL)或一些其他标识符，其可以由播放区或区域组中的播放设备使用以从本地音频内容源或联网音频内容源查找和/或检索音频项而可能供播放设备播放。

在一个示例中，可以将播放列表添加到播放队列，在这种情况下，可以将对应于播放列表中的每个音频项的信息添加到播放队列。在另一示例中，播放队列中的音频项可以被保存为播放列表。在另一示例中，当播放区或区域组正在连续播放流式传输音频内容(诸如可以连续播放直到另外停止的互联网电台)而不是具有播放持续时间的离散音频项时，播放队列可以是空的，或者***但“未使用”。在替代实施例中，播放队列可以包括互联网电台和/或其他流式传输音频内容项，并且当播放区或区域组正在播放那些项时呈“正在使用”。其他示例也是可能的。

当播放区或区域组被“成组”或“未成组”时，可以清除或重新关联与受影响的播放区或区域组相关联的播放队列。例如，如果包括第一播放队列的第一播放区与包括第二播放队列的第二播放区成组，则建立的区域组可以具有最初为空的关联播放队列，其包含来自第一播放队列的音频项(诸如在第二播放区被添加到第一播放区的情况下)，其包含来自第二播放队列的音频项(诸如在第一播放区被添加到第二播放区的情况下)，或者来自第一和第二播放队列的音频项的组合。随后，如果建立的区域组未成组，则所得第一播放区可以与先前的第一播放队列重新关联，或者与空的新播放队列相关联，或者包含在所建立的区域组未成组之前来自与所建立的区域组相关联的播放队列的音频项。类似地，所得第二播放区可以与先前的第二播放队列重新关联，或者与空的新播放队列相关联，或者包含在所建立的区域组未成组之前来自与所建立的区域组相关联的播放队列的音频项。其他示例也是可能的。

返回参考图4的用户界面400，播放队列区域440中的音频内容的图形表示可以包括曲目标题、艺术家姓名、曲目长度以及与播放队列中的音频内容相关联的其他相关信息。在一个示例中，音频内容的图形表示可以是可选择的，以提出额外的可选图标来管理和/或操纵播放队列中表示的播放队列和/或音频内容。例如，表示的音频内容可以从播放队列中移除，移动到播放队列内的不同位置，或者被选择立即播放，或者在任何当前播放的音频内容之后播放，以及其他可能性。与播放区或区域组相关联的播放队列可以存储在播放区或区域组中的一个或多个播放设备上的、不在播放区或区域组中的播放设备上的，和/或一些其他指定设备的存储器中。

音频内容源区域450可以包括可选音频内容源的图形表示，音频内容可以从该可选音频内容源中检索并由所选择的播放区或区域组播放。有关音频内容源的讨论可在以下部分中找到。

d.示例音频内容源

如前所述，区域或区域组中的一个或多个播放设备可以被配置成从各种可用音频内容源检索播放音频内容(例如，根据音频内容的对应URI或URL)。在一个示例中，音频内容可以由播放设备直接从对应的音频内容源(例如，线路输入连接)检索。在另一示例中，音频内容可以经由一个或多个其他播放设备或网络设备通过网络提供给播放设备。

示例音频内容源可以包括媒体播放***(诸如图1的媒体播放***100)中的一个或多个播放设备的存储器、一个或多个网络设备(诸如控制设备、支持网络的个人计算机，或者例如网络附加存储(NAS))上的本地音乐库、经由互联网(例如，云)提供音频内容的流式传输音频服务，或经由播放设备或网络设备上的线路输入连接而连接到媒体播放***的音频源，以及其他可能性。

在一些实施例中，可以从诸如图1的媒体播放***100的媒体播放***定期添加或移除音频内容源。在一个示例中，可以在添加、删除或更新一个或多个音频内容源时执行音频项的索引。音频项的索引可以涉及扫描通过媒体播放***中的播放设备可访问的网络所共享的所有文件夹/目录中的可识别音频项，以及生成或更新包含元数据的音频内容数据库(例如，标题、艺术家、专辑、曲目长度等)以及其他相关信息，诸如找到的每个可识别音频项的URI或URL。用于管理和维护音频内容源的其他示例也是可能的。

以上关于播放设备、控制器设备、播放区配置和媒体内容源的讨论仅提供了可以在其中实现下面描述的功能和方法的操作环境的一些示例。本文未明确描述的媒体播放***、播放设备和网络设备的其他操作环境和配置也可以适用并且适合于功能和方法的实现。

e.示例多个联网设备

图5示出了示例性多个设备500，其可以被配置成基于语音控制来提供音频播放体验。本领域普通技术人员将理解，图5中所示的设备仅用于说明目的，并且可能有包括不同和/或附加设备的变体。如图所示，多个设备500包括计算设备504、506和508；网络麦克风设备(NMD)512、514和516；播放设备(PBD)532、534、536和538；以及控制器设备(CR)522。

多个设备500中的每一个可以是支持网络的设备，其可以根据一个或多个网络协议(诸如NFC、蓝牙、以太网和IEEE 802.11以及其他示例)通过一种或多种类型的网络(诸如广域网(WAN)、局域网(LAN)和个人局域网(PAN)以及其他可能性)与多个设备中的一个或多个其他设备建立通信。

如图所示，计算设备504、506和508可以是云网络502的一部分。云网络502可以包括另外的计算设备。在一个示例中，计算设备504、506和508可以是不同的服务器。在另一示例中，计算设备504、506和508中的两个或更多个可以是单个服务器的模块。类似地，计算设备504、506和508中的每一个可以包括一个或多个模块或服务器。本文为了便于说明目的，计算设备504、506和508中的每一个可以被配置成执行云网络502内的特定功能。例如，计算设备508可以是用于流式传输音乐服务的音频内容源。

如图所示，计算设备504可以被配置成经由通信路径542与NMD512、514和516连接。NMD 512、514和516可以是一个或多个“智能家庭”***的组件。在一种情况下，NMD 512、514和516可以物理地分布在整个家庭中，类似于图1中所示的设备的分布。在另一种情况下，NMD 512、514和516中的两个或更多个可以物理地定位在彼此相对接近的范围内。通信路径542可以包括一种或多种类型的网络，诸如包括互联网的WAN、LAN和/或PAN，以及其他可能性。

在一个示例中，NMD 512、514和516中的一个或多个可以是主要配置用于音频检测的设备。在另一示例中，NMD 512、514和516中的一个或多个可以是具有各种主要实用工具的设备的组件。例如，如上面结合图2和图3所讨论，NMD 512、514和516中的一个或多个可以是播放设备200的麦克风220或网络设备300的麦克风310。另外，在一些情况下，NMD 512、514和516中的一个或多个可以是播放设备200或网络设备300。在示例中，NMD 512、514和/或516中的一个或多个可以包括呈麦克风阵列布置的多个麦克风。

如图所示，计算设备506可以被配置成经由通信路径544与CR 522和PBD 532、534、536和538进行接口连接。在一个示例中，CR 522可以是诸如图2的网络设备200之类的网络设备。因此，CR 522可以被配置成提供图4的控制器接口400。类似地，PBD 532、534、536和538可以是诸如图3的播放设备300的播放设备。因此，如图1中所示，PBD 532、534、536和538可以物理地分布在整个家庭中。为了说明的目的，PBD 536和538可以是绑定区530的一部分，而PBD 532和534可以是它们各自区的一部分。如上所述，PBD 532、534、536和538可以动态地绑定、成组、解除绑定和取消成组。通信路径544可以包括一种或多种类型的网络，诸如包括互联网的WAN、LAN和/或PAN，以及其他可能性。

在一个示例中，与NMD 512、514和516一样，CR 522和PBD 532、534、536和538也可以是一个或多个“智能家庭”***的组件。在一种情况下，PBD 532、534、536和538可以与NMD512、514和516分布在同一家庭中。此外，如上所述，PBD 532、534、536和538中的一个或多个可以是NMD 512、514和516中的一个或多个。

NMD 512、514和516可以是局域网的一部分，并且通信路径542可以包括通过WAN(通信路径未显示)将NMD 512、514和516的局域网链接到计算设备504的接入点。同样地，NMD 512、514和516中的每一个可以经由这样的接入点彼此通信。

类似地，CR 522和PBD 532、534、536和538可以是如先前部分中讨论的局域网和/或本地播放网络的一部分，并且通信路径544可以包括通过WAN将CR 522和PBD 532、534、536和538的局域网和/或本地播放网络链接到计算设备506的接入点。这样，CR 522以及PBD532、534、536和538中的每一个也可以通过这样的接入点彼此进行通信。

在一个示例中，单个接入点可以包括通信路径542和544。在示例中，NMD 512、514和516、CR 522以及PBD 532、534、536和538中的每一个可以经由家庭的相同接入点访问云网络502。

如图5中所示，NMD 512、514和516、CR 522和PBD 532、534、536和538中的每一个还可以经由通信装置546与一个或多个其他设备直接通信。如本文所述的通信装置546可以涉及设备之间根据一个或多个网络协议通过一种或多种类型的网络进行的一种或多种形式的通信，和/或可以涉及经由一个或多个其他网络设备进行的通信。例如，通信装置546可以包括例如蓝牙^TM(IEEE 802.15)、NFC、无线直连和/或专有无线中的一个或多个，以及其他可能性。

在一个示例中，CR 522可以通过蓝牙^TM与NMD 512通信，并且通过另一局域网与PBD534通信。在另一示例中，NMD 514可以通过另一局域网与CR 522通信，并且通过蓝牙与PBD536通信。在另一示例中，PBD 532、534、536和538中的每一个可以根据生成树协议通过本地播放网络彼此通信，而每个通过不同于本地播放网络的局域网与CR 522通信。其他示例也是可能的。

在一些情况下，NMD 512、514和516、CR 522和PBD 532、534、536和538之间的通信装置可以根据设备之间的通信类型、网络状况和/或延迟要求而更改。例如，当NMD 516首先被引入具有PBD 532、534、536和538的家庭时，可以使用通信装置546。在一种情况下，NMD516可以经由NFC将对应于NMD 516的识别信息传输到PBD 538，并且作为响应，PBD 538可以经由NFC(或一些其他形式的通信)将局域网信息传输给NMD 516。然而，一旦在家庭内配置了NMD 516，NMD 516与PBD 538之间的通信手段可能会更改。例如，NMD 516可以随后经由通信路径542、云网络502和通信路径544与PBD 538通信。在另一示例中，NMD和PBD可能永远不会经由本地通信装置546进行通信。在另一示例中，NMD和PBD可以主要经由本地通信装置546进行通信。其他示例也是可能的。

在说明性示例中，NMD 512、514和516可以被配置成接收语音输入以控制PBD 532、534、536和538。可用控制命令可以包括先前讨论的任何媒体播放***控制，诸如播放音量控制、播放传输控制、音乐源选择和分组等。在一个实例中，NMD 512可以接收语音输入以控制PBD 532、534、536和538中的一个或多个。响应于接收到语音输入，NMD 512可以经由通信路径542将语音输入传输给计算设备504进行处理。在一个示例中，计算设备504可以将语音输入转换为等效文本命令，并解析文本命令以识别命令。然后，计算设备504可以随后将文本命令传输给计算设备506。在另一个示例中，计算设备504可以将语音输入转换为等效文本命令，然后将文本命令传输给计算设备506。然后，计算设备506可以解析文本命令以识别一个或多个播放命令。

例如，如果文本命令是“播放来自‘区1’中的‘流式传输服务1’的‘艺术家1’的'曲目1'”，则计算设备506可以识别(i)可从“流式传输服务1”获得的“艺术家1”的“曲目1”的URL，以及(ii)“区1”中的至少一个播放设备。在该示例中，来自“流式传输服务1”的“艺术家1”的“曲目1”的URL可以是指向计算设备508的URL，并且“区1”可以是绑定区530。因此，在识别出URL以及PBD 536和538中的一个或两个时，计算设备506可以经由通信路径544向PBD536和538中的一个或两个传输所识别的用于播放的URL。PBD 536和538中的一个或两个可以根据接收到的URL作为响应地从计算设备508检索音频内容，并且开始播放来自“流式传输服务1”的“艺术家1”的“曲目1”。

本领域普通技术人员将理解，以上仅是一个说明性示例，并且其他实现也是可能的。在一种情况下，如上所述，由多个设备500中的一个或多个执行的操作可以由多个设备500中的一个或多个其他设备执行。例如，从语音输入到文本命令的转换可以替代地、部分地或完全地由另一个或多个设备执行，诸如NMD 512、计算设备506、PBD 536和/或PBD 538。类似地，URL的识别可以替代地、部分地或完全地由另一个或多个设备执行，诸如NMD 512、计算设备504、PBD 536和/或PBD 538。

f.示例网络麦克风设备

图6示出了示例网络麦克风设备600的功能框图，该示例网络麦克风设备可以被配置成图5的NMD 512、514和516中的一个或多个。如图所示，网络麦克风设备600包括处理器602、存储器604、麦克风阵列606、网络接口608、用户接口610、软件组件612和扬声器614。本领域普通技术人员将理解，其他网络麦克风设备配置和布置也是可能的。例如，网络麦克风设备可以替代地排除扬声器614或者具有单个麦克风而不是麦克风阵列606。

处理器602可以包括一个或多个处理器和/或控制器，其可以采用通用或专用处理器或控制器的形式。例如，处理单元602可以包括微处理器、微控制器、专用集成电路、数字信号处理器等。存储器604可以是数据存储装置，其可以加载有可由处理器602执行以执行那些功能的一个或多个软件组件。因此，存储器604可以包括一个或多个非暂时性计算机可读存储介质，其示例可以包括易失性存储介质，诸如随机存取存储器、寄存器、高速缓存等，以及非易失性存储介质，诸如只读存储器、硬盘驱动器、固态驱动器、闪存和/或光存储设备，以及其他可能性。

麦克风阵列606可以是布置成检测网络麦克风装置600的环境中的声音的多个麦克风。麦克风阵列606可以包括现在已知或以后开发的任何类型的麦克风，诸如电容式麦克风、驻极体电容式麦克风或动态麦克风，以及其他可能性。在一个示例中，麦克风阵列可以被布置为检测来自相对于网络麦克风设备的一个或多个方向的音频。麦克风阵列606可以对频率范围的一部分敏感。在一个示例中，麦克风阵列606的第一子集可以对第一频率范围敏感，而麦克风阵列的第二子集可以对第二频率范围敏感。麦克风阵列606还可以被布置为捕获音频源的位置信息(例如，语音、可听到的声音)和/或帮助过滤背景噪声。应注意，在一些实施例中，麦克风阵列可以仅由单个麦克风组成，而不是由多个麦克风组成。

网络接口608可以被配置成利于各种网络设备之间的无线和/或有线通信，诸如参考图5的CR 522、PBD 532-538、云网络502中的计算设备504-508和其他网络麦克风设备，以及其他可能性。这样，网络接口608可以采用任何合适的形式来执行这些功能，其示例可以包括以太网接口、串行总线接口(例如，火线、USB 2.0等)、适于利于无线通信的天线和芯片组，和/或提供有线和/或无线通信的任何其他接口。在一个示例中，网络接口608可以基于行业标准(例如，包括IEEE 802.3的红外、无线电、有线标准，包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15的无线标准，4G移动通信标准等)。

网络麦克风设备600的用户界面610可以被配置成利于用户与网络麦克风设备的交互。在一个示例中，用户界面608可以包括物理按钮、设置在触敏屏幕和/或表面上的图形界面中的一个或多个以及其他可能性而使用户直接向网络麦克风提供输入。用户界面610还可以包括灯和扬声器614中的一个或多个，以向用户提供视觉和/或音频反馈。在一个示例中，网络麦克风设备600还可以被配置成经由扬声器614播放音频内容。在这种情况下，NMD 600还可以包括与播放设备200相关联的功能和特征。

III.用于基于仲裁的语音识别的示例***和方法

多个NMD可以经由通信装置546通信地耦合。多个NMD中的一个或多个可以检测与说话者所说出的语音命令相关联的唤醒字。语音命令可以是对诸如“音量设置是什么？”或“播放列表中有哪些歌曲？”之类的信息的请求。或者，语音命令可以包括修改任何媒体播放播放设置(诸如播放音量、播放传输控制、音乐源选择和分组以及其他可能性)的命令。随着更多的家用设备变得“智能”(例如，通过结合网络接口)，语音命令可用于控制除媒体播放设备之外的家用设备。语音命令也可以采用其他形式。

本文描述的实施例涉及用于仲裁多个NMD的哪个NMD可以向基于云的计算设备(例如，服务器)发送语音输入(例如，语音命令或唤醒字和语音命令)的方法和***。NMD可以将语音输入发送给基于云的计算设备，使得基于云的计算设备可以对语音输入执行语音识别。语音识别允许识别所请求的控制或信息。例如，仲裁过程避免让多个NMD向基于云的计算设备发送相同的语音命令，从而避免可能浪费带宽，而该带宽本可用于其他活动，诸如播放音乐。

通常，应当理解，本文描述的一个或多个功能可以由NMD单独执行或与计算设备504-506、PBD 532-538、NMD 512-516、CR 522或本文所述的任何其他装置组合执行。

图7中所示的实现方式700呈现了本文描述的示例技术的实施例。简而言之，在702处，可以检测语音输入。在704处，可以确定语音输入的置信度。在706处，可以执行仲裁过程。仲裁过程可以包括确定NMD是否要将接收到的语音命令或接收到的语音命令以及语音输入发送给服务器以进行语音识别。家庭中的多个NMD可以执行图7中描述的功能。

实现方式700可以在包括或涉及例如图5中所示的配置中的一个或多个NMD 512-516的操作环境中实现。框702-706中的一个或多个可以包括一个或多个操作、功能或动作。尽管以连续顺序示出了框，但是这些框也可以并行执行，和/或以与本文描述的顺序不同的顺序执行。而且，可以将各种框组合成更少的框，划分成附加的框，和/或基于期望的实现方式来移除。

另外，对于本文公开的实现方式700和其他过程和方法，该流程图示出了一些实施例的一种可能实现方式的功能和操作。就此而言，每个框可以表示模块、部段或程序代码的一部分，该程序代码包括可由处理器执行的一个或多个指令，用于实现该过程中的特定逻辑功能或步骤。程序代码可以存储在任何类型的计算机可读介质上，例如，诸如包括磁盘或硬盘驱动器的存储设备上。计算机可读介质可以包括非暂时性计算机可读介质，例如，诸如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)之类的短时间存储数据的有形非暂时性计算机可读介质。计算机可读介质还可以包括非暂时性介质，诸如例如只读存储器(ROM)、光盘或磁盘、光盘只读存储器(CD-ROM)之类的二级或持久性长期存储装置。计算机可读介质还可以是任何其他易失性或非易失性存储***。计算机可读介质可以被认为是计算机可读存储介质，例如有形存储设备。另外，对于本文公开的实现方式700和其他过程和方法，图7中的每个框可以表示被有线连接以执行过程中的特定逻辑功能的电路。

返回参考图7，在702处，可以检测语音输入。例如，NMD可以具有一个或多个麦克风来接收语音输入。在一些实施例中，语音输入可以采用唤醒字的形式。唤醒字可以是口头语音输入，例如“Alexa”、“OK Google”、“Hey Sonos”或“Hey Siri”以及其他示例。

唤醒字可以是NMD“唤醒”并开始接收跟随唤醒字的语音输入的指示。语音输入可以是由NMD接收的语音命令。当接收到语音命令时，NMD可以将所接收的语音命令的语音记录存储在例如环形或循环缓冲区中。就此而言，除非NMD将所接收的语音命令发送给服务器以进行处理，否则可以丢弃语音记录。环形或循环缓冲区可以通过本文描述的任何设备或服务器进行本地和/或远程存储。

在一些情况下，NMD还可以调整由NMD播放的音频，以便清楚地接收跟随唤醒字的语音命令。可以以各种方式调整音频。在一个实施例中，可以调低音频的音量。调低音量可能涉及降低音频的音量，例如降低到与检测到的唤醒字的音量成比例的音量。在另一实施例中，可以暂停音频。音频是否被调低音量或暂停可取决于音频的类型和期望的用户体验。NMD可以基于与音频相关联的指示符来确定音频的类型。例如，NMD可以调低呈音乐形式的音频的音量，并且NMD可以暂停呈音频书或播客形式的音频。在另一示例中，并且如下面进一步解释，取决于NMD的可用处理能力，可以调低音频的音量或暂停音频。其他布置也是可能的。

NMD可以调整音频本身。另外或替代地，NMD可以调整由具有NMD的绑定区域中的音频播放设备(例如，以立体声播放音频的设备)播放的音频。例如，可以将通知发送给绑定的音频播放设备。在一些情况下，通知可以采用通用即插即用(UPnP)控制请求的形式。

在一些实施例中，语音输入的检测还可以触发指示NMD在将所接收的语音命令发送给服务器之前等待多久的时间间隔的开始。在一个极端下，一旦检测到唤醒字，NMD就可以发送语音命令。引入了语音识别中的最小延迟，但是服务器可能需要在发送语音命令的两个或更多个NMD之间执行仲裁。在另一个极端下，NMD可以在长时间间隔(例如，100ms)之后发送语音命令。长时间间隔可以允许足够的时间进行仲裁，但是在语音识别中引起了显著的延迟。因此，时间间隔的选择可以平衡提供足够的时间来执行仲裁和最小化语音识别中的延迟的兴趣。

在一些实施例中，所有NMD的时间间隔可以相同。在其他实施例中，可以在本地确定时间间隔。例如，时间间隔可以基于连接到通信装置546的NMD的数量。如果有较多的NMD连接到通信装置546，则时间间隔可以设置得较长，并且如果连接到通信的NMD较少，则设置得较短。较多的NMD可能意味着NMD彼此进行通信以执行仲裁需要较长的时间，而较少的NMD可能意味着NMD彼此进行通信以执行仲裁需要较少的时间。

例如，可以基于NMD彼此的接近度来设置时间间隔。NMD彼此越接近，时间间隔越短。相反，NMD越远，时间间隔就越长。较接近的NMD可能意味着NMD彼此进行通信以执行仲裁需要较少的时间，而间隔较远的NMD可能意味着NMD彼此进行通信以执行仲裁需要较长的时间。

例如，可以基于NMD是有线连接还是无线连接来设置时间间隔。有线连接可能导致设置较短的时间间隔来执行仲裁，因为有线连接可能更可靠并且需要较少的重传。无线连接可能导致设置较长的时间间隔来执行仲裁，因为无线连接可能不太可靠并且需要较多的重传。

例如，可以基于将NMD彼此连接的网络类型(例如，WiFi网络或诸如SonosNet的专有网络)来设置时间间隔。NMD之间具有较少跳数的网络可能导致设置较短的时间间隔来执行仲裁。相反，NMD之间具有较大跳数的网络可能导致设置较长的时间间隔来执行仲裁。较少的跳跃可能意味着NMD彼此进行通信需要较少的时间，而较多的跳跃可能意味着NMD彼此进行通信需要较多的时间。

在一些实施例中，时间间隔可以是静态值。在其他实施例中，时间间隔可以是动态值。例如，可以基于学***衡了提供足够的时间来执行仲裁和解决延迟问题的需要。学习算法可以最初选择指示NMD在决定是否将所接收的语音命令发送给服务器之前将等待多久的时间间隔(例如，20ms)。然后，如果服务器检测到“错误”，则可以增加时间间隔(例如，增加到40ms)。错误可能是两个或更多个NMD分别将跟随唤醒字的语音命令发送给服务器。在这种情况下，服务器可以通知NMD增加其时间间隔。学习算法可以应用于家庭、一组NMD或单个NMD。

在704处，可以针对检测到的语音输入确定置信度。置信度可以表明检测到唤醒字的程度。NMD可以确定与检测到的唤醒字相关联的特性。在一个示例中，特性可以采用唤醒字的音频包络的形式。音频包络可以定义时域中的唤醒字的幅值和/或持续时间。在另一示例中，特性可以采用唤醒字的频谱的形式。频谱可以定义频域中的唤醒字的频率内容。NMD可以存储和/或从计算设备504-508接收NMD可能接收的每个唤醒字的理想特性。当不存在噪声时，理想的特性可以是例如唤醒字的音频包络、持续时间或频谱。可以将检测到的唤醒字的特性与对应的理想特性进行比较。检测到的唤醒字的特性与理想特性之间的高度相关性可指示检测到的唤醒字可能是与理想特性相关联的唤醒字。NMD可以识别具有最高相关度的唤醒字。

在一些实施例中，置信度可以指示该相关性。例如，置信度可以是从0到1或0到100的数字。例如，没有背景噪声的检测可以接收值1(在0到1范围内)，该值指示检测到特定唤醒字的高置信度，而在大量失真或噪声下的检测可能接收0.1(在0到1范围内)，该值指示检测到特定唤醒字的低置信度。例如，没有背景噪声的检测可以接收值100(在0到100范围内)，该值指示检测到特定唤醒字的高置信度，而在大量失真或噪声下的检测可能接收10(在0到100范围内)，该值指示检测到特定唤醒字的低置信度。例如，没有背景噪声的检测可以接收10的值(在0到100范围内)，该值指示检测到特定唤醒字的高置信度，而在大量失真或噪声下的检测可能接收100(在0到100范围内)，该值指示检测到特定唤醒字的低置信度。例如，没有背景噪声的检测可以接收值0.1(在0到1范围内)，该值指示检测到特定唤醒字的高置信度，而在大量失真或噪声下的检测可能接收1(在0到1范围内)，该值检测到特定唤醒字的低置信度。在一些情况下，置信度可以与NMD和说话者之间的相对距离相关。其他布置也是可能的。

在一些实施例中，NMD可以生成仲裁消息，该仲裁消息被发送给例如在家庭中的通信装置546上的其他NMD。家庭中还检测到唤醒字的每个NMD可以向家庭中的其他NMD发送仲裁消息。通常，检测到唤醒字的NMD可以在语音输入的可听范围内。

图8示出了仲裁消息800的示例。仲裁消息800可以识别唤醒字标识符802、语音标识符804、置信度806、时间间隔808和时间戳810中的一个或多个。仲裁消息被示为一个消息，但是可以采用多个消息的形式并且包括比802-810表示的更多或更少的标识符。

家庭可能支持多个唤醒字。唤醒字标识符802可以指示NMD检测到哪个唤醒字。例如，唤醒字标识符可以指示NMD是否检测到唤醒字“Alexa”、“OK Google”、“Hey Sonos”或“Hey Siri”。唤醒字也可以采用其他形式。

可选地，仲裁消息800可以包括语音标识符804。语音标识符可以标识唤醒字的说话者。所述标识可以是谁说出唤醒字，例如，Mary或Tom，说话者是男性还是女性，和/或说话者是老年人还是年轻人。NMD可以在配置过程期间学习或者由诸如服务器的网络设备提供可以使用NMD的每个说话者的特性。该特性可以帮助识别该说话者是否说出了唤醒字。例如，该特性可以是说话者的语音频谱。然后，当NMD接收到唤醒字时，NMD可以确定唤醒字是否具有说话者的特性。如果唤醒字具有该特性，则语音标识符可以识别与该特性相关联的说话者，例如，是Mary还是Tom说出唤醒字和/或是男性还是女性说出唤醒字。

另外或替代地，仲裁消息800可以包括针对检测到的唤醒字的置信度806。仲裁消息还可以识别与在将语音记录发送给服务器之前NMD将等待多久相关联的时间间隔808。在仲裁消息中包括时间间隔可以允许一个NMD了解另一NMD正在使用的时间间隔。例如，一个NMD可以基于另一NMD的时间间隔来更改其时间间隔。另外，仲裁消息可以识别与仲裁消息相关联的时间戳810。除其他原因外，时间戳可用于识别仲裁消息的重传。

在706处，可以执行基于唤醒字和语音命令中的一个或多个的仲裁过程，以确定语音输入(例如，跟随唤醒字的语音命令或唤醒字和语音命令)是否应该被发送给计算设备504-508中的一个或多个，例如服务器。例如，NMD可以基于检测到的唤醒字的置信度来确定是否将语音命令发送给一个或多个计算设备。例如，NMD可以基于所接收的语音命令(或其部分)和所检测的唤醒字的置信度来确定是否将语音命令发送给一个或多个计算设备。如果NMD没有发送语音命令，则处理可以结束。如果NMD将语音命令发送给服务器，则NMD可以从服务器接收响应。该响应可以是对要由NMD或另一播放设备播放的语音命令的语音响应。例如，响应于语音命令“播放队列中的下一首歌是什么？”，语音响应可以是“下一首歌将是Purple Rain”。NMD可以播放语音响应。此外，如果由NMD播放的音频被调低音量或将被调低音量，则NMD可以将音频与语音响应混合以在音频被调低音量时进行播放。就此而言，如果NMD具有足够的处理能力来执行混合，则NMD可以响应于检测到唤醒字而调低音频的音量，而如果其没有足够的处理能力来执行混合，则暂停音频。另外或替代地，该响应可以是与媒体播放设备或***的控制相关联的命令。示例可以包括播放诸如在语音命令中指示的“Prince的When Doves Cry”的某些音乐内容，或者设置播放音量。

图9示出了根据第一实施例的与一个或多个NMD之间的仲裁相关联的功能的详细流程图900。第一实施例基于从另一NMD接收的仲裁消息和基于所接收的仲裁消息发送给服务器的语音命令。所描述的功能可以由NMD单独执行或者与计算设备504-506、PBD 532-538、NMD 512-516、CR 522或本文描述的任何其他设备组合执行。

在902处，可以检测第一语音输入。第一语音输入可以是例如唤醒字。在一些实施例中，检测可以触发时间间隔的开始。在904处，可以确定与第一语音输入相关联的第一置信度。置信度可以是检测到唤醒字的程度。第一置信度可以由NMD本身决定。另外或替代地，NMD可以将语音输入发送给计算设备504-508或其他网络设备，并从计算设备504-508或其他网络设备接收置信度。

在906处，可以接收消息。该消息可以是从检测到相同唤醒字的NMD发送的仲裁消息。该消息可以包括与检测到第一语音输入相关联的第二置信度。

在一些实施例中，NMD还可以将包括与第一语音输入相关联的第一置信度仲裁消息发送给其他NMD。例如，NMD可以将仲裁消息发送给耦合到通信装置546的另一NMD。这样，例如家庭中的其他NMD也可以基于NMD检测到的唤醒字来执行仲裁。

在908处，确定第一置信度是否大于第二置信度。如果第一置信度大于第二置信度值，则NMD可以赢得仲裁。较大的置信度表明NMD可能处于较好的位置以清楚地接收跟随唤醒字的语音命令。

NMD可以在时间间隔期间从多个NMD接收多个仲裁消息。NMD可以继续将每个仲裁消息中的置信度和与检测到的第一语音输入相关联的置信度进行比较，直到例如时间间隔到期为止。只要检测到的第一语音输入的置信度大于任何接收到的仲裁消息中的置信度，则NMD可以继续赢得仲裁。

在一些实施例中，NMD可以在执行任何仲裁之前等待时间间隔的到期。在时间间隔到期时，NMD可以将与其检测到的唤醒字相关联的置信度与在该时间间隔期间接收的仲裁消息中指示的置信度进行比较。NMD可以确定与其检测到的唤醒字相关联的置信度是否最高。基于该确定，NMD可以在时间间隔到期时将第二语音输入发送给计算设备504-508中的一个或多个。

在910处，可以基于确定第一置信度大于第二置信度值，将第二语音输入发送给计算设备504-508中的一个或多个，例如服务器。在一些实施例中，第二语音输入可以是跟随第一语音输入的语音命令，例如唤醒字。在其他实施例中，第二语音输入可以与第一语音输入相同，达到第一语音输入指示唤醒字以及语音命令的程度。在其他实施例中，第一语音输入还可以与第二语音输入一起发送给一个或多个计算设备。服务器可以使用第一语音输入来在两个或更多个NMD之间“在云中”仲裁，该NMD将与相同唤醒字相关联的语音命令发送给服务器。然后，服务器可以确定哪个发送的语音命令用于语音识别。

然后，服务器可以向第二语音输入发送响应。该响应可以是由NMD或其他网络设备播放的语音响应，或者与媒体播放设备或***的控制(诸如播放某些音乐内容或更改播放设备的设置)相关联的命令。

图10示出了根据第二实施例的与网络麦克风设备之间的仲裁相关联的功能的详细流程图1000。第二实施例示出了在时间间隔期间没有从任何其他NMD接收到与唤醒字的检测相关联的仲裁消息并且在时间间隔到期之后将跟随唤醒字的语音命令发送给服务器的情况。同样，所描述的功能可以由NMD单独执行或与计算设备504-506、PBD532-538、NMD512-516、CR 522或本文描述的任何其他设备组合执行。

在1002处，可以检测第一语音输入。第一语音输入可以是例如唤醒字。检测可以触发时间间隔的开始。在1004处，可确定与第一语音输入相关联的置信度。置信度可以由NMD本身确定。另外或替代地，NMD可以将语音输入发送给计算设备504-508或其他网络设备，然后从计算设备504-508或其他网络设备接收置信度。

在一些实施例中，可以发送消息，例如仲裁消息，其包括与第一语音输入相关联的第一置信度。例如，NMD可以将仲裁消息发送给例如家庭中耦合到通信装置546的其他NMD。在1006处，可以确定在该时间间隔中没有接收到与另一NMD检测到第一输入相关联的消息。例如，NMD可以确定它没有从通信装置546上的任何其他NMD接收到仲裁消息。在1008处，基于确定没有接收到消息，可以将第二语音输入发送给计算设备504-508中的一个或多个，例如，服务器。第二语音输入可以是NMD接收并且以唤醒字的形式跟随语音输入的语音命令。

服务器可以发送对第二语音输入的响应。例如，发送第二语音输入的NMD可以接收对第二语音输入的响应。该响应可以是对NMD或其他网络设备播放的信息请求的语音响应。另外或替代地，该响应可以是与媒体播放设备或***的控制(诸如播放某些音乐内容或更改播放设备的设置)相关联的命令。NMD或另一网络设备可以执行由该响应定义的命令。

图11是流程图1100，其更详细地描述了与图7的706处的仲裁过程相关联的功能。所描述的功能可以由NMD单独地执行或与计算设备504-506、PBD 532-538、NMD 512-516、CR522或本文描述的任何其他设备组合执行。

在1102处，NMD可以为仲裁计时器建立时间间隔。仲裁计时器可以是基于时钟的计时器。仲裁计时器可以初始设置为指示NMD在将跟随唤醒字的语音命令发送给一个或多个计算设备(例如，服务器)之前应该等待多久的时间间隔。时间长度可以是可配置参数，诸如0到100ms。可以以某种方式设置时间间隔，以便在NMD之间快速仲裁，而不会给语音识别增加很多延迟。

在1104处，确定仲裁计时器是否已到期。如果仲裁计时器尚未到期，则处理在1106继续以确定是否接收到仲裁消息。仲裁消息可以是来自检测到相同唤醒字的另一NMD的消息。如果没有接收到仲裁消息，则处理可以返回到1104以确定仲裁计时器是否到期。如果接收到仲裁消息，则在1108处，NMD可以将其检测到的语音输入(例如，唤醒字)的特性与发送仲裁消息的NMD检测到的唤醒字的特性进行比较。

例如，NMD可以将其检测到的唤醒字的置信度与其接收到的仲裁消息中的置信度进行比较。例如，NMD可以将其检测到的唤醒字的语音标识符与其接收到的仲裁消息中的语音标识符进行比较。例如，NMD可以将其检测到的唤醒字的唤醒字标识符与其接收到的仲裁消息中的唤醒字指示符进行比较。

NMD可以基于该比较来确定其是否“赢得”或“输掉”与其他NMD的仲裁。

NMD可以基于以下一个或多个确定来赢得仲裁：(i)由NMD确定的置信度大于与接收到的仲裁消息相关联的置信度；(ii)由NMD确定的语音标识符和与接收到的仲裁消息相关联的语音标识符不同；(ii)由NMD检测到的唤醒字与接收到的仲裁消息中识别的唤醒字不同。NMD也可以根据其他标准而赢得。

如果由NMD确定的置信度小于与针对相同检测到的唤醒字的接收到的仲裁消息相关联的置信度，则NMD可能输掉仲裁。如果NMD支持语音识别并且仲裁消息也指示语音标识符，则如果由NMD确定的置信度小于与针对相同语音标识符和相同检测到的唤醒字的接收到的仲裁消息相关联的置信度，则NMD可能输掉仲裁。NMD也可能基于其他标准而输掉仲裁。

如果NMD赢得仲裁，则处理可以返回到1104。如果NMD输掉仲裁，则在1108处，可以终止仲裁。当检测到唤醒字时，NMD播放的音频可能已经被调整，例如，调低音量或暂停，以便更好地接收跟随唤醒字的语音命令。如果NMD输掉仲裁，则NMD可以在检测到唤醒字并调整音频之前将音频调整回音频所在的位置。例如，如果音频被暂停，则音频可以是未中止的，例如，音频播放可以从停止的地方继续。例如，如果音频音量被调低，则可以取消调低音频音量，例如，可以增加音频的音量。例如，如果音频音量被调低，则音频可能会在调低音量之前返回到音频中的某个点。NMD可以存储音频中音频音量被调低的位置，例如时间戳。在输掉仲裁时，音频可以在音频中音频音量被调低的位置(例如，时间戳)开始播放。其他布置也是可能的。

在又一个实施例中，如果NMD输掉仲裁，则NMD可以不将其音频调整到一定水平，例如其在调整之前的音量，直到它接收到通知为止。在第一示例中，通知可以采取来自赢得仲裁的NMD的消息的形式。在第二示例中，通知可以采取来自与NMD一起处于绑定区域中的另一播放设备(或NMD)的消息的形式。另一播放设备可以与NMD同步播放音频，赢得仲裁，向服务器提供语音命令，然后在语音识别完成时将通知发送给NMD以调整音频。在第三示例中，通知可以采取存在或不存在由可能已经赢得仲裁的NMD传输的信号的形式。NMD可以经由扬声器输出信号。例如，信号可以在音乐的频率范围之外，例如，在20Hz至20KHz频率范围之外，但仍然在NMD的麦克风可听见的范围内。该信号的存在可以指示NMD应该将音频调整到检测到唤醒字之前的水平。或者，不存在该信号可以指示NMD应该将音频调整到检测到唤醒字之前的水平。通知也可以采取其他形式，诸如通用即插即用(UPnP)控制请求。

如果在1104处，时间间隔到期，则在1110处，NMD可以将所接收的语音命令发送给服务器。如果NMD继续赢得仲裁，则时间间隔可能会到期。或者，如果NMD在时间间隔到期之前没有从任何其他NMD接收到与检测到唤醒字相关联的任何仲裁消息，则时间间隔可能到期。在实施例中，可以通过将语音命令流式传输给服务器来将语音命令发送给服务器。

图12是与网络麦克风设备和计算设备(例如，服务器)之间的语音命令的语音识别相关联的流程图。所描述的功能可以由NMD结合计算设备504-506、PBD 532-538、NMD 512-516、CR 522或本文描述的任何其他设备来执行。

在1202处，可以建立识别计时器。识别计时器可以是基于时钟的计时器，其定义NMD可以将NMD接收到的语音命令发送(例如，流式传输)给服务器的持续时间。例如，持续时间可以设置为5-10秒，并用于在服务器未通知NMD停止发送语音命令的范围内进行恢复。由于通信装置546上的通信问题或者如果服务器未能通知NMD服务器决定处理由另一NMD接收到的语音命令，服务器可能不通知NMD停止发送。在1204处，确定识别计时器是否到期。如果识别计时器到期，则语音命令的流式传输终止。在一些实施例中，如果服务器发送中止消息以终止语音命令流式传输，则语音命令的流式传输也可以终止。中止消息可以指示另一NMD赢得仲裁。

如果恢复计时器没有到期，则在1206处，NMD可以确定服务器是否发送了停止语音命令的流式传输的指示。如果服务器没有发送停止语音命令流式传输的指示，则处理可以返回到1204以确定识别计时器是否到期。如果服务器发送停止语音命令流式传输的指示，则在1208处，NMD可以建立忙碌计时器。忙碌计时器可以指示服务器在NMD发送语音命令之后向跟随唤醒字的语音命令发送响应的持续时间。

服务器可以是基于云的服务器***。服务器可以对语音命令执行语音识别。例如，服务器可以将语音命令转换为文本，解释文本，然后基于文本制定响应。在1210处，检查忙碌计时器的到期。如果忙碌计时器未到期，则在1212处，NMD检查以查看是否接收到响应。该响应可采取多种形式。

在一个示例中，如果语音命令是对信息的请求，则该响应可以是语音响应。语音响应可以是所请求的信息，其以文本的形式发送给NMD并且被转换为由NMD可听地播放的语音响应。例如，响应于查询“天气如何？”的语音命令，语音响应可以是“天气晴朗”。此外，在NMD还在播放音频的情况下，语音响应可以与NMD正在播放的音频混合。如果音频暂停，则可以单独播放语音响应。

在另一示例中，语音响应可以是不理解语音命令的指示。例如，语音响应可能是“我不理解命令。”语音响应也可以采取其他形式。

另外或替代地，该响应可以是与媒体播放设备或***的控制(诸如播放某些音乐内容或更改播放设备的设置)相关联的命令。服务器可以将命令发送给NMD，并且NMD可以执行该命令或指示另一网络设备执行该命令。例如，该命令可以用于NMD播放某些音频内容或更改播放设备的设置。如果接收到命令，则NMD可以执行该命令或指示另一网络设备执行该命令。

该响应也可以采取其他形式，包括以控制设备300上显示的文本形式的响应。其他布置也是可能的。

在1214处，执行与响应相关联的动作，例如，播放语音响应或执行命令。如果没有从服务器接收到响应，则处理返回到1210。如果忙碌计时器到期而没有接收到响应，则该处理可以终止。

当服务器正在处理语音命令时，NMD可以不被布置为检测任何附加的唤醒字。然而，由于播放语音响应，NMD可以接收附加语音输入。服务器可以向NMD提供语音响应将导致附加语音输入的指示。NMD可以建立等待附加语音输入的计时器。例如，附加语音输入可以是具有超过阈值水平的平均幅值的音频信号。如果NMD检测到高于阈值水平的音频信号，则NMD可以接收附加语音输入并将语音输入流式传输到服务器，此时，服务器可以向NMD提供响应。可以以本文描述的方式将该响应处理为语音命令。如果在计时器到期之前没有接收到附加语音输入，则NMD可以停止接收语音输入并终止处理。

在一些实施例中，仲裁可以由集中式设备执行，而不是在每个NMD处本地执行。集中式设备可以是设计的NMD或例如家庭中连接到通信装置546的网络设备，其确定检测到唤醒字的哪个NMD应该将跟随唤醒字的语音命令发送给服务器。就此而言，集中式设备可以从一个或多个NMD接收仲裁消息，并且基于与仲裁消息相关联的置信度来识别哪个NMD应该将其接收到的语音命令发送给基于云的计算设备。例如，集中式设备可以确定哪个NMD检测到具有最高置信度的唤醒字。然后，集中式设备可以使所识别的NMD将其接收到的语音命令发送给计算设备。

NMD可能已经接收到具有足够高置信度的语音命令，其向计算设备提供语音命令将有助于执行可靠的语音识别。因此，在一些实施例中，还可以将未赢得仲裁的NMD接收的语音命令发送给计算设备，以提高语音命令的语音识别的可靠性。所发送的接收到的语音命令可以是具有超过阈值水平的置信度的那些命令。如果置信度超过阈值水平，则赢得仲裁的NMD可以通知那些NMD将其接收到的语音命令发送给服务器。多个版本的语音命令可以利于可靠的语音识别。

IV.结论

以上描述尤其公开了各种示例***、方法、装置和制品，包括在硬件上执行的固件和/或软件以及其他组件。应理解，这些示例仅是说明性的，并且不应视为限制性的。例如，预期固件、硬件和/或软件方面或组件中的任何一个或全部可以专门以硬件，专门以软件，专门以固件或以硬件、软件和/或固件的任何组合来具体实施。因此，所提供的示例不是实现这类***、方法、装置和/或制品的唯一方式。

另外，本文对“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性可以包括在本发明的至少一个示例实施例中。在说明书中各处出现的该短语不一定都指同一实施例，也不是与其他实施例互斥的单独或替代实施例。这样，本领域技术人员明确地且隐含地理解的本文所述的实施例可以与其他实施例组合。

本说明书主要根据说明性环境、***、过程、步骤、逻辑块、处理和直接或间接类似于耦合到网络的数据处理设备的操作的其他符号表示来呈现。本领域技术人员通常使用这些过程描述和表示来最有效地将其工作的实质传达给本领域其他技术人员。阐述了许多具体细节以提供对本发明的全面理解。然而，本领域技术人员应理解，可以在没有特定具体细节的情况下实践本发明的某些实施例。在其他情况下，没有详细描述公知的方法、过程、组件和电路，以避免不必要地模糊实施例的各方面。因此，本发明的范围由所附权利要求限定，而不是由前述实施例的描述限定。

当阅读任何所附权利要求以涵盖纯粹的软件和/或固件实现方式时，至少一个示例中的至少一个元件在此明确地定义为包括用来存储软件和/或固件的有形非暂时性介质，诸如存储器、DVD、CD、蓝光等。

Claims

1.一种用于第一网络设备(600)的方法，所述方法包括：

检测第一语音输入；

确定第一置信度(806)，所述第一置信度指示所述第一网络设备(600)检测到所述第一语音输入的程度；

接收消息(800)，所述消息包括第二置信度(806)，所述第二置信度指示第二网络设备(600)检测到所述第一语音输入的程度；

检测所述第一语音输入之后的第二语音输入；

当确定所述第一置信度(806)大于所述第二置信度(806)时，由所述第一网络设备(600)将所述第二语音输入发送给服务器。

2.根据任一前述权利要求所述的方法，其中所述第一语音输入是唤醒字。

3.根据任一前述权利要求所述的方法，其中所述第二语音输入是以下中的一项：

对信息的请求；以及

用于修改媒体播放***的播放设置的命令。

4.根据任一前述权利要求所述的方法，其中，当所述第一置信度(806)不大于所述第二置信度(806)时，所述第一网络设备(600)丢弃所接收的第二语音命令的记录。

5.根据任一前述权利要求所述的方法，其中多个网络设备(600)经由通信装置(546)通信地耦合，所述多个网络设备(600)包括至少所述第一网络设备(600)和第二网络设备(600)。

6.根据权利要求5所述的方法，还包括由所述第一网络设备(600)向耦合到所述通信装置(546)的所述多个网络设备(600)发送包括所述第一置信度(806)的第二消息(800)。

7.根据任一前述权利要求所述的方法，其中所述一个或多个消息(800)还包括以下中的至少一项：

对应于所述第一语音输入的唤醒字的标识符(802)；

标识所述唤醒字的说话者的语音标识符(804)；以及

指示所述第二网络设备(600)在确定是否将所述第二语音输入发送给所述服务器之前将等待多久的时间间隔(808)。

8.根据任一前述权利要求所述的方法，还包括在将所述第二语音输入发送给所述服务器之前等待时间间隔(808)的到期，其中检测到所述第一语音输入将触发所述时间间隔(808)的开始。

9.根据权利要求8所述的方法，还包括：

在时间间隔(808)到期之前，接收包括相应置信度(806)的一个或多个附加消息(800)；以及

确定所述第一置信度(806)是否大于在所述时间间隔(808)到期之前接收的消息(800)的所有置信度(806)；并且

当所述第一置信度(806)是所接收的置信度(806)中的最大值时，在所述时间间隔(808)到期时将所述第二语音输入发送给所述服务器。

10.根据权利要求8或9并结合权利要求5所述的方法，其中根据连接到所述通信装置(546)的网络设备(600)的数量设置所述时间间隔(808)的持续时间，使得当连接较少的网络设备(600)时，所述时间间隔(808)较短，而当连接较多的网络设备(600)时，所述时间间隔(808)设置为较长。

11.根据权利要求8至10中任一项所述的方法，其中基于所述网络设备(600)彼此的接近度来设置所述时间间隔(808)的所述持续时间，使得所述网络设备(600)彼此之间越近，则所述时间间隔(808)越短。

12.根据权利要求8至11中任一项所述的方法，其中在两个网络设备(600)没有将所述第二语音输入发送给所述服务器的情况下，基于旨在最小化所述时间间隔(808)的学习算法来调整所述时间间隔(808)。

13.根据任一前述权利要求所述的方法，还包括：

从所述服务器接收对所述第二语音输入的语音响应；以及

可听见地播放所述语音响应。

14.根据任一前述权利要求所述的方法，还包括响应于检测到所述第一语音输入来调整音频播放的音量。

15.根据任一前述权利要求所述的方法，还包括另外使得正在播放所述音频的另一网络设备(600)的音频播放音量与所述第一网络设备(600)同步。

16.根据权利要求4所述的方法，还包括确定所述音频播放是音乐播放，其中响应于检测到所述语音输入而调整所述音频播放的所述音量包括：调低所述音乐播放的音量。

17.根据权利要求4所述的方法，还包括确定所述音频播放是音频书的播放，其中响应于检测到所述语音输入而调整所述音频播放的所述音量包括：暂停所述音频书的所述播放。

18.根据任一前述权利要求所述的方法，还包括在调整之前，接收要将所述音频播放的所述音量返回到音量设置的通知。

19.根据权利要求1至13中任一项所述的方法，其中，当所述第一置信度不大于所述第二置信度时，所述第一网络设备响应于检测到所述第一语音输入而不调整音频播放音量；以及

当所述第一置信度大于所述第二置信度时，所述第一网络设备响应于检测到所述第一语音输入而调整音频播放音量。

20.一种有形非暂时性计算机可读存储介质，包括由处理器执行的指令，所述指令在被执行时使所述处理器实现根据任一前述权利要求所述的方法。

21.一种第一网络设备(600)，包括：

处理器(602)；

存储器(604)；

一个或多个麦克风(606)，被配置用于检测所述第一语音输入和第二语音输入；

以及计算机指令，存储在所述存储器(604)中并且可由所述处理器(602)执行以使所述处理器(602)执行根据任一前述权利要求所述的方法。