CN107910007A

CN107910007A - 语音接口设备上的多用户个性化

Info

Publication number: CN107910007A
Application number: CN201710918757.2A
Authority: CN
Inventors: 肯尼斯·米克斯特; 迭戈·米伦多卡萨多; 徐碧波
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-03
Filing date: 2017-09-30
Publication date: 2018-04-13
Anticipated expiration: 2037-09-30
Also published as: GB201714819D0; GB2556656B; CN210325195U; US20230045838A1; US10304463B2; JP6906048B2; KR102458751B1; US10748543B2; JP2021119403A; EP3519935A1; JP2019535035A; US20190221215A1; GB2556656A; US11527249B2; US20210012779A1; KR20220158769A; JP7225301B2; CN208444593U; CN107910007B; KR102311684B1

Abstract

本申请涉及语音接口设备上的多用户个性化。在具有一个或多个麦克风和扬声器的电子设备处的方法包括接收第一自由形式的语音输入；将第一语音输入与语音模型集比较，所述语音模型集与关联于电子设备的多个用户相关联，其中，所述语音模型针对该电子设备被训练；基于该比较，确定第一语音输入对应于多个用户中的第一用户；以及根据该确定，呈现响应。

Description

语音接口设备上的多用户个性化

相关申请

本申请与下述申请有关，其全部内容通过引入整体并入本文：

2016年5月10日提交的题为“Implementations for Voice Assistant onDevices”的美国临时专利申请No.62/334,434；以及

2016年5月13日提交的题为“LED Design Language for Visual Affordance ofVoice User Interfaces”的美国临时专利申请No.62/336,566。

技术领域

所公开的实施方式通常涉及语音接口和相关设备，包括但不限于用于在语音接口设备处应对多个用户的方法和***。

背景技术

集成有麦克风的电子设备已被广泛用于从用户收集语音输入并且根据语音输入实现语音激活的功能。例如，许多现有技术的移动设备包括语音助理功能(例如Siri，Google助理)，所述语音助理功能被配置为使用语音输入来发起电话呼叫、进行餐馆搜索、在地图上开始导航、创建日历事件、向社交网络添加帖子、识别歌曲，并且完成许多其他任务。

位置(例如，家内的房间或空间)可以包括包含语音助理***的多个设备和这些设备的一个或多个用户。由于设备尤其被配置为能够访问和呈现用户特定的信息，所以期望语音助理设备能够平稳地处理多个用户并且能够向适当的用户提供用户特定的信息。为了减少用户混淆，还期望在语音助理设备中，存在负责响应用户语音输入的领导者。此外，还期望在语音助理设备位于嘈杂位置的情况下，语音助理设备包括降噪措施。

发明内容

因此，需要一种具有语音助理***的电子设备和/或语音助理服务器***，其包括用于处理多个用户、用于多设备协调以确定领导者以及用于降噪的方法和***。设备和/或服务器***可以被配置为基于与语音模型的比较来识别语音输入的说话者，并且个性化对所识别的说话者的响应。设备和/或服务器***还可以被配置为协商在多个设备中响应说话者的领导者。设备和/或服务器***进一步可以被配置为检测设备周围的环境是否足够嘈杂，其中，唤醒设备的热词语音输入的替代方法是可取的。

根据一些实现方式，一种方法包括在具有一个或多个麦克风、扬声器、一个或多个处理器以及存储由一个或多个处理器执行的一个或多个程序的存储器的电子设备处：接收第一自由形式的语音输入；将所述第一语音输入与语音模型集比较，所述语音模型集与关联于所述电子设备的多个用户相关联，其中，所述语音模型针对所述电子设备被训练；基于所述比较，确定所述第一语音输入对应于所述多个用户中的第一用户；以及根据所述确定，呈现响应。

在一些实施方式中，一种电子设备包括一个或多个麦克风、扬声器、一个或多个处理器；以及存储将由所述一个或多个处理器执行的一个或多个程序的存储器。所述一个或多个程序包括用于执行下述操作的指令：接收第一自由形式的语音输入；将所述第一语音输入与语音模型集比较，所述语音模型集与关联于所述电子设备的多个用户相关联，其中，所述语音模型针对所述电子设备被训练；基于所述比较，确定所述第一语音输入对应于所述多个用户中的第一用户；以及根据所述确定，呈现响应。

在一些实施方式中，一种非瞬时计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令，当所述指令由具有一个或多个麦克风、扬声器、以及一个或多个处理器的电子设备执行时，使所述电子设备执行包括下述的操作：接收第一自由形式的语音输入；将所述第一语音输入与语音模型集比较，所述语音模型集与关联于所述电子设备的多个用户相关联，其中，所述语音模型针对所述电子设备被训练；基于所述比较，确定所述第一语音输入对应于所述多个用户中的第一用户；以及根据所述确定，呈现响应。

根据一些实施方式，一种方法包括在多个电子设备的第一电子设备处进行以下操作，多个电子设备中的每个电子设备包括一个或多个麦克风、扬声器、一个或多个处理器和存储由所述一个或多个处理器执行的一个或多个程序的存储器：检测语音输入，确定用于所检测到的语音输入的质量得分，将所述质量得分传达给所述多个电子设备中的其他设备，接收由所述多个电子设备中的其他设备生成的用于检测所述其他设备的语音输入的质量得分，根据确定所述第一电子设备生成的质量得分在所生成的质量得分和所接收到的语音输入的质量得分中为最高，输出对所检测到的语音输入的可听和/或可视响应，其中，所述多个电子设备中的其他设备放弃对所检测到的语音输入输出可听响应，并且确定根据由所述第一电子设备生成的质量得分在用于由所述多个电子设备生成的语音输入的质量得分中不是最高，放弃对所检测到的语音输入输出响应。

根据一些实施方式，多个电子设备的第一电子设备包括，以及多个电子设备的每一个电子设备包括，一个或多个麦克风、扬声器、一个或多个处理器和存储将由一个或多个处理器执行的一个或多个程序的存储器。所述一个或多个程序包括用于下述的指令：检测语音输入，确定用于所检测到的语音输入的质量得分，将所述质量得分传达到所述多个电子设备中的其他设备，接收由所述多个电子设备中的其他设备生成的用于检测所述其他设备的语音输入的质量得分，根据确定所述第一电子设备生成的质量得分在所生成的质量得分和所接收到的用于语音输入的质量得分中为最高，输出对所检测到的语音输入的可听和/或可视响应，其中，所述多个电子设备中的其他设备放弃对所检测到的语音输入输出可听响应，并且根据确定由所述第一电子设备生成的质量得分在用于由所述多个电子设备生成的语音输入的质量得分中不是最高，放弃对所检测到的语音输入输出响应。

根据一些实施方式，一种非瞬时计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令，当由多个电子设备的第一电子设备执行所述指令时，所述指令使所述电子设备执行包括下述操作的指令，其中所述多个电子设备中的每一个包括一个或多个麦克风、扬声器和一个或多个处理器：检测语音输入，确定用于所检测到的语音输入的质量得分，将所述质量得分传达给所述多个电子设备中的其他设备，接收由所述多个电子设备中的其他设备生成的用于检测所述其他设备的语音输入的质量得分，根据确定所述第一电子设备生成的质量得分在所生成的质量得分和所接收到的语音输入的质量得分中为最高，输出对所检测到的语音输入的可听和/或可视响应，其中，所述多个电子设备中的其他设备放弃对所检测到的语音输入输出可听响应，并且根据确定由所述第一电子设备生成的质量得分在用于由所述多个电子设备生成的语音输入的质量得分中不是最高，放弃对所检测到的语音输入输出响应。

在一些实施方式中，一种方法包括在具有一个或多个麦克风、扬声器、一个或多个处理器以及存储由一个或多个处理器执行的一个或多个程序的存储器的电子设备处，执行以下操作，所述电子设备被配置为由包括基于语音的可供件的多个可供件的任何一个唤醒：确定电子设备周围的环境的噪声分布；确定噪声分布是否干扰基于语音的可供件；并且根据确定所述噪声分布干扰所述基于语音的可供件，向用户呈现使用多个可供件中除基于语音的可供件外的一可供件来唤醒所述电子设备的提示。

在一些实施方式中，电子设备包括一个或多个麦克风、扬声器、一个或多个处理器以及存储由一个或多个处理器执行的一个或多个程序的存储器。所述电子设备被配置为由包括基于语音的可供件的多个可供件中的任何一个唤醒。一个或多个程序包括用于下述的指令：确定电子设备周围的环境的噪声分布；确定噪声分布是否干扰基于语音的可供件；并且根据确定所述噪声分布干扰所述基于语音的可供件，向用户呈现使用多个可供件中除基于语音的可供件外的一可供件来唤醒所述电子设备的提示。

一种非瞬时计算机可读存储介质，存储有一个或多个程序。一个或多个程序包括指令，当由电子设备执行所述指令时，使所述电子设备执行包括下述的操作的指令，所述电子设备具有一个或多个麦克风、扬声器和一个或多个处理器，所述电子设备被配置为由包括基于语音的可供件的多个可供件的任何一个唤醒：确定电子设备周围的环境的噪声分布；确定噪声分布是否干扰基于语音的可供件；并且根据确定所述噪声分布干扰所述基于语音的可供件，向用户呈现使用多个可供件中除基于语音的可供件外的一可供件来唤醒所述电子设备的提示。

附图说明

专利或申请文件包含以彩色制成的至少一个附图。在请求和支付必要费用时，将由官方提供具有彩色图的本专利或专利申请公开文本的副本。

为了更好地理解各个所述的实施方式，应当结合以下附图，参考下面的实施方式的描述，其中，在整个附图中，相同的参考数字表示相应的部件。

图1是根据一些实施方式的示例性操作环境。

图2A-2B是示出根据一些实施方式，在操作环境中，被用作采集用户语音命令的语音接口的示例性电子设备的框图。

图3是示出根据一些实施方式在操作环境的服务器***中的示例***器的框图。示例***器是语音助理服务器之一。

图4A-4B是示出根据一些实施方式的示例性设备领导协商的图。

图5是示出根据一些实施方式响应用户的语音输入的方法的流程图。

图6是示出根据一些实施方式在多个语音接口设备之间协商设备领导的方法的流程图。

图7是示出根据一些实施方式减轻语音接口设备周围的噪声的方法的流程图。

图8A和8B是根据一些实施方式的语音激活的电子设备的正视图和后视图。

图8C是根据一些实施方式的语音激活的电子设备的俯视图，以及图8D根据一些实施方式示出了由用于指示语音处理状态的全色LED阵列显示的六个可视图案。

在附图的若干视图中，相同的参考数字表示相应的部件。

具体实施方式

虽然数字革命已经提供了从公开地分享信息到全球社区感的许多好处，新兴的新技术通常会引起消费者的混淆、怀疑和恐惧，阻止消费者从技术中受益。电子设备被方便地用作语音接口以从用户接收语音输入并且启动语音激活的功能，由此提供了免视和免提的解决方案以接近现有和新兴技术。具体地说，即使用户的视线被遮挡并且手已满，在电子设备处接收到的语音输入也可以携带指令和信息。为了实现免提和免视的体验，语音激活的电子设备不断地或仅在触发时监听环境(即，不断地处理从环境收集到的音频信号)。另一方面，用户身份与用户的语音和用户使用的语言链接。为了保护用户身份，这些语音激活的电子设备通常被用在在受保护、受控的非公共场合中和隐私的空间(例如家和汽车)。

根据一些实施方式，语音激活的电子设备将语音输入的说话者识别为一个或多个关联或注册的用户之一。对所识别的说话者，对由电子设备输出的对说话者的响应进行个性化。通过将说话者的语音输入与训练的语音模型集或语音指纹相比较来识别说话者。在一些实施方式中，由说话者用来训练语音模型的单词和短语不一定是预定义的，并且为了电子设备识别说话者，上述单词和短语不需要匹配稍后由说话者说出的词。

此外，根据一些实施方式，多个语音激活的电子设备与它们中的领导协商以响应来自用户的语音输入。协商可以基于哪个设备最佳地检测到语音输入，或者哪个设备最接近用户。另外，如果语音输入与设备之一特别相关，那么该设备可以被选择以进行响应，即使它本将不会被选择进行响应；在确定哪个设备将是领导中，考虑包括在语音输入中的命令与特定设备的相关性(例如，“停止音乐”应该是指播放音乐的设备)和接收语音输入的设备的状态(例如，“屏幕开启”与“屏幕关闭”)。

此外，根据一些实施方式，语音激活的设备确定周围噪声是否足够干扰对用于唤醒设备的所说热词的检测(在一些实施方式中，“热词”是用户定义的或预定义的词语或短语，用来“唤醒”或触发语音激活的设备来关注/响应在该热词后发出的口头命令)或对其他所说的语音输入的检测。如果噪声十分干扰，设备会指示此情形，并且向用户提供使用唤醒设备的替代方式或其他降噪措施的提示。

语音助理操作环境

图1是根据一些实施方式的示例性操作环境。操作环境100包括一个或多个语音激活的电子设备190(例如，电子设备190-1至190-N)。一个或多个语音激活的电子设备190可以位于一个或多个位置中(例如，均在建筑物的房间或空间中，遍及建筑物内的多个空间或遍及多个建筑物中(例如，一个在房屋中，以及一个在用户的车中))。环境100可选地包括与语音激活的电子设备190通信的一个或多个设备(例如，媒体设备，智能家居设备)(未示出)。

电子设备190通过通信网络110，通信地耦合到语音助理服务的语音助理服务器112。电子设备190中的一个或多个通信地耦合到本地网络104，本地网络104通信地耦合到通信网络110(例如，电子设备190-1和190-2)。在一些实施方式中，本地网络104是在网络接口(例如，路由器)处实现的局域网。通信地耦合到本地网络104的电子设备190还可以通过本地网络104彼此通信。

可选地，电子设备190中的一个或多个通信地耦合到通信网络110，并且不在本地网络104(例如，电子设备190-N)。例如，这些电子设备190不在与本地网络104相对应的Wi-Fi网络上，而是通过蜂窝连接，连接到通信网络110。在一些实施方式中，通过语音助理服务器112，完成本地网络104上的电子设备190和不在本地网络104上的电子设备190之间的通信。电子设备190注册在语音助理服务的设备注册表118中，并且由此被语音助理服务器112所知。

环境100还包括一个或多个内容主机114。内容主机114可以是根据用户语音请求，流式传输或以其他方式获得内容的远程内容源。内容主机114可以是语音助理服务器112根据用户语音请求从其检索信息的信息源。

在一些实施方式中，电子设备190可以与在用户域中具有相应用户账户的多个用户相关联。这些用户中的任何一个以及与设备无关的用户可以向电子设备190产生语音输入。电子设备190从这些用户102-1至102-M(包括相关和不相关联的用户)接收这些语音输入，并且电子设备190和/或语音助理服务器112继续对于语音输入识别产生语音输入的用户。通过用户识别，可以对所识别的用户个性化对该语音输入的响应。

在一些实施方式中，环境100包括多个电子设备190(例如，设备190-1至190-N)。设备190遍及整个环境100(例如，均在建筑物中的房间或空间内，遍布该建筑物，一些在建筑物内，而一些不在建筑物内)。当用户102进行语音输入时，每个设备190接收输入或不接收输入(例如，如果设备距离用户太远)。接收该输入的设备以不同的质量等级接收输入；在设备处输入的语音的样本的质量基于多个因素，包括但不限于用户离设备的距离以及设备周围的噪声。多个设备190基于语音输入的样本的质量在它们自己中协商领导者以响应用户，并且从用户102接收进一步的语音输入。

在一些实施方式中，电子设备190确定设备周围的噪声水平，并且确定所确定的噪声水平是否足够高以干扰识别语音输入中的热词，从而干扰通过语音唤醒设备，或者干扰识别语音请求。如果噪声水平被确定为足够高以致干扰，则电子设备190向用户指示噪声水平是干扰的，并且向用户给出用户应该使用另一种方式来唤醒电子设备190(例如，激活按钮)的提示。可以以相同的展示，完成干扰噪声水平的指示和使用另一种方式唤醒设备的提示(例如，照亮唤醒按钮)。

在一些实施方式中，一个或多个媒体设备被设置在操作环境100中以向一个或多个占用者提供媒体内容、新闻和/或其他信息。在一些实施方式中，由媒体设备提供的内容被存储在本地内容源中、从远程内容源(例如，内容主机114)流式传输，或者本地生成(例如，通过本地文本到语音处理器，向操作环境的一个或多个占用者读取定制的新闻简报、电子邮件、文本、本地天气报告等)。在一些实施方式中，媒体设备包括将媒体内容直接输出给受众(例如，一个或多个用户)的媒体输出设备，以及通过网络连接到媒体输出设备的流媒体内容的演播(cast)设备。媒体输出设备的示例包括但不限于电视(TV)显示设备和音乐播放器。演播设备的示例包括但不限于机顶盒(STB)、DVD播放器、TV盒和流媒体设备，诸如Google的Chromecast^TM流媒体设备。

在一些实施方式中，媒体设备包括接收、处理和响应占用者的语音命令的一个或多个语音激活的电子设备190。在一些实施方式中，语音激活的电子设备190通过以下方式来响应语音命令：生成并且提供对语音命令的口头响应(例如，响应问题“现在时间”，说出当前时间)；流式传输用户请求的流媒体内容(例如，“播放Beach Boys歌曲”)；阅读新闻报道或为用户定制的每日新闻简报；播放存储在个人助理设备或本地网络上的媒体项目；改变状态或操作该操作环境100内的一个或多个其他连接的设备(例如，打开/关闭灯、仪器或媒体设备，锁定/解锁锁，开窗等)；或经由网络110，向服务器发出相应的请求。

在一些实施方式中，一个或多个电子设备190被置于操作环境100中以收集用于启动包括媒体设备的媒体播放功能的各种功能的音频输入。在一些实施方式中，这些语音激活的电子设备190(例如，设备190-1至190-N)被置于媒体设备附近，例如与演播设备和媒体输出设备处于相同的房间中。替选地，在一些实施方式中，语音激活的电子设备190被置于具有一个或多个智能家居设备但不具有任何媒体设备的房间中。替选地，在一些实施方式中，将语音激活的电子设备190被置于没有联网的电子设备的位置中。此外，在一些实施方式中，建筑物中的房间或空间可以具有多个电子设备190。

在一些实施方式中，电子设备190包括至少一个或多个麦克风、扬声器、处理器和存储由处理器执行的至少一个程序的存储器。扬声器被配置为允许电子设备190将语音消息和其他音频(例如，可听的音调)传送到电子设备190在操作环境100中所处的位置，从而广播音乐、报告音频输入处理的状态、与电子设备190的用户通话或向其发出指令。作为语音消息的替代，视觉信号也能被用来向电子设备190的用户提供关于音频输入处理的状态的反馈。当电子设备190是移动设备(例如，移动电话或平板电脑)时，其显示屏被配置为显示关于音频输入处理的状态的通知。

在一些实施方式中，电子设备190是语音接口设备，其在语音助理服务器112和/或可选地云播服务服务器(未示出)的帮助下，联网以提供语音识别功能。例如，电子设备190包括向用户提供音乐，并且允许免视和免提访问语音助理服务(例如Google Assistant)的智能扬声器。可选地，电子设备190是以下中的一个：台式或膝上型计算机、平板电脑、包括麦克风的移动电话、包括麦克风和可选的扬声器的演播设备、包括麦克风和扬声器的音频***(例如，立体声***，扬声器***，便携式扬声器)、包括麦克风和扬声器的电视机，以及包括麦克风和扬声器以及可选的显示器的汽车中的用户接口***。可选地，电子设备190是简单且低成本的语音接口设备。通常，电子设备190可以是能够网络连接并且包括麦克风、扬声器以及用于与语音助理服务交互的程序、模块和数据的任何设备。假定简化和低成本的电子设备190，电子设备190包括发光二极管(LED)阵列而不是全屏显示器，并且在LED上显示可视图案以指示音频输入处理的状态。在一些实施方式中，LED是全色LED，并且LED的颜色可以被用作将在LED上显示的可视图案的一部分。在2016年5月13日提交的题为“LEDDesign Language for Visual Affordance of Voice User Interfaces”的美国临时专利申请No.62/336,566中描述了使用LED来显示可视图案以便传达信息或设备状态的多个示例，其全部内容通过引用整体并入本文。在一些实施方式中，使用与正在执行语音处理操作的电子设备相关联的常见显示器上显示的特征图像，显示指示语音处理操作的状态的可视模式。

在一些实施方式中，LED或其他可视显示器被用来传达多个参与电子设备的总语音处理状态。例如，在存在多个语音处理或语音接口设备(例如，如'566申请的图4A中所示并如以下图8A中所复制的多个电子设备400；多个电子设备190)的操作环境中，与相应的电子设备相关联的彩色LED组(例如，如'566申请的图4A所示的LED 404)能被用来传达哪一电子设备正在监听用户，以及哪一监听设备是领导者(其中，“领导者”设备通常负责对由用户发出的口头请求进行响应)。

更一般地，'566申请描述了(例如，参见第[0087]-[0100]段)用于使用LED的集合可视地指示电子设备的各种语音处理状态的“LED设计语言”，各种语音处理状态诸如为“热词检测状态和监听状态”、“思维模式或工作模式”以及“响应模式或说话模式”。在一些实施方式中，根据'566申请的“LED设计语言”的一个或多个方面，使用LED组，表示本文所述的语音处理操作的独特状态。这些可视指示器还能与由正在执行语音处理操作的电子设备生成的一个或多个可听指示器结合。由此产生的音频和/或视频指示器将使语音交互环境中的用户理解该环境中的各种语音处理电子设备的状态，并且以自然、直观的方式有效地与这些设备交互。

当来自电子设备190的语音输入被用来经由演播设备，***体输出设备时，电子设备190有效地实现对演播使能的媒体设备的新的控制等级。在具体的示例中，电子设备190包括具有远场语音接入的休闲娱乐扬声器，并且用作用于语音助理服务的语音接口设备。电子设备190能被置于操作环境100的任何区域中。当多个电子设备190被分布在多个房间中时，它们变成被同步以从所有这些房间提供语音输入的演播音频接收器。

具体来说，在一些实施方式中，电子设备190包括具有连接到语音激活的语音助理服务(例如Google Assistant)的麦克风的Wi-Fi扬声器。用户能经由电子设备190的麦克风发出媒体播放请求，并且要求语音助理服务在电子设备190本身上或在另一连接的媒体输出设备上播放媒体内容。例如，用户能够通过向Wi-Fi扬声器说出“OK Google，在客厅电视上播放猫视频”，发出媒体播放请求。然后，语音助理服务通过使用默认或指定的媒体应用程序在请求的设备上播放请求的媒体内容来完成媒体播放请求。

在一些实施方式中，用户能经由电子设备190的麦克风发出关于已经播放过或正在显示设备上播放的媒体内容的语音请求(例如，用户可以询问关于媒体内容的信息，通过在线商店购买媒体内容，或撰写和发布有关媒体内容的社交帖子)。

在一些实施方式中，当用户经过房屋时，用户可能希望与一个或多个电子设备190进行当前媒体会话，并且从其请求这类服务。这要求语音助理服务来将当前媒体会话从第一演播设备转移到未直接连接到第一演播设备或者不知道第一演播设备存在的第二演播设备。在媒体内容转移后，耦合到第二演播设备的第二输出设备继续从音乐曲目或视频片段内的精确点，播放耦合到第一演播设备的第一输出设备先前播放的媒体内容，其中，放弃在第一输出设备上播放媒体内容。在一些实施方式中，接收转移媒体会话的请求的电子设备190能满足该请求。在一些实施方式中，接收转移媒体会话的请求的电子设备190将请求中继到另一设备或***(例如，集线器设备，语音助理服务器112)以进行处理。

此外，在一些实施方式中，用户可以经由电子设备190的麦克风，发出对信息或对执行动作或操作的请求。所请求的信息可以是私人的(例如，用户的电子邮件，用户的日历事件，用户的航班信息等)、非私人的(例如，体育比分，新闻报道等)或两者之间(例如，用户偏好的球队或体育的得分，来自用户偏好的来源的新闻报道等)。所请求的信息或动作/操作可能涉及访问个人信息(例如，通过用户提供的支付信息购买数字媒体项目，购买实体商品)。电子设备190以对用户的语音消息响应来响应该请求，其中，响应可以包括例如对完成该请求的附加信息的请求、已经完成请求的确认、不能完成该请求的通知等。

在一些实施方式中，除了语音激活的电子设备190和媒体设备(例如，输出设备和演播设备)之外，操作环境100还可以包括一个或多个智能家居设备(未示出)。集成的智能家居设备包括在智能家居网络中相互无缝集成和/或与中央服务器或云计算***无缝集成的智能、多感应的联网的设备，以提供各种有用的智能家居功能。在一些实施方式中，智能家居设备被置于操作环境100中与演播设备和/或输出设备的位置相同的位置处，因此，相对于演播设备或输出设备接近地或以已知距离被放置。

操作环境100中的智能家居设备可以包括但不限于一个或多个智能的、多感应的联网的恒温器；一个或多个智能的、联网的多感应危险检测器；一个或多个智能的、多感应的联网的入口通道接口设备(以下称为“智能门铃”和“智能门锁”)以及一个或多个智能的、多感应的联网的报警***；一个或多个智能的、多感应的联网的摄像机***以及一个或多个智能的、多感应的联网的墙壁开关以及一个或多个智能的、多感应的联网的电源插座。在一些实施方式中，图1的操作环境100中的智能家居设备包括多个智能的、多感应的联网的设备(以下称为“智能家电”)，例如冰箱、炉子、烤箱、电视机、洗衣机、干衣机、灯、立体声、对讲***、车库门开启器、落地风扇、吊扇、壁式空调、泳池加热器、灌溉***、安全***、空间加热器、窗户AC单元、电动通风口等。在一些实施方式中，这些智能家居设备类型中的任何一个可以配备麦克风和本文所述的一个或多个语音处理能力，以便全部或部分地响应来自占用者或用户的语音请求。

在一些实施方式中，演播设备和语音激活的电子设备190的每一个能够与其他演播设备、语音激活的电子设备190、智能家居设备、中央服务器或云计算***和/或联网的其他设备(例如，客户端设备)通信并且共享信息。可以使用各种定制或标准无线协议(例如，IEEE802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth Smart、ISA 100.11a、WirelessHART、MiWi等)中的任何一个和/或各种定制或标准有线协议(例如，以太网、HomePlug等)中的任何一个或任何其他适当的通信协议——包括在本文档的提交日期尚未开发的通信协议，执行数据通信。

通过通信网络(例如，因特网)110，演播设备、电子设备190和智能家居设备可以与服务器***(本文也称为中央服务器***和/或云计算***)通信。可选地，服务器***可以与制造商、支持实体，或与关联于演播设备和显示给用户的媒体内容的服务提供商相关联。因此，服务器***包括处理由语音激活的电子设备190收集的音频输入的语音助理服务器112、提供所显示的媒体内容的一个或多个内容主机114，基于分布式设备终端，创建虚拟用户域的云播服务服务器和保持分布式设备终端在虚拟用户环境中的记录的设备注册表118。分布式设备终端的示例包括但不限于演播设备、媒体输出设备、电子设备190和智能家居设备。在一些实施方式中，这些分布式设备终端被链接到虚拟用户域中的用户账户(例如，Google用户账户)。应意识到，由电子设备190收集的音频输入的处理能在电子设备190处本地地、在语音助理服务器112处、在另一智能家居设备(例如，集线器设备)处或在上述所有或子集的一些组合处被执行。

将意识到，在一些实施方式中，电子设备190还在没有智能家居设备的环境中起作用。例如，即使在没有智能家居设备的情况下，电子设备190也可以响应用户对信息或执行动作，和/或启动或控制各种媒体播放功能的请求。电子设备190还能在广泛的环境中起作用，包括但不限于车辆、船舶、商业或制造环境中。

在一些实施方式中，电子设备190由包括热词(也称为“唤醒字”)的语音输入“唤醒”(例如，以激活用于电子设备190上的语音助理服务的界面、以使电子设备190处于电子设备190准备好接收对语音助理服务的语音请求的状态)。在一些实施方式中，如果在至少预定时间量(例如5分钟)内，相对于接收到语音输入，电子设备190为空闲，则电子设备190需要唤醒；预定时间量对应于语音接口会话或对话超时前所允许的空闲时间量。该热词可以是词或短语，并且可以是预先默认的和/或可由用户定制(例如，用户可以将用于特定电子设备190的昵称设置为设备的热词)。在一些实施方式中，可以存在能唤醒电子设备190的多个热词。用户可以说出热词，等待来自电子设备190的确认响应(例如，电子设备190输出问候)，并且然后进行第一语音请求。替选地，用户可以将热词和第一语音请求结合在一个语音输入中(例如，语音输入包括热词，以及热词后的语音请求)。

在一些实施方式中，由用户对电子设备190说的语音输入通常可以是自由形式或自然语言语音。也就是说，语音输入不需要严格限于预定句法内的预定词和短语集，可能有某些例外(例如，用户需要首先说出热词以唤醒设备)。

在一些实施方式中，除向电子设备190说出热词外，电子设备190包括唤醒设备的一个或多个另外的方式或可供件(affordance)。另外的方式或可供件可以包括例如激活电子设备190上的预定义的按钮或触摸传感器(例如，触摸感应阵列)。

在一些实施方式中，根据一些实施方式，语音激活的电子设备190与操作环境100的演播设备、客户端设备或服务器***交互。语音激活的电子设备190被配置为从邻近语音激活的电子设备190的环境接收音频输入。可选地，电子设备190存储音频输入并且至少部分地在本地处理音频输入。可选地，电子设备190经由通信网络110，将所接收到的音频输入或部分处理过的音频输入传送到语音助理服务器112，以进行进一步处理。演播设备被配置为从一个或多个内容主机114获得媒体内容或因特网内容，以在耦合到演播设备的输出设备上显示。在一些实施方式中，演播设备和语音激活电子设备190在用户域中彼此链接，更具体地，经由用户域中的用户账户彼此相关联。演播设备的信息和电子设备190的信息与用户账户相关联地存储在设备注册表118中。在一些实施方式中，存在用于演播设备的设备注册表和用于语音激活的电子设备190的注册表。在一些实施方式中，云播服务服务器管理演播设备注册表，以及语音助理服务器112管理语音激活的电子设备注册表。演播设备注册表可以参考在用户域中相关联的语音激活的电子设备注册表中的设备，或反之亦然。

在一些实施方式中，电子设备190中的一个或多个(以及一个或多个演播设备)经由客户端设备(未示出)被授权给语音助理服务。在一些实施方式中，语音激活的电子设备190不包括任何显示屏，并且依赖于客户端设备以在授权过程期间提供用户界面，并且对演播设备也类似。具体地，客户端设备安装有使得用户界面便于对在客户端设备附近设置的新的语音激活的电子设备190进行授权的应用。用户可以在客户端设备的用户界面上发送请求，以启动对需要被授权的新电子设备190的授权过程。在接收到授权请求后，客户端设备与需要被授权的新电子设备190建立短距离通信链路。可选地，基于近场通信(NFC)、蓝牙、蓝牙低能量(BLE)等建立短距离通信链路。然后，客户端设备将与无线局域网(WLAN)(例如，本地网络104)相关联的无线配置数据传送到新的或电子设备190。无线配置数据至少包括WLAN安全代码(即，服务集标识符(SSID)密码)，以及可选地，包括SSID、网际网协议(IP)地址、代理配置和网关配置。在经由短距离通信链路接收到无线配置数据后，新电子设备190解码和恢复无线配置数据，并且基于无线配置数据加入WLAN。

在一些实施方式中，在客户端设备上显示的用户界面上输入附加的用户域信息，并且被用来将新电子设备190链接到用户域中的账户。可选地，附加用户域信息经由短距离通信链路，与无线通信数据一起被传送到新电子设备190。可选地，在新设备加入WLAN后，附加用户域信息经由WLAN被传送到新电子设备190。

只要电子设备190已经被授权进入用户域，则可以经由多个控制路径来控制其他设备及其相关联的活动。根据一个控制路径，使用安装在客户端设备上的应用来控制其他设备及其相关联的活动(例如，媒体播放活动)。替选地，根据另一控制路径，电子设备190被用来实现对其他设备及其相关活动的免视和免提控制。

媒体输出设备上的语音激活的媒体播放

在一些实施方式中，在演播设备和语音激活的电子设备190均被授权并且链接到公共用户域后，语音激活的电子设备190能被用作语音用户界面以使得对流式传输到不包含远程控制的演播设备、客户端设备或其他第二屏幕设备的媒体内容进行免视和免提控制。例如，用户可以给出诸如“在客厅扬声器上播放Lady Gaga”的语音命令。Lady Gaga音乐曲目或视频片段被流式传输到与“客厅扬声器”相关联的演播设备。不涉及客户端设备，也不涉及任何演播设备应用或加载在客户端设备上的媒体播放应用。

在一些实施方式中，代理服务(例如，语音助理服务，云播服务)将语音激活的电子设备190通信地链接到演播设备，并且可以在不涉及客户端上的任何应用的情况下使演播设备进行演播。具体地，由电子设备190捕获并且记录语音消息，并且语音消息被配置为在媒体输出设备上请求媒体播放。可选地，电子设备190在本地部分地处理语音消息。可选地，电子设备190经由通信网络110，将语音消息或部分处理过的语音消息传送到语音助理服务器112，以进行进一步处理。语音助理服务器112或云播服务服务器确定语音消息包括第一媒体播放请求，并且第一媒体播放请求包括在媒体输出设备上播放媒体内容的用户语音命令和对媒体输出设备的用户语音指定。用户语音命令进一步至少包括第一媒体播放应用的信息(例如，YouTube和Netflix)和需要播放的媒体内容(例如LadyGaga音乐)。

根据对媒体输出设备的语音指定，语音助理服务器112或云播服务服务器在设备注册表118中识别在用户域中与电子设备190相关联并且耦合到媒体输出设备的演播设备。演播设备被配置为执行一个或多个媒体播放应用，用于***体输出设备播放从一个或多个媒体内容主机114接收到的媒体内容。然后，云播服务服务器向演播设备发送包括第一媒体播放应用程序的信息和需要播放的媒体内容的第二媒体播放请求。在接收到云播服务服务器发送的信息后，演播设备执行第一媒体播放应用并且***体输出设备播放所请求的媒体内容。

在一些实施方式中，对媒体输出设备的用户语音指定包括目的地媒体输出设备的描述。语音助理服务器112或云播服务服务器根据目的媒体输出设备的描述，在设备注册表118中，识别多个媒体输出设备中的目的地媒体输出设备。在一些实施方式中，目的地媒体输出设备的描述至少包括品牌(“三星电视”)或媒体输出设备的位置(“我的客厅电视”)。

在媒体输出设备间进行语音激活的媒体转移

在一些实施方式中，操作环境100包括第一演播设备(未示出)和耦合到第一演播设备的第一输出设备(未示出)。操作环境100还包括第二演播设备(未示出)和耦合到第二演播设备的第二输出设备(未示出)。演播设备可选地位于操作环境100中的相同位置(例如，客厅)或两个不同位置(例如，两个房间)中。每个演播设备被配置为从内容主机114获得媒体内容或互联网内容，以在耦合到相应的演播设备的输出设备上显示。第一演播设备和第二演播设备二者均可通信地耦合到语音助理服务器112，可选的，耦合到云播服务服务器和内容主机114。

操作环境100进一步包括可通信地耦合到语音助理服务器112，以及可选地，耦合到云播服务服务器的一个或多个语音激活的电子设备190。在一些实施方式中，语音激活的电子设备190独立于演播设备和输出设备而被放置。例如，电子设备190被置于无演播设备或输出设备的房间中。在一些实施方式中，在接近第一演播设备和第一输出设备处放置第一电子设备190，例如第一电子设备190、第一演播设备和第一输出设备位于同一房间中。可选地，第二电子设备190独立于或接近第二演播设备和第二输出设备而被放置。

当在第一输出设备上播放媒体内容时，用户可以向任何电子设备190发送语音命令以请求将媒体内容的播放转移到第二输出设备。语音命令包括媒体播放转移请求。在一种情况下，在用户移动到目的地位置前，用户向在第一演播设备附近放置的电子设备190发出语音命令。替选地，在另一种情况下，在用户到达目的地位置后，用户向在第二设备附近放置的电子设备190发出语音命令。

语音命令被传送到语音助理服务器112。语音助理服务器112向第一演播设备发送媒体显示信息请求，以请求目前正在耦合到第一演播设备的第一输出设备上播放的媒体内容的即时媒体播放信息。然后，第一演播设备将请求的即时播放信息返回给语音助理服务器112，即时播放信息至少包括第一媒体播放应用(例如，YouTube)的信息、当前正在播放的媒体内容(例如，“Lady Gaga-National Anthem-Super Bowl 2016”)，以及与媒体内容的播放有关的时间位置。然后，第二演播设备从语音助理服务器112接收到包括即时播放信息的媒体显示请求，并且根据即时播放信息，执行控制第二输出设备以从该时间位置播放媒体内容的第一媒体播放应用。

例如，当在第一输出设备上播放音乐播放列表时，用户说出“在我的客厅扬声器上播放”。第一输出设备停止播放当前播放的歌曲，并且在客厅扬声器上恢复停止的歌曲。当歌曲完成时，客厅扬声器继续播放先前在第一输出设备上播放的音乐播放列表上的下一首歌曲。因此，当用户在操作环境100中走动时，媒体内容的播放将无缝地跟随用户，同时仅涉及有限的用户干预(即，给出语音命令)。

操作环境中涉及的各个设备

图2A-2B是示出根据一些实施方式的被用作语音接口以在操作环境(例如，操作环境100)中收集用户语音命令的示例性电子设备190的框图。电子设备190通常包括一个或多个处理单元(CPUs)502、一个或多个网络接口504、存储器506和用于互连这些组件(有时称为芯片组)的一个或多个通信总线508。电子设备190包括便于用户输入的一个或多个输入设备510，诸如按钮512、触摸感应阵列514，以及一个或多个麦克风516。电子设备190还包括一个或多个输出设备518，包括一个或多个的扬声器520，可选的LED 522的阵列以及可选的显示器524。在一些实施方式中，LED 522的阵列是全色LED的阵列。在一些实施方式中，取决于设备类型，电子设备190具有LED 522的阵列，或显示器524或两者。在一些实施方式中，电子设备190还包括位置检测设备526(例如，GPS模块)和一个或多个传感器528(例如，加速度计、陀螺仪、光传感器等)。

存储器506包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器件，以及可选地，包括非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储设备。存储器506可选地包括远离一个或多个处理单元502的一个或多个存储设备。存储器506或替选地存储器506内的非易失性存储器包括非瞬时计算机可读存储介质。在一些实施方式中，存储器506或存储器506的非瞬时计算机可读存储介质存储以下程序、模块和数据结构，或其子集或超集：

●操作***532，包括用于处理各种基本***服务和执行硬件相关任务的过程；

●网络通信模块534，用于经由一个或多个网络接口504(有线或无线)和诸如因特网、其他广域网、局域网(例如，本地网络104)、城域网等的一个或多个网络110，将电子设备190连接到其他设备(例如，服务器***140、一个或多个演播设备、一个或多个客户端设备、一个或多个智能家居设备和其他电子设备190)；

●输入/输出控制模块536，用于经由一个或多个输入设备接收输入，并且经由一个或多个输出设备518，实现在电子设备190处呈现信息，包括：

○语音处理模块538，用于处理在电子设备190周围的环境中收集的音频输入或语音消息，或者准备所收集的音频输入或语音消息以在语音助理服务器112中进行处理；

○LED控制模块540，用于根据电子设备190的设备状态，在LED 522上生成可视图案；以及

○触摸感应模块542，用于感应电子设备190的上表面上(例如，触摸传感器阵列514上)的触摸事件；

●语音激活的设备数据544，用于至少存储与电子设备190相关联的数据，包括：

○语音设备设置546，用于存储与电子设备190本身相关联的信息，包括通用设备设置(例如，服务层、设备模型、存储容量、处理能力、通信能力等)、用户域中的一个或多个用户账户的信息、关于处理非注册用户时的限制的设置，以及与由LED 522显示的一个或多个可视图案相关联的显示规格；

○语音控制数据548，用于存储音频信号、语音消息、响应消息和与电子设备190的语音接口功能相关的其他数据；

○语音模型数据550，用于存储对应于与电子设备190相关联的用户域中的用户的语音模型或语音指纹；

●设备领导关系模块552，用于响应用户语音输入，确定多个电子设备190中的领导者；

●语音模型训练模块554，用于训练和生成语音模型或语音指纹550，其能被用来识别和区分与电子设备190相关联的用户域中的用户；

●响应模块556，用于执行包括在由语音助理服务器112生成的语音请求响应中的指令，并且在一些实施方式中，生成对某些语音输入的响应；以及

●噪声模块558，用于确定电子设备190周围的噪声水平，并且提供干扰噪声水平的指示和使用替代方式来唤醒电子设备的提示。

在一些实施方式中，语音处理模块538包括以下模块：

●用户识别模块560，用于识别和区分向电子设备190提供语音输入的用户；

●热词识别模块562，用于确定语音输入是否包括用于唤醒电子设备190的热词并且识别语音输入中的热词；

●请求识别模块564，用于确定包括在语音输入中的用户请求；和

●识别质量模块566，用于确定语音输入中的热词和/或请求的识别的质量的度量(例如，分数)。

在一些实施方式中，噪声模块558包括以下模块：

●识别分析模块568，用于相对于特定电子设备190，分析不同噪声级如何影响语音处理模块538(例如，特别是热词识别模块562和/或请求识别模块564)的操作；

●用户音量阈值模块568，用于对于离电子设备190的指定距离，确定用户将向电子设备190发出语音输入的最高舒适音量级；

●噪声确定模块572，用于确定电子设备190周围的噪声级和噪声分布；

●噪声分布模块574，用于训练和生成干扰语音输入中的热词和/或请求的识别的噪声的噪声分布；和

●噪声分布存储576，用于存储被确定为干扰的噪声分布。

上述识别的元件的每一个可以被存储在前面提及的一个或多个存储器件中，并且对应于用于执行上述功能的指令集。上述识别的模块或程序(即，指令集)不需要被实现为单独的软件程序、过程、模块或数据结构，由此，在各个实施方式中，可以组合或者以其他方式重新排列这些模块的各种子集。在一些实施方式中，存储器506可选地存储上述识别的模块和数据结构的子集。此外，存储器506可选地存储上文未描述的附加模块和数据结构。在一些实施方式中，存储在存储器506中的程序、模块和/或数据的子集能被存储在服务器***140/语音助理服务器112上和/或由服务器***140/语音助理服务器112执行。

在一些实施方式中，上述存储器506中的一个或多个模块是模块的语音处理库的一部分。语音处理库可以被实现和嵌入在各种设备上。在2016年5月10日提交的题为“Implementations for Voice Assistant on Devices”的美国临时专利申请No.62/334,434中描述了语音处理库的示例，其全部内容通过引用全部并入本文。

图3是示出根据一些实施方式的操作环境(例如，操作环境100)的服务器***140中的示例***器的框图。示例***器是语音助理服务器112中的一个。服务器140通常包括一个或多个处理单元(CPUs)702、一个或多个网络接口704、存储器706和用于互连这些组件(有时称为芯片组)的一个或多个通信总线708。服务器140能包括便于用户输入的一个或多个输入设备710，诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕获相机，或其他输入按钮或控件。此外，服务器140能使用麦克风和语音识别或相机以及手势识别来补充或替换键盘。在一些实施方式中，服务器140包括一个或多个相机、扫描仪或光电传感器单元，用于捕获例如印刷在电子设备上的图形系列码的图像。服务器140还能包括一个或多个输出设备712，其能够呈现用户界面和显示内容，包括一个或多个扬声器和/或一个或多个视觉显示器。

存储器706包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器件；以及可选地，包括诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储设备的非易失性存储器。存储器706可选地包括远离一个或多个处理单元702的一个或多个存储设备。存储器706或替选地，存储器706内的非易失性存储器包括非瞬时计算机可读存储介质。在一些实施方式中，存储器706或存储器706的非瞬时计算机可读存储介质存储以下程序、模块和数据结构，或其子集或超集：

●操作***716，包括处理各种基本***服务和执行硬件相关的任务的过程；

●网络通信模块718，用于经由一个或多个网络接口704(有线或无线)和例如因特网、其他广域网、局域网、城域网等的一个或多个网络110，将服务器***140连接到其他设备(例如，服务器***140中的各种服务器、客户端设备、演播设备、电子设备190和智能家居设备)；

●用户界面模块720，用于实现在客户端设备处呈现信息(例如，用于呈现应用826-830、小部件、网站及其网页，和/或游戏、音频和/或视频内容、文本等的图形用户界面)。

●命令执行模块721，用于在服务器端执行(例如，游戏、社交网络应用、智能家居应用和/或用于控制客户端设备、演播设备、电子设备190和智能家居设备并且评论由这些设备捕获的数据的其他基于Web或非Web的应用)，包括下述中的一个或多个：

○演播设备应用722，被执行以提供用于与演播设备相关联的设备配置、设备控制和用户账户管理的服务器侧功能；

○一个或多个媒体播放器应用724，被执行以提供用于与相应的媒体源相关联的媒体显示和用户账户管理的服务器侧功能；

○一个或多个智能家居设备应用726，被执行以提供用于相应智能家居设备的设备配置、设备控制、数据处理和数据评论的服务器侧功能；以及

○语音助理应用728，被执行以安排对从电子设备190接收的语音消息的语音处理，或者直接处理语音消息以提取用户语音命令和用于用户语音命令的一个或多个参数(例如，指定演播设备或另一电子设备190)；和

●服务器***数据730，至少存储与媒体显示的自动控制(例如，在自动媒体输出模式和后续模式中)相关联的数据，包括下述的一个或多个：

○客户端设备设置732，用于存储与一个或多个客户端设备相关联的信息，包括通用设备设置(例如，服务层、设备模型、存储容量、处理能力、通信能力等)以及用于自动媒体显示控制的信息；

○演播设备设置734，用于存储与演播设备应用722的用户账户相关联的信息，包括以下中的一个或多个：账户访问信息、用于设备设置的信息(例如，服务层、设备模型、存储容量、处理能力、通信能力等)，以及用于自动媒体显示控制的信息；

○媒体播放器应用设置736，用于存储与一个或多个媒体播放器应用724的用户账户相关联的信息，包括以下中的一个或多个：账户访问信息、媒体内容类型的用户偏好、评论历史数据和用于自动媒体显示控制的信息；

○智能家居设备设置738，用于存储与智能家居应用726的用户账户相关联的信息，包括以下中的一个或多个：账户访问信息、用于一个或多个智能家居设备的信息(例如，服务层、设备模型、存储容量、处理能力、通信能力等)；

○语音助理数据740，用于存储与语音助理应用728的用户账户相关联的信息，包括以下中的一个或多个：账户访问信息、用于一个或多个电子设备190的信息(例如，服务层、设备模型、存储容量、处理能力、通信能力等)；

○用户数据742，用于存储与使用域中的用户相关联的信息，包括用户的订阅(例如，音乐流媒体服务订阅、视频流服务订阅、时事通讯订阅)、用户设备(例如，在设备注册表118中注册、与各个用户相关联的设备)、用户账户(例如，用户的电子邮件账户、日历账户、财务账户)和其他用户数据；以及

○用户语音简档744，用于存储用户域中的用户的语音简档，包括例如，用户的语音模型或语音指纹以及用户的舒适音量级阈值。

●设备注册模块750，用于管理耦合到语音助理服务器112的设备注册表118；

●设备领导关系仲裁模块780，用于在操作环境在电子设备190之间仲裁设备领导关系的确定；

●噪声模块790，用于确定电子设备190周围的噪声水平；以及

●语音处理模块7100，用于处理电子设备190周围的环境中收集的音频输入或语音消息。

在一些实施方式中，语音助理服务器112主要负责处理语音输入和降噪，因此，在存储器706的各个模块中包括上文参考图2A至图2B所述的存储器506中的程序、模块和数据结构中的一个或多个(例如，包括在语音处理模块538内的程序、模块和数据结构被包括在语音处理模块7100中，以及包括在噪声模块558内的程序、模块和数据结构被包括在噪声模块790中)。电子设备190将捕获的语音输入传送到语音助理服务器112以进行处理，或者首先预处理语音输入，并且将预处理过的语音输入传送到语音助理服务器112以进行处理。在一些实施方式中，语音助理服务器112和电子设备190具有关于语音输入和降噪的处理的一些共享的和一些分开的责任，以及图2A-2B中所示的程序、模块和数据结构可以被包括或分配在语音助理服务器112和电子设备190中。图2A-2B中所示的其他程序、模块和数据结构(例如，语音模型数据550、语音模型训练模块554)或其类似物也可以被包括在语音助理服务器112中。

上述识别的元件中的每一个可以被存储在前述存储器件中的一个或多个中，并且对应于用于执行上述功能的指令集。上述识别的模块或程序(即，指令集)不需要被实现为单独的软件程序、过程、模块或数据结构，由此，在各个实施方式中，可以组合或重新排列这些模块的各种子集。在一些实施方式中，存储器706可选地存储上述模块和数据结构的子集。此外，存储器706可选地存储上文未描述的附加模块和数据结构。

示例性设备领导关系协商

图4A-4B示出了根据一些实施方式的多个电子设备(例如，电子设备190)之间的设备领导关系协商的示例。在具有多个电子设备190的操作环境(例如，操作环境100)中，当环境中的用户进行语音输入时，多个电子设备190中的一个或多个检测和接收语音输入。电子设备190确定它们自己中的领导者，以响应用户的语音输入并检测来自用户的进一步的语音输入。

图4A示出了操作环境(例如，操作环境100)中的三个语音激活的电子设备1002-1至1002-3(例如，电子设备190)。它们都处于与用户(未示出)相同的空间中，例如在同一房间中。用户进行语音输入(例如，话语)(未示出)，以及三个电子设备1002-1至1002-3以不同质量程度或级别检测和捕获语音输入的样本。在电子设备处捕获的语音输入的样本的质量可能受一个或多个因素的影响，包括但不限于周围噪声、设备能力、设备相对于用户的距离和位置、设备在空间内的位置。

在一些实施方式中，每个电子设备确定由该电子设备捕获的语音输入的各个样本的质量水平。质量水平可以被表示为得分或其他一些值。例如，在图4A中，每个电子设备1002已经捕获了用户的语音输入的各个样本，并且已经被确定了用于各个样本的得分；电子设备1002-1处的样本被计分为0.98(在0至1的比例尺上，1对应于最高质量)，电子设备1002-2处的样本被计分为0.37，以及电子设备1002-3处的样本被计分为0.61。在一些实施方式中，电子设备1002处的识别质量模块566(图2B)确定各个捕获的样本的质量水平。在一些实施方式中，用于评估语音样本的质量的标准包括例如样本的音量或振幅、存在或不存在噪声(例如，串扰、嘶嘶声)和相应的等级、存在或不存在失真(例如，回波)及相应的等级、样本的频率分布等。

电子设备1002使得彼此传送它们的质量得分。由此，例如，电子设备1002-1从电子设备1002-2和1002-3接收质量得分。电子设备1002-2从电子设备1002-1和1002-3接收质量得分。电子设备1002-3从电子设备1002-1和1002-2接收质量得分。如果所有电子设备1002均在同一本地网络(例如，图1的本地网络104)上，则电子设备1002通过本地网络交换得分。例如，电子设备1002可以通过在本地网络内发送多播消息，将其质量得分发送到其他电子设备1002。如果电子设备1002中的至少一个不在本地网络上，则将得分发送到服务器***140，并且语音助理服务器112的设备领导关系仲裁模块780将得分分发到电子设备1002。替选地，设备领导关系仲裁模块780基于接收到的得分，确定哪个设备是领导者，并且将确定的结果发送给设备。在一些实施方式中，电子设备1002通过语音助理服务器112和设备注册表118，发现彼此及其位置(例如，设备1002周期性地在语音助理服务器112签到，并且基于设备注册表118中的信息，被告知与同一用户账户相关联的其他设备)。

在一些实施方式中，如果多个电子设备1002中的仅一个捕获到语音输入的样本(例如，其他电子设备1002距离用户太远以致不能检测到语音输入)，则捕获到语音输入样本的设备被确定为领导者。在一些实施方式中，如果电子设备1002未能捕获语音输入的样本(例如，设备离用户太远以致不能检测到语音输入)，则对语音输入，该设备的质量得分为0.00或空(null)分；排除具有“0.00”或空分的设备争当领导者。

当电子设备1002从其他电子设备1002接收到得分时，电子设备将其质量得分与来自其他设备的得分比较。如果其得分不是得分中最好的(例如，最高)，则电子设备(例如，通过断电或“关闭”扬声器520)放弃对语音输入输出响应(例如，由服务器***140产生的响应)。如果其得分在得分中是最好的，则电子设备对语音输入和后续语音输入输出响应；该设备被确定为“领导者”。在一些实施方式中，领导者继续检测和处理或预处理来自用户的后续语音输入(无论是处理语音输入并且生成响应的领导者、预处理语音输入以将其传送到生成响应的语音助理服务器112的领导者，还是简单地将语音输入传送到生成响应的语音助理服务器112的领导者)，以及非领导放弃接收、检测和处理来自用户的后续语音输入。

在一些实施方式中，响应用户的语音输入(例如，包括该热词的语音输入)来执行领导者确定，以唤醒设备。在一些实施方式中，可以响应于来自用户的每一语音输入或者以来自用户的预定数目的语音输入为间隔(例如，以每隔5个来自用户的语音输入)来执行领导者确定。以这种方式，可以更新领导者确定以考虑改变条件(例如，用户四处走动、设备周围的噪声水平改变等)。

在一些实施方式中，可以基于附加标准，推翻基于质量得分的领导者确定。也就是说，即使仅基于质量得分设备不被确定为领导者，也可以将该设备确定为领导者。附加标准可以包括例如语音输入中的请求类型或命令和设备的状态。例如，如果语音输入包括开始或停止播放视频的请求，则该请求与能够播放视频的电子设备1002(例如，智能电视、演播设备)特别相关，，而与仅作为音频设备的电子设备1002(例如，音响***、便携式扬声器)不特别相关。当请求与电子设备1002特别相关时，即使该设备的质量得分不是最高，该电子设备1002也可以被确定为领导者。在一些实施方式中，如果请求与该空间中的多个电子设备特别相关，那么在与该请求特定相关的设备中，具有最佳质量得分的电子设备被确定为领导者。作为另一示例，如果语音输入中的命令是改变设备状态的命令(例如，“屏幕关闭”)，则处于可应用该命令的状态的设备(例如，屏幕当前处于开启状态的智能电视)可以被确定为领导者，尽管质量得分较低，而处于不适用该命令的状态的设备(例如，屏幕已经关闭的智能电视)不被考虑为领导者。此外，如果请求/命令不与设备1002中的任何设备特别相关(例如，设备1002是通过语音接口服务器112与非语音接口的演播设备通信的仅音频的语音接口设备，以及命令是经由演播设备播放视频的请求)，则基于上述质量得分来进行领导者确定。在一些实施方式中，多个领导者确定标准(例如，如上所述，质量得分、命令的相关性和设备的状态)可以被实现为多步骤领导者确定(例如，确定命令的相关性和设备状态以缩小领导者候选，然后基于质量得分确定领导者；确定具有最高得分的设备，然后校验命令相关性或设备状态标准是否适用于其他设备)或被实现为加权确定(例如，每个标准被考虑并且以加权得分进行加权)。

图4B示出图4A中的电子设备1002之间的设备领导关系协商的结果。电子设备1002-1确定其质量得分在三个电子设备1002中是最好的，并且假定为将响应输出给用户的领导者。电子设备1002-2和1002-3确定它们的质量得分在三个电子设备1002中不是最好的，并且断电它们的扬声器520以及放弃向用户输出响应。

在一些实施方式中，不是领导者的电子设备1002也断电其麦克风516，由此，不会检测到来自用户的进一步语音输入；领导者设备还是有关检测和处理来自用户的进一步语音输入的领导者。在一些实施方式中，不是领导者的电子设备1002维持对它们的麦克风516供电，并且提供助理以重新检测来自用户的进一步语音输入。例如，领导者设备和非领导者设备接收和记录语音输入的各个样本，并且将它们传送到语音助理服务器112，语音助理服务器112可以一起使用多个样本以更好地处理语音输入(例如，聚集样本，选择最佳样本以进行处理，比较样本以获得每个样本的最好部分)。

在一些实施方式中，电子设备1002在接收到来自用户的每一语音输入后，重复如上所述的领导者确定过程。在一些实施方式中，在预定数量的语音输入的间隔后，电子设备1002重复如上所述的领导者确定过程(例如，以每隔五个语音输入或以每隔10个语音输入，再次确定领导者)。

在一些实施方式中，在确定领导者后，电子设备1002中的一个或多个输出可视响应(例如，连同对语音输入的音频响应，确定的领导者显示它是领导者的通知或预定LED灯图案)。

在一些实施方式中，每个电子设备1002无论何时正监听用户(例如，接收和检测用户的语音输入)，则输出正监听的可视指示(例如，预定的LED灯图案)，然后，按照领导者确定，仅领导者设备对语音输入输出响应。例如，当用户正在说出语音输入时，电子设备1002-1至1002-3显示可视指示以指示它们在接收语音输入时正在监听，在此之后，按照领导者确定，仅领导者设备1002-1输出响应。

在一些实施方式中，电子设备1002通过使用一组LED显示特有的可视图案——诸如'566申请的图4G中所示的图案中的一个(如下图8D所示)，指示其正在监听。可视图案能是静态的(不变)或动态的(通过各个LED的颜色、亮度、占空比等变化，给出移动的印象)。在一些实施方式中，电子设备1002通过使用其LED显示另一特有可视图案，来指示它是多个监听设备中的领导者。类似地，参与协商以确定哪个设备应该是领导者的多个监听设备能通过使用它们各自的LED显示另一特有可视图案，来指示正进行协商

多用户个性化的示例性过程

图5是示出根据一些实施方式，响应用户的语音输入的方法1100的流程图。在具有一个或多个麦克风、扬声器、一个或多个处理器和存储由一个或多个处理器执行的一个或多个程序的存储器的的电子设备190处，实现方法1100。

电子设备190经由一个或多个麦克风516a从用户接收第一语音输入(1102)。电子设备190经由麦克风516捕获和记录第一语音输入的样本。在一些实施方式中，从语音输入不需要严格地限于预定句法内的预定词和短语的集合的意义上，第一语音输入是自由形式的语音输入，语音输入可以例如是自然语言的语音输入。

电子设备190将第一语音输入与语音模型集比较(1104)，语音模型集与关联于电子设备190的多个用户相关联，其中，对电子设备训练语音模型。用户识别模块560将记录的第一语音输入的样本与语音模型数据550中的语音模型比较。语音模型数据550包括用户域中与电子设备190相关联的一个或多个用户(例如，注册到电子设备190的用户)的语音模型或语音指纹。在一些实施方式中，由语音模型训练模块554，对电子设备训练语音模型。

基于比较，电子设备190确定第一语音输入对应于多个用户的第一用户(1106)。例如，用户识别模块560识别语音模型数据550中与第一语音输入最佳匹配的语音模型，并且根据识别到匹配，确定说出第一语音输入的用户是匹配的语音模型对应的用户。在一些实施方式中，用户识别模块560还确定置信度或质量的一些其他类似度量或语音模型和语音输入之间的匹配的接近度，并且仅在匹配为最佳并且置信度高于预定阈值时，才识别匹配。

电子设备190根据该确定呈现响应(1108)。在一些实施方式中，电子设备190根据确定和第一语音输入生成响应。响应包括所识别的第一用户的身份的指示，以让第一用户知道他已被识别。响应还包括对第一语音输入中的任何语音请求的响应。例如，响应于唤醒电子设备190的热词语音输入，电子设备190生成并且呈现(例如，输出)包括第一用户的姓名的语音问候(例如，“你好，David(Hello,David)”，“早上好，Mary(Good morningMary)”)。该响应可以包括另一设备执行操作的语音输出和/或指令。对执行操作的指令，包括所识别的用户身份的指示，使得相对于所识别的用户执行操作。例如，如果操作是播放来自音乐订阅的音乐，则该设备播放来自所识别的用户的音乐订阅的音乐。

在一些实施方式中，响应是可听语音输出，并且呈现响应包括输出可听语音输出。电子设备190通过扬声器520输出可听语音。

在一些实施方式中，电子设备基于第一语音输入确定用户请求，并且根据确定的用户请求生成响应。在一些实施方式中，根据确定和第一语音输入生成响应包括这些确定和生成操作。除了识别语音输入的说话者之外，电子设备190确定语音输入中的用户请求(例如，媒体回放请求、对新闻标题的请求、对待读取的电子邮件的请求等)，并且生成响应于该请求的应答(例如，请求的可听确认，对用户进行可听询问以获得为实现该请求而所需的更多信息)。

在一些实施方式中，所确定的用户请求包括唤醒电子设备的请求，并且响应包括可听问候，其中，问候语包括所确定的第一用户的身份的指示。如果语音输入包括热词(即，语音输入是请求唤醒电子设备190)，则生成的响应包括包含第一用户的身份的可听问候语(例如，“早上好Dave(Good morning Dave)”)。问候语指示电子设备190已经被唤醒并且指示由电子设备190识别的用户的身份。

在一些实施方式中，所确定的用户请求包括对信息的请求，并且根据所确定的请求生成响应包括相对于第一用户获得所请求的信息。如果请求是对信息的请求(例如，读取用户的电子邮件的请求，大声说出用户的即将到来的日历事件的请求)，电子设备190访问所识别到的用户的信息(例如，用户的电子邮件，用户的日历)以生成响应。在一些实施方式中，相对于所确定的第一用户，获得所请求的信息包括访问与第一用户相关联的账户；为了对该响应获得所识别到的用户的信息，电子设备190访问用户的账户(例如，用户的电子邮件账户，用户的日历账户)。在电子设备190，用户账户信息可以被存储在语音设备设置546中。

在一些实施方式中，电子设备190接收第二语音输入，将第二语音输入与该语音模型集比较，基于比较，确定第二语音输入对应于多个用户中的第二用户，并且根据确定第二语音输入对应于第二用户来呈现响应。在一些实施方式中，电子设备根据该确定和第二语音输入生成响应。如果与电子设备190相关联的不同用户对电子设备190说出语音输入，电子设备190以与识别第一用户的方式类似的方式来识别不同的用户-将不同用户的语音输入与语音模型比较并且找到最佳匹配。通过识别不同的用户，电子设备190能够基于新的识别生成响应。因此，电子设备190能够通过将语音输入与语音模型比较并且基于比较来识别说话的用户，在相关用户之间切换，从而用户不必明确地说出将电子设备190的焦点从一个用户切换到另一用户的命令。

在一些实施方式中，电子设备190接收第三语音输入，将第三语音输入与该语音模型集比较，基于比较，确定第三语音输入不对应于多个用户中的任何一个，以及根据确定第三语音输入不对应于多个用户中的任何一个，限制电子设备的功能性。如果不与电子设备190相关联的用户对电子设备190发出语音输入，则电子设备190接收该语音输入并且尝试识别用户。由于该用户不与电子设备190相关联，因此在语音模型数据550中没有相关联的语音模型，电子设备190确定该用户是未识别的用户。对于该未识别的用户，电子设备190可以限制其功能性，以防止访问个人或隐私信息。例如，电子设备190可以仅作用于来自身份不明的用户、涉及非隐私或非个人信息的请求(例如，对体育得分、新闻、股票、天气的请求)。在一些实施方式中，电子设备190可以(例如通过忽略未识别的用户的语音输入或以指示该用户未被授权的响应进行应答)拒绝未识别的用户访问电子设备190的任何功能性和语音助理服务。在一些实施方式中，对未识别的用户的功能性的限制是基于设备的设置(例如，语音设备设置546)。设备所有者可以设置例如是否对未识别的用户完全限制功能性，或仅限制到不涉及个人或隐私信息的功能性。

在一些实施方式中，电子设备包括显示器，并且在显示器上显示所确定的第一用户的身份的指示。如果电子设备190包括显示器524，则电子设备190可以在显示器524上显示所识别的用户的身份(例如，显示所识别的用户的姓名，显示具有所识别的用户的姓名的问候语，显示所识别的用户的照片、化身或与所识别的用户相关联的其他图像)以指示电子设备190已经识别出语音输入的说话者，并且给予用户验证识别的机会。

在一些实施方式中，电子设备包括显示器，并且在显示器上显示与所确定的第一用户相关联的可视用户界面。如果电子设备190包括显示器524，则电子设备190可以显示通过所识别的用户识别到的可视用户界面(例如，具有与所识别的用户相关联的主题的用户界面被应用)。在一些实施方式中，电子设备190在LED 522上显示与所识别的用户相关联的图案。

在一些实施方式中，电子设备190接收语音输入(例如，捕获语音输入的样本)，如在步骤1102，并且将语音输入发送到语音助理服务器112。语音助理服务器112将语音输入和语音模型集(例如用户语音简档744中的语音模型)比较，语音模型集与关联于电子设备190的多个用户相关联，并且基于该比较，确定说出语音输入的用户的身份，类似于步骤1104和1106。语音助理服务器112生成对语音输入的响应，并且将生成的响应传送到电子设备190，电子设备190输出该响应。在一些实施方式中，语音助理服务器112识别用户，并且将用户识别结果传送到电子设备190，电子设备190根据从语音助理服务器112接收到的识别结果来生成且输出响应。

在一些实施方式中，电子设备190接收语音输入(例如，捕获语音输入的样本)，如在步骤1102中，对语音输入执行预处理，并且将预处理过的语音输入发送到语音助理服务器112。预处理可以包括识别说话用户——如在步骤1104和1106中，以及识别结果伴随着语音输入一起到语音助理服务器112。替选地，由语音助理服务器112执行用户识别。语音助理服务器112接收预处理过的语音输入，如果电子设备190尚未执行，则识别说话用户(类似于步骤1104和1106)，生成对语音输入的响应，并且将生成的响应传送到电子设备190，电子设备190输出该响应。

在一些实施方式中，电子设备190接收语音输入(例如，捕获语音输入的样本)，并且将语音输入发送到语音助理服务器112，或执行预处理并且将预处理过的语音输入发送到语音助理服务器112。语音助理服务器112将语音输入与语音模型集(例如，用户语音简档744中的语音模型)比较，语音模型集与关联于电子设备190的多个用户相关联，并且基于该比较，确定说出该语音输入的用户的身份，如在步骤1104和1105中。语音助理服务器112生成对语音输入的响应，并且将生成的响应传送到电子设备190，电子设备190输出响应。在一些实施方式中，语音助理服务器112识别用户，并且将用户识别结果传送到电子设备190，电子设备190根据从语音助理服务器112接收到的识别结果生成并且输出响应。

如上所述，通过将语音模型或语音指纹与语音输入相匹配来识别说话的用户。在一些实施方式中，电子设备190被配置为执行用于捕获和训练语音模型或语音指纹的过程。例如，当用户将与电子设备190相关联时(例如，注册到该设备)，电子设备190(例如，语音模型训练模块554)可以通过逐步的过程，启动并且引导用户与电子设备相关联190，以捕获和训练用户的语音模型。在该过程中，电子设备190可以提示用户说出一个或多个词或短语(例如，包括多个不同音素的热词、短语或句子)，以便生成和训练语音模型。语音模型训练模块554可以指示LED控制模块540照亮LED 522上的各种可视图案，以向用户指示语音模型捕获和训练过程的状态。在一些实施方式中，电子设备190将训练的语音模型存储在语音模型数据550中，并且可选地，将训练的语音模型传送到语音助理服务器112以进行存储(例如，存储在用户语音简档744中)。

在一些实施方式中，指定用户对每个与用户相关联的电子设备190具有语音模型。对特定设备，在各个设备190处训练语音模型，从而考虑特定设备和各个设备周围的环境。

在一些实施方式中，语音模型训练过程由语音助理服务器112结合电子设备190来执行。例如，当用户将与电子设备190相关联时，语音助理服务器112处的语音模型训练模块(未示出)将指令和音频输出传送到电子设备190。电子设备190执行指令并且输出音频输出，以通过与由上述语音模型训练模块554执行的训练过程类似的训练过程引导用户。电子设备190捕获对训练过程的用户语音输入，并且将所捕获的语音输入传送到语音助理服务器112，该语音助理服务器生成语音模型并且将它们存储在用户语音简档744中。在一些实施方式中，语音助理服务器112向电子设备190传送与该电子设备190相关联的用户的语音模型以进行存储(例如，在语音模型数据550中)和本地使用。

在一些实施方式中，当为用户生成和训练语音模型时，还对用户生成认证令牌。认证令牌向语音助理服务器112认证用户。将该说话者的语音输入与和不同用户相关联的语音模型相匹配。当对说话者语音输入，发现匹配的语音模型时，使用与匹配的语音模型相关联的用户账户的认证令牌。在一些实施方式中，认证令牌是预先生成的，但是最初不与任何语音模型相关联。训练过程将作为训练过程的结果训练的语音模型与预先生成的认证令牌相关联。在一些实施方式中，在电子设备190识别到语音输入的说话者后，将语音输入(或包含用户请求和从语音输入确定的相关参数的数据)连同与说话者相关联的认证令牌传送到到语音助理服务器112；认证令牌向语音助理服务器112认证说话者。在一些实施方式中，说话者可以与已经授权给任何说话者的用户的认证令牌相关联。例如，与电子设备190相关联的用户可以配置他的账户以允许任何人使用他的音乐服务登录证书，使得其他用户可以访问用户设备190附近的任何连接的输出设备(例如，扬声器)。

在一些实施方式中，电子设备190通过检测与说话用户相关联的附近的关键设备(例如，使用蓝牙低能量或超声波RF)来识别说话的用户。

在一些实施方式中，内容主机114生成对语音输入的可听响应。例如，语音输入可以包括对与用户相关联的银行账户中的余额的请求(例如，“我的Chase账户中的余额是多少？”)。对于这样的语音输入，如上所述，电子设备190或语音助理服务器112识别说话的用户。在识别到用户并且(例如从用户数据742)获得银行账户信息后，电子设备190或语音助理服务器112将账户余额的查询(例如，通过应用编程接口(API))传送到与银行账户所在银行相关联的内容主机114(例如，银行的数据库***)。银行内容主机从其数据库中获取余额，并且生成响应请求的可听响应。银行内容主机向电子设备190或语音助理服务器112传送可听响应(语音助理服务器112然后将可听响应传送到电子设备190)，并且电子设备190输出可听响应。以这种方式，减少了网络和设备上以数字形式传送和存储账户数据，这提升了用户数据的安全性和隐私。

设备领导关系协商的示例性过程

图6是示出根据一些实施方式的多个语音接口设备之间协商设备领导者的方法1200的流程图。方法1200在两个或以上电子设备190(电子设备1002)中的电子设备(例如，设备1002-1,1002-2或1002-3)处实现，其中两个或以上电子设备中的每一个包括一个或多个麦克风、扬声器、一个或多个处理器和存储由一个或多个处理器执行的一个或多个程序的存储器。

电子设备190检测语音输入(1202)。电子设备190经由麦克风516，捕获和记录来自用户的语音输入的样本。

电子设备190确定检测到的语音输入的质量得分(1204)。电子设备190确定所捕获的语音输入样本的质量的得分、评级或一些其他度量。样本的质量可能受到多种因素的影响，包括用户与设备的距离、用户说出语音输入的音量、周围环境和噪音、设备的能力等。在一些实施方式中，用于评估语音样本的质量的标准包括例如样本的音量或振幅、存在或不存在噪声(例如，串扰，嘶嘶声)及其相应的等级、存在或不存在失真(例如，回波)及相应的等级、样本的频率分布等。

电子设备190将质量得分传送到多个电子设备中的其他设备(1206)，并且接收由多个电子设备中的其他设备生成的质量得分，以检测由其他设备输入的语音(1208)。电子设备190将其语音输入样本的得分传送到多个电子设备的其他设备，并且从其他设备接收其各自的语音输入样本的得分。

根据确定对该语音输入第一电子设备生成的质量得分在所生成的质量得分和所接收到的质量得分中为最高，电子设备输出对检测到的语音输入的可听响应和/或可视响应(例如，通知或LED灯图案)，并且多个电子设备中的其他设备放弃对检测到的语音输入输出可听响应(1210)。在一些实施方式中，相对于语音输入的设备中，具有最高得分(或更一般地，最佳得分)的设备可选地预处理其相应的语音输入样本，并且将语音输入样本或预处理过的语音输入样本传送到语音助理服务器112，语音助理服务器112生成对语音输入的响应，包括可听输出(例如，用户请求的语音确认、读出用户所请求的信息)，并且将响应传送到设备。替选地，具有最高得分的设备生成对语音输入的响应。在任一情况下，具有最高得分的设备(例如，设备1002-1)输出响应，以及具有较低得分的其他设备(例如，设备1002-2和1002-3)不输出响应。在一些实施方式中，作为领导者的电子设备(例如，在本文的示例中，具有最高得分的设备)还是关于处理或预处理来自用户的后续语音输入的领导者。

根据确定由第一电子设备生成的质量得分在由多个电子设备生成的语音输入的质量得分中不是最高，电子设备190放弃对检测到的语音输入输出响应。如果设备确定其得分相对于语音输入在设备(例如，设备1002-2和1002-3)中不是最高的，则设备不输出对语音输入的响应。例如，具有较低得分的设备关闭其扬声器520。在一些实施方式中，具有较低得分的设备也关闭其麦克风516，使得仅具有最高得分的设备检测进一步的语音输入。在一些实施方式中，根据确定由第一电子设备生成的质量得分在由多个电子设备生成的语音输入的质量得分之中不是最高，电子设备190放弃对检测到的语音输入输出可听响应，并且可以输出可视响应(例如，设备未被确定为领导者的可视指示)。

在一些实施方式中，多个电子设备通过本地网络通信地耦合，并且通过本地网络执行传送和接收。电子设备190通过本地网络(例如，本地网络104)通信地耦合，并且可以通过本地网络彼此传送它们的得分。例如，设备可以通过本地网络多播或广播其得分。

如果设备中的至少一个不在本地网络上，则设备可以将其得分传送到语音助理服务器112。在一些实施方式中，设备领导关系仲裁模块780将接收到的得分传送到设备，以及设备确定它们各自的得分是否最高。在一些实施方式中，设备领导关系仲裁模块确定哪个得分是最高的，并且将确定的结果传送给设备。在一些实施方式中，集线器设备可以包括类似于设备领导关系仲裁模块780的模块并且以相似的角色起作用。

在一些实施方式中，质量得分包括语音输入的检测置信度；质量得分是语音输入样本的置信度值。在一些实施方式中，质量得分包括语音输入的检测的信噪比等级；质量得分是语音输入样本的信噪比等级或值(例如，信噪比)。

在一些实施方式中，电子设备190识别语音输入中的命令，并且根据命令的类型与第一电子设备相关的确定，对检测到的语音输入输出可听和/或可视响应。如果语音输入中的命令或请求被识别为与检测语音输入的多个设备的一设备特别相关的命令或请求，则该设备对语音输入输出响应，并且其他设备放弃输出响应，即使命令具有特定相关性的设备相对于语音输入在设备中不具有最高分。具有特定相关性的命令或请求的示例包括视频回放请求(例如，对于演播或电视设备)和音乐回放请求(例如，对于音频***或扬声器***)。此外，如果命令或请求识别到用户希望特定设备完成请求(例如，命令“在我的卧室TV上播放视频”与卧室中的TV设备特别相关，因为命令明确地识别该设备)，或者命令/请求包括适用于设备的当前状态的设备状态参数(例如，“屏幕关闭”命令与屏幕为开启的设备相关，而与没有屏幕或屏幕关闭的设备无关)，则命令或请求与设备特定相关。

以这种方式，多个设备捕获语音输入的各个样本，并且确定关于哪个样本是最佳的。基于该确定，其中一个设备响应语音输入和来自用户的进一步语音输入。在一些实施方式中，多个设备对每个语音输入或者以预定数量的语音输入的间隔，重复上述过程(例如，以每隔5个语音输入或以每隔10个语音输入，再次确定领导者)。

在一些实施方式中，多个设备检测语音输入并且将其捕获的语音输入样本发送到语音助理服务器112。语音助理服务器112聚合样本或选择最佳质量样本，以处理或比较样本以获得每个样本的最后部分。在一些实施方式中，当多个设备正在接收和检测语音输入时，设备分别显示正在监听用户的可视指示(例如，预定义的LED图案)。

降噪的示例性过程

图7是示出根据一些实施方式的降低语音接口设备周围的噪声的方法1300的流程图。方法1300在具有一个或多个麦克风、扬声器、一个或多个处理器和存储由一个或多个处理器执行的一个或多个程序的存储器的电子设备190处实现。电子设备190被配置为通过包括基于语音的可供件(例如包括热词的语音输入)的多种可供件中的任何一种来唤醒。

电子设备确定电子设备周围的环境的当前噪声分布(1302)。电子设备190在空闲时，可以运行噪声模块558(例如，噪声确定模块572)以确定其周围环境的噪声分布。在一些实施方式中，确定当前噪声分布包括确定噪声的噪声等级(例如，音量)，以及捕获和处理环境噪声。该处理可以包括例如确定环境噪声的频率和其它参数。

电子设备确定噪声分布是否干扰基于语音的可供件(1304)。电子设备190将所确定的噪声分布与噪声分布存储576中的噪声分布比较，并且评估噪声分布的参数，以确定噪声分布(即，电子设备190周围的当前噪声)是否干扰基于语音的可供件。

根据确定噪声分布干扰基于语音的可供件，电子设备190向用户呈现使用除基于语音的可供件之外的多个可供件的一可供件来唤醒电子设备的提示(1306)。提示指示用户使用除基于语音的可供件之外的另外的可供件来唤醒电子设备190。在一些实施方式中，提示也是或以其他方式包括周围噪声干扰热词识别的指示。例如，电子设备190可以在LED522上显示预定图案，该预定图案指示周围噪声干扰基于语音的可供件并且向用户提示用户应该使用另一可供件来唤醒设备(例如，按下按钮512、对触摸传感器阵列514进行触摸、使用通信地耦合到电子设备190的另一设备——例如智能电话)。指示/提示可以被显示在显示器524上，或通过扬声器520输出为声音或音调。

在一些实施方式中，其中，基于语音的可供件包括口语热词。基于语音的可供件包括用户说出唤醒电子设备190的热词，如上所述。

在一些实施方式中，确定噪声分布是否干扰基于语音的可供件包括，确定噪声分布是否消极地影响识别由电子设备检测的语音输入中的热词。电子设备190确定周围的噪声(由噪声分布表示的)是否将消极地影响电子设备190检测/识别热词(例如，噪声足够大以淹没具有热词的用户的语音输入，噪声具有会干扰具有热词的用户的语音输入的频率分布，该噪声将使具有该热词的用户的语音输入失真)。

在一些实施方式中，确定噪声分布是否消极地影响识别语音输入中的热词包括，将噪声分布与电子设备相关联的热词识别过程的噪声等级阈值比较。电子设备190(或语音助理服务器112)的识别分析模块568分析电子设备190的热词识别模块562(例如，当电子设备190空闲时)，以确定噪声将对由模块使用的算法或过程引起问题的噪声阈值。这些阈值被保存并且可以将其与当前噪声分布比较，以确定当前噪声分布是否将对热词识别模块562造成问题。热词识别模块的分析是相对于电子设备190，由此，阈值在设备之间不同。

在一些实施方式中，确定噪声分布是否消极地影响语音输入中的热词的识别包括，将噪声分布与语音音量级阈值比较，其中，基于离电子设备的预定距离来定义语音音量级阈值。电子设备190(或语音助理服务器112)的用户音量阈值模块570执行对用户的语音输入的分析，以确定用户将说出语音输入的最大舒适音量级，该确定基于预定距离(例如，基于“典型用户距离”的预定义距离，超过该典型用户距离，语音输入会衰减)。

在一些实施方式中，确定噪声分布是否消极地影响语音输入中的热词的识别包括，将噪声分布与电子设备相关联的预定的噪声分布集比较，其中，已知预定噪声分布集的噪声分布消极地影响语音输入中电子设备对热词的识别。电子设备190将噪声分布与干扰热词检测的先前噪声分布(例如，在噪声分布存储576中)比较。

在一些实施方式中，电子设备包括按钮，并且多个可供件中除了基于语音的可供件之外的可供件包括激活按钮。电子设备190包括物理按钮512，并且用户能通过激活按钮512来唤醒设备，而不是说出具有热词的语音输入。

在一些实施方式中，向用户呈现使用多个可供件中除了基于语音的可供件之外的可供件以唤醒电子设备的提示，包括照亮电子设备上对应于多个可供件中的基于按钮的可供件的按钮。按钮512可以包括照明(例如，嵌入式LED灯)，以及电子设备190可以通过点亮按钮512提示用户使用按钮512而不是说出热词。

在一些实施方式中，向用户呈现使用多个可供件中除了基于语音的可供件之外的可供件以唤醒电子设备的提示包括输出预定的可听声音。电子设备190可以通过扬声器520输出预定声音或音调(或声音或音调集)来提示用户使用替代的可供件。

在一些实施方式中，电子设备包括显示器，并且向用户呈现使用多个可供件中除了基于语音的可供件之外的可供件以唤醒电子设备的提示包括在显示器上显示提示。电子设备190可以通过在显示器524上显示提示消息来提示用户使用替代的可供件。

在一些实施方式中，电子设备包括一个或多个LED灯，并且向用户呈现使用多个可供件中不同于基于语音的可供件的可供件以唤醒电子设备的提示包括使用一个或多个LED灯显示提示。电子设备190可以通过在LED 522上显示预定灯图案来提示用户使用替代的可供件。

图8A和8B是根据一些实施方式的语音激活的电子设备190的正视图400和后视图420。电子设备190被设计为暖色和诱人，并且自然地适合于家庭的许多区域。电子设备190包括一个或多个麦克风402和全色LED 404的阵列。全色LED 404能隐藏在电子设备190的上表面下方，并且当它们不亮时对用户不可见。在一些实施方式中，全色LED 404的阵列物理地布置成环。此外，电子设备190的背面可选地包括被配置为耦合到电源的电源连接器408。

在一些实施方式中，电子设备190呈现没有可见按钮的简洁外观，并且与电子设备190的交互基于语音和触摸手势。替选地，在一些实施方式中，电子设备190包括有限多个物理按钮(例如，其背面上的按钮406)，并且除了语音和触摸手势外，与电子设备190的交互进一步基于按压按钮。

在一些实施方式中，假定电子设备190的简化和低成本，电子设备190包括全色发光二极管(LED)的阵列，而不是全屏显示器。采用LED设计语言来配置全色LED阵列的照明，并且实现指示电子设备190的不同语音处理状态的不同可视图案。LED设计语言包括应用于全色LED中的固定集合的颜色、图案和特定运动。语言中的元素被组合以在使用电子设备190期间，可视地指示特定设备状态。在一些实施方式中，全色LED的照明旨在明确地描绘其他重要状态中的电子设备190的被动监听和主动监听状态。全色LED的放置符合电子设备190的物理限制，并且全色LED阵列能用在由第三方原始设备制造商(OEM)基于特定技术(例如，Google助理)制造的扬声器中。

当在第三方OEM基于特定技术制造的扬声器中使用全色LED阵列时，全色LED和LED设计语言被配置为适合OEM扬声器的相应物理用户界面。在这种情况下，OEM扬声器的设备状态保持不变，而表示设备状态的特定可视图案能变化(例如，全色LED的颜色可以不同，但通过相似的动画效果显示全色LED的颜色)。

在语音激活的电子设备190中，当电子设备190处理从其周围环境中收集的音频输入但不存储音频输入或将音频输入传送到任何远程服务器时，发生被动监听。相反，当电子设备190存储从其周围环境收集到的音频输入和/或与远程服务器共享音频输入时，发生主动监听。根据本申请的一些实施方式，电子设备190仅被动地监听周围环境中的音频输入，而不会破坏电子设备190的用户的隐私。

图8C是根据一些实施方式的语音激活的电子设备190的俯视图，以及图8D示出根据一些实施方式的由用于指示语音处理状态的全色LED阵列显示的六个可视图案。在一些实施方式中，电子设备190不包括任何显示屏，并且与全屏显示器相比，全色LED提供简单且低成本的可视用户界面。全色LED能隐藏在电子设备的上表面下方，并且当不亮时对用户不可见。参考图8C和8D，在一些实施方式中，全色LED阵列物理地设置成环。

对实施例做出了详细的参考，其示例在附图中被示出。在上文详述的描述中，已经阐述了许多具体细节，以便提供对各个所述的实施方式的全面理解。然而，对本领域的普通技术人员来说，显而易见的是，可以在没有这些具体细节的情况下实施各个所述的实施方式。在其他实例中，未详细地描述众所周知的方法、过程、组件、电路和网络，以免不必要地混淆实施方式的方面。

还将理解到，尽管术语第一、第二等在某些实例中被用来描述各种元件，但这些元件不应受这些术语的限制。这些术语仅用于区分各个元件。例如，第一设备可以被称为第二设备，以及类似地，第二设备可以被称为第一设备，而不脱离各个所述的实施方式的范围。第一设备和第二设备是两种设备，但它们不是同一设备。

本文的各个所述实施方式的描述中使用的术语仅出于描述特定实施方式的目的，而不是限制性的。如在各个所述的实施方式和所附权利要求的描述中所使用的，单数形式“一(a)”、“一(an)”和“所述(the)”旨在也包括复数形式，除非上下文另外清楚地指明。将进一步理解的是如本文使用的术语“和/或”是指和涵盖相关列出的项中的一个或多个的任何和所有可能表示。将进一步理解到当在本文中使用时，术语“包括”和/或“包含”指定所述特征、整体、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。

如本文所使用的，术语“如果”取决于上下文可选地被解释为是指“何时”或“基于”或“响应确定”或“响应检测”或“根据确定”。类似地，短语“如果确定”或“如果检测到[所述条件或事件”可选地取决于上下文被解释为是指“在确定时”或“响应确定”或“在检测到[所述条件或事件]时”或“响应检测到[所述条件或事件]”或“根据检测到所述条件或事件的确定“。

对于上文论述的***收集关于用户的信息的情形，可以为用户提供加入/退出可以收集个人信息(例如，关于用户的偏好或智能设备的使用率的信息)的程序或功能部件的机会。此外，在一些实施方式中，某些数据可以在被存储或使用前以一种或多种方式进行匿名化，从而移除个人可标识信息。例如，用户的身份可以被匿名化，使得不能对用户或与用户相关联地确定个人可标识信息，以及概括用户偏好或用户交互(例如，基于用户人口统计学来概括)，而不是与特定用户相关联。

虽然各种附图中的一些图按特定次序示出多个逻辑阶段，但是非次序相关的阶段可以被重新排序，以及其他阶段可以被组合或分解。虽然具体提及了一些重新排序或其他分组，但是对于本领域的普通技术人员来说，其他部分将是显而易见的，因此，本文呈现的排序和分组不是替选方案的详尽列表。此外，应当认识到，这些阶段可以用硬件、固件、软件或其任意组合来实现。

为了说明的目的，参照具体实施方式描述了进行上述描述。然而，上文的示例性论述不旨在穷举或将权利要求的范围限制到所公开的精确形式。鉴于上述教导，许多修改和变化是可能的。选择实施方式以便最好地说明权利要求及其实际应用所依据的原理，从而使得本领域的技术人员最佳地使用具有适合于所预期的特定用途的各种修改的实施方式。

Claims

1.一种方法，包括：

在具有一个或多个麦克风、扬声器、一个或多个处理器以及存储由所述一个或多个处理器执行的一个或多个程序的存储器的电子设备处：

接收第一语音输入，所述第一语音输入为自由形式；

将所述第一语音输入与语音模型集比较，所述语音模型集与关联于所述电子设备的多个用户相关联，其中，所述语音模型集针对所述电子设备被训练；

基于所述比较，确定所述第一语音输入对应于所述多个用户中的第一用户；以及

根据所述确定，呈现响应。

2.如权利要求1所述的方法，其中，所述响应是可听语音输出，以及呈现所述响应包括输出所述可听语音输出。

3.如权利要求1所述的方法，进一步包括：

基于所述第一语音输入，确定用户请求；以及

根据所确定的用户请求生成所述响应。

4.如权利要求3所述的方法，其中：

所确定的用户请求包括唤醒所述电子设备的请求；以及

所述响应包括可听问候语，其中，所述可听问候语包括所述第一用户的身份的指示。

5.如权利要求3所述的方法，其中：

所确定的用户请求包括对信息的请求；以及

根据所确定的请求生成响应包括获得关于所述第一用户的所请求的信息。

6.如权利要求5所述的方法，其中：

获得关于所述第一用户的所请求的信息包括访问与所述第一用户相关联的账户。

7.如权利要求1-6所述的方法，进一步包括：

接收第二语音输入；

将所述第二语音输入与所述语音模型集比较；

基于所述比较，确定所述第二语音输入对应于所述多个用户的第二用户；以及

根据确定所述第二语音输入对应于所述第二用户，呈现响应。

8.如权利要求1-6所述的方法，进一步包括：

接收第三语音输入；

将所述第三语音输入与所述语音模型集比较；

基于所述比较，确定所述第三语音输入不对应于所述多个用户中的任何一个；以及

根据确定所述第三语音输入不对应于所述多个用户中的任何一个，限制所述电子设备的功能性。

9.如权利要求1-6所述的方法，其中，所述电子设备包括显示器；以及

所述方法进一步包括：

在所述显示器上显示所述第一用户的身份的指示。

10.如权利要求1-6所述的方法，其中，所述电子设备包括显示器；以及

所述方法进一步包括：

在所述显示器上显示与所述第一用户相关联的可视用户界面。

11.一种电子设备，包括：

一个或多个麦克风；

扬声器；

一个或多个处理器；以及

包括指令的存储器，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：

接收第一语音输入，所述第一语音输入为自由形式；

根据所述确定，呈现响应。

12.如权利要求11所述的电子设备，其中所述操作进一步包括：

基于所述第一语音输入，确定用户请求；以及

根据所确定的用户请求生成所述响应。

13.如权利要求12所述的电子设备，其中：

所确定的用户请求包括唤醒所述电子设备的请求；以及

14.如权利要求12所述的电子设备，其中：

所确定的用户请求包括对信息的请求；以及

所述操作进一步包括：

获得关于所述第一用户的所请求的信息。

15.如权利要求14所述的电子设备，其中所述操作进一步包括：

访问与所述第一用户相关联的账户。

16.一种非瞬时计算机可读存储介质，其包括指令，所述指令在由具有一个或多个麦克风、扬声器、以及一个或多个处理器的电子设备执行时，使所述电子设备执行操作，所述操作包括：

接收第一语音输入，所述第一语音输入为自由形式；

根据所述确定，呈现响应。

17.如权利要求16所述的计算机可读存储介质，其中所述操作进一步包括：

接收第二语音输入；

将所述第二语音输入与所述语音模型集比较；

18.如权利要求16所述的计算机可读存储介质，其中所述操作进一步包括：

接收第三语音输入；

将所述第三语音输入与所述语音模型集比较；

19.如权利要求16所述的计算机可读存储介质，其中，所述电子设备包括显示器；以及

所述操作进一步包括：

在所述显示器上显示所确定的第一用户的身份的指示。

20.如权利要求16所述的计算机可读存储介质，其中，所述电子设备包括显示器；以及

所述操作进一步包括：

在所述显示器上显示与所确定的第一用户相关联的可视用户界面。