CN108022590A - 语音接口设备处的聚焦会话 - Google Patents

语音接口设备处的聚焦会话 Download PDF

Info

Publication number
CN108022590A
CN108022590A CN201711071055.1A CN201711071055A CN108022590A CN 108022590 A CN108022590 A CN 108022590A CN 201711071055 A CN201711071055 A CN 201711071055A CN 108022590 A CN108022590 A CN 108022590A
Authority
CN
China
Prior art keywords
equipment
voice
electronic equipment
session
voice command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711071055.1A
Other languages
English (en)
Other versions
CN108022590B (zh
Inventor
肯尼斯·米克斯特
托默·谢凯尔
图安·安赫·恩古耶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202311300819.5A priority Critical patent/CN117351953A/zh
Publication of CN108022590A publication Critical patent/CN108022590A/zh
Application granted granted Critical
Publication of CN108022590B publication Critical patent/CN108022590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2807Exchanging configuration information on appliance services in a home automation network
    • H04L12/281Exchanging configuration information on appliance services in a home automation network indicating a format for calling an appliance service function in a home automation network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及语音接口设备处的聚焦会话。一种已连接电子设备的本地组中的第一电子设备处的方法包括:接收包括对第一操作的请求的第一语音命令;从所述本地组当中确定用于所述第一操作的第一目标设备;相对于所述第一目标设备建立聚焦会话;使所述第一操作由所述第一目标设备执行;接收包括对第二操作的请求的第二语音命令;确定所述第二语音命令不包括对第二目标设备的显式指定;确定所述第二操作可由所述第一目标设备执行;确定所述第二语音命令是否满足一个或多个聚焦会话维持准则;以及如果所述第二语音命令满足所述聚焦会话维持准则,则使所述第二操作由所述第一目标设备执行。

Description

语音接口设备处的聚焦会话
技术领域
所公开的实施方式一般地涉及语音接口和相关设备,包括但不限于用于在目标设备从语音命令本身是未知的或模糊不清时将语音命令定向到目标设备的方法和***。
背景技术
具有语音接口的电子设备已广泛地用于从用户收集语音输入并根据这些语音输入执行不同的语音激活功能。这些语音激活功能可以包括指示或者命令目标设备执行操作。例如,用户可以向语音接口设备发出语音输入以指示目标设备打开或者关闭,或者以控制目标设备处的媒体播放。
通常,如果用户希望作出指示目标设备执行操作的语音输入,则该用户将在该语音输入中指定目标设备。然而,必须为所有此类语音输入显式地指定目标设备对用户而言是乏味且麻烦的。即便当语音输入未指定目标或者指定了模糊不清的目标时,也期望语音接口设备具有用于语音输入的目标设备。
发明内容
因此,需要具有语音辅助***和/或语音辅助服务器***的电子设备,所述语音辅助***和/或语音辅助服务器***包含用于当在语音输入中对目标设备的指定不存在或模糊不清时为语音输入确定或者指派目标设备的方法和***。在本申请中所描述的各种实施方式中,操作环境包括向语音辅助服务提供接口的语音激活电子设备,以及可以经由所述语音辅助服务通过语音输入来控制的多个设备(例如,投射设备(cast device)、智能家居设备)。所述语音激活电子设备被配置成记录所述语音辅助服务(例如,语音辅助服务器***)用来确定用户语音请求(例如,媒体播放请求、电力状态改变请求)的语音输入。所述语音辅助服务器***然后将所述用户语音请求定向到如通过所述语音输入所指示的目标设备。所述语音激活电子设备被配置成记录对目标设备的指示不存在或模糊不清的后续语音输入。所述电子设备或所述语音辅助服务器***为此语音输入指派目标设备,确定包括在此语音输入中的用户语音请求,并且将所述用户语音请求定向到所指派的目标设备。
根据一些实施方式,在具有一个或多个麦克风、扬声器、一个或多个处理器以及存储由所述一个或多个处理器执行的一个或多个程序的存储器的第一电子设备处执行方法。所述第一电子设备是通信地耦合到公共网络服务的已连接电子设备的本地组的成员。所述方法包括:接收包括对第一操作的请求的第一语音命令;从已连接电子设备的所述本地组当中确定用于所述第一操作的第一目标设备;相对于所述第一目标设备建立聚焦会话;经由所述公共网络服务的操作使所述第一操作由所述第一目标设备执行;接收包括对第二操作的请求的第二语音命令;确定所述第二语音命令不包括对第二目标设备的显式指定;确定所述第二操作可由所述第一目标设备执行;确定所述第二语音命令是否满足一个或多个聚焦会话维持准则;以及根据所述第二语音命令满足所述聚焦会话维持准则的确定,经由所述公共网络服务的操作使所述第二操作由所述第一目标设备执行。
根据一些实施方式,电子设备包括一个或多个麦克风、扬声器、一个或多个处理器以及存储待由所述一个或多个处理器执行的一个或多个程序的存储器。所述一个或多个程序包括用于执行上述的所述方法的指令。
根据一些实施方式,非暂时性计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令,所述指令当由具有一个或多个麦克风、扬声器和一个或多个处理器的电子设备执行时,使所述电子设备执行上述的所述方法的操作。
附图说明
为了更好地理解各种描述的实施方式,应该结合以下附图参考下面的具体实施方式,在附图中相同的附图标记在所有图中指代对应的部分。
图1图示根据一些实施方式的示例操作环境。
图2图示根据一些实施方式的示例语音激活电子设备。
图3A至图3B图示根据一些实施方式的示例语音辅助服务器***。
图4A至图4D图示根据一些实施方式的聚焦会话的示例。
图5图示根据一些实施方式的建立聚焦会话并根据聚焦会话对语音输入作出响应的示例过程的流程图。
图6A和图6B是根据一些实施方式的语音激活电子设备的前视图和后视图。
图6C是根据一些实施方式的示出按照开放配置包含在电子设备190的基座中的扬声器的语音激活电子设备190的透视图。
图6D是根据一些实施方式的示出包含在其中的电子组件的语音激活电子设备的侧视图。
图6E(1)至图6E(4)示出根据一些实施方式的在语音激活电子设备的触摸感测阵列上检测到的四个触摸事件。
图6E(5)示出根据一些实施方式的用户按压在语音激活电子设备的后侧的按钮。
图6F是根据一些实施方式的语音激活电子设备的顶视图。
图6G示出根据一些实施方式的通过用于指示语音处理状态的全色LED的阵列所显示的示例视觉图案。
相同的附图标记在附图的数个视图中自始至终指代对应的部分。
具体实施方式
虽然数字革命已提供了范围从公开共享信息到全球社区意义的许多好处,但是新兴的新技术常常在消费者当中引发混淆、怀疑和恐惧,从而防止消费者从本技术中受益。电子设备被方便地用作语音接口来从用户接收语音输入并发起语音激活功能,并且因此提供免视(eyes-free)和免手操(hands-free)方案以接近现有技术和新兴技术两者。具体地,即使用户的视线被遮挡并且他的手不得闲,在电子设备处接收到的语音输入也可以承载指令和信息。为了实现免提和免视体验,语音激活电子设备不变地或者仅在被触发时侦听环境(即,持续不变地对从环境收集到的音频信号进行处理)。另一方面,用户身份与用户的语音和由该用户使用的语言链接。为了保护用户身份,通常在作为受保护的、受控制的且亲密的空间(例如,家庭和汽车)的非公共场所中使用这些语音激活电子设备。
根据一些实施方式,当语音命令中对目标设备的指示不存在或模糊不清时,语音激活电子设备确定或者将目标设备指派给在语音命令中作出的请求。语音激活电子设备相对于在语音命令中显式地指定或者指示的目标设备建立聚焦会话。当语音激活电子设备接收到对目标设备的指定或指示不存在或模糊不清的后续语音命令时,如果该语音命令满足一个或多个准则,则该电子设备将聚焦会话的目标设备指派给该语音命令。
在一些实施方式中,当用户与语音接口设备对话以控制另一设备时,该语音接口设备存储哪一个设备正被用户作为目标(例如,在聚焦会话中)。在那之后的一段时期内,用于控制的默认目标设备是所存储的设备。例如,如果用户首先发出语音命令“打开厨房灯”,然后发出“关闭灯”,则在第一命令之后不久接收到第二语音命令的情况下用于第二语音命令的目标设备默认为“厨房灯”。作为另一示例,如果第一命令是“在客厅扬声器上播放音乐”,并且后续命令是“停止音乐”,则在第一命令之后不久接收到第二命令的情况下用于第二语音命令的目标设备默认为“客厅扬声器”。
附加地,在一些实施方式中,如果在语音输入之间存在较长的时间间隙,则用户可能被要求确认或者验证最后使用的目标设备是预定目标设备。例如,如果第一语音命令是“在客厅扬声器上播放音乐”,并且在从第一语音命令起较长的时间间隙之后接收到的后续命令是“停止音乐”,则语音接口设备可以问用户“你想要停止客厅扬声器上的音乐吗?”以确认目标设备是“客厅扬声器”。
以这种方式,用户可以被免去必须在每一个语音输入中指定他的请求的完整场境(context)的负担(例如,免去必须在请求待执行的操作的每一个语音输入中包括对目标设备的指定)。
语音辅助操作环境
图1是根据一些实施方式的示例操作环境。操作环境100包括一个或多个语音激活电子设备104(例如,语音激活电子设备104-1至104-N,在下文中被称为“语音激活设备”)。所述一个或多个语音激活设备104可以位于一个或多个位置中(例如,全部在一个结构的房间或空间中、遍布在一个结构内的多个空间中或者遍布在多个结构中(例如,一个在住所中并且一个在用户的汽车中))。
环境100也包括一个或多个可控电子设备106(例如,电子设备106-1至106-N,在下文中被称为“可控设备”)。可控设备106的示例包括媒体设备(智能电视、扬声器***、无线扬声器、机顶盒、媒体流设备、投射设备)和智能家居设备(例如、智能相机、智能恒温器、智能灯、智能危险检测器、智能门锁)。
语音激活设备104和可控设备106通过通信网络110通信地耦合到语音辅助服务140(例如,到语音辅助服务140的语音辅助服务器***112)。在一些实施方式中,语音激活设备104和可控设备106中的一个或多个通信地耦合到本地网络108,所述本地网络108通信地耦合到通信网络110;语音激活设备104和/或可控设备106经由本地网络108通信地耦合到通信网络110(并且,通过通信网络110,耦合到语音辅助服务器***112)。在一些实施方式中,本地网络108是在网络接口(例如,路由器)处实现的局域网。通信地耦合到本地网络108的语音激活设备104和可控设备106也可以通过本地网络108彼此通信。
可选地,语音激活设备104中的一个或多个通信地耦合到通信网络110并且不在本地网络108上。例如,这些语音激活设备不在与本地网络108相对应的Wi-Fi网络上,但是通过蜂窝连接连接到通信网络110。在一些实施方式中,在本地网络108上的语音激活设备104与不在本地网络108上的语音激活设备104之间的通信通过语音辅助服务器***112来完成。语音激活设备104(无论在本地网络108上还是在网络110上)被注册在语音辅助服务140的设备注册表118中并且因此为语音辅助服务器***112所知。类似地,不在本地网络108上的语音激活设备104可以通过语音辅助服务器***112与可控设备106进行通信。可控设备106(无论在本地网络108还是在网络110上)也被注册在设备注册表118中。在一些实施方式中,语音激活设备104与可控设备106之间的通信通过语音辅助服务器***112。
在一些实施方式中,环境100也包括一个或多个内容主机114。内容主机114可以是根据包括在用户语音输入或命令中的请求来流式传输或者以其它方式获得内容的远程内容源。内容主机114可以是语音辅助服务器***112根据用户语音请求从其中检索信息的信息源。
在一些实施方式中,可控设备106能够接收用于执行指定操作或者转变到指定状态的命令或请求(例如,来自语音激活设备104和/或语音辅助服务器***112)并且将根据所接收到的命令或请求来执行操作或转变状态。
在一些实施方式中,可控设备106中的一个或多个是被布置在操作环境100中以向一个或多个用户提供媒体内容、新闻和/或其它信息的媒体设备。在一些实施方式中,由媒体设备提供的内容被存储在本地内容源中,从远程内容源(例如,内容主机114)流式传输,或者在本地生成(例如,通过读取定制新闻简报、电子邮件、文本、本地天气报告等给操作环境100的一个或多个占用者的本地文本到语音处理器)。在一些实施方式中,媒体设备包括将媒体内容直接输出给受众(例如,一个或多个用户)的媒体输出设备,以及被联网以将媒体内容流式传输到媒体输出设备的投射设备。媒体输出设备的示例包括但不限于电视(TV)显示设备和音乐播放器。投射设备的示例包括但不限于机顶盒(STB)、DVD播放器、电视盒和媒体流设备,诸如谷歌的ChromecastTM媒体流设备。
在一些实施方式中,可控设备106也是语音激活设备104。在一些实施方式中,语音激活设备104也是可控设备106。例如,可控设备106可以包括到语音辅助服务140(例如,也可接收用户语音输入、对用户语音输入进行处理并且对用户语音输入作出响应的媒体设备)的语音接口。作为另一示例,语音激活设备104也可以根据语音输入中的请求或命令来执行特定操作并转变到特定状态(例如,也可播放流音乐的语音接口设备)。
在一些实施方式中,语音激活设备104和可控设备106与具有相应的账户的用户相关联,或者与在用户域中具有相应的用户账户的多个用户(例如,相关用户组,诸如家庭中或组织中的用户;更一般地,主用户和一个或多个授权的附加用户)相关联。用户可以向语音激活设备104作出语音输入或语音命令。语音激活设备104从用户(例如,用户102)接收这些语音输入,并且语音激活设备104和/或语音辅助服务器***112继续确定语音输入中的请求并且生成对该请求的响应。
在一些实施方式中,包括在语音输入中的请求是对可控设备106执行操作(例如,播放媒体、暂停媒体、快进或倒回媒体、改变音量、改变屏幕亮度、改变灯亮度)或者转变到另一状态(例如,改变操作模式、打开或关闭、进入睡眠模式或者从睡眠模式唤醒)的命令或请求。
在一些实施方式中,语音激活电子设备104通过以下步骤来对语音输入作出响应:生成并提供对语音命令的口语响应(例如,响应于问题“现在是什么时间?”而说出当前时间);流式传输由用户请求的媒体内容(例如,“播放海滩男孩歌曲”);阅读为用户准备的新闻故事或每日新闻简报;播放存储在个人辅助设备上或者在本地网络上的媒体项;改变状态或者操作操作环境100内的一个或多个其它已连接设备(例如,将灯、电器或媒体设备打开/关闭、上锁/开锁、打开窗户等);或者经由网络110向服务器发出对应的请求。
在一些实施方式中,所述一个或多个语音激活设备104被布置在操作环境100中以收集用于发起各种功能(例如,媒体设备的媒体播放功能)的音频输入。在一些实施方式中,这些语音激活设备104(例如,设备104-1至104-N)被布置为与可控设备104(例如,媒体设备)接近,例如,在与投射设备和媒体输出设备相同的房间中。可替选地,在一些实施方式中,语音激活设备104被布置在具有一个或多个智能家居设备而不是任何媒体设备的结构中。可替选地,在一些实施方式中,语音激活设备104被布置在具有一个或多个智能家居设备和一个或多个媒体设备的结构中。可替选地,在一些实施方式中,语音激活设备104被布置在没有联网的电子设备的位置中。另外,在一些实施方式中,结构中的房间或空间可以具有多个语音激活设备104。
在一些实施方式中,语音激活设备104包括至少一个或多个麦克风、扬声器、处理器以及存储由该处理器执行的至少一个程序的存储器。扬声器被配置成允许语音激活设备104将语音消息和其它音频(例如,可听音调)递送到语音激活设备104位于操作环境100中所在的位置,从而广播音乐、报告音频输入处理的状态、与语音激活设备104的用户有对话或者将指令给予给语音激活设备104的用户。作为语音消息的替代方案,视觉信号也能用于向语音激活设备104的用户提供与音频输入处理的状态有关的反馈。当语音激活设备104是移动设备(例如,移动电话或平板计算机)时,其显示屏幕被配置成显示与音频输入处理的状态有关的通知。
在一些实施方式中,语音激活设备104是连网以借助于语音辅助服务器***112提供语音识别功能的语音接口设备。例如,语音激活设备104包括向用户提供音乐并且允许免视和免提访问语音辅助服务(例如,Google Assistant)的智能扬声器。可选地,语音激活设备104是台式或膝上型计算机、平板、包括麦克风的移动电话、包括麦克风并可选择地包括扬声器的投射设备、包括麦克风和扬声器的音频***(例如,立体声***、扬声器***、便携式扬声器)、包括麦克风和扬声器的电视以及包括麦克风和扬声器并可选地包括显示器的汽车中的用户接口***中的一个。可选地,语音激活设备104是简单且低成本的语音接口设备。一般地,语音激活设备104可以是能够连网并且包括麦克风、扬声器以及用于与语音辅助服务交互的程序、模块和数据的任何设备。考虑到语音激活设备104的简单性和低成本,语音激活设备104包括发光二极管(LED)的阵列而不是全显示屏幕,并且在LED上显示视觉图案以指示音频输入处理的状态。在一些实施方式中,LED是全色LED,并且可以采用LED的颜色作为待在LED上显示的视觉图案的一部分。例如,在下面参考图6描述使用LED来显示视觉图案以便传达信息或设备状态(例如,与指示聚焦会话是否已被发起、是活动的、已被扩展和/或多个用户中的哪些单独的用户与特定聚焦会话相关联有关的状态)的多个示例。在一些实施方式中,使用在与正在执行语音处理操作的语音激活设备相关联的常规显示器上示出的特征图像来显示指示语音处理操作的状态的视觉图案。
在一些实施方式中,LED或其它视觉显示器用于传达多个参与电子设备的集体语音处理状态。例如,在存在多个语音处理或语音接口设备(例如,如‘566应用的图4A中所示出的多个电子设备600;图1的多个语音激活设备104)的操作环境中,与相应的电子设备相关联的彩色LED组(例如,如图6中所示出的LED 404)可用于传达这些电子设备中的哪一个正在侦听用户,并且侦听设备中的哪一个是领导者(其中“领导者”设备一般地在对由用户发出的口语请求作出响应时起带头作用)。
更一般地,‘566应用描述(例如,参见段落[0087]-[0100])用于使用LED的合集来在视觉上指示电子设备的各种语音处理状态(诸如“热词检测状态和侦听状态”、“思维模式或工作模式”以及“响应模式或说话模式”)的“LED设计语言”。在一些实施方式中,本文中所描述的语音处理操作的唯一状态是根据‘566应用的“LED设计语言”的一个或多个方面使用LED组来表示的。这些视觉指示器也可与由正在执行语音处理操作的电子设备所生成的一个或多个可听指示器组合。结果得到的音频和/或视觉指示器将使得语音交互环境中的用户能够理解该环境中的各种语音处理电子设备的状态并且以自然直观的方式有效地与这些设备交互。
在一些实施方式中,当语音激活设备104的语音输入用于经由投射设备来***体输出设备时,语音激活设备104有效地实现对支持投射的媒体设备的新的控制水平。在特定示例中,语音激活设备104包括具有远场语音接入的休闲享受扬声器并且充当语音辅助服务的语音接口设备。语音激活设备104能被布置在操作环境100中的任何区域中。当多个语音激活设备104分布在多个房间中时,它们变成被同步以从这些房间提供语音输入的投射音频接收器。
具体地,在一些实施方式中,语音激活设备104包括具有连接到语音激活语音辅助服务(例如,Google Assistant)的麦克风的Wi-Fi扬声器。用户可经由语音激活设备104的麦克风发出媒体播放请求,并且要求语音辅助服务在语音激活设备104它本身上或者在另一已连接媒体输出设备上播放媒体内容。例如,用户可通过向Wi-Fi扬声器说“OK Google,play cat videos on my Living room TV(OK Google,在我的客厅电视上播放猫视频)”来发出媒体播放请求。语音辅助服务然后通过使用默认或指定的媒体应用在所请求的设备上播放所请求的媒体内容来履行媒体播放请求。
在一些实施方式中,用户可经由语音激活设备104的麦克风发出与在显示设备上已经播放或者正在播放的媒体内容有关的语音请求(例如,用户可要求与媒体内容有关的信息,通过在线商店购买媒体内容,或者组成并发出与媒体内容有关的社交帖子)。
在一些实施方式中,用户可能想随着他们移动通过住所而与他们进行当前媒体会话并且可从语音激活设备104中的一个或多个请求这样的服务。这需要语音辅助服务140将当前媒体会话从第一投射设备转移到未直接连接到第一投射设备或者不知道第一投射设备的存在的第二投射设备。继媒体内容转移之后,在在第一输出设备上放弃了媒体内容的播放的情况下耦合到第二投射设备的第二输出设备继续从音乐乐曲或视频剪辑内的确切点起播放耦合到第一投射设备的第一输出设备上先前播放的媒体内容。在一些实施方式中,接收到转移媒体会话的请求的语音激活设备104可满足该请求。在一些实施方式中,接收到转移媒体会话的请求的语音激活设备104将该请求中继到另一设备或***(例如,语音辅助服务器***112)以供处理。
另外,在一些实施方式中,用户可以经由语音激活设备104的麦克风发出对信息的或对动作或操作的执行的请求。所请求的信息可以是个人的(例如,用户的电子邮件、用户的日历事件、用户的航班信息等)、非个人的(例如,比赛分数、新闻故事等)或其之间的(例如,用户偏爱的团队或比赛的分数、来自用户的优选源的新闻故事等)。所请求的信息或动作/操作可以涉及对个人信息的访问(例如,利用由用户提供的支付信息购买数字媒体项、购买物理商品)。语音激活设备104以对用户的语音消息响应对请求作出响应,其中响应可以包括例如对履行请求的附加信息的请求、已履行了请求的确认、不可履行请求的通知等。
在一些实施方式中,除语音激活设备104和可控设备106之中的媒体设备之外,操作环境100还可以包括可控设备106之中的一个或多个智能家居设备。集成智能家居设备包括在智能家居网络中与彼此并且/或者与中央服务器或云计算***无缝地集成以提供各种有用的智能家居功能的智能多感测连网的设备。在一些实施方式中,智能家居设备被布置在操作环境100的与投射设备和/或输出设备相同的位置处,并且因此,位于与投射设备和输出设备接近或者相对于投射设备和输出设备在已知距离上。
操作环境100中的智能家居设备可以包括但不限于一个或多个智能多感测连网的恒温器、一个或多个智能连网的多感测危险检测器、一个或多个智能多感测连网的入口接口设备(在下文中被称为“智能门铃”和“智能门锁”)以及一个或多个智能多感测连网的警报***、一个或多个智能多感测连网的相机***、一个或多个智能多感测连网的墙壁开关、一个或多个智能多感测连网的电源插座和一个或多个智能多感测连网的灯。在一些实施方式中,图1的操作环境100中的智能家居设备包括多个智能多感测连网的电器(在下文中被称为“智能电器”),诸如冰箱、电炉、烤箱、电视、洗衣机、烘干机、灯、立体声***、对讲***、车库门开启器、落地风扇、吊扇、壁式空调、水池加热器、灌溉***、安全***、空间加热器、窗户AC单元、电动通风口等。在一些实施方式中,这些智能家居设备类型中的任何一种可配备有如本文中所描述的麦克风和一个或多个语音处理能力,以便整个地或部分地对来自占用者或用户的语音请求作出响应。
在一些实施方式中,可控设备104和语音激活设备104中的每一个能够与其它可控设备106、语音激活电子设备104、中央服务器或云计算***和/或连网的其它设备(例如,客户端设备)进行数据通信和信息共享。可以使用各种定制或标准无线协议(例如,IEEE802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth Smart、ISA100.11a、WirelessHART、MiWi等)和/或各种定制或标准有线协议中的任一种(例如,以太网、HomePlug等)或者任何其它适合的通信协议(包括在本文档的提交日期时尚未开发的通信协议)来执行数据通信。
通过通信网络(例如,互联网)110,可控设备106和语音激活设备104可以与服务器***(在本文中也被称作中央服务器***和/或云计算***)进行通信。可选地,服务器***可以与和可控设备相关联的制造商、支持实体或服务提供者以及向用户显示的媒体内容相关联。因此,服务器***包括对由语音激活设备104收集到的音频输入进行处理的语音辅助服务器112、提供所显示的媒体内容的一个或多个内容主机114(可选地基于分布式设备终端创建虚拟用户域的云投射服务服务器)以及保持虚拟用户环境中的分布式设备终端的记录的设备注册表118。分布式设备终端的示例包括但不限于可控设备106、语音激活设备104和媒体输出设备。在一些实施方式中,这些分布式设备终端链接到虚拟用户域中的用户账户(例如,谷歌用户账户)。应该了解,可在语音激活设备104处、在语音辅助服务器112处、在另一智能家居设备(例如,中枢设备或可控设备106)处或者在上述的全部或子集的某个组合处在本地执行由语音激活设备104收集到的音频输入的处理(包括对那些输入的响应的生成)。
应当了解,在一些实施方式中语音激活设备104也在没有智能家居设备的环境中起作用。例如,即使在智能家居设备不存在的情况下,语音激活设备104也可对对信息的或动作的执行和/或发起或者控制各种媒体播放功能的用户请求作出响应。语音激活设备104也可在各式各样的环境(包括但不限于车辆、船舶、商业或制造环境)中起作用。
在一些实施方式中,语音激活设备104通过包括热词(也被称作“唤醒词”)的语音输入被“唤醒”(例如,以激活语音激活设备104上用于语音辅助服务的接口、以将语音激活设备104置于语音激活设备104准备好接收对语音请求服务的语音请求的状态中)。在一些实施方式中,如果语音激活设备104相对于语音输入的接收在至少预定义量的时间(例如,5分钟)内一直空闲则语音激活设备104需要唤醒;预定义量的时间对应于在语音接口会话或对话超时之前允许的空闲时间的量。热词可以是词或短语,并且可以是预定义默认的和/或可以由用户定制(例如,用户可以将特定语音激活设备104的昵称设置为该设备的热词)。在一些实施方式中,可以存在可唤醒语音激活设备104的多个热词。用户可以说出热词,等待来自语音激活设备104的肯定应答(acknowledgement)响应(例如,语音激活设备104输出问候语),然后作出第一语音请求。可替选地,用户可以在一个语音输入中组合热词和第一语音请求(例如,语音输入包括后面是语音请求的热词)。
在一些实施方式中,语音激活设备104与根据一些实施方式的操作环境100的可控设备106(例如,媒体设备、智能家居设备)、客户端设备或服务器***交互。语音激活设备104被配置成从接近语音激活设备104的环境接收音频输入。可选地,语音激活设备104存储音频输入并且至少部分地在本地对这些音频输入进行处理。可选地,语音激活设备104经由通信网络110将所接收到的音频输入或经部分地处理的音频输入传送到语音辅助服务器***112以用于进一步处理。语音激活设备104或语音辅助服务器***112确定在音频输入中是否存在请求以及该请求是什么,确定并生成对该请求的响应,并且将该请求传送到一个或多个可控设备106。接收到响应的可控设备106被配置成根据响应执行操作或者改变状态。例如,媒体设备被配置成根据对音频输入中的请求的响应从一个或多个内容主机114获得媒体内容或互联网内容以供显示在耦合到该媒体设备的输出设备上。
在一些实施方式中,可控设备106和语音激活设备104在用户域中彼此链接,并且更具体地,经由用户域中的用户账户彼此相关联。关于可控设备106(无论在本地网络108上还是在网络110上)和语音激活设备104(无论在本地网络108上还是在网络110上)的信息被与用户账户相关联地存储在设备注册表118中。在一些实施方式中,存在用于可控设备106的设备注册表和用于语音激活设备104的设备注册表。可控设备注册表可以引用在用户域中相关联的语音激活设备注册表中的设备,并且反之亦然。
在一些实施方式中,语音激活设备104(和一个或多个投射设备)中的一个或多个以及可控设备106中的一个或多个经由客户端设备103被委用(commissioned)给语音辅助服务140。在一些实施方式中,语音激活设备104不包括任何显示屏幕,并且依靠客户端设备103来在委用过程期间提供用户接口,并且类似地对于可控设备106也一样。具体地,客户端设备103被安装有使得用户接口能够促进被设置在接近客户端设备的新语音激活设备104和/或可控设备106的委用的应用。用户可以在客户端设备103的用户接口上发送用于对需要被委用的新电子设备104/106发起委用过程的请求。在接收到委用请求之后,客户端设备103与需要被委用的新电子设备104/103建立短距离通信链路。可选地,该短距离通信链路是基于近场通信(NFC)、蓝牙、低功耗蓝牙(BLE)等而建立的。客户端设备103然后将与无线局域网(WLAN)(例如,本地网络108)相关联的无线配置数据传达给新电子设备104/106。无线配置数据包括至少WLAN安全代码(即,服务集标识符(SSID)口令),并且可选地包括SSID、网际协议(IP)地址、代理配置和网关配置。在经由短距离通信链路接收到无线配置数据之后,新电子设备104/106对无线配置数据进行解码和恢复,并且基于无线配置数据加入WLAN。
在一些实施方式中,在客户端设备103上显示的用户界面上录入附加的用户域信息,并且用于将新电子设备104/106链接到用户域中的账户。可选地,附加用户域信息经由短距离通信链路结合无线通信数据被传送到新电子设备104/106。可选地,在新设备加入WLAN之后,附加的用户域信息经由WLAN被传送到新电子设备104/106。
一旦已经将电子设备104/106委用到用户域中,就可以经由多个控制路径来控制其它设备及其相关联的活动。根据一个控制路径,安装在客户端设备103上的应用用于控制其它设备及其相关联的活动(例如,媒体播放活动)。可替选地,根据另一控制路径,电子设备104/106用于实现对其它设备及其相关联的活动的免视和免提控制。
在一些实施方式中,语音激活设备104和可控设备106可以由用户(例如,由在用户域中与设备相关联的主用户)指派昵称。例如,可以给客厅中的扬声器设备指派昵称“客厅扬声器”。以这种方式,用户可以通过说出设备的昵称在语音输入中更容易地指代设备。在一些实施方式中,设备昵称和到对应设备的映射被存储在语音激活设备104(其将存储仅仅与和语音激活设备相同的用户相关联的设备的昵称)和/或语音辅助服务器***112(其将存储与不同的用户相关联的设备的设备昵称)处。例如,语音辅助服务器***112存储许多设备昵称以及跨越不同的设备和用户的映射,而与特定用户相关联的语音激活设备104下载与该特定用户相关联的设备的昵称和映射以用于本地存储。
在一些实施方式中,用户可以将语音激活设备104和/或可控设备106中的一个或多个聚组成由用户创建的设备组。可以给予该组一名称,并且可以按组名称引用该组设备,类似于按昵称参考单独的设备。类似于设备昵称,可以将设备组和组名称存储在语音激活设备104和/或语音辅助服务器***112处。
来自用户的语音输入可以针对该语音输入中的请求显式地指定目标可控设备106或目标设备组。例如,用户可以发出语音输入“在客厅扬声器上播放古典音乐”。该语音输入中的目标设备是“客厅扬声器”;该语音输入中的请求是让“客厅扬声器”播放古典音乐的请求。作为另一示例,用户可以发出语音输入“在住所扬声器上播放古典音乐”,其中“住所扬声器”是设备组的名称。该语音输入中的目标设备组是“住所扬声器”;该语音输入中的请求是让组“住所扬声器”中的设备播放古典音乐的请求。
来自用户的语音输入可能不具有目标设备或设备组的显式指定;在语音输入中不存在按名称对目标设备或设备组的引用。例如,紧跟以上示例语音输入“在客厅扬声器上播放古典音乐”之后,用户可以发出后续语音输入“暂停”。该语音输入不包括对暂停操作的请求的目标设备指定。在一些实施方式中,该语音输入中的目标设备指定可以是模糊不清的。例如,用户可能已不完全地发出设备名称。在一些实施方式中,如下所述,可以将目标设备或设备组指派给显式目标设备指定不存在或者目标设备指定模糊不清的语音输入。
在一些实施方式中,当语音激活设备104接收到具有目标设备或设备组的显式指定的语音输入时,语音激活设备104相对于所指定的目标设备或设备组建立聚焦会话。在一些实施方式中,语音激活设备104针对聚焦会话存储会话开始时间(例如,开始聚焦会话所基于的语音输入的时间戳),并且作为聚焦会话的对焦设备存储所指定的目标设备或设备组。在一些实施方式中,语音激活设备104也在聚焦会话中记录后续语音输入。语音激活设备104记录至少聚焦会话中最近的语音输入并且也可选地记录并保持聚焦会话内前面的语音输入。在一些实施方式中,语音辅助服务器***112建立聚焦会话。在一些实施方式中,可以通过显式地指定不同的目标设备或设备组的语音输入来结束聚焦会话。
当相对于设备的聚焦会话是活动的并且语音激活设备接收到语音输入时,语音激活设备104相对于该语音输入作出一个或多个确定。在一些实施方式中,确定包括:语音输入是否包括显式目标设备指定、语音输入中的请求是否是可由对焦设备履行的请求以及与聚焦会话中的最后语音输入的时间和/或会话开始时间相比的语音输入的时间。如果语音输入不包括显式目标设备指定,包括可由对焦设备履行的请求,并且满足相对于聚焦会话中的最后语音输入的时间和/或会话开始时间的预定义时间准则,则对焦设备被指派为用于语音输入的目标设备。在下面对有关聚焦会话的进一步细节进行描述。
操作环境中的设备
图2是图示被作为语音接口应用来在根据一些实施方式的操作环境(例如,操作环境100)中收集用户语音命令的示例语音激活设备104的框图。语音激活设备104通常包括一个或多个处理单元(CPU)202、一个或多个网络接口204、存储器206以及用于互连这些组件(有时被称作芯片集)的一个或多个通信总线208。语音激活设备104包括促进用户输入的一个或多个输入设备210,诸如按钮212、触摸感测阵列214和一个或多个麦克风216。语音激活设备104也包括一个或多个输出设备218,包括一个或多个扬声器220,可选地包括LED阵列222,并且可选地包括显示器224。在一些实施方式中,LED阵列222是全色LED阵列。在一些实施方式中,语音激活设备104取决于该设备的类型而具有LED阵列222或显示器224或两者。在一些实施方式中,语音激活设备104也包括位置检测设备226(例如,GPS模块)和一个或多个传感器228(例如,加速度计、陀螺仪、光传感器等)。
存储器206包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备;并且可选地,包括非易失性存储器,诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪速存储器设备或一个或多个其它非易失性固态存储设备。存储器206可选地包括远离一个或多个处理单元202的一个或多个存储设备。存储器206或可替选地存储器206内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中,存储器206或存储器206的非暂时性计算机可读存储介质存储以下程序、模块和数据结构,或者其子集或超集:
●包括用于处理各种基本***服务并用于执行硬件相关任务的过程的操作***232;
●用于经由一个或多个网络接口204(有线的或无线的)和一个或多个网络110(诸如互联网、其它广域网、局域网(例如,本地网络108)、城域网等)将语音激活设备104连接到其它设备(例如,语音辅助服务140、一个或多个可控设备106、一个或多个客户端设备103和其它语音激活设备104)的网络通信模块234;
●用于经由一个或多个输入设备接收输入并且使得能够经由一个或多个输出设备218在语音激活设备104处呈现信息的输入/输出控制模块236,包括:
○用于对在语音激活设备104周围的环境中收集的音频输入或语音消息进行处理或者准备所收集到的音频输入或语音消息以供在语音辅助服务器***112处处理的语音处理模块238;
○用于根据语音激活设备104的设备状态在LED 222上生成视觉图案的LED控制模块240;以及
○用于感测语音激活设备104的顶面(例如,在触摸传感器阵列214上)的触摸事件的触摸感测模块242;
●用于存储至少与语音激活设备104相关联的数据的语音激活设备数据244,包括:
○用于存储与语音激活设备104它本身相关联的信息的语音设备设置246,包括公共设备设置(例如,服务层、设备模型、存储容量、处理能力、通信能力等)、用户域中的一个或多个用户账户的信息、设备昵称和设备组、有关在对待非注册用户时的限制的设置以及与由LED 222显示的一个或多个视觉图案相关联的显示规格;以及
○用于存储音频信号、语音消息、响应消息以及与语音激活设备104的语音接口功能有关的其它数据的语音控制数据248;
●用于执行包括在由语音辅助服务器***112生成的语音请求响应中的指令并且在一些实施方式中生成对某些语音输入的响应的响应模块250;以及
●用于相对于设备建立、管理和结束聚焦会话的聚焦会话模块252。
在一些实施方式中,语音处理模块238包括以下模块(未示出):
●用于对向语音激活设备104提供语音输入的用户进行识别并消除歧义的用户识别模块;
●用于确定语音输入是否包括用于唤醒语音激活设备104的热词并且在语音输入中识别此类热词的热词识别模块;以及
●用于确定包含在语音输入中的用户请求的请求识别模块。
在一些实施方式中,存储器206也存储未完成(outstanding)聚焦会话的聚焦会话数据254,包括以下各项:
●用于存储在未完成聚焦会话中在焦点上的设备或设备组的标识符
(例如,设备的设备昵称、设备组名称、MAC地址)的会话对焦设备256;
●用于存储未完成聚焦会话开始的时间戳的会话开始时间258;以及
●用于存储聚焦会话中的先前的请求或命令(包括至少最近的请求/命令)的日志的会话命令历史260。所述日志至少包括所记录的先前的请求/命令的时间戳。
上面标识的元件中的每一个可以被存储在先前提及的存储器设备中的一个或多个中,并且对应于用于执行上述的功能的指令集。上面标识的模块或程序(即,指令集)未必作为单独的软件程序、过程、模块或数据结构被实现,并且因此可以在各种实施方式中组合或者以其它方式重新安排这些模块的各个子集。在一些实施方式中,存储器206可选地存储上面所标识的模块和数据结构的子集。此外,存储器206可选地存储上面未描述的附加模块和数据结构。在一些实施方式中,存储在存储器206中的程序、模块和/或数据的子集可被存储在语音辅助服务器***112上和/或由语音辅助服务器***112执行。
在一些实施方式中,上述的存储器206中的模块中的一个或多个是模块的语音处理库的一部分。语音处理库可以被实现并嵌入在各式各样的设备上。图3A至图3B是图示根据一些实施方式的操作环境(例如,操作环境100)的语音辅助服务140的示例语音辅助服务器***112的框图。服务器***112通常包括一个或多个处理单元(CPU)302、一个或多个网络接口304、存储器306以及用于互连这些组件(有时被称作芯片集)的一个或多个通信总线308。服务器***112可以包括促进用户输入的一个或多个输入设备310,诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕获相机或其它输入按钮或控件。此外,服务器***112可以使用麦克风和语音识别或相机和手势识别来补充或者替换键盘。在一些实施方式中,服务器***112包括用于捕获例如印刷在电子设备上的图形系列代码的图像的一个或多个相机、扫描器或照片传感器单元。服务器***112也可以包括使得能够呈现用户界面和显示内容的一个或多个输出设备312,包括一个或多个扬声器和/或一个或多个视觉显示器。
存储器306包括高速随机存取存储器,诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备;并且可选地,包括非易失性存储器,诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪速存储器设备或一个或多个其它非易失性固态存储设备。存储器306可选地包括远离一个或多个处理单元302的一个或多个存储设备。存储器306或可替选地存储器306内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中,存储器306或存储器306的非暂时性计算机可读存储介质存储以下程序、模块和数据结构,或者其子集或超集:
●包括用于处理各种基本***服务并用于执行硬件相关任务的过程的操作***316;
●用于经由一个或多个网络接口304(有线的或无线的)和一个或多个网络110(诸如互联网、其它广域网、局域网、城域网等)将服务器***112连接到其它设备(例如,客户端设备103、可控设备106、语音激活设备104)的网络通信模块318;
●用于使得能够在客户端设备处呈现信息的用户界面模块320(例如,用于呈现应用322-328、微件(widget)、网站及其web页面和/或游戏、音频和/或视频内容、文本等的图形用户界面);
●在服务器侧执行的命令执行模块321(例如,游戏、社交网络应用、智能家居应用和/或用于控制客户端设备103、可控设备106、语音激活设备104和智能家居设备并且审查由此类设备所捕获的数据的其它基于web或非web的应用),包括以下各项中的一个或多个:
○被执行来提供与投射设备相关联的设备供应、设备控制和用户账户管理的服务器侧功能性的投射设备应用322;
○被执行来提供与对应的媒体源相关联的媒体显示和用户账户管理的服务器侧功能性的一个或多个媒体播放器应用324;
○被执行来提供对应的智能家居设备的设备提供、设备控制、数据处理和数据审查的服务器侧功能性的一个或多个智能家居设备应用326;以及
○被执行来安排从语音激活设备104接收到的语音消息的语音处理或者直接对语音消息进行处理以提取用户语音命令和该用户语音命令的一个或多个参数(例如,投射设备或另一语音激活设备104的指定)的语音辅助应用328;以及
●存储至少与(例如,在自动媒体输出模式和跟随模式下)媒体显示的自动控制相关联的数据以及其它数据的服务器***数据330,所述其它数据包括以下各项中的一个或多个:
○用于存储与一个或多个客户端设备相关联的信息的客户端设备设置332,包括公共设备设置(例如,服务层、设备模型、存储容量、处理能力、通信能力等)以及用于自动媒体显示控制的信息;
○用于存储与投射设备应用322的用户账户相关联的信息的投射设备设置334,包括账户访问信息、设备设置(例如,服务层、设备模型、存储容量、处理能力、通信能力等)的信息以及用于自动媒体显示控制的信息中的一个或多个;
○用于存储与一个或多个媒体播放器应用324的用户账户相关联的信息的媒体播放器应用设置336,包括账户访问信息、媒体内容类型的用户偏好、审查历史数据以及用于自动媒体显示控制的信息中的一个或多个;
○用于存储与智能家居应用326的用户账户相关联的信息的智能家居设备设置338,包括账户访问信息、一个或多个智能家居设备的信息(例如,服务层、设备模型、存储容量、处理能力、通信能力等)中的一个或多个;
○用于存储与语音辅助应用328的用户账户相关联的信息的语音辅助数据340,包括账户访问信息、一个或多个语音激活设备104的信息(例如,服务层、设备模型、存储容量、处理能力、通信能力等)中的一个或多个;
○用于存储与用户域中的用户相关联的信息的用户数据342,包括用户的订阅(例如,音乐流服务订阅、视频流服务订阅、时事通讯订阅)、用户设备(例如,在与相应的用户、设备昵称、设备组相关联的设备注册表118中注册的设备)、用户账户(例如,用户的电子邮件账户、日历账户、金融账户)和其它用户数据;
○用于存储用户域中的用户的语音简档的用户语音简档344,包括例如用户的语音模型或语音指纹以及用户的舒适音量水平阈值;以及
○用于存储多个设备的聚焦会话数据的聚焦会话数据346。
●用于管理设备注册表118的设备注册模块348;
●用于对在电子设备104周围的环境中收集的音频输入或语音消息进行处理的语音处理模块350;以及
●用于相对于设备建立、管理和结束聚焦会话的聚焦会议模块352。
参考图3B,在一些实施方式中,存储器306也存储一个或多个未完成聚焦会话3462-1至3462-M的聚焦会话数据346,包括以下各项:
●用于存储建立了聚焦会话的设备的标识符的会话源设备3464;
●用于存储在未完成聚焦会话中在焦点上的存储设备或设备组的标识符(例如,设备的设备昵称、设备组名称、MAC地址)的会话对焦设备3466;
●用于存储未完成聚焦会话开始的时间戳的会话开始时间3468;以及
●用于存储聚焦会话中的先前的请求或命令(包括至少最近的请求/命令)的日志的会话命令历史3470。
在一些实施方式中,语音辅助服务器***112主要负责语音输入的处理,并且因此上面参考图2所描述的存储器206中的程序、模块和数据结构中的一个或多个被包括在存储器306中的相应的模块中(例如,与语音处理模块238包括在一起的程序、模块和数据结构被包括在语音处理模块350中)。语音激活设备104要么将捕获的语音输入传送到语音辅助服务器***112以用于处理,要么首先对语音输入进行预处理并且将经预处理的语音输入传送到语音辅助服务器***112以用于处理。在一些实施方式中,语音辅助服务器***112和语音激活设备104具有有关语音输入的处理的一些共享的和一些划分的责任,并且图2所示的程序、模块和数据结构可以被包括在语音辅助服务器***112和语音激活设备104两者中或者在语音辅助服务器***112和语音激活设备104之间进行划分。图2所示的其它程序、模块和数据结构或其类似物也可以被包括在语音辅助服务器***112中。
上面标识的元件中的每一个可以被存储在先前提及的存储器设备中的一个或多个中,并且对应于用于执行上述的功能的指令集。上面标识的模块或程序(即,指令集)未必作为单独的软件程序、过程、模块或数据结构被实现,并且因此可以在各种实施方式中组合或者以其它方式重新安排这些模块的各个子集。在一些实施方式中,存储器306可选地存储上面标识的模块和数据结构的子集。此外,存储器306可选地存储上面未描述的附加模块和数据结构。
示例聚焦会话
图4A至图4D图示根据一些实施方式的聚焦会话的示例。在具有语音激活设备104和多个可控设备106的操作环境(例如,操作环境100)中,当环境中的用户作出将可控设备106中的一个指定为目标设备的语音输入时,可以与作为对焦设备的目标设备建立聚焦会话。
图4A示出操作环境(例如,操作环境100)中的语音激活设备404(例如,语音激活设备104)以及三个可控设备406、408和410(例如,可控设备106)。这些设备可以在与用户402相同的空间中(例如,在相同房间中)或者遍布用户所位于的结构。设备406是昵称为“主卧室扬声器”的扬声器***。设备408是昵称为“客厅电视”的媒体设备。设备410是昵称为“游戏室电视”的媒体设备。此刻不存在聚焦会话;聚焦会话418是空的。
用户402发出语音输入403“play cat videos on game room TV(在游戏室电视上播放猫视频)”,并且语音激活设备404接收该语音输入。语音激活设备404确定语音输入403中的请求是播放猫视频的请求,并且目标设备是在语音输入403中显式地指定的“gameroom TV(游戏室电视)”设备410。如图4B所示,在语音激活设备404处建立其中对焦设备为“游戏室电视”设备410的会话418。播放猫视频的命令(由设备404或语音辅助服务器***112)发送到“游戏室电视”设备410,并且设备410执行操作416。
参考图4C,随后,当与在焦点上的“游戏室电视”410的会话418是活动的并且设备410正在执行操作416时,用户402发出另一语音输入“暂停”420。语音激活设备404确定语音输入420是否包括目标设备的指定以及语音输入420中的请求是否可由对焦设备410执行。在特定语音输入420“暂停”的情况下,语音激活设备404确定语音输入420不包括目标设备的指定并且语音输入中的请求(无论正在播放都“暂停”)可由对焦设备执行。在一些实施方式中,确定语音输入420是否包括目标设备的指定包括在语音输入中查找与设备昵称的匹配(例如,对语音输入执行语音到文本识别并且对该文本进行解析以查找设备昵称)。在一些实施方式中,确定语音输入中的请求是否可由对焦设备执行包括确定语音输入中的请求是什么并且就与会话中的最后命令的一致性而将该请求与当前聚焦会话418的命令历史(例如,历史260)相比较(例如,“暂停音乐”请求与为“暂停音乐”的最近命令不一致),以及就与对焦设备的能力的一致性而对请求进行比较(例如,“暂停音乐”请求与智能灯的能力不一致)。
在一些实施方式中,语音激活设备404也确定语音输入420是否满足一个或多个聚焦会话维持准则。在一些实施方式中,聚焦会话维持准则是语音输入420的时间戳在从活动会话中的最后语音输入403的时间戳起的一定时间内(例如,在前面的第一语音输入的一定时间内接收到第二语音输入)。在一些实施方式中,对于此准则来说存在多个时间阈值。例如,可以存在第一较短时间阈值(例如,20分钟)和第二较长时间阈值(例如,4小时)。如果在最后语音输入403的第一较短阈值内接收到语音输入420,并且满足上面的另一个准则,则对焦设备被设置为语音输入420的目标设备(并且,在一些实施方式中,在将语音输入420传送到语音辅助服务器***112以用于处理时也传送此目标设备设置)。例如,语音输入420被确定为不包括目标设备指定并且请求“暂停”与最后命令“播放猫视频”一致。如果在语音输入403的较短时间阈值内接收到语音输入420,则对焦设备“游戏室电视”设备410被设置为语音输入420的目标设备,并且正在“游戏室电视”设备410处执行的操作416是根据语音输入420暂停猫视频,如图4D所示。
如果在最后语音输入403的第一较短阈值之后并且在最后语音输入403的第二较长阈值内接收到语音输入420,并且满足上面的另一个准则,则语音激活设备404输出用于从用户请求对焦设备为语音输入420的期望目标设备的确认的语音提示。语音激活设备404在接收到对焦设备是期望目标设备的确认时,维持会话418并且将对焦设备设置为语音输入420的目标设备(并且,在一些实施方式中,在将语音输入420传送到语音辅助服务器***112以用于处理时也传送此目标设备设置)。如果用户不确认目标设备,则语音激活设备404可以请求用户提供目标设备指定,请求用户再次说出语音输入但是包括目标设备指定,并且/或者结束会话418。在一些实施方式中,如果在自最后语音输入403起的第二较长阈值之后接收到语音输入420或者不满足上述的另一个准则,则会话418结束。在一些实施方式中,这些时间阈值的值被存储在存储器206和/或存储器306中。在语音输入之间经过的时间被与这些阈值相比较。
在一些实施方式中,语音输入中的显式地指定的目标设备的缺乏以及语音输入中的请求与最后语音输入并与对焦设备的能力的一致性也被认为是聚焦会话维持准则。
示例过程
图5是图示根据一些实施方式的对用户的语音输入作出响应的方法500的流程图。在一些实施方式中,在具有一个或多个麦克风、扬声器、一个或多个处理器以及存储由所述一个或多个处理器执行的一个或多个程序的存储器的第一电子设备(例如,语音激活设备104)处实现方法500。此第一电子设备是通信地耦合(例如,通过网络110)到公共网络服务(例如,语音辅助服务140)的已连接电子设备(例如,与用户账户相关联的语音激活设备104和可控设备106;与特定语音激活设备104相关联的可控设备106)的本地组的成员。
第一电子设备接收(502)包括对第一操作的请求的第一语音命令。例如,语音激活设备404接收第一语音输入403。
第一电子设备从已连接电子设备的本地组当中确定用于第一操作的第一目标设备(504)。语音激活设备404从设备406、408和410当中确定(例如,基于由语音处理模块238处理)语音输入403的目标设备(或设备组)。语音激活设备404将语音输入403中的目标设备指定“游戏室电视”识别为“游戏室电视”设备410。
第一电子设备相对于第一目标设备(或设备组)建立聚焦会话(506)。语音激活设备404(例如,聚焦会话模块252)与作为对焦设备的“游戏室电视”设备410建立聚焦会话418。
第一电子设备经由公共网络服务的操作使第一操作由第一目标设备(或设备组)执行(508)。语音激活设备404或语音辅助服务器***112经由语音辅助服务140向设备410传送用于执行语音输入403中所请求的操作的命令。
第一电子设备接收包括对第二操作的请求的第二语音命令(510)。语音激活设备404接收第二语音输入420。
第一电子设备确定第二语音命令不包括第二目标设备(或设备组)的显式指定(512)。语音激活设备404确定(例如,基于由语音处理模块238处理)语音输入420的目标设备,并且识别语音输入420不包括目标设备指定。
第一电子设备确定第二操作可由第一目标设备(或设备组)执行(514)。语音激活设备404确定语音输入420中所请求的操作能够由对焦设备410执行并且与语音输入403中所请求的且正由对焦设备410执行的最后操作一致。
第一电子设备确定第二语音命令是否满足一个或多个聚焦会话维持准则(516)。语音激活设备404确定是否在语音输入403的一定时间内接收到语音输入420。
根据第二语音命令满足聚焦会话维持准则的确定,第一电子设备经由公共网络的操作使第二操作由第一目标设备(或设备组)执行(518)。语音激活设备404确定在语音输入403的第一较短时间阈值内接收到语音输入420,并且根据该确定将语音输入420的目标设备设置为对焦设备410。语音激活设备404或语音辅助服务器***112经由语音辅助服务140向设备410传送用于执行语音输入420中所请求的操作的命令。
在一些实施方式中,从已连接电子设备的本地组当中确定用于第一操作的第一目标设备包括从所述第一语音命令获得所述第一目标设备的显式指定。语音激活设备404可以对语音输入403进行预处理以确定语音输入403是否包括目标设备的显式指定。可替选地,话音激活设备404可以从对语音输入403进行了处理的语音辅助服务器***112接收目标设备的显式指定。
在一些实施方式中,从已连接电子设备的本地组当中确定用于第一操作的第一目标设备包括确定第一语音命令不包括第一目标设备的显式指定,确定第一操作可由已连接电子设备的本地组当中的第二电子设备执行,并且选择所述第二电子设备作为所述第一目标设备。如果第一语音输入不包括目标的显式指定,但是包括在第一语音输入内的请求是可由组内的单个设备执行的请求(例如,视频相关命令并且在该组中仅有一个支持视频的设备),则该单个设备被设置为用于第一语音输入的目标设备。另外,在一些实施方式中,如果除了语音激活设备之外还存在仅一个可控设备,则该可控设备是未显式地指定目标设备并且其请求的操作可由该可控设备执行的语音输入的默认目标设备。
在一些实施方式中,可以(例如,通过语音辅助服务器***112或语音激活设备104)对用户的语音输入历史(例如,由语音辅助服务器***112收集并存储在存储器306中、由语音激活设备104收集并存储在存储器206中)进行分析以确定该历史是否示出特定语音激活设备104频繁地用于控制特定可控设备106。如果该历史确实示出这样的关系,则可以将该特定可控设备设置为给语音激活设备的语音输入的默认目标设备。
在一些实施方式中,默认目标设备的指定(例如,标识符)被存储在语音激活设备104和/或语音辅助服务器***112处。
在一些实施方式中,根据第二语音命令满足聚焦会话维持准则的确定,相对于第一目标设备延长聚焦会话。在一些实施方式中,聚焦会话在一定量的时间之后超时(即,结束)。如果第二语音输入420满足聚焦会话维持准则,则聚焦会话418可以按时间延长(例如,重置超时定时器)。
在一些实施方式中,相对于第一目标设备建立聚焦会话包括存储第一语音命令的时间戳,并且存储第一目标设备的标识符。当在接收到语音输入403之后建立聚焦会话时,语音激活设备404存储语音输入403的时间(例如,在会话命令历史260中)和对焦设备410的标识符(例如,在会话对焦设备256中)。
在一些实施方式中,聚焦会话维持准则包括第二语音命令在相对于接收到第一语音命令的第一预定义时间间隔内或者在相对于接收到第一语音命令的第二预定义时间间隔内由第一电子设备接收到的准则,所述第二预定义时间间隔接续(succeeding)所述第一预定义时间间隔;并且确定第二语音命令是否满足一个或多个聚焦会话维持准则包括确定是否在第一预定义时间间隔或预定义第二时间间隔中的任一个内接收到第二语音命令。语音激活设备404确定语音输入420是否满足一个或多个聚焦会话维持准则,包括是否在语音输入403的第一时间阈值或第二时间阈值内接收到语音输入420。
在一些实施方式中,根据在第一预定义时间间隔内接收到第二语音命令的确定,第一电子设备选择第一目标设备作为第二语音命令的目标设备。如果语音输入420被确定为从语音输入403起在第一较短时间阈值内被接收,则对焦设备410被设置为语音输入420的目标设备。
在一些实施方式中,根据在第二预定义时间间隔内接收到第二语音命令的确定,第一电子设备输出用于确认第一目标设备作为第二语音命令的目标设备的请求;并且根据响应于对确认的请求对第一目标设备的肯定确认,选择第一目标设备作为第二语音命令的目标设备。如果语音输入420被确定为从语音输入403起在第一较短时间阈值之外但是在第二较长时间阈值内被接收,则语音激活设备提示用户确认目标设备(例如,问用户对焦设备410是否是预定目标设备)。如果用户确认对焦设备410是预定目标设备,则对焦设备410被设置为语音输入420的目标设备。
在一些实施方式中,第一电子设备接收包括对第三操作的请求和已连接电子设备的本地组当中的第三目标设备的显式指定的第三语音命令,相对于第一目标设备结束聚焦会话,相对于第三目标设备建立聚焦会话,并且经由公共网络服务的操作使第三操作由第三目标设备执行。语音激活设备404可以在语音输入420之后接收包括除设备410以外的目标设备(例如,设备406或408)的显式指定的新语音输入。根据该语音输入的接收,与在焦点上的设备410的聚焦会话418结束,并且与在焦点上的新目标设备的新会话被建立。语音激活设备404或语音辅助服务器***112经由语音辅助服务140向新目标设备传送用于执行新语音输入中所请求的操作的命令。
在一些实施方式中,第一目标设备是第一电子设备。第一电子设备接收包括对第四操作的请求和已连接电子设备的本地组当中的第四目标设备的显式指定的第四语音命令,其中第四目标设备是已连接电子设备的本地组的第三电子设备成员,第三电子设备与第一电子设备不同;相对于第一目标设备维持聚焦会话;并且经由公共网络服务的操作使第四操作由第四目标设备执行。如果在语音激活设备404处的活动聚焦会话418的对焦设备是语音激活设备404它本身,然后在语音输入420之后接收到将不同的设备指定为目标的新语音输入,则语音激活设备404或语音辅助服务器***112经由语音辅助服务140向该不同的目标设备传送用于执行新语音输入中所请求的操作的命令,但是与在焦点上的语音激活设备404维持聚焦会话。
在一些实施方式中,在使第四操作由第四目标设备执行之后接收第二语音命令,第一操作是媒体播放操作,并且第二操作是媒体中止操作。第一电子设备接收包括对第五操作的请求和已连接电子设备的本地组当中的第五目标设备的显式指定的第五语音命令,其中第五目标设备是第三电子设备;相对于第一目标设备结束聚焦会话;相对于第五目标设备建立聚焦会话,并且经由公共网络服务的操作使第五操作由第五目标设备执行。如果在语音激活设备404处的活动聚焦会话418的对焦设备是语音激活设备404它本身,并且语音输入403包括了发起媒体播放的请求,并且语音输入403包括了作为语音输入403的结果暂停媒体播放的请求,并且在语音输入420之后接收到将不同的设备指定为目标的新语音输入,则语音激活设备404或语音辅助服务器***112经由语音辅助服务140向该不同的目标设备传送用于执行新语音输入中所请求的操作的命令,并且与在焦点上的语音激活设备的聚焦会话结束,并且与在焦点上的新目标设备的新聚焦会话被建立。
在一些实施方式中,第一电子设备接收包括预定义操作终止请求的第五语音命令,并且根据接收到第五语音命令,使第一操作停止由第一目标设备执行,并且相对于第一目标设备结束聚焦会话。如果语音激活设备404接收到预定义终止命令(例如,“STOP”),则语音激活设备404或语音辅助服务器***112经由语音辅助服务140向设备410传送用于停止执行操作416的命令,并且聚焦会话418结束。
在一些实施方式中,第一操作是媒体播放操作,并且第二操作是以下各项中的一个:媒体中止操作、媒体倒回操作、媒体快进操作、调高音量操作和调低音量操作。语音输入403中的请求可以是发起媒体内容(例如,视频、音乐)的播放的请求,并且语音输入420中的请求可以是控制播放(例如,暂停、倒回,快进、调高/调低音量、下一项/乐曲、上一项/乐曲等)的请求。
在一些实施方式中,第一操作是到多个设备状态中的第一状态的设备状态改变操作,并且第二操作是到多个设备状态中的第二状态的设备状态改变操作。语音输入403中的请求可以是转变到第一状态(例如,打开灯或设备、转向睡眠模式)的请求,并且语音输入420中的请求可以是转变到第二状态(例如,关闭灯或设备、从睡眠模式唤醒)的请求。
在一些实施方式中,第一操作是在第一方向上针对幅度标尺的幅度改变操作,并且第二操作是在与第一方向相反的第二方向上针对幅度标尺的幅度改变操作。语音输入403中的请求可以是在一个方向上改变幅度(例如,使灯发亮、调高音量)的请求,并且语音输入420中的请求可以是在相反方向上改变幅度(例如,使灯变暗、调低音量)的请求。
在一些实施方式中,第一电子设备包括一个或多个LED的阵列。第一电子设备通过点亮LED阵列中的LED中的一个或多个来指示聚焦会话的状态。语音激活设备404可以通过在LED阵列上显示图案来指示存在活动聚焦会话或与该聚焦会话相关联的其它状态和其它信息(例如,聚焦会话活动了多久或者自最后语音输入以来已经过多少时间的指示)。
在一些实施方式中,可以按标识的用户建立聚焦会话。例如,如果用户说出指定目标设备的语音输入,则该用户被标识并且相对于所标识的用户建立聚焦会话,其中在语音输入中指定的目标设备在焦点上。如果不同的用户说出语音输入并指定不同的目标设备,则该不同的用户被标识并且相对于所标识的不同的用户建立另一聚焦会话,其中该不同的目标设备在焦点上。可以基于与相应的标识的用户相对应的活动聚焦会话给由不同的用户说出并且未指定目标设备的语音输入指派不同的目标设备。
聚焦会话的附加示例
以下实施方式在与作为媒体设备的一个或多个可控设备106相同的房间中的语音激活设备104的场境中对实施方式进行描述。应该了解,在下面所描述的实施方式可以适于其它类型的可控设备106(例如,智能家居设备)并且适于其它设备布局设置。
在一些实施方式中,如果不存在已经在语音激活设备上播放的媒体,则可在对焦设备为除该语音激活设备以外的可控设备情况下开始聚焦会话。在一些实施方式中,如果在语音激活设备上播放的媒体被暂停,则可以与除作为对焦设备的语音激活设备以外的可控设备开始聚焦会话。
在一些实施方式中,如果用户发出具有指向与语音激活设备相关联的设备或设备组(并且可选地在与语音激活设备相同的WiFi网络上)的显式目标设备的任何有效请求则开始聚焦会话。此类有效请求的示例包括“在我的客厅扬声器上播放一些音乐”、“调高卧室电视上的音量”、“我的家庭组上的下一首歌曲”和“暂停客厅扬声器”。显式目标设备变成聚焦会话的对焦设备。
在一些实施方式中,如果请求清楚地是与视频相关联的请求,并且在相关联的可控设备之中存在单个支持视频的设备,则可以与作为对焦设备的支持视频的设备建立聚焦会话。
在一些实施方式中,如果在语音激活设备正在积极地播放媒体的同时接收到作为目标设备的另一设备的请求,则焦点将仍然在语音激活设备上,但是一旦语音激活设备停止或者暂停了其会话,在另一设备上播放或者***体的任何新请求将焦点移动到该另一设备。
例如,用户请求“播放嘎嘎小姐(Lady Gaga)”,并且语音激活设备开始播放嘎嘎小姐音乐并且与在焦点上的语音激活设备开始聚焦会话。用户然后请求“暂停”,并且语音激活设备暂停嘎嘎小姐音乐(并且维持聚焦会话达假定2小时)。在已经过1小时之后,用户然后请求“在我的电视上播放猫视频”。焦点移动到电视,并且电视开始播放猫视频。
作为另一示例,用户请求“播放嘎嘎小姐”,并且语音激活设备开始播放嘎嘎小姐音乐并且开始与在焦点上的语音激活设备的聚焦会话。用户然后请求“在我的电视上示出猫视频”,并且猫视频开始在电视上示出,但是焦点仍然保持在语音激活设备上。用户然后请求“下一首”,语音激活设备根据该请求前进到嘎嘎小姐音乐中的下一首乐曲。用户然后请求“暂停”,并且语音激活设备处的音乐被暂停。用户然后请求“我的电视上的下一个幻灯片”,并且下一个幻灯片在电视上开始并且焦点转移到电视。
在一些实施方式中,有效请求包括发起音乐、发起视频、发起新闻阅读(例如,读出新闻文章)、发起播客、发起照片(例如,照片显示或幻灯片放映)以及任何媒体控制命令(除结束任何当前聚焦会话的预定义STOP命令以外。)
在一些实施方式中,当发生下列中的任一个时聚焦会话结束:
●聚焦会话被转移到不同的设备(经由语音输入,例如,显式地指定该不同的设备的语音输入),并且在这种情况下与该不同的设备开始聚焦会话;
●聚焦会话经由语音输入或从另一设备投射(例如,经由语音:“在<语音接口设备的昵称>上播放嘎嘎小姐”、“在本地播放嘎嘎小姐”等;经由投射:用户经由客户端设备上的应用将内容投射到语音激活设备)在语音激活设备上开始或者恢复(离开暂停状态);
○然而,如果语音激活设备是将播放媒体的组的成员(跟随者或领导者),则它将不停止焦点(即使它正在播放)。所以焦点将仍然在所述组的领导者(其可以是另一语音激活设备)上;
●当请求是给在焦点上的可控设备的预定义“STOP”命令(包括所有相关语法)时;
●超时相关命令:
○可以根据给予给可控设备(无论该可控设备是否是基于聚焦会话的对焦设备来显式地指定或者设置的)的最后请求或命令而不是预定义“停止”命令来测量超时;
○超时可以是跨越各种可能的命令240分钟;以及
●当用户按语音激活设备上用于暂停/播放的按钮时(此外这也将在本地在语音激活设备上恢复任何暂停的内容)。
在一些实施方式中,语音激活设备请求目标设备的用户确认。用户被提示以便确认他是否想要在可控设备上播放媒体如下:
●提示是为媒体发起而触发的(例如,开始尚未在播放的音乐)(与媒体控制相对,诸如快进或下一首乐曲);
●当聚焦会话活动时提示被触发;以及
●提示在从来自当前语音激活设备的给予给可控设备(无论该可控设备是否是基于聚焦会话的对焦设备来显式地指定或者设置的)的最后语音命令而不是预定义“STOP”命令起已经过一些时间(例如,20分钟)之后被触发。
用于确认的提示可以是,例如:
●语音激活设备输出“你愿意让我在<可控设备名称>上播放吗?”
○用户响应“是”。则在对焦可控设备上播放所请求的媒体并且在该设备上维持焦点。
○用户响应“否”。则在语音激活设备上播放所请求的媒体并且聚焦会话结束。
○其它:如果例如用户的响应是不清楚的,则语音激活设备可以会输出“抱歉,无法理解你的响应”。
在一些实施方式中,当聚焦会话被发起时,媒体发起和基于语音的控制命令被应用于对焦可控设备。非媒体请求(例如,搜索、问题)由语音激活设备回答,并且非媒体请求确实不结束聚焦会话。
在一些实施方式中,即便当聚焦会话已开始时,物理交互也将仍然控制语音激活设备,所以与语音激活设备的用于改变音量和暂停/播放的物理交互(例如,按按钮、触摸触敏区域)影响语音激活设备,而不一定是可控设备。
在一些实施方式中,向语音激活设备上的定时器/闹钟/文本到语音播放发出的请求或命令与给对焦可控设备的类似请求或命令相比具有更高的优先级。例如,如果语音激活设备由于定时器或闹钟正在响铃,并且用户发出“停止”,则语音激活设备停止定时器或闹钟响铃。如果用户然后发出“<调高/调低>音量”,则定时器或闹钟响铃仍然被停止,并且可控设备上的音量被调高或者调低。
作为另一示例,如果语音激活设备正在播放文本到语音(例如,读出用户的电子邮件),并且用户发出“停止”,则语音激活设备停止文本到语音阅读。如果用户然后发出“<调高/调低>音量”,则语音激活设备上的音量被调高或者调低。
作为另一示例,如果语音激活设备是空闲的、被暂停或app加载,并且用户发出“停止”,则可控设备处的媒体播放被停止并且聚焦会话结束。如果用户然后发出“<调高/调低>音量”,则可控设备上的音量被调高或者调低。
语音激活电子设备的物理特征
图6A和图6B是根据一些实施方式的语音激活电子设备104(图1)的前视图600和后视图620。电子设备104包括一个或多个麦克风602和全色LED 604的阵列。全色LED 604能被隐藏在电子设备104的顶面下方并且在它们未点亮时对用户不可见。在一些实施方式中,全色LED 604的阵列在物理上按照环环形布置。另外,电子设备104的后侧可选地包括被配置成耦合至电源的电源连接器608。
在一些实施方式中,电子设备104呈现没有可见按钮的干净样子,并且与电子设备104的交互基于语音和触摸手势。可替选地,在一些实施方式中,电子设备104包括有限数目的物理按钮(例如,在其后侧的按钮606),并且与电子设备104的交互除了基于语音和触摸手势之外还基于对按钮的按压。
一个或多个扬声器被布置在电子设备104中。图6C是根据一些实施方式的示出按照开放配置包含在电子设备104的基座610中的扬声器622的语音激活电子设备104的立体图660。电子设备104包括全色LED 604的阵列、一个或多个麦克风602、扬声器622、双频带WiFi802.11ac无线电、蓝牙LE无线电、环境光传感器、USB端口、处理器以及存储由该处理器执行的至少一个程序的存储器。
参考图6D,电子设备104还包括被配置成检测电子设备104的顶面的触摸事件的触摸感测阵列624。触摸感测阵列624可以被布置并隐藏在电子设备104的顶面下方。在一些实施方式中,触摸感测阵列被布置在包括通孔的阵列的电路板的顶面上,并且全色LED 604被布置在电路板的通孔内。当电路板被设置在电子设备104的顶面正下方时,全色LED 604和触摸感测阵列624两者也被布置在电子设备104的顶面正下方。
图6E(1)至图6E(4)示出根据一些实施方式的在语音激活电子设备104的触摸感测阵列624上检测到的四个触摸事件。参考图6E(1)和图6E(2),触摸感测阵列624检测语音激活电子设备104的顶面上的旋转扫掠。响应于检测到顺时针扫掠,语音激活电子设备104增加其音频输出的音量,并且响应于检测到逆时针扫掠,语音激活电子设备104降低其音频输出的音量。参考图6E(3),触摸感测阵列624检测语音激活电子设备104的顶面上的单轻敲触摸。响应于检测到第一轻敲触摸,语音激活电子设备104执行第一媒体控制操作(例如,播放特定媒体内容),而响应于检测到第二轻敲触摸,语音激活电子设备104实现第二媒体控制操作(例如,暂停当前正在播放的特定媒体内容)。参考图6E(4),触摸感测阵列624检测语音激活电子设备104的顶面上的双轻敲触摸(例如,两个连续触摸)。两个连续触摸被分开时间小于预定长度的持续时间。然而,当它们被分开时间大于预定长度的持续时间时,两个连续触摸被认为是两个单轻敲触摸。在一些实施方式中,响应于检测到双轻敲触摸,语音激活电子设备104发起电子设备104侦听并识别一个或多个热词(例如,预定义关键词)的热词检测状态。在电子设备104识别热词之前,电子设备104不向语音辅助服务器112或云投射服务服务器118发送任何音频输入。在一些实施方式中,聚焦会话是响应于检测到一个或多个热词而发起的。
在一些实施方式中,全色LED 604的阵列被配置成根据LED设计语言显示视觉图案集合,指示对语音激活电子设备104的顶面上的顺时针扫掠、逆时针扫掠、单轻敲或双轻敲的检测。例如,全色LED 604的阵列可以顺序地点亮以分别像图6E(1)和图6E(2)中所示出的那样跟踪顺时针扫掠或逆时针扫掠。在下面参考图6F和图6G(1)至图6G(8)来说明关于与电子设备104的语音处理状态相关联的视觉图案的更多细节。
图6E(5)示出根据一些实施方式的用户对在语音激活电子设备104的后侧的按钮606的示例触摸或按压。响应于对按钮606的第一用户触摸或按压,电子设备104的麦克风被静音,而响应于对按钮606的第二用户触摸或按压,电子设备104的麦克风被激活。
用于语音用户接口的视觉可视性的LED设计语言
在一些实施方式中,电子设备104包括全色发光二极管(LED)的阵列而不是全显示屏幕。LED设计语言被采纳来配置全色LED的阵列的照明并且实现指示电子设备104的不同语音处理状态的不同视觉图案。LED设计语言由被应用于一组固定的全色LED的颜色、图案和特定运动的语法构成。语言中的元素被组合以在电子设备104的使用期间在视觉上指示特定设备状态。在一些实施方式中,全色LED的照明目的旨在除了其他重要的状态之外还清楚地刻画电子设备104的被动侦听和主动收听状态。可使用类似的LED设计语言元素来通过LED(例如,LED 604)在视觉上指示的状态包括一个或多个焦点会话的状态、与一个或多个特定焦点会话相关联的一个或多个用户的身份和/或一个或多个活动的焦点会话的持续时间。例如,在一些实施方式中,可以使用LED 604的不同的灯图案、颜色组合和/或特定运动来指示聚焦会话是活动的,由于检测到第二语音输入已被扩展,并且/或者由于缺乏与电子设备104的用户语音交互最近已失效。与特定焦点会话相关联的一个或多个用户的一个或多个身份也可用在视觉上标识特定用户的LED 604的不同的灯图案、颜色组合和/或特定运动来指示。全色LED的放置遵照电子设备104的物理约束,并且能基于特定技术(例如GoogleAssistant)在由第三方原始设备制造商(OEM)所制造的扬声器中使用全色LED的阵列。
在语音激活电子设备104中,当电子设备104对从其周围环境收集的音频输入进行处理但不存储这些音频输入或者将这些音频输入传送到任何远程服务器时发生被动侦听。相比之下,当电子设备104存储从其周围环境收集的音频输入并且/或者与远程服务器共享这些音频输入时发生主动侦听。根据本申请的一些实施方式,电子设备104仅在不违反电子设备104的用户的隐私的情况下被动地侦听其周围环境中的音频输入。
图6G是根据一些实施方式的语音激活电子设备104的顶视图,并且图6H示出根据一些实施方式的通过用于指示语音处理状态的全色LED的阵列所显示的六个示例视觉图案。在一些实施方式中,电子设备104不包括任何显示屏幕,并且与全显示屏幕相比全色LED604提供简单且低成本的视觉用户接口。全色LED可以被隐藏在电子设备的顶面下方并且在它们未点亮时对用户不可见。参考图6G和图6H,在一些实施方式中,全色LED 604的阵列在物理上按照环形布置。例如,如图6H(6)中所示,全色LED 604的阵列可以顺序地点亮以分别像图6F(1)和图6F(2)中所示出的那样跟踪顺时针扫掠或逆时针扫掠。
用于在视觉上指示语音处理状态的方法被实现在电子设备104处。电子设备104经由一个或多个麦克风602收集来自接近该电子设备的环境的音频输入,并且对这些音频输入进行处理。处理包括标识并对来自环境中的用户的语音输入作出响应中的一个或多个。电子设备104从多个预定义语音处理状态当中确定处理的状态。对于全色LED604中的每一个,电子设备104标识与所确定的语音处理状态相关联的相应的预定LED照明规格。照明规格包括LED照明持续时间、脉冲速率、占空比、颜色序列和亮度中的一个或多个。在一些实施方式中,电子设备104确定语音处理状态(在一些实施方式中包括聚焦会话的状态)与多个用户中的一个相关联,并且通过根据所述多个用户中的一个的身份来定制全色LED 604的预定LED照明规格中的至少一种(例如,颜色序列)而标识全色LED 604的预定LED照明规格。
另外,在一些实施方式中,根据所确定的语音处理状态,全色LED的颜色包括预定颜色集合。例如,参考图6G(2)、6G(4)和6G(7)-(10),该预定颜色集合包括包括有蓝色、绿色、黄色和红色的Google品牌颜色,并且全色LED的阵列被划分成各自与Google品牌颜色中的一种相关联的四个象限。
根据所标识的全色LED的LED照明规格,电子设备104使全色LED的阵列的照明同步以提供指示所确定的语音处理状态(在一些实施方式中包括聚焦会话的状态)的视觉图案。在一些实施方式中,指示语音处理状态的视觉图案包括多个离散的LED照明像素。在一些实施方式中,视觉图案包括起始段、环段和终止段。环段持续与全色LED的LED照明持续时间相关联的时间长度并且被配置成与语音处理状态的长度(例如,活动聚焦会话的持续时间)匹配。
在一些实施方式中,电子设备104具有通过LED设计语言所表示的多于二十个不同的设备状态(包括所述多个预定义语音处理状态)。可选地,所述多个预定义语音处理状态包括热词检测状态、侦听状态、思考状态和响应状态中的一个或多个。在一些实施方式中,如上所述,所述多个预定义语音处理状态包括一个或多个聚焦会话状态。
已经详细地参考了实施方式,其示例被图示在附图中。在上面的详细描述中,已经阐述了许多特定细节以便提供对各种描述的实施方式的透彻理解。然而,对于本领域的普通技术人员而言将显而易见的是,可以在没有这些特定细节的情况下实践各种描述的实施方式。在其它实例中,尚未详细地描述众所周知的方法、过程、组件、电路和网络以免不必要地使实施方式的各方面混淆。
也应理解,尽管在一些实例中,在本文中使用术语第一、第二等来描述各种元件,然而这些元件不该应受这些术语限制。这些术语仅用于区分一个元件和另一元件。例如,在不脱离各种所描述的实施方式的范围的情况下,第一设备能被称作第二设备,并且类似地,第二设备能被称作第一设备。第一设备和第二设备是两种类型的设备,但是它们不是同一设备。
在本文的各种描述的实施方式的描述中使用的术语仅用于描述特定实施方式的目的,而不旨在为限制性的。如各种描述的实施方式和所附权利要求的描述中所使用的,除非上下文另外清楚地指示,否则单数形式“一(a)”、“一个(an)”和“所述(the)”也旨在包括复数形式。也应理解,如本文中所使用的术语“和/或”指代并包含相关联的列举项中的一个或多个的任何和所有可能的组合。还应理解,术语“包含”、“包含有”、“包括”和/或“包括有”当被用在本说明书中时,指定陈述的特征、整数、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或其组的存在或添加。
如本文中所使用的,取决于上下文,术语“如果”被可选地解释成意指“当…时”或“在…时”或“响应于确定”或“响应于检测到”或“根据…的确定”。类似地,取决于上下文,短语“如果确定了”或“如果检测到[陈述的条件或事件]”被可选地解释成意指“在确定…时”或“响应于确定”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”或“根据检测到[陈述的条件或事件]的确定”。
对于上面所讨论的***收集关于用户的信息的情形,可以给用户提供用于选择参加/退出可以收集个人信息(例如,关于用户的偏好或智能设备的使用的信息)的程序或特征的机会。此外,在一些实施方式中,某些数据可以在它被存储或者使用之前被以一个或多个方式匿名,使得个人可识别的信息被移除。例如,可以使用户的身份匿名,使得对于该用户来说不可确定个人可识别的信息或者个人可识别的信息不可与用户相关联,并且使得用户偏好或用户交互被一般化(例如,基于用户人口统计资料泛化),而不是与特定用户相关联。
尽管各个附图中的一些以特定次序图示许多逻辑阶段,然而可以对不是次序相关的阶段重新排序并且可以组合或者取出其它阶段。虽然特别提及了一些重新排序或其它分组,但是其余的对于本领域的普通技术人员而言将是显而易见的,所以本文中所呈现的排序和分组不是替代方案的详尽列表。此外,应该认识到,这些阶段能用硬件、固件、软件或其任何组合加以实现。
出于说明的目的,已经参考特定实施方式描述了上述描述。然而,上面的说明性讨论不旨在为详尽的或者将权利要求的范围限于所公开的精确形式。鉴于以上教导许多修改和变化是可能的。实施方式被选取以便最好地说明作为权利要求基础的原理及其实际应用,以因此使得本领域的技术人员能够按如适于所设想的特定用途的各种修改而最佳地使用这些实施方式。

Claims (18)

1.一种方法,包括:
在具有一个或多个麦克风、扬声器、一个或多个处理器以及存储由所述一个或多个处理器执行的一个或多个程序的存储器的第一电子设备处,所述第一电子设备是通信地耦合到公共网络服务的已连接电子设备的本地组的成员:
接收包括对第一操作的请求的第一语音命令;
从已连接电子设备的所述本地组当中确定用于所述第一操作的第一目标设备;
相对于所述第一目标设备建立聚焦会话;
经由所述公共网络服务的操作使所述第一操作由所述第一目标设备执行;
接收包括对第二操作的请求的第二语音命令;
确定所述第二语音命令不包括对第二目标设备的显式指定;
确定所述第二操作可由所述第一目标设备执行;
确定所述第二语音命令是否满足一个或多个聚焦会话维持准则;以及
根据所述第二语音命令满足所述一个或多个聚焦会话维持准则的确定,经由所述公共网络服务的操作使所述第二操作由所述第一目标设备执行。
2.根据权利要求1所述的方法,其中从已连接电子设备的所述本地组当中确定用于所述第一操作的第一目标设备包括:
从所述第一语音命令获得对所述第一目标设备的显式指定。
3.根据权利要求1所述的方法,其中从已连接电子设备的所述本地组当中确定用于所述第一操作的第一目标设备包括:
确定所述第一语音命令不包括对所述第一目标设备的显示指定;
确定所述第一操作可由已连接电子设备的所述本地组当中的第二电子设备执行;以及
选择所述第二电子设备作为所述第一目标设备。
4.根据权利要求1所述的方法,进一步包括:
根据所述第二语音命令满足所述一个或多个聚焦会话维持准则的所述确定,相对于所述第一目标设备延长所述聚焦会话。
5.根据权利要求1所述的方法,其中相对于所述第一目标设备建立所述聚焦会话包括:
存储所述第一语音命令的时间戳;以及
存储所述第一目标设备的标识符。
6.根据权利要求1所述的方法,其中:
所述一个或多个聚焦会话维持准则包括如下准则:所述第二语音命令在相对于接收到所述第一语音命令的第一预定义时间间隔内或者在相对于接收到所述第一语音命令的第二预定义时间间隔内由所述第一电子设备接收到,所述第二预定义时间间隔接续所述第一预定义时间间隔;以及
确定所述第二语音命令是否满足所述一个或多个聚焦会话维持准则包括:确定所述第二语音命令是否在所述第一预定义时间间隔或所述第二预定义时间间隔中的任一个内接收到。
7.根据权利要求6所述的方法,进一步包括:根据在所述第一预定义时间间隔内接收到所述第二语音命令的确定,选择所述第一目标设备作为所述第二语音命令的目标设备。
8.根据权利要求6所述的方法,进一步包括:根据在所述第二预定义时间间隔内接收到所述第二语音命令的确定,输出用于确认所述第一目标设备作为所述第二语音命令的目标设备的请求;以及
根据响应于用于确认的所述请求对所述第一目标设备的肯定确认,选择所述第一目标设备作为所述第二语音命令的目标设备。
9.根据权利要求1所述的方法,进一步包括:
接收包括对第三操作的请求和对已连接电子设备的所述本地组当中的第三目标设备的显式指定的第三语音命令;
相对于所述第一目标设备结束所述聚焦会话;
相对于所述第三目标设备建立另一聚焦会话;以及
经由所述公共网络服务的操作使所述第三操作由所述第三目标设备执行。
10.根据权利要求1所述的方法,其中第一目标设备是所述第一电子设备;以及
所述方法进一步包括:
接收包括对第四操作的请求和对已连接电子设备的所述本地组当中的第四目标设备的显式指定的第四语音命令,其中所述第四目标设备是作为已连接电子设备的所述本地组中的成员的第三电子设备,所述第三电子设备与所述第一电子设备不同;
相对于所述第一目标设备维持所述聚焦会话;
经由所述公共网络服务的操作使所述第四操作由所述第四目标设备执行。
11.根据权利要求10所述的方法,其中:
所述第二语音命令在使所述第四操作由所述第四目标设备执行之后被接收;
所述第一操作是媒体播放操作;以及
所述第二操作是媒体中止操作;以及
所述方法进一步包括:
接收包括对第五操作的请求和对已连接电子设备的所述本地组当中的第五目标设备的显式指定的第五语音命令,其中所述第五目标设备是所述第三电子设备;
相对于所述第一目标设备结束所述聚焦会话;
相对于所述第五目标设备建立另一聚焦会话;以及
经由所述公共网络服务的操作使所述第五操作由所述第五目标设备执行。
12.根据权利要求1所述的方法,进一步包括:
接收包括预定义操作终止请求的第五语音命令;以及
根据接收到所述第五语音命令:
使所述第一操作停止由所述第一目标设备执行;以及
相对于所述第一目标设备结束所述聚焦会话。
13.根据权利要求1所述的方法,其中:
所述第一操作是媒体播放操作;以及
所述第二操作是以下各项中的一个:媒体中止操作、媒体倒回操作、媒体快进操作、调高音量操作和调低音量操作。
14.根据权利要求1所述的方法,其中:
所述第一操作是到多个设备状态中的第一设备状态的设备状态改变操作;以及
所述第二操作是到所述多个设备状态中的第二设备状态的设备状态改变操作。
15.根据权利要求1所述的方法,其中:
所述第一操作是在幅度标尺的第一方向上的幅度改变操作;以及
所述第二操作是在所述幅度标尺的与所述第一方向相反的第二方向上的幅度改变操作。
16.根据权利要求1所述的方法,其中所述第一电子设备包括一个或多个LED的阵列;以及
所述方法进一步包括:
通过照亮所述LED阵列中的所述LED中的一个或多个LED来指示所述聚焦会话的状态。
17.一种电子设备,包括:
一个或多个麦克风;
扬声器;
一个或多个处理器;以及
存储指令的存储器,所述指令在由所述一个或多个处理器执行使得所述一个或多个处理器执行根据权利要求1至16中的任一项所述的方法。
18.一种存储指令的非暂时性计算机可读存储介质,所述指令在由具有一个或多个麦克风、扬声器和一个或多个处理器的电子设备执行时,使得所述电子设备执行根据权利要求1至16中的任一项所述的方法的操作。
CN201711071055.1A 2016-11-03 2017-11-03 语音接口设备处的聚焦会话 Active CN108022590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311300819.5A CN117351953A (zh) 2016-11-03 2017-11-03 语音接口设备处的聚焦会话

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662417281P 2016-11-03 2016-11-03
US62/417,281 2016-11-03
US15/801,307 US10783883B2 (en) 2016-11-03 2017-11-01 Focus session at a voice interface device
US15/801,307 2017-11-01

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311300819.5A Division CN117351953A (zh) 2016-11-03 2017-11-03 语音接口设备处的聚焦会话

Publications (2)

Publication Number Publication Date
CN108022590A true CN108022590A (zh) 2018-05-11
CN108022590B CN108022590B (zh) 2023-10-31

Family

ID=60664673

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202311300819.5A Pending CN117351953A (zh) 2016-11-03 2017-11-03 语音接口设备处的聚焦会话
CN201711071055.1A Active CN108022590B (zh) 2016-11-03 2017-11-03 语音接口设备处的聚焦会话

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202311300819.5A Pending CN117351953A (zh) 2016-11-03 2017-11-03 语音接口设备处的聚焦会话

Country Status (8)

Country Link
US (3) US10783883B2 (zh)
EP (2) EP3535753B1 (zh)
JP (2) JP7130637B2 (zh)
KR (1) KR102242917B1 (zh)
CN (2) CN117351953A (zh)
DE (2) DE202017106668U1 (zh)
GB (1) GB2558066B (zh)
WO (1) WO2018085671A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109005383A (zh) * 2018-07-06 2018-12-14 杭州涂鸦信息技术有限公司 一种随处播放iot监控视频流的方法
CN109473109A (zh) * 2018-12-29 2019-03-15 深圳Tcl新技术有限公司 数据处理方法、装置及计算机可读存储介质
CN109637535A (zh) * 2018-12-26 2019-04-16 珠海格力电器股份有限公司 语音指令的处理方法、装置和智能终端
CN110415696A (zh) * 2019-07-26 2019-11-05 广东美的制冷设备有限公司 语音控制方法、电器控制装置、电器及电器控制***
CN110634477A (zh) * 2018-06-21 2019-12-31 海信集团有限公司 一种基于场景感知的上下文判断方法、装置及***
CN112187590A (zh) * 2019-07-02 2021-01-05 百度在线网络技术(北京)有限公司 控制方法、装置、设备和计算机可读存储介质

Families Citing this family (226)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US8867106B1 (en) 2012-03-12 2014-10-21 Peter Lancaster Intelligent print recognition system and method
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
CN111314826B (zh) 2015-09-17 2021-05-14 搜诺思公司 由计算设备执行的方法及相应计算机可读介质和计算设备
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10839795B2 (en) * 2017-02-15 2020-11-17 Amazon Technologies, Inc. Implicit target selection for multiple audio playback devices in an environment
US10264358B2 (en) 2017-02-15 2019-04-16 Amazon Technologies, Inc. Selection of master device for synchronized audio
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10258295B2 (en) 2017-05-09 2019-04-16 LifePod Solutions, Inc. Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) * 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
KR102543693B1 (ko) * 2017-10-17 2023-06-16 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11182122B2 (en) * 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11201849B2 (en) * 2018-01-15 2021-12-14 Lenovo (Singapore) Pte. Ltd. Natural language connectivity
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10425781B1 (en) 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10616726B1 (en) 2018-02-22 2020-04-07 Amazon Technologies, Inc. Outputing notifications using device groups
US10425780B1 (en) * 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108566634B (zh) * 2018-03-30 2021-06-25 深圳市冠旭电子股份有限公司 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US11437029B2 (en) 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
WO2019236444A1 (en) * 2018-06-05 2019-12-12 Voicify, LLC Voice application platform
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11373640B1 (en) * 2018-08-01 2022-06-28 Amazon Technologies, Inc. Intelligent device grouping
JP7027281B2 (ja) * 2018-08-10 2022-03-01 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
KR20230145521A (ko) 2018-08-23 2023-10-17 구글 엘엘씨 멀티-어시스턴트 환경의 특성에 따른 어시스턴트 응답성 규정하기
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10812751B2 (en) 2018-09-18 2020-10-20 Roku, Inc. Dynamically switching to/from a first network during audio playback over HDMI/ARC
US10871935B2 (en) 2018-09-18 2020-12-22 Roku, Inc. Audio cancellation and content recognition of audio received over HDMI/ARC
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
GB2577879B (en) * 2018-10-08 2022-08-24 B & W Group Ltd Content playback system
JP2020060951A (ja) * 2018-10-10 2020-04-16 三菱電機株式会社 制御装置、機器制御システム、機器制御方法及びプログラム
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11687850B2 (en) * 2018-11-21 2023-06-27 Honda Motor Co., Ltd System and method for processing a task request to be executed and fulfilled
US11694130B2 (en) 2018-11-21 2023-07-04 Honda Motor Co., Ltd. System and method for assigning an agent to execute and fulfill a task request
US10944588B2 (en) 2018-11-29 2021-03-09 International Business Machines Corporation Resolving conflicting commands received by an electronic device
US11575762B2 (en) * 2018-12-05 2023-02-07 Yahoo Assets Llc Subscription-based message selection and transmission
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
CN109788360A (zh) 2018-12-12 2019-05-21 百度在线网络技术(北京)有限公司 基于语音的电视控制方法和装置
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200074690A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11024310B2 (en) * 2018-12-31 2021-06-01 Sling Media Pvt. Ltd. Voice control for media content search and selection
CN109634132A (zh) * 2019-01-03 2019-04-16 深圳壹账通智能科技有限公司 智能家居管理方法、装置、介质及电子设备
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11196582B2 (en) * 2019-02-08 2021-12-07 Google Llc Adapting to differences in device state reporting of third party servers
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
JP7266418B2 (ja) 2019-02-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
JP7211856B2 (ja) * 2019-03-11 2023-01-24 本田技研工業株式会社 エージェント装置、エージェントシステム、サーバ装置、エージェント装置の制御方法、およびプログラム
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020222539A1 (en) 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
US20200349940A1 (en) * 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Server for determining target device based on speech input of user and controlling target device, and operation method of the server
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US10996917B2 (en) 2019-05-31 2021-05-04 Apple Inc. User interfaces for audio media control
KR102656129B1 (ko) 2019-05-31 2024-04-11 애플 인크. 오디오 미디어 제어를 위한 사용자 인터페이스
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US10867608B1 (en) * 2019-05-31 2020-12-15 Apple Inc. Multi-user configuration
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
KR102245953B1 (ko) * 2019-06-05 2021-04-28 엘지전자 주식회사 복수의 전자기기의 제어방법
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11122423B2 (en) 2019-06-26 2021-09-14 Vmware, Inc. Proximity based authentication of a user through a voice assistant device
KR20210001082A (ko) * 2019-06-26 2021-01-06 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11295745B1 (en) * 2019-09-04 2022-04-05 Amazon Technologies, Inc. Multi-tasking and skills processing
US10827028B1 (en) * 2019-09-05 2020-11-03 Spotify Ab Systems and methods for playing media content on a target device
JP7262142B2 (ja) 2019-09-18 2023-04-21 ヨプ リ,ジョン 複数の音声システムが装着されたオンラインメディアサービス具現方法
KR102111360B1 (ko) * 2019-09-18 2020-05-18 이종엽 다중 음성시스템이 장착된 온라인미디어 서비스 구현 방법
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110769319B (zh) * 2019-10-22 2022-05-10 思必驰科技股份有限公司 待机唤醒交互方法和装置
US11570165B2 (en) 2019-12-09 2023-01-31 Vmware, Inc. Single sign-on service authentication through a voice assistant
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11830098B2 (en) 2020-01-02 2023-11-28 Vmware, Inc. Data leak prevention using user and device contexts
US20210211422A1 (en) * 2020-01-06 2021-07-08 Vmware, Inc. Voice skill session lifetime management
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN111276139B (zh) * 2020-01-07 2023-09-19 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11335335B2 (en) 2020-02-03 2022-05-17 International Business Machines Corporation Disambiguation of generic commands for controlling objects
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
CN111091829B (zh) * 2020-02-21 2023-03-14 珠海荣邦电子科技有限公司 一种语音控制方法、装置及电子设备
US11301906B2 (en) 2020-03-03 2022-04-12 BrandActif Ltd. Method and system for digital marketing and the provision of digital content
US11593843B2 (en) 2020-03-02 2023-02-28 BrandActif Ltd. Sponsor driven digital marketing for live television broadcast
SG10202001898SA (en) 2020-03-03 2021-01-28 Gerard Lancaster Peter Method and system for digital marketing and the provision of digital content
US11854047B2 (en) 2020-03-03 2023-12-26 BrandActif Ltd. Method and system for digital marketing and the provision of digital content
JP2021162696A (ja) 2020-03-31 2021-10-11 ブラザー工業株式会社 情報処理装置、情報処理方法、電子機器及び情報処理システム
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11750668B1 (en) * 2020-06-23 2023-09-05 Nikolay Abkairov Combined asynchronous and synchronous communication system and service with transcription support
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11789928B2 (en) * 2020-11-12 2023-10-17 International Business Machines Corporation Dynamic namespace modification for virtual agents
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11960615B2 (en) 2021-06-06 2024-04-16 Apple Inc. Methods and user interfaces for voice-based user profile management
US11410655B1 (en) 2021-07-26 2022-08-09 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
US11404062B1 (en) 2021-07-26 2022-08-02 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
KR20230018833A (ko) * 2021-07-30 2023-02-07 삼성전자주식회사 전자 장치 및 무선 오디오 장치의 연결 전환을 제공하는 방법
US11677832B2 (en) * 2021-09-23 2023-06-13 International Business Machines Corporation Voice activated device enabling
US11838582B1 (en) * 2022-12-12 2023-12-05 Google Llc Media arbitration

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US20140258942A1 (en) * 2013-03-05 2014-09-11 Intel Corporation Interaction of multiple perceptual sensing inputs
US20150287411A1 (en) * 2014-04-08 2015-10-08 Panasonic Intellectual Property Corporation Of America Device control method, device management system, and voice input apparatus
US20150325234A1 (en) * 2013-07-08 2015-11-12 Tencent Technology (Shenzhen) Company Limited Systems and Methods for Configuring Matching Rules Related to Voice Input Commands
CN105393302A (zh) * 2013-07-17 2016-03-09 三星电子株式会社 多级语音识别
US20160189717A1 (en) * 2014-12-30 2016-06-30 Microsoft Technology Licensing, Llc Discovering capabilities of third-party voice-enabled resources

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052666A (en) 1995-11-06 2000-04-18 Thomson Multimedia S.A. Vocal identification of devices in a home environment
KR100438838B1 (ko) * 2002-01-29 2004-07-05 삼성전자주식회사 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법
JP2006033795A (ja) 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。
WO2008085207A2 (en) * 2006-12-29 2008-07-17 Prodea Systems, Inc. Multi-services application gateway
JP4434247B2 (ja) 2007-08-10 2010-03-17 ソニー株式会社 リモートコントローラ、リモートコントロールシステムおよびリモートコントロール方法
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US20170206064A1 (en) * 2013-03-15 2017-07-20 JIBO, Inc. Persistent companion device configuration and deployment platform
US9431014B2 (en) * 2013-07-25 2016-08-30 Haier Us Appliance Solutions, Inc. Intelligent placement of appliance response to voice command
KR102188090B1 (ko) * 2013-12-11 2020-12-04 엘지전자 주식회사 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템
US9431021B1 (en) * 2014-03-27 2016-08-30 Amazon Technologies, Inc. Device grouping for audio based interactivity
US9785247B1 (en) * 2014-05-14 2017-10-10 Leap Motion, Inc. Systems and methods of tracking moving hands and recognizing gestural interactions
US10782657B2 (en) * 2014-05-27 2020-09-22 Ultrahaptics IP Two Limited Systems and methods of gestural interaction in a pervasive computing environment
EP3163457B1 (en) * 2014-06-30 2018-10-10 Clarion Co., Ltd. Information processing system, and vehicle-mounted device
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR102277259B1 (ko) * 2014-11-26 2021-07-14 엘지전자 주식회사 디바이스 제어 시스템, 디지털 디바이스 및 디지털 디바이스 제어 방법
US9792901B1 (en) * 2014-12-11 2017-10-17 Amazon Technologies, Inc. Multiple-source speech dialog input
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
CN105334743B (zh) * 2015-11-18 2018-10-26 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其***
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
CN107735752A (zh) * 2016-04-26 2018-02-23 索尼公司 信息处理设备、信息处理方法和程序
US11250201B2 (en) * 2016-06-14 2022-02-15 Amazon Technologies, Inc. Methods and devices for providing optimal viewing displays
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
KR101925034B1 (ko) * 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
US10102855B1 (en) * 2017-03-30 2018-10-16 Amazon Technologies, Inc. Embedded instructions for voice user interface
DE112018008054T5 (de) * 2018-10-05 2021-09-16 Mitsubishi Electric Corporation Unterstützungssystem für den sprachgesteuerten betrieb, sprachbediensystem, sprachverarbeitungsvorrichtung, unterstützungsvorrichtung für den sprachgesteuerten betrieb, unterstützungsverfahren für den sprachgesteuerten betrieb und programm

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140258942A1 (en) * 2013-03-05 2014-09-11 Intel Corporation Interaction of multiple perceptual sensing inputs
US20150325234A1 (en) * 2013-07-08 2015-11-12 Tencent Technology (Shenzhen) Company Limited Systems and Methods for Configuring Matching Rules Related to Voice Input Commands
CN105393302A (zh) * 2013-07-17 2016-03-09 三星电子株式会社 多级语音识别
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US20150287411A1 (en) * 2014-04-08 2015-10-08 Panasonic Intellectual Property Corporation Of America Device control method, device management system, and voice input apparatus
US20160189717A1 (en) * 2014-12-30 2016-06-30 Microsoft Technology Licensing, Llc Discovering capabilities of third-party voice-enabled resources

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634477A (zh) * 2018-06-21 2019-12-31 海信集团有限公司 一种基于场景感知的上下文判断方法、装置及***
CN110634477B (zh) * 2018-06-21 2022-01-25 海信集团有限公司 一种基于场景感知的上下文判断方法、装置及***
CN109005383A (zh) * 2018-07-06 2018-12-14 杭州涂鸦信息技术有限公司 一种随处播放iot监控视频流的方法
CN109637535A (zh) * 2018-12-26 2019-04-16 珠海格力电器股份有限公司 语音指令的处理方法、装置和智能终端
CN109473109A (zh) * 2018-12-29 2019-03-15 深圳Tcl新技术有限公司 数据处理方法、装置及计算机可读存储介质
WO2020135773A1 (zh) * 2018-12-29 2020-07-02 深圳Tcl新技术有限公司 数据处理方法、装置及计算机可读存储介质
CN112187590A (zh) * 2019-07-02 2021-01-05 百度在线网络技术(北京)有限公司 控制方法、装置、设备和计算机可读存储介质
CN110415696A (zh) * 2019-07-26 2019-11-05 广东美的制冷设备有限公司 语音控制方法、电器控制装置、电器及电器控制***
WO2021017333A1 (zh) * 2019-07-26 2021-02-04 广东美的制冷设备有限公司 语音控制方法、电器控制装置、电器及电器控制***

Also Published As

Publication number Publication date
GB2558066A (en) 2018-07-04
DE102017125745A1 (de) 2018-05-03
JP7130637B2 (ja) 2022-09-05
DE202017106668U1 (de) 2018-02-15
KR102242917B1 (ko) 2021-04-20
US11990128B2 (en) 2024-05-21
EP3940694A1 (en) 2022-01-19
US11527246B2 (en) 2022-12-13
JP2022174099A (ja) 2022-11-22
CN108022590B (zh) 2023-10-31
GB201718184D0 (en) 2017-12-20
KR20190071794A (ko) 2019-06-24
WO2018085671A1 (en) 2018-05-11
EP3535753A1 (en) 2019-09-11
US20230046924A1 (en) 2023-02-16
JP2020500330A (ja) 2020-01-09
EP3535753B1 (en) 2021-10-27
CN117351953A (zh) 2024-01-05
US20210005202A1 (en) 2021-01-07
US20180122378A1 (en) 2018-05-03
GB2558066B (en) 2020-10-21
US10783883B2 (en) 2020-09-22

Similar Documents

Publication Publication Date Title
CN108022590A (zh) 语音接口设备处的聚焦会话
US11972678B2 (en) Server-provided visual output at a voice interface device
CN209400877U (zh) 电子设备、语音接口设备以及电子***
CN108268235B (zh) 用于语音接口设备的对话感知主动通知
CN208444593U (zh) 具有垂直定向的外壳的扬声器设备
US20190279634A1 (en) LED Design Language for Visual Affordance of Voice User Interfaces
CN109791762A (zh) 语音接口设备的噪声降低
CN108604254A (zh) 语音控制的隐藏字幕显示

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant