CN107004411B - 话音应用架构 - Google Patents
话音应用架构 Download PDFInfo
- Publication number
- CN107004411B CN107004411B CN201580042259.5A CN201580042259A CN107004411B CN 107004411 B CN107004411 B CN 107004411B CN 201580042259 A CN201580042259 A CN 201580042259A CN 107004411 B CN107004411 B CN 107004411B
- Authority
- CN
- China
- Prior art keywords
- intent
- user
- application
- interface device
- voice interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 claims description 60
- 230000004044 response Effects 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 45
- 230000005236 sound signal Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 abstract description 21
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 8
- 238000009434 installation Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种基于话音的***可包括本地语音接口装置和远程控制服务。用户可使用语音来与所述***交互以获得服务并执行功能。所述***可允许用户安装应用以提供增强或定制的功能性。此类应用可被安装在所述语音接口装置或所述控制服务上。所述控制服务接收用户语音并基于所述语音来确定用户意图。如果安装在所述控制服务上的应用可对所述意图做出响应,那么调用所述应用。否则,将所述意图提供到所述语音接口装置,所述语音接口装置通过调用其应用中的一个以对所述意图做出响应来做出响应。
Description
相关申请案的交叉引用
本申请案主张2014年8月11日提交的第14/456,620号美国专利申请案的优先权。所述申请案的全部内容特此通过引用并入本文中。
背景技术
家中和其它用户处所越来越多地配备有永远在线因特网或“云”连接。在许多情况下,甚至移动用户具有恒定的或几乎恒定的数据连接。网络通信的公共可用性,结合计算装置的增加的能力,已产生使用各种用户可访问的连接装置的服务和其它功能性的多种新可能性。基于语言和基于语音的***是可被用于在用户与自动化***交互时向用户提供便利的技术的实例。
附图说明
参考附图描述具体实施方式。在图式中,参考数字的最左位识别该参考数字首先出现的图。在不同的图式中使用相同的参考数字指示相似或相同的部件或特征。
图1是说明具有控制服务和语音接口装置的基于语音的***的框图。
图2是说明应用在控制服务和语音接口装置上的使用和安装的框图。
图3和图4是说明在基于语音选择应用时所使用的功能部件的框图。
图5是说明在所描述的实施方案中可通过控制服务来执行的动作的实例的流程图。
图6是说明在所描述的实施方案中可通过语音接口装置来执行的动作的实例的流程图。
具体实施方式
本公开描述执行与用户的自然语言和/或基于语音的交互的装置、***以及服务。在所描述的实施方案中,***收听用户的语音或与用户交互,以基于对用户的语音的自然语言理解来确定用户意图。例如,用户可说出某一表达,所述表达被理解为播放歌曲或订电影票的意图。在某些实施方案中,***可与用户进行自然语言对话以确定或弄清用户意图。在确定用户的意图后,***通过执行动作或提供服务以履行所述意图来作用于所述意图,诸如通过播放歌曲或另外与用户交互以订电影票。
***可包含位于用户的家中的语音接口装置和基于支持云的控制服务。语音接口装置经配置以捕获用户话语并将其提供到控制服务。控制服务对话语执行语音识别和自然语言理解以确定话语所表达的意图。响应于所识别的意图,控制服务使得执行对应的动作。动作可在控制服务处执行,或通过指示语音接口执行某一功能来执行。
***的内置能力可通过由用户选定或购买的售后应用来扩展。此类应用可经设计用于在控制服务或语音接口装置上安装和执行。在基于所接收的用户语音来确定用户意图后,控制服务识别所述应用中的适合于对意图做出响应的一个应用。如果此应用已在控制服务上安装并启用,那么控制服务调用所述应用。否则,如果合适的应用安装在语音接口装置上,那么控制服务将用户意图的指示传递到语音接口装置。在接收到意图的指示后,语音接口装置调用对应的应用以对用户意图做出响应。
图1示出基于话音的平台或***100的实例,所述基于话音的平台或***诸如可用于实施这些技术。***100可包含或可利用能够捕获并播放音频的语音接口装置102。语音接口装置102可以是环境104(诸如家中或其它处所)本地的和/或位于所述环境内以为用户106提供服务。语音接口装置可在本文中替代地被称为语音接口、被称为接口装置或被简称为装置。在不同的实施方案中,语音接口装置的功能可通过不同类型的装置来执行,所述不同类型的装置包含移动装置,诸如智能手机、平板计算机、媒体播放器、个人计算机等。
语音接口装置102可结合远程的基于网络或网络可访问的控制服务108和/或在所述服务的控制下操作,所述服务也被称为语音服务或基于语音的服务,且经配置以从语音接口装置102接收音频,识别所接收的音频中的语音,且响应于所识别的语音而执行或启动功能或服务。此类功能或服务可通过控制服务108独立于语音接口装置102来实施,和/或可通过将命令提供到语音接口装置102以用于通过语音接口装置102在本地执行来实施。例如,控制服务108可指示语音接口装置102播放音乐、语音或通过控制服务108指定的其它音频内容。另外,功能或服务可通过被用户启用和/或安装以用于在语音接口装置102或控制服务108上执行的应用来实施。
语音接口装置102可具有一个或多个麦克风110以及一个或多个音频扬声器或换能器112以促进与用户106的语音交互。语音接口装置102可具有网络通信接口114,用于经由通信网络116与控制服务108通信。通信网络116可包括公用广域网,诸如因特网,或可包括延伸超出用户106的本地处所的各种其它类型的公用和专用网络中的任何网络。另外,通信接口114可在本地经由用户处所内的局域网来通信。
语音接口装置102可包含操作或控制逻辑,其可包括处理器118和存储器120。处理器118可包含多个处理器和/或具有多个内核的处理器。处理器118还可包括或包含用于处理音频信号的数字信号处理器。
控制逻辑可包含可含有存储在存储器120中的应用、程序以及其它软件。软件可包括计算机可执行的指令,所述指令被处理器118执行以执行实施语音接口装置102的所需功能性的行动或动作,所述所需功能性包含本文中描述的功能性。存储器120可为一种非暂时性计算机可读存储介质,且可包含易失性和非易失性存储器。因此,存储器120可包含但不限于,RAM、ROM、EEPROM、闪存存储器、磁性介质、光学介质或其它存储器技术。存储器120还可包含通常用于传递或分配软件的介质,诸如CD-ROM、DVD、闪存驱动、记忆棒等。
软件可包含***或操作软件122,其预安装在语音接口装置102上并与之集成。操作软件122可包括操作***,其提供语音接口装置102的基础功能性,包含驱动器、音频处理功能、控制服务108的接口等等。操作软件122可包含用于执行各种“内置”功能和动作的预安装程序或应用。操作软件122还可包含动作处理器或接口,其响应于从控制服务108接收到的指令而执行动作。
存储器可120还可包含用户安装的应用124,在本文中也被称为装置应用,其可包括在装置102的购买和安装后已被用户106安装在存储器120且被激活以用于由处理器118执行的应用。各种售后应用可供用户用于本地安装和执行。在一些实施方案中,控制服务108可提供功能性以用于允许用户识别并安装已由各种开发者和供应商提供用于在语音接口装置102上执行的应用。例如,用户可陈述“找到用于打出租车的应用”。控制服务108可通过建议提供此类应用以用于安装在语音接口装置102上来做出响应。用户可接受此建议,由此应用可被提供到语音接口装置102并安装在所述语音接口装置上。
在一些情况下,控制服务108可为网络可访问的计算平台中的经由网络116维持并可访问的部分。诸如此平台等网络可访问的计算平台可使用术语诸如“按需计算”、“软件即服务(SaaS)”、“平台计算”、“网络可访问的平台”、“云服务”、“数据中心”等等来称呼。控制服务108可经配置以将服务提供到在不同用户的家中或处所中的大量语音接口装置102。
语音接口装置102和/或控制服务108可经由有线技术(例如,导线、通用串行总线(USB)、光纤电缆等)、无线技术(例如,射频(RF)、蜂窝、移动电话网络、卫星、蓝牙等)或其它连接技术来通信地耦合到网络116。网络116表示任何类型的通信网络,包含数据和/或话音网络,且可使用有线基础设施(例如,同轴电缆、光纤电缆等)、无线基础设施(例如,RF、蜂窝、微波、卫星、等)和/或其它连接技术来实施。
控制服务108经配置以从语音接口装置102接收音频流,识别音频流中的语音,以及从所识别的语音确定用户意图。取决于所识别的意图的性质,控制服务108可通过执行动作或调用应用以执行动作来做出响应。
在一些情况下,控制服务108可确定意图并将对意图的描述返回到语音接口装置102,使得语音接口装置102可响应于意图而执行动作。在从控制服务108接收到所识别的意图后,语音接口装置可调用用户安装的应用124中的一个来执行动作以履行意图。
在其它情况下,控制服务可将指令或命令返回到语音接口装置102,且语音接口装置102的命令处理器可执行所述指令或命令以在环境104内执行动作。
控制服务108包含操作或控制逻辑,其可包括一个或多个服务器、计算机和/或处理器126。控制逻辑包含存储器128,其包含应用、程序和/或呈指令的形式的其它软件,所述指令被处理器126执行以执行实施控制服务108的所需功能性的行动或动作,所述所需功能性包含本文中描述的功能性。存储器128可为一种非暂时性计算机可读存储介质,且可包含易失性和非易失性存储器。因此,存储器128可包含但不限于,RAM、ROM、EEPROM、闪存存储器、磁性介质、光学介质或其它存储器技术。存储器128还可包含通常用于传递或分配软件的介质,诸如CD-ROM、DVD、闪存驱动、记忆棒等。
在未具体示出的其它逻辑和物理部件中,控制服务108的软件可包含语音处理部件130,也被称为语音服务130。语音服务130可包含自动语音识别(ASR)功能性,其在由语音接口装置102提供的来自麦克风110的音频信号中识别人类语音。语音服务130还可包含自然语言理解(NLU)功能性,其基于通过语音识别部件识别的用户语音来确定用户意图。语音服务130还可包含语音生成功能性,其合成或以其它方式产生语音音频。例如,语音生成功能性可包括文本到语音部件,其产生语音以在语音接口装置102的扬声器112上播放。
控制服务108还可提供对话管理部件132,其经配置以结合语音服务130来协调与用户106的语音对话或交互。可使用语音对话以通过使用语音提示向用户询问信息来确定或弄清用户意图。
控制服务108还可包括命令解释器与动作调度器134(下文简称为命令解释器134),其确定对应于通过用户语音表达的意图的功能或命令。在一些情况下,命令可对应于将至少部分通过语音接口装置102执行的功能,且在那些情况下,命令解释器134可将装置命令或指令提供到语音接口装置102以用于实施此类功能。命令解释器134实施结合语音接口装置102来使用的基础“内置”能力。此类基础能力可默认地被实施和启用用于所有语音接口装置102的用户。基础能力的实例可包括设定警告或通知,增加/降低扬声器112的音量,通过扬声器112生成可听语音,启动与类似装置的用户的某些类型的通信等等。
控制服务108还可具有一个或多个用户安装的应用136或还可经配置以使用一个或多个用户安装的应用,所述应用还可被描述为售后应用、第三方应用、可选应用、启用应用、服务器应用等等。诸如此应用等的应用可为可选的,且可由用户106从可用可安装应用的库或其它集合获得。在一些情况下,用户可购买应用以用于与***100结合使用。一般地,服务器应用可由用户以与装置应用124相同的方式选定、获得并安装。
除由命令解释器134提供的基础功能性外,用户安装的应用136还提供补充的和/或另外的功能性和能力。响应于启用或授权的用户安装的应用136应用能够服务的所识别的用户意图,可自动地调用所述应用。
在某些情况下,用户安装的服务器应用136可由控制服务108提供并托管。替代地,某些服务器应用136可由第三方或第三方服务提供和/或托管,且可使用基于网络的接口来与控制服务108通信。
控制服务108还可具有应用选择部件138,其在本文中也被称为意图路由器138,其基于所识别的通过用户语音表达的意图来选择并调用应用。例如,服务器应用136中的每一个可与应用能够对其做出响应的一个或多个意图相关联。响应于所识别的不可由命令解释器134服务的用户意图,应用选择器138可选择并调用控制服务108的服务器应用136中的一个。在一些情况下,应用选择器138还可从语音接口装置的经安装的装置应用124中进行选择。
响应于从所接收的音频识别的语音,控制服务108还可执行涉及图1中未示出的实体或装置的功能。例如,控制服务108可与其它基于网络的服务交互以代表用户106获得信息或服务。
图2说明在某些实施方案中可如何获得并使用可安装的基于语音的应用的实例。如上文所描述,语音接口装置102可具有多个用户安装的装置应用124,且控制服务108也可具有多个用户安装的服务器应用136。经安装的应用124和136可响应于用户请求而从可用可安装应用202的集合获得并安装。可用应用202可包括可选的并补充由***100提供的功能性或添加另外的功能性的应用。可用应用202可由控制服务108的操作人员提供,或可由第三方实体设计并提供。
某些可用应用202可由网络服务器或服务来托管并从网络服务器或服务执行,且可通过适当的网络应用编程接口(API)来访问。其它可用应用202可经设计用于在控制服务108的服务器或处理器上执行。经安装的服务器应用136可包含通过控制服务108执行的那些应用,以及在控制服务108的监督下通过第三方服务托管的那些应用。再其它可用应用202可经设计用于安装在语音接口装置102上并通过所述语音接口装置执行。经安装的装置应用124包含诸如此应用的应用。
如上文参考图1所提及,控制服务108可具有自动语音识别(ASR)部件204和自然语言理解(NLU)部件206。对话管理部件132经配置以基于如通过语音识别部件204所识别和/或通过自然语言理解部件206所理解的语音来协调与用户106的对话或交互。控制服务108还可具有文本到语音部件208,其响应于对话管理部件132以生成语音以用于在语音接口装置102上对用户106重放。
上文描述的部件可基于不同类型的模型或规则来起作用。例如,ASR部件204可使其功能性基于ASR模型210,所述ASR模型可包含借助于各种训练技术产生的声学模型。类似地,NLU部件206可利用NLU模型212,所述NLU模型指定语法、词汇、短语、响应等等,且还可通过训练产生。对话管理部件132可利用对话模型214,其指定用于与用户进行对话的逻辑。对话包括用户106的自然语言语句或话语与***生成的语音或文本响应的交替序列。对话模型214体现用于进行以下操作的逻辑:基于所接收的用户语句来产生响应,以便提示用户106关于意图的更详细信息或从用户106获得其它信息。
响应于通过NLU部件206识别的用户意图,应用选择部件或意图路由器138识别、选择和/或调用经安装的装置应用124和/或经安装的服务器应用136。响应于所确定的用户意图,意图路由器138尝试识别经安装的应用124和136中的能够服务于用户意图的一个应用。如果找到此类应用,那么调用(called)或调用(invoked)此应用以满足用户意图或与用户进行另外的对话以另外细化用户意图。
经安装的应用124和136中的每一个可具有或提供意图规范,其界定所述应用可服务的意图。通过意图规范指示的意图可在本文中被称为应用意图或称为应用的可服务意图。经安装的应用的意图规范界定可通过所述应用服务的一般意图或意图类型。控制服务108使用经安装的应用的意图规范来检测对应于应用124和136的用户话语、表达或意图。
应用意图规范可包含NLU模型,以供自然语言理解部件206结合NLU模型212使用。在一些情况下,NLU模型212可包含或并入有通过经安装的应用124和136指定的NLU模型。
经安装的应用124和136还可具有或指定产生并协调与用户106的语音交互的对话模型。所述对话模型可通过对话管理部件132结合对话模型214来使用以产生并协调与用户106的对话,并在经安装的应用124和136的操作之前或期间确定用户意图。在一些情况下,对话模型214可包含或并入有通过经安装的应用124和136指定的对话模型。
控制服务108可具有或显露应用编程接口,且某些应用124和136可通过API及控制服务108来注册。特定应用的注册可指示或提供对应的意图规范以供控制服务108使用。应用开发者可通过API提供其应用的注册,使得应用124和136可结合控制服务108来使用。
在一些实施方案中,NLU部件206和对话管理部件132可经配置以使用应用124和136的意图规范来进行对话,以识别用户所表达的意图,且以识别对应于用户所表达的意图或能够服务于所述意图的经安装的应用。
应用的意图规范可在应用的操作之前或期间使用。在一些情况下,例如,在启动或调用应用之前,当确定一般用户意图时,对话管理部件132可利用意图规范。更具体地说,NLU部件206和对话管理部件132可使用应用的意图规范,结合NLU模型212和对话模型214来确定用户何时表达可由所述应用服务的意图。随后,NLU部件206和对话管理部件132可使用意图规范来与用户106进行另外的对话,以便另外细化用户意图。替代地,应用本身可利用控制服务108的能力来与用户106进行另外对话,以细化用户意图,以便提供相关联的功能性。
作为实例,响应于用户话语,控制服务108可参考多个应用的意图规范,包含装置应用124和服务器应用136的意图规范,以将已被注册的“购票”意图识别为应用中的一个的可服务意图。服务108随后可调用对应的应用。在被调用后,所述应用可接收所确定的意图的指示,且可进行或协调与用户106的另外对话,以便得出另外的意图细节。在确定关于用户意图的足够细节后,应用可执行其经设计的功能性以履行意图。
当与用户106进行对话时,经安装的应用可利用控制服务108的语音相关的能力,例如ASR部件204、NLU部件206、对话管理部件132以及文本到语音部件208的那些能力。
作为另一实例,用户可陈述不可由当前可用于用户的任何应用服务的意图。例如,用户可陈述“我想打出租车”。尽管用户当前已安装或激活的应用都不能服务于此意图,但控制服务108可搜索可用应用202的列表或市场,以识别已指定匹配的或对应的可服务意图的应用。在一些情况下,控制服务108随后可自动地安装或启用所识别的应用。在其它情况下,控制服务108可提示用户购买或激活应用,且随后启动或调用应用。当安装应用202中的一个时,应用可安装在语音接口装置102上或安装在控制服务108上。
当应用已被调用或启动时,可在已启动的应用的控制下执行与用户的另外语音交互,所述已启动的应用可根据应用的活动领域,使用特定于所述应用及其领域的NLU模型来解释用户语句。例如,应用可根据所述应用经设计以执行的功能来与用户进行对话。在检测到与应用的活动领域不相符的用户语句或意图后,应用可自终止且控制可返回到控制服务108。在一些情况下,控制服务108可在经安装的应用的执行期间继续监视用户语句,且可在检测到用户的与应用的活动领域不相符的表达或意图后预先制止应用。
图3说明可在***100中通过语音接口装置102和控制服务108实施的逻辑部件和功能性。图3说明的配置允许可安装应用位于语音接口装置102或控制服务108处且从所述语音接口装置或控制服务执行。应注意,尽管某些功能性说明为通过离散的部件实施,但此类功能性可通过在语音接口装置102和控制服务108中的任一个或每一个内的硬件和/或软件的不同组合来实施。
语音接口装置102具有音频捕获功能或部件302,其使用麦克风110从环境104捕获音频。音频捕获部件302产生音频信号304并将音频信号304提供到控制服务108。音频信号304可能地包含用户话语,包含用户106的语音。
ASR部件204接收音频信号304并执行语音识别以产生含有用户106说出的自然语言的文本串306。文本串306被提供到NLU部件206,所述NLU部件使用自然语言理解技术来确定文本串306的文字所表达的意图308。
控制服务108可具有如上文所描述的多个经安装的服务器应用136,其已被用户选定并启用以用于在控制服务108的一个或多个服务器计算机上执行。语音接口装置102还可具有多个经安装的装置应用124,其已被用户选定并启用以用于在语音接口装置102上执行。经安装的应用124和136可执行不同的功能或提供涉及不同的活动或内容领域的不同服务。例如,一个应用可涉及音乐领域,且可具有用于查找并播放音乐的功能性。另一应用可对应于通知领域且可具有用于设定并发出告警或警告的功能性。应用可以是语音启用的,意味着所述应用经配置以通过语音与用户交互以提供所需功能性。应用中的每一个可对应于所述应用能够满足或服务的一个或多个可服务意图。
控制服务108可经配置以跟踪哪些服务器应用136已被安装或启用以用于多个语音接口装置102中的每一个。控制服务108还可经配置以跟踪哪些装置应用124已在多个语音接口装置102中的每一个上被安装和启用。另外,控制服务108可经配置以跟踪每一经安装或启用的应用能够对其做出响应或另外处理的意图。
在识别出意图308后,应用选择器或意图路由器138识别并选择装置应用124中的一个或服务器应用136中的一个。意图路由器138将所识别的意图308的指示或描述提供到选定应用,并调用选定应用或造成选定应用的调用。选定应用的调用可以编程方式实现,和/或通过对所述应用或对语音接口装置102的适当API调用来实现。
当选定应用124或136中的一个时,选定应用通过执行对应的动作来对所提供的意图做出响应。当选定服务器应用136中的一个时,可完全通过应用136来执行动作,或应用136可将命令310发送到语音接口装置102的动作处理器312以使得语音接口装置102执行所述动作或所述动作的一部分。例如,应用136可针对语音接口装置102发送命令以播放某一音调,以增加扬声器音量,以播放语音或以执行某一其它动作。
当选定装置应用124中的一个时,意图路由器可将命令发送到语音接口装置102,所述命令指定将被调用的应用和所述应用将对其做出响应的意图。在一些情况下,应用可通过应用标识符(App ID)指定。作为响应,语音接口装置102的操作软件122可以编程方式调用经指定的装置应用124。选定装置应用可通过使用经集成的语音接口装置102的能力和/或由控制服务108提供的能力来对指定意图做出响应。例如,经选定并调用的装置应用124可利用控制服务108的语音服务,包含ASR和NLU服务,以便与用户106进行交互和对话。选定装置应用124还可使用其它在线服务或结合其它在线服务来作用,所述在线服务诸如音乐服务、新闻服务、在线商家、各种类型的服务提供商等等。
图4说明可在***100中通过语音接口装置102和控制服务108实施的部件和功能性的替代配置。图4说明的配置类似于图3所说明的配置,除添加应用选择部件或意图路由器402以作为语音接口装置102的部分外。在此实例中,控制服务108的意图路由器138响应于意图而不选择装置应用124中的一个。相反,意图308的指示被传递到语音接口装置102的意图路由器402,且所述意图路由器402基于意图的性质来选择适当的应用。
在此实例中,控制服务108的意图路由器138可首先尝试识别并调用服务器应用136中的适合于对所确定的意图308做出响应的一个服务器应用。如果不能找到此类应用,那么将意图308传递到语音接口装置的意图路由器402,所述意图路由器尝试识别并调用装置应用124中的能够服务于所识别的意图的一个装置应用。在一些实施方案中,控制服务108的意图路由器138可经配置以跟踪哪些装置应用124安装在语音接口102上,且可仅当装置应用124中的一个能够对意图做出响应时,才将意图308传递到语音接口装置102。
应注意,尽管已在基于语音的上下文中描述某些技术,但可以不同于语音的方式(诸如以文本方式)提供或进行用户输入和对话。例如,用户可通过使用键盘键入自然语言语句来指定意图,且服务可通过显示响应文本来做出响应。对话可使用此类双向文本交流来进行。另外,可在其它环境或配置中使用不同于本文中描述的架构的架构。例如,说明为通过语音接口装置执行的功能可通过计算装置来执行,诸如个人计算机、智能手机、平板计算机或任何其它类型的装置。
特定的可执行应用可经设计用于在语音接口装置102或控制服务108上安装并执行。在其中装置可能能够提供更多资源和/或更低时延的某些情况下,在语音接口装置102上执行应用可为所期望的。另外,安装在语音接口装置上的应用可能能够在网络不可用的时段期间继续提供某些功能,诸如本地控制功能。家庭自动化是可期望将应用安装在语音接口装置102上的实例环境。
在其中语音接口装置102对于大量使用语音服务的应用、对于主要利用网络资源的功能和/或在其它情况下具有有限的功能的情况下,在控制服务108上执行应用可为所期望的。
在一些情况下,应用可经设计以在语音接口装置102和控制服务108中的一个上执行,或可实施为适合于在各自的实体上执行的两个起类似作用的版本。在这些情况下,可要求用户指定应用是应被安装在语音接口装置102上还是应被安装在控制服务108上。替代地,***100可评估其它因素且可确定安装应用的地方。在一些情况下,应用可安装在语音接口装置102和控制服务108两者上,且可取决于各种情况在不同位置上执行。此外,在一些情况下,不同的应用可安装在语音接口装置102和控制服务108中的每一个上以用于处理同一意图,且***100可基于情形或其它因素来确定调用所述应用中的哪个。
图5说明在诸如上文所描述的***等基于语音或基于语言的***中选择并调用用户安装的应用的实例方法500。在所描述的实施方案中,***包含本地语音接口装置,以及经配置以实施控制服务的一个或多个远程服务器计算机。用户安装的应用可包含服务器应用,其已被用户选定并启用以用于在一个或多个服务器计算机上执行以结合语音接口装置来操作。用户安装的应用还可包含装置应用,其已被用户选定并启用以用于在语音接口装置上执行。在一些情况下,启用应用可通过以下操作执行:将待安装的应用安装或引导在装置存储器、计算机服务器存储器或与装置或计算机服务器相关联或可由装置或计算机服务器访问的其它存储器中。术语“用户安装的”用于指示应用已被***的用户明确地选定且被启用或安装以用于执行。图5的动作被描述为通过***100的控制服务108执行,但方法500还可在其它环境中执行。
动作502包括接收指示或表达对应的用户意图的用户语音和/或用户话语。动作502可包括从语音接口装置102接收音频,所述音频可含有用户语音。语音接口装置102可将连续的音频流提供到控制服务108,或可提供含有个别的用户话语的音频段。
动作504包括对所接收的用户语音执行语音处理,以确定通过用户语音表达的意图。动作504可包含对所接收的用户语音执行自动语音识别(ASR)和自然语言理解(NLU),以确定通过用户语音或话语表达的意图。动作504还可包含执行与用户的双向语音对话,以提示用户另外的信息且由此弄清用户意图的元素或角色。
动作506包括识别和/或选择服务器应用136中的或装置应用124中的对应于通过用户话语表达的意图中的一个服务器应用或装置应用。应用可通过确定哪一个应用具有与用户的所表达意图匹配的相关联的可服务意图来选定。
另外的动作取决于所识别和/或选定的应用是装置应用124中的一个还是服务器应用136中的一个,如通过图5的判定框508指示。如果所识别的应用是装置应用124中的一个,那么控制服务108执行将意图的指示提供到语音接口装置102的动作510。语音接口装置102响应于所接收的意图的指示来调用装置应用124中的执行对应于意图的动作的一个装置应用。在一些情况下,控制服务108还可执行明确地指定将使用哪一个装置应用124来对用户意图做出响应(诸如具体地说通过应用标识符)的动作512。语音接口装置102通过调用指定的应用124来对此指定做出响应,所述应用转而通过执行对应于用户意图的动作来做出响应。在一些情况下,经调用的装置应用还可通过以下操作做出响应:向控制服务108或意图路由器138确认装置应用已响应于所提供的意图采取动作或装置应用能够对所提供的意图做出响应。
如果所识别的应用是服务器应用136中的一个,那么执行启动或调用所识别的服务器应用136的动作514,并执行将所确定的用户意图的指示提供到经调用的服务器应用136的动作516。经调用的应用136可通过执行对应于用户意图的动作来做出响应。在一些情况下,经调用的服务器应用还可通过以下操作做出响应:向控制服务108或意图路由器138确认服务器应用已响应于所提供的意图采取动作或服务器应用能够对所提供的意图做出响应。
应注意,在一些实施方案中,意图路由器138可经配置以响应于特定意图而调用装置应用124和服务器应用136两者,且以将意图的指示提供到两个应用。两个经调用的应用中的任一个或两个可提供指示响应于第一意图所述应用具有或将执行动作的响应。当意图路由器从应用中的一个接收响应时,可终止或取消其它应用,或指示应用取消任何另外的处理。例如,装置可提供响应于意图所述装置的应用中的一个将执行动作的响应,且意图路由器可做出响应以取消先前已被调用以处理意图的服务器应用。替代地,服务器应用可提供指示响应于意图所述服务器应用将执行动作的响应,且意图路由器可做出响应以指示装置取消装置应用。在一些情况下,此技术可用于减少响应时延。
方法500可迭代地执行以处理连续的用户话语和意图。例如,控制服务108可接收对应于第一和第二用户意图的连续的第一和第二用户话语。响应于第一用户意图,控制服务108可识别、选择服务器应用并使得调用服务器应用,且还可将第一用户意图的指示提供到服务器应用。响应于第二用户意图,控制服务108可识别、选择装置应用并使得调用装置应用,且可将第二用户意图的指示提供到装置和/或装置应用。替代地,响应于第二用户意图,控制服务108可简单地将第二用户意图的指示传递到语音接口装置,且语音接口装置本身可从其用户安装的装置应用选择并调用应用,以对第二用户意图做出响应。
在一些实施中,控制服务108可首先尝试确定服务器应用中的一个是否能够对特定用户意图做出响应。如果是,那么调用所述服务器应用以对用户意图做出响应。否则,将用户意图的指示提供到语音接口装置,且语音接口装置识别、选择并调用其装置应用中的一个以对用户意图做出响应。
图6示出可通过语音接口装置102结合图5的方法来执行的方法600。尽管方法600参考上文描述的***来描述,但方法600还可在其它环境中并结合其它类型的装置来实施。
动作602包括捕获音频并将音频提供到控制服务108。音频可含有用户语音或话语。音频所含有的话语可表达或对应于可由先前已被选定和启用以用于通过语音接口装置102或控制服务108执行的应用服务的用户意图。
动作604包括响应于将用户语音提供到控制服务108,接收通过用户语音表达的意图的指示。在一些情况下,动作604还包括接收响应于用户意图将被调用的装置应用的指定。装置应用可依据应用标识符(ID)来指定。
动作606包括识别对应于通过动作604指示的用户意图的应用。在控制服务108已明确地指定应用或应用ID的情况下,此动作可包括简单地识别通过控制服务108指定的应用。在控制服务108尚未指定特定装置应用124的其它情况下,动作606可包括将所接收的意图与当前安装的装置应用能够对其做出响应的意图进行比较,并选择装置应用中的能够对通过控制服务108指示的意图做出响应的一个装置应用。
动作608包括启动或调用选定应用。动作610可包括将从控制服务108接收的意图提供到经调用的应用。通过经调用的应用执行的动作612包括执行对应于通过用户语音表达的意图的动作。在一些情况下,应用可与用户进行另外的对话,且可接收另外的语音以便确定应执行的一个或多个动作。
尽管已用特定于结构特征的语言描述主题,但应理解在所附权利要求中界定的主题未必限于所描述的特定特征。相反,公开特定特征以作为实施权利要求的说明性形式。
条款
1.一种***,其包括:
一个或多个服务器计算机;
一个或多个服务器应用,其已被用户选定并启用以用于在所述一个或多个服务器计算机上执行,其中所述一个或多个经选定并启用的服务器应用结合位于所述用户的处所中的语音接口装置来操作,以为所述用户提供服务;
语音处理部件,其经配置以从所述语音接口装置接收第一和第二话语,其中所述第一和第二话语分别表达第一和第二用户意图,所述语音处理部件另外经配置以对所述第一和第二话语执行自动语音识别和自然语言理解以确定所述第一和第二用户意图;
意图路由器,其经配置以执行包括以下各项的行动:
识别所述一个或多个服务器应用中的对应于所述第一用户意图的服务器应用;
调用所述所识别的服务器应用以执行对应于所述第一用户意图的第一动作;以及
将所述第二用户意图的指示提供到所述语音接口装置,其中所述语音接口装置响应于所述第二用户意图以执行对应于所述第二用户意图的第二动作。
2.根据条款1所述的***,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被用户选定并启用以用于在所述语音接口装置上执行;以及
所述语音接口装置经配置以(a)识别所述一个或多个装置应用中的对应于所述第二用户意图的装置应用,以及(b)调用所述所识别的装置应用以执行所述第二动作。
3.根据条款1所述的***,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被用户选定并启用以用于在所述语音接口装置上执行;以及
所述行动另外包括(a)识别所述一个或多个装置应用中的对应于所述第二用户意图的装置应用,以及(b)使得所述所识别的装置应用被调用以执行所述第二动作。
4.根据条款1所述的***,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被用户选定并启用以用于在所述语音接口装置上执行;以及
所述行动另外包括(a)确定所述一个或多个装置应用中的至少一个对应于所述第二用户意图,以及(b)将所述第二用户意图的所述指示提供到所述语音接口装置。
5.根据条款1所述的***,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被用户选定并启用以用于在所述语音接口装置上执行;以及
响应于一个或多个用户请求,所述一个或多个服务器应用和所述一个或多个装置应用从可用应用的集合获得。
6.一种方法,其包括:
从语音接口装置接收第一用户语音,其中所述第一用户语音指示第一意图;
对所述第一用户语音执行自然语言理解以确定所述第一意图;
使得第一应用对所述第一意图做出响应;
从所述语音接口装置接收第二用户语音,其中所述第二用户语音指示第二意图;
对所述第二用户语音执行自然语言理解以确定所述第二意图;以及
将所述第二意图的指示提供到所述语音接口装置。
7.根据条款6所述的方法,其中所述第一应用已被用户选定并启用以用于在一个或多个服务器计算机上执行。
8.根据条款6所述的方法,其中所述语音接口装置响应于所述第二意图的所述指示以执行对应于所述第二意图的动作。
9.根据条款6所述的方法,其中所述语音接口装置响应于所述第二意图的所述指示以:
识别对应于所述第二意图的第二应用,其中所述第二应用已被用户选定并启用以用于在语音接口装置上执行;以及
调用所述第二应用以执行对应于所述第二意图的动作。
10.根据条款6所述的方法,其另外包括:
识别对应于所述第二意图的第二应用,其中所述第二应用已被用户选定并启用以用于在语音接口装置上执行;以及
使得所述第二应用对所述第二意图做出响应。
11.根据条款6所述的方法,其另外包括与用户进行自然语言对话以接收所述第一和第二用户语音。
12.根据条款6所述的方法,其中响应于确定第二应用在所述语音接口装置上可用以用于对所述第二意图做出响应,执行将所述第二意图的所述指示提供到所述语音接口装置。
13.根据条款6所述的方法,其中所述第一应用已被用户选定并启用以用于在一个或多个服务器计算机上执行,并且其中响应于确定所述用户尚未选定并启用用于对所述第二意图做出响应的应用以用于在所述一个或多个服务器计算机上执行,执行将所述第二意图的所述指示提供到所述语音接口装置。
14.一种方法,其包括:
确定装置的用户所表达的第一意图;
识别对应于所述第一意图的第一应用,其中所述第一应用已被用户选定并启用以用于在一个或多个服务器计算机上执行;
调用所述第一应用以对所述第一意图做出响应;
确定所述装置的所述用户所表达的第二意图;以及
将所述第二意图的指示提供到所述装置并使得所述装置调用第二应用以对所述第二意图做出响应,其中所述第二应用已被所述用户选定并启用以用于在所述装置上执行。
15.根据条款14所述的方法,其另外包括将所述第一意图的指示提供到所述装置以用于调用第三应用以对所述第一意图做出响应。
16.根据条款14所述的方法,其另外包括:
将所述第一意图的指示提供到所述装置以用于调用第三应用以对所述第一意图做出响应;
从所述装置接收确认:所述装置将响应于所述第一意图执行动作,或所述装置已响应于所述第一意图执行动作;以及
响应于接收到所述确认,指示所述第一应用取消对所述第一意图做出响应。
17.根据条款14所述的方法,其另外包括:
将所述第一意图的指示提供到所述装置以用于调用第三应用以对所述第一意图做出响应;
从所述第一应用接收确认:所述第一应用将响应于所述第一意图执行动作,或所述第一应用已响应于所述第一意图执行动作;以及
响应于接收到所述确认,指示所述第三应用取消对所述第一意图做出响应。
18.根据条款14所述的方法,其中所述装置包括位于所述用户的家中的语音接口。
19.根据条款14所述的方法,其另外包括通过所述装置与所述用户进行自然语言对话以确定所述第一和第二意图。
20.根据条款14所述的方法,其中所述第一应用经配置以通过将一个或多个指令发送到所述装置来对所述第一意图做出响应。
21.根据条款14所述的方法,其另外包括从多个应用识别已被所述用户选定并启用以用于在所述一个或多个服务器计算机上执行的所述第一应用。
22.根据条款14所述的方法,其另外包括从多个应用识别已被所述用户安装以用于在所述装置上执行的所述第二应用。
23.根据条款14所述的方法,其中所述装置响应于所述第二意图的所述指示,以从多个应用识别已被所述用户安装以用于在所述装置上执行的所述第二应用。
24.根据条款14所述的方法,其中响应于确定应用被安置在所述装置上以用于对所述第二意图做出响应,执行将所述第二意图的所述指示提供到装置。
25.根据条款14所述的方法,其中响应于确定所述用户尚未选定并启用用于对所述第二意图做出响应的服务器应用以用于在所述一个或多个服务器计算机上执行,执行将所述第二意图的所述指示提供到所述装置。
Claims (13)
1.一种用于基于语音的用户交互的***,其包括:
一个或多个服务器计算机;
一个或多个服务器应用,其已被选定以用于在所述一个或多个服务器计算机上执行,其中所述一个或多个服务器应用结合位于用户的处所中的语音接口装置来操作,以为所述用户提供服务;
语音处理部件,其经配置以从所述语音接口装置接收表示用户语音的音频信号,其中所述用户语音表达用户意图,所述语音处理部件另外经配置以对所述音频信号执行自动语音识别以识别所述用户语音和对所述用户语音执行自然语言理解以确定用户意图;以及
意图路由器,其经配置以执行包括以下各项的行动:
识别所述一个或多个服务器应用中的对应于所述用户意图的第一服务器应用;
向所述第一服务器应用提供第一指示以调用对应于所述用户意图的动作;
将所述用户意图的第二指示提供到所述语音接口装置,其中所述语音接口装置响应于所述用户意图以执行对应于所述用户意图的所述动作;
在所述一个或多个服务器计算机处,从所述语音接口装置接收以下至少一个的确认:(i)所述语音接口装置将响应于所述用户意图执行所述动作,或者(ii)所述语音接口装置已经响应于所述用户意图执行了所述动作;以及
至少部分地基于接收所述确认,将第三指示提供到所述第一服务器应用以取消与所述用户意图的对应。
2.根据权利要求1所述的***,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被选定以用于在所述语音接口装置上执行;以及
所述语音接口装置经配置以(a)识别所述一个或多个装置应用中的对应于所述用户意图的装置应用,以及(b)调用所述装置应用以执行所述动作。
3.根据权利要求1所述的***,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被选定以用于在所述语音接口装置上执行;以及
所述行动另外包括(a)识别所述一个或多个装置应用中的对应于所述用户意图的装置应用,以及(b)使得所述装置应用被调用以执行所述动作。
4.根据权利要求1所述的***,其中:
所述用户意图是第一用户意图;
所述语音接口装置具有一个或多个装置应用,所述装置应用被选定以用于在所述语音接口装置上执行;以及
所述行动另外包括(a)确定所述一个或多个装置应用中的至少一个对应于第二用户意图,以及(b)将所述第二用户意图的第四指示提供到所述语音接口装置。
5.根据权利要求1所述的***,其中:
所述语音接口装置具有一个或多个装置应用,所述装置应用被选定以用于在所述语音接口装置上执行;以及
响应于一个或多个用户请求,所述一个或多个服务器应用和所述一个或多个装置应用从可用应用的集合获得。
6.一种用于执行基于语音的用户交互的方法,其包括:
在配置有可执行指令的一个或多个计算***的控制下,
接收第一选择以在一个或多个服务器计算机上安装第一应用;
接收第二选择以在语音接口装置上安装第二应用;
从所述语音接口装置接收表示用户语音的音频信号,其中所述用户语音指示意图;
对所述用户语音执行自然语言理解以确定所述意图;
调用所述第一应用对所述意图做出响应;
调用所述第二应用对所述意图做出响应;
接收以下至少一个的确认:(i)所述第一应用将至少部分地基于所述意图执行动作,或者(ii)所述第一应用已经至少部分地基于所述意图执行了所述动作;以及
至少部分地基于所述接收所述确认,将第一指示提供到所述第二应用以取消与所述意图的对应。
7.根据权利要求6所述的方法,还包括将所述意图的第二指示提供到所述语音接口装置,其中所述语音接口装置响应于所述意图的所述第二指示以执行对应于所述意图的所述动作。
8.根据权利要求6所述的方法,还包括将所述意图的第二指示提供到所述语音接口装置,其中所述语音接口装置响应于所述意图的所述第二指示以:
识别对应于所述意图的所述第二应用,其中所述第二应用已被选定以用于在所述语音接口装置上执行;以及
调用所述第二应用以执行对应于所述意图的所述动作。
9.根据权利要求6所述的方法,其另外包括:
识别对应于所述意图的所述第二应用,其中所述第二应用已被选定以用于在所述语音接口装置上执行;以及
使得所述第二应用对所述意图做出响应。
10.根据权利要求6所述的方法,其另外包括与所述用户进行自然语言对话以接收所述用户语音。
11.根据权利要求6所述的方法,还包括确定所述第二应用在所述语音接口装置上可用以用于对所述意图做出响应;以及
将所述意图的第二指示提供到所述语音接口装置。
12.根据权利要求6所述的方法,其中所述音频信号是第一音频信号,其中所述用户语音是第一用户语音,以及其中所述意图是第一意图,所述方法还包括:
从所述语音接口装置接收表示第二用户语音的第二音频信号,其中所述第二用户语音指示第二意图;
对所述第二音频信号执行自然语言理解以确定所述第二意图;以及
将所述第二意图的第二指示提供到所述语音接口装置。
13.根据权利要求12所述的方法,还包括确定尚未选定用于对所述第二意图做出响应的应用以用于在所述一个或多个服务器计算机上执行。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/456,620 US9548066B2 (en) | 2014-08-11 | 2014-08-11 | Voice application architecture |
US14/456,620 | 2014-08-11 | ||
PCT/US2015/041186 WO2016025128A1 (en) | 2014-08-11 | 2015-07-20 | Voice application architecture |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107004411A CN107004411A (zh) | 2017-08-01 |
CN107004411B true CN107004411B (zh) | 2020-12-11 |
Family
ID=53765577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580042259.5A Active CN107004411B (zh) | 2014-08-11 | 2015-07-20 | 话音应用架构 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9548066B2 (zh) |
EP (1) | EP3180786B1 (zh) |
JP (1) | JP6480568B2 (zh) |
CN (1) | CN107004411B (zh) |
WO (1) | WO2016025128A1 (zh) |
Families Citing this family (271)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9794348B2 (en) * | 2007-06-04 | 2017-10-17 | Todd R. Smith | Using voice commands from a mobile device to remotely access and control a computer |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9135269B2 (en) * | 2011-12-07 | 2015-09-15 | Egnyte, Inc. | System and method of implementing an object storage infrastructure for cloud-based services |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9424840B1 (en) | 2012-08-31 | 2016-08-23 | Amazon Technologies, Inc. | Speech recognition platforms |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
CN106471570B (zh) | 2014-05-30 | 2019-10-01 | 苹果公司 | 多命令单一话语输入方法 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10102195B2 (en) | 2014-06-25 | 2018-10-16 | Amazon Technologies, Inc. | Attribute fill using text extraction |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10310808B2 (en) * | 2014-09-08 | 2019-06-04 | Google Llc | Systems and methods for simultaneously receiving voice instructions on onboard and offboard devices |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9641919B1 (en) * | 2014-09-30 | 2017-05-02 | Amazon Technologies, Inc. | Audio assemblies for electronic devices |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10417345B1 (en) * | 2014-12-22 | 2019-09-17 | Amazon Technologies, Inc. | Providing customer service agents with customer-personalized result of spoken language intent |
US9767091B2 (en) * | 2015-01-23 | 2017-09-19 | Microsoft Technology Licensing, Llc | Methods for understanding incomplete natural language query |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9984686B1 (en) * | 2015-03-17 | 2018-05-29 | Amazon Technologies, Inc. | Mapping device capabilities to a predefined set |
US9472196B1 (en) | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9870196B2 (en) | 2015-05-27 | 2018-01-16 | Google Llc | Selective aborting of online processing of voice inputs in a voice-enabled electronic device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9966073B2 (en) * | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
US10083697B2 (en) | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10655951B1 (en) | 2015-06-25 | 2020-05-19 | Amazon Technologies, Inc. | Determining relative positions of user devices |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10365620B1 (en) | 2015-06-30 | 2019-07-30 | Amazon Technologies, Inc. | Interoperability of secondary-device hubs |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10069940B2 (en) * | 2015-09-10 | 2018-09-04 | Microsoft Technology Licensing, Llc | Deployment meta-data based applicability targetting |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10142754B2 (en) | 2016-02-22 | 2018-11-27 | Sonos, Inc. | Sensor on moving component of transducer |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9922648B2 (en) | 2016-03-01 | 2018-03-20 | Google Llc | Developer voice actions system |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US9693164B1 (en) | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10079024B1 (en) | 2016-08-19 | 2018-09-18 | Amazon Technologies, Inc. | Detecting replay attacks in voice-based authentication |
US10880284B1 (en) | 2016-08-19 | 2020-12-29 | Amazon Technologies, Inc. | Repurposing limited functionality devices as authentication factors |
KR20180022021A (ko) | 2016-08-23 | 2018-03-06 | 삼성전자주식회사 | 음성 인식 방법 및 이를 수행하는 전자 장치 |
US10360300B2 (en) | 2016-08-24 | 2019-07-23 | Microsoft Technology Licensing, Llc | Multi-turn cross-domain natural language understanding systems, building platforms, and methods |
US10438264B1 (en) | 2016-08-31 | 2019-10-08 | Amazon Technologies, Inc. | Artificial intelligence feature extraction service for products |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10331791B2 (en) * | 2016-11-23 | 2019-06-25 | Amazon Technologies, Inc. | Service for developing dialog-driven applications |
US10891152B2 (en) * | 2016-11-23 | 2021-01-12 | Amazon Technologies, Inc. | Back-end task fulfillment for dialog-driven applications |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10359993B2 (en) | 2017-01-20 | 2019-07-23 | Essential Products, Inc. | Contextual user interface based on environment |
US10166465B2 (en) | 2017-01-20 | 2019-01-01 | Essential Products, Inc. | Contextual user interface based on video game playback |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
CN107122179A (zh) * | 2017-03-31 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 语音的功能控制方法和装置 |
KR20180118461A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
US10936662B1 (en) | 2017-05-02 | 2021-03-02 | Amazon Technologies, Inc. | Detection of automated agents through interaction element presentation |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN109102802B (zh) * | 2017-06-21 | 2023-10-17 | 三星电子株式会社 | 用于处理用户话语的*** |
KR102445382B1 (ko) * | 2017-07-10 | 2022-09-20 | 삼성전자주식회사 | 음성 처리 방법 및 이를 지원하는 시스템 |
US10554657B1 (en) | 2017-07-31 | 2020-02-04 | Amazon Technologies, Inc. | Using an audio interface device to authenticate another device |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
CN107507615A (zh) * | 2017-08-29 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 界面智能交互控制方法、装置、***及存储介质 |
US10796687B2 (en) | 2017-09-06 | 2020-10-06 | Amazon Technologies, Inc. | Voice-activated selective memory for voice-capturing devices |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10854191B1 (en) * | 2017-09-20 | 2020-12-01 | Amazon Technologies, Inc. | Machine learning models for data driven dialog management |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10957313B1 (en) | 2017-09-22 | 2021-03-23 | Amazon Technologies, Inc. | System command processing |
US10600419B1 (en) * | 2017-09-22 | 2020-03-24 | Amazon Technologies, Inc. | System command processing |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
WO2019070230A1 (en) * | 2017-10-03 | 2019-04-11 | Google Llc | COORDINATION OF MULTIPLE DIGITAL ASSISTANT IN VEHICULAR ENVIRONMENTS |
US11120796B2 (en) * | 2017-10-03 | 2021-09-14 | Google Llc | Display mode dependent response generation with latency considerations |
CN107704450B (zh) * | 2017-10-13 | 2020-12-04 | 威盛电子股份有限公司 | 自然语言识别设备以及自然语言识别方法 |
US11360736B1 (en) * | 2017-11-03 | 2022-06-14 | Amazon Technologies, Inc. | System command processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11062088B2 (en) * | 2017-12-12 | 2021-07-13 | International Business Machines Corporation | Contextual automation of information technology change services |
US10713007B2 (en) | 2017-12-12 | 2020-07-14 | Amazon Technologies, Inc. | Architecture for a hub configured to control a second device while a connection to a remote system is unavailable |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
KR102596436B1 (ko) | 2018-02-20 | 2023-11-01 | 삼성전자주식회사 | 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법 |
KR20190101630A (ko) | 2018-02-23 | 2019-09-02 | 삼성전자주식회사 | 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
CN113128239B (zh) * | 2018-03-07 | 2024-04-09 | 谷歌有限责任公司 | 促进以多种语言与自动化助理的端到端沟通 |
US11354521B2 (en) * | 2018-03-07 | 2022-06-07 | Google Llc | Facilitating communications with automated assistants in multiple languages |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10685669B1 (en) * | 2018-03-20 | 2020-06-16 | Amazon Technologies, Inc. | Device selection from audio data |
US10984799B2 (en) * | 2018-03-23 | 2021-04-20 | Amazon Technologies, Inc. | Hybrid speech interface device |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
WO2019225201A1 (ja) | 2018-05-25 | 2019-11-28 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに情報処理システム |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
CN112243526A (zh) * | 2018-06-05 | 2021-01-19 | 三星电子株式会社 | 语音辅助设备及其方法 |
EP3756087A4 (en) | 2018-06-05 | 2021-04-21 | Samsung Electronics Co., Ltd. | PASSIVE WAKE-UP PROCESSES AND SYSTEMS OF A USER INTERACTION DEVICE |
WO2020003730A1 (ja) | 2018-06-25 | 2020-01-02 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに情報処理システム |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
CN109036396A (zh) * | 2018-06-29 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 一种第三方应用的交互方法及*** |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
KR102376693B1 (ko) * | 2018-12-03 | 2022-03-18 | 주식회사 케이티 | 인공지능 스피커와의 연동 서비스 제공 방법, 전자장치 및 시스템 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN109903763B (zh) * | 2019-01-11 | 2022-02-22 | 百度在线网络技术(北京)有限公司 | 服务控制方法、装置及设备 |
WO2020147924A1 (en) | 2019-01-15 | 2020-07-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Providing communication services using sets of i/o devices |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
KR20200107058A (ko) | 2019-03-06 | 2020-09-16 | 삼성전자주식회사 | 복수 개의 엔드 포인트가 포함된 플랜들을 처리하는 방법 및 그 방법을 적용한 전자 장치 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US10902220B2 (en) | 2019-04-12 | 2021-01-26 | The Toronto-Dominion Bank | Systems and methods of generating responses associated with natural language input |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11705114B1 (en) | 2019-08-08 | 2023-07-18 | State Farm Mutual Automobile Insurance Company | Systems and methods for parsing multiple intents in natural language speech |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
FR3103307B1 (fr) * | 2019-11-18 | 2021-10-15 | Sagemcom Broadband Sas | Assistant vocal économe en ressource de calcul |
KR20210061091A (ko) | 2019-11-19 | 2021-05-27 | 삼성전자주식회사 | 인텔리전트 어시스턴스 서비스를 제공하기 위한 전자 장치 및 그의 동작 방법 |
US11574634B2 (en) | 2019-11-27 | 2023-02-07 | Google Llc | Interfacing with applications via dynamically updating natural language processing |
EP3847546B1 (en) * | 2019-11-27 | 2024-08-14 | Google LLC | Interfacing with applications via dynamically updating natural language processing |
US11289075B1 (en) * | 2019-12-13 | 2022-03-29 | Amazon Technologies, Inc. | Routing of natural language inputs to speech processing applications |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111128125A (zh) * | 2019-12-30 | 2020-05-08 | 深圳市优必选科技股份有限公司 | 语音服务配置***及其语音服务配置方法和装置 |
CN113127609A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 语音控制方法、装置、服务器、终端设备及存储介质 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11341339B1 (en) * | 2020-05-14 | 2022-05-24 | Amazon Technologies, Inc. | Confidence calibration for natural-language understanding models that provides optimal interpretability |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11393456B1 (en) * | 2020-06-26 | 2022-07-19 | Amazon Technologies, Inc. | Spoken language understanding system |
EP4170650A4 (en) | 2020-06-29 | 2024-07-17 | Baidu online network technology beijing co ltd | VOICE CONTROL METHOD FOR A MINI-PROGRAM, AS WELL AS DEVICES AND STORAGE MEDIUM |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11948019B1 (en) | 2020-09-30 | 2024-04-02 | Amazon Technologies, Inc. | Customized configuration of multimodal interactions for dialog-driven applications |
US11817091B1 (en) | 2020-09-30 | 2023-11-14 | Amazon Technologies, Inc. | Fault-tolerance techniques for dialog-driven applications |
US11252149B1 (en) | 2020-09-30 | 2022-02-15 | Amazon Technologies, Inc. | Resource management techniques for dialog-driven applications |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
KR20220082577A (ko) * | 2020-12-10 | 2022-06-17 | 삼성전자주식회사 | 전자장치 및 그의 제어방법 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
CN117334183A (zh) * | 2022-06-24 | 2024-01-02 | 华为技术有限公司 | 语音交互的方法、电子设备和语音助手开发平台 |
DE102022002701A1 (de) | 2022-07-26 | 2024-02-01 | Mercedes-Benz Group AG | Verfahren zum Betreiben eines Sprachassistenten und Fahrzeug mit einem Sprachassistenten |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720683B1 (en) | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
US7418392B1 (en) | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
JP5394739B2 (ja) * | 2005-08-09 | 2014-01-22 | モバイル・ヴォイス・コントロール・エルエルシー | 音声制御型ワイヤレス通信デバイス・システム |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US9305548B2 (en) * | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8326637B2 (en) * | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US8717915B2 (en) * | 2010-05-25 | 2014-05-06 | Microsoft Corporation | Process-integrated tree view control for interactive voice response design |
US20120223885A1 (en) | 2011-03-02 | 2012-09-06 | Microsoft Corporation | Immersive display experience |
US9858343B2 (en) * | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US8515766B1 (en) | 2011-09-30 | 2013-08-20 | Google Inc. | Voice application finding and user invoking applications related to a single entity |
US9292492B2 (en) | 2013-02-04 | 2016-03-22 | Microsoft Technology Licensing, Llc | Scaling statistical language understanding systems across domains and intents |
US10176167B2 (en) * | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
-
2014
- 2014-08-11 US US14/456,620 patent/US9548066B2/en active Active
-
2015
- 2015-07-20 WO PCT/US2015/041186 patent/WO2016025128A1/en active Application Filing
- 2015-07-20 EP EP15745061.0A patent/EP3180786B1/en active Active
- 2015-07-20 JP JP2017506995A patent/JP6480568B2/ja active Active
- 2015-07-20 CN CN201580042259.5A patent/CN107004411B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20160042748A1 (en) | 2016-02-11 |
EP3180786A1 (en) | 2017-06-21 |
US9548066B2 (en) | 2017-01-17 |
JP6480568B2 (ja) | 2019-03-13 |
CN107004411A (zh) | 2017-08-01 |
EP3180786B1 (en) | 2018-05-02 |
WO2016025128A1 (en) | 2016-02-18 |
JP2017527844A (ja) | 2017-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107004411B (zh) | 话音应用架构 | |
EP3084633B1 (en) | Attribute-based audio channel arbitration | |
US11468889B1 (en) | Speech recognition services | |
US10540970B2 (en) | Architectures and topologies for vehicle-based, voice-controlled devices | |
US10079017B1 (en) | Speech-responsive portable speaker | |
JP5663031B2 (ja) | 自然言語音声サービス環境におけるハイブリッド処理のシステム及び方法 | |
US9672812B1 (en) | Qualifying trigger expressions in speech-based systems | |
US11176934B1 (en) | Language switching on a speech interface device | |
US20210241775A1 (en) | Hybrid speech interface device | |
US9098467B1 (en) | Accepting voice commands based on user identity | |
KR20190075800A (ko) | 지능형 개인 보조 인터페이스 시스템 | |
EP3047481A1 (en) | Local and remote speech processing | |
US10249296B1 (en) | Application discovery and selection in language-based systems | |
US11862153B1 (en) | System for recognizing and responding to environmental noises | |
JP6619488B2 (ja) | 人工知能機器における連続会話機能 | |
US10629199B1 (en) | Architectures and topologies for vehicle-based, voice-controlled devices | |
US10062386B1 (en) | Signaling voice-controlled devices | |
KR20220143683A (ko) | 전자 개인 비서 조정 | |
KR102135182B1 (ko) | 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템 | |
CN111724773A (zh) | 应用开启方法、装置和计算机***及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |