CN103081004B - 用于向语音使能应用程序提供输入的方法和装置 - Google Patents
用于向语音使能应用程序提供输入的方法和装置 Download PDFInfo
- Publication number
- CN103081004B CN103081004B CN201180043215.6A CN201180043215A CN103081004B CN 103081004 B CN103081004 B CN 103081004B CN 201180043215 A CN201180043215 A CN 201180043215A CN 103081004 B CN103081004 B CN 103081004B
- Authority
- CN
- China
- Prior art keywords
- computer
- voice
- server
- identifier
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000010295 mobile communication Methods 0.000 claims abstract description 89
- 230000009471 action Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 2
- 239000003795 chemical substances by application Substances 0.000 description 42
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000000844 anti-bacterial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000012678 infectious agent Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
一些实施例致力于允许用户提供输入到未连接至执行语音使能应用程序的计算机的移动通信装置,如智能电话中的、旨在用于该语音使能应用程序的语音输入。该移动通信装置可以将用户的语音输入作为音频数据提供给在服务器上执行的代理应用,其确定要向哪个计算机提供所接收音频数据。当代理应用确定了要将音频数据提供至其的计算机时,其将该音频数据发送至该计算机。在一些实施例中,自动语音识别可以在将音频数据提供给计算机之前针对其执行。在这种实施例中,代替提供音频数据,代理应用可以将根据执行自动语音识别而生成的识别结果发送至所标识计算机。
Description
技术领域
在此描述的技术总体上致力于促进用户与语音使能应用程序的相互作用。
背景技术
语音使能软件应用程序是能够经由从用户提供的语音输入来与该用户相互作用的和/或能够按语音形式向人类用户提供输出的软件应用程序。语音使能应用在许多不同环境中使用,如字处理应用、电子邮件应用、文本消息和web浏览应用、手持式装置命令和控制,以及许多其它方面。这种应用可以是专有语音输入应用,或者可以是能够进行多种类型的用户相互作用(例如,视觉、文本、以及/或其它类型的相互作用)的多模态化应用。
当用户通过讲话与语音使能应用通信时,通常使用自动语音识别来确定用户话语的内容。接着,语音使能应用可以基于所确定的用户话语内容来确定要采取的恰当动作。
图1示出了包括计算机101的常规***,计算机101执行语音使能应用程序105和自动语音识别(ASR)引擎103。用户107可以经由麦克风109向应用程序105提供语音输入,该麦克风经由有线连接或无线连接直接连接至计算机101。当用户对着麦克风109讲话时,将语音输入提供给ASR引擎103,该ASR引擎针对该语音输入执行自动语音识别,并将文本识别结果提供给应用程序105。
发明内容
一个实施例致力于提供一种向在计算机上执行的语音使能应用程序提供输入的方法。该方法包括:在至少一个服务器计算机处接收从未通过有线或无线连接方式连接至所述计算机的移动通信装置所提供的音频数据;在所述至少一个服务器计算机处获取根据针对该音频数据执行自动语音识别而生成的识别结果;以及将该识别结果从所述至少一个服务器计算机发送至执行该语音使能应用程序的所述计算机。另一实施例致力于提供编码有指令的至少一个非临时性有形计算机可读介质,该指令在执行时执行上述方法。
另一实施例致力于提供至少一个服务器计算机,该服务器计算机包括:至少一个有形存储介质,该至少一个有形存储介质存储用于向在计算机上执行的语音使能应用程序提供输入的处理器可执行指令;和至少一个硬件处理器,该至少一个硬件处理器执行该处理器可执行指令,以使:在所述至少一个服务器计算机处接收从未通过有线或无线连接方式连接至所述计算机的移动通信装置提供的音频数据;在所述至少一个服务器计算机处获取由针对该音频数据执行自动语音识别而生成的识别结果;以及将该识别结果从所述至少一个服务器计算机发送至执行该语音使能应用程序的所述计算机。
附图说明
在图中:
图1是执行语音使能应用程序的现有技术计算机的框图;
图2是根据一些实施例的计算机***的框图,其中,旨在用于在计算机上执行的语音使能应用程序的语音输入可以经由未连接至该计算机的移动通信装置来提供;
图3是根据一些实施例的、用于利用移动通信装置向语音使能应用提供根据语音输入生成的输入的处理的流程图;
图4是根据一些实施例的计算机***的框图,其中,旨在用于在计算机上执行的语音使能应用程序的语音输入可以经由未连接至该计算机的移动通信装置来提供,并且其中,在与执行该语音使能应用程序的计算机不同的计算机上执行自动语音识别;
图5是根据一些实施例的计算机***的框图,其中,旨在用于在计算机上执行的语音使能应用程序的语音输入可以经由连接至该计算机的移动通信装置来提供;以及
图6是可以在一些实施例中使用以实现图2、4以及5中描绘的计算机和装置的计算机装置的框图。
具体实施方式
为向语音使能应用提供语音输入,用户通常对着所连接(有线或者无线地)或内置于计算机的麦克风讲话,经由该麦克风,用户与语音使能应用相互作用。发明人已经认识到,用户使用这种麦克风来向语音使能应用提供语音输入的需要可能导致许多不便利。
具体来说,一些计算机可能没有内置麦克风。由此,用户必须获取麦克风,并将其连接至他或她用来经由语音接入语音使能应用的计算机。另外,如果计算机是共享计算机,则连接至其的麦克风可以是由许多不同的人共享的麦克风。由此,麦克风可能是用于在人与人之间传染病原体(例如,病毒、细菌以及/或其它传染体)的通路。
虽然下面讨论的实施例中的一些致力于解决上面讨论的所有不便和缺陷,但不是每一个实施例都致力于解决所有这些不便和缺陷,并且一些实施例可能不解决它们中的任一个。因此,应当明白,本发明不限于解决所有或任何上述不便或缺陷的实施例。
一些实施例致力于提供这样的***和/或方法,其中,用户可以经由移动电话或其它手持式移动通信装置来向语音使能应用程序提供语音输入,而不必使用直接连接至用户用来接入语音使能应用程序的计算机的专用麦克风。这可以按多种方法中的任一个来实现,其中,一些非限制详细示例在下面进行描述。
发明人已经认识到,因为许多人自己的个人装置(例如,移动电话或其它手持式移动计算装置)通常具有内置麦克风,所以这种装置上的麦克风可以被用于接收要作为输入提供给在与这些装置分离的计算机上执行的语音使能应用程序的用户语音。这样,用户不需要定位专用麦克风并将其连接至执行语音使能应用的计算机,或者使用连接至计算机的共享麦克风以经由话音与语音使能应用程序相互作用。
图2示出了一种计算机***,其中,用户可以向手持式移动通信装置提供语音输入,以与在和该手持式移动通信装置分离的计算机上执行的语音使能应用程序相互作用。
图2所示的计算机***包括:移动通信装置203、计算机205、以及一个或多个服务器211。计算机205执行至少一个语音使能应用程序207和至少一个自动语音识别(ASR)引擎209。在一些实施例中,计算机205可以是用户217的个人计算机,经由该计算机,用户217可以与一个或多个输入/输出(I/O)装置(例如,鼠标器、键盘、显示装置,以及/或任何其它合适I/O装置)相互作用。该计算机可以有或没有内置麦克风。在一些实施例中,计算机205可以是用作用户的家庭计算机的个人计算机,或者可以是用户在其上具有账户(例如,企业账户)的工作站或终端,并且,可以是用户用作接入语音使能应用程序的接口。在其它实施例中,计算机205可以是应用主机服务器,或者向用户217的个人计算机(未示出)上的虚拟化客户端递送语音使能应用207的虚拟化服务器。
移动通信装置203可以是各种可能类型的移动通信装置中的任一种,例如,包括:智能电话(例如,蜂窝移动电话)、个人数字助理、和/或任何其它合适类型的移动通信装置。在一些实施例中,该移动通信装置可以是手持式和/或掌上型装置。在一些实施例中,该移动通信装置可以是能够通过因特网发送和接收信息的装置。而且,在一些实施例中,该移动通信装置可以是具有能够(和/或被配置用于)执行应用程序的通用处理器,和能够存储要通过该通用处理器执行的应用程序的有形存储器或其它类型的有形计算机可读介质的装置。在一些实施例中,移动通信装置可以包括可以向其用户显示信息的显示器。虽然移动通信装置203在一些实施例中包括内置麦克风,但移动通信装置除了仅仅将声学声音转换成电信号并通过有线或无线连接提供该电信号以外还提供一些附加功能。
服务器211可以包括执行代理应用219的一个或多个服务器计算机。代理应用219可以是这样的应用,即,在接收到来自移动通信装置的音频时,确定要将所接收音频发送至哪个计算机或其它装置,并将该音频发送至该目的地装置。如下更详细说明的,该音频可以被“推送(pushed)”至目的地装置,或者被目的地装置“拉出(pulled)”。
应当清楚,尽管在图2中仅示出了单一移动通信装置203和单一计算机205,但由服务器211执行的代理应用可以用作许多(例如,数万、数十万或更多)移动通信装置与执行语音使能应用的计算机之间的代理。在这方面,在服务器211上执行的代理应用219可以接收来自许多移动通信装置中的任一个的音频,确定要将所接收音频发送至执行语音使能应用的多个目的地计算机或装置中的哪一个,并且将该音频(例如,经由因特网201)发送至恰当目的地计算机或装置。
图3是可以在一些实施例中被用于使用户能够经由移动通信装置向语音使能应用程序提供语音的处理的流程图。如可以根据下面的讨论清楚的,即使移动电话未通过有线或无线连接方式连接至执行语音使能应用程序的计算机或者用户经由其接入语音使能应用程序的计算机(例如,具有用户通过其接入该应用的用户接口的计算机),图3所示的处理也使得语音使能应用程序的用户能够对着他或她的移动通信装置讲话,并且使他或她的语音作为文本实时或大致实时地呈现在语音使能应用程序中。
图3的处理在动作301开始,其中,用户(例如,图2中的用户217)提供输入到移动通信装置(例如,移动通信装置203)的麦克风中的、旨在供语音使能应用程序使用的语音。移动通信装置可以按任何合适方式接收语音,并且本发明在这方面不受限。例如,移动通信装置可以执行一应用程序,该应用程序被配置成接收来自用户的语音并将该语音提供给服务器211。在一些实施例中,移动通信装置可以经由内置麦克风接收语音作为模拟音频信号,并且可以在将该音频提供给服务器211之前数字化该音频。由此,在动作301,用户可以启动移动通信装置上的该应用程序,并对着该移动通信装置的麦克风讲话。
该处理接下来继续至动作303,其中,该移动通信装置经由麦克风接收用户的语音。接着,该处理继续至动作305,其中,移动通信装置将所接收语音作为音频数据发送至执行代理应用(例如,代理应用219)的服务器(例如,服务器(211)之一)。该音频可以按任何合适格式来发送,并且可以在发送之前压缩或者无压缩发送。在一些实施例中,该音频可以通过移动通信装置流式传输至执行代理应用的服务器。这样,在用户对着该移动通信装置的麦克风讲话时,移动通信装置将用户的语音的音频流式传输至代理应用。
在通过移动通信装置传输音频之后,处理继续至动作307,其中,在服务器上执行的代理应用接收从移动通信装置发送来的音频。处理接下来继续至动作309,其中,代理应用确定作为音频数据的目的地的计算机或装置。这可以按各种可能方法中的任一个来实现,下面对其一些示例进行讨论。
例如,在一些实施例中,当移动通信装置向服务器发送音频数据时,其可以随着该音频一起发送标识用户和/或移动通信装置的标识符。这种标识符可以采取各种可能形式中的任一个。例如,在一些实施例中,该标识符可以是用户输入到移动通信装置上的应用程序中的用户名和/或密码,以便提供音频。在另选实施例中,其中,移动通信装置是移动电话,标识符可以是移动电话的电话号码。在一些实施例中,标识符可以是由其移动通信装置的制造商或者由某其它实体指配给移动通信装置的通用唯一标识符(UUID)或保证唯一标识符(GUID)。可以使用任何其它合适的标识符。
如下更详细描述的,在服务器上执行的代理应用在确定要将所接收音频数据发送至哪个计算机或装置时,可以使用由移动通信装置与视频数据一起发送来的标识符。
在一些实施例中,移动通信装置不需要随着每一次发送音频数据而发送标识符。例如,标识符可以被用于建立移动通信装置与服务器之间的会话,并且标识符可以与该会话相关联。这样,可以将作为会话的一部分而发送的任何音频数据与该标识符相关联。
代理应用可以按任何合适方式使用标识用户和/或移动通信装置的标识符,来确定向哪个计算机或装置发送所接收音频数据,在此对其非限制例进行描述。例如,参照图2,在一些实施例中,计算机205可以向服务器211周期性地轮询,以确定服务器211是否已经接收到来自移动通信装置203的任何音频数据。当轮询服务器211时,计算机205可以向服务器211提供与由移动通信装置203提供给服务器211的音频数据相关联的标识符,或者服务器可以用来映射至该标识符的某其它标识符。由此,当服务器211接收到来自计算机205的标识符时,其可以标识与所接收标识符相关联的音频数据,并且确定与所接收标识符相关联的音频数据将要提供给轮询计算机。这样,将根据用户217的语音生成的音频(且不是从其他用户的移动通信装置提供的音频数据)被提供给用户的计算机。
计算机205可以按各种可能方法中的任一个来获取通过用户217的移动通信装置(即,移动通信装置203)提供给服务器211的标识符。例如,在一些实施例中,语音使能应用207和/或计算机205可以存储针对语音使能应用的每一个用户的记录。该记录的一个字段可以包括与用户的移动通信装置相关联的标识符,其例如可以由用户手动提供和输入(例如,经由用户向装置登记语音使能应用的一次性登记过程)。由此,当用户登录计算机205时,存储在针对该用户的记录中的标识符可以在向服务器211轮询音频数据时使用。例如,针对用户217的记录可以存储与移动通信装置203相关联的标识符。当用户217登录计算机205时,计算机205利用来自针对用户217的记录的标识符向服务器211轮询。这样,服务器211可以确定要将从移动通信装置接收到的音频数据发送至哪个计算机。
如上所述,服务器211可以接收从大量不同用户和从大量不同装置提供的音频数据。针对每一条音频数据,服务器211可以通过将与音频数据相关联的标识符匹配或映射到与目的地装置相关联的标识符,来确定要将音频数据提供给哪个目的地装置。可以将音频数据提供给与随音频数据提供的标识符被匹配或映射到的标识符相关联的目的地装置。
在上面描述的示例中,在服务器上执行的代理应用响应于来自计算机或装置的轮询请求,确定要将从移动通信装置接收到的音频数据发送给哪个计算机或装置。在这方面,计算机或装置可以视为从服务器“拉出”音频数据。然而,在一些实施例中,并不是计算机或装置从服务器拉出音频数据,而是服务器可以将视频数据“推送”至计算机或装置。例如,计算机或装置可以在启动语音使能应用时、在计算机加电时,或者在任何其它合适时间建立会话,并且可以向代理应用提供任何合适标识符(上面讨论了其示例),以标识将提供音频的用户和/或移动通信装置。当代理应用接收到来自移动通信装置的音频数据时,其可以标识对应会话,并且利用匹配会话将音频数据发送至计算机或装置。
在动作309之后,图3的处理继续至动作311,其中,服务器上的代理应用将音频数据发送至在动作309中确定的计算机或装置。这可以按任何合适方式来进行。例如,代理应用可以通过因特网、经由企业内联网,或者按任何其它合适方式向计算机或装置发送音频数据。该处理接下来继续至动作313,其中,在动作309中标识的计算机或装置接收从服务器上的代理应用发送来的音频数据。处理接着进行至动作315,其中,计算机或装置上的或耦接至其的自动语音识别(ASR)引擎针对所接收音频数据执行自动语音识别,以生成识别结果。该处理接下来继续至动作317,其中,将该识别结果从ASR引擎传递至在计算机上执行的语音使能应用。
该语音使能应用可以按任何合适方式与计算机上的或耦接至其的ASR引擎通信,以接收识别结果,因为本发明的多个方面并不受限于这点。例如,在一些实施例中,语音使能应用和ASR引擎可以使用语音应用编程接口(API)来通信。
在一些实施例中,该语音使能应用可以向ASR引擎提供可以在执行语音识别时帮助该ASR引擎的语境(context)。例如,如图2所示,语音使能应用207可以向ASR引擎209提供语境213。ASR引擎209可以使用该语境来生成结果215,并且可以向语音使能应用提供结果215。由语音使能应用提供的语境可以是可被ASR引擎209使用的任何信息,以辅助针对语音使能应用的音频数据的自动语音识别。例如,在一些实施例中,针对语音使能应用的音频数据可以是旨在放置在采用由语音使能应用提供或显示的形式的特定字段中的词语。例如,该音频数据可以是旨在填充采用这样的形式的“地址”字段中的语音。该语音使能应用可以向ASR引擎提供字段名(例如,“地址”)或有关该字段的其它信息作为语境信息,并且ASR引擎可以按任何合适方式使用该语境以辅助语音识别。
在上述示例性实施例中,ASR引擎和语音使能应用在同一计算机上执行。然而,本发明在这方面不受限,如在一些实施例中,ASR引擎和语音使能应用可以在不同计算机上执行。例如,在一些实施例中,ASR引擎可以在与执行代理应用的服务器分离的另一服务器上执行。例如,企业可以具有一个或多个专用ASR服务器,并且代理应用可以与这种服务器通信,以获取针对音频数据的语音识别结果。
在图4所示的另选实施例中,ASR引擎可以在和代理应用相同的服务器上执行。图4示出了一种计算机***,其中,用户可以向手持式移动通信装置提供语音输入,以与在和手持式移动通信装置分离的计算机上执行的语音使能应用程序相互作用。如在图2中,用户217可以向移动通信装置203的麦克风提供旨在用于语音使能应用207(在计算机205上执行)的语音。移动通信装置203向在服务器211之一上执行的代理应用219发送该语音的音频。然而,不同于图2的***,代替向计算机205提供所接收音频,代理应用219向也在服务器211之一上执行的ASR引擎403发送所接收音频。在一些实施例中,ASR引擎403可以在和代理应用219相同的服务器上操作。在其它实施例中,ASR引擎403可以在和代理应用219不同的服务器上执行。在这方面,代理应用和ASR功能可以按任何合适方式分布在一个或多个计算机上(例如,利用排它地专用于用作代理或ASR引擎的一个或多个服务器、利用服务于两个功能的一个或多个计算机等),因而本发明在这方面不受限。
如图4所示,代理应用219可以向ASR引擎403发送从移动通信装置203接收到的音频数据(即,音频数据405)。ASR引擎可以将一个或多个识别结果409返回至代理应用219。接着,代理应用219可以将从ASR引擎403接收到的识别结果409发送至计算机205上的语音使能应用207。这样,计算机205不需要执行ASR引擎来使得语音使能应用207能够接收从用户提供的语音输入。
在一另选实施例中,代理应用可以向ASR引擎通知要将识别结果提供给哪个目的地装置,并且ASR引擎可以将识别结果提供给该装置,而非将识别结果发送回至代理应用。
如上所述,在一些实施例中,语音使能应用207可以提供由ASR引擎使用的语境,以帮助语音识别。由此,如图4所示,在一些实施例中,语音使能应用207可以向代理应用219提供语境407,而代理应用219可以将该语境连同音频405一起提供给ASR引擎403。
在图4中,语境407被示出为直接从计算机205上的语音使能应用207提供给代理应用219,而结果409被示出为直接从代理应用219提供给语音使能应用207。然而,应当清楚,这些信息可以经由因特网201、经由内联网、或者经由任何其它合适通信介质而在语音使能应用与代理应用之间传送。类似的是,在其中代理应用219和ASR引擎403在不同服务器上执行的实施例中,信息可以经由因特网、内联网、或者按任何其它合适方式在它们之间交换。
在上面结合图2-4讨论的示例中,移动通信装置203被描绘为经由数据网络(如因特网或企业内联网)向服务器211提供音频数据。然而,本发明在这方面不受限,因为在一些实施例中,为向服务器211提供音频数据,用户可以使用移动通信装置203拨打电话号码,以向接受音频数据并将该音频数据提供给服务器211的服务发出电话呼叫。由此,用户可以拨打与该服务相关联的电话号码,并对着电话讲话以提供音频数据。在这样一些实施例中,基于陆上通讯线的电话可以被用于提供音频数据,以代替移动通信装置203。
在上面结合图2-4讨论的实施例中,为向在计算机上执行的语音使能应用提供语音输入,用户对着未通过有线或无线连接方式连接至计算机的移动通信装置讲话。然而,在一些实施例中,移动通信装置可以经由有线或无线连接方式连接至计算机。在这种实施例中,因为将音频经由移动通信装置203与计算机205之间的有线或无线连接而从移动通信装置203提供给计算机205,所以代理应用不必确定要将音频数据提供给哪个目的地装置。由此,在这种实施例中,计算机205向服务器提供音频数据,以使ASR可以在音频数据上执行,并且服务器将ASR的结果提供回到计算机205。服务器可以接收来自多种不同计算机的针对ASR功能的请求,但因为根据音频数据的识别结果被反向提供给将音频数据发送至服务器的同一装置,所以不需要提供上面讨论的代理功能。
图5是其中移动通信装置203经由可以是有线或无线连接的连接503而连接至计算机205的***的框图。由此,用户217可以提供输入到移动通信装置203的麦克风中的旨在用于语音使能应用的语音。移动通信装置203可以将所接收语音作为音频数据501发送至计算机205。计算机205可以将从移动通信装置接收到的音频数据发送至在服务器211上执行的ASR引擎505。ASR引擎505可以针对所接收音频数据执行自动语音识别,并将识别结果511发送至语音使能应用511。
在一些实施例中,计算机205可以随音频数据501一起向ASR引擎505提供来自语音使能应用207的语境507,以在执行语音识别时帮助ASR引擎。
在图5中,移动通信装置203被示出为连接至因特网。然而,在图5中描绘的实施例中,装置203不需要连接至因特网,因为其经由有线或无线连接直接向计算机205提供音频数据。
上面讨论的计算装置(例如,计算机、移动通信装置、服务器、和/或任何其它上面讨论的计算装置)分别可以按任何合适方式来实现。图6是可以被用于实现上面讨论的计算装置中的任一个的例示性计算装置600的框图。
计算装置600可以包括一个或多个处理器601和一个或多个有形非临时性计算机可读存储介质(例如,有形计算机可读存储介质603)。计算机可读存储介质603可以在有形非临时性计算机可读存储介质中存储实现上述功能中的任一种的计算机指令。处理器601可以耦接至存储器603,并且可以执行这种计算机指令,以使实现并执行该功能。
计算装置600还可以包括网络输入/输出(I/O)接口605,经由其,该计算装置可以与其它计算机通信(例如,通过网络),并且,根据计算装置的类型,还可以包括一个或多个用户I/O接口,经由其,计算机可以向用户提供输出和接收来自用户的输入。用户I/O接口可以包括诸如键盘、鼠标、麦克风、显示装置(例如,监视器或触摸屏)、扬声器、摄像机、以及/或各种其它类型I/O装置的装置。
如根据上面结合图2-4的讨论应当清楚,上述***和方法准许用户启动他或她的计算机上的语音使能应用程序,提供输入到未经由有线或无线连接方式连接至计算机的移动通信装置的音频,并且实时或大致实时地在计算机上查看根据音频数据而获取的识别结果。如在此使用的,实时查看结果意指,针对音频数据的识别结果在用户提供该音频数据之后不到一分钟就呈现在用户的计算机上,并且更优选地,在用户提供该音频数据之后不到十秒钟就呈现在用户的计算机上。
另外,利用上面结合图2-4描述的***和方法,移动通信装置接收来自用户的音频数据(例如,经由内置麦克风)并将该音频数据发送至服务器,并且在该服务器确认接收到该音频数据之后,不希望来自该服务器的任何响应。即,因为音频数据和/或识别结果被提供给与移动通信装置分离的目的地装置,所以移动通信装置不等待或希望接收来自该服务器的、基于该音频数据的内容的任何识别结果或响应。
如根据上面的讨论应当清楚,服务器211上的代理应用可向许多用户和许多目的地装置提供代理服务。在这方面,服务器211可以被看作“在云中”提供代理服务。云中的服务器可以接收来自大量不同用户的音频数据,确定要将该音频数据和/或根据该音频数据获取的结果(例如,通过在该音频数据上执行ASR)发送至的目的地装置,并将该音频数据和/或结果发送至恰当的目的地装置。另选的是,服务器211可以是在企业中操作的服务器,并且可以向企业中的用户提供代理服务。
根据上面的讨论应当清楚,在服务器211之一上执行的代理应用可以接收来自一个装置(例如,移动通信装置)的音频数据,并将该音频数据和/或根据该音频数据获取的结果(例如,通过在该音频数据上执行ASR)提供给不同的装置(例如,执行语音使能应用程序或提供通过其用户可以接入语音使能应用程序的用户接口的计算机)。代理应用从其接收音频数据的装置和代理应用向其提供音频数据和/或结果的装置不需要被拥有或操作执行该代理应用的服务器的同一实体拥有或管理。例如,移动装置的拥有者可以是拥有或操作该服务器的实体的员工,或者可以是这种实体的客户。
本发明的上述实施例可以按许多方式中的任一种来实现。例如,这些实施例可以利用硬件、软件或其组合来实现。当按软件来实现时,软件代码可以在任何合适处理器或处理器集合上执行,而不管设置在单一计算机中还是在多个计算机当中分布。应当清楚,执行上述功能的任何组件或组件集合一般地可以被视为控制上面讨论的功能的一个或多个控制器。所述一个或多个控制器可以按许多方式来实现,如利用专用硬件,或者利用使用执行上述功能的微码或软件来编程的通用硬件(例如,一个或多个处理器)。
在这方面,应当清楚,本发明各种实施例的一个实现包括编码有一个或多个计算机程序(即,多个指令)的至少一个有形非临时性计算机可读存储介质(例如,计算机存储器、软盘、紧致磁盘和光盘、磁带、闪速存储器、现场可编程门阵列中的电路构造或其它半导体装置等),该计算机程序当在一个或多个计算机或其它处理器上执行时,执行上面讨论的本发明各种实施例的功能。该计算机可读存储介质可以是可运输的,以使得存储在其上的程序可以被加载到任何计算机资源上,以实现在此讨论的本发明的各个方面。另外,应当清楚,针对在执行时执行上面讨论的功能的计算机程序的引用不限于在主机计算机上运行的应用程序。相反地,术语计算机程序在此按一般意义使用,以指代可以被采用以将处理器编程成实现上面讨论的本发明的多个方面的任何类型的计算机代码(例如,软件或微码)。
本发明的各个方面可以单独地、组合地,或者按在前文所述实施例中未具体讨论的多种布置来使用,并由此在它们针对前述描述中阐述的或附图中例示的组件的细节和布置的应用方面不构成限制。例如,在一个实施例中描述的方面可以按任何方式与其它实施例中描述的方面相组合。
而且,本发明的实施例可以被实现为一种或多种方法,其中,已经提供了一示例。作为该方法的一部分执行的动作可以按任何合适方式来排序。因此,即使在例示性实施例中被示出为顺序动作,实施例也可以被理解为按与所例示的不同的顺序来执行其中的动作,这可以包括同时执行一些动作。
在权利要求书中使用诸如“第一”、“第二”、“第三”等的普通术语来修改权利要求组件不独立地暗示一个权利要求组件优于另一个的任何优先级、优先权或顺序,或其中方法的动作被执行的时间顺序。这种术语仅仅被用作用于区分具有某名称的一个权利要求组件与具有相同名称(但被用作普通术语)的另一部件的标记。
在此使用的用语(phraseology)和术语出于描述的目的,而不应被视为进行限制。使用“包括(including)”、“包括(comprising)”、“具有(having)”、“包含(containing)”、“涉及(involving)”及其变形意指涵盖在其之后列出的项目和附加项。
已经详细描述了本发明的若干实施例,本领域技术人员将容易地想到各种修改和改进。这种修改和改进旨在处于本发明的精神和范围内。因此,前述描述仅仅作为示例,而非旨在进行限制。本发明仅仅如通过下列的权利要求书及其等同物所限定的来进行限制。
Claims (14)
1.一种向在计算机上执行的语音使能应用程序提供输入的方法,所述语音使能应用程序被配置为显示从用户提供的语音输入而识别的内容,该方法包括:
在至少一个服务器处接收包括所述用户的语音输入的音频数据以用于由所述语音使能应用程序进行的显示,所述音频数据由未通过有线或无线连接方式连接至所述计算机的移动通信装置来提供;
在所述至少一个服务器处获取根据针对该音频数据执行自动语音识别而生成的识别结果;以及
将该识别结果从所述至少一个服务器发送至执行该语音使能应用程序的所述计算机,以向所述用户显示所述识别结果。
2.根据权利要求1所述的方法,其中,该移动通信装置包括智能电话。
3.根据权利要求1所述的方法,其中,所述至少一个服务器是至少一个第一服务器,并且其中,获取该识别结果的动作还包括:
将该音频数据发送至在至少一个第二服务器上执行的至少一个自动语音识别ASR引擎;并且
在所述至少一个第二服务器上接收来自所述至少一个自动语音识别ASR引擎的识别结果。
4.根据权利要求1所述的方法,其中,获取该识别结果的动作还包括:
利用在所述至少一个服务器上执行的至少一个自动语音识别ASR引擎来生成识别结果。
5.根据权利要求1所述的方法,其中,该计算机是多个计算机中的第一计算机,并且其中,所述方法还包括:
从移动通信装置接收与所述音频数据相关联的标识符;并且
利用该标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机。
6.根据权利要求5所述的方法,其中,该标识符是第一标识符,并且其中,利用该第一标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机的动作还包括:
接收来自第一计算机的针对音频数据的请求,该请求包括第二标识符;
确定第一标识符是否与第二标识符匹配或映射至第二标识符;以及
当确定第一标识符与第二标识符匹配或映射至第二标识符时,确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机。
7.根据权利要求6所述的方法,其中,将识别结果从所述至少一个服务器发送至执行语音使能应用程序的计算机的动作响应于确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机而执行。
8.一种向在计算机上执行的语音使能应用程序提供输入的设备,所述语音使能应用程序被配置为显示从用户提供的语音输入而识别的内容,该设备包括:
用于在所述至少一个服务器处接收包括所述用户的语音输入的音频数据以用于由所述语音使能应用程序进行的显示的装置,所述音频数据由未通过有线或无线连接方式连接至所述计算机的移动通信装置来提供;
用于在所述至少一个服务器处获取根据针对该音频数据执行自动语音识别而生成的识别结果的装置;以及
用于将该识别结果从所述至少一个服务器发送至执行该语音使能应用程序的所述计算机以向所述用户显示所述识别结果的装置。
9.根据权利要求8所述的设备,其中,该移动通信装置包括智能电话。
10.根据权利要求8所述的设备,其中,所述至少一个服务器是至少一个第一服务器,并且其中,用于在所述至少一个服务器处获取根据针对该音频数据执行自动语音识别而生成的识别结果的装置还包括:
用于将该音频数据发送至在至少一个第二服务器上执行的至少一个自动语音识别ASR引擎的装置;以及
用于在所述至少一个第二服务器上接收来自所述至少一个自动语音识别ASR引擎的识别结果的装置。
11.根据权利要求8所述的设备,其中,用于在所述至少一个服务器处获取根据针对该音频数据执行自动语音识别而生成的识别结果的装置还包括:
用于利用在所述至少一个服务器上执行的至少一个自动语音识别ASR引擎来生成识别结果的装置。
12.根据权利要求8所述的设备,其中,该计算机是多个计算机中的第一计算机,并且其中,所述设备还包括:
用于从移动通信装置接收与音频数据相关联的标识符的装置;以及
用于利用该标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机的装置。
13.根据权利要求12所述的设备,其中,标识符是第一标识符,并且其中,用于利用第一标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机的装置还包括:
用于接收来自第一计算机的针对音频数据的请求的装置,该请求包括第二标识符;
用于确定第一标识符是否与第二标识符匹配或映射至第二标识符的装置;以及
用于当确定第一标识符与第二标识符匹配或映射至第二标识符时,确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机的装置。
14.根据权利要求13所述的设备,其中,用于将识别结果从所述至少一个服务器发送至执行语音使能应用程序的计算机的装置响应于确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机而执行处理。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/877,347 | 2010-09-08 | ||
US12/877,347 US20120059655A1 (en) | 2010-09-08 | 2010-09-08 | Methods and apparatus for providing input to a speech-enabled application program |
PCT/US2011/050676 WO2012033825A1 (en) | 2010-09-08 | 2011-09-07 | Methods and apparatus for providing input to a speech-enabled application program |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103081004A CN103081004A (zh) | 2013-05-01 |
CN103081004B true CN103081004B (zh) | 2016-08-10 |
Family
ID=44764212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180043215.6A Active CN103081004B (zh) | 2010-09-08 | 2011-09-07 | 用于向语音使能应用程序提供输入的方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20120059655A1 (zh) |
EP (1) | EP2591469A1 (zh) |
JP (1) | JP2013541042A (zh) |
KR (1) | KR20130112885A (zh) |
CN (1) | CN103081004B (zh) |
WO (1) | WO2012033825A1 (zh) |
Families Citing this family (164)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8341142B2 (en) | 2010-09-08 | 2012-12-25 | Nuance Communications, Inc. | Methods and apparatus for searching the Internet |
US8239366B2 (en) | 2010-09-08 | 2012-08-07 | Nuance Communications, Inc. | Method and apparatus for processing spoken search queries |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9489457B2 (en) | 2011-07-14 | 2016-11-08 | Nuance Communications, Inc. | Methods and apparatus for initiating an action |
US8635201B2 (en) | 2011-07-14 | 2014-01-21 | Nuance Communications, Inc. | Methods and apparatus for employing a user's location in providing information to the user |
US8812474B2 (en) | 2011-07-14 | 2014-08-19 | Nuance Communications, Inc. | Methods and apparatus for identifying and providing information sought by a user |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9646610B2 (en) | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US9144028B2 (en) | 2012-12-31 | 2015-09-22 | Motorola Solutions, Inc. | Method and apparatus for uplink power control in a wireless communication system |
CN103915095B (zh) | 2013-01-06 | 2017-05-31 | 华为技术有限公司 | 语音识别的方法、交互设备、服务器和*** |
CN103971688B (zh) * | 2013-02-01 | 2016-05-04 | 腾讯科技(深圳)有限公司 | 一种语音数据采集服务***及方法 |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10776375B2 (en) * | 2013-07-15 | 2020-09-15 | Microsoft Technology Licensing, Llc | Retrieval of attribute values based upon identified entities |
US20160004502A1 (en) * | 2013-07-16 | 2016-01-07 | Cloudcar, Inc. | System and method for correcting speech input |
US10267405B2 (en) | 2013-07-24 | 2019-04-23 | Litens Automotive Partnership | Isolator with improved damping structure |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
KR102262421B1 (ko) * | 2014-07-04 | 2021-06-08 | 한국전자통신연구원 | 모바일 기기를 이용한 음성인식 시스템 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
CN104683456B (zh) | 2015-02-13 | 2017-06-23 | 腾讯科技(深圳)有限公司 | 业务处理方法、服务器及终端 |
US9865280B2 (en) * | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10417021B2 (en) | 2016-03-04 | 2019-09-17 | Ricoh Company, Ltd. | Interactive command assistant for an interactive whiteboard appliance |
US10409550B2 (en) * | 2016-03-04 | 2019-09-10 | Ricoh Company, Ltd. | Voice control of interactive whiteboard appliances |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
GB2552995A (en) * | 2016-08-19 | 2018-02-21 | Nokia Technologies Oy | Learned model data processing |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9961642B2 (en) * | 2016-09-30 | 2018-05-01 | Intel Corporation | Reduced power consuming mobile devices method and apparatus |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
JP6928842B2 (ja) * | 2018-02-14 | 2021-09-01 | パナソニックIpマネジメント株式会社 | 制御情報取得システム、及び、制御情報取得方法 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11087754B2 (en) | 2018-09-27 | 2021-08-10 | Coretronic Corporation | Intelligent voice system and method for controlling projector by using the intelligent voice system |
US11100926B2 (en) * | 2018-09-27 | 2021-08-24 | Coretronic Corporation | Intelligent voice system and method for controlling projector by using the intelligent voice system |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US10841424B1 (en) | 2020-05-14 | 2020-11-17 | Bank Of America Corporation | Call monitoring and feedback reporting using machine learning |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1722230A (zh) * | 2004-07-12 | 2006-01-18 | 惠普开发有限公司 | 语音识别任务的分配及其结果综合 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3402100B2 (ja) * | 1996-12-27 | 2003-04-28 | カシオ計算機株式会社 | 音声制御ホスト装置 |
DE69712485T2 (de) * | 1997-10-23 | 2002-12-12 | Sony Int Europe Gmbh | Sprachschnittstelle für ein Hausnetzwerk |
US6492999B1 (en) * | 1999-02-25 | 2002-12-10 | International Business Machines Corporation | Connecting and optimizing audio input devices |
US7219123B1 (en) * | 1999-10-08 | 2007-05-15 | At Road, Inc. | Portable browser device with adaptive personalization capability |
US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US6721705B2 (en) * | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US7558735B1 (en) * | 2000-12-28 | 2009-07-07 | Vianeta Communication | Transcription application infrastructure and methodology |
US20060149556A1 (en) * | 2001-01-03 | 2006-07-06 | Sridhar Krishnamurthy | Sequential-data correlation at real-time on multiple media and multiple data types |
US7318031B2 (en) * | 2001-05-09 | 2008-01-08 | International Business Machines Corporation | Apparatus, system and method for providing speech recognition assist in call handover |
JP2002333895A (ja) * | 2001-05-10 | 2002-11-22 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びにプログラム |
US7174323B1 (en) * | 2001-06-22 | 2007-02-06 | Mci, Llc | System and method for multi-modal authentication using speaker verification |
US20030078777A1 (en) * | 2001-08-22 | 2003-04-24 | Shyue-Chin Shiau | Speech recognition system for mobile Internet/Intranet communication |
US7023498B2 (en) * | 2001-11-19 | 2006-04-04 | Matsushita Electric Industrial Co. Ltd. | Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus |
US20030191629A1 (en) * | 2002-02-04 | 2003-10-09 | Shinichi Yoshizawa | Interface apparatus and task control method for assisting in the operation of a device using recognition technology |
KR100434545B1 (ko) * | 2002-03-15 | 2004-06-05 | 삼성전자주식회사 | 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치 |
JP2003295890A (ja) * | 2002-04-04 | 2003-10-15 | Nec Corp | 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム |
US7016845B2 (en) * | 2002-11-08 | 2006-03-21 | Oracle International Corporation | Method and apparatus for providing speech recognition resolution on an application server |
US20060106604A1 (en) * | 2002-11-11 | 2006-05-18 | Yoshiyuki Okimoto | Speech recognition dictionary creation device and speech recognition device |
FR2853126A1 (fr) * | 2003-03-25 | 2004-10-01 | France Telecom | Procede de reconnaissance de parole distribuee |
US9710819B2 (en) * | 2003-05-05 | 2017-07-18 | Interactions Llc | Real-time transcription system utilizing divided audio chunks |
US7363228B2 (en) * | 2003-09-18 | 2008-04-22 | Interactive Intelligence, Inc. | Speech recognition system and method |
US8014765B2 (en) * | 2004-03-19 | 2011-09-06 | Media Captioning Services | Real-time captioning framework for mobile devices |
CN1989733A (zh) * | 2004-05-21 | 2007-06-27 | 电缆优势软件有限公司 | 远程访问***和方法以及其智能代理 |
JP2006033795A (ja) * | 2004-06-15 | 2006-02-02 | Sanyo Electric Co Ltd | リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。 |
US7581034B2 (en) * | 2004-11-23 | 2009-08-25 | Microsoft Corporation | Sending notifications to auxiliary displays |
KR100636270B1 (ko) * | 2005-02-04 | 2006-10-19 | 삼성전자주식회사 | 홈 네트워크 시스템 및 그 제어방법 |
KR100703696B1 (ko) * | 2005-02-07 | 2007-04-05 | 삼성전자주식회사 | 제어 명령 인식 방법 및 이를 이용한 제어 장치 |
US20060242589A1 (en) * | 2005-04-26 | 2006-10-26 | Rod Cooper | System and method for remote examination services |
US20080086311A1 (en) * | 2006-04-11 | 2008-04-10 | Conwell William Y | Speech Recognition, and Related Systems |
US20080091432A1 (en) * | 2006-10-17 | 2008-04-17 | Donald Dalton | System and method for voice control of electrically powered devices |
US20080153465A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US8412522B2 (en) * | 2007-12-21 | 2013-04-02 | Nvoq Incorporated | Apparatus and method for queuing jobs in a distributed dictation /transcription system |
US9177551B2 (en) * | 2008-01-22 | 2015-11-03 | At&T Intellectual Property I, L.P. | System and method of providing speech processing in user interface |
US8407048B2 (en) * | 2008-05-27 | 2013-03-26 | Qualcomm Incorporated | Method and system for transcribing telephone conversation to text |
US8265671B2 (en) * | 2009-06-17 | 2012-09-11 | Mobile Captions Company Llc | Methods and systems for providing near real time messaging to hearing impaired user during telephone calls |
US9570078B2 (en) * | 2009-06-19 | 2017-02-14 | Microsoft Technology Licensing, Llc | Techniques to provide a standard interface to a speech recognition platform |
US20110067059A1 (en) * | 2009-09-15 | 2011-03-17 | At&T Intellectual Property I, L.P. | Media control |
US20110099507A1 (en) * | 2009-10-28 | 2011-04-28 | Google Inc. | Displaying a collection of interactive elements that trigger actions directed to an item |
US20110099157A1 (en) * | 2009-10-28 | 2011-04-28 | Google Inc. | Computer-to-Computer Communications |
US9865263B2 (en) * | 2009-12-01 | 2018-01-09 | Nuance Communications, Inc. | Real-time voice recognition on a handheld device |
US20110195739A1 (en) * | 2010-02-10 | 2011-08-11 | Harris Corporation | Communication device with a speech-to-text conversion function |
US8522283B2 (en) * | 2010-05-20 | 2013-08-27 | Google Inc. | Television remote control data transfer |
-
2010
- 2010-09-08 US US12/877,347 patent/US20120059655A1/en not_active Abandoned
-
2011
- 2011-09-07 WO PCT/US2011/050676 patent/WO2012033825A1/en active Application Filing
- 2011-09-07 JP JP2013528268A patent/JP2013541042A/ja not_active Withdrawn
- 2011-09-07 KR KR1020137008770A patent/KR20130112885A/ko not_active Application Discontinuation
- 2011-09-07 EP EP11767100.8A patent/EP2591469A1/en not_active Withdrawn
- 2011-09-07 CN CN201180043215.6A patent/CN103081004B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1722230A (zh) * | 2004-07-12 | 2006-01-18 | 惠普开发有限公司 | 语音识别任务的分配及其结果综合 |
Also Published As
Publication number | Publication date |
---|---|
EP2591469A1 (en) | 2013-05-15 |
CN103081004A (zh) | 2013-05-01 |
JP2013541042A (ja) | 2013-11-07 |
US20120059655A1 (en) | 2012-03-08 |
KR20130112885A (ko) | 2013-10-14 |
WO2012033825A1 (en) | 2012-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103081004B (zh) | 用于向语音使能应用程序提供输入的方法和装置 | |
CN110891124B (zh) | 一种人工智能代接来电的*** | |
EP3050051B1 (en) | In-call virtual assistants | |
CN102771082B (zh) | 具有混合能力的设备和接口之间的通信会话 | |
US10530850B2 (en) | Dynamic call control | |
CN102427493B (zh) | 用应用扩充通信会话 | |
US9843667B2 (en) | Electronic device and call service providing method thereof | |
CN107623614A (zh) | 用于推送信息的方法和装置 | |
CN108028044A (zh) | 使用多个识别器减少延时的语音识别*** | |
CN104995655B (zh) | 用于与联络中心基于网页实时通信的***和方法 | |
CN109729228A (zh) | 人工智能呼叫*** | |
EP2650829A1 (en) | Voice approval method, device and system | |
CN106657625B (zh) | 终端呼叫方法与*** | |
EP3785134A1 (en) | System and method for providing a response to a user query using a visual assistant | |
US8301452B2 (en) | Voice activated application service architecture and delivery | |
US20170192735A1 (en) | System and method for synchronized displays | |
WO2013071738A1 (zh) | 一种个人专用生活协助装置和方法 | |
CN112507731A (zh) | 会议信息处理方法、装置及可读存储介质 | |
CN107277284A (zh) | 基于VoLTE的语音通话方法和***、存储装置 | |
WO2020221114A1 (zh) | 用于显示信息的方法和设备 | |
CN104954538B (zh) | 一种信息处理方法及电子设备 | |
CN110855832A (zh) | 一种辅助通话的方法、装置和电子设备 | |
CN109830294A (zh) | 一种问诊交互控制方法及问诊交互控制装置 | |
CN109698927A (zh) | 会议管理方法、装置及存储介质 | |
JP7116444B1 (ja) | 申請支援システム、ユーザー端末装置、申請支援装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231025 Address after: Washington State Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC Address before: Massachusetts Patentee before: Nuance Communications, Inc. |
|
TR01 | Transfer of patent right |