CN1343351A - 语音识别方法 - Google Patents

语音识别方法 Download PDF

Info

Publication number
CN1343351A
CN1343351A CN00804827A CN00804827A CN1343351A CN 1343351 A CN1343351 A CN 1343351A CN 00804827 A CN00804827 A CN 00804827A CN 00804827 A CN00804827 A CN 00804827A CN 1343351 A CN1343351 A CN 1343351A
Authority
CN
China
Prior art keywords
speech recognition
client computer
recognition device
message unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN00804827A
Other languages
English (en)
Inventor
S·贝斯林
E·特伦
M·乌尔里希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1343351A publication Critical patent/CN1343351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Electric Clocks (AREA)
  • Navigation (AREA)

Abstract

在一种方法中,能够进行语音输入的信息单元(4)被储存在服务器(5)上,并且能够由客户机(1、2、3)提取,其中的客户机能够通过通信网络(6)跟一个或者多个语音识别器(7、8、9)连接,信息单元(4)被分配额外的信息(12),用于确定识别语音信号的客户机(1、2、3),以及至少一个语音识别器(7、8、9),用于在通信网络(6)内动态地分配语音识别器(7、8、9)给信息单元(4),从而保证语音输入的识别时间能够接受,同时具有较高的识别质量。

Description

语音识别方法
本发明涉及一种方法,能够进行语音输入的信息单元储存在服务器中并能被一个客户机提取出来,而其中的客户机能够通过通信网络跟一个语音识别器连接。
通过语音输入代替键盘和鼠标器跟计算机进行通信能够减轻用户使用计算机的工作负担,并且常常能够提高输入速度。语音识别可以用于目前的通过键盘输入的许多领域。显然,这个问题变量很多。另一方面,由于语音识别过程要对计算机的计算能力提出苛刻的要求,这样的计算能力在本地计算机(客户机)中常常是不够的。特别是对于与讲话人无关,具有大量词汇的语音识别,客户机的计算能力常常不够。为了使语音输入的可靠快速识别成为可能,最好是针对强有力的计算机上运行的特定的语音识别器进行语音识别。
EP 0872827描述了一种语音识别***和方法。执行语音识别压缩软件的客户机通过网络跟一个语音识别服务器连接。客户机将语音识别语法和语音输入的数据发送给语音识别服务器。语音识别服务器进行语音识别并且将识别结果返回给客户机。
第一段描述的客户机/服务器语音识别***的一个缺点是HTML页面(超文本标示语言)是由不同的用户同时访问的,语音识别***被各种语音输入占满,从而使语音识别需要无法接受的处理时间。
因此,本发明的一个目的是对于语音输入的识别能够保证可以接受的处理时间和识别质量。
为了这个目的,客户机可以跟多个语音识别器连接,额外的信息被分配给信息单元,这些额外的信息被用于确定客户机和用于识别输入的语音信号的至少一个语音识别器的组合。
客户机从通过通信网络,例如因特网,连接的服务器下载信息单元。这个信息单元储存在服务器上,并且使用户能够进行语音输入。服务器是计算机网络,例如因特网,中的一台计算机,其中储存着来自提供商的信息,可以被客户机提取出来。客户机是跟服务器连接的一台计算机,用于从因特网提取信息,并且将储存在服务器上的信息单元下载下来,用软件代表信息单元。由于客户机的计算能力有限,语音识别不在客户机中进行,而是在通过通信网络跟客户机连接的一个语音识别器中进行。为了将客户机跟一个专业语音识别器连接,服务器将额外的信息分配给储存在服务器上的信息单元。这些额外的信息跟信息单元组合在一起,在下载的过程中一起传送给客户机。在额外信息的帮助下,信息单元被分配到专门调整到这个下载的信息单元的一个语音识别器,这个语音识别***随后进行语音识别。
额外的信息单元由服务器按照预先确定的判据给出,例如主体区域、语音识别器类型或者语音识别器的完全使用。结果,为下载的每个信息单元选择一个特殊的语音识别器,它用于较短的处理时间高质量地对语音输入完成语音识别。
这样做有一个优点,了解预期词汇的信息单元的提供商选择一个语音识别器,并且将这个语音识别器跟这个信息单元组合起来。语音输入的识别质量可以通过提供商控制的语音识别***分配得到显著提高,因为关于提供商储存在服务器上的相应信息单元总是能够预期相似的语音输入。对于用户确定的语音识别***,这些语音识别器要识别很多应用的语音输入。利用语音识别器跟环球网浏览器的这种固定联系,语音识别***不能用于广泛的应用领域,因此这种固定连接的识别结果的质量会受到不良影响。
额外的信息最好包括通信网络中特殊语音识别器的地址。此外,额外信息包括识别结果的可选说明。在最简单的情形中,识别结果被返回给客户机,在那里变成文字或者语音。此外,这个额外信息包括可选说明,其中精确地规定了要使用的语音识别器类型。额外信息还可以包括将语音识别器改变成语音输入的词汇或者参数,并且改变成这种语音识别器。选择传输更多的参数会提高语音识别的速度和质量。
在本发明的一个优选实施方案中,在额外信息中给出分配器的值。这个分配器控制多个语音识别器。例如相同类型的多个语音识别器,或者只用于识别简单语音的语音识别器组,比方说数字或者“是/否”。由额外信息分配的分配器将来自多个客户机的语音信号分配给语音识别器。结果,不仅能够快速处理语音输入,而且能够使语音识别器均匀满负荷地工作。
作为本发明的另外一个实施方案,客户机以HTML页的格式从服务器下载信息单元。这些HTML页是用客户机上的环球网浏览器给出的,或者是用适合于显示它们的另外一个应用程序。信息单元也可以作为环球网页面。为了下载这个HTML页面,客户机跟储存这个HTML页面的服务器建立连接。在下载的过程中,数据以HTML代码的形式被发送给客户机。这个HTML代码包括作为例如超文本标示语言标签实现的额外信息。下载下来的HTML页面被环球网浏览器显示出来,用户可以输入语音。同时发送的HTML标签规定用于识别这一语音输入的语音识别器。为了识别语音输入,客户机通过通信网络跟语音识别器建立连接。语音输入被发送给语音识别器,在那里识别,并且将识别结果返回给例如客户机。
在本发明的一个优选实施方案中,当多个客户机访问一个HTML页的时候,为每个客户机分配一个不同的HTML标签。为此,当多个客户机访问相应的HTML页的时候,服务器分配语音识别器的不同地址给这个HTML标签。有许多客户机访问HTML页面的时候,能够用多个语音识别器处理语音输入,从而保证更快地识别。当来自不同时间区的用户进行访问的时候,可以分配相应时间区域的语音识别器。将上面描述的分配器用于分配语音的识别器的时候,当多个客户机访问同一个HTML页面的时候,HTML标签说明分配器的不同地址,如果分配器控制的语音识别器在语音识别的过程中不能满足质量要求。
在本发明的一个优选实施方案中,通过额外的软件在客户机上对语音输入进行预先处理。这个额外的软件可以在下载基于语音输入的HTML页面的时候从相应的服务器下载下来。也可以选择将额外的软件作为环球网浏览器的一个选择,或者在本地将它安装在服务器上。下载相应HTML页面的时候启动这个额外的软件,当用户输入语音的时候提取语音输入的特征。能够作为电信号的语音输入被数字化,用于进行相应的分析,产生特征矢量。当客户机已经建立起到HTML标签中设置的语音识别器的一个连接的时候,或者跟分配器建立连接的时候,这些特征矢量通过通信网络被发送给语音识别器或者分配器。语音识别器完成计算量繁杂的识别。作为客户机提取特征的结果,语音输入被压缩和编码,从而减少要发送的数据个数。此外,客户机一侧要进行的特征提取的时间被缩短,从而使语音识别器只对提供给它的特征矢量进行识别。这样减少对于要频繁使用的语音识别器来说很有好处。
在本发明的再一个实施方案中,在HTML标签中给出说明,告诉语音识别器或者分配器如何使用识别结果。这些说明可以决定识别出来的语音输入如何返回给客户机或者服务器。例如返回给服务器的时候,可以将另外一个HTML页面从服务器发送给客户机。返回给客户机的识别出来的结果也可以按照特定的判据从识别出的文字信息获得。
本发明还涉及一种服务器,在它的基础上储存客户机能够提取的信息单元,这个客户机能够跟一个或者多个语音识别器连接起来,其中额外的信息被分配给信息单元,以便在客户机和语音识别器之间建立连接,用于识别输入的语音信号。
此外,本发明还涉及一种客户机,它能通过通信网络跟一个或者多个语音识别器连接,提取服务器上的信息单元,其中的额外信息被分配给信息单元,在客户机和语音识别器之间建立一种组合,用于识别输入的语音信号。
下面将参考附图,详细地描述本发明的优选实施方案实例,其中:
图1说明语音识别器的分配,
图2说明具有一个分配器的语音识别器的分配,和
图3说明各种客户机对HTML页面的访问和语音识别器的分配。
图1说明语音识别的方法。客户机1、2和3通过通信网络6跟服务器5连接。从这个服务器5,客户机1、2和3下载HTML页面4形式的信息单元4。这些HTML页面4通过环球网浏览器13在客户机1、2和3上显示出来。客户机1~3请求获得的HTML页面4储存在服务器5上。服务提供商希望通知用户的信息单元4的内容由服务器5通过HTML代码发送给客户机1、2或者3。这个HTML编码的数据流包括格式化指令和额外的信息12,例如,除了要显示的内容以外HTML标签12的形式。
HTML页面4使得用户能够输入语音信息,而被显示HTML页面4的内容不必跟语音输入的内容连接。
客户机在用户启动的时候建立到服务器5的连接,或者通过一条链路请求获得相应的HTML页面。在发送HTML页面给客户机之前,服务器5在分配的HTML标签12中给这个HTML页面4分配语音识别器的地址。在需要的时候将要使用的语音识别器18的类型,语音识别器的参数,或者识别结果的使用细节这样的细节分配给HTML标签。
载入包括HTML标签12的HTML标签页面4的时候,启动额外的软件14。这个额外的软件14提取可以作为电信号获得的语音输入的特征。额外的软件14可以是环球网浏览器13的一部分,或者就安装在客户机1、2或者3上。
客户机跟其地址在HTML标签12中给出了的语音识别器7、8或者9建立连接。这个语音识别器接收额外软件14产生的特征流,并且对语音输入进行语音识别。在语音识别器7、8或者9识别完语音输入以后,从语音识别器7、8或者9返回客户机1、2或者3,作为文字或者语音给出。
在另外一个实施方案中利用HTML标签12中的成分可以确定如何使用识别结果。除了返回客户机1~3以外,有可能将识别结果发送给服务器5,然后再发送一个HTML页面4给客户机1~3(用线条16表示)。例如,阅读作为HTML页面4显示出来的日报的时候,客户机1的用户可以说“当前温度”。这个语音输入被随后发送给HTML标签12中分配的语音识别器7~9,让它们进行语音识别。在说明了如何使用语音识别结果的时候,识别结果不返回客户机1,而是发送给服务器5。服务器5可以随后将当前的温度信息发送给客户机1,它可以作为文字发出也可以作为语音发出。
图2说明另外一个实施方案实例。每个客户机1~3都从服务器5下载一个HTML页面4,而HTML页面的内容不同。这些HTML页面4每个都有一个HTML标签12。这些HTML标签12包括分配器的地址17。除了分配器10的地址17以外,这个HTML标签12还包括关于如何使用识别结果的细节,包括要使用的语音识别器的类型信息和/或语音识别器参数。
分配器10控制着一组语音识别器。这些语音识别器也可以是不同类型的。标为7的一组包括类型是Ra的各种语音识别器Ra,n。标为8的一组包括类型是Rb的语音识别器Rb,n。标为7的这一组Ra类型的语音识别器Ra,n是专门用于识别数字的。标为8的这一组Rb类型的语音识别器Rb,n是专门用于识别“是/否”的。分配器10按照相应的HTML标签12中说明的语音识别器的类型分配各种客户机1~3的语音输入。
客户机1和2激活的分配分配器10的HTML页面4可以按照要使用的语音识别器18的类型交给Ra类型的语音识别器。客户机1和2的语音输入被组7的分配器10分配给语音识别器Ra,n。客户机3激活的HTML页面4需要按照语音识别器18采用的类型Rb的语音识别器。客户机3的用户输入的语音信息被组8的分配器10分配给类型Rb的语音识别器。
当一个语音识别器Ra,1忙于处理语音输入的时候,分配器10将下一个语音输入分配给相同类型的语音识别器Ra,2。相应的识别结果被语音识别器返回给客户机1~3然后在那里进行处理。
图3说明多个客户机1~3同时访问同一个HTML页面4。通过环球网浏览器13显示HTML页面4的时候,它们显示同样的内容。每个HTML标签12都在地址字段17中包括一个IP地址,以及从客户机1、2或者3到语音识别器7、8或者9的TCP/IP链路的套接口。这样,HTML页面4的服务提供商在服务器5中确定处理用户语音的语音识别器7、8或者9。每次客户机1、2或者3通过因特网启动相应HTML页面4的时候,服务器5都给HTML页面4分配一个HTML标签12,这个标签确定相应语音识别器7、8或者9的地址17。当HTML页面4由各个客户机1~3同时激活的时候,如果这个HTML页面4只有一个固定的语音识别器7、9或者9,就不难对语音输入进行快速处理。因此在这种情况下,每个客户机1、2或者3通过相应HTML标签12中的不同地址17为相应的HTML页面4激活另外一个语音识别器7、8或者9。例如,当客户机1下载HTML页面4的时候,将语音识别器7分配给HTML标签12。语音识别器8被分配给客户机2对语音输入进行语音识别,语音识别器9被分配给客户机3。这样就能够保证对所有三个用户(客户机1~3)的语音输入进行快速和可靠的语音识别。
下面给出一个实例,说明如何分配语音识别器。客户机1激活关于影院节目的一个HTML页面4。客户机2激活关于足球节目的一个HTML页面4,客户机3激活关于航空公司的HTML页面4。显然,这三个HTML页面4都具有不同的语音输入。HTML页面4的服务提供商了解预期的词汇,通过有关的HTML标签12和每个HTML页面4分配一个专门的语音识别器7、8或者9。
对于能够输入多个语音信息的HTML页面4,例如填表的时候,可以为对应的语音输入栏分配不同的语音识别器7、8或者9,这些语音识别器都放在一个或者多个HTML标签12中。当前处理哪些语音输入可以通过关键字,通过建立用户查看的方向,鼠标器靠得多近,优先级或者是顺序来区分。

Claims (13)

1.一种方法,允许进行语音输入的信息单元储存在服务器上,能够由客户机提取,其中的客户机能够通过通信网络跟一个语音识别器连接,额外的信息(12)被分配给信息单元(4),这些额外的信息(12)被用于确定客户机(1、2、3)跟语音识别器(7、8、9)中至少一个的组合,用于识别已经输入的信号。
2.权利要求1的方法,其特征在于额外信息(12)包括,除了分配语音识别器(7、8、9)的地址(17)以外,说明如何处理识别结果和/或语音识别器(18)的类型和/或要传输给语音识别器(7、8、9)的参数。
3.权利要求1的方法,其特征在于额外信息(12)被服务器(5)分配给信息单元(4)。
4.权利要求1的方法,其特征在于具有分配的额外信息(12)的信息单元(4)被客户机(1、2、3)载入。
5.权利要求1~4之一或多个的方法,其特征在于从客户机(1、2、3)向语音识别器(7、8、9)的地址(17)传输语音信号输入用于识别,这个地址由额外信息(12)说明。
6.权利要求1的方法,其特征在于额外信息(12)包括传输语音信号的分配器(10)的地址(17),并且被分配给多个语音识别器(7、8、9)中间的一个。
7.权利要求1的方法,其特征在于信息单元(4)是用HTML页面(4)和作为HTML标签(12)的额外信息(12)实现的。
8.权利要求1~7之1的方法,其特征在于有不同的客户机(1、2、3)同时访问同一个HTML页面(4)的时候,每个客户机(1、2、3)都在HTML标签(12)中分配语音识别器(7、8、9)的不同地址(17)。
9.权利要求1或者7的方法,其特征在于客户机具有额外软件(14),用于提取给客户机的语音信号的特征,下载包括HTML标签(12)的HTML页面(4)的时候启动这些软件。
10.权利要求1~9中一个或者多个的方法,其特征在于在特征提取过程中获得的语音信号的特征流被提供给HTML标签(12)说明的语音识别器(7、8、9),这个语音识别器(7、8、9)进行语音识别,并且根据HTML标签(12)中包括的信息,将识别结果返回给客户机(1、2、3)。
11.权利要求10的方法,其特征在于识别结果被按照HTML标签(12)中包括的信息返回给服务器(5)。
12.储存客户机(1、2、3)能够提取的信息单元(4)的一种服务器(5),客户机(1、2、3)能够跟一个或者多个语音识别器(7、8、9)连接,额外的信息(12)被分配给信息单元(4),用于确定客户机(1、2、3)和语音识别器(7、8、9)的组合,识别输入的语音信号。
13.一种客户机(1、2、3),能够通过通信网络(6)跟一个或者多个语音识别器(7、8、9)连接,并且能够提取储存在服务器(5)上的信息单元(4),额外的信息(12)被分配给信息单元(4),用于确定客户机(1、2、3)和语音识别器(7、8、9)的一个组合,用于识别输入的语音信号。
CN00804827A 1999-03-09 2000-02-10 语音识别方法 Pending CN1343351A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19910236.8 1999-03-09
DE19910236A DE19910236A1 (de) 1999-03-09 1999-03-09 Verfahren zur Spracherkennung

Publications (1)

Publication Number Publication Date
CN1343351A true CN1343351A (zh) 2002-04-03

Family

ID=7900179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00804827A Pending CN1343351A (zh) 1999-03-09 2000-02-10 语音识别方法

Country Status (9)

Country Link
US (1) US6757655B1 (zh)
EP (1) EP1163661B1 (zh)
JP (1) JP4597383B2 (zh)
KR (1) KR20020003865A (zh)
CN (1) CN1343351A (zh)
AT (1) ATE257616T1 (zh)
AU (1) AU3153700A (zh)
DE (2) DE19910236A1 (zh)
WO (1) WO2000054251A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571882A (zh) * 2010-12-31 2012-07-11 上海博泰悦臻电子设备制造有限公司 基于网络的语音提醒的方法和***
US8515762B2 (en) 2009-01-22 2013-08-20 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
CN108369772A (zh) * 2015-12-17 2018-08-03 达泰多公司 用于分析和分配语音命令的方法和装置

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US6931376B2 (en) * 2000-07-20 2005-08-16 Microsoft Corporation Speech-related event notification system
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
EP1376418B1 (en) * 2000-08-31 2006-12-27 Hitachi, Ltd. Service mediating apparatus
WO2002021512A1 (en) * 2000-09-07 2002-03-14 Koninklijke Philips Electronics N.V. Voice control and uploadable user control information
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
JP3326424B2 (ja) 2000-10-23 2002-09-24 株式会社ジー・エフ 電話応答装置、及び電話応答装置で実現する各種の応答機能を記述した各手順ファイルを取得して電話応答する方法
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7571102B2 (en) * 2003-04-29 2009-08-04 Ford Motor Company Controller for use with a motor vehicle
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
DE602004008887T2 (de) * 2004-05-18 2008-01-17 Alcatel Lucent Verfahren und Server zur Bereitstellung eines multi-modalen Dialogs
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
GB2424560B (en) * 2005-02-15 2009-04-29 David Llewellyn Rees User interface for systems with automatic conversion from text to an acoustic representation
EP1922717A4 (en) * 2005-08-09 2011-03-23 Mobile Voice Control Llc USE OF MULTIPLE VOICE RECOGNITION SOFTWARE
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
WO2007066433A1 (ja) * 2005-12-07 2007-06-14 Mitsubishi Electric Corporation 音声認識装置
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8880405B2 (en) 2007-03-07 2014-11-04 Vlingo Corporation Application text entry in a mobile environment using a speech processing facility
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20080228493A1 (en) * 2007-03-12 2008-09-18 Chih-Lin Hu Determining voice commands with cooperative voice recognition
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
TWI411981B (zh) * 2008-11-10 2013-10-11 Inventec Corp 提供真人引導發音之語言學習系統、伺服器及其方法
US8346549B2 (en) * 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
US9674328B2 (en) * 2011-02-22 2017-06-06 Speak With Me, Inc. Hybridized client-server speech recognition
JP5637131B2 (ja) * 2011-12-26 2014-12-10 株式会社デンソー 音声認識装置
JP6050171B2 (ja) * 2013-03-28 2016-12-21 日本電気株式会社 認識処理制御装置、認識処理制御方法および認識処理制御プログラム
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
CN110444196B (zh) * 2018-05-10 2023-04-07 腾讯科技(北京)有限公司 基于同声传译的数据处理方法、装置、***和存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH0863478A (ja) 1994-08-26 1996-03-08 Toshiba Corp 言語処理方法及び言語処理装置
US5745776A (en) * 1995-04-19 1998-04-28 Sheppard, Ii; Charles Bradford Enhanced electronic dictionary
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5710918A (en) * 1995-06-07 1998-01-20 International Business Machines Corporation Method for distributed task fulfillment of web browser requests
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
JPH10177468A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索通信システム
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
GB2323693B (en) 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6112176A (en) * 1997-05-16 2000-08-29 Compaq Computer Corporation Speech data collection over the world wide web
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6115686A (en) * 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
GB2343777B (en) * 1998-11-13 2003-07-02 Motorola Ltd Mitigating errors in a distributed speech recognition process

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515762B2 (en) 2009-01-22 2013-08-20 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
CN102571882A (zh) * 2010-12-31 2012-07-11 上海博泰悦臻电子设备制造有限公司 基于网络的语音提醒的方法和***
CN108369772A (zh) * 2015-12-17 2018-08-03 达泰多公司 用于分析和分配语音命令的方法和装置

Also Published As

Publication number Publication date
JP2002539480A (ja) 2002-11-19
DE60007620D1 (de) 2004-02-12
WO2000054251A3 (en) 2000-12-28
US6757655B1 (en) 2004-06-29
ATE257616T1 (de) 2004-01-15
WO2000054251A2 (en) 2000-09-14
JP4597383B2 (ja) 2010-12-15
EP1163661B1 (en) 2004-01-07
KR20020003865A (ko) 2002-01-15
AU3153700A (en) 2000-09-28
DE19910236A1 (de) 2000-09-21
EP1163661A2 (en) 2001-12-19
DE60007620T2 (de) 2004-11-18

Similar Documents

Publication Publication Date Title
CN1343351A (zh) 语音识别方法
AU722611B2 (en) Serving signals
EP1145226B1 (en) Speech recognition method for activating a hyperlink of an internet page
US7519679B2 (en) Targeted web page redirection
DE69829604T2 (de) System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz
US7702814B2 (en) System and method for downloading hypertext markup language formatted web pages
DE60015531T2 (de) Client-server spracherkennungssystem
US6362840B1 (en) Method and system for graphic display of link actions
US6012068A (en) Media manager for access to multiple media types
US20020052747A1 (en) Method and system of interpreting and presenting web content using a voice browser
CN1494695A (zh) 无疏漏翻译***
CA2304057A1 (en) System and method using natural language understanding for speech control application
WO1999048088A1 (en) Voice controlled web browser
AU2001259162A1 (en) Method and system of implementing recorded data for automating internet interactions
EP1156427A3 (en) Postback input handling by server-side control objects
EP1371057B1 (en) Method for enabling the voice interaction with a web page
JPH10275162A (ja) プロセッサに基づくホスト・システムを制御する無線音声起動制御装置
CN1270359A (zh) 手持设备中使用意义提取和对话的面向目标的语言翻译方法
CN101079047A (zh) 通过配置超链接控制娱乐平台的方法和***
EP1161092A3 (en) Electronic-program-guide retrieval method and system
EP1163660A2 (en) Method with a plurality of speech recognizers
CA2417625A1 (en) Method and system of automating internet interactions
EP1293915A3 (en) Search system and method
EP1293916A3 (en) Search system using real name and method thereof
EP1157373A1 (en) Referencing web pages by categories for voice navigation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned