CN1343351A

CN1343351A - 语音识别方法

Info

Publication number: CN1343351A
Application number: CN00804827A
Authority: CN
Inventors: S·贝斯林; E·特伦; M·乌尔里希
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-03-09
Filing date: 2000-02-10
Publication date: 2002-04-03
Also published as: JP2002539480A; DE60007620D1; WO2000054251A3; US6757655B1; ATE257616T1; WO2000054251A2; JP4597383B2; EP1163661B1; KR20020003865A; AU3153700A; DE19910236A1; EP1163661A2; DE60007620T2

Abstract

在一种方法中,能够进行语音输入的信息单元(4)被储存在服务器(5)上,并且能够由客户机(1、2、3)提取,其中的客户机能够通过通信网络(6)跟一个或者多个语音识别器(7、8、9)连接,信息单元(4)被分配额外的信息(12),用于确定识别语音信号的客户机(1、2、3),以及至少一个语音识别器(7、8、9),用于在通信网络(6)内动态地分配语音识别器(7、8、9)给信息单元(4),从而保证语音输入的识别时间能够接受,同时具有较高的识别质量。

Description

语音识别方法

本发明涉及一种方法，能够进行语音输入的信息单元储存在服务器中并能被一个客户机提取出来，而其中的客户机能够通过通信网络跟一个语音识别器连接。

通过语音输入代替键盘和鼠标器跟计算机进行通信能够减轻用户使用计算机的工作负担，并且常常能够提高输入速度。语音识别可以用于目前的通过键盘输入的许多领域。显然，这个问题变量很多。另一方面，由于语音识别过程要对计算机的计算能力提出苛刻的要求，这样的计算能力在本地计算机(客户机)中常常是不够的。特别是对于与讲话人无关，具有大量词汇的语音识别，客户机的计算能力常常不够。为了使语音输入的可靠快速识别成为可能，最好是针对强有力的计算机上运行的特定的语音识别器进行语音识别。

EP 0872827描述了一种语音识别***和方法。执行语音识别压缩软件的客户机通过网络跟一个语音识别服务器连接。客户机将语音识别语法和语音输入的数据发送给语音识别服务器。语音识别服务器进行语音识别并且将识别结果返回给客户机。

第一段描述的客户机/服务器语音识别***的一个缺点是HTML页面(超文本标示语言)是由不同的用户同时访问的，语音识别***被各种语音输入占满，从而使语音识别需要无法接受的处理时间。

因此，本发明的一个目的是对于语音输入的识别能够保证可以接受的处理时间和识别质量。

为了这个目的，客户机可以跟多个语音识别器连接，额外的信息被分配给信息单元，这些额外的信息被用于确定客户机和用于识别输入的语音信号的至少一个语音识别器的组合。

客户机从通过通信网络，例如因特网，连接的服务器下载信息单元。这个信息单元储存在服务器上，并且使用户能够进行语音输入。服务器是计算机网络，例如因特网，中的一台计算机，其中储存着来自提供商的信息，可以被客户机提取出来。客户机是跟服务器连接的一台计算机，用于从因特网提取信息，并且将储存在服务器上的信息单元下载下来，用软件代表信息单元。由于客户机的计算能力有限，语音识别不在客户机中进行，而是在通过通信网络跟客户机连接的一个语音识别器中进行。为了将客户机跟一个专业语音识别器连接，服务器将额外的信息分配给储存在服务器上的信息单元。这些额外的信息跟信息单元组合在一起，在下载的过程中一起传送给客户机。在额外信息的帮助下，信息单元被分配到专门调整到这个下载的信息单元的一个语音识别器，这个语音识别***随后进行语音识别。

额外的信息单元由服务器按照预先确定的判据给出，例如主体区域、语音识别器类型或者语音识别器的完全使用。结果，为下载的每个信息单元选择一个特殊的语音识别器，它用于较短的处理时间高质量地对语音输入完成语音识别。

这样做有一个优点，了解预期词汇的信息单元的提供商选择一个语音识别器，并且将这个语音识别器跟这个信息单元组合起来。语音输入的识别质量可以通过提供商控制的语音识别***分配得到显著提高，因为关于提供商储存在服务器上的相应信息单元总是能够预期相似的语音输入。对于用户确定的语音识别***，这些语音识别器要识别很多应用的语音输入。利用语音识别器跟环球网浏览器的这种固定联系，语音识别***不能用于广泛的应用领域，因此这种固定连接的识别结果的质量会受到不良影响。

额外的信息最好包括通信网络中特殊语音识别器的地址。此外，额外信息包括识别结果的可选说明。在最简单的情形中，识别结果被返回给客户机，在那里变成文字或者语音。此外，这个额外信息包括可选说明，其中精确地规定了要使用的语音识别器类型。额外信息还可以包括将语音识别器改变成语音输入的词汇或者参数，并且改变成这种语音识别器。选择传输更多的参数会提高语音识别的速度和质量。

在本发明的一个优选实施方案中，在额外信息中给出分配器的值。这个分配器控制多个语音识别器。例如相同类型的多个语音识别器，或者只用于识别简单语音的语音识别器组，比方说数字或者“是/否”。由额外信息分配的分配器将来自多个客户机的语音信号分配给语音识别器。结果，不仅能够快速处理语音输入，而且能够使语音识别器均匀满负荷地工作。

作为本发明的另外一个实施方案，客户机以HTML页的格式从服务器下载信息单元。这些HTML页是用客户机上的环球网浏览器给出的，或者是用适合于显示它们的另外一个应用程序。信息单元也可以作为环球网页面。为了下载这个HTML页面，客户机跟储存这个HTML页面的服务器建立连接。在下载的过程中，数据以HTML代码的形式被发送给客户机。这个HTML代码包括作为例如超文本标示语言标签实现的额外信息。下载下来的HTML页面被环球网浏览器显示出来，用户可以输入语音。同时发送的HTML标签规定用于识别这一语音输入的语音识别器。为了识别语音输入，客户机通过通信网络跟语音识别器建立连接。语音输入被发送给语音识别器，在那里识别，并且将识别结果返回给例如客户机。

在本发明的一个优选实施方案中，当多个客户机访问一个HTML页的时候，为每个客户机分配一个不同的HTML标签。为此，当多个客户机访问相应的HTML页的时候，服务器分配语音识别器的不同地址给这个HTML标签。有许多客户机访问HTML页面的时候，能够用多个语音识别器处理语音输入，从而保证更快地识别。当来自不同时间区的用户进行访问的时候，可以分配相应时间区域的语音识别器。将上面描述的分配器用于分配语音的识别器的时候，当多个客户机访问同一个HTML页面的时候，HTML标签说明分配器的不同地址，如果分配器控制的语音识别器在语音识别的过程中不能满足质量要求。

在本发明的一个优选实施方案中，通过额外的软件在客户机上对语音输入进行预先处理。这个额外的软件可以在下载基于语音输入的HTML页面的时候从相应的服务器下载下来。也可以选择将额外的软件作为环球网浏览器的一个选择，或者在本地将它安装在服务器上。下载相应HTML页面的时候启动这个额外的软件，当用户输入语音的时候提取语音输入的特征。能够作为电信号的语音输入被数字化，用于进行相应的分析，产生特征矢量。当客户机已经建立起到HTML标签中设置的语音识别器的一个连接的时候，或者跟分配器建立连接的时候，这些特征矢量通过通信网络被发送给语音识别器或者分配器。语音识别器完成计算量繁杂的识别。作为客户机提取特征的结果，语音输入被压缩和编码，从而减少要发送的数据个数。此外，客户机一侧要进行的特征提取的时间被缩短，从而使语音识别器只对提供给它的特征矢量进行识别。这样减少对于要频繁使用的语音识别器来说很有好处。

在本发明的再一个实施方案中，在HTML标签中给出说明，告诉语音识别器或者分配器如何使用识别结果。这些说明可以决定识别出来的语音输入如何返回给客户机或者服务器。例如返回给服务器的时候，可以将另外一个HTML页面从服务器发送给客户机。返回给客户机的识别出来的结果也可以按照特定的判据从识别出的文字信息获得。

本发明还涉及一种服务器，在它的基础上储存客户机能够提取的信息单元，这个客户机能够跟一个或者多个语音识别器连接起来，其中额外的信息被分配给信息单元，以便在客户机和语音识别器之间建立连接，用于识别输入的语音信号。

此外，本发明还涉及一种客户机，它能通过通信网络跟一个或者多个语音识别器连接，提取服务器上的信息单元，其中的额外信息被分配给信息单元，在客户机和语音识别器之间建立一种组合，用于识别输入的语音信号。

下面将参考附图，详细地描述本发明的优选实施方案实例，其中：

图1说明语音识别器的分配，

图2说明具有一个分配器的语音识别器的分配，和

图3说明各种客户机对HTML页面的访问和语音识别器的分配。

图1说明语音识别的方法。客户机1、2和3通过通信网络6跟服务器5连接。从这个服务器5，客户机1、2和3下载HTML页面4形式的信息单元4。这些HTML页面4通过环球网浏览器13在客户机1、2和3上显示出来。客户机1～3请求获得的HTML页面4储存在服务器5上。服务提供商希望通知用户的信息单元4的内容由服务器5通过HTML代码发送给客户机1、2或者3。这个HTML编码的数据流包括格式化指令和额外的信息12，例如，除了要显示的内容以外HTML标签12的形式。

HTML页面4使得用户能够输入语音信息，而被显示HTML页面4的内容不必跟语音输入的内容连接。

客户机在用户启动的时候建立到服务器5的连接，或者通过一条链路请求获得相应的HTML页面。在发送HTML页面给客户机之前，服务器5在分配的HTML标签12中给这个HTML页面4分配语音识别器的地址。在需要的时候将要使用的语音识别器18的类型，语音识别器的参数，或者识别结果的使用细节这样的细节分配给HTML标签。

载入包括HTML标签12的HTML标签页面4的时候，启动额外的软件14。这个额外的软件14提取可以作为电信号获得的语音输入的特征。额外的软件14可以是环球网浏览器13的一部分，或者就安装在客户机1、2或者3上。

客户机跟其地址在HTML标签12中给出了的语音识别器7、8或者9建立连接。这个语音识别器接收额外软件14产生的特征流，并且对语音输入进行语音识别。在语音识别器7、8或者9识别完语音输入以后，从语音识别器7、8或者9返回客户机1、2或者3，作为文字或者语音给出。

在另外一个实施方案中利用HTML标签12中的成分可以确定如何使用识别结果。除了返回客户机1～3以外，有可能将识别结果发送给服务器5，然后再发送一个HTML页面4给客户机1～3(用线条16表示)。例如，阅读作为HTML页面4显示出来的日报的时候，客户机1的用户可以说“当前温度”。这个语音输入被随后发送给HTML标签12中分配的语音识别器7～9，让它们进行语音识别。在说明了如何使用语音识别结果的时候，识别结果不返回客户机1，而是发送给服务器5。服务器5可以随后将当前的温度信息发送给客户机1，它可以作为文字发出也可以作为语音发出。

图2说明另外一个实施方案实例。每个客户机1～3都从服务器5下载一个HTML页面4，而HTML页面的内容不同。这些HTML页面4每个都有一个HTML标签12。这些HTML标签12包括分配器的地址17。除了分配器10的地址17以外，这个HTML标签12还包括关于如何使用识别结果的细节，包括要使用的语音识别器的类型信息和/或语音识别器参数。

分配器10控制着一组语音识别器。这些语音识别器也可以是不同类型的。标为7的一组包括类型是Ra的各种语音识别器Ra，n。标为8的一组包括类型是Rb的语音识别器Rb，n。标为7的这一组Ra类型的语音识别器Ra，n是专门用于识别数字的。标为8的这一组Rb类型的语音识别器Rb，n是专门用于识别“是/否”的。分配器10按照相应的HTML标签12中说明的语音识别器的类型分配各种客户机1～3的语音输入。

客户机1和2激活的分配分配器10的HTML页面4可以按照要使用的语音识别器18的类型交给Ra类型的语音识别器。客户机1和2的语音输入被组7的分配器10分配给语音识别器Ra，n。客户机3激活的HTML页面4需要按照语音识别器18采用的类型Rb的语音识别器。客户机3的用户输入的语音信息被组8的分配器10分配给类型Rb的语音识别器。

当一个语音识别器Ra，1忙于处理语音输入的时候，分配器10将下一个语音输入分配给相同类型的语音识别器Ra，2。相应的识别结果被语音识别器返回给客户机1～3然后在那里进行处理。

图3说明多个客户机1～3同时访问同一个HTML页面4。通过环球网浏览器13显示HTML页面4的时候，它们显示同样的内容。每个HTML标签12都在地址字段17中包括一个IP地址，以及从客户机1、2或者3到语音识别器7、8或者9的TCP/IP链路的套接口。这样，HTML页面4的服务提供商在服务器5中确定处理用户语音的语音识别器7、8或者9。每次客户机1、2或者3通过因特网启动相应HTML页面4的时候，服务器5都给HTML页面4分配一个HTML标签12，这个标签确定相应语音识别器7、8或者9的地址17。当HTML页面4由各个客户机1～3同时激活的时候，如果这个HTML页面4只有一个固定的语音识别器7、9或者9，就不难对语音输入进行快速处理。因此在这种情况下，每个客户机1、2或者3通过相应HTML标签12中的不同地址17为相应的HTML页面4激活另外一个语音识别器7、8或者9。例如，当客户机1下载HTML页面4的时候，将语音识别器7分配给HTML标签12。语音识别器8被分配给客户机2对语音输入进行语音识别，语音识别器9被分配给客户机3。这样就能够保证对所有三个用户(客户机1～3)的语音输入进行快速和可靠的语音识别。

下面给出一个实例，说明如何分配语音识别器。客户机1激活关于影院节目的一个HTML页面4。客户机2激活关于足球节目的一个HTML页面4，客户机3激活关于航空公司的HTML页面4。显然，这三个HTML页面4都具有不同的语音输入。HTML页面4的服务提供商了解预期的词汇，通过有关的HTML标签12和每个HTML页面4分配一个专门的语音识别器7、8或者9。

对于能够输入多个语音信息的HTML页面4，例如填表的时候，可以为对应的语音输入栏分配不同的语音识别器7、8或者9，这些语音识别器都放在一个或者多个HTML标签12中。当前处理哪些语音输入可以通过关键字，通过建立用户查看的方向，鼠标器靠得多近，优先级或者是顺序来区分。

Claims

1.一种方法，允许进行语音输入的信息单元储存在服务器上，能够由客户机提取，其中的客户机能够通过通信网络跟一个语音识别器连接，额外的信息(12)被分配给信息单元(4)，这些额外的信息(12)被用于确定客户机(1、2、3)跟语音识别器(7、8、9)中至少一个的组合，用于识别已经输入的信号。

2.权利要求1的方法，其特征在于额外信息(12)包括，除了分配语音识别器(7、8、9)的地址(17)以外，说明如何处理识别结果和/或语音识别器(18)的类型和/或要传输给语音识别器(7、8、9)的参数。

3.权利要求1的方法，其特征在于额外信息(12)被服务器(5)分配给信息单元(4)。

4.权利要求1的方法，其特征在于具有分配的额外信息(12)的信息单元(4)被客户机(1、2、3)载入。

5.权利要求1～4之一或多个的方法，其特征在于从客户机(1、2、3)向语音识别器(7、8、9)的地址(17)传输语音信号输入用于识别，这个地址由额外信息(12)说明。

6.权利要求1的方法，其特征在于额外信息(12)包括传输语音信号的分配器(10)的地址(17)，并且被分配给多个语音识别器(7、8、9)中间的一个。

7.权利要求1的方法，其特征在于信息单元(4)是用HTML页面(4)和作为HTML标签(12)的额外信息(12)实现的。

8.权利要求1～7之1的方法，其特征在于有不同的客户机(1、2、3)同时访问同一个HTML页面(4)的时候，每个客户机(1、2、3)都在HTML标签(12)中分配语音识别器(7、8、9)的不同地址(17)。

9.权利要求1或者7的方法，其特征在于客户机具有额外软件(14)，用于提取给客户机的语音信号的特征，下载包括HTML标签(12)的HTML页面(4)的时候启动这些软件。

10.权利要求1～9中一个或者多个的方法，其特征在于在特征提取过程中获得的语音信号的特征流被提供给HTML标签(12)说明的语音识别器(7、8、9)，这个语音识别器(7、8、9)进行语音识别，并且根据HTML标签(12)中包括的信息，将识别结果返回给客户机(1、2、3)。

11.权利要求10的方法，其特征在于识别结果被按照HTML标签(12)中包括的信息返回给服务器(5)。

12.储存客户机(1、2、3)能够提取的信息单元(4)的一种服务器(5)，客户机(1、2、3)能够跟一个或者多个语音识别器(7、8、9)连接，额外的信息(12)被分配给信息单元(4)，用于确定客户机(1、2、3)和语音识别器(7、8、9)的组合，识别输入的语音信号。

13.一种客户机(1、2、3)，能够通过通信网络(6)跟一个或者多个语音识别器(7、8、9)连接，并且能够提取储存在服务器(5)上的信息单元(4)，额外的信息(12)被分配给信息单元(4)，用于确定客户机(1、2、3)和语音识别器(7、8、9)的一个组合，用于识别输入的语音信号。