CN1350685A

CN1350685A - 采用多个语音识别器的方法

Info

Publication number: CN1350685A
Application number: CN00807383.XA
Authority: CN
Inventors: M·乌尔里希; E·特伦; S·贝斯林
Original assignee: Koninklijke Philips Electronics NV
Current assignee: J Kanso J Te Co.
Priority date: 1999-03-09
Filing date: 2000-02-10
Publication date: 2002-05-22
Also published as: WO2000054252A2; WO2000054252A3; DE19910234A1; KR20010108330A; JP2002539481A; AU2672100A; EP1163660A2

Abstract

本发明涉及一种方法,其中使语音输入成为可能的信息单元(3)被存储到一个服务器(1)中,并可以由客户(2)来获取,客户(2)可以通过通讯网络(6)连接到多个语音识别器(7－9)上,用户的语音输入被应用到至少一个语音识别器(7－9)中,来产生至少一个识别结果(11－13),在多个独立的处理中翻译识别结果(11－13),产生多个翻译结果(22－24)发送给用户。于是,用户在短时间内接收多个合格的信息条目,否则要获取这些信息,用户不得不多次通过语音输入在数据库中进行一个查询。

Description

采用多个语音识别器的方法

本发明涉及一种方法，其中一个使语音输入成为可能的信息单元被存储到一个服务器中，并可由用户获取。

通过语音输入替代键盘或鼠标输入实现与计算机通讯的可能性可使用户减轻用户使用计算机工作的负担，通常可以增加输入的速度。语音识别可以被用于许多领域，目前在这些领域中，数据输入是通过键盘来实现的。

EP 0 872 827描述了语音识别的一个***和一种方法。一个运行语音识别压缩软件的客户通过网络连接到语音识别服务器上。该客户发送一个语音识别语法和语音输入数据到语音识别服务器。语音识别服务器进行语音识别并将识别结果返回给客户。

当一个用户对信息感兴趣时，他在所熟悉的位置寻找这一信息。事实上，该用户通常并不知道某一区域有一个以上的服务提供者。不同的服务提供者对用户的相应需求的响应是不同的。但多数情况下，用户不知道哪里有更多的信息源。即使他知道，他也不得不进行一个新的查询。这是很耗时的。

因此，本发明的一个目的是在一个短暂的时间里给用户提供尽可能多的信息。

可以按下面的方法来实现这一目的，通过一个通讯网络将客户连接到多个语音识别器上，一个用户的语音输入被应用到至少一个语音识别器，产生识别结果，在多个独立的处理中翻译识别结果，产生提供给用户的多个翻译结果。

一个服务器提供者在服务器中存储一个信息单元，它的信息使语音输入成为可能。客户从这个服务器上下载一个信息单元，使语音输入成为可能。服务器是一个通讯网络，例如因特网中的计算机，其中存储提供者的信息并可以被客户获取。一个客户是一台计算机，连接到服务器用来从因特网上获取信息并下载存储在服务器上的通过软件表示的信息单元。该信息单元由客户提供，以便用户可以接收到该信息单元的内容。要求用户通过信息单元来输入语音，或者，由于通常该信息单元已经被调用，通知用户可以输入语音。用户完成一个语音输入后，该语音输入被应用到一个或多个语音识别器中。每个单独的语音识别器执行语音识别，并各自产生一个语音识别结果。每个识别结果需经过一个翻译。利用识别结果在独立的处理中形成翻译的结果。为了翻译一个识别结果，要对识别的结果进行分析。所以，识别的结果被细分为一些组件部分，例如查找关键词。对于后期的查询，识别结果中那些不感兴趣的部分被忽略。然后，从语音识别器或从一个数据库中分析识别的结果。因此，为了分析识别结果，必须具备有关语音输入的内容的信息。通过信息单元的内容来确定可能的语音输入的内容。通过这一分析，为一个数据库进行查询。而后，该查询被送入到单独的数据库中，由此产生多个独立产生的翻译结果。对于用户的语音输入的响应质量起决定性影响的一个重要方面是用于查找一个查询响应的数据库。独立的数据库的数目是不断上升的。而且，有大量的商业数据库可以用来帮助查找响应。由于识别结果被分配到多个翻译的数据库中，当需要查找响应时，要把这些独立的数据库结合起来。

可以在不同的费用等级上使用语音识别来产生识别结果。语音识别器不仅通过其规模和专用词汇，而且通过其执行语音识别的算法来区别。一个好的数据库查询要求一个由用户通过语音输入所进行的该查询的一个好的识别结果。

语音识别器或数据库的翻译结果或者被自动送回给客户，或者由服务器令其有效，这样用户可以获取所需的单独的翻译结果。在任一种情况下，翻译结果通过客户以一种用户可以接收到的形式来提供。

由于信息单元与一个或多个语音识别器的组合，提供给用户语音输入查询的多个相应。结果是，他接收到信息，如果不用该方法，他不得不通过相当长的时间延迟来启动一个以上的查询才能获取这些信息。

除了在语音识别中不同的识别结果，基于不同的数据库，独立的识别结果的独立的翻译产生不同的翻译结果，每个翻译结果给出一个用户语音输入的响应。通过语音输入的一个单一翻译，或者是仅有限数目的最可能的响应被送回给用户，或者是用户将收到内容与查询相差很多的响应。一个或多个识别结果的多个翻译的结果是，在相同的时间里告知用户至少两倍的信息量。

当语音输入被仅分配给一个语音识别器时，识别结果被送给多个翻译处理，全部产生一个翻译结果发还给客户或由用户获取，这样对用户的查询提供了多个相应。

在本发明的进一步的实施方案中，证明在客户端处理语音识别是有优势的。为此，当加载了信息单元时，在客户机上启动附加的软件，附加的软件提取语音输入的特征。该附加软件将可用的语音输入当作电子信号数字化、量化并提交给相应的分析，产生组件，为其分配特征向量。然后这些特征向量被传送给连接的语音识别器。语音识别器进行透彻的计算识别。在客户端进行的特性提取的结果是，语音输入被压缩并编码，以便减少传送的数据数量。而且，减少了客户端的特征提取所需的时间，以便语音识别器仅进行所应用的特征向量的识别。采用频繁使用的语音识别器，这一缩减是很有优势的。当语音输入被分配到多个语音识别器中时，仅需执行一次处理是具有优势的。如果不在客户侧进行特征提取，每个所选的语音识别器都要执行这样的特征提取。

如一个本发明的进一步的实施方案，建议客户以HTML页(超文本链接标示语言)的形式从服务器下载信息单元。这一HTML页在客户机中通过万维网浏览器来显示。客户通过链接到服务器建立一个连接，在该链接中，存储着用户关心的HTML页。除了描述的文字外，HTML页可能包含图形符号、音频和/或视频数据。HTML页要求用户通过一个指示进行语音输入。用户语音输入之后，将该语音输入从客户传送到一个或多个语音识别器。然后，在其中进行语音识别。而语音识别的结果的质量明显取决于指定的语音识别器的情况。语音识别器通过通常限定在特定领域的词汇来工作。因此，要得到一个可用的识别结果，指定语音输入所传送到的语音识别器是很重要的。看情况，识别结果或多个识别结果由翻译过程来决定。为此，例如分析所识别的语音输入来建立一个数据库，在该分析的基础上，对该数据库的数据文件进行一个查询。产生的翻译结果被自动送回到客户或由客户来获取，并在那里通过一个万维网浏览器来表示。现在用户可以从多个翻译结果中进行一个选择。这一操作与查阅多个词汇相比，具有节省时间的优势。

在本发明的进一步的实施方案中，体现了多个对象，例如在一个HTML页上公司的广告，每一个产生一个可能的输入。为每个对象分配一个通过通讯网络连接的语音识别器，用户的语音输入被发送到语音识别器。语音识别器执行语音识别，并将单独的识别结果传动给独立的翻译处理。翻译结果以图形表示的形式或作为音频信号送还给客户或由用户获取。

例如，如果象广告标题这样可实现的对象，由工作在同一商业线路上的公司提供，可以为用户介绍多个竞争公司所提供的对象，作为其语音输入和多个平行处理的结果。

由于通过鼠标点击广告标题，或者遵循用户的设想，或者给出独立对象的多个语音输入选项的优先权，通过一个HTML页上显示的非竞争公司的广告标题，关于一个特定广告标题的用户语音输入被传送给为一个对象分配的语音识别器。因而，将语音输入或处理过的语音输入存储到一个客户存储器中，或者将识别结果发送回客户是具有优势的，这样为了另一个翻译处理，用户可以利用通过任意方法得到的这一媒体结果。然后，如果一个语音输入被存储起来，存储的语音输入或识别结果被传送到另一个语音识别器中，以便能够更多的翻译产生进一步的翻译结果。

在一个进一步的实施方案中，从通过语音输入启动的万维网浏览器提供的多个对象中做一个选择。用户从显示的全部数量的对象中选择几个对象，例如，通过点击鼠标。然后，仅将语音输入发送到这些选择对象的语音识别器中。

在本发明的一个进一步的实施方案中，服务器以HTML页标记的形式将附加的信息分配到每个对象中，通过一个语音识别器来组合对象。结果是，当下载该HTML页时，通知对象发送到因特网上的哪一个语音识别器来处理。

而且，通过这一附加信息，还可以指定进行识别结果翻译的数据库。结果是，HTML页提供者决定识别结果或查询被发送给哪一个数据库。

根据由语音识别器来决定识别结果被发送到哪一个数据库的可能性，提供了本发明的一个进一步的优选实施方案。这实现了关于用户查询在哪一个数据库上处理的决策转移。当为相应对象指定语音识别器的HTML页提供者对于该数据库来说不是最新的，而语音识别器的操作者是最新的并且是他指定了该数据库时，由此产生的结果提高了请求的响应质量。

通过一个介绍新的书籍出版情况并可以切换多个不同出版社的广告标题的HTML页，独立于出版社的HTML页可以把有关一个相应领域的新的出版情况的用户查询识别结果发送到用户可以得到的所有数据库中。结果是，用户很快接收到大量有关相应领域的新的书籍出版信息。

而且，该目的也可以通过一个服务器来实现，该服务器上存储一个可以由客户获取的信息单元，提供：

-客户可以连接到一个或多个用于产生多个发送给用户的翻译结果的语音识别器上，和

-一个语音输入被应用到至少一个用于产生识别结果的语音识别器中，并且该识别结果在多个独立处理中进行翻译，和

-为了确定使语音输入成为可能的对象与用于产生识别结果的语音识别器的组合，为对象分配附加的信息。

本发明的这些和其它的方面是很明显的，将参考以下描述的实施方案来加以阐述。

附图中：

图1示出一个用于实现依照本发明的方法的配置的模块图，

图2示出一个具有一个语音识别器的依照本发明的方法的模块图，

图3示出一个具有并行语音识别器的依照本发明的方法的模块图，和

图4示出一个具有利用一个综合数据库的并行语音识别器的依照本发明的方法的模块图。

图1通过例子来显示一个实现本发明方法的配置。在服务器1上存储一个信息单元3。服务器1可以通过通讯网络6连接到客户2。通过该通讯网络6，下面称为因特网6，可以将语音识别器7-9连接到客户2。也可以通过因特网6，将数据库5连接到客户2，语音识别器7和9，以及服务器1。

提供者将信息单元3存储到服务器1，允许一个用户存取信息，例如，通过该提供者。信息单元3不仅包含呈现的内容和指令格式，而且包含附加的信息4。用户可以从服务器1上下载他所关心的信息单元3，在后面以HTML页3为参考。为此，为服务器1建立一个基于TCP/IP协议的连接。在客户2运行软件，例如，该软件可以通过一个万维网浏览器来实现，通过该软件将HTML页3显示给用户。客户2包括一个存储器25，其中存储着用户发出的语音输入或通过一个语音识别器发回给用户的识别结果。

图2显示信息单元3，以语音输入选项的形式为用户提供一个交互性。对象19、20和21为广告标题，例如为用户展示汽车公司的广告。而且，为了让用户发出一个语音输入，他们指示用户这一HTML页3提供了一个语音输入选项，例如通过闪烁的文字，如“告诉我们你对那种汽车感兴趣”。在这一实施方案的例子中，所有的三个广告标题19、20和21都期待一个相似的语音输入。所以，语音输入通过因特网6传送给仅一个语音识别器7。例如，为了查找一部汽车，用户可以说出其感兴趣的概念或单词组，通过输入设备10送入到客户，并传送给语音识别器7。通过附加的软件(没有显示在图上)，在客户2上进行语音输入的特征提取，这样仅将以压缩形式放置到特征向量中的语音输入特征提供给语音识别器7。语音识别器7进行语音识别并产生一个识别结果11。分析该识别结果11并作为一个查询将识别结果从语音识别器7发送到数据库14、15和16。在这一情况中发送到数据库14、15和16的查询是相同的。

数据库也可以被放置到与语音识别器7相同的服务器中。然而，也可以将查询发送给置于不同服务器的数据库。而后，可以观察到语音识别器7属于HTML页3的提供者或由其租用。由于提供者知道查询是根据给HTML页上的汽车来进行的，所以为了识别语音输入将客户连接到一个特定的语音识别器上。数据库14包含广告标题19的汽车公司的文件数据。数据库15包含广告标题20的汽车公司的文件数据，数据库16包含广告标题21的汽车公司的文件数据。然后搜索数据库14、15和16查找符合查询的信息。这一操作也被认为是翻译。数据库14、15和16各自产生一个翻译结果22、23和24，通过因特网6传送后显示在客户2上。将翻译结果22同广告标题19的汽车公司的报价一起，翻译结果23同广告标题20的汽车公司的报价一起，翻译结果24同广告标题21的汽车公司的报价一起提供给用户。

在这种方式下，三个不同数据库14-16的信息被指定为用户可用的。例如，现在，他从拥有广告标题19的汽车公司的文件中接收到一个汽车的报价，从拥有广告标题20的汽车公司的文件中接收到一个汽车的报价，从拥有广告标题21的汽车公司的文件中接收到一个汽车的报价。

语音输入和/或识别结果被发送到的哪一个语音识别器和/或数据库的信息通过HTML页的提供者给出，而他是从广告标题的顾主处接受到这些信息。

HTML页的提供者可以将用于分析识别结果的重要信息传输到语音识别器或数据库中。

为连续查询，存储器25扩展配置，语音输入被存储到存储器25中。也可以使存储器25存储已经产生的识别结果。在这种情况下，用户可以连续查询多个数据库，而不用每次都重复语音输入或还要进行语音识别。

图3显示一个方法的配置，其中语音输入被传送到三个不同的语音识别器7、8和9中。相应地，要求对象19、20和21的用户发出一个语音输入。语音发言被传送到语音识别器7、8和9，各自产生识别结果11、12和13。语音识别器7-9分析识别结果11、12和13，并为数据库14、15和16各自准备一个查询。一方面，由于识别结果11、12和13是不同的，因为它们是由不同的语音识别器7-9产生的，另一方面，不同的查询是在分析期间通过不同的识别结果11、12和13产生的，要求被应用到不同的数据库14、15和16中，用户通过客户端的翻译结果22、23和24，接收基于不同数据库的三个响应。

当在数据库中而不是在语音识别器中进行识别结果分析时，有一个进一步的实施方案。数据库14-16可以通过特定包含在相应的数据库中的关键词来对单独的识别结果11、12和13进行分析。

在电视节目中，不同电视台对相应的特征的表示是不同的。例如，对一个电视台来讲一个“儿童电影”特征可以被另一个电视台认为是“把戏电影”。如果用户现在说出他希望看一部把戏电影，通过指定语音识别器识别其语音输入，并类似地在一个相应的数据库中进行翻译，这样最后会提供给用户被两个电视台称为把戏电影或儿童电影的电影。

图4显示一种配置，其中数据库14-16与语音识别器7-9相结合。可以利用较小的数据文件来结合数据库14-16和相应的语音识别器7-9。而且，这里提供了从相应的广告标题19-21到相关的翻译结果22-24和相关的数据库14-16之间的双向链接。一个数据库14-16中的查询响应可能很大，这样在客户端表示翻译结果22-24是不明智的。在这种情况下，例如，仅将发现的语音输入的响应的数量发回给客户并显示。例如，当用户想看拥有广告标题19的公司的翻译结果21时，他可以请求并从数据库14中获取结果。然后该结果被显示在客户2上。

Claims

1.一种方法，其中使语音输入成为可能的信息单元(3)被存储到一个服务器(1)中，并可以由客户(2)来获取，客户(2)可以通过通讯网络(6)连接到多个语音识别器(7-9)上，用户的语音输入被应用到至少一个语音识别器(7-9)中以产生识别结果(11-13)，在多个独立的处理中翻译识别结果(11-13)，产生多个翻译结果(22-24)提供给用户。

2.如权利要求1的方法，其特征是翻译结果(22-24)被自动返回到客户(2)或由客户获取。

3.如权利要求1和2的方法，其特征是语音输入被并行应用到多个语音识别器(7-9)中以产生识别结果(11-13)。

4.如权利要求1-3之一的方法，其特征是在客户(2)上运行用于提取语音输入特征的软件，提取的特征被应用到指定的语音识别器(7-9)中。

5.如权利要求1的方法，其特征是信息单元(3)按照HTML页(3)来实现的，在一个HTML页(3)上发现多个对象(19-21)，其中每个对象(19-21)使语音输入成为可能并且与一个语音识别器(7-9)组合。

6.如权利要求5的方法，其特征是用于组合对象(19-21)和一个相应的语音识别器(7-9)的附加信息(4)通过服务器(1)分配给对象(19-21)。

7.如权利要求1-6中一个或多个的方法，其特征是一个语音输入和识别结果(11-13)被缓冲到存储器(25)中，以便根据缓冲的数据连续执行多个翻译处理。

8.业主服务器(1)，其中存储一个使语音输入成为可能的信息单元(3)，信息单元(3)可以由客户(2)获取，提供：

-客户(2)可以连接到一个或多个语音识别器(7-9)上，用于产生多个发送给用户的翻译结果，和

-一个语音输入被应用到至少一个用于产生识别结果(11-13)的语音识别器(7-9)中，并且该识别结果(11-13)在多个独立处理中进行翻译，和

为了确定使语音输入成为可能的对象与用于产生识别结果(11-13)的语音识别器(7-9)的组合，为对象(19-21)分配附加的信息(4)。